【AI模型需进化为语言学家,理解人类语言】
在人工智能领域,让计算机理解人类语言始终是一项重大挑战。早期自然语言处理模型依赖人工设计特征,效果欠佳,甚至导致AI研究一度停滞。但随着统计模型和大规模预训练模型的兴起,特征抽取变得自动化,但模型仍未能真正理解人类语言。因此,研究者开始反思:是否应从语言最初形态出发,重新探索人类获得语言能力的机制。
近期,康奈尔大学、麻省理工学院和麦吉尔大学的研究人员在Nature Communications上发表了一项研究,提出了一个算法合成模型框架,从词法音位学(morpho-phonology)入手,教AI直接从声音中构建语言。词法关注语素在组合成词时的音变规律,该研究通过收集58种语言的音位教科书数据,发现模型能从一个或几个样例中获取新的词法音位规则,并提取出跨语言的通用模式。
然而,当前AI模型无法总结规则,形成可理解的理论框架。为了解决这个问题,研究人员在构建模型时考虑了“如何描述一个词”,包括词的概念、意图、用法、发音及含义等。他们采用了一种基于约束的程序合成策略,结合贝叶斯程序学习(BPL)方法,将语法规则建模为编程语言中的程序,以生成性代表正式确定通用语法。
尽管这种方法在实验评估中取得了不错的效果,但在处理大型和复杂的理论时仍面临挑战。为此,研究人员借鉴了儿童学习语言和科学家建立理论的方式——逐步丰富对语法和词汇的掌握。他们设计了一种程序合成算法,从小程序开始,通过反复使用SAT求解器来寻找小的修改点,使其能够解释越来越多的数据。
实验评估显示,该模型在大多数问题中都能发现正确的词表并解释大部分词库。当系统得到所有词库的正确性时,它几乎不会引入无关的规则(高精度),且几乎总是得到所有正确的规则(高召回率)。这一研究表明,AI模型正在逐步进化为“语言学家”,有望在未来更好地理解人类语言。
研究链接:https://www.nature.com/articles/s41467-022-32012-w