AI在甲骨文破译中的新尝试:多模态大模型助力古老文字考释
近日,厦门大学信息学院自然语言处理实验室史晓东教授团队申报的“基于甲骨文多模态大模型的多元信息甲骨文辅助考释模型”,成功入选“探元计划2024”的“创新探索型项目”TOP10榜单。这一项目旨在利用人工智能技术,对古老的甲骨文进行破译,为传统文字学研究注入新的活力。
甲骨文,作为汉字的源头和中华优秀传统文化的根脉,其破译工作一直备受关注。然而,尽管出土了16万片甲骨文,包含单字四五千个,但考释出的仅约三分之一。为了鼓励更多人才参与甲骨文的破译工作,中国文字博物馆曾发布“甲骨文释读优秀成果奖励计划”,破译一个未解甲骨文字即可获得10万元奖励。然而,这一计划实施以来,仅有一位教授成功破解了一个字,获得了10万元奖金。
甲骨文的复杂性在于其“一字多义”的特点,以及与现代汉字字形之间的一对多关系。例如,“手”在甲骨文中可对应多个现代汉字,如“手”、“爫”、“又”、“右”、“寸”等。此外,甲骨文中普遍存在一字多义的现象,使得解读变得更为困难。
史晓东团队在古籍和人工智能跨领域方面有着多年的探索经验。他们利用大规模古籍语料和人工智能技术,编写了一本异体字字典,收字接近9万字,成为目前大陆最详尽的异体字字典之一。在此基础上,他们进一步将研究扩展到甲骨文的破译领域。
为了更有效地训练多模态大模型,史晓东团队设计了一系列与实际考释过程密切相关的任务和评估方法,如跨字体图像映射、跨字体IDS解码和甲骨文现代字对译关系等。同时,他们还积累了大规模的甲骨文相关语料,即甲骨文数据库,为模型的训练提供了有力的数据支持。
未来,史晓东团队设想通过上传甲骨文图像,让AI能够给出可能的现代汉字候选及其概率。尽管史晓东没有给出明确的时间表,但他表示已构建了相关数据集,多模态大模型正处于准备训练的阶段。他强调,甲骨文破译是一项长期而艰巨的任务,但AI的发展无疑将为其带来新的机遇和可能。
这一项目的成功入选不仅展示了史晓东团队在古籍与人工智能交叉研究领域的深厚积累和创新精神,也为甲骨文的破译工作开辟了新的途径。随着AI技术的不断进步,我们有理由相信这一领域将取得更多突破性的成果。