12月5日,据厦门大学公众号消息,厦门大学信息学院自然语言处理实验室史晓东教授团队申报的“基于甲骨文多模态大模型的多元信息甲骨文辅助考释模型”项目,成功入选“探元计划2024”的“创新探索型项目”TOP10榜单。
图片来源:厦门大学公众号
甲骨文,作为世界四大古文字之一,距今已有三千多年历史,被誉为现代汉字的根脉。然而,传统的甲骨文字考释工作却异常艰巨,需要考古专家凭借深厚的知识积累和大量的文献阅读,通过字形分析、辞例研究等方法进行人工释读。随着AI技术的迅猛发展,利用深度学习模型的强大语义表示能力来辅助甲骨文的考释工作,逐渐成为了一个新的研究方向。
图片来源:厦门大学公众号
针对甲骨文数据稀缺且图像质量参差不齐的现状,厦大团队系统整理了相关古文字数据,构建了一个更大规模、更高质量的甲骨文多模态数据集。在此基础上,他们提出了“基于甲骨文多模态大模型的多元信息辅助考释模型”的技术方案,旨在通过AI技术提升甲骨文考释的效率和准确性。
该项目将设计一系列与实际考释过程密切相关的任务和评估方法,包括跨字体图像映射、跨字体IDS(表达结构的部首偏旁序列)解码以及甲骨字与现代字的对译关系等。这些任务和方法的设计,旨在有效训练多模态大模型,利用其跨模态的理解能力来辅助甲骨文的考释工作。
此外,项目团队还计划在大模型提供的语义嵌入基础上,设计融合音、形、义、用多元信息的端到端甲骨文综合考释模型。这一模型将综合利用字形结构、语义关联、同音通假和用法聚类分析等多种方法,开发一种更加轻量的考释系统。该系统旨在适应资源有限的实际考释场景,为甲骨文的考释工作提供新的解决方案。
据悉,“探元计划2024”是由国家文物局科技教育司指导,联合中国文物信息咨询中心、腾讯SSV数字文化实验室、腾讯研究院、社会价值投资联盟(深圳)以及中国文物报、紫荆杂志社共同发起。(文智)