河南日报客户端记者 李林 杨之甜
7月12日,记者获悉,在前不久举办的世界人工智能大会上,“数字甲骨共创中心”宣布将全球最大的甲骨文多模态数据集正式开源。该数据集包含一万片甲骨的拓片、摹本,以及甲骨单字对应位置、对应字头、对应隶定字以及辞例分组、释读顺序等数据。基于该数据集,研究人员可开发甲骨文检测、识别、摹本生成、字形匹配以及释读等方向的智能算法,助推甲骨文研究加速数字化和智能化。
据介绍,数字甲骨共创中心由安阳师范学院甲骨文信息处理教育部实验室、腾讯SSV数字文化实验室、腾讯优图实验室、中国社会科学院甲骨学殷商史研究中心、中国社会科学院考古研究所安阳工作站、厦门大学多媒体可信感知与高效计算教育部重点实验室、郑州大学汉字文明研究中心等单位共同发起建立,吸纳了来自中国社会科学院古代史研究所、英国剑桥大学、法国高等研究实践学院、日本立命馆大学、美国罗格斯大学、加州大学洛杉矶分校等高校和研究机构的专业科研力量支持。
值得一提的是,腾讯公司在刚刚启动的探元计划2024项目中,联合数字甲骨共创中心发布甲骨文AI破译需求,揭榜挂帅,期待与有技术储备、有意愿共创、致力于AI助力甲骨文破译的科研机构共同形成解决数字文化演示方案,助力甲骨文破译。经过最终遴选评审的合作伙伴将获得20万元资助,一起共创甲骨文AI考释破译的新算法、新工具、新方法。
甲骨文是汉字源头,也是迄今为止中国发现的年代最早的成熟文字系统,它记录了商代政治、经济、军事、文化等诸多方面的内容,展示了中华民族的智慧和创造力,为古文字研究和传承、中华文明探源以及中国上古史体系的构建提供了第一手史料。
但甲骨文研究存在众多难点。甲骨自然损坏速度较快,保存、展示、利用不易,且出土甲骨都分散收藏于国内外。同时,甲骨文研究专业门槛高,近七成已发现甲骨文还尚未释读,也急需提升考释效率。近年来,随着AI技术的快速发展,探索AI与甲骨文研究相结合,成为了研究人员的解题思路。
高质量的AI算法则非常依赖高质量的甲骨文数据集。过往,业界的甲骨文数据集存在信息简陋、标注信息较简单以及单一数据集字数较少等问题,比如检测数据集,只能把字抠出来,不知道字是什么;字符识别数据集,只能认几百个字;因为专业知识缺乏,有些标注信息不完善等。这些也成为了甲骨文智能算法开发的一大掣肘。
此次开源的甲骨文多模态数据集集合了甲骨文数字化研究的最新成果。
一方面,该数据集吸收了当前业界最先进的甲骨文研究资料,包括剑桥大学博士秦培超发布的镜元甲骨文字库,该字库考虑了人工智能标注需求的字库进行了细粒度的异体字标识;以及清华大学黄天树教授发布的《摹本大系》,得益于其具有大量甲骨片清晰字形,降低了标注的难度。
另一方面,AI相关技术的应用也为数据集的信息丰富提供了支撑。比如由腾讯优图实验室联合安阳团队开发的甲骨字检测模型,可以对甲骨片上的字进行一个初步的标注;字形降噪与匹配模型,为检索提供了最直接的方法;甲骨校重算法,可以实现拓片与大系摹本的配准,使得大系摹本可以直接辅助拓片的标注;同时双方联合打造的协同创新平台,也大大提升了数据标注的效率。
此外,数据集专业复查以甲骨文信息处理实验室的研究生为主力,充分融合了甲骨文知识和机器学习知识的专业知识,也大大提升了数据集在AI算法研究场景下的可用性。
中国社会科学院学部委员宋镇豪表示,甲骨文是中华文明的重要瑰宝,甲骨文研究不仅有助于揭示中国上古信史,还能为现代汉字由来和汉语研究提供标志性依据。通过AI技术的应用,有望加快甲骨文探析进程,解决长期困扰学界的疑难问题。希望更多的科研机构和专家学者加入到这一伟大事业中,共同拓展甲骨文研究工作新天地。