不识甲骨文也能查字海!历代千万文字智能识别,冷门绝学20年建汉字数字长城

上观新闻 作者:徐瑞哲

每一个汉字,每一个古文字,都书写着中华灿烂文明史。在计算机上打开新建立的“殷商甲骨文数据库”,就涵盖了7万余片甲骨,共计110万字。28日,华东师范大学中国文字研究与应用中心副主任刘志基告诉解放日报·上观新闻记者,甲骨文里常见“卜问”的字样,仅仅“卜”这个字,以及表示“问”的“贞”字,就各出现过几万次之多。

而今,每一次在古文字中出现的“卜”“贞”等字,以及来自铜器、竹简、石刻等材料上超过1000万个历代出土实物文字,都以文字和图像全数字化的形式,收入了智能型中国文字数字平台。这项横跨中国文字学与计算机科学等学科的新文科建设新成果,其背后是“冷门绝学”百余人团队20年磨一剑,营造出3000年汉字数字长城。


【无专业门槛,手机上“按图索骥”自动关联】


对于常人来说,不认识甲骨文,怎么查这部电子版的“字海”呢?其实,不论商周金文、战国楚简还是石刻疑难字,有了此次研发成功的“智能型中国文字数字平台”,就可以靠强大的后台数据库“按图索骥”。

刘志基向解放日报·上观新闻记者打比方,比如普通民众用手机拍下某一个古文字的影像,打开手机端的各种古文字智能识别工具“智能镜”,只要这个字未经艺术化加工和处理,而是以临摹真实的古文字为主,“那么,即使是现世仿古的古文字,也能通过检索数据库查出这是什么字,并且可以查到该字的原始‘出处’。”

这样一来,对出土古文字数据库而言,以往的两个盲点就被消除了。一方面,不识之字也可检索查询,去除了数据库使用者的专业知识门槛,大大提升了数据库的社会服务功能;另一方面,初步实现“图文”一一对应和“一对多”对应,也就是图片载体材料与传统字符集载体材料的自动数字关联,形成了古文字资料的大数据生成和机器学习环境。

值得注意的是,目前一些海内外研究机构尽管也有此类网络数据库,但材料覆盖都限于个别断代或材料类型。而智能型中国文字数字平台所包含的文字材料,覆盖了自殷商甲骨到明清文字整个汉字发展史的各种时段各种类型。其中,先秦部分基本囊括目前已公布的资料;先秦以后汇集了各时段主要代表性材料,提供全覆盖的相关文字信息定量定性检索查询。

专家认为,这个海量库也是目前唯一一种可全字符检索的出土文字数据库,涵盖了GBK国际标准字符集的集内与集外字、楷字与原形字,甚至整字与偏旁。


【颜真卿写错字?智能助学“强基计划”】

“刺史”的“刺”,颜真卿为什么写成“刾”

近日,一位书法家认为“颜真卿写错了字”,事件在网上发酵,也引起华东师大“古文字学(强基计划)”同学探讨。

经该数据库搜索早至秦简帛中,部分“刺”已写成“刾”

“刺史”的“刺”,颜真卿为什么写成“刾”?老师抓住这个契机,运用“智能检索中国文字数据库”上了一课:首先,让同学进入“石刻智能检索数据库”,运用数据库嵌入的“石刻疑难字形智能识别器”识别唐代文字中貌似“刾”的那个字,识别出了结果。原来,当时的“刺”大概率被写成“刾”,而这个“刾”中的“夹”,就是“朿”自秦汉文字以来的变形。

经战国楚简帛文字数据库等多个数据库识别,这个“刾”中的“夹”,就是“朿”自秦汉文字以来的变形。

接着,老师又引导同学接连进入“甲骨文/商周金文/战国楚简文字智能检索数据库”,运用其嵌入“甲骨文/商周金文/战国楚简文字智能镜”识别“朿”字。于是,同学们了解到:“朿”字之形,取象于“树木的刺芒”,就是先秦时代的“刺”。

金文中的“朿”。“朿”字之形,取象于“树木的刺芒”就是先秦时代的“刺”。

这次冷门绝学专业教学中发挥大作用的各个数据库,就是文字中心数据库系列中的几个种类。去年“强基计划”落地,“古文字学”前所未有地作为中文系本科的一个专业方向出现。而入选“强基计划(古文字学)”的考生,要在短短4年里完成古文字学学业,无疑是一种前所未有的挑战。于是,“强基计划智能助学系统”应运而生。其中的“古文字智能图像识别”,打通古文字学习者与古文字数据库之间的人机障碍;又如“虚拟仿真:走进商周古文字”,帮助“强基”学生成功“穿越”到殷商时代的社会文化环境中,将文化、历史、思想等多方面知识点融入商周古文字三维场景的讲解过程。

此外,依托智能型数据库配套开发的“汉字美育智能资源库”,提供历史汉字中最富美饰性的种类,如殷商族名文字、金文鸟虫书、经典石刻、玺印、封泥、瓦当等材料的网络检索,同时提供从殷商甲骨文起的各类文字字体包括书法风格的分类检索,精细化投映汉字美育资源。

 



【新闻链接】电子版“字海”覆盖整个汉字发展史:

殷商甲骨文数据库(7万余片甲骨,110万字);

商周金文数据库(1.7万篇器铭,18万字);

战国楚简数据库(9种著录,10万字);

先秦古玺、古陶、古币和石刻文字数据库(3.7万方,16万字);

秦汉简牍数据库(50种,90万字);

汉代金石文字十种数据库(3万方,20万字);

魏晋至元代石刻文数据库(1.5万种,300万字);

唐代写本文字数据库(500篇,60万字);元明刻本文字数据库(四种,24万字);

明清手写文字数据库(920片,7万字);

中国古代字书数据库(16种,6万字头,300多万字);

日藏汉字抄本数据库(48种,65万字)……

栏目主编:徐瑞哲 文字编辑:徐瑞哲
本文图片和视频来源:华东师范大学