20万生僻字“重生”记
过去,一个古文献研究专家在处理一批珍贵刻本。突然,一个从未见过的生僻字映入眼帘。按照传统工作流程,他需要查阅大量工具书才能弄清这个字的含义,期间可能花费数小时甚至数天,这在学界是司空见惯的现象。
但现在,他只需打开“识典古籍”平台,使用最新上线的编辑器搜字、造字、复制字图功能,将这个字拆解拼接,系统便从20余万个字形中精准匹配出了结果——整个过程不到10秒。
这正是字节跳动用技术助力古籍数字化带来的变革。通过AI技术,识典古籍不仅大幅降低了古籍整理门槛,提升了工作效率,更解决了困扰古文献研究领域多年的生僻字整理难题。
01 古籍数字化的三大难题
古籍整理,单从字面上来理解,与普通人的生活几乎没有任何关联,但从宏观视角来看,作为历史文明传承的载体,古籍的价值无可替代。它们既是中国古典学不可或缺的研究基础,也是社会大众继承和发扬传统文化的宝贵资源,同时还是世界理解中华文明的重要途径。
早在1919年,胡适就在《新青年》杂志上发起了著名的“整理国故”运动,提出“研究问题、输入学理、整理国故、再造文明”的主张,胡适本人也身体力行,投入巨大精力进行国学研究,创办《国学季刊》;推动古史讨论,拟出“最低限度的国学书目”,向广大青年大力推荐……
进入21世纪,古籍整理工作的重要程度也在学界、国家管理机构、乃至社会层面形成了共识。2007年,重大文化工程“中华古籍保护计划”启动;2018年,《中华人民共和国公共图书馆法》颁布,“公共图书馆要加强馆内古籍保护”成为法条……
根据国家古籍保护中心调查结果显示,我国现存20多万种古籍,存世50万个版本,古籍数量达3200多万册,然而当前古籍整理工作的现状却是数字化程度极低,许多书只是完成了初步的影像扫描,真正实现文本数字化的不到四万种。
之所以会存在这样的困境,专业人才匮乏是首要障碍。
全国高等院校古籍整理研究工作委员会副秘书长吴国武在接受媒体采访时曾透露,目前全国范围内专业从事古籍整理的人员仅有一万人左右。华东师范大学古典文献学在读博士生刘帅以自己作为参照,“一年能整理几十万字就很了不起了”。
需要整理的古籍数量巨大,但在供应端,专业人才不够,单人效率又有限,古籍整理工作推进自然就快不起来。
其次是生僻字处理存在技术瓶颈,由于古籍中存在大量异体字、俗体字和避讳字,使得文字识别准确率难以提高。传统OCR技术是为打印材料设计的,面对古书中的不同字体风格、非汉字笔画符号、折痕和破损缺字,识别效果大打折扣。
最后是资金与版权的桎梏。从1999年“文渊阁四库全书”数据库发布以来,古籍数据库成为中国古典研究不可或缺的基础设施,同时大多数的重要典籍也都已经完成了数字化。
由于最方便使用的古籍图文库基本上都是商业数据库,这就限制了普通公众的访问。
随着人力校对成本越来越高,商业古籍库扩容的边际收益断崖式下跌,这就使得现阶段很多古籍数字化工作成果有些“养在深闺人未识”的状态,不能被公众充分利用,并且发展建设难以为继。
02 从“字图”到“造字”的技术破局
正是在这样的背景之下,字节跳动在2022年10月,与北京大学合作推出了完全公益的古籍智能阅读和整理平台——“识典古籍”,旨在通过技术力量改变传统古籍整理模式。
识典古籍初期就整合了三大核心技术,文字识别(OCR),自动标点和实体识别,这意味着机器已经能够初步“读懂”古文。
就在不久前,针对古籍数字化中最棘手的生僻字问题,识典古籍平台推出了编辑器造字、拼字、字图复制功能,将古籍数字化工作的效率又向前推动了一大步。
在以往的古籍数字化过程中,遇到字库中没有的生僻字或异体字时,研究人员的通常做法是截取该字在古籍扫描图中的局部区域的图片作为替代,称之为“字图”。
然而这样处理存在明显缺陷,字图有当时古籍本身的印刷书写风格和背景,不宜阅读;同时,不同字图可能实为同一字,却因无法识别而被重复截取,造成整理混乱。
识典古籍给出的解决方案是自研了一套拼字输入法(拼出字图)、造标准宋体字(造出字图)等算法,以帮助研究人员在整理古籍时能够快速的输入生僻字甚至“造”出字体。
拼字输⼊法的技术原理并不复杂,就是让用户在自己认识的简单字和简单笔画的基础上,去搜索更加复杂的汉字,即便不清楚这个汉字的字音、字义,也能凭借字形快速匹配。
例如,“矦”字可由“⺈”“厂”“矢”组成,输入这些部件即可召回该字。对于普通人来说,虽然这个字我不认识,但总有它的部分我认识,认识什么输入什么,就可以把这个字拼出来。这种方式比五笔输入法更直观,无需记忆词根,也支持生僻字检索。
在编辑器中拼字输入
在研发过程中,团队面临的核心挑战是汉字组合的极端复杂性。例如一个“椪”字,就有“木並”、“木䒑业”、“木丷亚”、“木八亚”等多种拆分方式,组合数量呈阶乘级增长,传统穷举方法根本行不通。
团队曾尝试用有向无环图来建模汉字部件关系,想象一堆有箭头连接的积木,箭头只指向后方,且绝对不允许形成一个闭合的圆圈,这样我们就可以从起点一路畅通无阻地走到终点,但十万汉字构建的图谱对性能挑战巨大,也难以量化匹配效果。
那段时间,组内成员兵分几路,有人继续尝试图结构优化,有人从组合数学角度寻找新思路。大家频繁交流、互相“挑战”,常常列举出各种bad case推翻对方方案,却又在碰撞中萌生新的灵感。
最终,识典古籍研发团队设计出了一套高性能、通过计算汉字细节特征进行匹配的解决方案,可支持在20余万个汉字中实时搜索。
该方案在初始加载阶段,不仅会整体收集每个汉字的组成部分作为其特征,还会构建一套简繁字、偏旁部首的等价映射表,如“马”可代“馬”、“水”可代“氵”。
在搜索阶段,算法会先对用户输入进行前置处理以提升容错能力,比如相似的“𠄌”和“乚”都会被处理成“乚”,然后比对用户输入与所有汉字特征之间的差异,按匹配程度排序返回最佳结果,若匹配失败,算法还会自动使用等价映射表重新检索,如输入“水”、“木”可查找出“沐”,显著降低输入门槛,更贴合用户的用字习惯。
记得那天下午,当第一版算法验证通过、匹配准确率大幅提升时,整个团队都感到“内心无比激动”。长期困扰项目的瓶颈终于突破,多位成员在现场忍不住鼓掌。
拼字输入法主要辅助研究人员找到当今已经被编码的汉字,对于古籍中存在的⼀些没有被计算机编码的汉字,识典古籍团队又开发了基于IDS造出标准宋体字的算法,通过结构化的描述⽅式去表达任意⼀个汉字,进而为这个生僻字量⾝设计字体。
根据识典古籍团队介绍,IDS是Unicode标准定义的汉字结构描述语法,通过IDC符号(用于描述汉字结构,如⿰、⿱、⿲、⿴、⿸等)和汉字部件组合而成。例如,“古”字是上下结构,其IDS就是 “⿱十口”。
通过分析汉字的空间结构输入相应的IDS表达式生成字体字形,以上是不同空间结构的示例
造字的核心是解析用户输入的IDS表达式,为每个部件选择合适的变形和空间布局,组合成新字。例如,在处理左右结构时,需控制部件宽度比例和间距;在处理包围结构时,需确定缺口位置并在缺口处合理放置被包围的部件。
团队在开发过程中摒弃了“大而全”的幻想,比如像‘廴’只需主要考虑‘⿺’布局,无需过多考虑⿰、⿱、⿴、⿸等其他情况,转而遵循实际汉字布局规则,逐步实现了覆盖常见结构的造字引擎。
在编辑器中造字
由于造字是基于IDS的,所以它天然就具有汉字的组成信息,因此用户“造”出来的字经平台审核通过后也可以使用上述的拼字输入法搜索出来,实现相互联动。
在编辑器中拼字搜索之前造过的字
就像识典古籍研发团队说的那样,编辑器搜字、造字、复制字图功能就像一个“万能积木”,让古籍整理这项传承文明的事业不会因为“字”而被阻碍,而让团队自豪的是,当看到自己设计的造字工具能生成古籍中千变万化的字形,甚至一些早已遗失在历史中的字体重现屏幕时,“一种跨越时空的技术成就感油然而生”。
03 将文化基因刻入数字未来
识典古籍的价值不仅仅提高了古籍专业研究人员的工作效率,更是通过技术手段降低了古籍整理的门槛,使公众参与成为可能。
去年识典古籍平台联合全国22所高校,发起了“我是校书官”活动,吸引了1万余名学生报名参加,其中许多人的专业都与古籍无关。
这项活动的参与流程非常简单,志愿者在平台上领取任务,系统提供清晰的指导和要求。校对过程中,AI会辅助标识出可能存在的问题,志愿者只需重点关注这些区域即可。
平台还建立了质量保障机制。所有校对结果会经过多种审核,包括机器审核、专业人员审核等,在提高整理质量的同时,也是人才培养的过程。
在这项活动中,一些非专业的同学原本对古籍一无所知,但参加活动,校对三个月后,也算跨过了古籍研究的门槛,养成了阅读古籍的习惯,更难能可贵的是,识典古籍以这种类似于众包的模式,重塑了古籍整理生态。
从这一视角来看,古籍数字化的价值远远超出了保护本身,它让古籍内容变得更加可用、易懂,为文化传承和创新提供了基础。
全国高等院校古籍整理研究工作委员会副秘书长吴国武教授在接受媒体采访时曾表示,“古籍相当于先人的知识体系,将经典智慧为现代人所用,是非常重要的任务”,数字化后的古籍可以被更容易地检索、分析和利用,为学术研究提供支持。
更重要的是,数字化古籍还正在成为文化创新的源泉。从去年风靡全球的游戏“黑神话悟空”,到今年的动画电影《哪吒2》,都是传统文化创造性转化的案例,而浩瀚的典籍文化遗产正是文化产业取之不尽的素材资源。
根据官方公布的数据,识典古籍平台在数万名来自高校、社会及字节跳动员工的古籍整理志愿者共同努力下,现已经免费公开3万余部古籍,每月有超240万用户访问量。在2025年底,将发布4万部古籍面向公众开放。
AI正在让那些沉睡在图书馆库房里的古籍苏醒,重新跳动起来,融入当代人的文化生活之中。就像几个世纪前,这些书籍影响着当时的文人学者那样,继续参与中华文明的演进与传承。