阿里的“扫地僧”,2年“抄”了20万页古籍

金磊 贾浩楠 发自 凹非寺

量子位 报道 | 公众号 QbitAI

阿里达摩院,一个正儿八经搞AI的地方。

但偏偏“扫地僧”们干起了文绉绉的工作:

研究古籍。

他们将流散海外的珍贵古籍善本以数字化的形式请回故土。

第一批达20万页。

500

△宋百家诗存

当理科生干起了专业文科生的工作,会擦出怎样的火花?

古籍为何“出海”,又如何“回来”?

关于这个故事,很精彩,也很有意义。

古籍为何外流?

1860年(清咸丰10年),五千年文明古国此刻风雨飘摇。

北有英法联军捣毁圆明园,逼迫中国签下《天津条约》、《北京条约》。

500

南有太平军进入杭州,

藏有《四库全书》的“南三阁”之一杭州文澜阁,次年毁于战乱。

阁圮而书散,无数经典,从此淹没在历史中。

500

文澜阁遭遇“灭顶之灾”后,杭州藏书家丁申、丁丙兄弟在逃难途中无意间发现文澜阁《四库全书》残编。

相传,丁式兄弟买包子时,偶尔发现包食物的纸,“皆四库书也”,大惊。

于是他们开始紧急救书,上下打点,四处寻访。

经历这轮战乱,文澜阁本《四库全书》的四分之一被丁氏兄弟抢救,四分之三消散飘零,不知所踪。

500

直到将近100年后的1950年代,清代曹庭栋辑纂的《宋百家诗存》(卷七),出现在美国加州大学伯克利分校东亚图书馆。

而这本《宋百家诗存》,正是丢失的文澜阁本《四库全书》之一。

目前有线索可查的,只能明确伯克利东亚图书馆从日本三井文库购得这批古书。

500

△伯克利东亚图书馆

这类古书文物到底经历了怎样的颠簸流离,如今已不可考。

据不完全估计,近代散居海外的中国古籍超过40万部、400万册,包括甲骨简牍、敦煌遗书、宋元善本、明清精椠、拓本舆图、少数民族文献等等。

如今山河无恙,但流散海外的古书典籍,却成了中国文学、历史研究,以及传统文化传承难以弥补的遗憾。

“再现”20万页古籍

大约两年前,阿里巴巴联合四川大学、美国加州大学伯克利分校,共同发起一项公益项目汉典重光,寻觅那些流散在海外的中国古籍,借助达摩院的AI技术,用数字化的方式让它们回归故土。

而鲜有接触古籍的达摩院“扫地僧”们,一开始还不知道AI录入古书是多么有挑战的任务。

OCR(光学字符识别),其实是一种常用的计算机视觉技术,经常被用来识别文字,比如证件、票据、电商平台的商品图片等。

但是,我们生活中常见的OCR,绝大部分是针对现代汉字,而且还是印刷字体,把这样的系统直接拿来用在古书上,根本行不通。

首先,古籍文字的类别极其庞大。现代汉语常用字不过6000多个,常见印刷体,算法能够覆盖到的文字基本上在2万字以内。

但是据估计,古籍文字多达几十万。

为什么古籍上面有如此多的字?

古籍上面每个字都有不同的写法。比如一个“郷”有各种写法。

500

此外,还有字体的变化。在雕版印刷古籍中,即使是同一拓片在不同季节、气候、地点印出的书也完全不同,而那些人工抄录的古书,更是千人千面。

每一个字形,即使表意可能相同,对于AI来说,也是一个需要重新学习记忆的新知识。

第三,古书版式复杂。除了不同于如今的从右到左,从上到下的排版,在每行字中间还常常夹有批注,这就使得常规使用的行识别方法失效。

500

△古籍版式复杂

最后,由于年代久远,古书保存状况也各有不同,在AI看来,纸张破损、污渍等等相当于大量的人为噪声。

而达摩院,专门为古籍识别开发出了新的系统的。

主要分为两大步,一是聚类数据生产识别,二是主动学习数据生产识别。用到了单字检测、无监督图像聚类、少样本分类、主动学习等一系列机器学习方法。

首先是全书检测,把古籍正文中的每个字都抠出来,作为单独的一张图。

其次是聚类。

500

一本古籍总字数可能有10万字,但其中有很多字是重复的,比如“之、乎、者、也”,聚类所做的事就是让机器自动把字形笔画一致的字归为一类,接着再由人工进行标注。也就是说,原来要人工标注全部10万字的书,经过聚类,只需要对全部二三千字类进行标注,一类字只标注一次。

聚类和人工标注,不仅完成了每一类文字的认字过程,还收获更多新的训练样本,可以继续喂给机器学习。

一般来说,数据越多,越有利于模型的训练。但古籍里有很多异体字、生僻字,出现概率极低,根本无法寻觅这么多的样本。

所以团队想到了让机器自动生成样本。使用字体迁移方法来使合成数据,机器自动为每个字合成几个新的样本,确保单字样本量达到10个。这样,就有足够数据训练少样本识别模型。

得到少样本识别模型之后,就能投入使用,把第一步全书检测获得的所有图片进行重新标注。不同于上一轮聚类+人工打标,这次是识别模型的自动标注,如果识别打标的数据与前一轮聚类的结果一致,就可以认为这张图片当前标签是对的。如果不一致,那就让这个字回到聚类步骤,继续迭代。

从聚类打标到少样本模型打标走完一轮,全书70%左右的文字可以被打上正确的标签,余下的30%,从头开始再来一遍,第二轮迭代,又能解决余下文字中的70%。

经过两轮迭代,一本书的91%的文字可以被打上正确的标签。

500

它们不仅沉淀为了机器的字典,也是更丰富的训练数据。通过前期一本书、一本书地学习,产生的训练数据越来越多,机器的认字能力也越来越强。

最后,就是训练最终模型,能对100本以上的书进行批量识别的单字分类模型。这个模型一出手,对批量数据的识别准确率就高达96%。随着模型的优化和迭代,目前系统对20万页古籍的整体识别准确率已经达到97.5%。今后,AI学到的数据越多,模型的进化程度也会越高。

500

回到模型“养成”环节,AI识别完绝大部分文字,剩下的需要人工专家补充标注。

那么问题又来了AI怎么知道哪一部分是识别好的,哪一部分是需要交给人类专家的呢?

这个时候,主动学习算法出场了。通过它,机器自己就能找出那些它识别不了的文字,交给人类来做最后一步工作。

以往,人工标注通常需要“两录一检”以达到99.97%的出版要求。

以一本100万字的古籍为例,如果全靠专家录入,每人1000字/天,需要1000天。

500

达摩院的古籍识别算法,用AI替代人工,在两个环节大幅压缩了专家标注工作量。

在机器为主进行识别的97.5%的内容中,约有1%(1万字左右)需要专家录入;机器不能识别的余下2.5%(2.5万字)的文字,全部交给专家做后期标注。

两部分相加,人工的工作量占全书的3.5%(3.5万字),还是按照一人1000字/天算,需要35天。因此,相比人工专家录入,百万字书籍的数字化工作量从1000天降低到了35天,效率比人工专家录入方案提升近30倍。

阿里达摩院的AI古籍识别算法,为中华古籍的回归提供了另一种可行可期的思路。


不简单的工作

2年,20万页,平均下来每天280页。

再细算一下,每个小时就是11页,还得是在不吃不喝的那种情况。

这对于用传统方式“复现”古籍来说,简直是mission impossible。

为什么这么说?

举个“人工录入”的例子,便一目了然。

在乾隆皇帝执政期间,便组织过一次对《四库全书》的编撰。

《四库全书》共包含3500种书、7.9 万卷、3.6万册,总字数多达8亿。

而当年参与次项目的人数则多达3800人,包括纪昀等360多位高官、学者。

但即便如此人力之下,也是耗时15年才完成。

500

然而量大,并不是这个工作的唯一难点。

非常直接的一个问题,便是“理科生”和“文科生”之间的碰撞。

阿里达摩院、四川大学历史文化学院,双方在各自的领域都堪称是专家级别。

但之于对方的领域呢?说是小白也不足为过了。

而且AI技术、古籍文化,还都属于上手门槛很高的那种。

为此,双方可谓是恶补知识短板。

历史学家、文献学家,要去学习计算机、AI相关的基础知识,要了解用AI技术识别古籍到底是怎样一个过程。

而阿里达摩院的工程师们,也花费了相当多的精力,去学习历史相关知识。

例如古籍的版本、雕版、印刷、装帧、内容,还包括古文字、古代文化知识等等。

用四川大学历史文化学院副院长王果教授的话说,就是:

在技术研发过程中,比之前预想到的难度还要大。

为此,双方在杭州、成都,开了不下10次的技术研讨会。

整体而言,汉典重光走过的这两年时间,道阻且长、困难重重。

但阿里达摩院和四川大学历史文化学院,却对此从未放弃过。

之于原因,实则这项工作背后所蕴含的意义,不仅仅是“复现”这么简单。

“复现”古籍,意义非凡

让在海外“颠沛流离”的古籍回家,让“沉眠”数百甚至上千年的古籍入世,真的有那么重要吗?

是的,而且非常重要。

具体而言,可以从三个方面来看。

首先是国家层面。

古籍是中华文明的“魂器”, 国家图书馆副馆长张志清说。

纵观历史上世界四大文明,能够延续至今的,也只有中华文明。

很重要原因是,我国拥有一个连绵不绝、经典的文献世界。

我国从古便有盛世修史和盛世整理古籍的传统。

修史、整理文献,表面上是修复残破、逸散的古籍,本质上实则是补全中国文化最重要的载体,是修复中华文明生生不息的生命力,绵延中国文化不息的源泉。

“十四五”规划和国家中长期发展规划中,古籍的保护、整理、研究、利用,得到高度重视。

500

△宋百家诗存卷首

其次,是研究者、学者层面。

以这次从伯克利回归的20万页古籍来讲,就有很多国内少见或者是没有的珍稀善本。

因此,当这些回归的古籍被AI识别并数字化以后,研究人员、学者足不出户,便可以研究在海外的、无法获取的古籍,未来有望产生一大批重要的研究成果。

最后,是民众层面。

或许很多人会认为古籍离普通老百姓甚是遥远,但实则不然。

中国古籍的内容浩如烟海,拥有非常庞大且复杂的知识体系,所涉及的范围也是极其广泛。

从应对自然灾害、流行疫病、经济波动、政治斗争、外交危机、气候变迁等等内容的经验。

有战争、瘟疫、地震、洪涝灾害、病虫害等等方面的经验总结,更贴近生活的,还包括医疗、中药、养生、家具、服饰、饮食文化等等。

而这些都是“老祖宗”们几千年来的经验总结和积累,是民族智慧的继承。

汉典重光项目没有停留在“回归”海外古籍这个层面,以数字化的形式来展现,大大降低了人们学习、阅读古籍的门槛,拉近了人们与中国文化的距离。

在发布会现场,许多研究古籍的知名教授也亲临现场,他们的眼中充满了对古籍研究的热情与使命感。

中央文史馆馆员、四川大学教授陈力说,他最大的心愿是,利用现代技术,让古籍活起来,让老百姓在古籍面前和祖宗对话,和传统文化亲密接触。

再细数参与此次工作的人员,除了川大的老一辈教授、专家们,像博士生、硕士生,甚至本科生也参与到了其中。

某种程度上,这也是保护文化的一种传承。

也正如阿里达摩院院长张建锋表示:

守护中华传世典籍,是科技工作者和文化工作者共同的使命。

而此次“数字化回归”的这20万页古籍,只是汉典重光迈出的第一步。

阿里和川大还将继续联手,让“离家百年、去国万里”的更多中国璀璨古籍,以数字化方式回归故里。

最后,奉上此次“汉典重光”首批数字化古籍重要书目,若想体验完整数字版,可戳文末链接~

500

汉典重光 · 古籍数字化平台:

https://wenyuan.aliyun.com/home


最近更新的专栏

全部专栏