中文在人工智能时代的优势
本文是根据3月10日晚上22点东方卫视播出的《这就是中国》节目中我的演讲稿增补改编
https://www.bilibili.com/bangumi/play/ss26421?spm_id_from=333.337.0.0
首先来讲一下最近国外流行的中式英语热。
英语现在的造词方式,事实上与中国4千年前的汉字发展过程有些类似,就是每遇到一个新事物,就造一个新词。因为类似英语的字母文字造一个新词的确是比象形文字造一个新字要容易很多,这也导致了英语词汇量过快的增长,每年都会增加几百个新词。但现在很多人发现中文用新词组来表达新事物的方法非常有效,所以开始用中式英语来极大简化英文。大家也很容易听懂。例如:
wash wash to sleep 洗洗睡吧
You think beautiful 你想得美
No zuo no die 不作不死
You can you up 你行你上
想起二十年前在做国际市场时,就与国际市场人员调侃很多不太会说英文的中国发明出来的中式英语段子。如出了一个车祸,中国司机要给警察报警:
One car come,one car go,two car peng peng, one car die 一辆车往这里来,一辆车往那里去,两辆车砰砰,一辆车坏了。
这些都只是太过直接的极简中式英语。但还有一些真是准备改革英文的基础逻辑,把英语的时态、语法都准备干掉了。例如英语的数字,从0到12都是专门的单词,13到19有一定规律,但也是特定的规律。中式英语是要革命式地变化:
Tenone 十一
Tentwo 十二
......
Tennine 十九
不用再去背eleven,twelve......fifteen,nineteen
Week one 星期一
Week two 星期二
......
Week seven 星期七
不用再去背Monday,Tuesday,...Sunday,这多好。
one month 一月
two month 二月
......
tentwo month 十二月
不用再去背January,February...... December,多简单。
这样英文单词不仅不用再新增,反而可能极大缩减。
英语的时态也逐步被抛诸脑后。例如:
我2019年去了伦敦。我刚去伦敦。用传统英语翻译是这样:
I went to London in 2019.
I just went to London.
用中式英语是这样:
I go London 2019.
I just go London.
看了以上这些,就很容易理解下面谈到的为什么中文在人工智能时代有技术优势了。
DeepSeek之所以爆火,主要并不是它技术性能上获得了突破性的进展,而是其效率获得了数量级的提升,从而使实现相同性能的成本下降了20倍。之所以如此,是因为研发团队几乎是将各种可能的提升效率的技术都充分挖掘了。例如,更多采用底层编程语言PTX,一般来说越是更底层的编程语言效率越高,但编程的难度越大。另外还有适当地降低精度,采用一个字节的8比特浮点运算,而不是32比特,从而成倍减少存储量和运算量。这个专业术语叫“量化”。采用蒸馏方法极大减少参数。另外还有混合专家架构(专业术语叫MoE)、多头潜在注意力技术(专业术语叫MLA)。这些技术本身并不是说完全由DeepSeek独创的,原来在美国人工智能界的专业人员都知道,但为什么是DeepSeek把这些充分利用了呢?这里面涉及到两国信息技术发展中的一些文化问题,有降成本的因素而尽量采用高级语言,关注研发的降成本而不是运算芯片的降成本;另一个问题甚至是运算芯片的核心厂商故意引导软件运算效率低下的商业模式,以便形成更高性能芯片更大的市场需求。
以上这些相对比较专业的内容,对普通观众可能理解起来比较困难,所以我们今天就谈一个大家比较容易理解的、也非常有意思的方面:就是中文在人工智能时代的技术优势。DeepSeek充分利用了中文的这种优势,所以在它爆火之后很多人开始注意到这个问题。
如果我们回顾一下两百多年来的历史,我们对于中文在现代科技中的作用,是经历了一个从最初很自负、到自卑、然后重新开始自信的认知转变过程。
在中国古代,我们对自己的文化是很自负的,对中国周边在文化上是压倒性的优势,其他地区对中国是非常仰慕的心态。近代中国落后,尤其是甲午战争中国失败以后,导致很多中国知识阶层开始反思中国的文化,包括自己的语言文字。这种反思很快发展到极端,甚至认为汉语文字阻碍了中国进入现代科技文明。也有人认为中国应当放弃中文的象形文字,改成拼音的字母文字。
随着以电子计算机为代表的信息技术出现以后,中文在计算机键盘输入上存在一定困难。计算机的键盘是来自英文打字机,所以,输入英文当然是最简单方便的。因此,曾经认为中文阻碍了中国进入现代科技文明的观点和思潮,在信息技术时代又再次兴起。但是,20世纪80年代,中国科技界在汉字输入上做了大量的工作,在当时称为“万码奔腾”,这些汉字输入的工作在很大程度上降低了中文电脑输入的困难。其中比较著名和主流的有五笔字型输入法,也叫王码,是王永明发明的。我个人也曾经在王码电脑公司工作过。另一个常用的输入法是拼音输入法。虽然客观上说,直到今天中文还是比英文等字母文字的键盘输入稍微麻烦一点点。但这些中文输入法在很大程度上有效解决了中文的计算机输入问题。甚至在五笔字型输入基础上充分采用词组输入后,在输入效率上还可以超过英文输入。
到了人工智能时代,情况发生了很大逆转,中文在技术上开始展现出很大的优势。在40多年前,我刚开始接触到计算机人工智能的语音识别技术时,就知道中文在技术上有很大优势。这是当时业界就公认的一个看法,只是普通人可能关注不到这一点,当时语音识别技术也还没成熟商用。现在我们已经普遍使用人工智能语音识别功能了。中文的这种优势现在更加充分地体现在今天流行的大语言模型中。为什么中文在人工智能中存在技术优势,主要的原因有如下这些:
首先是汉字非常规整,或者说非常整齐。汉字无论是书写还是发音,尺寸都是一样的,非常整齐。这种规整对于计算机处理是非常方便的。比如要进行语音识别,中文每个字发音都是声母加韵母,发音长度一样。这样的话就相对比较容易区分出一句话中每一个字的发音。而相比之下,英文一个单词的长度从一个字母,到十几个字母的都有,这样字母文字每个单词发音的长度都可能不一样。英文中一个字母的单词如a,意思是“一个”;还有i,就是一个字母i,意思是“我”。但象英文的“祝贺”是Congratulations,就有15个字母。我们可能会好奇,最长的英文单词会有多少个字母?如果我们从网上去搜索,可能答案会不一样。一些医学或分子生物学领域的专业单词可能会出现比较长的,有40多个甚至更多的字母。还有一个问题是,很多英文句字发音会有连读的情况,这就更加难以区分出每个单词。虽然现在这些问题在人工智能中解决了,但其技术难度都比中文要困难很多,需要更大的运算量。几乎所有字母文字都存在这个问题。
第二个是汉字的信息密度一般比字母文字高。这个体现在很多方面,汉字是表意文字,内涵丰富,可以用词组、成语等很少的汉字就能表达非常丰富的含义。尤其文言文信息密度更高。对于人工智能来说,最终体现的是相同含义的一段语言或文章,在计算机中需要多少存储量和计算量。一般来说中文的存储量和计算量都是最少的。如果我们对比一下书面相同内容的中文和英文或其他字母文字,中文一般都是页数或幅面最少的。但我们要注意这个并不是说完全绝对的,因为英文也有人家的优点,比如较为严谨,所以在比较严谨的论文或法律文书中,有可能英文的信息密度与中文相差并不大。但是由于绝大多数情况下中文的信息密度的确是比较高的,所以在人工智能的训练中,相同内容中文训练的存储量和计算量就会比较少。这是中文效率优势的一个体现。
第三个是稳定性。汉字是相对比较稳定的.我们今天所使用的汉字,与几千年前的甲骨文大都非常接近。在2千多年前秦朝统一六国,并且统一文字之后,汉字基本上就很少再发生变化了。总的趋势是生僻字使用得越来越少,对于新出现的事物,汉字是通过常用字去建立新的词组来适应,并且这样组成的词组天然地会存在有规律分类的特性。例如机器的“机”字,可以组成拖拉机、播种机、飞机、纺纱机、发动机、蒸汽机、计算机......如此之多的机器,汉字都可以用“机”来形成词组。汉字的稳定性对人工智能带来的好处是训练的参数可以更少,有效的重复可以更多,准确性就更高。相比之下,英文每年都会增加大量新词,常用单词都可能发生变化。现在的英国人阅读400年前英国的作家莎士比亚的作品都已经很困难了。但中国人阅读2千年前的作品依然很容易看懂。
当然,我们提到中文在人工智能时代的技术优势,并不是要把它过度拔高。只是从以上不同技术时代中文技术优劣的变化过程中,希望我们能更客观地看待中国的文化。在进入人工智能时代,我们更应该发挥中文的优势,使得中国在人工智能时代可以获得更快的发展,并且有更好的经济效益。
从我们对自己语言的态度变化中,我们可以获得一些启示:就是如何用科学的态度去看待自己的文化。中文有自己的特点,这些特点相对不同的技术要求,可能是有利有弊的。所谓利弊或优劣势,永远是相对特定的要求来说的。我们不能说遇到某种劣势,就简单地去完全自我否定,也不能遇到优势,就自我膨胀。科学的态度是,如果是劣势,我们就想办法通过技术改进去消除或至少减少这种劣势。有了这种技术改进,可能劣势就不再是劣势或者已经变得无关紧要了;如果是优势呢,我们就要想办法去充分地开发利用它。即使是优势,如果你不去充分地开发利用,它也不会自动地体现出来,或者体现得不够充分。这是我今天的演讲希望能表达的。
延伸阅读:
对美航母的破相能力——对中国来说,美国航母无用论已经成为事实(四)
水运差异的国运天注定 —— 美国成为中国小弟的准确时间系列文章