人工智能的基础语言将是中文
这几年我花了很大的精力去研究人工智能的信息处理。当然我研究的不是做一个具体的模型,而是研究人脑的信息处理机制。
我越来越相信,中华文明是更为高级的文明,而未来人工智能要进行信息处理,也应该以中文为基础。
人类之所以有智慧,一件非常重要的事情是有了语言和文字,这样可以对世界的万物进行信息编码,通过这些编码进行信息传递。我们身体对外界刺激有了反应,通过神经系统传到我们大脑的生物电是有不同的频率,也有不同的强度。对于这些生物电产生的信息,别的生物是不可能知道的,因为他没有接受这样的生物电。
我们人类有了语言和文字,对于这样的生物电就进行了定义,某个频率和强屋的生物电我们定义为痛,某个强物的生物电我们定义为痒,某个强度的生物电我们定义为麻。这就是对信息进行了编码,信息编码的高级与否,决定了信息传输的准确性和效率。
然而我们还要用简单的编码,进行更为高效的信息传输,否则这个编码和解码系统就是一个庞大的系统,复杂到硬件无法承受。在人工智能这个领域所谓就是算力。对于人而言这就需要更多的脑细胞。
高效的编码机制决定了人类文明的高低。
目前人类的世界,最高效的信息编码机制,一定是中文。和英文相比,它更高级,这表现在信息的准确性,编码的高效率和信息的扩展性。
英语基础的文字是字母,26个字母是比较好学,也利于记忆。然而是26个字母本身没有意义。意义是用词和句子组成的。字母只是组词的工具。所以英文有大量的词汇,而且还在不断的制造出新词,过去的词不做解释就忘记了。语言的延展性非常差,语音传承的效率极低。
中文是以字为基础,事实上每一个字都是有含义,约3000个左右的常用字构成了信息的一个基本体系,在这3000左右的常用字上又进行信息的延展,这就有了词。词汇之外中文还有特殊的成语,成语包括了更深刻的意义,却只用4个字来进行信息编码。比如说刻舟求剑、郑人买履、精卫填海。在这之上才组成了句子
。
信息编码更为高级的阶段,就是信息的相对模糊,形成的信息延展性。用中文很简单的几个信息:枯藤、老树、昏鸦、小桥、流水、人家,古道西风瘦马,夕阳西下。就可以构建出远远超出这些文字之外的意境,这是把信息编码的延展能力达到了至高无上的境界。
通过多层次的信息系统的叠加,形成了更为复杂的信息体系,中国的普通老百姓对于很多价值观和文化思想的理解,并不次于社会很好教育的人,所谓肉食者鄙。一个重要的原因就是中国语言和文字的信息系统编码和延展效率非常高,最普通的中国人也可以接受深刻的道理。这件事情在西方是做不到的,社会下层的精神境界一般都很低,因为缺少教育,如果没有系统的教育,不可能通过一般的阅读获得深刻的道理。
普通的中国人可以通过人生的经历,一般性的阅读打通自己和历史的通道,达到很高的精神境界。所以在中国没有贵族,因为在精神上普通人和贵族是平等的,获取信息的差距不是很大。
人工智能一定需要简洁高效的信息编码方式,实现是人类和机器的交互,机器本身的信息处理也需要高效和有延展性。今天来看全世界没有一种语言可以超越中文。所以中国人做出来的大语言模型,效率会更高,对于算力的依赖更低,这和用中文进行思维的思维方式是分不开的。
中华文明是人类世界更高级的文明,这件事情必须要明白,理解到这一点,你才能够理解人类发展的大方向,才能看到技术的大趋势。