如果ai是数字智能,大脑是生物智能,生物神经元恰恰是从符号开始训练的
【本文来自《最适合AI思考的语言是中文》评论区,标题为小编添加】
本来还想说说象形文字汉字背后的信息对AI逻辑推理的巨大影响,例如“情理”一词,背后“晓之以情,动之以理”的隐匿信息国人一看就能照单全收,不需要更多的想象就能直接对应。而英语则要创造一个新词来让大语言模型去训练……但看到回复中一群无知的回复,顿时就没了兴趣!展开说说。02-08 13:03 来自上海市好吧,不过这个说起来会有点漫长。
其实我是一个对汉字这种象形文字在现代科学时代是有滞后影响的,尤其是简化汉字之前的繁体字持相同感触的。
主要源于在上个世纪初期北京大学的钱玄同等文人宣称“欲救国,先灭汉字”,请注意钱玄同的拉丁化思想是得到胡适以及鲁迅非常积极响应的!
对,你没看错,就是鲁迅也积极倡导中文拉丁化的。他们曾呼吁过“汉字不灭,中国必亡 ”。
象形文字为什么会阻碍人类社会发展,这里面又会涉及到楔形文字和埃及的圣书体十分复杂难学。由于字体复杂多样,识别困难,发展到近代也根本就不适合排版印刷……
但是腓尼基人却根据埃及的圣书体文字发明了腓尼基字母,随后影响到其后的古希腊和古罗马字母,再其后就影响到西方(西边)所有国家的文字发展就按照字母化发展到今天,当然也包括英语字母。
字母的好处就是不需要再理解象形文字背后的表意,只需要按照二十多个字母的排列组合就能制造出新词,人民只需要背诵就能识别。
所以古埃及在被古罗马等征服后,埃及文字就被古罗马字母给抛弃了,虽然字母也是从埃及圣书体中借用过来的。
字母虽然识别起来容易了,但问题是每个时期就会制造出大量的单词出来,那简直就是海量单词。所以现代专业科学方面,你英语再精通,你也必须要有一部相关专业的英语词典才能读懂该技术论文,例如化工和航天等词典是完全不同的(但语法大致相同)。
这种问题尤其是到了AI大模型训练的时候,AI面对英语单词就发蒙了,因为它需要调动起一个概念下所有的英语单词才能通过推理训练,那么这个训练量就太大了。
然而这时候象形文字的好处就突然显现出来了,例如“星期一”到“星期天”,我们只需要“星期N”就可以表达了,但是英语的周一到周日需要七个单词,我们开玩笑的星期八英语还没发明这个单词,但中国人都知道是星期一的另一种表现……
再一个就是顺序,例如成语“唇舌齿喉”这个词组,这个词组本身就包含了推理的顺序所在,四个字就表达完了。
而舶来词汇例如“尘肺病”,中文三个字(六个字节)就把病因、病灶给说的一清二楚,而英语则是一大串字母“pneumoconiosis”,你说这是几个字节?它想继续说明病因病灶,还需要多少单词?
所以AI大模型推理训练面对这些不疯了才怪,它如果没有强大的算力根本就走不动,但实际上就是因为字母文化的海量词汇让它的训练效率大减!
显然,原来被诟病的象形文字,现在成了大语言模型训练的香饽饽,这是钱玄同和鲁迅始料未及的。
据华为宣称,鸿蒙现在可以用汉字写代码了,而如果中国的ai大厂如果联合起来去造一个中文元模型,外国人就可以通过翻译软件先把英语转化成中文再进行训练,这也就意味着高效率的中文模型就会成为全球ai的训练标准,孔子的“有教无类”,就实现了科技平权的大一统境界。
当然这是后话了,但的确对于AI领域来说,这无疑是一条现成的捷径……
02-08 14:16 来自湖北省也就是说,以英语为主要的底层思维逻辑架构的大模型天生就需要强大的算力堆砌,而以汉语为主要的底层思维逻辑架构的大模型需要的算力远远小于前者。所以deepseek天然花钱少。是这样吧?昨天 19:00 来自上海市苍狼向月
我可没这么说,deepseek可不是汉字代码,所以你别搞出本末倒置的结论。但你可以这么想!
然而我也有些不确定的地方在于,想象文字的汉字其实很多歧义的,一句话可能会有多种意思,例如“我喜欢上一个人”,可以是“我喜欢了一个人”,但也可以是“我喜欢前一个人”,这就让ai逻辑推理会有更多的运算量了。
所以中外政府、商业之间签订的联合声明、条约、协议等等都要做大量的文书勘定,避免歧义,甚至有时候需要用第三方文书加注(多为法文合同文本),限定词义(字母文字的单词就简单的多,一个词一个意)。
不过老外将英语转化为中文再进行推理训练,这种语法在翻译中可能会被规避掉,讯飞等机翻应该不会发生多含义的翻译结果,而国人在表达时也可以有意识规避歧义表述……
昨天 20:35 来自湖北省
guan_15809764021786
好的,多谢。
昨天 22:56 来自上海市
洗漱完就看到你这个回复,我再补充一下吧。
如果把ai看成是数字智能,人类大脑则是生物智能,而生物智能恰恰是从符号(象形文字)开始的。
在你回复的楼上,网友Chemiholic的回复说“汉语等了AI五千年”,这句话很深刻,也很酸爽。毕竟人类最早的文字都是从象形文字起源的,所以不仅仅是“汉语等了AI五千年”,楔形文字和古埃及的象形文字“圣书体”也在墓中笑醒了,tmd古罗马人当初用字母干掉我,现在字母也有哭的时候。
埃及文明之所以断代,就是因为腓尼基人字母从埃及“圣书体”中提炼(可以理解为“蒸馏”)出来字母单元,进而发展出西方(西边)整个人类文字表达的字母文化,尤其是古罗马字母干脆就把“圣书体”象形文字给干掉了,从此埃及古文字就此消失,而字母文化遍及全球……
不得不说字母的优势是方便认识和书写等使用,效率远比象形文字高的多。
但象形文字是人类开始有意识的认识和表达世界的识别积累,是生物智能的起点,如今人类用数字重构“智能”,如果还用字母文化,那的确就很难为“字母”了。
因为“字母”本身就是从象形文字中蒸馏出来的后人类文明行为,已经失去象形文字图形表意的功能,数字智能无法一开始就用图形去理解,并在此基础上进行推理。是学生而非教师,再怎么努力也超越不了教师,只能无限接近……
事实上,2024年诺贝尔奖获得者辛顿在Vector Institute 2024上的主题演讲上就对目前数字智能进行了讽刺,认为其是“投机者”,而inductive Logic programming(归纳逻辑程序设计)的技术则更能从“生物智能”的角度出发,通过“离散的搜索符号操作规则”更能接近人类“生物智能”的程度。
然而,已经在字母文化中进化了几千年的整个西方社会到哪里去找完整认识世界的图形符号?
这是一件非常痛苦的事情,我记得李飞飞就是靠图片进行3D模型训练(视频)的,她把几十万上百万张自然摄影得到的图片通过互联网发送到全球电脑爱好者电脑里,请他们对每张图进行“标注”,好像是吧,我老人家记不住了……
好在天无绝人之路,在人类世界中,还有汉字这么一个现成的图形文字,并且历经了四千多年的历史沉淀,这在追求人工智能的时代,无疑是一件幸事!
我虽不是一个ai工作中,仅仅只是对人类的文字文化感兴趣。其实,我和钱玄同、鲁迅一样,一开始也是对汉字颇有微词的,只不过是从汉字延续了四千多年的历史事实,基于对汉字的自豪和尊重,我选择了对汉字在科学发展过程中的阻碍以无视的立场。
但世界真的就是这么轮回,所以我为什么说Chemiholic回复“汉语等了AI五千年”这句话很深刻,也很酸爽,就是这个道理。显然我被打脸了,但是很享受这种打脸!🤣