AI训练与人类学习过程的对比和感悟

人类对人类自身认知科学本身的理解还比较肤浅。其实并没有完全从机理上搞明白“人是如何从婴幼儿学习成长起来的”。2017年,Attention is all you need这篇论文用后面大家的开发实践证明了人类可能无意中仿真出了人工认知过程。Attention是Transformer算法里的核心提升,它把原本神经网络算法一直难以突破的各神经元间隐藏某些关联打通了,于是催生出了ChatGPT以及DeepSeek等众多大模型。全球大量大模型的涌现,反复实践和证明了Transformer算法的伟大。而各家大模型的差别,实质只是在Transformer算法的优化变体、具体构架训练过程、推理过程以及语料库选择优化等方面各有调整而已。​

回过来,人工智能的成功突破无意中证明了人类学习过程中有些做法的正误。比如死记硬背是不是必须的?我觉得能证明这一点最好的一句话就是“熟读唐诗三百首,不会作诗也会吟”。这句话也可以作为人工智能训练过程的注解。

了解人工智能训练的朋友知道,在大模型训练之初,Transformer里的各个矩阵参数都是抽随机数产生的。然后通过学习“语料库”(就像读唐诗三百首),通过一遍遍奖励/惩罚函数的修正(背对给颗糖,背错是打手心),逐步更新各矩阵参数值。反复训练的过程,实际是从语料库不断吸收人类各个基本知识点(比如“爱”、“人”、“国”)之间在人类历史知识中体现出的特征关系的过程。并最终把这些关系存到多个高维空间向量矩阵中。这个高维空间可以是比如1536维或4096维,维度越多,表达各知识点之间的细腻度就越高。最终形成的“语料库”精华都以向量权重的方式存到的大模型的权重文件里。这些饱吸人类知识精华的权重数据,实际就存在最初开始训练时那些抽了随机数的各数据矩阵参数中。这些矩阵里最初的那些随机数据项,已经通过反复训练、奖励、惩罚,被修正成体现人类知识关联精华的高维度概率值数值。大模型此时已学会了爱国,而非爱敌人;学会感谢哺育之恩,而是崇拜金钱诱惑......因为这些概念在人类语料库中反复出现,它学习到了。

人工智能训练的这个过程,其实非常人性、有点感人。就如同我们每个人都赤条条来到人世(各维度参数都是抽了随机数的),读小学、中学、大学(大模型反复训练)后走向社会,可能还需要经过社会拷打(继续后训练),终于“悟到人生”开始为人处世(大模型推理来解答问题)。人类小孩好的学习条件,刻苦的学习过程,如同大模型训练优秀的语料库选择,反复漫长而昂贵的训练过程一样,最终培养出了一个智慧的人或大模型。

deepseek开源包中最大个的bin文件,就是存储它训练所得人类知识精华的权重文件。因为目前人工智能的神经网络算法比人类神经元效率还是要低,所以人工智能上述训练过程的遍数比人类要多很多倍。ChatGPT花了几亿美元的算力资源反复训才成功,DeepSeek优化了算法(教育方法),成本低了很多。

人类小时候死记硬背的过程,就像大模型训练时语料库反复训练的过程。没有这个过程,后面不可能期待智慧涌现之时,人类和大模型同样如此。有了这个过程,如果练得不够多,达到的涌现级别可能也不会太高。不会得到deepseek满血版,也许是7b的或者1.5b的。b小,也能生存。快乐教育就是从策略上就全部搞小b;精英教育就是目标搞大b,实在搞不成,也可以降个中b出来。我和小明一起长大,一个当了售货员(1.5小b),一个当了教授(满血671b),我们都有光明的未来。收货员当然也应该有幸福的人生。但国家竞争时会是怎样一个态势,可想而知。

站务

全部专栏