“算力为王”被狠狠重击,开源胜闭源,背后的原理是什么?
1. 最近deepseek r1震惊业内,用OpenAI几十分之一的开发代价,和几十分之一的使用成本,性能赶超了。外国一个土豪甚至自己买点机器,就搭建跑起了deepseek开源大模型。
2. deepseek能羞辱OpenAI,靠的是想办法优化基础模型、训练方法,而不是堆积算力。这是一个业界几乎所有人都希望看到的进展,除了不开源想搞垄断的几个美国巨头。
3. 原理是,大模型训练的“数据”,文本意义上大约几万G的数据,就这么多“原始数据”了,这是公开的,没法垄断的。几乎所有的人类知识都在里面,全球聪明的研发者都在想办法,训练出表现优秀的大模型。而评估的测试集也是公开的,各类测试集,分数如何一清二楚。也就是说,有一个公平公正公开的研发平台,各国企业在展示自己的能力。
4. OpenAI说有绝活,能做到什么,但是不告诉别人细节,违背了业界的分享传统。而deepseek直接开源,把细节说的非常清楚,大家就明白了,原来没什么绝活,都是可以理解的。而且中国公司的办法还更漂亮、更经济、更可信,更易应用推广。
5. 从根本上来说,这是一个计算机算法问题,怎么组织数据结构、怎么搭建训练平台,怎么分阶段训练。由于数据非常多,步骤也很多,以Transformer为基础的上万亿个系数,在做无数卷积、矩阵等向量张量运算,很多都是重复的。如原始的大模型,一个token就可能引发所有GPU在算矩阵乘法。这里有巨大的优化空间。
6. 如混合专家模型,就是几个通用专家,带很多领域小专家,而不是原来的一个大专家。领域问题来了,就通用专家与合适的小专家去跑,只需要几十分之一的GPU跑就行了。这类优化方法还有很多,如8个比特表示一个浮点数,不需要16个比特,加快计算。效果就是,大算力并不是必须的。“笨办法+大算力”,还不如“好办法+小算力”,这是deepseek已经证明的。不少美国公司闭源的还不如中国开源的,等于研发失败了。
7. 那“好办法+大算力”是不是就最好?错!研发问题还需要考虑成本,能用低成本干出来的,非要用代价极高的大算力去做,也是研发失败。例如市场竞争,Open的大模型使用费是100万个token要50美元,deepseek同样效果只要2美元,怎么玩?
8. 除非大算力实现了ASI,做出中国公司做不到的东西。美国就是在赌这个,卡算力。但是中国算力也不是很少,几十分之一算力规模总有。这种海量数据、海量时间的运算问题,想一些优化效率的办法,算力差距就没有问题了。不太可能正好是20万个GPU做得出来,1万个GPU做不出。实际很可能是,20万个GPU做出来了,1万个GPU的看看输出,想点优化办法,很快也做出来了。如果优化做的好,也许1万个GPU的还先做出来,因为ASI最终肯定是需要算法突破,而不是堆算力。