范弗里特弹药量告诉我们,ai算力非唯一但并非不去追求!
算力如果能决定人类发展,那人类早就灭亡了。数学只是人类的一项技能,不要把技能当作是智慧。
我自己推荐一下自己的回复吧
关于这个问题要客观的看待。如果deepseek自述文件中表述的“蒸馏模型”,区别就是V3、R1是师到底从自己团队的教师模型,还是GPT的教师模型。
但无论师从谁家的大模型,V3、R1都是无法超越教师模型的,包括deepseek自家的大模型。
你不要指望从一本书里面得到十本书的知识!
蒸馏模型,就像现在流行的电影情节讲解的小视频,把电影情节蒸馏提炼出来的确一目了然,然而这种讲解不可能超越电影本身带来的信息。问题在于你了解这部电影的时间,则从一个半小时缩短到十来分钟则是毫无疑问的……
所以我的理解是,使用基于蒸馏技术的V3、R1,基本门槛再低,意义也作为通用场所使用没有问题,因为蒸馏过的学生模型只能在精简的范围内运行,突破不了教师模型的天花板。
这就像手机摄影摄像解决了低门槛问题,使得参与摄影摄像的制作者更多更广泛,同时也增加了影像制作的乐趣,同理,V3、R1存在的意义也正在于此。我今天下午刚刚在本地电脑上部署了deepseek R1。我的GPU显存只有6G,也能本地运行deepseek R1而不需要网络登录网页版deepseek。
但无论如何,手机摄影摄像无法取代专业相机和摄像机,ai同样也是如此。
尤其是,按照V3、R1的自述文件为蒸馏模型,即便是迭代了14个版本,那么蒸馏即便排除师从GPT的来源,V3、R1背后的教师模型是自己的架构,教师模型也绝不是2024片可以构建的。
如果我没有理解错的话,2024片芯片构建的是学生模型而非教师模型。(如非请斧正,想当然者绕行)
不过,我认为这是一个策略问题,正如毛教员原来就说过“你打你的原子弹,我打我的手榴弹”,即便是“范弗里特弹药量”,最终也没有让美军在朝鲜取得胜利。
抗美援朝战场很形象的解释了“算力”并不能取代“算法”。但这并不意味着,PLA不会不陷入“弹药恐慌症”……
手榴弹绝不是战略目的,只是策略手段,就像我们不能永远满足于在游轮底层中的四、五等舱中狂欢而不能自拔。
毕竟手榴弹是不可能取代原子弹的,中国不可能不追求饱和打击力量,不然不可能去造两弹一星。
“你打你的原子弹,我打我的手榴弹”是从意志上,从策略上为我们争取到了时间,唯此中国才有了两弹一星以及去年珠海航展上展示的“解放军弹药量”,过去如此,今天对于中国AI也同样如此,我们不可能不去追求算力!