Nvidia的日子可能真的会不那么好过了
deepseek发布后,最初我认为ai的需求增大,长期来看对显卡算力的需求是增长的,利好nvidia,只是没现在这么具有垄断地位而已。
很快就看到了6000美元用cpu跑满血671b 8bit的方案,6-8token/s,淘宝上我配了一下,4万左右,和美国up主的成本差距不大。
今天又看到了这个,只需要14g显存和400g内存就能运行671b 4bit
灵活可配的 CPU/GPU 异构大模型推理策略 - KTransformers (2) - 知乎
github上项目的readme可以读一下,有本地部署的实测数据,清华助教ZHANG Mingxing是这个开源项目的发起人和维护人。
而这个方案是大幅度的解决了对显卡的依赖,而且性能还可以继续优化。14token/s已经到了一般的网页版ai提供服务时的生成速度了。
b站上的BV1z6Nze2EfL是对这个项目的部署实测视频,冲上了b站搜索第一。
未来会怎么发展不好预料,但是,可以肯定,技术的发展不会停留在现在这一步,显卡的重要性在用户端会降低,所以未来对nvidia来说不仅是暂时失去垄断地位这么简单,而是至少五年内nvidia不可能再获得什么垄断地位,现在的局面,intel,摩尔线程这些公司有机会,高通,联发科一样有机会。如果说显卡还有什么优势的话,那么市场需要的是可运行671b的单卡,显卡速度不是那么重要了,能上几百g的显存才重要,而这些显存是不是HBM3e也不重要,gddr6一样可以用,以前做显卡竞争不过nv的公司,做移动端处理器的公司,都有可能一跃成为行业领头羊。
2025 02 16
更新一下,闪迪已经有新技术可以用闪存达到hbm的带宽,4TB显存也不是梦了
以前有人整活的gt610疯牛版1tb显存用的是一块1tb的机械硬盘实现的,运行CS能达到4帧,b站上有视频。现在这个风口有机会的公司清单里,又加入了存储设备公司了。
另外说个事,有人在16卡910b的升腾服务器上部署ds r1 q8满血版,prefill都用了近一个小时,和华为联系华为反馈会尽快优化,而今年出的910c是两块910b的胶水版,不会有根本上的进步。华为硬件部门如果不加油的话,错过这个风口都是有可能的。
当然,我都看到了,华为的工作人员肯定早就看到了,希望今年华为发布910d时能有一些惊喜。