Nvidia的日子可能真的会不那么好过了

deepseek发布后,最初我认为ai的需求增大,长期来看对显卡算力的需求是增长的,利好nvidia,只是没现在这么具有垄断地位而已。

很快就看到了6000美元用cpu跑满血671b 8bit的方案,6-8token/s,淘宝上我配了一下,4万左右,和美国up主的成本差距不大。

今天又看到了这个,只需要14g显存和400g内存就能运行671b 4bit

灵活可配的 CPU/GPU 异构大模型推理策略 - KTransformers (2) - 知乎

github上项目的readme可以读一下,有本地部署的实测数据,清华助教ZHANG Mingxing是这个开源项目的发起人和维护人。

GitHub - kvcache-ai/ktransformers: A Flexible Framework for Experiencing Cutting-edge LLM Inference Optimizations

而这个方案是大幅度的解决了对显卡的依赖,而且性能还可以继续优化。14token/s已经到了一般的网页版ai提供服务时的生成速度了。

b站上的BV1z6Nze2EfL是对这个项目的部署实测视频,冲上了b站搜索第一。

未来会怎么发展不好预料,但是,可以肯定,技术的发展不会停留在现在这一步,显卡的重要性在用户端会降低,所以未来对nvidia来说不仅是暂时失去垄断地位这么简单,而是至少五年内nvidia不可能再获得什么垄断地位,现在的局面,intel,摩尔线程这些公司有机会,高通,联发科一样有机会。如果说显卡还有什么优势的话,那么市场需要的是可运行671b的单卡,显卡速度不是那么重要了,能上几百g的显存才重要,而这些显存是不是HBM3e也不重要,gddr6一样可以用,以前做显卡竞争不过nv的公司,做移动端处理器的公司,都有可能一跃成为行业领头羊。

2025 02 16

更新一下,闪迪已经有新技术可以用闪存达到hbm的带宽,4TB显存也不是梦了

SanDisk's new High Bandwidth Flash memory enables 4TB of VRAM on GPUs, matches HBM bandwidth at higher capacity | Tom's Hardware

以前有人整活的gt610疯牛版1tb显存用的是一块1tb的机械硬盘实现的,运行CS能达到4帧,b站上有视频。现在这个风口有机会的公司清单里,又加入了存储设备公司了。

另外说个事,有人在16卡910b的升腾服务器上部署ds r1 q8满血版,prefill都用了近一个小时,和华为联系华为反馈会尽快优化,而今年出的910c是两块910b的胶水版,不会有根本上的进步。华为硬件部门如果不加油的话,错过这个风口都是有可能的。

当然,我都看到了,华为的工作人员肯定早就看到了,希望今年华为发布910d时能有一些惊喜。

2025 03 14

没想到第一个符合我预期的产品是苹果出的,最新的mac studio,512g内存版本的7.7万元,一台运行ds 671b q4能到16to/s,这个东西可以比较简单的组集群,两台应该就能跑671b fp8也就是满血版,苹果网站上写的每个用户限购6台。

(更新,mac组集群最常用的github项目exo的开发组确认,在exo支持下两台m3 ultra 512g即可运行ds r1 671b 8bit即满血版,速度20to/s)

当然这个价格不便宜,15.5万配的机器用ktranformer比这个快,但苹果的东西本来就不便宜,性价比一贯不是苹果产品的优势,苹果的这款产品的优势是不折腾,有钱的用户买来插电联网,复制几个命令安装完,就能直接用,而且静音。

苹果如果在这个方向上赚大了,后续就会有跟进的,和amd的strix halo对共享显存扣扣索索的样子比起来(顶配才128g),苹果这一步迈的大,对消费者而言是好事,即使我不是这款产品的潜在客户(太贵了),未来也会因为这种进步而受益,这次是真希望苹果能在这款产品上多挣钱。

2025 03 15

ktransformer已加入对amd rocm支持,考虑到多人提到过显存占用均在17g以上,所以这个更新最大的意义是最新的7900xt也可以用于kt了,狗东上最便宜的7000多,而5090d最便宜的也要二万五,kt团队为想要本地部署满血版ds671b的人省了至少一万八,双卡四卡的不必说,而且看这价格,要部署kt的可以考虑四卡7900xt了,性能如何还没有消息可以观望。

另,kt团队的章明星知乎id ZHANG Mingxing在b站开小号了,b站id“KTransformers小助手”,技术性问题感兴趣的可以去b站看。

2025 03 19

今天看到nvidia b300发布,查了一下消息,b300性能是强了不少,但真正的大饼还是2027年下半上市的rubin, rubin nvl144两机柜即可提供3.6Eflops的fp4推理能力,rubin nvl 576 8机柜则是15Ef fp4推理,5Ef fp8训练,结合微软那个fp4训练框架,很有可能到时候训练的速度也能达到15Ef。注意这里fp4和fp8性能的比例是3:1不是2:1,采用fp4可预见将成为大趋势。

压力来到友商。吃瓜群众看戏就可以了。

2025 03 20

https://www.bilibili.com/video/BV1JnQdYtEHe/

老黄nvidia gtc 2025的全视频,产品很多,不仅有前面提到过的b300, rubin, 还有spectrum等,而dgx station配备768g统一内存,这一块看来是会越来越大也越来越贵了。

查了一下现在的dgx station价格, dgx station a100是9万9千-14万9千美元,dgx station b100不会比这个便宜。所以dgx station对苹果而言完全没有压力,苹果:我主打的就是性价比[滑稽]何况苹果还有m4 ultra和新mac pro两款产品没有发布。

dgx spark应该就是digits项目,还是128g统一内存,不够mac studio m3 ultra打的。dgx station的768g内存,运行ds r1 fp8支持不了太长的上下文,估计其价格的零头可以买4台m3ul了,4台m3ul合起来内存是2t,ds最大128k上下文限制,按每2k上下文12g内存,需要768g,加上模型本身,运行这么长上下文需要1.5t内存,至少3台m3ul,当然一般用不到128k上下文,这个只是极限估算,而且ds r2今年应该也会发布。但智能体开发至少得十几k上下文,越长越好,所以不是完全没有需求。未来可见的事实是,智能体开发和敲代码的界限会越来越模糊,1982年比尔盖兹说640k够用了,谁知道现在的智能体是不是一样呢?颠覆性的变化应该不会在今年出现,比如说128k上下文不够用了,如果真出现了那么现在买啥产品都不够用。

结论,dgx station不仅价格昂贵,性能在某些关键应用方面可以用孱弱一词来形容,完全无法覆盖用户未来两三年内的需求,单用户性能差距不大,优势只在并发数上,用户升级扩展成本极高,不如一开始就加钱买dgx h100或者instinct mi300x,同一应用领域里,友商产品和diy方案在价格和扩展能力上均优势明显,而这两个优势又带来了智能体开发上的优势,何况不出意外station还是对中国禁运的,我个人不看好这款产品,当然这款也不是n的主打产品,对n的销售影响不会太大。

这次发布会上nvidia的高端产品所展现出来的实力还是很强的,但客户会不会买账就另说了,智能体开发火起来,到底是云上租算力还是本地部署,这个不好说,但随着ds r2等模型的发布,对算力的需求会持续增长而不是降低,这一点不会变,就看谁能分到蛋糕了。

2025 03 25

deepseek v3 0324的事就不多说了,虽然对用户特别是编程来说提升明显,但对ds团队来说只是个小更新,属于v4或r2发布之前热身用的,大新闻还要看这两个版本发布的时候。

amd的mi300x单节点(8gpu)token/s从5921升到了7318,已经超过nvidia h200的数据很多,b200在二月时宣布对ds r1优化时的数据时21088token/s,这个是fp4量化的,但现在nvidia到底有没有实现fp4:fp8换算3:1的比例我不清楚,2:1就是10544to/s,nvidia领先30%, 3:1就是7029to/s,amd反超了,在运行ds r1这个任务上amd至少看到了blackwell的尾灯,有可能已经超车了。

站务

全部专栏