Nvidia的日子可能真的会不那么好过了

无聊至极

02-13 13:19

deepseek发布后，最初我认为ai的需求增大，长期来看对显卡算力的需求是增长的，利好nvidia，只是没现在这么具有垄断地位而已。

很快就看到了6000美元用cpu跑满血671b 8bit的方案，6-8token/s，淘宝上我配了一下，4万左右，和美国up主的成本差距不大。

今天又看到了这个，只需要14g显存和400g内存就能运行671b 4bit

灵活可配的 CPU/GPU 异构大模型推理策略 - KTransformers (2) - 知乎

github上项目的readme可以读一下，有本地部署的实测数据，清华助教ZHANG Mingxing是这个开源项目的发起人和维护人。

GitHub - kvcache-ai/ktransformers: A Flexible Framework for Experiencing Cutting-edge LLM Inference Optimizations

而这个方案是大幅度的解决了对显卡的依赖，而且性能还可以继续优化。14token/s已经到了一般的网页版ai提供服务时的生成速度了。

b站上的BV1z6Nze2EfL是对这个项目的部署实测视频，冲上了b站搜索第一。

未来会怎么发展不好预料，但是，可以肯定，技术的发展不会停留在现在这一步，显卡的重要性在用户端会降低，所以未来对nvidia来说不仅是暂时失去垄断地位这么简单，而是至少五年内nvidia不可能再获得什么垄断地位，现在的局面，intel，摩尔线程这些公司有机会，高通，联发科一样有机会。如果说显卡还有什么优势的话，那么市场需要的是可运行671b的单卡，显卡速度不是那么重要了，能上几百g的显存才重要，而这些显存是不是HBM3e也不重要，gddr6一样可以用，以前做显卡竞争不过nv的公司，做移动端处理器的公司，都有可能一跃成为行业领头羊。

2025 02 16

更新一下，闪迪已经有新技术可以用闪存达到hbm的带宽，4TB显存也不是梦了

SanDisk's new High Bandwidth Flash memory enables 4TB of VRAM on GPUs, matches HBM bandwidth at higher capacity | Tom's Hardware

以前有人整活的gt610疯牛版1tb显存用的是一块1tb的机械硬盘实现的，运行CS能达到4帧，b站上有视频。现在这个风口有机会的公司清单里，又加入了存储设备公司了。

另外说个事，有人在16卡910b的升腾服务器上部署ds r1 q8满血版，prefill都用了近一个小时，和华为联系华为反馈会尽快优化，而今年出的910c是两块910b的胶水版，不会有根本上的进步。华为硬件部门如果不加油的话，错过这个风口都是有可能的。

当然，我都看到了，华为的工作人员肯定早就看到了，希望今年华为发布910d时能有一些惊喜。

2025 03 14

没想到第一个符合我预期的产品是苹果出的，最新的mac studio，512g内存版本的7.7万元，一台运行ds 671b q4能到16to/s，这个东西可以比较简单的组集群，两台应该就能跑671b fp8也就是满血版，苹果网站上写的每个用户限购6台。

（更新，mac组集群最常用的github项目exo的开发组确认，在exo支持下两台m3 ultra 512g即可运行ds r1 671b 8bit即满血版，速度20to/s）

当然这个价格不便宜，15.5万配的机器用ktranformer比这个快，但苹果的东西本来就不便宜，性价比一贯不是苹果产品的优势，苹果的这款产品的优势是不折腾，有钱的用户买来插电联网，复制几个命令安装完，就能直接用，而且静音。

苹果如果在这个方向上赚大了，后续就会有跟进的，和amd的strix halo对共享显存扣扣索索的样子比起来（顶配才128g），苹果这一步迈的大，对消费者而言是好事，即使我不是这款产品的潜在客户（太贵了），未来也会因为这种进步而受益，这次是真希望苹果能在这款产品上多挣钱。

2025 03 15

ktransformer已加入对amd rocm支持，考虑到多人提到过显存占用均在17g以上，所以这个更新最大的意义是最新的7900xt也可以用于kt了，狗东上最便宜的7000多，而5090d最便宜的也要二万五，kt团队为想要本地部署满血版ds671b的人省了至少一万八，双卡四卡的不必说，而且看这价格，要部署kt的可以考虑四卡7900xt了，性能如何还没有消息可以观望。

另，kt团队的章明星知乎id ZHANG Mingxing在b站开小号了，b站id“KTransformers小助手”，技术性问题感兴趣的可以去b站看。

2025 03 19

今天看到nvidia b300发布，查了一下消息，b300性能是强了不少，但真正的大饼还是2027年下半上市的rubin， rubin nvl144两机柜即可提供3.6Eflops的fp4推理能力，rubin nvl 576 8机柜则是15Ef fp4推理，5Ef fp8训练，结合微软那个fp4训练框架，很有可能到时候训练的速度也能达到15Ef。注意这里fp4和fp8性能的比例是3：1不是2：1，采用fp4可预见将成为大趋势。

压力来到友商。吃瓜群众看戏就可以了。

2025 03 20

https://www.bilibili.com/video/BV1JnQdYtEHe/

老黄nvidia gtc 2025的全视频，产品很多，不仅有前面提到过的b300， rubin，还有spectrum等，而dgx station配备768g统一内存，这一块看来是会越来越大也越来越贵了。

查了一下现在的dgx station价格， dgx station a100是9万9千-14万9千美元，dgx station b100不会比这个便宜。所以dgx station对苹果而言完全没有压力，苹果：我主打的就是性价比[滑稽]何况苹果还有m4 ultra和新mac pro两款产品没有发布。

dgx spark应该就是digits项目，还是128g统一内存，不够mac studio m3 ultra打的。dgx station的768g内存，运行ds r1 fp8支持不了太长的上下文，估计其价格的零头可以买4台m3ul了，4台m3ul合起来内存是2t，ds最大128k上下文限制，按每2k上下文12g内存，需要768g，加上模型本身，运行这么长上下文需要1.5t内存，至少3台m3ul，当然一般用不到128k上下文，这个只是极限估算，而且ds r2今年应该也会发布。但智能体开发至少得十几k上下文，越长越好，所以不是完全没有需求。未来可见的事实是，智能体开发和敲代码的界限会越来越模糊，1982年比尔盖兹说640k够用了，谁知道现在的智能体是不是一样呢？颠覆性的变化应该不会在今年出现，比如说128k上下文不够用了，如果真出现了那么现在买啥产品都不够用。

结论，dgx station不仅价格昂贵，性能在某些关键应用方面可以用孱弱一词来形容，完全无法覆盖用户未来两三年内的需求，单用户性能差距不大，优势只在并发数上，用户升级扩展成本极高，不如一开始就加钱买dgx h100或者instinct mi300x，同一应用领域里，友商产品和diy方案在价格和扩展能力上均优势明显，而这两个优势又带来了智能体开发上的优势，何况不出意外station还是对中国禁运的，我个人不看好这款产品，当然这款也不是n的主打产品，对n的销售影响不会太大。

这次发布会上nvidia的高端产品所展现出来的实力还是很强的，但客户会不会买账就另说了，智能体开发火起来，到底是云上租算力还是本地部署，这个不好说，但随着ds r2等模型的发布，对算力的需求会持续增长而不是降低，这一点不会变，就看谁能分到蛋糕了。

2025 03 25

deepseek v3 0324的事就不多说了，虽然对用户特别是编程来说提升明显，但对ds团队来说只是个小更新，属于v4或r2发布之前热身用的，大新闻还要看这两个版本发布的时候。

amd的mi300x单节点（8gpu）token/s从5921升到了7318，已经超过nvidia h200的数据很多，b200在二月时宣布对ds r1优化时的数据时21088token/s，这个是fp4量化的，但现在nvidia到底有没有实现fp4：fp8换算3:1的比例我不清楚，2：1就是10544to/s，nvidia领先30%， 3：1就是7029to/s，amd反超了，在运行ds r1这个任务上amd至少看到了blackwell的尾灯，有可能已经超车了。

科技举报

无聊至极

59篇文章 | 24人关注

+关注

观察者网用户社区

作者文章查看全部>>

热门搜索

搜索历史

Nvidia的日子可能真的会不那么好过了

无聊至极

无聊至极

热点

站务

观察者网评论

请你来预测，2025年这些期待是否会发生？

风闻社区小助手_小风

风闻“投资者保护”：守护你的财富，共筑理性投资路

最近更新的专栏

风闻最热

全部专栏