“英伟达很急:别再卡了,中国自研芯片已突围”

回复4

  • AI芯片的差距在使用端没有那么夸张的,可以通过堆砌缩小差距,只不过成本高了
  • 新闻:H20作为美国出口管制下的“特供版”,性能缩水引发市场争议。尽管其计算性能仅为H100的20%-50%
    也就是h100是h20性能的2到5倍,视乎不同任务的差异。
    不过ai加速不需要高性能的单处理器,
    ai的计算任务非常简单,只需要非常低端的处理器构成”超算“,
    h100和h20都是多个处理器的堆叠,
    资料:“流式多处理器(SM)架构:H100 包含 132 个 SM
    每个 SM 内含128 个 FP32 CUDA 核心
    (也就是h100一张卡有 132*128=16896 个处理器)“
    这就是为什么美国把阉割版h20也做限制,
    因为只要堆叠几个h20,性能就超过h100了。
    那为什么大家优先采购h100呢,
    区别就是电力消耗不同,
    h100耗电设计是h20的1.75倍,
    但性能达到2到5倍,
    性能/能耗比更佳。
    当前制约ai算力的最大问题是电力,
    其他竞争对手包括华为,
    完全可以堆出比h100更快的ai加速卡,
    但能耗太高行不通。
    ------
    还有一个制约因素是出错率,
    训练过程中这些卡会出错导致中断,
    所以不是堆得越多越好。
    例如deepseek由于卡少,
    所以训练效率肯定比那些卡多的公司高。
    当美国软件公司还在污蔑和质疑deepseek的高效率时,
    英伟达果断宣布deepseek是最好的推理大模型,
    那些软件公司就只能闭嘴了。
    因为只有英伟达公司清楚哪个模型能发挥英伟达的更大效率,
    美国大部分大模型都是在白白浪费电力。

  • 从公布的参数来看,H20主要被阉割的是算力,H20的FP16、INT8等主要算力参数仅为A100的不足1/2,更是仅为H100的约1/7;但是H20有着惊人的带宽(HBM容量96GB),而且H20通过NVlink架构,通过多卡使用、多卡堆叠模式,推理性能甚至可以超越非阉割版的H100,仅略逊于H200,其显存带宽在Decode阶段H20每生成1个Token所需时间,通过测试低于A100、H100,这也使得H20在整个推理过程具有较高的推理速度。
  • 嘴链罢了, 看看“川普总统”四个字就知道咋回事,从哪来的了。
返回文章

站务

全部专栏