AI推理芯片,最新排名

500

本文由半导体产业纵横(ID:ICVIEWS)编译自ieee spectrum

Nvidia Blackwell在AI推理领域领先,AMD 位居第二。

在 MLCommons 发布的最新一轮机器学习基准测试结果中,基于 Nvidia 全新 Blackwell GPU 架构构建的计算机表现优于其他所有计算机。但 AMD 的最新 Instinct GPU MI325 却与其竞争对手Nvidia H200相媲美。两者的可比结果主要来自对较小规模大型语言模型之一Llama2 70B(700 亿个参数)的测试。然而,为了跟上快速变化的人工智能格局,MLPerf增加了三个新基准测试,以更好地反映机器学习的发展方向。

MLPerf 针对机器学习系统进行基准测试,旨在提供计算机系统之间的同类比较。提交者使用自己的软件和硬件,但底层神经网络必须相同。目前共有 11 个服务器基准测试,今年又增加了 3 个。

MLPerf Inference 联合主席 Miro Hodak 表示,“很难跟上该领域的快速发展”。ChatGPT直到 2022 年底才出现,OpenAI于去年 9 月推出了其首个可以推理任务的大型语言模型 (LLM),LLM 呈指数级增长——GPT3 拥有 1750 亿个参数,而 GPT4 被认为拥有近 2 万亿个参数。由于这些飞速的创新,“我们加快了将新基准引入该领域的步伐,”Hodak 说。

新的基准测试包括两个 LLM。流行且相对紧凑的 Llama2 70B 已经是成熟的 MLPerf 基准测试,但该联盟希望能够模仿人们今天对聊天机器人的期望的响应能力。因此,新的基准测试“Llama2-70B Interactive”收紧了要求。在任何情况下,计算机每秒必须至少产生 25 个指令,并且开始回答的时间不能超过 450 毫秒。

在看到“代理AI”的崛起——能够处理复杂任务的神经网络——MLPerf试图测试一个具有所需某些特征的LLM。他们选择了Llama3.1 405B来完成这项工作。这个LLM具有所谓的宽上下文窗口。这是衡量它一次可以吸收多少信息——文档、代码样本等——的指标。对于Llama3.1 405 B来说,这是128,000个指令,是Llama2 70B的30倍以上。

最后一个新基准称为 RGAT,即所谓的图注意力网络。它的作用是对网络中的信息进行分类。例如,用于测试 RGAT 的数据集由科学论文组成,这些论文在作者、机构和研究领域之间都有关系,构成了 2TB 的数据。RGAT 必须将论文分为不到 3,000 个主题。

Blackwell,测试结果

500

英伟达主导 MLPerf 基准测试。其第一代和第二代 Hopper 架构 GPU——H100 和内存增强型 H200——都表现出色。英伟达加速计算产品总监戴夫·萨尔瓦托(Dave Salvator)表示,从 2022 年投入生产的 Hopper 架构 GPU 来看,“我们在过去一年中又获得了 60% 的性能提升。在性能方面,它仍有一些提升空间。”

但是,真正占据主导地位的是英伟达的Blackwell架构GPU,即B200。“比Hopper更快的唯一东西就是Blackwell,”Salvator说。与H200相比,B200的高带宽内存增加了36%,但更重要的是,它可以使用精度低至4位的数字执行关键的机器学习数学运算,而不是Hopper开创的8位精度。精度较低的计算单元更小,因此更适合GPU,从而加快了AI计算速度。

在Llama3.1 405B基准测试中,Supermicro的八台B200系统每秒提供的指令数量几乎是思科八台H200系统的四倍。同样的Supermicro系统比Llama2 70B交互版本中速度最快的H200计算机快三倍。

英伟达使用其Blackwell GPU和Grace CPU的组合,称为GB200,展示了其NVL72数据链接如何能够很好地整合机架中的多台服务器,使它们像一台巨大的GPU一样运行。在一项未经验证的结果中,该公司分享,基于GB200的完整机架在Llama2 70B上每秒提供869,200个指令。在这一轮MLPerf中报告的最快系统是英伟达的B200服务器,其每秒提供98,443个指令。

AMD将其最新的 Instinct GPUMI325X 定位为性能可与 Nvidia 的 H200 相媲美的产品。MI325X 拥有与其前身 MI300 相同的架构,但增加了更多的高带宽内存和内存带宽 — 256 GB 和 6 TB/秒(分别提高了 33% 和 13%)。

添加更多内存是为了处理越来越大的 LLM。“更大的模型能够利用这些 GPU,因为模型可以装入单个 GPU 或单个服务器中,” AMD 数据中心 GPU 营销总监Mahesh Balasubramanian说。“因此,你不必承担从一个 GPU 到另一个 GPU 或从一个服务器到另一个服务器的通信开销。当你消除这些通信时,延迟会大大改善。”AMD 能够通过软件优化利用额外的内存,将 DeepSeek-R1 的推理速度提高八倍。

在 Llama2 70B 测试中,八 GPU MI325X 计算机的速度与同样配置的 H200 系统相比,只相差 3% 到 7%。在图像生成方面,MI325X 系统的速度与 Nvidia H200 计算机相比,只相差 10% 以内。

AMD 本轮另一个值得注意的成绩来自其合作伙伴 Mangoboost,通过在四台计算机上进行计算,它在 Llama2 70B 测试中表现出了近四倍的性能。

英特尔历来在推理竞赛中推出仅使用 CPU 的系统,以表明对于某些工作负载,您实际上并不需要 GPU。 这次看到了来自英特尔 Xeon 6 芯片的首批数据,该芯片以前称为 Granite Rapids,采用英特尔的 3 纳米工艺制造。 在每秒 40,285 个样本的情况下,双 Xeon 6 计算机的最佳图像识别结果约为配备两个 Nvidia H100 的思科计算机性能的三分之一。

与 2024 年 10 月的 Xeon 5 结果相比,新 CPU 在该基准测试中提升了约 80%,在物体检测和医学成像方面的表现更是大幅提升。自 2021 年首次提交 Xeon 结果(Xeon 3)以来,该公司在 Resnet 上的性能提升了 11 倍。

目前,英特尔似乎已经退出了 AI 加速器芯片之争。其 Nvidia H100 的替代品Gaudi 3既未出现在新的 MLPerf 结果中,也未出现在去年 10 月发布的 4.1 版中。Gaudi 3 的发布时间晚于计划,因为其软件尚未准备好。在英特尔愿景 2025 (该公司仅限受邀参加的客户会议)的开幕词中,新任首席执行官陈立武 (Lip-Bu Tan) 似乎为英特尔在 AI 方面的努力表示歉意。他告诉与会者: “我对我们目前的状况不满意。你们也不满意。我清楚地听到了你们的声音。我们正在努力建立一个有竞争力的系统。这不会在一夜之间发生,但我们会为你们实现目标。”

谷歌的TPU v6e 芯片也表现出色,尽管结果仅限于图像生成任务。在 2024 年 10 月的结果中,4-TPU 系统以每秒 5.48 次查询的速度比使用其前身 TPU v5e 的类似计算机提高了 2.5 倍。即便如此,每秒 5.48 次查询的速度与使用 Nvidia H100 的 类似尺寸的联想计算机大致相当。

*声明:本文系原作者创作。文章内容系其个人观点,我方转载仅为分享与讨论,不代表我方赞成或认同,如有异议,请联系后台。

站务

全部专栏