以色列初创芯片公司,瞄准AI CPU

500

本文由半导体产业纵横(ID:ICVIEWS)编译自nextplantform

AI CPU市场将会非常火爆。

仅仅因为GenAI 计算和其他类型的机器学习和数据分析的重心已经从 CPU 转移到 XPU 加速器,并不意味着托管这些 XPU 的系统的 CPU 选择并不重要。

事实上,系统中CPU 的选择至关重要。CPU 的设计、主内存容量(用作 XPU 的 L4 缓存,用于存储模型权重和嵌入)、连接 XPU 和外部世界的互连,以及用于加速某些系统功能的板载加速器,都可能决定着是最大限度地利用 XPU 的价值,还是在数据中心的冷却塔上浪费巨额资金。如今,世界上最糟糕的事情莫过于花费四五万美元却无法充分利用缓存的 GPU。

AMD 和英特尔一直在销售他们的高端 Epyc 和 Xeon CPU,以此来提高 GPU 主机的吞吐量。具体来说,今年早些时候,AMD 展示了如何将其Turin Epyc 9575F 处理器与其自己的Antares MI300X 或 Nvidia 的Hopper H100 GPU 加速器一起使用,可以比高端 Xeon 5 处理器提高近 10% 的 AI 推理性能。

英特尔也一直在为其高端Granite Rapids Xeon 6 6900P 处理器成为 XPU 主机服务器的首选 CPU 而努力。Nvidia 设计了自己的Grace CG100 Arm 服务器处理器,明确地与其数据中心 GPU 配对,用于 HPC 和 AI 工作负载,当然,美国和中国的每个超大规模计算企业和主要云构建者以及欧洲和印度的 HPC 中心都在出于类似目的推动自己的 Arm 服务器芯片设计。

NeuReality 是一家总部位于以色列的芯片初创公司,一直专注于推理,现在它正在迎接挑战,与 Arm 合作推出一款新的 Arm 服务器芯片,该芯片专注于作为 AI 推理和 AI 训练工作负载的主机处理器。

到目前为止,NeuReality 一直专注于 AI 推理,首先从运行 AI 推理算法的 FPGA 开始,然后构建一个名为 NR1 的定制八核 Arm 主机处理器,该处理器于 2023 年 11 月推出,它具有用于 AI 工作负载的板载加速器,可以完成其他 CPU 无法很好地完成且可以从 GPU 上卸载的繁重工作。

NeuReality 由首席执行官 Moshe Tanach、芯片设计副总裁 Yossi Kasus 和运营副总裁 Tzvika Shmueli 于 2018 年 9 月共同创立,其 80 人团队拥有来自 Marvell、英特尔、Mellanox Technologies(现已成为 Nvidia 的一部分)和 Habana Labs(也曾是英特尔的一部分)的专业知识。

Tanach 曾担任 Marvell 片上系统设计架构总监。Kasus 曾是 EZChip 的 VLSI 项目经理,EZChip 开发了基于 Arm 的 DPU 引擎,该引擎最终于 2016 年被 Mellanox 收购,并成为 NvidiaBlueFieldDPU 的基础。Shmueli 曾担任 Habana Labs 的工程副总裁,在此之前,他在 Mellanox 的芯片部门工作了十五年多。

据我们所知,NeuReality 已筹集约 7000 万美元的种子资金和随后的四轮融资,其中包括来自 SK Hynix 和三星等众多私募股权公司的资金。

如今,PC 制造商纷纷打造有别于普通 PC 的AI PC,而 NeuReality 则在数据中心打造有别于其他 CPU 的AI CPU。其创立原则是,AI 主机的需求与数据中心内执行其他工作的主机的需求不同。2022 年底之前的 AI 推理对主机 CPU 的要求并不高。但 GenAI 的出现使 AI 推理的工作负载大大增加,现在,拥有强大CPU 及其配套 XPU 的主机可能适合运行 AI 训练,也可能适合在较少的主机数量下进行 AI 推理。这种情况的发生相当方便,但数百家提供专用AI 推理设备的公司以及超大规模计算企业和云构建者为推理而开发的自主产品可能已经受到了威胁。

但即使你这样做,也不同于专门为AI推理和训练设计的主机CPU,它不仅仅是为任何高性能工作负载而设计的CPU。NR1是一个有趣的初步尝试,它展示了性能更强大的NR2芯片的架构,后者将于2026年推出,并于2027年开始批量出货。

500

NR1 拥有八个 Arm Neoverse N1 核心、十六个通用 DSP 核心、十六个音频 DSP 核心和四个视频引擎。这些额外的加速器专门用于执行部分主机处理,用于处理 AI 模型使用的视觉、音频和文本数据。NR1 拥有 20 个 LPDDR5 内存通道(也用于 Nvidia Grace 芯片),可提供 160 GB 的容量和 256 GB/秒的内存带宽。(诚然,这个容量有点小,但五年前 NR1 规划时,推理任务的带宽也一样小。)该芯片配备两个 100 Gb/秒的 RoCE v2 以太网端口,用于与机箱内的其他 CPU 以及外界通信。

NeuReality CPU 设计中的特殊之处是它所称的 AI-Hypervisor,它是一组基于硬件的固件,用于管理主机GPU 内部以及它们管理的 XPU 加速器的数据移动,同时提供服务质量保证和分层编程模型的挂钩,使得使用 NeuReality 开发的内核库(或您自己创建的库)更容易在此主机上运行。

随着GenAI 助力 AI 推理能力的增强,NeuReality 深知需要将更强大的主机 CPU 投入到该领域,因此正在与 Arm 合作,利用其计算子系统 (CSS) 模块来加速开发,并于明年推出 NR2 芯片。Arm 已于 2024 年 2 月推出下一代 CSS 模块。

具体来说,NR2 将基于 Arm 的Poseidon V3 内核——该内核包含大量 SVE2 矢量单元,很可能也会用于明年推出的 Nvidia 的Vera Arm CPU。NeuReality 已从 Arm 获得Voyager CSS V3 软件包的授权,该软件包包含大量围绕内核的技术,随时可用。

500

Tanach 并未具体说明将使用 CSS V3 封装的哪些组件,也未说明集成到 NR2 封装中的加速器数量,但他表示,将提供双芯片组选项,将 NR2 插槽的核心数提升至 128 个,同时还将提升封装的网络功能——这可能意味着端口速度更快,但也可能意味着端口数量会更多。考虑到设计人员的传统,NR2 将集成一个经过 AI 调优的集成网卡,具有实时模型协调、基于微服务的分解、令牌流、键值缓存优化和内联编排功能。网络堆栈还将包含一个结构引擎,用于简化 AI 客户端和服务器之间的数据流,以及在使用 NR2 处理器和各种 XPU 构建的集群上运行的 AI 流水线内的数据流。

NR1 芯片展示了 NeuReality 为相对较轻的推理工作负载带来的差异化,并表明了该公司希望通过 NR2 后续产品产生的影响。

Tanach 表示,借助NR1,我们构建了一个由运行 Linux 和 Kubernetes 的 ARM 内核管理的异构 CPU,但我们确保数据路径大部分负载都转移到了 GPU 或其他处理器上。与Arm 的合作,我们展示了 LLM 中 AI 运算成本的提升,提升了 2 到 3 倍;在运行 LLM 前端的计算机视觉提取管道和多模态管道时,成本甚至提升了 10 倍。

我们期待看到NR2 处理器的供给和速度,以及它如何与 AMD 和英特尔的 X86 CPU 以及超大规模和云构建者为自己的工作负载设计的基于 Arm 的 CPU 区分开来,并通过高于 X86 的性价比销售宣传来吸引客户使用他们的云。

Arm 基础设施业务总经理 Mohamed Awad 告诉我们:NeuReality 围绕 NR2 所做的特别有趣的事情在于,它把加速器置于系统的核心,这很重要,但同时也没有忽视 CPU 对 AI 计算基础设施至关重要的事实。我们这里说的可不是‘弱小的 CPU’——NeuReality 正在这款芯片中全力投入 CSS V3,他们说的是 64 核和 128 核。我认为关键在于:这个市场才刚刚开始腾飞。未来将会涌现出许多不同的架构。

AI CPU市场将会非常火爆。Tanach 表示,英特尔和 AMD 向数据中心销售 X86 CPU 所赚取的 320 亿美元中,只有 20% 的收入来自 AI 系统。从长远来看,AI 平台将推动 CPU 销售额的大幅增长。NeuReality 认为,一款专为 AI 训练和 AI 推理而设计、高度调校的 Arm 定制处理器能够抢占一大块市场份额。

超大规模计算和云构建商显然相信这一点,因为他们正在制造自己的Arm 服务器芯片。Nvidia 也相信这一点,否则它就不会费心研发 Grace 和 Vera 了。但 Grace 在内存容量和核心数量方面有其局限性,只有 72 个核心。而 Vera 也只有 88 个核心。因此,某些公司可以推出一系列 AI CPU,核心数量从 32 核到 128 核不等的 SKU,而 OEM 和 ODM 可以围绕这些 SKU 构建系统并增加价值,而 Nvidia 的 Grace 和 Vera 芯片很难做到这一点,因为它们是完整 Nvidia 产品线的一部分。

*声明:本文系原作者创作。文章内容系其个人观点,我方转载仅为分享与讨论,不代表我方赞成或认同,如有异议,请联系后台。

站务

全部专栏