英伟达的国产平替,“GPGPU”概念有机会吗?

是不是在标题里看到了一个熟悉又陌生的词?GPGPU,即通用图形处理器(General-Purpose Graphics Processing Unit),它的确是一个从GPU衍生出的概念。如果说GPU是巨头的游戏场,GPGPU就是一块正在快速开发的新市场。果壳硬科技(ID:guokr233)连线天数智芯首席技术官吕坚平,深度探问国产GPGPU突围之路。

本文系“1000家硬科技公司”栏目第3篇,关注GPGPU云端芯片公司天数智芯。

付斌 | 作者

李拓、刘冬宇 | 编辑

果壳硬科技团队 | 策划

500

GPU的另一种用法

GPU芯片,也就是我们常说的“显卡”,擅长做并行计算;CPU则长于横向计算。两者组成异构计算的一对黄金搭档。

但你我都知道,过去一年里让GPU一直缺货的原因之一,是它“不务正业”的应用,“挖矿”。矿工们将大量显卡安装在一个机架上组成矿机,通过疯狂压榨GPU芯片算力性能来赚取加密货币。

500

图源 | NVIDIA

计算领域正初步形成“专用”和“通用”的格局。随着人工智能产业爆炸式增长,导致计算复杂化和算力不足,加上CPU并行计算能力不及GPU,使得GPU的通用性计算优势愈发明显,在一众xPU中脱颖而出,成为算力时代VIP。

为了进一步专注通用计算,GPGPU便应运而生。

GPGPU并不比GPU更厉害,只是去掉GPU的图形显示部分,将其余部分全部投入通用计算,并成为AI加速卡(一种并行计算硬件)的核心。

翻开GPU的历史一查,满本都写着两个字是“通用”。

在诞生之初,GPU的重要使命是“跑游戏”。游戏开发商普遍希望利用画面的差异化优势夺得市场,但仅凭调整硬件参数,无法实现独具特色的图形渲染效果,要满足各方需求,就必须增强其通用性。

从上世纪八十年代到2005年,大量专用GPU芯片厂商浮现。芯片遵循摩尔定律,要18~24个月才能迭代,这意味着硬件也只能随之起舞,而彼时处于发展期的图形算法,几个月甚至几周内就会发生巨大进步。

GPU在图形领域的可编程性经历着不断演进的过程,直到2006年,英伟达 CUDA(Compute Unified Device Architecture,统一计算设备架构),及对应工业标准的OpenCL的出现,让GPU实现更广泛的通用计算功能,GPGPU的概念才算真正落地。

500

GPU发展历程

在加入天数之前,吕坚平曾在英伟达、英特尔、三星、联发科等众多跨国半导体巨头担任要职,见证了GPU的改变。他坦言,在2000年初在英伟达研发GPU架构之际,团队“头脑风暴”就讨论过“两个图像如何相加”“原有图形上的通用计算如何实现”等问题,彼时就发现GPU可以做很多图形外的计算任务。

后来,英伟达经过多次迭代,发掘了许多图形之外的应用领域,诸如超算、医疗、科学运算等,并获得了不错的回报,并使用GTX/RTX和Tesla两个前缀区分显卡和AI加速卡。

近几年GPU大会显示的趋势是:GPU将会向大规模扩展计算能力的高性能计算(GPGPU)、人工智能计算(AIGPU)、更加逼真的图形展现(光线追踪 Ray Tracing GPU)三大主要方向发展[1]

GPGPU是GPU未来重要趋势之一,也是国产的一次机会。

500

入场门槛极高,却诞生了一个奇迹

在显卡这个成熟市场,强势的英伟达、AMD令后来者难以立足,加之支持桌面级显示和游戏渲染的显卡,背后需要很多技术支持和迭代,因此市场由国外巨头长期把控。不过,该领域并非没有“叫板者”,只是门槛过高,强如Intel,也难以如愿。自1998年推出第一款GPU i740、2007年推出Larrabee都相继失败,而当这家巨头重启独立GPU计划时,已是2020年。

通过GPGPU占领市场,成为国产厂商的另一个选项,这是天数选择GPGPU赛道的原因。

实际上,巨头也做GPGPU,只不过,不同之处是:巨头如英伟达和AMD,在定制“数据中心级GPU”(实即GPGPU)时,只是删除了显示接口,留下图形部分;国产后进者在研发GPGPU时,则不仅去掉了GPU的显示功能,还去掉了图形渲染功能。去掉的功能虽多,但由于国产厂商的研发工作从零开始,难度依然与GPU相当。

高算力的GPGPU芯片,底层硬件如同迷宫,设计和生产的要求十分复杂、专业和苛刻。GPGPU芯片上会放很多运算单元,让这些运算单元最适当组合并拥有最高的运算效率实现难度极大,一个部分计算单位效率不佳,对整个芯片的影响将放大上千倍。

芯片量产前还要经历冗长的设计测试流程。通常一款高端芯片前端和后端设计要耗时1~3年,设计完成后流片环节需要3~6个月,期间还会有流片失败一切重来的风险。即使成功流片,还需经过3~12个月的产品测试调优,才能开启量产。

天数则用三年时间发布了“天垓芯片”,是唯一一款量产的国产全自研GPGPU芯片,一举打破国外巨头多年的市场垄断。

500

“天垓芯片”大事记,制图 | 果壳硬科技

根据天数官方数据显示,“天垓芯片”以同类产品1/2的芯片面积、更低的功耗,达到了世界先进水平。

该芯片采用7nm制程、容纳240亿晶体管及采用2.5D CoWoS晶圆封装技术,支持单精 (FP32)及半精 (FP16)等混合精度训练,多机多卡互联,单卡半精度算力每秒147T,单精度性能可达每秒37T。笔者查阅英伟达Tesla V100的参数表显示[2],单精度性能可达每秒14T(PCle)/15.7T(SXM2),在单精度性能上“天垓芯片”性能是Tesla V100的2倍。

500

“天垓芯片”参数指标

“可以用奇迹来形容,毕竟英伟达做了很多年,我们第一代就有了这种性能。这也要得益于核心团队在GPU领域耕耘多年。”

500

国产满满的机遇,一个策略是关键

吕坚平向笔者展示一组数据显示,2019年中国GPU芯片板卡市场规模为86亿元,2025年将会达到258亿元,增长将近3倍,年复合增长率高达32%。GPGPU将持续“瓜分”整体市场,更多场景将仰赖通用计算,包括数据中心、互联网甚至未来的元宇宙。

他认为国产厂商在GPGPU上有两个机遇。

其一,GPGPU较容易有利润和市场空间。一方面并行计算与AI推理训练的价值远远超过显卡,每张单卡的价格比较友好;另一方面人工智能也是较为新兴的市场,整个业界包括英伟达都在摸索阶段,对于新创公司来说,不会输在起跑线上。

其二,国内厂商正在寻求英伟达以外的替代供应商,这样不仅有更多的可选余地,也能保证货源安全。此外,在自主可控大趋势下,国产企业抱团取暖才能打破垄断的枷锁。

天数的GPGPU芯片能应用在计算视觉、智能语音、智能推荐、自然语言处理在内的AI领域和深度学习、智能制造、生命科学、物理科学、地球科学在内的HPC高性能计算领域。

“天数是国内唯一一家拥有GPGPU产品的公司,从目前已采用天数产品的客户回馈来看,都相当正面。”他说,“这个过程非常艰难,因为客户用的都是国外的产品,天数也采用了兼容主流GPGPU生态的策略,让客户更容易迁移。”

吕坚平表示,天数的底层架构和软件完全自主研发,在面对风险问题时,除采取各种规避风险的方法,还会尽量凸显自主架构的优势,不依赖最新的制程。

官方网站[3]显示,天数还与国内重要行业伙伴一起,从源头对设计定义和本土优化,为大规模商业化做准备。

500

摩尔定律之外,是GPGPU的未来

每当算力芯片发展受阻,总会有人跳出来高呼“摩尔定律已死”。21世纪初,摩尔定律老化,导致CPU时钟速度竞赛戛然而止。时隔多年,在纳米节点逐渐接近1nm时,业界总要讨论:是延续摩尔定律,还是另辟蹊径。

为此,吕坚平曾发表文章,跳出过去芯片设计窠臼,以可微分GPU及可微分ISP为例,提倡以AI为本的可微分硬件理念。希望借此可重振软硬件彼此加持的雄风,缓解甚至逆转摩尔定律衰退[4]

吕坚平预测,GPU硬件/软件界面将继续使GPU成为“AI世界的CPU”,基于 AI渲染会让张量加速成为GPU中的主流。虚拟世界和现实世界互相映射的数字孪生理念将主导市场,最终解决架构争论[5]

天数表示,未来将会越过传统,跳接回归GPGPU的新图形标准、使核心图形硬件可微分,以便可以运用可微分的图形硬件制作更强的AI,以及运用AI带动更优越的可微分图形硬件[6]

关于天数智芯

500

硬科技公司相关情况,制表 | 果壳硬科技

References:

[1] 熊庭刚. GPU的发展历程、未来趋势及研制实践[J].微纳电子与智能制造, 2020, 2(2): 36-40.

[2] NVIDIA V100规格表, https://www.nvidia.com/en-us/data-center/v100/

[3] 天数智芯官方网站, https://www.iluvatar.com.cn/

[4] CP Lu,PhD. How AI Might Help Revive the Virtuous Cycle of Moore’s Law, 2021.10.09, https://towardsdatascience.com/differentiable-hardware-9bb03aad4563

[5] CP Lu,PhD. Will The GPU Star in A New Golden Age of Computer Architecture?, 2021.07.22, https://medium.com/m/global-identity?redirectUrl=https%3A%2F%2Ftowardsdatascience.com%2Fwill-the-gpu-star-in-a-new-golden-age-of-computer-architecture-3fa3e044e313

[6] 天数智芯官方网站, 由GPGPU带领更先进的图形,让AI启动元宇宙及数字孪生的应用, 2021.11.10, https://www.iluvatar.com.cn/newsinfo/yougpgpuda/

全部专栏