AMD新专利,解决多芯粒GPU延迟
本文由半导体产业纵横(ID:ICVIEWS)综合
AMD公司已探索“智能交换器”优化数据处理,从而解决多芯粒GPU的延迟问题。
据报道,基于最新获批的专利,AMD公司已探索“智能交换器”优化数据处理,从而解决多芯粒GPU的延迟问题。有消息称在消费级GPU领域,AMD预计将采用多芯粒模块设计。
多芯粒模块设计,即将多个芯片集成到一个封装中,之前已在高性能计算领域得到应用,而AMD计划将其扩展到游戏GPU,以应对单芯片设计在制造和性能上的瓶颈。
此前,AMD在这方面积累了丰富的经验,例如其Instinct系列加速器已采用多芯片设计。Instinct MI200使用多个图形计算芯片与高带宽内存堆叠,实现了高效的数据传输。后续的Instinct MI350系列进一步优化了这一结构,搭载288GB HBM3E内存,内存带宽达8TB/s,基于3nm工艺节点,总晶体管数达1850亿。该系列通过10个芯片模块的2D混合键合,提升了AI任务的处理能力,为消费级产品提供了技术基础。
具体到游戏领域,GPU若要采用多芯粒模块设计,那么最大的问题就是延迟较高,因为帧渲染对长距离数据传输的延迟非常敏感。若要解决这一问题,AMD就必须想出一种能尽可能缩小数据与计算之间差距的方案。
根据披露的一项新专利申请,AMD 或许已经破解了多芯粒模块设计游戏GPU的设计之道。不过,该专利视频中披露的是CPU相关细节,而非GPU,但文本内容和机制表明其目标是图形应用场景。
那么,AMD 究竟将如何在GPU中运用多芯粒模块设计呢?据悉,该专利的核心是一种 “带有智能交换机的数据架构电路”,它能连接计算小芯片与内存控制器之间的通信。这本质上是AMD Infinity Fabric,但为消费级GPU进行了缩减,因为AMD无法采用HBM内存芯片。该交换机旨在优化内存访问,其工作原理是先判断图形任务请求是否需要任务迁移或数据复制,决策延迟达到纳秒级。
解决了数据访问问题后,该专利还指出要让图形计算核心(GCD)配备L1和L2缓存,这与AI加速器的设计类似。不过,通过交换机还能访问额外的共享L3缓存(或堆叠式SRAM),该缓存将连接所有GCD。这不仅减少了对全局内存的访问依赖,同时能够充当小芯片之间的共享过渡区,类似于AMD 3D V-Cache技术,只不过3D V-Cache主要用于处理器。此外,该专利还涉及堆叠式DRAM,这本质上是多芯粒模块设计的基础。
这一专利的出现表明,AMD已为多芯片GPU生态做好准备。AMD可以使用台积电的InFO-RDL桥接技术,以及在小芯片之间使用特定版本的Infinity Fabric进行封装。更具吸引力的是,这种实现方式是AI加速器的缩减版本。此前,AMD计划将其游戏和AI架构合并为一个统一架构,即UDNA架构。AMD还整合了软件生态系统,这样可以摊薄驱动程序和编译器的开发工作。
由于单芯片设计存在局限性,这或许是AMD超越竞争对手的绝佳机会。然而,芯粒设计也存在复杂性,AMD此前在RDNA 3上就曾遇到过小芯片互连带来的延迟。AMD RDNA 3架构Navi 31 GPU已部分采用多芯片设计,配备六个内存控制器芯片,总Infinity Cache达96MB,内存总线宽384位,支持高达24GB GDDR6内存。通过Infinity Fabric互联,峰值带宽达5.2TB/s。该设计在RX 7900系列中实现,每瓦性能较前代提升50%,但也暴露了芯片间延迟的缺陷。
然而凭借创新的交换机方案,再加上额外的共享L3缓存,AMD有望解决延迟问题。不过,具体效果如何,可能要到UDNA 5才能见分晓。
*声明:本文系原作者创作。文章内容系其个人观点,我方转载仅为分享与讨论,不代表我方赞成或认同,如有异议,请联系后台。