高负荷下的人工智能GPU:平均寿命仅1-3年

500

在当今人工智能(AI)和高性能计算(HPC)日益依赖的环境中,图形处理单元(GPU)已经成为数据中心的重要计算资源。然而,最近的报告指出,这些高价GPU在实际使用中的寿命可能仅为1到3年,给AI行业的经济带来了潜在的影响。

根据Tech Fund引用的一位来自Alphabet的高级专家的观点,数据中心GPU的寿命受到其利用率的极大影响。现代数据中心中,GPU主要用于执行AI训练和推理等高强度计算任务。在这种情况下,GPU往往处于高负荷状态,导致其磨损速度远超其他硬件组件。云计算服务提供商(CSP)在运营中发现,GPU的利用率通常维持在60%至70%之间,这种高负荷的工作环境进一步缩短了GPU的预期寿命。

在这样的利用率下,GPU的平均寿命一般在1到2年之间,最多可延长至3年。这一观点虽然尚未得到充分验证,但由于现代GPU的功耗通常达到700W或以上,确实给硅片带来了巨大的压力,这使得这种看法具备一定的可信度。

为了延长GPU的使用寿命,降低其利用率被认为是一种有效的方法。然而,这样的做法会导致GPU的贬值速度减缓,进而影响到资本回收的效率,这对于大多数商业运营来说并不是理想的选择。因此,许多云服务提供商更倾向于维持GPU的高利用率,以实现最佳的投资回报。

Meta在早些时候进行的一项研究表明,他们在训练Llama 3 405B模型时,使用了由16,384个Nvidia H100 80GB GPU组成的集群。尽管该集群的模型浮点运算利用率(MFU)约为38%,但在54天的训练过程中,发生了419次不可预见的故障,其中148次(约30.1%)是由各种GPU故障引起的,包括NVLink故障,而72次(约17.2%)则由HBM3内存故障引起。这表明,即使在相对较低的利用率下,GPU也面临着显著的故障风险。

Meta的研究结果显示,若以其故障率为依据,H100 GPU的年度故障率约为9%,而在三年内的年度故障率则约为27%。然而,随着GPU服役时间的延长,故障的频率可能会进一步增加,这给运营带来了不小的挑战。

随着AI和HPC应用的不断发展,数据中心对GPU的需求只会持续增长。然而,GPU的短寿命周期却使得数据中心的运营维护面临严峻考验。为了应对这一挑战,行业亟需开发更加耐用的GPU架构,寻找有效的管理和延长GPU使用寿命的方法。

与此同时,数据中心运营商还需要重新评估其硬件更新策略,以适应不断变化的技术需求和日益增长的计算负载。以传统三年折旧期为基础的资本投资计划已显得不再现实,企业需转向短期投资回收计划,以应对可能的现金流压力。

*免责声明:以上内容整理自网络,仅供交流学习之用。如有内容、版权问题,请留言与我们联系进行删除。

最近更新的专栏

全部专栏