避免美国制裁断供,中企选择「多GPU 混合」训练AI模型

近年来,美国政府对中国的技术限制愈加严格,尤其是在半导体和AI领域。2024年,美国更是吊销了华为8张出口许可证,使得中国企业在获取先进GPU等关键元件方面面临巨大挑战。为了应对这一局面,中国的AI公司纷纷开始探索新的技术路径,试图通过「多GPU混合」方法来提升AI模型训练能力,规避制裁带来的不利影响。

500

多GPU混合技术的核心在于利用多个来自不同供应商的GPU进行并行训练。这种方法有以下几个主要优势:

提高训练速度:通过多个GPU并行处理,AI模型训练速度显著提升。这对于训练大语言模型(LLM)尤为重要,因为这些模型需要处理大量数据,训练时间长且计算需求高。

优化资源利用:不同GPU的混合使用能够更好地利用系统的记忆体资源,减少单一GPU的过载情况,提升整体计算效率。

降低成本依赖:多GPU混合技术使中国企业不再完全依赖昂贵的NVIDIA晶片,从而降低了整体成本。这对于在当前制裁环境下依然保持竞争力至关重要。

华为的升腾(Ascend)系列AI处理器是中国目前唯一可用的高性能AI晶片。然而,升腾910B晶片在产量方面遇到了一些问题,导致生产时间延长,价格也随之上涨。尽管如此,华为依然是中国AI企业的重要供应商,其产品在国内市场上具有一定的影响力和份额。

随着中美晶片大战的加剧,中国市场上出现了针对NVIDIA AI GPU的地下走私网络。然而,这些黑市供货有限且价格昂贵,无法满足大规模需求。面对这种局面,中国企业不得不更多地依赖本土晶片(如华为的产品)或使用未经许可的老一代GPU来解决供应问题。

目前,中国的一些主要科技公司,如百度和阿里巴巴,已经开始开发并应用「多GPU混合」技术。这种技术需要将不同的GPU晶片组成一个高效的训练集群,以应对复杂的AI模型训练需求。然而,这一技术实现过程中也面临诸多挑战:

高速通讯架构:要实现多GPU混合,必须解决不同加速器之间的高效通讯问题。目前,NVIDIA的NVLink是业界公认的高效解决方案,但对于非NVIDIA的GPU,需要开发新的高速架构。

网络架构选择:阿里巴巴云在实现多GPU混合技术时,选择放弃了基于NVLink的架构,转而使用基于乙太网的高性能网络。这种选择虽然解决了通讯问题,但在实现过程中可能面临带宽和延迟等技术挑战。

尽管多GPU混合技术在实现过程中面临诸多挑战,但其潜在优势使其成为中国AI企业应对美国制裁的有效途径。未来,随着技术的不断发展和优化,多GPU混合有望在更大范围内应用,助力中国AI产业在全球竞争中保持强劲势头。

同时,中国政府和企业需要继续加大对本土半导体技术的投入,提升自主研发能力,减少对国外技术和产品的依赖。只有这样,才能在复杂的国际形势中立于不败之地,实现真正的科技自主与创新。

*免责声明:以上内容整理自网络,仅供交流学习之用。如有内容、版权问题,请留言与我们联系进行删除。

全部专栏