避免美国制裁断供，中企选择「多GPU 混合」训练AI模型

科闻社
科闻社官方账号

天助自助者07-04 15:29

近年来，美国政府对中国的技术限制愈加严格，尤其是在半导体和AI领域。2024年，美国更是吊销了华为8张出口许可证，使得中国企业在获取先进GPU等关键元件方面面临巨大挑战。为了应对这一局面，中国的AI公司纷纷开始探索新的技术路径，试图通过「多GPU混合」方法来提升AI模型训练能力，规避制裁带来的不利影响。

500

多GPU混合技术的核心在于利用多个来自不同供应商的GPU进行并行训练。这种方法有以下几个主要优势：

提高训练速度：通过多个GPU并行处理，AI模型训练速度显著提升。这对于训练大语言模型（LLM）尤为重要，因为这些模型需要处理大量数据，训练时间长且计算需求高。

优化资源利用：不同GPU的混合使用能够更好地利用系统的记忆体资源，减少单一GPU的过载情况，提升整体计算效率。

降低成本依赖：多GPU混合技术使中国企业不再完全依赖昂贵的NVIDIA晶片，从而降低了整体成本。这对于在当前制裁环境下依然保持竞争力至关重要。

华为的升腾（Ascend）系列AI处理器是中国目前唯一可用的高性能AI晶片。然而，升腾910B晶片在产量方面遇到了一些问题，导致生产时间延长，价格也随之上涨。尽管如此，华为依然是中国AI企业的重要供应商，其产品在国内市场上具有一定的影响力和份额。

随着中美晶片大战的加剧，中国市场上出现了针对NVIDIA AI GPU的地下走私网络。然而，这些黑市供货有限且价格昂贵，无法满足大规模需求。面对这种局面，中国企业不得不更多地依赖本土晶片（如华为的产品）或使用未经许可的老一代GPU来解决供应问题。

目前，中国的一些主要科技公司，如百度和阿里巴巴，已经开始开发并应用「多GPU混合」技术。这种技术需要将不同的GPU晶片组成一个高效的训练集群，以应对复杂的AI模型训练需求。然而，这一技术实现过程中也面临诸多挑战：

高速通讯架构：要实现多GPU混合，必须解决不同加速器之间的高效通讯问题。目前，NVIDIA的NVLink是业界公认的高效解决方案，但对于非NVIDIA的GPU，需要开发新的高速架构。

网络架构选择：阿里巴巴云在实现多GPU混合技术时，选择放弃了基于NVLink的架构，转而使用基于乙太网的高性能网络。这种选择虽然解决了通讯问题，但在实现过程中可能面临带宽和延迟等技术挑战。

尽管多GPU混合技术在实现过程中面临诸多挑战，但其潜在优势使其成为中国AI企业应对美国制裁的有效途径。未来，随着技术的不断发展和优化，多GPU混合有望在更大范围内应用，助力中国AI产业在全球竞争中保持强劲势头。

同时，中国政府和企业需要继续加大对本土半导体技术的投入，提升自主研发能力，减少对国外技术和产品的依赖。只有这样，才能在复杂的国际形势中立于不败之地，实现真正的科技自主与创新。

*免责声明：以上内容整理自网络，仅供交流学习之用。如有内容、版权问题，请留言与我们联系进行删除。

科技举报

科闻社

天助自助者 |

438篇文章 | 39人关注

+关注

观察者网用户社区

作者文章查看全部>>

热门搜索

搜索历史

避免美国制裁断供，中企选择「多GPU 混合」训练AI模型

科闻社
科闻社官方账号

科闻社

热点

最近更新的专栏

风闻最热

全部专栏

热门搜索

搜索历史

避免美国制裁断供，中企选择「多GPU 混合」训练AI模型

科闻社 科闻社官方账号

热点

最近更新的专栏

风闻最热

全部专栏

科闻社
科闻社官方账号