DeepSeek一体机背后，国产算力芯片崛起

歪睿老哥
芯片研发工程师

聚焦芯片行业的那些事，唯武侠与芯片不可辜负5小时前

电子发烧友网报道（文/黄晶晶）自DeepSeek推出以来，最火的硬件产品非DeepSeek一体机莫属。DeepSeek大模型的应用和部署设计需要计算设备的支持，根据不同的大模型参数版本，例如DeepSeek-R1目前已经发布了1.5B/7B/8B/14B/32B/70B/671B共7类，选择不同规格的硬件配置。

自2月份以来，已有多家芯片厂商宣布支持DeepSeek模型，包括华为昇腾、海光、沐曦、昆仑芯、壁仞科技、天数智芯、摩尔线程、燧原科技、云天励飞等等。许多产品已经在DeepSeek一体机中得以广泛应用。例如，联想联合沐曦发布基于DeepSeek大模型的首个国产一体机解决方案，发布一个月以来，累计发货量已突破千台，配备沐曦国产GPU卡近万张，覆盖医疗、教育、制造等十余个核心行业。

昇腾910

软通动力旗舰版超强A800I A2服务器，基于鲲鹏920处理器、昇腾910 AI处理器，8模组高效推理，支持PFLOPS FP16超高算力和高速NPU互联技术，支持DeepSeek全量版本适配。

优刻得 DeepSeek 满血版大模型一体机支持沐曦、壁仞、昇腾、天数智芯等国产 AI 芯片全适配，以软硬一体化的交付模式，提供从底层算力获取、模型微调和推理能力、AI 应用开发的全栈式解决方案。结合云计算平台，提供灵活的 DeepSeek 模型部署与管理服务，支持弹性扩展。

据外媒报道，华为计划在今年量产最新AI芯片昇腾910C，其制良品率已升至40%，相比于一年前的20%（昇腾910B的良品率）已翻了一倍。华为计划今年量产10万块昇腾910C芯片，及30万块昇腾910B芯片。2024年，华为共生产20万块910B芯片。

根据Tom's Hardware报道，昇腾910C芯片是华为最新推出的AI芯片，采用了chiplet封装，晶体管数量达530亿个。实际应用方面，据称910C的推理性能相当于Nvidia H100 GPU的60%。

海光DCU

海光信息技术团队成功完成DeepSeek V3和R1模型与海光DCU（深度计算单元）的国产化适配。DCU是海光信息推出的高性能GPGPU架构AI加速卡，致力于为行业客户提供自主可控的全精度通用AI加速计算解决方案。凭借卓越的算力性能和完备的软件生态，DCU已在科教、金融、医疗、政务、智算中心等多个领域实现规模化应用。

海光DCU技术团队表示，将持续推动大模型迭代适配与优化更新，携手更多优秀大模型企业为行业客户提供更高效、更经济、更安全的AI解决方案。同时，团队也将积极探索更多应用场景，推动AI技术在更多行业的落地与普及。

沐曦曦思N260、曦云C500

联想联合沐曦发布基于DeepSeek大模型的首个国产一体机解决方案。面向敏捷部署的DeepSeek智能体一体机，采用ThinkStation PX工作站为载体，搭载沐曦曦思N260国产GPU，可支持本地部署DeepSeek各种参数蒸馏模型推理。面向更广泛场景的DeepSeek训推一体机，基于联想问天WA5480 G3 AI服务器，搭载8张曦云C500国产GPU，可为大模型训练和推理提供强大的算力支撑。

据悉，发布一个月以来，累计发货量已突破千台，配备沐曦国产GPU卡近万张，覆盖医疗、教育、制造等十余个核心行业。搭配沐曦曦思N260国产GPU的一体机可支持在本地部署DeepSeek各种参数蒸馏模型，实测数据显示，在相同并发条件下，DeepSeek-R1-Distill-Qwen-14B模型推理性能达到国际主流GPU的110%-130%。

浪潮云联合沐曦股份、铨兴科技等生态伙伴，发布预置DeepSeek-R1和DeepSeek-V3模型的海若一体机，率先实现671B DeepSeek大模型国产GPU单机推理服务，为行业客户提供大模型智能应用落地的一体化解决方案。

另外，Gitee AI在2月2日宣布上线1.5B、7B、14B、32B四个尺寸的DeepSeek R1模型并均部署在国产沐曦曦云GPU上。2月5日，Gitee AI再度发文，宣布经测试已确认DeepSeek-V3全精度满血版（671B）可以成功运行在沐曦训推一体GPU上，并将V3满血版上线到平台上。

昆仑芯P800

DeepSeek的推理模型，通过蒸馏模型（如DeepSeek-R1-Distill-Qwen和DeepSeek-R1-Distill-Llama）、MoE（专家混合系统）、MLA（多头潜在注意力机制）等创新技术，显著降低了计算开销，同时维持了模型的高性能。这使得国产AI芯片厂商能够在推理任务中与英伟达GPU竞争，甚至在某些场景中表现更好。

以百度昆仑芯P800为例，其XPU-R架构将通用计算单元和专用AI加速单元进行了融合，算力水平达到了仅次于昇腾910的水平，支持训练、推理和虚拟化等多模式任务，能够灵活适配AI算法的快速迭代需求。昆仑芯P800特别适用于需要大吞吐量的AI应用，单卡即可支撑高并发、高计算量的实时计算需求。

凭借昆仑芯P800强大的算力，对于DeepSeek R1/V3满血版的本地化部署，只需要8张基于昆仑芯P800的加速卡，即一台8卡的服务器就能够完成，部署起来非常的便捷。

壁仞科技壁砺系列训推产品

壁仞科技自主研发的壁砺TM系列产品完成对DeepSeek-R1全系列蒸馏模型的支持，涵盖了从1.5B到70B各等级参数版本，包括LLaMA蒸馏模型和千问蒸馏模型，为开发者提供高性能、低成本的大模型部署与开发解决方案。

壁仞科技已联合上海智能算力科技有限公司、中兴通讯、科华数据、无问芯穹、开源中国（Gitee AI）、UCloud优刻得、一蓦科技等战略伙伴，基于壁砺系列训推产品106M、106B、106E、110E，全面开展DeepSeek全系列模型的适配与上线。

天数 BI-V150

天数智芯成功完成了对DeepSeek R1千问蒸馏模型的适配，为开发者提供了更多灵活选择算力的机会。借助天数智芯强大的算力，DeepSeek模型能够提供更为高效且稳定的推理服务，从而更好地适应不同规模和多样化需求的应用场景。

长城擎天 GF7280 V5 AI 训推一体机配置了双路 S5000C 处理器，CPU 核心数量高达 128 个，并配备了 16 个 DDR5 内存条，总内存容量达到 1024GB。可验证搭配 NV L20 和国产天数 BI-V150 和沐曦C500 三种不同 GPU 算力卡适配 DeepSeek R1 私有化部署情况，具有 “开箱即用、经济高效、持续更新与支持” 三大优势。

摩尔线程KUAE集群

摩尔线程实现了对 DeepSeek 蒸馏模型推理服务部署。DeepSeek-R1-Distill-Qwen系列模型在摩尔线程KUAE集群上成功部署与应用。KUAE（夸娥）智算中心，是摩尔线程首个全国产千卡千亿模型训练平台，是国内首个以国产全功能GPU（图形处理器）为底座的大规模算力集群。

DeepSeek 开源模型（如 V3、R1 系列）在多语言理解与复杂推理任务中展现了卓越性能。通过 DeepSeek 提供的蒸馏模型，能够将大规模模型的能力迁移至更小、更高效的版本，在国产 GPU 上实现高性能推理。

燧原科技第三代推理卡S60

太湖亿芯智算中心采用燧原科技生产的第三代推理卡S60，完成DeepSeek在太湖亿芯智算中心的部署上线。弘信电子战略合作伙伴燧原科技完成对DeepSeek全量模型的高效适配，包括DeepSeek-R1/V3 671B原生模型、DeepSeek-R1-Distill-Qwen-1.5B/7B/14B/32B、DeepSeek R1-Distill-Llama-8B/70B等蒸馏模型。整个适配进程中，燧原AI加速卡的计算能力得以充分利用，能够快速处理海量数据，同时其稳定性为模型的持续优化和大规模部署提供坚实的基础。

申威AI加速卡

申威DeepSeek大模型一体机将中国电科新一代服务器CPU申威威鑫H8000与DeepSeek深度兼容，实现从硬件到算法完全自主创新，规避数据外泄风险、满足合规要求，通过可视化管控平台与智能运维体系，适配智能办公、写作翻译等基础场景，以及内容创作、文献解读、数学推理、代码生成等专业场景，有效缩短运维周期、降低人力成本，加速智能化升级进程。申威DeepSeek大模型一体机采用轻量化拓扑设计，单机即可运行，并支持平滑扩展，在维持高性能前提下降低硬件成本，实现降本增效与资源集约化利用。

申威一体机搭载的申威威鑫H8000芯片及申威AI加速卡性能强大，以往需要专门建一个智算中心才能完成的计算任务，如今只要部署一两台内置DeepSeek的一体机就能实现。

云天励飞DeepEdge10

云天励飞DeepEdge10系列芯片是专门针对大模型时代打造的芯片，支持包括 Transformer 模型、BEV 模型、CV 大模型、LLM 大模型等各类不同架构的主流模型；基于自主可控的先进国产工艺打造,采用独特的“算力积木”架构,可灵活满足智慧城市、智慧交通、智能制造、智慧仓储、机器人、边缘智算中心等不同场景对算力的需求，为大模型推理提供强大动力。目前，DeepEdge10芯片平台已成功适配DeepSeek R1系列模型及国产鸿蒙操作系统。

景嘉微JM 系列、景宏系列

景嘉微JM系列、景宏系列与DeepSeek R1系列成功适配，进一步推动 DeepSeek 在云边端等各类场景的应用。

景嘉微JM系列完成了DeepSeek-R1-Distill-Qwen-1.5B模型和DeepSeek-R1-Distill-Qwen-7B模型的适配。

同时，景宏系列已全面兼容并适配DeepSeek R1全系列模型，覆盖从1.5B至70B参数规模的LLaMA及千问模型架构。基于vLLM推理框架的部署方案，实现了高效推理性能与经济性的双重优势，为开发者提供了便捷的开发支持。该方案支持快速启动和使用，无需复杂配置，助力AI技术的规模化落地应用。

太初元碁 T100加速卡

龙芯中科联合太初元碁等产业伙伴，在太初T100加速卡上完成DeepSeek-R1系列模型的适配工作，采用龙芯3A6000处理器的诚迈信创电脑和望龙电脑已实现本地部署DeepSeek。

DeepSeek R2发布在即，一体机市场前景乐观

据浙商证券测算，预期DeepSeek快速部署需求有望带动一体机需求增长，2025年到2027年一体机需求量将分别达到15万台、39万台、72万台，对应市场空间分别为1236亿元、2937亿元、5208亿元。

中金认为，当前DeepSeek一体机的软硬件协同仍面临一些挑战，一是主流国产AI芯片缺少对FP8 精度的支持，如果采用FP16 或BF16 精度，硬件效率将下降；二是为了在单台8卡服务器上实现全参数DeepSeek-R1 模型的部署，一体机厂商需要进行定点量化，需在算力效率和模型效果间寻求平衡。

我们此前报道过，面对DeepSeek市场爆发，英伟达H20成为热门选择，不少互联网大厂加大采购英伟达H20。

此外英伟达A100、4090等也都有不小的需求。例如一些企业要完成深度学习、复杂数据分析和高级图像处理等功能，需要选择高性能70B模型，或者适用于气候建模、基因组分析等更加高精尖的场景，选择满血版671B模型版本。而一般来说，进行本土化部署的电脑配置，70B模型需要拥有2个A100 80G显卡或4个RTX4090显卡并行，配备32核CPU和128G的内存。更大规模的DeepSeek-R1 671B（满血版）则需8个A100或H100显卡并行，配备64核CPU及512GB内存。

预计很快，DeepSeek R2人工智能模型将发布，公司最初计划于五月推出，但目前正在努力加快进度。此前，有知情人士表示，希望新模型能生成更好的代码，并能够用英语以外的语言进行推理。业界预估，DeepSeek R2将进一步降低AI算力成本，缓解AI堆算力的路径依赖。这或许将带给国产算力芯片更大的机会。

500

声明：本文由电子发烧友原创

科技举报

歪睿老哥

聚焦芯片行业的那些事，唯武侠与芯片不可辜负 |

174篇文章 | 203人关注

+关注

观察者网用户社区

作者文章查看全部>>

热门搜索

搜索历史

DeepSeek一体机背后，国产算力芯片崛起

歪睿老哥
芯片研发工程师

歪睿老哥

热点

站务

风闻社区小助手_小风

【有奖活动】智能车轮上的权益保卫战，邀你一起打响！

风闻社区小助手_小风

维权秘籍与惊喜福利来了！风闻315：消费的 “坑” 与 “宝” 等你诉说！

最近更新的专栏

风闻最热

全部专栏

热门搜索

搜索历史

DeepSeek一体机背后，国产算力芯片崛起

歪睿老哥 芯片研发工程师

热点

站务

最近更新的专栏

风闻最热

全部专栏

歪睿老哥
芯片研发工程师