DeepSeek一体机背后,国产算力芯片崛起

电子发烧友网报道(文/黄晶晶)自DeepSeek推出以来,最火的硬件产品非DeepSeek一体机莫属。DeepSeek大模型的应用和部署设计需要计算设备的支持,根据不同的大模型参数版本,例如DeepSeek-R1目前已经发布了1.5B/7B/8B/14B/32B/70B/671B共7类,选择不同规格的硬件配置。

自2月份以来,已有多家芯片厂商宣布支持DeepSeek模型,包括华为昇腾、海光、沐曦、昆仑芯、壁仞科技、天数智芯、摩尔线程、燧原科技、云天励飞等等。许多产品已经在DeepSeek一体机中得以广泛应用。例如,联想联合沐曦发布基于DeepSeek大模型的首个国产一体机解决方案,发布一个月以来,累计发货量已突破千台,配备沐曦国产GPU卡近万张,覆盖医疗、教育、制造等十余个核心行业。

昇腾910

软通动力旗舰版超强A800I A2服务器,基于鲲鹏920处理器、昇腾910 AI处理器,8模组高效推理,支持PFLOPS FP16超高算力和高速NPU互联技术,支持DeepSeek全量版本适配。

优刻得 DeepSeek 满血版大模型一体机支持沐曦、壁仞、昇腾、天数智芯等国产 AI 芯片全适配,以软硬一体化的交付模式,提供从底层算力获取、模型微调和推理能力、AI 应用开发的全栈式解决方案。结合云计算平台,提供灵活的 DeepSeek 模型部署与管理服务,支持弹性扩展。

据外媒报道,华为计划在今年量产最新AI芯片昇腾910C,其制良品率已升至40%,相比于一年前的20%(昇腾910B的良品率)已翻了一倍。华为计划今年量产10万块昇腾910C芯片,及30万块昇腾910B芯片。2024年,华为共生产20万块910B芯片。

根据Tom's Hardware报道,昇腾910C芯片是华为最新推出的AI芯片,采用了chiplet封装,晶体管数量达530亿个。实际应用方面,据称910C的推理性能相当于Nvidia H100 GPU的60%。

海光DCU

海光信息技术团队成功完成DeepSeek V3和R1模型与海光DCU(深度计算单元)的国产化适配。DCU是海光信息推出的高性能GPGPU架构AI加速卡,致力于为行业客户提供自主可控的全精度通用AI加速计算解决方案。凭借卓越的算力性能和完备的软件生态,DCU已在科教、金融、医疗、政务、智算中心等多个领域实现规模化应用。

海光DCU技术团队表示,将持续推动大模型迭代适配与优化更新,携手更多优秀大模型企业为行业客户提供更高效、更经济、更安全的AI解决方案。同时,团队也将积极探索更多应用场景,推动AI技术在更多行业的落地与普及。

沐曦曦思N260、曦云C500

联想联合沐曦发布基于DeepSeek大模型的首个国产一体机解决方案。面向敏捷部署的DeepSeek智能体一体机,采用ThinkStation PX工作站为载体,搭载沐曦曦思N260国产GPU,可支持本地部署DeepSeek各种参数蒸馏模型推理。面向更广泛场景的DeepSeek训推一体机,基于联想问天WA5480 G3 AI服务器,搭载8张曦云C500国产GPU,可为大模型训练和推理提供强大的算力支撑。

据悉,发布一个月以来,累计发货量已突破千台,配备沐曦国产GPU卡近万张,覆盖医疗、教育、制造等十余个核心行业。搭配沐曦曦思N260国产GPU的一体机可支持在本地部署DeepSeek各种参数蒸馏模型,实测数据显示,在相同并发条件下,DeepSeek-R1-Distill-Qwen-14B模型推理性能达到国际主流GPU的110%-130%。

浪潮云联合沐曦股份、铨兴科技等生态伙伴,发布预置DeepSeek-R1和DeepSeek-V3模型的海若一体机,率先实现671B DeepSeek大模型国产GPU单机推理服务,为行业客户提供大模型智能应用落地的一体化解决方案。

另外,Gitee AI在2月2日宣布上线1.5B、7B、14B、32B四个尺寸的DeepSeek R1模型并均部署在国产沐曦曦云GPU上。2月5日,Gitee AI再度发文,宣布经测试已确认DeepSeek-V3全精度满血版(671B)可以成功运行在沐曦训推一体GPU上,并将V3满血版上线到平台上。

昆仑芯P800

DeepSeek的推理模型,通过蒸馏模型(如DeepSeek-R1-Distill-Qwen和DeepSeek-R1-Distill-Llama)、MoE(专家混合系统)、MLA(多头潜在注意力机制)等创新技术,显著降低了计算开销,同时维持了模型的高性能。这使得国产AI芯片厂商能够在推理任务中与英伟达GPU竞争,甚至在某些场景中表现更好。

以百度昆仑芯P800为例,其XPU-R架构将通用计算单元和专用AI加速单元进行了融合,算力水平达到了仅次于昇腾910的水平,支持训练、推理和虚拟化等多模式任务,能够灵活适配AI算法的快速迭代需求。昆仑芯P800特别适用于需要大吞吐量的AI应用,单卡即可支撑高并发、高计算量的实时计算需求。

凭借昆仑芯P800强大的算力,对于DeepSeek R1/V3满血版的本地化部署,只需要8张基于昆仑芯P800的加速卡,即一台8卡的服务器就能够完成,部署起来非常的便捷。

壁仞科技壁砺系列训推产品

壁仞科技自主研发的壁砺TM系列产品完成对DeepSeek-R1全系列蒸馏模型的支持,涵盖了从1.5B到70B各等级参数版本,包括LLaMA蒸馏模型和千问蒸馏模型,为开发者提供高性能、低成本的大模型部署与开发解决方案。

壁仞科技已联合上海智能算力科技有限公司、中兴通讯、科华数据、无问芯穹、开源中国(Gitee AI)、UCloud优刻得、一蓦科技等战略伙伴,基于壁砺系列训推产品106M、106B、106E、110E,全面开展DeepSeek全系列模型的适配与上线。

天数 BI-V150

天数智芯成功完成了对DeepSeek R1千问蒸馏模型的适配,为开发者提供了更多灵活选择算力的机会。借助天数智芯强大的算力,DeepSeek模型能够提供更为高效且稳定的推理服务,从而更好地适应不同规模和多样化需求的应用场景。

长城擎天 GF7280 V5 AI 训推一体机配置了双路 S5000C 处理器,CPU 核心数量高达 128 个,并配备了 16 个 DDR5 内存条,总内存容量达到 1024GB。可验证搭配 NV L20 和国产天数 BI-V150 和沐曦C500 三种不同 GPU 算力卡适配 DeepSeek R1 私有化部署情况,具有 “开箱即用、经济高效、持续更新与支持” 三大优势。

摩尔线程KUAE集群

摩尔线程实现了对 DeepSeek 蒸馏模型推理服务部署。DeepSeek-R1-Distill-Qwen系列模型在摩尔线程KUAE集群上成功部署与应用。KUAE(夸娥)智算中心,是摩尔线程首个全国产千卡千亿模型训练平台,是国内首个以国产全功能GPU(图形处理器)为底座的大规模算力集群。

DeepSeek 开源模型(如 V3、R1 系列)在多语言理解与复杂推理任务中展现了卓越性能。通过 DeepSeek 提供的蒸馏模型,能够将大规模模型的能力迁移至更小、更高效的版本,在国产 GPU 上实现高性能推理。

燧原科技第三代推理卡S60

太湖亿芯智算中心采用燧原科技生产的第三代推理卡S60,完成DeepSeek在太湖亿芯智算中心的部署上线。弘信电子战略合作伙伴燧原科技完成对DeepSeek全量模型的高效适配,包括DeepSeek-R1/V3 671B原生模型、DeepSeek-R1-Distill-Qwen-1.5B/7B/14B/32B、DeepSeek R1-Distill-Llama-8B/70B等蒸馏模型。整个适配进程中,燧原AI加速卡的计算能力得以充分利用,能够快速处理海量数据,同时其稳定性为模型的持续优化和大规模部署提供坚实的基础。

申威AI加速卡

申威DeepSeek大模型一体机将中国电科新一代服务器CPU申威威鑫H8000与DeepSeek深度兼容,实现从硬件到算法完全自主创新,规避数据外泄风险、满足合规要求,通过可视化管控平台与智能运维体系,适配智能办公、写作翻译等基础场景,以及内容创作、文献解读、数学推理、代码生成等专业场景,有效缩短运维周期、降低人力成本,加速智能化升级进程。申威DeepSeek大模型一体机采用轻量化拓扑设计,单机即可运行,并支持平滑扩展,在维持高性能前提下降低硬件成本,实现降本增效与资源集约化利用。

申威一体机搭载的申威威鑫H8000芯片及申威AI加速卡性能强大,以往需要专门建一个智算中心才能完成的计算任务,如今只要部署一两台内置DeepSeek的一体机就能实现。

云天励飞DeepEdge10

云天励飞DeepEdge10系列芯片是专门针对大模型时代打造的芯片,支持包括 Transformer 模型、BEV 模型、CV 大模型、LLM 大模型等各类不同架构的主流模型;基于自主可控的先进国产工艺打造,采用独特的“算力积木”架构,可灵活满足智慧城市、智慧交通、智能制造、智慧仓储、机器人、边缘智算中心等不同场景对算力的需求,为大模型推理提供强大动力。目前,DeepEdge10芯片平台已成功适配DeepSeek R1系列模型及国产鸿蒙操作系统。

景嘉微JM 系列、景宏系列

景嘉微JM系列、景宏系列与DeepSeek R1系列成功适配,进一步推动 DeepSeek 在云边端等各类场景的应用。

景嘉微JM系列完成了DeepSeek-R1-Distill-Qwen-1.5B模型和DeepSeek-R1-Distill-Qwen-7B模型的适配。

同时,景宏系列已全面兼容并适配DeepSeek R1全系列模型,覆盖从1.5B至70B参数规模的LLaMA及千问模型架构。基于vLLM推理框架的部署方案,实现了高效推理性能与经济性的双重优势,为开发者提供了便捷的开发支持。该方案支持快速启动和使用,无需复杂配置,助力AI技术的规模化落地应用。

太初元碁 T100加速卡

龙芯中科联合太初元碁等产业伙伴,在太初T100加速卡上完成DeepSeek-R1系列模型的适配工作,采用龙芯3A6000处理器的诚迈信创电脑和望龙电脑已实现本地部署DeepSeek。

DeepSeek R2发布在即,一体机市场前景乐观

据浙商证券测算,预期DeepSeek快速部署需求有望带动一体机需求增长,2025年到2027年一体机需求量将分别达到15万台、39万台、72万台,对应市场空间分别为1236亿元、2937亿元、5208亿元。

中金认为,当前DeepSeek一体机的软硬件协同仍面临一些挑战,一是主流国产AI芯片缺少对FP8 精度的支持,如果采用FP16 或BF16 精度,硬件效率将下降;二是为了在单台8卡服务器上实现全参数DeepSeek-R1 模型的部署,一体机厂商需要进行定点量化,需在算力效率和模型效果间寻求平衡。

我们此前报道过,面对DeepSeek市场爆发,英伟达H20成为热门选择,不少互联网大厂加大采购英伟达H20。

此外英伟达A100、4090等也都有不小的需求。例如一些企业要完成深度学习、复杂数据分析和高级图像处理等功能,需要选择高性能70B模型,或者适用于气候建模、基因组分析等更加高精尖的场景,选择满血版671B模型版本。而一般来说,进行本土化部署的电脑配置,70B模型需要拥有2个A100 80G显卡或4个RTX4090显卡并行,配备32核CPU和128G的内存。更大规模的DeepSeek-R1 671B(满血版)则需8个A100或H100显卡并行,配备64核CPU及512GB内存。

预计很快,DeepSeek R2人工智能模型将发布,公司最初计划于五月推出,但目前正在努力加快进度。此前,有知情人士表示,希望新模型能生成更好的代码,并能够用英语以外的语言进行推理。业界预估,DeepSeek R2将进一步降低AI算力成本,缓解AI堆算力的路径依赖。这或许将带给国产算力芯片更大的机会。

500

声明:本文由电子发烧友原创

站务

全部专栏