中小企业的大模型门槛,被曙光scaleX40超节点踏平了

2026年,中国智算市场的竞赛正处在一个微妙的关键节点。赛道一端是巨头主导的超大规模超节点集群,聚焦万亿参数模型训练等尖端需求;另一端是服务海量主体的中小规模算力,但传统方案常受限于性能与扩展性。而衔接两者的中小算力超节点赛道,正成为推动AI普惠的核心突破口。
3月26日,中科曙光在北京中关村国际创新中心发布的世界首款无线缆箱式超节点scaleX40,正是对这一行业命题的精准作答。
01算力市场的“夹心层”,被看见了
中科曙光高级副总裁李斌指出,作为算力系统架构迭代升级的产物,超节点在当下的推理时代正面临全新挑战:一方面,面向训练场景打造的数百卡/千卡级超节点,对于主流推理业务而言配置过剩,投入成本远超性能收益甜点;另一方面,市场上主流的8卡GPU服务器,即便扩展至16卡规格,也难以匹配当前大模型的发展需求。这两者之间,形成了显著的产品供给空白与行业认知断层。
中科曙光高级副总裁李斌
聚焦国内超节点赛道的市场格局,不同算力层级的玩家布局也呈现出鲜明的分化特征。

目前,64卡及以上超节点赛道,已有数十家参与者入局。其中既包括中科曙光、浪潮这样的传统服务器厂商,也有阿里云等云服务厂商。这一赛道的核心特征是追求64卡乃至数百卡的极致密度集成,目标是满足科技巨头与国家级科研平台的核心算力诉求。例如华为的昇腾384超节点,以及百度计划2026年上市的天池256、天池512超节点,均属于这一范畴。这类方案普遍采用自研高速互联协议、液冷散热、高密供电等顶尖技术,将数百张GPU高效协同,以规模优势突破算力天花板,能够支撑万亿参数大模型训练、AI for Science等极致算力需求。但相应地,当前主流大规模超节点产品的门槛极高:单集群售价普遍达到亿元级别,后续的运维成本、机房改造投入、电力配套支出等更是居高不下。这样的成本规模,让绝大多数企业望而却步,也注定了这类产品只能服务于极少数头部主体,难以实现规模化普惠。
再看8卡节点,其本质是高性能服务器,属于单台服务器内的多卡集成方案,是AI算力的入门级标配,也是过去几年中小市场的主流选择。

过去数年里,8卡服务器堪称AI技术普及的“功臣”——它入门门槛低、部署便捷灵活,即便在当下,面对小规模、轻量级的推理场景,依然能满足基础算力需求。从飞腾与中国长城联合推出的擎天GF7280V5,到佑泰信息的8卡训推一体机,这类产品凭借灵活部署、成本可控的优势,长期占据着特定市场空间。然而,AI产业的迭代速度早已超越硬件升级的节奏,8卡服务器的性能短板也随之愈发明显。近日爆火的 OpenClaw “小龙虾” 智能体,恰恰暴露了中小企业的算力痛点:云端调用Token成本飙升,单月开销动辄过万;本地8卡服务器跑不动多实例智能体,频繁显存溢出、响应卡顿;传统高密度集群又被线缆拖累,算力损耗超标的同时,还让硬件投入打了水漂。上述现象正是用户在算力选型中面临的难题:8卡集群难以支撑大模型相关任务,百卡级超节点又超出预算承受范围——只能在“不够用”与“用不起”之间被迫妥协。
“让高端算力普及不是单一硬件的降价,而是要让中小企业‘用得上、买得起、用得好’。”李斌强调,曙光将以开放姿态携手模型厂商、系统厂商、软件ISV等产业链上下游伙伴,通过全栈技术协同,精准填补算力市场的中间空白地带,共同推动AI算力产业的普惠化发展。
02刚需型超节点,戳中智算选型的“中间焦虑”
发布会现场,中科曙光展示了世界首个无线缆箱式超节点——scaleX40。

在关键指标上,scaleX40单节点集成40张GPU,总算力超过28PFLOPS(FP8精度),HBM显存容量超过5TB,访存总带宽超过80TB/s。采用一级互连设计,40张加速卡Scale-Up全互连,支持内存语义、统一显存编址,兼具极低延迟与超高带宽,聚合带宽超17TB/s;创新正交架构让计算节点和交换节点无线缆正交对接,相比铜缆模式可用性提高10倍,相比光纤连接功耗下降40%~70%;尺寸方面,scaleX40采用19英寸标准尺寸,适配主流机柜,支持单柜单Pod、单柜双Pod的灵活扩展方式;同时兼容主流软件生态,搭配完善的开发工具、基础软件及AI大模型与应用,用户可轻松完成大模型迁移,实现开箱即用。

传统万卡或千卡集群,采用“外置线缆+独立交换机”的连接模式,每一张加速卡都需要通过独立高速线缆与交换机对接,卡数越多,线缆数量呈几何级增长。这种模式存在三大致命短板:一是通信损耗大,长距离线缆传输带来信号衰减,端到端延迟居高不下,多卡协同效率大幅折损;二是部署运维难,数百根线缆梳理、调试、故障排查耗时极长,后期扩容难度极大;三是散热与空间浪费,线缆堆积阻碍风道循环,提升散热压力,同时占用大量机柜空间,降低算力密度。而scaleX40的背部设计呈现出极高的集成度与整洁性:机柜内部数百根高速互联线缆被彻底移除,发挥主要作用的,正是正交互连的结构。该设计既消除了长距离传输的信号损耗,又大幅简化部署运维流程;同时优化机柜风道设计,提升算力密度,搭配灵活扩展与全生态兼容特性。这种“做减法”的架构哲学,实则是为了在性能上做“乘法”。
至于,为什么是40卡?
曙光信息产业(北京)有限公司副总裁李柳结合AI产业发展趋势,深入剖析了普惠型超节点的核心逻辑与产品定位,其核心观点可概括为三大关键判断:
其一,算力供给需要“尖端与普惠”双轨并行。超大规模千卡/万卡级超节点,是支撑万亿参数大模型训练等尖端场景的核心力量;而AI商业化要实现规模化落地,更离不开适配中小企业实际需求的普惠化算力——二者互为补充、缺一不可。
其二,刚需型超节点的核心,是在多重约束中找到平衡最优解。不同于高端超节点对极致性能的单一追求,刚需型产品必须兼顾性能适配、成本可控与部署便捷三大核心诉求:既要突破传统8卡服务器的性能瓶颈,又要把采购、运维、机房改造等综合成本压到中小企业可承受范围,同时降低部署门槛,适配现有基础设施条件,避免“性能不够用”或“成本用不起”的两难。
其三,40卡规模是精准填补市场空白的“算力甜点区”。经过对千行百业AI应用场景的深度调研与反复性能测算,40卡配置能全面覆盖千亿参数大模型微调、MoE架构推理、垂直行业模型训练等主流商业化场景,既避开了8卡节点的性能短板,又无需为64卡及以上超节点的冗余算力支付额外成本,恰好命中了市场长期存在的需求空白,成为解决行业痛点的关键配置选择。
03这场“集团军作战”,没有一个是短板
高端算力的普及化,从来不是单一硬件的降价,而是算、存、网、管全链路的协同升级,单一环节的突破,只会形成新的木桶短板,无法真正释放算力价值,这也是传统超节点难以落地的重要原因。中科曙光深谙此道,深耕算力领域多年,具备全栈自研能力,为scaleX40量身打造了一套完整的技术生态体系。
ParaStor,也被称为最懂AI的存储。中科曙光分布式存储产品部总经理石静表示,曙光scaleX40超节点支持三套双路/多路扩展配置,并且无论哪种规格,scaleX40都能灵活搭配ParaStor F9000全闪存储节点,这些存储节点构成统一资源池,形成“存算一体化”数据底座,完美匹配scaleX40面向中小规模训练与推理的核心场景定位。此外,中科曙光提出“3+5”存算协同技术,构建三级强协同(scaleX40计算、scaleFabric网络、ParaStor F9000存储)与五大核心优化(GPU显存卸载、本地内存加速、RDMA低延迟网络、全闪存高带宽、端到端IO链路)。实现训推带宽提升2倍以上、推理TTFT降低97%,大幅提升GPU利用率,解决大模型IO瓶颈。曙光scaleX40还构建了专属“AI设计工厂”:从数据采集、标注、处理到验证,全流程嵌入存储加速能力。通过向量数据库集成、流水线IO加速库等技术,存储深度参与AI业务流转,打破存力与算力的物理边界,实现“以存代算、以存促算”的新模式。
SothisAI一站式平台专为超节点架构深度优化,覆盖模型训推全链路闭环,更支持智能体应用高效集成,让AI开发从碎片化走向一体化。中科曙光高端计算总工程师解西国表示,针对大规模AI系统在训练与部署阶段普遍存在的稳定性差、部署复杂等痛点,曙光智算打造了一套极简、智能化的运营管理体系。在资源部署层面,SothisAI实现了对超节点系统的集中式管理,涵盖部件管理、驱动升级及模型部署等环节,支持“一键部署、开箱即用”,极大降低了运维门槛。在全域管理层面,SothisAI实现了从芯片、机电、网络、存储到应用的多维度集中管控,构建了面向AI业务的全栈管理技术体系。面对海量监控数据与复杂运维流程,SothisAI内置了智能检测算法与AI大模型,结合运维知识库与系统拓扑结构,实现了运维流程的自动化编排。同时,SothisAI具备故障预测、检测与分析能力,并能与上层大模型训练框架联动,有效提升了大模型在训练与推理全生命周期中的稳定性与可靠性。
从核心超节点硬件,到AI专属存储、一站式运维平台,这套全栈自研体系没有冗余堆砌,每一个环节都围绕scaleX40的普惠定位深度适配、协同优化。
04高端算力标配的时代,已经到来
scaleX40的推出,不止是一款新品的发布,更标志着超节点行业迎来发展拐点。
当前,智算采购早已跳出单纯比拼峰值算力的窠臼。受数字化进程提速、算力需求动态增长以及成本与运维双重管控的多重影响,“易部署、快交付、可扩展”已成为诸多核心客群的核心采购决策依据。而scaleX40的产品定位,恰好精准契合这一市场需求。
scaleX40可广泛适配六大核心应用场景:大模型训练、智算中心建设、企业级推理、高校科研攻关、研发测试环境搭建及行业解决方案落地。其中,针对政企类客户,其标准化设计无需定制改造,可快速适配现有机房体系的标准设施,高效落地政务数字化、智慧城市等场景,兼顾合规与效率;面向科研类客户,模块化架构支持灵活弹性扩容,降低运维门槛,让科研团队专注核心研发,适配多类科研计算需求;对于中小制造企业,这款超节点性价比出众,部署灵活、易扩展,能快速适配工业仿真、数字孪生等场景,以低成本算力方案助力制造业数字化转型,彻底破解各类客群的算力落地难题。
目前,中国AI产业正在从“头部试点”走向“全域落地”的关键分水岭。2025年以来,多地制定算力券、算力补贴等机制,密集出台数据要素企业扶持政策,强化对AI产业的支持。从少数巨头的技术试验场,到万千中小企业的转型工具箱,AI 产业的成熟,需要高端算力的坚实支撑。曙光scaleX40 的问世,正是顺应这一趋势的一次重要实践。它以40卡“算力甜点区” 的配置,平衡了性能与成本;以全栈协同的生态体系,简化了部署与运维。这不仅为中小企业打开了拥抱大模型等AI场景的大门,更让算力真正成为驱动各行各业创新的通用生产力。



半导体产业纵横官方账号



