1分钱撬动千亿算力市场?曦望的推理革命,为何让资本疯投30亿

出品:山西晚报·刻度财经
30亿融资撑起的1分钱低价神话,究竟是重构行业成本的破局者,还是透支技术迭代空间的资本博弈,答案还未落定。
1月末,从商汤科技核心大芯片部门拆分而来的曦望,突然抛出“百万Token 1分钱”的极致报价,直接重构了AI推理算力的成本标尺。

图源:曦望
这个价格,把行业默认的7-14元/百万Token基准线,砍到了零头都不到的水平,支撑这份激进定价的,是曦望单卡2-4万元的成本控制能力和架构创新,更有二十余家投资方扎堆涌入的30亿元融资。
这家2020年才起步、2025年芯片交付量刚破1万片的年轻企业,正以极致低价搅动AI 推理算力市场格局。
当下AI产业正迎来关键转折阶段,行业重心从高投入的模型训练阶段,全面转向规模化的推理部署阶段。据行业共识,成熟AI生态中,推理算力的实际需求将是训练算力的百倍乃至千倍量级,而推理场景的成本结构中,算力支出占比高达95%,曦望的低价策略,精准击中了行业规模化落地的核心痛点。
与此同时,2026年1月,作为国内首家All-in推理的GPU芯片公司,曦望正式官宣,在近一年内完成近30亿元战略融资,超20家投资方参与。
30亿融资撑起的1分钱低价神话,究竟是重构行业成本的破局者,还是透支技术迭代空间的资本博弈,答案还未落定。
01
差异化路线卡准推理刚需
作为国内首家All-in推理的GPU厂商,团队一早就摸透了行业核心矛盾,大模型运营中,推理成本较高,而显存又是算力成本的大头,想要降本,就得跳出训练芯片的老路,找一条适配推理的专属路径。
显存革命,是曦望降本的核心底牌。对算力服务商与AI应用开发者而言,成本、能耗表现与服务稳定性三大指标,直接决定业务最终毛利率,同时深刻影响终端客户的用户体验。
曦望董事长徐冰称,若曦望能实现推理成本下降90%且提供稳定服务,不仅能为市场新增优质芯片选择,更能真正重写中国AI产业损益表、助力全行业盈利增收,他提到曦望过去八年累计投入20亿研发资金,已成功量产S1、S2两款芯片,此次不仅发布新一代产品S3,还同步披露了S4、S5的研发路径图,正一步步向推理时代的理想状态迈进,目标是能研发出合格芯片、能实现规模化量产、能被头部客户实际落地使用。
曦望走的“实用路线”产品策略,强调“用得起”和“用得上”。目前,曦望产品搭起三代梯队,S1主攻视觉推理,S2覆盖通用推理,S3剑指极致性价比推理,稳稳踩着量产一代、发布一代、预研一代的节奏推进,采用“芯片、系统、生态”全链路布局。客户与供应链层面,覆盖互联网大厂、工业制造、新能源等领域。
其中,专注云边视觉推理的曦望S1,主要服务商汤自身的CV产品线,已经量产,累计出货量超2万片。曦望S2性能直接对标英伟达A100,也已实现量产。其产品目前已适配DeepSeek、通义千问等百余种大模型,在ModelScope平台的主流模型适配率超90%。

图源:曦望
其提供全自研的AI计算引擎和软件栈,软硬件全面兼容CUDA,可支持常用开源大模型的预训练、微调及训练,Hugging Face等开源社区的开源大模型工具箱,和PyTorch、DeepSpeed等AI框架。
从S3开始,曦望则要联动整个产业,将中国AI推理成本彻底拉至“百万Token一分钱”的全新级别,要知道过去一年国内已有部分厂商将大模型推理价格压至百万Token 1元甚至几毛钱,曦望的目标是依托专用推理GPU与专属系统架构,在此基础上把成本再压缩一个数量级。
发布会上,曦望联席CEO王勇透露,曦望的推理GPU 并非单点硬件创新,而是通过芯片架构、软件体系与算力交付方式的一体化设计,将硬件能力稳定转化为可交付、可计价的推理算力。
目前,曦望已构建与CUDA兼容的基础软件体系,支持推理应用低成本迁移与持续优化,相关能力已覆盖 ModelScope 平台 90% 以上主流大模型形态。
可光鲜的降本数据背后,曦望的技术路线,天生带着绕不开的能力边界。
截至2026年初,第三方工具支撑薄弱,生态壁垒的突破绝非短期之功,最后产品矩阵仍显单薄,相较于英伟达、华为昇腾的全场景覆盖能力,曦望能否在兼容CUDA之外构建差异化体验,S3能否实现技术跨越,将是其能否从融资明星转向市场赢家的关键时刻。
02
为何推理为先,团队积淀支撑国产突围
曦望抛出的1分钱低价,从来不是单一企业的定价游戏,而是一颗投进AI算力产业链的石子,从上游存储到下游应用,层层激起涟漪,推动行业格局重新洗牌。
而这场风暴的背后,藏着一支深耕AI产业的“特种部队”,正是这份团队积淀,让曦望有底气搅动行业格局。
曦望从来不是凭空冒出来的新手。它的前身是商汤科技的大芯片部门,是2024年年底从商汤拆分后成立的独立公司。
董事长徐冰带着团队完整走过了整个AI发展周期,从早期的人脸识别,到自动驾驶,再到如今的大模型多模态物理AI,在真实业务场景中,摸清了AI落地的真正痛点。
用徐冰的话说,曦望从第一天起就不是在纸面上设计芯片,而是要做更懂AI的GPU公司。负责研发的王勇,有着20年芯片研发经验,曾是AMD、百度昆仑芯的核心架构师,2020年加入商汤后,牵头曦望百人研发团队,主导了两代芯片的研发和量产,且都实现了一次性点亮成功。
而负责产品化与商业化的王湛,更是百度创始团队成员、百度第一任产品经理,一手打造了百度凤巢系统,巅峰时期带着几千人团队,2025年初加入曦望后,打造了产品落地与市场拓展的链路。
目前,曦望团队规模约300人,主要来自于NVIDIA、AMD、昆仑芯、商汤等企业。
徐冰从需求、场景与成本结构三大核心维度给出清晰阐释,他指出,首先是需求发生本质转变,AI已从模型训练阶段彻底迈向实战应用阶段,随着智能体与物理AI的爆发,推理将从行业配角跃升为核心主力。
德勤最新报告显示,到2026年推理算力占比将达66%,超越训练算力,这并非远期趋势,而是正在发生的行业结构性变革。
应用场景全面升级,智能体高频响应、实时交互需求激增,3D生成、视频生成、物理世界AI等复杂场景加速落地,多模态推理需求同步爆发,行业竞争焦点早已从“能跑起来”,转向真实业务场景中“跑得稳、跑得久且跑得划算”。
最关键的则是成本结构的核心变化,当前推理成本在AI应用总成本中的占比较高,这一数据直接决定着AI企业的盈利空间与商业化成败,唯有将推理成本大幅下探,AI才有望褪去高成本标签,像水电一样成为普惠性基础设施,这才是行业长远发展的核心方向。
可团队的积淀并不能抵消行业的固有难题。
研发团队在后续芯片中快速补齐生态短板,更是需要整个团队持续投入开发者社区建设。想要实现“重构AI产业损益表”的愿景,还需攻克诸多难关。
另外,曦望还需要在技术迭代、生态建设、框架优化、成本控制、客户拓展等商业化方面持续发力,穿越量产、技术、生态、盈利四道关。但市场留给曦望的时间并不会很多。
国产GPU已经是竞争残酷的赛道,通用GPU有摩尔线程、沐曦等公司,专用ASIC阵营则有寒武纪(688256)、燧原科技等公司。
03
30亿融资背后的资本逻辑
1月22日,曦望宣布一年内完成近30亿元战略融资,投资方包括三一集团旗下华胥基金、范式智能、杭州数据集团、正大机器人、协鑫科技等产业投资方,以及IDG资本、高榕创投、无极资本、中金资本、普华资本、松禾资本、易方达资本、工银投资、心资本等知名VC/PE机构,同时也获得诚通混改基金等国资背景资本加持。

图源:曦望
本轮资金将主要用于下一代推理GPU研发、规模化量产及生态共建。
三一集团、协鑫科技等投资方的逻辑直白且务实,可以和自身业务结合,直接降低AI改造的算力成本。
另一方面,通过投资绑定核心算力供应链,规避英伟达芯片限售与价格高企的风险,筑牢自身产业升级的算力底座。这种“投资和采购”的绑定模式,让产业资本成为曦望商业化落地的第一推动力,也为其提供了稳定的下游需求支撑。
IDC数据显示,2025年上半年中国生成式AI IaaS市场中,推理算力占比已达50.4%,首次超越训练算力,预计到2029年,推理算力占比将进一步升至76.8%,训练算力占比则降至23.3%,千亿级推理芯片市场空间已清晰浮现。
而2025年国产推理芯片融资规模增长,赛道热度可见一斑,曦望作为All-in推理的先行者,凭借极致性价比形成差异化竞争力,成为资本眼中的稀缺标的。
除了一级市场融资外,不少国产GPU公司已走向二级市场,行业整体进入资本化加速阶段。
2025年12月,沐曦股份和摩尔线程登陆科创板。壁仞科技、天数智芯于2026年1月在港股上市。此外,燧原科技申请科创板IPO。
瀚博半导体完成科创板上市辅导。而百度昆仑芯也计划赴港上市。沐曦股份已在科创板上市,而三年营收飙涨40倍却依然没盈利。
摩尔线程上市首年营收暴涨240%,预亏仍超9.5亿元。而燧原科技在2022-2025年前三季度累计亏掉41.65亿元,经营现金流连续四年净流出,超七成收入靠腾讯“输血”。
需要正视的是,曦望正处于“烧钱换市场”的关键阶段,盈利压力已悄然浮现。
这笔30亿元融资,用途高度集中于新一代芯片研发、规模化量产及生态共建,而其累计研发投入已达20亿元,年研发投入处于高强度投入区间,叠加“百万Token 1分钱”的低价策略,利润空间被极度压缩。
资本的狂欢背后,本质是整个行业对国产算力替代押注的结果,当国产芯片的真空地带亟需填补,曦望恰好站在了这一时代风口,但风口之上,估值泡沫与替代焦虑的绑定,也让其面临考验。







