改款DeepSeek,乱了华为心态
文源:源Byte
作者:柯基的柯
当技术参数的相关性飙到0.927,行业直接炸了。
近期,有研究团队在GitHub上公开比对数据,指出华为盘古ProMoE与阿里Qwen-2.5 14B参数结构高度雷同,居然高达0.927,超过业内正常范围(通常低于0.7)。华为盘古团队迅速回应,强调其模型基于昇腾硬件优化,属于“殊途同归”,向来在舆论场上不输阵仗的阿里,却意外保持沉默。
截图来源于诺亚方舟实验室公号
无独有偶,就在上个月,月之暗面的Kimi-Dev-72B凭借60.4%的测试成绩惊艳亮相,因“Basemodel:Qwen2.5-72B”的标注被贴上“套壳”标签陷入争议。就在开发者们争论不休之时,外界发现“受害者”依旧是阿里,不禁发出如此疑问:这是微调技术的胜利,还是原创性匮乏的遮羞布?
而曾被寄予厚望的DeepSeek R2,迟迟未能面世,这款有望继续对世界顶级大模型持续施压的模型长期“跳票”,一定程度助推了国产大模型的技术标准“失焦”。
在一片R2“狼来了”的声音中,市场似乎在等待中逐渐失去耐心,正在让国产大模型的竞争,从技术比拼滑向资源内耗。
01
参数之争背后的技术迷局
华为盘古ProMoE与阿里Qwen-2.5 14B的“0.927相似度”,直接剖开了大模型研发的黑箱。
研究团队通过比对注意力参数分布,发现两者结构相似性远超行业常态。华为坚称其模型基于昇腾硬件优化,属于“异构架构的殊途同归”;阿里则保持沉默,但开源社区已涌现对代码复用合规性的质疑。
然而,技术细节的争议很快滑向商业博弈的泥潭。
盘古团队紧急发布技术白皮书,强调其MoE架构的专利布局;阿里则加速推进Qwen-3.0迭代,似乎在用版本升级对冲舆论风险。一位不愿具名的芯片工程师透露:“参数结构的趋同,本质上是算力军备竞赛下的技术妥协。”
开发者社区并不买账,用户 @HonestAGI 通过 “LLM 指纹” 技术反向验证,结果与原始研究高度吻合。技术趋同是否等同于抄袭?这一问题在开源社区引发激烈辩论。
支持华为的声音认为,大模型领域的技术重叠难以避免,关键在于优化和落地。昇腾生态的拥趸特别指出,盘古的动态专家网络设计解决了分布式训练负载均衡的难题,是实打实的创新。
但反对者,反对者翻出匿名爆料,称部分盘古模型存在“洗水印”嫌弃——即对开源模型进行微调后重新包装。尽管爆料未提供具体证据,但阿里通义千问的开源协议中明确要求衍生模型需标注来源,这一细节让争议更加扑朔迷离。
从技术角度看,参数结构的相似性可能源于训练数据的重叠或优化目标的趋同。但问题的核心在于,当两家巨头在公开场合强调“自主创新”时,这种高度一致性是否违背了开源协议的精神?
华为盘古团队的回应中,一个细节值得玩味:他们提到“参考了业界开源实践”,但未具体说明哪些实践。这种模糊表述让外界难以判断其行为的边界。而阿里的沉默,则被解读为一种战术性回避,避免卷入公开论战。
一位长期观察AI行业的分析师表示:“参数之争的背后,是国产大模型在高速发展中的身份焦虑——既要追赶国际巨头,又要在本土竞争中脱颖而出。”这种焦虑,或许正是技术迷局的真正底色。
02
微调红利与创新困局
华为与阿里的纠纷并非孤立事件,就在上个月,月之暗面与阿里就曾陷入类似的纠纷。
就在外界认为月之暗面要在国产大模型内卷中掉队之时,其推出的Kimi-Dev-72B在SWE-bench测试中一骑绝尘。
该模型通过1500亿专项数据和数百万GitHub工单优化,将代码任务准确率提升至60.4%。在当时,它刷新了开源模型的纪录,将包括DeepSeek在内的众多竞争对手甩在了身后。
不过好景不长,开发者们很快发现,Kimi-Dev-72B明确标注了其基础模型为Qwen/Qwen2.5-72B,随后,开发者社区的分歧迅速蔓延:有人将其视为“站在巨人肩膀上”的微调典范,也有人质疑这是披着开源外衣的“技术组装”。
微调本是行业常态,但标注的透明性未能消弭质疑。月之暗面官方解释,他们以Qwen 2.5-72B为起点,收集了数百万个GitHub问题单和PR提交作为中期训练数据集,其核心创新点在于采用了大规模强化学习技术。
争议的核心并非技术本身,而是创新的边界。Kimi-Dev-72B的表现确实亮眼,但它的成功是否依赖于基座模型的原始能力?有匿名开发者尖锐指出:“如果微调就能达到顶尖水平,原创的价值在哪里?”
开源生态的规则正在被重新定义。阿里通过协议更新试图维护技术主权,而月之暗面则用性能说话,试图证明微调并非简单的“套壳”。市场反应两极分化:一部分企业开始效仿这种快速迭代的模式,另一部分则呼吁回归原创研发。
值得注意的是,Kimi-Dev-72B的优化框架确实有其独特性,它结合了BugFixer和TestWriter角色,通过强化学习精准提升代码修复和测试编写的效率。
但这种优化是否足以定义“创新”,仍是一个悬而未决的问题。可见,行业的焦虑感正在加剧,当微调成为捷径,原创研发的成本和风险是否会被边缘化?对此,一位风投机构合伙人给出解释:“资本更倾向于快速见效的项目,原创大模型的投入周期太长。”
03
失序的竞争
R1的辉煌已成往事,R2的难产却让市场陷入焦灼。DeepSeek曾以低成本、高性能对标OpenAI,一度成为全球开源推理类模型的标杆。
截图来源于DeepSeek官网
传闻在今年4月发布的R2,时至今日也未能问世,仅仅在5月末推出了一个R1的改款。
至少从6月以来的两起“套壳”事件来看,改款的R1模型难以承担定义行业标准的重任。
有媒体爆料称,因公司创始人梁文锋对性能的极致追求和H20芯片短缺被迫延期,根据爆料的内部文件显示,其1.2万亿参数的MoE设计对标GPT-4Turbo,但训练成本控制成为致命瓶颈。
技术瓶颈之外,行业正面临更严峻的信任危机。R1曾以纯强化学习训练打破技术范式,而R2的缺席让华为、阿里有望抢占生态位,有风投机构对源Byte表示:“当所有人都忙着给模型‘镀金’,真正的创新反而成了奢侈品。”
DeepSeek如今已经成为了国产大模型的代名词,其R1模型具备定义行业标准的意义,但长达半年多的技术缺位、R2接连跳票后,难免有人想取而代之。“对于一线互联网大厂来说,能够定义行业标准、引领行业前进方向,才是他们最为看重的。”上述风投机构坦言。
简单点理解,就是DeepSeek R2的跳票,或变相造成了国产大模型的竞争失焦。
华为和阿里在R2真空期内动作频频,华为盘古ProMoE的争议尚未平息,阿里已悄然推进Qwen-3.0的迭代。两家巨头的技术路径虽有差异,但核心逻辑仍是参数与性能的堆砌,难怪不少匿名开发者都在调侃:“大家都在玩‘谁的数字更大’,没人关心技术是否真的进步。”
据部分开发者向源Byte爆料称,部分国产智能体专注“出海”,而非针对国内市场开发,除了国内市场尚未形成付费习惯,还有相当一部分的原因是,国产大模型仅仅在参数上追平或赶超海外模型,但在具体的开发细节上,仍存在一定差距,直接导致开发成本的飙升。
与此同时,芯片短缺加剧了这场混乱。英伟达H20的供应紧张,让依赖高端硬件的企业陷入被动。DeepSeek的延迟或许只是开始,更多中小厂商可能因资源不足被迫退出竞争。
即便如此,市场对R2的期待仍未消退。传闻称其混合专家架构(MoE)将成本大大降低,但具体表现仍是未知数。若R2能如期突破,或许能重新点燃行业的信心;若继续延迟,国产大模型的竞争格局或将改写。
耐人寻味的是,这场延迟反而让市场看清了行业的真实状态,技术路径趋同、创新乏力、资源垄断——这些问题在R2的缺席中被放大。一位从业者无奈表示:“我们需要的不是另一个参数怪兽,而是能真正解决问题的工具。”
部分图片来源于网络,如有侵权请告知删除