正面硬刚OpenAI现役最强模型,国产AI一夜卷到硅谷
这两天,中国AI公司让全球AI圈再次兴奋了一把。
起因是,DeepSeek和 Kimi几乎同时分别官宣了全新推理模型——R1和k1.5。
让业内惊讶的是, DeepSeek-R1和 Kimi k1.5的性能都相当“能打”。
其中,文本推理模型DeepSeek-R1的性能追上o1正式版,关键模型还是开源的。而Kimi k1.5的文本和视觉多模态推理性能也已经全面追上现役全球最强模型——OpenAI o1正式版。
具体来说,在Long-CoT(思维链)模式下,Kimi k1.5的数学、代码、视觉多模态、通用推理能力,达到了长思考SOTA模型OpenAI o1满血版的水平。这也是全球范围内,首次有OpenAI之外的公司达到。而在Short CoT模式下,Kimi k1.5大幅领先GPT-4o和Claude 3.5的水平。
值得一提的是,在发布k1.5模型的同时,Kimi还首次公布了详细的模型研发技术报告。透过这份技术报告,我们也能够从中找到一些k1.5模型的实践经验。
/ 01 / 中国双子星再次炸场硅谷,性能比肩OpenAI o1
虽然DeepSeek R1和Kimi k-1.5有不少相似之处,比如都是以强化学习(RL)为核心驱动力。但从具体技术路线上,两者却又有着很多不同。
在两个模型发布的第一时间,英伟达AI科学家Jim Fan详细对比了两个模型的相似处和差异点。他发现,,Kimi和Deepseek的研究成果相似的地方在于:
1、不需要像MCTS那样复杂的树搜索。只需将思维轨迹线性化,然后进行传统的自回归预测即可;
2、不需要需要另一个昂贵的模型副本的价值函数;
3、无需密集奖励建模。尽可能依赖事实和最终结果。
而两者的差异点在于:
1、DeepSeek采用AlphaZero方法-纯粹通过RL引导,无需人工输入,即“冷启动”。Kimi采用AlphaGo-Master方法:通过即时设计的CoT跟踪进行轻度SFT预热。
2、DeepSeek权重是MIT许可证;Kimi K1.5是闭源模型。
3、Kimi在MathVista等基准测试中表现出强大的多模式性能,这需要对几何、智商测试等有视觉理解(DeepSeek目前只能识别文字,不支持图片识别)。
4、Kimi的论文在系统设计上有更多细节:RL基础设施、混合集群、代码沙箱、并行策略;以及学习细节:长上下文、CoT 压缩、课程、采样策略、测试用例生成等。
当然,除了这些技术细节外,回归市场层面,之所以DeepSeek与Kimi发布推理模型能够引发如此高的关注,一个核心原因是,相比过去发布的类o1-preview模型,这两家公司发布的都是满血版o1。
无论是数学,还是代码基准测试分数,DeepSeek与Kimi的得分都接近甚至超过OpenAIo1模型。
与Deepseek不同的一点是,Kimi k1.5是OpenAI之外首个多模态o1。
Kimi k1.5在文本和视觉数据上进行训练,使其能够同时处理文本和视觉数据。这种多模态能力使得模型能够联合推理文本和图像信息,从而在多模态任务中表现出色。
例如,在视觉问答(Visual Question Answering,VQA)和数学推理任务中,模型能够通过理解和分析图像内容来生成准确的答案。这种多模态设计不仅扩展了模型的应用范围,还提升了其在复杂任务中的表现能力。
Kimi k1.5出色的多模态能力,也引发了业内的热议。在X平台上,知名AI博主Mark Kretschmann大呼,“这是多模态AI的巨大突破。“
第三,短模型能力全面领先,在短思考模式(short-CoT)模式下,数学能力无论是gpt-4o还是claude3.5-sonnet都远不如Kimi 1.5,尤其是在AIME榜单上,Kimi 1.5有60.8,而最高模型里最高的只有39.2,堪称断层式碾压。
除了数学能力外,在代码视觉多模态和通用能力等场景下,Kimi 1.5也超越了目前的开源模型。
在强劲的模型性能背后,肯定有很多人关心,这个满血版o1水平的模型究竟是如何实现的?对此,月之暗面也大方公开了Kimi 1.5模型的相关训练技术细节。
/ 02 / “long2short“训练方案引人关注
在Kimi k1.5技术报告里,最大的亮点莫过于“Long2Short”训练方案,其方法是先让长CoT模型学会长链式思维,再将“长模型”与“短模型”进行合并,然后对短模型进行额外的强化学习微调,进而显著提升短推理路径模型的性能。
具体来说,主要有以下四种方法:
模型合并:之前都是通过模型合并来提高模型的泛化性,k1.5发现long-cot模型和short-cot模型也可以合并,进而提高输出效率,中和输出内容,并且无需训练。
最短拒绝采样:对于模型输出结果进行n次采样(实验中n=8),选择最短的正确结果进行模型微调。
DPO:与最短拒绝采样类似,利用long-cot模型生成多个输出结果,将最短的正确输出作为正样本,而较长的响应(包括:错误的长输出、比所选正样本长1.5倍的正确长输出)作为负样本,通过构造的正负样本进行DPO偏好学习。
Long2Short的强化学习:在标准的强化学习训练阶段之后,选择一个在性能和输出效率之间达到最佳平衡的模型作为基础模型,并进行单独的long-cot到short-cot的强化学习训练阶段。在这一阶段,采用长度惩罚,进一步惩罚超出期望长度,但保证模型仍然可能正确。
Long2Short方案的优势在于,最大化保留原先长模型的推理能力,避免了常见的“精简模型后能力减弱”难题,同时有效挖掘短模型在特定场景下的高效推理或部署优势。
这意味着,即使在有限的计算资源下,模型也能表现出良好的推理能力。
对于这种独特的训练方法,国外AI从业人士也给了很高的评价:
”long2short方法很有趣。首先,它显示了将思维先验从长期CoT模型转移到短期CoT模型的潜力。这对于提高有限测试时token预算的性能非常有用。他们表明,与DPO和模型合并等其他方法相比,它可以获得最高的推理效率。“
/ 03 / 推理模型,或成大模型竞争分水岭
过去三个月里,能明显感受到,Kimi在推理模型上进化速度之快。
2024年11月,他们首次推出的数学推理模型K0-math,就展现出了在数学领域的领先性。
12月,Kimi发布了视觉思考模型k1,在k0-math的基础上,k1 的推理能力不仅大大提升,还突破了数学题的范围,更解锁了强大的视觉理解能力。
现在,Kimi又往前进了一步,推出了推理能力更强大的k1.5。
从产业维度看,这事的意义不仅在于模型性能的升级,也直接影响产业竞争格局的变化。由于数据瓶颈和成本等原因,预训练scaling law的魔法正在面临着更多的考验。
而o1被认为是提升模型智能的新路径。正如OpenAI研究科学家Noam Brown所说,相比预训练的巨额投入,测试时间计算的成本相对较低,且算法改进空间巨大,具有巨大的提升潜力。
也就是说,大模型升级正在经历从预训练到后训练+测试时计算的范式转换。
从这个角度上说,“o1”类模型将是下一步国内一线实验室角逐的分水岭。谁能尽快做出自己的“o1”,谁才有资格继续留在牌桌。毫无疑问,随着DeepSeek R1和Kimi k-1.5模型的发布,月之暗面和幻方已经拿到了一张门票。
考虑到o1大大提升模型解决复杂问题的能力,将推动模型进入越来越多垂直领域,从数学、编程开始,进入到法律、科研、金融、咨询等领域。在这个过程中,国内大模型在商业化层面取得更多的突破也值得期待。
文/林白