DeepSeek是否碾压ChatGPT,吊打英伟达?

摘自网络两篇文章《DeepSeek和国运有啥关系》、《揭秘DeepSeek-V3“物美价廉”的背后:蒸馏技术存在天花板,依赖合成数据训练有风险》,致敬原作者。两篇原文有精简及合并,特此说明。

1月27日,DeepSeek应用登顶苹果美国地区应用商店免费APP下载排行榜,在美区下载榜上超越了ChatGPT。随即引发了资本市场的震荡,DeepSeek被形容为“英伟达的最大空头”,英伟达的股价大幅下跌,所谓“DeepSeek碾压ChatGPT,吊打英伟达”的神话就此诞生。

DeepSeek横空出世,成功破圈。破圈之后,照例就是借题发挥。美方某些人士把DeepSeek视为技术威胁以及指责剽窃,背后充斥着技术霸权思维与商业利益驱动的双重标准;而国内有不少人则把DeepSeek渲染为“中美争霸”的一击制胜的利器,自我感觉极为良好。

DeepSeek和ChatGPT之间的关系:两者的师承关系源于“蒸馏技术”,这是DeepSeek快速崛起的技术路径。

以前的大模型训练相当于使用题海战术,在大量的数据中训练;而蒸馏就相当于让在题海战术里磨练过的优秀大模型充当新模型的老师,筛选出有效题目,再让新的大模型训练。因此前一个模型在业界常被称为“教师模型”,后一个模型常被称为“学生模型”。

通俗地说,“蒸馏技术”就是用一个较为成熟的“教师模型”训练“学生模型”,这一过程类似低度酒蒸馏加工为高度酒。具体操作方式是,“学生模型”每分钟上百万次高频提问,从“教师模型”中汲取数据、学习逻辑,然后在人工干预下优化算法,最终形成独特的个性。ChatGPT就是DeepSeek的“教师模型”,或许不是唯一的,但肯定是主要的。因此说ChatGPT是DeepSeek的老师,不过分吧?

“蒸馏技术”不是近年来的新发明,发明者不是中国人也不是美国人,而是曾获得2018年图灵奖和2024年诺贝尔物理学奖的英国科学家杰弗里·辛顿在2015年提出的。(附注:杰弗里·辛顿教授曾在英国、美国、加拿大的大学任教,后任谷歌副总裁近7年,但在2023年从谷歌辞职。辞职原因,一是感觉自己已75岁,也应该退休了;二是对人工智能的发展感到有不可控的忧虑,AI可能会对人类构成严重威胁。杰弗里·辛顿就像二战后期美国原子弹曼哈顿计划的“科技总监”奥本海默一样,对自己的部分工作感到后悔。)

然而当时“蒸馏技术”只是纯理论的屠龙技 —— 压根就没有成熟的“教师模型”,没法蒸馏。直到ChatGPT这种成熟大模型相继投入实际应用,“蒸馏技术”才有了实际应用的空间,因此“先有ChatGPT,后有DeepSeek”也是无法否认的事实。显然,DeepSeek不是孙悟空从石头缝里蹦出来,而是站在巨人肩膀上的后续衍生产品。后来者应该坦然接受先行者的成功,尊重先行者的智力劳动成果。而如果搞“选择型记忆,选择型讲述”,那就叫做“贻笑大方”。

实事求是讲,蒸馏技术存在一个缺陷,那就是通过蒸馏训练的模型(即“学生模型”)总是受到其“教师模型”能力的限制,这会产生一种隐形天花板效应 —— 无论蒸馏过程多么复杂,都无法真正超越原始模型的能力。

更深层次看,它可能导致研究者更倾向于走捷径而非寻找根本性解决方案,使问题的解决途径“变味”。当需要将能力扩展到新领域或应对以前从未见过的挑战时,这种限制就愈发成为问题。

当然,也不能因为DeepSeek是蒸馏技术的产物,就否认其原创性,蒸馏不等于盗窃、抄袭。要是能一抄了之,哪里轮得到DeepSeek?在蒸馏技术的赛道上,有名有姓的玩家少说也有上百家。DeepSeek能出圈,是有几把刷子的。“蒸馏”大同小异,人工干预的算法优化则是各显神通,简洁高效的算法是DeepSeek的成功关键,颇有别具一格的特色。

人工智能三大要素——算法、算力、数据,中国长于算法,美国重视算力。这种“偏科”倾向在各家的人工智能大模型百舸争流的初期就已经显现了,比如昔日以商汤为代表的视觉系AI“中国四小龙”,就是以算法著称。

市场需要性价比高的人工智能技术,而这些企业研发则满足了市场需求。各种奇思妙想在开放的市场中竞争、试错,实现从量变到质变的升华。蒸馏技术从纯理论的纸上谈兵,到有了ChatGPT这样的成熟大模型开道后,这才变成真正落地,自然而然,水到渠成,不需拔苗助长。

但这并不意味着DeepSeek已经“碾压ChatGPT,吊打英伟达”。比如,DeepSeek到底使用了多少英伟达芯片?目前网传的说法就有三个版本:分别是五万、一万和两千多,越传越少。DeepSeek创始人梁文峰本人在采访中说过,在2021年前后就已经囤积了一万块GPU。当然,无论是一万块还是五万块GPU,比起动辄几十万芯片的大厂产品,都是数量级的降低,值得称赞。

在应用端,DeepSeek成功实现免费开源模式,大幅推进了人工智能的普及应用,也会产生巨大的算力需求增长。别轻看小微企业和个人用户,本地部署的聚沙成塔是巨大的潜在需求增长,如此看来,DeepSeek不是“英伟达终结者”,而是英伟达的财神爷。因此,英伟达对DeepSeek的态度非常积极,给了权威背书 ——“DeepSeek-R1是最先进的大语言模型”。

但是也应该指出的是,DeepSeek的算法优化“省芯”,并不会使人工智能领域的算力需求降低。因为实事求是地讲,“蒸馏技术”和算法优化是做减法,以简化的方式提高效率,而且蒸馏技术的技术天花板到底有多高,现在也很难判断,未来能否实现性能全面超越,并没有清晰的预期,因此不必刻意强调DeepSeek的原创性、创新性。师承ChatGPT的蒸馏技术、使用英伟达GPU都是无法否认的事实,又何必遮遮掩掩?“微创新”的一小步,也可以是人类科技事业的一大步。瓦特并没有发明蒸汽机,而是改良了前辈的创作,这并不妨碍瓦特蒸汽机叩开了工业化的大门。

DeepSeek最大的优势是性价比,算法赋能大幅降低了算力成本。省钱永远是商业竞争的王道,绝大部分个人用户并没有很高的专业需求,免费开源的DeepSeek更有吸引力,这是人工智能商业化应用的成功。

DeepSeek的成功完全是计划外的市场产物。一家初始注册资金并不高的小公司,规模不太大,也没有“星辰大海”的高远目标,没有中美争霸的宏大叙事,只有现实的市场逻辑和水到渠成的科技路径 —— DeepSeek的初始目标是专攻金融交易,就是国内一些网民非常反感的“资本工具”。这样一家“起于草莽”的小民企,打造了一款成功的人工智能产品,不经意间改变了整个产业,这才是科技产业发展的正常模式。

一款好产品本身,足以说明一切。DeepSeek无疑是一款好产品,至于是否具备“划时代”的意义,无需“口头加冕”,时间会说明一切。

又及:在越训练越出色的人工智能面前,人类需要的是协作而非对抗,建立共赢的技术治理框架。目前和今后,面对AI伦理、AI安全这些问题(这也是身处AI时代必须警惕的问题),比如由AI生成的文字内容,以及图片和视频(有不少AI生成的图片以假乱真),它们与真实信息相混合,难分彼此。其危害不只是造成社会恐慌和扰乱网络传播秩序,更在于对信息生态的污染和破坏。所以,人工智能的深度学习得益于多国科学家的接力突破,人工智能大模型的健康持续发展需要全球人类智慧共同浇灌。

站务

最近更新的专栏

全部专栏