硅谷不眠夜:DeepSeek为何震动美国科技界?

中国“神秘力量”震动美国科技圈?

瞭望 2025年01月27日 13:57 

◆ 近日,国产AI DeepSeek在中国、美国的科技圈受到广泛关注,甚至被认为是大模型行业的最大“黑马”,在外网,DeepSeek被不少人称为“神秘的东方力量”

瞭望,赞25

◆ 在不到30天的时间里,DeepSeek先后发布了DeepSeek-V3和DeepSeek-R1两款大模型,性能与国外顶尖大模型相当,而其成本与动辄数亿甚至上百亿美元的国外大模型项目相比堪称低廉,被称为AI界的“拼多多”

◆ DeepSeek与外国大模型巨头闭源的路径不同,采用开源模式

来源丨环球时报-环球网记者 刘扬、环球时报-环球网特约记者 任重、中国新闻社综合自DeepSeek官方微信 澎湃新闻 每日经济新闻 界面新闻 财联社 广州日报 证券时报等

1月27日,DeepSeek应用登顶苹果美国地区应用商店免费APP下载排行榜,在美区下载榜上超越了ChatGPT。同日,苹果中国区应用商店免费榜显示,DeepSeek成为中国区第一。

500

苹果美国区应用商店

500

苹果APP Store中国区免费榜

1月27日

相关微博热搜刷屏

500

500

500

游戏科学创始人、CEO,《黑神话:悟空》制作人冯骥高度评价DeepSeek:可能是个国运级别的科技成果。

500

DeepSeek是啥?

DeepSeek,全称杭州深度求索人工智能基础技术研究有限公司,成立于2023年7月17日,是一家创新型科技公司,专注于开发先进的大语言模型(LLM)和相关技术。

去年12月DeepSeek-V3发布后,AI数据服务公司Scale AI创始人Alexander Wang就发帖称,DeepSeek-V3是中国科技界带给美国的苦涩教训。“当美国休息时,中国(科技界)在工作,以更低的成本、更快的速度和更强的实力赶上。”

不到一个月之后,今年1月20日,DeepSeek正式开源R1推理模型。

据DeepSeek介绍,其最新发布的模型DeepSeek-R1在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩OpenAI o1正式版。

这一模型发布后,引发了海外AI圈众多科技大佬的讨论。例如,英伟达高级研究科学家Jim Fan就在个人社交平台上公开发表推文表示:“我们正身处这样一个历史时刻:一家非美国公司正在延续OpenAI最初的使命——通过真正开放的前沿研究赋能全人类。看似不合常理,但最有趣的结局往往最可能成真。”

500

DeepSeek回答问题时,有时会先讲一下自己的思考过程

DeepSeek为何突然爆火?

26日,DeepSeek出现了短时闪崩现象。不少网友反映,使用时遇到 “服务器繁忙” 的提示。

对此,DeepSeek回应称,当天下午确实出现了局部服务波动,但问题在数分钟内就得到了解决。此次事件可能是由于新模型发布后,用户访问量激增,服务器一时无法满足大量用户的并发需求。不过,官方状态页并未将这一事件标记为事故。

据了解,此前DeepSeek在美区榜单的排名并无特别突出表现,处于稳步上升阶段,但未进入前十。此次突然蹿升,与其近期一系列突出表现有直接关系。

据广州日报报道,“DeepSeek爆火的原因主要可以归结为两点:性能和成本。”萨摩耶云科技集团首席经济学家郑磊告诉记者。DeepSeek解释称,R1在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。这种卓越的性能不仅吸引了科技界的广泛关注,也让投资界看到了其巨大的商业潜力。

更为关注的是,DeepSeek R1真正与众不同之处在于它的成本——或者说成本很低。DeepSeek的R1的预训练费用只有557.6万美元,仅是OpenAI GPT-4o模型训练成本的不到十分之一。同时,DeepSeek公布了API的定价,每百万输入tokens 1元(缓存命中)/4元(缓存未命中),每百万输出tokens 16元。这个收费大约是OpenAI o1运行成本的三十分之一,也因此,DeepSeek被称为AI界的“拼多多”

郑磊直言,DeepSeek对硬件市场产生了重大影响,因为它可能会降低人工智能模型的硬件成本,从而推动人工智能技术的发展。

团队不到140人,都来自国内顶尖高校

DeepSeek之所以能取得这些创新并非一日之功,而是“孵化”数年之久,长期谋划后的结果。DeepSeek创始人梁文锋也是头部量化私募幻方量化的创始人。Deepseek充分利用了其幻方量化积累的资金、数据和卡。

梁文锋本科、研究生毕业于浙江大学,拥有信息与电子工程学系本科和硕士学位。2008年起,他开始带领团队使用机器学习等技术探索全自动量化交易。2023年7月,DeepSeek正式成立,进军通用人工智能领域,至今从未对外融资。

此前,OpenAI前政策主管、Anthropic联合创始人Jack Clark认为DeepSeek雇用了“一批高深莫测的奇才”,对此,梁文峰在接受自媒体采访时曾透露过,并没有什么高深莫测的奇才,都是来自Top高校的毕业生、没毕业的博四、博五实习生,还有一些毕业才几年的年轻人。

从目前已有的媒体公开报道中可以看出,DeepSeek团队最大的特点是名校、年轻,即使是团队Leader级别,年纪也多在35岁以下。不到140人的团队,工程师和研发人员几乎都来自清华大学、北京大学、中山大学、北京邮电大学等国内顶尖高校,工作时间都不长。

延伸阅读

专家解读:中国新AI大模型为何火爆全网

近日,一个名为DeepSeek(深度求索)的中国AI初创公司成为国内外人工智能(AI)大模型领域热议话题。在不到30天的时间里,DeepSeek先后发布了DeepSeek-V3和DeepSeek-R1两款大模型,其成本与动辄数亿甚至上百亿美元的国外大模型项目相比堪称低廉,而性能与国外顶尖大模型相当。同时,DeepSeek与外国大模型巨头闭源的路径不同,采用开源模式。中国这家公司的发展模式与成果让硅谷高度关注,多家西方主流媒体纷纷发文感叹“中国AI模型震惊硅谷”,甚至引发了国内外多家知名厂商与机构连夜尝试复现DeepSeek成果的“热潮”。DeepSeek的发展具有哪些特点?是否对国产大模型的发展路径以及创新思路带来一些启示?《环球时报》记者26日采访了多位人工智能领域的专家。

 “OpenAI o1经济实惠且开放的竞争对手”

DeepSeek公司本月20日发布大模型R1,并表示“在数学、代码、自然语言推理等任务上,性能比肩OpenAI o1正式版”,引发外媒特别是美国媒体高度关注这家中国公司及其最新大模型成果。

“中国便宜、开放的人工智能模型 DeepSeek让科学家兴奋不已。”《自然》杂志24日以此为题称,中国研制的大语言模型DeepSeek-R1令科学家们兴奋不已,它被认为是OpenAI o1等“推理”模型的经济实惠且开放的竞争对手

《纽约时报》24日以“中国人工智能初创企业DeepSeek如何与硅谷巨头竞争”为题报道称,能做到上述成绩本已是一个里程碑,但DeepSeek-V3大模型背后的团队描述了一个更大的进步。他们在训练该系统时只用了先进人工智能公司所用的高度专业化计算机芯片的一小部分。中国工程师称,他们只花了约600万美元以及约2000个英伟达专用芯片就完成了新模型的训练,无论资金以及芯片使用规模都远低于世界领先的人工智能公司。

“这不是中国追赶美国的问题,而是开源追赶闭源的问题”

DeepSeek备受关注,除了性价比超高,还有另一个原因:开源。连日来,网络上已经出现了一波复现DeepSeek的热潮。加州大学伯克利分校、香港科技大学、知名人工智能公司HuggingFace等纷纷成功复现,只用强化学习,没有监督微调,甚至只用几十美元的成本就能完成复现。

美国红迪网25日称,中国DeepSeek的模型是开源的,这是令人兴奋的真正原因。基本上,他们将制造这些东西的知识免费提供给全世界,确保没有人能够真正垄断它。中国公司基本上与美国公司的做法完全相反。你能看到OpenAI、Anthropic或谷歌开源任何强大的模型吗?到目前为止,我们从他们那里得到的只是皮毛。Meta是唯一一家对开源大模型做出重大贡献的西方大公司,但他们将来可能不会开源其最好的模型。被誉为“深度学习三巨头”之一的Yann LeCun(杨立昆)在社交平台X上表示,这不是中国追赶美国的问题,而是开源追赶闭源的问题。

北京邮电大学人机交互与认知工程实验室主任刘伟在接受《环球时报》记者采访时表示,大模型三大核心要素是数据、算法、算力,Deepseek使用较少的数据、较少的算力,通过算法的优化实现了与国外知名大模型等效甚至更优的效果,这是非常值得肯定的。同时还要看到它是开源的,可以供全球希望使用这一大模型的用户来使用和复现。

清华大学新闻学院、人工智能学院教授沈阳26日对《环球时报》记者表示,DeepSeek的大模型是全球开源大模型当中相当优秀的一款,是混合使用多种先进技术实现超越传统预训练技术的创新突破。他结合自身使用的感受谈了这款大模型的几个优点。一是它把目前提升AI大模型能力的方法进行了工程上的微创新组合。二是DeepSeek公布了相关论文,整个过程可以让大家去复现,这就是开源的力量。三是DeepSeek的推理过程,有自身的创新。沈阳作为AI领域的研究者,使用AI超过3万次,他认为,DeepSeek跟美国的AI相比,还有很多中国元素在里面,如中国网络当中的一些热词。

提升推理能力

对于Deepseek的发展模式为国内大模型发展以及创新提供了怎样的重要启示,刘伟认为,“创新不是规划出来的,需要市场、专业机构通过长时间的研究来另辟蹊径,尤其是一些长期关注垂直领域的商业公司可以通过对技术路径的反思、对市场发展的嗅觉,来找到更好的创新点。OpenAI最初的发展过程也是这样,并不是美国官方与科技巨头砸重金规划出来的。”

日前,OpenAI、软银等公司公布了“星际之门”计划,要在4年中砸5000亿美元来加速美国人工智能的发展。刘伟强调,这种集中人力、财力、物力,再给予政策倾斜的发展路径,在未来研究方向与研究结果方面都存在一定的不确定性。“还是要鼓励国内更多商业公司、科研院所聚焦自身的研究领域,找到适合自己的创新与发展路径。”

沈阳表示,在AI发展历史中,新的突破往往是由不显眼的工程创新与科学探索共同驱动的。这种趋势在DeepSeek的成果中得到了深刻体现,它不仅突破了传统的训练方式,也为推理能力的提升带来了全新的视角。“尽管它的成就尚处于一个阶段性水平,但其工程贡献和理论创新已经为未来的AI发展奠定了重要基础。”沈阳认为,DeepSeek团队在基础模型预训练方面的贡献,不仅是在技术层面上的突破,更在于其工程方法的精细与高效。DeepSeek的这种工程创新,标志着AI模型训练的一个全新阶段,这不仅降低了开发成本,也为其他公司提供了可借鉴的路径。同时,DeepSeek的核心创新还体现在推理能力的提升上,尤其是通过相关算法创新来推动模型的自然推理能力,证明了AI领域的一种潜力——无须大量昂贵的思维链标注,模型依然能够涌现出推理能力。

沈阳认为,DeepSeek的成功也让我们看到了未来AI产业的发展方向:更多的开源创新、硬件与软件的深度协同,以及对模型开发成本与推理能力的不断优化。同时,我们也必须看到,DeepSeek虽然取得了显著的阶段性成果,要想在未来发展道路上实现进一步突破,仍然需要面对许多深层次的挑战,例如需要更多的原创性训练数据和算法创新。

硅谷不眠夜:DeepSeek为何震动美国科技界?

DeepSeek 给硅谷带来的震撼还在持续,并不见降温的迹象。如果和几个月前的《黑神话·悟空》在欧美受到的追捧相比,DeepSeek 的出现可谓是“石破天惊”,充满了各种不可能、不合理。它讲述了一个如何在层层封锁、劲敌环伺的背景下铁树生花的故事,让美国精心设置的人工智能技术小院高墙展现出了坍塌的风险。

“我们正生活在一个特殊的时代:一家非美国公司在真正践行着 OpenAI 最初的使命——开展真正开放的前沿研究,为所有人赋能。这看似不合常理,但最富戏剧性的往往最可能发生。”这是英伟达高级研究科学家 Jim Fan 在社交媒体上发出的感慨。

就在最近,这家一年多前还名不见经传的中国 AI 公司,以其新发布的推理大模型 R1 在全球 AI 界掀起了一场风暴。这个模型不仅在性能上比肩甚至超越了 OpenAI 的 o1,并完全开源,且以极低的成本实现了这一突破。这一事件迅速触动了美国科技界的神经。

500

图丨Google 新闻首页推荐内容(来源:Google)

微软 CEO Satya Nadella 在达沃斯世界经济论坛上直言:“DeepSeek 新模型的表现令人印象深刻,尤其是在模型推理效率方面。我们必须认真对待来自中国的这些发展。”Scale AI 的 CEO Alexandr Wang 甚至将其称为一款“震撼世界的模型(earth-shattering model)”。“我们发现 DeepSeek...... 的性能与美国最好的模型不相上下。”

500

图丨 Alexandr Wang 相关采访(来源:CNBC)

事实上,DeepSeek-R1 的出现确实引发了硅谷的一场小型地震。沃顿商学院教授 Ethan Mollick 对 R1 的内部思考过程赞叹不已:“DeepSeek 的原始思维链非常迷人。它真的读起来就像一个人在大声思考。既迷人又奇特”。著名风险投资人、Mosaic 浏览器联合发明人马克·安德森也表示:“DeepSeek R1 是我见过的最令人惊叹和印象深刻的突破之一,作为开源项目,这是给世界的一份重要礼物。”这种开源精神甚至让一位软件工程师将“OGOpenAI.com”域名重定向到了 DeepSeek,以此暗示 DeepSeek 更像早期的 OpenAI,践行着开源 AI 的理念。

500

图丨相关推文(来源:X)

最直接的冲击体现在同样倡导开源的 Meta 上。据美国匿名职场社区 teamblind 爆料,DeepSeek 的一系列动作已经让 Meta 的生成式 AI 团队陷入恐慌。一位 Meta 员工在帖子中写道:“工程师们正在疯狂地分析 DeepSeek,试图从中复制任何可能的东西。这一点都不夸张。”更令他们担忧的是,“当生成式 AI 组织中的每个‘领导’的薪资都比训练整个 DeepSeek-V3 的成本还要高,而我们有好几十个这样的‘领导’时,他们要如何面对高层?”

尽管 Meta 的首席 AI 科学家 Yann LeCun 强调,这不应被解读为“中国在 AI 领域超越美国”,而是“开源模型正在超越专有模型”。然而,扎克伯格随后的举措还是暴露了 Meta 的焦虑:宣布加速研发 Llama 4,计划投资 650 亿美元扩建数据中心,并部署 130 万枚 GPU 以“确保 2025 年 Meta AI 成为全球领先模型”。

500

图丨扎克伯格在相关贴文中附上的 2 吉瓦数据中心位置图(来源:Facebook)

艾伦人工智能研究所的研究科学家 Nathan Lambert 称,“在这一点上,Meta 绝非个例”他认为,R1 的发布标志着推理模型研究的一个重要转折点。在此之前,推理模型一直是工业研究的重要领域,但缺乏一篇开创性的论文。就像 GPT-2 对预训练的重要性,或者 InstructGPT 对后训练的影响一样,我们一直在等待一个推理模型研究的里程碑。Lambert 指出:“推理研究和进展现在已经锁定——预计 2025 年将有巨大的进展,而且更多将是公开的。”

那么,是什么让 DeepSeek-R1 如此特别?R1-zero 采用的训练策略证明了仅通过强化学习(RL,Reinforcement Learning),无需监督式微调(SFT,Supervised Fine-Tun-ing),大模型也可以有强大的推理能力。Hyperbolic 联合创始人兼 CTO Yuchen Jin 将这一突破与 AlphaGo 进行类比:“就像 AlphaGo 使用纯 RL 下了无数盘围棋并优化其策略以获胜一样,DeepSeek 正在使用相同的方法来提升其能力。2025 年可能会成为 RL 的元年。”

不过,R1-Zero 在可用性方面存在的一些小问题表明,要训练出一个出色的推理模型,需要的不仅仅是大规模的 RL。

在 R1-Zero 的基础上,团队针对 R1 采用了一个四阶段的训练方案:首先是对合成推理数据进行“冷启动”监督微调;其次是对推理问题进行大规模强化学习训练,直到收敛;第三是对 3/4 的推理问题和 1/4 的一般查询进行拒绝采样,开始向通用模型过渡;最后是混合推理问题和一般偏好调整的强化学习训练。这个过程不仅实现了高效的训练,还保持了模型的可读性和最终性能。

500

图丨 DeepSeek 采用的 GRPO(Group Relative Policy Optimization)算法框架(来源:arXiv)

更关键的是,DeepSeek 通过创新性的方法,在有限的计算资源下实现了这些突破。正如微软 AI 前沿研究实验室首席研究员 Dimitris Papailiopoulos 所说,R1 最令人惊讶的是其工程简单性:“DeepSeek 追求准确的答案,而不是详细说明每个逻辑步骤,这显著减少了计算时间,同时保持了高效率。”

尽管 R1 备受关注,DeepSeek 仍然相对神秘。创立于 2023 年 7 月的 DeepSeek 一直是一家低调的公司。公司创始人梁文锋毕业于浙江大学信息与电子工程专业,此前创立了管理约 80 亿美元资产的对冲基金幻方量化(High-Flyer)。与 OpenAI 的 Sam Altman 类似,梁文锋的目标也是构建通用人工智能(AGI)。

DeepSeek 的成功与其独特的发展策略密不可分。在美国实施芯片出口管制之前,梁文锋就收购了大量英伟达 A100 芯片。据有关媒体报道,公司库存超过 1 万块,而 AI 研究咨询公司 SemiAnalysis 创始人 Dylan Patel 预估这个数量至少是 5 万块。这种前瞻性的布局为该公司的技术突破奠定了基础。

更重要的是,面对芯片限制,DeepSeek 将挑战转化为创新机遇。美国西北大学计算机科学博士生、前 DeepSeek 员工 Zihan Wang 告诉《麻省理工科技评论》:“整个团队热衷于将硬件挑战转化为创新机会。”他补充说,在 DeepSeek 工作期间,他能够获得充足的计算资源并有自由进行实验,“这是大多数应届毕业生在任何公司都不会得到的待遇。”

这种创新精神体现在效率的提升上。在 2024 年 7 月接受采访时,梁文锋承认中国公司在 AI 工程技术方面相对落后:“我们必须消耗两倍的计算力才能达到相同的结果。再加上数据效率差距,这可能意味着需要四倍的计算力。我们的目标是不断缩小这些差距。”梁文锋本人也深度参与研究过程,与团队一起进行实验。

而 DeepSeek 最终找到了减少内存使用和加快计算速度的方法,同时没有明显牺牲准确性。

实际上,中国公司在这方面已经形成了某种共识,他们不仅追求效率,而且也在越来越多地拥抱开源原则。阿里云已发布了超过 100 个新的开源 AI 模型,支持 29 种语言,涵盖编程和数学等各种应用。据中国信息通信研究院的白皮书显示,全球 AI 大语言模型数量已达 1,328 个,其中 36% 来自中国,使中国成为仅次于美国的第二大 AI 技术贡献国。

“这一代中国年轻研究者特别认同开源文化,因为他们从中获益良多,”塔夫茨大学技术政策助理教授 Thomas Qitong Cao 说。

卡内基国际和平基金会的 AI 研究员 Matt Sheehan 则指出:“美国的出口管制反而逼得中国公司不得不想办法提高效率,把有限的算力用到极致。考虑到算力短缺,我们可能会看到更多企业开始抱团取暖。”

“在 AI 行业出现一定的分工是很自然的事情,也更节省资源,”Cao 补充说,“AI 发展得太快了,中国企业必须保持灵活才能适应。”

500

图丨相关推文(来源:X)

随着 DeepSeek 等中国公司在 AI 领域的崛起,全球 AI 竞争格局正在发生微妙变化。如果中国公司能够以更低的成本实现同等或更好的性能,而且这些模型还大都开源,美国公司赖以维持的技术优势和高估值可能会受到挑战。这种担忧已经反映在英伟达等 AI 概念公司的股价上,有分析师甚至指出:“事实上,中国量化基金的一群超级天才将导致纳斯达克崩盘,但目前还没有人意识到这一点。”

不过,现在就高呼“中国 AI 已经超越美国”或“遥遥领先”还为时过早。如清华大学计算机系长聘副教授刘知远所说:“DeepSeek 的突破确实证明了中国 AI 通过有限资源的极致高效利用,实现以少胜多的独特优势,中美 AI 差距正在缩小。”

但现在还远未到“胜券在握”的时候。刘知远认为:“AGI 新技术还在加速演进,未来发展路径还不明确。中国仍在追赶阶段,已经不是望尘莫及,但也只能说尚可望其项背。在别人已经探索出的路上跟随快跑还是相对容易的,接下来如何在迷雾中开拓新路,才是更大的挑战。”

从大疆到宇树,再到当红的 DeepSeek,越来越多的中国科技公司成为美国科技界绕不过去的热门话题,一方面体现出中国公司在供应链优势下对成本的极致敏感,这加速了技术民主化的趋势;更体现出技术竞争的魅力,如果切换一下视角则会发现,硅谷这段时间感受到的震撼则是过去两年中国同行的常态。

瞭望/ DeepTech深科技

站务

最近更新的专栏

全部专栏