马斯克刚发Grok-3,DeepSeek就贴脸开大!

来源:网罗灯下黑

太刺激了,2025 年的 AI 大战已经开始贴身肉搏,刺刀见红了!

马斯克今天不是发布号称地球上最聪明 AI 的 Grok-3 吗,他这边早早就开始预告,结果 OpenAI 掌门人奥特曼在发布会之前,就在 X 上透露即将开源 GPT o3 系列模型,还暗示 GPT-4.5 已让测试者摸到 AGI 门槛。

500

玩截胡是吧?这还不算完。

马斯克这边刚嘚瑟完 xAI 的 Grok-3,发布会结束还没到 1 个小时呢,这边 DeepSeek 直接甩出核弹级论文,发布颠覆行业的原生稀疏注意力技术 NSA,创始人梁文锋亲自挂帅署名!

500

这不是明摆着把马斯克标成汪峰来打了吗,就是不让上头条!

这篇论文到底说了啥呢,我自然让 DeepSeek 来解读了一下:

500

其实这个解读已经比较通俗易懂了,不过还是有点硬,想让它再解释一下,它就又罢工了。

好吧,我结合着它的解释和自己的理解,来给大家再简单过一遍:

1.

这篇论文的核心贡献叫做 ‘原生稀疏注意力’(Native Sparse Attention,NSA)。要理解它为什么重要,得先知道当前大模型的致命伤:

1. 长文本 = 算力黑洞

现在所有大模型处理长文本,都在用 ‘全注意力机制’,比如让大模型读整本《三体》,它每个字都要看,带来的后果就是速度慢还烧显卡,64k 字能吃掉 80% 算力。

但实际上,我们人类并不这么读书:我们看长文章时会自动跳读、抓重点、记框架,就比如公众号文章会标粗标红,也是为了帮助读者抓重点。

而这个时候大模型这傻小子还在死磕每个标点符号。

2. 现有方案的妥协

目前市面上的大模型解决方案其实都是在打补丁:

滑动窗口法:只看当前段落附近的文字(类似你读书时用手指指着看) → 容易漏掉全局信息;

随机抽样法:随便抽几句话分析 → 可能错过关键线索;

事后压缩法:先完整读一遍再删减 → 本质上还是浪费了第一遍的算力。

而 DeepSeek 的 NSA 技术,试图从底层重建这个过程。

2.

它要教会大模型像人类一样阅读,把 ‘选择重点’ 的能力直接植入 AI 的基因。

第一步:分块压缩

把长文本切成 512 字的小块,比如把一本小说按章节拆分。对每个块做 ‘缩略图提取’:用 AI 自动生成该块的语义摘要,类似读书时先看目录。

第二步:动态筛选

让 AI 自主决定哪些块需要细读,比如选中 16 个关键章节。

筛选标准通过训练自动优化,相当于教 AI 什么信息值得关注。

第三步:局部深挖

逐字分析:对选中的关键块启用全注意力机制;

防止断章取义:同时用滑动窗口覆盖周边内容;

这相当于给 AI 装了个智能探照灯:既能扫描全局,又能聚焦重点。

3.

这可不是简单的优化,而是范式转移,直接拿论文数据来说话吧:

1. 效率革命

训练速度提升 9 倍:在 64k 文本长度下,训练耗时从全注意力机制的 100% 降到 11%。

推理速度提升 11.6 倍:处理同长度文本,所需计算资源不到原来的十分之一。

2. 能力跃迁

长文本理解质变:在 ‘大海捞针’ 测试中(从 6.4 万字里找特定事实),准确率 100% 碾压传统方案,要知道全注意力机制才 35%啊,太变态了!

最狠的是数学推理暴打传统模型!在 AIME 奥数题上,NSA 加持的模型正确率飙到 14.6%,把全注意力模型 9.2% 按地上摩擦 —— 说明这技术真能让 AI 更聪明,不是单纯省算力。

3. 成本重构

同等算力下可处理 10 倍长的文本,或用 1/10 的算力达到相同效果。这直接动摇了大模型必须靠堆显卡的行业逻辑:以前训练长文本得烧机房,现在用 NSA 能省下几卡车显卡钱!

4.

为什么说这事比 Grok-3 更重要?

马斯克的 Grok-3 宣传的是:首个突破 1400 分的模型 、 首个十万卡集群训练出来的模型 ,大概率还是在走 ‘扩大参数规模 + 增加数据量’ 这种大力出奇迹的老路。而 DeepSeek 的论文指向一个更本质的问题:

当前大模型的架构,可能从根子上就错了。我们一直用 ‘全注意力机制’ 是因为它简单粗暴有效,但NSA 技术的意义在于:

证明稀疏注意力可以端到端训练,传统方案只能训练后裁剪;

首次实现算法与硬件的深度协同,直接针对 GPU 内存特性优化;

从算法设计到硬件适配全链路打通,论文里连怎么在显卡上 ‘卡 BUG’ 省内存都写得明明白白,摆明了要落地商用。

5.

如果 NSA 技术普及,将彻底打开长文本场景的商业化大门,需要处理百万字级文本的场景,终于有了可行的 AI 方案。

我们可能会在 1-2 年内看到:

文档助手:上传 1000 页的行业报告,AI 能在 10 秒内提炼出核心趋势和风险点;

教育革命:学生用 AI 快速解析百万字文献将不再是梦;

代码开发:AI 真正理解整个代码库的架构,而不只是片段补全;

内容审核:平台能实时分析超长视频的完整上下文,而不只是截取片段。

更重要的是,中国团队这次抢到了算法创新的先手 —— 在注意力机制这个最核心的领域,我们第一次提出了被国际学界认可的基础架构改进。

(没想到,第一次看论文看得这么心潮澎湃的)

X 上的网友已经开启嘲讽模式了:

500

结语

过去几年,大模型的竞争像是 军备竞赛:比参数、比数据量、比显卡数量。但 DeepSeek 的论文揭示了一个趋势:下一阶段的胜负手,在于对基础组件的重新发明。

DeepSeek 这条路子走对了。

就像燃油车时代比的是发动机排量,电动车时代却开始比拼电池管理算法 —— 当行业意识到算力不是唯一壁垒时,真正的创新才刚刚开始。

至于马斯克的 Grok-3?它或许很强大,但至少在今天,这场对话的主动权,握在了重新定义游戏规则的人手里。

500

马斯克用20万张卡练出的Grok 3能超越DeepSeek吗

“2月18日,马斯克所言“地球上最聪明的人工智能”终于亮相,其旗下人工智能公司xAI正式发布其新一代的大语言模型Grok 3,马斯克本人也在社交平台X上同步开启直播演示。

据直播介绍,Grok 3已超越目前市场上所有已发布的人工智能。在官方公布的测试数据中,其在数学推理、科学逻辑推理以及代码写作等方面表现均优于ChatGPT-4o、DeepSeek-V3等竞品。

500

Grok大模型是马斯克旗下的xAI公司推出的人工智能模型,其命名源自美国科幻作家罗伯特·海因莱因的小说《异乡异客》(Stranger in a Strange Land)。该系列第一款大模型Grok 1于2023年11月面世,2024年该模型参数量扩展至3140亿,远超GPT-3.5的1750亿。2024年8月,Grok 2大模型发布,在Grok 1基础上全面升级,并在X平台上面向用户免费使用。而此次直播推出的Grok 3,据工程师表示,其所涉及的训练是Grok 2的10倍,且Grok 3已经在xAI内部运行了2周。

据悉,Grok 3训练所用GPU总量为20万个,在第一阶段通过10万个GPU进行训练,耗时144天,而第二阶段的92天中,所用GPU数量拓展到了20万个。此前据报道,印度已启动一个有超过1.8万个GPU的公共计算设施,将对初创公司、研究人员和开发者开放,以促进其国内人工智能发展以及本国大语言模型的训练。相较之下,xAI的Grok 3训练所用GPU总量已远超印度国家级项目GPU总量10倍不止。庞大的算力规模成为Grok 3加速问世的最大助力,也让xAI在日益激烈的市场竞争底气十足。

在直播活动中,xAI的工程师展示了Grok 3的使用,如现场生成一段太空发射的3D动画的代码、制作一款融合“宝石迷阵”和“俄罗斯方块”的游戏,Grok 3均表现良好,这也证明了该模型对于复杂知识具有良好的理解。马斯克表示,Grok 3的功能比Grok 2强大一个数量级。

500

面对Grok 3的极佳表现,有知名博主Alexandr Wang表示,Grok 3是世界上新的最佳模型,其在聊天机器人竞技场中排名第一,且遥遥领先。Amjad Masad也表示Grok 3似乎是最先进的尖端模型,他认为考虑xAI的处境,该模型的发布无疑是巨大成就。知名播客主持人Lex Fridman同样对该模型印象深刻,表达了对该模型的称赞。

而Grok 3所带来的骚动,实际上比该模型的正式面世要来得早。

此前,DeepSeek在世界范围内掀起热潮。由于DeepSeek-R1模型的优秀表现,以及其代表的低成本训练路线,人们一度开始讨论全球AI话语权的归属问题。尽管人工智能行业尚处于群雄逐鹿的阶段,但是DeepSeek-R1模型无疑为这个世界带来巨大冲击。

继DeepSeek爆火之后,2月13日,OpenAI首席执行官奥特曼发布博文,宣布准备推出GPT-4.5和GPT-5,并公布路线图。

同样在2月13日,马斯克在迪拜世界政府峰会上表示xAI将推出新一代模型Grok 3,并盛赞其“强到让人感到害怕”。而这也引发了人们对Grok 3的猜测,以至于讨论AI话语权可能再度扯向西方。

至此,一场有关人工智能模型的“三国杀”已见雏形。

作为xAI的重要市场竞争对手,OpenAI对Grok 3的反应也引起人们的注意。在今日马斯克的直播活动开始之前,奥特曼在社交平台X发布消息,称GPT-4.5已进入测试阶段,并称其体验“接近通用人工智能(AGI)”,而这一行为被外界视为对Grok 3的紧急“狙击”。

相比于明星产品DeepSeek-R1,“推理+测试时间计算”中,在数学推理、科学逻辑推理和编程三个方面,Grok 3 Reasoning Beta版本综合得分分别为93、85、79,均高于DeepSeek-R1的80、71和65。最新AIME 2025性能测试中,Grok 3 Reasoning Beta版本有93分,高于DeepSeek-R1。前特斯拉人工智能总监、OpenAI创始团队成员Andrej Karpathy通过提前体验指出,Grok 3模型确实可以做到DeepSeek-R1做不到的事。而单纯从测试数据看,Grok 3确实做到了比DeepSeek-R1略好。

尽管Grok 3在测试中成绩优秀,但是仍有分析表现,在 “推理+测试时间计算” 这一测试中,相比于o3-mini(high)或DeepSeek-R1,Grok 3的数学性能并没有显著优势。马斯克表示,Grok 3仍处于早期训练阶段,未来将持续优化。

据了解,自今日起,X平台Premium Plus订阅用户将率先获得Grok 3访问权限。此外,xAI还推出了名为Super Grok的独立订阅服务,但尚未公开定价。马斯克还表示,目前xAI的工程师团队正在训练Grok 3的迷你版本,并指出“迷你版的训练时间更长,有时表现略好于Grok 3推理模型。”

自Grok 3开始,马斯克“再无AI比Grok更优秀”的预言能否成真?以目前AI的更新速度而言,当真难以定论。但就该模型的表现来看,在人工智能的牌局上,马斯克确实甩出了有分量的“大牌”。

来源:网罗灯下黑/虎嗅网

站务

全部专栏