析读！马斯克刚掏出一把AK47，隔壁中国团队就扔出了一颗氢弹

大眼联盟

昨天 10:24

昨天，科技圈的瓜田里炸出了一颗核弹——不是马斯克的Grok-3（虽然这哥们儿刚在直播间里掏出一把号称“地球最聪明AI”的AK47，还烧了20万块GPU把服务器烤得滋滋冒油），而是中国团队DeepSeek甩出的一篇纯技术论文，标题朴实无华，内容硬核到能砸穿地板：[《NSA：一种让AI长跑不喘气的“作弊器”》]

这哪是论文？分明是码农写给算力的情书！

500

---

1.当马斯克在秀肌肉，中国团队在秀脑回路

马斯克直播Grok-3时，全网都在数他用了多少块显卡，仿佛在看一场“烧钱行为艺术”。而DeepSeek的论文，直接甩出一句：“别卷显卡了，咱换个姿势。”

他们搞了个叫NSA（原生稀疏注意力）的机制，把传统AI处理长文本的“蛮力硬扛”变成了“庖丁解牛”——分三刀砍向算力黑洞：

- 压缩（把废话筛掉）、

- 选择（挑重点盯梢）、

- 滑动窗口（边跑边瞄局部细节）。

结果？长文本处理速度飙了11.6倍，预训练成本还打了对折。用网友的话说：“这属于薅资本主义算力羊毛，还顺手织了件毛衣。”

500

---

2. “开挂”的秘诀：把代码写成诗

DeepSeek的论文读起来像极了一首极简主义码农诗：

> “我们不造轮子，我们只造火箭推进器。”

他们干了两件反直觉的事：

- 硬件对齐设计：让算法和GPU“谈恋爱”，内存访问比德芙还丝滑；

- 动态分层策略：像给AI装了个“智能探照灯”，全局扫描和局部抠细节两不误。

最骚的是，这玩意儿在通用任务上居然比全注意力模型还强，仿佛一个学霸说“我复习时间比你少，但分数比你高”——气得同行想摔键盘。

500

---

3. “推理不用人教，AI自学成精”

论文里藏了个更颠覆的彩蛋：GRPO算法。传统强化学习得配个“监工”（Critic模型）盯着AI干活，而DeepSeek大手一挥：“要啥监工？让AI自己卷自己！”

原理简单到像小学生分组PK：

- 一道题生成4个答案，组内互相打分；

- 分高的晋级，分低的滚去重练。

结果？模型自己悟出了“如何用最少步骤解方程”，还能把推理过程写得像数学课代表的笔记。网友锐评：“这不就是AI版的《葵花宝典》？欲练此功，不用自宫！”

500

---

4. 行业地震：从“刷榜狂魔”到“技术菩萨”

DeepSeek这波操作，直接让港股概念股集体高潮（出门问问暴涨16%，美图飙了10%），而更深远的影响藏在论文最后一页：“我们将开源NSA架构。”

翻译成人话：“友商们，作业在此，抄不抄随你。”

广电行业已经摩拳擦掌，打算用NSA批量生产短视频脚本和论文解读，连“智能秧歌机器人”都可能因此扭得更带感。难怪有投资人连夜发朋友圈：“以前觉得AI是吞金兽，现在看它像印钞机。”

500

---

写在最后：一场“暴力美学”的技术狂欢

马斯克用20万块GPU堆出的Grok-3，像极了土豪炫富；而DeepSeek的NSA，则像极客用一支圆珠笔撬动了地球。

论文末尾那句“未来将持续探索优化方向”，翻译过来大概是：“这才第一集，下集更炸。”

今夜，我们都是DeepSeek的自来水。

（完）

---

彩蛋：论文附录里藏了句程序员冷笑话——

> “为什么叫NSA？

> 因为‘No Slow Attention’（拒绝慢吞吞的注意力）。”

冷吗？冷就对了。技术宅的浪漫，从来不需要解释。

硅基人零号

国际科技社会举报

大眼联盟

9243篇文章 | 1726人关注

+关注

观察者网用户社区

作者文章查看全部>>

热门搜索

搜索历史

析读！马斯克刚掏出一把AK47，隔壁中国团队就扔出了一颗氢弹

大眼联盟

大眼联盟

热点

站务

观察者网评论

请你来预测，2025年这些期待是否会发生？

风闻社区小助手_小风

观网正在参加一个评选，观友们可以帮忙投投票吗

最近更新的专栏

风闻最热

全部专栏