DeepSeek最新论文：训练速度提升9倍，推理速度快11倍！

歪睿老哥
芯片研发工程师

聚焦芯片行业的那些事，唯武侠与芯片不可辜负02-20 08:04

电子发烧友网报道（文/梁浩斌）周二xAI发布了Grok3，这个马斯克称之为“地球上最聪明的AI”抢占了所有人的眼球。

为了打造最强AI大模型，xAI投入了20万块H100 GPU，计算资源是上一代Grok2的15倍左右。在Benchmarks中，Grok3毫无悬念成功地领先Deepseek R1、o3 mini等对手。

不过用如此大规模的算力集群，花费上一代15倍的计算资源投入，业界认为Grok3的性能只是略微提升了大模型能力上限，实际提升幅度低于算力投入的预期。这或许也预示着大模型的Scaling Laws或许已经出现边际效益递减。

500

来源：X

就在Grok3发布的当天，DeepSeek团队也发表了一篇论文（https://arxiv.org/pdf/2502.11089），介绍了一种新的稀疏注意力机制（Natively Sparse Attention,NSA），用于提升长文本训练和推理的效率，并具备硬件对齐和端到端训练的特性。

截至19日下午，这篇推文在X上已经有超过180万观看量。值得一提的是，DeepSeek创始人梁文锋也出现在这篇论文的作者名单中。下面我们就来看一下这篇论文有哪些创新点。

核心理念：用更少的计算做更多的事

在大语言模型（LLM）发展的初期，曾经有一段时间处理长文本是考量不同模型性能的指标之一。因为传统LLM在处理长文本时要面临的一个问题是，计算成本过高。

为什么计算成本高？这主要是因为LLM此前使用的“全注意力”机制需要计算每个词与其他所有词之间的关系，当文本长度增加时，这种计算量会以指数级别增加，导致高延迟和高能耗，大幅增加了计算成本。比如要处理一本十万字的书时，传统方法需要计算这十万字中所有词之间的两两关系，这会让计算速度变得极为缓慢，甚至根本无法完成任务。

为了解决这个问题，实际上稀疏注意力（Sparse Attention）机制一直在LLM中被应用。稀疏注意力的核心思想是，不需要计算所有词之间的关系，只需要关注那些最重要的部分。通过这种方式实现“偷懒”，可以大大减少计算量，同时保持模型性能。

但现有的稀疏注意力机制也存在一些问题，比如在推理端，尽管理论上计算量是减少了，但实际推理速度没有明显加快；而在训练端，现有的稀疏注意力机制在训练端效果都不太好，只适用于推理阶段。

所以这次DeepSeek团队推出的NSA就是为了解决现有稀疏注意力机制的缺点，提高计算效率。

具体来看，NSA主要通过对文本的处理和硬件优化两大方面实现。在文本处理方面，NSA采用分层稀疏策略，首先是将文本进行粗粒度压缩，即将长文本分成多个块，比如每32个词为一个块，然而用机器学习模型提取每个块的摘要，减少计算量。

然后对文本进行细粒度选择，即动态筛选出对当前任务最关键的几个块，比如通过注意力评分选出16个块，只计算这些块的详细信息。

最后保留局部的上下文，比如最近的512个词，来确保模型能够捕捉到上下文中短期的关系。

这个过程可以用阅读书本来理解。比如你想看一本很厚的书，但没有时间逐个字去看，那么你会通过哪些方法去了解这本书里的内容？上面提到的粗粒度压缩，就相当于是将这本书快速翻阅一下，每页都只是一眼扫过，大致了解内容；而细粒度选择，就相当于标记出书里比较重要的章节和段落；最后仔细阅读标记出来的部分，同时也能简单看一下标记部分的上下文内容，这样对于快速阅读一本书而言显然会是一个有效的方式。

而在硬件优化方面，NSA首先是将数据按连续块加载到GPU的内存中，减少随机访问的开销，实现分块内存访问；在解码阶段，令多个注意力头共享相同的键值缓存，降低内存带宽需求；在训练阶段，直接引入稀疏性，确保模型学会如何有效利用稀疏结构，实现端到端训练。

DeepSeek在使用NSA进行验证时，实际效果也相当喜人。首先是模型的训练和推理速度都有明显的提升，在64k长度的文本处理中，使用英伟达A100 GPU，NSA的推理速度比传统注意力快11.6倍，训练速度提升6-9倍。

同时在知识问答（MMLU）、代码生成（HumanEval）、长文本理解（LongBench）等任务中，NSA的性能与全注意力模型相当甚至更好。证明NSA在提高效率的同时，依然可以保持良好的模型性能。

通过适配GPU的Tensor Core和内存架构，NSA也能最大化硬件利用率。NSA首次将分层稀疏策略与GPU内存层级（HBM→SRAM）对齐，实现理论计算节省与实际加速的统一。

所以总结下来，NSA的出现解决了稀疏注意力机制在实际应用中的两大难题。在推理效率上，NSA显著加快长文本处理速度，令大模型能够处理更多超长文本任务；在训练上，NSA相比传统的稀疏注意力机制，可以更好地支持模型训练。

更重要的是，NSA证明了稀疏注意力不是只能被用于推理，还能在训练上应用，这能够为下一代低功耗、高吞吐的LLM部署提供了关键技术基础。

Kimi同步发布MoBA论文，提高长文本处理效率

500

来源：X

DeepSeek发布论文的同一天，Kimi也发布了与NSA类似的MoBA，同样采用了稀疏注意力的机制，旨在解决大语言模型处理长上下文时计算成本过高的问题。（论文链接https://github.com/MoonshotAI/MoBA/blob/master/MoBA_Tech_Report.pdf）

不过于NSA不同的是，MoBA借鉴了“专家混合”（MoE）的理念，把整个文本分成多个“块”，然后通过一种“选择机制”决定每个查询应该关注哪些块。这种方式类似于让模型自己决定“哪些部分更重要”，而不是预先设定固定的规则。

MoBA的核心是“动态选择”，即通过一个“门控机制”来决定哪些块需要被关注。这种方式让模型可以根据任务需求灵活调整注意力范围。

同时在硬件优化上，结合了FlashAttention技术，进一步提升了计算效率。通过分布式计算解决了GPU内存限制的问题，可以轻松扩展到1000万词以上的超长序列。超长文本也是MoBA最显著的特性之一。

小结

目前大模型Scaling Laws已经开始出现边际效益递减的迹象，未来提高算力利用率可能是推动大模型应用普及的关键方向。但随着AI应用的不断普及，算力需求整体来看依然是会继续增长，大模型想要继续发展，继续投入算力硬件的回报或许不会再有显著提升，各大研究机构和公司还需要寻找更多新的突破。

500

声明：本文由电子发烧友原创

科技举报

歪睿老哥

聚焦芯片行业的那些事，唯武侠与芯片不可辜负 |

199篇文章 | 216人关注

+关注

观察者网用户社区

作者文章查看全部>>

热门搜索

搜索历史

DeepSeek最新论文：训练速度提升9倍，推理速度快11倍！

歪睿老哥
芯片研发工程师

歪睿老哥

热点

站务

观察者网评论

请你来预测，2025年这些期待是否会发生？

风闻社区小助手_小风

风闻“投资者保护”：守护你的财富，共筑理性投资路

最近更新的专栏

风闻最热

全部专栏

热门搜索

搜索历史

DeepSeek最新论文：训练速度提升9倍，推理速度快11倍！

歪睿老哥 芯片研发工程师

热点

站务

最近更新的专栏

风闻最热

全部专栏

歪睿老哥
芯片研发工程师