DeepSeek R2还没来，但DeepSeek下一代模型的更新，已经提前在今年的ACL最佳论文中“剧透”了。

昨天，全球自然语言处理领域的顶级会议ACL公布了今年的最佳论文。

这个会议堪称自然语言处理领域的“世界杯”，不仅是未来一两年大语言模型的风向标，而且从这里走出的顶尖技术，往往会迅速被全行业采纳。当年颠覆了整个AI领域的Transformer架构，最初就是在这里崭露头角的。

而今年，一篇由DeepSeek和北京大学联合完成的论文斩获了“最佳论文奖”：《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》。

从标题就能看出，这是一篇非常硬核的技术论文，关键词密度拉满：Sparse Attention（稀疏注意力）、Hardware-Aligned（硬件对齐）、Trainable（可训练）……

但即便如此，它依然值得所有关注大模型未来的人认真读一遍，因为它首次把稀疏注意力从理论推理带进了完整训练流程，在保持模型性能的同时，还带来了高达11倍的推理加速。

论文第一作者北京大学硕转博研究生袁境阳（左三），导师张铭（右一），图片来源：X @aclmeeting

对DeepSeek来说，这不仅是一次学术认可，更可能是下一代模型落地的技术预演。

为什么“长文本”这么难？AI的“注意力涣散症”

要理解DeepSeek这个技术的牛X之处，得先知道现在大模型处理长文本的“痛”。

目前，所有大模型的核心技术之一都叫“注意力机制”（Attention），这也是大语言模型的奠基之作“Attention Is All You Need”。

关于注意力机制，你可以把它想象成一个学生在课堂上听讲。

传统的“全注意力”（Full Attention）机制，就像一个记忆力超群但效率极低的学生。老师每说一个新词（Query），他都要把这个词和从开学第一天到现在说过的每一个词（Keys/Values）都重新比对一遍，来理解新词的含义。

论文中的对比图显示，NSA（红色）在各项基准测试中性能均优于或持平全注意力（橙色），同时在解码、前向和后向传播等各个阶段都实现了巨大的速度提升。

当文本很短时，这没问题。

但当文本长达几十万字时，这种“每个字都和前面所有字比对”的计算量会呈平方级暴增。这不仅让模型响应变得巨慢，训练和推理的成本也高到离谱。

这就是为什么我们现在用的大模型，虽然上下文窗口越来越大，但一旦接近极限，速度就会明显变慢，API价格也更贵。

论文里面也提到传统的注意力机制，在64k上下文长度下，softmax attention（传统注意力机制中的一个模块）的计算占据了整个推理延迟的70%–80%。

DeepSeek的解法：像人一样“抓重点”

为了解决这个问题，过去一段时间，诞生了各种稀疏attention技术。

从这个月Kimi K2技术报告里面提到，使用自动调节的QK-Clip机制，做到“万亿总参数，激活参数仅百亿，保持在训练友好的稀疏度”。

到Manus在这个月也发布了一篇博客，提到了“六大上下文工程法则”，提高KV-Cache命中率，用文件系统承载持久上下文。

2024年的一篇论文提到当时的大语言模型上下文长度情况

但无论是token距离限制，还是KV cache剪枝，它们大多都还有两个问题：

1. 只能用在推理阶段，训练阶段还得用full attention。
2. 稀疏注意力在理论上快，但实际跑得慢，尤其是在多卡部署、A100/V100上。

科学家们提出了“稀疏注意力”（Sparse Attention），想法很简单：没必要看每一个字，只关注重要的部分就行。但这说起来容易做起来难，很多旧方法要么是速度提不上去，要么是丢掉了关键信息导致性能下降。

图片来源：X @casper_hansen_

而DeepSeek和北大的这篇最佳论文提出的NSA（Natively Sparse Attention，原生稀疏注意力）就是解决这些问题。它的核心思想是模仿人类阅读长篇报告时的智慧：

粗读摘要（Token Compression）：首先，NSA会将长文本中较早的内容打包成一个个“压缩块”，像阅读章节摘要一样，快速把握全局的粗略信息。这保证了模型不会忘记百八十页之前提到的关键前提。
精读重点（Token Selection）：在理解了全局大意后，模型会根据当前需要处理的内容，回头去“选中”之前那些最相关的原文细节块进行精读。比如，在回答关于第三章的问题时，就重点去看第三章的原文，而不是全文扫视。
强记最近（Sliding Window）：就像我们总能清晰记得刚刚读过的那几段话，NSA也会专门保留一个“滑动窗口”，对最近的上下文信息保持最精细的注意力。

NSA架构概述图，NSA像一个聪明的读者，通过三种方式（Compression压缩、Selection选择、Sliding滑动窗口）来处理信息，并通过一个“门控”机制动态决定哪部分信息更重要。

最妙的是，NSA通过一个“门控机制”动态地学习如何平衡这三种阅读策略。

此外，NSA是“原生可训练”的，意味着模型从预训练开始就在学习这种高效的注意力分配方法，而不是等模型长大了（推理阶段）再强行给它加装一个稀疏机制。

这使得NSA的稀疏模式和模型的其他部分能够完美协同，最终实现了性能和效率的双重飞跃。

实测结果：训练更快，推理更强，性能不降反升

DeepSeek在论文中用详尽的实验数据证明了NSA的强大实力。

性能不降反升：在MMLU、GSM8K等一系列通用知识、推理和代码能力的标准测试中，搭载了NSA的27B模型在9项指标中的7项都击败了传统的全注意力模型。

尤其在考验推理能力的DROP和GSM8K测试中，提升显著。这说明，通过稀疏化滤除噪声信息，反而可能让模型更专注于关键逻辑。

长文本理解能力拔尖：在经典的“大海捞针”测试中，NSA在64k（约8万字）的超长文本中做到了100%的信息检索准确率，无论信息藏在哪个角落都能精准找到。

在更复杂的LongBench评测中，NSA的平均分也超越了包括全注意力在内的大部分基线方法。

速度快到飞起：这是最令人兴奋的部分。与目前最高效的全注意力实现FlashAttention-2相比，NSA在处理64k长度的序列时：

基于Triton的NSA内核与基于Triton的FlashAttention-2内核的比较。NSA的实现显著降低了所有上下文长度下的延迟，并且随着输入长度的增加，改进效果更加明显。

训练速度：前向计算加速9.0倍，反向传播加速6.0倍。这意味着训练新模型的效率大大提高。
推理速度：用户最关心的生成回复阶段（解码），速度提升了惊人的11.6倍。

这意味着，过去你需要等半分钟才能获得的长篇分析，未来可能几秒钟就搞定了。

DeepSeek的未来：更快、更强、更便宜？

上下文长度正在成为大模型新能力的战场。无论是跨文件代码补全、长文档摘要，还是多轮复杂对话，模型都需要在10万甚至百万Token级别的上下文中快速定位、理解、推理。

这项由DeepSeek和北大的研究员主导完成的研究，几乎可以肯定，NSA技术将成为未来DeepSeek系列大模型的核心竞争力之一。

NSA Kernel设计，保证了GPU总是在其最快的内存上进行计算

NSA已经跑完了在27B、MoE架构上的完整预训练验证，训练框架也基于DeepSeek自研的MoE系统，兼容GQA架构、FlashAttention-2内核，并使用Triton（英伟达开源的推理服务框架）重写了关键kernel。

这意味着，它不仅仅是一个“可以做”的研究，而是一个“准备好落地”的系统模块。

对于我们普通用户来说，未来可以直接将整本书、几十份财报、一个完整的GitHub项目代码库扔给AI，让它进行深度分析、总结和问答，而无需手动拆分。

DeepSeek的响应速度也会更快，而计算效率的巨大提升，最终会传导到API的价格上，我们的使用成本也会更低。

部分模型定价对比，图片来源：https://artificialanalysis.ai/

从“价格屠夫”到技术引领者，DeepSeek正在通过像NSA这样坚实的技术创新，一步步构建自己的护城河。

这看起来不仅是学术界的胜利，更是整个AI应用生态即将迎来又一次提速的号角。

接下来就拭目以待，看看搭载了“原生稀疏注意力”的下一代DeepSeek大模型，会给我们带来怎样的惊喜。

论文地址：https://arxiv.org/abs/2502.11089

R2还没来，但DeepSeek的秘密武器已经“剧透”了