DeepSeek梁文锋亲自挂名公开新注意HASH GAME - Online Skill Game ET 300力架构NSA_HASH GAME

DeepSeek梁文锋亲自挂名公开新注意HASH GAME - Online Skill Game ET 300力架构NSA

发布时间：2025-08-17 21:22:01　　点击量：

　　HASH GAME - Online Skill Game GET 300

DeepSeek梁文锋亲自挂名公开新注意HASH GAME - Online Skill Game GET 300力架构NSA

　　最近大模型的突破 —— 如 OpenAI 的 o 系列模型、DeepSeek-R1 和 Gemini 1.5 Pro—— 已经能使得模型能够处理整个代码库、长文档、在数千个 token 上保持连贯的多轮对话，并在长距离依赖关系中进行复杂推理。然而，随着序列长度的增加，普通注意力机制的高复杂性成为关键的延迟瓶颈。理论估计表明，在使用 softmax 架构进行 64k 长度上下文的解码时，注意力计算占总延迟的 70-80%，这凸显了对更高效注意力机制的迫切需求。

　　实现高效长上下文建模的自然方法是利用 softmax 注意力的固有稀疏性，通过选择性计算关键 query-key 对，可以显著减少计算开销，同时保持性能。最近这一路线的进展包括多种策略：KV 缓存淘汰方法、块状 KV 缓存选择方法以及基于采样、聚类或哈希的选择方法。尽管这些策略前景广阔，现有的稀疏注意力方法在实际部署中往往表现不佳。许多方法未能实现与其理论增益相媲美的加速；此外，大多数方法主要关注推理阶段，缺乏有效的训练时支持以充分利用注意力的稀疏模式。

　　研究通过对现实世界语言语料库的综合实验来评估 NSA。在具有 260B token 的 27B 参数 Transformer 骨干上进行预训练，作者评估了 NSA 在通用语言评估、长上下文评估和链式推理评估中的表现。作者还进一步比较了在 A100 GPU 上内核速度与优化 Triton 实现的比较。实验结果表明，NSA 实现了与 Full Attention 基线相当或更优的性能，同时优于现有的稀疏注意力方法。

　　这表明，尽管 NSA 可能无法充分利用其在较短序列上的效率优势，但它依然表现出了强劲的性能。值得注意的是，NSA 在推理相关基准测试中表现出了显著的提升（DROP：+0.042，GSM8K：+0.034），这表明 DeepSeek 的预训练有助于模型发展出专门的注意力机制。通过过滤掉不相关的注意力路径中的噪音，这种稀疏注意力预训练机制可迫使模型专注于最重要的信息，有可能提高性能。在不同评估中的一致表现也证明了 NSA 作为通用架构的稳健性。

【返回列表页】

顶部

网站首页关于hashgame 主营项目 hashgame 设备展示资质荣誉合作伙伴人才招聘在线留言联系hashgame

友情链接：优酷