DeepSeek于2025年2月18日发布的最新论文名为《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》(简称NSA),该论文提出了一种创新的稀疏注意力机制,旨在解决传统大语言模型(LLM)在处理长文本时的高计算成本问题。
论文核心创新点
1. 硬件对齐与本地可训练性
NSA通过动态分层稀疏策略优化设计,显著提升了大模型的训练和推理效率,同时降低了对GPU显存和硬件性能的要求。其硬件对齐系统支持高效部署,训练感知设计则实现了端到端的可训练性。
2.“三合一”注意力处理路径
压缩(Compression):将长文本分块并提取摘要,减少计算量;
选择(Selection):通过查询令牌(query token)筛选相关性最高的模块,保留细粒度信息;
滑动窗口(Sliding Window):捕获局部上下文,补充全局信息,确保模型准确性。
3. 性能突破
解码速度提升11.6倍,正向传播和反向传播阶段分别提速9倍和6倍;
在64k长度的长序列处理任务中,NSA的计算效率全面超越传统全注意力机制(Full Attention)。
4. 国产化算力支持
论文中提到的Triton框架兼容CUDA、ROCm、CANN等多种GPU平台,为国产芯片(如华为昇腾)的算力适配提供了可能性,可能缓解国产大模型对进口GPU的依赖。
学术与产业意义
NSA首次证明了稀疏注意力机制可同时用于训练和推理阶段,为低功耗、高吞吐的大模型部署奠定了基础。其开源设计也推动了全球AI社区在长文本处理与算力优化方向的技术进步。
点击链接查看原文
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...