neng8科技快讯网AI人工智能前沿资讯_汽车数码相机评测_手机电脑硬件百科

DeepSeek推出NSA机制,加速长上下文训练与推理

DeepSeek推出NSA机制,加速长上下文训练与推理

近日,DeepSeek公司宣布推出一种全新的稀疏注意力机制——NSA(Native Sparse Attention)。据DeepSeek介绍,NSA旨在与现代硬件实现高度一致,并且具备本机可训练的特性,专为超快速的长上下文训练和推理而设计。 NSA通过针对现代硬件的优化设计,显著加快了推理速度,并大幅度降低了预训练成本,同时保持了卓越的性能表现。这一机制在确保效率的同时,并未牺牲模型的准确性或功能。 在广泛的基准测试、涉及长上下文的任务以及基于指令的推理场景中,NS
25 0 2025-08-27