neng8科技快讯网AI人工智能前沿资讯_汽车数码相机评测_手机电脑硬件百科

清华第三代Sage注意力发布!提速5倍,精度不降,训推都能用

清华第三代Sage注意力发布!提速5倍,精度不降,训推都能用

清华第三代Sage注意力发布!提速5倍,精度不降,训推都能用

清华大学朱军教授团队提出SageAttention3,利用FP4量化实现推理加速,比FlashAttention快5倍,同时探索了8比特注意力用于训练任务的可行性,在微调中实现了无损性能。


注意力机制是大模型的核心,能够很好地捕捉上下文信息,但其复杂度会随输入长度呈二次方增长,导致了现有的生成式模型受到上下文窗口的限制,无法高效处理长文本。


18 0 2025-09-01