neng8科技快讯网AI人工智能前沿资讯_汽车数码相机评测_手机电脑硬件百科

4比特量化三倍加速不掉点!清华即插即用的SageAttention迎来升级

4比特量化三倍加速不掉点!清华即插即用的SageAttention迎来升级

4比特量化三倍加速不掉点!清华即插即用的SageAttention迎来升级

论文共同第一作者张金涛、黄浩峰分别来自清华大学计算机系和交叉信息研究院,论文通讯作者陈键飞副教授及其他合作作者均来自清华大学计算机系。


大模型中,线性层的低比特量化已经逐步落地。然而,对于注意力模块,目前几乎各个模型都还在用高精度(例如 FP16 或 FP32)的注意力运算进行训练和推理。并且,随着大型模型需要处理的序列长度不断增加,Attention(注意力运算)的时间开销逐渐成为主要开销。

17 0 2025-09-01