
谷歌Transformer过时了?清华姚班校友等三连击,爆改注意力!
谷歌Transformer过时了?清华姚班校友等三连击,爆改注意力!
谷歌又有新的注意力了!
他们提出的新架构参数减少40%,训练速度较RNN提升5-8倍,在某些任务上性能甚至Transformer好7.2%!
在大语言模型(LLMs)中,他们引入了新的注意力偏向策略,并重新构想了「遗忘」这一过程,用「保留」来取而代之。
12
0
2025-09-05