
ICML 2025 - 注意力机制中的极大值:破解大语言模型上下文理解的关键
ICML 2025 | 注意力机制中的极大值:破解大语言模型上下文理解的关键
大型语言模型(LLMs)在上下文知识理解方面取得了令人瞩目的成功。
近日,一项来自 ICML 2025 的新研究《Massive Values in Self-Attention Modules are the Key to Contextual Knowledge Understanding》揭示了大型语言模型中一个重要现象:在注意力机制的查询 (Q) 和键 (K) 表示中存在非常集中的极大值,而在值 (V) 表示中却没有这种模式。这一现象在使用旋转位置编码 (RoPE) 的现代 Transformer 模型中普遍存在,对我们理解 LLM 内部工作机制具有重要意义。
14
0
2025-09-01