
华为GTS LocMoE+:高可扩展性亲和度 MoE 架构,低开销实现主动路由
华为GTS LocMoE+:高可扩展性亲和度 MoE 架构,低开销实现主动路由
MoE 因其在训推流程中低销高效的特点,近两年在大语言模型领域大放异彩。作为 MoE 的灵魂,专家如何能够发挥出最大的学习潜能,相关的研究与讨论层出不穷。此前,华为 GTS AI 计算 Lab 的研究团队提出了 LocMoE ,包括新颖的路由网络结构、辅助降低通信开销的本地性 loss 等,引发了广泛关注。
LocMoE 的上述设计有效缓解了部分 MoE 经典结构在训练中的瓶颈,如: 专家路由算法可能无法有效区分 token,以及通信同步效率受限于节点内和节点间的传输带宽差异等。此外,LocMoE 证明并求解出在能够成功处理判别性 token 的前提下专家容量的下限。该下限是根据 token 被动派发给专家的场景下,判别性 token 存在于 token 批次中的概率分布而得出。那么,如果专家同样具备择优 token 的能力,判别性 token 被处理的概率将大幅提高,专家容量下限将能进一步压缩。
18
0
2025-09-02