
图像分词器造反了!华为 Selftok:自回归内核完美统一扩散模型,触发像素自主推理
图像分词器造反了!华为 Selftok:自回归内核完美统一扩散模型,触发像素自主推理
自回归(AR)范式凭借将语言转化为离散 token 的核心技术,在大语言模型领域大获成功
—— 从 GPT-3 到 GPT-4o,「next-token prediction」以简单粗暴的因果建模横扫语言领域。但当我们将目光转向视觉生成,却发现这条黄金定律似乎失效了……
现有方案硬生生将图像网格化为空间 token,强行塞入自回归架构。
18
0
2025-09-02