
联合理解生成的关键拼图?腾讯发布X-Omni:强化学习让离散自回归生成方法重焕生机,轻松渲染长文本图像
联合理解生成的关键拼图?腾讯发布X-Omni:强化学习让离散自回归生成方法重焕生机,轻松渲染长文本图像
在图像生成领域,自回归(Autoregressive, AR)模型与扩散(Diffusion)模型之间的技术路线之争始终未曾停歇。大语言模型(LLM)凭借其基于「预测下一个词元」的优雅范式,已在文本生成领域奠定了不可撼动的地位。然而,当这一范式被应用于视觉领域时,却暴露出诸多瓶颈:生成图像细节失真、语义理解偏差,尤其在复杂文本渲染任务中表现尤为乏力。目前,统一视觉理解和生成的主流研究工作在图像生成部分往往采用扩散模型来建模,使得视觉理解和生成任务依然只是松散的耦合在一起。
20
0
2025-09-02