
MetaMorph – 统一多模态理解与生成大模型,基于VPiT 预测多模态 token
MetaMorph是多模态大模型(MLLM),通过指令微调(Instruction Tuning)实现视觉理解和生成。它提出了一种名为Visual-Predictive Instruction Tuning(VPiT)的方法,使得预训练的大型语言模型(LLM)能够快速转变为一个统一的自回归模型,能生成文本和视觉token。
21
0
2025-08-30