
豆包团队视频生成新突破:无需语言模型,仅凭“视觉”就能学习复杂任务
豆包团队视频生成新突破:无需语言模型,仅凭“视觉”就能学习复杂任务
现有的视频生成模型,大多依赖语言或标签数据学习知识,很少涉及纯视觉信号的学习,比如Sora。
然而,语言并不能捕捉真实世界中的所有知识,例如,折纸、打领结等复杂任务难以通过语言清晰表达。
那么,模型能否不依赖语言模型,从纯视觉视角学习知识、认知世界进而掌握推理和规划等能力?
现在,豆包大模型团队联合北京交通大学、中国科学技术大学提出了VideoWorld。
15
0
2025-09-05