neng8科技快讯网AI人工智能前沿资讯_汽车数码相机评测_手机电脑硬件百科

豆包团队视频生成新突破：无需语言模型，仅凭“视觉”就能学习复杂任务

豆包团队视频生成新突破：无需语言模型，仅凭“视觉”就能学习复杂任务

豆包团队视频生成新突破：无需语言模型，仅凭“视觉”就能学习复杂任务

现有的视频生成模型，大多依赖语言或标签数据学习知识，很少涉及纯视觉信号的学习，比如Sora。

然而，语言并不能捕捉真实世界中的所有知识，例如，折纸、打领结等复杂任务难以通过语言清晰表达。

那么，模型能否不依赖语言模型，从纯视觉视角学习知识、认知世界进而掌握推理和规划等能力？

现在，豆包大模型团队联合北京交通大学、中国科学技术大学提出了VideoWorld。

15 0 2025-09-05

‹‹ 1 ››

« 2026年6月 »
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

控制面板

您好，欢迎到访网站！
查看权限

搜索

最近发表