neng8科技快讯网AI人工智能前沿资讯_汽车数码相机评测_手机电脑硬件百科

「世界模型」也被泼冷水了?邢波等人揭开五大「硬伤」,提出新范式

「世界模型」也被泼冷水了?邢波等人揭开五大「硬伤」,提出新范式

「世界模型」也被泼冷水了?邢波等人揭开五大「硬伤」,提出新范式

现在的世界模型,值得批判。


我们知道,大语言模型(LLM)是通过预测对话的下一个单词的形式产生输出的。由此产生的对话、推理甚至创作能力已经接近人类智力水平。


但目前看起来,ChatGPT 等大模型与真正的 AGI 还有肉眼可见的差距。如果我们能够完美地模拟环境中每一个可能的未来,是否就可以创造出强大的 AI 了?回想一下人类:与 ChatGPT 不同,人类的能力组成有具体技能、深度复杂能力的区分。

19 0 2025-09-03
视频世界模型JEPA‑2与Meta AI的具身智能系统

视频世界模型JEPA‑2与Meta AI的具身智能系统

视频世界模型JEPA‑2与Meta AI的具身智能系统

01 Meta AI JEPA-2模型与主流视觉感知模型对比分析


JEPA-2(V-JEPA 2)是Meta最新推出的视频世界模型,采用视图嵌入预测(Joint Embedding Predictive Architecture)框架进行自监督预训练。JEPA-2使用基于视觉Transformer的架构(参数规模约1.2亿至12亿级别),在第一阶段对千小时以上的网络视频和图像进行无监督预训练,在掩码后预测嵌入表示;第二阶段用约62小时的机器人交互视频及动作数据进行微调,使模型具备动作条件预测能力。MAE(Masked Autoencoder)是由He等人提出的视觉自编码器方法,采用不对称的ViT编码器–解码器结构:在输入图像中随机遮盖75%的补丁,仅对可见补丁编码,并通过轻量解码器重构缺失像素。DINOv2是Meta提出的自监督视觉Transformer方法,它通过学生-教师蒸馏的方式,在超过1亿张精心筛选的图像上训练,生成通用视觉特征。下表对比了几种主流模型的架构、训练数据和自监督策略:

17 0 2025-09-02
Vid2World – 清华联合重庆大学推出视频模型转为世界模型的框架

Vid2World – 清华联合重庆大学推出视频模型转为世界模型的框架

Vid2World是清华大学联合重庆大学推出的创新框架,支持将全序列、非因果的被动视频扩散模型(VDM)转换为自回归、交互式、动作条件化的世界模型。模型基于视频扩散因果化和因果动作引导两大核心技术,解决传统VDM在因果生成和动作条件化方面的不足。
20 0 2025-08-31