
视频世界模型JEPA‑2与Meta AI的具身智能系统
视频世界模型JEPA‑2与Meta AI的具身智能系统
01 Meta AI JEPA-2模型与主流视觉感知模型对比分析
JEPA-2(V-JEPA 2)是Meta最新推出的视频世界模型,采用视图嵌入预测(Joint Embedding Predictive Architecture)框架进行自监督预训练。JEPA-2使用基于视觉Transformer的架构(参数规模约1.2亿至12亿级别),在第一阶段对千小时以上的网络视频和图像进行无监督预训练,在掩码后预测嵌入表示;第二阶段用约62小时的机器人交互视频及动作数据进行微调,使模型具备动作条件预测能力。MAE(Masked Autoencoder)是由He等人提出的视觉自编码器方法,采用不对称的ViT编码器–解码器结构:在输入图像中随机遮盖75%的补丁,仅对可见补丁编码,并通过轻量解码器重构缺失像素。DINOv2是Meta提出的自监督视觉Transformer方法,它通过学生-教师蒸馏的方式,在超过1亿张精心筛选的图像上训练,生成通用视觉特征。下表对比了几种主流模型的架构、训练数据和自监督策略:
17
0
2025-09-02