模型小视频_拜读未来科技摆渡人生

视频世界模型JEPA‑2与Meta AI的具身智能系统

01 Meta AI JEPA-2模型与主流视觉感知模型对比分析

JEPA-2（V-JEPA 2）是Meta最新推出的视频世界模型，采用视图嵌入预测（Joint Embedding Predictive Architecture）框架进行自监督预训练。JEPA-2使用基于视觉Transformer的架构（参数规模约1.2亿至12亿级别），在第一阶段对千小时以上的网络视频和图像进行无监督预训练，在掩码后预测嵌入表示；第二阶段用约62小时的机器人交互视频及动作数据进行微调，使模型具备动作条件预测能力。MAE（Masked Autoencoder）是由He等人提出的视觉自编码器方法，采用不对称的ViT编码器–解码器结构：在输入图像中随机遮盖75%的补丁，仅对可见补丁编码，并通过轻量解码器重构缺失像素。DINOv2是Meta提出的自监督视觉Transformer方法，它通过学生-教师蒸馏的方式，在超过1亿张精心筛选的图像上训练，生成通用视觉特征。下表对比了几种主流模型的架构、训练数据和自监督策略：

17 0 2025-09-02

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30