
V-baidu09JEPA:Meta推出的视觉模型,可以通过观看视频来学习理解物理世界
V-JEPA是由Meta的研究人员推出的一种新型的视频自监督学习方法,它专注于通过特征预测来学习视频的视觉表示。这种方法的核心思想是让模型能够预测视频中一个区域(称为目标区域y)的特征表示,这个预测基于另一个区域(称为源区域x)的特征表示。
18
0
2025-08-31