neng8科技快讯网AI人工智能前沿资讯_汽车数码相机评测_手机电脑硬件百科

VideoPrism – 谷歌研究团队推出的通用视频编码器

admin|
20

VideoPrism是一个由谷歌研究团队开发的通用视频编码器,旨在通过一个单一的预训练模型来处理多种视频理解任务。该模型能够从视频中提取丰富的语义表示,使其能够在不同的视频理解任务中实现高性能和准确率,例如视频分类、定位、检索、描述生成和问答等。

VideoPrism的核心设计理念在于预训练数据和建模策略方面提出了创新,在大规模的异构视频-文本数据集上进行预训练,并采用两阶段训练方法(视频-文本对比学习和掩码视频建模)。

Arxiv研究论文:

(图片来源网络,侵删)

官方项目介绍:

(图片来源网络,侵删)