neng8科技快讯网AI人工智能前沿资讯_汽车数码相机评测_手机电脑硬件百科

LongVILA – 面向长视频理解的视觉语言AI模型

admin|
22

LongVILA是一个面向长视频理解的视觉语言AI模型,由英伟达、MIT、UC 伯克利、得克萨斯大学奥斯汀分校共同开发。通过算法和系统的共同设计,实现了在大量GPU上进行超长上下文长度训练的能力,无需梯度检查点。LongVILA能将视频帧数扩展至1024,显著提升了长视频字幕的评分,并在大规模视频字幕任务中实现了99.5%的准确率。还引入了多模态序列并行性(MM-SP)系统,大幅提升了训练效率,能无缝集成Hugging Face Transformers。LongVILA还提出了一个五阶段的训练流程,包括对齐、预训练、短监督微调、上下文扩展和长监督微调。

(图片来源网络,侵删)
(图片来源网络,侵删)