neng8科技快讯网AI人工智能前沿资讯_汽车数码相机评测_手机电脑硬件百科

CoGenAV – 通义联合深圳技术大学推出的多模态语音表征模型

admin|
20

CoGenAV(Contrastive-Generative Audio-Visual Representation Learning)是先进的多模态学习模型,专注于音频和视觉信号的对齐与融合。通过对比特征对齐和生成文本预测的双重目标进行训练,利用同步音频、视频和文本数据,学习捕捉时间对应关系和语义信息。CoGenAV仅需223小时的标记数据即可训练,展现出极高的数据效率。

(图片来源网络,侵删)
(图片来源网络,侵删)