neng8科技快讯网AI人工智能前沿资讯_汽车数码相机评测_手机电脑硬件百科

VQAScore – CMU联合Meta推出的文本到视觉图像生成评估方法

VQAScore – CMU联合Meta推出的文本到视觉图像生成评估方法

VQAScore是CMU和Meta联合推出的评估方法,基于视觉问答(VQA)模型衡量由文本提示生成的图像质量。VQAScore用计算模型对“Does this figure show {text}?”这一问题回答“是”的概率,评估图像与文本提示的对齐程度。VQAScore的核心优势在于无需额外人类标注,直接用现有的VQA模型,用概率值的形式提供更精确的评估结果,超越传统评估指标如CLIPScore
20 0 2025-08-31
LinGen – Meta联合普林斯顿大学推出的文本到视频生成框架

LinGen – Meta联合普林斯顿大学推出的文本到视频生成框架

LinGen是普林斯顿大学和Meta共同推出的新型文本到视频生成框架。框架基于线性复杂度的MATE模块(包含MA-branch和TE-branch),替换传统Diffusion Transformers中的二次复杂度的自注意力模块,实现在单个GPU上高效生成高分辨率、分钟级时长的视频。
18 0 2025-08-29