联合pr_拜读未来科技摆渡人生

VQAScore – CMU联合Meta推出的文本到视觉图像生成评估方法

VQAScore是CMU和Meta联合推出的评估方法，基于视觉问答（VQA）模型衡量由文本提示生成的图像质量。VQAScore用计算模型对“Does this figure show {text}?”这一问题回答“是”的概率，评估图像与文本提示的对齐程度。VQAScore的核心优势在于无需额外人类标注，直接用现有的VQA模型，用概率值的形式提供更精确的评估结果，超越传统评估指标如CLIPScore

20 0 2025-08-31

LinGen – Meta联合普林斯顿大学推出的文本到视频生成框架

LinGen是普林斯顿大学和Meta共同推出的新型文本到视频生成框架。框架基于线性复杂度的MATE模块（包含MA-branch和TE-branch），替换传统Diffusion Transformers中的二次复杂度的自注意力模块，实现在单个GPU上高效生成高分辨率、分钟级时长的视频。

18 0 2025-08-29

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30