neng8科技快讯网AI人工智能前沿资讯_汽车数码相机评测_手机电脑硬件百科

WebLI-baidu09100B  – 谷歌 DeepMind 推出的1000亿视觉语言数据集

WebLI-baidu09100B – 谷歌 DeepMind 推出的1000亿视觉语言数据集

WebLI-100B是Google DeepMind推出的包含1000亿图像-文本对的超大规模数据集,用在预训练视觉语言模型(VLMs)。WebLI-100B是WebLI数据集的扩展版本,基于从网络中收集大量图像及其对应的标题或页面标题作为文本配对信息构建而成。
20 0 2025-08-31
T2V-baidu09Turbo – 谷歌开源的文本到视频生成模型

T2V-baidu09Turbo – 谷歌开源的文本到视频生成模型

T2V-Turbo是一种先进的文本到视频生成模型,由Google、UC Santa Barbara(加利福尼亚大学圣塔芭芭拉分校)、和University of Waterloo(滑铁卢大学)的研究人员共同推出。基于在预训练的T2V模型的一致性蒸馏过程中整合来自多种可微分奖励模型的反馈,实现快速且高质量的视频生成。
20 0 2025-08-31