谷歌preview_拜读未来科技摆渡人生

VideoPrism – 谷歌研究团队推出的通用视频编码器

VideoPrism是一个由谷歌研究团队开发的通用视频编码器，旨在通过一个单一的冻结模型来处理多种视频理解任务。该模型能够从视频中提取丰富的语义表示，使其能够在不同的视频理解任务中实现高性能和准确率，例如视频分类、定位、检索、描述生成和问答等。

20 0 2025-08-31

VideoPoet – 谷歌推出的AI视频生成模型

VideoPoet是由谷歌的研究团队开发的一种基于大模型的AI视频生成方案，支持从文本、图像或视频输入中合成高质量的视频内容，并生成匹配的音频。VideoPoet的核心优势在于其多模态大模型的设计，无需特定数据集或扩散模型。

18 0 2025-08-31

ScreenAI – 谷歌推出的可读屏AI视觉模型，可理解UI和信息图表

ScreenAI是一个由谷歌的研究团队推出的可读屏AI视觉语言模型，专门设计用于理解和处理用户界面（UI）和信息图表。该模型基于PaLI架构结合了视觉和语言处理的能力，并借鉴了Pix2Struct的灵活拼贴策略，使其能够理解和生成与屏幕UI元素相关的文本，如问题回答、UI导航指令和内容摘要。

21 0 2025-08-30

Motion Prompting – 谷歌联合密歇根和布朗大学推出的运动轨迹控制视频生成模型

Motion Prompting是 Google DeepMind、密歇根大学和布朗大学联合推出的视频生成技术，基于运动轨迹（motion trajectories）控制和引导视频内容的生成。Motion Prompting用点轨迹作为灵活的运动表示，能编码从单个点到全局场景的任意复杂度的运动。用户能设计“运动提示”（motion prompts），类似于文本提示，激发视频模型的不同能力，包括对象控制、相机控制、物理现象模拟等。

14 0 2025-08-30

‹‹ 1 ››

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30