AI工具第18页_拜读未来科技摆渡人生

Vidu

Vidu是由生数科技与清华大学联合发布的中国首个长时长、高一致性、高动态性AI视频生成大模型。基于原创的 Diffusion 与 Transformer 融合的 U-ViT 架构，能一键生成长达 32 秒、分辨率高达 1080P 的高清视频，支持多镜头视角切换、时空连贯性以及丰富的超现实内容创作。

15 0 2025-08-31

Vidu Q1 是清华大学人工智能研究院副院长、生数科技创始人兼首席科学家朱军教授团队推出的高可控视频大模型。支持生成1080p高清视频，画质细腻，细节丰富，能满足5秒视频的生成需求。首尾帧功能升级后，仅需两张图即可生成电影级的自然运镜效果。

19 0 2025-08-31

Vidu 1.5是生数科技推出的AI视频生成平台最新版本，致力于帮助创作者自由表达和高效创作。具备多模态视频大模型，支持参考生视频、图生视频和文生视频，确保角色、物体、场景的一致性。Vidu 1.5能在30秒内生成高清视频，具有强大的语义理解能力，精准实现用户指令。

18 0 2025-08-31

VideoWorld是北京交通大学、中国科学技术大学和字节跳动合作开展的一项研究项目，探索深度生成模型是否能仅通过未标注的视频数据学习复杂的知识，包括规则、推理和规划能力。

22 0 2025-08-31

VideoVAE+（VideoVAE Plus）是香港科技大学团队推出的先进的跨模态视频变分自编码器（Video VAE），通过引入新的时空分离压缩机制和文本指导，实现了对大幅运动视频的高效压缩与精准重建，同时保持了良好的时间一致性和运动恢复。

15 0 2025-08-31

VideoTuna是集成多种AI视频生成模型的代码库，支持文本到视频、图像到视频和文本到图像的转换。VideoTuna提供预训练、持续训练、后训练对齐和微调等全面视频生成流程，支持U-Net和DiT架构，并计划推出3D视频VAE及可控面部视频生成模型。

18 0 2025-08-31

VideoReward 是香港中文大学、清华大学、快手科技等联合创建的视频生成偏好数据集及奖励模型。包含182,000条标注数据，涵盖视觉质量、运动质量和文本对齐三个维度，用于优化视频生成模型。

17 0 2025-08-31

VideoRefer是浙江大学和阿里达摩学院联合推出的，专门用在视频中对象的感知和推理。基于增强视频大型语言模型（Video LLMs）的空间-时间理解能力，让模型能在视频中对任何对象进行细粒度的感知和推理。

19 0 2025-08-31

VideoRAG是用于长视频理解的检索增强生成（Retrieval-Augmented Generation）技术。通过提取视频中的视觉对齐辅助文本，帮助大型视频语言模型（LVLMs）更好地理解和处理长视频内容。

18 0 2025-08-31

VideoPrism是一个由谷歌研究团队开发的通用视频编码器，旨在通过一个单一的冻结模型来处理多种视频理解任务。该模型能够从视频中提取丰富的语义表示，使其能够在不同的视频理解任务中实现高性能和准确率，例如视频分类、定位、检索、描述生成和问答等。

20 0 2025-08-31

VideoPoet是由谷歌的研究团队开发的一种基于大模型的AI视频生成方案，支持从文本、图像或视频输入中合成高质量的视频内容，并生成匹配的音频。VideoPoet的核心优势在于其多模态大模型的设计，无需特定数据集或扩散模型。

18 0 2025-08-31

VideoPhy是UCLA和谷歌研究研究院联合推出的，首个评估视频生成模型物理常识能力的基准测试，能衡量模型生成的视频是否遵循现实世界的物理规则。VideoPhy基准包含688个描述物理互动的字幕，用在从多种文本到视频模型中生成视频，进行人类及自动评估。

18 0 2025-08-31

VideoPainter 是香港中文大学、腾讯ARC Lab、东京大学、澳门大学等机构推出的视频修复和编辑框架，专门用在处理任意长度的视频内容。VideoPainter基于双分支架构，结合轻量级上下文编码器和预训练的扩散模型，实现高效的背景保留和前景生成。

20 0 2025-08-31

VideoMaker是浙江大学、腾讯和华为诺亚方舟实验室共同开发的创新项目，基于视频扩散模型（VDM）的零样本定制视频生成框架。与传统方法不同，VideoMaker无需额外模型即可直接从参考图片中提取和注入主题特征，实现个性化视频内容的一键生成。

20 0 2025-08-31

VideoLingo 是一款一键全自动视频翻译工具，能将视频进行字幕切割、翻译、对齐和配音，最终生成 Netflix 级别的字幕和配音。VideoLingo 基于自然语言处理（NLP）和大型语言模型（LLM）技术，提供智能术语知识库，实现上下文感知翻译。

20 0 2025-08-31

‹‹ ‹ 14 15 16 17 18 19 20 21 22 23 › ››