AI工具第20页_拜读未来科技摆渡人生

Video-baidu09LLaVA2 – ChatLaw推出的开源多模态智能理解系统

Video-LLaVA2是由北京大学ChatLaw课题组研发的开源多模态智能理解系统，通过创新的时空卷积（STC）连接器和音频分支，提升了视频和音频理解能力。模型在视频问答和字幕生成等多个基准测试中表现出色，与一些专有模型相媲美，同时在音频和音视频问答任务中也展示了优越的多模态理解能力。

16 0 2025-08-31

Video Alchemist是Snap公司等推出的新型视频生成模型，具备多主体、开放集合个性化能力，能根据文本提示和参考图像生成视频，无需在测试时进行优化。模型基于Diffusion Transformer模块，通过双重交叉注意力层将参考图像嵌入和主体级文本提示融入视频生成过程。

16 0 2025-08-31

VidTok（Video Tokenizer）是微软开源的先进的视频分词器，通过高效的算法将视频内容转换成一系列“视频词”。支持连续和离散分词化，具有灵活的压缩率和多样化的隐空间，适用于不同的应用场景。

21 0 2025-08-31

VidSketch 是浙江大学 CAD&CG 国家重点实验室和软件学院推出的创新视频生成框架，根据手绘草图和简单文本提示生成高质量的视频动画。VidSketch基于“层级草图控制策略”动态调整草图的引导强度，适应不同绘画技能的用户，借助“时空注意力机制”增强视频的时空一致性，解决帧间连贯性问题。

15 0 2025-08-31

Vid2World是清华大学联合重庆大学推出的创新框架，支持将全序列、非因果的被动视频扩散模型（VDM）转换为自回归、交互式、动作条件化的世界模型。模型基于视频扩散因果化和因果动作引导两大核心技术，解决传统VDM在因果生成和动作条件化方面的不足。

19 0 2025-08-31

VibeVoice 是微软推出的新型文本到语音（TTS）模型，能生成富有表现力、长篇幅、多说话者的对话式音频，如播客。

18 0 2025-08-31

Vibe Draw是开源的 AI 3D建模工具，支持将用户在2D画布上绘制的涂鸦草图转化为精美的3D模型。用户能用文本提示或继续绘制迭代优化模型，一键导出为标准格式（.glTF）。Vibe Draw打破技术门槛，让任何人无需专业技能轻松实现3D创意。

18 0 2025-08-31

ViTPose 是基于 Transformer 架构的人体姿态估计模型。以普通视觉 Transformer 作为骨干网络，通过将输入图像切块并送入 Transformer block 来提取特征，再经解码器将特征解码为热图，实现对人体关键点的精准定位。

16 0 2025-08-31

ViLAMP（VIdeo-LAnguage Model with Mixed Precision）是蚂蚁集团和中国人民大学联合推出的视觉语言模型，专门用在高效处理长视频内容。基于混合精度策略，对视频中的关键帧保持高精度分析，显著降低计算成本提高处理效率。

15 0 2025-08-31

ViDoRAG是阿里巴巴通义实验室联合中国科学技术大学和上海交通大学推出的视觉文档检索增强生成框架。基于多智能体协作和动态迭代推理，解决传统方法在处理复杂视觉文档时的检索和推理局限性。ViDoRAG用高斯混合模型（GMM）的多模态混合检索策略，动态调整检索结果数量，优化文本和视觉信息的整合。

17 0 2025-08-31

Versatile-OCR-Program是为教育场景和机器学习训练定制的开源多模态OCR工具。结合DocLayout-YOLO、Google Vision和MathPix等技术，精准识别文本、数学公式、表格、图表等多模态内容，支持日语、韩语、英语等多种语言。

17 0 2025-08-31

VersaGen是文本到图像合成的生成式AI代理，能实现灵活的视觉控制能力。VersaGen能处理包括单一视觉主体、多个视觉主体、场景背景，这些元素的任意组合在内的多种视觉控制类型。基于在已有的文本主导的扩散模型上训练适配器，VersaGen成功地将视觉信息融入图像生成过程中。

17 0 2025-08-31

Verifier Engineering（验证器工程）是中国科学院、阿里巴巴和小红书联合推出的新型后训练范式，为基础模型设计，解决提供有效监督信号的挑战。Verifier Engineering基于自动化验证器执行验证任务并向基础模型提供反馈，分为搜索、验证和反馈三个阶段，优化模型性能。

21 0 2025-08-31

Veo是由Google DeepMind开发的一款视频生成模型，用户可以通过文本、图像或视频提示来指导其生成所需的视频内容，能够生成时长超过一分钟1080P分辨率的高质量视频。

19 0 2025-08-31

Veo 3是谷歌I/O开发者大会上发布的新一代视频生成模型。Veo 3是谷歌首个可生成视频背景音效的模型，能合成画面，能为鸟鸣、街头交通等场景配上相应的音效，可生成人物对话。模型在物理模拟与口型同步方面表现出色，视频中的人物口型能与生成的对话完美匹配。

19 0 2025-08-31

‹‹ ‹ 16 17 18 19 20 21 22 23 24 25 › ››