AI工具第16页_拜读未来科技摆渡人生

Wear-baidu09Any-baidu09Way – 阿里拍立淘团队推出自由定制的虚拟试穿框架

Wear-Any-Way是阿里巴巴拍立淘团队推出的创新的虚拟试穿框架。通过稀疏对应对齐机制，实现了高保真度且可定制的虚拟试穿效果。用户可以生成逼真的试穿图像，通过简单的点击和拖动操作，精准操控服装的穿着方式，如卷起袖子、调整大衣开合等，为虚拟试穿带来了全新的交互体验。

17 0 2025-08-31

WeKnora – 腾讯开源的文档理解与语义检索框架

WeKnora 是腾讯开源的基于大语言模型（LLM）的文档理解与语义检索框架。框架基于模块化设计，支持多模态文档解析（如 PDF、Word、图片等），通过 RAG（检索增强生成）机制实现精准问答。

28 0 2025-08-31

WeGen – 中科大联合上海交大等推出的统一多模态生成模型

WeGen 是中国科学技术大学联合上海交通大学、微信团队、中国科学院等机构推出的统一多模态生成模型，基于自然对话实现多样化的视觉生成任务。WeGen结合多模态大语言模型（MLLM）和扩散模型，处理文本到图像生成、条件驱动生成、图像编辑、风格迁移等多种任务。

21 0 2025-08-31

WeClone – 开源AI数字分身一站式解决方案

WeClone是从聊天记录创造数字分身的一站式解决方案。基于聊天记录微调大语言模型（LLM），让模型具有特定的风格，绑定到微信、QQ、Telegram等聊天机器人，实现数字分身。

19 0 2025-08-31

Wav2Lip – 开源的唇形同步工具

Wav2Lip是开源的唇形同步工具，支持用户将音频文件转换成与口型同步的视频，广泛应用于视频编辑和游戏开发等领域。Wav2Lip不仅能够实现实时口型生成，还支持多种语言，适用于不同场景下的需求。

18 0 2025-08-31

WarriorCoder – 微软联合华南理工大学推出的代码生成大模型

WarriorCoder 是华南理工大学计算机科学与工程学院和微软推出的代码生成大语言模型（LLM）。基于模拟专家模型之间的对抗生成高质量训练数据，提升模型性能。与传统方法不同，WarriorCoder 不依赖于现有的专有模型或数据集，从零开始挖掘指令，基于 Elo 评分系统和裁判模型评估对抗结果，选择最优响应作为训练数据。

20 0 2025-08-31

Wan2.2-baidu09S2V – 阿里通义开源的多模态视频生成模型

Wan2.2-S2V 是开源的多模态视频生成模型，仅需一张静态图片和一段音频，能生成电影级数字人视频，视频时长可达分钟级，且支持多种图片类型和画幅。

21 0 2025-08-31

Wan2.1 – 阿里开源的AI视频生成大模型

Wan2.1是阿里云开源的AI视频生成大模型，具备强大的视觉生成能力。Wan2.1支持文生视频和图生视频任务，包含两种尺寸的模型，14B参数的专业版擅长复杂运动生成和物理建模，性能卓越；1.3B参数的极速版能在消费级显卡上运行，显存需求低，适合二次开发和学术研究。

20 0 2025-08-31

Vui – Fluxions-baidu09AI开源的轻量级语音对话模型

Vui 是 Fluxions-AI 团队开源的轻量级语音对话模型，基于 LLaMA 架构。模型经过 4 万小时对话训练，能模拟真实对话中的语气词、笑声和停顿，提供沉浸式交互体验。

16 0 2025-08-31

VtripGPT – 视旅科技推出首个旅游领域的AI大模型

VtripGPT是视旅科技推出的专注于旅游领域的AI大模型，基于深度合成服务为旅游对话生成提供智能支持。模型基于Transformer架构，结合旅游行业数据和常规知识进行增量预训练，基于人工构建的有监督指令数据及对话数据进行微调，生成旅游相关的文本回复。

18 0 2025-08-31

Voyage Multimodal-baidu093 – Voyage AI 推出的多模态嵌入模型

Voyage Multimodal-3 是 Voyage AI 推出的先进的多模态嵌入模型，能处理交错的文本和图像，并从 PDF、幻灯片、表格等截图中捕捉关键视觉特征，无需复杂文档解析。Voyage Multimodal-3模型在多模态检索任务中表现出色，平均检索准确率比现有最佳模型高出19.63%，支持文本和内容丰富的图像，具有类似现代视觉-语言转换器的架构，能统一处理文本和视觉数据，提供更准确的语义搜索和文档理解能力。

21 0 2025-08-31

Voxtral – Mistral AI开源的语音模型

Voxtral 是 Mistral AI 推出的先进音频模型，基于卓越的语音转录和深度理解能力，推动语音作为自然的人机交互方式。Voxtral提供 24B 和 3B 两种版本，分别适用生产规模和本地部署。Voxtral 支持多语言、长文本上下文、内置问答和总结功能，能直接触发后端功能调用。

15 0 2025-08-31

VoxInstruct – 清华推出的开源语音合成技术，支持多语言和跨语言合成

VoxInstruct 是由清华大学开源的语音合成技术，能根据人类语言指令生成高度符合用户需求的语音。系统采用统一的多语言编解码器语言建模框架，将传统的文本到语音任务扩展到更广泛的人类指令到语音任务。

20 0 2025-08-31

Voost – 创新的双向虚拟试穿和试脱AI模型

Voost 是NXN实验室推出创新的虚拟试穿和试脱模型，基于统一且可扩展的扩散 Transformer（DiT）框架开发。能同时处理虚拟试穿（try-on）和试脱（try-off）任务，生成高质量的图像结果。通过联合学习这两个任务，Voost 利用双向监督机制，使每对服装 - 人物数据能为两个方向的生成提供监督信号

18 0 2025-08-31

VoltAgent – 开源的AI Agent构建和编排框架

VoltAgent 是开源的 TypeScript 框架，用在构建和编排 AI Agent。VoltAgent 提供构建 AI 应用的基础结构和工具，简化与大语言模型（LLM）的交互、状态管理、外部工具连接和工作流编排的复杂性。

21 0 2025-08-31

‹‹ ‹ 12 13 14 15 16 17 18 19 20 21 › ››

« 2026年6月 »
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30