AI工具第17页_拜读未来科技摆渡人生

Voila – 开源端到端语音大模型，实现低延迟语音对话

Voila 是开源的端到端语音大模型，专为语音交互而设计。具备高保真、低延迟的实时流式音频处理能力，能直接处理语音输入并生成语音输出，为用户提供流畅且自然的交互体验。

19 0 2025-08-31

Void – 开源的AI辅助编程工具，代码自动补全和智能建议

Void 是基于 Visual Studio Code 构建的开源文本编辑器，集成AI技术增强编程体验。Void支持代码自动补全、内联编辑、AI 驱动的代码搜索，直接与大型语言模型（如 Claude、GPT 或 Gemini）的 API 集成。

21 0 2025-08-31

VoiceCraft – 开源的语音编辑和文本转语音模型

VoiceCraft是一个由德克萨斯大学奥斯汀分校研究团队开源的神经编解码器语言模型，专注于零样本语音编辑和文本到语音（TTS）任务。该模型采用Transformer架构，通过创新的token重排过程，结合因果掩蔽和延迟叠加技术，可零样本实现在现有音频序列内的高效生成。

28 0 2025-08-31

VoiceCanvas – 开源AI语音合成平台，支持多语言、多音色、声音克隆服务

VoiceCanvas 是开源的多语言语音合成平台。基于 AI 技术提供高质量的文字转语音服务，支持超过 50 种语言，集成 OpenAI TTS、AWS Polly 和 MiniMax 等多种语音服务。VoiceCanvas 提供个人声音克隆功能，用户上传几秒音频样本即可创建个性化声音。

18 0 2025-08-31

Voice-baidu09Pro – 开源AI音频处理工具，集成转录、翻译、TTS等一站式服务

Voice-Pro是开源的多功能音频处理工具，集成语音转文字（STT）、文本转语音（TTS）、实时翻译、YouTube视频下载和人声分离等多种功能。工具支持超过100种语言，适用于教育、娱乐和商业等多个领域，为用户提供一站式的音频处理解决方案，极大地提高工作效率和音频处理的便捷性。

20 0 2025-08-31

Voice Engine – OpenAI公布的AI语音合成和声音克隆模型

Voice Engine是OpenAI最新推出的一项AI语音合成和声音克隆技术，能够利用简短的15秒音频样本和文本输入，生成接近原声的自然听起来的语音。该项技术自2022年底开发以来，已经被应用于OpenAI的文本到语音API和ChatGPT的语音功能中。

21 0 2025-08-31

Voice Changer – Cartesia推出转换声音同时保留原始情感的变声器模型

Voice Changer是Cartesia推出的新模型，能将任何音频剪辑的语音转换成其他音色，且保留原始音频的情感和表达。用户从Cartesia提供的多种高质量声音库中选择，或克隆自己的声音，且完全控制语音的细节，如发声、情感和韵律。

20 0 2025-08-31

VisoMaster – AI换脸和编辑软件，支持图片和视频高质量换脸

VisoMaster 是基于 AI 技术的换脸和编辑软件，功能强大操作简便。支持图片、视频以及直播换脸，能生成自然逼真的换脸效果，应用于娱乐、影视制作等领域。支持多种输入输出格式，可通过 GPU 加速处理，大幅提升效率。

19 0 2025-08-31

VisionFM – 通用眼科AI大模型，具备少样本多种疾病诊断能力

VisionFM（伏羲慧眼）是多模态多任务的视觉基础模型，专为通用眼科人工智能而设计。通过预训练3.4百万张来自560,457个个体的眼科图像，覆盖广泛的眼科疾病、成像模态、设备和人群统计数据。VisionFM能处理包括眼底摄影、光学相干断层扫描（OCT）、荧光素眼底血管造影（FFA）等在内的八种常见眼科成像模态，应用于眼科疾病识别、疾病进展预测、疾病表型细分以及全身生物标志物和疾病预测等多种眼科AI任务。

21 0 2025-08-31

Vision Search Assistant – 结合视觉语言模型和网络代理搜索技术的开源框架

Vision Search Assistant（VSA）是结合视觉语言模型（VLMs）和网络代理的框架，提升模型对未知视觉内容的理解能力。基于互联网检索，使VLMs处理和回答有关未见图像的问题。VSA在开放集和封闭集问答测试中表现出色，显著优于包括LLaVA-1.6-34B、Qwen2-VL-72B和InternVL2-76B在内的其他模型。

19 0 2025-08-31

Vision Parse – 开源的 PDF 转 Markdown 工具

Vision Parse是开源的PDF文档转换工具，基于视觉语言模型（Vision LLMs）将PDF文件转换成Markdown格式。Vision Parse能智能识别和提取PDF中的文本和表格，且保持原有的格式和结构。Vision Parse支持多种视觉语言模型，如OpenAI、LLama、Gemini等，来提高解析的准确性和速度。

16 0 2025-08-31

VirtualWife – AI虚拟数字人项目，可在B站进行直播

VirtualWife是一个创新的虚拟数字人项目，专注于开发具有AI的虚拟角色。角色设计用于在B站等直播平台上进行互动，提供娱乐和信息。通过集成先进的AI技术，如自然语言处理和机器学习，VirtualWife的角色能理解和响应用户输入，提供更加自然和智能的交流体验。

16 0 2025-08-31

VirSci – 上海人工智能实验室推出的多智能体AI科学研究工具

VirSci（Virtual Scientists）是上海人工智能实验室推出的多智能体AI科学研究工具，基于模拟科学家团队的合作过程加速科研创新。系统基于大型语言模型（LLMs），用组织智能体团队合作生成、评估和完善研究创意，展现出在科学创意生成中的创新性和影响力，超过传统单智能体系统。

18 0 2025-08-31

ViewExtrapolator – 南洋理工联合UCAS团队推出的新型视图合成方法

ViewExtrapolator是南洋理工大学、UCAS研究团队共同推出的新视角外推方法，基于稳定视频扩散（Stable Video Diffusion, SVD）的生成先验合成远超出训练视图范围的新视角。这种方法基于重新设计SVD的去噪过程，有效优化辐射场或点云渲染中易产生伪影的视图，生成更清晰、更逼真的新视角图像。

19 0 2025-08-31

ViewCrafter – 北大、港中文联合腾讯提出的高保真新视图合成技术

ViewCrafter 是北大和港中文联合腾讯提出的一种先进的视频扩散模型，能从单个或少量图像中合成高保真的新视图。结合了视频扩散模型的生成能力和基于点的3D表示，精确控制相机姿态生成高质量视频帧。

19 0 2025-08-31

‹‹ ‹ 13 14 15 16 17 18 19 20 21 22 › ››

« 2026年6月 »
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30