neng8科技快讯网AI人工智能前沿资讯_汽车数码相机评测_手机电脑硬件百科

VoiceCraft – 开源的语音编辑和文本转语音模型

VoiceCraft – 开源的语音编辑和文本转语音模型

VoiceCraft是一个由德克萨斯大学奥斯汀分校研究团队开源的神经编解码器语言模型,专注于零样本语音编辑和文本到语音(TTS)任务。该模型采用Transformer架构,通过创新的token重排过程,结合因果掩蔽和延迟叠加技术,可零样本实现在现有音频序列内的高效生成。
28 0 2025-08-31
Voice-baidu09Pro – 开源AI音频处理工具,集成转录、翻译、TTS等一站式服务

Voice-baidu09Pro – 开源AI音频处理工具,集成转录、翻译、TTS等一站式服务

Voice-Pro是开源的多功能音频处理工具,集成语音转文字(STT)、文本转语音(TTS)、实时翻译、YouTube视频下载和人声分离等多种功能。工具支持超过100种语言,适用于教育、娱乐和商业等多个领域,为用户提供一站式的音频处理解决方案,极大地提高工作效率和音频处理的便捷性。
20 0 2025-08-31
Voice Engine – OpenAI公布的AI语音合成和声音克隆模型

Voice Engine – OpenAI公布的AI语音合成和声音克隆模型

Voice Engine是OpenAI最新推出的一项AI语音合成和声音克隆技术,能够利用简短的15秒音频样本和文本输入,生成接近原声的自然听起来的语音。该项技术自2022年底开发以来,已经被应用于OpenAI的文本到语音API和ChatGPT的语音功能中。
21 0 2025-08-31
VisoMaster – AI换脸和编辑软件,支持图片和视频高质量换脸

VisoMaster – AI换脸和编辑软件,支持图片和视频高质量换脸

VisoMaster 是基于 AI 技术的换脸和编辑软件,功能强大操作简便。支持图片、视频以及直播换脸,能生成自然逼真的换脸效果,应用于娱乐、影视制作等领域。支持多种输入输出格式,可通过 GPU 加速处理,大幅提升效率。
19 0 2025-08-31
VisionFM – 通用眼科AI大模型,具备少样本多种疾病诊断能力

VisionFM – 通用眼科AI大模型,具备少样本多种疾病诊断能力

VisionFM(伏羲慧眼)是多模态多任务的视觉基础模型,专为通用眼科人工智能而设计。通过预训练3.4百万张来自560,457个个体的眼科图像,覆盖广泛的眼科疾病、成像模态、设备和人群统计数据。VisionFM能处理包括眼底摄影、光学相干断层扫描(OCT)、荧光素眼底血管造影(FFA)等在内的八种常见眼科成像模态,应用于眼科疾病识别、疾病进展预测、疾病表型细分以及全身生物标志物和疾病预测等多种眼科AI任务。
21 0 2025-08-31
Vision Search Assistant – 结合视觉语言模型和网络代理搜索技术的开源框架

Vision Search Assistant – 结合视觉语言模型和网络代理搜索技术的开源框架

Vision Search Assistant(VSA)是结合视觉语言模型(VLMs)和网络代理的框架,提升模型对未知视觉内容的理解能力。基于互联网检索,使VLMs处理和回答有关未见图像的问题。VSA在开放集和封闭集问答测试中表现出色,显著优于包括LLaVA-1.6-34B、Qwen2-VL-72B和InternVL2-76B在内的其他模型。
19 0 2025-08-31
Vision Parse – 开源的 PDF 转 Markdown 工具

Vision Parse – 开源的 PDF 转 Markdown 工具

Vision Parse是开源的PDF文档转换工具,基于视觉语言模型(Vision LLMs)将PDF文件转换成Markdown格式。Vision Parse能智能识别和提取PDF中的文本和表格,且保持原有的格式和结构。Vision Parse支持多种视觉语言模型,如OpenAI、LLama、Gemini等,来提高解析的准确性和速度。
16 0 2025-08-31
VirtualWife – AI虚拟数字人项目,可在B站进行直播

VirtualWife – AI虚拟数字人项目,可在B站进行直播

VirtualWife是一个创新的虚拟数字人项目,专注于开发具有AI的虚拟角色。角色设计用于在B站等直播平台上进行互动,提供娱乐和信息。通过集成先进的AI技术,如自然语言处理和机器学习,VirtualWife的角色能理解和响应用户输入,提供更加自然和智能的交流体验。
16 0 2025-08-31
VirSci – 上海人工智能实验室推出的多智能体AI科学研究工具

VirSci – 上海人工智能实验室推出的多智能体AI科学研究工具

VirSci(Virtual Scientists)是上海人工智能实验室推出的多智能体AI科学研究工具,基于模拟科学家团队的合作过程加速科研创新。系统基于大型语言模型(LLMs),用组织智能体团队合作生成、评估和完善研究创意,展现出在科学创意生成中的创新性和影响力,超过传统单智能体系统。
18 0 2025-08-31
ViewExtrapolator – 南洋理工联合UCAS团队推出的新型视图合成方法

ViewExtrapolator – 南洋理工联合UCAS团队推出的新型视图合成方法

ViewExtrapolator是南洋理工大学、UCAS研究团队共同推出的新视角外推方法,基于稳定视频扩散(Stable Video Diffusion, SVD)的生成先验合成远超出训练视图范围的新视角。这种方法基于重新设计SVD的去噪过程,有效优化辐射场或点云渲染中易产生伪影的视图,生成更清晰、更逼真的新视角图像。
19 0 2025-08-31