neng8科技快讯网AI人工智能前沿资讯_汽车数码相机评测_手机电脑硬件百科

VtripGPT – 视旅科技推出首个旅游领域的AI大模型

VtripGPT – 视旅科技推出首个旅游领域的AI大模型

VtripGPT是视旅科技推出的专注于旅游领域的AI大模型,基于深度合成服务为旅游对话生成提供智能支持。模型基于Transformer架构,结合旅游行业数据和常规知识进行增量预训练,基于人工构建的有监督指令数据及对话数据进行微调,生成旅游相关的文本回复。
17 0 2025-08-31
Voyage Multimodal-baidu093 – Voyage AI 推出的多模态嵌入模型

Voyage Multimodal-baidu093 – Voyage AI 推出的多模态嵌入模型

Voyage Multimodal-3 是 Voyage AI 推出的先进的多模态嵌入模型,能处理交错的文本和图像,并从 PDF、幻灯片、表格等截图中捕捉关键视觉特征,无需复杂文档解析。Voyage Multimodal-3模型在多模态检索任务中表现出色,平均检索准确率比现有最佳模型高出19.63%,支持文本和内容丰富的图像,具有类似现代视觉-语言转换器的架构,能统一处理文本和视觉数据,提供更准确的语义搜索和文档理解能力。
20 0 2025-08-31
Voxtral – Mistral AI开源的语音模型

Voxtral – Mistral AI开源的语音模型

Voxtral 是 Mistral AI 推出的先进音频模型,基于卓越的语音转录和深度理解能力,推动语音作为自然的人机交互方式。Voxtral提供 24B 和 3B 两种版本,分别适用生产规模和本地部署。Voxtral 支持多语言、长文本上下文、内置问答和总结功能,能直接触发后端功能调用。
14 0 2025-08-31
Voost – 创新的双向虚拟试穿和试脱AI模型

Voost – 创新的双向虚拟试穿和试脱AI模型

Voost 是NXN实验室推出创新的虚拟试穿和试脱模型,基于统一且可扩展的扩散 Transformer(DiT)框架开发。能同时处理虚拟试穿(try-on)和试脱(try-off)任务,生成高质量的图像结果。通过联合学习这两个任务,Voost 利用双向监督机制,使每对服装 - 人物数据能为两个方向的生成提供监督信号
17 0 2025-08-31
VoltAgent – 开源的AI Agent构建和编排框架

VoltAgent – 开源的AI Agent构建和编排框架

VoltAgent 是开源的 TypeScript 框架,用在构建和编排 AI Agent。VoltAgent 提供构建 AI 应用的基础结构和工具,简化与大语言模型(LLM)的交互、状态管理、外部工具连接和工作流编排的复杂性。
20 0 2025-08-31
VoiceCraft – 开源的语音编辑和文本转语音模型

VoiceCraft – 开源的语音编辑和文本转语音模型

VoiceCraft是一个由德克萨斯大学奥斯汀分校研究团队开源的神经编解码器语言模型,专注于零样本语音编辑和文本到语音(TTS)任务。该模型采用Transformer架构,通过创新的token重排过程,结合因果掩蔽和延迟叠加技术,可零样本实现在现有音频序列内的高效生成。
27 0 2025-08-31
Voice-baidu09Pro – 开源AI音频处理工具,集成转录、翻译、TTS等一站式服务

Voice-baidu09Pro – 开源AI音频处理工具,集成转录、翻译、TTS等一站式服务

Voice-Pro是开源的多功能音频处理工具,集成语音转文字(STT)、文本转语音(TTS)、实时翻译、YouTube视频下载和人声分离等多种功能。工具支持超过100种语言,适用于教育、娱乐和商业等多个领域,为用户提供一站式的音频处理解决方案,极大地提高工作效率和音频处理的便捷性。
19 0 2025-08-31
Voice Engine – OpenAI公布的AI语音合成和声音克隆模型

Voice Engine – OpenAI公布的AI语音合成和声音克隆模型

Voice Engine是OpenAI最新推出的一项AI语音合成和声音克隆技术,能够利用简短的15秒音频样本和文本输入,生成接近原声的自然听起来的语音。该项技术自2022年底开发以来,已经被应用于OpenAI的文本到语音API和ChatGPT的语音功能中。
20 0 2025-08-31
VisoMaster – AI换脸和编辑软件,支持图片和视频高质量换脸

VisoMaster – AI换脸和编辑软件,支持图片和视频高质量换脸

VisoMaster 是基于 AI 技术的换脸和编辑软件,功能强大操作简便。支持图片、视频以及直播换脸,能生成自然逼真的换脸效果,应用于娱乐、影视制作等领域。支持多种输入输出格式,可通过 GPU 加速处理,大幅提升效率。
18 0 2025-08-31
VisionFM – 通用眼科AI大模型,具备少样本多种疾病诊断能力

VisionFM – 通用眼科AI大模型,具备少样本多种疾病诊断能力

VisionFM(伏羲慧眼)是多模态多任务的视觉基础模型,专为通用眼科人工智能而设计。通过预训练3.4百万张来自560,457个个体的眼科图像,覆盖广泛的眼科疾病、成像模态、设备和人群统计数据。VisionFM能处理包括眼底摄影、光学相干断层扫描(OCT)、荧光素眼底血管造影(FFA)等在内的八种常见眼科成像模态,应用于眼科疾病识别、疾病进展预测、疾病表型细分以及全身生物标志物和疾病预测等多种眼科AI任务。
20 0 2025-08-31