neng8科技快讯网AI人工智能前沿资讯_汽车数码相机评测_手机电脑硬件百科

gpt-baidu094o-baidu09transcribe – OpenAI 推出的语音转文本模型

gpt-baidu094o-baidu09transcribe – OpenAI 推出的语音转文本模型

gpt-4o-transcribe是 OpenAI 推出的高性能语音转文本模型。基于最新的语音模型架构,用海量多样化音频数据训练,精准捕捉语音细微差别,显著降低单词错误率(WER),优于前代 Whisper 模型。模型支持多种语言和方言,适合处理口音多样、环境嘈杂、语速变化等复杂场景,如呼叫中心、会议记录等。
18 0 2025-08-31
gpt-baidu094o-baidu09mini-baidu09transcribe – OpenAI 推出的语音转文本模型

gpt-baidu094o-baidu09mini-baidu09transcribe – OpenAI 推出的语音转文本模型

gpt-4o-mini-transcribe 是 OpenAI 推出的语音转文本模型,gpt-4o-transcribe的精简版。gpt-4o-mini-transcribe 基于 GPT-4o-mini 架构,用知识蒸馏技术从大模型中转移能力,实现更小的模型体积和更高的运行效率,适合在资源受限的设备(如移动设备或嵌入式系统)上运行,满足实时性要求较高的应用场景。
19 0 2025-08-31
edge-baidu09tts – 开源的AI文字转语音项目

edge-baidu09tts – 开源的AI文字转语音项目

edge-tts是开源的AI文字转语音项目,支持超过40种语言和300多种声音。edge-tts利用微软Azure Cognitive Services的强大功能,能将文本信息转换成流畅自然的语音输出。edge-tts特别适合开发者在应用程序中集成语音功能,提供了丰富的语言和声音选择,能满足多样化的语音合成需求。
18 0 2025-08-31
ebook2audiobookXTTS – 开源电子书转有声书 AI 工具,支持16种语言

ebook2audiobookXTTS – 开源电子书转有声书 AI 工具,支持16种语言

ebook2audiobookXTTS是开源的AI工具,能将电子书转换为有声书。ebook2audiobookXTTS支持多种电子书格式,如epub、pdf、mobi等,用Coqui XTTS技术实现高质量的文本到语音转换。工具支持16种语言,操作简便,提供命令行、Web界面和Docker容器等多种使用方式。
16 0 2025-08-31
eSearch – 开源的AI桌面应用,截屏、OCR、搜索、翻译、录屏

eSearch – 开源的AI桌面应用,截屏、OCR、搜索、翻译、录屏

eSearch是一款开源的跨平台AI桌面应用,集成了截屏、OCR识别、搜索翻译、贴图、以图搜图和屏幕录制等功能。eSearch基于Electron框架开发,适用于Linux、Windows和macOS系统。用户可以通过快捷键快速截取屏幕,进行文字识别,搜索翻译,或录制屏幕操作。
20 0 2025-08-31
dots.vlm1 – 小红书hi lab开源的首个多模态大模型

dots.vlm1 – 小红书hi lab开源的首个多模态大模型

dots.vlm1 是小红书 hi lab 开源的首个多模态大模型。基于一个从零训练的 12 亿参数视觉编码器 NaViT 和 DeepSeek V3 大语言模型(LLM),具备强大的视觉感知和文本推理能力。模型在视觉理解和推理任务上表现出色,接近闭源 SOTA 模型水平,在文本任务上也保持了竞争力。
15 0 2025-08-31
dots.llm1 – 小红书hi lab开源的文本大模型

dots.llm1 – 小红书hi lab开源的文本大模型

dots.llm1 是小红书 hi lab 开源的中等规模 Mixture of Experts(MoE)文本大模型,具有 1420 亿参数,激活参数为 140 亿。模型在 11.2T 高质量 token 数据上进行预训练,用高效的 Interleaved 1F1B 流水并行和 Grouped GEMM 优化技术,训练效率显著提升。
20 0 2025-08-31
cpmGO – 面壁智能推出的首个纯端侧汽车智能助手

cpmGO – 面壁智能推出的首个纯端侧汽车智能助手

cpmGO (小钢炮超级助手)是面壁智能推出的全球首个纯端侧智能助手,专为汽车智能座舱设计。cpmGO 基于面壁小钢炮MiniCPM 端侧模型开发,具备视觉、语音、多模态交互、图形UI交互等丰富能力,实现舱外至舱内的全链条感知、决策与执行。
17 0 2025-08-31
clone-baidu09voice – 开源的声音克隆工具,支持16种语言

clone-baidu09voice – 开源的声音克隆工具,支持16种语言

Clone-voice是开源的声音克隆工具,基于深度学习技术分析和模拟人类声音,实现声音的高质量克隆。工具支持包括中文、英文、日语、韩语等在内的16种语言,能将文本转换为语音或将一种声音风格转换为另一种。用户界面友好,操作简单,不需要高性能的硬件支持,适合个人和专业领域使用。
21 0 2025-08-31
anime.gf – AI虚拟角色创建与互动的开源应用

anime.gf – AI虚拟角色创建与互动的开源应用

Anime.gf 是一个开源的本地应用程序,支持用户创建和互动自己的虚拟角色。工具提供一个用户友好的界面,用户与各种具有独特个性和语言风格的虚拟角色进行交流。
20 0 2025-08-31