Voila 是开源的端到端语音大模型,专为语音交互而设计。具备高保真、低延迟的实时流式音频处理能力,能直接处理语音输入并生成语音输出,为用户提供流畅且自然的交互体验。
19
0
2025-08-31
OuteTTS是开源的文本到语音(TTS)项目,基于纯语言建模的方法生成语音。OuteTTS项目基于LLaMa架构,用Oute3-350M-DEV基础模型,拥有3.5亿参数。OuteTTS具备音频标记化、CTC强制对齐技术和结构化提示创建等创新音频处理方法,支持语音克隆功能,及用户创建自定义说话人的声音。
21
0
2025-08-30
Oliva 是开源的语音RAG助手,结合 Langchain 和 Superlinked 技术,基于语音驱动的 RAG(检索增强生成)架构,帮助用户在 Qdrant 向量数据库中实时搜索信息。用户基于自然语音提问,Oliva 用语音转文本和实时语音通信技术,将语音指令转化为对数据库的查询,返回结构化结果。
18
0
2025-08-30
ChatTTSPlus是ChatTTS的扩展版本,基于集成TensorRT加速、语音克隆和移动模型部署等先进技术,提升语音合成的性能和灵活性。在Windows平台上,能实现超过3倍的加速,从28 tokens/s提升到110 tokens/s,极大地提高处理速度。
20
0
2025-08-28