开源语音播报_拜读未来科技摆渡人生

Voila – 开源端到端语音大模型，实现低延迟语音对话

Voila 是开源的端到端语音大模型，专为语音交互而设计。具备高保真、低延迟的实时流式音频处理能力，能直接处理语音输入并生成语音输出，为用户提供流畅且自然的交互体验。

19 0 2025-08-31

OuteTTS – 开源的文本到语音合成项目，基于纯语言建模方法生成语音

OuteTTS是开源的文本到语音（TTS）项目，基于纯语言建模的方法生成语音。OuteTTS项目基于LLaMa架构，用Oute3-350M-DEV基础模型，拥有3.5亿参数。OuteTTS具备音频标记化、CTC强制对齐技术和结构化提示创建等创新音频处理方法，支持语音克隆功能，及用户创建自定义说话人的声音。

21 0 2025-08-30

Ichigo – 开源的多模态AI语音助手，实时处理语音和文本的交织序列

Ichigo是开源的多模态AI语音助手，采用混合模态模型，能实时处理语音和文本的交织序列。基于将语音直接量化为离散令牌，用统一的变换器架构同时处理语音和文本，实现跨模态的联合推理和生成。

19 0 2025-08-29

‹‹ 1 ››

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30