neng8科技快讯网AI人工智能前沿资讯_汽车数码相机评测_手机电脑硬件百科

VoiceCraft – 开源的语音编辑和文本转语音模型

VoiceCraft – 开源的语音编辑和文本转语音模型

VoiceCraft是一个由德克萨斯大学奥斯汀分校研究团队开源的神经编解码器语言模型,专注于零样本语音编辑和文本到语音(TTS)任务。该模型采用Transformer架构,通过创新的token重排过程,结合因果掩蔽和延迟叠加技术,可零样本实现在现有音频序列内的高效生成。
28 0 2025-08-31
OuteTTS – 开源的文本到语音合成项目,基于纯语言建模方法生成语音

OuteTTS – 开源的文本到语音合成项目,基于纯语言建模方法生成语音

OuteTTS是开源的文本到语音(TTS)项目,基于纯语言建模的方法生成语音。OuteTTS项目基于LLaMa架构,用Oute3-350M-DEV基础模型,拥有3.5亿参数。OuteTTS具备音频标记化、CTC强制对齐技术和结构化提示创建等创新音频处理方法,支持语音克隆功能,及用户创建自定义说话人的声音。
21 0 2025-08-30
Oliva – 开源语音RAG助手,实时语音搜索向量数据库

Oliva – 开源语音RAG助手,实时语音搜索向量数据库

Oliva 是开源的语音RAG助手,结合 Langchain 和 Superlinked 技术,基于语音驱动的 RAG(检索增强生成)架构,帮助用户在 Qdrant 向量数据库中实时搜索信息。用户基于自然语音提问,Oliva 用语音转文本和实时语音通信技术,将语音指令转化为对数据库的查询,返回结构化结果。
18 0 2025-08-30