neng8科技快讯网AI人工智能前沿资讯_汽车数码相机评测_手机电脑硬件百科

VoiceCraft – 开源的语音编辑和文本转语音模型

VoiceCraft – 开源的语音编辑和文本转语音模型

VoiceCraft是一个由德克萨斯大学奥斯汀分校研究团队开源的神经编解码器语言模型,专注于零样本语音编辑和文本到语音(TTS)任务。该模型采用Transformer架构,通过创新的token重排过程,结合因果掩蔽和延迟叠加技术,可零样本实现在现有音频序列内的高效生成。
28 0 2025-08-31
OuteTTS – 开源的文本到语音合成项目,基于纯语言建模方法生成语音

OuteTTS – 开源的文本到语音合成项目,基于纯语言建模方法生成语音

OuteTTS是开源的文本到语音(TTS)项目,基于纯语言建模的方法生成语音。OuteTTS项目基于LLaMa架构,用Oute3-350M-DEV基础模型,拥有3.5亿参数。OuteTTS具备音频标记化、CTC强制对齐技术和结构化提示创建等创新音频处理方法,支持语音克隆功能,及用户创建自定义说话人的声音。
21 0 2025-08-30