音频的lr_拜读未来科技摆渡人生

首个可保留情感的音频LLM！Meta重磅开源7B-Spirit LM，一网打尽「音频+文本」多模态任务

在纯文本大模型取得进展的同时，其他模态数据，如语音与文本结合的语言模型（SpeechLMs）也成为了一个热门的研究领域，但现有的模型要么在仅包含语音的数据上进行训练，要么是关注特定任务，如文本转语音（TTS）、自动语音识别（ASR）或翻译，在其他模态数据和任务上的泛化能力十分有限。

在大型语言模型（LLM）性能不断提升的情况下，一个常用的方法是先用ASR模型将语音转录成文本，然后用文本模型来生成新的文本，最后再用TTS模型将文本转换成语音，这种流程的一个显著缺陷就是语音表达性不佳，语言模型无法建模并生成富有表现力的语音数据。

15 0 2025-09-01