
8 人团队的开源多模态:Moshi,效果堪比 GPT-4o,合成数据立功
8 人团队的开源多模态:Moshi,效果堪比 GPT-4o,合成数据立功
最近,一个对标 GPT-4o 的开源实时语音多模态模型火了。
这个开源模型来自法国一个仅有 8 人的非营利性 AI 研究机构 ——Kyutai,模型名为 Moshi,具备听、说、看的多模态功能。图灵奖得主 Yann LeCun 转发说道:「Moshi 能听懂带有法国口音的英语。」据悉,该团队开发这个模型仅用了 6 个月。
17
0
2025-09-03