
李飞飞团队统一动作与语言,新的多模态模型不仅超懂指令,还能读懂隐含情绪
李飞飞团队统一动作与语言,新的多模态模型不仅超懂指令,还能读懂隐含情绪
人类的沟通交流充满了多模态的信息。为了与他人进行有效沟通,我们既使用言语语言,也使用身体语言,比如手势、面部表情、身体姿势和情绪表达。因此,为了理解和生成人类动作,理解这些多模态的行为至关重要,而且这一研究方向最近受到的关注也越来越多。
而多模态语言模型看起来颇具潜力,可将多种模态的不同任务统一在一个框架下。
近日,斯坦福大学李飞飞、Gordon Wetzstein 和 Ehsan Adeli 领导的一个团队也在这方面做出了贡献,探索了语音 - 文本 - 动作生成任务。并且他们还提出了一个全新的多模态语言模型,可以实现富有表现力的动作生成和理解。
14
0
2025-09-03