neng8科技快讯网AI人工智能前沿资讯_汽车数码相机评测_手机电脑硬件百科

OmniTalker – 阿里推出的实时文本驱动说话头像生成框架

OmniTalker – 阿里推出的实时文本驱动说话头像生成框架

OmniTalker 是阿里巴巴发布的实时文本驱动的说话头像生成技术,能同时处理文本、图像、音频和视频等多种模态输入,以流式方式生成自然语音响应。核心架构为 Thinker-Talker 架构,Thinker 负责处理多模态输入并生成语义表征和文本内容,Talker 将这些信息转化为流畅的语音输出。
19 0 2025-08-30
EMO – 阿里推出的AI肖像视频生成框架

EMO – 阿里推出的AI肖像视频生成框架

EMO(Emote Portrait Alive)是一个由阿里巴巴集团智能计算研究院的研究人员开发的框架,一个音频驱动的AI肖像视频生成系统,能够通过输入单一的参考图像和语音音频,生成具有表现力的面部表情和各种头部姿势的视频。
23 0 2025-08-28