VASA-baidu091 – 微软推出的静态照片对口型视频生成框架 VASA-1是由微软亚洲研究院提出的一个将静态照片转换为对口型动态视频的生成框架,能够根据单张静态人脸照片和一段语音音频,实时生成逼真的3D说话面部动画。 18 0 2025-08-31