
字节跳动发布OmniHuman 多模态框架
2 月 6 日消息,字节跳动近日发布了一项重大成果 ——OmniHuman 多模态框架,其优势在于其强大的视频生成能力。用户只需提供一张任意尺寸和人物占比的单张图片,再结合一段输入音频,就能生成栩栩如生的人物视频。 与传统 AI 模型不同,OmniHuman-1 能够生成逼真的全身动画,并且可以精准地将手势和面部表情与语音或音乐同步,打破了以往只能生成面部或上半身动画的局限。 基于约 19000 小时的人类运动数据训练,OmniHuman-1 模型支持不同的体型和画面
21
0
2025-08-28