neng8科技快讯网AI人工智能前沿资讯_汽车数码相机评测_手机电脑硬件百科

3D大模型助力,15分钟即可训练高质量、个性化的数字人模型,代码已开放

3D大模型助力,15分钟即可训练高质量、个性化的数字人模型,代码已开放

3D大模型助力,15分钟即可训练高质量、个性化的数字人模型,代码已开放

本文的作者主要来自于浙江大学和字节跳动。第一作者是浙江大学计算机学院的博士生叶振辉,导师为赵洲教授,主要研究方向是说话人视频合成,并在 NeurIPS、ICLR、ACL 等会议发表相关论文。共一作者是来自浙江大学计算机学院的硕士生钟添芸。


个性化精品数字人(Personalized Talking Face Generation)强调合成的数字人视频在感官上与真人具有极高的相似性(不管是说话人的外表还是神态)。目前业界主流的个性化精品数字人通常属于在单个目标人数据上从头训练的小模型,虽然这种小模型能够有效地学到说话人的外表和说话风格,这种做法存在低训练效率、低样本效率、低鲁棒性的问题。相比之下,近年来许多工作专注于单图驱动的通用数字人大模型,这些模型仅需单张图片输入即可完成数字人制作,但仍存在外表相似度较低、无法模仿目标人说话风格等问题。

15 0 2025-09-03