OmniCam 是先进的多模态视频生成框架,通过摄像机控制实现高质量的视频生成。支持多种输入模态组合,用户可以提供文本描述、视频中的轨迹或图像作为参考,精确控制摄像机的运动轨迹。
20
0
2025-08-30
OmniAvatar是浙江大学和阿里巴巴集团共同推出的音频驱动全身视频生成模型。模型根据输入的音频和文本提示,生成自然、逼真的全身动画视频,人物动作与音频完美同步,表情丰富。
19
0
2025-08-30
ICEdit(In-Context Edit)是浙江大学和哈佛大学推出的指令式图像编辑框架。基于大规模扩散变换器(Diffusion Transformer)的强大生成能力和上下文感知能力,用自然语言指令对图像进行精准编辑。
21
0
2025-08-29
HumanDiT 是浙江大学和字节跳动联合提出的姿态引导的高保真人体视频生成框架。基于扩散变换器(Diffusion Transformer,DiT),能在大规模数据集上训练,生成具有精细身体渲染的长序列人体运动视频。
20
0
2025-08-29
AnimateAnything是浙江大学和北京航空航天大学研究者推出的统一可控视频生成技术。AnimateAnything能精确操作视频,包括控制相机轨迹、文本提示和用户动作注释。基于多尺度控制特征融合网络,该技术将控制信息转化为逐帧光流,指导视频生成。为减少大范围运动导致的闪烁,AnimateAnything提出基于频率的稳定模块。
22
0
2025-08-27