VideoMaker是浙江大学、腾讯和华为诺亚方舟实验室共同开发的创新项目,基于视频扩散模型(VDM)的零样本定制视频生成框架。与传统方法不同,VideoMaker无需额外模型即可直接从参考图片中提取和注入主题特征,实现个性化视频内容的一键生成。
20
0
2025-08-31
ReCamMaster 是浙江大学、快手科技等联合推出的视频重渲染框架,能根据新的相机轨迹重新生成视频内容。通过预训练模型和帧维度条件机制,结合多相机同步数据集和相机姿态条件,实现视频视角、运动轨迹的灵活调整。
22
0
2025-08-30
Prometheus是创新的3D感知潜在扩散模型,专门用于快速生成文本到3D场景的内容。能在几秒钟内完成对象和场景级别的3D生成,同时保持高质量的输出和良好的泛化能力。核心在于基于2D先验知识来驱动高效且可泛化的3D合成过程。
18
0
2025-08-30
MagicTryOn是浙江大学计算机科学与技术学院、vivo移动通信等机构推出的基于视频扩散Transformer的视频虚拟试穿框架。框架替换传统的U-Net架构为更具表现力的扩散Transformer(DiT),结合全自注意力机制,实现视频的时空一致性建模。
19
0
2025-08-29
LanDiff是用于高质量的文本到视频(T2V)生成的创新混合框架,结合了自回归语言模型(LLM)和扩散模型(Diffusion Model)的优势,通过粗到细的生成方式,有效克服了单一方法在语义理解和视觉质量上的局限性。
21
0
2025-08-29
InftyThink是创新的大模型推理范式,突破传统模型在长推理任务中的局限性。通过分段迭代的方式,将复杂的推理过程分解为多个短片段,在每个片段后生成中间总结,实现分块式思考。
21
0
2025-08-29
HumanDiT 是浙江大学和字节跳动联合提出的姿态引导的高保真人体视频生成框架。基于扩散变换器(Diffusion Transformer,DiT),能在大规模数据集上训练,生成具有精细身体渲染的长序列人体运动视频。
20
0
2025-08-29
EliGen是浙江大学和阿里巴巴集团联合开发的新型的实体级可控图像生成框架,通过引入区域注意力机制,无需额外参数即可将实体提示和任意形状的空间掩码无缝集成到扩散变换器中。EliGen包含50万高质量注释样本的数据集,用于训练模型以实现鲁棒且准确的实体级操控。
21
0
2025-08-28