UniToken 是新型的自回归生成模型,专为多模态理解与生成任务设计。通过结合离散和连续的视觉表示,构建了一种统一的视觉编码框架,能同时捕捉图像的高级语义和低级细节。
18
0
2025-08-31
StableAnimator是复旦大学、微软亚洲研究院、虎牙公司和卡内基梅隆大学共同推出的端到端高质量身份保持视频扩散框架。StableAnimator能根据一张参考图像和一系列姿态,无需任何后处理工具,直接合成高保真度且保持人物身份一致性的视频。
16
0
2025-08-31
SocioVerse(众生) 是复旦大学、上海创智学院、罗切斯特大学和小红书联合推出的社会模拟世界模型。基于大语言模型(LLM)驱动的智能体和包含1000万真实用户的数据池,构建与现实世界“对齐”的大规模社会模拟框架。
19
0
2025-08-30
SimpleAR 是复旦大学视觉与学习实验室和字节 Seed 团队联合推出的纯自回归图像生成模型。采用简洁的自回归架构,通过优化训练和推理过程,实现了高质量的图像生成。SimpleAR 仅用 5 亿参数即可生成 1024×1024 分辨率的图像,在 GenEval 等基准测试中取得了优异成绩。
22
0
2025-08-30
Hallo3是复旦大学和百度公司联合推出的,基于扩散变换器网络(Diffusion Transformer Networks)的肖像图像动画技术,能生成高度动态和逼真的视频。Hallo3基于预训练的变换器视频生成模型,有效解决现有方法在处理非正面视角、动态对象渲染和生成沉浸式背景方面的挑战。
22
0
2025-08-29
BlockDance 是复旦大学联合字节跳动智能创作团队推出的用在加速扩散模型的新方法。BlockDance 基于识别重用相邻时间步中结构相似的时空特征(STSS),减少冗余计算,提升推理速度,最高加速 50%。
23
0
2025-08-28