UniToken 是新型的自回归生成模型,专为多模态理解与生成任务设计。通过结合离散和连续的视觉表示,构建了一种统一的视觉编码框架,能同时捕捉图像的高级语义和低级细节。
19
0
2025-08-31
SocioVerse(众生) 是复旦大学、上海创智学院、罗切斯特大学和小红书联合推出的社会模拟世界模型。基于大语言模型(LLM)驱动的智能体和包含1000万真实用户的数据池,构建与现实世界“对齐”的大规模社会模拟框架。
20
0
2025-08-30
OmniSVG 是复旦大学和 StepFun 联合开发的全球首个端到端多模态 SVG(可缩放矢量图形)生成模型。基于预训练视觉语言模型(VLM),通过创新的 SVG 标记化方法,将 SVG 命令和坐标参数化为离散令牌,实现了结构逻辑与几何细节的解耦。
20
0
2025-08-30
ImBD(Imitate Before Detect)是复旦大学、华南理工大学、武汉大学、Fenzi AI等推出的用在检测机器修订文本的方法。首先模仿大型语言模型(LLMs)生成文本的风格,基于风格偏好优化(SPO)调整评分模型,让其更符合机器修订文本的特征。然后,利用风格条件概率曲率(Style-CPC)量化原始文本与条件概率采样生成文本之间的对数概率差异,有效区分人类写作和机器修订内容。
22
0
2025-08-29
Hallo3是复旦大学和百度公司联合推出的,基于扩散变换器网络(Diffusion Transformer Networks)的肖像图像动画技术,能生成高度动态和逼真的视频。Hallo3基于预训练的变换器视频生成模型,有效解决现有方法在处理非正面视角、动态对象渲染和生成沉浸式背景方面的挑战。
23
0
2025-08-29
BlockDance 是复旦大学联合字节跳动智能创作团队推出的用在加速扩散模型的新方法。BlockDance 基于识别重用相邻时间步中结构相似的时空特征(STSS),减少冗余计算,提升推理速度,最高加速 50%。
24
0
2025-08-28