neng8科技快讯网AI人工智能前沿资讯_汽车数码相机评测_手机电脑硬件百科

斯坦福吴佳俊扩散自蒸馏来了!突破文生图身份保留挑战

斯坦福吴佳俊扩散自蒸馏来了!突破文生图身份保留挑战

斯坦福吴佳俊扩散自蒸馏来了!突破文生图身份保留挑战

艺术家们该高兴了。


近年来,文本到图像扩散模型为图像合成树立了新标准,现在模型可根据文本提示生成高质量、多样化的图像。然而,尽管这些模型从文本生成图像的效果令人印象深刻,但它们往往无法提供精确的控制、可编辑性和一致性 —— 而这些特性对于实际应用至关重要。

15 0 2025-09-04
WonderWorld – 斯坦福和MIT联合推出的生成多样化连贯3D场景AI框架

WonderWorld – 斯坦福和MIT联合推出的生成多样化连贯3D场景AI框架

WonderWorld是斯坦福大学和麻省理工学院共同推出的创新性3D场景生成框架,能从单张图片快速生成多样化且连贯的3D虚拟世界。基于核心的Fast LAyered Gaussian Surfels (FLAGS)表示法和引导深度扩散技术,框架在不到10秒的时间内完成场景的生成,极大地提高3D场景创建的速度,保证新旧场景之间的几何一致性。
23 0 2025-08-31
WonderPlay – 斯坦福联合犹他大学推出的动态3D场景生成框架

WonderPlay – 斯坦福联合犹他大学推出的动态3D场景生成框架

WonderPlay 是斯坦福大学联合犹他大学推出的新型框架,支持从单张图片和用户定义的动作生成动态3D场景。基于结合物理模拟和视频生成技术,用物理求解器模拟粗略的3D动态,再驱动视频生成器合成更逼真的视频,用视频更新动态3D场景,实现模拟与生成的闭环。
18 0 2025-08-31
VideoAgent – 斯坦福联合多所研究机构推出自改进的视频生成系统

VideoAgent – 斯坦福联合多所研究机构推出自改进的视频生成系统

VideoAgent是一种自改进的视频生成系统,由斯坦福大学、滑铁卢大学、DeepMind等机构的研究人员共同推出。根据图像观察和语言指令生成视频计划,转换为机器人控制动作。VideoAgent基于自我条件一致性方法细化视频计划,用预训练的视觉-语言模型(VLM)反馈进行迭代优化。
19 0 2025-08-31
OctoTools – 斯坦福推出解决复杂推理任务的开源智能体框架

OctoTools – 斯坦福推出解决复杂推理任务的开源智能体框架

OctoTools 是斯坦福大学推出的开源智能体框架,基于可扩展的工具解决复杂的推理任务。OctoTools用标准化的工具卡片(tool cards)封装工具功能,无需额外训练即可集成新工具。框架包含规划器(planner)用在高阶和低阶规划,执行器(executor)用在执行工具调用。
19 0 2025-08-30