neng8科技快讯网AI人工智能前沿资讯_汽车数码相机评测_手机电脑硬件百科

UniFluid – 谷歌联合麻省理工推出的多模态图像生成与理解框架

UniFluid – 谷歌联合麻省理工推出的多模态图像生成与理解框架

UniFluid 是谷歌 DeepMind 和麻省理工学院联合推出的,统一的自回归框架,用在联合视觉生成和理解任务。基于连续视觉标记处理多模态图像和文本输入,生成离散文本标记和连续图像标记。框架基于预训练的 Gemma 模型,用配对的图像-文本数据训练,让生成和理解任务相互促进。UniFluid 基于标准的 SentencePiece 作为文本标记器,用连续变分自编码器(VAE)作为图像生成的标记器,结合 SigLIP 图像编码器用在理解任务。
20 0 2025-08-31
FabricDiffusion – 谷歌联合卡内基梅隆大学推出的高保真度3D服装生成技术

FabricDiffusion – 谷歌联合卡内基梅隆大学推出的高保真度3D服装生成技术

FabricDiffusion是谷歌和卡内基梅隆大学共同推出的高保真度3D服装生成技术,能将现实世界中2D服装图像的纹理和印花高质量地转移到任意形状的3D服装模型上。FabricDiffusion基于去噪扩散模型和大规模合成数据集纠正输入纹理图像的失真,生成包括漫反射、粗糙度、法线和金属度在内的多种纹理贴图。
22 0 2025-08-28
谷歌借助Gemini AI系统深化对机器人的训练

谷歌借助Gemini AI系统深化对机器人的训练

7月12日,国际科技界传来新动态,谷歌正借助其先进的Gemini AI系统,深化对旗下机器人的训练,旨在显著提升它们的导航能力和任务执行能力。DeepMind机器人团队最新发布的研究论文,详细阐述了如何利用Gemini 1.5 Pro的强化长上下文窗口功能,极大地优化了用户通过自然语言指令与RT-2机器人交互的体验。
24 0 2025-08-27