neng8科技快讯网AI人工智能前沿资讯_汽车数码相机评测_手机电脑硬件百科

CVPR 2025 - Qwen让AI「看见」三维世界,SeeGround实现零样本开放词汇3D视觉定位

CVPR 2025 - Qwen让AI「看见」三维世界,SeeGround实现零样本开放词汇3D视觉定位

CVPR 2025 | Qwen让AI「看见」三维世界,SeeGround实现零样本开放词汇3D视觉定位

3D 视觉定位(3D Visual Grounding, 3DVG)是智能体理解和交互三维世界的重要任务,旨在让 AI 根据自然语言描述在 3D 场景中找到指定物体。


具体而言,给定一个 3D 场景和一段文本描述,模型需要准确预测目标物体的 3D 位置,并以 3D 包围框的形式输出。


相比于传统的目标检测任务,3DVG 需要同时理解文本、视觉和空间信息,挑战性更高。

19 0 2025-09-03
CVPR 2024|生成不了光线极强的图片?微信视觉团队有效解决扩散模型奇点问题

CVPR 2024|生成不了光线极强的图片?微信视觉团队有效解决扩散模型奇点问题

CVPR 2024|生成不了光线极强的图片?微信视觉团队有效解决扩散模型奇点问题

扩散模型凭借其在图像生成方面的出色表现,开启了生成式模型的新纪元。诸如 Stable Diffusion,DALLE,Imagen,SORA 等大模型如雨后春笋般涌现,进一步丰富了生成式 AI 的应用前景。然而,当前的扩散模型在理论上并非完美,鲜有研究关注到采样时间端点处未定义的奇点问题。此外,奇点问题在应用中导致的平均灰度等影响生成图像质量的问题也一直未得到解决。


16 0 2025-09-03