
CVPR 2025 - Qwen让AI「看见」三维世界,SeeGround实现零样本开放词汇3D视觉定位
CVPR 2025 | Qwen让AI「看见」三维世界,SeeGround实现零样本开放词汇3D视觉定位
3D 视觉定位(3D Visual Grounding, 3DVG)是智能体理解和交互三维世界的重要任务,旨在让 AI 根据自然语言描述在 3D 场景中找到指定物体。
具体而言,给定一个 3D 场景和一段文本描述,模型需要准确预测目标物体的 3D 位置,并以 3D 包围框的形式输出。
相比于传统的目标检测任务,3DVG 需要同时理解文本、视觉和空间信息,挑战性更高。
19
0
2025-09-03