neng8科技快讯网AI人工智能前沿资讯_汽车数码相机评测_手机电脑硬件百科

CVPR 2025 Highlight - 国科大等新方法破译多模态「黑箱」,精准揪出犯错元凶

CVPR 2025 Highlight - 国科大等新方法破译多模态「黑箱」,精准揪出犯错元凶

CVPR 2025 Highlight | 国科大等新方法破译多模态「黑箱」,精准揪出犯错元凶

AI 决策的可靠性与安全性是其实际部署的核心挑战。当前智能体广泛依赖复杂的机器学习模型进行决策,但由于模型缺乏透明性,其决策过程往往难以被理解与验证,尤其在关键场景中,错误决策可能带来严重后果。因此,提升模型的可解释性成为迫切需求。


目前已有的解释方法,如 Shapley Value、Integrated Gradients、Attention、Gradient(如 Grad-CAM)以及 Perturbation 等,虽然在小规模模型中取得了较好的解释效果,但在面对多模态任务或大规模模型时,均存在不同程度的局限性,难以直接扩展或适用。因此,

17 0 2025-09-04
CVPR 2025 - Qwen让AI「看见」三维世界,SeeGround实现零样本开放词汇3D视觉定位

CVPR 2025 - Qwen让AI「看见」三维世界,SeeGround实现零样本开放词汇3D视觉定位

CVPR 2025 | Qwen让AI「看见」三维世界,SeeGround实现零样本开放词汇3D视觉定位

3D 视觉定位(3D Visual Grounding, 3DVG)是智能体理解和交互三维世界的重要任务,旨在让 AI 根据自然语言描述在 3D 场景中找到指定物体。


具体而言,给定一个 3D 场景和一段文本描述,模型需要准确预测目标物体的 3D 位置,并以 3D 包围框的形式输出。


相比于传统的目标检测任务,3DVG 需要同时理解文本、视觉和空间信息,挑战性更高。

18 0 2025-09-03