neng8科技快讯网AI人工智能前沿资讯_汽车数码相机评测_手机电脑硬件百科

突破AI视觉“选择性失明”,哈工大首次实现指令驱动的全景式感知

突破AI视觉“选择性失明”,哈工大首次实现指令驱动的全景式感知

突破AI视觉“选择性失明”,哈工大首次实现指令驱动的全景式感知

对于AI视觉多模态大模型只关注显著信息这一根本性缺陷,哈工大GiVE实现突破!


当今的多模态大模型(如BLIP-2、LLaVA)看似可以理解图像,实则存在一个根本性的缺陷:


它们像戴着“眼罩”的观察者,只能关注图片中最显眼的主体,却对用户关心的细节视而不见。


例如,当被问及“图中左侧的自行车”或“背景广告牌上的文字”时,模型常因视觉编码器的“视野局限”而答非所问——要么误判对象位置,要么完全忽略非显著信息。

20 0 2025-09-03