neng8科技快讯网AI人工智能前沿资讯_汽车数码相机评测_手机电脑硬件百科

突破AI视觉“选择性失明”，哈工大首次实现指令驱动的全景式感知

对于AI视觉多模态大模型只关注显著信息这一根本性缺陷，哈工大GiVE实现突破！

当今的多模态大模型（如BLIP-2、LLaVA）看似可以理解图像，实则存在一个根本性的缺陷：

它们像戴着“眼罩”的观察者，只能关注图片中最显眼的主体，却对用户关心的细节视而不见。

例如，当被问及“图中左侧的自行车”或“背景广告牌上的文字”时，模型常因视觉编码器的“视野局限”而答非所问——要么误判对象位置，要么完全忽略非显著信息。

20 0 2025-09-03

‹‹ 1 ››

您好，欢迎到访网站！
查看权限