
微软GUI智能体OmniParser二代开源!推理延迟降低60%,大模型玩手机更溜了
微软GUI智能体OmniParser二代开源!推理延迟降低60%,大模型玩手机更溜了
图形用户界面(GUI)自动化需要智能体具备理解和交互用户屏幕的能力。
然而,使用通用大型语言模型(LLM)作为GUI智能体仍然存在难点:1)如何可靠地识别用户界面中的可交互图标,以及 2)理解截图中各种元素的语义,并准确地将预期的操作与屏幕上的相应区域关联起来。
OmniParser通过将UI截图从像素空间「token化」为LLM可解释的结构化元素,弥合了这一差距,使得LLM能够在一组已解析的可交互元素基础上进行基于检索的下一步动作预测。
16
0
2025-09-03