neng8科技快讯网AI人工智能前沿资讯_汽车数码相机评测_手机电脑硬件百科

Aria-baidu09UI – 港大联合 Rhymes AI 开源面向 GUI 智能交互的多模态模型

admin|
24

Aria-UI是香港大学和Rhymes AI共同推出的为图形用户界面(GUI)定位任务设计的大型多模态模型。基于纯视觉方法,不依赖于HTML或AXTree等辅助输入,用大规模、多样化的数据合成流程,从Common Crawl和公开数据中生成高质量的元素描述和指令样本,适应不同环境下的多样化指令。Aria-UI创新性地整合动态动作历史信息,用文本或文本-图像交错格式增强模型在多步任务场景中的定位能力。在包括离线和在线代理任务的广泛基准测试中,Aria-UI均取得优异的性能,展现出强大的零样本泛化能力和跨平台适用性,成为通用GUI定位任务的有力解决方案。

(图片来源网络,侵删)
(图片来源网络,侵删)