neng8科技快讯网AI人工智能前沿资讯_汽车数码相机评测_手机电脑硬件百科

ScreenAgent – 基于视觉语言模型的计算机控制智能体

ScreenAgent – 基于视觉语言模型的计算机控制智能体

ScreenAgent是一个由吉林大学人工智能学院的研究团队开发的计算机控制智能体,该智能体是基于视觉语言模型(VLM)构建的,能够与真实计算机屏幕进行交互。ScreenAgent的核心功能是通过观察屏幕截图,并输出相应的鼠标和键盘动作来操纵图形用户界面(GUI),从而执行多步骤的复杂任务。
18 0 2025-08-30