1.6 模型 · CogAgent系列
1.6 模型 · CogAgent系列
2024年12月26日修改
本文讨论了CogAgent系列模型相关信息,包括其官方仓库、在线体验、模型下载等渠道,介绍了基于GLM - 4V - 9B训练的CogAgent - 9B - 20241220模型用于GUI Agent任务,还说明了GUI Agent概念及该模型特点等。关键要点包括:
1.
模型相关链接:Github官方仓库为https://github.com/THUDM/CogAgent ;在线体验地址是https://huggingface.co/spaces/THUDM - HF - SPACE/CogAgent - Demo;模型下载链接为https://huggingface.co/THUDM/cogagent1.5 - 9b 。
2.
技术支持:可到github issue提问获取技术支持。
3.
GUI Agent概念:是基于多模态视觉模型的人工智能模型/系统,能自动推理并执行用户界面交互操作,模拟人类如点击、输入等行为完成任务。
4.
CogAgent模型:是GUI Agent模型,能模拟图形化界面操作工作。
5.
CogAgent - 9B - 20241220特点:具备强大跨平台兼容性,可对Windows、macOS、Android系统图形界面进行自动化操作,接收指令、获取截图、推理后执行操作。
6.
视频展示链接:https://github.com/user - attachments/assets/4d39fe6a - d460 - 427c - a930 - b7cbe0d082f5 ;https://github.com/user - attachments/assets/87f00f97 - 1c4f - 4152 - b7c0 - d145742cb910 。
7.
开发者提示:仔细阅读提示词拼接和模型行为文档以减少开发困难。
📌
•
•
模型介绍
😀
什么是GUI Agent?
GUI Agent(图形用户界面智能体)是一种基于多模态视觉模型的人工智能模型/系统,能够自动推理并执行用户界面的交互操作,模拟人类用户的行为,如点击、输入、拖拽、读取界面信息等,以完成指定的任务。
CogAgent是一个GUI Agent模型。能模拟用户鼠标点击,键盘输入等图形化界面的操作工作。
CogAgent-9B-20241220 是一款先进的智能体,它具备强大的跨平台兼容性,能够实现对多种计算设备上的图形界面进行自动化的操作。无论是Windows、macOS还是Android系统,CogAgent-9B-20241220 都能够接收用户指令,自动获取设备屏幕截图,经过模型推理后执行自动化设备操作。