分享
1.6 模型 · CogAgent系列
输入“/”快速插入内容
1.6 模型 · CogAgent
系列
2025年8月13日修改
📌
•
Github 官方仓库:
https://github.com/THUDM/CogAgent
•
在线体验:
https://huggingface.co/spaces/THUDM-HF-SPACE/CogAgent-Demo
•
模型下载:
https://huggingface.co/THUDM/cogagent1.5-9b
•
技术支持:请到
github issue
提问
模型介绍
本仓库是是 CogAgent 的代码仓库。
CogAgent-9B
-20241220
是 我们基于
GLM-4V-9B
训练得到的一个专门用于
GUI
Agent任务的模型。
😀
什么是GUI Agent?
GUI Agent(图形用户界面智能体)是一种基于多模态视觉模型的人工智能模型/系统,能够自动推理并执行用户界面的交互操作,模拟人类用户的行为,如点击、输入、拖拽、读取界面信息等,以完成指定的任务。
CogAgent是一个GUI Agent模型。能模拟用户鼠标点击,键盘输入等图形化界面的操作工作。
CogAgent-9B-20241220
是一款先进的智能体,它具备强大的跨平台兼容性,能够实现对多种计算设备上的图形界面进行自动化的操作。无论是Windows、macOS还是Android系统,
CogAgent-9B-20241220
都能够接收用户指令,自动获取设备屏幕截图,经过模型推理后执行自动化设备操作。
视频展示链接,欢迎点击查看效果!
https://github.com/user-attachments/assets/4d39fe6a-d460-427c-a930-b7cbe0d082f5
https://github.com/user-attachments/assets/87f00f97-1c4f-4152-b7c0-d145742cb910
快速阅览
我们在文档不同的位置进行了详细的介绍,您可以点击进入并查看具体的技术文档。
请开发者仔细阅读 提示词拼接和 模型行为文档以减少开发过程中的困难。
🏠 公众号
50%
❤️ 交流群
50%