| CogAgent | CogVLM |
模型介绍 | CogAgent是一个经过CogVLM升级的开源视觉和语言模型。CogAgent-18B这个版本有110亿个用于处理图像的参数和70亿个用于处理语言的参数,它可以理解1120*1120分辨率的高清图像。除了CogVLM原有的功能外,CogAgent-18B还能处理图形用户界面(GUI)的图像。 CogAgent-18B在9个跨模态基准测试中达到了当前最先进的水平(SOTA),这些测试包括VQAv2、OK-VQA、TextVQA、ST-VQA、ChartQA、infoVQA、DocVQA、MM-Vet和POPE。同时,它在处理图形用户界面(GUI)操作的数据集上,比如AITW和Mind2Web,表现远超其他现有模型。 | CogVLM 是一个功能强大的开放视觉语言模型。CogVLM-17B 版本具有 170 亿参数,其中 100 亿用于处理视觉信息,70 亿用于处理语言信息。它能够理解和处理 490*490 分辨率的图像,并能够进行多轮对话。 在 10 个标准的跨模态基准测试中,CogVLM-17B 表现出了目前最先进的技术水平,这些测试包括 NoCaps、Flicker30k captioning、RefCOCO、RefCOCO+、RefCOCOg、Visual7W、GQA、ScienceQA、VizWiz VQA 和 TDIUC。 |
支持语言 | English | English |
Token Limit | 2048 | 2048 |
论文地址 |