输入“/”快速插入内容

CogVLM 技术文档

3月4日修改

2023年11月28日创建

本文讨论了智谱团队开发的CogVLM技术文档相关内容，介绍了CogVLM和CogAgent模型的组件、参数、性能、功能，还提及模型动态、信息汇总、价值观、交流渠道及反馈合作方式等。关键要点包括：

模型组件与参数：CogVLM由视觉转换器编码器、MLP适配器、预训练大型语言模型和视觉专家模块组成，CogVLM-17B有170亿参数；CogAgent-18B有110亿图像参数和70亿语言参数。

模型性能：CogVLM在多模态基准测试表现卓越；CogAgent-18B在9个跨模态基准测试达最先进水平，处理GUI操作数据集远超其他模型。

模型功能：CogVLM能理解处理490490分辨率图像并多轮对话；CogAgent-18B能理解11201120分辨率高清图像，还能处理GUI图像。

模型动态：2023年10月至12月期间有多项更新，如公开数据集、上线新界面、版本升级、支持量化等。

信息汇总：提供官方网站、智谱清言、API开放平台、Github仓库等链接。

价值观：让机器像人一样思考。

反馈合作：说明错误反馈方式及合作、贡献的联系途径。

📌

•
作者：智谱团队​

•

Github 官方仓库：https://github.com/THUDM/CogVLM

•
技术支持：请到 github issue 提问​

模型介绍

CogVLM 模型由四个基本组件组成：视觉转换器 （ViT） 编码器、MLP 适配器、预训练大型语言模型 （GPT） 和视觉专家模块。 ​

CogVLM 是一个功能强大的开放视觉语言模型。CogVLM-17B 版本具有 170 亿参数，其中 100 亿用于处理视觉信息，70 亿用于处理语言信息。它能够理解和处理 490*490 分辨率的图像，并能够进行多轮对话。从已有的预训练语言模型我们在保证纯语言模型相同的NLP性能前提下，使用视觉专家（Visual expert module）转换图像特征，向LLM模型每一层添加一个Visual expert module对齐不同的头部，从而实现深度融合。通过ViT编码器(EVA2-CLIP-E) 在word embedding latent 之后通过使用了一个 MLP 适配器，一个两层 MLP(SwiGLU)用于图像特征在语言模型中共享相同的位置 ID，以进行对比学习  。​

CogVLM有着卓越性能和鲁棒泛化性，源于我们对一系列多模态基准进行了定量评估。这些基准可分为三大领域，涵盖全面的测量范围Image Captioning、Visual Question Answering、LVLM Benchmarks，在这些benchmarks中，Image Captioning相比同模型全面实现了SOTA或兼容性能,Visual Question Answering基准明显优于类似参数规模的模型，在所有7个LVLM Benchmarks中都取得了最先进的结果，明显超过了所有其他模型。它还优于使用较大语言模型的多模态模型​

CogAgent是一个经过CogVLM升级的开源视觉和语言模型。CogAgent-18B这个版本有110亿个用于处理图像的参数和70亿个用于处理语言的参数，它可以理解1120*1120分辨率的高清图像。除了CogVLM原有的功能外，CogAgent-18B还能处理图形用户界面（GUI）的图像。​

CogAgent-18B在9个跨模态基准测试中达到了当前最先进的水平（SOTA），这些测试包括VQAv2、OK-VQA、TextVQA、ST-VQA、ChartQA、infoVQA、DocVQA、MM-Vet和POPE。同时，它在处理图形用户界面（GUI）操作的数据集上，比如AITW和Mind2Web，表现远超其他现有模型。​

论文地址

📌

CogVLM: Visual Expert for Pretrained Language Models

CogAgent: A Visual Language Model for GUI Agents

模型动态

🎉

更新细节：

🔥 News:2023/12/26 我们公开了 CogVLM-SFT-311K 数据集，它包含了超过15万条我们用于训练 CogVLM v1.0(仅该模型) 的数据。欢迎关注和使用。​

🔥 News:2023/12/18新的 Streamlit用户界面 已经上线！我们已经基于Streamlit推出了新的网页用户界面，用户可以在我们的界面上轻松与CogVLM，CogAgent交谈。带来更好的用户体验。​

🔥 News:2023/12/15 CogAgent上线。CogAgent 是在CogVLM基础上开发并优化的图像理解模型。它具备基于视觉的图形用户界面（GUI）代理能力，并且在图像理解方面有更进一步的提升。CogAgent 可以处理 1120*1120 分辨率的图像输入，并具备图像多轮对话、GUI 代理以及定位等多种能力。​