输入“/”快速插入内容

ChatGLM-3-6B 技术文档

本文讨论了ChatGLM-3-6B技术文档相关内容,介绍了GLM-4-9B开源模型推出后ChatGLM3-6B模型维护频率变化,阐述了ChatGLM3的特点、模型基础、技术报告等多方面信息。关键要点包括:
1.
模型更新:GLM-4-9B开源模型已推出,在多指标上有较大提升,ChatGLM3-6B模型维护频率可能降低。
2.
ChatGLM3特点:有更强大基础模型,ChatGLM3-6B-Base在10B以下基础模型中性能最强;有更完整功能支持,采用新Prompt格式,原生支持复杂场景;有更全面开源序列,多个模型权重对学术研究开放,登记后可免费商业使用。
3.
模型基础:ChatGLM系列基于autoregressive blank infilling的通用语言模型(GLM),解决预训练框架选型挑战。
4.
技术报告:给出了相关论文地址。
5.
相关资源:提供了快速使用、进阶等多方面技术文档指引,还给出官方网站、智谱清言、API开放平台、Github仓库等信息。
6.
反馈合作:说明了错误反馈方式,以及合作、贡献的联系途径和邮箱。
📍
GLM-4-9B 开源模型已经推出,欢迎使用我们最新的开源模型,在多个指标上均有较大的提升,GLM-4-9B开源模型技术文档详见 GLM-4-9B 技术文档
ChatGLM3-6B 模型的维护频率可能稍有降低。如果您对 GLM-4-9B 模型有更多疑问,欢迎前往
🎉
作者:智谱团队
Github 官方仓库:https://github.com/THUDM/ChatGLM3
技术支持:请到 github issue 提问
简介
ChatGLM3 是智谱AI与清华大学KEG实验室联合发布的新一代对话预训练模型。在第二代ChatGLM 的基础之上,
1.
更强大的基础模型: ChatGLM3-6B 的基础模型 ChatGLM3-6B-Base 采用了更多样的训练数据、更充分的训练步数和更合理的训练策略。在语义、数学、推理、代码、知识等不同角度的数据集上测评显示,ChatGLM3-6B-Base 具有在 10B 以下的基础模型中最强的性能
2.
更完整的功能支持: ChatGLM3-6B 采用了全新设计的 Prompt 格式,除正常的多轮对话外。同时原生支持工具调用(Function Call)、代码执行(Code Interpreter)和 Agent 任务等复杂场景。
3.
更全面的开源序列: 除了对话模型 ChatGLM3-6B 外,还开源了基础模型 ChatGLM3-6B-Base、长文本对话模型 ChatGLM3-6B-32K。以上所有权重对学术研究完全开放,在填写问卷进行登记后亦允许免费商业使用
模型介绍
ChatGLM系列模型基于autoregressive blank infilling的通用语言模型(GLM)。为解决,在已有的自动编码模型(例如,BERT)、自回归模型(例如,GPT)和编码器-解码器模型(例如,T5)中,对不同的任务需要特殊的训练场景,预训练框架选型遇到的挑战。
技术报告和论文
@misc{glm2024chatglm,
title={ChatGLM: A Family of Large Language Models from GLM-130B to GLM-4 All Tools},
author={Team GLM and Aohan Zeng and Bin Xu and Bowen Wang and Chenhui Zhang and Da Yin and Diego Rojas and Guanyu Feng and Hanlin Zhao and Hanyu Lai and Hao Yu and Hongning Wang and Jiadai Sun and Jiajie Zhang and Jiale Cheng and Jiayi Gui and Jie Tang and Jing Zhang and Juanzi Li and Lei Zhao and Lindong Wu and Lucen Zhong and Mingdao Liu and Minlie Huang and Peng Zhang and Qinkai Zheng and Rui Lu and Shuaiqi Duan and Shudan Zhang and Shulin Cao and Shuxun Yang and Weng Lam Tam and Wenyi Zhao and Xiao Liu and Xiao Xia and Xiaohan Zhang and Xiaotao Gu and Xin Lv and Xinghan Liu and Xinyi Liu and Xinyue Yang and Xixuan Song and Xunkai Zhang and Yifan An and Yifan Xu and Yilin Niu and Yuantao Yang and Yueyan Li and Yushi Bai and Yuxiao Dong and Zehan Qi and Zhaoyu Wang and Zhen Yang and Zhengxiao Du and Zhenyu Hou and Zihan Wang},
year={2024},
eprint={2406.12793},
archivePrefix={arXiv},
primaryClass={id='cs.CL' full_name='Computation and Language' is_active=True alt_name='cmp-lg' in_archive='cs' is_general=False description='Covers natural language processing. Roughly includes material in ACM Subject Class I.2.7. Note that work on artificial languages (programming languages, logics, formal systems) that does not explicitly address natural-language issues broadly construed (natural-language processing, computational linguistics, speech, text retrieval, etc.) is not appropriate for this area.'}
}
快速阅览
我们在文档不同的位置进行了详细的介绍,您可以点击进入并查看具体的技术文档。