💻 Github 仓库 • 🐦 Twitter • 📃 [GLM@ACL 22] [GitHub] • 📃 [GLM-130B@ICLR 23] [GitHub]
📍在 chatglm.cn 体验更大规模的 ChatGLM 模型
修改了代码调用为openmind调用
ChatGLM3-6B-32K在ChatGLM3-6B的基础上进一步强化了对于长文本的理解能力,能够更好的处理最多32K长度的上下文。具体地,我们对位置编码进行了更新,并设计了更有针对性的长文本训练方法,在对话阶段使用 32K 的上下文长度训练。在实际的使用中,如果您面临的上下文长度基本在 8K 以内,我们推荐使用ChatGLM3-6B;如果您需要处理超过 8K 的上下文长度,我们推荐使用ChatGLM3-6B-32K。
ChatGLM3-6B 是 ChatGLM 系列最新一代的开源模型,在保留了前两代模型对话流畅、部署门槛低等众多优秀特性的基础上,ChatGLM3-6B 引入了如下特性:
ChatGLM3-6B-32K基于ChatGLM3-6B进一步增强了长文本理解能力,能够更好地处理最长32K长度的上下文。具体而言,我们更新了位置编码,并设计了更具针对性的长文本训练方法,在对话阶段采用32K的上下文长度进行训练。在实际使用中,如果您的上下文长度基本在8K以内,我们推荐使用ChatGLM3-6B;如果您需要处理超过8K的上下文长度,建议使用ChatGLM3-6B-32K。
ChatGLM3-6B是ChatGLM系列的最新开源模型,在保留前两代模型对话流畅、部署门槛低等诸多优秀特性的基础上,引入了以下新特性:
export PYTHONPATH={path}/mindformers:$PYTHONPATH
export OPENMIND_FRAMEWORK=mscd examples
python inference.py关于更多的使用说明,包括如何运行命令行和网页版本的 DEMO,以及使用模型量化以节省显存,请参考我们的 Github Repo。
For more instructions, including how to run CLI and web demos, and model quantization, please refer to our Github Repo.
本仓库的代码依照 Apache-2.0 协议开源,ChatGLM3-6B 模型的权重的使用则需要遵循 Model License。
The code in this repository is open-sourced under the Apache-2.0 license, while the use of the ChatGLM3-6B model weights needs to comply with the Model License.