HuggingFace镜像/internlm2-20b
模型介绍文件和版本分析
下载使用量0

InternLM

 
InternLM HOT
 
(https://github.com/internLM/OpenCompass/)

💻Github 代码库 • 🤔问题反馈 • 📜技术报告

修改说明

为 openMind 进行的修改。

简介

InternLM 模型的第二代产品——InternLM2,包含 7B 和 20B 两个规模的模型。为方便用户与科研人员使用,我们开源了每个规模模型的四个版本,分别是:

  • internlm2-base:高品质、高适应性的模型基座,是进行深度领域适配的优秀起点。
  • internlm2(推荐):在 internlm2-base 的基础上,进一步在特定领域语料上进行预训练。该版本在评估中表现卓越,同时保持了强大的通用语言能力,是我们为大多数应用场景推荐的选择。
  • internlm2-chat-sft:基于 Base 模型,进行了有监督的人类对齐训练。
  • internlm2-chat(推荐):在 internlm2-chat-sft 的基础上,通过 RLHF 优化了对话交互能力,在指令遵循、共情聊天和工具调用方面表现出色。

InternLM2 的基座模型具有以下技术特点:

  • 有效支持长达 20 万字符的超长上下文:模型在 20 万字符的长输入中几乎完美实现“大海捞针”任务。在 LongBench、L-Eval 等长文本任务上的性能也在开源模型中处于领先地位。
  • 综合性能提升:与上一代模型相比,在推理、数学、代码等各项能力上均有显著提升。

InternLM2-20B

性能评估

我们使用开源评测工具OpenCompass在多个重要基准上对InternLM2进行了评估。部分评估结果如下表所示。欢迎访问OpenCompass排行榜获取更多评估结果。

数据集/模型InternLM2-7BInternLM2-Chat-7BInternLM2-20BInternLM2-Chat-20BChatGPTGPT-4
MMLU65.863.767.766.569.183.0
AGIEval49.947.253.050.339.955.1
BBH65.061.272.168.370.186.7
GSM8K70.870.776.179.678.291.4
MATH20.223.025.531.928.045.8
HumanEval43.359.848.867.173.274.4
MBPP(Sanitized)51.851.463.065.878.979.0
  • 评估结果来自OpenCompass,评估配置可在OpenCompass提供的配置文件中找到。
  • 由于OpenCompass的版本迭代,评估数据可能存在数值差异,因此请以OpenCompass的最新评估结果为准。

局限性:尽管我们在训练过程中已尽力确保模型的安全性,并鼓励模型生成符合伦理和法律要求的文本,但由于模型的规模和概率生成范式,模型仍可能产生意外输出。例如,生成的响应可能包含偏见、歧视或其他有害内容。请勿传播此类内容。对于因传播有害信息而导致的任何后果,我们不承担责任。

在openMind中使用

环境变量

export PYTHONPATH={path}/mindformers:$PYTHONPATH
export OPENMIND_FRAMEWORK=ms

推理

cd examples
python inference.py

开源许可协议

代码采用 Apache-2.0 许可协议,模型权重则完全开放供学术研究使用,同时允许免费商业用途。如需申请商业许可,请填写申请表(英文)/申请表(中文)。其他问题或合作事宜,请联系 internlm@pjlab.org.cn。

修改说明

修改了代码调用为openmind调用

简介

第二代浦语模型, InternLM2 包含 7B 和 20B 两个量级的模型。为了方便用户使用和研究,每个量级的模型我们总共开源了四个版本的模型,他们分别是

  • internlm2-base: 高质量和具有很强可塑性的模型基座,是模型进行深度领域适配的高质量起点;
  • internlm2(推荐): 在internlm2-base基础上,进一步在特定领域的语料上进行预训练,在评测中成绩优异,同时保持了很好的通用语言能力,是我们推荐的在大部分应用中考虑选用的优秀基座;
  • internlm2-chat-sft:在Base基础上,进行有监督的人类对齐训练;
  • internlm2-chat(推荐):在internlm2-chat-sft基础上,经过RLHF,面向对话交互进行了优化,具有很好的指令遵循、共情聊天和调用工具等的能力。

InternLM2 的基础模型具备以下的技术特点

  • 有效支持20万字超长上下文:模型在20万字长输入中几乎完美地实现长文“大海捞针”,而且在 LongBench 和 L-Eval 等长文任务中的表现也达到开源模型中的领先水平。
  • 综合性能全面提升:各能力维度相比上一代模型全面进步,在推理、数学、代码等方面的能力提升显著。

InternLM2-20B

性能评测

我们使用开源评测工具 OpenCompass 对 InternLM2 在几个重要的评测集进行了评测 ,部分评测结果如下表所示,欢迎访问 OpenCompass 榜单 获取更多的评测结果。

评测集InternLM2-7BInternLM2-Chat-7BInternLM2-20BInternLM2-Chat-20BChatGPTGPT-4
MMLU65.863.767.766.569.183.0
AGIEval49.947.253.050.339.955.1
BBH65.061.272.168.370.186.7
GSM8K70.870.776.179.678.291.4
MATH20.223.025.531.928.045.8
HumanEval43.359.848.867.173.274.4
MBPP(Sanitized)51.851.463.065.878.979.0
  • 以上评测结果基于 OpenCompass 获得(部分数据标注*代表数据来自原始论文),具体测试细节可参见 OpenCompass 中提供的配置文件。
  • 评测数据会因 OpenCompass 的版本迭代而存在数值差异,请以 OpenCompass 最新版的评测结果为主。

局限性: 尽管在训练过程中我们非常注重模型的安全性,尽力促使模型输出符合伦理和法律要求的文本,但受限于模型大小以及概率生成范式,模型可能会产生各种不符合预期的输出,例如回复内容包含偏见、歧视等有害内容,请勿传播这些内容。由于传播不良信息导致的任何后果,本项目不承担责任。

通过openMind使用

环境变量

export PYTHONPATH={path}/mindformers:$PYTHONPATH
export OPENMIND_FRAMEWORK=ms

推理

cd examples
python inference.py

开源许可证

本仓库的代码依照 Apache-2.0 协议开源。模型权重对学术研究完全开放,也可申请免费的商业使用授权(申请表)。其他问题与合作请联系 internlm@pjlab.org.cn。