HuggingFace镜像/internlm2-7b
模型介绍文件和版本分析
下载使用量0

InternLM

 
InternLM HOT
 
(https://github.com/internLM/OpenCompass/)

💻GitHub 代码库 • 🤔问题反馈 • 📜技术报告

修改说明

针对 openMind 的修改。

简介

InternLM 模型的第二代产品——InternLM2,包含 7B 和 20B 两个规模的模型。为方便用户与研究人员使用,我们开源了每个规模模型的四个版本,分别是:

  • internlm2-base:高品质、高适应性的模型基座,是进行深度领域适配的优秀起点。
  • internlm2(推荐):在 internlm2-base 的基础上,进一步采用领域特定语料进行预训练。该版本在评估中表现出色,同时保持了稳健的通用语言能力,是我们为大多数应用场景推荐的选择。
  • internlm2-chat-sft:基于 Base 模型,进行了有监督人类对齐训练。
  • internlm2-chat(推荐):在 internlm2-chat-sft 的基础上,通过 RLHF 技术优化了对话交互能力,在指令遵循、共情聊天和工具调用方面表现卓越。

InternLM2 的基础模型具有以下技术特点:

  • 有效支持长达 20 万个字符的超长上下文:模型在 20 万字符的长输入中近乎完美地实现了“大海捞针”任务。在 LongBench 和 L-Eval 等长文本任务上的性能也领先于开源模型。
  • 综合性能提升:与上一代模型相比,在推理、数学、代码等多项能力上均有显著提升。

InternLM2-7B

性能评估

我们使用开源评估工具OpenCompass在多个重要基准上对InternLM2进行了评估。部分评估结果如下表所示。欢迎访问OpenCompass排行榜获取更多评估结果。

数据集/模型InternLM2-7BInternLM2-Chat-7BInternLM2-20BInternLM2-Chat-20BChatGPTGPT-4
MMLU65.863.767.766.569.183.0
AGIEval49.947.253.050.339.955.1
BBH65.061.272.168.370.186.7
GSM8K70.870.776.179.678.291.4
MATH20.223.025.531.928.045.8
HumanEval43.359.848.867.173.274.4
MBPP(Sanitized)51.851.463.065.878.979.0
  • 评估结果来源于OpenCompass,评估配置可参见OpenCompass提供的配置文件。
  • 由于OpenCompass的版本迭代,评估数据可能存在数值差异,因此请以OpenCompass的最新评估结果为准。

局限性:尽管我们在训练过程中已尽力确保模型的安全性,并鼓励模型生成符合伦理和法律要求的文本,但由于模型的规模和概率生成范式,仍可能产生意外输出。例如,生成的回复可能包含偏见、歧视或其他有害内容。请勿传播此类内容。对于因传播有害信息而导致的任何后果,我们不承担责任。

在openMind中使用

环境变量

export PYTHONPATH={path}/mindformers:$PYTHONPATH
export OPENMIND_FRAMEWORK=ms

推理

cd examples
python inference.py

开源许可协议

代码采用 Apache-2.0 许可协议,模型权重完全开放供学术研究使用,同时允许免费商业用途。如需申请商业许可,请填写申请表(英文)或申请表(中文)。其他问题或合作事宜,请联系 internlm@pjlab.org.cn。

修改说明

修改了代码调用为openmind调用

简介

第二代浦语模型 InternLM2 包含 7B 和 20B 两个量级。为方便用户使用与研究,每个量级我们共开源四个版本的模型,分别是:

  • internlm2-base:高质量且具备强可塑性的模型基座,是进行深度领域适配的优质起点;
  • internlm2(推荐):在 internlm2-base 的基础上,进一步在特定领域语料上预训练,评测成绩优异,同时保持了良好的通用语言能力,是我们推荐在多数应用中选用的优秀基座;
  • internlm2-chat-sft:在 Base 基础上,进行有监督的人类对齐训练;
  • internlm2-chat(推荐):在 internlm2-chat-sft 基础上,经过 RLHF 优化,面向对话交互场景,具备出色的指令遵循、共情聊天及工具调用等能力。

InternLM2 基础模型具备以下技术特点:

  • 有效支持 20 万字超长上下文:模型在 20 万字长输入中几乎能完美实现长文“大海捞针”,且在 LongBench 和 L-Eval 等长文本任务中的表现达到开源模型领先水平。
  • 综合性能全面提升:各能力维度较上一代模型均有全面进步,在推理、数学、代码等方面的能力提升尤为显著。

InternLM2-7B

性能评测

我们使用开源评测工具 OpenCompass 对 InternLM2 在多个重要评测集上进行了评估,部分评测结果如下表所示。欢迎访问 OpenCompass 榜单 获取更多评测结果。

评测集InternLM2-7BInternLM2-Chat-7BInternLM2-20BInternLM2-Chat-20BChatGPTGPT-4
MMLU65.863.767.766.569.183.0
AGIEval49.947.253.050.339.955.1
BBH65.061.272.168.370.186.7
GSM8K70.870.776.179.678.291.4
MATH20.223.025.531.928.045.8
HumanEval43.359.848.867.173.274.4
MBPP(Sanitized)51.851.463.065.878.979.0
  • 以上评测结果基于 OpenCompass 获得(部分数据标注 * 代表数据来自原始论文),具体测试细节可参见 OpenCompass 中提供的配置文件。
  • 评测数据会因 OpenCompass 的版本迭代而存在数值差异,请以 OpenCompass 最新版的评测结果为准。

局限性: 尽管在训练过程中我们高度重视模型的安全性,尽力确保模型输出符合伦理和法律要求的文本,但受限于模型规模及概率生成范式,模型仍可能产生各类不符合预期的输出,例如回复内容包含偏见、歧视等有害信息。请勿传播此类内容。对于因传播不良信息导致的任何后果,本项目不承担责任。

通过openMind使用

环境变量

export PYTHONPATH={path}/mindformers:$PYTHONPATH
export OPENMIND_FRAMEWORK=ms

推理

cd examples
python inference.py

开源许可证

本仓库的代码依照 Apache-2.0 协议开源。模型权重对学术研究完全开放,也可申请免费的商业使用授权(申请表)。其他问题与合作请联系 internlm@pjlab.org.cn。