InternLM

InternLM ^HOT

(https://github.com/internLM/OpenCompass/)

💻Github 代码库 • 🤔问题反馈 • 📜技术报告

修改说明

为 openMind 进行的修改。

简介

InternLM 模型的第二代产品——InternLM2，包含 7B 和 20B 两个规模的模型。为方便用户与科研人员使用，我们开源了每个规模模型的四个版本，分别是：

internlm2-base：高品质、高适应性的模型基座，是进行深度领域适配的优秀起点。
internlm2（推荐）：在 internlm2-base 的基础上，进一步在特定领域语料上进行预训练。该版本在评估中表现卓越，同时保持了强大的通用语言能力，是我们为大多数应用场景推荐的选择。
internlm2-chat-sft：基于 Base 模型，进行了有监督的人类对齐训练。
internlm2-chat（推荐）：在 internlm2-chat-sft 的基础上，通过 RLHF 优化了对话交互能力，在指令遵循、共情聊天和工具调用方面表现出色。

InternLM2 的基座模型具有以下技术特点：

有效支持长达 20 万字符的超长上下文：模型在 20 万字符的长输入中几乎完美实现“大海捞针”任务。在 LongBench、L-Eval 等长文本任务上的性能也在开源模型中处于领先地位。
综合性能提升：与上一代模型相比，在推理、数学、代码等各项能力上均有显著提升。

InternLM2-20B

性能评估

我们使用开源评测工具OpenCompass在多个重要基准上对InternLM2进行了评估。部分评估结果如下表所示。欢迎访问OpenCompass排行榜获取更多评估结果。

数据集/模型	InternLM2-7B	InternLM2-Chat-7B	InternLM2-20B	InternLM2-Chat-20B	ChatGPT	GPT-4
MMLU	65.8	63.7	67.7	66.5	69.1	83.0
AGIEval	49.9	47.2	53.0	50.3	39.9	55.1
BBH	65.0	61.2	72.1	68.3	70.1	86.7
GSM8K	70.8	70.7	76.1	79.6	78.2	91.4
MATH	20.2	23.0	25.5	31.9	28.0	45.8
HumanEval	43.3	59.8	48.8	67.1	73.2	74.4
MBPP(Sanitized)	51.8	51.4	63.0	65.8	78.9	79.0

评估结果来自OpenCompass，评估配置可在OpenCompass提供的配置文件中找到。
由于OpenCompass的版本迭代，评估数据可能存在数值差异，因此请以OpenCompass的最新评估结果为准。

局限性：尽管我们在训练过程中已尽力确保模型的安全性，并鼓励模型生成符合伦理和法律要求的文本，但由于模型的规模和概率生成范式，模型仍可能产生意外输出。例如，生成的响应可能包含偏见、歧视或其他有害内容。请勿传播此类内容。对于因传播有害信息而导致的任何后果，我们不承担责任。

在openMind中使用

环境变量

export PYTHONPATH={path}/mindformers:$PYTHONPATH
export OPENMIND_FRAMEWORK=ms

推理

cd examples
python inference.py

开源许可协议

代码采用 Apache-2.0 许可协议，模型权重则完全开放供学术研究使用，同时允许免费商业用途。如需申请商业许可，请填写申请表（英文）/申请表（中文）。其他问题或合作事宜，请联系 internlm@pjlab.org.cn。

修改说明

修改了代码调用为openmind调用

简介

第二代浦语模型， InternLM2 包含 7B 和 20B 两个量级的模型。为了方便用户使用和研究，每个量级的模型我们总共开源了四个版本的模型，他们分别是

internlm2-base: 高质量和具有很强可塑性的模型基座，是模型进行深度领域适配的高质量起点；
internlm2（推荐）: 在internlm2-base基础上，进一步在特定领域的语料上进行预训练，在评测中成绩优异，同时保持了很好的通用语言能力，是我们推荐的在大部分应用中考虑选用的优秀基座；
internlm2-chat-sft：在Base基础上，进行有监督的人类对齐训练；
internlm2-chat（推荐）：在internlm2-chat-sft基础上，经过RLHF，面向对话交互进行了优化，具有很好的指令遵循、共情聊天和调用工具等的能力。

InternLM2 的基础模型具备以下的技术特点

有效支持20万字超长上下文：模型在20万字长输入中几乎完美地实现长文“大海捞针”，而且在 LongBench 和 L-Eval 等长文任务中的表现也达到开源模型中的领先水平。
综合性能全面提升：各能力维度相比上一代模型全面进步，在推理、数学、代码等方面的能力提升显著。

InternLM2-20B

性能评测

我们使用开源评测工具 OpenCompass 对 InternLM2 在几个重要的评测集进行了评测，部分评测结果如下表所示，欢迎访问 OpenCompass 榜单获取更多的评测结果。

评测集	InternLM2-7B	InternLM2-Chat-7B	InternLM2-20B	InternLM2-Chat-20B	ChatGPT	GPT-4
MMLU	65.8	63.7	67.7	66.5	69.1	83.0
AGIEval	49.9	47.2	53.0	50.3	39.9	55.1
BBH	65.0	61.2	72.1	68.3	70.1	86.7
GSM8K	70.8	70.7	76.1	79.6	78.2	91.4
MATH	20.2	23.0	25.5	31.9	28.0	45.8
HumanEval	43.3	59.8	48.8	67.1	73.2	74.4
MBPP(Sanitized)	51.8	51.4	63.0	65.8	78.9	79.0

以上评测结果基于 OpenCompass 获得（部分数据标注*代表数据来自原始论文），具体测试细节可参见 OpenCompass 中提供的配置文件。
评测数据会因 OpenCompass 的版本迭代而存在数值差异，请以 OpenCompass 最新版的评测结果为主。

局限性： 尽管在训练过程中我们非常注重模型的安全性，尽力促使模型输出符合伦理和法律要求的文本，但受限于模型大小以及概率生成范式，模型可能会产生各种不符合预期的输出，例如回复内容包含偏见、歧视等有害内容，请勿传播这些内容。由于传播不良信息导致的任何后果，本项目不承担责任。

通过openMind使用

环境变量

export PYTHONPATH={path}/mindformers:$PYTHONPATH
export OPENMIND_FRAMEWORK=ms

推理

cd examples
python inference.py

开源许可证

本仓库的代码依照 Apache-2.0 协议开源。模型权重对学术研究完全开放，也可申请免费的商业使用授权（申请表）。其他问题与合作请联系 internlm@pjlab.org.cn。

InternLM

InternLM ^HOT

(https://github.com/internLM/OpenCompass/)

💻Github 代码库 • 🤔问题反馈 • 📜技术报告

修改说明

为 openMind 进行的修改。

简介

InternLM 模型的第二代产品——InternLM2，包含 7B 和 20B 两个规模的模型。为方便用户与科研人员使用，我们开源了每个规模模型的四个版本，分别是：

internlm2-base：高品质、高适应性的模型基座，是进行深度领域适配的优秀起点。
internlm2（推荐）：在 internlm2-base 的基础上，进一步在特定领域语料上进行预训练。该版本在评估中表现卓越，同时保持了强大的通用语言能力，是我们为大多数应用场景推荐的选择。
internlm2-chat-sft：基于 Base 模型，进行了有监督的人类对齐训练。
internlm2-chat（推荐）：在 internlm2-chat-sft 的基础上，通过 RLHF 优化了对话交互能力，在指令遵循、共情聊天和工具调用方面表现出色。

InternLM2 的基座模型具有以下技术特点：

有效支持长达 20 万字符的超长上下文：模型在 20 万字符的长输入中几乎完美实现“大海捞针”任务。在 LongBench、L-Eval 等长文本任务上的性能也在开源模型中处于领先地位。
综合性能提升：与上一代模型相比，在推理、数学、代码等各项能力上均有显著提升。

InternLM2-20B

性能评估

我们使用开源评测工具OpenCompass在多个重要基准上对InternLM2进行了评估。部分评估结果如下表所示。欢迎访问OpenCompass排行榜获取更多评估结果。

数据集/模型	InternLM2-7B	InternLM2-Chat-7B	InternLM2-20B	InternLM2-Chat-20B	ChatGPT	GPT-4
MMLU	65.8	63.7	67.7	66.5	69.1	83.0
AGIEval	49.9	47.2	53.0	50.3	39.9	55.1
BBH	65.0	61.2	72.1	68.3	70.1	86.7
GSM8K	70.8	70.7	76.1	79.6	78.2	91.4
MATH	20.2	23.0	25.5	31.9	28.0	45.8
HumanEval	43.3	59.8	48.8	67.1	73.2	74.4
MBPP(Sanitized)	51.8	51.4	63.0	65.8	78.9	79.0

评估结果来自OpenCompass，评估配置可在OpenCompass提供的配置文件中找到。
由于OpenCompass的版本迭代，评估数据可能存在数值差异，因此请以OpenCompass的最新评估结果为准。

在openMind中使用

环境变量

export PYTHONPATH={path}/mindformers:$PYTHONPATH
export OPENMIND_FRAMEWORK=ms

推理

cd examples
python inference.py

开源许可协议

修改说明

修改了代码调用为openmind调用

简介

第二代浦语模型， InternLM2 包含 7B 和 20B 两个量级的模型。为了方便用户使用和研究，每个量级的模型我们总共开源了四个版本的模型，他们分别是

internlm2-base: 高质量和具有很强可塑性的模型基座，是模型进行深度领域适配的高质量起点；
internlm2（推荐）: 在internlm2-base基础上，进一步在特定领域的语料上进行预训练，在评测中成绩优异，同时保持了很好的通用语言能力，是我们推荐的在大部分应用中考虑选用的优秀基座；
internlm2-chat-sft：在Base基础上，进行有监督的人类对齐训练；
internlm2-chat（推荐）：在internlm2-chat-sft基础上，经过RLHF，面向对话交互进行了优化，具有很好的指令遵循、共情聊天和调用工具等的能力。

InternLM2 的基础模型具备以下的技术特点

有效支持20万字超长上下文：模型在20万字长输入中几乎完美地实现长文“大海捞针”，而且在 LongBench 和 L-Eval 等长文任务中的表现也达到开源模型中的领先水平。
综合性能全面提升：各能力维度相比上一代模型全面进步，在推理、数学、代码等方面的能力提升显著。

InternLM2-20B

性能评测

我们使用开源评测工具 OpenCompass 对 InternLM2 在几个重要的评测集进行了评测，部分评测结果如下表所示，欢迎访问 OpenCompass 榜单获取更多的评测结果。

评测集	InternLM2-7B	InternLM2-Chat-7B	InternLM2-20B	InternLM2-Chat-20B	ChatGPT	GPT-4
MMLU	65.8	63.7	67.7	66.5	69.1	83.0
AGIEval	49.9	47.2	53.0	50.3	39.9	55.1
BBH	65.0	61.2	72.1	68.3	70.1	86.7
GSM8K	70.8	70.7	76.1	79.6	78.2	91.4
MATH	20.2	23.0	25.5	31.9	28.0	45.8
HumanEval	43.3	59.8	48.8	67.1	73.2	74.4
MBPP(Sanitized)	51.8	51.4	63.0	65.8	78.9	79.0

以上评测结果基于 OpenCompass 获得（部分数据标注*代表数据来自原始论文），具体测试细节可参见 OpenCompass 中提供的配置文件。
评测数据会因 OpenCompass 的版本迭代而存在数值差异，请以 OpenCompass 最新版的评测结果为主。

通过openMind使用

环境变量

export PYTHONPATH={path}/mindformers:$PYTHONPATH
export OPENMIND_FRAMEWORK=ms

推理

cd examples
python inference.py