InternLM

InternLM ^HOT

(https://github.com/internLM/OpenCompass/)

💻GitHub 代码库 • 🤔问题反馈 • 📜技术报告

修改说明

针对 openMind 的修改。

简介

InternLM 模型的第二代产品——InternLM2，包含 7B 和 20B 两个规模的模型。为方便用户与研究人员使用，我们开源了每个规模模型的四个版本，分别是：

internlm2-base：高品质、高适应性的模型基座，是进行深度领域适配的优秀起点。
internlm2（推荐）：在 internlm2-base 的基础上，进一步采用领域特定语料进行预训练。该版本在评估中表现出色，同时保持了稳健的通用语言能力，是我们为大多数应用场景推荐的选择。
internlm2-chat-sft：基于 Base 模型，进行了有监督人类对齐训练。
internlm2-chat（推荐）：在 internlm2-chat-sft 的基础上，通过 RLHF 技术优化了对话交互能力，在指令遵循、共情聊天和工具调用方面表现卓越。

InternLM2 的基础模型具有以下技术特点：

有效支持长达 20 万个字符的超长上下文：模型在 20 万字符的长输入中近乎完美地实现了“大海捞针”任务。在 LongBench 和 L-Eval 等长文本任务上的性能也领先于开源模型。
综合性能提升：与上一代模型相比，在推理、数学、代码等多项能力上均有显著提升。

InternLM2-7B

性能评估

我们使用开源评估工具OpenCompass在多个重要基准上对InternLM2进行了评估。部分评估结果如下表所示。欢迎访问OpenCompass排行榜获取更多评估结果。

数据集/模型	InternLM2-7B	InternLM2-Chat-7B	InternLM2-20B	InternLM2-Chat-20B	ChatGPT	GPT-4
MMLU	65.8	63.7	67.7	66.5	69.1	83.0
AGIEval	49.9	47.2	53.0	50.3	39.9	55.1
BBH	65.0	61.2	72.1	68.3	70.1	86.7
GSM8K	70.8	70.7	76.1	79.6	78.2	91.4
MATH	20.2	23.0	25.5	31.9	28.0	45.8
HumanEval	43.3	59.8	48.8	67.1	73.2	74.4
MBPP(Sanitized)	51.8	51.4	63.0	65.8	78.9	79.0

评估结果来源于OpenCompass，评估配置可参见OpenCompass提供的配置文件。
由于OpenCompass的版本迭代，评估数据可能存在数值差异，因此请以OpenCompass的最新评估结果为准。

局限性：尽管我们在训练过程中已尽力确保模型的安全性，并鼓励模型生成符合伦理和法律要求的文本，但由于模型的规模和概率生成范式，仍可能产生意外输出。例如，生成的回复可能包含偏见、歧视或其他有害内容。请勿传播此类内容。对于因传播有害信息而导致的任何后果，我们不承担责任。

在openMind中使用

环境变量

export PYTHONPATH={path}/mindformers:$PYTHONPATH
export OPENMIND_FRAMEWORK=ms

推理

cd examples
python inference.py

开源许可协议

代码采用 Apache-2.0 许可协议，模型权重完全开放供学术研究使用，同时允许免费商业用途。如需申请商业许可，请填写申请表（英文）或申请表（中文）。其他问题或合作事宜，请联系 internlm@pjlab.org.cn。

修改说明

修改了代码调用为openmind调用

简介

第二代浦语模型 InternLM2 包含 7B 和 20B 两个量级。为方便用户使用与研究，每个量级我们共开源四个版本的模型，分别是：

internlm2-base：高质量且具备强可塑性的模型基座，是进行深度领域适配的优质起点；
internlm2（推荐）：在 internlm2-base 的基础上，进一步在特定领域语料上预训练，评测成绩优异，同时保持了良好的通用语言能力，是我们推荐在多数应用中选用的优秀基座；
internlm2-chat-sft：在 Base 基础上，进行有监督的人类对齐训练；
internlm2-chat（推荐）：在 internlm2-chat-sft 基础上，经过 RLHF 优化，面向对话交互场景，具备出色的指令遵循、共情聊天及工具调用等能力。

InternLM2 基础模型具备以下技术特点：

有效支持 20 万字超长上下文：模型在 20 万字长输入中几乎能完美实现长文“大海捞针”，且在 LongBench 和 L-Eval 等长文本任务中的表现达到开源模型领先水平。
综合性能全面提升：各能力维度较上一代模型均有全面进步，在推理、数学、代码等方面的能力提升尤为显著。

InternLM2-7B

性能评测

我们使用开源评测工具 OpenCompass 对 InternLM2 在多个重要评测集上进行了评估，部分评测结果如下表所示。欢迎访问 OpenCompass 榜单获取更多评测结果。

评测集	InternLM2-7B	InternLM2-Chat-7B	InternLM2-20B	InternLM2-Chat-20B	ChatGPT	GPT-4
MMLU	65.8	63.7	67.7	66.5	69.1	83.0
AGIEval	49.9	47.2	53.0	50.3	39.9	55.1
BBH	65.0	61.2	72.1	68.3	70.1	86.7
GSM8K	70.8	70.7	76.1	79.6	78.2	91.4
MATH	20.2	23.0	25.5	31.9	28.0	45.8
HumanEval	43.3	59.8	48.8	67.1	73.2	74.4
MBPP(Sanitized)	51.8	51.4	63.0	65.8	78.9	79.0

以上评测结果基于 OpenCompass 获得（部分数据标注 * 代表数据来自原始论文），具体测试细节可参见 OpenCompass 中提供的配置文件。
评测数据会因 OpenCompass 的版本迭代而存在数值差异，请以 OpenCompass 最新版的评测结果为准。

局限性： 尽管在训练过程中我们高度重视模型的安全性，尽力确保模型输出符合伦理和法律要求的文本，但受限于模型规模及概率生成范式，模型仍可能产生各类不符合预期的输出，例如回复内容包含偏见、歧视等有害信息。请勿传播此类内容。对于因传播不良信息导致的任何后果，本项目不承担责任。

通过openMind使用

环境变量

export PYTHONPATH={path}/mindformers:$PYTHONPATH
export OPENMIND_FRAMEWORK=ms

推理

cd examples
python inference.py

开源许可证

本仓库的代码依照 Apache-2.0 协议开源。模型权重对学术研究完全开放，也可申请免费的商业使用授权（申请表）。其他问题与合作请联系 internlm@pjlab.org.cn。

InternLM

InternLM ^HOT

(https://github.com/internLM/OpenCompass/)

💻GitHub 代码库 • 🤔问题反馈 • 📜技术报告

修改说明

针对 openMind 的修改。

简介

InternLM 模型的第二代产品——InternLM2，包含 7B 和 20B 两个规模的模型。为方便用户与研究人员使用，我们开源了每个规模模型的四个版本，分别是：

internlm2-base：高品质、高适应性的模型基座，是进行深度领域适配的优秀起点。
internlm2（推荐）：在 internlm2-base 的基础上，进一步采用领域特定语料进行预训练。该版本在评估中表现出色，同时保持了稳健的通用语言能力，是我们为大多数应用场景推荐的选择。
internlm2-chat-sft：基于 Base 模型，进行了有监督人类对齐训练。
internlm2-chat（推荐）：在 internlm2-chat-sft 的基础上，通过 RLHF 技术优化了对话交互能力，在指令遵循、共情聊天和工具调用方面表现卓越。

InternLM2 的基础模型具有以下技术特点：

有效支持长达 20 万个字符的超长上下文：模型在 20 万字符的长输入中近乎完美地实现了“大海捞针”任务。在 LongBench 和 L-Eval 等长文本任务上的性能也领先于开源模型。
综合性能提升：与上一代模型相比，在推理、数学、代码等多项能力上均有显著提升。

InternLM2-7B

性能评估

我们使用开源评估工具OpenCompass在多个重要基准上对InternLM2进行了评估。部分评估结果如下表所示。欢迎访问OpenCompass排行榜获取更多评估结果。

数据集/模型	InternLM2-7B	InternLM2-Chat-7B	InternLM2-20B	InternLM2-Chat-20B	ChatGPT	GPT-4
MMLU	65.8	63.7	67.7	66.5	69.1	83.0
AGIEval	49.9	47.2	53.0	50.3	39.9	55.1
BBH	65.0	61.2	72.1	68.3	70.1	86.7
GSM8K	70.8	70.7	76.1	79.6	78.2	91.4
MATH	20.2	23.0	25.5	31.9	28.0	45.8
HumanEval	43.3	59.8	48.8	67.1	73.2	74.4
MBPP(Sanitized)	51.8	51.4	63.0	65.8	78.9	79.0

评估结果来源于OpenCompass，评估配置可参见OpenCompass提供的配置文件。
由于OpenCompass的版本迭代，评估数据可能存在数值差异，因此请以OpenCompass的最新评估结果为准。

在openMind中使用

环境变量

export PYTHONPATH={path}/mindformers:$PYTHONPATH
export OPENMIND_FRAMEWORK=ms

推理

cd examples
python inference.py

开源许可协议

修改说明

修改了代码调用为openmind调用

简介

第二代浦语模型 InternLM2 包含 7B 和 20B 两个量级。为方便用户使用与研究，每个量级我们共开源四个版本的模型，分别是：

internlm2-base：高质量且具备强可塑性的模型基座，是进行深度领域适配的优质起点；
internlm2（推荐）：在 internlm2-base 的基础上，进一步在特定领域语料上预训练，评测成绩优异，同时保持了良好的通用语言能力，是我们推荐在多数应用中选用的优秀基座；
internlm2-chat-sft：在 Base 基础上，进行有监督的人类对齐训练；
internlm2-chat（推荐）：在 internlm2-chat-sft 基础上，经过 RLHF 优化，面向对话交互场景，具备出色的指令遵循、共情聊天及工具调用等能力。

InternLM2 基础模型具备以下技术特点：

有效支持 20 万字超长上下文：模型在 20 万字长输入中几乎能完美实现长文“大海捞针”，且在 LongBench 和 L-Eval 等长文本任务中的表现达到开源模型领先水平。
综合性能全面提升：各能力维度较上一代模型均有全面进步，在推理、数学、代码等方面的能力提升尤为显著。

InternLM2-7B

性能评测

我们使用开源评测工具 OpenCompass 对 InternLM2 在多个重要评测集上进行了评估，部分评测结果如下表所示。欢迎访问 OpenCompass 榜单获取更多评测结果。

评测集	InternLM2-7B	InternLM2-Chat-7B	InternLM2-20B	InternLM2-Chat-20B	ChatGPT	GPT-4
MMLU	65.8	63.7	67.7	66.5	69.1	83.0
AGIEval	49.9	47.2	53.0	50.3	39.9	55.1
BBH	65.0	61.2	72.1	68.3	70.1	86.7
GSM8K	70.8	70.7	76.1	79.6	78.2	91.4
MATH	20.2	23.0	25.5	31.9	28.0	45.8
HumanEval	43.3	59.8	48.8	67.1	73.2	74.4
MBPP(Sanitized)	51.8	51.4	63.0	65.8	78.9	79.0

以上评测结果基于 OpenCompass 获得（部分数据标注 * 代表数据来自原始论文），具体测试细节可参见 OpenCompass 中提供的配置文件。
评测数据会因 OpenCompass 的版本迭代而存在数值差异，请以 OpenCompass 最新版的评测结果为准。

通过openMind使用

环境变量

export PYTHONPATH={path}/mindformers:$PYTHONPATH
export OPENMIND_FRAMEWORK=ms

推理

cd examples
python inference.py