Mengzi3-13B-Base

模型介绍/Introduction

本次开源Mengzi3 13B系列模型，模型的地址如下:

	Mengzi3-13B-Base	Mengzi3-13B-Chat
13B	🤗 / 🤖 / MindSpore / Wisemodel	敬请期待

Mengzi3-13B模型基于Llama架构，语料精选自网页、百科、社交、媒体、新闻，以及高质量的开源数据集。通过在万亿tokens上进行多语言语料的继续训练，模型的中文能力突出并且兼顾多语言能力。

Mengzi3-13B基于Llama架构构建，其训练语料精选自网页、百科、社交平台、媒体资讯及优质开源数据集。经过在万亿级tokens的多语言语料上持续训练，该模型不仅具备卓越的中文处理能力，同时兼顾了多语言处理能力。

在 Openmind 中使用

from openmind import AutoTokenizer, AutoModelForCausalLM, is_torch_npu_available
from openmind_hub import snapshot_download
import torch.nn.functional as F
from torch import Tensor
import openmind
import torch
import argparse
import time

# Mean Pooling - Take attention mask into account for correct averaging
def mean_pooling(model_output, attention_mask):
    token_embeddings = model_output[0]  # First element of model_output contains all token embeddings
    input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
    return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)

def parse_args():
    parser = argparse.ArgumentParser()
    parser.add_argument(
        "--model_name_or_path",
        type=str,
        help="Path to model",
        default="jeffding/Mengzi3-13B-Base-openmind",
    )
    args = parser.parse_args()
    return args

def main():
    args = parse_args()
    model_path = args.model_name_or_path

    if is_torch_npu_available():
        device = "npu:0"
    else:
        device = "cpu"
        
    # Load model from HuggingFace Hub
    tokenizer = AutoTokenizer.from_pretrained(model_path,trust_remote_code=True)
    model = AutoModelForCausalLM.from_pretrained(model_path, trust_remote_code=True).to(device)
    start_time = time.time()
    
    inputs = tokenizer('指令：回答以下问题。输入：介绍一下孟子。输出：', return_tensors='pt')
    inputs = inputs.to(device)
    pred = model.generate(**inputs, max_new_tokens=512, repetition_penalty=1.01, eos_token_id=tokenizer.eos_token_id)
    print(tokenizer.decode(pred[0], skip_special_tokens=True))

    
    end_time = time.time()
    print(f"硬件环境：{device},推理执行时间：{end_time - start_time}秒")
    
if __name__ == "__main__":
    main()

快速开始

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("Langboat/Mengzi3-13B-Base", use_fast=False, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("Langboat/Mengzi3-13B-Base", device_map="auto", trust_remote_code=True)
inputs = tokenizer('指令：回答以下问题。输入：介绍一下孟子。输出：', return_tensors='pt')
if torch.cuda.is_available():
    inputs = inputs.to('cuda')
pred = model.generate(**inputs, max_new_tokens=512, repetition_penalty=1.01, eos_token_id=tokenizer.eos_token_id)
print(tokenizer.decode(pred[0], skip_special_tokens=True))

详细的模型推理和微调代码见Github

模型推理和微调的详细代码参见Github

性能评测/Evaluation

Mengzi3-13B-Base在各项基准测试中与同等参数量大语言模型相比，语言能力成绩领先，数学和编程能力位于前列。

在各类基准测试中，与参数量相当的大语言模型相比，Mengzi3-13B-Base在语言能力方面表现领先，数学和编程能力也位居前列。

	MMLU	CMMLU	OCNLI	GSM8K	HumanEval
Baichuan2-13B-Base	0.530	0.489	0.433	0.528	0.171
Qwen-14B	0.589	0.539	0.550	0.613	0.323
ChatGLM3-6B-base	0.551	0.495	0.754	0.723	-
InternLM2-20B	0.610	0.538	0.650	0.761	0.488
Skywork-13B-base	0.557	0.524	0.426	0.558	-
LingoWhale-8B	0.541	0.495	0.352	0.550	0.329
DeepSeek-7B	0.436	0.424	0.356	0.174	0.262
DeepSeek-MoE-16B-base	0.423	0.388	0.342	0.188	0.268
MindSource-7B	0.498	0.425	0.528	-	-
Mengzi3-13B-Base	0.651 (+6.7%)	0.588 (+9.1%)	0.776 (+2.9%)	0.631	0.287

以上结果基于5-shot，MMLU/CMMLU/OCNLI结果来自FlagEval

上述结果基于5-shot，其中MMLU/CMMLU/OCNLI的结果来源于FlagEval

声明/Disclaimer

我们在此声明，我们的开发团队并未基于 Mengzi 3 模型开发任何应用，无论是在 iOS、Android、网页或任何其他平台。我们按“原样”的形式提供服务，不作任何形式的保证，我们不保证服务将满足您的要求。在不限制这一点的情况下，我们明确声明不提供关于服务的所有明示、默示或法定保证，包括但不限于对适销性、特定用途之适用性、所有权、安全性、准确性和不侵权的任何保证。我们强烈呼吁所有使用者，不要利用 Mengzi 3 模型进行任何危害国家社会安全或违法或侵犯他人合法权益的活动。另外，我们也要求使用者不要将 Mengzi 3 模型用于未经适当安全审查和备案的互联网服务。我们希望所有的使用者都能遵守这个原则，确保科技的发展能在规范和合法的环境下进行。我们已经尽我们所能，来确保模型训练过程中使用的数据的合规性。然而，尽管我们已经做出了巨大的努力，但由于模型和数据的复杂性，仍有可能存在一些无法预见的问题。因此，如果由于使用 Mengzi 3 开源模型而导致的任何问题，包括但不限于数据安全问题、公共舆论风险，或模型被误导、滥用、传播或不当利用所带来的任何风险和问题，我们将不承担任何责任。对于因您使用从服务获取的文件、信息、内容或其他材料而造成的任何损失，您应承担全部责任和风险。

我们在此声明，我们的团队并未基于 Mengzi 3 模型开发任何应用，无论是在 iOS、Android、网页还是任何其他平台。我们按“原样”提供服务，不提供任何形式的保证，也不保证服务能满足您的要求。在不限制前述内容的前提下，我们明确声明不承担关于服务的所有明示、默示或法定保证责任，包括但不限于对适销性、特定用途适用性、所有权、安全性、准确性及不侵权的任何保证。我们强烈呼吁所有用户不要利用 Mengzi 3 模型从事任何危害国家/社会安全、违法或侵犯他人合法权益的活动。此外，我们也要求用户不要将 Mengzi 3 模型用于未经适当安全审查和备案的互联网服务。我们希望所有用户都能遵守这一原则，确保科技在规范合法的环境中发展。我们已尽最大努力确保模型训练过程中所用数据的合规性。然而，尽管我们付出了巨大努力，但由于模型和数据的复杂性，仍可能存在一些不可预见的问题。因此，若因使用 Mengzi 3 开源模型而引发任何问题，包括但不限于数据安全问题、舆论风险，或因模型被误导、滥用、传播或不当利用所带来的任何风险与问题，我们均不承担任何责任。对于因您使用从本服务获取的文件、信息、内容或其他材料而造成的任何损失，您应自行承担全部责任与风险。

协议/License Agreement

Mengzi3-13B-Base依照Apache 2.0协议开源，对学术研究完全开放，同时支持免费商用。如需申请商业许可证，请联系我们，其他商务合作请联系bd@langboat.com。

Mengzi3-13B-Base is open source under the Apache 2.0 protocol, fully open for academic research, and free for commercial use. If you need to apply for business license, please contact us, other business cooperation, please contact bd@langboat.com.