简介

MiniCPM-MoE-8x2B 是一个基于解码器的Transformer生成式语言模型。

MiniCPM-MoE-8x2B 采用混合专家（Mixture-of-Experts, MoE）架构，每层包含8个专家，每个 token 会激活8个专家中的2个。

使用方法

本模型版本经过指令微调，但未采用其他 RLHF 方法。聊天模板会自动应用。

from openmind import AutoModelForCausalLM, AutoTokenizer
import torch
torch.manual_seed(0)

path = 'AI-Research/MiniCPM-MoE-8x2B'
tokenizer = AutoTokenizer.from_pretrained(path)
model = AutoModelForCausalLM.from_pretrained(path, torch_dtype=torch.bfloat16, device_map='npu', trust_remote_code=True)

responds, history = model.chat(tokenizer, "山东省最高的山是哪座山, 它比黄山高还是矮？差距多少？", temperature=0.8, top_p=0.8)
print(responds)

注意事项

您也可以使用vLLM进行推理，它与本仓库兼容，且推理吞吐量更高。
本仓库中模型权重的精度为bfloat16。若需其他数据类型，需手动转换。
更多详情，请参考我们的github仓库。

声明

MiniCPM-MoE-8x2B作为一款语言模型，通过学习海量文本生成内容。
但它不具备理解或表达个人观点、价值判断的能力。
MiniCPM-MoE-8x2B生成的任何内容均不代表模型开发者的观点或立场。
因此，在使用MiniCPM-MoE-8x2B生成的内容时，用户应自行对其进行评估和验证，并承担全部责任。

简介

MiniCPM-MoE-8x2B 是一个基于解码器的Transformer生成式语言模型。

MiniCPM-MoE-8x2B 采用混合专家（Mixture-of-Experts, MoE）架构，每层包含8个专家，每个 token 会激活8个专家中的2个。

使用方法

本模型版本经过指令微调，但未采用其他 RLHF 方法。聊天模板会自动应用。

from openmind import AutoModelForCausalLM, AutoTokenizer
import torch
torch.manual_seed(0)

path = 'AI-Research/MiniCPM-MoE-8x2B'
tokenizer = AutoTokenizer.from_pretrained(path)
model = AutoModelForCausalLM.from_pretrained(path, torch_dtype=torch.bfloat16, device_map='npu', trust_remote_code=True)

responds, history = model.chat(tokenizer, "山东省最高的山是哪座山, 它比黄山高还是矮？差距多少？", temperature=0.8, top_p=0.8)
print(responds)

注意事项

您也可以使用vLLM进行推理，它与本仓库兼容，且推理吞吐量更高。
本仓库中模型权重的精度为bfloat16。若需其他数据类型，需手动转换。
更多详情，请参考我们的github仓库。

声明

MiniCPM-MoE-8x2B作为一款语言模型，通过学习海量文本生成内容。
但它不具备理解或表达个人观点、价值判断的能力。
MiniCPM-MoE-8x2B生成的任何内容均不代表模型开发者的观点或立场。
因此，在使用MiniCPM-MoE-8x2B生成的内容时，用户应自行对其进行评估和验证，并承担全部责任。