MiniCPM-MoE-8x2B 是一个基于解码器的Transformer生成式语言模型。
MiniCPM-MoE-8x2B 采用混合专家(Mixture-of-Experts, MoE)架构,每层包含8个专家,每个 token 会激活8个专家中的2个。
本模型版本经过指令微调,但未采用其他 RLHF 方法。聊天模板会自动应用。
from openmind import AutoModelForCausalLM, AutoTokenizer
import torch
torch.manual_seed(0)
path = 'AI-Research/MiniCPM-MoE-8x2B'
tokenizer = AutoTokenizer.from_pretrained(path)
model = AutoModelForCausalLM.from_pretrained(path, torch_dtype=torch.bfloat16, device_map='npu', trust_remote_code=True)
responds, history = model.chat(tokenizer, "山东省最高的山是哪座山, 它比黄山高还是矮?差距多少?", temperature=0.8, top_p=0.8)
print(responds)