Nanbeige 4 系列思考增强模型(3B 参数,128K 上下文)
昇腾 NPU 适配验证通过 ✅ — 单卡 Ascend910B 推理,零代码修改,精度误差 < 0.04%
| 属性 | 值 |
|---|---|
| 模型 | Nanbeige/Nanbeige4-3B-Thinking-2511 |
| 架构 | LlamaForCausalLM — vLLM-Ascend 原生支持 |
| 参数量 | 3B |
| 精度 | BF16 |
| 上下文 | 65536 (验证: 32768) |
| 语言 | 中文、英文 |
| 特色 | ⚡ 思考链 (` |
| 人工智能的发展历史可以追溯到20世纪50年代... |
### 3️⃣ 数学推理(含思考标签)
Q: 计算:142857 × 7 = ? A: 最终答案:142857 × 7 = 999999 ✓
### 4️⃣ 英文推理
Q: What is the capital of France? Explain briefly. A: The capital of France is Paris...
### 5️⃣ 多轮对话(上下文保持)
User: 你好,我叫张三。 Assistant: 你好!张三,很高兴认识你。 User: 我刚才说我叫什么名字? Assistant: 你刚才说你的名字是张三。 ✓
### 6️⃣ 代码生成
Q: Write a Python function to sort a list using merge sort. A: def merge_sort(arr): if len(arr) <= 1: return arr mid = len(arr) // 2 ...
### 7️⃣ 文本摘要
Q: 请用一句话总结以下文章:人工智能(AI)是... A: 人工智能是计算机科学的一个分支,致力于创建能够执行通常需要人类智能的任务的系统...
---
## ⚡ 性能基准测试
| 测试项 | 数值 |
|-------|------|
| **并发吞吐 (10×256 tok)** | **~71.2 tok/s** |
| **单体吞吐 (1024 tok)** | **~73.3 tok/s** |
| **TTFT (中位数)** | **~40 ms** (不含 Graph 编译) |
| **NPU 显存占用** | ~57 GB / 64 GB |
> 注:吞吐包含思考链 (think tokens)。对于 3B 思考增强模型,单卡 Ascend910B 上达到 71 tok/s,表现优秀。TTFT 仅 40ms,流式响应体验流畅。
---
## 🖼️ 自验证截图
### 推理能力验证

### 性能基准测试

### NPU vs CPU 精度对比

---
## 📐 精度理论分析
| 维度 | 分析 |
|------|------|
| **权重精度** | 模型原生 BF16 权重 |
| **NPU 计算精度** | Ascend910B 使用 BF16 推理 |
| **计算图等价性** | 与 GPU BF16 计算图等效(同架构 `LlamaForCausalLM`、同精度、同算子语义) |
| **理论误差来源** | NPU vs GPU/CPU 浮点累加顺序差异(非关联浮点加法) |
| **实测最大误差** | **0.0359%** — 远低于 <1% 阈值 ✅ |
---
## 适配结论
| 维度 | 结论 |
|------|------|
| 🔧 **架构适配** | ✅ 原生支持,无需代码修改 |
| 🚀 **服务启动** | ✅ 一次成功 |
| 💬 **推理能力** | ✅ 中文/英文/思考链/多轮/摘要/代码 |
| 📐 **精度 (vs CPU)** | ✅ 5/5 Token 匹配,最大误差 0.036% |
| 🎯 **精度自洽** | ✅ temperature=0 自洽 3/3 |
| ⚡ **性能** | ✅ ~71 tok/s (含思考链),~40ms TTFT |
| 🛠 **工具调用** | ⚠️ 需 `--enable-auto-tool-choice --tool-call-parser` |
**总体评价:✅ Nanbeige4-3B-Thinking-2511 在 Ascend910B NPU 上适配验证通过,精度误差 < 0.04%,推理速度 ~71 tok/s,达到生产部署标准。**
---
## 📦 模型下载
```bash
from huggingface_hub import snapshot_download
snapshot_download(
repo_id='Nanbeige/Nanbeige4-3B-Thinking-2511',
endpoint='https://hf-mirror.com',
ignore_patterns=['*.bin']
)或使用 ModelScope(推荐中国大陆用户):
from modelscope.hub.snapshot_download import snapshot_download
snapshot_download('Nanbeige/Nanbeige4-3B-Thinking-2511')Nanbeige4-3B-Thinking-2511 是一个基于 Llama 架构的 3B 参数规模语言模型,支持 65K 长上下文推理。
| 属性 | 值 |
|---|---|
| 架构 | LlamaForCausalLM |
| 参数量 | 3B |
| 隐藏层维度 | 2560 |
| 注意力头数 | 20 |
| KV 头数 | 4 |
| 层数 | 32 |
| 中间层维度 | 10496 |
| 最大位置编码 | 65536 |
| RoPE theta | 5000000 |
| 词表大小 | 166144 |
| 数据类型 | bfloat16 |
| 上下文长度 | 65K tokens |
在华为昇腾 NPU 上使用 vLLM-Ascend 推理:
from vllm import LLM, SamplingParams
llm = LLM(
model="Nanbeige/Nanbeige4-3B-Thinking-2511",
trust_remote_code=True,
dtype="bfloat16",
max_model_len=32768,
)
prompt = "<|im_start|>system\n你是 Nanbeige 思考型模型。<|im_end|>\n<|im_start|>user\n介绍一下人工智能的发展历史。<|im_end|>\n<|im_start|>assistant\n"
outputs = llm.generate([prompt], SamplingParams(temperature=0.7, max_tokens=2048))
print(outputs[0].outputs[0].text)本模型已在 华为昇腾 Ascend NPU 上通过 vLLM-Ascend 完成适配验证。
| 指标 | 结果 |
|---|---|
| 单卡推理 | ✅ 成功 |
| 多卡推理 | ✅ 支持 (TP) |
| 精度误差 | < 0.04% |