Ascend-SACT/MiroThinker-1.7
模型介绍文件和版本Pull Requests讨论分析
下载使用量0

MiroThinker-1.7NPU部署指导

文档版本: v3.0 更新日期: 2026-04-09 适用环境: A3 镜像版本: vllm-ascend:v0.17.0rc1-a3

一、快速开始

1.1 环境准备

项目说明
镜像版本vllm-ascend-0.17.0rc1-a3
vLLM 仓库路径/vllm-workspace/vllm
vLLM-Ascend 仓库路径/vllm-workspace/vllm-ascend
魔搭https://www.modelscope.cn/models/miromind-ai/MiroThinker-1.7/summary

1.2 启动服务

nohup vllm serve /weight/miromind-ai/MiroThinker-1.7 \
    --tensor-parallel-size 16 \
    --host 0.0.0.0 \
    --port 8002 \
    --served-model-name miro \
    --trust-remote-code \
    --max-model-len 8192 \
    --max-num-seqs 128 \
    --gpu_memory_utilization 0.88 \
    --compilation_config '{"cudagraph_mode": "FULL_DECODE_ONLY", "cudagraph_capture_sizes": [1,2,4,8,16,32,64,128]}' \
    > miro_server.log 2>&1 &

说明:

  • 模型属于235B需要16卡 --tensor-parallel-size 16。
  • --max-model-len 和 --max-num-seqs,根据实际业务进行调整。
  • vllm默认是piecewise模式,需要在 --compilation_config 指定档位,默认档位会导致stream报错。

二、模型分析

2.1 模型基本信息

参数值
模型名称MiroThinker-1.7
架构类型Qwen3MoeForCausalLM
总参数量约 235B
注意力机制GQA (Grouped-Query Attention)
注意力头数64
KV 头数4
隐藏层维度4096
层数94

2.2 核心架构参数

num_experts = 128            # 专家总数
num_experts_per_tok = 8      # 每次推理激活专家数
moe_intermediate_size = 1536  # 单个专家中间层维度
head_dim = 128               # 注意力头维度
max_position_embeddings = 262144 # 256K 超长上下文支持
rope_theta = 5000000         # 针对超长文本优化的 RoPE 基数

三、测试结果

本节包含基础功能验证、开启 MTP 的在线服务吞吐测试,以及长上下文在线服务测试。不同表格可能来自不同测试场景,表内已注明关键配置。

5.1 功能测试

以下为基础功能验证:

curl http://{127.0.0.1:8002}/v1/chat/completions -H "Content-Type: application/json" -d ' {
    "model": "miro",
    "messages": [{"role": "user","content": "介绍一下你自己"}],
    "max_tokens": 512,
    "do_sample": false,
    "stop": ["If"]
}'

5.2 性能测试

以下数据为用vllm自测工具 vllm bench serve 的测试结果。第一章节的启动脚本是1k/4k场景的启动配置。

输入长度并发数请求数Mean TTFT (ms)TTFT P50 (ms)TTFT P90 (ms)TTFT P99 (ms)Mean TPOT (ms)TPOT P50 (ms)TPOT P90 (ms)TPOT P99 (ms)Mean ITL (ms)ITL P50 (ms)ITL P90 (ms)ITL P99 (ms)Mean E2E (ms)E2E P50 (ms)E2E P90 (ms)E2E P99 (ms)Output tok/sTotal tok/sQPS (req/s)tok/NPU
1k/4k642561628.18865.884840.547241.8567.5867.4168.8169.2667.5866.2170.2473.62278367.11277129.33282856.77284098.09939.51174.380.2358.71875
10k/1k6425682302.4497111.99123253.62129625.6589.0191.5795.6295.7889.0166.41238.93246.63173358.72191649.65220981.46227201.11334.463679.050.33229.940625