作者:刘显林,张小莲 ---- 创智学院
本文主要介绍Qwen3.5-397B-A17B模型在X86服务的NPU上部署的实践经验,主要步骤包括:从modelers的Qwen3.5-397B-A17B-w8a8-mtp项目中下载镜像-->安装X86镜像--.>删除镜像中冲突软件->启动Qwen3.5-397B-A17B非量化版本模型
Qwen3.5 具备以下增强特性:
统一的视觉-语言基础:在多模态 token 上进行早期融合训练,在推理、编码、智能体和视觉理解等基准测试中,跨代际达到与 Qwen3 相当的水平,并超越 Qwen3-VL 模型。
高效混合架构:门控 Delta 网络结合稀疏混合专家(MoE)机制,在保持极低延迟和成本开销的同时实现高吞吐推理。
可扩展的强化学习泛化能力:在百万级智能体环境中进行强化学习训练,任务分布逐步复杂化,从而确保在真实场景中的强大适应能力。
全球语言覆盖:扩展支持至 201 种语言和方言,实现包容性的全球部署,并具备对文化与区域差异的细致理解。
下一代训练基础设施:相比纯文本训练,多模态训练效率接近 100%,并采用异步强化学习框架,支持大规模智能体脚手架和环境编排。
| 组件 | 版本 |
|---|---|
| 硬件环境 | 910B(16卡) |
| cann 驱动 | 25.0.rc1.1 |
从模乐中下载x86版本的vllm镜像,下载地址:https://www.modelscope.cn/models/Eco-Tech/Qwen3.5-397B-A17B-w8a8-mtp/tree/master/vllm-image,X86对应进行文件为:Vllm-ascend-Qwen3_5-A2-Ubuntu_x86-v0.tar
命令:
pip list|grep triton如果命令输出显示有两个triton组件(如下),需要执行卸载重新安装命令
triton xxx
triton-ascend 3.2.0
如果出现上面两个triton,则会报如下错误
INFO 03-12 07:05:22 [importing.py:44] Triton is installed but 0 active driver(s) found (expected 1). Disabling Triton to prevent runtime errors.
INFO 03-12 07:05:22 [importing.py:68] Triton not installed or not compatible; certain GPU-related functions will not be available.
进一步导致 min(MAX_FUSED_SIZE, triton.next_power_of_2(group_size)) 错误或者 Developer debug context: raised exception AttributeError([])错误
刷新trition命令:
pip uninstall triton triton-ascend -y
pip install triton-ascend==3.2.0命令:
git lfs install
git clone https://www.modelscope.cn/Qwen/Qwen3.5-397B-A17B.git把MODEL_PATH修改为模型下载的对应路径后,启动。注意:如下启动命令是X86服务器有16张NPU卡
export HCCL_OP_EXPANSION_MODE="AIV"
export HCCL_BUFFSIZE=1024
export OMP_NUM_THREADS=1
export LD_PRELOAD=/lib/x86_64-linux-gnu/libjemalloc.so.2
export TASK_QUEUE_ENABLE=1
vllm serve ${MODEL_PATH} \
--served-model-name "qwen3.5" \
--host 0.0.0.0 \
--port 8010 \
--data-parallel-size 1 \
--tensor-parallel-size 16 \
--max-model-len 5000 \
--max-num-batched-tokens 16384 \
--max-num-seqs 128 \
--gpu-memory-utilization 0.94 \
--compilation-config '{"cudagraph_mode":"FULL_DECODE_ONLY"}' \
--trust-remote-code \
--async-scheduling \
--allowed-local-media-path / \
--mm-processor-cache-gb 0 \
--additional-config '{"enable_cpu_binding":true, "multistream_overlap_shared_expert": true}' curl http://localhost:8010/v1/completions \
-H "Content-Type: application/json" \
-d '{
"prompt": "介绍一下你自己,用中文回答",
"max_tokens": 200,
"temperature": 0.7
}'