2025年9月11日,Qwen3-Next系列模型正式开源。
昇腾基于SGLang推理框架0Day支持Qwen3-Next模型,兼容当前SGLang框架内主流的分布式并行能力,基于Triton-Ascend支持全新因果卷积结构,实现该模型在昇腾上的0Day开箱即用。 昇腾一直致力于构建开放的AI技术生态,除了适配文心4.5系列、Qwen3、DeepSeek等业界最新大模型,昇腾也积极参与魔乐、启智、Gitee、GitCode等生态社区的共建,让开发者能够快速获取昇腾适配的模型、算法、工具等能力和源码。

昇腾基于SGLang推理框架支持Qwen3-Next,兼容当前SGLang框架内主流的分布式并行能力,Qwen3-Next系列模型一经发布即实现低代码无缝使能,欢迎广大开发者下载体验,以下为手把手教程:
表 1 版本配套表
| 配套 | 版本 | 环境准备指导 |
|---|---|---|
| Python | 3.11.10 | - |
| torch | 2.6.0 | - |
| torch_npu | 2.6.0 | - |
| triton_ascend | 3.2.0 | - |
设备支持
Atlas 800I/800T A3(8*64G)推理设备
# 增加软件包可执行权限,{version}表示软件版本号,{arch}表示CPU架构,{soc}表示昇腾AI处理器的版本。
chmod +x ./Ascend-cann-toolkit_{version}_linux-{arch}.run
chmod +x ./Ascend-cann-kernels-{soc}_{version}_linux.run
chmod +x ./Ascend-cann-nnal_{version}_linux-{arch}.run
# 校验软件包安装文件的一致性和完整性
./Ascend-cann-toolkit_{version}_linux-{arch}.run --check
./Ascend-cann-kernels-{soc}_{version}_linux.run --check
./Ascend-cann-nnal{version}_linux-{arch}.run --check
# 安装
./Ascend-cann-toolkit_{version}_linux-{arch}.run --install
./Ascend-cann-kernels-{soc}_{version}_linux.run --install
./Ascend-cann-nnal{version}_linux-{arch}.run --torch_atb --install
# 设置环境变量
source /usr/local/Ascend/ascend-toolkit/set_env.sh
source /usr/local/Ascend/nnal/atb/set_env.shgit clone https://github.com/sgl-project/sglang.git
cd sglang
pip install -e "python[srt_npu]"pip install triton_ascend-3.2.0+gitb0ea0850-cp311-cp311-linux_aarch64.whl
./Ascend-BiSheng-toolkit_aarch64.run --install
source /usr/local/Ascend/8.3.RC1/bisheng_toolkit/set_env.sh注:triton_ascend预计10月30日正式在Ascend社区开源发布
git clone https://github.com/sgl-project/sgl-kernel-npu
source /usr/local/Ascend/ascend-toolkit/set_env.sh
bash build.sh
pip install output/sgl_kernel_npu*.whl
# (Optional) Confirm whether the import can be successfully
python -c "import sgl_kernel_npu; print(sgl_kernel_npu.__path__)"
source /usr/local/Ascend/ascend-toolkit/set_env.sh下载 pytorch_v{pytorchversion}_py{pythonversion}.tar.gz
tar -xzvf pytorch_v{pytorchversion}_py{pythonversion}.tar.gz
# 解压后,会有whl包
pip install torch_npu-{pytorchversion}.xxxx.{arch}.whl| 模型 | 权重 |
|---|---|
| Qwen3-Next-80B-A3B-Instruct | GitCode |
cd /home/sglang
# cann环境
source /usr/local/Ascend/ascend-toolkit/set_env.sh
source /usr/local/Ascend/nnal/atb/set_env.sh
# 运行命令
python -m sglang.launch_server --model-path {权重路径} --host 127.0.0.1 --port 6688 --trust-remote-code --nnodes 1 --node-rank 0 --attention-backend hybrid_linear_attn --device npu --max-running-requests 32 --context-length 8192 --disable-radix-cache --chunked-prefill-size 32768 --max-prefill-tokens 28000 --tp-size 16 --mem-fraction-static 0.5 --disable-cuda-graph# 运行成功回显
The server is fired up and ready to roll!# curl命令
curl --location 'http://127.0.0.1:6688/generate' --header 'Content-Type: application/json' --data '{
"text": "Who are you?",
"sampling_params": {
"temperature": 0,
"max_new_tokens": 130
}
}'