引言

2025年9月11日，Qwen3-Next系列模型正式开源。

昇腾基于SGLang推理框架0Day支持Qwen3-Next模型，兼容当前SGLang框架内主流的分布式并行能力，基于Triton-Ascend支持全新因果卷积结构，实现该模型在昇腾上的0Day开箱即用。昇腾一直致力于构建开放的AI技术生态，除了适配文心4.5系列、Qwen3、DeepSeek等业界最新大模型，昇腾也积极参与魔乐、启智、Gitee、GitCode等生态社区的共建，让开发者能够快速获取昇腾适配的模型、算法、工具等能力和源码。

昇腾基于SGLang推理框架支持Qwen3-Next，兼容当前SGLang框架内主流的分布式并行能力，Qwen3-Next系列模型一经发布即实现低代码无缝使能，欢迎广大开发者下载体验，以下为手把手教程：

一、准备运行环境

表 1 版本配套表

配套	版本	环境准备指导
Python	3.11.10	-
torch	2.6.0	-
torch_npu	2.6.0	-
triton_ascend	3.2.0	-

1.1 获取CANN&Sglang安装包&环境准备

设备支持

Atlas 800I/800T A3(8*64G)推理设备

Atlas 800I/800T A3(8*64G) CANN版本下载链接
环境准备指导

1.2 CANN安装

# 增加软件包可执行权限，{version}表示软件版本号，{arch}表示CPU架构，{soc}表示昇腾AI处理器的版本。
chmod +x ./Ascend-cann-toolkit_{version}_linux-{arch}.run
chmod +x ./Ascend-cann-kernels-{soc}_{version}_linux.run
chmod +x ./Ascend-cann-nnal_{version}_linux-{arch}.run
# 校验软件包安装文件的一致性和完整性
./Ascend-cann-toolkit_{version}_linux-{arch}.run --check
./Ascend-cann-kernels-{soc}_{version}_linux.run --check
./Ascend-cann-nnal{version}_linux-{arch}.run --check
# 安装
./Ascend-cann-toolkit_{version}_linux-{arch}.run --install
./Ascend-cann-kernels-{soc}_{version}_linux.run --install
./Ascend-cann-nnal{version}_linux-{arch}.run --torch_atb --install

# 设置环境变量
source /usr/local/Ascend/ascend-toolkit/set_env.sh
source /usr/local/Ascend/nnal/atb/set_env.sh

1.3 Sglang安装

Sglang社区代码

git clone https://github.com/sgl-project/sglang.git
cd sglang
pip install -e "python[srt_npu]"

1.4 triton_ascend安装

快速安装指南

安装包	下载
bisheng	下载链接
triton_ascend	下载链接

pip install triton_ascend-3.2.0+gitb0ea0850-cp311-cp311-linux_aarch64.whl
./Ascend-BiSheng-toolkit_aarch64.run --install
source /usr/local/Ascend/8.3.RC1/bisheng_toolkit/set_env.sh

注：triton_ascend预计10月30日正式在Ascend社区开源发布

1.5 sgl-kernel-npu安装

快速安装指南

git clone https://github.com/sgl-project/sgl-kernel-npu
source /usr/local/Ascend/ascend-toolkit/set_env.sh
bash build.sh
pip install output/sgl_kernel_npu*.whl
# (Optional) Confirm whether the import can be successfully
python -c "import sgl_kernel_npu; print(sgl_kernel_npu.__path__)"
source /usr/local/Ascend/ascend-toolkit/set_env.sh

1.6 torch_npu安装

下载 pytorch_v{pytorchversion}_py{pythonversion}.tar.gz

tar -xzvf pytorch_v{pytorchversion}_py{pythonversion}.tar.gz
# 解压后，会有whl包
pip install torch_npu-{pytorchversion}.xxxx.{arch}.whl

二、下载权重

Qwen3-Next-80B-A3B-Instruct 权重及配置文件说明

GitCode

模型	权重
Qwen3-Next-80B-A3B-Instruct	GitCode

三、运行指导

1.1 单机混部(8卡16die)

cd /home/sglang

# cann环境
source /usr/local/Ascend/ascend-toolkit/set_env.sh
source /usr/local/Ascend/nnal/atb/set_env.sh

# 运行命令
python -m sglang.launch_server --model-path {权重路径}  --host 127.0.0.1 --port 6688 --trust-remote-code --nnodes 1 --node-rank 0  --attention-backend hybrid_linear_attn --device npu   --max-running-requests 32 --context-length 8192  --disable-radix-cache --chunked-prefill-size 32768 --max-prefill-tokens 28000  --tp-size 16  --mem-fraction-static 0.5 --disable-cuda-graph

# 运行成功回显
The server is fired up and ready to roll!

1.2 curl测试结果

# curl命令
curl --location 'http://127.0.0.1:6688/generate' --header 'Content-Type: application/json' --data '{
    "text": "Who are you?",
    "sampling_params": {
        "temperature": 0,
        "max_new_tokens": 130
    }
}'

图片说明

引言

2025年9月11日，Qwen3-Next系列模型正式开源。

一、准备运行环境

表 1 版本配套表

配套	版本	环境准备指导
Python	3.11.10	-
torch	2.6.0	-
torch_npu	2.6.0	-
triton_ascend	3.2.0	-

1.1 获取CANN&Sglang安装包&环境准备

设备支持

Atlas 800I/800T A3(8*64G)推理设备

Atlas 800I/800T A3(8*64G) CANN版本下载链接
环境准备指导

1.2 CANN安装

# 增加软件包可执行权限，{version}表示软件版本号，{arch}表示CPU架构，{soc}表示昇腾AI处理器的版本。
chmod +x ./Ascend-cann-toolkit_{version}_linux-{arch}.run
chmod +x ./Ascend-cann-kernels-{soc}_{version}_linux.run
chmod +x ./Ascend-cann-nnal_{version}_linux-{arch}.run
# 校验软件包安装文件的一致性和完整性
./Ascend-cann-toolkit_{version}_linux-{arch}.run --check
./Ascend-cann-kernels-{soc}_{version}_linux.run --check
./Ascend-cann-nnal{version}_linux-{arch}.run --check
# 安装
./Ascend-cann-toolkit_{version}_linux-{arch}.run --install
./Ascend-cann-kernels-{soc}_{version}_linux.run --install
./Ascend-cann-nnal{version}_linux-{arch}.run --torch_atb --install

# 设置环境变量
source /usr/local/Ascend/ascend-toolkit/set_env.sh
source /usr/local/Ascend/nnal/atb/set_env.sh

1.3 Sglang安装

Sglang社区代码

git clone https://github.com/sgl-project/sglang.git
cd sglang
pip install -e "python[srt_npu]"

1.4 triton_ascend安装

快速安装指南

安装包	下载
bisheng	下载链接
triton_ascend	下载链接

pip install triton_ascend-3.2.0+gitb0ea0850-cp311-cp311-linux_aarch64.whl
./Ascend-BiSheng-toolkit_aarch64.run --install
source /usr/local/Ascend/8.3.RC1/bisheng_toolkit/set_env.sh

注：triton_ascend预计10月30日正式在Ascend社区开源发布

1.5 sgl-kernel-npu安装

快速安装指南

git clone https://github.com/sgl-project/sgl-kernel-npu
source /usr/local/Ascend/ascend-toolkit/set_env.sh
bash build.sh
pip install output/sgl_kernel_npu*.whl
# (Optional) Confirm whether the import can be successfully
python -c "import sgl_kernel_npu; print(sgl_kernel_npu.__path__)"
source /usr/local/Ascend/ascend-toolkit/set_env.sh

1.6 torch_npu安装

下载 pytorch_v{pytorchversion}_py{pythonversion}.tar.gz

tar -xzvf pytorch_v{pytorchversion}_py{pythonversion}.tar.gz
# 解压后，会有whl包
pip install torch_npu-{pytorchversion}.xxxx.{arch}.whl

二、下载权重

Qwen3-Next-80B-A3B-Instruct 权重及配置文件说明

GitCode

模型	权重
Qwen3-Next-80B-A3B-Instruct	GitCode

三、运行指导

1.1 单机混部(8卡16die)

cd /home/sglang

# cann环境
source /usr/local/Ascend/ascend-toolkit/set_env.sh
source /usr/local/Ascend/nnal/atb/set_env.sh

# 运行命令
python -m sglang.launch_server --model-path {权重路径}  --host 127.0.0.1 --port 6688 --trust-remote-code --nnodes 1 --node-rank 0  --attention-backend hybrid_linear_attn --device npu   --max-running-requests 32 --context-length 8192  --disable-radix-cache --chunked-prefill-size 32768 --max-prefill-tokens 28000  --tp-size 16  --mem-fraction-static 0.5 --disable-cuda-graph

# 运行成功回显
The server is fired up and ready to roll!

1.2 curl测试结果

# curl命令
curl --location 'http://127.0.0.1:6688/generate' --header 'Content-Type: application/json' --data '{
    "text": "Who are you?",
    "sampling_params": {
        "temperature": 0,
        "max_new_tokens": 130
    }
}'

图片说明