Qwen-Image-Edit-2509:可用于根据文本提示词对图像进行编辑生成。支持单卡/多卡推理，提供权重与激活量化功能，能减少显存占用并保持性能，适配昇腾AI处理器。【此简介由AI生成】

一、准备运行环境

表 1 版本配套表

配套	版本	环境准备指导
Python	3.10 or 3.11	-
torch	2.1.0	-

1.1 获取CANN&MindIE安装包&环境准备

设备支持 Atlas 800I/800T A2(8*64G)推理设备：支持的卡数最小为1
Atlas 800I/800T A2(8*64G)
环境准备指导

1.2 CANN安装

# 增加软件包可执行权限，{version}表示软件版本号，{arch}表示CPU架构，{soc}表示昇腾AI处理器的版本。
chmod +x ./Ascend-cann-toolkit_{version}_linux-{arch}.run
chmod +x ./Ascend-cann-kernels-{soc}_{version}_linux.run
# 校验软件包安装文件的一致性和完整性
./Ascend-cann-toolkit_{version}_linux-{arch}.run --check
./Ascend-cann-kernels-{soc}_{version}_linux.run --check
# 安装
./Ascend-cann-toolkit_{version}_linux-{arch}.run --install
./Ascend-cann-kernels-{soc}_{version}_linux.run --install

# 设置环境变量
source /usr/local/Ascend/ascend-toolkit/set_env.sh

1.3 MindIE安装

# 增加软件包可执行权限，{version}表示软件版本号，{arch}表示CPU架构。
chmod +x ./Ascend-mindie_${version}_linux-${arch}.run
./Ascend-mindie_${version}_linux-${arch}.run --check

# 方式一：默认路径安装
./Ascend-mindie_${version}_linux-${arch}.run --install
# 设置环境变量
cd /usr/local/Ascend/mindie && source set_env.sh

# 方式二：指定路径安装
./Ascend-mindie_${version}_linux-${arch}.run --install-path=${AieInstallPath}
# 设置环境变量
cd ${AieInstallPath}/mindie && source set_env.sh

1.4 Torch_npu安装

下载 pytorch_v{pytorchversion}_py{pythonversion}.tar.gz

tar -xzvf pytorch_v{pytorchversion}_py{pythonversion}.tar.gz
# 解压后，会有whl包
pip install torch_npu-{pytorchversion}.xxxx.{arch}.whl

二、下载权重

2.1 权重及配置文件说明

Qwen-Image权重链接:

https://huggingface.co/Qwen/Qwen-Image-Edit-2509

三、Qwen-Image-Edit使用

3.1 推理前准备

#  1. 下载代码
git clone https://modelers.cn/MindIE/Qwen-Image-Edit-2509.git && cd Qwen-Image-Edit-2509

# 2. python相关依赖安装
pip install diffusers==0.35.1
pip install transformers==4.52.4
pip install yunchang==0.6.0

3.2 Qwen-Image-Edit推理

3.2.1 单卡性能测试

3.2.1.1 等价优化

执行命令：

# 等价优化
export ROPE_FUSE=1
export ADALN_FUSE=1

python run_edit_2509.py  \
  --model_path ./Qwen-Image-Edit-2509  \
  --device_id 0  \
  --img_paths ./yarn-art-pikachu.png \
  --prompt_file "./edit_prompts.txt" \
  --width 1024 \
  --height 1024 \
  --vae_tiling \
  --vae_slicing \

参数说明：

model_path: 权重路径
device_id: 执行模型推理的芯片id
img_paths: 输入图片路径，多图则用逗号分隔，如img1,img2
prompt_file: 文本正面提示词路径
width: 生成图片的宽
height: 生成图片的高
vae_tiling: 使能 VAE tiling 来减少显存占用
vae_slicing: 使能 VAE slicing 来减少显存占用

3.2.2.1 等价优化+算法优化

执行命令：

# 等价优化
export ROPE_FUSE=1
export ADALN_FUSE=1
# cache算法优化
export COND_CACHE=1
export UNCOND_CACHE=1

python run_edit_2509.py  \
  --model_path ./Qwen-Image-Edit-2509  \
  --device_id 0  \
  --img_paths ./yarn-art-pikachu.png
  --prompt_file "./edit_prompts.txt" \
  --width 1024 \
  --height 1024 \
  --vae_tiling \
  --vae_slicing \

参数说明：

model_path: 权重路径
device_id: 执行模型推理的芯片id
img_paths: 输入图片路径，多图则用逗号分隔，如img1,img2
prompt_file: 文本正面提示词路径
width: 生成图片的宽
height: 生成图片的高
vae_tiling: 使能 VAE tiling 来减少显存占用
vae_slicing: 使能 VAE slicing 来减少显存占用

3.2.2 多卡性能测试

3.2.2.1 8卡性能测试

执行命令：

export LCCL_DETERMINISTIC=true  
export HCCL_DETERMINISTIC=true  
export ATB_MATMUL_SHUFFLE_K_ENABLE=0  
export ATB_LLM_LCOC_ENABLE=true      
export CLOSE_MATMUL_K_SHIFT=true     

model_path="/mnt/weights/Qwen-Image-Edit-2509"

# 等价优化  需要时开启
# export ROPE_FUSE=1
# export ADALN_FUSE=1

# cache算法优化 需要时开启
# export COND_CACHE=1
# export UNCOND_CACHE=1

# 等价优化+cache算法优化  需要时开启
# export ROPE_FUSE=1
# export ADALN_FUSE=1
# export COND_CACHE=1
# export UNCOND_CACHE=1

# 8卡并行，cfg_size * ulysses_size = 8
# (cfg_size=2, ulysses_size=4) 优于 (cfg_size=1, ulysses_size=8)
export ASCEND_RT_VISIBLE_DEVICES=0,1,2,3,4,5,6,7
# export ASCEND_RT_VISIBLE_DEVICES=8,9,10,11,12,13,14,15
torchrun --nproc_per_node=8 --master-port 29508 run_edit_2509_cfg_usp.py \
    --model_path ${model_path} \
    --num_inference_steps 50 \
    --seed 42 \
    --output_dir "baseline_cfg2_ulysses4_optimize_1+2_50steps" \
    --ulysses_size 4 \
    --cfg_size 2 \
    --img_paths ./yarn-art-pikachu.png \
    --prompt_file "./edit_prompts.txt" \
    --width 1024 \
    --height 1024 \
    --vae_tiling \
    --vae_slicing \

参数说明：

ASCEND_RT_VISIBLE_DEVICES: 选择的机器上的卡的编号，对于16卡机器，需要设定为连续的前8张或后8张
model_path: 权重路径
num_inference_steps: 推理的步数
seed: 设定种子
output_dir: 保存推理结果的路径
ulysses_size: ulysses并行数，使用时设定为24的因数
cfg_size: cfg并行数，使用时只能设定为2
img_paths: 输入图片路径，多图则用逗号分隔，如img1,img2
prompt_file: 文本正面提示词路径
width: 生成图片的宽
height: 生成图片的高
vae_tiling: 使能 VAE tiling 来减少显存占用
vae_slicing: 使能 VAE slicing 来减少显存占用

3.2.2.2 16卡性能测试

执行命令：

export LCCL_DETERMINISTIC=true  
export HCCL_DETERMINISTIC=true  
export ATB_MATMUL_SHUFFLE_K_ENABLE=0  
export ATB_LLM_LCOC_ENABLE=true      
export CLOSE_MATMUL_K_SHIFT=true     

model_path="/mnt/weights/Qwen-Image-Edit-2509"

# 等价优化  需要时开启
# export ROPE_FUSE=1
# export ADALN_FUSE=1

# cache算法优化 需要时开启
# export COND_CACHE=1
# export UNCOND_CACHE=1

# 等价优化+cache算法优化  需要时开启
# export ROPE_FUSE=1
# export ADALN_FUSE=1
# export COND_CACHE=1
# export UNCOND_CACHE=1

# 8卡并行，cfg_size * ulysses_size = 16
export ASCEND_RT_VISIBLE_DEVICES=0,1,2,3,4,5,6,7
# export ASCEND_RT_VISIBLE_DEVICES=8,9,10,11,12,13,14,15
torchrun --nproc_per_node=8 --master-port 29508 run_edit_2509_cfg_usp.py \
    --model_path ${model_path} \
    --num_inference_steps 50 \
    --seed 42 \
    --output_dir "baseline_cfg2_ulysses4_optimize_1+2_50steps" \
    --ulysses_size 8 \
    --cfg_size 2 \
    --img_paths ./yarn-art-pikachu.png \
    --prompt_file "./edit_prompts.txt" \
    --width 1024 \
    --height 1024 \
    --vae_tiling \
    --vae_slicing \

参数说明：

ASCEND_RT_VISIBLE_DEVICES: 选择的机器上的卡的编号
model_path: 权重路径
num_inference_steps: 推理的步数
seed: 设定种子
output_dir: 保存推理结果的路径
ulysses_size: ulysses并行数，使用时设定为24的因数
cfg_size: cfg并行数，使用时只能设定为2
img_paths: 输入图片路径，多图则用逗号分隔，如img1,img2
prompt_file: 文本正面提示词路径
width: 生成图片的宽
height: 生成图片的高
vae_tiling: 使能 VAE tiling 来减少显存占用
vae_slicing: 使能 VAE slicing 来减少显存占用

四、量化功能支持

本项目新增量化功能，支持权重 8 位（w8）与激活 8 位 / 16 位（a8/a16）的量化组合，可减少模型显存占用并保持推理性能

4.1 安装量化工具msModelSlim

参考官方README

git clone下载msit仓代码
进入到msit/msmodelslim的目录: cd msit/msmodelslim；并在进入的msmodelslim目录下，运行安装脚本: bash install.sh

4.2 量化模型生成

通过quantization/quant.py脚本生成量化模型及描述文件，需基于原始模型权重进行量化。

4.2.1 量化脚本运行示例

4.2.1.1 生成8bit权重+8bit激活的动态量化模型（w8a8）：

执行命令：

export PYTHONPATH=".:$PYTHONPATH"  # 添加当前目录到Python搜索路径
model_path="/mnt/weights/Qwen-Image-Edit-2509"
# w8a8量化
python quantization/quant.py \
  --model_path ${model_path} \
  --device_id 0 \
  --quant_mode w8a8 \
  --w_sym \
  --is_dynamic \
  --act_method 3 \
  --quant_save_dir ./quant_w8a8_dynamic_withoutData_use_disable_quant_layers

参数说明：

model_path: 原始模型权重路径
device_id: 执行模型推理的芯片id
quant_mode: 量化模式（权重+激活位宽）
w_sym: 是否对权重使用对称量化（默认False，加此参数表示启用）
is_dynamic: 是否启用动态量化（默认False，加此参数表示启用）
act_method: 激活量化方法（1=min-max，2=histogram，3=auto-mixed，推荐3）
quant_save_dir: 量化模型保存路径

执行后，quant_w8a8_dynamic_withoutData_use_disable_quant_layers目录下会生成两个文件：

quant_model_description_w8a8_dynamic.json：量化配置描述文件（包含量化位宽、层映射等元信息）
quant_model_weight_w8a8_dynamic.safetensors：量化后的权重文件（采用safe tensor格式，兼容Hugging Face生态）

4.2.1.2 生成8bit权重+16bit激活的量化模型（w8a16）：

执行命令：

export PYTHONPATH=".:$PYTHONPATH"  # 添加当前目录到Python搜索路径
model_path="/mnt/weights/Qwen-Image-Edit-2509"
# w8a16量化
python quantization/quant.py \
  --model_path ${model_path} \
  --device_id 0 \
  --quant_mode w8a16 \
  --w_sym \
  --act_method 3 \
  --quant_save_dir ./quant_w8a16_withoutData_use_disable_quant_layers

参数说明：

model_path: 原始模型权重路径
device_id: 执行模型推理的芯片id
quant_mode: 量化模式（权重+激活位宽）
w_sym: 是否对权重使用对称量化（默认False，加此参数表示启用）
act_method: 激活量化方法（1=min-max，2=histogram，3=auto-mixed，推荐3）
quant_save_dir: 量化模型保存路径

执行后，quant_w8a16_withoutData_use_disable_quant_layers目录下会生成两个文件：

quant_model_description_w8a16.json：量化配置描述文件（包含量化位宽、层映射等元信息）
quant_model_weight_w8a16.safetensors：量化后的权重文件（采用safe tensor格式，兼容Hugging Face生态）

4.3 安装量化模型推理工具NNAL神经网络加速库和torch_atb

4.3.1 获取安装包

支持设备：Atlas 800I A2
环境准备指导

4.3.2 安装

# 增加软件包可执行权限，{version}表示软件版本号，{arch}表示CPU架构。
chmod +x Ascend-cann-nnal_<version>_linux-<arch>.run
# 默认路径安装:
./Ascend-cann-nnal_<version>_linux-<arch>.run --install --torch_atb
# 配置环境变量:
source ${HOME}/Ascend/nnal/atb/set_env.sh

4.4 使用量化模型推理

使用量化模型进行推理时，需在原有命令中添加--quant_desc_path参数，指向量化描述文件（quant_model_description_*.json）路径，该路径需要是绝对路径，其余参数与原生模型推理一致。

4.4.1 单卡量化推理示例

以w8a8量化为例子，运行命令：

model_path="/mnt/weights/Qwen-Image-Edit-2509"
quant_desc_path="/home/Qwen-Image-Edit-2509/quant_w8a8_dynamic_withoutData_use_disable_quant_layers/quant_model_description_w8a8_dynamic.json"

# 算子优化  需要时开启
# export ROPE_FUSE=1
# export ADALN_FUSE=1

# cache 算法优化  需要时开启
# export COND_CACHE=1
# export UNCOND_CACHE=1

python run_edit_2509.py  \
    --model_path ${model_path}  \
    --device_id 0 \
    --quant_desc_path ${quant_desc_path} \
    --img_paths ./yarn-art-pikachu.png
    --prompt_file "./edit_prompts.txt" \
    --width 1024 \
    --height 1024 \

4.4.2 多卡量化推理示例

以w8a8量化为例子，运行命令：

export LCCL_DETERMINISTIC=true  
export HCCL_DETERMINISTIC=true  
export ATB_MATMUL_SHUFFLE_K_ENABLE=0  
export ATB_LLM_LCOC_ENABLE=true      
export CLOSE_MATMUL_K_SHIFT=true  

model_path="/mnt/weights/Qwen-Image-Edit-2509"
quant_desc_path="/home/Qwen-Image-Edit-2509/quant_w8a8_dynamic_withoutData_use_disable_quant_layers/quant_model_description_w8a8_dynamic.json"

# 算子优化  需要时开启
# export ROPE_FUSE=1
# export ADALN_FUSE=1

# 算法优化 需要时开启
# export COND_CACHE=1
# export UNCOND_CACHE=1

# 8卡并行
export ASCEND_RT_VISIBLE_DEVICES=0,1,2,3,4,5,6,7
torchrun --nproc_per_node=8 --master-port 29508 run_edit_2509_cfg_usp.py \
    --model_path ${model_path} \
    --num_inference_steps 50 \
    --seed 42 \
    --output_dir "baseline_cfg2_ulysses4_optimize_1+2_50steps" \
    --ulysses_size 4 \
    --cfg_size 2 \
    --quant_desc_path ${quant_desc_path} \
    --img_paths ./yarn-art-pikachu.png \
    --prompt_file "./edit_prompts.txt" \
    --width 1024 \
    --height 1024 \

4.4.3 量化推理注意事项

路径要求：--quant_desc_path需指向完整的量化描述文件路径（即quant_model_description_*.json），且该路径要求填写绝对路径。量化权重文件（.safetensors）需与描述文件在同一目录下，否则会提示权重加载失败。

五、精度测试

1、本工程选用 GEdit-Bench 数据集进行精度评测，该数据集来源论文：Step1X-Edit: A Practical Framework for General Image Editing。 2、本工程的评测代码在 GEdit-Bench 文件夹下，该代码基于Step1X-Edit工程进行了部分修改适配。 3、在 GEdit-Bench官方评测文档：GEdit-Bench EVAL里提到可以采用GPT-4.1或Qwen2.5VL-72B-Instruct-AWQ模型来对生成的图像进行打分。

5.1 数据集下载

GEdit-Bench 数据集下载链接，二选一： 🤗 huggingface 🤖 ModelScope

5.2 评测模型权重下载

Qwen2.5VL-72B-Instruct 模型权重下载链接，二选一： 🤗 huggingface 🤖 ModelScope

5.3 使用推理脚本读取GEdit-Bench数据集，生成图片

5.3.1 单卡推理

model_path="/home/weight/Qwen-Image-Edit-2509/" 
quant_desc_path="/home/Qwen-Image-Edit-2509/quant_w8a8_withoutData_use_disable_quant_layers/quant_model_description_w8a8_dynamic.json"

# 算子优化  需要时开启
# export ROPE_FUSE=1
# export ADALN_FUSE=1

# cache 算法优化  需要时开启
# export COND_CACHE=1
# export UNCOND_CACHE=1

# GEdit-Bench数据集的使用示例
dataset_path="/mnt/datasets/GEdit-Bench"
python run_edit_2509.py \
    --model_path ${model_path} \
    --device_id 0 \
    --dataset_name "GEdit-Bench" \
    --dataset_path ${dataset_path} \
    --num_inference_steps 50 \
    --seed 42 \
    --output_dir "GEdit-Bench_baseline" \
    --vae_tiling \
    --vae_slicing \
    # 有量化权重时候，使用量化时才开启
    # --quant_desc_path ${quant_desc_path}

参数说明：

model_path: 模型权重路径
device_id: 执行模型推理的芯片id
dataset_name: 数据集名称
dataset_path: 数据集本地路径
num_inference_steps: 推理的步数
seed: 设定种子
vae_tiling: 使能 VAE tiling 来减少显存占用
vae_slicing: 使能 VAE slicing 来减少显存占用

5.3.2 8卡推理

# 确定性运算
export LCCL_DETERMINISTIC=true  
export HCCL_DETERMINISTIC=true  
export ATB_MATMUL_SHUFFLE_K_ENABLE=0  
export ATB_LLM_LCOC_ENABLE=true       
export CLOSE_MATMUL_K_SHIFT=true    

model_path="/home/weight/Qwen-Image-Edit-2509/"
quant_desc_path="/home/Qwen-Image-Edit-2509/quant_w8a8_withoutData_use_disable_quant_layers/quant_model_description_w8a8_dynamic.json"

# 算子优化  需要时开启
# export ROPE_FUSE=1
# export ADALN_FUSE=1

# cache 算法优化  需要时开启
# export COND_CACHE=1
# export UNCOND_CACHE=1

# GEdit-Bench数据集的使用示例, 8卡并行 cfg_size=2 ulysses_size=4
dataset_path="/mnt/datasets/GEdit-Bench"
export ASCEND_RT_VISIBLE_DEVICES=0,1,2,3,4,5,6,7
torchrun --nproc_per_node=8 --master-port 29503 run_edit_2509_cfg_usp.py \
    --model_path ${model_path} \
    --dataset_name "GEdit-Bench" \
    --dataset_path ${dataset_path} \
    --num_inference_steps 50 \
    --seed 42 \
    --output_dir "GEdit-Bench_cfg2_ulysses4_optimize_1+2_50steps" \
    --ulysses_size 4 \
    --cfg_size 2 \
    --vae_tiling \
    --vae_slicing \
    # 有量化权重时候，使用量化时才开启
    # --quant_desc_path ${quant_desc_path}

参数说明：

ASCEND_RT_VISIBLE_DEVICES: 选择的机器上的卡的编号
model_path: 模型权重路径
dataset_name: 数据集名称
dataset_path: 数据集本地路径
num_inference_steps: 推理的步数
seed: 设定种子
output_dir: 保存推理结果的路径
ulysses_size: ulysses并行数，使用时设定为24的因数
cfg_size: cfg并行数，使用时只能设定为2
vae_tiling: 使能 VAE tiling 来减少显存占用
vae_slicing: 使能 VAE slicing 来减少显存占用

5.4 使用推理生成的图片计算精度指标

5.4.1 使用多模态大语言模型对生成图片进行打分

进入 GEdit-Bench 文件夹，运行 run_score.sh 脚本，该脚本内容：

# 4张卡
export ASCEND_RT_VISIBLE_DEVICES=0,1,2,3
export QWEN_MODEL_PATH="/mnt/share/weight/Qwen2.5-VL-72B-Instruct"
python run_gedit_score.py \
    --model_name Qwen-Image-Edit-2509 \
    --dataset_dir /mnt/datasets/GEdit-Bench \
    --edited_images_dir /mnt/Qwen-Image-Edit-2509/GEdit-Bench_cfg2_ulysses4_optimize_1+2_40steps \
    --backbone qwen25vl \
    --save_dir ./score_dir \

参数说明：

model_name: 要评测的模型名字
dataset_dir: GEdit-Bench数据集本地路径
edited_images_dir: 生图模型使用数据集推理得到的图片路径
backbone: 对生成图片进行打分的模型
save_dir: 打分结果保存路径

运行后会得到打分结果文件：.csv格式文件。

5.4.2 对打分结果文件进行分析

运行 run_statistics.sh 脚本，该脚本内容：

python calculate_statistics.py \
    --model_name Qwen-Image-Edit-2509 \
    --save_path ./score_dir \
    --backbone qwen25vl \
    --language all

参数说明：

model_name: 要评测的模型名字
save_path: 打分结果文件路径
backbone: 对生成图片进行打分的模型
language: 对哪些语言结果进行统计

运行后，会得到具体精度指标。

5.4.3 精度指标示例

下面给出在Qwen-Image-Edit-2509在8卡推理场景下（叠加等价优化、算法优化、w8a8动态量化）的精度指标

英文指令评测结果

任务类型	语义对齐得分 (Semantics)	图像质量得分 (Quality)	综合得分 (Overall)
background_change	8.000	7.675	7.828
color_alter	7.925	7.250	7.432
material_alter	7.200	6.975	6.925
motion_change	7.550	7.650	7.388
ps_human	6.443	7.429	6.360
style_change	6.250	7.217	6.244
subject-add	7.867	7.700	7.694
subject-remove	6.895	7.719	6.682
subject-replace	7.850	7.417	7.472
text_change	8.263	7.515	7.628
tone_transfer	6.250	7.375	6.373
全量平均	7.317	7.447	7.093

交集样本平均：语义7.393 | 画质7.492 | 综合7.184

中文指令评测结果

任务类型	语义对齐得分 (Semantics)	图像质量得分 (Quality)	综合得分 (Overall)
background_change	7.950	7.700	7.817
color_alter	7.950	7.200	7.505
material_alter	6.900	7.050	6.543
motion_change	7.575	7.700	7.533
ps_human	6.386	7.443	6.252
style_change	6.517	7.250	6.486
subject-add	8.000	7.767	7.863
subject-remove	7.000	7.754	6.872
subject-replace	7.800	7.383	7.435
text_change	7.949	7.505	7.419
tone_transfer	6.350	7.125	6.165
全量平均	7.307	7.443	7.081

交集样本平均：语义7.259 | 画质7.431 | 综合7.037

补充说明

语义对齐得分：衡量编辑后图像与指令的语义匹配度
图像质量得分：衡量编辑后图像的画质、自然度、完整性
综合得分：语义与画质的综合评估结果
模型在中英文指令上表现高度一致，双语鲁棒性良好

六、推理结果参考

6.1 Atlas 800I A2(1*64G) 机器性能（910B2）

6.1.1 单卡

模型	卡数	图片输出分辨率	算子优化	Cache算法优化	量化	50步 E2E耗时(s)
Qwen-Image-Edit-2509	1	1024*1024	/	/	/	93.4
Qwen-Image-Edit-2509	1	1024*1024	Y	/	/	90.9
Qwen-Image-Edit-2509	1	1024*1024	Y	保守	/	59.9
Qwen-Image-Edit-2509	1	1024*1024	Y	偏激进	/	43.0
Qwen-Image-Edit-2509	1	1024*1024	Y	偏激进	w8a8	38.1

6.1.1 8卡（cfg_size=2，ulysses_size=4）

模型	卡数	图片输出分辨率	算子优化	Cache算法优化	量化	50步 E2E耗时(s)
Qwen-Image-Edit-2509	8	1024*1024	/	/	/	17.9
Qwen-Image-Edit-2509	8	1024*1024	Y	/	/	17.7
Qwen-Image-Edit-2509	8	1024*1024	Y	保守	/	12.1
Qwen-Image-Edit-2509	8	1024*1024	Y	偏激进	/	9.0
Qwen-Image-Edit-2509	8	1024*1024	Y	偏激进	w8a8	8.6

七、Q&A

1、若使用torch2.2以下版本时，会遇到"$DIFFUSERS_PATH/models/attention_dispatch.py"中481行和490行的torch.library接口的使用的不兼容保错，在主程序代码中开头我已加入修正代码来解决兼容性报错。 2、运行代码遇到加载工程中yarn-art-pikachu.png图片报错，可能是git下载时没下载图片成功，可以尝试手动下载图片下来

声明

本代码仓提到的数据集和模型仅作为示例，这些数据集和模型仅供您用于非商业目的，如您使用这些数据集和模型来完成示例，请您特别注意应遵守对应数据集和模型的License，如您因使用数据集或模型而产生侵权纠纷，华为不承担任何责任。
如您在使用本代码仓的过程中，发现任何问题（包括但不限于功能问题、合规问题），请在本代码仓提交issue，我们将及时审视并解答。

一、准备运行环境

表 1 版本配套表

配套	版本	环境准备指导
Python	3.10 or 3.11	-
torch	2.1.0	-

1.1 获取CANN&MindIE安装包&环境准备

设备支持 Atlas 800I/800T A2(8*64G)推理设备：支持的卡数最小为1
Atlas 800I/800T A2(8*64G)
环境准备指导

1.2 CANN安装

# 增加软件包可执行权限，{version}表示软件版本号，{arch}表示CPU架构，{soc}表示昇腾AI处理器的版本。
chmod +x ./Ascend-cann-toolkit_{version}_linux-{arch}.run
chmod +x ./Ascend-cann-kernels-{soc}_{version}_linux.run
# 校验软件包安装文件的一致性和完整性
./Ascend-cann-toolkit_{version}_linux-{arch}.run --check
./Ascend-cann-kernels-{soc}_{version}_linux.run --check
# 安装
./Ascend-cann-toolkit_{version}_linux-{arch}.run --install
./Ascend-cann-kernels-{soc}_{version}_linux.run --install

# 设置环境变量
source /usr/local/Ascend/ascend-toolkit/set_env.sh

1.3 MindIE安装

# 增加软件包可执行权限，{version}表示软件版本号，{arch}表示CPU架构。
chmod +x ./Ascend-mindie_${version}_linux-${arch}.run
./Ascend-mindie_${version}_linux-${arch}.run --check

# 方式一：默认路径安装
./Ascend-mindie_${version}_linux-${arch}.run --install
# 设置环境变量
cd /usr/local/Ascend/mindie && source set_env.sh

# 方式二：指定路径安装
./Ascend-mindie_${version}_linux-${arch}.run --install-path=${AieInstallPath}
# 设置环境变量
cd ${AieInstallPath}/mindie && source set_env.sh

1.4 Torch_npu安装

下载 pytorch_v{pytorchversion}_py{pythonversion}.tar.gz

tar -xzvf pytorch_v{pytorchversion}_py{pythonversion}.tar.gz
# 解压后，会有whl包
pip install torch_npu-{pytorchversion}.xxxx.{arch}.whl

二、下载权重

2.1 权重及配置文件说明

Qwen-Image权重链接:

https://huggingface.co/Qwen/Qwen-Image-Edit-2509

三、Qwen-Image-Edit使用

3.1 推理前准备

#  1. 下载代码
git clone https://modelers.cn/MindIE/Qwen-Image-Edit-2509.git && cd Qwen-Image-Edit-2509

# 2. python相关依赖安装
pip install diffusers==0.35.1
pip install transformers==4.52.4
pip install yunchang==0.6.0

3.2 Qwen-Image-Edit推理

3.2.1 单卡性能测试

3.2.1.1 等价优化

执行命令：

# 等价优化
export ROPE_FUSE=1
export ADALN_FUSE=1

python run_edit_2509.py  \
  --model_path ./Qwen-Image-Edit-2509  \
  --device_id 0  \
  --img_paths ./yarn-art-pikachu.png \
  --prompt_file "./edit_prompts.txt" \
  --width 1024 \
  --height 1024 \
  --vae_tiling \
  --vae_slicing \

参数说明：

model_path: 权重路径
device_id: 执行模型推理的芯片id
img_paths: 输入图片路径，多图则用逗号分隔，如img1,img2
prompt_file: 文本正面提示词路径
width: 生成图片的宽
height: 生成图片的高
vae_tiling: 使能 VAE tiling 来减少显存占用
vae_slicing: 使能 VAE slicing 来减少显存占用

3.2.2.1 等价优化+算法优化

执行命令：

# 等价优化
export ROPE_FUSE=1
export ADALN_FUSE=1
# cache算法优化
export COND_CACHE=1
export UNCOND_CACHE=1

python run_edit_2509.py  \
  --model_path ./Qwen-Image-Edit-2509  \
  --device_id 0  \
  --img_paths ./yarn-art-pikachu.png
  --prompt_file "./edit_prompts.txt" \
  --width 1024 \
  --height 1024 \
  --vae_tiling \
  --vae_slicing \

参数说明：

model_path: 权重路径
device_id: 执行模型推理的芯片id
img_paths: 输入图片路径，多图则用逗号分隔，如img1,img2
prompt_file: 文本正面提示词路径
width: 生成图片的宽
height: 生成图片的高
vae_tiling: 使能 VAE tiling 来减少显存占用
vae_slicing: 使能 VAE slicing 来减少显存占用

3.2.2 多卡性能测试

3.2.2.1 8卡性能测试

执行命令：

export LCCL_DETERMINISTIC=true  
export HCCL_DETERMINISTIC=true  
export ATB_MATMUL_SHUFFLE_K_ENABLE=0  
export ATB_LLM_LCOC_ENABLE=true      
export CLOSE_MATMUL_K_SHIFT=true     

model_path="/mnt/weights/Qwen-Image-Edit-2509"

# 等价优化  需要时开启
# export ROPE_FUSE=1
# export ADALN_FUSE=1

# cache算法优化 需要时开启
# export COND_CACHE=1
# export UNCOND_CACHE=1

# 等价优化+cache算法优化  需要时开启
# export ROPE_FUSE=1
# export ADALN_FUSE=1
# export COND_CACHE=1
# export UNCOND_CACHE=1

# 8卡并行，cfg_size * ulysses_size = 8
# (cfg_size=2, ulysses_size=4) 优于 (cfg_size=1, ulysses_size=8)
export ASCEND_RT_VISIBLE_DEVICES=0,1,2,3,4,5,6,7
# export ASCEND_RT_VISIBLE_DEVICES=8,9,10,11,12,13,14,15
torchrun --nproc_per_node=8 --master-port 29508 run_edit_2509_cfg_usp.py \
    --model_path ${model_path} \
    --num_inference_steps 50 \
    --seed 42 \
    --output_dir "baseline_cfg2_ulysses4_optimize_1+2_50steps" \
    --ulysses_size 4 \
    --cfg_size 2 \
    --img_paths ./yarn-art-pikachu.png \
    --prompt_file "./edit_prompts.txt" \
    --width 1024 \
    --height 1024 \
    --vae_tiling \
    --vae_slicing \

参数说明：

ASCEND_RT_VISIBLE_DEVICES: 选择的机器上的卡的编号，对于16卡机器，需要设定为连续的前8张或后8张
model_path: 权重路径
num_inference_steps: 推理的步数
seed: 设定种子
output_dir: 保存推理结果的路径
ulysses_size: ulysses并行数，使用时设定为24的因数
cfg_size: cfg并行数，使用时只能设定为2
img_paths: 输入图片路径，多图则用逗号分隔，如img1,img2
prompt_file: 文本正面提示词路径
width: 生成图片的宽
height: 生成图片的高
vae_tiling: 使能 VAE tiling 来减少显存占用
vae_slicing: 使能 VAE slicing 来减少显存占用

3.2.2.2 16卡性能测试

执行命令：

export LCCL_DETERMINISTIC=true  
export HCCL_DETERMINISTIC=true  
export ATB_MATMUL_SHUFFLE_K_ENABLE=0  
export ATB_LLM_LCOC_ENABLE=true      
export CLOSE_MATMUL_K_SHIFT=true     

model_path="/mnt/weights/Qwen-Image-Edit-2509"

# 等价优化  需要时开启
# export ROPE_FUSE=1
# export ADALN_FUSE=1

# cache算法优化 需要时开启
# export COND_CACHE=1
# export UNCOND_CACHE=1

# 等价优化+cache算法优化  需要时开启
# export ROPE_FUSE=1
# export ADALN_FUSE=1
# export COND_CACHE=1
# export UNCOND_CACHE=1

# 8卡并行，cfg_size * ulysses_size = 16
export ASCEND_RT_VISIBLE_DEVICES=0,1,2,3,4,5,6,7
# export ASCEND_RT_VISIBLE_DEVICES=8,9,10,11,12,13,14,15
torchrun --nproc_per_node=8 --master-port 29508 run_edit_2509_cfg_usp.py \
    --model_path ${model_path} \
    --num_inference_steps 50 \
    --seed 42 \
    --output_dir "baseline_cfg2_ulysses4_optimize_1+2_50steps" \
    --ulysses_size 8 \
    --cfg_size 2 \
    --img_paths ./yarn-art-pikachu.png \
    --prompt_file "./edit_prompts.txt" \
    --width 1024 \
    --height 1024 \
    --vae_tiling \
    --vae_slicing \

参数说明：

ASCEND_RT_VISIBLE_DEVICES: 选择的机器上的卡的编号
model_path: 权重路径
num_inference_steps: 推理的步数
seed: 设定种子
output_dir: 保存推理结果的路径
ulysses_size: ulysses并行数，使用时设定为24的因数
cfg_size: cfg并行数，使用时只能设定为2
img_paths: 输入图片路径，多图则用逗号分隔，如img1,img2
prompt_file: 文本正面提示词路径
width: 生成图片的宽
height: 生成图片的高
vae_tiling: 使能 VAE tiling 来减少显存占用
vae_slicing: 使能 VAE slicing 来减少显存占用

四、量化功能支持

本项目新增量化功能，支持权重 8 位（w8）与激活 8 位 / 16 位（a8/a16）的量化组合，可减少模型显存占用并保持推理性能

4.1 安装量化工具msModelSlim

参考官方README

git clone下载msit仓代码
进入到msit/msmodelslim的目录: cd msit/msmodelslim；并在进入的msmodelslim目录下，运行安装脚本: bash install.sh

4.2 量化模型生成

通过quantization/quant.py脚本生成量化模型及描述文件，需基于原始模型权重进行量化。

4.2.1 量化脚本运行示例

4.2.1.1 生成8bit权重+8bit激活的动态量化模型（w8a8）：

执行命令：

export PYTHONPATH=".:$PYTHONPATH"  # 添加当前目录到Python搜索路径
model_path="/mnt/weights/Qwen-Image-Edit-2509"
# w8a8量化
python quantization/quant.py \
  --model_path ${model_path} \
  --device_id 0 \
  --quant_mode w8a8 \
  --w_sym \
  --is_dynamic \
  --act_method 3 \
  --quant_save_dir ./quant_w8a8_dynamic_withoutData_use_disable_quant_layers

参数说明：

model_path: 原始模型权重路径
device_id: 执行模型推理的芯片id
quant_mode: 量化模式（权重+激活位宽）
w_sym: 是否对权重使用对称量化（默认False，加此参数表示启用）
is_dynamic: 是否启用动态量化（默认False，加此参数表示启用）
act_method: 激活量化方法（1=min-max，2=histogram，3=auto-mixed，推荐3）
quant_save_dir: 量化模型保存路径

执行后，quant_w8a8_dynamic_withoutData_use_disable_quant_layers目录下会生成两个文件：

quant_model_description_w8a8_dynamic.json：量化配置描述文件（包含量化位宽、层映射等元信息）
quant_model_weight_w8a8_dynamic.safetensors：量化后的权重文件（采用safe tensor格式，兼容Hugging Face生态）

4.2.1.2 生成8bit权重+16bit激活的量化模型（w8a16）：

执行命令：

export PYTHONPATH=".:$PYTHONPATH"  # 添加当前目录到Python搜索路径
model_path="/mnt/weights/Qwen-Image-Edit-2509"
# w8a16量化
python quantization/quant.py \
  --model_path ${model_path} \
  --device_id 0 \
  --quant_mode w8a16 \
  --w_sym \
  --act_method 3 \
  --quant_save_dir ./quant_w8a16_withoutData_use_disable_quant_layers

参数说明：

model_path: 原始模型权重路径
device_id: 执行模型推理的芯片id
quant_mode: 量化模式（权重+激活位宽）
w_sym: 是否对权重使用对称量化（默认False，加此参数表示启用）
act_method: 激活量化方法（1=min-max，2=histogram，3=auto-mixed，推荐3）
quant_save_dir: 量化模型保存路径

执行后，quant_w8a16_withoutData_use_disable_quant_layers目录下会生成两个文件：

quant_model_description_w8a16.json：量化配置描述文件（包含量化位宽、层映射等元信息）
quant_model_weight_w8a16.safetensors：量化后的权重文件（采用safe tensor格式，兼容Hugging Face生态）

4.3 安装量化模型推理工具NNAL神经网络加速库和torch_atb

4.3.1 获取安装包

支持设备：Atlas 800I A2
环境准备指导

4.3.2 安装

# 增加软件包可执行权限，{version}表示软件版本号，{arch}表示CPU架构。
chmod +x Ascend-cann-nnal_<version>_linux-<arch>.run
# 默认路径安装:
./Ascend-cann-nnal_<version>_linux-<arch>.run --install --torch_atb
# 配置环境变量:
source ${HOME}/Ascend/nnal/atb/set_env.sh

4.4 使用量化模型推理

4.4.1 单卡量化推理示例

以w8a8量化为例子，运行命令：

model_path="/mnt/weights/Qwen-Image-Edit-2509"
quant_desc_path="/home/Qwen-Image-Edit-2509/quant_w8a8_dynamic_withoutData_use_disable_quant_layers/quant_model_description_w8a8_dynamic.json"

# 算子优化  需要时开启
# export ROPE_FUSE=1
# export ADALN_FUSE=1

# cache 算法优化  需要时开启
# export COND_CACHE=1
# export UNCOND_CACHE=1

python run_edit_2509.py  \
    --model_path ${model_path}  \
    --device_id 0 \
    --quant_desc_path ${quant_desc_path} \
    --img_paths ./yarn-art-pikachu.png
    --prompt_file "./edit_prompts.txt" \
    --width 1024 \
    --height 1024 \

4.4.2 多卡量化推理示例

以w8a8量化为例子，运行命令：

export LCCL_DETERMINISTIC=true  
export HCCL_DETERMINISTIC=true  
export ATB_MATMUL_SHUFFLE_K_ENABLE=0  
export ATB_LLM_LCOC_ENABLE=true      
export CLOSE_MATMUL_K_SHIFT=true  

model_path="/mnt/weights/Qwen-Image-Edit-2509"
quant_desc_path="/home/Qwen-Image-Edit-2509/quant_w8a8_dynamic_withoutData_use_disable_quant_layers/quant_model_description_w8a8_dynamic.json"

# 算子优化  需要时开启
# export ROPE_FUSE=1
# export ADALN_FUSE=1

# 算法优化 需要时开启
# export COND_CACHE=1
# export UNCOND_CACHE=1

# 8卡并行
export ASCEND_RT_VISIBLE_DEVICES=0,1,2,3,4,5,6,7
torchrun --nproc_per_node=8 --master-port 29508 run_edit_2509_cfg_usp.py \
    --model_path ${model_path} \
    --num_inference_steps 50 \
    --seed 42 \
    --output_dir "baseline_cfg2_ulysses4_optimize_1+2_50steps" \
    --ulysses_size 4 \
    --cfg_size 2 \
    --quant_desc_path ${quant_desc_path} \
    --img_paths ./yarn-art-pikachu.png \
    --prompt_file "./edit_prompts.txt" \
    --width 1024 \
    --height 1024 \

4.4.3 量化推理注意事项

路径要求：--quant_desc_path需指向完整的量化描述文件路径（即quant_model_description_*.json），且该路径要求填写绝对路径。量化权重文件（.safetensors）需与描述文件在同一目录下，否则会提示权重加载失败。

五、精度测试

5.1 数据集下载

GEdit-Bench 数据集下载链接，二选一： 🤗 huggingface 🤖 ModelScope

5.2 评测模型权重下载

Qwen2.5VL-72B-Instruct 模型权重下载链接，二选一： 🤗 huggingface 🤖 ModelScope

5.3 使用推理脚本读取GEdit-Bench数据集，生成图片

5.3.1 单卡推理

model_path="/home/weight/Qwen-Image-Edit-2509/" 
quant_desc_path="/home/Qwen-Image-Edit-2509/quant_w8a8_withoutData_use_disable_quant_layers/quant_model_description_w8a8_dynamic.json"

# 算子优化  需要时开启
# export ROPE_FUSE=1
# export ADALN_FUSE=1

# cache 算法优化  需要时开启
# export COND_CACHE=1
# export UNCOND_CACHE=1

# GEdit-Bench数据集的使用示例
dataset_path="/mnt/datasets/GEdit-Bench"
python run_edit_2509.py \
    --model_path ${model_path} \
    --device_id 0 \
    --dataset_name "GEdit-Bench" \
    --dataset_path ${dataset_path} \
    --num_inference_steps 50 \
    --seed 42 \
    --output_dir "GEdit-Bench_baseline" \
    --vae_tiling \
    --vae_slicing \
    # 有量化权重时候，使用量化时才开启
    # --quant_desc_path ${quant_desc_path}

参数说明：

model_path: 模型权重路径
device_id: 执行模型推理的芯片id
dataset_name: 数据集名称
dataset_path: 数据集本地路径
num_inference_steps: 推理的步数
seed: 设定种子
vae_tiling: 使能 VAE tiling 来减少显存占用
vae_slicing: 使能 VAE slicing 来减少显存占用

5.3.2 8卡推理

# 确定性运算
export LCCL_DETERMINISTIC=true  
export HCCL_DETERMINISTIC=true  
export ATB_MATMUL_SHUFFLE_K_ENABLE=0  
export ATB_LLM_LCOC_ENABLE=true       
export CLOSE_MATMUL_K_SHIFT=true    

model_path="/home/weight/Qwen-Image-Edit-2509/"
quant_desc_path="/home/Qwen-Image-Edit-2509/quant_w8a8_withoutData_use_disable_quant_layers/quant_model_description_w8a8_dynamic.json"

# 算子优化  需要时开启
# export ROPE_FUSE=1
# export ADALN_FUSE=1

# cache 算法优化  需要时开启
# export COND_CACHE=1
# export UNCOND_CACHE=1

# GEdit-Bench数据集的使用示例, 8卡并行 cfg_size=2 ulysses_size=4
dataset_path="/mnt/datasets/GEdit-Bench"
export ASCEND_RT_VISIBLE_DEVICES=0,1,2,3,4,5,6,7
torchrun --nproc_per_node=8 --master-port 29503 run_edit_2509_cfg_usp.py \
    --model_path ${model_path} \
    --dataset_name "GEdit-Bench" \
    --dataset_path ${dataset_path} \
    --num_inference_steps 50 \
    --seed 42 \
    --output_dir "GEdit-Bench_cfg2_ulysses4_optimize_1+2_50steps" \
    --ulysses_size 4 \
    --cfg_size 2 \
    --vae_tiling \
    --vae_slicing \
    # 有量化权重时候，使用量化时才开启
    # --quant_desc_path ${quant_desc_path}

参数说明：

ASCEND_RT_VISIBLE_DEVICES: 选择的机器上的卡的编号
model_path: 模型权重路径
dataset_name: 数据集名称
dataset_path: 数据集本地路径
num_inference_steps: 推理的步数
seed: 设定种子
output_dir: 保存推理结果的路径
ulysses_size: ulysses并行数，使用时设定为24的因数
cfg_size: cfg并行数，使用时只能设定为2
vae_tiling: 使能 VAE tiling 来减少显存占用
vae_slicing: 使能 VAE slicing 来减少显存占用

5.4 使用推理生成的图片计算精度指标

5.4.1 使用多模态大语言模型对生成图片进行打分

进入 GEdit-Bench 文件夹，运行 run_score.sh 脚本，该脚本内容：

# 4张卡
export ASCEND_RT_VISIBLE_DEVICES=0,1,2,3
export QWEN_MODEL_PATH="/mnt/share/weight/Qwen2.5-VL-72B-Instruct"
python run_gedit_score.py \
    --model_name Qwen-Image-Edit-2509 \
    --dataset_dir /mnt/datasets/GEdit-Bench \
    --edited_images_dir /mnt/Qwen-Image-Edit-2509/GEdit-Bench_cfg2_ulysses4_optimize_1+2_40steps \
    --backbone qwen25vl \
    --save_dir ./score_dir \

参数说明：

model_name: 要评测的模型名字
dataset_dir: GEdit-Bench数据集本地路径
edited_images_dir: 生图模型使用数据集推理得到的图片路径
backbone: 对生成图片进行打分的模型
save_dir: 打分结果保存路径

运行后会得到打分结果文件：.csv格式文件。

5.4.2 对打分结果文件进行分析

运行 run_statistics.sh 脚本，该脚本内容：

python calculate_statistics.py \
    --model_name Qwen-Image-Edit-2509 \
    --save_path ./score_dir \
    --backbone qwen25vl \
    --language all

参数说明：

model_name: 要评测的模型名字
save_path: 打分结果文件路径
backbone: 对生成图片进行打分的模型
language: 对哪些语言结果进行统计

运行后，会得到具体精度指标。

5.4.3 精度指标示例

下面给出在Qwen-Image-Edit-2509在8卡推理场景下（叠加等价优化、算法优化、w8a8动态量化）的精度指标

英文指令评测结果

任务类型	语义对齐得分 (Semantics)	图像质量得分 (Quality)	综合得分 (Overall)
background_change	8.000	7.675	7.828
color_alter	7.925	7.250	7.432
material_alter	7.200	6.975	6.925
motion_change	7.550	7.650	7.388
ps_human	6.443	7.429	6.360
style_change	6.250	7.217	6.244
subject-add	7.867	7.700	7.694
subject-remove	6.895	7.719	6.682
subject-replace	7.850	7.417	7.472
text_change	8.263	7.515	7.628
tone_transfer	6.250	7.375	6.373
全量平均	7.317	7.447	7.093

交集样本平均：语义7.393 | 画质7.492 | 综合7.184

中文指令评测结果

任务类型	语义对齐得分 (Semantics)	图像质量得分 (Quality)	综合得分 (Overall)
background_change	7.950	7.700	7.817
color_alter	7.950	7.200	7.505
material_alter	6.900	7.050	6.543
motion_change	7.575	7.700	7.533
ps_human	6.386	7.443	6.252
style_change	6.517	7.250	6.486
subject-add	8.000	7.767	7.863
subject-remove	7.000	7.754	6.872
subject-replace	7.800	7.383	7.435
text_change	7.949	7.505	7.419
tone_transfer	6.350	7.125	6.165
全量平均	7.307	7.443	7.081

交集样本平均：语义7.259 | 画质7.431 | 综合7.037

补充说明

语义对齐得分：衡量编辑后图像与指令的语义匹配度
图像质量得分：衡量编辑后图像的画质、自然度、完整性
综合得分：语义与画质的综合评估结果
模型在中英文指令上表现高度一致，双语鲁棒性良好

六、推理结果参考

6.1 Atlas 800I A2(1*64G) 机器性能（910B2）

6.1.1 单卡

模型	卡数	图片输出分辨率	算子优化	Cache算法优化	量化	50步 E2E耗时(s)
Qwen-Image-Edit-2509	1	1024*1024	/	/	/	93.4
Qwen-Image-Edit-2509	1	1024*1024	Y	/	/	90.9
Qwen-Image-Edit-2509	1	1024*1024	Y	保守	/	59.9
Qwen-Image-Edit-2509	1	1024*1024	Y	偏激进	/	43.0
Qwen-Image-Edit-2509	1	1024*1024	Y	偏激进	w8a8	38.1

6.1.1 8卡（cfg_size=2，ulysses_size=4）

模型	卡数	图片输出分辨率	算子优化	Cache算法优化	量化	50步 E2E耗时(s)
Qwen-Image-Edit-2509	8	1024*1024	/	/	/	17.9
Qwen-Image-Edit-2509	8	1024*1024	Y	/	/	17.7
Qwen-Image-Edit-2509	8	1024*1024	Y	保守	/	12.1
Qwen-Image-Edit-2509	8	1024*1024	Y	偏激进	/	9.0
Qwen-Image-Edit-2509	8	1024*1024	Y	偏激进	w8a8	8.6

七、Q&A

声明

本代码仓提到的数据集和模型仅作为示例，这些数据集和模型仅供您用于非商业目的，如您使用这些数据集和模型来完成示例，请您特别注意应遵守对应数据集和模型的License，如您因使用数据集或模型而产生侵权纠纷，华为不承担任何责任。
如您在使用本代码仓的过程中，发现任何问题（包括但不限于功能问题、合规问题），请在本代码仓提交issue，我们将及时审视并解答。