xujiashuai/flux2-small-decoder
模型介绍文件和版本Pull Requests讨论分析

FLUX.2-small-decoder 在昇腾 NPU 上的部署

1. 简介

  • 模型来源:black-forest-labs/FLUX.2-small-decoder
  • 架构:AutoencoderKLFlux2(VAE 解码器)
  • 任务:图像解码( latent → 图像)
  • 适配状态:SUCCESS

2. 验证环境

组件版本
torch2.9.0
torch-npu2.9.0.post1
diffusers0.38.0
CANN8.5.1
NPUAscend 910B4

3. 推理脚本

python inference.py --device npu:0 --dtype float32

4. 推理输出证据

模型: black-forest-labs/FLUX.2-small-decoder
设备: npu:0
精度: float32
------------------------------------------------------------
权重加载完成

--- CPU 推理 ---
输入形状: [1, 32, 64, 64]
输出形状: [1, 3, 512, 512]
输出前5个值: [ 0.00682809 -0.026568   -0.10946923 -0.11549806 -0.17874204]
是否有 NaN: False

--- NPU 推理 (npu:0) ---
输入形状: [1, 32, 64, 64]
输出形状: [1, 3, 512, 512]
输出前5个值: [ 0.00678159 -0.02662103 -0.1094844  -0.11551054 -0.17876516]
是否有 NaN: False

--- 精度对比 ---
Cosine Similarity: 1.000005
Max Abs Error: 0.000922

--- 性能基准 ---
平均延迟: 30.25 ms (10轮)

✓ 推理完成

5. CPU 与 NPU 精度对比

指标数值
余弦相似度1.000005
最大绝对误差0.000922

6. 性能参考

指标数值
平均延迟30.25 ms
测试轮数10
下载使用量0