RE-USE Ascend NPU 部署指南

项目简介

RE-USE 是一个基于 Mamba 的语音增强模型，使用 Temporal-Frequency Mamba blocks 进行噪声抑制。本项目提供其在华为 Ascend NPU 环境下的部署方案。

特性

支持 Ascend NPU 推理加速
CPU vs NPU 精度对比测试 (< 1% 误差)
无需 CUDA 依赖，纯 PyTorch NPU 实现

环境要求

硬件: 华为 Ascend 910 系列 NPU
CANN: 8.0.RC1 或更高版本
PyTorch: 2.0+ with torch_npu
Docker: 容器名称 test-modelagent
Python库: einops, librosa

目录结构

/data/ysws/agentsp/RE-USE-ascend/
├── inference.py          # 精度测试脚本
├── log.txt               # 测试日志
├── README.md             # 本文档
└── mic_test2.wav         # 测试音频样本

部署步骤

1. 进入容器

docker exec -it test-modelagent bash

2. 设置环境变量

source /usr/local/Ascend/ascend-toolkit/set_env.sh

3. 准备模型文件

模型文件应放在 /data/ysws/agentsp/RE-USE/ 目录下：

model.safetensors - 模型权重 (9.6M 参数)
config.json - 模型配置
noisy_audio/mic_test2.wav - 测试音频

4. 安装依赖

pip install einops librosa -i https://mirrors.huaweicloud.com/repository/pypi/simple

5. 执行精度测试

cd /data/ysws/agentsp/RE-USE-ascend/
python3 inference.py --precision_test

6. 运行推理

cd /data/ysws/agentsp/RE-USE-ascend/
python3 inference.py

测试验证

精度测试结果

指标	实测值	阈值	状态
Max Error (sum)	2.29e-05	< 1e-3	PASS
Max Error (mean)	5.96e-08	< 1e-5	PASS
Max Error (std)	2.98e-08	< 1e-5	PASS

性能数据

操作	耗时
模型加载	~3s
CPU 参考计算 (20 tensors)	0.03s
NPU 推理 (20 tensors)	0.23s
完整音频推理	~5.6s

测试日志

完整测试日志保存在 log.txt

模型结构

RE-USE 使用 Temporal-Frequency Mamba blocks：

组件	参数	说明
dense_encoder	输入通道2→64	STFT特征编码
TSMamba (30层)	每层双向Mamba	时频域建模
mask_decoder	64→1	幅度解码
phase_decoder	64→1	相位解码

SimplifiedMamba 替代实现

由于 mamba-ssm 依赖 CUDA，我们使用 SimplifiedMamba 替代：

输入投影 + 因果卷积
SSM 状态参数
输出投影 + 门控机制

常见问题

Q: mamba-ssm 无法安装?

A: 本实现使用 SimplifiedMamba 替代，无需 mamba-ssm 依赖。

Q: torchaudio 报错?

A: 使用 librosa 代替 torchaudio 进行音频加载。

Q: 精度测试失败?

A: 检查 NPU 驱动是否正确安装，确保 CANN 环境变量已 source。

许可证

本项目遵循 NVIDIA RE-USE 原始许可证。