RE-USE 是一个基于 Mamba 的语音增强模型,使用 Temporal-Frequency Mamba blocks 进行噪声抑制。本项目提供其在华为 Ascend NPU 环境下的部署方案。
/data/ysws/agentsp/RE-USE-ascend/
├── inference.py # 精度测试脚本
├── log.txt # 测试日志
├── README.md # 本文档
└── mic_test2.wav # 测试音频样本docker exec -it test-modelagent bashsource /usr/local/Ascend/ascend-toolkit/set_env.sh模型文件应放在 /data/ysws/agentsp/RE-USE/ 目录下:
pip install einops librosa -i https://mirrors.huaweicloud.com/repository/pypi/simplecd /data/ysws/agentsp/RE-USE-ascend/
python3 inference.py --precision_testcd /data/ysws/agentsp/RE-USE-ascend/
python3 inference.py| 指标 | 实测值 | 阈值 | 状态 |
|---|---|---|---|
| Max Error (sum) | 2.29e-05 | < 1e-3 | PASS |
| Max Error (mean) | 5.96e-08 | < 1e-5 | PASS |
| Max Error (std) | 2.98e-08 | < 1e-5 | PASS |
| 操作 | 耗时 |
|---|---|
| 模型加载 | ~3s |
| CPU 参考计算 (20 tensors) | 0.03s |
| NPU 推理 (20 tensors) | 0.23s |
| 完整音频推理 | ~5.6s |
完整测试日志保存在 log.txt
RE-USE 使用 Temporal-Frequency Mamba blocks:
| 组件 | 参数 | 说明 |
|---|---|---|
| dense_encoder | 输入通道2→64 | STFT特征编码 |
| TSMamba (30层) | 每层双向Mamba | 时频域建模 |
| mask_decoder | 64→1 | 幅度解码 |
| phase_decoder | 64→1 | 相位解码 |
由于 mamba-ssm 依赖 CUDA,我们使用 SimplifiedMamba 替代:
A: 本实现使用 SimplifiedMamba 替代,无需 mamba-ssm 依赖。
A: 使用 librosa 代替 torchaudio 进行音频加载。
A: 检查 NPU 驱动是否正确安装,确保 CANN 环境变量已 source。
本项目遵循 NVIDIA RE-USE 原始许可证。