在通用语音增强中,目标是恢复各种退化语音的质量,同时保持保真度,确保所有其他因素保持不变,例如语言内容、说话人身份、情感、口音和其他副语言属性。受失真-感知权衡理论的启发,我们提出的单一模型在这两个目标之间取得了良好的平衡,并具有以下理想特性:
本模型仅供研究和开发使用。
直接尝试我们的 Gradio 交互式演示,上传您的含噪音频/视频即可!
(对于 Mamba 设置)预构建的 Docker 环境可从此处下载,以简化 Mamba 的设置。
如果需要带宽扩展:
pip install resampy huggingface-cli download nvidia/RE-USE --local-dir ./REUSE --local-dir-use-symlinks False
cd ./REUSE按照以下简单步骤使用我们的模型生成增强语音:
noisy_audio/ 文件夹sh inference.shenhanced_audio/ 文件夹。操作结束!
注意:
a. 您可通过在脚本中使用 BWE argument 设置目标带宽,以启用带宽扩展功能。
若您的带噪语音文件过长,可能导致 GPU 内存不足(OOM) 错误,请改用以下步骤:
long_noisy_audio/ 文件夹sh inference_chunk.shLong_enhanced_audio/ 目录。注意:
a. 可通过在脚本中使用 BWE argument 设置目标带宽来启用带宽扩展功能。
b. 也可在脚本中直接配置 chunk_size_in_seconds 和 hop_length_portion 参数。
本模型依据 NVIDIA 单向非商业许可协议(NSCLv1) 发布。
全球。
研究人员及普通用户可使用本模型提升其语音数据的质量。
Hugging Face 2026/03/18
[1] Rethinking Training Targets, Architectures and Data Quality for Universal Speech Enhancement, 2025. (注:发布的模型检查点与论文中报告的版本存在差异。该版本纳入了更多退化类型(如麦克风响应和更多编解码器),并在一个规模更小、质量更高的干净子集上进行了微调。)
架构类型: 卷积编码器、卷积解码器以及用于时频建模的 Mamba
网络架构: 30 层双向 Mamba
模型参数数量: 960 万
输入类型:音频
输入格式:.wav 文件
输入参数:一维(1D)
输入相关其他属性:8000 Hz - 48000 Hz 单声道音频
输出类型:音频
输出格式:.wav 文件
输出参数:一维(1D)
输出相关其他属性:8000 Hz - 48000 Hz 单声道音频
我们的 AI 模型经过设计和/或优化,可在 NVIDIA GPU 加速系统上运行。通过利用 NVIDIA 的硬件(如 GPU 核心)和软件框架(如 CUDA 库),该模型相比纯 CPU 解决方案实现了更快的训练和推理速度。
运行时引擎:
支持的硬件微架构兼容性:
推荐操作系统:
将基础模型和微调模型集成到 AI 系统中时,需要使用特定于应用场景的数据进行额外测试,以确保安全有效的部署。遵循 V 模型方法论,在单元级和系统级进行迭代测试与验证,对于在部署前降低风险、满足技术和功能要求以及确保符合安全与伦理标准至关重要。
当前版本:30USEMamba_peak+GAN_tel_mic_1134k
数据模态: 音频
音频训练数据规模: 少于 10,000 小时
加速引擎: 无
测试硬件: NVIDIA A100
NVIDIA 认为可信 AI 是一项共同的责任,我们已制定相关政策和实践,以支持广泛的 AI 应用开发。当按照我们的服务条款下载或使用时,开发人员应与他们的内部模型团队合作,确保此模型满足相关行业和用例的要求,并应对不可预见的产品误用。 请通过 此处 报告模型质量、风险、安全漏洞或 NVIDIA AI 相关问题。
如果我们的论文和本框架对您的研究有所帮助,敬请引用。
@article{fu2026rethinking,
title={Rethinking Training Targets, Architectures and Data Quality for Universal Speech Enhancement},
author={Fu, Szu-Wei and Chao, Rong and Yang, Xuesong and Huang, Sung-Feng and Zezario, Ryandhimas E and Nasretdinov, Rauf and Juki{\'c}, Ante and Tsao, Yu and Wang, Yu-Chiang Frank},
journal={arXiv preprint arXiv:2603.02641},
year={2026}
}