🤫 RE-USE: 多语言通用语音增强

模型概述

描述

在通用语音增强中，目标是恢复各种退化语音的质量，同时保持保真度，确保所有其他因素保持不变，例如语言内容、说话人身份、情感、口音和其他副语言属性。受失真-感知权衡理论的启发，我们提出的单一模型在这两个目标之间取得了良好的平衡，并具有以下理想特性：

对多种退化类型的鲁棒性，包括加性噪声、混响、削波、带宽限制、编解码器伪影、丢包和低质量麦克风。
支持多种输入采样率，包括 8、16、22.05、24、32、44.1 和 48 kHz。
强大的语言无关能力，能够在不同语言上实现有效性能。

本模型仅供研究和开发使用。

使用方法

直接尝试我们的 Gradio 交互式演示，上传您的含噪音频/视频即可！

环境设置

（对于 Mamba 设置）预构建的 Docker 环境可从此处下载，以简化 Mamba 的设置。
如果需要带宽扩展：

pip install resampy

下载并导航至 HuggingFace 仓库：

huggingface-cli download nvidia/RE-USE --local-dir ./REUSE --local-dir-use-symlinks False
cd ./REUSE

推理

按照以下简单步骤使用我们的模型生成增强语音：

将您的带噪语音文件放入 noisy_audio/ 文件夹
运行以下命令：

sh inference.sh

增强后的语音文件将保存至 enhanced_audio/ 文件夹。

操作结束！

注意：

a. 您可通过在脚本中使用 BWE argument 设置目标带宽，以启用带宽扩展功能。

若您的带噪语音文件过长，可能导致 GPU 内存不足（OOM） 错误，请改用以下步骤：

将长带噪语音文件放入 long_noisy_audio/ 文件夹
运行以下命令：

sh inference_chunk.sh

增强后的语音文件将保存至 Long_enhanced_audio/ 目录。

注意：

a. 可通过在脚本中使用 BWE argument 设置目标带宽来启用带宽扩展功能。

b. 也可在脚本中直接配置 chunk_size_in_seconds 和 hop_length_portion 参数。

许可协议/使用条款

本模型依据 NVIDIA 单向非商业许可协议（NSCLv1）发布。

部署地区

全球。

应用场景

研究人员及普通用户可使用本模型提升其语音数据的质量。

发布日期

Hugging Face 2026/03/18

参考文献

[1] Rethinking Training Targets, Architectures and Data Quality for Universal Speech Enhancement, 2025. （注：发布的模型检查点与论文中报告的版本存在差异。该版本纳入了更多退化类型（如麦克风响应和更多编解码器），并在一个规模更小、质量更高的干净子集上进行了微调。）

模型架构

架构类型： 卷积编码器、卷积解码器以及用于时频建模的 Mamba
网络架构： 30 层双向 Mamba
模型参数数量： 960 万

输入

输入类型：音频
输入格式：.wav 文件
输入参数：一维（1D）
输入相关其他属性：8000 Hz - 48000 Hz 单声道音频

输出

输出类型：音频
输出格式：.wav 文件
输出参数：一维（1D）
输出相关其他属性：8000 Hz - 48000 Hz 单声道音频

我们的 AI 模型经过设计和/或优化，可在 NVIDIA GPU 加速系统上运行。通过利用 NVIDIA 的硬件（如 GPU 核心）和软件框架（如 CUDA 库），该模型相比纯 CPU 解决方案实现了更快的训练和推理速度。

软件集成

运行时引擎：

不适用（N/A）

支持的硬件微架构兼容性：

NVIDIA Ampere（A100）

推荐操作系统：

Linux

将基础模型和微调模型集成到 AI 系统中时，需要使用特定于应用场景的数据进行额外测试，以确保安全有效的部署。遵循 V 模型方法论，在单元级和系统级进行迭代测试与验证，对于在部署前降低风险、满足技术和功能要求以及确保符合安全与伦理标准至关重要。

模型版本

当前版本：30USEMamba_peak+GAN_tel_mic_1134k

训练数据集

数据模态： 音频

音频训练数据规模： 少于 10,000 小时

DNS5 挑战赛的 LibriVox 数据（英语）（约 350 小时语音数据）
LibriTTS（英语）（约 200 小时语音数据）
VCTK（英语）（约 80 小时语音数据）
WSJ（英语）（约 85 小时语音数据）
EARS（英语）（约 100 小时语音数据）
多语言 Librispeech（德语、英语、西班牙语、法语）（约 450 小时语音数据）
CommonVoice 19.0（德语、英语、西班牙语、法语、中文-中国大陆）（约 1300 小时语音数据）
DNS5 挑战赛中的 Audioset+FreeSound 噪声（约 180 小时噪声数据）
WHAM! 噪声（约 80 小时噪声数据）
FSD50K（已过滤人声）（约 100 小时非语音数据）
（部分）Free Music Archive (medium)（约 200 小时非语音数据）
DNS5 挑战赛的模拟房间脉冲响应（约 60k 样本的房间脉冲响应）
MicIRP（约 70 样本的麦克风脉冲响应）

推理

加速引擎： 无
测试硬件： NVIDIA A100

伦理考量

NVIDIA 认为可信 AI 是一项共同的责任，我们已制定相关政策和实践，以支持广泛的 AI 应用开发。当按照我们的服务条款下载或使用时，开发人员应与他们的内部模型团队合作，确保此模型满足相关行业和用例的要求，并应对不可预见的产品误用。请通过此处报告模型质量、风险、安全漏洞或 NVIDIA AI 相关问题。

引用说明

如果我们的论文和本框架对您的研究有所帮助，敬请引用。

@article{fu2026rethinking,
  title={Rethinking Training Targets, Architectures and Data Quality for Universal Speech Enhancement},
  author={Fu, Szu-Wei and Chao, Rong and Yang, Xuesong and Huang, Sung-Feng and Zezario, Ryandhimas E and Nasretdinov, Rauf and Juki{\'c}, Ante and Tsao, Yu and Wang, Yu-Chiang Frank},
  journal={arXiv preprint arXiv:2603.02641},
  year={2026}
}

🤫 RE-USE: 多语言通用语音增强

模型概述

描述

对多种退化类型的鲁棒性，包括加性噪声、混响、削波、带宽限制、编解码器伪影、丢包和低质量麦克风。
支持多种输入采样率，包括 8、16、22.05、24、32、44.1 和 48 kHz。
强大的语言无关能力，能够在不同语言上实现有效性能。

本模型仅供研究和开发使用。

使用方法

直接尝试我们的 Gradio 交互式演示，上传您的含噪音频/视频即可！

环境设置

（对于 Mamba 设置）预构建的 Docker 环境可从此处下载，以简化 Mamba 的设置。
如果需要带宽扩展：

pip install resampy

下载并导航至 HuggingFace 仓库：

huggingface-cli download nvidia/RE-USE --local-dir ./REUSE --local-dir-use-symlinks False
cd ./REUSE

推理

按照以下简单步骤使用我们的模型生成增强语音：

将您的带噪语音文件放入 noisy_audio/ 文件夹
运行以下命令：

sh inference.sh

增强后的语音文件将保存至 enhanced_audio/ 文件夹。

操作结束！

注意：

a. 您可通过在脚本中使用 BWE argument 设置目标带宽，以启用带宽扩展功能。

若您的带噪语音文件过长，可能导致 GPU 内存不足（OOM） 错误，请改用以下步骤：

将长带噪语音文件放入 long_noisy_audio/ 文件夹
运行以下命令：

sh inference_chunk.sh

增强后的语音文件将保存至 Long_enhanced_audio/ 目录。

注意：

a. 可通过在脚本中使用 BWE argument 设置目标带宽来启用带宽扩展功能。

b. 也可在脚本中直接配置 chunk_size_in_seconds 和 hop_length_portion 参数。

许可协议/使用条款

本模型依据 NVIDIA 单向非商业许可协议（NSCLv1）发布。

部署地区

全球。

应用场景

研究人员及普通用户可使用本模型提升其语音数据的质量。

发布日期

Hugging Face 2026/03/18

参考文献

模型架构

架构类型： 卷积编码器、卷积解码器以及用于时频建模的 Mamba
网络架构： 30 层双向 Mamba
模型参数数量： 960 万

输入

输入类型：音频
输入格式：.wav 文件
输入参数：一维（1D）
输入相关其他属性：8000 Hz - 48000 Hz 单声道音频

输出

输出类型：音频
输出格式：.wav 文件
输出参数：一维（1D）
输出相关其他属性：8000 Hz - 48000 Hz 单声道音频

软件集成

运行时引擎：

不适用（N/A）

支持的硬件微架构兼容性：

NVIDIA Ampere（A100）

推荐操作系统：

Linux

模型版本

当前版本：30USEMamba_peak+GAN_tel_mic_1134k

训练数据集

数据模态： 音频

音频训练数据规模： 少于 10,000 小时

DNS5 挑战赛的 LibriVox 数据（英语）（约 350 小时语音数据）
LibriTTS（英语）（约 200 小时语音数据）
VCTK（英语）（约 80 小时语音数据）
WSJ（英语）（约 85 小时语音数据）
EARS（英语）（约 100 小时语音数据）
多语言 Librispeech（德语、英语、西班牙语、法语）（约 450 小时语音数据）
CommonVoice 19.0（德语、英语、西班牙语、法语、中文-中国大陆）（约 1300 小时语音数据）
DNS5 挑战赛中的 Audioset+FreeSound 噪声（约 180 小时噪声数据）
WHAM! 噪声（约 80 小时噪声数据）
FSD50K（已过滤人声）（约 100 小时非语音数据）
（部分）Free Music Archive (medium)（约 200 小时非语音数据）
DNS5 挑战赛的模拟房间脉冲响应（约 60k 样本的房间脉冲响应）
MicIRP（约 70 样本的麦克风脉冲响应）

推理

加速引擎： 无
测试硬件： NVIDIA A100

伦理考量

引用说明

如果我们的论文和本框架对您的研究有所帮助，敬请引用。

@article{fu2026rethinking,
  title={Rethinking Training Targets, Architectures and Data Quality for Universal Speech Enhancement},
  author={Fu, Szu-Wei and Chao, Rong and Yang, Xuesong and Huang, Sung-Feng and Zezario, Ryandhimas E and Nasretdinov, Rauf and Juki{\'c}, Ante and Tsao, Yu and Wang, Yu-Chiang Frank},
  journal={arXiv preprint arXiv:2603.02641},
  year={2026}
}