HuggingFace镜像/RE-USE
模型介绍文件和版本分析
下载使用量0

🤫 RE-USE: 多语言通用语音增强

模型概述

描述

在通用语音增强中,目标是恢复各种退化语音的质量,同时保持保真度,确保所有其他因素保持不变,例如语言内容、说话人身份、情感、口音和其他副语言属性。受失真-感知权衡理论的启发,我们提出的单一模型在这两个目标之间取得了良好的平衡,并具有以下理想特性:

  • 对多种退化类型的鲁棒性,包括加性噪声、混响、削波、带宽限制、编解码器伪影、丢包和低质量麦克风。
  • 支持多种输入采样率,包括 8、16、22.05、24、32、44.1 和 48 kHz。
  • 强大的语言无关能力,能够在不同语言上实现有效性能。

本模型仅供研究和开发使用。

使用方法

直接尝试我们的 Gradio 交互式演示,上传您的含噪音频/视频即可!

环境设置

  1. (对于 Mamba 设置)预构建的 Docker 环境可从此处下载,以简化 Mamba 的设置。

  2. 如果需要带宽扩展:

pip install resampy 
  1. 下载并导航至 HuggingFace 仓库:
huggingface-cli download nvidia/RE-USE --local-dir ./REUSE --local-dir-use-symlinks False
cd ./REUSE

推理

按照以下简单步骤使用我们的模型生成增强语音:

  1. 将您的带噪语音文件放入 noisy_audio/ 文件夹
  2. 运行以下命令:
sh inference.sh
  1. 增强后的语音文件将保存至 enhanced_audio/ 文件夹。

操作结束!

注意:

a. 您可通过在脚本中使用 BWE argument 设置目标带宽,以启用带宽扩展功能。


若您的带噪语音文件过长,可能导致 GPU 内存不足(OOM) 错误,请改用以下步骤:

  1. 将长带噪语音文件放入 long_noisy_audio/ 文件夹
  2. 运行以下命令:
sh inference_chunk.sh
  1. 增强后的语音文件将保存至 Long_enhanced_audio/ 目录。

注意:

a. 可通过在脚本中使用 BWE argument 设置目标带宽来启用带宽扩展功能。

b. 也可在脚本中直接配置 chunk_size_in_seconds 和 hop_length_portion 参数。


许可协议/使用条款

本模型依据 NVIDIA 单向非商业许可协议(NSCLv1) 发布。

部署地区

全球。

应用场景

研究人员及普通用户可使用本模型提升其语音数据的质量。

发布日期

Hugging Face 2026/03/18

参考文献

[1] Rethinking Training Targets, Architectures and Data Quality for Universal Speech Enhancement, 2025. (注:发布的模型检查点与论文中报告的版本存在差异。该版本纳入了更多退化类型(如麦克风响应和更多编解码器),并在一个规模更小、质量更高的干净子集上进行了微调。)

模型架构

架构类型: 卷积编码器、卷积解码器以及用于时频建模的 Mamba
网络架构: 30 层双向 Mamba
模型参数数量: 960 万

输入

输入类型:音频
输入格式:.wav 文件
输入参数:一维(1D)
输入相关其他属性:8000 Hz - 48000 Hz 单声道音频

输出

输出类型:音频
输出格式:.wav 文件
输出参数:一维(1D)
输出相关其他属性:8000 Hz - 48000 Hz 单声道音频

我们的 AI 模型经过设计和/或优化,可在 NVIDIA GPU 加速系统上运行。通过利用 NVIDIA 的硬件(如 GPU 核心)和软件框架(如 CUDA 库),该模型相比纯 CPU 解决方案实现了更快的训练和推理速度。

软件集成

运行时引擎:

  • 不适用(N/A)

支持的硬件微架构兼容性:

  • NVIDIA Ampere(A100)

推荐操作系统:

  • Linux

将基础模型和微调模型集成到 AI 系统中时,需要使用特定于应用场景的数据进行额外测试,以确保安全有效的部署。遵循 V 模型方法论,在单元级和系统级进行迭代测试与验证,对于在部署前降低风险、满足技术和功能要求以及确保符合安全与伦理标准至关重要。

模型版本

当前版本:30USEMamba_peak+GAN_tel_mic_1134k

训练数据集

数据模态: 音频

音频训练数据规模: 少于 10,000 小时

  • DNS5 挑战赛的 LibriVox 数据(英语)(约 350 小时语音数据)
  • LibriTTS(英语)(约 200 小时语音数据)
  • VCTK(英语)(约 80 小时语音数据)
  • WSJ(英语)(约 85 小时语音数据)
  • EARS(英语)(约 100 小时语音数据)
  • 多语言 Librispeech(德语、英语、西班牙语、法语)(约 450 小时语音数据)
  • CommonVoice 19.0(德语、英语、西班牙语、法语、中文-中国大陆)(约 1300 小时语音数据)
  • DNS5 挑战赛中的 Audioset+FreeSound 噪声(约 180 小时噪声数据)
  • WHAM! 噪声(约 80 小时噪声数据)
  • FSD50K(已过滤人声)(约 100 小时非语音数据)
  • (部分)Free Music Archive (medium)(约 200 小时非语音数据)
  • DNS5 挑战赛的模拟房间脉冲响应(约 60k 样本的房间脉冲响应)
  • MicIRP(约 70 样本的麦克风脉冲响应)

推理

加速引擎: 无
测试硬件: NVIDIA A100

伦理考量

NVIDIA 认为可信 AI 是一项共同的责任,我们已制定相关政策和实践,以支持广泛的 AI 应用开发。当按照我们的服务条款下载或使用时,开发人员应与他们的内部模型团队合作,确保此模型满足相关行业和用例的要求,并应对不可预见的产品误用。 请通过 此处 报告模型质量、风险、安全漏洞或 NVIDIA AI 相关问题。

引用说明

如果我们的论文和本框架对您的研究有所帮助,敬请引用。

@article{fu2026rethinking,
  title={Rethinking Training Targets, Architectures and Data Quality for Universal Speech Enhancement},
  author={Fu, Szu-Wei and Chao, Rong and Yang, Xuesong and Huang, Sung-Feng and Zezario, Ryandhimas E and Nasretdinov, Rauf and Juki{\'c}, Ante and Tsao, Yu and Wang, Yu-Chiang Frank},
  journal={arXiv preprint arXiv:2603.02641},
  year={2026}
}