单思哲1,2* • 李秋林1,3* • 崔宇涛1 • 杨迈尔斯1 • 王悦海2 • 杨群3 • 周劲1† • 钟钊1
🏢 1腾讯混元实验室 • 🎓 2浙江大学 • ✈️ 3南京航空航天大学
*共同第一作者 • †项目负责人
|
🎭 多场景同步 |
🧠 多模态平衡 |
🎵 48kHz 高保真输出 |
🚀 腾讯混元 开源 HunyuanVideo-Foley——端到端视频音效生成模型!
专为视频内容创作者打造的专业级AI工具,广泛适用于短视频创作、影视制作、广告创意、游戏开发等多元场景。
🎬 多场景音画同步
支持生成与复杂视频场景同步且语义匹配的高质量音频,提升影视、游戏等场景的真实感与沉浸体验。
⚖️ 多模态语义平衡
智能平衡视觉与文本信息分析,全面统筹音效元素,避免片面生成,满足个性化配音需求。
🎵 高保真音频输出
自研48kHz音频VAE,完美重构音效、音乐与人声,实现专业级音频生成质量。
🏆 达到SOTA性能
HunyuanVideo-Foley在多项评估基准中全面领先,在音频保真度、视觉语义对齐、时间同步性和分布匹配度上达到新高度——超越所有开源方案!
📊 不同评估指标的性能对比——HunyuanVideo-Foley在所有类别中均处于领先地位
🔄 用于高质量文本-视频-音频数据集的综合数据处理流水线
TV2A(文本-视频转音频) 任务是一项复杂的多模态生成挑战,需要大规模、高质量的数据集。我们全面的数据流水线通过系统性识别和排除不合适的内容,以生成稳健且具有泛化能力的音频生成模型。
🧠 HunyuanVideo-Foley 混合架构,包含多模态和单模态 transformer 模块
HunyuanVideo-Foley 采用复杂的混合架构:
客观和主观评估结果表明,所有指标均表现优异
| 🏆 方法 | PQ ↑ | PC ↓ | CE ↑ | CU ↑ | IB ↑ | DeSync ↓ | CLAP ↑ | MOS-Q ↑ | MOS-S ↑ | MOS-T ↑ |
|---|---|---|---|---|---|---|---|---|---|---|
| FoleyGrafter | 6.27 | 2.72 | 3.34 | 5.68 | 0.17 | 1.29 | 0.14 | 3.36±0.78 | 3.54±0.88 | 3.46±0.95 |
| V-AURA | 5.82 | 4.30 | 3.63 | 5.11 | 0.23 | 1.38 | 0.14 | 2.55±0.97 | 2.60±1.20 | 2.70±1.37 |
| Frieren | 5.71 | 2.81 | 3.47 | 5.31 | 0.18 | 1.39 | 0.16 | 2.92±0.95 | 2.76±1.20 | 2.94±1.26 |
| MMAudio | 6.17 | 2.84 | 3.59 | 5.62 | 0.27 | 0.80 | 0.35 | 3.58±0.84 | 3.63±1.00 | 3.47±1.03 |
| ThinkSound | 6.04 | 3.73 | 3.81 | 5.59 | 0.18 | 0.91 | 0.20 | 3.20±0.97 | 3.01±1.04 | 3.02±1.08 |
| HunyuanVideo-Foley (ours) | 6.59 | 2.74 | 3.88 | 6.13 | 0.35 | 0.74 | 0.33 | 4.14±0.68 | 4.12±0.77 | 4.15±0.75 |
全面客观评估,展现顶尖性能
| 🏆 方法 | FD_PANNs ↓ | FD_PASST ↓ | KL ↓ | IS ↑ | PQ ↑ | PC ↓ | CE ↑ | CU ↑ | IB ↑ | DeSync ↓ | CLAP ↑ |
|---|---|---|---|---|---|---|---|---|---|---|---|
| FoleyGrafter | 22.30 | 322.63 | 2.47 | 7.08 | 6.05 | 2.91 | 3.28 | 5.44 | 0.22 | 1.23 | 0.22 |
| V-AURA | 33.15 | 474.56 | 3.24 | 5.80 | 5.69 | 3.98 | 3.13 | 4.83 | 0.25 | 0.86 | 0.13 |
| Frieren | 16.86 | 293.57 | 2.95 | 7.32 | 5.72 | 2.55 | 2.88 | 5.10 | 0.21 | 0.86 | 0.16 |
| MMAudio | 9.01 | 205.85 | 2.17 | 9.59 | 5.94 | 2.91 | 3.30 | 5.39 | 0.30 | 0.56 | 0.27 |
| ThinkSound | 9.92 | 228.68 | 2.39 | 6.86 | 5.78 | 3.23 | 3.12 | 5.11 | 0.22 | 0.67 | 0.22 |
| HunyuanVideo-Foley (ours) | 6.07 | 202.12 | 1.89 | 8.30 | 6.12 | 2.76 | 3.22 | 5.53 | 0.38 | 0.54 | 0.24 |
🎉 卓越成果! HunyuanVideo-Foley 在所有评估指标上均取得最佳成绩,展现出在音频质量、同步性和语义对齐方面的显著提升。
🔧 系统要求
# 📥 Clone the repository
git clone https://github.com/Tencent-Hunyuan/HunyuanVideo-Foley
cd HunyuanVideo-Foley💡 提示:我们建议使用 Conda 进行 Python 环境管理。
# 🔧 Install dependencies
pip install -r requirements.txt🔗 从 ModelScope 下载模型权重
# using git-lfs
git clone https://oauth2:your_token@www.modelscope.cn/Tencent-Hunyuan/HunyuanVideo-Foley.git
# using modelscope-cli
modelscope download --model Tencent-Hunyuan/HunyuanVideo-Foley🔗 从 Huggingface 下载模型权重
# using git-lfs
git clone https://huggingface.co/tencent/HunyuanVideo-Foley
# using huggingface-cli
huggingface-cli download tencent/HunyuanVideo-Foley为单个视频文件生成Foley音频,并附带文本描述:
python3 infer.py \
--model_path PRETRAINED_MODEL_PATH_DIR \
--config_path ./configs/hunyuanvideo-foley-xxl.yaml \
--single_video video_path \
--single_prompt "audio description" \
--output_dir OUTPUT_DIR使用包含视频路径和描述信息的CSV文件,对多个视频进行处理:
python3 infer.py \
--model_path PRETRAINED_MODEL_PATH_DIR \
--config_path ./configs/hunyuanvideo-foley-xxl.yaml \
--csv_path assets/test.csv \
--output_dir OUTPUT_DIR启动用户友好的 Gradio Web 界面,以便轻松交互:
export HIFI_FOLEY_MODEL_PATH=PRETRAINED_MODEL_PATH_DIR
python3 gradio_app.py🚀 然后打开浏览器,访问提供的本地 URL,即可开始生成 Foley 音频!
如果您发现 HunyuanVideo-Foley 对您的研究有所帮助,请考虑引用我们的论文:
@misc{shan2025hunyuanvideofoleymultimodaldiffusionrepresentation,
title={HunyuanVideo-Foley: Multimodal Diffusion with Representation Alignment for High-Fidelity Foley Audio Generation},
author={Sizhe Shan and Qiulin Li and Yutao Cui and Miles Yang and Yuehai Wang and Qun Yang and Jin Zhou and Zhao Zhong},
year={2025},
eprint={2508.16930},
archivePrefix={arXiv},
primaryClass={eess.AS},
url={https://arxiv.org/abs/2508.16930},
}衷心感谢开源社区的鼎力支持!
|
🎨 Stable Diffusion 3 |
⚡ FLUX |
🎵 MMAudio |
|
🤗 HuggingFace |
🗜️ DAC |
🔗 Synchformer |
🌟 特别感谢所有为AI生成音频和多模态学习发展做出贡献的研究人员与开发者!