tencent_hunyuan/HunyuanVideo-Foley
模型介绍文件和版本Pull Requests讨论分析
下载使用量0
HunyuanVideo-Foley Logo

基于表征对齐的多模态扩散模型:高保真拟音音频生成

面向视频内容创作者的专业级AI音效生成方案


👥 作者

单思哲1,2* • 李秋林1,3* • 崔宇涛1 • 杨迈尔斯1 • 王悦海2 • 杨群3 • 周劲1† • 钟钊1

🏢 1腾讯混元实验室 • 🎓 2浙江大学 • ✈️ 3南京航空航天大学

*共同第一作者 • †项目负责人


🔥🔥🔥 新闻动态

  • [2025.9.29] 🚀 HunyuanVideo-Foley-XL 模型发布 - 推出支持卸载推理的XL尺寸模型,大幅降低显存需求。
  • [2025.8.28] 🌟 HunyuanVideo-Foley 开源发布 - 推理代码与模型权重正式对外开放。

✨ 核心亮点

🎭 多场景同步
高质量音频与复杂视频场景精准同步

🧠 多模态平衡
视觉与文本信息的完美融合

🎵 48kHz 高保真输出
专业级音频生成,音质清澈透明


📄 摘要

🚀 腾讯混元 开源 HunyuanVideo-Foley——端到端视频音效生成模型!

专为视频内容创作者打造的专业级AI工具,广泛适用于短视频创作、影视制作、广告创意、游戏开发等多元场景。

🎯 核心优势

🎬 多场景音画同步
支持生成与复杂视频场景同步且语义匹配的高质量音频,提升影视、游戏等场景的真实感与沉浸体验。

⚖️ 多模态语义平衡
智能平衡视觉与文本信息分析,全面统筹音效元素,避免片面生成,满足个性化配音需求。

🎵 高保真音频输出
自研48kHz音频VAE,完美重构音效、音乐与人声,实现专业级音频生成质量。

🏆 达到SOTA性能

HunyuanVideo-Foley在多项评估基准中全面领先,在音频保真度、视觉语义对齐、时间同步性和分布匹配度上达到新高度——超越所有开源方案!

性能概览 📊 不同评估指标的性能对比——HunyuanVideo-Foley在所有类别中均处于领先地位


🔧 技术架构

📊 数据流水线设计

Data Pipeline 🔄 用于高质量文本-视频-音频数据集的综合数据处理流水线

TV2A(文本-视频转音频) 任务是一项复杂的多模态生成挑战,需要大规模、高质量的数据集。我们全面的数据流水线通过系统性识别和排除不合适的内容,以生成稳健且具有泛化能力的音频生成模型。

🏗️ 模型架构

Model Architecture 🧠 HunyuanVideo-Foley 混合架构,包含多模态和单模态 transformer 模块

HunyuanVideo-Foley 采用复杂的混合架构:

  • 🔄 多模态 Transformer 模块:同时处理视觉-音频流
  • 🎵 单模态 Transformer 模块:专注于音频流优化
  • 👁️ 视觉编码:预训练编码器从视频帧中提取视觉特征
  • 📝 文本处理:通过预训练文本编码器提取语义特征
  • 🎧 音频编码:带高斯噪声扰动的 latent 表示
  • ⏰ 时间对齐:基于 Synchformer 的帧级同步与门控调制

📈 性能基准

🎬 MovieGen-Audio-Bench 结果

客观和主观评估结果表明,所有指标均表现优异

🏆 方法PQ ↑PC ↓CE ↑CU ↑IB ↑DeSync ↓CLAP ↑MOS-Q ↑MOS-S ↑MOS-T ↑
FoleyGrafter6.272.723.345.680.171.290.143.36±0.783.54±0.883.46±0.95
V-AURA5.824.303.635.110.231.380.142.55±0.972.60±1.202.70±1.37
Frieren5.712.813.475.310.181.390.162.92±0.952.76±1.202.94±1.26
MMAudio6.172.843.595.620.270.800.353.58±0.843.63±1.003.47±1.03
ThinkSound6.043.733.815.590.180.910.203.20±0.973.01±1.043.02±1.08
HunyuanVideo-Foley (ours)6.592.743.886.130.350.740.334.14±0.684.12±0.774.15±0.75

🎯 Kling-Audio-Eval 评估结果

全面客观评估,展现顶尖性能

🏆 方法FD_PANNs ↓FD_PASST ↓KL ↓IS ↑PQ ↑PC ↓CE ↑CU ↑IB ↑DeSync ↓CLAP ↑
FoleyGrafter22.30322.632.477.086.052.913.285.440.221.230.22
V-AURA33.15474.563.245.805.693.983.134.830.250.860.13
Frieren16.86293.572.957.325.722.552.885.100.210.860.16
MMAudio9.01205.852.179.595.942.913.305.390.300.560.27
ThinkSound9.92228.682.396.865.783.233.125.110.220.670.22
HunyuanVideo-Foley (ours)6.07202.121.898.306.122.763.225.530.380.540.24

🎉 卓越成果! HunyuanVideo-Foley 在所有评估指标上均取得最佳成绩,展现出在音频质量、同步性和语义对齐方面的显著提升。


🚀 快速开始

📦 安装

🔧 系统要求

  • CUDA:推荐 12.4 或 11.8 版本
  • Python:3.8 及以上版本
  • 操作系统:Linux(主要支持)

步骤 1:克隆仓库

# 📥 Clone the repository
git clone https://github.com/Tencent-Hunyuan/HunyuanVideo-Foley
cd HunyuanVideo-Foley

步骤 2:环境设置

💡 提示:我们建议使用 Conda 进行 Python 环境管理。

# 🔧 Install dependencies
pip install -r requirements.txt

步骤 3:下载预训练模型

🔗 从 ModelScope 下载模型权重

# using git-lfs
git clone https://oauth2:your_token@www.modelscope.cn/Tencent-Hunyuan/HunyuanVideo-Foley.git

# using modelscope-cli
modelscope download --model Tencent-Hunyuan/HunyuanVideo-Foley

🔗 从 Huggingface 下载模型权重

# using git-lfs
git clone https://huggingface.co/tencent/HunyuanVideo-Foley

# using huggingface-cli
huggingface-cli download tencent/HunyuanVideo-Foley

💻 使用方法

🎬 单视频生成

为单个视频文件生成Foley音频,并附带文本描述:

python3 infer.py \
    --model_path PRETRAINED_MODEL_PATH_DIR \
    --config_path ./configs/hunyuanvideo-foley-xxl.yaml \
    --single_video video_path \
    --single_prompt "audio description" \
    --output_dir OUTPUT_DIR

📂 批量处理

使用包含视频路径和描述信息的CSV文件,对多个视频进行处理:

python3 infer.py \
    --model_path PRETRAINED_MODEL_PATH_DIR \
    --config_path ./configs/hunyuanvideo-foley-xxl.yaml \
    --csv_path assets/test.csv \
    --output_dir OUTPUT_DIR

🌐 交互式 Web 界面

启动用户友好的 Gradio Web 界面,以便轻松交互:

export HIFI_FOLEY_MODEL_PATH=PRETRAINED_MODEL_PATH_DIR
python3 gradio_app.py

🚀 然后打开浏览器,访问提供的本地 URL,即可开始生成 Foley 音频!


📚 引用

如果您发现 HunyuanVideo-Foley 对您的研究有所帮助,请考虑引用我们的论文:

@misc{shan2025hunyuanvideofoleymultimodaldiffusionrepresentation,
      title={HunyuanVideo-Foley: Multimodal Diffusion with Representation Alignment for High-Fidelity Foley Audio Generation}, 
      author={Sizhe Shan and Qiulin Li and Yutao Cui and Miles Yang and Yuehai Wang and Qun Yang and Jin Zhou and Zhao Zhong},
      year={2025},
      eprint={2508.16930},
      archivePrefix={arXiv},
      primaryClass={eess.AS},
      url={https://arxiv.org/abs/2508.16930}, 
}

🙏 致谢

衷心感谢开源社区的鼎力支持!

🎨 Stable Diffusion 3
基础扩散模型

⚡ FLUX
先进生成技术

🎵 MMAudio
多模态音频生成

🤗 HuggingFace
平台与扩散器库

🗜️ DAC
高保真音频压缩

🔗 Synchformer
音视频同步

🌟 特别感谢所有为AI生成音频和多模态学习发展做出贡献的研究人员与开发者!


🔗 联系我们

GitHub Twitter Hunyuan

© 2025 Tencent Hunyuan. 保留所有权利。| 为AI社区用心打造