HunyuanVideo-Foley:腾讯混元开源的端到端视频音效生成模型，支持复杂场景音画同步，平衡视觉与文本信息，输出专业级48kHz音频，助力短视频、影视、广告及游戏开发。【此简介由AI生成】

基于表征对齐的多模态扩散模型：高保真拟音音频生成

面向视频内容创作者的专业级AI音效生成方案

👥 作者

单思哲^1,2* • 李秋林^1,3* • 崔宇涛¹ • 杨迈尔斯¹ • 王悦海² • 杨群³ • 周劲^1† • 钟钊¹

🏢 ¹腾讯混元实验室 • 🎓 ²浙江大学 • ✈️ ³南京航空航天大学

*共同第一作者 • †项目负责人

🔥🔥🔥 新闻动态

[2025.9.29] 🚀 HunyuanVideo-Foley-XL 模型发布 - 推出支持卸载推理的XL尺寸模型，大幅降低显存需求。
[2025.8.28] 🌟 HunyuanVideo-Foley 开源发布 - 推理代码与模型权重正式对外开放。

✨ 核心亮点

🎭 多场景同步
高质量音频与复杂视频场景精准同步

🧠 多模态平衡
视觉与文本信息的完美融合

🎵 48kHz 高保真输出
专业级音频生成，音质清澈透明

📄 摘要

🚀 腾讯混元 开源 HunyuanVideo-Foley——端到端视频音效生成模型！

专为视频内容创作者打造的专业级AI工具，广泛适用于短视频创作、影视制作、广告创意、游戏开发等多元场景。

🎯 核心优势

🎬 多场景音画同步
支持生成与复杂视频场景同步且语义匹配的高质量音频，提升影视、游戏等场景的真实感与沉浸体验。

⚖️ 多模态语义平衡
智能平衡视觉与文本信息分析，全面统筹音效元素，避免片面生成，满足个性化配音需求。

🎵 高保真音频输出
自研48kHz音频VAE，完美重构音效、音乐与人声，实现专业级音频生成质量。

🏆 达到SOTA性能

HunyuanVideo-Foley在多项评估基准中全面领先，在音频保真度、视觉语义对齐、时间同步性和分布匹配度上达到新高度——超越所有开源方案！

性能概览 📊 不同评估指标的性能对比——HunyuanVideo-Foley在所有类别中均处于领先地位

🔧 技术架构

📊 数据流水线设计

Data Pipeline 🔄 用于高质量文本-视频-音频数据集的综合数据处理流水线

TV2A（文本-视频转音频） 任务是一项复杂的多模态生成挑战，需要大规模、高质量的数据集。我们全面的数据流水线通过系统性识别和排除不合适的内容，以生成稳健且具有泛化能力的音频生成模型。

🏗️ 模型架构

Model Architecture 🧠 HunyuanVideo-Foley 混合架构，包含多模态和单模态 transformer 模块

HunyuanVideo-Foley 采用复杂的混合架构：

🔄 多模态 Transformer 模块：同时处理视觉-音频流
🎵 单模态 Transformer 模块：专注于音频流优化
👁️ 视觉编码：预训练编码器从视频帧中提取视觉特征
📝 文本处理：通过预训练文本编码器提取语义特征
🎧 音频编码：带高斯噪声扰动的 latent 表示
⏰ 时间对齐：基于 Synchformer 的帧级同步与门控调制

📈 性能基准

🎬 MovieGen-Audio-Bench 结果

客观和主观评估结果表明，所有指标均表现优异

🏆 方法	PQ ↑	PC ↓	CE ↑	CU ↑	IB ↑	DeSync ↓	CLAP ↑	MOS-Q ↑	MOS-S ↑	MOS-T ↑
FoleyGrafter	6.27	2.72	3.34	5.68	0.17	1.29	0.14	3.36±0.78	3.54±0.88	3.46±0.95
V-AURA	5.82	4.30	3.63	5.11	0.23	1.38	0.14	2.55±0.97	2.60±1.20	2.70±1.37
Frieren	5.71	2.81	3.47	5.31	0.18	1.39	0.16	2.92±0.95	2.76±1.20	2.94±1.26
MMAudio	6.17	2.84	3.59	5.62	0.27	0.80	0.35	3.58±0.84	3.63±1.00	3.47±1.03
ThinkSound	6.04	3.73	3.81	5.59	0.18	0.91	0.20	3.20±0.97	3.01±1.04	3.02±1.08
HunyuanVideo-Foley (ours)	6.59	2.74	3.88	6.13	0.35	0.74	0.33	4.14±0.68	4.12±0.77	4.15±0.75

🎯 Kling-Audio-Eval 评估结果

全面客观评估，展现顶尖性能

🏆 方法	FD_PANNs ↓	FD_PASST ↓	KL ↓	IS ↑	PQ ↑	PC ↓	CE ↑	CU ↑	IB ↑	DeSync ↓	CLAP ↑
FoleyGrafter	22.30	322.63	2.47	7.08	6.05	2.91	3.28	5.44	0.22	1.23	0.22
V-AURA	33.15	474.56	3.24	5.80	5.69	3.98	3.13	4.83	0.25	0.86	0.13
Frieren	16.86	293.57	2.95	7.32	5.72	2.55	2.88	5.10	0.21	0.86	0.16
MMAudio	9.01	205.85	2.17	9.59	5.94	2.91	3.30	5.39	0.30	0.56	0.27
ThinkSound	9.92	228.68	2.39	6.86	5.78	3.23	3.12	5.11	0.22	0.67	0.22
HunyuanVideo-Foley (ours)	6.07	202.12	1.89	8.30	6.12	2.76	3.22	5.53	0.38	0.54	0.24

🎉 卓越成果！ HunyuanVideo-Foley 在所有评估指标上均取得最佳成绩，展现出在音频质量、同步性和语义对齐方面的显著提升。

🚀 快速开始

📦 安装

🔧 系统要求

CUDA：推荐 12.4 或 11.8 版本
Python：3.8 及以上版本
操作系统：Linux（主要支持）

步骤 1：克隆仓库

# 📥 Clone the repository
git clone https://github.com/Tencent-Hunyuan/HunyuanVideo-Foley
cd HunyuanVideo-Foley

步骤 2：环境设置

💡 提示：我们建议使用 Conda 进行 Python 环境管理。

# 🔧 Install dependencies
pip install -r requirements.txt

步骤 3：下载预训练模型

🔗 从 ModelScope 下载模型权重

# using git-lfs
git clone https://oauth2:your_token@www.modelscope.cn/Tencent-Hunyuan/HunyuanVideo-Foley.git

# using modelscope-cli
modelscope download --model Tencent-Hunyuan/HunyuanVideo-Foley

🔗 从 Huggingface 下载模型权重

# using git-lfs
git clone https://huggingface.co/tencent/HunyuanVideo-Foley

# using huggingface-cli
huggingface-cli download tencent/HunyuanVideo-Foley

💻 使用方法

🎬 单视频生成

为单个视频文件生成Foley音频，并附带文本描述：

python3 infer.py \
    --model_path PRETRAINED_MODEL_PATH_DIR \
    --config_path ./configs/hunyuanvideo-foley-xxl.yaml \
    --single_video video_path \
    --single_prompt "audio description" \
    --output_dir OUTPUT_DIR

📂 批量处理

使用包含视频路径和描述信息的CSV文件，对多个视频进行处理：

python3 infer.py \
    --model_path PRETRAINED_MODEL_PATH_DIR \
    --config_path ./configs/hunyuanvideo-foley-xxl.yaml \
    --csv_path assets/test.csv \
    --output_dir OUTPUT_DIR

🌐 交互式 Web 界面

启动用户友好的 Gradio Web 界面，以便轻松交互：

export HIFI_FOLEY_MODEL_PATH=PRETRAINED_MODEL_PATH_DIR
python3 gradio_app.py

🚀 然后打开浏览器，访问提供的本地 URL，即可开始生成 Foley 音频！

📚 引用

如果您发现 HunyuanVideo-Foley 对您的研究有所帮助，请考虑引用我们的论文：

@misc{shan2025hunyuanvideofoleymultimodaldiffusionrepresentation,
      title={HunyuanVideo-Foley: Multimodal Diffusion with Representation Alignment for High-Fidelity Foley Audio Generation}, 
      author={Sizhe Shan and Qiulin Li and Yutao Cui and Miles Yang and Yuehai Wang and Qun Yang and Jin Zhou and Zhao Zhong},
      year={2025},
      eprint={2508.16930},
      archivePrefix={arXiv},
      primaryClass={eess.AS},
      url={https://arxiv.org/abs/2508.16930}, 
}

🙏 致谢

衷心感谢开源社区的鼎力支持！

🎨 Stable Diffusion 3 基础扩散模型	⚡ FLUX 先进生成技术	🎵 MMAudio 多模态音频生成
🤗 HuggingFace 平台与扩散器库	🗜️ DAC 高保真音频压缩	🔗 Synchformer 音视频同步

🌟 特别感谢所有为AI生成音频和多模态学习发展做出贡献的研究人员与开发者！

🔗 联系我们