🎬 Fun-CineForge:面向多样化电影场景的零样本电影配音统一数据集管道与模型
Fun-CineForge 包含一个用于生成大规模配音数据集的端到端数据集管道,以及一个基于多模态大语言模型(MLLM)、专为多样化电影场景设计的配音模型。通过该管道,我们构建了首个大规模中文影视配音数据集 CineDub-CN,其中包含丰富的标注信息和多样化的场景。在独白、旁白、对话及多说话人场景中,我们的配音模型在音频质量、唇形同步、音色转换和指令遵循能力方面均持续优于当前最先进的方法。
您可以访问 https://funcineforge.github.io/ 获取我们的 CineDub-CN 数据集样本和演示样例。
GitHub 链接:https://github.com/FunAudioLLM/FunCineForge/
ModelScope 链接:https://www.modelscope.cn/models/FunAudioLLM/Fun-CineForge/
CineDub 样本: huggingface modelscope
Fun-CineForge 依赖于 Conda 和 Python 环境。执行 setup.py 可自动安装整个项目环境及开源模型。
# Conda
git clone git@github.com:FunAudioLLM/FunCineForge.git
conda create -n FunCineForge python=3.10 -y && conda activate FunCineForge
sudo apt-get install ffmpeg
# Initial settings
python setup.py若您希望生成自己的数据,建议参考以下要求收集相应的电影或电视剧资源。
python normalize_trim.py --root datasets/raw_zh --intro 10 --outro 10cd speech_separation
python run.py --root datasets/clean/zh --gpus 0 1 2 3cd video_clip
bash run.sh --stage 1 --stop_stage 2 --input datasets/raw_zh --output datasets/clean/zh --lang zh --device cpupython clean_video.py --root datasets/clean/zh
python clean_srt.py --root datasets/clean/zh --lang zhcd speaker_diarization
bash run.sh --stage 1 --stop_stage 4 --hf_access_token hf_xxx --root datasets/clean/zh --gpus "0 1 2 3"python speech_tokenizer.py --root datasets/clean/zhpython cot.py --root_dir datasets/clean/zh --lang zh --provider google --model gemini-3-pro-preview --api_key xxx --resume
python cot.py --root_dir datasets/clean/en --lang en --provider google --model gemini-3-pro-preview --api_key xxx --resumepython build_datasets.py --root_zh datasets/clean/zh --root_en datasets/clean/en --out_dir datasets/clean --save我们已开源推理代码及 infer.sh 脚本,并在 data 文件夹中提供了部分测试用例供您体验。推理过程需消费级 GPU 支持。请运行以下命令:
cd exps
bash infer.sh多 speaker 视频配音 API(基于原始视频和 SRT 脚本)正在开发中……
如果您使用了我们的数据集或代码,请引用以下论文:
@misc{liu2026funcineforgeunifieddatasettoolkit,
title={FunCineForge: A Unified Dataset Toolkit and Model for Zero-Shot Movie Dubbing in Diverse Cinematic Scenes},
author={Jiaxuan Liu and Yang Xiang and Han Zhao and Xiangang Li and Zhenhua Ling},
year={2026},
eprint={2601.14777},
archivePrefix={arXiv},
primaryClass={cs.CV},
}
Fun-CineForge 开源项目由通义实验室语音团队及中国科学技术大学 NERCSLIP 实验室学生共同开发与维护。 欢迎您通过 Fun-CineForge GitHub Issues 参与讨论,或联系我们进行合作开发。 如有任何问题,可联系 开发者。
⭐ 期待您对 Fun-CineForge 的支持。感谢!
本仓库包含研究性成果:
⚠️ 目前并非通义实验室的商业产品。
⚠️ 发布仅用于学术研究/前沿探索目的。
⚠️ CineDub 数据集样例受特定许可条款约束。