HuggingFace镜像/daVinci-MagiHuman
模型介绍文件和版本分析
下载使用量0

daVinci-MagiHuman

以简驭速:面向快速音视频生成基础模型的单流架构

本仓库包含daVinci-MagiHuman的权重,该模型在论文中首次提出。

SII-GAIR  &  Sand.ai

GitHub Paper Demo Models License Python PyTorch

核心亮点

  • 单流Transformer — 一个参数规模为150亿、包含40层的统一Transformer,仅通过自注意力机制联合处理文本、视频和音频。无需交叉注意力,摒弃多流架构的复杂性。
  • 卓越的以人为中心的生成质量 — 表情丰富的面部表现、自然的语音-表情协同、逼真的肢体动作以及精准的音视频同步。
  • 多语言支持 — 支持中文(普通话和粤语)、英语、日语、韩语、德语和法语。
  • 极速推理 — 在单张H100 GPU上,生成5秒256p视频仅需2秒,生成5秒1080p视频仅需38秒。
  • 最先进的结果 — 在2000次 pairwise 人工评估中,相较于Ovi 1.1的胜率为80.0%,相较于LTX 2.3的胜率为60.9%。
  • 完全开源 — 我们发布完整的模型栈:基础模型、蒸馏模型、超分辨率模型以及推理代码。

架构

daVinci-MagiHuman 采用单流 Transformer,以文本令牌、参考图像潜变量以及含噪视频和音频令牌作为输入,并在统一的令牌序列内对视频和音频进行联合去噪。

关键设计选择:

组件描述
三明治架构前4层和后4层采用特定模态投影;中间32层跨模态共享参数
无时间步去噪无显式时间步嵌入——模型直接从输入潜变量推断去噪状态
每头门控每个注意力头上带有 sigmoid 激活函数的学习标量门控,以确保训练稳定性
统一条件控制通过最小化的统一接口处理去噪和参考信号——无专用条件控制分支

性能

定量质量基准

模型视觉质量 ↑文本对齐 ↑物理一致性 ↑词错误率 ↓
OVI 1.14.734.104.4140.45%
LTX 2.34.764.124.5619.23%
daVinci-MagiHuman4.804.184.5214.60%

人工评估(2,000 次 pairwise 对比)

对比组合daVinci-MagiHuman 胜出平局对手胜出
vs Ovi 1.180.0%8.2%11.8%
vs LTX 2.360.9%17.2%21.9%

推理速度(5秒视频)

分辨率基础模型(秒)超分辨率(秒)解码(秒)总计(秒)
256p1.6—0.42.0
540p1.65.11.38.0
1080p1.631.05.838.4

高效推理技术

  • 潜空间超分辨率 — 两阶段流水线:先低分辨率生成,再在潜空间(非像素空间)优化,避免额外的 VAE 解码-编码往返。
  • Turbo VAE 解码器 — 轻量级重训练解码器,显著降低解码开销。
  • 全图编译 — MagiCompiler 融合 Transformer 层间算子,实现约 1.2 倍加速。
  • 知识蒸馏 — DMD-2 蒸馏技术支持仅需 8 步去噪即可生成(无需 CFG),且不损失质量。

快速开始

选项 1:Docker(推荐)

# Pull the MagiCompiler Docker image
docker pull sandai/magi-compiler:latest

# Launch container
docker run -it --gpus all \
  -v /path/to/models:/models \
  sandai/magi-compiler:latest bash

# Install MagiCompiler
git clone https://github.com/SandAI-org/MagiCompiler
cd MagiCompiler
pip install -e . --no-build-isolation --config-settings editable_mode=compat
cd ..

# Clone daVinci-MagiHuman
git clone https://github.com/GAIR-NLP/daVinci-MagiHuman
cd daVinci-MagiHuman

选项 2:Conda

# Create environment
conda create -n davinci python=3.12
conda activate davinci

# Install PyTorch
pip install torch==2.9.0 torchvision==0.24.0 torchaudio==2.9.0

# Install Flash Attention (Hopper)
git clone https://github.com/Dao-AILab/flash-attention
cd flash-attention/hopper && python setup.py install && cd ../..

# Install MagiCompiler
git clone https://github.com/SandAI-org/MagiCompiler
cd MagiCompiler
pip install -e . --no-build-isolation --config-settings editable_mode=compat
cd ..

# Clone and install daVinci-MagiHuman
git clone https://github.com/GAIR-NLP/daVinci-MagiHuman
cd daVinci-MagiHuman
pip install -r requirements.txt

下载模型检查点

从 HuggingFace 下载完整的模型堆栈,并更新 example/ 目录下配置文件中的路径。

使用方法

运行前,请更新配置文件(example/*/config.json)中的检查点路径,使其指向您的本地模型目录。

基础模型(256p)

bash example/base/run.sh

蒸馏模型(256p,8步,无CFG)

bash example/distill/run.sh

超分辨率至 540p

bash example/sr_540p/run.sh

超分辨率至 1080p

bash example/sr_1080p/run.sh

致谢

感谢开源社区,特别感谢 Wan2.2 和 Turbo-VAED 所做出的宝贵贡献。

许可证

本项目基于 Apache License 2.0 许可证发布。

引用

@misc{davinci-magihuman-2026,
  title   = {Speed by Simplicity: A Single-Stream Architecture for Fast Audio-Video Generative Foundation Model},
  author  = {SII-GAIR and Sand.ai},
  year    = {2026},
  url     = {https://github.com/GAIR-NLP/daVinci-MagiHuman}
}