daVinci-MagiHuman

以简驭速：面向快速音视频生成基础模型的单流架构

本仓库包含daVinci-MagiHuman的权重，该模型在论文中首次提出。

SII-GAIR & Sand.ai

核心亮点

单流Transformer — 一个参数规模为150亿、包含40层的统一Transformer，仅通过自注意力机制联合处理文本、视频和音频。无需交叉注意力，摒弃多流架构的复杂性。
卓越的以人为中心的生成质量 — 表情丰富的面部表现、自然的语音-表情协同、逼真的肢体动作以及精准的音视频同步。
多语言支持 — 支持中文（普通话和粤语）、英语、日语、韩语、德语和法语。
极速推理 — 在单张H100 GPU上，生成5秒256p视频仅需2秒，生成5秒1080p视频仅需38秒。
最先进的结果 — 在2000次 pairwise 人工评估中，相较于Ovi 1.1的胜率为80.0%，相较于LTX 2.3的胜率为60.9%。
完全开源 — 我们发布完整的模型栈：基础模型、蒸馏模型、超分辨率模型以及推理代码。

架构

daVinci-MagiHuman 采用单流 Transformer，以文本令牌、参考图像潜变量以及含噪视频和音频令牌作为输入，并在统一的令牌序列内对视频和音频进行联合去噪。

关键设计选择：

组件	描述
三明治架构	前4层和后4层采用特定模态投影；中间32层跨模态共享参数
无时间步去噪	无显式时间步嵌入——模型直接从输入潜变量推断去噪状态
每头门控	每个注意力头上带有 sigmoid 激活函数的学习标量门控，以确保训练稳定性
统一条件控制	通过最小化的统一接口处理去噪和参考信号——无专用条件控制分支

性能

定量质量基准

模型	视觉质量 ↑	文本对齐 ↑	物理一致性 ↑	词错误率 ↓
OVI 1.1	4.73	4.10	4.41	40.45%
LTX 2.3	4.76	4.12	4.56	19.23%
daVinci-MagiHuman	4.80	4.18	4.52	14.60%

人工评估（2,000 次 pairwise 对比）

对比组合	daVinci-MagiHuman 胜出	平局	对手胜出
vs Ovi 1.1	80.0%	8.2%	11.8%
vs LTX 2.3	60.9%	17.2%	21.9%

推理速度（5秒视频）

分辨率	基础模型（秒）	超分辨率（秒）	解码（秒）	总计（秒）
256p	1.6	—	0.4	2.0
540p	1.6	5.1	1.3	8.0
1080p	1.6	31.0	5.8	38.4

高效推理技术

潜空间超分辨率 — 两阶段流水线：先低分辨率生成，再在潜空间（非像素空间）优化，避免额外的 VAE 解码-编码往返。
Turbo VAE 解码器 — 轻量级重训练解码器，显著降低解码开销。
全图编译 — MagiCompiler 融合 Transformer 层间算子，实现约 1.2 倍加速。
知识蒸馏 — DMD-2 蒸馏技术支持仅需 8 步去噪即可生成（无需 CFG），且不损失质量。

快速开始

选项 1：Docker（推荐）

# Pull the MagiCompiler Docker image
docker pull sandai/magi-compiler:latest

# Launch container
docker run -it --gpus all \
  -v /path/to/models:/models \
  sandai/magi-compiler:latest bash

# Install MagiCompiler
git clone https://github.com/SandAI-org/MagiCompiler
cd MagiCompiler
pip install -e . --no-build-isolation --config-settings editable_mode=compat
cd ..

# Clone daVinci-MagiHuman
git clone https://github.com/GAIR-NLP/daVinci-MagiHuman
cd daVinci-MagiHuman

选项 2：Conda

# Create environment
conda create -n davinci python=3.12
conda activate davinci

# Install PyTorch
pip install torch==2.9.0 torchvision==0.24.0 torchaudio==2.9.0

# Install Flash Attention (Hopper)
git clone https://github.com/Dao-AILab/flash-attention
cd flash-attention/hopper && python setup.py install && cd ../..

# Install MagiCompiler
git clone https://github.com/SandAI-org/MagiCompiler
cd MagiCompiler
pip install -e . --no-build-isolation --config-settings editable_mode=compat
cd ..

# Clone and install daVinci-MagiHuman
git clone https://github.com/GAIR-NLP/daVinci-MagiHuman
cd daVinci-MagiHuman
pip install -r requirements.txt

下载模型检查点

从 HuggingFace 下载完整的模型堆栈，并更新 example/ 目录下配置文件中的路径。

使用方法

运行前，请更新配置文件（example/*/config.json）中的检查点路径，使其指向您的本地模型目录。

基础模型（256p）

bash example/base/run.sh

蒸馏模型（256p，8步，无CFG）

bash example/distill/run.sh

超分辨率至 540p

bash example/sr_540p/run.sh

超分辨率至 1080p

bash example/sr_1080p/run.sh

致谢

感谢开源社区，特别感谢 Wan2.2 和 Turbo-VAED 所做出的宝贵贡献。

许可证

本项目基于 Apache License 2.0 许可证发布。

引用

@misc{davinci-magihuman-2026,
  title   = {Speed by Simplicity: A Single-Stream Architecture for Fast Audio-Video Generative Foundation Model},
  author  = {SII-GAIR and Sand.ai},
  year    = {2026},
  url     = {https://github.com/GAIR-NLP/daVinci-MagiHuman}
}