Matrix-Game-3.0 是一款开源的、内存增强型交互世界模型,专为720p实时长视频生成而设计。
我们的框架将三个阶段统一为端到端流水线:

创建 conda 环境并安装依赖项:
conda create -n matrix-game-3.0 python=3.12 -y
conda activate matrix-game-3.0
# install FlashAttention
# Our project also depends on [FlashAttention](https://github.com/Dao-AILab/flash-attention)
git clone https://github.com/SkyworkAI/Matrix-Game-3.0.git
cd Matrix-Game-3.0
pip install -r requirements.txtpip install "huggingface_hub[cli]"
huggingface-cli download Matrix-Game-3.0 --local-dir Matrix-Game-3.0运行推理前,需准备:
下载预训练模型后,可使用以下命令生成带有随机动作的交互式视频:
torchrun --nproc_per_node=$NUM_GPUS generate.py --size 704*1280 --dit_fsdp --t5_fsdp --ckpt_dir Matrix-Game-3.0 --fa_version 3 --use_int8 --num_iterations 12 --num_inference_steps 3 --image demo_images/000/image.png --prompt "a vintage gas station with a classic car parked under a canopy, set against a desert landscape." --save_name test --seed 42 --compile_vae --lightvae_pruning_rate 0.5 --vae_type mg_lightvae --output_dir ./output
# "num_iterations" refers to the number of iterations you want to generate. The total number of frames generated is given by:57 + (num_iterations - 1) * 40 提示: 如果您想使用基础模型,可以使用“--use_base_model --num_inference_steps 50”。如果您想根据自己的输入动作生成交互式视频,则可以使用“--interactive”。 在多GPU环境下,您可以通过传递“--use_async_vae --async_vae_warmup_iters 1”来加速推理。
如果您发现本研究对您的工作有所帮助,请引用我们的论文:
@misc{2026matrix,
title={Matrix-Game 3.0: Real-Time and Streaming Interactive World Model with Long-Horizon Memory},
author={{Skywork AI Matrix-Game Team}},
year={2026},
howpublished={Technical report},
url={https://github.com/SkyworkAI/Matrix-Game/blob/main/Matrix-Game-3/assets/pdf/report.pdf}
}