HuggingFace镜像/Motif-Video-2B
模型介绍文件和版本分析
下载使用量0

Motif-Video 2B teaser

Motif-Video 2B

Motif Technologies 推出的低成本文本到视频扩散Transformer

📑 技术报告  |  🤗 Hugging Face  |  🌐 项目页面


🔥 最新动态

  • [2026-04-14] 我们发布了Motif-Video 2B——这款拥有20亿参数的文本到视频及图像到视频扩散Transformer,同时公开了完整的技术报告。

📖 简介

训练高性能视频生成模型通常需要海量数据集、大规模参数以及充足的计算资源。Motif-Video 2B 旨在探索:是否能以更低的成本(训练样本少于1000万段,H200 GPU计算时长低于10万小时)实现具有竞争力的文本到视频生成质量?研究表明,答案是肯定的——前提是模型设计需明确分离那些在规模扩展时容易相互纠缠的目标。

我们的核心发现是:当通过同一路径处理提示对齐、时间一致性和细节恢复这三个目标时,它们会相互干扰。Motif-Video 2B 并非仅依赖规模,而是从架构层面解决这种目标干扰问题,具体包括两项创新:

  • 共享交叉注意力(Shared Cross-Attention):一种残差交叉注意力机制,通过复用自注意力的K/V权重,在长上下文标记稀疏的情况下稳定文本-视频对齐。当视频标记序列增长时,标准的联合注意力会削弱文本的影响力,而该机制可有效缓解这一问题。
  • 三阶段DDT风格骨干网络:由12层双流+16层单流+8层DDT解码器层组成,将早期模态融合、联合表示学习和高频细节重建分离为专门的模块。逐块注意力分析显示,DDT解码器会自发形成编码器层中所不具备的帧间注意力结构。

这些创新与低成本训练方案相结合,包括TREAD标记路由和早期阶段的REPA,并辅以冻结的V-JEPA教师模型——据我们所知,这是首次将该组合应用于文本到视频训练。

在VBench评测中,Motif-Video 2B的总得分为83.76%,在我们评估的开源模型中位居榜首,以7倍 fewer parameters和大约一个数量级更少的训练数据超越了Wan2.1-14B。

Motif-Video 2B architecture


✨ 突出亮点

  • 双任务,单组权重。 单个检查点可同时处理文本生成视频(T2V) 和图像生成视频(I2V) 任务,无需可学习的任务类型嵌入即可联合训练。
  • 最高720p,121帧。 在标准整流流匹配采样器下,最终模型可生成720p分辨率、121帧的视频。
  • 架构优化优于暴力规模。 三阶段骨干网络,采用职责分离的双流/单流/DDT解码器层。
  • 共享交叉注意力。 通过将交叉注意力的K/V锚定在自注意力流形上,在长视频令牌序列下稳定文本对齐。
  • 微预算方案。 TREAD令牌路由(每步FLOP减少约27%)+ 早期阶段REPA与V-JEPA教师模型 + 离线桶平衡采样器(数据利用率约90%,高于基线的约20%)。
  • 开放且可复现。 使用约64×H200 GPU和FSDP2进行训练,完整的课程设置和方案记录于技术报告中。

🏗️ 架构

Motif-Video 2B是一个流匹配扩散Transformer,其设计围绕一个核心原则:每个组件被赋予明确的职责,具有冲突目标的组件不会被要求共享容量。

组件选择
文本编码器T5Gemma2(编码器-解码器,UL2适配的Gemma 3)
视频令牌器Wan2.1 VAE(8×8空间、4×时间压缩),2×2×1分块
骨干网络12个双流 + 16个单流 + 8个DDT解码器层
隐藏维度/头数1536 / 12头 × 128
归一化全程采用QK归一化
位置编码RoPE
交叉注意力单流阶段采用共享交叉注意力
目标函数整流流匹配(速度预测)
I2V条件首帧潜变量 + SigLIP图像嵌入,带时间步感知模糊

职责分离的高层概述:

  1. 双流阶段(12层)。 文本和视频令牌通过独立的自注意力路径处理,通过交叉注意力交换信息。这可防止在任一模态形成连贯表示之前过早的特征纠缠。
  2. 单流阶段(16层)。 文本和视频令牌在联合序列中自由参与注意力。此处附加共享交叉注意力,以修复随着视频令牌序列增长而出现的文本注意力稀释问题。
  3. DDT解码器(8层)。 位于28层编码器之上的专用速度解码器,使编码器无需承担高频细节重建任务。每块注意力分析表明,DDT解码器会形成单流层所不具备的帧间注意力结构。

关于共享交叉注意力为何共享K/V而非Q,以及为何除了W_O的标准零初始化外这一点仍有必要的完整推导,请参见技术报告的3.3节。


🚀 快速入门 / 使用方法

环境要求

  • Python 3.10 及以上版本
  • 具备 CUDA 能力的 GPU,且显存需 30GB 及以上(例如 A100、H100)—— 24GB 显存的 GPU 请参见内存高效推理
pip install "diffusers>=0.35.2" "transformers>=5.5.4" torch accelerate ftfy einops sentencepiece regex Pillow imageio imageio-ffmpeg

文本转视频(T2V)

import torch
from diffusers import AdaptiveProjectedGuidance, DiffusionPipeline
from diffusers.utils import export_to_video

guider = AdaptiveProjectedGuidance(
    guidance_scale=8.0,
    adaptive_projected_guidance_rescale=12.0,
    adaptive_projected_guidance_momentum=0.1,
    use_original_formulation=True,
)

pipe = DiffusionPipeline.from_pretrained(
    "Motif-Technologies/Motif-Video-2B",
    custom_pipeline="pipeline_motif_video",
    trust_remote_code=True,
    torch_dtype=torch.bfloat16,
    guider=guider,
)
pipe = pipe.to("cuda")

output = pipe(
    prompt="A category-five hurricane, viewed from inside the eye, reveals a circular stadium of cloud walls rising to fifty thousand feet with an eerie disk of blue sky directly overhead. Shot from a NOAA reconnaissance aircraft mounted camera, the perspective looks outward toward the eyewall — a near-vertical curtain of rotating cloud and lightning that is simultaneously terrifying and transcendent. The inner surface of the eyewall catches the setting sun, painting it in improbable shades of peach and rose. The camera slowly pans 360 degrees to complete one full revolution, capturing the entire coliseum of the storm. Below, the ocean surface is a white blur of foam and spray. The documentary-style cinematography strips away all artifice to present the storm as an entity of pure elemental power.",
    height=736,
    width=1280,
    num_frames=121,
    num_inference_steps=50,
)

export_to_video(output.frames[0], "output.mp4", fps=24)

图像转视频(I2V)

import torch
from diffusers import AdaptiveProjectedGuidance, DiffusionPipeline
from diffusers.utils import export_to_video, load_image

guider = AdaptiveProjectedGuidance(
    guidance_scale=8.0,
    adaptive_projected_guidance_rescale=12.0,
    adaptive_projected_guidance_momentum=0.1,
    use_original_formulation=True,
)

pipe = DiffusionPipeline.from_pretrained(
    "Motif-Technologies/Motif-Video-2B",
    custom_pipeline="pipeline_motif_video",
    trust_remote_code=True,
    torch_dtype=torch.bfloat16,
    guider=guider,
)
pipe = pipe.to("cuda")

image = load_image("https://huggingface.co/Motif-Technologies/Motif-Video-2B/resolve/main/assets/i2v_sample.jpg")

output = pipe(
    prompt="Three friends stride through a sun-bleached meadow as a warm breeze ripples the tall dry grass around their legs. The woman on the left turns her head to share a quiet laugh, the woman in the center pushes a loose curl behind her ear, and the man on the right tilts his face toward the sky. The camera drifts gently alongside them at walking pace, handheld, with soft overcast light.",
    image=image,
    height=736,
    width=1280,
    num_frames=121,
    num_inference_steps=50,
)

export_to_video(output.frames[0], "output.mp4", fps=24)

命令行推理

# Text-to-Video
python inference.py \
  --prompt "A time-lapse of a flower blooming in a dark room, dramatic lighting" \
  --output t2v_output.mp4

# Image-to-Video
python inference.py \
  --image assets/i2v_sample.jpg \
  --prompt "Three friends stride through a meadow as a warm breeze ripples the tall grass" \
  --output i2v_output.mp4

有关所有可用选项,请参见 inference.py(使用 --help)。

推荐设置

参数默认值说明
Resolution1280x736720p,最佳质量
Frames12124fps 下约 5 秒
Guidance scale8.0
Inference steps50
dtypebfloat16推荐用于 H100/A100

🔋 内存高效推理

默认情况下,pipe.to("cuda") 会将所有组件同时加载到 GPU 上,需要 ~30 GB 显存。

对于显存为 24 GB 或更少的 GPU(例如 RTX 4090、RTX 3090),请结合 expandable_segments 分配器设置使用 enable_model_cpu_offload():

export PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True
pipe = DiffusionPipeline.from_pretrained(
    "Motif-Technologies/Motif-Video-2B",
    custom_pipeline="pipeline_motif_video",
    trust_remote_code=True,
    torch_dtype=torch.bfloat16,
    guider=guider,  # see T2V example above
)
pipe.enable_model_cpu_offload()  # replaces pipe.to("cuda")

output = pipe(prompt="...", height=736, width=1280, num_frames=121, num_inference_steps=50)
export_to_video(output.frames[0], "output.mp4", fps=24)

这会在需要时才将每个组件(文本编码器→Transformer→VAE)移至GPU。expandable_segments设置使CUDA内存分配器能够高效重用早期组件释放的内存,避免因内存碎片导致的OOM错误。

模式峰值显存速度推荐GPU
pipe.to("cuda")~30 GB最快A100, H100, H200
enable_model_cpu_offload()~19 GB相近RTX 4090, RTX 3090

FP8权重量化(可选)

如需进一步减少显存占用,可使用torchao将Transformer权重量化为FP8:

pip install torchao
from torchao.quantization import quantize_, Float8WeightOnlyConfig

pipe = DiffusionPipeline.from_pretrained(
    "Motif-Technologies/Motif-Video-2B",
    custom_pipeline="pipeline_motif_video",
    trust_remote_code=True,
    torch_dtype=torch.bfloat16,
    guider=guider,  # see T2V example above
)
quantize_(pipe.transformer, Float8WeightOnlyConfig())
pipe.enable_model_cpu_offload()

output = pipe(prompt="...", height=736, width=1280, num_frames=121, num_inference_steps=50)
export_to_video(output.frames[0], "output.mp4", fps=24)

这会将Transformer权重以FP8(8位)而非BF16(16位)格式存储,在保持所有计算均为BF16精度的同时,将峰值VRAM从约19 GB降至约15 GB。

模式峰值VRAM说明
enable_model_cpu_offload()~19 GBBF16基准线
+ Float8WeightOnlyConfig~15 GBFP8权重,BF16计算

🖥️ ComfyUI

Motif-Video 2B的官方ComfyUI自定义节点目前正在开发中。敬请关注更新。


📊 性能

VBench

在我们评估的开源模型中,Motif-Video 2B取得了最高的总分。

模型参数规模总分质量语义
Wan2.2-T2V(提示优化)A14B84.2385.4279.50
Motif-Video 2B(我们的模型)2B83.7684.5980.44
SANA-Video2B83.7184.3581.35
Wan2.1-T2V14B83.6985.5976.11
OpenSora 2.0(T2I2V)11B83.6084.4080.30
Wan2.1-T2V1.3B83.3185.2375.65
HunyuanVideo13B83.2485.0975.82
CogVideoX1.5-5B(提示优化)5B82.1782.7879.76
Step-Video-T2V30B81.8384.4671.28
LTX-Video2B80.0082.3070.79

Motif-Video 2B(开源)在各维度上的显著亮点:

  • 空间关系:83.02%——在开源模型中表现最佳
  • 语义分数:80.44%——在报告各维度结果的开源模型中最高
  • 对象类别:92.93%、多对象:77.29%、成像质量:70.50%——在各自类别中排名第二

完整的16维度细分详见技术报告的表3。

关于VBench与感知质量的说明。 Motif-Video 2B在VBench总分上领先,但在我们与Wan2.1-T2V-14B的内部对比中,观察到较大模型在时间稳定性和精细人体解剖结构方面的感知优势。我们在报告的第7节中讨论了这种差距的来源(维度权重统一、近正确语义得分)。我们明确报告了这一差距,而非对其进行掩盖。

人工评估

在一项针对40个由大型语言模型(LLM)生成的提示词,与六个同期开源基线模型(SANA-Video、LTX-Video 2、Wan2.1-14B、Wan2.1-1.3B、Wan2.2-5B、CogVideoX-5B)进行的盲法两两对比研究中,Motif-Video 2B在提示词遵循度和视频保真度这两个维度上,均优于SANA-Video(参数规模相近)和Wan2.1-1.3B(参数规模相近,但训练语料更大)。Wan2.1-14B因其7倍于Motif-Video 2B的参数规模和显著更大的训练数据量,总体上仍是更受青睐的模型。


🎬 效果展示

文本到视频

Motif-Video 2B T2V samples

图像到视频

Motif-Video 2B I2V samples


⚠️ 局限性

我们所报告的局限性,是指本报告中的设计决策应在何种边界条件下进行解读,而非仅仅作为警告。

  • 微观语义失真:Motif-Video 2B偶尔会产生子物体级别的伪影,这些伪影虽然不会改变物体的类别标签,但会破坏感知上的合理性——例如特写人物的手部扭曲、高位移运动下的身体结构变形,以及视觉相似的共存主体之间的属性泄露。我们认为这些问题主要源于数据覆盖范围,而非骨干网络设计。
  • 时间维度失效:存在三种帧级别指标无法揭示的问题模式:(i) 物理上不合理的液体/布料/碰撞动力学表现;(ii) 在高场景复杂度(如多主体人群)下的连贯性丢失;(iii) 长序列中意外的片段中期场景转换。
  • 方法组件是联合评估的,而非单独评估:我们没有在全规模下对共享交叉注意力(Shared Cross-Attention)、DDT解码器、REPA阶段划分或TREAD路由进行逐组件的消融实验。读者应将我们的结果理解为证据,表明该组合方法在20亿参数规模下是有效的,而非对任何单个组件边际贡献的断言。

我们认为,时间稳定性和数据覆盖范围——而非架构深度——是该模型当前面临的主要性能上限。这两者也是未来迭代中最自然的优化方向,而当前架构已为此做好了整合准备。


📚 引用

如果您发现 Motif-Video 2B 对您的研究有所帮助,请引用:

@techreport{motifvideo2b2026,
  title  = {Motif-Video 2B: Technical Report},
  author = {Motif Technologies},
  year   = {2026},
  institution = {Motif Technologies},
  url    = {https://arxiv.org/abs/2604.16503}
}

🙏 致谢

我们的工作基于多个优秀的开源项目,包括 Wan2.1 VAE [Wan Team, 2025]、T5Gemma / Gemma 3 [Google]、TREAD [Krause et al., 2025]、带有 V-JEPA 系列视觉编码器的 REPA [Bardes et al.]、DDT [Wang et al.],以及更广泛的 diffusers 和 Accelerate 生态系统。计算资源由 Microsoft Azure 提供,并通过 Kubernetes 上的 SkyPilot 进行编排。


📄 许可证

本模型基于 Apache 2.0 许可证发布。详情请参见 LICENSE。