HuggingFace镜像/diffusiongemma-26B-A4B-it
模型介绍文件和版本分析
下载使用量0

Hugging Face | GitHub | 发布博客 | 文档
许可证: Apache 2.0 | 作者: Google DeepMind

DiffusionGemma 是由 Google DeepMind 构建的生成式模型。它基于 260 亿参数的 A4B 混合专家(Mixture-of-Experts, MoE)Gemma 4 架构,采用离散扩散(discrete diffusion)技术生成 tokens。这款开源权重模型具备多模态能力,可处理文本、图像和视频输入并生成文本输出。

DiffusionGemma 以 MoE 为基础构建,旨在提升生成速度(每秒 tokens 数),同时确保能在各种硬件环境中部署。它在 Gemma 4 的架构和能力基础上进行了拓展,引入了多项核心特性:

  • 离散文本扩散——从逐 token 自回归转变为块自回归多画布采样。通过并行迭代去噪 token 块(即“画布”)来生成文本,显著提高了解码速度。
  • 多模态输入处理——能够处理交错的文本、图像(支持可变宽高比和分辨率)以及视频输入,以生成文本输出。
  • 编码器-解码器架构——利用自回归编码器处理并缓存提示上下文,搭配对生成画布应用双向注意力的解码器。
  • 混合专家(MoE)效率——采用稀疏 MoE 设计(128 个专家中激活 8 个),在提供强大推理能力的同时,保持较低内存占用,适合本地执行。
  • 思考模式(推理)——设计为高性能推理器,具备可配置的思考模式。
  • 针对小批量推理优化——专门为在单个高性能加速器上实现低延迟、高速生成而设计。
  • 原生系统提示支持——与 Gemma 4 一样,支持更新 system 角色,实现更结构化和可控的对话。

模型概述

DiffusionGemma 旨在减少标准因果语言模型的序列瓶颈。它采用了专为推理速度优化的编码器-解码器架构。

编码器以预填充方式运行,处理初始提示并生成 KV 缓存。解码器随后利用双向注意力处理输入块(即“画布”)的 tokens,并通过交叉注意力访问缓存的上下文。

在推理过程中,DiffusionGemma 利用多画布采样。该模型不再逐一生成 token,而是使用扩散采样器迭代去噪一整个 token 块。一旦画布完全去噪,它会被编码器处理并附加到 KV 缓存中,之后模型生成下一个画布。这种块自回归方法有助于实现更高速度的文本生成。

DiffusionGemma

总参数25.2B
活跃参数3.8B
层数30
滑动窗口1024 tokens
上下文长度最多 256K tokens
画布长度256
词汇表大小262K
专家数量8 个活跃 / 128 个总数及 1 个共享
支持的模态文本、图像
视觉编码器参数~550M

基准测试结果

这些模型在大量不同的数据集和指标上进行了评估,以涵盖文本生成的各个方面。表格中标注的评估结果针对指令微调模型,并使用推荐的熵界 (EB) 采样器(参见下文最佳实践)。

基准测试DiffusionGemma 26B A4BGemma 4 26B A4B
MMLU Pro77.6%82.6%
AIME 2026 无工具69.1%88.3%
LiveCodeBench v669.1%77.1%
Codeforces ELO14291718
GPQA Diamond73.2%82.3%
Tau2(3 项平均值)56.2%68.2%
HLE 无工具11.0%8.7%
HLE 带搜索11.9%17.2%
BigBench Extra Hard47.6%64.8%
MMMLU81.5%86.3%
视觉
MMMU Pro54.3%73.8%
OmniDocBench 1.5(平均编辑距离,越低越好)0.3190.149
MATH-Vision70.5%82.4%
MedXPertQA MM49.0%58.1%
长上下文
MRCR v2 8 needle 128k(平均值)32.0%44.1%

核心能力

DiffusionGemma 可处理文本和视觉领域的广泛任务。主要能力包括:

  • 高速生成:通过扩散采样对 256 个 token 进行并行去噪,每次前向传递可生成 15-20 个 token,从而实现低延迟。在小批量设置(H100,FP8)下,用户生成速度可超过 1100 token/秒。
  • 自适应推理时间计算:简单提示和代码等结构化任务所需的去噪步骤更少,能够根据任务复杂度动态调整 token/秒的生成速度。
  • 思考能力:内置推理模式,允许模型在回答前进行逐步思考。
  • 长上下文:上下文窗口最多支持 256K token。
  • 图像理解:目标检测、文档/PDF 解析、屏幕和 UI 理解、图表 comprehension、OCR(包括多语言)、手写识别和指向。可处理不同宽高比和分辨率的图像。
  • 视频理解:通过处理帧序列来分析和描述视频内容。
  • 交错多模态输入:在单个提示中混合图像、视频和文本,以支持需要丰富上下文的推理。
  • 函数调用:原生支持结构化工具调用,支持智能体工作流。
  • 编码与推理:能够进行代码生成、补全和逐步逻辑推理。
  • 多语言支持:开箱即支持 35 种以上语言,预训练数据涵盖 140 多种语言。

快速开始

您可以使用最新版本的 Transformers 来使用所有 Gemma 4 模型。首先,请在您的环境中安装必要的依赖项:

pip install -U transformers torch accelerate

安装完成后,您可以使用以下代码加载模型:

from transformers import DiffusionGemmaForBlockDiffusion, AutoProcessor

MODEL_ID = "google/diffusiongemma-26B-A4B-it"

# Load model
processor = AutoProcessor.from_pretrained(MODEL_ID)
model = DiffusionGemmaForBlockDiffusion.from_pretrained(
    MODEL_ID,
    dtype="auto",
    device_map="auto",
)

模型加载完成后,即可开始生成输出:

# Prompt
message = [
    {"role": "user", "content": "Why is the sky blue?"}
]

# Process input
input_ids = processor.apply_chat_template(
    message,
    tokenize=True,
    add_generation_prompt=True,
    return_dict=True,
    return_tensors="pt"
).to(model.device)
output = model.generate(**input_ids, max_new_tokens=512)

# Parse output
text = processor.decode(output[0], skip_special_tokens=False)

最佳实践

为获得最佳性能,请使用以下配置和最佳实践:

1. 扩散采样设置

在所有使用场景中采用以下标准化采样配置:

  • 方法:采用熵界去噪和自适应停止的扩散采样。
  • 采样配置:
    • 最大去噪步数 = 48
    • 温度调度(用于logit塑形):从0.8线性衰减至0.4
    • 令牌选择:在每一步,采样器选择熵值最低的令牌,确保它们的互信息边界保持在熵界 = 0.1以下
    • 令牌重噪:采样器对未选中的令牌进行完全重噪
  • 自适应停止:仅当同时满足以下两个条件时,采样才会提前终止:
    • 置信预测:画布上的平均模型熵低于熵阈值 = 0.005
    • 稳定预测:最高概率的令牌预测在连续两个去噪步骤中保持一致

2. 思考模式配置

与Gemma 4模型类似,我们使用标准的system、assistant和user角色。为妥善管理思考过程,请使用以下控制令牌:

  • 触发思考:通过在system提示的开头包含<|think|>令牌来启用思考。要禁用思考,请移除该令牌(注意仍可能会输出空的思考通道)。
  • 标准生成:启用思考后,模型将按照以下结构输出其内部推理,后跟最终答案:
    <|channel>thought\n[内部推理]<channel|>.
  • 禁用思考行为:如果禁用思考,模型仍会生成标签,但思考块为空:
    <|channel>thought\n<channel|>[最终答案].

[!Note] 请注意,许多库(如transformers)会为您处理聊天模板的复杂性。

3. 多轮对话

  • 历史记录中不含思考内容:在多轮对话中,历史模型输出应仅包含最终响应。前一轮模型的思考内容不得添加到下一轮用户对话开始之前。

4. 模态顺序

  • 为了使多模态输入获得最佳性能,请在提示词中将图像内容置于文本之前。

5. 可变图像分辨率

除了可变宽高比外,DiffusionGemma 还通过可配置的视觉令牌预算支持可变图像分辨率,该预算控制用于表示图像的令牌数量。较高的令牌预算会保留更多视觉细节,但需要更多计算资源;而较低的预算则能加快推理速度,适用于不需要细粒度理解的任务。

  • 支持的令牌预算为:70、140、280、560 和 1120。
    • 对于分类、 captioning 或视频理解等任务,可使用较低预算,这些任务中更快的推理速度和处理大量帧的能力比细粒度细节更为重要。
    • 对于 OCR、文档解析或读取小文本等任务,可使用较高预算。

6. 视频长度

所有模型均支持图像输入,并能将视频作为帧进行处理。假设以每秒一帧的速度处理图像,视频支持的最大时长为 60 秒。

模型数据

用于模型训练的数据以及数据的处理方式。

训练数据集

我们的预训练数据集是一个大规模、多样化的数据集集合,涵盖广泛的领域和模态,包括网络文档、代码、图像、音频,数据截止日期为 2025 年 1 月。以下是关键组成部分:

  • 网络文档:多样化的网络文本集合确保模型能够接触到广泛的语言风格、主题和词汇。训练数据集包含超过 140 种语言的内容。
  • 代码:让模型接触代码有助于其学习编程语言的语法和模式,从而提高生成代码和理解代码相关问题的能力。
  • 数学:在数学文本上进行训练有助于模型学习逻辑推理、符号表示,并解答数学查询。
  • 图像:广泛的图像范围使模型能够执行图像分析和视觉数据提取任务。

这些多样化数据源的组合对于训练一个能够处理各种不同任务和数据格式的强大多模态模型至关重要。

数据预处理

以下是应用于训练数据的关键数据清洗和过滤方法:

  • CSAM 过滤:在数据准备过程的多个阶段应用了严格的 CSAM(儿童性虐待材料)过滤,以确保排除有害和非法内容。
  • 敏感数据过滤:为了使 Gemma 预训练模型安全可靠,我们使用自动化技术从训练集中过滤掉某些个人信息和其他敏感数据。
  • 其他方法:根据我们的政策对内容质量和安全性进行过滤。

伦理与安全

随着开源模型成为企业基础设施的核心,来源和安全性变得至关重要。DiffusionGemma 由 Google DeepMind 开发,经过与我们专有 Gemini 模型相同的严格安全评估。

评估方法

DiffusionGemma 的开发与内部安全和负责任 AI 团队合作进行。我们开展了一系列自动化和人工评估,以帮助提升模型安全性。这些评估符合Google 的 AI 原则及安全政策,旨在防止我们的生成式 AI 模型生成有害内容,包括:

  • 与儿童性虐待材料和剥削相关的内容
  • 危险内容(例如,宣扬自杀或指导可能造成现实世界伤害的活动)
  • 露骨色情内容
  • 仇恨言论(例如,非人化受保护群体成员)
  • 骚扰行为(例如,鼓励对他人实施暴力)

评估结果

在所有安全测试领域,我们看到与前几代 Gemma 模型相比,各内容安全类别的表现均有显著提升。总体而言,DiffusionGemma 与 Gemma 4 模型一样,在提升安全性方面显著优于 Gemma 3 和 3n 模型,同时保持较低的不当拒绝率。所有测试均有意在不启用安全过滤器的情况下进行,以评估模型的原始能力和基线行为。无论是文本到文本还是图像到文本任务,在所有模型尺寸上,该模型的政策违规率都极低,且相比之前的 Gemma 模型有显著改进。

使用方法与局限性

这些模型存在一些用户需要注意的局限性。

预期用途

多模态模型(能够处理视觉、语言和/或音频)在各个行业和领域都有广泛的应用。以下潜在用途列表并不全面。此列表旨在提供模型创建者在模型训练和开发过程中考虑的可能用例的背景信息。

  • 内容创作与交流
    • 文本生成:生成富有创意的文本格式,如诗歌、剧本、代码、营销文案和电子邮件草稿。
    • 聊天机器人与对话式 AI:为客户服务、虚拟助手或交互式应用程序提供对话界面支持。
    • 文本摘要:生成文本语料库、研究论文或报告的简明摘要。
    • 图像数据提取:提取、解释和总结视觉数据,用于文本交流。
  • 研究与教育
    • 自然语言处理(NLP)和 VLM 研究:作为研究人员实验 VLM 和 NLP 技术、开发算法并为该领域发展做出贡献的基础。
    • 语言学习工具:支持交互式语言学习体验,辅助语法纠正或提供写作练习。
    • 知识探索:通过生成摘要或回答特定主题的问题,协助研究人员探索大量文本。

局限性

  • 训练数据
    • 训练数据的质量和多样性显著影响模型的能力。训练数据中的偏差或缺口可能导致模型响应存在局限性。
    • 训练数据集的范围决定了模型能够有效处理的主题领域。
  • 上下文与任务复杂性
    • 模型在能够通过清晰提示和指令构建的任务上表现良好。开放式或高度复杂的任务可能具有挑战性。
    • 模型的性能会受到所提供上下文数量的影响(通常上下文越长,输出效果越好,但存在一定限度)。
  • 语言歧义与细微差别
    • 自然语言本质上是复杂的。模型可能难以把握细微的差别、讽刺或比喻性语言。
  • 事实准确性
    • 模型基于从训练数据集中学到的信息生成响应,但它们并非知识库。可能会生成不正确或过时的事实陈述。
  • 常识
    • 模型依赖于语言中的统计模式。在某些情况下,它可能缺乏应用常识推理的能力。

伦理考量与风险

在开发开放式视觉语言模型的过程中,我们审慎考虑了以下问题:

  • 偏见与公平性
    • 基于大规模真实世界文本和图像数据训练的视觉语言模型(VLM)可能会反映出训练材料中蕴含的社会文化偏见。DiffusionGemma 经过了仔细审查、输入数据预处理以及本卡片中报告的训练后评估,以帮助降低这些偏见带来的风险。
  • 虚假信息与滥用
    • 视觉语言模型(VLM)可能被滥用来生成虚假、误导性或有害的文本。
    • 本模型提供了负责任使用的指南,详情请参见 Responsible Generative AI Toolkit。
  • 透明度与可问责性
    • 本模型卡片总结了有关模型架构、能力、局限性和评估流程的详细信息。
    • 一个负责任开发的开放模型通过向整个 AI 生态系统的开发者和研究人员开放视觉语言模型(VLM)技术,为分享创新成果提供了机会。

已识别的风险及缓解措施:

  • 生成有害内容:内容安全机制和指南至关重要。鼓励开发者保持谨慎态度,并根据其具体产品政策和应用场景实施适当的内容安全防护措施。
  • 用于恶意目的的滥用:技术限制以及对开发者和终端用户的教育有助于减轻视觉语言模型(VLM)的恶意应用风险。我们提供了教育资源和供用户举报滥用行为的报告机制。
  • 侵犯隐私:模型的训练数据经过筛选,已移除某些个人信息和其他敏感数据。鼓励开发者遵守隐私法规,并采用隐私保护技术。
  • 偏见的持续存在:建议在模型训练、微调及其他使用场景中进行持续监控(使用评估指标、人工审查)并探索去偏技术。

优势

在发布时,这是一款低延迟、高性能的开源视觉语言模型,为开发者和对扩散语言模型研究感兴趣的人士提供了一个极具吸引力的选择。与同等规模的模型相比,该模型从设计之初就致力于负责任的AI开发。