HuggingFace镜像/gemma4-31b-Opus-4.6-reasoning
模型介绍文件和版本分析
下载使用量0

Gemma 4 31B Opus 推理适配器 v1

这是一个基于 google/gemma-4-31B-it 的私有 QLoRA 适配器,在 Crownelius/Opus-4.6-Reasoning-2100x-formatted 的清理子集上进行了微调。

本次运行的目标很简单:生成一个仅在 Opus 风格推理数据上训练的 Gemma 4 31B 推理适配器,不混入无关的指令语料或智能体轨迹。

基础模型

  • 基础模型:google/gemma-4-31B-it
  • 适配器类型:LoRA / QLoRA (peft)
  • 量化:4 位 NF4
  • 精度:BF16 计算

数据集

源数据集:

  • Crownelius/Opus-4.6-Reasoning-2100x-formatted

训练前应用的本地过滤:

  • 移除重复的用户提示
  • 移除明显不良的提示组和格式噪声
  • 仅保留推理风格的行

最终本地数据集统计:

  • 源数据行数:2160
  • 保留行数:2025
  • 训练行数:1924
  • 验证行数:101
  • 类别混合:1899 数学,126 代码

训练设置

  • 最大序列长度:4096
  • 轮次:2
  • 学习率:1e-4
  • 每设备批大小:1
  • 梯度累积:8
  • 硬件:NVIDIA GH200

LoRA 目标模块针对 Gemma 4 包装的线性层进行了调整:

  • q_proj.linear
  • k_proj.linear
  • v_proj.linear
  • o_proj.linear
  • gate_proj.linear
  • up_proj.linear
  • down_proj.linear

验证指标

已完成运行的最终指标:

  • 评估损失:3.6018
  • 评估困惑度:36.66
  • 训练运行时间:3723s
  • 完成轮次:2.0

已发布的基础模型参考基准

下表仅供参考,来自 Google 官方的 Gemma 4 31B Instruct 模型卡片。这些是 google/gemma-4-31B-it 的已发布基础模型参考分数,而非此仓库的适配器特定评估结果。

基准测试Gemma 4 31BGemma 3 27B (无思考)
MMLU-Pro85.2%67.6%
AIME 2026 无工具89.2%20.8%
LiveCodeBench v680.0%29.1%
Codeforces Elo2150110
GPQA Diamond84.3%42.4%
Tau2(3 次平均)76.9%16.2%
HLE 无工具19.5%-
HLE 带搜索26.5%-
BigBench Extra Hard74.4%19.3%
MMMLU88.4%70.7%
MMMU Pro76.9%49.7%
OmniDocBench 1.5(越低越好)0.1310.365
MATH-Vision85.6%46.0%
MRCR v2 8 needle 128k(平均)66.4%13.5%

来源:

  • google/gemma-4-31B-it

使用方法

本仓库包含一个 PEFT 适配器,而非完全合并的独立模型。

加载方式如下:

  • 基础模型:google/gemma-4-31B-it
  • 适配器:本仓库
from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig
from peft import PeftModel
import torch

base_id = "google/gemma-4-31B-it"
adapter_id = "kai-os/gemma4-opus-reasoning-adapter-v1"

bnb = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch.bfloat16,
)

tokenizer = AutoTokenizer.from_pretrained(base_id)
base = AutoModelForCausalLM.from_pretrained(
    base_id,
    device_map="auto",
    quantization_config=bnb,
    torch_dtype=torch.bfloat16,
)
model = PeftModel.from_pretrained(base, adapter_id)

说明

  • 这是一个专注于推理的适配器,而非针对基准优化的版本。
  • 上方的基准测试表针对的是已发布的基础模型,而非本适配器。
  • 最好将其视为一个实验性的蒸馏推理适配器。

致谢

  • Google 提供 Gemma 4
  • Opus 推理数据集的作者和维护者
  • Hugging Face 的 transformers、peft 和 datasets