HuggingFace镜像/gemma4-31b-Opus-4.6-reasoning

Gemma 4 31B Opus 推理适配器 v1

这是一个基于 google/gemma-4-31B-it 的私有 QLoRA 适配器，在 Crownelius/Opus-4.6-Reasoning-2100x-formatted 的清理子集上进行了微调。

本次运行的目标很简单：生成一个仅在 Opus 风格推理数据上训练的 Gemma 4 31B 推理适配器，不混入无关的指令语料或智能体轨迹。

基础模型

基础模型：google/gemma-4-31B-it
适配器类型：LoRA / QLoRA (peft)
量化：4 位 NF4
精度：BF16 计算

数据集

源数据集：

Crownelius/Opus-4.6-Reasoning-2100x-formatted

训练前应用的本地过滤：

移除重复的用户提示
移除明显不良的提示组和格式噪声
仅保留推理风格的行

最终本地数据集统计：

源数据行数：2160
保留行数：2025
训练行数：1924
验证行数：101
类别混合：1899 数学，126 代码

训练设置

最大序列长度：4096
轮次：2
学习率：1e-4
每设备批大小：1
梯度累积：8
硬件：NVIDIA GH200

LoRA 目标模块针对 Gemma 4 包装的线性层进行了调整：

q_proj.linear
k_proj.linear
v_proj.linear
o_proj.linear
gate_proj.linear
up_proj.linear
down_proj.linear

验证指标

已完成运行的最终指标：

评估损失：3.6018
评估困惑度：36.66
训练运行时间：3723s
完成轮次：2.0

已发布的基础模型参考基准

下表仅供参考，来自 Google 官方的 Gemma 4 31B Instruct 模型卡片。这些是 google/gemma-4-31B-it 的已发布基础模型参考分数，而非此仓库的适配器特定评估结果。

基准测试	Gemma 4 31B	Gemma 3 27B (无思考)
MMLU-Pro	85.2%	67.6%
AIME 2026 无工具	89.2%	20.8%
LiveCodeBench v6	80.0%	29.1%
Codeforces Elo	2150	110
GPQA Diamond	84.3%	42.4%
Tau2（3 次平均）	76.9%	16.2%
HLE 无工具	19.5%	-
HLE 带搜索	26.5%	-
BigBench Extra Hard	74.4%	19.3%
MMMLU	88.4%	70.7%
MMMU Pro	76.9%	49.7%
OmniDocBench 1.5（越低越好）	0.131	0.365
MATH-Vision	85.6%	46.0%
MRCR v2 8 needle 128k（平均）	66.4%	13.5%

来源：

google/gemma-4-31B-it

使用方法

本仓库包含一个 PEFT 适配器，而非完全合并的独立模型。

加载方式如下：

基础模型：google/gemma-4-31B-it
适配器：本仓库

from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig
from peft import PeftModel
import torch

base_id = "google/gemma-4-31B-it"
adapter_id = "kai-os/gemma4-opus-reasoning-adapter-v1"

bnb = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch.bfloat16,
)

tokenizer = AutoTokenizer.from_pretrained(base_id)
base = AutoModelForCausalLM.from_pretrained(
    base_id,
    device_map="auto",
    quantization_config=bnb,
    torch_dtype=torch.bfloat16,
)
model = PeftModel.from_pretrained(base, adapter_id)

说明

这是一个专注于推理的适配器，而非针对基准优化的版本。
上方的基准测试表针对的是已发布的基础模型，而非本适配器。
最好将其视为一个实验性的蒸馏推理适配器。

致谢

Google 提供 Gemma 4
Opus 推理数据集的作者和维护者
Hugging Face 的 transformers、peft 和 datasets