这是一个基于 google/gemma-4-31B-it 的私有 QLoRA 适配器,在 Crownelius/Opus-4.6-Reasoning-2100x-formatted 的清理子集上进行了微调。
本次运行的目标很简单:生成一个仅在 Opus 风格推理数据上训练的 Gemma 4 31B 推理适配器,不混入无关的指令语料或智能体轨迹。
google/gemma-4-31B-itpeft)源数据集:
训练前应用的本地过滤:
最终本地数据集统计:
2160202519241011899 数学,126 代码409621e-418LoRA 目标模块针对 Gemma 4 包装的线性层进行了调整:
q_proj.lineark_proj.linearv_proj.linearo_proj.lineargate_proj.linearup_proj.lineardown_proj.linear已完成运行的最终指标:
3.601836.663723s2.0下表仅供参考,来自 Google 官方的 Gemma 4 31B Instruct 模型卡片。这些是 google/gemma-4-31B-it 的已发布基础模型参考分数,而非此仓库的适配器特定评估结果。
| 基准测试 | Gemma 4 31B | Gemma 3 27B (无思考) |
|---|---|---|
| MMLU-Pro | 85.2% | 67.6% |
| AIME 2026 无工具 | 89.2% | 20.8% |
| LiveCodeBench v6 | 80.0% | 29.1% |
| Codeforces Elo | 2150 | 110 |
| GPQA Diamond | 84.3% | 42.4% |
| Tau2(3 次平均) | 76.9% | 16.2% |
| HLE 无工具 | 19.5% | - |
| HLE 带搜索 | 26.5% | - |
| BigBench Extra Hard | 74.4% | 19.3% |
| MMMLU | 88.4% | 70.7% |
| MMMU Pro | 76.9% | 49.7% |
| OmniDocBench 1.5(越低越好) | 0.131 | 0.365 |
| MATH-Vision | 85.6% | 46.0% |
| MRCR v2 8 needle 128k(平均) | 66.4% | 13.5% |
来源:
本仓库包含一个 PEFT 适配器,而非完全合并的独立模型。
加载方式如下:
google/gemma-4-31B-itfrom transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig
from peft import PeftModel
import torch
base_id = "google/gemma-4-31B-it"
adapter_id = "kai-os/gemma4-opus-reasoning-adapter-v1"
bnb = BitsAndBytesConfig(
load_in_4bit=True,
bnb_4bit_quant_type="nf4",
bnb_4bit_compute_dtype=torch.bfloat16,
)
tokenizer = AutoTokenizer.from_pretrained(base_id)
base = AutoModelForCausalLM.from_pretrained(
base_id,
device_map="auto",
quantization_config=bnb,
torch_dtype=torch.bfloat16,
)
model = PeftModel.from_pretrained(base, adapter_id)transformers、peft 和 datasets