hesamation/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled的GGUF量化版本,这是在Claude Opus 4.6风格的思维链蒸馏数据上对Qwen/Qwen3.6-35B-A3B进行的推理SFT微调。
源微调模型仅支持文本。Qwen3.6基础架构包含视觉编码器,但此次微调未使用图像或视频示例进行训练。请将这些GGUF文件视为合并后微调检查点的文本生成/运行时量化版本。
hesamation/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-DistilledQwen/Qwen3.6-35B-A3B此次微调受Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled启发,包括笔记本/训练工作流风格和Claude Opus推理蒸馏方向。
本仓库旨在托管以下GGUF变体。每个量化完成后会上传相应文件。
| 量化版本 | 典型用途 |
|---|---|
Q4_K_M | 本地推理的最小实用通用量化版本 |
Q5_K_M | 质量/大小平衡优于Q4 |
Q6_K | 当显存/内存预算允许时的更高质量量化版本 |
Q8_0 | 此处最大的量化版本;在这些选项中最接近源模型质量 |
以下基准测试是在合并后的源模型上运行的,而非每个GGUF量化版本单独运行。量化可能会改变分数,尤其是在较低比特率下,因此请将此视为源检查点的参考。
MMLU-Pro测试每个模型使用70个问题:在14个MMLU-Pro科目中使用--limit 5。这仅作为初步/比较检查,而非发布级别的完整基准测试。
| 基准测试 | 测试工具 | 每个模型的样本数 | 设置 | 指标 | 基础模型 | 源合并模型 | 差异 |
|---|---|---|---|---|---|---|---|
| MMLU-Pro 总体 | lm-evaluation-harness | 70 | 在14个科目中使用--limit 5 | exact_match, custom-extract | 42.86% | 75.71% | +32.85 百分点 |
基础模型:Qwen/Qwen3.6-35B-A3B。源合并模型:hesamation/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled。
[!WARNING] 欢迎社区基准测试
为了更好地了解此微调模型及其GGUF量化版本,我欢迎独立的基准测试结果。如果您进行评估,请尽可能包含基准测试名称、测试工具/脚本、样本数量、解码设置、量化文件以及原始日志或结果文件。
通过提交PR/讨论或在X上私信@hesamation分享结果。
Qwen/Qwen3.6-35B-A3B
-> supervised fine-tuning with LoRA
-> merged full model
-> GGUF quantization with llama.cpp| 设置 | 值 |
|---|---|
| 微调方法 | 采用LoRA的监督微调 |
| LoRA目标 | 仅注意力模块 |
| LoRA秩/阿尔法 | 32 / 32 |
| 微批次大小 | 1 |
| 梯度累积 | 32 |
| 训练轮次 | 2 |
| 已完成步数 | 762 / 762 |
| 最终报告训练损失 | 0.3362497625740494 |
| 数据集最大令牌数 | 8192 |
| 最大序列长度 | 32768 |
源模型对来自三个数据集的推理对话进行采样和标准化,然后使用qwen3-thinking聊天模板和仅响应SFT掩码进行处理。
| 数据集 | 请求样本数量 | 角色 |
|---|---|---|
nohurry/Opus-4.6-Reasoning-3000x-filtered | 3,900 | Claude Opus推理轨迹 |
Jackrong/Qwen3.5-reasoning-700x | 700 | 精选Qwen推理样本 |
Roman1111111/claude-opus-4.6-10000x | 9,633 | 额外的Claude Opus推理示例 |
这些GGUF文件旨在通过支持GGUF和Qwen3.6架构的运行时(如最新的llama.cpp构建版本)在本地或服务器端进行文本推理。根据您的内存预算和质量目标选择量化方式。
由于此次微调仅针对文本,图像/视频处理能力应视为继承自基础模型,而非通过本次训练得到改进。
感谢Qwen团队提供基础模型,Unsloth提供训练框架,llama.cpp提供GGUF工具,以及Jackrong公开的推理蒸馏工作流程,为本微调项目提供了灵感。