🔥 Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled-GGUF

hesamation/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled的GGUF量化版本，这是在Claude Opus 4.6风格的思维链蒸馏数据上对Qwen/Qwen3.6-35B-A3B进行的推理SFT微调。

源微调模型仅支持文本。Qwen3.6基础架构包含视觉编码器，但此次微调未使用图像或视频示例进行训练。请将这些GGUF文件视为合并后微调检查点的文本生成/运行时量化版本。

此次微调受Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled启发，包括笔记本/训练工作流风格和Claude Opus推理蒸馏方向。

可用的GGUF量化版本

本仓库旨在托管以下GGUF变体。每个量化完成后会上传相应文件。

以下基准测试是在合并后的源模型上运行的，而非每个GGUF量化版本单独运行。量化可能会改变分数，尤其是在较低比特率下，因此请将此视为源检查点的参考。

MMLU-Pro测试每个模型使用70个问题：在14个MMLU-Pro科目中使用--limit 5。这仅作为初步/比较检查，而非发布级别的完整基准测试。

基准测试	测试工具	每个模型的样本数	设置	指标	基础模型	源合并模型	差异
MMLU-Pro 总体	lm-evaluation-harness	70	在14个科目中使用`--limit 5`	exact_match, custom-extract	42.86%	75.71%	+32.85 百分点

基础模型：Qwen/Qwen3.6-35B-A3B。源合并模型：hesamation/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled。

[!WARNING] 欢迎社区基准测试

为了更好地了解此微调模型及其GGUF量化版本，我欢迎独立的基准测试结果。如果您进行评估，请尽可能包含基准测试名称、测试工具/脚本、样本数量、解码设置、量化文件以及原始日志或结果文件。

通过提交PR/讨论或在X上私信@hesamation分享结果。

Qwen/Qwen3.6-35B-A3B
  -> supervised fine-tuning with LoRA
  -> merged full model
  -> GGUF quantization with llama.cpp

源模型对来自三个数据集的推理对话进行采样和标准化，然后使用qwen3-thinking聊天模板和仅响应SFT掩码进行处理。

数据集	请求样本数量	角色
`nohurry/Opus-4.6-Reasoning-3000x-filtered`	3,900	Claude Opus推理轨迹
`Jackrong/Qwen3.5-reasoning-700x`	700	精选Qwen推理样本
`Roman1111111/claude-opus-4.6-10000x`	9,633	额外的Claude Opus推理示例

这些GGUF文件旨在通过支持GGUF和Qwen3.6架构的运行时（如最新的llama.cpp构建版本）在本地或服务器端进行文本推理。根据您的内存预算和质量目标选择量化方式。

由于此次微调仅针对文本，图像/视频处理能力应视为继承自基础模型，而非通过本次训练得到改进。

感谢Qwen团队提供基础模型，Unsloth提供训练框架，llama.cpp提供GGUF工具，以及Jackrong公开的推理蒸馏工作流程，为本微调项目提供了灵感。