Qwen3.6-35B-A3B 是阿里云开发的先进混合稀疏专家模型(MoE)。它拥有 350 亿总参数,每个 token 仅激活 30 亿参数,确保了高效的推理性能。在架构上,它融合了门控 DeltaNet 线性注意力机制与标准门控注意力层,可将 token 路由至 256 个专家。该模型原生支持高达 26.2 万的上下文窗口,专为高性能智能体编码、深度推理和多模态任务而设计。

🪐Qwopus3.6-35B-A3B-v1 是在 Qwen3.6-35B-A3B 基础上进行微调的推理增强型专家混合模型(MoE)。
本模型的微调过程分为三个不同阶段的分布式监督微调(SFT),逐步提升推理复杂度和数据多样性。这种系统化方法确保模型在继承基础 MoE 能力的同时,深化其逻辑处理深度。
展望未来,后续版本将引入强化学习(RL) 训练,以进一步优化推理路径和对齐性能。
本版本采用 LoRA 微调技术,但独特之处在于扩大了可训练参数规模,约有9% 的模型参数参与更新。这使得在保持参数高效微调效率的同时,能够更深度地适配推理能力。然而,将可训练参数设为 9% 对于此 MoE 架构而言是一种风险配置,因为这会显著增加训练不稳定性和权重合并冲突的可能性。
[!TIP] 视觉与工具调用支持:本模型支持视觉功能和工具调用。若要启用视觉功能,请将 GGUF 仓库 中的
mmproj.gguf文件放置到主.gguf文件所在的同一目录下。
该模型旨在实现:
[!WARNING] 社区版本发布说明:Qwopus3.6-35B-A3B-v1 尚未 经过完整的性能评估或安全测试。它仅作为实验性社区版本发布,供研究与探索使用。
该模型在精心筛选的数据集上进行训练,涵盖了广泛的领域,包括数学、代码、科学、多语言对话和指令遵循。
为了平衡不同能力,训练数据被划分为四个主要的上下文长度桶,包含以下混合内容:
上下文长度分布:
Qwopus3.6-35B-A3B-v1 采用课程学习式的分阶段推理数据混合,逐步增加训练信号的难度和复杂度:
早期阶段(格式建立): 专注于中短长度、格式稳定的推理样本。此阶段的主要目标是建立可靠、结构化的新型推理格式,而不会让模型因极端复杂性而不堪重负。
中期阶段(复杂度扩展与多教师蒸馏): 逐渐增加来自多个教师模型的复杂推理样本的比例。
最终阶段(长上下文强化与抗漂移): 强化长上下文推理能力。关键的是,此阶段保留短样本重放,以确保模型维持其短上下文指令遵循能力,并最大限度地减少能力漂移。
与以往的密集型架构相比,该模型在推理效率和单次生成质量方面实现了显著飞跃。通过采用混合MoE结构(总参数350亿/激活参数30亿)和门控DeltaNet线性注意力机制,它在高吞吐量与深度推理能力之间取得了平衡。

[!NOTE] 结论:对于需要高吞吐量智能体模型的开发者而言,这是一个首选选择,尤其擅长在单GPU环境下进行UI/UX生成和复杂逻辑推理。
以下是模型卡片摘要,基于Kyle Hessling的🔗 Qwopus3.6-35B-A3B-v1综合评估报告。





由于Qwen3.6 MoE模型的架构复杂性,在训练和权重合并过程中遇到了若干技术挑战。用户应注意以下潜在不稳定性:
[!CAUTION] MoE架构兼容性问题
- MoE专家层的权重结构与标准密集型模型存在显著差异。
- PEFT/LoRA、Transformers 5.x的融合专家模式以及Unsloth补丁之间存在已知的、易触发的不兼容性。
- 即使使用绝对最新的环境和依赖项,训练后将LoRA权重合并到基础模型中也可能失败或遇到严重的兼容性错误。
- 常见错误: 在权重合并阶段,您可能会遇到
ModuleNotFoundError: Could not import module 'Qwen3_5MoeForConditionalGeneration'或类似的结构不匹配错误。
如果您尝试在本地对此MoE架构进行微调或权重合并,请务必谨慎操作,并准备好手动修补模型定义文件或降级特定库版本。
👉 GitHub仓库:Jackrong-llm-finetuning-guide 访问该仓库以深入了解代码库,并在本地或Colab上复现结果。
特别感谢:
@misc{jackrong_qwopus36_35b_a3b_v1,
title = {Qwopus3.6-35B-A3B-v1},
author = {Jackrong},
year = {2026},
publisher = {Hugging Face}
}