Qwen3-14B

Qwen3-14B-Instruct 亮点

OpenPipe/Qwen3-14B-Instruct 是 Qwen3-14B 的一个易于微调的指令微调版本。Qwen3 的发布版本未包含 14B 规模的非思考型指令模型（non-thinking Instruct model），本分支引入了更新的对话模板，使 Qwen3-14B 默认即为非思考型，并与 OpenPipe 及其他微调框架高度兼容。

默认的 Qwen3 对话模板不会在前一个助手消息上渲染 </think>superscript: 标签，这可能导致训练与生成之间的不一致。本版本通过在所有助手提示和生成模板中添加 <RichMediaReference>superscript: 标签解决了此问题，确保在训练和推理过程中消息格式的一致性。

该模型保留了 Qwen3-14B 强大的通用能力，同时提供了更易于微调的对话模板。

模型概述

Qwen3-14B 具有以下特点：

类型：因果语言模型
训练阶段：预训练与后训练
参数数量：148 亿
非嵌入层参数数量：132 亿
层数：40
注意力头数量（GQA）：Q 头 40 个，KV 头 8 个
上下文长度：原生支持 32,768 tokens，通过 YaRN 可扩展至 131,072 tokens。

有关基准测试评估、硬件要求和推理性能等更多详细信息，请参阅我们的博客、GitHub 和文档。

Qwen3-14B

Qwen3-14B-Instruct 亮点

该模型保留了 Qwen3-14B 强大的通用能力，同时提供了更易于微调的对话模板。

模型概述

Qwen3-14B 具有以下特点：

类型：因果语言模型
训练阶段：预训练与后训练
参数数量：148 亿
非嵌入层参数数量：132 亿
层数：40
注意力头数量（GQA）：Q 头 40 个，KV 头 8 个
上下文长度：原生支持 32,768 tokens，通过 YaRN 可扩展至 131,072 tokens。

有关基准测试评估、硬件要求和推理性能等更多详细信息，请参阅我们的博客、GitHub 和文档。