HuggingFace镜像/Qwen3-14B-Instruct
模型介绍文件和版本分析
下载使用量0

Qwen3-14B

Chat

Qwen3-14B-Instruct 亮点

OpenPipe/Qwen3-14B-Instruct 是 Qwen3-14B 的一个易于微调的指令微调版本。Qwen3 的发布版本未包含 14B 规模的非思考型指令模型(non-thinking Instruct model),本分支引入了更新的对话模板,使 Qwen3-14B 默认即为非思考型,并与 OpenPipe 及其他微调框架高度兼容。

默认的 Qwen3 对话模板不会在前一个助手消息上渲染 </think>superscript: 标签,这可能导致训练与生成之间的不一致。本版本通过在所有助手提示和生成模板中添加 <RichMediaReference>superscript: 标签解决了此问题,确保在训练和推理过程中消息格式的一致性。

该模型保留了 Qwen3-14B 强大的通用能力,同时提供了更易于微调的对话模板。

模型概述

Qwen3-14B 具有以下特点:

  • 类型:因果语言模型
  • 训练阶段:预训练与后训练
  • 参数数量:148 亿
  • 非嵌入层参数数量:132 亿
  • 层数:40
  • 注意力头数量(GQA):Q 头 40 个,KV 头 8 个
  • 上下文长度:原生支持 32,768 tokens,通过 YaRN 可扩展至 131,072 tokens。

有关基准测试评估、硬件要求和推理性能等更多详细信息,请参阅我们的 博客、GitHub 和 文档。