tencent_hunyuan/Hy3-preview-Base
模型介绍文件和版本Pull Requests讨论分析
下载使用量0

中文 | English



License    HuggingFace    ModelScope    cnb.cool    GitCode

🖥️ 官方网站  |   💬 GitHub


目录

  • 模型介绍
  • 核心亮点
  • 评测结果
    • STEM与推理能力
    • 上下文学习与指令遵循
    • 代码与智能体能力
  • 最新动态
  • 模型链接
  • 快速开始
  • 部署指南
    • vLLM部署
    • SGLang部署
  • 训练说明
  • 量化方案
  • 许可协议
  • 联系我们

模型介绍

Hy3 preview是由腾讯混元团队研发的混合专家(Mixture-of-Experts, MoE)模型,总参数量达2950亿,激活参数量为210亿,MTP层参数量为38亿。作为在全新重构基础设施上训练的首款模型,Hy3 preview是目前我们对外发布的性能最强模型,在复杂推理、指令遵循、上下文学习、代码生成及智能体任务等方面均实现显著提升。

属性数值
模型架构混合专家(Mixture-of-Experts, MoE)
总参数量295B
激活参数量21B
MTP层参数量3.8B
网络层数(不含MTP层)80
MTP层数1
注意力头数64(GQA,8个KV头,头维度128)
隐藏层维度4096
中间层维度13312
上下文长度256K
词表大小120832
专家数量192个专家,激活Top-8
支持精度BF16

亮点特性

  • STEM 与推理能力——复杂推理是一切能力的基础。Hy3 preview 在 FrontierScience-Olympiad、IMOAnswerBench 等极具挑战性的 STEM 基准测试中表现优异,在清华大学求真书院 2026 年春季数学博士资格考试及 2025 年全国中学生生物学奥林匹克竞赛(CHSBO 2025)中亦取得出色成绩,充分展现了其可泛化的推理能力。

  • 上下文学习与指令遵循——现实世界任务要求模型具备解析繁杂冗长上下文并遵循复杂规则的能力。我们基于自身业务场景构建了 CL-bench 和 CL-bench-Life 基准,创新性地衡量上下文学习能力。Hy3 preview 在上下文学习和指令遵循能力两方面均实现了显著提升。

  • 代码与智能体——代码能力与智能体能力的提升最为显著。通过重构强化学习(RL)基础设施并扩大训练任务规模,我们在主流代码智能体基准(SWE-bench Verified、Terminal-Bench 2.0)和搜索智能体基准(BrowseComp、WideSearch)上均取得了具有竞争力的成绩。

基准测试结果

预训练模型性能

类别基准测试(指标)提示词数量Kimi-K2 BASEDeepSeek-V3 BASEGLM-4.5 BASEHy3 preview-Base
激活参数数量-320 亿370 亿320 亿210 亿
总参数数量-10430 亿6710 亿3550 亿2950 亿
英语能力MMLU5-shot88.2487.6887.7387.42
MMLU-Pro5-shot65.9863.9863.6765.76
MMLU-Redux5-shot87.1886.8186.5686.86
ARC-Challenge0-shot96.6694.6596.3295.99
DROP5-shot86.4086.5082.9085.50
PIQA4-shot84.9384.2284.7184.39
SuperGPQA5-shot51.1046.1749.6451.60
SimpleQA5-shot34.3726.1529.2626.47
代码能力MBPP-plus3-shot81.3575.4778.0578.71
CRUXEval-I3-shot68.0167.7968.5171.19
CRUXEval-O3-shot69.6271.0067.7568.38
LiveCodeBench-v61-shot30.8629.3127.4334.86
数学能力GSM8K4-shot93.4688.1590.0695.37
MATH4-shot71.2059.3761.0076.28
CMath4-shot90.8385.5089.3391.17
中文能力C-Eval5-shot91.5190.3585.8489.80
CMMLU5-shot90.7287.9086.4689.61
Chinese-simpleQA5-shot74.5868.7268.4969.73
多语言能力MMMLU5-shot77.6379.5479.2680.15
INCLUDE5-shot75.6677.8676.2778.64

指令模型性能

STEM与推理能力

复杂推理是一切能力的基础。Hy3-preview在前沿科学奥林匹克(FrontierScience-Olympiad)、国际数学奥林匹克答案基准(IMOAnswerBench)等挑战性STEM基准测试中表现优异。它在2026年春季清华大学求真书院数学博士资格考试以及2025年全国中学生生物学奥林匹克竞赛(CHSBO 2025)中也取得了出色成绩,展现出高度可泛化的推理能力。

STEM & Reasoning benchmarks

上下文学习与指令遵循能力

现实世界的任务要求模型具备解析杂乱冗长上下文并遵循复杂规则的能力。我们基于自身业务场景构建了CL-bench和CL-bench-Life,以创新性地衡量上下文学习能力。Hy3-preview在上下文学习和指令遵循能力两方面均取得了显著提升。

Context Learning & Instruction Following benchmarks

代码与智能体能力

代码和智能体能力的提升最为显著。通过重建强化学习(RL)基础设施并扩大训练任务规模,我们在主流代码智能体基准测试(SWE-bench Verified、Terminal-Bench 2.0)和搜索智能体基准测试(BrowseComp、WideSearch)中均取得了具有竞争力的分数。

Agent benchmarks overview

编码能力关乎模型能否在开发环境中执行,搜索能力则关乎模型能否从开放网络中查找并整合信息。这两者对于OpenClaw等复杂智能体场景都至关重要。Hy3-preview在ClawEval和WildClawBench上得分优异,表明其智能体能力已具备实际应用价值。

Claw Agent benchmarks

除了公开基准测试外,我们还构建了内部评估集,以测试模型在实际开发场景中的表现。在Hy-Backend(后端重点任务)、Hy-Vibe Bench(真实用户开发工作流)和Hy-SWE Max上,Hy3-preview与其他开源模型相比,得分具有竞争力。

Internal benchmarks

新闻动态

  • [2026-04-23] 🔥 我们已在 Hugging Face、ModelScope 和 GitCode 上开源 Hy3 preview 模型权重。

模型链接

模型名称描述Hugging FaceModelScopeGitCode
Hy3 preview指令模型🤗 模型模型模型
Hy3 preview-Base预训练基础模型🤗 模型模型模型

快速开始

首先使用 vLLM 或 SGLang 部署 Hy3 preview,然后调用兼容 OpenAI 的 API:

from openai import OpenAI

client = OpenAI(base_url="http://localhost:8000/v1", api_key="EMPTY")

response = client.chat.completions.create(
    model="tencent/Hy3-preview",
    messages=[
        {"role": "user", "content": "Hello! Can you briefly introduce yourself?"},
    ],
    temperature=0.9,
    top_p=1.0,
    # reasoning_effort: "no_think" (default, direct response), "low", "high" (deep chain-of-thought)
    extra_body={"chat_template_kwargs": {"reasoning_effort": "no_think"}},
)
print(response.choices[0].message.content)

推荐参数:temperature=0.9,top_p=1.0。

推理模式:对于复杂任务(数学、编码、推理),将 reasoning_effort 设置为 "high";若需直接响应,则设置为 "no_think"。

有关如何启动 API 服务器的信息,请参见下文的 部署 部分。

部署

Hy3-preview 总计包含 2950 亿参数。若要在 8 块 GPU 上部署服务,建议使用 H20-3e 或其他内存容量更大的 GPU。

vLLM

从源码构建 vLLM:

uv venv --python 3.12 --seed --managed-python
source .venv/bin/activate
git clone https://github.com/vllm-project/vllm.git
cd vllm
uv pip install --editable . --torch-backend=auto

启用 MTP 启动 vLLM 服务器:

vllm serve tencent/Hy3-preview \
  --tensor-parallel-size 8 \
  --speculative-config.method mtp \
  --speculative-config.num_speculative_tokens 1 \
  --tool-call-parser hy_v3 \
  --reasoning-parser hy_v3 \
  --enable-auto-tool-choice \
  --served-model-name hy3-preview

SGLang

从源代码构建 SGLang:

git clone https://github.com/sgl-project/sglang
cd sglang
pip3 install pip --upgrade
pip3 install "transformers>=5.6.0"
pip3 install -e "python"

启动启用 MTP 的 SGLang 服务器:

python3 -m sglang.launch_server \
  --model tencent/Hy3-preview \
  --tp 8 \
  --tool-call-parser hunyuan \
  --reasoning-parser hunyuan \
  --speculative-num-steps 1 \
  --speculative-eagle-topk 1 \
  --speculative-num-draft-tokens 2 \
  --speculative-algorithm EAGLE \
  --served-model-name hy3-preview

训练

Hy3 preview 提供完整的模型训练流程,支持全量微调与 LoRA 微调,并集成了 DeepSpeed ZeRO 配置及 LLaMA-Factory。

有关详细的训练文档,请参考:训练指南

量化

我们提供 AngelSlim——一款更易用、全面且高效的大模型压缩工具包。AngelSlim 支持面向大规模多模态模型的全套压缩工具,包括常用量化算法、低位量化及推测采样。

许可协议

Hy3 preview 基于 腾讯混元社区许可协议 发布。详情请参见 LICENSE。

联系我们

如果您希望向我们的研发和产品团队留言,欢迎与我们联系。您也可以通过以下邮箱与我们取得联系:

📧 hunyuan_opensource@tencent.com


Hy3 preview 由腾讯混元团队开发。