中文 | English
Hy3 preview 是由腾讯混元团队研发的2950亿参数混合专家(Mixture-of-Experts, MoE)模型,包含210亿激活参数和38亿MTP层参数。Hy3 preview是在我们重构的基础设施上训练的首款模型,也是目前发布的性能最强的模型。该模型在复杂推理、指令遵循、上下文学习、代码生成及智能体任务等方面均实现了显著提升。
| 属性 | 数值 |
|---|---|
| 模型架构 | 混合专家(Mixture-of-Experts, MoE) |
| 总参数量 | 2950亿 |
| 激活参数量 | 210亿 |
| MTP层参数量 | 38亿 |
| 模型层数(不含MTP层) | 80 |
| MTP层数 | 1 |
| 注意力头数 | 64(GQA,8个KV头,头维度128) |
| 隐藏层维度 | 4096 |
| 中间层维度 | 13312 |
| 上下文长度 | 256K |
| 词表大小 | 120832 |
| 专家数量 | 192个专家,每次激活前8个 |
| 支持精度 | BF16 |
STEM 与推理——复杂推理是一切能力的基础。Hy3 preview 在 FrontierScience-Olympiad、IMOAnswerBench 等具有挑战性的 STEM 基准测试中表现优异,并在清华大学求真书院数学博士资格考试(2026 年春季)和全国中学生生物学竞赛(CHSBO 2025)中取得了出色成绩,展现出卓越的通用推理能力。
上下文学习与指令遵循——现实世界的任务需要解析杂乱、冗长的上下文并遵循复杂规则的能力。我们基于自身业务场景构建了 CL-bench 和 CL-bench-Life,以创新方式衡量上下文学习能力。Hy3 preview 在上下文学习和指令遵循能力方面均实现了显著提升。
代码与智能体——代码生成和智能体能力的提升最为显著。通过重构的强化学习(RL)基础设施和更大规模的训练任务,我们在主流代码智能体基准测试(SWE-bench Verified、Terminal-Bench 2.0)和搜索智能体基准测试(BrowseComp、WideSearch)中均取得了具有竞争力的分数。
| 类别 | 基准测试(指标) | 提示次数 | Kimi-K2 BASE | DeepSeek-V3 BASE | GLM-4.5 BASE | Hy3 preview-Base |
|---|---|---|---|---|---|---|
| 激活参数数量 | - | 320亿 | 370亿 | 320亿 | 210亿 | |
| 总参数数量 | - | 10430亿 | 6710亿 | 3550亿 | 2950亿 | |
| 英语 | MMLU | 5-shot | 88.24 | 87.68 | 87.73 | 87.42 |
| MMLU-Pro | 5-shot | 65.98 | 63.98 | 63.67 | 65.76 | |
| MMLU-Redux | 5-shot | 87.18 | 86.81 | 86.56 | 86.86 | |
| ARC-Challenge | 0-shot | 96.66 | 94.65 | 96.32 | 95.99 | |
| DROP | 5-shot | 86.40 | 86.50 | 82.90 | 85.50 | |
| PIQA | 4-shot | 84.93 | 84.22 | 84.71 | 84.39 | |
| SuperGPQA | 5-shot | 51.10 | 46.17 | 49.64 | 51.60 | |
| SimpleQA | 5-shot | 34.37 | 26.15 | 29.26 | 26.47 | |
| 代码 | MBPP-plus | 3-shot | 81.35 | 75.47 | 78.05 | 78.71 |
| CRUXEval-I | 3-shot | 68.01 | 67.79 | 68.51 | 71.19 | |
| CRUXEval-O | 3-shot | 69.62 | 71.00 | 67.75 | 68.38 | |
| LiveCodeBench-v6 | 1-shot | 30.86 | 29.31 | 27.43 | 34.86 | |
| 数学 | GSM8K | 4-shot | 93.46 | 88.15 | 90.06 | 95.37 |
| MATH | 4-shot | 71.20 | 59.37 | 61.00 | 76.28 | |
| CMath | 4-shot | 90.83 | 85.50 | 89.33 | 91.17 | |
| 中文 | C-Eval | 5-shot | 91.51 | 90.35 | 85.84 | 89.80 |
| CMMLU | 5-shot | 90.72 | 87.90 | 86.46 | 89.61 | |
| Chinese-simpleQA | 5-shot | 74.58 | 68.72 | 68.49 | 69.73 | |
| 多语言 | MMMLU | 5-shot | 77.63 | 79.54 | 79.26 | 80.15 |
| INCLUDE | 5-shot | 75.66 | 77.86 | 76.27 | 78.64 |
复杂推理是一切能力的基础。Hy3 preview 在 FrontierScience-Olympiad 和 IMOAnswerBench 等挑战性 STEM 基准测试中表现出色。它在清华大学求真书院数学博士资格考试(2026年春季)和中国高中生物学奥林匹克竞赛(CHSBO 2025)中也取得了优异成绩,展现出高度的通用推理能力。

现实世界的任务要求模型具备解析冗长、杂乱上下文并遵循复杂规则的能力。我们基于自身业务场景构建了 CL-bench 和 CL-bench-Life,以创新方式衡量上下文学习能力。Hy3 preview 在上下文学习和指令遵循能力两方面均取得了显著提升。

代码生成和智能体能力的提升最为显著。通过重构的强化学习(RL)基础设施和更大规模的训练任务,我们在主流代码智能体基准测试(SWE-bench Verified、Terminal-Bench 2.0)和搜索智能体基准测试(BrowseComp、WideSearch)中均取得了具有竞争力的成绩。

代码能力关乎模型能否在开发环境中执行,搜索能力则关乎模型能否从开放网络中查找并整合信息。这两者对于 OpenClaw 等复杂智能体场景都至关重要。Hy3 preview 在 ClawEval 和 WildClawBench 上得分优异,表明其智能体能力已具备实际应用价值。

除了公开基准测试外,我们还构建了内部评估集,以测试模型在真实开发场景中的表现。在 Hy-Backend(聚焦后端任务)、Hy-Vibe Bench(真实用户开发工作流)和 Hy-SWE Max 上,Hy3 preview 与其他开源模型相比,成绩具有竞争力。

首先使用 vLLM 或 SGLang 部署 Hy3 preview,然后调用兼容 OpenAI 的 API:
from openai import OpenAI
client = OpenAI(base_url="http://localhost:8000/v1", api_key="EMPTY")
response = client.chat.completions.create(
model="tencent/Hy3-preview",
messages=[
{"role": "user", "content": "Hello! Can you briefly introduce yourself?"},
],
temperature=0.9,
top_p=1.0,
# reasoning_effort: "no_think" (default, direct response), "low", "high" (deep chain-of-thought)
extra_body={"chat_template_kwargs": {"reasoning_effort": "no_think"}},
)
print(response.choices[0].message.content)推荐参数:
temperature=0.9,top_p=1.0。推理模式:对于复杂任务(数学、编码、推理),请将
reasoning_effort设置为"high";若需直接响应,则设置为"no_think"。
有关如何启动 API 服务器的说明,请参见下文的 部署 部分。
Hy3-preview 共计 2950 亿参数。若要在 8 块 GPU 上部署该模型,建议使用 H20-3e 或其他大内存容量的 GPU。
从源码构建 vLLM:
uv venv --python 3.12 --seed --managed-python
source .venv/bin/activate
git clone https://github.com/vllm-project/vllm.git
cd vllm
uv pip install --editable . --torch-backend=auto启用 MTP 启动 vLLM 服务器:
vllm serve tencent/Hy3-preview \
--tensor-parallel-size 8 \
--speculative-config.method mtp \
--speculative-config.num_speculative_tokens 1 \
--tool-call-parser hy_v3 \
--reasoning-parser hy_v3 \
--enable-auto-tool-choice \
--served-model-name hy3-preview从源代码构建 SGLang:
git clone https://github.com/sgl-project/sglang
cd sglang
pip3 install pip --upgrade
pip3 install "transformers>=5.6.0"
pip3 install -e "python"启用 MTP 启动 SGLang 服务器:
python3 -m sglang.launch_server \
--model tencent/Hy3-preview \
--tp 8 \
--tool-call-parser hunyuan \
--reasoning-parser hunyuan \
--speculative-num-steps 1 \
--speculative-eagle-topk 1 \
--speculative-num-draft-tokens 2 \
--speculative-algorithm EAGLE \
--served-model-name hy3-previewHy3 preview 提供完整的模型训练流程,支持全量微调与 LoRA 微调,并集成了 DeepSpeed ZeRO 配置与 LLaMA-Factory。
详细训练文档请参考:训练指南
我们提供 AngelSlim——一款更易用、全面且高效的大模型压缩工具包。AngelSlim 支持面向大规模多模态模型的完整压缩工具集,包括常用量化算法、低位量化及投机采样。
Hy3 preview 根据 腾讯混元社区许可协议 发布。详情请参见 LICENSE。
如您希望向研发及产品团队留言,欢迎与我们联系。您也可以通过邮件与我们取得联系:
📧 hunyuan_opensource@tencent.com
Hy3 preview 由腾讯混元团队研发。