中文 | English
Hy3 preview是由腾讯混元团队研发的混合专家(Mixture-of-Experts, MoE)模型,总参数量达2950亿,激活参数量为210亿,MTP层参数量为38亿。作为在全新重构基础设施上训练的首款模型,Hy3 preview是目前我们对外发布的性能最强模型,在复杂推理、指令遵循、上下文学习、代码生成及智能体任务等方面均实现显著提升。
| 属性 | 数值 |
|---|---|
| 模型架构 | 混合专家(Mixture-of-Experts, MoE) |
| 总参数量 | 295B |
| 激活参数量 | 21B |
| MTP层参数量 | 3.8B |
| 网络层数(不含MTP层) | 80 |
| MTP层数 | 1 |
| 注意力头数 | 64(GQA,8个KV头,头维度128) |
| 隐藏层维度 | 4096 |
| 中间层维度 | 13312 |
| 上下文长度 | 256K |
| 词表大小 | 120832 |
| 专家数量 | 192个专家,激活Top-8 |
| 支持精度 | BF16 |
STEM 与推理能力——复杂推理是一切能力的基础。Hy3 preview 在 FrontierScience-Olympiad、IMOAnswerBench 等极具挑战性的 STEM 基准测试中表现优异,在清华大学求真书院 2026 年春季数学博士资格考试及 2025 年全国中学生生物学奥林匹克竞赛(CHSBO 2025)中亦取得出色成绩,充分展现了其可泛化的推理能力。
上下文学习与指令遵循——现实世界任务要求模型具备解析繁杂冗长上下文并遵循复杂规则的能力。我们基于自身业务场景构建了 CL-bench 和 CL-bench-Life 基准,创新性地衡量上下文学习能力。Hy3 preview 在上下文学习和指令遵循能力两方面均实现了显著提升。
代码与智能体——代码能力与智能体能力的提升最为显著。通过重构强化学习(RL)基础设施并扩大训练任务规模,我们在主流代码智能体基准(SWE-bench Verified、Terminal-Bench 2.0)和搜索智能体基准(BrowseComp、WideSearch)上均取得了具有竞争力的成绩。
| 类别 | 基准测试(指标) | 提示词数量 | Kimi-K2 BASE | DeepSeek-V3 BASE | GLM-4.5 BASE | Hy3 preview-Base |
|---|---|---|---|---|---|---|
| 激活参数数量 | - | 320 亿 | 370 亿 | 320 亿 | 210 亿 | |
| 总参数数量 | - | 10430 亿 | 6710 亿 | 3550 亿 | 2950 亿 | |
| 英语能力 | MMLU | 5-shot | 88.24 | 87.68 | 87.73 | 87.42 |
| MMLU-Pro | 5-shot | 65.98 | 63.98 | 63.67 | 65.76 | |
| MMLU-Redux | 5-shot | 87.18 | 86.81 | 86.56 | 86.86 | |
| ARC-Challenge | 0-shot | 96.66 | 94.65 | 96.32 | 95.99 | |
| DROP | 5-shot | 86.40 | 86.50 | 82.90 | 85.50 | |
| PIQA | 4-shot | 84.93 | 84.22 | 84.71 | 84.39 | |
| SuperGPQA | 5-shot | 51.10 | 46.17 | 49.64 | 51.60 | |
| SimpleQA | 5-shot | 34.37 | 26.15 | 29.26 | 26.47 | |
| 代码能力 | MBPP-plus | 3-shot | 81.35 | 75.47 | 78.05 | 78.71 |
| CRUXEval-I | 3-shot | 68.01 | 67.79 | 68.51 | 71.19 | |
| CRUXEval-O | 3-shot | 69.62 | 71.00 | 67.75 | 68.38 | |
| LiveCodeBench-v6 | 1-shot | 30.86 | 29.31 | 27.43 | 34.86 | |
| 数学能力 | GSM8K | 4-shot | 93.46 | 88.15 | 90.06 | 95.37 |
| MATH | 4-shot | 71.20 | 59.37 | 61.00 | 76.28 | |
| CMath | 4-shot | 90.83 | 85.50 | 89.33 | 91.17 | |
| 中文能力 | C-Eval | 5-shot | 91.51 | 90.35 | 85.84 | 89.80 |
| CMMLU | 5-shot | 90.72 | 87.90 | 86.46 | 89.61 | |
| Chinese-simpleQA | 5-shot | 74.58 | 68.72 | 68.49 | 69.73 | |
| 多语言能力 | MMMLU | 5-shot | 77.63 | 79.54 | 79.26 | 80.15 |
| INCLUDE | 5-shot | 75.66 | 77.86 | 76.27 | 78.64 |
复杂推理是一切能力的基础。Hy3-preview在前沿科学奥林匹克(FrontierScience-Olympiad)、国际数学奥林匹克答案基准(IMOAnswerBench)等挑战性STEM基准测试中表现优异。它在2026年春季清华大学求真书院数学博士资格考试以及2025年全国中学生生物学奥林匹克竞赛(CHSBO 2025)中也取得了出色成绩,展现出高度可泛化的推理能力。

现实世界的任务要求模型具备解析杂乱冗长上下文并遵循复杂规则的能力。我们基于自身业务场景构建了CL-bench和CL-bench-Life,以创新性地衡量上下文学习能力。Hy3-preview在上下文学习和指令遵循能力两方面均取得了显著提升。

代码和智能体能力的提升最为显著。通过重建强化学习(RL)基础设施并扩大训练任务规模,我们在主流代码智能体基准测试(SWE-bench Verified、Terminal-Bench 2.0)和搜索智能体基准测试(BrowseComp、WideSearch)中均取得了具有竞争力的分数。

编码能力关乎模型能否在开发环境中执行,搜索能力则关乎模型能否从开放网络中查找并整合信息。这两者对于OpenClaw等复杂智能体场景都至关重要。Hy3-preview在ClawEval和WildClawBench上得分优异,表明其智能体能力已具备实际应用价值。

除了公开基准测试外,我们还构建了内部评估集,以测试模型在实际开发场景中的表现。在Hy-Backend(后端重点任务)、Hy-Vibe Bench(真实用户开发工作流)和Hy-SWE Max上,Hy3-preview与其他开源模型相比,得分具有竞争力。

首先使用 vLLM 或 SGLang 部署 Hy3 preview,然后调用兼容 OpenAI 的 API:
from openai import OpenAI
client = OpenAI(base_url="http://localhost:8000/v1", api_key="EMPTY")
response = client.chat.completions.create(
model="tencent/Hy3-preview",
messages=[
{"role": "user", "content": "Hello! Can you briefly introduce yourself?"},
],
temperature=0.9,
top_p=1.0,
# reasoning_effort: "no_think" (default, direct response), "low", "high" (deep chain-of-thought)
extra_body={"chat_template_kwargs": {"reasoning_effort": "no_think"}},
)
print(response.choices[0].message.content)推荐参数:
temperature=0.9,top_p=1.0。推理模式:对于复杂任务(数学、编码、推理),将
reasoning_effort设置为"high";若需直接响应,则设置为"no_think"。
有关如何启动 API 服务器的信息,请参见下文的 部署 部分。
Hy3-preview 总计包含 2950 亿参数。若要在 8 块 GPU 上部署服务,建议使用 H20-3e 或其他内存容量更大的 GPU。
从源码构建 vLLM:
uv venv --python 3.12 --seed --managed-python
source .venv/bin/activate
git clone https://github.com/vllm-project/vllm.git
cd vllm
uv pip install --editable . --torch-backend=auto启用 MTP 启动 vLLM 服务器:
vllm serve tencent/Hy3-preview \
--tensor-parallel-size 8 \
--speculative-config.method mtp \
--speculative-config.num_speculative_tokens 1 \
--tool-call-parser hy_v3 \
--reasoning-parser hy_v3 \
--enable-auto-tool-choice \
--served-model-name hy3-preview从源代码构建 SGLang:
git clone https://github.com/sgl-project/sglang
cd sglang
pip3 install pip --upgrade
pip3 install "transformers>=5.6.0"
pip3 install -e "python"启动启用 MTP 的 SGLang 服务器:
python3 -m sglang.launch_server \
--model tencent/Hy3-preview \
--tp 8 \
--tool-call-parser hunyuan \
--reasoning-parser hunyuan \
--speculative-num-steps 1 \
--speculative-eagle-topk 1 \
--speculative-num-draft-tokens 2 \
--speculative-algorithm EAGLE \
--served-model-name hy3-previewHy3 preview 提供完整的模型训练流程,支持全量微调与 LoRA 微调,并集成了 DeepSpeed ZeRO 配置及 LLaMA-Factory。
有关详细的训练文档,请参考:训练指南
我们提供 AngelSlim——一款更易用、全面且高效的大模型压缩工具包。AngelSlim 支持面向大规模多模态模型的全套压缩工具,包括常用量化算法、低位量化及推测采样。
Hy3 preview 基于 腾讯混元社区许可协议 发布。详情请参见 LICENSE。
如果您希望向我们的研发和产品团队留言,欢迎与我们联系。您也可以通过以下邮箱与我们取得联系:
📧 hunyuan_opensource@tencent.com
Hy3 preview 由腾讯混元团队开发。