tencent_hunyuan/Hy3-preview
模型介绍文件和版本Pull Requests讨论分析
Hy3-preview/README_CN.md
下载
历史对比
11.7 KB

English | 中文



License    HuggingFace    ModelScope    cnb.cool    GitCode

🖥️ 官方网站  |   💬 GitHub


目录

  • 模型介绍
  • 亮点展示
  • 评测结果
    • 复杂推理(STEM & Reasoning)
    • 上下文学习和指令遵循(Context Learning & Instruction Following)
    • 代码和智能体(Code & Agent)
  • 新闻
  • 模型链接
  • 快速开始
  • 推理和部署
    • vLLM
    • SGLang
  • 模型训练
  • 量化工具
  • 许可证
  • 联系我们

模型介绍

Hy3 preview 是由腾讯混元团队研发的快慢思考融合的混合专家模型,总参数量 295B,激活参数 21B,MTP 层参数 3.8B。Hy3 preview 是我们重建后训练的第一个模型,也是混元迄今最智能的模型,在复杂推理、指令遵循、上下文学习、代码、智能体等能力及推理性能上实现了大幅的提升。

属性值
架构混合专家(MoE)
总参数量295B
激活参数量21B
MTP层参数量3.8B
层数(不含MTP层)80
MTP层数1
注意力头64(GQA,8 个 KV 头,head dim 128)
隐藏层维度4096
FFN 中间层维度13312
上下文长度256K
词表大小120832
专家数量192 个专家,top-8 激活
支持精度BF16

亮点展示

  • 复杂推理(STEM & Reasoning) — 推理能力是模型解决各种问题的基础。在 FrontierScience-Olympiad、IMOAnswerBench 等高难度理工科推理任务中表现突出,并在最新的清华大学求真书院数学博资考(26春)和全国中学生生物学联赛(CHSBO 2025)中取得优异成绩,展现出可泛化的强推理能力。

  • 上下文学习和指令遵循(Context Learning & Instruction Following) — 在各种真实的生产与生活场景,理解杂乱冗长的上下文并遵从复杂多变的规则是模型的首要挑战。基于我们多种业务场景的灵感,我们提出了 CL-bench 和 CL-bench-Life 来创新性地评估模型的上下文学习能力,并在 Hy3 preview 显著地提升了模型上下文学习和指令遵循能力。

  • 代码和智能体(Code & Agent) — Hy3 preview 提升最为显著的方向。得益于预训练及强化学习框架的重建和强化学习任务规模的提升,我们以较快的速度在 SWE-Bench Verified、Terminal-Bench 2.0 等主流代码智能体基准以及 BrowseComp、WideSearch 等主流搜索智能体基准中取得了强竞争力的结果。

评测结果

预训练模型效果

CategoryBenchmark (Metric)# ShotsKimi-K2 BASEDeepSeek-V3 BASEGLM-4.5 BASEHy3 preview-Base
#ActivatedParams-32B37B32B21B
#TotalParams-1043B671B355B295B
EnglishMMLU5-shot88.2487.6887.7387.42
MMLU-Pro5-shot65.9863.9863.6765.76
MMLU-Redux5-shot87.1886.8186.5686.86
ARC-Challenge0-shot96.6694.6596.3295.99
DROP5-shot86.4086.5082.9085.50
PIQA4-shot84.9384.2284.7184.39
SuperGPQA5-shot51.1046.1749.6451.60
SimpleQA5-shot34.3726.1529.2626.47
CodeMBPP-plus3-shot81.3575.4778.0578.71
CRUXEval-I3-shot68.0167.7968.5171.19
CRUXEval-O3-shot69.6271.0067.7568.38
LiveCodeBench-v61-shot30.8629.3127.4334.86
MathGSM8K4-shot93.4688.1590.0695.37
MATH4-shot71.2059.3761.0076.28
CMath4-shot90.8385.5089.3391.17
ChineseC-Eval5-shot91.5190.3585.8489.80
CMMLU5-shot90.7287.9086.4689.61
Chinese-simpleQA5-shot74.5868.7268.4969.73
MultilingualMMMLU5-shot77.6379.5479.2680.15
INCLUDE5-shot75.6677.8676.2778.64

Instruct 模型效果

复杂推理(STEM & Reasoning)

推理能力是模型解决各种问题的基础。Hy3 preview 在 FrontierScience-Olympiad、IMOAnswerBench 等高难度理工科推理任务中表现突出,并在最新的清华大学求真书院数学博资考(26春)和全国中学生生物学联赛(CHSBO 2025)中取得优异成绩,展现出可泛化的强推理能力。

STEM & Reasoning 评测结果

上下文学习和指令遵循(Context Learning & Instruction Following)

在各种真实的生产与生活场景,理解杂乱冗长的上下文并遵从复杂多变的规则是模型的首要挑战。基于我们多种业务场景的灵感,我们提出了 CL-bench 和 CL-bench-Life 来创新性地评估模型的上下文学习能力,并在 Hy3 preview 显著地提升了模型上下文学习和指令遵循能力。

上下文学习和指令遵循评测结果

代码和智能体(Code & Agent)

代码和智能体是 Hy3 preview 提升最为显著的方向。得益于预训练及强化学习框架的重建和强化学习任务规模的提升,我们以较快的速度在 SWE-Bench Verified、Terminal-Bench 2.0 等主流代码智能体基准以及 BrowseComp、WideSearch 等主流搜索智能体基准中取得了强竞争力的结果。

Agent 评测总览

在数字世界中,代码关注的是模型在开发环境中的执行能力,搜索则聚焦于开放信息空间中的检索、筛选与整合能力,两者共同决定了模型在复杂智能体场景(例如 OpenClaw)中是否真正具备可用性。Hy3 preview 在 ClawEval 和 WildClawBench 等评测中表现突出,进一步表明我们的智能体能力的全面与实用性。

Claw Agent 评测

除了公开榜单,我们进一步构建了多个内部的评测集,对模型在真实开发场景中的表现进行评估。结果表明,无论是在后端工程任务集 Hy-Backend,贴近真实用户开发交互的 Hy-Vibe Bench,还是高难度软件工程开发任务集 Hy-SWE Max 上,Hy3 preview 均体现出了强竞争力。

内部评测结果

新闻

  • [2026-04-23] 🔥 我们在 Hugging Face、ModelScope 和 GitCode 开源了 Hy3 preview 模型权重。

模型链接

模型名简介Hugging FaceModelScopeGitCode
Hy3 previewInstruct 模型🤗 ModelModelModel
Hy3 preview-Base预训练基座模型🤗 ModelModelModel

快速开始

建议先通过 vLLM 或 SGLang 部署服务,然后通过 OpenAI 兼容 API 调用:

from openai import OpenAI

client = OpenAI(base_url="http://localhost:8000/v1", api_key="EMPTY")

response = client.chat.completions.create(
    model="tencent/Hy3-preview",
    messages=[
        {"role": "user", "content": "你好!请简单介绍一下你自己。"},
    ],
    temperature=0.9,
    top_p=1.0,
    # reasoning_effort: "no_think"(默认,直接回复)、"low"、"high"(深度思维链)
    extra_body={"chat_template_kwargs": {"reasoning_effort": "no_think"}},
)
print(response.choices[0].message.content)

推荐参数:temperature=0.9,top_p=1.0。

推理模式:复杂任务(数学、编程、推理)建议设置 reasoning_effort="high",日常对话可使用默认的 "no_think" 直接回复。

具体部署方式请参考下方推理和部署章节。

推理和部署

Hy3-preview 总参数量为 295B,当使用 8 张 GPU 时,建议使用 H20-3e 或其他有更大显存的卡型。

vLLM

从源码构建 vLLM:

uv venv --python 3.12 --seed --managed-python
source .venv/bin/activate
git clone https://github.com/vllm-project/vllm.git
cd vllm
uv pip install --editable . --torch-backend=auto

启动 vLLM 服务,开启 MTP:

vllm serve tencent/Hy3-preview \
  --tensor-parallel-size 8 \
  --speculative-config.method mtp \
  --speculative-config.num_speculative_tokens 1 \
  --tool-call-parser hy_v3 \
  --reasoning-parser hy_v3 \
  --enable-auto-tool-choice \
  --served-model-name hy3-preview

SGLang

从源码构建 SGLang:

git clone https://github.com/sgl-project/sglang
cd sglang
pip3 install pip --upgrade
pip3 install "transformers>=5.6.0"
pip3 install -e "python"

启动 SGLang 服务,开启 MTP:

python3 -m sglang.launch_server \
  --model tencent/Hy3-preview \
  --tp 8 \
  --tool-call-parser hunyuan \
  --reasoning-parser hunyuan \
  --speculative-num-steps 1 \
  --speculative-eagle-topk 1 \
  --speculative-num-draft-tokens 2 \
  --speculative-algorithm EAGLE \
  --served-model-name hy3-preview

模型训练

Hy3 preview 提供了完整的模型训练流程,支持全量微调和 LoRA 微调,同时支持 DeepSpeed ZeRO 多种配置以及 LLaMA-Factory 集成。

详细的训练文档请参考:模型训练指南

量化工具

我们提供了 AngelSlim——一套易用、全面、高效的大模型压缩工具包,涵盖常用量化算法、低比特量化和投机采样等能力。

许可证

Hy3 preview 基于 腾讯混元社区许可协议 发布。详情请参阅 LICENSE。

联系我们

如有问题或建议,欢迎通过邮件联系我们:

📧 hunyuan_opensource@tencent.com


Hy3 preview 由腾讯混元团队研发。