tencent_hunyuan/Sequential-Hidden-Decoding-8B-n4
模型介绍文件和版本Pull Requests讨论分析
下载使用量0

Sequential-Hidden-Decoding-8B-n4

这是n=4版本的序列隐藏解码(Sequential Hidden Decoding),这是一种通过仅增加嵌入参数就能将序列长度扩展n倍的方法——使用相同的Transformer,每个token需要更多计算。

  • 基础模型:Qwen3-8B-Base
  • 扩展倍数:4×
  • 额外嵌入参数:3.1B
  • 训练token量:150B
  • 数据类型:bfloat16

注意:这是一个基础模型(未进行指令微调)。它适用于基准测试、文本补全,以及作为下游微调(SFT/RLHF)的基础。对于对话或指令遵循类使用场景,请使用您自己的数据进行微调。

核心思想

准备n个独立的嵌入矩阵,将相同的token序列编码n次,将结果交错排列,并将n倍长度的序列输入到同一个Transformer中。每个token只有最后一个嵌入用于计算下一个token的损失,而前面的嵌入则在连续的 latent 空间中充当隐式推理步骤。

结果

基准测试提示次数8B基准模型8B扩展n=28B扩展n=48B扩展n=8
BBH(EM)3-shot78.881.383.083.9
MMLU(EM)5-shot79.880.981.982.2
MBPP+(Pass@1)1-shot66.769.468.769.4
MATH(LLM-judge)4-shot56.058.260.061.1
ARC-C25-shot93.994.394.494.7
Hellaswag10-shot79.783.185.085.3
GSM8K4-shot92.593.393.994.6

部署(SGLang)

该模型需要使用经过补丁的SGLang版本进行推理。有关安装选项(Docker镜像、分叉仓库或手动补丁),请参见项目页面。

python -m sglang.launch_server \
    --model-path tencent/Sequential-Hidden-Decoding-8B-n4 \
    --trust-remote-code \
    --tp-size 1 \
    --port 30000 --host 0.0.0.0 \
    --chunked-prefill-size -1 \
    --attention-backend fa3 \
    --mem-fraction-static 0.82 \
    --max-running-requests 32 \
    --context-length 131072 \
    --cuda-graph-max-bs 128 \
    --cuda-graph-bs 1 2 4 8 16 32 64 128
from openai import OpenAI

client = OpenAI(base_url="http://localhost:30000/v1", api_key="EMPTY")
response = client.completions.create(
    model="tencent/Sequential-Hidden-Decoding-8B-n4",
    prompt="The meaning of life is",
    max_tokens=128,
    temperature=0,
)
print(response.choices[0].text)

所有模型

模型规模嵌入参数训练 tokens
Sequential-Hidden-Decoding-8B-n22×1.9B75B
Sequential-Hidden-Decoding-8B-n44×3.1B150B
Sequential-Hidden-Decoding-8B-n88×5.6B187B

引用

@article{hidden_decoding_2026,
  title   = {Hidden Decoding: Scaling Sequence Length in Pretraining},
  year    = {2026},
  url     = {https://welm.weixin.qq.com/posts/hidden_decoding/}
}

许可协议

本模型依据Sequential-Hidden-Decoding 许可条款发布。