HY-Embodied-0.5-X

面向现实世界智能体的增强型具身基础模型

腾讯Robotics X × 混元视觉团队

HY-Embodied-0.5-X 是由腾讯Robotics X与混元视觉团队联合发布的增强型开源具身基础模型。该模型构建于 HY-Embodied-0.5 MoT-2B 架构之上（总参数40亿，激活参数仅20亿），专门针对现实世界机器人的核心循环——"理解、推理、行动" 进行了优化。

该模型在10项主流具身任务规划基准测试中均达到了当前最佳性能，在其中7项测试中位列边缘端领域模型榜首。与HY-Embodied-0.5相比，HY-Embodied-0.5-X更专注于现实世界机器人交互中的关键问题，在细粒度操作理解、空间推理、动作预测、风险评估、多模态指代接地及长程规划等方面进行了针对性改进，推动模型从"看见"迈向"行动"。

🔥 更新动态

[2026-04-24] 🚀 发布 HY-Embodied-0.5-X，这是在HY-Embodied-0.5 MoT-2B基础上针对具身能力的增强版本，同时开放推理与训练代码。

⭐️ 核心特性

🧠 更强的空间理解能力 — 精准推理物体位置、场景布局、相对空间关系及操作状态，为动作决策提供可靠的感知基础。
🔗 更强的长程规划能力 — 能够处理多步骤、强依赖的复杂任务，在连续交互过程中生成稳定的任务分解、动作规划与执行决策。
🤖 更强的具身交互能力 — 超越视觉理解与对话功能，支持任务解析、指代消解、动作决策、风险判断及失败反思，紧密匹配真实机器人交互闭环。
📦 边缘端友好 — 基于MoT-2B架构（总参数40亿/激活参数20亿），适合端侧部署与实时响应。

🛠️ 安装

项目	要求
操作系统	Linux
Python	3.12
CUDA	12.6
PyTorch	2.10.0
显卡	显存 ≥ 16 GB 的 NVIDIA 显卡

安装能够原生注册HY-Embodied的特定transformers提交版本，然后安装常用的PyTorch/视觉依赖：

pip install git+https://github.com/huggingface/transformers@9293856c419762ebf98fbe2bd9440f9ce7069f1a
pip install torch==2.10.0 torchvision==0.25.0 --index-url https://download.pytorch.org/whl/cu126
pip install accelerate safetensors Pillow

🚀 使用 Transformers 快速开始

使用纯 transformers 进行最小化单图像推理。首次使用时，模型会从 Hub 自动下载。

import torch
from transformers import AutoModelForImageTextToText, AutoProcessor

MODEL_PATH = "tencent/HY-Embodied-0.5-X"
DEVICE = "cuda"
THINKING_MODE = True
TEMPERATURE = 0.05

processor = AutoProcessor.from_pretrained(MODEL_PATH)
model = AutoModelForImageTextToText.from_pretrained(
    MODEL_PATH,
    torch_dtype=torch.bfloat16,
).to(DEVICE).eval()

messages = [
    {
        "role": "user",
        "content": [
            {"type": "image", "image": "./demo.jpg"},
            {"type": "text", "text": "Describe the image in detail."},
        ],
    }
]

inputs = processor.apply_chat_template(
    messages,
    tokenize=True,
    add_generation_prompt=True,
    return_dict=True,
    return_tensors="pt",
    enable_thinking=THINKING_MODE,
).to(model.device)

with torch.no_grad():
    generated_ids = model.generate(
        **inputs,
        max_new_tokens=32768,
        use_cache=True,
        temperature=TEMPERATURE,
        do_sample=TEMPERATURE > 0,
    )

output_ids = [out[len(inp):] for inp, out in zip(inputs.input_ids, generated_ids)]
print(processor.batch_decode(output_ids, skip_special_tokens=True)[0])

坐标与响应格式

点：(x, y) 或 [(x1, y1), (x2, y2)]
框：[xmin, ymin, xmax, ymax]
坐标归一化到整数范围 (0, 1000)。
在思考模式下，响应格式为 </think>[reasoning]</RichMediaReference>superscript:[answer]superscript:。

🔧 SFT 微调及更多推理模式

关于SFT 微调（单节点/多节点、DeepSpeed ZeRO-2、FSDP）、批量推理、多图像/视频输入、封装的 HyEmbodiedPipeline API、CLI 入口点、数据格式规范以及发布版本中使用的完整训练数据混合，请参见官方 GitHub 仓库：

👉 https://github.com/Tencent-Hunyuan/HY-Embodied-0.5-X

最小化微调代码片段（克隆仓库并配置环境后）：

# Smoke-test on bundled samples
CUDA_VISIBLE_DEVICES=0 python -m hy_embodied.cli.train \
    --config configs/sft/example_small_single_gpu.yaml

# 1 node × 8 GPUs with DeepSpeed ZeRO-2
bash scripts/run_sft_1node_8gpu.sh

详见 docs/training.md、docs/inference.md 和 docs/data_format.md 以获取完整参考。

📊 评估

总体基准测试结果

在涵盖规划、空间推理、具身问答、视觉指代和轨迹理解的 10 项开源基准测试 中，HY-Embodied-0.5-X 均处于顶级水平。

与同尺寸开源模型的对比

AI2Thor 具身规划基准测试

在内部 AI2Thor 具身规划基准测试（四个家庭场景中的 1,011 项任务）上的额外结果显示，模型在长程操作、自我感知和空间理解方面均有显著提升：

🎯 应用场景

家庭服务/桌面操作——真实环境中的空间推理、细粒度操作推理、任务理解及故障反思。
任务规划与模拟评估——模拟环境下的规划评估与多模态交互研究。
本地部署与开发——具身能力的端侧验证及下游开发。

📚 引用

@article{tencent2026hyembodied05x,
  title   = {HY-Embodied-0.5-X: An Enhanced Embodied Foundation Model for Real-World Agents},
  author  = {Tencent Robotics X and HY Vision Team},
  year    = {2026}
}

🙏 致谢

感谢Hugging Face社区以及所有开源贡献者。通过开源HY-Embodied-0.5-X，我们希望为具身智能社区提供一个更面向部署的基础，推动模型从“通用理解”迈向“现实世界执行”。