"曾经的想象,如今已成现实"
https://github.com/user-attachments/assets/b56f4750-25c9-48fb-83ff-d58526711463
HY-World 2.0 是一个用于世界生成和世界重建的多模态世界模型框架。它支持多种输入模态——文本、单视角图像、多视角图像和视频,并能生成三维世界表示(网格/高斯 splatting)。其核心功能包括:
HY-World 2.0 是开源的最先进世界模型。我们发布了所有模型权重、代码和技术细节,以促进该领域的可复现性研究和发展。
现有的世界模型,如 Genie 3、Cosmos 和 HY-World 1.5(WorldPlay+WorldCompass),生成的是像素级视频——本质上是“观看一部电影”,播放结束后便不复存在。HY-World 2.0 采用了根本不同的方法:它直接生成可编辑、持久化的三维资产(网格/3DGS),可导入 Blender/Unity/Unreal Engine/Isaac Sim 等游戏引擎——更像是“构建一个可玩的游戏”而非录制一段视频。这种范式转变从根本上解决了视频世界模型的许多长期痛点:
| 视频世界模型 | 三维世界模型(HY-World 2.0) | |
|---|---|---|
| 输出 | 像素视频(不可编辑) | 真实三维资产——网格/3DGS(完全可编辑) |
| 可玩时长 | 有限(通常 1 分钟) | 无限——资产永久保存 |
| 三维一致性 | 无(视图间闪烁、伪影) | 原生——本质上具有三维一致性 |
| 实时渲染 | 需要逐帧推理;高延迟 | 消费级 GPU 可实时渲染 |
| 可控性 | 弱(角色控制不精确,无真实物理效果) | 精确——零误差控制、真实物理碰撞、准确光照 |
| 推理成本 | 随每次交互累积 | 一次性生成;渲染成本≈0 |
| 引擎兼容性 | ✗ 仅支持视频文件 | ✓ 可直接导入 Blender / UE / Isaac Engine |
![]() | ![]() |
![]() | ![]() |
以上均为 真实三维资产(非生成视频),完全由 HY-World 2.0 创建——从实时交互中捕获。
真实3D世界,不止于视频
不同于仅生成视频的世界模型(例如 Genie 3、HY World 1.5),HY-World 2.0 能够生成真实的3D资产——3DGS、网格和点云,这些资产可自由探索、编辑,并能直接导入Unity / Unreal Engine / Isaac。通过单个文本提示或图像,即可创建具有多种风格的可导航3D世界:写实、卡通、游戏等。
从照片和视频快速重建3D
由WorldMirror 2.0提供技术支持,这是一个统一的前馈模型,可在单次前向传播中从多视图图像或普通视频中预测密集点云、深度图、表面法线、相机参数和3DGS。支持灵活分辨率推理(50K–500K像素),并具备SOTA精度。拍摄一段视频,即可获得数字孪生体。
交互式角色探索
超越单纯的观看——在你生成的世界中畅游。HY-World 2.0 支持第一人称导航和第三人称角色模式,用户能够借助基于物理的碰撞检测,自由探索AI生成的街道、建筑和景观。请前往我们的产品页面免费试用()。
更多细节请参考我们的技术报告
HY-World 2.0 的系统化流程——全景生成(HY-Pano-2.0)→ 轨迹规划(WorldNav)→ 世界扩展(WorldStereo 2.0)→ 世界合成(WorldMirror 2.0 + 可微辐射场学习)——可自动将文本或单张图像转换为高保真、可导航的3D世界(输出3DGS/网格)。
| 模型 | 描述 | 参数规模 | 日期 | Hugging Face |
|---|---|---|---|---|
| WorldMirror-2 [新增] | 多视角/视频 → 3D 重建 | ~1.2B | 2026 | 下载 |
| WorldMirror-1 | 多视角/视频 → 3D 重建(旧版本) | ~1.2B | 2025 | 下载 |
| 模型 | 描述 | 参数规模 | 日期 | Hugging Face |
|---|---|---|---|---|
| HY-Pano-2 [新增] | 文本/图像 → 360° 全景图 | ~80B | 2026 | 下载 |
| HY-Pano-2-Qwen [新增] | 文本/图像 → 360° 全景图 | ~425M | 2026 | 下载 |
| 模型 | 描述 | 参数规模 | 日期 | Hugging Face |
|---|---|---|---|---|
| WorldStereo-2 [新增] | 全景图 → 3DGS 世界 | ~17B | 2026 | 下载 |
建议参考我们之前的工作 WorldStereo 和 WorldMirror,以获取 3D 世界生成与重建的背景知识。
推荐使用 CUDA 12.8 和 Python 3.11+。最简单的方式是准备一个共享环境,首先确保 世界重建(WorldMirror 2.0) 能正常运行,然后再安装 世界生成 所需的额外组件。
git clone https://github.com/Tencent-Hunyuan/HY-World-2.0
cd HY-World-2.0
conda create -n hyworld2 python=3.11.15
conda activate hyworld2完成此步骤后,环境即准备就绪,可用于worldrecon / WorldMirror 2.0。
# Base dependencies shared by worldrecon and worldgen
pip install -r requirements.txt
# Recommended: install the custom gsplat variant once for both worldrecon and worldgen
cd hyworld2/worldgen/third_party/gsplat_maskgaussian
pip install -e . --no-build-isolation
cd ../../../../如果您只需要 worldrecon 并希望使用更简单的备用方案,官方 gsplat 同样受支持:
pip install git+https://github.com/nerfstudio-project/gsplat.git安装一个 FlashAttention 后端:
# Recommended for Hopper GPUs: FlashAttention-3
git clone https://github.com/Dao-AILab/flash-attention.git
cd flash-attention/hopper
python setup.py install
cd ../../
rm -rf flash-attention# Simpler alternative: FlashAttention-2
pip install flash-attn --no-build-isolation仅在需要worldgen时运行以下额外步骤。这些命令假定上述共享的hyworld2环境已激活。
# Git-based dependencies require torch/CUDA to be installed first
pip install --no-build-isolation -r requirements_git.txt
# recastnavigation is managed as a git submodule
git submodule update --init --recursive
# Recast navmesh extension for trajectory planning
cd hyworld2/worldgen/third_party/navmesh
pip install . --no-build-isolation
cd ../../../../关于HY-Pano-2的安装,请参考**hyworld2/panogen/README.md**。
完整文档和命令行界面参考,请参见**hyworld2/panogen/README.md**。
我们为HY-Pano 2.0提供了类diffusers的Python API。模型权重会在首次运行时从Hugging Face自动下载。
from pipeline import HunyuanPanoPipeline
pipeline = HunyuanPanoPipeline.from_pretrained('tencent/HY-World-2.0')
output = pipeline('input.png')
output.save('output_panorama.png')世界生成流水线通过五个阶段将全景场景转换为可导航的 3D 世界:
| 阶段 | 脚本 | 描述 |
|---|---|---|
| 1. 轨迹规划 | traj_generate.py | 基于 VLM 的相机轨迹规划,具备障碍物感知导航功能 |
| 2. 轨迹渲染 | traj_render.py | 沿规划轨迹进行多 GPU 点云渲染 |
| 3. 世界扩展 | video_gen.py | 具有内存引导一致性的 WorldStereo-2 关键帧生成 |
| 4. GS 数据准备 | gen_gs_data.py | 提取用于 3DGS 训练的帧、对齐深度、法线和相机数据 |
| 5. 3DGS 训练 | world_gs_trainer.py | 优化并导出最终的高斯溅射(Gaussian Splatting)世界 |
有关完整文档、先决条件和 CLI 参数,请参见 hyworld2/worldgen/README.md。
WorldMirror 2.0 支持以下使用模式:
我们为 WorldMirror 2.0 提供了类 diffusers 的 Python API。模型权重在首次运行时会从 Hugging Face 自动下载。
from hyworld2.worldrecon.pipeline import WorldMirrorPipeline
pipeline = WorldMirrorPipeline.from_pretrained('tencent/HY-World-2.0')
result = pipeline('path/to/images')带先验注入(相机和深度):
result = pipeline(
'path/to/images',
prior_cam_path='path/to/prior_camera.json',
prior_depth_path='path/to/prior_depth/',
)有关相机/深度先验的详细结构及其准备方法,请参见《先验准备指南》(DOCUMENTATION.md#prior-injection)。
命令行界面:
# Single GPU
python -m hyworld2.worldrecon.pipeline --input_path path/to/images
# Multi-GPU
torchrun --nproc_per_node=2 -m hyworld2.worldrecon.pipeline \
--input_path path/to/images \
--use_fsdp --enable_bf16重要提示: 在多 GPU 模式下,输入图像的数量必须大于等于 GPU 的数量。例如,当设置
--nproc_per_node=8时,至少需要提供 8 张图像。
我们为 WorldMirror 2.0 提供了一个交互式的 Gradio 网页演示。上传图像或视频,即可在浏览器中可视化 3DGS、点云、深度图、法向图以及相机参数。
# Single GPU
python -m hyworld2.worldrecon.gradio_app
# Multi-GPU
torchrun --nproc_per_node=2 -m hyworld2.worldrecon.gradio_app \
--use_fsdp --enable_bf16有关 Gradio 应用参数(端口、共享、本地检查点等)的完整列表,请参见 DOCUMENTATION.md。
完整的基准测试结果,请参考 技术报告。
| 方法 | 相机指标 | 视觉质量 | |||||
|---|---|---|---|---|---|---|---|
| 旋转误差 ↓ | 平移误差 ↓ | 绝对轨迹误差 ↓ | Q-Align ↑ | CLIP-IQA+ ↑ | Laion-Aes ↑ | CLIP-I ↑ | |
| SEVA | 1.690 | 1.578 | 2.879 | 3.232 | 0.479 | 4.623 | 77.16 |
| Gen3C | 0.944 | 1.580 | 2.789 | 3.353 | 0.489 | 4.863 | 82.33 |
| WorldStereo | 0.762 | 1.245 | 2.141 | 4.149 | 0.547 | 5.257 | 89.05 |
| WorldStereo 2.0 | 0.492 | 0.968 | 1.768 | 4.205 | 0.544 | 5.266 | 89.43 |
| 方法 | Tanks-and-Temples | MipNeRF360 | ||||||
|---|---|---|---|---|---|---|---|---|
| 精确率 ↑ | 召回率 ↑ | F1分数 ↑ | AUC ↑ | 精确率 ↑ | 召回率 ↑ | F1分数 ↑ | AUC ↑ | |
| SEVA | 33.59 | 35.34 | 36.73 | 51.03 | 22.38 | 55.63 | 28.75 | 46.81 |
| Gen3C | 46.73 | 25.51 | 31.24 | 42.44 | 23.28 | 75.37 | 35.26 | 52.10 |
| Lyra | 50.38 | 28.67 | 32.54 | 43.05 | 30.02 | 58.60 | 36.05 | 49.89 |
| FlashWorld | 26.58 | 20.72 | 22.29 | 30.45 | 35.97 | 53.77 | 42.60 | 53.86 |
| WorldStereo 2.0 | 43.62 | 41.02 | 41.43 | 58.19 | 43.19 | 65.32 | 51.27 | 65.79 |
| WorldStereo 2.0 (DMD) | 40.41 | 44.41 | 43.16 | 60.09 | 42.34 | 64.83 | 50.52 | 65.64 |
在7-Scenes、NRGBD和DTU数据集上的点云重建。我们报告了WorldMirror在不同输入配置下的平均精度(Accuracy)和完整性(Completeness)。粗体结果为最佳结果。“L/M/H”分别表示低/中/高推理分辨率。“+ all priors”表示注入相机外参、相机内参和深度先验。
| 方法 | 7-Scenes (场景) | NRGBD (场景) | DTU (物体) | |||
|---|---|---|---|---|---|---|
| 精度 ↓ | 完整性 ↓ | 精度 ↓ | 完整性 ↓ | 精度 ↓ | 完整性 ↓ | |
| WorldMirror 1.0 | ||||||
| L | 0.043 | 0.055 | 0.046 | 0.049 | 1.476 | 1.768 |
| L + 所有先验 | 0.021 | 0.026 | 0.022 | 0.020 | 1.347 | 1.392 |
| M | 0.043 | 0.049 | 0.041 | 0.045 | 1.017 | 1.780 |
| M + 所有先验 | 0.018 | 0.023 | 0.016 | 0.014 | 0.735 | 0.935 |
| H | 0.079 | 0.087 | 0.077 | 0.093 | 2.271 | 2.113 |
| H + 所有先验 | 0.042 | 0.041 | 0.078 | 0.082 | 1.773 | 1.478 |
| WorldMirror 2.0 | ||||||
| L | 0.041 | 0.052 | 0.047 | 0.058 | 1.352 | 2.009 |
| L + 所有先验 | 0.019 | 0.024 | 0.017 | 0.015 | 1.100 | 1.201 |
| M | 0.033 | 0.046 | 0.039 | 0.047 | 1.005 | 1.892 |
| M + 所有先验 | 0.013 | 0.017 | 0.013 | 0.013 | 0.690 | 0.876 |
| H | 0.037 | 0.040 | 0.046 | 0.053 | 0.845 | 1.904 |
| H + 所有先验 | 0.012 | 0.016 | 0.015 | 0.016 | 0.554 | 0.771 |
不同先验条件下与 Pow3R 和 MapAnything 的对比。 结果在 7-Scenes、NRGBD 和 DTU 数据集上取平均值。Pow3R (pro) 指采用 Procrustes 配准的原始 Pow3R。
![]() | ![]() |
![]() | ![]() |
![]() | ![]() |
有关详细的使用指南、参数参考、输出格式规范以及先验注入说明,请参见 DOCUMENTATION.md。
如果您发现 HunyuanWorld 2.0 对您的研究有所帮助,请引用:
@article{hyworld22026,
title={HY-World 2.0: A Multi-Modal World Model for Reconstructing, Generating, and Simulating 3D Worlds},
author={Team HY-World},
journal={arXiv preprint arXiv:2604.14268},
year={2026}
}
@article{hunyuanworld2025tencent,
title={HunyuanWorld 1.0: Generating Immersive, Explorable, and Interactive 3D Worlds from Words or Pixels},
author={Team HunyuanWorld},
year={2025},
journal={arXiv preprint}
}如有任何问题或反馈,请发送邮件至 tengfeiwang12@gmail.com。
我们要感谢 HunyuanWorld 1.0、WorldMirror、WorldPlay、WorldStereo、HunyuanImage 所做出的杰出贡献。