EN | 中文
尽管多模态基础模型已取得显著进展,但在空间智能方面仍存在明显不足。 本研究基于成熟的多模态基础,包括视觉理解模型(如Qwen3-VL、InternVL3)和统一理解生成模型(如Bagel),从尺度效应(Scaling)的视角构建了SenseNova-SI系列模型。 我们采用系统化方法构建了包含800万样本的SenseNova-SI-8M数据集,通过严格的空间能力分类体系培养高性能、高鲁棒性的空间能力。 该系列模型在多项空间智能基准测试中取得突破性表现,同时保持强大的通用多模态理解能力。 本研究进一步分析了数据规模的影响,揭示了多样化数据训练带来的涌现泛化能力,探讨了过拟合与语言捷径的风险,提出了空间思维链推理的初步研究,并验证了下游应用潜力。 SenseNova-SI是一个持续迭代的项目,所有新训练的多模态空间智能基础模型均将陆续开源,以推动空间智能领域的研究发展。 后续 SenseNova-SI 将与更大规模的内部模型进行集成。
| 模型 | 基础架构 | 数据集规模 | 其他说明 |
|---|---|---|---|
| SenseNova-SI-1.4-InternVL3-8B | InternVL3 | 29M | 擅长 grounding 与深度估计任务 |
| SenseNova-SI-1.3-InternVL3-8B | InternVL3 | 14M | 最优模型,擅长开放式简答题 |
| SenseNova-SI-1.2-InternVL3-8B | InternVL3 | 10M | - |
| SenseNova-SI-1.1-InternVL3-8B | InternVL3 | 8M | - |
| SenseNova-SI-1.1-InternVL3-2B | InternVL3 | 8M | - |
| SenseNova-SI-1.1-Qwen3-VL-8B | Qwen3-VL | 8M | - |
| SenseNova-SI-1.1-Qwen2.5-VL-7B | Qwen2.5-VL | 8M | - |
| SenseNova-SI-1.1-Qwen2.5-VL-3B | Qwen2.5-VL | 8M | - |
| SenseNova-SI-1.1-BAGEL-7B-MoT | BAGEL | 8M | 统一的理解与生成模型 |
目前,我们基于流行的开源基础模型构建 SenseNova-SI,以最大化与现有研究流程的兼容性。 在本次发布中,我们推出 SenseNova-SI-1.4-InternVL3-8B, SenseNova-SI-1.3-InternVL3-8B, SenseNova-SI-1.2-InternVL3-8B, SenseNova-SI-1.1-Qwen2.5-VL-3B, SenseNova-SI-1.1-Qwen2.5-VL-7B, 与SenseNova-SI-1.1-Qwen3-VL-8B。 SenseNova-SI-1.4-InternVL3-8B 在多项空间智能基准测试中展现出强大的空间理解能力,在 grounding 任务上进一步提升,在 RefCOCO 全部划分上的平均分达到 89.21,在 CountBench 上达到 78.64。在我们基于 Ibims 数据集构造的深度估计任务中,相对深度达到 95.56,绝对深度达到 80.31。
| Model | VSI | MMSI | MindCube-Tiny | ViewSpatial | SITE | BLINK | 3DSRBench | EmbSpatial-Bench |
|---|---|---|---|---|---|---|---|---|
| Open-source Models (~2B) | ||||||||
| InternVL3-2B | 32.9 | 26.5 | 37.5 | 32.5 | 30.0 | 50.8 | 47.7 | 60.1 |
| Qwen3-VL-2B-Instruct | 50.3 | 28.9 | 34.5 | 36.9 | 35.6 | 53.2 | 47.5 | 70.1 |
| MindCube-3B-RawQA-SFT | 17.2 | 1.7 | 51.7 | 24.1 | 6.3 | 35.1 | 2.8 | 37.0 |
| SpatialLadder-3B | 44.8 | 27.4 | 43.4 | 39.8 | 27.9 | 43.0 | 42.8 | 58.2 |
| SpatialMLLM-4B | 46.3 | 26.1 | 33.4 | 34.6 | 18.0 | 40.5 | 36.2 | 50.0 |
| VST-3B-SFT | 57.9 | 30.2 | 35.9 | 52.8 | 35.8 | 58.8 | 54.1 | 69.0 |
| Cambrian-S-3B | 57.3 | 25.2 | 32.5 | 39.0 | 28.3 | 37.7 | 50.9 | 63.5 |
| Open-source Models (~8B) | ||||||||
| InternVL3-8B | 42.1 | 28.0 | 41.5 | 38.6 | 41.1 | 53.5 | 44.3 | 76.4 |
| Qwen3-VL-8B-Instruct | 57.9 | 31.1 | 29.4 | 42.2 | 45.8 | 66.7 | 53.9 | 77.7 |
| BAGEL-7B-MoT | 31.4 | 31.0 | 34.7 | 41.3 | 37.0 | 63.7 | 50.2 | 73.1 |
| SpaceR-7B | 41.5 | 27.4 | 37.9 | 35.8 | 34.2 | 49.6 | 40.5 | 66.9 |
| ViLaSR-7B | 44.6 | 30.2 | 35.1 | 35.7 | 38.7 | 51.4 | 46.6 | 67.3 |
| VST-7B-SFT | 60.6 | 32.0 | 39.7 | 50.5 | 39.6 | 61.9 | 54.6 | 73.7 |
| Cambrian-S-7B | 67.5 | 25.8 | 39.6 | 40.9 | 33.0 | 37.9 | 54.8 | 72.8 |
| SenseNova-SI-1.4-InternVL3-8B | 66.6 | 40.1 | 88.8 | 55.7 | 47.9 | 68.1 | 60.4 | 81.7 |
| Proprietary Models | ||||||||
| Gemini-2.5-pro-2025-06 | 53.5 | 38.0 | 57.6 | 46.0 | 57.0 | 73.5 | 59.3 | 78.9 |
| Grok-4-2025-07-09 | 47.9 | 37.8 | 63.5 | 43.2 | 47.0 | 56.4 | 54.9 | 75.7 |
| GPT-5-2025-08-07 | 55.0 | 41.8 | 56.3 | 45.5 | 61.8 | 68.0 | 60.3 | 81.6 |
在 grounding 与深度估计基准上,我们报告如下结果。如需复现 RefCOCO 与 CountBench 结果,请参考 lmms-eval;深度估计结果基于我们内部构造的测试集评测。
| Model | RefCOCO avg | CountBench | Ibims Relative Depth | Ibims Absolute Depth |
|---|---|---|---|---|
| InternVL3-8B | 89.01 | 81.31 | 52.22 | 13.45 |
| SenseNova-SI-1.3-InternVL3-8B | 83.85 | 73.92 | 68.60 | 59.23 |
| SenseNova-SI-1.4-InternVL3-8B | 89.21 | 78.64 | 95.56 | 80.31 |
我们推荐使用 uv 来管理环境。
uv 安装指南:https://docs.astral.sh/uv/getting-started/installation/#installing-uv
git clone git@github.com:OpenSenseNova/SenseNova-SI.git
cd SenseNova-SI/
uv sync --extra cu124 # 或根据您的 CUDA 版本选择 [cu118|cu121|cu124|cu126|cu128|cu129] 之一
uv sync
source .venv/bin/activate一个简单的无图像测试,用于验证环境设置并下载模型。
python example.py \
--question "Hello" \
--model_path sensenova/SenseNova-SI-1.4-InternVL3-8B此示例来自 SITE-Bench:
python example.py \
--image_paths examples/Q1_1.png \
--question "Consider the real-world 3D locations of the objects. Which is closer to the sink, the toilet paper or the towel?\nOptions: \nA. toilet paper\nB. towel\nGive me the answer letter directly. The best answer is:" \
--model_path sensenova/SenseNova-SI-1.4-InternVL3-8B问题:考虑物体的真实世界 3D 位置。哪个更靠近水槽,卫生纸还是毛巾?选项:A. 卫生纸 B. 毛巾。直接给我答案字母。最佳答案是:
|
正确答案:A
此示例来自 MMSI-Bench:
python example.py \
--image_paths examples/Q2_1.png examples/Q2_2.png \
--question "If the landscape painting is on the east side of the bedroom, where is the window located in the bedroom?\nOptions: A. North side, B. South side, C. West side, D. East side\nAnswer with the option's letter from the given choices directly. Enclose the option's letter within ``." \
--model_path sensenova/SenseNova-SI-1.4-InternVL3-8B问题:如果风景画在卧室的东侧,那么窗户位于卧室的哪个位置?选项:A. 北侧,B. 南侧,C. 西侧,D. 东侧。直接从给定选项中选择答案字母。将选项字母用 `` 括起来。
|
|
正确答案:C
此示例展示模型的 Grounding 能力,来自 RefCOCO:
python example.py \
--image_paths examples/Q3_1.png \
--question "Please provide the bounding box coordinate of the region this sentence describes: <ref>blue shirt lady</ref>" \
--model_path sensenova/SenseNova-SI-1.4-InternVL3-8B问题:请提供该句子所描述区域的边界框坐标:<ref>blue shirt lady</ref>
|
正确答案:[0.096234, 0.161229, 0.436516, 1.000000]
此示例展示模型的深度估计能力:
python example.py \
--image_paths examples/Q4_1.png \
--question "Identify the minimal distance between the point and the camera, in meters." \
--model_path sensenova/SenseNova-SI-1.4-InternVL3-8B问题:识别图中点与相机之间的最小距离,单位为米。
|
正确答案:4.4
要复现上述基准测试结果,请参考 EASI 在主流空间智能基准测试上评估 SenseNova-SI。
@InProceedings{sensenova-si,
title = {Scaling Spatial Intelligence with Multimodal Foundation Models},
author = {Cai, Zhongang and Wang, Ruisi and Gu, Chenyang and Pu, Fanyi and Xu, Junxiang and Wang, Yubo and Yin, Wanqi and Yang, Zhitao and Wei, Chen and Sun, Qingping and Zhou, Tongxi and Li, Jiaqi and Pang, Hui En and Qian, Oscar and Wei, Yukun and Lin, Zhiqian and Shi, Xuanke and Deng, Kewang and Han, Xiaoyang and Chen, Zukai and Fan, Xiangyu and Deng, Hanming and Lu, Lewei and Pan, Liang and Li, Bo and Liu, Ziwei and Wang, Quan and Lin, Dahua and Yang, Lei},
booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
year = {2026}
}