EN | 中文
尽管多模态基础模型已取得显著进展,但在空间智能方面仍存在明显不足。 本研究基于成熟的多模态基础,包括视觉理解模型(如Qwen3-VL、InternVL3)和统一理解生成模型(如Bagel),从尺度效应(Scaling)的视角构建了SenseNova-SI系列模型。 我们采用系统化方法构建了包含800万样本的SenseNova-SI-8M数据集,通过严格的空间能力分类体系培养高性能、高鲁棒性的空间能力。 该系列模型在多项空间智能基准测试中取得突破性表现,同时保持强大的通用多模态理解能力。 本研究进一步分析了数据规模的影响,揭示了多样化数据训练带来的涌现泛化能力,探讨了过拟合与语言捷径的风险,提出了空间思维链推理的初步研究,并验证了下游应用潜力。 SenseNova-SI是一个持续迭代的项目,所有新训练的多模态空间智能基础模型均将陆续开源,以推动空间智能领域的研究发展。 后续 SenseNova-SI 将与更大规模的内部模型进行集成。
| 模型 | 基础架构 | 数据集规模 | EASI-8 | 其他说明 |
|---|---|---|---|---|
| SenseNova-SI-1.5-InternVL3-8B | SenseNova-SI-1.4-InternVL3-8B | 1.5M | 64.4 | 增强立体几何能力 |
| SenseNova-SI-1.4-InternVL3-8B | InternVL3 | 29M | 63.7 | 增强grounding与深度估计任务能力 |
| SenseNova-SI-1.3-InternVL3-8B | InternVL3 | 14M | 65.2 | 空间智能最优模型,增强开放式简答题回答能力 |
| SenseNova-SI-1.2-InternVL3-8B | InternVL3 | 10M | 64.5 | - |
| SenseNova-SI-1.1-InternVL3-8B | InternVL3 | 8M | 61.5 | - |
| SenseNova-SI-1.1-InternVL3-2B | InternVL3 | 8M | 49.4 | - |
| SenseNova-SI-1.1-Qwen3-VL-8B | Qwen3-VL | 8M | 58.1 | - |
| SenseNova-SI-1.1-Qwen2.5-VL-7B | Qwen2.5-VL | 8M | 51.0 | - |
| SenseNova-SI-1.1-Qwen2.5-VL-3B | Qwen2.5-VL | 8M | 45.7 | |
| SenseNova-SI-1.1-BAGEL-7B-MoT | BAGEL | 8M | 48.6 | 统一的理解与生成模型 |
目前,我们基于流行的开源基础模型构建 SenseNova-SI,以最大化与现有研究流程的兼容性。 在本次发布中,我们推出 SenseNova-SI-1.5-InternVL3-8B, SenseNova-SI-1.4-InternVL3-8B, SenseNova-SI-1.3-InternVL3-8B, SenseNova-SI-1.2-InternVL3-8B, SenseNova-SI-1.1-Qwen2.5-VL-3B, SenseNova-SI-1.1-Qwen2.5-VL-7B, 与SenseNova-SI-1.1-Qwen3-VL-8B。 SenseNova-SI-1.5-InternVL3-8B 在多项空间智能基准测试中展现出强大的空间理解能力,并提升了对立体几何问题的分析与解答能力。在SolidGeo MCQ,SolidMath以及Math3D三个基准上分别达到了63.5,72.7和68.9的准确率。
| Model | VSI | MMSI | MindCube-Tiny | ViewSpatial | SITE | BLINK | 3DSRBench | EmbSpatial-Bench |
|---|---|---|---|---|---|---|---|---|
| Open-source Models (~2B) | ||||||||
| InternVL3-2B | 32.9 | 26.5 | 37.5 | 32.5 | 30.0 | 50.8 | 47.7 | 60.1 |
| Qwen3-VL-2B-Instruct | 50.3 | 28.9 | 34.5 | 36.9 | 35.6 | 53.2 | 47.5 | 70.1 |
| MindCube-3B-RawQA-SFT | 17.2 | 1.7 | 51.7 | 24.1 | 6.3 | 35.1 | 2.8 | 37.0 |
| SpatialLadder-3B | 44.8 | 27.4 | 43.4 | 39.8 | 27.9 | 43.0 | 42.8 | 58.2 |
| SpatialMLLM-4B | 46.3 | 26.1 | 33.4 | 34.6 | 18.0 | 40.5 | 36.2 | 50.0 |
| VST-3B-SFT | 57.9 | 30.2 | 35.9 | 52.8 | 35.8 | 58.8 | 54.1 | 69.0 |
| Cambrian-S-3B | 57.3 | 25.2 | 32.5 | 39.0 | 28.3 | 37.7 | 50.9 | 63.5 |
| Open-source Models (~8B) | ||||||||
| InternVL3-8B | 42.1 | 28.0 | 41.5 | 38.6 | 41.1 | 53.5 | 44.3 | 76.4 |
| Qwen3-VL-8B-Instruct | 57.9 | 31.1 | 29.4 | 42.2 | 45.8 | 66.7 | 53.9 | 77.7 |
| BAGEL-7B-MoT | 31.4 | 31.0 | 34.7 | 41.3 | 37.0 | 63.7 | 50.2 | 73.1 |
| SpaceR-7B | 41.5 | 27.4 | 37.9 | 35.8 | 34.2 | 49.6 | 40.5 | 66.9 |
| ViLaSR-7B | 44.6 | 30.2 | 35.1 | 35.7 | 38.7 | 51.4 | 46.6 | 67.3 |
| VST-7B-SFT | 60.6 | 32.0 | 39.7 | 50.5 | 39.6 | 61.9 | 54.6 | 73.7 |
| Cambrian-S-7B | 67.5 | 25.8 | 39.6 | 40.9 | 33.0 | 37.9 | 54.8 | 72.8 |
| SenseNova-SI-1.5-InternVL3-8B | 67.3 | 38.3 | 92.1 | 59.0 | 47.5 | 69.5 | 61.3 | 80.3 |
| Proprietary Models | ||||||||
| Gemini-2.5-pro-2025-06 | 53.5 | 38.0 | 57.6 | 46.0 | 57.0 | 73.5 | 59.3 | 78.9 |
| Grok-4-2025-07-09 | 47.9 | 37.8 | 63.5 | 43.2 | 47.0 | 56.4 | 54.9 | 75.7 |
| GPT-5-2025-08-07 | 55.0 | 41.8 | 56.3 | 45.5 | 61.8 | 68.0 | 60.3 | 81.6 |
在立体几何问题基准上,结果如下:
| Model | SolidGeo MCQ | SpatialViz-Bench | SolidMath | Math3D |
|---|---|---|---|---|
| InternVL3-8B | 36.4 | 32.0 | 42.5 | 43.7 |
| SenseNova-SI-1.3-InternVL3-8B | 36.5 | 29.6 | 39.6 | 40.3 |
| SenseNova-SI-1.5-InternVL3-8B | 63.5 | 33.0 | 72.7 | 68.9 |
SolidMath 与 Math3D 是构建自K12题库的内部基准数据集,收录了中文立体几何选择题。其中SolidMath从同源数据中构建,Math3D从非同源数据中构建。
我们推荐使用 uv 来管理环境。
uv 安装指南:https://docs.astral.sh/uv/getting-started/installation/#installing-uv
git clone git@github.com:OpenSenseNova/SenseNova-SI.git
cd SenseNova-SI/
uv sync --extra cu124 # 或根据您的 CUDA 版本选择 [cu118|cu121|cu124|cu126|cu128|cu129] 之一
uv sync
source .venv/bin/activate一个简单的无图像测试,用于验证环境设置并下载模型。
python example.py \
--question "Hello" \
--model_path sensenova/SenseNova-SI-1.5-InternVL3-8B此示例来自 SITE-Bench:
python example.py \
--image_paths examples/Q1_1.png \
--question "Consider the real-world 3D locations of the objects. Which is closer to the sink, the toilet paper or the towel?\nOptions: \nA. toilet paper\nB. towel\nGive me the answer letter directly. The best answer is:" \
--model_path sensenova/SenseNova-SI-1.5-InternVL3-8B问题:考虑物体的真实世界 3D 位置。哪个更靠近水槽,卫生纸还是毛巾?选项:A. 卫生纸 B. 毛巾。直接给我答案字母。最佳答案是:
|
正确答案:A
此示例来自 MMSI-Bench:
python example.py \
--image_paths examples/Q2_1.png examples/Q2_2.png \
--question "If the landscape painting is on the east side of the bedroom, where is the window located in the bedroom?\nOptions: A. North side, B. South side, C. West side, D. East side\nAnswer with the option's letter from the given choices directly. Enclose the option's letter within ``." \
--model_path sensenova/SenseNova-SI-1.5-InternVL3-8B问题:如果风景画在卧室的东侧,那么窗户位于卧室的哪个位置?选项:A. 北侧,B. 南侧,C. 西侧,D. 东侧。直接从给定选项中选择答案字母。将选项字母用 `` 括起来。
|
|
正确答案:C
此示例展示模型的 立体几何(三视图) 能力:
python example.py \
--image_paths examples/Q3_1.png \
--question "Enclose your thinking process in <think> </think> tags and your final answer in <answer> </answer>" \
--model_path sensenova/SenseNova-SI-1.5-InternVL3-8B问题:请将你的思考过程放在<think> </think>标签内,并将你的最终答案放在<answer> </answer>标签内。
|
正确答案:D
此示例展示模型的 立体几何(展开图) 能力:
python example.py \
--image_paths examples/Q4_1.png \
--question "请将你的思考过程放在<think></think>标签内,并将你的最终答案放在<answer></answer>标签内。" \
--model_path sensenova/SenseNova-SI-1.5-InternVL3-8B问题:请将你的思考过程放在<think> </think>标签内,并将你的最终答案放在<answer> </answer>标签内。
|
正确答案:D
此示例展示模型的 立体几何(三视图) 能力:
python example.py \
--image_paths examples/Q5_1.png \
--question "请将你的思考过程放在<think></think>标签内,并将你的最终答案放在<answer></answer>标签内。" \
--model_path sensenova/SenseNova-SI-1.5-InternVL3-8B问题:请将你的思考过程放在<think> </think>标签内,并将你的最终答案放在<answer> </answer>标签内。
|
正确答案:B
此示例展示模型的 立体几何(三视图) 能力:
python example.py \
--image_paths examples/Q6_1.png \
--question "请将你的思考过程放在<think></think>标签内,并将你的最终答案放在<answer></answer>标签内。" \
--model_path sensenova/SenseNova-SI-1.5-InternVL3-8B问题:请将你的思考过程放在<think> </think>标签内,并将你的最终答案放在<answer> </answer>标签内。
|
正确答案:C
此示例展示模型的 立体几何(3D图形推理) 能力:
python example.py \
--image_paths examples/Q7_1.png \
--question "请将你的思考过程放在<think></think>标签内,并将你的最终答案放在<answer></answer>标签内。" \
--model_path sensenova/SenseNova-SI-1.5-InternVL3-8B问题:请将你的思考过程放在<think> </think>标签内,并将你的最终答案放在<answer> </answer>标签内。
|
正确答案:C
此示例展示模型的 立体几何(三视图) 能力:
python example.py \
--image_paths examples/Q8_1.png \
--question "请将你的思考过程放在<think></think>标签内,并将你的最终答案放在<answer></answer>标签内。" \
--model_path sensenova/SenseNova-SI-1.5-InternVL3-8B问题:请将你的思考过程放在<think> </think>标签内,并将你的最终答案放在<answer> </answer>标签内。
|
正确答案:A
要复现上述基准测试结果,请参考 EASI 在主流空间智能基准测试上评估 SenseNova-SI。
@InProceedings{sensenova-si,
title = {Scaling Spatial Intelligence with Multimodal Foundation Models},
author = {Cai, Zhongang and Wang, Ruisi and Gu, Chenyang and Pu, Fanyi and Xu, Junxiang and Wang, Yubo and Yin, Wanqi and Yang, Zhitao and Wei, Chen and Sun, Qingping and Zhou, Tongxi and Li, Jiaqi and Pang, Hui En and Qian, Oscar and Wei, Yukun and Lin, Zhiqian and Shi, Xuanke and Deng, Kewang and Han, Xiaoyang and Chen, Zukai and Fan, Xiangyu and Deng, Hanming and Lu, Lewei and Pan, Liang and Li, Bo and Liu, Ziwei and Wang, Quan and Lin, Dahua and Yang, Lei},
booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
year = {2026}
}