HuggingFace镜像/SimVLA-LIBERO
模型介绍文件和版本分析
下载使用量0

SimVLA(LIBERO 版本)

代码库: LUOyk1999/SimVLA

论文: Luo et al., 2026, “SimVLA: A Simple VLA Baseline for Robotic Manipulation”(arXiv:2602.18224)

概述

image

视觉-语言-动作(VLA)模型已成为通用机器人操作领域的一种极具前景的范式,它借助大规模预训练实现了卓越性能。该领域通过引入额外的空间先验知识和多样化的架构创新,发展迅速。然而,这些进展往往伴随着不同的训练方法和实现细节,这使得很难厘清实证性能提升的确切来源。

在本研究中,我们提出了 SimVLA,这是一个精简的基准模型,旨在为 VLA 研究建立一个透明的参考标准。通过采用标准的视觉-语言骨干网络和轻量级动作头,严格分离感知与控制模块,并标准化关键的训练动态,我们证明了简洁的设计也能实现最先进的性能。尽管 SimVLA 仅拥有 0.5B 参数,在未经过机器人预训练的情况下,它在标准仿真基准测试中的表现仍优于数十亿参数的模型。SimVLA 在真实机器人上的性能也达到了与 π0.5 相当的水平。我们的研究结果表明,SimVLA 是一个稳健且可复现的基准,能够清晰地将未来架构创新所带来的实证性能提升归因于具体的改进。

项目网站: https://frontierrobo.github.io/SimVLA

引用

@article{luo2026simvla,
  title={SimVLA: A Simple VLA Baseline for Robotic Manipulation},
  author={Luo, Yuankai and Chen, Woping and Liang, Tong and Wang, Baiqiao and Li, Zhenguo},
  journal={arXiv preprint arXiv:2602.18224},
  year={2026}
}