
🚀 2026年1月21日:OmniScience数据集荣登Hugging Face数据集趋势榜第8位(图像caption领域第1位)。
🚀 2026年1月17日:OmniScience数据集发布5天内下载量突破5,000次。
🚀 2026年1月12日:OmniScience数据集正式发布。
🚀 2025年6月1日:原始数据集收集完成。
OmniScience是一个超大规模的科学多模态数据集,包含150万高质量图像-文本对以及超过500万个子图(压缩后700GB+)。该数据集精选自25个开放获取来源,包括顶级期刊(平均影响因子>12)和高引预印本服务器(arXiv、bioRxiv、medRxiv),汇聚了截至2025年5月31日的知识。
借助Uni-Parser创新的基于组的布局解析方法(Group-Based Layout parsing),系统能够智能地在复杂文档布局(包括跨列和跨页场景)中实现精确的图像-文本匹配,准确率极高。在构建图像-文本-上下文三元组后,该处理流程采用自适应路由机制(Router),根据各领域前沿多模态模型(如Gemini-3-Pro-preview、GPT-5)的专业特长,为每个图表动态分配最优模型进行重新描述(recaptioning),从而显著提升信息密度与语言质量,将caption平均长度从约100词扩展至约400词。随后,通过与人类专家协同的多轮质量控制流程,包括相似度去重、质量清洗、幻觉检测和综合评估,最终打造出这一超高质量的科学多模态资源。
海量规模
广泛学科覆盖
卓越质量保障
image:从顶级科学论文(开放获取)中裁剪的高分辨率图像,或从论文网站下载的图像
caption:使用 [图像 + 原始标题 + 上下文] 组合通过 MLLM 优化的标题
raw_caption:论文中的原始图像标题
context:(列表)原始论文中引用该图像的段落文本
title:论文标题
subject:广泛的学科类别
raw_subject:(列表)通过网络爬虫从论文元数据中获取的原始学科领域
source:期刊名称
doi:数字对象标识符
link:论文 URL(所有论文均为开放获取)
recaption_model:用于重新生成标题的 MLLM 模型
subfigures_info:子图信息,包括:类型(子图类别:图表、分子、化学反应、统计图等)、边界框(子图定位坐标)、图例(子图标注)、标题(如有子图标题)等。
使用前请在数据集页面请求访问并接受许可协议。
创建 Hugging Face 访问令牌,并选择 Read 权限:
https://huggingface.co/settings/tokens
安装 Hugging Face datasets 库:
pip install datasets使用 Python 加载:
from datasets import load_dataset
ds = load_dataset(
"UniParser/OmniScience",
token="hf_xxxxxxxxxxxxxxxxx", # HF_TOKEN
# streaming=True # stream loading without download
)本数据集依据 知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议 (CC BY-NC-SA 4.0) 发布。
非商业性使用
相同方式共享
重要说明
本数据集的来源论文均依据开放获取许可协议发表,因此本数据集同样受原论文许可条款的约束。
使用本数据集训练的模型在使用或再分发时,应遵守非商业性使用的限制。
用户有责任确保其具体使用场景符合本许可协议的要求。
OmniScience 的相关论文正在评审中:
Coming Soon!本工作由Uni-Parser驱动,这是一个快速且准确的科学文档解析框架:
@article{fang2025uni,
title={Uni-Parser Technical Report},
author={Fang, Xi and Tao, Haoyi and Yang, Shuwen and Zhong, Suyang and Lu, Haocheng and Lyu, Han and Huang, Chaozheng and Li, Xinyu and Zhang, Linfeng and Ke, Guolin},
journal={arXiv preprint arXiv:2512.15098},
year={2025}
}