OmniScience：面向科学图像理解的大规模数据集

🚀 2026年1月21日：OmniScience数据集荣登Hugging Face数据集趋势榜第8位（图像caption领域第1位）。
🚀 2026年1月17日：OmniScience数据集发布5天内下载量突破5,000次。
🚀 2026年1月12日：OmniScience数据集正式发布。
🚀 2025年6月1日：原始数据集收集完成。

📘 数据集概述

OmniScience是一个超大规模的科学多模态数据集，包含150万高质量图像-文本对以及超过500万个子图（压缩后700GB+）。该数据集精选自25个开放获取来源，包括顶级期刊（平均影响因子>12）和高引预印本服务器（arXiv、bioRxiv、medRxiv），汇聚了截至2025年5月31日的知识。

借助Uni-Parser创新的基于组的布局解析方法（Group-Based Layout parsing），系统能够智能地在复杂文档布局（包括跨列和跨页场景）中实现精确的图像-文本匹配，准确率极高。在构建图像-文本-上下文三元组后，该处理流程采用自适应路由机制（Router），根据各领域前沿多模态模型（如Gemini-3-Pro-preview、GPT-5）的专业特长，为每个图表动态分配最优模型进行重新描述（recaptioning），从而显著提升信息密度与语言质量，将caption平均长度从约100词扩展至约400词。随后，通过与人类专家协同的多轮质量控制流程，包括相似度去重、质量清洗、幻觉检测和综合评估，最终打造出这一超高质量的科学多模态资源。

海量规模

150万科学图像-caption-上下文对，附带MLLM增强的重新描述
500万+子图，包含精确的定位信息
43亿tokens（总计19亿图像tokens和24亿文本tokens）
压缩后700GB+

广泛学科覆盖

涵盖生物学、化学、物理学、材料科学、医学、生态学、药学、数学、计算机科学及新兴交叉学科
300多个子学科

卓越质量保障

精选自顶级开放获取来源：顶级OA期刊（平均影响因子>12）+ 高引预印本
多级去重：像素级→语义级
自适应重新描述（Adaptive Re-Caption）：智能路由将[图表+原始caption+上下文]三元组分配给最优前沿MLLMs（Gemini-3-Pro、GPT-5、Qwen3-VL-235B等）
专家对齐验证：多级质量过滤、幻觉检测，以及与人类专家对齐的LLM评判（LLM judge）

🏗️ 数据集结构

image：从顶级科学论文（开放获取）中裁剪的高分辨率图像，或从论文网站下载的图像
caption：使用 [图像 + 原始标题 + 上下文] 组合通过 MLLM 优化的标题
raw_caption：论文中的原始图像标题
context：（列表）原始论文中引用该图像的段落文本
title：论文标题
subject：广泛的学科类别
raw_subject：（列表）通过网络爬虫从论文元数据中获取的原始学科领域
source：期刊名称
doi：数字对象标识符
link：论文 URL（所有论文均为开放获取）
recaption_model：用于重新生成标题的 MLLM 模型
subfigures_info：子图信息，包括：类型（子图类别：图表、分子、化学反应、统计图等）、边界框（子图定位坐标）、图例（子图标注）、标题（如有子图标题）等。

🔑 使用方法

请求数据集访问权限

使用前请在数据集页面请求访问并接受许可协议。

创建 Hugging Face 访问令牌

创建 Hugging Face 访问令牌，并选择 Read 权限： https://huggingface.co/settings/tokens

加载数据集

安装 Hugging Face datasets 库：

pip install datasets

使用 Python 加载：

from datasets import load_dataset

ds = load_dataset(
    "UniParser/OmniScience",
    token="hf_xxxxxxxxxxxxxxxxx",  # HF_TOKEN
    # streaming=True  # stream loading without download
)

🔏 许可协议

本数据集依据知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议 (CC BY-NC-SA 4.0) 发布。

非商业性使用
- 本数据集不得用于商业目的。禁止用途包括但不限于：出售数据集、将其整合到商业产品或服务中，或用于以获取直接商业利益为主要目的的工作流程。
相同方式共享
- 若您对本数据集进行再混合、转换、基于其进行创作，或分发其改编版本，您必须以相同的 CC BY-NC-SA 4.0 许可协议发布您的贡献内容。
重要说明
- 本数据集的来源论文均依据开放获取许可协议发表，因此本数据集同样受原论文许可条款的约束。
- 使用本数据集训练的模型在使用或再分发时，应遵守非商业性使用的限制。
- 用户有责任确保其具体使用场景符合本许可协议的要求。

📖 引用方式

OmniScience 的相关论文正在评审中：

Coming Soon!

本工作由Uni-Parser驱动，这是一个快速且准确的科学文档解析框架：

@article{fang2025uni,
  title={Uni-Parser Technical Report},
  author={Fang, Xi and Tao, Haoyi and Yang, Shuwen and Zhong, Suyang and Lu, Haocheng and Lyu, Han and Huang, Chaozheng and Li, Xinyu and Zhang, Linfeng and Ke, Guolin},
  journal={arXiv preprint arXiv:2512.15098},
  year={2025}
}