U
UniParser/OmniScience
数据集数据集查看器文件和版本
下载使用量0

image

OmniScience:面向科学图像理解的大规模数据集

🚀 2026年1月21日:OmniScience数据集荣登Hugging Face数据集趋势榜第8位(图像caption领域第1位)。
🚀 2026年1月17日:OmniScience数据集发布5天内下载量突破5,000次。
🚀 2026年1月12日:OmniScience数据集正式发布。
🚀 2025年6月1日:原始数据集收集完成。

📘 数据集概述

OmniScience是一个超大规模的科学多模态数据集,包含150万高质量图像-文本对以及超过500万个子图(压缩后700GB+)。该数据集精选自25个开放获取来源,包括顶级期刊(平均影响因子>12)和高引预印本服务器(arXiv、bioRxiv、medRxiv),汇聚了截至2025年5月31日的知识。

借助Uni-Parser创新的基于组的布局解析方法(Group-Based Layout parsing),系统能够智能地在复杂文档布局(包括跨列和跨页场景)中实现精确的图像-文本匹配,准确率极高。在构建图像-文本-上下文三元组后,该处理流程采用自适应路由机制(Router),根据各领域前沿多模态模型(如Gemini-3-Pro-preview、GPT-5)的专业特长,为每个图表动态分配最优模型进行重新描述(recaptioning),从而显著提升信息密度与语言质量,将caption平均长度从约100词扩展至约400词。随后,通过与人类专家协同的多轮质量控制流程,包括相似度去重、质量清洗、幻觉检测和综合评估,最终打造出这一超高质量的科学多模态资源。

海量规模

  • 150万科学图像-caption-上下文对,附带MLLM增强的重新描述
  • 500万+子图,包含精确的定位信息
  • 43亿tokens(总计19亿图像tokens和24亿文本tokens)
  • 压缩后700GB+

广泛学科覆盖

  • 涵盖生物学、化学、物理学、材料科学、医学、生态学、药学、数学、计算机科学及新兴交叉学科
  • 300多个子学科

卓越质量保障

  • 精选自顶级开放获取来源:顶级OA期刊(平均影响因子>12)+ 高引预印本
  • 多级去重:像素级→语义级
  • 自适应重新描述(Adaptive Re-Caption):智能路由将[图表+原始caption+上下文]三元组分配给最优前沿MLLMs(Gemini-3-Pro、GPT-5、Qwen3-VL-235B等)
  • 专家对齐验证:多级质量过滤、幻觉检测,以及与人类专家对齐的LLM评判(LLM judge)

🏗️ 数据集结构

  • image:从顶级科学论文(开放获取)中裁剪的高分辨率图像,或从论文网站下载的图像

  • caption:使用 [图像 + 原始标题 + 上下文] 组合通过 MLLM 优化的标题

  • raw_caption:论文中的原始图像标题

  • context:(列表)原始论文中引用该图像的段落文本

  • title:论文标题

  • subject:广泛的学科类别

  • raw_subject:(列表)通过网络爬虫从论文元数据中获取的原始学科领域

  • source:期刊名称

  • doi:数字对象标识符

  • link:论文 URL(所有论文均为开放获取)

  • recaption_model:用于重新生成标题的 MLLM 模型

  • subfigures_info:子图信息,包括:类型(子图类别:图表、分子、化学反应、统计图等)、边界框(子图定位坐标)、图例(子图标注)、标题(如有子图标题)等。

🔑 使用方法

  1. 请求数据集访问权限

使用前请在数据集页面请求访问并接受许可协议。

  1. 创建 Hugging Face 访问令牌

创建 Hugging Face 访问令牌,并选择 Read 权限: https://huggingface.co/settings/tokens

  1. 加载数据集

安装 Hugging Face datasets 库:

pip install datasets

使用 Python 加载:

from datasets import load_dataset

ds = load_dataset(
    "UniParser/OmniScience",
    token="hf_xxxxxxxxxxxxxxxxx",  # HF_TOKEN
    # streaming=True  # stream loading without download
)

🔏 许可协议

本数据集依据 知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议 (CC BY-NC-SA 4.0) 发布。

  • 非商业性使用

    • 本数据集不得用于商业目的。禁止用途包括但不限于:出售数据集、将其整合到商业产品或服务中,或用于以获取直接商业利益为主要目的的工作流程。
  • 相同方式共享

    • 若您对本数据集进行再混合、转换、基于其进行创作,或分发其改编版本,您必须以相同的 CC BY-NC-SA 4.0 许可协议发布您的贡献内容。
  • 重要说明

    • 本数据集的来源论文均依据开放获取许可协议发表,因此本数据集同样受原论文许可条款的约束。

    • 使用本数据集训练的模型在使用或再分发时,应遵守非商业性使用的限制。

    • 用户有责任确保其具体使用场景符合本许可协议的要求。

📖 引用方式

OmniScience 的相关论文正在评审中:

Coming Soon!

本工作由Uni-Parser驱动,这是一个快速且准确的科学文档解析框架:

@article{fang2025uni,
  title={Uni-Parser Technical Report},
  author={Fang, Xi and Tao, Haoyi and Yang, Shuwen and Zhong, Suyang and Lu, Haocheng and Lyu, Han and Huang, Chaozheng and Li, Xinyu and Zhang, Linfeng and Ke, Guolin},
  journal={arXiv preprint arXiv:2512.15098},
  year={2025}
}