HuggingFace镜像/chandra-ocr-2
模型介绍文件和版本分析
下载使用量0

Datalab Logo

Chandra OCR 2

Chandra 2 是由 Datalab 开发的顶尖 OCR 模型,可输出 markdown、HTML 和 JSON 格式。它能从图像和 PDF 中高精度提取文本,同时保留布局信息。

您可以在 免费试用平台 体验 Chandra,或使用 托管 API 以获得更高的准确性和速度。

Chandra 2 的新特性

  • 85.9% 的 olmocr 基准分数(当前最优),77.8% 的多语言基准分数(相比 Chandra 1 提升 12%)
  • 数学公式、表格和复杂布局识别能力显著增强
  • 布局优化,尤其在宽幅文档上表现更佳
  • 图像 caption 生成能力大幅提升
  • 支持 90 多种语言,主要语言识别准确率显著提高

功能特点

  • 将文档转换为包含详细布局信息的 markdown、HTML 或 JSON 格式
  • 出色的手写体识别支持
  • 准确还原表单内容,包括复选框
  • 对表格、数学公式和复杂布局的识别表现优异
  • 提取图像和图表,并附带 caption 及结构化数据
  • 支持 90 多种语言

快速入门

pip install chandra-ocr

# With vLLM (recommended, easy install)
chandra_vllm
chandra input.pdf ./output

# With HuggingFace (requires torch)
pip install chandra-ocr[hf]
chandra input.pdf ./output --method hf

使用方法

借助 vLLM(推荐)

from chandra.model import InferenceManager
from chandra.model.schema import BatchInputItem
from PIL import Image

# Start vLLM server first with: chandra_vllm
manager = InferenceManager(method="vllm")
batch = [
    BatchInputItem(
        image=Image.open("document.png"),
        prompt_type="ocr_layout"
    )
]
result = manager.generate(batch)[0]
print(result.markdown)

使用 HuggingFace Transformers

from transformers import AutoModelForImageTextToText, AutoProcessor
from chandra.model.hf import generate_hf
from chandra.model.schema import BatchInputItem
from chandra.output import parse_markdown
from PIL import Image
import torch

model = AutoModelForImageTextToText.from_pretrained(
    "datalab-to/chandra-ocr-2",
    dtype=torch.bfloat16,
    device_map="auto",
)
model.eval()
model.processor = AutoProcessor.from_pretrained("datalab-to/chandra-ocr-2")
model.processor.tokenizer.padding_side = "left"

batch = [
    BatchInputItem(
        image=Image.open("document.png"),
        prompt_type="ocr_layout"
    )
]

result = generate_hf(batch, model)[0]
markdown = parse_markdown(result.raw)
print(markdown)

基准测试

olmOCR 基准测试

模型ArXiv旧扫描数学公式表格旧扫描件页眉页脚多列长小文本基础总体来源
Datalab API90.490.290.754.691.683.792.399.986.7 ± 0.8自有基准测试
Chandra 290.289.389.949.892.583.592.199.685.9 ± 0.8自有基准测试
dots.ocr 1.585.985.590.748.294.085.381.699.783.9dots.ocr 仓库
Chandra 182.280.388.050.490.881.292.399.983.1 ± 0.9自有基准测试
olmOCR 283.082.384.947.796.183.781.999.682.4olmocr 仓库
dots.ocr82.164.288.340.994.182.481.299.579.1 ± 1.0dots.ocr 仓库
olmOCR v0.3.078.679.972.943.995.177.381.298.978.5 ± 1.1olmocr 仓库
Datalab Marker v1.10.083.869.774.832.386.679.485.799.676.5 ± 1.0自有基准测试
Deepseek OCR75.272.379.733.396.166.780.199.775.4 ± 1.0自有基准测试
Mistral OCR API77.267.560.629.393.671.377.199.472.0 ± 1.1olmocr 仓库
GPT-4o (Anchored)53.574.570.040.793.869.360.696.869.9 ± 1.1olmocr 仓库
Qwen 3 VL 8B70.275.145.637.589.162.143.094.364.6 ± 1.1自有基准测试
Gemini Flash 2 (Anchored)54.556.172.134.264.761.571.595.663.8 ± 1.2olmocr 仓库

示例

类型名称链接
表格统计分布表查看
表格财务报表查看
表单注册表查看
表单租赁协议表查看
数学CS229 教材查看
数学手写数学公式查看
数学中文数学题查看
手写体草书手写文本查看
手写体手写笔记查看
语言阿拉伯语查看
语言日语查看
语言印地语查看
语言俄语查看
其他图表查看
其他化学公式查看

多语言基准测试(43种语言)

下表涵盖了43种最常用语言在多个模型上的基准测试结果。若需查看90种语言的综合评估(仅Chandra 2与Gemini 2.5 Flash对比),请参见完整90种语言基准测试。

语言Datalab APIChandra 2Chandra 1Gemini 2.5 FlashGPT-5 Mini
ar67.6%68.4%34.0%84.4%55.6%
bn85.1%72.8%45.6%55.3%23.3%
ca88.7%85.1%84.2%88.0%78.5%
cs88.2%85.3%84.7%79.1%78.8%
da90.1%91.1%88.4%86.0%87.7%
de93.8%94.8%83.0%88.3%93.8%
el89.9%85.6%85.5%83.5%82.4%
es91.8%89.3%88.7%86.8%97.1%
fa82.2%75.1%69.6%61.8%56.4%
fi85.7%83.4%78.4%86.0%84.7%
fr93.3%93.7%89.6%86.1%91.1%
gu73.8%70.8%44.6%47.6%11.5%
he76.4%70.4%38.9%50.9%22.3%
hi80.5%78.4%70.2%82.7%41.0%
hr93.4%90.1%85.9%88.2%81.3%
hu88.1%82.1%82.5%84.5%84.8%
id91.3%91.6%86.7%88.3%89.7%
it94.4%94.1%89.1%85.7%91.6%
ja87.3%86.9%85.4%80.0%76.1%
jv87.5%73.2%85.1%80.4%69.6%
kn70.0%63.2%20.6%24.5%10.1%
ko89.1%81.5%82.3%84.8%78.4%
la78.0%73.8%55.9%70.5%54.6%
ml72.4%64.3%18.1%23.8%11.9%
mr80.8%75.0%57.0%69.7%20.9%
nl90.0%88.6%85.3%87.5%83.8%
no89.2%90.3%85.5%87.8%87.4%
pl93.8%91.5%83.9%89.7%90.4%
pt97.0%95.2%84.3%89.4%90.8%
ro86.2%84.5%82.1%76.1%77.3%
ru88.8%85.5%88.7%82.8%72.2%
sa57.5%51.1%33.6%44.6%12.5%
sr95.3%90.3%82.3%89.7%83.0%
sv91.9%92.8%82.1%91.1%92.1%
ta82.9%77.7%50.8%53.9%8.1%
te69.4%58.6%19.5%33.3%9.9%
th71.6%62.6%47.0%66.7%53.8%
tr88.9%84.1%68.1%84.1%78.2%
uk93.1%91.0%88.5%87.9%81.9%
ur54.1%43.2%28.1%57.6%16.9%
vi85.0%80.4%81.6%89.5%83.6%
zh87.8%88.7%88.3%70.0%70.4%
平均值80.4%77.8%69.4%67.6%60.5%

全90种语言基准测试

我们还进行了更全面的评估,涵盖90种语言,将Chandra 2与Gemini 2.5 Flash进行比较。平均得分低于上述43种语言表格,因为其中包含了许多资源较少的语言。Chandra 2的平均得分为72.7%,而Gemini 2.5 Flash的平均得分为60.8%。

查看完整的90种语言结果。

吞吐量

使用vLLM在单个NVIDIA H100 80GB GPU上进行基准测试,采用来自olmOCR基准测试集的多种文档(数学、表格、扫描件、多列布局)混合数据。该测试集的速度明显慢于实际使用场景——我们估计实际使用中速度为2页/秒。

配置页数/秒平均延迟P95延迟失败率
vLLM,96个并发序列1.4460秒156秒0%

商业用途

代码采用Apache 2.0许可证。模型权重使用修改后的OpenRAIL-M许可证:免费用于研究、个人使用以及融资/收入低于200万美元的初创企业。不得用于与我们的API竞争。如需更广泛的商业许可,请参见定价。

鸣谢

  • Huggingface Transformers
  • vLLM
  • olmocr
  • Qwen 3.5