Chandra OCR 2

Chandra 2 是由 Datalab 开发的顶尖 OCR 模型，可输出 markdown、HTML 和 JSON 格式。它能从图像和 PDF 中高精度提取文本，同时保留布局信息。

您可以在免费试用平台体验 Chandra，或使用托管 API 以获得更高的准确性和速度。

Chandra 2 的新特性

85.9% 的 olmocr 基准分数（当前最优），77.8% 的多语言基准分数（相比 Chandra 1 提升 12%）
数学公式、表格和复杂布局识别能力显著增强
布局优化，尤其在宽幅文档上表现更佳
图像 caption 生成能力大幅提升
支持 90 多种语言，主要语言识别准确率显著提高

功能特点

将文档转换为包含详细布局信息的 markdown、HTML 或 JSON 格式
出色的手写体识别支持
准确还原表单内容，包括复选框
对表格、数学公式和复杂布局的识别表现优异
提取图像和图表，并附带 caption 及结构化数据
支持 90 多种语言

快速入门

pip install chandra-ocr

# With vLLM (recommended, easy install)
chandra_vllm
chandra input.pdf ./output

# With HuggingFace (requires torch)
pip install chandra-ocr[hf]
chandra input.pdf ./output --method hf

使用方法

借助 vLLM（推荐）

from chandra.model import InferenceManager
from chandra.model.schema import BatchInputItem
from PIL import Image

# Start vLLM server first with: chandra_vllm
manager = InferenceManager(method="vllm")
batch = [
    BatchInputItem(
        image=Image.open("document.png"),
        prompt_type="ocr_layout"
    )
]
result = manager.generate(batch)[0]
print(result.markdown)

使用 HuggingFace Transformers

from transformers import AutoModelForImageTextToText, AutoProcessor
from chandra.model.hf import generate_hf
from chandra.model.schema import BatchInputItem
from chandra.output import parse_markdown
from PIL import Image
import torch

model = AutoModelForImageTextToText.from_pretrained(
    "datalab-to/chandra-ocr-2",
    dtype=torch.bfloat16,
    device_map="auto",
)
model.eval()
model.processor = AutoProcessor.from_pretrained("datalab-to/chandra-ocr-2")
model.processor.tokenizer.padding_side = "left"

batch = [
    BatchInputItem(
        image=Image.open("document.png"),
        prompt_type="ocr_layout"
    )
]

result = generate_hf(batch, model)[0]
markdown = parse_markdown(result.raw)
print(markdown)

基准测试

olmOCR 基准测试

模型	ArXiv	旧扫描数学公式	表格	旧扫描件	页眉页脚	多列	长小文本	基础	总体	来源
Datalab API	90.4	90.2	90.7	54.6	91.6	83.7	92.3	99.9	86.7 ± 0.8	自有基准测试
Chandra 2	90.2	89.3	89.9	49.8	92.5	83.5	92.1	99.6	85.9 ± 0.8	自有基准测试
dots.ocr 1.5	85.9	85.5	90.7	48.2	94.0	85.3	81.6	99.7	83.9	dots.ocr 仓库
Chandra 1	82.2	80.3	88.0	50.4	90.8	81.2	92.3	99.9	83.1 ± 0.9	自有基准测试
olmOCR 2	83.0	82.3	84.9	47.7	96.1	83.7	81.9	99.6	82.4	olmocr 仓库
dots.ocr	82.1	64.2	88.3	40.9	94.1	82.4	81.2	99.5	79.1 ± 1.0	dots.ocr 仓库
olmOCR v0.3.0	78.6	79.9	72.9	43.9	95.1	77.3	81.2	98.9	78.5 ± 1.1	olmocr 仓库
Datalab Marker v1.10.0	83.8	69.7	74.8	32.3	86.6	79.4	85.7	99.6	76.5 ± 1.0	自有基准测试
Deepseek OCR	75.2	72.3	79.7	33.3	96.1	66.7	80.1	99.7	75.4 ± 1.0	自有基准测试
Mistral OCR API	77.2	67.5	60.6	29.3	93.6	71.3	77.1	99.4	72.0 ± 1.1	olmocr 仓库
GPT-4o (Anchored)	53.5	74.5	70.0	40.7	93.8	69.3	60.6	96.8	69.9 ± 1.1	olmocr 仓库
Qwen 3 VL 8B	70.2	75.1	45.6	37.5	89.1	62.1	43.0	94.3	64.6 ± 1.1	自有基准测试
Gemini Flash 2 (Anchored)	54.5	56.1	72.1	34.2	64.7	61.5	71.5	95.6	63.8 ± 1.2	olmocr 仓库

示例

类型	名称	链接
表格	统计分布表	查看
表格	财务报表	查看
表单	注册表	查看
表单	租赁协议表	查看
数学	CS229 教材	查看
数学	手写数学公式	查看
数学	中文数学题	查看
手写体	草书手写文本	查看
手写体	手写笔记	查看
语言	阿拉伯语	查看
语言	日语	查看
语言	印地语	查看
语言	俄语	查看
其他	图表	查看
其他	化学公式	查看

多语言基准测试（43种语言）

下表涵盖了43种最常用语言在多个模型上的基准测试结果。若需查看90种语言的综合评估（仅Chandra 2与Gemini 2.5 Flash对比），请参见完整90种语言基准测试。

语言	Datalab API	Chandra 2	Chandra 1	Gemini 2.5 Flash	GPT-5 Mini
ar	67.6%	68.4%	34.0%	84.4%	55.6%
bn	85.1%	72.8%	45.6%	55.3%	23.3%
ca	88.7%	85.1%	84.2%	88.0%	78.5%
cs	88.2%	85.3%	84.7%	79.1%	78.8%
da	90.1%	91.1%	88.4%	86.0%	87.7%
de	93.8%	94.8%	83.0%	88.3%	93.8%
el	89.9%	85.6%	85.5%	83.5%	82.4%
es	91.8%	89.3%	88.7%	86.8%	97.1%
fa	82.2%	75.1%	69.6%	61.8%	56.4%
fi	85.7%	83.4%	78.4%	86.0%	84.7%
fr	93.3%	93.7%	89.6%	86.1%	91.1%
gu	73.8%	70.8%	44.6%	47.6%	11.5%
he	76.4%	70.4%	38.9%	50.9%	22.3%
hi	80.5%	78.4%	70.2%	82.7%	41.0%
hr	93.4%	90.1%	85.9%	88.2%	81.3%
hu	88.1%	82.1%	82.5%	84.5%	84.8%
id	91.3%	91.6%	86.7%	88.3%	89.7%
it	94.4%	94.1%	89.1%	85.7%	91.6%
ja	87.3%	86.9%	85.4%	80.0%	76.1%
jv	87.5%	73.2%	85.1%	80.4%	69.6%
kn	70.0%	63.2%	20.6%	24.5%	10.1%
ko	89.1%	81.5%	82.3%	84.8%	78.4%
la	78.0%	73.8%	55.9%	70.5%	54.6%
ml	72.4%	64.3%	18.1%	23.8%	11.9%
mr	80.8%	75.0%	57.0%	69.7%	20.9%
nl	90.0%	88.6%	85.3%	87.5%	83.8%
no	89.2%	90.3%	85.5%	87.8%	87.4%
pl	93.8%	91.5%	83.9%	89.7%	90.4%
pt	97.0%	95.2%	84.3%	89.4%	90.8%
ro	86.2%	84.5%	82.1%	76.1%	77.3%
ru	88.8%	85.5%	88.7%	82.8%	72.2%
sa	57.5%	51.1%	33.6%	44.6%	12.5%
sr	95.3%	90.3%	82.3%	89.7%	83.0%
sv	91.9%	92.8%	82.1%	91.1%	92.1%
ta	82.9%	77.7%	50.8%	53.9%	8.1%
te	69.4%	58.6%	19.5%	33.3%	9.9%
th	71.6%	62.6%	47.0%	66.7%	53.8%
tr	88.9%	84.1%	68.1%	84.1%	78.2%
uk	93.1%	91.0%	88.5%	87.9%	81.9%
ur	54.1%	43.2%	28.1%	57.6%	16.9%
vi	85.0%	80.4%	81.6%	89.5%	83.6%
zh	87.8%	88.7%	88.3%	70.0%	70.4%
平均值	80.4%	77.8%	69.4%	67.6%	60.5%

全90种语言基准测试

我们还进行了更全面的评估，涵盖90种语言，将Chandra 2与Gemini 2.5 Flash进行比较。平均得分低于上述43种语言表格，因为其中包含了许多资源较少的语言。Chandra 2的平均得分为72.7%，而Gemini 2.5 Flash的平均得分为60.8%。

查看完整的90种语言结果。

吞吐量

使用vLLM在单个NVIDIA H100 80GB GPU上进行基准测试，采用来自olmOCR基准测试集的多种文档（数学、表格、扫描件、多列布局）混合数据。该测试集的速度明显慢于实际使用场景——我们估计实际使用中速度为2页/秒。

配置	页数/秒	平均延迟	P95延迟	失败率
vLLM，96个并发序列	1.44	60秒	156秒	0%

商业用途

代码采用Apache 2.0许可证。模型权重使用修改后的OpenRAIL-M许可证：免费用于研究、个人使用以及融资/收入低于200万美元的初创企业。不得用于与我们的API竞争。如需更广泛的商业许可，请参见定价。

鸣谢