Ascend-SACT/Omnidocbench-Renamed-Only-Images
数据集数据集查看器文件和版本Pull Requests讨论
下载使用量0

介绍

DeepSeek-OCR模型官方论文指导使用数据集《Omnidocbench》,用于测试模型的性能和精度。由于官网的数据集的images存在命名不规范,含空格与特殊字符等,无法直接使用。更改了Omnidocbench.json文件中的文件名与images文件夹下的文件名称,规范重命名后,可以进行性能测试与精度测试。

数据集下载参考

官网网站:https://huggingface.co/datasets/opendatalab/OmniDocBench 第三方镜像网站:https://opendatalab.com/OpenDataLab/OmniDocBench/cli/main

文件结构:

OmniDocBench/
├── images.zip
└── OmniDocBench.json

测试流程:

安装Aisbench 工具

git clone https://github.com/AISBench/benchmark.git
cd benchmark/
pip3 install -e ./ --use-pep517
pip3 install -r requirements/api.txt
pip3 install -r requirements/extra.txt

性能测试

需要修改ais_bench/benchmark/configs/datasets/omnidocbench/omnidocbench_gen.py

path='ais_bench/datasets/OmniDocBench/OmniDocBench.json', # 数据集路径,使用相对路径时相对于源码根路径,支持绝对路径
image_path='ais_bench/datasets/OmniDocBench/images',     #图片路径,必须使用绝对路径 

修改ais_bench/benchmark/configs/models/vllm_api/vllm_api_stream_chat.py 参考Aisbench官网配置即可

性能测试指令

ais_bench --models vllm_api_stream_chat --datasets omnidocbench_gen --debug --mode perf

精度测试

需要安装依赖,进入benchmark路径

pip3 install -r requirements/datasets/omnidocbench_dependencies.txt

精度测试指令

ais_bench --models vllm_api_stream_chat --datasets omnidocbench_gen --debug