HuggingFace镜像/Vintern-1B-v2-ViTable-docvqa
模型介绍文件和版本分析

Vintern-1B-v2-ViTable-docvqa

报告链接👁️

Vintern-1B-v2-ViTable-docvqa 是 5CD-AI/Vintern-1B-v2 多模态模型针对越南语 DocVQA(表格数据)的微调版本。

基准测试

模型ANLS语义相似度MLLM-as-judge (Gemini)
Gemini 1.5 Flash0.350.560.40
Vintern-1B-v20.040.450.50
Vintern-1B-v2-ViTable-docvqa0.500.710.59

使用方法

查看此 🤗 HF 演示,或者您可以在 Colab 中打开:
在 Colab 中打开

引用:

@misc{doan2024vintern1befficientmultimodallarge,
      title={Vintern-1B: An Efficient Multimodal Large Language Model for Vietnamese}, 
      author={Khang T. Doan and Bao G. Huynh and Dung T. Hoang and Thuc D. Pham and Nhat H. Pham and Quan T. M. Nguyen and Bang Q. Vo and Suong N. Hoang},
      year={2024},
      eprint={2408.12480},
      archivePrefix={arXiv},
      primaryClass={cs.LG},
      url={https://arxiv.org/abs/2408.12480}, 
}
下载使用量0