HuggingFace镜像/ner-bertje-tagdetekst
模型介绍文件和版本分析
下载使用量0

AI 训练集 – 用于命名实体识别(NER)的文本标注 NER AI 训练集由 VeleHanden.nl 上“标注文本”众包项目的约 150 名志愿者于 2020 年创建。在 10,567 份扫描件的早期开发的 Ground Truth 转录文本(GT 转录文本)中,对人名、地点和时间指示进行了标注,并由三位经验丰富的超级用户进行了审核。“标注文本”的输入说明中提供了所用定义的详细描述。荷兰语文本的时间跨度为 17 世纪至 19 世纪,包括来自阿姆斯特丹、哈勒姆以及其他七个省份的公证文本,以及荷兰东印度公司(VOC)的档案。这些文本来源于阿姆斯特丹市档案馆、国家档案馆、北荷兰档案馆以及七个其他地区历史中心:Tresoar、海尔德兰档案馆、格罗宁根档案馆、布拉班特历史信息中心、泽兰档案馆、林堡历史中心、乌得勒支档案馆和上艾瑟尔省档案馆。该 AI 训练集是在“揭示冰山”项目(zoekintranscripties.nl)和“档案馆智能搜索”项目(archieveninbeeld.nl)的框架内开发的。

产品详情 数据格式 XML 年份 2022 项目 VeleHanden.nl 上的“标注文本” 实施方 Picturae、Aincient、Sioux Technologies、Islands of Meaning、参与档案馆以及 VeleHanden.nl 的志愿者 文档说明 引用 AI-Trainingset for NER (Version 1.0) (2022) [数据集]。可在荷兰语言研究所获取:https://hdl.handle.net/10032/tm-a2-v2 语言 荷兰语 许可证 知识共享署名 4.0 国际许可协议 版本 1.0

与 openMind 配合使用

环境变量

# source environment variable
source /usr/local/Ascend/ascend-toolkit/set_env.sh
export OPENMIND_FRAMEWORK=pt

pip install openMind Library

OpenMind Library 可通过 pip 进行安装,请根据实际环境选择相应命令进行安装。

需要注意的是,由于 torch npu 依赖于 torch,在 aarch64 环境下可直接通过 pip 安装,但在 x86 环境下需要特定 URL 下载 CPU 版本,因此两种环境下的安装命令有所不同。具体安装代码已在下文进行区分呈现。

# aarch64
pip install openmind[all]
# x86
pip install openmind[all] --extra-index-url https://download.pytorch.org/whl/cpu

推理

from openmind import AutoTokenizer, AutoModelForCausalLM
import torch
import torch_npu

model_dir = "HangZhou_Ascend/ner-bertje-tagdetekst"
tokenizer = AutoTokenizer.from_pretrained(model_dir, device_map="auto", trust_remote_code=True)
# Set `torch_dtype=torch.float16` to load model in float16, otherwise it will be loaded as float32 and might cause OOM Error.
model = AutoModelForCausalLM.from_pretrained(model_dir, device_map="auto",  trust_remote_code=True, torch_dtype=torch.float16)
model = model.eval()
response, history = model.chat(tokenizer, "1+1=", history=[], meta_instruction="")
print(response)