多语言医学：模型、数据集、基准、代码

目前涵盖英语、中文、法语、印地语、西班牙语、印地语、阿拉伯语

👨🏻‍💻代码仓库 •📃 论文 • 🌐 演示 • 🤗 ApolloCorpus • 🤗 XMedBench
中文 | English

🌈 更新

[2024.04.25] MedJamba 已发布，训练和评估代码参见仓库。
[2024.03.07] 论文已发布。
[2024.02.12] ApolloCorpus 和 XMedBench 已发布！🎉
[2024.01.23] Apollo 仓库已发布！🎉

结果

Apollo

使用格式

用户:{query}\n助手:{response}<|endoftext|>

数据集与评估

数据集 🤗 ApolloCorpus
点击展开
- 压缩文件
- 数据类别
  - 预训练：
    - 数据项：
      
      json名称：{data_source}{language}{data_type}.json
      
      数据类型：medicalBook（医学书籍）、medicalGuideline（医学指南）、medicalPaper（医学论文）、medicalWeb（来自在线论坛）、medicalWiki（医学维基）
      
      语言：en（英语）、zh（中文）、es（西班牙语）、fr（法语）、hi（印地语）
      
      数据类型：qa（从文本生成的问答）
      
      数据类型==text：字符串列表
      [ "string1", "string2", ... ]
      
      数据类型==qa：问答对列表（字符串列表）
      [ [ "q1", "a1", "q2", "a2", ... ], ... ]
  - 指令微调（SFT）：
    - json名称：{data_source}_{language}.json
    - 数据类型：code（代码）、general（通用）、math（数学）、medicalExam（医学考试）、medicalPatient（医学患者）
    - 数据项：问答对列表（字符串列表）
      [ [ "q1", "a1", "q2", "a2", ... ], ... ]
评估 🤗 XMedBench
点击展开
- 英语（EN）：
  - MedQA-USMLE
  - MedMCQA
  - PubMedQA：由于结果波动过大，未在论文中使用。
  - MMLU-Medical
    - 临床知识、医学遗传学、解剖学、专业医学、大学生物学、大学医学
- 中文（ZH）：
  - MedQA-MCMLE
  - CMB-single：未在论文中使用
    - 随机抽取2000道单选题。
  - CMMLU-Medical
    - 解剖学、临床知识、大学医学、遗传学、营养学、中医学、病毒学
  - CExam：未在论文中使用
    - 随机抽取2000道多选题
- 西班牙语（ES）：Head_qa
- 法语（FR）：Frenchmedmcqa
- 印地语（HI）：MMLU_HI
  - 临床知识、医学遗传学、解剖学、专业医学、大学生物学、大学医学
- 阿拉伯语（AR）：MMLU_Ara
  - 临床知识、医学遗传学、解剖学、专业医学、大学生物学、大学医学

结果复现

from openmind import AutoTokenizer, AutoModelForCausalLM import openmind import torch import torch_npu import argparse

def parse_args(): parser = argparse.ArgumentParser() parser.add_argument( "--model_name_or_path", type=str, help="模型路径", default="LF_AICC/Apollo-7B", ) args = parser.parse_args() return args

args = parse_args()
model = args.model_name_or_path

tokenizer = AutoTokenizer.from_pretrained(model)
pipeline = openmind.pipeline(
    "text-generation",
    model=model,
    tokenizer=tokenizer,
    torch_dtype=torch.bfloat16,
    device_map="auto",
)
sequences = pipeline(
  "<|im_start|>user\nDoes P=NP?<|im_end|>\n<|im_start|>assistant\n",
    max_length=256,
    do_sample=True,
    top_k=10,
    num_return_sequences=1,
    eos_token_id=tokenizer.eos_token_id,
)
for seq in sequences:
    print(f"Result: {seq['generated_text']}")

引用说明

如果您打算使用我们的数据集进行训练或评估，请使用以下引用格式：

@misc{wang2024apollo,
   title={Apollo: Lightweight Multilingual Medical LLMs towards Democratizing Medical AI to 6B People},
   author={Xidong Wang and Nuo Chen and Junyin Chen and Yan Hu and Yidong Wang and Xiangbo Wu and Anningzhe Gao and Xiang Wan and Haizhou Li and Benyou Wang},
   year={2024},
   eprint={2403.03640},
   archivePrefix={arXiv},
   primaryClass={cs.CL}
}

多语言医学：模型、数据集、基准、代码

目前涵盖英语、中文、法语、印地语、西班牙语、印地语、阿拉伯语

🌈 更新

[2024.04.25] MedJamba 已发布，训练和评估代码参见仓库。

[2024.03.07] 论文已发布。

[2024.02.12] ApolloCorpus 和 XMedBench 已发布！🎉

[2024.01.23] Apollo 仓库已发布！🎉