import argparse
import torch
from openmind import is_torch_npu_available, AutoTokenizer, AutoModelForCausalLM
import time
def parse_args():
parser = argparse.ArgumentParser()
parser.add_argument(
"--model_name_or_path",
type=str,
help="Path to model",
default=None,
)
args = parser.parse_args()
return args
def main():
start_time = time.time() # 记录开始时间
args = parse_args()
if args.model_name_or_path:
model_path = args.model_name_or_path
else:
model_path = "BioMedGPT-LM-7B"
if is_torch_npu_available():
device = "npu:0"
else:
device = "cpu"
# device='npu:0'
device = 'cpu'
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForCausalLM.from_pretrained(model_path).to(device)
input_ids = tokenizer("Gra", return_tensors='pt').to(model.device)["input_ids"]
output = model.generate(input_ids, max_new_tokens=48, do_sample=True, temperature=0.7)
print(tokenizer.decode(output[0]))
end_time = time.time() # 记录结束时间
elapsed_time = end_time - start_time # 计算差值
print(f"{device}:Program finished in {elapsed_time:.2f} seconds.") # 打印运行时间
if __name__ == "__main__":
main()BioMedGPT-LM-7B 是首个基于 Llama2 的生物医学领域大型生成式语言模型。 该模型在 Llama2-7B-Chat 的基础上,利用 S2ORC 语料库 中的数百万篇生物医学论文进行了微调。通过进一步的微调,BioMedGPT-LM-7B 在多个生物医学问答基准测试中表现优于人类或与人类相当,并且显著优于规模更大的通用基础模型。
模型训练使用了以下超参数:
BioMedGPT-LM-7B 在超过 260 亿个与生物医学领域高度相关的标记上进行了微调。微调数据是从 S2ORC 数据中的数百万篇生物医学论文中提取的,筛选标准为包含 PubMed Central(PMC)ID 和 PubMed ID。
PharMolix
BioMedGPT-LM-7B 是 BioMedGPT-10B 的生成式语言模型,后者是 BioMedGPT 的开源版本。 BioMedGPT 是一个面向生物医学的开放式多模态生成预训练转换器(GPT),它通过大型生成式语言模型连接自然语言模态与多种生物医学数据模态。

有关 BioMedGPT-LM-7B、BioMedGPT-10B 和 BioMedGPT 的更多技术细节,请参见技术报告:"BioMedGPT: Open Multimodal Generative Pre-trained Transformer for BioMedicine"。
https://github.com/PharMolix/OpenBioMed
本仓库包含 BioMedGPT-LM-7B,我们强调应负责任且符合伦理地使用此模型。BioMedGPT-LM-7B 不得用于向公众提供服务。严禁生成任何违反适用法律法规的内容,例如煽动颠覆国家政权、危害国家安全和利益、传播恐怖主义、极端主义、民族仇恨与歧视、暴力、色情或虚假有害信息等。对于用户提供或发布的任何内容、数据或信息所引发的任何后果,BioMedGPT-LM-7B 不承担责任。
本仓库采用 Apache-2.0 许可协议。使用 BioMedGPT-LM-7B 模型需遵守 可接受使用政策。