模型类型: Vicuna 是一款开源聊天机器人,通过在从 ShareGPT 收集的用户共享对话上对 LLaMA 进行微调训练而成。 它是一种基于 Transformer 架构的自回归语言模型。
模型日期: Vicuna 的训练时间为 2023 年 3 月至 2023 年 4 月。
开发该模型的机构: Vicuna 团队,其成员来自加州大学伯克利分校、卡内基梅隆大学、斯坦福大学和加州大学圣地亚哥分校。
了解更多信息的论文或资源: https://vicuna.lmsys.org/
许可证: Apache License 2.0
关于模型的问题或意见反馈渠道: https://github.com/lm-sys/FastChat/issues
主要预期用途: Vicuna 的主要用途是用于大型语言模型和聊天机器人的研究。
主要预期用户: 该模型的主要预期用户是自然语言处理、机器学习和人工智能领域的研究人员与爱好者。
从 ShareGPT.com 收集的 7 万条对话。
通过创建一组包含 80 个多样化问题并利用 GPT-4 对模型输出进行评判,对模型质量进行了初步评估。更多详情请参见 https://vicuna.lmsys.org/。
"###" 更改为 EOS token "</s>"。此更改使确定生成停止条件变得更加容易,并能更好地与其他库兼容。您可以这样使用该模型:
import argparse
import torch
from openmind import pipeline, is_torch_npu_available
def parse_args():
parser = argparse.ArgumentParser()
parser.add_argument(
"--model_name_or_path",
type=str,
help="Path to model",
default=None,
)
args = parser.parse_args()
return args
def main():
args = parse_args()
model_path = args.model_name_or_path
print(model_path)
if is_torch_npu_available():
device = "npu:0"
else:
device = "cpu"
generator = pipeline('text-generation', model=model_path, device=device)
output = generator("Hello, I'm a language model,")
print(output)
if __name__ == "__main__":
main()