Vicuna 模型卡片

模型详情

模型类型： Vicuna 是一款开源聊天机器人，通过在从 ShareGPT 收集的用户共享对话上对 LLaMA 进行微调训练而成。它是一种基于 Transformer 架构的自回归语言模型。

模型日期： Vicuna 的训练时间为 2023 年 3 月至 2023 年 4 月。

开发该模型的机构： Vicuna 团队，其成员来自加州大学伯克利分校、卡内基梅隆大学、斯坦福大学和加州大学圣地亚哥分校。

了解更多信息的论文或资源： https://vicuna.lmsys.org/

许可证： Apache License 2.0

关于模型的问题或意见反馈渠道： https://github.com/lm-sys/FastChat/issues

预期用途

主要预期用途： Vicuna 的主要用途是用于大型语言模型和聊天机器人的研究。

主要预期用户： 该模型的主要预期用户是自然语言处理、机器学习和人工智能领域的研究人员与爱好者。

训练数据集

从 ShareGPT.com 收集的 7 万条对话。

评估数据集

通过创建一组包含 80 个多样化问题并利用 GPT-4 对模型输出进行评判，对模型质量进行了初步评估。更多详情请参见 https://vicuna.lmsys.org/。

权重 v1.1 的主要更新

重构了分词和分隔符。在 Vicuna v1.1 中，分隔符已从 "###" 更改为 EOS token "</s>"。此更改使确定生成停止条件变得更加容易，并能更好地与其他库兼容。
修复了监督微调损失计算，以提升模型质量。

使用方法（OpenMind）

您可以这样使用该模型：

import argparse
import torch
from openmind import pipeline, is_torch_npu_available

def parse_args():
    parser = argparse.ArgumentParser()
    parser.add_argument(
        "--model_name_or_path",
        type=str,
        help="Path to model",
        default=None,
    )
    args = parser.parse_args()
    return args

def main():
    args = parse_args()
    model_path = args.model_name_or_path
    print(model_path)

    if is_torch_npu_available():
        device = "npu:0"
    else:
        device = "cpu"

    generator = pipeline('text-generation', model=model_path, device=device)
    output = generator("Hello, I'm a language model,")
    print(output)


if __name__ == "__main__":
    main()