HuggingFace镜像/DISC-LawLLM
模型介绍文件和版本分析
下载使用量0

本仓库包含 DISC-LawLLM,其基础模型版本为 Baichuan-13b-base。

演示系统 | 技术报告

请注意,由于项目仍在持续开发中,本仓库中的模型权重可能与当前部署的演示系统存在差异。

DISC-LawLLM 是由复旦大学数据智能与社会计算实验室(Fudan-DISC)开发并开源的中文法律领域大语言模型,旨在提供全面的智能法律服务。其核心优势包括:

  • 法律文本通用处理能力
  • 法律思维与推理能力
  • 法律知识检索能力

此外,本项目的主要贡献包括:

  • 高质量的有监督微调数据集与有效的训练范式
  • 中文法律大模型评估框架

更多信息请访问项目主页。

DISC-Law-SFT 数据集

我们构建了高质量的有监督微调数据集 DISC-Law-SFT,包含 DISC-Law-SFT-Pair 和 DISC-Law-SFT-Triplet 两个子集。该数据集覆盖法律信息抽取、判决预测、文书摘要、法律问答等多类法律任务,确保多样化场景的覆盖。

数据集任务/来源规模应用场景
DISC-LawLLM-SFT-Pair法律信息抽取32K法律专业助手
法律事件检测27K
案件分类20K
司法判决预测11K
案件匹配8K
法律文本摘要9K
司法舆情摘要6K
法律问答93K法律咨询服务
法律阅读理解38K司法考试助手
司法考试12K
DISC-LawLLM-SFT-Triple司法判决预测16K法律专业助手
法律问答23K法律咨询服务
通用数据Alpaca-GPT448K通用场景
Firefly60K
总计403K

通过 Hugging Face Transformers 使用

>>>import torch
>>>>>>from transformers import AutoModelForCausalLM, AutoTokenizer
>>>from transformers.generation.utils import GenerationConfig
>>>tokenizer = AutoTokenizer.from_pretrained("ShengbinYue/DISC-LawLLM", use_fast=False, trust_remote_code=True)
>>>model = AutoModelForCausalLM.from_pretrained("ShengbinYue/DISC-LawLLM", device_map="auto", torch_dtype=torch.float16, trust_remote_code=True)
>>>model.generation_config = GenerationConfig.from_pretrained("ShengbinYue/DISC-LawLLM")
>>>messages = []
>>>messages.append({"role": "user", "content": "生产销售假冒伪劣商品罪如何判刑?"})
>>>response = model.chat(tokenizer, messages)
>>>print(response)

免责声明

DISC-LawLLM 仍存在当前大语言模型尚未克服的问题与局限性。尽管该模型能够在多种任务和场景中提供中国法律服务,但其输出结果仅供参考,不可替代专业律师和法律专家的意见。我们鼓励 DISC-LawLLM 的用户以审慎态度评估模型输出。对于因使用 DISC-LawLLM 可能产生的任何问题、风险或不良后果,我们不承担相关责任。

引用声明

若我们的工作对您有所帮助,请参考以下方式引用:

@misc{yue2023disclawllm,
    title={DISC-LawLLM: Fine-tuning Large Language Models for Intelligent Legal Services}, 
    author={Shengbin Yue and Wei Chen and Siyuan Wang and Bingxuan Li and Chenchen Shen and Shujun Liu and Yuxuan Zhou and Yao Xiao and Song Yun and Wei Lin and Xuanjing Huang and Zhongyu Wei},
    year={2023},
    eprint={2309.11325},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

@inproceedings{yue2024lawllm,
  title={LawLLM: Intelligent Legal System with Legal Reasoning and Verifiable Retrieval},
  author={Yue, Shengbin and Liu, Shujun and Zhou, Yuxuan and Shen, Chenchen and Wang, Siyuan and Xiao, Yao and Li, Bingxuan and Song, Yun and Shen, Xiaoyu and Chen, Wei and others},
  booktitle={International Conference on Database Systems for Advanced Applications},
  pages={304--321},
  year={2024},
  organization={Springer}
}

许可证

本仓库中源代码的使用遵循 Apache 2.0 许可证规范。