本仓库包含 DISC-LawLLM,其基础模型版本为 Baichuan-13b-base。
请注意,由于项目仍在持续开发中,本仓库中的模型权重可能与当前部署的演示系统存在差异。
DISC-LawLLM 是由复旦大学数据智能与社会计算实验室(Fudan-DISC)开发并开源的中文法律领域大语言模型,旨在提供全面的智能法律服务。其核心优势包括:
此外,本项目的主要贡献包括:
更多信息请访问项目主页。
我们构建了高质量的有监督微调数据集 DISC-Law-SFT,包含 DISC-Law-SFT-Pair 和 DISC-Law-SFT-Triplet 两个子集。该数据集覆盖法律信息抽取、判决预测、文书摘要、法律问答等多类法律任务,确保多样化场景的覆盖。
| 数据集 | 任务/来源 | 规模 | 应用场景 |
|---|---|---|---|
| DISC-LawLLM-SFT-Pair | 法律信息抽取 | 32K | 法律专业助手 |
| 法律事件检测 | 27K | ||
| 案件分类 | 20K | ||
| 司法判决预测 | 11K | ||
| 案件匹配 | 8K | ||
| 法律文本摘要 | 9K | ||
| 司法舆情摘要 | 6K | ||
| 法律问答 | 93K | 法律咨询服务 | |
| 法律阅读理解 | 38K | 司法考试助手 | |
| 司法考试 | 12K | ||
| DISC-LawLLM-SFT-Triple | 司法判决预测 | 16K | 法律专业助手 |
| 法律问答 | 23K | 法律咨询服务 | |
| 通用数据 | Alpaca-GPT4 | 48K | 通用场景 |
| Firefly | 60K | ||
| 总计 | 403K | ||
>>>import torch
>>>>>>from transformers import AutoModelForCausalLM, AutoTokenizer
>>>from transformers.generation.utils import GenerationConfig
>>>tokenizer = AutoTokenizer.from_pretrained("ShengbinYue/DISC-LawLLM", use_fast=False, trust_remote_code=True)
>>>model = AutoModelForCausalLM.from_pretrained("ShengbinYue/DISC-LawLLM", device_map="auto", torch_dtype=torch.float16, trust_remote_code=True)
>>>model.generation_config = GenerationConfig.from_pretrained("ShengbinYue/DISC-LawLLM")
>>>messages = []
>>>messages.append({"role": "user", "content": "生产销售假冒伪劣商品罪如何判刑?"})
>>>response = model.chat(tokenizer, messages)
>>>print(response)DISC-LawLLM 仍存在当前大语言模型尚未克服的问题与局限性。尽管该模型能够在多种任务和场景中提供中国法律服务,但其输出结果仅供参考,不可替代专业律师和法律专家的意见。我们鼓励 DISC-LawLLM 的用户以审慎态度评估模型输出。对于因使用 DISC-LawLLM 可能产生的任何问题、风险或不良后果,我们不承担相关责任。
若我们的工作对您有所帮助,请参考以下方式引用:
@misc{yue2023disclawllm,
title={DISC-LawLLM: Fine-tuning Large Language Models for Intelligent Legal Services},
author={Shengbin Yue and Wei Chen and Siyuan Wang and Bingxuan Li and Chenchen Shen and Shujun Liu and Yuxuan Zhou and Yao Xiao and Song Yun and Wei Lin and Xuanjing Huang and Zhongyu Wei},
year={2023},
eprint={2309.11325},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
@inproceedings{yue2024lawllm,
title={LawLLM: Intelligent Legal System with Legal Reasoning and Verifiable Retrieval},
author={Yue, Shengbin and Liu, Shujun and Zhou, Yuxuan and Shen, Chenchen and Wang, Siyuan and Xiao, Yao and Li, Bingxuan and Song, Yun and Shen, Xiaoyu and Chen, Wei and others},
booktitle={International Conference on Database Systems for Advanced Applications},
pages={304--321},
year={2024},
organization={Springer}
}本仓库中源代码的使用遵循 Apache 2.0 许可证规范。