中文 | English
cloudyu 基于我们的模型创建了一系列排名靠前的 MOETigerbot 变体已被 删除,SUS-Chat-34B 现已成为排名第一的 LLaMA 模型和排名第一的聊天模型。
SUS-Chat-34B 是一款340亿参数的中英双语对话模型,由南方科技大学(Southern University of Science and Technology)与IDEA-CCNL(IDEA-CCNL)联合发布。该模型基于 01-ai/Yi-34B 构建,并在数百万条高质量多语言指令数据上进行了微调。在保留基础模型强大语言能力的同时,SUS-Chat-34B 通过高质量指令微调提升了模型对人类指令的响应能力,并擅长通过思维链模仿人类思考过程。它在长文本中引入了指令间注意力共享机制,将上下文窗口大小从4K扩展至8K,显著增强了多轮对话的实用性。
该模型在几乎所有同规模模型的基准测试中均表现卓越,更能满足复杂多语言任务的实际需求。与更大规模的模型相比,SUS-Chat-34B 依然保持着高度竞争力,并在我们的综合评估中取得了最先进的性能。
SUS-Chat-34B 模型具有以下亮点:
SUS-Chat 有力地证明,通过恰当的指令微调,学术机构无需增加模型参数,利用开源数据集和模型即可实现更优性能。这弥合了学术界与工业界在大型语言模型领域的差距,并为学术界与产业界的合作开辟了新的可能性。
为了更全面地评估SUS-Chat-34B模型的性能,我们在多个基准测试中进行了评估,并开源了评估框架TLEM,以便其他研究人员进行复现和对比。
在TLEM中,我们采用了包括MMLU、CMMLU、C-Eval、BBH、GSM-8K和MATH在内的多种基准测试,以衡量模型的知识水平和思维能力。在这些指标上,SUS-Chat-34B模型均取得了最先进的性能。此外,我们还结合了lm-eval,在winogrande、hellaswag、arc和truthful-qa等任务上对SUS-Chat及同类模型进行测试,评估模型的常识推理能力和幻觉倾向。
总体而言,SUS-Chat-34B模型显著优于同规模模型,取得了最先进的综合性能。

英语理解能力
| 中文能力
|
C-Eval结果基于验证数据集进行评估↩︎
| 模型 | gsm8k(零样本) | MATH(零样本) | BBH(零样本) |
|---|---|---|---|
| GPT-4 | 91.4 | 45.8 | 86.7 |
| SUS-Chat-34B | 80.06 | 28.7 | 67.62 |
| Qwen-72b-Chat | 76.57 | 35.9 | 72.63 |
| Deepseek-68b-Chat | 74.45 | 29.56 | 69.73 |
| OrionStar-Yi-34B-Chat | 54.36 | 12.8 | 62.88 |
| Yi-34B-Chat | 63.76 | 10.02 | 61.54 |
| 模型 | winogrande(5样本) | arc(25样本) | hellaswag(10样本) | TruthfulQA mc1(零样本) | TruthfulQA mc2(零样本) |
|---|---|---|---|---|---|
| GPT-4 | — | 94.5 | 91.4 | 59.00 | — |
| SUS-Chat-34B | 81.22 | 81.54 | 83.79 | 40.64 | 57.47 |
| Qwen-72b-Chat | 76.09 | 82.10 | 86.06 | 39.17 | 56.37 |
| Deepseek-68b-Chat | 80.58 | 81.29 | 87.02 | 40.02 | 50.64 |
| OrionStar-Yi-34B-Chat | 77.27 | 80.19 | 84.54 | 36.47 | 53.24 |
| Yi-34B-Chat | 76.64 | 70.66 | 82.29 | 38.19 | 54.57 |
| 模型 | 平均值 |
|---|---|
| SUS-Chat-34B | 69.05 |
| Qwen-72b-Chat | 68.41 |
| Deepseek-68b-Chat | 62.91 |
| OrionStar-Yi-34B-Chat | 60.21 |
| Yi-34B-Chat | 59.72 |
如需复现结果,请启动相应的vllm服务器并参考此处。
SUS-Chat-34B 是一个标准的 LLaMA 模型,应能与 LLaMA 生态系统无缝兼容。我们提供以下示例,展示如何将其用于多轮对话。
如有任何问题,欢迎随时提交 issue。
from transformers import AutoModelForCausalLM, AutoTokenizer # 🤗 Transformers, or
# from modelscope import AutoModelForCausalLM, AutoTokenizer # 🤖 ModelScope
def chat_template(messages):
history = ""
for message in messages:
match message:
case {"role": "user", "content": message}:
history += f"### Human: {message}\n\n### Assistant: "
case {"role": "assistant", "content": message}:
history += message
return history
model_path = "SUSTech/SUS-Chat-34B"
# model_path = "SUSTC/SUS-Chat-34B" # ModelScope
tokenizer = AutoTokenizer.from_pretrained(model_path, use_fast=False)
model = AutoModelForCausalLM.from_pretrained(
model_path, device_map="auto", torch_dtype="auto"
).eval()
messages = [{"role": "user", "content": "hi"}]
input_ids = tokenizer.encode(
chat_template(messages), return_tensors="pt", add_special_tokens=False
).to("cuda")
output_ids = model.generate(input_ids.to("cuda"), max_length=256)
response = tokenizer.decode(
output_ids[0][input_ids.shape[1] :], skip_special_tokens=False
)
messages.append({"role": "assistant", "content": response})
# Second round
messages.append({"role": "user", "content": "What is the capital of China?"})
input_ids = tokenizer.encode(
chat_template(messages), return_tensors="pt", add_special_tokens=False
).to("cuda")
output_ids = model.generate(input_ids.to("cuda"), max_length=256)
response = tokenizer.decode(
output_ids[0][input_ids.shape[1] :], skip_special_tokens=False
)
messages.append({"role": "assistant", "content": response})SUS-Chat 仅经过监督微调,尚未进行人类偏好学习训练。因此,在某些情况下,它可能会产生不合理的响应,并加剧语言模型中已存在的问题,包括幻觉、非确定性和累积误差。为了在下游任务中获得更好的性能,建议相应地调整生成配置参数。
在训练过程中,我们使用了数据合规性检查算法,以尽可能确保训练模型的合规性。由于数据的复杂性和语言模型的多样化使用场景,我们无法保证模型在所有情况下都能产生正确合理的输出。请注意,模型仍存在生成问题输出的风险。对于因误用、误导、非法使用及相关虚假信息所引发的任何风险或问题,以及与模型相关的数据安全问题,我们不承担责任。