CL-bench 是一个用于评估语言模型上下文学习能力的基准测试。
在 CL-bench 中完成任务,要求模型从提供的上下文中学习,包括新的领域特定知识、规则系统、复杂流程以及从经验数据中得出的规律,而非仅仅依赖预训练知识。
访问 www.clbench.com 查看完整排行榜和最新结果!
数据集中的每个样本包含以下字段:
| 字段 | 类型 | 描述 |
|---|---|---|
messages | list | OpenAI 聊天格式的多轮对话 |
rubrics | list | 评估标准列表(字符串) |
metadata | dict | 包含 task_id、context_id、context_category、sub_category |
messages 字段messages 字段遵循标准的 OpenAI 聊天格式:
[
{"role": "system", "content": "system prompt"},
{"role": "user", "content": "context and task"}
]rubrics 字段字符串列表,每个字符串描述一个具体的评价标准。
metadata 字段{
"task_id": "unique identifier for task",
"context_id": "unique identifier for context",
"context_category": "Rule System Application",
"sub_category": "Game Mechanics"
}详情请参见我们的 GitHub 仓库:github.com/Tencent-Hunyuan/CL-bench
CL-Bench 采用自定义仅评估许可证发布。
特此授予任何获得本数据集及相关文档文件(以下简称“数据集”)副本的个人,免费使用、复制、修改、合并、发布和分发该数据集的权利,仅用于模型的评估、测试和基准测试目的。
严禁将数据集(或其任何部分)用于训练、微调、校准、蒸馏、适配或任何形式的参数更新。
完整许可证文本请参阅 LICENSE 文件。
如果您发现我们的工作对您有所帮助,请按以下方式引用:
@misc{dou2026clbenchbenchmarkcontextlearning,
title={CL-bench: A Benchmark for Context Learning},
author={Shihan Dou and Ming Zhang and Zhangyue Yin and Chenhao Huang and Yujiong Shen and Junzhe Wang and Jiayi Chen and Yuchen Ni and Junjie Ye and Cheng Zhang and Huaibing Xie and Jianglu Hu and Shaolei Wang and Weichao Wang and Yanling Xiao and Yiting Liu and Zenan Xu and Zhen Guo and Pluto Zhou and Tao Gui and Zuxuan Wu and Xipeng Qiu and Qi Zhang and Xuanjing Huang and Yu-Gang Jiang and Di Wang and Shunyu Yao},
year={2026},
eprint={2602.03587},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2602.03587},
}