CL-bench：上下文学习基准测试

数据集描述

CL-bench 是一个用于评估语言模型上下文学习能力的基准测试。

在 CL-bench 中完成任务，要求模型从提供的上下文中学习，包括新的领域特定知识、规则系统、复杂流程以及从经验数据中得出的规律，而非仅仅依赖预训练知识。

数据集统计信息

总样本数：1,899 个任务
格式：JSONL（每行一个 JSON 对象）
上下文类别：4 个主要类别，包含 18 个子类别
平均评分标准数：每个上下文 63.2 条
平均任务数：每个上下文 3.8 个

排行榜

访问 www.clbench.com 查看完整排行榜和最新结果！

数据集结构

数据字段

数据集中的每个样本包含以下字段：

字段	类型	描述
`messages`	list	OpenAI 聊天格式的多轮对话
`rubrics`	list	评估标准列表（字符串）
`metadata`	dict	包含 `task_id`、`context_id`、`context_category`、`sub_category`

`messages` 字段

messages 字段遵循标准的 OpenAI 聊天格式：

[
  {"role": "system", "content": "system prompt"},
  {"role": "user", "content": "context and task"}
]

`rubrics` 字段

字符串列表，每个字符串描述一个具体的评价标准。

`metadata` 字段

{
  "task_id": "unique identifier for task",
  "context_id": "unique identifier for context",
  "context_category": "Rule System Application",
  "sub_category": "Game Mechanics"
}

task_id：任务的唯一标识符
context_id：上下文的唯一标识符
context_category：4 个主要类别之一
sub_category：细粒度分类（共 18 个子类别）

用法

详情请参见我们的 GitHub 仓库：github.com/Tencent-Hunyuan/CL-bench

许可证

CL-Bench 采用自定义仅评估许可证发布。

特此授予任何获得本数据集及相关文档文件（以下简称“数据集”）副本的个人，免费使用、复制、修改、合并、发布和分发该数据集的权利，仅用于模型的评估、测试和基准测试目的。

严禁将数据集（或其任何部分）用于训练、微调、校准、蒸馏、适配或任何形式的参数更新。

完整许可证文本请参阅 LICENSE 文件。

引用

如果您发现我们的工作对您有所帮助，请按以下方式引用：

@misc{dou2026clbenchbenchmarkcontextlearning,
      title={CL-bench: A Benchmark for Context Learning}, 
      author={Shihan Dou and Ming Zhang and Zhangyue Yin and Chenhao Huang and Yujiong Shen and Junzhe Wang and Jiayi Chen and Yuchen Ni and Junjie Ye and Cheng Zhang and Huaibing Xie and Jianglu Hu and Shaolei Wang and Weichao Wang and Yanling Xiao and Yiting Liu and Zenan Xu and Zhen Guo and Pluto Zhou and Tao Gui and Zuxuan Wu and Xipeng Qiu and Qi Zhang and Xuanjing Huang and Yu-Gang Jiang and Di Wang and Shunyu Yao},
      year={2026},
      eprint={2602.03587},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2602.03587}, 
}

CL-bench：上下文学习基准测试

数据集描述

CL-bench 是一个用于评估语言模型上下文学习能力的基准测试。

数据集统计信息

总样本数：1,899 个任务
格式：JSONL（每行一个 JSON 对象）
上下文类别：4 个主要类别，包含 18 个子类别
平均评分标准数：每个上下文 63.2 条
平均任务数：每个上下文 3.8 个

排行榜

访问 www.clbench.com 查看完整排行榜和最新结果！

数据集结构

数据字段

数据集中的每个样本包含以下字段：

字段	类型	描述
`messages`	list	OpenAI 聊天格式的多轮对话
`rubrics`	list	评估标准列表（字符串）
`metadata`	dict	包含 `task_id`、`context_id`、`context_category`、`sub_category`

`messages` 字段

messages 字段遵循标准的 OpenAI 聊天格式：

[
  {"role": "system", "content": "system prompt"},
  {"role": "user", "content": "context and task"}
]

`rubrics` 字段

字符串列表，每个字符串描述一个具体的评价标准。

`metadata` 字段

{
  "task_id": "unique identifier for task",
  "context_id": "unique identifier for context",
  "context_category": "Rule System Application",
  "sub_category": "Game Mechanics"
}

task_id：任务的唯一标识符
context_id：上下文的唯一标识符
context_category：4 个主要类别之一
sub_category：细粒度分类（共 18 个子类别）

用法

详情请参见我们的 GitHub 仓库：github.com/Tencent-Hunyuan/CL-bench

许可证

CL-Bench 采用自定义仅评估许可证发布。

严禁将数据集（或其任何部分）用于训练、微调、校准、蒸馏、适配或任何形式的参数更新。

完整许可证文本请参阅 LICENSE 文件。

引用

如果您发现我们的工作对您有所帮助，请按以下方式引用：

@misc{dou2026clbenchbenchmarkcontextlearning,
      title={CL-bench: A Benchmark for Context Learning}, 
      author={Shihan Dou and Ming Zhang and Zhangyue Yin and Chenhao Huang and Yujiong Shen and Junzhe Wang and Jiayi Chen and Yuchen Ni and Junjie Ye and Cheng Zhang and Huaibing Xie and Jianglu Hu and Shaolei Wang and Weichao Wang and Yanling Xiao and Yiting Liu and Zenan Xu and Zhen Guo and Pluto Zhou and Tao Gui and Zuxuan Wu and Xipeng Qiu and Qi Zhang and Xuanjing Huang and Yu-Gang Jiang and Di Wang and Shunyu Yao},
      year={2026},
      eprint={2602.03587},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2602.03587}, 
}

CL-bench：上下文学习基准测试

数据集描述

数据集统计信息

排行榜

数据集结构

数据字段

messages 字段

rubrics 字段

metadata 字段

用法

许可证

引用

CL-bench：上下文学习基准测试

数据集描述

数据集统计信息

排行榜

数据集结构

数据字段

messages 字段

rubrics 字段

metadata 字段

用法

许可证

引用

`messages` 字段

`rubrics` 字段

`metadata` 字段

`messages` 字段

`rubrics` 字段

`metadata` 字段