讨论列表 - CL-bench:专注于评估语言模型从提供的上下文中学习新知识、规则系统和复杂程序的能力，包含1899个任务，分为4大类18个子类，支持模型评测与对比。【此简介由AI生成】