为评估 GLM-4.6 在真实场景中的智能体编码能力,我们以 Claude Code 作为智能体编码测试平台,开发了 CC-Bench-V1.1。在 CC-Bench-V1.0 的基础上,我们新增了 22 个更具挑战性的编码任务,并针对 Claude-Sonnet-4、GLM-4.5、Kimi-K2-0905 和 DeepSeek-V3.1-Terminus 进行了全面评估。该基准包含 74 个编码任务,涵盖前端开发、工具开发、数据分析、测试和算法实现等领域,所有模型的完整智能体轨迹均被记录。
我们的评估数据集包含 74 个编码任务,分为六大类别:
| 类别 | 描述 | 数量 | 任务 ID |
|---|---|---|---|
| Frontend Development | 使用 HTML5、CSS3、JavaScript 开发轻量级前端游戏和工具 | 17 | 1-7, 55, 56, 62-69 |
| Application Development | 使用 React、Node.js、Next.js、TypeScript、Go、iOS 开发管理系统、聊天系统、工具、移动应用 | 27 | 8-22, 53, 54, 57-61, 70-74 |
| UI/UX Optimization | 界面样式设计、用户体验优化、布局改进 | 13 | 23-35 |
| Build & Deployment | 项目构建、测试、部署相关问题解决 | 4 | 36-39 |
| Data Analysis | 数据处理、统计分析、可视化 | 5 | 40-44 |
| Machine Learning | 聚类、语音分析、图像处理、图像识别 | 8 | 45-52 |

在直接对比中:
GLM-4.6 相较于 GLM-4.5 有所提升,与 Claude Sonnet 4 基本持平(胜率 48.6%),同时明显优于其他开源基准模型。GLM-4.6 在每次交互的 token 使用效率方面也表现出色,token 消耗量低于其他开源模型。具体而言,GLM-4.6 平均使用 651,525 个 token,与 GLM-4.5(762,817 个 token)相比减少了 14.6%,与 Kimi-K2-0905(821,759 个)相比减少了 20.7%,与 DeepSeek-V3.1-Terminus(947,454 个)相比减少了 31.2%,凸显了其在成本效益和资源利用方面的显著优势。
可使用 Hugging Face datasets 库加载此数据集:
from datasets import load_dataset
# Load the dataset
dataset = load_dataset("zai-org/CC-Bench-trajectories")
# Access the training data
train_data = dataset["train"]
# View dataset structure
print(train_data)
print(train_data.features)
# Access a specific trajectory
trajectory = train_data[0]["trajectory"]
model_name = train_data[0]["model_name"]
task_category = train_data[0]["task_category"]该数据集包含以下字段:
id:每条记录的唯一标识符task_id:编码任务的 ID(1-74)trajectory:完整的 Claude Code 交互轨迹model_name:AI 模型的名称(GLM-4.6、Claude-Sonnet-4、GLM-4.5、Kimi-K2-0905、DeepSeek-V3.1-Terminus)task_category:任务的类别(application_development、build_deployment、data_analysis、frontend_development、machine_learning、ui_optimization)user_messages:轨迹中的用户消息数量assistant_messages:轨迹中的助手消息数量total_input_tokens:消耗的总输入 tokens 数total_output_tokens:生成的总输出 tokens 数total_tokens:总 tokens 数(输入 + 输出)tool_calls:发起的工具调用次数tool_failures:失败的工具调用次数failure_rate:工具调用失败率(百分比)