English | [中文]
VIBE (Visual & Interactive Benchmark for Execution) 确立了评估大语言模型(LLM)全栈软件工程能力的新标准。超越了近期依赖静态截图或固定工作流快照的现有基准,VIBE 首创 Agent-as-a-Verifier (AaaV) 范式,旨在精准评估模型“从零到一”构建生产级应用的真实能力。
通过将智能体部署在动态的容器化沙盒中,VIBE 从与其名称一一对应的三个关键维度进行分层评估:
本仓库包含了 VIBE 基准测试的基础数据:
| 子集 | 描述 |
|---|---|
| Web | 对美学标准和复杂 DOM 交互有较高要求的现代前端应用 |
| Simulation | 需要高保真渲染的科学原理仿真(物理、化学、计算机科学) |
| Android | 原生 Android 应用开发 (Kotlin/Java) |
| iOS | 原生 iOS 应用开发 (Swift/Objective-C) |
| Backend | 侧重于 API 完整性与架构设计的服务端系统 |
| 子集 | 简单 (Easy) | 中等 (Medium) | 困难 (Hard) | 总计 |
|---|---|---|---|---|
| Web | 13 | 14 | 13 | 40 |
| Simulation | 13 | 14 | 13 | 40 |
| Android | 13 | 14 | 13 | 40 |
| iOS | 13 | 14 | 13 | 40 |
| Backend | 13 | 14 | 13 | 40 |
| 总计 | 65 | 70 | 65 | 200 |
每个任务均为一个 JSON 对象,包含以下字段:
{
"idx": 1,
"query": "Design and build a portfolio site for a top-tier design agency...",
"domain": "web",
"difficulty": "easy"
}
| 字段 | 描述 |
|---|---|
idx | 唯一的任务标识符 |
query | 自然语言形式的需求规范 |
domain | 领域分类: web, simulation, android, ios, backend |
difficulty | 难度等级: easy (简单), medium (中等), hard (困难) |
from datasets import load_dataset
# 加载完整数据集
dataset = load_dataset("MiniMaxAI/VIBE")
# 加载特定领域数据集 (例如: web)
web_tasks = dataset.filter(lambda x: x["domain"] == "web")
# 加载特定难度数据集 (例如: easy)
easy_tasks = dataset.filter(lambda x: x["difficulty"] == "easy")
VIBE 的得分通过一套统一的流水线计算得出:
@misc{vibe2025,
title={VIBE: Visual & Interactive Benchmark for Execution in Application Development},
author={MiniMax},
year={2025},
publisher={Hugging Face}
}