计算机上篇聚焦计算机学科的概念辨析,覆盖判断、单选、多选、填空。赋能智能题库辨析概念差异,辅助学生厘清易混知识点;为模型输入基础概念的推理数据,提升对计算机底层逻辑的理解与判断准确性。
在数据质量方面,所有数据均通过严格的清洗、校验与标注流程,确保数据的准确性与规范性,并统一数据格式,为模型训练与教育应用提供高可靠性支撑。
本次开源以“教学-推理双赋能”为核心,通过全量开放、生态共建,构建可持续的数据应用生态。数据集紧密关联高等教育教学实际,确保数据的教育实用性与推理训练针对性,既满足教育信息化发展的迫切需求,又与大模型研发的实际场景紧密衔接,在持续的应用与反馈中,加速教育智能技术与大模型推理能力向实际场景落地跃迁,为教育数字化转型与AI模型创新发展夯实数据底座。
与传统数据集不同,我们不仅提供标准答案,更为每个问题配备了由先进大语言模型(LLM)多次独立生成的“采样答案”及其详尽的“思考链”(reasoning_content)。所有采样结果都经过了自动化评估流水线检验,尽量使得最终产出的数据在正确性、逻辑性和一致性上都达到高标准。
数据集采用 JSON Lines (.jsonl) 格式,每行是一个独立的JSON对象。
| 字段名 | 类型 | 说明 |
|---|---|---|
id | String | 唯一的记录标识符。由question的MD5值生成。 |
subject | String | 学科领域,例如:“物理”、“计算机科学”。 |
qtype | String | 题目类型,例如:“简答题”、“选择题”。 |
question | String | 问题描述,即题目的正文。 |
choices | Array<String> 或 null | 选项列表。对于非选择题,此字段为null。 |
answer | Array<String> | 标准答案。设计为数组以兼容多选题和答案较长的简答题。 |
explanation | String 或 null | 答案解析。对标准答案的官方解释或知识点说明。 |
sampling_results | Array<Object> | 核心字段,包含了对同一问题由LLM多次生成的结果以及对这些结果的评估。详见下文。 |
sampling_results 内部字段sampling_results 字段是一个数组,其中每个元素都是一个对象,代表一次完整的“模型生成-评估”流程。
| 字段名 | 类型 | 说明 |
|---|---|---|
content | String | 模型生成内容。LLM针对 question 生成的完整回答文本。其中,最终的核心答案通常用 \boxed{...} 格式包裹,并支持Markdown及LaTeX公式。 |
reasoning_content | String | 模型推理过程。记录了模型在生成 content 时的“思考链”(Chain-of-Thought),是本数据集的核心价值之一。 |
is_correct | Boolean | 正确性评估。这是一个由自动化审核脚本填充的布尔值。true 表示该条采样结果被判定为正确,false 表示被判定为错误。 |
[
{
"id": "fbd15c9ecd9aceeea64717c99cbf9ad5",
"subject": "计算机科学",
"qtype": "判断题",
"question": "在关系数据库中,外键用于维护表之间的关联关系,并确保数据的一致性。",
"choices": null,
"answer": [
"正确"
],
"explanation": "外键在关系数据库中用于建立和维持表与表之间的联系。它引用另一个表的主键,以确保外键列中的数据与被引用表的主键列中的数据一致。这种机制有助于保持数据一致性,防止破坏表之间关联的行为,比如删除一个在其他表中被引用的记录。通过这种方式,外键能够有效地保证数据完整性。",
"sampling_results": [
{
"content": "\\boxed{正确}",
"reasoning_content": "\n用户现在需要解决这个关于关系数据库外键的判断题。首先,回忆一下外键的定义和作用:外键是一个表中的字段(或字段组合),它引用另一个表的主键或唯一键。它的主要作用就是维护表之间的关联关系,比如主表和从表的关系,并且确保数据的一致性,比如参照完整性——从表不能插入主表中不存在的外键值,主表不能删除被从表引用的记录(除非设置了级联操作)。所以题目里的说法是对的。接下来按照要求把答案放在boxed里。",
"is_correct": true
},
{
"content": "\\boxed{正确}",
"reasoning_content": "\n用户现在需要解决这个关于关系数据库外键的判断题。首先,回忆一下外键的定义和作用:外键是一个表中的字段,引用另一个表的主键,目的是建立和维护两个表之间的关联关系,同时保证数据的一致性(比如参照完整性,不能引用不存在的主键值,或者删除主键时处理外键的情况)。题目里说“外键用于维护表之间的关联关系,并确保数据的一致性”,这完全符合外键的功能。所以这个说法是正确的。接下来按照要求把答案放在boxed里。",
"is_correct": true
},
{
"content": "\\boxed{正确}",
"reasoning_content": "用户现在需要解决这个关于关系数据库外键的判断题。首先,回忆一下外键的定义和作用:外键是一个表中的字段,指向另一个表的主键,它的主要作用就是建立表之间的关联,并且通过参照完整性约束来确保数据的一致性,比如不能引用不存在的主键值,或者删除主键时处理外键的情况(级联删除或置空等)。题目里说“外键用于维护表之间的关联关系,并确保数据的一致性”,这完全符合外键的功能。所以这个说法是正确的。接下来按照要求把答案放在boxed里。",
"is_correct": true
},
{
"content": "\\boxed{正确}",
"reasoning_content": "\n首先,我需要回忆一下关系数据库中外键的定义和作用。外键(Foreign Key,FK)是一个表中的字段(或字段组合),它引用另一个表的主键(Primary Key,PK)或唯一键(Unique Key)。外键的主要作用就是建立两个表之间的关联关系,比如订单表中的用户ID字段作为外键引用用户表的用户ID主键,这样就能把订单和对应的用户关联起来。\n\n然后,关于数据一致性的部分。外键约束(Foreign Key Constraint)可以确保引用的完整性(Referential Integrity),也就是不允许在子表(有外键的表)中插入不存在于父表(被引用的表)中的值,也不允许删除父表中的记录如果子表中还有引用它的记录(除非设置了级联删除等规则)。这样就防止了无效的引用,保证了数据的一致性。\n\n题目中的说法是“外键用于维护表之间的关联关系,并确保数据的一致性”,这完全符合外键的定义和作用。所以这个说法是正确的?等等,等一下,有没有例外情况?比如,外键本身是字段,而外键约束是确保一致性的?题目里说“外键用于...”,其实通常我们说外键的时候,往往指的是外键约束,因为单纯的字段如果没有约束的话,不能起到确保一致性的作用。但一般来说,在关系数据库的语境中,“外键”这个术语通常包括了约束的含义,因为外键的存在就是为了建立关联和保证一致性。比如,创建外键的时候,是用ALTER TABLE ... ADD FOREIGN KEY (...) REFERENCES ...,这时候就创建了约束。所以题目中的说法是对的。\n\n再想一下,比如,如果没有外键,表之间的关联只能靠应用程序来维护,而有了外键,数据库本身就会维护这种关联,确保数据一致。比如,不能在订单表中插入一个用户ID不存在于用户表中的订单,这就是确保一致性。所以题目中的说法是正确的。",
"is_correct": true
},
{
"content": "\\boxed{正确}",
"reasoning_content": "\n我现在要解决这个判断题。首先回忆一下关系数据库中外键的定义和作用。外键(Foreign Key)是表中的一个或多个列,它引用另一个表的主键或唯一键。它的主要作用就是维护两个表之间的关联关系,比如订单表的用户ID外键引用用户表的用户ID主键,这样就能把订单和对应的用户关联起来。然后,外键约束还能确保数据的一致性,比如不能插入一个不存在的用户ID到订单表(参照完整性),或者删除用户表中的记录时要处理订单表的相关记录(比如级联删除或拒绝删除),这样就保证了数据不会出现无效的关联。题目里说的“用于维护表之间的关联关系,并确保数据的一致性”是不是对的?对的,这正好是外键的两个主要作用。那这个说法是正确的?等等,再确认一下,有没有例外?比如外键约束如果没启用的话可能不行,但题目说的是外键的作用,本身的用途就是这些。所以应该是正确的?",
"is_correct": true
}
]
}
]本项目采用 MIT许可协议。
唯一要求:
本许可不提供任何担保,作者不对使用本数据集产生的任何问题负责。
如果您对该数据集有任何疑问,或在您的研究中使用了该数据集,欢迎通过 caoyanping@kupasai.com 或 dengsiwen@kupasai.com 与我们联系。