数学下篇聚焦线性代数、概率论与数理统计和数学综合数据集模块,以单选、多选、判断、填空、解答类题目为主。支撑智能学习系统定位线性代数、概率统计的知识盲区,实现个性化推送;其运算与逻辑链能强化模型的数学严谨性,优化数据统计、空间变换等场景的推理表现。
在数据质量方面,所有数据均通过严格的清洗、校验与标注流程,确保数据的准确性与规范性,并统一数据格式,为模型训练与教育应用提供高可靠性支撑。
本次开源以“教学-推理双赋能”为核心,通过全量开放、生态共建,构建可持续的数据应用生态。数据集紧密关联高等教育教学实际,确保数据的教育实用性与推理训练针对性,既满足教育信息化发展的迫切需求,又与大模型研发的实际场景紧密衔接,在持续的应用与反馈中,加速教育智能技术与大模型推理能力向实际场景落地跃迁,为教育数字化转型与AI模型创新发展夯实数据底座。
与传统数据集不同,我们不仅提供标准答案,更为每个问题配备了由先进大语言模型(LLM)多次独立生成的“采样答案”及其详尽的“思考链”(reasoning_content)。所有采样结果都经过了自动化评估流水线检验,尽量使得最终产出的数据在正确性、逻辑性和一致性上都达到高标准。
数据集采用 JSON Lines (.jsonl) 格式,每行是一个独立的JSON对象。
| 字段名 | 类型 | 说明 |
|---|---|---|
id | String | 唯一的记录标识符。由question的MD5值生成。 |
subject | String | 学科领域,例如:“物理”、“计算机科学”。 |
qtype | String | 题目类型,例如:“简答题”、“选择题”。 |
question | String | 问题描述,即题目的正文。 |
choices | Array<String> 或 null | 选项列表。对于非选择题,此字段为null。 |
answer | Array<String> | 标准答案。设计为数组以兼容多选题和答案较长的简答题。 |
explanation | String 或 null | 答案解析。对标准答案的官方解释或知识点说明。 |
sampling_results | Array<Object> | 核心字段,包含了对同一问题由LLM多次生成的结果以及对这些结果的评估。详见下文。 |
sampling_results 内部字段sampling_results 字段是一个数组,其中每个元素都是一个对象,代表一次完整的“模型生成-评估”流程。
| 字段名 | 类型 | 说明 |
|---|---|---|
content | String | 模型生成内容。LLM针对 question 生成的完整回答文本。其中,最终的核心答案通常用 \boxed{...} 格式包裹,并支持Markdown及LaTeX公式。 |
reasoning_content | String | 模型推理过程。记录了模型在生成 content 时的“思考链”(Chain-of-Thought),是本数据集的核心价值之一。 |
is_correct | Boolean | 正确性评估。这是一个由自动化审核脚本填充的布尔值。true 表示该条采样结果被判定为正确,false 表示被判定为错误。 |
[
{
"id": "6c4f65ed214738612c9177dffa57081d",
"subject": "概率论与数理统计",
"qtype": "选择题",
"question": "调查范围较大时.要选取的对象是().",
"choices": [
"A. 对象中的一个",
"B. 对象中的一部分",
"C. 全部对象",
"D. 以上都对"
],
"answer": [
"B"
],
"explanation": "调查时首先要明确调查目的和调查对象,制订合理的调查方案,调查过程中要如实记录,对调查的结果要进行整理和分析,有时要用数学方法进行统计,调查过程中有时因为调查的范围很大,就要选取一部分调查对象作为样本.\n故选:B.\n为了达到设想的目的,指定某一计划比较全面的收集研究对象的某一方面情况的各种材料,并作出分析、综合,得到某一结论的研究方法,就是调查法.调查法是科学探究的常用方法之一,据此解答.",
"sampling_results": [
{
"content": "要解决这个问题,需明确**调查方法的选择逻辑**: \n当调查范围较大时,对“全部对象”(选项C)进行普查会消耗过多人力、物力和时间,不现实;仅选“对象中的一个”(选项A)无法反映总体特征;因此通常采用**抽样调查**,即选取“对象中的一部分”(选项B)来代表总体。\n\n\n\\boxed{B}",
"reasoning_content": "用户现在需要解决这个关于调查范围大时选取对象的问题。首先回忆一下调查的方法,比如普查和抽样调查。普查是调查全部对象,但范围大的时候,全部调查可能太费人力物力时间,所以通常用抽样调查,也就是选一部分对象。然后看选项,B选项是“对象中的一部分”,对吧?A是一个,太少了;C是全部,范围大的时候不合适;D说都对,不对。所以正确选项是B。",
"is_correct": true
},
{
"content": "要解决这个问题,需明确**调查方法的适用场景**: \n- 当调查范围较大时,对“全部对象”(选项C)进行普查会消耗大量人力、物力和时间,不现实; \n- 仅选取“对象中的一个”(选项A)无法反映总体特征,结果不准确; \n- 此时应采用**抽样调查**,即选取“对象中的一部分”(选项B)作为样本,通过样本推测总体情况。 \n\n\n\\boxed{B}",
"reasoning_content": "用户现在需要解决这个关于调查范围大时选取对象的问题。首先,回忆一下调查的方法,比如普查和抽样调查。普查是调查全部对象,但范围大的时候,全部调查会很麻烦,比如调查全国中学生的视力,不可能都查,所以这时候要用抽样调查,也就是选一部分对象。然后看选项,B选项是对象中的一部分,对吗?再看选项A是一个,太少了,不准确;C是全部,范围大的时候不行;D说以上都对,不对。所以正确选项是B。",
"is_correct": true
},
{
"content": "要解决这个问题,需明确**调查方法的适用场景**:\n\n\n### 关键分析步骤:\n1. **调查类型区分**: \n - 当调查范围**较大**时,对“全部对象”(普查)进行调查会消耗大量人力、物力和时间,可行性极低(例如调查全国青少年的身高,无法覆盖所有对象)。 \n - 此时应采用**抽样调查**——从“对象中的一部分”选取具有代表性的样本,通过样本数据推断总体特征。 \n\n\n2. **选项逐一排除**: \n - A(对象中的一个):样本量过小,无法反映总体情况,排除; \n - B(对象中的一部分):符合抽样调查的要求,正确; \n - C(全部对象):仅适用于范围小、易操作的调查,范围大时不可行,排除; \n - D(以上都对):显然矛盾,排除。 \n\n\n最终答案:\\boxed{B}",
"reasoning_content": "\n用户现在需要解决这个关于调查方法的单选题。首先回忆一下调查的类型,比如普查和抽样调查。当调查范围较大的时候,普查(全部对象)会很麻烦,比如调查全国中学生的视力,不可能全部都查,这时候应该用抽样调查,也就是选对象中的一部分。然后看选项:A是一个,太少了,不具代表性;B是一部分,对的;C是全部,范围大的时候不行;D说以上都对,显然不对。所以正确选项是B。",
"is_correct": true
},
{
"content": "要解决这个问题,需明确**调查方法的适用场景**: \n- 当调查范围较大时,全面调查(调查全部对象)会因耗时、耗力、成本高变得不现实,因此需采用**抽样调查**——选取对象中的一部分(具有代表性的样本)来推断总体特征。 \n\n\n选项分析: \n- A(对象中的一个):样本量过小,无法反映总体情况,错误。 \n- B(对象中的一部分):符合抽样调查的要求,正确。 \n- C(全部对象):仅适用于范围小、易操作的调查,范围大时不可行,错误。 \n- D(以上都对):明显矛盾,错误。 \n\n\n\\boxed{B}",
"reasoning_content": "用户现在需要解决这个关于调查范围大时选取对象的问题。首先,回忆一下调查的方法,比如普查和抽样调查。普查是调查全部对象,但范围大的时候,全部调查可能不现实,比如调查全国中学生的视力,不可能每个都查。这时候应该用抽样调查,也就是选一部分有代表性的对象。然后看选项,A是一个,太少了,不行;B是一部分,对的;C是全部,范围大的时候做不到;D说以上都对,显然不对。所以正确选项是B。",
"is_correct": true
},
{
"content": "要解决这个问题,需明确**调查方法的适用场景**:\n\n\n### 关键分析:\n- 当调查范围较大时,**普查(调查全部对象)**会消耗大量人力、物力和时间,不切实际。此时应采用**抽样调查**——从对象中选取**一部分具有代表性的样本**来推断整体特征。 \n- 选项A(一个对象)样本量过小,无法反映整体情况;选项C(全部对象)适用于范围小、易操作的调查;选项D(都对)显然错误。\n\n\n综上,正确答案是 **B**。\n\n\\boxed{B}",
"reasoning_content": "用户现在需要解决这个关于调查范围大时选取对象的问题。首先回忆一下调查的方法,比如普查和抽样调查的区别。普查是调查全部对象,但范围大的时候,普查太麻烦,耗费人力物力,所以应该用抽样调查,也就是选一部分对象来代表整体。然后看选项,A是一个,太少了,不准确;B是一部分,对的;C是全部,范围大的时候不行;D说都对,显然不对。所以正确选项是B。",
"is_correct": true
}
]
}
]本项目采用 MIT许可协议。
唯一要求:
本许可不提供任何担保,作者不对使用本数据集产生的任何问题负责。
如果您对该数据集有任何疑问,或在您的研究中使用了该数据集,欢迎通过 caoyanping@kupasai.com 或 dengsiwen@kupasai.com 与我们联系。