本数据集整合了中国高考(GAOKAO)历年考试题目数据,按学科、年份、考试类型进行结构化分类,便于 Hugging Face Datasets 自动识别和加载。
本数据集的原始数据来源于以下两个开源项目:
- GAOKAO-Bench:提供 2010-2022 年高考题目数据,包含客观题 1,781 道、主观题 1,030 道。
- GAOKAO-Bench-Updates:提供 2023-2024 年高考选择题补充数据。
本数据集仅对上述原始数据进行结构化整理和分类,不修改题目内容、答案和解析。
- 数据来源:本数据集所有题目均来源于网络公开资源,由人工智能辅助进行分类、整理和结构化处理。
- 准确性:本数据集不保证题目内容、答案、解析的准确性和完整性。题目中的错误可能来源于原始数据源或 AI 分类过程中的偏差。
- 用途限制:本数据集仅供研究和学术用途,不应用于商业目的或作为正式考试参考。
- 版权:题目版权归原出题机构所有。如有版权问题,请联系处理。
本数据集由个人维护,欢迎社区贡献和数据补充。以下是数据添加和更新的规范:
| 类型 | 要求 |
|---|---|
| 新高考试卷 | 各年份、各省份高考原题,欢迎添加 |
| 旧题补充(2021年前) | 不做严格要求,非常欢迎补充历史年份数据 |
| 模拟题 | 仅限第一次适应性测试(一模)和第二次适应性测试(二模),以及部分名校/联盟的期中期末考试。需要提供来源证明(如名校、省市统考等),确保来源权威可信 |
| 题目更新(新增) | 已有试卷中遗漏的题目,可直接添加 |
| 竞赛真题 | 仅限四大学科奥林匹克竞赛:数学、物理、化学、生物的全国联赛、决赛(CMO/CPhO/ChO/CBO)及集训队选拔题目,欢迎添加 |
| 权威书籍题目 | 经典竞赛/培优教材及习题集中的题目,如《数学奥林匹克小丛书》(小蓝本)、程稼夫系列、《物理学难题集萃》等,欢迎添加 |
| 类型 | 原因 |
|---|---|
| 含图片/多模态题目 | 本数据集仅支持纯文字题目。如果原题含图但文字部分可独立作答(如数学几何题文字描述完整),可以添加;否则不接受 |
| 低质量模拟题 | 非名校、非官方组织的模拟题,来源不可信的题目 |
| 普通期中期末考试 | 非名校或名校联盟的普通学校考试题目 |
- 修改已有题目:需要证明新版本的质量明显高于原有版本(如更正了错误答案、补充了缺失解析等),谨慎处理
- 删除已有题目:需要提供题目确实存在错误的证据(如答案错误、题目有误等)
- 添加同试卷遗漏题目:直接接受
欢迎通过 Issue 或 Pull Request 提交数据,提交时请说明:
- 数据来源(试卷年份、类型、来源)
- 如果是更新已有题目,说明更新理由
- 如果是模拟题,附上来源证明
每条题目记录包含以下字段:
| 字段名 | 类型 | 说明 |
|---|---|---|
id |
string | 题目唯一标识符 |
year |
int | 考试年份 |
subject |
string | 学科 |
question_type |
string | 题型(选择题/填空题/解答题等) |
exam_type |
string | 考试类型(gaokao 表示高考) |
paper_type |
string | 试卷类型/卷别 |
province |
string/null | 省份 |
question |
string | 题目内容(含 LaTeX 公式) |
answer |
string | 标准答案 |
analysis |
string | 解析/详解 |
score |
int | 题目分值 |
source |
string | 数据来源 |
source_file |
string | 原始源文件名 |