Skip to content

rainewhk/gaokao

Repository files navigation

高考数据集 (GAOKAO Dataset)

本数据集整合了中国高考(GAOKAO)历年考试题目数据,按学科、年份、考试类型进行结构化分类,便于 Hugging Face Datasets 自动识别和加载。

数据来源

本数据集的原始数据来源于以下两个开源项目:

  • GAOKAO-Bench:提供 2010-2022 年高考题目数据,包含客观题 1,781 道、主观题 1,030 道。
  • GAOKAO-Bench-Updates:提供 2023-2024 年高考选择题补充数据。

本数据集仅对上述原始数据进行结构化整理和分类,不修改题目内容、答案和解析。

免责声明

  1. 数据来源:本数据集所有题目均来源于网络公开资源,由人工智能辅助进行分类、整理和结构化处理。
  2. 准确性:本数据集不保证题目内容、答案、解析的准确性和完整性。题目中的错误可能来源于原始数据源或 AI 分类过程中的偏差。
  3. 用途限制:本数据集仅供研究和学术用途,不应用于商业目的或作为正式考试参考。
  4. 版权:题目版权归原出题机构所有。如有版权问题,请联系处理。

维护说明

本数据集由个人维护,欢迎社区贡献和数据补充。以下是数据添加和更新的规范:

接受的内容

类型 要求
新高考试卷 各年份、各省份高考原题,欢迎添加
旧题补充(2021年前) 不做严格要求,非常欢迎补充历史年份数据
模拟题 仅限第一次适应性测试(一模)和第二次适应性测试(二模),以及部分名校/联盟的期中期末考试。需要提供来源证明(如名校、省市统考等),确保来源权威可信
题目更新(新增) 已有试卷中遗漏的题目,可直接添加
竞赛真题 仅限四大学科奥林匹克竞赛:数学、物理、化学、生物的全国联赛、决赛(CMO/CPhO/ChO/CBO)及集训队选拔题目,欢迎添加
权威书籍题目 经典竞赛/培优教材及习题集中的题目,如《数学奥林匹克小丛书》(小蓝本)、程稼夫系列、《物理学难题集萃》等,欢迎添加

不接受的内容

类型 原因
含图片/多模态题目 本数据集仅支持纯文字题目。如果原题含图但文字部分可独立作答(如数学几何题文字描述完整),可以添加;否则不接受
低质量模拟题 非名校、非官方组织的模拟题,来源不可信的题目
普通期中期末考试 非名校或名校联盟的普通学校考试题目

已有题目的更新原则

  • 修改已有题目:需要证明新版本的质量明显高于原有版本(如更正了错误答案、补充了缺失解析等),谨慎处理
  • 删除已有题目:需要提供题目确实存在错误的证据(如答案错误、题目有误等)
  • 添加同试卷遗漏题目:直接接受

贡献方式

欢迎通过 Issue 或 Pull Request 提交数据,提交时请说明:

  1. 数据来源(试卷年份、类型、来源)
  2. 如果是更新已有题目,说明更新理由
  3. 如果是模拟题,附上来源证明

数据字段

每条题目记录包含以下字段:

字段名 类型 说明
id string 题目唯一标识符
year int 考试年份
subject string 学科
question_type string 题型(选择题/填空题/解答题等)
exam_type string 考试类型(gaokao 表示高考)
paper_type string 试卷类型/卷别
province string/null 省份
question string 题目内容(含 LaTeX 公式)
answer string 标准答案
analysis string 解析/详解
score int 题目分值
source string 数据来源
source_file string 原始源文件名

About

高考试题 datasets 汇总

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages