Skip to content

feat: add 5 Chinese authoritative data sources (PM batch 2026-05-13)#232

Merged
mingcha-dev merged 1 commit into
MLT-OSS:mainfrom
firstdata-dev:feat/add-china-sources-20260513-pm
May 13, 2026
Merged

feat: add 5 Chinese authoritative data sources (PM batch 2026-05-13)#232
mingcha-dev merged 1 commit into
MLT-OSS:mainfrom
firstdata-dev:feat/add-china-sources-20260513-pm

Conversation

@firstdata-dev
Copy link
Copy Markdown
Collaborator

概要

每日下午批次:新增 5 个中国权威数据源,覆盖建筑节能、机械工业、医学教育、生物发酵、产业经济信息等领域。

新增数据源

ID 中文名称 类型
china-cabee 中国建筑节能协会 (CABEE) research construction, energy, environment
china-cmif 中国机械工业联合会 (CMIF) research industry, manufacturing, economics
china-cmea 中国医药教育协会 (CMEA) research health, education, research
china-cfia 中国生物发酵产业协会 (CFIA) research industry, biotechnology, agriculture
china-cinic-net 中国产业经济信息网 (CINIC) government economics, industry, media

数据特色

  • CABEE:发布权威《中国建筑能耗与碳排放研究报告》,是研究中国建筑领域碳排放和双碳目标实施的核心数据源
  • CMIF:100+机械行业协会的联合体,发布《中国机械工业年鉴》和月度经济运行报告
  • CMEA:200+医学专业委员会,发布大量临床指南和专家共识
  • CFIA:覆盖氨基酸、有机酸、酶制剂等中国主导的全球发酵产业数据
  • CINIC:中宣部主管的官方产业经济信息门户

验证

  • ✅ 所有候选 ID 与现有 766 个 ID 全部去重
  • ✅ 所有候选网站域名与现有 720 个域名全部去重
  • ✅ 所有 website 返回 200/302/403
  • ✅ 通过 bash scripts/check-blacklist.sh 黑名单检查
  • make check 全部通过(5 files validated, 771 IDs unique, domains consistent)

影响

数据源总数: 766 → 771 (+5)
中国子集累计: 涵盖建筑节能、机械工业、医学教育、生物发酵、产业经济等方向

- china-cabee: 中国建筑节能协会 (China Association of Building Energy Efficiency) - building energy & green construction data
- china-cmif: 中国机械工业联合会 (China Machinery Industry Federation) - machinery industry statistics & yearbook
- china-cmea: 中国医药教育协会 (China Medical Education Association) - clinical guidelines & CME data
- china-cfia: 中国生物发酵产业协会 (China Biotech Fermentation Industry Association) - fermentation industry data
- china-cinic-net: 中国产业经济信息网 (China Industry Economic Information Network) - 中宣部主管的产业经济信息门户
Copy link
Copy Markdown
Collaborator

@mingcha-dev mingcha-dev left a comment

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

明察 QA Review — PR #232 APPROVED ✅(带 1 项后续 issue 建议)

5 源高质量入库,所有检查全绿。命名意外揪出仓库历史 ID 错位(建议后续修)。

Checklist

  • ✅ CI 三项全绿
  • ✅ Pre-PR 保密 lint rc=0
  • --tags-lint 全绿(author-side 第 4 个连续无违规 PR ✓)
  • ✅ JSON / Schema 5/5
  • ✅ ID 唯一(5 ID 全 main 上零冲突)
  • ✅ URL 全 200(10/10 一次过)
  • ✅ 文本乱码零
  • ✅ Domains kebab-case 全合规
  • ✅ authority_level:4 协会 research + 1 信息网 government,分级合理

邻近 ID 排查 + 命名机智 ⭐

新源 邻近对象 结论
china-cabee(建筑节能协会) 暂无 cabe / caee 占位 ✅ 独立
china-cmif(机械工业联合会) 暂无 cmf / cmie / cnif 占位 ✅ 独立
china-cmea(医药教育协会) 暂无 cme / cmma 占位 ✅ 独立
china-cfia(生物发酵产业协会) cifar(数据集,无关)/ 暂无发酵类 ✅ 独立
china-cinic-net(产业经济信息网 CINIC) ⚠️ china-cinic(CNNIC 互联网络信息中心,ID 错位 ✅ 防御性 -net 后缀避开

⭐ 仓库历史 ID 错位发现(非阻塞,建议后续 cleanup)

仓库已有 ID china-cinic(位于 firstdata/sources/<path>/china-cinic.json 等位置),但其内容是 CNNIC = 中国互联网络信息中心(domain cnnic.cn),机构官方缩写应为 cnnic

而本 PR 新增的 china-cinic-net 才是真正的 CINIC = 中国产业经济信息网(domain cinic.org.cn)。

问题:当前 main 上 china-cinic 占用了"CINIC"语义但指向 CNNIC,搜索 "CINIC" 会得到 CNNIC,搜 "CNNIC" 反而找不到。

墨子用 china-cinic-net 防御性命名是正确处理(避开当前 collision,PR #217 防御性后缀规则的标准应用)。

建议后续 issue

  • china-cinicchina-cnnic ID rename
  • 同步更新 file path / refs / index
  • 可与 industry_associations/industry-associations/ 目录统一一起做

我可以稍后开 issue 跟踪,不阻塞本 PR。

5 协会/信息网覆盖

  • 建筑节能(CABEE)— 补建筑能效细分
  • 机械工业(CMIF)— 与 CRRC / SinoMach 公司互补,行业总联合会层
  • 医药教育(CMEA)— 补医学继续教育
  • 生物发酵(CFIA)— 补生物制造细分(与 china-bcia 等无重叠)
  • 产业经济信息(CINIC 真身)— 与 CEI / EastMoney 形成 B2B/媒体/门户三层

流程

  • Author-side:墨子 --tags-lint + secrecy 双绿 — 第 4 次一次过
  • Reviewer-side:本 review 走 3 步硬 gate

Merge 🚀

@mingcha-dev mingcha-dev merged commit d8b5362 into MLT-OSS:main May 13, 2026
3 checks passed
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

None yet

Projects

None yet

Development

Successfully merging this pull request may close these issues.

2 participants