表外漢字判定ツール

PDF,Word内の漢字が、常用漢字かを判定して、表外字を指摘するツールです。

https://edi-tool.github.io/kanji-checker/

概要

文化庁の常用漢字表に基づき、常用漢字かを判定します。執筆や、編集工程での使用を想定しています。

使用技術

本ツールはプライバシー保護のため、すべての解析処理をブラウザ上（クライアントサイド）で実行します。ファイルがサーバーにアップロードされることはありません。

PDF解析: PDF.js - PDFからのテキスト抽出
Word解析: Mammoth.js - .docxからのテキスト抽出
文字判定: JavaScript 正規表現 (Unicode Property Escapes)

解析ロジックとデータ出典

1. 判定基準（常用漢字）

判定に使用している漢字リストは、**文化庁「常用漢字表（平成22年内閣告示第2号）」**に基づいた計2,136文字です。

文化庁常用漢字表について

2. テキストの正規化

解析前に Unicode 正規化（NFKC）を行っています。これにより、互換漢字や全角記号などの表記ゆれによる誤判定を抑制しています。

3. 文脈表示仕様

常用外漢字を検出した際、その前後の各15文字を「文脈」として表示します。これにより、固有名詞（人名・地名）や専門用語としての許容範囲かどうかを即座に判断可能です。

参考文献 / References

本プロジェクトの開発にあたり、以下の資料およびデータを参照・利用させていただきました。

READMEに追記しやすいよう、マークダウン形式で分かりやすく整理しました。以下のテキストをそのままコピーしてREADMEに貼り付けてご活用ください。

メンテナンスフロー：常用漢字が誤検知される場合の対応

PDFからテキストを抽出する際、内部データ（フォントの文字マッピング等）の影響で、見た目は常用漢字でも文字コードが異なる特殊な文字（康熙部首のコードや異体字など）として抽出されることがあります。これにより、本来は常用漢字である文字（例：「長」や「民」など）が表外漢字として誤検知されてしまった場合は、以下の手順で許容リスト（ハウスルール）に追加してください。

対応手順

kanji_data.js 内に定義されている houseRules に、該当の文字を登録します。

誤検出出力先スプレットシート

https://docs.google.com/spreadsheets/d/1gdi5GnxSJl3iEojIpPhFdby6_uUS5dQ_iUdmIfXp87k/edit?usp=sharing
誤検知された文字をコピーする

【⚠️重要】 キーボードで普通に入力すると標準の文字コードに変換されてしまうため、必ずツールの結果画面（表外漢字として表示されている箇所）から、エラーになった文字を直接ドラッグ＆コピーしてください。

kanji_data.js を編集する

ファイルの末尾にある houseRules に、手順1でコピーした文字を貼り付けます。複数の文字を追加する場合は、そのまま文字列としてつなげて記述します。

// kanji_data.js の末尾
// 必要に応じて、追加で許容する「ハウスルール漢字」を定義することも可能です
const houseRules = "長民"; // ←※必ずツールの画面からコピペして追加してください

この運用により、PDF特有の文字コードのズレを吸収し、誤検知を防ぐことができます。今後、他の常用漢字で同じ現象が起きた場合も、同様の手順で houseRules に書き足して対応してください。

公的資料

常用漢字表（索引） - 文化庁
- 常用漢字の字体・読みの公式基準として参照

データ・リポジトリ

mimneko/kanji-data
- 漢字データの構造化におけるベースデータとして利用

システム

Mammoth.js
- 本ツールのシステムの参考

デザイン

kzhrknt/awesome-design-md-jp
- 本ツール（index）のデザインの参考

免責事項

PDFの作成方法（画像化されたPDFなど）によっては、テキストが抽出できない場合があります。
本ツールは校正の補助を目的としており、最終的な表記確認は利用者の責任において行ってください。

Name		Name	Last commit message	Last commit date
Latest commit History 61 Commits
CLAUDE.md		CLAUDE.md
LICENSE		LICENSE
README.md		README.md
_config.yml		_config.yml
favicon.ico		favicon.ico
favicon.png		favicon.png
googled180bd734463e748.html		googled180bd734463e748.html
index.html		index.html
jinmei-kanji-data.js		jinmei-kanji-data.js
kanji_data.js		kanji_data.js
progress.md		progress.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

表外漢字判定ツール

概要

使用技術

解析ロジックとデータ出典

1. 判定基準（常用漢字）

2. テキストの正規化

3. 文脈表示仕様

参考文献 / References

メンテナンスフロー：常用漢字が誤検知される場合の対応

対応手順

公的資料

データ・リポジトリ

システム

デザイン

免責事項

About

Uh oh!

Releases

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

表外漢字判定ツール

概要

使用技術

解析ロジックとデータ出典

1. 判定基準（常用漢字）

2. テキストの正規化

3. 文脈表示仕様

参考文献 / References

メンテナンスフロー：常用漢字が誤検知される場合の対応

対応手順

公的資料

データ・リポジトリ

システム

デザイン

免責事項

About

Topics

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Contributors

Uh oh!

Languages