PDF,Word内の漢字が、常用漢字かを判定して、表外字を指摘するツールです。
https://edi-tool.github.io/kanji-checker/
文化庁の常用漢字表に基づき、常用漢字かを判定します。 執筆や、編集工程での使用を想定しています。
本ツールはプライバシー保護のため、すべての解析処理をブラウザ上(クライアントサイド)で実行します。ファイルがサーバーにアップロードされることはありません。
- PDF解析: PDF.js - PDFからのテキスト抽出
- Word解析: Mammoth.js - .docxからのテキスト抽出
- 文字判定: JavaScript 正規表現 (Unicode Property Escapes)
判定に使用している漢字リストは、**文化庁「常用漢字表(平成22年内閣告示第2号)」**に基づいた計2,136文字です。
解析前に Unicode 正規化(NFKC)を行っています。これにより、互換漢字や全角記号などの表記ゆれによる誤判定を抑制しています。
常用外漢字を検出した際、その前後の各15文字を「文脈」として表示します。これにより、固有名詞(人名・地名)や専門用語としての許容範囲かどうかを即座に判断可能です。
本プロジェクトの開発にあたり、以下の資料およびデータを参照・利用させていただきました。
READMEに追記しやすいよう、マークダウン形式で分かりやすく整理しました。以下のテキストをそのままコピーしてREADMEに貼り付けてご活用ください。
PDFからテキストを抽出する際、内部データ(フォントの文字マッピング等)の影響で、見た目は常用漢字でも文字コードが異なる特殊な文字(康熙部首のコードや異体字など)として抽出されることがあります。 これにより、本来は常用漢字である文字(例:「長」や「民」など)が表外漢字として誤検知されてしまった場合は、以下の手順で許容リスト(ハウスルール)に追加してください。
kanji_data.js 内に定義されている houseRules に、該当の文字を登録します。
-
誤検出出力先スプレットシート
https://docs.google.com/spreadsheets/d/1gdi5GnxSJl3iEojIpPhFdby6_uUS5dQ_iUdmIfXp87k/edit?usp=sharing
-
誤検知された文字をコピーする
【
⚠️ 重要】 キーボードで普通に入力すると標準の文字コードに変換されてしまうため、必ずツールの結果画面(表外漢字として表示されている箇所)から、エラーになった文字を直接ドラッグ&コピーしてください。 -
kanji_data.jsを編集するファイルの末尾にある
houseRulesに、手順1でコピーした文字を貼り付けます。複数の文字を追加する場合は、そのまま文字列としてつなげて記述します。// kanji_data.js の末尾 // 必要に応じて、追加で許容する「ハウスルール漢字」を定義することも可能です const houseRules = "長民"; // ←※必ずツールの画面からコピペして追加してください
この運用により、PDF特有の文字コードのズレを吸収し、誤検知を防ぐことができます。今後、他の常用漢字で同じ現象が起きた場合も、同様の手順で houseRules に書き足して対応してください。
- 常用漢字表(索引) - 文化庁
- 常用漢字の字体・読みの公式基準として参照
- mimneko/kanji-data
- 漢字データの構造化におけるベースデータとして利用
- Mammoth.js
- 本ツールのシステムの参考
- kzhrknt/awesome-design-md-jp
- 本ツール(index)のデザインの参考
- PDFの作成方法(画像化されたPDFなど)によっては、テキストが抽出できない場合があります。
- 本ツールは校正の補助を目的としており、最終的な表記確認は利用者の責任において行ってください。
© 2026 ISHIKAWA, Natsuki