OCRのホワイトリストとTessaractのバグ

　OCR（光学文字認識）の際にはホワイトリスト――画像中に現れる文字の候補のリスト――を用いることによってより正確な文字認識を実現しています。現れる文字の候補が限定されることは誤認識の減少に大きく貢献します。例えば数字のみが表れるならば”1″と”I”と”i”を間違えずに”1″と認識できます。ロシア語のみならば”В”と”B”を間違える事も有りません。
　TesseractはOCRのエンジンです。素のコマンドラインで使うなり、PythonなどにつなげるなりしてOCRを行わせます。Tesseractの最新版の4.0.0はどこぞのディープラーニングの学習結果を持っており高精度とのふれこみです。
Tesseract (ソフトウェア) – Wikipedia
tesseract-ocr/tesseract: Tesseract Open Source OCR Engine (main repository)
　困ったことにこの4.0.0版にはホワイトリスト設定が一切効かないという強烈なバグが残っています。
Blacklist and whitelist unsupported with LSTM (4.0) · Issue #751 · tesseract-ocr/tesseract
　残念ながら解決方法はなく、レガシー版を呼び出すオプションと組み合わせる回避方法しかない様です。

--oem 0 -c tessedit_char_whitelist=0123456789ABCDEFGHIJKLMNOPQRSTUVWXYZ

二値化によるOCR（光学的文字認識）のための画像前処理

【Windows】Win+Shift+Tでスクリーンショット的にOCRを実行できる機能がPowerToysに追加

株式会社シーポイントラボ