OCRのホワイトリストとTessaractのバグ

 OCR(光学文字認識)の際にはホワイトリスト――画像中に現れる文字の候補のリスト――を用いることによってより正確な文字認識を実現しています。現れる文字の候補が限定されることは誤認識の減少に大きく貢献します。例えば数字のみが表れるならば”1″と”I”と”i”を間違えずに”1″と認識できます。ロシア語のみならば”В”と”B”を間違える事も有りません。
 TesseractはOCRのエンジンです。素のコマンドラインで使うなり、PythonなどにつなげるなりしてOCRを行わせます。Tesseractの最新版の4.0.0はどこぞのディープラーニングの学習結果を持っており高精度とのふれこみです。
Tesseract (ソフトウェア) – Wikipedia
tesseract-ocr/tesseract: Tesseract Open Source OCR Engine (main repository)
 困ったことにこの4.0.0版にはホワイトリスト設定が一切効かないという強烈なバグが残っています。
Blacklist and whitelist unsupported with LSTM (4.0) · Issue #751 · tesseract-ocr/tesseract
 残念ながら解決方法はなく、レガシー版を呼び出すオプションと組み合わせる回避方法しかない様です。

--oem 0 -c tessedit_char_whitelist=0123456789ABCDEFGHIJKLMNOPQRSTUVWXYZ
>株式会社シーポイントラボ

株式会社シーポイントラボ

TEL:053-543-9889
営業時間:9:00~18:00(月〜金)
住所:〒432-8003
   静岡県浜松市中央区和地山3-1-7
   浜松イノベーションキューブ 315
※ご来社の際はインターホンで「316」をお呼びください

CTR IMG