PyocrとTessractOCRによる画像から文字の抽出をする方法

この記事では、PyocrとTessractOCRで画像から文字を抽出する方法を解説します。

悩んでいる人

画像から文字を抽出したい
とても面倒なドキュメントの単純処理の作業を自動化したい
プログミラング初心者でもできる業務効率をあげる便利なPythonの使い方は？

こんな悩みを持っている方におすすめの記事です。

この記事のゴール
インストール
コード
解説
まとめ

この記事のゴール

画像から文字を抽出方法を習得できる

インストール

Pyocr

以下を入力することでインストール可能です。

pip install pyocr

TessractOCR

Windowsの場合

以下のURLよりダウンロード可能です。

Home

Tesseract Open Source OCR Engine (main repository) - UB-Mannheim/tesseract

ご自身のパソコンに合わせてインストールください。

その際、以下二点に✔️をしてください。

Japanese script
Japanese vertical script

また、以下二点にも✔️を入れてください。

Japanese script
Japanese vertical

これによって、日本語に対応することができます。

Macの場合

以下のコードでインストール可能です。

brew install tesseract

また、日本語を追加するためには、以下のコードで、tessdataに以下をgitより追加します。

wget https://github.com/tesseract-ocr/tessdata/raw/4.00/jpn.traineddata
mv jpn.traineddata /usr/local/Cellar/tesseract/4.1.0/share/tessdata/
mv jpn_vert.traineddata /usr/local/Cellar/tesseract/4.1.0/share/tessdata/

コード

以下の画像をカレントディレクトリに保存（右クリックから保存）し、以下のコードを実行してみてください。

from PIL import Image
import sys
import pyocr


tools = pyocr.get_available_tools()
if len(tools) == 0:
    print("OCRツールが見つかりませんでした")
    sys.exit(1)
tool = tools[0]
print("use tool :", tool.get_name())

langs = tool.get_available_languages()
print(langs)

txt = tool.image_to_string(Image.open('img.png'), lang="jpn")
txt = txt.replace(' ', '')
print(txt)

実行結果が、以下のように表示されれば成功です。

日本語

OCR