GNU/Linux >> Linux の 問題 >  >> Ubuntu

Tesseract OCR:Ubuntu16.04でのインストールと使用法

Tesseractは、今日利用可能な最も強力なオープンソースOCRエンジンの1つです。 OCRは光学式文字認識の略です。これは、画像からテキストを抽出するプロセスです。たとえば、抽出する必要のあるテキストが含まれている次の画像について考えてみます。

OCRエンジンからの出力は、処理が完了すると次のようになります。

  Open
  Access
  Button

これがOCRの仕組みです。これは、車両のナンバープレート認識、スキャンしたドキュメントのコピーをWord形式に変換する、領収書から詳細を自動抽出するなど、多くのアプリケーションで役立ちます。また、多くの自然言語処理タスクの最初のステップを形成します。このチュートリアルでは、Tesseract、imagemagickをすばやくインストールしてセットアップする方法と、それらを使用して画像の前処理で可能な限り最高の結果を得る方法について説明します。

画像の前処理は、TesseractでOCRを実行する上で重要な部分です。これにより、抽出されたテキストの精度が高くなり、エラーが減少します。それを使用して画像に対して実行するいくつかの基本的な操作を実行します。 Imagemagickは、画像処理コマンドラインベースのツールであり、トリミング、サイズ変更、配色の変更などの操作を実行するのに役立ちます。

1Tesseractをインストールします

tesseractのインストールは非常に簡単で、次のコマンドを実行します。

sudo apt update sudo apt install tesseract-ocr

これにより、Tesseractエンジンがインストールされます。次の画像は、正しくインストールされたときの出力を示しています。

次に行うことは、言語パックをインストールすることです。 Tesseractは非常に堅牢で、言語パックがダウンロードされていれば、100を超える異なる言語を抽出できます。以下の一般的なコマンドを使用して、特定の言語パックをダウンロードできます。

sudo apt-get install tesseract-ocr-[lang]

上記のコマンドで、「[lang]」をダウンロードする言語に置き換えます。英語とフランス語の例を以下に示します:

sudo apt-get install tesseract-ocr-eng sudo apt-get install tesseract-ocr-fra

通常、テッセラクトにはデフォルトで英語パックが付属しています。下の画像は、英語がすでにインストールされており、フランス語をダ​​ウンロードしてインストールする必要があることを示しています。

または、すべての言語パックをダウンロードする場合は、次のコマンドを実行できます。

sudo apt-get install tesseract-ocr-all

これでTesseractのインストールは完了です。

2Imagemagickのインストール次のコマンドを実行してimagemagickをインストールします

sudo apt install imagemagick

このツールは、convertコマンドを使用してコマンドラインから使用されます。正しくインストールされていることを確認するには、次のコマンドを実行します。出力は次の画像のようになります。

convert -h

3正八胞体の使用法

Tesseractは、jpg、png、tiffなどのさまざまな形式の画像を取得し、そこからテキストを抽出することができます。このセクションでは、正八胞体の実行に焦点を当て、次のセクションでは、精度を向上させる方法を説明します。 tesseractを実行するためのいくつかの基本的なコマンドは次のとおりです:

ターミナルで出力を取得するには、画像のパスを指定して汎用コマンドを実行します

tesseract [image_path] stdout

OCR出力をファイルに保存するには、次の一般的なコマンドを実行します。

tesseract [image_path] [file_name]

次の2つの画像に、使用した画像と、その画像のコマンドに対して上記を実行した結果を示します


ご覧のとおり、2番目のコマンドを実行すると、「outfile.txt」というファイルが作成され、そこに出力が表示されます。

4画像の前処理

前の出力から、出力にエラーがあり、ピクセルサイズが小さいというエラーもあることに気付いたかもしれません。これはTesseractの欠点の1つであり、OCRを実行できる処理済みの画像を提供する必要があります。このセクションでは、imagemagickを使用して画像の品質を向上させ、出力の精度を高めるために使用できるいくつかの戦術について説明します。

4.1サイズ変更

サイズ変更は、OCRの精度を向上させるための最も役立つトリックの1つです。これは、ほとんどの場合、画像のフォントサイズが非常に小さいため、Tesseractで正しく読み取ることができないためです。次のコマンドを使用して、画像のサイズを変更できます。パーセンテージの量は、サイズ変更の制限を示します。サイズを大きくしたいので、100より大きい値を指定する必要があります。ここでは、150%の値を指定しています(試行錯誤の方法を使用して、ユースケースに最適なサイズ変更%を決定してください)。

>
convert -resize 150% [input_file_path] [output_file_path]

上記のコマンドで、[input_file_path]をサイズ変更が必要な画像のパスに置き換え、[output_file_path]を出力を保存する画像のパスに置き換えます。次の画像は、コマンドを実行したときの出力です。convert -resize 150%image7.png image7_resize.png

4.2グレースケール画像の使用

カラー画像を使用している場合は、最初にグレースケールに変換することをお勧めします。必要なOCR精度を得るには、これだけで十分である可能性が高くなります。それ以外の場合は、さらに処理するために、グレースケール画像を使用して画像を2値化できます。次のコマンドを使用して画像をグレースケールに変換します

convert [input_file_path] -type Grayscale [output_file_path]

次の画像は、コマンドconvert image6_resize.png -type Grayscale image6_gray.png

を実行した場合の出力を示しています。

4.3画像を2値化する

二値化またはしきい値処理には、画像を白黒の値に変換することが含まれます。この画像の各ピクセルには、黒または白の2つの値のうちの1つしかありません。これにより、画像の複雑さが大幅に軽減されます。ノイズのある画像や影のある画像、またはテキストが多い場合は、この前処理方法を使用できます。この画像を2値化するには、最初にグレースケール画像があることを確認してから、次のコマンドを使用します。

convert [input_file_path] -threshold 55% [output_file_path]

しきい値%は、ユースケースに最適な結果を得るために変更できます。下の画像は例を示しています。手元の画像の場合、一部のデータが失われるため、二値化は最適なオプションではないことに注意することが重要です。

上記の前処理技術の一部またはすべてを適用する前に、次の点に注意する必要があります。

  • ユースケースに応じて、前処理ステップのいずれかまたは組み合わせが役立ちます。
  • 前処理ステップによって精度が低下する場合は、前処理ステップから無視する必要があります。
  • サイズ変更またはしきい値処理中のパーセンテージは画像ごとに異なるため、Tesseractの実行時に最高の精度を実現するには、可能な限り最高のパーセンテージ値を取得するために試行錯誤の方法を適用する必要があります。

前処理が完了したら、処理された画像でTesseractを実行して、精度を確認します。 Tesseractは非常に強力ですが、入力として提供される画像のタイプに関してはいくつかの制限があります。このチュートリアルがお役に立てば幸いです。


Ubuntu
  1. Ubuntu20.04サーバーのインストール

  2. Debian10-11およびUbuntu20.04へのPerfectServerAutomatedISPConfig3のインストール

  3. Debian10-11およびUbuntu20.04へのPerfectServerAutomatedISPConfig3のインストール

  1. Ubuntu20.04Dropboxのインストールとデスクトップの統合

  2. Ubuntu20.04FFmpegのインストール

  3. ApacheとMySQLを使用したUbuntuLinuxへのWordPressのインストール

  1. Linuxクォータ-UbuntuとDebianでのインストールと構成

  2. UbuntuおよびFedoraLinuxへのuToxのインストール

  3. ElasticsearchとKibana:Ubuntu16.04でのインストールと基本的な使用法