GNU/Linux >> Linux の 問題 >  >> Linux

gImageReader –Linuxの画像とPDFからテキストを抽出する

gImageReader は、画像やPDFからテキストを抽出する機能を備えた無料のオープンソースPDFリーダーです。 Tesseract-OCRのシンプルなGtk/Qtフロントエンドとして構築されています 、人工知能を使用してドキュメントや画像のテキストやパターンを認識するためのオープンソースのOCRエンジン 。

Tesseractは、それ自体がコマンドラインツールであり、端末に精通しているLinuxユーザーによる使用に制限されています。 gImageReaderに感謝します 、誰もがエンジンのOCR効率を利用できるようになりました。

gImageReader Unicode文字の存在のおかげで、サポートされているいくつかの言語のいずれかでPDFまたは画像ファイルからテキストをスキャンすることによって機能します。シンプルでよく整理されたカスタマイズ可能なユーザーインターフェイスを備えており、スペルチェックと翻訳のタスクを実行できます。

gImageReaderの機能

  • 無料のオープンソースソフトウェア。 GitHubで入手可能なソースコード。
  • GNU/LinuxおよびWindowsプラットフォームで利用可能です。
  • 使い慣れた編集レイアウトを備えたテーマ別UI。
  • ディスク、スキャンデバイス、スクリーンショット、クリップボードからPDFドキュメントと画像をインポートします。
  • hOCRドキュメントからPDFドキュメントを生成します。
  • 手動または自動認識領域の定義。
  • 複数の画像とドキュメントをバッチで処理します。
  • hOCRドキュメントまたはプレーンテキストを認識します。
  • 認識されたテキストが画像の横に表示されます。
  • スペルチェックを含め、認識されたテキストを後処理します。

gImageReader 使いやすく、ソフトコピードキュメントやアップロードされたメディアのスナップショットの操作をサポートします。スクリーンショット。興味のあるテキストの領域を選択し、必要なテキストだけを追加するオプションもあります。最終的に、 gImagereader PDFリーダーとテキスト抽出ツールの両方として機能します。間抜けなもの。

LinuxにgImageReaderをインストールする

gImageReaderを使用するには 最大限に活用するには、 Tesseractを手動でインストールする必要があります 画像やファイルを適切に分析できるようにするための言語パック。パッケージは「Tesseract-ocr-eng」と呼ばれます ‘および Debianのソフトウェアマネージャーから入手できます。 およびFedora ディストリビューション。

Ubuntuを実行している場合 、 PPAを追加するだけです 以下のコマンドを使用して、installコマンドを実行します。

$ sudo add-apt-repository ppa:sandromani/gimagereader
$ sudo apt update
$ sudo apt install gimagereader

Debian Fedora 、および OpenSUSE パッケージマネージャーからインストールします。

$ sudo apt install gimagereader     [On Debian]
$ sudo dnf install gimagereader     [On Fedora]
$ sudo zypper install gimagereader  [On OpenSuse]

Arch Linux を実行している場合でも、取り残されていると感じないでください。 またはその派生物のいずれか。 AUR あなたをカバーしました。また、ソースからアプリを再構築したい場合は、GitHubリポジトリのWikiリンクに手順があります。

あなたは画像から印刷されたテキストを抽出する人ですか?携帯電話で選択した領域のスナップショットを撮り、ラップトップにアップロードすることもできます。さらにクールなのは、その多言語サポートです。これは完璧ではありませんが、現在、コミュニティですでに最良の選択肢の1つです。

gImageReader は、特にOCR機能を備えたオープンソースの世界で最高のPDFリーダーのひとつです。ぜひ試してみて、気に入った方法を確認してください。

いつものように、もしあれば、アプリでの経験を私たちと共有することを歓迎します。そして、下のコメントセクションに他の提案を追加します。


Linux
  1. Linuxで.gzファイルと.tar.gzファイルを抽出する方法

  2. C から Linux で sched_getaffinity と sched_setaffinity を使用するには?

  3. LinuxでPDFからOCRでテキストを抽出するには?

  1. PDFからグラフを抽出しますか?

  2. Linuxでパワーポイントpptxからテキストを抽出するツール?

  3. Linux から exFAT パーティションを作成してフォーマットする

  1. KWriteとKateを使用してLinuxでテキストを編集する

  2. Linuxターミナルからデスクトップ通知とリマインダーを送信する

  3. LinuxでISOイメージからファイルを抽出およびコピーする3つの方法