コマンドラインから一括で検索できるように、PDFファイルをテキストに変換する必要があります。 Ubuntu、OBSD、または同様のディストリビューション用のコンバーターはありますか?
おそらく関連する投稿、ubuntuを使用したOCRはこちら。
承認された回答:
たくさんの選択肢があります!
pdftotext
popplerからはすでに言及されています。
pdf2line
と呼ばれるHaskellプログラムがあります これはうまく機能します。
calibreのebook-convert
コマンドラインプログラム(または口径自体)は別のオプションです。 PDFをプレーンテキストまたは他の電子ブック形式(RTF、ePub)に変換できます。私の意見では、かなり低速ですが、pdftotextよりも優れた結果が生成されます。
ebook-convert file.pdf file.txt
AbiWordは、コマンドラインから認識している任意の形式間で変換でき、少なくともオプションでPDFインポートプラグインがあります:
abiword --to=txt file.pdf
さらに別のオプションは、podofotextextract
です。 podofoPDFツールライブラリから。私は実際にそれを試していません。
2つのGhostscriptツールを組み合わせる場合、pdf2ps
およびps2ascii
、さらに別のオプションがあります。
実際にはさらにいくつかの方法を考えることができますが、とりあえずそのままにしておきます。 😉