GNU/Linux >> Linux の 問題 >  >> Linux

テキストコンバーターへのある種のPDFはありますか?

コマンドラインから一括で検索できるように、PDFファイルをテキストに変換する必要があります。 Ubuntu、OBSD、または同様のディストリビューション用のコンバーターはありますか?

おそらく関連する投稿、ubuntuを使用したOCRはこちら。

承認された回答:

たくさんの選択肢があります!

pdftotext popplerからはすでに言及されています。

pdf2lineと呼ばれるHaskellプログラムがあります これはうまく機能します。

calibreのebook-convert コマンドラインプログラム(または口径自体)は別のオプションです。 PDFをプレーンテキストまたは他の電子ブック形式(RTF、ePub)に変換できます。私の意見では、かなり低速ですが、pdftotextよりも優れた結果が生成されます。

ebook-convert file.pdf file.txt

AbiWordは、コマンドラインから認識している任意の形式間で変換でき、少なくともオプションでPDFインポートプラグインがあります:

abiword --to=txt file.pdf

さらに別のオプションは、podofotextextractです。 podofoPDFツールライブラリから。私は実際にそれを試していません。

2つのGhostscriptツールを組み合わせる場合、pdf2ps およびps2ascii 、さらに別のオプションがあります。

実際にはさらにいくつかの方法を考えることができますが、とりあえずそのままにしておきます。 😉


Linux
  1. 数値ソートでpdfファイルをマージする

  2. Firefox でツールチップのテキストをコピーする方法はありますか?

  3. PDFからテキストへのコンバーター

  1. Linuxで別のpdfを使用してpdfの単一ページを置き換える方法は?

  2. htopでテキストをコピーする方法はありますか?

  3. PDF 内のすべてのテキストをラスタライズするにはどうすればよいですか?

  1. テキストファイルの並べ替えに役立つAwkワンライナーとスクリプト

  2. Sysadminツールボックス:Linuxでsortコマンドを使用してテキストを処理する方法

  3. 複数行が連続するテキストファイルを並べ替える