Recoll は、PDF を含む数十の異なる形式をサポートする Unix/Linux 用の素晴らしい全文 GUI 検索アプリケーションです。クエリの正確なページ番号と検索用語をドキュメント ビューアーに渡すこともできるため、GUI から直接結果にジャンプできます。
Recoll には、実行可能なコマンドライン インターフェイスと Web ブラウザー インターフェイスも付属しています。
pdfgrep があり、その名前が示すとおりです。
pdfgrep -R 'a pattern to search recursively from path' /some/path
単純な検索に使用しましたが、問題なく動作しました。
(Debian、Ubuntu、Fedora にパッケージがあります。)
バージョン 1.3.0 以降、pdfgrep は再帰検索をサポートしています。このバージョンは、Ubuntu 12.10 (Quantal) 以降の Ubuntu で利用できます。
ディストリビューションは pdftotext
というユーティリティを提供する必要があります :
find /path -name '*.pdf' -exec sh -c 'pdftotext "{}" - | grep --with-filename --label="{}" --color "your pattern"' \;
「-」は、pdftotext をファイルではなく stdout に出力するために必要です。--with-filename
と --label=
options は grep の出力にファイル名を入れます。オプションの --color
flag は便利で、端末で色を使用して出力するように grep に指示します。
(Ubuntu では pdftotext
パッケージ xpdf-utils
によって提供されます または poppler-utils
.)
pdftotext
を使用したこのメソッド と grep
、pdfgrep
よりも有利です GNU grep
の機能を使いたい場合 その pdfgrep
サポートしません。 注意 :pdfgrep-1.3.x は -C
をサポートします コンテキスト行を印刷するためのオプション。