Wgetを使用してWebディレクトリからファイルを再帰的にダウンロードするにはどうすればよいですか？

質問： 私の会社のイントラネットWebサイトは、GBのソフトウェアツールとアプリケーションをホストしています。私はwgetコマンドを介してそれらすべてをダウンロードしようとしていますそれでも同じディレクトリ構造を維持します（ソースディレクトリにはさまざまなカテゴリの下にツールが整理されており、同じように維持するのが好きです）。イントラネットWebディレクトリの例を次に示します– http://intranet.company.com/software-tools/ 。「ソフトウェアツール」は、多数のサブディレクトリとファイルを含むディレクトリです。 wgetコマンドを使ってそれらすべてを再帰的にダウンロードしたいと思います。しかし、wgetの適切なオプションが見つからないようです。 techglimpseの誰かが私を助けてくれますか？ –Naveen。

回答：

wgetは、リモートWebサーバーからファイルをダウンロードするためのコマンドラインユーティリティです。特定のファイルをダウンロードしたり、ディレクトリをループしたり（つまり、再帰的に）、サブディレクトリからファイルをダウンロードしたりすることができます。

wget再帰ダウンロード

# wget  -r http://intranet.company.com/software-tools/

上記のコマンドは、「software-tools」ディレクトリ内のすべてのファイルとディレクトリをダウンロードします。ただし、「software-tool」ディレクトリの下およびサブディレクトリ内の「index.html」ファイルもダウンロードすることを忘れないでください。これを回避するには、値が「index.html」の拒否オプションを使用する必要があります。

wget拒否オプション

# wget  -r --reject "index.html*" http://intranet.company.com/software-tools/

注： wgetの再帰オプションは、ディレクトリリストがWebサーバーによって許可されている場合にのみ機能します。

出力例：

::::::::::::::::::::::::::
 Removing intranet.company.com/software-tools/index.html?C=M;O=D since it should be rejected.
 ::::::::::::::::::::::::::

wgetを使用して再帰的にダウンロードしている間は、親ディレクトリに昇格しないでください

wgetがディレクトリインデックスのリンクをたどって親ディレクトリに昇格したくない場合は、以下のようにオプション「–no-parent」を使用する必要があります。

wget -r --no-parent --reject "index.html*" http://intranet.company.com/software-tools/

manwgetからより多くの情報を見つけることができます。