GNU/Linux >> Linux の 問題 >  >> Linux

Wgetを使用してWebディレクトリからファイルを再帰的にダウンロードするにはどうすればよいですか?

質問: 私の会社のイントラネットWebサイトは、GBのソフトウェアツールとアプリケーションをホストしています。私はwgetコマンドを介してそれらすべてをダウンロードしようとしています それでも同じディレクトリ構造を維持します(ソースディレクトリにはさまざまなカテゴリの下にツールが整理されており、同じように維持するのが好きです)。イントラネットWebディレクトリの例を次に示します– http://intranet.company.com/software-tools/ 。 「ソフトウェアツール」は、多数のサブディレクトリとファイルを含むディレクトリです。 wgetコマンドを使ってそれらすべてを再帰的にダウンロードしたいと思います。しかし、wgetの適切なオプションが見つからないようです。 techglimpseの誰かが私を助けてくれますか? –Naveen。

回答:

wgetは、リモートWebサーバーからファイルをダウンロードするためのコマンドラインユーティリティです。特定のファイルをダウンロードしたり、ディレクトリをループしたり(つまり、再帰的に)、サブディレクトリからファイルをダウンロードしたりすることができます。

wget再帰ダウンロード

# wget  -r http://intranet.company.com/software-tools/

上記のコマンドは、「software-tools」ディレクトリ内のすべてのファイルとディレクトリをダウンロードします。ただし、「software-tool」ディレクトリの下およびサブディレクトリ内の「index.html」ファイルもダウンロードすることを忘れないでください。これを回避するには、値が「index.html」の拒否オプションを使用する必要があります。

wget拒否オプション

# wget  -r --reject "index.html*" http://intranet.company.com/software-tools/

注: wgetの再帰オプションは、ディレクトリリストがWebサーバーによって許可されている場合にのみ機能します。

出力例:

::::::::::::::::::::::::::
 Removing intranet.company.com/software-tools/index.html?C=M;O=D since it should be rejected.
 ::::::::::::::::::::::::::

wgetを使用して再帰的にダウンロードしている間は、親ディレクトリに昇格しないでください

wgetがディレクトリインデックスのリンクをたどって親ディレクトリに昇格したくない場合は、以下のようにオプション「–no-parent」を使用する必要があります。

wget -r --no-parent --reject "index.html*" http://intranet.company.com/software-tools/

manwgetからより多くの情報を見つけることができます。


Linux
  1. Linux で FTP 経由でフォルダーを再帰的にダウンロードする方法

  2. 「mv」コマンドを使用して、特定のディレクトリ以外のファイルを移動する方法は?

  3. wgetを使用してディレクトリ全体とサブディレクトリをダウンロードする方法は?

  1. すべてのファイルを現在のディレクトリから上位ディレクトリに移動する方法は?

  2. Windows PC からリモート Linux サーバーに rsync を使用する方法は?

  3. smbclient を使用してディレクトリを再帰的にダウンロードするにはどうすればよいですか?

  1. LinuxでsFTPを使用してファイル/ディレクトリをアップロードまたはダウンロードする方法

  2. Linuxの基本:Wgetを使用してシェルにファイルをダウンロードする方法

  3. Linux で URL からファイルをダウンロードする方法