GNU/Linux >> Linux の 問題 >  >> Linux

「wget-r-eRobots =off Http://ccachicago.org」が再帰的に動作しないのはなぜですか?

http://ccachicago.orgを再帰的にダウンロードしようとしています 、ルートindex.htmlという1つのファイルだけを取得しています 、ダウンロード。

私はwgetを使用して再帰的にダウンロードを確認し、推奨される-e robots=offの使用を開始しました。 、ただし、それでも同じように動作します。

どのように、wgetで または他のツールで、サイトのコピーをダウンロードできますか?

承認された回答:

あなたはwgetに質問しています 再帰的を実行するには http://ccachicago.orgのダウンロード 、ただし、このURLは直接的なコンテンツを提供しません。代わりに、http://www.ccachicago.orgにリダイレクトするだけです。 (wgetには伝えていません 再帰的にフェッチする)。

wgetと言うと 正しいURLをダウンロードするには、次のように機能します。

wget -r -e robots=off http://www....

Linux
  1. Linuxは複数の連続したパスセパレーター(/ home //// username /// file)をどのように処理しますか?

  2. Bash =〜正規表現とHttps://regex101.com/?

  3. 「キャッシュディレクトリ/home//.composer/cache/repo/https—packagist.org/を作成できません。または、ディレクトリが書き込み可能ではありません。キャッシュなしで続行しますか?」

  1. wget を使用してプロキシ経由でファイルをダウンロードする方法

  2. http 静的ディレクトリが提供されていません

  3. プロセスが実行されているフォルダーを見つける方法は?

  1. echo または print /dev/stdin /dev/stdout /dev/stderr

  2. /home、/usr、/var などのディレクトリがすべて同じ inode 番号 (2) を持っているのはなぜですか?

  3. /dev/tcp を使用するために < または > が必要な理由