GNU/Linux >> Linux の 問題 >  >> Linux

HTMLをテキストに変換するには?

curl に HTML プロセッサが組み込まれているとは思いません。ただし:

lynx --dump <URL>

それでも curl を使用したい場合は、 html2text を使用できます (Ubuntu で利用可能)


html2text をインストールできます (高度な HTML からテキストへのコンバーター) であり、使い方は簡単です:

$ html2text http://example.com/
$ cat file.html | html2text -o file.txt

インストール方法:

  • Linux:apt-get install html2text
  • OS X:brew install html2text

curl の例 :

$ curl -sL google.com | html2text
Search Images Maps Play YouTube News Gmail Drive More ?
Web History | Settings | Sign in
     A better way to browse the web
       Get Google Chrome

          Advanced search Language tools

        [Google Search][I'm Feeling Lucky]

     Advertising Programmes Business Solutions+GoogleAbout GoogleGoogle.com
                           ? 2016 - Privacy - Terms

Linux
  1. Windows 10にVim(vi)をインストールする方法

  2. テキストファイルをすべて大文字または小文字に変換する方法

  3. LinuxでPDFをテキストに変換する方法(GUIおよびコマンドライン)

  1. Linux のシェル出力を HTML に変換するには?

  2. ファイルにテキストを追加するにはどうすればよいですか?

  3. bash のテキスト文字列を配列に変換する

  1. Debian10でHTMLDocを使用してHTMLをPDFに変換する方法

  2. 画像をテキストに変換

  3. HTMLなしでwgetを使用してページのテキストを取得するには?