HTMLからフォーマットされていないプレーンテキストへ?

w3m -dump <page.html> を使用 .

これにより、html ファイルのテキスト表現が得られます。

マニュアルページから:

-dump  dump formatted page into stdout

formatted と書かれていますが、出力は単なるプレーンテキストです。

html2text は、HTML のページを同等の Markdown 構造のテキストに変換する Python スクリプトです。 html2text は、Python がインストールされている任意のオペレーティングシステムでダウンロードして実行できます。 html2text プログラムは多くの Linux ディストリビューションのリポジトリにあり、次のようにコマンドラインから実行できます:

html2text -style pretty input.html

このコマンドは、元の html ファイルをテキストに変換するだけでなく、プレーンテキスト出力を読みやすくするという非常に優れた機能も果たします。見出しは見出しのように見え、リストはリストのように見えます。

表を Web ページからフォーマットされていないテキストに自動的に変換する際に問題がある場合は、Windows/Mac/Linux 用の Typora や Mark Text GUI アプリケーションなどの最新のマークダウンエディターを使用して簡単に変換できます。これら 2 つのアプリケーションを比較すると、Mark Text は Typora よりもウェブページのすべてを正確にキャプチャする点で優れており、Typora はよりユーザーフレンドリーなエディターを備えているので、私は両方のアプリケーションを使用しています。 Mark Text を Web ページグラバーとして使用し、取得したマークダウンテキストをコピーして Typora に貼り付け、Typora を使用して編集します。

Gombai Sándor が言及したように、NZD の回答へのコメントで:

lynx -dump -nolist -nomargins

URL を使用してコマンドラインから実行すると、出力が stdout に書き込まれます。これは非常にうまくいくようです。 -nomargins lynx の古いバージョンにしかアクセスできない場合、サポートされない可能性があります (つまり、古い UNIX では Lynx バージョン 2.8.5rel.5 (2005 年 10 月 29 日))。

出力には、いくつかの潜在的な例外を除いて、マークアップやリンクがまったくないように見えます (次のリストは典型的または網羅的ではない可能性があります):

表形式のデータには余分な空白が発生するようです。少なくとも場合によっては、通常は表形式のデータを抽出するのに空白が役立ちますが、解析を複雑にする方法で一貫性がない場合があります。
リンクはダンプされませんが、可視テキストが出力される場合があります。たとえば、脚注の参照はアスタリスクとして表示される場合があります。また、Wiki では、クリッカブルが同等のプレーンテキスト (基になる URL なし) として表示される場合があります。
参照によっては、代替テキストが展開されて出力される場合があります。
順不同リストはアスタリスクとインデントでダンプします。
番号とインデントを含む注文リストのダンプ
入力フィールドはアンダースコアとして表示されることがあります