w3m -dump <page.html>
を使用 .
これにより、html ファイルのテキスト表現が得られます。
マニュアルページから:
-dump dump formatted page into stdout
formatted
と書かれていますが 、出力は単なるプレーンテキストです。
html2text は、HTML のページを同等の Markdown 構造のテキストに変換する Python スクリプトです。 html2text は、Python がインストールされている任意のオペレーティング システムでダウンロードして実行できます。 html2text プログラムは多くの Linux ディストリビューションのリポジトリにあり、次のようにコマンドラインから実行できます:
html2text -style pretty input.html
このコマンドは、元の html ファイルをテキストに変換するだけでなく、プレーン テキスト出力を読みやすくするという非常に優れた機能も果たします。見出しは見出しのように見え、リストはリストのように見えます。
表を Web ページからフォーマットされていないテキストに自動的に変換する際に問題がある場合は、Windows/Mac/Linux 用の Typora や Mark Text GUI アプリケーションなどの最新のマークダウン エディターを使用して簡単に変換できます。これら 2 つのアプリケーションを比較すると、Mark Text は Typora よりもウェブページのすべてを正確にキャプチャする点で優れており、Typora はよりユーザー フレンドリーなエディターを備えているので、私は両方のアプリケーションを使用しています。 Mark Text を Web ページ グラバーとして使用し、取得したマークダウン テキストをコピーして Typora に貼り付け、Typora を使用して編集します。
Gombai Sándor が言及したように、NZD の回答へのコメントで:
lynx -dump -nolist -nomargins
URL を使用してコマンドラインから実行すると、出力が stdout に書き込まれます。これは非常にうまくいくようです。 -nomargins
lynx
の古いバージョンにしかアクセスできない場合、サポートされない可能性があります (つまり、古い UNIX では Lynx バージョン 2.8.5rel.5 (2005 年 10 月 29 日))。
出力には、いくつかの潜在的な例外を除いて、マークアップやリンクがまったくないように見えます (次のリストは典型的または網羅的ではない可能性があります):
- 表形式のデータには余分な空白が発生するようです。少なくとも場合によっては、通常は表形式のデータを抽出するのに空白が役立ちますが、解析を複雑にする方法で一貫性がない場合があります。
- リンクはダンプされませんが、可視テキストが出力される場合があります。たとえば、脚注の参照はアスタリスクとして表示される場合があります。また、Wiki では、クリッカブルが同等のプレーン テキスト (基になる URL なし) として表示される場合があります。
- 参照によっては、代替テキストが展開されて出力される場合があります。
- 順不同リストはアスタリスクとインデントでダンプします。
- 番号とインデントを含む注文リストのダンプ
- 入力フィールドはアンダースコアとして表示されることがあります