GNU/Linux >> Linux の 問題 >  >> Linux

コマンドライン経由で doc を txt に変換する

.doc または .docx 形式で作業しているかどうかに応じて、2 つの異なるコマンドライン ツールを使用する必要があります。

.doc には catdoc を使用:

catdoc foo.doc > foo.txt

.docx の場合、docx2txt を使用:

docx2txt foo.docx

後者は、オリジナルと同じディレクトリに foo.txt というファイルを生成します。

どの Linux ディストリビューションを使用しているかはわかりませんが、catdoc と docx2txt の両方が Ubuntu リポジトリから入手できます。例:

apt-get install docx2txt

または、Mac の Homebrew を使用:

brew install docx2txt

here は、それを行うと主張する perl プロジェクトです。私は、document.xml で XSLT を使用して、手作業でも多くのことを行いました。 Docx ファイル自体は単なる zip ファイルです。解凍して要素を調べることができます。これは、特定のファイルに対して行うのは難しくありませんが、Word が内部的に物を保存する方法に関するドキュメントがなく、内部表現が多様であるため、一般的なケースでは非常に困難です。


Linux
  1. Linuxでコマンドラインを介してインスタントコーディングの回答を取得する方法

  2. Sip経由でFAXを送信しますか?

  3. Bashは\xc3\ x89をÉに変換しますか?

  1. Linuxcatコマンド

  2. GlusterFSのトラブルシューティング

  3. テキストファイルをすべて大文字または小文字に変換する方法

  1. .txt ファイルに書き込みますか?

  2. 出力を文字列に変換する

  3. シェルで .txt を .csv に変換する