.doc または .docx 形式で作業しているかどうかに応じて、2 つの異なるコマンドライン ツールを使用する必要があります。
.doc には catdoc を使用:
catdoc foo.doc > foo.txt
.docx の場合、docx2txt を使用:
docx2txt foo.docx
後者は、オリジナルと同じディレクトリに foo.txt というファイルを生成します。
どの Linux ディストリビューションを使用しているかはわかりませんが、catdoc と docx2txt の両方が Ubuntu リポジトリから入手できます。例:
apt-get install docx2txt
または、Mac の Homebrew を使用:
brew install docx2txt
here は、それを行うと主張する perl プロジェクトです。私は、document.xml で XSLT を使用して、手作業でも多くのことを行いました。 Docx ファイル自体は単なる zip ファイルです。解凍して要素を調べることができます。これは、特定のファイルに対して行うのは難しくありませんが、Word が内部的に物を保存する方法に関するドキュメントがなく、内部表現が多様であるため、一般的なケースでは非常に困難です。