Microsoft Office ドキュメントを HTML またはその他の形式に変換するための通常のツールは mswordview でしたが、その後 vwWare に名前が変更されました.
コマンドライン ツールを探している場合は、AbiWord を使用して変換を実行することを実際に推奨しています。
AbiWord --to=txt
ライブラリを探している場合は、wvWare の概要ページから始めてください。また、MS Office ドキュメントを読み取るライブラリとツールのリストも維持しています。
私なら、コマンド ライン ソリューションを使用します (そして、Python サブプロセス モジュールを使用して Python からツールを実行します)。
msword のコンバーター (catdoc )、エクセル (xls2csv) ) および ppt (catppt ) は (ソース形式で) ここにあります:http://vitus.wagner.pp.ru/software/catdoc/.
catppt の有用性についてコメントすることはできませんが、catdoc と xls2csv はうまく機能します!
ただし、最初にディストリビューション リポジトリを検索してください。
Python API 経由で OpenOffice にアクセスできます。
これをベースとして使用してみてください:http://wiki.services.openoffice.org/wiki/Odt2txt.py