Linuxでパワーポイントpptxからテキストを抽出するツール?

bash のファイルを処理できる場合、このワンライナーはすべてのテキストをアンパックします:

unzip -qc "$1" ppt/slides/slide*.xml | grep -oP '(?<=\<a:t\>).*?(?=\</a:t\>)'

pptx ファイルを $1 として渡すだけです、そしてテキストをファイル $2 に書き込みます .各スライドのコンテンツはプレゼンテーションの順序で表示されず、ラベルも何もないため、より読みやすいリストを取得するには、さらに数行のスクリプトと一時ディレクトリが必要になります。

Abiword がインストールされているので、最初に PDF を作成できます

libreoffice --headless --convert-to pdf filename.pptx

次に、abiword を使用して pdf を txt に変換します

abiword --to=txt filename.pdf