bash
のファイルを処理できる場合 、このワンライナーはすべてのテキストをアンパックします:
unzip -qc "$1" ppt/slides/slide*.xml | grep -oP '(?<=\<a:t\>).*?(?=\</a:t\>)'
pptx ファイルを $1
として渡すだけです 、そしてテキストをファイル $2
に書き込みます .各スライドのコンテンツはプレゼンテーションの順序で表示されず、ラベルも何もないため、より読みやすいリストを取得するには、さらに数行のスクリプトと一時ディレクトリが必要になります。
Abiword がインストールされているので、最初に PDF を作成できます
libreoffice --headless --convert-to pdf filename.pptx
次に、abiword を使用して pdf を txt に変換します
abiword --to=txt filename.pdf