GNU/Linux >> Linux の 問題 >  >> Linux

Linuxでパワーポイントpptxからテキストを抽出するツール?

bash のファイルを処理できる場合 、このワンライナーはすべてのテキストをアンパックします:

unzip -qc "$1" ppt/slides/slide*.xml | grep -oP '(?<=\<a:t\>).*?(?=\</a:t\>)'

pptx ファイルを $1 として渡すだけです 、そしてテキストをファイル $2 に書き込みます .各スライドのコンテンツはプレゼンテーションの順序で表示されず、ラベルも何もないため、より読みやすいリストを取得するには、さらに数行のスクリプトと一時ディレクトリが必要になります。


Abiword がインストールされているので、最初に PDF を作成できます

libreoffice --headless --convert-to pdf filename.pptx

次に、abiword を使用して pdf を txt に変換します

abiword --to=txt filename.pdf 

Linux
  1. 着信メールをText/plainからText/htmlに変更しますか?

  2. Linux – / etc / shadowから日付を抽出しますか?

  3. gImageReader –Linuxの画像とPDFからテキストを抽出する

  1. Linuxでテキストファイルからバイナリを見分ける方法

  2. 標準の Linux ツールで 7z ファイルを抽出しますか?

  3. Linuxでテキストファイルから特定の行を表示するには?

  1. LinuxでPDFファイルからビデオを作成する方法

  2. 私の5つのお気に入りのLinuxシステム管理者ツール

  3. ファイルのテキストリストからの Linux (mv または cp) 固有のファイル?