GNU/Linux >> Linux の 問題 >  >> Linux

Linux でテキスト ファイルを圧縮するには、どのアーカイブ方法が適していますか?

maximumcompression.com の最終更新は 2011 年 6 月 (回答は 2015 年 10 月に更新)
したがって、このウェブサイトは言及していません
現在の世界チャンピオンのテキスト圧縮 :

cmix

コンペティション/ベンチマーク:

  • enwiki6
    1MB のテキスト ファイル enwik6 を 18.2% 圧縮
  • カルガリー
    カルガリー コーパスの 14 ファイルの 17.6% 圧縮 (3 GB の tar ファイル)
  • ハッター賞
    100 MB のテキスト ファイル enwik8 を 15.7% 圧縮
    (しかし cmix 20 GB 以上の RAM が必要なため、勝者ではありません)
  • Silesia オープン ソース圧縮ベンチマーク
    202MB の Silesia コーパスの 15.7% 圧縮
  • 大きなテキスト圧縮のベンチマーク
    1 GB のテキスト ファイル enwik9 の 12.4% 圧縮

詳細:
Byron Knoll は cmix を積極的に開発しています Matt Mahoney 著の Data Compression Explained という本に基づいて、2013 年から自由ソフトウェア (GPL) として提供されています。 Matt Mahoney も上記のベンチマークのいくつかを維持しており、コマンド ライン インクリメンタル アーカイバである ZPAQ (WP) を提案しています。

より標準的なツール (より少ない RAM を必要とする) を好む場合は、以下をお勧めします:

lrzip

lrzip rzip の進化版です コン・コリバス著。
lrzip Long Range ZIP の 2 つの名前の略です。 と Lzma RZIP .
lrzip 多くの場合、xz よりも優れています (別の一般的な圧縮ツール)。
Alexander Riccio も lrzip を推奨しています .

私のお気に入りは:

zpaq

「アーカイバーの専門家」 、Matt Mahoney は、PAQ アルゴリズムに 10 年間集中的に取り組み、CPU/メモリ リソースと圧縮レベルの間で最適な妥協点を提供してきました。

ただし、最後の zpaq 最近のディストリビューションでは、バージョンがパッケージ化されていない/利用できないことがよくあります:-(
新しいマシンがあり、非常に優れたコンプレッサーが必要な場合は、常にソースからコンパイルします:https://github.com/zpaq/zpaq

clone https://github.com/zpaq/zpaq
cd zpaq
g++ -O3 -march=native -Dunix zpaq.cpp libzpaq.cpp -pthread -o zpaq

通常、bz2 は圧縮率が高く、回復機能も優れています。

OTOH、gz の方が速いです。

xz は bz2 よりも優れていると言われていますが、タイミングの振る舞いはわかりません。


おそらく、これらのベンチマーク、特にログ ファイルの圧縮をテストする部分を参照してください。


Linux
  1. より良いcrontabにはanacronを使用してください

  2. Linuxで2つのテキストファイルを結合する方法

  3. LinuxでAsciiDocを使用するための完全ガイド

  1. LinuxとWindows:どちらのOSがPCゲームに適しているか

  2. Linux用のどのファイル圧縮ソフトウェアが最大のサイズ縮小を提供しますか?

  3. Linux –カレンダーに使用するアプリケーションはどれですか?

  1. Linux用の3つの軽量テキストエディタ

  2. Linuxデスクトップ用のトップ10テキストエディタ

  3. LinuxでのGrepコマンド(ファイル内のテキストの検索)