実際、現実的な選択肢はそれほど多くないと思います。好みの順に並べると、次のようになります:
<オール>Hadoop Distributed File System (HDFS) は、IMHO の要件に一致しません。 HDFS はすばらしいものですが、そのビッグテーブルのようなアプローチは、上記のファイルシステムよりもアクセスしにくいことを意味します。もちろん、大規模なスケーラビリティと長期的な展望を本当に求めているのであれば、HDFS が最適かもしれません。Yahoo、Facebook などは Hadoop の成長に投資しています。
1 つのコメントとして、上記のシステムのほとんどは、冗長性を実現するためにファイル全体を 2 ~ 3 ノードにコピーします。これは、パリティ エンコーディング / RAID スキームよりも多くのスペースを占有しますが、大規模に管理でき、誰もが採用したソリューションのようです。したがって、あなたが言及した 75% の効率は得られません...
私だったら、GlusterFS を使用します。現在のリリースは非常に安定しており、HPC とインターネット スペースの両方で非常に大規模なインストールを行っている人々が、実稼働システムでこれに依存していることを知っています。基本的には、必要に応じてコンポーネントをレイアウトすることで、ニーズに合わせて調整できます。 Lustre とは異なり、専用のメタデータ サーバーがないため、中心的な障害点が最小限に抑えられ、セットアップのスケーリングが容易になります。
残念ながら、パフォーマンスを低下させずに 75% の基準を満たす簡単な方法はないと思います。
コモディティ ハードウェアで動作しますが、Infiniband 相互接続を使用すると、パフォーマンスが大幅に向上します。幸いなことに、最近の IB の価格は非常に低くなっています。
Scalable Informatics の担当者とその解決策としての Jackrabbit 製品をチェックしてみてください。彼らはハードウェアで GlusterFS をサポートしており、そのソリューションの価格は、何かをゼロから組み立てるコストに匹敵します。