これは比較的古い質問ですが、答えは同じです。仮想マシン (物理ホスト上で実行) とある種のストレージ (共有ストレージ – FC SAN、iSCSI ストレージ、NFS 共有 – またはローカル ストレージ) があります。
仮想化により、多くの仮想マシンが同時に同じ物理リソースにアクセスしようとします。物理的な制限 (読み取り/書き込み操作の数 – IOPS、スループット、待ち時間) により、すべての物理マシンのすべてのストレージ要求を同時に満たすことができない場合があります。通常何が起こるか:仮想マシンのオペレーティング システムで「SCSI 再試行」と失敗した SCSI 操作を確認できます。一定時間内に非常に多くのエラー/再試行が発生した場合、カーネルはマウントされたファイルシステムを読み取り専用に設定して、ファイルシステムへの損傷を防ぎます。
簡単に言うと、物理ストレージは十分に「強力」ではありません。同時にストレージ システムにアクセスするプロセス (仮想マシン) が多すぎて、仮想マシンがストレージから十分な速度で応答を得られず、ファイル システムが読み取り専用になります。
あなたができることはそれほど多くありません。明らかな解決策は、より良い/追加のストレージです。 Linux カーネルで SCSI タイムアウトのパラメータを変更することもできます。詳細は次のように説明されています:
http://kb.vmware.com/selfservice/microsites/search.do?language=en_US&cmd=displayKC&externalId=1009465
http://www.cyberciti.biz/tips/vmware-esx-server-scsi-timeout-for-linux-guest.html
ただし、ファイルシステムが読み取り専用に設定される前にカーネルがより多くの時間を取得するため、これは問題を「延期」するだけです。 (つまり、問題の原因を解決していません。)
私の経験 (VMware での数年間) では、この問題は Linux カーネル (RHEL と SLES を使用しています) にのみ存在し、Windows サーバーには存在しません。また、この問題は、FC、iSCSI、ローカル ストレージなど、あらゆる種類のストレージで発生します。私たちにとって、仮想インフラストラクチャで最も重要な (そして高価な) コンポーネントはストレージです。 (現在、1 Gbps iSCSI 接続で HP LeftHand を使用しており、それ以来、ストレージの問題は発生していません。スケーラビリティのために (従来の FC ソリューションではなく) LeftHand を選択しました。
考えられる説明としては、ハードウェアの問題 (部分的なディスク障害) があり、問題を最小限に抑えるためにカーネルが問題を検出するとすぐにルート ファイルシステムを読み取り専用として再マウントしたことが考えられます。現在のマウント オプションを確認するより信頼できる¹ 方法は cat /proc/mounts
です (grep ' / ' /proc/mounts
ルート ファイルシステムの場合、rootfs / …
を無視します 行は、ブート プロセスのアーティファクトです)。おそらく rw,errors=remount-ro
が見つかるでしょう。 ro
に変更されました (その他のオプションが追加で表示される場合があります)。
カーネル ログには、おそらく Remounting filesystem read-only
というメッセージが含まれています。 、ディスク アクセス エラーが先行します。ログは通常 /var/log/kern.log
にあります 、ただし、これが現在読み取り専用のファイルシステム上にある場合、メッセージはそこに表示されませんが、前述のエラーは表示されるはずです. dmesg
で最新のいくつかのカーネル エラーを確認することもできます。 コマンド。
余談ですが、Ubuntu では、マウント ポイント (デスクトップ インターフェイスで使用される) の通常の場所は /media
の下にあります。 (例:/media/cdrom0
)、ただし /mnt
を使用できます または /mnt/cdrom
¹ <サブ>mount
/etc/mtab
からの報告 .ルート ファイルシステムが読み取り専用の場合、/etc/mtab
最新の状態に保つことはできません。
何が起こったのかというと、最近データセンターで停電がありました。それ以来、私は自分のサーバーに触れていません。データ センターの電源が失われると、VSphere は再起動されるまで Ubuntu のファイル システムを読み取り専用にします。再起動を試みたでしょうが、すべての監視が狂ってしまうのは避けたかったのです。 Nagios (監視サービス) を停止しました。システムを再起動したので、すべて正常に動作しています。すべての入力に感謝します。大変感謝しております。