解決策 1:
おそらく、最善の策は、ディスク間のどこか、およびsas RAIDコントローラーまでのハードウェアの問題です。試すことをお勧めします:
<オール>まったく同じ Dell PowerEdge R515 の 2 つのうちの 1 つが非常によく似たメッセージを表示していました (ログは定期的に mpt2sas0 メッセージでいっぱいになりますが、正確な数値コードはわかりません)。 Dell 独自の起動可能な診断では、これらが「ハードウェア エラー」として検出され、RAID SAS バックプレーンを交換することで問題が解決しました。
調査したところ、mpt2sas0 のさまざまなエラー コードの意味に関する包括的なリソースを見つけることができませんでした。ハードウェアベンダー固有のものでさえあるのではないかと思います(SASについて詳しく知っている人は、これを確認または否定する必要があります).したがって、エラー コードの意味は大きく異なる可能性がありますが、SMART がクリーンな場合、mpt2sas0 がエラー コードを報告する他の正当な理由を想像するのは困難です。
これらのエラーは非常に深刻な場合があります。私の R515 は、12 ディスクの Ubuntu Linux ソフトウェア RAID 6 で 1 週間、これらのメッセージで問題なく動作していたように見えましたが、突然、アレイから 12 ディスクすべてが壊れたとして取り出されました (!)
また、私の場合、すべてのディスクの SMART は完全にクリーンでした。適切なチェックは、スマートな自己診断テストです:smartctl -t long /dev/sdX
、そして約1日後に結果を確認します smartctl -l selftest /dev/sdX
.すべて問題なければ、テストは Completed
と表示されます そして LBA_first_err
列は空でなければなりません。
解決策 2:
うわー、大変ですね。
これは、0x31120303 が、デバイスの 1 つが高負荷状態にあるためのバス リセットであることを示しているようです。気にする必要はないとも言われています。 (はは、そうです。)
これは、デバイスの 1 つがコマンドに応答するのに時間がかかりすぎるために、これらのログ メッセージが発生していることを示しています。これは同じことを言い、また高負荷下で発生することを示しています。
これは完全な答えではありませんが、役立つ方向性を示してくれることを願っています.