GNU/Linux >> Linux の 問題 >  >> Linux

継続的な mpt2sas syslog メッセージの解読

解決策 1:

おそらく、最善の策は、ディスク間のどこか、およびsas RAIDコントローラーまでのハードウェアの問題です。試すことをお勧めします:

<オール>
  • 利用可能な場合は、ベンダーからの診断ツールを実行します
  • ケーブルの確認、再装着、交換
  • ハードウェア コンポーネントを取り除き、ディスクを RAID コントローラに接続するチェーン内のハードウェアを交換します (コントローラ自体を含む) (つまり、マザーボードに統合された RAID 以外のものを試してください)。
  • まったく同じ Dell PowerEdge R515 の 2 つのうちの 1 つが非常によく似たメッセージを表示していました (ログは定期的に mpt2sas0 メッセージでいっぱいになりますが、正確な数値コードはわかりません)。 Dell 独自の起動可能な診断では、これらが「ハードウェア エラー」として検出され、RAID SAS バックプレーンを交換することで問題が解決しました。

    調査したところ、mpt2sas0 のさまざまなエラー コードの意味に関する包括的なリソースを見つけることができませんでした。ハードウェアベンダー固有のものでさえあるのではないかと思います(SASについて詳しく知っている人は、これを確認または否定する必要があります).したがって、エラー コードの意味は大きく異なる可能性がありますが、SMART がクリーンな場合、mpt2sas0 がエラー コードを報告する他の正当な理由を想像するのは困難です。

    これらのエラーは非常に深刻な場合があります。私の R515 は、12 ディスクの Ubuntu Linux ソフトウェア RAID 6 で 1 週間、これらのメッセージで問題なく動作していたように見えましたが、突然、アレイから 12 ディスクすべてが壊れたとして取り出されました (!)

    また、私の場合、すべてのディスクの SMART は完全にクリーンでした。適切なチェックは、スマートな自己診断テストです:smartctl -t long /dev/sdX 、そして約1日後に結果を確認します smartctl -l selftest /dev/sdX .すべて問題なければ、テストは Completed と表示されます そして LBA_first_err 列は空でなければなりません。

    解決策 2:

    うわー、大変ですね。

    これは、0x31120303 が、デバイスの 1 つが高負荷状態にあるためのバス リセットであることを示しているようです。気にする必要はないとも言われています。 (はは、そうです。)

    これは、デバイスの 1 つがコマンドに応答するのに時間がかかりすぎるために、これらのログ メッセージが発生していることを示しています。これは同じことを言い、また高負荷下で発生することを示しています。

    これは完全な答えではありませんが、役立つ方向性を示してくれることを願っています.


    Linux
    1. Linuxでのハードウェア問題のトラブルシューティング

    2. Linux – Linuxへのログインを理解していますか?

    3. Linux – Syslog.confファイルを設定して、Iptablesメッセージを別のファイルに記録する方法は?

    1. メインサーバーノードのハードウェア仕様は何ですか?

    2. 監査されたメッセージが /var/log/messages をいっぱいにする

    3. Linux OS サービス「syslog」

    1. Btrfs:3 台以上のデバイスで RAID 1

    2. LVM on RAID または RAID on LVM のどちらが優れていますか?

    3. Linux 内部からハードウェア RAID 情報を検出できますか?