Prometheus を使用して OOM イベントを監視します。
この式は、メモリ使用量が限界に達した回数を報告する必要があります:
rate(container_memory_failcnt{pod_name!=""}[5m]) > 0
参考までに:これは適切なドキュメントであるコードの次善策です
kube-state-metrics kube_pod_container_status_terminated_reason
を使用できるようになりました OOM イベントを検出する
kube_pod_container_status_terminated_reason{reason="OOMKilled"}
kube_pod_container_status_terminated_reason{container="addon-resizer",endpoint="http-metrics",instance="100.125.128.3:8080",job="kube-state-metrics",namespace="monitoring",pod="kube-state-metrics-569ffcff95-t929d",reason="OOMKilled",service="kube-state-metrics"}
creationTimestamp 順の特定の名前空間のイベント履歴:
kubectl get events -n YOURNAMESPACE -o wide --sort-by=.metadata.creationTimestamp
または、すべての名前空間のイベント履歴を creationTimestamp 順に確認したい場合:
kubectl get events --all-namespaces -o wide --sort-by=.metadata.creationTimestamp