DevOps課程-Prometheus 5

在Prometheus裡的Alert規則

ZONGRU Li

Oct 20, 2022

前一篇講解了Grafana的資訊顯示

但是我們並不會一直等在Grafana的web介面等待異常的出現

而是當Cluster有任何異常的時候由系統自動通知我們

不管是經由email,slack,或其他通知方式

然後我們再去Grafana的Dashboard上查找異常

所以我們應該要可以自行定義監控的事項,用以通知我們異常狀況的出現

例如:

CPU使用率超過50%
Pod無法正常建立

而告警部分在Prometheus有兩大塊:

1.定義要因為什麼而通知告警(在Prometheus Server中定義告警規則,如上面狀況就發出通知)
2.寄送通知(設置Alertmanager,讓它寄送通知到email,slack...等等)

我們可能可以從Grafana觀察可以大概推斷Cluster的使用率:

假設平常可能只有20~40%就是MAX了

那麼我們就可以嘗試設置一個超過50%即觸發的通知

Alert: when CPU > 50%

在學設置Alert前,先來看看既有的Alert Rules

既有的Alert Rules:

首先進到Prometheus頁面

往下拉還有很多預設的Alert:

然後顯示上

而有觸發的:

firing表示:Alert已經通知給Alertmanager去了,所以Alertmanager可以進一步進行相關的通知

而實際Alert的設置結構則是可以點開看到:

如上圖,結構上非常清晰

其中觸發的邏輯表示式,即PromQL:

首先我們要知道的是如上的Metrics部分是

"alertmanager_config_last_reload_successful"

這個是Alertmanager最近一次重新載入設定檔是否成功

這是真的存在的Metrics:

然後帶有相關的filter過濾條件:

job=”monitoring-kube-prometheus-alertmanager”,namespace=”monitoring”

然後前面還有一個PromQL的Function:

max_over_time

這些Finction可以到官網查找:

#在Graph頁面執行,其中:
max_over_time(alertmanager_config_last_reload_successful{job="monitoring-kube-prometheus-alertmanager",namespace="monitoring"}[5m])#max_over_time這個Function是找出某一段時間內的最大數值,所以要給如上像是5分鐘