第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

為了賬號(hào)安全,請(qǐng)及時(shí)綁定郵箱和手機(jī)立即綁定

利用alertmanager進(jìn)行告警整理

標(biāo)簽:
Go

prometheus的疑问

前面讲过prometheus告警的坑点,说了很多表达式的技巧,这些都是产生告警的,那么告警产生以后,以什么样的形式发送出来呢。这个就是本文主要讲的内容。

alertmanager和prometheus

prometheus的配置文件中,有alertmanager_config这一项,他配置的就是alertmanager的地址,如果prometheus产生了告警,就会根据这个配置的url,进行发送。告警信息就会发送到alertmanager中,所有prometheus的任务就是产生告警的信息,其余的处理都会在alertmanager中做。

demo

groups:
- name: example
  rules:
  - alert: HighRequestLatency
    expr: job:request_latency_seconds:mean5m{job="myjob"} > 0.5
    for: 10m
    labels:
      severity: high
    annotations:
      summary: High request latency
  - alert: lowRequestLatency
    expr: job:request_latency_seconds:mean5m{job="myjob"} > 0.01
    for: 10m
    labels:
      severity: low
    annotations:
      summary: log request latency

告警的分组

  receiver: xxx
  group_by: ['alertname', 'job']
  group_wait: 30s
  group_interval: 5m
  repeat_interval: 3h

告警分组主要围绕上面的的四个属性来。
所有从prometheus来的告警,都会进行分组,告警的发送也是按照分组来的,group_by就是按照标签分组,一般alertname会作为选择,就是告警的名称,其次后面会根据业务来区分,例如我上面写的job。他会按照job再进行一次分组。这样的好处是可以合并告警信息。

group_wait是第一次的告警信息在间隔多长时间后发送给receiver(receiver就是我们的webhook,短信等等)。
group_interval是按照组进行合并,组间的间隔时间。
repeat_interval是告警的再次发送频率。这里主要应对的场景是怕丢数据,例如一个告警触发了,但是一直没解决,那么必须进行再次的提醒。是一个提醒的状态。

告警抑制

正如上面的告警规则,大于0.5是高级别,大于0.01是低级别。当一个值是0.6的时候,满足高级别,进行高级别的告警,也同时满足低级别,所以也会产生一个低级别的告警,这完全是两条不一样的告警信息,但表达的内容是相同的。而且还有包含关系,都是高级别的了,肯定也满足低级别的条件。此时有低级别的告警就不合适了。
符合人们理解的情况是,只报最高级别的告警。这里就需要抑制功能了。

inhibit_rules:
- source_match:
    severity: 'high'
  target_match:
    severity: 'low'
  equal: ['alertname']

抑制的功能其实就是根据label进行去重的操作,上面的配置就会把low的去掉,告警发送的时候只转发high的。下面的equal是合并的条件,其实就是label必须相同的才可以进行抑制。这个根据需求进行相同的选择就行,一般情况alertname能满足条件。例如上面的场景,我可以选择job也相同的。这里的相同的选择一般对应的是分组的label。

告警的静默

告警是可以临时不在发送的。这个需要在alertmanager的图形界面上进行填写。目前只有这么一个地方开放,不可以配置文件配置。

alertmanager的集群

alertmanager有集群模式,是一个ap系统。–cluster.listen-address可以指定监听的端口。–cluster.peer则是选择要监听的alertmanager。他是通过gossip进行传播。这里不详细说gossip,理解为同步消息吧。
prometheus需要配置集群里所有的alertmanager。
这里必须解释他为什么是ap系统。prometheus配置所有的alertmanager。有告警发生的时候就会发给所有的alertmanager。alertmanager会有一个同步的关系。必须在5秒内同步完成。如果是监听成链的,每个链都是5秒。如果5秒内完成同步,则告警信息不会重复发送。如果没有同步完成,就会出现,两个alertmanager同时发送的告警的情况。

點(diǎn)擊查看更多內(nèi)容
TA 點(diǎn)贊

若覺得本文不錯(cuò),就分享一下吧!

評(píng)論

作者其他優(yōu)質(zhì)文章

正在加載中
JAVA開發(fā)工程師
手記
粉絲
1.6萬(wàn)
獲贊與收藏
380

關(guān)注作者,訂閱最新文章

閱讀免費(fèi)教程

  • 推薦
  • 評(píng)論
  • 收藏
  • 共同學(xué)習(xí),寫下你的評(píng)論
感謝您的支持,我會(huì)繼續(xù)努力的~
掃碼打賞,你說(shuō)多少就多少
贊賞金額會(huì)直接到老師賬戶
支付方式
打開微信掃一掃,即可進(jìn)行掃碼打賞哦
今天注冊(cè)有機(jī)會(huì)得

100積分直接送

付費(fèi)專欄免費(fèi)學(xué)

大額優(yōu)惠券免費(fèi)領(lǐng)

立即參與 放棄機(jī)會(huì)
微信客服

購(gòu)課補(bǔ)貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動(dòng)學(xué)習(xí)伙伴

公眾號(hào)

掃描二維碼
關(guān)注慕課網(wǎng)微信公眾號(hào)

舉報(bào)

0/150
提交
取消