故障
将事件关联聚合在一起,最后形成的称之为故障。智能故障管理系统围绕着故障做全生命周期管理,包括故障产生、故障处理、故障关闭。
在左侧导航栏中选择故障,进入故障列表页面。
默认显示打开状态的故障,用户可以切换页签查看其他状态的故障。
打开:故障持续中,需要进行处理。触发方式:故障产生后没有命中响应策略,并且没有解决,且没有被静默。
已分配:故障已经有指定的负责人,但还未开始处理。触发方式:手动分配或命中响应策略,但通知失败。
处理中:故障已经有指定的负责人,并已经知晓故障。触发方式:命中响应策略,并成功通知。
解除:故障已经解除,但仍有可能重新打开。触发方式:产生解除事件,自动更新状态。或达到最大解除时间,自动生成解除事件。
关闭:故障已经关闭,不会再有新事件加入。触发方式:手动关闭、或在最后一个告警解除后一定时间内(默认2小时)没有新的告警产生。
静默:故障不会被通知。触发方式:手动静默或命中维护计划。
全部:所有故障的合集。
- 故障ID列:“合并”代表该故障是通过“故障合并操作”而形成的。“规则”代表该故障是命中收敛规则而收敛成的故障。“AI”代表是该故障是通过算法收敛的故障。
- 故障描述列:带颜色的方形图标代表M个事件被压缩成N个警报。白色方形图标中内容代表故障优先级,具体级别含义请参见故障优先级。
- 单击页面左上角的导出按钮可以导出故障列表内容为Excel。如果需要选择部分内容导出,可以先选择具体的故障然后再导出,支持翻页选择。
故障搜索
在故障列表页面上方单击搜索框,将弹出搜索页面。分为三种搜索模式:基础筛选、K-V筛选和特征筛选。
基础筛选
基础筛选是根据故障进行筛选,用户可以按照来源、故障ID、故障优先级、告警状态、故障描述、包含警报数量、有无根因推荐、合并的故障、拆分的故障进行故障筛选。
筛选结果示例如下:
K-V筛选
K-V筛选是根据警报对故障进行筛选,选择来源、K-V键值对进行筛选,并支持通过多个K-V键值对进行筛选。
筛选结果展示故障信息以及符合筛选条件的警报。示例如下:
特征筛选
特征筛选是根据故障进行筛选,可选择根据拓扑关系特征聚合、根据AI增强规则聚合进行筛选。
根据拓扑关系特征聚合:故障包含拓扑关系,因此可以通过拓扑关系筛选。 拓扑关系条件筛选:在下拉菜单中选择拓扑关系进行精确搜索,默认按全部进行筛选。
根据AI增强规则聚合:故障通过AI增强生成的情况下,可以通过AI增强规则筛选。
故障详情
上半部分展示对该故障的总体描述。包括影响指标、对象、关键词,故障处理状态步骤图和收敛说明。在右上角的优先级下拉菜单中,可以对故障进行手动定级。
下半部分包括决策参考、警报、拓扑、关联的变更、活动和处理反馈页签。
决策参考:展示根因推荐和相似故障推荐。具体介绍请参见决策参考。
警报:按照时间轴展示警报alert和事件event。
该时间轴可以拖动。左侧展示严重、警告、解除和提醒状态的警报。支持根据警报的描述搜索警报。
时间轴下方的圆点:不同颜色代表不同的告警事件状态。红色:严重告警,黄色:警告告警,绿色:告警解除。将鼠标悬浮到圆点上方,下方会展示该事件的详情。
点击左侧区域的“向右箭头”,会以列表的形式展示警报信息。如果触发警报的是来自Tingyun Alert的指标,指标一列会显示蓝色字体。单击指标名称,可跳转到相应的基调听云其他产品页面,用户可继续查看详情。
关联的变更:展示与此次故障可能相关的变更操作。具体介绍请参见关联的变更。
拓扑:点击拓扑页签可以查看故障中应用到的拓扑关系。
活动:点击活动页签可以查看故障的详细活动记录。
处理反馈:单击右上角的填写反馈,进入编辑页面。输入标题和正文,可添加附件(单文件最大100M),完成后单击右上角的保存可完成反馈。单击右上角的“…”,选择知识归档,该反馈将会被永久归档,不可再编辑。单击右上角的“…”,选择下载,可将反馈内容以Word或者PDF形式下载到本地。
AI可解释性
告警收敛主要是通过AI算法自动将相关的告警事件关联在一起的,系统可将AI算法关联的逻辑直观地展示出来,便于用户理解。
在左侧导航栏中选择故障,进入故障列表页面。
在故障列表中单击目标故障,进入故障详情页面。
在页面的上方单击收敛说明页签,下方展示故障概述及可解释性特征属性图。
特征属性图
特征相关系数是指两组数据之间的正向相关程度,即相似度。特征相关系数范围为0.5~1,默认为0.7,可自行调整,特征(例如指标、主机)相似度大于等于该值的两个警报会有连线展示在特征属性图中。在特征相关系数满足的前提下,算法会提取出故障聚合的贡献度排名前4的属性。
每个属性图中展示该属性的贡献度占比。外圈的数字代表当前故障收敛的每一个警报,每段圆弧的长度是相同的。
特征属性图的展示形式分以下三种情况:
警报数量小于30时,展示弧长图。
弧长图中每个结点对应故障中的每个警报,结点越大代表警报在此故障中的总体相似度越大。
弧长图中两两之间的连线有粗细之分,连线越粗代表警报与其他警报相似度越高。连线共有6种,分别为语义特征、共现特征、AI增强、水平拓扑、垂直拓扑和网络拓扑。
- 语义特征:算法对某一属性值根据文本相似度提取的关键字来计算相似度。
- 共现特征:算法对某一属性值历史上共同出现的次数来计算相似度,仅展示近一个月的共现次数。
- AI 增强:可看到是通过什么规则将警报聚合在一起的。
- 水平拓扑:说明警报之间存在服务和服务之间的调用关系。
- 垂直拓扑:说明警报之间的依赖和部署关系。
- 网络拓扑:说明警报之间的网络链路连接关系。
每个特征属性图右上角均有放大图标,可放大展示。
将鼠标悬浮在弧长图中结点或连接线上,或者选中时,可查看两个警报间具体的特征相关系数等信息。
30<警报数量<50时,默认缩小时展示弧长图展,放大时展示扇形图。
警报数量大于50时,展示扇形图。
- 扇形图中每一个扇形面积对应故障中的每一个警报。颜色深浅代表在某一属性下该警报的整体相似度得分。
- 扇形图可以按照图例进行切换展示。单击图例,当前图例的内容将不再展示,再次单击,可恢复展示。图例共有6种,分别为语义特征、共现特征、AI增强、水平拓扑、垂直拓扑和网络拓扑。
- 语义特征:算法对某一属性值根据文本相似度提取的关键字来计算相似度。
- 共现特征:算法对某一属性值历史上共同出现的次数来计算相似度,仅展示近一个月的共现次数。
- AI 增强:可看到是通过什么规则将警报聚合在一起的。
- 水平拓扑:说明警报之间存在服务和服务之间的调用关系。
- 垂直拓扑:说明警报之间的依赖和部署关系。
- 网络拓扑:说明警报之间的网络链路连接关系。
- 将鼠标悬浮在扇形图中扇形面积上,或者选中时,可查看两个警报间具体的特征相关系数等信息。
可解释性说明
查看某个警报收敛到故障的可解释性说明,请按照以下步骤进行操作。
在左侧导航栏中选择故障,进入故障列表页面。
单击目标故障,进入故障详情页面。
在页面下方的警报页签中,单击“向右箭头”,查看警报列表。
在警报列表勾选某个警报(最多只可以选择2个),单击左上角可解释说明按钮,即可查看说明内容。
根因推荐
用户可以通过北冥对故障的根因推荐迅速度定位问题所在。
在警报列表的根因推荐列能够查看每一条告警是根因的概率。
根据人工经验,如果用户能判断一条告警是否为根因,则可以在根因推荐字段下进行标注。图标代表根因正确,x代表根因错误。
说明:算法会自动学习标注后的根因,用作后续的根因分析。
故障拆分
当用户认为故障收敛的不准确时,可以通过故障拆分将告警放入正确的故障中,并且算法将会学习到这个动作,在之后的收敛中避免收敛错误。
在左侧导航栏中选择故障,进入故障列表页面。
在故障列表中点击目标故障,进入故障详情页面。
在警报页签中,点击“向右箭头”,查看警报列表。
选中多个警报条目,点击列表右上角的拆分按钮,弹出故障拆分窗口。
拆分动作包括两个动作:
拆分到新故障:把选中的alerts拆分到一个新的故障中,即新生产一个故障。
拆分到已有的故障:
- 支持按照故障ID进行搜索。搜索到目标故障ID后,选择后点击拆分,则会把这些警报合并到该故障中。
- 合并后的故障详情中,没有提示。
点击确定,完成拆分。
决策参考
智能化运维是对大数据进行挖掘分析,然后运用AI算法给出决策支持,辅助用户快速完成决策。因此,当IT运维系统发生故障后,如果能快速帮助用户定位故障原因,并能结合历史数据找出过去相似的故障并查看故障解决方案,这样会大大缩短故障修复时间。
在故障详情页面中,系统会给出当前故障可能的根因,以及相似的故障信息。
在根因推荐列表中,系统会最多给出2个可能性最大的警报作为根因警报。用户可以对根因警报进行反馈,单击“√”,代表根因推荐正确。单击“×”代表根因推荐不正确。
在相似故障列表中,系统最多推荐出3个与此故障相似的历史故障。用户可以单击“故障ID”查看两者之间的相似之处,查找之前相似故障的修复方案,作为参考。对于部分故障,系统会给出修复建议,用户可以单击“完成”图标快速查看之前的修复方案。
关联的变更
在列表上方,用户可设置故障开始前的时间范围,结合变更搜索条件,来查找相应的变更事件记录。
在根因变更一列,会显示不是、疑似或匹配。系统会根据历史数据及用户反馈,给出不是根因或疑似根因的推荐。对于显示匹配的,需要用户手动选择进行明确反馈。用户通过反馈告诉AI,AI学习后下次会关联推荐的更准确。