典型场景
指标体系建设
在复杂的IT信息化系统建设下,存在太多来源不同的指标监控数据, 大部分企业用户缺少统一、规范和细致化的从顶层设计到逐层管理指标的能力。更是无法获得IT运维指标对企业关键业务运行健康度的影响关联。
基调听云可以根据企业业务需求,对关键业务与IT运维管理的相关指标数据进行集中、统一、规范和高效的管理,帮助企业构建指标体系这一关键基石,挖掘IT数据和业务数据中潜藏的商业价值,助力企业快速、高效的推进数字化的IT运营。
事件管理与响应
对企业的业务运行日常监控,发现每天会产生大量的与IT业务相关的事件,如告警事件、变更事件、升级事件、维护事件等等。每一个事件都可能引起系统的不稳定,导致业务服务中断。
基调听云的事件管理中心可以探测到不同事件的发生,支持对事件的采集、统一管理、事件响应处理,并对产生的事件进行智能分析。
指标异常检测
告别传统指标固定阈值或基线阈值的设置导致的警告不精准问题,通过智能的异常检测算法,识别指标的行为与其历史数据是否表现出异常,结合趋势、周期、时间模式等因素来综合判断指标的波动变化,进而触发智能告警。
告警风暴抑制
据调查,91%的运维团队同时用着多种监控工具,这些工具每天都会发出成百上千个告警。尤其是某一网络节点发生问题时在短时间内会发生大量的告警信息导致告警风暴。
基调听云基于机器学习,应用智能算法,对产生大量的告警事件进行智能降噪、事件关联、告警收敛,有效抑制多余的告警信息,减少对运维人员的干扰。
拓扑自动发现与识别
通过智能分析CMDB或应用拓扑关系数据,能有效地跨层级的对告警事件进行收敛,收敛范围广、收敛效果好。但有的客户无法提供这两类数据,基调听云可以通过对告警事件内容的解析,利用标签丰富化、特征提取与识别等技术,自动构建并维护一个应用-服务-组件-数据库-主机等的拓扑关系图。通过该关系图实现更多的告警事件关联。
同时,根据基调听云绘制出的拓扑图,可能有的关系是CMDB没有及时更新配置的,这样就可以反向反馈给CMDB,促进CMDB的及时维护与数据纠正。
故障根因定位
结合配置变更事件与指标告警事件进行智能分析,利用拓扑关联算法与事件相似度分析,推断出最为可能的故障根因通知给用户。同时如果用到的是基调听云的探针(APM、App等),那么支持对根因故障进行逐层下钻分析,找到真实的故障点。