-
数智平台
- AIOps
-
场景应用
- SecOps
- Di-SOC 安全运营中心
- 智能日志审计平台
- 安全运营服务
- BizOps
- Di-BPO 可视化业务运营
- Di-IoT 数字工厂运营
- 行业案例
- 关于DM
鼎茂 > 企业资讯 > 智能运维建设应该怎样实施?
智能运维是一种全新的数字化运维能力,也将是数字化转型的必备能力。智能运维相对于传统运维模式而言,能够在运维数据治理、业务数字化风险、运维人力成本和业务侧影响力四个方面有本质的效能提升。那么,当企业决定了进行智能运维建设,具体应该怎么实施?下面小编总结了智能运维建设六步走路线,希望对大家有所帮助。
六步走路线,前三步侧重在实时性数据处理能力的提升,后三步侧重在事后分析和处理能力的提升,智能运维的本质是提升运维数据的洞察和处理能力。实际上在建设中,无论是大规模的成熟企业还是中小规模企业,都可以沿着这条路径逐步完成运维数字化和智能化的进程。
1.集中监控智能化改造
通过告警精细化管理和分析提升告警处理的能力,松绑人员压力。先通过集中积累历史告警数据,厘清告警的不同类别,分析清楚哪些告警存在不合理情况以及故障发生时告警出现的规律,从而为下一步溯源确定依据,同时利用智能分析手段实时甄别告警中真正需要干预的部分,提高第一时间发现问题的能力和运维人员效能。
2.指标监控智能化改造
在搞清楚现有告警有效性问题后,再看无效告警的源头都从哪里来,漏掉的告警是缺乏监控手段还是监控方式有问题,这时再展开来看具体发生告警的相关指标监控如何改造,引入合适的智能异常检测手段来抑制误报漏报,提高监控能力,同时可以考虑引入容量类指标的预测手段,起到容量预警效果。
3.日志实时智能异常检测弥补监控手段不足
许多漏报不一定能从指标监控改造中获取,就需要加强对日志的利用,这时可以将日志实时异常检测作为一种监控手段补充纳入建设路径,日志模式的异常告警也可以丰富故障发生场景的甄别,为预测性发现故障提供依据。
4.智能故障综合排查—根因分析和定位
前三步基本肃清了发现问题的挑战后,再考虑分析问题的范畴,每一种单一的数据源都可以做一部分根因分析的工作,但真正的定位必须利用多样化数据源才能有真正的效果。在这个范畴里,引入CMDB数据源用于辅助定位、结合工单语义分析也是一种方式。但最重要的是分析的过程应该被记录,正确的探索模式是宝贵的经验,应该被沉淀和分享,为及时乃至预测性发现问题提供养料。
5.智能知识管理—知识图谱
传统的CMDB表达的是对象和对象之间的关系,运维知识图谱是一种延伸,不仅包括对象和对象之间的关系,更推演到对象所产生的数据和数据之间的关系以及解决问题的数据探索路径,总之知识图谱应该是在前四步取得成绩的基础上逐渐积累发展的,不适合一开始以此为目标进行建设。
6.故障自愈
故障自愈放在第六步,不是说一定要最后建设,这取决于在前四步过程中是否有些故障场景的根因已经有极为明确的定位,并且其修复也有明确的步骤可循,这时可以引入自动化机制推动故障自愈的流程,但这里要特别注意问题的相关性影响分析,从而可以确保自愈动作对其他业务不造成负面影响。
随着新技术的应用升级与拓展,智能运维也将实现“从运维到运营”的跨越,智能运维建设,也应根据用户实际运维情况,同步开展,循序渐进地进行建设。