“三板斧”打通IT运维“任督二脉”,金蝶AIOps智能运维平台重磅发布
随着云计算和大数据技术的成熟应用,应用部署的规模性和复杂性日益上升,传统计算设施和云设施,单体架构、分布式架构和微服务架构应用将在较长时间内共存。在业务不断升级迭代和技术演进的过程中,如何高效运维保障业务持续可用,并快速应对外部环境的变化,是所有进行数字化转型的企业与组织面临的重大挑战。近日,金蝶AIOps智能运维平台重磅发布,助力企业打造全面、高效、智能化的运维体系,提高运维效率、降低运维成本。
AIOps
混合IT架构带来的复杂性、超高速交付以及自动化等挑战已经卷起一股难以摆脱的事件与警告风暴,在当今高度复杂的系统当中,无数运维团队往往被快速淹没在未知变量与警报噪声当中,开发者与工程师们一次又一次陷入信息泥潭,导致真正紧急的警报遭到埋没和忽略。面对这些问题,融合大数据与AI技术的智能运维AIOps成为了当前IT运维领域的重点方向,也是传统运维在企业数字化发展进程中的必然阶段。那么,AIOps是如何解决这些问题的呢?
1 异常智能检测
在很多企业内部,工程师都会收集指标类的监控数据。随着时间的迁移,整个系统会越来越复杂,监控的数据量会变得越来越大,就会形成海量的时间序列。在这种情况下, 运维人员很难通过人工巡查的方式来查看所有的时间序列是否出现了异常,运维人员也无法通过配置规则的方式来解决海量时间序列异常检测的问题。而且在公司组织的人力成本有限的情况下,通过人工巡检的方式也无法及时和有效地发现时间序列的异常。
针对海量时间序列异常检测的问题,金蝶AIOps智能运维平台构建了基于机器学习的海量时间序列异常检测功能。可以针对指标监控等运维场景建设基于机器学习的时间序列异常检测方案,结合AMP基础设施指标监控的具体场景,构建全方位的时间序列异常检测方案,帮助企业迅速定位异常。
2 根因分析
异常检测旨在表明某些不正常现象,而根因分析则试图阐明“是什么问题”、“为什么发生问题”、“问题的最佳解决方案是什么”,这一系列目标需要准确性和精确性,总的来说,这是一个极其复杂的数据科学问题。根因分析需要将异常检测和事件相关性从另一个维度结合起来进行分析,该分析将一般性的意外情况转化为具有特定解决方案的特定问题。
依赖运维经验和手工操作的传统故障排查方式效率低下,无法应对如今大规模、分布式、异构IT系统的运维挑战,必须利用基于大数据和机器学习等智能运维技术的根因分析(Root Cause Analysis,RCA),才能在最短时间内定位故障根因,全面提升MTTR(平均故障修复时间)这两个数字化运维的关键指标。
金蝶AIOps智能运维平台提供异常事件根因分析的能力,通过智能告警平台报告的高危(灾难和严重级别)告警事件内容,结合CMDB资源关系数据、告警事件详情,智能分析相关的对象,提供可供参考的根因分析结论,并给出多个可能性。同时支持运维人员采用人工经验对该结果进行标注和反馈,不断优化系统智能化诊断识别故障原因的能力。
金蝶AIOps智能运维平台根因分析优点:
实施效果良好的根因分析会大幅缩短系统中断后的平均故障恢复时间(MTTR)
根因分析可以减少对经验的依赖,并可以通过定向响应进行更多的机械补救
3 告警风暴收敛
一般企业的基础监控平台或工具有两种方式去识别指标异常并触发告警事件。第一种是常见的通过设定阈值/动态阈值的方式。第二种就是设定默认规则,触发系统预设规则事件,例如:机器重启等。与此同时,运维团队往往不会依赖单一的监控工具,经常需要在各种不同层次工具中都设定对应的监控告警。
在这样的背景下,监控源多元化与监控工具类别多样化,往往导致相同故障原因在不同监控工具、不同监控规则下,触发出大量重复、冗余的告警事件。甚至在发生大范围故障时形成告警风暴。运维人员很难从这些海量告警中快速有效的识别到底哪些告警事件是重要且准确的信息,这也往往导致有效告警被淹没。
因此,对于运维团队和告警产品来说,存在以下几个痛点:
多处监控告警源以及频繁误报导致大量重复、冗余、低效事件,重要事件淹没在其中,无法有效识别
大范围故障导致的告警风暴
测试事件等脏数据混在事件中
金蝶AIOps智能运维平台的智能告警模块,支持从海量告警时间中,通过智能算法进行告警聚合收敛,包括自动去重、关联抑制、智能合并、灵活静默等多个方式实现智能降噪,并结合灵活的多渠道通知、多策略的分派、告警通知升级及排班值班等特性,降低告警噪声对运维人员的干扰,精准实时通知运维故障告警事件,及时响应处理。
金蝶AIOps智能运维平台通过对metrics、trace、log等观测数据进行统一汇聚融合,构建企业级运维大数据,并结合机器学习、实时数据处理分析等技术,在大规模复杂企业IT架构的运维工作中快速识别业务系统的运行异常,提供告警风暴收敛、异常根因诊断分析、事件问题的跟踪处置闭环流程等运维能力,帮助运维团队提升运维质量,改进业务系统健康状况,保障业务连续性。
AIOps是基于AI与大数据的监测、分析、执行能力,由AI取代人力决策,快速给出故障处理建议(小时级->分钟级),做到事前预防预测、事后迅速定位修复,需要由基础运维监控平台或工具,来为AIOps提供数据支撑与AI算法学习,因此,AIOps更适用于已经具备一定基础运维能力的用户。作为国内基础软件领军企业,金蝶天燕以20多年信息技术应用创新领域的核心技术积累为基础,打造了基础设施监控(AMP)、应用性能管理(APM)、AIOps智能运维平台等系列智能运维产品,为用户构建全方位一体化的企业智能运维解决方案,助力企业数字化转型。
---------------------------------------
(市场有风险,投资交易需谨慎。所涉标的不做任何推荐,据此投资交易,风险自负。)