Gartner 预计在2020年 AIOps 的使用率将会达到50%甚至更高,所以 AIOps 将会是业务运维场景下的大势所趋。
如果你在一家互联网公司的IT部门工作,公司刚刚上线了新项目,下面的场景听起来或许很熟悉:你在半夜突然接到了一个电话,或许是某个怒气冲冲的消费者,也或许是由于应用程序崩溃信用卡交易失败而打过来的你的老板,这时候你会立即去打开你的笔记本电脑、打开日志管理系统,然后你会看到在设定的时间范围内,有10万条消息已经被记录下来了,一个人是不可能将这些数据逐条检查完的。
因此,遇到这样的情形你会怎样做呢?它是一个每一位IT运维专家都会面临的故事,他们度过了许多个不眠之夜,寻找着触发突发事件的关键点。
由此来看,随着公司越做越大,运维的场景也将会变得越来越复杂。那么仅仅依靠人工经验的运维工作将会变得捉襟见肘,所以就必然会走向基于机器学习算法的智能运维(AIOps)。另外人工智能和机器学习技术的发展,也推动大量依赖人脑决策和手工操作的IT 运维向着AIOps智能运维的方向快速前进。
要想把 AI 引入运维,就需要用 AI 的各种算法逐个攻破运维场景的各种难题。无论是时间序列异常检测,故障根因分析,业务调度等工作,都将会在 AI 的作用下变得容易完成。通过 AIOps 的发展,运维团队的工作效率将会得到大幅提升。特别是当人工智能与基于大数据的业务运维管理平台整合,在告警过滤、异常监测、自动修复等环节发挥效用,就能把IT部门从繁复耗时、容易出错的基础运维工作中彻底解放出来,专注于更有价值的业务运维。
日常的运维工作中痛点分析
1、业务量日益增长,依赖关系复杂
随着公司的发展,业务量急剧增长,很多企业系统庞杂,各业务与应用间的调用关系难以确认,各调用链间性能难以评估。
2、无法筛选重要告警
当我们的大脑在短时间内接收到大量的信息,达到了无法及时处理的程度时,实际上就处于“拒绝服务”的状态,尤其是当重大故障发生,各种信息、蜂拥而至的警报同时到达时。怎样从成千上万条信息中发现有用的,过滤掉重复的、抖动性的信息,或者从中找出问题根源,从来都不是一件容易的事情,所以业界流传着“监控容易做,告警很难报”的说法。
3、 IT运维部压力及效率问题
庞大的数据流,导致运维人员的工作量急剧增加,甚至7*24小时的监控都无法排查出问题的根源所在,从而影响业务增长以及用户体验。
使用AIOps平台可增强各种IT运营流程,包括异常检测,智能告警、事件关联和根因分析,从而改善监控,服务管理和自动化任务。
基于AIOps的价值体现
1、依赖关系自动检测
可持续发现并自动检测环境中的各种依赖关系,实时掌握各依赖关系的性能,提升用户体验。
2、重要告警识别
实现跨服务和应用程序进行告警事件关联,帮助用户排除警报信息干扰,减少噪音,聚焦最可能的根本原因,大幅降低MTTR
3、 降本增效
迅速获取到发生故障的来源,帮助企业IT运维部门提高监测以及解决问题的效率。
听云AIOps能力体现
AIOps数据处理引擎:不依赖人为指定规则,由机器学习算法配以神经网络模型从海量数据(性能指标、业务指标、日志等)中进行深度学习,并能够基于场景自我进化算法模型。同时通过自主策略指挥采集端数据输入,完成智能的数据分析,用于输出可视化视图或指导自动化工具进行执行层操作。最终构建以AI为核心的中枢调度管理平台,实现质量、成本、效率三者兼顾的智能化运维。
听云AIOps采用一体化监测方案,在IT运维工作中进行实时异常监测,持续性深入到业务环境中,并对海量告警进行重点筛选,帮助IT运维人员提升效率,助力企业业务顺利增长。
关于听云
听云专注数字化监控13年,拥有国内领先的数据获取能力,为各行业企业提供完整覆盖用户端、网络、服务器端全栈实时的监控与大数据智能分析平台,帮助企业提升系统性能表现,改善用户体验,加速业务创新。
听云业务现已覆盖政府、金融、运营商、互联网、航空、能源电力、工业制造、教育等各大行业,赢得广泛信赖与认可。经过13年技术深耕和市场培育,听云已成为中国应用性能管理(APM)行业领军企业,并多次作为亚太区唯一企业,入选全球权威研究机构Gartner APM 魔力象限。