【本贴的目的主要想让大家了解什么是AIOPS,别人谈到AIOPS能知道是什么,不至于看若淡定,实则慌的一匹。愿景:期望更多的AI能力运用到各行各业。】
1. AIOps简介
1.1 AIOps定义
AIOps,即 Artificial Intelligence for IT Operations,智能运维,将人工智能应用于运维领域,基于已有的运维数据(日志、监控信息、应用信息等),通过机器学习的方式来进一步解决自动化运维不好解决的问题。比如:秒级的异常检测、故障定位和故障自愈。
1.2 AIOps建设发展阶段
- L1阶段:系统可用
看板:具备Metrics/Log/Tracing/事件等监控看板
报警:完全依赖人的经验配置阈值
排障:完全依赖人工巡检各类监控事件、监控看板 - L2阶段:灵活可配
看板:用户可自助配置监控看板(数据源未整合);数据架构优化,数据可用性可观测性
报警:支持一种智能阈值模型
排障:支持异常关联分析(Metrics报警关联日志原文和TraceId) - L3阶段:根因定位
看板:单一系统,具备Metrics/Log/Tracing/事件等监控全部看板,看板间建立关联关系
报警:智能模型为主;具备策略效果的可观测性和可解释性;报警事件治理闭环建成
排障:支持配置故障定位分析链路;报警后推荐相关事件;故障处理过程可观测,量化根因定位效率 - L4阶段:故障自愈
看板:单一看板,可混合配置多类数据源;图表间可做联动分析
报警:支持多种智能模型效果对比;模型可自动训练和更新
排障:报警策略关联预案,报警后推荐相关预案,通过人机协同来决策和执行预案 - L5阶段:风险预测
看板:看板提供预测分析能力,以文本、语音等形式实时的、自动的生成关于过去、现在以及未来的分析结论
报警:支持多种智能模型同时自动训练、评估、选取和更新,线上模型自动切换到当前的最优模型
排障:根据监控数据预测系统风险(容量/流量评估);阻断变更(监控健康分、事故改进项)
2【案例】QCon AIOps最佳实践专题回顾
通过Qcon的3个案例,我们可以了解到AIOps的最前沿实践,可以知道案例中的那几个公司的AIOps是如何建设的!
2.1 【阿里】Sunfire——阿里巴巴集团监控平台智能化监控探索和实践
2.1.1 简单介绍
Sunfire是阿里巴巴的集团监控平台,监控容器节点100w+,峰值日志流量250G/s,核心指标延迟不超过4s,数据采集齐全度达到99.99%;
Sunfire实现了秒级监控和基于智能错误码的故障发现。其整体方案偏业务监控的应用场景。每年双11全球购物狂欢节中,Sunfire都承载这些秒级数据背后的监控,保证每笔交易的背后数据流都可观测。
2.1.2 亮点分享
2.1.2.1 生成突袭
在生产环境中,不提前告知技术同学的情况下,进行突袭故障演练;
需要系统具有的能力(也是技术挑战):
监控覆盖的全面性和实效性;
业务系统和监控系统具有一定的容灾能力;
秒级、准确发现问题的能力;
2.1.2.2 1-5-10
1分钟发现——>5分钟响应——>10分钟恢复
1分钟发现需要的能力:
- 秒级监控策略;
- 全自动定级;
- 全自动影响面收集;
- 全自动生成文档;
2.2 【58同城】智能运维在稳定性建设领域的探索和实践
2.2.1 简单介绍
从系统稳定性的角度出发,介绍了客观性产品的建设;
在自动采集主机层、服务层、应用层等数据的基础上,构建了运维知识图谱;
根据运维知识图谱挖掘故障之间的关联关系,以便分析根源原因;
最后介绍了故障的发现、分析、处理等。
2.2.2 亮点分享
2.2.2.1 系统稳定性建设
2.2.2.2 运维知识图谱
2.3 【百度】百度故障管理场景的AIOps探索与实践
2.3.1 简单介绍
百度的运维目标:在保障服务质量的前提下,减少成本,提高运维效率;
百度的AIOps从数据建设和智能监控场景(异常检测、根因分析)入手,逐渐覆盖智能故障管理、变更管理、容量管理和服务咨询。
2.3.2 亮点分享
2.3.2.1 百度的AIOps
2.3.2.2 故障管理场景
故障预警:
智能变更检查
通用预警指标挖掘
故障发现:应用黄金指标监控
故障止损:单机房故障自愈
故障诊断:
故障定位:故障应用定位
辅助故障诊断:异常指标排查、日志异常分析
【下贴 会对三个案例进行对比分析。敬请期待!!!】