首页 炼丹房 帖子详情
AIOPS-道阻且长,行则将至
收藏
快速回复
炼丹房 文章学习资料 378 0
AIOPS-道阻且长,行则将至
收藏
快速回复
炼丹房 文章学习资料 378 0

【本贴的目的主要想让大家了解什么是AIOPS,别人谈到AIOPS能知道是什么,不至于看若淡定,实则慌的一匹。愿景:期望更多的AI能力运用到各行各业。】

1.  AIOps简介

1.1 AIOps定义
AIOps,即 Artificial Intelligence for IT Operations,智能运维,将人工智能应用于运维领域,基于已有的运维数据(日志、监控信息、应用信息等),通过机器学习的方式来进一步解决自动化运维不好解决的问题。比如:秒级的异常检测、故障定位和故障自愈。

1.2 AIOps建设发展阶段

  • L1阶段:系统可用
    看板:具备Metrics/Log/Tracing/事件等监控看板
    报警:完全依赖人的经验配置阈值
    排障:完全依赖人工巡检各类监控事件、监控看板
  • L2阶段:灵活可配
    看板:用户可自助配置监控看板(数据源未整合);数据架构优化,数据可用性可观测性
    报警:支持一种智能阈值模型
    排障:支持异常关联分析(Metrics报警关联日志原文和TraceId)
  • L3阶段:根因定位
    看板:单一系统,具备Metrics/Log/Tracing/事件等监控全部看板,看板间建立关联关系
    报警:智能模型为主;具备策略效果的可观测性和可解释性;报警事件治理闭环建成
    排障:支持配置故障定位分析链路;报警后推荐相关事件;故障处理过程可观测,量化根因定位效率
  • L4阶段:故障自愈
    看板:单一看板,可混合配置多类数据源;图表间可做联动分析
    报警:支持多种智能模型效果对比;模型可自动训练和更新
    排障:报警策略关联预案,报警后推荐相关预案,通过人机协同来决策和执行预案
  • L5阶段:风险预测
    看板:看板提供预测分析能力,以文本、语音等形式实时的、自动的生成关于过去、现在以及未来的分析结论
    报警:支持多种智能模型同时自动训练、评估、选取和更新,线上模型自动切换到当前的最优模型
    排障:根据监控数据预测系统风险(容量/流量评估);阻断变更(监控健康分、事故改进项)

2【案例】QCon AIOps最佳实践专题回顾
通过Qcon的3个案例,我们可以了解到AIOps的最前沿实践,可以知道案例中的那几个公司的AIOps是如何建设的!

2.1 【阿里】Sunfire——阿里巴巴集团监控平台智能化监控探索和实践
2.1.1 简单介绍
Sunfire是阿里巴巴的集团监控平台,监控容器节点100w+,峰值日志流量250G/s,核心指标延迟不超过4s,数据采集齐全度达到99.99%

Sunfire实现了秒级监控和基于智能错误码的故障发现。其整体方案偏业务监控的应用场景。每年双11全球购物狂欢节中,Sunfire都承载这些秒级数据背后的监控,保证每笔交易的背后数据流都可观测。

2.1.2 亮点分享
2.1.2.1 生成突袭
在生产环境中,不提前告知技术同学的情况下,进行突袭故障演练;

需要系统具有的能力(也是技术挑战):

监控覆盖的全面性和实效性;
业务系统和监控系统具有一定的容灾能力;
秒级、准确发现问题的能力;
2.1.2.2  1-5-10

1分钟发现——>5分钟响应——>10分钟恢复

1分钟发现需要的能力:

  • 秒级监控策略;
  • 全自动定级;
  • 全自动影响面收集;
  • 全自动生成文档;

2.2 【58同城】智能运维在稳定性建设领域的探索和实践
2.2.1 简单介绍
从系统稳定性的角度出发,介绍了客观性产品的建设;

在自动采集主机层、服务层、应用层等数据的基础上,构建了运维知识图谱;

根据运维知识图谱挖掘故障之间的关联关系,以便分析根源原因;

最后介绍了故障的发现、分析、处理等。

2.2.2 亮点分享
2.2.2.1  系统稳定性建设

2.2.2.2  运维知识图谱

2.3 【百度】百度故障管理场景的AIOps探索与实践
2.3.1 简单介绍
百度的运维目标:在保障服务质量的前提下,减少成本,提高运维效率;

百度的AIOps从数据建设和智能监控场景(异常检测、根因分析)入手,逐渐覆盖智能故障管理、变更管理、容量管理和服务咨询。

2.3.2 亮点分享
2.3.2.1 百度的AIOps

2.3.2.2  故障管理场景

故障预警:
       智能变更检查
       通用预警指标挖掘
故障发现:应用黄金指标监控
故障止损:单机房故障自愈
故障诊断:
       故障定位:故障应用定位
       辅助故障诊断:异常指标排查、日志异常分析      

下贴 会对三个案例进行对比分析。敬请期待!!!

0
收藏
回复
在@后输入用户全名并按空格结束,可艾特全站任一用户