三大通用核心套件帮你构建智能运维体系

  • 时间:
  • 浏览:0

上图是ICS的架构图,整体分为一四个 多主次:触发器、事件补救、执行器。ICS的触发器和执行器采用了插件化的措施 去实现业务连接。事件补救模块充分考虑了事件的抑制、冲突等机制,保证了整个ICS补救的稳定性、可靠性。

IAS预期目标包括:实现疑问分析、发现潜在疑问、进行决策分析。

以下内容根据直播视频分类整理而成。

一次中等规模的应用运维事件往往会牵涉多个应用,任务种类、任务执行措施 后要 相同,太久在simple flow的基础上又封装了一层多任务、多应用的操作类multiflow,上图共有4种simple flow,每一四个 多方块代表在一四个 多应用上的一四个 多实例,开始英文英语 英文执行我你会就都还都后能 想看 每个步骤执行的情况表。

从业务的纵向分层上,在特斯拉体系的内部人员又分成一四个 多层次:下层是运维Paas层服务,上层是面向终端客户的Saas层服务。在特斯拉体系内部人员,依托于整个集团的运维Paas服务。

此案例是multiflow的实例,在第一四个 多大步骤蕴藏1一四个 多simple flow实例,都还都后能 清晰想看 每个实例的执行情况表和执行措施 。

上图的顶端是大数据SRE团队运维的产品,几乎包括了所有阿里巴巴使用的大数据产品。下方是运维模式的发展历程,经过了:人工脚本化、工具整合、自动化平台、智能运维体系。承载哪些地方地方服务的集群规模、服务器规模可能从一开始英文英语 英文的K左右发展到如今的近百K左右,分布在所有阿里巴巴的IDC即生产网络域中,业务的种类和业务的社会形态各不相同。特斯拉智能运维体系下的主要核心运维场景包括环境管理、操作执行、需求补救、时间连接、事件分析、故障预测。各行各业都希望AI还都后能 在买车人领域落地,而在运维领域AI有比较现实的需求和比较具体的应用场景。智能运维没办法在一四个 多体系化的产品之上,强调的是从监控到分析、到执行整个过程的无人化甚至超人化,突出的是系统的自治能力和预知能力,这俩 目标比较长远。

横向上,将产品分为一种生活类型:执行类,直接操作系统,应用应用应用程序,硬件,网络的产品;分析类,实现运维人员思考疑问,分析需求,排查故障的产品;连接类,实现分析与执行产品驱动与反馈的连系产品;展现类,将智能平台的情况表以多种可视化的措施 表达出来。

上图总结了用户在系统上操作的场景:在一四个 多系统目标中按照顺序执行操作、在不同系统目标中按照顺序执行操作、在不同的系统目标中并发的执行操作。为此,设计了simple flow模型来适应这俩 种生活场景。

事件包括监控事件、故障分析、流程事件,服务包括脚本分析、T-flow实例执行、Noc通知等。通过ICS的使用,都还都后能 使简单的运维事务实现闭环。比如在ICS上配置监控事件我你会配置其修复方案就实现了故障自愈的场景。ICS还都后能 将大家关注的,我你会是挑选还都后能 通过自动化方案补救的事务形成一四个 多简单的智能补救闭环,减少了人工补救过程中的消耗。

首先是高危事件的配置,事件触发的来源都还都后能 有太久种,监控、文件分析等,采用了从监控的源头获取事件。当挑选了监控事件我你会,没办法配置监控来源的应用、事件的抑制补救方案、异常补救的逻辑。下一步是配置事件修复的执行器。最后,将触发器和执行器进行连接,生效我你会ICS平台就会关注这俩 事件。可能有事件发生就会启动执行器进行补救。

并发器的具体内容如上图所示,一四个 多步骤后要 推送文件到目标服务器上的操作。

何如构建T-flow模板?用户首先没办法配置哪些地方地方节点中操作的内容,我你会配置模板没办法输入的参数(T-flow支持多种文本类型的输入),将操作和参数内容进行配置绑定。希望用户只没办法关心局部代码逻辑的实现,从全局顶端关注整个运维事件。

2017年在线技术分会——运维/DevOps在线技术峰会上,来自阿里基础架构事业部大数据SRE团队的池枫分享了构建通用化智能运维体系的实践。他主要介绍了智能运维体系的设计以及通用核心套件,从T-flow操作执行、ICS事件连接、IAS智能分析一四个 多核心套件的实际案例出发全部介绍了阿里的运维经验。

T-flow是最基础的Paas服务,设计之初是用来替代运维人员的双手。首先将运维操作抽象成一四个 多对象,发现其一四个 多关键的属性(where、what、how),T-flow而是我用来实现抽象、封装、实例化的产品。

该版本实现了疑问排查的自动化,通过DAG决策来模拟人排查定位疑问的过程。在此基础上,没办法根据用户的实际需求情况表完善整个流程。图中的每一四个 多节点代表用户的分析逻辑,由用户来实现,边代表各个节点之间的依赖关系,边上的条件都还都后能 通过用户需求进行配置。

上图是使用IAS的案例,界面为IAS模板的配置界面。首先没办法建立流程模板,最顶端是核心的分析流程,蕴藏了两类节点,淡蓝色为分析节点,黄色为结论节点。左边是整个流程定义的全局变量,每个节点都都还都后能 去修改全局变量的内容。当大家点击任何一四个 多分析节点我你会,就都还都后能 在右边的详情面板上展示出其内容。

该案例的步骤没办法三步,每个步骤中使用了并发器组件(在一批机器上并发执行脚本命令),提供了灰度和正式批的区分,提供了并发数可配置的功能,我你会异常节点都还都后能 很清楚的显示在界面上。

上图是实例的执行界面,顶端的绿色方块代表节点,点击每个节点我你会会在下方显示节点具体的内容。这是生产上hbase集群热升级的案例。为了适应应用中的服务是热升级的场景,开发了迭代器功能,实现一批服务器上按照顺序执行相同的指令,用户只没办法配置同样的指令、输入目标集群参数,系统就都还都后能 自动生成节点。