一早刚上班,就听到小李抱怨:昨晚凌晨2点多,收到监控告警,磁盘空间满了;刚清理完成磁盘,又发现文件系统只读了;整整折腾了一夜,才修复完成。运维太苦X了!
数据库
你也跟小李同样?安全
一会上线出问题;一会磁盘故障;一会硬件告警;一会应用性能不足。客户怨声载道,运维叫苦不迭。天天忙忙碌碌,可是没有任何工做成果,还不断遭受老板、上司的批,苦X的运维,背锅侠之类的话也成了咱们的口头禅。网络
给你句实话,这就是传统运维的真实写照!运维
1.传统运维的困境
在传统运维中,部门在制订IT设备和信息化系统管理目标时,关注的是一台台IT设备的故障率和一套套应用系统的可用性。在基础设施、数据库、中间件、灾备、存储等环节一般大量采用商业闭源的软硬件产品及其解决方案。设备的开放性差、标准也不统一,喜欢采用两地三中心这种典型的重量级、集中式运维管理方式。ide
随着IT规模愈来愈大、系统愈来愈复杂,运维保障工做由最初的硬件运维不断细分,网络工程师、系统运维工程师、DBA、安全工程师等岗位加入到运维体系中。工具
当业务系统发生故障时,IT主管首先召集自扫门前雪的各个运维岗位进行自检,查看各自负责的设备、应用组件、系统是否运行正常。因此,传统运维部门经常被称为“救火”队员,依靠人工巡检的工做方式,不但工做被动,并且效率低下。性能
2.自动化运维的到来
基于以上缘由,自动化运维应运而生。自动化运维的做用就像工业革命时,织布机代替了大量的织布工人,给企业带来了利益;自动化运维就像织布机;他的核心诉求是提高效率;自动化运维是运维演进历程中的一环;从使用脚本的半自动化运维发展到集成到平台的自动化运维,将来也会发展为大数据运维。
自动化运维的基本目标解决的是“能程序完成的事情尽可能不要用人去干”,具体来讲就是把周期性、重复性、规律性的工做都交给工具去作,最终达到提高运维效率的目的。这件事情,提及来容易,但作起来却一点不容易,完成自动化运维,首先须要实现标准化、流程化。
大数据
其中所谓流程化,就是将自动化的工做串起来,实现有序的协做,例如代码发布,经过制定流程,而后使用持续集成工具如jekins实现流程化发布。这种流程化的发布,能够实现文件的上传、分发、版本管理、回滚等各类操做。此外,对于其它运维工做,也能够实现流程化,制定运维流程规范、故障处理规范、故障告警规范等,经过多个流程规范能够实现运维工做的秩序化,合理化,从而提升运维效率。spa
▼
免费直播
扫码报名
日志
3.智能运维AIOps
自动化运维虽然提高了效率,解决了一部分问题,但也遇到了新的难题,好比面对繁多的报警信息,运维人员应该如何处理?故障发生时,又如何可以迅速定位问题?
这就是将来智能运维AIOps,它主要解决的是复杂运维环境下问题的快速发现甚至提早预判,以及出现问题后如何在复杂的告警、报错和日志中快速进行根因分析。甚至实现某些故障的自愈功能。
AI和Ops要解决的仍是两个层面的问题,能够类比到人。AI至关于人的大脑,咱们手脚和躯干是执行系统,大脑负责决策判断,手脚躯干负责完成大脑下发的动做指令。
对应到运维上面,AI 要解决的是怎么快速发现问题和判断根因,而问题一旦找到,就须要靠咱们高度完善的自动化体系去执行对应的运维操做,好比容量不够就扩容、流量过大就应该触发限流和降级等等。而后是Ops,从Ops的角度,涉及的主要是运维自动化相关的技术,也就是说AIOps必定是创建在高度完善的运维自动化基础之上的,只有AI没有Ops,是谈不上AIOps。
报名《深刻浅出解析大数据平台》免费直播,实操上手!
❥ 直播做者:运维专家·高俊峰
❥ 直播时间:11.02(今天)晚8:00
❥ 直播群:成功报名后,还可领取直播PPT+做者互动哦~
▼
免费直播
扫码报名