上篇咱们讲到如何选择适合本身的云管理平台的费用管理模块,这一篇就来说讲你们最关心的运维相关的模块。ios
Consumption & operationsshell
一个云管理平台须要可以帮助运维人员数据库
这里你们可能会有一个问题,为何不使用原生的云服务商的运维管理产品而引入另一个平台呢?编程
实时监测后端
咱们先看一下Datadog的一个用户监测Azure订阅里的虚机的仪表盘api
用户能够很容易的监测到,在一个动态变化的云环境里安全
从以上图标咱们能够注意到运维人员方便地在一张dashboard 查看到全部虚机资源,虚机状态和虚机性能。那么怎么实现这个功能呢?服务器
Step By Step网络
1. 激活虚机的Diagnostics,建议在部署虚机时候就激活诊断配置并配置告警规则运维
2. 从Azure后台收集数据,理论上应该用API取得实时性能和告警数据,若是不可行可使用step 1的数据
Tips: Azure 中国的monitoring API版本复杂,Api,powershell。。。哪一个work用哪一个吧
3. 编程实现各类业务逻辑或者用PowerBI等工具来展现数据
Tips: 表格,柱状图, 条形图,饼图,折线图。。。都有开源代码库的
接下来咱们再看一下Datadog用户怎么监测Azure PaaS服务的
在上面的仪表板上能够看到一个App Service的健康状况
这些信息一样也来源于Azure的Monitoring API。另外对于虚拟机的监控,还能够采用安装agent来采集数据。Agent不但能采集到更多的Host层面系统数据(eg.system.cpu.util),还能采集到运行在VM上的应用的性能数据(eg. SQL server, IIS, Nginx…). 这方面的方案有很多,例如zabbix(http://www.zabbix.com/),Nagios(https://www.nagios.com/solutions/agent-based-monitoring/)。
Tips:最基本的服务器和网站的监控指标是Uptime。技术实现是相对简单,就是用ping监测网络延迟或用HTTP监测页面响应,国内外有很多公司(eg.Pindom)都提供相应的服务并可在问题发生时候用短信email的方式通知运维人员
Tips:工具不能彻底代替人的工做,不论是SaaS仍是本身开发,在云运维管理平台的后端必须存在一个7*24运维团队。
事故处理
服务台,事故处理,事件管理,配置管理,变动管理等功能作为ITIL流程已经成为IT运维的标准之一。如何把ITIL在云运维管理落地也是对云管理工具集的要求之一。若是企业已经开始使用ITIL流程管理的相关的工具,可能只须要云运维平台提供开放接口来实现和流程管理工具的集成。New comer则能够考虑采用彻底集成整套流程管理工具的云管平台
如下是一个常见ITIL工具集(包括SaaS服务)的列表
Zendesk,Bugzilla, Jira, HPE…
平常运维自动化
因为云技术的突飞猛进,云服务商大多采用迭代开发的方式推出新的产品,云管理平台这个产品自己由于须要调用云服务商的API并开发出对应于新产品的管理功能从而须要有开发团队长期专一于开发维护。
这里,咱们建议使用自主开发云管理平台的团队关注常见的运维自动化任务. 经过在平台支持此类功能来减轻运维人员的压力。
Tips: 可使用Azure的api,powershell,cli来实现常见运维任务。 Azure的自动化也能够提供底层的实现
安全管理
咱们能够参考如下Global Azure的security center的安全策略想一下在云管理平台里能够实现哪一项安全管理功能。或者用第三方工具实现安全监测结合云管理平台的监测告警功能。比方使用WSUS来管理system update,再由云管理平台发出更新告警