IT基础架构运维规划

这是以前规划设计的IT基础架构运维规划方案,总结本身一段时间的运维经验
相关敏感信息已经去除
学无止境啊php

XX运维工做架构规划

从2016年10月XX的运维工做到如今已经有两年多了,期间进行了不少调整,部署了不少业务系统,从一开始的混乱无序,到如今算是小有成效了。如今咱们须要进一步完善现有运维工做,规划完整的架构,方便往后进行调整,保证可以科学而又高效的完成运维工做,提升客户满意度。前端

1.总体架构设计

IT基础架构运维规划

总体架自下而上分为两个部分,基础环境和上层业务应用。
基础环境主要是提供的基础虚拟机化环境和存储支持,同时包括各类网络基础环境。
上层应用由客户业务、运维支撑和第三方业务系统构成,主要是基于虚拟机的应用软件和解决方案。
广电的基础环境主要构建是基于kvm虚拟化解决方案的超融合nutanix环境和基于vmware的vsphere虚拟化解决方案环境组成,二者为不一样的异构的虚拟化,中间底层网络所有连通,相互共享网络资源和存储资源,为总体的架构提供一个虚拟化层从而支撑上层其余业务系统。值得说明的是,目前咱们没法两种不一样的虚拟化环境进行统一管理和调度,虽然他们均可以提供完整的虚拟机生命周期管理。java

1.1. nutanix的虚拟化环境

Nutanix的虚拟化环境组网以下所示:
IT基础架构运维规划mysql

这是一个稳定的组网架构,从2017年3月部署后,基本没有变动过,运行可靠,可用性高,性能强悍,主要的上层业务都是运行在其中,而且推荐这样作,由于它是咱们惟一经过商业途径获取的商业化解决方案。
对于该环境,并没有太多须要调整和规划,可是是基于kvm,运维简单,可是一旦故障,须要联系原厂技术支持解决。
如下为建议和须要规避的问题:
一、计算网络存储融合,没法直接经过第三方存储来扩容,只能另购一样的机器来进行横向扩展
二、不建议将nutanix的存储能力提供给其余平台或系统
三、若要将其余虚拟化平台虚拟机迁移到nutanix,须要原厂软件和技术支持,风险较高,不建议直接迁移,如有须要,能够考虑重搭建虚拟机
四、kvm对linux系统天生支持较好,windows系统会有bug,如蓝屏io驱动错误等,推荐nutanix部署linux操做系统的虚拟机
五、kvm没法模拟非x86架构的操做系统,定制化的虚拟机,如路由器,交换机,防火墙等操做系统,不能在nutanix上运行
六、Nutanix 上没法导出虚拟机,虚拟机备份容灾极度依赖快照功能,重要业务虚拟机须要开启数据保护
七、Nutanix 上能够直接对处于运行状态的虚拟机进行删除动做,极度危险,一旦删除,不经过技术支持没法恢复,须要增强操做管理linux

1.2.vsphere的虚拟化环境

vsphere的虚拟化化境采用客户老旧的x86服务器实现服务器虚拟化和使用兼容服务器搭建的开源存储功能构建的。最先使用vps-here 5.5,在2017年7月完成升级到 vsphere6.5,采用注册机破解许可。
总体组网架构比较复杂,可靠性很低,提供的虚拟机的能力极度依赖共享存储,性能不高,很是容易故障。基本上只有一些测试业务在上面运行,整理利用率较低。
vsphere的组网架构以下:
IT基础架构运维规划nginx

架构简单说明:
一、所谓前端交换机提供vps-here管理和虚拟机业务网络
二、所谓后端交换机提供存储网络管理和存储
三、两台存储都是以NFS 协议的 NAS方式提供存储能力,目前两台存储分别是使用不一样的开源解决方案,二者没法关联
四、为了提高后端存储网络带宽,后端网络上特意使用了链路聚合技术
使用vsphere的虚拟化环境,有着如下优点:
一、全虚拟化,能够模拟任何x86和通常的硬件,成熟稳定
二、商业化组件不少,知足全套解决方案所须要的各类特性,可扩展性好
三、运维管理功能健全web

虽然vsphere有着不少优势,可是在咱们目前的环境中,主要由于物理服务器的不稳定和性能低下,形成不少问题:
一、故障率高
二、轻微调整则会影响总体稳定
三、特别是存储,由于搭建存储的物理服务器故障,致使总体平台已经出现了屡次异常
四、无有效的存储备份手段,也没法对虚拟机进行容灾管理
根据以上理由,对于vsphere的虚拟化环境使用有着以下建议:
一、尽量的使用全新的物理服务器代替老旧的服务器
二、尽量的使用商业存储服务器,推荐使用存储备份一体机
三、若无条件更换商业存储, 可使用两台开源freenas实现存储备份
四、在完成vsphere环境硬件调整以前,最好不要将生产业务虚拟机放在上运行sql

1.3.上层业务应用

目前咱们的上层业务应用,主要是基于虚拟机的提供服务器资源,而后由服务器搭建的各类业务系统。主要根据各个功能划分,分为客户业务、运维支撑和第三方业务系统。
客户的业务虚拟机包括上线交付的业务系统和相关关联的其余虚拟机,如OA系统,性能监控,专线监控等。
运维支撑,是我方运维人员搭建的各类运维工具软件等,支持各项运维管理工做。
第三方业务系统,指客户要求其余业务部署,非本公司产品,须要利用现有虚拟化环境的,如XX通,动环监控服务器。
相关建议:
一、客户业务须要保持稳定,这也是运维工做的重点
二、第三方业务非客户提出,不要干预
三、运维支撑的应用,是重中之重,须要运维人员重点关注
关于运维支持应用,会在后面重点阐明数据库

1.4.虚拟机清理

有不少虚拟机是处于测试目的的而使用的,有一些虚拟机是处于异常或者中止使用状态的,这些虚拟机的使用会消耗资源,因此对这些虚拟机须要进行清理。关于虚拟机的统计,见附件《虚拟机统计20190121》,这里只是提出须要清理的虚拟机。
须要清理删除的虚拟机以下表所示:windows

(略)

2.运维工做内容

为了方便和明确运维工做内容,须要明确运维工做内容,指导运维人员工做。
关于XX运维工做的内容,以下所示:
IT基础架构运维规划

详细运维工做见文件《XX运维工做梳理》
关于运维人员,技能要求不光须要懂网络,同时须要熟悉虚拟机存储操做系统和监控,技能要求较高。
对于运维工做内容有者以下要求:
一、每一个工做内容都须要有对应的文档,包括操做,记录等等
二、对于平常解决的故障内容须要记录
三、重大操做须要通知客户
运维工做极度依赖制度,和运维人员的职业操守。

3.运维支撑架构

在上层业务应用重,运维支撑是运维技术人员重点须要关注的,对于运维工具的理解和使用,能够极大的提高效率,同时能够及时响应故障,解决问题。

IT基础架构运维规划

首先,在功能上,将XX的各个上层应用区分为基础环境、生产环境、测试环境三个类别。
基础环境:构建运维架构中实现基础功能的虚拟机与应用,包括为提供时间同步的NTP服务器,提供yum加速安装的yum仓库服务,收集日志的日志服务器等。
生产环境:提供给客户业务的虚拟机上层应用,包括专线监控平台,zabbix监控等。
测试环境:运维人员进行测试使用的虚拟机,主要目的是测试各类开源工具运用等,一旦测试结果为有用,能够转化为运维工做管理的重要工具。
在总体运维支撑架构中,最核心底层的主要是由运维管理平台opsmange支持,它实现CMDB资产配置管理,自动化运维等,方便运维人员对总体进行快速调整,快速部署。
jumperserver堡垒机,主要实现运维工做的总体入口,运维人员经过堡垒机可以进行登录各个虚拟机,作到集中登录和审计。

3.1.opsmanage运维管理平台

opsmangege运维管理平台是彻底的开源软件,简单易用,比较与其余商业软件,更加适合XX运维工做。
登录地址:
管理员帐号:
密码:

主要功能模块以下图所示:
IT基础架构运维规划

详细的操做见公司wiki:

对于咱们而言,目前侧重的资产管理和自动化运维

资产管理

IT基础架构运维规划

任务管理

IT基础架构运维规划

批量脚本运行模块

IT基础架构运维规划

说明:
一、该平台能够批量对linux主机进行配置管理,没法对windows主机进行批量管理
二、不少功能能够挖掘使用
三、开源版本目前没有完善的操做手册

3.2.基础环境

3.2.1.专线业务交换机日志收集-loganlyzier

地址:
管理员:
密码:
该日志平台只作收集交换机等网络设备日志,不能收集系统日志,

IT基础架构运维规划

如如有更好的商业日志收集软件,则能够选择替代

3.2.2.专线业务radius服务器-ciso acs 5.2

目前,全部的专线业务,包括XX各个网络的华为系列的交换机,都配置了radius认证,全部登录帐号都会被集中受权和管理。
地址:
帐号:
密码:
设备记录
IT基础架构运维规划

认证记录
IT基础架构运维规划

目前radius 认证服务器采用破解版部署,稳定性通常,须要注意,全部的网络设备交换机配置3A认证时,优先采用本地认证,其次才是radius认证,即便没有radius认证服务器,全部的网络设备也能够正常登录使用,推荐往后采用专业的商业radius服务器解决方案,来知足等级保护要求。

3.2.3.业务日志收集-graylog

graylog 是一个用来将系统日志syslog保存到MongoDB中的工具。 包括一个用Java编写的服务器,可接收来自TCP和UDP的syslog信息,Web接口使用Ruby编写,基于 Rails 框架,可用来查看日志信息。
Wiki 地址:

地址:
管理员:
密码:

日志收集效果
IT基础架构运维规划

能够简单使用,可是高级功能和可视化,告警等功能须要研究一段时间

3.2.4.机房资产管理-racktables

Racktables 是一个用来管理机房资产的开源工具,能够用来管理成百上千台的服务器及更多的 IP 和 MAC 地址。适用于机房和数据中心的服务器管理。
公司wiki地址:

地址:
管理员:
密码:

主要功能截图以下:

IT基础架构运维规划

此套开源软件,使用最为简单,同时操做手册也最为详尽。

3.2.5.运维堡垒机-jumperserver

堡垒机做为运维人员登录入口,提供集中登录和集中日志审计功能。
地址:
管理帐号:
密码:

推荐运维人员主要经过堡垒机对单个运维主机进行登录管理。

3.3.生产环境

生产环境,就是对面对客户的重要业务,由研发主导交付,运维人员须要持续关注,保证环境稳定。

3.3.1.XX业务系统

目前XX业务系统,包括已经交付使用的资源管理门户(OA),传输网性能监控平台,和处于试用阶段的文档管理平台和流程管理平台,前二者运行在nutanix平台之中,后二者运行在vsphere平台之中。
关于XX业务系统,公司wiki上有详细的操做指南。每一个业务系统都是部署在windows操做系统之上,web服务器使用tomcat +jdk,数据库使用mysql,开发语言使用php和java,运维人员须要对这些方面有所了解。
日常运维时须要关注状态,接受故障处理反馈。
日常故障主要集中在几点:
一、tomcat服务启动失败
二、mysql服务启动失败
三、虚拟机存储空间不够
四、网络问题致使客户不能访问业务
五、windows操做系统异常须要排查

3.3.2.备份容灾

四台业务服务器,都采用数据库备份的计划任务,保证数据级别备份;
备份的数据库集中保存在共享NFS文件目录中;
依靠nutanix数据保护功能进行虚拟机级别的备份容灾
依靠nutanix的副本机制,实现主机存储级别的备份容灾。
针对重要业务的虚拟机和数据的备份容灾,大体以下图所示:

IT基础架构运维规划

说明:
一、除了传输网性能监控平台采用第三方数据库备份以外,其余的业务虚拟机数据库备份采用mydump 脚本形式,采用计划任务形式,自动执行
二、除了传输网性能监控平台将数据库导出备份到虚拟机本地磁盘以外,其余业务虚拟机都是讲数据库导出备份到NFS共享目录服务器。
三、在nutanix平台上,开启数据保护,对重要业务虚拟机进行每个月一次的定时快照备份
四、在nutanix平台上,开启副本机制,平台上的全部的虚拟机都会都会三副本的机制保存在三个节点上,实现存储级别的容灾
Vsphere 平台上没有使用任何虚拟机保护机制

针对vsphere的平台,实现容灾备份建议以下:
一、使用存储的复制技术,实现容灾备份
二、部署vpshere data protection 组件实现虚拟机级别的备份容灾
三、若有条件,更换商业版本的备份存储一体机,实现总体存储级别的备份容灾。

3.3.3.xxx系统

目前XXxxx主要是做为接入xxx使用,知足客户和运维人员远程接入光XX内网环境进行办公和调试需求。xxx服务器采用开源的SSL xxx的OPENxxx解决方案,使用二层隧道模式接入XX内网环境。登录上采用域名解析实现多xxx服务器分配保证可靠性,规划大体下所示:

IT基础架构运维规划

说明:
一、XX一共拥有四台xxx服务器,vpshere上两台,nutanix平台上两台,互为冷备关系
二、主域名xxx.xxx.xxx,备域名xxx.xxx.xxx,使用阿里云的域名解析服务
三、使用域名+端口号区分主用xxx和备用xxx环境,如客户使用xxx.xxx.xxx:xxx登录主用xxx服务器,而使用xxx.xxx.xxx:xxxx登录备用xxx服务器。
四、阿里云DNS服务,会跟根据用户的实际网络运营商环境,将域名解析为XX不一样的公网地址,如用户使用电信网络登录xxx,DNS解析为xxx.xxx.xxx.xx,若是用户使用联通的网络登录xxx,DNS解析为xxx.xxx.xxx.xxx
五、公网地址xx.xx.xx.xx是由XX集团平台公司cdn网络提供,由于核心网络对接关系,处于联通运营商网络的用户,没法正常访问,此时须要访问备用公网地址,因此此时须要阿里云DNS系统来进行智能区分
六、每一个平台上的xxx服务器使用冷备,一旦主要xxx服务器不能及时恢复,能够切换到冷备服务器上,保证用户的使用。

对于运维人员来讲,除了须要关注xxx服务器的状态,帐号登录状况,还须要检测域名状况,一旦域名解析故障,失效,会致使xxx服务器的访问异常。

3.3.4.XX域名转发-nginx

由于XX内网环境的特殊性,因此没法直接部署内网域名服务器,重要业务没法使用域名直接访问,因此采用阿里云域名解析+NGINX域名转发+keepalived高可用实现。

IT基础架构运维规划

一、在阿里云DNS解析上作好了域名解析绑定,如xxx.xxx.xxx.xx,所有解析到xxx.xxx.xx.xx
二、两台nginx使用keepalived使用相似vrrp协议的方式实现高可用,对外提供vip
三、两台nginx实现双机热备的高可用,配置同样,实现域名转发到指定内网服务器。

域名转发已是实际上客户访问业务的重要手段,它可以解决XX内网无域名解析服务器的问题,同时能够作到保证用户使用域名方式业务
运维人员须要重点关注,按照如下几点进行运维
一、保证阿里云DNS解析服务可以正常
二、保证nginx服务以及域名转发配置正常
三、保证keepalived服务器进程正常,不能处于脑裂状态
四、保证防火墙策略正常,vlan101网段能够访问vlan102网段,保证nginx网络上转发正常。

3.3.5.跳板机安全-360企业版

目前XX环境下,有不少跳板机,除了做为内网接入跳板提供给客户和运维人员使用以外,还做为一条屏障,阻隔外部网络病毒影响和***行为,主要是依靠360安全卫士进行。

运维人员,须要关注360安全服务器,保证可以稳定正常。

IT基础架构运维规划

3.3.6.报警监控体系

运维工做中,有不少状况,是须要进行设置告警的,在出现问题以后,可以及时知晓并进行处理。

IT基础架构运维规划

运维人员须要及时配置相应系统的告警配置,包括nutanix平台,vsphere平台和基础环境。

3.4.运维工做流程

IT基础架构运维规划IT基础架构运维规划

相关文章
相关标签/搜索