运维指的是互联网运维,属于技术部门,与研发、测试、系统管理同为互联网产品技术支撑的4大部门,这个划分在国内和国外以及大小公司间都会多少有一些不一样。一个互联网产品的生成通常经历的过程是:产品经理、需求分析、研发部门开发、测试部门测试、运维部门部署发布以及长期的运行维护。运维的职责覆盖了产品从设计到发布、运行维护、变动升级及至下线的生命周期,各个阶段的职责包括
(1) 产品的业务熟悉;
(2) 产品架构设计的合理性评估,包括是否存在单点,是否可容错,是否有强耦合等,同时须要提供产品设计的合理性建议以使产品可以知足上线发布并稳定运行的基本要求;
(3) 资源评估,包括所需的服务器资源、网络资源以及资源的分布等,同时把相关产品对资源预算申请的合理性,控制服务成本;
(4) 资源就位,将申请的服务器及基础环境/域名准备就位。
产品发布阶段运维工程师负责发布的具体工做,将具体的软件和系统/硬件资源整合造成产品并对外提供服务器
(5) 监控:对服务运行的状态进行实时的监控,随时发现服务的运行异常和资源消耗状况;输出重要的平常服务运行报表以评估服务/业务总体运行情况,发现服务隐患;
(6) 故障处理:对服务出现的任何异常进行及时处理,尽量避免问题的扩大化甚至停止服务。这以前运维工程师须要针对各种服务异常,如机房/网络故障、程序bug等问题制定处理的预案,问题出现时能够自动或手动执行预案达到止损的目的。除了平常小故障外,运维工程师还须要考虑产品不一样程度受损状况下的灾难恢复,包括诸如地震等不可抗力致使大规模机房故障、在线产品被删除等对产品形成致命伤害的状况。
容量管理:包括服务规模扩张后的资源评估、扩容、机房迁移、流量调度等规划和具体实施。
产品对外提供服务最重要的一点是用户体验,用户体验中很是重要的是产品的可用性和响应速度。而如何用最合理的资源(如机器、带宽等)支持产品提供高可用和高速度的用户体验,这也是运维工程师的重要职责。
发展良好的互联网产品将始终在线对外提供服务,但互联网产品快速迭代,也存在至关多孵化的产品最后被淘汰的状况,这些产品都须要作下线处理,这个过程运维工程师主要作好资源回收的工做,将机器/网络等资源回收后归入资源池中供其它服务使用。网络
这些基本就是运维工程师的职责了 架构