运维工程师的职责和前景(下)

时间 2020-02-07

标签工程师职责前景繁體版

原文原文链接

3、怎样才算是一个合格的运维工程师前端

1、保证服务达到要求的线上标准，如99.9%；保证线上稳定，这是运维工程师的基本责职所在。 web

2、不断的提高应用的可靠性与健壮性、性能优化、安全提高；这方面很是考验主动性和创新思惟。数据库

3、网站各层面监控、统计的覆盖度，软件、硬件、运行状态，能监控的都须要监控统计，避免监控死角、并能实时了解应用的运转状况。安全

4、经过创新思惟解决运维效率问题；目前各公司大部份运维主要工做仍是依赖人工操做干预，须要尽量的解放双手。性能优化

5、运维知识的积累与沉淀、文档的完备性，运维是一个经验性很是强的岗位，好的经验与陷阱都需积累下来，避免重复性范错。服务器

6、计划性和执行力；工做有计划，计划后想法设法达到目标，不找借口。网络

7、自动化运维；能对平常机械化工做进行提炼、设计并开发成工具、系统，能让系统自动完成的尽可能依靠系统；让你们更多的时间用于思考、创新思惟、作自已喜欢的事情。架构

以上只是技术上的一些层面，固然我的意识也是很重要的。负载均衡

4、运维职业的迷惘、现状与发展前景 运维

运维岗位不像其它岗位，如研发工程师、测试工程师等，有很是明确的职责定位及职业规划，比较有职业认同感与成就感；而运维工做可能给人的感受是哪方面都了解一些，但又都比上专职工程师更精通、感受平时被关注度比较低（除非线上出现故障），慢慢的你们就会迷惘，对职业发展产生困惑,为何会有这种现象呢？除了职业自己特色外，主要仍是由于对运维了解不深刻、作得不深刻致使；其实这个问题其它岗位也会出现，但我发现运维更典型，更容易出现这个问题；

针对这个问题我谈一下网站运维的现状及发展前景（也在思考中，可能不太深刻全面，也请你们斧正补充）

运维现状：

1、处于刚起步的初级阶段，各大公司有此专职，但重视或重要程度不高，可替代性强；小公司更可能是由其它岗位来兼顾作这一块工做，没有专职，也不可能作得深刻。

2、技术层次比较低；主要处于技术探索、积累阶段，没有型成体系化的理念、技术。

3、体力劳动偏大；这个问题主要与第二点有关系，不少事情仍是依靠人力进行，没有完成好的提练，对于大规模集群没有成熟的自动化管理方法，在此说明一下，大规模集群与运维工做是息息相关的若是只是百十来台机器，那就没有运维太大的生存空间了。

4、优秀运维人才的极度缺少；目前各大公司基本上都靠自已培养，这个现状致使行业内运维人才的流动性很是低，很是多好的技术都局限在各大公司内部，如 google 50万台机器科学的管理,或者国内互联公司top 10 的一些运维经验，这些经验是很是有价值的东西并决定了一个公司的核心竞争力；这些问题进而致使业内先进运维技术的流通、贯通、与借签，并最终将限制了运维发展。

5、不少优秀的运维经验都掌握在大公司手中；这不在于公司的技术实力，而在于大公司的技术规模、海量PV、硬件规模足够大，如baidu可怕的流量、 51.com海量数据~~~~这些因素决定了他们遇到的问题都是其它中/小公司尚未遇到的，或即将遇到。但大公司可能已有很好的解决方案或系统。

发展前景：

1、从行业角度来看，随着中国互联网的高速发展（目前中国网民已跃升为全球第一）、网站规模愈来愈来大、架构愈来愈复杂；对专职网站运维工程师、网站架构师的要求会愈来愈急迫,特别是对有经验的优秀运维人才需求量大，并且是越老越值钱；目前国内基本上都是选择毕业生培养（限于大公司），培养成本高，并且没有经验人才加入会致使公司技术更新缓慢、影响公司的技术发展；固然，毕业生也有好处：白纸一张，可塑性强，比较认同并容易融入企业文化。

2、从我的角度，运维工程师技术含量及要求会愈来愈高，同时也是对公司应用、架构最了解最熟悉的人、愈来愈获得重视。

3、网站运维将成为一个融合多学科（网络、系统、开发、安全、应用架构、存储等）的综合性技术岗位，给你们提供一个很好的我的能力与技术广度的发展空间。

4、运维工做的相关经验将会变得很是重要，并且也将成为我的的核心竞争力，具有很好的各层面问题的解决能力及方案提供、全局思考能力等。

5、特长发挥和兴趣的培养；因为运维岗位所接触的知识面很是广阔，更容易培养或发挥出我的某些方面的特长或爱好，如内核、网络、开发、数据库等方面，能够作得很是深刻精通、成为这方面的专家。

6、若是真要之后不想作运维了，转到其它岗位也比较容易，不会有太大的局限性。固然了，你得真正用心去作。

7、技术发展方向：网站/系统架构师。

5、运维关键技术点解剖

1、大规模集群管理问题

首先咱们先要明确集群的概念，集群不是泛指各功能服务器的总合，而是指为了达到某一目的或功能的服务器、硬盘资源的整合（机器数大于两台），对于应用来讲它就是一个总体，目前常规集群可分为：高可用性集群（HA），负载均衡集群（如lvs），分布式储、计算存储集群（DFS，如google gfs ,yahoo hadoop），特定应用集群（某一特定功能服务器组合、如db、cache层等），目前互联网行业主要基于这四种类型；对于前两种相似，若是业务简单、应用上post操做比较少，能够简单的采用四层交换机解决（如f5），达到服务高可用/负责均衡的做用，对于资源紧张的公司也有一些开源解决办法如lvs+ha,很是灵活；对于后两种，那就考验公司技术实力及应用特色了，第三种DFS主要应用于海量数据应用上，如邮件、搜索等应用，特别是搜索要求就更高了，除了简单海量存储，还包括数据挖掘、用户行为分析；如google、yahoo就能保存分析近一年的用户记录数据，而baidu应该少于30天、soguo就更少了。。。这些对于搜索准备性、及用户体验是相当重要的。

接下来，咱们再谈谈如何科学的管理集群，有如下关键几点：

I、监控

主要包括故障监控和性能、流量、负载等状态监控，这些监控关系到集群的健康运行，及潜在问题的及时发现与干预；

a、服务故障、状态监控：主要是对服务器自身、上层应用、关联服务数据交互监控；例如针对前端web server，咱们就能够有不少种类型的监控，包括应用端口状态监控，便于及时发现服务器或应用自己是否crash、经过icmp包探测服务器健康状态，更上层可能还包括应用各频道业务的监控，经常使用方法是采用面业特征码进行判断，或对重点页面进行签名，以网站被黑篡改（报警、并自动恢复被篡改数据）等等，这些只是一部份，还有N多监控方式，依应用特色而定，还有一些问题需解决，如集群过大，如何高性能的进行监控也是一个现实问题。

b、其它就是集群状态类的监控或统计，为咱们合理管理调优集群提供数据参考、包括服务瓶颈、性能问题、异常流量、***等问题。

II、故障管理

a、硬件故障问题；对于成百上千或上万机器的N多集群，服务器死机、硬件故障几率是很是大的，几乎每时每刻都有服务硬件问题，死机、硬盘损坏、电源、内存、交换机。针对这种状况，咱们在设计网站架构时须要充分考虑到这些问题，并将其视为常态；更多的依靠应用的冗余机制来规避这种风险，但给系统工程师足够宽裕的处理时间。（如google不是号称同时死800台机器，服务不会受到任何影响吗）；这就是考验运维工程师及网站架构师功能的地方了，好的设计能达到google所描述自恢复能力，如gfs，糟糕的设计那就是一台服务器的死机可能会形成大面积服务的连锁故障反映，直接对用户拒绝响应。

b、应用故障问题；多是某一bug被触发、或某一性能阀值被超越、***等状况不一而定，但重要的一点，是要有对这些问题的预防性措施，不能想固然，它不会出问题，如真出问题了，如何应对？这须要运维工程师平时作足功夫，包括应急响应速度、故障处理的科学性、备用方案的有效等。

III、自动化

自动化：简而言之，就是将咱们平常手动进行的一些工做经过工具，系统自动来完成，解放咱们的双手及枯燥的重复性劳动，例如：没有工具前，咱们安装系统须要一台一台裸机安装，如2000台，可能须要10人/10天，搞烂N张光盘，人力成本更大。。。而如今经过自动化工具，只需几个简单命令就能搞定、还有如机器人类程序，自动完成以往天天人工干预的工做，使其自动完成、汇报结果，并具有必定的专家系统能力，能作一些简单的是/非判断、优化选择等。。。这些好处很是明显再也不多说。。。应该说，自动化运维是运维工程师职业化的一个追求，利已利公，虽然这是一个异常艰巨的任务：不断变动的业务、不规范化的应用设计、开发模式、网络架构变动、IDC变动、规范变更等因素，均可能会对现有自动化系统产生影响，因此须要模块化、接口化、变因参数化等所以，自动化相关工做，是运维工程师的核心重点工做之一，也是价值的体现。

转载自：http://magedu.com/%E8%AF%BE%E7%A8%8B%E8%AE%BE%E7%BD%AE/223-2