什么是大数据运维工程师

时间 2019-11-30

标签什么数据工程师繁體版

原文原文链接

　　　　　　　　　　　　　　什么是大数据运维工程师java

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　做者：尹正杰linux

　　业内有这么一句话说：云计算可能改变了整个传统IT产业的基础架构，而大数据处理，尤为像Hadoop组件这样的技术出现，将是改变IT业务模式的一种技术。另外，不少小伙伴可能还搞不明白云和Hadoop有什么关系，事实上这是两种大相径庭的技术。今天咱们就来聊一聊大数据运维工程师。安全

一.Linux发展与学习线路 网络

二.大数据运维的工做职责架构

一.集群管理
    大数据须要分布式系统，也就是集群：Hadoop，Hbase，Spark，Kafka，Redis等大数据生态圈组建。

二.故障处理
    1>.商用硬件使用故障是常态。
    2>.区分故障等级，优先处理影响实时性业务的故障。

三.变动管理
    1>.以可控的方式，高效的完成变动工做；
    2>.包括配置管理和发布管理；

四.容量管理
    1>.存储空间，容许连接数等都是容量概念；
    2>.在多租户环境下，容量管理尤为重要；
五.性能调优
    1>.不一样组建的性能概念不同，如kafka注重吞吐量，Hbase注重实用性可用性;
    2>.须要对组建有深入的理解
六.架构优化
    1>.优化大数据平台架构，支持平台能力和产品的不断迭代;
    2>.相似架构师的工做；

三.大数据运维所需的能力负载均衡

一.DevOps
    DevOps(英文Development和Operations的组合)是一组过程，方法和系统的统称，用于促进开发（应用程序/软件工程），技术运营和质量保障（QA）部门之间的沟通，写做与整合。
二.硬件，OS，网络，安全的基础知识
    大数据平台和组建设计范围广，各类都须要懂一点，这些知识出问题的时候不可能问人，由于别人也有本身的工做要作。

三.脚本语言能力
    Shell,SQL(DDL),Python.Java（加分）

四.大数据各个组件知识
    设计思想。使用范围，底层架构，经常使用命令，经常使用配置或参数，常见问题处理方法。

五.工具能力
    Zabbix，Open Falcon，Ganglia，ELK等，企业自研工具。我推荐使用集群自带的工具。

六.Trouble shooting能力
    搜索能力（搜索引擎，stackoverflow等），java能力（异常堆栈要看得懂，最好能看懂源码），英文阅读能力。

七.意识，流程
    良好的意识，什么能作什么不能作。同用的流程如ITIL，各企业也有本身的流程。

四.大数据运维的主要工做运维

一.运维三板斧
    三板斧能够解决90%以上的故障处理工做。
1>.重启
    重启有问题的机器或常常，使其正常工做。
2>.切换
    主备切换或主主切换，连接正常工做的节点。
3>.查杀
    查杀有问题的进程，连接等。
4>.三板斧的问题
    第一：只能处理故障处理问题，不能解决性能调优，架构优化等问题；
    第二：只能治标，不能治本；
5>..大数据运维和传统运维的不一样
    第一：传统运维面对的底层软硬件基本稳固，大数据运维面对的是商用硬件和复杂linux版本；
    第二：传统运维面对的是单机架构为主，大数据运维面对复杂的分布式架构；
    第三：传统运维大多维护闭源商业版系统，大数据运维一般面对开源系统，文档手册匮乏，对阅读源码要求高。
    第四：大数据运维对自动化工具的依赖大大增长；

二.Iaas层（基础设置及服务）运维工做
    通常中大型企业有本身的基础设施维护团队，这部分工做不会交给大数据运维来作。小公司可能须要大数据运维键值这部分工做，主要关注三个方面：
1>.硬件
    大数据系统大多使用廉价PC Server或虚拟机，硬件故障是常态，经过告警，日志，维护命令等识别故障，并支持硬件更换。
2>.存储
    大多使用PC Server挂本磁盘的存储方式，极少状况会使用SAN（存储区域网络）或NAS（网络附属存储），熟悉分区，格式化，巡检等基本操做。
3>.网络
    网络的配置变动更须要比较专业的知识，若有须要可学习CCNA，CCNP等认证课程，但网络硬件和配置出问题几率很低，主要关注丢包，延时。

三.HDFS运维工做
1>.容量管理
    第一：HDFS空间我使用超过80%要警戒，若是是多租户环境，租户的配额空间也能用完；
    第二：熟悉hdfs，fsck，distcp等经常使用命令，会使用DataNode均衡器；

2>.进程管理
    第一：NameNode的进程是重点
    第二：熟悉dfsadmin等Ingles。怎么作NameNode高可用。
3>.故障管理
    Hadoop最多见的故障就是硬盘损坏。
4>.配置管理
    hdfs-site.xml中的参数设置。

四.MapReduce运维工做
1>.进程管理
    第一：jobtracker进程故障几率比较低，有问题能够经过重启解决；
    第二：了解一下HA的作法；
2>.配置管理
    mapred-site.xml中的参数设置。

五.Yarn运维工做
1>.故障管理
    主要是当任务异常这停止时看日志排查，通茶故障缘由会集中在资源问题，权限问题中的一种。
2>.进程管理
    ResourceManager主要是学会配置HA
    NodeManager进程挂掉不重要，重启便可。
3>.配置管理
    yarn-site.xml中的参数设置，主要分三块配置，scheduler的，ResourceManager的，NodeManager的。

六.Hive/Impala运维工做
1>.SQL问题排查
    第一：结果不对，主要缘由多是SQL错误，数据不存在，UDF错误等，须要靠经验排查
    第二：慢SQL，这类问题开发常常会找运维排查，有多是劣势SQL，数据量大，也有多是集群资源紧张；
2>.元数据管理
    Hive和Impala公用的元数据，存在关系型数据库中。
七.其它组件
    根据组件用途，特性，关注点的不用，运维工做也各不相同，如：
1>.HBase关注读写性能，服务的可用性
2>.Kafka关注吞吐量，负载均衡，消息不丢机制
3>.Flume关注屯度量，故障后的快速恢复

五.大数据运维技能概览tcp

六.大数据运维职业素养分布式

1>.人品
2>.严谨
3>.细心
4>.心态
5>.熟悉操做系统
6>.熟悉业务(开发)
7>.熟悉行业
8>.喜欢大数据生态圈