校招准备-大数据工具

时间 2019-12-07

标签准备数据工具繁體版

原文原文链接

学习计划1:spark,spark数据处理,预处理,机器学习,分布式机器学习算法等相关

学习计划2:hadoop系列 hbase,pig,yarn,HDFS 流计算学习

学习计划3:ETL相关知识学习

未完待续java

-------------------------linux

spark学习计划:git

各类零散的点github

1.scala学习算法

2.hadoop基础,mapreduce原理和实现应用(找一个log分析的实例?)mr2框架已经逐步被替代,HDFS ;yarn; hbase,hive,sqoop 等技术栈,看看有什么能够补上的吗 sql

3.spark适用环境, mr框架的缺点是啥,为何spark能更好的完成一些任务, shell

spark core, RDD,spark任务调度,spark sql, spark streaming, MLlib, 数据库

4.apache

------------------------------

阿里巴巴18春招实习生描述

数据研发工程师 ::: 数据库技术,Hadoop,Linux,元数据管理,ETL技术,分布式技术

若是你想参与阿里大数据的采集、存储、处理，经过分布式大数据平台加工数据，支持业务管理决策
若是你想参与阿里大数据体系的设计、开发、维护，经过数据仓库、元数据、质量体系有效的管理和组织几百P的数据
若是你想参与阿里大数据产品的研发，经过对数据的理解，发挥你的商业sense，发掘数据价值，探索大数据商业化
若是你想接触世界领先的大数据处理与应用的技术和平台，得到大数据浪潮之巅的各种大牛的指导缓存

熟悉一门数据处理语言，如SQL、JAVA、Python、Perl等，熟悉unix或者linux操做

有参与过数据处理、分析、挖掘等相关项目更好

对Hadoop、Hive、Hbase等分布式平台有必定的理解更好

算法工程师-机器学习

咱们专一于大数据之上的机器学习算法研究与应用，若是你了解机器学习、深度学习、强化学习、迁移学习、主动学习、特征提取与稀疏学习、等级学习等

负责机器学习、深度学习领域的技术研发工做，包括但不限于神经元网络模型设计与优化、强化学习、迁移学习、主动学习、维度下降、核方法、谱方法、特征提取与稀疏学习、等级学习、推荐、随机优化等的算法和系统研发等

负责机器学习尤为是深度学习前沿问题的探索与研究，结合将来实际应用场景，提供全面的技术解决方案

负责提供分布式的算法实现的解决方案，大幅提高算法计算规模和性能

负责提供大数据分析建模方案，沉淀行业解决方案，协助拓展业务边界

-----------------------

hadoop系 (学习如何使用/原理)

Hadoop/Yarn/Zookeeper

Spark/Spark SQL/Spark Streaming

Storm/Flink/Beam

ETL

ETL早期做为数据仓库的关键环节，负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成，最后加载到数据仓库（Data Warehouse）或数据集市（Data Mart）中，成为联机分析处理（On-Line Analytical Processing，OLAP）、数据挖掘（Data Mining）的基础。

来描述将数据历来源端通过抽取（extract）、交互转换（transform）、加载（load）至目的端的过程。ETL一词较经常使用在数据仓库，但其对象并不限于数据仓库。

ETL是构建数据仓库的重要一环，用户从数据源抽取出所需的数据，通过数据清洗,最终按照预先定义好的数据仓库模型，将数据加载到数据仓库中去。

写shell,搭hadoop/hive/hbase 写复杂逻辑的sql

负责数据的抽取，转化和传输，通常这个部门在企业里面负责数据的转化，之前数据仓库时代是 SQL 为主和 ETL 工具为辅。如今非结构性质的系统好比说 Hadoop 等等，他们脚本语言的能力须要很强。

数据etl过程,数据建模,定时任务的分配,hadoop集群维护

总之就是须要把数据各类导入导出,各类收集处理,

大数据查询

Presto/Kylin/Druid/Impala, 推荐一本书: 《Druid实时大数据分析》

调度 airflow, azkaban, kubernetes, mesos 等

中间件

消息中间件 kafka/ rocketMQ, see: https://github.com/apache/incubator-rocketmq

缓存中间件 memcached

BI工程师

通常是作数据可视化，报表开发，经常使用工具（如BO Cognos MSTR等），也有基于js（如echarts hicharts等）的Web开发

数据仓库工程师：

数据仓库，英文名称为Data Warehouse，可简写为DW或DWH。数据仓库，是为企业全部级别的决策制定过程，提供全部类型数据支持的战略集合。它是单个数据存储，出于分析性报告和决策支持目的而建立。为须要业务智能的企业，提供指导业务流程改进、监视时间、成本、质量以及控制。

传统的数据仓库概念，职责大体能够分为两种，一是业务分析（BA）和数据建模（Data Modeling），主要作需求分析，业务理解，数据仓库表结构和字段逻辑设计；一是流程（ETL）开发，具体工做以下

===================

spark一份课程的目录

做者：匿名用户
连接：https://www.zhihu.com/question/31427697/answer/202371651
来源：知乎
著做权归做者全部。商业转载请联系做者得到受权，非商业转载请注明出处。

第一阶段 Spark内核深度剖析第00节课-课程特点和学习方式第一节课-Spark概述（四大特性）第二节课-Spark入门第三节课-什么是RDD？第四节课-spark架构第五节课-linux环境准备（虚拟机，linux）第六节课-hadoop环境准备第七节课-spark环境准备第八节课-spark开发环境搭建（java，scala）第八节课-补充-maven打包第九节课-spark任务提交第十节课--Historyserver配置第十一节课--RDD的建立方式第十二节课--Transformation和action原理剖析第十三节课--map，filter，flatMap算子演示（java版）第十四节课--groupByKey,reduceByKey,sortByKey算子演示（java版）第十五节课--join，cogroup,union算在演示（java版本）第十六节课--Intersection，Distinct，Cartesian算子演示（java版本）第十七节课--mapPartition，reparation，coalesce算子演示（java版）第十八节课--sample，aggregateByke算子演示（java版本）第十九节课--mapPartitionsWithIndex,repartitionAndSortWithinPartitions算子演示（java）第二十节课--action算子演示（java版）第二十一节课--map,filter,flatMap,groupByKey,reduceByKey,sortByKey算子演示（scala) 第二十二节课--join,cogroup,union,intersection,distinct,cartesian算子演示（scala) 第二十三节课--mapPartitions,reparition,coalesce,sample,aggregateByKey算子演示(scala) 第二十四节课-mapPartitionsWithIndex,repartitionAndSortWithinPartitions算子演示(scala) 第二十五节课-RDD持久化（tachyon）第二十六节课--共享变量（广播变量，累加变量）第二十七节课-Spark on YARN模式（cluster,client）第二十八节课-窄依赖和宽依赖第二十九节课--Shuffle原理剖析第三十节课--stage划分原理剖析第三十一节课-Spark任务调度第三十二节课--综合案例一TopN（scala）第三十三节课--综合案例二日志分析上(scala) 第三十三节课--综合案例二日志分析下(scala) 第三十四节课--spark2内核新特性第二阶段 Spark调优第三十五节课-Spark调优概述第三十六节课-开发调优(1) 第三十七节课-开发调优(2) 第三十八节课-开发调优(3) 第三十九节课-开发调优(4) 第四十节课-开发调优(5) 第四十一节课-开发调优(6) 第四十二节课-开发调优(7) 第四十三节课-开发调优(8) 第四十四节课-开发调优(9) 第四十五节课-数据本地化第四十六节课-数据倾斜原理第四十七节课-数据倾斜解决方案一第四十八节课-数据倾斜解决方案二第四十九节课-数据倾斜解决方案三第五十节课-数据倾斜解决方案四第五十一节课-数据倾斜解决方案五第五十二节课-数据倾斜解决方案六第五十三节课-数据倾斜解决方案七第五十四节课-shuffle调优第五十五节课-Spark资源模型第五十六节课-资源调优第五十七节课-Spark JVM调优(1) 第五十八节课-Spark JVM调优(2) 第五十九节课-Spark JVM调优(3) 第六十节课-Spark JVM调优(4) 第六十一节课-Spark JVM调优(5) 第六十二节课-spark调优总结第三阶段 SparkSQL精讲第六十三节课-SparkSQL前世此生第六十四节课-Dataframe使用第六十五节课-Reflection方式将RDD转换成Dataframe 第六十六节课-Programmatically方式将RDD转换成DataFrame 第六十七节课-DataFreme VS RDD 第六十八节课-数据源之数据load和save 第六十九节课-数据源之parquetfile操做第七十节课-数据源之JSON数据第七十一节-课数据源之JDBC 第七十二节课-数据源之Hive table-hive环境搭建第七十三节课-数据源之Hive table-spark环境集成第七十四节课-数据源之Hive table-使用第七十五节课-数据源之HBase环境准备第七十六节课-数据源之HBase 第七十七节课-Thriftserver使用第七十八节课-UDF开发第七十九节课-UADF开发第八十节课-开窗函数第八十一节课-groupBy和agg函数使用第八十二节课-综合案例一（日志分析）第八十三节课-综合案例二(用户行为分析)-1 第八十四节课-综合案例二(用户行为分析)-2 第八十五节课-综合案例二(用户行为分析)-3 第八十六节课-综合案例二(用户行为分析)-4 第八十七节课-综合案例二(用户行为分析)-5 第四阶段 SparkStreaming精讲第八十八节课-Spark Streaming工做原理第八十九节课-Spark Streaming入门案例第九十节课-Spark Streaming HDFS WordCount例子演示第九十一节课-Spark Streaming之updateStateByKey 第九十二节课-Spark Streaming之mapWithState 第九十三节课-Spark Streaming之transform 第九十四节课-Spark Streaming之window操做第九十五节课-Spark Streaming之foreachRDD 第九十六节课-Spark Streaming之flume原理介绍第九十七节课-Spark Streaming之flume搭建第九十八节课-Spark Streaming之flume集成第九十九节课-Spark Streaming之kafka原理介绍第一百节课-Spark Streaming之kafka集成第一百零一节课-Spark Streaming之kafka集群部署第一百零二节课-Spark Streaming之综合案例TopN实时统计第一百零三节课-Spark Streaming之Driver HA配置第五阶段 Spark2新特性第一百零四节课-Spark2新特性之 Spark2设计目标-更容易、更快速、更智能第一百零五节课-Spark2 新特性之SparkSQL变化之 SparkSession 第一百零六节课-Spark2新特性之whole-stage code generation和vectorization技术剖析第一百零七节课-Spark2 新特性之RDD，DataFream 和DataSet关系第一百零八节课-Spark2 新特性之DataSet Transformation演示（1）第一百零九节课-Spark2 新特性之DataSet Action演示（2）第一百一十节课-Spark2 新特性之DataSet 基本操做演示（3）第一百一十一节课-Spark2 新特性之DataSet[untyped ] 基本操做演示（4）第一百一十二节课-Spark2 新特性之DataSet其它功能演示（5）第一百一十三节课-Spark2 新特性之 Structured Streaming设计目标第一百一十四节课-Spark2 新特性之 Structured Streaming原理剖析第一百一十五节课-Spark2 新特性之 Structured Streaming 案例演示