1. 岗位工做内容:数据流抓取,数据整理,数据清洗,数据分析,特征提取;

熟悉开发环境 经过Xshell链接跳板服务器,在测试环境了解数据存储分布结构,及数据操做方法。 为何选用spark:Spark 是一种与 Hadoop 类似的开源集群计算环境–>全部人都在拿spark与Hadoop比较,那什么是Hadoop。 Apache Hadoop软件库是一个容许使用简单编程模型跨计算机集群处理大型数据集合的框架,其设计的初衷是将单个服务器扩展成上千个机器组成的一个集群为大数
相关文章
相关标签/搜索