spark-介绍 + 高可用 + Spark-submit + 历史服务器

时间 2020-12-30

原文原文链接

为什么要使用spark -spark到目前为止没有竞争对手为什么要用到大数据? -文件超级大,一块硬盘放不下,—>hdfs上场;(存储问题) -僵尸数据:(数据存储到一个位置得用起来);(CPU+内存来完成计算);多机一块运算(MapReduce) -mr的开发流程特别繁琐;hive --> sql语句 --> 会转换成 mr 代码 --> hadoop中的 mr 和 hdfs 运行; -hiv