[笔记] 用单节点HIVE+SPARK执行ETL任务

动机 自己是java码农. 运维的Hadoop小集群上硬盘故障已经成为天天平常, 有各类hdfs故障. 最严重一次,文件无法从datanode同步到namenode的状况,致使集群彻底不可用.html 目前不少ELT任务都是用Spark和Hive实现的从kafka导入数据到HDFS,清洗后导入数据库. ETL代码里可能彻底看不到Hdfs, 大部分都是Hive的sql操做或者Spark的rdd操做,
相关文章
相关标签/搜索