Spark SQL整合hive

时间 2021-07-12

原文原文链接

为什么要进行整合？由于hive原生是基于MapReduce的，导致其查询耗时较长。为了保留Hive的架构解决方案，并优化查询速度，采用SparkSql与hive整合(spark on hive)，通过SparkSql读取hive中表的元数据，把HiveHQL底层采用MapReduce处理任务导致性能慢的特点，改为更加强大的Spark引擎来进行相应的计算处理。环境搭建准备 1、搭建hadoop