一次实践:spark查询hive速度缓慢缘由分析并以此看到spark基础架构

前一段时间数据挖掘组的同窗向我返回说本身的一段pyspark代码执行很是缓慢,而代码自己很是简单,就是查询hive 一个视图中的数据,并且经过limit 10限制了数据量。 不说别的,先贴个人代码吧:html from pyspark.sql import HiveContext from pyspark.sql.functions import * import json hc = HiveCo
相关文章
相关标签/搜索