Spark面试

Spark面试 1. spark消费kafka,如何保证消息有序? 2.对于spark中的数据倾斜问题,你有什么好的方案? 3.你所理解的spark的shuffle过程? 4.spark有哪些聚合类的算子,咱们应该尽可能避免什么类型的算子? 5.spark-on-yarn做业执行流程,yarn-client和yarn-cluster有什么区别? 6.spark为何快,sparkSql必定比Hive
相关文章
相关标签/搜索