Spark 从 Kafka 读数并发问题

       常常使用 Apache Spark 从 Kafka 读数的同窗确定会遇到这样的问题:某些 Spark 分区已经处理完数据了,另外一部分分区还在处理数据,从而致使这个批次的做业总消耗时间变长;甚至致使 Spark 做业没法及时消费 Kafka 中的数据。为了简便起见,本文讨论的 Spark Direct 方式读取 Kafka 中的数据,这种状况下 Spark RDD 中分区和 Kafk
相关文章
相关标签/搜索