Spark的RDD连续转换操做有时须要注意强行触发action执行操做,不然(Tansformation)的惰性(lazy)机制会致使结果错误

  最近经过spark作一些数据处理,遇到一些诡异的现象java 我开发了一个随机生成海量数据点的程序,由于要保证这些点具备自增序号,不适合直接map分布式作(几十亿的数据,map计算须要分区(不主动分区估计也会自动分区,spark自带的数据累加逻辑只能对单个partition分区内有效),须要在driver里进行序号计算,因此就想经过数组分批生成数据,转换成RDD,在依次拼接(union)起来,
相关文章
相关标签/搜索