Spark -- 对DataFrame增加一列索引列(自增id列)==》（解决出现ID自增且唯一，但是不呈现自然数递增的问题）

时间 2021-01-07

原文原文链接

Spark DataFrame 添加自增id 在用Spark 处理数据的时候，经常需要给全量数据增加一列自增ID序号，在存入数据库的时候，自增ID也常常是一个很关键的要素。在使用mmlspark的LightGBMRanker时也需要指定一列int/long类型的id列，下面是几种实现方式。方式一：利用RDD的 zipWithIndex算子，官网介绍如下 // 在原Schema信息的基础上添加

>>阅读原文<<