Spark -- 对DataFrame增加一列索引列(自增id列)==》(解决出现ID自增且唯一,但是不呈现自然数递增的问题)

Spark DataFrame 添加自增id   在用Spark 处理数据的时候,经常需要给全量数据增加一列自增ID序号,在存入数据库的时候,自增ID也常常是一个很关键的要素。在使用mmlspark的LightGBMRanker时也需要指定一列int/long类型的id列,下面是几种实现方式。 方式一:利用RDD的 zipWithIndex算子,官网介绍如下 // 在原Schema信息的基础上添加
相关文章
相关标签/搜索