对于两个rdd函数的理解及python3不能使用

第一个: def get_mapping(rdd,idx): return rdd.map(lambda fields:fields[idx]) .distinct().zipWithIndex().collectAsMap() 定义了一个映射函数,首先将idx列的特征值去重,然后对每个值使用zipWithIndex()映射到一个唯一的索引。键是变量,值是索引 即将该段不重复的数据进行编号 c
相关文章
相关标签/搜索