Spark中使用UDF函数、zipWithIndex配合Array数组来对Vector类的列进行分割，实现聚类中心读取为DataFrame

时间 2021-01-07

标签 Scala Spark 大数据聚类 UDF 栏目 Spark 繁體版

原文原文链接

简介使用的数据集是UCI提供的Machine-Learning-Databases数据集。本篇博客的内容是笔者在输出聚类中心信息时实践所得：由于在ml中得到的聚类中心是Array[Vector]类的数据，Array中保存每个聚类中心的数据，Vector记录每个聚类中心的每个维度，很难将其读入DataFrame，本篇文章通过rdd作为中介来将其成功转换。而对于每个聚类中心的数据，如果根据所需

>>阅读原文<<