Spark中使用UDF函数、zipWithIndex配合Array数组来对Vector类的列进行分割，实现聚类中心读取为DataFrame

时间 2019-12-05

标签 spark 使用 udf 函数 zipwithindex 配合 array 数组 vector 进行分割实现中心读取 dataframe 栏目 Spark 繁體版

原文原文链接

简介使用的数据集是UCI提供的Machine-Learning-Databases数据集。本篇博客的内容是笔者在输出聚类中心信息时实践所得：html 因为在ml中获得的聚类中心是Array[Vector]类的数据，Array中保存每一个聚类中心的数据，Vector记录每一个聚类中心的每一个维度，很难将其读入DataFrame，本篇文章经过rdd做为中介来将其成功转换。而对于每一个聚类中心的数

>>阅读原文<<