Spark中使用UDF函数、zipWithIndex配合Array数组来对Vector类的列进行分割,实现聚类中心读取为DataFrame

简介 使用的数据集是UCI提供的Machine-Learning-Databases数据集。 本篇博客的内容是笔者在输出聚类中心信息时实践所得: 由于在ml中得到的聚类中心是Array[Vector]类的数据,Array中保存每个聚类中心的数据,Vector记录每个聚类中心的每个维度,很难将其读入DataFrame,本篇文章通过rdd作为中介来将其成功转换。 而对于每个聚类中心的数据,如果根据所需
相关文章
相关标签/搜索