pyspark特征工程经常使用方法(一)

本文记录特征工程中经常使用的五种方法:MinMaxScaler,Normalization,OneHotEncoding,PCA以及QuantileDiscretizer 用于分箱 原有数据集以下图:python MinMaxScaler from pyspark.ml.feature import MinMaxScaler 首先将c2列转换为vector的形式 vecAssembler = Ve
相关文章
相关标签/搜索