Spark机器学习--Ch3 ----3.4从数据中提取有用特征

类别特征: 原始形式时,取值可能来自一个集合而不是数字,所以不能作为输入。 也称为:      名义变量:各个取值之间没有顺序关系。      有序变量:存在顺序关系,比如评级。 将类别特征表示为数字形式,常可借助k之1编码(1-of-k)。 派生特征: 从原始数据派生特征的例子:平均值、中位数、方差等。 数值特征到类别特征的转换:比如划分区间的年龄、地理位置和时间。 文本特征 一种简单标准化的特
相关文章
相关标签/搜索