第二篇:使用Spark对MovieLens的特征进行提取

阅读目录 前言 类别特征提取 派生特征提取 文本特征提取 归一化特征 回到顶部 前言        在对数据进行了初步探索后,想必读者对MovieLens数据集有了感性认识。而在数据挖掘/推荐引擎运行前,往往需要对数据预处理。预处理的重要性不言而喻,甚至比数据挖掘/推荐系统本身还重要。        然而完整的数据预处理工作会涉及到:缺失值,异常值,口径统一,去重,特征提取等等等等,可以单写一本书
相关文章
相关标签/搜索