Spark-Spark MLib简介

Spark MLib简介 hadopp实现机器学习:MapReduce也可以编写机器学习,基于磁盘操作,多次迭代计算磁盘IO开销大。 spark实现机器学习:spark是基于内存,只有shuffle操作需要落磁盘,实现管道化处理,在内存中完成数据交接。大大减少在磁盘的IO开销。基于MLib库。 MLib包含: 分类、回归、聚类、协同过滤、降维。 特征化工具:特征提取、转化、降维、选择工具。 流水线
相关文章
相关标签/搜索