机器学习库(MLlib)指南(Spark 2.4.5)

MLlib是Spark的机器学习(ML)库。它的目标是使机器学习的实际应用变得容易和可扩展。在较高层次上,它提供了以下工具: ML算法:常见的学习算法,如分类、回归、聚类和协作过滤 特征化:特征提取、转换、降维和筛选 工作流(Pipelines):构建、评估和调整ML工作流的工具 持久性:保存和加载算法、模型和工作流 实用程序:线性代数、统计学、数据处理等。 注:基于DataFrame的API是主
相关文章
相关标签/搜索