Spark 快速大数据分析 -垃圾邮件分类示例

垃圾邮件分析是一个用来快速了解MLlib的例子。这个程序用了两个函数:HashingTF与LogisticRegressionWithSGD,前者从文本数据构建词频(termfrequency)特征向量,后者使用随机梯度下降法实现逻辑回归。 机器学习算法尝试根据训练数据(training data)使得表示算法行为的数学目标最大化,并 以此来进行预测或作出决定。机器学习问题分为几种,包括分类、回归
相关文章
相关标签/搜索