为了测试机器学习算法的效果,一般使用两套独立的样本集:训练数据和测试数据。当机器算法
学习程序开始运行时,使用训练样本集做为算法的输人,训练完成以后输人测试样本。输人测试
机器学习
样本时并不提供测试样本的目标变量,由程序决定样本属于哪一个类别。比较测试样本预测的目标学习
变量值与实际样本类别之间的差异,就能够得出算法的实际精确度测试
2.spa
考虑使用机器学习算法的目的。若是想要预测目标变量的值,则能够选择监督学习算法,开发
不然能够选择无监督学习算法。肯定选择监督学习算法以后,须要进一步肯定目标变量类型,如变量
果目标变量是离散型,如是/否、1/2/三、― 冗或者红/黄/黑等,则能够选择分类器算法;若是目程序
标变量是连续型的数值,如0.0~ 100.00、-999~999或者+00~-00等,则须要选择回归算法。数据
若是不想预测目标变量的值,则能够选择无监督学习算法。进一步分析是否须要将数据划分
为离散的组。若是这是惟一的需求,则使用聚类算法;若是还须要估计数据与每一个分组的类似程
度,则须要使用密度估计算法。
3.开发机器学习应用程序的步骤
(1) 收集数据
(2) 准备输入的数据
(3) 分析输入的数据
(4) 训练算法