通常使用机器学习算法遵循的步骤

摘自《机器学习实战》,感受思路比较清晰算法

一,收集数据。可使用不少种方法收集样本数据,例如制做网络爬虫从网站上爬取数据,从RSS反馈或者API中获得信息,设备发送过来的实测数据(风速,血糖等)。网络

二,准备输入数据。获得数据以后,还必须确保数据格式符合要求,使用标准数据格式后能够融合算法和数据源,方便匹配操做。此外还须要为机器学习准备特定的数据格式,如某些算法要求特征值使用特定的格式,一些算法要求目标变量和特征值是字符串类型,而另外一些算法可能要求是整数类型。机器学习

三,分析输入数据。此步骤主要是人工分析之前获得的数据。为了确保前两步有效,最简单的方法是用文本编辑器打开数据文件,查看获得的数据是否为空值,此外还能够进一步浏览数据,分析是否能够识别出模式:数据中是否存在明显的异常值,如某些数据点与数据集中的其它值明显存在差别。经过一维,二维三维图形展现数据也是不错的方法。编辑器

  这一步主要做用是确保数据集中没有垃圾数据,若是产品化系统中使用机器学习算法而且算法能够处理系统产生的数据格式,或者咱们信任数据来源,能够直接跳过这一步。学习

四,训练算法。机器学习算法到这一步才是真正的开始学习。根据算法不一样,第四步和第五步是机器学习算法的核心。咱们将前两步获得的格式化数据输入到算法,从中抽取知识或信息。这里获得的知识须要存储为计算机能够处理的格式,方便后续步骤使用。测试

  若是使用非监督学习算法,因为不存在目标变量值,所以也不须要训练算法,全部与算法相关的内容都集中在第五步网站

五,测试算法。这一步将实际使用第四步机器学习获得的知识信息。为了评估算法,必须测试算法工做的效果。对于监督学习,必须已知用于评估算法的目标变量值,对于非监督学习,也必须用到其它的评测手段来检验算法的成功率。不管那种情形,若是不满意算法的输出结果,则能够回到第四步,改正并加以测试。问题经常会跟数据的收集与整理有关,这时就要跳到第一步从新开始。字符串

六,使用算法。将机器学习算法转换为应用程序,执行实际任务,以检验上述步骤是否能够在实际环境中正常工做,此时若是遇到新的数据问题,一样须要重复执行上述的步骤。产品

 

 

 

这些思路步骤能更好的规范本身,帮助造成本身的分析思路,也是一个把本身作了什么更加有调理说出来的方法!变量

相关文章
相关标签/搜索