机器学习初体验

刚看《机器学习系统设计》,边看边理解造成了如下心得。
机器学习其实不是新的技术,前两年它的名字叫数据挖掘或预测分析。和统计学的关联很是大,统计学是研究现有的大量数据,来帮助人更好的理解数据。机器学习其实也是相似的过程。机器根据现有的大量训练数据,计算出指定特征的最优参数,获得模型,而后用测试数据对模型进行验证,验证符合必定的准确率条件就获得一个能够用于生产的模型。算法

概览

机器学习的处理对象是数据,这些数据通常从应用采集而来,采集的过程,机器学习是不关注的。机器学习的入口是就是采集到的一堆数据,通常还有对元数据的介绍和相关的背景知识。
前面说的比较抽象,这节用一张图来描述机器学习的主要工做流程。
clipboard.png数据结构

理解数据

有了元数据,只知道这些数据column的领域,但对数据的特色并不了解,因此第一步就是读取数据,让数据到程序的数据结构中来,经过工具咱们能够把玩数据,进而使用工具去分析数据的分布,掌握数据的特色,另外采集的数据中有些异常这也是很是正常的,清洗工做不可避免。
这个过程是一个反复的过程,须要经过屡次探索,才能对数据有必定深度的理解。机器学习

机器学习

机器学习部分并非彻底的机器去学,数据特征的识别、模型的肯定、算法的选择都是数据科学家要干的事情。选定算法后,咱们可能发现,初始的数据不能知足算法处理的须要。因此为适配算法可能还须要对数据进行提炼。
数据提炼的过程是体现数据科学家价值的美好时刻,一个简单算法在提炼后数据上的表现,可以超过一个复杂算法在原始数据上的效果。
而机器学习的机器部分,就是让机器根据数据科学家设定的路径进行处理,而后获得模型。这部分工做是比较适合机器去作的。工具

评估

一个模型好很差,评估条件很重要。评估每每和具体的场景有关,有时咱们比较关注处理效率,有时咱们更关注准确率,有时错误的判断对目标影响很大。好比垃圾邮件识别的场景,把一个正确邮件删除的影响要大于把错误的放过一个垃圾邮件的影响。学习

相关文章
相关标签/搜索