机器学习入门

原文转自:http://longriver.me/?p=23html

machine learning 的一点基本知识,三个基本元素:训练集(training set)、模型(model)、测试集(test set)。还记得数理统计上的线性回归吗?根据已有的数据,设定惩罚函数,对线性函数进行参数估计,获得的线性函数就是model,而后在测试集上验证model的预测准确性。很简单。当今互联网公司大量使用machine learning方法。python

最简单的例子,使用google搜索,输入china stroy,它会自动纠正你是否是搜索china story。后台的原理是:google储备了大量的先验数据(大量的文本),story出现几率远远大于stroy,并且和china一块儿出现的状况下,更是story占据了绝大多数,因此根据bayes估计,confidence大于某个阈值的话就会帮助用户自动纠错,这种纠错是很是靠谱的,由于创建在大量可靠的数据之上模拟google的spelling corrector其实只须要python短短的21行代码。http://norvig.com/spell-correct.html。其实当今的机器学习,主流是基于统计的,呵呵,用咱们的话通俗的讲就是数听说明一切,用事实说话,前车可鉴后事之师。机器学习

全文请到http://longriver.me/?p=23ide

相关文章
相关标签/搜索