原文转自:http://longriver.me/?p=23html
machine learning 的一点基本知识,三个基本元素:训练集(training set)、模型(model)、测试集(test set)。还记得数理统计上的线性回归吗?根据已有的数据,设定惩罚函数,对线性函数进行参数估计,获得的线性函数就是model,而后在测试集上验证model的预测准确性。很简单。当今互联网公司大量使用machine learning方法。python
最简单的例子,使用google搜索,输入china stroy,它会自动纠正你是否是搜索china story。后台的原理是:google储备了大量的先验数据(大量的文本),story出现几率远远大于stroy,并且和china一块儿出现的状况下,更是story占据了绝大多数,因此根据bayes估计,confidence大于某个阈值的话就会帮助用户自动纠错,这种纠错是很是靠谱的,由于创建在大量可靠的数据之上模拟google的spelling corrector其实只须要python短短的21行代码。http://norvig.com/spell-correct.html。其实当今的机器学习,主流是基于统计的,呵呵,用咱们的话通俗的讲就是数听说明一切,用事实说话,前车可鉴后事之师。机器学习
全文请到http://longriver.me/?p=23ide