机器学习1

    机器学习主要由监督学习、无监督学习。算法

  监督学习主要用于解决分类和回归问题。机器学习

  无监督学习主要用于解决聚类问题。学习

  在机器学习过程当中主要有如下几个步骤:测试

  • 数据预处理
  • 特征工程
  • 数据建模
  • 结果评估

  首先介绍数据预处理,主要包括数据清洗、数据采样以及数据集的拆分三个部分。编码

  在数据清洗过程当中主要对各类脏数据进行对应方式的处理,力保数据的完整性、合法性、一致性、惟一性以及权威性。spa

  在数据集的拆分中,主要将数据集拆分为三部分,分别是训练集、预测集、验证数据集。其中验证数据集主要是为了在构建过程当中评估模型、提供无偏估计进而调整模型参数。而平常使用中经常使用的拆分方式为:留出法和k-折交叉验证法。两种方法使用时均须要采用互斥拆分。在使用留出法时须要注意拆分保持先后数据的分布一致,避免划分过程当中引入额外误差致使结果产生影响。k-折交叉验证法将数据分为大小类似的k个互斥子集,并尽可能保持每一个本身数据分布的一致性,从而能够获取k组训练-测试集。.net

  其次是特征工程的讲解。主要包括特征编码、特征选择、特征降维以及规范化几个方面。blog

  特征编码是对数据集中出现的字符串信息转换为数值形式。one-hot编码采用N位寄存器的方法对N个状态进行编码。例如,性别属性包括男、女两个值,对其进行编码,0表明男生、1表明女生。语义编码是采用词潜入的方式,词嵌入信息能够编码语义信息,生成特征语义表示。使用语义编码能够体现数据间的语音关系。例如http://www.sohu.com/a/129290647_473283TensorFlow自动句子语义编码,谷歌开源机器学习模型 Skip-Thoughts继承

  特征选择主要包括过滤法、包裹法和嵌入法。ip

  特征降维。特征降维能够减小特征属性的个数,确保特征属性之间是相互独立的。并且过多的特征属性会妨碍模型查找规律。好比一个模型中有多个属性,分别是性别、年龄、名字、收入、婚否等多个属性,可是咱们接下来要对数据中的男女进行分类的话,只须要考虑性别便可,其他属性便可剔除,这就是达到了数据降维的目的。机器学习中经常使用的降维方法为PCA、LDA

  规范化主要是将数据标准化、进行区间缩放或者进行归一化。

  数据建模

  根据所需解决的问题,进行判断,问题是属于分类问题、回归问题仍是聚类问题。断定好问题类型,选择合适的算法来针对问题具体解决。

  对于分类问题,主要有如下几个算法:决策树、贝叶斯、支持向量机、逻辑回归和继承学习等

  对于回归问题有:线性回归、岭回归等

  对于聚类问题有:K-means、高斯混合聚类、层次聚类以及密度聚类等

  最后进行结果评估。

  评估指标有不少,若是是有监督学习的话,仅仅根据测试机的预测准确率是远不够的,能够参考:https://blog.csdn.net/zk_ken/article/details/82013289

相关文章
相关标签/搜索