机器学习---那些不得不说的概念

时间 2019-12-04

标签机器学习那些不得不说概念繁體版

原文原文链接

一、回归模型与分类模型有哪些相同点和异同点?算法

　　回归问题一般是用来预测一个值,是对真实值的一种逼近预测数组

　　分类问题是用于将事物打上一个标签，一般结果为离散值。分类并无逼近的概念，最终正确结果只有一个，错误的就是错误的数据结构

　　相同点：都属于监督学习，都有特征和标签dom

二、pandas中loc iloc 区别？机器学习

　　loc 基于行标签和列标签名称（x_label、y_label）进行取值，包含头尾；模块化

　　iloc 基于行索引和列索引（index，columns）取值，支持切片操做，包含头不含尾。函数

三、k-means的参数有哪些？init 、 n-clusters 、最大迭代次数、n-init、课件020工具

　　# init='k-means++':初始聚类中心(尽量远)，也是默认值性能

　　# init：有三个可选值：’k-means++’， ‘random’，或者传递一个ndarray向量。单元测试

　　# 此参数指定初始化方法，默认值为 ‘k-means++’

　　# n_clusters：整形，缺省值=8 （生成的聚类数，即产生的质心（centroids）数）

　　# n_init：整形，缺省值=10 ，用不一样的质心初始化值运行算法的次数，选出最优结果。

四、ROC曲线有哪4个点？四个点表明着什么？

　　点(0,1)：即FPR=0, TPR=1，意味着FN＝0且FP＝0，将全部的样本都正确分类。

　　点(1,0)：即FPR=1，TPR=0，最差分类器，避开了全部正确答案。

　　点(0,0)：即FPR=TPR=0，FP＝TP＝0，分类器把每一个实例都预测为负类。

　　点(1,1)：分类器把每一个实例都预测为正类。

　　总之：ROC曲线越接近左上角，该分类器的性能越好。并且通常来讲，若是ROC是光滑的，那么基本能够判断没有太大的 overfitting

五、什么是adboost

　　提高模型的效果，对决策树而言，防止过拟合

　　强分类/回归器(可作回归和分类)

六、列举五种数据预处理方法？

　　均值移除、范围缩放、归一化、二值化、独热编码

七、列举出两种聚类算法？

　　① 层次聚类算法简

　　② DBSCAN聚类算法

　　③ K-Means聚类算法

八、什么是网格搜索，什么是交叉验证？

　　网格搜索：也叫穷举搜索：在全部候选的参数选择中，经过循环遍历，尝试每一种可能性，表现最好的参数就是最终的结果。其原理就像是在数组里找最大值。

　　交叉验证：就是重复的使用数据，把获得的样本数据进行切分，组合为不一样的训练集和测试集，用训练集来训练模型，用测试集来评估模型预测的好坏。在此基础上能够获得多组不一样的训练集和测试集，某次训练集中的某样本在下次可能成为测试集中的样本，即所谓“交叉”。目的是为了让模型评估更加准确可信

九、什么是凝聚层次聚类？什么是分裂层次聚类

　　层次聚类，顾名思义，就是一层一层的进行聚类。层次聚类算法有两种：自下而上的算法和自上而下的算法。

　　凝聚层次聚类算法：在自下而上的算法中，刚开始每一个数据点（即每一个叶子）都被当作一个单独的集群，而后将这些集群不断的合并，直到全部的集群都合并成一个巨型集群，这种自下而上的合并算法也叫作凝聚层次聚类算法。

　　分裂层次聚类算法：在自上而下的算法中，刚开始全部的叶子被当作一个巨型集群，而后对这个集群进行不断的分解，直到全部的集群都变成一个个单独的数据点，即巨型集群被分解成单独的叶子节点，这种自上而下的的分解算法也叫作分裂层次聚类算法。

十、解释正阳性,假阴性,正阴性,假阳性.　　

　　TP 正阳性：预测为正，实际也为正

　　FP 假阳性：预测为正，实际为负

　　FN 假阴性：预测为负，实际为正

　　TN 真阴性：预测为负，实际为负

十一、解释一下评分指标的基本概念，各类模型使用的评分指标

　　评价一个模型好坏的标准。

　　分类模型的评估指标：准确率（Accuracy）、精确率（Precision）、召回率（Recall）、 F1值（F1-Measure）、混淆矩阵、ROC曲线。

　　拟合的评估指标：平均绝对偏差MAE、平均平方偏差MSE、解释方差分R2。

　　聚类模型的评估指标：轮廓系数。

十二、解释召回率,F1值,准确率,精确率

　　准确率：对于给定的测试集，分类模型正确分类的样本数与总样本数之比。

　　精确率：对于给定测试集的某一个类别，分类模型预测正确的比例，或者说：分类模型预测的正样本中有多少是真正的正样本。

　　召回率：对于给定测试集的某一个类别，样本中的正类有多少被分类模型预测正确。

　　F1值：表明精确率和召回率的权重是同样的，是最经常使用的一种评价指标。

1三、Mean-shift（均值迁移）的基本思想

　　Mean-shift（即：均值迁移）的基本思想：在数据集中选定一个点，而后以这个点为圆心，r为半径，画一个圆(二维下是圆)，求出这个点到全部点的向量的平均值，而圆心与向量均值的和为新的圆心，而后迭代此过程，直到知足一点的条件结束。

1四、Ndarray的矢量、矢量化

　　矢量：即有大小又有方向

　　矢量化：图形处理，压缩图像

1五、经常使用的分类器：

　　SGD分类器、决策树、朴素贝叶斯分类器 (也均可以作回归)

1六、简述朴素贝叶斯

　　朴素贝叶斯的朴素，并非简单的意思，而是指样本的特征之间是相互独立的

　　朴素贝叶斯的优势：1.有稳定的分类效率，2.对小规模数据表现很好，能处理多分类任务，适合增量式训练，尤为是数据量超出内存是，能够一批一批的增量驯良。3.对缺失数据不太敏感，算法比较简单，经常使用语文本分类

　　朴素贝叶斯的缺点：1.不知足独立性条件的数据集上，效果欠佳，2.须要先知道先验几率，先验模型不少时候取决于假设，所以某些时候会因为假设的先验模型的元婴致使预测效果不佳，3.因为经过先验和数据来决定后验的几率从而决定分类，因此分类决策存在必定的错误率

1七、什么是先验几率，什么是后验几率

　　先验几率：也叫先验分布，根据以往经验和分析获得的几率

　　后验几率：也叫后验分布，根据结果估计缘由的几率

1八、kmeans的优势和缺点

　　kmeans：优势：简单快速，对于大数据集，可伸缩性高效率，对于密集型数据，效果很是好
　　缺点：必须事先给出k值，不适用于非密集型数据集，对噪声和孤立点数据比较敏感

1九、什么是pandas

　　Pandas是一个强大的分析结构化数据的工具集，基于NumPy构建，提供了 高级数据结构 和 数据操做工具，它是使Python成为强大而高效的数据分析环境的重要因素之一。

基础是NumPy，提供了高性能矩阵的运算
提供了大量可以快速便捷地处理数据的函数和方法
应用于数据挖掘，数据分析
提供数据清洗功能

20、什么是正太分布与标准正太分布

正太分布：也叫（高斯分布Gaussian distribution），是一种随机几率分布

标准正太分布：指望为0，标准差为1的正太分布

2一、描述Anocanda 、pycharm 、Jupyterlab 、JupyterNoteBook之间的区别？

　　Anaconda是一个开源的包、环境管理器，能够用于在同一个机器上安装不一样版本的软件包及其依赖，并可以在不一样的环境之间切换PyCharm是一种Python IDE，带有一整套能够帮助用户在使用Python语言开发时提升其效率的工具，好比调试、语法高亮、Project管理、代码跳转、智能提示、自动完成、单元测试、版本控制。

　　Jupyter Notebook 是一个款以网页为基础的交互计算环境，能够建立Jupyter的文档，支持多种语言，包括Python, Julia, R等等。普遍用于数据分析，数据可视化和其余的交互和探索性计算中。

　　JupyterLab 是包括了Notebook的下一代用户界面。有模块化的界面，能够在同一个窗口同时打开好几个notebook或文件（HTML, TXT, Markdown等等），都以标签的形式展现，因而就更像是一个IDE。

2二、过拟合和欠拟合？

过拟合指的是referstoa模型对于训练数据拟合程度过当的状况。

欠拟合指的是模型在训练和预测时表现都很差的状况。

泛化便是，机器学习模型学习到的概念在它处于学习的过程当中时模型没有碰见过的样本时候的表现。