算法问题

时间 2019-12-14

标签算法问题繁體版

原文原文链接

1.无监督和有监督算法的区别？表明性算法有哪些？

有监督学习：对具备标记的训练样本进行学习，以尽量对训练样本集外的数据进行分类预测。
无监督学习：对未标记的样本进行训练学习，以发现这些样本中的结构知识。

2. 什么是线性回归、逻辑回归、朴素贝叶斯

注意：逻辑回归和朴素贝叶斯是重点，线性回归更多用于数据分析岗位。算法

逻辑回归要点：逻辑回归是经过sigmoid函数使损失函数达到最小或者是似然函数达到最大经过相应的优化算法求出其中的参数值实现分类。（什么优化算法：了解过梯度降低的原理实现，sklearn包里solver中有个能够设置选择哪一个优化算法：lbfs、liblinear……）机器学习

朴素贝叶斯要点：贝叶斯算法是经过先验几率去得出后验几率的过程，先验即经验或者说是经过历史的大量数据得出的相关几率值，最终获得后验几率作出分类。函数

3. LR和线性回归的区别和联系？

逻辑回归以线性回归为理论支持。但线性回归模型没法作到sigmoid的非线性形式，sigmoid能够轻松处理0/1分类问题。post

逻辑回归：迭代求解学习

线性回归：直接求解大数据

4.LR和朴素贝叶斯有什么联系和区别？为何朴素贝叶斯如此“朴素”？

均可以处理分类问题，可是LR是让损失函数最小求解参数值，可用于推荐，朴素贝叶斯是基于特征之间相互独立的假设，更多用于文本分类。且数据量小的时候更多用朴素贝叶斯优化

由于它假定全部的特征在数据集中的做用是一样重要和独立的。正如咱们所知，这个假设在现实世界中是很不真实的，所以，说朴素贝叶斯真的很“朴素”搜索引擎

5. 什么是梯度降低？

要点：一种优化算法，经过迭代的方式使得目标函数或损失函数最小时求解相关参数值orm

涉及到的梯度降低相关知识：blog

（1）随机梯度降低

优势：能够必定程度上解决局部最优解的问题

缺点：收敛速度较慢

（2）批量梯度降低

优势：容易陷入局部最优解

缺点：收敛速度较快

（3）mini_batch梯度降低

综合随即梯度降低和批量梯度降低的优缺点，提取的一个中和的方法。

6.如何处理缺失值数据：

要点：处理的方法有两种，一种是删除整行或者整列的数据，另外一种则是使用其余值去填充这些缺失值。

在Pandas库，有两种颇有用的函数用于处理缺失值：isnull()和dropna()函数能帮助咱们找到数据中的缺失值而且删除它们。若是你想用其余值去填充这些缺失值，则能够是用fillna()函数。

7.什么是数据标准化，为何要进行数据标准化？

要点：数据标准化是预处理步骤，将数据标准化到一个特定的范围。

（将该值将去平均值后再除以标准差）。

要点：数据标准化可使得每一个特征的重要性更加均衡。

若是不进行数据标准化，有些特征（值很大）将会对损失函数影响更大（就算这个特别大的特征只是改变了1%，可是他对损失函数的影响仍是很大，并会使得其余值比较小的特征变得不重要了）。

8.你有一些和机器学习相关的项目吗

对于这个问题，你能够从你作过的研究与他们公司的业务之间的联系上做答。你所学到的技能是否有一些可能与他们公司的业务或你申请的职位有关？不须要是100％相吻合的，只要以某种方式相关就能够。这样有助于让他们认为你能够在这个职位上所产生的更大价值。

9.接触过推荐吗？知道推荐系统主要分为那两个方面吗？

基于内容的推荐和协同过滤推荐。

10.过拟合和欠拟合是什么？如何解决过拟合？

underfitting和overfitting的成因都是模型的复杂度和分类的关系。若是模型很简单，可是要分的类型不少就会产生欠拟合。好比要求用一条直线将数据分红10类。反之若是模型很复杂，可是分类很简单，就容易产生过拟合。（好比，有一个复杂度很高的非线性分类器，用来分类猫和狗。训练久了之后，可能会出现有几个长得像狗的猫和长得像猫的狗的个例都能被正确分类了。这时候你的模型极可能已通过拟合了，由于训练成这样的模型在遇到新的数据的时候，将样本错误分类的可能性很大。）

重点是过拟合

所谓过拟合（Overfit），是这样一种现象：一个假设在训练数据上可以得到比其余假设更好的拟合，可是在训练数据外的数据集上却不能很好的拟合数据。此时咱们就叫这个假设出现了overfit的现象。

过拟合产生的缘由：出现这种现象的主要缘由是训练数据中存在噪音或者训练数据太少。

解决方法：

一、增大数据量

二、减小feature个数（人工定义留多少个feature或者算法选取这些feature）

三、正则化（留下全部的feature，但对于部分feature定义其parameter很是小）

四、交叉验证，重采样评价模型效能，K折交叉验证

五、保留一个验证数据集检验

10. tf-idf用过吗？它的公式？

要点：TFIDF其实是：TF * IDF，一个TF，一个IDF

词频（term frequency，TF）指的是某一个给定的词语在该文件中出现的频率（一词语出现的次数除以该文件的总词语数）。

逆向文件频率（inverse document frequency，IDF）是一个词语广泛重要性的度量。某一特定词语的IDF，能够由总文件数目除以包含该词语之文件的数目。

假如一篇文件的总词语数是100个，而词语“母牛”出现了3次，那么“母牛”一词在该文件中的词频就是3/100=0.03。一个计算文件频率 (IDF) 的方法是文件集里包含的文件总数除以测定有多少份文件出现过“母牛”一词。因此，若是“母牛”一词在1,000份文件出现过，而文件总数是10,000,000份的话，其逆向文件频率就是 lg(10,000,000 / 1,000)=4。最后的TF-IDF的分数为0.03 * 4=0.12。

11. LR和SVM的区别和联系？

要点：联系，都是分类算法，

若是不考虑核函数，LR和SVM都是线性分类算法，也就是说他们的分类决策面都是线性的。

要点：损失函数不一样，

SVM 只考虑局部的边界线附近的点，LR 考虑全局，远离的点对边界线的肯定也起做用

在解决非线性问题时，SVM 采用核函数的机制，而 LR 一般不采用核函数的方法

线性 SVM 依赖数据表达的距离测度，因此须要先对数据作 normalization, LR 则不受影响。

12.对于处理的数据如何进行分词？

使用Jieba进行中文分词Jieba分词支持三种分词模式：精确模式，试图将句子最精确地切开，适合文本分析；全模式，把句子中全部的能够成词的词语都扫描出来, 速度很是快，可是不能解决歧义；搜索引擎模式，在精确模式的基础上，对长词再次切分，提升召回率，适合用于搜索引擎分词使用停用词库屏蔽停用词。