机器学习面试题准备

数据处理:如何处理缺失数据(missing value)? 各类处理方法有什么利弊?
数据处理:如何将描述变量(categorical variables)转为连续变量(continuous variables)?
如何处理有序变量?
如何处理无序变量?
数据处理:如何进行选择特征选择?如何进行数据压缩?
特征选择:包裹式,过滤式,嵌入式
数据压缩:主成分分析,自编码等
模型解释: 试解释什么是欠拟合与过拟合?如何应对这两种状况?
模型解释: 什么是误差与方差分解(Bias Variance Decomposition)?与欠拟合和过拟合有什么联系?
评估模型通常有什么手段?
分类模型评估方法?
回归问题评估方法?
数据不均衡的评估方法?
深度学习是否比其余学习模型都好?为何?
在只有少许的有标签数据的状况下,如何构建一个反保险欺诈系统?
若是面试者回答先用监督学习来作,那么咱们可能问:
这种状况下数据是不均衡的,你是采用过采样仍是欠采样?如何调整代价函数和阈值?
若是面试者提到了集成学习,那么也会追问一下问什么集成学习适合数据不平衡。
若是面试者回答用无监督学习,那咱们可能会问:
好比使用One-class SVM?那么咱们可能会追问一下SVM相关的问题,好比什么是最大间隔分类器啊什么是Kernel,如何选择Kernel等。
为何K-Means不适合异常值检测?K-Means和GMM是什么关系?是否能够用FMM来直接拟合异常值。
如何能够获得无监督学习中的分类规则?面试

  1. 让面试者有所收获 & 如何准备机器学习面试

面试不应是一场单纯的考试,在参加面试的过程当中,也是一个学习过程。抛砖引玉,对于机器学习的岗位面试我有几点小建议:算法

5.1. 根据岗位,准备一份项目策划书。
这个乍听下来有点虚,但我曾无数次使用这个小技巧获得良好的面试反馈和机会。假设你今天面试的岗位是我提到的保险公司的反诈骗组,那么若是你能够写一个如何使用机器学习进行反诈骗的项目策划书。这个过程对于面试者也是一个练习: a. 阅读论文和新闻收集材料的能力 b. 总结分析的能力 c. 总结的能力。

以我曾经面试过的一我的力资源相关的岗位为例,我准备了一份如何用机器学习来进行员工离职预测的策划书(中间省略掉了几页并马赛克处理了敏感的地方):
在策划书中,你能够分析项目需求,提出相关解法,并建议后续计划和列出相关文献。这样的行为不只可让雇主看到你的诚意,并看到你的的领域知识和独立分析问题能力。编程

在适当的时机(好比开始面试的时候或者谈到岗位职责的时候),你拿出准备好的策划书,开始谈你的思路。这种作法我曾作过几回,效果都很惊艳,由于反被动为主动,从被考察变成了讲解你所了解的知识。做为一个面试官,若是被面试者能作到这个程度,我会在心里对录取他比较有信心。机器学习

5.3. 确保本身对基本的概念有所了解
对基本的数据处理方法有所了解
对基本的分类器模型有所了解并有所使用(调包),大概知道什么状况使用什么算法较好
对基本的评估方法有所掌握,知道常见评估方法的优劣势
有基本的编程能力,可以独立的完成简单的数据分析项目
有基本的数据挖掘能力,能够对模型进行调参并概括发现函数

相关文章
相关标签/搜索