最近遇到的问题,待整理

  1. 介绍在PE的产筛算法针对本身的项目,上采样,下采样若是适用?
  2. 本身项目中,Pandas处理样本数据量(百万级)
  3. 是否熟练适用sql,我回答说大部分是用的mongodb
  4. 是否适用过度布式图计算,大数据平台
  5. t test 如何解释
  6. 显著性检验,P value 如何解释
  7. 回归算法的假设条件
  8. 用过哪些基础算法?(逻辑回归,树模型,模型调参gird_search是默认都会的)
  9. 线性回归(广义的线性回归了解过吗?)(能够参考http://www.javashuo.com/article/p-cjrjvqrm-es.html为)
  10. PCA降维的原理(线性代数的本质角度去理解或者按照知乎的文章去理解,此处须要整理)
  11. 随机森林中的feature importance是如何计算出来的(第一条连接解释的最为详细,能够参考 https://stats.stackexchange.com/questions/162162/relative-variable-importance-for-boostinghttps://stackoverflow.com/questions/34218245/how-is-the-feature-score-importance-in-the-xgboost-package-calculated, http://www.javashuo.com/article/p-undiasof-gt.html )(http://www.javashuo.com/article/p-bghajdgy-o.html, https://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm#giniimp)
  12. 有没有了解过相应的计算方法?(我回答的按照gini系数或者信息增益,实际上是分支的时候的特征选择)
  13. 随机森林中的随机体如今哪些方面?Bootstrap 取样的方式?
  14. 甲乙两人掷硬币,谁先掷硬币的正面谁赢,问甲先掷硬币赢得几率?
  15. 论文中算法的复现能力,主要是code能力
  16. 特征工程(http://www.cnblogs.com/jasonfreak/p/5448385.html
  17. 什么逻辑回归模型要使用 sigmoid 函数?
    • 广义模型推导所得
    • 知足统计的最大熵模型
    • 性质优秀,方便使用(Sigmoid函数是平滑的,并且任意阶可导,一阶二阶导数能够直接由函数值获得不用进行求导,这在实现中很实用)
  18. 逻辑斯蒂回归常见的问题
    • http://www.javashuo.com/article/p-efupxmyy-bx.html
      \[ \begin{array} { l } { \log i t ( \mathrm { x } ) = \ln \left( \frac { P ( \mathrm { y } = 1 | \mathrm { x } ) } { P ( \mathrm { y } = 0 | \mathrm { x } ) } \right) } \\ { = \ln \left( \frac { P ( \mathrm { y } = 1 | \mathrm { x } ) } { 1 - P ( \mathrm { y } = 1 | \mathrm { x } ) } \right) = \theta _ { 0 } + \theta _ { 1 } x _ { 1 } + \theta _ { 2 } x _ { 2 } + \ldots + \theta _ { m } x _ { m } } \end{array} \]
  19. feature importance sklearn GBDT(gradient boosting decision tree 中feature importance 源码理解)
  • 先计算出每棵decision tree中的特征重要性
  • 而后特征在全部树中的重要性的平均值
  • 计算每一个特征的相对重要性(归一化)

feature_importance

相关文章
相关标签/搜索