最近遇到的问题，待整理

时间 2019-12-08

标签最近遇到问题整理繁體版

原文原文链接

介绍在PE的产筛算法针对本身的项目，上采样，下采样若是适用？
本身项目中，Pandas处理样本数据量(百万级）
是否熟练适用sql，我回答说大部分是用的mongodb
是否适用过度布式图计算，大数据平台
t test 如何解释
显著性检验，P value 如何解释
回归算法的假设条件
用过哪些基础算法？（逻辑回归，树模型，模型调参gird_search是默认都会的）
线性回归（广义的线性回归了解过吗?）(能够参考http://www.javashuo.com/article/p-cjrjvqrm-es.html为）
PCA降维的原理（线性代数的本质角度去理解或者按照知乎的文章去理解，此处须要整理）
随机森林中的feature importance是如何计算出来的（第一条连接解释的最为详细，能够参考 https://stats.stackexchange.com/questions/162162/relative-variable-importance-for-boosting，https://stackoverflow.com/questions/34218245/how-is-the-feature-score-importance-in-the-xgboost-package-calculated, http://www.javashuo.com/article/p-undiasof-gt.html ）(http://www.javashuo.com/article/p-bghajdgy-o.html, https://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm#giniimp)
- GBDT 中的feature importance （https://github.com/scikit-learn/scikit-learn/blob/master/sklearn/ensemble/gradient_boosting.py）
有没有了解过相应的计算方法？（我回答的按照gini系数或者信息增益，实际上是分支的时候的特征选择）
随机森林中的随机体如今哪些方面？Bootstrap 取样的方式？
甲乙两人掷硬币，谁先掷硬币的正面谁赢，问甲先掷硬币赢得几率?
论文中算法的复现能力，主要是code能力
特征工程（http://www.cnblogs.com/jasonfreak/p/5448385.html）
什么逻辑回归模型要使用 sigmoid 函数？
- 广义模型推导所得
- 知足统计的最大熵模型
- 性质优秀，方便使用（Sigmoid函数是平滑的，并且任意阶可导，一阶二阶导数能够直接由函数值获得不用进行求导，这在实现中很实用）
逻辑斯蒂回归常见的问题
- http://www.javashuo.com/article/p-efupxmyy-bx.html
  \[ \begin{array} { l } { \log i t ( \mathrm { x } ) = \ln \left( \frac { P ( \mathrm { y } = 1 | \mathrm { x } ) } { P ( \mathrm { y } = 0 | \mathrm { x } ) } \right) } \\ { = \ln \left( \frac { P ( \mathrm { y } = 1 | \mathrm { x } ) } { 1 - P ( \mathrm { y } = 1 | \mathrm { x } ) } \right) = \theta _ { 0 } + \theta _ { 1 } x _ { 1 } + \theta _ { 2 } x _ { 2 } + \ldots + \theta _ { m } x _ { m } } \end{array} \]
feature importance sklearn GBDT（gradient boosting decision tree 中feature importance 源码理解）

先计算出每棵decision tree中的特征重要性
而后特征在全部树中的重要性的平均值
计算每一个特征的相对重要性(归一化）