2019秋招面试题-机器学习部分

时间 2019-12-14

原文原文链接

1、TF-IDF

有不少不一样的数学公式能够用来计算TF-IDF。这边的例子以上述的数学公式来计算。词频 (TF) 是一词语出现的次数除以该文件的总词语数。假如一篇文件的总词语数是100个，而词语“母牛”出现了3次，那么“母牛”一词在该文件中的词频就是3/100=0.03。一个计算文件频率 (IDF) 的方法是文件集里包含的文件总数除以测定有多少份文件出现过“母牛”一词。因此，若是“母牛”一词在1,000份文件出现过，而文件总数是10,000,000份的话，其逆向文件频率就是 lg(10,000,000 / 1,000)=4。最后的TF-IDF的分数为0.03 * 4=0.12。html

某一特定文件内的高词语频率，以及该词语在整个文件集合中的低文件频率，能够产生出高权重的TF-IDF。所以，TF-IDF倾向于过滤掉常见的词语，保留重要的词语。算法

2、分类和回归的损失函数

https://www.cnblogs.com/houjun/p/8956384.html网络

分类：函数

一、 0-1损失 (zero-one loss).net

二、感知损失3d

三、cross entropyhtm

四、Logistic lossblog

*********************************************************************ci

回归：get

http://www.javashuo.com/article/p-pozeomef-gz.html

MSE: Mean Squared Error
均方偏差：是指参数估计值与参数真值之差平方的指望值;

RMSE
均方根偏差：是均方偏差的算术平方根

MAE :Mean Absolute Error
平均绝对偏差是绝对偏差的平均值
平均绝对偏差能更好地反映预测值偏差的实际状况.

SVM损失函数：hinge损失+w2正则

adaboost：指数损失

3、如何避免陷入鞍点（局部最小）

（一）以多组不一样参数值初始化多个神经网络，去其中偏差最小的做为结果

（二）使用“模拟退火”技术

　　模拟退火在每一步都以必定的几率接受比当前解更差的结果，从而有助于跳出局部最小值。在每次迭代过程当中，接受’“次优解”的几率要随着时间的推移而逐渐下降，从而保证算法稳定。

（三）使用随机梯度降低

　　每次随机选取一个样本进行梯度降低，在梯度降低时加入了随机因素。即使陷入了局部最小点，它计算出的梯度可能仍不为零，这样就有机会跳出局部最小继续搜索。