【校招面经】统计与几率基础 part1

注:如下是本人春招时看面经时收集的常见面试题,答案部分是由网上多个信息源整理而成,部分是我的解答。当时整理时只是本身看的,不少没有注明来源地址,后续有时间补上来源,若有侵权请告知。html

 

1、p值的含义面试

其实理解起来很简单,基本原理只有3个: 一、一个命题只能证伪,不能证实为真 二、在一次观测中,小几率事件不可能发生 三、在一次观测中,若是小几率事件发生了,那就是假设命题为假机器学习

证实逻辑就是:我要证实命题为真->证实该命题的否命题为假->在否命题的假设下,观察到小几率事件发生了->否命题被推翻->原命题为真->搞定。函数

结合这个例子来看:证实A是合格的投手-》证实“A不是合格投手”的命题为假-》观察到一个事件(好比A连续10次投中10环),而这个事件在“A不是合格投手”的假设下,几率为p,小于0.05->小几率事件发生,否命题被推翻。post

能够看到p越小-》这个事件越是小几率事件-》否命题越可能被推翻-》原命题越可信学习

---------------------ui

这个过程实际上和人脑的作判断的过程很类似.net

做者:吉米多维奇orm

连接:https://www.zhihu.com/question/23149768/answer/31704861htm

 

2、协方差和相关性有什么区别?

相关性是协方差的标准化格式。协方差自己很难作比较。例如:若是咱们计算工资($)和年龄(岁)的协方差,由于这两个变量有不一样的度量,因此咱们会获得不能作比较的不一样的协方差。

为了解决这个问题,咱们计算相关性来获得一个介于-1和1之间的值,就能够忽略它们各自不一样的度量。

 

3、相关系数与余弦类似度

数学公式:

两个向量(x1,x2,x3)(y1,y2,y3)

求内积a・b  =        cos <a, b> |a| |b|         = x1*y1+x2*y2+x3*y3

==========================================

有两个向量,咱们但愿定义它们是否是相关。一个很天然的想法,用向量与向量的夹角来做为距离的定义,夹角小,就“距离”小,夹角大,就“距离”大。

==========================================

step1:

两个向量的夹角的余弦,就叫作“相关系数”,cos <a, b> =(a・b)/|a||b|,写开了就是:

 

余弦=相关系数;内积=协方差

step2:

 

回到正题上来,我就简称cos和pearson吧。若是把向量中心化以后,这两个就是一个东西了,什么叫中心化,就是每一个数减去均值。这个要不要中心化有啥影响呢。就是这篇文章里的这个例子,好比两个用户对商品评价的变化趋势实际上是同样的,可是一个用户倾向于整体给低分,一个用户倾向于整体给高分,这时用cos可能就有问题了,这就是为何有人说计算cos的时候要先把数据中心化。

举个简单的例子帮助理解吧。好比有两个2维向量,x=(1, 2)和y=(3, 5),很明显y是由x经过线性变换获得的,pearson相关系数应该为1,可是这两个点确定不在一条过原点的直线上,所以它们夹角的cos确定不是1。可是中心化以后,x=(0.5, 0.5),y=(1, 1),这就在一条过原点的直线上了。

 

4、相关系数的快速计算

cov(x,y)=EXY-EX*EY

  协方差的定义,EX为随机变量X的数学指望,同理,EXY是XY的数学指望,挺麻烦的,建议你看一下几率论cov(x,y)=EXY-EX*EY

  协方差的定义,EX为随机变量X的数学指望,同理,EXY是XY的数学指望。

  举例:

  Xi 1.1 1.9 3

  Yi 5.0 10.4 14.6

  E(X) = (1.1+1.9+3)/3=2

  E(Y) = (5.0+10.4+14.6)/3=10

  E(XY)=(1.1×5.0+1.9×10.4+3×14.6)/3=23.02

  Cov(X,Y)=E(XY)-E(X)E(Y)=23.02-2×10=3.02

  此外:还能够计算:D(X)=E(X^2)-E^2(X)=(1.1^2+1.9^2+3^2)/3 - 4=4.60-4=0.6 σx=0.77

  D(Y)=E(Y^2)-E^2(Y)=(5^2+10.4^2+14.6^2)/3-100=15.44 σy=3.93

  X,Y的相关系数:

  r(X,Y)=Cov(X,Y)/(σxσy)=3.02/(0.77×3.93) = 0.9979

  代表这组数据X,Y之间相关性很好!

 

5、先验几率与后验几率

先验几率(prior)与后验几率(posterior)简称为先验和后验。这两个概念实际上是来自于贝叶斯定理,相信学过几率论的必定有所了解。在此试做简单介绍。 

以前提到的先验几率究竟是什么呢?,毫无疑问必须得与放在一块儿来介绍。一个先一个后,咱们确定是针对同一个事物才有前后之分,若是针对两个事物,前后不是没有意义了么?那这个共同的对象,就是咱们的参数θ。后验几率是指掌握了必定量的数据后咱们的参数分布是怎么样的,表示为p(θ|D);那先验就是在没有掌握数据后咱们的参数怎么分布。

看到这里,你可能会问:若是连数据都没有,我怎么知道个人参数是怎么分布的?你提出这个问题,就说明你是一个赤裸裸的频率派学家,你须要经过数据来获得你的参数!而这并非贝叶斯派的考虑,贝叶斯估计最重要的就是那个先验的得到。虽然你此次的一组数据,好比说扔三次硬币产生的序列是(110)这样分布的,可是其实我根据我历史的经验来看,一枚硬币正反面其实颇有多是按照均匀分布来的,只不过可能由于你抛得次数少了因此产生了不是均匀分布的效果。因此我要考虑我以往的经验在里面。

你可能又会问:那你这个均匀分布不就是彻底猜来的嘛,你怎么知道我此次是否是同样的硬币呢?没错!就是“猜来的”。先验在不少时候彻底是假设,而后去验证有的数据是否吻合先验猜测,因此这里的猜很重要。还要注意,先验必定是与数据无关的,你不能看到了数据再作这些猜测,必定是没有任何数据以前你就猜了一个参数的先验几率。

 

6、泰勒公式

https://www.zhihu.com/question/21149770/answer/68051674

 

7、Adjusted R square

Adjusted R square对模型复杂度进行惩罚,不然随着变量增长,R方都是增大的

 

8、最大熵模型

熵的概念在统计学习与机器学习中真是很重要,熵的介绍在这里:信息熵 Information Theory 。今天的主题是最大熵模型(Maximum Entropy Model,如下简称MaxEnt),MaxEnt 是几率模型学习中一个准则,其思想为:在学习几率模型时,全部可能的模型中熵最大的模型是最好的模型;若几率模型须要知足一些约束,则最大熵原理就是在知足已知约束的条件集合中选择熵最大模型。最大熵原理指出,对一个随机事件的几率分布进行预测时,预测应当知足所有已知的约束,而对未知的状况不要作任何主观假设。在这种状况下,几率分布最均匀,预测的风险最小,所以获得的几率分布的熵是最大。

例如,投掷一个骰子,若是问”每一个面朝上的几率分别是多少”,你会说是等几率,即各点出现的几率均为1/6。由于对这个”一无所知”的色子,什么都不肯定,而假定它每个朝上几率均等则是最合理的作法。 

从投资的角度来看,这是风险最小的作法,而从信息论的角度讲,就是保留了最大的不肯定性,也就是说让熵达到最大。

因此,最大熵原理也能够表述为在知足约束条件的模型集合中选取熵最大的模型。

 

9、正定与半正定矩阵

考虑矩阵的特征值。

若全部特征值均不小于零,则称为半正定。

若全部特征值均大于零,则称为正定。

 

10、条件熵

 

 

11、评估离散性的指标

1. 方差与标准差、平均差

2. 极差、四分位差

3. 变异系数:用于对比两个变量,去量纲了。在进行数据统计分析时,若是变异系数大于15%,则要考虑该数据可能不正常,应该剔除

 

 

12、偏度与峰度

偏度(Skewness)是描述某变量取值分布对称性的统计量。

若是是正太分布的话.偏度是 三阶中心距,值为0.

,Skewness=0     分布形态与正态分布偏度相同

Skewness>0     正误差数值较大,为正偏或右偏。长尾巴拖在右边。

Skewness<0     负误差数值较大,为负偏或左偏。长尾巴拖在左边。

计算公式:

Skewness=E[((x-E(x))/(\sqrt{D(x)}))^3] 

| Skewness| 越大,分布形态偏移程度越大。

 

峰度(Kurtosis)是描述某变量全部取值分布形态陡缓程度的统计量。

它是和正态分布相比较的。

Kurtosis=0       与正态分布的陡缓程度相同。

Kurtosis>0       比正态分布的高峰更加陡峭——尖顶峰

Kurtosis<0       比正态分布的高峰来得平台——平顶峰

计算公式:

Kurtosis=E[ ( (x-E(x))/ (\sqrt(D(x)))   )^4 ]-3   四阶中心距-3.

若是是正态分布,那么偏度,峰度均为0.

 

十3、最大后验几率

做者: @nebulaf91 

地址:http://blog.csdn.net/u011508640/article/details/72815981

最大后验估计(MAP-Maxaposterior):求p(D|$)*p($)取最大值的那个参数向量$,最大似然估计能够理解为当先验几率p($)为均匀分布时的MAP估计器。(MAP缺点:若是对参数空间进行某些任意非线性变换,如旋转变换,那么几率密度p($)就会发生变化,其估计结果就再也不有效了。)根据经验数据得到对难以观察的量的点估计。与最大似然估计相似,可是最大的不一样时,最大后验估计的融入了要估计量的先验分布在其中,可看作是规则化的最大似然估计。

最大似然估计是求参数θ, 使似然函数P(x0|θ)最大。最大后验几率估计则是想求θ使P(x0|θ)P(θ)最大。求得的θ不仅仅让似然函数大,θ本身出现的先验几率也得大。 (这有点像正则化里加惩罚项的思想,不过正则化里是利用加法,而MAP里是利用乘法)

 

 

 

十4、最大似然比

最大似然比分类法(maximum likelihood classifier)是常用的监督分类方法之一,它是经过求出每一个像素对于各种别的归属几率,把该像素分到归属几率最大的类别中去的方法。

最大似然法假定训练区地物的光谱特征和天然界大部分随机现象同样,近似服从正态分布,利用训练区可求出均值、方差以及协方差等特征参数,从而可求出整体的先验几率密度函数。当整体分布不符合正态分布时,其分类可靠性将降低,这种状况下不宜采用最大似然比分类法最大似然比分类法在多类别分类时,常采用统计学方法创建起一个判别函数集,而后根据这个判别函数集计算各待分像元的归属几率。

最大似然分类(maximumlikelihood classification ):在两类或多类判决中,用统计方法根据最大似然比贝叶斯判决准则法创建非线性判别函数集,假定各种分布函数为正态分布,并选择训练区,计算各待分类样区的归属几率,而进行分类的一种图像分类方法。 又称为贝叶斯(Bayes)分类法,是根据Bayes准则对遥感影像进行分类的。

最大似然分类(maximumlikelihood classification ):在两类或多类判决中,用统计方法根据最大似然比贝叶斯判决准则法创建非线性判别函数集,假定各种分布函数为正态分布,并选择训练区,计算各待分类样区的归属几率,而进行分类的一种图像分类方法。

在传统的遥感图像分类中,最大似然法的应用比较普遍。

最大似然分类

最大似然分类

该方法经过对感兴区域的统计和计算, 获得各个类别的均值和方差等参数,从而肯定一个分类函数,而后将待分类图像中的每个像元代入各个类别的分类函数, 将函数返回值最大的类别做为被扫描像元的归属类别,从而达到分类的效果。

遥感影像计算机自动识别与分类,就是利用计算机对地球表面及其环境在遥感图像上的信息进行属性的识别和分类,从而达到识别图像信息所相应的实际地物,提取所需地物信息的目的. 目前遥感影像自动分类主要是利用地物(或对象)在遥感影像上反映出来的光谱特征来进行识别与分类。

 

十5、联合分布、条件分布、边缘分布

from:https://blog.csdn.net/thither_shore/article/details/52192553

3.2 联合分布

  不少状况下,咱们对于几个变量同时的取值有关问题感兴趣,例如咱们须要知道事件“ lntellegence = high 且Grade= A”的几率。分析这样的事件,则须要考虑两个随机变量的联合分布(joint distribution)。下图为联合分布的一个例子。 

这里写图片描述

 

  上图表示了随机变量 I,D,G 的一个联合分布,其中包含3个变量,分别是:I(学生智力,有0和1两个取值)、D(试卷难度,有0和1两个取值)、G(成绩等级,有一、二、3三个取值)。故而这三个离散的随机变量共有 2×2×3=12 种联合分布状态。 

  上表中咱们能够读出系统取值为这 12 个联合分布状态中任一个的几率,例如:P(I=0,D=0,G=1)=0.126.

3.3 条件分布

   当对于一组随机变量,考虑其中某些变量取值特定值时,其他变量的分布是一种条件分布问题。能够看到,条件分布率就是在边缘分布率的基础上都加上“另外一个随机变量取定某值”这个条件。简单来讲,对于二纬离散随机变量有 

   P(X=xi|Y=yj)=P(X=xi,Y=yj)P(Y=yj) 

   为在 Y=yj 条件下 X 的条件分布率. (其中 i 为固定的),也称做该联合分布在 Y 上的条件分布。 

   

   回到 3.2 中例子来看,下图中表是几率的联合分布,表中随便去掉全部包含某个值的行,就能对分布表进行缩减。例如能够去掉全部 G 不为 1 的行,这样就只剩下了 一、四、七、10 行,这样他们的几率之和就不为 1 了,因此须要从新标准化(Renormalization),从而推得原联合分布在 G 上的条件分布4。如图为推导过程。 

这里写图片描述

 

  剔除无关取值(G 不为 1 的行) 

这里写图片描述

 

  标准化获得的值 

这里写图片描述

 

  即获得以前的联合分布在变量 Grade(g)上的条件分布为上图右边的表格。 

   

  反之也能够把全部含有某个值得行相加,这就是接下来要讲的边缘化(Marginalization)。由此可得3.2 中联合分布在变量 D 上的边缘分布以下图右表。 

这里写图片描述

3.4 边缘分布

  一旦定义了随机变量,咱们就能够在可以用 X 描述的事件上考虑分布。这个分布一般称为随机变量 X 的边缘分布(marginal distribution) ,记为 P(X) . 这时单独只考虑 X 的取值,与其它随机变量取什么值的几率无关了。 

   

  例如,3.2 中联合分布例子里,I 的边缘分布为: 

  P(I=0)=0.126+0.168+0.126+0.009+0.045+0.126. 

  P(I=1)=0.252+0.0224+0.0056+0.06+0.036+0.024.

3.5 一个例子区分三种分布

  为了不混淆三种分布的定义,这里举一个最简单的例子。设 X,Y 的联合分布以下

X|Y(横轴是Y的取值,纵轴是X的取值)

y1

y2

y3

P(X=xi)

x1

0.1

0.3

0.1

0.5

x2

0.2

0.2

0.1

0.5

P(Y=yj)

0.3

0.5

0.2

 

  即二者的边缘分布为

X

x1

x2

两个表格的分割线

Y

y1

y2

y3

 

0.5

0.5

两个表格的分割线

 

0.3

0.5

0.2

  在 Y=y1 的条件下,X 的条件分布为 

  P(X=x1|Y=y1)=P(X=x1Y=y1)P(Y=y1)=0.10.3=13. 

  P(X=x2|Y=y1)=P(X=x2Y=y1)P(Y=y1)=0.20.3=23.