【校招面经】阿里巴巴_数据分析岗_面试笔试题

时间 2019-12-05 标签校招面经阿里巴巴数据分析面试笔试

（注：如下题目主要来自牛客网等论坛，解答由我的解答，可能会出现错误，并不是标准答案，欢迎你们进行讨论）python

1. 请说明随机森林较通常决策树稳定的几点缘由git

1）bagging的方法，多个树投票提升泛化能力算法

2）bagging中引入随机（参数、样本、特征、空间映射），避免单棵树的过拟合，提升总体泛化能力sql

2. 什么是聚类分析？聚类算法有哪几种？请选择一种详细描述其计算原理和步骤。python2.7

1）聚类分析是一种无监督的学习方法，根据必定条件将相对同质的样本归到一个类总工具

2）聚类方法主要有：性能

a. 层次聚类学习

b. 划分聚类：kmeans优化

c. 密度聚类网站

d. 网格聚类

e. 模型聚类：高斯混合模型

3）k-means比较好介绍，选k个点开始做为聚类中心，而后剩下的点根据距离划分到类中；找到新的类中心；从新分配点；迭代直到达到收敛条件或者迭代次数。优势是快；缺点是要先指定k，同时对异常值很敏感。

3. 根据要求写出SQL

表A结构以下：

Member_ID（用户的ID，字符型）

Log_time（用户访问页面时间，日期型（只有一天的数据））

URL（访问的页面地址，字符型）

要求：提取出每一个用户访问的第一个URL（按时间最先），造成一个新表（新表名为B，表结构和表A一致）

create table B as select Member_ID, min(Log_time), URL from Agroup byMember_ID

4. 销售数据分析

如下是一家B2C电子商务网站的一周销售数据，该网站主要用户群是办公室女性，销售额主要集中在5种产品上，若是你是这家公司的分析师，

a) 从数据中，你看到了什么问题？你以为背后的缘由是什么？

b) 若是你的老板要求你提出一个运营改进计划，你会怎么作？

表以下：一组天天某网站的销售数据

（没有表，因此略）

5. 用户调研

某公司针对A、B、C三类客户，提出了一种统一的改进计划，用于提高客户的周消费次数，须要你来制定一个事前试验方案，来支持决策，请你思考下列问题：

a) 试验须要为决策提供什么样的信息？

b) 按照上述目的，请写出你的数据抽样方法、须要采集的数据指标项，以及你选择的统计方法。

a) 试验要能证实该改进计划能显著提高A、B、C三类客户的周消费次数。

b) 根据三类客户的数量，采用分层比例抽样，而后灰度。

须要采集的数据指标项有：客户类别，改进计划前周消费次数，改进计划后周消费次数；选用统计方法为：分别针对A、B、C三类客户，进行改进前和后的周消费次数的，两独立样本T-检验。

（不知道这算不算事前实验。若是不执行行为直接分析的话，那分析行为应该是在提出改进方案前进行的）

6. 观测宇宙中单位体积内星球的个数，属于什么分布：

A 学生分布：小样本量下对正态分布的均值进行估计

B 泊松分布：某段时间内，事件发生的几率。也能够认为是n很大p很小的二项分布。

C 正态分布：多组（屡次独立重复实验下的随机变量的均值）

D 二项分布：屡次抛硬币的独立重复试验

把体积当作时间，那么本题符合B泊松分布。

7. 一些关于数据挖掘说法是正确的

A 数据挖掘是万能的（错）

B 若是你创建了一个database，那就意味着你已经有足够的数据能够作数据挖掘了（错）

C 数据挖掘=数据+算法，数据挖掘人员大部分的时间用来处理复杂的挖掘算法（错，业务上的时间大部分在调研和沟通需求，技术上大部分时间在清洗数据）

D ABC均有错（√）

8. 已知随机变量X,Y分别服从泊松分布P(S),卡方分布X2(t)，E(X)=4,D(Y)=9,则参数s,t分别：

A 2,9

B 4,9

C 4,4.5（√）

D 2,4.5

9. 下面算法中哪种不属于广义线性回归算法

A 生存模型算法（如Cox比例风险回归，属于）

B beta回归算法（属于）

C logit回归算法（属于）

D 判别分析算法（如线性判别分析LDA，不清楚是否属于）

10. 有一列1000万淘宝买家的淘宝运费险保费数据，要计算该列数据的P1-P100分位数，可以使用哪一个SAS语句？

A proc sort

B proc rank

C proc univariate（√）

D proc freq

11. X服从区间（2，6）上的均匀分布，求对X进行3次独立观测中，至少有2次的观测值大于3的几率

A 0.84375（√）

B 0.75275

C 0.65275

D 0.80370

12. 下面对于“预测变量间可能存在较严重的多重共线性”的论述中错误的是？

A 回归系数的符号与专家经验知识不符（对）

B 方差膨胀因子（VIF）<5（错，大于10认为有严重多重共线性）

C 其中两个预测变量的相关系数>=0.85（对）

D 变量重要性与专家经验严重违背（对）

13. 因为淘宝买家消费数据是亿级别，假设为了快速计算买家每个月的平均消费额，采用抽样1W个买家来计算

A 采用分层抽样方法把全量淘宝买家按照星级，每层抽取相同的数量，计算平均值（要求的是总的分布，分层抽样每层抽同样的把分布改变了）

B 采用系统抽样方法，把全量买家随机排序，每隔必定数量抽一个，计算平均值（√）

C 采用无放回随机方法，从全量买家中随机挑选一个买家，不放回，如此循环（√）

D 采用有放回随机方法，从全量买家中随机挑选一个买家，而后再放回，如此循环（理论上会改变样本分布，虽然很小）

14. 请找出数列4，9，23，60，157的下一项（）

A 411（√）

B 314

C 425

D ABC均错

60*3-23=157,157*3-60=411

15. 如下哪一个语法不是R的基础语言

A proc glot（这个是sas）

B select *from table（这个是sql）

C kc<-kmeans(data,3)（是R）

D print ”hello world”（这个是python2.7）

E sd<-summary(data)（是R）

F import（python有，R不知道有没有）

16. 分析师在工做中的良好习惯是

A 将工做空间的密码共享给别人

B 将数据下载到私人电脑进行分析处理

C 在处理资源高峰期提交大任务运算

D 不按期地将分析报告分享给团队（√）

E 按期清理存储空间

F 固化平常须要分析的数据表方便计算（√）

17.

18.

A 错，只表示没有存在线性相关性。

B 错，余弦互信息等也能够

C 对

D 对

E 错，若是A==C

F 错

19.

A 错，只须要是正态分布，不须要是标准正态分布

B 对

C 对

D 错

F 对

G 错，变大

20. 请分析淘宝消费者的流失状况

1）明确问题：某时间段淘宝消费者为何流失（须要先定义好流失）

2）两层模型定位问题：按用户画像、时间、来源渠道等分群，计算每一个群体的流失率，肯定究竟是哪些群体超出天然流失率了

3）分析缘由：这里流失率指标不须要拆解，所以直接分析缘由

a. 内部：发生流失率变化的时候是否进行了什么行为，技术、产品、运营、营销仍是大的定位发生变化？细分

b. 外部：PEST等方法，政策环境、竞争对手、经济趋势、消费偏好、技术变化

21. 淘宝和天猫上天天都有大量的用户在线上购买，做为分析师能够从哪些角度对用户进行分析，说明理由

1）首先仍是明确此次分析的目标：提升GMV？了解某个指标异动？了解用户消费心理？支持某次产品改版或者是运营活动？

2）因此这一题问的实际是能够从哪些维度进行分析。大的方向说，线上购买行为是用户-商品交互，用户这边有用户属性、行为偏好，商品方面有商品、商家、品牌等。加上淘宝平台，所以有三种角色：

a. 用户

b. 商家

c. 平台

分别思考三种角色所关心的问题，而后考虑咱们的数据是否有能支持分析的信息，最后再考虑分析方法

22.

方法1：

1）第一次随机获得state，[1,4]做为0，[5,8]做为1,[9]从新来

2）第二次随机获得count，[1,5]做为count，[6,9]从新来

3）随机结果为 5*state+count

23.

select shop_id from t group by shop_id having min(month_amount) > 10000

24. 已知A商家近五年每个月的成交数据，请列出两种不一样的时间序列预测模型能够用来预测商家接下来三个月的成交，并详细阐述在使用每一种方法前须要对数据进行什么预处理以及具体方法

1）自回归模型：包括AR、MA、ARMA、ARIMA模型。

a. 须要先检验数据的平稳性，若是不平稳，须要经过差分、取对数等方式先让数据平稳（ARMA、ARIM的参数调整）

2）指数平滑法：包括单指数平滑、双指数平滑、霍尔特指数平滑等

（本人对时间序列模型掌握不深，后续深刻学习后再补充答案）

25. 你理解中的分析师是什么样的？你以为本身目前应聘分析师职位的优点是什么？并说明理由。

略。

26. 异常值是指什么？请列举1种识别连续型变量异常值的方法？

1）异常值是指样本中的个别值，其数值明显偏离所属样本的其他观测值。

2）识别连续性变量异常值的方法：

a. 拉依达准则法：认为值的分布符合正态分布，所以大于均值上下3个标准差的认为是异常值。简单可行，但因为经过观测到的标准差认为是整体标准差，所以样本不能太少

b. Grubbs test：设该样本为x1，x2，x3，…，xn，当xj服从正态分布时，计算其均值`X及标准差σ。为了检验xi ( i=1，2，…，n) 中是否存在异常值，将xi按大小顺序排列成顺序统计量x(i)，即：x (1)<x (2)<…<x (n),而后计算统计量g(1)=(`X-x(1))/σ和g(n)=(x(n)-`X)/σ。对于统计量g(1) 和g(n)，Crubbs导出了其统计分布，并给出了当显著度a 为0. 05或0.01时的临界值。当统计量g(1)和g(n)大于临界值时，则认为x(1)、x(n)可疑，应予以剔除

c. 该准则采用极差比的方法，可获得简化而严密的结果。设样本为x1，x2，x3，…，xn，其顺序统计量为：x (1)<x (2)<…<x (n)。　这里x (1)为最小值，x (n)为最大值，当顺序统计量x (i)服从正态分布时，Dixon给出了不一样样本数量n时统计量D的计算公式。当显著水平α为0.05或0.01时，Dixon给出了其临界值D1-α(n)。若是某样本的统计量D>D1-α(n)，则x(n)为异常值，若是某样本的统计量D′> D1-α(n)，则x(1)为异常值，不然为正常值

d. 未知整体标准差σ，在五种检验法中，优劣次序为：t检验法、格拉布斯检验法、峰度检验法、狄克逊检验法、偏度检验法

27. 经常使用降维的方法

1）PCA与因子分析

2）LDA

3）流形法：LLE（局部线性嵌入）、拉普拉斯特征映射、ISOMAP

4）自动编码机抽特征

5）SVD

6）树模型抽特征

7）embedding

28. 如何评价一个评价指标的性能？

这里不太理解题意，是指评价评价指标的性能么？好比说在某种场景下，使用AUC做为评价指标好仍是F1做为评价指标好，如何定义这个好？

29. logistic的优化方法

这里理解题意为如何优化LR的效果。

1. 引入非线性（能为模型引入非线性信息；onehot还能提升LR计算能力；同时还能处理缺失值特征；还能提升对异常值的鲁棒性）

1）特征分箱+onehot

2）特征项引入n次方

2. 处理共线性特征

1）计算特征间的pearson或者互信息，将类似的特征剔除

2）GBDT+LR，用树模型构造特征，能获得组合特征信息，并避免原始特征中的共线性问题

3. 特征标准化，样本归一化

4. 去异常值

30. 某地区重男轻女，因此人们生孩子要一直生到获得一个男孩为止，如今的男女比例是1:1，那么若干年后，男女比例是多少？

1比1。

31. 有A,B,C三个门，三个门后面随机站着高矮不一样的三我的，问题是，你依次打开三个门，那么在什么时刻，你说一句什么话，能够推断出最高的那我的所站在那一扇门后面的几率最大。

看不懂题意，是否说话会获得反馈，以及是否会获得正确反馈。

32. 预测一下下个月的淘宝销售状况，你从那几个方面去分析？

1）思考：淘宝很大，若是用总体数据算的话会忽略了不少类目变化的信息；若是细分到很小的类目，那么数据波动较大，预测不许确。所以须要先肯定一个细分的范围，一方面能涵盖类目的信息，一方面数据要比较稳定（如一阶差分知足正态分布等）

2）分析：

a. 从数字到数字法：直接用以前的数据，创建时间序列模型，预测下个月的淘宝销售数据，加总后获得销量

b. 分解法：因为淘宝销售会受到季节与节日的影响，所以直接从数字到数字模型的预测能力有限。分解销售数据，销量 = 流量 * 转化率（太细分了的话工做量太大），参考以往数据和下个月的实际状况（若有双十一等），对流量和转化率进行预估，加总后获得销量

33. 淘宝办了一次促销活动，从哪些方面来评价此次活动是否成功，结合支付宝来考虑了这个问题

1）明确目标：拉新？促活？提客单？

2）根据目的肯定核心指标

3）效果评估：

a. 自身比较：活动前与活动中比较

b. 与预约目标比

c. 与同期其它活动比

d. 与往期同类活动比

4）持续监控：

a. 检查活动后状况，避免透支消费状况发生

b. 若是是拉新等活动，根据后续数据检验这批新客的质量

34. 柴静的穹顶之下前段时间很火，你来分析一下为何能这么火？

1）明确问题：“火”这里有三个方面：

a. 微博上传播大

b. 媒体曝光量大

c. 线下传播与讨论多

2）分析缘由（对（1）中abc三种状况分别分析，先用a举例）：

传播能力 = 初始曝光能力 * 裂变能力

初始曝光能力是因为柴静自身有巨大的曝光能力，裂变能力是由于信息知足了传播者的需求。对传播者需求进行分析：

a. 内部：信息对传播者有影响（价值、震撼、鼓动等）、信息传播对传播者有利（内在想警醒别人、外在的社会形象、参与社会讨论等）

b. 外部：PEST

35. 是聊项目，主要围绕三个方面：（1）数据（2）模型（3）效果，还有在作项目过程当中最大的挑战在哪里，怎么解决的。

略。

36. 如下算法对缺失值敏感的模型包括：

A、Logistic Regression （√）

B、随机森林

C、朴素贝叶斯

D、C4.5

37. 找出数列2，5，13，34，89，…的下一项：

A、233 B、144 C、267 D、ABC均错误

选A。2*3-1=5, 5*3-1=13，13*3-5=34,34*5-13=89

38. 某人卖掉了两张面值为30元的电话卡，均是30元价格成交的，其中一张赚了20%，其中一张赔了20%。问他整体是盈利仍是亏损，赢/亏多少？

A、不盈不亏

B、盈利2.5元

C、亏损2.5元（√）

D、盈利2元

39. 如下场景中，对应使用的挖掘算法不合适的是：

A、用关联规则算法分析购买了羽毛球的买家，是否适合推荐羽毛球鞋（对）

B、根据用户最近几年的消费金额数据，用主成分分析法你何处用户将来一个月可能的消费金额公式（错，PCA用于降维）

C、根据用户最近一年的购物日志数据，用K-means算法聚类出淘宝卖家中的高富帅和白富美（对）

D、根据用户最近购买的商品信息，用决策树算法识别出淘宝买家多是男是女（对）

40. 投掷均匀正六面体骰子的熵是：

A 1bit

B 2.6bit（√）

C 3.2bit

D 3.6bit

H = -(6 * (1/6 * log(1/6) ) = 2.6

41. 某调查公司接受委托满意度调查，满意分数在0~20之间，随机抽取36名消费者，平均满意分12，标准差3，在大样本的假设下，根据调查结果对整体平均的置信区间，结果是：

A、9~15分

B、11~13分

C、12~14分

D、6~18分

95%置信区间是上下2个标准差，99%置信区间是上下3个标准差。

42. 市场部选择部分用户来进行产品A的短信推广，获取了用户在时间窗口内是否购买了A产品的数据。数据挖掘同窗经过这些已知的是否购买数据，用来判断其余用户的购买倾向，这在数据挖掘中属于什么任务？

A、聚类

B、预测（√）

C、探索性分析

D、关联规则

43. 如何将一个EXCEL文件单元格C2中的手机号13501245678的第四位至第七位隐藏为*

A、=replace(C2,4,4,**)

B、=replace(C2,4,4,”**“) （√）

C、=replace(C2,4,7,”**“)

D、=replace(C2,4,7,**)

44. 逻辑回归中回归参数能够用如下哪些方法求解？

A、最小二乘法（√）

B、牛顿迭代法

C、蒙特卡洛法

D、似然估计法（√）

45. 微软的EXCEL软件是强大的数据分析工具，以入门简单、扩展功能强大、可视化丰富著称，其中EXCEL图表是数据分析师最经常使用的用于展示分析结果的工具，EXCEL图表选择描述正确的有：

A 折线图用来展示数据随着时间推移而发生变化，并能够预测将来的发展趋势（√）

B 散点图用来讲明同一类别的数个事物中各项的组成比重，或者某一事物随着时间推移其各个组成的比重变化（×）

C、饼图主要用来分析内部各个组成部分的占整体的比重，反映对整体的影响（√）

D、雷达图主要是对同类别的二组事物在多种项目上的对比（√）

46. 印象最深入的项目，说说为何

略。

47. 考察SQL语句：

有一张交易表A（trade_no为主键），一张交易异常表B(trade_no为主键)，

1）计算交易表A中的交易总数

2）经过关联表的方式实现A表中去除B表异常交易（保留A中的字段便可）：select * from A where trade_no not in (select trade_no from B)

48. 某业务部门在上周结束了为期一周的大促，做为业务对口分析师，须要你对活动进行一次评估，你会从哪几方面进行分析

1）肯定大促的目的：拉新？促活？清库存？

2）根据目的肯定核心指标

3）效果评估：

a. 自身比较：活动前与活动中比较

b. 与预约目标比

c. 与同期其它活动比

d. 与往期同类活动比

4）持续监控：

a. 检查活动后状况，避免透支消费状况发生

b. 若是是拉新等活动，根据后续数据检验这批新客的质量

49. 世界上每十万人中就有一人是艾滋病患者。某一种药物能够帮助检测艾滋病，若是一人真是艾滋病，能够百分百检测出来，而若是一我的没有艾滋病，它的检测出错的几率是1%。请问利用这种检测药物，监测正确的几率有多高？

全几率问题，设艾滋患病为A，无患病为B；检测结果艾滋为a，非艾滋为b，那么 P(a|A)=1, P(a|B)=0.01。

检测正确的几率为 P(a|A)*P(A)+P(b|B)*P(B)。

50. 阅卷官明天要去登山，但愿正在答卷的你帮他准备个包，里面放一些必须的物品，请详述一下你会如何处理

1）明确问题：登山的目的是什么，场景是什么（为何要登山，和谁去，去哪座山，开始与持续时间等）

2）需求分解

3）需求对应的物品

4）检查物品是否能够放进包里，不行的话，评估需求优先级

5）完成后故事板检验，肯定每一个环节都ok

（怎么感受这是产品经理的题目）