本文是译文,能够转载,但需注明出处,点击这里能够获取原文,有删减。
本系列博文包含四篇文章:
【译】技能测试解决方案:Python中的数据科学(一)——Q1-Q15
【译】技能测试解决方案:Python中的数据科学(二)——Q16-Q30
【译】技能测试解决方案:Python中的数据科学(三)——Q31-Q45
【译】技能测试解决方案:Python中的数据科学(四)——A1-A45及其解释python
Q16
在上述数据集中, “Cabin”变量5个样本中就有3个是缺失值,若是某个变量含有较高比例的缺失值,咱们能够删除该类变量,但这样作又会损失必定的信息量。
比较折中的解决方案是,另外创建二分类变量 “Missing_Cabin”,当“Cabin”变量为缺失值时,该变量取值1,不然取值0。
下列哪行代码能够实现这个需求?segmentfault
A - train['Missing_Cabin'] = train.Cabin.apply(lambda x: x == '') B - train['Missing_Cabin'] = train.Cabin.isnull() == False C - train['Missing_Cabin'] = train.Cabin.isnull().astype(int) D - 以上选项都不能
Q17app
上述数据集是出口产品的属性数据,可是在原始数据中,没有列名。咱们怎样读入包含指定列名的数据框的数据集?函数
A - pd.read_csv("train.csv", header=None, columns=['Item_Identifier', 'Item_Weight', 'Item_Fat_Content', 'Item_Visibility' ]) B - pd.read_csv("train.csv", header=None, usecols=['Item_Identifier', 'Item_Weight', 'Item_Fat_Content', 'Item_Visibility']) C - pd.read_csv("train.csv", header=None, names=['Item_Identifier' ,'Item_Weight' ,'Item_Fat_Content', 'Item_Visibility']) D - 以上选项都不能
Q18
当咱们使用pandas读入数据集时,变量的类型可能解析得不对。为此,咱们须要在读入数据集时,指定每一个变量的数据类型,或者读入数据集后,转换指定变量的数据类型。
下列哪行代码能够把“Item_Fat_Content” 变量由“object”类型改变成“category”类型?测试
A - train['Item_Fat_Content'] = train['Item_Fat_Content'].asdtype('categorical') B - train['Item_Fat_Content'] = train['Item_Fat_Content'].astype('category') C - train['Item_Fat_Content'] = train['Item_Fat_Content'].asdtype('category') D - 以上选项都不能
Q19spa
上述数据集中, “Item_Identifier”变量彷佛和“Item_Type”变量存在一些关系:当“Item_Identifier”变量首字母发生变化时, “Item_Type” 变量随即也发生变化。当“Item_Identifier”变量以字母“F”开头时,对应的“Item_Type” 变量取值都是能够吃的物品,而“D”则对应的是饮料。
为了检验这个假设,下列哪行代码能够查询出全部“Item_Identifier” 变量以“F”开头的样本?3d
A - train.Item_Identifier.str.starts_with('F') B - train.Item_Identifier.str.startswith('F') C - train.Item_Identifier.str.is_start('F') D - 以上选项都不能
Q20
下列哪行代码能够把 “Item_MRP”变量由“浮点型”改变成“整型”?unix
A - train['Item_MRP'] = train.Item_MRP.astype(real) B - train['Item_MRP'] = train.Item_MRP.astype(int) C - train['Item_MRP'] = train.Item_MRP.astype(float) D - 以上选项都不能
Q21code
咱们如今还有另一个假设:在超市里,对于新顾客而言,一个物品越容易看到,它的销量就会越好。
下列哪行代码能够计算 “Item_Outlet_Sales”变量和 “Item_Visibility”变量之间的皮尔逊相关系数?orm
A - train.Item_Visibility.corr(train.Item_Outlet_Sales, method='pearson') B - train.Item_Visibility.corr(train.Item_Outlet_Sales) C - train.Item_Visibility.corrwith(train.Item_Outlet_Sales, method='pearson') D - A和B均可以
Q22
咱们想查看“Hours.Per.Week”变量相对于用户的“Marital.Status”变量和“Occupation”变量的分布。一种方案是建立“Marital.Status”变量vs“Occupation”变量的数据透视表,并求“Hours.Per.Week”变量的值。
下列哪行代码能够实现这个需求?(聚合函数设定为“Sum”)
A - train.pivot(index='Marital.Status', columns='Occupation', values='Hours.Per.Week', aggfunc='sum') B - train.pivot_table(index='Marital.Status', columns='Occupation', values='Hours.Per.Week', aggfunc='sum') C - train.pivot_table(index='Marital.Status', columns='Hours.Per.Week', values='Occupation', aggfunc='sum') D - 以上选项都不能
Q23
上述数据集中,假设前两行都不是咱们想要的,咱们想从第三行开始读入数据,在pandas 中如何操做?
A - train = pd.read_csv('train.csv', startrow=2) B - train = pd.csvReader('train.csv', startrow=2) C - train = pd.read_csv('train.csv', skiprows=2) D - 以上选项都不能
Q24
假设数据集太大而不能加载到本地机器中,可是咱们仍然想把它加载到内存中。一种解决办法是加载指定数目的行数到内存中。
下列哪行代码能够只读取前500行数据到内存中?
A - train = pd.read_csv('train.csv', nrows=500) B - train = pd.read_csv('train.csv', numrows=500) C - train = pd.read_csv('train.csv', rows=500) D - 以上选项都不能
Q25
咱们如今想要知道“Relationship”变量在数据集中的分布。 为此,咱们能够发现用户数与“Relationship”变量的百分比分布。
要作到这一点,须要找到“Relationship”变量全部取值的样本量,而后将其除以总样本数,获得百分比并将其映射到每一列便可。
下列哪行代码能够实现这个需求?
A - train['Relationship_Percentage'] = train.Relationship.map(train.Relationship.value_count/train.shape[0]) B - train['Relationship_Percentage'] = train.Relationship.map(train.Relationship.value_counts()/train.shape[0]) C - train['Relationship_Percentage'] = train.Relationship.map(train.Relationship.value_counts/train.shape[0]) D - 以上选项都不能
Q26
上述数据集中,“Date_time_of_event”变量被解析成“分类型”变量,所以,一些有关日期的操做不能做用于该变量。
下列哪行代码能够把 “Date_time_of_event”变量由“分类型”变量转换成“时间型”变量?
A - train['Date_time_of_event'] = pd.to_datetime(train.Date_time_of_event, date_format="%d-%m-%Y") B - train['Date_time_of_event'] = pd.to_datetime(train.Date_time_of_event, format="%d-%m-%Y %H:%M") C - train['Date_time_of_event'] = pd.to_datetime(train.Date_time_of_event, date_format="%d-%m-%Y %h:%m") D - 以上选项都不能
Q27
上述数据集中,咱们想根据“Date_time_of_event” 变量衍生出 “Date”变量,下列哪行代码能够提取出“Date_time_of_event” 变量中的日期?
A - train.Date_time_of_event.dt.days B - train.Date_time_of_event.dt.day C - train.Date_time_of_event.dt.Day D - 以上选项都不能
Q28
下列哪行代码能够提取“Date_time_of_event” 变量中的工做日?
A - train.Date_time_of_event.dt.weekdayname B - train.Date_time_of_event.dt.weekday_name C - train.Date_time_of_event.dt.Weekday_name D - 以上选项都不能
Q29
“时间型”变量可能被解析成unix格式,在抽取有用信息以前,咱们必须把它转换成可用的格式,下列哪行代码能够实现?
A - pd.to_datetime(train['TIMESTAMP'],unit='s') B - pd.to_datetime(train['TIMESTAMP'],unit='second') C - pd.to_datetime(train['TIMESTAMP'],unit='unix') D - 以上选项都不能
Q30
下列哪行代码能够找出“如今”与 ‘Date_time_of_event’变量之间的时间差?
A - pd.datetime.now - train.Date_time_of_event.dt B - pd.datetime.now() - train.Date_time_of_event.dt C - pd.datetime.now() - train.Date_time_of_event D - 以上选项都不能
友情连接:
【译】技能测试解决方案:Python中的数据科学(一)——Q1-Q15
【译】技能测试解决方案:Python中的数据科学(三)——Q31-Q45
【译】技能测试解决方案:Python中的数据科学(四)——A1-A45及其解释