数据分析职位招聘状况及发展前景分析

1、分析目的html

      了解数据分析这个职位的招聘状况以及发展前景。python

2、分析维度sql

      根据分析目的,主要提出了如下三个分析维度:app

一、职位地区分布python爬虫

      主要对地区进行分组,对各地区职位分布数量进行对比分析;echarts

二、工资待遇工具

      经过对最低薪酬进行描述分析,观察总体的一个最低工资分布;学习

三、工做年限要求职业规划

      经过对工做年限进行分组,观察岗位需求主要分布在哪几个年限段,并对工做年限对工资的影响进行了分析,有助于本身从此对职业进行规划;spa

四、技能要求

      主要了解进入该行业所须要必备的技能;

五、学历要求

      了解该职位对学历的最低要求;

六、公司福利待遇

      主要分析大部分公司给与的福利有哪些,共同点是什么。

3、分析工具

      这里主要想熟悉python的使用,因此主要使用了python中的pandas包、以及matplotlib。

4、数据清洗

一、数据集描述

      数据集名称:拉勾网数据分析招聘状况

      数据集来源:经过八爪鱼爬取拉勾网数据分析招聘数据(对于python爬虫还不太熟悉)

      数据集量:431*9

二、添加列

2.一、添加最高工资(high_salary)列和最低工资(low_salary)列;

      因为须要分析最低工资状况,而数据表中是按范围给出的(图a),所以须要将工资范围拆分为最高工资(high_salary)和最低工资(low_salary)(图b)。

2.二、添加地区(location)列

      数据表中的地区是按每一个区域的详细信息给出的(图a),而我只须要分析整个区域的状况,所以须要将区域信息中的详细信息去掉,添加location列(图b)。

 

                                                                  图a

 

                                                                 图b

三、处理’工做年限’列中多余字符

      将’工做年限一列中的’经验’(图a)去掉(图b)。

四、处理缺失值

      通过检查未出现缺失值。

五、处理重复值

      未出现重复记录

5、数据分析

一、对职位的地区分布进行分析:

 

 

      经过以上分析能够看出:北京和上海对数据分析岗位需求较大,其次就是广州、深圳、杭州了,若是对地区没有特别要求的话,仍是很建议去北京上海等地区发展的。

二、对工资待遇进行分析

      因为获取的数据是一个最低到最高工资的区间,因此本文只对最低工资进行了分析;

      从上表能够看到最低工资是1000(实习生),最高工资是65000,平均工资在13k-22k,因此说该职业的薪资状况仍是很可观的。

三、工做年限要求

   

      经过分析能够看出:公司对该职位的工做年限要求主要集中在1-5年,3-5年的需求最多,其次是具备1-3年工做经验的,对于一年如下工做经验的需求量不多,5年以上需求基本上就呈现降低趋势了,基本上不须要十年以上工做经验的员工;因此打算入行的须要作好本身的职业规划,在工做中积累经验。

      另外,还分析了薪资随着工做年限的变化状况,因为获取的数据是一个最低到最高工资的区间,因此只对最低工资进行了分析;以下:

 

 

      由此看出:在10年内,工资不管是从最低工资、最高工资仍是平均工资来看,工资水平都是随着工做年限的增长而上涨的,并且上升的幅度很大;由此可知,工做经验很是重要,因此,要作好规划,努力积累经验,至少在十年内,获得的回报是很可观的。

四、技能要求

      利用wordart进行分词处理,生成了词云图以下:

 

 

      从词云图能够看出,进入该行业须要学习的技能有不少,主要共同点就是须要具有统计学、excel、python/R、MySQL(sql)等知识,固然了,这些都只是工具,最重要的是数据分析的思惟以及与业务知识的结合,这些都是须要在工做中不断培养的。

五、学历要求

      这部分主要想分析哪些学历对该职位来讲比较吃香,以下图:

 

 

       很明显,大多数公司都要求有本科学历,对于大专和学历不限的需求量不多,仅从上图来看,仍是有一部分公司对学历的要求是很高的,由此能够看出,该职业对于学从来说,门槛仍是相对比较低的。

六、公司福利待遇

      这部分依然是采用了词云图的方式来展现公司的福利构成;词云图以下所示:

 

 

      能够看出,公司的共同点基本上是五险一金、带薪年假、周末双休等,其实从目前全部行业来看,五险一金基本上都是有的,只不过很难找到双休的工做,因此说,从福利来看,若是是更倾向于双休的人士,进入该行业的选择仍是没错的,至少从以上分析来看,周末双休的工做仍是很多的。

6、结论

      经过以上几个方面的分析,大体能够得出如下几点:

      (1)数据分析这个行业发展前景是很不错的,薪资水平也相对较高;

      (2)就目前分布的区域来看,北上广地区相对来讲发展机会多一些;

      (3)从入行门槛来看,大部分公司都要求本科学历;

      (4)从公司要求来看,除了一些硬性的技能要求外,工做经验也尤其重要;

      (5)从各公司福利来看,各公司福利都大同小异。

 

 

 

最后说明一下:本文数据来源于拉勾网,因此大多数是针对的互联网行业,因此分析的不是很全面;另外,因为本人想借此熟悉python相关知识,因此利用的是python相关知识进行分析,可是该数据量很小,彻底能够用excel进行分析,还有就是想绘出的图表美观最好使用其余绘图工具,好比pyecharts、tableau以及excel等相关工具。

还有就是想转行的朋友,也包括本身啦,要坚决信心哦,不要半途而废!

import pandas as pd from matplotlib import pyplot as plt from matplotlib import font_manager df = pd.read_excel('C:/Users/Administrator/Desktop/拉勾网数据分析招聘状况(最新).xlsx') salary_low = [] salary_high = [] for i in range(0,len(df)): df1 = df.iloc[i]['工资待遇'].split('-') salary_low .append(df1[0]) salary_high.append(df1[1]) # print(salary_low) # print(salary_high)
df['salary_low'] = salary_low df['salary_high'] = salary_high # 将工资中的看转化为'000',才能转化为int类型
df['salary_low'] = df['salary_low'].str.replace('k','000') df['salary_high'] = df['salary_high'].str.replace('k','000') # 将工资列转换为int类型 # df['salary_low'].astype(np.int16) # print(df['salary_high']) # df['salary_high'].astype(np.int64) #方法1
df['salary_low'] = df['salary_low'].astype('i8') #方法2
df['salary_high'] = df['salary_high'].astype('i8') df""" # 将工做地点进行拆分,只对市进行分组 # location = [] # for j in range(0,len(df)): # location1 = df.iloc[j]['工做地点'].split('·') # location.append(location1[0]) # df.insert(2,'location',location) df # 这里把经验不限和应届毕业生改成1年如下 # df['工做年限'] = df['工做年限'].str.replace('经验','') #df['工做年限'] = df['工做年限'].str.replace('不限','1年如下') # df['工做年限'] = df['工做年限'].str.replace('应届毕业生','1年如下') # 查看概况 df.info() # 查看是否重复 df.duplicated() # 删除重复值 df.drop_duplicates() df.shape # 对地区进行一个分组 group_by_location=df.groupby('location')[‘职位名称’].count().sort_values(ascending = False) my_font=font_manager.FontProperties(fname='C:/Windows/Fonts/msyh.ttf',size = 10) group_by_location.plot(kind = 'bar',title = '岗位分布',label = '个数',alpha = 0.4,rot = 45) plt.title('各地区职位分布',fontproperties = my_font) plt.legend(prop = my_font,loc = 'upper right') plt.xticks(fontproperties = my_font) plt.xlabel('区域名称',fontproperties = my_font) plt.savefig('./picture1.png') plt.show() # 查看下工资的大概状况 df.describe() <代码> # 工做年限要求 df.groupby('工做年限')['公司名称'].count().sort_values(ascending = False).plot(kind = 'bar',alpha = 0.4,rot = 0) # 对中文标签进行处理 plt.xlabel('工做年限',fontproperties = my_font) plt.ylabel('职位个数',fontproperties = my_font) plt.xticks(fontproperties = my_font) plt.title('各年限职位分布状况',fontproperties = my_font) plt.savefig('./picture2') plt.show() # 工做经验与最低薪水之间的相关性 y1 = df.groupby('工做年限')['salary_low'].agg([('最低薪水','min'), ('平均薪水','mean'), ('最高薪水','max')]).sort_values(by = '平均薪水') y1.plot.bar(alpha = 0.4,rot = 0) plt.xticks(fontproperties = my_font) plt.xlabel('工做年限',fontproperties = my_font) plt.ylabel('工资水平',fontproperties = my_font) plt.title('薪水随年限分布状况',fontproperties = my_font) plt.legend(loc = 'upper right',prop = my_font) # 调整纵坐标刻度范围 plt.ylim(ymax = 50000) plt.savefig('./picture3') plt.show() df.groupby('学历要求')['公司名称'].count().plot.bar(alpha = 0.4,rot = 0) plt.xticks(fontproperties = my_font) plt.xlabel('学历',fontproperties = my_font) plt.ylabel('职位数量',fontproperties = my_font) plt.title('不一样学历职位需求状况',fontproperties = my_font) plt.savefig('./picture5') plt.show()

 

原文出处:https://www.cnblogs.com/liuxiaomin/p/liuxiaomin.html

相关文章
相关标签/搜索