数据分析与挖掘案列--拉勾网数据分析岗位分析

 

不管出于兴趣或者职业发展,因而最近开始作各类大小项目实践,以拉勾网数据分析招聘职位分析广州求职竞争状况!python

 Tools      : chrome;  python 3.6;jupyter git

 OS          :   mac osxgithub

Reference:wangwei-tongxue GITer;百度chrome

一:contents

 1. 爬取数据         

  1. 网页分析

  2. 爬虫程序    

 2. 职位分析   

  1. 哪些公司的招聘需求最多呢?

  2. 什么样的学历可以胜任数据分析呢?

  3. 几年工做经验更受市场欢迎呢?

  4. 广州哪一个区的数据分析岗位机会最多?

  5. 不一样工做年限的数据分析师是什么收入水平

二.1.网页分析:

在拉勾网搜索页面输入数据分析,而且定位为广州,用F12打开开发调试工具,根据下图标红的地方查看详细信息:json

在general里面很容易看出是post请求,而且返回的是json数据,很方便读取,以下图cookie

经过观察分析,发现post请求时候由表单信息控制查询关键字和页码,echarts

同时,报头信息最好包括header,cookie,data等信息,用的requests库对获取的json数据解析,爬虫函数以下:函数

因为拉勾网反扒机制的限制,设置10s的抓取间隔,效率较低,时间间隔能够本身看状况设定。工具

查看抓取的数据状况:post

简单的数据清洗,而后能够用df.to_csv保存或直接分析

 

 2. 职位分析   

  1. 哪些公司的招聘需求最多呢?

 

2.学历要求

 

3.对工做经验的要求怎么样?

4.哪一个区的数据分析岗位机会最多?

能够导入pyecharts库,进行可视化,注意文件能够保存在当前工做目录(os.getcwd能够查看当前路径),由图能够看出数据工做几乎集中在天河区!

5.工做年限与数据分析工做的相关性

(以拉勾网为例)应届生大部分薪资在5000+,而工做3年以上的工资接近两万!工做经验基本与工资成正比,学无止境,加油!

 

完整代码和运行结果请于个人github下载!

https://github.com/nashgame/DataScience/tree/master/notebook 

相关文章
相关标签/搜索