功能点
爬取数据
- 全部公司数据,名称简写,城市,行业,职位数量,人数范围,标签,介绍,融资阶段,平均工资
- github2016年度最受欢迎编程语言相应年数薪水,城市,学历要求,公司融资阶段,公司行业
- 大数据行业五大岗位相应年数薪水,城市,学历要求,公司融资阶段,公司行业,岗位要求
编程语言分析
- 编程语言在不一样城市(top10)的需求量
- 编程语言在不一样行业(top10)的需求量
- 编程语言在不一样融资阶段的需求量
- 编程语言相应工做年限薪水平均值
大数据岗位分析
- 五个岗位的职位需求关键词词云
- 五个岗位在不一样城市(top10)的需求量
- 五个岗位在不一样行业(top10)的需求量
- 五个岗位在不一样融资阶段的需求量
- 五个岗位相应工做年限薪水平均值
数据可视化
开发工做
- 编写数据采集所用语言:python
-
针对拉勾网反爬虫的应对措施:前端
- 加http头假装成浏览器;
- 找临界值更换IP;
- 限制爬取频率;
- 设置代理池。
- 使用多线程爬虫:提升效率
- 制做词云:jieba中文分词,自定义词典,wordcloud生成图片
- 分析结果可视化:bokeh,echarts
数据岗位分析结果
2016github10大热门编程语言现状分析

Python岗位所在行业

scala岗位所在公司行业

能够看出Python的应用更广,而Scala主要是数据服务行业须要。缘由是Python除了能够用来作web开发,在科学计算等方面的表现也很出色。python
- 岗位城市分布(示例java)
Java岗位城市分布

能够看出Java的整体需求仍是北上广深杭比较多,而杭州数量多的可能也许是由于坐落在此的阿里巴巴内部使用Java较多
- 岗位所在公司融资阶段(示例PHP)

对PHP需求最多的是初创型公司,可能由于PHP能够作到快速开发而且在中小规模公司比较适用。
多维度分析
普通开发不一样城市不一样工做年限平均工资

能够看出,北京的总体工资水平最高,高薪主要集中在北上广深杭,其中,杭州的工资水平也较高,可能由于杭州是阿里巴巴网易等大型互联网公司总部所在地。git
不一样融资阶段公司工做年限不一样平均工资

能够看到1-3年和3-5年工资差距并不明显,D轮及以上公司给的工资总体水平都比其余融资阶段高github
分析结论
- 数据岗位集中在北上广深,需求量呈爆炸式增加。
- 数据岗位算法、学历要求更高,对业务敏锐,薪资更高。
- 门槛高的岗位需求量更少(Scala), 门槛低应用广(Python)
- 互联网行业对人才的要求愈来愈高(算法、数学、业务)