“互联网寒冬”,来分析一下爬取的 BOSS 直聘数据。

临近年底,“互联网寒冬”的来临让你们倍感压力,你们纷纷感叹寒冬将至。可是,越是这个时候,越要明确本身的奋斗目标,不断的充实本身,提升本身的能力,为找工做打下坚实的基础。机器学习


本次咱们爬取了招聘网站上关于计算机视觉方向的招聘信息,并对于招聘信息进行分析,看一下目前计算机视觉方向对于应聘者的需求如何。ide


首先招聘信息的爬取采用的是selenium 库,对boss 直聘招聘网站进行爬取,由于网站对于反爬的验证码比较复杂,即使是利用tesserocr 来对这种验证码识别的也很难将其识别准确,所以直接采用selenium库,对于网页信息进行爬取。对于验证码仍须要人工来进行识别并进行操做。可是因为爬取的过程当中,对网页进行了模拟浏览过程,所以几乎不会产生反爬环节。学习


图片 


对于招聘信息的提取首先是打开咱们所要查询的招聘方向的连接,这里咱们查询的是计算机视觉方向(本身更改所需便可),而后针对每一页上的每个招聘连接,在新的网页进行打开,而后爬取其网页信息。总体的运行效果图以下动图所示。字体


图片 

对于每个招聘连接,利用BeautifulSoup进行网页信息的提取,并将其保存到csv文件当中,具体代码以下图所示。网站


图片

完整代码获取见文末 spa


这里咱们爬取了招聘信息中,对于应聘者的学历、经验的要求,以及招聘者提出的工做要求和薪金待遇以及工做地点。将爬取后的信息保存为csv文件放到根文件夹下,至此爬取招聘信息的工做便完成。爬取的信息以下如所示。3d


图片


首先,咱们想观察一下目前招聘者对于应聘者的工做要求,所以为了更加直观的展现工做要求,咱们采用词云的形式,对于工做要求中的关键词进行展现。blog


采用词云的优点在于:第一,展现起来比较美观,第二是出现频率越高的关键词,其字体也越大,所以更能直观的进行展现。图片


对于爬取获得的信息,利用pandas进行读取,而后将“工做要求”一项进行提取后,采用jieba进行分析,并结合WordCloud库进行展现,获得的结果以下如所示。深度学习


图片 

由词云咱们能够看出,目前计算机视觉领域深度学习技术是最杯招聘者所看重的一项技能,所以它的出现频率也是最高的。其次对于机器学习、图像处理技术也要进行掌握,并能达到熟练掌握的程度。若是有小伙伴想要进军计算机视觉领域的话,那么上述的词云所体现的信息,将会对你有很大的帮助,在处理完“工做需求以后”,咱们还对你们广泛关心的“工资”水平和“经验要求进行了分析。


因为招聘者对于工资都是提供一个大概的范围,所以,这里咱们采起招聘者提供的平均工资来做为咱们的“工资”数据,根据平均工资的最大值跟最小值将工资分为五类,可视化数据以下图所示。

 

图片 

由工资图能够看出,目前计算机视觉领域的工资水平大都集中在20K到30K之间,仍是一个至关不错的工资水平。


对于经验的分析,咱们也进行了分析,以下图所示。

 

图片 

由上图能够看出,招聘者对于应聘者的经验仍是十分看重的,所以若是小伙伴是在校生的话,仍是抓住机会出去实习,增加本身的经验吧。

相关文章
相关标签/搜索