低不成高不就的现状?小伙用Python爬取百万招聘,找到满意工做

我的经历:低不成,高不就

依稀还记得15年刚出来工做那会,在第一个互联网公司实习,在公司听惯了身边人说公司这很差,那很差,做为新人的我深受影响,不知从什么时候开始就想快点结束实习期换一份更好的工做;html

千盼万盼,终于迎来第二年的毕业,毕业后我也选择了大部分实习生的选择,没有再回到公司,在以后,懵懂的我终于迎来人生的第一次打击,在以后的两个月的时间,我开始在作比较,结果没有找到一家比上家更好的工做,因为当初的不辞而别,我也感受没脸回到上家公司,终于到了身无分文的地步,而我也不得以选择一家“差”的公司,想着作几个月存点钱再去找一份更好的工做;ajax

这样的恶性循环在我身上循环了一年,“低不成,高不就”的现象也许不仅是出如今我身上,下面教你若是找到一份本身相对满意的工做!segmentfault

file

正文:找一份本身满意的工做

拿一个招聘网站用来分析:浏览器

一、分析网站结构,肯定咱们要抓取的数据内容cookie

经过 Chrome 浏览器右键检查查看 network 并对网站结构进行分析发现咱们在 ajax 请求界面中,能够看到这些返回的数据正是网站页面中Python岗位招聘的详情信息。session

file

以后咱们在查看headers的时候发现该网站请求的方式是Post请求,也就是说在请求的过程当中须要携带Form Data数据工具

file

在屡次对网页界面进行分析评测的时候,发如今点击第二页的时候Form Data的携带格式发生了变化。能够看到 pn=2 确定是我们的当前的页数。学习

file

二、无论三七二十一 ,先请求拿到数据在说

file

在直接请求界面的时候咱们发现网站有反爬机制,不让咱们请求《"msg":"您操做太频繁,请稍后再访问"》,咱们携带请求头假装一下,不行网站

file

这里我用了一种能够快速生成headers以及cookie的工具:spa

file

我怀疑该网站具备多重反爬策略,当我在次添加cookies试一下的时候;咱们发现数据能够正常获取了;难道就这么简单就解决拉勾网数据获取的问题了吗?然而机智的我察觉到事情并无想像的那么简单;

file

个人最终解决方案是共用 session,就是说咱们在每次请求界面的时候先获取session而后原地更新咱们的session以后在进行数据的抓取,最后拿到想要的数据。

file

第二步:对数据进行分解

file

运行结果:

file

第三步:对解析数据进行存储

这里经过 excel 表格的形式进行存储;

须要 pip install xlwt 安装一下 xlwt 库.

file

最终显示数据内容

file

最后

若是须要源码,能够看下图

点击了解更多,获取更多Python爬虫全栈学习资料

了解更多

file

相关文章
相关标签/搜索