经过前面的文章已经学习了基本的爬虫知识,经过这个例子进行一下练习,毕竟前面文章的知识点只是一个python
一个单独的散知识点,须要经过实际的例子进行融合git
其实爬虫最重要的是前面的分析网站,只有对要爬取的数据页面分析清楚,才能更方便后面爬取数据github
目标站和目标数据
目标地址:http://www.hshfy.sh.cn/shfy/gweb/ktgg_search.jsp
目标数据:目标地址页面的中间的案开庭公告数据web
对数据页面分析
从打开页面后能够看到默认的数据是一个月的数据,即当天到下个月该天的
经过翻页能够返现这个时候页面的url地址是不变的,因此这里咱们大体就能够判断出,中间表格的数据是经过js动态加载的,咱们能够经过分析抓包,找到真实的请求地址jsp
经过上图咱们能够发现其实帧数的数据来源是http://www.hshfy.sh.cn/shfy/gweb/ktgg_search_content.jsp 这个地址。
当直接访问这个地址能够看到以下数据:ide
也正好验证了咱们前面所说的,中间表格的数据是经过js动态加载的,因此咱们剩下的就是对这个地址进行分析学习
分析真实地址网站
经过上图咱们能够分析几个对咱们有用的数据就是请求地址以及请求参数,
请求参数中,最重要的是日期以及页数url
代码的功能还有待完善,只是一个初步的例子
代码地址:https://github.com/pythonsite/spider/tree/master/www.hshfy.sh.cnblog