记一次有意思的爬虫

时间 2019-11-20

标签一次有意思爬虫栏目网络爬虫繁體版

原文原文链接

本人在以前实习的时候就接触过爬虫，到如今陆陆续续爬过一些东西微信

用WebCollector爬过微信公众号文章、百度新闻、百度BBS等，网站

用HtmlUnit爬过域名-IP关系，目前正用原生HtppClient爬过一些网站的文件。spa

最近作实验又须要爬一些数据，某xun没有难度，分析了下HTTP连接，线程

找到真正的请求的HTTP请求，直接爬获得JSON格式数据，就是我爬的有点凶。blog

由于数据不是不少，我想速战速决，单IP十个线程，第一次是半夜爬的，没封，爬了1万条；图片

第二次是下午爬的，两万条只爬了1万条左右，被封了。域名

今天下午爬某du，其实就是我提交个数据，某度给我返回个yes or no就好了。it

页面上明明看获得数据，既不是图片，也不是文字（鼠标选不中），源代码里也没有数据。百度

分析了各类连接，也没有额外获取数据的HTML、JS请求。请求

最后在源代码里发现了蹊跷，两种不一样返回结果以下：

以前一直找汉字去了，因此没找到；应该是他们根据这两种返回结果，用CSS作了处理。

也是第一次遇到这种状况，比较有意思，哈哈。

相关文章

相关标签/搜索

爬虫－反爬虫

Hibernate教程

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公众号

欢迎关注本站公众号,获取更多信息

相关文章

>>更多相关文章<<