本人在以前实习的时候就接触过爬虫,到如今陆陆续续爬过一些东西微信
用WebCollector爬过微信公众号文章、百度新闻、百度BBS等,网站
用HtmlUnit爬过域名-IP关系,目前正用原生HtppClient爬过一些网站的文件。spa
最近作实验又须要爬一些数据,某xun没有难度,分析了下HTTP连接,线程
找到真正的请求的HTTP请求,直接爬获得JSON格式数据,就是我爬的有点凶。blog
由于数据不是不少,我想速战速决,单IP十个线程,第一次是半夜爬的,没封,爬了1万条;图片
第二次是下午爬的,两万条只爬了1万条左右,被封了。域名
今天下午爬某du,其实就是我提交个数据,某度给我返回个yes or no就好了。it
页面上明明看获得数据,既不是图片,也不是文字(鼠标选不中),源代码里也没有数据。百度
分析了各类连接,也没有额外获取数据的HTML、JS请求。请求
最后在源代码里发现了蹊跷,两种不一样返回结果以下:
以前一直找汉字去了,因此没找到;应该是他们根据这两种返回结果,用CSS作了处理。
也是第一次遇到这种状况,比较有意思,哈哈。