爬虫学习日记（五）

时间 2019-12-04

原文原文链接

原本应该昨天来作这个的，可是Cindy有了一个新的东西让我去作。url

Solr上面的跑SUDU的Crawler被block掉了，估计是常常爬取数据，被屏蔽了，Cindy姐说SUDU那边只要访问的是Linux的机子就都会被block掉了，说到这里，忽然想到，能够在请求头修改咱们这边的系统的信息吗，就是伪造，到时候去查查看。而后Cindy姐要去看看ssm的SUDU，里面原先是用HttpClient来爬取数据的，看改用selenium能不能爬到数据。对象

而后我就去看了，发现大多数route里面用的都是httpclient的方式，而我以前自学的也是用的httpclient。百度了一下，selenium是模拟用户操做的而已，来完成一些操做，比较主要的功能就是获取动态网页的数据，就譬如，你在百度图片里面，刚打开的时候，是只会显示一部分图片的，只有当你有往下拉的操做的时候，才会加载出后面的图片。你用普通的方式爬，就只能爬到刚开始显示出来的数据。可是用selenium就能实现这个滚动的功能，好像有方法，是能够模拟滚动的，并且我也看到了其余的方法，能够实现点击和其余的动做。继承

我新建了一个类，继承了原先那些crawler要继承的东西，由于要返回跟以前同样的东西嘛。传进来跟之前同样的数据，只是我不对他进行处理，直接，模仿写vessel的方式，调用以前的方法声明了一个WebDriver对象，传url进去，getPageSource返回源码，放在log里面。commit，发送请求，成功。图片

原本今天想继续完成QA里面在Excel加多几栏的需求的，刚刚Cindy要我把SUDU换成selenium的方式，哈哈哈哈。卧槽，这个有点难吧，虽然好像也不是很难，哈哈哈，但仍是比写QA要难吧我以为，这个真的就是后台的东西，慢慢来咯，QA的东西只能先放放了。get

那就这样吧，到时候开始作了再写写一些新心得体会。源码

感受又没写什么，可是码了这么多删掉有点惋惜。后面写QA的时候再继续往下写吧。selenium

和狗子一块儿成为更好的人。it