原本应该昨天来作这个的,可是Cindy有了一个新的东西让我去作。url
Solr上面的跑SUDU的Crawler被block掉了,估计是常常爬取数据,被屏蔽了,Cindy姐说SUDU那边只要访问的是Linux的机子就都会被block掉了,说到这里,忽然想到,能够在请求头修改咱们这边的系统的信息吗,就是伪造,到时候去查查看。而后Cindy姐要去看看ssm的SUDU,里面原先是用HttpClient来爬取数据的,看改用selenium能不能爬到数据。对象
而后我就去看了,发现大多数route里面用的都是httpclient的方式,而我以前自学的也是用的httpclient。百度了一下,selenium是模拟用户操做的而已,来完成一些操做,比较主要的功能就是获取动态网页的数据,就譬如,你在百度图片里面,刚打开的时候,是只会显示一部分图片的,只有当你有往下拉的操做的时候,才会加载出后面的图片。你用普通的方式爬,就只能爬到刚开始显示出来的数据。可是用selenium就能实现这个滚动的功能,好像有方法,是能够模拟滚动的,并且我也看到了其余的方法,能够实现点击和其余的动做。继承
我新建了一个类,继承了原先那些crawler要继承的东西,由于要返回跟以前同样的东西嘛。传进来跟之前同样的数据,只是我不对他进行处理,直接,模仿写vessel的方式,调用以前的方法声明了一个WebDriver对象,传url进去,getPageSource返回源码,放在log里面。commit,发送请求,成功。图片
原本今天想继续完成QA里面在Excel加多几栏的需求的,刚刚Cindy要我把SUDU换成selenium的方式,哈哈哈哈。卧槽,这个有点难吧,虽然好像也不是很难,哈哈哈,但仍是比写QA要难吧我以为,这个真的就是后台的东西,慢慢来咯,QA的东西只能先放放了。get
那就这样吧,到时候开始作了再写写一些新心得体会。源码
感受又没写什么,可是码了这么多删掉有点惋惜。后面写QA的时候再继续往下写吧。selenium
和狗子一块儿成为更好的人。it