1.由于咱们要去模拟人为去登录搜索商品,因此这里先导入webdriver,设置浏览器驱动对象。以后再获取淘宝网登录界面的url地址。web
2.进入到登录界面后,咱们使用xpath定位到帐号输入框和密码输入框 以及登陆按钮,这里在各节点后设置时间等待,避免验证过快。登陆事后显示的界面是个人首页,而首要网站淘宝网首页,因此咱们再设置一个跳转,跳转到首页浏览器
3.这样就进入到了淘宝网首页,接下来就能够开始爬取商品数据了。使用xpath定位到搜索框和搜索按钮,输入咱们要搜索的商品数据,点击搜索。函数
4.这里举例搜索商品名称”冰箱”。搜索出来的商品有100页以上的数据,定义一个url,xpath定位到100数值处,使用正则定位匹配数值。再定义一个翻页函数,第一页搜索出来的商品数据占100页其中一页,因此页码数翻99次进行爬取。以后定义隐式等待,等待10秒时间加载页面,若是超出时间报错timeout。若是不作这项步骤的话,网页其余数据没有加载出来,爬取到的数据就会出现乱码重复格式。网站
5.前面提到要模拟人为操做去爬取数据,就是说爬取的数据不能太快,即下拉滑动条的速度。因此定义下拉滑动条,设置它为每1秒钟下拉滑动一次,直至数据加载完成。再用js去执行操做。url
6.接下来最后一步获取商品数据,使用xpath定位获取商品名称,价格,付款人数,商品图片地址,商店名称,最后保存到txt文本中,输出爬取成功spa
爬取数据展现:对象