模拟登录淘宝网爬取商品数据

时间 2021-01-04

标签 web 浏览器函数网站 url spa 对象 blog 图片登录栏目 HTML 繁體版

原文原文链接

1.由于咱们要去模拟人为去登录搜索商品，因此这里先导入webdriver,设置浏览器驱动对象。以后再获取淘宝网登录界面的url地址。web

2.进入到登录界面后，咱们使用xpath定位到帐号输入框和密码输入框以及登陆按钮，这里在各节点后设置时间等待，避免验证过快。登陆事后显示的界面是个人首页，而首要网站淘宝网首页，因此咱们再设置一个跳转，跳转到首页浏览器

3.这样就进入到了淘宝网首页，接下来就能够开始爬取商品数据了。使用xpath定位到搜索框和搜索按钮，输入咱们要搜索的商品数据，点击搜索。函数

4.这里举例搜索商品名称”冰箱”。搜索出来的商品有100页以上的数据，定义一个url,xpath定位到100数值处,使用正则定位匹配数值。再定义一个翻页函数，第一页搜索出来的商品数据占100页其中一页，因此页码数翻99次进行爬取。以后定义隐式等待，等待10秒时间加载页面，若是超出时间报错timeout。若是不作这项步骤的话，网页其余数据没有加载出来，爬取到的数据就会出现乱码重复格式。网站

5.前面提到要模拟人为操做去爬取数据，就是说爬取的数据不能太快，即下拉滑动条的速度。因此定义下拉滑动条，设置它为每1秒钟下拉滑动一次，直至数据加载完成。再用js去执行操做。url

6.接下来最后一步获取商品数据，使用xpath定位获取商品名称，价格，付款人数，商品图片地址，商店名称，最后保存到txt文本中，输出爬取成功spa

爬取数据展现：对象