前言html
淘宝网是一个众所周知的一个电商平台,基本上什么都能找到。chrome
想业余作电商赚点小钱或买点东西,就须要对比平台上各个卖家的商品信息,所谓货比三家,为商品定一个合理的价位或淘一个合理,性价比较高的宝贝。网络
如今淘宝要登陆才能提取到数据,这个脑阔疼啊,没事,道高一尺魔高一丈。ide
效果函数
小编只提取了,商品名,价格,连接做为示例。google
想提取其余的数据,能够在提取函数哪里直接加就行哦spa
https://v.qq.com/x/page/h0903rdx14h.html源码获取
3d
关注公众号“木下学Python”,回复“模拟登陆爬取淘宝”获取。是‘录’,别错了噢~htm
环境blog
Python3.7
selenium 3.141.0
chrome 73.0.3683.103(正式版本)(64 位)
chromedriver 下载连接:
https://sites.google.com/a/chromium.org/chromedriver/
登陆
使用淘宝帐号,滑动验证码很容易被识别,因此使用了微博帐号,填写用户名,密码,验证码,商品名便可。
用户名,密码能够在程序中直接设置好,就不用手动输入了。
验证码小编原本想找到连接下载,用 pytteract 识别的,就不用输验证码,只输入商品名,其余全自动。
验证码 xpath 表达式没问题,可到程序里就是提取不出来,因此就选择手动了。
输入验证码后登录成功了。
有时候网络问题,会超时,从新运行几回便可。
提取
selenium 登陆后,获取网页源代码,使用 xpath 提取,不使用 selenium 的方法了,能够提升一点速度。
翻页
翻页某些页面会翻页失败,就跳过。
Finally
最后获得的数据写入 csv 文件,就获得想要的数据了。
从结果看只须要 3 分钟,就能获得 4000 多条商品信息。