登陆淘宝提取商品数据

图片 图片



前言html

淘宝网是一个众所周知的一个电商平台,基本上什么都能找到。chrome

想业余作电商赚点小钱或买点东西,就须要对比平台上各个卖家的商品信息,所谓货比三家,为商品定一个合理的价位或淘一个合理,性价比较高的宝贝。网络


如今淘宝要登陆才能提取到数据,这个脑阔疼啊,没事,道高一尺魔高一丈。ide


效果函数


小编只提取了,商品名,价格,连接做为示例。google

想提取其余的数据,能够在提取函数哪里直接加就行哦spa

https://v.qq.com/x/page/h0903rdx14h.html 图片 图片 图片


源码获取
3d


关注公众号“木下学Python”,回复“模拟登陆爬取淘宝”获取。是‘录’,别错了噢~htm


环境blog

图片


Python3.7

selenium 3.141.0

chrome 73.0.3683.103(正式版本)(64 位)

chromedriver 下载连接:

https://sites.google.com/a/chromium.org/chromedriver/


登陆

使用淘宝帐号,滑动验证码很容易被识别,因此使用了微博帐号,填写用户名,密码,验证码,商品名便可。

用户名,密码能够在程序中直接设置好,就不用手动输入了。

验证码小编原本想找到连接下载,用 pytteract 识别的,就不用输验证码,只输入商品名,其余全自动。

验证码 xpath 表达式没问题,可到程序里就是提取不出来,因此就选择手动了。

图片


图片


输入验证码后登录成功了。

有时候网络问题,会超时,从新运行几回便可。


提取

图片


selenium 登陆后,获取网页源代码,使用 xpath 提取,不使用 selenium 的方法了,能够提升一点速度。


翻页


图片


翻页某些页面会翻页失败,就跳过。


Finally

图片


最后获得的数据写入 csv 文件,就获得想要的数据了。

从结果看只须要 3 分钟,就能获得 4000 多条商品信息。

相关文章
相关标签/搜索