登陆淘宝提取商品数据

时间 2021-08-14

标签 html chrome 网络 ide 函数 google spa 3d htm blog 栏目 HTML 繁體版

原文原文链接

前言html

淘宝网是一个众所周知的一个电商平台，基本上什么都能找到。chrome

想业余作电商赚点小钱或买点东西，就须要对比平台上各个卖家的商品信息，所谓货比三家，为商品定一个合理的价位或淘一个合理，性价比较高的宝贝。网络

如今淘宝要登陆才能提取到数据，这个脑阔疼啊，没事，道高一尺魔高一丈。ide

效果函数

小编只提取了，商品名，价格，连接做为示例。google

想提取其余的数据，能够在提取函数哪里直接加就行哦spa

https://v.qq.com/x/page/h0903rdx14h.html

源码获取
3d

关注公众号“木下学Python”，回复“模拟登陆爬取淘宝”获取。是‘录’，别错了噢~htm

环境blog

Python3.7

selenium 3.141.0

chrome 73.0.3683.103(正式版本)(64 位)

chromedriver 下载连接：

https://sites.google.com/a/chromium.org/chromedriver/

登陆

使用淘宝帐号，滑动验证码很容易被识别，因此使用了微博帐号，填写用户名，密码，验证码，商品名便可。

用户名，密码能够在程序中直接设置好，就不用手动输入了。

验证码小编原本想找到连接下载，用 pytteract 识别的，就不用输验证码，只输入商品名，其余全自动。

验证码 xpath 表达式没问题，可到程序里就是提取不出来，因此就选择手动了。

输入验证码后登录成功了。

有时候网络问题，会超时，从新运行几回便可。

提取

selenium 登陆后，获取网页源代码，使用 xpath 提取，不使用 selenium 的方法了，能够提升一点速度。

翻页

翻页某些页面会翻页失败，就跳过。

Finally

最后获得的数据写入 csv 文件，就获得想要的数据了。

从结果看只须要 3 分钟，就能获得 4000 多条商品信息。