淘宝、知乎、豆瓣......18个网站的Python爬虫登陆汇总，都在这个开源项目里

时间 2019-11-06

标签淘宝豆瓣网站 python 爬虫登陆汇总都在这个开源项目栏目快乐工作繁體版

原文原文链接

若是你从事数据科学领域，那么获取数据对于你来讲就不可或缺，网络爬虫这一关你必须得过，而说到爬虫，大多数人想到的就是Python，由于python不只编写调试方便，并且可以快速入门，最主要的是相关的类库十分丰富python

今天，要和你们推荐的这个项目就是和Python编程有关的，这个项目介绍了如何用 Python 登陆各大网站，并用简单的爬虫获取一些有用数据，目前该项目已经提供了知乎、B 站、和豆瓣等 18 个网站的登陆方法。git

模拟登录基本采用的是直接登陆或者使用selenium+webdriver的方式，有的网站直接登陆难度很大，好比qq空间，bilibili等若是采用selenium就相对轻松一些。github

每个网站都会有对应的登陆代码，有的还有数据的爬取代码。下面咱们以淘宝为例：web

爬取淘宝各子标签，按销量排名商品信息，按分类保存至MongoDB编程

经过pandas进行数据分析网络

将商品在各省分布、销量排行、地图分布等经过matplotlib绘图显示测试

以上是淘宝爬虫相关的文件：网站

taobao.py为模拟登陆调试

剩下的文件为爬虫视频

模拟登录的代码以下：

Bilibili自动登陆测试正常，成功率98%

若是你还想查看更多示例，能够前往GitHub详情页，并且建立者也鼓励广大开发者提 Issue 或 Pull Requests。

项目地址：https://github.com/CriseLYJ/awesome-python-login-model

来源：开源最前线

欢迎关注个人公众号：【编程资源库】，关注后回复“我来自互联网”便可领取2000G视频教程