若是你从事数据科学领域,那么获取数据对于你来讲就不可或缺,网络爬虫这一关你必须得过,而说到爬虫,大多数人想到的就是Python,由于python不只编写调试方便,并且可以快速入门,最主要的是相关的类库十分丰富python
今天,要和你们推荐的这个项目就是和Python编程有关的,这个项目介绍了如何用 Python 登陆各大网站,并用简单的爬虫获取一些有用数据,目前该项目已经提供了知乎、B 站、和豆瓣等 18 个网站的登陆方法。git
模拟登录基本采用的是直接登陆或者使用selenium+webdriver的方式,有的网站直接登陆难度很大,好比qq空间,bilibili等若是采用selenium就相对轻松一些。github
每个网站都会有对应的登陆代码,有的还有数据的爬取代码。下面咱们以淘宝为例:web
爬取淘宝各子标签,按销量排名商品信息,按分类保存至MongoDB编程
经过pandas进行数据分析网络
将商品在各省分布、销量排行、地图分布等经过matplotlib绘图显示测试
以上是淘宝爬虫相关的文件:网站
taobao.py为模拟登陆调试
剩下的文件为爬虫视频
模拟登录的代码以下:
Bilibili自动登陆测试正常,成功率98%
若是你还想查看更多示例,能够前往GitHub详情页,并且建立者也鼓励广大开发者提 Issue 或 Pull Requests。
项目地址:https://github.com/CriseLYJ/awesome-python-login-model
来源:开源最前线
欢迎关注个人公众号:【编程资源库】 ,关注后回复“我来自互联网”便可领取2000G视频教程