GitHub：爬虫集合：微博、Twitter、玩加、知网、虎牙、斗鱼、B站、WeGame、猫眼、豆瓣、安居客、居理新房等

hello，小伙伴们你们好，今天给你们推荐的开源项目是：CxSpider，这个开源整合了做者本身的采集过的全部产品，包括微博、Twitter、玩加、知网、虎牙、斗鱼、B站、WeGame、猫眼、豆瓣、安居客、居理新房感兴趣的小伙伴能够下载看看，应该能够给你提供一个可借鉴的思路。html

@author ChangXing @version 4.1 @create 2017.12.25 @revise 2020.06.08mysql

使用第三方模块twitter-scraper采集Twitter用户信息；由于该模块采集的粉丝数和关注数可能存在误差，所以再经过Selenium抓取Twitter用户信息，以更正该模块采集的数量。git

@author ChangXing @version 4.0 @create 2017.12.30 @revise 2020.06.08github

@author ChangXing @Version 1.1 @create 2020.05.29 @revise 2020.06.08sql

定时采集微博热搜榜。ide

爬虫功能的正常使用须要配置以下环境变量，能够直接修改environment.py中的环境变量值，也能够修改配置Json文件。学习

Python >= 3.8.0
requests >= 2.23.0
- idna >= 2.9
- urllib3 >= 1.25.9
- certifi >= 2020.4.5.1
- chardet >= 3.0.4
bs4 >= 0.0.1
- beautifulsoup4 >= 4.9.0
- soupsieve >= 2.0
apscheduler >= 3.6.3
- pytz >= 2019.3
- six >= 1.14.0
- tzlocal >= 2.1
- setuptools
mysql-connector >= 2.2.9
lxml >= 4.5.0
selenium >= 3.141.0 (用于Selenium爬虫)
- urllib3 >= 1.25.9
twitter-scraper >= 0.4.1 (用于Twitter用户信息爬虫)
- requests-html >= 0.10.0
- MachanicalSoup >= 0.12.0

今天的推荐不知道你们喜欢吗？若是大家喜欢话，请在文章底部留言或点赞，以表示对个人支持，大家的留言，点赞，转发关注是我持续更新的动力哦！.net

关注公众号回复："1024"，免费领取一大波学习资源，先到先得哦！代理