GitHub:爬虫集合:微博、Twitter、玩加、知网、虎牙、斗鱼、B站、WeGame、猫眼、豆瓣、安居客、居理新房等

hello,小伙伴们你们好,今天给你们推荐的开源项目是 :CxSpider,这个开源整合了做者本身的采集过的全部产品,包括微博、Twitter、玩加、知网、虎牙、斗鱼、B站、WeGame、猫眼、豆瓣、安居客、居理新房感兴趣的小伙伴能够下载看看,应该能够给你提供一个可借鉴的思路。html

Project


爬虫详情


1. Twitter用户信息爬虫(twitter.user_info)

@author ChangXing @version 4.1 @create 2017.12.25 @revise 2020.06.08mysql

使用第三方模块twitter-scraper采集Twitter用户信息;由于该模块采集的粉丝数和关注数可能存在误差,所以再经过Selenium抓取Twitter用户信息,以更正该模块采集的数量。git

  • 采集信息:粉丝数和关注数为twitter-scraper采集并配合Selenium爬虫检查,其余字段为twitter-scraper采集。
  • 应用配置:无需使用代理IP,须要使用Selenium

2. Twitter用户推文爬虫(twitter.user_tweet)

@author ChangXing @version 4.0 @create 2017.12.30 @revise 2020.06.08github

微博热搜榜实时爬虫(weibo.hot_ranking)


@author ChangXing @Version 1.1 @create 2020.05.29 @revise 2020.06.08sql

定时采集微博热搜榜。ide

  • 采集信息:每5分钟采集1次,每次约50条记录→天天约14400条记录
  • 数据清洗:热搜榜置顶热搜(固定第1条)和广告热搜(标注推荐)
  • 应用配置:无需使用代理IP、无需使用Selenium

环境变量


爬虫功能的正常使用须要配置以下环境变量,能够直接修改environment.py中的环境变量值,也能够修改配置Json文件。学习

环境配置


Python/Pip环境

  • Python >= 3.8.0
  • requests >= 2.23.0
    • idna >= 2.9
    • urllib3 >= 1.25.9
    • certifi >= 2020.4.5.1
    • chardet >= 3.0.4
  • bs4 >= 0.0.1
    • beautifulsoup4 >= 4.9.0
    • soupsieve >= 2.0
  • apscheduler >= 3.6.3
    • pytz >= 2019.3
    • six >= 1.14.0
    • tzlocal >= 2.1
    • setuptools
  • mysql-connector >= 2.2.9
  • lxml >= 4.5.0
  • selenium >= 3.141.0 (用于Selenium爬虫)
    • urllib3 >= 1.25.9
  • twitter-scraper >= 0.4.1 (用于Twitter用户信息爬虫)
    • requests-html >= 0.10.0
    • MachanicalSoup >= 0.12.0

开源地址:https://github.com/ChangxingJiang/CxSpiderurl

今天的推荐不知道你们喜欢吗?若是大家喜欢话,请在文章底部留言或点赞,以表示对个人支持,大家的留言,点赞,转发关注是我持续更新的动力哦!.net

关注公众号回复:"1024",免费领取一大波学习资源,先到先得哦!代理

相关文章
相关标签/搜索