大部分爬虫框架都是python
定个宏伟目标mysql
python基础正则表达式
知识储备redis
辅助工具sql
各类模块 mongodb
反爬虫策略数据库
数据库编程
数据分析json
进阶技术网络
Scrapy + MongoDB + Redis 分布式爬虫系统
a). Redis 用来存储要爬取的网页队列,也就是任务队列
b). MongoDB 用来存储爬取的内容结果。
c) . Scrapy 里放爬虫crawler , 分别爬取不一样的网页内容。
学以至用