python scrapy

时间 2019-12-18

标签 python scrapy 栏目 Python 繁體版

原文原文链接

一、要求：python基础，python web框架的了解，web.py\flask\django等，爬虫框架scrapy的基础，html解析技术bs\xpath等html

二、设计爬虫策略python

三、反爬虫处理，模拟浏览器，使用代理ip等mysql

四、分布式爬虫 scrapy-redis，利用redis对url去重，存储并实现多台机器运行git

五、数据存储通常用Mongodb，数据量少能够用mysql等github

六、数据的处理：a、json与object的处理 b、字符的处理python3默认所有采用utf-8 c、对url的字符处理(处理成Unicode，urllib.parse.quote("中文")) d、对网页或请求返回的数据字符处理（encode=utf-8）web

七、实时爬虫利用网络的搜索引擎，结合动态web框架，实现实时爬取搜索出的内容redis

代码项目：能够参考github上的项目sql

实现爬取的本身写了一个小项目，如须要私信django