python scrapy

一、要求:python基础,python web框架的了解,web.py\flask\django等,爬虫框架scrapy的基础,html解析技术bs\xpath等html

二、设计爬虫策略python

三、反爬虫处理,模拟浏览器,使用代理ip等mysql

四、分布式爬虫 scrapy-redis,利用redis对url去重,存储并实现多台机器运行git

五、数据存储通常用Mongodb,数据量少能够用mysql等github

六、数据的处理:a、json与object的处理     b、字符的处理python3默认所有采用utf-8   c、对url的字符处理(处理成Unicode,urllib.parse.quote("中文")) d、对网页或请求返回的数据字符处理(encode=utf-8)web

七、实时爬虫利用网络的搜索引擎,结合动态web框架,实现实时爬取搜索出的内容redis

代码项目:能够参考github上的项目sql

实现爬取的本身写了一个小项目,如须要私信django

相关文章
相关标签/搜索