糖宝Python 2019-03-31 18:15git
scrapy.pnggithub
本文主要内容针对Scrapy有初步了解的同窗。结合做者的实际项目中遇到的一些问题,汇成本文。shell
以后会写一些具体的爬虫demo, 放到 https://github.com/hanguangchao/scrapy_awesome框架
鉴于做者接触爬虫不久,水平有限,文章不免出现纰漏,还请各位达人留言指导。scrapy
在学习中有迷茫不知如何学习的朋友小编推荐一个学Python的学习q u n 227 -435- 450能够来了解一块儿进步一块儿学习!免费分享视频资料分布式
内容提要ide
Scrapy问题记录工具
Scrapy问题示例代码学习
Scrapy经常使用代码片断spa
Scrapy经常使用设置
Scrapy参考资料
使用
能够利用scrapy shell 分析网页
经过sel.xpath() 返回一个Selector, 能够判断页面结构是否存在。
使用中遇到的一些问题
针对以上问题,下面给出具体的代码示例
使用custom_settings 该设置是一个dict.当启动spider时,该设置将会覆盖项目级的设置. 因为设置必须在初始化(instantiation)前被更新,因此该属性 必须定义为class属性
防止爬虫被ban
过滤重复的Item
把Item存储到MySQL的Pipeline
把Item保存到JSON文件