其流程能够描述以下:python
注意:cookie
建立一个scrapy项目:scrapy startproject 项目名
并发
生成一个爬虫:scrapy genspider 爬虫名 容许爬取的范围
dom
提取数据:完善spider,使用xpath等方法
scrapy
保存数据:pipeline中保存数据
ide
命令:scrapy startproject +<项目名字>
函数
示例:scrapy startproject myspider
url
生成的目录和文件结果以下:spa
settings.py
中的重点字段和内涵3d
USER_AGENT
设置uaROBOTSTXT_OBEY
是否遵照robots协议,默认是遵照CONCURRENT_REQUESTS
设置并发请求的数量,默认是16个DOWNLOAD_DELAY
下载延迟,默认无延迟COOKIES_ENABLED
是否开启cookie,即每次请求带上前一次的cookie,默认是开启的DEFAULT_REQUEST_HEADERS
设置默认请求头SPIDER_MIDDLEWARES
爬虫中间件,设置过程和管道相同DOWNLOADER_MIDDLEWARES
下载中间件命令:scrapy genspider +<爬虫名字> + <容许爬取的域名>
生成的目录和文件结果以下:
完善spider即经过方法进行数据的提取等操作:
注意:
response.xpath
方法的返回结果是一个相似list的类型,其中包含的是selector对象,操做和列表同样,可是有一些额外的方法extract()
返回一个包含有字符串的列表extract_first()
返回列表中的第一个字符串,列表为空没有返回None
为何要使用yield?
注意:
BaseItem
,Request
,dict
,None
pipeline在settings中可以开启多个,为何须要开启多个?
pipeline使用注意点
return item
,不然后一个pipeline取到的数据为None值