scrapy-基础

时间 2019-11-07

标签 scrapy 基础栏目 Python 繁體版

原文原文链接

1、建立一个项目scrapy

　　一、 pip3 install scrapyide

　　二、scrapy startproject myspider3d

2、生成一个爬虫日志

　　三、scrapy genspider itcast itcast.cn scrapy genspider + 爬虫名字 + 爬虫范围。对象

三提取数据blog

　　五、完善 spider 使用 xpath等方法ip

四保存数据it

　　pipeline中保存数据pip

5、启动 scrapyast

scrapy crawl itcast ##### scrapy crawl+ 项目名字

ret1 = response.xpath("//div[@class='tea_con']//h3/text()")

print(ret1)

设置日志：

列表，列表中的每一个元素是对象，每一个对象是 selector 对象 selector 有个 xpath 有个 data

九、

ret1 = response.xpath("//div[@class='tea_con']//h3/text()").extract()

print(ret1)

KEY表明 piplines的位置，值表明距离引擎的远近

值距离引擎的远近，越小优先级越大。