1、建立一个项目scrapy
一、 pip3 install scrapyide
二、scrapy startproject myspider3d
2、生成一个爬虫日志
三、scrapy genspider itcast itcast.cn scrapy genspider + 爬虫名字 + 爬虫范围。对象
三 提取数据blog
五、完善 spider 使用 xpath等方法ip
四 保存数据it
pipeline中保存数据pip
5、启动 scrapyast
scrapy crawl itcast ##### scrapy crawl+ 项目名字
ret1 = response.xpath("//div[@class='tea_con']//h3/text()")
print(ret1)
设置日志:
列表,列表中的每一个元素是对象, 每一个对象是 selector 对象 selector 有个 xpath 有个 data
九、
ret1 = response.xpath("//div[@class='tea_con']//h3/text()").extract()
print(ret1)
KEY表明 piplines的位置,值表明 距离引擎的远近
值 距离引擎的远近,越小 优先级 越大。