scrapy学习笔记（一）

时间 2019-11-09

标签 scrapy 学习笔记栏目 Python 繁體版

原文原文链接

环境：Windows 7 x64 Python3.7.1 pycharmhtml

1、安装scrapy

1.1linux系统使用：pip install scrapypython

1.2Windows系统：linux

pip install wheel
下载twisted http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted （根据Python的版本进行下载，这里个人Python版本是3.7因此就下的3.7）
pip install 路径\Twisted-19.2.1-cp37-cp37m-win_amd64
pip install pywin32
pip install scrapy

2、建立scrapy项目

一、新建一个项目，选择Python便可。我这里建立的项目名是demo。建立好后是一个空的项目。数据库

二、点击pycharm下面的terminal，以下图所示：api

在终端中输入：scrapy startproject demo 命令，建立scrapy项目，建立成功后会出现以下目录结构：网络

各文件做用大体以下：dom

scrapy.cfg:：项目的配置文件
demo/：该项目的python模块。在此加入代码。
demo/items.py：项目中的item文件主要用于定义数据的结构化存储，相似于ORM中的models。
demo/pipelines.py：项目中的pipelines文件，指定数据的存储方式（以文件的形式存储，存储到数据库中）。
demo/settings.py：项目的设置文件.
demo/spiders/：放置spider代码的目录。咱们写的爬虫代码在这个目录下。

三、建立爬虫文件

3.1在终端中输入：cd demo（我这里输入demo是由于个人项目名是demo）scrapy

3.2在终端中输入：scrapy genspider books books.toscrape.com (scrapy genspider 应用名称爬取网页的起始url)ide

四、打开books文件，该文件结构以下：

五、爬取http://books.toscrape.com/的书籍信息。

5.1分析http://books.toscrape.com/页面。函数

由上图咱们能够知道全部书籍都存放在div/ol/下的li标签中。这里咱们只打印书名，由此咱们能够像下面这样写来提取数据。

5.2books中的部分代码以下：

def parse(self, response):
        '''
        数据解析，提取。
        :param response: 爬取到的response对象
        :return:
        '''
        book_list = response.xpath('/html/body/div/div/div/div/section/div[2]/ol/li')
        for book in book_list:
            print(book.xpath('./article/div[1]/a/img/@alt').extract())

5.3在setting.py中配置以下：

USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:67.0) Gecko/20100101 Firefox/67.0'   # UA头
ROBOTSTXT_OBEY = False   # 若是为True表示准信robots协议，则大多数数据都爬不了。因此这里设置为Flase
LOG_LEVEL = 'ERROR'  # 日志等级

5.4在终端中执行爬取命令：scrapy crawl books

# 打印内容以下
['A Light in the Attic']
['Tipping the Velvet']
['Soumission']
['Sharp Objects']
['Sapiens: A Brief History of Humankind']
['The Requiem Red']
['The Dirty Little Secrets of Getting Your Dream Job']
['The Coming Woman: A Novel Based on the Life of the Infamous Feminist, Victoria Woodhull']
['The Boys in the Boat: Nine Americans and Their Epic Quest for Gold at the 1936 Berlin Olympics']
['The Black Maria']
['Starving Hearts (Triangular Trade Trilogy, #1)']
["Shakespeare's Sonnets"]
['Set Me Free']
["Scott Pilgrim's Precious Little Life (Scott Pilgrim #1)"]
['Rip it Up and Start Again']
['Our Band Could Be Your Life: Scenes from the American Indie Underground, 1981-1991']
['Olio']
['Mesaerion: The Best Science Fiction Stories 1800-1849']
['Libertarianism for Beginners']
["It's Only the Himalayas"]

由此咱们能够看出这里只是爬取了1页，下面来爬取全部书籍名称。

六、爬取全部页面的书籍。

最终books.py的内容看起来像下面这样：

# -*- coding: utf-8 -*-
import scrapy

class BooksSpider(scrapy.Spider):
    name = 'books'  # 爬虫的惟一标识
    allowed_domains = ['books.toscrape.com']
    # 要爬取的起点，能够是多个。
    start_urls = ['http://books.toscrape.com/']
    url = 'http://books.toscrape.com/catalogue/page-%d.html'   # url模板用于拼接新的url
    page_num = 2
    def parse(self, response):
        '''
        数据解析，提取。
        :param response: 爬取到的response对象
        :return:
        '''
        print(f'当前页数{self.page_num}')  # 打印当前页数的数据
        book_list = response.xpath('/html/body/div/div/div/div/section/div[2]/ol/li')
        for book in book_list:
            print(book.xpath('./article/div[1]/a/img/@alt').extract())
        if self.page_num < 50:  # 总共50页的内容
            new_url = format(self.url % self.page_num)  # 拼接处新的URL
            self.page_num += 1  # 页数加1
            yield scrapy.Request(url=new_url, callback=self.parse)  # 手动发送请求

在终端中执行命令获取书名：scrapy crawl books

若是一切顺利你会看到打印的最终部分结果以下：

今日小结：

建立scrapy项目：scrapy startproject 爬虫项目名称。
建立爬虫应用：scrapy genspider books books.toscrape.com （(scrapy genspider 应用名称爬取网页的起始url)）应用名称在整个项目中做为惟一标识，不能出现同名的爬虫应用。
运行爬虫程序：scrapy crawl books（scrapy crawl 爬虫应用）。
parse方法：当一个页面下载完成后，Scrapy引擎会回调一个咱们指定的页面解析函数（默认为parse方法）解析页面。一个页面解析函数一般须要完成如下两个任务：

　　　　一、提取页面中的数据（使用XPath或CSS选择器）。
　　　　二、提取页面中的连接，并产生对连接页面的下载请求。

页面解析函数一般被实现成一个生成器函数，每一项从页面中提取的数据以及每个对连接页面的下载请求都由yield语句提交给Scrapy引擎。

parse方法的工做机制（来源网络）：

由于使用的yield，而不是return。parse函数将会被当作一个生成器使用。scrapy会逐一获取parse方法中生成的结果，并判断该结果是一个什么样的类型；
若是是request则加入爬取队列，若是是item类型则使用pipeline处理，其余类型则返回错误信息。
scrapy取到第一部分的request不会立马就去发送这个request，只是把这个request放到队列里，而后接着从生成器里获取；
取尽第一部分的request，而后再获取第二部分的item，取到item了，就会放到对应的pipeline里处理；
parse()方法做为回调函数(callback)赋值给了Request，指定parse()方法来处理这些请求 scrapy.Request(url, callback=self.parse)
Request对象通过调度，执行生成 scrapy.http.response()的响应对象，并送回给parse()方法，直到调度器中没有Request（递归的思路）
取尽以后，parse()工做结束，引擎再根据队列和pipelines中的内容去执行相应的操做；
程序在取得各个页面的items前，会先处理完以前全部的request队列里的请求，而后再提取items。
这一切的一切，Scrapy引擎和调度器将负责到底。