爬虫学习笔记3（Scrapy安装及基本使用）

时间 2019-11-30

原文原文链接

人生苦短，我用Pythonpython

Scrapy安装

一、windows下安装流程：数据库

命令行执行pip Install scrapy安装scrapy，若是你已经配置过环境变量，则任意打开命令行窗口，输入pip install scrapy命令，则能够执行安装。若没有配置过环境变量，则进入到你python的安装路径下，shift+右键，在此处打开命令行窗口，而后输入pip install scrapy安装。windows

特别说明：windows下安装，由于某些包不兼容，会出现安装失败的状况，通常是twisted安装失败，固然也会可能其余包安装失败，具体状况根据本身安装提示。若twisted安装失败，则去Python Extension Packages for Windows地址去搜索twisted，选好本身对应的版本，否则会安装失败，下载完以后，到下载文件所在位置，shift+右键，在此处打开命令行窗口，输入pip install xxx.whl（完整文件名）。安装完成以后，打开命令行：输入scrapy -h验证是否安装成功！若提示未成功，则从新执行pip install scrapy命令。
框架

二、Mac系统安装流程scrapy

能够直接使用pip install scrapy进行安装ide

若是没有安装pip，但是使用如下命令行语句先安装pip：网站

Scrapy爬虫的使用

一个最基本的爬虫只须要两部分组成：Spider（爬虫）、Pipeline（管道）url

Spider（爬虫）：定义了如何爬取某个网站，包括了爬取的动做（例如是否跟进连接）以及如何从网页的内容中提取结构化数据（爬取item）。简单来讲，Spider就是定义爬取的动做及分析某个网页的地方。命令行

Pipeline（管道）：每一个项目管道组件是一个实现简单方法的Python类。他们接受一个项目并对其执行操做，还决定该项目是否应该继续经过流水线或被丢弃而且再也不被处理。cdn

Pipeline（管道的做用）：

Item管道的主要责任是负责处理由蜘蛛从网页中抽取的item,它的主要任务是清洗、验证和存储数据。当页面被蜘蛛解析后，将被发送到item管道，并通过几个特定的次序处理数据。

项目管道的用途：

清理HTML数据
验证抓取的数据（检查项目是否包含特定字段）
检查重复
将刮取的项目存储在数据库

第一个Scrapy项目

一、在你要存放项目的目录下，shift+右键在此处打开命令行，而后输入：scrapy startproject MyFirstDemo,建立成功，提示如图所示：

scrapy 框架文件解析：

MyFirstDemo/:该项目的Python模块，以后将在此处加入代码
MyFirstDemo/spiders/:放置spider代码的目录，在命令行使用“scrapy genspider+爬虫名”生成的--spider文件将会被放在此目录下。
MyFirstDemo/items.py：项目中的item文件
MyFirstDemo/pipelines.py:项目中的pipelines文件
MyFirstDemo/settings.py:项目的设置文件
scrapy.cfg:项目的配置文件，通常不须要修改，也不能删除

建立spider文件：在cmd中切换到MyFirstDemo文件中，输入“scrapy genspider spider_myfirstdemo baidu.com”，在spider下面生成spider_city_58文件，代码以下：

Scrapy基本方法和属性：

爬虫名称：name属性
启动方法：start_requests(),或start_urls()启动
默认解析方法：parse()
启动连接列表：start_urls()属性