爬虫学习笔记3(Scrapy安装及基本使用)

人生苦短,我用Pythonpython

Scrapy安装

一、windows下安装流程:数据库

命令行执行pip Install scrapy安装scrapy,若是你已经配置过环境变量,则任意打开命令行窗口,输入pip install scrapy命令,则能够执行安装。若没有配置过环境变量,则进入到你python的安装路径下,shift+右键,在此处打开命令行窗口,而后输入pip install scrapy安装。windows




特别说明:windows下安装,由于某些包不兼容,会出现安装失败的状况,通常是twisted安装失败,固然也会可能其余包安装失败,具体状况根据本身安装提示。若twisted安装失败,则去Python Extension Packages for Windows地址去搜索twisted,选好本身对应的版本,否则会安装失败,下载完以后,到下载文件所在位置,shift+右键,在此处打开命令行窗口,输入pip install xxx.whl(完整文件名)。安装完成以后,打开命令行:输入scrapy -h验证是否安装成功!若提示未成功,则从新执行pip install scrapy命令。
框架

preview

二、Mac系统安装流程scrapy

能够直接使用pip install scrapy进行安装ide

若是没有安装pip,但是使用如下命令行语句先安装pip:网站


Scrapy爬虫的使用

一个最基本的爬虫只须要两部分组成:Spider(爬虫)、Pipeline(管道)url

Spider(爬虫):定义了如何爬取某个网站,包括了爬取的动做(例如是否跟进连接)以及如何从网页的内容中提取结构化数据(爬取item)。简单来讲,Spider就是定义爬取的动做及分析某个网页的地方。命令行

Pipeline(管道):每一个项目管道组件是一个实现简单方法的Python类。他们接受一个项目并对其执行操做,还决定该项目是否应该继续经过流水线或被丢弃而且再也不被处理。cdn

Pipeline(管道的做用):

Item管道的主要责任是负责处理由蜘蛛从网页中抽取的item,它的主要任务是清洗、验证和存储数据。当页面被蜘蛛解析后,将被发送到item管道,并通过几个特定的次序处理数据。

项目管道的用途:

  • 清理HTML数据
  • 验证抓取的数据(检查项目是否包含特定字段)
  • 检查重复
  • 将刮取的项目存储在数据库

第一个Scrapy项目

一、在你要存放项目的目录下,shift+右键在此处打开命令行,而后输入:scrapy startproject MyFirstDemo,建立成功,提示如图所示:


preview

scrapy 框架文件解析:

  • MyFirstDemo/:该项目的Python模块,以后将在此处加入代码
  • MyFirstDemo/spiders/:放置spider代码的目录,在命令行使用“scrapy genspider+爬虫名”生成的--spider文件将会被放在此目录下。
  • MyFirstDemo/items.py:项目中的item文件
  • MyFirstDemo/pipelines.py:项目中的pipelines文件
  • MyFirstDemo/settings.py:项目的设置文件
  • scrapy.cfg:项目的配置文件,通常不须要修改,也不能删除

建立spider文件:在cmd中切换到MyFirstDemo文件中,输入“scrapy genspider spider_myfirstdemo baidu.com”,在spider下面生成spider_city_58文件,代码以下:

preview

preview

preview

Scrapy基本方法和属性:

  • 爬虫名称:name属性
  • 启动方法:start_requests(),或start_urls()启动
  • 默认解析方法:parse()
  • 启动连接列表:start_urls()属性
相关文章
相关标签/搜索