人生苦短,我用Pythonpython
一、windows下安装流程:数据库
命令行执行pip Install scrapy安装scrapy,若是你已经配置过环境变量,则任意打开命令行窗口,输入pip install scrapy命令,则能够执行安装。若没有配置过环境变量,则进入到你python的安装路径下,shift+右键,在此处打开命令行窗口,而后输入pip install scrapy安装。windows
特别说明:windows下安装,由于某些包不兼容,会出现安装失败的状况,通常是twisted安装失败,固然也会可能其余包安装失败,具体状况根据本身安装提示。若twisted安装失败,则去Python Extension Packages for Windows地址去搜索twisted,选好本身对应的版本,否则会安装失败,下载完以后,到下载文件所在位置,shift+右键,在此处打开命令行窗口,输入pip install xxx.whl(完整文件名)。安装完成以后,打开命令行:输入scrapy -h验证是否安装成功!若提示未成功,则从新执行pip install scrapy命令。
框架
二、Mac系统安装流程scrapy
能够直接使用pip install scrapy进行安装ide
若是没有安装pip,但是使用如下命令行语句先安装pip:网站
一个最基本的爬虫只须要两部分组成:Spider(爬虫)、Pipeline(管道)url
Spider(爬虫):定义了如何爬取某个网站,包括了爬取的动做(例如是否跟进连接)以及如何从网页的内容中提取结构化数据(爬取item)。简单来讲,Spider就是定义爬取的动做及分析某个网页的地方。命令行
Pipeline(管道):每一个项目管道组件是一个实现简单方法的Python类。他们接受一个项目并对其执行操做,还决定该项目是否应该继续经过流水线或被丢弃而且再也不被处理。cdn
Pipeline(管道的做用):
Item管道的主要责任是负责处理由蜘蛛从网页中抽取的item,它的主要任务是清洗、验证和存储数据。当页面被蜘蛛解析后,将被发送到item管道,并通过几个特定的次序处理数据。
项目管道的用途:
一、在你要存放项目的目录下,shift+右键在此处打开命令行,而后输入:scrapy startproject MyFirstDemo,建立成功,提示如图所示:
scrapy 框架文件解析:
建立spider文件:在cmd中切换到MyFirstDemo文件中,输入“scrapy genspider spider_myfirstdemo baidu.com”,在spider下面生成spider_city_58文件,代码以下:
Scrapy基本方法和属性: