新建一个scrapy项目的步骤

1、创建一个scrapy的开发环境


mkvirtualenv article

mkvirtualenv --python=C:\Users\Administrator\AppData\Local\Programs\Python\Python\python.exe


2、使用   scrapy 来创建 ArticleSpider项目

在文件夹中右键,在此处打开命令窗口,本人是在这个目录 C:\Users\win\Desktop\scrapytest

然后输入下面的指令:

scrapy startproject ArticleSpider

然后将项目导入到pycharm中,项目的结构目录如下图所示

settings.py是一个总配置文件:

BOT_NAME : 工程名字

SPIDER_MODULES:

  NEWSPIDER_MODULE:

下面module的配置路径

pipelines.py 这个是一个跟数据存储相关的文件

middlewares.py 可以自定义,让scrapy更加可控

items.py 这个文件有点类似于 django中的一个form,定义了数据保存的格式

,但是它要比django的form应用简单,因为它的字段是十分单一的


spider文件夹:这个文件夹中存放的是具体的某个网站的爬虫.



3、通过命令行,我们可以创建出属于自己的一个spider

首先先进入到项目下面,然后执行命令本人项目路径是: C:\Users\win\Desktop\scrapytest\ArticleSpider

scrapy genspider jobbole blog.jobbole.com

于是便看到了项目中已经新建了一个 jobbole.py文件,如下图所示:

我们看到jobbole.py这个文件中已经默认生成了python代码,并且这个类继承自 scrapy.Spider