前几天给你们分享了如何在Windows下建立网络爬虫虚拟环境及如何安装Scrapy,还有Scrapy安装过程当中常见的问题总结及其对应的解决方法,感兴趣的小伙伴能够戳连接进去查看。关于Scrapy的介绍,以前也在文章中说起过,今天小编带你们进入Scrapy爬虫框架,建立Scrapy爬虫框架的第一个项目,具体过程以下所示。python
一、进入虚拟环境,不知道进入的环境的小伙伴能够戳这篇文章:在Windows下如何建立指定的虚拟环境和在Windows下如何建立虚拟环境(默认状况下)。进入到环境以后能够经过“pip list”命令查看Scrapy是否安装成功,以下图所示。web
能够看到Scrapy已经安装成功。网络
二、这里小编欲将Scrapy项目放到demo文件夹下,因此先退回到上级目录中去,以下图所示。框架
三、尔后开始新建Scrapy项目,输入建立Scrapy爬虫项目命令“scrapy startproject article”,其中article是爬虫项目的名称,能够自行更改的。输入建立命令以后,稍等片刻,系统会根据模板进行建立项目,模板所在的目录是“D:pythonDemo8Septemberdemoscrapy_demoLibsite-packagesscrapy emplatesproject”,与你的爬虫环境相关,以下图所示,等待项目建立完成。固然咱们能够自定义爬虫模板,不过目前来看,Scrapy爬虫框架提供的模板够咱们用的了,咱们能把Scrapy搞明白也就能够了。scrapy
四、根据上图提示,首先进入到article文件夹下,输入命令“cd article”,以后经过“dir”查看目录,也能够经过“tree /f”生成文件目录的树形结构,以下图所示,能够很清晰的看到Scrapy建立命令生成的文件。ide
顶层的article文件夹是项目名。spa
第二层中包含的是一个与项目名同名的文件夹article和一个文件scrapy.cfg,这个与项目同名的文件夹article是一个模块,全部的项目代码都在这个模块内添加,而scrapy.cfg文件是整个Scrapy项目的配置文件。3d
第三层中有5个文件和一个文件夹,其中__init__.py是个空文件,做用是将其上级目录变成一个模块;items.py是定义储对象的文件,决定爬取哪些项目;middlewares.py文件是中间件,通常不用进行修改,主要负责相关组件之间的请求与响应;pipelines.py是管道文件,决定爬取后的数据如何进行处理和存储;settings.py是项目的设置文件,设置项目管道数据的处理方法、爬虫频率、表名等;spiders文件夹中放置的是爬虫主体文件(用于实现爬虫逻辑)和一个__init__.py空文件。orm
五、在Windows文件夹下也能够很清晰的看到新建的Scrapy文件,以下图所示。中间件
六、固然,也能够经过Pycharm导入项目的方式进行查看项目文件,此时更加的清晰,以下图所示。
七、点击各个项目文件,能够查看其中的内容,其中settings.py文件的内容以下图所示,其余的文件内容在此就再也不赘述了。
至此,第一个Scrapy爬虫项目的建立及Scrapy爬虫项目中的文件解析介绍就先到这里了,下一步开始进行Scrapy爬虫项目的进阶内容,敬请期待~~