手把手教你如何新建scrapy爬虫框架的第一个项目(下)

前几天小编带你们学会了如何Scrapy框架下建立属于本身的第一个爬虫项目(上),今天咱们进一步深刻的了解Scrapy爬虫项目建立,这里以伯乐在线网站的全部文章页为例进行说明。git

  在咱们建立好Scrapy爬虫项目以后,会获得上图中的提示,大意是让咱们直接根据模板进行建立Scrapy项目。根据提示,咱们首先运行“cd article”命令,意思是打开或者进入到article文件夹下,尔后执行命令“scrapy genspider jobbole blog.jobbole.com”,表明经过Scrapy中自带的basic模板进行建立Scrapy项目,以下图所示。github

  根据提示,该模板建立的位置为article.spiders.jobbole,此时再次输入tree /f命令能够查看到除了以前建立Scrapy爬虫项目的基础文件以外,在spiders文件夹下确实是多了一个jobbole.py文件,以下图所示。web

  固然了,爬虫模板不必定非得用Scrapy爬虫项目自带的模板,也能够自定义的进行建立,可是基本上Scrapy提供的模板是足够使用的了。
app

  接下来,将整个爬虫项目导入到Pycharm中去,点击左上方“fileàopen”,找到爬虫项目建立的文件夹,点击确认便可。框架

  若是在Pycharm中的spiders文件夹下看不到jobbole.py这个文件的话,则先选中spiders文件夹,尔后右键,点击“Synchronize spider”,表明与spiders文件夹进行同步的意思,尔后即可以看到jobbole.py就会被加载出来。dom

  点击jobbole.py文件进行查看内容,以下图所示。能够看到该文件已经默认的填充了部分Python代码,实际上是从源模板中进行复制建立的。scrapy

  能够看到该文件中有当前Scrapy爬虫项目的名字nameScrapy爬虫项目所容许的域名范围allowed_domains,以及Scrapy爬虫项目的起始URL,即start_urlside

  接下来最后检查一下该项目的Python解释器,点击Pycharmsetting,而后输入“interpreter”,找到解释器所在的位置,以下图所示。网站

  若是“Project Interpreter”显示出来的解释器不是当前项目下的虚拟环境,则点击“Project Interpreter”的右侧的设置按钮,以下图所示。url

  而后点击“Add local”,以下图所示。

9.png

  找到该项目对应的虚拟环境Python解释器,进行添加便可,以下图所示。

  至此,Scrapy爬虫虚拟环境建立、Scrapy爬虫项目的建立以及Scrapy爬虫项目导入到Pycharm中以及解释器的配置已经完成,接下来咱们要开始写入爬虫逻辑,以及数据提取等,敬请期待~~

  对爬虫感兴趣的小伙伴,欢迎来Github:https://github.com/cassieeric,喜欢的话记得给个star噢~~

相关文章
相关标签/搜索