环境配置问题可能一直会让咱们头疼,包括以下几种状况。
python
咱们在本地写好了一个Scrapy爬虫项目,想要把它放到服务器上运行,可是服务器上没有安装Python环境。git
其余人给了咱们一个Scrapy爬虫项目,项目使用包的版本和本地环境版本不一致,项目没法直接运行。github
咱们须要同时管理不一样版本的Scrapy项目,如早期的项目依赖于Scrapy 0.25,如今的项目依赖于Scrapy 1.4.0。mongodb
在这些状况下,咱们须要解决的就是环境的安装配置、环境的版本冲突解决等问题。docker
对于Python来讲,VirtualEnv的确能够解决版本冲突的问题。可是,VirtualEnv不太方便作项目部署,咱们仍是须要安装Python环境,数据库
如何解决上述问题呢?答案是用Docker。Docker能够提供操做系统级别的虚拟环境,一个Docker镜像通常都包含一个完整的操做系统,而这些系统内也有已经配置好的开发环境,如Python 3.6环境等。服务器
咱们能够直接使用此Docker的Python 3镜像运行一个容器,将项目直接放到容器里运行,就不用再额外配置Python 3环境。这样就解决了环境配置的问题。app
咱们也能够进一步将Scrapy项目制做成一个新的Docker镜像,镜像里只包含适用于本项目的Python环境。若是要部署到其余平台,只须要下载该镜像并运行就行了,由于Docker运行时采用虚拟环境,和宿主机是彻底隔离的,因此也不须要担忧环境冲突问题。scrapy
若是咱们可以把Scrapy项目制做成一个Docker镜像,只要其余主机安装了Docker,那么只要将镜像下载并运行便可,而没必要再担忧环境配置问题或版本冲突问题。ide
接下来,咱们尝试把一个Scrapy项目制做成一个Docker镜像。
咱们要实现把前文Scrapy的入门项目打包成一个Docker镜像的过程。项目爬取的网址为:http://quotes.toscrape.com/。本章Scrapy入门一节已经实现了Scrapy对此站点的爬取过程,项目代码为:https://github.com/Python3WebSpider/ScrapyTutorial。若是本地不存在的话能够将代码Clone下来。
请确保已经安装好Docker和MongoDB并能够正常运行。
首先在项目的根目录下新建一个requirements.txt文件,将整个项目依赖的Python环境包都列出来,以下所示:
scrapy pymongo
若是库须要特定的版本,咱们还能够指定版本号,以下所示:
scrapy>=1.4.0 pymongo>=3.4.0
在项目根目录下新建一个Dockerfile文件,文件不加任何后缀名,修改内容以下所示:
FROM python:3.6 ENV PATH /usr/local/bin:$PATH ADD . /code WORKDIR /code RUN pip3 install -r requirements.txt CMD scrapy crawl quotes
第一行的FROM
表明使用的Docker基础镜像,在这里咱们直接使用python:3.6的镜像,在此基础上运行Scrapy项目。
第二行ENV
是环境变量设置,将/usr/local/bin:$PATH
赋值给PATH
,即增长/usr/local/bin
这个环境变量路径。
第三行ADD
是将本地的代码放置到虚拟容器中。它有两个参数:第一个参数是.
,表明本地当前路径;第二个参数是/code
,表明虚拟容器中的路径,也就是将本地项目全部内容放置到虚拟容器的/code目录下,以便于在虚拟容器中运行代码。
第四行WORKDIR
是指定工做目录,这里将刚才添加的代码路径设成工做路径。这个路径下的目录结构和当前本地目录结构是相同的,因此咱们能够直接执行库安装命令、爬虫运行命令等。
第五行RUN
是执行某些命令来作一些环境准备工做。因为Docker虚拟容器内只有Python 3环境,而没有所须要的Python库,因此咱们运行此命令来在虚拟容器中安装相应的Python库如Scrapy,这样就能够在虚拟容器中执行Scrapy命令了。
第六行CMD
是容器启动命令。在容器运行时,此命令会被执行。在这里咱们直接用scrapy crawl quotes来启动爬虫。
接下来咱们须要修改MongoDB的链接信息。若是咱们继续用localhost是没法找到MongoDB的,由于在Docker虚拟容器里localhost实际指向容器自己的运行IP,而容器内部并无安装MongoDB,因此爬虫没法链接MongoDB。
这里的MongoDB地址能够有以下两种选择。
若是只想在本机测试,咱们能够将地址修改成宿主机的IP,也就是容器外部的本机IP,通常是一个局域网IP,使用ifconfig
命令便可查看。
若是要部署到远程主机运行,通常MongoDB都是可公网访问的地址,修改成此地址便可。
在本节中,咱们的目标是将项目打包成一个镜像,让其余远程主机也可运行这个项目。因此咱们直接将此处MongoDB地址修改成某个公网可访问的远程数据库地址,修改MONGO_URI
以下所示:
MONGO_URI = 'mongodb://admin:admin123@120.27.34.25:27017'
此处地址能够修改成本身的远程MongoDB数据库地址。
这样项目的配置就完成了。
接下来咱们构建Docker镜像,执行以下命令:
docker build -t quotes:latest .
执行过程当中的输出以下所示:
Sending build context to Docker daemon 191.5 kB Step 1/6 : FROM python:3.6 ---> 968120d8cbe8 Step 2/6 : ENV PATH /usr/local/bin:$PATH ---> Using cache ---> 387abbba1189 Step 3/6 : ADD . /code ---> a844ee0db9c6 Removing intermediate container 4dc41779c573 Step 4/6 : WORKDIR /code ---> 619b2c064ae9 Removing intermediate container bcd7cd7f7337 Step 5/6 : RUN pip3 install -r requirements.txt ---> Running in 9452c83a12c5 ... Removing intermediate container 9452c83a12c5 Step 6/6 : CMD scrapy crawl quotes ---> Running in c092b5557ab8 ---> c8101aca6e2a Removing intermediate container c092b5557ab8 Successfully built c8101aca6e2a
这样的输出就说明镜像构建成功。这时咱们查看一下构建的镜像,以下所示:
docker images
返回结果中的一行代码以下所示:
quotes latest 41c8499ce210 2 minutes ago 769 MB
这就是咱们新构建的镜像。
镜像能够先在本地测试运行,咱们执行以下命令:
docker run quotes
这样咱们就利用此镜像新建并运行了一个Docker容器,运行效果彻底一致,以下图所示。
若是出现相似图上的运行结果,这就证实构建的镜像没有问题。
构建完成以后,咱们能够将镜像Push到Docker镜像托管平台,如Docker Hub或者私有的Docker Registry等,这样咱们就能够从远程服务器下拉镜像并运行了。
以Docker Hub为例,若是项目包含一些私有的链接信息(如数据库),咱们最好将Repository设为私有或者直接放到私有的Docker Registry。
首先在https://hub.docker.com注册一个帐号,新建一个Repository,名为quotes。好比,个人用户名为germey,新建的Repository名为quotes,那么此Repository的地址就能够用germey/quotes来表示。
为新建的镜像打一个标签,命令以下所示:
docker tag quotes:latest germey/quotes:latest
Push镜像到Docker Hub便可,命令以下所示:
docker push germey/quotes
Docker Hub便会出现新Push的Docker镜像了,以下图所示。
若是咱们想在其余的主机上运行这个镜像,主机上装好Docker后,能够直接执行以下命令:
docker run germey/quotes
这样就会自动下载镜像,启动容器运行。不须要配置Python环境,不须要关心版本冲突问题。
运行效果以下图所示。
整个项目爬取完成后,数据就能够存储到指定的数据库中。
咱们讲解了将Scrapy项目制做成Docker镜像并部署到远程服务器运行的过程。使用此种方式,咱们在本节开头所列出的问题都迎刃而解。