八、Dockerfile介绍和最佳实践

时间 2019-12-09

原文原文链接

1、Dockerfile 概念

一、Dockerfile是什么

Docker 镜像是一个特殊的文件系统，除了提供容器运行时所需的程序、库、资源、配置等文件外，还包含了一些为运行时准备的一些配置参数（如匿名卷、环境变量、用户等）。镜像不包含任何动态数据，其内容在构建以后也不会被改变。php

镜像的定制实际上就是定制每一层所添加的配置、文件。若是咱们能够把每一层修改、安装、构建、操做的命令都写入一个脚本，用这个脚原本构建、定制镜像，那么以前说起的没法重复的问题、镜像构建透明性的问题、体积的问题就都会解决。这个脚本就是 Dockerfile。python

Dockerfile 是一个文本文件，其内包含了一条条的指令(Instruction)，每一条指令构建一层，所以每一条指令的内容，就是描述该层应当如何构建。有了 Dockerfile，当咱们须要定制本身额外的需求时，只需在 Dockerfile 上添加或者修改指令，从新生成 image 便可，省去了敲命令的麻烦。nginx

2、Dockerfile构建方式

Docker经过对Dockerfile中的一系列指令的顺序解析实现自动镜像构建，构建方式：

经过使用build命令，根据Dockerfie的命令来构建镜像，默认加载当前目录下的Dockerfile文件
经过源代码路径的方式，即指定Dockerfile文件位置，好比Git仓库位置
经过标准输入流的方式

经过源代码路径方式

Dockerfile须要放置在项目的根目录位置
在构建的时候，Dockerfile client会把整个context打包发送到Docker Server端，而后由server端负责build镜像，在构建成功后，会删除context目录
docker build -t {镜像名字} {项目路径能够是相对路径}

经过标准输入流方式

经过标准输入流的方式获取Dockerfile的内容
client不会打包上传context目录，所以对于一些ADD、COPY等涉及host本地文件复制的操做不可以支持
docker build -t {镜像名字} - < Dockerfile路径

经过build命令

这是最经常使用的方式，docker build -t {镜像名字} {项目路径能够是相对路径，也能够是网络文件}
docker build -t="xuequn/nginx:v1" git@github:loveliuli/custom_dockerfile
注意：custom_dockerfile目录下必须存在Dockerfile文件才行！

3、Dockerfile构建缓存

Dockerfile中的每个指令执行完毕后，都会提交为一个image，这样保证了指令之间不会有影响
Dockerfile会尽量尝试重用以前已经构建的镜像
能够经过在build命令中增长--no-cache的方式来禁用这个cache

4、Dockerfile最佳实践

Docker镜像由只读层组成，每一个层都表明一个Dockerfile指令。这些层是堆叠的，每一层都是前一层变化的增量。c++

一、了解构建上下文

发出docker build命令时，当前工做目录称为构建上下文。默认状况下，假定Dockerfile位于此处，但您可使用文件flag（-f）指定其余位置。不管Dockerfile实际存在的位置如何，当前目录中的全部文件和目录的递归内容都将做为构建上下文发送到Docker守护程序。git

构建上下文示例github

为构建上下文建立一个目录并cd进入该目录。将“hello”写入名为的文本文件，hello并建立一个cat在其上运行的Dockerfile 。从构建上下文（.）中构建镜像：golang

mkdir myproject && cd myproject
echo "hello" > hello
echo -e "FROM busybox\nCOPY /hello /\nRUN cat /hello" > Dockerfile
docker build -t helloapp:v1 .

把Dockerfile文件移动到dockerfile文件夹，hello文件移动到context文件夹，构建第二个版本（不依赖于上一个版本的缓存）。使用-f 指向Dockerfile并指定构建上下文的目录：web

mkdir -p dockerfiles context
mv Dockerfile dockerfiles && mv hello context
docker build --no-cache -t helloapp:v2 -f dockerfiles/Dockerfile context

二、管道Dockerfile经过`stdin`

Docker17.05增长了Dockerfile经过stdin使用本地或远程构建上下文进行管道来构建镜像的功能。在早期版本中，使用Dockerfilefrom构建镜像stdin并未发送构建上下文。sql

Docker17.04及更低版本docker

 
    docker build -t foo -<<EOF
FROM busybox
RUN echo "hello world"
EOF 
   

Docker 17.05及更高版本（本地构建上下文）

 
    docker build -t foo . -f-<<EOF
FROM busybox
RUN echo "hello world"
COPY . /my-copied-files
EOF 
   

Docker 17.05及更高版本（远程构建上下文）

docker build -t foo https://github.com/thajeztah/pgadmin4-docker.git -f-<<EOF
FROM busybox
COPY LICENSE config_local.py /usr/local/lib/python2.7/site-packages/pgadmin4/
EOF

三、使用.dockerignore

要排除与构建无关的文件（不重构源存储库），请使用.dockerignore文件。此文件支持与.gitignore文件相似的排除模式。有关建立一个的信息，请参阅 .dockerignore文件。

四、使用多阶段构建

多阶段构建（在Docker 17.05或更高版本中）容许您大幅减少最终镜像的大小，而没必要费力地减小中间层和文件的数量。

因为镜像是在构建过程的最后阶段构建的，所以能够经过利用构建缓存来最小化镜像层。

例如，若是您的构建包含多个镜像层，则能够从较不频繁更改（以确保构建缓存可重用）到更频繁更改的顺序对它们进行排序：

安装构建应用程序所需的工具 #yum install gcc-c++等
安装或更新库依赖项 #yum install nginx
生成您的应用程序 #COPY ./* /var/www/

例如Go应用程序的Dockerfile可能以下所示：

FROM golang:1.9.2-alpine3.6 AS build

# Install tools required for project#安装项目必须的工具
# Run `docker build --no-cache .` to update dependencies #使用nocache更新依赖
RUN apk add --no-cache git
RUN go get github.com/golang/dep/cmd/dep

# List project dependencies with Gopkg.toml and Gopkg.lock  #列出项目依赖
# These layers are only re-built when Gopkg files are updated #这些层只会在文件有更新时才会被重构
COPY Gopkg.lock Gopkg.toml /go/src/project/
WORKDIR /go/src/project/
# Install library dependencies
RUN dep ensure -vendor-only

# Copy the entire project and build it  #拷贝整个项目并构建
# This layer is rebuilt when a file changes in the project directory  #当项目目录里有文件变化时，这一层将会被从新构建
COPY . /go/src/project/
RUN go build -o /bin/project

# This results in a single layer image  #这样会致使一个独立的镜像层
FROM scratch
COPY --from=build /bin/project /bin/project
ENTRYPOINT ["/bin/project"]
CMD ["--help"]

五、不要安装没必要要的包

为了下降复杂性，依赖性，文件大小和构建时间，避免安装额外的或没必要要的软件包，由于它们可能“很好”。例如，您不须要在数据库镜像中包含文本编辑器。

六、解耦应用程序

每一个容器应该只承担一个功能。

将应用程序分散到多个容器中能够更容易地水平扩展和重用容器。例如，Web应用程序可能包含三个独立的容器，每一个容器都有本身独特的镜像，以分离的方式管理Web应用程序，数据库和内存缓存。

将每一个容器限制为一个进程是一个很好的经验法则，但它并非一个严格的规则。例如，不只能够使用init进程生成容器，并且某些程序可能会自行生成其余进程。例如，Celery能够生成多个工做进程，Apache能够为每一个请求建立一个进程。

使用您的最佳判断，尽量保持容器简单和模块化。若是容器彼此依赖，则可使用Docker容器网络来确保这些容器能够进行通讯。

一个容器就是一个进程，承担一个功能，这个是最重要的！

七、最小化层数

在旧版本的Docker中，最大限度地减小镜像中的层数以确保它们具备高性能很是重要。

添加了如下功能以减小此限制：

在Docker 1.10和更高，只有指令RUN，COPY，ADD建立镜像。其余指令建立临时中间镜像，而不是直接增长构建的大小。
在Docker 17.05及更高版本中，您能够执行多阶段构建，并仅将所需的东西复制到最终镜像中。这容许您在中间构建阶段中包含工具和调试信息，而不会增长最终镜像的大小。

八、对多行参数进行排序

只要有可能，经过按字母数字方式对多行参数进行排序，能够缓解之后的更改。这有助于避免重复包并使列表更容易更新。这也使PR更容易阅读和审查。在反斜杠（\）以前添加空格也有帮助。

例如：

RUN apt-get update && apt-get install -y \
  bzr \
  cvs \
  git \
  mercurial \
  subversion

九、利用构建缓存

构建镜像时，Docker会逐步执行Dockerfile中的指令，按指定的顺序执行每一个指令。在检查每条指令时，Docker会在其缓存中查找能够重用的现有镜像，而不是建立新的（重复）镜像。

若是您根本不想使用缓存，可使用命令中的--no-cache=true选项来docker build。可是，若是你让Docker使用它的缓存，重要的是要了解它什么时候能够找到匹配的镜像。

Docker遵循的基本规则概述以下：

从已经在高速缓存中的父镜像开始，将下一条指令与从该基本镜像导出的全部子镜像进行比较，以查看它们中的一个是否使用彻底相同的指令构建。若是不是，则缓存无效。
在大多数状况下，只需将Dockerfile其中一个子镜像中的指令进行比较就足够了。可是，某些说明须要更多的检查和解释。
对于ADD和COPY指令，检查镜像中文件的内容，并计算每一个文件的校验和。在这些校验和中不考虑文件的最后修改时间和最后访问时间。在高速缓存查找期间，将校验和与现有镜像中的校验和进行比较。若是文件中的任何内容（例如内容和元数据）发生了任何变化，则缓存无效。
除了ADD和COPY命令以外，缓存检查不会查看容器中的文件来肯定缓存匹配。例如，在处理RUN apt-get -y update命令时，不检查容器中更新的文件以肯定是否存在缓存命中。在这种状况下，只需使用命令字符串自己来查找匹配项。

一旦高速缓存失效，全部后续Dockerfile命令都会生成新镜像，而且不使用高速缓存。

5、Dockerfile经常使用指令和最佳实践

只支持Docker本身定义的一套指令，不支持自定义
大小写不敏感，可是建议所有使用大写
根据Dockerfile的内容顺序执行

Dockerfile经常使用指令以下：

一、FROM

FROM {base镜像}
必须放在Dockerfile的第一行，表示从哪一个baseimage开始构建

FROM最佳实践

尽量使用当前的官方存储库做为镜像的基础。
咱们推荐Alpine图像，由于它受到严格控制而且尺寸较小（目前小于5 MB），同时仍然是完整的Linux发行版。

二、LABLE最佳实践

您能够为镜像添加标签，以帮助按项目组织镜像，记录许可信息，帮助实现自动化或出于其余缘由。

对于每一个标签，添加LABEL以一个或多个键值对开头的行。如下示例显示了不一样的可接受格式。内容包括解释性意见。

必须引用带空格的字符串或必须转义空格。内引号字符（"）也必须进行转义。

镜像能够有多个标签。

# 设置一个或多个标签
LABEL com.example.version="0.0.1-beta"
LABEL vendor1="ACME Incorporated"
LABEL vendor2=ZENITH\ Incorporated
LABEL com.example.release-date="2015-02-12"
LABEL com.example.version.is-production=""

三、MAINTAINER

可选的，用来标识image做者的地方

四、RUN

每个RUN指令都会是在一个新的container里面运行，并提交为一个image做为下一个RUN的base
一个Dockerfile中能够包含多个RUN，按定义顺序执行
RUN支持两种运行方式：
　RUN <cmd> 这个会看成/bin/sh -c “cmd” 运行
　RUN [“executable”，“arg1”，。。]，Docker把他看成json的顺序来解析，所以必须使用双引号，并且executable须要是完整路径

　　RUN 都是启动一个容器、执行命令、而后提交存储层文件变动。第一层 RUN command1 的执行仅仅是当前进程，一个内存上的变化而已，其结果不会形成任何文件。而到第二层的时候，启动的是一个全新的容器，跟第一层的容器更彻底不要紧，天然不可能继承前一层构建过程当中的内存变化。而若是须要将两条命令或者多条命令联合起来执行须要加上&&。如：cd /usr/local/src && wget xxxxxxx

RUN最佳实践

RUN在使用反斜杠分隔的多行上拆分长或复杂语句，以使您Dockerfile更具可读性，可理解性和可维护性。

例如：

 RUN apt-get update && apt-get install -y \
        package-bar \
        package-baz \
        package-foo

　　使用管道：RUN wget -O - https://some.site | wc -l > /number

五、CMD

CMD的做用是做为执行container时候的默认行为（容器默认的启动命令）
当运行container的时候声明了command，则再也不用image中的CMD默认所定义的命令
一个Dockerfile中只能有一个有效的CMD，当定义多个CMD的时候，只有最后一个才会起做用，即会被覆盖。
CMD和ENTRPOINT之间的相互关系须要理解，ENTRPOINT不容易被覆盖，并且docker run中指定的任何参数都会当作参数再次传递给ENTRPOINT。

CMD定义的三种方式：

　　CMD <cmd> 这个会看成/bin/sh -c "cmd"来执行

　　CMD ["executable","arg1",....]

　　CMD ["arg1","arg2"]，这个时候CMD做为ENTRYPOINT的参数

CMD最佳实践

在大多数其余状况下，CMD应该给出一个交互式shell，例如bash，python和perl。例如，CMD ["perl", "-de0"]，CMD ["python"]，或CMD [“php”, “-a”]。

使用此表单意味着当您执行相似的操做时 docker run -it python，您将被放入可用的shell中，随时可使用。

CMD应该不多的方式使用CMD [“param”, “param”]会配合ENTRYPOINT，除非你和你预期的用户已经很是熟悉ENTRYPOINT是如何工做的。

六、EXPOSE声明端口

格式为 EXPOSE <端口1> [<端口2>...]。

EXPOSE 指令是声明运行时容器提供服务端口，这只是一个声明，在运行时并不会由于这个声明应用就会开启这个端口的服务。

在 Dockerfile 中写入这样的声明有两个好处，

　　一、帮助镜像使用者理解这个镜像服务的守护端口，以方便配置映射；

　　二、在运行时使用随机端口映射时，也就是 docker run -P 时，会自动随机映射 EXPOSE 的端口。

EXPOSE最佳实践:

尽可能使用常规端口，好比Mysql的3306，Mongo的27017。

七、ENTRPOINT

entrypoint的做用是，把整个container变成了一个可执行的文件，
这样不可以经过替换CMD的方法来改变建立container的方式。
可是能够经过参数传递的方法影响到container内部
每一个Dockerfile只可以包含一个entrypoint，多个entrypoint只有最后一个有效
当定义了entrypoint之后，CMD只可以做为参数进行传递

entrypoint定义方式：

entrypoint ["executable","arg1","arg2"]，这种定义方式下，CMD能够经过json的方式来定义entrypoint的参数，能够经过在运行container的时候经过指定command的方式传递参数

entrypoint <cmd>，看成/bin/bash -c "cmd"运行命令

ENTRPOINT最佳实践

一、最好的用法是把ENTRYPOINT设置为镜像的主命令，容许该镜像和该命令同样运行（而后CMD用做默认标志）。

例如：

ENTRYPOINT ["s3cmd"] CMD ["--help"]

二、ENTRYPOINT指令还能够与辅助脚本结合使用，使其可以以与上述命令相似的方式运行，即便启动该工具可能须要多个步骤。

docker-entrpoint.sh文件：

#!/bin/bash
set -e

if [ "$1" = 'postgres' ]; then
    chown -R postgres "$PGDATA"

    if [ -z "$(ls -A "$PGDATA")" ]; then
        gosu postgres initdb
    fi

    exec gosu postgres "$@"
fi

exec "$@"

COPY ./docker-entrypoint.sh /
ENTRYPOINT ["/docker-entrypoint.sh"]
CMD ["postgres"]

八、ADD & COPY

当在源代码构建的方式下，能够经过ADD和COPY的方式，把host上的文件或者目录复制到image中
ADD和COPY的源必须在context路径下
当src为网络URL的状况下，ADD指令能够把它下载到dest的指定位置，这个在任何build的方式下均可以work
ADD相对COPY还有一个多的功能，可以进行自动解压压缩包。
ADD latest.tar.gz /var/www/wordpress 他会自动将tar包解压到wordpress目录下。

ADD & COPY最佳实践

通常而言，虽然ADD而且COPY在功能上相似，可是COPY 是优选的。由于COPY相对ADD来讲，是更透明的，好比ADD在添加tar包时，会自动解压。

若是您的Dockerfile有多个步骤使用上下文中的不一样文件，则COPY它们是单独的，而不是一次性完成。这可确保每一个步骤的构建缓存仅在特定所需文件更改时失效（强制从新执行该步骤）。

COPY requirements.txt /tmp/
RUN pip install --requirement /tmp/requirements.txt
COPY . /tmp/

　　尽可能减少镜像文件大小，不是一次性的拷贝文件，而是只拷贝须要的文件，这样镜像文件会更小。

因为镜像大小很重要，ADD所以强烈建议不要使用从远程URL获取包。你应该使用curl或wget代替。这样，您能够删除提取后再也不须要的文件，也没必要在图像中添加其余图层。例如，你应该避免如下作法：

ADD http://example.com/big.tar.xz /usr/src/things/
RUN tar -xJf /usr/src/things/big.tar.xz -C /usr/src/things
RUN make -C /usr/src/things all

而是要这样作：

RUN mkdir -p /usr/src/things \
    && curl -SL http://example.com/big.tar.xz \
    | tar -xJC /usr/src/things \
    && make -C /usr/src/things all

九、ENV

ENV key value
用来设置环境变量，后续的RUN可使用它所建立的环境变量
当建立基于该镜像的container的时候，会自动拥有设置的环境变量

ENV最佳实践

要使新软件更易于运行，您可使用ENV更新PATH容器安装的软件的环境变量。例如，ENV PATH /usr/local/nginx/bin:$PATH确保CMD [“nginx”] 正常工做。

该ENV指令还可用于提供特定于您但愿容纳的服务的必需环境变量，例如Postgres PGDATA。

最后，ENV还能够用来设置经常使用的版本号，以便更容易维护版本的变化，以下例所示：

ENV PG_MAJOR 9.3
ENV PG_VERSION 9.3.4
RUN curl -SL http://example.com/postgres-$PG_VERSION.tar.xz | tar -xJC /usr/src/postgress && …
ENV PATH /usr/local/postgres-$PG_MAJOR/bin:$PATH

每一行ENV就会建立一个新的中间层，就像RUN命令同样。这意味着即便您在未来的镜像中取消设置环境变量，它仍然会在此图层中保留，而且能够转储其值。

您能够经过建立以下所示的Dockerfile来测试它，而后构建它。

FROM alpine
ENV ADMIN_USER="mark"
RUN echo $ADMIN_USER > ./mark
RUN unset ADMIN_USER
CMD sh

$ docker run --rm -it test sh echo $ADMIN_USER

mark

要防止这种状况发生，而且确实取消了以前设置的环境变量，请使用RUN带有shell命令的命令，在单个镜像中设置，使用和取消设置变量all。您可使用;或分隔命令&&。

若是您使用第二种方法，而且若是其中一个命令失败，则docker build也会失败。这一般是一个好主意。使用\做为行继续符能够提升可读性。

您还能够将全部命令放入shell脚本中，并让RUN命令运行该shell脚本。　

十、WORKDIR

用来指定当前工做目录（或者称为当前目录）
当使用相对目录的状况下，采用上一个WORKDIR指定的目录做为基准

WORKDIR最佳实践

为了清晰和可靠，您应该始终使用绝对路径的 WORKDIR。此外，您应该使用WORKDIR，而不是使用难以阅读，排除故障和维护指令RUN cd … && do-something。

十一、USER

指定UID或者username，来决定运行RUN指令的用户

USER最佳实践
若是服务能够在没有权限的状况下运行，请把USER更改成非root用户。
首先在Dockerfile中建立用户和组RUN groupadd -r postgres && useradd --no-log-init -r -g postgres postgres。
镜像中的用户和组被分配了不肯定的UID/GID，由于不管镜像如何构建，都会分配一个UID/GID。所以，若是它很重要，您应该分配一个显式的UID / GID。
因为Go归档/tar包在处理松散文件时有一个未解决的错误，尝试在Docker容器内建立具备很是大的UID的用户可能致使磁盘耗尽，由于/var/log/faillog在容器层中填充了NULL（\ 0）字符。
解决方法是将--no-log-init标志传递给useradd。Debian / Ubuntu adduser装饰器不支持此标志。

避免安装或使用sudo,由于它具备可能致使不可预测的TTY和信号转发行为的问题。若是您绝对须要相似的功能sudo，例如将守护程序初始化root为非运行它root，请考虑使用“gosu”。

最后，为了减小层次和复杂性，避免USER频繁地来回切换。

十二、ONBUILD

ONBUILD做为一个trigger的标记，能够用来trigger任何Dockerfile中的指令
能够定义多个ONBUILD指令
当下一个镜像B使用镜像A做为base的时候，在FROM A指令前，会先按照顺序执行在构建A时候定义的ONBUILD指令
ONBUILD <DOCKERFILE 指令> <content>

ONBUILD最佳实践

ONBUILD指令能为镜像添加触发器，当一个镜像被用做其余镜像的基础镜像时，改镜像中的触发器将会被执行。

ONBUILD指令是紧跟在FROM以后指定的。

Docker构建ONBUILD在子代中的任何命令以前执行命令Dockerfile。

把时要当心，ADD或COPY在ONBUILD。若是新构建的上下文缺乏正在添加的资源，则“onbuild”映像将发生灾难性故障。

例如：

FROM ubuntu:14.04
MAINTAINER xuequn "xuequn@kingsoft.com"
RUN apt-get update
RUN apt-get install -y apache2
ENV APACHE_RUN_USER www-data
ENV APACHE_RUN_GROUP www-data
ENV APACHE_LOG_DIR /var/log/apache2
ONBUILD ADD . /var/www/
EXPOSE 80
ENTRPOINT ["/usr/sbin/apache2"]
CMD ["-D","FOREGOUND"]

　　在新构建的镜像包含一条ONBUILD指令，该指令会使用ADD 指令将构建环境所在的目录下的全部文件拷贝到/var/www/下面。

当咱们使用上面的镜像做为基础镜像，再构建一个新的镜像时：

FROM xuequn/apache2
MAINTAINER xuequn 'xuequn@kingsoft.com'
ENV APPLICATION_NAME webapp01

　　当执行完FROM时，就进入了构建阶段，此时会出发基础镜像中的ONBUILD指令，会将当期目录下的全部文件拷贝到/var/www/下面，这样就完成了个性化镜像制做功能，这就是ONBUILD的绝妙之处！！

注意：

ONBUILD指令只会被继承一次，也就是在子镜像制做时会出发ONBUILD指令，而孙子镜像构建时不会再触发此指令！
ONBUILD指令中有几条指令是不能使用的：FROM/MAINTAINER/ONBUILD。由于这样会进入递归调用而进入死循环！

1三、VOLUME

用来建立一个在image以外的mount point，用来在多个container之间实现数据共享
运行使用json array的方式定义多个volume
VOLUME ["/var/data1","/var/data2"]
或者plain text的状况下定义多个VOLUME指令

VOLUME最佳实践

该VOLUME指令应用于公开由docker容器建立的任何数据库存储区域，配置存储或文件/文件夹。