Docker镜像构成和定制

时间 2020-07-29

原文原文链接

Docker镜像构成和定制

利用 commit 理解镜像构成

docker commit 命令应用场合

docker commit 命令除了学习以外，还有一些特殊的应用场合，好比被***后保存现场等。可是，不要使用 docker commit 定制镜像，定制镜像应该使用 Dockerfile 来完成。node

慎用 docker commit

使用 docker commit 意味着全部对镜像的操做都是黑箱操做，生成的镜像也被称为黑箱镜像，换句话说，就是除了制做镜像的人知道执行过什么命令、怎么生成的镜像，别人根本无从得知。并且，即便是这个制做镜像的人，过一段时间后也没法记清具体在操做的。虽然 docker diff 或许能够告诉获得一些线索，可是远远不到能够确保生成一致镜像的地步。这种黑箱镜像的维护工做是很是痛苦的。mysql

使用 Dockerfile 定制镜像

Dockerfile 是一个文本文件，其内包含了一条条的指令(Instruction)，每一条指令构建一层，所以每一条指令的内容，就是描述该层应当如何构建。linux

Dockerfile 指令介绍

COPY 复制文件

格式：
* COPY <源路径>... <目标路径>
* COPY ["<源路径1>",... "<目标路径>"]
好比：
COPY package.json /usr/src/app/

说明：
<源路径> 能够是多个，甚至能够是通配符，其通配符规则要知足 Go 的 filepath.Match 规则，如：
COPY hom* /mydir/
COPY hom?.txt /mydir/
<目标路径> 能够是容器内的绝对路径，也能够是相对于工做目录的相对路径（工做目录能够用 WORKDIR 指令来指定）。目标路径不须要事先建立，若是目录不存在会在复制文件前先行建立缺失目录。

注意：
使用 COPY 指令，源文件的各类元数据都会保留。好比读、写、执行权限、文件变动时间等。这个特性对于镜像定制颇有用。特别是构建相关文件都在使用 Git 进行管理的时候。

ADD 更高级的复制文件

ADD 指令和 COPY 的格式和性质基本一致。可是在 COPY 基础上增长了一些功能。
若是 <源路径> 为一个 tar 压缩文件的话，压缩格式为 gzip, bzip2 以及 xz 的状况下，ADD 指令将会自动解压缩这个压缩文件到 <目标路径> 去。
最适合使用 ADD 的场合，就是当咱们须要自动解压缩的场合。如官方镜像 ubuntu 中：nginx

FROM scratch ##空白镜像
ADD ubuntu-xenial-core-cloudimg-amd64-root.tar.gz /
...

因为ADD 则包含了更复杂的功能，其行为也不必定很清晰。它不像COPY 的语义很明确，就是复制文件而已。因此，咱们仍是尽量使用COPY吧。git

CMD 容器启动命令

CMD 指令就是用于指定默认的容器主进程的启动命令的。github

CMD 指令的格式和 RUN 类似，也是两种格式：
* shell 格式：CMD <命令>
* exec 格式：CMD ["可执行文件", "参数1", "参数2"...]
* 参数列表格式：CMD ["参数1", "参数2"...]。在指定了 ENTRYPOINT 指令后，用 CMD 指定具体的参数。

在运行时能够指定新的命令来替代镜像设置中的这个默认命令，好比，nginx：1.7.9 镜像默认的 CMD 是 /bin/bash ，若是咱们直接使用 docker run -it nginx：1.7.9 的话，会直接进入 bash 。
咱们也能够在运行时指定运行别的命令，如 docker run -it nginx:1.7.9 cat /etc/os-release。这就是用 cat /etc/os-release 命令替换了默认的 /bin/bash 命令了，输出了系统版本信息。
在指令格式上，通常推荐使用 exec 格式，这类格式在解析时会被解析为 JSON 数组，所以必定要使用双引号 "，而不要使用单引号。redis

shell格式：
CMD echo $HOME
exec格式：
CMD [ "sh", "-c", "echo $HOME" ]
这就是为何咱们可使用环境变量的缘由，由于这些环境变量会被 shell 进行解析处理。

容器中应用在前台执行和后台执行的问题

Docker 不是虚拟机，容器中的应用都应该之前台执行，而不是像虚拟机、物理机里面那样，用 upstart/systemd 去启动后台服务，容器内没有后台服务的概念。sql

好比，关于nginx的启动，咱们错误的写成：docker

CMD service nginx start
或
CMD systemctl start nginx
而后发现容器执行后就当即退出了。对于容器而言，其启动程序就是容器应用进程，容器就是为了主进程而存在的，主进程退出，容器就失去了存在的意义，从而退出，其它辅助进程不是它须要关心的东西。
而使用 service nginx start 命令，则是但愿 upstart 来之后台守护进程形式启动 nginx 服务。经过上面内容咱们了解到 CMD service nginx start 会被理解为 CMD [ "sh", "-c", "service nginx start"]，所以主进程其实是 sh。那么当 service nginx start 命令结束后，sh 也就结束了，sh 做为主进程退出了，天然就会令容器退出。

正确的作法是直接执行 nginx 可执行文件，而且之前台形式运行，如：shell

CMD ["nginx", "-g", "daemon off;"]

ENTRYPOINT 入口点

ENTRYPOINT 的格式和 RUN 指令格式同样，分为 exec 格式和 shell 格式。
ENTRYPOINT 的目的和 CMD 同样，都是在指定容器启动程序及参数。ENTRYPOINT 在运行时也能够替代，不过比 CMD 要略显繁琐，须要经过 docker run 的参数 --entrypoint 来指定。
当指定了 ENTRYPOINT 后，CMD 的含义就发生了改变，再也不是直接的运行其命令，而是将 CMD 的内容做为参数传给 ENTRYPOINT 指令，换句话说实际执行时，将变为：

<ENTRYPOINT> "<CMD>"

那么有了 CMD 后，为何还要有 ENTRYPOINT 呢？这种 <ENTRYPOINT> "<CMD>" 有什么好处么？让咱们来看两个场景。

场景一：让镜像变成像命令同样使用

假设咱们须要一个得知本身当前公网 IP 的镜像，那么能够先用 CMD 来实现：

FROM ubuntu:16.04
RUN apt-get update \
    && apt-get install -y curl \
    && rm -rf /var/lib/apt/lists/*
CMD [ "curl", "-s", "http://ip.cn" ]

假如咱们使用 docker build -t myip . 来构建镜像的话，若是咱们须要查询当前公网 IP，只须要执行：

$ docker run myip
当前 IP：61.148.226.66 来自：北京市 联通

从上面的 CMD 中能够看到实质的命令是 curl，那么若是咱们但愿显示 HTTP 头信息，就须要加上 -i 参数。那么咱们能够直接加 -i 参数给 docker run myip 么？

docker run myip -i
docker: Error response from daemon: invalid header field value "oci runtime error: container_linux.go:247: starting container process caused \"exec: \\\"-i\\\": executable file not found in $PATH\"\n".

执行报错，executable file not found。以前咱们说过，跟在镜像名后面的是 command，运行时会替换 CMD 的默认值。所以这里的 -i 替换了原来的 CMD，而不是添加在原来的 curl -s http://ip.cn 后面。而 -i 根本不是命令，因此天然找不到。
那么若是咱们但愿加入 -i 这参数，咱们就必须从新完整的输入这个命令：

docker run myip curl -s http://ip.cn -i

这显然不是很好的解决方案，而使用 ENTRYPOINT 就能够解决这个问题。如今咱们从新用 ENTRYPOINT 来实现这个镜像：

FROM ubuntu:16.04
RUN apt-get update \
    && apt-get install -y curl \
    && rm -rf /var/lib/apt/lists/*
ENTRYPOINT [ "curl", "-s", "http://ip.cn" ]

此次咱们再来尝试直接使用 docker run myip -i：

docker run myip
当前 IP：61.148.226.66 来自：北京市 联通

docker run myip -i
HTTP/1.1 200 OK
...

此次成功了。这是由于当存在 ENTRYPOINT 后，CMD 的内容将会做为参数传给 ENTRYPOINT，而这里 -i 就是新的 CMD，所以会做为参数传给 curl，从而达到了咱们预期的效果。

场景二：应用运行前的准备工做

启动容器就是启动主进程，但有些时候，启动主进程前，须要一些准备工做。
好比 mysql 类的数据库，可能须要一些数据库配置、初始化的工做，这些工做要在最终的 mysql 服务器运行以前解决。
此外，可能但愿避免使用 root 用户去启动服务，从而提升安全性，而在启动服务前还须要以 root 身份执行一些必要的准备工做，最后切换到服务用户身份启动服务。或者除了服务外，其它命令依旧可使用 root 身份执行，方便调试等。
这些准备工做是和容器 CMD 无关的，不管 CMD 为何，都须要事先进行一个预处理的工做。这种状况下，能够写一个脚本，而后放入 ENTRYPOINT 中去执行，而这个脚本会将接到的参数（也就是 <CMD>）做为命令，在脚本最后执行。好比官方镜像 redis 中就是这么作的：

FROM alpine:3.4
...
RUN addgroup -S redis && adduser -S -G redis redis
...
ENTRYPOINT ["docker-entrypoint.sh"]

EXPOSE 6379
CMD [ "redis-server" ]

能够看到其中为了 redis 服务建立了 redis 用户，并在最后指定了 ENTRYPOINT 为 docker-entrypoint.sh 脚本。

#!/bin/sh
...
# allow the container to be started with `--user`
if [ "$1" = 'redis-server' -a "$(id -u)" = '0' ]; then
    chown -R redis .
    exec su-exec redis "$0" "$@"
fi

exec "$@"

该脚本的内容就是根据 CMD 的内容来判断，若是是 redis-server 的话，则切换到 redis 用户身份启动服务器，不然依旧使用 root 身份执行。好比：

docker run -it redis id
uid=0(root) gid=0(root) groups=0(root)

ENV 设置环境变量

这个指令很简单，就是设置环境变量.

格式有两种：

* ENV  <key> <value>
* ENV  <key1>=<value1> <key2>=<value2>...

实例以下：

ENV MYSQL_ROOT_PASSWORD="123456" \
    MYSQL_DATABASE="edusoho" \ 
    MYSQL_USER="edusoho" \
    MYSQL_PASSWORD="edusoho"

这个例子中演示了如何换行，以及对含有空格的值用双引号括起来的办法，这和 Shell 下的行为是一致的。
定义了环境变量，那么在后续的指令中，就可使用这个环境变量。好比在官方 node 镜像 Dockerfile 中，就有相似这样的代码：

ENV NODE_VERSION 7.2.0

RUN curl -SLO "https://nodejs.org/dist/v$NODE_VERSION/node-v$NODE_VERSION-linux-x64.tar.xz" \
  && curl -SLO "https://nodejs.org/dist/v$NODE_VERSION/SHASUMS256.txt.asc" \
  && gpg --batch --decrypt --output SHASUMS256.txt SHASUMS256.txt.asc \
  && grep " node-v$NODE_VERSION-linux-x64.tar.xz\$" SHASUMS256.txt | sha256sum -c - \
  && tar -xJf "node-v$NODE_VERSION-linux-x64.tar.xz" -C /usr/local --strip-components=1 \
  && rm "node-v$NODE_VERSION-linux-x64.tar.xz" SHASUMS256.txt.asc SHASUMS256.txt \
  && ln -s /usr/local/bin/node /usr/local/bin/nodejs

在这里先定义了环境变量 NODE_VERSION，其后的 RUN 这层里，屡次使用 $NODE_VERSION 来进行操做定制。能够看到，未来升级镜像构建版本的时候，只须要更新 7.2.0 便可，Dockerfile 构建维护变得更轻松了。
下列指令能够支持环境变量展开：

ADD、COPY、ENV、EXPOSE、LABEL、USER、WORKDIR、VOLUME、STOPSIGNAL、ONBUILD

能够从这个指令列表里感受到，环境变量可使用的地方不少，很强大。经过环境变量，咱们可让一份 Dockerfile 制做更多的镜像，只需使用不一样的环境变量便可。

ARG 构建参数

格式：

ARG <参数名>[=<默认值>]

构建参数和 ENV 的效果同样，都是设置环境变量。所不一样的是，ARG 所设置的构建环境的环境变量，在未来容器运行时是不会存在这些环境变量的。可是不要所以就使用 ARG 保存密码之类的信息，由于 docker history 仍是能够看到全部值的。
Dockerfile 中的 ARG 指令是定义参数名称，以及定义其默认值。该默认值能够在构建命令 docker build 中用 --build-arg <参数名>=<值> 来覆盖。
在 1.13 以前的版本，要求 --build-arg 中的参数名，必须在 Dockerfile 中用 ARG 定义过了，换句话说，就是 --build-arg 指定的参数，必须在 Dockerfile 中使用了。若是对应参数没有被使用，则会报错退出构建。
从 1.13 开始，这种严格的限制被放开，再也不报错退出，而是显示警告信息，并继续构建。报错信息以下例所示：

[Warning] One or more build-args [foo] were not consumed.

VOLUME 定义匿名卷

格式为：

VOLUME ["<路径1>", "<路径2>"...]
VOLUME <路径>

容器运行时应该尽可能保持容器存储层不发生写操做，对于数据库类须要保存动态数据的应用，其数据库文件应该保存于卷(volume)中，关于Docker 卷的概念和使用，可参考本库文章
“Docker基本介绍和操做.md”。
为了防止运行时用户忘记将动态文件所保存目录挂载为卷，在 Dockerfile 中，咱们能够事先指定某些目录挂载为匿名卷，这样在运行时若是用户不指定挂载，其应用也能够正常运行，不会向容器存储层写入大量数据。
好比：

VOLUME /data

这里的 /data 目录就会在运行时自动挂载为匿名卷，任何向 /data 中写入的信息都不会记录进容器存储层，从而保证了容器存储层的无状态化。
若是咱们想把这个匿名卷中的内容挂载到主机上呢？

docker run -itd --name busytest --mount type=bind,source=/teng,target=/data busytest:v1
或
docker run -itd --name busytest -v /teng:/data busytest:v1

EXPOSE 声明端口

EXPOSE <port> [<port>/<protocol>...]
该EXPOSE指令通知Docker容器在运行时侦听指定的网络端口。能够指定端口是侦听TCP仍是UDP，若是未指定协议，则默认为TCP。
EXPOSE 指令是声明运行时容器提供服务端口，这只是一个声明，在运行时并不会由于这个声明应用就会开启这个端口的服务。在 Dockerfile 中写入这样的声明有两个好处，一个是帮助镜像使用者理解这个镜像服务的守护端口，以方便配置映射；另外一个用处则是在运行时使用随机端口映射时，也就是 docker run -P 时，会自动随机映射 EXPOSE 的端口。

好比，我这里编写一个Dockerfile文件：

FROM busybox
VOLUME /data
EXPOSE 80

docker build -t busytest:v2 .

docker run -itd --name busytest -P busytest:v2

docker ps
CONTAINER ID        IMAGE                                      COMMAND                  CREATED             STATUS              PORTS                         NAMES
30614a66bff0        busytest:v2                                "sh"                     3 seconds ago       Up 2 seconds        0.0.0.0:32771->80/tcp         busytest

不管EXPOSE设置如何，您均可以使用-p标志在运行时覆盖它们。例如

docker run -itd --name busytest -p 8080:80  busytest:v2
 docker ps
CONTAINER ID        IMAGE                                      COMMAND                  CREATED             STATUS              PORTS                         NAMES
b07c5575afa1        busytest:v2                                "sh"                     3 seconds ago       Up 2 seconds        0.0.0.0:8080->80/tcp          busytest

WORKDIR 指定工做目录

格式为 WORKDIR <工做目录路径>。
使用 WORKDIR 指令能够来指定工做目录（或者称为当前目录），之后各层的当前目录就被改成指定的目录，如该目录不存在，WORKDIR 会帮你创建目录。
在Dockerfile中能够屡次使用WORKDIR指令。若是提供了相对路径，则它将相对于前一条WORKDIR指令的路径。例如：

WORKDIR /a
WORKDIR b
WORKDIR c
RUN pwd

最终pwd命令的输出Dockerfile将是 /a/b/c。

该WORKDIR指令能够解析先前使用的环境变量 ENV。您只能使用显式设置的环境变量Dockerfile。例如：

ENV DIRPATH /path
WORKDIR $DIRPATH/$DIRNAME
RUN pwd

最终pwd命令的输出Dockerfile将是 /path/$DIRNAME

USER 指定当前用户

格式：
USER <user>[:<group>] or
USER <UID>[:<GID>]

USER 指令和 WORKDIR 类似，都是改变环境状态并影响之后的层。WORKDIR 是改变工做目录，USER 则是改变以后层的执行 RUN, CMD 以及 ENTRYPOINT 这类命令的身份。
固然，和 WORKDIR 同样，USER 只是帮助你切换到指定用户而已，这个用户必须是事先创建好的，不然没法切换。
如：

RUN groupadd -r redis && useradd -r -g redis redis
USER redis
RUN [ "redis-server" ]

若是以 root 执行的脚本，在执行期间但愿改变身份，好比但愿以某个已经创建好的用户来运行某个服务进程，不要使用 su 或者 sudo，这些都须要比较麻烦的配置，并且在 TTY 缺失的环境下常常出错。建议使用 gosu。

# 创建 redis 用户，并使用 gosu 换另外一个用户执行命令
RUN groupadd -r redis && useradd -r -g redis redis
# 下载 gosu
RUN wget -O /usr/local/bin/gosu "https://github.com/tianon/gosu/releases/download/1.7/gosu-amd64" \
    && chmod +x /usr/local/bin/gosu \
    && gosu nobody true
# 设置 CMD，并以另外的用户执行
CMD [ "exec", "gosu", "redis", "redis-server" ]

Docker镜像构成和定制

Docker镜像构成和定制

利用 commit 理解镜像构成

docker commit 命令应用场合

慎用 docker commit

使用 Dockerfile 定制镜像

Dockerfile 指令介绍

COPY 复制文件

ADD 更高级的复制文件

CMD 容器启动命令

容器中应用在前台执行和后台执行的问题

ENTRYPOINT 入口点

场景一：让镜像变成像命令同样使用

场景二：应用运行前的准备工做

ENV 设置环境变量

ARG 构建参数

VOLUME 定义匿名卷

EXPOSE 声明端口

WORKDIR 指定工做目录

USER 指定当前用户

参考文档