【Pod Terminating缘由追踪系列之二】exec链接未关闭致使的事件阻塞

时间 2021-05-29

标签 docker app socket 函数工具编码 spa 设计 3d unix 栏目 Docker 繁體版

原文原文链接

前一阵有客户docker18.06.3集群中出现Pod卡在terminating状态的问题，通过排查发现是containerd和dockerd之间事件流阻塞，致使后续事件得不处处理形成的。docker

定位问题的过程极其艰难，其中不乏大量工具的使用和大量的源码阅读。本文将梳理排查此问题的过程，并总结完整的dockerd和contaienrd之间事件传递流程，一步一步找到问题产生的缘由，特写本文记录分享，但愿你们在有相似问题发生时，可以迅速定位、解决。app

对于本文中提到的问题，在docker19中已经获得解决，但docker18没法直接升级到docker19，所以本文在结尾参考docker19给出了一种简单的解决方案。socket

删除不掉Pod

相信你们在解决现网问题时，常常会遇到Pod卡在terminating不动的状况，产生这种状况的缘由有不少，好比《Pod Terminating缘由追踪系列之一》中提到的containerd没有正确处理错误信息，固然更常见的好比umount失败、dockerd卡死等等。函数

遇到此类问题时，一般经过kubelet或dockerd日志、容器和Pod状态、堆栈信息等手段来排查问题。本问题也不例外，首先登陆到Pod所在节点，使用如下两条指令查看容器状态：工具

#查看容器状态，看到容器状态为up
docker ps | grep <container-id>
#查看task状态，显示task的状态为STOPPED
docker-container-ctr --namespace moby --address var/run/docker/containerd/docker-containerd.sock task ls | grep <container-id>

能够看到在dockerd中容器状态为up，但在containerd中task状态为STOPPED，二者信息产生了不一致，也就是说因为某种缘由containerd中的状态信息没有同步到dockerd中，为了探究为何二者状态产生了不一致，首先须要了解从dockerd到containerd的总体调用链：编码

当启动dockerd时，会经过NewClient方法建立一个client，该client维护一条到containerd的gRPC链接，同时起一个协程processEventStream订阅（subscribe）来自containerd的task事件，当某个容器的状态发生变化产生了事件，containerd会返回事件到client的eventQ队列中，并经过ProcessEvent方法进行处理，processEventStream协程在除优雅退出之外永远不会退出（但在有些状况下仍是会退出，在后续会推出一篇文章，刚好是这种状况，敬请期待~）。spa

当容器进程退出时，containerd会经过上述gRPC链接返回一个exit的task事件给client，client接收到来自containerd的exit事件以后由ProcessEvent调用DeleteTask接口删除对应task，至此完成了一个容器的删除。设计

因为containerd一直处于STOPPED状态，所以经过上面的调用链猜想会不会是task exit事件由于某种缘由而阻塞掉了？产生的结果就是在containerd侧因为发送了exit事件而进入STOPPED状态，但因为没有调用DeleteTask接口，所以本task还存在。3d

模拟task exit事件

经过发送task exit事件给一个卡住的Pod，来模拟容器结束的状况：unix

/tasks/exit {"container_id":"23bd0b1118238852e9dec069f8a89c80e212c3d039ba030cfd33eb751fdac5a7","id":"23bd0b1118238852e9dec069f8a89c80e212c3d039ba030cfd33eb751fdac5a7","pid":17415,"exit_status":127,"exited_at":"2020-07-17T12:38:01.970418Z"}

咱们能够手动将上述事件publish到containerd中，可是须要注意的一点的是，在publish以前须要将上述内容进行一下编码（参考containerd/cmd/containerd-shim/main_unix.go Publish方法）。获得的结果以下图，能够看到事件成功的被publish，也被dockerd捕获到，但容器的状态仍然没有变化。

#将file文件中的事件发送到containerd
docker-containerd --address var/run/docker/containerd/docker-containerd.sock publish --namespace moby --topic /tasks/exit < ~/file

当咱们查看docker堆栈日志（向dockerd进程发送SIGUSR1信号），发现有大量的Goroutine卡在append方法，每次publish新的exit事件都会增长一个append方法的堆栈信息：

经过查看append方法的源码发现，append方法负责将收到的containerd事件放入eventQ，并执行回调函数，对收到的不一样类型事件进行处理：

func (q *queue) append(id string, f func()) {
    q.Lock()
    defer q.Unlock()
    if q.fns == nil {
        q.fns = make(map[string]chan struct{})
    }
    done := make(chan struct{})
    fn, ok := q.fns[id]
    q.fns[id] = done
    go func() {
        if ok {
            <-fn
        }
        f()
        close(done)
        q.Lock()
        if q.fns[id] == done {
            delete(q.fns, id)
        }
        q.Unlock()
    }()
}

形参中的id为container的id，所以对于同一个container它的事件是串行处理的，只有前一个事件处理结束才会处理下一个事件，且没有超时机制。

所以只要eventQ中有一个事件发生了阻塞，那么在它后面全部的事件都会被阻塞住。这也就解释了为何每次publish新的对于同一个container的exit事件，都会在堆栈中增长一条append的堆栈信息，由于它们都被以前的一个事件阻塞住了。

深刻源码定位问题缘由

为了找到阻塞的缘由，咱们找到阻塞的第一个exit事件append的堆栈信息再详细的看一下：

经过堆栈能够发现代码卡在了docker/daemon/monitor.go文件的123行（省略了不重要的代码）：

func (daemon *Daemon) ProcessEvent(id string, e libcontainerd.EventType, ei libcontainerd.EventInfo) error {
    ......
    case libcontainerd.EventExit:
        ......
        if execConfig := c.ExecCommands.Get(ei.ProcessID); execConfig != nil {
            ......
123行        execConfig.StreamConfig.Wait()
            if err := execConfig.CloseStreams(); err != nil {
                logrus.Errorf("failed to cleanup exec %s streams: %s", c.ID, err)
            }
            ......
        } else {
            ......
        }
    ......
    return nil
}

能够看到收到的事件为exit事件，并在第123行streamConfig在等待一个wg，这里的streamconfig为一个内存队列，负责收集来自containerd的输出返回给客户端，具体是如何处理io的在后面会细讲，这里先顺藤摸瓜查一下wg在何时add的：

func (c *Config) CopyToPipe(iop *cio.DirectIO) {
    copyFunc := func(w io.Writer, r io.ReadCloser) {
        c.Add(1)
        go func() {
            if _, err := pools.Copy(w, r); err != nil {
                logrus.Errorf("stream copy error: %v", err)
            }
            r.Close()
            c.Done()
        }()
    }
    if iop.Stdout != nil {
        copyFunc(c.Stdout(), iop.Stdout)
    }
    if iop.Stderr != nil {
        copyFunc(c.Stderr(), iop.Stderr)
    }
    .....
}

CopyToPipe是用来将containerd返回的输出copy到streamconfig的方法，能够看到当来自containerd的io流不为空，则会对wg add1，并开启协程进行copy，copy结束后才会done，所以一旦阻塞在copy，则对exit事件的处理会一直等待copy结束。咱们再回到docker堆栈中进行查找，发现确实有一个IO wait，并阻塞在polls.Copy函数上：

至此形成dockerd和containerd状态不一致的缘由已经找到了！咱们来梳理一下。

首先经过查看dockerd和containerd状态，发现二者状态不一致。因为containerd处于STOPPED状态所以判断在containerd发送task exit事件时可能发生阻塞，所以咱们构造了task exit事件并publish到containerd，并查看docker堆栈发现有大量阻塞在append的堆栈信息，证明了咱们的猜测。

最后咱们经过分析代码和堆栈信息，最终定位在ProcessEvent因为pools.Copy的阻塞，也会被阻塞，直到copy结束，而事件又是串行处理的，所以只要有一个事件处理被阻塞，那么后面全部的事件都会被阻塞，最终表现出的现象就是dockerd和containerd状态不一致。

找出罪魁祸首

咱们已经知道了阻塞的缘由，可是到底是什么操做阻塞了事件的处理？其实很简单，此exit事件是由exec退出产生的，咱们经过查看堆栈信息，发如今堆栈有为数很少的ContainerExecStart方法，说明有exec正在执行，推测是客户行为：

ContainerExecStart方法中第二个参数为exec的id值，所以可使用gdb查找对应地址内容，查看其参数中的execId和terminating Pod中的容器的exexId（docker inspect能够查看execId，每一个exec操做对应一个execId）是否一致，结果发现execId相同！所以能够判定是因为exec退出，产生的exit事件阻塞了ProcessEvent的处理逻辑，经过阅读源码总结出exec的处理逻辑：

那么为何exec的exit会致使Write阻塞呢？咱们须要梳理一下exec的io处理流程看看究竟Write到了哪里。下图为io流的处理过程：

首先在exec开始时会将socket的输出流attach到一个内存队列，并启动了⼀个goroutine用来把内存队列中的内容输出到socket中，除了内存队列外还有一个FIFO队列，经过CopyToPipe开启协程copy到内存队列。FIFO队列用来接收containerd-shim的输出，以后由内存队列写入socket，以response的方式返回给客户端。但咱们的问题尚未解决，仍是不清楚为何Write会阻塞住。不过能够经过gdb来定位到Write函数打开的fd，查看一下socket的状态：

n, err := syscall.Write(fd.Sysfd, p[nn:max])
type FD struct {
    // Lock sysfd and serialize access to Read and Write methods.
    fdmu fdMutex
    // System file descriptor. Immutable until Close.
    Sysfd int
    ......
｝

Write为系统调用，其参数中第一位即打开的fd号，但须要注意，Sysfd并不是FD结构体的第一个参数，所以须要加上偏移量16字节（fdMutex占16字节）

发现该fd为一个socket链接，使用ss查看一下socket的另外一端是谁：

发现该fd为来自kubelet的一个socket链接，且没有被关闭，所以能够判断Write阻塞的缘由正是客户端exec退出之后，该socket没有正常的关闭，使Write不断地向socket中写数据，直到写满阻塞形成的。

经过询问客户是否使用过exec，发现客户本身写了一个客户端并经过kubelet exec来访问Pod，与上述排查结果相符，所以反馈客户能够排查下客户端代码，是否正确关闭了exec的socket链接。

修复与反思

其实docker的这个事件处理逻辑设计并不优雅，客户端的行为不该该影响到服务端的处理，更不该该形成服务端的阻塞，所以本打算提交pr修复此问题，发如今docker19中已经修复了此问题，而docker18的集群没法直接升级到docker19，由于docker会持久化数据到硬盘上，而docker19不支持docker18的持久化数据。

虽然不能直接升级到docker19，不过咱们能够参考docker19的实现，在docker19中经过添加事件处理超时的逻辑避免事件一直阻塞，在docker18中一样能够添加一个超时的逻辑！

对exit事件添加超时处理：

#/docker/daemon/monitor.go
ctx, cancel := context.WithTimeout(context.Background(), 2*time.Second)
execConfig.StreamConfig.WaitWithTimeout(ctx)
cancel()

#/docker/container/stream/streams.go
func (c *Config) WaitWithTimeout(ctx context.Context) {
    done := make(chan struct{}, 1)
    go func() {
        c.Wait()
        close(done)
    }()
    select {
    case <-done:
    case <-ctx.Done():
        if c.dio != nil {
            c.dio.Cancel()
            c.dio.Wait()
            c.dio.Close()
        }
    }
}

这里添加了一个2s超时时间，超时则优雅关闭来自containerd的事件流。

至此一个棘手的Pod terminating问题已经解决，后续也将推出小版本修复此问题，虽然修复起来比较简单，但问题分析的过程却无比艰辛，但愿本篇文章可以对你们从此的问题定位打开思路，谢谢观看~
【腾讯云原生】云说新品、云研新术、云游新活、云赏资讯，扫码关注同名公众号，及时获取更多干货！！