Kubernetes 1.15.0快速升级

时间 2019-11-06

标签 kubernetes 1.15.0 快速升级繁體版

原文原文链接

Kubernetes 1.15.0已经正式发布，快速升级（含国内镜像快速下载连接）包括升级kubeadm/kubectl/kubelet版本、拉取镜像、升级Kubernetes集群三个主要步骤。参考《Ubuntu上软件锁定版本不更新》安装特定DockerCE版本。html

ChangeLog, https://github.com/kubernetes/kubernetes/blob/master/CHANGELOG-1.15.md
Kubernetes 1.15 发布，可扩展性与持续性改进, https://www.oschina.net/news/107618/kubernetes-1-15-released
kubeadm升级kubernetes到1.15.0版本, https://www.codercto.com/a/88502.html
Kubernetes v1.15.0 环境搭建 - CentOS, https://www.jianshu.com/p/832bcd89bc07

一、升级kubeadm/kubectl/kubelet版本

sudo apt install kubeadm=1.15.0-00 kubectl=1.15.0-00 kubelet=1.15.0-00

kubernetes for china

查看该版本的容器镜像版本：node

kubeadm config images list

输出以下：git

~# kubeadm config images list

k8s.gcr.io/kube-apiserver:v1.15.0
k8s.gcr.io/kube-controller-manager:v1.15.0
k8s.gcr.io/kube-scheduler:v1.15.0
k8s.gcr.io/kube-proxy:v1.15.0
k8s.gcr.io/pause:3.1
k8s.gcr.io/etcd:3.3.10 k8s.gcr.io/coredns:1.3.1

二、拉取容器镜像

原始的kubernetes镜像文件在gcr上，不能直接下载。我给镜像到了阿里云的杭州机房的容器仓库里，拉取仍是比较快的。github

echo ""
echo "=========================================================="
echo "Pull Kubernetes v1.15.0 Images from aliyuncs.com ......"
echo "=========================================================="
echo ""

MY_REGISTRY=registry.cn-hangzhou.aliyuncs.com/openthings

## 拉取镜像
docker pull ${MY_REGISTRY}/k8s-gcr-io-kube-apiserver:v1.15.0
docker pull ${MY_REGISTRY}/k8s-gcr-io-kube-controller-manager:v1.15.0
docker pull ${MY_REGISTRY}/k8s-gcr-io-kube-scheduler:v1.15.0
docker pull ${MY_REGISTRY}/k8s-gcr-io-kube-proxy:v1.15.0
docker pull ${MY_REGISTRY}/k8s-gcr-io-etcd:3.3.10
docker pull ${MY_REGISTRY}/k8s-gcr-io-pause:3.1
docker pull ${MY_REGISTRY}/k8s-gcr-io-coredns:1.3.1


## 添加Tag
docker tag ${MY_REGISTRY}/k8s-gcr-io-kube-apiserver:v1.15.0 k8s.gcr.io/kube-apiserver:v1.15.0
docker tag ${MY_REGISTRY}/k8s-gcr-io-kube-scheduler:v1.15.0 k8s.gcr.io/kube-scheduler:v1.15.0
docker tag ${MY_REGISTRY}/k8s-gcr-io-kube-controller-manager:v1.15.0 k8s.gcr.io/kube-controller-manager:v1.15.0
docker tag ${MY_REGISTRY}/k8s-gcr-io-kube-proxy:v1.15.0 k8s.gcr.io/kube-proxy:v1.15.0
docker tag ${MY_REGISTRY}/k8s-gcr-io-etcd:3.3.10 k8s.gcr.io/etcd:3.3.10
docker tag ${MY_REGISTRY}/k8s-gcr-io-pause:3.1 k8s.gcr.io/pause:3.1
docker tag ${MY_REGISTRY}/k8s-gcr-io-coredns:1.3.1 k8s.gcr.io/coredns:1.3.1

echo ""
echo "=========================================================="
echo "Pull Kubernetes v1.15.0 Images FINISHED."
echo "into registry.cn-hangzhou.aliyuncs.com/openthings, "
echo "           by openthings@https://my.oschina.net/u/2306127."
echo "=========================================================="

echo ""

保存为shell脚本，而后执行。sql

或者，下载脚本：https://github.com/openthings/kubernetes-tools/blob/master/kubeadm/2-images/

三、升级Kubernetes集群

全新安装：docker

#指定IP地址，1.15.0版本：
sudo kubeadm init --kubernetes-version=v1.15.0 --apiserver-advertise-address=10.1.1.199 --pod-network-cidr=10.244.0.0/16

#注意，CoreDNS已经内置，再也不须要参数--feature-gates CoreDNS=true

先查看一下须要升级的各个组件的版本。shell

使用kubeadm upgrade plan ，输出的版本升级信息以下：api

COMPONENT            CURRENT   AVAILABLE
API Server           v1.14.1   v1.15.0
Controller Manager   v1.14.1   v1.15.0
Scheduler            v1.14.1   v1.15.0
Kube Proxy           v1.14.1   v1.15.0
CoreDNS              1.3.1     1.3.1
Etcd                 3.3.10    3.3.10

确保上面的容器镜像已经下载（若是没有提早下载，可能被网络阻隔致使挂起），而后执行升级：网络

kubeadm upgrade -y apply v1.15.0

看到下面信息，就OK了。app

[upgrade/successful] SUCCESS! Your cluster was upgraded to "v1.15.0". Enjoy!

而后，配置当前用户环境：

mkdir -p $HOME/.kube
  sudo cp -i /etc/kubernetes/admin.conf $HOME/.kube/config
  sudo chown $(id -u):$(id -g) $HOME/.kube/config

就可使用 kubectl version 来查看状态和 kubectl cluster-info 查看服务地址。

四、工做节点的升级

每一个工做节点须要拉取上面对应版本的镜像，以及安装kubelet的对应版本。

检查版本：

~$ kubectl version

查看Pod信息：

kubectl get pod --all-namespaces

完成。

五、HA cluster的升级

从1.13.x以前的版本升级上了的话，由于api改变（kubelet升为1.14后没法启动apiserver），致使新的kubeadm访问之前的apiserver出错，从而升级失败。能够拉取镜像下来后，手工切换镜像的版本（全部节点的/etc/kubernetes/manifests下的文件都须要修改）。

对每个节点，执行下面的步骤：

cd /etc/kubernetes/manifests/。
改变全部的 *.yaml , 指定 images 版本为 1.15.0。

在1.14.0版本升级完后，出现问题(1.14.1仍存在)：

工做节点 join 到 cluster失败，参见 [kubeadm] #76013, https://github.com/kubernetes/kubernetes/issues/76013
据有的社区成员测试，全新安装的1.14集群能够正常运行。
个人集群是从1.13.4上升级而来，经测试1.14.1版本，该问题仍然存在。
kube-proxy的版本须要进管理工具去修改DaemonSet的images版本号为1.14.1。
coredns的版本须要进管理工具去修改复制集的images版本号为1.3.1。
- 再次运行flannel的安装，无论用。
- 可是，修改完重启集群就起不来了。进去看pod状态为Crash。
- 强制删除CoreDNS的Pod运行实例。Kubernetes会自动启动新的实例。
  - 能够参考《Kubernetes中强制删除已销毁的顽固pod》。
原来安装的jupyterhub起不来了，进去看hub pod状态为Crash。
- 查看hub的日志，显示SQLlite访问出错，将其从宿主存储目录下移除，访问hub service失败。
- 删除hub pod后，service的proxy-public也没法链接。
- 强制删除JupyterHub的hub和Proxy的Pod运行实例。
- 强制删除CoreDNS的Pod运行实例，Kubernetes自动启动新实例后，运行恢复。
- 有时候是glusterfs设置权限问题，setfacl/getfacl进行设置。
  - 参考：GlusterFS: 访问权限设置
- 进一步检查，发现多是GlusterFS的volume写入问题，不一样步引发的。
  - hub-db-dir目录下的jupyterhub.sqllite写入临时文件存在，致使锁死，不是glusterfs写入权限问题。
  - 设置gluster volume heal vol01 enable，让其数据同步。
  - 重启volume或者glusterd服务。
  - 或者，删除全部gluster存储节点下的hub-db-dir目录下的jupyterhub.sqllite文件，再删除hub pod，使其自动重建文件。
  - 通常上面几步后，可以恢复。

其它：

出现整个集群没法访问，kubectl get node失败，kubectl version时apiserver访问失败。
查看其中一个节点route，再次出现神秘的podsxx 255.255.255.255路由记录，route del删除记录失败。
运行sudo netplan apply后，路由记录消失，节点恢复可访问。