Kubernetes 1.15.0快速升级

Kubernetes 1.15.0已经正式发布,快速升级(含国内镜像快速下载连接)包括升级kubeadm/kubectl/kubelet版本、拉取镜像、升级Kubernetes集群三个主要步骤。参考《Ubuntu上软件锁定版本不更新》安装特定DockerCE版本。html

一、升级kubeadm/kubectl/kubelet版本

sudo apt install kubeadm=1.15.0-00 kubectl=1.15.0-00 kubelet=1.15.0-00

查看该版本的容器镜像版本:node

kubeadm config images list

输出以下:git

~# kubeadm config images list

k8s.gcr.io/kube-apiserver:v1.15.0
k8s.gcr.io/kube-controller-manager:v1.15.0
k8s.gcr.io/kube-scheduler:v1.15.0
k8s.gcr.io/kube-proxy:v1.15.0
k8s.gcr.io/pause:3.1
k8s.gcr.io/etcd:3.3.10 k8s.gcr.io/coredns:1.3.1

二、拉取容器镜像

原始的kubernetes镜像文件在gcr上,不能直接下载。我给镜像到了阿里云的杭州机房的容器仓库里,拉取仍是比较快的。github

echo ""
echo "=========================================================="
echo "Pull Kubernetes v1.15.0 Images from aliyuncs.com ......"
echo "=========================================================="
echo ""

MY_REGISTRY=registry.cn-hangzhou.aliyuncs.com/openthings

## 拉取镜像
docker pull ${MY_REGISTRY}/k8s-gcr-io-kube-apiserver:v1.15.0
docker pull ${MY_REGISTRY}/k8s-gcr-io-kube-controller-manager:v1.15.0
docker pull ${MY_REGISTRY}/k8s-gcr-io-kube-scheduler:v1.15.0
docker pull ${MY_REGISTRY}/k8s-gcr-io-kube-proxy:v1.15.0
docker pull ${MY_REGISTRY}/k8s-gcr-io-etcd:3.3.10
docker pull ${MY_REGISTRY}/k8s-gcr-io-pause:3.1
docker pull ${MY_REGISTRY}/k8s-gcr-io-coredns:1.3.1


## 添加Tag
docker tag ${MY_REGISTRY}/k8s-gcr-io-kube-apiserver:v1.15.0 k8s.gcr.io/kube-apiserver:v1.15.0
docker tag ${MY_REGISTRY}/k8s-gcr-io-kube-scheduler:v1.15.0 k8s.gcr.io/kube-scheduler:v1.15.0
docker tag ${MY_REGISTRY}/k8s-gcr-io-kube-controller-manager:v1.15.0 k8s.gcr.io/kube-controller-manager:v1.15.0
docker tag ${MY_REGISTRY}/k8s-gcr-io-kube-proxy:v1.15.0 k8s.gcr.io/kube-proxy:v1.15.0
docker tag ${MY_REGISTRY}/k8s-gcr-io-etcd:3.3.10 k8s.gcr.io/etcd:3.3.10
docker tag ${MY_REGISTRY}/k8s-gcr-io-pause:3.1 k8s.gcr.io/pause:3.1
docker tag ${MY_REGISTRY}/k8s-gcr-io-coredns:1.3.1 k8s.gcr.io/coredns:1.3.1

echo ""
echo "=========================================================="
echo "Pull Kubernetes v1.15.0 Images FINISHED."
echo "into registry.cn-hangzhou.aliyuncs.com/openthings, "
echo "           by openthings@https://my.oschina.net/u/2306127."
echo "=========================================================="

echo ""

保存为shell脚本,而后执行。sql

三、升级Kubernetes集群

全新安装:docker

#指定IP地址,1.15.0版本:
sudo kubeadm init --kubernetes-version=v1.15.0 --apiserver-advertise-address=10.1.1.199 --pod-network-cidr=10.244.0.0/16

#注意,CoreDNS已经内置,再也不须要参数--feature-gates CoreDNS=true

先查看一下须要升级的各个组件的版本。shell

使用kubeadm upgrade plan ,输出的版本升级信息以下:api

COMPONENT            CURRENT   AVAILABLE
API Server           v1.14.1   v1.15.0
Controller Manager   v1.14.1   v1.15.0
Scheduler            v1.14.1   v1.15.0
Kube Proxy           v1.14.1   v1.15.0
CoreDNS              1.3.1     1.3.1
Etcd                 3.3.10    3.3.10

确保上面的容器镜像已经下载(若是没有提早下载,可能被网络阻隔致使挂起),而后执行升级:网络

kubeadm upgrade -y apply v1.15.0

看到下面信息,就OK了。app

[upgrade/successful] SUCCESS! Your cluster was upgraded to "v1.15.0". Enjoy!

而后,配置当前用户环境:

mkdir -p $HOME/.kube
  sudo cp -i /etc/kubernetes/admin.conf $HOME/.kube/config
  sudo chown $(id -u):$(id -g) $HOME/.kube/config

就可使用 kubectl version 来查看状态和 kubectl cluster-info 查看服务地址。

四、工做节点的升级

每一个工做节点须要拉取上面对应版本的镜像,以及安装kubelet的对应版本。

检查版本:

~$ kubectl version

查看Pod信息:

kubectl get pod --all-namespaces

完成。

五、HA cluster的升级

从1.13.x以前的版本升级上了的话,由于api改变(kubelet升为1.14后没法启动apiserver),致使新的kubeadm访问之前的apiserver出错,从而升级失败。能够拉取镜像下来后,手工切换镜像的版本(全部节点的/etc/kubernetes/manifests下的文件都须要修改)。

对每个节点,执行下面的步骤:

  • cd /etc/kubernetes/manifests/。
  • 改变全部的 *.yaml , 指定 images 版本为 1.15.0。

在1.14.0版本升级完后,出现问题(1.14.1仍存在):

  • 工做节点 join 到 cluster失败,参见 [kubeadm] #76013, https://github.com/kubernetes/kubernetes/issues/76013
  • 据有的社区成员测试,全新安装的1.14集群能够正常运行。
  • 个人集群是从1.13.4上升级而来,经测试1.14.1版本,该问题仍然存在。
  • kube-proxy的版本须要进管理工具去修改DaemonSet的images版本号为1.14.1。
  • coredns的版本须要进管理工具去修改复制集的images版本号为1.3.1。
    • 再次运行flannel的安装,无论用。
    • 可是,修改完重启集群就起不来了。进去看pod状态为Crash。
    • 强制删除CoreDNS的Pod运行实例。Kubernetes会自动启动新的实例。
  • 原来安装的jupyterhub起不来了,进去看hub pod状态为Crash。
    • 查看hub的日志,显示SQLlite访问出错,将其从宿主存储目录下移除,访问hub service失败。
    • 删除hub pod后,service的proxy-public也没法链接。
    • 强制删除JupyterHub的hub和Proxy的Pod运行实例。
    • 强制删除CoreDNS的Pod运行实例,Kubernetes自动启动新实例后,运行恢复。
    • 有时候是glusterfs设置权限问题,setfacl/getfacl进行设置。
    • 进一步检查,发现多是GlusterFS的volume写入问题,不一样步引发的
      • hub-db-dir目录下的jupyterhub.sqllite写入临时文件存在,致使锁死,不是glusterfs写入权限问题。
      • 设置gluster volume heal vol01 enable,让其数据同步。
      • 重启volume或者glusterd服务。
      • 或者,删除全部gluster存储节点下的hub-db-dir目录下的jupyterhub.sqllite文件,再删除hub pod,使其自动重建文件。
      • 通常上面几步后,可以恢复。

其它:

  • 出现整个集群没法访问,kubectl get node失败,kubectl version时apiserver访问失败。
  • 查看其中一个节点route,再次出现神秘的podsxx 255.255.255.255路由记录,route del删除记录失败。
  • 运行sudo netplan apply后,路由记录消失,节点恢复可访问。