Kubernetes集群多Master容错配置实战技巧

时间 2019-11-09

标签 kubernetes 集群 master 容错配置实战技巧栏目负载均衡繁體版

原文原文链接

这里主要介绍在Kubernetes的高可用多主容错部署技巧，侧重于kube-apiserver、kube-control-manager、kube-schedule的多节点部署，使多副节点能够像主节点同样操做（以K8s 1.13.1和Ubuntu 18.04LTS为例）。在《Kubernetes集群高可用的策略和实践》提出了Kubernetes高可用架构的整体思路，《Kubernetes探秘-多master节点容错部署》中介绍了Kubernetes高可用部署的具体流程，在《Kubernetes 1.13.1的etcd集群扩容实战技巧》和《Kubernetes探秘-etcd节点和实例扩容》详细介绍了Kubernetes的核心存储etcd的高可用集群多节点的扩展过程。node

一、kube-apiserver

修改两处：bootstrap

修改其主服务地址，指向与主节点一致的虚拟IP（设置参考《Keepalived快速使用（Ubuntu18.04）》）。
修改etcd服务的地址和证书文件目录。

开始编辑：api

sudo nano /etc/kubernetes/manifests/kube-apiserver.yaml

最后的kube-apiserver.yaml文件以下：架构

# /etc/kubernetes/manifests/kube-apiserver.yaml

apiVersion: v1
kind: Pod
metadata:
  annotations:
    scheduler.alpha.kubernetes.io/critical-pod: ""
  creationTimestamp: null
  labels:
    component: kube-apiserver
    tier: control-plane
  name: kube-apiserver
  namespace: kube-system
spec:
  containers:
  - command:
    - kube-apiserver
    - --authorization-mode=Node,RBAC
    - --advertise-address=10.1.1.199
    - --allow-privileged=true
    - --client-ca-file=/etc/kubernetes/pki/ca.crt
    - --enable-admission-plugins=NodeRestriction
    - --enable-bootstrap-token-auth=true
#    - --etcd-cafile=/etc/kubernetes/pki/etcd/ca.crt
#    - --etcd-certfile=/etc/kubernetes/pki/apiserver-etcd-client.crt
#    - --etcd-keyfile=/etc/kubernetes/pki/apiserver-etcd-client.key
#    - --etcd-servers=https://127.0.0.1:2379
    - --etcd-cafile=/etc/kubernetes/pki/etcd-certs/ca.pem
    - --etcd-certfile=/etc/kubernetes/pki/etcd-certs/client.pem
    - --etcd-keyfile=/etc/kubernetes/pki/etcd-certs/client-key.pem
    - --etcd-servers=https://10.1.1.201:2379

    - --insecure-port=0
    - --kubelet-client-certificate=/etc/kubernetes/pki/apiserver-kubelet-client.crt
    - --kubelet-client-key=/etc/kubernetes/pki/apiserver-kubelet-client.key
    - --kubelet-preferred-address-types=InternalIP,ExternalIP,Hostname
    - --proxy-client-cert-file=/etc/kubernetes/pki/front-proxy-client.crt
    - --proxy-client-key-file=/etc/kubernetes/pki/front-proxy-client.key
    - --requestheader-allowed-names=front-proxy-client
    - --requestheader-client-ca-file=/etc/kubernetes/pki/front-proxy-ca.crt
    - --requestheader-extra-headers-prefix=X-Remote-Extra-
    - --requestheader-group-headers=X-Remote-Group
    - --requestheader-username-headers=X-Remote-User
    - --secure-port=6443
    - --service-account-key-file=/etc/kubernetes/pki/sa.pub
    - --service-cluster-ip-range=10.96.0.0/12
    - --tls-cert-file=/etc/kubernetes/pki/apiserver.crt
    - --tls-private-key-file=/etc/kubernetes/pki/apiserver.key
    image: k8s.gcr.io/kube-apiserver:v1.13.1
    imagePullPolicy: IfNotPresent
    livenessProbe:
      failureThreshold: 8
      httpGet:
        host: 10.1.1.199
        path: /healthz
        port: 6443
        scheme: HTTPS
      initialDelaySeconds: 15
      timeoutSeconds: 15
    name: kube-apiserver
    resources:
      requests:
        cpu: 250m
    volumeMounts:
    - mountPath: /etc/ssl/certs
      name: ca-certs
      readOnly: true
    - mountPath: /etc/ca-certificates
      name: etc-ca-certificates
      readOnly: true
    - mountPath: /etc/pki
      name: etc-pki
      readOnly: true
    - mountPath: /etc/kubernetes/pki
      name: k8s-certs
      readOnly: true
    - mountPath: /usr/local/share/ca-certificates
      name: usr-local-share-ca-certificates
      readOnly: true
    - mountPath: /usr/share/ca-certificates
      name: usr-share-ca-certificates
      readOnly: true
  hostNetwork: true
  priorityClassName: system-cluster-critical
  volumes:
  - hostPath:
      path: /etc/ssl/certs
      type: DirectoryOrCreate
    name: ca-certs
  - hostPath:
      path: /etc/ca-certificates
      type: DirectoryOrCreate
    name: etc-ca-certificates
  - hostPath:
      path: /etc/pki
      type: DirectoryOrCreate
    name: etc-pki
  - hostPath:
      path: /etc/kubernetes/pki
      type: DirectoryOrCreate
    name: k8s-certs
  - hostPath:
      path: /usr/local/share/ca-certificates
      type: DirectoryOrCreate
    name: usr-local-share-ca-certificates
  - hostPath:
      path: /usr/share/ca-certificates
      type: DirectoryOrCreate
    name: usr-share-ca-certificates
status: {}

注意并发

这里主要修改了--advertise-address=10.1.1.199和--etcd-servers=https://10.1.1.201:2379。
两者的IP地址不同，199为虚拟IP，201为当前节点的etcd服务地址。

二、kube-control-manager、kube-schedule

kube-control-manager和kube-schedule实例经过访问apiserver服务接口来获取集群状态和执行集群内部管理、维护工做，支持多运行实例的并发访问，对apiserver加锁来选择主控制器。ide

kube-control-manager主要负责节点状态的一致性保障，包括/etc/kubernetes/manifests/kube-control-manager.yaml和etc/kubernetes/control-manager.conf两个文件。
kube-schedule主要负责pod实例的调度，包括/etc/kubernetes/manifests/kube-schedule.yaml和etc/kubernetes/schedule.conf两个文件。

Kubeadm的默认安装，已经将kube-control-manager和kube-schedule的elect设置为true，支持多实例运行，只须要将其复制到副节点的/etc/kubernetes就能够了。spa

具体操做以下：.net

# 复制control-manager和schedule的配置文件到本地。
# 参考 https://my.oschina.net/u/2306127/blog/write/2991361

# 首先登陆到远程节点，而后再执行下面的命令。

echo "Clone control-manager configuration file."
scp root@10.1.1.201:/etc/kubernetes/control-manager.conf /etc/kubernetes/
scp root@10.1.1.201:/etc/kubernetes/manifests/kube-control-manager.yaml /etc/kubernetes/manifests/

echo "Clone schedule configuration file."
scp root@10.1.1.201:/etc/kubernetes/schedule.conf /etc/kubernetes/
scp root@10.1.1.201:/etc/kubernetes/manifests/kube-schedule.yaml /etc/kubernetes/manifests/

重启kubelet，将自动重启control-manager和schedule实例。code

三、admin.conf

在主节点挂掉后，须要在副节点上使用kubectl。首先将admin.conf复制到副节点上，而后将其配置到本地帐户。component

具体操做以下：

# 复制admin.conf
scp root@10.1.1.201:/etc/kubernetes/admin.conf /etc/kubernetes/

# 建立本地帐户访问目录,用户配置文件
mkdir -p $HOME/.kube
sudo cp -i /etc/kubernetes/admin.conf $HOME/.kube/config
sudo chown $(id -u):$(id -g) $HOME/.kube/config

admin.conf的主IP地址经过虚拟IP访问，不须要进行任何修改。

四、kubectl操做

如今，以前的副节点已经能够执行Master上面的全部操做了（全部节点均可以执行）。试一下：

# Kubernetes版本。
kubectl version

# 集群信息，服务地址。
kubectl cluster-info

# 集群节点列表。
kubectl get node -o wide

# 集群运行的全部pod信息。
kubectl get pod --all-namespaces -o wide

检查一下，新升级的副节点和主节点的输出信息是否一致。若是不一致：

检查etcd集群的一致性（详情参考《Kubernetes 1.13.1的etcd集群扩容实战技巧》）。
kube-control-manager、kube-schedule的容器实例是否运行正常，参数配置是否正确。

参考：