做者 | 徐晓舟(萧元)
来源|阿里巴巴云原生公众号html
因为云计算在资源成本和弹性扩容方面的自然优点,愈来愈多客户愿意在云上构建 AI 系统,而以容器、Kubernetes 为表明的云原生技术,已经成为释放云价值的最短路径, 在云上基于 Kubernetes 构建 AI 平台已经成为趋势。python
当面临较复杂的模型训练或者数据量大时,单机的计算能力每每没法知足算力要求。经过使用阿里的 AiACC 或者社区的 horovod 等分布式训练框架,仅需修改几行代码,就能将一个单机的训练任务扩展为支持分布式的训练任务。在 Kubernetes 上常见的是 kubeflow 社区的 tf-operator 支持 Tensorflow PS 模式,或者 mpi-operator 支持 horovod 的 mpi allreduce 模式。git
Kubernetes 和云计算提供敏捷性和伸缩性,咱们能够经过 cluster-AutoScaler 等组件为训练任务设置弹性策略,利用 Kubernetes 的弹性能力,按需建立,减小 GPU 设备空转。github
但这种伸缩模式面对训练这种离线任务仍是略有不足:api
如何给训练任务赋予弹性能力,是提升性价比的关键路径。近期 horovod 等分布式框架逐渐支持了 Elastic Training,即弹性训练能力。也就是容许一个训练任务在执行的过程当中动态的扩容或者缩容训练 worker, 从不会引发训练任务的中断。须要在代码中作少许修改适配,可参考:https://horovod.readthedocs.io/en/stable/elastic_include.html。安全
对 Elastic training 的实现原理感兴趣能够看这篇 Elastic Horovod 设计文档, 本文不详细介绍。app
在 mpi-operator 中,参与训练的 Worker 都是做为静态资源设计和维护,支持弹性训练模式后,给任务增长了灵活性,同时也给运维层带来了挑战,例如:框架
必须经过 horovod 提供的 horovordrun 做为入口,horovod 中 launcher 经过 ssh 登录 worker,须要打通 launcher 和 worker 之间的登录隧道。运维
负责计算弹性的 Elastic Driver 模块经过指定 discover_host 脚本获取最新 worker 拓扑信息,从而拉起或中止 worker 实例。当 worker 变化时,首先要更新 discover_host 脚本的返回值。ssh
针对以上问题,咱们设计开发了 et-operator,提供 TrainingJob CRD 描述训练任务, ScaleOut 和 ScaleIn CRD 描述扩容和缩容操做, 经过它们的组合,使咱们的训练任务更具备弹性。将这个方案开源,欢迎你们提需求、交流、吐槽。
开源方案地址:https://github.com/AliyunContainerService/et-operator
TrainingJob Controller 主要有如下功能:
TrainingJob 子资源建立顺序以下:
TrainingJob 相关资源:
TrainingJob CR 的配置分为 Lanucher 和 Worker。在 Launcher 中指定任务的镜像和启动执行, 默认 et-operator 会根据 worker 分配状况,生成一个 hostfile 文件和 discover_host 脚本,discover_host 脚本挂载到 Launcher 的 /etc/edl/discover_hosts.sh 文件, 在入口脚本的 horovodrun 执行中经过 --host-discovery-script 参数指定。在 Worker 设置中指定 worker 的镜像和 GPU 占用 ,并能够经过 maxReplicas / minReplicas 指定 workers 的副本数容许范围。
apiVersion: kai.alibabacloud.com/v1alpha1 kind: TrainingJob metadata: name: elastic-training namespace: default spec: cleanPodPolicy: Running etReplicaSpecs: launcher: replicas: 1 template: spec: containers: - command: - sh - -c - horovodrun -np 2 --min-np 1 --max-np 9 --host-discovery-script /etc/edl/discover_hosts.sh python /examples/elastic/tensorflow2_mnist_elastic.py image: registry.cn-huhehaote.aliyuncs.com/lumo/horovod:master-tf2.1.0-torch1.4.0-mxnet-py3.6-gpu imagePullPolicy: Always name: mnist-elastic worker: maxReplicas: 9 minReplicas: 1 replicas: 2 template: spec: containers: - image: registry.cn-huhehaote.aliyuncs.com/lumo/horovod:master-tf2.1.0-torch1.4.0-mxnet-py3.6-gpu imagePullPolicy: Always name: mnist-elastic resources: limits: nvidia.com/gpu: "1" requests: nvidia.com/gpu: "1" status: currentWorkers: - elastic-training-worker-0 - elastic-training-worker-1 - elastic-training-worker-2 - elastic-training-worker-3 phase: Succeeded replicaStatuses: Launcher: active: 1 succeeded: 1 Worker: active: 4
除了 TrainingJob 外,et-operator 同时支持 ScaleOut 和 ScaleIn 两种 CRD,下发训练任务扩容和缩容操做。
当下发一个 ScaleOut CR,ScaleOutController 触发 Reconcile, 这里工做很简单,根据 ScaleOut CR 中的 Selector 字段,找到 Scaler 对应的 TrainingJob,设置到 CR 的 OwnerReferences 上。
以一个 ScaleOut 操做举例:
- apiVersion: kai.alibabacloud.com/v1alpha1 kind: ScaleOut metadata: creationTimestamp: "2020-11-04T13:54:26Z name: scaleout-ptfnk namespace: default ownerReferences: - apiVersion: kai.alibabacloud.com/v1alpha1 blockOwnerDeletion: true controller: true kind: TrainingJob name: elastic-training // 指向扩容对象TrainingJob uid: 075b9c4a-22f9-40ce-83c7-656b329a2b9e spec: selector: name: elastic-training toAdd: count: 2
TrainingJobController 中监听到属于 TrainingJob 的 ScaleOut CR 有更新, 触发 TrainingJob 的 Reconcile,遍历过滤 TrainingJob 下 OwnerReference 指向的 ScaleIn 和 ScaleOut, 根据建立时间和状态时间决定执行的扩容或者缩容。
apiVersion: kai.alibabacloud.com/v1alpha1 kind: TrainingJob metadata: name: elastic-training namespace: default spec: // ...... Launcher and Worker spec status: currentScaler: ScaleIn:default/scaleout-ptfnk phase: Scaling currentWorkers: - elastic-training-worker-0 - elastic-training-worker-1
ScaleOut 任务 CR:
ScaleIn 任务 CR:
详细工做过程:
mkdir -p $(go env GOPATH)/src/github.com/aliyunContainerService cd $(go env GOPATH)/src/github.com/aliyunContainerService git clone https://http://github.com/aliyunContainerService/et-operator cd et-operator kubectl create -f deploy/all_in_one.yaml
检测 crd 的安装:
# kubectl get crd NAME CREATED AT scaleins.kai.alibabacloud.com 2020-11-11T11:16:13Z scaleouts.kai.alibabacloud.com 2020-11-11T11:16:13Z trainingjobs.kai.alibabacloud.com 2020-11-11T11:16:13Z
检测 controller 的运行状态,默认安装在 kube-ai 中:
# kubectl -n kube-ai get po NAME READY STATUS RESTARTS AGE et-operator-controller-manager-7877968489-c5kv4 0/2 ContainerCreating 0 5s
运行事先已准备好的示例:
kubectl apply -f examples/training_job.yaml
检测运行状态:
# kubectl get trainingjob NAME PHASE AGE elastic-training Running 77s # kubectl get po NAME READY STATUS RESTARTS AGE elastic-training-launcher 1/1 Running 0 7s elastic-training-worker-0 1/1 Running 0 10s elastic-training-worker-1 1/1 Running 0 9s
执行缩容时,能够经过 ScaleIn CR 中的 spec.toDelete.count 或 spec.toDelete.podNames 字段指定缩容的 worker。
经过 count 配置缩容的数量,则经过 index 计算由高到低缩容 Worker。
apiVersion: kai.alibabacloud.com/v1alpha1 kind: ScaleIn metadata: name: scalein-workers spec: selector: name: elastic-training toDelete: count: 1
若是想要缩容特定的 Worker,能够配置 podNames:
apiVersion: kai.alibabacloud.com/v1alpha1 kind: ScaleIn metadata: name: scalein-workers spec: selector: name: elastic-training toDelete: podNames: - elastic-training-worker-1
运行一个缩容示例,指定数量缩容 1 个 worker:
kubectl create -f examples/scale_in_count.yaml
检测缩容执行状态和训练任务:
# kubectl get scalein NAME PHASE AGE scalein-sample-t8jxd ScaleSucceeded 11s # kubectl get po NAME READY STATUS RESTARTS AGE elastic-training-launcher 1/1 Running 0 47s elastic-training-worker-0 1/1 Running 0 50s
在 ScaleOut CR 中,经过 spec.toAdd.count 字段指定扩容的 worker 数:
apiVersion: kai.alibabacloud.com/v1alpha1 kind: ScaleOut metadata: name: elastic-training-scaleout-9dtmw namespace: default spec: selector: name: elastic-training timeout: 300 toAdd: count: 2
运行示例:
kubectl create -f examples/scale_out.yaml
检测缩容执行状态和训练任务:
kubectl get scaleout NAME PHASE AGE elastic-training-scaleout-9dtmw ScaleSucceeded 30s kubectl get po NAME READY STATUS RESTARTS AGE elastic-training-launcher 1/1 Running 0 2m5s elastic-training-worker-0 1/1 Running 0 2m8s elastic-training-worker-1 1/1 Running 0 40s elastic-training-worker-2 1/1 Running 0 40s
ET-Operator 提供一组训练和扩缩容 CRD 和 Controller, 让咱们在 Kubernetes 上方便地运行弹性分布式训练,支持下发分布式训练任务,并经过和分布式框架的集成联动,在训练任务运行过程当中动态地扩容和缩容参与运算的 Workers。使咱们的训练任务具备弹性能力,结合抢占实例,可以更好的利用云上的资源弹性和性价比优点。