解锁云原生 AI 技能|在 Kubernetes 上构建机器学习系统

时间 2019-11-16

原文原文链接

本系列将利用阿里云容器服务，帮助您上手 Kubeflow Pipelines.html

介绍

机器学习的工程复杂度，除了来自于常见的软件开发问题外，还和机器学习数据驱动的特色相关。而这就带来了其工做流程链路更长，数据版本失控，实验难以跟踪、结果难以重现，模型迭代成本巨大等一系列问题。为了解决这些机器学习固有的问题，不少企业构建了内部机器学习平台来管理机器学习生命周期，其中最有名的是 Google 的 Tensorflow Extended， Facebook 的 FBLearner Flow， Uber 的 Michelangelo，遗憾的是这些平台都须要绑定在公司内部的基础设施之上，没法完全开源。而这些机器学习平台的骨架就是机器学习工做流系统，它可让数据科学家灵活定义本身的机器学习流水线，重用已有的数据处理和模型训练能力，进而更好的管理机器学习生命周期。
谈到机器学习工做流平台，Google 的工程经验很是丰富，它的 TensorFlow Extended 机器学习平台支撑了 Google 的搜索，翻译，视频等核心业务；更重要的是其对机器学习领域工程效率问题的理解深入，Google 的 Kubeflow 团队于 2018 年末开源了 Kubeflow Pipelines(KFP), KFP 的设计与 Google 内部机器学习平台 TensorFlow Extended 一脉相承，惟一的区别是 KFP 运行在 Kubernetes 的平台上，TFX 是运行在 Borg 之上的。node

什么是 Kubeflow Pipelines

Kubeflow Pipelines 平台包括：mysql

可以运行和追踪实验的管理控制台
可以执行多个机器学习步骤的工做流引擎（Argo）
用来自定义工做流的 SDK，目前只支持 Python

而 Kubeflow Pipelines 的目标在于：linux

端到端的任务编排: 支持编排和组织复杂的机器学习工做流，该工做流能够被直接触发，定时触发，也能够由事件触发，甚至能够实现由数据的变化触发；
简单的实验管理: 帮助数据科学家尝试众多的想法和框架，以及管理各类试验。并实现从实验到生产的轻松过渡；
经过组件化方便重用: 经过重用 Pipelines 和组件快速建立端到端解决方案，无需每次从 0 开始的从新构建。

在阿里云上运行 Kubeflow Pipelines

看到 Kubeflow Piplines 的能力，你们是否是都摩拳擦掌，想一睹为快？可是目前国内想使用 Kubeflow Pipeline 有两个挑战：git

Pipelines 须要经过 Kubeflow 部署；而 Kubeflow 默认组件过多，同时经过 Ksonnet 部署 Kubeflow 也是很复杂的事情；
Pipelines 自己和谷歌云平台有深度耦合，没法运行在其余云平台上或者裸金属服务器的环境。

为了方便国内的用户安装 Kubeflow Pipelines，阿里云容器服务团队提供了基于 Kustomize 的 Kubeflow Pipelines 部署方案。和普通的 Kubeflow 基础服务不一样，Kubeflow Pipelines 须要依赖于 mysql 和 minio 这些有状态服务，也就须要考虑如何持久化和备份数据。在本例子中，咱们借助阿里云 SSD 云盘做为数据持久化的方案，分别自动的为 mysql 和 minio 建立 SSD 云盘。
您能够在阿里云上尝试一下单独部署最新版本 Kubeflow Pipelines。github

前提条件

您须要安装 kustomize

在 Linux 和 Mac OS 环境，能够执行sql

opsys=linux  # or darwin, or windows
curl -s https://api.github.com/repos/kubernetes-sigs/kustomize/releases/latest |\
  grep browser_download |\
  grep $opsys |\
  cut -d '"' -f 4 |\
  xargs curl -O -L
mv kustomize_*_${opsys}_amd64 /usr/bin/kustomize
chmod u+x /usr/bin/kustomize

在 Windows 环境，能够下载 kustomize_2.0.3_windows_amd64.exe数据库

在阿里云容器服务建立 Kubernetes 集群, 能够参考文档

部署过程

经过 ssh 访问 Kubernetes 集群，具体方式能够参考文档
下载源代码

yum install -y git
git clone --recursive https://github.com/aliyunContainerService/kubeflow-aliyun

安全配置

3.1 配置 TLS 证书。若是没有 TLS 证书，能够经过下列命令生成windows

yum install -y openssl
domain="pipelines.kubeflow.org"
openssl req -x509 -nodes -days 365 -newkey rsa:2048 -keyout kubeflow-aliyun/overlays/ack-auto-clouddisk/tls.key -out kubeflow-aliyun/overlays/ack-auto-clouddisk/tls.crt -subj "/CN=$domain/O=$domain"

若是您有TLS证书，请分别将私钥和证书保存到 kubeflow-aliyun/overlays/ack-auto-clouddisk/tls.key和 kubeflow-aliyun/overlays/ack-auto-clouddisk/tls.crt下

3.2 配置 admin 的登陆密码api

yum install -y httpd-tools
htpasswd -c kubeflow-aliyun/overlays/ack-auto-clouddisk/auth admin
New password:
Re-type new password:
Adding password for user admin

首先利用 kustomize 生成部署 yaml

cd kubeflow-aliyun/
kustomize build overlays/ack-auto-clouddisk > /tmp/ack-auto-clouddisk.yaml

查看所在的 Kubernetes 集群节点所在的地域和可用区,而且根据其所在节点替换可用区，假设您的集群所在可用区为 cn-hangzhou-g, 能够执行下列命令

sed -i.bak 's/regionid: cn-beijing/regionid: cn-hangzhou/g' \
    /tmp/ack-auto-clouddisk.yaml
sed -i.bak 's/zoneid: cn-beijing-e/zoneid: cn-hangzhou-g/g' \
    /tmp/ack-auto-clouddisk.yaml

建议您检查一下 /tmp/ack-auto-clouddisk.yaml 修改是否已经设置

将容器镜像地址由 gcr.io 替换为 registry.aliyuncs.com

sed -i.bak 's/gcr.io/registry.aliyuncs.com/g' \
    /tmp/ack-auto-clouddisk.yaml

建议您检查一下 /tmp/ack-auto-clouddisk.yaml 修改是否已经设置

调整使用磁盘空间大小, 好比须要调整磁盘空间为 200G

sed -i.bak 's/storage: 100Gi/storage: 200Gi/g' \
    /tmp/ack-auto-clouddisk.yaml

验证 pipelines 的 yaml 文件

kubectl create --validate=true --dry-run=true -f /tmp/ack-auto-clouddisk.yaml

利用 kubectl 部署 pipelines

kubectl create -f /tmp/ack-auto-clouddisk.yaml

查看访问 pipelines 的方式，咱们经过 ingress 暴露 pipelines 服务，在本例子中，访问 IP 是 112.124.193.271。而 Pipelines 管理控制台的连接是： [https://112.124.193.271/pipel...]()

kubectl get ing -n kubeflow
NAME             HOSTS   ADDRESS           PORTS     AGE
ml-pipeline-ui   *       112.124.193.271   80, 443   11m

访问 pipelines 管理控制台

若是使用自签发证书，会提示此连接非私人连接，请点击显示详细信息，并点击访问此网站。
请输入步骤 2.2 中的用户名 admin 和设定的密码。
这时就可使用 pipelines 管理和运行训练任务了。

Q&A

为何这里要使用阿里云的 SSD 云盘？

这是因为阿里云的 SSD 云盘能够设置按期的自动备份，保证 pipelines 中的元数据不会丢失。

如何进行云盘备份?

若是您想备份云盘的内容，能够为云盘手动建立快照或者为硬盘设置自动快照策略按时自动建立快照。

如何清理 Kubeflow Piplines 部署？

这里的清理工做分为两个部分：

删除 Kubeflow Pipelines 的组件

kubectl delete -f /tmp/ack-auto-clouddisk.yaml

经过释放云盘分别释放 mysql 和 minio 存储对应的两个云盘

如何使用现有云盘做为数据库存储，而避免自动建立云盘？

请参考文档

总结

本文为您初步介绍了 Kubeflow Pipelines 的背景和其所要解决的问题，以及如何在阿里云上经过 Kustomize 快速构建一套服务于机器学习的 Kubeflow Pipelines，后续咱们会分享如何利用 Kubeflow Pipelines 开发一个完整的机器学习流程。