解锁云原生 AI 技能|在 Kubernetes 上构建机器学习系统

本系列将利用阿里云容器服务,帮助您上手 Kubeflow Pipelines.html

介绍

机器学习的工程复杂度,除了来自于常见的软件开发问题外,还和机器学习数据驱动的特色相关。而这就带来了其工做流程链路更长,数据版本失控,实验难以跟踪、结果难以重现,模型迭代成本巨大等一系列问题。为了解决这些机器学习固有的问题,不少企业构建了内部机器学习平台来管理机器学习生命周期,其中最有名的是 Google 的 Tensorflow Extended, Facebook 的 FBLearner Flow, Uber 的 Michelangelo,遗憾的是这些平台都须要绑定在公司内部的基础设施之上,没法完全开源。而这些机器学习平台的骨架就是机器学习工做流系统,它可让数据科学家灵活定义本身的机器学习流水线,重用已有的数据处理和模型训练能力,进而更好的管理机器学习生命周期。
谈到机器学习工做流平台,Google 的工程经验很是丰富,它的 TensorFlow Extended 机器学习平台支撑了 Google 的搜索,翻译,视频等核心业务;更重要的是其对机器学习领域工程效率问题的理解深入,Google 的 Kubeflow 团队于 2018 年末开源了 Kubeflow Pipelines(KFP),  KFP 的设计与 Google 内部机器学习平台 TensorFlow Extended 一脉相承,惟一的区别是 KFP 运行在 Kubernetes 的平台上,TFX 是运行在 Borg 之上的。node

什么是 Kubeflow Pipelines

Kubeflow Pipelines 平台包括:mysql

  • 可以运行和追踪实验的管理控制台
  • 可以执行多个机器学习步骤的工做流引擎 (Argo)
  • 用来自定义工做流的 SDK,目前只支持 Python

而 Kubeflow Pipelines 的目标在于:linux

  • 端到端的任务编排: 支持编排和组织复杂的机器学习工做流,该工做流能够被直接触发,定时触发,也能够由事件触发,甚至能够实现由数据的变化触发;
  • 简单的实验管理: 帮助数据科学家尝试众多的想法和框架,以及管理各类试验。并实现从实验到生产的轻松过渡;
  • 经过组件化方便重用: 经过重用 Pipelines 和组件快速建立端到端解决方案,无需每次从 0 开始的从新构建。

在阿里云上运行 Kubeflow Pipelines

看到 Kubeflow Piplines 的能力,你们是否是都摩拳擦掌,想一睹为快?可是目前国内想使用 Kubeflow Pipeline 有两个挑战:git

  1. Pipelines 须要经过 Kubeflow 部署;而 Kubeflow 默认组件过多,同时经过 Ksonnet 部署 Kubeflow 也是很复杂的事情;
  2. Pipelines 自己和谷歌云平台有深度耦合,没法运行在其余云平台上或者裸金属服务器的环境。

为了方便国内的用户安装 Kubeflow Pipelines,阿里云容器服务团队提供了基于 Kustomize 的 Kubeflow Pipelines 部署方案。和普通的 Kubeflow 基础服务不一样,Kubeflow Pipelines 须要依赖于 mysql 和 minio 这些有状态服务,也就须要考虑如何持久化和备份数据。在本例子中,咱们借助阿里云 SSD 云盘做为数据持久化的方案,分别自动的为 mysql 和 minio 建立 SSD 云盘。
您能够在阿里云上尝试一下单独部署最新版本 Kubeflow Pipelines。github

前提条件

在 Linux 和 Mac OS 环境,能够执行sql

opsys=linux  # or darwin, or windows
curl -s https://api.github.com/repos/kubernetes-sigs/kustomize/releases/latest |\
  grep browser_download |\
  grep $opsys |\
  cut -d '"' -f 4 |\
  xargs curl -O -L
mv kustomize_*_${opsys}_amd64 /usr/bin/kustomize
chmod u+x /usr/bin/kustomize

在 Windows 环境,能够下载 kustomize_2.0.3_windows_amd64.exe数据库

  • 在阿里云容器服务建立 Kubernetes 集群, 能够参考 文档

部署过程

  1. 经过 ssh 访问 Kubernetes 集群,具体方式能够参考文档
  2. 下载源代码
yum install -y git
git clone --recursive https://github.com/aliyunContainerService/kubeflow-aliyun
  1. 安全配置

3.1 配置 TLS 证书。若是没有 TLS 证书,能够经过下列命令生成windows

yum install -y openssl
domain="pipelines.kubeflow.org"
openssl req -x509 -nodes -days 365 -newkey rsa:2048 -keyout kubeflow-aliyun/overlays/ack-auto-clouddisk/tls.key -out kubeflow-aliyun/overlays/ack-auto-clouddisk/tls.crt -subj "/CN=$domain/O=$domain"
若是您有TLS证书,请分别将私钥和证书保存到 kubeflow-aliyun/overlays/ack-auto-clouddisk/tls.keykubeflow-aliyun/overlays/ack-auto-clouddisk/tls.crt

3.2 配置 admin 的登陆密码api

yum install -y httpd-tools
htpasswd -c kubeflow-aliyun/overlays/ack-auto-clouddisk/auth admin
New password:
Re-type new password:
Adding password for user admin
  1. 首先利用 kustomize 生成部署 yaml
cd kubeflow-aliyun/
kustomize build overlays/ack-auto-clouddisk > /tmp/ack-auto-clouddisk.yaml
  1. 查看所在的 Kubernetes 集群节点所在的地域和可用区,而且根据其所在节点替换可用区,假设您的集群所在可用区为 cn-hangzhou-g, 能够执行下列命令
sed -i.bak 's/regionid: cn-beijing/regionid: cn-hangzhou/g' \
    /tmp/ack-auto-clouddisk.yaml
sed -i.bak 's/zoneid: cn-beijing-e/zoneid: cn-hangzhou-g/g' \
    /tmp/ack-auto-clouddisk.yaml
建议您检查一下 /tmp/ack-auto-clouddisk.yaml 修改是否已经设置
  1. 将容器镜像地址由 gcr.io 替换为 registry.aliyuncs.com
sed -i.bak 's/gcr.io/registry.aliyuncs.com/g' \
    /tmp/ack-auto-clouddisk.yaml
建议您检查一下 /tmp/ack-auto-clouddisk.yaml 修改是否已经设置
  1. 调整使用磁盘空间大小, 好比须要调整磁盘空间为 200G
sed -i.bak 's/storage: 100Gi/storage: 200Gi/g' \
    /tmp/ack-auto-clouddisk.yaml
  1. 验证 pipelines 的 yaml 文件
kubectl create --validate=true --dry-run=true -f /tmp/ack-auto-clouddisk.yaml
  1. 利用 kubectl 部署 pipelines
kubectl create -f /tmp/ack-auto-clouddisk.yaml
  1. 查看访问 pipelines 的方式,咱们经过 ingress 暴露 pipelines 服务,在本例子中,访问 IP 是 112.124.193.271。而 Pipelines 管理控制台的连接是: [https://112.124.193.271/pipel...]()
kubectl get ing -n kubeflow
NAME             HOSTS   ADDRESS           PORTS     AGE
ml-pipeline-ui   *       112.124.193.271   80, 443   11m
  1. 访问 pipelines 管理控制台

若是使用自签发证书,会提示此连接非私人连接,请点击显示详细信息, 并点击访问此网站。
请输入步骤 2.2 中的用户名 admin 和设定的密码。
这时就可使用 pipelines 管理和运行训练任务了。

Q&A

  1. 为何这里要使用阿里云的 SSD 云盘?

这是因为阿里云的 SSD 云盘能够设置按期的自动备份,保证 pipelines 中的元数据不会丢失。

  1. 如何进行云盘备份?

若是您想备份云盘的内容,能够为云盘 手动建立快照 或者 为硬盘设置自动快照策略 按时自动建立快照。

  1. 如何清理 Kubeflow Piplines 部署?

这里的清理工做分为两个部分:

  • 删除 Kubeflow Pipelines 的组件
kubectl delete -f /tmp/ack-auto-clouddisk.yaml
  • 经过释放云盘分别释放 mysql 和 minio 存储对应的两个云盘
  1. 如何使用现有云盘做为数据库存储,而避免自动建立云盘?

请参考文档

总结

本文为您初步介绍了 Kubeflow Pipelines 的背景和其所要解决的问题,以及如何在阿里云上经过 Kustomize 快速构建一套服务于机器学习的 Kubeflow Pipelines, 后续咱们会分享如何利用 Kubeflow Pipelines 开发一个完整的机器学习流程。

相关文章
相关标签/搜索