Kubeflow 快速入门

Kubeflow 快速入门

Kubeflow 是 Google 发布的用于在 Kubernetes 集群中部署和管理 tensorflow 任务的框架。主要功能包括github

  • 用于管理 Jupyter 的 JupyterHub 服务
  • 用于管理训练任务的 Tensorflow Training Controller
  • 用于模型服务的 TF Serving 容器

部署

部署以前须要确保app

  • 一套部署好的 Kubernetes 集群或者 Minikube,并配置好 kubectl 命令行工具
  • 安装 ksonnet 0.8.0 以上版本

对于开启 RBAC 的 Kubernetes 集群,首先要建立管理员角色绑定:框架

kubectl create clusterrolebinding tf-admin --clusterrole=cluster-admin --serviceaccount=default:tf-job-operator

而后运行如下命令部署机器学习

ks init my-kubeflow
cd my-kubeflow
ks registry add kubeflow github.com/google/kubeflow/tree/master/kubeflow
ks pkg install kubeflow/core
ks pkg install kubeflow/tf-serving
ks pkg install kubeflow/tf-job
ks generate core kubeflow-core --name=kubeflow-core
ks apply default -c kubeflow-core

For Error rate limit, as follow:工具

https_proxy=http://192.168.199.99:9999 GITHUB_TOKEN=f7b4140133f6b77e6a987a0dae62db3551737*** ks pkg install kubeflow/core

若是有多个 Kubernetes 集群,也能够切换到其余其集群中部署,如学习

kubectl config use-context gke
ks env add gke
ks apply gke -c kubeflow-core

稍等一会,就能够看到 tf-hub-lb 服务的公网 IP,也就是 JupyterHub 的访问地址ui

kubectl get svc tf-hub-lb

对于不支持 LoadBalancer Service 的集群,还能够经过端口转发(http://127.0.0.1:8100)的方式来访问:google

kubectl port-forward tf-hub-0 8100:8000

JupyterHub 默承认以用任意用户名和密码登陆。登录后,能够使用自定义镜像来启动 Notebook Server,好比使用

  • gcr.io/kubeflow/tensorflow-notebook-cpu
  • gcr.io/kubeflow/tensorflow-notebook-gpu

训练示例

使用 CPU:

ks generate tf-cnn cnn --name=cnn
ks apply gke -c cnn

使用 GPU:

ks param set cnn num_gpus 1
ks param set  cnn num_workers 1
ks apply default -c cnn

部署模型

MODEL_COMPONENT=serveInception
MODEL_NAME=inception
MODEL_PATH=gs://cloud-ml-dev_jlewi/tmp/inception
ks generate tf-serving ${MODEL_COMPONENT} --name=${MODEL_NAME} --namespace=default --model_path=${MODEL_PATH}

ks apply gke -c ${MODEL_COMPONENT}

参考文档

相关文章
相关标签/搜索