专为Kubeflow打造的KUDO企业级机器学习平台是一个专为安全性、扩展和速度而构建的端到端机器学习平台,该平台容许企业使用最佳的开源技术在共享资源的基础上开发和部署机器学习模型。html
活动预告web
D2iQ云原生夏令营第四讲【乘“新基建”东风,构建自主可控的企业级数字化IT架构】将于明天下午2:00开讲。不管您是技术人员仍是决策者,全面了解新一代技术核心与生态发展,是实现数字化转型的前提。扫描文末二维码马上报名。安全

机器学习能够说是当今企业业务的命脉之一。没有它,您的数据中心只是一个硬盘的博物馆。虽然机器学习能够推进数据驱动型业务的发展,但它须要专业知识和复杂的技术组件才能使其正常运行。D2iQ的Kubeflow for KUDO,是一个旨在帮助您在短期内从模型过渡到生产过程的企业平台。服务器
预计在将来五年内,企业在自身数据中心中存储的数据将多达700 亿TB。若是将全部数据存储在1 TB容量5.5毫米(0.22英寸)的超薄硬盘上,其堆栈能够直达月球。若是把存储在公有云上的数据也包括在内,这个堆栈不只能够直达月球,还能绕月球转一圈后再返回来,甚至几乎能够再进行一次环球旅行。随着数据量呈指数级增加,机器学习再也不是一种选择,而是一种必要。微信
不幸的是,许多企业在从单台机器上的模型过渡到可扩展的部署中都遇到了挑战。只有不到15%的数据科学计划可以投入生产,而对于那些投入生产的计划来讲,将模型转化为生产级解决方案可能要花费数月的时间。网络
在过去十年中,只有大型科技公司才会创建大数据时代的端到端机器学习(ML) 平台。这并不意味着这种基础设施对大多数公司来讲是高不可攀的。事实上,这也是为何咱们要在D2iQ创建KUDO for Kubeflow的缘由:让全部企业都能使用世界级的机器学习基础设施。架构
咱们的假设app
在深刻了解KUDO for Kubeflow如何帮助企业进行机器学习以前,让咱们先回顾一下指导咱们的假设:负载均衡
在部署和验证第一个模型以前,企业看不到机器学习投入的任何回报。框架
除非对模型进行按期和自动的二次或屡次培训以及从新部署,不然企业没法得到机器学习投入的可持续回报。
企业要求模型具备可解释性、可靠性、稳定性和公平性。
企业不能经过雇佣和外包,将昂贵的硬件用于单个用户的机器来无限期地扩展机器学习计划。
企业根据业务需求而非软件局限来选择基础设施(云、本地、混合、边缘)。
企业愈来愈依赖开源技术进行机器学习。
从这些假设中咱们能推断出什么结论?
咱们的承诺
工做流自动化
做为一个研究机构,数据科学是一个成本中心:一次性的精辟看法可能会带来回报,但它们不多能提供连续的收入流,且每每并不常见。自动化部署对于机器学习投入的持续正收益相当重要。
快速部署
因为咱们的成功与客户的成功是一脉相连的,所以咱们的目标是尽量简单、快速和可靠地部署机器学习模型。
模型管理
基于机器学习的解决方案的合规性、规则和责任意味着人们愈来愈关注模型的公平性、可靠性、稳定性和可解释性。对于在线媒体服务商来讲,推送糟糕的内容当然难以接受,但模型的最坏状况远比关键系统安全(如汽车、航空航天、医疗设备、发电厂)、许多工业用例(如化学品、食品加工、制造、采矿)甚至金融服务中的平均性能要重要得多,由于错误的模式可能会对人们的生活产生负面影响。所以,使用工具来从新运行实验或放大细节是很重要的。
弹性基础设施
为了扩展机器学习计划,组织必须可以共享公共基础设施(例如,计算和存储)、提升生产力和协做,并尽量地实现自动化。这不只意味着基础设施必须可以动态地向上/向下扩展,还意味着基础设施必须支持业务,而不是给数据科学家和工程师带来负担。
支持任意基础设施
企业决定本身的基础设施,这听起来彷佛是理所固然的,但许多机器学习工具只能在特定的硬件或单一的公有云上良好运行。咱们不相信“在这里起做用,在那里不起做用”的技术。咱们认为支持air gap数据中心甚至边缘的用例是很重要的。您能够将KUDO for Kubeflow部署没有公共互联网链接的安全数据中心,或者在部署链接缓慢、不稳定的偏远移动研究站,咱们的目标是让它在任何地方都能正常运做。
简化目标
指望数据科学家成为统计建模、机器学习框架、软件工程、数据存储解决方案、容器化、微服务、网络、编排、站点可靠性工程师(SRE)等方面的专家是不现实的。这些均可以经过基础设施平台实现。专家们仍然须要调整配置,但典型的机器学习用户则无需了解负载平衡器、运行情况检查、IPv六、集群拓扑等。
KUDO for Kubeflow
KUDO for Kubeflow是一个专为安全性、扩展和速度而构建的端到端机器学习平台,该平台容许企业使用最佳的开源技术在共享资源的基础上开发和部署机器学习模型。KUDO for Kubeflow由Kubeflow提供支持,Kubeflow自己是一个运行在Kubernetes之上的机器学习工具包。KUDO for Kubeflow是Kubernetes用于Kubeflow的通用声明性operator,这意味着KUDO在内部被用来链接20多个Kubernetes operator。
要理解的内容不少,须要咱们把它拆分开来并回答几个相关的问题。
端到端机器学习平台
首先,当咱们说端到端时,是指数据工程、数据科学和机器学习、运维和安全性。安全性由负责身份验证、受权和端到端加密的Dex和Istio处理。KUDO for Kubeflow支持多租户:基于角色的细粒度访问控制能够与现有的外部身份提供程序集成,例如LDAP和OAuth。
其次,KUDO for Kubeflow是一个机器学习平台。它有许多面向机器学习模型开发和部署的组件。尽管它附带了流行的软件包,如Seaborn、statsmodels、SciPy、Keras、scikit-learn、PySpark(用于ETL和ML)和NLP库:gensim、NLTK和spaCy,但KUDO for Kubeflow重点关注的不是统计分析或分析。虽然咱们也经过Scala和Apache Toree支持Spark,但选择的语言倒是Python。
Notebook即服务
虽然在一台笔记本电脑上设置notebook很容易,可是一旦涉及到自定义库,好比在配置硬件时处理驱动程序或对可移植性、安全性配置文件、服务账户、凭据等有要求时,就会变得棘手起来。简而言之,在企业环境中管理notebook并非那么容易。
咱们的Jupyter notebook包含了全部内容,可以让数据科学家从模型过渡到全面部署,而且全部超参数的调整仅需数分钟,而非数月。大量的教程展现了如何使用KUDO for Kubeflow的每一个组件——若是您不想离开Jupyter,就没必要离开Jupyter!
TensorFlow、Pythorch和MXNet都有通过全面测试、预配置的镜像。全部的notebook镜像都包括Spark和Horovod,用于分布式培训和实时构建数据pipeline。每一个镜像都具备CPU和GPU风格,全部必要的驱动程序都获得正确配置。
内置的最佳实践
KUDO for Kubeflow提供了一个用于开发和部署机器学习模型的全动能平台,打破了生产力的障碍。在脆弱的环境中,没有必要用昂贵的gpu在我的笔记本电脑上运行模型。在不牺牲安全性的前提下,容许数据科学家在共享资源的基础上对模型进行大规模的训练和优化,从而告别在现实数据集上失败的模型。
轻松的机器学习DevOps
DevOps技能的缺少是企业采用机器学习的一个重要障碍。切换、代码重写和延迟都不利于支持快速迭代的协做文化。可是,若是没有工具和专业知识在生产中大规模运行模型,数据科学家能作些什么呢?
KUDO for Kubeflow为数据科学家提供了他们已经熟悉的工具,让他们彻底掌控机器学习生命周期。经过预先配置的负载均衡器、开箱即用的Canary部署和已设置的监控,将模型部署为自动扩展的Web服务。
工具选择与评估
Kubeflow的开源版本有50多个组件、集成和相关计划。在它下面运行着拥有庞大的生态系统和陡峭的学习曲线的Kubernetes。许多这些库和框架都提供相似的功能,这使得数据科学家的生活更加混乱。如何从不熟悉的一组工具中进行选择?
咱们确保KUDO for Kubeflow中包含最佳的云原生工具,而且仅提供那些对企业数据科学用例有意义的独特功能的工具。咱们研究和审查备选方案,而后根据一系列核心标准对每种方案进行评估,包括:
能力与需求
代码库健康
社区活动和支持
公司或机构支持
项目成熟度
路线图和愿景
行业内的总体知名度和采用率
咱们按期在大型集群上运行混合工做负载,以模拟真实的企业环境。这样,就保证了整个堆栈的工做和扩展。KUDO for Kubeflow的每个版本都是“浸泡式”的,也就是说,它们在必定的时间内以高负载运行,以验证系统的性能和稳定性。
咱们的教程展现了如何使用每一个包含的组件,这样您就没必要处处寻找文档,也没必要在反复试验和错误中浪费宝贵的时间。
更重要的是,一个DIY机器学习平台有这么多的移动部件,很容易让您的企业面临没必要要的安全风险。2020年6月,ZDNet报告了对未能实现适当安全协议的DIY Kubeflow集群的普遍攻击。得益于咱们的企业级安全性,KUDO for Kubeflow从设计上就能够避免此类漏洞,而且只在严格的身份验证和受权机制下进行部署。
Kubeflow与Kubernetes
同理,咱们选择了Kubeflow,它是Kubernetes上机器学习的开源标准。那么,咱们为何要选择Kubernetes?
Kubernetes是开源容器编排器。它提供了底层基础设施的抽象,很是适合机器学习,只有5%的生产机器学习系统包含与模型相关的实际代码。机器学习系统还须要notebook服务器、用于沿袭性和再现性的元数据存储、设施分布式培训和并行超参数调整,以及部署所需的一切,如模型存储、web服务器、日志记录和监控等等。
对于Kubernetes来讲,全部这些“工做负载”都打包在pod上运行的容器中。若是请求数量增长,Kubernetes会增长pod的响应数量。若是一个pod崩溃了,另外一个pod救护启动起来。存储能够做为卷挂载到pod上。一样,机密信息的管理独立于工做负载,而无需重建容器镜像。许多容器能够单独在同一硬件上运行,所以企业能够最佳利用底层基础设施,从而下降成本。
咱们用于Kafka和Cassandra(由KUDO打造)的开源Kubernetes运算符能够被添加到Kubernetes集群中,以得到完整的数据和机器学习平台:Cassandra、Kafka、Spark、TensorFlow、PyTorch、MXNet以及在多个节点上分发培训,并行调整超参数以及部署可自动扩展的模型所需的一切。
开源
整个KUDO for Kubeflow平台是以由 D2iQ 策划、集成和简化的最佳开源技术为基础的。咱们对开源技术的承诺意味着咱们尊重 API。若是您只想使用标准的SDK,您能够放心使用而不受任何限制,也无需供应商锁定。

在Konvoy上运行的KUDO for Kubeflow的架构
生产运维准备就绪
KUDO for Kubeflow使企业能够当即看到机器学习的好处。为何要花几天时间处理安装、设置和配置?咱们提供Kommander的双击安装——是的,咱们数过了。
D2iQ彻底支持KUDO for Kubeflow以及任何附加KUDO operator(例如Cassandra和Kafka)。这意味着企业能够享受最新的特性和新颖的功能,而无需停机。
接下来是什么?
对于下一个版本,咱们将继续减小从模型到生产所需的时间,方法是经过添加用于习惯分布式执行的附加operator来改善用户体验,添加数据和模型管理以及端到端跟踪和监控的功能。
同时,注册D2iQ的KUDO for Kubeflow,并准备好随时启用。
欢迎点击“阅读原文”了解更多KUDO for Kubeflow。
D2iQ云原生夏令营
初阶主题:解构IT现代化, 加速数字化转型落地
D2iQ为期3个月的云原生线上培训课程报名正式启动!
若是您还在被花样百出的技术概念所迷惑,不清楚如何开启数字化转型,请您扫码报名您感兴趣的课程。
W E B I N A R
D2iQ云原生夏令营

7月22日(周三) 下午14:00-15:00
内容大纲
什么是新基建
新基建,大机遇
企业数字化转型的雷区
5G 可以带来什么
AI 有效发掘数据的价值
数据驱动急需新型IT模式
跨云平台建设是必需品
数字化转型,生态是关键
更多精彩课程,敬请期待!
惊喜礼品
每期课程的第二、第20、第200个报名观众,咱们将为您送上神秘大礼包!
每期课程结束后,填写调查问卷,便可获取D2iQ定制笔记本。
参与分享结束后的Q&A问答环节,便可得到D2iQ定制T-shirt。
云原生夏令营回顾和课件下载
W E B I N A R
D2iQ云原生夏令营
从0到1,理清现代IT技术脉络
2020.07.01
内容大纲
解读IT技术演变,发展路径
大型机,X86,虚拟化,容器化和云原生
业务驱动,技术动力。如何理解技术演进趋势?
如何寻找适合本身的技术之路?
从“零”开始技术选型
如何理解开源和IT生态对业务的影响?
现代IT其实没那么难
视频回放
课件下载
微信公众号后台对话框回复关键词“0701”,便可获取课件下载连接。
W E B I N A R
D2iQ云原生夏令营
被迫转型仍是主动革新?快速掌握新一代信息技术核心
2020.07.08
内容大纲
-
从被动到主动:新一代信息技术主要特色
-
从被动到主动:利用IT推进企业业务转型与创新
-
从被动到主动:创新业务的快速发展对IT的推进
-
传统IT架构的解决方案 - 业务技术架构
-
传统IT架构的解决方案 - 企业数据
-
现代IT架构的解决方案 - 业务技术架构
-
现代IT架构的解决方案 - 企业数据
-
现代IT能够很简单
视频回放
课件下载
微信公众号后台对话框回复关键词“0708”,便可获取课件下载连接。
W E B I N A R
D2iQ云原生夏令营
云原生生态体系解析
2020.07.15
内容大纲
什么是云原生
云原生发展,过去,如今和将来
云原生与云计算的那些事
1)云原生IaaS能力
2)云原生PaaS能力
3)云原生对SaaS的影响
云原生专项解决方案
1)数据技术解决方案
2)DevOps与微服务解决方案
3)人工智能解决方案
视频回放
课件下载
微信公众号后台对话框回复关键词“0715”,便可获取课件下载连接。
往期精彩文章
关于D2iQ

点击“阅读原文”了解更多KUDO for Kubeflow
本文分享自微信公众号 - D2iQ(d2iq_apac)。
若有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一块儿分享。