Prophecis 带你快速开启机器学习之旅

设计完善的机器学习平台长什么样算法

一个设计完善的机器学习平台能够在 AI 应用全生命周期的开发和管理过程起到做用。具体而言,设计完善的机器学习平台具有 6 大能力:markdown

  1. 统一的存储空间,支持多数据源导入;框架

  2. Pipeline 可视化工做流管理与执行,支持数据科学家从数据建模阶段开始的可视化管理,节省成本,快速体现数据科学家的价值;运维

  3. 基于容器的计算资源分配和软件库安装,支持 TensorFlow、PyTorch 等各类框架;机器学习

  4. 支持 GPU、TPU、CPU 框架和异构计算硬件和框架;分布式

  5. 模型管理,支持新手快速上手,无需经过本身实现原始算法,只须要理解算法原理就能够经过调参实现;工具

  6. AI Serving,模型一键封装为 API,一键部署。oop

相对重要的部分是数据接入、开发环境、分布式训练以及模型管理,其余环节均可以慢慢加进来,但这 4 个是基础组件。学习

  1. 数据接入,数据是一切得以实现的前提。最简单的方式是经过上传来解决。企业内部每每会基于大数据平台,经过数据导入等方式接入。或者经过数据映射的方式,数据不须要导入,直接就能够经过外部访问;测试

  2. 开发环境,数据科学家基本对此达成了共识,都会选择相似 Jupyter 这样的工具;

  3. 分布式训练,相似 Tensorflow、PyTorch 等都提供一些方法能够作分布式训练;

  4. 模型管理,这是如今比较个性化的模块,不一样的公司会有不一样的实现。明略科技的模型管理是涵盖模型生成、模型部署以及更新迭代的全流程实现。

除了环节和流程上面的完善,一个设计良好的机器学习平台能够下降数据科学家和工程师之间的交流成本。在这样一个机器学习平台中,大部分工做均可以经过自动化的方式完成,好比数据接入、模型上线等环节,数据科学家则只须要专一算法和模型自己,其余的工做所有经过自动化的方式实现,几乎不须要工程师协助。至于算法的上线效果如何评估,这与业务指标强绑定。在企业内部,算法模型上线以前,指标就已经肯定好了。

注:本节摘自AI前线公众号文章《对话明略科技:一个设计完善的机器学习平台是什么样子?》

机器学习框架 Prophecis

Prophecis 是微众银行大数据平台团队开发的一站式机器学习平台,提供多种模型训练调试方式,集成多种开源机器学习框架,具有机器学习计算集群的多租户管理能力,提供生产环境全栈化容器部署与管理服务。

图 1 Prophecis 的总体框架

Prophecis 总体框架如上图所示,主要包含 5 个关键服务:

  • Prophecis MLFlow:机器学习分布式建模工具,具有单机和分布式模式模型训练能力,支持 Tensorflow、Pytorch、xgboost 等多种机器学习框架,支持从机器学习建模到部署的完整 Pipeline;

  • Prophecis MLLabis:机器学习开发探索工具,提供开发探索服务,是一款基于 Jupyter Lab 的在线 IDE,同时支持 GPU 及 Hadoop集群的机器学习建模任务,支持 Python、R、Julia 多种语言,集成 Debug、TensorBoard 多种插件;

  • Prophecis Model Factory:机器学习模型工厂,提供机器学习模型存储、模型部署测试、模型管理等服务;

  • Prophecis Data Factory:机器学习数据工厂,提供特征工程工具、数据标注工具和物料管理等服务;

  • Prophecis Application Factory:机器学习应用工厂,由微众银行大数据平台团队和 AI 部门联合共建,基于 Kubesphere 定制开发,提供 CI/CD 和 DevOps 工具,GPU 集群的监控及告警能力。

Prophecis 的功能特点

图 2 Prophecis 机器学习模型生命周期

Prophecis 与当前已开源的的机器学习平台相比主要有以下特色:

  • 全生命周期的机器学习体验:Prophecis 的 MLFlow 经过 AppJoint 能够接入到 DataSphere Stdudio 的工做流中,支持从数据上传、数据预处理、特征工程、模型训练、模型评估到模型发布的机器学习全流程;

  • 一键式的模型部署服务:Prophecis MF 支持将 Prophecis MLFlow、Prophecis MLLabis 生成的训练模型一键式发布为 Restful API 或者 RPC 接口,实现模型到业务的无缝衔接;

  • 机器学习应用部署、运维、实验的综合管理平台:基于社区开源方案定制,提供完整的、可靠的、高度灵活的企业级机器学习应用发布、监控、服务治理、日志收集和查询等管理工具,全方位实现对机器学习应用的管控,知足企业对于机器学习应用在线上生产环境的全部工做要求。

Prophecis 的核心组件主要是基于开源技术构建,从开源中来到开源中去,咱们计划在近期完成 Prophecis 的开源,但愿与社区庞大的开源爱好者们一块儿共建一个更加完备和成熟的工业级机器学习平台。