6 月 24 日,国内云原生领域最重要的会议即未来袭!KubeCon + CloudNativeCon + Open Source Summit China 2019 将在上海召开,蚂蚁金服这次也会重度参与,由多名技术专家进行分享并组织 workshop,为参会者献上技术的饕餮盛宴。安全
本次大会上,蚂蚁金服将会重点分享 Kubernetes 集群的管理、深度学习任务在 Kubernetes 上的大规模部署和调优、互联网金融、安全容器等前沿课题。从 2016 年起,蚂蚁金服开始深度使用 Kubernetes,并做为最终用户案例被 CNCF 官方推荐:网络
具体分享内容以下:架构
议题简介框架
本次演讲主要介绍如何将 AI training 任务和长服务在 Kubernetes 集群之上混部。主要目的是经过混部各类 workload 提升资源利用率,从而节省资源。咱们会从各个不一样的维度包括 Qos class, cgroup, scheduling 等等来描述咱们如何实现混部,以及如何评估利用率。过去几个月中,咱们构建了一个几百节点的 GPU 和 CPU 混部集群,咱们会介绍在生产集群中混合部署长服务和AI批处理任务的最佳实践。less
议题简介机器学习
众所周知,准确的异常发现和快速的问题分析是保证 Kubernetes 集群可用性和稳定性的关键所在。但在整个 Kubernetes 项目中,有着不可胜数的监控指标数据。仅以咱们的 Kubernetes 集群为例,咱们观察到像这样的监控数据每秒钟就会产生几千条。如何合理地利用这些复杂而大量的数据和指标,对它们有效的进行记录和分析,变成简单易懂的可视化展现,变成准确的告警信息,是一个很是有挑战性的工做。分布式
在这个演讲中,咱们但愿与你们分享在 Alibaba 在 Kubernetes 集群监控、审计和巡检方面的实践和经验。首先,咱们会聊一聊 Kubernetes 与稳定性相关的重要数据和指标,以及如何去理解它们。咱们会以案例的形式,具体讲一讲咱们如何对这些数据和指标进行整合与解析。最后,咱们会分享阿里巴巴高效、实时的对这些数据进行自动化巡检与分析的最佳实践。微服务
议题简介工具
随着业务的增加,咱们须要将 Kubernetets 部署到世界各地的多个数据中心。单个数据中心中就拥有超过数万个节点。咱们面临的关键挑战是如何高效、可靠地在数据中心内管理多个大规模 Kubernetes 集群。性能
在本次演讲中,咱们将分享实现大规模集群管理自动化的经验和实践。首先,咱们将介绍全自动化节点生命周期管理,以及如何基于 NPD、Autoscaler 和自定义运算符自动发现和恢复节点故障。而后,咱们将分享部署和升级 Kubernetes 集群的经验和解决方案。最后,咱们将分享基于 Prometheus 和运算符的风险防控系统,该系统可确保集群可靠性,具备自动故障检测和隔离的能力。
议题简介
默认部署方法为执行常规版本升级提供了一种良好的解决方案。可是,将高可用性和可靠性的大规模服务部署为互联网金融应用尚且另当别论,更不用说这种工做负载在现有操做系统和维护系统下所面临的兼容性问题了。
蚂蚁金服引入的新工做负载可以让这些问题迎刃而解。它可以经过可靠而灵活的分发、风险控制的部署策略以及高性能的就地更新扩展部署能力。它尤为消除了金融服务行业所面临的技术障碍,使开发商和运营商可以专心发展核心业务。
议题简介
本次演讲的重点是在 Kubernetes 上部署大规模分布式深度学习。此外,还将介绍如何经过使用运算符来管理和并实现机器学习训练过程自动化。咱们将分享咱们的经验,并比较两个开源 Kubernetes 运算符:tf-operator 和 mpi-operator。这两个运算符都为 TensorFlow 管理训练任务,但有着不一样的分配策略,这就形成了 CPU、GPU 和网络利用率方面的不一样性能结果。
深度学习任务既是网络密集型又是 GPU 密集型,所以对编排进行适当优化很是重要。易发的不平衡会致使闲置计算容量,这对于 GPU 节点来讲成本过高昂了(与 CPU 相比)。咱们将分享咱们的经验,但愿可提供有用的洞察,帮助从机器学习任务中得到更好的经济效益。
议题简介
Sig-Cluster-Lifecycle Intro群集生命周期SIG是一个专一于群集部署和升级的特别兴趣小组。咱们的SIG正在努力改善用户体验,以引导符合最佳实践的最小可行Kubernetes集群。使用咱们的主要安装工具kubeadm,能够很好地管理简化的安装和升级过程。咱们最近推出了一个名为Cluster API的新Kubernetes对象,它将声明式Kubernetes风格的API引入群集建立,配置和管理。在本次介绍会上,咱们将介绍SIG的使命陈述,审核最新更新,并讨论咱们的路线图。还介绍了一些新的生命周期项目。很是欢迎您加入咱们的SIG并为其作出贡献。
议题简介
在 KubeCon NA 2018 上,咱们对 Kata 容器和 gVisor 进行了定量比较,当时咱们展现了对 Kata 而言合理的 CPU/网络性能、文件系统存储的性能损失、Kata 的内存消耗以及 gVisor 的系统调用开销等。
活动结束后,Kata 容器发布了版本 1.5,支持轻量级管理程序(Nemu 和 FireCracker)。当时咱们还介绍了用于文件系统共享的 virtio-fs,它能够提供更好的 POSIX 兼容性和性能。Virtio-fs 可以与 shimv2 进行无缝的容器化集成,看似可以在 2019 年为 Kubernetes 提供更出色的生产就绪型安全沙箱支持。
在本次演讲中,咱们将展现使用更新的测试套件对新推出的技术进行的基准测试,并帮助用户了解它们是否已生产就绪。
Service Mesh 将服务间通讯能力下沉到基础设施,让应用解耦并轻量化。但 Service Mesh 自己的复杂度依然存在,如何轻松的实践 Service Mesh 技术?在活动现场,咱们将带你感觉 CloudMesh 经过将 Service Mesh 托管在云上,助力轻松实践 Service Mesh 技术。
做为云原生技术前进方向之一,Serverless 架构让您进一步提升资源利用率,更专一于业务研发。本次您能够体验到快速建立 Serveless 应用、根据业务请求秒级 0-1-N 自动伸缩、经过日志查看器快速排错、按时间触发应用等产品新功能。
微服务架构下,分布式事务问题是一个业界难题。此次,您能够亲身体验如何使用开源分布式事务框架 Seata 的 AT 模式、TCC 模式解决业务数据的最终一致性问题。
具体日程可点击这里查看。
实际日程以大会官网为准。