2019 年 6 月 24 日至 26 日, 由 Cloud Native Computing Foundation (CNCF) 主办的云原生技术大会 KubeCon + CloudNativeCon + Open Source Summit(上海 )即将在中国上海盛装启幕。
继 2018 年 KubeCon 首次成功登录中国,本届 KubeCon 将吸引来自全世界数千名技术人员将会参加这次盛会,参与CNCF 所有项目和话题的深度探讨和案例分析,聆听 CNCF 项目的运维者和最终用户的分享。本届 KubeCon + CloudNativeCon + Open Source Summit 大会项目委员会由 75 名专家组成,审阅 KubeCon + CloudNativeCon 的 618 项提案,在本次 KubeCon China 2019 上,阿里巴巴共有 26 个技术演讲入选。
在本次 KubeCon 上,阿里云智能容器平台负责人丁宇(叔同)、 CNCF TOC、etcd 项目做者、阿里云容器平台资深技术专家李响,CNCF 大使、Kubernetes 项目维护者、阿里云高级技术专家张磊等众多云原生技术大咖都会悉数到场并作技术分享,同时会为您带来包括开源 Virtual Cluster 强多租户设计、 OpenKruise 开源项目、开放云原生应用中心(Cloud Native App Hub)等众多云原生先进技术的最新动态与进展。咱们很是期待您可以在 KubeCon China 上与阿里容器平台团队见面、进行交流或者开展技术合做。
api
全面展现阿里云在本次 KuebCon 演讲议题及云原生生态成果的“KubeCon + CloudNativeCon 阿里巴巴专场页面**”已经正式上线。在这里,您能够掌握阿里在 KubeCon 上的演讲议题、追踪《CNCF x Alibaba 云原生技术公开课》课程更新、了解阿里云原生产品动态、6 月 24 日动手沙龙活动安排,点击连接或文末“阅读原文”直接进入专场页面。安全
专场页面连接:https://yq.aliyun.com/promotion/833
咱们推荐您重点关注以下演讲:
服务器
演讲人
阿里云智能容器平台负责人 丁宇(叔同)网络
议题简介
做为云原生应用的实践者,阿里云不只支撑了流量巨大的双十一,并且也承担阿里巴巴经济体大规模平常业务。本演讲将分享阿里云对 Kubernetes 技术取得成功思考,同时展望云原生将来的发展趋势。
架构
演讲人:阿里云容器平台资深技术专家 李响运维
议题简介:阿里云已经成功地规模化落地云原生,本次演讲旨在将具体的经验分享给各位观众,涉及规模扩展、可靠性、开发效率、迁移策略等方面,并探讨针对大规模场景进行优化。Cloud native works for Alibaba. Cloud native works for (almost) everyone.
微服务
演讲人
阿里云容器平台高级技术专家 秦国安(炎烈)
阿里云容器平台高级开发工程师 李涛(吕风)工具
议题简介性能
阿里巴巴集团正在使用 Kubernetes 来支持全球最大的电子商务业务。 在可用性和可扩展性方面,如何提供可靠的细粒度监控和警报服务确实是一项挑战。 本次演讲将分享基于开源项目 Prometheus 和 Thanos 开发具备高可用性和可扩展性的细粒度监控系统的经验。 该系统主要支持阿里巴巴的集群管理系统,有 800 万 TPS 和 10K 请求,议题将讨论:学习
演讲人
阿里云容器平台高级技术专家 王夕宁(贝叮)
Backend Architect UniCareer Xiaozhong Liu
议题简介
职优你是一个电子学习职业发展平台,旨在知足全球学生和在职专业人士的各类需求,并为来自世界多个地区的用户提供服务。这些应用部署于在阿里云的不一样区域上的多个 Kubernetes 集群上,以减小不一样区域内的服务访问延迟。 为了有效地管理这些微服务,须要一个多集群服务网格来控制微服务流量、保证服务到服务通讯等。
Istio 是一个创建在 Kubernertes 上的服务网格,可支持多种拓扑来管理多个 Kubernetes 集群上的应用流量统一管理。在整个案例研究中,咱们将使用 Istio 服务网格分享多集群流量管理相关的部署设计和技术,并根据底层平台的需求和限制讨论一些挑战和相应的实践。
演讲人
阿里云容器平台高级技术专家 何剑
蚂蚁金服平台数据技术系统部技术专家 岑鹏浩(库泊)
议题简介
本次演讲主要介绍如何将 AI training 任务和长服务在 Kubernetes 集群之上混部。主要目的是经过混部各类 workload 提升资源利用率,从而节省资源。咱们会从各个不一样的维度包括 Qos class, cgroup, scheduling 等等来描述咱们如何实现混部,以及如何评估利用率。过去几个月中,咱们构建了一个几百节点的 GPU 和 CPU 混部集群,咱们会介绍在生产集群中混合部署长服务和AI批处理任务的最佳实践。
演讲人
阿里云容器平台技术专家 熊欢(宁拙)
议题简介
在云时代,企业中基于容器的应用激增,因为人工操做、硬件故障等,发生容器故障的可能性大幅增长。所以,如何在不增长资源投入的状况下保证大规模容器的可靠性成为云平台面临的一个巨大挑战。阿里巴巴运行着数百万个容器,为恢复容器相关故障提出了 1-5-10 理论:MTTD(平均检测时间)为 1 分钟,MTTI(平均识别时间)为 5 分钟,MTTR(平均解决时间)为 10 分钟。在本次会议中,咱们将讨论如何利用 1-5-10 提升大规模容器的可靠性:
演讲人
阿里云容器平台高级软件工程师 陈星宇(宇慕)
阿里云容器平台高级技术专家 曾凡松(逐灵)
议题简介
目前,Kubernetes 的规模限制是 5k 节点,所以若是您想用它来管理像 10k 节点这样的 Web 规模集群,您可能没法实现。 您是否想知道 Kubernetes 管理超过 5k节点的性能瓶颈是什么?当你想将其可扩展性扩展到一个新的水平时,是哪一个组件阻碍? etcd,apiserver 或者 scheduler? 了解这些问题是运营大型 Kubernetes 集群的关键。在阿里巴巴,咱们遇到了不少问题,好比随着集群变得愈来愈大,pod 建立变得很是慢。在本次演讲中,咱们想分享如何进行各类基准测试和分析,并找到瓶颈,以及如何调整控制组件,并实现了超过 100 倍的性能提高。
演讲人
阿里云容器平台高级开发工程师 傅伟(聿歌)
Google 软件工程师 刘澜涛
议题简介
本次演讲将从 containerd 架构设计理念出发,向听众分享如何使用插件化能力来加强 containerd,提供不一样镜像存储以及强隔离容器运行时的解决方案。同时,还会向听众展现 containerd 同 gVisor, Firecracker 容器运行时集成的演示案例,会让听众更好地理解 containerd 最佳集成方式。
演讲人
阿里云容器平台技术专家 张翼飞(悟鹏)
阿里云容器平台高级开发工程师 唐华敏(华敏)
议题简介
无服务器计算是当前流行的计算形式,极大下降了开发人员部署、管理、运行应用的成本。在无服务器平台中,不一样用户的服务一般混部在同一个节点上,为此,须要在多租户场景下提供可信的运行环境。在阿里巴巴,咱们使用 Kata Containers 做为安全容器运行时,在存储、网络、硬件等层面确保多租硬隔离和服务运行时的性能。在本次分享中,将根据咱们的生产实践,详细讨论多租场景下如何实现硬多租和服务运行的高性能。
演讲人
阿里巴巴开源治理办公室高级社区经理 赵生宇(笙雨)
议题简介
开源社区的运营一直是开源软件开发中的一个痛点,尤为是对于由纯开发者主导的社区,如何有效的管理开源社区、发现社区中的活跃贡献者、经过数据发现社区管理中存在的问题等,都是亟待解决的问题。本次演讲的内容将包括:
演讲人
阿里云容器平台高级技术专家 张磊
容器平台高级开发工程师 王思宇(酒祝)
议题简介
将像阿里巴巴这样的全球电子商务巨头迁移到云原平生台绝非易事,在本次演讲中,咱们将从技术和社区的角度分享咱们去年工做得出的经验教训,包括:
演讲人
阿里云应用运维平台技术专家 胡做政(正希)
阿里云应用运维平台高级开发工程师 张劲(太云)
议题简介
随着容器技术在工业中的应用愈来愈普遍,如何安全高效地分发映像是工程师们所面临的新挑战。蜻蜓项目是基于开源智能 P2P 的映像和文件分发系统。该项目旨在解决云原生场景中的全部分发问题。目前,蜻蜓项目专一于如下方面:
在本演讲中,咱们将重点介绍经过蜻蜓分发容器映像。咱们将回顾组织面临的挑战,包括大规模分发、安全传输、带宽成本,并提供解决方案。本次演讲将讨论实际用例。
演讲人
阿里云容器平台技术专家 陈杰
蚂蚁金服高级开发工程师 马金晶
议题简介
众所周知,准确的异常发现和快速的问题分析是保证 Kubernetes 集群可用性和稳定性的关键所在。但在整个 Kubernetes 项目中,有着不可胜数的监控指标数据。仅以咱们的 Kubernetes 集群为例,咱们观察到像这样的监控数据每秒钟就会产生几千条。如何合理地利用这些复杂而大量的数据和指标,对它们有效的进行记录和分析,变成简单易懂的可视化展现,变成准确的告警信息,是一个很是有挑战性的工做。
在这个演讲中,咱们但愿与你们分享在 Alibaba 在 Kubernetes 集群监控、审计和巡检方面的实践和经验。首先,咱们会聊一聊 Kubernetes 与稳定性相关的重要数据和指标,以及如何去理解它们。咱们会以案例的形式,具体讲一讲咱们如何对这些数据和指标进行整合与解析。最后,咱们会分享阿里巴巴高效、实时的对这些数据进行自动化巡检与分析的最佳实践。
演讲人
阿里云容器平台高级技术专家 张凯
阿里云容器平台技术专家 车漾(必嘫)
议题简介
愈来愈多的数据科学家在 Kubernetes 上运行基于 NvidiaGPU 的深度学习任务。与此同时,他们发现集群中的空闲 GPU 浪费了超过 40% 的成本。所以,如何能帮助提升 GPU 使用效率成为一个重要挑战。咱们将介绍一款基于原生 Kubernetes 的 GPU 共享解决方案:
演讲人
阿里云容器平台技术专家 江勇(益方)
议题简介
本次演讲将分享从阿里巴巴网络规模提升镜像分发效率的实践和经验教训。根据不一样的场景,咱们利用不一样的镜像分发方法。基于 P2P 的 CNCF/Dragonfly 分发是缓解镜像中心带宽和减小分发时间的最直接方式。此外,CNCF/containerd 中的远程文件系统快照程序直接远程存储镜像,使容器引擎经过网络读取镜像内容,几乎不须要时间分发。你会发现第二种方式依赖于网络稳定性,那么如何根据镜像内容读请求动态加载从远程到本地存储的镜像做为权衡?最后,咱们将总结如何选择适合镜像分布的方式。
演讲人
阿里云容器平台技术专家 王程
阿里云容器平台技术专家 张晓宇(衷源)
议题简介
阿里巴巴这样规模庞大的全球电商巨头,其所拥有的应用数量和应用种类的都是超大规模的。如何科学合理管理这些容器的资源,一直是咱们面临的巨大挑战。在本次演讲中,咱们将从技术和社区演进等多种维度为你们分享咱们的实际工做经验和技术成果。其中包括:
本文做者:jessie筱姜
本文为云栖社区原创内容,未经容许不得转载。