规模化落地云原生，阿里云即将重磅亮相 KubeCon China

时间 2019-12-09

标签规模落地原生阿里即将重磅亮相 kubecon china 栏目阿里巴巴繁體版

原文原文链接

2019 年 6 月 24 日至 26 日, 由 Cloud Native Computing Foundation (CNCF) 主办的云原生技术大会 KubeCon + CloudNativeCon + Open Source Summit（上海）即将在中国上海盛装启幕。

继 2018 年 KubeCon 首次成功登录中国，本届 KubeCon 将吸引来自全世界数千名技术人员将会参加这次盛会，参与CNCF 所有项目和话题的深度探讨和案例分析，聆听 CNCF 项目的运维者和最终用户的分享。本届 KubeCon + CloudNativeCon + Open Source Summit 大会项目委员会由 75 名专家组成，审阅 KubeCon + CloudNativeCon 的 618 项提案，在本次 KubeCon China 2019 上，阿里巴巴共有 26 个技术演讲入选。

在本次 KubeCon 上，阿里云智能容器平台负责人丁宇（叔同）、 CNCF TOC、etcd 项目做者、阿里云容器平台资深技术专家李响，CNCF 大使、Kubernetes 项目维护者、阿里云高级技术专家张磊等众多云原生技术大咖都会悉数到场并作技术分享，同时会为您带来包括开源 Virtual Cluster 强多租户设计、 OpenKruise 开源项目、开放云原生应用中心（Cloud Native App Hub）等众多云原生先进技术的最新动态与进展。咱们很是期待您可以在 KubeCon China 上与阿里容器平台团队见面、进行交流或者开展技术合做。api

KubeCon + CloudNativeCon 阿里巴巴专场页面上线

全面展现阿里云在本次 KuebCon 演讲议题及云原生生态成果的“KubeCon + CloudNativeCon 阿里巴巴专场页面**”已经正式上线。在这里，您能够掌握阿里在 KubeCon 上的演讲议题、追踪《CNCF x Alibaba 云原生技术公开课》课程更新、了解阿里云原生产品动态、6 月 24 日动手沙龙活动安排，点击连接或文末“阅读原文”直接进入专场页面。安全

专场页面连接：yq.aliyun.com/promotion/8…

咱们推荐您重点关注以下演讲：
**服务器

Kubernetes 正当时，云原生将来可期

演讲人
阿里云智能容器平台负责人丁宇（叔同）网络

议题简介
做为云原生应用的实践者，阿里云不只支撑了流量巨大的双十一，并且也承担阿里巴巴经济体大规模平常业务。本演讲将分享阿里云对 Kubernetes 技术取得成功思考，同时展望云原生将来的发展趋势。架构

Keynote：阿里巴巴规模的云原生

演讲人：阿里云容器平台资深技术专家李响运维

议题简介：阿里云已经成功地规模化落地云原生，本次演讲旨在将具体的经验分享给各位观众，涉及规模扩展、可靠性、开发效率、迁移策略等方面，并探讨针对大规模场景进行优化。Cloud native works for Alibaba. Cloud native works for (almost) everyone.微服务

阿里巴巴使用高可用性+可扩展 Prometheus 和 Thanos

演讲人
阿里云容器平台高级技术专家秦国安(炎烈)
阿里云容器平台高级开发工程师李涛(吕风)
议题简介**
阿里巴巴集团正在使用 Kubernetes 来支持全球最大的电子商务业务。在可用性和可扩展性方面，如何提供可靠的细粒度监控和警报服务确实是一项挑战。本次演讲将分享基于开源项目 Prometheus 和 Thanos 开发具备高可用性和可扩展性的细粒度监控系统的经验。该系统主要支持阿里巴巴的集群管理系统，有 800 万 TPS 和 10K 请求，议题将讨论:工具

如何使用 Prometheus 支持大规模场景？
如何使用 Thanos 解决多个 Prometheus 实例致使的数据查询问题？
咱们从 Prometheus 和 Thanos 的配置中学到的经验教训，例如目标发现和记录规则管理以及警报规则。

使用 Istio 管理跨区域和跨集群的微服务

演讲人
阿里云容器平台高级技术专家王夕宁（贝叮）
Backend Architect UniCareer Xiaozhong Liu

议题简介
职优你是一个电子学习职业发展平台，旨在知足全球学生和在职专业人士的各类需求，并为来自世界多个地区的用户提供服务。这些应用部署于在阿里云的不一样区域上的多个 Kubernetes 集群上，以减小不一样区域内的服务访问延迟。为了有效地管理这些微服务，须要一个多集群服务网格来控制微服务流量、保证服务到服务通讯等。

Istio 是一个创建在 Kubernertes 上的服务网格，可支持多种拓扑来管理多个 Kubernetes 集群上的应用流量统一管理。在整个案例研究中，咱们将使用 Istio 服务网格分享多集群流量管理相关的部署设计和技术，并根据底层平台的需求和限制讨论一些挑战和相应的实践。性能

经过托管 CPU 和 GPU 工做负载，实现资源的高效利用

演讲人
阿里云容器平台高级技术专家何剑
蚂蚁金服平台数据技术系统部技术专家岑鹏浩(库泊)

议题简介
本次演讲主要介绍如何将 AI training 任务和长服务在 Kubernetes 集群之上混部。主要目的是经过混部各类 workload 提升资源利用率，从而节省资源。咱们会从各个不一样的维度包括 Qos class, cgroup, scheduling 等等来描述咱们如何实现混部，以及如何评估利用率。过去几个月中，咱们构建了一个几百节点的 GPU 和 CPU 混部集群，咱们会介绍在生产集群中混合部署长服务和AI批处理任务的最佳实践。学习

1-5-10：如何快速恢复大规模容器故障

演讲人
阿里云容器平台技术专家熊欢（宁拙）

议题简介
在云时代，企业中基于容器的应用激增，因为人工操做、硬件故障等，发生容器故障的可能性大幅增长。所以，如何在不增长资源投入的状况下保证大规模容器的可靠性成为云平台面临的一个巨大挑战。阿里巴巴运行着数百万个容器，为恢复容器相关故障提出了 1-5-10 理论：MTTD（平均检测时间）为 1 分钟，MTTI（平均识别时间）为 5 分钟，MTTR（平均解决时间）为 10 分钟。在本次会议中，咱们将讨论如何利用 1-5-10 提升大规模容器的可靠性：

如何在本地创建一个有效代理，在 1 分钟内检测到问题；
如何借助专家知识库智能诊断容器问题；
如何以故障驱动型方式自动恢复容器问题。

了解 Kubernetes Master 的可扩展性和性能

演讲人
阿里云容器平台高级软件工程师陈星宇（宇慕）
阿里云容器平台高级技术专家曾凡松（逐灵）

议题简介
目前，Kubernetes 的规模限制是 5k 节点，所以若是您想用它来管理像 10k 节点这样的 Web 规模集群，您可能没法实现。您是否想知道 Kubernetes 管理超过 5k节点的性能瓶颈是什么？当你想将其可扩展性扩展到一个新的水平时，是哪一个组件阻碍？ etcd，apiserver 或者 scheduler？了解这些问题是运营大型 Kubernetes 集群的关键。在阿里巴巴，咱们遇到了不少问题，好比随着集群变得愈来愈大，pod 建立变得很是慢。在本次演讲中，咱们想分享如何进行各类基准测试和分析，并找到瓶颈，以及如何调整控制组件，并实现了超过 100 倍的性能提高。

Intro:containerd

演讲人
阿里云容器平台高级开发工程师傅伟（聿歌）
Google 软件工程师刘澜涛

议题简介
本次演讲将从 containerd 架构设计理念出发，向听众分享如何使用插件化能力来加强 containerd，提供不一样镜像存储以及强隔离容器运行时的解决方案。同时，还会向听众展现 containerd 同 gVisor, Firecracker 容器运行时集成的演示案例，会让听众更好地理解 containerd 最佳集成方式。

阿里巴巴利用 K8S、Kata 容器和裸机云构建无服务器

演讲人
阿里云容器平台技术专家张翼飞（悟鹏）
阿里云容器平台高级开发工程师唐华敏（华敏）

议题简介
无服务器计算是当前流行的计算形式，极大下降了开发人员部署、管理、运行应用的成本。在无服务器平台中，不一样用户的服务一般混部在同一个节点上，为此，须要在多租户场景下提供可信的运行环境。在阿里巴巴，咱们使用 Kata Containers 做为安全容器运行时，在存储、网络、硬件等层面确保多租硬隔离和服务运行时的性能。在本次分享中，将根据咱们的生产实践，详细讨论多租场景下如何实现硬多租和服务运行的高性能。

阿里巴巴数字推进的开源社区探索

演讲人
阿里巴巴开源治理办公室高级社区经理赵生宇（笙雨）

议题简介
开源社区的运营一直是开源软件开发中的一个痛点，尤为是对于由纯开发者主导的社区，如何有效的管理开源社区、发现社区中的活跃贡献者、经过数据发现社区管理中存在的问题等，都是亟待解决的问题。本次演讲的内容将包括：

如何评判开发者在社区中的我的活跃度？
如何评判开源社区的总体活跃度？
在这些模型下从当前世界上的顶级开源项目分析中能够看到什么、得到什么样的洞见？
社区管理工具在开源社区中应该扮演怎样的角色？
基于上述内容，阿里作了哪些尝试，收获了哪些结果？

阿里巴巴：电商巨头向云原生演进的经验与教训

演讲人
阿里云容器平台高级技术专家张磊
容器平台高级开发工程师王思宇（酒祝）

议题简介
将像阿里巴巴这样的全球电子商务巨头迁移到云原平生台绝非易事，在本次演讲中，咱们将从技术和社区的角度分享咱们去年工做得出的经验教训，包括：

阿里向云原生技术迁移有哪些主要障碍？
阿里的主要技术债务是什么？咱们如何解决这些问题？咱们的方法有效吗？
若是您的应用管理方式与组织中的 Kubernetes 彻底不一样，该怎么办？
为何可预测性对电子商务相当重要？Kubernetes 是否具备开箱可用的可预测性？若是没有，为何？如何解决这一问题（可能无解）？
如何验证数千个节点集群中的可扩展性问题？
规模庞大的团队可否与上游社区合做双赢？

Intro: Dragonfly

演讲人
阿里云应用运维平台技术专家胡做政（正希）
阿里云应用运维平台高级开发工程师张劲（太云）

议题简介
随着容器技术在工业中的应用愈来愈普遍，如何安全高效地分发映像是工程师们所面临的新挑战。蜻蜓项目是基于开源智能 P2P 的映像和文件分发系统。该项目旨在解决云原生场景中的全部分发问题。目前，蜻蜓项目专一于如下方面：

简单：面向用户的明肯定义的 API (HTTP)，对全部容器引擎都无侵入性
高效：CDN 支持、基于 P2P 的文件分发以节省企业带宽
智能：主机检测实现主机层面的速度限制、智能的流量控制
安全：数据块传输加密，HTTPS 链接支持

在本演讲中，咱们将重点介绍经过蜻蜓分发容器映像。咱们将回顾组织面临的挑战，包括大规模分发、安全传输、带宽成本，并提供解决方案。本次演讲将讨论实际用例。

再也不混乱：大规模 Kubernetes 审计和检查

演讲人
阿里云容器平台技术专家陈杰
蚂蚁金服高级开发工程师马金晶

议题简介
众所周知，准确的异常发现和快速的问题分析是保证 Kubernetes 集群可用性和稳定性的关键所在。但在整个 Kubernetes 项目中，有着不可胜数的监控指标数据。仅以咱们的 Kubernetes 集群为例，咱们观察到像这样的监控数据每秒钟就会产生几千条。如何合理地利用这些复杂而大量的数据和指标，对它们有效的进行记录和分析，变成简单易懂的可视化展现，变成准确的告警信息，是一个很是有挑战性的工做。

在这个演讲中，咱们但愿与你们分享在 Alibaba 在 Kubernetes 集群监控、审计和巡检方面的实践和经验。首先，咱们会聊一聊 Kubernetes 与稳定性相关的重要数据和指标，以及如何去理解它们。咱们会以案例的形式，具体讲一讲咱们如何对这些数据和指标进行整合与解析。最后，咱们会分享阿里巴巴高效、实时的对这些数据进行自动化巡检与分析的最佳实践。

最大限度地下降在 Kubernetes 上运行深度学习的 GPU 成本

演讲人
阿里云容器平台高级技术专家张凯
阿里云容器平台技术专家车漾（必嘫）

议题简介
愈来愈多的数据科学家在 Kubernetes 上运行基于 NvidiaGPU 的深度学习任务。与此同时，他们发现集群中的空闲 GPU 浪费了超过 40% 的成本。所以，如何能帮助提升 GPU 使用效率成为一个重要挑战。咱们将介绍一款基于原生 Kubernetes 的 GPU 共享解决方案:

如何定义 GPU 共享 API
如何在不更改调度程序裸机代码的状况下在调度 GPU 共享。
如何将 GPU 隔离解决方案与 Kubernetes 相集成
咱们还将经过演示介绍 Tensorflow 用户如何在 Kubernetes 集群中的同一 GPU 设备上运行不一样的做业

云原生时代加速镜像分发的三种方法

演讲人
阿里云容器平台技术专家江勇(益方)

议题简介
本次演讲将分享从阿里巴巴网络规模提升镜像分发效率的实践和经验教训。根据不一样的场景，咱们利用不一样的镜像分发方法。基于 P2P 的 CNCF/Dragonfly 分发是缓解镜像中心带宽和减小分发时间的最直接方式。此外，CNCF/containerd 中的远程文件系统快照程序直接远程存储镜像，使容器引擎经过网络读取镜像内容，几乎不须要时间分发。你会发现第二种方式依赖于网络稳定性，那么如何根据镜像内容读请求动态加载从远程到本地存储的镜像做为权衡？最后，咱们将总结如何选择适合镜像分布的方式。

在 Web 级集群中动态调整 Pod 资源限制

演讲人
阿里云容器平台技术专家王程
阿里云容器平台技术专家张晓宇（衷源）

议题简介
阿里巴巴这样规模庞大的全球电商巨头，其所拥有的应用数量和应用种类的都是超大规模的。如何科学合理管理这些容器的资源，一直是咱们面临的巨大挑战。在本次演讲中，咱们将从技术和社区演进等多种维度为你们分享咱们的实际工做经验和技术成果。其中包括：

目前社区对于容器的资源管理现状是什么？
阿里这种大规模应用部署的具体挑战是什么？
咱们如何诊治资源管理上的各类疑难杂症？
咱们如何作到资源利用率大幅提高的同时确保在线服务稳定？
如何平衡基于云原生的演进和实现工做快速交付？
咱们的经验能够为您带来什么帮助以及咱们如何反馈社区作到双赢？

原文连接

本文为云栖社区原创内容，未经容许不得转载。