2亿学生在线上课。安全
疫情的肆虐,本来该回归各大校园的师生们涌入线上,突如其来的流量洪峰给在线教育行业迎来了极大挑战。服务器
长期服务教育企业的百家云也不例外。做为一家致力于为教育机构提供一站式云课堂解决方案的企业,疫情期间,百家云接到来自多家教育机构搭建在线云课堂的需求,同时原来线下为主的教育机构流量瞬间转到了线上。网络
为了响应教育部门停课不停学的号召,帮助学生老师们开学,百家云全体员工缩短了假期,从大年初二开始在家办公,初七开始全员办公。架构
短期内爆发式的需求,对于每一家教育企业而都是始料未及的。据百家云CEO李钢江透露,百家云的业务量短期内增加了数十倍。如此迅速的扩容须要,还要在客户无感知的状况下完成,比交付一个新系统难度更大。并发
不幸中的万幸是,百家云团队对敏捷架构的探索让他们在如此高并发场景上早有准备。这场战役以前,百家云已在阿里云团队的帮助下,优化自身容器集群架构与规划,经过以阿里云容器服务ACK、弹性裸金属(神龙)实例的核心方案,从容实现动态扩容与高效管控。运维
百家云很是幸运,在这轮爆发以前完成了容器化改造。其余没有使用容器的在线教育企业,面对暴涨的用户,只能成倍堆积机器,致使部署时间拉长,业务成本剧烈升高。
故事要从百家云的业务发展开始提及。
百家云从2017年诞生之初就是在作直播大班课产品,是行业内拥有最纯正的教育基因的云视频公司。在2018年已经实现了过亿营收,服务了超过1000多家教育企业。
业务高速增加也在促使百家云技术团队探索自身技术架构的优化。到了2019年,百家云逐步推出小班课产品,该产品的处理方式与大班课不一样,须要经过音视频抓屏的方式,将课程录制下来回放。
此过程当中,还须要将音频与视频进行隔离。用虚拟机级别的隔离成本过高;若跑在统一虚拟机里,各个进程则会互相干扰。百家云团队因而关注到了容器这种更为轻量级的虚拟化技术。
在2019年上半年开始,百家云内部就开始尝试小规模对业务进行容器化改造,完成了基本流程的跑通。
然而,随着百家云容器规模的扩大,调度与管理成为了新的问题。阿里云的容器管理平台(ACK, Alibaba Cloud Container Service for Kubernetes),大大减小百家云的工做。百家的技术团队表示,容器减小了运维和测试的工做量;方便了对应用运行环境实现版本控制;且相比虚拟机有着更小计算开销,下降了IT成本。
彼时基于容器的云原生大潮已然席卷,基于容器技术的云原生架构,为百家云可能出现的业务峰值作了敏捷弹性的技术储备。高并发
只是,这仍是第一步。工具
瞬间来临的洪峰,仍是给百家云带来了考验。性能
潮水袭来,百家云的问题很直接:扩容。测试
疫情是全国共同的敌人。业务持续稳定增加的百家云,不曾料想到新禧之年将面临这样一场“战役”,原来容器集群的许多配置没有按大规模集群去规划,致使单个集群可容纳的节点受限,原来使用的小规格实例也限制了单个节点的容量。
针对百家云的扩容问题,阿里云团队建议客户选用大规格的弹性裸金属服务器(神龙)。根据百家云的应用负载特色,结合容器服务管控合适规格的弹性裸金属实例来优化成本、避免浪费,提高弹性供给保障。
首先,阿里云弹性裸金属服务器(神龙)服务器的规格较高,能够帮助百家云显著提高了单个节点的容量。
更重要的是,百家云的K8s集群对性能要求极高。神龙服务器的性能优点明显, “容器+弹性裸金属(神龙)”的解决方案很是契合百家云大流量、高并发的场景。
基于容器化构建方式,能够知足业务快速发放和弹性的要求。神龙服务器彻底消除了虚拟化损耗,提高了8%的计算性能,其类物理机特性,可进行二次虚拟化。
神龙的性能,加上容器的弹性,造成了天做之合。数据显示,容器运行在云上神龙反而比非云物理机的性能要好10%-15%。主要是由于虚拟化开销已经offload到MOC卡上,神龙的CPU/Mem是无虚拟化开销的,而上云后运行在神龙上的每一个容器都独享ENI弹性网卡,能提高13%的网络吞吐量。
第三,神龙服务器是存储带宽+计算带宽是分离,能知足百家云的业务场景的大量读写需求。使用神龙服务器以后,计算能力大增,可是同时也遇到了存储I/O性能瓶颈的问题。百家云经过使用阿里云的高性能NAS服务,并经过水平扩展为4个集群,解决了I/O的瓶颈。
基于以上方案,借助自身的大规模集群管理能力,在短短几天以内,阿里云团队帮助百家云团队有效升级了原有的架构方案,实现了数十倍的扩容,大幅提高了其性能与稳定性,并拥有了应对爆发性规模的能力。
面对突增流量压力,如何迅速动态弹性扩容以及高效管控运维成为迫切问题。
改变了原来虚拟化嵌套的形式,百家云利用神龙实现了容器的高密度部署。配合容器的敏捷管理能力,起码节省了25%的成本,下降了80%的运维工做量。同时,合理规划K8s集群,优化总体架构如网络、存储方案、扩容原则,确保后续运维的稳定性并下降使用成本。
此外,百家云还使用了阿里云高效运维管理的工具,显著下降了运维工做量。
因为百家云业务上容器的时间很是紧迫,根本没有多少时间能够花在运维监控上。经过使用ARMS Prometheus,仅仅半小时百家云就实现了容器节点环境的监控。相比开源 Prometheus 监控,ARMS Prometheus的数据量无上限且与阿里云容器服务ACK无缝对接,让百家云在容器里高效快速定位问题,了解可如何改善本身的产品。
阿里云容器平台的日志服务(SLS)里中小应用事件中心,详细展现了集群的状态变动和组件异常等事件,帮助百家云把节点里面日志的异常信息汇总到控制面板,及时告警。
李钢江总结,阿里云带给百家云的价值主要是如下三点:
一、提供了弹性计算的空间与敏捷安全的扩容能力:阿里云对应用镜像进行了镜像预热等手段,在扩容时可第一时间拉起容器。基于容器镜像服务ACR 安全托管大规模容器镜像资产,经过细粒度的镜像受权管控,安全快速地对应用镜像进行全生命周期管理。
二、提供了相对稳定的服务与优异性能:基于阿里云自研的神龙软硬一体架构,弹性裸金属服务器(神龙)有着物理机的性能和虚拟机的使用体验。经过利用神龙,百家云实现更好地调度K8s集群,加上高性能NAS服务,解决了I/O瓶颈问题。
三、技术支持团队响应及时,帮助百家云优化架构:百家云之因此后来面临扩容问题,部分源于其原来业务架构规划未作好管理大规模集群的准备,阿里云帮助了百家云在短期内优化了业务架构,优化集群的管理能力。
阿里云做为全国第1、世界顶尖的云服务商,在IaaS和PaaS层能力强大;百家云在教育SaaS层的积累,能够与阿里云互补,一同以完整的在线教育方案去覆盖市场。双方正在逐步深化合做,百家云将很快上线阿里云云市场——阿里云SaaS加速器的商业平台,即“软件天猫”,后续用户可直接在云市场选购百家云的服务。
2月26日上午10点欢迎加入阿里云战”疫“数字化课堂专题系列课程,详细了解阿里云在线教育完整解决方案,阿里云技术如何助力在线教育应对大流量高并发,保证平台持续安全运营以及疫情期间阿里云对在线教育的特别支持政策。“云+教育”无限可能,请扫描下方二维码进入直播间。
若有须要,请邮件consulter@alibabacloud.com
查看更多:https://yqh.aliyun.com/detail..._content=g_1000106257
上云就看云栖号:更多云资讯,上云案例,最佳实践,产品入门,访问:https://yqh.aliyun.com/