《京东峰值系统》阅读笔记

  有别于社交网络、搜索和游戏等网站,电商网站的用户流量具备操做性强、随时令变化等特色。在欧美国家,Black Friday和Cyber Monday标志着节假日消费的高峰。影响电商流量峰值的主要因素是抢购、促销和恶意攻击,尤为是京东618店庆和双11等大规模的促销活动。高流量、高并发状况下,如何保证整个系统的可靠性和稳定性,是众多电商企业研发团队都在思考的问题。前端

  京东的业务种类繁多,涉及SKU几千万种,这使得系统庞大,外部须要对接供应商、消费者和第三方商家三大板块。内部系统包括了商品供应链中除商品设计和生产外的几乎全部环节,包括登陆、交易、后台、供应链、仓配、客服等。全部这些涉及大小系统几千个,造就了一个极其复杂庞大的体系。除此以外,京东系统交互强,各个功能模块之间关联性强,牵一发而动全身,作任何修改都须要慎之又慎。所以,一切优化方案都以保持系统稳定为前提。算法

为了在复杂的系统基础之上,尽可能缓解峰值带来的压力,京东峰值系统的设计主要从性能提高、流量控制、灾备降级、压测预案四个角度来进行。缓存

 

性能提高

切分业务系统性能优化

咱们先将整个业务体系拆分为几个相对独立的子系统如SSO、交易平台、POP平台、订单下传系统、WMS和仓储配送(图2)。每一个子系统又可细分为若干部分,逐级简化,直至可操做可优化的层级。例如,交易平台包括价格、购物车、结算、支付和订单中心等;网站系统包括首页、登陆、列表频道、单品和搜索等。接下来,针对每一个功能模块的关键部分进行切分,有针对性地作性能优化。网络

例如,交易的秒杀系统,原来是根植于普通交易系统以内的,缺点很是明显。当流量忽然增大时,不只会致使秒杀系统反应迟钝,并且会影响普通交易系统的正常运做。因而咱们将其与其余业务系统物理分开,成为相对独立的子系统。而且针对秒杀的特性,减小对后台存储的依赖。同时优化中间层存储机制,使得相对热点分散部署。甚至支持单一SKU多点部署,从而大大提高了秒杀系统的吞吐量和可靠性。架构

 

分布式并发

分布式的交易系统是电商的将来。分布式系统解决两大难题:提升用户体验和加强容错能力。因为分布式系统设计时就会留有至关的流量增加空间,因此当一处数据中心饱和时,能够将其他的流量切入其余相对宽松的数据中心去,从而达到互为备份、互相支持的目的。与此同时,因为为提供用户就近服务,因此减小了网络延时,页面反应速度加快了。举一个例子,Google搜索是全球服务,欧亚美各地都有不一样的IP提供服务。当其中的某一个IP出现故障时,Google可以从容地将其服务切换至最近的IP,继续搜索服务。对于电商来讲,状况更复杂一些,须要同步的数据要求更精确,数据量较大,对延时的容忍度更低,建设周期也就更长。京东正在此方面着力改进,从只读的系统入手,一步一步实现系统的分布式。负载均衡

 

API服务化框架

在各个系统中,老是有不少相同的组件。前端的负载均衡自没必要说,中间件的处理就是很是典型的例子。如何高效统一地管理这些组件,API服务化是咱们的答案。最好由一个训练有素的团队集中管理这些组件并对外提供接口服务,将软件的使用复杂性隐藏起来,调用的是简单利索的API。让专业人员去处理复杂逻辑,确保系统的可用性和扩展性,既能大大下降出错几率,又能实现规模效益。分布式

Redis是咱们经常使用的缓存组件。 过去都是由各个业务实现团队进行分别维护,专业性不强,使用多有不当之处。后来咱们进行了集中管理,统必定制开发新功能和升级,并经过API服务化提供给各级用户。这样不只丰富了应用场景,还提高了性能和可靠性。

 

架构,代码优化

一个合理的电商系统架构是与一家公司的研发水平和技术管理水平密不可分的,这直接决定了可支撑峰值流量的多少和将来能达到的高度。选取适合自身发展的框架,既能充分发挥其效能,又可节约资源。代码优化也能提升效能,例如对于SQL语句的优化,能更好地利用索引;Java/C++逻辑的优化,减小了没必要要的循环和复杂的操做;算法优化,使之更高效;功能实现逻辑的优化,变得更简洁和清晰;等等。但代码优化终究不能冲破极限, 难以追求极致,适可为止为宜。

 

系统虚拟弹性化

当磁盘I/O不是瓶颈时,解决系统水平扩展就会变得容易许多。能够经过ZooKeeper或类ZooKeeper将软件栈有机地串联起来,并配以有效的性能监管。当事务处理成为瓶颈时,利用当今流行的虚拟化技术(如LXC或VM)能够在没有人为干预的情况下自动进行弹性扩展。

相关文章
相关标签/搜索