构建需求响应式亿级商品详情页

时间 2019-11-13

原文原文链接

原文出处：张开涛php

该文章是根据velocity 2015技术大会的演讲《京东网站单品页618实战》细化而来，但愿对你们有用。html

商品详情页是什么

商品详情页是展现商品详细信息的一个页面，承载在网站的大部分流量和订单的入口。京东商城目前有通用版、全球购、闪购、易车、惠买车、服装、拼购、今日抄底等许多套模板。各套模板的元数据是同样的，只是展现方式不同。目前商品详情页个性化需求很是多，数据来源也是很是多的，并且许多基础服务作不了的都放咱们这，所以咱们须要一种架构能快速响应和优雅的解决这些需求问题。所以咱们从新设计了商品详情页的架构，主要包括三部分：商品详情页系统、商品详情页统一服务系统和商品详情页动态服务系统；商品详情页系统负责静的部分，而统一服务负责动的部分，而动态服务负责给内网其余系统提供一些数据服务。前端

商品详情页前端结构

前端展现能够分为这么几个维度：商品维度(标题、图片、属性等)、主商品维度（商品介绍、规格参数）、分类维度、商家维度、店铺维度等；另外还有一些实时性要求比较高的如实时价格、实时促销、广告词、配送至、预售等是经过异步加载。java

京东商城还有一些特殊维度数据：好比套装、手机合约机等，这些数据是主商品数据外挂的。nginx

咱们的性能数据

618当天PV数亿，618当天服务器端响应时间<38ms。此处咱们用的是第1000次中第99次排名的时间。数据库

单品页流量特色

离散数据，热点少，各类爬虫、比价软件抓取。后端

单品页技术架构发展浏览器

架构1.0

IIS+C#+Sql Server，最原始的架构，直接调用商品库获取相应的数据，扛不住时加了一层memcached来缓存数据。这种方式常常受到依赖的服务不稳定而致使的性能抖动。缓存

架构2.0tomcat

该方案使用了静态化技术，按照商品维度生成静态化HTML。主要思路：

一、经过MQ获得变动通知；

二、经过Java Worker调用多个依赖系统生成详情页HTML；

三、经过rsync同步到其余机器；

四、经过Nginx直接输出静态页；

五、接入层负责负载均衡。

该方案的主要缺点：

一、假设只有分类、面包屑变动了，那么全部相关的商品都要重刷；

二、随着商品数量的增长，rsync会成为瓶颈；

三、没法迅速响应一些页面需求变动，大部分都是经过JavaScript动态改页面元素。

随着商品数量的增长这种架构的存储容量到达了瓶颈，并且按照商品维度生成整个页面会存在如分类维度变动就要所有刷一遍这个分类下全部信息的问题，所以咱们又改造了一版按照尾号路由到多台机器。

主要思路：

一、容量问题经过按照商品尾号作路由分散到多台机器，按照自营商品单独一台，第三方商品按照尾号分散到11台；

二、按维度生成HTML片断（框架、商品介绍、规格参数、面包屑、相关分类、店铺信息），而不是一个大HTML；

三、经过Nginx SSI合并片断输出；

四、接入层负责负载均衡；

五、多机房部署也没法经过rsync同步，而是使用部署多套相同的架构来实现。

该方案主要缺点：

一、碎片文件太多，致使如没法rsync；

二、机械盘作SSI合并时，高并发时性能差，此时咱们尚未尝试使用SSD；

三、模板若是要变动，数亿商品须要数天才能刷完；

四、到达容量瓶颈时，咱们会删除一部分静态化商品，而后经过动态渲染输出，动态渲染系统在高峰时会致使依赖系统压力大，抗不住；

五、仍是没法迅速响应一些业务需求。

咱们的痛点

一、以前架构的问题存在容量问题，很快就会出现没法全量静态化，仍是须要动态渲染；不过对于全量静态化能够经过分布式文件系统解决该问题，这种方案没有尝试；

二、最主要的问题是随着业务的发展，没法知足迅速变化、还有一些变态的需求。

架构3.0

咱们要解决的问题：

一、能迅速响瞬变的需求，和各类变态需求；

二、支持各类垂直化页面改版；

三、页面模块化；

四、AB测试；

五、高性能、水平扩容；

六、多机房多活、异地多活。

主要思路：

一、数据变动仍是经过MQ通知；

二、数据异构Worker获得通知，而后按照一些维度进行数据存储，存储到数据异构JIMDB集群（JIMDB：Redis+持久化引擎），存储的数据都是未加工的原子化数据，如商品基本信息、商品扩展属性、商品其余一些相关信息、商品规格参数、分类、商家信息等；

三、数据异构Worker存储成功后，会发送一个MQ给数据同步Worker，数据同步Worker也能够叫作数据聚合Worker，按照相应的维度聚合数据存储到相应的JIMDB集群；三个维度：基本信息（基本信息+扩展属性等的一个聚合）、商品介绍（PC版、移动版）、其余信息（分类、商家等维度，数据量小，直接Redis存储）；

四、前端展现分为两个：商品详情页和商品介绍，使用Nginx+Lua技术获取数据并渲染模板输出。

另外咱们目前架构的目标不只仅是为商品详情页提供数据，只要是Key-Value获取的而非关系的咱们均可以提供服务，咱们叫作动态服务系统。

该动态服务分为前端和后端，即公网仍是内网，如目前该动态服务为列表页、商品对比、微信单品页、总代等提供相应的数据来知足和支持其业务。

详情页架构设计原则

一、数据闭环

二、数据维度化

三、拆分系统

四、Worker无状态化+任务化

五、异步化+并发化

六、多级缓存化

七、动态化

八、弹性化

九、降级开关

十、多机房多活

十一、多种压测方案

数据闭环

数据闭环即数据的自我管理，或者说是数据都在本身系统里维护，不依赖于任何其余系统，去依赖化；这样获得的好处就是别人抖动跟我不要紧。

数据异构，是数据闭环的第一步，将各个依赖系统的数据拿过来，按照本身的要求存储起来；

数据原子化，数据异构的数据是原子化数据，这样将来咱们能够对这些数据再加工再处理而响应变化的需求；

数据聚合，将多个原子数据聚合为一个大JSON数据，这样前端展现只须要一次get，固然要考虑系统架构，好比咱们使用的Redis改造，Redis又是单线程系统，咱们须要部署更多的Redis来支持更高的并发，另外存储的值要尽量的小；

数据存储，咱们使用JIMDB，Redis加持久化存储引擎，能够存储超过内存N倍的数据量，咱们目前一些系统是Redis+LMDB引擎的存储，目前是配合SSD进行存储；另外咱们使用Hash Tag机制把相关的数据哈希到同一个分片，这样mget时不须要跨分片合并。

咱们目前的异构数据时键值结构的，用于按照商品维度查询，还有一套异构时关系结构的用于关系查询使用。

详情页架构设计原则 / 数据维度化

对于数据应该按照维度和做用进行维度化，这样能够分离存储，进行更有效的存储和使用。咱们数据的维度比较简单：

一、商品基本信息，标题、扩展属性、特殊属性、图片、颜色尺码、规格参数等；

二、商品介绍信息，商品维度商家模板、商品介绍等；

三、非商品维度其余信息，分类信息、商家信息、店铺信息、店铺头、品牌信息等；

四、商品维度其余信息（异步加载），价格、促销、配送至、广告词、推荐配件、最佳组合等。

拆分系统

将系统拆分为多个子系统虽然增长了复杂性，可是能够获得更多的好处，好比数据异构系统存储的数据是原子化数据，这样能够按照一些维度对外提供服务；而数据同步系统存储的是聚合数据，能够为前端展现提供高性能的读取。而前端展现系统分离为商品详情页和商品介绍，能够减小相互影响；目前商品介绍系统还提供其余的一些服务，好比全站异步页脚服务。

Worker无状态化+任务化

一、数据异构和数据同步Worker无状态化设计，这样能够水平扩展；

二、应用虽然是无状态化的，可是配置文件仍是有状态的，每一个机房一套配置，这样每一个机房只读取当前机房数据；

三、任务多队列化，等待队列、排重队列、本地执行队列、失败队列；

四、队列优先级化，分为：普通队列、刷数据队列、高优先级队列；例如一些秒杀商品会走高优先级队列保证快速执行；

五、副本队列，当上线后业务出现问题时，修正逻辑能够回放，从而修复数据；能够按照好比固定大小队列或者小时队列设计；

六、在设计消息时，按照维度更新，好比商品信息变动和商品上下架分离，减小每次变动接口的调用量，经过聚合Worker去作聚合。

异步化+并发化

咱们系统大量使用异步化，经过异步化机制提高并发能力。首先咱们使用了消息异步化进行系统解耦合，经过消息通知我变动，而后我再调用相应接口获取相关数据；以前老系统使用同步推送机制，这种方式系统是紧耦合的，出问题须要联系各个负责人从新推送还要考虑失败重试机制。数据更新异步化，更新缓存时，同步调用服务，而后异步更新缓存。可并行任务并发化，商品数据系统来源有多处，可是能够并发调用聚合，这样原本串行须要1s的通过这种方式咱们提高到300ms以内。异步请求合并，异步请求作合并，而后一次请求调用就能拿到全部数据。前端服务异步化/聚合，实时价格、实时库存异步化，使用如线程或协程机制将多个可并发的服务聚合。异步化还一个好处就是能够对异步请求作合并，原来N次调用能够合并为一次，还能够作请求的排重。

多级缓存化

浏览器缓存，当页面之间来回跳转时走local cache，或者打开页面时拿着Last-Modified去CDN验证是否过时，减小来回传输的数据量；

CDN缓存，用户去离本身最近的CDN节点拿数据，而不是都回源到北京机房获取数据，提高访问性能；

服务端应用本地缓存，咱们使用Nginx+Lua架构，使用HttpLuaModule模块的shared dict作本地缓存（ reload不丢失）或内存级Proxy Cache，从而减小带宽；

另外咱们还使用使用一致性哈希（如商品编号/分类）作负载均衡内部对URL重写提高命中率；

咱们对mget作了优化，如去商品其余维度数据，分类、面包屑、商家等差很少8个维度数据，若是每次mget获取性能差并且数据量很大，30KB以上；而这些数据缓存半小时也是没有问题的，所以咱们设计为先读local cache，而后把不命中的再回源到remote cache获取，这个优化减小了一半以上的remote cache流量；

服务端分布式缓存，咱们使用内存+SSD+JIMDB持久化存储。

动态化

数据获取动态化，商品详情页：按维度获取数据，商品基本数据、其余数据（分类、商家信息等）；并且能够根据数据属性，按需作逻辑，好比虚拟商品须要本身定制的详情页，那么咱们就能够跳转走，好比全球购的须要走jd.hk域名，那么也是没有问题的；

模板渲染实时化，支持随时变动模板需求；

重启应用秒级化，使用Nginx+Lua架构，重启速度快，重启不丢共享字典缓存数据；

需求上线速度化，由于咱们使用了Nginx+Lua架构，能够快速上线和重启应用，不会产生抖动；另外Lua自己是一种脚本语言，咱们也在尝试把代码如何版本化存储，直接内部驱动Lua代码更新上线而不须要重启Nginx。

弹性化

咱们全部应用业务都接入了Docker容器，存储仍是物理机；咱们会制做一些基础镜像，把须要的软件打成镜像，这样不用每次去运维那安装部署软件了；将来能够支持自动扩容，好比按照CPU或带宽自动扩容机器，目前京东一些业务支持一分钟自动扩容。

降级开关

推送服务器推送降级开关，开关集中化维护，而后经过推送机制推送到各个服务器；

可降级的多级读服务，前端数据集群—>数据异构集群—>动态服务(调用依赖系统)；这样能够保证服务质量，假设前端数据集群坏了一个磁盘，还能够回源到数据异构集群获取数据；

开关前置化，如Nginx–àTomcat，在Nginx上作开关，请求就到不了后端，减小后端压力；

可降级的业务线程池隔离，从Servlet3开始支持异步模型，Tomcat7/Jetty8开始支持，相同的概念是Jetty6的Continuations。咱们能够把处理过程分解为一个个的事件。经过这种将请求划分为事件方式咱们能够进行更多的控制。如，咱们能够为不一样的业务再创建不一样的线程池进行控制：即咱们只依赖tomcat线程池进行请求的解析，对于请求的处理咱们交给咱们本身的线程池去完成；这样tomcat线程池就不是咱们的瓶颈，形成如今没法优化的情况。经过使用这种异步化事件模型，咱们能够提升总体的吞吐量，不让慢速的A业务处理影响到其余业务处理。慢的仍是慢，可是不影响其余的业务。咱们经过这种机制还能够把tomcat线程池的监控拿出来，出问题时能够直接清空业务线程池，另外还能够自定义任务队列来支持一些特殊的业务。

多机房多活

应用无状态，经过在配置文件中配置各自机房的数据集群来完成数据读取。

数据集群采用一主三从结构，防止当一个机房挂了，另外一个机房压力大产生抖动。

多种压测方案

线下压测，Apache ab，Apache Jmeter，这种方式是固定url压测，通常经过访问日志收集一些url进行压测，能够简单压测单机峰值吞吐量，可是不能做为最终的压测结果，由于这种压测会存在热点问题；

线上压测，可使用Tcpcopy直接把线上流量导入到压测服务器，这种方式能够压测出机器的性能，并且能够把流量放大，也可使用Nginx+Lua协程机制把流量分发到多台压测服务器，或者直接在页面埋点，让用户压测，此种压测方式能够不给用户返回内容。

遇到的一些坑和问题

SSD性能差

使用SSD作KV存储时发现磁盘IO很是低。配置成RAID10的性能只有3~6MB/s；配置成RAID0的性能有~130MB/s，系统中没有发现CPU，MEM，中断等瓶颈。一台服务器从RAID1改为RAID0后，性能只有~60MB/s。这说明咱们用的SSD盘性能不稳定。

根据以上现象，初步怀疑如下几点：SSD盘，线上系统用的三星840Pro是消费级硬盘。RAID卡设置，Write back和Write through策略。后来测试验证，有影响，但不是关键。RAID卡类型，线上系统用的是LSI 2008，比较陈旧。

本实验使用dd顺序写操做简单测试，严格测试须要用FIO等工具。

键值存储选型压测

咱们对于存储选型时尝试过LevelDB、RocksDB、BeansDB、LMDB、Riak等，最终根据咱们的需求选择了LMDB。

机器：2台

配置：32核CPU、32GB内存、SSD（(512GB)三星840Pro–> (600GB)Intel 3500 /Intel S3610）

数据：1.7亿数据（800多G数据）、大小5~30KB左右

KV存储引擎：LevelDB、RocksDB、LMDB，每台启动2个实例

压测工具：tcpcopy直接线上导流

压测用例：随机写+随机读

LevelDB压测时，随机读+随机写会产生抖动（咱们的数据出自本身的监控平台，分钟级采样）。

RocksDB是改造自LevelDB，对SSD作了优化，咱们压测时单独写或读，性能很是好，可是读写混合时就会由于归并产生抖动。

LMDB引擎没有大的抖动，基本知足咱们的需求。

咱们目前一些线上服务器使用的是LMDB，其余一些正在尝试公司自主研发的CycleDB引擎。

数据量大时JIMDB同步不动

Jimdb数据同步时要dump数据，SSD盘容量用了50%以上，dump到同一块磁盘容量不足。解决方案：

一、一台物理机挂2块SSD(512GB)，单挂raid0；启动8个jimdb实例；这样每实例差很少125GB左右；目前是挂4块，raid0；新机房计划8块raid10；

二、目前是千兆网卡同步，同步峰值在100MB/s左右；

三、dump和sync数据时是顺序读写，所以挂一块SAS盘专门来同步数据；

四、使用文件锁保证一台物理机多个实例同时只有一个dump；

五、后续计划改造为直接内存转发而不作dump。

切换主从

以前存储架构是一主二从（主机房一主一从，备机房一从）切换到备机房时，只有一个主服务，读写压力大时有抖动，所以咱们改造为以前架构图中的一主三从。

分片配置

以前的架构是分片逻辑分散到多个子系统的配置文件中，切换时须要操做不少系统；解决方案：

一、引入Twemproxy中间件，咱们使用本地部署的Twemproxy来维护分片逻辑；

二、使用自动部署系统推送配置和重启应用，重启以前暂停mq消费保证数据一致性；

三、用unix domain socket减小链接数和端口占用不释放启动不了服务的问题。

模板元数据存储HTML

起初不肯定Lua作逻辑和渲染模板性能如何，就尽可能减小for、if/else之类的逻辑；经过java worker组装html片断存储到jimdb，html片断会存储诸多问题，假设将来变了也是须要全量刷出的，所以存储的内容最好就是元数据。所以经过线上不断压测，最终jimdb只存储元数据，lua作逻辑和渲染；逻辑代码在3000行以上；模板代码1500行以上，其中大量for、if/else，目前渲染性能能够接受。

线上真实流量，总体性能从TP99 53ms降到32ms。

绑定8 CPU测试的，渲染模板的性能能够接受。

库存接口访问量600w/分钟

商品详情页库存接口2014年被恶意刷，每分钟超过600w访问量，tomcat机器只能定时重启；由于是详情页展现的数据，缓存几秒钟是能够接受的，所以开启nginx proxy cache来解决该问题，开启后降到正常水平；咱们目前正在使用Nginx+Lua架构改造服务，数据过滤、URL重写等在Nginx层完成，经过URL重写+一致性哈希负载均衡，不怕随机URL，一些服务提高了10%+的缓存命中率。

微信接口调用量暴增

经过访问日志发现某IP频繁抓取；并且按照商品编号遍历，可是会有一些不存在的编号；解决方案：

一、读取KV存储的部分不限流；

二、回源到服务接口的进行请求限流，保证服务质量。

开启Nginx Proxy Cache性能不升反降

开启Nginx Proxy Cache后，性能降低，并且过一段内存使用率到达98%；解决方案：

一、对于内存占用率高的问题是内核问题，内核使用LRU机制，自己不是问题，不过能够经过修改内核参数

sysctl -w vm.extra_free_kbytes=6436787

sysctl -w vm.vfs_cache_pressure=10000

二、使用Proxy Cache在机械盘上性能差能够经过tmpfs缓存或nginx共享字典缓存元数据，或者使用SSD，咱们目前使用内存文件系统。

配送至读服务因依赖太多，响应时间偏慢

配送至服务天天有数十亿调用量，响应时间偏慢。解决方案：

一、串行获取变并发获取，这样一些服务能够并发调用，在咱们某个系统中能提高一倍多的性能，从原来TP99差很少1s降到500ms如下；

二、预取依赖数据回传，这种机制还一个好处，好比咱们依赖三个下游服务，而这三个服务都须要商品数据，那么咱们能够在当前服务中取数据，而后回传给他们，这样能够减小下游系统的商品服务调用量，若是没有传，那么下游服务再本身查一下。

假设一个读服务是须要以下数据：

一、数据A 10ms

二、数据B 15ms

三、数据C 20ms

四、数据D 5ms

五、数据E 10ms

那么若是串行获取那么须要：60ms；

而若是数据C依赖数据A和数据B、数据D谁也不依赖、数据E依赖数据C；那么咱们能够这样子来获取数据：

那么若是并发化获取那么须要：30ms；能提高一倍的性能。

假设数据E还依赖数据F(5ms)，而数据F是在数据E服务中获取的，此时就能够考虑在此服务中在取数据A/B/D时预取数据F，那么总体性能就变为了：25ms。

经过这种优化咱们服务提高了差很少10ms性能。

以下服务是在抖动时的性能，老服务TP99 211ms，新服务118ms，此处咱们主要就是并发调用+超时时间限制，超时直接降级。

网络抖动时，返回502错误

Twemproxy配置的timeout时间太长，以前设置为5s，并且没有分别针对链接、读、写设置超时。后来咱们减小超时时间，内网设置在150ms之内，当超时时访问动态服务。

机器流量太大

2014年双11期间，服务器网卡流量到了400Mbps，CPU 30%左右。缘由是咱们全部压缩都在接入层完成，所以接入层再也不传入相关请求头到应用，随着流量的增大，接入层压力过大，所以咱们把压缩下方到各个业务应用，添加了相应的请求头，Nginx GZIP压缩级别在2~4吞吐量最高；应用服务器流量降了差很少5倍；目前正常状况CPU在4%如下。

总结

数据闭环

数据维度化

拆分系统

Worker无状态化+任务化

异步化+并发化

多级缓存化

动态化

弹性化

降级开关

多机房多活

多种压测方案

Nginx接入层线上灰度引流

接入层转发时只保留有用请求头

使用不须要cookie的无状态域名（如c.3.cn），减小入口带宽

Nginx Proxy Cache只缓存有效数据，如托底数据不缓存

使用非阻塞锁应对local cache失效时突发请求到后端应用(lua-resty-lock/proxy_cache_lock)

使用Twemproxy减小Redis链接数

使用unix domain socket套接字减小本机TCP链接数

设置合理的超时时间（链接、读、写）

使用长链接减小内部服务的链接数

去数据库依赖（协调部门迁移数据库是很痛苦的，目前内部使用机房域名而不是ip），服务化

客户端同域链接限制，进行域名分区：c0.3.cn c1.3.cn，若是将来支持HTTP/2.0的话，就再也不适用了。

QQ技术交流群290551701 http://cxy.liuzhihengseo.com/550.html