《高可用架构第1卷【5】》——运维保障

-------------------------------------------------------------------------------------------------------------------------------------html

-------------------------------------------------------------------------------------------------------------------------------------前端

第5 章运维保障333
王康／5.1 360 如何用QConf 搞定两万以上服务器的配置管理.333
5.1.1 设计初衷333
5.1.2 总体认识334
5.1.3 架构介绍335
5.1.4 QConf 服务端336
5.1.5 QConf 客户端336
5.1.6 QConf 管理端340
5.1.7 其余341
5.1.8 疑问与解惑343java

-------------------------------------------------------------------------------------------------------------------------------------mysql

QConf是奇虎360普遍使用的配置管理服务，现已开源，欢迎你们关注使用。react

本文从设计初衷，架构实现，使用状况及相关产品比较四个方面进行介绍。git

设计初衷

在分布式环境中，出于负载、容错等种种须要，几乎全部的服务都会在不一样的机器节点上部署多个实例。而业务项目中又总少不了各类类型的配置文件。所以，咱们经常会遇到这样的问题，仅仅是一个配置内容的修改，便须要从新进行代码提交SVN/Git、打包、分发上线的所有流程。当部署的机器有不少时，分发上线自己就是一个很繁杂的工做。况且，配置文件的修改频率又远远大于代码自己。程序员

追本溯源，咱们认为麻烦的根源是平常管理和发布过程当中不加区分配置和代码形成的。配置自己源于代码，是咱们为了提升代码的灵活性而提取出来的一些常常变化的或须要定制的内容，而正是配置的这种天生的变化特征给咱们带了巨大的麻烦。github

所以，咱们开发了分布式配置管理系统QConf，并依托QConf在360内部提供了一整套配置管理服务，QConf致力于将配置内容从代码中彻底分离出来，及时可靠高效地提供配置访问和更新服务。web

-------------------------------------------------------------------------------------------------------------------------------------

尤勇／5.2 深度剖析开源分布式监控CAT347
5.2.1 背景介绍347
5.2.2 总体设计348
5.2.3 客户端设计349
5.2.4 服务端设计352
5.2.5 总结感悟357

-------------------------------------------------------------------------------------------------------------------------------------

深度剖析开源分布式监控CAT

CAT（Central Application Tracking）是一个实时和接近全量的监控系统，它侧重于对Java应用的监控，基本接入了美团上海侧全部核心应用。目前在中间件（MVC、RPC、数据库、缓存等）框架中获得普遍应用，为美团各业务线提供系统的性能指标、健康情况、监控告警等。

自2014年开源以来，Github 收获 7700+ Star，2800+ Forks，被 100+ 公司企业使用，其中不乏携程、陆金所、猎聘网、平安等业内知名公司。在每一年全球 QCon 大会、全球架构与运维技术峰会等都有持续的技术输出，受到行业内承认，愈来愈多的企业伙伴加入了 CAT 的开源建设工做，为 CAT 的成⻓贡献了巨大的力量。

项目的开源地址是 http://github.com/dianping/cat。

本文会对CAT总体设计、客户端、服务端等的一些设计思路作详细深刻的介绍。

背景介绍

CAT整个产品研发是从2011年末开始的，当时正是大众点评从.NET迁移到Java的核心起步阶段。当初大众点评已经有核心的基础中间件、RPC组件Pigeon、统一配置组件Lion。总体Java迁移已经在服务化的路上。随着服务化的深刻，总体Java在线上部署规模逐渐变多，同时，暴露的问题也愈来愈多。典型的问题有：

大量报错，特别是核心服务，须要花好久时间才能定位。
异常日志都须要线上权限登录线上机器排查，排错时间长。
有些简单的错误定位都很是困难（一次将线上的库配置到了Beta，花了整个通宵排错）。
不少不了了之的问题怀疑是网络问题（从如今看，内网真的不多出问题）。

虽然那时候也有一些简单的监控工具（好比Zabbix，本身研发的Hawk系统等），可能单个工具在某方面的功能还不错，但总体服务化水平良莠不齐、扩展能力相对较弱，监控工具间不能互通互联，使得查找问题根源基本都须要在多个系统之间切换，有时候真的是靠“人品”才能找出根源。

适逢在eBay工做长达十几年的吴其敏加入大众点评成为首席架构师，他对eBay内部应用很是成功的CAL系统有深入的理解。就在这样天时地利人和的状况下，咱们开始研发了大众点评第一代监控系统——CAT。

CAT的原型和理念来源于eBay的CAL系统，最初是吴其敏在大众点评工做期间设计开发的。他以前曾CAT不只加强了CAL系统核心模型，还添加了更丰富的报表。

总体设计

监控总体要求就是快速发现故障、快速定位故障以及辅助进行程序性能优化。为了作到这些，咱们对监控系统的一些非功能作了以下的要求：

实时处理：信息的价值会随时间锐减，尤为是事故处理过程当中。
全量数据：最开始的设计目标就是全量采集，全量的好处有不少。
高可用：全部应用都倒下了，须要监控还站着，并告诉工程师发生了什么，作到故障还原和问题定位。
故障容忍：CAT自己故障不该该影响业务正常运转，CAT挂了，应用不应受影响，只是监控能力暂时减弱。
高吞吐：要想还原真相，须要全方位地监控和度量，必需要有超强的处理吞吐能力。
可扩展：支持分布式、跨IDC部署，横向扩展的监控系统。
不保证可靠：容许消息丢失，这是一个很重要的trade-off，目前CAT服务端能够作到4个9的可靠性，可靠系统和不可靠性系统的设计差异很是大。

CAT从开发至今，一直秉承着简单的架构就是最好的架构原则，主要分为三个模块：CAT-client、CAT-consumer、CAT-home。

Cat-client 提供给业务以及中间层埋点的底层SDK。
Cat-consumer 用于实时分析从客户端提供的数据。
Cat-home 做为用户给用户提供展现的控制端。

在实际开发和部署中，Cat-consumer和Cat-home是部署在一个JVM内部，每一个CAT服务端均可以做为consumer也能够做为home，这样既能减小整个层级结构，也能够增长系统稳定性。

上图是CAT目前多机房的总体结构图，图中可见：

路由中心是根据应用所在机房信息来决定客户端上报的CAT服务端地址，目前美团有广州、北京、上海三地机房。
每一个机房内部都有独立的原始信息存储集群HDFS。
CAT-home能够部署在一个机房也能够部署在多个机房，在最后作展现的时候，home会从consumer中进行跨机房的调用，将全部的数据合并展现给用户。
实际过程当中，consumer、home以及路由中心都是部署在一块儿的，每一个服务端节点均可以充当任何一个角色。

客户端设计

客户端设计是CAT系统设计中最为核心的一个环节，客户端要求是作到API简单、高可靠性能，不管在任何场景下都不能影响客业务性能，监控只是公司核心业务流程一个旁路环节。CAT核心客户端是Java，也支持Net客户端，近期公司内部也在研发其余多语言客户端。如下客户端设计及细节均以Java客户端为模板。

设计架构

CAT客户端在收集端数据方面使用ThreadLocal（线程局部变量），是线程本地变量，也能够称之为线程本地存储。其实ThreadLocal的功用很是简单，就是为每个使用该变量的线程都提供一个变量值的副本，属于Java中一种较为特殊的线程绑定机制，每个线程均可以独立地改变本身的副本，不会和其它线程的副本冲突。

在监控场景下，为用户提供服务都是Web容器，好比tomcat或者Jetty，后端的RPC服务端好比Dubbo或者Pigeon，也都是基于线程池来实现的。业务方在处理业务逻辑时基本都是在一个线程内部调用后端服务、数据库、缓存等，将这些数据拿回来再进行业务逻辑封装，最后将结果展现给用户。因此将全部的监控请求做为一个监控上下文存入线程变量就很是合适。

如上图所示，业务执行业务逻辑的时候，就会把这次请求对应的监控存放于线程上下文中，存于上下文的实际上是一个监控树的结构。在最后业务线程执行结束时，将监控对象存入一个异步内存队列中，CAT有个消费线程将队列内的数据异步发送到服务端。

API设计

监控API定义每每取决于对监控或者性能分析这个领域的理解，监控和性能分析所针对的场景有以下几种：

一段代码的执行时间，一段代码能够是URL执行耗时，也能够是SQL的执行耗时。
一段代码的执行次数，好比Java抛出异常记录次数，或者一段逻辑的执行次数。
按期执行某段代码，好比按期上报一些核心指标：JVM内存、GC等指标。
关键的业务监控指标，好比监控订单数、交易额、支付成功率等。

在上述领域模型的基础上，CAT设计本身核心的几个监控对象：Transaction、Event、Heartbeat、Metric。

一段监控API的代码示例以下：

序列化和通讯

序列化和通讯是整个客户端包括服务端性能里面很关键的一个环节。

CAT序列化协议是自定义序列化协议，自定义序列化协议相比通用序列化协议要高效不少，这个在大规模数据实时处理场景下仍是很是有必要的。
CAT通讯是基于Netty来实现的NIO的数据传输，Netty是一个很是好的NIO开发框架，在这边就不详细介绍了。

客户端埋点

日志埋点是监控活动的最重要环节之一，日志质量决定着监控质量和效率。当前CAT的埋点目标是以问题为中心，像程序抛出exception就是典型问题。我我的对问题的定义是：不符合预期的就能够算问题，好比请求未完成、响应时间快了慢了、请求TPS多了少了、时间分布不均匀等等。

在互联网环境中，最突出的问题场景，突出的理解是：跨越边界的行为。包括但不限于：

HTTP/REST、RPC/SOA、MQ、Job、Cache、DAL;
搜索/查询引擎、业务应用、外包系统、遗留系统;
第三方网关/银行, 合做伙伴/供应商之间；
各种业务指标，如用户登陆、订单数、支付状态、销售额。

遇到的问题

一般Java客户端在业务上使用容易出问题的地方就是内存，另一个是CPU。内存每每是内存泄露，占用内存较多致使业务方GC压力增大； CPU开销最终就是看代码的性能。

之前咱们遇到过一个极端的例子，咱们一个业务请求作餐饮加商铺的销售额，业务通常会经过for循环全部商铺的分店，结果就形成内存OOM了，后来发现这家店是肯德基，有几万分店，每一个循环里面都会有数据库链接。在正常场景下，ThreadLocal内部的监控一个对象就存在几万个节点，致使业务Oldgc特别严重。因此说框架的代码是不能想象业务方会怎么用你的代码，须要考虑到任何状况下都有出问题的可能。

在消耗CPU方面咱们也遇到一个case：在某个客户端版本，CAT本地存储当前消息ID自增的大小，客户端使用了MappedByteBuffer这个类，这个类是一个文件内存映射，测试下来这个类的性能很是高，咱们仅仅用这个存储了几个字节的对象，正常状况理论上不会有任何问题。在一次线上场景下，不少业务线程都block在这个上面，结果发现当自己这台机器IO存在瓶颈时候，这个也会变得很慢。后来的优化就是把这个IO的操做异步化，因此客户端须要尽量异步化，异步化序列化、异步化传输、异步化任何可能存在时间延迟的代码操做。

服务端设计

服务端主要的问题是大数据的实时处理，目先后端CAT的计算集群大约35台物理机，存储集群大约35台物理机，天天处理了约100TB的数据量。线上单台机器高峰期大约是110MB/s，接近千兆网打满。

下面我重点讲下CAT服务端一些设计细节。

架构设计

在最初的总体介绍中已经画了架构图，这边介绍下单机的consumer中大概的结构以下：

如上图，CAT服务端在整个实时处理中，基本上实现了全异步化处理。

消息接受是基于Netty的NIO实现。
消息接受到服务端就存放内存队列，而后程序开启一个线程会消费这个消息作消息分发。
每一个消息都会有一批线程并发消费各自队列的数据，以作到消息处理的隔离。
消息存储是先存入本地磁盘，而后异步上传到HDFS文件，这也避免了强依赖HDFS。

当某个报表处理器处理来不及时候，好比Transaction报表处理比较慢，能够经过配置支持开启多个Transaction处理线程，并发消费消息。

实时分析

CAT服务端实时报表分析是整个监控系统的核心，CAT重客户端采集的是是原始的logview，目前一天大约有1000亿的消息，这些原始的消息太多了，因此须要在这些消息基础上实现丰富报表，来支持业务问题及性能分析的须要。

CAT是根据日志消息的特色(好比只读特性)和问题场景，量身定作的，它将全部的报表按消息的建立时间，一小时为单位分片，那么每小时就产生一个报表。当前小时报表的全部计算都是基于内存的，用户每次请求即时报表获得的都是最新的实时结果。对于历史报表，由于它是不变的，因此实时不实时也就无所谓了。

CAT基本上全部的报表模型均可以增量计算，它能够分为：计数、计时和关系处理三种。计数又能够分为两类：算术计数和集合计数。典型的算术计数如：总个数（count）、总和（sum）、均值（avg）、最大/最小（max/min)、吞吐（tps）和标准差（std）等，其余都比较直观，标准差稍微复杂一点，你们本身能够推演一下怎么作增量计算。那集合运算，好比95线（表示95%请求的完成时间）、999线（表示99.9%请求的完成时间），则稍微复杂一些，系统开销也更大一点。

报表建模

CAT每一个报表每每有多个维度，以transaction报表为例，它有5个维度，分别是应用、机器、Type、Name和分钟级分布状况。若是全维度建模，虽然灵活，但开销将会很是之大。CAT选择固定维度建模，能够理解成将这5个维度组织成深度为5的树，访问时老是从根开始，逐层往下进行。

CAT服务端为每一个报表单独分配一个线程，因此不会有锁的问题，全部报表模型都是非线程安全的，其数据是可变的。这样带来的好处是简单且低开销。

CAT报表建模是使用自研的Maven Plugin自动生成的。全部报表是可合并和裁剪的，能够轻易地将2个或多个报表合并成一个报表。在报表处理代码中，CAT大量使用访问者模式（visitor pattern）。

性能分析报表

故障发现报表

实时业务指标监控：核心业务都会定义本身的业务指标，这不须要太多，主要用于24小时值班监控，实时发现业务指标问题，图中一个是当前的实际值，一个是基准值，就是根据历史趋势计算的预测值。以下图就是当时的情景，能直观看到支付业务出问题的故障。

系统报错大盘。
实时数据库大盘、服务大盘、缓存大盘等。

存储设计

CAT系统的存储主要有两块：

CAT的报表的存储。
CAT原始logview的存储。

报表是根据logview实时运算出来的给业务分析用的报表，默认报表有小时模式、天模式、周模式以及月模式。CAT实时处理报表都是产生小时级别统计，小时级报表中会带有最低分钟级别粒度的统计。天、周、月等报表都是在小时级别报表合并的结果报表。

原始logview存储一天大约100TB的数据量，由于数据量比较大因此存储必需要要压缩，自己原始logview须要根据Message-ID读取，因此存储总体要求就是批量压缩以及随机读。在当时场景下，并无特别合适成熟的系统以支持这样的特性，因此咱们开发了一种基于文件的存储以支持CAT的场景，在存储上一直是最难的问题，咱们一直在这块持续的改进和优化。

消息ID的设计

CAT每一个消息都有一个惟一的ID，这个ID在客户端生成，后续都经过这个ID在进行消息内容的查找。典型的RPC消息串起来的问题，好比A调用B的时候，在A这端生成一个Message-ID，在A调用B的过程当中，将Message-ID做为调用传递到B端，在B执行过程当中，B用context传递的Message-ID做为当前监控消息的Message-ID。

CAT消息的Message-ID格式ShopWeb-0a010680-375030-2，CAT消息一共分为四段：

第一段是应用名shop-web。
第二段是当前这台机器的IP的16进制格式，0a01010680表示10.1.6.108。
第三段的375030，是系统当前时间除以小时获得的整点数。
第四段的2，是表示当前这个客户端在当前小时的顺序递增号。

存储数据的设计

消息存储是CAT最有挑战的部分。关键问题是消息数量多且大，目前美团天天处理消息1000亿左右，大小大约100TB，单物理机高峰期每秒要处理100MB左右的流量。CAT服务端基于此流量作实时计算，还须要将这些数据压缩后写入磁盘。

总体存储结构以下图：

CAT在写数据一份是Index文件，一份是Data文件.

Data文件是分段GZIP压缩，每一个分段大小小于64K，这样能够用16bits能够表示一个最大分段地址。
一个Message-ID都用须要48bits的大小来存索引，索引根据Message-ID的第四段来肯定索引的位置，好比消息Message-ID为ShopWeb-0a010680-375030-2，这条消息ID对应的索引位置为2*48bits的位置。
48bits前面32bits存数据文件的块偏移地址，后面16bits存数据文件解压以后的块内地址偏移。
CAT读取消息的时候，首先根据Message-ID的前面三段肯定惟一的索引文件，在根据Message-ID第四段肯定此Message-ID索引位置，根据索引文件的48bits读取数据文件的内容，而后将数据文件进行GZIP解压，在根据块内偏移地址读取出真正的消息内容。

服务端设计总结

CAT在分布式实时方面，主要归结于如下几点因素：

去中心化，数据分区处理。
基于日志只读特性，以一个小时为时间窗口，实时报表基于内存建模和分析，历史报表经过聚合完成。
基于内存队列，全面异步化、单线程化、无锁设计。
全局消息ID，数据本地化生产，集中式存储。
组件化、服务化理念。

总结

最后咱们再花一点点时间来说一下咱们在实践里作的一些东西。

1、MVP版本，Demo版本用了1个月，MVP版本用了3个月。

为何强调MVP版本？由于作这个项目须要老板和业务的支持。大概在2011年左右，咱们整个生产环境估计也有一千台机器（虚拟机），一旦出现问题就到运维那边看日志，看日志的痛苦你们都应该理解，这时候发现一台机器核心服务出错，可能会致使更多的问题。咱们就作了MVP版本解决这个问题，当时咱们大概作了两个功能：一个是实时知道全部的API接口访问量成功率等；第二是实时能在CAT平台上看到异常日志。这里我想说的是MVP版本不要作太多内容，可是在作一个产品的时候必须从MVP版本作起，要作一些最典型特别亮眼的功能让你们支持你。

2、数据质量。数据质量是整个监控体系里面很是关键，它决定你最后的监控报表质量。因此咱们要和跟数据库框架、缓存框架、RPC框架、Web框架等作深刻的集成，让业务方便收集以及看到这些数据。

3、单机开发环境，这也是咱们认为对整个项目开发效率提高最重要的一点。单机开发环境实际上就是说你在一台机器里能够把你全部的项目都启起来。若是你在一个单机环境下把全部东西启动起来，你就会千方百计地知道我依赖的服务挂了我怎么办？好比CAT依赖了HDFS。单机开发环境除了大幅度提升你的项目开发效率以外，还能提高你整个项目的可靠性。

4、最难的事情是项目上线推进。CAT整个项目大概有两三我的，当时白天都是支持业务上线，培训，晚上才能code，可是一旦随着产品和完善以及业务使用逐渐变多，一些好的产品后面会造成良性循环，推广就会变得比较容易。

5、开放生态。公司越大监控的需求越多，报表需求也更多，好比咱们美团，产品有不少报表，整个技术体系里面也有不少报表很是多的自定义报表，不少业务方都提各自的需求。最后咱们决定把整个CAT系统里面全部的数据都做为API暴露出去，这些需求并非不能支持，而是这事情根本是作不完的。美团内部下游有不少系统依赖CAT的数据，来作进一步的报表展现。

CAT项目从2011年开始作，到如今整个生产环境大概有三千应用，监控的服务端从零到几千，再到今天的两万多的规模，整个项目是从历时看起来是一个五年多的项目，但即便是作了五年多的这样一个项目，目前还有不少的需求须要开发。这边也打个广告，咱们团队急缺人，欢迎对监控系统研发有兴趣的同窗加入，请联系yong.you@dianping.com.

-------------------------------------------------------------------------------------------------------------------------------------

杨尚刚／5.3 单表60 亿记录等大数据场景的MySQL 优化和运维之道359
5.3.1 前言359
5.3.2 数据库开发规范.360
5.3.3 数据库运维规范.363
5.3.4 性能优化368
5.3.5 疑问与解惑375

-------------------------------------------------------------------------------------------------------------------------------------

单表 60 亿记录等大数据场景的 MySQL 优化和运维之道 | 高可用架构 - FrancisSoung - SegmentFault 思否此文是根据杨尚刚在【QCON 高可用架构群】中，针对 MySQL 在单表海量记录等场景下，业界普遍关注的 MySQL 问题的经验分享整理而成，转发请注明出处。

此文是根据杨尚刚在【QCON 高可用架构群】中，针对 MySQL 在单表海量记录等场景下，业界普遍关注的 MySQL 问题的经验分享整理而成，转发请注明出处。

杨尚刚，美图公司数据库高级 DBA，负责美图后端数据存储平台建设和架构设计。前新浪高级数据库工程师，负责新浪微博核心数据库架构改造优化，以及数据库相关的服务器存储选型设计。

前言

MySQL 数据库你们应该都很熟悉，并且随着前几年的阿里的去 IOE，MySQL 逐渐引发更多人的重视。

MySQL 历史

MySQL 的优势

上面这几个因素也是大多数公司选择考虑 MySQL 的缘由。不过 MySQL 自己存在的问题和限制也不少，有些问题点也常常被其余数据库吐槽或鄙视

MySQL 存在的问题

看到了刚才讲的 MySQL 的优点和劣势，能够看到 MySQL 面临的问题仍是远大于它的优点的, 不少问题也是咱们实际须要在运维中优化解决的，这也是 MySQL DBA 的一方面价值所在。而且 MySQL 的不断发展也离不开社区支持，好比 Google 最先提交的半同步 patch，后来也合并到官方主线。Facebook Twitter 等也都开源了内部使用 MySQL 分支版本，包含了他们内部使用的 patch 和特性。

数据库开发规范

数据库开发规范定义：开发规范是针对内部开发的一系列建议或规则, 由 DBA 制定 (若是有 DBA 的话)。

开发规范自己也包含几部分：基本命名和约束规范，字段设计规范，索引规范，使用规范。

规范存在乎义

想一想没有开发规范，有的开发写出各类全表扫描的 SQL 语句或者各类奇葩 SQL 语句，咱们以前就看过开发写的 SQL 能够打印出好几页纸。这种形成业务自己不稳定，也会让 DBA 每天忙于各类救火。

基本命名和约束规范

字段规范

关于使用 datatime 和 timestamp，如今在 5.6.4 以后又有了变化，使用两者存储在存储空间上大差距愈来愈小，而且自己 datatime 存储范围就比 timestamp 大不少，timestamp 只能存储到 2038 年。

索引规范

关于索引规范，必定要记住索引这个东西是一把双刃剑，在加速读的同时也引入了不少额外的写入和锁，下降写入能力，这也是为何要控制索引数缘由。以前看到过很多人给表里每一个字段都建了索引，其实对查询可能起不到什么做用。

字段定义为 varchar，但传入的值是个 int，就会致使全表扫描，要求程序端要作好类型检查

SQL 类规范

数据库运维规范

运维规范主要内容

版本选择

建议选择优先级为：MySQL 社区版 > Percona Server > MariaDB > MySQL 企业版，不过如今若是你们使用 RDS 服务，基本还以社区版为主。

Online DDL 问题

原生 MySQL 执行 DDL 时须要锁表，且锁表期间业务是没法写入数据的，对服务影响很大，MySQL 对这方面的支持是比较差的。大表作 DDL 对 DBA 来讲是很痛苦的，相信不少人经历过。如何作到 Online DDL 呢，是否是就无解了呢？固然不是！

上面表格里提到的 Facebook OSC 和 5.6 OSC 也是目前两种比较靠谱的方案

MySQL 5.6 的 OSC 方案仍是解决不了 DDL 的时候到从库延时的问题，因此如今建议使用 Facebook OSC 这种思路更优雅

后来 Percona 公司根据 Facebook OSC 思路，用 perl 重写了一版，就是咱们如今用得不少的 pt-online-schema-change，软件自己很是成熟，支持目前主流版本。

值得一提的是，腾讯互娱的 DBA 在内部分支上也实现了 Online DDL，以前测试过确实不错，速度快，原理是经过修改 InnoDB 存储格式来实现。

可用性

关于可用性，咱们今天分享一种无缝切主库方案，能够用于平常切换，使用思路也比较简单

在正常条件下如何无缝去作主库切换，核心思路是让新主库和从库停在相同位置，主要依赖 slave start until 语句，结合双主结构，考虑自增问题。

红框内是目前你们使用比较多的部署结构和方案。固然异常层面的 HA 也有不少第三方工具支持，好比 MHA、MMM 等，推荐使用 MHA。

sharding 拆分问题

曾经管理的单表最大 60 亿＋，单表数据文件大小 1TB＋，人有时候就要懒一些。

数据库备份

首先要保证的，最核心的是数据库数据安全性。数据安全都保障不了的状况下谈其余的指标 (如性能等)，其实意义就不大了。

借用一下某大型互联网公司作的备份系统数据：一年 7000＋次扩容，一年 12＋次数据恢复，日志量天天 3TB，数据总量 2PB，天天备份数据量百 TB 级，整年备份 36 万次，备份成功了 99.9%。

数据恢复方案

目前的 MySQL 数据恢复方案主要仍是基于备份来恢复，可见备份的重要性。好比我今天下午 15 点删除了线上一张表，该如何恢复呢？首先确认删除语句，而后用备份扩容实例启动，假设备份时间点是凌晨 3 点，就还须要把凌晨 3 点到如今关于这个表的 binlog 导出来，而后应用到新扩容的实例上，确认好恢复的时间点，而后把删除表的数据导出来应用到线上。

性能优化

复制优化

上图是 MySQL 复制原理图，红框内就是 MySQL 一直被人诟病的单线程问题。

单线程问题也是 MySQL 主从延时的一个重要缘由，单线程解决方案：

上图是 MySQL5.6 目前实现的并行复制原理图，是基于库级别的复制，因此若是你只有一个库，使用这个意义不大。

固然 MySQL 也认识到 5.6 这种并行的瓶颈所在，因此在 5.7 引入了另一种并行复制方式，基于 logical timestamp 的并行复制，并行复制再也不受限于库的个数，效率会大大提高。

刚才我也提到 MySQL 原来只支持异步复制，这种数据安全性是很是差的，因此后来引入了半同步复制，从 5.5 开始支持。

上图是原生异步复制和半同步复制的区别。能够看到半同步经过从库返回 ACK 这种方式确认从库收到数据，数据安全性大大提升。

在 5.7 以后，半同步也能够配置你指定多个从库参与半同步复制，以前版本都是默认一个从库。

对于半同步复制效率问题有一个小的优化，就是使用 5.6 + 的 mysqlbinlog 以 daemon 方式做为从库，同步效率会好不少。

关于更安全的复制，MySQL 5.7 也是有方案的，方案名叫 Group replication 官方多主方案，基于 Corosync 实现。

主从延时问题

缘由：通常都会作读写分离，其实从库压力反而比主库大／从库读写压力大很是容易致使延时。

提到延时不得不提到很坑人的 Seconds behind master，使用过 MySQL 的应该很熟悉。

long time_diff= ((long)(time(0) – mi->rli.last_master_timestamp) – mi->clock_diff_with_master);

Secondsbehindmaster来判断延时不可靠，在网络抖动或者一些特殊参数配置状况下，会形成这个值是 0 但其实延时很大了。经过 heartbeat 表插入时间戳这种机制判断延时是更靠谱的

InnoDB 优化

成熟开源事务存储引擎，支持 ACID，支持事务四个隔离级别，更好的数据安全性，高性能高并发，MVCC，细粒度锁，支持 O_DIRECT。

上图是 5.5 4G 的 redo log 和 5.6 设置大于 4G redo log 文件性能对比，能够看到稳定性更好了。innodblogfile_size 设置仍是颇有意义的。

目前主流使用 TokuDB 主要是看中了它的高压缩比，Tokudb 有三种压缩方式：quicklz、zlib、lzma，压缩比依次更高。如今不少使用 zabbix 的后端数据表都采用的 TokuDB，写入性能好，压缩比高。

上图是 sysbench 测试的和 InnoDB 性能对比图，能够看到 TokuDB 在测试过程当中写入稳定性是很是好的。

好比咱们以前遇到过一个问题：TokuDB 的内部状态显示上一次完成的 checkpoint 时间是 “Jul 17 12:04:11 2014”，距离当时发现如今都快 5 个月了，结果堆积了大量 redo log 不能删除，后来只能重启实例，结果重启还花了七八个小时。

MySQL 优化相关的 case

Query cache，MySQL 内置的查询加速缓存，理念是好的, 但设计不够合理，有点 out。

When the query cache helps, it can help a lot. When it hurts, it can hurt a lot. 明显前半句已经没有太大用处，在高并发下很是容易遇到瓶颈。

关于事务隔离级别，InnoDB 默认隔离级别是可重复读级别，固然 InnoDB 虽然是设置的可重复读，可是也是解决了幻读的，建议改为读已提交级别，能够知足大多数场景需求，有利于更高的并发，修改 transaction-isolation。

关于 SSD

关于 SSD，仍是提一下吧。某知名大 V 说过 “最近 10 年对数据库性能影响最大的是闪存”，稳定性和性能可靠性已经获得大规模验证，多块 SATA SSD 作 Raid5，推荐使用。采用 PCIe SSD，主流云平台都提供 SSD 云硬盘支持。

最后说一下你们关注的单表 60 亿记录问题，表里数据也是线上比较核心的。

先说下当时状况，表结构比较简单，都是 bigint 这种整型，索引比较多，应该有 2-3 个，单表行数 60 亿＋，单表容量 1.2TB 左右，固然内部确定是有碎片的。

造成缘由：历史遗留问题，按照咱们前面讲的开发规范，这个应该早拆分了，固然不拆有几个缘由：

咱们后续作的优化，采用了刚才提到的 TokuDB，单表容量在 InnoDB 下 1TB+，使用 Tokudb 的 lzma 压缩到 80GB，压缩效果很是好。这样也解决了单表过大恢复时间问题，也支持 online DDL，基本达到咱们预期。

今天讲的主要针对 MySQL 自己优化和规范性质的东西，还有一些比较好的运维经验，但愿你们能有所收获。今天这些内容是为后续数据库作平台化的基础。我今天分享就到这里，谢谢你们。

Q1：use schema;select from table; 和 select from schema.table; 两种写法有什么不同吗？会对主从同步有影响吗？
对于主从复制来讲执行效率上差异不大，不过在使用 replication filter 时候这种状况须要当心，应该要使用 ReplicateWildIgnoreTable 这种参数，若是不使用带 wildignore，第一种方式会有问题，过滤不起做用。

Q2：对于用于 MySQL 的 ssd，测试方式和 ssd 的参数配置方面，有没有好的建议？主要针对 ssd 的配置哈

关于 SATA SSD 配置参数，建议使用 Raid5，想更保险使用 Raid50，更土豪使用 Raid 10

上图是主要的参数优化，性能提高最大的是第一个修改调度算法的

Q3：数据库规范已制定好，如何保证开发人员必须按照规范来开发？

关于数据库规范实施问题，也是有两个方面吧，第1、按期给开发培训开发规范，让开发能更了解。第2、仍是在流程上规范，好比把咱们平常通用的建表和字段策略固化到程序，作成自动化审核系统。这两方面结合效果会比较好。

这个问题前提是你的数据要有热点，读写热点要有交集，不然命中率很难提升。在有热点的前提下，也要求你的你的内存要足够大，可以存更多的热点数据。尽可能不要作一些可能污染 bufferpool 的操做，好比全表扫描这种。

Q5：主从复制的状况下，若是有 CAS 这样的需求，是否是只能强制连主库？由于有延迟的存在，若是读写不在一块儿的话，会有脏数据。

若是有 CAS 需求，确实仍是直接读主库好一些，由于异步复制仍是会有延迟的。只要 SQL 优化的比较好，读写都在主库也是没什么问题的。

这个国标是什么东西，不太了解。不过从字面看，国标应该也是偏学术方面的，在具体工程实施时候未必能用好。

看具体哪方面吧。主从集群每一个小集群通常都是采用一主多从方式，每一个小集群对应特定的一组业务。而后监控备份和 HA 都是在每一个小集群实现。

追踪字段值变化能够经过分析 row 格式 binlog 好一些。好比之前同事就是经过本身开发的工具来解析 row 格式 binlog，跟踪数据行变化。

Q9：对超大表水平拆分，在使用 MySQL 中间件方面有什么建议和经验分享？

对于超大表水平拆分，在中间件上经验不是不少，早期人肉搞过几回。也使用过本身研发的数据库中间件，不过线上应用的规模不大。关于目前众多的开源中间件里，360 的 atlas 是目前还不错的，他们公司内部应用的比较多。

Q10：咱们用的 MySQL proxy 作读负载，可是少许数据压力下并无负载，请问有这回事吗？

Q11：对于 binlog 格式，为何只推荐 row，而不用网上大部分文章推荐的 Mix ？

这个主要是考虑数据复制的可靠性，row 更好。mixed 含义是指若是有一些容易致使主从不一致的 SQL ，好比包含 UUID 函数的这种，转换为 row。既然要革命，就搞的完全一些。这种 mix 的中间状态最坑人了。

Q12：读写分离，通常是在程序里作，仍是用 proxy ，用 proxy 的话通常用哪一个？

这个仍是独立写程序好一些，与程序解耦方便后期维护。proxy 国内目前开源的比较多，选择也要慎重。

Q13：我想问一下关于 mysql 线程池相关的问题，什么状况下适合使用线程池，相关的参数应该如何配置，老师有这方面的最佳实践没有？

线程池这个我也没测试过。从原理上来讲，短连接更适合用线程池方式，减小创建链接的消耗。这个方面的最佳配置，我还没测试过，后面测试有进展能够再聊聊。

Q14：误删数据这种，数据恢复流程是怎么样的 (从库也被同步删除的状况)？

看你删除数据的状况，若是只是一张表，单表在几 GB 或几十 GB。若是能有延时备份，对于数据恢复速度是颇有好处的。恢复流程能够参考我刚才分享的部分。目前的 MySQL 数据恢复方案主要仍是基于备份来恢复，可见备份的重要性。好比我今天下午 15 点删除了线上一张表，该如何恢复呢。首先确认删除语句，而后用备份扩容实例启动，假设备份时间点是凌晨 3 点。就还须要把凌晨 3 点到如今关于这个表的 binlog 导出来，而后应用到新扩容的实例上。确认好恢复的时间点，而后把删除表的数据导出来应用到线上。

Q15：关于备份，binlog 备份天然不用说了，物理备份有不少方式，有没有推荐的一种，逻辑备份在量大的时候恢复速度比较慢，通常用在什么场景？

物理备份采用 xtrabackup 热备方案比较好。逻辑备份通常用在单表恢复效果会很是好。好比你删了一个 2G 表，但你总数据量 2T，用物理备份就会要慢了，逻辑备份就很是有用了。

-------------------------------------------------------------------------------------------------------------------------------------

秦迪／5.4 微博在大规模、高负载系统问题排查方法379
5.4.1 背景379
5.4.2 排查方法及线索.379
5.4.3 总结384
5.4.4 疑问与解惑385

-------------------------------------------------------------------------------------------------------------------------------------

秦迪／5.5 系统运维之为何每一个团队存在大量烂代码387
5.5.1 写烂代码很容易.387
5.5.2 烂代码终究是烂代码388
5.5.3 重构不是万能药.392
5.5.4 写好代码很难.393
5.5.5 悲观的结语394

-------------------------------------------------------------------------------------------------------------------------------------

(1 条消息) 关于烂代码的那些事－为何每一个团队存在大量烂代码_weixin_45583158 的博客 - CSDN 博客

-------------------------------------------------------------------------------------------------------------------------------------

秦迪／5.6 系统运维之评价代码优劣的方法395
5.6.1 什么是好代码.395
5.6.2 结语403
5.6.3 参考阅读403

-------------------------------------------------------------------------------------------------------------------------------------

关于烂代码的那些事 – 评价代码优劣的方法 - 云 + 社区 - 腾讯云秦迪，微博研发中心技术专家，2013 年加入微博，负责微博平台通信系统的设计和研发、微博平台基础工具的开发和维护，并负责微博平台的架构改进工做，在工做中擅长排查...

秦迪，微博研发中心技术专家，2013 年加入微博，负责微博平台通信系统的设计和研发、微博平台基础工具的开发和维护，并负责微博平台的架构改进工做，在工做中擅长排查复杂系统的各种疑难杂症。爱折腾，喜欢研究从内核到前端的全部方向，近几年重点关注大规模系统的架构设计和性能优化，重度代码洁癖：以 code review 为己任，重度工具控：有现成工具的问题就用工具解决，没有工具能解决的问题就写个工具解决。业余时间喜欢偶尔换个语言写代码放松一下。

“代码重复分为两种：模块内重复和模块间重复。不管何种重复，都在必定程度上说明了程序员的水平有问题。” —— 秦迪

这是烂代码系列的第二篇，在文章中我会跟你们讨论一下如何尽量高效和客观的评价代码的优劣。在发布了关于烂代码的那些事（上）以后（参看文末连接），发现这篇文章居然意外的很受欢迎，不少人也描 (tu) 述(cao)了各自代码中这样或者那样的问题。最近部门在组织 bootcamp，正好我负责培训代码质量部分，在培训课程中让你们花了很多时间去讨论、改进、完善本身的代码。虽然刚毕业的同窗对于代码质量都很用心，但最终呈现出来的质量仍然没能达到 “十分优秀” 的程度。究其缘由，主要是不了解好的代码 “应该” 是什么样的。

写代码的第一步是理解什么是好代码。在准备 bootcamp 的课程的时候，我就为这个问题犯了难，我尝试着用一些精确的定义区分出 “优等品”、“良品”、“不良品”；可是在总结的过程当中，关于“什么是好代码” 的描述却大多没有可操做性。

随便从网上搜索了一下 “优雅的代码”，找到了下面这样的定义：

整洁的代码永远不会掩盖设计者的意图，而是具备少许的抽象和清晰的控制行。

看起来彷佛说的都颇有道理，但是实际评判的时候却难以参考，尤为是对于新人来讲，如何理解 “简单的、直接的代码” 或者“没有明显的须要改善的地方”？

而实践过程当中，不少同窗也确实面对这种问题：对本身的代码老是处在一种内心不踏实的状态，或者是本身以为很好了，可是却被其余人认为很烂，甚至有几回我和新同窗由于代码质量的标准一连讨论好几天，却谁也说服不了谁：咱们都坚持本身对于好代码的标准才是正确的。

在经历了无数次 code review 以后，我以为这张图彷佛总结的更好一些：

代码质量的评价标准某种意义上有点相似于文学做品，好比对小说的质量的评价主要来自于它的读者，由个体主观评价造成一个相对客观的评价。并非依靠字数，或者做者使用了哪些修辞手法之类的看似彻底客观但实际没有什么意义的评价手段。

但代码和小说还有些不同，它实际存在两个读者：计算机和程序员。就像上篇文章里说的，即便全部程序员都看不懂这段代码，它也是能够被计算机理解并运行的。

因此对于代码质量的定义我须要于从两个维度分析：主观的，被人类理解的部分；还有客观的，在计算机里运行的情况。

既然存在主观部分，那么就会存在个体差别，对于同一段代码评价会由于看代码的人的水平不一样而得出不同的结论，这也是大多数新人面对的问题：他们没有一个能够执行的评价标准，因此写出来的代码质量也很难提升。

有些介绍代码质量的文章讲述的都是倾向或者原则，虽说的很对，可是实际指导做用不大。因此在这篇文章里我但愿尽量把评价代码的标准用（我自认为）与实际水平无关的评价方式表示出来。

在权衡好久以后，我决定把可读性的优先级排在前面：一个程序员更但愿接手一个有 bug 可是看的懂的工程，仍是一个没 bug 可是看不懂的工程？若是是后者，能够直接关掉这个网页，去作些对你来讲更有意义的事情。

在不少跟代码质量有关的书里都强调了一个观点：程序首先是给人看的，其次才是能被机器执行，我也比较认同这个观点。在评价一段代码能不能让人看懂的时候，我习惯让做者把这段代码逐字翻译成中文，试着组成句子，以后把中文句子读给另外一我的没有看过这段代码的人听，若是另外一我的能听懂，那么这段代码的可读性基本就合格了。

用这种判断方式的缘由很简单：其余人在理解一段代码的时候就是这么作的。阅读代码的人会一个词一个词的阅读，推断这句话的意思，若是仅靠句子没法理解，那么就须要联系上下文理解这句代码，若是简单的联系上下文也理解不了，可能还要掌握更多其它部分的细节来帮助推断。大部分状况下，理解一句代码在作什么须要联系的上下文越多，意味着代码的质量越差。

逐字翻译的好处是能让做者能轻易的发现那些只有本身知道的、没有体如今代码里的假设和可读性陷阱。没法从字面意义上翻译出本来意思的代码大多都是烂代码，好比 “ms 表明 messageService “，或者 “ ms.proc() 是发消息 “，或者 “ tmp 表明当前的文件”。

约定包括代码和文档如何组织，注释如何编写，编码风格的约定等等，这对于代码将来的维护很重要。对于遵循何种约定没有一个强制的标准，不过我更倾向于遵照更多人的约定。

与开源项目保持风格一致通常来讲比较靠谱，其次也能够遵照公司内部的编码风格。可是若是公司内部的编码风格和当前开源项目的风格冲突比较严重，每每表明着这个公司的技术倾向于封闭，或者已经有些跟不上节奏了。

可是不管如何，遵照一个约定总比本身创造出一些规则要好不少，这下降了理解、沟通和维护的成本。若是一个项目本身创造出了一些奇怪的规则，可能意味着做者看过的代码不够多。

一个工程是否遵循了约定每每须要代码阅读者有必定经验，或者须要借助 checkstyle 这样的静态检查工具。若是感受无处下手，那么大部分状况下跟着 google 作应该不会有什么大问题：能够参考 google code style ，其中一部分有对应的中文版。

另外，没有必要纠结于遵循了约定到底有什么收益，就好像走路是靠左好仍是靠右好同样，即便得出告终论也没有什么意义，大部分约定只要遵照就能够了。

文档和注释是程序很重要的部分，他们是理解一个工程或项目的途径之一。二者在某些场景下定位会有些重合或者交叉（好比 javadoc 实际能够算是文档）。

对于文档的标准很简单，能找到、能读懂就能够了，通常来讲我比较关心这几类文档：

对于项目的介绍，包括项目功能、做者、目录结构等，读者应该能 3 分钟内大体理解这个工程是作什么的。

针对新人的 QuickStart，读者按照文档说明应该能在 1 小时内完成代码构建和简单使用。

针对使用者的详细说明文档，好比接口定义、参数含义、设计等，读者能经过文档了解这些功能（或接口）的使用方法。

有一部分注释实际是文档，好比以前提到的 javadoc。这样能把源码和注释放在一块儿，对于读者更清晰，也能简化很多文档的维护的工做。

还有一类注释并不做为文档的一部分，好比函数内部的注释，这类注释的职责是说明一些代码自己没法表达的做者在编码时的思考，好比 “为何这里没有作 XXX”，或者 “这里要注意 XXX 问题”。

通常来讲我首先会关心注释的数量：函数内部注释的数量应该不会有不少，也不会彻底没有，我的的经验值是滚动几屏幕看到一两处左右比较正常。过多的话可能意味着代码自己的可读性有问题，而若是一点都没有可能意味着有些隐藏的逻辑没有说明，须要考虑适当的增长一点注释了。

其次也须要考虑注释的质量：在代码可读性合格的基础上，注释应该提供比代码更多的信息。文档和注释并非越多越好，它们可能会致使维护成本增长。关于这部分的讨论能够参考简洁部分的内容。

新人的代码有一个比较典型的特征，因为缺乏维护项目的经验，写的代码总会有不少考虑不到的地方。好比说测试的时候彷佛没什么异常，项目发布以后才发现有不少意料以外的情况；而出了问题以后不知道从哪下手排查，或者仅能让系统处于一个并不稳定的状态，依靠一些巧合勉强运行。

新手程序员广泛没有处理异常的意识，但代码的实际运行环境中充满了异常：服务器会死机，网络会超时，用户会胡乱操做，不怀好意的人会恶意攻击你的系统。

我对一段代码异常处理能力的第一印象来自于单元测试的覆盖率。大部分异常难以在开发或者测试环境里复现，即便有专业的测试团队也很难在集成测试环境中模拟全部的异常状况。

而单元测试能够比较简单的模拟各类异常状况，若是一个模块的单元测试覆盖率连 50% 都不到，很难想象这些代码考虑了异常状况下的处理，即便考虑了，这些异常处理的分支都没有被验证过，怎么期望实际运行环境中出现问题时表现良好呢？

我收到的不少简历里都写着：精通并发编程 / 熟悉多线程机制，诸如此类，跟他们聊的时候也说的头头是道，什么锁啊互斥啊线程池啊同步啊信号量啊一堆一堆的名词口若悬河。而给应聘者一个实际场景，让应聘者写一段很简单的并发编程的小程序，能写好的却很少。

实际上并发编程也确实很难，若是说写好同步代码的难度为 5，那么并发编程的难度能够达到 100 。这并非危言耸听，不少看似稳定的程序，在面对并发场景的时候仍然可能出现问题：好比最近咱们就碰到了一个 linux kernel 在调用某个系统函数时因为同步问题而出现 crash 的状况。

而是否高质量的实现并发编程的关键并非是否应用了某种同步策略，而是看代码中是否保护了共享资源：

局部变量以外的内存访问都有并发风险（好比访问对象的属性，访问静态变量等）

被调用方若是不是声明为线程安全的，那么颇有可能存在并发问题（好比 java 的 hashmap ）。

全部依赖时序的操做，即便每一步操做都是线程安全的，仍是存在并发问题（好比先删除一条记录，而后把记录数减一）。

前三种状况可以比较简单的经过代码自己分辨出来，只要简单培养一下本身对于共享资源调用的敏感度就能够了。

可是对于最后一种状况，每每很难简单的经过看代码的方式看出来，甚至出现并发问题的两处调用并非在同一个程序里（好比两个系统同时读写一个数据库，或者并发的调用了一个程序的不一样模块等）。可是，只要是代码里出现了不加锁的，访问共享资源的 “先作 A，再作 B” 之类的逻辑，可能就须要提升警戒了。

性能是评价程序员能力的一个重要指标，不少程序员也对程序的性能津津乐道。但程序的性能很难直接经过代码看出来，每每要借助于一些性能测试工具，或者在实际环境中执行才能有结果。

算法的时间复杂度，时间复杂度高的程序运行效率必然会低。

单步操做耗时，单步耗时高的操做尽可能少作，好比访问数据库，访问 io 等。

而实际工做中，也会见到一些程序员过于热衷优化效率，相对的会带来程序易读性的下降、复杂度提升、或者增长工期等等。对于这类状况，简单的办法是让做者说出这段程序的瓶颈在哪里，为何会有这个瓶颈，以及优化带来的收益。

固然，不管是优化不足仍是优化过分，判断性能指标最好的办法是用数听说话，而不是单纯看代码，性能测试这部份内容有些超出这篇文章的范围，就不详细展开了。

日志表明了程序在出现问题时排查的难易程度，经 (jing) 验(chang)丰 (cai) 富(keng)的程序员大概都会遇到过这个场景：排查问题时就少一句日志，查不到某个变量的值不知道是什么，致使死活分析不出来问题到底出在哪。

日志是否足够，全部异常、外部调用都须要有日志，而一条调用链路上的入口、出口和路径关键点上也须要有日志。

日志的表达是否清晰，包括是否能读懂，风格是否统一等。这个的评价标准跟代码的可读性同样，不重复了。

日志是否包含了足够的信息，这里包括了调用的上下文、外部的返回值，用于查询的关键字等，便于分析信息。

对于线上系统来讲，通常能够经过调整日志级别来控制日志的数量，因此打印日志的代码只要不对阅读形成障碍，基本上都是能够接受的。

《Release It!: Design and Deploy Production-Ready Software》（不要看中文版，翻译的实在是太烂了）

相对于前两类代码来讲，可维护的代码评价标准更模糊一些，由于它要对应的是将来的状况，通常新人很难想象如今的一些作法会对将来形成什么影响。不过根据个人经验，通常来讲，只要反复的提问两个问题就能够了：

几乎全部程序员都知道要避免拷代码，可是拷代码这个现象仍是不可避免的成为了程序可维护性的杀手。

代码重复分为两种：模块内重复和模块间重复。不管何种重复，都在必定程度上说明了程序员的水平有问题，模块内重复的问题更大一些，若是在同一个文件里都能出现大片重复的代码，那表示他什么难以想象的代码都有可能写出来。

对于重复的判断并不须要反复阅读代码，通常来讲现代的 IDE 都提供了检查重复代码的工具，只需点几下鼠标就能够了。

除了代码重复以外，不少热衷于维护代码质量的程序员新人很容易出现另外一类重复：信息重复。

// 成员列表的长度 > 0 而且 0 && memberList.size() < 200 || (tmp.isOpen() && flag)) {

随着项目的演进，无用的信息会越积越多，最终甚至让人没法分辨哪些信息是有效的，哪些是无效的。

若是在项目中发现好几个东西都在作同一件事情，好比经过注释描述代码在作什么，或者依靠注释替代版本管理的功能，那么这些代码也不能称为好代码。

模块内高内聚与模块间低耦合是大部分设计遵循的标准，经过合理的模块划分可以把复杂的功能拆分为更易于维护的更小的功能点。

通常来讲能够从代码长度上初步评价一个模块划分的是否合理，一个类的长度大于 2000 行，或者一个函数的长度大于两屏幕都是比较危险的信号。

另外一个可以体现模块划分水平的地方是依赖。若是一个模块依赖特别多，甚至出现了循环依赖，那么也能够反映出做者对模块的规划比较差，从此在维护这个工程的时候颇有可能出现牵一发而动全身的状况。

通常来讲有很多工具能提供依赖分析，好比 IDEA 中提供的 Dependencies Analysis 功能，学会这些工具的使用对于评价代码质量会有很大的帮助。

值得一提的是，绝大部分状况下，不恰当的模块划分也会伴随着极低的单元测试覆盖率：复杂模块的单元测试很是难写的，甚至是不可能完成的任务。因此直接查看单元测试覆盖率也是一个比较靠谱的评价方式。

只要提到代码质量，必然会提到简洁、优雅之类的形容词。简洁这个词实际涵盖了不少东西，代码避免重复是简洁、设计足够抽象是简洁，一切对于提升可维护性的尝试实际都是在试图作减法。

编程经验不足的程序员每每不能意识到简洁的重要性，乐于捣鼓一些复杂的玩意并乐此不疲。但复杂是代码可维护性的天敌，也是程序员能力的一道门槛。

跨过门槛的程序员应该有能力控制逐渐增加的复杂度，总结和抽象出事物的本质，并体现到本身设计和编码中。一个程序的生命周期也是在由简入繁到化繁为简中不断迭代的过程。

对于这部分我难以总结出简单易行的评价标准，它更像是一种思惟方式，除了要理解、还须要练习。多看、多想、多交流，不少时候能够简化的东西会大大超出原先的预计。

《Software Architecture Patterns-Understanding Common Architecture Patterns and When to Use Them》

这篇文章主要介绍了一些评价代码质量优劣的手段，这些手段中，有些比较客观，有些主观性更强。以前也说过，对代码质量的评价是一件主观的事情，这篇文章里虽然列举了不少评价手段。可是实际上，不少我认为没有问题的代码也会被其余人吐槽，因此这篇文章只能算是初稿，更多内容还须要从此继续补充和完善。虽然每一个人对于代码质量评价的倾向都不同，可是整体来讲评价代码质量的能力能够被比做程序员的 “品味”，评价的准确度会随着自身经验的增长而增加。在这个过程当中，须要随时保持思考、学习和批判的精神。

-------------------------------------------------------------------------------------------------------------------------------------

秦迪／5.7 系统运维之如何应对烂代码404
5.7.1 改善可维护性.404
5.7.2 改善性能与健壮性409
5.7.3 改善生存环境.412
5.7.4 我的感想414

-------------------------------------------------------------------------------------------------------------------------------------

第6 章大数据与数据库415王劲／6.1 某音乐公司的大数据实践.4156.1.1 什么是大数据.4156.1.2 某音乐公司大数据技术架构4186.1.3 在大数据平台重构过程当中踩过的坑4256.1.4 后续的持续改进.430王新春／6.2 实时计算在点评.4316.2.1 实时计算在点评的使用场景4316.2.2 实时计算在业界的使用场景4326.2.3 点评如何构建实时计算平台4336.2.4 Storm 基础知识简单介绍.4346.2.5 如何保证业务运行的可靠性4366.2.6 Storm 使用经验分享4386.2.7 关于计算框架的后续想法4426.2.8 疑问与解惑442王卫华／6.3 百姓网Elasticsearch 2.x 升级之路.4466.3.1 Elasticsearch 2.x 变化4466.3.2 升级之路4486.3.3 优化或建议4516.3.4 百姓之道4526.3.5 后话：Elasticsearch 5.04536.3.6 升级2.x 版本成功，5.x 版本还会远吗454董西成张虔熙／6.4 Hadoop、HBase 年度回顾4576.4.1 Hadoop 2015 技术发展4576.4.2 HBase 2015 年技术发展4606.4.3 疑问与解惑466常雷／6.5 解密Apache HAWQ——功能强大的SQL-on-Hadoop 引擎.4696.5.1 HAWQ 基本介绍4696.5.2 Apache HAWQ 系统架构.4726.5.3 HAWQ 中短时间规划.4796.5.4 贡献到Apache HAWQ 社区4796.5.5 疑问与解惑480萧少聪／6.6 PostgresSQL HA 高可用架构实战.4826.6.1 PostgreSQL 背景介绍.4826.6.2 在PostgreSQL 下如何实现数据复制技术的HA 高可用集群4836.6.3 Corosync+Pacemaker MS 模式介绍4846.6.4 Corosync+Pacemaker M/S 环境配置4856.6.5 Corosync+Pacemaker HA 基础配置4886.6.5 PostgreSQL Sync 模式当前的问题4926.6.6 疑问与解惑492王晶昱／6.7 从NoSQL 历史看将来.4956.7.1 前言4956.7.2 1970 年：We have no SQL4966.7.3 1980 年：Know SQL 4976.7.4 2000 年：No SQL .5026.7.5 2005 年：不只仅是SQL 5046.7.6 2013 年：No，SQL .5056.7.7 阿里的技术选择.5056.7.8 疑问与解惑506杨尚刚／6.8 MySQL 5.7 新特性大全和将来展望.5086.8.1 提升运维效率的特性5086.8.2 优化器Server 层改进.5116.8.3 InnoDB 层优化5136.8.4 将来发展5176.8.5 运维经验总结.5186.8.6 疑问与解惑519谭政／6.9 大数据盘点之Spark 篇5216.9.1 Spark 的特性以及功能5216.9.2 Spark 在Hulu 的实践.5256.9.3 Spark 将来的发展趋势5286.9.4 参考文章5306.9.5 疑问与解惑530萧少聪／6.10 从Postgres 95 到PostgreSQL 9.5：新版亮眼特性5326.10.1 Postgres 95 介绍5326.10.2 PostgresSQL 版本发展历史5336.10.3 PostgresSQL 9.5 的亮眼特性5346.10.4 PostgresSQL 还能够作什么5446.10.5 疑问与解惑547毕洪宇／6.11 MongoDB 2015 回顾：全新里程碑式的WiredTiger 存储引擎5516.11.1 存储引擎的发展5516.11.2 复制集改进.5556.11.3 自动分片机制5566.11.4 其余新特性介绍5566.11.5 疑问与解惑.558王晓伟／6.12 基于Xapian 的垂直搜索引擎的构建分析5616.12.1 垂直搜索的应用场景5616.12.2 技术选型.5636.12.3 垂直搜索的引擎架构5646.12.4 垂直搜索技术和业务细节.5666.12.5 疑问与解惑568第7 章安全与网络572郭伟／7.1 揭秘DDoS 防御——腾讯云大禹系统5727.1.1 有关DDoS 简介的问答.5747.1.2 有关大禹系统简介的问答5757.1.3 有关大禹系统硬件防御能力的问答5767.1.4 有关算法设计的问答5777.1.5 大禹和其余产品、技术的区别.578冯磊赵星宇／7.2 App 域名劫持之DNS 高可用——开源版HttpDNS 方案详解5807.2.1 HttpDNSLib 库组成.5817.2.2 HttpDNS 交互流程5827.2.3 代码结构5837.2.4 开发过程当中的一些问题及应对.5867.2.5 疑问与解惑593马涛／7.3 CDN 对流媒体和应用分发的支持及优化5957.3.1 CDN 系统工做原理.5957.3.2 网络分发过程当中ISP 的影响6027.3.3 防盗链.6037.3.4 内容分发系统的问题和应对思路6047.3.5 P2P 穿墙打洞6077.3.6 疑问与解惑609马涛／7.4 HTTPS 环境使用第三方CDN 的证书难题与最佳实践611蒋海滔／7.5 互联网主要安全威胁分析及应对方案6137.5.1 互联网Web 应用面临的主要威胁6137.5.2 威胁应对方案.6167.5.3 疑问与解惑624

《高可用架构第1卷【5】》——运维保障

设计初衷

深度剖析开源分布式监控CAT

背景介绍

总体设计

客户端设计

设计架构

API设计

序列化和通讯

客户端埋点

遇到的问题

服务端设计

架构设计

实时分析

报表建模

性能分析报表

故障发现报表

存储设计

消息ID的设计

存储数据的设计

服务端设计总结

总结

前言

MySQL 历史

MySQL 的优势

MySQL 存在的问题

数据库开发规范

规范存在乎义

基本命名和约束规范

字段规范

索引规范

SQL 类规范

数据库运维规范

运维规范主要内容

版本选择

Online DDL 问题

可用性

sharding 拆分问题

数据库备份

数据恢复方案

性能优化

复制优化

主从延时问题

InnoDB 优化

MySQL 优化相关的 case

关于 SSD

最后说一下你们关注的单表 60 亿记录问题，表里数据也是线上比较核心的。

QA

一、写烂代码很容易

二、烂代码终究是烂代码

可是偶尔有那么几回，写烂代码的人离职了以后，事情彷佛又变得不同了。

2.1 意义不明

2.2 不说人话

2.3 不恰当的组织

2.4. 假设和缺乏抽象

2.5 还有吗

2.6 够用的代码

三、重构不是万能药

四、写好代码很难

五、悲观的结语

1. 改善可维护性

1.1. 重构的悖论

1.2. 重构 step by step

1.2.1. 开始以前

1.2.2. 随时进行模块内部的重构

1.2.3. 一次只作一个较模块级别的的重构

1.2.4. 工程级别的重构不能和任何其余任务并行

1.3. 重构的周期

1.3.1. 一些重构的 tips

2. 改善性能与健壮性

2.1. 改善性能的 80%

2.2. 决定健壮性的 20%

3. 改善生存环境

3.1.1. 统一环境

3.1.2. 代码仓库

3.1.3. 持续反馈

3.1.4. 质量文化

4. 最后再说两句

　　1. 改善可维护性

　　1.1. 重构的悖论

　　1.2. 重构 step by step

　　1.2.1. 开始以前

　　1.2.2. 随时进行模块内部的重构

　　1.2.3. 一次只作一个较模块级别的的重构

　　1.2.4. 工程级别的重构不能和任何其余任务并行

　　1.3. 重构的周期

　　1.3.1. 一些重构的 tips

　　2. 改善性能与健壮性

　　2.1. 改善性能的 80%

　　2.2. 决定健壮性的 20%

　　3. 改善生存环境

　　3.1.1. 统一环境

　　3.1.2. 代码仓库

　　3.1.3. 持续反馈

　　3.1.4. 质量文化

　　4. 最后再说两句