1. 概要html
每台机器都使用多实例的模型。 每一个机器放多个实例,每一个实例放多个DB。mysql
多实例之间没有进行资源隔离,这么作是让每一个实例都能发挥最大性能。linux
目前大部分核心业务已切换成MyRocks引擎,在机器硬件配置不变的状况,约可节省一半机器。git
放在MyRocks上的核心业务主要有:Feed、Post、社交图谱等读写混合业务。github
MyRocks项目地址:https://github.com/facebook/mysql-5.6sql
另外,MariaDB 10.2版本也即将整合MyRocks引擎。数据库
2. 高可用机制性能优化
采用基于GTID的一主多从结构,外加一个基于lossless semi-sync机制的mysqlbinlog实现的binlog server(能够理解为MySQL 5.7的loss zero replication)。less
基于多数派实现自动选主。运维
基于配置中心实现切换,未使用VIP。
在认为semi-sync复制可保证主从数据一致性的假设前提下,发生故障切换时,利用上述的binlog server中的日志进行补全后再选新主、切换。
若个别状况下因为特殊缘由,出现从库所有挂掉的状况,会将所有请求切到主库,由它扛起全部的业务服务压力。
某个从库挂掉时,能够动态摘除。
3. 备份机制
全部的备份都是基于mysqldump实现,之因此采用mysqldump逻辑备份好处有:
上面提到,由于采用多实例、多DB结构,备份时能够多DB并行备份。固然了,也会控制并行备份的数量,避免影响在线业务性能。
备份放在集中存储(HDFS)上, 听说已达EB级别容量。
关于备份的做用定位:
4. 如何快速部署从库
可以使用xtrabackup在现有存活的SLAVE实例上备份,也可在主库上发起备份,再利用WDT(或者是BT)协议传输到异地,用于拉起从库。
关于WDT项目:https://github.com/facebook/wdt
5. 高度自动化
面对大规模的数据库实例,手工处理彻底不现实。目前在facebook主要是利用Python开发内部DB运维平台,因此Python技能方面要求比较高。
采用他们自已的osc工具执行Online DDL(也是本次DTCC大会上lulu的分享主题),它最先用PHP开发,虽早已开源,但实在很差用,因此几乎只在内部使用。这个工具不一样于pt-osc,相对来讲更有优点,好比能够避免使用pt-osc最常遇到的主从数据延迟问题。
项目地址:https://github.com/facebookincubator/OnlineSchemaChange
6. 团队结构及技能树
DBA团队更多的是负责私有DB云平台的建设。
Schema设计及DB拆分等由性能优化团队负责。
在线表结构变动:数据库资源申请由质量服务团队负责,作到资源的合理分布、分配,若是某个业务只须要个位数级别的DB实例,能够自行在私有DB云平台中申请部署,当数量比较大时,须要先通过质量服务团队评估经过。
数据库资源申请由质量服务团队负责,作到资源的合理分布、分配。若是某个业务须要小量DB实例,能够自行在私有DB云平台中申请部署;当数量比较大时,须要先通过质量服务团队评估经过才能够。