分库分表的目的是为了解决两个问题:算法
第一,是数据量太大查询慢的问题。这里面咱们讲的“查询”其实主要是事务中的查询和更新操做,由于只读的查询能够经过缓存和主从分离来解决,这个咱们在以前的“MySQL 如何应对高并发”的两节课中都讲过。那咱们上节课也讲到过,解决查询慢,只要减小每次查询的数据总量就能够了,也就是说,分表就能够解决问题。数据库
第二,是为了应对高并发的问题。应对高并发的思想咱们以前也说过,一个数据库实例撑不住,就把并发请求分散到多个实例中去,因此,解决高并发的问题是须要分库的。缓存
简单地说,数据量大,就分表;并发高,就分库。并发
对于海量原始数据的存储系统,咱们要求的是超高的写入和读取性能,和近乎无限的容量,对于数据的查询能力要求不高。生产上,能够选择 Kafka 或者是 HDFS,Kafka 的优势是读写性能更好,单节点能支持更高的吞吐量。而 HDFS 则能提供真正无限的存储容量,而且对查询更友好。 分布式
一类是分布式流数据存储,比较活跃的项目有Pravega和 Pulsar 的存储引擎Apache BookKeeper。这些分布式流数据存储系统,走的是相似 Kafka 这种流存储的路线,在高吞吐量的基础上,提供真正无限的扩容能力,更好的查询能力。高并发
还有一类是时序数据库(Time Series Databases),比较活跃的项目有InfluxDB和OpenTSDB等。这些时序数据库,不只有很是好的读写性能,还提供很方便的查询和聚合数据的能力。可是,它们不是什么数据均可以存的,它们专一于相似监控数据这样,有时间特征而且数据内容都是数值的数据。若是你有存储海量监控数据的需求,能够关注一下这些项目。性能