clickhouse

时间 2021-01-26

标签数据库服务器架构并发异步 ide 高并发性能 server 栏目 SQL 繁體版

原文原文链接

clickhouse

三丰 soft张三丰数据库

Clickhouse简介

ClickHouse是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)。服务器

常见的列式数据库有：Vertica、 Paraccel (Actian Matrix，Amazon Redshift)、 Sybase IQ、 Exasol、 Infobright、 InfiniDB、 MonetDB (VectorWise， Actian Vector)、 LucidDB、 SAP HANA、 Google Dremel、 Google PowerDrill、 Druid、 kdb+。架构

不一样的存储方式适合不一样的场景，这里的查询场景包括：并发

•进行了哪些查询
•多久查询一次
•各种查询的比例
•每种查询读取多少数据————行、列和字节
•读取数据和写入数据之间的关系
•使用的数据集大小以及如何使用本地的数据集
•是否使用事务,以及它们是如何进行隔离的
•数据的复制机制与数据的完整性要求
•每种类型的查询要求的延迟与吞吐量
系统负载越高，根据使用场景进行定制化就越重要，而且定制将会变的越精细。没有一个系统一样适用于明显不一样的场景。若是系统适用于普遍的场景，在负载高的状况下，全部的场景能够会被公平但低效处理，或者高效处理一小部分场景。异步

优势

1.为了高效的使用CPU，数据不单单按列存储，同时还按向量进行处理；
2.数据压缩空间大，减小IO；处理单查询高吞吐量每台服务器每秒最多数十亿行；
3.索引非B树结构，不须要知足最左原则；只要过滤条件在索引列中包含便可；即便在使用的数据不在索引中，因为各类并行处理机制ClickHouse全表扫描的速度也很快；
4.写入速度很是快，50-200M/s，对于大量的数据更新很是适用。ide

缺点

1.不支持事务，不支持真正的删除/更新；
2.不支持高并发，官方建议qps为100，能够经过修改配置文件增长链接数，可是在服务器足够好的状况下；
3.SQL知足平常使用80%以上的语法，join写法比较特殊；最新版已支持相似SQL的join，但性能很差；
4.尽可能作1000条以上批量的写入，避免逐行insert或小批量的insert，update，delete操做，由于ClickHouse底层会不断的作异步的数据合并，会影响查询性能，这个在作实时数据写入的时候要尽可能避开；
5.Clickhouse快是由于采用了并行处理机制，即便一个查询，也会用服务器一半的CPU去执行，因此ClickHouse不能支持高并发的使用场景，默认单查询使用CPU核数为服务器核数的一半，安装时会自动识别服务器核数，能够经过配置文件修改该参数。
全量数据导入：数据导入临时表 -> 导入完成后，将原表更名为tmp1 -> 将临时表更名为正式表 -> 删除原表高并发

增量数据导入：增量数据导入临时表 -> 将原数据除增量外的也导入临时表 -> 导入完成后，将原表更名为tmp1-> 将临时表改为正式表-> 删除原数据表性能

架构对比

Hbase架构

Kudu架构

Clickhouse架构

综上所示，Hbase和Kudu都是相似于Master-slave的架构而Clickhouse不存在Master结构，Clickhouse的每台Server的地位都是等价的，是multi-master模式。不过Hbase和Clickhouse额外增长了一个Zookeeper做为辅助的元数据存储或者是log server等，而Kudu的元数据是Master管理的，为了不server频繁从Master读取元数据，server会从Master获取一份元数据到本地，可是会有元数据丢失的风险。ui