NoSQL仍是SQL？这一篇讲清楚

时间 2019-11-08

原文原文链接

https://mp.weixin.qq.com/s?__biz=MzAwMDU1MTE1OQ==&mid=2653550127&idx=1&sn=93f79e007d757a2ba887e8dc9e6c47f6&chksm=813a67b7b64deea1093304b21065d76073f0eb6e4b2923181211d0cb4159e1dc8c3104f7436b&scene=0&key=f9325dcb38245ddc7742d7cded4d414f3281d7d65fa874e0f7fc88b5427449e479341ba5713746a72604354fc9dee61561ea327a1ef14a3e92076444b3223ba4f3c0af86cfdc217e49ff5008dfbb9cee&ascene=1&uin=MjgwMTEwNDQxNg%3D%3D&devicetype=Windows-QQBrowser&version=6103000b&lang=zh_CN&pass_ticket=DXC1954%2BK1SGTbNf0BfROhv9qHwlnnEPi%2BhWkN5VYUoPmHizjz4O33VIful%2FVDWv算法

传统的关系型数据库在应付这些已经显得力不从心，并暴露了许多难以克服的问题。数据库

由此，各类各样的 NoSQL（Not Only SQL）数据库做为传统关系型数据的一个有力补充获得迅猛发展。编程

本文将分析传统数据库存在的一些问题，以及几大类 NoSQL 如何解决这些问题，但愿给你们提供一些在不一样业务场景下存储技术选型方面的参考。缓存

传统数据库的缺点安全

传统的数据库有以下几个缺点：服务器

大数据场景下 I/O 较高，由于数据是按行存储，即便只针对其中某一列进行运算，关系型数据库也会将整行数据从存储设备中读入内存，致使 I/O 较高。网络
存储的是行记录，没法存储数据结构。数据结构
表结构 Schema 扩展不方便，如要修改表结构，须要执行 DDL(data definition language)，语句修改，修改期间会致使锁表，部分服务不可用。架构
全文搜索功能较弱，关系型数据库下只可以进行子字符串的匹配查询，当表的数据逐渐变大的时候，like 查询的匹配会很是慢，即便在有索引的状况下。何况关系型数据库也不该该对文本字段进行索引。并发
存储和处理复杂关系型数据功能较弱，许多应用程序须要了解和导航高度链接数据之间的关系，才能启用社交应用程序、推荐引擎、欺诈检测、知识图谱、生命科学和 IT/网络等用例。

然而传统的关系数据库并不善于处理数据点之间的关系。它们的表格数据模型和严格的模式使它们很难添加新的或不一样种类的关联信息。

NoSQL 解决方案

NoSQL，泛指非关系型的数据库，能够理解为 SQL 的一个有力补充。

在 NoSQL 许多方面性能大大优于非关系型数据库的同时，每每也伴随一些特性的缺失，比较常见的是事务库事务功能的缺失。

数据库事务正确执行的四个基本要素 ACID 以下：

下面介绍 5 大类 NoSQL 数据针对传统关系型数据库的缺点和提供的解决方案：

列式数据库

列式数据库是以列相关存储架构进行数据存储的数据库，主要适合于批量数据处理和即时查询。

相对应的是行式数据库，数据以行相关的存储体系架构进行空间分配，主要适合于小批量的数据处理，经常使用于联机事务型数据处理。

基于列式数据库的列列存储特性，能够解决某些特定场景下关系型数据库 I/O 较高的问题。

基本原理

传统关系型数据库是按照行来存储数据库，称为“行式数据库”，而列式数据库是按照列来存储数据。

将表放入存储系统中有两种方法，而咱们绝大部分是采用行存储的。行存储法是将各行放入连续的物理位置，这很像传统的记录和文件系统。

列存储法是将数据按照列存储到数据库中，与行存储相似。下图是两种存储方法的图形化解释：

常见列式数据库

HBase：是一个开源的非关系型分布式数据库（NoSQL），它参考了谷歌的 BigTable 建模，实现的编程语言为 Java。

它是 Apache 软件基金会的 Hadoop 项目的一部分，运行于 HDFS 文件系统之上，为 Hadoop 提供相似于 BigTable 规模的服务。所以，它能够容错地存储海量稀疏的数据。

BigTable：是一种压缩的、高性能的、高可扩展性的，基于 Google 文件系统（Google File System，GFS）的数据存储系统，用于存储大规模结构化数据，适用于云端计算。

使用场景

以 HBase 为例说明：

大数据量（100s TB级数据），且有快速随机访问的需求。
写密集型应用，天天写入量巨大，而相对读数量较小的应用，好比 IM 的历史消息，游戏的日志等等。
不须要复杂查询条件来查询数据的应用，HBase 只支持基于 rowkey 的查询，对于 HBase 来讲，单条记录或者小范围的查询是能够接受的。

大范围的查询因为分布式的缘由，可能在性能上有点影响，HBase 不适用于有 join，多级索引，表关系复杂的数据模型。
对性能和可靠性要求很是高的应用，因为 HBase 自己没有单点故障，可用性很是高。
数据量较大，并且增加量没法预估的应用，须要进行优雅的数据扩展的 HBase 支持在线扩展，即便在一段时间内数据量呈井喷式增加，也能够经过 HBase 横向扩展来知足功能。
存储结构化和半结构化的数据。

K-V 数据库

指的是使用键值(key-value)存储的数据库，其数据按照键值对的形式进行组织、索引和存储。

K-V 存储很是适合不涉及过多数据关系业务关系的数据，同时能有效减小读写磁盘的次数，比 SQL 数据库存储拥有更好的读写性能，可以解决关系型数据库没法存储数据结构的问题。

常见 K-V 数据库

Redis：是一个使用 ANSI C 编写的开源、支持网络、基于内存、可选持久性的键值对存储数据库。

从 2015 年 6 月开始，Redis 的开发由 Redis Labs 赞助，而 2013 年 5 月至 2015 年 6 月期间，其开发由 Pivotal 赞助。

在 2013 年 5 月以前，其开发由 VMware 赞助。根据月度排行网站 DB-Engines.com 的数据显示，Redis 是最流行的键值对存储数据库。

Cassandra：Apache Cassandra（社区内通常简称为C*）是一套开源分布式 NoSQL 数据库系统。

它最初由 Facebook 开发，用于储存收件箱等简单格式数据，集 Google BigTable 的数据模型与 Amazon Dynamo 的彻底分布式架构于一身。

Facebook 于 2008 将 Cassandra 开源，此后，因为 Cassandra 良好的可扩展性和性能。

它被 Apple，Comcas，Instagram，Spotify，eBay，Rackspace，Netflix 等知名网站所采用，成为了一种流行的分布式结构化数据存储方案。

LevelDB：是一个由 Google 公司所研发的键／值对（Key/Value Pair）嵌入式数据库管理系统编程库，以开源的 BSD 许可证发布。

使用场景

适用场景：

储存用户信息(好比会话)、配置文件、参数、购物车等等。这些信息通常都和 ID（键）挂钩。

不适用场景：

须要经过值来查询，而不是键来查询。Key-Value 数据库中根本没有经过值查询的途径。
须要储存数据之间的关系。在 Key-Value 数据库中不能经过两个或以上的键来关联数据。
须要事务的支持。在 Key-Value 数据库中故障产生时不能够进行回滚。

文档数据库

文档数据库（也称为文档型数据库）是旨在将半结构化数据存储为文档的一种数据库。文档数据库一般以 JSON 或 XML 格式存储数据。

因为文档数据库的 no-schema 特性，能够存储和读取任意数据。

因为使用的数据格式是 JSON 或者 BSON，由于 JSON 数据是自描述的，无需在使用前定义字段，读取一个 JSON 中不存在的字段也不会致使 SQL 那样的语法错误，能够解决关系型数据库表结构 Schema 扩展不方便的问题。

常见文档数据库

MongoDB：是一种面向文档的数据库管理系统，由 C++ 撰写而成，以此来解决应用程序开发社区中的大量现实问题。2007 年 10 月，MongoDB 由 10gen 团队所发展。2009 年 2 月首度推出。

CouchDB：Apache CouchDB 是一个开源数据库，专一于易用性和成为"彻底拥抱 Web 的数据库"。

它是一个使用 JSON 做为存储格式，JavaScript 做为查询语言，MapReduce 和 HTTP 做为 API 的 NoSQL 数据库。

其中一个显著的功能就是多主复制。CouchDB 的第一个版本发布在 2005 年，在 2008 年成为了 Apache 的项目。

使用场景

适用场景：

数据量很大或者将来会变得很大。
表结构不明确，且字段在不断增长，例如内容管理系统，信息管理系统。

不适用场景：

在不一样的文档上须要添加事务。Document-Oriented 数据库并不支持文档间的事务。
多个文档之间须要复杂查询，例如 join。

全文搜索引擎

传统关系型数据库主要经过索引来达到快速查询的目的，在全文搜索的业务下，索引也无能为力，主要体如今：

全文搜索的条件能够随意排列组合，若是经过索引来知足，则索引的数量很是多。
全文搜索的模糊匹配方式，索引没法知足，只能用 like 查询，而 like 查询是整表扫描，效率很是低。

而全文搜索引擎的出现，正是解决关系型数据库全文搜索功能较弱的问题。

基本原理

全文搜索引擎的技术原理称为“倒排索引”（inverted index），是一种索引方法，其基本原理是创建单词到文档的索引。与之相对的是“正排索引”，其基本原理是创建文档到单词的索引。

如今有以下文档集合：

正排索引获得索引以下：

由上可见，正排索引适用于根据文档名称查询文档内容。简单的倒排索引以下：

带有单词频率信息的倒排索引以下：

由上可见，倒排索引适用于根据关键词来查询文档内容。

常见全文搜索引擎

Elasticsearch：是一个基于 Lucene 的搜索引擎。它提供了一个分布式，多租户，可以全文搜索与发动机 HTTP Web 界面和无架构 JSON 文件。

Elasticsearch 是用 Java 开发的，并根据 Apache License 的条款做为开源发布。

根据 DB-Engines 排名，Elasticsearch 是最受欢迎的企业搜索引擎，后面是基于 Lucene 的 Apache Solr。

Solr：是 Apache Lucene 项目的开源企业搜索平台。其主要功能包括全文检索、命中标示、分面搜索、动态聚类、数据库集成，以及富文本（如 Word、PDF）的处理。Solr 是高度可扩展的，并提供了分布式搜索和索引复制。

使用场景

适用场景以下：

分布式的搜索引擎和数据分析引擎。
全文检索，结构化检索，数据分析。
对海量数据进行近实时的处理，能够将海量数据分散到多台服务器上去存储和检索。

不适用场景以下：

数据须要频繁更新。
须要复杂关联查询。

图形数据库

图形数据库应用图形理论存储实体之间的关系信息。最多见例子就是社会网络中人与人之间的关系。

关系型数据库用于存储“关系型”数据的效果并很差，其查询复杂、缓慢、超出预期。

而图形数据库的独特设计偏偏弥补了这个缺陷，解决关系型数据库存储和处理复杂关系型数据功能较弱的问题。

常见图形数据库

Neo4j：是由 Neo4j，Inc. 开发的图形数据库管理系统。由其开发人员描述为具备原生图存储和处理的符合 ACID 的事务数据库，根据 DB-Engines 排名，Neo4j 是最流行的图形数据库。

ArangoDB：是由 triAGENS GmbH 开发的原生多模型数据库系统。数据库系统支持三个重要的数据模型（键/值，文档，图形），其中包含一个数据库核心和统一查询语言 AQL（ArangoDB 查询语言）。

查询语言是声明性的，容许在单个查询中组合不一样的数据访问模式。ArangoDB 是一个 NoSQL 数据库系统，但 AQL 在不少方面与 SQL 相似。

Titan：是一个可扩展的图形数据库，针对存储和查询包含分布在多机群集中的数百亿个顶点和边缘的图形进行了优化。

Titan 是一个事务性数据库，能够支持数千个并发用户实时执行复杂的图形遍历。

使用场景

适用场景以下：

在一些关系性强的数据中，例如社交网络。
推荐引擎。若是咱们将数据以图的形式表现，那么将会很是有益于推荐的制定。

不适用场景以下：

记录大量基于事件的数据（例如日志条目或传感器数据）。
对大规模分布式数据进行处理，相似于 Hadoop。
适合于保存在关系型数据库中的结构化数据。
二进制数据存储。

总结

关系型数据库和 NoSQL 数据库的选型，每每须要考虑几个指标：

数据量
并发量
实时性
一致性要求
读写分布和类型
安全性
运维成本

常见软件系统数据库选型参考以下：

内部使用的管理型系统，如运营系统，数据量少，并发量小，首选考虑关系型。
大流量系统，如电商单品页，后台考虑选关系型，前台考虑选内存型。
日志型系统，原始数据考虑选列式，日志搜索考虑选倒排索引。
搜索型系统，例如站内搜索，非通用搜索，如商品搜索，后台考虑选关系型，前台考虑选倒排索引。
事务型系统，如库存，交易，记帐，考虑选关系型+缓存+一致性型协议。
离线计算，如大量数据分析，考虑选列式或者关系型也能够。
实时计算，如实时监控，能够考虑选内存型或者列式数据库。

在设计实践中，咱们要基于需求、业务驱动架构，不管选用 RDB/NoSQL/DRDB，必定是以需求为导向，最终数据存储方案必然是各类权衡的综合性设计。

参考资料：

从0开始学架构 —— Alibaba 李运华
NoSQL漫谈
图形数据库 Neo4j 开发实战
大数据时代的 9 大Key-Value存储数据库
事务—— Redis官方文档
MongoDB是如何实现事务的ACID？
MySQL脏读、虚读、幻读
全面梳理关系型数据库和 NoSQL 的使用情景
浅析列式数据库的特色
一分钟搞懂列式与行式数据库
HBase 基本概念
NoSQL Databases, why we should use, and which one we should choose
传统关系数据库与分布式数据库知识点

做者：陈彩华

编辑：陶家龙、孙淑娟

NoSQL仍是SQL？这一篇讲清楚

基本原理

常见列式数据库

相关特性

使用场景

常见 K-V 数据库

相关特性

使用场景

常见文档数据库

相关特性

使用场景

基本原理

常见全文搜索引擎

相关特性

使用场景

常见图形数据库

相关特性

使用场景

参考资料：