NoSQL分类java
因为NoSQL中没有像传统数据库那样定义数据的组织方式为关系型的,因此只要内部的数据组织采用了非关系型的方式,就能够称之为NoSQL数据库。
目前,能够将众多的NoSQL数据库按照内部的数据组织形式进行以下分类:mysql
不一样的数据组织适合于不一样的应用场景,后面将进行介绍。git
为何要使用NoSQL
SQL语言和关系型数据库(My SQL、PostgreSQL、Oracle等) 是通用的数据解决方案,占有绝大多数的市场。不过在最近兴起的NoSQL运动中,涌现出一批具有高可用性、支持线性扩展、支持Map/Reduce操做等特性的数据产品,它们具备以下特性:github
Key/Value的NoSQL库web
1 memcached
memcached是国外社区网站LiveJournal开发的高性能的内存Key/Value缓存服务器,目的是经过缓存数据库查询结果,减小数据库访问次数,以提升动态Web应用的速度,从而提升系统的可扩展性。redis
2 redis
redis是一款先进的Key/Value存储系统。它与Memcached相似,区别以下:
redis不只支持简单的Key/Value类型的数据,同时还提供list、set、hash等数据结构的存储。
redis支持数据的备份,即master slave模式的数据备份。
redis支持数据的持久化,能够将内存中的数据保持在磁盘中,重启的时候再次加载进行使用。
在redis中,并非全部的数据都一直存储在内存中。redis只会缓存全部的Key的信息,若是redis发现内存的使用量超过了某个阈值,将触发交换(swap) 的操做。redis根据“swappabillity=age*log(size_in_memory)” 计算出哪些Key对应的Value须要交换到磁盘,而后再将这些key对应的value持久化到磁盘中,同时在内存中清除。这种特性使得redis能够保持超过其机器自己内存大小的数据。固然,机器自己的内存必需要可以保持全部的key,毕竟这些数据是不会进行交换操做的。同时因为redis将内存中的数据交换到磁盘中的时候,提供服务的主线程和进行交换操做的子线程会共享这部份内存,因此若是更新须要交换的数据,redis将阻塞这个操做,直到子线程完成交换操做后才能够进行修改。
3 Dynamo
Dynamo是亚马逊公司开发的一款分布式Key/Value存储系统,用于存储用户的购物车信息。Dynamo与传统的Key/Value存储系统相比,最大的优点在于无单点故障,整个系统的可用性很是高,同时具有数据的最终一致性。算法
面向文档的NoSQL数据库
1 MongoDB
MongoDB是一个高性能、开源、模式自由(schma free) 的文档型数据库,它在许多场景下可用于替代传统的关系型数据库或Key/Value存储方式。MongoDB使用C++开发,具备如下特性:sql
2 CouchDB
CouchDB是Apache社区中的一款文档型数据库服务器。与如今流行的关系数据库服务器不一样,CouchDB是围绕一系列语义上自包含的文档而组织的。CouchDB中的文档是模式自由的,也就是说,并不要求文档具备某种特定的结构。CouchDB的这种特性使得它相对于传统的关系数据库而言,有本身的适用范围。通常来讲,围绕文档来构建的应用都比较适合使用CouchDB做为其后台存储。CouchDB强调其中所存储的文档,在语义上是自包含的。这种面向文档的设计思路,更贴近不少应用的问题域的真实状况。对于这类应用,使用CouchDB的文档来进行建模,会更加天然和简单。与此同时,CouchDB也提供基于Map/Reduce编程模型的视图来对文档进行查询,能够提供相似于关系数据库中SQL语句的能力。CouchDB对于不少应用来讲,提供了关系数据库以外的更好的选择。mongodb
面向列的NoSQL数据库
1 Cassandra
Cassandra是一款面向列的NoSQL数据库,和Google的Bigtable数据库属于同一类。此数据库比一个相似Dynamo的Key/Value数据库功能更多,但相比于面向文档的数据库(如MongoDB),它所支持的查询类型要少。数据库
HBase
HBase是Hadoop项目中的数据库。它用于须要对大量的数据进行随机、实时的读写操做的场景中。HBase的目标就是处理数据量很是庞大的表,能够用普通的计算机处理超过10亿行数据,还可处理有数百万列元素的数据表。
HBase是一个开源的、分布式的、支持多版本的、面向列存储的GoogleBigtable实现。
HBase的实现基于Hadoop分布式文件系统(HDFS),模仿并提供了基于Google文件系统的Bigtable数据库的全部功能。HBase有以下特色:
面向图的NoSQL数据库
Neo4J是一个用Java实现、彻底兼容ACID的图形数据库。数据以一种针对图形网络进行过优化的格式保存在磁盘上。Neo4J的内核是一种极快的图形引擎,具备数据库产品指望的全部特性,如恢复、两阶段提交、符合XA等。自2003年起,Neo4J就已经做为724的产品使用。该项目已经发布了12版,它是关于伸缩性和社区测试的一个主要里程碑。经过联机备份实现的高可用性和主从复制功能目前处于测试阶段,预计在下一版本中发布。Neo4J既可做为无须任何管理开销的内嵌数据库使用,也能够做为单独的服务器使用,在这种使用场景下,它提供了普遍使用的REST接口,可以方便地集成到基于PHP、NET和JavaScript的环境里。
Neo4J的特色以下:
示例:
如图1-1所示,能够在一个网站中使用4款数据产品来提供服务。
选择多样的数据存储方案一样有利于提高咱们对NoSQL的数据产品的理解,帮助咱们从大量的解决方案中选择最适用的产品,而不是把眼光仅仅放在某一款产品上。
核心的思想是:最适用的才是最好的。
Redis与Memcached的比较
一、Redis和Memcache都是将数据存放在内存中,都是内存数据库。不过memcache还可用于缓存其余东西,例如图片、视频等等,而Redis,并非全部的数据都一直存储在内存中的。
二、Redis不只仅支持简单的k/v类型的数据,同时还提供list,set,hash等数据结构的存储。
三、虚拟内存--Redis当物理内存用完时,能够将一些好久没用到的value 交换到磁盘
四、过时策略--memcache在set时就指定,例如set key1 0 0 8,即永不过时。Redis能够经过例如expire 设定,例如expire name 10
五、分布式--设定memcache集群,利用magent作一主多从;redis能够作一主多从。均可以一主一从
六、存储数据安全--memcache挂掉后,数据没了;redis能够按期保存到磁盘(持久化),重启的时候能够再次加载进行使用。
七、灾难恢复--memcache挂掉后,数据不可恢复; redis数据丢失后能够经过aof恢复
八、Redis支持数据的备份,即master-slave模式的数据备份
Redis在不少方面具有数据库的特征,或者说就是一个数据库系统,而Memcached只是简单的K/V缓存
实现原理等不一样:
Memcached是多线程,非阻塞IO复用的网络模型,分为监听主线程和worker子线程,监听线程监听网络链接,接受请求后,将链接描述字pipe 传递给worker线程,进行读写IO, 网络层使用libevent封装的事件库,多线程模型能够发挥多核做用,可是引入了cache coherency和锁的问题,好比,Memcached最经常使用的stats 命令,实际Memcached全部操做都要对这个全局变量加锁,进行计数等工做,带来了性能损耗。
(Memcached网络IO模型)
Redis使用单线程的IO复用模型,本身封装了一个简单的AeEvent事件处理框架,主要实现了epoll、kqueue和select,对于单纯只有IO操做来讲,单线程能够将速度优点发挥到最大,可是Redis也提供了一些简单的计算功能,好比排序、聚合等,对于这些操做,单线程模型实际会严重影响总体吞吐量,CPU计算过程当中,整个IO调度都是被阻塞住的。
Memcached使用预分配的内存池的方式,使用slab和大小不一样的chunk来管理内存,Item根据大小选择合适的chunk存储,内存池的方式能够省去申请/释放内存的开销,而且能减少内存碎片产生,但这种方式也会带来必定程度上的空间浪费,而且在内存仍然有很大空间时,新的数据也可能会被剔除,缘由能够参考Timyang的文章:http://timyang.net/data/Memcached-lru-evictions/
Redis使用现场申请内存的方式来存储数据,而且不多使用free-list等方式来优化内存分配,会在必定程度上存在内存碎片,Redis跟据存储命令参数,会把带过时时间的数据单独存放在一块儿,并把它们称为临时数据,非临时数据是永远不会被剔除的,即使物理内存不够,致使swap也不会剔除任何非临时数据(但会尝试剔除部分临时数据),这点上Redis更适合做为存储而不是cache。
Memcached提供了cas命令,能够保证多个并发访问操做同一份数据的一致性问题。 Redis没有提供cas 命令,并不能保证这点,不过Redis提供了事务的功能,能够保证一串 命令的原子性,中间不会被任何操做打断。
Memcached基本只支持简单的key-value存储,不支持枚举,不支持持久化和复制等功能
Redis除key/value以外,还支持list,set,sorted set,hash等众多数据结构,提供了KEYS
进行枚举操做,但不能在线上使用,若是须要枚举线上数据,Redis提供了工具能够直接扫描其dump文件,枚举出全部数据,Redis还同时提供了持久化和复制等功能。
在不一样语言的客户端方面,Memcached和Redis都有丰富的第三方客户端可供选择,不过由于Memcached发展的时间更久一些,目前看在客户端支持方面,Memcached的不少客户端更加成熟稳定,而Redis因为其协议自己就比Memcached复杂,加上做者不断增长新的功能等,对应第三方客户端跟进速度可能会赶不上,有时可能须要本身在第三方客户端基础上作些修改才能更好的使用。
根据以上比较不难看出,当咱们不但愿数据被踢出,或者须要除key/value以外的更多数据类型时,或者须要落地功能时,使用Redis比使用Memcached更合适。
Redis除了做为存储以外还提供了一些其它方面的功能,好比聚合计算、pubsub、scripting等,对于此类功能须要了解其实现原理,清楚地了解到它的局限性后,才能正确的使用,好比pubsub功能,这个实际是没有任何持久化支持的,消费方链接闪断或重连之间过来的消息是会所有丢失的,又好比聚合计算和scripting等功能受Redis单线程模型所限,是不可能达到很高的吞吐量的,须要谨慎使用。
总的来讲Redis做者是一位很是勤奋的开发者,能够常常看到做者在尝试着各类不一样的新鲜想法和思路,针对这些方面的功能就要求咱们须要深刻了解后再使用。
后续关于Redis文章计划:
最近项目组有用到这三个缓存,去各自的官方看了下,以为还真的各有千秋!今天特地概括下各个缓存的优缺点,仅供参考!
Ehcache
在java项目普遍的使用。它是一个开源的、设计于提升在数据从RDBMS中取出来的高花费、高延迟采起的一种缓存方案。正由于Ehcache具备健壮性(基于java开发)、被认证(具备apache 2.0 license)、充满特点(稍后会详细介绍),因此被用于大型复杂分布式web application的各个节点中。
什么特点?
1. 够快
Ehcache的发行有一段时长了,通过几年的努力和不可胜数的性能测试,Ehcache终被设计于large, high concurrency systems.
2. 够简单
开发者提供的接口很是简单明了,从Ehcache的搭建到运用运行仅仅须要的是你宝贵的几分钟。其实不少开发者都不知道本身用在用Ehcache,Ehcache被普遍的运用于其余的开源项目
好比:hibernate
3.够袖珍
关于这点的特性,官方给了一个很可爱的名字small foot print ,通常Ehcache的发布版本不会到2M,V 2.2.3 才 668KB。
4. 够轻量
核心程序仅仅依赖slf4j这一个包,没有之一!
5.好扩展
Ehcache提供了对大数据的内存和硬盘的存储,最近版本容许多实例、保存对象高灵活性、提供LRU、LFU、FIFO淘汰算法,基础属性支持热配置、支持的插件多
6.监听器
缓存管理器监听器 (CacheManagerListener)和 缓存监听器(CacheEvenListener),作一些统计或数据一致性广播挺好用的
如何使用?
够简单就是Ehcache的一大特点,天然用起来just so easy!
贴一段基本使用代码
CacheManager manager = CacheManager.newInstance("src/config/ehcache.xml"); Ehcache cache = new Cache("testCache", 5000, false, false, 5, 2); cacheManager.addCache(cache);
代码中有个ehcache.xml文件,如今来介绍一下这个文件中的一些属性
name:缓存名称。
maxElementsInMemory:缓存最大个数。
eternal:对象是否永久有效,一但设置了,timeout将不起做用。
timeToIdleSeconds:设置对象在失效前的容许闲置时间(单位:秒)。仅当eternal=false对象不是永久有效时使用,可选属性,默认值是0,也就是可闲置时间无穷大。
timeToLiveSeconds:设置对象在失效前容许存活时间,最大时间介于建立时间和失效时间之间。仅当eternal=false对象不是永久有效时使用,默认是0.,也就是对象存活时 间无穷大。
overflowToDisk:当内存中对象数量达到maxElementsInMemory时,Ehcache将会对象写到磁盘中。
diskSpoolBufferSizeMB:这个参数设置DiskStore(磁盘缓存)的缓存区大小。默认是30MB。每一个Cache都应该有本身的一个缓冲区。
maxElementsOnDisk:硬盘最大缓存个数。
diskPersistent:是否缓存虚拟机重启期数据 Whether the disk store persists between restarts of the Virtual Machine. The default value is false.
diskExpiryThreadIntervalSeconds:磁盘失效线程运行时间间隔,默认是120秒。
memoryStoreEvictionPolicy:当达到maxElementsInMemory限制时,Ehcache将会根据指定的策略去清理内存。默认策略是LRU。你能够设置为 FIFO或是LFU。
clearOnFlush:内存数量最大时是否清除。
memcache
memcache 是一种高性能、分布式对象缓存系统,最初设计于缓解动态网站数据库加载数据的延迟性,你能够把它想象成一个大的内存HashTable,就是一个key-value键值缓存。Danga Interactive为了LiveJournal所发展的,以BSD license释放的一套开放源代码软件。
1.依赖
memcache C语言所编写,依赖于最近版本的GCC和libevent。GCC是它的编译器,同事基于libevent作socket io。在安装memcache时保证你的系统同事具有有这两个环境。
2.多线程支持
memcache支持多个cpu同时工做,在memcache安装文件下有个叫threads.txt中特别说明,By default, memcached is compiled as a single-threaded application.默认是单线程编译安装,若是你须要多线程则须要修改./configure --enable-threads,为了支持多核系统,前提是你的系统必须具备多线程工做模式。开启多线程工做的线程数默认是4,若是线程数超过cpu数容易发生操做死锁的几率。结合本身业务模式选择才能作到物尽其用。
3.高性能
经过libevent完成socket 的通信,理论上性能的瓶颈落在网卡上。
简单安装:
1.分别把memcached和libevent下载回来,放到 /tmp 目录下:
# cd /tmp
# wget http://www.danga.com/memcached/dist/memcached-1.2.0.tar.gz
# wget http://www.monkey.org/~provos/libevent-1.2.tar.gz
2.先安装libevent:
# tar zxvf libevent-1.2.tar.gz
# cd libevent-1.2
# ./configure -prefix=/usr
# make (若是遇到提示gcc 没有安装则先安装gcc)
# make install
3.测试libevent是否安装成功:
# ls -al /usr/lib | grep libevent
lrwxrwxrwx 1 root root 21 11?? 12 17:38 libevent-1.2.so.1 -> libevent-1.2.so.1.0.3
-rwxr-xr-x 1 root root 263546 11?? 12 17:38 libevent-1.2.so.1.0.3
-rw-r-r- 1 root root 454156 11?? 12 17:38 libevent.a
-rwxr-xr-x 1 root root 811 11?? 12 17:38 libevent.la
lrwxrwxrwx 1 root root 21 11?? 12 17:38 libevent.so -> libevent-1.2.so.1.0.3
还不错,都安装上了。
4.安装memcached,同时须要安装中指定libevent的安装位置:
# cd /tmp
# tar zxvf memcached-1.2.0.tar.gz
# cd memcached-1.2.0
# ./configure -with-libevent=/usr
# make
# make install
若是中间出现报错,请仔细检查错误信息,按照错误信息来配置或者增长相应的库或者路径。
安装完成后会把memcached放到 /usr/local/bin/memcached ,
5.测试是否成功安装memcached:
# ls -al /usr/local/bin/mem*
-rwxr-xr-x 1 root root 137986 11?? 12 17:39 /usr/local/bin/memcached
-rwxr-xr-x 1 root root 140179 11?? 12 17:39 /usr/local/bin/memcached-debug
启动Memcached服务:
1.启动Memcache的服务器端:
# /usr/local/bin/memcached -d -m 8096 -u root -l 192.168.77.105 -p 12000 -c 256 -P /tmp/memcached.pid
-d选项是启动一个守护进程,
-m是分配给Memcache使用的内存数量,单位是MB,我这里是8096MB,
-u是运行Memcache的用户,我这里是root,
-l是监听的服务器IP地址,若是有多个地址的话,我这里指定了服务器的IP地址192.168.77.105,
-p是设置Memcache监听的端口,我这里设置了12000,最好是1024以上的端口,
-c选项是最大运行的并发链接数,默认是1024,我这里设置了256,按照你服务器的负载量来设定,
-P是设置保存Memcache的pid文件,我这里是保存在 /tmp/memcached.pid,
2.若是要结束Memcache进程,执行:
# cat /tmp/memcached.pid 或者 ps -aux | grep memcache (找到对应的进程id号)
# kill 进程id号
也能够启动多个守护进程,不过端口不能重复。
memcache 的链接
telnet ip port
注意链接以前须要再memcache服务端把memcache的防火墙规则加上
-A RH-Firewall-1-INPUT -m state --state NEW -m tcp -p tcp --dport 3306 -j ACCEPT
从新加载防火墙规则
service iptables restart
OK ,如今应该就能够连上memcache了
在客户端输入stats 查看memcache的状态信息
pid memcache服务器的进程ID
uptime 服务器已经运行的秒数
time 服务器当前的unix时间戳
version memcache版本
pointer_size 当前操做系统的指针大小(32位系统通常是32bit)
rusage_user 进程的累计用户时间
rusage_system 进程的累计系统时间
curr_items 服务器当前存储的items数量
total_items 从服务器启动之后存储的items总数量
bytes 当前服务器存储items占用的字节数
curr_connections 当前打开着的链接数
total_connections 从服务器启动之后曾经打开过的链接数
connection_structures 服务器分配的链接构造数
cmd_get get命令 (获取)总请求次数
cmd_set set命令 (保存)总请求次数
get_hits 总命中次数
get_misses 总未命中次数
evictions 为获取空闲内存而删除的items数(分配给memcache的空间用满后须要删除旧的items来获得空间分配给新的items)
bytes_read 读取字节数(请求字节数)
bytes_written 总发送字节数(结果字节数)
limit_maxbytes 分配给memcache的内存大小(字节)
threads 当前线程数
redis是在memcache以后编写的,你们常常把这二者作比较,若是说它是个key-value store 的话可是它具备丰富的数据类型,我想暂时把它叫作缓存数据流中心,就像如今物流中心那样,order、package、store、classification、distribute、end。如今还很流行的LAMP PHP架构 不知道和 redis+mysql 或者 redis + mongodb的性能比较(听群里的人说mongodb分片不稳定)。
先说说reidis的特性
1. 支持持久化
redis的本地持久化支持两种方式:RDB和AOF。RDB 在redis.conf配置文件里配置持久化触发器,AOF指的是redis每增长一条记录都会保存到持久化文件中(保存的是这条记录的生成命令),若是不是用redis作DB用的话还会不要开AOF ,数据太庞大了,重启恢复的时候是一个巨大的工程!
2.丰富的数据类型
redis 支持 String 、Lists、sets、sorted sets、hashes 多种数据类型,新浪微博会使用redis作nosql主要也是它具备这些类型,时间排序、职能排序、个人微博、发给个人这些功能List 和 sorted set 的强大操做功能息息相关
3.高性能
这点跟memcache很相像,内存操做的级别是毫秒级的比硬盘操做秒级操做天然高效很多,较少了磁头寻道、数据读取、页面交换这些高开销的操做!这也是NOSQL冒出来的缘由吧,应该是高性能是基于RDBMS的衍生产品,虽然RDBMS也具备缓存结构,可是始终在app层面不是咱们想要的那么操控的。
4.replication
redis提供主从复制方案,跟mysql同样增量复制并且复制的实现都很类似,这个复制跟AOF有点相似复制的是新增记录命令,主库新增记录将新增脚本发送给从库,从库根据脚本生成记录,这个过程很是快,就看网络了,通常主从都是在同一个局域网,因此能够说redis的主从近似及时同步,同事它还支持一主多从,动态添加从库,从库数量没有限制。 主从库搭建,我以为仍是采用网状模式,若是使用链式(master-slave-slave-slave-slave·····)若是第一个slave出现宕机重启,首先从master 接收数据恢复脚本,这个是阻塞的,若是主库数据几TB的状况恢复过程得花上一段时间,在这个过程当中其余的slave就没法和主库同步了。
5.更新快
这点好像从我接触到redis到目前为止 已经发了大版本就4个,小版本没算过。redis做者是个很是积极的人,不管是邮件提问仍是论坛发帖,他都能及时耐心的为你解答,维护度很高。有人维护的话,让咱们用的也省心和放心。目前做者对redis 的主导开发方向是redis的集群方向。
redis的安装
redis的安装其实仍是挺简单的,总的来讲就三步:下载tar包,解压tar包,安装。
不过最近我在2.6.7后用centos 5.5 32bit 时碰到一个安装问题,下面我就用图片分享下安装过程碰到的问题,在redis 文件夹内执行make时有个以下的错 undefined reference to '__sync_add_and_fetch_4'
上网找了了好多最后在 https://github.com/antirez/redis/issues/736 找到解决方案,write CFLAGS= -march=i686 on src/Makefile head!
记得要把刚安装失败的文件删除,从新解压新的安装文件,修改Makefile文件,再make安装。就不会发现原来那个错误了
关于redis的一些属性注释和基本类型操做在上一篇redis 的开胃菜有详细的说明,这里就再也不重复累赘了(实质是想偷懒 ,哈哈!)
最后,把memcache和redis放在一块儿不得不会让人想到二者的比较,谁快谁好用啊,群里面已经为这个事打架好久了,我就把我看到的在这里跟你们分享下。
在别人发了一个memcache性能比redis好不少后,redis 做者 antirez 发表了一篇博文,主要是说到如何给redis 和 memcache 作压力测试,文中讲到有我的说许多开源软件都应该丢进厕所,由于他们的压力测试脚本太2了,做者对这个说明了一番。redis vs memcache is definitely an apple to apple comparison。 呵呵,很明确吧,二者的比较是否是有点鸡蛋挑骨头的效果,做者在相同的运行环境作了三次测试取多好的值,获得的结果以下图:
须要申明的是这次测试在单核心处理的过程的数据,memcache是支持多核心多线程操做的(默认没开)因此在默认状况下上图具备参考意义,若然则memcache快于redis。那为何redis不支持多线程多核心处理呢?做者也发表了一下本身的见解,首先是多线程不变于bug的修复,实际上是不易软件的扩展,还有数据一致性问题由于redis全部的操做都是原子操做,做者用到一个词nightmare 噩梦,呵呵! 固然不支持多线程操做,确定也有他的弊端的好比性能想必必然差,做者从2.2版本后专一redis cluster的方向开发来缓解其性能上的弊端,说白了就是纵向不行,横向提升。