关于MongoDB数据库的总结

既然要说MongoDB数据库,先引入NoSQL的概念。java

NoSQL:

NoSQL,指的是非关系型的数据库。NoSQL有时也称做Not Only SQL的缩写,是对不一样于传统的关系型数据库的数据库管理系统的统称。node

NoSQL用于超大规模数据的存储。(例如谷歌或Facebook天天为他们的用户收集万亿比特的数据)。这些类型的数据存储不须要固定的模式,无需多余操做就能够横向扩展。c++

为何使用NoSQL ?

今天咱们能够经过第三方平台(如:Google,Facebook等)能够很容易的访问和抓取数据。用户的我的信息,社交网络,地理位置,用户生成的数据和用户操做日志已经成倍的增长。咱们若是要对这些用户数据进行挖掘,那SQL数据库已经不适合这些应用了, NoSQL数据库的发展也却能很好的处理这些大的数据。
正则表达式

什么是MongoDB ?

  • MongoDB 是由C++语言编写的,是一个基于分布式文件存储的开源数据库系统。
  • 在高负载的状况下,添加更多的节点,能够保证服务器性能。
  • MongoDB 旨在为WEB应用提供可扩展的高性能数据存储解决方案。
  • MongoDB 将数据存储为一个文档,数据结构由键值(key=>value)对组成。MongoDB 文档相似于 JSON 对象。字段值能够包含其余文档,数组及文档数组。

主要特色:

  • MongoDB 是一个面向文档存储的数据库,操做起来比较简单和容易。
  • 你能够在MongoDB记录中设置任何属性的索引 (如:FirstName="Sameer",Address="8 Gandhi Road")来实现更快的排序。
  • 你能够经过本地或者网络建立数据镜像,这使得MongoDB有更强的扩展性。
  • 若是负载的增长(须要更多的存储空间和更强的处理能力) ,它能够分布在计算机网络中的其余节点上这就是所谓的分片。
  • Mongo支持丰富的查询表达式。查询指令使用JSON形式的标记,可轻易查询文档中内嵌的对象及数组。
  • MongoDb 使用update()命令能够实现替换完成的文档(数据)或者一些指定的数据字段 。
  • Mongodb中的Map/reduce主要是用来对数据进行批量处理和聚合操做。
  • Map和Reduce。Map函数调用emit(key,value)遍历集合中全部的记录,将key与value传给Reduce函数进行处理。Map函数和Reduce函数是使用Javascript编写的,并能够经过db.runCommand或mapreduce命令来执行MapReduce操做。
  • GridFS是MongoDB中的一个内置功能,能够用于存放大量小文件。
  • MongoDB容许在服务端执行脚本,能够用Javascript编写某个函数,直接在服务端执行,也能够把函数的定义存储在服务端,下次直接调用便可。
  • MongoDB支持各类编程语言:RUBY,PYTHON,JAVA,C++,PHP,C#等多种语言。
  • MongoDB安装简单。

语言支持

c c++ C# / .NET
Erlang Haskell java
JavaScript Lisp node.JS
Perl PHP Python
Ruby Scala

MongoDB 概念解析

无论咱们学习什么数据库都应该学习其中的基础概念,在mongodb中基本的概念是文档、集合、数据库,下面咱们挨个介绍。sql

  • 下表将帮助您更容易理解Mongo中的一些概念:
SQL术语/概念 MongoDB术语/概念 解释/说明
database database 数据库
table collection 数据库表/集合
row document 数据记录行/文档
column field 数据字段/域
index index 索引
table joins 表链接,MongoDB不支持
primary key primary key 主键,MongoDB自动将_id字段设置为主键

数据库:

一个mongodb中能够创建多个数据库。mongodb

MongoDB的默认数据库为"db",该数据库存储在data目录中。数据库

MongoDB的单个实例能够容纳多个独立的数据库,每个都有本身的集合和权限,不一样的数据库也放置在不一样的文件中。express

"show dbs" 命令能够显示全部数据的列表。
编程

执行 "db" 命令能够显示当前数据库对象或集合。
数组

运行"use"命令,能够链接到一个指定的数据库。

数据库也经过名字来标识。数据库名能够是知足如下条件的任意UTF-8字符串。

  • 不能是空字符串("")。
  • 不得含有' '(空格)、.、$、/、\和\0 (空字符)。
  • 应所有小写。
  • 最多64字节。

有一些数据库名是保留的,能够直接访问这些有特殊做用的数据库。

  • admin: 从权限的角度来看,这是"root"数据库。要是将一个用户添加到这个数据库,这个用户自动继承全部数据库的权限。一些特定的服务器端命令也只能从这个数据库运行,好比列出全部的数据库或者关闭服务器。
  • local: 这个数据永远不会被复制,能够用来存储限于本地单台服务器的任意集合
  • config: 当Mongo用于分片设置时,config数据库在内部使用,用于保存分片的相关信息。

文档:

文档是一组键值(key-value)对(即BSON)。MongoDB 的文档不须要设置相同的字段,而且相同的字段不须要相同的数据类型,这与关系型数据库有很大的区别,也是 MongoDB 很是突出的特色。

{"url":"https://www.baidu.com", "name":"百度"}

RDBMS 与 MongoDB 对应的术语:

RDBMS MongoDB
数据库 数据库
表格 集合
文档
字段
表联合 嵌入文档
主键 主键 (MongoDB 提供了 key 为 _id )

须要注意的是:

  1. 文档中的键/值对是有序的。
  2. 文档中的值不只能够是在双引号里面的字符串,还能够是其余几种数据类型(甚至能够是整个嵌入的文档)。
  3. MongoDB区分类型和大小写。
  4. MongoDB的文档不能有重复的键。
  5. 文档的键是字符串。除了少数例外状况,键可使用任意UTF-8字符。

集合:

集合就是 MongoDB 文档组,相似于 RDBMS (关系数据库管理系统:Relational Database Management System)中的表格。

集合存在于数据库中,集合没有固定的结构,这意味着你在对集合能够插入不一样格式和类型的数据,但一般状况下咱们插入集合的数据都会有必定的关联性。

{"site":"www.baidu.com"}
{"site":"www.google.com","name":"Google"}
{"site":"http://jikedaohang.com","name":"极客导航","num":5}
  • 当第一个文档插入时,集合就会被建立。

合法的集合名

  • 集合名不能是空字符串""。
  • 集合名不能含有\0字符(空字符),这个字符表示集合名的结尾。
  • 集合名不能以"system."开头,这是为系统集合保留的前缀。
  • 用户建立的集合名字不能含有保留字符。有些驱动程序的确支持在集合名里面包含,这是由于某些系统生成的集合中包含该字符。除非你要访问这种系统建立的集合,不然千万不要在名字里出现$。 

元数据:

数据库的信息是存储在集合中。它们使用了系统的命名空间:

dbname.system.*

在MongoDB数据库中名字空间 .system.* 是包含多种系统信息的特殊集合(Collection),以下:

集合命名空间 描述
dbname.system.namespaces 列出全部名字空间。
dbname.system.indexes 列出全部索引。
dbname.system.profile 包含数据库概要(profile)信息。
dbname.system.users 列出全部可访问数据库的用户。
dbname.local.sources 包含复制对端(slave)的服务器信息和状态。

对于修改系统集合中的对象有以下限制:

  • 在{{system.indexes}}插入数据,能够建立索引。但除此以外该表信息是不可变的(特殊的drop index命令将自动更新相关信息)。
  • {{system.users}}是可修改的。 {{system.profile}}是可删除的。

MongoDB 数据类型:

数据类型 描述
String 字符串。存储数据经常使用的数据类型。在 MongoDB 中,UTF-8 编码的字符串才是合法的。
Integer 整型数值。用于存储数值。根据你所采用的服务器,可分为 32 位或 64 位。
Boolean 布尔值。用于存储布尔值(真/假)。
Double 双精度浮点值。用于存储浮点值。
Min/Max keys 将一个值与 BSON(二进制的 JSON)元素的最低值和最高值相对比。
Array 用于将数组或列表或多个值存储为一个键。
Timestamp 时间戳。记录文档修改或添加的具体时间。
Object 用于内嵌文档。
Null 用于建立空值。
Symbol 符号。该数据类型基本上等同于字符串类型,但不一样的是,它通常用于采用特殊符号类型的语言。
Date 日期时间。用 UNIX 时间格式来存储当前日期或时间。你能够指定本身的日期时间:建立 Date 对象,传入年月日信息。
Object ID 对象 ID。用于建立文档的 ID。
Binary Data 二进制数据。用于存储二进制数据。
Code 代码类型。用于在文档中存储 JavaScript 代码。
Regular expression 正则表达式类型。用于存储正则表达式。

ObjectId

ObjectId 相似惟一主键,能够很快的去生成和排序,包含 12 bytes,含义是:

  • 前 4 个字节表示建立 unix 时间戳,格林尼治时间 UTC 时间,比北京时间晚了 8 个小时
  • 接下来的 3 个字节是机器标识码
  • 紧接的两个字节由进程 id 组成 PID
  • 最后三个字节是随机数

MongoDB 建立数据库:

use DATABASE_NAME
  • 若是数据库不存在,则建立数据库,不然切换到指定数据库。

MongoDB 中默认的数据库为 test,若是你没有建立新的数据库,集合将存放在 test 数据库中。

注意: 在 MongoDB 中,集合只有在内容插入后才会建立! 就是说,建立集合(数据表)后要再插入一个文档(记录),集合才会真正建立。

MongoDB 删除数据库:

db.dropDatabase()
  • 删除当前数据库,默认为 test,你可使用 db 命令查看当前数据库名。

MongoDB 建立集合:

db.createCollection(name, options)

参数说明:

  • name: 要建立的集合名称
  • options: 可选参数, 指定有关内存大小及索引的选项

options 能够是以下参数:

字段 类型 描述
capped 布尔 (可选)若是为 true,则建立固定集合。固定集合是指有着固定大小的集合,当达到最大值时,它会自动覆盖最先的文档。当该值为 true 时,必须指定 size 参数。
autoIndexId 布尔 (可选)如为 true,自动在 _id 字段建立索引。默认为 false。
size 数值 (可选)为固定集合指定一个最大值(以字节计)。若是 capped 为 true,也须要指定该字段。
max 数值 (可选)指定固定集合中包含文档的最大数量。
在插入文档时,MongoDB 首先检查固定集合的 size 字段,而后检查 max 字段。
在 test 数据库中建立 runoob 集合:
> use test
switched to db test
> db.createCollection("runoob")
{ "ok" : 1 }

若是要查看已有集合,可使用 show collections 命令:

> show collections
runoob
system.indexes

MongoDB 删除集合:

db.collection.drop()

MongoDB 插入文档:

MongoDB 使用 insert() 或 save() 方法向集合中插入文档,语法以下:

db.COLLECTION_NAME.insert(document)
db.col.insert({'title': '斯巴达克斯1',
        'actors': '未知',
        'type': '动做',
        '简介': '古罗马传记'})

MongoDB 更新文档:

  • MongoDB 使用 update() 和 save() 方法来更新集合中的文档。

update() 方法用于更新已存在的文档。
咱们在集合 col 中插入以下数据:

>db.col.insert({
    title: 'MongoDB 教程', 
    description: 'MongoDB 是一个 Nosql 数据库',
    url: 'http://www.runoob.com',
    tags: ['mongodb', 'database', 'NoSQL'],
    likes: 100
})

接着咱们经过 update() 方法来更新标题(title):

>db.col.update({'title':'MongoDB 教程'},{$set:{'title':'MongoDB'}})
WriteResult({ "nMatched" : 1, "nUpserted" : 0, "nModified" : 1 })   # 输出信息
> db.col.find().pretty()
{
        "_id" : ObjectId("56064f89ade2f21f36b03136"),
        "title" : "MongoDB",
        "description" : "MongoDB 是一个 Nosql 数据库",
        "url" : "http://www.runoob.com",
        "tags" : [
                "mongodb",
                "database",
                "NoSQL"
        ],
        "likes" : 100
}
>
  • 以上语句只会修改第一条发现的文档,若是你要修改多条相同的文档,则须要设置 multi 参数为 true。

save() 方法经过传入的文档来替换已有文档:

db.collection.save(
   <document>,
   {
     writeConcern: <document>
   }
)

MongoDB 删除文档:

MongoDB remove()函数是用来移除集合中的数据。
MongoDB数据更新可使用update()函数。在执行remove()函数前先执行find()命令来判断执行的条件是否正确,这是一个比较好的习惯。

如删除集合下所有文档:
db.inventory.deleteMany({})

删除 status 等于 A 的所有文档:
db.inventory.deleteMany({ status : "A" })

删除 status 等于 D 的一个文档:
db.inventory.deleteOne( { status: "D" } )

MongoDB 查询文档:

MongoDB 查询文档使用 find() 方法。

find() 方法以非结构化的方式来显示全部文档。

db.collection.find(query, projection)

若是你须要以易读的方式来读取数据,可使用 pretty() 方法:

db.col.find().pretty()

除了 find() 方法以外,还有一个 findOne() 方法,它只返回一个文档。

MongoDB 与 RDBMS Where 语句比较

操做 格式 范例 RDBMS中的相似语句
等于 { : } db.col.find({"by":"菜鸟教程"}).pretty() where by = '菜鸟教程'
小于 { :{$lt: }} db.col.find({"likes":{$lt:50}}).pretty() where likes < 50
小于或等于 { :{$lte: }} db.col.find({"likes":{$lte:50}}).pretty() where likes <= 50
大于 { :{$gt: }} db.col.find({"likes":{$gt:50}}).pretty() where likes > 50
大于或等于 { :{$gte: }} db.col.find({"likes":{$gte:50}}).pretty() where likes >= 50
不等于 { :{$ne: }} db.col.find({"likes":{$ne:50}}).pretty() where likes != 50

MongoDB 条件操做符:

条件操做符用于比较两个表达式并从mongoDB集合中获取数据。

MongoDB中条件操做符有:

  • (>) 大于 - $gt
  • (<) 小于 - $lt
  • (>=) 大于等于 - $gte
  • (<= ) 小于等于 - $lte

MongoDB $type 操做符:

$type操做符是基于BSON类型来检索集合中匹配的数据类型,并返回结果。

MongoDB 中可使用的类型以下表所示:

类型 数字 备注
Double 1
String 2
Object 3
Array 4
Binary data 5
Undefined 6 已废弃。
Object id 7
Boolean 8
Date 9
Null 10
Regular Expression 11
JavaScript 13
Symbol 14
JavaScript (with scope) 15
32-bit integer 16
Timestamp 17
64-bit integer 18
Min key 255 Query with -1.
Max key 127

MongoDB Limit与Skip方法:

若是你须要在MongoDB中读取指定数量的数据记录,可使用MongoDB的Limit方法,limit()方法接受一个数字参数,该参数指定从MongoDB中读取的记录条数。

>db.COLLECTION_NAME.find().limit(NUMBER)

咱们除了可使用limit()方法来读取指定数量的数据外,还可使用skip()方法来跳过指定数量的数据,skip方法一样接受一个数字参数做为跳过的记录条数。

>db.COLLECTION_NAME.find().limit(NUMBER).skip(NUMBER)

MongoDB sort() 方法:

在 MongoDB 中使用 sort() 方法对数据进行排序,sort() 方法能够经过参数指定排序的字段,并使用 1 和 -1 来指定排序的方式,其中 1 为升序排列,而 -1 是用于降序排列。

>db.COLLECTION_NAME.find().sort({KEY:1})
ngjie

niu***gjie@163.com

skip(), limilt(), sort()三个放在一块儿执行的时候,执行的顺序是先 sort(), 而后是 skip(),最后是显示的 limit()。

MongoDB 索引

索引一般可以极大的提升查询的效率,若是没有索引,MongoDB在读取数据时必须扫描集合中的每一个文件并选取那些符合查询条件的记录。

这种扫描全集合的查询效率是很是低的,特别在处理大量的数据时,查询能够要花费几十秒甚至几分钟,这对网站的性能是很是致命的。

索引是特殊的数据结构,索引存储在一个易于遍历读取的数据集合中,索引是对数据库表中一列或多列的值进行排序的一种结构

>db.collection.createIndex(keys, options)

在后台建立索引:
db.values.createIndex({open: 1, close: 1}, {background: true})

一、查看集合索引
db.col.getIndexes()

二、查看集合索引大小
db.col.totalIndexSize()

三、删除集合全部索引
db.col.dropIndexes()

四、删除集合指定索引
db.col.dropIndex("索引名称")

MongoDB 聚合:

MongoDB中聚合(aggregate)主要用于处理数据(诸如统计平均值,求和等),> 并返回计算后的数据结果。有点相似sql语句中的 count(*)。

aggregate() 方法

> db.mycol.aggregate([{$group : {_id : "$by_user", num_tutorial : {$sum : 1}}}])

一些聚合的表达式:

表达式 描述 实例
$sum 计算总和。 db.mycol.aggregate([{$group : {_id : "$by_user", num_tutorial : {$sum : "$likes"}}}])
$avg 计算平均值 db.mycol.aggregate([{$group : {_id : "$by_user", num_tutorial : {$avg : "$likes"}}}])
$min 获取集合中全部文档对应值得最小值。 db.mycol.aggregate([{$group : {_id : "$by_user", num_tutorial : {$min : "$likes"}}}])
$max 获取集合中全部文档对应值得最大值。 db.mycol.aggregate([{$group : {_id : "$by_user", num_tutorial : {$max : "$likes"}}}])
$push 在结果文档中插入值到一个数组中。 db.mycol.aggregate([{$group : {_id : "$by_user", url : {$push: "$url"}}}])
$addToSet 在结果文档中插入值到一个数组中,但不建立副本。 db.mycol.aggregate([{$group : {_id : "$by_user", url : {$addToSet : "$url"}}}])
$first 根据资源文档的排序获取第一个文档数据。 db.mycol.aggregate([{$group : {_id : "$by_user", first_url : {$first : "$url"}}}])
$last 根据资源文档的排序获取最后一个文档数据 db.mycol.aggregate([{$group : {_id : "$by_user", last_url : {$last : "$url"}}}])

管道的概念

管道在Unix和Linux中通常用于将当前命令的输出结果做为下一个命令的参数。

MongoDB的聚合管道将MongoDB文档在一个管道处理完毕后将结果传递给下一个管道处理。管道操做是能够重复的。

表达式:处理输入文档并输出。表达式是无状态的,只能用于计算当前聚合管道的文档,不能处理其它的文档。

表达式 操做
$project: 修改输入文档的结构。能够用来重命名、增长或删除域,也能够用于建立计算结果以及嵌套文档。
$match: 用于过滤数据,只输出符合条件的文档。$match使用MongoDB的标准查询操做。
$limit: 用来限制MongoDB聚合管道返回的文档数。
$skip: 在聚合管道中跳过指定数量的文档,并返回余下的文档。
$unwind: 将文档中的某一个数组类型字段拆分红多条,每条包含数组中的一个值。
$group: 将集合中的文档分组,可用于统计结果。
$sort: 将输入文档排序后输出。
$geoNear: 输出接近某一地理位置的有序文档。

MongoDB 备份(mongodump)与恢复(mongorestore)

MongoDB数据备份

  • 在Mongodb中咱们使用mongodump命令来备份MongoDB数据。该命令能够导出全部数据到指定目录中。
>mongodump -h dbhost -d dbname -o dbdirectory
  • -h:
    MongDB所在服务器地址,例如:127.0.0.1,固然也能够指定端口号:127.0.0.1:27017
  • -d:
    须要备份的数据库实例,例如:test
  • -o:
    备份的数据存放位置,例如:c:\data\dump,固然该目录须要提早创建,在备份完成后,系统自动在dump目录下创建一个test目录,这个目录里面存放该数据库实例的备份数据。

MongoDB数据恢复

  • mongodb使用 mongorestore 命令来恢复备份的数据。
>mongorestore -h <hostname><:port> -d dbname <path>
  • --host <:port>, -h <:port>:
    MongoDB所在服务器地址,默认为: localhost:27017
  • --db , -d :
    须要恢复的数据库实例,例如:test,固然这个名称也能够和备份时候的不同,好比test2
  • --drop:
    恢复的时候,先删除当前数据,而后恢复备份的数据。就是说,恢复后,备份后添加修改的数据都会被删除,慎用哦!

  • mongorestore 最后的一个参数,设置备份数据所在位置,例如:c:\data\dump\test。 你不能同时指定 和 --dir 选项,--dir也能够设置备份目录。
  • --dir:
    指定备份的目录 你不能同时指定 和 --dir 选项。