MongoDB学习【二】—MongoDB基础和数据类型

时间 2019-11-21

原文原文链接

1、MongoDB基础知识

在MongoDB中相关术语的解释和sql术语对应关系正则表达式

SQL术语/概念	MongoDB术语/概念	解释/说明
database	database	数据库
table	collection	数据库表/集合
row	document	数据记录行/文档
column	field	数据字段/域
index	index	索引
table joins		表链接,MongoDB不支持
primary key	primary key	主键,MongoDB自动将_id字段设置为主键

经过下图实例，咱们也能够更直观的了解Mongo中的一些概念sql

1.数据库

一个mongodb中能够创建多个数据库。mongodb

MongoDB的默认数据库为"db"，该数据库存储在data目录中。数据库

MongoDB的单个实例能够容纳多个独立的数据库，每个都有本身的集合和权限，不一样的数据库也放置在不一样的文件中。express

数据库相关操做

show databases  # 显示当前服务器上全部数据库

use database  # 使用某个数据库，若是不存在则建立

数据库也经过名字来标识。数据库名能够是知足如下条件的任意UTF-8字符串。数组

不能是空字符串（"")。服务器
不得含有' '（空格)、.、$、/、\和\0 (空字符)。数据结构
应所有小写。并发
最多64字节。分布式

有一些数据库名是保留的，能够直接访问这些有特殊做用的数据库。

admin：从权限的角度来看，这是"root"数据库。要是将一个用户添加到这个数据库，这个用户自动继承全部数据库的权限。一些特定的服务器端命令也只能从这个数据库运行，好比列出全部的数据库或者关闭服务器。
local: 这个数据永远不会被复制，能够用来存储限于本地单台服务器的任意集合
config: 当Mongo用于分片设置时，config数据库在内部使用，用于保存分片的相关信息。

2.文档（Document）

文档是MongoDB的核心概念。

文档是一组键值(key-value)对(即 BSON)。MongoDB 的文档不须要设置相同的字段，而且相同的字段不须要相同的数据类型，这与关系型数据库有很大的区别，也是 MongoDB 很是突出的特色。

须要注意的是：

文档中的键/值对是有序的。
文档中的值不只能够是在双引号里面的字符串，还能够是其余几种数据类型（甚至能够是整个嵌入的文档)。
MongoDB区分类型和大小写。
MongoDB的文档不能有重复的键。
文档的键是字符串。除了少数例外状况，键可使用任意UTF-8字符。

文档键命名规范：

键不能含有\0 (空字符)。这个字符用来表示键的结尾。
.和$有特别的意义，只有在特定环境下才能使用。
如下划线"_"开头的键是保留的(不是严格要求的)。

3.集合

集合就是 MongoDB 文档组，相似于 RDBMS （关系数据库管理系统：Relational Database Management System)中的表格。

若是将MongoDB中的一个文档比喻为关系型数据的一行，那么一个集合就是至关于一张表。

好比，咱们能够将如下不一样数据结构的文档插入到集合中：

{"site":"www.baidu.com"}
{"site":"www.google.com","name":"Google"}
{"site":"www.runoob.com","name":"菜鸟教程","num":5}

1.集合存在于数据库中，一般状况下为了方便管理，不一样格式和类型的数据应该插入到不一样的集合，但其实集合没有固定的结构，这意味着咱们彻底能够把不一样格式和类型的数据通通插入一个集合中。

2.组织子集合的方式就是使用“.”，分隔不一样命名空间的子集合。

好比一个具备博客功能的应用可能包含两个集合，分别是blog.posts和blog.authors，这是为了使组织结构更清晰，这里的blog集合（这个集合甚至不须要存在）跟它的两个子集合没有任何关系。

3.当第一个文档插入时，集合就会被建立。

合法的集合名：

集合名不能是空字符串""。
集合名不能含有\0字符（空字符)，这个字符表示集合名的结尾。
集合名不能以"system."开头，这是为系统集合保留的前缀。
用户建立的集合名字不能含有保留字符。有些驱动程序的确支持在集合名里面包含，这是由于某些系统生成的集合中包含该字符。除非你要访问这种系统建立的集合，不然千万不要在名字里出现$。

2、MongoDB数据类型

在概念上，MongoDB的文档与Javascript的对象相近，于是能够认为它相似于JSON。

下表为MongoDB中经常使用的几种数据类型。

数据类型	描述
String	字符串。存储数据经常使用的数据类型。在 MongoDB 中，UTF-8 编码的字符串才是合法的。
Integer	整型数值。用于存储数值。根据你所采用的服务器，可分为 32 位或 64 位。
Boolean	布尔值。用于存储布尔值（真/假）。
Double	双精度浮点值。用于存储浮点值。
Min/Max keys	将一个值与 BSON（二进制的 JSON）元素的最低值和最高值相对比。
Array	用于将数组或列表或多个值存储为一个键。
Timestamp	时间戳。记录文档修改或添加的具体时间。
Object	用于内嵌文档。
Null	用于建立空值。
Symbol	符号。该数据类型基本上等同于字符串类型，但不一样的是，它通常用于采用特殊符号类型的语言。
Date	日期时间。用 UNIX 时间格式来存储当前日期或时间。你能够指定本身的日期时间：建立 Date 对象，传入年月日信息。
Object ID	对象 ID。用于建立文档的 ID。
Binary Data	二进制数据。用于存储二进制数据。
Code	代码类型。用于在文档中存储 JavaScript 代码。
Regular expression	正则表达式类型。用于存储正则表达式。

1.ObjectId

ObjectId 相似惟一主键，能够很快的去生成和排序，包含 12 bytes，含义是：

前 4 个字节表示建立 unix 时间戳,格林尼治时间 UTC 时间，比北京时间晚了 8 个小时
接下来的 3 个字节是机器标识码
紧接的两个字节由进程 id 组成 PID
最后三个字节是随机数

MongoDB 中存储的文档必须有一个 _id 键。这个键的值能够是任何类型的，默认是个 ObjectId 对象

因为 ObjectId 中保存了建立的时间戳，因此你不须要为你的文档保存时间戳字段，你能够经过 getTimestamp 函数来获取文档的建立时间:

> var newObject = ObjectId()
> newObject.getTimestamp()
ISODate("2017-11-25T07:21:10Z")

ObjectId 转为字符串。

> newObject.str
5a1919e63df83ce79df8b38f

2.时间戳

BSON 有一个特殊的时间戳类型用于 MongoDB 内部使用，与普通的日期类型不相关。时间戳值是一个 64 位的值。其中：

前32位是一个 time_t 值（与Unix新纪元相差的秒数）
后32位是在某秒中操做的一个递增的序数

在单个 mongod 实例中，时间戳值一般是惟一的。

在复制集中， oplog 有一个 ts 字段。这个字段中的值使用BSON时间戳表示了操做时间。

BSON 时间戳类型主要用于 MongoDB 内部使用。在大多数状况下的应用开发中，你可使用 BSON 日期类型。

3.日期

表示当前距离 Unix新纪元（1970年1月1日）的毫秒数。日期类型是有符号的, 负数表示 1970 年以前的日期。

> var mydate1 = new Date()     //格林尼治时间
> mydate1
ISODate("2018-03-04T14:58:51.233Z")
> typeof mydate1
object
> var mydate2 = ISODate() //格林尼治时间
> mydate2
ISODate("2018-03-04T15:00:45.479Z")
> typeof mydate2
object

这样建立的时间是日期类型，可使用 JS 中的 Date 类型的方法。

返回一个时间类型的字符串：

> var mydate1str = mydate1.toString()
> mydate1str
Sun Mar 04 2018 14:58:51 GMT+0000 (UTC) 
> typeof mydate1str
string

或者

> Date()
Sun Mar 04 2018 15:02:59 GMT+0000 (UTC)

4.数据类型使用实例

#一、null：用于表示空或不存在的字段
d={'x':null}
#二、布尔型：true和false
d={'x':true,'y':false}
#三、数值
d={'x':3,'y':3.1415926}
#四、字符串
d={'x':'egon'}
#五、日期
d={'x':new Date()}
d.x.getHours()
#六、正则表达式
d={'pattern':/^egon.*?nb$/i}

正则写在／／内，后面的i表明:
i 忽略大小写
m 多行匹配模式
x 忽略非转义的空白字符
s 单行匹配模式

#七、数组
d={'x':[1,'a','v']}

#八、内嵌文档
user={'name':'egon','addr':{'country':'China','city':'YT'}}
user.addr.country

#九、对象id:是一个12字节的ID,是文档的惟一标识，不可变
d={'x':ObjectId()}

5._id和ObjectId

MongoDB中存储的文档必须有一个"_id"键。这个键的值能够是任意类型，默认是个ObjectId对象。
在一个集合里，每一个文档都有惟一的“_id”,确保集合里每一个文档都能被惟一标识。
不一样集合"_id"的值能够重复，但同一集合内"_id"的值必须惟一

#一、ObjectId
ObjectId是"_id"的默认类型。由于设计MongoDb的初衷就是用做分布式数据库，因此可以在分片环境中生成
惟一的标识符很是重要，而常规的作法：在多个服务器上同步自动增长主键既费时又费力，这就是MongoDB采用
ObjectId的缘由。
ObjectId采用12字节的存储空间，是一个由24个十六进制数字组成的字符串
    0|1|2|3|   4|5|6|     7|8    9|10|11    
    时间戳      机器      PID    计数器
若是快速建立多个ObjectId，会发现每次只有最后几位有变化。另外，中间的几位数字也会变化（要是在建立过程当中停顿几秒）。
这是ObjectId的建立方式致使的，如上图

时间戳单位为秒，与随后5个字节组合起来，提供了秒级的惟一性。这个4个字节隐藏了文档的建立时间，绝大多数驱动程序都会提供
一个方法，用于从ObjectId中获取这些信息。

由于使用的是当前时间，不少用户担忧要对服务器进行时钟同步。其实不必，由于时间戳的实际值并不重要，只要它老是不停增长就好。
接下来3个字节是所在主机的惟一标识符。一般是机器主机名的散列值。这样就能够保证不一样主机生成不一样的ObjectId，不产生冲突

接下来连个字节确保了在同一台机器上并发的多个进程产生的ObjectId是惟一的

前9个字节确保了同一秒钟不一样机器不一样进程产生的ObjectId是惟一的。最后3个字节是一个自动增长的 计数器。确保相同进程的同一秒产生的
ObjectId也是不同的。

#二、自动生成_id
若是插入文档时没有"_id"键，系统会自帮你建立 一个。能够由MongoDb服务器来作这件事。
但一般会在客户端由驱动程序完成。这一作法很是好地体现了MongoDb的哲学：能交给客户端驱动程序来作的事情就不要交给服务器来作。
这种理念背后的缘由是：即使是像MongoDB这样扩展性很是好的数据库，扩展应用层也要比扩展数据库层容易的多。将工做交给客户端作就
减轻了数据库扩展的负担。