在Python应用中使用MongoDB

时间 2019-11-10

标签 python 应用使用 mongodb 栏目 Python 繁體版

原文原文链接

在这篇文章中，将向您展现如何使用Python连接目前主流的MongoDB(V3.4.0)数据库，主要使用PyMongo(v3.4.0)和MongoEngine(V0.10.7)。同时比较SQL和NoSQL。html

英文原文:https://realpython.com/blog/python/introduction-to-mongodb-and-pythonpython

一、SQL vs NoSQL

　　若是你不是很熟悉NoSQL这个概念，MongoDB就是一个NoSQL数据库。近几年来它愈来愈受到整个行业的欢迎。NoSQL数据库提供了一个和关系型数据库很是不一样的检索方式和存储数据功能。正则表达式

　　在NoSQL出现的几十年来，SQL数据库是开发者寻求构建大型、可扩展系统的惟一选择之一。然而，愈来愈多的需求要求存储复杂数据结构的能力。这推进了NoSQL数据库的诞生，它容许开发者存储异构和无结构的数据。redis

　　当到数据库方案选择时，大多数人都问本身最后一个问题，“SQL或NoSQL的？”。不管是SQL和NoSQL都有本身的长处和弱点，你应该选择适合您的应用需求中最好的之一。这里是二者之间的一些区别：mongodb

SQL

模型是关系型的；数据库
数据被存放在表中；apache
适用于每条记录都是相同类型并具备相同属性的状况；api
存储规范须要预约义结构；数组
添加新的属性意味着你必须改变总体架构；服务器
ACID事务支持；

NoSQL

模型是非关系型的;
能够存储Json、键值对等(决定于NoSQL数据库类型)；
并非每条记录都要有相同的结构；
添加带有新属性的数据时，不会影响其余；
支持ACID事务，根据使用的NoSQL的数据库而有所不一样；
一致性能够改变；
横向扩展；

　　在两种类型的数据库之间还有许多其余的区别，但上面提到的是一些更重要的区别。根据您的具体状况，使用SQL数据库多是首选，而在其余状况下，NoSQL的是更明显的选择。当选择一个数据库时，您应该谨慎考虑每一个数据库的优点和劣势。

　　NoSQL的一个好处是，有许多不一样类型的数据库可供选择，而且每一个都有本身的用例：

key-value存储：DynamoDB
文档存储：CouchDB，MongoDB，RethinkDB
列存储：Cassandra
数据结构: Redis，SSDB

　　还有不少，但这些是一些更常见的类型。近年来，SQL和NoSQL数据库甚至已经开始合并。例如，PostgreSQL如今支持存储和查询JSON数据，很像MongoDB。有了这个，你能够用Postgres实现MongoDB同样的功能，但你仍然没有MongoDB的其余优点（如横向扩容和简单的界面，等等）。

二、MongoDB

　　如今，让咱们将视线转移到本文的重点，并阐明的MongoDB的具体的一些状况。

　　MongoDB是一个面向文档的，开源数据库程序，它平台无关。MongoDB像其余一些NoSQL数据库（但不是所有！）使用JSON结构的文档存储数据。这是使得数据很是灵活，不须要的Schema。

　　一些比较重要的特色是：

支持多种标准查询类型，好比matching()、comparison (, )或者正则表达式；
能够存储几乎任何类型的数据，不管是结构化，部分结构化，甚至是多态；
要扩展和处理更多查询，只需添加更多的机器；
它是高度灵活和敏捷，让您可以快速开发应用程序；
做为基于文档的数据库意味着您能够在单个文档中存储有关您的模型的全部信息；
您能够随时更改数据库的Schema;
许多关系型数据库的功能也能够在MongoDB使用（如索引）。

　　在运行方面，MongoDB中有至关多的功能在其余数据库中是没有的:

不管您须要独立服务器仍是完整的独立服务器集群，MongoDB均可以根据须要进行扩展;
MongoDB还经过在各个分片上自动移动数据来提供负载均衡支持；
它具备自动故障转移支持，若是主服务器Down掉，新的主服务器将自动启动并运行；
MongoDB的管理服务（MMS）能够用于监控和备份MongoDB的基础设施服务；
不像关系数据库，因为内存映射文件，你将节省至关多的RAM。

　　虽然起初MongoDB彷佛是解决咱们许多问题的数据库，但它不是没有缺点的。MongoDB的一个常见缺点是缺乏对ACID事务的支持，MongoDB在特定场景下支持ACID事务，但不是在全部状况。在单文档级别，支持ACID事务（这是大多数事务发生的地方）。可是，因为MongoDB的分布式性质，不支持处理多个文档的事务。

　　MongoDB还缺乏对天然join查询支持。在MongoDB看来：文档意在一应俱全，这意味着，通常来讲，它们不须要参考其余文档。在现实世界中，这并不老是有效的，由于咱们使用的数据是关系性的。所以，许多人认为MongoDB应该被用做一个SQL数据库的补充数据库，可是当你使用MongoDB是，你会发现这是错误的。

三、PyMongo

　　如今咱们已经描述了MongoDB的是什么，让咱们来看看如何在Python中实际使用它。由MongoDB开发者发布的官方驱动程序PyMongo，这里经过一些例子介绍，但你也应该查看完整的文档，由于咱们没法面面俱到。

　　固然第一件事就是安装，最简单的方式就是pip：

pip install pymongo==3.4.0

注:有关更全面的指南，请查看文档的安装/升级页面，并按照其中的步骤进行设置

　　完成设置后，启动的Python控制台并运行如下命令：

>>> import pymongo

　　若是没有提出任何异常就说明安装成功了

创建链接

　　使用MongoClient对象创建链接：

from pymongo import MongoClient
client = MongoClient()

　　使用上面的代码片断，将创建链接到默认主机（localhost）和端口（27017）。您还能够指定主机和/或使用端口：

client = MongoClient('localhost', 27017)

　　或者使用MongoURl格式：

client = MongoClient('mongodb://localhost:27017')

访问数据库

　　一旦你有一个链接的MongoClient实例，你能够在Mongo服务器中访问任何数据库。若是要访问一个数据库，你能够看成属性同样访问：

db = client.pymongo_test

　　或者你也可使用字典形式的访问：

db = client['pymongo_test']

　　若是您的指定数据库已建立，实际上并不重要。经过指定此数据库名称并将数据保存到其中，您将自动建立数据库。

插入文档

　　在数据库中存储数据，就如同调用只是两行代码同样容易。第一行指定你将使用哪一个集合。在MongoDB中术语中，一个集合是在数据库中存储在一块儿的一组文档(至关于SQL的表)。集合和文档相似于SQL表和行。第二行是使用集合插入数据insert_one()的方法：

posts = db.posts
post_data = {
    'title': 'Python and MongoDB',
    'content': 'PyMongo is fun, you guys',
    'author': 'Scott'
}
result = posts.insert_one(post_data)
print('One post: {0}'.format(result.inserted_id))

　　咱们甚至可使用insert_one()同时插入不少文档，若是你有不少的文档添加到数据库中，可使用方法insert_many()。此方法接受一个list参数：

post_1 = {
    'title': 'Python and MongoDB',
    'content': 'PyMongo is fun, you guys',
    'author': 'Scott'
}
post_2 = {
    'title': 'Virtual Environments',
    'content': 'Use virtual environments, you guys',
    'author': 'Scott'
}
post_3 = {
    'title': 'Learning Python',
    'content': 'Learn Python, it is easy',
    'author': 'Bill'
}
new_result = posts.insert_many([post_1, post_2, post_3])
print('Multiple posts: {0}'.format(new_result.inserted_ids))

　　你应该看到相似输出：

One post: 584d947dea542a13e9ec7ae6
Multiple posts: [
    ObjectId('584d947dea542a13e9ec7ae7'),
    ObjectId('584d947dea542a13e9ec7ae8'),
    ObjectId('584d947dea542a13e9ec7ae9')
]

注意: 不要担忧，你和上面显示不同。它们是在插入数据时，由Unix的纪元，机器标识符和其余惟一数据组成的动态标识。

检索文档

　　检索文档可使用find_one()方法，好比要找到author为Bill的记录:

bills_post = posts.find_one({'author': 'Bill'})
print(bills_post)

运行结果:
{
    'author': 'Bill',
    'title': 'Learning Python',
    'content': 'Learn Python, it is easy',
    '_id': ObjectId('584c4afdea542a766d254241')
}

　　您可能已经注意到，这篇文章的ObjectId是设置的_id，这是之后可使用惟一标识。若是须要查询多条记录可使用find()方法：

scotts_posts = posts.find({'author': 'Scott'})
print(scotts_posts)

结果:
<pymongo.cursor.Cursor object at 0x109852f98>

　　他的主要区别在于文档数据不是做为数组直接返回给咱们。相反，咱们获得一个游标对象的实例。这Cursor是一个包含至关多的辅助方法，以帮助您处理数据的迭代对象。要得到每一个文档，只需遍历结果：

for post in scotts_posts:
    print(post)

四、MongoEngine

　　虽然PyMongo是很是容易使用，整体上是一个伟大的轮子，可是许多项目使用它均可能过低水平。简而言之，你必须编写不少本身的代码来持续地保存，检索和删除对象。PyMongo之上提供了一个更高的抽象一个库是MongoEngine。MongoEngine是一个对象文档映射器（ODM），它大体至关于一个基于SQL的对象关系映射器（ORM）。MongoEngine提供的抽象是基于类的，因此你建立的全部模型都是类。虽然有至关多的Python的库能够帮助您使用MongoDB，MongoEngine是一个更好的，由于它有一个很好的组合的功能，灵活性和社区支持。

　　使用pip安装:

pip install mongoengine==0.10.7

　　链接:

from mongoengine import *
connect('mongoengine_test', host='localhost', port=27017)

　　
　　和pymongo不一样。MongoEngine须要制定数据库名称。

定义文档

　　创建文档以前，须要定义文档中要存放数据的字段。与许多其余ORM相似，咱们将经过继承Document类，并提供咱们想要的数据类型来作到这一点：

import datetime

class Post(Document):
    title = StringField(required=True, max_length=200)
    content = StringField(required=True)
    author = StringField(required=True, max_length=50)
    published = DateTimeField(default=datetime.datetime.now)

　　在这个简单的模型中，咱们已经告诉MongoEngine，咱们的Post实例有title、content、author、published。如今Document对象可使用该信息来验证咱们提供它的数据。

　　所以，若是咱们试图保存Post的中没有title那么它会抛出一个Exception，让咱们知道。咱们甚至能够进一步利用这个并添加更多的限制：

required：设置必须；
default：若是没有其余值给出使用指定的默认值
unique：确保集合中没有其余document有此字段的值相同
choices：确保该字段的值等于数组中的给定值之一

保存文档

　　将文档保存到数据库中，咱们将使用save()的方法。若是文档中的数据库已经存在，则全部的更改将在原子水平上对现有的文档进行。若是它不存在，可是，那么它会被建立。

　　这里是建立和保存一个文档的例子：

post_1 = Post(
    title='Sample Post',
    content='Some engaging content',
    author='Scott'
)
post_1.save()       # This will perform an insert
print(post_1.title)
post_1.title = 'A Better Post Title'
post_1.save()       # This will perform an atomic edit on "title"
print(post_1.title)

　　调用save()的时候须要注意几点:

PyMongo将在您调用.save（）时执行验证，这意味着它将根据您在类中声明的模式检查要保存的数据，若是违反模式（或约束），则抛出异常而且不保存数据；
因为Mongo不支持真正的事务，所以没有办法像在SQL数据库中那样“回滚”.save（）调用。

　　当你保存的数据没有title时:

post_2 = Post(content='Content goes here', author='Michael')
post_2.save()

raise ValidationError(message, errors=errors)
mongoengine.errors.ValidationError:
ValidationError (Post:None) (Field is required: ['title'])

向对象的特性

　　使用MongoEngine是面向对象的，你也能够添加方法到你的子类文档。例以下面的示例，其中函数用于修改默认查询集（返回集合的全部对象）。经过使用它，咱们能够对类应用默认过滤器，并只获取所需的对象

class Post(Document):
    title = StringField()
    published = BooleanField()

    @queryset_manager
    def live_posts(clazz, queryset):
        return queryset.filter(published=True)

关联其余文档

　　您还可使用ReferenceField对象来建立从一个文档到另外一个文档的引用。MongoEngine在访问时自动惰性处理引用。

class Author(Document):
    name = StringField()

class Post(Document):
    author = ReferenceField(Author)

Post.objects.first().author.name

　　在上面的代码中，使用文档”外键”，咱们能够很容易地找到第一篇文章的做者。其实还有比这里介绍的更多的字段类（和参数），因此必定要查看文档字段更多信息。
　　
从全部这些示例中，您应该可以看到，MongoEngine很是适合管理几乎任何类型的应用程序的数据库对象。这些功能使得建立一个高效可扩展程序变得很是容易。若是你正在寻找更多关于MongoEngine的帮助，请务必查阅他们的用户指南。