[pyMongo]insert_many的Bulkwrite实现机制

在SQL中,insert many的操做可能会出现插入数据量过大的问题。html

假设我构造了一个128M的insert语句,SQL或者driver是如何处理的?MySQL Driver对insert语句的数据量大小限制是多少?python

翻阅了相关的文档,并无发现明确的答案。mongodb

仅查到配置项中有一个insert_buffer的配置项,默认项是8M。数据库

猜想当insert语句中的数据过多,driver会循环处理数据,每当数据块达到8M时,会自动执行commit操做,进程suspend,等待数据库操做结束后,再继续读入数据。api

 

pyMongo对这个问题的操做解释的十分明确。app

pyMongo在实现BulkWrite操做时,会自动将数据划分红小块进行插入,避免插入数据过大的问题。htm

具体可看pyMongo对BulkWrite作的说明:http://api.mongodb.com/python/current/examples/bulk.htmlblog

"PyMongo will automatically split the batch into smaller sub-batches based on the maximum message size accepted by MongoDB, supporting very large bulk insert operations."进程

在网上看到有人将数据分块后进行循环插入,即:文档

buffer = []
for item in data:
    buffer.append(item)
    if len(buffer) == 20000:
        <mgoclient>.insert_many(buffer)
        buffer =[]  

我不肯定MongoDB自己在提供Driver API的时候有没有考虑buffer过大的处理问题。

不过若是使用pyMongo来链接Mongo的话,本身作数据拆分的步骤是多余的。

相关文章
相关标签/搜索