QVector的内存分配策略

时间 2019-11-11

标签 qvector 内存分配策略繁體版

原文原文链接

咱们都知道 STL std::vector 做为动态数组在所分配的内存被填满时。假设继续加入数据，std::vector 会另外申请一个大小当前容量两倍的区域(假设 n > size 则申请 n+当前容量的空间)。而后把当前内容复制到新的内存，以达到动态扩容的效果：

   size_type
      _M_check_len(size_type __n, const char* __s) const
      {
        if (max_size() - size() < __n)
          __throw_length_error(__N(__s));

        const size_type __len = size() + std::max(size(), __n);
        return (__len < size() || __len > max_size()) ?
 max_size() : __len;
      }算法

最直观的方式是写个客户程序看看：

vector<int> ve(4, 8);
    cout << "size : " << ve.size() << " capacity : " << ve.capacity() << endl;

    for ( int i = 0; i < 14; ++i )
    {
        ve.push_back(9);
        ve.push_back(0);
        cout << "size : " << ve.size() << " capacity : " << ve.capacity() << endl;
    }

输出例如如下。capacity 每次扩张为以前容量的两倍：

类似的，Qt在其 QTL 中也实现了类似的QVector，为了更方便地服务为 Qt 应用服务。它提供了隐式共享。写时复制等机制。并同一时候提供了 Java Style 和 C++ Style 的接口，相同功能的接口也就是换了个名字而已：

inline void push_back(const T &t) { append(t); }

那么，在 QVector 所分配的内存被填满时。它的内存又是以何种方式扩充的呢？咱们可以在源代码中一探到底：

先看看 QVector::append()：

const bool isTooSmall = uint(d->size + 1) > d->alloc;
    if (!isDetached() || isTooSmall) {
        QArrayData::AllocationOptions opt(isTooSmall ?
 QArrayData::Grow : QArrayData::Default);
        reallocData(d->size, isTooSmall ? d->size + 1 : d->alloc, opt);
    }
数组

isDetached()调用一个引用计数，用来推断该QVector是否独立(未被隐式共享)。假设该 QVector 是被共享的。那么咱们此时想要在这个已被咱们“复制”的 QVector 上调用 append() 时，固然需要真正分配一段新的内存并在该内存上进行加入元素的操做。也就是所谓的“写时复制”。

isTooSmall 则告诉咱们当前szie加 1 以后是否超出了当前容量(d->alloc)，假设是相同需要调用 reallocData 開始申请内存。

由于内存分配多是由写时复制策略调用，所以依据 isTooSmall 參数的不一样。reallocData()的參数也不一样。app

QVector::reallocData()函数调用了QTypedArrayData::allocate()，前者运行了begin(),end()等指针的又一次指向，原内存释放等工做。后者实际调用了 QArrayData::allocate()，其函数原型为：

static QTypedArrayData *allocate(size_t capacity,
            AllocationOptions options = Default) Q_REQUIRED_RESULT
    {
        Q_STATIC_ASSERT(sizeof(QTypedArrayData) == sizeof(QArrayData));
        return static_cast<QTypedArrayData *>(QArrayData::allocate(sizeof(T),
                    Q_ALIGNOF(AlignmentDummy), capacity, options));
    }

这里的 Q_ALIGNOF(AlignmentDummy) 十分关键。AlignmentDummy是如下这种一个class：

class AlignmentDummy { QArrayData header; T data; };

QArrayData 是 Qt 所有连续型容器实际存放数据的地方。包括如下几个数据成员，也就是说。在32位机器上(如下以此为默认环境)，sizeof(QArrayData) 一般是16个字节长度：

QtPrivate::RefCount ref;
    int size;
    uint alloc : 31;
    uint capacityReserved : 1;

    qptrdiff offset; // in bytes from beginning of header

而 Q_ALIGNOF 在 gcc 下是 __alignof__ 的别名。而在MSVC下则为 __alignof。用来得到 AlignmentDummy 的内存对齐大小。由上面的数据成员可以知道 Q_ALIGNOF(QArrayData) 的值为4。当 Q_ALIGNOF(AlignmentDummy) 大于4 时。意味着该 QArrayData 的成员变量所占内存空间与实际 T 型数据间由于内存对齐将会存在间隙(padding)，所以咱们需要额外多申请 padding 的空间才干保证所有数据都可以被正确安放。

理解这一点后，咱们就可以来看看QArrayData::allocate()

QArrayData *QArrayData::allocate(size_t objectSize, size_t alignment,
        size_t capacity, AllocationOptions options)
{
    // 检測aligment是否为2的阶数倍
    Q_ASSERT(alignment >= Q_ALIGNOF(QArrayData)
            && !(alignment & (alignment - 1)));

    ...

    // 获取 QArrayData 类为空时的大小
    size_t headerSize = sizeof(QArrayData);

    // 申请额外的 alignment-Q_ALIGNOF(QArrayData)大小的 padding 字节数
    // 这样就能将数据放在合适的位置上
    if (!(options & RawData))
        headerSize += (alignment - Q_ALIGNOF(QArrayData));

    // 假设数组长度超出容量则申请新的内存
    if (options & Grow)
        capacity = qAllocMore(int(objectSize * capacity), int(headerSize)) / int(objectSize);

    //一共需要申请的字节数
    size_t allocSize = headerSize + objectSize * capacity;

    QArrayData *header = static_cast<QArrayData *>(::malloc(allocSize));
    if (header) {
        ...
    }

    return header;
}

qAllocMore() 实现在 qbyteArray.cpp 文件里，这个函数返回一个整型数，返回数据内容所需的字节数：

int qAllocMore(int alloc, int extra)
{
    Q_ASSERT(alloc >= 0 && extra >= 0);
    Q_ASSERT_X(alloc < (1 << 30) - extra, "qAllocMore", "Requested size is too large!");

    unsigned nalloc = alloc + extra;

    // Round up to next power of 2

    // Assuming container is growing, always overshoot
    //--nalloc;

    nalloc |= nalloc >> 1;
    nalloc |= nalloc >> 2;
    nalloc |= nalloc >> 4;
    nalloc |= nalloc >> 8;
    nalloc |= nalloc >> 16;
    ++nalloc;

    Q_ASSERT(nalloc > unsigned(alloc + extra));

    return nalloc - extra;
}

函数开头告诉咱们假设申请字节不能超过 2^30 - extra。注意这里的 extra 就是咱们在上面求到的 sizeof(QArrayData) + sizeof(padding)。

alloc是咱们存放实际数据区域的大小，nalloc即为咱们总共需要的新内存容量。函数

如下的几排移位算法假设你们眼熟的话应该知道获得的 nalloc 的新值为比其原值大的一个近期的 2 的阶乘数。比方输入20。通过最后一步 ++nalloc 操做后，nalloc将变成 32。

拨开云雾见青天的时候最终要到了，回到咱们最初的问题：QVector 在满容量以后继续插入，其内存增加策略怎样？

依照咱们前面所示。你们内心或许有了答案：QVector的所申请内存大小依照 2^n 增加，也就是 2, 4, 8, 16, 32...OK，写測试代码的时候到了：

    QVector<int> ve(2, 8);
    qDebug() << "size : " << ve.size() << " capacity : " << ve.capacity();

    for ( int i = 0; i < 20; ++i )
    {
        ve.append(9);
        qDebug() << "size : " << ve.size() << " capacity : " << ve.capacity();
    }

输入例如如下：

彷佛有些奇怪。容量（占用内存为 capacity * sizeof(int)）并不是 2 的 n 次方？还记得QArrayData类中的数据成员所占用的 sizeof(QArrayData) = 16 吗，正是这 16 个字节占用了咱们这个QVector<int>的 4 个容量。也就是说。这个QVector<int>实际的容量应该为：

现在咱们再考虑带有 padding 的状况，当咱们建立一个 QVector<quint64> 时，由于内存对齐的关系，QArrayData的数据成员与实际存储数据之间应该存在间隙，致使不可用的空间超过 16 字节：

可以看到，实际空间占用比容量大了 3*8 = 24bytes，当中 16bytes 为 headerSize，余下 8bytes 则为间隙了。

这样应该很是清晰了吧(●'◡'●)

那么，这个分配策略和 STL std::vector 的差别主要在哪呢，不也是每次翻倍吗？

使用int做为数组数据类型，直接给个输出结果哈：

相同向 100 个容量的满数组中加入一个数据，QVector扩容将申请 128*4 (124*4 数据容量 + 4*4个字节的headerSize) 个字节，而 std::vector 将申请 200*4 个字节。

可以预见，下次增加QVector将申请256*4个字节。而std::vector将申请400*4个字节。至于优劣。你们仁者见仁。智者见智咯。

就先到这里吧~