算法课笔记系列（七）—— 平摊分析Amortized Analysis

时间 2019-11-05

标签算法笔记系列平摊分析 amortized analysis 繁體版

原文原文链接

本周的内容是Amortized Analysis，是对算法复杂度的另外一种分析。它的基本概念是，给定一连串操做，大部分的操做是很是廉价的，有极少的操做可能很是昂贵，所以一个标准的最坏分析可能过于消极了。所以，其基本理念在于，当昂贵的操做特别少的时候，他们的成本可能会均摊到全部的操做上。若是人工均摊的花销仍然便宜的话，对于整个序列的操做咱们将有一个更加严格的约束。本质上，均摊分析就是在最坏的场景下，对于一连串操做给出一个更加严格约束的一种策略。算法

均摊分析与平均状况分析的区别在于，平均状况分析是平均全部的输入，好比，INSERTION SORT算法对于全部可能的输入在平均状况下表现性能不错就算它在某些输入下表现性能是很是差的。而均摊分析是平均操做，好比，TABLEINSERTION算法在全部的操做上平均表现性能很好尽管一些操做很是耗时。在均摊分析中，不涉及几率，而且保证在最坏状况下每个操做的平均性能。数组

有三类比较常见的均摊分析：数据结构

1.聚类分析：证实对全部的n，由n个操做所构成的序列的总时间在最坏状况下为T(n)，每个操做的平均成本为T(n)/n；好比栈的操做，对于一个空栈的入栈和出栈的操做函数

2.记帐方法：在平摊分析的记账方法中，决定每个操做的均摊成本，对不一样的操做赋予不一样的费用，某些操做的费用比它们的实际代价或多或少。咱们对一个操做的收费的数量称为平摊代价。当一个操做的平摊代价超过了它的实际代价时，二者的差值就被看成存款(credit)，并赋予数据结构中的一些特定对象，能够用来补偿那些平摊代价低于其实际代价的操做。这种方法与汇集分析不一样的是，对后者，全部操做都具备相同的平摊代价。数据结构中存储的总存款等于总的平摊代价和总的实际代价之差。注意：总存款不能是负的。在开始阶段对于过分要价存储预先支付的存款，在后面的序列中再支付操做。好比，二进制计数器: 经过二进制触发器计算一系列数字性能

3.势能方法：在平摊分析中，势能方法（potential method）不是将已预付的工做做为存在数据结构特定对象中存款来表示，而是将存款整体上表示成一种“势能”或“势”，它在须要时能够释放出来，以支付后面的操做。势是与整个数据结构而不是其中的个别对象发生联系的。好比，动态表，能够动态改变大小的连续存储数组。spa

1、聚类分析.net

在聚类分析中，对于一连串的n的操做，咱们计算总的最坏时间T(n). 在最坏状况下，每个操做的平均成本或者均摊成本是T(n)/n. 成本T(n)/n适用于每个操做（可能有几种类型的操做）。另外两种方法可能将不一样的均摊成本分配给不一样类型的操做。设计

好比，有MULTIPOP操做的栈。有两种基本的栈操做都分别花费O(1)的时间: PUSH(S,x)和POP(S)分别是将对象x压入栈中，从栈S的顶部弹出并返回弹出的对象。将每个操做的花销都赋为1. 一连串n个PUSH和POP操做的总消耗为n，对于n个操做的实际运行时间为O(n).对象

如今添加一个额外的栈操做MULTIPOP。MULTIPOP(S,k) 是弹出栈S的前k个对象（或者弹出整个栈若是k大于栈的大小的话）。blog

MULTIPOP的总消耗是min{|S|,k}.

如今考虑在一个初始为空的栈上的一序列n个POP，PUSH和MULTIPOP操做。算法伪代码以下：

下面为一个例子：

粗略地分析，MULTIPOP (S,k)将会花费O(n)的时间，所以，

在操做序列中，一些操做可能会很廉价，可是一些操做可能会很是昂贵耗时，好比MULTIPOP(S,k). 然而，最坏的操做每每不是常常被调用的。所以，传统的最坏的单一操做分析会给出过于消极的边界。

咱们的目标是，对于每个操做，咱们但愿可以赋予其一个均摊的成本来对实际的总的成本进行定界。对于n个操做的任意序列，咱们有

这里，是表示第i步的实际成本。

使用聚类分析使得有更加紧凑的边界分析，对于全部的操做都有相同的均摊成本.

观察得知，POP操做的数目必定小于或者等于PUSH操做的数目。所以，咱们能够获得：

所以，平均来看，MULTIPOP(S,k)这一步将花费O(1)而不是O(k)的时间。

这里来看另外一个例子，考虑一个从0开始计数的k位的二进制计数器。使用位的数组A[0,…, k-1]来记录计数。存储在计数器中的二进制数在A[0]有最低阶的位，在A[k-1]有最高阶的位，而且有

初始时，x=0, 对于i = 0,… k-1，都有A[i]=0

一个存储案例以下：

INCREMENT算法是用来在计数器中加1(2^k)到一个值上。

算法伪代码描述为：

考虑从0开始计数的n个操做的一个序列：

那么粗略计算，咱们能够获得T(n)<= kn，由于一个增长操做可能会改变全部的k位。

咱们使用聚类计数来紧凑分析的话，有基本的操做flip(1->0)和flip(0->1)

在n个INCREMENT操做的一个序列中，

A[0] 每一次INCREMENT被调用的时候都会flip，所以flip n次；

A[1] 每两次调用INCREMENT时flip，所以flip n/2次；（经过列中标记的黄色能够看出来规律）

…

A[i] flips 次.

所以，

每个操做的均摊成本为: O(n)/n =O(1).

2、记帐方法

记帐方法的基本思路为，对于每个有实际成本C_OP的操做OP而言，均摊成本被分配使得对于n个操做的任意序列，有

若是，那么额外的部分就能够被存储为预付的存款（credit），这笔存款能够在以后对于的操做时被用。这样的要求实质上是使得存款不会为负。

咱们回到有MULTIPOP操做的栈的问题，对于这样的栈，将均摊成本分配为：

其中，credit是栈中条目的数目。

从一个空栈开始，n1个PUSH，n2个POP和n3个MULTIPOP操做的任意序列最多的花销是，这里，n = n1 + n2 + n3.

须要注意的是，当有超过一种类型的操做时，每一种类型的操做可能被赋予不一样的均摊成本。

下面经过一个银行家的观点来看记帐方法。假如你正在租一个操做硬币的机器，而且根据操做的数量来收费。那么有两种支付方法：

A．对每一种实际的操做支付实际费用：好比PUSH支付1元，POP支付1元，MULTIPOP支付k元

B．开一个帐户，对每个操做支付平均费用：好比PUSH支付2元，POP支付0元，MULTIPOP支付0元

若是平均花销大于实际的费用，那么额外的将被存储为credit(存款)；若是平均成本小于实际的花费，那么credit将被用来支付实际的花费。这里的限制条件为：

对任意的n个操做，，也就是说，要保证在你的帐户中有足够的存款。

下面是一个例子：

对于以前的二进制计数器有同样的道理，赋予均摊成本为：

咱们能够观察到flip(0->1)的数目大于等于flip(1->0)，所以有

3、势能方法

势能方法是从一个物理学家的角度出发看问题，基本思路是有势，对于每个操做OP直接设置不是那么简单。所以，咱们定义一个势能函数做为桥梁，也就是，咱们将一个值赋给一个状态而不是赋给一个操做，这样，均摊成本就是基于势能函数来计算的。

定义势能函数为：其中S是状态集合。

均摊成本的设置为： ,所以咱们有

为了保证，足以确保

对于栈的例子，令表示栈中的条目的数目。实际上，咱们能够简单讲存款做为势能。这里状态Si表示在第i个操做以后栈的状态。对于任意的i，有。

所以，栈S的状态为：

那么势能函数的折线图表示为下图：

咱们以下定义：

所以，从一个空栈开始，n1个PUSH，n2个POP和n3个MULTIPOP操做的任意序列花费最多

，这里n = n1 + n2 + n3.

在二进制计数器中，在计数器中将设置为势能函数：

此时，势能函数的折线图表示为：

在计数器中将设置为势能函数，在第i步，flips Ci的数目为：

所以，咱们有

换句话说，从00…0开始，n个INCREMENT操做的一个序列最多花费2n时间。

下面考虑一个实际的问题：

假设如今咱们被要求开发一个C++的编译器。Vector是一个C++的类模板来存储一系列的对象。它支持一下操做：

a.push_back: 添加一个新的对象到末尾

b.pop-back：将最后一个对象弹出

注意vector使用一个连续的内存区域来存储对象。那么咱们该如何为vector设计一个有效的内存分配策略呢？

这就引出了动态表的问题。

在许多应用中，咱们不可以提早知道在一个表中要存储多少个对象。所以，咱们不得不对一个表分配必定空间，但最后发现其实不够用。下面引出两个概念：

动态扩展：当在一个全表中插入一个新的项时，这个表必须被从新成一个更大的表，原来表中的对象必须被拷贝到新表中。

动态收缩：类似的，若是从一个表中删除了许多的对象，那么这个表能够被从新分配成一个尺寸变小的新表。

咱们将给出一个内存分配策略使得插入和删除的均摊成本是O(1).，就算一个操做触发扩展或者收缩时其实际成本是较大的。

动态表扩展的例子：

考虑从一个空栈开始的操做的一个序列：

Overflow以后扩展表的操做：

粗略地分析，考虑这样的一个操做序列，若是咱们根据基本的插入和删除操做来定义成本，那么第i个操做的实际成本Ci是

这里的Ci = i是当表为满的时候，由于此时咱们须要插入一次，而且拷贝i-1项到新表中。

若是n个操做被执行了，那么一个操做的最坏状况下的成本将为O(n). 这样的话，对于总的n个操做的总运行时间为O(n^2)，并不如咱们须要的紧凑。

对于以上状况，咱们若是使用聚类分析：

首先观察到表的扩展是很是少的，由于在n个操做中表扩展不常发生，所以O(n^2)的边界并不紧凑。

特别的，表扩展发生在第i次操做，其中i-1刚好是2的幂。

所以，咱们能够将Ci分解为：

这样n个操做的总花费为：

所以，每个操做的均摊成本为3，换句话说，每个TABLEINSERT操做的平均成本为O(n)/n=O(1)

若是咱们使用记帐方法：

对于第i次操做，一个均摊成本被支出。这个费用被消耗到运行后面的操做。任何不是当即被消耗掉的数量将被存在一个“银行”用于以后的操做。

所以，对于第i个操做，$3被用在如下场合：

A.$1支付自身插入操做

B.$2存储为以后的表扩展，包括$1给拷贝最近的i/2项和$1给拷贝以前的i/2项

如图：

存款毫不会为负。换句话说，均摊成本的和给出了实际成本的和的一个上界。

若是咱们使用势能方法：

银行帐户能够被看作一个动态集合的势能函数。更加明确来讲，咱们但愿有一个这样性质的势能函数：

a.在一次扩展以后，

b.在一次扩展以前，，所以，下一次扩展能够经过势能支付。

一个可能的状况：

其折线图为:

初始时，而且很是容易验证当表老是至少半满的时候有。那么关于的成本被定义为：

这样的话，就是实际操做的一个上界了。

下面分的两种状况来计算：

Case-1：第i次插入不会触发一个扩展

此时， , 这里，numi表示第i次操做以后表项的数目，sizei表示表的大小，Ti表示势能。

Case-2：第i次操做触发了一个表的扩展

此时，

所以，从一个空表开始，一个n个TABLEINSERT操做的序列在最坏状况下花费O(n).

删除操做是相似的分析。

总的来讲，由于每个操做的均摊分析是被一个常数给界顶了，所以若是是从空表开始，在一个动态表上的任何n个TABLEINSERT和TABLEDELETE操做的序列的实际花销都是O(n).

均摊分析能够为数据结构性能提供一个清晰的抽象。当一个均摊分析被调用时，任何的分析方法均可以被使用，可是每一种方法都有一些是被有争议为最简单的状况。不一样的方法可能适用于不一样的均摊成本赋值，而且有时可能获得彻底不一样的界。