TCP的拥塞控制

时间 2019-12-13

原文原文链接

1.引言

计算机网络中的带宽、交换结点中的缓存和处理机等，都是网络的资源。在某段时间，若对网络中某一资源的需求超过了该资源所能提供的可用部分，网络的性能就会变坏。这种状况就叫作拥塞。算法

拥塞控制就是防止过多的数据注入网络中，这样可使网络中的路由器或链路不致过载。拥塞控制是一个全局性的过程，和流量控制不一样，流量控制指点对点通讯量的控制。缓存

2.慢开始与拥塞避免

发送方维持一个叫作拥塞窗口cwnd（congestion window）的状态变量。拥塞窗口的大小取决于网络的拥塞程度，而且动态地在变化。发送方让本身的发送窗口等于拥塞窗口，另外考虑到接受方的接收能力，发送窗口可能小于拥塞窗口。网络

慢开始算法的思路就是，不要一开始就发送大量的数据，先探测一下网络的拥塞程度，也就是说由小到大逐渐增长拥塞窗口的大小。dom

这里用报文段的个数的拥塞窗口大小举例说明慢开始算法，实时拥塞窗口大小是以字节为单位的。以下图：性能

固然收到单个确认但此确认多个数据报的时候就加相应的数值。因此一次传输轮次以后拥塞窗口就加倍。这就是乘法增加，和后面的拥塞避免算法的加法增加比较。大数据

为了防止cwnd增加过大引发网络拥塞，还需设置一个慢开始门限ssthresh状态变量。ssthresh的用法以下：spa

当cwnd<ssthresh时，使用慢开始算法。计算机网络

当cwnd>ssthresh时，改用拥塞避免算法。队列

当cwnd=ssthresh时，慢开始与拥塞避免算法任意。ip

拥塞避免算法让拥塞窗口缓慢增加，即每通过一个往返时间RTT就把发送方的拥塞窗口cwnd加1，而不是加倍。这样拥塞窗口按线性规律缓慢增加。

不管是在慢开始阶段仍是在拥塞避免阶段，只要发送方判断网络出现拥塞（其根据就是没有收到确认，虽然没有收到确承认能是其余缘由的分组丢失，可是由于没法断定，因此都当作拥塞来处理），就把慢开始门限设置为出现拥塞时的发送窗口大小的一半。而后把拥塞窗口设置为1，执行慢开始算法。以下图：

再次提醒这里只是为了讨论方便而将拥塞窗口大小的单位改成数据报的个数，实际上应当是字节。

3.快重传和快恢复

快重传要求接收方在收到一个失序的报文段后就当即发出重复确认（为的是使发送方及早知道有报文段没有到达对方）而不要等到本身发送数据时捎带确认。快重传算法规定，发送方只要一连收到三个重复确认就应当当即重传对方还没有收到的报文段，而没必要继续等待设置的重传计时器时间到期。以下图：

快重传配合使用的还有快恢复算法，有如下两个要点:

①当发送方连续收到三个重复确认时，就执行“乘法减少”算法，把ssthresh门限减半。可是接下去并不执行慢开始算法。

②考虑到若是网络出现拥塞的话就不会收到好几个重复的确认，因此发送方如今认为网络可能没有出现拥塞。因此此时不执行慢开始算法，而是将cwnd设置为ssthresh的大小，而后执行拥塞避免算法。以下图：

4.随机早期检测RED

以上的拥塞避免算法并无和网络层联系起来，实际上网络层的策略对拥塞避免算法影响最大的就是路由器的丢弃策略。在简单的状况下路由器一般按照先进先出的策略处理到来的分组。当路由器的缓存装不下分组的时候就丢弃到来的分组，这叫作尾部丢弃策略。这样就会致使分组丢失，发送方认为网络产生拥塞。更为严重的是网络中存在不少的TCP链接，这些链接中的报文段一般是复用路由路径。若发生路由器的尾部丢弃，可能影响到不少条TCP链接，结果就是这许多的TCP链接在同一时间进入慢开始状态。这在术语中称为全局同步。全局同步会使得网络的通讯量忽然降低不少，而在网络恢复正常以后，其通讯量又忽然增大不少。

为避免发生网路中的全局同步现象，路由器采用随机早期检测(RED:randomearly detection)。该算法要点以下：

使路由器的队列维持两个参数，即队列长队最小门限min和最大门限max，每当一个分组到达的时候，RED就计算平均队列长度。而后分状况对待到来的分组：

①平均队列长度小于最小门限——把新到达的分组放入队列排队。

②平均队列长度在最小门限与最大门限之间——则按照某一律率将分组丢弃。

③平均队列长度大于最大门限——丢弃新到达的分组。

以几率p随机丢弃分组，让拥塞控制只在个别的TCP链接上执行，于是避免全局性的拥塞控制。

RED的关键就是选择三个参数最小门限、最大门限、丢弃几率和计算平均队列长度。平均队列长度采用加权平均的方法计算平均队列长度，这和往返时间（RTT）的计算策略是同样的。

为了防止网络的拥塞现象，TCP提出了一系列的拥塞控制机制。最初由V. Jacobson在1988年的论文中提出的TCP的拥塞控制由“慢启动(Slow start)”和“拥塞避免(Congestion avoidance)”组成，后来TCP Reno版本中又针对性的加入了“快速重传(Fast retransmit)”、“快速恢复(Fast Recovery)”算法，再后来在TCP NewReno中又对“快速恢复”算法进行了改进，近些年又出现了选择性应答( selective acknowledgement,SACK)算法，还有其余方面的大大小小的改进，成为网络研究的一个热点。

TCP的拥塞控制主要原理依赖于一个拥塞窗口(cwnd)来控制，在以前咱们还讨论过TCP还有一个对端通告的接收窗口(rwnd)用于流量控制。窗口值的大小就表明可以发送出去的但尚未收到ACK的最大数据报文段，显然窗口越大那么数据发送的速度也就越快，可是也有越可能使得网络出现拥塞，若是窗口值为1，那么就简化为一个停等协议，每发送一个数据，都要等到对方的确认才能发送第二个数据包，显然数据传输效率低下。TCP的拥塞控制算法就是要在这二者之间权衡，选取最好的cwnd值，从而使得网络吞吐量最大化且不产生拥塞。

因为须要考虑拥塞控制和流量控制两个方面的内容，所以TCP的真正的发送窗口=min(rwnd, cwnd)。可是rwnd是由对端肯定的，网络环境对其没有影响，因此在考虑拥塞的时候咱们通常不考虑rwnd的值，咱们暂时只讨论如何肯定cwnd值的大小。关于cwnd的单位，在TCP中是以字节来作单位的，咱们假设TCP每次传输都是按照MSS大小来发送数据的，所以你能够认为cwnd按照数据包个数来作单位也能够理解，因此有时咱们说cwnd增长1也就是至关于字节数增长1个MSS大小。

慢启动：最初的TCP在链接创建成功后会向网络中发送大量的数据包，这样很容易致使网络中路由器缓存空间耗尽，从而发生拥塞。所以新创建的链接不可以一开始就大量发送数据包，而只能根据网络状况逐步增长每次发送的数据量，以免上述现象的发生。具体来讲，当新建链接时，cwnd初始化为1个最大报文段(MSS)大小，发送端开始按照拥塞窗口大小发送数据，每当有一个报文段被确认，cwnd就增长1个MSS大小。这样cwnd的值就随着网络往返时间(Round Trip Time,RTT)呈指数级增加，事实上，慢启动的速度一点也不慢，只是它的起点比较低一点而已。咱们能够简单计算下：

开始 ---> cwnd = 1

通过1个RTT后 ---> cwnd = 2*1 = 2

通过2个RTT后 ---> cwnd = 2*2= 4

通过3个RTT后 ---> cwnd = 4*2 = 8

若是带宽为W，那么通过RTT*log2W时间就能够占满带宽。

拥塞避免：从慢启动能够看到，cwnd能够很快的增加上来，从而最大程度利用网络带宽资源，可是cwnd不能一直这样无限增加下去，必定须要某个限制。TCP使用了一个叫慢启动门限(ssthresh)的变量，当cwnd超过该值后，慢启动过程结束，进入拥塞避免阶段。对于大多数TCP实现来讲，ssthresh的值是65536(一样以字节计算)。拥塞避免的主要思想是加法增大，也就是cwnd的值再也不指数级往上升，开始加法增长。此时当窗口中全部的报文段都被确认时，cwnd的大小加1，cwnd的值就随着RTT开始线性增长，这样就能够避免增加过快致使网络拥塞，慢慢的增长调整到网络的最佳值。

上面讨论的两个机制都是没有检测到拥塞的状况下的行为，那么当发现拥塞了cwnd又该怎样去调整呢？

首先来看TCP是如何肯定网络进入了拥塞状态的，TCP认为网络拥塞的主要依据是它重传了一个报文段。上面提到过，TCP对每个报文段都有一个定时器，称为重传定时器(RTO)，当RTO超时且尚未获得数据确认，那么TCP就会对该报文段进行重传，当发生超时时，那么出现拥塞的可能性就很大，某个报文段可能在网络中某处丢失，而且后续的报文段也没有了消息，在这种状况下，TCP反应比较“强烈”：

1.把ssthresh下降为cwnd值的一半

2.把cwnd从新设置为1

3.从新进入慢启动过程。

从总体上来说，TCP拥塞控制窗口变化的原则是AIMD原则，即加法增大、乘法减少。能够看出TCP的该原则能够较好地保证流之间的公平性，由于一旦出现丢包，那么当即减半退避，能够给其余新建的流留有足够的空间，从而保证整个的公平性。

其实TCP还有一种状况会进行重传：那就是收到3个相同的ACK。TCP在收到乱序到达包时就会当即发送ACK，TCP利用3个相同的ACK来断定数据包的丢失，此时进行快速重传，快速重传作的事情有：

1.把ssthresh设置为cwnd的一半

2.把cwnd再设置为ssthresh的值(具体实现有些为ssthresh+3)

3.从新进入拥塞避免阶段。

后来的“快速恢复”算法是在上述的“快速重传”算法后添加的，当收到3个重复ACK时，TCP最后进入的不是拥塞避免阶段，而是快速恢复阶段。快速重传和快速恢复算法通常同时使用。快速恢复的思想是“数据包守恒”原则，即同一个时刻在网络中的数据包数量是恒定的，只有当“老”数据包离开了网络后，才能向网络中发送一个“新”的数据包，若是发送方收到一个重复的ACK，那么根据TCP的ACK机制就代表有一个数据包离开了网络，因而cwnd加1。若是可以严格按照该原则那么网络中不多会发生拥塞，事实上拥塞控制的目的也就在修正违反该原则的地方。

具体来讲快速恢复的主要步骤是：

1.当收到3个重复ACK时，把ssthresh设置为cwnd的一半，把cwnd设置为ssthresh的值加3，而后重传丢失的报文段，加3的缘由是由于收到3个重复的ACK，代表有3个“老”的数据包离开了网络。

2.再收到重复的ACK时，拥塞窗口增长1。

3.当收到新的数据包的ACK时，把cwnd设置为第一步中的ssthresh的值。缘由是由于该ACK确认了新的数据，说明从重复ACK时的数据都已收到，该恢复过程已经结束，能够回到恢复以前的状态了，也即再次进入拥塞避免状态。

快速重传算法首次出如今4.3BSD的Tahoe版本，快速恢复首次出如今4.3BSD的Reno版本，也称之为Reno版的TCP拥塞控制算法。

能够看出Reno的快速重传算法是针对一个包的重传状况的，然而在实际中，一个重传超时可能致使许多的数据包的重传，所以当多个数据包从一个数据窗口中丢失时而且触发快速重传和快速恢复算法时，问题就产生了。所以NewReno出现了，它在Reno快速恢复的基础上稍加了修改，能够恢复一个窗口内多个包丢失的状况。具体来说就是：Reno在收到一个新的数据的ACK时就退出了快速恢复状态了，而NewReno须要收到该窗口内全部数据包的确认后才会退出快速恢复状态，从而更一步提升吞吐量。

SACK就是改变TCP的确认机制，最初的TCP只确认当前已连续收到的数据，SACK则把乱序等信息会所有告诉对方，从而减小数据发送方重传的盲目性。好比说序号1，2，3，5，7的数据收到了，那么普通的ACK只会确认序列号4，而SACK会把当前的5，7已经收到的信息在SACK选项里面告知对端，从而提升性能，当使用SACK的时候，NewReno算法能够不使用，由于SACK自己携带的信息就可使得发送方有足够的信息来知道须要重传哪些包，而不须要重传哪些包。