零基础学并查集算法

时间 2019-11-17

标签零基础算法繁體版

原文原文链接

并查集是我暑假从高手那里学到的一招，以为真是太精妙的设计了。之前我没法解决的一类问题居然能够用如此简单高效的方法搞定。不分享出来真是对不起party了。（party：我靠，关我嘛事啊？我跟你很熟么？）php

首先在地图上给你若干个城镇，这些城镇均可以看做点，而后告诉你哪些对城镇之间是有道路直接相连的。最后要解决的是整幅图的连通性问题。好比随意给你两个点，让你判断它们是否连通，或者问你整幅图一共有几个连通分支，也就是被分红了几个互相独立的块。像畅通工程这题，问还须要修几条路，实质就是求有几个连通分支。若是是1个连通分支，说明整幅图上的点都连起来了，不用再修路了；若是是2个连通分支，则只要再修1条路，从两个分支中各选一个点，把它们连起来，那么全部的点都是连起来的了；若是是3个连通分支，则只要再修两条路……c++

如下面这组数据输入数据来讲明算法

4 2 1 3 4 3编程

第一行告诉你，一共有4个点，2条路。下面两行告诉你，一、3之间有条路，四、3之间有条路。那么整幅图就被分红了1-3-4和2两部分。只要再加一条路，把2和其余任意一个点连起来，畅通工程就实现了，那么这个这组数据的输出结果就是1。好了，如今编程实现这个功能吧，城镇有几百个，路有不知道多少条，并且可能有回路。这可如何是好？数组

我之前也不会呀，自从用了并查集以后，嗨，效果还真好！咱们全家都用它！网络

并查集由一个整数型的数组和两个函数构成。数组pre[]记录了每一个点的前导点是什么，函数find是查找，join是合并。数据结构

int pre[1000 ];数据结构和算法

int find(int x) //查找根节点函数

{

int r=x;

while ( pre[r ] != r ) //返回根节点 r

r=pre[r ];

int i=x , j ;

while( i != r ) //路径压缩

{

j = pre[ i ]; // 在改变上级以前用临时变量 j 记录下他的值

pre[ i ]= r ; //把上级改成根节点

i=j;

}

return r ;

}

void join(int x,int y) //判断x y是否连通，

//若是已经连通，就不用管了 //若是不连通，就把它们所在的连通分支合并起,

{

int fx=find(x),fy=find(y);

if(fx!=fy)

pre[fx ]=fy;

}

为了解释并查集的原理，我将举一个更有爱的例子。话说江湖上散落着各式各样的大侠，有上千个之多。他们没有什么正当职业，成天背着剑在外面走来走去，碰到和本身不是一路人的，就免不了要打一架。但大侠们有一个优势就是讲义气，绝对不打本身的朋友。并且他们信奉“朋友的朋友就是个人朋友”，只要是能经过朋友关系串联起来的，无论拐了多少个弯，都认为是本身人。这样一来，江湖上就造成了一个一个的群落，经过两两之间的朋友关系串联起来。而不在同一个群落的人，不管如何都没法经过朋友关系连起来，因而就能够放心往死了打。可是两个本来互不相识的人，如何判断是否属于一个朋友圈呢？

咱们能够在每一个朋友圈内推举出一个比较有名望的人，做为该圈子的表明人物，这样，每一个圈子就能够这样命名“齐达内朋友之队”“罗纳尔多朋友之队”……两人只要互相对一下本身的队长是否是同一我的，就能够肯定敌友关系了。

可是还有问题啊，大侠们只知道本身直接的朋友是谁，不少人压根就不认识队长，要判断本身的队长是谁，只能漫无目的的经过朋友的朋友关系问下去：“你是否是队长？你是否是队长？”这样一来，队长面子上挂不住了，并且效率过低，还有可能陷入无限循环中。因而队长下令，从新组队。队内全部人实行分等级制度，造成树状结构，我队长就是根节点，下面分别是二级队员、三级队员。每一个人只要记住本身的上级是谁就好了。遇到判断敌友的时候，只要一层层向上问，直到最高层，就能够在短期内肯定队长是谁了。因为咱们关心的只是两我的之间是否连通，至于他们是如何连通的，以及每一个圈子内部的结构是怎样的，甚至队长是谁，并不重要。因此咱们能够听任队长随意从新组队，只要不搞错敌友关系就行了。因而，门派产生了。

http://i3.6.cn/cvbnm/6f/ec/f4/1e9cfcd3def64d26ed1a49d72c1f6db9.jpg

下面咱们来看并查集的实现。 int pre[1000]; 这个数组，记录了每一个大侠的上级是谁。大侠们从1或者0开始编号（依据题意而定），pre[15]=3就表示15号大侠的上级是3号大侠。若是一我的的上级就是他本身，那说明他就是掌门人了，查找到此为止。也有孤家寡人自成一派的，好比欧阳锋，那么他的上级就是他本身。每一个人都只认本身的上级。好比胡青牛同窗只知道本身的上级是杨左使。张无忌是谁？不认识！要想知道本身的掌门是谁，只能一级级查上去。 find这个函数就是找掌门用的，意义再清楚不过了（路径压缩算法先不论，后面再说）。

int find(int x) //查找我（x）的掌门

{

int r=x; //委托 r 去找掌门

while (pre[r ]!=r) //若是r的上级不是r本身（也就是说找到的大侠他不是掌门 = =）

r=pre[r ] ; // r 就接着找他的上级，直到找到掌门为止。

return r ; //掌门驾到~~~

}

再来看看join函数，就是在两个点之间连一条线，这样一来，原先它们所在的两个板块的全部点就均可以互通了。这在图上很好办，画条线就好了。但咱们如今是用并查集来描述武林中的情况的，一共只有一个pre[]数组，该如何实现呢？仍是举江湖的例子，假设如今武林中的形势如图所示。虚竹小和尚与周芷若MM是我很是喜欢的两我的物，他们的终极boss分别是玄慈方丈和灭绝师太，那明显就是两个阵营了。我不但愿他们互相打架，就对他俩说：“大家两位拉拉勾，作好朋友吧。”他们看在个人面子上，赞成了。这一赞成可非同小可，整个少林和峨眉派的人就不能打架了。这么重大的变化，可如何实现呀，要改动多少地方？其实很是简单，我对玄慈方丈说：“大师，麻烦你把你的上级改成灭绝师太吧。这样一来，两派原先的全部人员的终极boss都是师太，那还打个球啊！反正咱们关心的只是连通性，门派内部的结构没关系的。”玄慈一听确定火大了：“我靠，凭什么是我变成她手下呀，怎么不反过来？我抗议！”抗议无效，上天安排的，最大。反正谁加入谁效果是同样的，我就随手指定了一个。这段函数的意思很明白了吧？

void join(int x,int y) //我想让虚竹和周芷若作朋友

{

int fx=find(x),fy=find(y); //虚竹的老大是玄慈，芷若MM的老大是灭绝

if(fx!=fy) //玄慈和灭绝显然不是同一我的

pre[fx ]=fy; //方丈只好委委屈屈地当了师太的手下啦

}

再来看看路径压缩算法。创建门派的过程是用join函数两我的两我的地链接起来的，谁当谁的手下彻底随机。最后的树状结构会变成什么胎唇样，我也彻底没法预计，一字长蛇阵也有可能。这样查找的效率就会比较低下。最理想的状况就是全部人的直接上级都是掌门，一共就两级结构，只要找一次就找到掌门了。哪怕不能彻底作到，也最好尽可能接近。这样就产生了路径压缩算法。设想这样一个场景：两个互不相识的大侠碰面了，想知道能不能揍。因而赶忙打电话问本身的上级：“你是否是掌门？” 上级说：“我不是呀，个人上级是谁谁谁，你问问他看看。” 一路问下去，原来两人的最终boss都是东厂曹公公。 “哎呀呀，原来是记己人，西礼西礼，在下三营六组白面葫芦娃!” “幸会幸会，在下九营十八组仙子狗尾巴花！” 两人高高兴兴地手拉手喝酒去了。 “等等等等，两位同窗请留步，还有事情没完成呢！”我叫住他俩。 “哦，对了，还要作路径压缩。”两人醒悟。白面葫芦娃打电话给他的上级六组长：“组长啊，我查过了，其习偶们的掌门是曹公公。不如偶们一块儿及接拜在曹公公手下吧，免得级别过低，之后查找掌门麻环。” “唔，有道理。” 白面葫芦娃接着打电话给刚才拜访过的三营长……仙子狗尾巴花也作了一样的事情。这样，查询中全部涉及到的人物都汇集在曹公公的直接领导下。每次查询都作了优化处理，因此整个门派树的层数都会维持在比较低的水平上。路径压缩的代码，看得懂很好，看不懂也不要紧，直接抄上用就好了。总之它所实现的功能就是这么个意思。

http://i3.6.cn/cvbnm/60/98/92/745b3eac68181e4ee1fa8d1b8bca38bc.jpg

hdu1232

 1 #include<iostream>
 2 using namespace std;
 3 int  pre[1050];
 4 bool t[1050];               //t 用于标记独立块的根结点
 5 int Find(int x)
 6 {
 7     int r=x;
 8     while(r!=pre[r])
 9         r=pre[r];
10     
11     int i=x,j;
12     while(pre[i]!=r)
13     {
14         j=pre[i];
15         pre[i]=r;
16         i=j;
17     }
18     return r;
19 }
20 void mix(int x,int y)
21 {
22     int fx=Find(x),fy=Find(y);
23     if(fx!=fy)
24     {
25         pre[fy]=fx;
26     }
27 } 
28 int main()
29 {
30     int N,M,a,b,i,j,ans;
31     while(scanf("%d%d",&N,&M)&&N)
32     {
33         for(i=1;i<=N;i++)          //初始化 
34             pre[i]=i;
35         
36         for(i=1;i<=M;i++)          //吸取并整理数据 
37         {
38             scanf("%d%d",&a,&b);
39             mix(a,b);
40         }
41         memset(t,0,sizeof(t));
42         for(i=1;i<=N;i++)          //标记根结点
43         {
44             t[Find(i)]=1;
45         }
46         for(ans=0,i=1;i<=N;i++)
47             if(t[i])
48                 ans++;
49                 
50         printf("%d\n",ans-1);
51         
52     }
53     return 0;
54 }

//如下为原文附的代码:
//回到开头提出的问题，个人代码以下：
#include <bits/stdc++.h>
using namespace std;
int pre[1000];
int find(int x)
{
    int r=x;
   while (pre[r ]!=r)
   r=pre[r ];
   int i=x; int j;
   while(i!=r)
   {
       j=pre[i ];
       pre[i ]=r;
       i=j;
   }
   return r;
}
int main()
{
   int n,m,p1,p2,i,total,f1,f2;
   while(scanf("%d",&n) && n)         //读入n，若是n为0，结束
   {                                                    //刚开始的时候，有n个城镇，一条路都没有 //那么要修n-1条路才能把它们连起来
       total=n-1;
       //每一个点互相独立，自成一个集合，从1编号到n //因此每一个点的上级都是本身
       for(i=1;i<=n;i++) { pre[i ]=i; }                //共有m条路
       scanf("%d",&m);
       while(m--)
       { //下面这段代码，其实就是join函数，只是稍做改动以适应题目要求
           //每读入一条路，看它的端点p1，p2是否已经在一个连通分支里了
           scanf("%d %d",&p1,&p2);
           f1=find(p1);
           f2=find(p2);
               //若是是不连通的，那么把这两个分支连起来
               //分支的总数就减小了1，还需建的路也就减了1
           if(f1!=f2)
            {
               pre[f2 ]=f1;
               total--;
            }
           //若是两点已经连通了，那么这条路只是在图上增长了一个环 //对连通性没有任何影响，无视掉
      }
//最后输出还要修的路条数
       printf("%d\n",total);
   }
   return 0;
}

关于动态连通性

咱们看一张图来了解一下什么是动态连通性：

假设咱们输入了一组整数对，即上图中的(4, 3) (3, 8)等等，每对整数表明这两个points/sites是连通的。那么随着数据的不断输入，整个图的连通性也会发生变化，从上图中能够很清晰的发现这一点。同时，对于已经处于连通状态的points/sites，直接忽略，好比上图中的(8, 9)。

动态连通性的应用场景：

网络链接判断：

若是每一个pair中的两个整数分别表明一个网络节点，那么该pair就是用来表示这两个节点是须要连通的。那么为全部的pairs创建了动态连通图后，就可以尽量少的减小布线的须要，由于已经连通的两个节点会被直接忽略掉。

变量名等同性(相似于指针的概念)：

在程序中，能够声明多个引用来指向同一对象，这个时候就能够经过为程序中声明的引用和实际对象创建动态连通图来判断哪些引用其实是指向同一对象。

对问题建模：

在对问题进行建模的时候，咱们应该尽可能想清楚须要解决的问题是什么。由于模型中选择的数据结构和算法显然会根据问题的不一样而不一样，就动态连通性这个场景而言，咱们须要解决的问题多是：

给出两个节点，判断它们是否连通，若是连通，不须要给出具体的路径
给出两个节点，判断它们是否连通，若是连通，须要给出具体的路径

就上面两种问题而言，虽然只有是否可以给出具体路径的区别，可是这个区别致使了选择算法的不一样，本文主要介绍的是第一种状况，即不须要给出具体路径的Union-Find算法，而第二种状况可使用基于DFS的算法。

建模思路：

最简单而直观的假设是，对于连通的全部节点，咱们能够认为它们属于一个组，所以不连通的节点必然就属于不一样的组。随着Pair的输入，咱们须要首先判断输入的两个节点是否连通。如何判断呢？按照上面的假设，咱们能够经过判断它们属于的组，而后看看这两个组是否相同，若是相同，那么这两个节点连通，反之不连通。为简单起见，咱们将全部的节点以整数表示，即对N个节点使用0到N-1的整数表示。而在处理输入的Pair以前，每一个节点必然都是孤立的，即他们分属于不一样的组，可使用数组来表示这一层关系，数组的index是节点的整数表示，而相应的值就是该节点的组号了。该数组能够初始化为：

for(int i = 0; i < size; i++)  
    id[i] = i;

即对于节点i，它的组号也是i。

初始化完毕以后，对该动态连通图有几种可能的操做：

查询节点属于的组

数组对应位置的值即为组号

判断两个节点是否属于同一个组

分别获得两个节点的组号，而后判断组号是否相等

链接两个节点，使之属于同一个组

分别获得两个节点的组号，组号相同时操做结束，不一样时，将其中的一个节点的组号换成另外一个节点的组号

获取组的数目

初始化为节点的数目，而后每次成功链接两个节点以后，递减1

API

咱们能够设计相应的API：

注意其中使用整数来表示节点，若是须要使用其余的数据类型表示节点，好比使用字符串，那么能够用哈希表来进行映射，即将String映射成这里须要的Integer类型。

分析以上的API，方法connected和union都依赖于find，connected对两个参数调用两次find方法，而union在真正执行union以前也须要判断是否连通，这又是两次调用find方法。所以咱们须要把find方法的实现设计的尽量的高效。因此就有了下面的Quick-Find实现。

Quick-Find 算法：

 1 public class UF
 2 {
 3     private int[] id; // access to component id (site indexed)
 4     private int count; // number of components
 5     public UF(int N)
 6     {
 7         // Initialize component id array.
 8         count = N;
 9         id = new int[N];
10         for (int i = 0; i < N; i++)
11             id[i] = i;
12     }
13     public int count()
14     { return count; }
15     public boolean connected(int p, int q)
16     { return find(p) == find(q); }
17     public int find(int p)
18     { return id[p]; }
19     public void union(int p, int q)
20     { 
21         // 得到p和q的组号
22         int pID = find(p);
23         int qID = find(q);
24         // 若是两个组号相等，直接返回
25         if (pID == qID) return;
26         // 遍历一次，改变组号使他们属于一个组
27         for (int i = 0; i < id.length; i++)
28             if (id[i] == pID) id[i] = qID;
29         count--;
30     }
31 }

举个例子，好比输入的Pair是(5， 9)，那么首先经过find方法发现它们的组号并不相同，而后在union的时候经过一次遍历，将组号1都改为8。固然，由8改为1也是能够的，保证操做时都使用一种规则就行。

上述代码的find方法十分高效，由于仅仅须要一次数组读取操做就可以找到该节点的组号，可是问题随之而来，对于须要添加新路径的状况，就涉及到对于组号的修改，由于并不能肯定哪些节点的组号须要被修改，所以就必须对整个数组进行遍历，找到须要修改的节点，逐一修改，这一下每次添加新路径带来的复杂度就是线性关系了，若是要添加的新路径的数量是M，节点数量是N，那么最后的时间复杂度就是MN，显然是一个平方阶的复杂度，对于大规模的数据而言，平方阶的算法是存在问题的，这种状况下，每次添加新路径就是“牵一发而动全身”，想要解决这个问题，关键就是要提升union方法的效率，让它再也不须要遍历整个数组。

Quick-Union 算法：

考虑一下，为何以上的解法会形成“牵一发而动全身”？由于每一个节点所属的组号都是单独记录，各自为政的，没有将它们以更好的方式组织起来，当涉及到修改的时候，除了逐一通知、修改，别无他法。因此如今的问题就变成了，如何将节点以更好的方式组织起来，组织的方式有不少种，可是最直观的仍是将组号相同的节点组织在一块儿，想一想所学的数据结构，什么样子的数据结构可以将一些节点给组织起来？常见的就是链表，图，树，什么的了。可是哪一种结构对于查找和修改的效率最高？毫无疑问是树，所以考虑如何将节点和组的关系以树的形式表现出来。

若是不改变底层数据结构，即不改变使用数组的表示方法的话。能够采用parent-link的方式将节点组织起来，举例而言，id[p]的值就是p节点的父节点的序号，若是p是树根的话，id[p]的值就是p，所以最后通过若干次查找，一个节点老是可以找到它的根节点，即知足id[root] = root的节点也就是组的根节点了，而后就可使用根节点的序号来表示组号。因此在处理一个pair的时候，将首先找到pair中每个节点的组号(即它们所在树的根节点的序号)，若是属于不一样的组的话，就将其中一个根节点的父节点设置为另一个根节点，至关于将一颗独立的树编程另外一颗独立的树的子树。直观的过程以下图所示。可是这个时候又引入了问题。

在实现上，和以前的Quick-Find只有find和union两个方法有所不一样：

 1 private int find(int p)
 2 { 
 3     // 寻找p节点所在组的根节点，根节点具备性质id[root] = root
 4     while (p != id[p]) p = id[p];
 5     return p;
 6 }
 7 public void union(int p, int q)
 8 { 
 9     // Give p and q the same root.
10     int pRoot = find(p);
11     int qRoot = find(q);
12     if (pRoot == qRoot) 
13         return;
14     id[pRoot] = qRoot;    // 将一颗树(即一个组)变成另一课树(即一个组)的子树
15     count--;
16 }

树这种数据结构容易出现极端状况，由于在建树的过程当中，树的最终形态严重依赖于输入数据自己的性质，好比数据是否排序，是否随机分布等等。好比在输入数据是有序的状况下，构造的BST会退化成一个链表。在咱们这个问题中，也是会出现的极端状况的，以下图所示。

为了克服这个问题，BST能够演变成为红黑树或者AVL树等等。

然而，在咱们考虑的这个应用场景中，每对节点之间是不具有可比性的。所以须要想其它的办法。在没有什么思路的时候，多看看相应的代码可能会有一些启发，考虑一下Quick-Union算法中的union方法实现：

 1 public void union(int p, int q)
 2 { 
 3     // Give p and q the same root.
 4     int pRoot = find(p);
 5     int qRoot = find(q);
 6     if (pRoot == qRoot) 
 7         return;
 8     id[pRoot] = qRoot;  // 将一颗树(即一个组)变成另一课树(即一个组)的子树
 9     count--;
10 }

上面 id[pRoot] = qRoot 这行代码看上去彷佛不太对劲。由于这也属于一种“硬编码”，这样实现是基于一个约定，即p所在的树老是会被做为q所在树的子树，从而实现两颗独立的树的融合。那么这样的约定是否是老是合理的呢？显然不是，好比p所在的树的规模比q所在的树的规模大的多时，p和q结合以后造成的树就是十分不和谐的一头轻一头重的”畸形树“了。

因此咱们应该考虑树的大小，而后再来决定究竟是调用：

id[pRoot] = qRoot 或者是 id[qRoot] = pRoot

即老是size小的树做为子树和size大的树进行合并。这样就可以尽可能的保持整棵树的平衡。

因此如今的问题就变成了：树的大小该如何肯定？

咱们回到最初的情形，即每一个节点最一开始都是属于一个独立的组，经过下面的代码进行初始化：

for (int i = 0; i < N; i++)  
    id[i] = i;    // 每一个节点的组号就是该节点的序号

以此类推，在初始状况下，每一个组的大小都是1，由于只含有一个节点，因此咱们可使用额外的一个数组来维护每一个组的大小，对该数组的初始化也很直观：

    for (int i = 0; i < N; i++)  
        sz[i] = 1;    // 初始状况下，每一个组的大小都是1

而在进行合并的时候，会首先判断待合并的两棵树的大小，而后按照上面图中的思想进行合并，实现代码：

 1 public void union(int p, int q)
 2 {
 3     int i = find(p);
 4     int j = find(q);
 5     if (i == j) return;
 6     // 将小树做为大树的子树
 7     if (sz[i] < sz[j]) { id[i] = j; sz[j] += sz[i]; }
 8     else { id[j] = i; sz[i] += sz[j]; }
 9     count--;
10 }

Quick-Union 和 Weighted Quick-Union 的比较：

能够发现，经过sz数组决定如何对两棵树进行合并以后，最后获得的树的高度大幅度减少了。这是十分有意义的，由于在Quick-Union算法中的任何操做，都不可避免的须要调用find方法，而该方法的执行效率依赖于树的高度。树的高度减少了，find方法的效率就增长了，从而也就增长了整个Quick-Union算法的效率。

上图其实还能够给咱们一些启示，即对于Quick-Union算法而言，节点组织的理想状况应该是一颗十分扁平的树，全部的孩子节点应该都在height为1的地方，即全部的孩子都直接链接到根节点。这样的组织结构可以保证find操做的最高效率。

那么如何构造这种理想结构呢？

在find方法的执行过程当中，不是须要进行一个while循环找到根节点嘛？若是保存全部路过的中间节点到一个数组中，而后在while循环结束以后，将这些中间节点的父节点指向根节点，不就好了么？可是这个方法也有问题，由于find操做的频繁性，会形成频繁生成中间节点数组，相应的分配销毁的时间天然就上升了。那么有没有更好的方法呢？仍是有的，即将节点的父节点指向该节点的爷爷节点，这一点很巧妙，十分方便且有效，至关于在寻找根节点的同时，对路径进行了压缩，使整个树结构扁平化。相应的实现以下，实际上只须要添加一行代码：

 1     private int find(int p)  
 2     {  
 3         while (p != id[p])  
 4         {  
 5             // 将p节点的父节点设置为它的爷爷节点  
 6             id[p] = id[id[p]];  
 7             p = id[p];  
 8         }  
 9         return p;  
10     }

至此，动态连通性相关的Union-Find算法基本上就介绍完了，从容易想到的Quick-Find到相对复杂可是更加高效的Quick-Union，而后到对Quick-Union的几项改进，让咱们的算法的效率不断的提升。

这几种算法的时间复杂度以下所示：

Algorithm	Constructor	Union	Find
Quick-Find	N	N	1
Quick-Union	N	Tree height	Tree height
Weighted Quick-Union	N	lgN	lgN
Weighted Quick-Union With Path Compression	N	Very near to 1 (amortized)	Very near to 1 (amortized)

对大规模数据进行处理，使用平方阶的算法是不合适的，好比简单直观的Quick-Find算法，经过发现问题的更多特色，找到合适的数据结构，而后有针对性的进行改进，获得了Quick-Union算法及其多种改进算法，最终使得算法的复杂度下降到了近乎线性复杂度。

若是须要的功能不只仅是检测两个节点是否连通，还须要在连通时获得具体的路径，那么就须要用到别的算法了，好比DFS或者BFS。