数据结构学习笔记：不相交集

Nightn 5月 09, 2017

不相交集（Disjoint Set）是一种用于解决等价问题的非常有效的数据结构，具有性能优越、实现简单等特点。本文介绍了等价问题、不相交集等概念，并叙述了 Union/Find 算法的实现与优化。

1. 等价关系

等价关系必须满足 3 个条件：

自反性：a 属于 S 集，a 与其本身等价；
对称性：a 等价 b，那么 b 等价 a；
传递性：a 等价 b， b 等价 c，那么 a 等价 c。

如电路连通 是一种等价关系；而 ≥ 不是等价关系，因为它满足自反性和传递性，但不满足对称性。

2. 动态等价问题

问题来了，我们如何用数据结构表示一个等价问题？

最容易想到的是二维数组，N 个元素的集，就需要 N X N 大小的二维数组来存放元素之间的等价关系，虽然这样在访问某两个元素是否等价的时候，通过常数时间即可完成。但我们考虑一个简单的例子，一个存放了 5 个元素的集 {a1, a2, a3, a4, a5}，为了表示这个集中各元素的等价关系，我们就需要构建一个 5 X 5 大小的二维数组，且不说这 O($N^2$) 的空间复杂度，这种表示法很难直接表示出等价关系的传递性，什么意思呢？假如 a1~a2, a3~a4, a5~a1, a4~a2, 根据等价性可以很直观的看出，这个集中的所有元素两两等价，但如果将这种等价关系存储在二维数组中，还能够这么直观的表示出来吗？

2.1 基础知识

在等价问题中，二维数组是不可行的。因此引入等价类的概念。

等价类 ：等价类是全集 S 的一个子集，一个等价类中的所有元素都满足等价关系。

有了等价类的概念，我们不需要再用二维数组表示元素之间是否等价了，而是通过判断两个元素是否属于同一个等价类，来判断它们是否等价。假设全集 S 中包含 N 个元素，且一开始这 N 个元素相互之间都不等价，即每一个元素都单独属于一个等价类。对于任意等价类 $S_i$ 和 $S_j$，都有 $S_i \bigcap S_j = \emptyset$，因此称整个 S 集为不相交集（Disjoint Set）。不相交集中允许两种运算：Find 和 Union。

Find

Find 接收一个给定的元素，返回该元素所属的等价类的名字。
Union

Union 是添加等价关系，比如添加等价关系 a~b，由等价关系的传递性可知，一旦添加了 a~b，那么 a, b所属等价类的所有元素都满足等价关系。即 a 所属的等价类和 b 所属的等价类合二为一。因此， Union 接收两个元素，首先分别找到这两个元素所属的等价类，若属于同一等价类，即 a 和 b 已经具有等价关系了，那么就不操作；若属于不同等价类，则将两个等价类合并为一个等价类。合并的方式有 Union-by-size 和 Union-by-height (rank) ，具体将在下文展开。

在前文中，我们引入了不相交集中等价类的概念，又介绍了不相交集中的两种运算 Find 和 Union，此外，我们还观察到：

判断两个元素是否等价，是根据它们是否属于同一个等价类，而不是比较它们的值。我们并不关心元素的值是什么（它仅仅起到区分元素的作用），因此，将不相交集中的所有元素编号 1 到 N，并按需排列。
等价类的名字不重要，重要的是能够进行比较即可。“等价类1”==“等价类1” 和 “阿猫等价类”==“阿猫等价类” 本质上没有任何区别。

2.2 一维数组

有了上面的基础知识后，是时候考虑用什么样的数据结构来实现不相交集了。首先想到的是一维数组，对于一个包含 N 个元素的不相交集 S，用一个大小为 N 的一维数组表示，数组的下标表示是哪一个元素，而存放的内容是该元素所属的等价类的名称。这样一来，Find 就是根据下标找数组存放的内容，时间复杂度为 $O(1)$，但是将两个等价类进行 Union 的话，则需要遍历整个数组，将对应的等价类名称进行修改，时间复杂度为 $O(N)$。

2.3 单链表

考虑将每一个等价类单独存放在一个链表中，这样一来，Union 就只需要将两个链表合并，Union 的时间复杂度为 $O(1)$，但是每次 Find 的话，就需要遍历所有链表。

3. 最基本的实现

我们将每一个等价类表示为一颗树，树的每个元素有相同的根，根就可以用来命名等价类。树中的每个元素都需要一个父指针，指向其父节点，指向 0 表示该元素就是根。用一维数组来表示不相交集。

#define NumSets 128
typedef int DisjSet[NumSets + 1];
typedef int SetType;
typedef int ElementType;

void Initialize(DisjSet S);
SetType Find(ElementType X, DisjSet S);
void SetUnion(DisjSet S, SetType root1, SetType root2);

//初始化不相交集
void Initialize(DisjSet S){
    for (int i = NumSets; i > 0; i--){
        S[i] = 0;
    }
}

初始化时，另所有的元素都指向 0，即每个元素都是根，并单独构成一棵树。Union 非常简单，只需要把一个树根作为另一个树根的根即可，在此，我们将 root2 连接到 root1 上：

// Stupid
void SetUnion(DisjSet S, SetType root1, SetType root2){
    S[root2] = root1;
}

至于 Find，给定一个元素，每次寻找它的父节点，直到找到该元素的根，即该元素所属的等价类，Find 可以用递归和迭代两种方式实现。

// Find by iteration
SetType Find(ElementType X, DisjSet S){
    while (S[X] > 0){
        X = S[X];
    }
    return X;
}

以上是不相交集的最基本实现。Find 的时间复杂度是 $O(h)$，其中 h 是树的深度，按照上述 Union，最坏情况树的深度会达到 N-1，即最坏情况下，Find 的时间复杂度是 $O(N)$。以下分别从 Union 和 Find 两个角度来改进基本实现。

4. 改进 Union

之前的 Union 非常笨拙，每次都是将 root2 作为 root1 的子树，考虑如下代码：

for (int i = 1; i < NumSets; i++){
        SetUnion(S, Find(i + 1, S), Find(i, S));
    }

通过一系列的 SetUnion，S 变成了一棵深度为 N-1 的树，最坏情况下，单次 Find 的时间复杂度为 $O(N)$。为了优化这一问题，提出 Union-by-size，即不再是简单的将后一棵树连到前一棵树，而是总将尺寸更小的树作为子树。为了追踪树的尺寸（即树包含的元素的个数），不再将树根的值设置为 0，而是将其设置为 -size。同样执行上述 Union 代码，改进前后 Union 对比：

实现代码如下：

//初始化不相交集
void Initialize(DisjSet S){
    for (int i = NumSets; i > 0; i--){
        S[i] = -1; // 初始化为-1，表示一开始每棵树都只有一个元素
    }
}

// Smart Union: Union-by-size
void SetUnion(DisjSet S, SetType root1, SetType root2){
    if (root1 > root2){        //root1作为子树
        S[root2] += S[root1];  //更新父树的size
        S[root1] = root2; 
    }
    else{                      //root2作为子树
        S[root1] += S[root2];  //更新父树的size
        S[root2] = root1;
    }
}

这样一来，所有树的深度都不会超过 $log N$，Find 的时间复杂度为 $O(log N)$ 。

另一种是 Union-by-height，只是对 Union-by-size 的简单修改，每次 Union 都将高度更小的树作为子树，同理，树根存放的是树高 height 的负值，实现代码也比较简单，便不再详述。

5. 改进 Find — 路径压缩

虽然机智地改进了 Union 的算法，但是最坏情况还是很容易发生。一方面，我们还想要进一步优化 Union/Find 算法，另一方面，Union 已经没有改进余地了，那怎么办？当然是改进 Find 了！限制算法性能的最大瓶颈是：在 Union 的过程中，树的平衡性很容易被打破。这样一来，树就很快倾向于最糟糕的情况，既然如此，那我们就在每次 Find 的时候调整树的平衡性，这种聪明的调整叫做路径压缩（Path Compression）。

假如我们执行 Find(X)，路径压缩的效果就是，从 X 到根节点这一路径上的每一个节点，我们都将它的父节点设置为根节点。修改 Find 函数如下：

// Find by recursion with path compression
SetType Find2(ElementType X, DisjSet S){
    if (S[X] <= 0){
        return X;
    }
    else{
        return S[X] = Find(S[X], S);
    }
}

值得注意的是，Path compression 和 Union-by-height 并不兼容，因为路径压缩会改变树的高度，这样导致每次重新计算树的高度都很麻烦，一个解决方案是，不去重新计算它。这样一来，每棵树存储的就不是它实际的高度了，而是估计的高度，我们称之为秩（Rank），这样一来，当你一看到 Union-by-rank ，就知道是怎么一回事了吧。