动态规划求解最长公共子序列

时间 2019-11-08

标签动态规划求解最长公共序列繁體版

原文原文链接

前言

推出一个新系列，《看图轻松理解数据结构和算法》，主要使用图片来描述常见的数据结构和算法，轻松阅读并理解掌握。本系列包括各类堆、各类队列、各类列表、各类树、各类图、各类排序等等几十篇的样子。mysql

最长公共子序列

最长公共子序列，英文为Longest Common Subsequence，缩写LCS。一个序列，若是是某两个或多个已知序列的最长子序列，则称为最长公共子序列。算法

另外，要注意的是最长公共子序列与最长公共子串不同，下面看一个例子就明白。sql

有序列S1和S2，其中S1=hello，S2=hero。那么最长公共子序列为heo，而最长公共子串为he。能够看到区别就在于一个容许不连续，一个要求必须连续，而共同特色就是都要保持顺序性。缓存

暴力穷举法

暴力穷举法是最简单粗暴且直观的解决方法，既然是暴力了那效率确定是最差。有和两个序列，穷举过程首先要枚举全部可能的子序列，对于序列X，它的子序列数量达到，所以这部分的时间复杂度达到。而每一个子序列去匹配序列Y的时间复杂度为，因此整个过程的时间复杂度为。也就是说暴力穷举法的时间复杂度达到指数级，而实际中序列长度可能较长，这时几乎没法使用该方法。网络

子序列的数量为什么是？某个序列的全部子序列能够当作是从某序列中移除若干个(0到m个)元素后组成的序列，好比ABC，移除0个元素时为{ABC}，移除1个元素时为{BC,AC,AB}，移除2个元素时为{C,B,A}，移除3个元素时为空。数据结构

暴力穷举大体步骤：并发

对于序列X，枚举全部子序列；
对第1步中每一个子序列匹配序列Y，记录匹配上的最长子序列；

动态规划

鉴于暴力穷举法的时间复杂度太大，须要另一种方法解决该问题，动态规划。通常在能用动态规划解决的问题须要符合三个特征：最优子结构、重叠子问题和无后效性。刚恰好，最长公共子序列问题符合动态规划特征，下面对该问题具体分析。机器学习

最优子结构

假设有和两个序列，记X、Y两个序列对应的最长公共子序列为，肯定的过程就是一个最优化问题。为了分析最优子结构，咱们须要从序列X与序列Y的最后一个元素开始。分两种状况：数据结构和算法

若是，即序列X与序列Y两个序列的最后一个元素相同，说明该元素必定是公共子序列的最后一个元素，此时原问题的状态转换公式为 $LCS(X_m,Y_n) =LCS(X_{m-1},Y_{n-1}) +X_m$ 。能够看到这种状况下，原问题已经成功分解成子问题，并且每一个阶段的最优解均可以经过子问题的最优解获得，符合最优子结构。学习
若是 $x_m \neq y_n$ ，即序列X与序列Y两个序列的最后一个元素不相同，此时须要考虑两种状况：
1. 假如不是最长公共子序列的最后一个元素，则问题的状态转换公式为 $LCS(X_m,Y_n) =LCS(X_{m-1},Y_{n})$ ，即从 $X_m=<x_1,x_2,…,x_{m-1}>$ 和两个序列中找。
2. 假如不是最长公共子序列的最后一个元素，则问题的状态转换公式为 $LCS(X_m,Y_n) =LCS(X_{m},Y_{n-1})$ ，即从和 $Y_n=<y_1,y_2,…,y_{n-1}>$ 两个序列中找。

以上，成功将原问题分解成子问题，并且子问题的最优解最终组成整个问题的最优解，也就是说该问题具有最优子结构性质。

重叠子问题

通过以上分析，咱们将原问题分解成三个子问题：

$LCS(X_m,Y_n) =LCS(X_{m-1},Y_{n-1}) +X_m$
$LCS(X_m,Y_n) =LCS(X_{m-1},Y_{n})$
$LCS(X_m,Y_n) =LCS(X_{m},Y_{n-1})$

从中能够看出来子问题是存在重叠的，好比对于 $LCS(X_{m-1},Y_{n})$ ，当序列 $X_{m-1}$ 与序列 $Y_{n}$ 的最后一个元素不相同时，子问题会继续分解成 $LCS(X_{m-2},Y_{n-1})$ 和 $LCS(X_{m-1},Y_{n-1})$ ，也就与前面的子问题 $LCS(X_m,Y_n) =LCS(X_{m-1},Y_{n-1}) +X_m$ 中的 $LCS(X_{m-1},Y_{n-1})$ 重叠了。

因此，原问题具有重叠子问题性质。