寻找两个有序数组中的中位数

1.题目描述算法

给定两个大小为 m 和 n 的有序数组 nums1 和 nums2。

请你找出这两个有序数组的中位数,而且要求算法的时间复杂度为 O(log(m + n))。

你能够假设 nums1 和 nums2 不会同时为空。

示例 1:

nums1 = [1, 3]
nums2 = [2]

则中位数是 2.0
示例 2:

nums1 = [1, 2]
nums2 = [3, 4]

则中位数是 (2 + 3)/2 = 2.5

2.问题解析数组

方法:递归法

为了解决这个问题,咱们须要理解“中位数的做用是什么”。在统计中,中位数被用来:

将一个集合划分为两个长度相等的子集,其中一个子集中的元素老是大于另外一个子集中的元素。
若是理解了中位数的划分做用,咱们就很接近答案了。

首先,让咱们在任一位置 ii 将 \text{A}A 划分红两个部分:

          left_A             |        right_A
    A[0], A[1], ..., A[i-1]  |  A[i], A[i+1], ..., A[m-1]
因为 \text{A}A 中有 mm 个元素, 因此咱们有 m+1m+1 种划分的方法(i = 0 \sim mi=0∼m)。

咱们知道:

\text{len}(\text{left\_A}) = i, \text{len}(\text{right\_A}) = m - ilen(left_A)=i,len(right_A)=m−i.

注意:当 i = 0i=0 时,\text{left\_A}left_A 为空集, 而当 i = mi=m 时, \text{right\_A}right_A 为空集。
采用一样的方式,咱们在任一位置 jj 将 \text{B}B 划分红两个部分:


          left_B             |        right_B
    B[0], B[1], ..., B[j-1]  |  B[j], B[j+1], ..., B[n-1]
将 \text{left\_A}left_A 和 \text{left\_B}left_B 放入一个集合,并将 \text{right\_A}right_A 和 \text{right\_B}right_B 放入另外一个集合。 再把这两个新的集合分别命名为 \text{left\_part}left_part 和 \text{right\_part}right_part:

          left_part          |        right_part
    A[0], A[1], ..., A[i-1]  |  A[i], A[i+1], ..., A[m-1]
    B[0], B[1], ..., B[j-1]  |  B[j], B[j+1], ..., B[n-1]
若是咱们能够确认:

\text{len}(\text{left\_part}) = \text{len}(\text{right\_part})len(left_part)=len(right_part)
\max(\text{left\_part}) \leq \min(\text{right\_part})max(left_part)≤min(right_part)
那么,咱们已经将 \{\text{A}, \text{B}\}{A,B} 中的全部元素划分为相同长度的两个部分,且其中一部分中的元素老是大于另外一部分中的元素。那么:

\text{median} = \frac{\text{max}(\text{left}\_\text{part}) + \text{min}(\text{right}\_\text{part})}{2} median= 
2
max(left_part)+min(right_part)
​    
 

要确保这两个条件,咱们只须要保证:

i + j = m - i + n - ji+j=m−i+n−j(或:m - i + n - j + 1m−i+n−j+1) 若是 n \geq mn≥m,只须要使 i = 0 \sim m, j = \frac{m + n + 1}{2} - i \\i=0∼m,j= 
2
m+n+1
​    
 −i
\text{B}[j-1] \leq \text{A}[i]B[j−1]≤A[i] 以及 \text{A}[i-1] \leq \text{B}[j]A[i−1]≤B[j]
ps.1 为了简化分析,我假设 \text{A}[i-1], \text{B}[j-1], \text{A}[i], \text{B}[j]A[i−1],B[j−1],A[i],B[j] 老是存在,哪怕出现 i=0i=0,i=mi=m,j=0j=0,或是 j=nj=n 这样的临界条件。 我将在最后讨论如何处理这些临界值。

ps.2 为何 n \geq mn≥m?因为0 \leq i \leq m0≤i≤m 且 j = \frac{m + n + 1}{2} - ij= 
2
m+n+1
​    
 −i,我必须确保 jj 不是负数。若是 n < mn<m,那么 jj 将多是负数,而这会形成错误的答案。

因此,咱们须要作的是:

在 [0,m][0,m] 中搜索并找到目标对象 ii,以使:

\qquad \text{B}[j-1] \leq \text{A}[i] B[j−1]≤A[i] 且 \ \text{A}[i-1] \leq \text{B}[j],  A[i−1]≤B[j], 其中 j = \frac{m + n + 1}{2} - ij= 
2
m+n+1
​    
 −i
接着,咱们能够按照如下步骤来进行二叉树搜索:

设 \text{imin} = 0imin=0,\text{imax} = mimax=m, 而后开始在 [\text{imin}, \text{imax}][imin,imax] 中进行搜索。

令 i = \frac{\text{imin} + \text{imax}}{2}i= 
2
imin+imax
​    
 , j = \frac{m + n + 1}{2} - ij= 
2
m+n+1
​    
 −i

如今咱们有 \text{len}(\text{left}\_\text{part})=\text{len}(\text{right}\_\text{part})len(left_part)=len(right_part)。 并且咱们只会遇到三种状况:

\text{B}[j-1] \leq \text{A}[i]B[j−1]≤A[i] 且 \text{A}[i-1] \leq \text{B}[j]A[i−1]≤B[j]:
这意味着咱们找到了目标对象 ii,因此能够中止搜索。

\text{B}[j-1] > \text{A}[i]B[j−1]>A[i]:
这意味着 \text{A}[i]A[i] 过小,咱们必须调整 ii 以使 \text{B}[j-1] \leq \text{A}[i]B[j−1]≤A[i]。
咱们能够增大 ii 吗?
      是的,由于当 ii 被增大的时候,jj 就会被减少。
      所以 \text{B}[j-1]B[j−1] 会减少,而 \text{A}[i]A[i] 会增大,那么 \text{B}[j-1] \leq \text{A}[i]B[j−1]≤A[i] 就可能被知足。
咱们能够减少 ii 吗?
      不行,由于当 ii 被减少的时候,jj 就会被增大。
      所以 \text{B}[j-1]B[j−1] 会增大,而 \text{A}[i]A[i] 会减少,那么 \text{B}[j-1] \leq \text{A}[i]B[j−1]≤A[i] 就可能不知足。
因此咱们必须增大 ii。也就是说,咱们必须将搜索范围调整为 [i+1, \text{imax}][i+1,imax]。 所以,设 \text{imin} = i+1imin=i+1,并转到步骤 2。

\text{A}[i-1] > \text{B}[j]A[i−1]>B[j]: 这意味着 \text{A}[i-1]A[i−1] 太大,咱们必须减少 ii 以使 \text{A}[i-1]\leq \text{B}[j]A[i−1]≤B[j]。 也就是说,咱们必须将搜索范围调整为 [\text{imin}, i-1][imin,i−1]。
所以,设 \text{imax} = i-1imax=i−1,并转到步骤 2。

当找到目标对象 ii 时,中位数为:

\max(\text{A}[i-1], \text{B}[j-1]), max(A[i−1],B[j−1]), 当 m + nm+n 为奇数时
\frac{\max(\text{A}[i-1], \text{B}[j-1]) + \min(\text{A}[i], \text{B}[j])}{2}, 
2
max(A[i−1],B[j−1])+min(A[i],B[j])
​    
 , 当 m + nm+n 为偶数时
如今,让咱们来考虑这些临界值 i=0,i=m,j=0,j=ni=0,i=m,j=0,j=n,此时 \text{A}[i-1],\text{B}[j-1],\text{A}[i],\text{B}[j]A[i−1],B[j−1],A[i],B[j] 可能不存在。 其实这种状况比你想象的要容易得多。

咱们须要作的是确保 \text{max}(\text{left}\_\text{part}) \leq \text{min}(\text{right}\_\text{part})max(left_part)≤min(right_part)。 所以,若是 ii 和 jj 不是临界值(这意味着 \text{A}[i-1], \text{B}[j-1],\text{A}[i],\text{B}[j]A[i−1],B[j−1],A[i],B[j] 所有存在), 那么咱们必须同时检查 \text{B}[j-1] \leq \text{A}[i]B[j−1]≤A[i] 以及 \text{A}[i-1] \leq \text{B}[j]A[i−1]≤B[j] 是否成立。 可是若是 \text{A}[i-1],\text{B}[j-1],\text{A}[i],\text{B}[j]A[i−1],B[j−1],A[i],B[j] 中部分不存在,那么咱们只须要检查这两个条件中的一个(或不须要检查)。 举个例子,若是 i = 0i=0,那么 \text{A}[i-1]A[i−1] 不存在,咱们就不须要检查 \text{A}[i-1] \leq \text{B}[j]A[i−1]≤B[j] 是否成立。 因此,咱们须要作的是:

在 [0,m][0,m] 中搜索并找到目标对象 ii,以使:

(j = 0(j=0 or i = mi=m or \text{B}[j-1] \leq \text{A}[i])B[j−1]≤A[i]) 或是 (i = 0(i=0 or j = nj=n or \text{A}[i-1] \leq \text{B}[j]),A[i−1]≤B[j]), 其中 j = \frac{m + n + 1}{2} - ij= 
2
m+n+1
​    
 −i
在循环搜索中,咱们只会遇到三种状况:

(j = 0(j=0 or i = mi=m or \text{B}[j-1] \leq \text{A}[i])B[j−1]≤A[i]) 或是
(i = 0(i=0 or j = nj=n or \text{A}[i-1] \leq \text{B}[j])A[i−1]≤B[j])
这意味着 ii 是完美的,咱们能够中止搜索。
j > 0j>0 and i < mi<m and \text{B}[j - 1] > \text{A}[i]B[j−1]>A[i]
这意味着 ii 过小,咱们必须增大它。
i > 0i>0 and j < nj<n and \text{A}[i - 1] > \text{B}[j]A[i−1]>B[j]
这意味着 ii 太大,咱们必须减少它。
感谢 @Quentin.chen 指出: i < m \implies j > 0i<m⟹j>0 以及 i > 0 \implies j < ni>0⟹j<n 始终成立,这是由于:

m \leq n, i < m \implies j = \frac{m+n+1}{2} - i > \frac{m+n+1}{2} - m \geq \frac{2m+1}{2} - m \geq 0m≤n,i<m⟹j= 
2
m+n+1
​    
 −i> 
2
m+n+1
​    
 −m≥ 
2
2m+1
​    
 −m≥0

m \leq n, i > 0 \implies j = \frac{m+n+1}{2} - i < \frac{m+n+1}{2} \leq \frac{2n+1}{2} \leq nm≤n,i>0⟹j= 
2
m+n+1
​    
 −i< 
2
m+n+1
​    
 ≤ 
2
2n+1
​    
 ≤n
因此,在状况 2 和 3中,咱们不须要检查 j > 0j>0 或是 j < nj<n 是否成立。

 

3. 代码实现spa

class Solution:
    def findMedianSortedArrays(self, list1: List[int], list2: List[int]) -> float:
        m, n = len(list1), len(list2)
        #判断m, n的大小,保证m<n
        if m > n :
            m, n, list1, list2 = n, m, list2, list1
        if n == 0 :
            return ValueError

        #肯定搜索边界,及最大值,最小值,以及中位值索引
        i_min, i_max, half_len, flag = 0, m, (m+n+1)//2, (m+n)%2

        while i_min <= i_max :
            i = (i_min+i_max)//2
            j = half_len - i
            if i < m and list1[i] < list2[j-1] :
                i_min = i + 1            
            elif i > 0 and list1[i-1] > list2[j] :
                i_max = i - 1
            else :
                if i == 0 :
                    max_left = list2[j-1]
                elif j == 0 :
                    max_left = list1[i-1]
                else :
                    max_left = max(list1[i-1],list2[j-1])

                if flag == 1:
                    return max_left

                if i == m :
                    min_right = list2[j]
                elif j == n :
                    min_right = list1[i]
                else :
                    min_right = min(list1[i], list2[j])

                return (max_left + min_right)/2 
相关文章
相关标签/搜索