分布式GK Summary算法

时间 2021-01-22

标签 GK-Summay 流式数据库 quantile merge prune 栏目系统架构繁體版

原文原文链接

0.前言

本文主要介绍分布式GK Summay算法，考虑分布式流式数据库场景，博客内容来源主要是原始论文与Emory大学的流式数据库的课程内容，本文仅提取出关键内容加入笔者的个人理解，有错误还望谅解与告知。

1.背景

现在考虑分布式流式数据库，流式数据来源如下图：

上图中每个Processing Node需要统计对应的数据，然后将统计数据merge生成可查询的Summary。上篇博客我们知道对于数据流如何构建GK Summary来支持 ϵ−approximate ϕ−quantile 分位点查询，但是由于数据流来源分布不同，而查询应该基于全局数据，因此需要将所有GK Summary合并merge生成最终全局的Summary查询结构。本文就来探讨分布式GK summary的merge操作以及Prune操作。后续会介绍到Prune操作，不同于上篇GK Summary的delete与compress操作，该操作直接对Summary进行删减，会牺牲误差边界，merge与prune操作是后续A fast algorithm的基础操作。

2.分布式GK Summary算法

2.1 Merge操作

考虑2个summary merge情况，已经按照summary tuple内部 v 大小排序：

Q' = {(x 1, r m i n (x 1), r m a x (x 1)), (x 2, r m i n (x 2), r m a x (x 2)), . . ., (x n, r m i n (x n), r m a x (x n))} Q ″ = {(y 1, r m i n (y 1), r m a x (y 1)), (y 2, r m i n (y 2), r m a x (y 2)), . . ., (y m, r m i n (y m), r m a x (y m))}

注，上述summary基于 (v,rmin,rmax) 形式，之前博客已经说明，该形式等价于 (v,g,Δ) ，后者主要方便新增数据的summary更新，但是前者可读性更高，故本文说明基于前者形式。

如何merge生成最终 Q ：

{(z 1, r m i n (z 1), r m a x (z 1)), (z 2, r m i n (z 2), r m a x (z 2)), . . ., (z n, r m i n (z n), r m a x (z s))}

Merge方案：首先，考虑 s=n+m ，关键是分配每个 Q 中summary的 zi 、 rminQ(zn) 以及 rmaxQ(zn) 。
不失一般性，假设分配 Q′ 中的 xr 到 Q 中 zi ，满足：

max y s \in Q ″ < x r min y t \in Q ″ > x r

此时，可以分配 rminQ(zn) 与 rmaxQ(zn) ：

r m i n Q (z i) = {r m i n Q' (x r) r m i n Q' (x r) + r m i n Q ″ (y s), 不 存 在 y s, 其 他

r m a x Q (z i) = {r m a x Q' (x r) + r m a x Q ″ (y s) r m a x Q' (x r) + r m a x Q ″ (y t) - 1, 不 存 在 y t, 其 他

分配完 Q′ ，同样地，对 Q″ 执行一次，这样 Q 就补充到 s=n+m ，这就是一种Merge方案。

证明上述方案的可行性，已知 Q′ 、 Q″ 满足误差约束条件：

max i \in Q' (g i + Δ i) \leq 2 ϵ N

max i \in Q ″ (g i + Δ i) \leq 2 ϵ M

现在转化为如何证明： maxi∈Q(gi+Δi)≤2ϵ(N+M) 。
证明之前，先说明 merge的一般性质：

Q' : max i \in Q' (g i + Δ i) \leq 2 ϵ' N Q ″ : max i \in Q ″ (g i + Δ i) \leq 2 ϵ ″ M \Rightarrow m e r g e (Q', Q ″) : max i \in Q (g i + Δ i) \leq 2 m a x (ϵ', ϵ ″) (N + M)

证明这条性质，间接的也就证明上述merge方案的可行性。下面分2种情况分别证明：

1）在 Q 中相连 zi 与 zi+1 来源于同一个 Q′ 或者 Q″ ，不失一般性，假设都来源于 Q′ ，分别对应于 xr 于 xr+1 。根据 rmin(zn) 分配定义，可得 rminQ(zi)≥rminQ′(xr) ，同样地， rmaxQ(zi+1)≤rmaxQ′(xr+1)+rmaxQ″(yt)−1 ，位置关系如下图所示：

所以：

r m a x Q (z i + 1) - r m i n Q (z i) \leq [r m a x Q' (x r + 1) + r m a x Q ″ (y t) - 1] - r m i n Q' (x r) = [r' m a x Q (x r + 1) - r' m i n Q (x r)] + [r ″ m a x Q (y t) - 1] \leq [r' m a x Q (x r + 1) - r' m i n Q (x r)] + [r ″ m a x Q (y t) - r ″ m i n Q (y t - 1)] (r ″ m i n Q (y t - 1) \geq 1) \leq 2 ϵ' N + 2 ϵ ″ M = 2 m a x (ϵ', ϵ ″) (N + M)

2）在 Q 中相连 zi 与 zi+1 来源不同，不失一般性，假设 zi 源于 Q′ , zi+1 源于 Q″ ，分别对应于 xr 、 yt 。根据 rmin(zn) 分配定义，可得 rminQ(zi)≥rminQ′(xr) ，同样地， rmaxQ(zi+1)≤rmaxQ″(yt)+rmaxQ′(xr+1)−1 ，位置关系如下图所示：

所以：

r m a x Q (z i + 1) - r m i n Q (z i) \leq [r m a x Q ″ (y t) + r m a x Q' (x r + 1) - 1] - r m i n Q' (x r) = [r' m a x Q (x r + 1) - r' m i n Q (x r)] + [r ″ m a x Q (y t) - 1] \leq [r' m a x Q (x r + 1) - r' m i n Q (x r)] + [r ″ m a x Q (y t) - r ″ m i n Q (y t - 1)] (r ″ m i n Q (y t - 1) \geq 1) \leq 2 ϵ' N + 2 ϵ ″ M \leq 2 m a x (ϵ', ϵ ″) (N + M)

得证。

最后，结论扩展：对于 quantile summary 集合： Q1,Q2,...,Qk , 满足误差为 ϵ1,ϵ2,...,ϵk 约束， Merge(Q1,Q2,...,Qk) 满足误差为： ϵ=max1..k(ϵi)

2.2 Prune操作

Merge操作是将对应 summary 合并到一块，生成 summary 的结果数是增多的，如何减少Merge的结果数呢？即定义Prune操作，但减少并不是没有代价的，需要增大误差边界。下面定义Prune操作：

假设将 S 结果数减少到 B ，Prune操作为 Prune(S,B) ，其中 |S| 代表 QSummary S 对应的数据集大大小。

Q S u m m a r y P r u n e (Q S u m m a r y S, i n t B) {Q S u m m a r y R = ϕ; f o r (i = 1, (1 / B) \times | S |, (2 / B) \times | S |, (3 / B) \times | S |, . . ., | S |) {v = Q u e r y (S, i); / / G K S u m m a r y 查 询 ， 前 文 已 经 讲 过 r m i n (v) = r m i n (v) i n s u m m a r y Q; r m a x (v) = r m a x (v) i n s u m m a r y Q; R = R \cup (v, r m i n (v), r m a x (v);} r e t u r n R;}

先说结论， Q′ 为 ϵ−approximate quantile summary ，则:

Q = P r u n e (Q, B) : (ϵ + 1 / (2 B)) - a p p r o x i m a t e q u a n t i l e s u m m a r y

证明：假设 qi 和 qi+1 是 Prune(Q′,B) 中的两个相连summary，位置分布如下图所示：

其中 vk 为 qi 在 Q′ 的排序, vm 为 qi+1 在 Q′ 的排序，因此， m−k≤(i/B)×|S| 。

r m a x (q i + 1) - r m i n (q i) = r m a x (v m) - r m i n (v k) = r m a x (v m) + + r m i n (v m - 1) - r m i n (v m - 1) + r m i n (v m - 2) - r m i n (v m - 2) + . . . . + r m i n (v k + 1) - r m i n (v k + 1) - r m i n (v k)

r m a x (q i + 1) - r m i n (q i) = r m a x (v m) - r m i n (v m - 1) + r m i n (v m - 1) - r m i n (v m - 2) + r m i n (v m - 2) - r m i n (v m - 3) + . . . . + r m i n (v k + 2) - r m i n (v k + 1) + r m i n (v k + 1) - r m i n (v k)

r m a x (q i + 1) - r m i n (q i) = r m a x (v m) - r m i n (v m - 1) + g m - 1 + g m - 2 + . v m) - r m i n (v m - 1) + g m - 1 + g m - 2 + . . . + g k + 1

之前博文说明 g 表示对应 summary 覆盖数据量，因此，

1. GK Summay算法（ϵ−approximate ϕ−quantile）
2. 分布式算法 hash算法
3. 分布式雪花算法
4. MemCached的分布式算法
5. 分布式算法原理
6. 分布式算法学习
7. 分布式寻址算法
8. Memcached的分布式算法
9. 分布式算法 -- Basic Paxos
10. 分布式算法 - Paxos
更多相关文章...
• Redis发布订阅模式 - Redis教程
• ASP.NET MVC - 样式和布局 - ASP.NET 教程
• 算法总结-二分查找法
• 再有人问你分布式事务，把这篇扔给他