kudu之Compaction 设计原理

阅读量：3685 次

发布时间：2019-05-21

本文共 1413 字，大约阅读时间需要 4 分钟。

本文将介绍kudu执行rowSet刷新/压缩的机制。注意：本文不讲有关将delta数据刷新到delta文件的任何信息！

目标：将存在并行更新的情况下，将两个或多个具有重叠key范围的RowSet合并到一个新的RowSet中。输出RowSet还应该对旧RowSets中删除的任何行进行垃圾收集。

让我们从一个简单的Compaction 操作例子开始，压缩一个rowset得到一个新的rowset。这个压缩带来的效果是删除可回收的数据，生效数据更新。Compaction 有两个主要阶段：

"flush_snap"           |           |  before   v<----------|              Phase 1:          merging/flushing           |-----------|                         Phase 2: migrate                         deltas                       |---------------|                                         compaction                                         complete                                       |----------->|--------------  time ----------------------------->

系统稳定状态：

数据的更新只作用在源RowSet中

过渡到第1阶段：

创建快照迭代器以合并输入RowSet，并保存关联的MVCC快照状态。

阶段1：合并/刷新数据：

使用上面创建的迭代器为输出RowSet创建一组新数据。它将包括在阶段1开始之前到达的任何更新或删除，但不包括在压缩的任一阶段到达的更新或删除。

在此阶段到达的任何变更仅记录在输入RowSet的增量跟踪结构中。由于合并是在快照上运行的，因此不会在输出RowSet中包括这些变更。

阶段2：从第1阶段迁移增量

在此阶段到达的任何变动都应该应反应在输入RowSet和输出RowSet。只要在更新发生时，将要查找的键复制到输出RowSet的键列中，就可以很容易地做到这一点。这是通过交换“DuplicatingRowSet”来实现的，它将更新同时转发到输入和输出rowset。

此阶段中的任何读取都必须由输入RowSet提供服务，因为输出RowSet缺少在合并阶段到达的增量。

因为合并的输出rowset中忽略了在阶段1期间到达的任何变动，所以我们现在必须将这些变动“迁移”到输出RowSet。这可以通过收集未包含在快照迭代器中的所有增量并将它们应用于输出rowset的增量跟踪器来高效地完成。

第2阶段结束：交换RowSet

在阶段2之后，两个RowSet具有逻辑上相同的数据，并且它们可以原子交换。一旦交换了输出RowSet，数据的更新需要作用在输出RowSet中，并且可以删除旧的RowSet。

扩展到多个RowSet

上述算法可以同样很好地扩展到多个RowSet。在压缩开始时，每个RowSet都会被快照，并创建一个快照迭代器。然后，合并迭代器按升序键顺序执行所有快照的合并。

转载地址：http://uwydn.baihongyu.com/

你可能感兴趣的文章