hbase过滤器2

时间 2019-11-13

原文原文链接

1. RowFilter：筛选出匹配的全部的行，对于这个过滤器的应用场景，是很是直观的：使用BinaryComparator能够筛选出具备某个行键的行，或者经过改变比较运算符（下面的例子中是CompareFilter.CompareOp.EQUAL）来筛选出符合某一条件的多条数据，如下就是筛选出行键为row1的一行数据：java

Filter rf = new RowFilter(CompareFilter.CompareOp.EQUAL, new BinaryComparator(Bytes.toBytes("row1"))); 
// OK 筛选出匹配的全部的行

2. PrefixFilter：筛选出具备特定前缀的行键的数据。这个过滤器所实现的功能其实也能够由RowFilter结合RegexComparator来实现，不过这里提供了一种简便的使用方法，如下过滤器就是筛选出行键以row为前缀的全部的行：web

Filter pf = new PrefixFilter(Bytes.toBytes("row")); // OK  筛选匹配行键的前缀成功的行

3. KeyOnlyFilter：这个过滤器惟一的功能就是只返回每行的行键，值所有为空，这对于只关注于行键的应用场景来讲很是合适，这样忽略掉其值就能够减小传递到客户端的数据量，能起到必定的优化做用：dom

Filter kof = new KeyOnlyFilter(); // OK 返回全部的行，但值全是空

4. RandomRowFilter：从名字上就能够看出其大概的用法，本过滤器的做用就是按照必定的概率（<=0会过滤掉全部的行，>=1会包含全部的行）来返回随机的结果集，对于一样的数据集，屡次使用同一个RandomRowFilter会返回不通的结果集，对于须要随机抽取一部分数据的应用场景，能够使用此过滤器：性能

Filter rrf = new RandomRowFilter((float) 0.8); // OK 随机选出一部分的行

5. InclusiveStopFilter：扫描的时候，咱们能够设置一个开始行键和一个终止行键，默认状况下，这个行键的返回是前闭后开区间，即包含起始行，单不包含中指行，若是咱们想要同时包含起始行和终止行，那么咱们能够使用此过滤器：优化

Filter isf = new InclusiveStopFilter(Bytes.toBytes("row1")); // OK 包含了扫描的上限在结果以内

6. FirstKeyOnlyFilter：若是你只想返回的结果集中只包含第一列的数据，那么这个过滤器可以知足你的要求。它在找到每行的第一列以后会中止扫描，从而使扫描的性能也获得了必定的提高：spa

Filter fkof = new FirstKeyOnlyFilter(); // OK 筛选出第一个每一个第一个单元格

7. ColumnPrefixFilter：顾名思义，它是按照列名的前缀来筛选单元格的，若是咱们想要对返回的列的前缀加以限制的话，能够使用这个过滤器：code

Filter cpf = new ColumnPrefixFilter(Bytes.toBytes("qual1")); // OK 筛选出前缀匹配的列

8. ValueFilter：按照具体的值来筛选单元格的过滤器，这会把一行中值不能知足的单元格过滤掉，以下面的构造器，对于每一行的一个列，若是其对应的值不包含ROW2_QUAL1，那么这个列就不会返回给客户端：orm

Filter vf = new ValueFilter(CompareFilter.CompareOp.EQUAL, new SubstringComparator("ROW2_QUAL1")); 
// OK 筛选某个（值的条件知足的）特定的单元格

9. ColumnCountGetFilter：这个过滤器来返回每行最多返回多少列，并在遇到一行的列数超过咱们所设置的限制值的时候，结束扫描操做：对象

Filter ccf = new ColumnCountGetFilter(2); // OK 若是忽然发现一行中的列数超过设定的最大值时，整个扫描操做会中止

10. SingleColumnValueFilter：用一列的值决定这一行的数据是否被过滤。在它的具体对象上，能够调用setFilterIfMissing(true)或者setFilterIfMissing(false)，默认的值是false，其做用是，对于我们要使用做为条件的列，若是这一列自己就不存在，那么若是为true，这样的行将会被过滤掉，若是为false，这样的行会包含在结果集中。ip

SingleColumnValueFilter scvf = new SingleColumnValueFilter(  
        Bytes.toBytes("colfam1"),   
        Bytes.toBytes("qual2"),   
        CompareFilter.CompareOp.NOT_EQUAL,   
        new SubstringComparator("BOGUS"));  
scvf.setFilterIfMissing(false);  
scvf.setLatestVersionOnly(true); // OK

11. SingleColumnValueExcludeFilter：这个与10种的过滤器惟一的区别就是，做为筛选条件的列的不会包含在返回的结果中。

12. SkipFilter：这是一种附加过滤器，其与ValueFilter结合使用，若是发现一行中的某一列不符合条件，那么整行就会被过滤掉：

Filter skf = new SkipFilter(vf); // OK 发现某一行中的一列须要过滤时，整个行就会被过滤掉

13. WhileMatchFilter：这个过滤器的应用场景也很简单，若是你想要在遇到某种条件数据以前的数据时，就能够使用这个过滤器；当遇到不符合设定条件的数据的时候，整个扫描也就结束了：

Filter wmf = new WhileMatchFilter(rf); // OK 相似于Python itertools中的takewhile

14. FilterList：用于综合使用多个过滤器。其有两种关系：FilterList.Operator.MUST_PASS_ONE和FilterList.Operator.MUST_PASS_ALL，默认的是FilterList.Operator.MUST_PASS_ALL，顾名思义，它们分别是AND和OR的关系，而且FilterList能够嵌套使用FilterList，使咱们可以表达更多的需求：

List<Filter> filters = new ArrayList<Filter>();  
filters.add(rf);  
filters.add(vf);  
FilterList fl = new FilterList(FilterList.Operator.MUST_PASS_ALL, filters);
 // OK 综合使用多个过滤器， AND 和 OR 两种关系