如何使用Spark大规模并行构建索引

时间 2019-12-10

原文原文链接

[size=medium] 使用Spark构建索引很是简单，由于spark提供了更高级的抽象rdd分布式弹性数据集，相比之前的使用Hadoop的MapReduce来构建大规模索引，Spark具备更灵活的api操做，性能更高，语法更简洁等一系列优势。先看下，总体的拓扑图： [/size] [img]http://dl2.iteye.com/upload/attachment/0114/9272/c