基于Nutch+Hadoop+Hbase+ElasticSearch的网络爬虫及搜索引擎

2019独角兽企业重金招聘Python工程师标准>>> 网络爬虫架构在Nutch+Hadoop之上,是一个典型的分布式离线批量处理架构,有非常优异的吞吐量和抓取性能并提供了大量的配置定制选项。由于网络爬虫只负责网络资源的抓取,所以,需要一个分布式搜索引擎,用来对网络爬虫抓取到的网络资源进行实时的索引和搜索。   搜 索引擎架构在ElasticSearch之上,是一个典型的分布式在线实时交互查询架构
相关文章
相关标签/搜索