大数据和云计算技术总结

<一>数据收集   外部数据收集web     数据源:PC端数据,App移动端数据算法   Apache Nutch 主要组件有Crawler,Indexer以及Searcher.爬虫,索引以及查询.利用Lucene技术进行索引,   Heritrix 更专一于网络信息的下载   Solr:Solr 是一个基于Lucene的Java搜索引擎服务器  内部收集收集  数据库     数据源:Web
相关文章
相关标签/搜索