[hadoop读书笔记] Hadoop下各技术应用场景

    1、数据采集 对于数据采集主要分为三类,即结构化数据库采集,日志和文件采集,网页采集。 对于结构化数据库,采用Sqoop是合适的,可以实现结构化数据库中数据并行批量入库到hdfs存储。 对于网页采集,前端可以采用Nutch,全文检索采用lucense,而实际数据存储最好是入库到Hbase数据库。 对于日志文件的采集,现在最常用的仍然是flume或chukwa,但是我们要看到如果对于日志文件
相关文章
相关标签/搜索