完整hadoop生态系统的组件及其做用介绍

hadoop生态系统的组件hdfs,mapreduce,hive,pig,zookeeper,hbase你们应该都比较熟了,这里简单总结一下其余不太经常使用的组件的做用。mysql

Oozie

Oozie是可扩展可伸缩的工做流协调管理器。Oozie协调的做业属于一次性的非循环做业,例如MapReduce, Streaming, Pipes, Pig, Hive, Sqoop等等都是。Oozie将要调度的做业做为一个单一的做业来管理。Oozie的
调度基于时间跟数据可用性。具备数据感知功能,能够协调做业之间的依赖关系.web

Flume

Flume是一个相似facebook的scribe的分布式,高可靠,高可用,高效的数据收集器,通常用于聚合众多服务器上面的大量日志到某一个数据中心。sql

Sqoop

Sqoop用于将关系形数据库(如mysql)或者其它结构化的数据导入到hadoop的生态系统中(HDFS,Hive , HBase),反过来也能够将hadoop的数据导出为对应的结构形式。shell

Hue

Hue是cdh专门的一套web管理器,它包括3个部分hue ui,hue server,hue db。hue提供全部的cdh组件的shell界面的接口。你能够在hue编写mr,查看修改hdfs的文件,管理hive的元数据,运行Sqoop,编写Oozie工做流等大量工做。数据库

HCatalog

HCatalog提供表格数据类型到pig,hive,mr的输入数据的转换,HCatalog依赖Hive的元数据存储系统。经过HCatalog的接口pig,hive,mr自到识别这些输入数据的架构。服务器

Avro

Avro是一个数据序列化系统。能保存持久化的数据到hdfs,能传输而且反序列化为高级数据结构。相似facebook的thrift,它也是提供多语言客户端支持的。数据结构

HttpFS

HttpFS提供REST HTTP API来读写hdfs。架构

Mahout

Mahout是一个编写基于大数据的机器学习软件,人工智能程序的协助工具。app

Snappy

Snappy是压缩跟解压缩工具,它的应用包括将mr的最终输出结果压缩起来,Sqoop导入数据的时候也能够使用这个压缩引擎.机器学习

Whirr

Whirr是将hadoop生态系统云化的一个组件。只须要在Whirr的配置文件里指明你须要的hadoop组件,它可以用一个命令将一个hadoop生态系统完整的部署到像Amazon EC2这样的云服务器中,也可以一个命令回收这个hadoop生态系统及其使用的资源。intel的hadoop发行版也能够实现相似快捷部署的功能。

相关文章
相关标签/搜索