Hadoop是Apache软件基金会旗下的一个开源分布式计算平台,为用户提供了系统底层细节透明的分布式基础架构html
Hadoop是基于java语言开发,具备很好的跨平台的特性,而且能够部署在廉价的计算机集群中java
Hadoop的核心是分布式文件系统HDFS(Hadoop Distribute File System)和MapReduce,安装完Hadoop默认就已经安装了HDFS和Mapreducelinux
Hadoop被公认为行业大数据标准开源软件,在分布式环境下提供了海量数据的处理能力apache
几乎全部主流厂商都围绕Hadoop提供开发工具,开源软件、商业化工具和技术服务,如谷歌、雅虎、微软、思科、淘宝等都支持Hadoop编程
官方网址:http://hadoop.apache.org/架构
Hadoop是一个可以对大量数据进行分布式处理的软件框架,而且是以一种可靠、高效、可伸缩的方式进行处理的,它具备如下几个方面的特性:框架
高可靠性编程语言
高效性分布式
高扩展性工具
高容错性
低成本
运行在linux平台上
支持多种编程语言
互联网居多,雅虎、facebook(用于平台处理、推荐系统和数据仓库等)、百度、淘宝、网易、华为、中国移动等,其中,淘宝的Hadoop集群比较大
1)版本演变
2)图示
3)各种版本
Apache Hadoop
Hortonworks
Cloudera(CDH:Cloudera Distribution Hadoop)
MapR
在不断丰富发展,现已成为一个丰富的Hadoop生态系统
安装部署请见:Hadoop2-认识Hadoop大数据处理架构-单机部署
HDFS原理:Hadoop4-HDFS分布式文件系统原理
参考:http://dblab.xmu.edu.cn/post/1089/
参考:https://cwiki.apache.org/confluence/display/HADOOP/Hadoop+Active+Release+Lines