学习资料参考地址:sql
1.http://blog.csdn.net/zhoudaxia/article/details/8801769数据库
1.先说说什么是Hadoop?编程
我的理解:一个分布式文件存储系统+一个分布式计算框架,在其上还有不少的开源项目来丰富他的功能,如Hbase,hive等等。官方:Hadoop是一个用Java编写的开源系统,可安排在大规模的计算平台上,从而提升计算效率。本质上它只是一个海量数据处理平台架构。网络
2.Hadoop与MapReduce,有什么关系?架构
Hadoop生态圈的三个工具:第一,Hbase,最大化利用了内存。第二,HDFS,最大化利用了磁盘。第三,MapReduce,最大化利用了CPU。(Hbase,利用了Nosql数据库,Key-Value存储;HDFS,是hadoop distribute file system分布式文件系统;MapReduce,编程模型,主要用来作数据分析)框架
3.Hadoop是在怎么样的一个环境中应用而生的,它最终解决了什么问题?运用它以后,目前的发展方向是什么样的?分布式
信息时代数据的增加,好比天天在全球流通的Email。好比,某人在微博中发了不健康内容,咱们想在第一时间找出来,须要在海量数据中作搜索。好比某大型公司的日志记录,咱们须要离线处理海量数据,从中分析出用户的一些消费习惯。那么咱们要存储,咱们要运算而且分析,可是硬盘存储空间不够,网络带宽受限,硬件故障不稳定。可是,咱们想以不多的代价完成这个tasks。因而产生了Hadoop。如google,会把淘汰的机器用于搭建一个Hadoop集群。运用这个技术以后,咱们的海量技术获得了长期保存,获得了及时的处理很分析,集群会自动备份,省去了咱们对硬件环境不稳定的担心。目前,在国内阿里的这方面领先。工具
4.笔记摘要:oop
Hadoop是一个分布式数据处理框架。当搜索引擎须要收集数据时,数据量是极大的。此时,Hadoop 让许多应用程序可以受益于并行数据处理。学习
五、Hadoop的安装。
首先,安装Java™(至少是 1.6 版)和 cURL。
参考地址:http://blog.itpub.net/26230597/viewspace-1255651/