Hadoop笔记系列一用Hadoop进行分布式数据处理(1)

时间 2019-12-01

原文原文链接

学习资料参考地址：sql

1.http://blog.csdn.net/zhoudaxia/article/details/8801769数据库

1.先说说什么是Hadoop？编程

　　我的理解：一个分布式文件存储系统+一个分布式计算框架，在其上还有不少的开源项目来丰富他的功能，如Hbase,hive等等。官方：Hadoop是一个用Java编写的开源系统，可安排在大规模的计算平台上，从而提升计算效率。本质上它只是一个海量数据处理平台架构。网络

2.Hadoop与MapReduce，有什么关系？架构

　　Hadoop生态圈的三个工具：第一，Hbase，最大化利用了内存。第二，HDFS，最大化利用了磁盘。第三，MapReduce，最大化利用了CPU。(Hbase,利用了Nosql数据库，Key-Value存储；HDFS，是hadoop distribute file system分布式文件系统；MapReduce，编程模型，主要用来作数据分析)框架

3.Hadoop是在怎么样的一个环境中应用而生的，它最终解决了什么问题？运用它以后，目前的发展方向是什么样的？分布式

　　信息时代数据的增加，好比天天在全球流通的Email。好比，某人在微博中发了不健康内容，咱们想在第一时间找出来，须要在海量数据中作搜索。好比某大型公司的日志记录，咱们须要离线处理海量数据，从中分析出用户的一些消费习惯。那么咱们要存储，咱们要运算而且分析，可是硬盘存储空间不够，网络带宽受限，硬件故障不稳定。可是，咱们想以不多的代价完成这个tasks。因而产生了Hadoop。如google，会把淘汰的机器用于搭建一个Hadoop集群。运用这个技术以后，咱们的海量技术获得了长期保存，获得了及时的处理很分析，集群会自动备份，省去了咱们对硬件环境不稳定的担心。目前，在国内阿里的这方面领先。工具

4.笔记摘要：oop

　　Hadoop是一个分布式数据处理框架。当搜索引擎须要收集数据时，数据量是极大的。此时，Hadoop 让许多应用程序可以受益于并行数据处理。学习

五、Hadoop的安装。

　　首先，安装Java™（至少是 1.6 版）和 cURL。

参考地址：http://blog.itpub.net/26230597/viewspace-1255651/

Hadoop笔记系列 一 用Hadoop进行分布式数据处理(1)

Hadoop笔记系列一用Hadoop进行分布式数据处理(1)