【Hadoop】(一)初识Hadoop

一、大数据是什么

大数据(big data):是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

二、大数据的特点

  • Volume(大量)
  • Velocity(高速)
  • Variety(多样)
  • Value(低价值密度)
  • Veracity(真实性)

三、数据存储单位

最小的基本单位是bit,按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。
它们按照进率1024(2的十次方)来计算:
1 Byte =8 bit
1 KB = 1,024 Bytes = 8192 bit
1 MB = 1,024 KB = 1,048,576 Bytes
1 GB = 1,024 MB = 1,048,576 KB
1 TB = 1,024 GB = 1,048,576 MB
1 PB = 1,024 TB = 1,048,576 GB
1 EB = 1,024 PB = 1,048,576 TB
1 ZB = 1,024 EB = 1,048,576 PB
1 YB = 1,024 ZB = 1,048,576 EB
1 BB = 1,024 YB = 1,048,576 ZB
1 NB = 1,024 BB = 1,048,576 YB
1 DB = 1,024 NB = 1,048,576 BB
全称:
1 Bit(比特) =Binary Digit
8 Bits = 1 Byte(字节)
1,000 Bytes = 1 Kilobyte
1,000 Kilobytes = 1 Megabyte
1,000 Megabytes = 1 Gigabyte
1,000 Gigabytes = 1Terabyte
1,000 Terabytes = 1 Petabyte
1,000 Petabytes = 1 Exabyte
1,000Exabytes = 1 Zettabyte
1,000 Zettabytes = 1 Yottabyte
1,000 Yottabytes = 1Brontobyte
1,000 Brontobytes = 1 Geopbyte

四、Hadoop是什么

  • Hadoop是由apache基金会所开发的分布式系统基础架构
  • 主要解决,海量数据存储和海量数据分析的问题
  • 广义上来说,hadoop通常是指一个更广泛的概念—Hadoop生态圈

五、Hadoop的特点

  • 高可靠
    Hadoop对数据做了备份,默认副本数为3,所以即使某个hadoop节点出现故障,也不会影响数据的完整

  • 高效率
    受MapReduce的影响,hadoop被设计成并行工作的,以加快任务的处理速度

  • 高扩展
    hadoop非常容易扩展,对hadoop节点的上线下线也非常方便,可以在很廉价的机器上部署

  • 高容错:能够自动将失败的任务重新分配

六、Hadoop的1.x和2.x的区别

在这里插入图片描述 在hadoop1.x,MapReduce同时负责业务逻辑的运算和资源调度,但是这样的耦合性很大;在hadoop2.x,增加了yarn负责资源调度,MapReduce只负责运算。