《hadoop权威指南》学习笔记

第一章 初识hadoop 大量的数据胜于好的算法。 一、数据存储与分析 实现多个磁盘的并行读写,需要解决的问题: 1、硬件故障,一旦使用多个硬件,任一硬件发生故障的概率很高,避免数据丢失的办法就是进行数据备份。 RAID:冗余磁盘阵列是按数据备份的原理实现的; Hadoop的文件系统,即HDFS也是一类 2、大多数分析任务需要以某种方式结合大部分数据共同完成分析任务,即从一个磁盘读取的数据可能需要
相关文章
相关标签/搜索