1.大数据的概述node
大数据:巨量数据、海量数据,首先在数据的量上达到必定的规模,首先是人或者计算机在不合理时间内是不可以实现的数据量。linux
2.特色:数据量比较大,数据类型多样化、处理速度问题网络
3.大数据平台分为硬件和软件框架
4.hadoop出现:数据的不断加大,单机的计算机没法在硬盘、网络IO,计算机的CPU,内存存储上是没法达到的状况下出现的一种处理方式。异步
5.hadoop是Apache基金会所开发的分布式的基本跨架,能够在不了解分布式的状况下开发分布式的程序,充分的利用集群的高速运算和存储。分布式
6.解决的问题:大数据存储大,数据分析是hadoop的两大核心,HDFS和mapreduceoop
7.HDFS:可扩展、容错、高性能的分布式文件管理文件系统,异步开发一次开发屡次使用,主要用于存储。性能
8.mapreduce为分布式的计算框架,主要包含map和reduce过程复杂对HDFS中的数据进行计算。大数据
9.hadoop的优势:高可靠性、高性能、高扩展性、高效性、容错性、低成本。spa
HDFS
1.hdfs是一个分布式的文件系统,能够进行建立、删除、移动、重命名文件或者文件夹与linux的文件系统相似。
2.它由多个节点组成:nameNode(一个)、DataNode(多个)
nameNode :只有一个,用于nebula提供元数据的服务,
secondary Namenode:名称节点,帮助节点用与整合和恢复
DataNode:他为hdfs提供真正的存储。
注意:在hadoop中nameNode只有一个,在hadoop2.X以后,有了很大的改善
3.存储文档在HDFS中。被分割成块,而后这些块以流的方式复制到各个节点,存储在不一样的机架上,默认块的大小是128MB,备份的数目,这是能够用客户设置的。内部使用网络通讯
4.NameNode经过在HDFS机架中单独机架上运行,负责文件系统的客户端请求。