大数据和Hadoop平台介绍

时间 2020-11-23

标签 html java node ios 算法数据库安全服务器网络数据结构栏目 Hadoop 繁體版

原文原文链接

大数据和Hadoop平台介绍

定义

大数据是指其大小和复杂性没法经过现有经常使用的工具软件，以合理的成本，在可接受的时限内对其进行捕获、管理和处理的数据集。这些困难包括数据的收入、存储、搜索、共享、分析和可视化。大数据要知足三个基本特征（3V），数据量（volume）、数据多样性（variety）和高速（velocity）。数据量指大数据要处理的数据量通常达到TB甚至PB级别。数据多样性指处理的数据包括结构化数据、非结构化数据（视频、音频、网页）和半结构化数据（xml、html）。高速指大数据必须可以快速流入而且能获得快速处理。html

大数据发展背景

数据爆炸。伴随信息技术的应用，全球数据量呈几何级数增加。过去几年间的数据总量超过了人类历史上的数据总和。芯片、摄像头、各自传感器遍及世界各个角落，本来不能被感知的事物均可以被监测。软硬件技术的不断进步，也为处理大数据创造的条件。java

大数据的应用领域

在公共领域，跨部门提供大数据服务，能大幅减小检索和处理时间。提升公共服务的效率。
企业经过收集产品在使用中产生的海量数据，进行分析，能够改善产品性能。
大数据能帮助企业对用户进行更加细化的区分，并针对用户的不一样需求提供个性化的服务。这是营销和危机管理经常使用的办法。
利用自动化算法支持或替代人工决策。对大数据的分析能极大改善决策效果，下降风险，并挖掘出其余方法没法发现的宝贵信息。
商业模式、产品与服务创新。Netflix根据大数据分析结果，制做《纸牌屋》。

大数据研究课题

数据获取问题。包括哪些数据须要保存，哪些数据须要丢弃，如何可靠的存储咱们须要的数据。
数据结构问题。微博博客是没有结构的数据，图像和视频在存储和显示方面具备结构，可是没法包含语义信息进行检索。若是将没有语义的内容转换为结构化的格式，并进行后续处理，是须要面对的另外一项挑战。
数据集成问题。不一样来源数据之间进行关联，才能充分发挥数据的做用。
数据分析、组织、抽取和建模
如何呈现分析结果

科技公司大数据产品

谷歌：MapReduce
IBM：InfoSphere大数据分析平台
SAS：高性能分析服务器和SAS DataFlux数据流处理引擎
EMC：Greenplum 支持海量并行处理
Teradata：Aster Data 基于MapReduce，提供了多种统计软件包

大数据发展趋势

数据资源化。大数据成为企业和社会关注的重要战略资源，并已经成为你们争相抢夺的焦点。
与云计算深度结合。大数据离不开云处理，云处理为大数据提供弹性可拓展的基础服务。
带动科学理论的突破。带动数据挖掘、机器学习、人工智能和数据科学等相关技术的发展。

大数据处理通常步骤

数据的收集。

第一个方式是抓取或者爬取。例如搜索引擎就是这么作的：它把网上的全部的信息都下载到它的数据中心，而后你一搜才能搜出来。
第二个方式是推送，有不少终端能够帮我收集数据。好比说小米手环，能够将你天天跑步的数据，心跳的数据，睡眠的数据都上传到数据中内心面。node

数据的传输

通常会经过队列方式进行，由于数据量实在是太大了，数据必须通过处理才会有用。可系统处理不过来，只好排好队，慢慢处理。ios

数据的存储

存储要确保安全，不易丢失，高容错性。算法

数据的处理和分析

存储的数据是原始数据，原始数据可能是杂乱无章的，有不少垃圾数据在里面，于是须要清洗和过滤，获得一些高质量的数据。对于高质量的数据，就能够进行分析，从而对数据进行分类，或者发现数据之间的相互关系，获得知识。数据库

数据的检索和挖掘

使想要的信息容易被搜索到。挖掘信息之间的相互关系。安全

开源框架

通常大数据平台的框架以下图

Hadoop HDFS和Hadoop MapReduce做为大数据存储和处理的开山鼻祖，大数据平台上都处于核心位置。下面介绍一下两个框架的基本原理。网络

Hadoop HDFS基本原理

HDFS全称Hadoop Distributed File System。HDFS是一个分布式文件系统，能够部署在一个服务器集群上。Java语言开发，能够部署在任何支撑java的机器上。
HDFS有几个基本概念NameNode、DataNode和block。
NameNode负责整个分布式文件系统的元数据管理，也就是文件路径名，数据block的ID以及存储位置等信息。还要记录一些事情，好比哪些节点是集群的一部分，某个block有几份副本等。

DataNode是实际存储文件数据的节点。DataNode会经过心跳和NameNode保持通讯，若是DataNode超时未发送心跳，NameNode就会认为这个DataNode已经失效，当即查找这个DataNode上存储的block有哪些，以及这些block还存储在哪些服务器上，随后通知这些服务器再复制一份block到其余服务器上，保证HDFS存储的block备份数符合用户设置的数目，即便再有服务器宕机，也不会丢失数据。

Block是HDFS中的存储单元，文件被写入HDFS时，会被切分红多个block块，默认的块大小是128MB，每一个数据块默认会有三个副本。

数据写入：首先将文件分红多个block，每一个block会被写入三个DataNode中，写入哪三个DataNode中是由NameNode指定的，写入完成，NameNode会记录这些信息。同一个文件中不一样的block可能会被写入彻底不一样的DataNode中。

数据读取：数据读取时按block读取。每个block时，会从NameNode获取信息，知道从哪一个DataNode中读取，通常是就近原则。全部该文件的block读取完成，构成完整的文件。
客户端和Datanode是同一个机器：距离为0 ，表示最近
客户端和Datanode是同一个机架的不一样机器：距离为2 ，稍微远一点
客户端和Datanode位于同一个数据中心的不一样机架上：距离为4，更远一点数据结构

Hadoop MapReduce基本原理

Hadoop MapReduce是一个分布式计算框架，其中的运算均可以在多个机器上并行进行。使用者只须要完成运算自己的编码，不须要关心并行计算的底层细节。
MapReduce背后的思想很简单，就是把一些数据经过Map来归类，经过Reduce来把同一类的数据进行处理。Map和reduce的过程都是利用集群的计算能力并行执行的。计算模型的核心是Map和Reduce函数，两个函数由用户自行实现。

把原始大数据集切割成小数据集时，一般小数据集小于等于HDFS的一个block的大小，这样一个小数据集位于一个物理机上，便于本地计算。Map和reduce各自的启动任务数量能够由用户指定。

上图表示一个MapReduce统计单词出现次数的过程，原始数据分割为4个子文件，对每一个子文件按照用户的Map函数会产生<单词, 出现次数>的<k2,v2>形式的结果。而后把相同单词的<k2,v2>组合在一块儿构成<k2,List(v2)>的形式，做为Reduce函数的输入，相同的k2必定分发给相同的Reduce任务处理，例如单词lorem的全部计算都由第一个Reduce任务来完成。按照这个思想，即便要统计的文件数量上千万个，单词数量有几千个，可是经过MapReduce框架，只要集群机器数量够多，也是能够在可接受时间内计算完成的。

大数据行业应用

互联网：定向广告、用户行为分析、内容推荐、搜索引擎优化
金融：反洗钱、反欺诈、客户价值分析、目标市场客户聚类、偿还能力预测、股票投资组合趋势分析
电信：业务设计优化、客户流失预测、网络质量优化
医疗卫生：临床数据比对、决策支持、就诊行为分析、疾病模式分析
公共安全：嫌疑人行为预测分析、恐怖活动检测、危险性分析、关系人分析
智慧交通：整个传感器、GPS和健康视频等设备产生的海量数据，结合气象监测设备的天气情况数据、人口分布数据、移动通讯数据，实现智能公共交通。

推广使用面临的挑战

少数机构对数据绝对垄断，大部分数据集中在这些机构内部。就像罕见病数据，只有经过共享机制和平台，才能为患者提供帮助。
大数据应用应该以尊重用户隐私为前提，同时如何兼顾数据的开放和创新，是大数据行业面临的一个重要问题。企业经过大数据来理解用户的特色和需求，须要充分尊重他们的隐私权。
现有的大数据架构没法保证数据自己不被篡改，于是限制了须要创建信任和确权的应用场景。诸如信用类的数据，若是没有办法确保数据的真实有效性，则很难运用在相关机构的决策流程中。