hadoop与spark的区别是什么
一、目的:首先须要明确一点,hadoophe spark 这两者都是大数据框架,即使如此两者各自存在的目的是不一样的。
Hadoop是一个分布式的数据基础设施,它是将庞大的数据集分派到由若干台计算机组成的集群中的多个节点进行存储。
Spark是一个专门用来对那些分布式存储的大数据进行处理的工具,spark自己并不会进行分布式数据的存储。安全
二、二者的部署:Hadoop的框架最核心的设计就是:HDFS和MapReduce。
HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。
因此使用Hadoop则能够抛开spark,而直接使用Hadoop自身的mapreduce完成数据的处理。
Spark是不提供文件管理系统的,但也不是只能依附在Hadoop上,它一样能够选择其余的基于云的数据系统平台,但spark默认的通常选择的仍是hadoop。框架
三、数据处理速度:Spark,拥有Hadoop、 MapReduce所具备能更好地适用于数据挖掘与机器学习等须要迭代的的优势;
但不一样于MapReduce的是Job中间输出结果能够保存在内存中,从而再也不须要读写HDFS,机器学习
Spark 是一种与hadoop 类似的开源集群计算环境,
可是二者之间还存在一些不一样之处,这些有用的不一样之处使 Spark 在某些工做负载方面表现得更加优越,
换句话说,Spark 启用了内存分布数据集,除了可以提供交互式查询外,它还能够优化迭代工做负载。分布式
四、数据安全恢复:
Hadoop每次处理的后的数据是写入到磁盘上,因此其天生就能颇有弹性的对系统错误进行处理;
spark的数据对象存储在分布于数据集群中的叫作弹性分布式数据集中,这些数据对象既能够放在内存,也能够放在磁盘,因此spark一样能够完成数据的安全恢复。ide