好程序员技术解析 Hadoop和spark的性能比较,大数据培训一度受到广大IT爱好者的追捧,成为最热门的培训学科!前景无需多述,高薪就业,职场一片坦途!今天好程序员就为你们讲解下关于大数据的知识要点。问:
Hadoop和spark的性能有何区别。
若是说Hadoop是一家大型包工队,咱们能够经过它组织人员进行合做,搬砖建造房屋,弊端在于速度较慢。
Spark是另外一家包工队,成立时间较晚,可是他们搬砖更为灵活,能够实时交互地盖房子,工做效率比Hadoop快得多。
当Hadoop开始升级,指定调度专家YARN调度工人。Spark从多个仓库搬砖(HDFS,Cassandra,S3,HBase),还容许不一样专家如YARN/ MESOS对人员和任务进行调度。
固然,Spark和Hadoop团队进行合做,问题变得更加复杂。做为两个独立的包工队,两者都有着各自的优缺点和特定的业务用例。
所以,咱们说Hadoop和spark的性能区别在于:
Spark在内存中运行速度比Hadoop快100倍,在磁盘上运行速度快10倍。众所周知,Spark在数量只有十分之一的机器上,对100TB数据进行排序的速度比Hadoop MapReduce快3倍。此外,Spark在机器学习应用中的速度一样更快,例如Naive Bayes和k-means。
Spark性能之因此比Hadoop更优,缘由在于每次运行MapReduce任务时,Spark都不会受到输入输出的限制。事实证实,应用程序的速度要快得多。再有Spark的DAG能够在各个步骤之间进行优化。Hadoop在MapReduce步骤之间没有任何周期性链接,这意味着在该级别不会发生性能调整。可是,若是Spark与其余共享服务在YARN上运行,则性能可能会下降并致使RAM开销内存泄漏。出于这个缘由,若是用户有批处理的诉求,Hadoop被认为是更高效的系统。程序员