spark与hadoop生态圈(一)

Spark是一个开源计算框架,开发者借助于其API编写分布式应用来使用集群资源,无须关心底层的分布;它支持各种工作负载,包括批处理、流式计算、商业智能分析、图形计算、以及机器学习。 为什么使用spark 可编程性:MapReduce需要几个链式的步骤来完成某些工作负载步骤,还需要这对不同应用的专用系统; Mr在计算步骤之间将中间数据写入磁盘,使得一些执行交互式分析和迭代算法的应用程序在重用数据时,
相关文章
相关标签/搜索