5个Spark应用实例

Spark简介:

Spark是UC Berkeley AMP lab开发的一个集群计算的框架,相似于Hadoop,但有不少的区别。最大的优化是让计算任务的中间结果能够存储在内存中,不须要每次都写入HDFS,更适用于须要迭代的MapReduce算法场景中,能够得到更好的性能提高。html

例如一次排序测试中,对100TB数据进行排序,Spark比Hadoop快三倍,而且只须要十分之一的机器。Spark集群目前最大的能够达到8000节点,处理的数据达到PB级别,在互联网企业中应用很是普遍。算法

这里整理5个Spark的应用实例,但愿对Spark学习者可以有所帮助~编程

【使用 Spark 进行流量日志分析】

日志在计算机系统中是一个很是普遍的概念,任何程序都有可能输出日志:操做系统内核、各类应用服务器等等。日志包含不少有用的信息,例如访问者的 IP、访问的时间、访问的目标网页、来源的地址以及访问者所使用的客户端的 UserAgent 信息等,分析日志能帮助企业营销作出决策。服务器

这个项目介绍如何用 Spark 分析日志,开始介绍了日志的分类,而后从日志不断简化数据,最终只留下4 个字段,最后以手机号标准,分别按照,上行流量,下行流量,报告时间戳进行倒序排序, 但愿学完本节课,能帮助您理解学会运用 Spark 去处理复杂日志分析。框架

【大数据带你挖掘打车的秘籍】

出租车是咱们生活中常常乘坐的一种交通工具,但打车难的问题也限制了咱们更好地利用这种交通方式。在哪些地方出租车更容易打到?在何时更容易打到出租车?该项目基于某市的出租车行驶轨迹数据,带你学习如何应用Spark SQL和机器学习相关技巧,而且经过数据可视化手段展示分析结果。机器学习

过程图:工具

image.png

【Spark 实现黑名单实时过滤】

这个项目主要讲解 Spark 的 RDD 操做,让您对 Spark 算子的特性快速了解。经过演示案例实时黑名单过滤,让您切身体会到 RDD 的强大功能,而后学以至用。oop

【Spark流式计算电商商品关注度】

该项目使用Scoket来模拟用户浏览商品产生实时数据,数据包括用户当前浏览的商品以及浏览商品的次数和停留时间和是否收藏该商品。使用Spark Streaming构建实时数据处理系统,来计算当前电商平台最受人们关注的商品是哪些。适合有必定的Java编程基础以及必定得Spark知识,了解Streaming的工做机制的同窗学习性能

效果图:学习

image.png

【使用 Spark 和 D3.js 分析航班大数据】

该项目经过一个航班数据分析实例来学习 Spark 综合技巧和数据可视化技术。在航班数据分析实验中,能够学习到如何使用 OpenRefine 进行简单的数据清洗,以及如何经过 Spark 提供的 DataFrame、 SQL 和机器学习框架等工具,对航班起降的记录数据进行分析,尝试找出形成航班延误的缘由,以及对航班延误状况进行预测。在数据可视化实验中,能够学习到 D3.js 中的数据读取、插值、元素选取、属性设置等 API 的用法。

效果图:

image.png

最后:

以上5个Spark实例教程但愿对你有所帮助,更多Spark教程,点击这里便可查看~

相关文章
相关标签/搜索