Spark 概述
web
Spark最初诞生于美国加州大学伯克利分校(UC Berkeley)的AMP实验室,是一个可应用于大规模数据处理的快速、通用引擎。2013年,Spark加入Apache孵化器项目后,开始得到迅猛的发展,现在已成为Apache软件基金会最重要的三大分布式计算系统开源项目之一(即Hadoop、Spark、Storm)。编程
Spark最初的设计目标是使数据分析更快——不只运行速度快,也要能快速、容易地编写程序。为了使程序运行更快,Spark提供了内存计算,减小了迭代计算时的IO开销;而为了使编写程序更为容易,Spark使用简练、优雅的Scala语言编写,基于Scala提供了交互式的编程体验。服务器
虽然,Hadoop已成为大数据的事实标准,但其MapReduce分布式计算模型仍存在诸多缺陷,而Spark不只具有Hadoop MapReduce所具备的优势,且解决了Hadoop MapReduce的缺陷。Spark正以其结构一体化、功能多元化的优点逐渐成为当今大数据领域最热门的大数据计算平台。微信
Spark支持使用Scala、Java、Python和R语言进行编程。因为Spark采用Scala语言进行开发,所以,建议采用Scala语言进行Spark应用程序的编写。Scala是一门现代的多范式编程语言,平滑地集成了面向对象和函数式语言的特性,旨在以简练、优雅的方式来表达经常使用编程模式。Scala语言的名称来自于“可伸展的语言”,从写个小脚本到创建个大系统的编程任务都可胜任。Scala运行于Java平台(JVM,Java 虚拟机)上,并兼容现有的Java程序。app
Elasticsearch 概述编程语言
Elasticsearch 是一个分布式可扩展的实时搜索和分析引擎,一个创建在全文搜索引擎 Apache Lucene(TM) 基础上的搜索引擎.固然 Elasticsearch 并不单单是 Lucene 那么简单,它不只包括了全文搜索功能,还能够进行如下工做:编辑器
-
分布式实时文件存储,并将每个字段都编入索引,使其能够被搜索。 -
实时分析的分布式搜索引擎。 -
能够扩展到上百台服务器,处理PB级别的结构化或非结构化数据。
教程概述
课程围绕用户标签精准营销的需求,考虑到 Spark 和 Elasticsearch 的市场流行度和技术成熟度,课程以此为主要技术栈来实现。分布式
课程涵盖了数据同步、数据清洗、用户标签化等具体教学,带你领略企业级数据平台的开发步骤。同时,老师还会在整个过程当中和你一块儿探讨数据平台的一些关键性话题,好比:电商数仓、订单宽表、用户画像、数据血缘等等。函数
该教程除了 Spark 、Elasticsearch,还包括了Spring Boot 和Vue.js 搭建完整项目的经验,不管是对大数据开发的初学者仍是中高级开发工程师,都有必定的指导意义。
如下是课程截图:
获取方式:
后台回复[ Spark+ES ] 便可获取网盘下载连接。
最后,分享一些比较系统的学习资料,更多资料持续更新中···:
获取方式:点击右下角 “在看” 后台回复关键词:【人工智能】、【java】、【java毕设】、【Elasticsearch】或者 【打包】一键带走领取网盘连接。


本文分享自微信公众号 - 一万小时极客(coding-Hub)。
若有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一块儿分享。