1. 官网
http://spark.apache.orghtml
有各类资源连接:数据库
2. 总结得很好的我的博客
【从零开始学Hadoop系列】
1)初识
http://blog.csdn.net/u010168160/article/details/51314600
2)浅析HDFS(一)
http://blog.csdn.net/u010168160/article/details/51345107
3)浅析HDFS(二)
http://blog.csdn.net/u010168160/article/details/51351670
4)浅析HDFS(三)
http://blog.csdn.net/u010168160/article/details/51352221
5)浅析MapReduce(一)
http://blog.csdn.net/u010168160/article/details/51438897
6)浅析MapReduce(二)
http://blog.csdn.net/u010168160/article/details/51439402apache
【倾情大奉送--Spark入门实战系列】
http://www.cnblogs.com/shishanyuan/p/4699644.html分布式
(做者已出书)工具
3. 名词解释:
shuffle ['ʃʌf(ə)l] n.洗牌;
fetch [fetʃ] v.(去)拿来;提取oop
RDD - Resilient Distributes Dataset,弹性分布式数据集。
resilient [rɪ'zɪljənt] adj.可迅速恢复的;有适应力的;有弹性(或弹力)的;
详见:
深刻理解RDD - http://blog.csdn.net/u010719504/article/details/51592624
Spark RDD究竟是个什么东西 - https://www.cnblogs.com/jechedo/p/5732951.htmlfetch
HA - High Availability,高可用优化
DAG图
Directed Acyclic Graph,意思是有向无环图,所谓有向无环图是指任意一条边有方向,且不存在环路的图。spa
即席查询(Ad Hoc)
是用户根据本身的需求,灵活的选择查询条件,系统可以根据用户的选择生成相应的统计报表。即席查询与普通应用查询最大的不一样是普通的应用查询是定制开发的,而即席查询是由用户自定义查询条件的。
在数据仓库领域有一个概念叫Ad hoc queries,中文通常翻译为“即席查询”。即席查询是指那些用户在使用系统时,根据本身当时的需求定义的查询。即席查询生成的方式不少,最多见的就是使用即席查询工具。通常的数据展示工具都会提供即席查询的功能。一般的方式是,将数据仓库中的维度表和事实表映射到语义层,用户能够经过语义层选择表,创建表间的关联,最终生成SQL语句。即席查询与一般查询从SQL语句上来讲,并无本质的差异。它们之间的差异在于,一般的查询在系统设计和实施时是已知的,全部咱们能够在系统实施时经过创建索引、分区等技术来优化这些查询,使这些查询的效率很高。而即席查询是用户在使用时临时生产的,系统没法预先优化这些查询,因此即席查询也是评估数据仓库的一个重要指标。即席查询的位置一般是在关系型的数据仓库中,即在EDW或者ROLAP中。多维数据库有本身的存储方式,对即席查询和一般查询没有区别。在一个数据仓库系统中,即席查询使用的越多,对数据仓库的要求就越高,对数据模型的对称性的要求也越高。对称性的数据模型对全部的查询都是相同的,这也是维度建模的一个优势。.net