rdd.take(100).foreach(println)java
spark SQL算法
Spark Streaming优劣
优点:
一、统一的开发接口
二、吞吐和容错
三、多种开发范式混用,Streaming + SQL, Streaming +MLlib
四、利用Spark内存pipeline计算
劣势:
微批处理模式,准实时sql
Storm结构:数据库
DStream
1.将流式计算分解成一系列肯定而且较小的批处理做业
2.将失败或者执行较慢的任务在其它节点上并行执行,执行的最小单元为RDD的partition
3.较强的容错能力
spark stream example code编程
四. 日志系统
1.Flume
Flume是一个分布式的日志收集系统,具备高可靠、高可用、事务管理、失败重启等功能。数据处理速度快,彻底能够用于生产环境。
Flume的核心是agent。
Agent是一个java进程,运行在日志收集端,经过agent接收日志,而后暂存起来,再发送到目的地。
Agent里面包含3个核心组件:source、channel、sink。
Source组件是专用于收集日志的,能够处理各类类型各类格式的日志数据,包括avro、thrift、exec、jms、spoolingdirectory、netcat、sequencegenerator、syslog、http、legacy、自定义。source组件把数据收集来之后,临时存放在channel中。
Channel组件是在agent中专用于临时存储数据的,能够存放在memory、jdbc、file、自定义。channel中的数据只有在sink发送成功以后才会被删除。
Sink组件是用于把数据发送到目的地的组件,目的地包括hdfs、logger、avro、thrift、ipc、file、null、hbase、solr、自定义。
Apache Kafka是分布式发布-订阅消息系统。
它最初由LinkedIn公司开发,以后成为Apache项目的一部分。Kafka是一种快速、可扩展的、设计内在就是分布式的,分区的和可复制的提交日志服务。
Apache Kafka与传统消息系统相比,有如下不一样:
一、它被设计为一个分布式系统,易于向外扩展;
二、它同时为发布和订阅提供高吞吐量;
三、它支持多订阅者,当失败时能自动平衡消费者;
四、它将消息持久化到磁盘,所以可用于批量消费
五. 分布式搜索
搜索引擎是什么?
搜索引擎是指根据必定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展现给用户的系统。搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费连接列表等。
Lucene是什么?
Lucene一个高性能、可伸缩的信息搜索库,即它不是一个完整的全文检索引擎,而是一个全检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎。
Elasticsearch是什么?
Elasticsearch一个高可扩展的开源的全文本搜索和分析工具。
它容许你以近实时的方式快速存储、搜索、分析大容量的数据。Elasticsearch是一个基于ApacheLucene(TM)的开源搜索引擎。不管在开源仍是专有领域,Lucene能够被认为是迄今为止最早进、性能最好的、功能最全的搜索引擎库。
ElasticSearch 有4中方式来构建数据库
最简单的方法是使用indexAPI,将一个Document发送到特定的index,通常经过curltools实现。
第二第三种方法是经过bulkAPI和UDPbulkAPI。二者的区别仅在于链接方式。
第四种方式是经过一个插件-river。river运行在ElasticSearch上,而且能够从外部数据库导入数据到ES中。须要注意的是,数据构建仅在分片上进行,而不能在副本上进行。
ELK是一套经常使用的开源日志监控和分析系统
包括一个分布式索引与搜索服务Elasticsearch,一个管理日志和事件的工具logstash,和一个数据可视化服务Kibana,logstash 负责日志的收集,处理和储存,elasticsearch 负责日志检索和分析,Kibana 负责日志的可视化。
六. 分布式数据库
1.Hive是什么?
Hive是基于Hadoop的一个数据仓库工具,能够将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。本质是将HQL转换为MapReduce程序
2.Hive的设计目标?
一、Hive的设计目标是使Hadoop上的数据操做与传统SQL相结合,让熟悉SQL编程开发人员可以轻松向Hadoop平台迁移
二、Hive提供相似SQL的查询语言HQL,HQL在底层被转换为相应的MapReduce操做
三、Hive在HDFS上构建数据仓库来存储结构化的数据,这些数据通常来源与HDFS上的原始数据,使用Hive能够对这些数据执行查询、分析等操做。
3.Hive的数据模型
Hive数据库
内部表
外部表
分区
桶
Hive的视图
Hive在建立内部表时,会将数据移动到数据仓库指向的路径,若建立外部表,仅记录数据所在的路径,不对数据位置作任何改变,在删除表的时候,内部表的元数据和数据会被一块儿删除,外部表只会删除元数据,不删除数据。这样来讲,外部表要比内部表安全,数据组织液更加灵活,方便共享源数据。
4.Hive的调用方式
一、Hive Shell
二、Thrift
三、JDBC
四、ODBC
5.Hive的运行机制
一、将sql转换成抽象语法树
二、将抽象语法树转化成查询块
三、将查询块转换成逻辑查询计划(操做符树)
四、将逻辑计划转换成物理计划(M\Rjobs)
6.Hive的优点
一、并行计算
二、充分利用集群的CPU计算资源、存储资源
三、处理大规模数据集
四、使用SQL,学习成本低
7.Hive应用场景
一、海量数据处理
二、数据挖掘
三、数据分析
四、SQL是商务智能工具的通用语言,Hive有条件和这些BI产品进行集成
8.Hive不适用场景
一、复杂的科学计算
二、不能作到交互式的实时查询
9.Hive和数据库(RDBMS)的区别
一、数据存储位置。Hive是创建在Hadoop之上的,全部的Hive的数据都是存储在HDFS中的。而数据库则能够将数据保存在块设备或本地文件系统中。
二、数据格式。Hive中没有定义专门的数据格式,由用户指定,须要指定三个属性:列分隔符,行分隔符,以及读取文件数据的方法。数据库中,存储引擎定义了本身的数据格式。全部数据都会按照必定的组织存储。
三、数据更新。Hive的内容是读多写少的,所以,不支持对数据的改写和删除,数据都在加载的时候中肯定好的。数据库中的数据一般是须要常常进行修改。
四、执行延迟。Hive在查询数据的时候,须要扫描整个表(或分区),所以延迟较高,只有在处理大数据是才有优点。数据库在处理小数据是执行延迟较低。
五、索引。Hive没有,数据库有
六、执行。Hive是MapReduce,数据库是Executor
七、可扩展性。Hive高,数据库低
八、数据规模。Hive大,数据库小
hive代码简单例子:
建立一个名为”test“的table
create table students (name string,age int,city string,class string) row format delimited fields terminated by ',';
load data local inpath "/opt/students.txt" into table students;
create EXTERNAL table IF NOT EXISTS studentX (name string,age int,city string,class string) partitioned by (grade string) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',';
alter table studentX add partition (grade='excellent') location '/testM/excellent/';
alter table studentX add partition (grade='good') location '/testM/good/';
alter table studentX add partition (grade='moderate') location '/testM/moderate/';
#加载数据
load data inpath "/testtry/studentsm.txt" into table studentX partition (grade='excellent');
load data inpath "/testtry/students.txt" into table studentX partition (grade='good');
show partitions studentX;
select * from studentX where grade='excellent';
表删除操做:drop table students;
建立一个名为”test“的table
create table students (name string,age int,city string,class string) row format delimited fields terminated by ',';
load data local inpath "/bin/students.txt" into table students;
###
练习:建立外部表,指定数据存放位置
create EXTERNAL table IF NOT EXISTS studentX (name string,age int,city string,class string) partitioned by (class string) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',';
alter table test add partition (class='one') location '/testmore/one';
对表进行查询
Select * from students;
分区表操做
hive>create table students (name string,age int,city string,class string) partitioned by (class string) row format delimited fields terminated by ',';
hive>load data local inpath "students.txt" into table students partition (class='one');
hive>show partitions students;
hive>select * from students where grade='two';
查询操做
group by、 order by、 join 、 distribute by、 sort by、 clusrer by、 union all
hive常见操做安全
Hbase 的模块:
原子性(是指不会被线程调度机制打断的操做,这种操做一旦开始,就一直运行到结束,中间不会有任何contextswitch(切换到领一个线程)),一致性,隔离性,持久性数据结构
Region- Region用于存放表中的行数据
Region Server架构
Master框架
Zookeepercurl
HDFS
列式存储格式 Parquet
Parquet 是面向分析型业务的列式存储格式,由 Twitter 和 Cloudera 合做开发, 2015 年 5 月从 Apache 的孵化器里毕业成为 Apache 顶级项目,最新的版本是 1.8.0 。
列式存储和行式存储相比的优点 :
能够跳过不符合条件的数据,只读取须要的数据,下降 IO 数据量。
压缩编码能够下降磁盘存储空间。因为同一列的数据类型是同样的,可使用更高效的压缩编码(例如 Run Length Encoding 和 DeltaEncoding )进一步节约存储空间。
只读取须要的列,支持向量运算,可以获取更好的扫描性能。
Hive操做
Hive
其余知识点
MLlib是spark的能够扩展的机器学习库,由如下部分组成:通用的学习算法和工具类,包括分类,回归,聚类,协同过滤,降维。
数据分析常见模式:
一、Iterative Algorithms,
二、Relational Queries,
三、MapReduce,
四、Stream Processing
Scala的好处:
一、面向对象和函数式编程理念加入到静态类型语言中的混合体
二、Scala的兼容性—-可以与Java库无缝的交互
三、Scala的简洁性—-高效,更不容易犯错
四、Scala的高级抽象
五、Scala是静态类型—-类型推断
六、Scala是可扩展的语言
ElasticSearch 基础代码:
基础问答题Q:你理解的Hive和传统数据库有什么不一样?各有什么试用场景。A:一、数据存储位置。Hive是创建在Hadoop之上的,全部的Hive的数据都是存储在HDFS中的。而数据库则能够将数据保存在块设备或本地文件系统中。二、数据格式。Hive中没有定义专门的数据格式,由用户指定,须要指定三个属性:列分隔符,行分隔符,以及读取文件数据的方法。数据库中,存储引擎定义了本身的数据格式。全部数据都会按照必定的组织存储。三、数据更新。Hive的内容是读多写少的,所以,不支持对数据的改写和删除,数据都在加载的时候中肯定好的。数据库中的数据一般是须要常常进行修改。四、执行延迟。Hive在查询数据的时候,须要扫描整个表(或分区),所以延迟较高,只有在处理大数据是才有优点。数据库在处理小数据是执行延迟较低。五、索引。Hive没有,数据库有六、执行。Hive是MapReduce,数据库是Executor七、可扩展性。Hive高,数据库低八、数据规模。Hive大,数据库小Q:Hive的实用场景A:一、Data Ingestion (数据摄取)二、Data Discovery(数据发现)三、Data analytics(数据分析)四、Data Visualization & Collaboration(数据可视化和协同开发)Q:大数据分析与挖掘方法论被称为CRISP-DM方法是以数据为中心迭代循环进行的六步活动A:它们分别是:商业理解、数据理解、数据准备、创建模型_、模型评估、结果部署_。Q:数据分析挖掘方法大体包含 ( ):A:1.分类 Classification2.估计Estimation3.预测Prediction4. 关联规则Association Rules5. 聚类Cluster6. 描述与可视化Description and VisualizationQ:在数据分析与挖掘中对数据的访问性要求包括交互性访问、批处理访问_、迭代计算、数据查询,HADOOP仅仅支持了其中批处理访问,而Spark则支持全部4种方式。Q:Spark做为计算框架的优点是什么?A:一、Spark的中间数据放到内存中,对于迭代运算效率更高二、Spark比Hadoop更通用三、Spark提供了统一的编程接口四、容错性– 在分布式数据集计算时经过checkpoint来实现容错五、可用性– Spark经过提供丰富的Scala, Java,Python API及交互式Shell来提升可用性