深刻浅出FEA-spk，有原理有案例接地气！

时间 2019-12-01

标签深刻 fea spk 原理案例接地繁體版

原文原文链接

随着大数据和云计算时代的到来，数据规模愈来愈大，随之出现了不少大数据框架，好比Hadoop用来实现分布式文件存储的HDFS，MapReduce、Spark、Storm等计算框架，Hbase，Mongob等数据库，Hive数据仓库。mysql

为了更好的处理海量数据，使得不懂Spark的数据分析人员能够很方便的使用Spark来进行数据分析和挖掘，FEA研发了FEA-spk技术。FEA-spk是以Spark为内核引擎，提供了交互式的分析，它的功能几乎覆盖了全部的spark操做，而且能够对结果数据进行可视化展现。它能够和众多的大数据计算框架结合，好比hive,hbase,mongodb,hdfs等。能够保存和读取各类文件格式，好比parquet,avro,orc,json,csv等文件格式，真正作到了和大数据进行融合！sql

咱们今天，从架构、运行原理、任务的查看和监控、内存的分配与调优、DF表转化等方面，深刻浅出认识一下FEA-spk。mongodb

1. FEA-spk的架构数据库

2. FEA-spk运行原理json

FEA-spk采用yarn-client模式运行在hadoop的yarn上。在使用FEA-spk的时候，在客户端的FEA界面先要建立一个spk的链接，以下图所示：架构

这个时候就会在Hadoop yarn界面启动一个应用，以下图所示：框架

而后就能够加载数据，对数据进行分析了。分布式

FEA-spk支持多种数据源，最多见的固然是HDFS了，它是分布式存储文件系统，当咱们要处理的数据量很大，好比TB级的时候，就能够把数据放在HDFS上面，而后使用FEA-spk把HDFS数据加载到咱们使用的Spark集群的内存里面，克服了单机内存不足的问题，使得分布式内存计算成为了可能。oop

下面咱们来加载一个存放在hdfs目录的csv文件大数据

随后能够对DF表进行各类各样的操做，好比group,agg等，这里再也不叙述了（在FEA官方网站有FEA-spk的操做手册，很详细的介绍了各类操做）。

最后，对计算后的结果进行保存，好比保存到hdfs,hive,mysql中等。

3. FEA-spk运行任务的查看和监控

咱们在运行FEA-spk的时候，须要查看运行了多长时间，划分为几个stage,

每一个stage的task数，运行了多长时间等，按照如下的步骤进行操做.

点击ApplicationMaster,进入下面的页面

而后就能够查看各类指标了

4. FEA-spk内存的分配与调优

因为FEA-spk是基于内存进行计算的，因此对内存的分配就显得尤其重要。

通常要调节上图的几个参数。在FEA客户端的$SPARK_HOME/conf的

spark-defaults.conf目录

5. FEA-spk的DF表和FEA的DF表转化

若是咱们须要对FEA-spk的DF表转化为FEA的DF表，只须要下面一条命令就能够了

df=@udf sdf by spk.to_DF

同理，若是要转化为FEA-spk的DF表，须要运行如下一条命令

sdf=@udf spk,df by spk.to_SDF

以上就是FEA-spk技术的完整介绍，但愿你们多多支持哦。