NiFi-面向流程的大数据处理框架

任何一个大数据分析的软件,都须要一个强大的数据拉取组件、数据仓储系统、数据处理引擎、任务调度引擎和流程设计界面。Hadoop和Spark的重点是在数据的存储和任务调度,R的重点是数据分析引擎。数据拉取组件和流程则是NiFi的主要强项。java

1、NiFi是什么?

Apache NiFi 是一个易于使用、功能强大并且可靠的数据拉取、数据处理和分发系统。Apache NiFi 是为数据流设计。它支持高度可配置的指示图的数据路由、转换和系统中介逻辑,支持从多种数据源动态拉取数据。NiFi原来是NSA的一个项目,如今开源出来,由Apache基金会进行管理。apache

NiFi flow

NiFi是基于Java的,使用Maven支持包的构建管理。 NiFi基于Web方式工做,后台在服务器上进行调度。能够为数据处理定义一个流程,而后进行处理,后台具备数据处理引擎、任务调度等组件。npm

2、NiFi的安装

首先须要安装maven和java的最新版,在Ubuntu上的OpenJDK会遇到遇到一些问题,所以建议从Oracle的官网http://java.com去下载,并且要SDK而不是jre。解压后到/etc/profile文件中设置JAVA_HOME的路径,以便让其它的程序能访问到。而后安装maven,ubuntu15.04的maven版本也都过久了,到http://maven.apache.org/去下载一个最新的版本,而后设置MAVEN_HOME的路径,并加到PATH环境变量中。设置完了后,看起来是这个样子:ubuntu

export JAVA_HOME=/home/supermap/jdk1.8.0_51
export MAVEN_HOME=/home/supermap/GIScript/apache-maven-3.3.3
export PATH=$JAVA_HOME/bin:$MAVEN_HOME/bin:$PATH

如今,到http://nifi.apache.org/去下载NiFi的安装程序。因为NiFi采用maven进行包管理,所以编译过程当中会自动下载大量的支持库,须要保持网络畅通。若是中间出错,通常是网络链接中断引发的,从新运行编译便可。浏览器

3、NiFi的使用

运行(为了让环境变量有效,最好重启一下系统):服务器

mvn clean install

或者:mvn install -Dmaven.test.skip=true网络

若是使用代理:maven

npm config set proxy http://proxy.company.com:8080
npm config set https-proxy http://proxy.company.com:8080

而后,等待...等结束后,进/home/supermap/GIScript/nifi-0.2.1/nifi-assembly/target,找到nifi-XXX-bin.zip这个文件,拷贝到本身的运行目录,解压,进去,执行:oop

./bin/nifi.sh start

而后,经过浏览器访问地址:http://localhost:8080/nifi/,正常状况下,就能看到NiFi的主界面了。大数据

中止服务使用:./bin/nifi.sh stop

目前的版本已经到1.1.X了,功能已经至关强大,可是目前的中文文档和教程都还不多,主要经过阅读源代码来理解程序的逻辑。英文还能够的,看这里:

相关文章
相关标签/搜索