使用Zeppelin来实现大数据分析的可视化

Apache Zeppelin是ASF的一个孵化项目,实现了基于web的在线代码编辑与数据可视化。有点相似Spark-Shell的REPL。其结果能够直接用图表来展现,解决了前端白痴的苦逼。
Zeppelin官网
咱们能够直接下载 zeppelin-0.5.6-incubating-bin-all.tgz ,而后部署到服务器上,我的感受部署到Spark Master节点上会更好。修改好配置文件,而后输入命令 $ZEPPELIN_HOME/bin/zeppelin-daemon.sh start启动Zeppelin,就能够在浏览器上操做Zeppelin了。
固然你也能够下载源码到本地经过maven编译,不过总是有些依赖下载不下来,致使编译失败,最后仍是放弃了。。。前端

配置项:
Zeppelin环境变量:web

cp $ZEPPELIN_HOME/conf/zeppelin-env.sh.template $ZEPPELIN_HOME/conf/zeppelin-env.sh
vi $ZEPPELIN_HOME/conf/zeppelin-env.sh

在文件末尾增长以下配置项:
export JAVA_HOME= # JDK目录
export MASTER= # spark://master:port
export ZEPPELIN_JAVA_OPTS= #启动Zeppelin的参数。
export ZEPPELIN_NOTEBOOK_DIR="$ZEPPELIN_HOME/notebook" # 保存Zeppelin notbook的目录,notebook能够理解为spark的applicationapache

export SPARK_HOME= # Spark目录
export SPARK_SUBMIT_OPTIONS= #启动spark application的参数,同spark-submit
export HADOOP_CONF_DIR="$HADOOP_PERFIX/etc/hadoop" # hadoop配置文件的目录浏览器

zeppelin-site.xml服务器

cp $ZEPPELIN_HOME/conf/zeppelin-site.xml.template $ZEPPELIN_HOME/conf/zeppelin-site.xml
vi $ZEPPELIN_HOME/conf/zeppelin-site.xml

修改以下
<property>
<name>zeppelin.server.addr</name>
<value>192.168.1.123</value> <!-- 建议修改成本地的内网ip -->
<description>Server address</description>
</property>app

<property>
<name>zeppelin.server.port</name>
<value>28080</value> <!-- 8080容易冲突,建议修改,我是28080 -->
<description>Server port.</description>
</property>maven

经过以下命令启动Zeppelinoop

$ZEPPELIN_HOME/bin/zeppelin-daemon.sh start

未完待续。。。spa

相关文章
相关标签/搜索