详解Apache Kylin安装和踩坑

时间 2019-11-12

标签详解 apache kylin 安装栏目 Apache 繁體版

原文原文链接

1. 背景

最近在学习kylin，在安装的时候遇到一些坑，特地记录起来，也但愿一样在学习kylin的人，少踩一些坑（要是连安装都过不去，还怎么学！！！）。html

2. 环境

我选的kylin版本是1.5.4，由于买了一本叫《Apache kylin权威指南》，书中以1.5.x为蓝本，为了不少踩坑，保持和书中版本一致。java

关于kylin安装环境，参考Hadoop Environment，下面是我本身的环境，只是为了学习，全部的安装都是伪分布式的，也没有关注高可用node

Ubuntu 14.04.5 LTS
hadoop-2.7.1.tar.gz
jdk-8u172-linux-x64.tar.gz
hbase-1.2.5-bin.tar.gz
apache-kylin-1.5.4-HBase1.x-bin.tar.gz
apache-hive-1.2.1-bin.tar.gz

特别注意点：mysql

kylin的版本要和hbase的版本对应，具体参考官网说明（Hadoop Environment），其实kylin打包的名字也能看出来
注意hadoop和hbase的版本（hbase hadoop version）
jdk和hbase的版本（hbase jdk version）
hive和jdk版本（hive jdk version）
最好在linux环境下安装，在mac下，启动kylin的时候，脚本会报错，固然能够改脚本（mac没法启动kylin）。此外，在Ubuntu下安装也不省心，启动kylin也会报错，改脚本吧。那么，最好使用centos，我尝试了，不会报错。

3. 安装

下载安装包，这个连接能够下载到apache全部的安装包，但速度不快，有些找不到的安装包，能够在这里下载（Apache Software Foundation Distribution Directory），解压
设置环境变量

export JAVA_HOME=/root/jdk1.8.0_172
export HADOOP_HOME=/root/hadoop-2.7.1
export HIVE_HOME=/root/hive-1.2.1
export HBASE_HOME=/root/hbase-1.2.5
export KYLIN_HOME=/root/kylin-1.5.4
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$HIVE_HOME/bin:$HBASE_HOME/bin:$KYLIN_HOME/bin

安装hadoop，主要编辑的文件有：core-site.xml、hadoop-env.sh、hdfs-site.xml、mapred-site.xml、yarn-site.xml（都在$HADOOP_HOME/etc/hadoop目录内）（hadoop Pseudo-Distributed Operation）linux

ssh to localhost without a passphrase, execute the following commands

$ ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
  $ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
  $ chmod 0600 ~/.ssh/authorized_keys

hadoop-env.sh，加一行JAVA_HOME
```
export JAVA_HOME=/root/jdk1.8.0_172
```

core.xml

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/root/tmp</value>
    </property>
</configuration>

hdfs-site.xml

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
</configuration>

mapred-site.xml：jobhistory记得也要配置，我以前没有配置，致使使用kylin的sampldata构建cube失败

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
    <property>
        <name>mapreduce.jobhistory.address</name>
        <value>localhost:10020</value>
    </property>
    <property>
        <name>mapreduce.jobhistory.webapp.address</name>
        <value>localhost:19888</value>
    </property>
</configuration>

yarn-site.xml

<configuration>

<!-- Site specific YARN configuration properties -->
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
</configuration>

而后，format namenode bin/hdfs namenode -format，启动hdfssbin/start-dfs.sh，启动yarnsbin/start-yarn.sh, http://ip:50070/能够查namenode的状况，http://ip:8088/能够查看resourcemanager状况web

安装hive：主要编辑的文件为hive-site.xml，此文件经过copy hive-default.xml.template而来（hive Installation and Configuration）sql

在hdfs上面建立目录

$ $HADOOP_HOME/bin/hadoop fs -mkdir       /tmp
$ $HADOOP_HOME/bin/hadoop fs -mkdir       /user/hive/warehouse
$ $HADOOP_HOME/bin/hadoop fs -chmod g+w   /tmp
$ $HADOOP_HOME/bin/hadoop fs -chmod g+w   /user/hive/warehouse

修改hive-site.xml，主要改的地方为

<property>
    <name>javax.jdo.option.ConnectionURL</name>
    <value>jdbc:mysql://localhost:3306/hive?createDatabaseIfNotExist=true&amp;characterEncoding=UTF-8&amp;useSSL=false</value>
</property>
<property>
    <name>javax.jdo.option.ConnectionDriverName</name>
    <value>com.mysql.jdbc.Driver</value>
</property>
<property>
    <name>javax.jdo.option.ConnectionUserName</name>
    <value>hive</value>
</property>
<property>
    <name>javax.jdo.option.ConnectionPassword</name>
    <value>hive</value>
</property>

上面就是使用mysql存储hive的元数据，若是出现SSL问题，就把useSSL置为false，特别注意，不要使用默认的derby，不然在运行kylin的sampledata时，没法在hive中建立表，此外，还须要把hive-site.xml中的${system:java.io.tmpdir}和${system:user.name}分别替换成/tmp和${user.name}，固然还须要把mysql-connector-java.x.jar二方包加入hive的lib目录中，特别注意，使用5.x版本，不要使用6.x版本。最后，运行bin/hiveapache

安装hbase：主要修改的文件为hbase-env.sh、hbase-site.xml（quickstart）ubuntu

修改hbase-env.sh，添加export JAVA_HOME=/root/jdk1.8.0_172

修改hbase-site.xml

<configuration>
    <property>
        <name>hbase.rootdir</name>
        <value>hdfs://localhost:9000/hbase</value>
    </property>
    <property>
        <name>hbase.cluster.distributed</name>
        <value>true</value>
    </property>
    <property>
        <name>hbase.zookeeper.property.dataDir</name>
        <value>/root/tmp/hbase/zookeeper</value>
  </property>
</configuration>

**特别注意，对于伪分布式安装，hbase.cluster.distributed要设置为true。此外，这里使用hbase内置的zookeeper。**最后，执行bin/satrt-hbase.sh，启动hbasecentos

安装kylin

修改check-env.sh：能够先执行bin/check-env.sh，通常来讲配置了上面所述的环境变量，是能够经过check，可是这个脚本在mac和ubuntu下执行仍是有问题，mac下的问题我没有解决，Ubuntu下面问题解了。缘由是get-properties.sh内容在Ubuntu下执行有问题。不过在centos下没有这个问题（安装指南）

## 原始文件
if [ $# != 1 ]
then
    echo 'invalid input'
    exit -1
fi

IFS=$'\n'
result=
for i in `cat ${KYLIN_HOME}/conf/kylin.properties | grep -w "^$1" | grep -v '^#' | awk -F= '{ n = index($0,"="); print substr($0,n+1)}' | cut -c 1-`
do
   :
   result=$i
done
echo $result

## 修改后的文件
if [ $# != 1 ]
then
    echo 'invalid input'
    exit -1
fi

#IFS=$'\n'
result=`cat ${KYLIN_HOME}/conf/kylin.properties | grep -w "^$1" | grep -v '^#' | awk -F= '{ n = index($0,"="); print substr($0,n+1)}' | cut -c 1-`
#for i in `cat ${KYLIN_HOME}/conf/kylin.properties | grep -w "^$1" | grep -v '^#' | awk -F= '{ n = index($0,"="); print substr($0,n+1)}' | cut -c 1-`
#do
#   :
#   result=$i
#done
echo $result

我目前使用的是apache-kylin-1.5.4-HBase1.x-bin.tar.gz版本，此版本在conf目录下，把压缩相关的配置注释了，包括kylin_hive_conf.xml、kylin_job_conf_inmem.xml、 kylin_job_conf.xml、kylin.properties，我以前用1.5.3并无注释掉，致使在运行构建cube是出现snappy不存在问题。
```
# Compression codec for htable, valid value [none, snappy, lzo, gzip, lz4]
# 1.5.3默认未snappy，可是我使用的hadoop的并无snappy压缩功能，因此要么把压缩相关的配置注释掉，或者从新打包hadoop
kylin.hbase.default.compression.codec=none
```

以后，运行bin/kylin.sh satrt，启动成功后，访问http://ip:7070/kylin，用户名是ADMIN，密码是KYLIN。而后能够运行bin/sample.sh，体验下kylin，运行完sample.sh后重启kylin，就能够build cube了。

3. 其余

mac没法启动kylin 最好使用linux
运行sample.sh后hive没法找到表不要使用derby，使用mysql
build cube出现Unexpected exception: org.apache.hadoop.hive.ql.metadata.HiveException: java.lang.RuntimeException: native snappy library not available: this version of libhadoop was built without snappy support.
- 从新编译hadoop，让其支持snappy：https://blog.csdn.net/wzy0623/article/details/51263041
- 关闭kylin的压缩配置：http://kylin.apache.org/docs15/install/advance_settings.html
kylin 安装配置实验