hadoop的kerberos认证

言归正传,介绍过hadoop的simple认证和kerberos后,咱们在这一章介绍hadoop的kerberos认证html

咱们还使用hadoop集群的机器。java

OS 版本: Centos6.4node

Kerberos版本: krb5-1.10.3linux

环境配置web

机器名数据库

Ip地址apache

功能安全

安装模块服务器

ganglia.localdomain网络

192.168.124.140

Kerberos server

krb5-libs

krb5-server

krb5-workstation

krb5-devel

hadoop1.localdomain

192.168.124.135

Namenode

Datanode

Jobtracker

tasktracker

krb5-libs

krb5-workstation

krb5-appl-clients

hadoop2.localdomain

192.168.124.136

Datanode

tasktracker

Krb5-libs

Krb5-workstation

krb5-appl-servers

hadoop3.localdomain

192.168.124.137

Datanode

tasktracker

Krb5-libs

Krb5-workstation

krb5-appl-servers

kerberos的安装,这里就不介绍了,咱们建立了一个LOCALDOMAIN域的数据库

咱们仍是要给出配置文件的信息给你们参考

vi /etc/krb5.conf 主要修改realm

 

[logging]
default = FILE:/var/log/krb5libs.log
kdc = FILE:/var/log/krb5kdc.log
admin_server = FILE:/var/log/kadmind.log

[libdefaults]
default_realm = LOCALDOMAIN
dns_lookup_realm = false
dns_lookup_kdc = false
ticket_lifetime = 24h
renew_lifetime = 7d
forwardable = true

[realms]
LOCALDOMAIN = {
kdc = ganglia.localdomain
admin_server = ganglia.localdomain
}

[domain_realm]
.example.com = LOCALDOMAIN
example.com = LOCALDOMAIN

 

vi /var/kerberos/krb5kdc/kdc.conf

[kdcdefaults]
kdc_ports = 88
kdc_tcp_ports = 88

[realms]
LOCALDOMAIN = {
#master_key_type = aes256-cts
acl_file = /var/kerberos/krb5kdc/kadm5.acl
dict_file = /usr/share/dict/words
admin_keytab = /var/kerberos/krb5kdc/kadm5.keytab
max_renewable_life=10d
supported_enctypes = aes256-cts:normal aes128-cts:normal des3-hmac-sha1:normal arcfour-hmac:normal des-hmac-sha1:normal des-cbc-md5:normal des-cbc-crc:normal
}

 

vi /var/kerberos/krb5kdc/kadm5.acl

*/admin@LOCALDOMAIN     *

 

在hadoop中,kerberos须要建立principle和生成keytab文件。

1. 建立principle

hadoop的kerberos认证,须要三种principle: hadoop, host, HTTP

addprinc -randkey hadoop/hadoop1.localdomain@LOCALDOMAIN

addprinc -randkey hadoop/hadoop2.localdomain@LOCALDOMAIN

addprinc -randkey hadoop/hadoop3.localdomain@LOCALDOMAIN

addprinc -randkey host/hadoop1.localdomain@LOCALDOMAIN

addprinc -randkey host/hadoop2.localdomain@LOCALDOMAIN

addprinc -randkey host/hadoop3.localdomain@LOCALDOMAIN

addprinc -randkey  HTTP/hadoop1.localdomain@LOCALDOMAIN

addprinc -randkey  HTTP/hadoop2.localdomain@LOCALDOMAIN

addprinc -randkey  HTTP/hadoop3.localdomain@LOCALDOMAIN

使用listprincs查看一下结果

 

2. 建立keytab文件:hadoop.keytab

ktadd -norandkey -k /root/hadoop.keytab hadoop/hadoop1.localdomain@LOCALDOMAIN

ktadd -norandkey -k /root/hadoop.keytab hadoop/hadoop2.localdomain@LOCALDOMAIN

ktadd -norandkey -k /root/hadoop.keytab hadoop/hadoop3.localdomain@LOCALDOMAIN

ktadd -norandkey -k /root/hadoop.keytab host/hadoop1.localdomain@LOCALDOMAIN

ktadd -norandkey -k /root/hadoop.keytab host/hadoop2.localdomain@LOCALDOMAIN

ktadd -norandkey -k /root/hadoop.keytab host/hadoop3.localdomain@LOCALDOMAIN

ktadd -norandkey -k /root/hadoop.keytab HTTP/hadoop1.localdomain@LOCALDOMAIN

ktadd -norandkey -k /root/hadoop.keytab HTTP/hadoop2.localdomain@LOCALDOMAIN

ktadd -norandkey -k /root/hadoop.keytab HTTP/hadoop3.localdomain@LOCALDOMAIN

 

查看一下结果

klist -kt /root/hadoop.keytab

将/root/hadoop.keytab 上传到hadoop1,hadoop2和hadoop3上

修改三个bug

  1. Jdk,须要下载jce(Java Cryptography Extension)1.6.32不须要安装,低一点的版本须要。http://www.oracle.com/technetwork/java/javase/downloads/index.html
  2. 时间同步问题,kdc和运行hadoop的服务器,时间必须是同步的,若是在虚拟机中运行,若是时间不一致,也会形成credential失效。
  3. Kdc默认不支持renew功能的,运行kinit 后”valid starting" and "renew until"的值是相同的时间,或者运行kinit –R后出现 kinit: Ticket expired while renewing credentials

有两种方法能够解决此问题,第一种方式就是在建立domain以前,在kdc.conf中增长 max_renewable_life = 7d,而后建立domain。第二种方式使用modprinc修改全部的principle,modprinc -maxrenewlife 7days krbtgt/ganglia.localdoamin/LOCALDOMAIN

modprinc -maxrenewlife 7days K/M/LOCALDOMAIN

modprinc -maxrenewlife 7days hadoop/hadoop1.localdomain/LOCALDOMAIN

modprinc -maxrenewlife 7days hadoop/hadoop2.localdomain/LOCALDOMAIN

modprinc -maxrenewlife 7days hadoop/hadoop3.localdomain/LOCALDOMAIN

modprinc -maxrenewlife 7days host/hadoop1.localdomain/LOCALDOMAIN

modprinc -maxrenewlife 7days host/hadoop2.localdomain/LOCALDOMAIN

modprinc -maxrenewlife 7days host/hadoop3.localdomain/LOCALDOMAIN

modprinc -maxrenewlife 7days HTTP/hadoop1.localdomain/LOCALDOMAIN

modprinc -maxrenewlife 7days HTTP/hadoop2.localdomain/LOCALDOMAIN

modprinc -maxrenewlife 7days HTTP/hadoop3.localdomain/LOCALDOMAIN

 

配置hadoop

vi conf/core-site.xml

<configuration>

    <property>

        <name>hadoop.tmp.dir</name>

        <value>/home/hadoop/repo4/tmp</value>

        <description>A base for other temporary directories.</description>

    </property>

    <property>

        <name>fs.default.name</name>

        <value>hdfs://hadoop1.localdomain:9000</value>

    </property>

    <property>

        <name>hadoop.security.authorization</name>

        <value>true</value>

    </property>

    <property>

        <name>hadoop.security.authentication</name>

        <value>kerberos</value>

    </property>

</configuration>

修改conf/hadoop-env.sh,增长下面一句

export HADOOP_SECURE_DN_USER=hadoop

 

启动hdfs

在hadoop1上运行: bin/hadoop namenode

在hadoop1,hadoop2和hadoop3上运行: sudo bin/hadoop datanode

若是按照上面的步骤作,应该是能够可以启动hdfs的。

 

下面咱们再配置一下mapred

vi conf/hdfs-site.xml

<configuration>

    <property>

        <name>dfs.replication</name>

        <value>2</value>

    </property>

    <property>

        <name>dfs.name.dir</name>

        <value>/home/hadoop/repo4/name</value>

    </property>

    <property>

        <name>dfs.data.dir</name>

        <value>/home/hadoop/repo4/data</value>

    </property>

 

    <property>

        <name>dfs.webhdfs.enabled</name>

        <value>true</value>

    </property>

    <property>

        <name>dfs.web.authentication.kerberos.principal</name>

        <value>HTTP/_HOST@LOCALDOMAIN</value>

    </property>

    <property>

        <name>dfs.namenode.kerberos.https.principal</name>

        <value>host/_HOST@KERBEROS_HADOOP</value>

    </property>

    <property>

        <name>dfs.web.authentication.kerberos.keytab</name>

        <value>/home/hadoop/hadoop-1.2.1/conf/hadoop.keytab</value>

    </property>

 

    <property>

        <name>dfs.namenode.keytab.file</name>

        <value>/home/hadoop/hadoop-1.2.1/conf/hadoop.keytab</value>

    </property>

    <property>

        <name>dfs.namenode.kerberos.principal</name>

        <value>hadoop/_HOST@LOCALDOMAIN</value>

    </property>

    <property>

        <name>dfs.namenode.kerberos.https.principal</name>

        <value>host/_HOST@LOCALDOMAIN</value>

    </property>

    <property>

      <name>dfs.secondary.namenode.keytab.file</name>

      <value>/home/hadoop/hadoop-1.2.1/conf/hadoop.keytab</value>

    </property>

    <property>

        <name>dfs.secondary.namenode.kerberos.principal</name>

        <value>hadoop/_HOST@LOCALDOMAIN</value>

    </property>

    <property>

        <name>dfs.secondary.namenode.kerberos.https.principal</name>

        <value>host/_HOST@LOCALDOMAIN</value>

    </property>

 

    <property>

        <name>dfs.datanode.keytab.file</name>

        <value>/home/hadoop/hadoop-1.2.1/conf/hadoop.keytab</value>

    </property>

    <property>

        <name>dfs.datanode.kerberos.principal</name>

        <value>hadoop/_HOST@LOCALDOMAIN</value>

    </property>

    <property>

         <name>dfs.datanode.kerberos.https.principal</name>

         <value>host/_HOST@LOCALDOMAIN</value>

    </property>

    <property>

        <name>dfs.datanode.address</name>

        <value>0.0.0.0:1004</value>

    </property>

    <property>

        <name>dfs.datanode.http.address</name>

        <value>0.0.0.0:1006</value>

    </property>

</configuration>

 

  1. 修改conf/mapred-site.xml

<configuration>

    <property>

        <name>mapred.job.tracker</name>

        <value>http://hadoop1.localdomain:9001</value>

    </property>

 

    <property>

        <name>mapreduce.jobtracker.kerberos.principal</name>

        <value>mapred/_HOST@LOCALDOMAIN</value>

    </property>

    <property>

        <name>mapreduce.jobtracker.kerberos.https.principal</name>

        <value>host/_HOST@LOCALDOMAIN</value>

    </property>

    <property>

        <name>mapreduce.jobtracker.keytab.file</name>

        <value>/home/hadoop/hadoop-1.2.1/conf/mapred.keytab</value>

    </property>

 

    <property>

        <name>mapreduce.tasktracker.kerberos.principal</name>

        <value>mapred/_HOST@LOCALDOMAIN</value>

    </property>

    <property>

        <name>mapreduce.tasktracker.kerberos.https.principal</name>

        <value>host/_HOST@LOCALDOMAIN</value>

    </property>

    <property>

        <name>mapreduce.tasktracker.keytab.file</name>

        <value>/home/hadoop/hadoop-1.2.1/conf/mapred.keytab</value>

    </property>

 

    <property>

        <name>mapred.task.tracker.task-controller</name>

        <value>org.apache.hadoop.mapred.LinuxTaskController</value>

    </property>

    <property>

        <name>mapreduce.tasktracker.group</name>

        <value>hadoop</value>

    </property>

</configuration>

 

修改后xml配置文件后,还须要作以下几步

1. 修改tasktracker的配置文件

先修改conf/taskcontroller.cfg

mapred.local.dir=/home/hadoop/repo4/mapred/local

hadoop.log.dir=/home/hadoop/hadoop-1.2.1/logs

mapreduce.tasktracker.group=hadoop

banned.users=hdfs

在建立mapred.local.dir和hadoop.log.dir指定的目录

2. 启动一下tasktracker来看一下  bin/hadoop tasktracker

出现了第一个异常: /etc/hadoop/taskcontroller.cfg not found,缘由是bin/tasktracker默认使用etc/hadoop位置的taskcontroller.cfg

咱们将taskcontroller.cfg复制到/etc/hadoop

  sudo mkdir /etc/hadoop

  sudo scp conf/taskcontroller.cfg /etc/hadoop/

3. 启动tasktracer: bin/hadoop tasktracker

可执行文件task-controller的所属者必须是root

咱们改变一下文件的所属者

  sudo chown root:root bin/task-controller

4. 继续启动tasktracker: bin/hadoop tasktracker

异常继续出现:配置的组必须等于task-controller所属组

咱们继续改变一下文件的所属着和所属组

  sudo chown root:hadoop bin/task-controller

5. 继续启动tasktracker: bin/hadoop tasktracker

检查其余用户还有异常:task-controller其余用户不能有写和执行权限

运行命令去改变用户权限

  sudo chmod o-rx bin/task-controller

6.  继续启动tasktracker: bin/hadoop tasktracker

task-controller还须要被设置setuid标志位

运行命令去设置setuid标志位

  sudo chmod u+s bin/task-controller

7. 继续启动tasktracker: bin/hadoop tasktracker

用户的id比1000小

Cat /etc/passwd,查看一下用户id,而后设置参数min.user.id,一般普通用户建立,都是从500开始,由于咱们能够修改sudo vi /etc/hadoop/taskcontroller.cfg

min.user.id=500

 

测试一下mapred程序,咱们仍是用wordcount做为例子

前面咱们已经启动了hdfs,再启动mapred

在hadoop1运行:bin/hadoop jobtracker

在hadoop1,hadoop2和hadoop2上运行: bin/hadoop tasktracker

建立一个输入目录:

  bin/hadoop  dfs -mkdir /user/hadoop/input

上传一些文件

  bin/hadoop dfs -copyFromLocal  conf/* /user/hadoop/input/

查看一下结果

  bin/hadoop dfs -ls /user/hadoop/input/

启动mapred程序

 

 

使用kerberos认证的缺点

  1. 存在单点失败:它须要KDC中心服务器的服务。当KDC挂掉时,整个系统有可能瘫痪。Hadoop花了不少时间来解决namenode的单点问题。幸好这个缺陷能够经过使用复合Kerberos服务器和缺陷认证机制弥补
  2. Kerberos须要时间同步技术,Kerberos要求参与通讯的主机的时钟同步,若是主机的时钟与Kerberos服务器的时钟不一样步,认证会失败。默认设置要求时钟的时间相差不超过10分钟。一般用网络时间协议后台程序(NTP)来保持主机时钟同步。
  3. 配置很是繁琐,一般配置好一个100个节点的服务器,须要三天时间。并且还会存在一个大的问题:用户权限的问题,原来系统上的数据不能访问。这一点还须要完善。
  4. 由于全部用户使用的密钥都存储于中心服务器中,危及服务器的安全的行为将危及全部用户的密钥。

总结

Kerberos是一种性能比较高的认证和受权,而且可以进行数据加密的安全系统,可是并非特别适合hadoop,缘由有三点:1. Hadoop集群节点数多,配置和维护一个使用kerberos系统高性能,稳定的hadoop集群难度很是高。2. Hadoop中的hdfs是一个文件系统,用户的认证和受权比较复杂,难度不低于linux系统的用户和组管理。加上kerberos后,用户和用户组的管理更加复杂,一般一个合适的用户不能访问hdfs上的文件。 3. Hadoop加上kerberos后,一般原来的用户和文件,可能都失效致使数据流失。尤为是一些根目录,每每须要格式化整个系统才能使用。增长一个新用户也是比较难的。由于要考虑各个节点间的访问权限。 我认为可能轻量级的LDAP会适合hadoop系统,后面有时间来实现一下。

相关文章
相关标签/搜索