$ /data/hadoop/bin/hadoopchecknative -a # 警告信息:html
2017-03-27 18:02:12,116 WARN util.NativeCodeLoader:Unable to load native-hadoop library for your platform... using builtin-javaclasses where applicablejava
Native library checking:node
hadoop: falselinux
zlib: false并发
zstd : falseapp
snappy: falseide
lz4: falseoop
bzip2: false测试
openssl: false字体
ISA-L: false
参看信息:
(1)查看hadoop native的GLIBC支持的版本:
# strings/data/hadoop/lib/native/libhadoop.so.1.0.0 |grep GLIBC
GLIBC_2.2.5
GLIBC_2.12
GLIBC_2.7
GLIBC_2.14
GLIBC_2.6
GLIBC_2.4
GLIBC_2.3.4
(2)查看本地linux的GLIBC版本:
# strings /lib64/libc.so.6 | grep GLIBC
GLIBC_2.2.5
GLIBC_2.2.6
GLIBC_2.3
GLIBC_2.3.2
GLIBC_2.3.3
GLIBC_2.3.4
GLIBC_2.4
GLIBC_2.5
GLIBC_2.6
GLIBC_2.7
GLIBC_2.8
GLIBC_2.9
GLIBC_2.10
GLIBC_2.11
GLIBC_2.12
GLIBC_PRIVATE
上面报错可见,在linux上没有GLIBC 2.14,所以报错,处理方式只能是将hadoop源码在本地linux上用本地c库来编译,这样在运行hadoop时就会用本地的c库。
解决:第一种方法:
# tar -jxvf glibc-2.14.tar.bz2
# cd glibc-2.14
# tar -jxvf../glibc-linuxthreads-2.5.tar.bz2
# cd ..
# export CFLAGS="-g -O2"
# ./glibc-2.14/configure --prefix=/usr \
--disable-profile --enable-add-ons \
--with-headers=/usr/include \
--with-binutils=/usr/bin \
# make -j `grep processor /proc/cpuinfo |wc -l`
# make install
### 注意:安装编译过程:
(1)要将glibc-linuxthreads解压到glibc目录下。
(2)不能在glibc当前目录下运行configure。
(3)加上优化开关,export CFLAGS="-g -O2",不然会出现错误
# /data/hadoop/bin/hadoopchecknative -a # 核实成功
2017-03-28 09:43:42,942 INFObzip2.Bzip2Factory: Successfully loaded & initialized native-bzip2 librarysystem-native
2017-03-28 09:43:42,962 INFOzlib.ZlibFactory: Successfully loaded & initialized native-zlib library
Native library checking:
hadoop: true /data/hadoop-3.0.0-alpha2/lib/native/libhadoop.so.1.0.0
zlib: true /lib64/libz.so.1
zstd : false
snappy: true /usr/lib64/libsnappy.so.1
lz4: true revision:10301
bzip2: true /lib64/libbz2.so.1
openssl: true /usr/lib64/libcrypto.so
ISA-L: false libhadoop wasbuilt without ISA-L support
2017-03-28 09:43:43,190 INFO util.ExitUtil:Exiting with status 1
[root@master opt]# file/data/hadoop-3.0.0-alpha2/lib/native/libhadoop.so.1.0.0
/data/hadoop-3.0.0-alpha2/lib/native/libhadoop.so.1.0.0:ELF 64-bit LSB shared object, x86-64, version 1 (SYSV), dynamically linked, notstripped
### 说明:以上红色字体暂没解决,查阅资料暂时不影响使用,有知者麻烦告知,谢谢。
$./start-all.sh # 再次启动信息
WARNING: Attempting to start all ApacheHadoop daemons as hadoop in 10 seconds.
WARNING: This is not a recommendedproduction deployment configuration.
WARNING: Use CTRL-C to abort.
Starting namenodes on [master]
Starting datanodes
Starting secondary namenodes [master]
Starting resourcemanager
Starting nodemanagers
解决:第二种方法从新编译hadoop本地库 # 本人没有测试过,参考以下:
http://zkread.com/article/1187940.html
http://forevernull.com/category/%E9%97%AE%E9%A2%98%E8%A7%A3%E5%86%B3/
目前在Hadoop中用得比较多的有lzo,gzip,snappy,bzip2这4种压缩格式,笔者根据实践经验介绍一下这4种压缩格式的优缺点和应用场景,以便你们在实践中根据实际状况选择不一样的压缩格式。
1、gzip压缩
优势:压缩率比较高,并且压缩/解压速度也比较快;hadoop自己支持,在应用中处理gzip格式的文件就和直接处理文本同样;有hadoop native库;大部分linux系统都自带gzip命令,使用方便。
缺点:不支持split。
应用场景:当每一个文件压缩以后在130M之内的(1个块大小内),均可以考虑用gzip压缩格式。譬如说一天或者一个小时的日志压缩成一个gzip文件,运行mapreduce程序的时候经过多个gzip文件达到并发。hive程序,streaming程序,和java写的mapreduce程序彻底和文本处理同样,压缩以后原来的程序不须要作任何修改。
2、lzo压缩
优势:压缩/解压速度也比较快,合理的压缩率;支持split,是hadoop中最流行的压缩格式;支持hadoop native库;能够在linux系统下安装lzop命令,使用方便。
缺点:压缩率比gzip要低一些;hadoop自己不支持,须要安装;在应用中对lzo格式的文件须要作一些特殊处理(为了支持split须要建索引,还须要指定inputformat为lzo格式)。
应用场景:一个很大的文本文件,压缩以后还大于200M以上的能够考虑,并且单个文件越大,lzo优势越越明显。
3、snappy压缩
优势:高速压缩速度和合理的压缩率;支持hadoop native库。
缺点:不支持split;压缩率比gzip要低;hadoop自己不支持,须要安装;linux系统下没有对应的命令。
应用场景:当mapreduce做业的map输出的数据比较大的时候,做为map到reduce的中间数据的压缩格式;或者做为一个mapreduce做业的输出和另一个mapreduce做业的输入。
4、bzip2压缩
优势:支持split;具备很高的压缩率,比gzip压缩率都高;hadoop自己支持,但不支持native;在linux系统下自带bzip2命令,使用方便。
缺点:压缩/解压速度慢;不支持native。
应用场景:适合对速度要求不高,但须要较高的压缩率的时候,能够做为mapreduce做业的输出格式;或者输出以后的数据比较大,处理以后的数据须要压缩存档减小磁盘空间而且之后数据用得比较少的状况;或者对单个很大的文本文件想压缩减小存储空间,同时又须要支持split,并且兼容以前的应用程序(即应用程序不须要修改)的状况。
在安装过程当中会出现频繁重启测试配置文件内容,建议每次先关闭,清理日志,清理如下建立的文件:
# mkdir -p/data/{hdfsname1,hdfsname2}/hdfs/name
# mkdir -p/data/{hdfsdata1,hdfsdata2}/hdfs/data
# rm -rf /data/hadoop/tmp
### 发现还有好多东西要搞,后续有时间继续完善,而后……不知道何时了^_^