hadoop优化

时间 2020-01-24

标签 hadoop 优化栏目 Hadoop 繁體版

原文原文链接

配置 dfs.data.dir，将其值配置为多块磁盘linux

<key>dfs.data.dir</key>app

<value>/data/data1,/data/data2,/data/data3</value>ide

####假设多块磁盘被挂在以上目录中oop

2. mapreduce中间数据临时文件分散写server

老的配置参数为，mapred.local.dir，新配置待查。进程

3. 以noatime和nodiratime方式装载磁盘内存

#atime：linux中文件在建立、修改、访问的时候会更新时间信息，是一笔很大的资源开销。hadoop

#diratime：每一次访问须要更新inode在文件系统中的访问时间。ci

设置：

#1:卸载磁盘

#2：修改

vi /etc/fstab

/dev/xvdc /mnt/is1 ext3 defaults,noatime,nodiratime 0 0

/dev/xvdd /mnt/is2 ext3 defaults,noatime,nodiratime 0 0

#3：从新挂载

4. 取消特权块空间

默认状况下，会保留一些文件块供特权进程使用，为防止用户进程将空间占满，使得系统进程饿死。

由于咱们的集群就是使用hadoop，因此能够下降这些块的百分比。

5. vm.swappiness

该参数用来定义将内存页交换到磁盘中的主动程序，值越低表示交换频率越低。

若是交换频率太高，会致使regionserver进程由于zookeeper会话超时而被强制终止。