hadoop不适合小文件的存储,小文件本省就占用了不少的metadata,就会形成namenode愈来愈大。Hadoop Archives的出现视为了缓解大量小文件消耗namenode内存的问题。node
采用ARCHIVE 不会减小 文件存储大小,只会压缩NAMENODE 的空间使用tcp
1.单文件打包oop
hadoop archive -archiveName weibotest2014.har -p /crawler/weibo/2014-06-26 /crawler/weibo/内存
2.多文件夹打包hadoop
hadoop archive -archiveName weibotest2014.har -p /crawler/weibo/ 2014-06-26 2014-06-27 /crawler/weibo/test
3.匹配打包打包
hadoop archive -archiveName weibotest2014.har -p /crawler/weibo/ 2014-06* /crawler/weibo/meta
4.解压文件存储
hadoop distcp har:////crawler/weibo/weibotest2014.har /crawler/weibo/删除文件
5.查看文件夹大小
hadoop fs -du -s /crawler/weibo/2014-06-28
6.删除文件夹
hadoop fs -rm -r /crawler/weibo/2014-06-28