[磁盘空间]lsof处理文件恢复、句柄以及空间释放问题

曾经在生产上遇到过一个df 和 du出现的结果不一致的问题,为了排查究竟是哪一个进程占用了文件句柄,致使空间未释放,首先在linux上面,一切皆文件,这个问题可使用lsof这个BT的命令来处理(这个哈还能够来查询文件句柄泄露问题,应用程序的进程未关闭文件句柄)node

1.文件句柄以及空间释放问题

  • 注:在生产环境常见的问题就是,有维护人员或者开发同事使用tail命令实时查看日志。而后另外的人使用rm命令删除,这有就好致使磁盘空间不会真正的释放,由于你要删除的文件,还有进程在使用,文件句柄没有释放,即tail

模拟场景1:

你建立一个文件testfilelinux

touch testfile 

而后使用tail命令一直查看nginx

tail testfile 

这个时候另一个同事使用rm命令来删除了该文件sql

rm testfile 

正式使用lsof命令排查

若是你知道文件名,那就能够直接使用以下命令工具

lsof |grep testfile 

可是若是你不知道是哪一个文件,或者是不少文件都有这样的状况,那你须要使用以下命令测试

lsof |grep deleted 注:这个deleted表示该已经删除了的文件,可是文件句柄未释放,这个命令会把全部的未释放文件句柄的进程列出来 

注:有些系统你没有配置环境变量的话,直接lsof是会报错没有该命令,你能够直接/usr/bin/lsof 或者是/usr/sbin/lsof,根据你的系统环境本身查看spa

而后上面命令出来的结果会出来以下结果.net

root 123 12244 0 14:47 pts/1 01:02:03 tail testfile 

而后你可使用kill 命令来释放文件句柄从而释放空间日志

kill 123 

2. 文件恢复问题

在说明问题以前,先介绍下一些文件的基本概念:code

  • 文件其实是一个指向inode的连接, inode连接包含了文件的全部属性, 好比权限和全部者, 数据块地址(文件存储在磁盘的这些数据块中). 当你删除(rm)一个文件, 实际删除了指向inode的连接, 并无删除inode的内容. 进程可能还在使用. 只有当inode的全部连接彻底移去, 而后这些数据块将能够写入新的数据.
  • proc文件系统能够协助咱们恢复数据. 每个系统上的进程在/proc都有一个目录和本身的名字, 里面包含了一个fd(文件描述符)子目录(进程须要打开文件的全部连接). 若是从文件系统中删除一个文件, 此处还有一个inode的引用:
/proc/进程号/fd/文件描述符 
  • 你须要知道打开文件的进程号(pid)和文件描述符(fd). 这些均可以经过lsof工具方便得到, lsof的意思是”list open files, 列出(进程)打开的文件”. 而后你将能够从/proc拷贝出须要恢复的数据.

1.建立一个测试文件而且备份下,方面后续验证

touch testfile cp testfile testfile.backup.2014 

2.查看文件的相关信息

stat testfile File: 'testfile' Size: 343545 Blocks: 241 IO Block: 4096 regular file Device: fd00h/64768d Inode: 361579 Links: 1 Access: (0664/-rw-rw-r–) Uid: ( 505/ zhaoke) Gid: ( 505/ zhaoke) Access: 2014-11-09 15:00:38.000000000 +0800 Modify: 2014-11-09 15:00:34.000000000 +0800 Change: 2014-04-09 15:00:34.000000000 +0800 

没问题, 继续下面工做:

3.删除文件

rm testfile 

4.查看文件

ls -l testfile
ls: testfile: No such file or directory 
stat testfile stat: cannot stat 'testfile': No such file or directory 

testfile文件删除了,但不要终止仍在使用文件的进程, 由于一旦终止, 文件将很难恢复.

如今咱们开始找回数据之旅,先使用lsof命令查看下

lsof | grep testfile tail 5317 root 4r REG 253,0 343545 361579 /root/testfile (deleted) 
  • 第一个纵行是进程的名称(命令名), 第二纵行是进程号(PID), 第四纵行是文件描述符

  • 如今你知道5317进程仍有打开文件, 文件描述符是4. 那咱们开始从/proc里面拷贝出数据.

  • 你可能会考虑使用cp -a, 但实际上没有做用, 你将拷贝的是一个指向被删除文件的符号连接:

ls -l /proc/5317/fd/4 lr-x—— 1 root root 64 09 15:00 /proc/5317/fd/4 -> /root/testfile (deleted) 

使用cp -a命令测试恢复

cp -a /proc/5317/fd/4 testfile.backup 

使用ls命令来查看


ls -l testfile.backup lrwxrwxrwx 1 root root 29 09 15:02 testfile.backup -> /roor/testfile (deleted)

经过上面的命令咱们发现,使用cp -a命令,其恢复的是一个指向被删除文件的符号连接

使用file命令分别查看文件和文件描述符

  • 1.查看文件
file testfile.backup testfile.backup: broken symbolic link to '/root/testfile (deleted)' 
  • 2.查看文件描述符
file /proc/5317/fd/4 /proc/5317/fd/4: broken symbolic link to '/root/myfile (deleted)' 

根据上面的file结果,可使用cp拷贝出文件描述符数据到一个文件中,以下:

cp /proc/5317/fd/4 testfile.new 

使用上面的命令恢复后,咱们须要最终确认一下文件是否恢复,以及文件内容是否正确:

ls -l testfile.new 

而后把新旧的两个文件对比

diff testfile.new myfile.backup

转自:

http://blog.csdn.net/dutsoft/article/details/51248761 

相关文章
相关标签/搜索