原文转自:https://segmentfault.com/a/1190000000461077 node
曾经在生产上遇到过一个df 和 du出现的结果不一致的问题,为了排查究竟是哪一个进程占用了文件句柄,致使空间未释放,首先在linux上面,一切皆文件,这个问题可使用lsof这个BT的命令来处理(这个哈还能够来查询文件句柄泄露问题,应用程序的进程未关闭文件句柄)linux
注:在生产环境常见的问题就是,有维护人员或者开发同事使用tail命令实时查看日志。而后另外的人使用rm命令删除,这有就好致使磁盘空间不会真正的释放,由于你要删除的文件,还有进程在使用,文件句柄没有释放,即tailnginx
你建立一个文件testfilesql
touch testfile
而后使用tail命令一直查看数据库
tail testfile
这个时候另一个同事使用rm命令来删除了该文件vim
rm testfile
若是你知道文件名,那就能够直接使用以下命令segmentfault
lsof |grep testfile
可是若是你不知道是哪一个文件,或者是不少文件都有这样的状况,那你须要使用以下命令bash
lsof |grep deleted 注:这个deleted表示该已经删除了的文件,可是文件句柄未释放,这个命令会把全部的未释放文件句柄的进程列出来
注:有些系统你没有配置环境变量的话,直接lsof是会报错没有该命令,你能够直接/usr/bin/lsof 或者是/usr/sbin/lsof,根据你的系统环境本身查看ide
而后上面命令出来的结果会出来以下结果工具
root 123 12244 0 14:47 pts/1 01:02:03 tail testfile
而后你可使用kill 命令来释放文件句柄从而释放空间
kill 123
在说明问题以前,先介绍下一些文件的基本概念:
文件其实是一个指向inode的连接, inode连接包含了文件的全部属性, 好比权限和全部者, 数据块地址(文件存储在磁盘的这些数据块中). 当你删除(rm)一个文件, 实际删除了指向inode的连接, 并无删除inode的内容. 进程可能还在使用. 只有当inode的全部连接彻底移去, 而后这些数据块将能够写入新的数据.
proc文件系统能够协助咱们恢复数据. 每个系统上的进程在/proc都有一个目录和本身的名字, 里面包含了一个fd(文件描述符)子目录(进程须要打开文件的全部连接). 若是从文件系统中删除一个文件, 此处还有一个inode的引用:
/proc/进程号/fd/文件描述符
你须要知道打开文件的进程号(pid)和文件描述符(fd). 这些均可以经过lsof工具方便得到, lsof的意思是”list open files, 列出(进程)打开的文件”. 而后你将能够从/proc拷贝出须要恢复的数据.
touch testfile cp testfile testfile.backup.2014
stat testfile File: 'testfile'Size: 343545 Blocks: 241 IO Block: 4096 regular file Device: fd00h/64768d Inode: 361579 Links: 1Access: (0664/-rw-rw-r–) Uid: ( 505/ zhaoke) Gid: ( 505/ zhaoke) Access: 2014-11-09 15:00:38.000000000 +0800Modify: 2014-11-09 15:00:34.000000000 +0800Change: 2014-04-09 15:00:34.000000000 +0800
没问题, 继续下面工做:
rm testfile
ls -l testfilels: testfile: No such file or directory
stat testfilestat: cannot stat 'testfile': No such file or directory
testfile文件删除了,但不要终止仍在使用文件的进程, 由于一旦终止, 文件将很难恢复.
lsof | grep testfile tail 5317 root 4r REG 253,0 343545 361579 /root/testfile (deleted)
第一个纵行是进程的名称(命令名), 第二纵行是进程号(PID), 第四纵行是文件描述符
如今你知道5317进程仍有打开文件, 文件描述符是4. 那咱们开始从/proc里面拷贝出数据.
你可能会考虑使用cp -a, 但实际上没有做用, 你将拷贝的是一个指向被删除文件的符号连接:
ls -l /proc/5317/fd/4lr-x—— 1 root root 64 09 15:00 /proc/5317/fd/4 -> /root/testfile (deleted)
使用cp -a命令测试恢复
cp -a /proc/5317/fd/4 testfile.backup
使用ls命令来查看
ls -l testfile.backup
lrwxrwxrwx 1 root root 29 09 15:02 testfile.backup -> /roor/testfile (deleted)
经过上面的命令咱们发现,使用cp -a命令,其恢复的是一个指向被删除文件的符号连接
使用file命令分别查看文件和文件描述符
1.查看文件
file testfile.backup testfile.backup: broken symbolic link to '/root/testfile (deleted)'
2.查看文件描述符
file /proc/5317/fd/4/proc/5317/fd/4: broken symbolic link to '/root/myfile (deleted)'
根据上面的file结果,可使用cp拷贝出文件描述符数据到一个文件中,以下:
cp /proc/5317/fd/4 testfile.new
使用上面的命令恢复后,咱们须要最终确认一下文件是否恢复,以及文件内容是否正确:
ls -l testfile.new
而后把新旧的两个文件对比
diff testfile.new myfile.backup
lsof使用实例 SECTION "lsof使用实例" [6313-6341] 1、查找谁在使用文件系统 在卸载文件系统时,若是该文件系统中有任何打开的文件,操做一般将会失败。那么经过lsof能够找出那些进程在使用当前要卸载的文件系统,以下: # lsof /GTES11/ COMMAND PID USER FD TYPE DEVICE SIZE NODE NAME bash 4208 root cwd DIR 3,1 4096 2 /GTES11/ vim 4230 root cwd DIR 3,1 4096 2 /GTES11/ 在这个示例中,用户root正在其/GTES11目录中进行一些操做。一个 bash是实例正在运行,而且它当前的目录为/GTES11,另外一个则显示的是vim正在编辑/GTES11下的文件。要成功地卸载/GTES11,应该在通知用户以确保状况正常以后,停止这些进程。 这个示例说明了应用程序的当前工做目录很是重要,由于它仍保持着文件资源,而且能够防止文件系统被卸载。这就是为何大部分守护进程(后台进程)将它们的目录更改成根目录、或服务特定的目录(如 sendmail 示例中的 /var/spool/mqueue)的缘由,以免该守护进程阻止卸载不相关的文件系统。 SECTION "1、查找谁在使用文件系统" [6342-7488] 2、恢复删除的文件 当Linux计算机受到***时,常见的状况是日志文件被删除,以掩盖***者的踪影。管理错误也可能致使意外删除重要的文件,好比在清理旧日志时,意外地删除了数据库的活动事务日志。有时能够经过lsof来恢复这些文件。 当进程打开了某个文件时,只要该进程保持打开该文件,即便将其删除,它依然存在于磁盘中。这意味着,进程并不知道文件已经被删除,它仍然能够向打开该文件时提供给它的文件描述符进行读取和写入。除了该进程以外,这个文件是不可见的,由于已经删除了其相应的目录索引节点。 在/proc 目录下,其中包含了反映内核和进程树的各类文件。/proc目录挂载的是在内存中所映射的一块区域,因此这些文件和目录并不存在于磁盘中,所以当咱们对这些文件进行读取和写入时,其实是在从内存中获取相关信息。大多数与 lsof 相关的信息都存储于以进程的 PID 命名的目录中,即 /proc/1234 中包含的是 PID 为 1234 的进程的信息。每一个进程目录中存在着各类文件,它们可使得应用程序简单地了解进程的内存空间、文件描述符列表、指向磁盘上的文件的符号连接和其余系统信息。lsof 程序使用该信息和其余关于内核内部状态的信息来产生其输出。因此lsof 能够显示进程的文件描述符和相关的文件名等信息。也就是咱们经过访问进程的文件描述符能够找到该文件的相关信息。 当系统中的某个文件被意外地删除了,只要这个时候系统中还有进程正在访问该文件,那么咱们就能够经过lsof从/proc目录下恢复该文件的内容。 假如因为误操做将/var/log/messages文件删除掉了,那么这时要将/var/log/messages文件恢复的方法以下: 首先使用lsof来查看当前是否有进程打开/var/logmessages文件,以下: # lsof |grep /var/log/messages syslogd 1283 root 2w REG 3,3 5381017 1773647 /var/log/messages (deleted) 从上面的信息能够看到 PID 1283(syslogd)打开文件的文件描述符为 2。同时还能够看到/var/log/messages已经标记被删除了。所以咱们能够在 /proc/1283/fd/2 (fd下的每一个以数字命名的文件表示进程对应的文件描述符)中查看相应的信息,以下: # head -n 10 /proc/1283/fd/2 Aug 4 13:50:15 holmes86 syslogd 1.4.1: restart. Aug 4 13:50:15 holmes86 kernel: klogd 1.4.1, log source = /proc/kmsg started. Aug 4 13:50:15 holmes86 kernel: Linux version 2.6.22.1-8 (root@everestbuilder.linux-ren.org) (gcc version 4.2.0) #1 SMP Wed Jul 18 11:18:32 EDT 2007 Aug 4 13:50:15 holmes86 kernel: BIOS-provided physical RAM map: Aug 4 13:50:15 holmes86 kernel: BIOS-e820: 0000000000000000 - 000000000009f000 (usable) Aug 4 13:50:15 holmes86 kernel: BIOS-e820: 000000000009f000 - 00000000000a0000 (reserved) Aug 4 13:50:15 holmes86 kernel: BIOS-e820: 0000000000100000 - 000000001f7d3800 (usable) Aug 4 13:50:15 holmes86 kernel: BIOS-e820: 000000001f7d3800 - 0000000020000000 (reserved) Aug 4 13:50:15 holmes86 kernel: BIOS-e820: 00000000e0000000 - 00000000f0007000 (reserved) Aug 4 13:50:15 holmes86 kernel: BIOS-e820: 00000000f0008000 - 00000000f000c000 (reserved) 从上面的信息能够看出,查看 /proc/8663/fd/15 就能够获得所要恢复的数据。若是能够经过文件描述符查看相应的数据,那么就可使用 I/O 重定向将其复制到文件中,如: cat /proc/1283/fd/2 > /var/log/messages 对于许多应用程序,尤为是日志文件和数据库,这种恢复删除文件的方法很是有用。