Linux 下删除了文件,空间为什么不释放?

本文由高效运维社区核心成员投稿发布
golang

做者简介windows

刘晨服务器

网名 bisal,Oracle 技术爱好者,拥有 Oracle 10g/11g OCP、Oracle 11g OCM认证,Oracle YEP 成员,目前就任于一家央企,负责系统应用运维工做。
微信

你是否遇见过 Linux 环境下,文件已经删除,可是空间未被释放的状况?这篇小文就会介绍一下,这种问题的一个场景,以及相应的解决方案。

咱们的一台应用服务器,操做系统是 Red Hat Linux,监控报警,/opt/applog文件系统使用率超阈值,总体容量为50G,但发现实际文件容量20G,剩下的30G空间是什么?restful

咱们知道,Linux 环境下,任何事物,都是以文件的形式存在,系统在后台,为每一个应用程序,分配了一个文件描述符,他为应用程序和操做系统之间的交互操做提供了通用的接口,既然是文件,就会占用空间,此时可使用 lsof 指令,他能够列出,当前系统正在打开的文件。app

>lsof
COMMAND      PID      USER   FD      TYPE    DEVICE  SIZE/OFF      NODE NAME
...
filebeat  111442   app  1r      REG     253,3 209715229   1040407 /opt/applog/E.20171016.info.012.log
filebeat  111442   app  2r      REG     253,3 209715254    385080 /opt/applog/E.20171015.info.001.log (deleted)
...

表头各字段,含义以下:运维

COMMAND:进程的名称
PID:进程标识符
USER:进程全部者
FD:文件描述符,应用程序经过文件描述符识别该文件。如cwd、txt等
TYPE:文件类型,如DIR、REG等
DEVICE:指定磁盘的名称
SIZE:文件的大小
NODE:索引节点(文件在磁盘上的标识)
NAME:打开文件的确切名称jvm

能够看出,有一些行中,NAME标识了(deleted)分布式

/opt/applog/E.20171015.info.001.log (deleted)ide

他的含义,就是这文件已被删除,但打开文件的句柄,并未关闭,再看 COMMAND 的名称是 filebeat,USER 进程全部者是 app,这是咱们的日志采集进程,app 用户开启了 filebeat 进程。

插播一下日志采集平台

传统的开源日志平台,即 ELK,由 ElasticSearch、Logstash 和 Kiabana 三个开源工具组成,其中:

  • Elasticsearch 是个开源分布式搜索引擎,分布式,零配置,自动发现,索引自动分片,索引副本机制,restful 风格接口,多数据源,自动搜索负载等。

  • Logstash 是一个开源的采集工具,他能够对日志进行收集、过滤,并将其存储供之后使用。

  • Kibana 是一个开源的图形 Web 工具,能够为 Logstash 和 ElasticSearch 提供日志分析友好的 Web 界面,能够汇总、分析和搜索重要数据日志。

常见的部署图,以下所示

8521dcb23cf3953188ee53fd8ab35d2e.jpeg

对于上面提到的 filebeat 又是什么?和 ELK 有什么联系?

知乎上有一段大牛饶琛琳的介绍(《ELKstack 权威指南》做者),很是精辟,引自 https://www.zhihu.com/question/54058964/answer/137882919

由于 logstash 是 jvm 跑的,资源消耗比较大,因此后来做者又用 golang 写了一个功能较少可是资源消耗也小的轻量级的 logstash-forwarder。不过做者只是一我的,加入http://elastic.co公司之后,由于 es 公司自己还收购了另外一个开源项目 packetbeat,而这个项目专门就是用 golang 的,有整个团队,因此 es 公司干脆把 logstash-forwarder 的开发工做也合并到同一个 golang 团队来搞,因而新的项目就叫 filebeat 了。

04cac62aaeadbf808cd7512013de22fe.jpeg

简单来说,filebeat 就是日志采集的进程 agent,负责采集应用日志文件。

对于我上面的这个问题,之因此有大量的(deleted),未释放文件句柄,还有个背景,就是因为磁盘空间很是有限,临时加了任务,每小时删除12小时前的日志,换句话说,定时任务会自动删除此时 filebeat 正在打开着的一些文件,因而这些文件,就变为了未释放的文件,所以实际文件删除了,但空间未被释放。

解决方案1:

为了迅速释放空间占用,最直接的方法,就是 kill -9 filebeat 进程,此时空间会释放。但并非从根本解决,定时任务还会删除这些,filebeat 打开的文件,致使空间满。

解决方案2:
filebeat 的配置文件 filebeat.yml,其实有两个参数:

  • close_older: 1h
    说明:Close older closes the file handler for which were not modified for longer then close_older. Time strings like 2h (2 hours), 5m (5 minutes) can be used.

即若是一个文件在某个时间段内没有发生过更新,则关闭监控的文件handle,默认1小时。

  • force_close_files: false
    说明:This option closes a file, as soon as the file name changes. This config option is recommended on windows only. Filebeat keeps the files it’s reading open. This can cause issues when the file is removed, as the file will not be fully removed until also Filebeat closes the reading. Filebeat closes the file handler after ignore_older. During this time no new file with the same name can be created. Turning this feature on the other hand can lead to loss of data on rotate files. It can happen that after file rotation the beginning of the new file is skipped, as the reading starts at the end. We recommend to leave this option on false but lower the ignore_older value to release files faster.

即当文件名称有变化时,包括更名和删除,会自动关闭一个文件。

这两个参数结合起来,根据应用需求,一个文件30分钟内不更新,则须要关闭句柄,文件更名或删除,须要关闭句柄

close_older: 30m
force_close_files: true

能够知足,filebeat 采集日志,以及定时删除历史文件,这两个任务的基本要求。

若是您以为此篇文章对您有帮助,欢迎关注微信公众号:bisal 的我的杂货铺,您的支持是对我最大的鼓励!共同窗习,共同进步:)

a21ba0ce2aad0ef796daf16e8a8e15dd.jpeg