没有执行过rm -rf /*的开发不是好运维

没有执行过rm -rf /*的开发不是好运维

原由

忽然收到用户反馈说网站在手机端打开是白屏, 很奇怪的问题.nginx

在电脑端试了下,确实也是白屏,HTML加载进来了,好像有个核心JS加载失败.docker

看到一个错误是: We're sorry but house doesn't work properly without JavaScript enabled. Please enable it to continue.服务器

还有一个http请求的错误是: ERR_INCOMPLETE_CHUNKED_ENCODING运维

因而尝试了一下的解决方案:网站

  • 无脑重启看看能不能解决问题?重启了一下对应Docker容器,无果
  • 多是如今版本引入的Bug?回滚代码从新build,无果.
  • nginx的问题? 重启nginx,无果.
  • 查看nginx日志,没什么有用的东西,无果.

灵机一闪,不会是磁盘空间满了吧. ui

df -h 看了一眼,99.99%的磁盘使用率.阿里云

某个Docker容器的磁盘空间用掉了34G.spa

看一眼Docker容器,直觉告诉我应该是Elasticsearch服务...日志

不算过重要的服务,先停了清理空间再说.ip

删掉了容器删了data文件,重启nginx,一切都正常Work了.

问题解决!!!

不过Elasticsearch总要从新回复回来嘛,看了下腾讯云云硬盘盘价格,也不是很贵嘛.

单独给Elasticsearch 起个数据盘吧.

做死开始

首先根据腾讯云的指示,挂在了数据盘到服务器上面.

而后给数据盘分区,接着mount到对应的路径.

嗯,好像有个警告.

难道不是这个磁盘么?换另一个看看.

执行另一个mount.

全程命令以下:

进入对应目录清空一下云盘数据吧.(PS:脑子有病才作这个,刚刚初始化的云盘哪有东西.)

ls 看一下,咋这么多奇奇怪怪的文件,难道是原来Elasticsearch docker 容器留下来的.

先删了再说.

执行 rm -rf ./*

咦,怎么有文件busy没法删除.

额,咋ls都没有了.

哈?cat 也没有了.

噗,copy也炸了.

cd 还在.

哇卡,这可咋办了.

先复盘一下作了什么事情

  • 初始化磁盘的时候没有格式化,可是mount失败
  • mount失败后没有检查缘由,直接尝试把另外一个磁盘mount进去
  • mount系统盘到指定文件夹后并无检查内容,直接rm -rf ./*
  • rm -rf ./* 此时已经基本没救了

拯救尝试

还在跑的服务基本是活着的,因此暂时来讲API和Web网站都是好的。

服务器上面跑的基本都是Docker容器, Docker镜像都在阿里云上面存着,基本不怕丢失的问题。

不过应用配置文件/服务器证书之类的东西都在上面,这个估计要折腾一下了。

cd 还能用,ls没了,cat也没了。

尝试cat xxx.conf也没用了,难道只能一点点翻配置文件么.

群里的朋友提了一句,看看你的云盘有没有备份之类的.

咦,好像两个星期前找腾讯云技术支持的时候作过一次系统镜像.

是否是能够直接拿回来直接用?

看了下具体的镜像版本和备注信息,看起来那时候上面的内容和如今的估计没太多变化.

直接重装以后更新一下各个服务的镜像到最新版本应该就行了.

放弃拯救,直接使用备份的系统镜像重装

Work...

系统备份镜像拯救世界!!!

后续操做 + 总结

  • 数据盘和系统盘分开,不要让程序的数据致使系统不可用
  • 在费用容许的状况下设置磁盘快照策略,我这边最极端的状况下也应该能回滚到一个星期前的版本
  • 下次大影响操做前先手动备份系统镜像,救命稻草通常的存在.
相关文章
相关标签/搜索