大型网站典型故障案例分析(摘录)

一.写日志也会引起故障java

故障现象:某应用服务器集群发布不久后就出现多台服务器相继报警,磁盘可用空间低于警惕值,而且很快有服务器宕机,登陆到线上服务器,发现log文件夹的文件迅速增长,不断消耗磁盘空间。web

缘由分析:这是一个普通的应用服务器集群,不须要存储数据,所以服务器里配置的是一块100G的小硬盘,安装操做系统,web服务器,java虚拟机,应用程序后,空闲空间只有几十G了,正常下够有了,可是该应用的开发人员将log输出的level全局配置为Debug,这一次简单的web请求就产生大量的log文件输出,在高并发的用户请求下,很快消耗完很少的磁盘空间。sql

经验教训:数据库

应用程序本身的日志输出配置和第三方组建日志输出要分别配置apache

检查log配置文件,日志输出级别至少为warn,而且检查log输出代码调用,调用级别符合真实日志级别编程

二.高并发访问数据库引起的故障浏览器

故障现象:某应用发布后,数据库load居高不下,远超过正常水平,持续报警缓存

缘由分析:检查数据库,发现报警是由于某条sql引发的,这条sql是一条简单的有索引的查询,不该该引发报警,经检查其执行频率太高,追查这个sql,发现被网站首页应用调用,主页被访问多了,这个sql也就被执行的多了服务器

经验教训:网络

首页不该该访问数据库,首页须要的数据能够从缓存服务器或者搜索服务器获取。

首页最好是静态的

 

三.缓存引起的故障

故障现象:没有新应用发布,可是数据库服务器忽然load飙升,并很快失去响应,DBA将数据库访问切换到备机,Load也很快飙升,并失去响应,最终引起全站瘫痪

缘由分析:缓存服务器在网站服务器集群中的地位一直比较低,服务器配置和管理级别比其余服务器要低一些,人们认为缓存是改善性能的手段,失去一些缓存也没有什么问题,有时候关闭一两台缓存服务器也确实没啥问题,因此长期疏于管理。结果此次一个缺少经验的工程师关闭了关闭了缓存服务器所有的几十台memcached,致使了网站所有瘫痪的重大事故

经验教训:

当缓存不只仅是提升性能,而是成为网站架构不可或缺的一部分时,对缓存服务器的管理须要提升到和其余服务器一个级别

 

四.应用启动不一样引起的故障

故障现象:某应用发布后,服务器当即崩溃

缘由分析:应用程序web环境使用apache+jboss的模式,用户请求经过apache转发到jboss。在发布时apache和jboss同时启动,因为jboss启动须要加载不少应用并初始化,花费时间较长,结果jboss没有彻底启动,apache已经启动完毕并接受用户请求,大量的请求阻塞在jboss进程中,致使jboss崩溃。除了apache和jboss启动不一样步的状况,还有不少相似的状况,都须要后台服务器准备好,前台应用才能启动,不然会致使故障

经验教训:

在本例中,启动脚本首先启动jboss,而后在脚本中不断用curl访问这个特定页面,直到ok,才启动apache。

 

 

五.大文件读写独占磁盘引起的故障

故障现象:某应用主要功能是管理用户图片,接到部分用户投诉,表示上传图片很是慢,原来只需一秒,如今须要几十秒,有时等半天结果浏览器显示服务器超时。

缘由分析:图片须要使用存储,最有可能出错的是存储服务器,检查存储服务器,发现大部分文件只有几百kb,而有几个文件很是大,有几百兆,读写这些大文件一次须要几十秒,这段时间,磁盘通常这个文件操做独占,致使其余用户的文件读写慢。

经验教训:

存储的使用须要根据不一样文件类型和用途进行管理,图片都是小文件,应该使用专用的存储服务器,不能和大文件共存储,批处理用的大文件可使用其余类型的分布式文件系统

六.滥用生产环境引起的故障:

故障现象:监控发现某个时间段内,某个应用忽然变慢,内部网络访问延迟很是厉害

缘由分析:检查发现,该时段内网卡流量也降低,可是没找到缘由。过了一阵子才知道,原来有工程师在线上生产环境进行性能压力测试,占用了大量交换机带宽

经验教训:

访问现象生产环境要规范,一不当心就会致使大事故

 

七.不规范的流程引起的故障

故障现象:某应用发布后,数据库load迅速飙升,超过报警值,回滚发布后报警消除

缘由分析:发现该应用发布后出现大量数据库读操做,而这些数据原本应该从分布式缓存中提取,检查缓存,发现数据已经被缓存了。检查代码,发现访问缓存的代码被注释了。原来工程师在开发的时候,为了测试方便,特地注释读缓存的代码,结果开发完后,忘记了去掉注释。直接提交代码到线上服务器环境。

经验教训:

代码提交前使用diff命令进行代码比较,确认没有不应提交的代码!

 

八.很差的编程习惯引起的故障

故障现象:某应用更性某功能后,有少许用户投诉没法访问该功能,一点击就显示出错信息。

缘由分析:分析这些用户都是第一次使用该功能,检查代码,发现程序根据历史使用记录构造一个对象,若是该对象为null,就会致使NullPointException。

经验教训:

程序在处理一个输入的对象时,若是不能明确该对象是否为空,必须作空指针判断

程序在条用其余方法是,输入的对象尽可能保证不是null,必要时构造空对象

 

 

摘录自《大型网站技术架构核心原理与案例分析》

相关文章
相关标签/搜索