Linux检查硬件错误工具—mcelog命令

一、简介

mcelog 是Linux 系统上用来检查硬件错误,特别是内存和CPU错误的工具。未纠正的错误是关键异常,若是 CPU 没法恢复,每每会致使系统上的内核错误。这会致使应用程序重置和中断。对于未纠正的错误,mcelog 捕获错误的能力取决于错误致使热重启仍是硬重启。若是是热重启,信息会被 mcelog 捕获,恢复后可看到。硬重启会致使数据丢失,并且 mcelog 可能捕获不到该事件。node

二、安装

 [root@RedHat_test ~]# yum install mcelog.x86_64

三、mcelog的启动方式

 cron : 最老的方式,有肯定,定时任务,会丢失一些
 daemon : el7上用这种,守护进程的方式
 trigger : 高级一点的方式,触发的时候,看man mcelog

四、mcelog相关文件

 /dev/mcelog 设备文件
 
 /var/log/mcelog messages日志文件
 
 /etc/mcelog/mcelog.conf配置文件
 
 /var/run/mcelog.pid
 默认故障日志只记录在/var/log/mcelog,并不记录到系统日志中。
 若是须要在系统日志中也体现,需修改/etc/mcelog/mcelog.conf文件,将前面#去掉,并保存。

五、mcelog后台运行

 [root@RedHat_test ~]# mcelog --daemon

六、查看系统是否异常

1.手动运行mcelog的方式

 [root@RedHat_test ~]# mcelog --daemon

2.查看mcelog日志

 [root@RedHat_test ~]# tail /var/log/mcelog
 # 什么也没有输出,代表正常

3.查看mcelog守护进程是否检测到错误信息

 [root@RedHat_test ~]# mcelog --client
 # 什么也没有输出,代表正常

4.解析系统异常时的mcelog输出

 [root@RedHat_test ~]# mcelog --ascii < file.log
 # or或者
 [root@RedHat_test ~]# mcelog --ascii --file file.log

七、测试

1.mce-inject用于测试mcelog可否正确的获取硬件错误信息,并进行正确解码,mce-inject能够向内核注入指定的错误信息,所以,能够很方便的了解到mcelog的功能是否正常。

注意的是,当用户利用mce-inject工具向内核注入不可恢复错误(如:fatal)时,会发生死机从新启动等现象,固然,能够经过更改sys文件系统下的tolerate文件来避免此现象的发生。c++

 [root@RedHat_test ~]# cd /sys/devices/system/machinecheck/machinecheck0
 ----------------------------------------------------------------------------------------
 位置 : /sys/devices/system/machinecheck/machinecheck*/
 说明 : 其中machinecheck* 中的 *号由CPU的个数所决定的,若是是双核的,则存在machinecheck0和machinecheck1两个目录,对应目录里都有一个tolerate文件,tolerate中存放容忍程度值。
 功能 : 向用户提供一个可选择的出现相应硬件错误时的容忍程度(tolerate),好比:当tolerate的值为1时,出现fatal错误时就会死机,从新启动,而且该错误信息并不被记录;当tolerate的值为3时(注意该值只用于测试),在出现fatal错误时,机器会容忍该错误不予响应,不会出现死机从新启动现象,而且会记录相关错误信息。
 ----------------------------------------------------------------------------------------
 [root@RedHat_test machinecheck0]# cat tolerant 
 1
 [root@RedHat_test machinecheck0]# echo 3 > tolerant
 ----------------------------------------------------------------------------------------
 数值含义
 tolerate的取值能够为0、一、二、3。
 0: always panic on uncorrected errors, log corrected errors
 1: panic or SIGBUS on uncorrected errors, log corrected errors
 2: SIGBUS or log uncorrected errors (if possible), log corrected errors
 3: never panic or SIGBUS, log all errors (for testing only)

2.安装

 [root@RedHat_test ~]# yum install gcc.x86_64 gcc-c++.x86_64 flex.x86_64 dialog.x86_64 ras-utils.x86_64 git.x86_64 ras-utils

3.捏造文件

 [root@RedHat_test ~]# cat correct 
 CPU 1BANK 2
 STATUS corrected
 RIP 0x12341234

4.加载mce-inject模块

 [root@RedHat_test ~]# modprobe mce-inject

5.在终端执行文件

 [root@RedHat_test ~]# mce-inject ./correct

6.查看/var/log/mcelog,/var/log/messages

 [root@RedHat_test ~]# tail /var/log/mcelog
 TIME 1581565856Thu Feb 1311:50:56 2020
 MCG status:
 MCi status:
 Corrected error
 Error enabled
 MCA: No Error
 STATUS 9000000000000000MCGSTATUS 0
 MCGCAP 100010a APICID 1SOCKETID 0
 MICROCODE 1
 CPUID Vendor Intel Family 6Model 63
 [root@RedHat_test ~]# cat /var/log/messages
 Feb 1311:59:01 RedHat_test systemd: [16423350.358386] Starting machine check poll CPU 1
 Feb 1311:59:01 RedHat_test systemd: [16423350.371252] [Hardware Error]: Machine check events logged

八、一样的方式,在el7上设置

tail /var/log/messages 能够看到日志,可是,/var/log/mcelog文件默认在el7上,却不存在!!缘由是,默认打到/var/log/messages ,不打到/var/log/mcelog。若是但愿打到/var/log/mcelog,须要在mcelog 的service文件中,加入参数--logfile=/var/log/mcelog,而后重启mceloggit

 ExecStart=/usr/sbin/mcelog --ignorenodev--daemon--syslog--logfile=/var/log/mcelog

若是文章有任何错误欢迎不吝赐教,其次你们有任何关于运维的疑难杂问,也欢迎和你们一块儿交流讨论。关于运维学习、分享、交流,笔者开通了微信公众号【运维猫】,感兴趣的朋友能够关注下,欢迎加入,创建属于咱们本身的小圈子,一块儿学运维知识。群主还经营一家猫小铺饰品店,喜欢的小伙伴欢迎👏前来下单。
web





扫描二维码shell

获取更多精彩centos

运维猫公众号微信



有须要技术交流的小伙伴能够加我微信,期待与你们共同成长,本人微信:app



扫描二维码运维

添加私人微信
ide

运维猫博主


扫码加微信




最近有一些星友咨询我知识星球的事,我也想继续在星球上发布更优质的内容供你们学习和探讨。运维猫公众号平台致力于为你们提供免费的学习资源,知识星球主要致力于即将入坑或者已经入坑的运维行业的小伙伴。



点击阅读原文  查看更多精彩内容!!!


本文分享自微信公众号 - 运维猫(centos15)。
若有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一块儿分享。

相关文章
相关标签/搜索