问题现象:一套两节点的RAC集群,其中节点2集群没法启动,ohas进程已经启动但CRS、CSS进程未启动css
1、首先查看node
查看RAC中的alert日志,发现日志中一直在报以下报错:oracle
file rotation terminated. log file: "/app/11.2.0.4/grid/log/uatdb02/client/olsnodes.log"app
从日志中能够看到提示说olsnodes.l03的owner不是oracleide
查看后发现确实用户属主有属组有问题spa
修改文件属主和属组3d
chown root:root olsnodes.l03日志
修改后olsnodes.log能够被正常切割,alert日志也再也不报这个错。但报错也就中止。没有日志如何继续往下查?blog
2、检查RAC的一些配置状况,因为对于RAC也只限于可以根据文档搭建成功,没有太多问题处理经验只能一边查问题一边查文档和MOS。进程
先检查RAC的ASM配置状况
发现与以往搭建的RAC查看disk path输出的内容不一样,因而想到是使用asmlib搭建的RAC,
rpm -qa |grpe asm发现确实安装了相关包,说明推测方向正确
之前都是经过UDEV的方式配置RAC的ASM共享磁盘,asmlib的方式没有用过。因而从网上找了相关的帖子查看,并找到一些命令。
oracleasm scandisks
oracleasm listdisks
可是知道这些命令仍是没有办法解决问题。
尝试执行上面的命令看看输出结果
发如今scandisks时出现permission denied on OCR1的提示
因而感受有了一个方向,是否是共享盘的权限访问致使的呢
找到共享盘的目录/dev/oracleasm/disks查看
节点2属主和属组都是root,若是是权限有问题,那正确的权限有又该是什么呢,好在节点1还在正常的跑着,查看节点1 的共享磁盘
从上面的查看来看,正常结点的属主为grid,属组为asmadmin,是否是因为这个缘由致使集群没法启动的呢?
尝试手动修改节点2的属主和属组
这里漏掉了对权限作修改。。。
修改后尝试重启节点2的集群
crsctl start crs
报错提示ohas已启动,crs启动失败
仔细阅读crsctl start使用说明才发现start crs是启动OHAS的命令,start cluster 才是启动CRS的命令。看来仍是对RAC的了解不够深刻呀。。。
再次尝试启动节点2集群
提示cssd启动失败,从alert日志中也能够看到以下报错
因而查看ocss.log
从ocss日志中输出的报错能够看出来是没法找到vote disk,集群天然是没法启动的。
可是为何找不到磁盘,缘由还不知道。因而救助于MOS,但查了十几篇有相关关键字的文档,与这里的问题又不太类似。也没有可用的解决办法。
因而问题限入了僵局。
下班时间到了,次日接着搞。
次日登陆机器再次尝试crsctl start cluster(明知没有,但仍是想试一下,侥幸心理。。)
果真没有辜负我,依然报错找不到vote disk。
查MOS文档查到一些相关命令
crsctl query css votedisk
在节点2中无输出内容,节点1有。
kfod status=TRUE asm_diskstring='/dev/oracleasm/disks/*' disks=ALL
节点1很快能返回
但节点2会hang住
并且能够看到节点2的共享盘,权限又变回root了,因而又再次手动修改,(心想也不能每次重启机器都手动修改这个吧)。
再次执行上面的命令
出现有报错。
忽然想到是否是两个节点的asmlib的配置不一样致使的,因为对asmlib不熟悉,从网上帖子上看到的都是配置asmlib的,不知道如何查看配置
尝试执行oracleasm configure,发现两个节点的配置确认不一致
ORACLEASM_UID 和GID配置有问题
因而进行修改
查看状态
修改完成,在scandisks时没有提示permission denied,感受应该没有问题了
再次尝试启动crs
crsctl start cluster
启动成功
至此集群问题解决。但从状态来看这套RAC集群仍是存在不少的问题。
总结:加深对RAC的理解,各组件的做用。各命令的含义。