最常见的 5 个导致节点重新启动、驱逐或 CRS 意外重启的问题 (文档 ID 1524455.1)...-白红宇

最常见的 5 个导致节点重新启动、驱逐或 CRS 意外重启的问题 (文档 ID 1524455.1)...

阅读量：5954 次

发布时间：2019-06-19

本文共 2765 字，大约阅读时间需要 9 分钟。

适用于:

Oracle Database - Enterprise Edition - 版本 10.1.0.2 到 11.2.0.3 [发行版 10.1 到 11.2]

本文档所含信息适用于所有平台

用途

本文章简要概述了导致节点重新启动或者 CRS 意外重启的几个最常见问题

适用范围

有节点重新启动问题的所有用户

详细信息

问题 1：节点重新启动，但是日志文件未显示任何错误或原因。

原因：如果节点重新启动是由于某个 Oracle 进程，但是日志文件没有显示任何错误，则故障位置为 oprocd、cssdmonitor 和 cssdagent 进程。当节点挂起一段时间或者一个或多个关键 CRS 进程无法被调度获得 CPU 时，会发生这种情况。因为那些进程都以实时优先级运行，所以问题可能是因为内存耗尽或者可用内存低，而不是因为 CPU 耗尽。也可能是由于内核交换页的工作量繁重或者正忙于扫描内存以标识要释放的页。也可能存在 OS 调度问题。

解决方案：

1) 如果 CRS 版本为 11.1 或者更低，请将 diagwait 设置为 13。

2) 如果平台为 AIX，请参照文章 811293.1（RAC and Oracle Clusterware Best Practices and Starter Kit (AIX)）中所建议的方法优化 AIX VM 参数。

3) 如果平台为 Linux，请设置 Hugepage 并将内核参数 vm.min_free_kbytes 设置为保留“512MB”，将 swappiness 设置为 100。

请注意，使用 Hugepage 时无法设置 memory_target。

4) 如果问题出现在Linux 平台而且内核版本为2.6.18 (例如：OEL5, Redhat 5, SLES 10)或更低，设置内核参数swappiness 为 100。

5) 对于SLES11, RHEL6, OEL6和使用UEK2 内核的Linux 平台，停用Transparent HugePages。

6) 检查是否有大量内存分配给了操作系统的 IO 缓冲区高速缓存。与 OS 供应商联系，建议一些方法来减少 IO 缓冲区高速缓存量，或者增加从 IO 缓冲区高速缓存回收内存的比率。

7) 增加内存量。

问题 2：节点重新启动，该节点是由于丢失网络心跳而被逐出。

这是因为丢失网络心跳或发生了脑裂。在双节点环境中，节点 2 的重复重新启动通常意味着节点 2 由于脑裂而被驱逐。在节点重新启动前，ocssd.log 会显示丢失网络心跳或一条脑裂消息。

原因：节点之间通过私网互连的网络通信失败。故障可能是单向或者双向的。

解决方案：修复网络问题。确保交换机和 NIC 卡等所有网络组件都正常运行。确保 ssh 能通过私网互连工作。请注意，网络通常在节点重新启动后可以恢复正常。

注意: 如果您使用了巨帧（Jumbo Frame）,请参考文章341788.1 (Recommendation for the Real Application Cluster Interconnect and Jumbo Frames)。如果交换机的巨帧设置与集群私网NIC卡的MTU(巨帧)设置不同，会出现网络问题，并导致节点驱逐或CRS无法启动。有时，如果您使用的交换机和NIC卡来自不同的厂商，它们对巨帧的支持也可能不同。

问题 3：在出现存储问题后节点重新启动。

ocssd.log 文件显示节点因为无法访问大部分 voting disks 而重新启动。

原因：CRS 必须能够访问大部分 voting disks 。如果 CRS 无法正常访问大部分 voting disks ，则 CRS 无法确保群集的一致性，所以 CRS 重新启动节点。

解决方案：修复 voting disks 的问题。确保用户 oracle 或 grid，或者CRS 或 GI HOME 的拥有者可以使用和访问 voting disks 。如果 voting disks 未在 ASM 中，请使用 "dd if= of=/dev/null bs=1024 count=10240" 测试可访问性。