集群(cluster)和高可用性(HA)的概念

时间 2019-11-26

原文原文链接

转载自:http://www.cnblogs.com/BlackWizard2016/p/5143816.html,侵删,只为学习所用.javascript

1.1 什么是集群html

　　简单的说，集群（cluster）就是一组计算机，它们做为一个总体向用户提供一组网络资源。这些单个的计算机系统就是集群的节点（node）。一个理想的集群是，用户历来不会意识到集群系统底层的节点，在他/她们看来，集群是一个系统，而非多个计算机系统。而且集群系统的管理员能够随意增长和删改集群系统的节点。java

　　更详细的说，集群（一组协同工做的计算机）是充分利用计算资源的一个重要概念，由于它可以将工做负载从一个超载的系统（或节点）迁移到集群中的另外一个系统上。其处理能力是与专用计算机(小型机,大型机)可相比,但其性价比高于专用计算机.常见的硬件有:结点,网络,存储.软件有:机群系统,节点系统,应用支撑软件。node

Cluster集群技术可以下定义：一组相互独立的服务器在网络中表现为单一的系统，并以单一系统的模式加以管理。此单一系统为客户工做站提供高可靠性的服务。大多数模式下，集群中全部的计算机拥有一个共同的名称，集群内任一系统上运行的服务可被全部的网络客户所使用。Cluster必须能够协调管理各分离的组件的错误和失败，并可透明地向Cluster中加入组件。一个Cluster包含多台(至少二台)拥有共享数据存储空间的服务器。任何一台服务器运行一个应用时，应用数据被存储在共享的数据空间内。每台服务器的操做系统和应用程序文件存储在其各自的本地储存空间上。Cluster内各节点服务器经过一内部局域网相互通信。当一台节点服务器发生故障时，这台服务器上所运行的应用程序将在另外一节点服务器上被自动接管。当一个应用服务发生故障时，应用服务将被从新启动或被另外一台服务器接管。当以上的任一故障发生时，客户都将能很快链接到新的应用服务上。数据库

1.2 集群系统的主要优势：安全

(1)高可扩展性：服务器

(2)高可用性HA：集群中的一个节点失效，它的任务可传递给其余节点。能够有效防止单点失效。网络

(3)高性能：负载平衡集群容许系统同时接入更多的用户。 负载均衡

(4)高性价比：能够采用廉价的符合工业标准的硬件构造高性能的系统。性能

2.1 集群系统的分类

虽然，根据集群系统的不一样特征能够有多种分类方法，可是通常把集群系统分为两类：

(1)、高可用(High Availability)集群,简称HA集群。

这类集群致力于提供高度可靠的服务。就是利用集群系统的容错性对外提供74小时*2不间断的服务，如高可用的文件服务器、数据库服务等关键应用。

负载均衡集群：使任务能够在集群中尽量平均地分摊不一样的计算机进行处理，充分利用集群的处理能力，提升对任务的处理效率。

　　在实际应用中这几种集群类型可能会混合使用，以提供更加高效稳定的服务。如在一个使用的网络流量负载均衡集群中，就会包含高可用的网络文件系统、高可用的网络服务。

(2)、性能计算(High Perfermance Computing)集群，简称HPC集群，也称为科学计算集群。

在这种集群上运行的是专门开发的并行应用程序，它能够把一个问题的数据分布到多台的计算机上，利用这些计算机的共同资源来完成计算任务，从而能够解决单机不能胜任的工做（如问题规模太大，单机计算速度太慢）。

这类集群致力于提供单个计算机所不能提供的强大的计算能力。如天气预报、石油勘探与油藏模拟、分子模拟、生物计算等。

3.1 什么是高可用性 (HA)

计算机系统的可用性(availability)是经过系统的可靠性(reliability)和可维护(maintainability)来度量的。工程上一般用平均无端障时间(MTTF)来度量系统的可靠性,用平均维修时间（MTTR）来度量系统的可维护性。因而可用性被定义为：MTTF/(MTTF+MTTR)*100%

负载均衡服务器的高可用性为了屏蔽负载均衡服务器的失效，须要创建一个备份机。主服务器和备份机上都运行High Availability监控程序，经过传送诸如“I am alive”这样的信息来监控对方的运行情况。当备份机不能在必定的时间内收到这样的信息时，它就接管主服务器的服务IP并继续提供服务；当备份管理器又从主管理器收到“I am alive”这样的信息是，它就释放服务IP地址，这样的主管理器就开开始再次进行集群管理的工做了。为在主服务器失效的状况下系统能正常工做，咱们在主、备份机之间实现负载集群系统配置信息的同步与备份，保持两者系统的基本一致。

HA的容错备援运做过程

自动侦测(Auto-Detect)阶段由主机上的软件经过冗余侦测线，经由复杂的监听程序。逻辑判断，来相互侦测对方运行的状况，所检查的项目有：主机硬件(CPU和周边)、主机网络、主机操做系统、数据库引擎及其它应用程序、主机与磁盘阵列连线。为确保侦测的正确性，而防止错误的判断，可设定安全侦测时间，包括侦测时间间隔，侦测次数以调整安全系数，而且由主机的冗余通讯连线，将所聚集的讯息记录下来，以供维护参考。

自动切换(Auto-Switch)阶段 某一主机若是确认对方故障，则正常主机除继续进行原来的任务，还将依据各类容错备援模式接管预先设定的备援做业程序，并进行后续的程序及服务。

自动恢复(Auto-Recovery)阶段 在正常主机代替故障主机工做后，故障主机可离线进行修复工做。在故障主机修复后，透过冗余通信线与原正常主机连线，自动切换回修复完成的主机上。整个回复过程完成由EDI-HA自动完成，亦可依据预先配置，选择回复动做为半自动或不回复。

3.二、HA三种工做方式：

（1）、主从方式（非对称方式）

工做原理：主机工做，备机处于监控准备情况；当主机宕机时，备机接管主机的一切工做，待主机恢复正常后，按使用者的设定以自动或手动方式将服务切换到主机上运行，数据的一致性经过共享存储系统解决。

（2）、双机双工方式（互备互援）

工做原理：两台主机同时运行各自的服务工做且相互监测状况，当任一台主机宕机时，另外一台主机当即接管它的一切工做，保证工做实时，应用服务系统的关键数据存放在共享存储系统中。

（3）、集群工做方式（多服务器互备方式）

工做原理：多台主机一块儿工做，各自运行一个或几个服务，各为服务定义一个或多个备用主机，当某个主机故障时，运行在其上的服务就能够被其它主机接管。

当一我的找不到出路的时候，最好的办法就是将当前能作好的事情作到极致，作到无人能及。