WO2016058307A1

WO2016058307A1 - 资源的故障处理方法及装置

Info

Publication number: WO2016058307A1
Application number: PCT/CN2015/072923
Authority: WO
Inventors: 陈重文; 宋亚东; 谢型果
Original assignee: 中兴通讯股份有限公司
Priority date: 2014-10-15
Filing date: 2015-02-12
Publication date: 2016-04-21
Also published as: CN105515812A

Abstract

本发明提供了一种资源的故障处理方法及装置，其中，上述故障处理方法包括：监测网络存储集群系统中节点的指定资源是否发生故障，其中，所述指定资源为所述网络存储集群系统中预先划分的资源类型中指定资源类型所对应的资源；在所述指定资源发生故障时，按照预设策略选择接管所述指定资源的目标对象。采用本发明提供的上述技术方案，解决了相关技术中由于很多情况下节点上的资源故障都属于部分故障，但仍然将该节点隔离，将节点的业务转移到其他接管节点上而导致的接管流程复杂，容易出错，同时也增加了接管节点的负载的问题，简化了接管流程，降低了出错率，同时也较少了接管节点的负载负担。

Description

资源的故障处理方法及装置

技术领域

本发明涉及通信领域，具体而言，涉及一种资源的故障处理方法及装置。

背景技术

网络附属存储系统广泛用于企业管理平台，其性能的安全可靠性可以直接关系到企业日常运营，因此网络附属存储系统需要保证稳定以及较高的可用性。

根据Gartner公司所作的统计，导致系统异常运行的原因主要可以主要分为以下几个方面：应用问题(40％)、操作问题(40％)、操作系统故障(10％)和硬件故障(10％)，对于网络附属存储集群系统来说，很多情况也有可能是前端某个接入网口、后端某个存储资源的软硬件资源出现异常。在这种场景下，该节点上除了发生异常的模块不能运行之外，其它的模块都正常运行，此时现有技术中采用的技术方案是将整个节点隔离，把业务转移到其它能够正常运行的节点上去，而上述技术方案会使整个接管流程复杂，出错的概率也相应增加，同时整个接管耗时较长，接管成功后接管节点的负载也相应增加，给整个存储业务的过程都带来压力。

此外，当前网络存储集群中，故障管理模块主要是管理本节点上的存储资源，模块本身异常处理是通过节点的重新选举，产生新的接管节点来实现。选举算法以Paxos算法最为出名，在多个开源项目中使用到的，但是基本节点对象的单实例选举，无法解决节点内多个具体对象资源的选举。

针对相关技术中，由于很多情况下节点上的资源故障都属于部分故障，但仍然将该节点隔离，将节点的业务转移到其他接管节点上而导致的接管流程复杂，容易出错，同时也增加了接管节点的负载的问题，尚未提出有效的解决方案。

发明内容

为了解决上述技术问题，本发明提供了一种资源的故障处理方法及装置。

根据本发明的一个实施例，提供了一种资源的故障处理方法，包括：监测网络存储集群系统中节点的指定资源是否发生故障，其中，所述指定资源为所述网络存储集群系统中预先划分的资源类型中指定资源类型所对应的资源；在所述指定资源发生故障时，按照预设策略选择接管所述指定资源的目标对象。

优选地，监测网络存储集群系统中节点的指定资源是否发生故障包括：对所述网络存储集群系统中所有节点的资源进行资源类型的划分；将所述所有节点中资源类型相同的资源配置为一个服务组；通过检测所述服务组中所述指定资源的状态判断所述指定资源是否发生故障。

优选地，在以下情况下确定所述指定资源发生故障：当所述指定资源的物理网口状态由运行态转为备用态时，确定所述指定资源发生故障。

优选地，按照预设策略选择接管所述指定资源的目标对象，包括：在所述指定资源所在的服务组中选择接管所述指定资源的服务单元；将所述服务单元所在的节点作为所述目标对象。

优选地，通过以下之一方式在所述资源所在的服务组中选择接管所述指定资源的服务单元：按照预设的优先级从所述服务组中选择所述服务单元；按照所述服务组中所述服务单元的IP地址取值选择所述服务单元。

优选地，在所述目标接管对象对所述发生故障的指定资源进行接管后，还包括：保存所述指定资源的切换信息，其中，所述切换信息包括以下至少之一：所述指定资源所在的原节点信息、所述指定资源对应的资源类型；当所述指定资源所在的原节点故障恢复时，根据所述切换信息将所述指定资源切换回所述原节点。

根据本发明实施例的另一个实施例，还提供了一种资源的故障处理装置，包括：监测模块，设置为监测网络存储集群系统中节点的指定资源是否发生故障，其中，所述指定资源为所述网络存储集群系统中预先划分的资源类型中指定资源类型所对应的资源；选择模块，设置为在所述指定资源发生故障时，按照预设策略选择接管所述指定资源的目标对象。

优选地，所述监测模块包括：划分单元，设置为对所述网络存储集群系统中所有节点的资源进行资源类型的划分；配置单元，设置为将所述所有节点中资源类型相同的资源配置为一个服务组；判断单元，设置为通过检测所述服务组中所述指定资源的状态判断所述指定资源是否发生故障。

优选地，所述判断单元设置为当所述指定资源的物理网口状态由运行态转为备用态时，确定所述指定资源发生故障。

优选地，所述选择模块，包括：选择单元，设置为在所述指定资源所在的服务组中选择接管所述指定资源的服务单元；确定单元，设置为将所述服务单元所在的节点作为所述服务单元。

通过本发明，采用对节点上的资源进行分类后，当指定资源发生故障时，可以仅将发生故障的资源转移到其他节点上的技术方案，解决了相关技术中由于很多情况下节点上的资源故障都属于部分故障，但仍然将该节点隔离，将节点的业务转移到其他接管节点上而导致的接管流程复杂，容易出错，同时也增加了接管节点的负载的问题，简化了接管流程，降低了出错率，同时也较少了接管节点的负载负担。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的资源的故障处理方法的流程图；

图2是根据本发明实施例的资源的故障处理装置的结构框图；

图3是根据本发明实施例的资源的故障处理装置的另一结构框图；

图4为根据本发明优选实施例的资源保护组模型示意图；

图5为根据本发明优选实施例的资源的故障处理流程图；

图6为根本发明优选实施例的资源切回流程图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

在本实施例中提供了一种资源的故障处理方法，图1是根据本发明实施例的资源的故障处理方法的流程图，如图1所示，该流程包括如下步骤：

步骤S102，监测网络存储集群系统中节点的指定资源是否发生故障，其中，上述指定资源为上述网络存储集群系统中预先划分的资源类型中指定资源类型所对应的资源；

步骤S104，在上述指定资源发生故障时，按照预设策略选择接管上述指定资源的目标对象。

通过上述各个步骤，采用对节点上的资源进行分类后，当分类后的其中一个类型的指定资源发生故障时，可以仅将发生故障的指定资源转移到其他节点上的技术方案，解决了相关技术中很多情况下节点上的资源故障都属于部分故障，但仍然将该节点隔离，将节点的业务转移到其他接管节点上而导致的接管流程复杂，容易出错，同时也增加了接管节点的负载的问题，简化了接管流程，降低了出错率，同时也较少了接管节点的负载负担，也就是说，采用本发明实施例的技术方案：接管节点只接管有问题的部分资源，由于故障所在节点没有隔离，要避免资源出现多端加载，保证业务的一致性，持续对外提供服务。

可选地，上述步骤S102可以有多种实现方式，在本发明实施例的一个示例中，可以采用如下技术方案实现：对网络存储集群系统中所有节点的资源进行资源类型的划分；将上述所有节点中资源类型相同的资源配置为一个服务组；通过检测上述服务组中上述指定资源的状态判断上述指定资源是否发生故障，即将网络存储集群系统中所有节点中相同资源类型的资源都逻辑上划分为一个服务组内，检测上述具有同一资源类型的服务组中的资源是否发生故障，由于一个服务组中对应的是一个资源类型，可以方便快捷的检测出故障类型，且便于对资源进行管理。

由于所有物理网口均有两种状态：运行态(ACTIVE)和备用态(STANDBY)，当指定资源的物理网口状态从运行态转为备用态时，可以判定述指定资源发生故障。

在本发明实施例的另一个可选实施例中，上述步骤S104可以通过以下方式实现：在上述指定资源所在的服务组中选择接管指定资源的服务单元；将上述服务单元所在的节点作为上述目标对象，在监测服务组内的资源时，当监测到指定资源发生故障时，可以在同一服务组内查找与发生故障的指定资源为同一资源类型的资源所对应的服务单元，在确定服务单元后，该服务单元所在的节点即为上述目标对象(也可以理解为是接管节点)。

为了保证系统中节点业务的一致性，在目标对象对指定资源进行接管后，本发明实施例还提供了以下技术方案：在目标对象接管执行资源后，保存上述指定故障的切换信息，其中，上述切换信息包括以下至少之一：上述指定资源所在的原节点信息、上述指定资源对应的资源类型；当上述指定资源所在的原节点故障恢复时，根据上述切换信息将上述指定资源切换回上述原节点。

综上所述，本发明实施例提供了一种网络附属存储集群高可用机制，解决了目前网络附属存储运行节点数据丢失、网络负载高、资源多端加载等部分故障问题。

为了更好的理解上述资源的故障处理过程，以下结合一个优选实施例进行说明，但不限定本发明实施例。

首先，对本发明优选实施例中涉及到的名词简单解释如下：

服务实例：保护资源(可以理解为是上述服务组中的资源)的基本单位，在网络附属存储集群中，对应网络虚拟网口和虚拟盘对象的集合。以虚拟网口为例说明，虚拟网口是对当前提供网络连接的若干物理网口聚合的抽象，在整个集群范围内具有唯一性。虚拟网口绑定在ACTIVE状态的物理网口上，该物理网口承载对外虚拟网口上的所有业务。当ACTIVE状态物理网口出现异常时，通过配置策略从STANDBY态保护资源集合中选举出目标对象进行接管，保证虚拟网口对外业务的不中断。

服务单元：一个具备完整功能的个体，在集群中各节点上部署，可承担服务实例的指派。存储集群系统中每个节点上包含前端网口和后端虚拟盘对象两个服务实例组成的服务单元，假定当前网络附属存储集群系统中有N个节点，一个服务单元只能承担N份ACTIVE的服务实例指派,N份STANDBY的服务实例指派。

服务组：由一个或多个服务单元上同种资源类型对象组成的集合，多个服务组中具体对象组成服务单元。以虚拟网口为例说明，承载虚拟网口业务的所有物理网口集合组成虚拟网口的服务组。每个服务组有的主备策略,服务组之间完全独立，互不影响。每个服务组有其唯一标识，该标识在创建时指定，且在网络附属存储集群系统范围内唯一。

归属节点：存储前后端虚拟资源在创建时指定，同一个虚拟资源只能归属于一个节点，上电时优先选择归属节点上服务单元对象作为ACTIVE的服务实例指派。

配置策略：前后端虚拟资源在创建时指定，资源异常时根据该策略选择服务单元对象进行接管，默认按IP地址取值比较小的IP地址对应的服务单元优先接管，同时，提供接口支持人工干预，对服务单元对象配置不同权值，取权值大的优先接管发生故障的资源。

接管节点(可以理解为上述实施例的目标对象)：当前后端资源ACTIVE服务单元出现异常时，根据配置策略从STANDBY节点中发起选举，产生新的ACTIVE服务单元对象，该服务单元对象所在节点称为接管节点。

主决策节点：故障管理模块上电时选举产生的ACTIVE服务实例所在节点，当故障管理模块本身产生异常时，会重新发起选举，从而产生新的ACTIVE故障管理服务实例指派，新服务实例所在节点为新的主决策节点。

本发明优选实施例提供的技术方案可以大致总结为：通过定义保护资源模型和故障管理框架，管理网络附属存储前端网络和后端存储资源，达到整个存储集群资源的高可用。

当前后端部分资源出现异常时，对保护资源中部分资源异常进行心跳监控，一旦监控模块感知到异常后，告警通知故障管理模块；当故障管理模块接收到告警后，按照保护资源接管优先级决策需要接管的资源并进行接管，保证对外服务的连续性；同时记录该异常资源的切换信息；

可选地，当故障解除后，故障模块状态自动同步到保护资源组中，监控模块感知该故障恢复，向故障管理模块执行故障恢复请求，故障管理模块根据异常资源的切换信息执行相应的切回操作。

在本发明实施例上述提供的技术方案中：资源保护组模型可以大致描述如下：每个节点上常驻一个监控模块，负责心跳监控管理、异常时在服务组内根据配置策略选举。该模块以守护线程形式常驻各节点，最早上电的节点为主决策节点，如果同时上电多节点，通过比较IP，选举较小IP地址值的节点为主决策节点。节点间通过远程过程调用协议(Remote Procedure Call protocol，简称为RPC)消息进行通信，正常情况下由主决策节点发起心跳检查，按服务组标识收集其它节点上服务单元状态信息，其它节点根据以下至少之一事件来判断决定是否重新发送信标进行新的选举：1.定时心跳检查时间是否超过了最大检查时间；2.当前ACTIVE状态的服务单元是否出现异常，在满足上述条件之一时，会向所有集群中的站点发送信标，发起ACTIVE服务单元的选举。

通过故障管理服务标识选举出的主决策节点故障管理模块管理整个存储的前后端资源，前后端资源中由ACTIVE服务单元来执行该服务实例的工作，所有业务承载于该服务实例上，其它各个服务单元处于该服务实例的STANDBY状态，在监控到ACTIVE服务单元异常后，该故障管理模块负责整个接管协作，具体流程协作通过以下过程实现：

步骤1：在各节点配置虚拟网口和虚拟盘共享存储服务组，前端虚拟网络服务组用于用户存储网络接入，后端虚拟盘存储服务组用于存放共享存储数据资源；

步骤2：将所有虚拟资源指定归属节点，注册配置资源进资源服务单元，正常情况下，虚拟资源真实运行于归属节点上的服务单元中，该服务单元为ACTIVE状态；

步骤3：监控模块对所有资源保护组资源进行实时心跳监控，一旦发现保护资源组内运行资源出现异常则发出告警；

步骤4：故障管理模块接收到异常，下线当前运行异常的服务组内服务单元资源；

步骤5：根据当前节点和服务组标识，根据配置策略选取出目标接管服务单元对象进行迁移并记录保存，设置新的服务单元为ACTIVE状态；

步骤6：当出现异常的前后端资源恢复正常之后，将自动更新资源服务组，并通知故障管理模块；

步骤7：故障管理模块根据异常时的迁移记录，切换回其上的运行资源。故障恢复，同时调整两个服务单元对象的状态。

本发明优选实施例达到了以下技术效果：通过资源保护组模型，将集群节点按前端网络资源、后端存储资源进行细化，节点部分资源异常场景下，支持只接管节点异常部分，保留节点正常运行部分。从而提高了整体性能，实现网络附属存储群集资源的有效利用；满足关键业务高可用性、稳定性和扩展性的要求，可用于高可用存储集群多机热备要求的故障检测、接管决策、故障隔离与切换、恢复与扩展；通过对Paxos算法进行改进，按节点和服务组标识支持多实例选举，提高选举灵活性，故障管理模块本身加入保护资源组进行热备，简化系统实现，有效解决主决策节点上故障管理模块本身异常问题；在集群系统内部署热备主机，充分利用主机自身运算能力，提升接管响应速度，降低成本开支。

在本实施例中还提供了一种资源的故障处理装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图2是根据本发明实施例的资源的故障处理装置的结构框图，如图2所示，该装置包括：

监测模块20，设置为监测网络存储集群系统中节点的指定资源是否发生故障，其中，上述指定资源为上述网络存储集群系统中预先划分的资源类型中指定资源类型所对应的资源；

选择模块22，与监测模块20连接，设置为在上述指定资源发生故障时，按照预设策略选择接管上述指定资源的目标对象。

通过上述各个模块的综合作用，采用对节点上的资源进行分类后，当分类后的其中一个类型的指定资源发生故障时，可以仅将发生故障的指定资源转移到其他节点上的技术方案，解决了相关技术中很多情况下节点上的资源故障都属于部分故障，但仍然将该节点隔离，将节点的业务转移到其他接管节点上而导致的接管流程复杂，容易出错，同时也增加了接管节点的负载的问题，简化了接管流程，降低了出错率，同时也较少了接管节点的负载负担

图3是根据本发明实施例的资源的故障处理装置的另一结构框图，如图3所示：

监测模块20为了实现上述监测网络存储集群系统中节点的指定资源是否发生故障的功能，在本发明实施例的一个可选实施例中，监测模块20可以包括如下单元：划分单元200，设置为对上述网络存储集群系统中所有节点的资源进行资源类型的划分；配置单元202，与划分单元200连接，与划分单元设置为将上述所有节点中资源类型相同的资源配置为一个服务组；判断单元204，与配置单元202连接，设置为通过检测上述服务组中上述指定资源的状态判断上述指定资源是否发生故障，其中，判断单元204设置为当上述指定资源的物理网口状态由运行态转为备用态时，确定上述指定资源发生故障。

可选地，选择模块22还可以包括如下单元：选择单元220，设置为在上述指定资源所在的服务组中选择接管上述指定资源的服务单元；确定单元222，与选择单元220连接，设置为将上述服务单元所在的节点作为上述目标对象。

在本发明实施例中，选择模块22中的目标对象可以理解为上述实施例的接管节点。

结合以下优选实施例对本发明实施例的技术方案进一步详细阐述：

图4为根据本发明优选实施例的资源保护组模型示意图，如图4所示，有两个服务组:虚拟网口服务组和虚拟盘服务组,有两个服务实例:虚拟网口服务实例和虚拟盘服务实例。虚拟网口服务实例由虚拟网口服务组来保护执行，虚拟盘服务实例由虚拟盘服务组来保护执行。其中，实线箭头指向ACTIVE服务单元对象，实际上承载业务，虚线箭头指向STANDBY服务单元对象，异常时指派出新ACTIVE单元接管对象。

由图4所提供的示意图可以知晓：虚拟网口服务组内，安排服务单元3执行虚拟网口服务实例的ACTIVE工作,服务单元1和服务单元2执行虚拟网口服务服务实例的STANDBY工作，图4中虚拟盘网口服务实例和虚拟盘服务实例与服务单元中的连线实线代表的是ACTIVE；虚线连接为STANDBY指派。

虚拟盘服务组内，安排服务单元2执行虚拟盘服务实例的ACTIVE工作,服务单元1和服务单元3执行虚拟盘服务实例的STANDBY工作。

图5为根据本发明优选实施例的资源的故障处理流程图，如图5所示：

在节点的部分资源异常场景中，资源故障触发的整个接管流程：

步骤S502：资源归属节点业务保护资源状态发生变化(由设备故障或者人机命令触发)，从ACTIVE转变为STANDBY状态，通知本节点上监控代理模块；

步骤S504：主决策节点监控模块通过定时心跳与各节点监控代理通信，感知到对应类型的保护资源状态异常，向本节点故障管理模块发送切换请求；

步骤S506：故障管理模块通知异常归属节点代理模块将受影响的资源下线，执行资源下线操作，进行资源清理后向主决策节点故障管理模块回复资源下线响应；

步骤S508：主决策节点故障管理模块收到资源下线响应，根据配置策略，选举出该异常资源的接管节点，并向接管节点代理模块发送资源上线请求；

步骤S510：目标节点代理模块收到资源上线请求，向业务模块执行资源上线操作后，通知主决策节点故障管理模块，回复资源上线响应；

步骤S512：主决策节点故障管理模块收到资源上线响应，认为切换完成，向本节点监控模块回复切换响应，流程结束。

图6为根本发明优选实施例的资源切回流程图，如图6所示：

在节点的部分资源异常恢复场景中，资源故障恢复触发的整个切回流程：

步骤S602：资源归属节点业务保护资源状态发生变化(由设备故障恢复或者人机命令触发)从STANDBY转变为ACTIVE状态，通知本节点上监控代理模块；

步骤S604：主决策节点监控模块通过定时心跳与各节点监控代理通信，感知到对应类型的活动保护资源状态恢复，向本节点故障管理模块发送切换请求；

步骤S606：故障管理模块通知接管节点代理模块将资源下线，进行资源清理后向主决策节点故障管理模块回复资源下线响应；

步骤S608：主决策节点故障管理模块收到资源下线响应，向原归属节点代理模块发送资源上线请求；

步骤S610：资源归属节点代理模块收到资源上线请求，向业务模块执行资源上线操作后，向主决策节点故障管理模块回复资源上线响应；

步骤S612：主决策节点故障管理模块收到资源上线响应，认为切换完成，向本节点监控模块回复切回响应，流程结束。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。

在另外一个实施例中，还提供了一种软件，该软件用于执行上述实施例及优选实施方式中描述的技术方案。

在另外一个实施例中，还提供了一种存储介质，该存储介质中存储有上述软件，该存储介质包括但不限于：光盘、软盘、硬盘、可擦写存储器等。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的对象在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

综上所述，本发明实施例达到了以下技术效果：简化了接管流程，降低了出错率，同时也较少了接管节点的负载负担，也就是说，采用本发明实施例的技术方案：接管节点只接管有问题的部分资源，由于故障所在节点没有隔离，要避免资源出现多端加载，保证业务的一致性，持续对外提供服务。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

工业实用性

基于本发明实施例提供的上述技术方案，采用对节点上的资源进行分类后，当指定资源发生故障时，可以仅将发生故障的资源转移到其他节点上的技术方案，解决了相关技术中由于很多情况下节点上的资源故障都属于部分故障，但仍然将该节点隔离，将节点的业务转移到其他接管节点上而导致的接管流程复杂，容易出错，同时也增加了接管节点的负载的问题，简化了接管流程，降低了出错率，同时也较少了接管节点的负载负担。

Claims

一种资源的故障处理方法，包括：

监测网络存储集群系统中节点的指定资源是否发生故障，其中，所述指定资源为所述网络存储集群系统中预先划分的资源类型中指定资源类型所对应的资源；

在所述指定资源发生故障时，按照预设策略选择接管所述指定资源的目标对象。
根据权利要求1所述的方法，其中，监测网络存储集群系统中节点的指定资源是否发生故障包括：

对所述网络存储集群系统中所有节点的资源进行资源类型的划分；

将所述所有节点中资源类型相同的资源配置为一个服务组；

通过检测所述服务组中所述指定资源的状态判断所述指定资源是否发生故障。
根据权利要求2所述的方法，其中，在以下情况下确定所述指定资源发生故障：

当所述指定资源的物理网口状态由运行态转为备用态时，确定所述指定资源发生故障。
根据权利要求2所述的方法，其中，按照预设策略选择接管所述指定资源的目标对象，包括：

在所述指定资源所在的服务组中选择接管所述指定资源的服务单元；

将所述服务单元所在的节点作为所述目标对象。
根据权利要求4所述的方法，其中，通过以下之一方式在所述资源所在的服务组中选择接管所述指定资源的服务单元：

按照预设的优先级从所述服务组中选择所述服务单元；

按照所述服务组中所述服务单元的IP地址取值选择所述服务单元。
根据权利要求1至5任一项所述的方法，其中，在所述目标对象对所述发生故障的指定资源进行接管后，还包括：

保存所述指定资源的切换信息，其中，所述切换信息包括以下至少之一：所述指定资源所在的原节点信息、所述指定资源对应的资源类型；

当所述指定资源所在的原节点故障恢复时，根据所述切换信息将所述指定资源切换回所述原节点。
一种资源的故障处理装置，包括：

监测模块，设置为监测网络存储集群系统中节点的指定资源是否发生故障，其中，所述指定资源为所述网络存储集群系统中预先划分的资源类型中指定资源类型所对应的资源；

选择模块，设置为在所述指定资源发生故障时，按照预设策略选择接管所述指定资源的目标对象。
根据权利要求7所述的装置，其中，所述监测模块包括：

划分单元，设置为对所述网络存储集群系统中所有节点的资源进行资源类型的划分；

配置单元，设置为将所述所有节点中资源类型相同的资源配置为一个服务组；

判断单元，设置为通过检测所述服务组中所述指定资源的状态判断所述指定资源是否发生故障。
根据权利要求8所述的装置，其中，所述判断单元设置为当所述指定资源的物理网口状态由运行态转为备用态时，确定所述指定资源发生故障。
根据权利要求8所述的装置，其中，所述选择模块，包括：

选择单元，设置为在所述指定资源所在的服务组中选择接管所述指定资源的服务单元；

确定单元，设置为将所述服务单元所在的节点作为所述目标对象。