WO2017084618A1

WO2017084618A1 - 共享存储式集群文件系统节点通信的监控方法及监控节点

Info

Publication number: WO2017084618A1
Application number: PCT/CN2016/106412
Authority: WO
Inventors: 郭旭艳
Original assignee: 中兴通讯股份有限公司
Priority date: 2015-11-18
Filing date: 2016-11-18
Publication date: 2017-05-26
Also published as: CN106713398A

Abstract

本发明实施例提供了一种共享存储式集群文件系统节点通信的监控方法及监控节点，涉及共享存储式文件系统集群通信领域，其中监控方法包括：接收所述集群文件系统中集群节点的组播消息，所述监控节点与所述集群节点都位于所述集群文件系统中；获取所述组播消息的消息类型及与所述消息类型相对应的消息参数；根据所述消息参数，查询存储表中与所述组播消息相对应的存储记录；在一预设时间间隔到达时，根据所述存储表中与所述组播消息相对应的存储记录，获取所述集群文件系统的问题节点和集群状态。该方案可使管理人员对整个集群通信状况有了直观观察效果，使其能及时对集群通信参数进行调整，提高集群文件系统整体性能。

Description

共享存储式集群文件系统节点通信的监控方法及监控节点

技术领域

本发明涉及共享存储式文件系统集群通信领域，尤其涉及一种共享存储式集群文件系统节点通信的监控方法及监控节点。

背景技术

如图1-图6所示，共享存储式集群文件系统节点间通信模块采用corosync(Corosync是集群管理套件的一部分，它在传递信息的时候可以通过一个简单的配置文件来定义信息传递的方式和协议等)，其底层通信实现依据totem协议，通过组播的方式传递节点信息，并以单播token的形式确保消息的可靠接收，实现集群内节点变化的同步。

在组播消息丢失时，会通过token循环识别并重播，直至丢失消息节点收到该消息或者token循环次数达到最大值，Safe Order要求广播的消息每个节点的都要收到对于应用需要广播的消息才会转发应用处理，对于有Safe Order的要求的消息接收失败会引发不断的重播，引起消息处理延时。且Operational状态是集群稳定的工作状态，具有稳定的ring，而Gather，Commit态是集群判断节点状态的过程，通过反复广播自身成员，直到各节点成员均达到一致状态，对于被确认为leave的节点，集群还需要隔离这个问题节点，这个过程可能需要很长的时间，而且这个过程集群不会处理应用的消息，这样的状态会导致集群的消息处理延迟以及集群不稳定性增加，存在不能实时了解集群文件系统运行状态，难以及时对运行状态做出调控的问题。

随着共享存储式集群文件系统中集群规模的增大，会导致时延增加，存在不能动态调整集群节点的参数来适应业务量的需要的问题，难以根据实际情况调整发挥自身优势。

发明内容

本发明实施例提供了共享存储式集群文件系统节点通信的监控方法及监控节点，以至少解决共享存储式集群文件系统中存在的不能实时了解集群文件系统运行状态，难以及时对运行状态做出调控的问题。

根据本发明的一个实施例，提供了一种共享存储式集群文件系统节点通信的监控方法，应用于共享存储式集群文件系统中的监控节点，包括：接收所述集群文件系统中集群节点的组播消息，所述监控节点与所述集群节点都位于所述集群文件系统中；获取所述组播消息的消息类型及与所述消息类型相对应的消息参数；根据所述消息参数，查询存储表中与所述组播消息相对应的存储记录；在一预设时间间隔到达时，根据所述存储表中与所述组播消息相对应的存储记录，获取所述集群文件系统的问题节点和集群状态。

可选地，所述获取所述组播消息的消息类型及与所述消息类型相对应的消息参数，具体包括：获取所述组播消息的消息类型；当所述消息类型为应用层消息类型时，获取所述组播消息的第一消息参数，所述第一消息参数至少包括：所述组播消息对应的应用层消息的消息编号、组播所述组播消息的节点所在的第一环的第一环标号和组播所述组播消息的节点在所述第一环中的第一发送者地址；当所述消息类型为节点加入消息类型时，获取所述组播消息的第二消息参数，所述第二消息参数至少包括：组播所述组播消息的节点所在的第二环的第二环标号、组播所述组播消息的节点在所述第二环中的第二发送者地址和组播所述组播消息的节点自身记录的节点成员列表。

可选地，所述根据所述消息参数，查询存储表中与所述组播消息相对应的存储记录，具体包括：当所述组播消息为应用层消息类型时，根据所述消息编号及所述第一环标号，判断所述存储表的应用层消息表中是否存在具有所述消息编号及所述第一环标号的第一存储记录；当所述应用层消息表中不存在所述第一存储记录时，存储所述组播消息的第一消息参数至所述应用层消息表；当所述应用层消息表中存在所述第一存储记录时，判断结果为所述第一环中与所述第一发送者地址相对应的节点的上一节点存在消息丢失，得出所述上一节点为疑似问题节点，并存储所述疑似问题节点的参数至所述存储表中的疑似问题节点表。

可选地，所述得出所述上一节点为疑似问题节点，并存储所述疑似问题节点的参数至所述存储表中的疑似问题节点表，具体包括：根据所述第一发送者地址，获取所述疑似问题节点在所述第一环中的第一节点地址；根据所述第一节点地址、所述消息编号及所述第一环标号，判断所述疑似问题节点表中是否存在具有所述第一节点地址、所述消息编号及所述第一环标号的第二存储记录；当所述疑似问题节点表中存在所述第二存储记录时，增加所述疑似问题节点的消息记录次数；当所述疑似问题节点表中不存在所述第二存储记录时，存储包括所述第一节点地址、所述消息编号及所述第一环标号的第一参数至所述疑似问题节点表。

可选地，所述根据所述消息参数，查询存储表中与所述组播消息相对应的存储记录，具体包括：当所述组播消息为节点加入消息类型时，根据所述第二环标记与所述第二发送者地址，判断所述存储表中的节点加入消息表中是否存在具有所述第二环标号及所述第二发送者地址的第三存储记录；当所述节点加入消息表中不存在所述第三存储记录时，存储所述组播消息的第二消息参数至所述节点加入消息表；当所述节点加入消息表中存在所述第三存储记录时，根据所述节点成员列表，判断与所述第三存储记录相比，所述组播消息的节点成员列表中是否存在增加或减少的节点成员；当所述组播消息的节点成员列表中存在减少的节点成员时，获取所述减少的节点成员的第二节点地址，根据所述第二节点地址及所述第二发送者地址，判断所述存储表的离开节点表中是否存在具有所述第二节点地址及所述第二发送者地址的第四存储记录；当所述离开节点表中存在所述第四存储记录时，增加所述减少的节点成员的消息记录次数；当所述离开节点表中不存在所述第四存储信息时，存储包括所述第二节点地址、所述第二发送者地址的第二参数至所述离开节点表；当所述组播消息的节点成员列表中存在增加的节点成员时，获取所述增加的节点成员的第三节点地址，根据所述第三节点地址及所述第二发送者地址，判断所述离开节点表中是否存在具有所述第三节点地址及所述第二发送者地址的第五存储记录；当所述离开节点表中存在所述第五存储记录时，删除所述第五存储记录。

可选地，所述在一预设时间间隔到达时，根据所述存储表中与所述组播消息相对应的存储记录，获取所述集群文件系统的问题节点和集群状态，具体包括：所述疑似问题节点表中，当所述疑似问题节点中存在有消息记录次数达到预设最大值的特别疑似问题节点时，判断所述预设最大值与除所述特别疑似问题节点外的其他节点的消息记录次数是否相同；当预设最大值与除所述特别疑似问题节点外的其他节点的消息记录次数相同时，判断所述集群文件系统为集群业务繁忙状态；当预设最大值与除所述特别疑似问题节点外的其他节点的消息记录次数不同时，判断所述特别疑似问题节点为所述问题节点。

可选地，所述在一预设时间间隔到达时，根据所述存储表中与所述组播消息相对应的存储记录，获取所述集群文件系统的问题节点和集群状态，具体包括：判断所述离开节点表是否为空；当所述离开节点表不为空，且所述离开节点表中，存在多个具有相同的所述第二节点地址的存储记录时，判断与所述相同的所述第二节点地址相对应的节点为所述问题节点；当所述离开节点表为空，判断所述节点加入消息表中，具有所述第二环中最小的所述第二发送者地址的存储记录的数量是否达到预设值；当所述节点加入消息表中，具有所述第二环中最小的所述第二发送者地址的存储记录的数量达到预设值时，判断所述集群文件系统为令牌超时频繁状态。

可选地，所述监控方法还包括：根据所述问题节点和集群状态获取对应的调整参数；将所述调整参数组播至所述集群节点，以使所述集群节点根据所述调整参数调整当前自身配置。

可选地，所述根据所述问题节点和集群状态获取对应的调整参数，具体包括：当所述集群节点所处的集群文件系统为集群业务繁忙状态时，按照第一预设的倍率调大当前消息传输窗口值为一新消息传输窗口值，按照第二预设的倍率缩小每个所述集群节点的当前最大可传输信息值为一新的最大可传输信息值；当所述集群节点所处的集群文件系统为令牌超时频繁状态时，按照第三预设的倍率调大所述集群节点的令牌超时时间为一新的令牌超时时间。

根据本发明的另一实施例，提供了一种共享存储式集群文件系统中的监控节点，包括：

第一接收模块，设置为接收所述集群文件系统中集群节点的组播消息，所述监控节点与所述集群节点都位于所述集群文件系统中；第一获取模块，设置为获取所述组播消息的消息类型及与所述消息类型相对应的消息参数；查询模块，设置为根据所述消息参数，查询存储表中与所述组播消息相对应的存储记录；第二获取模块，设置为在一预设时间间隔到达时，根据所述存储表中与所述组播消息相对应的存储记录，获取所述集群文件系统的问题节点和集群状态。

可选地，所述第一获取模块具体设置为：获取所述组播消息的消息类型；当所述消息类型为应用层消息类型时，获取所述组播消息的第一消息参数，所述第一消息参数至少包括：所述组播消息对应的应用层消息的消息编号、组播所述组播消息的节点所在的第一环的第一环标号和组播所述组播消息的节点在所述第一环中的第一发送者地址；当所述消息类型为节点加入消息类型时，获取所述组播消息的第二消息参数，所述第二消息参数至少包括：组播所述组播消息的节点所在的第二环的第二环标号、组播所述组播消息的节点在所述第二环中的第二发送者地址和组播所述组播消息的节点自身记录的节点成员列表。

可选地，所述查询模块具体包括：

第一判断子模块，设置为当所述组播消息为应用层消息类型时，根据所述消息编号及所述第一环标号，判断所述存储表的应用层消息表中是否存在具有所述消息编号及所述第一环标号的第一存储记录；第一存储子模块，设置为当所述应用层消息表中不存在所述第一存储记录时，存储所述组播消息的第一消息参数至所述应用层消息表；第二存储子模块，设置为当所述应用层消息表中存在所述第一存储记录时，判断结果为所述第一环中与所述第一发送者地址相对应的节点的上一节点存在消息丢失，得出所述上一节点为疑似问题节点，并存储所述疑似问题节点的参数至所述存储表中的疑似问题节点表。

可选地，所述第二存储子模块具体包括：获取单元，设置为根据所述第一发送者地址，获取所述疑似问题节点在所述第一环中的第一节点地址；判断单元，设置为根据所述第一节点地址、所述消息编号及所述第一环标号，判断所述疑似问题节点表中是否存在具有所述第一节点地址、所述消息编号及所述第一环标号的第二存储记录；记录单元，设置为当所述疑似问题节点表中存在所述第二存储记录时，增加所述疑似问题节点的消息记录次数；存储单元，设置为当所述疑似问题节点表中不存在所述第二存储记录时，存储包括所述第一节点地址、所述消息编号及所述第一环标号的第一参数至所述疑似问题节点表。

可选地，所述查询模块具体包括：

第二判断子模块，设置为当所述组播消息为节点加入消息类型时，根据所述第二环标记与所述第二发送者地址，判断所述存储表中的节点加入消息表中是否存在具有所述第二环标号及所述第二发送者地址的第三存储记录；第三存储子模块，设置为当所述节点加入消息表中不存在所述第三存储记录时，存储所述组播消息的第二消息参数至所述节点加入消息表；第三判断子模块，设置为当所述节点加入消息表中存在所述第三存储记录时，根据所述节点成员列表，判断与所述第三存储记录相比，所述组播消息的节点成员列表中是否存在增加或减少的节点成员；第四判断子模块，设置为当所述组播消息的节点成员列表中存在减少的节点成员时，获取所述减少的节点成员的第二节点地址，根据所述第二节点地址及所述第二发送者地址，判断所述存储表的离开节点表中是否存在具有所述第二节点地址及所述第二发送者地址的第四存储记录；记录子模块，设置为当所述离开节点表中存在所述第四存储记录时，增加所述减少的节点成员的消息记录次数；第四存储子模块，设置为当所述离开节点表中不存在所述第四存储信息时，存储包括所述第二节点地址、所述第二发送者地址的第二参数至所述离开节点表；第五判断子模块，设置为当所述组播消息的节点成员列表中存在增加的节点成员时，获取所述增加的节点成员的第三节点地址，根据所述第三节点地址及所述第二发送者地址，判断所述离开节点表中是否存在具有所述第三节点地址及所述第二发送者地址的第五存储记录；删除子模块，设置为当所述离开节点表中存在所述第五存储记录时，删除所述第五存储记录。

可选地，所述第二获取模块，具体包括：

第六判断子模块，设置为所述疑似问题节点表中，当所述疑似问题节点中存在有消息记录次数达到预设最大值的特别疑似问题节点时，判断所述预设最大值与除所述特别疑似问题节点外的其他节点的消息记录次数是否相同，当预设最大值与除所述特别疑似问题节点外的其他节点的消息记录次数相同时，判断所述集群文件系统为集群业务繁忙状态；第七判断子模块，设置为当预设最大值与除所述特别疑似问题节点外的其他节点的消息记录次数不同时，判断所述特别疑似问题节点为所述问题节点。

可选地，所述第二获取模块，具体包括：

第八判断子模块，设置为判断所述离开节点表是否为空；第九判断子模块，设置为当所述离开节点表不为空，且所述离开节点表中，存在多个具有相同的所述第二节点地址的存储记录时，判断与所述相同的所述第二节点地址相对应的节点为所述问题节点；第十判断子模块，设置为当所述离开节点表为空，判断所述节点加入消息表中，具有所述第二环中最小的所述第二发送者地址的存储记录的数量是否达到预设值；第十一判断子模块，设置为当所述节点加入消息表中，具有所述第二环中最小的所述第二发送者地址的存储记录的数量达到预设值时，判断所述集群文件系统为令牌超时频繁状态。

可选地，所述监控节点还包括：

第三获取模块，设置为根据所述问题节点和集群状态获取对应的调整参数；组播模块，设置为将所述调整参数组播至所述集群节点，以使所述集群节点根据所述调整参数调整当前自身配置。

可选地，所述第三获取模块，具体设置为：

当所述集群节点所处的集群文件系统为集群业务繁忙状态时，按照第一预设的倍率调大当前消息传输窗口值为一新消息传输窗口值，按照第二预设的倍率缩小每个所述集群节点的当前最大可传输信息值为一新的最大可传输信息值；当所述集群节点所处的集群文件系统为令牌超时频繁状态时，按照第三预设的倍率调大所述集群节点的令牌超时时间为一新的令牌超时时间。

根据本发明的又一个实施例，还提供了一种存储介质。该存储介质设置为存储用于执行上述共享存储式集群文件系统节点通信的监控方法的程序代码。

本发明实施例的有益效果是：

上述方案，通过收集组播消息来监控集群运行状况，并根据每个节点的组播消息统计分析节点状态，对集群状态和问题节点给出统计判断，提高其通信业务处理能力及稳定性，且能够第一时间获取设备故障通知，使管理人员对整个集群通信状况有了直观观察效果，能够及时了解设备状况、定位故障目标、提高工作效率，进而提高集群文件系统整体性能。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为节点P1上的corosync接受该节点上的应用A1消息M1M2M3，在集群中组播的消息示意图；

图2为节点组播消息后，令牌token由节点P1传到P2中的示意图；

图3为P2收到token确认接收消息后，继续传递token到P3的示意图；

图4为集群中加入节点后该节点广播节点加入消息joinmsg示意图；

图5为集群其他节点收到joinmsg后广播自身成员集合示意图；

图6为节点未收到其他节点joinmsg从而未实现consensus的示意图；

图7为集群中增加监控节点示意图；

图8为本发明第一实施例中方法流程图；

图9为本发明第二实施例中方法流程图；

图10为本发明第三实施例中方法流程图；

图11为本发明第四实施例中方法流程图；

图12为本发明第五实施例中方法流程图；

图13为本发明第六实施例中方法流程图一；

图14为本发明第六实施例中方法流程图二；

图15为本发明第七实施例中方法流程图一；

图16为本发明第七实施例中方法流程图二；

图17为本发明第九实施例中整体结构框图；

图18为本发明第九实施例中详细结构框图；

图19为本发明中方法的整体流程示意图一；

图20为本发明中方法的整体流程示意图二。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

第一实施例

如图7、图8所示，本发明提供一种共享存储式集群文件系统节点通信的监控方法，应用于共享存储式集群文件系统中的监控节点，该方法包括：

步骤101：接收所述集群文件系统中集群节点的组播消息。

这里可以将监控节点加入集群文件系统的集群组播组中，使得该监控节点与上述集群节点都位于集群文件系统中，其中该监控节点可以是与集群节点相同的主机或者刀片服务器或者其他服务器。

步骤102：获取所述组播消息的消息类型及与所述消息类型相对应的消息参数。

在步骤101中接收到组播消息之后，便获取该组播消息对应的消息类型，进而根据该消息类型获取与不同的消息类型对应的不同的消息参数。

步骤103：根据所述消息参数，查询存储表中与所述组播消息相对应的存储记录。

根据步骤102中获取的消息参数，从存储表中查询与消息参数相对应的关于组播消息的相关存储记录，与步骤101相对应地，该存储表对集群各节点每一次的组播消息可都进行收集及统计。

步骤104：在一预设时间间隔到达时，根据所述存储表中与所述组播消息相对应的存储记录，获取所述集群文件系统的问题节点和集群状态。

存储表会在一段时间内对集群文件系统中的组播消息进行采集与记录，在预设定的时间间隔到达时，根据存储表中在该时间段内的存储记录来判断并获取集群文件系统的集群状态是怎么样的及是否有相关的问题节点出现。

该监控方法是在现有集群中增加一节点，该节点配置集群组播地址，能够接收集群广播消息。通过接收集群文件系统中各节点的组播消息，根据组播消息的类型及与组播消息相对应的消息参数，查询存储表中关于对组播消息的存储记录，来获知集群文件系统的问题节点和集群状态，在共享存储式集群文件系统中利用组播通信消息分析节点运行状态，克服了现有技术中存在共享存储式集群文件系统的对等式架构中，集群处理能力、节点故障缺乏统计分析汇总及集群参数不能动态调整的问题和缺陷。

第二实施例

具体地，如图9所示，在第一实施例基础上，步骤102中的获取组播消息的消息类型及与所述消息类型相对应的消息参数，具体包括：

步骤1021：获取所述组播消息的消息类型。

步骤1022：当所述消息类型为应用层消息类型时，获取所述组播消息的第一消息参数。

该第一消息参数至少包括：该组播消息对应的应用层消息的消息编号、组播该组播消息的节点所在的第一环的第一环标号和组播该组播消息的节点在该第一环中的第一发送者地址。

步骤1023：当所述消息类型为节点加入消息类型时，获取所述组播消息的第二消息参数。

该第二消息参数至少包括：组播该组播消息的节点所在的第二环的第二环标号、组播该组播消息的节点在该第二环中的第二发送者地址和组播该组播消息的节点自身记录的节点成员列表。

接收到组播消息，获取该组播消息的消息类型，这里的消息类型主要分为两类，一类是应用层消息类型，一类是节点加入消息joinmsg类型，其中应用层消息类型是指组播环中有应用层发来的消息时，将应用层发来的应用层消息组播至集群中其他各节点时的消息类型，其中节点加入消息类型是指在组播环中有节点加入时，各节点之间组播的关于该节点加入及自身记录的节点成员集合的消息类型。当该组播消息是应用层消息类型时，获取的参数要至少包括：该组播消息对应的应用层消息的消息编号seq、组播该组播消息的节点所在的环的环标号，即第一环的第一环标号ring_id1和组播该组播消息的节点在环中的地址，即第一环中的第一发送者地址sender_id1；当消息类型为节点加入消息类型时，获取的参数至少包括：组播该组播消息的节点所在的环的环标号，即第二环的第二环标号ring_id2、组播该组播消息的节点在环中的地址，即第二环中的第二发送者地址sender_id2和组播该组播消息的节点自身记录的节点成员的成员集合，即节点成员列表proc_list。对以上参数的获取以便于对组播消息表达出的集群状态做出判断。

第三实施例

进一步地，如图10所示，在第一实施例与第二实施例的基础上，当组播消息为应用层消息类型时，步骤103中根据所述消息参数，查询存储表中与组播消息相对应的存储记录，具体包括：

步骤1031：当组播消息为应用层消息类型时，根据所述消息编号及所述第一环标号，判断所述存储表的应用层消息表中是否存在具有所述消息编号及所述第一环标号的第一存储记录。

这里，该存储表中存储有对集群节点的组播消息及该组播消息的相关参数的记录，其中存储表包括应用层消息表，该应用层消息表对应存储的是关于组播消息为应用层消息类型时的相关记录。当组播消息为应用层消息类型时，根据与该组播消息对应的seq及ring_id1，判断该应用层消息表中是否已经存在有与该组播消息为同一环中对相同应用层消息的组播记录，即上述的第一存储记录。

步骤1032：当所述应用层消息表中不存在所述第一存储记录时，存储所述组播消息的第一消息参数至所述应用层消息表。

根据步骤1031中的判断，当判断结果是应用层消息表中不存在第一存储记录时，就将该组播消息存储进应用层消息表，存储时至少将与该组播消息对应的第一消息参数存储进应用层消息表。

步骤1033：当所述应用层消息表中存在所述第一存储记录时，判断结果为所述第一环中与所述第一发送者地址相对应的节点的上一节点存在消息丢失，得出所述上一节点为疑似问题节点，并存储所述疑似问题节点的参数至所述存储表中的疑似问题节点表。

该存储表中还包括疑似问题节点表，根据步骤1031中的判断，当判断结果是应用层消息表中存在第一存储记录时，表明同一环上对相同的应用层消息出现了重复组播的情况，可以由此得出该环上有节点存在消息丢失引发了该重复组播的情况，结合共享存储式集群文件系统节点通信过程中，组播环内token令牌的消息确认过程，判断重发消息节点为Pn，根据token令牌传递的顺序推测当前成员列表中的Pn-1节点为丢失消息节点，将其列为疑似问题节点，得知与该组播消息中的sender_id1相对应的节点的上一节点存在消息丢失，进而判断该上一节点处可能出现了问题，即为疑似问题节点，将该疑似问题节点及相应参数存储至疑似问题节点表。

第四实施例

进一步地，如图11所示，在第三实施例基础上，步骤1033中得出上一节点为疑似问题节点，并存储所述疑似问题节点的参数至所述存储表中的疑似问题节点表，具体包括：

步骤10331：根据第一发送者地址，获取所述疑似问题节点在所述第一环中的第一节点地址。

结合共享存储式集群文件系统节点通信过程中，组播环内token令牌的消息确认过程，得知与该组播消息中的sender_id1相对应的节点的上一节点存在消息丢失，进而判断该上一节点处可能出现了问题，而该第一发送者地址为组播该组播消息的节点在第一环中的地址，组播环中的节点地址是按序号从小到大的顺序编排，可以根据该第一发送者地址sender_id1得知该节点上一节点在第一环中的地址，即上述的第一节点地址nodeid1。

步骤10332：根据所述第一节点地址、所述消息编号及所述第一环标号，判断所述疑似问题节点表中是否存在具有所述第一节点地址、所述消息编号及所述第一环标号的第二存储记录。

在步骤10331中获取了nodeid1，根据该nodeid1、seq及ring_id1，判断疑似问题节点表中存储的记录里是否存在同一环中同一节点丢失相同应用层消息的记录，即该第二存储记录。

步骤10333：当所述疑似问题节点表中存在所述第二存储记录时，增加所述疑似问题节点的消息记录次数。

当步骤10332中的判断结果为疑似问题节点表中已存在有第二存储记录时，此时增加对该疑似问题节点在同一环中丢失相同应用层消息的记录次数，也就是增加同一环中由该疑似问题节点存在消息的丢失而引起的其他节点重复组播的次数。

步骤10334：当所述疑似问题节点表中不存在所述第二存储记录时，存储包括所述第一节点地址、所述消息编号及所述第一环标号的第一参数至所述疑似问题节点表。

当步骤10332中的判断结果为疑似问题节点表中不存在有第二存储记录时，至少将nodeid1、seq及ring_id1等参数存储至疑似问题节点表，记录下哪个环中哪个节点存在丢失哪个应用层消息的情况的发生。

第五实施例

如图12所示，在第一实施例及第二实施例的基础上，当组播消息为节点加入消息类型时，步骤103中根据所述消息参数，查询存储表中与所述组播消息相对应的存储记录，具体包括：

步骤1034：当所述组播消息为节点加入消息类型时，根据所述第二环标记与所述第二发送者地址，判断所述存储表中的节点加入消息表中是否存在具有所述第二环标号及所述第二发送者地址的第三存储记录。

存储表中还包括节点加入消息表，当该组播消息为节点加入消息时，根据ring_id2、sender_id2，判断该节点加入消息表中是否存储有与该组播消息为在同一环中同一节点发送的节点加入消息类型的消息记录，即上述的第三存储记录。

步骤1035：当所述节点加入消息表中不存在所述第三存储记录时，存储所述组播消息的第二消息参数至所述节点加入消息表。

当节点加入消息表中不存在对同一环中同一节点组播的节点加入消息类型的消息的记录即第三存储记录时，就将该组播消息存储至节点加入消息表，存储时至少将与该组播消息对应的第二消息参数存储进应用层消息表。

步骤1036：当所述节点加入消息表中存在所述第三存储记录时，根据所述节点成员列表，判断与所述第三存储记录相比，所述组播消息的节点成员列表中是否存在增加或减少的节点成员。

当节点加入消息表中存在第三存储记录时，表明该节点加入消息表中存储有与该组播消息为在同一环中同一节点发送的节点加入消息类型的消息记录，根据与组播消息相对应的第二消息参数中的proc_list，与该第三存储记录中存在的节点成员列表参数做比较，判断该组播消息的proc_list中是否存在增加或减少的节点成员，即判断该组播消息组播的关于当前环中节点离开或加入的相关情况。

步骤1037：当所述组播消息的节点成员列表中存在减少的节点成员时，获取所述减少的节点成员的第二节点地址，根据所述第二节点地址及所述第二发送者地址，判断所述存储表的离开节点表中是否存在具有所述第二节点地址及所述第二发送者地址的第四存储记录。

存储表中还包括离开节点表(leave表)，当步骤1036的判断结果为组播消息的节点成员列表中存在减少的节点成员，即环中存在与该减少的节点成员对应的离开的节点，则获取该减少的节点成员在第二环中的第二节点地址nodeid2，根据nodeid2、sender_id2判断该离开节点表中是否存储有同一节点发送的具有同一减少的节点的消息记录，即上述第四存储记录。

步骤1038：当所述离开节点表中存在所述第四存储记录时，增加所述减少的节点成员的消息记录次数。

当步骤1037中判断结果为离开节点表中存在第四存储记录时，表明该减少的节点成员已被同一节点向其他集群节点组播过相应的消息，此时增加相应的消息记录次数，即增加对该减少的节点成员的离开次数的记录。

步骤1039：当所述离开节点表中不存在所述第四存储信息时，存储包括所述第二节点地址、所述第二发送者地址的第二参数至所述离开节点表。

当步骤1037中判断结果为离开节点表中不存在第四存储记录时，就对相应参数进行存储，存储时至少将第二节点地址、第二发送者地址等参数存储进该离开节点表。

步骤10310：当所述组播消息的节点成员列表中存在增加的节点成员时，获取所述增加的节点成员的第三节点地址，根据所述第三节点地址及所述第二发送者地址，判断所述离开节点表中是否存在具有所述第三节点地址及所述第二发送者地址的第五存储记录。

当步骤1036的判断结果为组播消息的节点成员列表中存在增加的节点成员，即环中存在与该增加的节点成员对应的加入的节点，则获取该增加的节点成员在第二环中的第三节点地址nodeid3，根据nodeid3、sender_id2判断该离开节点表中是否存储有关于此次增加的节点成员的由同一节点发送的对该节点之前离开的消息的记录，即上述第五存储记录。

步骤10311：当所述离开节点表中存在所述第五存储记录时，删除所述第五存储记录。

当离开节点表中存在与此次增加的节点成员由同一发送节点发送的该成员之前离开的记录，则删除该记录。

上述的步骤1034至步骤10311中，对当组播消息为节点加入消息类型时，根据获取与该消息类型相对应的消息参数，查询存储表中与组播消息相对应的存储记录的过程及中间涉及的相关参数的使用和进行的条件判断做出了描述，通过利用获取的组播消息的参数对存储表中的节点加入消息表、离开节点表中的已有数据做出比较判断，最终根据相关结果对相应的参数进行存储或累加或删除的相应操作，达到对集群文件系统状态信息的实时收集与监控。

第六实施例

本实施例中将针对组播消息的不同消息类型，对如何获取集群文件系统的问题节点和集群状态做出描述。

如图13所示，一方面，当组播消息的消息类型为应用层消息类型时，基于第一实施例和第三实施例，步骤104中在一预设时间间隔到达时，根据存储表中与组播消息相对应的存储记录，获取集群文件系统的问题节点和集群状态，具体包括：

步骤1041：所述疑似问题节点表中，当所述疑似问题节点中存在有消息记录次数达到预设最大值的特别疑似问题节点时，判断所述预设最大值与除所述特别疑似问题节点外的其他节点的消息记录次数是否相同。

步骤1042：当预设最大值与除所述特别疑似问题节点外的其他节点的消息记录次数相同时，判断所述集群文件系统为集群业务繁忙状态。

步骤1043：当预设最大值与除所述特别疑似问题节点外的其他节点的消息记录次数不同时，判断所述特别疑似问题节点为所述问题节点。

当组播消息的消息类型为应用层消息类型时，且预定时间间隔到达，在判断集群文件系统中是否有问题节点及当前的集群状态时，需要对疑似问题节点表中的数据进行判断与分析，当疑似问题节点表中存储的疑似问题节点中有消息记录的累计次数达到预设最大值的节点出现，即出现特别疑似问题节点时，需要判断该特别疑似问题节点在预定时间间隔内的消息记录次数达到的该最大值是否与疑似问题节点表中记录的其他疑似问题节点的消息记录次数是否相同，如果相同，那就可以认为此时的集群节点中的疑似问题节点都出现了同样多的消息丢失，则判断集群文件系统处于集群业务繁忙状态，如果不相同，那就可以认为达到消息记录次数最大值的该特别疑似问题节点存在频繁的消息丢失情况，即可判断该节点为问题节点。

如图14所示，另一方面，当该组播消息的消息类型为节点加入消息类型时，基于第一实施例与第五实施例，步骤104中在一预设时间间隔到达时，根据存储表中与组播消息相对应的存储记录，获取集群文件系统的问题节点和集群状态，具体包括：

步骤1044：判断所述离开节点表是否为空。

步骤1045：当所述离开节点表不为空，且所述离开节点表中，存在多个具有相同的所述第二节点地址的存储记录时，判断与所述相同的所述第二节点地址相对应的节点为所述问题节点。

当组播消息的消息类型为节点加入消息类型，获取集群文件系统中的问题节点和集群状态时，要先对离开节点表中收集并存储的数据进行判断与分析，当离开节点表中有记录存在，即不为空时，且在离开节点表的存储记录中，存在有多个记录中都包含有相同的nodeid2这一参数时，则可获知不同的存储记录中对应的有对相同的减少节点的记录，可以得知与该nodeid2相对应的节点出现多次退出即离开组播环的情况发生，则此时判断与该nodeid2相对应的节点为问题节点。

步骤1046：当所述离开节点表为空，判断所述节点加入消息表中，具有所述第二环中最小的所述第二发送者地址的存储记录的数量是否达到预设值。

步骤1047：当所述节点加入消息表中，具有所述第二环中最小的所述第二发送者地址的存储记录的数量达到预设值时，判断所述集群文件系统为令牌超时频繁状态。

这里，最小的第二发送者地址是指在组播环里按顺序编排的节点地址中，向其他节点发送组播消息的节点的地址在该环的节点地址中为最小。当离开节点表中没有记录存在，即为空时，需要判断存储表中的节点加入消息表的存储记录中，具有该最小的第二发送者地址参数的存储记录的数量有没有达到预设值，即由与该最小的第二发送者地址相对应的节点组播的组播消息的数量是否达到预设值，该预设值一般为预设的在允许范围内的最大值，当达到预设值时，说明与该最小的第二发送者地址相对应的节点在预设时间间隔内频繁发送组播消息，引起该频繁发送操作的原因一般为发送组播消息给其他节点之后，token令牌没有及时的被其他节点接收响应，因此引起了频繁的重发，则在此时判断该集群文件系统处于令牌超时频繁状态。

上述根据组播消息的类型在存储表中进行不同的查询及判断过程中，通过纵向节点本身的累积计数及横向节点间的比较，判断集群状态及问题节点，及时有效的对集群文件系统的状态做出检测与判断。

第七实施例

在第一实施例中介绍了如何实时监测并获取集群文件系统的问题节点和集群状态，如图15所示，在本实施例中将对监测并获取集群文件系统的问题节点和集群状态之后，如何解决集群文件系统中的问题进行描述，相应地，该监控方法还包括：

步骤105：根据所述问题节点和集群状态获取对应的调整参数。

步骤106：将所述调整参数组播至所述集群节点，以使所述集群节点根据所述调整参数调整当前自身配置。

在当步骤104获取集群文件系统的问题节点和集群状态之后，根据该问题节点及集群状态提供相对应的应对策略，此时通过获取有针对性的调整参数，并将该调整参数组播至集群节点，使其他节点根据该调整参数及时调整自身配置来解决系统问题。

进一步地，如图16所示，上述步骤105中根据问题节点和集群状态获取对应的调整参数，具体包括：

步骤1051：当所述集群节点所处的集群文件系统为集群业务繁忙状态时，按照第一预设的倍率调大当前消息传输窗口值为一新消息传输窗口值，按照第二预设的倍率缩小每个所述集群节点的当前最大可传输信息值为一新的最大可传输信息值。

这里的第一预设的倍率优选为1.2的倍率，第二预设的倍率优选为0.9的倍率。根据集群出现的具体问题分情况处理，在集群业务繁忙的状态下，每个节点都有组播消息丢失，此时按照1.2的倍率调大消息传输窗口值window_size，按照0.9的倍率缩小每个集群节点组播消息时的最大可传输信息值max_messages，以实现缓解集群繁忙状态，减少消息丢失情况。

步骤1052：当所述集群节点所处的集群文件系统为令牌超时频繁状态时，按照第三预设的倍率调大所述集群节点的令牌超时时间为一新的令牌超时时间。

这里的第三预设的倍率优选为1.2的倍率，对于token令牌超时频繁问题，按照1.2的倍率调大集群中每个节点的令牌超时时间，以减少集群系统中因令牌超时造成的消息重发。

相应地，获取集群文件系统的问题节点和集群状态之后，可对包括出现问题节点、token令牌超时频繁、集群业务繁忙在内的每种结果及与各种结果相对应的调整参数进行输出提示。

进一步地，集群管理套件中的corosync作为集群通信的核心组件，分布在集群每个节点上，corosync的参数配置在每个集群节点相同，它能够将本节点的应用消息广播到集群中，并接收其他节点的组播消息，以此达到整个集群状态的同步，并通过令牌的传递，实现消息的可靠传送，集群成员变化检测，从而维持整个集群稳定。本发明中提到的方法中，可在集群中除监控节点外的其他节点corosync的通信层增加调节参数消息，corosync接收该消息后，进行corosync的totem配置修改。由其他集群节点中的集群管理套件中的corosync接收参数调整消息解析并对相关配置进行修改。

第八实施例

为使本发明目的、技术方案优点更加清楚，本实施例将进一步结合具体实现场景进行说明。

第一步：监控节点加入组播组，准备接收组播消息。

第二步：接收到组播消息，解析组播消息，至少获取消息类型及与消息类型相应的参数数据，并将该些数据进行保存。

第三步：根据参数数据的查询结果，存储相应数据，判断节点状态。

第四步：定时进行统计分析，查询问题节点表和离开节点表，判断可能的问题节点、集群状态，按照当前配置调整参数，输出统计结果和排查建议。

第五步：将调整参数在集群中进行广播。

第六步：集群节点收到关于调整参数的消息，根据调整参数更新配置。

采用本发明公开的方法，与现有技术相比，实现集群和各集群分节点处理能力的直观的观测效果，根据集群业务需求动态调整配置参数，提高了集群的可靠性和稳定性，改善了集群通信的观测手段，方便开发人员分析。

其中，存储表具体包括以下几部分：

应用层消息表，可以为包含列sender_id1，seq，srpaddr，ring_id1，timestamp。

疑似问题节点表，可以为包含nodeid1，seq，ring_id1，timestamp。

节点加入消息表，可以为包含列sender_id2，ring_id2，proc_list，timestamp。

leave表，可以为包含sender_id2，timestamp及未在proc_list中存在的nodeid2。

其中srpaddr列用于记录组播消息发送节点的物理地址，timestamp列用于记录组播消息的相关时间，用于对时间的记录，以便于进行在一预设时间间隔到达时，根据存储表中的存储记录，获取集群文件系统的问题节点和集群状态，也可以通过计时实现在一预设时间段到达时，对存储表中的数据进行定期清除。

进一步地，这里将结合图19对共享存储式集群文件系统节点通信的监控方法中，接收集群文件系统中集群节点的组播消息，获取组播消息的消息类型及与消息类型相对应的消息参数，根据该消息参数，查询存储表中与该组播消息相对应的存储记录的过程做出整体描述。

当进程开始后，接收集群文件系统中集群节点的组播消息，来判断该组播消息的消息类型是否为应用层消息类型，若是，则解析获取该组播消息的seq、sender_id1、ring_id1，以seq和ring_id1为查询条件查询存储表的应用层消息表中是否存在相关记录，若应用层消息表中不存在相关记录，就将该消息存储至应用层消息表中，若应用层消息表中存在相关记录，就根据该相关记录中的消息发送者地址，判断与该消息发送者地址相对应的节点Pn在环中的上一节点Pn-1为疑似问题节点，此时再判断疑似问题节点表中是否存在具有节点Pn-1的节点地址nodeid及具有相同的seq、ring_id1的相关记录，若存在，则更新该具有Pn-1的节点地址nodeid的相关记录的记录次数，即更新该nodeid对应的Pn-1节点的消息丢失造成的未收消息次数，若不存在，则保存Pn-1的nodeid、seq、ring_id1至存储表中的疑似问题节点表；若该组播消息不为应用层消息类型时，判断该组播消息是否为joinmsg消息类型，若是，则获取该组播消息的sender_id2、ring_id2、proc_list参数，以sender_id2和ring_id2为条件查询存储表中的节点加入消息表是否存储有相同记录，如果有则比较组播消息与该相同记录中的proc_list，当该组播消息的proc_list中有减少的节点，获取该减少的节点的节点地址nodeid，此时再以参数sender_id2、该减少的节点的节点地址nodeid、ring_id2查询leave表中是否存在相关记录，如果leave表中存在相关记录，则累加该nodeid对应的节点的记录次数，即累加该nodeid对应的节点的leave次数，若leave表中不存在相关记录，则在leave表中增加对该nodeid对应的减少的节点的消息的记录；当组播消息既不为应用层消息类型也不为joinmsg消息类型，则丢弃该组播消息。

相应地，这里将结合图20对共享存储式集群文件系统节点通信的监控方法中，根据与组播消息的消息类型相对应的消息参数，查询存储表中与组播消息相对应的存储记录；在一预设时间间隔到达时，根据存储表中与组播消息相对应的存储记录，获取该集群文件系统的问题节点和集群状态的过程做出整体描述。

当预设时间间隔到达时，检查疑似问题节点表，统计每个疑似问题节点的记录次数，即每个疑似问题节点的出现错误的次数，判断疑似问题节点中是否有节点的消息记录次数达到了预设的最大值，如果有，将该节点的消息记录次数与其他疑似问题节点的消息记录次数作比较，当其他疑似问题节点的消息记录次数与消息记录次数达到预设的最大值的节点的记录次数相同，则判断集群业务繁忙，若不相同，则判断消息记录次数达到预设的最大值的节点存在问题；当疑似问题节点中不存在有节点的消息记录次数达到预设最大值，则查询leave表，判断leave表中是否有记录存在，若leave表中有节点存在，判断该leave表的记录中是否存在多个具有相同的节点地址的存储记录，即leave表中的记录是否为对同一节点离开的消息记录，若是，则表明与该相同的节点地址对应的节点存在问题，需要等待集群裁决处理；当leave表中没有记录存在，则判断节点加入消息表中关于具有环中最小地址的节点的消息记录是否达到预设值，若是，则判断集群中存在token超时频繁，若不是，则不对该情况进行处理。

本发明通过接收和分析集群各节点组播消息来监控集群和节点状态，及对集群繁忙，token超时情况通过组播来对各节点参数进行调整以适应集群处理能力，加入组播组的监控节点上不设corosync通信模块，为进行参数调节，需要在集群节点通讯模块中增加一调节参数消息处理，但不影响现有集群规模，该监控节点不参与具体业务，通过收集组播消息来监控集群运行状况，并根据每个节点的组播消息统计分析节点状态，对集群状态和问题节点给出统计判断，并适时调整集群参数，提高其通信业务处理能力及稳定性，对整个集群通信状况有了直观观察效果，能够第一时间获取设备故障通知，使管理人员能够及时了解设备状况、定位故障目标、提高工作效率。

第九实施例

如图7、图17所示，本发明还公开了一种共享存储式集群文件系统中的监控节点，该监控节点包括：第一接收模块2100、第一获取模块2200、查询模块2300、第二获取模块2400。

其中，第一接收模块2100，设置为接收集群文件系统中集群节点的组播消息，该监控节点与集群节点都位于集群文件系统中；第一获取模块2200，设置为获取该组播消息的消息类型及与该消息类型相对应的消息参数；查询模块2300，设置为根据该消息参数，查询存储表中与该组播消息相对应的存储记录；第二获取模块2400，设置为在一预设时间间隔到达时，根据该存储表中与该组播消息相对应的存储记录，获取该集群文件系统的问题节点和集群状态。

上述监控节点是在现有集群中增加的节点，该节点配置集群组播地址，能够接收集群广播消息。通过接收集群文件系统中各节点的组播消息，根据组播消息的类型及与组播消息相对应的消息参数，查询存储表中关于对组播消息的存储记录，来获知集群文件系统的问题节点和集群状态，在共享存储式集群文件系统中利用组播通信消息分析节点运行状态，克服了现有技术中存在共享存储式集群文件系统的对等式架构中，集群处理能力、节点故障缺乏统计分析汇总及集群参数不能动态调整的问题和缺陷。

具体地，第一获取模块2200具体设置为：获取该组播消息的消息类型；当该消息类型为应用层消息类型时，获取该组播消息的第一消息参数，该第一消息参数至少包括：该组播消息对应的应用层消息的消息编号、组播该组播消息的节点所在的第一环的第一环标号和组播该组播消息的节点在该第一环中的第一发送者地址；当该消息类型为节点加入消息类型时，获取该组播消息的第二消息参数，该第二消息参数至少包括：组播该组播消息的节点所在的第二环的第二环标号、组播该组播消息的节点在该第二环中的第二发送者地址和组播该组播消息的节点自身记录的节点成员列表。

当第一接收模块2100接收到组播消息之后，第一获取模块2200获取该组播消息的消息类型，这里的消息类型主要分为两类，一类是应用层消息类型，一类是节点加入消息类型。

当该组播消息是应用层消息类型时，获取的参数要至少包括：该组播消息对应的应用层消息的消息编号seq、组播该组播消息的节点所在的环的环标号，即第一环的第一环标号ring_id1和组播该组播消息的节点在环中的地址，即第一环中的第一发送者地址sender_id1；当消息类型为节点加入消息类型时，获取的参数至少包括：组播该组播消息的节点所在的环的环标号，即第二环的第二环标号ring_id2、组播该组播消息的节点在环中的地址，即第二环中的第二发送者地址sender_id2和组播该组播消息的节点自身记录的节点成员的成员集合，即节点成员列表proc_list。对以上参数的获取以便于对组播消息表达出的集群状态做出判断。

其中，如图18所示，查询模块2300具体包括：第一判断子模块2310、第一存储子模块2320、第二存储子模块2330。

具体地，第一判断子模块2310，设置为当该组播消息为应用层消息类型时，根据该消息编号及该第一环标号，判断该存储表的应用层消息表中是否存在具有该消息编号及该第一环标号的第一存储记录；第一存储子模块2320，设置为当该应用层消息表中不存在该第一存储记录时，存储该组播消息的第一消息参数至该应用层消息表；第二存储子模块2330，设置为当该应用层消息表中存在该第一存储记录时，判断结果为该第一环中与该第一发送者地址相对应的节点的上一节点存在消息丢失，得出该上一节点为疑似问题节点，并存储该疑似问题节点的参数至该存储表中的疑似问题节点表。

上述查询模块2300中具体包括的第一判断子模块2310、第一存储子模块2320、第二存储子模块2330，实现了在当组播消息为应用层消息类型时，通过利用获取的组播消息的参数对存储表中的应用层消息表、疑似问题节点表中的已有数据做出比较判断，最终根据相关结果对相应的参数进行存储或累加或删除的相应操作，达到对集群文件系统状态信息的实时收集与监控。

进一步地，第二存储子模块2330具体包括：获取单元2331、判断单元2331、记录单元2333、存储单元2334。

其中，获取单元2331，设置为根据第一发送者地址，获取该疑似问题节点在该第一环中的第一节点地址；判断单元2331，设置为根据该第一节点地址、该消息编号及该第一环标号，判断该疑似问题节点表中是否存在具有该第一节点地址、该消息编号及该第一环标号的第二存储记录；记录单元2333，设置为当该疑似问题节点表中存在该第二存储记录时，增加该疑似问题节点的消息记录次数；存储单元2334，设置为当该疑似问题节点表中不存在该第二存储记录时，存储包括该第一节点地址、该消息编号及该第一环标号的第一参数至该疑似问题节点表。

进一步地，查询模块2300具体包括：第二判断子模块2340、第三存储子模块2350、第三判断子模块2360、第四判断子模块2370、记录子模块2380、第四存储子模块2390、第五判断子模块23100、删除子模块23110。

其中，第二判断子模块2340，设置为当该组播消息为节点加入消息类型时，根据该第二环标记与该第二发送者地址，判断该存储表中的节点加入消息表中是否存在具有该第二环标号及该第二发送者地址的第三存储记录；第三存储子模块2350，设置为当该节点加入消息表中不存在该第三存储记录时，存储该组播消息的第二消息参数至该节点加入消息表；第三判断子模块2360，设置为当该节点加入消息表中存在该第三存储记录时，根据该节点成员列表，判断与该第三存储记录相比，该组播消息的节点成员列表中是否存在增加或减少的节点成员；第四判断子模块2370，设置为当该组播消息的节点成员列表中存在减少的节点成员时，获取该减少的节点成员的第二节点地址，根据该第二节点地址及该第二发送者地址，判断该存储表的离开节点表中是否存在具有该第二节点地址及该第二发送者地址的第四存储记录；记录子模块2380，设置为当该离开节点表中存在该第四存储记录时，增加该减少的节点成员的消息记录次数；第四存储子模块2390，设置为当该离开节点表中不存在该第四存储信息时，存储包括该第二节点地址、该第二发送者地址的第二参数至该离开节点表；第五判断子模块23100，设置为当该组播消息的节点成员列表中存在增加的节点成员时，获取该增加的节点成员的第三节点地址，根据该第三节点地址及该第二发送者地址，判断该离开节点表中是否存在具有该第三节点地址及该第二发送者地址的第五存储记录；删除子模块23110，设置为当该离开节点表中存在该第五存储记录时，删除该第五存储记录。

上述查询模块2300中具体包括的第二判断子模块2340至删除子模块23110实现了在当组播消息为节点加入消息类型时，通过利用获取的组播消息的参数对存储表中的节点加入消息表、离开节点表中的已有数据做出比较判断，最终根据相关结果对相应的参数进行存储或累加或删除的相应操作，达到对集群文件系统状态信息的实时收集与监控。

具体地，当组播消息为应用层消息类型时，第二获取模块2400具体包括：第六判断子模块2410、第七判断子模块2420。

其中，第六判断子模块2410，设置为该疑似问题节点表中，当该疑似问题节点中存在有消息记录次数达到预设最大值的特别疑似问题节点时，判断该预设最大值与除该特别疑似问题节点外的其他节点的消息记录次数是否相同，当预设最大值与除该特别疑似问题节点外的其他节点的消息记录次数相同时，判断该集群文件系统为集群业务繁忙状态；第七判断子模块2420，设置为当预设最大值与除该特别疑似问题节点外的其他节点的消息记录次数不同时，判断该特别疑似问题节点为该问题节点。

相应地，当组播消息为节点加入消息类型时，第二获取模块2400，具体包括：第八判断子模块2430、第九判断子模块2440、第十判断子模块2450、第十一判断子模块2460。

其中，第八判断子模块2430，设置为判断该离开节点表是否为空；第九判断子模块2440，设置为当该离开节点表不为空，且该离开节点表中，存在多个具有相同的该第二节点地址的存储记录时，判断与该相同的该第二节点地址相对应的节点为该问题节点；第十判断子模块2450，设置为当该离开节点表为空，判断该节点加入消息表中，具有该第二环中最小的该第二发送者地址的存储记录的数量是否达到预设值；第十一判断子模块2460，设置为当该节点加入消息表中，具有该第二环中最小的该第二发送者地址的存储记录的数量达到预设值时，判断该集群文件系统为令牌超时频繁状态。

上述的各判断模块及各判断子模块，在根据组播消息的类型在存储表中进行不同的查询及判断过程中，通过纵向节点本身的累积计数及横向节点间的比较，判断集群状态及问题节点，及时有效的对集群文件系统的状态做出检测与判断。

更进一步地，监控节点还包括：

第三获取模块2500，设置为根据该问题节点和集群状态获取对应的调整参数。

组播模块2600，设置为将该调整参数组播至该集群节点，以使该集群节点根据该调整参数调整当前自身配置。

相应地，第三获取模块2500具体设置为：

当该集群节点所处的集群文件系统为集群业务繁忙状态时，按照第一预设的倍率调大当前消息传输窗口值为一新消息传输窗口值，按照第二预设的倍率缩小每个该集群节点的当前最大可传输信息值为一新的最大可传输信息值；当该集群节点所处的集群文件系统为令牌超时频繁状态时，按照第三预设的倍率调大该集群节点的令牌超时时间为一新的令牌超时时间。

本发明提供的增加在集群文件系统中的监控节点，克服了现有技术中存在于共享存储式集群文件系统的对等式架构中，集群处理能力、节点故障缺乏统计分析汇总及集群参数不能动态调整的问题和缺陷，实现了对集群文件系统问题的及时检测、发现与解决。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

可选地，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

工业实用性

如上所述，本发明实施例提供的一种共享存储式集群文件系统节点通信的监控方法及监控节点，具有以下有益效果：通过收集组播消息来监控集群运行状况，并根据每个节点的组播消息统计分析节点状态，对集群状态和问题节点给出统计判断，提高其通信业务处理能力及稳定性，且能够第一时间获取设备故障通知，使管理人员对整个集群通信状况有了直观观察效果，能够及时了解设备状况、定位故障目标、提高工作效率，进而提高集群文件系统整体性能。

Claims

一种共享存储式集群文件系统节点通信的监控方法，应用于共享存储式集群文件系统中的监控节点，包括：

接收所述集群文件系统中集群节点的组播消息，所述监控节点与所述集群节点都位于所述集群文件系统中；

获取所述组播消息的消息类型及与所述消息类型相对应的消息参数；

根据所述消息参数，查询存储表中与所述组播消息相对应的存储记录；

在一预设时间间隔到达时，根据所述存储表中与所述组播消息相对应的存储记录，获取所述集群文件系统的问题节点和集群状态。
根据权利要求1所述的共享存储式集群文件系统节点通信的监控方法，其中，所述获取所述组播消息的消息类型及与所述消息类型相对应的消息参数，具体包括：

获取所述组播消息的消息类型；

当所述消息类型为应用层消息类型时，获取所述组播消息的第一消息参数，所述第一消息参数至少包括：所述组播消息对应的应用层消息的消息编号、组播所述组播消息的节点所在的第一环的第一环标号和组播所述组播消息的节点在所述第一环中的第一发送者地址；

当所述消息类型为节点加入消息类型时，获取所述组播消息的第二消息参数，所述第二消息参数至少包括：组播所述组播消息的节点所在的第二环的第二环标号、组播所述组播消息的节点在所述第二环中的第二发送者地址和组播所述组播消息的节点自身记录的节点成员列表。
根据权利要求2所述的共享存储式集群文件系统节点通信的监控方法，其中，所述根据所述消息参数，查询存储表中与所述组播消息相对应的存储记录，具体包括：

当所述组播消息为应用层消息类型时，根据所述消息编号及所述第一环标号，判断所述存储表的应用层消息表中是否存在具有所述消息编号及所述第一环标号的第一存储记录；

当所述应用层消息表中不存在所述第一存储记录时，存储所述组播消息的第一消息参数至所述应用层消息表；

当所述应用层消息表中存在所述第一存储记录时，判断结果为所述第一环中与所述第一发送者地址相对应的节点的上一节点存在消息丢失，得出所述上一节点为疑似问题节点，并存储所述疑似问题节点的参数至所述存储表中的疑似问题节点表。
根据权利要求3所述的共享存储式集群文件系统节点通信的监控方法，其中，所述得出所述上一节点为疑似问题节点，并存储所述疑似问题节点的参数至所述存储表中的疑似问题节点表，具体包括：

根据所述第一发送者地址，获取所述疑似问题节点在所述第一环中的第一节点地址；

根据所述第一节点地址、所述消息编号及所述第一环标号，判断所述疑似问题节点表中是否存在具有所述第一节点地址、所述消息编号及所述第一环标号的第二存储记录；

当所述疑似问题节点表中存在所述第二存储记录时，增加所述疑似问题节点的消息记录次数；

当所述疑似问题节点表中不存在所述第二存储记录时，存储包括所述第一节点地址、所述消息编号及所述第一环标号的第一参数至所述疑似问题节点表。
根据权利要求2所述的共享存储式集群文件系统节点通信的监控方法，其中，所述根据所述消息参数，查询存储表中与所述组播消息相对应的存储记录，具体包括：

当所述组播消息为节点加入消息类型时，根据所述第二环标记与所述第二发送者地址，判断所述存储表中的节点加入消息表中是否存在具有所述第二环标号及所述第二发送者地址的第三存储记录；

当所述节点加入消息表中不存在所述第三存储记录时，存储所述组播消息的第二消息参数至所述节点加入消息表；

当所述节点加入消息表中存在所述第三存储记录时，根据所述节点成员列表，判断与所述第三存储记录相比，所述组播消息的节点成员列表中是否存在增加或减少的节点成员；

当所述组播消息的节点成员列表中存在减少的节点成员时，获取所述减少的节点成员的第二节点地址，根据所述第二节点地址及所述第二发送者地址，判断所述存储表的离开节点表中是否存在具有所述第二节点地址及所述第二发送者地址的第四存储记录；

当所述离开节点表中存在所述第四存储记录时，增加所述减少的节点成员的消息记录次数；

当所述离开节点表中不存在所述第四存储信息时，存储包括所述第二节点地址、所述第二发送者地址的第二参数至所述离开节点表；

当所述组播消息的节点成员列表中存在增加的节点成员时，获取所述增加的节点成员的第三节点地址，根据所述第三节点地址及所述第二发送者地址，判断所述离开节点表中是否存在具有所述第三节点地址及所述第二发送者地址的第五存储记录；

当所述离开节点表中存在所述第五存储记录时，删除所述第五存储记录。
根据权利要求3所述的共享存储式集群文件系统节点通信的监控方法，其中，所述在一预设时间间隔到达时，根据所述存储表中与所述组播消息相对应的存储记录，获取所述集群文件系统的问题节点和集群状态，具体包括：

所述疑似问题节点表中，当所述疑似问题节点中存在有消息记录次数达到预设最大值的特别疑似问题节点时，判断所述预设最大值与除所述特别疑似问题节点外的其他节点的消息记录次数是否相同；

当预设最大值与除所述特别疑似问题节点外的其他节点的消息记录次数相同时，判断所述集群文件系统为集群业务繁忙状态；

当预设最大值与除所述特别疑似问题节点外的其他节点的消息记录次数不同时，判断所述特别疑似问题节点为所述问题节点。
根据权利要求5所述的共享存储式集群文件系统节点通信的监控方法，其中，所述在一预设时间间隔到达时，根据所述存储表中与所述组播消息相对应的存储记录，获取所述集群文件系统的问题节点和集群状态，具体包括：

判断所述离开节点表是否为空；

当所述离开节点表不为空，且所述离开节点表中，存在多个具有相同的所述第二节点地址的存储记录时，判断与所述相同的所述第二节点地址相对应的节点为所述问题节点；

当所述离开节点表为空，判断所述节点加入消息表中，具有所述第二环中最小的所述第二发送者地址的存储记录的数量是否达到预设值；

当所述节点加入消息表中，具有所述第二环中最小的所述第二发送者地址的存储记录的数量达到预设值时，判断所述集群文件系统为令牌超时频繁状态。
根据权利要求1所述的共享存储式集群文件系统节点通信的监控方法，其中，所述监控方法还包括：

根据所述问题节点和集群状态获取对应的调整参数；

将所述调整参数组播至所述集群节点，以使所述集群节点根据所述调整参数调整当前自身配置。
根据权利要求8所述的共享存储式集群文件系统节点通信的监控方法，其中，所述根据所述问题节点和集群状态获取对应的调整参数，具体包括：

当所述集群节点所处的集群文件系统为集群业务繁忙状态时，按照第一预设的倍率调大当前消息传输窗口值为一新消息传输窗口值，按照第二预设的倍率缩小每个所述集群节点的当前最大可传输信息值为一新的最大可传输信息值；

当所述集群节点所处的集群文件系统为令牌超时频繁状态时，按照第三预设的倍率调大所述集群节点的令牌超时时间为一新的令牌超时时间。
一种共享存储式集群文件系统中的监控节点，包括：

第一接收模块，设置为接收所述集群文件系统中集群节点的组播消息，所述监控节点与所述集群节点都位于所述集群文件系统中；

第一获取模块，设置为获取所述组播消息的消息类型及与所述消息类型相对应的消息参数；

查询模块，设置为根据所述消息参数，查询存储表中与所述组播消息相对应的存储记录；

第二获取模块，设置为在一预设时间间隔到达时，根据所述存储表中与所述组播消息相对应的存储记录，获取所述集群文件系统的问题节点和集群状态。
根据权利要求10所述的共享存储式集群文件系统中的监控节点，其中，所述第一获取模块具体设置为：

获取所述组播消息的消息类型；

当所述消息类型为应用层消息类型时，获取所述组播消息的第一消息参数，所述第一消息参数至少包括：所述组播消息对应的应用层消息的消息编号、组播所述组播消息的节点所在的第一环的第一环标号和组播所述组播消息的节点在所述第一环中的第一发送者地址；

当所述消息类型为节点加入消息类型时，获取所述组播消息的第二消息参数，所述第二消息参数至少包括：组播所述组播消息的节点所在的第二环的第二环标号、组播所述组播消息的节点在所述第二环中的第二发送者地址和组播所述组播消息的节点自身记录的节点成员列表。
根据权利要求11所述的共享存储式集群文件系统中的监控节点，其中，所述查询模块具体包括：

第一判断子模块，设置为当所述组播消息为应用层消息类型时，根据所述消息编号及所述第一环标号，判断所述存储表的应用层消息表中是否存在具有所述消息编号及所述第一环标号的第一存储记录；

第一存储子模块，设置为当所述应用层消息表中不存在所述第一存储记录时，存储所述组播消息的第一消息参数至所述应用层消息表；

第二存储子模块，设置为当所述应用层消息表中存在所述第一存储记录时，判断结果为所述第一环中与所述第一发送者地址相对应的节点的上一节点存在消息丢失，得出所述上一节点为疑似问题节点，并存储所述疑似问题节点的参数至所述存储表中的疑似问题节点表。
根据权利要求12所述的共享存储式集群文件系统中的监控节点，其中，所述第二存储子模块具体包括：

获取单元，设置为根据所述第一发送者地址，获取所述疑似问题节点在所述第一环中的第一节点地址；

判断单元，设置为根据所述第一节点地址、所述消息编号及所述第一环标号，判断所述疑似问题节点表中是否存在具有所述第一节点地址、所述消息编号及所述第一环标号的第二存储记录；

记录单元，设置为当所述疑似问题节点表中存在所述第二存储记录时，增加所述疑似问题节点的消息记录次数；

存储单元，设置为当所述疑似问题节点表中不存在所述第二存储记录时，存储包括所述第一节点地址、所述消息编号及所述第一环标号的第一参数至所述疑似问题节点表。
根据权利要求11所述的共享存储式集群文件系统中的监控节点，其中，所述查询模块具体包括：

第二判断子模块，设置为当所述组播消息为节点加入消息类型时，根据所述第二环标记与所述第二发送者地址，判断所述存储表中的节点加入消息表中是否存在具有所述第二环标号及所述第二发送者地址的第三存储记录；

第三存储子模块，设置为当所述节点加入消息表中不存在所述第三存储记录时，存储所述组播消息的第二消息参数至所述节点加入消息表；

第三判断子模块，设置为当所述节点加入消息表中存在所述第三存储记录时，根据所述节点成员列表，判断与所述第三存储记录相比，所述组播消息的节点成员列表中是否存在增加或减少的节点成员；

第四判断子模块，设置为当所述组播消息的节点成员列表中存在减少的节点成员时，获取所述减少的节点成员的第二节点地址，根据所述第二节点地址及所述第二发送者地址，判断所述存储表的离开节点表中是否存在具有所述第二节点地址及所述第二发送者地址的第四存储记录；

记录子模块，设置为当所述离开节点表中存在所述第四存储记录时，增加所述减少的节点成员的消息记录次数；

第四存储子模块，设置为当所述离开节点表中不存在所述第四存储信息时，存储包括所述第二节点地址、所述第二发送者地址的第二参数至所述离开节点表；

第五判断子模块，设置为当所述组播消息的节点成员列表中存在增加的节点成员时，获取所述增加的节点成员的第三节点地址，根据所述第三节点地址及所述第二发送者地址，判断所述离开节点表中是否存在具有所述第三节点地址及所述第二发送者地址的第五存储记录；

删除子模块，设置为当所述离开节点表中存在所述第五存储记录时，删除所述第五存储记录。
根据权利要求12所述的共享存储式集群文件系统中的监控节点，其中，所述第二获取模块，具体包括：

第六判断子模块，设置为所述疑似问题节点表中，当所述疑似问题节点中存在有消息记录次数达到预设最大值的特别疑似问题节点时，判断所述预设最大值与除所述特别疑似问题节点外的其他节点的消息记录次数是否相同，当预设最大值与除所述特别疑似问题节点外的其他节点的消息记录次数相同时，判断所述集群文件系统为集群业务繁忙状态；

第七判断子模块，设置为当预设最大值与除所述特别疑似问题节点外的其他节点的消息记录次数不同时，判断所述特别疑似问题节点为所述问题节点。
根据权利要求14所述的共享存储式集群文件系统中的监控节点，其中，所述第二获取模块，具体包括：

第八判断子模块，设置为判断所述离开节点表是否为空；

第九判断子模块，设置为当所述离开节点表不为空，且所述离开节点表中，存在多个具有相同的所述第二节点地址的存储记录时，判断与所述相同的所述第二节点地址相对应的节点为所述问题节点；

第十判断子模块，设置为当所述离开节点表为空，判断所述节点加入消息表中，具有所述第二环中最小的所述第二发送者地址的存储记录的数量是否达到预设值；

第十一判断子模块，设置为当所述节点加入消息表中，具有所述第二环中最小的所述第二发送者地址的存储记录的数量达到预设值时，判断所述集群文件系统为令牌超时频繁状态。
根据权利要求10所述的共享存储式集群文件系统中的监控节点，其中，所述监控节点还包括：

第三获取模块，设置为根据所述问题节点和集群状态获取对应的调整参数；

组播模块，设置为将所述调整参数组播至所述集群节点，以使所述集群节点根据所述调整参数调整当前自身配置。
根据权利要求17所述的共享存储式集群文件系统中的监控节点，其中，所述第三获取模块，具体设置为：

当所述集群节点所处的集群文件系统为集群业务繁忙状态时，按照第一预设的倍率调大当前消息传输窗口值为一新消息传输窗口值，按照第二预设的倍率缩小每个所述集群节点的当前最大可传输信息值为一新的最大可传输信息值；

当所述集群节点所处的集群文件系统为令牌超时频繁状态时，按照第三预设的倍率调大所述集群节点的令牌超时时间为一新的令牌超时时间。
一种计算机存储介质，设置为存储用于执行如权利要求1至9中任一项所述的共享存储式集群文件系统节点通信的监控方法的计算机程序。