WO2023083079A1

WO2023083079A1 - 第三方系统监控系统、方法、装置、设备及存储介质

Info

Publication number: WO2023083079A1
Application number: PCT/CN2022/129323
Authority: WO
Inventors: 张波清; 侯俊丞
Original assignee: 百果园技术(新加坡)有限公司; 张波清
Priority date: 2021-11-12
Filing date: 2022-11-02
Publication date: 2023-05-19
Also published as: CN114118991A

Abstract

本申请涉及一种第三方系统监控系统、方法、装置、设备及存储介质，该方法包括：获取至少一个业务系统上报的数据，基于所述业务系统上报的数据确定至少一个第三方系统的接口调用的第一成功率，并判断所述第一成功率是否低于第一阈值，将所述第一成功率低于第一阈值的第三方系统作为目标第三方系统；通知探测节点对所述目标第三方系统进行主动探测，以得到目标第三方系统的接口调用的第二成功率；判断所述第二成功率是否低于第二阈值，基于所述第二成功率低于所述第二阈值的判断结果，确定所述目标第三方系统存在故障；基于所述第二成功率高于或等于所述第二阈值的判断结果，确定所述目标第三方系统没有故障或者故障已恢复。

Description

第三方系统监控系统、方法、装置、设备及存储介质

本申请要求在2021年11月12日提交中国专利局、申请号为202111339204.4的中国专利申请的优先权，该申请的全部内容通过引用结合在本申请中。

技术领域

本申请涉及计算机技术领域，例如涉及一种第三方系统监控系统、方法、装置、设备及存储介质。

背景技术

每一个业务系统的搭建和运行，都会或多或少地依赖第三方系统的功能。比如支付系统，会依赖多种第三方支付渠道来供用户支付。那么，第三方系统的稳定性就直接影响到业务系统的稳定性。所以，需要对第三方系统进行监控，在它们故障不可用的时候，业务系统自身可以进行相应的告警或自动处理。

相关技术中的一些系统监控工具，虽然提供了数据收集、展示和告警等功能，可以做到当第三方系统故障时进行告警，但缺少一定的自动化处理能力，无法与具体业务场景进行衔接，从而无法实现故障或故障恢复的自动处理。

发明内容

本申请提供一种新的第三方系统监控系统、方法、装置、设备及存储介质，用以识别、诊断第三方系统问题，能够对第三方系统故障的发生进行准确识别。

本公开提出的一种第三方系统监控系统，包括：业务系统，设置为提供业务功能，可调用第三方系统的接口；第三方系统，设置为提供至少一个接口，以为业务系统提供相应的第三方功能；监控装置，设置为对第三方系统进行监控；以及，探测节点，设置为根据所述监控装置的通知主动调用第三方系统的接口以进行探测。

本申请提出的一种第三方系统监控方法，包括以下步骤：获取至少一个业务系统上报的数据，基于所述业务系统上报的数据确定至少一个第三方系统的接口调用的第一成功率，并判断所述第一成功率是否低于第一阈值，将所述第一成功率低于第一阈值的第三方系统作为目标第三方系统；通知探测节点对所述目标第三方系统进行主动探测，以得到目标第三方系统的接口调用的第二成功率；判断所述第二成功率是否低于第二阈值，基于所述第二成功率低于所述第二阈值的判断结果，确定所述目标第三方系统存在故障；基于所述第二成功率高于或等于所述第二阈值的判断结果，确定所述目标第三方系统没有故障或者故障已恢复。

本公开提出的一种第三方系统监控装置，包括：检查模块，设置为获取至少一个业务系统上报的数据，基于所述业务系统上报的数据确定至少一个第三方系统的接口调用的第一成功率，并判断所述第一成功率是否低于第一阈值，将所述第一成功率低于第一阈值的第三方系统作为目标第三方系统；探测模块，设置为通知探测节点对所述目标第三方系统进行主动探测，以得到目标第三方系统的接口调用的第二成功率；故障判断模块，设置为判断所述第二成功率是否低于第二阈值，基于所述第二成功率低于所述第二阈值的判断结果，确定所述目标第三方系统存在故障，基于所述第二成功率高于或等于所述第二阈值的判断结果，确定所述目标第三方系统没有故障或者故障已恢复。

本公开提出的一种第三方系统监控设备，包括：存储器，设置为存储非暂时性计算机可读指令；以及处理器，设置为运行所述计算机可读指令，使得所述处理器执行时实现前述任意一种第三方系统监控方法。

本公开提出的一种计算机可读存储介质，用于存储非暂时性计算机可读指令，当所述非暂时性计算机可读指令由计算机执行时，使得所述计算机执行前述任意一种第三方系统监控方法。

附图说明

图1是本申请一个实施例的第三方系统监控系统整体架构示意图；

图2是本申请另一实施例的第三方系统监控系统整体架构示意图；

图3是本申请一个实施例的第三方系统监控方法的流程示意图；

图4是本申请另一实施例的第三方系统监控方法的流程示意图；

图5是本申请一个实施例提供的全球节点探测的示意图；

图6是本申请一个实施例的第三方系统监控设备的示意图。

具体实施方式

为阐述本申请为达成预定申请目的所采取的技术手段及功效，以下结合附图及示例实施例，对依据本申请提出的第三方系统监控系统、方法、装置、设备及存储介质的示例实施方式、结构、特征及其功效，详细说明如后。

需要说明的是，在本文中，诸如“第一”、“第二”等关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。另外，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

图1为本申请一个实施例提出的第三方系统监控系统整体架构以及系统组件示意图。请参阅图1，在本申请的一些实施例中，第三方系统监控系统主要包括：业务系统、第三方系统、监控装置以及探测节点。

其中，该业务系统(Business System)设置为提供业务功能，能够调用一个或多个第三方系统的接口。需注意，一般来说，业务系统为用户提供了完整且具体的业务功能，其中部分业务功能可能需要通过调用第三方系统提供的接口来实现。

该第三方系统(Third Party System)设置为提供一个或多个接口，用以为业务系统提供相应的第三方功能的接口实现。

该监控装置，也可称为监控系统(Monitor System)，设置为对第三方系统进行监控。实际中，监控装置设置为帮助业务系统实现对第三方系统进行监控、诊断，例如，还可以实现对第三方系统的故障和故障恢复进行自动处理。监控装置所进行的具体处理可以参阅监控方法部分内容。

该探测节点(Probe Node)设置为根据监控装置的通知来主动调用第三方系统接口以进行探测，提供了对第三方系统接口进行主动调用的能力。例如，探测节点的实现硬件包括但不限于服务器。

图2为本申请另一实施例提出的第三方系统监控系统整体架构以及系统组件示意图。请参阅图2，例如，第三方系统监控系统还可以包括：数据上报节点(Data Collecter Node)、数据存储节点(Storage)中的一个或多个。

其中，该数据上报节点设置为收集数据信息，以供监控装置使用，这部分数据主要是业务系统对第三方系统接口每次调用的统计信息，包括业务系统所调用的第三方系统接口的接口调用信息。例如，数据上报节点可以将业务系统对第三方系统进行的接口调用的信息发送到数据存储节点进行存储，以供监控装置使用。该数据上报节点可集成于业务系统。

该数据存储节点，也称为存储设备，设置为存储具体数据，包括对从业务系统中上报的信息和从探测节点上报的信息进行记录，以供监控装置使用。

作为一个示例实施例，上述多个系统组件之间可以包括如下的关系：

①业务系统与第三方系统之间

业务系统的一些功能会依赖第三方系统来实现。例如，第三方系统提供了一些接口，业务系统可以通过调用这些接口来完成特定的功能，比如查询用户信息，保存用户信息等等。

例如，业务系统可以集成数据上报节点的功能，设置为记录业务系统调用第三方系统接口的统计信息。

②数据上报节点与数据存储节点之间

数据上报节点可以将接口调用的统计信息记录到存储设备，供监控装置使用。

每次接口调用的统计信息包含但不限于：业务系统名称、业务类型、第三方系统名称、第三方系统接口名称、是否调用成功、所属区域信息(例如大区名称)、机房名称、时间、版本等等。其中，大区可以指的是：服务器机房所在区域，用来表示部署服务的环境。

③监控装置与探测节点之间

监控装置可以通过向探测节点发送消息，来通知探测节点来对第三方系统接口进行主动调用，进而可以间接的获取到实时接口调用数据。

④探测节点与第三方系统之间

探测节点主动调用第三方系统接口。作为一个示例，可以将示例探测策略设定为每隔20s调用一次接口，总共调用20次，然后将这20次调用结果记录下来。

⑤探测节点与数据存储节点之间

在探测节点完成对第三方系统接口调用后，可以将探测结果记录到存储设备。

记录的探测结果包含但不限于：业务系统名称、业务类型、第三方系统名称、第三方系统接口名称、所属区域信息(例如大区名称)、机房名称、接口调用次数、成功率、探测ID、时间、版本等等。

⑥监控装置与数据存储节点之间

监控装置可以从存储设备中获取统计信息，包括第三方系统接口调用的信息。

例如，第三方系统接口调用的信息可以包括两部分信息，一部分是从业务系统中上报的信息；另一部分是从探测节点中上报的信息。监控装置基于这两部分信息，就能判断出第三方系统是否故障，以及是否恢复，从而可以做相应的后置操作处理。

⑦监控装置与业务系统之间

监控装置可以基于探测的结果，通知业务系统进行相关自动化操作，比如通知业务系统对相应的第三方系统进行上线下线等处理。

需注意，本申请不限制第三方系统监控系统所包含的多个系统组件的数量。例如，第三方系统监控系统可以包括一个或多个业务系统、一个或多个第三方系统、一个或多个监控装置以及一个或多个探测节点；例如，第三方系统监控系统还可以包括一个或多个数据上报节点、一个或多个数据存储节点。

需注意，图1中的仅示意性地展示了涉及的第三方系统监控的一些方面，本申请并非限制多个系统模块节点之间的交互仅有上述方式和内容，而是还可以包括其他的信号传输和数据交互。例如，多个系统之间的交互均可以是双向的，交互的数据也不限于前述数据。

图3为本申请的第三方系统监控方法一个实施例的示意性流程图。图4为本申请的第三方系统监控方法一个实施例的监控系统核心处理流程的示意图。在本申请的一些实施例中，请参阅图3和图4，本申请示例的第三方系统监控方法主要包括以下步骤：

步骤S11，获取一个或多个业务系统上报的数据，基于该业务系统上报的该数据确定一个或多个第三方系统的接口调用的第一成功率，并判断该第一成功率是否低于第一阈值，将第一成功率低于第一阈值的第三方系统作为目标第三方系统。

其中，一个业务系统上报的数据中包括该业务系统对一个或多个第三方系统的一次或多次的接口调用的信息，例如包括每次接口调用是否成功的信息。在业务系统或第三方系统的数量为多个时，该上报数据还可以包括每次接口调用所对应的业务系统的标识、被调用的第三方系统的标识等信息。

其中，若业务系统对第三方系统接口的调用的成功率高于第一阈值，则表明该第三方系统的接口是可被该业务系统利用的，若业务系统对第三方系统接口的调用的成功率低于或等于第一阈值，则表明该第三方系统可能存在故障。

在一个示例中，业务系统可以定期将数据发送至存储设备进行记录，监控系统可以从该存储设备中获取业务系统上报的数据。

在一些示例中，可以基于一个时间段内的业务系统上报的数据来计算出一个或多个第三方系统的接口调用的第一成功率。例如，可以根据一个时间段(例如最近10分钟)内的一个业务系统与一个第三方系统之间的多次通信信息来确定第三方系统是否疑似故障。例如根据多次通信的信号收发是否成功来确定该业务系统对该第三方系统的接口调用是否成功，将该时间段内的成功率作为第一成功率，以避免仅凭单次通信情况来判断故障情况而造成误判。

例如，若第三方系统的第一成功率低于第一阈值，则将该第三方系统(即目标第三方系统)的信息、该第三方系统的被调用的接口的信息、和/或调用该第三方系统的业务系统的信息等信息作为标记信息存放到探测队列(Detect Queue)中。利用探测队列对第一成功率较低的第三方系统、第三方系统接口、业务系统的情况进行记录，有利于利用这些信息来进行后续的探测和处理。

其中，探测队列用来存放标记信息，存在该标记信息则表示第三方系统接口可能存在故障。例如，探测队列记录于数据存储节点(Storage)。例如，该标记信息包含但不限于：业务系统名称(或身份标识ID)、业务系统类型、第三方系统名称(或身份标识ID)、第三方系统接口名称(或身份标识ID)、和/或第三方系统的所属区域等等。

步骤S12，通知探测节点对该目标第三方系统进行主动探测，以得到目标第三方系统的接口调用的第二成功率。

其中，探测节点设置为：根据设定的探测规则对第三方系统进行探测，确定探测节点对第三方系统的接口调用是否成功，以确定前述的第二成功率。

在一些示例中，可以在一个时间段内多次通知探测节点对目标第三方系统进行主动探测，并根据多次主动探测时对目标第三方系统的接口调用是否成功的情况来计算出探测节点对目标第三方系统的接口调用的第二成功率，以避免仅凭单次通信情况来判断故障情况而造成误判。例如，每隔一个时间间隔(例如20秒)请求一次被监控的第三方系统(即前述的目标第三方系统)的接口调用，进行预设次数(例如10次)接口调用，每次的结果可以是接口调用成功或接口调用失败，根据多次接口调用的结果计算成功率，即为第二成功率。

在得到第二成功率后，可以将探测节点的探测结果信息记录到存储设备，进行持久化的存储，以便于在后续步骤中进行分析处理，也便于综合利用多次结果进行分析。

例如，可以将第二成功率记录于统一的存储位置。将第二成功率记录于统一的存储位置指的是：不是将探测节点的探测结果信息存储在探测节点所在服务器内存中，而是将多个探测节点的探测结果信息统一记录于一个预设的存储设备，例如存储在前述的数据存储节点。

例如，监控系统可以从探测队列中获取上一阶段存放的标记信息，从而确定目标第三方系统，然后监控系统通知探测节点开始对与标记信息对应的目标第三方系统进行主动探测，以得到接口调用的第二成功率。

步骤S13，判断第二成功率是否低于第二阈值，若低于第二阈值则判定该目标第三方系统存在故障，若高于或等于第二阈值则判定该目标第三方系统没有故障或者故障已恢复。

例如，若探测节点完成主动探测后将探测结果记录于一个存储设备，则监控系统可以从存储设备中获取到主动探测的数据，因为该数据中直接记录了接口调用的成功率(即前述的第二成功率)，所以可以直接判断第二成功率是否低于第二阈值。

需注意，一般来说，第一阈值与第二阈值没有直接的关系，可以根据具体的业务场景对第一阈值、第二阈值进行分别设置。例如，第二阈值可以大于第一阈值、小于第一阈值或等于第一阈值。

例如，无伦是业务系统还是探测节点，对第三系统的请求的成功或失败的结果数据都可以存储起来，这样通过读取存储数据就能进行相应的判断和处理。

例如，可以将已判定存在故障的第三方系统的信息，也记录于探测队列之中。例如将存在故障的第三方系统的标记信息、具体故障信息等信息记录于探测队列之中，以便于在后续处理阶段中根据这些信息进行对应处理。

需注意，在前述步骤S11和S12中，接口调用的发起方不同，一个是业务系统、一个是探测节点；另外，确定第一成功率和第二成功率所根据的数据不同，第一成功率是基于业务系统上报的数据中记录的关于某个第三方系统的接口调用情况，而得到的成功率；而第二成功率是探测节点实时地对某个第三方系统进行主动调用，并根据主动调用的情况得到的成功率。

在本申请的一些实施例中，本申请示例的第三方系统监控方法还包括：步骤S14，若判定目标第三方系统存在故障，则自动进行故障处理；并且周期性地通知探测节点对目标第三方系统进行主动探测，直到判定故障已恢复，或者，在进行前述自动进行故障处理后再次通知探测节点对目标第三方系统进行主动探测，以判别目标第三方系统当前是否存在故障；若再次判定目标第三方系统存在故障则再次自动进行故障处理；若判定故障已恢复，则自动进行故障恢复处理。

其中，前述步骤S14中的若判定目标第三方系统存在故障，则自动进行故障处理，可以包括但不限于：通过发送相应的控制信号来通知业务系统、目标第三方系统、和/或相关的系统或终端来自动进行相应的故障处理。而前述步骤S14中的若判定第三方系统接口故障已恢复，则自动进行故障恢复处理，可以包括但不限于：通知业务系统、目标第三方系统、和/或相关的系统或终端来自动进行相应的故障恢复处理。例如，故障时电话告警，自动停止对它的调用或替换成另一个可用的第三方系统；故障恢复时，可以自动恢复对它的调用等等。

其中，前述步骤S14中的周期性地通知探测节点对存在故障的第三方系统进行主动探测直到判定故障已恢复，可以包括：周期性地(例如每隔10分钟)通知探测节点对步骤S11确定出的目标第三方系统进行前述步骤S12和步骤S13的过程、或周期性地进行前述步骤S11至步骤S13的过程，以判断当前是否有一个或多个第三方系统是否存在故障，若判定有第三方系统存在故障时，再次进行前述步骤S14的对存在故障的第三方系统自动进行故障处理，直到在一次步骤S13中根据当前数据判定故障已恢复，则停止进行故障判定并进行故障恢复处理。在进行故障恢复处理之后，还可以将刚才存在故障的该第三方系统(即目标第三方系统)的相关信息，例如该第三方系统的信息、该第三方系统的被调用的接口的信息、和/或调用该第三方系统的业务系统的信息等信息从探测队列中移出。

例如，前述的自动进行故障处理包括：自动发送通知报告、自动下架、流量自动转移、版本自动切换中的一个或多个，前述的自动进行故障恢复处理包括：自动发送通知报告、自动上架、流量自动转移、版本自动切换中的一个或多个。

自动发送通知报告：将第三方系统故障或恢复通知相关负责人、发送探测报告等。

自动上下架：第三方系统故障自动下架，包括通知业务系统将故障的第三方系统下架。例如在支付场景，若监测到某个第三方支付渠道有故障，监控系统就会通知业务系统将该支付渠道下架，防止用户继续使用，影响产品体验。同理，第三方系统故障恢复后自动上架，包括通知业务系统将恢复的第三方系统上架。

流量自动转移：当业务系统访问第三方系统失败，并且第三方系统是多机房部署的，且只存在部分机房失败的情况下，那么监控系统可以通知业务系统将访问故障机房的流量迁移到访问正常的机房，通过流量转移的方式来消除故障流量。同理，第三方系统故障机房恢复后，则将之前的流量再转移回去。

版本自动切换：当第三方系统刚发布新的软件版本时，业务系统访问第三方系统的失败，可能是新版本存在bug导致的。前述的步骤S12的探测阶段可以包括，通知探测节点对目标第三方系统的多个软件版本进行访问，若探测节点访问第三方系统的当前软件版本失败但是访问第三方系统的历史版本是成功的；那么，监控系统可以通知业务系统由访问新版本的第三方系统切换成访问之前版本的第三方系统，通过版本切换的方式来解决故障。同理，第三方系统新版本bug被解决后，则将历史版本切换成新版本。

在本申请的一些实施例中，可以利用多个时间段的第一成功率和/或利用多个时间段的第二成功率来判别第三方系统是否存在故障。

例如，前述步骤S11可以包括：基于业务系统在多个时间段(例如称为第一时间段)上报的数据，分别确定在每个第一时间段的第三方系统的接口调用的第一成功率，根据多个第一时间段对应的第一成功率来确定目标第三方系统。例如，可以分别判断多个第一时间段对应的第一成功率中的每个第一成功率是否低于第一阈值，并将具有低于第一阈值的第一成功率的数量超过第一时段数量阈值的第三方系统确定为目标第三方系统；或者也可以判断多个第一时间段对应的第一成功率的平均值是否低于第一阈值，并将多个第一成功率的平均值低于第一阈值的第三方系统作为目标第三方系统。需注意，该第一时段数量阈值不超过第一时间段的总数。例如，该第一时段数量阈值可以等于或略小于第一时间段的总数，事实上在等于时，前述的“具有低于第一阈值的第一成功率的数量超过第一时段数量阈值的第三方系统”即为所有时间段对应的第一成功率均低于第一阈值的第三方系统。

例如，前述步骤S12可以包括：通知探测节点对目标第三方系统进行多次主动探测，以得到与多个时间段(例如称为第二时间段)对应的第二成功率；并且，前述步骤S13可以包括：根据多个第二时间段对应的第二成功率判断目标第三方系统是否存在故障。例如，可以分别判断多个第二时间段对应的多个第二成功率中的每个第二成功率是否低于第二阈值，若低于第二阈值的第二成功率的数量超过第二时段数量阈值，则判定对应的目标第三方系统存在故障；或者也可以判断多个第二时间段对应的第二成功率的平均值是否低于第二阈值、并将多个第二成功率的平均值低于第二阈值的第三方系统判定为存在故障。需注意，该第二时段数量阈值不超过第二时间段的总数。例如，该第二时段数量阈值可以等于或略小于第二时间段的总数，事实上在等于时，前述的“若低于第二阈值的第二成功率的数量超过第二时段数量阈值”即为：若与多个第二时间段对应的每个第二成功率都低于第二阈值。

在本申请前述的利用多个时间段的第一成功率并利用多个时间段的第二成功率来判别第三方系统是否存在故障的实施例中，如果业务系统请求一直失败，但是探测节点请求一直成功，那么很有可能就是业务系统本身的原因导致。为此，在本申请的一些示例中，如果多个第一时间段对应的多个第一成功率都很低、且多个第二时间段对应的多个第二成功率都很高，则可以判定是业务系统本身的原因导致请求第三方系统接口失败，并可以对业务系统进行自动故障处理。

作为一个示例实施例，本申请的第三方系统监控方法还包括：分别判断多个第二时间段对应的多个第二成功率中的每个第二成功率是否高于第三阈值，若高于第三阈值的第二成功率的数量超过第三时段数量阈值，并且若分别判断多个第一时间段对应的第一成功率是否低于第一阈值的结果是低于第一阈值的第一成功率的数量超过第一时段数量阈值，则判定目标第三方系统没有故障且业务系统本身存在故障。需注意，该第三时段数量阈值不超过第二时间段的总数。例如，该第三时段数量阈值可以等于或略小于第二时间段的总数，事实上在等于时，前述的“若高于第三阈值的第二成功率的数量超过第三时段数量阈值”即为：若与多个第二时间段对应的每个第二成功率都高于第三阈值。需注意，在本申请的前述的利用多个时间段的第一成功率和/或利用多个时间段的第二成功率来判别第三方系统是否存在故障的示例中，在得到与多个第二时间段对应的多个第二成功率后，并非必须同时进行前述的根据多个第二时间段对应的第二成功率判断目标第三方系统是否存在故障的过程、以及前述的如果多个第一时间段对应的多个第一成功率都很低且多个第二时间段对应的多个第二成功率都很高则可以判定是业务系统故障的过程，事实上，也可以仅利用进行与多个第二时间段对应的多个第二成功率上述两个过程中的一个过程。例如，不利用多个第二成功率来判断目标第三方系统是否存在故障，而仅利用多个第二成功率来判断业务系统是否存在故障。

本申请的前述实施例，通过在多个时间段进行步骤S11的检测和/或步骤S12、S13的探测，并综合多个时间段的检测结果和/或探测结果进行故障判断，能够提高故障判断的准确性。

图5为本申请的第三方系统监控方法一个实施例的全球任意节点探测的实现逻辑的示意图。在本申请的一些实施例中，本申请示例的第三方系统监控方法还包括：对探测节点的探测区域进行部署。该步骤一般是预先进行的，或者也可以在前述步骤S11、或步骤S12之前进行。例如，对探测节点的探测区域进行部署可以包括：将探测节点部署于全球的多个区域，以便于进行全球探测。

例如，前述步骤S12可以包括：通知与目标第三方系统所属区域对应的探测节点进行主动探测。

需注意，关于前述的“探测节点的探测区域”、“第三方系统所属区域”，本申请并不限制具体的区域划分方式。例如，可以是根据探测节点、第三方系统的硬件所在的地理位置划分的区域，或者也可以是根据网络地址划分的区域。需注意也可以综合多种方式进行区域的划分，例如同时根据地理位置和网络地址来划分区域。

本申请中可将探测节点进行全球部署。监控系统是通过探测节点来实现主动探测的，并且探测节点本身是无状态的。无状态表示不将探测节点的状态信息存储在当前服务器内存中，考虑到相同功能在不同状态下的表现往往是不一样的，通过设置无状态的探测节点，可以使得全球不同区域的探测节点所表现的功能也都是一致的，从而可以实现全球部署。也就是说，我们需要从哪个大区发起探测，就在哪里部署上探测节点，当监控系统决定需要探测哪些大区时，就向对应大区的探测节点发送探测通知。

利用本申请提出的第三方系统监控方法，能够主动、针对性地探测全球多个大区服务问题，探测节点能主动探测全球多个大区服务情况，以此掌握每个大区的具体请求情况，进而能够高效率、针对性地定位和解决问题。

在一些实施例中，本申请的第三方系统监控方法还可以包括：预先在多个区域部署相同类型的第三方系统，并对第三方系统的部署情况进行记录，若判定一个区域的第三方系统存在故障，则在故障处理时利用另一区域的相同类型的第三方系统替代存在故障的第三方系统，从而能够实现请求流量转移。

例如，在判断出哪些大区正常哪些大区故障后，就能做针对性的处理。比如某个业务系统依赖的第三方系统，在亚洲和欧洲都有部署服务，其中亚洲的服务有问题，欧洲没有问题，那么业务系统就可将亚洲区域的请求发到欧洲区域。

例如，前述的记录于探测队列(或存储设备)的标记信息可以包括第三方系统的所属区域，以便于根据该标记信息来对探测节点进行调度。

在一些实施例中，前述步骤S12中的通知探测节点对目标第三方系统进行主动探测，以得到接口调用的第二成功率，可以包括：利用部署于多个不同的区域的多个探测节点对目标第三方系统进行主动探测，以得到与多个区域的多个探测节点对应的多个第二成功率。

例如，在前述的得到与多个区域的多个探测节点对应的多个第二成功率的实施例中，前述步骤S13中的判断第二成功率是否低于第二阈值，若低于第二阈值则判定目标第三方系统存在故障可以包括：判断多个第二成功率中的每个第二成功率是否低于第二阈值，若有超过第一区域数量阈值的第二成功率低于第二阈值，则判定目标第三方系统存在故障。

需注意，该第一区域数量阈值不超过对目标第三方系统进行探测的探测节点的总数。例如，该第一区域数量阈值可以等于或略小于对目标第三方系统进行探测的探测节点的总数，事实上在等于时，前述的“若有超过第一区域数量阈值的第二成功率低于第二阈值”即为若与多个不同区域对应的每个第二成功率都低于第二阈值。

例如，在前述的得到与多个区域的多个探测节点对应的多个第二成功率的实施例中，本申请的第三方系统监控方法还可以包括：判断多个第二成功率中的每个第二成功率是否高于第三阈值，若有超过第二区域数量阈值的第二成功率高于第三阈值，则判定目标第三方系统没有故障且业务系统本身存在故障。因为，如果业务系统请求失败，但是多个区域的探测节点请求一致成功，那么很有可能就是业务系统本身的原因导致的。

需注意，该第二区域数量阈值不超过对目标第三方系统进行探测的探测节点的总数。例如，该第二区域数量阈值可以等于或略小于对目标第三方系统进行探测的探测节点的总数，事实上在等于时，前述的“若有超过第二区域数量阈值的第二成功率高于第三阈值”即为若与多个不同区域对应的每个第二成功率都高于第三阈值。

本申请的前述实施例，通过利用多个区域的探测节点进行探测和故障判定，能够提高故障判断的准确性。

在一些实施例中，可以根据不同的网络运营商来进行探测节点的部署和对第三方系统的探测。例如，在前述步骤S12之前，本申请的第三方系统监控方法还可以包括：将一个或多个探测节点部署于一个或多个网络运营商的区域；前述步骤S12中的通知探测节点对目标第三方系统进行主动探测可以包括：通知多个探测节点中的所属网络运营商与该目标第三方系统的网络运营商相同的一个或多个探测节点来进行主动探测。从而能够判断是否网络问题导致请求第三方系统接口失败。

例如，第三方系统接入的是第一运营商网络，但是业务系统使用的是第二运营商网络发起的请求，那么为了排除不是网络运营商的问题，我们可以将探测节点部署在使用第一运营商网络的云服务器来发起请求，若请求还是失败，那么就和网络没有关系，很有可能就是第三方系统的问题。

本申请的实施例还提供一种第三方系统监控装置，该装置主要包括：检查模块、探测模块以及故障判断模块。

其中，该检查模块设置为：获取一个或多个业务系统上报的数据，基于业务系统上报的数据确定一个或多个第三方系统的接口调用的第一成功率，并判断第一成功率是否低于第一阈值，将第一成功率低于第一阈值的第三方系统作为目标第三方系统。

该探测模块设置为：通知探测节点对该目标第三方系统进行主动探测，以得到目标第三方系统的接口调用的第二成功率。

该故障判断模块设置为：判断第二成功率是否低于第二阈值，若低于第二阈值则判定该目标第三方系统存在故障，若高于或等于第二阈值则判定该目标第三方系统没有故障或者故障已恢复。

另外，本申请实施例示出的多种第三方系统监控装置的包括有用于执行前述多个实施例所述方法对应的模块和单元，而其详细说明和技术效果可以参考前述多个实施例中的相应说明，在此不再赘述。

图6是图示根据本申请的一个实施例的第三方系统监控设备的示意性框图。如图6所示，根据本公开实施例的第三方系统监控设备100包括存储器101和处理器102。

该存储器101设置为存储非暂时性计算机可读指令。例如，存储器101可以包括一个或多个计算机程序产品，该计算机程序产品可以包括多种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。该易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。该非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。

该处理器102可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，并且可以控制第三方系统监控设备100中的其它组件以执行期望的功能。在本公开的一个实施例中，该处理器102设置为运行该存储器101中存储的该计算机可读指令，使得该第三方系统监控设备100执行前述的本公开多个实施例的第三方系统监控方法的全部或部分步骤。

有关本实施例的详细说明和技术效果可以参考前述多个实施例中的相应说明，在此不再赘述。

本申请的实施例还提供一种计算机存储介质，该计算机存储介质中存储有计算机指令，当该计算机指令在设备上运行时，使得设备执行上述相关方法步骤实现上述实施例中的第三方系统监控方法。计算机存储介质可以为非暂态计算机可读存储介质。

本申请的实施例还提供一种计算机程序产品，当该计算机程序产品在计算机上运行时，使得计算机执行上述相关步骤，以实现上述实施例中的第三方系统监控方法。

另外，本申请的实施例还提供一种装置，这个装置可以是芯片，组件或模块，该装置可包括相连的处理器和存储器；其中，存储器设置为存储计算机执行指令，当装置运行时，处理器可执行存储器存储的计算机执行指令，以使芯片执行上述多个方法实施例中的第三方系统监控方法。

其中，本申请提供的装置、计算机存储介质、计算机程序产品或芯片均用于执行上文所提供的对应的方法，因此，其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果，此处不再赘述。

本申请提出的第三方系统监控方法和系统是一种集监控、诊断以及自动处理为一体的监控方案，进而能够优化业务系统功能。

本申请通过引入检测和探测两个监控阶段，能够准确识别出故障发生和故障恢复，能够对第三方系统故障的发生进行准确识别。

本申请通过引入处理阶段，当故障发生时和恢复后，能够及时的响应并自动处理。

本申请通过部署探测节点的探测区域，支持全球多个大区节点探测，实现不限区域、不限网络、更灵活的监控。

本申请通过利用多时段或多区域的探测数据来监控第三方系统，能够区分是业务系统的问题还是第三方系统的问题，进而提高第三方系统故障判断的准确性。

Claims

一种第三方系统监控系统，包括：

业务系统，设置为提供业务功能，可调用第三方系统的接口；

所述第三方系统，设置为提供至少一个接口，以为所述业务系统提供相应的第三方功能；

监控装置，设置为对所述第三方系统进行监控；以及，

探测节点，设置为根据所述监控装置的通知主动调用所述第三方系统的接口以进行探测。
根据权利要求1所述的第三方系统监控系统，还包括：

数据上报节点，设置为获取所述业务系统调用所述第三方系统的接口的接口调用信息、并将所述接口调用信息发送到数据存储节点进行存储，以供所述监控装置使用；

所述数据存储节点，设置为记录从所述业务系统中上报的信息和从所述探测节点上报的信息，以供所述监控装置使用。
一种第三方系统监控方法，包括：

获取至少一个业务系统上报的数据，基于所述业务系统上报的数据确定至少一个第三方系统的接口调用的第一成功率，并判断所述第一成功率是否低于第一阈值，将所述第一成功率低于所述第一阈值的第三方系统作为目标第三方系统；

通知探测节点对所述目标第三方系统进行主动探测，以得到所述目标第三方系统的接口调用的第二成功率；

判断所述第二成功率是否低于第二阈值，基于所述第二成功率低于所述第二阈值的判断结果，确定所述目标第三方系统存在故障；基于所述第二成功率高于或等于所述第二阈值的判断结果，确定所述目标第三方系统没有故障或者故障已恢复。
根据权利要求3所述的第三方系统监控方法，还包括：

响应于确定所述目标第三方系统存在故障，自动进行故障处理；并且执行以下之一的操作：

周期性地通知所述探测节点对所述目标第三方系统进行主动探测直到确定所述目标第三方系统的故障已恢复；

在所述自动进行故障处理后再次通知所述探测节点对所述目标第三方系统进行主动探测，以判断所述目标第三方系统当前是否存在故障；基于所述目标第三方系统当前存在故障的判断结果，再次自动进行故障处理；基于所述目标第三方系统当前不存在故障的判断结果，自动进行故障恢复处理。
根据权利要求3所述的第三方系统监控方法，其中，所述自动进行故障处理包括以下至少之一：自动发送通知报告、自动下架、流量自动转移、版本自动切换；所述自动进行故障恢复处理包括以下至少之一：自动发送通知报告、自动上架、流量自动转移、版本自动切换。
根据权利要求3所述的第三方系统监控方法，其中，

所述基于所述业务系统上报的数据确定至少一个第三方系统的接口调用的第一成功率，并判断所述第一成功率是否低于第一阈值，将所述第一成功率低于所述第一阈值的第三方系统作为目标第三方系统，包括：基于所述业务系统在多个第一时间段上报的数据，分别确定在每个第一时间段的每个第三方系统的接口调用的第一成功率，并分别判断所述每个第三方系统在所述每个第一时间段对应的第一成功率是否低于第一阈值，将具有低于所述第一阈值的第一成功率的数量超过第一时段数量阈值的第三方系统确定为所述目标第三方系统；

所述通知探测节点对所述目标第三方系统进行主动探测，以得到所述目标第三方系统的接口调用的第二成功率，包括：通知探测节点对所述目标第三方系统进行多次主动探测，以得到与多个第二时间段对应的第二成功率；

所述判断所述第二成功率是否低于第二阈值，基于所述第二成功率低于所述第二阈值的判断结果，确定所述目标第三方系统存在故障，包括：分别判断每个第二时间段对应的第二成功率是否低于所述第二阈值，基于低于所述第二阈值的第二成功率的数量超过第二时段数量阈值的判断结果，确定所述目标第三方系统存在故障；

所述方法还包括：分别判断所述每个第二时间段对应的第二成功率是否高于第三阈值，基于高于所述第三阈值的第二成功率的数量超过第三时段数量阈值的判断结果，确定所述目标第三方系统没有故障且所述业务系统本身存在故障。
根据权利要求3所述的第三方系统监控方法，

在所述通知探测节点对所述目标第三方系统进行主动探测的步骤之前，所述方法还包括：将探测节点部署于全球的多个区域；

所述通知探测节点对所述目标第三方系统进行主动探测包括：通知与所述目标第三方系统所属区域对应的探测节点对所述目标第三方系统进行主动探测。
根据权利要求7所述的第三方系统监控方法，还包括：

预先在多个区域部署相同类型的所述第三方系统；

响应于确定一个区域的第三方系统存在故障，在故障处理时利用除所述一个区域之外的其他区域的相同类型的第三方系统替代存在故障的第三方系统。
根据权利要求7所述的第三方系统监控方法，其中，

所述通知探测节点对所述目标第三方系统进行主动探测包括：利用部署于多个不同的区域的多个探测节点对所述目标第三方系统进行主动探测，以得到对应的多个第二成功率；

所述判断所述第二成功率是否低于第二阈值，基于所述第二成功率低于所述第二阈值的判断结果，确定所述目标第三方系统存在故障，包括：判断所述多个第二成功率中的每个第二成功率是否低于所述第二阈值，响应于确定有超过第一区域数量阈值的第二成功率低于所述第二阈值，确定所述目标第三方系统存在故障；

所述方法还包括：判断所述多个第二成功率中的每个第二成功率是否高于第三阈值，响应于确定有超过第二区域数量阈值的第二成功率高于所述第三阈值，确定所述目标第三方系统没有故障且所述业务系统本身存在故障。
根据权利要求3所述的第三方系统监控方法，

在所述通知探测节点对所述目标第三方系统进行主动探测的步骤之前，所述方法还包括，将至少一个探测节点部署于至少一个网络运营商的区域；

所述通知探测节点对所述目标第三方系统进行主动探测，包括：通知多个探测节点中的所属网络运营商与所述目标第三方系统的网络运营商相同的探测节点对所述目标第三方系统进行主动探测。
一种第三方系统监控装置，包括：

检查模块，设置为获取至少一个业务系统上报的数据，基于所述业务系统上报的数据确定至少一个第三方系统的接口调用的第一成功率，并判断所述第一成功率是否低于第一阈值，将所述第一成功率低于所述第一阈值的第三方系统作为目标第三方系统；

探测模块，设置为通知探测节点对所述目标第三方系统进行主动探测，以得到所述目标第三方系统的接口调用的第二成功率；

故障判断模块，设置为判断所述第二成功率是否低于第二阈值，基于所述第二成功率低于所述第二阈值的判断结果，确定所述目标第三方系统存在故障；基于所述第二成功率高于或等于所述第二阈值的判断结果，确定所述目标第三方系统没有故障或者故障已恢复。
一种第三方系统监控设备，包括：

存储器，设置为存储非暂时性计算机可读指令；以及

处理器，设置为运行所述计算机可读指令，使得所述计算机可读指令被所述处理器执行时实现权利要求3至10中任一项所述的第三方系统监控方法。
一种计算机存储介质，包括计算机指令，当所述计算机指令在设备上运行时，使得所述设备执行如权利要求3至10中任一项所述的第三方系统监控方法。