WO2020107205A1

WO2020107205A1 - 运算设备维护方法及装置、存储介质和程序产品

Info

Publication number: WO2020107205A1
Application number: PCT/CN2018/117651
Authority: WO
Inventors: 刘馥祎; 彭逸豪; 郭立春; 贺文
Original assignee: 刘馥祎; 比特大陆科技有限公司
Priority date: 2018-11-27
Filing date: 2018-11-27
Publication date: 2020-06-04
Also published as: CN113396561A

Abstract

一种运算设备维护方法及装置、存储介质和程序产品，具体包括：通过接收运算设备发送的状态上报信息，然后，根据所述状态上报信息，确定所述运算设备是否运行异常，从而，若所述运算设备运行异常，控制所述运算设备重启，上述方法能够降低人力资源成本，并提高了运算设备的运行稳定性及安全性。

Description

运算设备维护方法及装置、存储介质和程序产品

技术领域

本申请涉及数据处理技术领域，例如涉及一种运算设备维护方法及装置、存储介质和程序产品。

背景技术

随着数据技术的发展以及社会的进步，通过运算设备进行数据处理以获取数字凭证得到更多人的关注。由于运算设备高速运转，如何提升运算设备的安全性成为本领域的重要研究课题。

目前，针对运算设备的异常维护一般是由用户来手动处理的。这需要用户主动关注或发现运算设备的运行状态，并在其发现运算设备运行异常时，对运算设备执行手动重启的处理，以实现运算设备维护。

现有的运算设备维护方法依赖于用户手动操作实现，浪费人力资源成本，且存在运算设备异常发现不及时的问题，导致运算设备运行的稳定性及安全性较低。

发明内容

本公开实施例提供了一种运算设备维护方法及装置、存储介质和程序产品，以期降低人力资源成本并提高运算设备的运行稳定性及安全性。

第一方面，本公开实施例还提供了一种运算设备维护方法，包括：

接收运算设备发送的状态上报信息；

根据所述状态上报信息，确定所述运算设备是否运行异常；

若所述运算设备运行异常，控制所述运算设备重启。

在一种可能的设计中，所述根据所述状态上报信息，确定所述运算设备是否运行异常，包括：

若所述状态上报信息中携带运行异常标识，确定所述运算设备运行异常，其中，所述运行异常标识用于指示所述运算设备运行异常。

在另一种可能的设计中，所述状态上报消息中包括所述运算设备的运行状态信息；

所述运行状态信息包括：所述运算设备的当前数据处理算力。

在另一种可能的设计中，所述根据所述状态上报信息，确定所述运算设备是否运行异常，包括：

若所述当前数据处理算力小于异常算力阈值，确定所述运算设备运行异常；或者，

若所述当前数据处理算力小于所述异常算力阈值的持续时长达到时长阈值，确定所述运算设备运行异常。

在另一种可能的设计中，所述方法还包括：

获取所述异常算力阈值。

在另一种可能的设计中，所述获取所述异常算力阈值，包括：

获取所述运算设备的标准数据处理算力；

获取所述标准数据处理算力与预设异常比例之积，得到所述异常算力阈值。

在另一种可能的设计中，所述标准数据处理算力为：出厂数据处理算力或者初始数据处理算力。

在另一种可能的设计中，所述获取所述运算设备的标准数据处理算力，包括：

获取所述运算设备的数据处理芯片记录的出厂数据处理算力，以作为所述标准数据处理算力。

在另一种可能的设计中，所述控制所述运算设备重启，包括：

发送重启指令至所述运算设备，以使所述运算设备根据所述重启指令进行重启。

在另一种可能的设计中，所述发送重启指令至所述运算设备，包括：

根据所述各运算设备的识别信息，与所述各运算设备建立远程访问连接，其中，所述识别信息唯一标识一个运算设备；

通过所述远程访问连接，将所述重启指令发送给所述运算设备。

在另一种可能的设计中，所述识别信息包括：互联网协议IP地址。

控制所述运算设备断电并重新启动；或者，

控制所述运算设备在不断电情况下重新启动。

第二方面，本公开实施例还提供了一种运算设备维护装置，包括：

接收模块，配置为接收运算设备发送的状态上报信息；

确定模块，配置为根据所述状态上报信息，确定所述运算设备是否运行异常；

控制模块，配置为若所述运算设备运行异常，控制所述运算设备重启。

在一种可能的设计中，所述确定模块，配置为：

若所述状态上报信息中携带运行异常标识，确定所述运算设备运行异常，其中，所述运行异常标识配置为指示所述运算设备运行异常。

在另一种可能的设计中，所述确定模块，具体配置为：

在另一种可能的设计中，所述确定模块，还配置为：

获取所述异常算力阈值。

在另一种可能的设计中，所述确定模块，具体配置为：

获取所述运算设备的标准数据处理算力；

在另一种可能的设计中，所述确定模块，具体配置为：

在另一种可能的设计中，所述控制模块，具体配置为：

控制所述运算设备断电并重新启动；或者，

控制所述运算设备在不断电情况下重新启动。

第三方面，本公开实施例还提供了一种电子设备，包括：存储器、收发器和处理器，所述存储器、所述收发器与所述处理器通过总线连接；

所述存储器，配置为存储计算机程序；

所述收发器，配置为与其他设备进行通信；

所述处理器，配置为执行所述计算机程序以实现如第一方面任一项所述的方法。

具体而言，在一种可能的设计中，所述收发器，配置为接收运算设备发送的状态上报信息；

所述处理器，配置为根据所述状态上报信息，确定所述运算设备是否运行异常；以及，配置为若所述运算设备运行异常，控制所述运算设备重启。

在一种可能的设计中，所述处理器，具体配置为：

在另一种可能的设计中，所述处理器，具体配置为：

在另一种可能的设计中，所述处理器，还配置为：

获取所述异常算力阈值。

在另一种可能的设计中，所述处理器，还具体配置为：

获取所述运算设备的标准数据处理算力；

在另一种可能的设计中，所述处理器，还具体配置为：

在另一种可能的设计中，所述收发器，具体配置为：

在另一种可能的设计中，所述处理器，还具体配置为根据所述各运算设备的识别信息，与所述各运算设备建立远程访问连接，其中，所述识别信息唯一标识一个运算设备；

所述收发器，还具体配置为通过所述远程访问连接，将所述重启指令发送给所述运算设备。

在另一种可能的设计中，所述处理器，具体配置为：

控制所述异常运算设备断电并重新启动；或者，

控制所述异常运算设备在不断电情况下重新启动。

第四方面，本公开实施例还提供了一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令设置为执行上述的运算设备维护方法。

第五方面，本公开实施例还提供了一种计算机程序产品，所述计算机程序产品包括存储在计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行上述的运算设备维护方法。

本公开实施例提供的上述技术方案，当接收到运算设备发送的状态上报信息，则检测运算设备是否运行异常，并在其运行异常时直接控制该运算设备重启，在该过程中，无需用户主观观察或监测运算设备的运行情况，也无需用户手动执行重启处理，节省了人力资源成本，并且，自动监测并维护的方式能够更及时的发现异常并解决异常问题，这在一定程度上提高了运算设备的运行稳定性与安全性。

附图说明

一个或多个实施例通过与之对应的附图进行示例性说明，这些示例性说明和附图并不构成对实施例的限定，附图中具有相同参考数字标号的元件示为类似的元件，附图不构成比例限制，并且其中：

图1为本公开实施例提供的一种运算设备维护方法的流程示意图；

图2为本公开实施例提供的另一种运算设备维护方法的流程示意图；

图3为本公开实施例提供的另一种运算设备维护方法的流程示意图；

图4为本公开实施例提供的另一种运算设备维护方法的流程示意图；

图5为本公开实施例提供的另一种运算设备维护方法的流程示意图；

图6为本公开实施例提供的另一种运算设备维护方法的流程示意图；

图7为本公开实施例提供的一种电子设备的结构示意图；

图8为本公开实施提供的一种运算设备维护装置的结构示意图。

具体实施方式

为了能够更加详尽地了解本公开实施例的特点与技术内容，下面结合附图对本公开实施例的实现进行详细阐述，所附附图仅供参考说明之用，并非用来限定本公开实施例。在以下的技术描述中，为方便解释起见，通过多个细节以提供对所披露实施例的充分理解。然而，在没有这些细节的情况下，一个或多个实施例仍然可以实施。在其它情况下，为简化附图，熟知的结构和装置可以简化展示。

本公开实施例所提供的运算设备维护方法、电子设备、计算机可读存储介质及计算机程序产品，旨在解决现有的运算设备维护方法存在的人力资源浪费及设备运行稳定性及安全性较低的问题，并提出如下解决思路：根据接收到的运算设备上报的信息，确定运算设备是否运行异常，以便于在其运行异常时，及时重启。

本公开实施例提供了一种运算设备维护方法。

图1示出了本公开实施例所提供的一种运算设备维护方法的流程示意图，该方法包括如下步骤：

S102，接收运算设备发送的状态上报信息。

S104，根据状态上报信息，确定运算设备是否运行异常。

S106，若运算设备运行异常，控制运算设备重启。

本公开实施例中所涉及的运算设备为具备运算处理能力的设备。在一个具体的实现场景中，本公开实施例所涉及的运算设备可以为运算设备具体应用于数据处理以获取数字凭证这一应用场景中。

而本公开实施例所提供的运算设备维护方法的执行设备可以为与运算设备相对应的维护设备，或者，为维护设备中的一个处理器或处理模块。其中，一个维护设备可以对应于一个或多个运算设备，因此，本公开实施例对运算设备的数目无特别限定，针对任一运算设备发送的状态上报信息，均可执行本方案。

以下，对本公开实施例前述各步骤的具体实现方式进行具体说明。

本公开实施例中，基于运算设备发送的状态上报信息不同个，S104所述的确定运算设备是否运行异常的实现方式，可以包括但不限于以下方式：

第一种，若运算设备向该执行设备上报的信息中携带用以表征该运算设备运行异常的标识或信息，由于运算设备自身已经完成了自身是否运行异常的判断，无需再重复执行该步骤。

此时，仅需要将运行状态信息中携带有运行异常标识的运算设备，确定为所述异常运算设备即可。此时，请参考图2，S104可以包括如下步骤：

S1042A，判断状态上报信息中是否携带运行异常标识；若是，确定运算设备运行异常，执行S106；若否，执行S1044A。

其中，运行异常标识用于指示运算设备运行异常。

S1044A，根据状态上报信息中携带的运行状态信息，确定运算设备是否运行异常。

运算设备可以将用于保证自身状态的运行状态信息上报给该执行设备，那么，若其S102中接收到的状态上报信息中未携带运行异常标识，则通过其中携带的运行状态信息来确定运算设备是否运行异常。

本公开实施例所涉及到的运行状态信息可以包括但不限于：运算设备的当前数据处理算力。

由此，根据状态上报信息中携带的当前数据处理算力，在具体确定运算设备是否运行异常时，可以参考如图3与图4所示的方式。

图3示出了一种运算设备是否运行异常的判断方式，该方式具体包括如下步骤：

S1042，获取状态上报信息中携带的当前数据处理算力。

S1044，判断当前数据处理算力是否小于异常算力阈值。

若是，确定运算设备运行异常，此时，执行S106。

若否，确定运算设备运行正常，此时，执行S1042。

通过前述方法，可以针对当前获取到的运算设备的当前数据处理算力进行实时判断，检测的及时性较高。

图4示出了另一种运算设备是否运行异常的判断方式，该方式具体包括如下步骤：

S1042，获取状态上报信息中携带的当前数据处理算力。

S1044，判断当前数据处理算力是否小于异常算力阈值；若是，执行S1046；若否，执行S1042。

S1046，获取当前数据处理算力小于异常算力阈值的持续时长。

需要说明的是，该步骤中，计时的起始时刻可以为首次判断出数据处理算力小于异常算力阈值的时刻。而该步骤执行时，持续执行S1042与S1044步骤，以便于，在计时开始后，若出现当前数据处理算力大于或者等于异常算力阈值的情况时，将出现当前数据处理算力大于或者等于异常算力阈值的时刻作为计时终点，以得到持续时长；反之，若在计时开始后，前述步骤获取到的当前数据处理算力持续小于异常算力阈值，则将当前时刻作为计时终点，以得到持续时长。

S1048，判断持续时长是否达到时长阈值；若是，执行S106；若否，执行S1042。

其中，前述时长阈值可以根据需要预设，例如，可以预设为15分钟。

如图4所示的实现方式中，可以在一定程度上避免偶尔出现的数据处理算力异常导致的监测结果异常的情况，能够在一定程度上提高监测准确率。

此外，如图3与图4所示，在执行S1044步骤之前，该方法可以包括如下步骤：

S1041，获取异常算力阈值。

需要说明的是，本公开实施例对于S1041与S1042的执行次序无特别限定，如图3或图4所示方式仅为一种可行的实现方式，并不用以限制本公开实施例。例如，S1041与S1042可同时执行，或者，还可以先执行S1042再执行S1041。

而该步骤的实现，与异常算力阈值的设置方式相关。异常算力阈值的设置方式可以包括但不限于：预设数值，或者，通过预设算法获取。

其中，若异常算力阈值通过预设的方式设置，那么，在执行该步骤时，直接读取预设好的数据即可得到异常算力阈值。具体的，异常算力阈值在具体进行预设时，可以预设为一个固定数值的数。

若异常算力阈值是通过算法方式预设，则执行该步骤时，直接运行预设算法即可。

为了便于理解，本公开实施例给出S1041的一种优选实现方式，请参考图5，该步骤具体包括：

S10412，获取运算设备的标准数据处理算力。

S10414，获取标准数据处理算力与预设异常比例之积，得到异常算力阈值。

其中，标准数据处理算力可以包括：出厂数据处理算力或者初始数据处理算力。

其中，出厂数据处理算力可以在运算设备出厂时即标准的算力数值，此时，S10412在具体实现时，可以通过获取运算设备的数据处理芯片记录的出厂数据处理算力，以作为标准数据处理算力。

此外，考虑到出厂数据处理算力是在出厂后即写入固件的数值，因此，可能与运算设备的数据处理芯片的实际标准算力存在一定的误差，因此，在执行前述S10412步骤时，还可以进一步获取运算设备的数据处理芯片记录的芯片状态信息(其中，可以包括但不限于芯片工作频率等)，然后，利用芯片状态信息计算得到一个参考数据处理算力，从而，若前述出厂数据处理算力与该参考数据处理算力之间的差值小于5％(可以为出厂数据处理算力的5％或者参考数据处理算力的5％，对此无特别限定)，则获取出厂数据处理算力，以作为其标准数据处理算力即可。

初始数据处理算力是运算设备初始开始运行时的数据处理算力。初始数据处理算力可以被记录在运算设备后台或者运算设备的数据处理芯片上。

由于前述数据均被记录在运算设备后台或者运算设备的数据处理芯片上，因此，可通过建立通信的方式获取到这些信息，其中，通信方式可以包括但不限于：有线通信与无线通信中的至少一种。

而前述异常比例则可以根据需要设定，本公开实施例对异常比例的具体数值无限定。例如，可以将其设定为80％。也就是，当运算设备的当前数据处理算力小于标准数据处理算力的80％，或者，其小于标准数据处理算力的80％的持续时长达到时长阈值时，即可确定运算设备运行异常。

通过前述流程，可以基于监测到的数据来确定异常运算设备。

从而，在确定了异常运算设备的基础上，执行S106步骤时，可以仅针对异常运算设备执行重启处理，这能够避免异常设备重启对运行正常的运算设备的影响。或者，还可以控制所监测的全部运算设备执行重启，采取统一操作，降低处理复杂度。

以下，仅针对异常运算设备的重启控制进行说明。

运算设备一般具备自身重启功能或权限，因此，可以通过发送指令以使异常运算设备自身执行重启的方式实现。此时，S106步骤可以具体为：发送重启指令至所述异常运算设备，以使所述异常运算设备根据所述重启指令进行重启。

在一种可能的设计中，可以参考图6所示方式实现S106：

S1062，根据运算设备的识别信息，与运算设备建立远程访问连接。

S1064，根据远程访问连接，发送重启指令至该运算设备。

这是考虑到该执行设备可能需要监测多个运算设备，其与运算设备之间无法通过接口交互数据(若满足接口条件，亦可通过该方法实现S106)，因此，本公开实施例给出一种解决方式：远程访问运算设备，并通过远程访问，获取运算设备的运行状态信息。其中，远程访问运算设备，也就是，与运算设备建立远程访问连接，这可以通过运算设备的识别信息实现。

其中，本公开实施例所涉及到的运算设备的识别信息可以包括但不限于：互联网协议(Internet Protocol，IP)地址。

这种方式尽可能的降低了地域对监测运算设备这一过程的影响，有较高的灵活性与可扩展空间。

具体的，本公开实施例对于控制运算设备重启的方式无特别限定，可以通过冷重启方式实现，也就是，切断电源并重启的方式实现；或者，可以通过该热重启方式实现，也就是，在不断电的条件下控制运算设备后台执行重启操作。

除此之外，本公开实施例中，还可以在执行S106之后，输出提示信号，以便于用户可以根据该提示信号获知异常运算设备的重启处理进度。其中，本公开实施例所涉及到的提示信号可以包括但不限于：声音信号、震动信号、闪烁信号与文字提示信息中的至少一种。此外，若该执行设备集成于维护设备中，亦可输出前述任意的至少一种提示信号，此外，若涉及监测到多太运算设备，则还可以进一步输出可以标识运算设备身份的相关信息，例如，运算设备的编号，IP地址等。

基于前述运算设备维护方法，本公开实施例还进一步给出一种电子设备。

请参考图7，该电子设备700包括：存储器710、收发器720和处理器730，存储器710、收发器720和处理器730通过总线连接；

存储器710，配置为存储计算机程序；

收发器720，配置为与其他设备进行通信；

处理器730，配置为执行所述计算机程序以实现如前所述任一实现方式的运算设备维护方法。

一种可能的设计中，收发器720，配置为接收运算设备发送的状态上报信息；

处理器730，配置为根据状态上报信息，确定运算设备是否运行异常；以及，配置为若运算设备运行异常，控制运算设备重启。

一种可能的设计中，处理器730，具体配置为：

若状态上报信息中携带运行异常标识，确定运算设备运行异常，其中，运行异常标识配置为指示运算设备运行异常。

另一种可能的设计中，状态上报消息中包括运算设备的运行状态信息；

运行状态信息包括：运算设备的当前数据处理算力。

此时，处理器730，具体配置为：

若当前数据处理算力小于异常算力阈值，确定运算设备运行异常；或者，

若当前数据处理算力小于异常算力阈值的持续时长达到时长阈值，确定运算设备运行异常。

一种可能的设计中，处理器730，还配置为：

获取异常算力阈值。

此时，一种可能的实现方式中，处理器730，还具体配置为：

获取运算设备的标准数据处理算力；

获取标准数据处理算力与预设异常比例之积，得到异常算力阈值。

其中，标准数据处理算力为：出厂数据处理算力或者初始数据处理算力。

一种可能的设计中，处理器730，还具体配置为：

另一种实现场景中，收发器720，具体配置为：

发送重启指令至运算设备，以使运算设备根据重启指令进行重启。

具体的，处理器730，还具体配置为：根据各运算设备的识别信息，与各运算设备建立远程访问连接，其中，识别信息唯一标识一个运算设备；

收发器720，具体配置为通过远程访问连接，将重启指令发送给运算设备。

本公开实施例中，识别信息包括：互联网协议IP地址。

本公开实施例中，处理器730，具体配置为：

控制异常运算设备断电并重新启动；或者，

控制异常运算设备在不断电情况下重新启动。

本公开实施例中，上述的存储器710中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。

存储器710作为一种计算机可读存储介质，可配置为存储软件程序、计算机可执行程序，如本公开实施例中的方法对应的程序指令/模块。处理器730 通过运行存储在存储器710中的软件程序、指令以及模块，从而执行功能应用以及数据处理，即实现上述方法实施例中的运算设备维护方法。

存储器710可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端设备的使用所创建的数据等。此外，存储器710可以包括高速随机存取存储器，还可以包括非易失性存储器。

本公开实施例中，处理器730的数目可以为一个或者多个，处理器730也可以称为处理单元，可以实现一定的控制功能。处理器730可以是通用处理器或者专用处理器等。

在一种可选地设计中，处理器730也可以存有指令，所述指令可以被所述处理器运行，使得所述电子设备700执行上述方法实施例中描述的运算设备维护方法。

在又一种可能的设计中，电子设备700可以包括电路，所述电路可以实现前述方法实施例中发送或接收或者通信的功能。

本公开实施例中，收发器720的数目可以为一个或者多个，收发器720可以称为收发单元、收发机、收发电路、或者收发器等，配置为实现电子设备700的收发功能。

各个部件的具体的处理方式可以参考前述实施例的相关描述。

本公开实施例中描述的处理器730和收发器720可实现在集成电路(integrated circuit，IC)、模拟IC、射频集成电路RFIC、混合信号IC、专用集成电路(application specific integrated circuit，ASIC)、印刷电路板(printed circuit board，PCB)、电子设备等上。该处理器和收发器也可以用各种1C工艺技术来制造，例如互补金属氧化物半导体(complementary metal oxide semiconductor,CMOS)、N型金属氧化物半导体(nMetal-oxide-semiconductor，NMOS)、P型金属氧化物半导体(positive channel metal oxide semiconductor,PMOS)、双极结型晶体管(Bipolar Junction Transistor，BJT)、双极CMOS(BiCMOS)、硅锗(SiGe)、砷化镓(GaAs)等。

可选的，电子设备700可以是独立的设备或者可以是较大设备的一部分。例如，电子设备700可以集成在一台运算设备中。

此外，本公开实施例提供了一种运算设备维护装置。请参考图8，该运算设备维护装置800包括：

接收模块810，配置为接收运算设备发送的状态上报信息；

确定模块820，配置为根据状态上报信息，确定运算设备是否运行异常；

控制模块830，配置为若运算设备运行异常，控制运算设备重启。

在一种可能的设计中，确定模块820，配置为：

在另一种可能的设计中，状态上报消息中包括运算设备的运行状态信息；

运行状态信息包括：运算设备的当前数据处理算力。

在另一种可能的设计中，确定模块820，具体配置为：

在另一种可能的设计中，确定模块820，还配置为：

获取异常算力阈值。

在另一种可能的设计中，确定模块820，具体配置为：

获取运算设备的标准数据处理算力；

在另一种可能的设计中，标准数据处理算力为：出厂数据处理算力或者初始数据处理算力。

在另一种可能的设计中，确定模块820，具体配置为：

获取运算设备的数据处理芯片记录的出厂数据处理算力，以作为标准数据处理算力。

在另一种可能的设计中，控制模块830，具体配置为：

根据各运算设备的识别信息，与各运算设备建立远程访问连接，其中，识别信息唯一标识一个运算设备；

通过远程访问连接，将重启指令发送给运算设备。

在另一种可能的设计中，识别信息包括：互联网协议IP地址。

在另一种可能的设计中，控制模块830，具体配置为：

控制运算设备断电并重新启动；或者，

控制运算设备在不断电情况下重新启动。

需要说明的是，本公开实施例中，无论是哪一方面，例如方法方面、装置方面等，本公开实施例中所述的数据处理可以包括基于数据或对数据进行的设置、计算、判断、传输、存储、管理等至少之一。

作为一个实施例，所述数据处理可以是由数据处理装置进行的与数字凭证相关的数据处理，所述数字凭证可以通过所述数据处理得到，所述数据处理装置可以是数字凭证处理装置。

当所述数字凭证与数字货币相关或体现为数字货币时，所述数字凭证处理装置可以是数字货币数据处理机，所述数字货币可以是比特币等加密货币。

此外，本公开实施例还提供了一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令设置为执行上述运算设备维护方法。

本公开实施例还提供了一种计算机程序产品，所述计算机程序产品包括存储在计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行上述运算设备维护方法。

上述的计算机可读存储介质可以是暂态计算机可读存储介质，也可以是非暂态计算机可读存储介质。

本公开实施例的技术方案可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括一个或多个指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本公开实施例所述方法的全部或部分步骤。而前述的存储介质可以是非暂态存储介质，包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等多种可以存储程序代码的介质，也可以是暂态存储介质。

当用于本公开实施例中时，虽然术语“第一”、“第二”等可能会在本公开实施例中使用以描述各元件，但这些元件不应受到这些术语的限制。这些术语仅用于将一个元件与另一个元件区别开。比如，在不改变描述的含义的情况下，第一元件可以叫做第二元件，并且同样第，第二元件可以叫做第一元件，只要所有出现的“第一元件”一致重命名并且所有出现的“第二元件” 一致重命名即可。第一元件和第二元件都是元件，但可以不是相同的元件。

本公开实施例中使用的用词仅用于描述实施例并且不用于限制权利要求。如在实施例以及权利要求的描述中使用的，除非上下文清楚地表明，否则单数形式的“一个”(a)、“一个”(an)和“所述”(the)旨在同样包括复数形式。类似地，如在本公开实施例中所使用的术语“和/或”是指包含一个或一个以上相关联的列出的任何以及所有可能的组合。另外，当用于本公开实施例中时，术语“包括”(comprise)及其变型“包括”(comprises)和/或包括(comprising)等指陈述的特征、整体、步骤、操作、元素，和/或组件的存在，但不排除一个或一个以上其它特征、整体、步骤、操作、元素、组件和/或这些的分组的存在或添加。

所描述的实施例中的各方面、实施方式、实现或特征能够单独使用或以任意组合的方式使用。所描述的实施例中的各方面可由软件、硬件或软硬件的结合实现。所描述的实施例也可以由存储有计算机可读代码的计算机可读介质体现，该计算机可读代码包括可由至少一个计算装置执行的指令。所述计算机可读介质可与任何能够存储数据的数据存储装置相关联，该数据可由计算机系统读取。用于举例的计算机可读介质可以包括只读存储器、随机存取存储器、CD-ROM、HDD、DVD、磁带以及光数据存储装置等。所述计算机可读介质还可以分布于通过网络联接的计算机系统中，这样计算机可读代码就可以分布式存储并执行。

上述技术描述可参照附图，这些附图形成了本公开实施例的一部分，并且通过描述在附图中示出了依照所描述的实施例的实施方式。虽然这些实施例描述的足够详细以使本领域技术人员能够实现这些实施例，但这些实施例是非限制性的；这样就可以使用其它的实施例，并且在不脱离所描述的实施例的范围的情况下还可以做出变化。比如，流程图中所描述的操作顺序是非限制性的，因此在流程图中阐释并且根据流程图描述的两个或两个以上操作的顺序可以根据若干实施例进行改变。作为另一个例子，在若干实施例中，在流程图中阐释并且根据流程图描述的一个或一个以上操作是可选的，或是可删除的。另外，某些步骤或功能可以添加到所公开的实施例中，或两个以上的步骤顺序被置换。所有这些变化被认为包含在所公开的实施例以及权利要求中。

另外，上述技术描述中使用术语以提供所描述的实施例的透彻理解。然而，并不需要过于详细的细节以实现所描述的实施例。因此，实施例的上述描述是为了阐释和描述而呈现的。上述描述中所呈现的实施例以及根据这些实施例所公开的例子是单独提供的，以添加上下文并有助于理解所描述的实施例。上述说明书不用于做到无遗漏或将所描述的实施例限制到本公开的精确形式。根据上述教导，若干修改、选择适用以及变化是可行的。在某些情况下，没有详细描述为人所熟知的处理步骤以避免不必要地影响所描述的实施例。

Claims

一种运算设备维护方法，其特征在于，包括：

接收运算设备发送的状态上报信息；

根据所述状态上报信息，确定所述运算设备是否运行异常；

若所述运算设备运行异常，控制所述运算设备重启。
根据权利要求1所述的方法，其特征在于，所述根据所述状态上报信息，确定所述运算设备是否运行异常，包括：

若所述状态上报信息中携带运行异常标识，确定所述运算设备运行异常，其中，所述运行异常标识用于指示所述运算设备运行异常。
根据权利要求1所述的方法，其特征在于，所述状态上报消息中包括所述运算设备的运行状态信息；

所述运行状态信息包括：所述运算设备的当前数据处理算力。
根据权利要求3所述的方法，其特征在于，所述根据所述状态上报信息，确定所述运算设备是否运行异常，包括：

若所述当前数据处理算力小于异常算力阈值，确定所述运算设备运行异常；或者，

若所述当前数据处理算力小于所述异常算力阈值的持续时长达到时长阈值，确定所述运算设备运行异常。
根据权利要求4所述的方法，其特征在于，所述方法还包括：

获取所述异常算力阈值。
根据权利要求5所述的方法，其特征在于，所述获取所述异常算力阈值，包括：

获取所述运算设备的标准数据处理算力；

获取所述标准数据处理算力与预设异常比例之积，得到所述异常算力阈值。
根据权利要求6所述的方法，其特征在于，所述标准数据处理算力为：出厂数据处理算力或者初始数据处理算力。
根据权利要求6或7所述的方法，其特征在于，所述获取所述运算设备的标准数据处理算力，包括：

获取所述运算设备的数据处理芯片记录的出厂数据处理算力，以作为所述标准数据处理算力。
根据权利要求1所述的方法，其特征在于，所述控制所述运算设备重启，包括：

发送重启指令至所述运算设备，以使所述运算设备根据所述重启指令进行重启。
根据权利要求9所述的方法，其特征在于，所述发送重启指令至所述运算设备，包括：

根据所述各运算设备的识别信息，与所述各运算设备建立远程访问连接，其中，所述识别信息唯一标识一个运算设备；

通过所述远程访问连接，将所述重启指令发送给所述运算设备。
根据权利要求10所述的方法，其特征在于，所述识别信息包括：互联网协议IP地址。
根据权利要求1或9所述的方法，其特征在于，所述控制所述运算设备重启，包括：

控制所述运算设备断电并重新启动；或者，

控制所述运算设备在不断电情况下重新启动。
一种运算设备维护装置，其特征在于，包括：

接收模块，配置为接收运算设备发送的状态上报信息；

确定模块，配置为根据所述状态上报信息，确定所述运算设备是否运行异常；

控制模块，配置为若所述运算设备运行异常，控制所述运算设备重启。
根据权利要求13所述的装置，其特征在于，所述确定模块，配置为：

若所述状态上报信息中携带运行异常标识，确定所述运算设备运行异常，其中，所述运行异常标识配置为指示所述运算设备运行异常。
根据权利要求13所述的装置，其特征在于，所述状态上报消息中包括所述运算设备的运行状态信息；

所述运行状态信息包括：所述运算设备的当前数据处理算力。
根据权利要求15所述的装置，其特征在于，所述确定模块，具体配置为：

若所述当前数据处理算力小于异常算力阈值，确定所述运算设备运行异常；或者，

若所述当前数据处理算力小于所述异常算力阈值的持续时长达到时长阈值，确定所述运算设备运行异常。
根据权利要求16所述的装置，其特征在于，所述确定模块，还配置为：

获取所述异常算力阈值。
根据权利要求17所述的装置，其特征在于，所述确定模块，具体配置为：

获取所述运算设备的标准数据处理算力；

获取所述标准数据处理算力与预设异常比例之积，得到所述异常算力阈值。
根据权利要求18所述的装置，其特征在于，所述标准数据处理算力为：出厂数据处理算力或者初始数据处理算力。
根据权利要求18或19所述的装置，其特征在于，所述确定模块，具体配置为：

获取所述运算设备的数据处理芯片记录的出厂数据处理算力，以作为所述标准数据处理算力。
根据权利要求13所述的装置，其特征在于，所述控制模块，具体配置为：

发送重启指令至所述运算设备，以使所述运算设备根据所述重启指令进行重启。
根据权利要求21所述的装置，其特征在于，所述控制模块，具体配置为：

根据所述各运算设备的识别信息，与所述各运算设备建立远程访问连接，其中，所述识别信息唯一标识一个运算设备；

通过所述远程访问连接，将所述重启指令发送给所述运算设备。
根据权利要求22所述的装置，其特征在于，所述识别信息包括：互联网协议IP地址。
根据权利要求13或22所述的装置，其特征在于，所述控制模块，具体配置为：

控制所述运算设备断电并重新启动；或者，

控制所述运算设备在不断电情况下重新启动。
一种电子设备，其特征在于，包括：存储器、收发器和处理器，所述存储器、所述收发器与所述处理器通过总线连接；

所述存储器，配置为存储计算机程序；

所述收发器，配置为与其他设备进行通信；

所述处理器，配置为执行所述计算机程序以实现如权利要求1-12任一项所述的方法。
一种计算机可读存储介质，其特征在于，存储有计算机可执行指令，所述计算机可执行指令设置为执行权利要求1-12任一项所述的方法。
一种计算机程序产品，其特征在于，所述计算机程序产品包括存储在计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行权利要求1-12任一项所述的方法。