WO2023226601A1

WO2023226601A1 - 一种异构加速资源异常处理方法、装置、存储介质及电子装置

Info

Publication number: WO2023226601A1
Application number: PCT/CN2023/086292
Authority: WO
Inventors: 陈克; 朱荣
Original assignee: 中兴通讯股份有限公司
Priority date: 2022-05-23
Filing date: 2023-04-04
Publication date: 2023-11-30
Also published as: CN117149474A

Abstract

本公开提供了一种异构加速资源异常处理方法、装置、存储介质及电子装置，该方法包括：通过对云计算平台的异构加速资源进行硬件健康监测的方式确定所述异构加速资源为硬件健康资源或硬件非健康资源；通过对所述异构加速资源进行设备使用健康监测的方式确定所述异构加速资源为使用健康资源或分配故障资源；对所述硬件非健康资源进行硬件异常处理；对所述分配故障资源进行分配异常处理。通过该方法，可以解决相关技术中只关注传统服务器普通硬件资源检测，无法识别出云计算平台管理的虚拟化异构加速资源登记和实际使用不一致，从而给云计算平台和用户带来损失的问题，确保云平台管理异构加速资源的可靠性、稳定性、及时性等。

Description

一种异构加速资源异常处理方法、装置、存储介质及电子装置

相关申请的交叉引用

本公开基于2022年05月23日提交的发明名称为“一种异构加速资源异常处理方法、装置、存储介质及电子装置”的中国专利申请CN202210563855.X，并且要求该专利申请的优先权，通过引用将其所公开的内容全部并入本公开。

技术领域

本公开实施例涉及云计算领域，具体而言，涉及一种异构加速资源异常处理方法、装置、存储介质及电子装置。

背景技术

随着深度学习等AI技术的发展，用户对于算力和性能的需求越来越迫切，越来越多的用户希望能通过云计算平台获取异构计算能力来实现业务的性能加速，云计算平台提供的异构计算服务成为了不可缺少的功能。

云计算平台的异构加速资源通常包括图形处理器(Graphics Processing Unit，简称为GPU)、AI加速卡(Neural-Network Processing Unit，简称为NPU)、可编程加速卡(Field Programmable Gate Array，简称为FPGA)、智能网卡(Smart NIC)，相对于传统的硬件而言，云计算平台的异构加速资源存在加速资源种类多、可插拔方便、虚拟化方式多、统一分配和回收、使用频繁、承载业务特殊等特点。

当异构加速硬件发生异常时，如果不能及时的识别、上报、恢复，会给云计算平台上承载的客户业务带来严重的损失。尤其是虚拟化方式分配的异构加速资源，例如GPU、NPU、FPGA，在资源频繁分配、频繁回收的过程中，可能因为通信异常出现回收信息丢失或资源回收不及时的问题，容易发生异构加速资源的登记和实际使用不一致的情况，从而导致云平台资源分配出现异常，给云计算平台和客户带来损失。

目前，传统的硬件检测手段大多数通过服务器自己的系统进行检测判断，一方面判断不准确，另一方面是随着种类的增多，不能很好的管理，最关键的是无法识别出云计算平台管理的虚拟化异构加速资源登记和实际使用不一致的情况。

由于相关技术中并没有针对云计算平台的异构加速资源的异常检测和异常处理方法，尤其是虚拟化的加速硬件(GPU、NPU)的登记异常、管理员维护加速设备时虚拟化的分配异常、设备本身的健康状况异常，以及设备被误操作等异常情况发生时，无法及时感知并处理，从而影响云计算平台的正常使用，给云计算平台和用户带来损失。

针对相关技术中只关注传统服务器普通硬件资源检测，无法识别出云计算平台管理的虚拟化异构加速资源登记和实际使用不一致，从而给云计算平台和用户带来损失的问题，尚未提出解决方案。

发明内容

本公开实施例提供了一种异构加速资源异常处理方法、装置、存储介质及电子装置，以至少解决相关技术中只关注传统服务器普通硬件资源检测，无法识别出云计算平台管理的虚拟化异构加速资源登记和实际使用不一致，从而给云计算平台和用户带来损失的问题。当异构加速资源发生异常时，能够快速的感知异构加速资源的非健康状态并及时告警、恢复，确保云平台管理异构加速资源的可靠性、稳定性、及时性等。

根据本公开的一个实施例，提供了一种异构加速资源异常处理方法，所述方法包括：

通过对云计算平台的异构加速资源进行硬件健康监测的方式确定所述异构加速资源为硬件健康资源或硬件非健康资源；

通过对所述异构加速资源进行设备使用健康监测的方式确定所述异构加速资源为使用健康资源或分配故障资源；

对所述硬件非健康资源进行硬件异常处理；

对所述分配故障资源进行分配异常处理。

根据本公开的另一个实施例，还提供了一种异构加速资源异常处理装置，所述装置包括：

第一监测模块，设置为通过对云计算平台的异构加速资源进行硬件健康监测的方式确定所述异构加速资源为硬件健康资源或硬件非健康资源；

第二监测模块，通过对所述异构加速资源进行设备使用健康监测的方式确定所述异构加速资源为使用健康资源或分配故障资源；

第一响应模块，设置为对所述硬件非健康资源进行硬件异常处理；

第二响应模块，设置为对所述分配故障资源进行分配异常处理。

根据本公开的又一个实施例，还提供了一种计算机可读的存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

根据本公开的又一个实施例，还提供了一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

附图说明

图1是本公开实施例的异构加速资源异常处理方法的计算机终端的硬件结构框图；

图2是本公开实施例的异构加速资源异常处理方法的流程图；

图3是本公开实施例的异构加速资源硬件健康监测方法的流程图；

图4是本公开实施例的异构加速资源设备使用健康监测方法的流程图；

图5是本公开可选实施例的设备使用健康监测及处理的时序图；

图6是本公开可选实施例的异构加速资源异常恢复处理的时序图；

图7是本公开实施例的异构加速资源异常处理装置的框图；

图8是本公开实施例的异构加速资源健康监测和异常处理架构。

具体实施方式

下文中将参考附图并结合实施例来详细说明本公开的实施例。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

本公开实施例中所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在计算机终端上为例，图1是本公开实施例的异构加速资源异常处理方法的计算机终端的硬件结构框图，如图1所示，计算机终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104，其中，上述计算机终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述计算机终端的结构造成限定。例如，计算机终端还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本公开实施例中的异构加速资源异常处理方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及业务链地址池切片处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输设备106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端的通信供应商提供的无线网络。在一个实例中，传输设备106包括一个网络适配器(Network Interface Controller，简称为NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输设备106可以为射频(Radio Frequency，简称为RF)模块，其用于通过无线方式与互联网进行通讯。

在本实施例中提供了一种运行于上述计算机终端或网络架构的异构加速资源异常处理方法，图2是本公开实施例的异构加速资源异常处理方法的流程图，如图2所示，该流程包括如下步骤：

步骤S202，通过对云计算平台的异构加速资源进行硬件健康监测的方式确定所述异构加速资源为硬件健康资源或硬件非健康资源；

步骤S204，通过对所述异构加速资源进行设备使用健康监测的方式确定所述异构加速资源为使用健康资源或分配故障资源；

步骤S206，对所述硬件非健康资源进行硬件异常处理；

步骤S208，对所述分配故障资源进行分配异常处理。

在一实施例中，上述步骤S202之前，通过扫描PCI槽位确定所述异构加速资源是否存在；若所述异构加速资源存在，获取异构加速资源的资源信息，具体的，可以结合云计算平台的配置识别异构加速资源的资源信息，所述异构加速资源包括：GPU、NPU、FPGA、Smart NIC，所述异构加速资源的资源信息可以包括：PCI地址、厂商信息、设备型号、设备ID等，其中，PCI地址包括槽位号。

本实施例中，上述步骤S202具体可以包括：根据异构加速资源的资源信息调用对应的硬件健康检测接口；通过硬件健康检测接口判断所述异构加速资源的硬件状态；若硬件状态为健康，则确定异构加速资源为硬件健康资源；若硬件状态为非健康，则确定异构加速资源为硬件非健康资源。

具体的，可以根据异构加速资源的种类、厂商信息、设备型号循环调用云计算平台中已经过安全认证的异构加速资源的硬件健康检测接口，由硬件健康检测接口判断异构加速资源的硬件状态。

在另一实施例中，可以根据预设的硬件健康检测周期对每一个异构加速资源执行上述步骤S202中的硬件健康监测方法。

图3是本公开实施例的异构加速资源硬件健康监测方法的流程图，如图3所示，异构加速资源硬件健康监测方法具体包含以下步骤：

步骤S302：扫描计算节点上PCI槽上的各个异构加速资源，获取加速资源的PCI地址；

步骤S304：结合云平台配置，识别具体加速资源(GPU、NPU、FPGA、SmartNIC)的厂商、型号；

步骤S306：以PCI地址、厂商、型号为核心识别参数，循环调用云平台认可的硬件健康检测接口，判断每一个异构加速资源的硬件状态；

步骤S308：判断该异构加速资源的硬件状态是否为健康；若判断结果为是，执行步骤S310a，若判断结果为否，执行步骤S310b；

步骤S310a：确定该异构加速资源为硬件健康资源；

步骤S310b：确定该异构加速资源为硬件非健康资源；

步骤S312：判断当前节点是否还有异构加速资源未进行硬件健康检测；

步骤S314：输出硬件健康资源和硬件非健康资源。

本实施例中，上述步骤S302具体可以包括：扫描PCI槽上的每一个PCI槽位判断该槽位是否安装有实体加速资源，若有实体加速资源，则获取该加速资源对应的PCI地址，具体的，每一个PCI槽位只能安装一个实体加速资源，PCI地址包括槽位号，实体加速资源种类可以包括：GPU、NPU、FPGA、SmartNIC等。

通过本实施例中的方法，可以解决相关技术中只能依赖自身系统针对传统硬件进行检测，对于种类繁多的异构加速资源检测结果不准确且不便于管理的问题，通过检测异构加速资源的厂商信息和设备型号调取对应接口，不仅提升了检测结果的准确率，还实现了对种类繁多的异构加速资源的统一管理。

在另一实施例中，上述步骤S204具体可以包括：获取所述异构加速资源的分配数据；根据所述分配数据确定所述使用健康资源和所述分配故障资源。

在本实施例中，根据分配数据确定使用健康资源或分配故障资源，包括：确定异构加速资源的实际使用数据；依次对每一个异构加速资源的分配数据和实际使用数据进行数据比对，若分配数据和所述实际使用数据一致，确定异构加速资源为使用健康资源，否则，确定异构加速资源为分配故障资源。

在一实施例中，可以根据预设的设备使用健康检测周期执行上述步骤S204中的设备使用健康监测方法。

具体的，每一个异构加速资源可以被虚拟化的分配给多个客户使用，分配数据包括分配客户、分配数量，实际使用数据包括使用客户、使用数量。

进一步的，分别对每一个异构加速资源的分配客户和使用客户进行比对、分配数量和使用数量进行比对，若数据全部一致，确定该异构加速资源为使用健康资源，否则，确定该异构加速资源为分配故障资源。

图4是本公开实施例的异构加速资源设备使用健康监测方法的流程图，如图4所示，异构加速资源设备使用健康监测方法具体包含以下步骤：

步骤S402：调用云平台异构加速资源接口，获取异构加速资源的分配数据详情(包括分配客户，分配数量等)；

步骤S404：针对每一个已分配的加速资源进行检测；

步骤S406：判断对应的客户是否存在，若判断结果为是，直接执行步骤S410，若判断结果为否，执行步骤S408；

步骤S408：将该异构加速资源加入分配故障列表，并记录异常分配的客户；

步骤S410：判断是否还有异构加速资源未进行判断，若判断结果为是，返回步骤S404，若判断结果为否，执行步骤S412；

步骤S412：输出分配故障的异构加速资源

本实施例中，每一个异构加速资源可以被虚拟化的分配给多个客户使用，客户种类通常包括：虚拟机、裸机、容器等。

上述步骤S406具体可以包括，判断该异构加速资源已分配的虚拟机、裸机、容器是否存在，若都存在，则判断给异构加速资源所分配的客户使用正常。

通过本实施例中的方法，可以解决相关技术中异构加速资源在虚拟化分配时容易发生的资源分配登记情况与客户实际使用情况不一致的问题，能够及时识别出发生分配故障的异构加速资源，从而避免将虚拟化分配的异构加速资源重复分配给多个客户，保证了云计算平台的安全性和稳定性。

在一实施例中，对分配故障资源进行分配异常处理，包括：根据实际使用数据对分配故障资源的分配数据进行数据更新，具体的，用实际使用数据中的使用客户对分配数据中的分配客户进行更新，用实际使用数据中的使用数量对分配数据中的分配数量进行更新。

图5是本公开可选实施例的设备使用健康监测及处理的时序图，如图5所示，异构加速资源设备使用健康监测及处理方法具体包含以下步骤：

步骤S502：根据设备使用健康监测方法输出分配故障资源；

步骤S504：调用响应模块对分配故障资源进行分配异常处理；

步骤S506：对分配故障资源的异构加速资源信息进行更新；

步骤S508：返回更新结果；

步骤S510：返回。

在另一实施例中，异构加速资源的异常处理方法还包括，对所述硬件非健康资源和所述分配故障资源进行异常告警。

在一实施例中，对硬件非健康资源进行硬件异常处理，具体包括以下步骤：

判断硬件非健康资源的使用状态是否为不可用，若判断结果为否，将硬件非健康资源的使用状态设置为不可用，并将硬件非健康资源的恢复状态设置为可恢复；

判断硬件非健康资源是否已分配给客户，若判断结果为是，通知云计算平台对硬件非健康资源已分配的客户进行迁移，和/或将硬件非健康资源的恢复状态设置为不可恢复。

具体的，异构加速资源的使用状态分为可用和不可用，异构加速资源的恢复状态分为可恢复和不可恢复。当对异构加速资源的使用状态进行设置时，系统自动对使用状态的设置来源进行记录，若该使用状态是由管理员设置的，则标记为管理员，其对应的恢复状态为不可恢复；若该使用状态是由异常响应模块自动设置的，则标记为响应模块，其对应的恢复状态为可恢复。

本实施例中，通知云计算平台对硬件非健康资源已分配的客户进行迁移具体可包括，通知云计算平台关联的管理员，及时对硬件非健康资源的使用情况进行判断，对所有已使用该硬件非健康资源的虚拟机、裸机、容器等客户进行热迁移动作(重新分配正常的异构加速资源给客户)或其他动作。

在一实施例中，可以获取硬件非健康资源和分配故障资源对应的异常资源信息；对异常资源信息进行标准化处理，得到标准化异常信息；将该标准化异常信息上报给云计算平台，便于及时通知相关人员处理异常信息，可以将标准化异常信息存储到云计算平台中，便于后续查找。

在另一实施例中，还可以从云计算平台获取标准化异常信息；获取硬件健康资源和使用健康资源对应的健康资源信息；对该健康资源信息进行标准化处理，得到标准化健康信息；根据该标准化健康信息从标准化异常信息中确定可恢复资源；若该可恢复资源的恢复状态为可恢复，对该可恢复资源进行恢复处理。具体的，标准化异常信息和标准化健康信息至少包括异构加速资源的PCI地址、厂商信息、设备型号、设备ID等，其中，PCI地址包括槽位号。

在本实施例中，根据标准化健康信息从标准化异常信息中确定可恢复资源，包括：根据预设的匹配规则对标准化健康信息和标准化异常信息进行匹配，其中，预设的匹配规则包括对以下资源信息中的至少之一进行匹配：PCI地址、厂商信息、型号；将匹配成功的标准化异常信息对应的异构加速资源确定为可恢复资源。

本实施例中，对可恢复资源进行恢复处理具体可以包括：若存在可恢复资源对应的异常告警，取消异常告警；将可恢复资源的使用状态设置为可用。

图6是根据本公开可选实施例的异构加速资源异常恢复处理的时序图，如图6所示，异构加速资源异常恢复处理方法具体包括以下步骤：

步骤S601：根据硬件健康监测方法输出健康的异构加速资源；

步骤S602：发送健康的异构加速资源信息；

步骤S603：获取已上报的非健康的异构加速资源信息；

步骤S604：返回已上报的非健康的异构加速资源信息；

步骤S605：通过特定方法识别出可恢复的异构加速资源；

步骤S606：标准化异构加速资源信息，调用云计算平台的告警恢复接口；

步骤S607：返回；

步骤S608：判断是否需要将该异构加速资源恢复为可用；

步骤S609：返回；

本实施例中，上述步骤S605中的特定方法具体可以包括：根据PCI地址、厂商信息、设备型号、设备ID、官方接口等进行数据比对，或者通过具体算法进行识别。

本实施例中，上述步骤S608判断是否需要将该异构加速资源恢复为可用具体可以包括：根据异构加速资源的恢复状态进行判断，若恢复状态为可恢复，将异构加速资源恢复为可用。

在另一实施例中，可以根据预设的恢复周期执行上述步骤S601到S609中的异构加速资源异常恢复处理方法。

根据本实施例中的异构加速资源异常恢复处理的方法，当检测到异构加速资源出现异常情况时，可以及时对客户和云计算平台管理员发出告警提示，避免造成严重损失。另外，通过人为干预或系统自动处理，该异常异构加速资源可能已恢复成健康状态时，对于这种情况，本实施例可以自动将该异构加速资源恢复为可用状态，及时响应、快速处理，减少了对使用客户的不良影响，提高了云计算平台的可靠性。

根据本公开实施例的另一方面，还提供了一种异构加速资源异常处理装置，图7是本公开实施例的异构加速资源异常处理装置的框图，如图7所示，所述装置包括：

第一监测模块702，设置为通过对云计算平台的异构加速资源进行硬件健康监测的方式确定所述异构加速资源为硬件健康资源或硬件非健康资源；

第二监测模块704，通过对所述异构加速资源进行设备使用健康监测的方式确定所述异构加速资源为使用健康资源或分配故障资源；

第一响应模块706，设置为对所述硬件非健康资源进行硬件异常处理；

第二响应模块708，设置为对所述分配故障资源进行分配异常处理。

在一实施例中，所述装置还包括：

扫描模块，设置为通过扫描PCI槽位确定所述异构加速资源是否存在；

第一获取模块，设置为若所述异构加速资源存在，获取所述异构加速资源的资源信息。

在一实施例中，所述第一监测模块702还包括：

调用单元，设置为根据所述异构加速资源的资源信息调用对应的硬件健康检测接口；

检测单元，设置为通过所述硬件健康检测接口判断所述异构加速资源的硬件状态；

第一判断单元，设置为若所述硬件状态为健康，则确定所述异构加速资源为所述硬件健康资源，若所述硬件状态为非健康，则确定所述异构加速资源为所述硬件非健康资源。

在一实施例中，所述装置还包括：

异常告警模块，设置为对所述硬件非健康资源和所述分配故障资源进行异常告警。

在一实施例中，所述第二监测模块704还包括：

第一获取单元，设置为获取所述异构加速资源的分配数据；

第二判断单元，设置为根据所述分配数据确定所述使用健康资源和所述分配故障资源。

在一实施例中，所述第二判断单元还包括：

第二获取单元，设置为确定所述异构加速资源的实际使用数据；

数据比对单元，设置为依次对每一个异构加速资源的分配数据和实际使用数据进行数据比对，若所述分配数据和所述实际使用数据一致，确定所述异构加速资源为使用健康资源，否则，确定所述异构加速资源为分配故障资源。

在一实施例中，所述第二响应模块708还设置为：

根据所述实际使用数据对所述分配故障资源的分配数据进行数据更新。

在一实施例中，第一响应模块706还包括：

设置单元，设置为判断所述硬件非健康资源的使用状态是否为不可用，若判断结果为否，将所述硬件非健康资源的使用状态设置为不可用，并将所述硬件非健康资源的恢复状态设置为可恢复；

处理单元，设置为判断所述硬件非健康资源是否已分配给客户，若判断结果为是，通知云计算平台对所述硬件非健康资源已分配的客户进行迁移，和/或将所述硬件非健康资源的恢复状态设置为不可恢复。

在一实施例中，所述装置还包括：

第二获取模块，设置为获取所述硬件非健康资源和所述分配故障资源对应的异常资源信息；

第一标准化模块，设置为对所述异常资源信息进行标准化处理，得到标准化异常信息；

上报模块，设置为将所述标准化异常信息上报给云计算平台。

在一实施例中，所述装置还包括：

第三获取模块，设置为从所述云计算平台获取所述标准化异常信息；

第四获取模块，设置为获取所述硬件健康资源和所述使用健康资源对应的健康资源信息；

第二标准化模块，设置为对所述健康资源信息进行标准化处理，得到标准化健康信息；

恢复判断模块，设置为根据所述标准化健康信息从所述标准化异常信息中确定可恢复资源；

恢复处理模块，设置为若所述可恢复资源的恢复状态为可恢复，对所述可恢复资源进行恢复处理。

在一实施例中，所述恢复判断模块包括：

匹配单元，设置为根据预设的匹配规则对所述标准化健康信息和所述标准化异常信息进行匹配，其中，所述预设的匹配规则包括对以下资源信息中的至少之一进行匹配：PC I地址、厂商信息、型号；

恢复判断单元，设置为将匹配成功的标准化异常信息对应的异构加速资源确定为所述可恢复资源。

在一实施例中，所述恢复处理模块，包括：

取消单元，设置为若存在所述可恢复资源对应的异常告警，取消所述异常告警；

恢复单元，设置为将所述可恢复资源的使用状态设置为可用。

根据本公开实施例的另一方面，还提供了一种异构加速资源健康监测和异常处理架构。

图8是本公开实施例的异构加速资源健康监测和异常处理架构，如图8所示，所述架构包括：

健康识别模块81，包括：硬件健康监测模块811，设备使用健康监测模块812，云平台异构资源已使用接口813；

异常处理模块82，包括：异常告警模块821，异常响应模块822，异常恢复模块823，云平台告警接口824，云平台异构资源管理接口825；

在本实施例中，硬件健康监测模块811，设置为实现上述第一监测模块702的部分或全部功能；设备使用健康监测模块812，设置为实现上述第二监测模块704的部分或全部功能；云平台异构资源已使用接口813，用于实现上述第二获取单元的部分或全部功能。

具体的，硬件健康监测模块811设置为通过对云计算平台的异构加速资源进行硬件健康监测的方式确定所述异构加速资源为硬件健康资源或硬件非健康资源；设备使用健康监测模块812设置为通过对所述异构加速资源进行设备使用健康监测的方式确定所述异构加速资源为使用健康资源或分配故障资源；云平台异构资源已使用接口813用于确定所述异构加速资源的实际使用数据；

在另一实施例中，异常告警模块821，用于对所述硬件非健康资源和所述分配故障资源进行异常告警；异常响应模块822用于实现上述第一响应模块706和第二响应模块708的部分或全部功能，包括用于对硬件非健康资源和分配故障资源进行异常处理；云平台告警接口824用于将异常告警信息告知云计算平台；云平台异构资源管理接口825用于对异构加速资源进行管理，包括对其使用状态进行设置。

通过本公开实施例，可以解决相关技术中只关注传统服务器普通硬件资源检测，无法识别出云计算平台管理的虚拟化异构加速资源登记和实际使用不一致，从而给云计算平台和用户带来损失的问题。当异构加速资源发生异常时，能够快速的感知异构加速资源的非健康状态并及时告警、恢复，确保云平台管理异构加速资源的可靠性、稳定性、及时性等。

本公开的实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

在一个示例性实施例中，上述计算机可读存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，简称为ROM)、随机存取存储器(Random Access Memory，简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

本公开的实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

在一个示例性实施例中，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

本实施例中的具体示例可以参考上述实施例及示例性实施方式中所描述的示例，本实施例在此不再赘述。

显然，本领域的技术人员应该明白，上述的本公开的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本公开不限制于任何特定的硬件和软件结合。

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

一种异构加速资源异常处理方法，所述方法包括：

通过对云计算平台的异构加速资源进行硬件健康监测的方式确定所述异构加速资源为硬件健康资源或硬件非健康资源；

通过对所述异构加速资源进行设备使用健康监测的方式确定所述异构加速资源为使用健康资源或分配故障资源；

对所述硬件非健康资源进行硬件异常处理；

对所述分配故障资源进行分配异常处理。
根据权利要求1所述的方法，其中，在通过对云计算平台的异构加速资源进行硬件健康监测的方式确定所述异构加速资源为硬件健康资源或硬件非健康资源之前，所述方法还包括：

通过扫描PCI槽位确定所述异构加速资源是否存在；

若所述异构加速资源存在，获取所述异构加速资源的资源信息。
根据权利要求2所述的方法，其中，通过对云计算平台的异构加速资源进行硬件健康监测的方式确定所述异构加速资源为硬件健康资源或硬件非健康资源，包括：

根据所述异构加速资源的资源信息调用对应的硬件健康检测接口；

通过所述硬件健康检测接口判断所述异构加速资源的硬件状态；

若所述硬件状态为健康，则确定所述异构加速资源为所述硬件健康资源；

若所述硬件状态为非健康，则确定所述异构加速资源为所述硬件非健康资源。
根据权利要求1所述的方法，其中，所述方法还包括：

对所述硬件非健康资源和所述分配故障资源进行异常告警。
根据权利要求1所述的方法，其中，通过对所述异构加速资源进行设备使用健康监测的方式确定所述异构加速资源为使用健康资源或分配故障资源，包括：

获取所述异构加速资源的分配数据；

根据所述分配数据确定所述使用健康资源和所述分配故障资源。
根据权利要求5所述的方法，其中，根据所述分配数据确定使用健康资源或分配故障资源，包括：

确定所述异构加速资源的实际使用数据；

依次对每一个异构加速资源的分配数据和实际使用数据进行数据比对，若所述分配数据和所述实际使用数据一致，确定所述异构加速资源为使用健康资源，否则，确定所述异构加速资源为分配故障资源。
根据权利要求6所述的方法，其中，对所述分配故障资源进行分配异常处理，包括：

根据所述实际使用数据对所述分配故障资源的分配数据进行数据更新。
根据权利要求1所述的方法，其中，对所述硬件非健康资源进行硬件异常处理，包括：

判断所述硬件非健康资源的使用状态是否为不可用，若判断结果为否，将所述硬件非健康资源的使用状态设置为不可用，并将所述硬件非健康资源的恢复状态设置为可恢复；

判断所述硬件非健康资源是否已分配给客户，若判断结果为是，通知云计算平台对所述硬件非健康资源已分配的客户进行迁移，和/或将所述硬件非健康资源的恢复状态设置为不可恢复。
根据权利要求1所述的方法，其中，所述方法还包括：

获取所述硬件非健康资源和所述分配故障资源对应的异常资源信息；

对所述异常资源信息进行标准化处理，得到标准化异常信息；

将所述标准化异常信息上报给云计算平台。
根据权利要求9所述的方法，其中，所述方法还包括：

从所述云计算平台获取所述标准化异常信息；

获取所述硬件健康资源和所述使用健康资源对应的健康资源信息；

对所述健康资源信息进行标准化处理，得到标准化健康信息；

根据所述标准化健康信息从所述标准化异常信息中确定可恢复资源；

若所述可恢复资源的恢复状态为可恢复，对所述可恢复资源进行恢复处理。
根据权利要求10所述的方法，其中，根据所述标准化健康信息从所述标准化异常信息中确定可恢复资源，包括：

根据预设的匹配规则对所述标准化健康信息和所述标准化异常信息进行匹配，其中，所述预设的匹配规则包括对以下资源信息中的至少之一进行匹配：PCI地址、厂商信息、型号；

将匹配成功的标准化异常信息对应的异构加速资源确定为所述可恢复资源。
根据权利要求10所述的方法，其中，若所述可恢复资源的恢复状态为可恢复，对所述可恢复资源进行恢复处理，包括：

若存在所述可恢复资源对应的异常告警，取消所述异常告警；

将所述可恢复资源的使用状态设置为可用。
一种异构加速资源异常处理装置，所述装置包括：

第一监测模块，设置为通过对云计算平台的异构加速资源进行硬件健康监测的方式确定所述异构加速资源为硬件健康资源或硬件非健康资源；

第二监测模块，通过对所述异构加速资源进行设备使用健康监测的方式确定所述异构加速资源为使用健康资源或分配故障资源；

第一响应模块，设置为对所述硬件非健康资源进行硬件异常处理；

第二响应模块，设置为对所述分配故障资源进行分配异常处理。
一种计算机可读的存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至12任一项中所述的方法。
一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行所述权利要求1至12任一项中所述的方法。