WO2022262148A1

WO2022262148A1 - 一种推理平台的推理服务管理方法、装置、系统及介质

Info

Publication number: WO2022262148A1
Application number: PCT/CN2021/121909
Authority: WO
Inventors: 王萌
Original assignee: 苏州浪潮智能科技有限公司
Priority date: 2021-06-15
Filing date: 2021-09-29
Publication date: 2022-12-22
Also published as: CN113112023A; US20240036990A1; CN113112023B; US11994958B2

Abstract

一种推理平台的推理服务管理方法、装置、系统及介质，该方法包括：根据数据库中的推理服务记录，检测服务器中是否存在与推理服务记录对应的推理服务（S110）；若不存在，则根据推理服务记录对相应的推理服务进行恢复（S120）。所述方法通过根据数据库中的推理服务记录对服务器中的推理服务进行检测，判断服务器中是否存在与该推理服务记录对应的推理服务，当不存在时，说明推理服务记录与真实的推理服务不一致，则可以根据该推理服务记录对相应的推理服务进行恢复。所述方法能够在推理服务记录与真实的推理服务不一致时，自动根据推理服务记录对推理服务进行恢复，提高推理服务管理效率，更好地保障推理服务记录与推理服务的一致性。

Description

一种推理平台的推理服务管理方法、装置、系统及介质

本申请要求在2021年6月15日提交中国专利局、申请号为202110659833.9、发明名称为“一种推理平台的推理服务管理方法、装置、系统及介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请实施例涉及计算机技术领域，特别是涉及一种推理平台的推理服务管理方法、装置、系统及计算机可读存储介质。

背景技术

AIStation推理平台支持多种推理服务的创建，包括多种类型，并且推理服务在创建、运行过程中，依赖于各种组件，而组件发生故障时，通常需要通过重新部署的方式来修复，重新部署组件会导致依赖于组件的推理服务被清除，此外，集群的操作、运维人员可能在服务器后台误操作，会导致推理服务被删除。

通常AIStation推理平台在推理服务创建过后，会在数据库中记录分配给推理服务的资源和推理服务参数，数据库中的推理服务记录和后端运行的推理服务存在一一对应关系。但是，由于组件发生故障或者用户在后端误操作而导致推理服务被清除时，数据库中的推理服务记录还会存在，而为了保持数据库中的推理服务记录和真实推理服务的一致性，现有技术中通过人工手动在服务器后台查看是否有推理服务被删除，且推理服务记录还保存在数据库中情况，如果有，则需要手动清空数据库中所有记录项，并删除所有的推理服务，不仅比较繁琐、耗费时间，而且一旦有不一致将所有记录项和所以推理服务删除，代价很大。

鉴于此，如何提供一种解决上述技术问题的推理平台的推理服务管理方法、装置、系统及计算机可读存储介质成为本领域技术人员需要解决的问题。

发明内容

本申请实施例的目的是提供一种推理平台的推理服务管理方法、装置、系统及计算机可读存储介质，在使用过程中能够提高推理服务管理效率，更好地保障推理服务记录与推理服务的一致性。

为解决上述技术问题，本申请实施例提供了一种推理平台的推理服务管理方法，包括：

根据数据库中的推理服务记录，检测服务器中是否存在与所述推理服务记录对应的推理服务；若不存在，则根据所述推理服务记录对相应的推理服务进行恢复；其中：

根据所述推理服务记录获取对应的推理服务类型，并依据所述推理服务记录及与所述推理服务类型对应的恢复过程对所述推理服务进行恢复；

当所述推理服务类型为通用模型，则对应的恢复过程为：

解析所述推理服务记录得到对应的框架类型、模型地址及模型类名；解析所述推理服务记录判断是否存在批量处理模块记录，若存在，则创建批量处理模块；解析所述推理服务记录判断是否存在数据处理模块记录，若存在，则创建数据处理模块；当存在所述批量处理模块记录时，根据所述批量处理模块、所述框架类型、所述模型地址及所述模型类名创建对应的推理模块，或当不存在所述批量处理模块记录时，根据所述框架类型、所述模型地址及所述模型类名创建对应的推理模块；当存在所述数据处理模块记录时，根据所述推理模块和所述数据处理模块创建对应的推理服务，或当不存在所述数据处理模块记录时，根据所述推理模块创建对应的推理服务；

当所述推理服务类型为应用部署，则对应的恢复过程为：

解析所述推理服务记录判断是否存在批量处理模块记录，若存在，则创建批量处理模块；解析所述推理服务记录判断是否存在数据处理模块记录，若存在，则创建数据处理模块；解析所述推理服务记录得到镜像地址，当存在批量处理模块记录时，根据所述批量处理模块和所述镜像地址创建对应的推理模块，或当不存在批量处理模块记录时，根据所述镜像地址创建对应的推理模块；当存在所述数据处理模块记录时，根据所述推理模块和所述数据处理模块创建对应的推理服务，或当不存在所述数据处理模块记录时，根据所述推理模块创建对应的推理服务；

当所述推理服务类型为GPU共享，则对应的恢复过程为：

解析所述推理服务记录得到镜像地址，根据所述镜像地址创建实例模块；解析所述推理服务记录得到服务信息地址，根据所述服务信息地址创建服务模块；根据所述实例模块和所述服务模块创建对应的推理服务；

当所述推理服务类型为原生部署，则对应的恢复过程为：

对所述推理服务记录进行解析，得到对应的业务类型，依据所述业务类型对推理服务进行解析，得到业务信息，并根据所述业务信息创建对应的推理服务；

当所述推理服务类型为边缘推理，则对应的恢复过程为：

对所述推理服务记录进行解析，得到镜像地址、节点名称及端口映射信息，并根据所述镜像地址、所述节点名称及所述端口映射信息，创建对应的推理服务。

可选的，在所述根据所述推理服务记录对相应的推理服务进行恢复之前，还包括：

判断与所述推理服务记录对应的异常值是否达到预设阈值；

若达到，则执行所述根据所述推理服务记录对相应的推理服务进行恢复的步骤；若未达到，则按照预设增量对所述异常值进行更新。

可选的，在所述根据所述推理服务记录对相应的推理服务进行恢复之后，还包括：

检测所述推理服务是否恢复成功，若是，则将与所述推理服务记录对应的异常值置零。

可选的，所述根据数据库中的推理服务记录，检测服务器中是否存在与所述推理服务记录对应的推理服务的过程为：

对所述数据库中的每个推理服务记录进行轮询；

根据当前的推理服务记录，检测服务器中是否存在与所述推理服务记录对应的推理服务。

本申请实施例还提供了一种推理平台的推理服务管理装置，包括：

检测模块，用于根据数据库中的推理服务记录，检测服务器中是否存在与所述推理服务记录对应的推理服务；若不存在，则触发恢复模块；

所述恢复模块，用于根据所述推理服务记录对相应的推理服务进行恢复；其中：

当所述推理服务类型为通用模型，则对应的恢复过程为：

当所述推理服务类型为应用部署，则对应的恢复过程为：

当所述推理服务类型为GPU共享，则对应的恢复过程为：

当所述推理服务类型为原生部署，则对应的恢复过程为：

当所述推理服务类型为边缘推理，则对应的恢复过程为：

可选的，还包括：

判断模块，用于判断与所述推理服务记录对应的异常值是否达到预设阈值；

若达到，则触发所述恢复模块；若未达到，则触发更新模块；

所述更新模块，用于按照预设增量对所述异常值进行更新。

本申请实施例还提供了一种推理平台的推理服务管理系统，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上述所述推理平台的推理服务管理方法的步骤。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述所述推理平台的推理服务管理方法的步骤。

本申请实施例提供了一种推理平台的推理服务管理方法、装置、系统及计算机可读存储介质，该方法包括：根据数据库中的推理服务记录，检测服务器中是否存在与推理服务记录对应的推理服务；若不存在，则根据推理服务记录对相应的推理服务进行恢复。

可见，本申请实施例中通过根据数据库中的推理服务记录对服务器中的推理服务进行检测，判断服务器中是否存在与该推理服务记录对应的推理服务，当不存在时，说明推理服务记录与真实的推理服务不一致，则可以根据该推理服务记录对相应的推理服务进行恢复，本申请实施例在使用过程中能够在推理服务记录与真实的推理服务不一致时，自动根据推理服务记录对推理服务进行恢复，提高推理服务管理效率，更好地保障推理服务记录与推理服务的一致性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对现有技术和实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种推理平台的推理服务管理方法的流程示意图；

图2为本申请实施例提供的一种推理平台的推理服务管理装置的结构示意图。

具体实施方式

本申请实施例提供了一种推理平台的推理服务管理方法、装置、系统及计算机可读存储介质，在使用过程中能够提高推理服务管理效率，更好地保障推理服务记录与推理服务的一致性。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参照图1，图1为本申请实施例提供的一种推理平台的推理服务管理方法的流程示意图。该方法包括：

S110：根据数据库中的推理服务记录，检测服务器中是否存在与推理服务记录对应的推理服务；若不存在，则进入S120；

需要说明的是，本申请实施例中提供的方法具体可以用于但不仅限于用于AIStation推理平台，具体的可以在推理服务平台启动后获取对数据库中的推理服务记录，并根据该推理服务记录来检测服务器中是否存在与该推理服务记录对应的推理服务。

S120：根据推理服务记录对相应的推理服务进行恢复。

具体的，当服务器中不存在与该推理服务记录对应的推理服务时，说明此时推理服务记录与推理服务不一致，说明对应的推理服务被删除，则根据该推理服务记录对相应的推理服务进行恢复，也即将对应的推理服务恢复至服务器中，从而可以保持推理服务记录与推理服务的一致性。

进一步的，上述S120中根据推理服务记录对相应的推理服务进行恢复的过程，具体可以为：

预先建立推理服务类型与恢复过程的对应关系；

根据推理服务记录获取对应的推理服务类型；

依据推理服务记录及与推理服务类型对应的恢复过程对推理服务进行恢复。

也即，针对不同的推理服务类型，恢复过程可能不同，因此可以预先确定出每种推理服务类型的恢复过程，并且建立推理服务类型与恢复过程的对应关系，然后在根据当前的推理服务记录获取对应的推理服务类型后，即可根据对应关系得到与该推理服务类型对应的恢复过程，然后根据推理服务记录及恢复过程对相应的推理服务进行恢复。

进一步的，本申请实施例中的推理服务类型具体可以为通用模型、应用部署、GPU共享、原生部署或边缘推理。当然，还可以为其他具体的类型，具体是哪种类型，本申请实施例不做特殊限定。

需要说明的是，当推理服务类型为通用模型，则对应的恢复过程具体可以为：

解析推理服务记录得到对应的框架类型、模型地址及模型类名；解析推理服务记录判断是否存在批量处理模块记录，若存在，则创建批量处理模块；解析推理服务记录判断是否存在数据处理模块记录，若存在，则创建数据处理模块；当存在批量处理模块记录时，根据批量处理模块、框架类型、模型地址及模型类名创建对应的推理模块，或当不存在批量处理模块记录时，根据框架类型、模型地址及模型类名创建对应的推理模块；当存在数据处理模块记录时，根据推理模块和数据处理模块创建对应的推理服务，或当不存在数据处理模块记录时，根据推理模块创建对应的推理服务。也即，先根据是否存在批量处理模块记录来确定具体如何创建推理模块，然后再根据是否存在数据处理模块记录进一步确定具体如何创建对应的推理服务。

其中，框架类型为PyTorch、Tensorflow、Triton、sklearn、onnx、xgboost中的一种，并且在框架类型具体为PyTorch时，当存在批量处理模块记录时，根据批量处理模块、框架类型、模型地址及模型类名创建对应的推理模块，或当不存在批量处理模块记录时，根据框架类型、模型地址及模型类名创建对应的推理模块；当框架类型具体为Tensorflow、Triton、sklearn、onnx、xgboost时，则当存在批量处理模块记录时，根据批量处理模块、框架类型、模型地址创建对应的推理模块，或当不存在批量处理模块记录时，根据框架类型、模型地址创建对应的推理模块。

当推理服务类型为应用部署，则对应的恢复过程具体可以为：

解析推理服务记录判断是否存在批量处理模块记录，若存在，则创建批量处理模块；解析推理服务记录判断是否存在数据处理模块，若存在，则创建数据处理模块；解析推理服务记录得到镜像地址，当存在批量处理模块记录时，根据批量处理模块和镜像地址创建对应的推理模块，或当不存在批量处理模块记录时，根据镜像地址创建对应的推理模块；当存在数据处理模块记录时，根据推理模块和数据处理模块创建对应的推理服务，或当不存在数据处理模块记录时，根据推理模块创建对应的推理服务。

当推理服务类型为GPU共享，则对应的恢复过程具体可以为：

解析推理服务记录得到镜像地址，根据镜像地址创建实例模块；解析推理服务记录得到服务信息地址，根据服务信息地址创建服务模块；根据实例模块和服务模块创建对应的推理服务。

当推理服务类型为原生部署，则对应的恢复过程具体可以为：

对推理服务记录进行解析，得到对应的业务类型；依据业务类型对推理服务进行解析，得到业务信息；根据业务信息创建对应的推理服务。

具体的，业务类型包括Deployment、DaemonSet、Service、ConfigMap，其中，当业务类型Deployment和DaemonSet时，业务信息包括镜像地址、资源、端口信息；当业务类型为Service时，则业务信息包括选择标签、节点端口、协议、目标端口、内部端口信息；当业务类型为ConfigMap时，业务信息包括数据信息。

当推理服务类型为边缘推理，则对应的恢复过程具体可以为：

对推理服务记录进行解析，得到镜像地址、节点名称及端口映射信息；根据镜像地址、节点名称及端口映射信息，创建对应的推理服务。

进一步的，在上述根据推理服务记录对相应的推理服务进行恢复之前，该方法还包括：

判断与推理服务记录对应的异常值是否达到预设阈值；

若达到，则执行根据推理服务记录对相应的推理服务进行恢复的步骤；若未达到，则按照预设增量对异常值进行更新。

需要说明的是，由于在实际应用中用户在对推理服务平台进行管理时，可能会根据需求将服务器中的推理服务主动删除，在还没有来得及将数据库中与该推理服务对应的推理服务记录进行删除时，会导致推理服务记录与推理服务的不一致，而这种不一致为正常的不一致，也即，这种不一致不是因为组件故障或用户误操作导致推理服务被删除造成的，因此认为是正常的不一致，对于这种情况可以不对推理服务进行恢复。本申请实施例中为了不对用户正常删除的推理服务进行恢复，可以设置预设阈值，在检测到服务器中不存在对应的推理服务时，可以获取与该推理服务对应的异常值，若该异常值达到预设阈值，则说明该推理服务为异常不一致，也即是由于组件故障或用户误操作导致推理服务被删除，此时需要根据推理服务记录来对相应的推理服务进行恢复。

其中，异常值具体可以为异常时长，也即可以设置检测时间间隔，每次检测到异常时更新异常时长，对应的预设阈值为时长阈值，从而可以在推理服务异常时长达到预设时长时，说明该推理服务不是用户因正常需要所删除的推理服务，则需要对其进行恢复；若本次检测到该推理服务记录，并且对应的异常时长没有达到预设阈值，下一次检测则没有检测到该推理服务记录，则说明用户在将推理服务删除后，又将相应的推理服务记录从数据库中删除；异常值具体还可以为异常检测次数，同样相应的预设阈值为预设次数阈值，在检测到推理服务记录的异常次数没有达到预设次数阈值时，可以对该推理服务记录的异常次数加一，直至异常次数达到预设次数阈值后对相应的推理服务进行恢复，或者直至检测不到该推理服务记录。具体采用哪种方式可以根据实际需要进行确定，本申请实施例不做特殊限定。

进一步的，在根据推理服务记录对相应的推理服务进行恢复之后，该方法还可以包括：

检测推理服务是否恢复成功，若是，则将与推理服务记录对应的异常值置零。

也即，在对相应的推理服务进行恢复后，可以进一步检测服务器中是否存在该推理服务，若存在则说明恢复成功，此时可以将与该推理服务对应的推理服务记录的异常值置为0，以便下一次出现异常时重新计数；当服务器中不存在该推理服务时，说明没有恢复成功，此时可以等待下一次检测，并且在下一次检测时若仍旧检测出对应的推理服务记录，则再次对相应的推理服务进行恢复。

进一步的，上述S110中根据数据库中的推理服务记录，检测服务器中是否存在与推理服务记录对应的推理服务的过程，具体可以为：

对数据库中的每个推理服务记录进行轮询；

根据当前的推理服务记录，检测服务器中是否存在与推理服务记录对应的推理服务。

也即，在实际应用中可以对数据库中的所有推理服务记录进行轮询，并根据当前轮询到的推理服务记录，检测服务器中是否存在对应的推理服务，并在不存在时根据对应的异常值确定是否需要对相应的推理服务进行恢复，并且需要对相应的推理服务进行恢复时，执行恢复操作。

在上述实施例的基础上，本申请实施例还提供了一种推理平台的推理服务管理装置，具体请参照图2，该装置包括：

检测模块21，用于根据数据库中的推理服务记录，检测服务器中是否存在与推理服务记录对应的推理服务；若不存在，则触发恢复模块；

恢复模块22，用于根据推理服务记录对相应的推理服务进行恢复；其中：

根据推理服务记录获取对应的推理服务类型，并依据推理服务记录及与推理服务类型对应的恢复过程对推理服务进行恢复；

当推理服务类型为通用模型，则对应的恢复过程为：

解析推理服务记录得到对应的框架类型、模型地址及模型类名；解析推理服务记录判断是否存在批量处理模块记录，若存在，则创建批量处理模块；解析推理服务记录判断是否存在数据处理模块记录，若存在，则创建数据处理模块；当存在批量处理模块记录时，根据批量处理模块、框架类型、模型地址及模型类名创建对应的推理模块，或当不存在批量处理模块记录时，根据框架类型、模型地址及模型类名创建对应的推理模块；当存在数据处理模块记录时，根据推理模块和数据处理模块创建对应的推理服务，或当不存在数据处理模块记录时，根据推理模块创建对应的推理服务；

当推理服务类型为应用部署，则对应的恢复过程为：

解析推理服务记录判断是否存在批量处理模块记录，若存在，则创建批量处理模块；解析推理服务记录判断是否存在数据处理模块记录，若存在，则创建数据处理模块；解析推理服务记录得到镜像地址，当存在批量处理模块记录时，根据批量处理模块和镜像地址创建对应的推理模块，或当不存在批量处理模块记录时，根据镜像地址创建对应的推理模块；当存在数据处理模块记录时，根据推理模块和数据处理模块创建对应的推理服务，或当不存在数据处理模块记录时，根据推理模块创建对应的推理服务；

当推理服务类型为GPU共享，则对应的恢复过程为：

解析推理服务记录得到镜像地址，根据镜像地址创建实例模块；解析推理服务记录得到服务信息地址，根据服务信息地址创建服务模块；根据实例模块和服务模块创建对应的推理服务；

当推理服务类型为原生部署，则对应的恢复过程为：

对推理服务记录进行解析，得到对应的业务类型，依据业务类型对推理服务进行解析，得到业务信息，并根据业务信息创建对应的推理服务；

当推理服务类型为边缘推理，则对应的恢复过程为：

对推理服务记录进行解析，得到镜像地址、节点名称及端口映射信息，并根据镜像地址、节点名称及端口映射信息，创建对应的推理服务。

进一步的，该装置还可以包括：

判断模块，用于判断与推理服务记录对应的异常值是否达到预设阈值；

若达到，则触发恢复模块22；若未达到，则触发更新模块；

更新模块，用于按照预设增量对异常值进行更新。

在上述实施例的基础上，本申请实施例还提供了一种推理平台的推理服务管理系统，该系统包括：

存储器，用于存储计算机程序；

处理器，用于执行计算机程序时实现如上述推理平台的推理服务管理方法的步骤。

例如，本申请实施例中的处理器具体可以用于实现根据数据库中的推理服务记录，检测服务器中是否存在与推理服务记录对应的推理服务；若不存在，则根据推理服务记录对相应的推理服务进行恢复。

在上述实施例的基础上，本申请实施例还提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现如上述推理平台的推理服务管理方法的步骤。

该计算机可读存储介质可以包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其他实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

一种推理平台的推理服务管理方法，其特征在于，包括：

根据数据库中的推理服务记录，检测服务器中是否存在与所述推理服务记录对应的推理服务；若不存在，则根据所述推理服务记录对相应的推理服务进行恢复；其中：

根据所述推理服务记录获取对应的推理服务类型，并依据所述推理服务记录及与所述推理服务类型对应的恢复过程对所述推理服务进行恢复；

当所述推理服务类型为通用模型，则对应的恢复过程为：

解析所述推理服务记录得到对应的框架类型、模型地址及模型类名；解析所述推理服务记录判断是否存在批量处理模块记录，若存在，则创建批量处理模块；解析所述推理服务记录判断是否存在数据处理模块记录，若存在，则创建数据处理模块；当存在所述批量处理模块记录时，根据所述批量处理模块、所述框架类型、所述模型地址及所述模型类名创建对应的推理模块，或当不存在所述批量处理模块记录时，根据所述框架类型、所述模型地址及所述模型类名创建对应的推理模块；当存在所述数据处理模块记录时，根据所述推理模块和所述数据处理模块创建对应的推理服务，或当不存在所述数据处理模块记录时，根据所述推理模块创建对应的推理服务；

当所述推理服务类型为应用部署，则对应的恢复过程为：

解析所述推理服务记录判断是否存在批量处理模块记录，若存在，则创建批量处理模块；解析所述推理服务记录判断是否存在数据处理模块记录，若存在，则创建数据处理模块；解析所述推理服务记录得到镜像地址，当存在批量处理模块记录时，根据所述批量处理模块和所述镜像地址创建对应的推理模块，或当不存在批量处理模块记录时，根据所述镜像地址创建对应的推理模块；当存在所述数据处理模块记录时，根据所述推理模块和所述数据处理模块创建对应的推理服务，或当不存在所述数据处理模块记录时，根据所述推理模块创建对应的推理服务；

当所述推理服务类型为GPU共享，则对应的恢复过程为：

解析所述推理服务记录得到镜像地址，根据所述镜像地址创建实例模块；解析所述推理服务记录得到服务信息地址，根据所述服务信息地址创建服务模块；根据所述实例模块和所述服务模块创建对应的推理服务；

当所述推理服务类型为原生部署，则对应的恢复过程为：

对所述推理服务记录进行解析，得到对应的业务类型，依据所述业务类型对推理服务进行解析，得到业务信息，并根据所述业务信息创建对应的推理服务；

当所述推理服务类型为边缘推理，则对应的恢复过程为：

对所述推理服务记录进行解析，得到镜像地址、节点名称及端口映射信息，并根据所述镜像地址、所述节点名称及所述端口映射信息，创建对应的推理服务。
根据权利要求1所述的推理平台的推理服务管理方法，其特征在于，在所述根据所述推理服务记录对相应的推理服务进行恢复之前，还包括：

判断与所述推理服务记录对应的异常值是否达到预设阈值；

若达到，则执行所述根据所述推理服务记录对相应的推理服务进行恢复的步骤；若未达到，则按照预设增量对所述异常值进行更新。
根据权利要求2所述的推理平台的推理服务管理方法，其特征在于，在所述根据所述推理服务记录对相应的推理服务进行恢复之后，还包括：

检测所述推理服务是否恢复成功，若是，则将与所述推理服务记录对应的异常值置零。
根据权利要求1所述的推理平台的推理服务管理方法，其特征在于，所述根据数据库中的推理服务记录，检测服务器中是否存在与所述推理服务记录对应的推理服务的过程为：

对所述数据库中的每个推理服务记录进行轮询；

根据当前的推理服务记录，检测服务器中是否存在与所述推理服务记录对应的推理服务。
一种推理平台的推理服务管理装置，其特征在于，包括：

检测模块，用于根据数据库中的推理服务记录，检测服务器中是否存在与所述推理服务记录对应的推理服务；若不存在，则触发恢复模块；

所述恢复模块，用于根据所述推理服务记录对相应的推理服务进行恢复；其中：

根据所述推理服务记录获取对应的推理服务类型，并依据所述推理服务记录及与所述推理服务类型对应的恢复过程对所述推理服务进行恢复；

当所述推理服务类型为通用模型，则对应的恢复过程为：

解析所述推理服务记录得到对应的框架类型、模型地址及模型类名；解析所述推理服务记录判断是否存在批量处理模块记录，若存在，则创建批量处理模块；解析所述推理服务记录判断是否存在数据处理模块记录，若存在，则创建数据处理模块；当存在所述批量处理模块记录时，根据所述批量处理模块、所述框架类型、所述模型地址及所述模型类名创建对应的推理模块，或当不存在所述批量处理模块记录时，根据所述框架类型、所述模型地址及所述模型类名创建对应的推理模块；当存在所述数据处理模块记录时，根据所述推理模块和所述数据处理模块创建对应的推理服务，或当不存在所述数据处理模块记录时，根据所述推理模块创建对应的推理服务；

当所述推理服务类型为应用部署，则对应的恢复过程为：

解析所述推理服务记录判断是否存在批量处理模块记录，若存在，则创建批量处理模块；解析所述推理服务记录判断是否存在数据处理模块记录，若存在，则创建数据处理模块；解析所述推理服务记录得到镜像地址，当存在批量处理模块记录时，根据所述批量处理模块和所述镜像地址创建对应的推理模块，或当不存在批量处理模块记录时，根据所述镜像地址创建对应的推理模块；当存在所述数据处理模块记录时，根据所述推理模块和所述数据处理模块创建对应的推理服务，或当不存在所述数据处理模块记录时，根据所述推理模块创建对应的推理服务；

当所述推理服务类型为GPU共享，则对应的恢复过程为：

解析所述推理服务记录得到镜像地址，根据所述镜像地址创建实例模块；解析所述推理服务记录得到服务信息地址，根据所述服务信息地址创建服务模块；根据所述实例模块和所述服务模块创建对应的推理服务；

当所述推理服务类型为原生部署，则对应的恢复过程为：

对所述推理服务记录进行解析，得到对应的业务类型，依据所述业务类型对推理服务进行解析，得到业务信息，并根据所述业务信息创建对应的推理服务；

当所述推理服务类型为边缘推理，则对应的恢复过程为：

对所述推理服务记录进行解析，得到镜像地址、节点名称及端口映射信息，并根据所述镜像地址、所述节点名称及所述端口映射信息，创建对应的推理服务。
根据权利要求5所述的推理平台的推理服务管理装置，其特征在于，还包括：

判断模块，用于判断与所述推理服务记录对应的异常值是否达到预设阈值；

若达到，则触发所述恢复模块；若未达到，则触发更新模块；

所述更新模块，用于按照预设增量对所述异常值进行更新。
一种推理平台的推理服务管理系统，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至4任一项所述推理平台的推理服务管理方法的步骤。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述推理平台的推理服务管理方法的步骤。