WO2022262148A1 - 一种推理平台的推理服务管理方法、装置、系统及介质 - Google Patents

一种推理平台的推理服务管理方法、装置、系统及介质 Download PDF

Info

Publication number
WO2022262148A1
WO2022262148A1 PCT/CN2021/121909 CN2021121909W WO2022262148A1 WO 2022262148 A1 WO2022262148 A1 WO 2022262148A1 CN 2021121909 W CN2021121909 W CN 2021121909W WO 2022262148 A1 WO2022262148 A1 WO 2022262148A1
Authority
WO
WIPO (PCT)
Prior art keywords
service
record
inference
reasoning
module
Prior art date
Application number
PCT/CN2021/121909
Other languages
English (en)
French (fr)
Inventor
王萌
Original Assignee
苏州浪潮智能科技有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 苏州浪潮智能科技有限公司 filed Critical 苏州浪潮智能科技有限公司
Priority to US18/271,867 priority Critical patent/US11994958B2/en
Publication of WO2022262148A1 publication Critical patent/WO2022262148A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1458Management of the backup or restore process
    • G06F11/1469Backup restoration techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1458Management of the backup or restore process
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/60Software deployment
    • G06F8/61Installation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/80Database-specific techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/40Transformation of program code
    • G06F8/41Compilation
    • G06F8/42Syntactic analysis
    • G06F8/427Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/60Software deployment
    • G06F8/61Installation
    • G06F8/63Image based installation; Cloning; Build to order

Definitions

  • the embodiments of the present application relate to the field of computer technology, and in particular, to an inference service management method, device, system, and computer-readable storage medium of an inference platform.
  • the AIStation inference platform supports the creation of multiple inference services, including multiple types, and inference services depend on various components during creation and operation. When a component fails, it usually needs to be repaired by redeployment. Redeployment Components will cause the inference service that depends on the component to be cleared. In addition, cluster operations and O&M personnel may misoperate in the server background, which will cause the inference service to be deleted.
  • the AIStation inference platform will record the resources allocated to the inference service and inference service parameters in the database.
  • the reasoning service records in the database will still exist.
  • the existing In the technology manually check whether the inference service has been deleted in the background of the server, and the inference service records are still stored in the database. If so, you need to manually clear all records in the database and delete all inference services, which is not only cumbersome , Time-consuming, and once there is an inconsistency, all record items and all reasoning services will be deleted, which is very expensive.
  • the purpose of the embodiments of the present application is to provide an inference service management method, device, system, and computer-readable storage medium of an inference platform, which can improve the efficiency of inference service management during use, and better ensure the inference service records and inference services. consistency.
  • an embodiment of the present application provides an inference service management method of an inference platform, including:
  • the inference service record in the database detect whether there is an inference service corresponding to the inference service record in the server; if not, restore the corresponding inference service according to the inference service record;
  • Analyzing the reasoning service record to obtain a corresponding business type analyzing the reasoning service according to the business type to obtain business information, and creating a corresponding reasoning service according to the business information;
  • the method before restoring the corresponding inference service according to the inference service record, the method further includes:
  • the method further includes:
  • the process of detecting whether there is an inference service corresponding to the inference service record in the server according to the inference service record in the database is:
  • the current inference service record it is detected whether there is an inference service corresponding to the inference service record in the server.
  • the embodiment of the present application also provides an inference service management device of an inference platform, including:
  • the detection module is used to detect whether there is an inference service corresponding to the inference service record in the server according to the inference service record in the database; if it does not exist, trigger the recovery module;
  • the restoration module is configured to restore the corresponding inference service according to the inference service record;
  • a judging module configured to judge whether the abnormal value corresponding to the reasoning service record reaches a preset threshold
  • the updating module is configured to update the abnormal value according to a preset increment.
  • the embodiment of the present application also provides an inference service management system of an inference platform, including:
  • a processor configured to implement the steps of the inference service management method of the inference platform as described above when executing the computer program.
  • the embodiment of the present application also provides a computer-readable storage medium, where a computer program is stored on the computer-readable storage medium, and when the computer program is executed by a processor, the inference service management method of the above-mentioned inference platform is implemented. step.
  • Embodiments of the present application provide an inference service management method, device, system, and computer-readable storage medium of an inference platform.
  • the method includes: according to an inference service record in a database, detecting whether there is an inference service record corresponding to an inference service record in a server. service; if it does not exist, restore the corresponding inference service according to the inference service record.
  • the inference service in the server is detected according to the inference service record in the database, and it is judged whether there is an inference service corresponding to the inference service record in the server. If the reasoning service is inconsistent, the corresponding reasoning service can be restored according to the reasoning service record. In the application embodiment, when the reasoning service record is inconsistent with the real reasoning service, the reasoning service can be automatically restored according to the reasoning service record. Recovery, improve the efficiency of reasoning service management, and better ensure the consistency of reasoning service records and reasoning services.
  • FIG. 1 is a schematic flowchart of an inference service management method of an inference platform provided by an embodiment of the present application
  • FIG. 2 is a schematic structural diagram of an inference service management device of an inference platform provided by an embodiment of the present application.
  • the embodiment of the present application provides an inference service management method, device, system, and computer-readable storage medium of an inference platform, which can improve the efficiency of inference service management during use and better ensure the consistency between inference service records and inference services .
  • FIG. 1 is a schematic flowchart of an inference service management method of an inference platform provided by an embodiment of the present application. The method includes:
  • the method provided in the embodiment of this application can be used for but not limited to the AIStation reasoning platform.
  • the reasoning service record in the database can be obtained after the reasoning service platform is started, and based on the reasoning service record to detect whether there is an inference service corresponding to the inference service record in the server.
  • Restoration means restoring the corresponding inference service to the server, so that the consistency between the inference service record and the inference service can be maintained.
  • the process of recovering the corresponding inference service according to the inference service record in the above S120 may specifically be:
  • the recovery process may be different for different inference service types, so the recovery process of each inference service type can be determined in advance, and the corresponding relationship between the inference service type and the recovery process can be established, and then obtained according to the current inference service record After the corresponding reasoning service type is obtained, the recovery process corresponding to the reasoning service type can be obtained according to the corresponding relationship, and then the corresponding reasoning service can be recovered according to the reasoning service record and recovery process.
  • the inference service type in this embodiment of the present application may specifically be general model, application deployment, GPU sharing, native deployment, or edge inference. Certainly, other specific types may also be used, and the specific type is not specifically limited in this embodiment of the present application.
  • the framework type is one of PyTorch, Tensorflow, Triton, sklearn, onnx, xgboost, and when the framework type is specifically PyTorch, when there is a batch processing module record, according to the batch processing module, framework type, model address and model Create a corresponding inference module by class name, or create a corresponding inference module based on the framework type, model address and model class name when there is no batch processing module record; when the framework type is specifically Tensorflow, Triton, sklearn, onnx, xgboost, Then, when there is a batch processing module record, create a corresponding reasoning module according to the batch processing module, frame type, and model address, or create a corresponding reasoning module according to the frame type and model address when there is no batch processing module record.
  • the inference service type is application deployment
  • the corresponding recovery process can be as follows:
  • the inference service type is GPU sharing
  • the corresponding recovery process can be as follows:
  • the mirror address is obtained by parsing the reasoning service record, and the instance module is created according to the mirror address;
  • the service information address is obtained by parsing the reasoning service record, and the service module is created according to the service information address;
  • the corresponding reasoning service is created according to the instance module and the service module.
  • the inference service type is native deployment
  • the corresponding recovery process can be as follows:
  • the business type includes Deployment, DaemonSet, Service, and ConfigMap.
  • the business information includes mirror address, resource, and port information;
  • the business type is Service, the business information includes the selection label, node Port, protocol, target port, and internal port information;
  • the service type is ConfigMap, the service information includes data information.
  • the corresponding recovery process can be as follows:
  • the method further includes:
  • the inference service is abnormally inconsistent, that is, the inference service is deleted due to component failure or user misoperation. At this time, the corresponding inference service needs to be restored according to the inference service record.
  • the abnormal value can specifically be the abnormal duration, that is, the detection time interval can be set, and the abnormal duration is updated each time an abnormality is detected.
  • the corresponding preset threshold is the duration threshold, so that when the abnormal duration of the inference service reaches the preset duration, It means that the inference service is not deleted by the user due to normal needs, and it needs to be restored; if the inference service record is detected this time, and the corresponding abnormal duration does not reach the preset threshold, it will not be detected in the next detection
  • the reasoning service record means that after the user deletes the reasoning service, he deletes the corresponding reasoning service record from the database; the outlier value can also be the number of abnormal detections, and the corresponding preset threshold is the preset times threshold.
  • the method may further include:
  • the abnormal value of the reasoning service record corresponding to the reasoning service can be set to 0 , so that the count will be restarted when an exception occurs next time; when the reasoning service does not exist in the server, it means that the recovery has not been successful.
  • the process of detecting whether there is an inference service corresponding to the inference service record in the server according to the inference service record in the database in the above S110 may specifically be:
  • the current inference service record it is detected whether there is an inference service corresponding to the inference service record in the server.
  • all the reasoning service records in the database can be polled, and according to the currently polled reasoning service records, it can be detected whether there is a corresponding reasoning service in the server, and if it does not exist, according to the corresponding exception
  • the value determines whether the corresponding inference service needs to be recovered, and when the corresponding inference service needs to be recovered, the recovery operation is performed.
  • the inference service in the server is detected according to the inference service record in the database, and it is judged whether there is an inference service corresponding to the inference service record in the server. If the reasoning service is inconsistent, the corresponding reasoning service can be restored according to the reasoning service record. In the application embodiment, when the reasoning service record is inconsistent with the real reasoning service, the reasoning service can be automatically restored according to the reasoning service record. Recovery, improve the efficiency of reasoning service management, and better ensure the consistency of reasoning service records and reasoning services.
  • the embodiment of the present application also provides an inference service management device of an inference platform, please refer to Figure 2 for details, the device includes:
  • the detection module 21 is used to detect whether there is an inference service corresponding to the inference service record in the server according to the inference service record in the database; if not, trigger the recovery module;
  • the restoration module 22 is used to restore the corresponding inference service according to the inference service record; wherein:
  • Analyzing and reasoning service records determine whether there is a batch processing module record, and if so, create a batch processing module; analyze and reason service records to determine whether there is a data processing module record, and if so, create a data processing module; analyze and reason service records to obtain the mirror address, When there is a batch processing module record, create a corresponding reasoning module based on the batch processing module and the mirror address, or when there is no batch processing module record, create a corresponding reasoning module based on the mirror address; when there is a data processing module record, create a corresponding reasoning module based on the reasoning Modules and data processing modules create corresponding reasoning services, or when there is no data processing module record, create corresponding reasoning services based on reasoning modules;
  • Parse the inference service records to obtain the mirror address, node name and port mapping information, and create the corresponding inference service based on the mirror address, node name and port mapping information.
  • the device may also include:
  • a judging module configured to judge whether the abnormal value corresponding to the reasoning service record reaches a preset threshold
  • trigger recovery module 22 If reached, then trigger recovery module 22; if not reached, then trigger update module;
  • the update module is used to update the abnormal value according to the preset increment.
  • the embodiment of the present application also provides an inference service management system of an inference platform, the system includes:
  • the processor is configured to implement the steps of the inference service management method of the above inference platform when executing the computer program.
  • the processor in the embodiment of the present application can be specifically used to detect whether there is an inference service corresponding to the inference service record in the server according to the inference service record in the database; The service is restored.
  • the embodiments of the present application also provide a computer-readable storage medium, on which a computer program is stored, and when the computer program is executed by a processor, the inference service management of the above-mentioned inference platform is realized. method steps.
  • the computer-readable storage medium may include: U disk, mobile hard disk, read-only memory (Read-Only Memory, ROM), random access memory (Random Access Memory, RAM), magnetic disk or optical disk, etc., which can store program codes. medium.
  • each embodiment in this specification is described in a progressive manner, each embodiment focuses on the difference from other embodiments, and the same and similar parts of each embodiment can be referred to each other.
  • the description is relatively simple, and for the related information, please refer to the description of the method part.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Facsimiles In General (AREA)

Abstract

一种推理平台的推理服务管理方法、装置、系统及介质,该方法包括:根据数据库中的推理服务记录,检测服务器中是否存在与推理服务记录对应的推理服务(S110);若不存在,则根据推理服务记录对相应的推理服务进行恢复(S120)。所述方法通过根据数据库中的推理服务记录对服务器中的推理服务进行检测,判断服务器中是否存在与该推理服务记录对应的推理服务,当不存在时,说明推理服务记录与真实的推理服务不一致,则可以根据该推理服务记录对相应的推理服务进行恢复。所述方法能够在推理服务记录与真实的推理服务不一致时,自动根据推理服务记录对推理服务进行恢复,提高推理服务管理效率,更好地保障推理服务记录与推理服务的一致性。

Description

一种推理平台的推理服务管理方法、装置、系统及介质
本申请要求在2021年6月15日提交中国专利局、申请号为202110659833.9、发明名称为“一种推理平台的推理服务管理方法、装置、系统及介质”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请实施例涉及计算机技术领域,特别是涉及一种推理平台的推理服务管理方法、装置、系统及计算机可读存储介质。
背景技术
AIStation推理平台支持多种推理服务的创建,包括多种类型,并且推理服务在创建、运行过程中,依赖于各种组件,而组件发生故障时,通常需要通过重新部署的方式来修复,重新部署组件会导致依赖于组件的推理服务被清除,此外,集群的操作、运维人员可能在服务器后台误操作,会导致推理服务被删除。
通常AIStation推理平台在推理服务创建过后,会在数据库中记录分配给推理服务的资源和推理服务参数,数据库中的推理服务记录和后端运行的推理服务存在一一对应关系。但是,由于组件发生故障或者用户在后端误操作而导致推理服务被清除时,数据库中的推理服务记录还会存在,而为了保持数据库中的推理服务记录和真实推理服务的一致性,现有技术中通过人工手动在服务器后台查看是否有推理服务被删除,且推理服务记录还保存在数据库中情况,如果有,则需要手动清空数据库中所有记录项,并删除所有的推理服务,不仅比较繁琐、耗费时间,而且一旦有不一致将所有记录项和所以推理服务删除,代价很大。
鉴于此,如何提供一种解决上述技术问题的推理平台的推理服务管理方法、装置、系统及计算机可读存储介质成为本领域技术人员需要解决的问题。
发明内容
本申请实施例的目的是提供一种推理平台的推理服务管理方法、装置、系统及计算机可读存储介质,在使用过程中能够提高推理服务管理效率,更好地保障推理服务记录与推理服务的一致性。
为解决上述技术问题,本申请实施例提供了一种推理平台的推理服务管理方法,包括:
根据数据库中的推理服务记录,检测服务器中是否存在与所述推理服务记录对应的推理服务;若不存在,则根据所述推理服务记录对相应的推理服务进行恢复;其中:
根据所述推理服务记录获取对应的推理服务类型,并依据所述推理服务记录及与所述推理服务类型对应的恢复过程对所述推理服务进行恢复;
当所述推理服务类型为通用模型,则对应的恢复过程为:
解析所述推理服务记录得到对应的框架类型、模型地址及模型类名;解析所述推理服务记录判断是否存在批量处理模块记录,若存在,则创建批量处理模块;解析所述推理服务记录判断是否存在数据处理模块记录,若存在,则创建数据处理模块;当存在所述批量处理模块记录时,根据所述批量处理模块、所述框架类型、所述模型地址及所述模型类名创建对应的推理模块,或当不存在所述批量处理模块记录时,根据所述框架类型、所述模型地址及所述模型类名创建对应的推理模块;当存在所述数据处理模块记录时,根据所述推理模块和所述数据处理模块创建对应的推理服务,或当不存在所述数据处理模块记录时,根据所述推理模块创建对应的推理服务;
当所述推理服务类型为应用部署,则对应的恢复过程为:
解析所述推理服务记录判断是否存在批量处理模块记录,若存在,则创建批量处理模块;解析所述推理服务记录判断是否存在数据处理模块记录,若存在,则创建数据处理模块;解析所述推理服务记录得到镜像地址,当存在批量处理模块记录时,根据所述批量处理模块和所述镜像地址创建对应的推理模块,或当不存在批量处理模块记录时,根据所述镜像地址创建对应的推理模块;当存在所述数据处理模块记录时,根据所述推理模块和所述数据处理模块创建对应的推理服务,或当不存在所述数据处理模块记录时,根据所述推理模块创建对应的推理服务;
当所述推理服务类型为GPU共享,则对应的恢复过程为:
解析所述推理服务记录得到镜像地址,根据所述镜像地址创建实例模块;解析所述推理服务记录得到服务信息地址,根据所述服务信息地址创建服务模块;根据所述实例模块和所述服务模块创建对应的推理服务;
当所述推理服务类型为原生部署,则对应的恢复过程为:
对所述推理服务记录进行解析,得到对应的业务类型,依据所述业务类型对推理服务进行解析,得到业务信息,并根据所述业务信息创建对应的推理服务;
当所述推理服务类型为边缘推理,则对应的恢复过程为:
对所述推理服务记录进行解析,得到镜像地址、节点名称及端口映射信息,并根据所述镜像地址、所述节点名称及所述端口映射信息,创建对应的推理服务。
可选的,在所述根据所述推理服务记录对相应的推理服务进行恢复之前,还包括:
判断与所述推理服务记录对应的异常值是否达到预设阈值;
若达到,则执行所述根据所述推理服务记录对相应的推理服务进行恢复的步骤;若未达到,则按照预设增量对所述异常值进行更新。
可选的,在所述根据所述推理服务记录对相应的推理服务进行恢复之后,还包括:
检测所述推理服务是否恢复成功,若是,则将与所述推理服务记录对应的异常值置零。
可选的,所述根据数据库中的推理服务记录,检测服务器中是否存在与所述推理服务记录对应的推理服务的过程为:
对所述数据库中的每个推理服务记录进行轮询;
根据当前的推理服务记录,检测服务器中是否存在与所述推理服务记录对应的推理服务。
本申请实施例还提供了一种推理平台的推理服务管理装置,包括:
检测模块,用于根据数据库中的推理服务记录,检测服务器中是否存在与所述推理服务记录对应的推理服务;若不存在,则触发恢复模块;
所述恢复模块,用于根据所述推理服务记录对相应的推理服务进行恢复;其中:
根据所述推理服务记录获取对应的推理服务类型,并依据所述推理服务记录及与所述推理服务类型对应的恢复过程对所述推理服务进行恢复;
当所述推理服务类型为通用模型,则对应的恢复过程为:
解析所述推理服务记录得到对应的框架类型、模型地址及模型类名;解析所述推理服务记录判断是否存在批量处理模块记录,若存在,则创建批量处理模块;解析所述推理服务记录判断是否存在数据处理模块记录,若存在,则创建数据处理模块;当存在所述批量处理模块记录时,根据所述批量处理模块、所述框架类型、所述模型地址及所述模型类名创建对应的推理模块,或当不存在所述批量处理模块记录时,根据所述框架类型、所述模型地址及所述模型类名创建对应的推理模块;当存在所述数据处理模块记录时,根据所述推理模块和所述数据处理模块创建对应的推理服务,或当不存在所述数据处理模块记录时,根据所述推理模块创建对应的推理服务;
当所述推理服务类型为应用部署,则对应的恢复过程为:
解析所述推理服务记录判断是否存在批量处理模块记录,若存在,则创建批量处理模块;解析所述推理服务记录判断是否存在数据处理模块记录,若存在,则创建数据处理模块;解析所述推理服务记录得到镜像地址,当存在批量处理模块记录时,根据所述批量处理模块和所述镜像地址创建对应的推理模块,或当不存在批量处理模块记录时,根据所述镜像地址创建对应的推理模块;当存在所述数据处理模块记录时,根据所述推理模块和所述数据处理模块创建对应的推理服务,或当不存在所述数据处理模块记录时,根据所述推理模块创建对应的推理服务;
当所述推理服务类型为GPU共享,则对应的恢复过程为:
解析所述推理服务记录得到镜像地址,根据所述镜像地址创建实例模块;解析所述推理服务记录得到服务信息地址,根据所述服务信息地址创建服务模块;根据所述实例模块和所述服务模块创建对应的推理服务;
当所述推理服务类型为原生部署,则对应的恢复过程为:
对所述推理服务记录进行解析,得到对应的业务类型,依据所述业务类型 对推理服务进行解析,得到业务信息,并根据所述业务信息创建对应的推理服务;
当所述推理服务类型为边缘推理,则对应的恢复过程为:
对所述推理服务记录进行解析,得到镜像地址、节点名称及端口映射信息,并根据所述镜像地址、所述节点名称及所述端口映射信息,创建对应的推理服务。
可选的,还包括:
判断模块,用于判断与所述推理服务记录对应的异常值是否达到预设阈值;
若达到,则触发所述恢复模块;若未达到,则触发更新模块;
所述更新模块,用于按照预设增量对所述异常值进行更新。
本申请实施例还提供了一种推理平台的推理服务管理系统,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上述所述推理平台的推理服务管理方法的步骤。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述所述推理平台的推理服务管理方法的步骤。
本申请实施例提供了一种推理平台的推理服务管理方法、装置、系统及计算机可读存储介质,该方法包括:根据数据库中的推理服务记录,检测服务器中是否存在与推理服务记录对应的推理服务;若不存在,则根据推理服务记录对相应的推理服务进行恢复。
可见,本申请实施例中通过根据数据库中的推理服务记录对服务器中的推理服务进行检测,判断服务器中是否存在与该推理服务记录对应的推理服务,当不存在时,说明推理服务记录与真实的推理服务不一致,则可以根据该推理服务记录对相应的推理服务进行恢复,本申请实施例在使用过程中能够在推理服务记录与真实的推理服务不一致时,自动根据推理服务记录对推理服务进行恢复,提高推理服务管理效率,更好地保障推理服务记录与推理服务的一致性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对现有技术和实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种推理平台的推理服务管理方法的流程示意图;
图2为本申请实施例提供的一种推理平台的推理服务管理装置的结构示意图。
具体实施方式
本申请实施例提供了一种推理平台的推理服务管理方法、装置、系统及计算机可读存储介质,在使用过程中能够提高推理服务管理效率,更好地保障推理服务记录与推理服务的一致性。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参照图1,图1为本申请实施例提供的一种推理平台的推理服务管理方法的流程示意图。该方法包括:
S110:根据数据库中的推理服务记录,检测服务器中是否存在与推理服务记录对应的推理服务;若不存在,则进入S120;
需要说明的是,本申请实施例中提供的方法具体可以用于但不仅限于用于AIStation推理平台,具体的可以在推理服务平台启动后获取对数据库中的推理服务记录,并根据该推理服务记录来检测服务器中是否存在与该推理服务记录对应的推理服务。
S120:根据推理服务记录对相应的推理服务进行恢复。
具体的,当服务器中不存在与该推理服务记录对应的推理服务时,说明此时推理服务记录与推理服务不一致,说明对应的推理服务被删除,则根据该推理服务记录对相应的推理服务进行恢复,也即将对应的推理服务恢复至服务器中,从而可以保持推理服务记录与推理服务的一致性。
进一步的,上述S120中根据推理服务记录对相应的推理服务进行恢复的过程,具体可以为:
预先建立推理服务类型与恢复过程的对应关系;
根据推理服务记录获取对应的推理服务类型;
依据推理服务记录及与推理服务类型对应的恢复过程对推理服务进行恢复。
也即,针对不同的推理服务类型,恢复过程可能不同,因此可以预先确定出每种推理服务类型的恢复过程,并且建立推理服务类型与恢复过程的对应关系,然后在根据当前的推理服务记录获取对应的推理服务类型后,即可根据对应关系得到与该推理服务类型对应的恢复过程,然后根据推理服务记录及恢复过程对相应的推理服务进行恢复。
进一步的,本申请实施例中的推理服务类型具体可以为通用模型、应用部署、GPU共享、原生部署或边缘推理。当然,还可以为其他具体的类型,具体是哪种类型,本申请实施例不做特殊限定。
需要说明的是,当推理服务类型为通用模型,则对应的恢复过程具体可以为:
解析推理服务记录得到对应的框架类型、模型地址及模型类名;解析推理服务记录判断是否存在批量处理模块记录,若存在,则创建批量处理模块;解析推理服务记录判断是否存在数据处理模块记录,若存在,则创建数据处理模块;当存在批量处理模块记录时,根据批量处理模块、框架类型、模型地址及模型类名创建对应的推理模块,或当不存在批量处理模块记录时,根据框架类型、模型地址及模型类名创建对应的推理模块;当存在数据处理模块记录时,根据推理模块和数据处理模块创建对应的推理服务,或当不存在数据处理模块记录时,根据推理模块创建对应的推理服务。也即,先根据是否存在批量处理模块记录来确定具体如何创建推理模块,然后再根据是否存在数据处理模块记 录进一步确定具体如何创建对应的推理服务。
其中,框架类型为PyTorch、Tensorflow、Triton、sklearn、onnx、xgboost中的一种,并且在框架类型具体为PyTorch时,当存在批量处理模块记录时,根据批量处理模块、框架类型、模型地址及模型类名创建对应的推理模块,或当不存在批量处理模块记录时,根据框架类型、模型地址及模型类名创建对应的推理模块;当框架类型具体为Tensorflow、Triton、sklearn、onnx、xgboost时,则当存在批量处理模块记录时,根据批量处理模块、框架类型、模型地址创建对应的推理模块,或当不存在批量处理模块记录时,根据框架类型、模型地址创建对应的推理模块。
当推理服务类型为应用部署,则对应的恢复过程具体可以为:
解析推理服务记录判断是否存在批量处理模块记录,若存在,则创建批量处理模块;解析推理服务记录判断是否存在数据处理模块,若存在,则创建数据处理模块;解析推理服务记录得到镜像地址,当存在批量处理模块记录时,根据批量处理模块和镜像地址创建对应的推理模块,或当不存在批量处理模块记录时,根据镜像地址创建对应的推理模块;当存在数据处理模块记录时,根据推理模块和数据处理模块创建对应的推理服务,或当不存在数据处理模块记录时,根据推理模块创建对应的推理服务。
当推理服务类型为GPU共享,则对应的恢复过程具体可以为:
解析推理服务记录得到镜像地址,根据镜像地址创建实例模块;解析推理服务记录得到服务信息地址,根据服务信息地址创建服务模块;根据实例模块和服务模块创建对应的推理服务。
当推理服务类型为原生部署,则对应的恢复过程具体可以为:
对推理服务记录进行解析,得到对应的业务类型;依据业务类型对推理服务进行解析,得到业务信息;根据业务信息创建对应的推理服务。
具体的,业务类型包括Deployment、DaemonSet、Service、ConfigMap,其中,当业务类型Deployment和DaemonSet时,业务信息包括镜像地址、资源、端口信息;当业务类型为Service时,则业务信息包括选择标签、节点端口、协议、目标端口、内部端口信息;当业务类型为ConfigMap时,业务信息包括数据信息。
当推理服务类型为边缘推理,则对应的恢复过程具体可以为:
对推理服务记录进行解析,得到镜像地址、节点名称及端口映射信息;根据镜像地址、节点名称及端口映射信息,创建对应的推理服务。
进一步的,在上述根据推理服务记录对相应的推理服务进行恢复之前,该方法还包括:
判断与推理服务记录对应的异常值是否达到预设阈值;
若达到,则执行根据推理服务记录对相应的推理服务进行恢复的步骤;若未达到,则按照预设增量对异常值进行更新。
需要说明的是,由于在实际应用中用户在对推理服务平台进行管理时,可能会根据需求将服务器中的推理服务主动删除,在还没有来得及将数据库中与该推理服务对应的推理服务记录进行删除时,会导致推理服务记录与推理服务的不一致,而这种不一致为正常的不一致,也即,这种不一致不是因为组件故障或用户误操作导致推理服务被删除造成的,因此认为是正常的不一致,对于这种情况可以不对推理服务进行恢复。本申请实施例中为了不对用户正常删除的推理服务进行恢复,可以设置预设阈值,在检测到服务器中不存在对应的推理服务时,可以获取与该推理服务对应的异常值,若该异常值达到预设阈值,则说明该推理服务为异常不一致,也即是由于组件故障或用户误操作导致推理服务被删除,此时需要根据推理服务记录来对相应的推理服务进行恢复。
其中,异常值具体可以为异常时长,也即可以设置检测时间间隔,每次检测到异常时更新异常时长,对应的预设阈值为时长阈值,从而可以在推理服务异常时长达到预设时长时,说明该推理服务不是用户因正常需要所删除的推理服务,则需要对其进行恢复;若本次检测到该推理服务记录,并且对应的异常时长没有达到预设阈值,下一次检测则没有检测到该推理服务记录,则说明用户在将推理服务删除后,又将相应的推理服务记录从数据库中删除;异常值具体还可以为异常检测次数,同样相应的预设阈值为预设次数阈值,在检测到推理服务记录的异常次数没有达到预设次数阈值时,可以对该推理服务记录的异常次数加一,直至异常次数达到预设次数阈值后对相应的推理服务进行恢复,或者直至检测不到该推理服务记录。具体采用哪种方式可以根据实际需要进行确定,本申请实施例不做特殊限定。
进一步的,在根据推理服务记录对相应的推理服务进行恢复之后,该方法还可以包括:
检测推理服务是否恢复成功,若是,则将与推理服务记录对应的异常值置零。
也即,在对相应的推理服务进行恢复后,可以进一步检测服务器中是否存在该推理服务,若存在则说明恢复成功,此时可以将与该推理服务对应的推理服务记录的异常值置为0,以便下一次出现异常时重新计数;当服务器中不存在该推理服务时,说明没有恢复成功,此时可以等待下一次检测,并且在下一次检测时若仍旧检测出对应的推理服务记录,则再次对相应的推理服务进行恢复。
进一步的,上述S110中根据数据库中的推理服务记录,检测服务器中是否存在与推理服务记录对应的推理服务的过程,具体可以为:
对数据库中的每个推理服务记录进行轮询;
根据当前的推理服务记录,检测服务器中是否存在与推理服务记录对应的推理服务。
也即,在实际应用中可以对数据库中的所有推理服务记录进行轮询,并根据当前轮询到的推理服务记录,检测服务器中是否存在对应的推理服务,并在不存在时根据对应的异常值确定是否需要对相应的推理服务进行恢复,并且需要对相应的推理服务进行恢复时,执行恢复操作。
可见,本申请实施例中通过根据数据库中的推理服务记录对服务器中的推理服务进行检测,判断服务器中是否存在与该推理服务记录对应的推理服务,当不存在时,说明推理服务记录与真实的推理服务不一致,则可以根据该推理服务记录对相应的推理服务进行恢复,本申请实施例在使用过程中能够在推理服务记录与真实的推理服务不一致时,自动根据推理服务记录对推理服务进行恢复,提高推理服务管理效率,更好地保障推理服务记录与推理服务的一致性。
在上述实施例的基础上,本申请实施例还提供了一种推理平台的推理服务管理装置,具体请参照图2,该装置包括:
检测模块21,用于根据数据库中的推理服务记录,检测服务器中是否存 在与推理服务记录对应的推理服务;若不存在,则触发恢复模块;
恢复模块22,用于根据推理服务记录对相应的推理服务进行恢复;其中:
根据推理服务记录获取对应的推理服务类型,并依据推理服务记录及与推理服务类型对应的恢复过程对推理服务进行恢复;
当推理服务类型为通用模型,则对应的恢复过程为:
解析推理服务记录得到对应的框架类型、模型地址及模型类名;解析推理服务记录判断是否存在批量处理模块记录,若存在,则创建批量处理模块;解析推理服务记录判断是否存在数据处理模块记录,若存在,则创建数据处理模块;当存在批量处理模块记录时,根据批量处理模块、框架类型、模型地址及模型类名创建对应的推理模块,或当不存在批量处理模块记录时,根据框架类型、模型地址及模型类名创建对应的推理模块;当存在数据处理模块记录时,根据推理模块和数据处理模块创建对应的推理服务,或当不存在数据处理模块记录时,根据推理模块创建对应的推理服务;
当推理服务类型为应用部署,则对应的恢复过程为:
解析推理服务记录判断是否存在批量处理模块记录,若存在,则创建批量处理模块;解析推理服务记录判断是否存在数据处理模块记录,若存在,则创建数据处理模块;解析推理服务记录得到镜像地址,当存在批量处理模块记录时,根据批量处理模块和镜像地址创建对应的推理模块,或当不存在批量处理模块记录时,根据镜像地址创建对应的推理模块;当存在数据处理模块记录时,根据推理模块和数据处理模块创建对应的推理服务,或当不存在数据处理模块记录时,根据推理模块创建对应的推理服务;
当推理服务类型为GPU共享,则对应的恢复过程为:
解析推理服务记录得到镜像地址,根据镜像地址创建实例模块;解析推理服务记录得到服务信息地址,根据服务信息地址创建服务模块;根据实例模块和服务模块创建对应的推理服务;
当推理服务类型为原生部署,则对应的恢复过程为:
对推理服务记录进行解析,得到对应的业务类型,依据业务类型对推理服务进行解析,得到业务信息,并根据业务信息创建对应的推理服务;
当推理服务类型为边缘推理,则对应的恢复过程为:
对推理服务记录进行解析,得到镜像地址、节点名称及端口映射信息,并根据镜像地址、节点名称及端口映射信息,创建对应的推理服务。
进一步的,该装置还可以包括:
判断模块,用于判断与推理服务记录对应的异常值是否达到预设阈值;
若达到,则触发恢复模块22;若未达到,则触发更新模块;
更新模块,用于按照预设增量对异常值进行更新。
在上述实施例的基础上,本申请实施例还提供了一种推理平台的推理服务管理系统,该系统包括:
存储器,用于存储计算机程序;
处理器,用于执行计算机程序时实现如上述推理平台的推理服务管理方法的步骤。
例如,本申请实施例中的处理器具体可以用于实现根据数据库中的推理服务记录,检测服务器中是否存在与推理服务记录对应的推理服务;若不存在,则根据推理服务记录对相应的推理服务进行恢复。
在上述实施例的基础上,本申请实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上述推理平台的推理服务管理方法的步骤。
该计算机可读存储介质可以包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗 示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其他实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (8)

  1. 一种推理平台的推理服务管理方法,其特征在于,包括:
    根据数据库中的推理服务记录,检测服务器中是否存在与所述推理服务记录对应的推理服务;若不存在,则根据所述推理服务记录对相应的推理服务进行恢复;其中:
    根据所述推理服务记录获取对应的推理服务类型,并依据所述推理服务记录及与所述推理服务类型对应的恢复过程对所述推理服务进行恢复;
    当所述推理服务类型为通用模型,则对应的恢复过程为:
    解析所述推理服务记录得到对应的框架类型、模型地址及模型类名;解析所述推理服务记录判断是否存在批量处理模块记录,若存在,则创建批量处理模块;解析所述推理服务记录判断是否存在数据处理模块记录,若存在,则创建数据处理模块;当存在所述批量处理模块记录时,根据所述批量处理模块、所述框架类型、所述模型地址及所述模型类名创建对应的推理模块,或当不存在所述批量处理模块记录时,根据所述框架类型、所述模型地址及所述模型类名创建对应的推理模块;当存在所述数据处理模块记录时,根据所述推理模块和所述数据处理模块创建对应的推理服务,或当不存在所述数据处理模块记录时,根据所述推理模块创建对应的推理服务;
    当所述推理服务类型为应用部署,则对应的恢复过程为:
    解析所述推理服务记录判断是否存在批量处理模块记录,若存在,则创建批量处理模块;解析所述推理服务记录判断是否存在数据处理模块记录,若存在,则创建数据处理模块;解析所述推理服务记录得到镜像地址,当存在批量处理模块记录时,根据所述批量处理模块和所述镜像地址创建对应的推理模块,或当不存在批量处理模块记录时,根据所述镜像地址创建对应的推理模块;当存在所述数据处理模块记录时,根据所述推理模块和所述数据处理模块创建对应的推理服务,或当不存在所述数据处理模块记录时,根据所述推理模块创建对应的推理服务;
    当所述推理服务类型为GPU共享,则对应的恢复过程为:
    解析所述推理服务记录得到镜像地址,根据所述镜像地址创建实例模块;解析所述推理服务记录得到服务信息地址,根据所述服务信息地址创建服务模 块;根据所述实例模块和所述服务模块创建对应的推理服务;
    当所述推理服务类型为原生部署,则对应的恢复过程为:
    对所述推理服务记录进行解析,得到对应的业务类型,依据所述业务类型对推理服务进行解析,得到业务信息,并根据所述业务信息创建对应的推理服务;
    当所述推理服务类型为边缘推理,则对应的恢复过程为:
    对所述推理服务记录进行解析,得到镜像地址、节点名称及端口映射信息,并根据所述镜像地址、所述节点名称及所述端口映射信息,创建对应的推理服务。
  2. 根据权利要求1所述的推理平台的推理服务管理方法,其特征在于,在所述根据所述推理服务记录对相应的推理服务进行恢复之前,还包括:
    判断与所述推理服务记录对应的异常值是否达到预设阈值;
    若达到,则执行所述根据所述推理服务记录对相应的推理服务进行恢复的步骤;若未达到,则按照预设增量对所述异常值进行更新。
  3. 根据权利要求2所述的推理平台的推理服务管理方法,其特征在于,在所述根据所述推理服务记录对相应的推理服务进行恢复之后,还包括:
    检测所述推理服务是否恢复成功,若是,则将与所述推理服务记录对应的异常值置零。
  4. 根据权利要求1所述的推理平台的推理服务管理方法,其特征在于,所述根据数据库中的推理服务记录,检测服务器中是否存在与所述推理服务记录对应的推理服务的过程为:
    对所述数据库中的每个推理服务记录进行轮询;
    根据当前的推理服务记录,检测服务器中是否存在与所述推理服务记录对应的推理服务。
  5. 一种推理平台的推理服务管理装置,其特征在于,包括:
    检测模块,用于根据数据库中的推理服务记录,检测服务器中是否存在与所述推理服务记录对应的推理服务;若不存在,则触发恢复模块;
    所述恢复模块,用于根据所述推理服务记录对相应的推理服务进行恢复;其中:
    根据所述推理服务记录获取对应的推理服务类型,并依据所述推理服务记录及与所述推理服务类型对应的恢复过程对所述推理服务进行恢复;
    当所述推理服务类型为通用模型,则对应的恢复过程为:
    解析所述推理服务记录得到对应的框架类型、模型地址及模型类名;解析所述推理服务记录判断是否存在批量处理模块记录,若存在,则创建批量处理模块;解析所述推理服务记录判断是否存在数据处理模块记录,若存在,则创建数据处理模块;当存在所述批量处理模块记录时,根据所述批量处理模块、所述框架类型、所述模型地址及所述模型类名创建对应的推理模块,或当不存在所述批量处理模块记录时,根据所述框架类型、所述模型地址及所述模型类名创建对应的推理模块;当存在所述数据处理模块记录时,根据所述推理模块和所述数据处理模块创建对应的推理服务,或当不存在所述数据处理模块记录时,根据所述推理模块创建对应的推理服务;
    当所述推理服务类型为应用部署,则对应的恢复过程为:
    解析所述推理服务记录判断是否存在批量处理模块记录,若存在,则创建批量处理模块;解析所述推理服务记录判断是否存在数据处理模块记录,若存在,则创建数据处理模块;解析所述推理服务记录得到镜像地址,当存在批量处理模块记录时,根据所述批量处理模块和所述镜像地址创建对应的推理模块,或当不存在批量处理模块记录时,根据所述镜像地址创建对应的推理模块;当存在所述数据处理模块记录时,根据所述推理模块和所述数据处理模块创建对应的推理服务,或当不存在所述数据处理模块记录时,根据所述推理模块创建对应的推理服务;
    当所述推理服务类型为GPU共享,则对应的恢复过程为:
    解析所述推理服务记录得到镜像地址,根据所述镜像地址创建实例模块;解析所述推理服务记录得到服务信息地址,根据所述服务信息地址创建服务模块;根据所述实例模块和所述服务模块创建对应的推理服务;
    当所述推理服务类型为原生部署,则对应的恢复过程为:
    对所述推理服务记录进行解析,得到对应的业务类型,依据所述业务类型对推理服务进行解析,得到业务信息,并根据所述业务信息创建对应的推理服务;
    当所述推理服务类型为边缘推理,则对应的恢复过程为:
    对所述推理服务记录进行解析,得到镜像地址、节点名称及端口映射信息,并根据所述镜像地址、所述节点名称及所述端口映射信息,创建对应的推理服务。
  6. 根据权利要求5所述的推理平台的推理服务管理装置,其特征在于,还包括:
    判断模块,用于判断与所述推理服务记录对应的异常值是否达到预设阈值;
    若达到,则触发所述恢复模块;若未达到,则触发更新模块;
    所述更新模块,用于按照预设增量对所述异常值进行更新。
  7. 一种推理平台的推理服务管理系统,其特征在于,包括:
    存储器,用于存储计算机程序;
    处理器,用于执行所述计算机程序时实现如权利要求1至4任一项所述推理平台的推理服务管理方法的步骤。
  8. 一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述推理平台的推理服务管理方法的步骤。
PCT/CN2021/121909 2021-06-15 2021-09-29 一种推理平台的推理服务管理方法、装置、系统及介质 WO2022262148A1 (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US18/271,867 US11994958B2 (en) 2021-06-15 2021-09-29 Inference service management method, apparatus and system for inference platform, and medium

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202110659833.9A CN113112023B (zh) 2021-06-15 2021-06-15 AIStation推理平台的推理服务管理方法和装置
CN202110659833.9 2021-06-15

Publications (1)

Publication Number Publication Date
WO2022262148A1 true WO2022262148A1 (zh) 2022-12-22

Family

ID=76723486

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2021/121909 WO2022262148A1 (zh) 2021-06-15 2021-09-29 一种推理平台的推理服务管理方法、装置、系统及介质

Country Status (3)

Country Link
US (1) US11994958B2 (zh)
CN (1) CN113112023B (zh)
WO (1) WO2022262148A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113112023B (zh) 2021-06-15 2021-08-31 苏州浪潮智能科技有限公司 AIStation推理平台的推理服务管理方法和装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8984536B1 (en) * 2011-08-30 2015-03-17 Emc Corporation Heterogeneous data from multiple sources
CN110808881A (zh) * 2019-11-05 2020-02-18 广州虎牙科技有限公司 模型部署方法和装置、目标监测方法和装置、设备及系统
CN111324457A (zh) * 2020-02-15 2020-06-23 苏州浪潮智能科技有限公司 一种gpu集群中发布推理服务的方法、装置、设备和介质
CN112015521A (zh) * 2020-09-30 2020-12-01 北京百度网讯科技有限公司 推理服务的配置方法、装置、电子设备及存储介质
CN112579303A (zh) * 2020-12-30 2021-03-30 苏州浪潮智能科技有限公司 一种深度学习开发平台资源的分配方法及设备
CN113112023A (zh) * 2021-06-15 2021-07-13 苏州浪潮智能科技有限公司 一种推理平台的推理服务管理方法、装置、系统及介质

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102802143B (zh) * 2011-05-26 2015-05-27 华为软件技术有限公司 一种业务恢复方法、相关装置以及系统
CN107154960B (zh) * 2016-03-02 2020-10-27 阿里巴巴集团控股有限公司 用于确定分布式存储系统的服务可用性信息的方法与设备
US11252260B2 (en) * 2017-04-17 2022-02-15 Petuum Inc Efficient peer-to-peer architecture for distributed machine learning
CN108629526B (zh) * 2018-05-28 2021-07-27 国网福建省电力有限公司 一种基于电网调度自动化系统的事故简报方法
CN109144670A (zh) * 2018-08-20 2019-01-04 郑州云海信息技术有限公司 一种资源调度方法及装置
US20200125722A1 (en) * 2018-10-18 2020-04-23 Denso International America, Inc. Systems and methods for preventing runaway execution of artificial intelligence-based programs
CN109582497B (zh) * 2018-11-19 2023-05-09 杭州信核数据科技股份有限公司 一种基于动态数据增量快速应急启动方法
JP7326903B2 (ja) * 2019-06-14 2023-08-16 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム
CN111857949B (zh) * 2020-06-30 2023-01-10 苏州浪潮智能科技有限公司 模型发布方法、装置、设备及存储介质
CN112099989A (zh) * 2020-08-28 2020-12-18 中国—东盟信息港股份有限公司 一种Kubernetes云原生应用灾备、迁移与恢复的方法
CN112291299B (zh) * 2020-09-18 2022-12-27 苏州浪潮智能科技有限公司 基于AI Station推理平台的同步方法、装置、设备及存储介质
CN112231055A (zh) * 2020-10-10 2021-01-15 苏州浪潮智能科技有限公司 一种镜像管理方法和装置
CN112214357B (zh) * 2020-10-30 2022-12-30 上海爱数信息技术股份有限公司 一种hdfs数据备份恢复系统及备份恢复方法
CN113442948B (zh) * 2021-07-09 2024-01-23 深圳元戎启行科技有限公司 基于云端推理服务的自动驾驶方法、装置和计算机设备
CN116820663A (zh) * 2022-03-22 2023-09-29 三六零科技集团有限公司 镜像构建方法、设备、存储介质及装置
CN115470061A (zh) * 2022-10-10 2022-12-13 中电云数智科技有限公司 一种分布式存储系统i/o亚健康智能检测和恢复方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8984536B1 (en) * 2011-08-30 2015-03-17 Emc Corporation Heterogeneous data from multiple sources
CN110808881A (zh) * 2019-11-05 2020-02-18 广州虎牙科技有限公司 模型部署方法和装置、目标监测方法和装置、设备及系统
CN111324457A (zh) * 2020-02-15 2020-06-23 苏州浪潮智能科技有限公司 一种gpu集群中发布推理服务的方法、装置、设备和介质
CN112015521A (zh) * 2020-09-30 2020-12-01 北京百度网讯科技有限公司 推理服务的配置方法、装置、电子设备及存储介质
CN112579303A (zh) * 2020-12-30 2021-03-30 苏州浪潮智能科技有限公司 一种深度学习开发平台资源的分配方法及设备
CN113112023A (zh) * 2021-06-15 2021-07-13 苏州浪潮智能科技有限公司 一种推理平台的推理服务管理方法、装置、系统及介质

Also Published As

Publication number Publication date
CN113112023A (zh) 2021-07-13
US20240036990A1 (en) 2024-02-01
CN113112023B (zh) 2021-08-31
US11994958B2 (en) 2024-05-28

Similar Documents

Publication Publication Date Title
US11095524B2 (en) Component detection and management using relationships
US20180211221A1 (en) Automated topology change detection and policy based provisioning and remediaton in information technology systems
WO2018059062A1 (zh) 一种网络修复方法、装置及终端
CN109325016B (zh) 数据迁移方法、装置、介质及电子设备
US8914335B2 (en) Provisioning method and system
CN107589951B (zh) 一种集群升级方法及装置
WO2018095414A1 (zh) 虚拟机故障的检测和恢复方法及装置
US20230246919A1 (en) Method and System for Locating Micro-Service Fusing Anomaly, Device and Medium
WO2012171349A1 (zh) 一种分布式自增计数的实现方法、装置及系统
WO2022262148A1 (zh) 一种推理平台的推理服务管理方法、装置、系统及介质
CN114328029B (zh) 一种应用资源的备份方法、装置、电子设备及存储介质
WO2021139322A1 (zh) 网络设备数据处理方法、装置、计算机设备和存储介质
CN114443332A (zh) 一种存储池的检测方法、装置、电子设备及存储介质
US10977113B2 (en) System and method for fault identification, logging, and remediation
CN111342986B (zh) 分布式节点管理方法及装置、分布式系统、存储介质
CN109559121B (zh) 交易路径调用异常分析方法、装置、设备及可读存储介质
CN108900337B (zh) 一种元数据服务的故障恢复方法、服务器、客户端及系统
CN106911508B (zh) Dns配置的恢复方法和装置
WO2019178839A1 (zh) 为分布式应用创建一致性快照的方法、装置和分布式系统
CN110990145A (zh) 一种分布式系统的后台任务处理机制及方法
CN107357836B (zh) 一种vnf包以及其引用的镜像文件删除方法和设备
US20160085638A1 (en) Computer system and method of identifying a failure
CN114625515A (zh) 一种任务管理方法、装置、设备及存储介质
CN111090491B (zh) 虚拟机任务状态的恢复方法、装置及电子设备
CN109101253B (zh) 云计算系统中主机的管理方法和装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21945728

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 18271867

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21945728

Country of ref document: EP

Kind code of ref document: A1