WO2023071075A1

WO2023071075A1 - 机器学习模型自动化生产线构建方法及系统

Info

Publication number: WO2023071075A1
Application number: PCT/CN2022/087218
Authority: WO
Inventors: 鄂海红; 宋美娜; 邵明岩; 刘钟允; 朱云飞; 郑云帆; 吕晓东; 魏文定
Original assignee: 北京邮电大学
Priority date: 2021-10-29
Filing date: 2022-04-15
Publication date: 2023-05-04
Also published as: CN114115857A; CN114115857B

Abstract

提供了一种机器学习模型自动化生产线构建方法及系统，其中，该方法包括：根据算子组件配置构建出算子组件，并将算子组件存入算子仓库；可视化编排读取算子仓库中的算子结构数据，将算子组件通过业务处理逻辑组合生成模型任务流；将模型任务流转换为云原生工作流引擎执行计划，并提交给容器集群执行以输出模型文件；基于模型打包，进行模型文件转换和模型推理容器镜像构建操作，将操作对应数据存入模型仓库；读取模型仓库中的模型数据并解析生成三种算子，将三种算子组件组合形成模型发布任务流以提交给容器集群执行模型发布流程。

Description

机器学习模型自动化生产线构建方法及系统

相关申请的交叉引用

本申请基于申请号为202111268941.X、申请日为2021年10月29日的中国专利申请提出，并要求该中国专利申请的优先权，该中国专利申请的全部内容在此引入本申请作为参考。

技术领域

本公开涉及人工智能技术领域，具体涉及一种机器学习模型自动化生产线构建方法及系统。

背景技术

随着人工智能的发展进入蓬勃发展期，人工智能技术已经被应用到各行各业。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。从实践的意义上来说，机器学习是一种利用数据训练出模型，然后使用模型预测的一种方法。

训练机器学习模型并不是一劳永逸的，面对不断增加的行业数据和不断变化的行业标准，需要一个机器学习模型生产线来更新训练模型。机器学习模型生产线可以固化模型训练和模型部署的步骤，达到训练新模型并将模型部署上线的目的。传统的模型生产线构建方式是纯人工的方式，通过编写多个脚本来处理原始数据，得到模型的训练数据集，再编写模型训练代码来训练模型，最后需要编写模型推理脚本来部署上线模型。传统的模型生产线构建方式需要人工配置依赖环境、手动运行脚本并收集运行结果、人工部署模型并维护模型服务，使得模型开发周期长，模型生产线的各个步骤由于耦合性太强难以升级改造，并且复用性差。人工配置环境的方式还会带来环境依赖冲突等问题。传统的模型生产线构建方式难以适应行业变化带来的模型快速迭代需求。

相关的技术方案缺少模型部署模块，并没有覆盖完整的模型生产线，即从数据源导入到模型上线完整的流程。该系统只针对深度学习模型开发生产线，缺少对一般机器学习模型的支持。该系统对生产线进行高度的封装，只提供少数几个参数选择来改变生产线，缺乏灵活性，且生产线各个步骤不可复用到其他生产线。

发明内容

本公开旨在至少在一定程度上解决相关技术中的技术问题之一。

因此，本公开实施例针对上述问题，提出一种机器学习模型自动化生产线构建方法和系统。本公开将机器学习模型生产线构建流程分为算子组件开发、算子编排、模型任务流执行、模型打包、模型发布。具体来说，首先利用容器技术将模型生产线步骤固化为算子组件，解决单机环境依赖、环境冲突问题。接着通过算子编排将多个算子组件组合形成模型任务流，模型任务流中算子可以任意组合和替换，提高模型生产线步骤的复用性。模型任务流通过云原生工作流引擎转换为云原生工作流执行计划，提交给容器集群执行得到模型文件，通过模型打包将模型封装存入模型仓库，最后将模型发布成模型应用，对外提供模型服务。这五个构建流程相互独立又紧密相连，提高了模型生产线的构建效率，同时构建而成的模型生产线能够快速训练出新的模型，缩短了模型上线的过程，提高了模型生产能力。

为此，本公开的第一个目的在于提出一种机器学习模型自动化生产线构建方法，包括：

根据算子组件配置构建出算子组件，并将所述算子组件存入算子仓库；

可视化编排读取所述算子仓库中的算子结构数据，将所述算子组件通过业务处理逻辑组合生成模型任务流；

将所述模型任务流转换为云原生工作流引擎执行计划，并提交给容器集群执行以输出模型文件；

基于模型打包，进行所述模型文件转换和模型推理容器镜像构建操作，将所述操作对应数据存入模型仓库；

读取所述模型仓库中的模型数据并解析生成三种算子，将所述三种算子组件组合形成模型发布任务流以提交给所述容器集群执行模型发布流程。

本公开实施例的机器学习模型自动化生产线构建方法，根据算子组件配置构建出算子组件，并将算子组件存入算子仓库；可视化编排读取算子仓库中的算子结构数据，将算子组件通过业务处理逻辑组合生成模型任务流；将模型任务流转换为云原生工作流引擎执行计划，并提交给容器集群执行以输出模型文件；基于模型打包，进行模型文件转换和模型推理容器镜像构建操作，将操作对应数据存入模型仓库；读取模型仓库中的模型数据并解析生成三种算子，将三种算子组件组合形成模型发布任务流以提交给容器集群执行模型发布流程。本公开通过五个相互独立又紧密相连的构建流程，提高了模型生产线的构建效率，同时构建而成的模型生产线能够快速训练出新的模型，缩短了模型上线的过程，提高了模型生产能力。

在本公开的一个实施例中，所述根据算子组件配置构建出算子组件，并将所述算子组件存入算子仓库，包括：将算子文件复制到算子专用的文件存储器中，固化算子运行使用的文件，根据算子依赖环境和基础镜像生成Dockerfile文件并提交给Docker Daemon进行算子运行镜像的构建操作，构建完成后通知Docker Daemon将算子运行镜像推送指镜像仓库，算子文件在存储库中的地址和算子运行镜像信息被写入算子组件配置中，将算子组件信息存入算子仓库中完成算子构建，根据算子组件配置，生成算子测试模板并在前端展示，提交所述算子测试模板生成单节点任务流，并转换为云原生工作流执行计划提交给容器集群执行，得到算子执行日志；其中，所述算子仓库包括文件存储器、关系型数据库和镜像仓库，分别用于存储算子代码、算子结构数据和容器镜像文件。

在本公开的一个实施例中，所述可视化编排读取所述算子仓库中的算子结构数据，将所述算子组件通过业务处理逻辑组合生成模型任务流，包括：读取目前算子仓库的算子信息，并根据算子组件的配置信息在前端任务流画布左侧算子列表中展示算子组件，将构建模型任务流需要的算子放置于中间画布中，根据算子的配置生成算子组件连接端点，算子组件上方端点作为输入端点，下方端点作为输出端点，选中算子后画布右侧是算子配置面板，依据模型生产线流程将每个算子的输入端和输出端连接，并且在每个算子的配置面板配置好相关参数完成对模型工作流的构建，构建完成后保存构建好的模型任务流。

在本公开的一个实施例中，所述方法还包括：根据特定规则为不同类型的算子生成统一格式的JSON配置文件，用户按特定顺序连接每个算子的输入端和输出端构建任务流，并根据每条连线的边和节点自动配置算子的输入设置和输出设置，在进行任务流编排时，读取并解析算子仓库中的算子结构数据，根据操作动态生成JSON格式的任务流配置，执行保存任务流操作时，前端将所述JSON格式的任务流配置发送到后端进行保存。

在本公开的一个实施例中，所述将所述模型任务流转换为云原生工作流引擎执行计划，并提交给容器集群执行，以输出模型文件，包括：将所述模型任务流结构数据进行解析和转换，生成云原生工作流执行计划，并提交给容器集群执行所述模型任务流，模型任务流执行产生的模型数据文件存于对象存储服务器：包括：执行模型任务流时，验证所述JSON格式的任务流配置，验证完成后解析所述JSON格式的模型任务流配置，并转换为云原生工作流执行计划，运行完成后从容器集群获取模型工作流各个节点的运行日志信息；其中，所述云原生工作流执行计划包括：创建运行算子组件所需的容器集群资源对象、算子运行容器输入输出文件的中转操作中的多种。

在本公开的一个实施例中，所述基于模型打包，进行所述模型文件转换和模型推理容器镜像构建操作，将所述操作对应数据存入模型仓库，包括：接收用户在前端输入的模型配置信息，通过模型打包流程进行模板化模型封装，解析所述模型配置信息进行模型文件标准化和模型推理容器镜像构建工作，将模型推理代码、数据文件和容器镜像作为模型数据存入模型仓库，所述模型仓库用于存储模型推理配置数据、模型结构数据和模型推理容器镜像文件；其中，所述模型仓库包括所述关系型数据库、对象存储服务器和镜像仓库；在所述模型打包流程中，选择模型类型，根据对应规则提供模型推理算子，在确定模型类型和模型推理算子类型后，根据特定策略为后序模型数据包提供特定数据，将所述特定数据打包成所述模型数据存入模型仓库；其中，所述特定数据包括数据包、模型转换后的文件地址和模型实例运行镜像地址。

在本公开的一个实施例中，所述读取所述模型仓库中的模型数据并解析生成三种算子，将所述三种算子组件组合形成模型发布任务流以提交给所述容器集群执行模型发布流程，包括：接收用户在前端输入的模型服务配置信息，读取所述模型仓库中的模型数据并解析生成模型部署算子，同时生成用于模型服务开放的Service配置算子和Ingress配置算子，自动编排成模型部署和模型服务开放的任务流，解析任务流生成云原生工作流执行计划并提交给容器集群执行，完成模型服务发布。

在本公开的一个实施例中，算子组件类型包括：数据读取算子、数据处理算子、模型训练算子、数据导出算子、可视化算子、模型部署算子和集群配置算子中的多种；算子组件配置信息，包括：算子文件、算子输入输出设置、算子参数设置、算子运行脚本、算子依赖环境、构建算子所需基础镜像和算子运行所需资源配置中的多种；所述算子文件包括算子运行脚本以及算子运行所需的其他文件，所述算子运行脚本是算子的运行入口，为可执行二进制文件；所述算子输入输出设置用于定义算子的数据源和数据输出位置；所述算子参数设置用于定义所述算子运行脚本执行时所需的参数。

在本公开的一个实施例中，所述读取所述模型仓库中的模型数据并解析生成三种算子，将所述三种算子组件组合形成模型发布任务流以提交给所述容器集群执行模型发布流程，还包括：云原生工作流执行计划第一节点为Ingress对象配置节点，创建Ingress对象，将请求路由到模型服务Service对象上，第二节点为Service对象配置节点，创建Service对象，将请求流量负载均衡到各个模型部署节点上，第三节点为模型部署节点，节点的配置由模型数据解析生成，其中运行容器使用模型运行镜像生成，绑定模型文件和模型推理代码文件并根据运行资源配置限制容器资源使用，第四节点为Service对象清理节点，第五节点为Service对象清理节点，将云原生工作流执行计划提交给容器集群执行，容器集群将部署模型并开发模型服务，完成模型发布流程，工作流执行运行时顺序运行前三个节点，并在第三节点等待结束信号，工作流结束时触发退出事件，利用回调机制运行第四节点和第五节点，将Service对象和Ingress对象清除。

为达上述目的，本公开第二方面实施例提出了一种机器学习模型自动化生产线构建系统，包括：

算子构建模块，用于根据算子组件配置构建出算子组件，并将所述算子组件存入算子仓库；

算子编排模块，用于可视化编排读取所述算子仓库中的算子结构数据，将所述算子组件通过业务处理逻辑组合生成模型任务流；

模型任务流模块，用于将所述模型任务流转换为云原生工作流引擎执行计划，并提交给容器集群执行以输出模型文件；

模型打包模块，用于基于模型打包，进行所述模型文件转换和模型推理容器镜像构建操作，将所述操作对应数据存入模型仓库；

模型发布模块，用于读取所述模型仓库中的模型数据并解析生成三种算子，将所述三种算子组件组合形成模型发布任务流以提交给所述容器集群执行模型发布流程。

本公开实施例的机器学习模型自动化生产线构建系统，算子构建模块，用于根据算子组件配置构建出算子组件，并将算子组件存入算子仓库；算子编排模块，用于可视化编排读取算子仓库中的算子结构数据，将算子组件通过业务处理逻辑组合生成模型任务流；模型任务流模块，用于将模型任务流转换为云原生工作流引擎执行计划，并提交给容器集群执行以输出模型文件；模型打包模块，用于基于模型打包，进行模型文件转换和模型推理容器镜像构建操作，将操作对应数据存入模型仓库；模型发布模块，用于读取模型仓库中的模型数据并解析生成三种算子，将三种算子组件组合形成模型发布任务流以提交给容器集群执行模型发布流程。本公开通过五个相互独立又紧密相连的构建流程，提高了模型生产线的构建效率，同时构建而成的模型生产线能够快速训练出新的模型，缩短了模型上线的过程，提高了模型生产能力。

为达上述目的，本公开第三方面实施例提出了一种非临时性计算机可读存储介质，其中所述非临时性计算机可读存储介质存储有计算机可执行指令；所述计算机可执行指令被处理器执行后，能够实现本公开第一方面所述的方法。

为达上述目的，本公开第四方面实施例提出了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现如本公开第一方面所述的方法。

为达上述目的，本公开第五方面实施例提出了一种计算机程序产品，其中，所述计算机程序产品中包括计算机程序代码，当所述计算机程序代码在计算机上运行时，实现如本公开第一方面所述的方法。

为达上述目的，本公开第六方面实施例提出了一种计算机程序，其中，所述计算机程序包括计算机程序代码，当所述计算机程序代码在计算机上运行时，使得计算机执行如本公开第一方面所述的方法。

本公开附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本公开的实践了解到。

附图说明

本公开上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本公开实施例所提供的机器学习模型自动化生产线构建方法的流程图；

图2为本公开实施例所提供的机器学习模型自动化生产线构建示意图；

图3为本公开实施例所提供的算子构建流程示意图；

图4为本公开实施例所提供的算子编排及模型任务流执行流程示意图；

图5为本公开实施例所提供的模型打包及模型发布流程示意图；

图6为本公开实施例所提供的机器学习模型自动化生产线构建系统结构示意图。

具体实施方式

下面详细描述本公开的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本公开，而不能理解为对本公开的限制。

下面参照附图描述根据本公开实施例提出的机器学习模型自动化生产线构建方法及系统，首先将参照附图描述根据本公开实施例提出的机器学习模型自动化生产线构建方法。

图1是本公开一个实施例的机器学习模型自动化生产线构建方法流程图。

如图1所示，该机器学习模型自动化生产线构建方法包括以下步骤：

步骤S1，根据算子组件配置构建出算子组件，并将算子组件存入算子仓库。

具体的，算子构建主要是提供算子开发功能，接收用户在前端输入的算子配置信息，通过解析算子配置形成算子运行镜像构建文件，提交给Docker Daemon进行镜像构建，构建完成后将镜像信息和算子配置一同作为算子结构数据，存入算子仓库。算子仓库包括文件存储器、关系型数据库和镜像仓库，分别用于存储算子代码、算子结构数据和容器镜像文件。同时算子构建提供算子测试功能，能够解析算子输入输出配置，生成测试模板，填写测试模板提交给系统进行算子测试，得到算子运行结果。

作为一种示例，如图2所示，本公开目的是通过该方法能够高效设计出一条机器学习模型(含各类AI模型)开发的自动化生产线。在本公开实施例的方法中，将模型应用开发流程拆解为算子构建、算子编排、模型任务流执行、模型打包、模型发布。

可以理解的是，算子构建流程主要根据算子组件配置构建出算子组件并存入算子仓库，算子组件是对机器学习模型生产线其中一个步骤的抽象，算子组件可以在一定逻辑下自由组合，能够提高机器学习模型生产线的复用性，比如数据库数据读取算子、模型训练算子在不同的机器学习训练场景下均可使用，只需调整对应SQL语句或者模型训练超参数即可。同时算子组件利用容器技术将依赖环境打包为容器镜像，解决应用及脚本运行环境配置繁琐、软件包冲突等问题。构建完成的算子可以根据配置生成测试模板，通过填写测试模块并提交给系统测试来保证算子的可靠性。

步骤S2，可视化编排读取算子仓库中的算子结构数据，将算子组件通过业务处理逻辑组合生成模型任务流。

具体的，算子编排主要提供算子可视化编排功能，通过读取算子仓库中的算子结构数据，解析后形成前端可视化节点，用户可以使用拖拽方式将算子的输入输出端相连，形成模型任务流。每个算子的参数和使用资源都是可配置的。模型任务流可以配置执行周期，失败重试次数等等配置。模型任务流结构数据保存后存入关系型数据库。

作为一种示例，如图2所示，算子编排流程就是将算子组件通过业务处理逻辑组合而成模型任务流，由于算子组件有明确的输入输出和执行过程，因此能够提高模型任务流的构建效率。模型任务流包括从数据输入、数据处理、模型训练和数据导出(包括模型数据)完整的模型训练流程，用于固化模型应用开发流程中生产模型的流程。

步骤S3，将模型任务流转换为云原生工作流引擎执行计划，并提交给容器集群执行以输出模型文件。

具体的，模型任务流主要提供模型任务流结构数据的解析和转换功能，用于生成云原生工作流执行计划，并提交给容器集群执行模型任务流。模型任务流执行产生的模型数据文件存于对象存储服务器。

作为一种示例，如图2所示，模型任务流执行流程中，首先将模型任务流转换为云原生工作流引擎执行计划，然后提交给容器集群执行，每个算子组件作为一个容器运行，每个算子运行容器使用的资源都是具体限制的，提高集群资源的利用效率。

步骤S4，基于模型打包，进行模型文件转换和模型推理容器镜像构建操作，将操作对应数据存入模型仓库。

具体的，模型打包提供模板化模型构建功能，接收用户在前端输入的模型配置信息，通过解析模型配置信息进行模型文件标准化(例如ONNX转换等)和模型推理容器镜像构建工作，最后将模型推理代码、模型数据文件、模型容器镜像作为模型数据存入模型仓库。模型仓库包括关系型数据库服务器、对象存储服务器和镜像仓库，用于存储模型推理配置数据、模型结构数据和模型推理容器镜像文件。

作为一种示例，如图2所示，模型任务流执行完毕后输出模型文件，通过模型打包模块进行模板化模型封装，进行模型文件转换和模型运行依赖环境打包成容器镜像等操作，最后连同模型推理代码、模型推理配置打包成模型数据包存入模型仓库。

步骤S5，读取模型仓库中的模型数据并解析生成三种算子，将三种算子组件组合形成模型发布任务流以提交给容器集群执行模型发布流程。

具体的，模型发布提供模型部署和模型服务开放功能。通过接收用户在前端输入的模型服务配置信息，读取模型仓库中的模型数据并解析生成模型部署算子，同时生成用于模型服务开放的Service配置算子和Ingress配置算子，自动编排成模型部署和模型服务开放的任务流，解析任务流生成云原生工作流执行计划并提交给容器集群执行，完成模型服务发布。利用退出事件触发回调机制，自动清理容器集群Service和Ingress配置，防止资源耗尽。

作为一种示例，如图2所示，模型发布流程将模型部署和模型服务开放抽象为三种算子组件，包括模型实例部署算子、Service配置算子、Ingress配置算子。模型打包能够方便模型实例部署算子读取模型数据和运行模型部署容器，Service配置算子用于创建Service资源对象，可以为一组模型部署容器中的模型应用提供一个统一的入口地址，并且将请求进行负载分发到各个模型应用上，同时Ingress配置算子用于创建Ingress资源对象，实现从外部对容器集群中的特定模型应用服务的访问。三种算子组件组合形成模型发布任务流后转换为云原生工作流引擎执行计划，然后提交给容器集群执行模型发布流程。通过模型发布任务流可以提高模型发布的效率，同时利用工作流退出事件触发回调机制，自动清理容器集群Service和Ingress配置，可以防止容器集群资源耗尽。

下面结合附图对本公开实施例做进一步阐述。

作为一种示例，如图3所示，算子构建流程中，算子组件是对机器学习模型生产线步骤的一个抽象，同时实例化后也是任务流中的一个运行节点。算子组件类型包括数据读取算子、数据处理算子、模型训练算子、数据导出算子、可视化算子、模型部署算子、集群配置算子等类型。每个算子拥有固定的输入输出和运行镜像，可以调整参数和运行资源。

构建算子首先需要用户在前端填写算子组件配置信息，包括算子文件、算子输入输出设置、算子参数设置、算子运行脚本、算子依赖环境、构建算子所需基础镜像、算子运行所需资源配置。具体来说，算子文件包括算子运行脚本以及算子运行所需的其他文件，算子运行脚本是算子的运行入口，算子运行脚本可以是Python脚本、Shell脚本或者其他可执行二进制文件；算子输入输出设置用于定义算子的数据源和数据输出位置，算子可以有多个输入输出。具体来说，算子输入可以来源其他算子、本地文件或者外部数据库等，算子输出位置可以是其他算子或者外部数据库等；算子依赖环境和基础镜像用于构建算子运行镜像达到固化算子运行环境的作用；算子参数设置用于定义算子运行脚本执行时所需的参数；算子运行所需资源配置定义算子运行时使用的资源下限，防止算子因缺少资源而运行异常。接着，解析算子组件配置信息执行固化算子文件数据和算子运行镜像构建操作。具体来说，系统先将算子文件复制到算子专用的文件存储器中，用于固化算子运行使用的文件以保证算子运行的稳定性。文件存储器可以使用对象存储或者网络文件系统等方式实现。接着系统再根据算子依赖环境和基础镜像生成Dockerfile文件并提交给Docker Daemon进行算子运行镜像的构建操作，构建完成后通知Docker Daemon将算子运行镜像推送指镜像仓库。最后，算子文件在存储库中的地址和算子运行镜像信息被写入算子组件配置中，系统将算子组件信息存入算子仓库中完成算子构建。

根据算子组件配置，系统可以生成算子测试模板并在前端展示。具体来说，针对算子输入可以使用外部数据库和本地文件两种方式输入，算子输出可以使用外部数据库的方式，算子参数和算子运行资源都是可以在前端更改。提交测试模板后系统会生成单节点任务流，并转换为云原生工作流执行计划提交给容器集群执行，最后得到算子执行日志，用于检查算子的正确性和可靠性。

作为一种示例，如图4所示，算子编排及模型任务流执行流程中，机器学习训练过程可以抽象为多个算子组件在一定逻辑下组合编排而成的模型工作流，模型工作流一般包括从数据导入算子开始，经过数据处理算子，再输入模型训练算子，最后输出到数据导出算子或者可视化算子中。通过编排组合算子可以达到快速构建机器学习训练生产线的目的。同时模型工作流经过模型工作流模块解析，生成云原生工作流执行计划提交给容器集群执行，能够充分利用容器技术和容器编排技术，提升服务器资源利用率。

算子编排子流程用于将算子通过一定的逻辑相互连接形成模型任务流。首先，系统会读取目前算子仓库的算子信息，并根据算子组件的配置信息在前端任务流画布左侧算子列表中展示算子组件。用户通过拖拽的方式将构建模型任务流需要的算子放置于中间画布中。算子在画布中是一个长方块，系统根据算子的配置生成算子组件连接端点，算子组件上方端点作为输入端点，下方端点作为输出端点。具体来说，只有输入输出设置中选择输入输出到算子前端才会展现对应端点，并且一个输出端点可以输出到多个输入端点，而一个输入端点只能连接一个输出端点。选中算子后画布右侧是算子配置面板，包括算子的输入设置、输出设置、参数设置和运行资源设置。用户依据模型生产线流程将每个算子的输入端和输出端连接，并且在每个算子的配置面板配置好相关参数就完成对模型工作流的构建，同时模型任务流本身可以配置执行周期，失败重试次数等参数。构建完成后用户可以保存构建好的模型任务流，便于后续更改和运行。为了实现以上功能，本系统设计了一套规则，该规则可为不同类型的算子生成统一格式的JSON配置文件。用户按一定顺序连接每个算子的输入端和输出端来构建任务流，系统会根据每条连线的边和节点自动配置算子的输入设置和输出设置。用户通过拖拽的方式进行任务流编排时，系统会读取并解析算子仓库中的算子结构数据，根据用户的操作动态生成JSON格式的任务流配置。用户执行保存任务流操作时，前端将该JSON格式的任务流配置发送到系统后端进行保存。

模型任务流执行流程用于解析模型任务流结构数据，生成云原生工作流执行计划，并提交给容器集群执行模型任务流。执行模型任务流时，首先验证JSON格式的任务流配置。具体来说，检查算子输入输出设置是否合法，运行脚本参数是否合法，运行资源配置是否符合预期等操作。接着解析JSON格式的模型任务流配置，并转换为云原生工作流执行计划，云原生工作流执行计划包括创建运行算子组件所需的Kubernetes容器集群资源对象、算子运行容器输入输出文件的中转操作等。举例来说，可以将模型任务流转换为Yaml格式的云原生工作流引擎Argo Workflow的Workflow对象，每个算子被设计为一个Template对象，根据算子输入输出配置生成Input Artifact和Output Artifact，根据算子运行镜像设置Container的image参数，根据算子运行脚本和参数配置设置Container的command参数和args参数，根据算子依赖环境中的环境变量配置设置Container的env参数，根据算子运行资源配置Container的resources参数，根据算子文件在存储库中的地址生成Input Artifact，用于将算子文件放入Container的工作目录中。Workflow设置一个Main Template作为入口，算子之间的执行顺序经过解析后转换为Template Dag中的配置，每个Dag中的Step对应一个算子的Template。构建完成后将Workflow对象提交给云原生工作流引擎Argo Workflow执行，云原生工作流引擎Argo Workflow生成云原生工作流执行计划并提交给容器集群Kubernetes，容器集群执行模型工作流得到运行结果。对于解析JSON格式的模型任务流配置，并转换为云原生工作流执行计划这个步骤，可以使用Argo Workflow之外的云原生工作流引擎或者云原生工作流生成工具，此处只是做一个举例。运行完成后系统从容器集群获取模型工作流各个节点的运行日志信息，同时模型工作流产生的模型文件可以存储于外部数据库，供模型打包流程使用。

作为一种示例，如图5所示，机器学习模型训练完成后需要进行部署才能提供模型应用服务，本公开实施例将模型应用服务生产过程分为模型打包和模型发布两个子流程。

模型打包子流程提供对各种机器学习框架(包括深度学习框架)产生的模型进行适配各类主流模型推理框架的功能，将模型文件、模型依赖环境以及模型推理代码封装打包成模型数据包，提供给模型发布环境使用。在模型打包子流程中，首先需要选择模型类型，包括但不限于PyTorch模型、TensorFlow模型、Caffe模型、XGBoost模型和Scikit-learn模型等。接着，根据对应规则来提供可用的模型推理算子，模型推理算子包括模板化推理代码以及对应的基础运行镜像。包括但不限于PyTorch模型可以使用Torchserve模型部署算子、使用TensorRT模型部署算子、使用Flask模型部署算子，XGBoost模型、Scikit-learn模型可以使用对应的Flask模型部署算子等，具体如图5所示。确定模型类型和模型推理算子类型后，根据一定策略来提供后序模型数据包需要的数据。具体来说，模型数据一般需要模型文件、模型推理代码、模型依赖环境和模型推理配置，模型文件是用于描述模型结构和模型参数的文件，模型推理代码用于对模型推理前处理和后处理代码的描述，模型依赖环境包括前处理和后处理用到的运行环境配置或者软件包，模型推理配置包括模型实例最低运行资源量以及推理框架超参数等。举例来说，使用TorchServe模型部署算子部署PyTorch模型，需要提供PyTorch模型序列化文件、处理程序Handler以及Handler运行所需的软件包名称，同时需要配置模型实例运行资源。接着，进行模型转换和模型运行镜像构建工作。针对模型转换工作，举例来说，PyTorch模型使用TensorRT进行推理部署需要先转换为ONNX格式的模型。针对模型运行镜像构建工作，可以根据模型依赖环境生成具体运行镜像。最后，将包括数据包、模型转换后的文件地址、模型实例运行镜像地址打包成模型数据存入模型仓库。

模型发布流程设计为一条模型部署生产线，由模型部署算子、Service配置算子、Ingress配置算子组合而成。首先从模型仓库中选择需要部署的模型，同时设置好模型实例数、模型实例运行资源量(不低于最低运行资源量)，接着构建模型部署生产线使用的云原生工作流执行计划。具体来说，云原生工作流执行计划第一节点为Ingress对象配置节点，节点会创建一个Ingress对象，用于将请求路由到模型服务Service对象上。第二节点为Service对象配置节点，节点会创建一个Service对象，用于将请求流量负载均衡到各个模型部署节点上。第三节点为模型部署节点，节点数量与配置的模型实例数一致，节点的配置由模型数据解析生成，其中运行容器使用模型运行镜像生成，绑定模型文件和模型推理代码文件并根据运行资源配置限制容器资源使用。第四节点为Service对象清理节点。第五节点为Service对象清理节点。最后将云原生工作流执行计划提交给容器集群执行，容器集群将部署模型并开发模型服务，完成模型发布流程。工作流执行运行时顺序运行前三个节点，并在第三节点等待结束信号，此时模型实例可以提供模型推理服务。工作流结束时触发退出事件，利用回调机制运行第四节点和第五节点，用于将Service对象和Ingress对象清除，回收集群资源，保证集群资源不会耗尽。

下面将参照附图描述根据本公开实施例提出的机器学习模型自动化生产线构建系统。

如图6所示，该系统10包括：算子构建模块100、算子编排模块200、模型任务流模块300、模型打包模块400和模型发布模块500。

算子构建模块100，用于根据算子组件配置构建出算子组件，并将算子组件存入算子仓库；

算子编排模块200，用于可视化编排读取算子仓库中的算子结构数据，将算子组件通过业务处理逻辑组合生成模型任务流；

模型任务流模块300，用于将模型任务流转换为云原生工作流引擎执行计划，并提交给容器集群执行以输出模型文件；

模型打包模块400，用于基于模型打包，进行模型文件转换和模型推理容器镜像构建操作，将操作对应数据存入模型仓库；

模型发布模块500，用于读取模型仓库中的模型数据并解析生成三种算子，将三种算子组件组合形成模型发布任务流以提交给容器集群执行模型发布流程。

根据本公开实施例的机器学习模型自动化生产线构建系统，通过算子构建模块，用于根据算子组件配置构建出算子组件，并将算子组件存入算子仓库；算子编排模块，用于可视化编排读取算子仓库中的算子结构数据，将算子组件通过业务处理逻辑组合生成模型任务流；模型任务流模块，用于将模型任务流转换为云原生工作流引擎执行计划，并提交给容器集群执行以输出模型文件；模型打包模块，用于基于模型打包，进行模型文件转换和模型推理容器镜像构建操作，将操作对应数据存入模型仓库；模型发布模块，用于读取模型仓库中的模型数据并解析生成三种算子，将三种算子组件组合形成模型发布任务流以提交给容器集群执行模型发布流程。本公开通过五个相互独立又紧密相连的构建流程，提高了模型生产线的构建效率，同时构建而成的模型生产线能够快速训练出新的模型，缩短了模型上线的过程，提高了模型生产能力。

需要说明的是，前述对机器学习模型自动化生产线构建方法实施例的解释说明也适用于该实施例的机器学习模型自动化生产线构建装置，此处不再赘述。

为了实现上述实施例，本公开还提出了一种非临时性计算机可读存储介质，其中所述非临时性计算机可读存储介质存储有计算机可执行指令；所述计算机可执行指令被处理器执行后，能够实现前述机器学习模型自动化生产线构建的方法。

为了实现上述实施例，本公开还提出了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现前述机器学习模型自动化生产线构建的方法。

为了实现上述实施例，本公开还提出了一种计算机程序产品，其中所述计算机程序产品中包括计算机程序代码，当所述计算机程序代码在计算机上运行时，实现前述机器学习模型自动化生产线构建的方法。

为了实现上述实施例，本公开还提出了一种计算机程序，其中所述计算机程序包括计算机程序代码，当所述计算机程序代码在计算机上运行时，使得计算机执行前述机器学习模型自动化生产线构建的方法。

需要说明的是，前述对机器学习模型自动化生产线构建方法实施例的解释说明也适用于上述实施例中的非临时性计算机可读存储介质、电子设备、计算机程序产品和计算机程序，此处不再赘述。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本公开的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本公开的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本公开的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本公开的限制，本领域的普通技术人员在本公开的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

一种机器学习模型自动化生产线构建方法，其特征在于，包括以下步骤：

根据算子组件配置构建出算子组件，并将所述算子组件存入算子仓库；

可视化编排读取所述算子仓库中的算子结构数据，将所述算子组件通过业务处理逻辑组合生成模型任务流；

将所述模型任务流转换为云原生工作流引擎执行计划，并提交给容器集群执行以输出模型文件；

基于模型打包，进行所述模型文件转换和模型推理容器镜像构建操作，将所述操作对应数据存入模型仓库；

读取所述模型仓库中的模型数据并解析生成三种算子，将所述三种算子组件组合形成模型发布任务流以提交给所述容器集群执行模型发布流程。
根据权利要求1所述的机器学习模型自动化生产线构建方法，其特征在于，所述根据算子组件配置构建出算子组件，并将所述算子组件存入算子仓库，包括：

将算子文件复制到算子专用的文件存储器中，固化算子运行使用的文件，根据算子依赖环境和基础镜像生成Dockerfile文件并提交给Docker Daemon进行算子运行镜像的构建操作，构建完成后通知Docker Daemon将算子运行镜像推送指镜像仓库，算子文件在存储库中的地址和算子运行镜像信息被写入算子组件配置中，将算子组件信息存入算子仓库中完成算子构建，根据算子组件配置，生成算子测试模板并在前端展示，提交所述算子测试模板生成单节点任务流，并转换为云原生工作流执行计划提交给容器集群执行，得到算子执行日志；其中，所述算子仓库包括文件存储器、关系型数据库和镜像仓库，分别用于存储算子代码、算子结构数据和容器镜像文件。
根据权利要求1或2所述的机器学习模型自动化生产线构建方法，其特征在于，所述可视化编排读取所述算子仓库中的算子结构数据，将所述算子组件通过业务处理逻辑组合生成模型任务流，包括：

读取目前算子仓库的算子信息，并根据算子组件的配置信息在前端任务流画布左侧算子列表中展示算子组件，将构建模型任务流需要的算子放置于中间画布中，根据算子的配置生成算子组件连接端点，算子组件上方端点作为输入端点，下方端点作为输出端点，选中算子后画布右侧是算子配置面板，依据模型生产线流程将每个算子的输入端和输出端连接，并且在每个算子的配置面板配置好相关参数完成对模型工作流的构建，构建完成后保存构建好的模型任务流。
根据权利要求1至3中任一项所述的机器学习模型自动化生产线构建方法，其特征在于，所述方法还包括：根据特定规则为不同类型的算子生成统一格式的JSON配置文件，用户按特定顺序连接每个算子的输入端和输出端构建任务流，并根据每条连线的边和节点自动配置算子的输入设置和输出设置，在进行任务流编排时，读取并解析算子仓库中的算子结构数据，根据操作动态生成JSON格式的任务流配置，执行保存任务流操作时，前端将所述JSON格式的任务流配置发送到后端进行保存。
根据权利要求1至4中任一项所述的机器学习模型自动化生产线构建方法，其特征在于，所述将所述模型任务流转换为云原生工作流引擎执行计划，并提交给容器集群执行，以输出模型文件，包括：

将所述模型任务流结构数据进行解析和转换，生成云原生工作流执行计划，并提交给容器集群执行所述模型任务流，模型任务流执行产生的模型数据文件存于对象存储服务器：包括：执行模型任务流时，验证所述JSON格式的任务流配置，验证完成后解析所述JSON格式的模型任务流配置，并转换为云原生工作流执行计划，运行完成后从容器集群获取模型工作流各个节点的运行日志信息；其中，所述云原生工作流执行计划包括：创建运行算子组件所需的容器集群资源对象、算子运行容器输入输出文件的中转操作中的多种。
根据权利要求1至5中任一项所述的机器学习模型自动化生产线构建方法，其特征在于，所述基于模型打包，进行所述模型文件转换和模型推理容器镜像构建操作，将所述操作对应数据存入模型仓库，包括：

接收用户在前端输入的模型配置信息，通过模型打包流程进行模板化模型封装，解析所述模型配置信息进行模型文件标准化和模型推理容器镜像构建工作，将模型推理代码、数据文件和容器镜像作为模型数据存入模型仓库，所述模型仓库用于存储模型推理配置数据、模型结构数据和模型推理容器镜像文件；其中，所述模型仓库包括所述关系型数据库、对象存储服务器和镜像仓库；

在所述模型打包流程中，选择模型类型，根据对应规则提供模型推理算子，在确定模型类型和模型推理算子类型后，根据特定策略为后序模型数据包提供特定数据，将所述特定数据打包成所述模型数据存入模型仓库；其中，所述特定数据包括数据包、模型转换后的文件地址和模型实例运行镜像地址。
根据权利要求1至6中任一项所述的机器学习模型自动化生产线构建方法，其特征在于，所述读取所述模型仓库中的模型数据并解析生成三种算子，将所述三种算子组件组合形成模型发布任务流以提交给所述容器集群执行模型发布流程，包括：

接收用户在前端输入的模型服务配置信息，读取所述模型仓库中的模型数据并解析生成模型部署算子，同时生成用于模型服务开放的Service配置算子和Ingress配置算子，自动编排成模型部署和模型服务开放的任务流，解析任务流生成云原生工作流执行计划并提交给容器集群执行，完成模型服务发布。
根据权利要求2所述的机器学习模型自动化生产线构建方法，其特征在于，算子组件类型包括：数据读取算子、数据处理算子、模型训练算子、数据导出算子、可视化算子、模型部署算子和集群配置算子中的多种；算子组件配置信息，包括：算子文件、算子输入输出设置、算子参数设置、算子运行脚本、算子依赖环境、构建算子所需基础镜像和算子运行所需资源配置中的多种；所述算子文件包括算子运行脚本以及算子运行所需的其他文件，所述算子运行脚本是算子的运行入口，为可执行二进制文件；所述算子输入输出设置用于定义算子的数据源和数据输出位置；所述算子参数设置用于定义所述算子运行脚本执行时所需的参数。
根据权利要求4所述的机器学习模型自动化生产线构建方法，其特征在于，所述读取所述模型仓库中的模型数据并解析生成三种算子，将所述三种算子组件组合形成模型发布任务流以提交给所述容器集群执行模型发布流程，还包括：

云原生工作流执行计划第一节点为Ingress对象配置节点，创建Ingress对象，将请求路由到模型服务Service对象上，第二节点为Service对象配置节点，创建Service对象，将请求流量负载均衡到各个模型部署节点上，第三节点为模型部署节点，节点的配置由模型数据解析生成，其中运行容器使用模型运行镜像生成，绑定模型文件和模型推理代码文件并根据运行资源配置限制容器资源使用，第四节点为Service对象清理节点，第五节点为Service对象清理节点，将云原生工作流执行计划提交给容器集群执行，容器集群将部署模型并开发模型服务，完成模型发布流程，工作流执行运行时顺序运行前三个节点，并在第三节点等待结束信号，工作流结束时触发退出事件，利用回调机制运行第四节点和第五节点，将Service对象和Ingress对象清除。
一种机器学习模型自动化生产线构建系统，其特征在于，包括：

算子构建模块，用于根据算子组件配置构建出算子组件，并将所述算子组件存入算子仓库；

算子编排模块，用于可视化编排读取所述算子仓库中的算子结构数据，将所述算子组件通过业务处理逻辑组合生成模型任务流；

模型任务流模块，用于将所述模型任务流转换为云原生工作流引擎执行计划，并提交给容器集群执行以输出模型文件；

模型打包模块，用于基于模型打包，进行所述模型文件转换和模型推理容器镜像构建操作，将所述操作对应数据存入模型仓库；

模型发布模块，用于读取所述模型仓库中的模型数据并解析生成三种算子，将所述三种算子组件组合形成模型发布任务流以提交给所述容器集群执行模型发布流程。
一种非临时性计算机可读存储介质，其特征在于，所述非临时性计算机可读存储介质存储有计算机可执行指令；所述计算机可执行指令被处理器执行后，能够实现权利要求1至9中任一项所述的方法。
一种电子设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现如权利要求1至9中任一项所述的方法。
一种计算机程序产品，其特征在于，所述计算机程序产品中包括计算机程序代码，当所述计算机程序代码在计算机上运行时，实现如权利要求1至9中任一项所述的方法。
一种计算机程序，其特征在于，所述计算机程序包括计算机程序代码，当所述计算机程序代码在计算机上运行时，使得计算机执行如权利要求1至9中任一项所述的方法。