WO2020238415A1

WO2020238415A1 - 一种监控模型训练的方法及装置

Info

Publication number: WO2020238415A1
Application number: PCT/CN2020/083364
Authority: WO
Inventors: 周可; 刘俊杰; 邸帅; 卢道和
Original assignee: 深圳前海微众银行股份有限公司
Priority date: 2019-05-29
Filing date: 2020-04-03
Publication date: 2020-12-03
Also published as: CN110175679A

Abstract

一种监控模型训练的方法及装置，其中方法包括：接收机器学习平台中的至少一个节点分别上报的监控信息(201)，并根据所述至少一个节点分别对应的监控信息确定监控指标以及所述监控指标对应的信息(202)；进一步地，若确定所述监控指标对应的信息触发所述监控指标对应的告警规则，则执行告警(203)。该方法通过至少一个节点上报监控信息，可以及时获取至少一个节点的状态，并可以节省流量；且，通过至少一个节点的监控信息得到监控指标对应的信息，可以实现对机器学习平台执行一个或多个模型训练任务的整个流程进行监控，并可以根据执行的结果进行报警，便于运维人员及时进行维护工作，保证金融领域的正常运行。

Description

一种监控模型训练的方法及装置

相关申请的交叉引用

本申请要求在2019年05月29日提交中国专利局、申请号为201910458041.8、申请名称为“一种监控模型训练的方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明涉及金融科技(Fintech)技术领域，尤其涉及一种监控模型训练的方法及装置。

背景技术

随着计算机技术的发展，越来越多的技术应用在金融领域，传统金融业正在逐步向金融科技(Fintech)转变，然而，由于金融行业具有安全性和实时性的要求，从而也对技术提出了更高的要求。以银行为例，银行每天都会涉及到大量的客户和交易，因此银行在一段时间内可能会产生上亿条数据，这些数据可以包括客户的身份数据、账单数据、交易数据、转账记录数据等等。通常来说，金融科技领域中可以采用机器学习模型来维护这些数据，相比于手工维护的方式来说，机器学习模型维护数据可以解放劳动力，提高生产率；举例来说，通过手工维护的方式审查1.2万份年度商业信贷协议至少需要36万工时，而采用机器学习模型则可以在几个工时内完成对相同数量的协议的审核。由此可知，将机器学习模型应用在金融科技领域，可以保证金融行业的正常运行。

现阶段，用户可以通过开源的机器学习平台训练得到机器学习模型，机器学习平台中设置有训练模型的通用算法，因此用户只需在机器学习平台上输入训练数据即可得到机器学习模型，而模型训练的过程则是在机器学习平台的内部自行执行的。然而，用户更倾向于可以时刻监控机器学习平台训练模型的过程；如此，用户可以及时获取模型训练的状态，保证金融行业的正常运行；比如，若发现某一个模型在训练的过程中出现问题，则用户可以及时进行矫正，避免训练得到的模型过于不准确；又比如，若发现一段时间内某个部门训练了多个相同的模型，则可以对该部门的业务进行审查，避免由于重大的业务失误造成的损失。

综上，目前亟需一种监控模型训练的方法，用以实现对机器学习平台训练模型的过程进行监控。

发明内容

本发明实施例提供一种监控模型训练的方法及装置，用以实现对机器学习平台训练模型的过程进行监控。

第一方面，本发明实施例提供的一种监控模型训练的方法，包括：

接收机器学习平台中的至少一个节点分别上报的监控信息，并根据所述至少一个节点分别对应的监控信息，确定所述一个或多个模型训练任务的监控指标以及所述监控指标对应的信息；所述监控信息为所述至少一个节点通过执行一个或多个模型训练任务生成的，所述监控指标表征所述一个或多个模型训练任务的执行信息；进一步地，若确定所述监控指标对应的信息触发所述监控指标对应的告警规则，则执行告警。

在上述实施例中，在机器学习平台执行一个或多个模型训练任务的过程中，通过至少一个节点上报监控信息，可以及时获取至少一个节点的状态，并可以节省流量，比如模型训练启动节点每次启动模型训练过程时可以上报一次监控状态，从而可以根据模型训练启动节点上报的监控状态确定预设时间段内共启动了多少次模型训练过程，便于统计分析；且，通过至少一个节点的监控信息得到监控指标对应的信息，可以实现对机器学习平台执行一个或多个模型训练任务的整个流程进行监控，并可以根据执行的结果进行报警，便于运维人员及时进行维护工作，保证金融领域的正常运行。

在一种可选的实施例中，所述监控指标包括以下任意一项或任意多项：所述一个或多个模型训练任务的执行结果、执行所述一个或多个模型训练任务所消耗的计算资源、执行所述一个或多个模型训练任务的数据存储情况。

在上述实施例中，通过综合分析至少一个节点的监控信息，可以准确地获取机器学习平台执行模型训练任务的过程中监控指标对应的信息，比如接收到的模型训练任务的数量、成功执行的模型训练任务的数量、执行失败的模型训练任务的数量、等待执行的模型训练任务的数量、消耗的中央处理器(Central Processing Unit，CPU)资源的数据量、消耗的图形处理器(Graphics Processing Unit，GPU)资源的数据量、消耗的内存资源的数据量等，从而可以提高管理机器学习平台的灵活性。

在一种可选的实施例中，所述方法还包括：确定所述至少一个节点中处于运行状态的目标节点，进而向所述目标节点发送状态请求消息，并接收所述目标节点根据所述状态请求消息发送的所述目标节点的执行状态；进一步地，若确定所述目标节点的执行状态触发所述目标节点对应的告警规则，则执行告警。

在上述实施例中，通过设置每个节点对应的告警规则，可以对机器学习平台执行模型训练任务时所用到的多个节点分别进行监控，从而可以及时对出现问题的节点进行管理，提高训练得到的机器学习模型的准确性；也就是说，上述实施例可以实现对模型训练任务中的各个阶段进行监控，提高了监控的灵活性。

在一种可选的实施例中，所述确定所述目标节点的执行状态触发所述目标节点对应的告警规则，包括：所述目标节点为模型训练启动节点，若所述目标节点在第一预设时间段内重启所述模型训练任务的次数大于预设次数，则确定所述目标节点的执行状态触发所述目标节点对应的告警规则；或者，所述目标节点为模型训练任务管理节点，若所述目标节点无法执行所述模型训练任务的时长大于预设时长，则确定所述目标节点的执行状态触发所述目标节点对应的告警规则；或者，所述目标节点为模型训练资源管理节点，若所述目标节点占用的资源数据量大于第一预设数据量，则确定所述目标节点的执行状态触发所述目标节点对应的告警规则；或者，所述目标节点为模型训练数据节点，若所述目标节点可用的数据存储空间的数据量小于第二预设数据量，则确定所述目标节点的执行状态触发所述目标节点对应的告警规则。

在上述实施例中，通过对不同的节点设置不同的告警规则，可以使得监控各个节点的过程更加符合实际情况，且用户可以根据自己的需求设置节点的告警规则，从而可以提高用户的满意度。

第二方面，本发明实施例提供的一种监控模型训练的装置，所述装置包括：

收发模块，用于接收机器学习平台中的至少一个节点分别上报的监控信息，所述监控信息为所述至少一个节点通过执行一个或多个模型训练任务生成的；

处理模块，用于根据所述至少一个节点分别对应的监控信息，确定监控指标以及所述监控指标对应的信息；所述监控指标表征所述一个或多个模型训练任务的执行信息；

告警模块，用于若确定所述监控指标对应的信息触发所述监控指标对应的告警规则，则执行告警。

在一种可选的实施例中，所述处理模块还用于：确定所述至少一个节点中处于运行状态的目标节点，进而向所述目标节点发送状态请求消息，并接收所述目标节点根据所述状态请求消息发送的所述目标节点的执行状态；所述告警模块，还用于若确定所述目标节点的执行状态触发所述目标节点对应的告警规则，则执行告警。

在一种可选的实施例中，所述告警模块用于：所述目标节点为模型训练启动节点，若所述目标节点在第一预设时间段内重启所述模型训练任务的次数大于预设次数，则确定所述目标节点的执行状态触发所述目标节点对应的告警规则；或者，所述目标节点为模型训练任务管理节点，若所述目标节点无法执行所述模型训练任务的时长大于预设时长，则确定所述目标节点的执行状态触发所述目标节点对应的告警规则；或者，所述目标节点为模型训练资源管理节点，若所述目标节点占用的资源数据量大于第一预设数据量，则确定所述目标节点的执行状态触发所述目标节点对应的告警规则；或者，所述目标节点为模型训练数据节点，若所述目标节点可用的数据存储空间的数据量小于第二预设数据量，则确定所述目标节点的执行状态触发所述目标节点对应的告警规则。

第三方面，本发明实施例提供的一种计算机可读存储介质，包括指令，当其在计算机的处理器上运行时，使得计算机的处理器执行如上述第一方面或第一方面任意所述的监控模型训练的方法。

第四方面，本发明实施例提供的一种计算机程序产品，当其在计算机上运行时，使得计算机执行如上述第一方面或第一方面任意所述的监控模型训练的方法。

本发明的这些方面或其他方面在以下实施例的描述中会更加简明易懂。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种消息处理方法对应的流程示意图；

图2为本发明实施例中消息处理方法的整体流程图；

图3为本发明实施例提供的一种消息处理方法装置的结构示意图；

图4为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

金融科技(Fintech)是指将信息技术融入金融领域后，为金融领域带来的一种新的创新科技，通过使用先进的信息技术辅助实现金融作业、交易执行以及金融系统改进，可以提升金融系统的处理效率、业务规模，并可以降低成本和金融风险。

金融科技领域通常会涉及到大量的数据，比如用户的交易数据，如何采用科技的手段从大量的数据中挖掘出金融领域所需要的特征，一直是金融科技领域追求的目标。为了实现对金融领域中数据的管理和挖掘，人们开发了很多开源的机器学习平台，比如Hadoop平台、Paddle平台等；在机器学习平台中，用户可以通过输入训练数据得到机器学习模型，而无需编写模型训练程序，这极大地节省了用户开发的时间，使得数据管理的过程更为灵活。

下面以银行为例，分别从几个示例来描述机器学习平台在金融科技领域中的应用。

示例一：基于机器学习平台实现防欺诈

交易监控是金融科技领域中使用机器学习平台的一个安全实例。具体地说，获取银行中存储的历史交易数据，并将历史交易数据中的欺诈交易数据输入机器学习平台中；如此，机器学习平台可以针对于欺诈交易数据进行分析，得到欺诈交易数据的特征，比如某一账户持续收到多笔入账、某一账户持有人经常发生退款操作等；进一步地，机器学习平台可以基于欺诈交易数据的特征建立欺诈模型，欺诈模型可以用于预测交易数据是否为欺诈交易数据。

相应地，银行可以使用欺诈模型实时监控每个帐户的交易数据，若欺诈模型确定账户A中的某一条当前交易数据为欺诈交易数据的概率为50％～90％，则银行可以向账户A对应的用户发送验证信息，以对该笔交易进行验证；若欺诈模型确定该条交易数据为欺诈交易数据的概率大于90％，则银行也可以阻止该条交易的进行。

在上述实现过程中，欺诈模型一般在几秒钟(或者几毫秒)内即可完成对一条交易数据的欺诈检测，可以极大地缩短检测欺诈的时长，从而可以实时地阻止欺诈行为的发生；相比于传统的手工检测方式来说，使用欺诈模型进行检测可以提高检测欺诈的效率，而不只是在欺诈行为发生后进行欺诈检测。

示例二：基于机器学习平台实现信用评估

信用监控是金融科技领域中使用机器学习平台的另一个安全实例。具体地说，获取银行中存储的历史客户的订单信息和信用评分，并将历史客户的订单信息作为机器学习平台的输入，历史客户的信用评分作为机器学习平台的输出；如此，机器学习平台可以针对于历史客户的订单信息和信用评分进行分析，得到信用评分模型，信用评分模型可以用于基于客户的订单信息预测客户的信用评分。

相应地，银行在某一个新客户B办理信贷业务时，可以将新客户B的历史订单信息输入信用评分模型，预测得到新客户B的信用评分；若信用评分模型预测新客户B的信用评分大于或等于60，则银行可以为新用户B办理信贷业务；若信用评分模型预测新客户B的信用评分小于60，则银行可以拒绝为新用户B办理信贷业务。在一个示例中，银行还可以根据信用评分模型预测的新客户B的信用评分大小调整新用户B贷款金额。

在传统的信贷检测中，通常需要人工走访调查申请信贷业务的用户的信用状况，通过在金融领域中引入信用评分模型，可以基于用户的订单信息确定其信用状况，而无需人为走访调查，从而可以提高信贷处理的效率。

示例三：基于机器学习平台实现防洗钱

财务监控是金融科技领域中使用机器学习平台的另一个安全实例。具体地说，获取银行中已确定为洗钱账户的数据，并将洗钱账户的数据输入机器学习平台；如此，机器学习平台可以针对于洗钱账户的数据进行分析，得到洗钱账户的特征，从而建立洗钱检测模型，洗钱检测模型可以用于基于账户的数据确定账户是否在发生洗钱行为。

相应地，银行若检测到某一个账户C在短时间内执行了多条交易，则可以将账户C的数据输入洗钱检测模型；若洗钱检测模型预测账户C当前正在发生洗钱行为，则银行可以冻结账户C，并可以执行举报工作；若洗钱检测模型预测账户C当前未发生洗钱行为，则银行可以同意账户C的交易操作。

通过在金融领域中引入洗钱检测模型，可以显著地提高网络的安全性，并可以实现对洗钱账户的定位和隔离，使得金融领域的交易更加安全可靠。

综上所述，机器学习模型在金融科技领域中具有极为重要的作用，若想要使用机器学习平台训练出效果较好的机器学习模型，则需要对机器学习平台训练模型的过程进行监控。举例来说，银行中可以设置有多个部门，比如办公部门、交易部门、信贷部门等，若银行中设置了机器学习平台，则多个部门可能分别使用机器学习平台训练多个部门所需要的机器学习模型；因此，通过对机器学习平台训练模型的过程进行监控，可以获取到多个部门中每个部门在一定时间内训练了多少模型、每个模型训练过程是否出现问题等信息，从而可以及时对银行中的部门或者训练得到的模型进行调整，以使银行可以安全且正常地运行。

在一种可能的实现方式中，可以使用开源的监控系统对机器学习平台训练模型的过程进行监控，比如Zabbix系统、Kubernetss系统等。以Zabbix系统为例，Zabbix系统是一种基于WEB界面的监控系统，可以实现对分布式系统和分布式系统中的网络进行监控，比如服务器的运行状态、服务器当前的网络连接情况；然而，机器学习平台是一种容器化的、包含多个节点(或者也可以称为微服务)的平台，通过多个节点共同完成模型训练的过程，Zabbix系统可以在一台服务器完成一个任务这种情况下对服务器进行监控，却无法监控容器和节点，因此，Zabbix系统无法用于对机器学习平台执行模型训练的过程进行监控。

图1为本发明实施例提供的一种监控系统执行监控过程的架构示意图，该架构中可以包括监控系统200和与监控系统200连接的被监控设备300。其中，监控系统200可以为Prometheus开源监控系统，监控系统200可以通过有线方式与被监控设备300连接，或者也可以通过无线方式与被监控设备300连接，具体不作限定。

具体实施中，监控系统200中可以设置有监控报警装置和时序数据库，监控系统200可以按照预设周期获取被监控设备300的监控数据，进而可以使用通用的预设规则对监控数据进行评估，并显示评估结果；若评估结果为真，说明被监控设备300的监控数据触发了预设规则，则监控系统200可以控制监控报警装置进行报警，比如可以通过邮件、短信或聊天软件等向用户进行报警。在一个示例中，监控系统200还可以将历史监控数据存储在时序数据库中，以使用户根据历史监控数据对被监控目标300进行维护。

在一种可能的实现方式中，该架构中还可以包括至少一个用户终端，比如iPad101、手机102或笔记本电脑103。以笔记本电脑103为例，用户可以通过笔记本电脑103的全球广域网(World Wide Web，web)浏览器登录监控系统200的管理界面，进而可以通过触发管理界面上的监控图标控制监控系统200对被监控设备300进行监控。

基于图1所示意的系统架构，图2为本发明实施例提供的一种监控模型训练的方法对应的流程示意图，该方法包括：

步骤201，接收机器学习平台中的至少一个节点分别上报的监控信息。

仍以银行为例，机器学习平台可以被设置在被监控设备300中，银行中的各个部门均可以使用被监控设备300中的机器学习平台训练得到满足各个部门要求的机器学习模型。以交易部门训练得到欺诈模型为例，在一种可能的实现方式中，通过机器学习平台训练得到欺诈模型的过程可以包括如下步骤a～步骤e：

步骤a，设置模型训练的参数、计算资源和数据存储对象的位置。

在一个示例中，交易部门的用户可以通过界面输入的方式设置上述信息，比如用户可以通过在被监控设备300的WEB浏览器中输入预设连接，访问机器学习平台的模型训练界面，进而可以通过移动硬盘或U盘等将上述信息拷贝至模型训练界面上；如此，被监控设备300若接收到上述信息，则可以将上述信息转发给机器学习平台。在另一个示例中，交易部门的用户可以异地传输的方式设置上述信息，比如用户可以通过网络登录预设办公系统，进而将上述信息传送给被监控设备300。

本发明实施例中，模型训练的参数可以包括欺诈模型的精确度、模型训练的迭代次数、神经网络的深度等，还可以包括模型训练的训练数据，比如历史欺诈交易数据；计算资源可以是指机器学习平台执行模型训练过程可能消耗的资源，比如CPU、GPU、内存等；数据存储对象的位置可以是指训练得到的欺诈模型的存储位置，该位置可以为被监控设备300中的预设存储空间，比如内部存储器、硬盘、磁盘等，具体不作限定。

步骤b，机器学习平台根据模型训练的参数设置模型训练任务，并为模型训练任务分配计算资源。

具体实施中，机器学习平台中可以设置有多个接口，多个接口可以分别接收不同的模型训练的参数，比如第一接口可以接收模型的精确度信息，第二接口可以接收训练数据，第三接口可以接收神经网络的深度。如此，机器学习平台在接收到模型训练的参数后，可以通过解析参数将参数划分为多个子部分，从而可以将多个子部分分别输入多个接口，封装得到模型训练任务。需要说明的是，模型训练任务可以支持分布式运行模式，或者也可以支持单机运行模式，具体不作限定。

进一步地，机器学习平台可以根据用户设置的计算资源为模型训练任务分配计算资源，如此，模型训练任务可以调用计算资源执行模型训练过程，得到欺诈模型。举例来说，若用户设置的计算资源为A资源组中的资源，则模型训练任务可以使用A资源组中的资源，无法使用B资源组中的资源。

步骤c，机器学习平台为模型训练任务设置数据存储对象的位置，并启动模型训练任务。

此处，若用户设置的数据存储对象的位置为“D:\交易部门\模型训练”，则模型训练任务的执行结果(比如训练得到的欺诈模型)可以存储在位置“D:\交易部门\模型训练”中。在一个示例中，机器学习平台在启动模型训练任务之前，还可以为模型训练任务设置其它预操作，比如模型训练任务的启动时间、告警方式等。

步骤d，执行模型训练任务，得到欺诈模型。

具体实施中，机器学习平台可以获取模型训练任务所需的训练数据，并可以将训练数据加载到内存或者显存中，进而可以调用预设模型训练程序执行模型训练过程，得到欺诈模型。在一个示例中，机器学习平台可以将模型训练过程中生成的日志数据存储在预设数据库中，以便于后续用户进行维护。

步骤e，将模型训练结果存储在用户设置的数据存储对象的位置中。

在一个示例中，数据存储对象的位置处可以设置有模型存储区和结果存储区，模型存储区可以用于存储训练得到的欺诈模型，结果存储区可以用于存储使用欺诈模型预测交易数据得到的预测结果。通过使用模型存储区共享代码，交易部门的其他用户可以通过模型存储区获取训练模型的过程文件，如此，在执行后续的模型训练任务时提供了依据，提高了模型训练的效率；且，通过将训练模型的代码和模型预测结果分区存储，可以使得模型训练任务的执行结果更为清晰，便于用户维护。

本发明实施例中，机器学习平台中可以设置有至少一个(即一个或一个以上)节点，节点也可以称为微服务，每个节点可以执行模型训练任务中的部分子任务，从而多个节点可以共同执行模型训练任务。在一个示例中，至少一个节点可以包括模型训练启动节点、模型训练任务管理节点、模型训练资源管理节点、模型训练数据管理节点等；其中，模型训练启动节点可以负责启动模型训练任务，比如，模型训练启动节点可以在检测到模型训练任务成功封装后自动启动模型训练任务，或者也可以在接收到用户的启动指令后启动模型训练任务，具体不作限定；模型训练任务管理节点可以统计预设时间段内启动的模型训练任务的执行状态，比如执行成功的模型训练任务的数量、执行失败的模型训练任务的数量、暂未执行的模型训练任务的数量等；模型训练资源管理节点可以记录模型训练任务所消耗的计算资源情况，比如消耗的计算资源所属的资源组、消耗的内存数据量、消耗的CPU数据量、消耗的GPU数据量等；模型训练数据管理节点可以记录模型训练任务所占用的数据空间，比如训练数据占用的数据空间、训练得到的机器学习模型占用的数据空间、使用机器学习模型预测得到的结果占用的数据空间等。

具体实施中，至少一个节点可以在执行部分子任务的过程中，监控模型训练任务的执行情况，并可以将监控信息上报给监控系统。比如，模型训练启动节点每启动一个模型训练任务即可向监控系统上报一次监控信息；模型训练任务管理节点可以实时将执行成功或执行失败的模型训练任务上报给监控系统，并可以按照第一预设周期将正在执行的模型训练任务上报给监控系统，举例来说，若模型训练任务1执行成功，则模型训练任务管理节点可以将模型训练任务1执行成功的状态上报给监控系统；若第一预设周期为5min，则模型训练任务管理节点可以每隔5min向监控系统上报依次当前执行的模型训练任务；模型训练资源管理节点可以按照第二预设周期将所执行的模型训练任务消耗的资源情况上报给监控系统，若第二预设周期为5min，则模型训练资源管理节点可以将5min内机器学习平台消耗的资源情况上报给监控系统；模型训练数据管理节点可以实时向监控系统上报数据空间的占用情况，比如机器学习平台每次读取数据空间中的训练数据时向监控系统上报监控信息，或者机器学习平台在将训练得到的机器学习模型存储在数据存储仓时向监控系统上报监控信息，或者还可以在将使用机器学习模型预测得到的预测结果存储在结果存储仓时向监控系统上报监控信息。

需要说明的是，第一预设周期与第二预设周期可以由本领域技术人员根据经验进行设置，第一预设周期与第二预设周期可以相同，或者也可以不同，具体不作限定。

在一个示例中，至少一个节点还可以将监控信息存储在关系型数据库中，其中，关系型数据库的类型可以为Oracle类型、DB2类型、PostgreSQL类型、Microsoft SQL Server类型、Microsoft Access类型、MySQL类型中的任意一项，具体不作限定。具体地说，监控信息可以以二维行列表格的形式存储在关系型数据库中，相应地，用户可以使用结构化查询语言(Structured Query Language，SQL)执行对关系数据库中数据的检索和操作。通过在关系型数据库中存储监控信息，可以丰富模型训练任务的监控指标，便于用户及时获取模型训练任务的监控信息，提高对模型训练任务监控的实时性。

步骤202，根据所述至少一个节点分别对应的监控信息，确定监控指标以及所述监控指标对应的信息。

具体实施中，监控系统可以综合至少一个节点分别对应的监控信息，从而确定监控指标，并根据至少一个节点分别对应的监控信息和监控指标得到监控指标对应的信息。其中，监控指标可以为与执行一个或多个模型训练任务的整个流程相关的指标。

作为一种示例，监控系统可以根据至少一个节点分别对应的监控信息得到如下三种监控指标：

模型训练任务指标

模型训练任务指标是指与模型训练任务的数量和/或状态相关的指标，比如某一时刻或者某一时间段内启动的模型训练任务的数量、当前时刻正在执行的模型训练任务的数量、某一时间段内执行成功的模型训练任务的数量、某一时间段内执行失败的模型训练任务的数量、当前时刻等待执行的模型训练任务的数量、某一时间段内被迫结束的模型训练任务的数量等。

其中，某一时刻或者某一时间段内启动的模型训练任务的数量可以通过模型训练启动节点上报的监控数据来确定，当前时刻正在执行的模型训练任务的数量、某一时间段内执行成功的模型训练任务的数量、某一时间段内执行失败的模型训练任务的数量、当前时刻等待执行的模型训练任务的数量、某一时间段内被迫结束的模型训练任务的数量可以通过模型训练任务管理节点上报的监控数据来确定。

模型训练资源指标

模型训练资源指标是指与模型训练任务所消耗的计算资源相关的指标，比如某一时刻或者某一时间段内执行模型训练任务所消耗的CPU的数据量、GPU的数据量和内存的数据量、执行某一模型训练任务所消耗的CPU的数据量、GPU的数据量和内存的数据量等。其中，模型训练资源指标可以通过模型训练资源管理节点上报的监控数据来确定。

模型训练数据指标

模型训练数据指标是指与模型训练任务使用的数据相关的指标，比如执行某一模型训练任务时从数据存储空间中读取的数据量、训练得到机器学习模型后向数据存储仓和/或结果存储仓中写入的数据量。其中，模型训练数据指标可以通过模型训练数据管理节点上报的监控数据来确定。

本发明实施例中，通过综合分析至少一个节点的监控信息，可以准确地获取多种监控指标对应的信息，比如接收到的模型训练任务的数量、成功执行的模型训练任务的数量、执行失败的模型训练任务的数量、等待执行的模型训练任务的数量、消耗的CPU资源的数据量、消耗的GPU资源的数据量、消耗的内存资源的数据量等，从而可以提高管理机器学习平台的灵活性。

在一个示例中，还可以将确定得到的监控指标存储在监控系统的时序数据库中，如此，可以丰富监控维度，使得用户使用已存储的监控指标对模型训练任务的整个流程进行监控，而无需重复执行相同的工作，从而提高监控训练模型的效率。

步骤203，若确定所述监控指标对应的信息触发所述监控指标对应的告警规则，则执行告警。

在一种可能的实现方式中，在根据至少一个节点上报的监控信息获取三种监控指标对应的信息后，可以将三种监控指标对应的信息分别与三种监控指标对应的告警规则进行匹配，若确定某一监控指标对应的信息触发了该监控指标对应的告警规则，则可以执行告警。本发明实施例中，通过对不同的监控指标设置不同的告警规则，可以使得监控整个模型训练任务的过程更加符合实际情况，且用户可以根据自己的需求设置监控指标对应的告警规则，从而可以提高用户的满意度。

下面以几种可能的情形为例描述本发明实施例中执行告警的过程。

情形一

若监控指标为模型训练任务指标，则监控指标对应的告警规则可以为模型训练任务的数量大于或小于某一阈值，比如1h内启动的模型训练任务的数量大于3个、当前时刻正在执行的模型训练任务的数量大于2个、10h执行成功的模型训练任务的数量小于1个、10h执行失败的模型训练任务的数量大于5个、当前时刻等待执行的模型训练任务的数量大于20个、2h内被迫结束的模型训练任务的数量大于3个等。

在一个示例中，模型训练任务指标对应的一条告警规则为1h内某一部门启动的模型训练任务的数量超过3个则执行告警，若交易部门在1h内通过机器学习平台提交的模型训练任务的数量为5个，则确定交易部门的该行为触发了模型训练任务指标对应的该条告警规则，如此，可以通过告警系统执行告警，以便于对交易部门进行排查，避免出现重大的交易失误。

情形二

若监控指标为模型训练资源指标，则监控指标对应的告警规则可以为模型训练任务所消耗的资源小于某一阈值，比如2h内执行模型训练任务所消耗的CPU的数据量小于500M、GPU的数据量小于200M和内存的数据量小于100M、执行某一模型训练任务所消耗的CPU的数据量小于50M、GPU的数据量小于20M和内存的数据量小于10M等。

在一个示例中，模型训练资源指标对应的一条告警规则为2h内执行模型训练任务所消耗的内存的数据量小于100M则执行报警，若机器学习平台在2h内执行模型训练任务共占用50M内存，则确定该行为触发了模型训练资源指标对应的该条告警规则，如此，可以通过告警系统执行告警，以便于对机器学习平台的执行过程进行排查，避免网络中断或机器训练任务中断导致的执行失败的问题。

情形三

若监控指标为模型训练数据指标，则监控指标对应的告警规则可以为执行模型训练任务时从数据存储空间中读取和写入的数量大于或小于某一阈值，比如从数据存储空间中读取的数据量大于2G、训练得到机器学习模型后向数据存储仓中写入的数据量小于20M、使用机器学习模型预测数据后向结果存储仓中写入的数据量小于10M等。

在一个示例中，模型训练数据指标对应的一条告警规则为训练得到机器学习模型后向数据存储仓中写入的数据量小于20M则执行告警，若交易部门通过机器学习平台训练得到的欺诈模型仅占用数据存储仓中的10M空间，则确定欺诈模型训练失败，从而该行为触发了模型训练数据指标对应的该条告警规则；如此，可以通过告警系统执行告警，以便于对欺诈模型进行检测，避免使用精确度较低的欺诈模型造成的预测不准确的问题。

需要说明的是，监控指标对应的告警规则可以由本领域技术人员根据经验进行设置，或者也可以根据实际需要进行设置，具体不作限定。在一个示例中，监控指标对应的告警规则可以支持个性化定制，具体地说，用户可以在机器学习平台中设置满足自己要求监控规则，如此，可以使得监控模型训练的方法更加符合实际情况。

本发明实施例中，步骤201～步骤203描述了对机器学习平台执行一个或多个模型训练任务的整个流程进行监控的实现过程，下面描述对机器学习平台执行模型训练任务时各个节点进行监控的具体实现过程。

本发明实施例中，若要对至少一个节点进行监控，则可以预先确定至少一个节点中处于运行状态的目标节点，进而可以获取目标节点的运行状态。比如，若机器学习平台正在启动机器学习任务，则机器训练启动节点可以处于运行状态，机器训练任务节点、机器训练数据节点和机器训练资源节点可以处于未运行状态，如此，目标节点可以包括机器训练启动节点。

具体实施中，获取目标节点的运行状态的方式可以有多种，在一种可能的实现方式中，监控系统可以通过与目标节点通信获取目标节点的执行状态；具体地说，监控系统可以向目标节点发送状态请求消息，相应地，目标节点在接收到状态请求消息后，可以获取目标节点的执行状态，并可以将目标节点的执行状态发送给监控系统。在另一种可能的实现方式中，监控系统可以通过代理服务器获取目标节点的执行状态；具体地说，代理服务器可以按照预设周期或者轮询的方式向目标节点发送状态请求消息，并可以在接收到目标节点的执行状态后，将目标节点的执行状态上报给监控系统。其中，代理服务器可以设置在监控系统内部，或者也可以设置在被监控设备内部，或者还可以设置在监控系统和被监控设备的外部，具体不作限定。

在一个示例中，目标节点上可以设置有监控接口(比如Metric接口)，如此，监控系统和/或代理服务器可以通过目标节点的监控接口获取目标节点的执行状态。

若目标节点为模型训练启动节点，则目标节点的执行状态可以包括某一时刻或某一时间段内某一模型训练任务重启的次数；若目标节点为模型训练任务管理节点，则目标节点的执行状态可以包括模型训练任务处于无法运行状态的时长；若目标节点为模型训练资源管理节点，则目标节点的执行状态可以包括CPU、GPU和/或内存中可用资源的情况；若目标节点为模型训练数据管理节点，则目标节点的执行状态可以包括数据存储仓和/或结果存储仓中被占用空间的数据量大小。

进一步地，可以将目标节点的执行状态与目标节点对应的告警规则进行匹配，若确定目标节点的执行状态触发了目标节点对应的告警规则，则可以执行告警。比如，模型训练启动节点对应的告警规则为1h内重启某一模型训练任务的次数超多3次则告警，若确定在10:00～11:00的时长内模型训练任务R重启了5次，则可以执行告警；又比如，模型训练任务管理节点对应的告警规则为模型训练任务处于无法运行状态的时长超过5min则告警，若确定在10:50～11:00的时长内模型训练任务处于不可用状态，则可以执行告警。

在一个示例中，告警规则可以以PQL语言存储在监控系统中。

本发明实施例中，通过设置每个节点对应的告警规则，可以对机器学习平台执行模型训练任务时所用到的多个节点分别进行监控，从而可以及时对出现问题的节点进行管理，提高训练得到的机器学习模型的准确性；也就是说，本发明实施例可以实现对模型训练任务中的各个阶段进行监控，从而可以提高监控的灵活性。

本发明实施例中，执行告警的方式可以有多种，在一个示例中，可以通过网络将告警信息发送给运维人员，比如可以通过邮件、短信、聊天软件等将告警信息发送给相应地运维人员。

本发明的上述实施例中，接收机器学习平台中的至少一个节点分别上报的监控信息，并根据所述至少一个节点分别对应的监控信息，确定监控指标以及所述监控指标对应的信息，所述监控信息为所述至少一个节点通过执行一个或多个模型训练任务生成的，所述监控指标为与执行所述一个或多个模型训练任务的整个流程相关的指标；进一步地，若确定所述监控指标对应的信息触发所述监控指标对应的告警规则，则执行告警。本发明实施例中，通过至少一个节点上报监控信息，可以及时获取至少一个节点的状态，并可以节省流量；且，通过至少一个节点的监控信息得到监控指标对应的信息，可以实现对机器学习平台执行一个或多个模型训练任务的整个流程进行监控，并可以根据执行的结果进行报警，便于运维人员及时进行维护工作，保证金融领域的正常运行。

针对上述方法流程，本发明实施例还提供一种监控模型训练的装置，该装置的具体内容可以参照图2或图2任意所述的监控模型训练的方法进行实施。

图3为本发明实施例提供的一种监控模型训练的装置的结构示意图，包括：

收发模块301，用于接收机器学习平台中的至少一个节点分别上报的监控信息，所述监控信息为所述至少一个节点通过执行一个或多个模型训练任务生成的；

处理模块302，用于根据所述至少一个节点分别对应的监控信息，确定监控指标以及所述监控指标对应的信息；所述监控指标表征所述一个或多个模型训练任务的执行信息；

告警模块303，用于若确定所述监控指标对应的信息触发所述监控指标对应的告警规则，则执行告警。

可选地，所述监控指标包括以下任意一项或任意多项：

所述一个或多个模型训练任务的执行结果、执行所述一个或多个模型训练任务所消耗的计算资源、执行所述一个或多个模型训练任务的数据存储情况。

可选地，所述处理模块302还用于：

确定所述至少一个节点中处于运行状态的目标节点；

向所述目标节点发送状态请求消息，并接收所述目标节点根据所述状态请求消息发送的所述目标节点的执行状态；

所述告警模块303，还用于若确定所述目标节点的执行状态触发所述目标节点对应的告警规则，则执行告警。

可选地，所述告警模块303用于：

所述目标节点为模型训练启动节点，若所述目标节点在第一预设时间段内重启所述模型训练任务的次数大于预设次数，则确定所述目标节点的执行状态触发所述目标节点对应的告警规则；或者，

所述目标节点为模型训练任务管理节点，若所述目标节点无法执行所述模型训练任务的时长大于预设时长，则确定所述目标节点的执行状态触发所述目标节点对应的告警规则；或者，

所述目标节点为模型训练资源管理节点，若所述目标节点占用的资源数据量大于第一预设数据量，则确定所述目标节点的执行状态触发所述目标节点对应的告警规则；或者，

所述目标节点为模型训练数据节点，若所述目标节点可用的数据存储空间的数据量小于第二预设数据量，则确定所述目标节点的执行状态触发所述目标节点对应的告警规则。

从上述内容可以看出：本发明的上述实施例中，接收机器学习平台中的至少一个节点分别上报的监控信息，并根据所述至少一个节点分别对应的监控信息，确定监控指标以及所述监控指标对应的信息，所述监控信息为所述至少一个节点通过执行一个或多个模型训练任务生成的，所述监控指标为与执行所述一个或多个模型训练任务的整个流程相关的指标；进一步地，若确定所述监控指标对应的信息触发所述监控指标对应的告警规则，则执行告警。本发明实施例中，通过至少一个节点上报监控信息，可以及时获取至少一个节点的状态，并可以节省流量；且，通过至少一个节点的监控信息得到监控指标对应的信息，可以实现对机器学习平台执行一个或多个模型训练任务的整个流程进行监控，并可以根据执行的结果进行报警，便于运维人员及时进行维护工作，保证金融领域的正常运行。

基于同一发明构思，本发明实施例还提供了一种计算机可读非易失性存储介质，其上存储有计算机程序，当计算机读取并执行所述计算机可读程序时，使得计算机执行上述监控模型训练的方法。

本发明实施例还提供了一种计算设备，如图4所示，包括：收发信机401、处理器402和存储器403，其中：

收发信机401根据实际需要可以包括基带处理部件、射频处理部件等设备，用于传输相关信息；

存储器403，存储一个或多个可执行程序，被用于配置处理器502；

处理器402，被配置了一个或多个可执行程序，所述一个或多个可执行程序用于执行上述监控模型训练的方法。

本领域内的技术人员应明白，本发明的实施例可提供为方法、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

一种监控模型训练的方法，其特征在于，所述方法包括：

接收机器学习平台中的至少一个节点分别上报的监控信息，所述监控信息为所述至少一个节点通过执行一个或多个模型训练任务生成的；

根据所述至少一个节点分别对应的监控信息，确定所述一个或多个模型训练任务的监控指标以及所述监控指标对应的信息；所述监控指标表征所述一个或多个模型训练任务的执行信息；

若确定所述监控指标对应的信息触发所述监控指标对应的告警规则，则执行告警。
根据权利要求1所述的方法，其特征在于，所述监控指标包括以下任意一项或任意多项：

所述一个或多个模型训练任务的执行结果、执行所述一个或多个模型训练任务所消耗的计算资源、执行所述一个或多个模型训练任务的数据存储情况。
根据权利要求1所述的方法，其特征在于，所述方法还包括：

确定所述至少一个节点中处于运行状态的目标节点；

向所述目标节点发送状态请求消息，并接收所述目标节点根据所述状态请求消息发送的所述目标节点的执行状态；

若确定所述目标节点的执行状态触发所述目标节点对应的告警规则，则执行告警。
根据权利要求3所述的方法，其特征在于，所述确定所述目标节点的执行状态触发所述目标节点对应的告警规则，包括：

所述目标节点为模型训练启动节点，若所述目标节点在第一预设时间段内重启所述模型训练任务的次数大于预设次数，则确定所述目标节点的执行状态触发所述目标节点对应的告警规则；或者，

所述目标节点为模型训练任务管理节点，若所述目标节点无法执行所述模型训练任务的时长大于预设时长，则确定所述目标节点的执行状态触发所述目标节点对应的告警规则；或者，

所述目标节点为模型训练资源管理节点，若所述目标节点占用的资源数据量大于第一预设数据量，则确定所述目标节点的执行状态触发所述目标节点对应的告警规则；或者，

所述目标节点为模型训练数据节点，若所述目标节点可用的数据存储空间的数据量小于第二预设数据量，则确定所述目标节点的执行状态触发所述目标节点对应的告警规则。
一种监控模型训练的装置，其特征在于，所述装置包括：

收发模块，用于接收机器学习平台中的至少一个节点分别上报的监控信息，所述监控信息为所述至少一个节点通过执行一个或多个模型训练任务生成的；

处理模块，用于根据所述至少一个节点分别对应的监控信息，确定所述一个或多个模型训练任务的监控指标以及所述监控指标对应的信息；所述监控指标表征所述一个或多个模型训练任务的执行信息；

告警模块，用于若确定所述监控指标对应的信息触发所述监控指标对应的告警规则，则执行告警。
根据权利要求5所述的装置，其特征在于，所述监控指标包括以下任意一项或任意多项：

所述一个或多个模型训练任务的执行结果、执行所述一个或多个模型训练任务所消耗的计算资源、执行所述一个或多个模型训练任务的数据存储情况。
根据权利要求5所述的装置，其特征在于，所述处理模块还用于：

确定所述至少一个节点中处于运行状态的目标节点；

向所述目标节点发送状态请求消息，并接收所述目标节点根据所述状态请求消息发送的所述目标节点的执行状态；

所述告警模块还用于：若确定所述目标节点的执行状态触发所述目标节点对应的告警规则，则执行告警。
根据权利要求7所述的装置，其特征在于，所述告警模块用于：

所述目标节点为模型训练启动节点，若所述目标节点在第一预设时间段内重启所述模型训练任务的次数大于预设次数，则确定所述目标节点的执行状态触发所述目标节点对应的告警规则；或者，

所述目标节点为模型训练任务管理节点，若所述目标节点无法执行所述模型训练任务的时长大于预设时长，则确定所述目标节点的执行状态触发所述目标节点对应的告警规则；或者，

所述目标节点为模型训练资源管理节点，若所述目标节点占用的资源数据量大于第一预设数据量，则确定所述目标节点的执行状态触发所述目标节点对应的告警规则；或者，

所述目标节点为模型训练数据节点，若所述目标节点可用的数据存储空间的数据量小于第二预设数据量，则确定所述目标节点的执行状态触发所述目标节点对应的告警规则。
一种计算机可读存储介质，其特征在于，包括计算机程序，当其在计算机的处理器上运行时，使得计算机的处理器执行如权利要求1至4任一项所述的方法。
一种计算设备，其特征在于，包括：

至少一个存储器，用于存储程序指令；

至少一个处理器，用于调用所述存储器中存储的程序指令，按照获得的程序执行如权利要求1至4任一项所述的方法。