WO2021120181A1

WO2021120181A1 - 推理计算装置、模型训练装置、推理计算系统

Info

Publication number: WO2021120181A1
Application number: PCT/CN2019/127048
Authority: WO
Inventors: 李昭月; 柴栋; 路元元; 王洪
Original assignee: 京东方科技集团股份有限公司
Priority date: 2019-12-20
Filing date: 2019-12-20
Publication date: 2021-06-24
Also published as: JP7442550B2; CN113597618A; EP4080407A4; KR20220117194A; EP4080407A1; US20210209488A1; JP2023514466A

Abstract

一种推理计算装置，包括至少一个处理器和存储器。存储器存储程序指令，程序指令可由所述至少一个处理器执行，使推理计算装置进行以下操作：接收来自模型训练装置的第一推理模型，第一推理模型基于第一训练样本库，由模型训练装置通过模型训练得到，第一训练样本库包括来自生产制造阶段产生的历史数据的训练样本，模型训练装置包括云端设备；基于第一推理模型，进行生产制造阶段产生的待处理数据的推理计算，得到推理结果，将推理结果发送至用户侧设备；评估第一推理模型的性能，以确定是否需要对第一推理模型进行更新，若是，则更新第一推理模型。

Description

推理计算装置、模型训练装置、推理计算系统

技术领域

本申请涉及云计算技术领域，尤其涉及一种推理计算装置、模型训练装置、推理计算系统。

背景技术

云计算技术具有计算能力强、高可用性、高扩展性等特点，同时，云计算中应用程序被部署在云端设备，用户能够按需从云端设备处获取应用服务，提高了用户获取应用服务的便捷性，并提高了计算资源的整体率用率。

发明内容

一方面，提供一种推理计算装置，包括至少一个处理器和存储器；所述存储器存储有程序指令。所述程序指令可由所述至少一个处理器执行，使所述推理计算装置进行以下操作：接收来自模型训练装置的第一推理模型，其中，所述第一推理模型基于第一训练样本库，由所述模型训练装置通过模型训练得到；所述第一训练样本库包括来自生产制造阶段产生的历史数据的训练样本，所述模型训练装置包括云端设备；基于所述第一推理模型，进行生产制造阶段产生的待处理数据的推理计算，并得到推理结果，将所述推理结果发送至用户侧设备，所述推理计算装置相较于模型训练装置更靠近用户侧设备；评估所述第一推理模型的性能，以确定是否需要对所述第一推理模型进行更新，若是，则更新所述第一推理模型。

在一些实施例中，所述历史数据包括标记有缺陷信息内容的产品图像；所述待处理数据包括在生产制造阶段所产生的原始产品图像；所述推理结果包括识别所述原始产品图像中的缺陷类型信息。

在一些实施例中，对所述第一推理模型进行的更新包括：基于第二训练样本库，进行模型训练，得到第二推理模型；或者，向所述模型训练装置发送模型更新请求，得到第二推理模型，所述第二训练样本库包括来自历史数据的训练样本，和/或来自所述推理结果且经过复判的训练样本。在所述第二推理模型满足更新条件的情况下，用所述第二推理模型更新所述第一推理模型。

在一些实施例中，所述更新条件包括：对所述第二推理模型进行测试，所述第二推理模型通过所述测试。其中，所述测试包括基于测试样本对所述第二推理模型的性能进行评估，若性能符合评估要求，则判定为通过所述测试。

在一些实施例中，所述更新条件还包括：对所述第二推理模型进行灰度部署，并在所述灰度部署过程中对其性能进行评估，所述第二推理模型的性能符合评估要求。

在一些实施例中，所述更新条件还包括：对所述第二推理模型的配置信息进行校验，所述配置信息与需进行的推理计算相匹配。

在一些实施例中，在进行模型训练，得到第二推理模型；或者，向模型训练装置发送模型更新请求，得到第二推理模型之前，所述推理计算装置还进行以下操作：判断所进行的模型训练所需要的训练参数是否在设定的训练参数范围内；若是，则进行所述模型训练；若否，则向所述模型训练装置发送所述模型更新请求。

在一些实施例中，所述训练参数包括：模型训练中所需数据规模、训练时长、及计算能力中的至少一种。

在一些实施例中，用于评估所述推理模型的性能的评估参数包括：所述推理模型在推理计算过程中的准确率、精确率、召回率、及F分数中的至少一者。根据性能评估需要对所述第一推理模型进行更新的情况包括：第一推理模型出现性能波动或性能下降，其中，根据所述评估参数在连续的时间段内的变化情况，判断所述第一推理模型是否出现性能波动或性能下降。

在一些实施例中，根据性能评估需要对所述第一推理模型进行更新的情况包括：接收第三推理模型，所述第三推理模型为所述模型训练装置在未接收到所述模型更新请求的情况下，基于更新后的第一训练样本库进行模型训练得到，所述更新后的第一训练样本库包括来自所述推理结果且经过复判的训练样本。比较所述第一推理模型与所述第三推理模型的性能，若所述第三推理模型性能高于所述第一推理模型的性能，或者，若所述第一推理模型出现异常，用所述第三推理模型更新所述第一推理模型模型。

在一些实施例中，在用所述第二推理模型更新所述第一推理模型的情况下，所述推理计算装置还进行以下操作：对所述第二推理模型进行性能评估，比较所述第一推理模型与所述第二推理模型的性能；在所述第二推理模型的性能比所述第一推理模型的性能差的情况下，将所述第二推理模型回滚至所述第一推理模型；重新进行模型训练，或者重新请求所述模型训练装置进行模型训练。

在一些实施例中，在得到所述推理结果之后，所述推理计算装置还进行以下操作：根据所述推理结果，生成决策指令。其中，所述缺陷信息包括：识别出的具有缺陷的原始产品图像，及其缺陷位置和缺陷类型；所述决策指令包括：根据所述原始产品图像的缺陷信息，对所述具有缺陷的原始产品图像对应的产品进行相应的缺陷处理。

另一方面，提供一种模型训练装置，包括至少一个处理器和存储器；所述存储器存储有程序指令，所述程序指令可由所述至少一个处理器执行，使所述模型训练装置进行以下操作：基于第一训练样本库进行模型训练，得到第一推理模型；所述第一训练样本库包括来自生产制造阶段产生的历史数据的训练样本。将所述第一推理模型发送至推理计算装置；在接收来自所述推理计算装置的模型更新请求的情况下，基于更新后的第一训练样本库进行模型训练，得到第二推理模型；所述更新后的第一训练样本库包括来自所述第一推理模型的推理结果且经过复判的训练样本。将所述第二推理模型发送至所述推理计算装置。

在一些实施例中，在基于所述第一训练样本库，或所述更新后的第一训练样本库进行模型训练的过程中，所述模型训练装置进行以下操作：生成训练任务信息；根据所述训练任务信息，生成训练配置数据；从相应的训练样本库获取训练样本，基于所述训练样本和所述训练配置数据，进行模型训练，得到相应的推理模型。

在一些实施例中，在所述从相应的训练样本库获取训练样本，基于所述训练样本和所述训练配置数据，进行模型训练，得到相应的推理模型的过程中，所述模型训练装置还进行以下操作：监控模型训练的过程；在模型训练的过程出现异常的情况下，更新所述训练配置数据；基于所述训练样本和更新后的训练配置数据进行模型训练。

在一些实施例中，在将所述第一推理模型或所述第二推理模型发送至所述推理计算装置之前，所述模型训练装置还进行以下操作：对相应的推理模型的模型版本信息进行校验，判断所述模型版本信息是否正确，若是，则向所述推理计算装置发送相应的推理模型，若否，则查找模型版本符合要求的相应的推理模型；在查找到的情况下，将其发送至所述推理计算装置，或者，在未查找到的情况下，向所述推理计算装置发送通知信息。

在一些实施例中，所述模型训练装置还包括所述第一训练样本库，所述模型训练装置还进行以下操作：对所述第一训练样本库进行更新；在未接收所述模型更新请求的情况下，基于更新后的第一训练样本库进行模型训练，得到第三推理模型；将所述第三推理模型发送至所推理计算装置。

再一方面，提供一种计算机可读存储介质，存储有程序指令；所述程序指令可被处理器执行，使所述推理计算装置进行以下操作：接收第一推理模型，所述第一推理模型基于第一训练样本库，通过模型训练得到；所述第一训练样本库包括来自历史数据的训练样本。基于所述第一推理模型，进行工业生产中的待处理数据的推理计算，并得到推理结果。评估所述第一推理模型的性能，以确定是否需要对所述第一推理模型进行更新，若是，则更新所述第一推理模型。

再一方面，提供一种计算机可读存储介质，存储有程序指令；所述程序指令可被处理器执行，使所述模型训练装置进行以下操作：基于第一训练样本库进行模型训练，得到第一推理模型；所述第一训练样本库包括来自历史数据的训练样本。将所述第一推理模型发送至推理计算装置。在接收来自所述推理计算装置的模型更新请求的情况下，基于更新后的第一训练样本库进行模型训练，得到第二推理模型；所述更新后的第一训练样本库为使用来自所述第一推理模型的推理结果且经过复判的训练样本对所述第一训练样本库进行更新得到的。将所述第二推理模型发送至所述推理计算装置。

再一方面，提供一种推理计算系统，包括：如上任一实施例所述的推理计算装置，以及如上任一实施例所述的模型训练装置。

附图说明

图1为根据相关技术的一种用户侧-云端计算架构的结构示意图；

图2为根据相关技术的一种云端用户侧-边缘侧-云端计算架构的结构示意图；

图3为根据本公开的一些实施例的一种推理计算装置的结构示意图；

图4为根据本公开的一些实施例的一种推理计算装置和模型训练装置之间的交互示意图；

图5为根据本公开的一些实施例的一种模型训练装置的结构示意图；

图6为根据本公开的一些实施例的另一种推理计算装置和模型训练装置之间的交互示意图；

图7为根据本公开的一些实施例的再一种推理计算装置和模型训练装置之间的交互示意图；

图8为根据本公开的一些实施例的一种模型训练装置的操作步骤的流程图；

图9为根据本公开的一些实施例的另一种模型训练装置的操作步骤的流程图；

图10为根据本公开的一些实施例的一种推理计算系统的结构示意图；

图11为根据本公开的一些实施例的一种推理计算装置的结构图和一种模型训练装置的结构图。

具体实施方式

下面将结合附图，对本公开的一些实施例进行描述。显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本公开保护的范围。

在工业生产中，由于设备、参数、操作、环境干扰等环节存在的问题，会导致生产的产品存在不符合工艺要求甚至不良出现，所以需要在每道工序之后及时把不符合要求的不良缺陷产品找出，避免不良的继续产生。进一步地，还可以根据生产设备中的实时监测数据，如温度、压力、湿度等的变化，预测生产系统的运行状态，提前预防产品不良产生或者设备损坏等问题。

随着人工智能的不断发展，工厂可根据已经产生的大量生产数据利用机器学习的方法进行模型训练，得到推理模型，并将该模型应用在后续的生产过程中进行推理和预测，从而代替工厂的操作人员和数据分析人员，提高生产效率，减少人力成本。机器学习算法包括支持向量机(support vector machine，SVM)、级联算法(Adaboost)、决策树、随机森林、以及基于神经网络的深度学习算法等。

云计算(Cloud Computing)是分布式计算的一种，云计算能够通过网络“云”将数据计算处理程序分解成多个小的计算处理程序，具有计算能力强、高可用性、高扩展性等特点。在工厂的生产过程中会产生大量的生产数据，云计算能够训练出处理该大量的生产数据的推理模型，并通过推理模型对生产数据进行推理计算，这样，多部服务器组成的系统(也即云端设备)对用户侧设备(即工厂中的生产设备)上传的待处理数据进行推理计算得到推理结果，然后对该推理结果进行分析，得到云端决策结果，并将该云端决策结果发送给用户侧设备，从而能够实现生产过程中的物联网。这里，称上述这种计算架构为用户侧-云端计算架构。

下面参照图1，对用户侧-云端计算架构进行示例性的介绍。用户侧设备3’将待处理数据(即生产设备所产生的生产数据)上传至云端设备2’，云端设备2’对所上传的待处理数据进行推理计算，并得到决策结果，而后将决策结果发送回用户侧设备3’。用户侧设备3’根据所接收到的决策结果，做出相应的动作，从而能够实现对用户侧设备3’的统一管理。

然而，用户端侧设备3’上传的待处理数据数量较多，在待处理数据的上传过程中，上传所用的网络带宽及网管权限等会对上传速度造成较大的限制，造成数据处理的时效性较差。此外，大量的待处理数据被上传至云端设备3’后需先被存储，这会占用云端设备3’较多的资源，给云端设备带来较大负担。

为解决上述用户侧-云端计算架构存在的问题，可采用用户侧-边缘侧-云端计算架构对生产制备过程中产生的生产数据进行处理。

参见图3～图5，本公开的一些实施例提供了一种推理计算装置100，包括至少一个处理器110和存储器120。存储器120中存储有程序指令。其中，该程序指令可由所述至少一个处理器110执行，使推理计算装置100进行以下操作S10～S40：

S10、接收来自模型训练装置200的第一推理模型。其中，第一推理模型基于第一训练样本库，由模型训练装置200通过模型训练得到，第一训练样本库包括来自历生产制造阶段产生的史数据的训练样本，该模型训练装置200包括云端设备。也即，模型训练装置200可以是云端设备。

在一个示例中，模型训练装置200对神经网络模型进行训练，主要包括以下步骤：选择网络拓扑；使用表示被网络建模的问题的一组训练数据；以及调节权重，直到网络模型针对训练数据集的所有实例表现为具有最小误差。例如，在用于神经网络的监督式学习训练过程期间，将由网络响应于表示训练数据集中的实例的输入所产生的输出与该实例的“正确”的已标记输出相比较；计算表示所述输出与已标记输出之间的差异的误差信号；以及当将误差信号向后传播穿过网络的层时，调节与所述连接相关联的权重以最小化该误差。当从训练数据集的实例中生成的每个输出的误差被最小化时，该神经网络模型被视为“已经过训练”，并可以用于人工智能推理任务。

神经网络模型的推理和训练过程中，涉及大量参数、激活值、梯度值的缓冲区，其每个值在每一次训练迭代中都要被完全更新，对计算和吞吐能力的需求非常高。而GPU(Graphics Processing Unit，图形处理器)具有简便的编程模型、强并行能力和高显存带宽，在处理与训练深度神经网络相关联的计算时极其高效。因此，使用多个GPU集成的GPU集群可以有效地提高神经网络模型的训练和推理速度。

推理模型可以是神经网络模型，例如，前馈神经网络模型、卷积神经网络(Convolutional Neural Network，简称为CNN)模型、循环神经网络(RNN，Recurrent Neural Network)模型、生成式对抗网络(GAN，Generative Adversarial Network)模型，但不限于此，也可以采用本领域技术人员公知的其他神经网络模型。

S20、基于第一推理模型，进行生产制造阶段产生的待处理数据的推理计算，得到推理结果，将该推理结果发送至用户侧设备，所述推理计算装置100相较于模型训练装置200更靠近用户侧设备。

在一个示例中，参见图2，推理计算装置100为边缘侧设备1’，模型训练装置200为云端设备2’，边缘侧设备1’的部署位置位于用户侧设备3’和云端设备2’之间，且靠近用户侧设备3’的一端，边缘侧设备1’利用推理模型对来自用户侧设备3’的待处理数据进行推理计算，据此得到边缘侧决策结果，并将该边缘侧决策结果发送给用户侧设备3’；或者，边缘侧设备1’将推理计算后的计算结果上传至云端设备2’，由云端设备2’处理和分析该上传的计算结果，得到云端决策结果，而后将云端决策结果发送给用户侧设备3’。在另一个示例中，可将边缘侧设备1’集成于用户侧设备3’中，也即用户侧设备3’会产生生产数据，同时对所产生的生产数据进行推理计算。

相对于云端设备2’而言，边缘侧设备1’更靠近用户侧设备3’，因此，待处理数据的传输过程中耗时相对较少，这使得数据处理的时效性增加。并且，由于无需将待处理数据上传至云端设备2’，因此对于云端设备2’的资源的占用较少，从而减轻了云端设备的负担。此外，在上述用户侧-边缘侧-云端计算架构中，云端设备2’可充分利用其强大的计算能力，进行无需实时反馈决策的模型训练工作。

需要说明的是，边缘侧设备1’中的推理模型指的是利用一定的算法(如机器学习算法)进行推理计算的算法结构，这里，需要通过模型训练得到满足边缘设备1’的推理计算需求的推理模型。其中，模型训练指的是，通过对大量训练样本进行多次的迭代和计算，提取出这些训练样本的特定特征，最终得到能够在具有该特定特征的数据集上收敛的算法结构和参数值等，也即，得到能够识别具有特定特征的数据的推理模型。

其中，用于模型训练的大量训练数据集样本以及验证数据集，以及用于测试训练出的模型的测试数据集。三者都包括原始图像样本和对应的标注的信息。三者中的原始图像样本可以完全重合、有交集、或者甚至完全没有交集，相应地，训练数据集、验证数据集和测试数据集完全重合、有交集、或者甚至完全没有交集。完全没有交集是理想的情况，这样训练出的训练模型相对可靠。

例如，在显示面板生产过程中，需要对各工艺环节完成后显示面板进行拍照以得到显示面板的图像(如阵列基板的图像)，通过识别图像中是否有缺陷、以及缺陷的种类和位置，得到显示面板的缺陷信息，并将具有缺陷的显示面板和其缺陷信息进行标记，然后根据不同缺陷分别使用相应的修复工艺对其进行修复。图像识别可通过深度学习的神经网络模型实现计算机视觉识别，通过云端设备1’进行样本训练后，将推理模型发送给边缘侧设备2’，用户侧3’产生的图像直接通过边缘侧设备2’，快速的做出推理计算，省去了传输到云端计算的带宽压力和延迟。

示例性的，通过神经网络模型识别图像中的缺陷内容的实现方式如下，首先将产品图像缩放至固定像素大小M×N(也可不进行缩放)，然后将M×N图像送入深度卷积神经网络，例如，VGGNet、ResNet和MobileNet等；通过多层卷积层、激活层、池化层，获得整个图像的特征图(feature maps)；把特征图输入到筛选区域网络(ZF/SSD/RPN等)，经过计算，获得建议区域(proposal region)；然后，针对建议区域进行卷积池化等操作，获得建议区域的区域特征图(proposal feature)，再将区域特征图(proposal feature)送入后续全连接和softmax网络作分类(classification即分类proposal到底是什么缺陷)，获得最大概率的缺陷类别作为最后分类结果，记录类别和概率。另外建议区域(proposal region)的坐标和尺寸代表了缺陷的位置和大小。基于缺陷模型识别产品缺陷内容的方法可以采用上述方法的类似变形或者其他本领域技术人员公知的方法，本公开在此不做限定。

S30、评估第一推理模型的性能，以确定是否需要对第一推理模型进行更新。

随着来自用户端侧设备3’的待处理数据不断产生和更新，具有新特征(指模型训练时未出现过的特征)的待处理数据不断出现，导致推理模型的推理计算能力逐渐下降，推理模型所得到的边缘侧决策结果的准确性随之下降。以显示面板的生产制备为例，新型号产品的生产制备、生产工艺的更新升级、生产设备的更新换代等因素，可能会导致所制备的显示面板出现新种类的缺陷，该新种类的缺陷是推理模型在模型训练时的训练样本中未出现过的，这样会导致推理模型无法对新种类的缺陷进行识别，从而使推理模型不再满足生产制备过程中的缺陷识别和分类要求。

正如前文中所提到的，推理模型需要通过大量的训练样本，经模型训练之后得到。其中，训练样本可视为由至少一条数据形成的数据集，且训练样本可以包括多种形式的数据，示例性的，训练数据可包括图像、视频、音频等，此处不做具体限定。用于训练第一推理模型的大量的训练样本是来自第一训练样本库的，第一训练样本库中的训练样本包括来自历史数据的训练样本。这里，历史数据指的是已经过判断，且标记有正确结果的生产数据，示例性的，通过人工判断或其他能够正确判断的设备对生产数据进行判断，得到如上所述的历史数据。由于历史数据已被标记有正确结果，因此其能够作为模型训练中的训练样本。

示例性的，以显示面板的生产制备为例，第一推理模型要处理的待处理数据包括在生产制造阶段所产生的原始产品图像，第一推理模型的推理结果包括原始产品图像中的缺陷信息。这里，原始产品图像为未经过处理的图像，第一推理模型需要对该原始产品图像进行推理计算，以得到该原始产品图像中的缺陷信息，例如，识别出缺陷位置和缺陷类型。如上所述的历史数据包括标记有缺陷类型的产品图像，这里，所标记的缺陷类型为正确结果。需要说明的是，推理计算装置100在评估第一推理模型的性能时，会将第一推理模型经推理计算后得到的推理结果与正确结果进行比较，以此实现对第一推理模型的性能评估，这里，正确结果可以为经人工判断后，被输入至推理计算装置100。

示例性的，以显示面板的生产制备为例，工作人员对固定时段(例如，每天的14：00-15：00)内生产线上的显示屏的原始产品图像进行判断，以判断出具有缺陷的原始显示屏图像，并标记出缺陷类型，而后将人工判断的结果作为正确结果输入至推理计算装置100。在另一些示例中，随机抽取固定数量的原始产品图像进行人工判断，以得到人工判断的结果。在另一些示例中，将指定批次的显示屏的原始产品图像进行人工判断，以得到人工判断的结果。

示例性的，在S20的基于第一推理模型，进行生产制造阶段产生的待处理数据的推理计算的过程中，进行S30，评估第一推理模型的性能。

S40、若是，则更新第一推理模型。

在如上所述的推理计算装置100中，通过对第一推理模型进行性能评估，能够得知第一推理模型的性能是否满足当前的推理需求，或者能够根据性能评估结果对第一推理模型的性能的变化趋势进行预判，以此可以确定是否需要对第一推理模型进行更新。在得知第一推理模型的性能不满足当前的推理需求，或通过预判得知第一推理模型的性能将不满足推理需求的情况下，即确定需要对第一推理模型进行更新的情况下，更新第一推理模型。这样能够对第一推理模型的性能进行监测，在其性能不满足推理需求时，能够及时知晓，并对其进行更新，从而保证了推理计算装置100所使用的第一推理模型的性能符合要求，提高了推理计算装置100的推理结果的准确性。进而，能够提高基于该推理结果所做出的决策指令的正确性。

需要说明的是，对于推理计算装置100的应用场景并不做具体限定，例如，推理计算装置100可以作为边缘侧设备。又例如，推理计算装置100可以被集成于用户侧设备(即生产设备)中。

示例性的，以显示面板的生产制备为例，推理计算装置100从用户侧设备处获取显示面板在制造阶段的原始产品图像，该原始产品图像作为推理计算装置100需要处理的未处理数据。用户侧设备可以包括：光学自动检测(Automated Optical Inspection，缩写AOI)设备、分布式文件系统(Distributed File System，简称DFS)或图像服务器，该用户侧设备可以采用，例如基于文件传输协议(File Transfer Protocol，缩写FTP)的方式，实时抓取生产过程中的显示面板的图像，做为原始产品图像，也即作为待处理数据。需要说明的是，这里仅以待处理数据为图像形式进行了示例性的说明，实际上待处理数据可包括多种形式的数据，例如其可包括文档文件、照片、图纸资料、缩微胶片、视频和音频等非结构化数据中的至少一种，也可以包括如数据库所管理的信息等结构化信息中的至少一种，此处不做具体限定。

而后，推理计算装置100根据第一推理模型进行推理计算。这里，以第一推理模型为神经网络模型为例，神经网络模型从原始产品图像中识别出缺陷，而后对其进行缺陷信息的标记，所标记的缺陷信息包括以下几种中的至少一种：

缺陷类型。示例性的，缺陷类型包括：微粒(particle)、残留(remain)、线不良(line)、孔洞(hole)、溅落(splash)、静电击穿、褶皱(wrinkle)、膜层变色(film color)和气泡(bubble)等分类。此外，这些分类还可进一步划分为若干各等级，例如缺陷类型为微粒，以P代表微粒，则可按照所形成的微粒的不同形态，将该类缺陷进一步划分为多个等级，如P0代表普通微粒 (Normal Particle)、P1代表沉积性微粒(Wall Particle)、P2代表散沙微粒(Sand Particle)等。

缺陷位置。示例性的，缺陷位置包括：识别出的缺陷所在的电路板、缺陷所在的层级或缺陷所在的掩膜层等可示出缺陷位置的信息中的至少一种，以识别出的缺陷位于某块电路板为例，缺陷位置可示出该缺陷在该电路板上的具体坐标，也可通过矩形框或圆形框等显示边框对该缺陷框选，并以与显示边框相关的某点的坐标，如用矩形框的某个顶点坐标表示该缺陷的坐标，或用圆形框的圆心坐标表示该缺陷的坐标。

缺陷与阵列基板(Array Substrate)的电路元件的关系。例如，缺陷区域所覆盖的栅极的数量、缺陷是否完全落在栅极内、与之相交、还是其外附近等。

缺陷大小。可以以缺陷的长度或者缺陷的区域面积(例如，缺陷所占有效显示区的面积)。

此外，示例性的，如上所述的缺陷信息可以以代码(例如与微粒这一缺陷类型的分类对应的代码P0～P2)、坐标值、数字、文字描述等多种形式表示。

在一个示例中，进行原始产品图像中的缺陷识别后，第一推理模型会对识别出的缺陷进行缺陷类型和缺陷位置的标记。这里，通过识别出的缺陷的类型代码，对应标记出缺陷类型；使用矩形线框在原始图片中标记缺陷位置，并记录对应图片中矩形线框的坐标信息。

基于此，在一些实施例中，在第一推理模型对待处理数据进行推理计算的过程中，评估第一推理模型的性能(S30)。在这种情况下，示例性的，用于评估第一推理模型的性能的评估参数包括：第一推理模型在推理计算中的准确率(Accuracy)、精确率(Precision)、召回率(Recall)、及F分数(F _Score)中的至少一者。

这里，可以通过如下公式(1)计算出准确率，通过如下公式(2)计算出精确率，通过如下公式(3)计算出召回率，之后通过如下公式(4)计算出F分数：

Accuracy＝(TP+TN)/(TP+FP+TN+FN) (1)；

Precision＝TP/(TP+FP) (2)；

Recall＝TP/(TP+FN) (3)；

F _Score＝[(1+β ²)·Precision·Recall]/(β ²·Precision+Recall) (4)。

其中，TP(Ture Positive，真正)表示计算结果为正，实际结果也为正，也就是说，推理模型经推理计算后，得到的计算结果为A(这里，A代表一种结果)，实际结果也为A，此时计算结果与实际结果一致。

FP(False Positive，假正)表示计算结果为正，实际结果为负，也就是说，推理模型经推理计算后，得到的计算结果A，但实际结果为非A，此时计算结果和实际结果不一致。

FN(False Negative，假负)表示计算结果为负，实际结果为正，也就是说，推理模型经推理计算后，得到的计算结果为非A，但实际结果是A，此时计算结果和实际结果不一致。

TN(Ture Negative，真负)表示推理计算结果为负，实际结果也为负，也就是说，推理模型经推理计算后，得到的计算结果为非A，实际结果也为非A，此时计算结果与实际结果一致。

需要说明的是，精确率、精确率、召回率和F分数为表征第一推理模型的性能的评估参数。对第一推理模型进行性能评估时，所选用的评估参数可以根据推理计算装置100的实际的推理计算需求来确定。

示例性的，若推理计算装置100的推理计算需求更侧重于精确率，则将精确率作为评估推理模型性能的评估参数。

作为另一种示例，采用F分数对第一推理模型进行性能评估。其中，F分数是对于精确率和召回率加权后得到的评估参数。这里，计算F分数所用的β是一个权重系数，通过调整β的大小，能够调整性能评估时的精确率和召回率的侧重比例，β的大小可以根据不同的应用场景按照做相应的调整，例如，β设置为1，这样在对第一推理模型进行性能评估是，精确率和召回率对于评估结果的影响相同，也即精确率和召回率的侧重比例相同。

在一个示例中，推理计算装置100需要通过第一推理模型的推理计算，判断1000张图片中是猫或是狗，这里，推理计算装置100的判断结果即为其作出的决策。经过人工判断，该1000张图片均为狗的图片，也即实际结果为：这1000张图片中均是狗。第一推理模型经过推理计算，得到的计算结果为：判断为狗的图片为720张，判断为猫的图片为80张，剩余的200张图片无法做出判断。

在该种情况下，计算结果是狗、实际结果也是狗的图片为720张，计算结果是猫、实际结果不是猫的图片为0张，即TP为720；计算结果是狗、实际结果不是狗的图片为0张，计算结果是猫、实际结果不是猫的图片为80张，即FP为80；计算结果不是狗(包括计算结果为猫的图片的数量和无法判断的图片的数量之和)、实际结果是狗的图片为280张，计算结果不是猫、实际结果是猫的图片为0张，即FN为280；计算结果不是狗、实际结果也不是狗的图片为0张，计算结果不是猫(包括计算结果为狗的图片的数量和无法判断的图片的数量之和)、实际结果也不是猫的图片为920张，即TN为920。

将TP、FP、FN和TN的值代入公式(1)、(2)、(3)和(4)中，其中，β为1，能够得到：准确率为0.82，精确率为0.9，召回率为0.72，F分数为0.8。

在一些实施例中，根据推理计算装置100的实际推理计算需求，为评估参数设定下限值。

例如，在对第一推理模型的至少一次性能评估中，若得到的评估参数值均低于该下限值，则评估结果判定第一推理模型的性能下降；若得到的评估参数均高于或等于该下限值，则评估结果判定第一推理模型性能符合要求。

又例如，在几次连续的性能评估中，若得到的评估参数时而高于或等于该下限值，时而低于该下限值，则评估结果判定推理模型的性能波动；若得到的参数均高于或等于该下限值，则评估结果判定第一推理模型性能符合要求。

示例性的，以评估参数为精确率为例，精确率的下限值设定为0.95。在一次性能评估中，得到该第一推理模型的精确率为0.92，则评估结果为性能下降。在另一个示例中，若在五次连续的性能评估中，得到该第一推理模型的精确率依次为0.96、093、097、0.92、0.95，则评估结果为性能波动。

在一些实施例中，根据S30中的对第一推理模型的性能进行的评估，需要对第一推理模型进行更新的情况包括：第一推理模型出现性能波动或性能下降。其中，根据评估参数在连续的时间段内的变化情况，判断第一推理模型是否出现性能波动或性能下降。

在一些实施例中，参见图3和图6，S40中对第一推理模型进行的更新，包括：

S401a、基于第二训练样本库，进行模型训练，得到第二推理模型；或者，S401b、向模型训练装置200发送模型更新请求，得到第二推理模型。其中，第二训练样本库包括：来自历史数据的训练样本，和/或来自推理结果且经过复判的训练样本。

S402、在第二推理模型满足更新条件的情况下，用第二推理模型更新第一推理模型。

需要说明的是，上述“推理结果”指的是即为在S20中，由第一推理模型进行推理计算后得到推理结果。这里以及后文中提到的“来自推理结果且经过复判”指的是，对第一推理模型的推理结果进行复判，例如对第一推理模型的推理结果进行人工判断处理，得到标记有正确结果的生产数据。示例性的，以显示面板的生产制备为例，待处理数据为显示面板的原始产品图像，将这些显示面板的原始产品图像发送给推理计算装置100，并通过第一推理模型对其进行推理计算，得到推理结果，而后将该推理结果经过复判后，即得到已标记有正确结果的显示面板的产品图像，将此作为第二样训练本库150的训练样本的来源。

第二训练样本库包括来自推理结果且经过复判的训练样本，由于推理结果会在生产制备过程中不断地由推理计算装置100生成，因此将此作为第二训练样本库的训练样本的来源，会使第二训练样本库的训练样本较新，包括有生产制备过程中生产数据新出现的特征的训练样本。这样，能够保证推理计算装置100在模型训练中使用的为较新的训练样本，因此，与第一推理模型相比，所得到的第二推理模型对新出现的、带有新特征的待处理数据的推理计算能力较强。在用第二推理模型对第一推理模型进行更新的情况下，能够增加推理计算装置100的推理结果的准确性。

这里，对于S401a中的第二训练样本库，在一个示例中，如图3所示，推理计算装置100包括该第二训练样本库，第二训练样本库存储于存储器120中。而在另一个示例中，第二训练样本库存储于其他存储器中，推理计算装置100可从该其他存储设备中获取到第二训练样本库。

示例性的，参见图3，推理计算装置100可作为边缘侧设备，模型训练装置可作为云端设备，即推理计算装置100(边缘侧设备)所处位置相对于模型训练装置200(云端设备)更靠近用户侧设备。

进一步的，推理计算装置100还包括耦合接口150，耦合接口150可通过有线或无线的方式使推理计算装置100与用户侧设备通信，实现信息交互。此处，耦合接口150可以是任何硬件的或软件的、能够实现有线或者无线的连接的接口。

推理计算装置100还包括网络接口140，网络接口140与模型训练装置200进行通信连接，实现信息交互。此处，推理计算装置100通过该网络接口140，可利用传输控制协议/网际协议(Transmission Control Protocol/Internet Protocol，简称为TCP/IP)或超文本传输协议(Hyper Text Transfer Protocol，简称为HTTP)等协议中的至少一种，与外界(例如模型训练装置200)进行信息交互。

例如，推理计算装置100通过网络接口140与模型训练装置200通信连接，从而能够接收第一推理模型，或能够进行S401b中的向模型训练装置200发送模型更新请求，并获得第二推理模型。也即，实现了与模型训练装置200的信息交互。

在一些实施例中，图6所示的第二推理模型需要满足的更新条件包括：对第二推理模型进行测试，第二推理模型通过测试。

其中，所述测试包括：基于测试样本，对第二推理模型的性能进行评估。若性能符合评估要求，则判定为通过该测试。这里，对于测试样本的来源不做具体限定，例如，该测试样本来自所述历史数据，也即已被标记有正确的识别信息的生产数据；又例如，该测试样本来自已经过人工判断后的待处理数据；又例如，该测试样本部分来自所述历史数据，部分来自经过人工判断的待处理数据。当然，如上所述的测试样本的来源不仅限于这些。

此外，也可以根据一定的测试频率和一定的测试程度，在多个测试样本中挑选出特定的测试样例，据此生成至少一个测试计划，而后推理计算装置100根据所述至少一个测试计划对如上所述的第二推理模型进行测试。

基于此，在一些实施例中，如上所述的更新条件还包括：对第二推理模型进行灰度部署，并在灰度部署过程中对该第二推理模型的性能进行评估，该第二推理模型的性能符合评估要求。

“灰度部署”指的是在预设时间内，推理计算装置100使用第二推理模型进行待处理数据的模拟处理。示例性的，灰度部署过程中，推理计算装置100同时使用第一推理模型和第二推理模型对用户侧设备发送来的待处理数据进行处理。在此过程中，推理计算装置100会输出第一推理模型的推理结果，而第二推理模型的推理结果仅作为评估其性能使用，而不会作为真正的推理结果输出，即推理计算装置100不会基于灰度部署过程中第二推理模型得到的推理结果，生成决策指令，因此，对于第二推理模型的灰度部署将不会影响到推理计算装置100对于待处理数据的处理，其对生产线的正常生产没有影响。

通过对第二推理模型在模拟处理过程中的性能进行评估，预估第二推理模型的性能是否能够满足要求。灰度部署过程中，第二推理模型所进行推理计算的待处理数据均还需要进行人工判断，这里，人工判断的结果作为正确结果，以供推理计算装置100将人工判断的结果和第二推理模型的推理结果进行比较，从而在灰度部署过程中对该第二推理模型的性能进行评估。

示例性的，将用户侧设备发送来的显示面板的原始产品图像，一份发送给推理计算装置100，用于灰度部署过程中的第二推理模型的的模拟处理，一份用于人工判断得到正确结果，推理计算装置100比较推理结果和正确结果，从而实现对第二推理模型的性能评估。

此外，本领域技术人员应当理解，灰度部署中对第二推理模型的性能进行评估时，同样可以将准确率(Accuracy)、精确率(Precision)、召回率(Recall)、及F分数(FScore)中的至少一者做为评估参数，对第二推理模型的性能进行评估，此处不做具体限定。

需要说明的是，在如上所述的测试和灰度部署中，经人工判断的待处理数据已被标记了正确结果。因此可将该标记了正确结果的待处理数据发送至第一训练样本库(第一训练样本库为模型训练装置200进行模型训练时所基于的训练样本库)和/或第二训练样本库，以将其作为模型训练中的训练样本，这样能够实现对第一训练样本库和/或第二训练样本库的更新。

在一些实施例中，如上所述的更新条件还包括：对第二推理模型的配置信息进行校验，第二推理模型的配置信息与需进行的推理计算相匹配。

这里，“需进行的推理计算”指的是推理计算装置100对待处理数据所进行的推理计算。以显示面板的生产制备过程中，需要识别缺陷和缺陷类型为例，则“需进行的推理计算”指的是推理计算装置100需要对原始产品图像中的缺陷进行识别，并进一步识别缺陷类型。这样，通过对第二推理模型的配置信息进行校验，能够检测出第二推理模型在传输过程中其数据是否被破坏或篡改，从而保证推理计算装置100所得到的第二推理模型与推理计算装置100的推理计算需求相匹配。

在一些实施例中，参见图6，在基于第二训练样本库，进行模型训练(S401a)之前；或者，向模型训练装置200发送模型更新请求(S401b)之前，推理计算装置100还进行以下操作：

S35、判断所进行的模型训练所需要的训练参数是否在设定的训练参数范围内。若是，则进行所述模型训练(S401a)，也即该种情况下，推理计算装置100进行模型训练，得到第二推理模型；若否，则向模型训练装置200发送模型更新请求，也即该种情况下，由模型训练装置200进行模型训练，得到第二推理模型。

这里，“设定的训练参数范围”指的是，使得推理计算装置100的训练能力符合所进行的模型训练的要求时所对应的训练参数范围，也就是说，所进行的模型训练的训练参数若在设定的训练参数范围内，那么推理计算装置100的训练能力符合所进行的模型训练的要求，这种情况下，推理计算装置100本身的模型训练能力可以完成此次模型训练，因此，推理计算装置100进行此次模型训练即可得到第二推理模型。反之，所进行的模型训练的训练参数若不在设定的训练参数范围内，那么推理计算装置100的模型训练能力不符合所进行的模型训练的要求，这种情况下，推理计算装置100本身的训练能力不足以完成此次模型训练，因此需要向模型训练装置200发送模型更新请求，使模型训练装置200来完成此次模型训练，得到第二推理模型。示例性的，模型训练装置200为云端设备。

在一些实施例中，如上所述的训练参数包括：模型训练中所需数据规模、训练时长、及计算能力中的至少一种。

示例性的，以训练参数为模型训练中所需数据规模和预计训练时长为例，某次模型训练中所需数据规模为2000张图像和对应2000个标签，所需训练时长为15min；设定的数据规模为3000张图像和3000个对应标签，设定的训练时长为20min。这种情况下，模型训练中所需的数据规模在设定的数据规模的范围之内，所需的训练时长在设定的训练时长的范围之内，也就是说，推理计算装置100的模型训练能力符合模型训练要求，则推理计算装置100进行此次模型训练(也即进行S401a)。

反之，若在另一次模型训练中所需的数据规模不在设定的数据规模的范围之内，所需的训练时长不在设定的训练时长的范围之内，说明边缘侧设备的模型训练能力不符合此次模型训练要求，则推理计算装置100向模型训练装置200发送模型更新请求，以使模型训练装置200进行此次模型训练。

如此一来，在推理计算装置100的模型训练能力符合一次模型训练要求的情况下，让推理计算装置100进行模型训练，节省了向模型训练装置200发送请求的时间和接收来自模型训练装置200的第二推理模型的时间，推理计算装置100能够更及时地得到满足推理计算需求的推理模型，对推理模型进行更新，从而进一步提高了推理结果的准确性。

此外，在如上所述的模型训练装置200为云端设备的情况下，与均需请求云端设备进行模型训练的方案相比，在推理计算装置100符合模型训练要求的情况下，让推理计算装置100自主进行模型训练，能够减轻云端设备的负担，减少对云端设备资源的不必要的占用，从而提高了云端设备的资源利用率。

在一些实施例中，参见图6，在用第二推理模型更新第一推理模型的情况下，也即在进行了S402之后，推理计算装置100还进行以下操作：

对第二推理模型进行性能评估，比较第一推理模型与第二推理模型的性能。

若第二推理模型的性能比第一推理模型的性能差，则将第二推理模型回滚至第一推理模型，并重新进行模型训练，或重新请求模型训练装置200进行模型训练。

如此一来，在实际处理待处理数据的过程中，若第二推理模型的性能不如第一推理模型的性能，推理计算装置100能够将更新后的第二推理模型回滚至更新前的第一推理模型。而后推理计算装置100重新进行模型训练，或者重新请求模型训练装置200进行模型训练。

在一些实施例中，参见图7，根据S30中的对第一推理模型的性能评估，需要对第一推理模型进行更新的情况包括：

S80、接收第三推理模型。

该第三推理模型为模型训练装置200在未接收到推理计算装置100的模型更新请求的情况下，基于更新后的第一训练样本库进行模型训练得到。其中，更新后的第一训练样本库包括来自所述推理结果且经过复判的训练样本，也就是说，更新后的第一训练样本库为使用来自所述推理结果且经过复判的训练样本对第一训练样本库进行更新得到的。

S81、比较第一推理模型与第三推理模型的性能。

S82、若第三推理模型性能高于第一推理模型的性能，或者，若第一推理模型出现异常，用第三推理模型更新第一推理模型模型。

这样，更新后的第一训练样本库的训练样本较新，包括有生产制备过程中生产数据新出现的特征的训练样本，能够保证模型训练装置200在模型训练中使用的为较新的训练样本。因此，与第一推理模型相比，所得到的第三推理模型对新出现的、带有新特征的待处理数据的推理计算能力较强。在用第三推理模型对第一推理模型进行更新的情况下，能够增加推理计算装置100的推理结果的准确性。

此外，第一推理模型出现异常指的是，第一推理模型无法输出正确的推理结果，例如，第一推理模型性能突然下降；或者，第一推理模型不按要求输出推理结果；或者，第一推理模型的推理计算时间过长、超时严重。也就是说，第三推理模型可作为备份推理模型，在第一推理模型出现异常状况时，对其进行替换。并且，在对第一推理模型的性能进行评估后，需要对第一推理模型进行更新，也即第一推理模型的性能不再符合要求，这种情况下，可在推理计算装置100或模型训练装置200进行模型训练的这段时间内，用第三推理模型代替性能不符合要求的第一推理模型进行待处理数据的处理，以保证推理计算装置100的正常运行。

在一些实施例中，参见图6，在得到推理结果(S20)之后，推理计算装置100还进行以下操作：S70、根据推理结果，生成决策指令。

其中，缺陷信息包括：识别出的具有缺陷的原始产品图像，及其缺陷位置和缺陷类型。决策指令包括：根据原始产品图像的缺陷信息，对具有缺陷的原始产品图像对应的产品进行相应的缺陷处理。例如，根据识别出的缺陷类型，给出对应该类型缺陷的修复策略；又例如，基于历史数据分析，给出可能产生该类型缺陷的原因(如某一台或几台工艺设备出现故障，或某些工艺参数设置不合理等)；又例如，出现未知缺陷或大面积缺陷时，进行报警等。

需要说明的是，决策指令也可以不是推理计算装置100生成的。例如，推理计算装置100在得到推理结果后，将推理结果上传至云端设备，由云端设备对该推理结果进行计算分析，并生成决策结果指令，再发送回推理计算装置100，在这种情况下，推理计算装置100做为前文提到的用户侧-边缘侧-云端计算架构中的边缘侧设备，并且边缘侧设备在对待处理数据做了初步处理(推理计算)后，将推理结果发送给云端设备，云端设备可通过其强大的计算能力，作出决策指令发送回边缘侧设备。这样，能够实现对于工厂生产设备的统一规划、管理和配置等。

参见图5和图6，本公开的一些实施例还提供了一种模型训练装置200，包括至少一个处理器210和存储器220。其中，存储器220中存储有程序指令，该程序令可由所述至少一个处理器210执行，模型训练装置200进行以下操作A10～A40：

A10、基于第一训练样本库进行模型训练，得到第一推理模型。其中，第一训练样本库包括来自生产制造阶段产生的历史数据的训练样本。

这里，历史数据同样是指已经过人工判断的生产数据，为标记有正确结果的生产数据。

示例性的，模型训练装置200包括该第一训练样本库，第一训练样本库存储于存储器220中。作为另一种示例，第一训练样本库被存储于存储器220以外的其他存储器中。

A20、将第一推理模型发送至推理计算装置100。

在接收来自推理计算装置100的模型更新请求的情况下，

A30、基于更新后的第一训练样本库进行模型训练，得到第二推理模型。其中，更新后的第一训练样本库包括来自第一推理模型的推理结果且经过复判的训练样本。

A40、将第二推理模型发送至推理计算装置100。

由于更新后的第一训练样本库的训练样本较新，包括有生产制备过程中生产数据新出现的特征的训练样本，因此能够保证模型训练装置200在模型训练中使用的为较新的训练样本。基于更新后的第一训练样本库进行模型训练后得到的第二推理模型，对新出现的、带有新特征的待处理数据的推理计算能力较强。在用第二推理模型对第一推理模型进行更新的情况下，能够增加推理计算装置100的推理结果的准确性。

示例性的，参见图5，模型训练装置200还包括网络接口240，模型训练装置200能够通过网络接口240与其他设备(例如，用户侧设备和/或模型训练装置200)进行通信连接，实现信息交互。

此处，模型训练装置200通过该网络接口240，可利用传输控制协议/网际协议(Transmission Control Protocol/Internet Protocol，简称为TCP/IP)或超文本传输协议(Hyper Text Transfer Protocol，简称为HTTP)等协议中的至少一种，与外界(例如推理计算装置100)进行信息交互。

例如，模型训练装置200通过网络接口240与推理计算模型100通信，从而可以将第一推理模型发送至推理计算装置100，或接收来自推理计算装置100的模型更新请求，或将第二推理模型发送至推理计算装置100。

在一些实施例中，在基于第一训练样本库进行模型训练的过程中(即A10中)，或基于更新后的第一训练样本库进行模型训练的过程中(即A30中)，参见图8，模型训练装置200进行以下操作：

B1、生成训练任务信息。

B2、根据训练任务信息，生成训练配置数据。

B3、从相应的训练样本库获取训练样本，基于训练样本和训练配置数据，进行模型训练，得到相应的推理模型。

这里，及后文中提到的“相应的训练样本库”和“相应的推理模型”是相对于所进行的模型训练而言的，即若进行A10，则会从第一训练样本库获取训练样本，经过模型训练后，得到第一推理模型。若进行的是A30，则会从更新后的第一训练样本库获取训练样本，经过模型训练后，得到第二推理摸模型。

此外，训练任务信息是根据接收的推理计算装置100发送来的模型更新请求而生成的，其包括模型训练的训练要求，例如，通过此次模型训练所获得的第二推理模型需要具有特定的推理计算功能，并能够得到计算结果。

训练配置数据中包括根据训练要求生成训练调度信息，根据训练调度信息能够得知此次模型训练所需调用的训练样本，示例性的，训练调度信息包括数据标识，通过该数据标识能够查找到模型训练所需调用的训练样本。

示例性的，参见图9，在B3中进行模型训练的过程中，模型训练装置200还进行以下操作：

B31、监控模型训练的过程。

B32、在模型训练的过程出现异常的情况下，更新训练配置数据。

B33、基于训练样本和更新后的训练配置数据进行模型训练。

在一些实施例中，在将第一推理模型发送至推理计算装置100之前(即图6中A20之前)，或第二推理模型发送至推理计算装置100之前(即图6中A40之前)，模型训练装置100还进行以下操作：

对相应的推理模型的模型版本信息进行校验，判断模型版本信息是否正确。

若模型版本信息是正确的，则向推理计算装置100发送相应的推理模型。

这里，在发送的是第一推理模型的情况下，若判断模型版本信息正确，则进行A20；在发送的是第二推理模型的情况下，若判断模型版本信息正确，则进行A40。

若模型版本信息不是正确的，则查找模型版本符合要求的相应的推理模型。在查找到的情况下，将其发送至推理计算装置100；或者，在未查找到的情况下，向推理计算装置100发送通知信息。

推理计算装置100可以根据接收到的通知信息，来请求模型训练装置重新进行模型训练，也可以停止操作。

这样，在将第一推理模型和或第二推理模发送之前，检测其模型版本信息是否正确，能够保证将正确版本的第一推理模型或第二推理模型发送至推理计算装置100。

在一些实施例中，如图5和图7所示，模型训练装置200包括第一训练样本库，模型训练装置200还进行以下操作：

A50、对第一训练样本库进行更新。

A60、在未接收到推理计算装置100发送来的模型更新请求的情况下，基于更新后的第一训练样本库进行模型训练，得到第三推理模型。

A70、将第三推理模型发送至推理计算装置100。

需要说明的是，第三推理模型是模型训练装置200在未接收模型更新请求的情况下通过模型训练得到的，也就是说，第三推理模型是模型训练装置200根据更新后的第一训练样本库自行进行模型训练后得到的。

由于前文已经对第三推理模型进行了详细介绍，因此此处不再对其进行赘述。

本公开的一些实施例中还提供了一种计算机可读存储介质，设置于如上任一实施例中的推理计算装置100中，该计算机可读存储介质中存储有程序指令，程序指令可由推理计算装置100中的至少一个处理器110执行以使该推理计算装置100进行以下操作S10～S40：

S10、接收第一推理模型。其中，第一推理模型基于第一训练样本库，通过模型训练得到，第一训练样本库包括来自历史数据的训练样本。

S20、基于第一推理模型，进行工业生产中的待处理数据的推理计算，并得到推理结果。

S40、若是，则更新第一推理模型。

该计算机可读存储介质同样具有提高推理结果准确性的效果，此处不再赘述。

本公开的一些实施例中还提供了一种计算机可读存储介质，设置于如上任一实施例中所述的模型训练装置200中，该程序指令可由模型训练装置200中的至少一个处理器210执行使模型训练装置200进行以下操作A10～A40：

A10、基于第一训练样本库进行模型训练，得到第一推理模型。第一训练样本库包括来自历史数据的训练样本。

A20将第一推理模型发送至推理计算装置100。

在接收来自推理计算装置100的模型更新请求的情况下，

A30、基于更新后的第一训练样本库进行模型训练，得到第二推理模型。该更后的第一训练样本库为使用来自第一推理模型的推理结果且经过复判的训练样本对第一训练样本库进行更新得到的。

A40、将第二推理模型发送至推理计算装置100。

本公开的一些实施例中还提供了一种推理计算系统1000，参见图10，包括：如上任一实施例所述的推理计算装置100，以及如上任一实施例所述的模型训练装置200。

该推理计算系统1000中所包括的推理计算装置100和模型训练装置200具有提高推理结果准确性的效果，因此该模型部署系统1000同样具有提高推理结果准确性的效果，此处不再赘述。

需要说明的是，本公开实施例中所提到的处理器(例如，处理器110和处理器210)，可以是中央处理器(Central Processing Unit，CPU)，通用处理器，数字信号处理器(Digital Signal Processor，DSP)，专用集成电路(Application-Specific Integrated Circuit，ASIC)，现场可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本公开所描述的各种示例性的逻辑方框和模块。处理器210也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等等。

此外，本公开实施例所提到的存储器(例如，存储器120和存储器220)，可以是随机存取存储器(Random Access Memory，RAM)、闪存、只读存储器(Read Only Memory，ROM)、可擦除可编程只读存储器(Erasable Programmable ROM，EPROM)、电可擦可编程只读存储器(Electrically EPROM，EEPROM)、寄存器、硬盘、移动硬盘、只读光盘(CD-ROM)或者本领域熟知的任何其它形式的存储介质。

本公开的一些实施例提供了一种推理计算装置300。在采用对应各个功能划分各个功能模块的情况下，参见图11，该推理计算装置300包括：性能评估模块11、推理模型模块13和模型任务管理模块14。

其中，模型任务管理模块14被配置为接收来自模型训练装置400的第一推理模型；推理模型模块13被配置为基于接收的第一推理模型，进行生产制造阶段产生的待处理数据(来自用户侧设备3)的推理计算，得到推理结果，并将推理结果发送至用户侧设备3；性能评估模块11被配置为评估所述第一推理模型的性能，以确定是否需要对所述第一推理模型进行更新，若是，则由模型任务管理模块14更新所述第一推理模型。

在一些实施例中，推理计算装置300还包括第二模型训练模块12和第二训练样本库19。在需要更新第一推理模型的情况下，第二模型训练模块12被配置为基于第二训练样本库19，进行模型训练，得到第二推理模型；或者，性能评估模块11还被配置为向模型训练装置400发送模型更新请求，得到第二推理模型。第二训练样本库19存储有模型训练所需的训练样本，该训练样本可来自推理模型模块13，和/或模型任务管理模块14。

基于此，在一些实施例中，模型任务管理模块14还被配置为接收来自模型训练装置400的第二推理模型，并对接收的第二推理模型进行测试、灰度部署或配置信息校验中的至少一者。

示例性的，参见图11，模型任务管理模块14包括：校验单元141、测试单元142和灰度部署单元143。

其中，校验单元141被配置为对接收的第二推理模型进行测试；测试单元142被配置为对接收的第二推理模型进行测试；灰度部署单元143被配置为对接收的第二推理模型进行灰度部署。

在一些实施例中，推理计算装置300还包括模型训练决策模块18，被配置为判断所进行的模型训练所需要的训练参数是否在设定的训练参数范围内。若是，则使性能评估模块11向第二模型训练模块12发送模型更新请求，即，使第二模型训练模块12进行模型训练，得到第二推理模型；若否，则使性能评估模块11向模型训练装置400发送模型更新请求，即，使模型训练装置400进行模型训练，得到第二推理模型。

在一些实施例中，推理计算装置300还包括备份模块15，备份模块15被配置为接收第三推理模型。在第三推理模型性能高于推理模型模块11中的第一推理模型的性能的情况下，或者，在推理模型模块11中的第一推理模型出现异常的情况下，备份模块15将第三推理模型发送给模型任务管理模块14，由模型任务管理模块14用第三推理模型更新第一推理模型。

在一些实施例中，性能评估模块11还被配置为对第二推理模型进行性能评估，比较第一推理模型与第二推理模型的性能。在第二推理模型的性能比第一推理模型的性能差的情况下，模型任务管理模块14还被配置为将第二推理模型回滚至第一推理模型。性能评估模块11还被配置为重新向第二模型训练模块12或者模型训练装置400发送模型训练请求。

在一些实施例中，参见图11，推理计算装置300还包括功能扩展管理模块16，功能扩展管理模块16被配置为对推理模型模块13和任务管理模块14的功能进行扩展或修改。

例如，功能扩展模块16接收导入的推理模型，并控制推理模型模块13中的推理模型切换为该导入的推理模型。

此外，参见图11，在模型训练装置400包括第一训练样本库23的情况下，功能扩展模块16还可以对第一训练样本库的功能进行扩展。

示例性的，功能扩展模块16包括功能扩展接口。

在一些实施例中，参见图11，推理计算装置300还包括：原始数据汇总模块17和推理模型模块13。

其中，原始数据汇总模块17被配置为对来自用户侧设备3的原始数据进行汇总，得到待处理数据，并将待处理数据发送至推理模型模块13。

本公开的一些实施例提供了一种模型训练装置400。在采用对应各个功能划分各个功能模块的情况下，参见图11，该模型训练装置400包括：训练管理模块21、第一模型训练模块22和第一训练样本库23。

其中，第一模型训练模块22被配置为基于第一训练样本库23进行模型训练，得到第一推理模型，和/或基于更新后的第一训练样本库23进行模型训练，得到第二推理模型。

训练管理模块21被配置为将第一训练模型和/或第二训练模型发送至推理计算装置300。

示例性的，参见图11，训练管理模块21包括：任务管理单元211、训练调度单元212和分支管理单元213。

其中，任务管理单元211被配置为根据推理计算装置300发送的模型更新请求，生成训练任务信息；训练调度单元212被配置为根据训练任务信息，生成训练配置数据，以及从相应的训练样本库获取训练样本；分支管理单元213被配置为对相应的推理模型的模型版本信息进行校验，判断模型版本信息是否正确。在模型版本信息正确的情况下，分支管理单元213还被配置为向推理计算装置300发送版本信息正确的相应的推理模型。

示例性的，训练调度单元212还被配置为监控第一模型训练模块22的模型训练过程，在模型训练的过程出现异常的情况下，更新训练配置数据，并将更新后的训练配置数据发送给第一模型训练模块22。在这种情况下，第一模型训练模块22还被配置为根据更新后的训练配置数据和训练样本进行模型训练。

在一些实施例中，参见图11，模型训练装置400还包括第一训练样本库23，该第一训练样本库23被配置为接收由推理计算设备300发送来的已标记正确结果的训练样本，例如，将推理计算设备300的推理模型模块13的推理结果经过复判标记有正确结果后，发送至第一训练样本库23，由此对第一训练样本库23进行更新。在这种情况下，第一模型训练模块22还被配置为在未接收到模型更新请求时，基于更新后的第一训练样本库23进行模型训练，得到第三推理模型。

示例性的，在训练管理模块21包括分支管理单元213的情况下，第一模型训练模块22被配置为将第三推理模型发送给分支管理单元213，由分支管理单元213将第三推理模型发送给推理计算装置300。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

一种推理计算装置，包括至少一个处理器和存储器；所述存储器存储有程序指令，所述程序指令可由所述至少一个处理器执行，使所述推理计算装置进行以下操作：

接收来自模型训练装置的第一推理模型，其中，所述第一推理模型基于第一训练样本库，由所述模型训练装置通过模型训练得到；所述第一训练样本库包括来自生产制造阶段产生的历史数据的训练样本，所述模型训练装置包括云端设备；

基于所述第一推理模型，进行生产制造阶段产生的待处理数据的推理计算，得到推理结果，所述推理结果发送至用户侧设备，所述推理计算装置相较于模型训练装置更靠近用户侧设备；

评估所述第一推理模型的性能，以确定是否需要对所述第一推理模型进行更新，若是，则更新所述第一推理模型。
根据权利要求1所述的推理计算装置，其中，

所述历史数据包括标记有缺陷信息的产品图像；

所述待处理数据包括在生产制造阶段所产生的原始产品图像；

所述推理结果包括所述原始产品图像中的缺陷信息。
根据权利要求1或2所述的推理计算装置，其中，对所述第一推理模型进行的更新包括：

基于第二训练样本库，进行模型训练，得到第二推理模型；或者，向所述模型训练装置发送模型更新请求，得到第二推理模型；所述第二训练样本库包括来自历史数据的训练样本，和/或来自所述推理结果且经过复判的训练样本；

在所述第二推理模型满足更新条件的情况下，用所述第二推理模型更新所述第一推理模型。
根据权利要求3所述的推理计算装置，其中，所述更新条件包括：

对所述第二推理模型进行测试，所述第二推理模型通过所述测试；

其中，所述测试包括基于测试样本对所述第二推理模型的性能进行评估；若性能符合评估要求，则判定为通过所述测试。
根据权利要求4所述的推理计算装置，其中，所述更新条件还包括：

对所述第二推理模型进行灰度部署，并在所述灰度部署过程中对其性能进行评估，所述第二推理模型的性能符合评估要求。
根据权利要求5所述的推理计算装置，其中，所述更新条件还包括：

对所述第二推理模型的配置信息进行校验，所述配置信息与需进行的推理计算相匹配。
根据权利要求3所述的推理计算装置，其中，在进行模型训练，得到第二推理模型；或者，向模型训练装置发送模型更新请求，得到第二推理模型之前，所述推理计算装置还进行以下操作：

判断所进行的模型训练所需要的训练参数是否在设定的训练参数范围内；若是，则进行所述模型训练；若否，则向所述模型训练装置发送所述模型更新请求。
根据权利要求7所述的推理计算装置，其中，所述训练参数包括：模型训练中所需数据规模、训练时长、及计算能力中的至少一种。
根据权利要求1所述的推理计算装置，其中，用于评估所述推理模型的性能的评估参数包括：所述第一推理模型在推理计算过程中的准确率、精确率、召回率、及F分数中的至少一者；

根据性能评估需要对所述第一推理模型进行更新的情况包括：第一推理模型出现性能波动或性能下降；其中，根据所述评估参数在连续的时间段内的变化情况，判断所述第一推理模型是否出现性能波动或性能下降。
根据权利要求3所述的推理计算装置，其中，根据性能评估需要对所述第一推理模型进行更新的情况包括：

接收第三推理模型，所述第三推理模型为所述模型训练装置在未接收到所述模型更新请求的情况下，基于更新后的第一训练样本库进行模型训练得到；所述更新后的第一训练样本库包括来自所述推理结果且经过复判的训练样本；

比较所述第一推理模型与所述第三推理模型的性能，若所述第三推理模型性能高于所述第一推理模型的性能，或者，若所述第一推理模型出现异常，用所述第三推理模型更新所述第一推理模型模型。
根据权利要求3所述的推理计算装置，其中，在用所述第二推理模型更新所述第一推理模型的情况下，所述推理计算装置还进行以下操作：

对所述第二推理模型进行性能评估，比较所述第一推理模型与所述第二推理模型的性能；

在所述第二推理模型的性能比所述第一推理模型的性能差的情况下，将所述第二推理模型回滚至所述第一推理模型；重新进行模型训练，或者重新请求所述模型训练装置进行模型训练。
根据权利要求2所述的推理计算装置，其中，在得到所述推理结果之后，所述推理计算装置还进行以下操作：

根据所述推理结果，生成决策指令；

其中，所述缺陷信息包括：识别出的具有缺陷的原始产品图像，及其缺陷位置和缺陷类型；所述决策指令包括：根据所述原始产品图像的缺陷信息，对所述具有缺陷的原始产品图像对应的产品进行相应的缺陷处理。
一种模型训练装置，包括至少一个处理器和存储器；所述存储器存储有程序指令，所述程序指令可由所述至少一个处理器执行，使所述模型训练装置进行以下操作：

基于第一训练样本库进行模型训练，得到第一推理模型；所述第一训练样本库包括来自生产制造阶段产生的历史数据的训练样本；

将所述第一推理模型发送至推理计算装置；

在接收来自所述推理计算装置的模型更新请求的情况下，基于更新后的第一训练样本库进行模型训练，得到第二推理模型；所述更新后的第一训练样本库包括来自所述第一推理模型的推理结果且经过复判的训练样本；

将所述第二推理模型发送至所述推理计算装置。
根据权利要求13所述的模型训练装置，其中，在基于所述第一训练样本库，或基于所述更新后的第一训练样本库进行模型训练的过程中，所述模型训练装置进行以下操作：

生成训练任务信息；

根据所述训练任务信息，生成训练配置数据；

从相应的训练样本库获取训练样本，基于所述训练样本和所述训练配置数据，进行模型训练，得到相应的推理模型。
根据权利要求14所述的模型训练装置，其中，在所述从相应的训练样本库获取训练样本，基于所述训练样本和所述训练配置数据，进行模型训练，得到相应的推理模型的过程中，所述模型训练装置还进行以下操作：

监控模型训练的过程；

在模型训练的过程出现异常的情况下，更新所述训练配置数据；

基于所述训练样本和更新后的训练配置数据进行模型训练。
根据权利要求13～15中任一项所述的模型训练装置，其中，在将所述第一推理模型或所述第二推理模型发送至所述推理计算装置之前，所述模型训练装置还进行以下操作：

对相应的推理模型的模型版本信息进行校验，判断所述模型版本信息是否正确；

若是，则向所述推理计算装置发送相应的推理模型；

若否，则查找模型版本符合要求的相应的推理模型；在查找到的情况下，将其发送至所述推理计算装置；或者，在未查找到的情况下，向所述推理计算装置发送通知信息。
根据权利要求13所述的模型训练装置，还包括所述第一训练样本库；所述模型训练装置还进行以下操作：

对所述第一训练样本库进行更新；

在未接收所述模型更新请求的情况下，基于更新后的第一训练样本库进行模型训练，得到第三推理模型；

将所述第三推理模型发送至所述推理计算装置。
一种计算机可读存储介质，存储有程序指令；所述程序指令可被处理器执行，使所述推理计算装置进行以下操作：

接收第一推理模型，所述第一推理模型基于第一训练样本库，通过模型训练得到；所述第一训练样本库包括来自历史数据的训练样本；

基于所述第一推理模型，进行工业生产中的待处理数据的推理计算，并得到推理结果；

评估所述第一推理模型的性能，以确定是否需要对所述第一推理模型进行更新，若是，则更新所述第一推理模型。
一种计算机可读存储介质，存储有程序指令；所述程序指令可被处理器执行，使所述模型训练装置进行以下操作：

基于第一训练样本库进行模型训练，得到第一推理模型；所述第一训练样本库包括来自历史数据的训练样本；

将所述第一推理模型发送至推理计算装置；

在接收来自所述推理计算装置的模型更新请求的情况下，基于更新后的第一训练样本库进行模型训练，得到第二推理模型；所述更新后的第一训练样本库为使用来自所述第一推理模型的推理结果且经过复判的训练样本对所述第一训练样本库进行更新得到的；

将所述第二推理模型发送至所述推理计算装置。
一种推理计算系统，包括：如权利要求1～12中任一项所述的推理计算装置，以及如权利要求13～17中任一项所述的模型训练装置。