WO2022237484A1

WO2022237484A1 - 一种推理系统、方法、装置及相关设备

Info

Publication number: WO2022237484A1
Application number: PCT/CN2022/088086
Authority: WO
Inventors: 谢达奇; 王烽
Original assignee: 华为云计算技术有限公司
Priority date: 2021-05-12
Filing date: 2022-04-21
Publication date: 2022-11-17
Also published as: CN115345305A

Abstract

一种推理系统，该推理系统包括第一推理装置（101）、第二推理装置（102）、更新装置（104）以及决策装置（103）。第一推理装置（101）用于利用第一推理模型对输入样本进行推理；决策装置（103）用于在第一推理模型针对输入样本的推理结果满足传输条件的情况下，确定将输入样本传输给第二推理装置（102）；第二推理装置（102）用于利用第二推理模型对输入样本进行推理，该第二推理模型的规格大于第一推理模型的规格；更新装置（104），用于当推理系统满足第一更新触发条件是，更新传输条件。由于传输条件可以动态调整，这使得在根据实际应用需求调整传输条件后，可以使得推理系统能够基于调整后的传输条件保持较高的推理性能。此外，还提供了对应的方法、装置及相关设备。

Description

一种推理系统、方法、装置及相关设备

技术领域

本申请涉及人工智能技术领域，尤其涉及一种推理系统、方法、装置及相关设备。

背景技术

在人工智能(artificial intelligence，AI)领域中，机器学习技术作为AI领域一种重要的方法和手段，旨在通过机器学习算法对训练数据集进行规律分析得到模型，并利用该模型持续对未知的样本数据进行推理。通常情况下，用于实现模型推理的资源量，对于模型推理效果存在重要影响。

目前，可以根据模型部署环境的资源量限制设置两级的推理机制。比如，在边云协同的推理场景中，可以在边缘侧以及云端分别设置不同规格的推理模型，并且，基于边缘侧的计算资源少于云端的计算资源，部署于在边缘侧的推理模型的规格通常小于部署于云端的推理模型的规格。相应的，针对相同的输入样本，云端的推理模型对于该输入样本的推理效果(如推理精度、效率等)，通常优于边缘侧的推理模型对于该输入样本的推理效果。因此，在对输入样本进行推理时，可以优先利用边缘侧的推理模型对该输入样本进行推理，而当边缘侧的推理模型对于输入样本推理结果的置信度过低时，将该输入样本发送至云端，以便利用云端的规格更大的推理模型对该输入样本进行推理，以此提高最终得到的推理结果的精度。并且，由于将输入样本由边缘侧传输至云端，需要占用一定的传输带宽，因此，实际应用场景中，用户通常会限制向云端传输输入样本的比例，以避免边缘侧将过多的输入样本传输至云端而导致占用较大的传输带宽。

但是，实际应用时，基于这种推理机制的推理系统的性能可能难以保持较高的水平，比如，在部分时间段内，推理系统针对输入样本所确定的推理结果的准确度较低等。因此，目前亟需一种推理方案，以使得推理系统的性能保持较高的水平。

发明内容

本申请提供了一种推理系统，用于使得推理输入样本的准确度保持在较高的水平。此外，本申请还提供了一种推理方法、更新装置、计算机设备、计算机可读存储介质以及计算机程序产品。

第一方面，本申请提供了一种推理系统，该推理系统包括第一推理装置、第二推理装置、更新装置以及决策装置。其中，第一推理装置用于利用第一推理模型对输入样本进行推理；决策装置用于在第一推理模型针对该输入样本的推理结果满足传输条件的情况下，确定将输入样本传输给第二推理装置；第二推理装置用于利用第二推理模型对接收到的该输入样本进行推理，并且，第二推理装置所使用的第二推理模型的规格大于第一推理装置所使用的第一推理模型的规格；更新装置，用于当推理系统满足第一更新触发条件是，更新决策装置中的传输条件。

由于用于决策是否将输入样本传输至第二推理装置的传输条件可以动态调整，这使得在根据实际应用需求调整传输条件后，可以使得推理系统能够基于调整后的传输条件保持较高的推理性能。比如，当第一推理装置与第二推理装置之间的传输带宽增加时，推理系统通过更新传输条件以使得更多的输入样本被规格更大的第二推理模型进行推理，以此实现在有限的传输带宽范围内，推理系统的推理精度保持在较高时水平。而当第一推理装置与第二推理装置之间的传输带宽减少时，推理系统通过更新传输条件来减少向第二推理装置传输的输入样本的数量，以此减少推理系统所占用的传输带宽。

可选地，第一推理装置以及第二推理装置中可以通过软件或者硬件实现。其中，当通过软件实现时，第一推理装置以及第二推理装置例如可以是运行在计算设备上的虚拟机等。当通过硬件实现时，第一推理装置以及第二推理装置中可以包括一个或者多个计算设备，如包括一个或者多个服务器等。

并且，第一推理装置以及第二推理装置可以部署于不同的环境中。例如，第一推理装置可以部署于边缘网络，第二推理装置可以部署于云端；或者，第一推理装置可以部署于本地网络，而第二推理装置可以部署于边缘网络等。

在一种可能的实施方式中，传输条件具体可以是推理结果的置信度低于置信度阈值，即决策装置可以在第一推理模型针对输入样本的推理结果的置信度低于置信度阈值时，确定将该输入样本传输至第二推理装置，以便提高针对该输入样本的推理精度。相应的，更新装置在更新传输条件时，具体可以是更新置信度阈值的大小，如增大或者减小置信度阈值等。如此，更新装置可以通过动态调整置信度阈值，使得推理系统的性能达到较高的水平。

在一种可能的实施方式中，传输条件还包括第一推理装置发送给第二推理装置的输入样本相对于第一推理装置接收的总输入样本的比例不超过传输比例上限。示例性的，该传输比例上限可以预先由用户进行设定。这样，对于第一推理模型针对输入样本的推理结果的置信度较低时，决策装置可以先判断若将该输入样本发送至第二推理装置后，已发送的输入样本相对于第一推理装置101接收的总输入样本的比例是否超出预先配置的传输比例上限。若超出，则即使第一推理模型推理该输入样本的置信度较低，决策装置仍将推理结果发送至终端设备，以此避免第一推理装置与第二推理装置之间的传输带宽超出传输带宽上限。而若未超出，则决策装置可以指示第一推理装置101将该输入样本发送至第二推理装置101，以便得到针对该输入样本的更加准确的推理结果。

在一种可能的实施方式中，第一更新触发条件包括第一推理模型在第一时间段内的平均推理精度低于第一精度阈值、第一推理装置与第二推理装置之间的传输带宽增加中的至少一种。此时，更新装置在更新置信度阈值时，具体可以是增大置信度阈值。如此，可以更新装置可以通过增大置信度阈值，将更多的输入样本发送至第二推理装置中进行推理，以此可以提高推理系统针对输入样本的整体推理精度。

在一种可能的实施方式中，更新装置具体可以是当第一推理装置与第二推理装置之间在第一时间段内平均剩余传输带宽高于预设阈值时，增大置信度阈值。如此，更新装置在增大置信度阈值后，第一推理装置与第二推理装置之间具有足够的传输带宽来支持更多数量的输入样本进行传输。

可选地，当第一推理装置与第二推理装置之间在第一时间段内平均剩余传输带宽不高于预设阈值时，更新装置可以不更新置信度阈值。如此，可以避免更新装置在增大置信度阈值后，由于更多数量的输入样本被传输至第二推理装置而导致第一推理装置与第二推理装置之间的传输带宽不足。

在一种可能的实施方式中，第一更新触发条件具体可以是第一推理装置与第二推理装置之间的传输带宽减少、第一推理装置发送至第二推理装置的输入样本相对于第一推理装置接收的总输入样本的比例超过传输比例上限。相应的，更新装置在更新传输条件时，具体可以是减小置信度阈值。如此，基于减小后的置信度阈值，推理系统可以减少上传至第二推理装置的数量，以此可以减少第一推理装置与第二推理装置之间的传输带宽消耗。

在一种可能的实施方式中，更新装置还用于当满足第二更新触发条件时，更新第一推理模型和/或第二推理模型。这样，更新装置可以通过对推理模型进行更新的方式来提供推理系统针对输入样本的推理精度。

在一种可能的实施方式中，当第一推理模型在第一时间段内的平均推理精度低于第一精度阈值且第一推理装置与第二推理装置之间的剩余传输带宽低于预设阈值时，更新第一推理模型。和/或，当第二推理模型在第一时间段内的平均推理精度低于第二精度阈值时，更新第二推理模型。如此，更新装置可以在推理模型的推理精度较低时，可以通过更新推理模型来提高针对输入样本的推理精度。

可选地，第二精度阈值可以大于第一精度阈值。

在一种可能的实施方式中，更新装置在更新推理模型时，具体可以是先获取增量训练样本，该增量训练样本例如可以是推理系统在最近时间段内所推理的输入样本，并且可以有用户或者标注人员完成标记。然后，更新装置可以利用增量训练样本对第一推理模型和/或第二推理模型进行增量训练。这样，经过增量训练后的第一推理模型和/或第二推理模型能够对与增量训练样本类似的输入样本进行更加精度的推理。

在一种可能的实施方式中，更新装置在更新第一推理模型时，可以先确定第一推理装置在第二时间段内的可用资源的资源量，例如可以是通过预测的方式进行确定等，然后，更新装置可以根据该可用资源的资源量，更新第一推理模型的规格。比如，当可用资源的资源量减少时，更新装置可以减小第一推理模型的规格；而当可用资源的资源量增加时，更新装置可以增大第一推理模型的规格等。

第二方面，本申请提供一种推理方法，所述推理方法应用于推理系统中的更新装置，所述推理系统还包括第一推理装置、第二推理装置以及决策装置，所述方法包括：所述更新装置获取所述推理系统的资源信息和/或推理结果，所述推理结果包括所述第一推理装置利用第一推理模型对输入样本进行推理的结果，其中，当所述第一推理模型针对所述输入样本进行推理的结果满足所述决策装置中的传输条件时，所述输入样本被传输至所述第二推理装置；所述更新装置根据所述推理系统的资源信息和/或所述推理系统的推理结果确定所述推理系统满足第一更新触发条件；所述更新装置更新所述传输条件。

在一种可能的实施方式中，所述传输条件包括所述推理结果的置信度低于置信度阈值，所述更新装置更新所述传输条件，包括：所述更新装置更新所述置信度阈值。

在一种可能的实施方式中，所述传输条件还包括传输至所述第二推理装置的输入样本相对于所述第一推理装置接收的总输入样本的比例，不超过传输比例上限。

在一种可能的实施方式中，所述第一更新触发条件包括所述第一推理模型在第一时间段内的平均推理精度低于第一精度阈值、所述第一推理装置与所述第二推理装置之间的传输带宽增加中的至少一种；所述更新装置更新所述传输条件，包括：所述更新装置增大所述置信度阈值。

在一种可能的实施方式中，所述更新装置更新所述传输条件，包括：当所述第一推理装置与所述第二推理装置之间在所述第一时间段内的平均剩余传输带宽高于预设阈值时，增大所述置信度阈值。

在一种可能的实施方式中，所述第一更新触发条件包括所述第一推理装置与所述第二推理装置之间的传输带宽减少、传输至所述第二推理装置的输入样本相对于所述第一推理装置接收的总输入样本的比例超过传输比例上限中的至少一种；所述更新装置更新所述传输条件，包括：所述更新装置减小所述置信度阈值。

在一种可能的实施方式中，所述方法还包括：当满足第二更新触发条件时，所述更新装置更新所述第一推理模型和/或所述第二推理模型。

在一种可能的实施方式中，所述当满足第二更新触发条件时，所述更新装置更新所述第一推理模型和/或所述第二推理模型，包括：当所述第一推理模型在第一时间段内的平均推理精度低于第一精度阈值且所述第一推理装置与所述第二推理装置之间的剩余传输带宽低于预设阈值时，所述更新装置更新所述第一推理模型；和/或，当所述第二推理模型在所述第一时间段内的平均推理精度低于第二精度阈值时，所述更新装置更新所述第二推理模型。

在一种可能的实施方式中，所述更新装置更新所述第一推理模型和/或所述第二推理模型，包括：所述更新装置获取增量训练样本；所述更新装置利用所述增量训练样本对所述第一推理模型和/或所述第二推理模型进行增量训练。

在一种可能的实施方式中，所述更新装置更新所述第一推理模型，包括：所述更新装置确定所述第一推理装置在第二时间段内的可用资源的资源量；所述更新装置根据所述第一推理装置在第二时间段内的可用资源的资源量，更新所述第一推理模型的规格。

由于第二方面提供的推理方法，对应于第一方面提供的推理系统，故针对第二方面以及第二方面任意一种可能实现方式中所具有的技术效果，可参见与之对应的第一方面以及第一方面任意一种可能实现方式所对应的技术效果，本实施例对此不再进行赘述。

第三方面，本申请提供一种更新装置，所述更新装置应用于推理系统，所述推理系统还包括第一推理装置、第二推理装置以及决策装置，所述更新装置包括：采集模块，用于获取所述推理系统的资源信息和/或推理结果，所述推理结果包括所述第一推理装置利用第一推理模型对输入样本进行推理的结果，其中，当所述第一推理模型针对所述输入样本进行推理的结果满足所述决策装置中的传输条件时，所述输入样本被传输至所述第二推理装置；监测模块，用于根据所述推理系统的资源信息和/或所述推理系统的推理结果确定所述推理系统满足第一更新触发条件；更新模块，用于更新所述传输条件。

在一种可能的实施方式中，所述传输条件包括所述推理结果的置信度低于置信度阈值，所述更新模块，具体用于更新所述置信度阈值。

在一种可能的实施方式中，所述第一更新触发条件包括所述第一推理模型在第一时间段内的平均推理精度低于第一精度阈值、所述第一推理装置与所述第二推理装置之间的传输带宽增加中的至少一种；所述更新模块，具体用于增大所述置信度阈值。

在一种可能的实施方式中，所述更新模块，用于当所述第一推理装置与所述第二推理装置之间在所述第一时间段内的平均剩余传输带宽高于预设阈值时，增大所述置信度阈值。

在一种可能的实施方式中，所述第一更新触发条件包括所述第一推理装置与所述第二推理装置之间的传输带宽减少、传输至所述第二推理装置的输入样本相对于所述第一推理装置接收的总输入样本的比例超过传输比例上限中的至少一种；所述更新模块，具体用于减小所述置信度阈值。

在一种可能的实施方式中，所述更新模块，还用于当满足第二更新触发条件时，更新所述第一推理模型和/或所述第二推理模型。

在一种可能的实施方式中，所述更新模块，用于：当所述第一推理模型在第一时间段内的平均推理精度低于第一精度阈值且所述第一推理装置与所述第二推理装置之间的剩余传输带宽低于预设阈值时，更新所述第一推理模型；和/或，当所述第二推理模型在所述第一时间段内的平均推理精度低于第二精度阈值时，更新所述第二推理模型。

在一种可能的实施方式中，所述更新模块，用于：获取增量训练样本；利用所述增量训练样本对所述第一推理模型和/或所述第二推理模型进行增量训练。

在一种可能的实施方式中，所述更新模块，用于：确定所述第一推理装置在第二时间段内的可用资源的资源量；根据所述第一推理装置在第二时间段内的可用资源的资源量，更新所述第一推理模型的规格。

由于第三方面提供的更新装置，对应于第一方面提供的推理系统，故针对第三方面以及第三方面任意一种可能实现方式中所具有的技术效果，可参见与之对应的第一方面以及第一方面任意一种可能实现方式所对应的技术效果，本实施例对此不再进行赘述。

第四方面，本申请提供一种计算机设备，所述计算机设备包括处理器和存储器；该存储器用于存储指令，当该计算机设备运行时，该处理器执行该存储器存储的该指令，以使该计算机设备执行上述第二方面或第二方面任一种可能实现方式中的推理方法。需要说明的是，该存储器可以集成于处理器中，也可以是独立于处理器之外。计算机设备还可以包括总线。其中，处理器通过总线连接存储器。其中，存储器可以包括可读存储器以及随机存取存储器。

第五方面，本申请提供一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机设备上运行时，使得计算机设备执行上述第二方面或第二方面的任一种实现方式所述的方法。

第六方面，本申请提供了一种包含指令的计算机程序产品，当其在计算机设备上运行时，使得计算机设备执行上述第二方面或第二方面的任一种实现方式所述的方法。

本申请在上述各方面提供的实现方式的基础上，还可以进行进一步组合以提供更多实现方式。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其它的附图。

图1为本申请实施例提供的一种推理系统的架构示意图；

图2为本申请实施例提供的另一种推理系统的架构示意图；

图3为本申请实施例提供的一示例性交互界面示意图；

图4为本申请实施例提供的一示例性弹性更新配置界面的示意图；

图5为本申请实施例提供的一种推理方法的流程示意图；

图6为本申请实施例提供的一种计算机设备600的结构示意图。

具体实施方式

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解，这样使用的术语在适当情况下可以互换，这仅仅是描述本申请的实施例中对相同属性的对象在描述时所采用的区分方式。

参见图1，为一种推理系统的架构示意图。如图1所示，该推理系统100包括第一推理装置101、第二推理装置102、决策装置103以及更新装置104。其中，第一推理装置101以及第二推理装置102可以通过软件或者硬件实现。当通过软件实现时，第一推理装置101以及第二推理装置102可以是运行在计算机设备上的软件，如虚拟机等。当通过硬件实现时，第一推理装置101以及第二推理装置102中均可以包括至少一个计算设备，图1中以第一推理装置101以及第二推理装置102分别包括多个服务器为例。实际应用时，构成第一推理装置101以及第二推理装置102的计算设备也可以是其它具有计算能力的设备，并不局限于图1所示的服务器。第一推理装置101以及第二推理装置102可以部署于不同的环境中。示例性地，如图1所示，第一推理装置101可以部署于边缘网络，用于在边缘侧执行相应的计算过程，如下述基于第一推理模型的推理过程等；第二推理装置102可以部署于云端，用于在云端执行相应的计算过程，如下述基于第二推理模型的推理过程等。而在其它示例中，第一推理装置 101可以部署于用户侧的本地网络，如本地的终端或者服务器等；第二推理装置102可以部署于边缘网络。本实施例中，对于第一推理装置101以及第二推理装置102的具体部署方式并不进行限定。

决策装置103以及更新装置104均可以与第一推理装置101部署于相同的环境中，比如，决策装置103以及更新装置104均可以与第一推理装置101部署于如图所示的边缘侧网络，或者也可以是部署于本地网络。其中，决策装置103以及更新装置104可以通过软件实现。此时，决策装置103以及更新装置104可以是应用于计算设备上的应用程序，该计算设备与第一推理装置101部署于相同的环境。另外，决策装置103还可以通过硬件实现，此时，决策装置103可以是与第一推理装置101位于相同环境的计算设备，如服务器；或者，决策装置103可以是利用专用集成电路(application-specific integrated circuit，ASIC)实现、或可编程逻辑器件(programmable logic device，PLD)实现的设备等。其中，上述PLD可以是复杂程序逻辑器件(complex programmable logical device，CPLD)、现场可编程门阵列(field-programmable gate array，FPGA)、通用阵列逻辑(generic array logic，GAL)或其任意组合实现。在其它可能的部署方式中，更新装置104也可以是与第二推理装置102部署于相同的环境中，如部署于云端等。

推理系统100在推理输入样本时，如图1所示，第一推理装置101例如可以包括多个边缘服务器，并且第一推理装置101可以接收用户侧的终端设备105发送的输入样本，该输入样本例如可以是终端设备105拍摄(或者通过其它设备拍摄)得到的图像等。然后，第一推理装置101可以利用预先训练得到的第一推理模型对获取的输入样本进行推理，并得到推理结果，如利用第一推理模型对拍摄图像中的安全帽等对象进行检测等，同时，该第一推理模型还可以输出推理结果的置信度(用于表征推理结果正确的可信程度)。当决策装置103确定输入样本的推理结果的置信度较低时(具体可以是低于预设的置信度阈值)，表征基于第一推理模型所得到的推理结果的准确度可能较差，因此，决策装置103可以指示第一推理装置101将该输入样本发送至第二推理装置102中。此时，第二推理装置102可以利用预先训练得到的第二推理模型对接收到的输入样本进行推理，并得到推理结果。由于第二推理模型的规格通常高于第一推理模型的规格，因此，基于第二推理模型所得到的推理结果的准确度(即指示推理结果正确的置信度)通常更高，以此可以使得推理系统100针对该输入样本的推理准确性达到较高水平。

实际应用场景中，第一推理装置101与第二推理装置102之间的传输带宽通常有限，因此，可以通过限制向第二推理装置102发送输入样本的比例来避免传输输入样本所占用的传输带宽过大。具体地，在基于第一推理模型对输入样本进行推理的置信度较低的情况下，决策装置103在确定是否将输入样本是否传输至第二推理装置102时，可以确定如果将该输入样本传输至第二推理装置，则第二推理装置102接收的输入样本相对于第一推理装置101接收的输入样本的比例是否超过用户指定的传输比例上限。若未超过，则决策装置103确定该输入样本传输至第二推理装置，以便利用规格更大的第二推理模型来提高对于该输入样本的推理精度。而若超过，决策装置103 可以拒绝传输该输入样本。相应的，推理系统100针对该输入样本的推理结果，即为第一推理装置利用第一推理模型对该输入样本进行推理所得到的结果，这就降低了推理系统100针对该输入样本的推理精度。

在此过程中，如果预先配置的置信度阈值为静态配置的固定取值，则该置信度阈值可能使得推理系统100的性能难以保持较高水平。比如，实际应用中，第一推理装置101与第二推理装置102之间可用的传输带宽可能会增加等，此时，如果原先设定的置信度阈值的取值过大，则置信度低于该置信度阈值的推理结果所对应的输入样本不被传输至第二推理装置102，从而推理系统100针对大量输入样本所输出的推理结果，均为规格较小的第一推理模型的推理结果，从而使得推理系统100的整体推理精度难以得到提升。同时，第一推理装置101与第二推理装置102之间可用的传输带宽也可能会减少等，此时，如果原先设定的置信度阈值的取值过小，则可能会导致较多数量的输入样本因为置信度低于置信度阈值而被传输至第二推理装置102，从而因为传输的输入样本的数量增多而导致占用的传输带宽较高，并且，较多数量的输入样本需要长时间排队等待被传输至第二推理装置102，也增加了推理系统100推理部分输入样本的时延。

基于此，本申请提供的推理系统100中，更新装置104可以对决策装置103中用于判断是否向第二推理装置102传输输入样本的条件(以下称之为传输条件)进行动态更新调整。以传输条件具体为推理结果的置信度不超过上述置信度阈值为例，在推理系统100提供推理服务的过程中，更新装置104可以检测推理系统100当前是否满足更新触发条件，若满足，则更新装置104可以对决策装置103中用于判定是否传输输入样本的置信度阈值等进行更新，从而决策装置103利用更新后的置信度阈值确定是否将该输入样本传输至第二推理装置102。这样，通过动态调整决策装置103中的置信度阈值，可以使得推理系统100的性能保持在较高的水平。比如，当第一推理装置101与第二推理装置102之间可用的传输带宽增加时，更新装置104可以相应的增大置信度阈值，以使得更多的输入样本(其推理结果的置信度低于增大后的置信度阈值)能够被传输至第二推理装置102，并且利用第二推理装置102中的规格更大的第二推理模型对输入样本进行推理，以此提高推理系统100的整体推理精度。而当第一推理装置101与第二推理装置102之间可用的传输带宽减少时，更新装置104可以相应的减小置信度阈值，以便通过减少置信度阈值来减少需要向第二推理装置102传输的输入样本数量，从而实现减少推理系统100推理输入样本的时延以及消耗的传输带宽。

需要说明的是，图1所示的推理系统100仅作为一种示例性说明，并不用于限定推理系统的具体实现。例如，在其它可能的实施方式中，推理系统100可以包括更多的功能模块以支持推理系统100具有更多其它的功能；或者，推理系统100中的决策装置103以及更新装置104可以集成为一个功能模块等。

为便于理解，下面结合附图，对本申请的实施例进行描述。

参见图2，图2为本申请实施例提供的一种推理系统的结构示意图。其中，图2所示的推理系统100部署于边云协同场景，即第一推理装置101、决策装置103以及更新装置104均部署于边缘网络，而第二推理装置102部署于云端。在图1所示的推理系统100的基础上，图2所述的推理系统100中更新装置104包括采集模块1041、监测模块1042以及更新模块1043。

本实施例中，推理系统100中的第一推理装置101预先配置有第一推理模型，而第二推理装置102中预先配置有第二推理模型。实际应用场景中，相对于边缘侧，云端的计算性能通常更高(如可用的计算资源的资源量更多等)，为此，位于云端的第二推理装置102可以执行相对复杂的计算任务，而位于边缘网络的第一设备101可以执行相对简单的计算任务。基于此，本实施例中，为第一推理装置101配置的第一推理模型的规格，小于为第二推理装置102配置的第二推理模型的规格。例如，第一推理模型的文件大小为50M(兆)，而第二推理模型的文件大小为200M等。作为一种示例，第一推理模型以及第二推理模型，例如可以是基于机器学习算法进行构建的机器学习模型，则，第一推理模型的规格小于第二推理模型的规格，具体可以是第一推理模型中的神经网络层数少于第二推理模型中的神经网络层数，或者第一推理模型包括的参数数量少于第二推理模型包括的参数数量。此时，第一推理模型的计算力(flops)少于第二推理模型的计算力，相应的，第一推理模型在运行时对于计算资源的需求量也少于第二推理模型在运行时对于计算资源的需求量。

其中，推理系统100可以通过更新装置104实现为第一推理装置101以及第二推理装置102配置推理模型，也可以是通过其它设备进行配置等。为便于描述，下面以更新装置104配置推理模型为例进行示例性说明。

在一种可能的实施方式中，更新装置104可以向用户侧呈现如图3所示的交互界面，并通过该交互界面提示用户指定针对推理系统100的约束条件，并提供用于模型训练的训练样本。其中，约束条件例如可以是推理精度、推理模型的规格、位于边缘网络的第一推理装置101所支持的AI框架、推理系统100的推理目标、第一推理装置101与第二推理装置102之间的传输带宽上限(或者是推理时延)、第二推理装置102推理的输入样本的数量相对于第一推理装置101推理输入样本的数量的最大占比(以下简称为传输比例上限)等。实际应用时，用户指定的约束条件还可以包括其它内容，如下述触发更新置信度阈值、传输比例上限或者推理模型的条件等。

其中，第一推理装置101所支持的AI框架，例如可以是TensorFlow框架、pytorch框架、mindspore框架等，并且，不同AI框架支持不同文件格式的推理模型。推理系统100的推理目标，用于指示推理模型的应用场景，如利用推理模型进行对象检测、图像分类等。然后，更新装置104可以利用更新模块1043，根据用户指定的约束条件，构建初始推理模型。其中，所构建的初始推理模型的规格，为用户所指定的规格；初始推理模型的文件格式，为用户指定的AI框架所支持的文件格式；初始推理模型的推理目标，为用户所指定的推理目标。接着，更新模块1043可以利用用户提供的训练样本对构建的初始推理模型进行训练，直至初始推理模型的推理精度达到用户所指定的推理精度时停止训练。此时，更新模块1043可以将完成训练的初始推理模型发送给第二推理装置102，以便将该初始推理模型作为配置给第二推理装置102的第二推理模型。

在训练得到第二推理模型后，更新模块1043可以根据该第二推理模型生成第一推理模型。示例性地，在生成第二推理模型后，更新模块1043可以指示采集模块1041反馈第一推理装置101中可用资源的资源量。采集模块1041向第一推理装置101发送资源探测请求，以探测第一推理装置101当前可用资源的资源量，并将探测结果反馈给更新模块。其中，第一推理装置101上的可用资源，例如可以包括计算资源(如CPU等)、存储资源(如云磁盘等)等。更新模块1043可以根据获取的可用资源的资源量，确定所要生成的第一推理模型的规格，比如，假设支持规格1的推理模型运行需要64个处理器核、支持规格2的推理模型运行需要128个处理器核(规格2大于规格1)，当更新模块1043获取的可用资源的资源量指示第一推理装置101上当前存在88个处理器核处于空闲状态，则更新模块1043可以确定所要生成的第一推理模型的规格为规格1，以便第一推理装置101能够具有足够的资源支持第一推理模型的运行。在确定出所要生成的第一推理模型的规格后，更新模块1043可以通过模型压缩、模型蒸馏等方式对第二推理模型进行处理，生成得到该规格的第一推理模型，并将生成的第一推理模型发送给第一推理装置101，以实现为第一推理装置101配置第一推理模型。进一步的，在将第一推理模型发送给第一推理装置101之前，还可以利用上述训练样本再次对该第一推理模型进行训练，并将完成训练的第一推理模型发送给第一推理装置101。

值得注意的是，上述生成第一推理模型以及第二推理模型的方式仅作为示例性说明，实际应用时也可以是采用其它方式进行生成。比如，在其它可能的实施方式中，更新模块1043也可以同时构建不同规格的第一推理模型以及第二推理模型，并利用相同的训练样本分别对第一推理模型以及第二推理模型完成训练。

同时，更新模块1043还可以根据用户指定的约束条件中的推理精度、传输带宽上限以及传输比例上限，为决策装置103配置传输条件，例如可以是配置传输条件中的置信度阈值或者配置判别模型(决策装置103基于该判别模型决策是否将输入样本传输至第二推理装置102)。以配置传输条件中的置信度阈值为例，更新模块1043可以根据第一推理装置101在单位时间内获取输入样本的数据量以及第一推理装置101与第二推理装置102之间的传输带宽上限，计算出置信度阈值，该置信度阈值使得推理系统100对于输入样本的平均推理精度不低于用户指定的推理精度。进一步地，更新模块1043所计算出的置信度阈值，可以使得单位时间内向第二推理装置102发送输入样本所占用的带宽不超过该传输带宽上限，也即传输至第二推理装置102的输入样本的数量相对于输入样本的数量的占比不超过传输比例上限。

在完成对于第一推理装置101、第二推理装置102以及决策装置103的配置后，第一推理装置101可以接收输入样本，并利用已配置的第一推理模型对该输入样本进行推理，以便由该第一推理模型输出推理结果以及该推理结果的置信度等。比如，在安全帽识别场景中，第一推理装置101可以接收位于用户侧的终端设备105拍摄并且发送的图像，该图像中包括一个或者多个工作人员的图像；然后，第一推理装置101 利用第一推理模型对该图像进行识别，输出该图像中的各个工作人员以及各工作人员是否佩戴有安全帽，并给出识别结果的置信度。

通常情况下，当第一推理模型输出的推理结果的置信度大于预设的置信度阈值时，决策装置103可以将该推理结果输出给用户侧的终端设备105，以便终端设备105根据该推理结果执行相应的操作。比如，在安全帽检测场景中，当终端设备105根据该推理结果确定存在部分工作人员没有佩戴安全帽时，终端设备105可以触发监控报警，以便于监控人员及时告知工作人员正确佩戴安全帽等。而当第一推理模型输出的推理结果的置信度小于该置信度阈值时，表征利用规格较小的第一推理模型所得到的推理结果的准确性较低，此时，决策装置103可以指示第一推理装置101将该输入样本发送给第二推理模型。第二推理装置102可以利用已配置的第二推理模型对接收到的输入样本进行推理，并将第二推理模型输出的推理结果发送给终端设备105。由于第二推理模型的规格相对较大，因此，利用第二推理模型对该输入样本进行推理所得到的推理结果的准确性相对较高，以此保证推理系统100对于该输入样本的推理精度保持在较高水平。

在进一步可能的实施方式中，决策装置103判定是否将输入样本传输至第二推理装置102的传输条件，还可以包括已发送的输入样本相对于第一推理装置101接收的总输入样本(也即所有输入样本)的比例是否超出预先配置的传输比例上限。若将该输入样本发送至第二推理装置102后，已发送的输入样本相对于第一推理装置101接收的总输入样本(也即所有输入样本)的比例超出预先配置的传输比例上限，则即使第一推理模型推理该输入样本的置信度较低，决策装置103仍将推理结果发送至终端设备105，以此避免第一推理装置101与第二推理装置102之间的传输带宽超出传输带宽上限。而若未超出，则决策装置103可以指示第一推理装置101将该输入样本发送至第二推理装置101，以便得到针对该输入样本的更加准确的推理结果。

值得注意的是，本实施例中，更新装置104为决策装置103配置的置信度阈值等传输条件，可以根据推理系统100的运行情况进行动态调整，以便于推理系统100能够保持较高的性能。

具体实现时，以更新传输条件具体为更新置信度阈值的取值为例，更新装置104可以监测推理系统100是否满足预先设定的第一更新触发条件，并且，当推理系统100满足该第一更新触发条件时，更新装置104可以根据第一更新触发条件对已配置的置信度阈值的取值进行更新。

作为一种示例，更新装置104在对置信度阈值的取值进行更新时，具体可以是增大该置信度阈值，相应的，预先设定的第一更新触发条件，具体可以包括：

1、第一推理模型在第一时间段内的平均推理精度低于第一精度阈值。

可以理解，如果推理系统100基于第一推理模型向终端设备105反馈推理结果，则因为第一推理模型的推理精度较低而拉低了整个推理系统100的推理精度。因此，更新装置104可以通过增大置信度阈值的方式，增加第一推理装置101向第二推理装置102传输的输入样本的数量(即原先推理结果的置信度低于增大后的置信度阈值的输入样本也会被传输至第二推理装置102)。这样，对于更多数量的第一推理模型输出的推理结果置信度较低的输入样本，可以通过第二推理装置102中的第二推理模型进行推理，以便提高推理系统100对输入样本进行推理的准确性。

示例性地，第一推理模型在第一时间段内的平均推理精度，例如可以是在该第一时间段内第一推理模型针对各个输入样本的推理结果的置信度的平均值，即可以将推理结果的置信度作为第一推理模型针对输入样本的推理精度。本实施例中，更新装置104可以通过监测模块1042监测得到第一推理模型的平均推理精度，并由更新模块1043根据该平均推理精度确定是否对置信度阈值进行更新。

进一步地，在增大置信度阈值之前，更新装置104还可以确定第一推理装置101与第二推理装置102之间在该第一时间段内的平均剩余传输带宽是否高于预设阈值。其中，剩余传输带宽是指预设的传输带宽上限与第一推理装置101和第二推理装置102之间已使用的传输带宽之间的差值。相应的，平均剩余传输带宽，是指第一时间段内的多个时刻的剩余传输带宽的平均值。并且，该预设阈值可以预先由技术人员根据实际应用场景的需求进行设定。当平均剩余传输带宽高于预设阈值时，表征第一推理装置101与第二推理装置102之间长时间具有较为充足的带宽资源可用来传输数据，此时，更新装置104可以通过增大置信度阈值的方式，增加第一推理装置101向第二推理装置102传输的输入样本的数量，以便提高推理系统100对该输入样本进行推理的准确性。而当平均剩余传输带宽不高于预设阈值时，表征第一推理装置101与第二推理装置102之间的带宽资源较为紧张，此时，更新装置104可以不增大置信度阈值，以此避免置信度阈值过大而加剧第一推理装置101与第二推理装置102之间的带宽资源紧张的问题。

2、第一推理装置101与第二推理装置102之间的传输带宽增加。

可以理解，当第一推理装置101与第二推理装置102之间的传输带宽增加时，表征二者之间的带宽资源更加充足，由于利用规格较大的第二推理模型推理输入样本的准确性通常高于利用规格较小的第一推理模型推理输入样本的准确性，因此，更新装置104可以通过增大置信度阈值的方式，增加第一推理装置101向第二推理装置102传输的输入样本的数量，以便提高推理系统100对该输入样本进行推理的准确性。

当然，实际应用时，除了上述示例之外，第一更新触发条件也可以是其它条件，本实施例对此并不进行限定。并且，第一更新触发条件可以是上述示例中的任意一种条件，也可以是同时包括多种。

在进一步可能的实施方式中，当用户指定的传输比例上限允许被调整时，如用户在交互界面上指定传输比例上限后，可以在交互界面中进一步指定该传输比例上限允许被自适应调整，此时，更新装置104在确定推理系统100满足第一更新触发条件后，不仅可以通过上述增大置信度阈值的方式来实现对决策装置103中的传输条件进行更新，也可以是通过增大传输比例上限的方式来实现更新传输条件，以使得推理模型100能够利用第二推理模型的对更多数量的输入样本进行推理，从而提高推理精度。

另外，更新装置104在更新传输条件中的置信度阈值时，不仅可以增大置信度阈值，也可以是减小置信度阈值。作为另一种示例，更新装置104在减小该置信度阈值时，预先设定的第一更新触发条件，具体可以包括：

1、第一推理装置101发送给第二推理装置102的输入样本相对于第一推理装置101所接收到的总输入样本的比例，超过预先设定的传输比例上限。

实际应用场景中，第一推理模型推理不同的输入样本的难易程度可能存在差异。比如，在安全帽检测场景中，输入样本具体可以是针对工地的工作人员的拍摄图像。在非工作时间段，如上午0:00至9:00以及下午18:00～24:00，到达工地的工作人员的数量通常较少，相应的，该拍摄图像中出现的需要被检测是否佩戴安全帽的工作人员的数量较少，则，利用规格较小的第一推理模型对该拍摄图像进行识别(也即前述的推理)，通常能够较为准确的识别出该拍摄图像中的工作人员以及各工作人员是否佩戴安全帽(推理结果的置信度较高)，即第一推理模型的推理难度较低。而在工作时间段，如9:00至18:00等，到达工地的工作人员的数量较多，此时，由于工作人员之间的相互遮挡等原因，导致第一推理模型识别该拍摄图像中的工作人员以及安全帽的准确度较低(推理结果的置信度较低)，也即第一推理模型的推理难度较高。

因此，当第一推理模型推理的输入样本中，置信度低于置信度阈值的输入样本的数量相对于所有输入样本的数量的占比，超过预设限定的传输比例上限时，表征当前存在大量准确性较低的推理结果。此时，更新装置104可以通过减小置信度阈值的方式，减少第一推理装置101向第二推理装置102传输的输入样本的数量，即推理结果的置信度小于调整前的置信度阈值但是大于调整后的置信度阈值的输入样本可以不被传输至第二推理装置，以此避免向第二推理装置102传输输入样本的占比超出用户指定的传输比例上限。

实际应用场景中，当传输比例上限允许被调整时，更新装置104可以通过增大传输比例上限的方式，增加第一推理装置101向第二推理装置102传输的输入样本的数量。这样，对于第一推理模型输出的推理结果置信度较低的输入样本，可以通过第二推理装置102中的第二推理模型进行推理，以便提高推理系统100对该输入样本进行推理的准确性。

2、第一推理装置101与第二推理装置102之间的传输带宽减少。

可以理解，预先设定传输比例上限与第一推理装置101与第二推理装置102之间较大的传输带宽相关，当第一推理装置101与第二推理装置102之间的传输带宽减少时，若仍按照原先设定的置信度阈值向第二推理装置102传输输入样本，则第一推理装置101在传输输入样本时，存在传输带宽不足的问题。为此，更新装置104可以通过减小置信度阈值的方式，减少第一推理装置101向第二推理装置102传输的输入样本的数量，以便减少第一推理装置101与第二推理装置102之间的传输带宽消耗，适应当前的传输带宽数量。

在其它可能的实施方式中，当传输比例上限允许被调整时，更新装置104也可以是通过减小传输比例上限的方式，减少第一推理装置101向第二推理装置102传输的输入样本的数量，以便减少第一推理装置101与第二推理装置102之间的传输带宽消耗。

实际应用时，除了上述示例之外，触发更新装置104减小置信度阈值的第一更新触发条件也可以采用其它实现方式，本实施例对此并不进行限定。并且，第一更新触发条件可以是上述示例中的任意一种条件，也可以是同时包括多种。

在推理系统100持续为终端设备105提供推理服务时，可以由更新装置104中的监测模块1042对推理系统100进行持续监测，以确定是否需要对决策装置103中的置信度阈值进行更新，并在确定需要进行更新后，可以进一步确定更新后的置信度阈值的具体取值，从而决策装置103后续可以根据更新后的置信度阈值确定是否将输入样本传输至第二推理装置102。

值得注意的是，上述各实施方式中，是以更新传输条件中的置信度阈值为例进行示例性说明。实际应用时，更新传输条件也可以是更新判别模型，即决策装置103可以利用判别模型确定是否将输入样本传输至第二推理装置102。具体的，该判别模块例如可以是二分类模型等，并且，决策装置103可以将第一推理模型输出的推理结果以及置信度输入至该判别模型中，并由该判别模型输出判别结果，从而决策装置103可以根据该判别结果确定是否向第二推理装置102传输该推理结果对应的输入样本。相应的，更新装置103在更新传输条件时，具体可以是对决策装置103中的判别模型进行更新，如更新判别模型中的参数或者网络结构等，本实施例对此并不进行限定。

本实施例中，更新装置104不仅可以对决策装置103中的置信度阈值进行更新，还可以对为第一推理装置101中配置的第一推理模型进行更新，和/或，为第二推理装置102中配置的第二推理模型进行更新。

具体的，更新装置104可以监测推理系统100是否满足预先设定的第二更新触发条件，并且，当推理系统100满足该第二更新触发条件时，更新装置104可以根据第二更新触发条件对已配置的第一推理模型和/或第二推理模型进行更新。

其中，更新装置104在更新推理模型时，可以是更新推理模型的规格，或者可以是对推理模型进行重训练。

在一种示例中，更新装置104可以采用弹性更新机制对第一推理模型的规格进行更新。

具体的，由于部署于边缘网络的第一推理装置101的资源通常有限，并且，实际应用场景中，第一推理装置101可以不仅仅用于为终端设备105提供推理服务，还可能存在其它的业务服务，如大数据搜索、边缘云计算等，并且第一推理装置101提供不同业务服务的优先级也可以不同。因此，第一推理装置101在提供优先级更高的其它业务服务时抢占了第一推理装置101较多的资源，导致第一推理装置101提供推理服务的可用资源的资源量减少时，第一推理装置101上当前剩余的可用资源可能难以支持第一推理装置101利用原先的规格的第一推理模型在边缘侧对输入样本进行推理。因此，更新装置104可以减小第一推理模型的规格，例如可以是通过对原先的第一推理模型进行模型蒸馏或者模型压缩的方式来减小第一推理模型的规格，以使得第一推理装置101上当前剩余的可用资源能够支持规格更小的第一推理模型对输入样本进行推理。其中，第一推理装置101上可用资源的资源量可以由更新装置104中的采集模块1041进行探测。或者，当第一推理装置101的负荷较大时，如第一推理装置101上的CPU利用率持续达到预设值(如80％等)的时长超出预设时长，或者图形处理器(graphics processing unit，GPU)的显存利用率超出利用率上限等，更新装置104也可以减小第一推理模型的规格。

反之，当第一推理装置101提供推理服务的可用资源的资源量增加或者第一推理装置101的负荷较小时，更新装置104可以增大第一推理模型的规格，如通过重新构建推理模型等方式，根据增加后的可用资源的资源量，生成更大规格的第一推理模型，以便利用更大规格的推理模型来提高在边缘侧推理输入样本的推理精度，同时，规格更大的第一推理模型推理对输入样本进行推理的置信度也能得到提高，从而可以减少第一推理装置101向第二推理装置102传输输入样本的数量(或者比例)，减少传输带宽的消耗。

或者，更新装置104可以确定第一推理装置101在第二时间段内的可用资源的资源量，该第二时间段例如可以是过去或者未来的一段时间(如一个星期、一个月等)，从而更新装置104可以根据第一推理装置101在第二时间段内的可用资源的资源量，对第一推理模型的规格进行更新。举例来说，更新模块1043可以通过采集模块1041采集第一推理装置101在过去一段时间内的可用资源的资源量的变化情况，并根据该资源量变化情况，预测第一推理装置101在未来的第二时间段内的可用资源的资源量。当预测的可用资源的资源量大于当前可用资源的资源量时，更新模块1043可以根据预测的可用资源的资源量，增大第一推理模型的规格。这样，第一推理装置101可以在第二时间段内，利用更新的、规格更大的第一推理模型在边缘侧对输入样本进行推理。反之，当预测的可用资源的资源量小于当前可用资源的资源量时，更新模块1043可以减小第一推理模型的规格。或者，更新模块1043也可以通过采集模块1041采集第一推理装置101在过去的第二时间段内的可用资源的平均资源量，并且当该平均资源量大于当前可用资源的资源量时，更新模块1043可以增大第一推理模型的规格；而当该平均资源量小于当前可用资源的资源量时，更新模块1043可以减小第一推理模型的规格。

实际应用时，推理系统100还可以(通过终端设备105)向用户呈现如图4所示的弹性更新配置界面，该弹性更新配置界面中可以呈现有提示用户是否选择对第一推理模型进行弹性更新的提示信息，如图4所示的“请选择是否弹性更新推理模型”。这样，更新装置104可以根据用户针对弹性更新推理模型的选择操作，确定是否自动对第一推理装置101中的第一推理模型进行动态更新。

而在另一种示例中，更新装置104可以通过增量训练的方式对第一推理模型和/或第二推理模型进行更新。

实际应用场景中，推理系统100所推理的输入样本，可能会存在数据特征分布发生变化，从而降低了第一推理模型和/或第二推理模型对于输入样本的推理精度，甚至发生模型失效等。仍以安全帽检测场景为例，推理系统100中的第一推理模型以及第二推理模型可以识别出拍摄图像(也即输入样本或者输入样本)中的红色安全帽，但是如果在工地上作业的工作人员佩戴的安全帽颜色统一更换为黄色或者蓝色等，则第一推理模型以及第二推理模型可能难以识别黄色或者蓝色的安全帽，从而降低了推理系统100对于安全帽的识别精度。

为此，在推理系统100提供推理服务的过程中，更新装置104中的监测模块1042可以监测第一推理模型在第一时间段内的平均推理精度是否低于第一精度阈值且所述第一推理装置与所述第二推理装置之间的剩余传输带宽是否低于预设阈值，并将监测结果反馈给更新模块1043。当更新模块1043确定平均推理精度低于第一精度阈值且剩余传输带宽低于预设阈值时，更新模块1043确定对第一推理模型进行更新。

作为一种实现示例，更新模块1043可以通过增量训练的方式更新第一推理模型。具体的，更新模块1043可以获取增量训练样本，从而更新模块1043可以利用该增量训练样本对第一推理模型进行增量训练，以提高第一推理模型对于输入样本的推理精度。其中，增量训练样本可以由用户预先完成标注并提供给推理系统100；或者，当第一推理模型失效而第二推理模型未发生失效时，可以通过第二推理模型生成该增量训练样本等。举例来说，在安全帽检测场景中，可以利用预先完成标注并且包括黄色或者蓝色安全帽的拍摄图像作为增量训练样本，并利用该拍摄图像对第一推理模型进行增量训练，这使得增量训练所得到的第一推理模型能够有效推理出拍摄图像中的红色、黄色或者蓝色的安全帽。

在更新第一推理模型的同时，监测模块1042还可以监测第二推理模型在第一时间段内的平均推理精度是否低于第二精度阈值，并将监测结果反馈给更新模块1043。当更新模块1043确定该平均推理精度低于第二精度阈值时，更新模块1043执行对第二推理模型的更新过程。示例性地，该第二精度阈值例如可以大于前述第一精度阈值。其中，更新模块1043也可以是通过增量训练或者重新构建推理模型的方式对第二推理模型进行更新，其具体实现方式与上述更新模块1043更新第一推理模型的实现方式类似，可参见前述部分的相关之处描述，在此不做赘述。

当然，上述增量更新第一推理模型以及第二推理模型的实现方式仅作为示例性说明，在其它实现方式中，更新模块1043也可以是通过重新构建模型并训练的方式完成对于第一推理模型以及第二推理模型的更新，本实施例对此并不进行限定。其中，在更新第一退推理模型时，更新模块1043在调整第一推理模型的规格的同时，可以利用增量训练样本对经过规格调整后的第一推理模型进行增量训练。

实际应用时，在对第一推理模型以及第二推理模型完成更新之前，推理系统100可以继续利用更新之前的第一推理模型以及第二推理模型为终端设备105提供推理服务，而在完成推理模型的更新后，推理系统100可以利用更新后的第一推理模型以及第二推理模型为终端设备105提供推理服务，以此避免更新推理模型而导致推理系统100提供的推理服务发生中断。

值得注意的是，本实施例是以第一推理装置101部署于边缘网络、第二推理装置102部署于云端为例进行示例性说明，在其它实现方式中，第一推理装置101也可以部署于本地网络，而第二推理装置102部署于边缘网络，此时，推理系统100对于输入样本的推理过程以及更新置信度阈值与模型的过程，与上述过程类似，具体可参见前述实施例的相关之处描述，在此不做赘述。

参见图5，图5为本申请实施例提供的一种推理方法的流程示意图。其中，图5所示的推理方法可以应用于图2所示的推理系统100，或者应用于其它可适用的推理系统中。为便于说明，本实施例中以应用于图2所示的推理系统100，并且推理系统100对两个不同的输入样本进行推理为例进行示例性说明。

基于图2所示的推理系统100，图5所示的推理方法具体可以包括：

S501：第一推理装置101接收输入样本1。

示例性地，用户侧的终端设备105可以向第一推理装置101发送输入样本1，该输入样本例如可以是拍摄图像，如在安全帽场景中针对施工工地的拍摄图像等，或者可以是其它用于作为模型输入的样本。

S502：第一推理装置101利用预先配置的规格较小的推理模型1对输入样本1进行推理，得到推理结果1以及置信度1。

S503：当置信度1大于置信度阈值时，第一推理装置101将推理结果1反馈给终端设备105；而当置信度1小于置信度阈值时，第一推理装置101向决策装置103请求将输入样本1发送给第二推理装置102。

通常情况下，若推理模型1输出的置信度1大于预设的置信度阈值，表征推理模型1输出的推理结果1为正确的可信程度较高，也即可以视为该推理结果1的准确度较高。此时，第一推理装置101可以将较为准确的推理结果1反馈给终端设备101。反之，若推理模型1输出的置信度1小于预设的置信度阈值，则可以视为该推理结果1不准确。此时，第一推理装置101可以请求决策装置103将该输入样本1发送至第二推理装置102，以便利用第二推理装置102上的规格更大的推理模型2对该输入样本1进行更加准确的推理。

S504：决策装置103在确定不超过传输比例上限的条件下，允许第一推理装置101将输入样本1上传至第二推理装置102。

其中，传输比例上限可以预先由用户指定，具体可以是由用户输入传输比例上限的具体取值，或者可以由推理系统100根据用户指定的推理精度、第一推理装置101与第二推理装置102之间的传输带宽上限计算出传输比例上限。

作为一种实现示例，决策装置103可以监测若将该输入样本1发送至第二推理装置102后，已发送的输入样本的数量相对于第一推理装置101处理的输入样本的数量占比是否超出预先配置的传输比例上限。若未超出，则允许第一推理装置101将输入样本1上传至第二推理装置102。而若超出，则即使推理模型1推理该输入样本1的置信度1较低，决策装置103仍将推理结果1发送至终端设备105(图5中未示出)，以此避免第一推理装置101与第二推理装置102之间的传输带宽超出传输带宽上限。

S505：第一推理装置101将输入样本1发送给第二推理装置102。

S506：第二推理装置102利用预先配置的规格较大的推理模型2对输入样本1进行推理，得到推理结果2(以及置信度2)。

S507：第二推理装置102将推理结果2(以及置信度2)发送给终端设备105。

实际应用时，第二推理装置102可以通过第一推理装置101将针对于输入样本1的推理结果2(以及置信度2)发送给终端设备105等。

S508：更新装置104通过对推理系统100进行检测，确定并更新决策装置103中的置信度阈值。

具体实现时，更新装置104监测推理系统100是否满足第一更新触发条件，并且当满足第一更新触发条件时，更新装置104可以根据第一更新触发条件对已配置的置信度阈值的取值进行更新。当然，若推理系统100不满足第一更新触发条件，则更新装置104可以不对置信度阈值进行更新。

示例性地，更新装置104可以是增大置信度阈值，此时，预先设定的第一更新触发条件，具体可以包括：

2、第一推理装置101与第二推理装置102之间的传输带宽增加。

在另一个示例中，更新装置104可以是减小置信度阈值，此时，预先设定的第一更新触发条件，具体可以包括：

1、第一推理装置101与第二推理装置102之间的传输带宽减少。

2、第一推理装置101发送给第二推理装置102的输入样本相对于第一推理装置101所接收到的总输入样本的比例，超过预先设定的传输比例上限

其中，第一更新触发条件的具体实现方式，可以参见前述实施例中的相关之处描述，在此不做赘述。实际应用时，第一更新触发条件也可以是采用其它方式进行实现，本实施例对此并不进行限定。并且，当用户允许对传输比例上限进行调整时，在满足第一更新触发条件的情况下，更新装置104也可以是对该传输比例上限的取值进行调整，以使得推理系统100的性能保持在较高水平。

S509：更新装置104通过对推理系统100进行检测，确定对第一推理装置101中的推理模型1进行更新以及对第二推理装置102中的推理模型2进行更新。

具体实现时，更新装置104监测推理系统100中的推理模型是否满足第二更新触发条件，并且当满足第二更新触发条件时，更新装置104可以根据第二更新触发条件对已配置的推理模型1进行更新，进一步的，更新装置104还可以根据第二更新触发条件对已配置的推理模型2进行更新。当然，若推理系统100中的推理模型不满足第二更新触发条件，则更新装置104可以不对推理模型进行更新。

示例性地，更新装置104可以是在第一推理装置101提供推理服务的可用资源的资源量变化或者第一推理装置101的负荷变化时，对推理模型1的规格进行调整。例如，当第一推理装置101的可用资源的资源量减少或者第一推理装置101的负荷增大时，更新装置101可以减小推理模型1的规格；而当第一推理装置101的可用资源的资源量增加或者第一推理装置101的负荷减小时，更新装置101可以增大推理模型1的规格。

或者，更新装置104可以在确定推理模型1和/或推理模型2对于输入样本的推理精度降低，甚至是推理模型1和/或推理模型2发生失效时，通过增量训练或者重新训练的方式对推理模型1和/或推理模型2进行更新。其中，更新装置104确定推理模型1以及推理模型2的推理精度降低以及更新推理模型的具体实现过程，可以参见前述实施例的相关之处描述，在此不做赘述。

值得注意的是，本实施例中，是以更新装置104同时更新置信度阈值以及推理模型为例进行示例性说明，实际应用时，更新装置104可以仅更新置信度阈值，或者仅更新推理模型，本实施例对此并不进行限定。

S510：第一推理装置101接收输入样本2。

S511：第一推理装置101利用更新后的推理模型1对输入样本2进行推理，并输出推理结果3以及置信度3。

S512：当置信度3大于更新后的置信度阈值时，第一推理装置101将推理结果3反馈给终端设备105；而当置信度3小于更新后的置信度阈值时，第一推理装置101向决策装置103请求将输入样本2发送给第二推理装置102。

S513：决策装置103在确定不超过传输比例上限的条件下，允许第一推理装置101将输入样本2上传至第二推理装置102。

S514：第一推理装置101向第二推理装置102发送输入样本2。

S515：第二推理装置102利用更新后的推理模型2对输入样本2进行推理，并输出推理结果4(以及置信度4)。

S516：第二推理装置102将推理结果4(以及置信度4)发送给终端设备105。

实际应用时，第二推理装置102可以通过第一推理装置101将针对于输入样本2的推理结果4(以及置信度4)发送给终端设备105等。

上述实施例中，是以在推理两个输入样本的间隙更新置信度阈值、推理模型1或推理模型2为例进行示例性说明，在其它实施例中，更新装置104也可以是在推理输入样本2的过程中，完成对于置信度阈值、推理模型1或推理模型2的更新。

上述各实施例中，针对输入样本的推理过程中所涉及到的更新装置104可以是配置于计算机设备上的软件，并且，通过在计算机设备上运行该软件，可以使得计算机设备实现上述更新装置104所具有的功能。下面，基于硬件设备实现的角度，对推理输入样本的过程中所涉及的更新装置104进行详细介绍。

图6示出了一种计算机设备。图6所示的计算机设备600具体可以用于实现上述图5所示实施例中更新装置104的功能。

计算机设备600包括总线601、处理器602、通信接口603和存储器604。处理器602、存储器604和通信接口603之间通过总线601通信。总线601可以是外设部件互连标准(peripheral component interconnect，PCI)总线或扩展工业标准结构(extended industry standard architecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图6中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。通信接口603用于与外部通信，例如接收终端发送的数据获取请求等。

其中，处理器602可以为中央处理器(central processing unit，CPU)。存储器604可以包括易失性存储器(volatile memory)，例如随机存取存储器(random access memory，RAM)。存储器604还可以包括非易失性存储器(non-volatile memory)，例如只读存储器(read-only memory，ROM)，快闪存储器，HDD或SSD。

存储器604中存储有可执行代码，处理器602执行该可执行代码以执行前述资源调度装置101所执行的方法。

具体地，在实现图5所示实施例的情况下，且图5所示实施例中所描述的更新装置104为通过软件实现的情况下，执行图5中的更新装置104的功能所需的软件或程序代码存储在存储器604中，更新装置104与其它设备的交互通过通信接口603实现，处理器用于执行存储器604中的指令，实现更新装置104所执行的方法。

此外，本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机设备上运行时，使得计算机设备执行上述实施例更新装置104所执行的方法。

此外，本申请实施例还提供了一种计算机程序产品，所述计算机程序产品被计算机执行时，所述计算机执行前述推理方法的任一方法。该计算机程序产品可以为一个软件安装包，在需要使用前述推理方法的任一方法的情况下，可以下载该计算机程序产品并在计算机上执行该计算机程序产品。

另外需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本申请提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件的方式来实现，当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下，凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现，而且，用来实现同一功能的具体硬件结构也可以是多种多样的，例如模拟电路、数字电路或专用电路等。但是，对本申请而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在可读取的存储介质中，如计算机的软盘、U盘、移动硬盘、ROM、RAM、磁碟或者光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，训练设备，或者网络设备等)执行本申请各个实施例所述的方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。

所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、训练设备或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、训练设备或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的训练设备、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘(Solid State Disk，SSD))等。

Claims

一种推理系统，其特征在于，所述推理系统包括第一推理装置、第二推理装置、更新装置以及决策装置；

所述第一推理装置，用于利用第一推理模型对输入样本进行推理；

所述决策装置，用于在所述第一推理模型针对所述输入样本的推理结果满足传输条件的情况下，确定将所述输入样本传输给所述第二推理装置；

所述第二推理装置，用于利用第二推理模型对所述输入样本进行推理，其中，所述第一推理模型的规格小于所述第二推理模型的规格；

所述更新装置，用于当所述推理系统满足第一更新触发条件时，更新所述传输条件。
根据权利要求1所述的推理系统，其特征在于，所述传输条件包括所述推理结果的置信度低于置信度阈值；

所述更新装置，用于更新所述置信度阈值。
根据权利要求2所述的推理系统，其特征在于，所述传输条件还包括所述第一推理装置发送至所述第二推理装置的输入样本相对于所述第一推理装置接收的总输入样本的比例，不超过传输比例上限。
根据权利要求2或3所述的推理系统，其特征在于，所述第一更新触发条件包括所述第一推理模型在第一时间段内的平均推理精度低于第一精度阈值、所述第一推理装置与所述第二推理装置之间的传输带宽增加中的至少一种；

所述更新装置，用于增大所述置信度阈值。
根据权利要求4所述的推理系统，其特征在于，所述更新装置，用于当所述第一推理装置与所述第二推理装置之间在所述第一时间段内的平均剩余传输带宽高于预设阈值时，增大所述置信度阈值。
根据权利要求2或3所述的推理系统，其特征在于，所述第一更新触发条件包括所述第一推理装置与所述第二推理装置之间的传输带宽减少、所述第一推理装置发送至所述第二推理装置的输入样本相对于所述第一推理装置接收的总输入样本的比例超过传输比例上限中的至少一种；

所述更新装置，用于减小所述置信度阈值。
根据权利要求1至6任一项所述的推理系统，其特征在于，所述更新装置，还用于当满足第二更新触发条件时，更新所述第一推理模型和/或所述第二推理模型。
根据权利要求7所述的推理系统，其特征在于，所述更新装置，用于当所述第一推理模型在第一时间段内的平均推理精度低于第一精度阈值且所述第一推理装置与所述第二推理装置之间的剩余传输带宽低于预设阈值时，更新所述第一推理模型；和/或，当所述第二推理模型在所述第一时间段内的平均推理精度低于第二精度阈值时，更新所述第二推理模型。
根据权利要求7或8所述的推理系统，其特征在于，所述更新装置，用于获取增量训练样本；利用所述增量训练样本对所述第一推理模型和/或所述第二推理模型进行增量训练。
根据权利要求7至9任一项所述的推理系统，其特征在于，所述更新装置，用于确定所述第一推理装置在第二时间段内的可用资源的资源量；根据所述第一推理装置在所述第二时间段内的可用资源的资源量，更新所述第一推理模型的规格。
一种推理方法，其特征在于，所述推理方法应用于推理系统中的更新装置，所述推理系统还包括第一推理装置、第二推理装置以及决策装置，所述方法包括：

所述更新装置获取所述推理系统的资源信息和/或推理结果，所述推理结果包括所述第一推理装置利用第一推理模型对输入样本进行推理的结果，其中，当所述第一推理模型针对所述输入样本进行推理的结果满足所述决策装置中的传输条件时，所述输入样本被传输至所述第二推理装置；

所述更新装置根据所述推理系统的资源信息和/或所述推理系统的推理结果确定所述推理系统满足第一更新触发条件；

所述更新装置更新所述传输条件。
根据权利要求11所述的方法，其特征在于，所述传输条件包括所述推理结果的置信度低于置信度阈值，所述更新装置更新所述传输条件，包括：

所述更新装置更新所述置信度阈值。
根据权利要求12所述的方法，其特征在于，所述传输条件还包括传输至所述第二推理装置的输入样本相对于所述第一推理装置接收的总输入样本的比例，不超过传输比例上限。
根据权利要求12或13所述的方法，其特征在于，所述第一更新触发条件包括所述第一推理模型在第一时间段内的平均推理精度低于第一精度阈值、所述第一推理装置与所述第二推理装置之间的传输带宽增加中的至少一种；

所述更新装置更新所述传输条件，包括：

所述更新装置增大所述置信度阈值。
根据权利要求14所述的方法，其特征在于，所述更新装置更新所述传输条件，包括：

当所述第一推理装置与所述第二推理装置之间在所述第一时间段内的平均剩余传输带宽高于预设阈值时，增大所述置信度阈值。
根据权利要求12或13所述的方法，其特征在于，所述第一更新触发条件包括所述第一推理装置与所述第二推理装置之间的传输带宽减少、传输至所述第二推理装置的输入样本相对于所述第一推理装置接收的总输入样本的比例超过传输比例上限中的至少一种；

所述更新装置更新所述传输条件，包括：

所述更新装置减小所述置信度阈值。
根据权利要求11至16任一项所述的方法，其特征在于，所述方法还包括：

当满足第二更新触发条件时，所述更新装置更新所述第一推理模型和/或所述第二推理模型。
根据权利要求17所述的方法，其特征在于，所述当满足第二更新触发条件时，所述更新装置更新所述第一推理模型和/或所述第二推理模型，包括：

当所述第一推理模型在第一时间段内的平均推理精度低于第一精度阈值且所述第一推理装置与所述第二推理装置之间的剩余传输带宽低于预设阈值时，所述更新装置更新所述第一推理模型；和/或，当所述第二推理模型在所述第一时间段内的平均推理精度低于第二精度阈值时，所述更新装置更新所述第二推理模型。
根据权利要求17或18所述的方法，其特征在于，所述更新装置更新所述第一推理模型和/或所述第二推理模型，包括：

所述更新装置获取增量训练样本；

所述更新装置利用所述增量训练样本对所述第一推理模型和/或所述第二推理模型进行增量训练。
根据权利要求17至19任一项所述的方法，其特征在于，所述更新装置更新所述第一推理模型，包括：

所述更新装置确定所述第一推理装置在第二时间段内的可用资源的资源量；

所述更新装置根据所述第一推理装置在第二时间段内的可用资源的资源量，更新所述第一推理模型的规格。
一种更新装置，其特征在于，所述更新装置应用于推理系统，所述推理系统还包括第一推理装置、第二推理装置以及决策装置，所述更新装置包括：

采集模块，用于获取所述推理系统的资源信息和/或推理结果，所述推理结果包括所述第一推理装置利用第一推理模型对输入样本进行推理的结果，其中，当所述第一推理模型针对所述输入样本进行推理的结果满足所述决策装置中的传输条件时，所述输入样本被传输至所述第二推理装置；

监测模块，用于根据所述推理系统的资源信息和/或所述推理系统的推理结果确定所述推理系统满足第一更新触发条件；

更新模块，用于更新所述传输条件。
根据权利要求21所述的更新装置，其特征在于，所述传输条件包括所述推理结果的置信度低于置信度阈值，所述更新模块，具体用于更新所述置信度阈值。
根据权利要求22所述的更新装置，其特征在于，所述传输条件还包括传输至所述第二推理装置的输入样本相对于所述第一推理装置接收的总输入样本的比例，不超过传输比例上限。
根据权利要求22或23所述的更新装置，其特征在于，所述第一更新触发条件包括所述第一推理模型在第一时间段内的平均推理精度低于第一精度阈值、所述第一推理装置与所述第二推理装置之间的传输带宽增加中的至少一种；

所述更新模块，具体用于增大所述置信度阈值。
根据权利要求24所述的更新装置，其特征在于，所述更新模块，用于当所述第一推理装置与所述第二推理装置之间在所述第一时间段内的平均剩余传输带宽高于预设阈值时，增大所述置信度阈值。
根据权利要求22或23所述的更新装置，其特征在于，所述第一更新触发条件包括所述第一推理装置与所述第二推理装置之间的传输带宽减少、传输至所述第二推理装置的输入样本相对于所述第一推理装置接收的总输入样本的比例超过传输比例上限中的至少一种；

所述更新模块，具体用于减小所述置信度阈值。
根据权利要求21至26任一项所述的更新装置，其特征在于，所述更新模块，还用于当满足第二更新触发条件时，更新所述第一推理模型和/或所述第二推理模型。
根据权利要求27所述的更新装置，其特征在于，所述更新模块，用于当所述第一推理模型在第一时间段内的平均推理精度低于第一精度阈值且所述第一推理装置与所述第二推理装置之间的剩余传输带宽低于预设阈值时，更新所述第一推理模型；和/或，当所述第二推理模型在所述第一时间段内的平均推理精度低于第二精度阈值时，更新所述第二推理模型。
根据权利要求27或28所述的更新装置，其特征在于，所述更新模块，用于获取增量训练样本；利用所述增量训练样本对所述第一推理模型和/或所述第二推理模型进行增量训练。
根据权利要求27至29任一项所述的更新装置，其特征在于，所述更新模块，用于确定所述第一推理装置在第二时间段内的可用资源的资源量；根据所述第一推理装置在第二时间段内的可用资源的资源量，更新所述第一推理模型的规格。
一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器；

所述处理器用于执行所述存储器中存储的指令，以使得所述计算机设备执行权利要求11至20中任一项所述的方法。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有指令，当其在计算设备上运行时，使得所述计算设备执行如权利要求11至20任一项所述的方法。
一种包含指令的计算机程序产品，其特征在于，当其在计算设备上运行时，使得所述计算设备执行如权利要求11至20中任一项所述的方法。