WO2023143243A1

WO2023143243A1 - 自主学习方法、装置、电子设备及机器可读存储介质

Info

Publication number: WO2023143243A1
Application number: PCT/CN2023/072593
Authority: WO
Inventors: 王金
Original assignee: 杭州海康威视数字技术股份有限公司
Priority date: 2022-01-25
Filing date: 2023-01-17
Publication date: 2023-08-03
Also published as: CN114444717A

Abstract

本申请提供一种自主学习方法、装置、电子设备及机器可读存储介质，该方法包括：当确定满足自主学习触发条件时，收集当期训练数据；依据所述当期训练数据、高价值历史样本，以及获取到的有标签数据，对第一模型进行在线训练，得到第二模型；依据所述第二模型对所述第一模型进行更新。该方法可以实现模型的持续进化，并在保证模型对新数据的处理性能的情况下，有效缓解模型对旧知识的遗忘。

Description

自主学习方法、装置、电子设备及机器可读存储介质

技术领域

本申请涉及机器学习技术领域，尤其涉及一种自主学习方法、装置、电子设备及机器可读存储介质。

背景技术

视频监控中的智能分析自主学习系统是指能够使用用户现场的无标签数据进行自主学习，持续提升线上模型场景泛化能力的智能系统。

传统的自主学习系统一般不具备持续学习能力，一方面，导致端侧硬件训练资源的浪费，另一方面，无法应对线上数据分布的持续变化，导致一次自主学习过后，模型性能出现逐渐退化的现象。

发明内容

有鉴于此，本申请提供一种自主学习方法、装置、电子设备及机器可读存储介质，以应对线上数据分布的持续变化，优化模型性能。

具体地，本申请是通过如下技术方案实现的。

根据本申请实施例的第一方面，提供一种自主学习方法，包括：当确定满足自主学习触发条件时，收集当期训练数据；所述当期训练数据包括目标时间点之前的第一预设时长内产生的无标签数据，和/或，目标时间点之后的第二预设时长内产生的无标签数据；所述目标时间点为确定满足自主学习触发条件的时间点；依据所述当期训练数据、高价值历史样本，以及获取到的有标签数据，对第一模型进行在线训练，得到第二模型；其中，所述第一模型为当前使用的模型，所述高价值历史样本为当前使用的模型的历史自主学习过程中，在自主学习前后的模型上的输出结果差异大于预设差异阈值的样本；依据所述第二模型对所述第一模型进行更新。

根据本申请实施例的第二方面，提供一种自主学习装置，包括：确定单元，用于确定是否满足自主学习触发条件；数据收集单元，用于当所述确定单元确定满足自主学习触发条件时，收集当期训练数据；所述当期训练数据包括目标时间点之前的第一预设时长内产生的无标签数据，和/或，目标时间点之后的第二预设时长内产生的无标签数据；所述目标时间点为确定满足自主学习触发条件的时间点；训练单元，用于依据所述当期训练数据、高价值历史样本，以及获取到的有标签数据，对第一模型进行在线训练，得到第二模型；其中，所述第一模型为当前使用的模型，所述高价值历史样本为当前使用的模型的历史自主学习过程中，在自主学习前后的模型上的输出结果差异大于预设差异阈值的样本；更新单元，用于依据所述第二模型对所述第一模型进行更新。

根据本申请实施例的第三方面，提供一种电子设备，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的机器可执行指令，所述处理器用于执行机器可执行指令，以实现第一方面提供的方法。

根据本申请实施例的第四方面，提供一种机器可读存储介质，所述机器可读存储介质内存储有机器可执行指令，所述机器可执行指令被处理器执行时实现第一方面提供的方法。

本申请提供的技术方案至少可以带来以下有益效果：通过在确定满足自主学习触发条件的情况下，收集当前时间点(即确定满足自主学习触发条件的时间点)之前的第一预设时长内产生的无标签数据，和/或，当前时间点之后的第二预设时长的内产生的无标签数据，并以收集到的无标签数据为当期训练数据，依据该当期训练数据、高价值历史样本，以及获取到的有标签数据，对第一模型进行在线训练，并依据训练得到的第二模型更新第一模型，实现了模型的持续进化，并在保证模型对新数据的处理性能的情况下，有效缓解模型对旧知识的遗忘。

附图说明

图1是本申请示例性实施例示出的一种自主学习方法的流程示意图；

图2是本申请示例性实施例示出的一种自主学习的完整流程示意图；

图3是本申请示例性实施例示出的一种自主学习装置的结构示意图；

图4是本申请示例性实施例示出的一种电子设备的硬件结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

为了使本领域技术人员更好地理解本申请实施例提供的技术方案，并使本申请实施例的上述目的、特征和优点能够更加明显易懂，下面结合附图对本申请实施例中技术方案作进一步详细的说明。

请参见图1，为本申请实施例提供的一种自主学习方法的流程示意图，如图1所示，该自主学习方法可以包括以下步骤S100至步骤S120。

需要说明的是，本申请实施例中各步骤的序号大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

步骤S100、当确定满足自主学习触发条件时，收集当期训练数据；该当期训练数据包括目标时间点之前的第一预设时长内产生的无标签数据，和/或，目标时间点之后的第二预设时长内产生的无标签数据；目标时间点为确定满足自主学习触发条件的时间点。

本申请实施例中，为了提升线上模型场景泛化能力，应对线上数据分布的持续变化，在确定满足自主学习触发条件的情况下，可以收集当前时间点(即确定满足自主学习触发条件的时间点，本文中称为目标时间点)之前的预设时长(本文中称为第一预设时长)内产生的无标签数据，和/或，目标时间点之后的预设时长(本文中称为第二预设时长)内产生的无标签数据(本文中称为当期训练数据)，以用于对当前使用的模型(本文中称为第一模型)进行自主学习训练。此处的预设时长以及下文其他的预设量在本文中都不做限定。

示例性的，当期训练数据可以为第一模型处理后的数据，其可以包括报警数据(即触发了报警的数据)和非报警数据(即未触发报警的数据)。

示例性的，第一预设时长和第二预设时长可以相同，也可以不同。

示例性的，第一预设时长和第二预设时长中可以一个为0，即可以仅收集目标时间点之前的无标签数据作为当期训练数据，或，仅收集目标时间点之后的无标签数据作为当期训练数据。其中，无标签数据是指没有被人工或者通过模型辅助打过标签的数据，在本申请中，当期训练数据和下文中的高价值历史样本都属于无标签数据。相对应的，有标签数据是指被人工标注或者通过模型辅助打过标签的数据，在本申请中，可以携带少量有标签加密数据放在存储器中。本申请的自主学习方法可以同时使用当期训练数据、高价值历史样本和获取到的有标签数据对模型进行训练。

示例性的，在当期训练数据包括目标时间点之后的第二预设时长内产生的无标签数据的情况下，可以在当期训练数据收集完成的情况下，开始模型的更新。

步骤S110、依据当期训练数据、高价值历史样本，以及获取到的有标签数据，对第一模型进行在线训练，得到第二模型。

本申请实施例中，为了保证自主学习训练得到的模型的准确性，在对第一模型进行自主学习训练的过程中，除了可以使用步骤S100中获取到的当期训练数据之外，还可以使用部分有标签数据。

此外，为了在保证自主学习更新的模型对新数据的处理性能的情况下缓解模型对旧知识的遗忘，对模型进行自主学习更新所使用的训练数据除了上述当期训练数据以及有标签数据之外，还可以包括历史训练数据。

考虑到历史训练数据过多的情况下，会增加训练数据量，降低学习效率，而历史训练数据过少的情况下，又可能无法保证缓解对旧知识的遗忘的效果，因此，可以通过选择高价值的历史数据(本文中称为高价值历史样本)参与对模型的自主学习训练的方式，避免过多的历史训练数据对学习效率的影响，同时，避免对旧知识的遗忘。

示例性的，高价值历史样本可以为当前使用的模型的历史自主学习过程中，在自主学习前后的模型上的输出结果差异大于预设差异阈值的样本。

示例性的，在每一次按照步骤S100～步骤S120中描述的方式对模型进行自主学习训练的过程中，假设当前为第t(t≥1)次自主学习，自主学习前的模型记为M_t，自主学习后的模型记为M_t+1，则高价值历史样本可以包括在模型M_t上的输出结果与模型M_t+1上的输出结果的差异大于预设差异阈值的样本。

示例性的，高价值历史样本可以在当期训练数据中挑选，每一次按照步骤S100～步骤S120中描述的方式对模型进行自主学习训练的过程中，可以依据当期训练数据中各样本在训练前的模型M_t(即第一模型)，以及训练后的模型M_t+1(即第二模型)上的输出结果的差异，从当期训练数据中挑选出高价值历史样本，并将挑选出的高价值历史样本加入到高价值历史样本库。

例如，当完成第t次自主学习时，可以从第t次自主学习中收集的当期训练数据中，获取在模型M_t上的输出结果与模型M_t+1上的输出结果的差异大于预设差异阈值的样本作为高价值历史样本。

需要说明的是，当对模型进行首次自主学习时，可以不使用高价值历史样本，或者，通过人工选择的方式挑选一定数量的高价值样本作为高价值历史样本，本申请实施例对此不做限定。

相应地，可以依据当期训练数据、高价值历史样本，以及获取到的有标签数据，采用半监督学习方式，对第一模型进行在线训练，得到训练后的模型(本文中称为第二模型)。

在一个示例中，考虑到有标签数据会影响模型学习的效率，在有标签数据较多的情况下，模型学习的时间会比较长。

此外，考虑到前端设备的算力通常较弱，若自主学习应用在前端设备，则有标签数据的数量的提升会较为明显地降低前端设备自主学习的效率。

因此，为了在保证模型训练的准确性的情况下，提高模型学习效率，在按照上述方式进行自主学习的过程中，有标签数据的数量相对当期训练数据的数量可以较小。

例如，有标签数据的数量与当期训练数据的数量的比值可以小于预设比例阈值。

示例性的，有标签数据可以通过人工标注的方式得到或者通过模型辅助标注的方式得到。

步骤S120、依据第二模型对第一模型进行更新。

本申请实施例中，在依据步骤S110中描述的方式训练得到第二模型的情况下，可以依据第二模型对第一模型进行更新。

需要说明的是，在本申请实施例中，模型的自主学习是一个持续性的过程，当按照步骤S100～步骤S120中描述的方式进行了一次模型更新之后，在再次确定满足自主学习触发条件的情况下，上一次得到的第二模型可以作为新的第一模型，并再次按照步骤S100～步骤S120进行模型更新。

示例性的，为了降低数据获取的难度，提高数据获取效率，每一次按照步骤S100～步骤S120中描述的方式进行模型更新，使用的有标签数据可以相同。

可见，在图1所示方法流程中，通过在确定满足自主学习触发条件的情况下，收集目标时间点之前的第一预设时长内产生的无标签数据，和/或，目标时间点之后的第二预设时长的内产生的无标签数据，并以收集到的无标签数据为当期训练数据，依据该当期训练数据、高价值历史样本，以及获取到的有标签数据，对第一模型进行在线训练，并依据训练得到的第二模型更新第一模型，实现了模型的持续进化，并在保证模型对新数据的处理性能的情况下，有效缓解模型对旧知识的遗忘。

在一些实施例中，步骤S100中，满足自主学习触发条件，可以包括：第一模型的在线推理结果的准确率低于预设准确率阈值；和/或，检测到自主学习触发指令；和/或，达到预设自主学习时间点。

示例性的，自主学习可以自动触发和/或手动触发。

示例性的，考虑到对模型进行一次自主学习更新之后，更新后的模型的性能会随着新的数据的出现逐渐退化，从而，模型的在线推理结果的准确性也会逐渐下降。

相应地，为了保证模型性能，在第一模型的在线推理结果的准确率低于预设准确率阈值的情况下，可以确定满足自主学习触发条件，并按照步骤S100～步骤S120中描述的方式对模型进行自主学习更新。

示例性的，在本申请实施例中，还可以定时触发对模型的自主学习更新，或者，手动触发对模型的自主学习更新。

相应地，可以在检测到自主学习触发指令，或，达到预设自主学习时间点的情况下，确定满足自主学习触发条件。

在一些实施例中，用于在线训练的高价值历史样本通过以下方式筛选得到：当完成第t次自主学习时，获取在所述模型M_t上的输出结果与模型M_t+1上的输出结果的差异大于预设差异阈值的第一样本；利用聚类方式，对第一样本进行去相似处理，得到第二样本，并将第二样本作为高价值历史样本加入到高价值历史样本库。

示例性的，考虑到在进行当期训练数据采集的过程中，可能会采集到一些相似度较高的样本，而这些相似度较高的样本可能均会满足高价值历史样本的条件，导致高价值历史样本中存在相似度较高的样本，使得高价值历史样本中样本的类型较少，不利于模型性能的提升。

例如，以周界防控场景为例，即在区域的围墙区域设置监控前端设备，依据监控前端设备采集的图像数据确定是否有人翻越围墙，在该场景下，若围墙附近存在大树，树叶由于风吹在围墙上方摇晃的情况下，可能会导致频繁误报，这些数据的价值虽然较高，但是相似度也较高。

相应地，对于依据训练前后的模型筛选出的输出结果差异大于预设差异阈值的样本(本文中称为第一样本)，可以利用聚类方式对第一样本进行聚类，得到至少一个类簇；对于任一类簇，可以依据该类簇中各第一样本，确定该类簇的支撑集；其中，同一支撑集中各第一样本的距离(如欧式距离)超过预设距离阈值，且该支撑集中各第一样本可以有效表征该类簇中各第一样本的分布。

对于任一类簇，可以将该类簇的支撑集中的第一样本确定为该类簇中的高价值样本(可以称为第二样本)，并将其余样本作为第二样本的相似样本进行去除。

在按照上述方式得到各类簇中的第二样本的情况下，可以将确定的第二样本作为高价值历史样本加入到高价值历史样本库。

在一个示例中，上述将第二样本加入到高价值历史样本库，可以包括：对于任一第二样本，当将该第二样本加入到高价值历史样本库之前，高价值历史样本库中的高价值历史样本的数量达到预设最大数量时，删除高价值历史样本库中加入时间最早的高价值历史样本，并将该第二样本加入到高价值历史样本库。

示例性的，高价值历史样本库中的样本可以参照队列的形式，按照先进先出的方式进行更新，在高价值历史样本库中样本达到最大存储数量的情况下，可以按照存入时间从先到后的顺序，进行样本的删除。

相应地，对于按照上述方式确定的任一第二样本，在将该第二样本加入到高价值历史样本库之前，可以确定当前高价值历史样本库中的高价值历史样本的数量是否达到预设最大数量。

在当前高价值历史样本库中的高价值历史样本的数量达到预设最大数量的情况下，可以删除高价值历史样本库中加入时间最早的高价值历史样本，并将该第二样本加入到高价值历史样本库中。

在一些实施例中，步骤S120中，依据第二模型对第一模型进行更新，可以包括：对第二模型进行在线量化，并使用量化后的第二模型替换第一模型。

示例性的，为了降低模型的计算量，提高模型的处理效率，在按照上述方式对第一模型进行自主学习训练得到第二模型的情况下，可以对第二模型进行在线量化，并使用量化后的第二模型替换第一模型，实现无人工干预条件下的模型自动进化和升级。

为了使本领域技术人员更好地理解本申请实施例提供的技术方案，下面结合具体实例对本申请实施例提供的技术方案进行说明。

本申请实施例中，提供一种支持持续进化的自主学习方法。通过合理的数据筛选策略，持续累积当前场景出现过的高价值历史样本，并在后续的自主学习过程中同时使用高价值历史样本和当期样本(即上述当期训练数据)进行训练，从而保证训练后的模型既能解决近期新出现的误报、漏报等问题，同时又能解决历史上曾经出现的问题，避免知识遗忘现象，从而保证自主学习系统具有持续进化的能力，同时不遗忘已经学到的知识。

在该实施例中，自主学习方案在实施时可以分为五个阶段：触发学习、当期样本收集、在线训练、高价值历史样本筛选和模型上线。

一、触发学习阶段

示例性的，在触发学习阶段，可以对视频流数据和模型的输出结果进行在线推理和结果诊断，判断报警数据是否存在异常，以确定是否需要触发自主学习。或者，可以引入手动触发信号触发自主学习或定时触发自主学习。

在确定需要触发自主学习(即确定满足自主学习触发条件)的情况下，可以进入当期样本收集阶段。

二、当期样本收集阶段

示例性的，在当期样本收集阶段，可以收集目标时间点(确定需要进行自主学习的时间点)前后T天的数据用于自主学习训练。

示例性的，当期样本可以包括报警数据和非报警数据(图像存储在历史记录里，会标注是否触发报警，但是都是属于无标签数据)。

三、在线训练阶段

示例性的，在在线训练阶段，可以输入当期样本(当期样本收集阶段获取的数据)、高价值历史样本数据和少量有标签数据，利用半监督学习方法进行在线训练，从而提升召回率，抑制误报。

示例性的，在线训练方式可以包括但不限于自我学习(Self-Training)和领域自适应(Domain Adaptation)算法。

示例性的，在每次在线训练结束后，可以挖掘高价值历史样本并存入高价值历史样本库，因此第一次训练时，高价值历史样本库可以为空，只需要使用当期样本和少量有标签数据进行训练即可。

四、高价值历史样本筛选阶段

示例性的，在高价值历史样本筛选阶段，可以挖掘训练前的模型M_t和训练后模型M_t+1在样本层面的差异(同一样本通过两个模型得到的结果差异越大，价值越高)。

示例性的，若同一样本在不同模型上的输出结果差异大于预设差异阈值，则可以确定该样本为高价值样本。

例如，记样本为x，模型的输出结果为M(x)，则可以将训练前模型和训练后模型输出结果差异大于预设差异阈值的样本作为高价值历史样本：

{x：|M_t+1(x)-M_t(x)|＞τ}

示例性的，可以利用聚类等方式在输出结果差异大于预设差异阈值的样本中寻找支撑集，去除相似度较高的样本，筛选出一定数量的高价值历史样本，存入高价值历史样本库中，并用于下次自主学习训练。

示例性的，高价值历史样本库可以作为一个知识库，保留了该场景下曾经出现过的高价值知识点，利用该样本库进行学习，可以有效缓解知识遗忘问题，获得持续进化能力。

由于每次训练都会筛选高价值历史样本，并将高价值历史样本送入高价值历史样本库中。多次学习后，高价值历史样本库内的样本数量会持续增长，因此，可以对高价值历史样本库进行维护和删减。

示例性的，在实现时，高价值历史样本库可以按队列方式进行更新：例如设置一个大小S，在将最新的高价值历史样本加入到高价值历史样本库之前，高价值历史样本库中的高价值历史样本的数量达到S时，按先入先出规则，用最新的高价值历史样本替换最早的高价值历史样本，避免高价值历史样本库持续扩大。

五、模型上线阶段

示例性的，模型训练完成后，可以对模型进行在线量化，以减少模型计算量，然后部署到线上，替换掉老模型，从而实现无人工干预条件下的模型自动进化和升级。

示例性的，自主学习的完整流程可以如图2所示。

以上对本申请提供的方法进行了描述。下面对本申请提供的装置进行描述。

请参见图3，为本申请实施例提供的一种自主学习装置的结构示意图，如图3所示，该自主学习装置可以包括：确定单元310，用于确定是否满足自主学习触发条件；数据收集单元320，用于当所述确定单元310确定满足自主学习触发条件时，收集当期训练数据；所述当期训练数据包括目标时间点之前的第一预设时长内产生的无标签数据，和/或，目标时间点之后的第二预设时长内产生的无标签数据；所述目标时间点为确定满足自主学习触发条件的时间点；训练单元330，用于依据所述当期训练数据、高价值历史样本，以及获取到的有标签数据，对第一模型进行在线训练，得到第二模型；其中，所述第一模型为当前使用的模型，所述高价值历史样本为当前使用的模型的历史自主学习过程中，在自主学习前后的模型上的输出结果差异大于预设差异阈值的样本；更新单元340，用于依据所述第二模型对所述第一模型进行更新。

在一些实施例中，所述满足自主学习触发条件，包括：所述第一模型的在线推理结果的准确率低于预设准确率阈值；和/或，检测到自主学习触发指令；和/或，达到预设自主学习时间点。

在一些实施例中，所述数据收集单元320通过以下方式筛选得到用于在线训练的高价值历史样本：当完成第t次自主学习时，获取在所述模型M_t上的输出结果与模型M_t+1上的输出结果的差异大于预设差异阈值的第一样本；所述模型M_t为第t次自主学习前的模型，所述模型M_t+1为第t次自主学习后的模型，t≥1；利用聚类方式，对所述第一样本进行去相似处理，得到第二样本，并将所述第二样本作为高价值历史样本加入到所述高价值历史样本库。

在一些实施例中，所述数据收集单元320将所述第二样本加入到所述高价值历史样本库，包括：对于任一第二样本，当将该第二样本加入到所述高价值历史样本库之前，所述高价值历史样本库中的高价值历史样本的数量达到预设最大数量时，删除所述高价值历史样本库中加入时间最早的高价值历史样本，并将该第二样本加入到所述高价值历史样本库。

在一些实施例中，所述更新单元340依据所述第二模型对所述第一模型进行更新，包括：对所述第二模型进行在线量化，并使用量化后的第二模型替换所述第一模型。

本申请实施例提供一种电子设备，包括处理器和存储器，其中，存储器存储有能够被所述处理器执行的机器可执行指令，处理器用于执行机器可执行指令，以实现上文描述的自主学习方法。

请参见图4，为本申请实施例提供的一种电子设备的硬件结构示意图。该电子设备可包括处理器401、存储有机器可执行指令的存储器402。处理器401与存储器402可经由系统总线403通信。并且，通过读取并执行存储器402中与自主学习逻辑对应的机器可执行指令，处理器401可执行上文描述的自主学习方法。

本文中提到的存储器402可以是任何电子、磁性、光学或其它物理存储装置，可以包含或存储信息，如可执行指令、数据，等等。例如，机器可读存储介质可以是：RAM(Radom Access Memory，随机存取存储器)、易失存储器、非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、固态硬盘、任何类型的存储盘(如光盘、dvd等)，或者类似的存储介质，或者它们的组合。

在一些实施例中，还提供了一种机器可读存储介质，如图4中的存储器402，该机器可读存储介质内存储有机器可执行指令，所述机器可执行指令被处理器执行时实现上文描述的自主学习方法。例如，所述存储介质可以是ROM、RAM、CD-ROM、磁带、软盘和光数据存储设备等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

一种自主学习方法，其特征在于，包括：

当确定满足自主学习触发条件时，收集当期训练数据；所述当期训练数据包括目标时间点之前的第一预设时长内产生的无标签数据，和/或，所述目标时间点之后的第二预设时长内产生的无标签数据；所述目标时间点为所述确定满足自主学习触发条件的时间点；

依据所述当期训练数据、高价值历史样本，以及获取到的有标签数据，对第一模型进行在线训练，得到第二模型；其中，所述第一模型为当前使用的模型，所述高价值历史样本为当前使用的模型的历史自主学习过程中，在自主学习前后的模型上的输出结果差异大于预设差异阈值的样本；

依据所述第二模型对所述第一模型进行更新。
根据权利要求1所述的方法，其特征在于，所述满足自主学习触发条件，包括：

所述第一模型的在线推理结果的准确率低于预设准确率阈值；和/或，

检测到自主学习触发指令；和/或，

达到预设自主学习时间点。
根据权利要求1所述的方法，其特征在于，用于在线训练的高价值历史样本通过以下方式筛选得到：

当完成第t次自主学习时，获取在模型M_t上的输出结果与模型M_t+1上的输出结果的差异大于预设差异阈值的第一样本；所述模型M_t为第t次自主学习前的模型，所述模型M_t+1为第t次自主学习后的模型，t≥1；

利用聚类方式，对所述第一样本进行去相似处理，得到第二样本，并将所述第二样本作为高价值历史样本加入到高价值历史样本库。
根据权利要求3所述的方法，其特征在于，所述将所述第二样本加入到所述高价值历史样本库，包括：

对于任一第二样本，当将该第二样本加入到所述高价值历史样本库之前，所述高价值历史样本库中的高价值历史样本的数量达到预设最大数量时，删除所述高价值历史样本库中加入时间最早的高价值历史样本，并将该第二样本加入到所述高价值历史样本库。
根据权利要求1所述的方法，其特征在于，所述依据所述第二模型对所述第一模型进行更新，包括：

对所述第二模型进行在线量化，并使用量化后的第二模型替换所述第一模型。
一种自主学习装置，其特征在于，包括：

确定单元，用于确定是否满足自主学习触发条件；

数据收集单元，用于当所述确定单元确定满足自主学习触发条件时，收集当期训练数据；所述当期训练数据包括目标时间点之前的第一预设时长内产生的无标签数据，和/或，所述目标时间点之后的第二预设时长内产生的无标签数据；所述目标时间点为所述确定满足自主学习触发条件的时间点；

训练单元，用于依据所述当期训练数据、高价值历史样本，以及获取到的有标签数据，对第一模型进行在线训练，得到第二模型；其中，所述第一模型为当前使用的模型，所述高价值历史样本为当前使用的模型的历史自主学习过程中，在自主学习前后的模型上的输出结果差异大于预设差异阈值的样本；

更新单元，用于依据所述第二模型对所述第一模型进行更新。
根据权利要求6所述的装置，其特征在于，所述满足自主学习触发条件，包括：

所述第一模型的在线推理结果的准确率低于预设准确率阈值；和/或，

检测到自主学习触发指令；和/或，

达到预设自主学习时间点。
根据权利要求6所述的装置，其特征在于，所述数据收集单元通过以下方式筛选得到用于在线训练的高价值历史样本：

当完成第t次自主学习时，获取在模型M_t上的输出结果与模型M_t+1上的输出结果的差异大于预设差异阈值的第一样本；所述模型M_t为第t次自主学习前的模型，所述模型M_t+1为第t次自主学习后的模型，t≥1；

利用聚类方式，对所述第一样本进行去相似处理，得到第二样本，并将所述第二样本作为高价值历史样本加入到高价值历史样本库。
根据权利要求8所述的装置，其特征在于，所述数据收集单元将所述第二样本加入到所述高价值历史样本库，包括：

对于任一第二样本，当将该第二样本加入到所述高价值历史样本库之前，所述高价值历史样本库中的高价值历史样本的数量达到预设最大数量时，删除所述高价值历史样本库中加入时间最早的高价值历史样本，并将该第二样本加入到所述高价值历史样本库。
根据权利要求6所述的装置，其特征在于，所述更新单元依据所述第二模型对所述第一模型进行更新，包括：

对所述第二模型进行在线量化，并使用量化后的第二模型替换所述第一模型。
一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的机器可执行指令，所述处理器用于执行机器可执行指令，以实现如权利要求1-5任一项所述的方法。
一种机器可读存储介质，其特征在于，所述机器可读存储介质内存储有机器可执行指令，所述机器可执行指令被处理器执行时实现如权利要求1-5任一项所述的方法。