WO2023221888A1

WO2023221888A1 - 用于训练模型的方法、装置和系统

Info

Publication number: WO2023221888A1
Application number: PCT/CN2023/093818
Authority: WO
Inventors: 吕灵娟
Original assignee: 索尼集团公司; 吕灵娟
Priority date: 2022-05-19
Filing date: 2023-05-12
Publication date: 2023-11-23
Also published as: CN115115047A

Abstract

本公开内容涉及用于训练模型的方法、装置和系统。描述了关于模型训练的各种实施例。在一个实施例中，一种用于训练模型的方法包括：获取由开放世界数据构成的与实际数据集相似的近似数据集；以及使用该近似数据集来训练模型。

Description

用于训练模型的方法、装置和系统

相关申请的交叉引用

本申请是以申请号为202210554969.8，申请日为2022年5月19日的中国申请为基础，并主张其优先权，该中国申请的公开内容在此作为整体引入本申请中。

技术领域

本公开一般地涉及隐私保护，并且具体地涉及模型训练过程中的隐私保护。

背景技术

随着深度学习技术的不断发展，神经网络模型已被广泛地部署于包括边缘计算设备在内的各种系统和装置上，用于与用户进行实时交互。

然而，由于神经网络模型含有较多的参数，通常需要大量的数据和计算成本来训练，而大部分商业边缘计算设备并不支持高计算复杂度的模型训练。为了解决该问题，一种技术路线是将数据收集到高算力的服务器端进行训练。然而，数据共享可能会导致难以预计的隐私泄露。特别地，在现有的多国隐私法律条款中，不允许数据离开本地。另一种技术路线是在本地利用实际数据进行模型训练，特别地，在从云端下载的模型的基础上进行微调，以提升模型在实际数据上的表现。然而，模型训练会消耗过多的资源，因此不适用于低功耗的边缘计算设备。

当前针对模型训练的隐私保护技术路线包含两种。第一种是使用差分隐私技术。然而，该类方法对性能影响较大，且算力要求较高，训练过程收敛较慢，无法满足现实的应用需求。另一种是对本地数据进行隐私化处理，进而共享数据给服务器端进行模型训练。隐私化处理包括数据加密和隐私属性解耦。前者利用传统的数值加密方法对图片或其他数据样本进行加密，从而保证数据的可用性，但同时带来很高的计算负担，对于低功耗的设备来说并不适用。后者需要提前训练有解耦能力的特征提取模型，并在训练过程中有监督地学习去除特征中包含的隐私信息，这一方面依赖提前定义好的隐私策略，另一方面可能同时去除了对于学习任务来说重要的信息，降低了特征的质量。

因此，需要在保证模型训练的性能的同时，有效地保护本地实际数据的隐私。

发明内容

本公开的一个方面涉及用于训练模型的方法。根据本公开的实施例，该方法包括：获取由开放世界数据构成的与实际数据集相似的近似数据集；以及使用近似数据集来训练模型。

本公开的一个方面涉及数据处理方法。根据本公开的实施例，该数据处理方法包括：获取实际数据集；接收开放世界数据集的代表性数据样本集；对代表性数据样本与实际数据进行特征匹配；以及返回代表性数据样本与实际数据的匹配结果。

本公开的一个方面涉及产生模型的方法。根据本公开的实施例，产生模型的方法包括：执行根据本公开实施例的用于训练模型的方法的步骤来产生模型。

本公开的一个方面涉及训练装置。根据本公开的实施例，该装置包括训练数据获取模块，被配置为获取由开放世界数据构成的与实际数据集相似的近似数据集；以及训练模块，被配置为使用近似数据集来训练模型。

本公开的一个方面涉及数据处理装置。根据本公开的实施例，该数据处理装置包括数据采集模块，被配置为获取实际数据集；交互模块，被配置为接收开放世界数据集的代表性数据样本集；以及特征匹配模块，被配置为对代表性数据样本与实际数据进行特征匹配；其中，所述交互模块还被配置为返回代表性数据样本与实际数据的匹配结果。

本公开的一个方面涉及用于训练模型的系统。根据本公开的实施例，用于训练模型的系统包括根据本公开实施例的训练装置；以及根据本公开实施例的数据处理装置。

本公开的再一个方面涉及存储有一个或多个指令的计算机可读存储介质。在一些实施例中，该一个或多个指令可以在由处理器执行时，使处理器执行根据本公开实施例的各方法的步骤。

本公开的再一个方面涉及包括一个或多个指令的计算机程序产品。在一些实施例中，该一个或多个指令可以在由处理器执行时，使处理器执行根据本公开实施例的各方法的步骤。

提供上述概述是为了总结一些示例性的实施例，以提供对本文所描述的主题的各方面的基本理解。因此，上述特征仅仅是例子并且不应该被解释为以任何方式缩小本文所描述的主题的范围或精神。本文所描述的主题的其他特征、方面和优点将从以下结合附图描述的具体实施方式而变得明晰。

附图说明

当结合附图考虑实施例的以下具体描述时，可以获得对本公开内容更好的理解。在各附图中使用了相同或相似的附图标记来表示相同或者相似的部件。各附图连同下面的具体描述一起包含在本说明书中并形成说明书的一部分，用来例示说明本公开的实施例和解释本公开的原理和优点。其中：

图1A是示出根据本公开实施例的用于训练模型的方法的步骤的示例的流程图。

图1B是示出根据本公开实施例的获取近似数据集的步骤的子步骤的示例的流程图。

图1C是示出根据本公开实施例的筛选代表性数据样本的步骤的子步骤的示例的流程图。

图2是示出根据本公开实施例的数据处理方法的步骤的示例的流程图。

图3是示出根据本公开实施例的用于训练模型的系统以及其中的训练装置和数据处理装置的配置的示例的示意图，其中例示了组成装置的主要功能模块及信息交互。

图4A-图4C是示出根据本公开实施例的用于训练模型的方案的多个学习场景的示意图。

图5示出了根据本公开实施例的可实现为训练装置、数据处理装置或用于训练模型的系统的计算机的示例框图。

虽然在本公开内容中所描述的实施例可能易于有各种修改和另选形式，但是其具体实施例在附图中作为例子示出并且在本文中被详细描述。但是，应当理解，附图以及对其的详细描述不是要将实施例限定到所公开的特定形式，而是相反，目的是要涵盖属于权利要求的精神和范围内的所有修改、等同和另选方案。

具体实施方式

以下描述根据本公开的设备和方法等各方面的代表性应用。这些例子的描述仅是为了增加上下文并帮助理解所描述的实施例。因此，对本领域技术人员而言明晰的是，以下所描述的实施例可以在没有具体细节当中的一些或全部的情况下被实施。在其他情况下，众所周知的过程步骤没有详细描述，以避免不必要地模糊所描述的实施例。其他应用也是可能的，本公开的方案并不限制于这些示例。

发明人认识到，相比于通用的模型，使用本地的实际数据训练得到的模型能够更加准确地适用于具体的本地应用场景。然而，利用实际数据直接在本地进行模型训练不适用于低功耗的计算设备(诸如传感器之类的本地边缘设备)，而将实际数据收集到高算力的计算设备(诸如云端服务器)进行训练可能会导致难以预计的隐私泄露。另外，直接使用实际数据训练得到的模型可能会泄露实际数据中的隐私信息。例如，在一些情况下，可以通过观察目标数据在模型上的输出来判断目标数据是否被用于训练该模型，从而获取目标数据的成员隐私信息。例如更具体地，如果摄像头捕捉的人脸图像数据被直接用于模型训练，那么训练得到的模型可能会被恶意利用，例如通过模型输出来推测出某人是否曾经进入摄像头观察范围，比如无人超市等。

发明人还认识到，提高训练数据的数量有利于完成有效学习以获得高精度的模型，然而，现有的隐私保护学习方法通常会在一定程度上限制数据的共享。

因此，在保护隐私信息和保证训练所需算力的同时获取大量有价值的训练数据十分有必要。

为此，申请人在本公开中提出了从海量且多样的开放世界数据中采样得到与实际数据相匹配的大量数据样本，并在这些非隐私敏感的数据样本上训练模型。一方面，本地收集得到的实际数据只用于在本地匹配数据，而不被其他模块所利用，另一方面，本地也无需进行高算力要求的模型训练。由此，基于大量开放世界数据训练的模型不会泄露实际数据的隐私信息，并能够同时保证模型的实际应用价值。

本公开的方案适用于所有需要对训练模型的实际数据进行隐私保护且需要大量数据的场景，诸如智慧城市，智慧超市等。在一些实施例中，本公开的方案可以引入监控视频多帧的时序信息从而适用于例如用户行动轨迹的隐私保护。

本公开的方案也适用于将高能耗的学习任务从低算力的边缘设备转移到高算力的服务器的场景。

图1A例示了根据本公开实施例的用于训练模型的方法的步骤的示例的流程图。图1B-图1C例示了根据本公开实施例的用于训练模型的方法的部分步骤的子步骤的示例的流程图。根据本公开实施例的用于训练模型的方法可以由包括处理设备的任何装置执行，例如，可以由高算力服务器(诸如云端服务器)来执行。

如图1A所示，根据本公开的实施例，用于训练模型的方法100可以主要包括以下步骤：

在步骤110，获取由开放世界数据构成的与实际数据集相似的近似数据集；以及

在步骤120，使用近似数据集来训练模型。

这里，开放世界数据(Open-world data)可以理解为能够从任何渠道合法获得的公开数据资源，包括网络图片，公开数据集，等等。发明人认识到，虽然海量的开放世界数据能够提供丰富多样的数据样本，但直接使用开放世界数据训练模型是不利的，一方面，分散的数据分布不利于模型的快速收敛，另一方面，对于某个具体应用场景而言，大量与实际数据分布差异巨大的数据会影响模型的准确性。

因此，在根据本公开的实施例中，获取由开放世界数据构成的且与实际数据集相似的近似数据集，并使用该近似数据集来训练模型。

这里，近似数据集与实际数据集“相似”可以理解为近似数据集与实际数据集具有相似的数据分布。衡量的标准可以是在近似数据集上训练得到的损失与在实际数据集上训练得到的损失相近。因此，使用近似数据集来训练模型能够提升模型在实际数据上的表现。

可选地，在一些实施例中，用于训练模型的方法100还可以包括获取预训练的模型(步骤130)。由此，使用近似数据集来训练模型(步骤120)包括使用近似数据集对预训练的模型进行调整。

在一些实施例中，可以从开放世界采集数据，并在采集得到的预训练数据集上对模型进行预训练，得到预训练的模型。例如，可以使用常见的ImageNet中的数据来进行预训练。但是，本公开不限于此。例如，在一些实施例中，可以从云端下载预训练的模型。或者，在一些实施例中，可以从外部存储装置下载预训练的模型。本领域技术人员容易理解，获取预训练的模型的方式不限于此，可以根据需要进行选择。

下面将结合图1B的流程图来详细例示获取近似数据集的步骤(步骤110)的子步骤的示例。本领域技术人员容易理解，图1B示出的获取近似数据集的方法仅是一个示例，本公开不限于此，本领域技术人员还可以结合本公开揭示的思想利用现有的各种开放世界数据采集、采样、收集、选取、挑选、筛选、滤选等方法来获得与实际数据集相似的近似数据集。

如图1B所示，在一些实施例中，获取近似数据集可以包括对开放世界数据集D进行抽象处理，获得代表性数据样本集S_q(步骤112)。

在一些实施例中，开放世界数据集D可以根据实际数据所属的应用场景来采集。例如，在应用场景是智慧城市或智慧无人超市的情况下，可以选择与该应用场景适配的类的数据样本来构成开放世界数据集D。有利地，这种方式能够更快更准确地匹配传感器数据分布，确定相似数据集。但本领域技术人员容易理解，本公开不限于此，例如，可以从开放世界随机地采集数据样本来构成开放世界数据集D。

在一些示例中，开放世界数据集D可以与用于获取预训练的模型的预训练数据集具有相同或相似的数据分布。或者，开放世界数据集D可以与预训练数据集具有不同的数据分布。

这里，对开放世界数据集D进行“抽象”处理可以指对巨量的开放世界数据集中的数据进行提炼，以获得代表性数据样本的各种方法，包括但不限于无监督聚类方法。

发明人认识到，神经网络的特征层，特别是倒数第二层，具有内在的特征提取和数据聚类的功能，可以用于从数据中提取特征和对数据进行聚类。

因此，在一些实施例中，对开放世界数据集进行抽象处理的步骤112包括利用预训练的模型，对开放世界数据集中的数据进行特征提取和聚类。

例如，可以利用在步骤130中获取的预训练的模型来执行步骤112中的特征提取和聚类。但本公开不限于此。

假设预训练的神经网络为f_θ。通过去除该神经网络的最后一层，并将保留的处于倒数第二层的特征层作为输出，可以得到神经网络φ。可以利用φ作为特征提取器来提取开放世界数据集D的隐藏层特征并进行聚类，得到总共C个聚类的C个聚类中心，每个聚类中心被视为该聚类的代表性数据样本，所有代表性数据样本可以构成上述代表性数据样本集S_q。但本公开不限于此，也可以使用其它特征提取器来提取开放世界数据集D的特征并进行聚类。

本领域技术人员容易理解，上述过程仅是抽象处理的一个示例，本公开不限于此，本领域技术人员还可以结合本公开揭示的思想利用现有的各种抽象处理的方法来获得代表性数据样本集S_q。

值得注意的是，由于可以认为开放世界数据是没有边界的，因此在步骤112中得到的聚类的数量C不一定等于所有开放世界数据对应的类的数量。

如图1B所示，在一些实施例中，获取近似数据集可以包括在代表性数据样本集中筛选与实际数据在特征上匹配的代表性数据样本(步骤114)。

发明人认识到，通过将代表性数据样本集下载到本地与实际数据进行比对并返回比对结果，能够在无需分享本地实际数据的情况下实现对特征匹配的代表性数据样本的筛选，从而有利地避免上传本地实际数据带来的隐私泄露风险。

因此，在一些实施例中，筛选与实际数据在特征上匹配的代表性数据样本的步骤114可以包括与可访问实际数据的数据处理装置进行信息的交互，确定与实际数据在特征上匹配的代表性数据样本。其中，所交互的信息不包含实际数据。

下面将结合图1C的流程图来详细例示筛选代表性数据样本(步骤114)的示例。本领域技术人员容易理解，图1C示出的筛选方法仅是一个示例，本公开不限于此，本领域技术人员还可以结合本公开揭示的思想利用现有的各种筛选方法来获得与实际数据在特征上匹配的代表性数据样本。

如图1C所示，在一些实施例中，筛选与实际数据在特征上匹配的代表性数据样本的步骤114可以包括下述子步骤。

在步骤1142，向数据处理装置发送代表性数据样本集。

在一些实施例中，出于提高通信效率、减小通信开销和减小本地储存负担等中的一个或多个的目的，所发送的代表性数据样本可以用提取的特征来表示。但本公开不限于此，例如，所发送的代表性数据样本也可以是原始格式的数据样本。

在步骤1144，从数据处理装置接收各个代表性数据样本的匹配结果。其中，每个代表性数据样本的匹配结果基于该代表性数据样本与各个实际数据在特征上的统计相似度。

在一些实施例中，实际数据的特征也可以利用预训练的模型进行提取。由此，还可以将神经网络φ发送给可访问实际数据的数据处理装置。

例如，每个代表性数据样本的匹配结果可以基于该代表性数据样本与所有实际数据在特征上的相似度的统计和值或平均值。在一些示例中，代表性数据样本与任一实际数据的相似度可以用数值表示，其中数值的大小反映与该实际数据在特征上的匹配程度。例如，代表性数据样本与任一实际数据的相似度可以用离散数值0或1表示，其中对于任一实际数据而言，与该实际数据在特征上最匹配的代表性数据样本的相似度为1，其它代表性数据样本的相似度为0。在这种情况下，代表性数据样本的相似度的统计和值或平均值(统计相似度)越大，则表示该代表性数据样本与更多的实际数据是最匹配的，即匹配程度越高。在该示例下，可如下表示代表性数据样本c的统计相似度：

[式1]

其中S_p表示实际数据集，V_c表示代表性数据样本c得到的与实际数据最匹配的投票数，用于指示其统计相似度。

发明人认识到，各个代表性数据样本与实际数据在特征上的统计相似度也可能包含实际数据的部分隐私信息。

因此，在一些实施例中，各个代表性数据样本的匹配结果可以是对相应的统计相似度进行差分隐私处理A_∈(v_c)或其它隐私保护处理后得到的。但本公开不限于此，例如，匹配结果可以直接由相应的统计相似度表示。

稍后将结合图2来详细描述确定匹配结果的具体示例。

本领域技术人员容易理解，以上描述的匹配结果的定义仅是一个示例，本公开不限于此，本领域技术人员还可以结合本公开揭示的思想来以其他方式定义匹配结果。

在步骤1146，从代表性数据样本集中滤除匹配结果相对较差的代表性数据样本。

在一些实施例中，可以将各个代表性数据样本的匹配结果进行排序，并从代表性数据样本集中滤除匹配结果的排序靠后的代表性数据样本。可替代地，在一些实施例中，可以从代表性数据样本集中滤除匹配结果的数值小于预设阈值的代表性数据样本。例如，在通过上述式1获得统计相似度的情况下，可以滤除匹配结果为0或由于添加随机扰动而接近0的代表性数据样本。

由于在步骤114中筛选出的代表性数据样本与实际数据在特征上匹配，因此可以认为筛选出的代表性数据样本所对应的类是包括在实际数据集中的类。但值得注意的是，由于不知道实际数据的类的数量，因此筛选出的类的数量不一定等于实际数据的类的数量。

替代地，在一些实施例中，接收到的匹配结果仅与已筛选出的代表性数据样本有关。由此，无需再执行步骤1146。

发明人认识到，除了筛选出的代表性数据样本本身以外，近似数据集还可以包括与筛选出的代表性数据样本在特征上匹配的其它开放世界数据，以提供用于模型训练的大量数据，从而保证所训练模型的准确性。

因此，如图1B所示，在一些实施例中，获取近似数据集还可以包括基于筛选出的代表性数据样本，补充采集相关的开放世界数据，扩充近似数据集(步骤116)。

在一些实施例中，相关的开放世界数据是与筛选出的代表性数据样本在特征上匹配的开放世界数据。这里也可以使用预训练的模型来进行聚类和特征提取。

例如，针对每个筛选出的代表性数据样本，可以在该代表性数据样本的类中随机采样数据。进一步地，可以基于特征匹配的程度优先选取与筛选出的代表性数据样本更为接近的数据。

在一些实施例中，可以继续在开放世界数据集D中补充采集数据。可替代地，可以在另一个开放世界数据集中补充采集数据。例如，可以在一个更大的开放世界数据集中进行补充采集，以保证数据的充足性和丰富性。

发明人还认识到，筛选出的代表性数据样本的匹配结果可以基本反映实际数据的分布比例情况。具体地，在匹配结果的值与匹配程度正相关的情况下，代表性数据样本的匹配结果越高，则在实际数据中该代表性数据样本所属的类的数据比例就可能越高。由此，与匹配结果相关地补充采集数据有利于得到与实际数据集的数据分布更相似的相似数据集。

因此，在一些实施例中，扩充近似数据集的步骤116包括与筛选出的每个代表性数据样本的匹配结果相关地采集与该代表性数据样本在特征上匹配的数据。在匹配结果的值与匹配程度正相关的情况下，“相关地”可以包括“成比例地”或“近似成比例地”。由此，代表性数据样本与实际数据越匹配，在该代表性数据样本的类中采集的开放世界数据就越多。

通过步骤116，可以获得由大量开放世界数据组成的与实际数据集近似的近似数据集D_c。

如图1A所示，在步骤120中，使用近似数据集D_c来训练模型。

在各种实施例中，在步骤120中训练模型可以包括重新训练模型、调整模型、更新模型等中的一个或多个。

假设初始模型是预训练的模型f_θ，其中θ为预训练模型参数，并且训练的学习率为r，那么通过使用近似数据集D_c，可以通过以下方式训练模型：

[式2]

其中，B为从D_c中随机抽取的批样本。

通过将上述微调过程重复若干次，就可以实现模型的训练。

另外，在一些实施例中，步骤110-120可以重复执行，以针对更新的实际数据对经训练的模型进行调整，从而更好地适应实际情况，并减少每次重新训练模型所需的工作量。

如图1A所示，可选地，在一些实施例中，用于训练模型的方法100还包括对经训练的模型进行模型压缩(步骤140)。

有利地，在模型部署之前使用模型压缩技术压缩模型，不仅可以进一步减少模型大小，使模型更适用于诸如边缘计算设备之类的装置，还可以进一步减少模型隐私泄露。

在一些实施例中，用于训练模型的方法100还包括将经训练的模型分发给相关的数据处理装置(步骤150)。

这里，与实际数据集“相关”是指数据处理装置要利用经训练的模型处理的数据与实际数据集具有相同的分布。例如，同一超市内的不同货区的顾客的访问特点可能不尽相同，使得从布置在不同货区的图像传感器采集的顾客数据存在差异，位于某个货区的图像传感器待处理的数据与由该货区的图像传感器采集的实际顾客数据集具有相同的分布。由此，经训练的模型可以在待处理的数据上具有更好的表现。

在一些实施例中，用于训练模型的方法100还包括获得执行上述步骤得到的经训练的模型。

根据本公开的实施例，产生模型的方法可以包括执行根据本公开实施例的用于训练模型的方法的步骤来产生模型。

图2例示了根据本公开实施例的数据处理方法的步骤的示例的流程图。上面结合图1A-图1C所描述的内容也可以适用于对应的特征，将省略部分重复内容的描述。

根据本公开实施例的数据处理方法可以由包括处理设备的任何装置执行，例如，可以由低功耗的计算设备(诸如图像传感器之类的本地边缘设备)来执行。

如图2A所示，根据本公开的实施例，数据处理方法200可以主要包括以下步骤：

在步骤210，获取实际数据集；

在步骤220，接收开放世界数据集的代表性数据样本集；

在步骤230，对代表性数据样本与实际数据进行特征匹配；以及

在步骤240，返回代表性数据样本与实际数据的匹配结果。

在一些实施例中，在步骤210中，可以通过直接采集数据来获取实际数据集S_p。例如，在一些示例中，可以通过图像捕获来获取真实的图像数据。或者，在一些实施例中，可以采用对于隐私信息安全的方式从外部装置获取实际数据集S_p。

在一些实施例中，数据处理方法200还可以包括对获取的实际数据集进行特征提取，以方便进行特征匹配。

在一些实施例中，可以使用上述通过去除预训练的神经网络f_θ的最后一层并保留其倒数第二层而得到的神经网络φ作为特征提取器。相应地，数据处理方法200还可以包括接收该神经网络φ。但本领域技术人员容易理解，本公开不限于此。

在一些实施例中，在步骤220中，可以从高算力的计算设备(诸如云端服务器)接收开放世界数据集D的代表性数据样本集S_q。

如上所述，在一些实施例中，代表性数据样本集S_q可以通过对开放世界数据集D进行抽象处理而获得。例如，代表性数据样本集S_q可以包括通过使用诸如神经网络φ之类的特征提取器进行特征提取和聚类而得到的总共C个聚类的聚类中心，但本公开不限于此。

如上所述，在一些实施例中，所接收的代表性数据样本S_q可以是以提取的特征表示的数据样本，但本公开不限于此。

在一些实施例中，进行特征匹配(步骤230)包括计算每个代表性数据样本与各个实际数据在特征上的统计相似度。

例如，可以计算每个代表性数据样本与所有实际数据在特征上的相似度的统计和值或平均值，作为统计相似度。如上所述，在一些示例中，可以用数值表示代表性数据样本与任一实际数据的相似度，其中数值的大小反映与该实际数据在特征上的匹配程度。例如，可以用离散数值0或1表示代表性数据样本与任一实际数据的相似度，其中对于任一实际数据而言，与该实际数据在特征上最匹配的代表性数据样本的相似度被设定为1，其它代表性数据样本的相似度被设定为0。在这种情况下，代表性数据样本的相似度的统计和值或平均值(统计相似度)越大，则表示该代表性数据样本与更多的实际数据是最匹配的，即匹配程度越高。在这种示例下，可以使用上述式1中的投票数来计算代表性数据样本的统计相似度。但本领域技术人员容易理解，本公开不限于此。

在一些实施例中，进行特征匹配还包括对统计相似度执行差分隐私处理。

可以通过对相应的统计相似度进行差分隐私处理A_∈(v_c)而得到各个代表性数据样本的匹配结果。例如，可以在各个代表性数据样本的统计相似度中加入随机的高斯扰动，并计算对应的差分隐私风险。如果隐私损耗在可接受范围内，则得到匹配结果。但本公开不限于此，例如，也可以对统计相似度使用其它隐私保护技术或者直接将统计相似度确定为匹配结果。

本领域技术人员容易理解，以上描述的进行特征匹配的方法仅是一个示例，本公开不限于此，本领域技术人员还可以结合本公开揭示的思想来使用各种特征匹配的方法。

在处理的开放世界数据没有标签而实际数据具有标签的情况下，在一些实施例中，数据处理方法200还可以包括对至少部分代表性数据样本进行标注(步骤250)。例如，对与实际数据在特征上匹配的代表性数据样本进行标注。由此，在一些实施例中，数据处理方法200还可以包括在返回代表性数据样本与实际数据的匹配结果(步骤240)后接收与实际数据在特征上匹配的代表性数据样本或与其相关的信息。

在一些实施例中，对代表性数据样本进行标注(步骤250)可以包括分别计算该代表性数据样本与各类的实际数据在特征上的类相似度；以及基于类相似度的大小排序，确定该代表性数据所属的类。

其中，代表性数据样本与每类的实际数据在特征上的类相似度可以用该类的实际数据中与代表性数据样本在特征上匹配的实际数据的数量来表示。

例如，可以使用最近邻伪标签方法来对代表性数据样本进行标注。

假设有K类的实际数据，针对代表性数据样本x，用表示x的m近邻集合，其中m是一个可选的超参数，则可以根据以下式3进行标注：

[式3]

其中，V_k表示符合代表性数据样本x的最近邻要求的第k类实际数据的数量(投票数)，代表样本x的类相似度。A_∈(v_k)对投票数进行噪声隐私化处理，并计算隐私风险∈。f(x)表示选出的得到最大投票数的类，即，该代表性数据x将被标注的类。

上述标注方法可以用本地的实际数据标签为筛选出的无标签开放世界数据提供最近邻伪标签，有利地减少了标注任务的工作量，提高了模型训练的效率。

可选地，在一些实施例中，数据处理方法200还可以包括部署执行根据本公开实施例的用于训练模型的方法的步骤得到的经训练的模型，以处理数据(步骤260)。鉴于用于得到该经训练的模型的相似数据集与实际数据集相似，且待处理的数据也与实际数据集具有相同的数据分布，部署该经训练的模型将有利于提高模型对于实际应用场景的适应性和准确性。

值得注意的是，在以上描述的方法中的各个步骤之间的边界仅仅是说明性的。在实际操作中，各个步骤之间可以任意组合，甚至合成单个步骤。此外，各个步骤的执行顺序不受描述顺序的限制，并且部分步骤可以省略。各个实施例的操作步骤也可以以任何适当的顺序相互组合，从而类似地实现比所描述的更多或更少的操作。

下面结合图3示例性地描述根据本公开实施例的用于训练模型的系统、训练装置和数据处理装置。为了便于理解，图3还例示了各个装置的主要功能模块及其信息交互。

根据本公开的实施例，用于训练模型的系统300可以包括训练装置310和数据处理装置320。在一些实施例中，训练装置310是高算力的计算设备(诸如云端服务器)，而数据处理装置320是低功耗的计算设备(诸如图像传感器之类的本地边缘设备)。

在一些实施例中，训练装置310可以将从开放世界数据集中抽象出来的代表性数据样本集发送给数据处理装置320，根据返回的与实际数据的匹配结果生成相似数据集，并利用该相似数据集训练模型，从而能够提高模型在实际数据中的表现。其中，开放世界能够有利地提供大量的数据样本。相应地，数据处理装置320仅需在本地针对实际数据执行特征匹配处理，既不需要分享实际数据，也不需要执行高算力要求的模型训练。训练得到的模型可以部署在数据处理装置320上。由此，训练模型的过程不会泄露实际数据的隐私信息，并能够同时保证所训练模型的准确性和实际应用价值。

特别地，在各种实施例中，训练装置310可以被配置为执行根据本公开实施例的用于训练模型的方法的步骤。上面结合图1A-图1C以及图2所描述的内容也可以适用于对应的特征，将省略部分重复内容的描述。

在本公开的实施例中，如图3所示，训练装置310可以包括：

训练数据获取模块312，被配置为获取由开放世界数据构成的与实际数据集相似的近似数据集；以及

训练模块314，被配置为使用近似数据集来训练模型。

在一些实施例中，训练数据获取模块312可以包括抽象子模块3122。抽象子模块3122可以被配置为对开放世界数据集进行抽象处理，获得代表性数据样本集。例如，抽象子模块3122可以被配置为利用预训练的模型，对开放世界数据集中的数据进行特征提取和聚类。

在一些实施例中，训练数据获取模块312可以包括筛选子模块3124。筛选子模块3124可以被配置为在代表性数据样本集中筛选与实际数据在特征上匹配的代表性数据样本。例如，筛选子模块3124可以被配置为与可访问实际数据的数据处理装置进行信息的交互，确定与实际数据在特征上匹配的代表性数据样本，其中，所交互的信息不包含实际数据。即，对于实际数据的处理仅在本地执行，不上传实际数据。值得注意的是，虽然图3中例示的与筛选子模块3124进行信息交互的数据处理装置是根据本公开实施例的数据处理装置320，但本公开不限于此。本领域技术人员容易理解，该数据处理装置可以是收集和/或存储实际数据从而能够安全访问实际数据但不泄露隐私信息的任何数据处理装置。

在一些示例中，筛选子模块3124可以被配置为向数据处理装置发送代表性数据样本集，并从数据处理装置接收各个代表性数据样本的匹配结果。其中，每个代表性数据样本的匹配结果可以基于该代表性数据样本与各个实际数据在特征上的统计相似度。然后，筛选子模块3124可以被配置为从代表性数据样本集中滤除匹配结果相对较差的代表性数据样本。

可替代地，在一些实施例中，筛选子模块3124可以仅接收到筛选出的代表性数据样本的匹配结果。即，相对较差的匹配结果已经被滤除。由此，筛选子模块3124可以不再执行滤除操作。

在一些实施例中，训练数据获取模块312还可以包括扩充子模块3126。扩充子模块3126可以被配置为基于筛选出的代表性数据样本，补充采集相关的开放世界数据，扩充近似数据集。例如，扩充子模块3126可以被配置为与筛选出的每个代表性数据样本的匹配结果相关地采集与该代表性数据样本在特征上匹配的数据。

在一些实施例中，训练装置310还可以包括预训练模块316。预训练模块316可以被配置为获取预训练的模型。由此，训练模块314可以被配置为使用近似数据集对预训练的模型进行调整。

在一些实施例中，训练装置310还可以包括模型分发模块318。模型分发模块318被配置为将经训练的模型分发给与实际数据集相关的装置。这里，与实际数据集“相关”是指该装置要利用经训练的模型处理的数据与实际数据集具有相同的分布。例如，相关的装置可以是与训练装置310进行信息的交互以提供匹配结果的数据处理装置，但本公开不限于此。

可选地，在一些实施例中，训练装置310还可以包括模型压缩模块(未示出)。模型压缩模块被配置为使用模型压缩技术压缩模型。

特别地，在各种实施例中，数据处理装置320可以被配置为执行根据本公开实施例的数据处理方法的步骤。上面结合图1A-图1C以及图2所描述的内容也可以适用于对应的特征，将省略部分重复内容的描述。

本公开的实施例中，如图3所示，数据处理装置320可以包括：

数据采集模块322，被配置为获取实际数据集；

交互模块324，被配置为接收开放世界数据集的代表性数据样本集；以及

特征匹配模块326，被配置为对代表性数据样本与实际数据进行特征匹配；

其中，所述交互模块324还被配置为返回代表性数据样本与实际数据的匹配结果。

在一些实施例中，数据采集模块322还可以被配置为对获取的实际数据集进行特征提取。

在一些实施例中，数据处理装置320还可以包括部署模块328。部署模块328可以被配置为部署执行根据本公开实施例的用于训练模型的方法的步骤得到的经训练的模型，即，由训练装置310得到的经训练的模型，以处理数据。

在一些实施例中，特征匹配模块326可以被配置为计算每个代表性数据样本与各个实际数据在特征上的统计相似度，并基于统计相似度确定匹配结果。在一些实施例中，特征匹配模块326还可以被配置为对统计相似度执行差分隐私处理。相关内容已在上文中详细讨论，这里不再重复描述。

然后，数据处理装置320可以通过交互模块324返回匹配结果。由此，数据处理装置320仅需在本地针对实际数据执行特征匹配处理，既不需要分享实际数据，也不需要执行高算力要求的模型训练。

在一些实施例中，数据处理装置320还可以包括标注模块(未示出)。标注模块可以被配置为对至少部分代表性数据样本进行标注。

在一些实施例中，标注模块可以被配置为分别计算该代表性数据样本与各类的实际数据在特征上的类相似度；以及基于类相似度的大小排序，确定该代表性数据所属的类。在一些实施例中，标注模块还可以被配置为在进行排序之前，对类相似度执行差分隐私处理。相关内容已在上文中详细讨论，这里不再重复描述。

虽然图3中将训练装置310和数据处理装置320描绘在一起，但本领域技术人员容易理解，本公开不限于此。事实上，在很多情况下，训练装置310被设置在云端，而数据处理装置320被设置在本地。

此外，本领域的技术人员应当理解，虽然图3中仅例示了一个数据处理装置320，但是数据处理装置的数量不限于此。例如，在一些实施例中，系统300可以包括多个数据处理装置320。训练装置310可以借助于这些数据处理装置320中的每个来分别执行特征匹配以确定相似数据集，并将在相似数据集上训练得到的模型分发并部署到相应的装置。这里，“相应的”装置是指部署模型的装置要处理的数据的分布与用于训练得到该模型的相似数据集的分布相似。

图3中例示的系统300可以应用在各种场景下，特别是各类计算机视觉分类任务的业务场景。

图4A-图4C例示了根据本公开实施例的用于训练模型的方案的学习场景的示例。为了便于理解，图4A-图4C简化了部分功能模块及其交互，但本领域技术人员容易理解，本公开不限于此。

在图4A所示的示例中，利用本地的实际数据的标签为无标签的开放世界数据进行标注，例如提供最近邻伪标签。这样，根据本公开实施例的模型训练方案可以进行半监督学习以训练模型。在该示例中，可以通过特征匹配筛除分布差异太大的云端数据，减少需要标注的数据，并减少分布外样本带来的近邻伪标签算法的噪声，从而改善半监督学习的效率。

在图4B所示的示例中，所处理的开放世界数据是有标签的。这样，根据本公开实施例的模型训练方案可以先在不同于实际数据分布的开放世界数据(如ImageNet)上进行模型的预训练，再执行有监督的调整训练。

在图4C所示的示例中，所处理的开放世界数据和实际数据都是无标签的。这样，根据本公开实施例的模型训练方案可以在筛选后利用外包服务进行人工标注，从而进行少量标签样本的半监督学习。有利地，通过筛选出需要标注的数据，可以减少需要标注的公开样本的数量和人工成本。

本领域的技术人员应当理解，用于训练模型的方案的应用不限于以上示例。

本公开实施例还提供了存储有一个或多个指令的计算机可读存储介质，这些指令可以在由处理器执行时，使处理器执行上述实施例中的用于训练模型的方法或者数据处理方法的步骤。

本公开实施例还提供了包括一个或多个指令的计算机程序产品，这些指令可以在由处理器执行时，使处理器执行上述实施例中的用于训练模型的方法或者数据处理方法的步骤。

应当理解，根据本公开实施例的计算机可读存储介质中的指令可以被配置为执行与上述系统和方法实施例相应的操作。当参考上述系统和方法实施例时，计算机可读存储介质的实施例对于本领域技术人员而言是明晰的，因此不再重复描述。用于承载或包括上述指令的计算机可读存储介质也落在本公开的范围内。这样的计算机可读存储介质可以包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。

本公开实施例还提供了包括用于执行上述实施例中的用于训练模型的方法或者数据处理方法的步骤的部件或单元的各种装置。

应注意，上述各个部件或单元仅是根据其所实现的具体功能划分的逻辑模块，而不是用于限制具体的实现方式，例如可以以软件、硬件或者软硬件结合的方式来实现。在实际实现时，上述各个部件或单元可被实现为独立的物理实体，或者也可由单个实体(例如，处理器(CPU或DSP等)、集成电路等)来实现。例如，在以上实施例中包括在一个单元中的多个功能可以由分开的装置来实现。替选地，在以上实施例中由多个单元实现的多个功能可分别由分开的装置来实现。另外，以上功能之一可由多个单元来实现。

另外，应当理解，上述系列处理和设备也可以通过软件和/或固件实现。在通过软件和/或固件实现的情况下，从存储介质或网络向具有专用硬件结构的计算机，例如图5所示的通用计算机500安装构成该软件的程序，该计算机在安装有各种程序时，能够执行各种功能等等。图5示出了根据本公开实施例的可实现为训练装置、应用装置和系统的计算机的示例框图。

在图5中，中央处理单元(CPU)501根据只读存储器(ROM)502中存储的程序或从存储部分508加载到随机存取存储器(RAM)503的程序执行各种处理。在RAM 503中，也根据需要存储当CPU 501执行各种处理等时所需的数据。

CPU 501、ROM 502和RAM 503经由总线504彼此连接。输入/输出接口505也连接到总线504。

下述部件连接到输入/输出接口505：输入部分506，包括键盘、鼠标等；输出部分507，包括显示器，比如阴极射线管(CRT)、液晶显示器(LCD)等，和扬声器等；存储部分508，包括硬盘等；和通信部分509，包括网络接口卡比如LAN卡、调制解调器等。通信部分509经由网络比如因特网执行通信处理。

根据需要，驱动器510也连接到输入/输出接口505。可拆卸介质511比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器510上，使得从中读出的计算机程序根据需要被安装到存储部分508中。

在通过软件实现上述系列处理的情况下，从网络比如因特网或存储介质比如可拆卸介质511安装构成软件的程序。

本领域技术人员应当理解，这种存储介质不局限于图5所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质511。可拆卸介质511的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者，存储介质可以是ROM 502、存储部分508中包含的硬盘等等，其中存有程序，并且与包含它们的设备一起被分发给用户。

以上参照附图描述了本公开的示例性实施例，但是本公开当然不限于以上示例。本领域技术人员可在所附权利要求的范围内得到各种变更和修改，并且应理解这些变更和修改自然将落入本公开的技术范围内。

虽然已经详细说明了本公开及其优点，但是应当理解在不脱离由所附的权利要求所限定的本公开的精神和范围的情况下可以进行各种改变、替代和变换。而且，本公开实施例的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本公开的实施例还包括：

1.一种用于训练模型的方法，包括：

获取由开放世界数据构成的与实际数据集相似的近似数据集；以及

使用近似数据集来训练模型。

2.根据项目1所述的模型训练方法，其中，获取近似数据集包括：

对开放世界数据集进行抽象处理，获得代表性数据样本集；以及

在代表性数据样本集中筛选与实际数据在特征上匹配的代表性数据样本。

3.根据项目2所述的方法，其中，获取近似数据集还包括：

基于筛选出的代表性数据样本，补充采集相关的开放世界数据，扩充近似数据集。

4.根据项目2所述的方法，其中，对开放世界数据集进行抽象处理包括：

利用预训练的模型，对开放世界数据集中的数据进行特征提取和聚类。

5.根据项目2所述的方法，其中，筛选与实际数据在特征上匹配的代表性数据样本包括：

与可访问实际数据的数据处理装置进行信息的交互，确定与实际数据在特征上匹配的代表性数据样本，其中，所交互的信息不包含实际数据。

6.根据项目3所述的方法，其中，扩充近似数据集包括：

与筛选出的每个代表性数据样本的匹配结果相关地采集与该代表性数据样本在特征上匹配的数据，其中每个代表性数据样本的匹配结果基于该代表性数据样本与各个实际数据在特征上的统计相似度。

7.根据项目1所述的方法，还包括获取预训练的模型，以及

其中，使用近似数据集来训练模型包括使用近似数据集对预训练的模型进行调整。

8.一种数据处理方法，包括：

获取实际数据集；

接收开放世界数据集的代表性数据样本集；

对代表性数据样本与实际数据进行特征匹配；以及

返回代表性数据样本与实际数据的匹配结果。

9.根据项目8所述的方法，还包括：部署执行根据项目1-7中任一项所述的方法得到的经训练的模型，以处理数据。

10.根据项目8所述的方法，其中，进行特征匹配包括：

计算每个代表性数据样本与各个实际数据在特征上的统计相似度，并基于统计相似度确定匹配结果。

11.根据项目10所述的方法，其中，进行特征匹配还包括：

对统计相似度执行差分隐私处理。

12.根据项目8所述的方法，还包括：

对至少部分代表性数据样本进行标注。

13.根据项目12所述的方法，其中，对代表性数据进行标注包括：

分别计算该代表性数据样本与各类的实际数据在特征上的类相似度；以及

基于类相似度的大小排序，确定该代表性数据所属的类。

14.根据项目13所述的方法，其中，对代表性数据进行标注还包括：

在进行排序之前，对类相似度执行差分隐私处理。

15.一种训练装置，包括：

训练数据获取模块，被配置为获取由开放世界数据构成的与实际数据集相似的近似数据集；以及

训练模块，被配置为使用近似数据集来训练模型。

16.一种数据处理装置，包括：

数据采集模块，被配置为获取实际数据集；

交互模块，被配置为接收开放世界数据集的代表性数据样本集；以及

特征匹配模块，被配置为对代表性数据样本与实际数据进行特征匹配；

其中，所述交互模块还被配置为返回代表性数据样本与实际数据的匹配结果。

17.一种用于训练模型的系统，包括：

根据项目15所述的训练装置；以及

根据项目16所述的数据处理装置。

18.一种计算机可读存储介质，其上存储有一个或多个指令，所述指令在由处理器执行时，使处理器执行根据项目1-7中任一项所述方法的步骤和/或根据项目8-14中任一项所述方法的步骤。

19.一种计算机程序产品，包括一个或多个指令，所述指令在由处理器执行时，使处理器执行根据项目1-7中任一项所述方法的步骤和/或根据项目8-14中任一项所述方法的步骤。

20.一种产生模型的方法，包括：执行根据项目1-7中任一项所述方法的步骤来产生模型。

Claims

一种用于训练模型的方法，包括：

获取由开放世界数据构成的与实际数据集相似的近似数据集；以及

使用近似数据集来训练模型。
如权利要求1所述的方法，其中，获取近似数据集包括：

对开放世界数据集进行抽象处理，获得代表性数据样本集；以及

在代表性数据样本集中筛选与实际数据在特征上匹配的代表性数据样本。
如权利要求2所述的方法，其中，获取近似数据集还包括：

基于筛选出的代表性数据样本，补充采集相关的开放世界数据，扩充近似数据集。
如权利要求2所述的方法，其中，对开放世界数据集进行抽象处理包括：

利用预训练的模型，对开放世界数据集中的数据进行特征提取和聚类。
如权利要求2所述的方法，其中，筛选与实际数据在特征上匹配的代表性数据样本包括：

与可访问实际数据的数据处理装置进行信息的交互，确定与实际数据在特征上匹配的代表性数据样本，其中，所交互的信息不包含实际数据。
如权利要求3所述的方法，其中，扩充近似数据集包括：

与筛选出的每个代表性数据样本的匹配结果相关地采集与该代表性数据样本在特征上匹配的数据，其中每个代表性数据样本的匹配结果基于该代表性数据样本与各个实际数据在特征上的统计相似度。
如权利要求1所述的方法，还包括获取预训练的模型，以及

其中，使用近似数据集来训练模型包括使用近似数据集对预训练的模型进行调整。
一种数据处理方法，包括：

获取实际数据集；

接收开放世界数据集的代表性数据样本集；

对代表性数据样本与实际数据进行特征匹配；以及

返回代表性数据样本与实际数据的匹配结果。
如权利要求8所述的方法，还包括：部署执行根据权利要求1-7中任一项所述的方法得到的经训练的模型，以处理数据。
如权利要求8所述的方法，其中，进行特征匹配包括：

计算每个代表性数据样本与各个实际数据在特征上的统计相似度，并基于统计相似度确定匹配结果。
如权利要求10所述的方法，其中，进行特征匹配还包括：

对统计相似度执行差分隐私处理。
如权利要求8所述的方法，还包括：

对至少部分代表性数据样本进行标注。
如权利要求12所述的方法，其中，对代表性数据进行标注包括：

分别计算该代表性数据样本与各类的实际数据在特征上的类相似度；以及

基于类相似度的大小排序，确定该代表性数据所属的类。
如权利要求13所述的方法，其中，对代表性数据进行标注还包括：

在进行排序之前，对类相似度执行差分隐私处理。
一种训练装置，包括：

训练数据获取模块，被配置为获取由开放世界数据构成的与实际数据集相似的近似数据集；以及

训练模块，被配置为使用近似数据集来训练模型。
一种数据处理装置，包括：

数据采集模块，被配置为获取实际数据集；

交互模块，被配置为接收开放世界数据集的代表性数据样本集；以及

特征匹配模块，被配置为对代表性数据样本与实际数据进行特征匹配；

其中，所述交互模块还被配置为返回代表性数据样本与实际数据的匹配结果。
一种用于训练模型的系统，包括：

根据权利要求15所述的训练装置；以及

根据权利要求16所述的数据处理装置。
一种计算机可读存储介质，其上存储有一个或多个指令，所述指令在由处理器执行时，使处理器执行根据权利要求1-7中任一项所述方法的步骤和/或根据权利要求8-14中任一项所述方法的步骤。
一种计算机程序产品，包括一个或多个指令，所述指令在由处理器执行时，使处理器执行根据权利要求1-7中任一项所述方法的步骤和/或根据权利要求8-14中任一项所述方法的步骤。
一种产生模型的方法，包括：执行根据权利要求1-7中任一项所述方法的步骤来产生模型。