WO2023060954A1

WO2023060954A1 - 数据处理与数据质检方法、装置及可读存储介质

Info

Publication number: WO2023060954A1
Application number: PCT/CN2022/105122
Authority: WO
Inventors: 夏晶; 赵鹏昊; 李曙鹏; 吕海军; 华蔚颖; 施恩
Original assignee: 北京百度网讯科技有限公司
Priority date: 2021-10-14
Filing date: 2022-07-12
Publication date: 2023-04-20
Also published as: CN114116688B; CN114116688A

Abstract

提供了一种数据处理与数据质检方法、装置及可读存储介质，涉及云服务、深度学习等人工智能技术领域。数据处理方法包括：获取至少一个待处理数据，至少一个待处理数据为经过标注的待处理数据（S101）；使用目标神经网络模型对至少一个待处理数据进行预设次数的预测，得到至少一个待处理数据在每次预测时的预测结果（S102）；根据至少一个待处理数据的标注结果与至少一个待处理数据在每次预测时的预测结果，生成至少一个待处理数据的比对结果序列（S103）；根据至少一个待处理数据的比对结果序列，确定至少一个待处理数据中的待质检数据（S104）。数据质检方法包括：根据数据处理方法获取待质检数据；对待质检数据进行质检，获得质检结果。

Description

数据处理与数据质检方法、装置及可读存储介质

本申请要求了申请日为2021年10月14日，申请号为202111197122.0发明名称为“数据处理与数据质检方法、装置及可读存储介质”的中国专利申请的优先权。

技术领域

本公开涉及计算机技术领域，尤其涉及云服务、深度学习等人工智能技术领域，具体提供了一种数据处理与数据质检方法、装置、电子设备及可读存储介质。

背景技术

数据标注质检是指对已标注数据的质量进行检验。随着人工智能(Artificial Intelligence，AI)技术的迅速发展，AI企业或个人开发者对数据的需求日益增长。而数据的标注质量，对AI算法的性能有着巨大的影响，只有大量客观、精准的已标注数据，才能有助于AI算法性能的提升。

在相关技术中，通常采用人工质检的方式来观察并判断已标注的数据是否存在标注错误。然而，这种通过人工质检的方式，可能因数据量大、人工疏忽等原因出现失误，且人工质检的成本较高。

发明内容

为了解决相关技术中存在的通过人工质检的方式获取待质检数据并进行质检存在的质检成本较高、质检准确性较差的技术问题，本公开提出一种数据处理与数据质检方法，用于实现自动地从待处理数据中筛选得到待质检数据的目的，能够降低获得待质检数据的成本，提升获得待质检数据的效率与准确性。

根据本公开的第一方面，提供了一种数据处理方法，包括：获取至少一个待处理数据，所述至少一个待处理数据为经过标注的待处理数据；使用目标神经网络模型对所述至少一个待处理数据进行预设次数的预测，得到所述至少一个待处理数据在每次预测时的预测结果；根据所述至少一个待处理数据的标注结果与所述至少一个待处理数据在每次预测时的预测结果，生成所述至少一个待处理数据的比对结果序列；根据所述至少一个待处理数据的比对结果序列，确定所述至少一个待处理数据中的待质检数据。

根据本公开的第二方面，提供了一种数据质检方法，包括：根据数据处理方法获取待质检数据；对所述待质检数据进行质检，获得质检结果。

根据本公开的第三方面，提供了一种数据处理装置，包括：第一获取单元，用于获取至少一个待处理数据，所述至少一个待处理数据为经过标注的待处理数据；预测单元，用于使用目标神经网络模型对所述至少一个待处理数据进行预设次数的预测，得到所述至少一个待处理数据在每次预测时的预测结果；生成单元，用于根据所述至少一个待处理数据的标注结果与所述至少一个待处理数据在每次预测时的预测结果，生成所述至少一个待处理数据的比对结果序列；处理单元，用于根据所述至少一个待处理数据的比对结果序列，确定所述至少一个待处理数据中的待质检数据。

根据本公开的第四方面，提供了一种数据质检装置，包括：第二获取单元，用于根据数据处理装置获取待质检数据；质检单元，用于对所述待质检数据进行质检，获得质检结果。

根据本公开的第五方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上所述的方法。

根据本公开的第六方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行如上所述的方法。

根据本公开的第七方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现如上所述的方法。

由以上技术方案可以看出，本公开实现了自动地从待处理数据中筛选得到待质检数据的目的，能够降低获得待质检数据的成本，提升获得待质检数据的效率与准确性。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开第一实施例的示意图；

图2是根据本公开第二实施例的示意图；

图3是根据本公开第三实施例的示意图；

图4是根据本公开第四实施例的示意图；

图5是根据本公开第五实施例的示意图；

图6是根据本公开第六实施例的示意图；

图7是用来实现本公开实施例的数据处理或数据质检方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和机构的描述。

图1是根据本公开第一实施例的示意图。如图1所示，本实施例的数据处理方法，具体包括如下步骤：

S101、获取至少一个待处理数据，所述至少一个待处理数据为经过标注的待处理数据；

S102、使用目标神经网络模型对所述至少一个待处理数据进行预设次数的预测，得到所述至少一个待处理数据在每次预测时的预测结果；

S103、根据所述至少一个待处理数据的标注结果与所述至少一个待处理数据在每次预测时的预测结果，生成所述至少一个待处理数据的比对结果序列；

S104、根据所述至少一个待处理数据的比对结果序列，确定所述至少一个待处理数据中的待质检数据。

本实施例的数据处理方法，在使用目标神经网络模型对获取的至少一个待处理数据进行预设次数的预测之后，根据至少一个待处理数据的标注结果与至少一个待处理数据在每次预测时的预测结果，生成至少一个待处理数据的比对结果序列，进而根据至少一个待处理数据的比对结果序列，从至少一个待处理数据中确定待质检数据，本实施例实现了自动地从待处理数据中筛选得到待质检数据的目的，能够降低获得待质检数据的成本，提升获得待质检数据的效率与准确性。

本实施例的数据处理方法的执行主体可以为云端服务器，也可以为终端设备。

本实施例执行S101获取的至少一个待处理数据，为经过人工标注或者自动标注的图像、文本、音频等数据，即除了原始数据之外，还包含原始数据的标注结果。其中，本实施例中的待处理数据的标注结果可以为类别识别结果、目标识别结果、文本识别结果等。

本实施例在执行S101获取至少一个待处理数据时，可以将输入端输入的至少一个数据，作为至少一个待处理数据；也可以根据输入端发送的质检请求，将数据库中与所接收的质检请求对应的至少一个数据，作为至少一个待处理数据。

其中，本实施例在执行S101获取至少一个待处理数据时，可以采用的可选实现方式为：获取质检请求，该质检请求由输入端发送，包含数据标识信息，该数据标识信息可以为数据集的ID等；将与所获取的数据标识信息对应的至少一个数据，作为至少一个待处理数据，例如将对应数据标识信息的数据集中的全部数据作为至少一个待处理数据。

也就是说，本实施例将不同的数据预先存储在数据库中，在获取输入端发送的质检请求之后，将数据库中与质检请求所对应的数据作为待处理数据，无需输入端进行数据输入的操作，简化了输入端的操作步骤，从而能够提升在得到待质检数据时的效率。

可以理解的是，本实施例执行S101获取的至少一个待处理数据具有相同的数据类型，例如所获取的至少一个待处理数据的数据类型为图像、文本与音频等中的一种。

本实施例在执行S101获取至少一个待处理数据之后，执行S102使用目标神经网络模型对至少一个待处理数据进行预设次数的预测，得到至少一个待处理数据在每次预测时的预测结果。

本实施例在执行S102时，首先确定目标神经网络模型，然后使用该目标神经网络模型来得到至少一个待处理数据的预测结果。

本实施例在执行S102时，可以根据所获取的质检请求确定目标神经网络模型，即所获取的质检请求中除了包含数据标识信息之外，还进一步包含模型类型信息，例如目标检测类型、文本识别类型、图像分类类型等，将与模型类型信息对应的神经网络模型，作为目标神经网络模型。

另外，本实施例在执行S102时，还可以通过以下方式确定目标神经网络模型：根据至少一个待处理数据的标注结果，确定用于表征神经网络模型的训练任务的任务信息，神经网络模型的训练任务可以包含目标检测任务、文本识别任务、图像分类任务等；将与所确定的任务信息对应的神经网络模型，作为目标神经网络模型。其中，本实施例中的不同的神经网络模型用于完成不同的训练任务。

也就是说，本实施例能够在未从输入端发送的质检请求中获取模型类型信息的情况下，根据待处理数据的标注结果来进行目标神经网络模型的确定，从而进一步提升在得到待质检数据时的智能性与效率。

本实施例在执行S102确定了目标神经网络模型之后，即可使用该目标神经网络模型对至少一个待处理数据进行预设次数的训练，从而得到至少一个神经网络模型在每次预测时的预测结果。

其中，本实施例执行S102时的预设次数，可以预先设置的次数；也可以根据任务信息与训练次数之间的对应关系，将与至少一个待处理数据的任务信息对应的训练次数作为预设次数。

本实施例在执行S102使用目标神经网络模型对至少一个待处理数据进行预设次数的预测时，可以采用分布式训练的方式，即由多个节点，分别使用目标神经网络模型对不同的待处理数据进行预测，每个节点保存相应的待处理数据的预测结果，并同时记录训练次数与节点序号。

本实施例在执行S102得到至少一个待处理数据在每次预测时的预测结果之后，执行S103根据至少一个待处理数据的标注结果与至少一个待处理数据在每次预测时的预测结果，生成至少一个待处理数据的比对结果序列。

具体地，本实施例在执行S103根据至少一个待处理数据的标注结果与至少一个待处理数据在每次预测时的预测结果，生成至少一个待处理数据的比对结果序列时，可以采用的可选实现方式为：将至少一个待处理数据的标注结果分别与至少一个待处理数据在每次预测时的预测结果进行比对，得到至少一个待处理数据在每次预测时的用于表征预测正确或者预测错误的比对结果，若预测结果与标注结果一致，得到用于表征预测正确的比对结果，否则得到用于表征预测错误的比对结果；根据至少一个待处理数据在每次预测时的用于表征预测正确或者预测错误的比对结果，生成至少一个待处理数据的比对结果序列。

也就是说，本实施例生成的比对结果序列，能够反映目标神经网络模型在进行预设次数的训练时，对于至少一个待处理数据的预测情况，从而实现根据该比对结果序列来确定待处理数据的标注质量的目的。

举例来说，若待处理数据为数据1，预设次数为6次，使用目标神经网络模型对预测数据1所得到的预测结果分别为结果1、结果2、结果3、结果4、结果5与结果6，预测结果中仅结果1、结果4与标注结果一致，则本实施例执行S103生成的数据1的比对结果序列为{预测正确，预测错误，预测错误，预测正确，预测错误，预测错误}。

本实施例在执行S103生成至少一个待处理数据的比对结果序列之后，执行S104根据至少一个待处理数据的比对结果序列，确定至少一个待处理数据中的待质检数据。其中，本实施例执行S104确定的待质检数据的个数可以为一个，也可以为多个。

本实施例在执行S104根据待处理数据的比对结果序列确定待质检数据时，可以确定比对结果序列中出现预测错误的次数，进而将预测错误的次数超过预设次数阈值的待处理数据作为待质检数据。

也就是说，本实施例根据所生成的比对结果序列来确定待处理数据的标注质量，将标注质量较差(多次出行预测错误)的待处理数据作为待质检数据，实现从至少一个待处理数据中筛选得到待质检数据的目的，进而将所确定的待质检数据返回给输入端，以用于输入端对待质检数据进行确认或者重新标注。

图2是根据本公开第二实施例的示意图。如图2所示，本实施例在执行“S104根据所述至少一个待处理数据的比对结果序列，确定所述至少一个待处理数据中的待质检数据”时，具体包括如下步骤：

S201、根据所述至少一个待处理数据的比对结果序列，得到所述至少一个待处理数据的遗忘次数；

S202、根据所述至少一个待处理数据的遗忘次数，确定所述至少一个待处理数据中的待质检数据。

本实施例中，待处理数据的“遗忘次数”是指待处理数据在经过目标神经网络模型的多次预测之后，在所得到的比对结果序列中，出现预设的比对结果顺序的次数。

本实施例根据待处理数据的比对结果序列来得到待处理数据的遗忘次数，进而使用所得到的遗忘次数，从至少一个待处理数据中确定待质检数据，通过比对结果序列来得到遗忘次数的方式，能够提升所确定的待质检数据的准确性。

具体地，本实施例在执行S201根据至少一个待处理数据的比对结果序列，得到至少一个待处理数据的遗忘次数时，可以采用的可选实现方式为：统计至少一个待处理数据的比对结果序列中，出现预设的比对结果顺序的次数；将统计得到的次数，作为至少一个待处理数据的遗忘次数。

举例来说，若待处理数据的比对结果序列为{预测正确，预测错误，预测正确，预测正确，预测错误，预测错误}，若预设的比对结果顺序为“预测正确，预测错误”，本实施例执行S201得到的该待处理数据的遗忘次数为2；若预设的比对结果顺序为“预测正确，预测错误，预测错误”，本实施例执行S201得到的该待处理数据的遗忘次数为1。

由于在所得到的待处理数据的标注质量较差的情况下，目标神经网络模型根据待处理数据所得到的预测结果可能都是错误的，因此存在使用预设比对结果顺序无法得到待处理数据的遗忘次数的问题。

为了确保能够得到待处理数据的遗忘次数，提升所得到的遗忘次数的准确性，本实施例在执行S201根据至少一个待处理数据的比对结果序列，得到至少一个待处理数据的遗忘次数时，可以采用的可选实现方式为：在确定至少一个待处理数据的比对结果序列中不存在用于表征预测正确的比对结果的情况下，将至少一个待处理数据的遗忘次数标记为预设遗忘次数，本实施例中的预设遗忘次数可以为-1。

本实施例在执行S201得到至少一个待处理数据的遗忘次数之后，执行S202根据所得到的至少一个待处理数据的遗忘次数，确定至少一个待处理数据中的待质检数据。

本实施例在执行S202根据所得到的遗忘次数确定至少一个待处理数据中的待质检数据时，可以根据遗忘次数从高到低的顺序，将至少一个待处理数据进行排序，从而将排在前N位的待处理数据作为待质检数据，N为大于等于1的正整数。

在实际场景中存在多个待处理数据的遗忘次数相同的情况，但是这些遗忘次数相同的待处理数据具有不同的重要程度，因此直接根据所得到的遗忘次数来确定待质检数据时，可能会存在将比较重要的待处理数据遗漏的问题。

为了进一步避免比较重要的待处理数据被遗漏，提升所确定的待质检数据的准确性，本实施例在执行S202根据至少一个待处理数据的遗忘次数，确定至少一个待处理数据中的待质检数据时，可以采用的可选实现方式为：针对每个待处理数据，获取目标神经网络模型在最后一次预测该待处理数据时的输出结果，例如获取目标神经网络模型对待处理数据在最后一次预测时输出的最高预测概率；根据至少一个待处理数据的输出结果与遗忘次数，确定至少一个待处理数据中的待质检数据。

其中，本实施例在执行S202根据至少一个待处理数据的输出结果与遗忘次数，确定至少一个待处理数据中的待质检数据时，可以采用的可选实现方式为：根据输出结果与遗忘次数，得到待处理数据被标注错误的概率分数，本实施例可以采用将输出结果与遗忘次数进行相加或相乘的方式来得到概率分数；按照概率分数从高到低的顺序，将至少一个待处理数据进行排序，从而将排在前M位的待处理数据作为待质检数据，M为大于等于1的正整数。

为了更加直观地向输入端反馈待处理数据的标注情况，便于输入端准确地选取待质检数据，本实施例在执行S202根据至少一个待处理数据的遗忘次数，确定至少一个待处理数据中的待质检数据时，还可以采用以下方式：根据至少一个待处理数据的遗忘次数，确定至少一个待处理数据的标注正确率；使用至少一个待处理数据与至少一个待处理数据的标注正确率，生成统计图表，例如直方图。

本实施例在执行S202时，可以根据遗忘次数与标注正确率之间的对应关系，通过至少一个待处理数据的遗忘次数，来确定至少一个待处理数据的标注正确率。

例如，本实施例中遗忘次数为-1的待处理数据的标注正确率在0～0.2之间；遗忘次数在2以下的待处理数据的标注正确率在0.8～1之间；遗忘次数为2及以上的待处理数据的标注正确率在0.2～0.8之间，还可以根据待处理数据的遗忘次数，从高到低将各待处理数据等分为4份，每份等分数据的标注正确率分别为0～0.2、0.2～0.4、0.4～0.6与0.6～0.8。

图3是根据本公开第三实施例的示意图。如图3所示，本实施例的数据质检方法，具体包括如下步骤：

S301、获取待质检数据；

S302、对所述待质检数据进行质检，获得质检结果。

本实施例在执行S301时，根据本公开第一实施例与本公开第二实施例所公开的数据处理方法获取待质检数据，由于实现了待质检数据的自动筛选，因此能够提升数据质检时的效率与准确性，降低数据质检的成本。

本实施例在执行S302对所获取的待质检数据进行质检，获得质检结果时，可以将待质检数据发送至输入端，进而获取输入端对所发送的待质检数据进行重新标注的标注结果，作为待质检数据的质检结果。

图4是根据本公开第四实施例的示意图。图4中示出了本实施例的数据处理系统的运行流程图：本实施例的数据处理系统包含交互展示层、业务层、服务层、任务调度层与数据层；其中，交互展示层用于获取输入端输入的质检请求，展示由任务调度层所筛选得到的待质检数据；业务层用于根据交互展示层所获取的质检请求向服务层发起请求；服务层用于根据质检请求从数据层获取待处理数据，并对待处理数据遗忘次数的检测；任务调度层获取服务层所检测得到的遗忘次数来确定待处理数据中的待质检数据，并将所确定的待质检数据发送至交互展示层。

图5是根据本公开第五实施例的示意图。如图5所示，本实施例的数据处理装置500，包括：

第一获取单元501、用于获取至少一个待处理数据，所述至少一个待处理数据为经过标注的待处理数据；

预测单元502、用于使用目标神经网络模型对所述至少一个待处理数据进行预设次数的预测，得到所述至少一个待处理数据在每次预测时的预测结果；

生成单元503、用于根据所述至少一个待处理数据的标注结果与所述至少一个待处理数据在每次预测时的预测结果，生成所述至少一个待处理数据的比对结果序列；

处理单元504、用于根据所述至少一个待处理数据的比对结果序列，确定所述至少一个待处理数据中的待质检数据。

本实施例的数据处理装置可以位于云端服务器，也可以位于终端设备。

第一获取单元501获取的至少一个待处理数据，为经过人工标注或者自动标注的图像、文本、音频等数据，即除了原始数据之外，还包含原始数据的标注结果。其中，第一获取单元501获取的待处理数据的标注结果可以为类别识别结果、目标识别结果、文本识别结果等。

第一获取单元501在获取至少一个待处理数据时，可以将输入端输入的至少一个数据，作为至少一个待处理数据；也可以根据输入端发送的质检请求，将数据库中与所接收的质检请求对应的至少一个数据，作为至少一个待处理数据。

其中，第一获取单元501在获取至少一个待处理数据时，可以采用的可选实现方式为：获取质检请求，该质检请求由输入端发送，包含数据标识信息；将与所获取的数据标识信息对应的至少一个数据，作为至少一个待处理数据。

也就是说，第一获取单元501将不同的数据预先存储在数据库中，在获取输入端发送的质检请求之后，将数据库中与质检请求所对应的数据作为待处理数据，无需输入端进行数据输入的操作，简化了输入端的操作步骤，从而能够提升在得到待质检数据时的效率。

可以理解的是，第一获取单元501获取的至少一个待处理数据具有相同的数据类型。

本实施例在由第一获取单元501获取至少一个待处理数据之后，由预测单元502使用目标神经网络模型对至少一个待处理数据进行预设次数的预测，得到至少一个待处理数据在每次预测时的预测结果。

预测单元502首先确定目标神经网络模型，然后使用该目标神经网络模型来得到至少一个待处理数据的预测结果。

预测单元502可以根据所获取的质检请求确定目标神经网络模型，即所获取的质检请求中除了包含数据标识信息之外，还进一步包含模型类型信息，将与模型类型信息对应的神经网络模型，作为目标神经网络模型。

另外，本实施例的数据处理装置500中还可以包含确定单元505，用于通过以下方式确定目标神经网络模型：根据至少一个待处理数据的标注结果，确定用于表征神经网络模型的训练任务的任务信息；将与所确定的任务信息对应的神经网络模型，作为目标神经网络模型。

也就是说，本实施例能够在预测单元501未从输入端发送的质检请求中获取模型类型信息的情况下，由确定单元505根据待处理数据的标注结果来进行目标神经网络模型的确定，从而进一步提升在得到待质检数据时的智能性与效率。

预测单元502在确定了目标神经网络模型之后，即可使用该目标神经网络模型对至少一个待处理数据进行预设次数的训练，从而得到至少一个神经网络模型在每次预测时的预测结果。

其中，预测单元502中的预设次数，可以预先设置的次数；也可以根据任务信息与训练次数之间的对应关系，将与至少一个待处理数据的任务信息对应的训练次数作为预设次数。

预测单元502使用目标神经网络模型对至少一个待处理数据进行预设次数的预测时，可以采用分布式训练的方式，即由多个节点，分别使用目标神经网络模型对不同的待处理数据进行预测，每个节点保存相应的待处理数据的预测结果，并同时记录训练次数与节点序号。

本实施例在由预测单元502得到至少一个待处理数据在每次预测时的预测结果之后，由生成单元503根据至少一个待处理数据的标注结果与至少一个待处理数据在每次预测时的预测结果，生成至少一个待处理数据的比对结果序列。

具体地，生成单元503在根据至少一个待处理数据的标注结果与至少一个待处理数据在每次预测时的预测结果，生成至少一个待处理数据的比对结果序列时，可以采用的可选实现方式为：将至少一个待处理数据的标注结果分别与至少一个待处理数据在每次预测时的预测结果进行比对，得到至少一个待处理数据在每次预测时的用于表征预测正确或者预测错误的比对结果；根据至少一个待处理数据在每次预测时的用于表征预测正确或者预测错误的比对结果，生成至少一个待处理数据的比对结果序列。

也就是说，生成单元503生成的比对结果序列，能够反映目标神经网络模型在进行预设次数的训练时，对于至少一个待处理数据的预测情况，从而实现根据该比对结果序列来确定待处理数据的标注质量的目的。

本实施例在由生成单元503生成至少一个待处理数据的比对结果序列之后，由处理单元504根据至少一个待处理数据的比对结果序列，确定至少一个待处理数据中的待质检数据。其中，处理单元504确定的待质检数据的个数可以为一个，也可以为多个。

处理单元504在根据待处理数据的比对结果序列确定待质检数据时，可以确定比对结果序列中出现预测错误的次数，进而将预测错误的次数超过预设次数阈值的待处理数据作为待质检数据。

也就是说，处理单元504根据所生成的比对结果序列来确定待处理数据的标注质量，将标注质量较差(多次出行预测错误)的待处理数据作为待质检数据，实现从至少一个待处理数据中筛选得到待质检数据的目的，进而将所确定的待质检数据返回给输入端，以用于输入端对待质检数据进行确认或者重新标注。

处理单元504在根据至少一个待处理数据的比对结果序列，确定至少一个待处理数据中的待质检数据时，还可以包含以下内容：根据至少一个待处理数据的比对结果序列，得到至少一个待处理数据的遗忘次数；根据至少一个待处理数据的遗忘次数，确定至少一个待处理数据中的待质检数据。

也就是说，处理单元504根据待处理数据的比对结果序列来得到待处理数据的遗忘次数，进而使用所得到的遗忘次数，从至少一个待处理数据中确定待质检数据，通过比对结果序列来得到遗忘次数的方式，能够提升所确定的待质检数据的准确性。

具体地，处理单元504在根据至少一个待处理数据的比对结果序列，得到至少一个待处理数据的遗忘次数时，可以采用的可选实现方式为：统计至少一个待处理数据的比对结果序列中，出现预设比对结果顺序的次数；将统计得到的次数，作为至少一个待处理数据的遗忘次数。

为了确保能够得到待处理数据的遗忘次数，提升所得到的遗忘次数的准确性，处理单元504在根据至少一个待处理数据的比对结果序列，得到至少一个待处理数据的遗忘次数时，可以采用的可选实现方式为：在确定至少一个待处理数据的比对结果序列中不存在预测正确的比对结果的情况下，将至少一个待处理数据的遗忘次数标记为预设遗忘次数，本实施例中的预设遗忘次数可以为-1。

处理单元504在根据所得到的遗忘次数确定至少一个待处理数据中的待质检数据时，可以根据遗忘次数从高到低的顺序，将至少一个待处理数据进行排序，从而将排在前N位的待处理数据作为待质检数据，N为大于等于1的正整数。

处理单元504在根据至少一个待处理数据的遗忘次数，确定至少一个待处理数据中的待质检数据时，可以采用的可选实现方式为：针对每个待处理数据，获取目标神经网络模型在最后一次预测该待处理数据时的输出结果；根据至少一个待处理数据的输出结果与遗忘次数，确定至少一个待处理数据中的待质检数据。

其中，处理单元504在根据至少一个待处理数据的输出结果与遗忘次数，确定至少一个待处理数据中的待质检数据时，可以采用的可选实现方式为：根据输出结果与遗忘次数，得到待处理数据被标注错误的概率分数；按照概率分数从高到低的顺序，将至少一个待处理数据进行排序，从而将排在前M位的待处理数据作为待质检数据，M为大于等于1的正整数。

为了更加直观地向输入端反馈待处理数据的标注情况，便于输入端准确地选取待质检数据，处理单元504在根据至少一个待处理数据的遗忘次数，确定至少一个待处理数据中的待质检数据时，还可以采用以下方式：根据至少一个待处理数据的遗忘次数，确定至少一个待处理数据的标注正确率；使用至少一个待处理数据与至少一个待处理数据的标注正确率，生成统计图表，例如直方图。

处理单元504可以根据遗忘次数与标注正确率之间的对应关系，通过至少一个待处理数据的遗忘次数，来确定至少一个待处理数据的标注正确率。

图6是根据本公开第六实施例的示意图。如图6所示，本实施例的数据质检装置600，包括：

第二获取单元602、用于获取待质检数据；

质检单元603、用于对所述待质检数据进行质检，获得质检结果。

第二获取单元602根据本公开第四实施例的数据处理装置500获取待质检数据，由于实现了待质检数据的自动筛选，因此能够提升数据质检时的效率与准确性，降低数据质检的成本。

质检单元603在对所获取的待质检数据进行质检，获得质检结果时，可以将待质检数据发送至输入端，进而获取输入端对所发送的待质检数据进行重新标注的标注结果，作为待质检数据的质检结果。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

如图7所示，是根据本公开实施例的数据处理或数据质检方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图7所示，设备700包括计算单元701，其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序，来执行各种适当的动作和处理。在RAM703中，还可存储设备700操作所需的各种程序和数据。计算单元701、ROM702以及RAM703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

设备700中的多个部件连接至I/O接口705，包括：输入单元706，例如键盘、鼠标等；输出单元707，例如各种类型的显示器、扬声器等；存储单元708，例如磁盘、光盘等；以及通信单元709，例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理，例如数据处理或数据质检方法。例如，在一些实施例中，数据处理或数据质检方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元708。

在一些实施例中，计算机程序的部分或者全部可以经由ROM702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由计算单元701执行时，可以执行上文描述的数据处理或数据质检方法的一个或多个步骤。备选地，在其他实施例中，计算单元701可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行数据处理或数据质检方法。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务(“Virtual Private Server”，或简称“VPS”)中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

一种数据处理方法，包括：

获取至少一个待处理数据，所述至少一个待处理数据为经过标注的待处理数据；

使用目标神经网络模型对所述至少一个待处理数据进行预设次数的预测，得到所述至少一个待处理数据在每次预测时的预测结果；

根据所述至少一个待处理数据的标注结果与所述至少一个待处理数据在每次预测时的预测结果，生成所述至少一个待处理数据的比对结果序列；

根据所述至少一个待处理数据的比对结果序列，确定所述至少一个待处理数据中的待质检数据。
根据权利要求1所述的方法，其中，所述获取至少一个待处理数据包括：

获取质检请求，所述质检请求中包含数据标识信息；

将与所述数据标识信息对应的至少一个数据，作为所述至少一个待处理数据。
根据权利要求1所述的方法，还包括：

通过以下方式确定所述目标神经网络：

根据所述至少一个待处理数据的标注结果，确定用于表征神经网络模型的训练任务的任务信息；

将与所述任务信息对应的神经网络模型，作为所述目标神经网络模型。
根据权利要求1所述的方法，其中，所述根据所述至少一个待处理数据的标注结果与所述至少一个待处理数据在每次预测时的预测结果，生成所述至少一个待处理数据的比对结果序列包括：

将所述至少一个待处理数据的标注结果分别与所述至少一个待处理数据在每次预测时的预测结果进行比对，得到所述至少一个待处理数据在每次预测时的用于表征预测正确或者预测错误的比对结果；

根据所述至少一个待处理数据在每次预测时的用于表征预测正确或者预测错误的比对结果，生成所述至少一个待处理数据的比对结果序列。
根据权利要求1-4中任一项所述的方法，其中，所述根据所述至少一个待处理数据的比对结果序列，确定所述至少一个待处理数据中的待质检数据包括：

根据所述至少一个待处理数据的比对结果序列，得到所述至少一个待处理数据的遗忘次数；

根据所述至少一个待处理数据的遗忘次数，确定所述至少一个待处理数据中的待质检数据。
根据权利要求5所述的方法，其中，所述根据所述至少一个待处理数据的比对结果序列，得到所述至少一个待处理数据的遗忘次数包括：

统计所述至少一个待处理数据的比对结果序列中，出现预设的比对结果顺序的次数；

将统计得到的次数，作为所述至少一个待处理数据的遗忘次数。
根据权利要求5所述的方法，其中，所述根据所述至少一个待处理数据的比对结果序列，得到所述至少一个待处理数据的遗忘次数包括：

在确定所述至少一个待处理数据的比对结果序列中不存在用于表征预测正确的比对结果的情况下，将所述至少一个待处理数据的遗忘次数标记为预设遗忘次数。
根据权利要求5所述的方法，其中，所述根据所述至少一个待处理数据的遗忘次数，确定所述至少一个待处理数据中的待质检数据包括：

针对每个待处理数据，获取所述目标神经网络模型在最后一次预测该待处理数据时的输出结果；

根据所述至少一个待处理数据的输出结果与所述遗忘次数，确定所述至少一个待处理数据中的待质检数据。
一种数据质检方法，包括：

根据权利要求1-8中任一项所述的方法获取待质检数据；

对所述待质检数据进行质检，获得质检结果。
一种数据处理装置，包括：

第一获取单元，用于获取至少一个待处理数据，所述至少一个待处理数据为经过标注的待处理数据；

预测单元，用于使用目标神经网络模型对所述至少一个待处理数据进行预设次数的预测，得到所述至少一个待处理数据在每次预测时的预测结果；

生成单元，用于根据所述至少一个待处理数据的标注结果与所述至少一个待处理数据在每次预测时的预测结果，生成所述至少一个待处理数据的比对结果序列；

处理单元，用于根据所述至少一个待处理数据的比对结果序列，确定所述至少一个待处理数据中的待质检数据。
根据权利要求10所述的装置，其中，所述第一获取单元在获取至少一个待处理数据时，执行：

获取质检请求，所述质检请求中包含数据标识信息；

将与所述数据标识信息对应的至少一个数据，作为所述至少一个待处理数据。
根据权利要求10所述的装置，还包括确定单元：

用于通过以下方式确定所述目标神经网络：

根据所述至少一个待处理数据的标注结果，确定用于表征神经网络模型的训练任务的任务信息；

将与所述任务信息对应的神经网络模型，作为所述目标神经网络模型。
根据权利要求10所述的装置，其中，所述生成单元在根据所述至少一个待处理数据的标注结果与所述至少一个待处理数据在每次预测时的预测结果，生成所述至少一个待处理数据的比对结果序列时，执行：

将所述至少一个待处理数据的标注结果分别与所述至少一个待处理数据在每次预测时的预测结果进行比对，得到所述至少一个待处理数据在每次预测时的用于表征预测正确或者预测错误的比对结果；

根据所述至少一个待处理数据在每次预测时的用于表征预测正确或者预测错误的比对结果，生成所述至少一个待处理数据的比对结果序列。
根据权利要求10-13中任一项所述的装置，其中，所述处理单元在根据所述至少一个待处理数据的比对结果序列，确定所述至少一个待处理数据中的待质检数据时，执行：

根据所述至少一个待处理数据的比对结果序列，得到所述至少一个待处理数据的遗忘次数；

根据所述至少一个待处理数据的遗忘次数，确定所述至少一个待处理数据中的待质检数据。
根据权利要求14所述的装置，其中，所述处理单元在根据所述至少一个待处理数据的比对结果序列，得到所述至少一个待处理数据的遗忘次数时，执行：

统计所述至少一个待处理数据的比对结果序列中，出现预设的比对结果顺序的次数；

将统计得到的次数，作为所述至少一个待处理数据的遗忘次数。
根据权利要求14所述的装置，其中，所述处理单元在根据所述至少一个待处理数据的比对结果序列，得到所述至少一个待处理数据的遗忘次数时，执行：

在确定所述至少一个待处理数据的比对结果序列中不存在用于表征预测正确的比对结果的情况下，将所述至少一个待处理数据的遗忘次数标记为预设遗忘次数。
根据权利要求14所述的装置，其中，所述处理单元在根据所述至少一个待处理数据的遗忘次数，确定所述至少一个待处理数据中的待质检数据时，执行：

针对每个待处理数据，获取所述目标神经网络模型在最后一次预测该待处理数据时的输出结果；

根据所述至少一个待处理数据的输出结果与所述遗忘次数，确定所述至少一个待处理数据中的待质检数据。
一种数据质检装置，包括：

第二获取单元，用于根据权利要求10-17中任一项所述的装置获取待质检数据；

质检单元，用于对所述待质检数据进行质检，获得质检结果。
一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-9中任一项所述的方法。
一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行权利要求1-9中任一项所述的方法。
一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-9中任一项所述的方法。