WO2021073390A1

WO2021073390A1 - 数据筛选方法、装置、设备及计算机可读存储介质

Info

Publication number: WO2021073390A1
Application number: PCT/CN2020/117418
Authority: WO
Inventors: 邓悦; 金戈; 徐亮
Original assignee: 平安科技（深圳）有限公司
Priority date: 2019-10-16
Filing date: 2020-09-24
Publication date: 2021-04-22
Also published as: CN110929524A

Abstract

一种数据筛选方法、装置、设备及计算机可读存储介质，涉及人工智能技术领域，尤其涉及智能决策和神经网络技术，该方法包括：获取目标数据集（S101）；基于预设的数据评分模型，对所述目标数据集中的每个面试回答文本进行评分，得到每个所述面试回答文本的评分数值（S102），其中，所述数据评分模型基于多任务深度神经网络实现；根据每个所述面试回答文本的评分数值，对所述目标数据集进行筛选处理，得到符合预设条件的面试回答文本（S103）。该方法可以有效的提高数据筛选准确性。

Description

数据筛选方法、装置、设备及计算机可读存储介质

本申请要求于2019年10月16日提交中国专利局、申请号为201910984851.7，发明名称为“数据筛选方法、装置、设备及计算机可读存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能技术领域，尤其涉及一种数据筛选方法、装置、设备及计算机可读存储介质。

背景技术

目前，业内通过来自Transformer的双向编码器表征(Bidirectional Encoder Representations from Transformers，BERT)模型自动从数据集中筛选出符合要求的数据，例如，通过BERT模型从简历数据集或者目标数据集中筛选出符合要求的简历或目标数据，但BERT模型需要大量的标注好的数据来训练模型，而数据的标注需要耗费较多的时间，且标注是人工进行的，发明人意识到，在大量人工标注数据的情况下，存在标注不准确的问题，容易降低模型的准确率，无法准确的从数据集中筛选出符合要求的数据。因此，如何提高数据筛选的准确性是目前亟待解决的问题。

发明内容

本申请的主要目的在于提供一种数据筛选方法、装置、设备及计算机可读存储介质，旨在提高数据筛选的准确性。

第一方面，本申请提供一种数据筛选方法，所述数据筛选方法包括以下步骤：

获取目标数据集，其中，所述目标数据集为待筛选的数据集；

基于预设的数据评分模型，对所述目标数据集中的每个面试回答文本进行评分，得到每个所述面试回答文本的评分数值，其中，所述数据评分模型基于多任务深度神经网络实现；

根据每个所述面试回答文本的评分数值，对所述目标数据集进行筛选处理，得到符合预设条件的面试回答文本。

第二方面，本申请还提供一种数据筛选装置，所述数据筛选装置包括：

获取模块，用于获取目标数据集，其中，所述目标数据集为待筛选的数据集；

评分模块，用于基于预设的数据评分模型，对所述目标数据集中的每个面试回答文本进行评分，得到每个所述面试回答文本的评分数值，其中，所述数据评分模型基于多任务深度神经网络实现；

筛选模块，用于根据每个所述面试回答文本的评分数值，对所述目标数据集进行筛选处理，得到符合预设条件的面试回答文本。

第三方面，本申请还提供一种计算机设备，所述计算机设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序，其中所述计算机程序被所述处理器执行时，实现如上述的数据筛选方法的步骤。

第四方面，本申请还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其中所述计算机程序被处理器执行时，实现如上述的数据筛选方法的步骤。

本申请提供一种数据筛选方法、装置、设备及计算机可读存储介质，本申请通过基于多任务深度神经网络实现的数据评分模型，可以准确快速的对数据集中每个面试回答文本进行评分，通过准确的每个面试回答文本的评分数值可以准确的从数据集中筛选出符合条件的面试回答文本，有效的提高数据筛选的准确性。

附图说明

图1为本申请实施例提供的一种数据筛选方法的流程示意图；

图2为图1中的数据筛选方法的子步骤流程示意图；

图3为本申请实施例提供的另一种数据筛选方法的流程示意图；

图4为本申请实施例提供的一种数据筛选装置的示意性框图；

图5为图4中的数据筛选装置的子模块的示意性框图；

图6为本申请实施例提供的另一种数据筛选装置的示意性框图；

图7为本申请一实施例涉及的计算机设备的结构示意框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

附图中所示的流程图仅是示例说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解、组合或部分合并，因此实际执行的顺序有可能根据实际情况改变。

本申请实施例提供一种数据筛选方法、装置、设备及计算机可读存储介质。其中，该数据筛选方法可应用于服务器，该服务器可以为单台的服务器，也可以为由多台服务器组成的服务器集群。

下面结合附图，对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

请参照图1，图1为本申请的实施例提供的一种数据筛选方法的流程示意图。

如图1所示，该数据筛选方法包括步骤S101至步骤S103。

步骤S101、获取目标数据集，其中，所述目标数据集为待筛选的数据集。

其中，服务器中存储有待筛选的数据集，该待筛选的数据集包括不同岗位的每个面试者的面试回答文本，该面试回答文本记录有面试者的个人基本信息和每个面试问题的作答信息等。服务器以岗位为单位，存储每个岗位的的每个面试者的面试回答文本，从而得到每个岗位对应的数据集，并对筛选过的面试回答文本和未筛选过的面试回答文本进行标记，得到每个岗位各自对应的待筛选的数据集，待筛选的数据集中的面试回答文本为未筛选的面试回答文本。

服务器可以实时或以间隔预设时间获取每个岗位对应的未筛选过的面试回答文本，以岗位为单位，汇集未筛选过的面试回答文本，可以得到每个岗位各自对应的待筛选的数据集，即目标数据集。需要说明的是，上述预设时间可基于实际情况进行设置，本申请对此不作具体限定。

在一实施例中，招聘者可以通过终端设备选择一个或多个岗位进行数据筛选，具体为：终端设备显示岗位选择页面，并获取用户基于该岗位选择页面选择的岗位对应的岗位标识符；生成包含该岗位标识符的数据筛选请求，并将该数据筛选请求发送至服务器；当服务器接收到该数据筛选请求时，从该数据筛选请求中获取岗位标识符，并获取与该岗位标识符对应的目标数据集，然后再对目标数据集中的目标数据进行筛选，得到符合要求的数据。其中，岗位标识符用于唯一标识岗位，可以为数字、字母或数字与字母的组合，本申请对此不作具体限定，该终端设备可以手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式设备等电子设备。

步骤S102、基于预设的数据评分模型，对所述目标数据集中的每个面试回答文本进行评分，得到每个所述面试回答文本的评分数值，其中，所述数据评分模型基于多任务深度神经网络实现。

其中，服务器中存储有数据评分模型，该数据评分模型基于多任务深度神经网络实现，该多任务深度神经网络结合了多任务学习和语言模型预训练，多任务学习是利用多个学习任务中所包含的有用信息帮助每个任务学习，得到更为准确的学习器，而语言模型预训练是借助大量无标注数据来对模型进行预训练，再对单个特定的任务进行模型的微调，可以改进文本表达的学习来提升各种自然语言理解任务。

通过大量无标注数据对多任务深度神经网络进行预训练之后，再对单个特定的任务进行微调，即可得到数据评分模型。其中，多任务深度神经网络包括输入层、Lexicon编码层(词编码层)、Transformer编码层(上下文编码层)和特定任务输出层，特定任务输出层包括单句分类输出层、文本相似度输出层、成对文本分类输出层和相关性排名输出层。Lexicon编码层用于通过对相应的单词、段和位置求和，将输入的文本或句子映射为嵌入向量。

Transformer编码层由多个相同的层级组成，每个层级包括两个不同的子层级，一个子层级为多头注意力层，用于学习句子内部的词依赖关系，捕获句子的内部结构，另一个子层级为全连接层，且每个子层级都与残差连接层和归一化层连接。Transformer编码层通过联合调节所有层中的上下文来预先训练深度双向表示，即Transformer编码层将嵌入向量映射为上下文嵌入向量。

单句分类输出层用于判断句子的语法正确性，或者判断句子所带的情感的类型。通过softmax函数的逻辑回归预测句子X被标记为C类的概率，公式为：P _r(C|X)＝softmax(W ^T*X)，W ^T为单句分类模型的模型参数。

文本相似度输出层用于判断两个句子的语义相似性。公式为：Sim(X ₁,X ₂)＝g(W ^T*x)，W ^T为文本相似度计算模型的模型参数，x为两个句子的向量，g(x)为sigmoid函数，先计算两个句子的语义相似度，再基于sigmoid函数将语义相似度映射到0-1之间。

成对文本分类输出层用于推断两个句子的逻辑关系，如蕴涵关系、中立关系或者对立关系等。假设两个句子为P＝(p ₁,...,p _m)和H＝(h ₁,...h _n)，目标是去推断P和H的逻辑关系R。M ^p和M ^h分别为P和H经过编码层后的输出。

相关性排名输出层用于对面试回答文本进行评分，输入一个面试回答文本，计算面试回答文本与标准答案文本之间的相似度，再基于相似度进行评分。公式为：Rel(Q,A)＝g(W ^T*x)，W ^T为相关性排名模型的模型参数，g(x)为sigmoid函数，x为回答文本和候选答案的拼接向量，首先计算回答文本和候选答案之间的语义相似度，再通过sigmoid函数将语义相似度输出映射到0-1。

模型的训练过程主要分为两步：预训练和多任务微调。

预训练：使用两个非监督预测任务对编码层(Lexicon编码层和Transformer编码层)进行预训练来学习编码层的参数。两个非监督预测任务分别为屏蔽语言模型(Masked Language Modeling)和下一句预测模型(Next Sentence Prediction)。屏蔽语言模型:为了训练一个深度双向表示(deep bidirectional representation)，采用一种简单的方法，即随机屏蔽(masking)部分输入token，然后只预测被屏蔽的token。数据生成器将执行以下操作，而不是始终用[MASK]替换所选单词：80％的时间：用[MASK]标记替换单词；10％的时间：用一个随机的单词替换该单词；10％的时间：保持单词不变。下一句预测:在为了训练一个理解句子的模型关系，预先训练一个二进制化的下一句预测任务，这一任务可以从任何单语语料库中生成。具体地说，当选择句子A和B作为预训练样本时，B有50％的可能是A的下一个句子，也有50％的可能是来自语料库的随机句子。

多任务微调：采用小批量梯度下降算法(Mini-batch Gradient Descent)来学习模型的参数(编码层以及特定任务输出层)。步骤如下：

1、设置训练的次数N，将数据集分为同等大小的mini-batchD ₁,D ₂,...,D _T。

2、对于每一次训练，合并四个特定任务的数据集，在每一个mini-batch下，通过随机梯度下降算法来更新模型的参数，每次迭代都朝着最优解逼近。

对数据评分这个任务，与多任务微调同样的方法训练模型来学习数据评分模型的模型参数，只需要少量标注的数据集对数据评分模型进行微调就可以获得准确度很高的数据评分模型。其中，该数据评分模型包括输入层、词编码层(Lexicon编码层)、上下文编码层(Transformer编码层)和数据评分层。

服务器在获取到目标数据集之后，可以基于预设的数据评分模型，对目标数据集中的每个面试回答文本进行评分，得到每个面试回答文本的评分数值。通过数据评分模型可以快速且准确的对目标数据进行评分，便于后续准确的对目标数据集进行筛选。

在一实施例中，具体地，参照图2，步骤S102包括：子步骤S1021至子步骤S1023。

子步骤S1021，通过所述词编码层依次将所述目标数据集中的每个面试回答文本映射为各自对应的嵌入向量。

在获取到目标数据集之后，通过数据评分模型中的词编码层依次将目标数据集中的每个面试回答文本映射为各自对应的嵌入向量。例如，目标数据集包括5个面试回答文本，分别为面试回答文本A、面试回答文本B、面试回答文本C、面试回答文本D和面试回答文本E，输入至词编码层之后，得到各自对应的嵌入向量，即嵌入向量a、嵌入向量b、嵌入向量c、嵌入向量d和嵌入向量e。

子步骤S1022、通过所述上下文编码层依次将每个所述面试回答文本各自对应的嵌入向量映射为各自对应的上下文嵌入向量。

在得到每个面试回答文本各自对应的嵌入向量之后，通过该上下文编码层依次将每个面试回答文本各自对应的嵌入向量映射为各自对应的上下文嵌入向量。例如，每个面试回答文本各自对应的嵌入向量分别为嵌入向量a、嵌入向量b、嵌入向量c、嵌入向量d和嵌入向量e，则输入至上下文编码层之后，得到各自对应的上下文嵌入向量，即嵌入向量a1、嵌入向量b1、嵌入向量c1、嵌入向量d1和嵌入向量e1。

子步骤S1023、基于所述数据评分层，根据每个所述面试回答文本各自对应的上下文嵌入向量，确定每个所述面试回答文本的评分数值。

在得到每个面试回答文本各自对应的上下文嵌入向量之后，基于数据评分层，根据每个面试回答文本各自对应的上下文嵌入向量，确定每个面试回答文本的评分数值。通过每个面试回答文本各自对应的上下文嵌入向量和数据评分模型的模型参数即可确定每个面试回答文本的评分数值。

在一实施例中，服务器获取预设的标准答案文本对应的文本向量，并通过数据评分模型的模型参数，计算每个面试回答文本各自对应的上下文嵌入向量与该文本向量之间的语义相似度；根据每个面试回答文本各自对应的上下文嵌入向量与该文本向量之间的语义相似度，确定每个面试回答文本的评分数值；其中，服务器通过词编码层和上下文编码层对标准答案文本进行处理，得到标准答案文本对应的文本向量，并存储，便于后续快速获取。

在一实施例中，根据预设映射函数，对每个面试回答文本各自对应的上下文嵌入向量与文本向量之间的语义相似度进行映射处理，得到每个面试回答文本的评分数值。需要说明的是，上述预设映射函数可基于实际情况进行设置，本申请对此不作具体限定。可选地，预设映射函数为sigmoid函数。

在一实施例中，服务器获取预设的标准答案文本中的每个面试问题的答案文本各自对应的文本向量；根据每个面试问题的答案文本各自对应的文本向量，确定标准答案文本对应的目标文本向量；计算每个面试回答文本各自对应的上下文嵌入向量与目标文本向量之间的语义相似度；根据每个面试回答文本各自对应的上下文嵌入向量与目标文本向量之间的语义相似度，确定每个面试回答文本的评分数值。

其中，标准答案文本包括多个面试问题的答案文本，目标文本向量的确定方式为：将每个面试问题的答案文本各自对应的文本向量进行拼接，得到文本拼接向量，并将该文本拼接向量作为标准答案文本对应的目标文本向量。其中，服务器通过词编码层和上下文编码层对每个面试问题的答案文本进行处理，得到每个面试问题的答案文本对应的文本向量，并存储，便于后续快速获取。通过每个面试问题的答案文本各自对应的文本向量，确定标准答案文本对应的目标文本向量，可以准确的表征标准答案文本的特征。

步骤S103、根据每个所述面试回答文本的评分数值，对所述目标数据集进行筛选处理，得到符合预设条件的面试回答文本。

在确定每个面试回答文本的评分数值之后，服务器根据每个面试回答文本的评分数值，对目标数据集进行筛选处理，得到符合预设条件的面试回答文本，即将每个面试回答文本的评分数值与预设的评分阈值进行比较，得到评分比较结果，并根据该评分比较结果，对目标数据集进行筛选处理，得到评分数值大于或等于预设阈值的面试回答文本。

在一实施例中，确定该评分数值大于或等于预设的评分阈值的目标数据的数量是否大于或等于预设数量；如果该评分数值大于或等于预设的评分阈值的目标数据的数量大于或等于预设数量，则根据每个面试回答文本的评分数值，对每个面试回答文本进行排序，得到面试回答文本队列；按照面试回答文本队列中的各面试回答文本的排序，依次从面试回答文本队列中选择面试回答文本，直至面试回答文本的数量达到预设数量，从而得到评分数值大于或等于预设阈值的面试回答文本。

上述实施例提供的数据筛选方法，通过基于多任务深度神经网络实现的数据评分模型，可以准确快速的对数据集中每个面试回答文本进行评分，通过准确的每个面试回答文本的评分数值可以准确的从数据集中筛选出符合条件的面试回答文本，有效的提高数据筛选的准确性。

请参照图3，图3为本申请实施例提供的另一种数据筛选方法的流程示意图。

如图3所示，该数据筛选方法包括步骤S201至S206。

步骤S201、获取目标数据集，其中，所述目标数据集为待筛选的数据集。

步骤S202、通过所述词编码层依次将所述目标数据集中的每个面试回答文本映射为各自对应的嵌入向量。

步骤S203、通过所述上下文编码层依次将每个所述面试回答文本各自对应的嵌入向量映射为各自对应的上下文嵌入向量。

步骤S204、获取预设的标准数据集中的每个标准答案文本各自对应的文本向量。

其中，预设的标准数据集包括多个标准答案文本，且每一个标准答案文本均包括正确的答案，服务器通过词编码层和上下文编码层对标准数据集中的每个标准答案文本进行处理，得到每个标准答案文本各自对应的文本向量。

步骤S205、计算每个所述面试回答文本各自对应的上下文嵌入向量与每个所述文本向量之间的语义相似度。

通过数据评分模型的模型参数、每个面试回答文本各自对应的上下文嵌入向量以及每个标准答案文本各自对应的文本向量，计算每个面试回答文本各自对应的上下文嵌入向量与每个文本向量之间的语义相似度。

步骤S206、根据每个所述面试回答文本各自对应的上下文嵌入向量与每个所述文本向量之间的语义相似度，确定每个所述面试回答文本的评分数值。

在得到每个面试回答文本各自对应的上下文嵌入向量与每个文本向量之间的语义相似度之后，根据每个面试回答文本各自对应的上下文嵌入向量与每个文本向量之间的语义相似度，确定每个面试回答文本的评分数值。通过目标数据与多个标准答案文本之间的相似度，可以更加准确的确定每个面试回答文本的评分数值。

在一实施例中，根据每个面试回答文本各自对应的上下文嵌入向量与每个文本向量之间的语义相似度，确定每个面试回答文本各自对应的目标相似度；根据每个面试回答文本各自对应的目标相似度，确定每个面试回答文本的评分数值，即根据预设映射函数，对每个面试回答文本各自对应的上下文嵌入向量与文本向量之间的语义相似度进行映射处理，得到每个面试回答文本的评分数值。

其中，目标相似度的确定方式具体为：以面试回答文本为单位，汇集该面试回答文本的上下文嵌入向量与每个标准答案文本各自对应的文本向量之间的语义相似度，以形成该面试回答文本的语义相似度集，一个面试回答文本对应一个语义相似度集；将该语义相似度集中的最大语义相似度作为面试回答文本对应的目标相似度。

步骤S207、根据每个所述面试回答文本的评分数值，对所述目标数据集进行筛选处理，得到符合预设条件的面试回答文本。

上述实施例提供的数据筛选方法，通过基于多任务深度神经网络实现的数据评分模型和多个标准答案文本，可以进一步准确的对面试回答文本进行评分，基于面试回答文本的评分，可以准确的从数据集中筛选出符合条件的面试回答文本，有效的提高岗位候选人的筛选准确性。

请参照图4，图4为本申请实施例提供的一种数据筛选装置的示意性框图。

如图4所示，该数据筛选装置300，包括：获取模块301、评分模块302和筛选模块303。

获取模块301，用于获取目标数据集，其中，所述目标数据集为待筛选的数据集；

评分模块302、用于基于预设的数据评分模型，对所述目标数据集中的每个面试回答文本进行评分，得到每个所述面试回答文本的评分数值，其中，所述数据评分模型基于多任务深度神经网络实现；

筛选模块303，用于根据每个所述面试回答文本的评分数值，对所述目标数据集进行筛选处理，得到符合预设条件的面试回答文本。

在一个实施例中，如图5所示，所述评分模块302包括：

第一向量确定子模块3021，用于通过所述词编码层依次将所述目标数据集中的每个面试回答文本映射为各自对应的嵌入向量；

第二向量确定子模块3022，用于通过所述上下文编码层依次将每个所述面试回答文本各自对应的嵌入向量映射为各自对应的上下文嵌入向量；

评分子模块3023，用于基于所述数据评分层，根据每个所述面试回答文本各自对应的上下文嵌入向量，确定每个所述面试回答文本的评分数值。

在一个实施例中，所述评分子模块3023，还用于获取预设的标准答案文本对应的文本向量；计算每个所述面试回答文本各自对应的上下文嵌入向量与所述文本向量之间的语义相似度；根据每个所述面试回答文本各自对应的上下文嵌入向量与所述文本向量之间的语义相似度，确定每个所述面试回答文本的评分数值。

在一个实施例中，所述评分子模块3023，还用于根据预设映射函数，对每个所述面试回答文本各自对应的上下文嵌入向量与所述文本向量之间的语义相似度进行映射处理，得到每个所述面试回答文本的评分数值。

在一个实施例中，所述筛选模块303，还用于将每个所述面试回答文本的评分数值与预设的评分阈值进行比较，得到评分比较结果；根据所述评分比较结果，对所述目标数据集进行筛选处理，得到所述评分数值大于或等于预设阈值的面试回答文本。

请参照图6，图6为本申请实施例提供的另一种数据筛选装置的示意性框图。

如图6所示，该数据筛选装置400，包括：获取模块401、向量确定模块402、计算模块403、评分模块404和筛选模块405。

获取模块401，用于获取目标数据集，其中，所述目标数据集为待筛选的数据集；

向量确定模块402，用于通过所述词编码层依次将所述目标数据集中的每个面试回答文本映射为各自对应的嵌入向量；

所述向量确定模块402，还用于通过所述上下文编码层依次将每个所述面试回答文本各自对应的嵌入向量映射为各自对应的上下文嵌入向量；

所述获取模块401，还用于获取预设的标准数据集中的每个标准答案文本各自对应的文本向量；

计算模块403，用于计算每个所述面试回答文本各自对应的上下文嵌入向量与每个所述文本向量之间的语义相似度；

评分模块404，用于根据每个所述面试回答文本各自对应的上下文嵌入向量与每个所述文本向量之间的语义相似度，确定每个所述面试回答文本的评分数值；

筛选模块405，用于根据每个所述面试回答文本的评分数值，对所述目标数据集进行筛选处理，得到符合预设条件的面试回答文本。

在一实施例中，所述评分模块404，还用于根据每个所述面试回答文本各自对应的上下文嵌入向量与每个所述文本向量之间的语义相似度，确定每个所述面试回答文本各自对应的目标相似度；根据每个所述面试回答文本各自对应的目标相似度，确定每个所述面试回答文本的评分数值。

需要说明的是，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置和各模块及单元的具体工作过程，可以参考前述数据筛选方法实施例中的对应过程，在此不再赘述。

上述实施例提供的装置可以实现为一种计算机程序的形式，该计算机程序可以在如图7所示的计算机设备上运行。

请参阅图7，图7为本申请实施例提供的一种计算机设备的结构示意性框图。该计算机设备可以为服务器。

如图7所示，该计算机设备包括通过系统总线连接的处理器、存储器和网络接口，其中，存储器可以包括非易失性存储介质和内存储器。

非易失性存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令，该程序指令被执行时，可使得处理器执行任意一种数据筛选方法。

处理器用于提供计算和控制能力，支撑整个计算机设备的运行。

内存储器为非易失性存储介质中的计算机程序的运行提供环境，该计算机程序被处理器执行时，可使得处理器执行任意一种数据筛选方法。

该网络接口用于进行网络通信，如发送分配的任务等。本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

应当理解的是，处理器可以是中央处理单元(Central Processing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

其中，在一个实施例中，所述处理器用于运行存储在存储器中的计算机程序，以实现如下步骤：

可选地，所述数据评分模型包括词编码层、上下文编码层和数据评分层；所述处理器在实现基于预设的数据评分模型，对所述目标数据集中的每个面试回答文本进行评分，得到每个所述面试回答文本的评分数值时，用于实现：

通过所述词编码层依次将所述目标数据集中的每个面试回答文本映射为各自对应的嵌入向量；

通过所述上下文编码层依次将每个所述面试回答文本各自对应的嵌入向量映射为各自对应的上下文嵌入向量；

基于所述数据评分层，根据每个所述面试回答文本各自对应的上下文嵌入向量，确定每个所述面试回答文本的评分数值。

在一个实施例中，所述处理器在实现基于所述数据评分层，根据每个所述面试回答文本各自对应的上下文嵌入向量，确定每个所述面试回答文本的评分数值时，用于实现：

获取预设的标准数据集中每个标准答案文本各自对应的文本向量；

计算每个所述面试回答文本各自对应的上下文嵌入向量与每个所述文本向量之间的语义相似度；

根据每个所述面试回答文本各自对应的上下文嵌入向量与每个所述文本向量之间的语义相似度，确定每个所述面试回答文本的评分数值。

在一个实施例中，所述处理器在实现根据每个所述面试回答文本各自对应的上下文嵌入向量与每个所述文本向量之间的语义相似度，确定每个所述面试回答文本的评分数值时，用于实现：

根据每个所述面试回答文本各自对应的上下文嵌入向量与每个所述文本向量之间的语义相似度，确定每个所述面试回答文本各自对应的目标相似度；

根据每个所述面试回答文本各自对应的目标相似度，确定每个所述面试回答文本的评分数值。

获取预设的标准答案文本对应的文本向量；

计算每个所述面试回答文本各自对应的上下文嵌入向量与所述文本向量之间的语义相似度；

根据每个所述面试回答文本各自对应的上下文嵌入向量与所述文本向量之间的语义相似度，确定每个所述面试回答文本的评分数值。

在一个实施例中，所述处理器在实现根据每个所述面试回答文本各自对应的上下文嵌入向量与所述文本向量之间的语义相似度，确定每个所述面试回答文本的评分数值时，用于实现：

根据预设映射函数，对每个所述面试回答文本各自对应的上下文嵌入向量与所述文本向量之间的语义相似度进行映射处理，得到每个所述面试回答文本的评分数值。

在一个实施例中，所述处理器在实现根据每个所述面试回答文本的评分数值，对所述目标数据集进行筛选处理，得到符合预设条件的面试回答文本时，用于实现：

将每个所述面试回答文本的评分数值与预设的评分阈值进行比较，得到评分比较结果；

根据所述评分比较结果，对所述目标数据集进行筛选处理，得到所述评分数值大于或等于预设阈值的面试回答文本。

需要说明的是，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的计算机设备的具体工作过程，可以参考前述数据筛选方法实施例中的对应过程，在此不再赘述。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质可以是非易失性，也可以是易失性的。所述计算机可读存储介质上存储有计算机程序，所述计算机程序中包括程序指令，所述程序指令被执行时所实现的方法可参照本申请数据筛选方法的各个实施例。

其中，所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元，例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备，例如所述计算机设备上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

一种数据筛选方法，其中，包括：

获取目标数据集，其中，所述目标数据集为待筛选的数据集；

基于预设的数据评分模型，对所述目标数据集中的每个面试回答文本进行评分，得到每个所述面试回答文本的评分数值，其中，所述数据评分模型基于多任务深度神经网络实现；

根据每个所述面试回答文本的评分数值，对所述目标数据集进行筛选处理，得到符合预设条件的面试回答文本。
根据权利要求1所述的数据筛选方法，其中，所述数据评分模型包括词编码层、上下文编码层和数据评分层；所述基于预设的数据评分模型，对所述目标数据集中的每个面试回答文本进行评分，得到每个所述面试回答文本的评分数值，包括：

通过所述词编码层依次将所述目标数据集中的每个面试回答文本映射为各自对应的嵌入向量；

通过所述上下文编码层依次将每个所述面试回答文本各自对应的嵌入向量映射为各自对应的上下文嵌入向量；

基于所述数据评分层，根据每个所述面试回答文本各自对应的上下文嵌入向量，确定每个所述面试回答文本的评分数值。
根据权利要求2所述的数据筛选方法，其中，所述基于所述数据评分层，根据每个所述面试回答文本各自对应的上下文嵌入向量，确定每个所述面试回答文本的评分数值，包括：

获取预设的标准数据集中每个标准答案文本各自对应的文本向量；

计算每个所述面试回答文本各自对应的上下文嵌入向量与每个所述文本向量之间的语义相似度；

根据每个所述面试回答文本各自对应的上下文嵌入向量与每个所述文本向量之间的语义相似度，确定每个所述面试回答文本的评分数值。
根据权利要求3所述的数据筛选方法，其中，所述根据每个所述面试回答文本各自对应的上下文嵌入向量与每个所述文本向量之间的语义相似度，确定每个所述面试回答文本的评分数值，包括：

根据每个所述面试回答文本各自对应的上下文嵌入向量与每个所述文本向量之间的语义相似度，确定每个所述面试回答文本各自对应的目标相似度；

根据每个所述面试回答文本各自对应的目标相似度，确定每个所述面试回答文本的评分数值。
根据权利要求2所述的数据筛选方法，其中，所述基于所述数据评分层，根据每个所述面试回答文本各自对应的上下文嵌入向量，确定每个所述面试回答文本的评分数值，包括：

获取预设的标准答案文本对应的文本向量；

计算每个所述面试回答文本各自对应的上下文嵌入向量与所述文本向量之间的语义相似度；

根据每个所述面试回答文本各自对应的上下文嵌入向量与所述文本向量之间的语义相似度，确定每个所述面试回答文本的评分数值。
根据权利要求5所述的数据筛选方法，其中，所述根据每个所述面试回答文本各自对应的上下文嵌入向量与所述文本向量之间的语义相似度，确定每个所述面试回答文本的评分数值，包括：

根据预设映射函数，对每个所述面试回答文本各自对应的上下文嵌入向量与所述文本向量之间的语义相似度进行映射处理，得到每个所述面试回答文本的评分数值。
根据权利要求1至6中任一项所述的数据筛选方法，其中，所述根据每个所述面试回答文本的评分数值，对所述目标数据集进行筛选处理，得到符合预设条件的面试回答文本，包括：

将每个所述面试回答文本的评分数值与预设的评分阈值进行比较，得到评分比较结果；

根据所述评分比较结果，对所述目标数据集进行筛选处理，得到所述评分数值大于或等于预设阈值的面试回答文本。
一种数据筛选装置，其中，所述数据筛选装置包括：

获取模块，用于获取目标数据集，其中，所述目标数据集为待筛选的数据集；

评分模块，用于基于预设的数据评分模型，对所述目标数据集中的每个面试回答文本进行评分，得到每个所述面试回答文本的评分数值，其中，所述数据评分模型基于多任务深度神经网络实现；

筛选模块，用于根据每个所述面试回答文本的评分数值，对所述目标数据集进行筛选处理，得到符合预设条件的面试回答文本。
一种计算机设备，其中，所述计算机设备包括存储器和处理器，所述存储器和所述处理器相互连接，所述存储器用于存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序配置用于执行一种数据筛选方法：

其中，所述方法包括：

获取目标数据集，其中，所述目标数据集为待筛选的数据集；

基于预设的数据评分模型，对所述目标数据集中的每个面试回答文本进行评分，得到每个所述面试回答文本的评分数值，其中，所述数据评分模型基于多任务深度神经网络实现；

根据每个所述面试回答文本的评分数值，对所述目标数据集进行筛选处理，得到符合预设条件的面试回答文本。
根据权利要求9所述的计算机设备，其中，所述数据评分模型包括词编码层、上下文编码层和数据评分层；所述基于预设的数据评分模型，对所述目标数据集中的每个面试回答文本进行评分，得到每个所述面试回答文本的评分数值，包括：

通过所述词编码层依次将所述目标数据集中的每个面试回答文本映射为各自对应的嵌入向量；

通过所述上下文编码层依次将每个所述面试回答文本各自对应的嵌入向量映射为各自对应的上下文嵌入向量；

基于所述数据评分层，根据每个所述面试回答文本各自对应的上下文嵌入向量，确定每个所述面试回答文本的评分数值。
根据权利要求10所述的计算机设备，其中，所述基于所述数据评分层，根据每个所述面试回答文本各自对应的上下文嵌入向量，确定每个所述面试回答文本的评分数值，包括：

获取预设的标准数据集中每个标准答案文本各自对应的文本向量；

计算每个所述面试回答文本各自对应的上下文嵌入向量与每个所述文本向量之间的语义相似度；

根据每个所述面试回答文本各自对应的上下文嵌入向量与每个所述文本向量之间的语义相似度，确定每个所述面试回答文本的评分数值。
根据权利要求11所述的计算机设备，其中，所述根据每个所述面试回答文本各自对应的上下文嵌入向量与每个所述文本向量之间的语义相似度，确定每个所述面试回答文本的评分数值，包括：

根据每个所述面试回答文本各自对应的上下文嵌入向量与每个所述文本向量之间的语义相似度，确定每个所述面试回答文本各自对应的目标相似度；

根据每个所述面试回答文本各自对应的目标相似度，确定每个所述面试回答文本的评分数值。
根据权利要求10所述的计算机设备，其中，所述基于所述数据评分层，根据每个所述面试回答文本各自对应的上下文嵌入向量，确定每个所述面试回答文本的评分数值，包括：

获取预设的标准答案文本对应的文本向量；

计算每个所述面试回答文本各自对应的上下文嵌入向量与所述文本向量之间的语义相似度；

根据每个所述面试回答文本各自对应的上下文嵌入向量与所述文本向量之间的语义相似度，确定每个所述面试回答文本的评分数值。
根据权利要求13所述的计算机设备，其中，所述根据每个所述面试回答文本各自对应的上下文嵌入向量与所述文本向量之间的语义相似度，确定每个所述面试回答文本的评分数值，包括：

根据预设映射函数，对每个所述面试回答文本各自对应的上下文嵌入向量与所述文本向量之间的语义相似度进行映射处理，得到每个所述面试回答文本的评分数值。
根据权利要求9至14中任一项所述的计算机设备，其中，所述根据每个所述面试回答文本的评分数值，对所述目标数据集进行筛选处理，得到符合预设条件的面试回答文本，包括：

将每个所述面试回答文本的评分数值与预设的评分阈值进行比较，得到评分比较结果；

根据所述评分比较结果，对所述目标数据集进行筛选处理，得到所述评分数值大于或等于预设阈值的面试回答文本。
一种计算机可读存储介质，其中，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时用于实现一种数据筛选方法，所述方法包括以下步骤：

获取目标数据集，其中，所述目标数据集为待筛选的数据集；

基于预设的数据评分模型，对所述目标数据集中的每个面试回答文本进行评分，得到每个所述面试回答文本的评分数值，其中，所述数据评分模型基于多任务深度神经网络实现；

根据每个所述面试回答文本的评分数值，对所述目标数据集进行筛选处理，得到符合预设条件的面试回答文本。
根据权利要求16所述的计算机可读存储介质，其中，所述数据评分模型包括词编码层、上下文编码层和数据评分层；所述基于预设的数据评分模型，对所述目标数据集中的每个面试回答文本进行评分，得到每个所述面试回答文本的评分数值，包括：

通过所述词编码层依次将所述目标数据集中的每个面试回答文本映射为各自对应的嵌入向量；

通过所述上下文编码层依次将每个所述面试回答文本各自对应的嵌入向量映射为各自对应的上下文嵌入向量；

基于所述数据评分层，根据每个所述面试回答文本各自对应的上下文嵌入向量，确定每个所述面试回答文本的评分数值。
根据权利要求17所述的计算机可读存储介质，其中，所述基于所述数据评分层，根据每个所述面试回答文本各自对应的上下文嵌入向量，确定每个所述面试回答文本的评分数值，包括：

获取预设的标准数据集中每个标准答案文本各自对应的文本向量；

计算每个所述面试回答文本各自对应的上下文嵌入向量与每个所述文本向量之间的语义相似度；

根据每个所述面试回答文本各自对应的上下文嵌入向量与每个所述文本向量之间的语义相似度，确定每个所述面试回答文本的评分数值。
根据权利要求18所述的计算机可读存储介质，其中，所述根据每个所述面试回答文本各自对应的上下文嵌入向量与每个所述文本向量之间的语义相似度，确定每个所述面试回答文本的评分数值，包括：

根据每个所述面试回答文本各自对应的上下文嵌入向量与每个所述文本向量之间的语义相似度，确定每个所述面试回答文本各自对应的目标相似度；

根据每个所述面试回答文本各自对应的目标相似度，确定每个所述面试回答文本的评分数值。
根据权利要求17所述的计算机可读存储介质，其中，所述基于所述数据评分层，根据每个所述面试回答文本各自对应的上下文嵌入向量，确定每个所述面试回答文本的评分数值，包括：

获取预设的标准答案文本对应的文本向量；

计算每个所述面试回答文本各自对应的上下文嵌入向量与所述文本向量之间的语义相似度；

根据每个所述面试回答文本各自对应的上下文嵌入向量与所述文本向量之间的语义相似度，确定每个所述面试回答文本的评分数值。