WO2021098397A1

WO2021098397A1 - 数据处理方法、设备及存储介质

Info

Publication number: WO2021098397A1
Application number: PCT/CN2020/119523
Authority: WO
Inventors: 袁松岭; 文心杰; 王晓利; 伍海江
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2019-11-21
Filing date: 2020-09-30
Publication date: 2021-05-27
Also published as: CN110929532A; US20220058349A1; CN110929532B

Abstract

数据处理方法、设备及存储介质，属于计算机技术领域。方法包括：获取待筛选数据集，待筛选数据集包括多个待筛选的源语言数据（201）；基于目标数据筛选模型，对待筛选数据集中的各个源语言数据进行筛选，得到筛选后的目标源语言数据，目标数据筛选模型利用强化学习算法训练得到（202）；获取与目标源语言数据对应的标注语言数据，基于目标源语言数据和标注语言数据获取机器翻译模型（203）。在此种数据处理的过程中，目标数据筛选模型中的筛选规则为机器在强化学习的过程中自动学习出来的，目标数据筛选模型的适应场景广泛，筛选后的源语言数据的质量较高，使得获取的机器翻译模型的翻译性能较好。

Description

数据处理方法、设备及存储介质

本申请要求于2019年11月21日提交的申请号为201911149101.4、发明名称为“数据处理方法、装置、设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请实施例涉及计算机技术领域，特别涉及一种数据处理方法、设备及存储介质。

背景技术

在机器翻译领域，要训练一个精确的机器翻译模型，需要足够数量的双语训练数据。双语训练数据由源语言数据和与源语言数据对应的标注语言数据组成。通常，获取双语训练数据中的标注语言数据的成本较高，因此，为了在固定成本约束下获取高质量的双语训练数据，需要先对大量的源语言数据进行筛选，然后再获取与筛选后的源语言数据对应的标注语言数据。

相关技术中，基于词频或者基于模型置信度对源语言数据进行筛选，这些筛选规则的适应场景较局限，筛选后的源语言数据的质量不佳，使得基于筛选后的源语言数据和与筛选后的源语言数据对应的标注语言数据获取的机器翻译模型的翻译性能较差。

发明内容

本申请实施例提供了一种数据处理方法、设备及存储介质，可用于提高筛选后的源语言数据的质量。所述技术方案如下：

一方面，本申请实施例提供了一种数据处理方法，所述方法包括：

获取待筛选数据集，所述待筛选数据集包括多个待筛选的源语言数据；

基于目标数据筛选模型，对所述待筛选数据集中的各个源语言数据进行筛选，得到筛选后的目标源语言数据，所述目标数据筛选模型利用强化学习算法训练得到；

获取与所述目标源语言数据对应的标注语言数据，基于所述目标源语言数据和所述标注语言数据获取机器翻译模型。

另一方面，提供了一种数据处理装置，所述装置包括：

第一获取模块，用于获取待筛选数据集，所述待筛选数据集包括多个待筛选的源语言数据；

筛选模块，用于基于目标数据筛选模型，对所述待筛选数据集中的各个源语言数据进行筛选，得到筛选后的目标源语言数据，所述目标数据筛选模型利用强化学习算法训练得到；

第二获取模块，用于取与所述目标源语言数据对应的标注语言数据；

第三获取模块，用于基于所述目标源语言数据和所述标注语言数据获取机器翻译模型。

另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条程序代码，所述至少一条程序代码由所述处理器加载并执行，以实现上述任一所述的数据处理方法。

另一方面，还提供了一种非临时性计算机可读存储介质，所述非临时性计算机可读存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行，以实现上述任一所述的数据处理方法。

另一方面，还提供了一种计算机程序产品，所述计算机程序产品中存储有至少一段计算机程序，所述至少一段计算机程序由处理器加载并执行，以实现上述任一所述的数据处理方法。

本申请实施例提供的技术方案至少带来如下有益效果：

基于利用强化学习算法训练得到的目标数据筛选模型，对待筛选数据集中的各个源语言数据进行筛选，进而基于筛选后的目标源语言数据和与目标源语言数据对应的标注语言数据获取机器翻译模型。在此种数据处理的过程中，目标数据筛选模型中的筛选规则为机器在强化学习的过程中自动学习出来的，目标数据筛选模型的适应场景广泛，筛选后的源语言数据的质量较高，使得基于筛选后的源语言数据和与筛选后的源语言数据对应的标注语言数据获取的机器翻译模型的翻译性能较好。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还能够根据这些附图获得其他的附图。

图1是本申请实施例提供的一种数据处理方法的实施环境的示意图；

图2是本申请实施例提供的一种数据处理方法的流程图；

图3是本申请实施例提供的一种数据处理方法的流程图；

图4是本申请实施例提供的一种获取第二数据筛选模型的方法的流程图；

图5是本申请实施例提供的一种获取第一目标训练数据集中的任一源语言训练数据的筛选结果的过程示意图；

图6是本申请实施例提供的一种获取更新后的第一数据筛选模型的过程示意图；

图7是本申请实施例提供的一种主动学习过程的示意图；

图8是本申请实施例提供的一种数据处理装置的示意图；

图9是本申请实施例提供的一种数据处理装置的示意图；

图10是本申请实施例提供的一种第一训练模块的结构示意图；

图11是本申请实施例提供的一种数据处理设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

自然语言处理(Nature Language Processing，NLP)是计算机科学领域与人工智能领域中的一个重要方向。自然语言处理研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以自然语言处理与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。机器翻译是指使用机器将一种自然语言(需翻译的自然语言一般称为源语言)翻译为另一种自然语言(翻译后的自然语言称为目标语言)，实现不同语种的自然语言的转换过程。

目前，机器翻译一般通过机器翻译模型实现，如，基于神经网络的NMT(Neural Machine Translation，神经网络机器翻译)模型等。要训练一个精确的机器翻译模型，需要足够数量的双语训练数据。双语训练数据由源语言数据和与源语言数据对应的标注语言数据组成。在获取双语训练数据过程中，常常需要专业翻译人员将源语言数据人工翻译成标注语言数据，由于人工翻译的成本昂贵，所以获取双语训练数据的成本较高。因此，为了在固定成本约束下获取高质量的双语训练数据，需要先对大量的源语言数据进行筛选，然后再获取与筛选后的源语言数据对应的标注语言数据，进而提高基于筛选后的源语言数据和与筛选后的源语言数据对应的标注语言数据获取的机器翻译模型的翻译性能。

对此，本申请实施例提供了一种数据处理方法，请参考图1，图1示出了本申请实施例提供的数据处理方法的实施环境的示意图。该实施环境包括：终端11和服务器12。

终端11能够从网络上获取待筛选的源语言数据，将待筛选的源语言数据发送至服务器12，终端11也能够接收服务器12返回的筛选后的源语言数据，展示筛选后的源语言数据，以由专业翻译人员将该筛选后的源语言数据翻译成标注语言数据。然后，终端11将标注语言数据发送至服务器12。服务器12能够利用强化学习算法训练得到目标数据筛选模型，基于该目标数据筛选模型对终端11发送的待筛选的源语言数据进行筛选，服务器12还能够将筛选后的源语言数据发送至终端11，获取终端11发送的与筛选后的源语言数据对应的标注语言数据。然后，服务器12能够基于筛选后的源语言数据和与筛选后的源语言数据对应的标注语言数据获取机器翻译模型。

在示例性实施例中，终端11也能够利用强化学习算法训练得到目标数据筛选模型，基于该目标数据筛选模型对获取的待筛选的源语言数据进行筛选，进而根据筛选后的源语言数据和与筛选后的源语言数据对应的标注语言数据获取机器翻译模型。

可选地，终端11是诸如手机、平板电脑、个人计算机等的智能设备。服务器12是一台服务器，或者是由多台服务器组成的服务器集群，或者是一个云计算服务中心。终端11与服务器12通过有线或无线网络建立通信连接。

本领域技术人员应能理解上述终端11和服务器12仅为举例，其他现有的或今后可能出现的终端或服务器如可适用于本申请，也应包含在本申请保护范围以内，并在此以引用方式包含于此。

基于上述图1所示的实施环境，本申请实施例提供一种数据处理方法，该方法应用于计算机设备，该计算机设备为服务器或者终端。本申请实施例以该方法应用于服务器为例。如图2所示，本申请实施例提供的方法包括如下步骤：

在步骤201中，获取待筛选数据集，待筛选数据集包括多个待筛选的源语言数据。

待筛选数据集为需要进行筛选的数据集。待筛选数据集包括多个待筛选的源语言数据。需要说明的是，在本申请实施例中，将源语言数据对应的语种称为第一语种。示例性地，源语言数据是指第一语种的语句。

在一种可能实现方式中，服务器获取待筛选数据集的方式包括但不限于以下两种：

方式一：服务器从第一语种的数据库中获取待筛选数据集。

在一种可能实现方式中，服务器从第一语种的数据库中随机选取第一参考数量的语句组成待筛选数据集。第一参考数量根据需要获取的双语数据的数量确定，或者根据实际情况自由调整，本申请实施例对此不加以限定。

方式二：服务器接收终端发送的网络数据，在网络数据中解析出第一语种的语句，基于解析出的第一语种的语句获取待筛选数据集。

终端在处理互联网业务的过程中，能够获取网络数据，在网络数据中可能包括不同语种的语句；终端将网络数据发送至服务器后，服务器能够在网络数据中解析出第一语种的语句。在一种可能实现方式中，服务器基于解析出的第一语种的语句获取待筛选数据集的过程为：服务器在解析出的第一语种的语句中选取第一参考数量的语句组成待筛选数据集。

服务器在获取待筛选数据集后，即可执行步骤202。

在实际应用场景中，要训练一个精确的机器翻译模型，需要足够数量的双语训练数据。但是，当双语中的一方语种为不常见语种时，已有的双语数据库中的双语训练数据的数据量可能较少。在此种情况下，服务器需要获取新的双语训练数据扩充已有的双语数据库。获取新的双语训练数据的成本较高，因此，服务器需要先基于步骤202对大量的待筛选的源语言数据进行筛选，以提高获取的双语训练数据的质量。

在步骤202中，基于目标数据筛选模型，对待筛选数据集中的各个源语言数据进行筛选，得到筛选后的目标源语言数据，目标数据筛选模型利用强化学习算法训练得到。

服务器在获取待筛选数据集后，即可基于目标数据筛选模型，对待筛选数据集中的各个源语言数据进行筛选，以得到筛选后的目标源语言数据。目标数据筛选模型利用强化学习算法训练得到，也就是说，目标数据筛选模型的筛选规则为机器在强化学习的过程中自动学习到的，目标数据筛选模型的筛选规则能够适应各种不同的场景，应用范围广泛。

在一种可能实现方式中，服务器基于目标数据筛选模型，对待筛选数据集中的各个源语言数据进行筛选，得到筛选后的目标源语言数据的过程为：获取待筛选数据集中的各个源语言数据的特征，将各个源语言数据的特征输入目标数据筛选模型；目标数据筛选模型对输入的各个源语言数据的特征进行处理，输出各个源语言数据的筛选结果；服务器基于各个源语言数据的筛选结果得到筛选后的目标源语言数据。

本申请实施例对待筛选数据集中的各个源语言数据的特征的获取方式不加以限定。例如，对于各个源语言数据中的任一源语言数据，基于该任一源语言数据中的每个子数据对应的词嵌入(Embedding)特征以及该任一源语言数据的长度获取该任一源语言数据的特征等。示例性地，任一源语言数据的特征以向量的形式表示。

在一种可能实现方式中，服务器将各个源语言数据的特征输入目标数据筛选模型的方式包括但不限于以下两种：

方式一：服务器每次将一个源语言数据的特征输入目标数据筛选模型进行处理，直至将各个源语言数据的特征均输入目标数据筛选模型。

在此种方式一下，目标数据筛选模型每次仅输出一个源语言数据的筛选结果。

方式二：服务器将各个源语言数据划分到第二参考数量的源语言数据组中，每次将一个源语言数据组中的全部源语言数据的特征同时输入目标数据筛选模型进行处理，直至将所有的源语言数据组中的全部源语言数据的特征均输入目标数据筛选模型。

在此种方式二下，目标数据筛选模型每次输出一个源语言数据组中的全部源语言数据的筛选结果。第二参考数量根据经验设置，或者根据应用场景自由调整，本申请实施例对此不加以限定。示例性地，当第二参考数量设置为1时，将各个源语言数据的特征同一批次输入目标数据筛选模型进行处理，目标数据筛选模型同一批次输出各个源语言数据的筛选结果。

在一种可能实现方式中，筛选结果为第一结果或第二结果。第一结果用于指示源语言数据的可靠性高，第二结果用于指示源语言数据的可靠性低。对于任一源语言数据，当该任一源语言数据的筛选结果为第一结果时，说明该任一源语言数据的可靠性高，也就是说，该任一源语言数据为高质量的源语言数据；当该任一源语言数据的筛选结果为第二结果时，说明该任一源语言数据的可靠性低，也就是说，该任一源语言数据为低质量的源语言数据。

在一种可能实现方式中，第一结果和第二结果分别用数值1和数值0表示。当目标数据筛选模型输出的某一源语言数据的筛选结果为1时，说明该源语言数据的筛选结果为第一结果；当目标数据筛选模型输出的某一源语言数据的筛选结果为0时，说明该源语言数据的筛选结果为第二结果。

在一种可能实现方式中，服务器基于各个源语言数据的筛选结果得到筛选后的目标源语言数据的方式为：服务器将筛选结果为第一结果的源语言数据作为筛选后的目标源语言数据。

服务器在得到筛选后的目标源语言数据后，即可基于筛选后的目标源语言数据执行步骤203。

需要说明的是，在服务器执行步骤202之前，需要先利用强化学习算法训练得到目标数据筛选模型。利用强化学习算法训练得到目标数据筛选模型的过程详见步骤301至步骤303所示的实施例，此处暂不赘述。

在步骤203中，获取与目标源语言数据对应的标注语言数据，基于目标源语言数据和标注语言数据获取机器翻译模型。

由于筛选后的源语言数据为质量高的源语言数据，因此，将筛选后的源语言数据作为目标源语言数据，进一步获取与目标源语言数据对应的标注语言数据。在本申请实施例中，将标注语言数据对应的语种称为第二语种。示例性地，标注语言数据是指第二语种的语句。

在一种可能实现方式中，标注语言数据由专业翻译人员对目标源语言数据进行翻译得到。服务器获取与目标源语言数据对应的标注语言数据的过程为：服务器将目标源语言数据发送至终端；终端展示目标源语言数据，以供专业翻译人员查看目标源语言数据且对目标源语言数据进行人工翻译；当检测到专业翻译人员的翻译确认指令时，终端获取与目标源语言数据对应的标注语言数据；终端将与目标源语言数据对应的标注语言数据发送至服务器。由此，服务器获取与目标源语言数据对应的标注语言数据。

在获取与目标源语言数据对应的标注语言数据后，服务器基于目标源语言数据和标注语言数据获取机器翻译模型。需要说明的是，在基于目标源语言数据和标注语言数据获取机器翻译模型的过程中，服务器直接基于目标源语言数据和标注语言数据训练得到机器翻译模型；或者，服务器将目标源语言数据和标注语言数据添加至已有的双语训练数据中，得到扩充后的双语训练数据，然后基于扩充后的双语训练数据训练得到机器翻译模型。本申请实施例对获取机器翻译模型的具体方式不加以限定。

在实际应用过程中，通过实验比对了根据本申请实施例提供的方法获取的机器翻译模型和根据其他方法获取的机器翻译模型的翻译性能。实验过程为：在待筛选数据集中，根据本申请实施例提供的方法获取目标数量的目标源语言数据，获取与目标源语言数据对应的标注语言数据，将目标源语言数据以及与目标源语言数据对应的标注语言数据作为第一双语训练样本；基于第一双语训练样本，训练得到翻译模型1。在同样的待筛选数据集中，随机选取目标数量的选定源语言数据，获取与选定源语言数据对应的标注语言数据，将选定源语言数据和与选定源语言数据对应的标注语言数据作为第二双语训练样本；基于第二双语训练样本，训练得到翻译模型2。分别测试翻译模型1和翻译模型2在WMT(Workshop on Machine Translation，机器翻译比赛)领域测试集、经济领域测试集和政治领域测试集上的翻译性能。

分别以源语言数据为中文数据、标注语言数据为英文数据(中英机器翻译)，以及源语言数据为英文数据、标注语言数据为中文数据(英中机器翻译)为例，翻译模型1和翻译模型2的性能的比对结果如表1所示。

表1

基于表1可知，无论是中英机器翻译还是英中机器翻译，根据本申请实施例提供的方法获取的翻译模型1在各个领域的测试集上均具有比翻译模型2更高的翻译性能。其中，翻译性能用BLEU(Bilingual Evaluation Understudy，双语评估替补)值表示。

在机器翻译任务中，为达到预定的机器翻译性能，利用本申请实施例提供的方法能够获取更有效质量更高的源语言数据，减少专业翻译人员的翻译成本，在降低预算和成本方面具有重要的价值。

在本申请实施例中，基于利用强化学习算法训练得到的目标数据筛选模型，对待筛选数据集中的各个源语言数据进行筛选，进而基于筛选后的目标源语言数据和与目标源语言数据对应的标注语言数据获取机器翻译模型。在此种数据处理的过程中，目标数据筛选模型中的筛选规则为机器在强化学习的过程中自动学习出来的，目标数据筛选模型的适应场景广泛，筛选后的源语言数据的质量较高，使得基于筛选后的源语言数据和与筛选后的源语言数据对应的标注语言数据获取的机器翻译模型的翻译性能较好。

本申请实施例提供一种利用强化学习算法训练得到目标数据筛选模型的方法，以该方法应用于服务器为例。如图3所示，本申请实施例提供的方法包括如下步骤：

在步骤301中，初始化第一训练数据集，第一训练数据集包括多个源语言训练数据。

第一训练数据集为训练得到目标数据筛选模型所需的待筛选数据集，第一训练数据集包括多个源语言训练数据。源语言训练数据为训练得到目标数据筛选模型的所需的待筛选源语言数据。

在一种可能实现方式中，初始化第一训练数据集的方式为随机初始化第一训练数据集，或者根据预先设置的方式初始化第一训练数据集，本申请实施例对此不加以限定。

在一种可能实现方式中，随机初始化第一训练数据集的过程为：将第一训练数据集中的各个源语言训练数据的顺序随机打乱。将第一训练数据集随机初始化，有利于提高训练得到的目标数据筛选模型的泛化能力。

在步骤302中，基于初始化的第一训练数据集，利用强化学习算法对第一数据筛选模型进行训练，得到第二数据筛选模型。

第一数据筛选模型为与初始化的第一训练数据集对应的初始数据筛选模型，第二数据筛选模型为与初始化的第一训练数据集对应的最终数据筛选模型。本申请实施例对数据筛选模型的具体形式不加以限定。例如，数据筛选模型为DQN(Deep Q-Learning，深度Q学习)模型。

步骤302为获取第二数据筛选模型，也就是获取与初始化的第一训练数据集对应的最终数据筛选模型的过程，如图4所示，该过程包括步骤3021至步骤3026。

步骤3021，将初始化的第一训练数据集划分为至少一个目标训练数据集。

初始化的第一训练数据集中包括多个源语言训练数据，将初始化的第一训练数据集划分为至少一个目标训练数据集，使得每个目标训练数据集中包括初始化的第一训练数据集中的部分源语言训练数据。

在划分为至少一个目标训练数据集后，在获取与该初始化的第一训练数据集对应的第二数据筛选模型的过程中，每次使用一个目标训练数据集进行训练。相比于每次使用一个源语言训练数据进行训练，此方式能够缩短训练时间，提高训练过程的稳定性。需要说明的是，在划分为至少一个目标训练数据集后，对各个目标训练数据集进行排序，在后续训练过程中，按照排列顺序依次选取各个目标训练数据集。根据排列顺序，各个目标训练数据集依次为第一目标训练数据集，第二目标训练数据集、……、第n目标训练数据集(n为大于0的整数)。

在一种可能实现方式中，目标训练数据集的数量n根据第一训练数据集中的源语言训练数据的总数量M和小批量尺寸(Mini-batch size)S确定，确定方式为n＝M/S。小批量尺寸S根据经验设置，或者根据源语言训练数据的总数量进行调整，本申请实施例对此不加以限定。例如，小批量尺寸设置为16。也就是说，每个目标训练数据集中包括16个源语言训练数据。此时，目标训练数据集的数量n＝M/16。

步骤3022，调用第一数据筛选模型对第一目标训练数据集中的各个源语言训练数据的目标特征进行处理，得到第一目标训练数据集中的各个源语言训练数据的筛选结果，第一目标训练数据集为至少一个目标训练数据集中的第一个目标训练数据集。

在一种可能实现方式中，在实现步骤3022之前，需要先获取第一目标训练数据集中的各个源语言训练数据的目标特征。也就是说，在将初始化的第一训练数据集划分为至少一个目标训练数据集后，获取第一目标训练数据集中各个源语言训练数据的目标特征。其中，第一目标训练数据集为至少一个目标训练数据集中的第一个目标训练数据集。

在一种可能实现方式中，获取第一目标训练数据集中的任一源语言训练数据的目标特征的过程包括以下步骤3022A至步骤3022C：

步骤3022A：基于任一源语言训练数据中的各个子数据，获取任一源语言训练数据的第一特征。

第一特征用于指示该任一源语言训练数据本身的特征，第一特征基于该任一源语言训练数据中的各个子数据获取到。任一源语言训练数据中包括多个子数据，示例性地，当任一源语言训练数据为语句时，该任一源语言训练数据中的每个词均为该任一源语言训练数据中的一个子数据。

在一种可能实现方式中，基于任一源语言训练数据中的各个子数据，获取任一源语言训练数据的第一特征的过程包括以下步骤1至步骤4：

步骤1：基于任一源语言训练数据中的各个子数据的词嵌入特征，获取任一源语言训练数据的第三特征。

基于词表查询任一源语言训练数据中各个子数据的词嵌入(Embedding)特征，将各个子数据的词嵌入特征补充(Pad)到同一长度，基于同一长度的各个子数据的词嵌入特征，即可获取该任一源语言训练数据的第三特征。

词表是指存储各个词对应的词嵌入特征的表，词表能够基于已有的语料库构建得到，本申请实施例对词表的构建过程不加以限定。词表中每个词对应的词嵌入特征能够用向量表示，向量的维度根据经验设置，例如，将向量的维度设置为512维。

在一种可能实现方式中，基于同一长度的各个子数据的词嵌入特征，获取任一源语言训练数据的第三特征的方式为：将同一长度的各个子数据的词嵌入特征输入第一神经网络，将经过第一神经网络中的卷积层和全连接层的处理得到的特征作为任一源语言训练数据的第三特征。本申请实施例对第一神经网络中的卷积层和全连接层的设置不加以限定。示例性地，在卷积层中还包含ReLU(Rectified Linear Unit，线形整流函数)处理模块。例如，如图5所示，第一神经网络为CNN(Convolutional Neural Networks，卷积神经网络)网络，卷积层的卷积核尺寸(filter size)分别设置为3、4、和5，卷积核的数量(filter number)设置为128，经过全连接层处理后得到384*256维的特征向量，将该特征向量作为第三特征。

步骤2：基于任一源语言训练数据中的各个子数据和已有语料数据库的比对结果，获取任一源语言训练数据的第四特征。

通过将任一源语言训练数据中的各个子数据和已有语料数据库进行比对，能够统计该任一源语言训练数据中N-gram(N元)的子数据在已有语料数据库中出现的概率，将该任一源语言训练数据中N-gram的子数据在已有语料数据库中出现的概率作为比对结果。然后基于比对结果，获取任一源语言训练数据的第四特征。示例性地，N-gram包括2-gram、3-gram和4-gram中的一种或多种。

在一种可能实现方式中，基于比对结果，获取任一源语言训练数据的第四特征的方式为：将比对结果输入第二神经网络，将经过第二神经网络的处理得到的特征作为任一源语言训练数据的第四特征。本申请实施例对第二神经网络的设置不加以限定。示例性地，如图5所示，经过第二神经网络的处理后，得到1*256维的特征向量，将该特征向量作为第四特征。

步骤3：基于任一源语言训练数据中的各个子数据的数量，确定任一源语言训练数据的长度，基于任一源语言训练数据的长度，获取任一源语言训练数据的第五特征。

根据任一源语言训练数据中的子数据的数量，即可确定该任一源语言训练数据的长度。例如，当任一源语言训练数据为语句，子数据为词时，语句中包括的词的数量即为该语句的长度。

在一种可能实现方式中，基于任一源语言训练数据的长度，获取任一源语言训练数据的第五特征的方式为：将任一源语言训练数据的长度输入第三神经网络，将经过第三神经网络的处理得到的特征作为任一源语言训练数据的第五特征。本申请实施例对第三神经网络的设置不加以限定。示例性地，如图5所示，经过第三神经网络的处理后，能够得到1*256维的特征向量，将该特征向量作为第五特征。

步骤4：基于第三特征、第四特征和第五特征，获取任一源语言训练数据的第一特征。

在根据步骤1至步骤3获取该任一源语言训练数据的第三特征、第四特征和第五特征后，即可获取该任一源语言训练数据的第一特征。在一种可能实现方式中，基于第三特征、第四特征和第五特征，获取任一源语言训练数据的第一特征的方式为：将任一源语言训练数据的第三特征、第四特征和第五特征拼接起来得到第一特征。

步骤3022B：基于任一源语言训练数据和第三翻译模型，获取任一源语言训练数据的第二特征。

第二特征用于指示该任一源语言训练数据在综合考虑第三翻译模型的翻译结果的基础上得到的特征。示例性地，第三翻译模型为任意一个能够对源语言训练数据进行翻译的模型，本申请实施例对此不加以限定。在一种可能实现方式中，基于任一源语言训练数据和第三翻译模型，获取任一源语言训练数据的第二特征的过程包括以下步骤a至步骤d：

步骤a：基于第三翻译模型，获取任一源语言训练数据的翻译数据，基于翻译数据的词嵌入特征，获取任一源语言训练数据的第六特征。

基于第三翻译模型，获取任一源语言训练数据的翻译数据的过程为：将该任一源语言训练数据输入第三翻译模型，将第三翻译模型输出的翻译数据作为该任一源语言训练数据的翻译数据。

在获取任一源语言训练数据的翻译数据后，在词表中查询该翻译数据的词嵌入特征，基于翻译数据的词嵌入特征，获取任一源语言训练数据的第六特征。词嵌入特征能够用向量表示，向量的维度根据经验设置，例如，将向量的维度设置为512维。

在一种可能实现方式中，基于翻译数据的词嵌入特征，获取任一源语言训练数据的第六特征的方式为：将翻译数据的词嵌入特征输入第四神经网络，将经过第四神经网络中的卷积层和全连接层的处理得到的特征作为任一源语言训练数据的第六特征。本申请实施例对第四神经网络中的卷积层和全连接层的设置不加以限定。在示例性实施例中，在卷积层中还包含ReLU处理模块。例如，如图5所示，第四神经网络为CNN网络，卷积层的卷积核尺寸(filter size)分别设置为3、4、和5，卷积核的数量(filter number)设置为128。经过全连接层处理后能够得到384*256维的特征向量，将该特征向量作为第六特征。在示例性实施例中，第四神经网络与第一神经网络相同。

步骤b：基于第三翻译模型，获取与任一源语言训练数据中的各个子数据分别对应的目标翻译子数据，基于各个子数据分别对应的目标翻译子数据的词嵌入特征，获取任一源语言训练数据的第七特征，任一子数据对应的目标翻译子数据的翻译概率在任一子数据对应的各个候选翻译子数据的翻译概率中最大。

将任一源语言训练数据输入第三翻译模型，能够得到第三翻译模型输出的与任一源语言训练数据中的各个子数据分别对应的候选翻译子数据及候选翻译子数据的翻译概率。在一种可能实现方式中，与任一子数据对应的候选翻译子数据的数量根据经验设置，例如，将候选翻译子数据的数量设置为10，则第三翻译模型输出各个子数据分别对应的翻译概率最大的10个候选翻译子数据及10个候选翻译子数据的翻译概率。

根据与任一源语言训练数据中的各个子数据分别对应的候选翻译子数据及候选翻译子数据的翻译概率，能够确定与任一源语言训练数据中的各个子数据分别对应的目标翻译子数据。任一子数据对应的目标翻译子数据为该任一子数据对应的各个候选翻译子数据中翻译概率最大的候选翻译子数据。在词表中查找各个子数据分别对应的目标翻译子数据的词嵌入特征，将各个子数据分别对应的目标翻译子数据的词嵌入特征补充到同一长度，基于同一长度的各个子数据分别对应的目标翻译子数据的词嵌入特征，获取任一源语言训练数据的第七特征。

在一种可能实现方式中，基于同一长度的各个子数据分别对应的目标翻译子数据的词嵌入特征，获取任一源语言训练数据的第七特征的方式为：将同一长度的各个子数据分别对应的目标翻译子数据的词嵌入特征输入第五神经网络，将经过第五神经网络中的卷积层和全连接层的处理得到的特征作为任一源语言训练数据的第七特征。本申请实施例对第五神经网络中的卷积层和全连接层的设置不加以限定。示例性地，在卷积层中还包含ReLU处理模块。例如，如图5所示，第五神经网络为CNN(Convolutional Neural Networks，卷积神经网络)网络，卷积层的卷积核尺寸(filter size)设置为5，卷积核的数量(filter number)设置为64。经过全连接层处理后得到64*256维的特征向量，将该特征向量作为第七特征。在示例性实施例中，第五神经网络与第一神经网络或第四神经网络相同。

步骤c：获取各个子数据分别对应的目标翻译子数据的翻译概率，基于各个子数据分别对应的目标翻译子数据的翻译概率和翻译数据的长度，获取任一源语言训练数据的第八特征。

根据步骤b还能够获取各个子数据分别对应的目标翻译子数据的翻译概率。在一种可能实现方式中，基于各个子数据分别对应的目标翻译子数据的翻译概率和翻译数据的长度，获取任一源语言训练数据的第八特征的过程为：将各个子数据分别对应的目标翻译子数据的翻译概率相加得到总概率，基于总概率与翻译数据的长度的比值获取任一源语言训练数据的第八特征。示例性地，第八特征用于指示任一源语言训练数据的置信分数(Confidence Score)。

在一种可能实现方式中，基于总概率与翻译数据的长度的比值获取任一源语言训练数据的第八特征的方式为：将总概率与翻译数据的长度的比值输入第六神经网络，将经过第六神经网络的处理得到的特征作为任一源语言训练数据的第八特征。本申请实施例对第六神经网络的设置不加以限定。示例性地，如图5所示，经过第六神经网络的处理后，能够得到1*256维的特征向量，将该特征向量作为第八特征。

步骤d：基于第六特征、第七特征和第八特征，获取任一源语言训练数据的第二特征。

在根据步骤a至步骤d获取该任一源语言训练数据的第六特征、第七特征和第八特征后，即可获取该任一源语言训练数据的第二特征。在一种可能实现方式中，基于第六特征、第七特征和第八特征，获取任一源语言训练数据的第二特征的方式为：将任一源语言训练数据的第六特征、第七特征和第八特征拼接起来得到第二特征。

需要说明的是，本申请实施例对步骤3022A和步骤3022B的执行顺序不加以限定。在示例性实施例中，先执行步骤3022A，再执行步骤3022B；或者，先执行步骤3022B，再执行步骤3022A；再或者，同时执行步骤3022A和步骤3022B。

步骤3022C：基于第一特征和第二特征，获取任一源语言训练数据的目标特征。

在获取到该任一源语言训练数据的第一特征和第二特征后，基于第一特征和第二特征，获取任一源语言训练数据的目标特征。在一种可能实现方式中，基于第一特征和第二特征，获取任一源语言训练数据的目标特征的方式为：将第一特征和第二特征进行拼接，将拼接后的特征作为任一源语言训练数据的目标特征。需要说明的是，本申请实施例对第一特征和第二特征的拼接顺序不加以限定。

在一种可能实现方式中，由于第一特征是基于第三特征、第四特征和第五特征获取到的，第二特征是基于第六特征、第七特征和第八特征获取到的，所以，任一源语言训练数据的目标特征能够基于该任一源语言训练数据的第三特征、第四特征、第五特征、第六特征、第七特征和第八特征获取得到。

根据上述步骤3022A至步骤3022C的方式，能够获取第一目标训练数据集中各个源语言训练数据的目标特征。然后调用第一数据筛选模型对第一目标训练数据集中的各个源语言训练数据的目标特征进行筛选处理。

将第一目标训练数据集中各个源语言训练数据的目标特征输入第一数据筛选模型后，第一数据筛选模型对各个源语言训练数据的目标特征进行处理。第一数据筛选模型对目标特征进行处理后，基于分类器输出每个源语言训练数据的筛选结果。例如，得到第一目标训练数据集中的各个源语言训练数据的筛选结果的过程如图5所示。

本申请实施例对第一数据筛选模型处理目标特征的方式不加以限定。例如，第一数据筛选模型将目标特征通过两个全连接层进行处理。在通过第一个全连接层进行处理后，得到源语言训练数据的全连接特征；将全连接特征送入另外一个全连接层，基于公式a _i＝argmaxQ ^π(s _i,a)输出源语言训练数据对应不同筛选结果的概率，然后经过分类器，输出概率大的筛选结果作为该源语言训练数据的筛选结果。在公式a _i＝argmaxQ ^π(s _i,a)中，a _i表示筛选结果，Q ^π(s _i,a)表示第一数据筛选模型对应的目标函数。由此，服务器能够得到第一目标训练数据集中的各个源语言训练数据的筛选结果。

在一种可能实现方式中，筛选结果包括两种，分别为第一结果和第二结果。其中，第一结果用于指示源语言训练数据的可靠性高，第二结果用户指示源语言训练数据的可靠性低。示例性地，筛选结果用数值表示，筛选结果和数值的对应关系根据经验预先设置，例如，第一结果对应的数值为1，第二结果对应的数值为0。

步骤3023，对于第一目标训练数据集中的任一源语言训练数据，基于任一源语言训练数据的筛选结果，确定任一源语言训练数据的权重值。

不同筛选结果的源语言训练数据对应有不同的权重值。在一种可能实现方式中，基于任一源语言训练数据的筛选结果，确定任一源语言训练数据的权重值的过程为：响应于任一源语言训练数据的筛选结果为第一结果，将第一权重值作为任一源语言训练数据的权重值；响应于任一源语言训练数据的筛选结果为第二结果，将第二权重值作为任一源语言训练数据的权重值。

在一种可能实现方式中，第二权重值为预先设置的与筛选结果为第二结果的源语言训练数据对应的权重值。本申请实施例对第二权重值的设置方式不加以限定，例如，将第二权重值设置为0。

在一种可能实现方式中，在将第一权重值作为任一源语言训练数据的权重值之前，需要先获取第一权重值。获取第一权重值的过程包括以下步骤A至步骤D：

步骤A：获取与第一目标训练数据集中的各个目标源语言训练数据分别对应的标注语言训练数据，各个目标源语言训练数据的筛选结果均为第一结果。

当源语言训练数据的筛选结果为第一结果时，说明该源语言训练数据的可靠性高，将第一目标训练数据集中的筛选结果为第一结果的各个源语言训练数据作为各个目标源语言训练数据，然后获取与各个目标源语言训练数据分别对应的标注语言训练数据。

在示例性实施例中，在训练之前，预先获取第一训练数据集中的各个源语言训练数据对应的标注语言训练数据并存储。在执行步骤A时，从存储中获取与各个目标源语言训练数据分别对应的标注语言训练数据，以节省训练时间。

基于步骤A，即可获取到与第一目标训练数据集中的筛选结果为第一结果的各个目标源语言训练数据分别对应的标注语言训练数据，然后执行步骤B。

步骤B：将各个目标源语言训练数据和与各个目标源语言训练数据分别对应的标注语言训练数据作为训练数据添加至第二训练数据集中。

第二训练数据集的初始值为空集，第二训练数据集用于存储双语训练数据。任一双语训练数据由一个源语言训练数据和与该源语言训练数据对应的标注语言数据组成。

在获取与各个目标源语言训练数据对应的标注语言训练数据后，即可将各个目标源语言训练数据和与各个目标源语言训练数据分别对应的标注语言训练数据作为训练数据添加至第二训练数据集中。示例性地，将任一目标源语言训练数据记作x _i，将与x _i对应的标注语言训练数据记作y _i，将第二训练数据集记作D _l，则将(x _i，y _i)添加至D _l中。

需要说明的是，经过步骤B，将第一目标训练数据集中的筛选结果为第一结果的全部目标源语言训练数据和与全部目标源语言训练数据对应的标注语言训练数据均对应添加至第二训练数据集中。基于此种方式得到的第二训练数据集，能够提高获取的第一权重值的准确性。

步骤C：基于第二训练数据集对第一翻译模型进行训练，得到第二翻译模型。

第一翻译模型为利用已知的双语训练数据预训练得到的翻译模型。本申请实施例对第一翻译模型的具体形式不加以限定。例如，第一翻译模型为NMT(Neural Machine Translation，神经机器翻译)模型。

在经过步骤B后，得到更新后的第二训练数据集。由于第二训练数据集中的数据均为双语训练数据，所以能够基于第二训练数据集对第一翻译模型进行训练。本申请实施例对训练第一翻译模型的方式不加以限定。将训练得到的翻译模型作为第二翻译模型。

步骤D：基于第二翻译模型和第一翻译模型，获取第一权重值。

第一权重值用于指示第二翻译模型与第一翻译模型的性能差异。在一种可能实现方式中，基于第二翻译模型和第一翻译模型，获取第一权重值的过程为：利用验证数据集(held out数据集)分别对第一翻译模型和第二翻译模型进行验证，得到第一翻译模型的模型性能和第二翻译模型的模型性能，基于第一翻译模型的模型性能和第二翻译模型的模型性能，获取第一权重值。

在一种可能实现方式中，基于下述公式1获取第一权重值：

R(s _i-1,a)＝Acc(Φ _i)-Acc(Φ _i-1) (公式1)

其中，Acc(Φ _i)表示第二翻译模型的模型性能。Acc(Φ _i-1)表示第一翻译模型的模型性能。R(s _i-1,a)表示第一权重值(Reward)。第一权重值的取值有正有负，表示第二训练数据集D _l中增加的双语训练样本(x _i，y _i)对模型性能的影响可能是正向影响，也可能是负向影响。

在获取第一权重值后，即可将第一权重值作为第一目标训练数据集中的筛选结果为第一结果的各个源语言训练数据的权重值。

步骤3024，基于任一源语言训练数据的目标特征、任一源语言训练数据的筛选结果、任一源语言训练数据的权重值和参考源语言训练数据的目标特征，生成与任一源语言训练数据对应的候选数据，参考源语言训练数据为第二目标训练数据集中与任一源语言训练数据对应的源语言数据。

第二目标训练数据集为至少一个目标训练数据集中的第一目标训练数据集的下一个目标训练数据集。候选数据为用于更新第一数据筛选模型的参数的数据。

在一种可能实现方式中，生成与任一源语言训练数据对应的候选数据的方式为：

响应于任一源语言训练数据的筛选结果为第一结果，基于任一源语言训练数据的目标特征、第一结果、第一权重值和参考源语言数据的目标特征，生成与任一源语言训练数据对应的第一候选数据；

响应于任一源语言训练数据的筛选结果为第二结果，基于任一源语言训练数据的目标特征、第二结果、第二权重值和参考源语言数据的目标特征，生成与任一源语言训练数据对应的第二候选数据。

也就是说，每个源语言训练数据均对应一个候选数据，该候选数据为第一候选数据或者第二候选数据。将任一源语言训练数据的目标特征记作s _i、筛选结果记作a _i、权重值记作r _i、参考源语言数据的目标特征记作s _i+1，则与任一源语言训练数据对应的候选数据记作(s _i，a _i，r _i，s _i+1)。其中，a _i和r _i根据该任一源语言训练数据的筛选结果确定。当a _i表示第一结果时，r _i表示第一权重值，(s _i，a _i，r _i，s _i+1)表示第一候选数据；当a _i表示第二结果时，r _i表示第二权重值，(s _i，a _i，r _i，s _i+1)表示第二候选数据。

上述步骤3023和步骤3024从第一目标训练数据集中的任一源语言训练数据的角度，介绍了生成与该任一源语言训练数据对应的候选数据的过程。按照步骤3023和步骤3024的方式能够生成与第一目标训练数据集中的各个源语言训练数据分别对应的候选数据。在生成与第一目标训练数据集中的各个源语言训练数据分别对应的候选数据后，执行步骤3025。

步骤3025，基于与第一目标训练数据集中的各个源语言训练数据分别对应的候选数据，选取目标数量的候选数据，基于目标数量的候选数据，更新第一数据筛选模型的参数，得到更新后的第一数据筛选模型。

在生成与第一目标训练数据集中的各个源语言训练数据对应的候选数据后，基于与第一目标训练数据集中的各个源语言训练数据分别对应的候选数据，选取目标数量的候选数据，以基于目标数量的候选数据更新第一数据筛选模型的参数。目标数量根据经验设置，或者根据全部的候选数据的数量自由调整，本申请实施例对此不加以限定。

在一种可能实现方式中，基于与第一目标训练数据集中的各个源语言训练数据分别对应的候选数据，选取目标数量的候选数据的方式为：在与第一目标训练数据集中的各个源语言训练数据分别对应的候选数据中随机选取目标数量的候选数据。

在一种可能实现方式中，基于与第一目标训练数据集中的各个源语言训练数据分别对应的候选数据，选取目标数量的候选数据的方式为：将与第一目标训练数据集中的各个源语言训练数据分别对应的候选数据中的第一候选数据添加至第一候选数据集中，将与第一目标训练数据集中的各个源语言训练数据分别对应的候选数据中的第二候选数据添加至第二候选数据集中；在第一候选数据集和第二候选数据集中进行等比例选取，得到目标数量的候选数据。基于此种选取方式选取的候选数据更具有代表性，有利于提高数据筛选模型的训练过程的稳定性。

第一候选数据集用于在训练得到目标数据筛选模型的过程中不断归集新生成的第一候选数据，第二候选数据集用于在训练得到目标训练数据筛选模型的过程中不断归集新生成的第二候选数据。在示例性实施例中，第一候选数据集和第二候选数据集的初始值均为空集。

在一种可能实现方式中，基于目标数量的候选数据，更新第一数据筛选模型的参数，得到更新后的第一数据筛选模型的过程包括以下步骤I至步骤III：

步骤I：基于目标数量的候选数据，更新与第一数据筛选模型对应的目标函数。

在一种可能实现方式中，目标函数的形式为Q ^π(s,a)，更新与第一数据筛选模型对应的目标函数的方式为：基于贝尔曼方程(公式2)更新与第一数据筛选模型对应的目标函数。

Q ^π(s,a)＝E[R _i|s _i＝s,a _i＝a,π] (公式2)

其中，

γ∈[0,1]，R _i是折扣后的长期权重，γ为折扣因子。

步骤II：根据更新后的目标函数，计算与第一数据筛选模型对应的损失函数。

在得到更新后的目标函数后，即可根据更新后的目标函数，计算当前的损失函数。在一种可能实现方式中，基于下述公式3计算损失函数：

L(θ)＝E _s,a,r,s′[(y _i(r,s′)-Q(s,a；θ)) ²] (公式3)

其中，L(θ)表示损失函数，y _i(r,s′)＝r+γmax _a′Q(s′,a′；θ _i-1)为基于第一数据筛选模型的当前参数θ _i-1得到的目标函数值。

步骤III：基于损失函数，更新第一数据筛选模型的参数，得到更新后的第一数据筛选模型。

在得到损失函数后，基于最小化损失函数的目标，更新第一数据筛选模型的参数，以得到更新后的第一数据筛选模型。

在一种可能实现方式中，利用SGD(Stochastic Gradient Descent，随机梯度下降)算法最小化损失函数L(θ)。

综上所述，获取更新后的第一数据筛选模型的过程如图6所示。基于第一训练数据集D _u中的任一目标训练数据集的各个源语言训练数据x _i和神经网络，获取各个源语言训练数据的目标特征s _i；将s _i输入第一数据筛选模型中，第一数据筛选模型基于公式a _i＝argmaxQ ^π(s _i,a)确定各个源语言训练数据的筛选结果。当筛选结果为0时，将0作为权重值r _i；当筛选结果为1时，获取标注语言数据y _i，将(x _i，y _i)添加至第二训练数据集D _l中，利用第二训练数据集D _l对第一翻译模型进行训练，得到第二翻译模型；利用held-out验证数据集分别计算第一翻译模型和第二翻译模型的模型性能，将模型性能的差值作为筛选结果为1的源语言训练数据的权重值。生成候选数据(s _i，a _i，r _i，s _i+1)。选取目标数量的候选数据，利用SGD算法最小化损失函数L(θ)，得到更新后的第一数据筛选模型。

步骤3026，基于第二目标训练数据集对更新后的第一数据筛选模型进行训练，以此类推，直至满足第二训练终止条件，得到第二数据筛选模型。

基于第二目标训练数据集对更新后的第一数据筛选模型进行训练的过程为：基于第二目标训练数据集和更新后的第一数据筛选模型执行步骤3022至步骤3025，得到进一步更新后的第一数据筛选模型。以此类推，直至满足第二训练终止条件。

在一种可能实现方式中，每对第一数据筛选模型更新一次，即判断一次是否满足第二训练终止条件。若不满足第二训练终止条件，则基于下一个目标训练数据集和当前最新的第一数据筛选模型执行步骤3022至步骤3025，以继续更新第一数据筛选模型；若满足第二训练终止条件，停止迭代训练，将此时得到的更新后的第一数据筛选模型作为第二数据筛选模型。

在一种可能实现方式中，满足第二训练终止条件，包括但不限于以下两种情况：

情况一：第一训练数据集中不存在满足条件的目标训练数据集，满足条件的目标训练数据集中的各个源语言训练数据的目标特征未进行过筛选处理。

当第一训练数据集中不存在满足条件的目标训练数据集时，说明第一训练数据集中的全部源语言训练数据均作为训练数据参与了获取第二数据筛选模型的训练过程，此时认为满足第二训练终止条件。

情况二：筛选结果为第一结果的源语言训练数据的数量达到数量阈值。

示例性地，数量阈值根据训练成本(budget)进行设置，当筛选结果为第一结果的源语言训练数据的数量达到数量阈值时，说明已筛选出足够数量的源语言训练数据，此时认为满足第二训练终止条件。

当满足上述两种情况中的任一种情况时，即认为满足第二训练终止条件，得到第二数据筛选模型。

在步骤303中，响应于不满足第一训练终止条件，重新初始化第一训练数据集，基于重新初始化的第一训练数据集，利用强化学习算法对第二数据筛选模型进行训练，得到第三数据筛选模型；以此类推，直至满足第一训练终止条件，得到目标数据筛选模型。

在基于步骤3026得到第二数据筛选模型后，进一步基于第二数据筛选模型获取目标数据筛选模型。

在一种可能实现方式中，基于第二数据筛选模型获取目标数据筛选模型的方式为：响应于满足第一训练终止条件，将第二数据筛选模型作为目标数据筛选模型；响应于不满足第一训练终止条件，重新初始化第一训练数据集，基于重新初始化的第一训练数据集，利用强化学习算法对第二数据筛选模型进行训练，得到第三数据筛选模型，以此类推，直至满足第一训练终止条件，将满足第一训练终止条件时得到的数据筛选模型作为目标数据筛选模型。也就是说，当不满足第一训练终止条件时，再次执行步骤301和步骤302，得到与重新初始化的第一训练数据集对应的第三数据筛选模型；循环进行上述过程。

在一种可能实现方式中，每得到一个数据筛选模型，即判断一次是否满足第一训练终止条件。若不满足第一训练终止条件，则继续执行步骤301和步骤302，以继续获取数据筛选模型；若满足第一训练终止条件，则停止迭代训练，将此时得到的数据筛选模型作为目标数据筛选模型。在一种可能实现方式中，满足第一训练终止条件为：初始化第一训练数据集的次数达到次数阈值。

综上所述，在一种可能实现方式中，将获取目标数据筛选模型的过程看作获取策略π(policy π)的过程，获取策略π的算法流程如下：

Input:data D _u,budget B,NMT model

//输入：第一训练数据集D _u，成本B，翻译模型

Output:π//输出：π

1:for episode＝1,2,…,N do//在每个时期均执行下述步骤

2:D _l←

and shuffle D _u//第二训练数据集D _l为空集，随机打乱第一训练数据集D _u

3:

←Init NMT//初始化翻译模型

4:for mini-batch(x ₁,x ₂,…x _k)sample from D _u//对于第一训练数据集D _u中的每个目标训练数据集(x ₁,x ₂,…x _k)，执行下述步骤

5:Construct the state(s ₁,s ₂,…s _k)using(x ₁,x ₂,…x _k)//构建目标训练数据集(x ₁,x ₂,…x _k)的目标特征(s ₁,s ₂,…s _k)

6:The agent makes a decision according to//智能体(本申请中的数据筛选模型)根据公式a _i＝argmax Q ^π(s _i,a)输出筛选结果

a _i＝argmax Q ^π(s _i,a),i∈(1,…k)

7:for i in k do://对于每个源语言训练数据，执行下述操作

8:if a _i＝1 then//若筛选结果为1

9:Obtain the annotation y _i//获取标注语言数据y _i，

10:D _l←D _l+(x _i,y _i)//将(x _i,y _i)添加到第二训练数据集D _l中

11:end if

12:end for

13:Update model

based on D _l//利用第二训练数据集D _l更新翻译模型

14:Receive a reward r _i using held-out set//利用验证数据集获取奖励值(本申请中的第一权重值)r _i

15:if|D _l|＝B then//若第二训练数据集满足成本B

16:Store(s _i,a _i,r _i,Terminate)in M//将(s _i,a _i,r _i,停止)存储在候选数据集M中

17:Break

18:end if

19:Construct the new state(s _k+1,s _k+2,…s _2k)//构建新的目标特征(s _k+1,s _k+2,…s _2k)

20:Store transition(s _i,a _i,r _i,s _i+1)in M//将(s _i,a _i,r _i,s _i+1)存储在候选数据集M中

21:Sample random minibatch of transitions{(s _j,a _j,r _j,s _j+1)}from M,

and perform gradient descent step on L(θ)//从M中随机选取目标数量的候选数据{(s _j,a _j,r _j,s _j+1)}，且对损失函数L(θ)执行梯度下降

22:Update policy π with θ//利用θ更新π

23:end for

24:end for

25:return the latest policy π//返回最新的π

在实际应用场景中，数据筛选模型能够应用于主动学习过程。主动学习是一种标记数据的简单技术，主动学习首先从未标注的数据集中选择一些实例，然后由人工标注这些实例，然后重复多次，直到满足终止条件。如图7所示，基于已有的标注数据训练集L更新数据筛选模型，基于数据筛选模型在无标注数据池U中筛选出部分待标注数据，由专业人员进行人工标注，然后将标注后的数据添加至标注数据训练集L中，循环上述过程，直至满足终止条件。例如，终止条件是指标注数据训练集L中的数据的数量达到阈值。

在本申请实施例中，利用强化学习算法训练得到目标数据筛选模型，目标数据筛选模型中的筛选规则为机器在强化学习的过程中自动学习出来的，目标数据筛选模型的适应场景广泛，使得基于目标数据筛选模型筛选后的源语言数据的质量较高，进而有利于提高基于筛选后的源语言数据和与筛选后的源语言数据对应的标注语言数据获取的机器翻译模型的翻译性能。

参见图8，本申请实施例提供了一种数据处理装置，该装置包括：

第一获取模块801，用于获取待筛选数据集，待筛选数据集包括多个待筛选的源语言数据；

筛选模块802，用于基于目标数据筛选模型，对待筛选数据集中的各个源语言数据进行筛选，得到筛选后的目标源语言数据，目标数据筛选模型利用强化学习算法训练得到；

第二获取模块803，用于获取与目标源语言数据对应的标注语言数据；

第三获取模块804，用于基于目标源语言数据和标注语言数据获取机器翻译模型。

在一种可能实现方式中，参见图9，该装置还包括：

初始化模块805，用于初始化第一训练数据集，第一训练数据集包括多个源语言训练数据；

第一训练模块806，用于基于初始化的第一训练数据集，利用强化学习算法对第一数据筛选模型进行训练，得到第二数据筛选模型；

第二训练模块807，用于响应于不满足第一训练终止条件，重新初始化第一训练数据集，基于重新初始化的第一训练数据集，利用强化学习算法对第二数据筛选模型进行训练，得到第三数据筛选模型；以此类推，直至满足第一训练终止条件，得到目标数据筛选模型。

在一种可能实现方式中，参见图10，第一训练模块806，包括：

划分单元8061，用于将初始化的第一训练数据集划分为至少一个目标训练数据集；

处理单元8062，用于调用第一数据筛选模型对第一目标训练数据集中的各个源语言训练数据的目标特征进行筛选处理，得到第一目标训练数据集中的各个源语言训练数据的筛选结果，第一目标训练数据集为至少一个目标训练数据集中的第一个目标训练数据集；

确定单元8063，用于对于第一目标训练数据集中的任一源语言训练数据，基于任一源语言训练数据的筛选结果，确定任一源语言训练数据的权重值；

生成单元8064，用于基于任一源语言训练数据的目标特征、任一源语言训练数据的筛选结果、任一源语言训练数据的权重值和参考源语言训练数据的目标特征，生成与任一源语言训练数据对应的候选数据，参考源语言训练数据为第二目标训练数据集中与任一源语言训练数据对应的源语言数据，第二目标训练数据集为至少一个目标训练数据集中的第一目标训练数据集的下一个目标训练数据集；

选取单元8065，用于基于与第一目标训练数据集中的各个源语言训练数据分别对应的候选数据，选取目标数量的候选数据；

更新单元8066，用于基于目标数量的候选数据，更新第一数据筛选模型的参数，得到更新后的第一数据筛选模型；

训练单元8067，用于基于第二目标训练数据集对更新后的第一数据筛选模型进行训练，以此类推，直至满足第二训练终止条件，得到第二数据筛选模型。

在一种可能实现方式中，确定单元8063，用于响应于任一源语言训练数据的筛选结果为第一结果，将第一权重值作为任一源语言训练数据的权重值；响应于任一源语言训练数据的筛选结果为第二结果，将第二权重值作为任一源语言训练数据的权重值。

在一种可能实现方式中，参见图10，第一训练模块806，还包括：

获取单元8068，用于获取与第一目标训练数据集中的各个目标源语言训练数据分别对应的标注语言训练数据，各个目标源语言训练数据的筛选结果均为第一结果；

参见图10，第一训练模块806，还包括：

添加单元8069，用于将各个目标源语言训练数据和与各个目标源语言训练数据分别对应的标注语言训练数据作为训练数据添加至第二训练数据集中；

训练单元8067，还用于基于第二训练数据集对第一翻译模型进行训练，得到第二翻译模型；

获取单元8068，还用于基于第二翻译模型和第一翻译模型，获取第一权重值。

在一种可能实现方式中，获取单元8068，还用于对于第一目标训练数据集中的任一源语言训练数据，基于任一源语言训练数据中的各个子数据，获取任一源语言训练数据的第一特征；基于任一源语言训练数据和第三翻译模型，获取任一源语言训练数据的第二特征；基于第一特征和第二特征，获取任一源语言训练数据的目标特征。

在一种可能实现方式中，获取单元8068，还用于基于任一源语言训练数据中的各个子数据的词嵌入特征，获取任一源语言训练数据的第三特征；基于任一源语言训练数据中的各个子数据和已有语料数据库的比对结果，获取任一源语言训练数据的第四特征；基于任一源语言训练数据中的各个子数据的数量，确定任一源语言训练数据的长度，基于任一源语言训练数据的长度，获取任一源语言训练数据的第五特征；基于第三特征、第四特征和第五特征，获取任一源语言训练数据的第一特征。

在一种可能实现方式中，获取单元8068，还用于基于第三翻译模型，获取任一源语言训练数据的翻译数据，基于翻译数据的词嵌入特征，获取任一源语言训练数据的第六特征；基于第三翻译模型，获取与任一源语言训练数据中的各个子数据分别对应的目标翻译子数据，基于各个子数据分别对应的目标翻译子数据的词嵌入特征，获取任一源语言训练数据的第七特征，任一子数据对应的目标翻译子数据的翻译概率在任一子数据对应的各个候选翻译子数据的翻译概率中最大；获取各个子数据分别对应的目标翻译子数据的翻译概率，基于各个子数据分别对应的目标翻译子数据的翻译概率和翻译数据的长度，获取任一源语言训练数据的第八特征；基于第六特征、第七特征和第八特征，获取任一源语言训练数据的第二特征。

在一种可能实现方式中，生成单元8064，用于响应于任一源语言训练数据的筛选结果为第一结果，基于任一源语言训练数据的目标特征、第一结果、第一权重值和参考源语言训练数据的目标特征，生成与任一源语言训练数据对应的第一候选数据；

响应于任一源语言训练数据的筛选结果为第二结果，基于任一源语言训练数据的目标特征、第二结果、第二权重值和参考源语言训练数据的目标特征，生成与任一源语言训练数据对应的第二候选数据。

在一种可能实现方式中，添加单元8069，还用于将与第一目标训练数据集中的各个源语言训练数据分别对应的候选数据中的第一候选数据添加至第一候选数据集中，将与第一目标训练数据集中的各个源语言训练数据分别对应的候选数据中的第二候选数据添加至第二候选数据集中；

选取单元8065，还用于在第一候选数据集和第二候选数据集中进行等比例选取，得到目标数量的候选数据。

在一种可能实现方式中，更新单元8066，用于基于目标数量的候选数据，更新与第一数据筛选模型对应的目标函数；根据更新后的目标函数，计算与第一数据筛选模型对应的损失函数；基于损失函数，更新第一数据筛选模型的参数，得到更新后的第一数据筛选模型。

在一种可能实现方式中，满足第二训练终止条件，包括：

第一训练数据集中不存在满足条件的目标训练数据集，满足条件的目标训练数据集中的各个源语言训练数据的目标特征未进行过筛选处理；或者，

筛选结果为第一结果的源语言训练数据的数量达到数量阈值。

需要说明的是，上述实施例提供的装置在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，能够根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图11是本申请实施例提供的一种数据处理设备的结构示意图，示例性地，该数据处理设备为服务器，该服务器可因配置或性能不同而产生比较大的差异，该服务器包括一个或多个处理器(Central Processing Units，CPU)1101和一个或多个存储器1102，其中，该一个或多个存储器1102中存储有至少一条程序代码，该至少一条程序代码由该一个或多个处理器1101加载并执行，以实现上述各个方法实施例提供的数据处理方法。当然，该服务器还能够具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还能够包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机设备，该计算机设备包括处理器和存储器，该存储器中存储有至少一条程序代码。该至少一条程序代码由一个或者一个以上处理器加载并执行，以实现上述任一种数据处理方法。

在示例性实施例中，还提供了一种非临时性计算机可读存储介质，该非临时性计算机可读存储介质中存储有至少一条程序代码，该至少一条程序代码由计算机设备的处理器加载并执行，以实现上述任一种数据处理方法。

可选地，上述非临时性计算机可读存储介质是只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品，该计算机程序产品中存储有至少一段计算机程序，该至少一段计算机程序由计算机设备的处理器加载并执行，以实现上述任一种数据处理方法。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示存在三种关系，例如，A和/或B，表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

以上所述仅为本申请的示例性实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

一种数据处理方法，其中，所述方法应用于计算机设备，所述方法包括：

获取待筛选数据集，所述待筛选数据集包括多个待筛选的源语言数据；

基于目标数据筛选模型，对所述待筛选数据集中的各个源语言数据进行筛选，得到筛选后的目标源语言数据，所述目标数据筛选模型利用强化学习算法训练得到；

获取与所述目标源语言数据对应的标注语言数据，基于所述目标源语言数据和所述标注语言数据获取机器翻译模型。
根据权利要求1所述的方法，其中，所述基于目标数据筛选模型，对所述待筛选数据集中的各个源语言数据进行筛选之前，所述方法还包括：

初始化第一训练数据集，所述第一训练数据集包括多个源语言训练数据；

基于初始化的第一训练数据集，利用强化学习算法对第一数据筛选模型进行训练，得到第二数据筛选模型；

响应于不满足第一训练终止条件，重新初始化所述第一训练数据集，基于重新初始化的第一训练数据集，利用强化学习算法对所述第二数据筛选模型进行训练，得到第三数据筛选模型；以此类推，直至满足所述第一训练终止条件，得到目标数据筛选模型。
根据权利要求2所述的方法，其中，所述基于初始化的第一训练数据集，利用强化学习算法对第一数据筛选模型进行训练，得到第二数据筛选模型，包括：

将所述初始化的第一训练数据集划分为至少一个目标训练数据集；

调用所述第一数据筛选模型对第一目标训练数据集中的各个源语言训练数据的目标特征进行筛选处理，得到所述第一目标训练数据集中的各个源语言训练数据的筛选结果，所述第一目标训练数据集为所述至少一个目标训练数据集中的第一个目标训练数据集；

对于所述第一目标训练数据集中的任一源语言训练数据，基于所述任一源语言训练数据的筛选结果，确定所述任一源语言训练数据的权重值；

基于所述任一源语言训练数据的目标特征、所述任一源语言训练数据的筛选结果、所述任一源语言训练数据的权重值和参考源语言训练数据的目标特征，生成与所述任一源语言训练数据对应的候选数据，所述参考源语言训练数据为第二目标训练数据集中与所述任一源语言训练数据对应的源语言数据，所述第二目标训练数据集为所述至少一个目标训练数据集中的所述第一目标训练数据集的下一个目标训练数据集；

基于与所述第一目标训练数据集中的各个源语言训练数据分别对应的候选数据，选取目标数量的候选数据；基于所述目标数量的候选数据，更新所述第一数据筛选模型的参数，得到更新后的第一数据筛选模型；

基于所述第二目标训练数据集对所述更新后的第一数据筛选模型进行训练，以此类推，直至满足第二训练终止条件，得到第二数据筛选模型。
根据权利要求3所述的方法，其中，所述基于所述任一源语言训练数据的筛选结果，确定所述任一源语言训练数据的权重值，包括：

响应于所述任一源语言训练数据的筛选结果为第一结果，将第一权重值作为所述任一源语言训练数据的权重值；

响应于所述任一源语言训练数据的筛选结果为第二结果，将第二权重值作为所述任一源语言训练数据的权重值。
根据权利要求4所述的方法，其中，所述响应于所述任一源语言训练数据的筛选结果为第一结果，将第一权重值作为所述任一源语言训练数据的权重值之前，所述方法还包括：

获取与所述第一目标训练数据集中的各个目标源语言训练数据分别对应的标注语言训练数据，所述各个目标源语言训练数据的筛选结果均为第一结果；

将所述各个目标源语言训练数据和与所述各个目标源语言训练数据分别对应的标注语言训练数据作为训练数据添加至第二训练数据集中；

基于所述第二训练数据集对第一翻译模型进行训练，得到第二翻译模型；

基于所述第二翻译模型和所述第一翻译模型，获取所述第一权重值。
根据权利要求3-5任一所述的方法，其中，所述调用所述第一数据筛选模型对所述第一目标训练数据集中的各个源语言训练数据的目标特征进行筛选处理之前，所述方法还包括：

对于所述第一目标训练数据集中的任一源语言训练数据，基于所述任一源语言训练数据中的各个子数据，获取所述任一源语言训练数据的第一特征；

基于所述任一源语言训练数据和第三翻译模型，获取所述任一源语言训练数据的第二特征；

基于所述第一特征和所述第二特征，获取所述任一源语言训练数据的目标特征。
根据权利要求6所述的方法，其中，所述基于所述任一源语言训练数据中的各个子数据，获取所述任一源语言训练数据的第一特征，包括：

基于所述任一源语言训练数据中的各个子数据的词嵌入特征，获取所述任一源语言训练数据的第三特征；

基于所述任一源语言训练数据中的各个子数据和已有语料数据库的比对结果，获取所述任一源语言训练数据的第四特征；

基于所述任一源语言训练数据中的各个子数据的数量，确定所述任一源语言训练数据的长度，基于所述任一源语言训练数据的长度，获取所述任一源语言训练数据的第五特征；

基于所述第三特征、所述第四特征和所述第五特征，获取所述任一源语言训练数据的第一特征。
根据权利要求6所述的方法，其中，所述基于所述任一源语言训练数据和第三翻译模型，获取所述任一源语言训练数据的第二特征，包括：

基于所述第三翻译模型，获取所述任一源语言训练数据的翻译数据，基于所述翻译数据的词嵌入特征，获取所述任一源语言训练数据的第六特征；

基于所述第三翻译模型，获取与所述任一源语言训练数据中的各个子数据分别对应的目标翻译子数据，基于所述各个子数据分别对应的目标翻译子数据的词嵌入特征，获取所述任一源语言训练数据的第七特征，任一子数据对应的目标翻译子数据的翻译概率在所述任一子数据对应的各个候选翻译子数据的翻译概率中最大；

获取所述各个子数据分别对应的目标翻译子数据的翻译概率，基于所述各个子数据分别对应的目标翻译子数据的翻译概率和所述翻译数据的长度，获取所述任一源语言训练数据的第八特征；

基于所述第六特征、所述第七特征和所述第八特征，获取所述任一源语言训练数据的第二特征。
根据权利要求4所述的方法，其中，所述基于所述任一源语言训练数据的目标特征、所述任一源语言训练数据的筛选结果、所述任一源语言训练数据的权重值和参考源语言训练数据的目标特征，生成与所述任一源语言训练数据对应的候选数据，包括：

响应于所述任一源语言训练数据的筛选结果为第一结果，基于所述任一源语言训练数据的目标特征、所述第一结果、所述第一权重值和所述参考源语言训练数据的目标特征，生成与所述任一源语言训练数据对应的第一候选数据；

响应于所述任一源语言训练数据的筛选结果为第二结果，基于所述任一源语言训练数据的目标特征、所述第二结果、所述第二权重值和所述参考源语言训练数据的目标特征，生成与所述任一源语言训练数据对应的第二候选数据。
根据权利要求9所述的方法，其中，所述基于与所述第一目标训练数据集中的各个源语言训练数据分别对应的候选数据，选取目标数量的候选数据，包括：

将与所述第一目标训练数据集中的各个源语言训练数据分别对应的候选数据中的第一候选数据添加至第一候选数据集中，将与所述第一目标训练数据集中的各个源语言训练数据分别对应的候选数据中的第二候选数据添加至第二候选数据集中；

在所述第一候选数据集和所述第二候选数据集中进行等比例选取，得到目标数量的候选数据。
根据权利要求3所述的方法，其中，所述基于所述目标数量的候选数据，更新所述第一数据筛选模型的参数，得到更新后的第一数据筛选模型，包括：

基于所述目标数量的候选数据，更新与所述第一数据筛选模型对应的目标函数；

根据更新后的目标函数，计算与所述第一数据筛选模型对应的损失函数；

基于所述损失函数，更新所述第一数据筛选模型的参数，得到更新后的第一数据筛选模型。
根据权利要求3所述的方法，其中，所述满足第二训练终止条件，包括：

所述第一训练数据集中不存在满足条件的目标训练数据集，所述满足条件的目标训练数据集中的各个源语言训练数据的目标特征未进行过筛选处理；或者，

筛选结果为第一结果的源语言训练数据的数量达到数量阈值。
一种计算机设备，其中，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条程序代码，所述至少一条程序代码由所述处理器加载并执行，以实现如权利要求1至12任一所述的数据处理方法。
一种非临时性计算机可读存储介质，其中，所述非临时性计算机可读存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行，以实现如权利要求1至12任一所述的数据处理方法。
一种计算机程序产品，其中，所述计算机程序产品中存储有至少一段计算机程序，所述至少一段计算机程序由处理器加载并执行，以实现如权利要求1至12任一所述的数据处理方法。