WO2021184769A1

WO2021184769A1 - 神经网络文本翻译模型的运行方法、装置、设备、及介质

Info

Publication number: WO2021184769A1
Application number: PCT/CN2020/125431
Authority: WO
Inventors: 单杰
Original assignee: 江苏省舜禹信息技术有限公司
Priority date: 2020-03-17
Filing date: 2020-10-30
Publication date: 2021-09-23
Also published as: CN111401078A

Abstract

本公开实施例公开了一种神经网络文本翻译模型的运行方法、装置、电子设备、及存储介质，所述神经网络文本翻译模型，包括编码器层、注意力机制层、以及解码器层，方法包括：将源语言词汇序列输入编码器层进行处理，以形成隐结构向量；控制注意力机制层生成词汇对齐表；将隐结构向量和翻译各个词汇时的上下文向量输入解码器层进行处理，以生成目标语言词汇序列；获取所述目标语言词汇序列中的未知文字，根据所述词汇对齐表确定所述未知文字对应所述源语言词汇序列中的源语言词汇；对所述源语言词汇进行翻译得到目标语言词汇；将所述目标语言词汇序列中的所述未知文字用所述目标语言词汇替换，能减少乃至完全消除翻译结果中的未知文字。

Description

神经网络文本翻译模型的运行方法、装置、设备、及介质

技术领域

本公开实施例涉及自然语言处理技术领域，具体涉及一种神经网络文本翻译模型的运行方法、装置、电子设备、及存储介质。

背景技术

传统的SMT(统计机器翻译，Statistical Machine Translation)是从平行语料库获得翻译规则的概率，根据该概率将源语言的词汇或短语转换为目标语言的词汇或短语。但是，SMT方法没有反映出距离较远短语间的联系，因此译文常欠缺通顺性。

与SMT相比，NMT(神经网络机器翻译，Neural Machine Translation)基于数值向量将源语言表示为分散表示，使用神经网络将其加以转换，根据获得的数值向量求出目标语言的词汇串，从而进行翻译，其通过利用RNN(循环神经网络，Recurrent Neural Network)和LSTM(长短记忆网络，Long Short Term Memory)或GRU(门控循环单元，Gated Recurrent Unit)，在考虑较长区间内词汇或短语彼此的联系的基础上进行翻译，因此译文通顺性显著提升。但是，翻译得到的译文还常存在未知词汇(unknown words)或无意义词汇(nonsense words)的问题。

发明内容

有鉴于此，本公开实施例提供一种神经网络文本翻译模型的运行方法、装置、电子设备、及存储介质，以减少翻译结果中的未知文字。

本公开实施例的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开实施例的实践而习得。

第一方面，本公开实施例提供了一种神经网络文本翻译模型的运行方法，所述神经网络文本翻译模型包括编码器层、注意力机制层、以及解码器层，包括：将源语言词汇序列输入所述编码器层进行处理，以形成隐结构向量；控制所述注意力机制层根据所述编码器层和所述解码器层的内部状态生成注意力信息，根据所述注意力信息生成未知文字替换用词汇对齐表，其中所述词汇对齐表没有重复词汇；将所述隐结构向量和翻译各个词汇时的上下文向量输入所述解码器层进行处理，以生成目标语言词汇序列；获取所述目标语言词汇序列中的未知文字，根据所述词汇对齐表确定所述未知文字对应所述源语言词汇序列中的源语言词汇；对所述源语言词汇进行翻译得到目标语言词汇；将所述目标语言词汇序列中的所述未知文字用所述目标语言词汇替换。

于一实施例中，根据所述注意力信息生成未知文字替换用词汇对齐表包括：

根据所述注意力信息，通过交集算法将所述源语言词汇序列与所述目标语言词汇序列中注意力最高的词汇单元建立关联，根据关联结果生成未知文字替换用词汇对齐表，其中所述词汇单元包括一个或一个以上相邻的词汇。

于一实施例中，在根据关联结果生成未知文字替换用词汇对齐表之前还包括：

通过交集算法将所述源语言词汇序列与所述目标语言词汇序列中注意力最高的词汇单元的邻接单元建立第二关联；

所述根据关联结果生成未知文字替换用词汇对齐表包括：

根据关联结果和所述第二关联结果生成未知文字替换用词汇对齐表。

于一实施例中，在根据关联结果和所述第二关联结果生成未知文字替换用词汇对齐表之后还包括：基于所述词汇对齐表，确定所述目标语言词汇序列中没有对应关系的第一目标语言词汇，根据所述注意力信息，确定注意力最高的单元与所述第一目标语言词汇建立第三关联；基于所述词汇对齐表，确定所述源语言词汇序列中没有对应关系的第一源语言词汇，根据所述注意力信息，确定注意力最高的单元与所述第一源语言词汇建立第四关联；根据关联结果、所述第二关联结果、所述第三关联结果、以及所述第四关联结果生成未知文字替换用词汇对齐表。

于一实施例中，控制所述注意力机制层根据所述编码器层和所述解码器层的内部状态生成注意力信息，根据所述注意力信息生成未知文字替换用词汇对齐表包括：控制所述注意力机制层根据所述编码器层和所述解码器层的内部状态，确定翻译所述源语言词汇序列中各个词汇时的上下文向量，以及根据翻译各个词汇时的上下文向量生成未知文字替换用词汇对齐表。

于一实施例中，控制所述注意力机制层根据所述编码器层和所述解码器层的内部状态，确定翻译所述源语言词汇序列中各个词汇时的上下文向量，以及根据翻译各个词汇时的上下文向量生成未知文字替换用词汇对齐表包括：在翻译各个词汇时，确定当前翻译的目标语言词汇序列的序号，获取翻译该词汇时应注意的位置，对所述源语言词汇序列中各词汇计算注意力概率，将所述源语言词汇序列中各词汇对应的分布表示向量乘以该词汇的注意力概率之后，确定最大值对应的词汇在所述源语言词汇序列的序号；根据翻译各个词汇时，将当前翻译的目标语言词汇序列的序号，和所确定的最大值对应的词汇在所述源语言词汇序列的序号建立关联，根据关联结果生成未知文字替换用词汇对齐表。

于一实施例中，对所述源语言词汇进行翻译得到目标语言词汇包括：采用 IBM对齐模型对所述源语言词汇进行翻译得到目标语言词汇；或者通过外部词典对所述源语言词汇进行翻译得到目标语言词汇。

第二方面，本公开实施例还提供了一种神经网络文本翻译模型的运行装置，所述神经网络文本翻译模型包括编码器层、注意力机制层、以及解码器层，包括：编码单元，用于将源语言词汇序列输入所述编码器层进行处理，以形成隐结构向量；注意力控制单元，用于控制所述注意力机制层根据所述编码器层和所述解码器层的内部状态生成注意力信息，根据所述注意力信息生成未知文字替换用词汇对齐表，其中所述词汇对齐表没有重复词汇；解码单元，将所述隐结构向量和翻译各个词汇时的上下文向量输入所述解码器层进行处理，以生成目标语言词汇序列；未知文字定位单元，用于获取所述目标语言词汇序列中的未知文字，根据所述词汇对齐表确定所述未知文字对应所述源语言词汇序列中的源语言词汇；未知文字翻译单元，用于对所述源语言词汇进行翻译得到目标语言词汇；词汇替换单元，用于将所述目标语言词汇序列中的所述未知文字用所述目标语言词汇替换。

于一实施例中，所述注意力控制单元用于：根据所述注意力信息，通过交集算法将所述源语言词汇序列与所述目标语言词汇序列中注意力最高的词汇单元建立关联，根据关联结果生成未知文字替换用词汇对齐表，其中所述词汇单元包括一个或一个以上相邻的词汇。

于一实施例中，所述注意力控制单元用于，在根据关联结果生成未知文字替换用词汇对齐表之前：通过交集算法将所述源语言词汇序列与所述目标语言词汇序列中注意力最高的词汇单元的邻接单元建立第二关联；根据关联结果和所述第二关联结果生成未知文字替换用词汇对齐表。

于一实施例中，所述注意力控制单元用于：在根据关联结果和所述第二关联结果生成未知文字替换用词汇对齐表之后，基于所述词汇对齐表，确定所述目标语言词汇序列中没有对应关系的第一目标语言词汇，根据所述注意力信息，确定注意力最高的单元与所述第一目标语言词汇建立第三关联；基于所述词汇对齐表，确定所述源语言词汇序列中没有对应关系的第一源语言词汇，根据所述注意力信息，确定注意力最高的单元与所述第一源语言词汇建立第四关联；根据关联结果、所述第二关联结果、所述第三关联结果、以及所述第四关联结果生成未知文字替换用词汇对齐表。

于一实施例中，所述注意力控制单元用于：控制所述注意力机制层根据所述编码器层和所述解码器层的内部状态，确定翻译所述源语言词汇序列中各个词汇时的上下文向量，以及根据翻译各个词汇时的上下文向量生成未知文字替换用词汇对齐表。

于一实施例中，所述注意力控制单元用于：在翻译各个词汇时，确定当前翻译的目标语言词汇序列的序号，获取翻译该词汇时应注意的位置，对所述源语言词汇序列中各词汇计算注意力概率，将所述源语言词汇序列中各词汇对应的分布表示向量乘以该词汇的注意力概率之后，确定最大值对应的词汇在所述源语言词汇序列的序号；根据翻译各个词汇时，将当前翻译的目标语言词汇序列的序号，和所确定的最大值对应的词汇在所述源语言词汇序列的序号建立关联，根据关联结果生成未知文字替换用词汇对齐表。

于一实施例中，所述未知文字翻译单元用于：采用IBM对齐模型对所述源语言词汇进行翻译得到目标语言词汇；或者通过外部词典对所述源语言词汇进行翻译得到目标语言词汇。

第三方面，本公开实施例还提供了一种电子设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序；当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面中任一项所述方法的指令。

第四方面，本公开实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面中任一项所述方法的步骤。

本公开实施例提出的技术方案的有益技术效果是：

本公开实施例通过注意力机制生成对齐词汇表，找出目标语言词汇序列中的未知文字，确定该未知文字所对应源语言词汇序列中的词汇，对该词汇进行翻译，再利用翻译的词汇替换未知文字，从而消除未知文字。具体而言，根据神经网络机器翻译生成的注意力，制作没有重复词汇的词汇对齐表，判断输出结果中的未知文字和源语言词汇序列哪个词汇对应，再将未知文字替换成适当的词汇，能减少乃至完全消除翻译结果中的未知文字。

附图说明

为了更清楚地说明本公开实施例中的技术方案，下面将对本公开实施例描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本公开实施例中的一部分实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据本公开实施例的内容和这些附图获得其他的附图。

图1是本公开实施例提供的一种神经网络文本翻译模型的运行方法的流程示意图；

图2是本公开实施例提供的另一种神经网络文本翻译模型的运行方法的流程示意图；

图3是本公开实施例提供的一种神经网络文本翻译模型的运行装置的结构示意图；

图4示出了适于用来实现本公开实施例的电子设备的结构示意图。

具体实施方式

为使本公开实施例解决的技术问题、采用的技术方案和达到的技术效果更加清楚，下面将结合附图对本公开实施例的技术方案作进一步的详细描述，显然，所描述的实施例仅仅是本公开实施例中的一部分实施例，而不是全部的实施例。基于本公开实施例中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本公开实施例保护的范围。

需要说明的是，本公开实施例中术语“系统”和“网络”在本文中常被可互换使用。本公开实施例中提到的“和/或”是指包括一个或更多个相关所列项目的任何和所有组合。本公开的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于限定特定顺序。

还需要说明是，本公开实施例中下述各个实施例可以单独执行，各个实施例之间也可以相互结合执行，本公开实施例对此不作具体限制。

本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。

下面结合附图并通过具体实施方式来进一步说明本公开实施例的技术方案。

图1示出了本公开实施例提供的一种神经网络文本翻译模型的运行方法的流程示意图，本实施例可适用于通过神经网络机器翻译模型进行文本翻译的情况，该方法可以由配置于电子设备中的神经网络文本翻译模型的运行装置来执行，所述神经网络文本翻译模型包括编码器层、注意力机制层、以及解码器层，如图1所示，本实施例所述的神经网络文本翻译模型的运行方法包括：

在步骤S110中，将源语言词汇序列输入所述编码器层进行处理，以形成隐结构向量。本步骤可通过多种方式实现，例如可通过编码器将各词汇转换(词嵌入，WordEmbedding)为分布表示(distributed representation)向量，其中包含语义。利用前向传播(forward)RNN和反向传播(backward)循环神经网络RNN，将所获得的分布表示向量组合生成隐结构向量。

具体而言，将源语言词汇序列f＝(f ₁,f ₂,……,f _J)及其分布表示(独热码，One-Hot Encoding)x＝(x ₁,x ₂,……,x _J)、目标语言词汇序列e(f ₁,f ₂,……,f _I)及其分布表示y＝(y ₁,y ₂,……,y _I)进行学习。

根据h _j＝h(x _j,h _j-1)算出第j个源语言词汇的上下文向量h _j；

在步骤S120中，控制所述注意力机制层根据所述编码器层的和所述解码器层的内部状态生成注意力信息，根据所述注意力信息生成未知文字替换用词汇对齐表，其中所述词汇对齐表没有重复词汇。

具体而言，根据

e _ij＝a(s _i-1,h _j)算出注意力概率α _ij，该注意力概率表示x _i与y _i相关联的概率；

根据

算出第i个目标语言词汇的上下文向量c _i；

根据s _i＝f(s _i-1,y _i-1,c _i)算出第i个目标语言词汇的隐结构向量s _i；

在步骤S130中，将所述隐结构向量和翻译各个词汇时的上下文向量输入所述解码器层进行处理，以生成目标语言词汇序列。

具体而言，根据p(e _i|e ₁,e ₂,······,e _i-1,x)＝g(y _i-1,s _i,c _i)算出e _i的生成概率；

根据

算出短语翻译概率p(e|f)。

在步骤S140中，获取所述目标语言词汇序列中的未知文字，根据所述词汇对齐表确定所述未知文字对应所述源语言词汇序列中的源语言词汇。

在步骤S150中，对所述源语言词汇进行翻译得到目标语言词汇。例如采用IBM对齐模型对所述源语言词汇进行翻译得到目标语言词汇。又如，通过外部词典对所述源语言词汇进行翻译得到目标语言词汇。

在步骤S160中，将所述目标语言词汇序列中的所述未知文字用所述目标语言词汇替换。

上述相关函数a()、f()、g()、h()是利用非线性函数tanh将输入变量的加权线性和进行转化的函数。例如将输入变量设为v ₁,v ₂……,v _n，将各变量的权重设为w ₁,w ₂……,w _n，将截距设为c,a(v ₁,v ₂……,v _n)＝tanh(∑ _iw _iv _i+c)。

于一实施例中，根据所述注意力信息生成未知文字替换用词汇对齐表可采用多种方法，例如可根据所述注意力信息，通过交集算法将所述源语言词汇序列与所述目标语言词汇序列中注意力最高的词汇单元建立关联，根据关联结果生成未知文字替换用词汇对齐表，其中所述词汇单元包括一个或一个以上相邻的词汇。

进一步地，在根据关联结果生成未知文字替换用词汇对齐表之前，还可通过交集算法将所述源语言词汇序列与所述目标语言词汇序列中注意力最高的词汇单元的邻接单元建立第二关联。以根据关联结果和所述第二关联结果生成未知文字替换用词汇对齐表。

更进一步地，在根据关联结果和所述第二关联结果生成未知文字替换用词汇对齐表之后，还可基于所述词汇对齐表，确定所述目标语言词汇序列中没有对应关系的第一目标语言词汇，根据所述注意力信息，确定注意力最高的单元与所述第一目标语言词汇建立第三关联；以及基于所述词汇对齐表，确定所述源语言词汇序列中没有对应关系的第一源语言词汇，根据所述注意力信息，确定注意力最高的单元与所述第一源语言词汇建立第四关联；以根据关联结果、所述第二关联结果、所述第三关联结果、以及所述第四关联结果生成未知文字替换用词汇对齐表。

于一实施例中，控制所述注意力机制层根据所述编码器层和所述解码器层的内部状态生成注意力信息，根据所述注意力信息生成未知文字替换用词汇对齐表，可控制所述注意力机制层根据所述编码器层和所述解码器层的内部状态，确定翻译所述源语言词汇序列中各个词汇时的上下文向量，以及根据翻译各个词汇时的上下文向量生成未知文字替换用词汇对齐表。

其中，控制所述注意力机制层根据所述编码器层和所述解码器层的内部状态，确定翻译所述源语言词汇序列中各个词汇时的上下文向量，以及根据翻译各个词汇时的上下文向量生成未知文字替换用词汇对齐表可执行如下操作：

在翻译各个词汇时，确定当前翻译的目标语言词汇序列的序号，获取翻译该词汇时应注意的位置，对所述源语言词汇序列中各词汇计算注意力概率，将所述源语言词汇序列中各词汇对应的分布表示向量乘以该词汇的注意力概率之后，确定最大值对应的词汇在所述源语言词汇序列的序号；根据翻译各个词汇时，将当前翻译的目标语言词汇序列的序号，和所确定的最大值对应的词汇在所述源语言词汇序列的序号建立关联，根据关联结果生成未知文字替换用词汇对齐表。

本实施例通过注意力机制生成对齐词汇表，找出目标语言词汇序列中的未知文字，确定该未知文字所对应源语言词汇序列中的词汇，对该词汇进行翻译，再利用翻译的词汇替换未知文字，从而减少翻译结果中的未知文字。

图2示出了本公开实施例提供的另一种神经网络文本翻译模型的运行方法的流程示意图，本实施例以前述实施例为基础，进行了改进优化。如图2所示，本实施例所述的神经网络文本翻译模型的运行方法包括：

在步骤S210中，基于注意力机制制作词汇对齐表。

本步骤可通过交集算法(intersection；参见Koehn et al.2003)、修正算法1及修正算法2制作未知文字替换用词汇对齐表。

如下所述，第i个目标语言词汇及第j个源语言词汇所对应的注意力概率(式中以a _ij表示)及词汇对齐表中的要素构成一个单元。

首先通过交集算法，针对源语言及目标语言，将注意力值最高的单元建立关联。根据交集算法，各单元的值b _ij可根据下式计算：

其中，b _ij为注意力值；arg _i’max a _i’j为最大值参数函数(arguments of the maxima)，用以计算注意力值最高时的i及j，从而确定该等值所对应的单元。

采用修正算法1(算法1)，提取通过交集算法获得的b _ij为1的单元的邻接单元作为备选单元，这些备选单元的初始值均为0。当某备选单元的注意力值大于其他源语言对应的注意力值时，将该单元的值设为1；另外，当某备选单元的注意力值大于其他目标语言对应的注意力值时，将该单元的值设为1。该算法是考虑到通常源语言的一个词汇对应目标语言的多个词汇时，所述多个词汇通常在目标语言中是邻接的，因此可以将已经列入词汇对齐表中的词汇的邻接词汇也列入表中。通过该修正算法1获得的词汇对齐表b' _ij是使用某种函数通过如下方式计算，该函数能够求出b _pq的上下左右的邻近单元中值取1的单元的数量。修正算法1的公式如下：

上述公式中：

neighbor(b _pq)＝b _(p-1)q+b _(p+1)q+b _p(q-1)+b _p(q+1)，该函数是计算为b _ij为1的单元的四个相邻单元中值为1的单元的数量；argmax函数同上文所述。

进一步地，采用进一步的修正算法(算法2)，基于词汇对齐表b' _ij,对于没有对应的目标语言词汇的源语言词汇，取注意力值最高的单元建立对应关系；反之，对于没有对应的源语言词汇的目标语言词汇，同样地取注意力值最高的单元建立对应关系。获得的词汇对齐表b" _ij可通过修正算法2计算，公式如下：

其中

I及J为没有对应的目标语言词汇的源语言词汇的集合及没有对应的源语言词汇的目标语言词汇的集合；argmax函数同上文所述。

在修正算法2中，目标语言词汇序列中的各词汇对应于至少一个源语言词汇序列中的词汇。换言之，通过修正算法2，目标语言词汇序列中的所有未知文字都能对应地被分配至源语言词汇序列中的词汇。

在步骤S210中，依据该词汇对齐表确定与未知文字对应的词汇，并将该未知文字替换为该词汇。

本步骤使用所制作的词汇对齐表，将与目标语言词汇序列中的未知文字e _i对应的源语言词汇序列中的词汇行f _i设为f _i＝{f _j|b _ij＝1}，确定翻译词汇行并将e _i替换为对应的词汇。翻译词汇行的确定方法可采用IBM对齐模型或导入外部词典等方式。

对平行语料库使用IBM对齐模型(参见Hashimoto et al.2016；Arthur et al.2016)，获得词汇翻译概率p(e|f)，从中选出源语言词汇序列各词汇中概率最高的词汇e _highest＝arg _emaxp(e|f _i)。

或者，采用ChangePhrase(参见Koehn et al.2003)，对平行语料库使用统计机器翻译制作短语表，参考该短语表，由语料库算出短语翻译概率

并选择短语翻译概率最高的短语e _highest＝arg _emaxP(e|f _i)，c(f)为语料库中的短语f的出现次数，c(e，f)为短语e和f同时出现的次数。

或者，也可以通过检索外部导入的词典来选择翻译词汇。

本公开实施例在使用修正算法2制作词汇对齐表的情况下，能够完全消除未知文字，同时BLEU值(参见Papineni,Roukos,Ward,and Zhu 2002)和METEOR值(Banerjee and Lavie 2005)也有所提高。进一步地，通过采用本发明的方法，并且导入更加专业的外部词典，能够进一步提高翻译准确度，对于对术语翻译要求更高的科技文献、专利文献等能够实现更好的翻译效果。另外，在语言学意义上是利用邻近词汇间存在对应关系这一特性，根据注意力机制推算对齐词汇表。然后，利用生成的对齐词汇表对于未知文字加以替换，同时发挥神经网络机器翻译的注意力机制的优点和语言学特性，从而解决未知文字问题。

本公开实施根据神经网络机器翻译生成的注意力，制作没有重复词汇的词汇对齐表，判断输出结果中的未知文字和源语言词汇序列哪个词汇对应，再将未知文字替换成适当的词汇，能减少乃至完全消除翻译结果中的未知文字。

具体地，在使用修正算法2制作单词对齐表的情况下，能够完全消除未知文字，同时BLEU值和METEOR值也有所提高。进一步地，通过采用本发明的方法，并且导入更加专业的外部词典，能够进一步提高翻译准确度，对于对术语翻译要求更高的科技文献、专利文献等能够实现更好的翻译效果。

另外，本发明在语言学意义上是利用邻近单词间存在对应关系这一特性，根据注意力机制推算对齐单词表。然后，利用生成的对齐单词表对于未知文字加以替换，同时发挥神经网络机器翻译的注意力机制的优点和语言学特性，从而解决未知文字问题。

神经网络机器翻译所采用的语料库为NIST及WMT，亦可采用其他类型的语料库。

以下内容为根据本公开实施例所述的方法，具体采用的算法对应的效果检验方法。于效果检验环境，平行语料库使用NIST及WMT，学习模型及解码器使用nematus，隐藏层数1000层，单词向量维数512，RNN使用GRU，学习算法Adam，学习率0.0001，批大小(Batch_Size)40，不添加dropout，在该环境下进行学习。使用Stanford Parser进行英文句法分析，使用KyTea进行汉语的指示标记化，IBM模型具体采用GIZA++，使用mosesdecoder提取短语表，使用EDict作为替换未知语言所使用的外部词典。

利用NIST，训练文本单词数量为1万至5万，据此计算每次增加1万个单词时翻译结果的BLEU值。

各语料库的文本量及单词量如表1所示

表1

每次增加1万个单词时翻译结果的BLEU值如表2所示。

单词量	1万	2万	3万	4万	5万
BLEU	23.02	24.11	24.45	24.89	24.73

表2

根据结果，在检验中将单词量设为4万。

关于测评指标，通常翻译准确度的测评采用BLEU(Bilingual Evaluation Understudy，双语评估替换分数)(Papineni,Roukos,Ward,and Zhu 2002)及METEOR(METEOR标准：Language specific translation evaluation for any target language)(Banerjeeand Lavie 2005)。

检验结果如下：

Baseline是在神经网络机器翻译系统nematus的预设值下进行学习获得的模型，BPE及PosUNK分别采用Sennrich et al.2016及Luong et al.2015所提出的算法，Intersection为交集算法，Dict为导入的外部词典韦氏辞典(Webster Dictionary)，也可采用其他常用词典，在单词量设为4万时，结果见下表：

NIST语料库的翻译准确度结果如表3所示。

表3

WMT语料库的翻译准确度结果如表4所示：

表4

根据上述表4的结果可知，采用IBM算法时翻译结果优于采用ChangePhrase算法。实验结果表明，采用ChangePhrase时会连续出现多个未知文字而形成短语，如果该短语无法翻译，则最终会导致多个未知文字无法翻译。而IBM算法是逐个替换单词，因此只要语料库中有该单词就能够进行替换。

同时使用gdfa-f和IBM时，能够将全部未知文字加以替换，并且其BLEU值也不逊于现有的intersection法。

现有的BPE法(Sennrich et al.2016)和PosUNK法(Luong et al.2015)虽然能够减少未知文字，但翻译质量也随之下降。

综上所述，本公开实施例的神经网络机器翻译方法是根据神经网络机器翻译生成的注意力，制作没有重复单词的单词对齐表，判断输出结果中的未知文字和源语言词汇序列哪个单词对应，再使用SMT模型将未知文字替换成适当的单词。使用gdfa-f制作单词对齐表时，能够完全消除未知文字，同时BLEU值和METEOR值也有所提高。

采用本公开实施例的方法，通过导入更加专业的外部词典，能够进一步提高翻译准确度，对于对术语翻译要求更高的科技文献、专利文献等能够产生更积极的意义。

作为上述各图所示方法的实现，本申请提供了一种神经网络文本翻译模型的运行装置的一个实施例,图3示出了本实施例提供的一种神经网络文本翻译模型的运行装置的结构示意图，该装置实施例与图1和图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。本实施例所述神经网络文本翻译模型包括编码器层、注意力机制层、以及解码器层，如图3所示，本实施例所述的神经网络文本翻译模型的运行装置包括编码单元310、注意力控制单元320、解码单元330、未知文字定位单元340、未知文字翻译单元350和词汇替换单元360。

所述编码单元310被配置为，用于将源语言词汇序列输入所述编码器层进行处理，以形成隐结构向量。

所述注意力控制单元320被配置为，用于控制所述注意力机制层根据所述编码器层和所述解码器层的内部状态生成注意力信息，根据所述注意力信息生成未知文字替换用词汇对齐表，其中所述词汇对齐表没有重复词汇。

所述解码单元330被配置为，将所述隐结构向量和翻译各个词汇时的上下文向量输入所述解码器层进行处理，以生成目标语言词汇序列。

所述未知文字定位单元340被配置为，用于获取所述目标语言词汇序列中的未知文字，根据所述词汇对齐表确定所述未知文字对应所述源语言词汇序列中的源语言词汇。

所述未知文字翻译单元350被配置为，用于对所述源语言词汇进行翻译得到目标语言词汇。

所述词汇替换单元360被配置为，用于将所述目标语言词汇序列中的所述未知文字用所述目标语言词汇替换。

根据本公开的一个或多个实施例，所述注意力控制单元320被配置为，用于根据所述注意力信息，通过交集算法将所述源语言词汇序列与所述目标语言词汇序列中注意力最高的词汇单元建立关联，根据关联结果生成未知文字替换用词汇对齐表，其中所述词汇单元包括一个或一个以上相邻的词汇。

根据本公开的一个或多个实施例，所述注意力控制单元320被配置为，用于在根据关联结果生成未知文字替换用词汇对齐表之前：通过交集算法将所述源语言词汇序列与所述目标语言词汇序列中注意力最高的词汇单元的邻接单元建立第二关联；根据关联结果和所述第二关联结果生成未知文字替换用词汇对齐表。

根据本公开的一个或多个实施例，所述注意力控制单元320被配置为，用于在根据关联结果和所述第二关联结果生成未知文字替换用词汇对齐表之后，基于所述词汇对齐表，确定所述目标语言词汇序列中没有对应关系的第一目标语言词汇，根据所述注意力信息，确定注意力最高的单元与所述第一目标语言词汇建立第三关联；基于所述词汇对齐表，确定所述源语言词汇序列中没有对应关系的第一源语言词汇，根据所述注意力信息，确定注意力最高的单元与所述第一源语言词汇建立第四关联；根据关联结果、所述第二关联结果、所述第三关联结果、以及所述第四关联结果生成未知文字替换用词汇对齐表。

根据本公开的一个或多个实施例，所述注意力控制单元320被配置为，用于控制所述注意力机制层根据所述编码器层和所述解码器层的内部状态，确定翻译所述源语言词汇序列中各个词汇时的上下文向量，以及根据翻译各个词汇时的上下文向量生成未知文字替换用词汇对齐表。

根据本公开的一个或多个实施例，所述注意力控制单元320被配置为，用于在翻译各个词汇时，确定当前翻译的目标语言词汇序列的序号，获取翻译该词汇时应注意的位置，对所述源语言词汇序列中各词汇计算注意力概率，将所述源语言词汇序列中各词汇对应的分布表示向量乘以该词汇的注意力概率之后，确定最大值对应的词汇在所述源语言词汇序列的序号；根据翻译各个词汇时，将当前翻译的目标语言词汇序列的序号，和所确定的最大值对应的词汇在所述源语言词汇序列的序号建立关联，根据关联结果生成未知文字替换用词汇对齐表。

根据本公开的一个或多个实施例，所述未知文字翻译单元350被配置为，用于采用IBM对齐模型对所述源语言词汇进行翻译得到目标语言词汇。或者用于通过外部词典对所述源语言词汇进行翻译得到目标语言词汇。

本实施例提供的神经网络文本翻译模型的运行装置可执行本公开方法实施例所提供的神经网络文本翻译模型的运行方法，具备执行方法相应的功能模块和有益效果。

下面参考图4，其示出了适于用来实现本公开实施例的电子设备400的结构示意图。本公开实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图4示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图4所示，电子设备400可以包括处理装置(例如中央处理器、图形处理器等)401，其可以根据存储在只读存储器(ROM)402中的程序或者从存储装置408加载到随机访问存储器(RAM)403中的程序而执行各种适当的动作和处理。在RAM 403中，还存储有电子设备400操作所需的各种程序和数据。处理装置401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。

通常，以下装置可以连接至I/O接口405：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置406；包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置407；包括例如磁带、硬盘等的存储装置408；以及通信装置409。通信装置409可以允许电子设备400与其他设备进行无线或有线通信以交换数据。虽然图4示出了具有各种装置的电子设备400，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

特别地，根据本公开实施例的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开实施例的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置409从网络上被下载和安装，或者从存储装置408被安装，或者从ROM402被安装。在该计算机程序被处理装置401执行时，执行本公开实施例的方法中限定的上述功能。

需要说明的是，本公开实施例上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开实施例中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开实施例中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：将源语言词汇序列输入所述编码器层进行处理，以形成隐结构向量；控制所述注意力机制层根据所述编码器层和所述解码器层的内部状态生成注意力信息，根据所述注意力信息生成未知文字替换用词汇对齐表，其中所述词汇对齐表没有重复词汇；将所述隐结构向量和翻译各个词汇时的上下文向量输入所述解码器层进行处理，以生成目标语言词汇序列；获取所述目标语言词汇序列中的未知文字，根据所述词汇对齐表确定所述未知文字对应所述源语言词汇序列中的源语言词汇；对所述源语言词汇进行翻译得到目标语言词汇；将所述目标语言词汇序列中的所述未知文字用所述目标语言词汇替换。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开实施例的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开实施例各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，单元的名称在某种情况下并不构成对该单元本身的限定，例如，第一获取单元还可以被描述为“获取至少两个网际协议地址的单元”。

以上描述仅为本公开实施例的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开实施例中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

一种神经网络文本翻译模型的运行方法，所述神经网络文本翻译模型包括编码器层、注意力机制层、以及解码器层，其特征在于，包括：

将源语言词汇序列输入所述编码器层进行处理，以形成隐结构向量；

控制所述注意力机制层根据所述编码器层和所述解码器层的内部状态生成注意力信息，根据所述注意力信息生成未知文字替换用词汇对齐表，其中所述词汇对齐表没有重复词汇；

将所述隐结构向量和翻译各个词汇时的上下文向量输入所述解码器层进行处理，以生成目标语言词汇序列；

获取所述目标语言词汇序列中的未知文字，根据所述词汇对齐表确定所述未知文字对应所述源语言词汇序列中的源语言词汇；

对所述源语言词汇进行翻译得到目标语言词汇；

将所述目标语言词汇序列中的所述未知文字用所述目标语言词汇替换。
根据权利要求1所述的神经网络文本翻译模型的运行方法，其特征在于，根据所述注意力信息生成未知文字替换用词汇对齐表包括：

根据所述注意力信息，通过交集算法将所述源语言词汇序列与所述目标语言词汇序列中注意力最高的词汇单元建立关联，根据关联结果生成未知文字替换用词汇对齐表，其中所述词汇单元包括一个或一个以上相邻的词汇。
根据权利要求2所述的神经网络文本翻译模型的运行方法，其特征在于，在根据关联结果生成未知文字替换用词汇对齐表之前还包括：

通过交集算法将所述源语言词汇序列与所述目标语言词汇序列中注意力最高的词汇单元的邻接单元建立第二关联；

所述根据关联结果生成未知文字替换用词汇对齐表包括：

根据关联结果和所述第二关联结果生成未知文字替换用词汇对齐表。
根据权利要求3所述的神经网络文本翻译模型的运行方法，其特征在于，在根据关联结果和所述第二关联结果生成未知文字替换用词汇对齐表之后还包括：

基于所述词汇对齐表，确定所述目标语言词汇序列中没有对应关系的第一目标语言词汇，根据所述注意力信息，确定注意力最高的单元与所述第一目标语言词汇建立第三关联；

基于所述词汇对齐表，确定所述源语言词汇序列中没有对应关系的第一源语言词汇，根据所述注意力信息，确定注意力最高的单元与所述第一源语言词汇建立第四关联；

根据关联结果、所述第二关联结果、所述第三关联结果、以及所述第四关联结果生成未知文字替换用词汇对齐表。
根据权利要求1所述的神经网络文本翻译模型的运行方法，其特征在于，控制所述注意力机制层根据所述编码器层和所述解码器层的内部状态生成注意力信息，根据所述注意力信息生成未知文字替换用词汇对齐表包括：

控制所述注意力机制层根据所述编码器层和所述解码器层的内部状态，确定翻译所述源语言词汇序列中各个词汇时的上下文向量，以及根据翻译各个词汇时的上下文向量生成未知文字替换用词汇对齐表。
根据权利要求5所述的神经网络文本翻译模型的运行方法，其特征在于，控制所述注意力机制层根据所述编码器层和所述解码器层的内部状态，确定翻译所述源语言词汇序列中各个词汇时的上下文向量，以及根据翻译各个词汇时的上下文向量生成未知文字替换用词汇对齐表包括：

在翻译各个词汇时，确定当前翻译的目标语言词汇序列的序号，获取翻译该词汇时应注意的位置，对所述源语言词汇序列中各词汇计算注意力概率，将所述源语言词汇序列中各词汇对应的分布表示向量乘以该词汇的注意力概率之后，确定最大值对应的词汇在所述源语言词汇序列的序号；

根据翻译各个词汇时，将当前翻译的目标语言词汇序列的序号，和所确定的最大值对应的词汇在所述源语言词汇序列的序号建立关联，根据关联结果生成未知文字替换用词汇对齐表。
根据权利要求1所述的神经网络文本翻译模型的运行方法，其特征在于，对所述源语言词汇进行翻译得到目标语言词汇包括：

采用IBM对齐模型对所述源语言词汇进行翻译得到目标语言词汇；或者

通过外部词典对所述源语言词汇进行翻译得到目标语言词汇。
一种神经网络文本翻译模型的运行装置，所述神经网络文本翻译模型包括编码器层、注意力机制层、以及解码器层，其特征在于，包括：

编码单元，用于将源语言词汇序列输入所述编码器层进行处理，以形成隐结构向量；

注意力控制单元，用于控制所述注意力机制层根据所述编码器层和所述解码器层的内部状态生成注意力信息，根据所述注意力信息生成未知文字替换用词汇对齐表，其中所述词汇对齐表没有重复词汇；

解码单元，将所述隐结构向量和翻译各个词汇时的上下文向量输入所述解码器层进行处理，以生成目标语言词汇序列；

未知文字定位单元，用于获取所述目标语言词汇序列中的未知文字，根据所述词汇对齐表确定所述未知文字对应所述源语言词汇序列中的源语言词汇；

未知文字翻译单元，用于对所述源语言词汇进行翻译得到目标语言词汇；

词汇替换单元，用于将所述目标语言词汇序列中的所述未知文字用所述目标语言词汇替换。
一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一项所述方法的指令。
一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1-7任一项所述方法的步骤。