WO2019113783A1

WO2019113783A1 - 一种机器翻译数字泛化方法及系统、计算机、计算机程序

Info

Publication number: WO2019113783A1
Application number: PCT/CN2017/115691
Authority: WO
Inventors: 贝超; 程国艮
Original assignee: 中译语通科技股份有限公司
Priority date: 2017-12-11
Filing date: 2017-12-12
Publication date: 2019-06-20
Also published as: US10929619B2; CN107967263A; US20200302125A1

Abstract

一种机器翻译数字泛化方法及系统、计算机、计算机程序，属于计算机软件技术领域，所述方法包括以下步骤：用于对训练语料进行特殊的处理，在不改变神经网络模型结构的情况下进行正常训练的训练阶段；把翻译得到的译文中的泛化标签替换为正常的译文的翻译阶段。所述方法只是改变了预处理以及后处理即可应用泛化技术，拓展了泛化技术在神经网络机器翻译中的应用，更好地适应了新的机器翻译模型结构，既可以更为准确地翻译含有数字的词或者短语，又可以把词表中的数字替换为泛化标签，降低了词表大小，提高了神经网络模型训练效率。

Description

一种机器翻译数字泛化方法及系统、计算机、计算机程序

技术领域

本发明属于计算机软件技术领域，尤其涉及一种机器翻译数字泛化方法及系统、计算机、计算机程序。

背景技术

机器翻译是一种利用机器学习的技术将一种自然语言翻译成另外一种自然语言的过程。作为计算语言学的一个重要分支，涉及认知科学、语言学等学科，是人工智能的终极目标之一。不同于基于短语的统计机器翻译，现有机器翻译主要是基于注意力机制的编码到解码结构的神经网络机器翻译。神经网络机器翻译的缺点为对内容难以控制，很难再对模型的输出进行人为的调控。其中最为明显的问题就在于，数字翻译错误，即原文与译文的数字不一致或者漏译多译。然而，很难在模型中控制对于数字翻译问题，对于译文，也很难进行后处理来弥补错误。因此，要避免这简单的数字翻译问题，进一步提高翻译质量，是个急需解决但不好解决的问题。数字泛化技术在神经网络机器翻译中，既无法指定标签不翻译，也不能指定替换为原文，这是由神经网络模型的可控程度差导致的。

综上所述，现有技术存在的问题是：目前的神经网络模型存在内容难以控制，很难再对模型的输出进行人为的调控，原文与译文的数字不一致或者漏译多译的问题。

发明内容

针对现有技术存在的问题，本发明提供了一种机器翻译数字泛化方法及系统、计算机、计算机程序。

本发明是这样实现的，一种机器翻译数字泛化方法，所述机器翻译数字泛化方法包括：对训练语料进行特殊的处理，在不改变神经网络模型结构的情况下进行正常训练的训练阶段；把翻译得到的译文中的泛化标签替换为正常的译文的翻译阶段；

进一步，所述训练阶段包括：

(1)对语料使用基于隐马尔科夫模型的分词算法，正常的分词，根据不同的语言使用正则表达式找到含有数字的词或者短语；

(2)词对齐，统计双语语料中共现词对频率，找到含有数字的词或者短语所对应的翻译，并替换为数字标签；

(3)已经替换为数字泛化标签的语料正常训练。

进一步，所述翻译阶段具体包括：

(1)对原文分词找到含有数字的词或者短语，替换为数字泛化标签；

(2)泛化后的语料训练的神经网络模型，对已泛化处理的原文进行翻译；

(3)得到译文后，通过神经网络模型中的注意力信息，找到译文中数字泛化标签所对应的原文，根据训练阶段使用词对齐工具得到的词对信息，把数字泛化标签替换为译文，得到最后的译文。

本发明的另一目的在于提供一种所述机器翻译数字泛化方法的机器翻译数字泛化系统，所述机器翻译数字泛化系统包括：

训练模块，用于对训练语料进行特殊的处理；

翻译模块，用于把翻译得到的译文中的泛化标签替换为正常的译文。

所述训练模块进一步包括：

第一找词单元，用于找到含有数字的词或者短语；

第一替换单元，用于将含有数字的词或者短语的平行语料可为翻译阶段提供替换的译文；

训练单元，用于替换数字泛化标签的语料正常训练。

所述翻译模块进一步包括：

第二找词单元，用于对原文进行类似训练语料的处理，替换其中含有数字的词或者短语为泛化标签，与训练语料的格式一致；

第二替换单元，用于对已泛化处理的原文进行翻译；

替换译文单元，用于替换译文中的数字泛化标签，得到正常的译文。

本发明的另一目的在于提供一种实现所述机器翻译数字泛化方法的计算机程序。

本发明的另一目的在于提供一种搭载有所述计算机程序的计算机。

本发明的另一目的在于提供一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行所述的机器翻译数字泛化方法。

本发明拓展了泛化技术在神经网络机器翻译中的应用，基于短语的统计机器翻译中，可直接干预模型，而神经网络模型却无法使用相同的策略。针对神经网络模型较难人为干预的情况，在不改变神经网络机器翻译模型的前提下，只是改变了预处理以及后处理即可应用泛化技术，拓展了泛化技术在神经网络机器翻译中的应用，更好地适应了新的机器翻译模型结构。既可以更为准确地翻译含有数字的词或者短语，又可以把词表中的数字替换为泛化标签，降低了词表大小，提高了神经网络模型训练效率。

附图说明

图1是本发明实施例提供的机器翻译数字泛化方法流程图。

图2是本发明实施例提供的机器翻译数字泛化系统结构示意图；

图中：1、训练模块；1-1、第一找词单元；1-2、第一替换单元；1-3、训练单元；2、翻译模块；2-1、第二找词单元；2-2、第二替换单元；2-3、替换译文单元。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明的数字泛化可以简单却有效地缓解这样的问题，既可更为准确地翻译数字的词或者短语，也可以减少词表大小，使得词表中的数字均替换为泛化标签，提高了训练的效率。

下面结合附图对本发明的应用原理作详细的描述。

如图1所示，本发明实施例提供的机器翻译数字泛化方法包括以下步骤：

S101：训练阶段，分词后找词；对齐并替换为标签；正常训练；

S102：翻译阶段，找词；替换标签为标签并翻译；把标签替换回译文。

如图2所示，本发明实施例提供的机器翻译数字泛化系统包括：

训练模块1，用于对训练语料进行特殊的处理；

翻译模块2，用于把翻译得到的译文中的泛化标签替换为正常的译文。

训练模块1进一步包括：

第一找词单元1-1，用于找到含有数字的词或者短语。

第一替换单元1-2，用于将含有数字的词或者短语的平行语料可为翻译阶段提供替换的译文。

训练单元1-3，用于替换数字泛化标签的语料正常训练。

翻译模块2进一步包括：

第二找词单元2-1，用于对原文进行类似训练语料的处理，替换其中含有数字的词或者短语为泛化标签，与训练语料的格式一致。

第二替换单元2-2，用于对已泛化处理的原文进行翻译。

替换译文单元2-3，用于替换译文中的数字泛化标签，得到正常的译文。

下面结合具体实施例对本发明的应用原理作进一步的描述。

本发明实施例提供的机器翻译数字泛化方法包括以下步骤：

对训练语料进行特殊的处理，在不改变神经网络模型结构的情况下进行正常训练的训练阶段；

把翻译得到的译文中的泛化标签替换为正常的译文的翻译阶段；

所述训练阶段包括：首先进行分词后找词；其次对齐并替换为标签；最后，正常训练；

所述翻译阶段包括：首先进行分词后找词；然后替换标签为标签并翻译；最后把标签替换回译文。

进一步，所述训练阶段具体包括：

首先，对语料使用基于隐马尔科夫模型的分词算法，进行正常的分词，并且根据不同的语言特点，使用正则表达式找到含有数字的词或者短语；这一步主要是找到含有数字的词或者短语，为后一步的词对齐做准备。

然后使用对齐工具进行词对齐，统计双语语料中共现词对频率，找到含有数字的词或者短语所对应的翻译，并替换为数字标签；其中，含有数字的词或者短语的平行语料可为翻译阶段提供替换的译文。

最后使用已经替换为数字泛化标签的语料进行正常训练。

进一步，所述翻译阶段具体包括：

首先对原文进行分词并使用正则表达式找到含有数字的词或者短语，替换为数字泛化标签；这一步与训练阶段的第一步是类似的，同样对原文进行类似训练语料的处理，替换其中含有数字的词或者短语为泛化标签，做到与训练语料的格式一致。

使用由泛化后的语料训练的神经网络模型，对已泛化处理的原文进行翻译；

得到译文后，通过神经网络模型中的注意力信息，找到译文中数字泛化标签所对应的原文，再根据训练阶段使用词对齐工具得到的词对信息，把数字泛化标签替换为译文，即可得到最后的译文。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现，所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

一种机器翻译数字泛化方法，其特征在于，所述机器翻译数字泛化方法包括：对训练语料进行特殊的处理，在不改变神经网络模型结构的情况下进行正常训练的训练阶段；把翻译得到的译文中的泛化标签替换为正常的译文的翻译阶段。
如权利要求1所述的机器翻译数字泛化方法，其特征在于，所述训练阶段包括：

(1)对语料使用基于隐马尔科夫模型的分词算法，正常的分词，根据不同的语言使用正则表达式找到含有数字的词或者短语；

(2)词对齐，统计双语语料中共现词对频率，找到含有数字的词或者短语所对应的翻译，并替换为数字标签；

(3)已经替换为数字泛化标签的语料正常训练。
如权利要求1所述的机器翻译数字泛化方法，其特征在于，所述翻译阶段具体包括：

(1)对原文分词找到含有数字的词或者短语，替换为数字泛化标签；

(2)泛化后的语料训练的神经网络模型，对已泛化处理的原文进行翻译；

(3)得到译文后，通过神经网络模型中的注意力信息，找到译文中数字泛化标签所对应的原文，根据训练阶段使用词对齐工具得到的词对信息，把数字泛化标签替换为译文，得到最后的译文。
一种如权利要求1所述机器翻译数字泛化方法的机器翻译数字泛化系统，其特征在于，所述机器翻译数字泛化系统包括：

训练模块，用于对训练语料进行特殊的处理；

翻译模块，用于把翻译得到的译文中的泛化标签替换为正常的译文。
如权利要求4所述的机器翻译数字泛化系统，其特征在于，所述训练模块进一步包括：

第一找词单元，用于找到含有数字的词或者短语；

第一替换单元，用于将含有数字的词或者短语的平行语料可为翻译阶段提供替换的译文；

训练单元，用于替换数字泛化标签的语料正常训练。
如权利要求4所述的机器翻译数字泛化系统，其特征在于，所述翻译模块进一步包括：

第二找词单元，用于对原文进行类似训练语料的处理，替换其中含有数字的词或者短语为泛化标签，与训练语料的格式一致；

第二替换单元，用于对已泛化处理的原文进行翻译；

替换译文单元，用于替换译文中的数字泛化标签，得到正常的译文。
一种实现权利要求1～3任意一项所述机器翻译数字泛化方法的计算机程序。
一种搭载有权利要求7所述计算机程序的计算机。
一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1～3任意一项所述的机器翻译数字泛化方法。