WO2022057116A1

WO2022057116A1 - 一种基于Transformer深度学习模型的多语种地名词根汉译方法

Info

Publication number: WO2022057116A1
Application number: PCT/CN2020/136009
Authority: WO
Inventors: 张雪英; 赵文强; 吴恪涵
Original assignee: 南京文图景信息科技有限公司
Priority date: 2020-09-15
Filing date: 2020-12-14
Publication date: 2022-03-24
Also published as: CN112084796A; JP2022552029A; CN112084796B

Abstract

一种基于Transformer模型的多语种地名汉译方法，其语种范围涵盖英语、法语和德语：基于地名语种知识库结合待汉译地名的语种特征，分辨输入待汉译地名的语种，并根据语种选取地名词根抽取规则库中相应的地名词根抽取规则来提取待汉译地名的词根；将提取到的地名词根文本通过字符嵌入模型转为字符向量；基于英语、法语和德语地名词根与对应中文地名词根翻译语料训练和微调得到的Transformer模型，输入待汉译地名词根的字符向量，获取最终词根汉译结果。上述汉译的英语、法语和德语地名词根结果均具有较好可读性，符合汉语阅读习惯，一定程度上满足多语种地名词根汉译需求，具有良好的灵活性和普适性。

Description

一种基于Transformer深度学习模型的多语种地名词根汉译方法

技术领域

本发明涉及机器翻译领域，具体涉及一种基于Transformer深度学习模型的英语、法语和德语地名词根汉译方法。

背景技术

[根据细则91更正 09.06.2021]　
地名作为不可或缺的基础地理信息和社会公共信息，是各类社会信息关联的重要桥梁，在国家和社会管理、经济发展、文化建设、国防外交等方面发挥着重要作用。经济交往过程中大量外文地名的出现急需提出一种能合理地翻译外文地名的方法。

近年来，神经机器翻译方面的研究得到迅速发展，相对于统计机器翻译而言在翻译质量上取得显著的提升。神经机器翻译通常采用编码器-解码器框架实现自然语言之间的端到端翻译，而Transformer模型是众多神经机器翻译模型中的佼佼者。Transformer模型与其他神经机器翻译模型最为显著的不同之处在于模型完全依赖注意力机制，摒弃了传统神经机器翻译模型采用的循环神经网络和卷积神经网络，这使得Transformer模型很大程度上缓解了梯度消失和梯度爆炸问题，提高了模型并行计算的能力，缩短了模型训练的时间。

目前，谷歌、微软和百度等在内的高科技公司都推出了相应的翻译产品，并且广受好评，但这些翻译产品在翻译外文地名时会出现错误使用意译和音译的问题，导致外文地名被翻译为某个形容词或特殊名词，同时还会出现中文翻译结果语序混乱的问题，翻译结果与中文使用习惯不相符。因此，如何实现能合理并高效翻译外文地名的翻译方法是目前迫切需要解决的问题。

发明内容

本发明的目的在于针对现有翻译系统在外文地名汉译过程中出现的局限和不足，提供一种基于Transformer模型的多语种地名词根汉译方法，以获得高效合理的英语、法语和德语地名的汉译结果。

本发明为解决上述问题是通过以下步骤来实现的：

步骤1：首先对原始外文地名语料和对应中文翻译语料进行预处理；

步骤2：然后基于由收集、整理的各语种地名、语言特征获取的规则所组成的地名语种规则知识库并结合外文地名的语种特征，识别输入外文地名的语种；

步骤3：根据识别出的外文地名的语种信息，从地名词根抽取库中选择与语种相对应的地名词根抽取规则，提取外文地名的词根部分，利用中文地名词根抽取规则抽取对应中文翻译中的地名词根部分；

步骤4：将外文地名和对应中文翻译的词根文本转化为字符集合，并利用独热编码与由浅层前馈神经网络构建的字符嵌入模型获取每个外文字符和中文字符相应的字符向量；

步骤5：训练和微调Transformer模型，以BLEU(Bilingual Evaluation Understudy,双语评估替补)得分为依据来调整词嵌入层输出维度、编码器层数、自注意力机制数、前馈神经网络输出维度、批处理数量、预训练次数和丢弃正则化概率七个超参数的取值，使得Transformer模型对测试集的翻译结果能取得最高的BLEU得分；

步骤6：按照步骤1、2和3提取待汉译地名的词根部分，并将提取结果转化为字符向量输入到训练、微调完毕的Transformer模型中，输出相应的词根汉译结果。

作为优选，上述预处理包括地名特殊字符剔除处理、外文地名缩写部分扩充处理和外文地名统一小写化处理和发音符号替代处理。

为实现所述地名特殊字符剔除处理、外文地名缩写部分扩充处理和外文地名统一小写化处理，需构建特殊字符库、缩写-全称映射库和发音符号替换映射库，并以上述知识库为基础，遍历地名字符串。

作为优选，本发明通过归纳总结获得英语、法语和德语地名中出现频率高且能清晰区分三种语言的单词构建基础地名语种规则知识库。

今天不，本发明基于所述基础地名语种规则知识库可结合第三方知识库中归纳的英语、法语和德语中常用人名、地名做进一步扩充，建立地名语种规则知识库辅助地名的语种识别。

上述地名词根提取包含对地名通名和地名中起到转折作用词汇的剔除，即通过构建一个地名剔除词库，将归纳整理的外文、中文地名常用通名词汇和起到转折作用的词汇储存其中，预处理后的外文、中文地名经过分词处理后，将每个分词结果通过索引与地名剔除词库对比，仅保留不能匹配的分词结果，从而获得外文、中文地名的词根。

上述步骤6中，所述将提取结果转化为字符向量是通过构建浅层前馈神经网络将由独热编码表示的地名词根字符转化为字符向量。

上述微调Transformer模型是通过控制变量的方法设置对照实验来确定词嵌入层输出维度、编码器层数、自注意力机制数、前馈神经网络输出维度、批处理数量、预训练次数和丢弃正则化概率七个超参数的局部最优取值。

通过采用固定其他超参数不变，改变上述七个超参数中某个超参数的取值，经过模型训练后评价该超参数的不同取值模型在测试集上的BLEU得分，从而判定该超参数在取值范围内的最优取值。

作为优选，上述模型训练次数不低于50000。

与现有技术相比，本发明具有以下有益技术效果：

1，本发明着重于外文地名词根与中文地名词根间的端到端翻译，通过基于知识库的方法实现外文地名和中文地名中地名词根的抽取，并通过字符嵌入模型将外文地名和中文地名的词根抽取结果进一步转化为字符集合，以特殊的字符集合形式作为Transformer模型的输入，扩充了地名序列上下文依赖，从而得到更好的地名词根翻译结果。

2，本发明归纳整理所涉及外文特征、相应语种地名特征和人名特征，将上述特征转化为相应的规则，构建地名语种规则知识库。利用构建完毕的地名语种规则知识库识别输入外文地名语种，从而减少了对于人工的依赖。

3，本发明归纳整理所涉及外文地名各项组成部分，并对各个组分进行分类，将其出现规律转化为规则，构建地名词根抽取规则库。利用构建完毕的地名词根抽取规则库抽取输入外文地名中的词根部分，从而显著提高了地名词根的翻译效率。

附图说明

图1是本发明的外文地名词根汉译方法流程图；

图2是本发明的词根字符向量获取流程图；

图3是本发明涉及的Transformer模型架构图；

图4是本发明涉及的Transformer模型中多头注意力机制计算流程图。

具体实施方式

下面结合附图对本发明的具体实施做详细的说明。基于Transformer深度学习模型的多语种地名词根汉译方法包含以下步骤：

(1)对原始外文地名语料和对应的中文翻译语料进行预处理，剔除外文地名语料中的特殊字符；剔除特殊字符的外文地名还需对缩写部分按照规则进行扩充；扩充完毕的外文地名语料还需进行小写化处理和发音符号替代处理。

1)通过建立特殊字符库结合字符串匹配的方法，剔除外文地名语料中由于编码转换、数据清洗不完全而存在的“#$./-”等特殊字符。

2)对外文地名中缩写形式，通过缩写对应规则来将地名语料存在的缩写形式转化为全称。

3)外文地名语料统一进行小写处理和发音符号替换处理，例如“New York”和“new york”，“cafe”和“café”都指向同一种地名，通过小写处理和基于发音符号替换词库的字符替换方法统一外文地名语料的格式。

(2)通过归纳总结得到的地名语种识别知识库，根据知识库中建立的单词与源语言之间的“键-值”关联来识别输入地名的语种。

(3)根据待汉译地名的语种信息，选择语种对应的地名词根提取规则和中文地名词根提取规则提取预处理后的外文地名语料和中文翻译语料中的词根，词根提取规则包括地名专名提取规则、地名通名和起到转折作用的词汇剔除规则两部分，确定输入地名中应该被剔除或被保留的部分；

(3)根据地名词根提取结果，将外文地名词根和中文地名词根转化为相应的字符集合，并构建每个外文地名词根和中文地名词根的字符向量，其对应的字符向量分别表示为V _ei,V _ci；

(4)训练和微调Transformer模型为外文地名词根汉译模型，训练语料如表1所示。模型训练所需数据由外文地名词根和对应的中文地名词根数据集按照7:2:1的比例分割为训练集、验证集和测试集而组成。训练集是模型训练时所需的数据，验证集是模型在训练固定次数后判断模型性能的数据集，可以有效地提示模型是否处于过拟合或欠拟合状态，测试集是判断模型训练是否符合要求的数据集。在Transformer模型正式训练过程中，通过改变一个参数(如，注意力机制数)，固定其他参数取值不变的方式，观察参数在不同取值下，比较模型在相同数据集上训练和测试的BLEU得分，从而判定该参数的局部最优取值。本方法对包括编码器/解码器层数、注意力机制数、词嵌入层输出维度、前馈神经网络输出维度、批处理大小、预训练次数和丢弃正则化概率在内的7个超参数进行了微调。

Transformer模型主体由编码器(Encoder)和解码器(Decoder)组成，在模型训练阶段，编码器和解码器的输入分别是外文地名字符向量和对应中文地名字符向量，而字符向量的维度是由词嵌入层输出维度控制的。字符向量在输入编码器或解码器前会先进行一步位置编码处理，为每个字符向量加上一个相同维度的矩阵M _pe，计算公式为：

EncoderInput＝V _ei(V _ci)+M _pe

接下来将关于解码器中的处理进行详细介绍，经过位置编码处理的字符向量输入编码器后，触发自注意力机制，字符向量将分别乘上矩阵W _q，W _k，W _v获得query矩阵Q，key矩阵K和value矩阵V，自注意力机制的输出Z计算公式为：

其中，d _k是字符向量的维度，而多头自注意力机制的输出则是将所有自注意力机制的输出连接在一起并乘上矩阵W _o，其中自注意力机制的数量n由注意力机制数确定，具体计算公式为：

MultiHead(Z1,Z2,…,Zn)＝Concat(Z1,Z2,…,Zn)W _o

在多头自注意力机制的输出进入前馈神经网络之前，模型对其进行了一次残差连接操作，将编码器的输入信息和多头自注意力机制的输出相结合，具体计算公式为：

Z1,Z2,…,Zn＝LayerNorm(MultiHead(Z1,Z2,…,Zn)+EncoderInput)

其中，LayerNorm是一种正则化操作，经过残差连接和正则化操作后的Z1，Z2，…，Zn作为前馈神经网络的输入，前馈神经网络输出维度则由前馈神经网络输出维度控制。前馈神经网络的输出还需要进行一次残差连接和正则化操作才能输入到下一个编码层中，在这次残差连接和正则化操作中，前馈神经网络的输出需要和第一次残差连接和正则化操作后的Z1，Z2，…，Zn相加。之后每个编码层内进行的操作都与上述操作一致，而编码层数量由编码器/解码器层数控制。

在编码器中的操作与解码器大致相同，不同之处在于解码器的输入是中文地名词根字符集合的字符向量，以及在每个解码层中相较于编码层增加了编码器-解码器注意力机制，将解码器输出的矩阵和编码层中获得的多头注意力机制输出相结合，融合了输入和输出潜在的特征。

Transformer模型构建了前馈神经网络层和softmax层对编码器的输出进行操作，其中前馈神经网络层是将编码器的输出映射为与词典维度相同的向量，而softmax层则将映射后向量转化为概率，并将最大概率对应的字符作为输出，模型的最后输出是由每个输出字符组成的。

除了与Transformer内部结构相关的超参数外，在微调过程中还考虑了批处理大小、预训练次数和丢弃正则化概率三个超参数。批处理大小决定了训练数据被划分为批数据后的数据量，预训练次数决定了正式训练前模型预训练的次数，丢弃正则化概率决定了模型训练过程中所有神经元中不更新参数神经元的占比。

如图1所示，地理模型网络服务动态组合方法主要由以下三个部分组成：

1.基于规则的地名词根抽取；

2.地名词根的字符向量表达；

3.Transformer模型的训练和微调。

以英文地名“Hazardville Fire Department”和对应的中文翻译“哈扎德维尔消防局”为例来详细描述外文地名词根汉译流程。

(1)地名源数据预处理

首先，英文地名“Hazardville Fire Department”与中文翻译“哈扎德维尔消防局”结合为地名翻译对，其次由于地名“Hazardville Fire Department”中不存在特殊字符，因此经过英文地名小写处理后转变为“hazardville fire department”。

(2)基于规则的地名词根提取

地名源数据预处理结果“hazardville fire department”与对应中文翻译“哈扎德维尔消防局”作为地名词根数据提取模块的输入，地名词根数据提取模块首先根据地名拆分规则提取出地名词根部分，在本例中，输入地名所提取到的地名词根为“hazardville”和“哈扎德维尔”。地名拆分规则是在分析英文和中文地名特性之后总结出来，其中，英文地名拆分规则会过滤掉地名前缀词、地名后缀词和地名特殊单词，如表1所示，地名前缀词主要包括方位词；地名后缀词主要包括自然环境通名，行政区划通名和兴趣点通名三大类；地名特殊单词是在地名中对语序起转折或承接作用的单词所组成的集合，而中文地名拆分规则如

表2所示会过滤掉地名前缀词和地名后缀词，中文地名前缀词和地名后缀词所包含的内容类似英文地名前缀词和地名后缀词。

表1：英文地名拆分规则

表2：中文地名拆分规则

(3)地名词根向量化

基于地名词根数据提取结果，首先将地名词根数据转化为字符集合，之后通过开源的PyTorch中word-embedding层构建的浅层神经网络将字符形式的地名数据转化为计算机能读懂的向量形式，“hazardville”经浅层神经网络向量化的流程如图2所示。

(4)训练和微调Transformer模型

Transformer模型训练和微调所需语料的具体样例如表3所示：

表3：Transformer模型训练和微调所需语料样例

英语原文	标准翻译参照
Union	尤宁
Pelham	佩勒姆
Saul	萨于勒
Donhead	唐黑德

St Mary	圣玛丽
Tuttington	塔廷顿
Mayflower	梅弗劳尔
Macclesfield	麦克尔斯菲尔德

在Transformer模型实际训练和微调过程中，以微调注意力机制数为例，严格按照控制变量法的方式，固定模型中其他参数不变，分别设置注意力机制数为8、32、128、256个，经过50000次训练后，评估各个模型在测试集上的BLEU得分，从而认为注意力机制数取256是局部最优值，具体实验结果如表4所示。

表4：其他条件不变，在不同的注意力机制数下，模型BLEU得分表

Transformer模型中包括输入维度、前馈层输出维度、编码层数和批处理数等其他6个参数的局部最优值获得方法与上述方法相同。

Transformer模型中的编码器与解码器的输入分别是英文地名字符集合与相应汉译地名字符集合的字符向量，模型具体架构如图3所示，字符向量在输入编码器和解码器前会进行一步位置编码处理，为字符集合中每个字符向量V _ci加上一个相同维度的矩阵M _pe，计算公式为：

Input＝V _ci+M _pe

经过位置编码的字符向量输入编码器和解码器后，分别乘上矩阵W _q，W _k，W _v获得query矩阵Q，key矩阵K和value矩阵V，而自注意力机制的输出Z的计算公式为：

其中，d _k是字符向量的维度，而多头自注意力机制的输出则是将所有自注意力机制的输出连接在一起并乘上矩阵W _o，计算公式为：

MultiHead(Z1,Z2,…,Zn)＝Concat(Z1,Z2,…,Zn)W _o

在多头自注意力机制的输出进入前馈神经网络之前，模型对其进行了一次残差连接操作，将编码器或解码器输入信息和多头自注意力机制的输出相结合，计算公式为：

Z1,Z2,…,Zn＝LayerNorm(MultiHead(Z1,Z2,…,Zn)+EncoderInput)

其中，LayerNorm是一种正则化操作，经过残差连接和正则化操作后的Z1，Z2，…，Zn作为前馈神经网络的输入，从而对源语言和目标语言间的潜在映射关系进行建模，前馈神经网络的输出还需要进行一次残差连接和正则化操作才能输入到下一个编码层或解码层中，在这次残差连接和正则化操作中，前馈神经网络的输出需要和第一次残差连接和正则化操作后的Z1，Z2，…，Zn相加，多头注意力机制具体计算流程如图4所示。

在解码器中操作与编码器大致相同，不同之处在于每个解码层中相较于编码层增加了编码器-解码器注意力机制，将编码器输出的矩阵和解码层中获得的多头注意力机制输出相结合，融合了输入和输出潜在的特征。

Transformer模型构建了前馈神经网络层和softmax层对解码器的输出进行操作，其中前馈神经网络层是将解码器的输出映射为与词典维度相同的向量，而softmax层则将映射后向量转化为概率，并将最大概率对应的字符作为输出，模型的最后输出是由每个输出字符组成的，结合本例，模型最后的输出为“哈扎德维尔”。

以上所述，仅为本发明中的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可想到的变换或替换，都应涵盖在本发明的包含范围之内。

Claims

一种基于Transformer深度学习模型的多语种地名词根汉译方法，其特征在于包括以下步骤：

步骤1：对原始外文地名语料和对应中文翻译语料进行预处理；

步骤2：基于由收集、整理的各语种地名、语言特征获取的规则所组成的地名语种规则知识库并结合外文地名的语种特征，识别输入外文地名的语种；

步骤3：根据识别出的外文地名的语种信息，从地名词根抽取库中选择与语种相对应的地名词根抽取规则，提取外文地名的词根部分，利用中文地名词根抽取规则抽取对应中文翻译中的地名词根部分；

步骤4：将外文地名和对应中文翻译的词根文本转化为字符集合，并利用独热编码与由浅层前馈神经网络构建的字符嵌入模型获取每个外文字符和中文字符相应的字符向量；

步骤5：训练和微调Transformer模型，以BLEU得分为依据来调整词嵌入层输出维度、编码器层数、自注意力机制数、前馈神经网络输出维度、批处理数量、预训练次数和丢弃正则化概率七个超参数的取值，使得Transformer模型对测试集的翻译结果能取得最高的BLEU得分；

步骤6：按照步骤1、2和3提取待汉译地名的词根部分，并将提取结果转化为字符向量输入到训练、微调完毕的Transformer模型中，输出相应的词根汉译结果。
根据权利要求1所述的基于Transformer深度学习模型的多语种地名词根汉译方法，其特征在于，所述预处理包括地名特殊字符剔除处理、外文地名缩写部分扩充处理和外文地名统一小写化处理和发音符号替代处理。
根据权利要求2所述的基于Transformer深度学习模型的多语种地名词根汉译方法，其特征在于，构建特殊字符库、缩写-全称映射库和发音符号替换映射库，并以上述知识库为基础，以遍历地名字符串的方式实现所述地名特殊字符剔除处理、外文地名缩写部分扩充处理和外文地名统一小写化处理。
根据权利要求1所述的基于Transformer深度学习模型的多语种地名词根汉译方法，其特征在于，通过归纳总结获得英语、法语和德语地名中出现频率高且能清晰区分三种语言的单词构建基础地名语种规则知识库。
根据权利要求4所述的基于Transformer深度学习模型的多语种地名词根汉译方法，其特征在于，基于所述基础地名语种规则知识库可结合第三方知识库中归纳的英语、法语和德语中常用人名、地名做进一步扩充，建立地名语种规则知识库辅助地名的语种识别。
根据权利要求1所述的基于Transformer深度学习模型的多语种地名词根汉译方法，其特征在于，所述地名词根提取包含对地名通名和地名中起到转折作用词汇的剔除，即通过构建一个地名剔除词库，将归纳整理的外文、中文地名常用通名词汇和起到转折作用的词汇储存其中，预处理后的外文、中文地名经过分词处理后，将每个分词结果通过索引与地名剔除词库对比，仅保留不能匹配的分词结果，从而获得外文、中文地名的词根。
根据权利要求1所述的基于Transformer深度学习模型的多语种地名词根汉译方法，其特征在于，步骤6中所述将提取结果转化为字符向量是通过构建浅层前馈神经网络将由独热编码表示的地名词根字符转化为字符向量。
根据权利要求1所述的基于Transformer深度学习模型的多语种地名词根汉译方法，其特征在于所述微调Transformer模型是通过控制变量的方法设置对照实验来确定词嵌入层输出维度、编码器层数、自注意力机制数、前馈神经网络输出维度、批处理数量、预训练次数和丢弃正则化概率七个超参数的局部最优取值。
根据权利要求8所述的基于Transformer深度学习模型的多语种地名词根汉译方法，其特征在于通过采用固定其他超参数不变，改变上述七个超参数中某个超参数的取值，经过模型训练后评价该超参数的不同取值模型在测试集上的BLEU得分，从而判定该超参数在取值范围内的最优取值。
根据权利要求9所述的基于Transformer深度学习模型的多语种地名词根汉译方法，其特征在于所述模型训练次数不低于50000。