WO2023051284A1

WO2023051284A1 - 自然语言处理的方法和产品

Info

Publication number: WO2023051284A1
Application number: PCT/CN2022/119325
Authority: WO
Inventors: 杨惠云; 陈华栋; 周浩; 李磊
Original assignee: 北京有竹居网络技术有限公司
Priority date: 2021-09-28
Filing date: 2022-09-16
Publication date: 2023-04-06
Also published as: CN113836271A; CN113836271B

Abstract

一种涉及自然语言处理的方法和产品。方法包括：基于第一语言的语料的表示，生成第一语义编码向量（201）；基于与第一语言不同的第二语言的语料的表示，生成第二语义编码向量（202）；通过混合第一语义编码向量和第二语义编码向量，生成混合语义向量（203）；以及基于混合语义向量，生成第二语言的语料的混合表示（204）。

Description

自然语言处理的方法和产品

本申请要求2021年9月28日递交的，标题为“自然语言处理的方法和产品”、申请号为202111146400.X的中国发明专利申请的优先权，其全部公开通过引用并入本文。

技术领域

本公开的各实施例涉及自然语言处理技术领域，更具体地，涉及不同语言的语义转换的方法、装置、设备、介质和程序产品。

背景技术

一些经过预训练的自然语言模型可以处理跨不同语言的语料之间的转换任务。但是，源语言和目标语言都需要是常见的语言，并且目标语言的语料依然会丢失语义信息。特别是当两种语言是跨语系的语言时，这种丢失语义信息的情况会非常明显，甚至影响到下游任务的继续执行。而且，当没有足够多的预先标注的语料作为样本数据时，根本不可能训练出对应的自然语言模型。

为了提升自然语言模型的准确性，可以使用更多的预先标注的语料来训练模型。但是，获取预先标注的语料的成本通常较高。而且，更多的训练数据也使模型变得复杂，带来的计算资源的开销也很大。类似问题也存在于其他需要执行跨语言转换任务的模型中。

发明内容

本公开的实施例提供了一种自然语言处理的方法、装置、设备、介质和程序产品。

在本公开的第一方面中，提供了一种用于自然语言处理的方法。该方法包括：基于第一语言的语料的表示，生成第一语义编码向量；基于与第一语言不同的第二语言的语料的表示，生成第二语义编码向量；通过混合第一语义编码向量和第二语义编码向量，生成混合语义向量；以及基于混合语义向量，生成第二语言的语料的混合表示。

在本公开的第二方面中，提供了一种用于训练自然语言处理模型的方法。该方法包括：获取样本数据，样本数据包括第一语言的语料的表示以及第二语言的语料的表示；获取针对第一语言的语料和第二语言的语料预先标注的样本标签；以及利用样本数据和样本标签训练自然语言处理模型。

在本公开的第三方面中，提供了一种用于自然语言处理的装置。该装置包括：第一语义向量模块，被配置为基于第一语言的语料的表示，生成第一语义编码向量；第二语义向量模块，被配置为基于与第一语言不同的第二语言的语料的表示，生成第二语义编码向量；混合语义向量模块，被配置为通过混合第一语义编码向量和第二语义编码向量，生成混合语义向量；以及混合表示模块，被配置为基于混合语义向量，生成第二语言的语料的混合表示。

在本公开的第四方面中，提供了一种用于训练自然语言处理模型的装置。该装置包括：样本数据模块，被配置为获取样本数据，样本数据包括第一语言的语料的表示以及第二语言的语料的表示；样本标签模块，被配置为获取针对第一语言的语料和第二语言的语料预先标注的样本标签；以及训练模块，被配置为利用样本数据和样本标签训练自然语言处理模型。

在本公开的第五方面中，提供了一种电子设备。该电子设备包括：存储器和处理器；其中存储器用于存储一条或多条计算机指令，其中一条或多条计算机指令被处理器执行以实现根据第一方面或者第二方面所述的方法。

在本公开的第六方面中，提供了一种计算机可读存储介质。该计算机可读存储介质上存储有一条或多条计算机指令，其中一条或多条计算机指令被处理器执行以实现根据第一方面或者第二方面所述的方法。

在本公开的第七方面中，提供了一种计算机程序产品。该计算机程序产品包括一条或多条计算机指令，其中一条或多条计算机指令被处理器执行以实现根据第一方面或者第二方面所述的方法。

提供发明内容部分是为了以简化的形式来介绍对概念的选择，它们在下文的具体实施方式中将被进一步描述。发明内容部分无意标识要求保护的主题的关键特征或主要特征，也无意限制要求保护的主题的范围。

附图说明

结合附图并参考以下具体实施方式，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中，相同或相似的附图标注表示相同或相似的元素，其中：

图1示出了根据本公开的某些实施例的自然语言处理方法的使用环境的示意图；

图2示出了根据本公开的某些实施例的自然语言处理方法的流程图；

图3示出了根据本公开的某些实施例的跨语言的语料的表示的差异的可视化示意图；

图4示出了根据本公开的某些实施例的训练自然语言处理模型的方法的流程图；

图5示出了根据本公开的某些实施例的跨语言的语料的表示的转换的准确性的可视化示意图；

图6示出了根据本公开的某些实施例的自然语言处理装置的框图；

图7示出了根据本公开的某些实施例的训练自然语言处理模型的装置的框图；以及

图8示出了其中可以实现本公开的一个或多个实施例的计算系统的框图。

在所有附图中，相同或相似参考数字表示相同或相似元素。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

在本公开中使用的术语“语言”是指语言的种类，诸如英语，汉语，法语等。在本公开中使用的术语“语料”是指呈现语言的形式，诸如以文字呈现的文本，其具有思想内容和含义，能被掌握该语言的使用者理解。语料也可以是某种性质的信息或者数据。信息或数据的类型的示例包括而不限于，语音、视频、文本、图片或者文档，等等。在本公开中使用的术语“表示”是指将语料映射为对应的向量，例如词嵌入向量，以便于计算系统处理。可以使用的将语料映射为表示的技术的示例可以是已知的word2vec技术或one hot技术，也可以使用其他方法将语料映射为与其相对应的表示，本公开对此不做限制。

在本文中使用的术语“转换”是指在任意两种类型的信息或数据之间转换。转换的示例包括而不限于，两种语言之间的翻译、语音与文本之间的转换、文本与图片之间的转换，等等。在本公开的上下文中，为讨论描述方便之目的，主要以不同语种之间的翻译过程作为转换过程的示例。通常，转换过程可以借助于相应的转换模型来实现。因此，在下文描述中有时将使用术语“模型”或“层”来指代相应的转换过程。

在本文中使用的术语“训练”或“学习”是指利用经验或者数据优化系统性能的过程。例如，机器翻译系统可以通过训练或学习过程，逐渐优化翻译性能，例如提高翻译准确性。在本公开的上下文中，为讨论方便之目的，术语“训练”或者“学习”可以互换使用。

在本文中使用的术语“自然语言处理方法/模型”是指依据与特定语种的句法、语法、词法等等相关联的先验知识建立的方法/模型，可以用于在转换过程中生成转换结果。转换结果可以包括生成目标语言的语料，也可以包括生成目标语言的语料的表示，目标语言的语料的表示可以继续被其他主体使用，继续用于其他任务，诸如分类任务，标注任务等。

在本文中使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”。其他术语的相关定义将在下文描述中给出。

发明人注意到，由于在自然语言处理模型中，通常不同语言的语料(例如，文本)会被映射为向量，经过一系列处理之后，再从向量转换为文本。因此，具有相关联(例如，相同)语义的不同语言的语料在向量上的表示的准确性，构成了语言转换后是否准确的重要因素。这种跨语言的语料的表示的准确性程度，会带来显著的语言转换性能的差异，甚至使得转换后的语料丢失语义。

在训练自然语言模型时，如果缺乏大量基于预先标注的语料的样本标签，以及缺乏大量基于源语言的样本数据，就不能训练出具有较好性能的自然语言处理模型。然而，因为对语料进行标注的工作繁琐且庞大，所以获取预先标注的语料的成本非常高。同时，标注语料也只有在使用人数多的语言上才会发生。对于大量的长尾语言(即小语种，甚至地方性语言)，没有人愿意去标注它们。因此，如何使用一种语言的标注语料，就能对应多语言的跨语言转换就变得很有意义。

即使在预训练的自然语言处理模型上，例如在已知的BERT模型中，依然存在转换后的语言的语料出现语义丢失的情况。并且也可能存在不能将源语言转换为小语种的情况。这是因为没有足够的标注语料；反之亦然。

发明人还发现，当两种语言是不同语系的语言，诸如汉藏语系与印欧语系，或者至少有一种语言是小语种语言时，具有相关联(例如，相同)语义的不同语言的语料在向量上的表示的差异可能非常大，这也影响了自然语言处理的准确性。

然而，传统的方法使用增加样本数据和样本标签的方法提高转换的准确性，其代价是诸如增加模型的复杂度导致的计算资源开销的增大，以及获取标注语料的成本的增加。

在本公开的实施例中，将通过增加具有相关联语义的不同语言的语料的在向量上的表示的准确性来提高处理性能，而不依赖于大量的标注数据。这不同于在传统的自然语言处理中通过增加训练数据来提高转换的准确性。因此，本公开的工作原理和机制上都显著不同于任何已知方法。

在本公开的一些实施例中，提供了一种用于自然语言处理的方法。该方法通过混合不同语言的语料的表示的语义编码向量来生成混合语义向量，以及基于混合语义向量生成混合表示。这使得具有相关联语义的不同语言的语料在向量上的表示的差异减小，从而提高转换的准确性和转换效率，以及降低计算资源的开销。

在下文描述中，某些实施例将参考语言翻译过程来讨论，例如，英文、中文，等等。但是应当理解，这仅仅是为了使本领域普通技术人员更好地理解本公开实施例的原理和思想，而无意以任何方式限制本公开的范围。

图1示出了根据本公开的某些实施例的自然语言处理方法的使用环境100的示意图。

如图1所示，在执行主体(诸如，计算系统)处，获取(例如，接收)基于第一语言的语料的表示101，生成第一语义编码向量103。与此并行或顺序地，执行主体获取(例如，接收)基于与第一语言不同的第二语言的语料的表示102，生成第二语义编码向量104。通过混合第一语义编码向量103和第二语义编码向量104，生成混合语义向量105。基于混合语义向量105，生成第二语言的语料的混合表示106。

可以使用任何合适的方法生成第一语义编码向量103或第二语义编码向量104。作为示例，在一些实施例中，可以使用基于BERT模型的多头(Multihead)机制来生成第一语义编码向量103或第二语义编码向量104。

作为示例，表示101被输入多头层。在该层中，输入的表示101将被压缩、编码、提取语义。生成的第一语义编码向量可以是维度更小的、具有与语料所蕴含的语义相对应的语义特征的向量，其是一种语义在向量空间上的一种抽象形式的表达，也可以被称为隐藏状态或隐藏向量。

作为示例，用同样的方式，可以生成第二语义编码向量104。

注意，虽然多头层可以基于已知的BERT模型。但是，该多头层可以通过应用本文描述的训练方法变得更适用于本文讨论的转换任务。而且，该多头层可以针对本文所讨论的转换任务而被训练。这可以使得转换更准确，这将在下文详述。

混合第一语义编码向量103和第二语义编码向量104的一个示例是，通过与第一语义编码向量103和第二语义编码向量104相关联的混合比例λ，对两者进行混合。混合时，通过调整混合比例λ的大小，可以控制对第一语言的语义与第二语言的语义的混合程度，从而生成融合了两种语言的相关联语义的混合语义向量105。

作为生成混合表示的示例，可以将混合语义向量105映射到与第二语言的语料的表示在同一空间中的混合表示106。由于混合表示106融合了第一语言的相关联的语义，因此更加的准确。如上文所述的具有相关联语义的不同语言的语料在向量上的表示的差异被缩小。

作为应用混合表示的示例，可以将混合表示106输入归一化层和输出层，生成可以与下游任务接合的合适的数据。例如对于分类任务，输出层的输出结果可以是关于分类结果和与分类结果对应的概率。对于翻译任务，输出层的输出结果可以是翻译语料。对于如何应用本公开的关于目标语言的语料的混合表示，本公开对此不做限制。

图2示出了根据本公开的某些实施例的自然语言处理方法200的流程图。为了便于表述，将以英语与汉语作为示例来描述方法200所实现的语言翻译和处理过程。但是正如上文所述，这仅仅是示例性的，无意以任何方式限制本公开的范围。本文描述的方法200的实施例同样能够用于其他任何适当语言之间的翻译和处理。

如上所述，英语的语句(例如，“Today is Sunday”)可以被转换为表示101，例如被映射为一个向量。仅作为示例，该向量例如可以是128维的向量。在框201处，基于表示101生成第一语义编码向量103。例如，第一语义编码向量103可以是维度更小的向量，诸如32维的向量。

同样地，汉语的语句“今天是星期日”也可以被转换为表示102，例如被映射为一个向量。仅作为示例，该向量例如可以是128维的向量。在框202处，基于表示102生成第二语义编码向量104。例如，第二语义编码向量104也可以是维度更小的向量，诸如32维的向量。

生成的第一语义编码向量103和第二语义编码向量104(如图1所示的103和104)，可以代表不同语言的语料在另一空间上的映射，并且该映射包括语义特征。

应该理解，一般的，框201和框202可以被并行执行，但也可以顺序地执行，本公开对此不做限制。

在框203处，通过混合第一语义编码向量103和第二语义编码向量104，生成混合语义向量105(如图1所示的105)。作为示例，可以按混合比例对第一语义编码向量103和第二语义编码向量104进行加权混合。

附加地或备选地，在一些实施例中，生成混合语义向量105的一个示例是利用混合比例λ，将第一语义编码向量103和第二语义编码向量104进行混合。同时，第一语义编码向量103和第二语义编码向量104具有相关联(例如，相同)的语义(例如，英语的语料“Today is Sunday”和汉语的语料“今天是星期日”)。

该混合语义向量105同时包括源语言的语料的语义特征以及对应的目标语言的语料的语义特征。这降低了语言转换时丢失语义的概率，并且混合语义向量在维度上也比较小，有利于计算和存储。

附加地或备选地，在一些实施例中，可以通过多头注意机制提取源语言的语料与目标语言的语料在语义上的交叉关联性，例如可以通过以下公式：

其中S代表源语言(即第一语言)；T代表目标语言(即第二语言)；h代表语义编码向量；l代表自然语言处理方法/模型所使用的层数；

代表与源语言的语料的语义相关联的目标语言的语料的表示相对应的语义编码向量；MultiHead是代表多头操作的操作符。

作为一个示例，可以使用第二语义编码向量104作为查询向量(图1中的Q)，使用第一语义编码向量103作为键向量(图1中的K)和值向量(图1中的V)，通过例如多头注意机制生成

附加地或备选地，在一些实施例中，混合过程可以通过使用以下公式而被确定：

其中，混合比例λ在0到1之间；LN是代表归一化操作的操作符。

附加地或备选地，在一些实施例中，可以基于第一语义编码向量103和第二语义编码向量104，确定与第一语言的语料和第二语言的语料之间的语义重要性相关联的权重A。基于与权重A相关联的熵，确定混合比例λ。

附加地或备选地，在一些实施例中，权重A可以通过使用以下公式而被确定：

其中，I是目标语言的词语序列的数目；J是源语言的词语序列的数目；i是目标语言的词语序列的第i个；j是源语言的词语序列的第j个；H是信息熵的操作符。

具体地，在一个实施例中，仅作为示例，可以通过以下公式确定 A进而确定A的熵：

其中，softmax是归一化指数函数的操作符；n是序列的数目；T是转置的操作符。

可以发现，通过权重A可以确定第一语言的语料和第二语言的语料在语义重要性上的关联程度。通过计算与权重A相关联的信息熵而生成混合比例λ。由于该信息熵反映了从第一语言的语料到第二语言的语料的语义丢失程度(或者可以理解为翻译质量)，所以可以利用该混合比例λ去控制混合程度。可以调整混合程度使得翻译过程到达最佳的语言转换质量。

附加地或备选地，在一些实施例中，混合比例λ可以通过使用以下公式确定：

λ＝λ ₀·σ[(H(A)+H(A ^T))W+b] (6)

其中，W、b是可以通过训练得到的参数；σ是sigmoid函数；λ ₀是混合比例λ的最大值。作为示例，λ ₀可以是0.5。

附加地或备选地，在一些实施例中，混合第一语义编码向量103和第二语义编码向量104可以包括：对第一语言的语料的表示和第二语言的语料的表示进行采样；以及混合与经采样的第一语言的语料的表示101相对应的第一语义编码向量103和与经采样的第二语言的语料的表示102相对应的第二语义编码向量104。

由于在训练自然语言处理模型时的语料和在应用自然语言处理模型时(即推理阶段)的语料不同(在本文中可以被称为暴露偏差)。为了减少这种暴露偏差带来的影响，本公开的自然语言处理方法提出了采样的方案。特别地，可以选择一部分的第二语言的语料的表示，馈送入一部分的第一语言的语料的表示，以减少这种暴露偏差。采样的数目将由概率阈值控制，如将在下文中详述的。

附加地或备选地，在一些实施例中，第二语言的语料包括从第一语言的语料到第二语言的语料的翻译语料。由于语言表达的丰富性，或者由于经标注的语料的数目不足，可以人为构造一些训练数据，使得翻译效果更好。

作为示例，将英语“Today is Sunday”翻译为汉语时，可以有很多有翻译结果。例如，“今天是周日”、“今天是星期天”、“今天是星期日”等。因此，可以将这些翻译语料也确定为第二语言的语料，使得相同语义的不同表达能够被学习。

附加地或备选地，在一些实施例中，可以将第一语言的语料的表示和第二语言的语料的表示分批处理。并且基于与一批处理量的大小的指数相关联的函数，确定概率阈值p*。并且基于概率阈值p*，调整对第一语言的语料的表示和第二语言的语料的表示的采样的数目。

作为示例，概率阈值p*可以通过与一批处理量的大小的指数相关联的逆向sigmoid衰减函数而被确定。

在框204处，可以基于混合语义向量105，生成第二语言的语料的混合表示106，如图1所示的106。作为示例，可以使用已知的线性归一化函数和解码器，将混合语义向量105映射为第二语言的语料的混合表示106。

通过本公开的方法，可以减小具有相关联语义的跨语言的语料的表示的差异。

图3示出了根据本公开的某些实施例的跨语言的语料的表示的差异的可视化示意图。

从图3可以看出，与现有技术中的方法相比，本公开的自然语言处理方法可以将英语(en)与汉语(zh)、乌尔都语(ur)、斯瓦西里语(sw)的表示的差异缩小到同心圆内。明显没有了离散的、远离圆心的异常点。

因为混合语义向量同时包括源语言的语料的语义特征以及对应的目标语言的语料的语义特征，所以具有相关联语义的跨语言的语料的表示的差异可以被减小。这可以增加语言转换的准确性。同时由于无需大量训练数据，也减少了计算资源的开销。

本公开还提出了一种训练自然语言模型的方法，上文描述的自然语言处理方法可以在该自然语言模型上运行。

图4示出了根据本公开的某些实施例的训练自然语言处理模型的方法400的流程图。

在框401处，获取样本数据。样本数据包括第一语言的语料的表示以及第二语言的语料的表示。作为示例，可以使用针对英语的从互联网上爬取的网页中的文字作为语料。

在框402处，获取针对第一语言的语料和第二语言的语料预先标注的样本标签。作为示例，可以使用针对英语和汉语的从互联网上爬取的网页中的文字作为语料。将其进行标注后确定为样本标签。

在框403处，利用样本数据和样本标签训练自然语言处理模型。作为示例，可以使用BP反向传播算法或其他已知的训练算法。对自然语言处理模型进行训练，使其学习到汉语和英语之间的关系，例如语法、句法、词法，词义，等等。

可以理解的是，一般的，框401和框402可以被并行执行，但也可以顺序地执行，本公开对此不做限制。

不同于现有技术中在对自然语言模型进行训练时，只将源语言(即，第一语言)的语料的表示确定为输入模型的训练数据，以及将目标语言(即，第二语言)的预先标注的语料确定为模型输出的样本标签。本公开的训练方法在一开始就混合了两种语言的语料的语义，使得经训练得到的自然语言模型可以更好地被用于本文所讨论的转换任务。具有相关联语义的不同语言的语料的语义特征可以被更好地学习，从而使得转换更准确。并且由于不需要以增加训练数据为代价而提高语言转换质量，所以计算资源的开销可以被减少。

附加地或备选地，在一些实施例中，训练方法还可以包括框404。

在框404处，将任务损失函数与一致性损失函数的和确定为目标损失函数，训练自然语言处理模型，其中任务损失函数与第一语言的语料的表示和第二语言的语料的表示的交叉熵相关联，一致性损失函数与第一语言的语料的表示和第二语言的语料的表示的均方误差或相对熵相关联。

作为示例，任务损失函数L可以通过以下公式确定：

其中，

任务损失函数；r是语义编码向量的均值池化；p是转换时候选的第二语言的语料的概率；MSE是均方误差；KL是相对熵。其中，公式(7)的第二项(MSE)和第三项(KL)可以同时存在，也可以只存在两项中的一项。

附加地或备选地，

可以与第一语言的语料的表示和第二语言的语料的表示的交叉熵相关联。

作为示例，

可以通过以下公式确定：

或者

其中，C是样本标签的数目；n是语料的表示的长度。

附加地或备选地，在一些实施例中，其中样本数据还可以包括：将与预先标注的第一语言的语料相对应的表示和与预先标注的第二语言的语料相对应的表示进行组合而形成的样本数据，其中第二语言的语料包括从第一语言的语料到第二语言的语料的翻译语料。

这样，在该训练方法中，输入的训练数据使得模型一开始就知道源语言与目标语言在语义上的配对关系。并且通过翻译语料使得自然语言模型学习了同一语义的更多的表达形式。并且，这样如上文所讨论的多头层也能被训练为更适用于本文讨论的转换任务。

因此，与没有翻译语料相比，这能够进一步地减小具有相关联语义的不同语言的语料的表示的差异，从而提供如本文所述的至少一个优点。

图5示出了根据本公开的某些实施例的跨语言的语料的表示的转换的准确性的可视化示意图。

从图5可以看出，与现有技术相比，根据本公开的训练方法生成的自然语言处理模型，使得不同语言的语料的同一语义的表示的形心(centroid)的分布更集中。这意味着这些语言的语料的表示的差异更小，表示更准确，从而带来如上述的优点。

如表1所示，其提供了现有技术与本公开的自然语言处理方法的执行结果的示例性比较表格，即翻译质量上的对比。其中，XLM-R、Trans-train、Filter是对比的方法，资源高表示具有使用人数多并且预先标注的语料多的语言，例如英语。资源中表示具有使用人数中等并且预先标注的语料中等的语言，例如泰语。资源低表示具有使用人数少并且预先标注的语料少的语言，例如斯瓦西里语。

资源	高	中	低	平均
XLM-R	82.4	79.7	73.7	79.2
Trans-train	84.7	83.4	79.2	82.9
Filter	85.7	84.3	80.5	83.9
本公开的方法	86.8	85.7	82.0	85.3

表1

从表1可以看出，本公开的方法提供了最高的性能得分。这表示，本公开的方法可以有效地提高翻译质量(即，跨语言的语义的转换的性能)。

图6示出了根据本公开的某些实施例的自然语言处理装置600的框图。

该装置包括第一语义向量模块601，被配置为基于第一语言的语料的表示，生成第一语义编码向量。该装置还包括第二语义向量模块602，被配置为基于与第一语言不同的第二语言的语料的表示，生成第二语义编码向量。该装置还包括混合语义向量模块603，被配置为通过混合第一语义编码向量和第二语义编码向量，生成混合语义向量。并且该装置还包括混合表示模块604，被配置为基于混合语义向量，生成第二语言的语料的混合表示。

作为示例，可以通过公式(4)确定混合过程。

附加地或备选地，生成第二语言的混合表示可以包括：基于第一语义编码向量和第二语义编码向量的混合比例，混合第一语义编码向量和第二语义编码向量，其中第一语义编码向量和第二语义编码向量具有相关联的语义。

附加地或备选地，该装置还可以包括混合比例模块605，被配置为基于第一语义编码向量和第二语义编码向量，确定与第一语言的语料和第二语言的语料之间的语义重要性相关联的权重；以及基于与权重相关联的熵，确定混合比例。

作为示例，可以通过公式(5)和公式(6)确定权重和混合比例。

附加地或备选地，混合第一语义编码向量和第二语义编码向量可以包括：对第一语言的语料的表示和第二语言的语料的表示进行采样；以及混合与经采样的第一语言的语料的表示相对应的第一语义编码向量和与经采样的第二语言的语料的表示相对应的第二语义编码向量。

附加地或备选地，第二语言的语料可以包括：从第一语言的语料到第二语言的语料的翻译语料。

附加地或备选地，该装置还可以被配置为将第一语言的语料的表示和第二语言的语料的表示分批处理，并且该装置还包括概率阈值模块606，其被配置为基于与一批处理量的大小的指数相关联的函数，确定概率阈值p*；以及基于概率阈值p*，调整对第一语言的语料的表示和第二语言的语料的表示的采样的数目。

通过本公开的装置600，可以减小具有相关联语义的不同语言的语料的表示的差异，从而达到如上述的自然语言处理方法200一样的至少一个优点。

图7示出了根据本公开的某些实施例的训练自然语言处理模型的装置700的框图。该装置包括样本数据模块701，被配置为获取样本数据，样本数据包括第一语言的语料的表示以及第二语言的语料的表示。该装置还包括样本标签模块702，被配置为获取针对第一语言的语料和第二语言的语料预先标注的样本标签。该装置还包括训练模块703，被配置为利用样本数据和样本标签训练自然语言处理模型。

附加地或备选地，该装置还可以包括损失函数模块704，其被配置为将任务损失函数与一致性损失函数的和确定为目标损失函数，训练自然语言处理模型，其中任务损失函数与第一语言的语料的表示和第二语言的语料的表示的交叉熵相关联，一致性损失函数与第一语言的语料的表示和第二语言的语料的表示的均方误差或相对熵相关联。

作为示例，可以通过如上文所述的公式(7)确定目标损失函数。可以通过如上文所述的公式(8)或公式(9)确定任务损失函数。

附加地或备选地，其中样本数据还可以包括：将与预先标注的第一语言的语料相对应的表示和与预先标注的第二语言的语料相对应的表示进行组合而形成的样本数据，其中第二语言的语料包括从第一语言的语料到第二语言的语料的翻译语料。

作为示例，将英语“Today is Sunday”翻译为汉语时，可以有很多有翻译结果。例如“今天是周日”、“今天是星期天”、“今天是星期日”等。这些都可以被确定为第二语言的语料。

可以看出，利用本公开的训练装置生成的自然语言处理模型，在一开始就混合了两种语言的语料的语义，使得经训练得到的自然语言模型可以更好地被用于本文所讨论的转换任务。具有相关联语义的不同语言的语料的语义特征可以被更好地学习，从而使得转换更准确。并且由于不需要以增加训练数据为代价而提高语言转换质量，所以计算资源的开销可以被减少。

图8示出了其中可以实现本公开的一个或多个实施例的计算系统800的框图。图2、图4所示的方法200和方法400可以由计算系统800实现。图8示出的计算系统800仅是示例，其不应当构成对本文所描述的实现的使用的功能和范围的限制。

如图8所示，计算系统800是通用计算设备的形式。计算系统800的组件可以包括但不限于一个或多个处理器或处理单元800，存储器820，一个或多个输入设备830，一个或多个输出设备840，存储装置 850，和一个或多个通信单元860。处理单元800可以是实际或虚拟处理器并且能够根据存储器820中存储的持续来执行各种处理。在多处理系统中，多处理单元执行计算机可执行指令，以增加处理能力。

计算系统800通常包括多个计算机介质。这样的介质可以是计算系统800可访问的任何可以获得的介质，包括但不限于易失性和非易失性介质、可拆卸和不可拆卸介质。存储器820可以是易失性存储器(例如寄存器、高速缓存、随机访问存储器(RAM))、非非易失性存储器(例如，只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、闪存)或它们的某种组合。存储装置850可以是可拆卸或不可拆卸，并且可以包括机器可读介质，诸如闪存驱动、磁盘或者任何其他介质，其可以能够用于存储信息并且可以在计算系统800内被访问。

计算系统800可以进一步包括另外的可拆卸/不可拆卸、易失性/非易失性计算机系统存储介质。尽管未在图8中示出，可以提供用于从可拆卸、非易失性磁盘(例如“软盘”)进行读取或写入的磁盘驱动和用于从可拆卸、非易失性光盘进行读取或写入的光盘驱动。在这些情况中，每个驱动可以由一个或多个数据介质接口被连接至总线18。存储器820可以包括至少一个程序产品，具有(例如至少一个)程序模块集合，这些程序模块被配置为执行本文所描述的各种实施例的功能。

具有一个或多个执行模块824的集合的程序/实用程序工具822可以被存储在例如存储器820中。执行模块824可以包括但不限于操作系统、一个或多个应用程序、其他程序模块和操作数据。这些示例中的每个示例或特定组合可以包括联网环境的实现。执行模块824通常执行本文所描述的主题的实施例的功能和/或方法，例如方法200。

输入单元830可以是一个或多个各种输入设备。例如，输入单元839可以包括用户设备、诸如鼠标、键盘、追踪球等。通信单元860实现在通信介质上向另外的计算实体进行通信。附加地，计算系统800的组件的功能可以以单个计算集群或多个计算机器来实现，这些计算机器能够通过通信连接来通信。因此，计算系统800可以使用与一个或多个其他服务器、网络个人计算机(PC)或者另一个一般网络节点的逻辑连接来在联网环境中进行操作。例如但不限于，通信介质包括有线或无线联网技术。

计算系统800还可以根据需要与一个或多个外部设备(未示出)进行通信，外部设备诸如存储设备、显示设备等等，与一个或多个使得用户与计算系统800交互的设备进行通信，或者与使得计算系统800与一个或多个其他计算设备通信的任何设备(例如，网卡、调制解调器等)进行通信。这样的通信可以经由输入/输出(I/O)接口(未示出)来执行。

本文中所描述的功能可以至少部分地由一个或多个硬件逻辑组件来执行。例如但不限于，可以使用的硬件逻辑组件的示意性类型包括现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑器件(CPLD)等。

用于实施本文所描述的主题的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开内容的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM 或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

此外，虽然采用特定次序描绘了各操作，但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行，或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本文所描述的主题的范围的限制。在单独的实现的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地，在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

以下列出了本公开的一些示例实现。

在第一方面的某些实施例中，提供了一种用于自然语言处理的方法。该方法包括：基于第一语言的语料的表示，生成第一语义编码向量；基于与第一语言不同的第二语言的语料的表示，生成第二语义编码向量；通过混合第一语义编码向量和第二语义编码向量，生成混合语义向量；以及基于混合语义向量，生成第二语言的语料的混合表示。

在某些实施例中，生成第二语言的混合表示包括：基于第一语义编码向量和第二语义编码向量的混合比例，混合第一语义编码向量和第二语义编码向量，其中第一语义编码向量和第二语义编码向量具有相关联的语义。

在某些实施例中，该方法还包括：基于第一语义编码向量和第二语义编码向量，确定与第一语言的语料和第二语言的语料之间的语义重要性相关联的权重；以及基于与权重相关联的熵，确定混合比例。

在某些实施例中，混合第一语义编码向量和第二语义编码向量包括：对第一语言的语料的表示和第二语言的语料的表示进行采样；以及混合与经采样的第一语言的语料的表示相对应的第一语义编码向量和与经采样的第二语言的语料的表示相对应的第二语义编码向量。

在某些实施例中，第二语言的语料包括：从第一语言的语料到第二语言的语料的翻译语料。

在某些实施例中，该方法还包括：将第一语言的语料的表示和第二语言的语料的表示分批处理；基于与一批处理量的大小的指数相关联的函数，确定概率阈值；以及基于概率阈值，调整对第一语言的语料的表示和第二语言的语料的表示的采样的数目。

在第二方面的某些实施例中，提供了一种用于训练自然语言处理模型的方法。该方法包括：获取样本数据，样本数据包括第一语言的语料的表示以及第二语言的语料的表示；获取针对第一语言的语料和第二语言的语料预先标注的样本标签；以及利用样本数据和样本标签训练自然语言处理模型。

在某些实施例中，该方法还包括：将任务损失函数与一致性损失函数的和确定为目标损失函数，训练自然语言处理模型，其中任务损失函数与第一语言的语料的表示和第二语言的语料的表示的交叉熵相关联，一致性损失函数与第一语言的语料的表示和第二语言的语料的表示的均方误差或相对熵相关联。

在某些实施例中，样本数据还包括：将与预先标注的第一语言的语料相对应的表示和与预先标注的第二语言的语料相对应的表示进行组合而形成的样本数据，其中第二语言的语料包括从第一语言的语料到第二语言的语料的翻译语料。

在第三方面的实施例中，提供了一种用于自然语言处理的装置。该装置包括：第一语义向量模块，被配置为基于第一语言的语料的表示，生成第一语义编码向量；第二语义向量模块，被配置为基于与第一语言不同的第二语言的语料的表示，生成第二语义编码向量；混合语义向量模块，被配置为通过混合第一语义编码向量和第二语义编码向量，生成混合语义向量；以及混合表示模块，被配置为基于混合语义向量，生成第二语言的语料的混合表示。

在某些实施例中，该装置还包括：混合比例模块，被配置为基于第一语义编码向量和第二语义编码向量，确定与第一语言的语料和第二语言的语料之间的语义重要性相关联的权重；以及基于与权重相关联的熵，确定混合比例。

在某些实施例中，第二语言的语料包括从第一语言的语料到第二语言的语料的翻译语料。

在某些实施例中，该装置还被配置为将第一语言的语料的表示和第二语言的语料的表示分批处理，并且装置还包括：概率阈值模块，被配置为基于与一批处理量的大小的指数相关联的函数，确定概率阈值；以及基于概率阈值，调整对第一语言的语料的表示和第二语言的语料的表示的采样的数目。

在第四方面的实施例中，提供了一种用于训练自然语言处理模型的装置。该装置包括：样本数据模块，被配置为获取样本数据，样本数据包括第一语言的语料的表示以及第二语言的语料的表示；样本标签模块，被配置为获取针对第一语言的语料和第二语言的语料预先标注的样本标签；以及训练模块，被配置为利用样本数据和样本标签训练自然语言处理模型。

在某些实施例中，该装置还包括：损失函数模块，被配置为将任务损失函数与一致性损失函数的和确定为目标损失函数，训练自然语言处理模型，其中任务损失函数与第一语言的语料的表示和第二语言的语料的表示的交叉熵相关联，一致性损失函数与第一语言的语料的表示和第二语言的语料的表示的均方误差或相对熵相关联。

在第五方面的实施例中，提供了一种电子设备。该电子设备包括：存储器和处理器；其中存储器用于存储一条或多条计算机指令，其中一条或多条计算机指令被处理器执行以实现根据第一方面或者第二方面所述的方法。

在第六方面的实施例中，提供了一种计算机可读存储介质。该计算机可读存储介质上存储有一条或多条计算机指令，其中一条或多条计算机指令被处理器执行以实现根据第一方面或者第二方面所述的方法。

在第七方面的实施例中，提供了一种计算机程序产品。该计算机程序产品包括一条或多条计算机指令，其中一条或多条计算机指令在被处理器执行时，实现根据第一方面或者第二方面所述的方法。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本公开，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

一种用于自然语言处理的方法，包括：

基于第一语言的语料的表示，生成第一语义编码向量；

基于与第一语言不同的第二语言的语料的表示，生成第二语义编码向量；

通过混合所述第一语义编码向量和所述第二语义编码向量，生成混合语义向量；以及

基于所述混合语义向量，生成所述第二语言的语料的混合表示。
根据权利要求1所述的方法，其中生成所述第二语言的混合表示包括：

基于所述第一语义编码向量和所述第二语义编码向量的混合比例，混合所述第一语义编码向量和所述第二语义编码向量，其中所述第一语义编码向量和所述第二语义编码向量具有相关联的语义。
根据权利要求2所述的方法，还包括：

基于所述第一语义编码向量和所述第二语义编码向量，确定与所述第一语言的语料和所述第二语言的语料之间的语义重要性相关联的权重；以及

基于与所述权重相关联的熵，确定所述混合比例。
根据权利要求2或3所述的方法，其中混合所述第一语义编码向量和所述第二语义编码向量包括：

对所述第一语言的语料的表示和所述第二语言的语料的表示进行采样；以及

混合与经采样的所述第一语言的语料的表示相对应的第一语义编码向量和与经采样的所述第二语言的语料的表示相对应的所述第二语义编码向量。
根据权利要求4所述的方法，其中所述第二语言的语料包括：

从所述第一语言的语料到所述第二语言的语料的翻译语料。
根据权利要求4或5所述的方法，还包括：

将所述第一语言的语料的表示和所述第二语言的语料的表示分批处理；

基于与一批处理量的大小的指数相关联的函数，确定概率阈值；以及

基于所述概率阈值，调整对所述第一语言的语料的表示和所述第二语言的语料的表示的采样的数目。
一种用于训练自然语言处理模型的方法，包括：

获取样本数据，所述样本数据包括第一语言的语料的表示以及第二语言的语料的表示；

获取针对第一语言的语料和第二语言的语料预先标注的样本标签；以及

利用所述样本数据和所述样本标签训练所述自然语言处理模型。
根据权利要求7所述的方法，所述方法还包括：

将任务损失函数与一致性损失函数的和确定为目标损失函数，训练所述自然语言处理模型，其中所述任务损失函数与所述第一语言的语料的表示和所述第二语言的语料的表示的交叉熵相关联，所述一致性损失函数与所述第一语言的语料的表示和所述第二语言的语料的表示的均方误差或相对熵相关联。
根据权利要求7或8所述的方法，其中所述样本数据还包括：

将与预先标注的所述第一语言的语料相对应的表示和与预先标注的所述第二语言的语料相对应的表示进行组合而形成的样本数据，其中所述第二语言的语料包括从所述第一语言的语料到所述第二语言的语料的翻译语料。
一种用于自然语言处理的装置，包括：

第一语义向量模块，被配置为基于第一语言的语料的表示，生成第一语义编码向量；

第二语义向量模块，被配置为基于与第一语言不同的第二语言的语料的表示，生成第二语义编码向量；

混合语义向量模块，被配置为通过混合所述第一语义编码向量和所述第二语义编码向量，生成混合语义向量；以及

混合表示模块，被配置为基于所述混合语义向量，生成所述第二语言的语料的混合表示。
根据权利要求10所述的装置，生成所述第二语言的混合表示包括：

基于所述第一语义编码向量和所述第二语义编码向量的混合比例，混合所述第一语义编码向量和所述第二语义编码向量，其中所述第一语义编码向量和所述第二语义编码向量具有相关联的语义。
根据权利要求11所述的装置，所述装置还包括：

混合比例模块，被配置为基于所述第一语义编码向量和所述第二语义编码向量，确定与所述第一语言的语料和所述第二语言的语料之间的语义重要性相关联的权重；以及

基于与所述权重相关联的熵，确定所述混合比例。
根据权利要求11或12所述的装置，其中混合所述第一语义编码向量和所述第二语义编码向量包括：

对所述第一语言的语料的表示和所述第二语言的语料的表示进行采样；以及

混合与经采样的所述第一语言的语料的表示相对应的第一语义编码向量和与经采样的所述第二语言的语料的表示相对应的所述第二语义编码向量。
根据权利要求13所述的装置，其中所述第二语言的语料包括：

从所述第一语言的语料到所述第二语言的语料的翻译语料。
根据权利要求13或14所述的装置，所述装置还被配置为将所述第一语言的语料的表示和所述第二语言的语料的表示分批处理，并且所述装置还包括：

概率阈值模块，被配置为基于与一批处理量的大小的指数相关联的函数，确定概率阈值；以及

基于所述概率阈值，调整对所述第一语言的语料的表示和所述第二语言的语料的表示的采样的数目。
一种用于训练自然语言处理模型的装置，包括：

样本数据模块，被配置为获取样本数据，所述样本数据包括第一语言的语料的表示以及第二语言的语料的表示；

样本标签模块，被配置为获取针对第一语言的语料和第二语言的语料预先标注的样本标签；以及

训练模块，被配置为利用所述样本数据和所述样本标签训练所述自然语言处理模型。
根据权利要求16所述的装置，所述装置还包括：

损失函数模块，被配置为将任务损失函数与一致性损失函数的和确定为目标损失函数，训练所述自然语言处理模型，其中所述任务损失函数与所述第一语言的语料的表示和所述第二语言的语料的表示的交叉熵相关联，所述一致性损失函数与所述第一语言的语料的表示和所述第二语言的语料的表示的均方误差或相对熵相关联。
一种电子设备，包括：

存储器和处理器；

其中所述存储器用于存储一条或多条计算机指令，其中所述一条或多条计算机指令被所述处理器执行以实现根据权利要求1至6或者权利要求7至9中任一项所述的方法。
一种计算机可读存储介质，其上存储有一条或多条计算机指令，其中所述一条或多条计算机指令被处理器执行以实现根据权利要求1至6或者权利要求7至9中任一项所述的方法。
一种计算机程序产品，包括一条或多条计算机指令，其中所述一条或多条计算机指令在被处理器执行时，实现根据权利要求1至6或者权利要求7至9中任一项所述的方法。