WO2023030105A1

WO2023030105A1 - 训练自然语言处理模型和自然语言处理的方法、电子设备

Info

Publication number: WO2023030105A1
Application number: PCT/CN2022/114369
Authority: WO
Inventors: 王炳乾
Original assignee: 京东方科技集团股份有限公司
Priority date: 2021-08-30
Filing date: 2022-08-24
Publication date: 2023-03-09
Also published as: US20240185840A1; CN113626563A

Abstract

本公开涉及一种训练自然语言处理模型和自然语言处理的方法、电子设备。训练自然语言处理模型的方法包括：获取训练用的语料数据；利用自然语言处理模型，对所述语料数据进行处理，得到输出信息，所述自然语言处理模型包括第一模型和第二模型，其中，所述第一模型用于对所述语料数据的拼音数据进行纠错，所述第二模型用于对纠错后的所述语料数据的拼音数据进行文字转换；根据所述自然语言处理模型的输出信息，训练所述自然语言处理模型，得到训练后的自然语言处理模型。

Description

训练自然语言处理模型和自然语言处理的方法、电子设备

相关申请的交叉引用

本申请是以中国申请号为202111008140.X，申请日为2021年8月30日的申请为基础，并主张其优先权，该中国申请的公开内容在此作为整体引入本申请中。

技术领域

本公开涉及自然语言处理技术领域，特别涉及一种训练自然语言处理模型和自然语言处理的方法、电子设备，以及计算机可读存储介质。

背景技术

自然语言处理(NLP，Natural Language Processing)是计算机科学领域与人工智能领域中的一个重要方向。自然语言处理研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。例如，利用自然语言处理技术可以对各种语料数据，例如语音数据、文本数据，进行处理。

随着人工智能(AI)算法以及AI芯片等硬件技术的发展，智能设备已经在日常生活中被广泛应用，如智能家居语音控制系统、智能音箱、智能会议系统会议记录生成等。

然而，在语音交互过程中，说话人的口音、环境噪音、或者语句内容本身的同音多词等因素，会造成语音识别错误。并且，语音识别错误会逐级传递放大，并累积至后续链路，最终造成下游任务的失败。因此，对声学模型的识别结果进行矫正就显得尤为重要。

发明内容

根据本公开的一些实施例，提出了一种训练自然语言处理模型的方法，包括：

获取训练用的语料数据；

利用自然语言处理模型，对所述语料数据进行处理，得到输出信息，其中，所述自然语言处理模型包括第一模型和第二模型，所述第一模型用于对所述语料数据的拼音数据进行纠错，所述第二模型用于对纠错后的所述语料数据的拼音数据进行文字转换；

根据所述自然语言处理模型的输出信息，训练所述自然语言处理模型，得到训练后的自然语言处理模型。

在一些实施例中，根据所述自然语言处理模型的输出信息，训练所述自然语言处理模型，得到训练后的自然语言处理模型包括：

利用所述第一模型的模型预测值与真实标签值之间的差异，计算第一损失函数；

利用所述第二模型的模型预测值与真实标签值之间的差异，计算第二损失函数；

根据所述第一损失函数和所述第二损失函数，训练所述自然语言处理模型。

在一些实施例中，利用自然语言处理模型，对所述语料数据进行处理，得到输出信息包括：

将所述语料数据转换成拼音数据；

针对所述语料数据的拼音数据，构建相似拼音集合；

对所述语料数据的拼音数据进行嵌入编码处理，得到嵌入向量数据；

利用所述第一模型，对所述嵌入向量数据进行处理，得到拼音纠错后的数据；

利用所述第二模型，对拼音纠错后的数据进行拼音到文字的转换。

在一些实施例中，对所述语料数据的拼音数据进行嵌入编码处理，得到嵌入向量数据包括：

对所述语料数据的拼音数据中的至少一个拼音进行随机掩蔽处理，得到随机掩蔽后的拼音数据；

对所述随机掩蔽后的拼音数据进行嵌入编码处理，得到嵌入向量数据。

在一些实施例中，对所述语料数据的拼音数据进行随机掩蔽包括：

随机确定要掩蔽的至少一个拼音；

对所述至少一个拼音进行随机掩蔽处理。

在一些实施例中，对所述至少一个拼音进行随机掩蔽处理包括：

所述至少一个拼音以第一概率被遮盖、以第二概率被替换为相似拼音、以第三概率被改变声调。

针对被随机掩蔽处理的所述至少一个拼音，利用所述第一模型的模型预测值与真实标签值之间的差异，计算第一损失函数；

针对所述语料数据的拼音数据，利用所述第二模型的模型预测值与真实标签值之间的差异，计算第二损失函数；

根据所述第一损失函数和所述第二损失函数的加权和，训练所述自然语言处理模型。

在一些实施例中，计算第一损失函数包括根据基于所述语料数据的拼音数据构建的原始数据字典的大小，利用交叉商损失函数计算所述第一损失函数；计算第二损失函数包括根据基于所述语料数据构建的目标数据字典的大小，利用交叉商损失函数计算所述计算第二损失函数。

在一些实施例中，所述第一模型包括N1个编码模块，所述第二模型包括N2个编码模块，所述第二模型除了包括所述第一模型的N1个编码模块外还包括额外的编码模块，其中N1、N2为大于1的正整数，N2>N1，N1个编码模块为串联关系，N2个编码模块为串联关系。

在一些实施例中，所述第一模型还包括第一全连接层和第一激活函数层，所述第二模型还包括第二全连接层和第二激活函数层。

在一些实施例中，针对所述语料数据的拼音数据，构建相似拼音集合包括：基于模糊音对应关系和编辑距离，构建相似拼音集合。

在一些实施例中，对所述随机掩蔽后的拼音数据进行嵌入编码处理，得到嵌入向量数据包括：

对所述随机掩蔽后的拼音数据进行嵌入编码处理，得到第一嵌入矩阵和第二嵌入矩阵；

根据第一嵌入矩阵和第二嵌入矩阵，确定所述嵌入向量数据。

在一些实施例中，所述第一嵌入矩阵为字嵌入矩阵，所述第二嵌入矩阵为位置嵌入矩阵，所述嵌入向量数据与第一嵌入矩阵和第二嵌入矩阵线性相关。

在一些实施例中，所述第一嵌入矩阵和所述第二嵌入矩阵中的元素值为所述自然语言处理模型的训练参数。

根据本公开的另一些实施例，提出了一种自然语言处理的方法，包括：

获取待处理的语料数据；

利用自然语言处理模型，对所述语料数据进行处理，得到输出信息，其中，所述自然语言处理模型包括第一模型和第二模型，所述第一模型用于对所述语料数据的拼音数据进行纠错，所述第二模型用于对纠错后的所述语料数据的拼音数据进行文字转换。

根据本公开的又一些实施例，提出了一种自然语言处理的方法，包括：

利用前述任一实施例所述的方法，训练自然语言处理模型，得到训练后的自然语言处理模型；

利用训练后的自然语言处理模型，对待处理的语料数据进行处理。

根据本公开的一些实施例，提出了一种语音识别的方法，包括：

获取待识别的语音；

将待识别的语音转换成拼音数据；

利用自然语言处理模型，对所述拼音数据进行纠错，并根据纠错后的拼音数据识别出对应的文字，其中，所述自然语言处理模型包括第一模型和第二模型，所述第一模型用于对所述拼音数据进行纠错，所述第二模型用于对纠错后的拼音数据进行文字转换；

输出识别出的文字。

根据本公开的另一些实施例，提出了一种文字输入的方法，包括：

获取待处理的拼音数据；

利用自然语言处理模型，对所述拼音数据进行纠错，并将纠错后的拼音数据转换成文字，其中，所述自然语言处理模型包括第一模型和第二模型，所述第一模型用于对所述拼音数据进行纠错，所述第二模型用于对纠错后的拼音数据进行文字转换；

输入转换得到的文字。

在一些实施例中，所述方法还包括：利用前述任意实施例所述的方法，训练所述自然语言处理模型。

在一些实施例中，所述方法还包括：输出纠错后的拼音数据。

根据本公开的一些实施例，提出了一种电子设备，包括：存储器；以及耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器的指令，执行本公开任意一些实施例所述的方法。

根据本公开的另一些实施例，提出了一种计算机可存储介质，其上存储有计算机程序指令，该指令被处理器执行时实现本公开任意一些实施例所述的方法。

通过以下参照附图对本公开的示例性实施例的详细描述，本公开的其它特征及其优点将会变得清楚。

附图说明

构成说明书的一部分的附图描述了本公开的实施例，并且连同说明书一起用于解释本公开的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本公开，其中：

图1是示出根据本公开一些实施例的训练自然语言处理模型的方法的流程图；

图2是示出根据本公开一些实施例的自然语言处理模型的示意图；

图3是示出根据本公开一些实施例的利用自然语言处理模型对语料数据进行处理的流程图；

图4是示出根据本公开一些实施例的根据所述自然语言处理模型的输出信息训练所述自然语言处理模型的流程图；

图5是示出根据本公开另一些实施例的自然语言处理模型的示意图；

图6是示出根据本公开一些实施例的自然语言处理的方法的流程图；

图6A是示出根据本公开一些实施例的语音识别的方法的流程图；

图6B是示出根据本公开一些实施例的文字输入的方法的流程图；

图7是示出根据本公开一个实施例的电子设备的框图；

图8是示出用于实现本公开一些实施例的计算机系统的框图。

应当明白，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。此外，相同或类似的参考标号表示相同或类似的构件。

具体实施方式

现在将参照附图来详细描述本公开的各种示例性实施例。对示例性实施例的描述仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。本公开可以以许多不同的形式实现，不限于这里所述的实施例。提供这些实施例是为了使本公开透彻且完整，并且向本领域技术人员充分表达本公开的范围。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置应被解释为仅仅是示例性的，而不是作为限制。

本公开使用的所有术语(包括技术术语或者科学术语)与本公开所属领域的普通技术人员理解的含义相同，除非另外特别定义。还应当理解，在诸如通用字典中定义的术语应当被解释为具有与它们在相关技术的上下文中的含义相一致的含义，而不应用理想化或极度形式化的意义来解释，除非这里明确地这样定义。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

语音识别大致可分为五个阶段：预处理、声学特征提取、声学模型训练、语言模型训练和解码。其中，声学模型和语言模型为语音识别系统的模型的两个核心模块，分别对应于语音到音节概率的计算和音节到字概率的计算。

声学模型可以由大量已经标注文本的音频的提取特征之后，通过深度神经网络(DNN，Deep Neural Networks)等方法训练得到。声学模型的优化依赖大量领域相关、内容丰富、标注准确的音频。

声学模型的识别结果直接影响语言模型的输出，从而影响最终结果的精度。因此，对声学模型的识别结果进行矫正就显得尤为重要。

发明人已知的矫正方法都是对自动语音识别(ASR)识别得到的文本进行矫正，例如利用N元文法模型(N-Gram)模型对ASR识别结果的文本成句概率进行筛选，以提高ASR识别结果的准确性，又例如针对ASR识别后的文本基于混淆集和候选词库进行纠错。而基于ASR识别后的文本进行处理，都需要额外的工作，且不具便携性。

针对上述技术问题，本公开提出一种可以用于ASR的集拼音纠错与拼音转文本于一体的语言模型。

本公开可有效提高基于ASR识别的准确率，在其他拼音到文字的转换场景中的应用也可提高转换的准确率。另外，本公开可直接利用训练ASR声学模型的语料数据集构建所需的训练语料，而不需要额外的人工标注数据集，具有更好的通用性。

图1是示出根据本公开一些实施例的训练自然语言处理模型的方法的流程图。

如图1所示，训练自然语言处理模型的方法包括：步骤S1，获取训练用的语料数据；步骤S3，利用自然语言处理模型，对语料数据进行处理，得到输出信息；和步骤S5，根据所述自然语言处理模型的输出信息，训练所述自然语言处理模型，得到训练后的自然语言处理模型。

在步骤S1，训练用的语料数据可以通过对ASR训练语料的标注文本进行处理得到。在一些实施例中，将ASR训练语料的标注文本作为模型预测结果的真实标签值(也可称为目标数据)；基于例如pypinyin处理包将标注文本转换成相应的拼音，作为模型的输入(也可称为原始数据)。例如，标注文本为“请将空调的温度调到20度”，其转换后的拼音为“qing3 jiang1 kong1 tiao2 de1 wen1 du4 tiao2 dao4 er2 shi1 du4”，其中阿拉伯数字表示声调。应当理解，这里的拼音不限于汉语拼音，例如也可以是表示日语发音的罗马音。相应地，标注文本也不限于中文汉字，例如也可以是日语中的假名或汉字。

在步骤S3，所述自然语言处理模型包括第一模型和第二模型。所述第一模型用于对所述语料数据的拼音数据进行纠错。所述第二模型用于对纠错后的所述语料数据的拼音数据进行文字转换。

在一些实施例中，所述第一模型包括N1个编码模块，所述第二模型包括N2个编码模块，其中N1、N2为大于1的正整数，N1个编码模块为串联关系，N2个编码模块为串联关系。所述第二模型除了包括所述第一模型的N1个编码模块外，还包括额外的编码模块，即N2>N1。

编码模块例如采用Transformer模型的编码模块。下面结合图2具体描述根据本公开一些实施例的自然语言处理模型的结构。

如图2所示，第一模型包括transformer0、transformer1……transformer5共6个编码模块，用于对输入的语料数据的拼音数据“sou3 ji1 mei2 dian4 le5”进行纠错，得到纠错后的拼音数据“shou3 ji1 mei2 dian4 le5”。第二模型包括除了包括第一模型的6个编码模块外，还包括transformer7、transformer8……transformer11共6个编码模块，即第二模块包括12个编码模块，用于对纠错后的拼音数据进行文字转换，得到输出信息“手机没电了”。

上述实施例中，使用前6层网络，对输入端的错误进行纠正；使用全部12层的网络，进行拼音到文本的映射转换。当然，网络的具体层数可以根据实际需要进行调整。

下面进一步结合图3详细描述如何利用自然语言处理模型，对语料数据进行处理。

如图3所示，利用自然语言处理模型，对语料数据进行处理，得到输出信息包括：步骤S31，将所述语料数据转换成拼音数据；步骤S32，针对所述语料数据的拼音数据，构建相似拼音集合；步骤S33，对所述语料数据的拼音数据进行嵌入编码处理，得到嵌入向量数据；步骤S34，利用所述第一模型，对所述嵌入向量数据进行处理，得到拼音纠错后的数据；步骤S35，利用所述第二模型，对拼音纠错后的数据进行拼音到文字的转换。

在步骤S31，如前所述，可以利用例如pypinyin处理包将训练用的语料数据，即标注文本，转换成相应的拼音数据。

在步骤S32，可以利用例如模糊音算法，为拼音数据构建相似拼音集合。

模糊音对应关系可以包括声母模糊音对应关系和韵母模糊音对应关系。例如，声母模糊音对应关系包括s<-->sh，c<-->ch，z<-->zh，l<-->n，f<-->h，r<-->l等；韵母模糊音对应关系包括an<-->ang，en<-->eng，in<-->ing，ian<-->iang，uan<-->uang等。

在一些实施例中，基于模糊音对应关系和编辑距离，构建相似拼音集合。编辑距离表征相似字符串之间的差异，例如N-Gram距离。例如，拼音‘zhuang’对应的相似拼音集合可以包括：‘zhang’,’chuang’,‘zhuan’,‘shuang’,‘zang’等。

在构建相似拼音集合的过程中，还可以构建训练用的字典。字典可以包括原始数据字典和目标数据字典。原始数据字典可以包括语料数据中出现的所有汉字的集合，大小为src_vocab_size。目标数据字典可以包括汉字对应的拼音的集合，大小为tgt_word_size。构建相似拼音集合主要针对原始数据字典中的元素。

原始数据字典和目标数据字典都可以包括PAD、CLS、SEP、MASK、UNK等符号。PAD用于对文本进行填充与对齐。CLS和SEP为BERT(Bidirectional Encoder Representations from Transformers)模型的特殊标记符号。CLS标记一般放在第一个句子的首位。SEP标记用于分开两个输入句子，例如输入句子A和B，要在句子A和B后面增加SEP标记。MASK标记用于模型训练时对数据，例如句子中的一些词，进行随机遮盖。语料数据中的每个词可以理解为一句话被分词后，每句话被拆分成的最小单元。UNK用于表示未登录词，例如未知字符。

在原始数据字典和目标数据字典中，都可以利用词频对词进行排序，然后按照排序先后位置给相应的词赋予一个标识ID，可以用于对输入语句进行编码转换。

在步骤S33，对所述语料数据的拼音数据进行嵌入编码处理，得到嵌入向量数据包括：对所述语料数据的拼音数据中的至少一个拼音进行随机掩蔽处理，得到随机掩蔽后的拼音数据；对所述随机掩蔽后的拼音数据进行嵌入编码处理，得到嵌入向量数据。

在一些实施例中，对所述语料数据的拼音数据进行随机掩蔽包括：随机确定要掩蔽的至少一个拼音；对所述至少一个拼音进行随机掩蔽处理。

例如，在训练过程中，将一定比例的字符(Token，可以为单词对应的拼音)随机掩蔽。在训练模型时，一个句子可以被多次喂到模型中用于参数学习。

在确定要遮蔽掉的拼音之后，对所述至少一个拼音进行随机掩蔽处理包括：所述至少一个拼音以第一概率被遮盖、以第二概率被替换为相似拼音、以第三概率被改变声调。第一、第二、第三概率之和可以不为1。例如，所述至少一个拼音可以第四概率保持不变。具体各个概率的比例可以根据实际情况进行调整。

以输入为“sou3 ji1 mei2 dian4 le5”为例，假设20％的拼音被随机遮蔽，被遮蔽的拼音可以40％的概率被[MASK]直接遮盖，30％的概率被替换为相似拼音，20％的概率被改变声调，10％的概率会保留原始拼音，随机遮蔽的结果如下。

40％：sou3 ji1 mei2 dian4 le5->sou3 ji1[MASK]dian4 le5

30％：sou3 ji1 mei2 dian4 le5->shou3 ji1 mei2 dian4 le5

20％：sou3 ji1 mei2 dian4 le5->sou3 ji1 mei3 dian4 le5

10％：sou3 ji1 mei2 dian4 le5->sou3 ji1 mei2 dian4 le5

在上述实施例中，通过随机遮蔽部分拼音，能够让保持对每个输入拼音的分布式表征，提高模型的准确率。因为如果句子中的某个拼音100％会被遮蔽，模型就会记住[MASK]对应某一个拼音，那么在可能的后续训练例如微调(fine-tuning)过程中，模型就会遇到没见过的单词，而这会降低模型的准确率。另外，通过随机替换相似拼音和改变拼音声调，可以让模型能够自动修正输入的错拼音，进一步提高模型的准确率。

接下来，对所述随机掩蔽后的拼音数据进行嵌入编码处理，得到嵌入向量数据。

例如，首先，对所述随机掩蔽后的拼音数据进行嵌入编码处理，得到第一嵌入矩阵和第二嵌入矩阵。然后，根据第一嵌入矩阵和第二嵌入矩阵，确定所述嵌入向量数据。

例如，首先，将数据X＝(x ₁,x ₂,...,x _n)编码成字嵌入矩阵W _t和位置嵌入矩阵W _p。这里，X可以是原始拼音数据，也可以是被随机遮蔽后的拼音数据。另外，由于模型训练的每一个子任务可以仅针对输入的单个句子，而不需针对同时输入的多个句子，如句子A和B，因此不需要分割嵌入矩阵W _s来区分每一个单词属于句子A还是B。即，W _s可以为0。

在一些实施例中，所述第一嵌入矩阵和所述第二嵌入矩阵中的元素值为所述自然语言处理模型的训练参数。例如，字嵌入矩阵W _t中的元素值在训练过程中一直可学习。位置嵌入矩阵W _p在预训练过程中可学习，而在后续微调等任务的训练中可以保持不便。

然后，可以将前述嵌入矩阵相加，作为输入的嵌入向量数据，表示h ₀。例如，h ₀＝XW _t+W _p。输入的嵌入向量数据h ₀即可以作为第一模型的输入数据。

接下来，在步骤S34，利用所述第一模型，对所述嵌入向量数据进行处理，得到拼音纠错后的数据。前述的嵌入向量数据h ₀例如为第一模型的第一个编码模块的输入，后续其他编码模块的输入可以根据嵌入向量数据h ₀通过例如N1层的Transformer网络得到文本语义表示的向量数据h _l:

h _l＝Transformer(h _l-1),l∈[1,N1]，

其中，h _l为隐藏层向量，即第l层Transformer网络的输出。

然后，在步骤S35，利用所述第二模型，对拼音纠错后的数据进行拼音到文字的转换。

如前所述，所述第二模型可以包括N2个编码模块，例如N2层Transformer网络。相应地，每个编码模块的输入也可以采用类似的表示，即h _l＝Transformer(h _l-1),l∈[1,N2]。

下面进一步结合图4详细描述如何根据所述自然语言处理模型的输出信息，训练所述自然语言处理模型。

如图4所示，根据所述自然语言处理模型的输出信息，训练所述自然语言处理模型，得到训练后的自然语言处理模型包括：步骤S51，利用所述第一模型的模型预测值与真实标签值之间的差异，计算第一损失函数；步骤S52，利用所述第二模型的模型预测值与真实标签值之间的差异，计算第二损失函数；步骤S53，根据所述第一损失函数和所述第二损失函数，训练所述自然语言处理模型。

在步骤S51，可以针对被随机掩蔽处理的所述至少一个拼音，利用所述第一模型的模型预测值与真实标签值之间的差异，计算第一损失函数。

在一些实施例中，所述第一模型除了包括N1个编码模块之外，还包括第一全连接层和第一激活函数层，用于学习预测每个被随机遮蔽的拼音。例如，计算第一损失函数包括根据基于所述语料数据的拼音数据构建的原始数据字典的大小，利用交叉商损失函数计算所述第一损失函数。

在一些实施例中，模型预测值可以表示为

其中Dense1为第一全连接层，σ1为第一激活函数层，例如softmax激活函数，src_vocab_size为原始数据字典的大小。

例如，第一损失函数可以表示为

其中y _i，

分别表示第i个位置处(如第i个拼音)的真实标签值和模型预测值，M表述所有被随机遮蔽的拼音的集合。这里，仅针对被随机掩蔽的拼音进行预测和计算第一损失函数。

在步骤S52，针对所述语料数据的拼音数据，利用所述第二模型的模型预测值与真实标签值之间的差异，计算第二损失函数。

在一些实施例中，所述第二模型除了包括N2个编码模块之外，还包括第二全连接层和第二激活函数层，用于学习预测拼音与文字的对应关系，例如每一个拼音位置对应的中文汉字。例如，计算第二损失函数包括根据基于所述语料数据构建的目标数据字典的大小，利用交叉商损失函数计算所述计算第二损失函数。

在一些实施例中，模型预测值可以表示为

其中Dense2为第二全连接层，σ2为第二激活函数层，例如softmax激活函数，tgt_word_size为目标数据字典的大小。

例如，第二损失函数可以表示为

其中z _i，

分别表示第i个位置处的真实标签值和模型预测值，L表述输入拼音序列的长度。这里，对所有的输入都进行预测和计算第二损失函数。

然后，在步骤S53，根据所述第一损失函数和所述第二损失函数的加权和，训练所述自然语言处理模型。

例如，模型的最终损失函数可以表示为所述第一损失函数与所述第二损失函数之和，即loss＝loss _error+loss _word。模型的优化目标是使得最终损失函数loss最小化。

下面结合图5示出的根据本公开另一些实施例的自然语言处理模型的结构，具体描述如何训练自然语言处理模型。

图5与图2的自然语言处理模型的结构不同之处在于，第一模型还包括第一全连接层FCL1，第二模型还包括第二全连接层FCL2。下面将重点描述不同之处，相同之处不再赘述。

如图5所示，输入的语料数据的拼音数据“sou3 ji1 mei2 dian4 le5”经过位置嵌入、分割嵌入、字嵌入编码处理后，分别得到对应的嵌入矩阵，即字嵌入矩阵W _t和位置嵌入矩阵W _p。其中，由于仅输入了一句话，每个拼音都属于句子A，如图5所示的EA，对应的分割嵌入矩阵的元素为0。

如图5所示，根据第一嵌入矩阵和第二嵌入矩阵确定的嵌入向量数据输入第一模型，在第一模型的最后一个编码模块如transformer5的输出后用第一全连接层FCL1学习预测每个被随机遮蔽的词。并且，基于预测的结果，计算第一损失函数。

经过第一模型纠错后的拼音输入第二模型进行拼音到文字的转换。在第二模型的最后一个编码模块如transformer11的输出后用第二全连接层FCL2学习预测每一个拼音位置对应的文字。并且，基于预测的结果，计算第二损失函数。然后，基于第一损失函数和第二损失函数，计算模型最终的损失函数，通过使得最终损失函数最小化来训练模型。

在上述实施例中，利用掩码语言建模(MLM，Masked Language Modelling)任务去训练自然语言处理模型，但是与BERT的不同之处在于本公开实施例不包括下一句预测(NSP，Next Sentence Prediction)任务，但是增加了利用第一模型进行拼音纠错的任务。另外，本公开实施例的训练任务可以是预训练任务，后续可以增加根据其他任务的微调；也可以作为独立的训练任务，独立进行拼音纠错和文字转换。

利用前述任一实施例所述的方法，例如步骤S1-S5，训练自然语言处理模型，得到训练后的自然语言处理模型。在此基础上，可以利用训练后的自然语言处理模型，对待处理的语料数据进行处理。

例如，加载训练好的自然语言处理模型，对实际的ASR识别后的数据进行拼音纠错和拼音到文字的转换。在一些实施例中，可以将模型的最终输出结果进行归一化处理，利用用softmax函数，取每个拼音对应位置概率最大的值作为目标结果，由目标数据字典索引便可得到最终的文字。

根据本公开一些实施例，还提供了一种自然语言处理的方法。图6是示出根据本公开一些实施例的自然语言处理的方法的流程图。

如图6所示，自然语言处理的方法包括：步骤S1'，获取待处理的语料数据；和步骤S3'，利用自然语言处理模型，对所述语料数据进行处理，得到输出信息。

在步骤S1'中，待处理的语料数据例如为实际的ASR识别后的数据。

在步骤S3'中，所述自然语言处理模型包括第一模型和第二模型，其中，所述第一模型用于对所述语料数据的拼音数据进行纠错，所述第二模型用于对纠错后的所述语料数据的拼音数据进行文字转换。步骤S3'的处理与图1-3中步骤S3的处理类似，此处不再赘述。

在前述实施例中，提供了训练自然语言处理模型的方法和自然语言处理的方法，可以提高自然语言处理的准确性。

根据本公开实施例训练得到的自然语言处理模型，在多个公开的语料数据集上可将ASR识别效果的准确率稳定提升至少3个百分点。

前述自然语言处理的方法根据需要可以应用于各种场景，例如语音识别、拼音输入等。

图6A是示出根据本公开一些实施例的语音识别的方法的流程图。

如图6A所示，语音识别的方法包括：步骤S10，获取待识别的语音；步骤S20，将待识别的语音转换成拼音数据；步骤S30，利用自然语言处理模型，对所述拼音数据进行纠错，并根据纠错后的拼音数据识别出对应的文字；步骤S40，输出识别出的文字。

在步骤S10，待识别的语音例如包括在语音交互过程中接收到的人声，可以是各种语言，包括但不限于汉语、日语。待识别的语音可以通过例如麦克风等设备获取。

在步骤S20，转换得到的拼音数据也不限于汉语拼音和日语的罗马音，还可以适用于其他有类似特点的语言。

在步骤S30，所述自然语言处理模型包括第一模型和第二模型，所述第一模型用于对所述拼音数据进行纠错，所述第二模型用于对纠错后的拼音数据进行文字转换。自然语言处理模型的结构和训练方法在前述实施例中已经详细描述，此处不再赘述。

在步骤S40，可以利用例如显示器输出识别出的文字。在一些实施例中，语音识别的方法还包括输出纠错后的拼音数据。即，自然语言处理模型既可以输出最终识别结果，也可以输出模型的中间处理结果。

图6B是示出根据本公开一些实施例的文字输入的方法的流程图。

如图6B所示，文字输入的方法包括：步骤S20'，获取待处理的拼音数据；步骤S30'，利用自然语言处理模型，对所述拼音数据进行纠错，并将纠错后的拼音数据转换成文字；步骤S40'，输入转换得到的文字。

在步骤S20'，待处理的拼音数据也不限于汉语拼音和日语的罗马音，还可以适用于其他有类似特点的语言。待处理的拼音数据可以通过例如键盘输入来获取。

在步骤S30'，所述自然语言处理模型包括第一模型和第二模型，所述第一模型用于对所述拼音数据进行纠错，所述第二模型用于对纠错后的拼音数据进行文字转换。自然语言处理模型的结构和训练方法在前述实施例中已经详细描述，此处不再赘述。

在步骤S40'，可以利用例如显示器显示输入的文字。在一些实施例中，文字输入的方法还包括输出纠错后的拼音数据。即，自然语言处理模型既可以输出最终识别结果，也可以输出模型的中间处理结果。至此，已经详细描述了本公开的各种方法实施例，下面描述相应的产品实施例。本公开实施例还提供了一种电子设备。

图7是示出根据本公开一个实施例的电子设备的框图。

如图7所示，电子设备70包括：存储器701以及耦接至该存储器701的处理器702。存储器701配置成存储执行用于自然语言处理的方法或训练自然语言处理模型的方法对应实施例的指令。处理器702被配置为基于存储在存储器701中的指令，执行本公开中任意一些实施例中的方法中的一个或多个步骤。

应当理解，前述训练自然语言处理模型的方法或自然语言处理的方法中的一个或多个步骤可以通过处理器来实现，并且可以软件、硬件、固件或其结合的任一种方式实现。

除了自然语言处理的方法或训练自然语言处理模型的方法和电子设备之外，本公开实施例还可采用在一个或多个包含有计算机程序指令的非易失性存储介质上实施的计算机程序产品的形式。因此，本公开实施例还提供一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现前述任意实施例中的方法中的一个或多个步骤。

图8是示出用于实现本公开一些实施例的计算机系统的框图。

如图8所示，计算机系统可以通用计算设备的形式表现，该计算机系统可以用来实现上述实施例的手绘图形识别装置。计算机系统包括存储器810、处理器820和连接不同系统组件的总线800。

存储器810例如可以包括系统存储器、非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)以及其他程序等。系统存储器可以包括易失性存储介质，例如随机存取存储器(RAM)和/或高速缓存存储器。非易失性存储介质例如存储有执行本公开方法的对应实施例的指令。非易失性存储介质包括但不限于磁盘存储器、光学存储器、闪存等。

处理器820可以用通用处理器、数字信号处理器(DSP)、应用专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑设备、分立门或晶体管等分立硬件组件方式来实现。相应地，诸如判断设备和确定设备的每个设备，可以通过中央处理器(CPU)运行存储器中执行相应步骤的指令来实现，也可以通过执行相应步骤的专用电路来实现。

总线800可以使用多种总线结构中的任意总线结构。例如，总线结构包括但不限于工业标准体系结构(ISA)总线、微通道体系结构(MCA)总线、外围组件互连(PCI)总线。

计算机系统还可以包括输入输出接口830、网络接口840、存储接口850等。这些接口830、840、850以及存储器810和处理器820之间可以通过总线800连接。输入输出接口830可以为显示器、鼠标、键盘等输入输出设备提供连接接口。网络接口840为各种联网设备提供连接接口。存储接口840为软盘、U盘、SD卡等外部存储设备提供连接接口。

至此，已经详细描述了本公开的各种实施例。为了避免遮蔽本公开的构思，没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述，完全可以明白如何实施这里公开的技术方案。

虽然已经通过示例对本公开的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本公开的范围。本领域的技术人员应该理解，可在不脱离本公开的范围和精神的情况下，对以上实施例进行修改或者对部分技术特征进行等同替换。本公开的范围由所附权利要求来限定。

Claims

一种训练自然语言处理模型的方法，包括：

获取训练用的语料数据；

利用自然语言处理模型，对所述语料数据进行处理，得到输出信息，其中，所述自然语言处理模型包括第一模型和第二模型，所述第一模型用于对所述语料数据的拼音数据进行纠错，所述第二模型用于对纠错后的所述语料数据的拼音数据进行文字转换；

根据所述自然语言处理模型的输出信息，训练所述自然语言处理模型，得到训练后的自然语言处理模型。
根据权利要求1所述的方法，其中，根据所述自然语言处理模型的输出信息，训练所述自然语言处理模型，得到训练后的自然语言处理模型包括：

利用所述第一模型的模型预测值与真实标签值之间的差异，计算第一损失函数；

利用所述第二模型的模型预测值与真实标签值之间的差异，计算第二损失函数；

根据所述第一损失函数和所述第二损失函数，训练所述自然语言处理模型。
根据权利要求1所述的方法，利用自然语言处理模型，对所述语料数据进行处理，得到输出信息包括：

将所述语料数据转换成拼音数据；

针对所述语料数据的拼音数据，构建相似拼音集合；

对所述语料数据的拼音数据进行嵌入编码处理，得到嵌入向量数据；

利用所述第一模型，对所述嵌入向量数据进行处理，得到拼音纠错后的数据；

利用所述第二模型，对拼音纠错后的数据进行拼音到文字的转换。
根据权利要求3所述的方法，其中，对所述语料数据的拼音数据进行嵌入编码处理，得到嵌入向量数据包括：

对所述语料数据的拼音数据中的至少一个拼音进行随机掩蔽处理，得到随机掩蔽后的拼音数据；

对所述随机掩蔽后的拼音数据进行嵌入编码处理，得到嵌入向量数据。
根据权利要求4所述的方法，其中，对所述语料数据的拼音数据进行随机掩蔽包括：

随机确定要掩蔽的至少一个拼音；

对所述至少一个拼音进行随机掩蔽处理。
根据权利要求5所述的方法，其中，对所述至少一个拼音进行随机掩蔽处理包括：

所述至少一个拼音以第一概率被遮盖、以第二概率被替换为相似拼音、以第三概率被改变声调。
根据权利要求4所述的方法，其中，根据所述自然语言处理模型的输出信息，训练所述自然语言处理模型，得到训练后的自然语言处理模型包括：

针对被随机掩蔽处理的所述至少一个拼音，利用所述第一模型的模型预测值与真实标签值之间的差异，计算第一损失函数；

针对所述语料数据的拼音数据，利用所述第二模型的模型预测值与真实标签值之间的差异，计算第二损失函数；

根据所述第一损失函数和所述第二损失函数的加权和，训练所述自然语言处理模型。
根据权利要求7所述的方法，其中：

计算第一损失函数包括根据基于所述语料数据的拼音数据构建的原始数据字典的大小，利用交叉商损失函数计算所述第一损失函数；

计算第二损失函数包括根据基于所述语料数据构建的目标数据字典的大小，利用交叉商损失函数计算所述计算第二损失函数。
根据权利要求1-8任一项所述的方法，其中，所述第一模型包括N1个编码模块，所述第二模型包括N2个编码模块，所述第二模型除了包括所述第一模型的N1个编码模块外还包括额外的编码模块，其中N1、N2为大于1的正整数，N2>N1，N1个编码模块为串联关系，N2个编码模块为串联关系。
根据权利要求9所述的方法，其中，所述第一模型还包括第一全连接层和第一激活函数层，所述第二模型还包括第二全连接层和第二激活函数层。
根据权利要求3所述的方法，其中，针对所述语料数据的拼音数据，构建相似拼音集合包括：

基于模糊音对应关系和编辑距离，构建相似拼音集合。
根据权利要求4所述的方法，其中，对所述随机掩蔽后的拼音数据进行嵌入编码处理，得到嵌入向量数据包括：

对所述随机掩蔽后的拼音数据进行嵌入编码处理，得到第一嵌入矩阵和第二嵌入矩阵；

根据第一嵌入矩阵和第二嵌入矩阵，确定所述嵌入向量数据。
根据权利要求12所述的方法，其中，所述第一嵌入矩阵为字嵌入矩阵，所述第二嵌入矩阵为位置嵌入矩阵，所述嵌入向量数据与第一嵌入矩阵和第二嵌入矩阵线性相关。
根据权利要求13所述的方法，其中，所述第一嵌入矩阵和所述第二嵌入矩阵中的元素值为所述自然语言处理模型的训练参数。
一种自然语言处理的方法，包括：

获取待处理的语料数据；

利用自然语言处理模型，对所述语料数据进行处理，得到输出信息，其中，所述自然语言处理模型包括第一模型和第二模型，所述第一模型用于对所述语料数据的拼音数据进行纠错，所述第二模型用于对纠错后的所述语料数据的拼音数据进行文字转换。
一种自然语言处理的方法，包括：

利用权利要求1至14任一项所述的方法，训练自然语言处理模型，得到训练后的自然语言处理模型；

利用训练后的自然语言处理模型，对待处理的语料数据进行处理。
一种语音识别的方法，包括：

获取待识别的语音；

将待识别的语音转换成拼音数据；

利用自然语言处理模型，对所述拼音数据进行纠错，并根据纠错后的拼音数据识别出对应的文字，其中，所述自然语言处理模型包括第一模型和第二模型，所述第一模型用于对所述拼音数据进行纠错，所述第二模型用于对纠错后的拼音数据进行文字转换；

输出识别出的文字。
一种文字输入的方法，包括：

获取待处理的拼音数据；

利用自然语言处理模型，对所述拼音数据进行纠错，并将纠错后的拼音数据转换成文字，其中，所述自然语言处理模型包括第一模型和第二模型，所述第一模型用于对所述拼音数据进行纠错，所述第二模型用于对纠错后的拼音数据进行文字转换；

输入转换得到的文字。
根据权利要求17或18所述的方法，还包括：

利用权利要求1至14任一项所述的方法，训练所述自然语言处理模型。
根据权利要求17或18所述的方法，还包括：输出纠错后的拼音数据。
一种电子设备，包括：

存储器；以及

耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器的指令，执行如权利要求1至20任一项所述的方法。
一种计算机可存储介质，其上存储有计算机程序指令，该指令被处理器执行时实现如权利要求1至20任一项所述的方法。