WO2022121185A1

WO2022121185A1 - 模型训练方法、方言识别方法、装置、服务器及存储介质

Info

Publication number: WO2022121185A1
Application number: PCT/CN2021/084300
Authority: WO
Inventors: 罗剑; 王健宗; 程宁
Original assignee: 平安科技（深圳）有限公司
Priority date: 2020-12-11
Filing date: 2021-03-31
Publication date: 2022-06-16
Also published as: CN112634867A

Abstract

本申请提供一种模型训练方法、方言识别方法、装置、服务器及存储介质，该方法包括：获取样本数据，该样本数据包括目标文本和目标文本对应的方言语音序列和普通话语音序列，根据该方言语音序列和普通话语音序列，得到第一文本、第二文本和第三文本，确定方言识别模型的目标损失值，当确定方言识别模型未收敛，则更新方言识别模型的模型参数，并继续对更新后的方言识别模型进行训练，直至方言识别模型收敛使，本方案使方言识别模型的训练更加简便和准确。

Description

模型训练方法、方言识别方法、装置、服务器及存储介质

本申请要求于2020年12月11日提交中国专利局、申请号为202011453440.4、发明名称为“模型训练方法、方言识别方法、装置、服务器及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及语音识别技术领域，尤其涉及一种模型训练方法、方言识别方法、装置、服务器及存储介质。

背景技术

发明人意识到，在语音识别的技术领域，方言识别一直是一个难题，在给定的一段连续语音中，方言中的口音往往的夹杂在所有的语音片段中，而且强弱程度呈现不规则的变化，在早期的语音识别模型中，可以调整发音库和声学模型来实现比较准确的方言识别，但是调整后的声学模型只适用于训练数据中涉及的方言，难以保证来自不同种类的方言都能被准确识别，而且，早期的语言识别模型需要分别训练声学模型和语言模型，带来大量冗余的计算量。

技术问题

本申请所要解决的技术问题为方言识别的训练准确率较低。

技术解决方案

本申请的主要目的在于提供一种模型训练方法、方言识别方法、装置、服务器及存储介质，旨在使方言识别模型的训练更加简便和准确，以使后续的方言识别更加准确。

第一方面，本申请提供一种模型训练方法，所述模型训练方法用于训练方言识别模型，所述方法应用于服务器，所述方言识别模型包括第一编码器、第二编码器、第一注意力模块、第二注意力模块、连接时序分类器和解码器，所述方法包括：

获取样本数据，其中，所述样本数据包括目标文本和所述目标文本对应的方言语音序列和普通话语音序列；

将所述方言语音序列输入至所述第一编码器，得到第一特征向量，并将所述普通话语音序列输入至所述第二编码器，得到第二特征向量；

将所述第一特征向量和第二特征向量输入至所述连接时序分类器，得到第一文本；

将所述第一特征向量输入至所述第一注意力模块，得到第一上下文关联向量，并将所述第二特征向量输入至所述第二注意力模块，得到第二上下文关联向量；

将所述第一上下文关联向量和第二上下文关联向量输入至所述解码器，得到第二文本和第三文本；

根据目标文本、第一文本、第二文本和第三文本，确定所述方言识别模型的目标损失值；

根据所述目标损失值，确定所述方言识别模型是否收敛；

若所述方言识别模型未收敛，则更新所述方言识别模型的模型参数，并继续对更新后的所述方言识别模型进行训练，直至所述方言识别模型收敛。

第二方面，本申请还提供一种方言识别方法，包括：

获取待识别的语音信息，并对所述语音信息进行语音特征序列提取，得到所述语音信息对应的语音特征序列；

将所述语音特征序列输入至预设方言识别模型中，得到所述语音信息对应的文本，其中，所述预设方言识别模型是通过如说明书所述的模型训练方法进行训练得到的。

第三方面，本申请还提供一种模型训练装置，方言识别模型包括第一编码器、第二编码器、第一注意力模块、第二注意力模块、连接时序分类器和解码器，所述模型训练装置包括：获取模块和模型训练模块，其中：

所述获取模块，用于获取样本数据，其中，所述样本数据包括目标文本和所述目标文本对应的方言语音序列和普通话语音序列；

所述模型训练模块，用于：

根据所述目标损失值，确定所述方言识别模型是否收敛；

第四方面，本申请还提供一种服务器，所述服务器用于训练方言识别模型，所述方言识别模型包括第一编码器、第二编码器、第一注意力模块、第二注意力模块、连接时序分类器和解码器，所述服务器包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机可读指令，其中所述计算机可读指令被所述处理器执行时，实现如下步骤：

获取样本数据，其中，所述样本数据包括目标文本和所述目标文本对应于的方言语音序列和普通话语音序列；

根据所述目标文本、第一文本、第二文本和第三文本，确定所述方言识别模型的目标损失值；

根据所述目标损失值，确定所述方言识别模型是否收敛；

第五方面，本申请还提供一种服务器，所述服务器包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机可读指令，其中所述计算机可读指令被所述处理器执行时，实现如下步骤：

将所述语音特征序列输入至预设方言识别模型中，得到所述语音信息对应的文本。

第六方面，本申请还提供一种计算机可读存储介质，所述计算机可读存储介质用于训练方言识别模型，所述方言识别模型包括第一编码器、第二编码器、第一注意力模块、第二注意力模块、连接时序分类器和解码器，所述计算机可读存储介质上存储有计算机可读指令，其中所述计算机可读指令被处理器执行时，实现如下步骤：

根据所述目标损失值，确定所述方言识别模型是否收敛；

第七方面，本申请还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机可读指令，其中所述计算机可读指令被处理器执行时，实现如下步骤：

有益效果

本申请提供一种模型训练方法、方言识别方法、装置、服务器、及存储介质，本申请获取样本数据；将方言语音序列输入至第一编码器，得到第一特征向量，并将普通话语音序列输入至第二编码器，得到第二特征向量；将第一特征向量和第二特征向量输入至连接时序分类器，得到第一文本；将第一特征向量输入至第一注意力模块，得到第一上下文关联向量，并将第二特征向量输入至第二注意力模块，得到第二上下文关联向量；将第一上下文关联向量和第二上下文关联向量输入至解码器，得到第二文本和第三文本；然后根据目标文本、第一文本、第二文本和第三文本，确定方言识别模型的目标损失值；根据目标损失值，确定方言识别模型是否收敛；若方言识别模型未收敛，则更新方言识别模型的模型参数，并继续对更新后的方言识别模型进行训练，直至方言识别模型收敛。本方案方言识别模型采用了联合训练的方式，针对同一目标文本对应方言语音序列和普通话语音序列输入至该方言识别模型进行训练，并结合注意力机制和连接时序分类模型训练可以使输入输出之间的单调对齐，使训练出来的方言识别模型识别更加准确。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种模型训练方法的步骤流程示意图；

图2为图1中的模型训练方法的子步骤流程示意图；

图3为本申请实施例提供的模型训练的一示意图框图；

图4为本申请实施例提供的一种方言识别方法的步骤流程示意图；

图5为本申请实施例提供的一种模型训练装置的示意性框图；

图6为本申请实施例提供的一种服务器的结构示意性框图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

本发明的实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

附图中所示的流程图仅是示例说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解、组合或部分合并，因此实际执行的顺序有可能根据实际情况改变。

本申请实施例提供一种模型训练方法、方言识别方法、装置、服务器及存储介质。其中，该模型训练方法可应用于服务器中，该服务器可以是单台服务器或者是多个单台服务器组成的服务器集群。

下面结合附图，对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

请参照图1，图1为本申请实施例提供的一种模型训练方法的步骤流程示意图。

如图1所示，该模型训练方法，该模型训练方法用于训练方言识别模型，所述方法包括步骤S101至步骤S108。

步骤S101、获取样本数据，其中，所述样本数据包括目标文本和所述目标文本对应的方言语音序列和普通话语音序列。

其中，样本数据包括目标文本和目标文本对应的方言语音序列和普通话语音序列。该目标文本为文本文字，例如，该文本文字为“现在是上午几点？”，该方言语音序列是从该目标文本对应的方言语音中提取得到的多个语音特征，该普通话语音序列是从该目标文本对应的普通话语音中提取得到的语音特征。其中，该方言可以是川话、客家话、赣语、湘语、闽语、晋语和粤语等等，上述语音特征包括梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)、基频轮廓特征、时长特征和能量特征等，本申请对此不做具体限定。

在一实施例中，方言语音序列和普通话语音序列的确定方式可以为：获取目标文本对应的方言语音；以帧为单位，将方言语音中的每个汉字音节按照预设大小的采样窗口，对方言语音进行采样，获得一个方言音节序列；提取方言音节序列中的每个音节的语音特征，并对每个音节的语音特征进行排列，得到方言语音序列。类似的，获取目标文本对应的普通话语音；以帧为单位，将普通话语音中的每个汉字音节按照预设大小的采样窗口，对普通话语音进行采样，获得一个普通话音节序列；提取普通话音节序列中的每个音节的语音特征，并对每个音节的语音特征进行排列，得到普通话语音序列。

步骤S102、将所述方言语音序列输入至所述第一编码器，得到第一特征向量，并将所述普通话语音序列输入至所述第二编码器，得到第二特征向量。

其中，方言识别模型包括第一编码器、第二编码器、第一注意力模块、第二注意力模块、连接时序分类器和解码器，第一编码器和第二编码器包括第一预设数量的神经网络，解码器包括第二预设数量的神经网络，连接时序分类器包括第三预设数量的神经网络。

其中，该第一预设数量、第二预设数量和第三预设数量可以根据实际情况进行选择，本申请实施例对此不做具体限定，例如，该第一预设数量可以为3，该第二预设数量可以为2，第三预设数量可以为2，神经网络可以根据实际情况进行选择，例如，该神经网络为双向长短时记忆网络。

在一实施例中，将方言语音序列输入至第一编码器，得到第一特征向量，并将普通话语音序列输入至第二编码器，得到第二特征向量。可选的，第一编码器包括三层双向长短时记忆网络、第二编码器包括三层双向长短时记忆网络，第一编码器中的双向长短时记忆网络与第二编码器中的双向长短时记忆网络的模型参数不同。

步骤S103、将所述第一特征向量和第二特征向量输入至所述连接时序分类器，得到第一文本。

其中，该连接时序分类器(Connectionist temporal classification，CTC)包括第三预设数量的神经网络，该第三预设数量可以根据实际情况进行设置，例如，该第三预设数量可以为2，该神经网络可以选择为双向长短时记忆网络，则该连接时序分类器包括双层双向长短时记忆网络。

在一实施例中，将第一特征向量和第二特征向量输入至连接时序分类器，得到第一文本。具体地，将该第一特征向量输入至连接时序分类器，该连接时序分类器利用带有空白占位符∈的字符集π＝(π ₁，π ₂，…，π _T)得到包括空白占位符∈的文本，将该包括空白占位符∈的文本中的空白占位符∈去除，得到第一文本。

步骤S104、将所述第一特征向量输入至所述第一注意力模块，得到第一上下文关联向量，并将所述第二特征向量输入至所述第二注意力模块，得到第二上下文关联向量。

在一实施例中，将第一特征向量输入至第一注意力模块，得到第一上下文关联向量。具体地，根据第一特征向量中每个子特征向量的位置和上下文内容，确定注意力分配参数，根据该注意力分配参数，确定每个子特征向量对应的注意力分数，根据每个子特征向量对应的注意力分数和每个子特征向量，确定每个子第一上下文关联向量，根据每个子第一上下文关联向量，得到该第一上下文关联向量。

在一实施例中，将第二特征向量输入至第二注意力模块，得到第二上下文关联向量。具体地，根据第二特征向量中每个子特征向量的位置和上下文内容，确定注意力分配参数，根据该注意力分配参数，确定每个子特征向量对应的注意力分数，根据每个子特征向量对应的注意力分数和每个子特征向量，确定每个子第二上下文关联向量，根据每个子第二上下文关联向量，得到该第二上下文关联向量。

需要说明的是，上述第二上下文关联向量具体生成方式可以参照上述第一上下文关联向量具体生成方式，在此对第二上下文关联向量具体生成方式不做赘述。

步骤S105、将所述第一上下文关联向量和第二上下文关联向量输入至所述解码器，得到第二文本和第三文本。

其中，解码器包括第二预设数量的神经网络，该第二预设数量可以根据实际情况进行设置，例如，该第二预设数量可以为2，该神经网络可以选择为双向长短时记忆网络，则该解码器包括双层双向长短时记忆网络。

在一实施例中，该解码器包括前馈网络和递归网络，将该第一上下文关联向量输入至该前馈网络和递归网络中，得到第二文本。同理将该第二上下文关联向量输入至该前馈网络和递归网络中，得到第三文本。通过该前馈网络和递归网络可以准确且快捷的确定解码器输出的文本。

步骤S106、根据所述目标文本、第一文本、第二文本和第三文本，确定所述方言识别模型的目标损失值。

其中，方言识别模型的目标损失函数是通过第一注意力模块或第二注意力模块的第一损失函数、连接时序分类器的第二损失函数和编码器的第三损失函数确定的。

在一实施例中，如图2所示，步骤S106包括子步骤S1061至子步骤S1064。

子步骤S1061、基于所述第一损失函数，根据所述目标文本和所述第二文本，确定第一损失值。

示例性的，将目标文本和第二文本代入第一损失函数中，从而计算得到第一损失值。其中，第一损失函数为：

其中，L1为第一损失值，x为方言语音序列，y ^*为第二输出文本，

为第二输出文本中每个字符，

为第二输出文本中每个字符，，基于该第一损失函数，并根据目标文本和第二文本，确定第一损失值。

子步骤S1062、基于所述第二损失函数，根据所述目标文本和所述第一文本，确定第二损失值。

示例性的，将目标文本和第一文本代入第二损失函数中，从而可以计算得到第二损失值。其中，该第二损失函数为

该L2为第二损失值，该y ^*为第一文本，该x为目标文本，该

的计算公式可以为

α _t(u)是前向变量，表示所有以

尾的

前缀的概率；β _t(u)是后向变量，表示所有以

开始的

后缀的概率，基于该第二损失函数，根据目标文本和所述第一文本，确定第二损失值。

子步骤S1063、基于所述第三损失函数，根据所述第二文本和所述第三文本，确定第三损失值。

示例性的，将第二文本和第三文本代入第三损失函数中，从而可以计算得到第三损失值。其中，该第三损失函数为：

该U为字符的位置序号，该y _u为第二文本中u位置序号对应的文本，该y′ _u为第三文本中u位置序号对应的文本，基于该第三损失函数，并根据第二文本和第三文本，确定第三损失值。

子步骤S1064、根据所述第一损失值、第二损失值和第三损失值，确定所述方言识别模型的目标损失值。

示例性的，根据第一损失值、第二损失值和第三损失值，确定目标损失函数的最小值；将目标损失函数的最小值确定为方言识别模型的目标损失值。其中，根据第一损失值、第二损失值和第三损失值，确定目标损失函数的最小值的方式可以为：获取目标损失函数，其中，该目标损失函数为L＝μ ₁L ₁+μ ₂L ₂+μ ₃L ₃，L为目标损失值，μ ₁为第一参数，μ ₂为第二参数，μ ₃为第三参数，L ₁为第一损失值，L ₂为第二损失值和L ₃为第三损失值，μ ₁+μ ₂+μ ₃＝1；基于该目标损失函数和第一损失值、第二损失值和第三损失值，确定使得该目标损失函数最小的第一参数、第二参数和第三参数的目标取值，然后第一损失值、第二损失值、第三损失值、基于第一参数、第二参数和第三参数的目标取值，确定方言识别模型的目标损失值。

步骤S107、根据所述目标损失值，确定所述方言识别模型是否收敛。

示例性的，确定目标损失值是否大于预设阈值；若确定目标损失值大于预设阈值，则确定方言识别模型未收敛；若确定目标损失值小于或等于预设阈值，则确定方言识别模型已收敛。其中，该预设阈值可以根据实际情况进行确定，本申请对此不做具体限定。

步骤S108、若所述方言识别模型未收敛，则更新所述方言识别模型的模型参数，并继续对更新后的所述方言识别模型进行训练，直至所述方言识别模型收敛。

当确定方言识别模型未收敛，则更新方言识别模型的模型参数，并继续对更新后的方言识别模型进行训练，直至方言识别模型收敛。如图3所示，方言识别模型包括第一编码器、第二编码器、第一注意力模块、第二注意力模块、连接时序分类器和解码器，目标文本对应的方言语音序列X1输入至第一编码器，得到第一特征向量h1，目标文本对应的普通话语音序列X2输入至第二编码器，得到第二特征向量h2，将第一特征向量h1和第二特征向量h2输入至连接时序分类器，得到第一文本Y1和第四文本Y2，将第一特征向量h1输入至第一注意力模块，得到第一上下文关联向量a1，并将第二特征向量h2输入至第二注意力模块，得到第二上下文关联向量a2；将第一上下文关联向量a1和第二上下文关联向量a2输入至解码器，得到第二文本Y3和第三文本Y4；根据目标文本、第一文本Y1、第二文本Y2和第三文本Y3，可以确定方言识别模型的目标损失值，进而基于目标损失值可以确定是否继续训练方言识别模型。

上述实施例提供的模型训练方法，通过获取样本数据；将方言语音序列输入至第一编码器，得到第一特征向量，并将普通话语音序列输入至第二编码器，得到第二特征向量；将第一特征向量和第二特征向量输入至连接时序分类器，得到第一文本；将第一特征向量输入至第一注意力模块，得到第一上下文关联向量，并将第二特征向量输入至第二注意力模块，得到第二上下文关联向量；将第一上下文关联向量和第二上下文关联向量输入至解码器，得到第二文本和第三文本；然后根据目标文本、第一文本、第二文本和第三文本，确定方言识别模型的目标损失值；根据目标损失值，确定方言识别模型是否收敛；若方言识别模型未收敛，则更新方言识别模型的模型参数，并继续对更新后的方言识别模型进行训练，直至方言识别模型收敛。本方案方言识别模型采用了联合训练的方式，针对同一目标文本对应方言语音序列和普通话语音序列输入至该方言识别模型进行训练，并结合注意力机制和连接时序分类模型训练可以使输入输出之间的单调对齐，使训练出来的方言识别模型识别更加准确。

如图4所示，图4为本申请实施例提供的方言识别方法的步骤流程示意图。

如图4所示，该方言识别方法的包括步骤S201至步骤S202。

步骤S201、获取待识别的语音信息，并对所述语音信息进行语音特征序列提取，得到所述语音信息对应的语音特征序列。

获取待识别的语音信息，并对语音信息进行语音特征序列提取，得到语音信息对应的语音特征序列。其中，获取待识别的语音信息的方式可以根据实际情况进行确定，本申请对此不做具体限定，例如，该待识别的语音信息为终端接收到的语音信息。

在一实施例中，以帧为单位，将语音信息中的每个汉字音节按照预设大小的采样窗口，对语音信息进行采样，获得一个语音信息序列；提取语音信息序列中的每个音节的语音特征，并对每个音节的语音特征进行排列，得到语音特征序列。

步骤S202、将所述语音特征序列输入至预设方言识别模型中，得到所述语音信息对应的文本，其中，所述预设方言识别模型是通过模型训练方法进行训练得到的。

将该语音特征序列输入至预设方言识别模型中，得到语音信息对应的文本，其中，所述预设方言识别模型是通过模型训练方法进行训练得到的。通过将该语音特征序列输入至预设方言识别模型中，可以快速的得到语音信息对应的文本。

上述实施例提供的方言识别方法，获取待识别的语音信息，并对语音信息进行语音特征序列提取，得到语音信息对应的语音特征序列；将语音特征序列输入至预设方言识别模型中，得到语音信息对应的文本，可以快速的得到语音信息对应的文本。

请参照图5，图5为本申请实施例提供的一种模型训练装置的示意性框图。

如图5所示，所述模型训练装置包括第一编码器、第二编码器、第一注意力模块、第二注意力模块、连接时序分类器和解码器，所述模型训练装置300包括：获取模块310和模型训练模块320，其中：

所述获取模块310，用于获取样本数据，其中，所述样本数据包括目标文本和所述目标文本对应的方言语音序列和普通话语音序列；

所述模型训练模块320，用于：

根据所述目标损失值，确定所述方言识别模型是否收敛；

在一实施例中，所述模型训练模块320，还用于：

基于所述第一损失函数，根据所述目标文本和所述第二文本，确定第一损失值；

基于所述第二损失函数，根据所述目标文本和所述第一文本，确定第二损失值；

基于所述第三损失函数，根据所述第二文本和所述第三文本，确定第三损失值；

根据所述第一损失值、第二损失值和第三损失值，确定所述方言识别模型的目标损失值。

在一实施例中，所述模型训练模块320，还用于：

根据所述第一损失值、第二损失值和第三损失值，确定所述目标损失函数的最小值；

将所述目标损失函数的最小值确定为所述方言识别模型的目标损失值。

在一实施例中，所述模型训练模块320，还用于：

确定所述目标损失值是否大于预设阈值；

若确定所述目标损失值大于预设阈值，则确定所述方言识别模型未收敛；

若确定所述目标损失值小于或等于预设阈值，则确定所述方言识别模型已收敛。

请参阅图6，图6为本申请实施例提供的一种服务器的结构示意性框图。

如图6所示，该服务器包括通过系统总线连接的处理器、存储器和通信接口，其中，存储器可以包括计算机可读存储介质和内存储器。

计算机可读存储介质可以是非易失性，也可以是易失性，计算机可读存储介质可存储操作系统和计算机可读指令。该计算机可读指令被执行时，可使得处理器执行任意一种模型训练方法或方言识别方法。

处理器用于提供计算和控制能力，支撑整个服务器的运行。

内存储器为计算机可读存储介质中的计算机可读指令的运行提供环境，该计算机可读指令被处理器执行时，可使得处理器执行任意一种模型训练方法或方言识别方法。

该服务器还包括网络接口，该网络接口用于网络通信。本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的服务器的限定，具体的服务器可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

应当理解的是，该总线比如为I2C(Inter-integrated Circuit)总线，存储器可以是Flash芯片、只读存储器(ROM，Read-Only Memory)磁盘、光盘、U盘或移动硬盘等，处理器可以是中央处理单元(Central Processing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

其中，在一个实施例中，所述处理器用于运行存储在存储器中的计算机可读指令，以实现如下步骤：

根据所述目标损失值，确定所述方言识别模型是否收敛；

在一个实施例中，所述第一编码器和所述第二编码器包括第一预设数量的神经网络，所述解码器包括第二预设数量的神经网络，所述连接时序分类器包括第三预设数量的神经网络，所述神经网络包括双向长短时记忆网络。

在一个实施例中，所述方言识别模型的目标损失函数是通过所述第一注意力模块或第二注意力模块的第一损失函数、所述连接时序分类器的第二损失函数和所述编码器的第三损失函数确定的。

在一个实施例中，所述处理器在实现所述根据所述目标文本、第一文本、第二文本和第三文本，确定所述方言识别模型的目标损失值时，用于实现：

在一个实施例中，所述处理器在实现所述根据所述第一损失值、第二损失值和第三损失值，确定所述方言识别模型的目标损失值时，用于实现：

在一个实施例中，所述处理器在实现根据所述目标损失值，确定所述方言识别模型是否收敛时，用于实现：

确定所述目标损失值是否大于预设阈值；

在一个实施例中，所述处理器用于运行存储在存储器中的计算机可读指令，还实现如下步骤：

将所述语音特征序列输入至预设方言识别模型中，得到所述语音信息对应的文本，其中，所述预设方言识别模型是通过模型训练方法进行训练得到的。

需要说明的是，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述服务器的具体工作过程，可以参考前述模型训练方法实施例中的对应过程或方言识别实施例中的对应过程，在此不再赘述。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被执行时所实现的方法可参照本申请模型训练方法的各个实施例或方言识别各个实施例。

其中，所述计算机可读存储介质可以是前述实施例所述的服务器的内部存储单元，例如所述服务器的硬盘或内存。所述计算机可读存储介质也可以是所述服务器的外部存储设备，例如所述服务器上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。

应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

一种模型训练方法，其中，所述模型训练方法用于训练方言识别模型，所述方法应用于服务器，所述方言识别模型包括第一编码器、第二编码器、第一注意力模块、第二注意力模块、连接时序分类器和解码器，所述方法包括：

获取样本数据，其中，所述样本数据包括目标文本和所述目标文本对应于的方言语音序列和普通话语音序列；

将所述方言语音序列输入至所述第一编码器，得到第一特征向量，并将所述普通话语音序列输入至所述第二编码器，得到第二特征向量；

将所述第一特征向量和第二特征向量输入至所述连接时序分类器，得到第一文本；

将所述第一特征向量输入至所述第一注意力模块，得到第一上下文关联向量，并将所述第二特征向量输入至所述第二注意力模块，得到第二上下文关联向量；

将所述第一上下文关联向量和第二上下文关联向量输入至所述解码器，得到第二文本和第三文本；

根据所述目标文本、第一文本、第二文本和第三文本，确定所述方言识别模型的目标损失值；

根据所述目标损失值，确定所述方言识别模型是否收敛；

若所述方言识别模型未收敛，则更新所述方言识别模型的模型参数，并继续对更新后的所述方言识别模型进行训练，直至所述方言识别模型收敛。
如权利要求1所述的模型训练方法，其中，所述第一编码器和所述第二编码器包括第一预设数量的神经网络，所述解码器包括第二预设数量的神经网络，所述连接时序分类器包括第三预设数量的神经网络，所述神经网络包括双向长短时记忆网络。
如权利要求1所述的模型训练方法，其中，所述方言识别模型的目标损失函数是通过所述第一注意力模块或第二注意力模块的第一损失函数、所述连接时序分类器的第二损失函数和所述编码器的第三损失函数确定的。
如权利要求3所述的模型训练方法，其中，所述根据所述目标文本、第一文本、第二文本和第三文本，确定所述方言识别模型的目标损失值，包括：

基于所述第一损失函数，根据所述目标文本和所述第二文本，确定第一损失值；

基于所述第二损失函数，根据所述目标文本和所述第一文本，确定第二损失值；

基于所述第三损失函数，根据所述第二文本和所述第三文本，确定第三损失值；

根据所述第一损失值、第二损失值和第三损失值，确定所述方言识别模型的目标损失值。
如权利要求4所述的模型训练方法，其中，所述根据所述第一损失值、第二损失值和第三损失值，确定所述方言识别模型的目标损失值，包括：

根据所述第一损失值、第二损失值和第三损失值，确定所述目标损失函数的最小值；

将所述目标损失函数的最小值确定为所述方言识别模型的目标损失值。
如权利要求1-5中任一项所述的模型训练方法，其中，根据所述目标损失值，确定所述方言识别模型是否收敛，包括：

确定所述目标损失值是否大于预设阈值；

若确定所述目标损失值大于预设阈值，则确定所述方言识别模型未收敛；

若确定所述目标损失值小于或等于预设阈值，则确定所述方言识别模型已收敛。
一种方言识别方法，其中，包括：

获取待识别的语音信息，并对所述语音信息进行语音特征序列提取，得到所述语音信息对应的语音特征序列；

将所述语音特征序列输入至预设方言识别模型中，得到所述语音信息对应的文本，其中，所述预设方言识别模型是通过如权利要求1-6中任一项所述的模型训练方法进行训练得到的。
一种模型训练装置，其中，方言识别模型包括第一编码器、第二编码器、第一注意力模块、第二注意力模块、连接时序分类器和解码器，所述模型训练装置包括：获取模块和模型训练模块，其中：

所述获取模块，用于获取样本数据，其中，所述样本数据包括目标文本和所述目标文本对应的方言语音序列和普通话语音序列；

所述模型训练模块，用于：

将所述方言语音序列输入至所述第一编码器，得到第一特征向量，并将所述普通话语音序列输入至所述第二编码器，得到第二特征向量；

将所述第一特征向量和第二特征向量输入至所述连接时序分类器，得到第一文本；

将所述第一特征向量输入至所述第一注意力模块，得到第一上下文关联向量，并将所述第二特征向量输入至所述第二注意力模块，得到第二上下文关联向量；

将所述第一上下文关联向量和第二上下文关联向量输入至所述解码器，得到第二文本和第三文本；

根据目标文本、第一文本、第二文本和第三文本，确定所述方言识别模型的目标损失值；

根据所述目标损失值，确定所述方言识别模型是否收敛；

若所述方言识别模型未收敛，则更新所述方言识别模型的模型参数，并继续对更新后的所述方言识别模型进行训练，直至所述方言识别模型收敛。
一种服务器，其中，所述服务器用于训练方言识别模型，所述方言识别模型包括第一编码器、第二编码器、第一注意力模块、第二注意力模块、连接时序分类器和解码器，所述服务器包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机可读指令，所述计算机可读指令被所述处理器执行时，实现如下步骤：

获取样本数据，其中，所述样本数据包括目标文本和所述目标文本对应于的方言语音序列和普通话语音序列；

将所述方言语音序列输入至所述第一编码器，得到第一特征向量，并将所述普通话语音序列输入至所述第二编码器，得到第二特征向量；

将所述第一特征向量和第二特征向量输入至所述连接时序分类器，得到第一文本；

将所述第一特征向量输入至所述第一注意力模块，得到第一上下文关联向量，并将所述第二特征向量输入至所述第二注意力模块，得到第二上下文关联向量；

将所述第一上下文关联向量和第二上下文关联向量输入至所述解码器，得到第二文本和第三文本；

根据所述目标文本、第一文本、第二文本和第三文本，确定所述方言识别模型的目标损失值；

根据所述目标损失值，确定所述方言识别模型是否收敛；

若所述方言识别模型未收敛，则更新所述方言识别模型的模型参数，并继续对更新后的所述方言识别模型进行训练，直至所述方言识别模型收敛。
如权利要求9所述的服务器，其中，所述第一编码器和所述第二编码器包括第一预设数量的神经网络，所述解码器包括第二预设数量的神经网络，所述连接时序分类器包括第三预设数量的神经网络，所述神经网络包括双向长短时记忆网络。
如权利要求9所述的服务器，其中，所述方言识别模型的目标损失函数是通过所述第一注意力模块或第二注意力模块的第一损失函数、所述连接时序分类器的第二损失函数和所述编码器的第三损失函数确定的。
如权利要求11所述的服务器，其中，所述根据所述目标文本、第一文本、第二文本和第三文本，确定所述方言识别模型的目标损失值，包括：

基于所述第一损失函数，根据所述目标文本和所述第二文本，确定第一损失值；

基于所述第二损失函数，根据所述目标文本和所述第一文本，确定第二损失值；

基于所述第三损失函数，根据所述第二文本和所述第三文本，确定第三损失值；

根据所述第一损失值、第二损失值和第三损失值，确定所述方言识别模型的目标损失值。
如权利要求12所述的服务器，其中，所述根据所述第一损失值、第二损失值和第三损失值，确定所述方言识别模型的目标损失值，包括：

根据所述第一损失值、第二损失值和第三损失值，确定所述目标损失函数的最小值；

将所述目标损失函数的最小值确定为所述方言识别模型的目标损失值。
如权利要求9-13中任一项所述的服务器，其中，根据所述目标损失值，确定所述方言识别模型是否收敛，包括：

确定所述目标损失值是否大于预设阈值；

若确定所述目标损失值大于预设阈值，则确定所述方言识别模型未收敛；

若确定所述目标损失值小于或等于预设阈值，则确定所述方言识别模型已收敛。
一种服务器，其中，所述服务器包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机可读指令，所述计算机可读指令被所述处理器执行时，实现如下步骤：

获取待识别的语音信息，并对所述语音信息进行语音特征序列提取，得到所述语音信息对应的语音特征序列；

将所述语音特征序列输入至预设方言识别模型中，得到所述语音信息对应的文本。
一种计算机可读存储介质，其中，所述计算机可读存储介质用于训练方言识别模型，所述方言识别模型包括第一编码器、第二编码器、第一注意力模块、第二注意力模块、连接时序分类器和解码器，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时，实现如下步骤：

获取样本数据，其中，所述样本数据包括目标文本和所述目标文本对应于的方言语音序列和普通话语音序列；

将所述方言语音序列输入至所述第一编码器，得到第一特征向量，并将所述普通话语音序列输入至所述第二编码器，得到第二特征向量；

将所述第一特征向量和第二特征向量输入至所述连接时序分类器，得到第一文本；

将所述第一特征向量输入至所述第一注意力模块，得到第一上下文关联向量，并将所述第二特征向量输入至所述第二注意力模块，得到第二上下文关联向量；

将所述第一上下文关联向量和第二上下文关联向量输入至所述解码器，得到第二文本和第三文本；

根据所述目标文本、第一文本、第二文本和第三文本，确定所述方言识别模型的目标损失值；

根据所述目标损失值，确定所述方言识别模型是否收敛；

若所述方言识别模型未收敛，则更新所述方言识别模型的模型参数，并继续对更新后的所述方言识别模型进行训练，直至所述方言识别模型收敛。
如权利要求16所述的计算机可读存储介质，其中，所述第一编码器和所述第二编码器包括第一预设数量的神经网络，所述解码器包括第二预设数量的神经网络，所述连接时序分类器包括第三预设数量的神经网络，所述神经网络包括双向长短时记忆网络。
如权利要求16所述的计算机可读存储介质，其中，所述方言识别模型的目标损失函数是通过所述第一注意力模块或第二注意力模块的第一损失函数、所述连接时序分类器的第二损失函数和所述编码器的第三损失函数确定的。
如权利要求18所述的计算机可读存储介质，其中，所述根据所述目标文本、第一文本、第二文本和第三文本，确定所述方言识别模型的目标损失值，包括：

基于所述第一损失函数，根据所述目标文本和所述第二文本，确定第一损失值；

基于所述第二损失函数，根据所述目标文本和所述第一文本，确定第二损失值；

基于所述第三损失函数，根据所述第二文本和所述第三文本，确定第三损失值；

根据所述第一损失值、第二损失值和第三损失值，确定所述方言识别模型的目标损失值。
如权利要求19所述的计算机可读存储介质，其中，所述根据所述第一损失值、第二损失值和第三损失值，确定所述方言识别模型的目标损失值，包括：

根据所述第一损失值、第二损失值和第三损失值，确定所述目标损失函数的最小值；

将所述目标损失函数的最小值确定为所述方言识别模型的目标损失值。