WO2020253060A1

WO2020253060A1 - 语音识别方法、模型的训练方法、装置、设备及存储介质

Info

Publication number: WO2020253060A1
Application number: PCT/CN2019/118227
Authority: WO
Inventors: 王健宗; 魏文琦; 贾雪丽
Original assignee: 平安科技（深圳）有限公司
Priority date: 2019-06-17
Filing date: 2019-11-13
Publication date: 2020-12-24
Also published as: CN110288980A

Abstract

一种语音识别方法、模型的训练方法、装置、设备及存储介质，训练方法包括：获取训练拼音语料以及数据标签（S101）；对训练拼音语料进行分词处理（S102）；对训练分词数据进行词向量转化（S103）；获取位置数据信息，并对位置数据信息进行向量转化（S104）；对词嵌入向量与位置向量进行拼接（S105）；根据拼接词向量和数据标签进行模型训练以得到语言转化模型（S106）。

Description

语音识别方法、模型的训练方法、装置、设备及存储介质

本申请要求于2019年06月17日提交中国专利局、申请号为201910522750.8、发明名称为“语音识别方法、模型的训练方法、装置、设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及模型训练技术领域，尤其涉及一种语音识别方法、语言转化模型的训练方法、装置、设备及存储介质。

背景技术

语音识别技术，也称自动语音识别(Automatic Speech Recognition,ASR)，是指机器通过识别和理解，把语音信号变成文字的一项技术，广泛应用于智能家居和语音输入等领域，极大方便人们的生活。然而现有的语音识别技术多是基于循环神经网络(Recurrent Neural Networks，RNN)、长短期记忆网络(Long Short-Term Memory，LSTM)或门控循环单元(Gated Recurrent Unit，GRU)等语音识别模型实现的，基于语音识别模型的语音识别是一个顺序计算过程，顺序计算过程会导致信息丢失，从而影响语音识别准确率，同时又降低了语音识别效率。因此，如何提高语音识别的效率和准确率成为亟需解决的问题。

发明内容

本申请提供了一种语音识别方法、语言转化模型的训练方法、装置、计算机设备及存储介质，该语言转化模型应用于语音识别时，提高了语音识别的准确率和效率。

第一方面，本申请提供了一种语言转化模型的训练方法，所述方法包括：

获取训练拼音语料以及所述训练拼音语料对应的数据标签；

对所述训练拼音语料进行分词处理，以得到训练分词数据；

根据预设的词嵌入模型，对所述训练分词数据进行词向量转化，以得到词嵌入向量；

获取所述训练分词数据在所述训练拼音语料中的位置数据信息，并对所述位置数据信息进行向量转化，以得到位置向量；

对所述词嵌入向量与所述位置向量进行拼接，以得到拼接词向量；

基于转换神经网络，根据所述拼接词向量和所述数据标签进行模型训练以得到语言转化模型。

第二方面，本申请提供了一种语音识别方法，所述方法包括：

获取目标语音信号，根据预设处理规则对所述目标语音信号进行预处理以得到所述目标语音信号对应的频谱向量；

将所述频谱向量输入预设的音素模型中，以得到拼音特征序列；

将所述拼音特征序列输入语言转化模型，以获取目标中文文本，所述语言转化模型由如上所述的语言转化识别模型的训练方法训练得到的。

第三方面，本申请还提供了一种语言转化模型的训练装置，所述装置包括：

语料获取单元，用于获取训练拼音语料以及所述训练拼音语料对应的数据标签；

分词处理单元，用于对所述训练拼音语料进行分词处理，以得到训练分词数据；

向量转化单元，用于根据预设的词嵌入模型，对所述训练分词数据进行词向量转化，以得到词嵌入向量；

位置获取单元，用于获取所述训练分词数据在所述训练拼音语料中的位置数据信息，并对所述位置数据信息进行向量转化，以得到位置向量；

向量拼接单元，用于对所述词嵌入向量与所述位置向量进行拼接，以得到拼接词向量；

模型训练单元，用于基于转换神经网络，根据所述拼接词向量和所述数据标签进行模型训练以得到语言转化模型。

第四方面，本申请还提供了一种语音识别装置，所述装置包括：

信号获取单元，用于获取目标语音信号，根据预设处理规则对所述目标语音信号进行预处理以得到所述目标语音信号对应的频谱向量；

频谱输入单元，用于将所述频谱向量输入预设的音素模型中，以得到拼音特征序列；

文本获取单元，用于将所述拼音特征序列输入语言转化模型，以获取目标中文文本，所述语言转化模型由如上所述的语言转化识别模型的训练方法训练得到的。

第五方面，本申请还提供了一种计算机设备，所述计算机设备包括存储器和处理器；所述存储器用于存储计算机程序；所述处理器，用于执行所述计算机程序并在执行所述计算机程序时实现如上述的语言转化模型的训练方法或上述的语音识别方法。

第六方面，本申请还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时使所述处理器实现如上述的语言转化模型的训练方法或上述的语音识别方法。

本申请公开了一种语音识别方法、模型的训练方法、装置、设备及存储介质，通过对所述词嵌入向量与所述位置向量进行拼接，得到拼接词向量；基于转换神经网络，根据所述拼接词向量和所述数据标签进行模型训练以得到语言转化模型，该语言转化模型应用于语音识别，改变了语音识别的顺序计算过程，避免位置信息丢失，从而提高了语音识别准确率和效率。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请的实施例提供的一种语言转化模型的训练方法的示意流程图；

图2是图1中的语言转化模型的训练方法的子步骤示意流程图；

图3是本申请的实施例提供的获取拼接词向量的原理示意图；

图4是图1中语言转化模型的训练方法的子步骤示意流程图；

图5是图4中输出训练编码信息一实施例的子步骤示意流程图；

图6是图4中输出训练编码信息另一实施例的子步骤示意流程图；

图7是本申请的实施例提供的语音识别方法的示意流程图；

图8是图7中语音识别方法的子步骤示意流程图；

图9为本申请实施例提供的一种语言转化模型的训练装置的示意性框图；

图10是图9中语言转化模型的训练装置的子模块的示意性框图；

图11是本申请的实施例还提供一种语音识别装置的示意性框图；

图12为本申请一实施例提供的一种计算机设备的结构示意性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

附图中所示的流程图仅是示例说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解、组合或部分合并，因此实际执行的顺序有可能根据实际情况改变。

本申请的实施例提供了一种语言转化模型的训练方法、语音识别方法、装置、计算机设备及存储介质。该语言转化模型应用于语音识别时，能够提高语音识别效率和准确率。

下面结合附图，对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

请参阅图1，图1是本申请实施例提供的一种语言转化模型的训练方法的步骤示意流程图。

如图1所示，该语言转化模型的训练方法，具体包括：步骤S101至步骤S105。

S101、获取训练拼音语料以及所述训练拼音语料对应的数据标签。

具体的，可根据实际应用场景采集拼音文本，作为训练拼音语料。示例性的，对于新闻类语音，可采集新闻领域时常用的中文语句的拼音，作为训练拼音语料。

其中，数据标签为训练拼音语料对应的真实中文文本。示例性的，训练拼音语料“wo3xi3huan1bei3jing1”对应的真实中文文本为“我喜欢北京”，该训练拼音语料对应的数据标签为“我喜欢北京”。

S102、对所述训练拼音语料进行分词处理，以得到训练分词数据。

示例性的，可以基于词典分词算法或者基于统计的机器学习算法对所述训练拼音语料进行分词处理。

在一些实施方式中，对所述训练拼音语料进行分词处理的具体过程，即步骤S102具体包括：根据预设的词典，对所述训练拼音语料进行分词处理，以得到训练分词数据。

词典是一个常用词的候选集合，如我喜欢北京的训练拼音语料为“wo3xi3huan1bei3jing1”，然后从语料头到尾遍历，如果语料中有词在词典中出现过则切分该词，从而可以将“wo3xi3huan1bei3jing1”分词处理为“wo3”、“xi3huan1”和“bei3jing1”三个训练分词数据。其中，数字“3”、“1”表示声调。

在另一些实施方式中，对所述训练拼音语料进行分词处理的具体过程，即步骤S102具体包括：根据预设的词典，对所述训练拼音语料进行one-hot编码，以得到训练分词数据。

one-hot编码，即独热码、一位有效编码；独热码是如下一种码制：对于某一属性的词，有多少个状态就有多少比特，而且只有一个比特为1，其他全为0。

示例性的，预设的词典中包括季节这一属性对应的词，分别为春天的拼音“chun1tian1”、夏天的拼音“xia4tian1”、秋天的拼音“qiu1tian1”、冬天的拼音“dong1tian1”和其他的拼音“qi2ta1”。该属性共有5个不同的分类值，此时需要5个比特位表示该属性是什么值。例如，“chun1tian1”的独热码为{10000}，“xia4tian1”的独热码为{01000}，“qiu1tian1”的独热码为{00100}，“dong1tian1”的独热码为{00010}，“qi2ta1”的独热码为{00001}。

示例性的，预设的词典中还可以包括人称、水果、性别、运动方式等属性，即各属性对应的词和独热码。

假如某拼音语料中有多个词语，需要独热码编码时，依次将每个词的独热码拼接起来：例如夏天的拼音“xia4tian1”的独热码为{01000}，热的拼音“re4”的独热码为{001}，那么两者连接起来得到最后的独热码{01000001}。

使用one-hot编码对拼音语料进行处理，可以使得数据变稀疏，且one-hot编码得到的数据包含了拼音语料中词语属性的信息。

对训练拼音语料进行分词处理后得到该训练拼音语料对应的训练分词数据。

示例性的，某训练拼音语料对应的训练分词数据为：100000001000000001 000010 010000。

S103、根据预设的词嵌入模型，对所述训练分词数据进行词向量转化，以得到词嵌入向量。

在得到训练分词数据后，根据预设的词嵌入模型对所述训练分词数据进行词向量转化以得到词嵌入向量。

在一实施例中，所述预设的词嵌入模型可以为Word2vec(word to vector)词嵌入模型。多个训练分词数据组成训练分词数据集。根据该Word2vec词嵌入模型，可以将训练分词数据集中的每个训练分词数据都用一个词嵌入向量表示。在一实施方式中，词嵌入向量的维度为512。

可以理解的，在其他实施例中，预设的词嵌入模型也可以是预先训练好的其他神经网络模型，例如深度神经网络(Deep Neural Network,DNN)模型。

S104、获取所述训练分词数据在所述训练拼音语料中的位置数据信息，并对所述位置数据信息进行向量转化，以得到位置向量。

具体的，在获取训练分词数据对应的位置数据信息后，对所述位置数据信息进行向量转化处理，从而得到与该位置数据信息对应的位置向量。

在一实施例中，所述获取所述训练分词数据在所述训练拼音语料中的位置数据信息，包括：

基于位置计算公式，根据训练分词数据计算所述训练分词数据在所述训练拼音语料中的位置数据信息；所述位置计算公式为：

或，

其中，所述pos为所述训练分词数据的位置，2m或(2m+1)表示所述训练分词数据对应的词嵌入向量的维度，d _g为所述训练拼音语料对应的向量维度。

具体的，当训练分词数据对应的词嵌入向量的维度为偶数时，采用第一个公式进行计算所述训练分词数据在所述训练拼音语料中的位置数据信息。当训练分词数据对应的词嵌入向量的维度为奇数时，采用第二个公式进行计算所述训练分词数据在所述训练拼音语料中的位置数据信息。

示例性的，假设d _g为512，训练分词数据R在训练拼音语料中的位置pos为20，训练分词数据R对应的词嵌入向量的维度2m为128，此时，通过上述位置计算公式，可以计算出训练分词数据R在所述训练拼音语料中的位置数据信息

又如，假设d _g为512，训练分词数据R在训练拼音语料中的位置pos为20，训练分词数据R对应的词嵌入向量的维度2m+1为129，此时，通过上述位置计算公式，可以计算出训练分词数据R在所述训练拼音语料中的位置数据信息为

如图2所示，在一实施例中，所述对所述位置数据信息进行向量转化，以得到位置向量的步骤，包括子步骤S104a和S104b。

S104a、确定所述训练分词数据在所述训练拼音语料的排列顺序。

示例性的，训练拼音语料为“wo3xi3huan1bei3jing1”，训练分词数据“wo3”在该训练语音数据中的排列顺序为1、训练分词数据“xi3huan1”在该训练语音数据中的排列顺序为2，训练分词数据“bei3jing1”在该训练语音数据中的排列顺序为3。

S104b、根据所述排列顺序对所述位置数据信息进行向量转化，以获取与所述训练分词数据对应的位置向量。

具体的，将各位置数据信息按照训练分词数据在训练拼音语料中的排列顺序进行向量转化。

示例性的，训练分词数据“wo3”在该训练语音数据中的位置数据信息为0.863，训练分词数据“wo3”在该训练语音数据中的排列顺序为1，训练分词数据“wo3”对应的位置向量为(0.863,0,0)。训练分词数据“xi3huan1”在该训练语音数据中的位置数据信息为0.125，训练分词数据“xi3huan1”在该训练语音数据中的排列顺序为2，训练分词数据“xi3huan1”对应的位置向量为(0，0.125，0)。训练分词数据“bei3jing1”在该训练语音数据中的位置数据信息为0.928，训练分词数据“bei3jing1”在该训练语音数据中的排列顺序为3，训练分词数据“bei3jing1”对应的位置向量为(0，0,0.928)。

S105、对所述词嵌入向量与所述位置向量进行拼接，以得到拼接词向量。

具体地，在得到词嵌入向量和位置向量后，对所述词嵌入向量和位置向量进行拼接，从而得到拼接词向量。

在一实施例中，所述将所述词嵌入向量和所述位置向量进行拼接，得到拼接词向量，具体包括：将所述词嵌入向量与所述位置向量进行求和，得到所述拼接词向量。

例如，训练拼音语料为“wo3xi3huan1bei3jing1”进行分词处理，得到“wo3”、“xi3huan1”和“bei3jing1”三个训练分词数据。其中，“wo3”、“xi3huan1”和“bei3jing1”分别对应的词嵌入向量为A ₁、A ₂和A ₃，“wo3”、“xi3huan1”和“bei3jing1”分别对应的位置向量为B ₁、B ₂和B ₃。假设词嵌入向量和位置向量的维度为四维，该三个训练分词数据分别对应的拼接词向量为C ₁、C ₂和C ₃。其中，请参阅图3所示，C ₁＝A ₁+B ₁，C ₂＝A ₂+B ₂，C ₃＝A ₃+B ₃。

在另一实施例中，所述将所述词嵌入向量和所述位置向量进行拼接，得到拼接词向量，具体包括：将所述词嵌入向量与所述位置向量进行连接，得到所述拼接词向量。

在一实施方式中，将所述词嵌入向量与所述位置向量进行依次连接。例如，所述词嵌入向量为(1，0,0)，所述位置向量为(0,0.125,0)，所得到的拼接词向量为(1,0,0,0,0.125,0)。当然，在另一实施方式中，将所述位置向量与所述词嵌入向量进行依次连接。例如，所述词嵌入向量为(1，0,0)，所述位置向量为(0,0.125,0)，所得到的拼接词向量为(0,0.125,0，1,0,0)。

S106、基于转换神经网络，根据所述拼接词向量和所述数据标签进行模型训练以得到语言转化模型。

具体的，转换神经网络即Transformer Networks，简称Transformer，是一种高度并行化的神经网络。基于该转换神经网络，根据所述拼接词向量和所述数据标签进行模型训练，训练速度明显提升。

如图4所示，在一实施例中，所述基于转换神经网络，根据所述拼接词向量和所述训练拼音语料对应的数据标签进行模型训练以得到语言转化模型的步骤，包括步骤S201至S203。

S201、将所述输入所述转换神经网络的编码器，以输出训练编码信息。

具体的，转换神经网络包括编码器和解码器，编码器和解码器之间能够信息传递和交互。编码器和解码器均可以包括多层，编码器的层的维度和解码器的层的维度大小相同。

在一实施例中，编码器包括点乘注意力模型和前馈神经网络(Feed Forward)。其中，注意力(Attention)表示词与词之间的关联关系。在一实施例中，注意力表示在语言转化过程中从拼音端到中文端可能互相转化的词之间的对应关系。

具体的，请参阅图5，步骤S201所述将所述输入所述转换神经网络的编码器，以输出训练编码信息，具体包括：子步骤S201a和S201b。

S201a、将所述拼接词向量输入所述点乘注意力模型，以输出点乘表现力信息。

具体的，所述点乘注意力模型为：

其中，Q表示查询，K表示关键词，V表示值，且d _k表示Q和K的维度。

具体的，点乘注意力模型中，设置了3个向量(vector)，分别为Query Vector、Key Vector、Value Vector，分别简写为Q、K、V。将拼接词向量输入点乘注意力模型，所输出的点乘表现力信息Attention(Q,K,V)能够体现对应训练分词数据在当前位置的表现力，该过程并行化高。

S201b、将所述点乘表现力信息输入所述前馈神经网络模型，以输出训练编码信息。

具体的，所述前馈神经网络模型，具体为：

其中，Y为所述点乘表现力信息，W ₁、W ₂为权重，b ₁、b ₂为偏置函数。

在另一实施例中，编码器包括多头注意力模型和前馈神经网络(Feed Forward)。其中，注意力(Attention)表示词与词之间的关联关系。在一实施例中，注意力表示在语言转化过程中从拼音端到中文端可能互相转化的词之间的对应关系。

如图6所示，其中，所述将所述输入所述转换神经网络的编码器，以输出训练编码信息，具体包括：子步骤S201c和S201d。

S201c、将所述拼接词向量输入所述多头注意力模型，以输出多头表现力信息。

其中，所述多头注意力模型为：

MultiHead(Q,K,V)＝Concat(head ₁,...,head _n)W ⁰；

其中，

d _g为词嵌入向量的维度。

具体的，多头注意力模型中设置了多个Q、K、V矩阵和实际值的矩阵，该模型的可训练参数多，能够提升模型能力，考虑到不同位置的注意力，并能够对注意力赋予更多子空间。将拼接词向量输入多头注意力模型，所输出的多头表现力信息MultiHead(Q,K,V)能够体现对应训练分词数据在当前位置的表现力，该过程并行化高，运行速度快。

S201d、将所述多头表现力信息输入所述前馈神经网络模型，以输出训练编码信息。

可以理解的，该步骤中的前馈神经网络模型可以参照步骤S201b中的前馈神经网络模型，在此不再赘述。

S202、将所述训练编码信息输入所述转换神经网络的解码器，以输出训练中文文本。

在一实施例中，解码器和编码器均具有多层，其中解码器的层比编码器的层多一个子网络，即编码器-解码器注意力(Encoder-Decoder Attention)，表示源端到目标端的注意力机制。具体的，编码器-解码器注意力表示拼音端的词和拼音端生成的中文词之间的依赖关系。

S203、根据所述数据标签验证所述训练中文文本，并调整所述编码器和所述解码器中的参数，直至所述训练中文文本验证通过得到语言转化模型。

具体的，可以采用合适的损失函数，例如交叉熵损失函数，来衡量数据标签与训练中文文本的不一致程度，损失函数越小，模型的鲁棒性越好。示例性的，若损失函数小于预设阀值时，表示所述训练中文文本验证通过，此时停止模型训练，得到语言转化模型。

上述实施例提供的语言转化模型的训练方法，通过对所述词嵌入向量与所述位置向量进行拼接，得到拼接词向量；基于转换神经网络，根据所述拼接词向量和所述数据标签进行模型训练以得到语言转化模型，该语言转化模型应用于语音识别，改变了语音识别的顺序计算过程，避免位置信息丢失，从而提高了语音识别准确率和效率。

请参阅图7，图7是本申请的实施例提供的语音识别方法的示意流程图。其中，该语音识别方法，可应用于终端或服务器中，用于将语音信号转化为中文文本。

如图7所示，该语音识别方法，包括：步骤S301至S303。

S301、获取目标语音信号，根据预设处理规则对所述目标语音信号进行预处理以得到所述目标语音信号对应的频谱向量。

具体的，“语音”是指具有语言属性的音频，其可以由人体发出，也可以由扬声器等电子设备发出。

在本实施例中，可通过录音设备采集与用户聊天时对应的语音信号，该录音设备比如录音笔、智能手机、平板电脑、笔记本或智能穿戴设备等，比如智能手环或智能手表等。

其中，该预设处理规则为用于将所述目标语音信号转换成频域中的信息，具体比如采用快速傅里叶变换规则或者小波变换规则将在时域中采集的目标语音信息转换成频域中的信息。

S302、将所述频谱向量输入预设的音素模型中，以得到拼音特征序列。

预设的音素模型可以采用大量的频谱向量-拼音样本数据对初始神经网络进行训练获得。初始神经网络可以是各种神经网络，例如，卷积神经网络、循环神经网络、长短期记忆神经网络等。

具体的，如图8所示，所述将所述频谱向量输入预设的音素模型中，以得到拼音特征序列，包括：S302a、根据所述频谱向量，识别所述频谱向量对应的音调、声母和韵母；S302b、将所述音调、声母和韵母进行整合，以获取中文文本的拼音特征序列。

具体的，音调包括第一声(亦称阴平或平调)、第二声(亦称阳平或声调)、第三声(亦称上声或折调)、第四声(亦称去声或降调)、轻声。轻声、第一声、第二声、第三声和第四声可以分别用数字“0”、“1”、“2”、“3”、“4”表示。

例如，“我喜欢北京”的源语音数据对应的频谱向量输入至预设的音素模型，可以识别该频谱向量对应的音调按时间顺序依次为“3”、“3”、“1”、“3”、“1”；对应的声母按时间顺序依次为“w”、“x”、“h”、“b”、“j”；对应的韵母按时间顺序依次为“o”、“i”、“uan”、“ei”、“ing”。

识别该频谱向量对应的音调、声母和韵母后，将所述音调、声母和韵母进行整合，得到“我喜欢北京”中文文本的拼音特征序列{wo3xi3huan1bei3jing1}。

S303、将所述拼音特征序列输入语言转化模型，以获取目标中文文本。

具体的，所述语言转化模型由上述的语言转化识别模型的训练方法训练得到的。通过该语言模型对输入的拼音特征序列进行拼音中文转化，从而得到目标中文文本。

上述语音识别方法，通过获取目标语音信号，根据预设处理规则对所述目标语音信号进行预处理以得到所述目标语音信号对应的频谱向量；将所述频谱向量输入预设的音素模型中，以得到拼音特征序列；将所述拼音特征序列输入语言转化模型，以获取目标中文文本。由于语言转化模型改变了语音识别的顺序计算过程，避免位置信息丢失，因而提高了语音识别准确率和效率。

请参阅图9，图9是本申请的实施例提供的一种语言转化模型的训练模型的训练装置的示意性框图，该语言转化模型的训练模型的训练装置用于执行前述任一项语言转化模型的训练方法。其中，该语言转化模型的训练模型的训练装置可以配置于服务器或终端中。

其中，服务器可以为独立的服务器，也可以为服务器集群。该终端可以是手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式设备等电子设备。

如图9所示，语言转化模型的训练模型的训练装置400包括：语料获取单元401、分词处理单元402、向量转化单元403、位置获取单元404、向量拼接单元405和模型训练单元406。

语料获取单元401，用于获取训练拼音语料以及所述训练拼音语料对应的数据标签。

分词处理单元402，用于对所述训练拼音语料进行分词处理，以得到训练分词数据。

向量转化单元403，用于根据预设的词嵌入模型，对所述训练分词数据进行词向量转化，以得到词嵌入向量。

位置获取单元404，用于获取所述训练分词数据在所述训练拼音语料中的位置数据信息，并对所述位置数据信息进行向量转化，以得到位置向量。

向量拼接单元405，用于对所述词嵌入向量与所述位置向量进行拼接，以得到拼接词向量。

模型训练单元406，用于基于转换神经网络，根据所述拼接词向量和所述数据标签进行模型训练以得到语言转化模型。

请参阅图9，在一个实施例中，位置获取单元404包括数据计算子单元4041。该数据计算子单元4041用于：基于位置计算公式，根据训练分词数据计算所述训练分词数据在所述训练拼音语料中的位置数据信息。

请再次参阅图9，在一个实施例中，位置获取单元404包括顺序确定子单元4042和向量转化子单元4043。

顺序确定子单元4042，用于确定所述训练分词数据在所述训练拼音语料的排列顺序。

向量转化子单元4043，用于根据所述排列顺序对所述位置数据信息进行向量转化，以获取与所述训练分词数据对应的位置向量。

请再参阅图10，在一个实施例中，模型训练单元406包括编码输出子单元4061、文本输出子单元4062和文本验证子单元4063。

编码输出子单元4061，用于将所述拼接词向量输入所述转换神经网络的编码器，以输出训练编码信息。

文本输出子单元4062，用于将所述训练编码信息输入所述转换神经网络的解码器，以输出训练中文文本。

文本验证子单元4063，用于根据所述数据标签验证所述训练中文文本，并调整所述编码器和所述解码器中的参数，直至所述训练中文文本验证通过得到语言转化模型。

请再次参阅图10，在一实施中，所述编码器包括点乘注意力模型和前馈神经网络模型。编码输出子单元4061包括点乘输出子模块4061a和信息输出子模块4061b。

点乘输出子模块4061a，用于将所述拼接词向量输入所述点乘注意力模型，以输出点乘表现力信息。

信息输出子模块4061b，用于将所述点乘表现力信息输入所述前馈神经网络模型，以输出训练编码信息。

请参阅图11，图11是本申请的实施例还提供一种语音识别装置的示意性框图，该语音识别装置用于执行前述的情绪识别方法。其中，该语音识别装置可以配置于服务器或终端中。

如图11所示，该语音识别装置500，包括：信号获取单元501、频谱输入单元502和文本获取单元503。

信号获取单元501，用于获取目标语音信号，根据预设处理规则对所述目标语音信号进行预处理以得到所述目标语音信号对应的频谱向量。

频谱输入单元502，用于将所述频谱向量输入预设的音素模型中，以得到拼音特征序列。

文本获取单元503，用于将所述拼音特征序列输入语言转化模型，以获取目标中文文本，所述语言转化模型由上述的语言转化识别模型的训练方法训练得到的。

需要说明的是，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置和各单元的具体工作过程，可以参考前述语方法实施例中的对应过程，在此不再赘述。

上述装置可以实现为一种计算机程序的形式，该计算机程序可以在如图12所示的计算机设备上运行。

请参阅图12，图12是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备可以是服务器或终端。

参阅图12，该计算机设备包括通过系统总线连接的处理器、存储器和网络接口，其中，存储器可以包括非易失性存储介质和内存储器。

非易失性存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令，该程序指令被执行时，可使得处理器执行任意一种语言转化模型的训练方法，或执行任意一种语音识别方法。

处理器用于提供计算和控制能力，支撑整个计算机设备的运行。

内存储器为非易失性存储介质中的计算机程序的运行提供环境，该计算机程序被处理器执行时，可使得处理器执行一种语言转化模型的训练方法，或执行任意一种语音识别方法。

该网络接口用于进行网络通信，如发送分配的任务等。本领域技术人员可以理解，图12中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

应当理解的是，处理器可以是中央处理单元(Central Processing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

其中，所述处理器用于运行存储在存储器中的计算机程序，以实现如下步骤：

获取训练拼音语料以及所述训练拼音语料对应的数据标签；对所述训练拼音语料进行分词处理，以得到训练分词数据；根据预设的词嵌入模型，对所述训练分词数据进行词向量转化，以得到词嵌入向量；获取所述训练分词数据在所述训练拼音语料中的位置数据信息，并对所述位置数据信息进行向量转化，以得到位置向量；对所述词嵌入向量与所述位置向量进行拼接，以得到拼接词向量；基于转换神经网络，根据所述拼接词向量和所述数据标签进行模型训练以得到语言转化模型。

在一个实施例中，所述处理器在实现所述获取所述训练分词数据在所述训练拼音语料中的位置数据信息时，用于实现：

或，

其中，所述pos为所述训练分词数据的位置，m表示所述训练分词数据对应的词嵌入向量的维度，d _g为所述训练拼音语料对应的向量维度。

在一个实施例中，所述处理器在实现所述对所述位置数据信息进行向量转化，以得到位置向量时，用于实现：

确定所述训练分词数据在所述训练拼音语料的排列顺序；根据所述排列顺序对所述位置数据信息进行向量转化，以获取与所述训练分词数据对应的位置向量。

在一个实施例中，所述处理器在实现所述基于转换神经网络，根据所述拼接词向量和所述训练拼音语料对应的数据标签进行模型训练以得到语言转化模型时，用于实现：

将所述拼接词向量输入所述转换神经网络的编码器，以输出训练编码信息；将所述训练编码信息输入所述转换神经网络的解码器，以输出训练中文文本；根据所述数据标签验证所述训练中文文本，并调整所述编码器和所述解码器中的参数，直至所述训练中文文本验证通过得到语言转化模型。

在一个实施例中，所述处理器在实现所述编码器包括点乘注意力模型和前馈神经网络模型；所述将所述拼接词向量输入编码器，以输出训练编码信息时，用于实现：

将所述拼接词向量输入所述点乘注意力模型，以输出点乘表现力信息；将所述点乘表现力信息输入所述前馈神经网络模型，以输出训练编码信息。

其中，在另一实施例中，所述处理器用于运行存储在存储器中的计算机程序，以实现如下步骤：

获取目标语音信号，根据预设处理规则对所述目标语音信号进行预处理以得到所述目标语音信号对应的频谱向量；将所述频谱向量输入预设的音素模型中，以得到拼音特征序列；将所述拼音特征序列输入语言转化模型，以获取目标中文文本，所述语言转化模型由上述任一项所述的语言转化识别模型的训练方法训练得到的。

本申请的实施例中还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序中包括程序指令，所述处理器执行所述程序指令，实现本申请实施例提供的任一项语言转化模型的训练方法，或任一项语音识别方法。

其中，所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元，例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备，例如所述计算机设备上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

一种语言转化模型的训练方法，包括：

获取训练拼音语料以及所述训练拼音语料对应的数据标签；

对所述训练拼音语料进行分词处理，以得到训练分词数据；

根据预设的词嵌入模型，对所述训练分词数据进行词向量转化，以得到词嵌入向量；

基于位置计算公式，根据训练分词数据计算所述训练分词数据在所述训练拼音语料中的位置数据信息，并对所述位置数据信息进行向量转化，以得到位置向量；所述位置计算公式为：

或，

其中，所述pos为所述训练分词数据的位置，m表示所述训练分词数据对应的词嵌入向量的维度，d _g为所述训练拼音语料对应的向量维度；

对所述词嵌入向量与所述位置向量进行拼接，以得到拼接词向量；

基于转换神经网络，根据所述拼接词向量和所述数据标签进行模型训练以得到语言转化模型。
根据权利要求1所述的语言转化模型的训练方法，其中，所述对所述训练拼音语料进行分词处理，以得到训练分词数据，包括：

根据预设的词典，对所述训练拼音语料进行one-hot编码，以得到训练分词数据。
根据权利要求1所述的语言转化模型的训练方法，其中，所述对所述位置数据信息进行向量转化，以得到位置向量，包括：

确定所述训练分词数据在所述训练拼音语料的排列顺序；

根据所述排列顺序对所述位置数据信息进行向量转化，以获取与所述训练分词数据对应的位置向量。
根据权利要求1-3任一项所述的语言转化模型的训练方法，其中，所述基于转换神经网络，根据所述拼接词向量和所述训练拼音语料对应的数据标签进行模型训练以得到语言转化模型，包括：

将所述拼接词向量输入所述转换神经网络的编码器，以输出训练编码信息；

将所述训练编码信息输入所述转换神经网络的解码器，以输出训练中文文本；

根据所述数据标签验证所述训练中文文本，并调整所述编码器和所述解码器中的参数，直至所述训练中文文本验证通过得到语言转化模型。
根据权利要求4所述的语言转化模型的训练方法，其中，所述编码器包括点乘注意力模型和前馈神经网络模型；所述将所述拼接词向量输入编码器，以输出训练编码信息，包括：

将所述拼接词向量输入所述点乘注意力模型，以输出点乘表现力信息；

将所述点乘表现力信息输入所述前馈神经网络模型，以输出训练编码信息。
一种语音识别方法，包括：

获取目标语音信号，根据预设处理规则对所述目标语音信号进行预处理以得到所述目标语音信号对应的频谱向量；

将所述频谱向量输入预设的音素模型中，以得到拼音特征序列；

将所述拼音特征序列输入语言转化模型，以获取目标中文文本，所述语言转化模型由如权利要求1-5任一项所述的语言转化识别模型的训练方法训练得到的。
一种语言转化模型的训练装置，包括：

语料获取单元，用于获取训练拼音语料以及所述训练拼音语料对应的数据标签；

分词处理单元，用于对所述训练拼音语料进行分词处理，以得到训练分词数据；

向量转化单元，用于根据预设的词嵌入模型，对所述训练分词数据进行词向量转化，以得到词嵌入向量；

位置获取单元，用于基于位置计算公式，根据训练分词数据计算所述训练分词数据在所述训练拼音语料中的位置数据信息，并对所述位置数据信息进行向量转化，以得到位置向量；所述位置计算公式为：

或，

其中，所述pos为所述训练分词数据的位置，m表示所述训练分词数据对应的词嵌入向量的维度，d _g为所述训练拼音语料对应的向量维度；

向量拼接单元，用于对所述词嵌入向量与所述位置向量进行拼接，以得到拼接词向量；

模型训练单元，用于基于转换神经网络，根据所述拼接词向量和所述数据标签进行模型训练以得到语言转化模型。
一种语音识别装置，包括：

信号获取单元，用于获取目标语音信号，根据预设处理规则对所述目标语音信号进行预处理以得到所述目标语音信号对应的频谱向量；

频谱输入单元，用于将所述频谱向量输入预设的音素模型中，以得到拼音特征序列；

文本获取单元，用于将所述拼音特征序列输入语言转化模型，以获取目标中文文本，所述语言转化模型由如权利要求1-5任一项所述的语言转化识别模型的训练方法训练得到的。
一种计算机设备，所述计算机设备包括存储器和处理器；

所述存储器用于存储计算机程序；

所述处理器，用于执行所述计算机程序并在执行所述计算机程序时实现如下步骤：

获取训练拼音语料以及所述训练拼音语料对应的数据标签；

对所述训练拼音语料进行分词处理，以得到训练分词数据；

根据预设的词嵌入模型，对所述训练分词数据进行词向量转化，以得到词嵌入向量；

基于位置计算公式，根据训练分词数据计算所述训练分词数据在所述训练拼音语料中的位置数据信息，并对所述位置数据信息进行向量转化，以得到位置向量；所述位置计算公式为：

或，

其中，所述pos为所述训练分词数据的位置，m表示所述训练分词数据对应的词嵌入向量的维度，d _g为所述训练拼音语料对应的向量维度；

对所述词嵌入向量与所述位置向量进行拼接，以得到拼接词向量；

基于转换神经网络，根据所述拼接词向量和所述数据标签进行模型训练以得到语言转化模型。
根据权利要求9所述的计算机设备，其中，所述对所述训练拼音语料进行分词处理，以得到训练分词数据，包括：

根据预设的词典，对所述训练拼音语料进行one-hot编码，以得到训练分词数据。
根据权利要求9所述的计算机设备，其中，所述对所述位置数据信息进行向量转化，以得到位置向量，包括：

确定所述训练分词数据在所述训练拼音语料的排列顺序；

根据所述排列顺序对所述位置数据信息进行向量转化，以获取与所述训练分词数据对应的位置向量。
根据权利要求9-11任一项所述的计算机设备，其中，所述基于转换神经网络，根据所述拼接词向量和所述训练拼音语料对应的数据标签进行模型训练以得到语言转化模型，包括：

将所述拼接词向量输入所述转换神经网络的编码器，以输出训练编码信息；

将所述训练编码信息输入所述转换神经网络的解码器，以输出训练中文文本；

根据所述数据标签验证所述训练中文文本，并调整所述编码器和所述解码器中的参数，直至所述训练中文文本验证通过得到语言转化模型。
根据权利要求12所述的计算机设备，其中，所述编码器包括点乘注意力模型和前馈神经网络模型；所述将所述拼接词向量输入编码器，以输出训练编码信息，包括：

将所述拼接词向量输入所述点乘注意力模型，以输出点乘表现力信息；

将所述点乘表现力信息输入所述前馈神经网络模型，以输出训练编码信息。
一种计算机设备，所述计算机设备包括存储器和处理器；

所述存储器用于存储计算机程序；

所述处理器，用于执行所述计算机程序并在执行所述计算机程序时，实现如下步骤：

获取目标语音信号，根据预设处理规则对所述目标语音信号进行预处理以得到所述目标语音信号对应的频谱向量；

将所述频谱向量输入预设的音素模型中，以得到拼音特征序列；

将所述拼音特征序列输入语言转化模型，以获取目标中文文本，所述语言转化模型由如权利要求1-5任一项所述的语言转化识别模型的训练方法训练得到的。
一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时使所述处理器实现如下步骤：

获取训练拼音语料以及所述训练拼音语料对应的数据标签；

对所述训练拼音语料进行分词处理，以得到训练分词数据；

根据预设的词嵌入模型，对所述训练分词数据进行词向量转化，以得到词嵌入向量；

基于位置计算公式，根据训练分词数据计算所述训练分词数据在所述训练拼音语料中的位置数据信息，并对所述位置数据信息进行向量转化，以得到位置向量；所述位置计算公式为：

或，

其中，所述pos为所述训练分词数据的位置，m表示所述训练分词数据对应的词嵌入向量的维度，d _g为所述训练拼音语料对应的向量维度；

对所述词嵌入向量与所述位置向量进行拼接，以得到拼接词向量；

基于转换神经网络，根据所述拼接词向量和所述数据标签进行模型训练以得到语言转化模型。
根据权利要求15所述的计算机可读存储介质，其中，所述对所述训练拼音语料进行分词处理，以得到训练分词数据，包括：

根据预设的词典，对所述训练拼音语料进行one-hot编码，以得到训练分词数据。
根据权利要求15所述的计算机可读存储介质，其中，所述对所述位置数据信息进行向量转化，以得到位置向量，包括：

确定所述训练分词数据在所述训练拼音语料的排列顺序；

根据所述排列顺序对所述位置数据信息进行向量转化，以获取与所述训练分词数据对应的位置向量。
根据权利要求15-17任一项所述的计算机可读存储介质，其中，所述基于转换神经网络，根据所述拼接词向量和所述训练拼音语料对应的数据标签进行模型训练以得到语言转化模型，包括：

将所述拼接词向量输入所述转换神经网络的编码器，以输出训练编码信息；

将所述训练编码信息输入所述转换神经网络的解码器，以输出训练中文文本；

根据所述数据标签验证所述训练中文文本，并调整所述编码器和所述解码器中的参数，直至所述训练中文文本验证通过得到语言转化模型。
根据权利要求18所述的计算机可读存储介质，其中，所述编码器包括点乘注意力模型和前馈神经网络模型；所述将所述拼接词向量输入编码器，以输出训练编码信息，包括：

将所述拼接词向量输入所述点乘注意力模型，以输出点乘表现力信息；

将所述点乘表现力信息输入所述前馈神经网络模型，以输出训练编码信息。
一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时使所述处理器实现如下步骤：

获取目标语音信号，根据预设处理规则对所述目标语音信号进行预处理以得到所述目标语音信号对应的频谱向量；

将所述频谱向量输入预设的音素模型中，以得到拼音特征序列；

将所述拼音特征序列输入语言转化模型，以获取目标中文文本，所述语言转化模型由如权利要求1-5任一项所述的语言转化识别模型的训练方法训练得到的。