WO2021136029A1

WO2021136029A1 - 重打分模型训练方法及装置、语音识别方法及装置

Info

Publication number: WO2021136029A1
Application number: PCT/CN2020/138536
Authority: WO
Inventors: 李安; 陈江; 胡正伦; 傅正佳
Original assignee: 百果园技术(新加坡)有限公司; 李安
Priority date: 2019-12-31
Filing date: 2020-12-23
Publication date: 2021-07-08
Also published as: CN111179916B; CN111179916A

Abstract

一种重打分模型训练方法及装置、语音识别方法及装置，训练方法包括：获取语音数据样本的多个语音识别结果和语音数据样本的第一标签，第一标签为预先标注的标签；获取每一个语音识别结果在多个不同语言模型下的多个分数；基于语音识别结果、多个分数和第一标签获得语音数据样本的样本特征向量和第二标签；采用样本特征向量和第二标签训练模型得到重打分模型。

Description

重打分模型训练方法及装置、语音识别方法及装置

本申请要求在2019年12月31日提交中国专利局、申请号为201911413152.3的中国专利申请的优先权，该申请的全部内容通过引用结合在本申请中。

技术领域

本申请实施例涉及语音识别技术领域，例如一种重打分模型训练方法、重打分模型训练装置、语音识别方法、语音识别装置、设备和存储介质。

背景技术

自动语音识别(Automatic Speech Recognition，ASR)是一种将语音转为文字的技术，ASR能够应用于语音翻译、人机交互，智能家居等应用场景。

在语音识别的解码过程中，语音数据可以得到多个语音识别结果，比如语音内容是：“我是好学生”，在语音识别解码的过程中可能得到如下多个语音识别结果：“握是号学声”，“窝时浩学升”，“卧室好学生”，“我是好学生”……，对于究竟选择哪一条最合适或者合理关乎着语音识别结果的准确性。

在相关技术中，通常是对每个语音识别结果进行打分，分数越高的语音识别结果的合理性或准确性越大，然而只依靠单一打分结果来作为判断标准准确度还是比较低，因此出现了同时通过多个语言模型来对每个语音识别结果打分后进行综合判断。

然而，相关技术中的重打分机制是直接将每个识别结果的多个分数相加或者根据人工设置的权重对每个分数添加权重后计算总得分，一方面，人为主观影响最终分数，准确度差，另一方面，某一个打分机制改变，需要重新设置该打分机制的权重，适用性差。

发明内容

本申请实施例提供一种重打分模型训练方法、重打分模型训练装置、语音识别方法、语音识别装置、设备和存储介质，以避免相关技术中语音识别重打分存在人为主观性影响大和适用性差的情况。

第一方面，本申请实施例提供了一种重打分模型训练方法，包括：

获取至少一个语音数据样本中的每一个语音数据样本的多个语音识别结果和所述每一个语音数据样本的第一标签，所述第一标签为预先标注的所述每一个语音数据样本的标签；

获取每一个语音识别结果在多个不同语言模型下的多个分数；

基于所述每一个语音数据样本的多个语音识别结果、所述多个分数和所述第一标签，获得所述语音数据样本的多个样本特征向量和多个第二标签，所述样本特征向量和所述第二标签用于所述重打分模型的训练；

采用所述至少一个语音数据样本对应的所述样本特征向量和所述第二标签对模型进行训练，得到用于对所述语音识别结果进行重打分的重打分模型。

第二方面，本申请实施例提供了一种语音识别方法，包括：

获取待识别语音数据的多个语音识别结果；

基于所述每一个语音识别结果和所述多个分数，获得所述待识别语音数据的每一个语音识别结果对应的特征向量；

将所述每一个语音识别结果对应的特征向量输入预先训练的重打分模型中获得每一个语音识别结果的最终分数；

将多个语音识别结果的最终分数中的最小最终分数对应的语音识别结果确定为所述待识别语音数据的最终识别结果；

其中，所述重打分模型通过本申请实施例所述的重打分模型训练方法训练得到。

第三方面，本申请实施例提供了一种重打分模型训练装置，包括：

第一获取模块，设置为获取至少一个语音数据样本中的每一个语音数据样本的多个语音识别结果和所述每一个语音数据样本的第一标签，所述第一标签为预先标注的所述每一个语音数据样本的标签；

打分模块，设置为获取每一个语音识别结果在多个不同语言模型下的多个分数；

第二获取模块，设置为基于所述每一个语音数据样本的多个语音识别结果、所述多个分数和所述第一标签，获得所述每一个语音数据样本对应的的多个样本特征向量和多个第二标签，样本特征向量和第二标签用于重打分模型的训练；

模型训练模块，设置为根据所述至少一个语音数据样本对应的样本特征向量和所述第二标签训练模型，得到用于对所述语音识别结果进行重打分的重打分模型。

第四方面，本申请实施例提供了一种语音识别装置，包括：

语音识别结果获取模块，设置为获取待识别语音数据的多个语音识别结果；

初始分数获取模块，设置为获取每一个语音识别结果在多个不同语言模型下的多个分数；

特征向量获取模块，设置为基于所述每一个语音识别结果和所述多个分数，获得所述待识别语音数据的每一个语音识别结果对应的特征向量；

最终分数预测模块，设置为将所述每一个语音识别结果对应的样本特征向量输入预先训练的重打分模型中获得每一个语音识别结果的最终分数；

语音识别结果确定模块，设置为将多个语音识别结果的最终分数中的最小最终分数对应的语音识别结果确定为所述待识别语音数据的最终识别结果；

其中，所述重打分模型通过本申请实施例任一项所述的重打分模型训练方法训练得到。

第五方面，本申请实施例提供了一种设备，所述设备包括：

至少一个处理器；

存储装置，设置为存储至少一个程序，

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现以下至少之一：本申请任一实施例所述的重打分模型训练方法，本申请任一实施例所述的语音识别方法。

第六方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现以下至少之一：本申请任一实施例所述的重打分模型训练方法，本申请任一实施例所述的语音识别方法。

附图说明

图1是本申请实施例一提供的一种重打分模型训练方法的步骤流程图；

图2是本申请实施例中语音数据样本解码后得到的加权有向无环图的示意图；

图3是本申请实施例二提供的一种重打分模型训练方法的步骤流程图；

图4是本申请实施例三提供的一种语音识别方法的步骤流程图；

图5是本申请实施例四提供的一种重打分模型训练装置的结构框图；

图6是本申请实施例五提供的一种语音识别装置的结构框图；

图7是本申请实施例六提供的一种设备的结构框图。

具体实施方式

实施例一

图1为本申请实施例一提供的一种重打分模型训练方法的步骤流程图，本申请实施例可适用于训练重打分模型的情况，该方法可以由本申请实施的重打分模型训练装置来执行，该重打分模型训练装置可以由硬件或软件来实现，并集成在本申请实施例所提供的设备中，如图1所示，本申请实施例的重打分模型训练方法可以包括步骤S101至S104。

在S101中，获取至少一个语音数据样本中的每一个语音数据样本的多个语音识别结果和所述每一个语音数据样本的第一标签，所述第一标签为预先标注的所述每一个语音数据样本的标签。

在本申请实施例中，对于一条语音数据，通过语音识别编解码模型后可以得到多个语音识别结果，每个语音识别结果包括一系列有序的字、词组成，即对于一条语音数据可以得到多条语音识别解码路径。

如图2所示，语音识别解码结果是一个加权有向无环图，图中的每条路径为语音识别解码过程中可选词序列的一种表示，在图2中，圆圈表示一条语音数据经过语音识别解码后的字、词，每条边均设置有一个权重，从最左边到最右边的圆圈具有多条路径，每条路径视为一个语音识别结果。同时，该语音数据样本具有人为标注的、真实的语音识别结果，该真实的语音识别结果为该语音数据样本的第一标签。示例性地，语音内容是：“我是好学生”，在语音识别解码的过程中可能得到如下多个语音识别结果：“握是号学声”，“窝时浩学升”，“卧室好学生”，“我是好学生”。

可选地，对于语音数据样本，可以通过Encoder-Decoder(编码-解码)得到语音数据样本的多个语音识别结果，当然，还可以通过其他方式得到语音数据样本的多个语音识别结果，例如，可以通过人工生成的方式得到多个语音识别结果。

在S102中，获取每一个语音识别结果在多个不同语言模型下的多个分数。

在本申请实施例中，语言模型可以构建字符串s的概率分布p(s)，p(s)表达了字符串s为一个句子的概率，此处的概率指的是组成字符串的组合，该组合组成的一句话是否是自然语言(人话)的概率。

本申请实施例在获得语音识别结果后，可以将每一种语音识别结果输入多个不同语言模型中得到该语音识别结果的分数，该分数表达了该语音识别结果符合自然语音的概率，可选地，不同的语言模型可以是声学模型、n-gram语言模型和RNNLM模型。

声学模型对声学、语音学、环境的变量、说话人性别、口音等的差异的知识表示，声学模型可以用lstm+ctc训练，得到语音特征到音素的映射。声学模型的任务是给定文字之后发出给到文字语音的概率。

n-gram语言模型是一种基于统计学的语言模型，用来根据前(n-1)个词来预测第n个词，即计算一个句子的概率，亦即计算组成一个句子的一系列词语的概率。

RNNLM模型为通过RNN及其变种网络来训练的语言模型，其任务是通过上文来预测下一个词。

当然，在实际应用中，本领域技术人员还可以通过其他语言模型来对每种语音识别结果进行打分，本申请实施例对使用何种语言模型来对语音识别结果进行打分不加以限制，对语言模型的数量也不加以限制。

在S103中，基于所述每一个语音数据样本的多个语音识别结果、所述多个分数和所述第一标签，获得所述每一个语音数据样本对应的多个样本特征向量和多个第二标签，样本特征向量和第二标签用于重打分模型的训练。

在本申请的可选实施例中，针对每个语音识别结果，可以对语音识别结果进行分析以提取语音识别结果的词频、字频、字或词排序、句子长度、字数、词数等作为句词结构特征，将语音识别结果在多个不同语言模型下的多个分数和句词结构特征组合为语音识别结果的样本特征向量，然后采用语音识别结果和语音数据样本的第一标签计算语音识别结果的字符错误率作为语音识别结果的第二标签。

在S104中，采用所述至少一个语音数据样本对应的样本特征向量和所述第二标签训练模型，得到用于对所述语音识别结果进行重打分的重打分模型。

示例性的，可以将样本特征向量输入初始的模型参数后的模型中，得到每个语音识别结果的预估字符错误率，采用该预估字符错误率和该语音识别结果的第二标签计算损失率，在损失率满足预设条件时，停止训练模式，在损失未满足预设条件的情况下，根据损失率调整模型参数重新迭代训练模型，直到损失率满足预设条件，得到设置为对语音识别结果进行重打分的重打分模型，即对于每条语音数据样本的多个语音识别结果，可以通过重打分模型重新打分获得字符错误率作为最终分数，最终分数最低的语音识别结果即为语音数据样本的最佳语音识别结果。

本申请实施例在获取语音数据样本的多个语音识别结果和语音数据样本的第一标签后；获取每一个语音识别结果在多个不同语言模型下的多个分数，并基于语音识别结果、多个分数和第一标签获得语音数据样本的样本特征向量和第二标签，样本特征向量和第二标签用于重打分模型的训练；采用样本特征向量和第二标签训练模型得到重打分模型。本申请实施例基于语音识别结果、分数和第一标签获得语音数据样本的样本特征向量和第二标签，样本特征向量和第二标签用于重打分模型的训练，挖掘出了第二标签和多个不同语言模型打分得到的分数隐含的内在关联，以得到不同语言模型的打分分数的最佳组合方式，排除了人为主观性因素，确保了语音识别结果的准确度，即使各个语言模型打分机制改变，也无需修改各个分数之间的权重，提高了重打分模型的通用性和普适性。

实施例二

图3为本申请实施例二提供的一种重打分模型训练方法的步骤流程图，本申请实施例在前述实施例一的基础上进行细化，如图3所示，本申请实施例的重打分模型训练方法可以包括步骤S201至S212。

在S201中，将所述至少一个语音数据样本中的每一个语音数据样本输入解码模型中得到多个语音识别结果，所述每一个语音数据样本具有预先标注的第一标签。

本申请实施例中，语音数据样本可以为任意语音数据，该语音数据可以输入语音识别解码模型(如通过Encoder-Decoder(编码-解码))中获得多个识别结果，每个语音识别结果具有一个概率，该概率表达了该语音识别结果为预先标注的标签的概率，预先标注的第一标签为人为标注的语音数据样本对应的真实文本。

在S202中，提取预设数量的语音识别结果作为所述每一个语音数据样本的多个语音识别结果。

示例性的，可以根据每个语音识别结果的概率对所有语音识别结果进行排序，将排序为TOP K的K个语音识别结果提取出来作为语音数据样本的多个语音识别结果。

在S203中，将每一个语音识别结果分别输入多个不同语言模型中，获得所述语音识别结果在不同语言模型下的多个分数。

在本申请的可选实施例中，语言模型可以包括声学模型、n-gram语言模型和RNNLM语言模型三个语言模型。在得到多个语音识别结果后，可以将每个语音识别结果分别输入声学模型、n-gram语言模型和RNNLM语言模型中得到每个语音识别结果的3个分数。当然，在实际应用中，本领域技术人员还可以将语音识别结果输入其他语言模型中，本申请实施例对语言模型和语语言模型的数量不加以限制。

在S204中，针对每个语音识别结果，对所述语音识别结果进行分析以提取所述语音识别结果的句词结构特征。

在本申请实施例中，语音识别结果由一系列有序的字、词组成，可以统计语音识别结果中包含的字的字数、词数，字、词出现的频率、句子的长度、字或词的排序等特征作为句词结构特征。

在S205中，将所述每一个语音识别结果在多个不同语言模型下的多个分数和所述句词结构特征组合为所述每一个语音识别结果对应的样本特征向量。

示例性的，可以将语音识别结果的多个分数和句词结构特征连接形成一个样本特征向量A(分数1，分数2，分数3，词频，字频，字或词排序，句子长度，字数，词数)，其中，分数1、分数2、分数3、词频、字频、字或词排序、句子长度、字数及词数分别为样本特征向量A的特征值。

在S206中，采用所述每一个语音识别结果和所述第一标签，计算所述每一个语音识别结果的字符错误率，作为所述每一个语音识别结果的第二标签。

字符错误率(Character Error Rate，CER)是一种评分方式，是评价ASR模型优良的一种标准，字符错误率根据由预测值到真实值的插入、删除、替换的次数之和，即对于语音数据样本其具有真实的第一标签，该第一标签为语音数据样本对应的真实文本，而语音识别结果并不一定是真实文件，该语音识别结果到真实文本需要插入、删除、替换，统计插入、删除、替换的次数即为字符错误率。

例如，对于标签为真实文本“我是三好学生”，如果语音识别结果为“握是好学生”，则需要替换字1次，插入字1次，可以确定其字符错误率为2。

对于每个语音识别结果，可以将该语音识别结果与解码时语音数据样本的第一标签进行对比，计算出每个语音识别结果的字符错误率作为该语音识别结果的第二标签。

在S207中，对所述至少一个语音数据样本对应的每一个样本特征向量进行归一化处理，得到归一化处理后的样本特征向量。

在本申请的可选实施例中，可以在所述至少一个语音数据样本对应的所有样本特征向量中确定出模最大的样本特征向量和模最小的样本特征向量，计算模最大的样本特征向量和模最小的样本特征向量的差值得到向量差值，将所述至少一个语音数据样本对应的每一个样本特征向量除以向量差值的模得到的结果，作为所述至少一个语音数据样本对应的每一个样本特征向量归一化处理后的样本特征向量，归一化处理的计算公式如下：

上述公式中，x _i为第i个语音识别结果对应的样本特征向量，x′ _i为归一化处理后的样本特征向量，x _max和x _min为语音数据样本的多个语音识别结果的样本特征向量中的模最大的样本特征向量和模最小的样本特征向量，通过归一化处理后，可以将多个语音识别结果的样本特征向量统一在一量纲下，便于对样本特征向量量化表达，为候选模型训练提供高质量的训练数据，以提高模型训练的精度。

在S208中，初始化模型参数。

示例性的，本申请实施例的模型可以为线性回归，支持向量机，决策树模型等机器学习算法训练模型，本申请示例以线性回归为例，建模方程为：

其中，a _m为样本特征向量的第m个特征值对应的系数，z _m为样本特征向量x _i的第m个特征值，y _i为第i个样本特征向量的预估字符错误率，n为样本特征向量中的特征值的个数，在初始化a _m后，模型训练的目的是得到最优a _m，使得y _i接近第二标签。

在S209中，将所述每一个语音识别结果对应的归一化处理后的样本特征向量输入所述模型中，获得所述每一个语音识别结果的预估字符错误率。

示例性的，可以将语音识别结果归一化处理后的样本特征向量输入初始化后的模型中，即将S207中的x′ _i输入模型中，对于每个x′ _i，模型输出预估字符错误率y _i。

在S210中，采用所述每一个语音识别结果的预估字符错误率和所述第二标签计算损失率。

在本申请实施例中，损失函数为均方损失函数：

mse loss为损失率，y _i为第i个样本特征向量的预估字符错误率，

为第i个样本特征向量对应的第二标签，示例性的，语音数据样本的数量为N,K为从一条语音数据样本的多个语音识别结果中提取出来的语音识别结果的数量，因此，提取出来的语音识别结果的总数量为N*K，将该N*K个语音识别结果的预估字符错误率和第二标签代入上述均方损失函数中计算得到损失率。

在S211中，在所述损失率未满足预设条件时，采用所述损失率计算梯度。

如果计算得到的损失率小于预设阈值，则停止对模型进行迭代，在损失率大于或等于预设阈值的情况下，采用损失率计算梯度，示例性的，可以采用预设梯度算法计算梯度，本申请实施例对计算梯度的算法不加以限制。

在S212中，采用所述梯度调整所述模型参数，返回S209。

示例性的，可以采用所述梯度和预设的学习率(学习率为模型的超参数)对模型的当前参数进行梯度下降，获得调整模型参数后的模型，返回S209继续对模型进行迭代，直到损失率小于预设阈值，当然也可以是迭代次数达到预设次数时停止训练模型，得到用于对语音识别结果进行重打分的重打分模型。

本申请实施例将语音数据样本输入解码模型中得到多个语音识别结果，提取预设数量的语音识别结果作为语音数据样本的多个语音识别结果，将每一种语音识别结果分别输入多个不同语言模型中，获得语音识别结果在不同语言模型下的分数，针对每个语音识别结果对语音识别结果进行分析以提取语音识别结果的句词结构特征，将语音识别结果在多个不同语言模型下的多个分数和句词结构特征组合为语音识别结果的样本特征向量，采用语音识别结果和语音数据样本的第一标签计算字符错误率作为语音识别结果的第二标签，通过样本特征向量和第二标签训练重打分模型。能够挖掘出第二标签和多个不同语言模型打分得到的分数隐含的内在关联，以得到不同语言模型的打分分数的最佳组合方式，排除了人为主观性因素，确保了语音识别结果的准确度，即使各个语言模型打分机制改变，也无需修改各个分数之间的权重，提高了重打分模型的通用性和普适性。

采用语音识别结果和第一标签计算字符错误率作为语音识别结果的第二标签，使得模型通过语音识别结果间接学习语音数据样本的字符错误率，从而使用模型得到更优的语音识别结果。

实施例三

图4为本申请实施例三提供的一种语音识别方法的步骤流程图，本申请实施例可适用于语音识别的情况，该方法可以由本申请实施的语音识别装置来执行，该语音识别装置可以由硬件或软件来实现，并集成在本申请实施例所提供的设备中，如图4所示，本申请实施例的语音识别方法可以包括步骤S301至S305。

在S301中，获取待识别语音数据的多个语音识别结果。

在本申请实施例中，待识别语音数据可以为需要将语音转换为文本的数据，例如，可以是短视频中的语音数据、即时通信应用程序的聊天界面上的语音数据等，本申请实施例可以将待识别语音数据输入解码模型中获得多个语音识别结果，过程可参考实施例一或者实施例二获得语音数据样本的多个语音识别结果，本申请实施例在此不再详述。

在S302中，获取每一个语音识别结果在多个不同语言模型下的多个分数。

可选地，可以将语音识别结果分别输入声学模型、n-gram语言模型和RNNLM语言模型中得到每个语音识别结果的3个分数。

在S303中，基于所述每一个语音识别结果和所述多个分数，获得所述待识别语音数据的每一个语音识别结果对应的特征向量。

示例性的可参考实施例二中S204-S207，在此不再详述。

在S304中，将所述每一个语音识别结果对应的特征向量输入预先训练的重打分模型中获得每个语音识别结果的最终分数。

在本申请实施例中，重打分模型可以通过实施例一或者实施例二任一实施例所述的重打分模型训练方法训练得到，该重打分模型可以对待识别语音数据的多个语音识别结果进行重新打分，在将特征向量输入预先训练的重打分模型中后，可以获得每个语音识别结果的最终分数。

在S305中，将多个语音识别结果的最终分数中的最小最终分数对应的语音识别结果确定为所述待识别语音数据的最终识别结果。

在本申请实施例中，最终分数表达了语音识别结果相对于真实结果的字符错误率，字符错误率越小，说明语音识别结果越接近于真实结果，因此可以将最终分数最小的语音识别结果确定为待识别语音数据的最终识别结果。

本申请实施例在训练重打分模型时，基于语音识别结果、分数和第一标签获得语音数据样本的样本特征向量和第二标签，样本特征向量和第二标签用于重打分模型的训练，挖掘出了第二标签和多个不同语言模型打分得到的分数隐含的内在关联，以得到不同语言模型的打分分数的最佳组合方式，在通过重打分模型对待识别语音数据的多个语音识别结果进行重打分时，能够排除了人为主观性因素，确保了语音识别结果的准确度，即使各个语言模型打分机制改变，也无需修改各个分数之间的权重，提高了重打分模型的通用性和普适性。

实施例四

图5是本申请实施例四提供的一种重打分模型训练装置的结构框图，如图5所示，本申请实施例的重打分模型训练装置可以包括第一获取模块401、打分模块402、第二获取模块403以及模型训练模块404。

第一获取模块401，设置为获取至少一个语音数据样本中的每一个语音数据样本的多个语音识别结果和所述每一个语音数据样本的第一标签，所述第一标签为预先标注的所述每一个语音数据样本的标签。

打分模块402，设置为获取每一个语音识别结果在多个不同语言模型下的多个分数。

第二获取模块403，设置为基于所述每一个语音数据样本的多个语音识别结果、所述多个分数和所述第一标签，获得所述每一个语音数据样本对应的多个样本特征向量和多个第二标签，样本特征向量和第二标签用于重打分模型的训练。

模型训练模块404，设置为采用所述至少一个语音数据样本对应的样本特征向量和所述第二标签训练模型，得到用于对所述语音识别结果进行重打分的重打分模型。

可选地，所述第一获取模块401包括解码子模块以及语音识别结果提取子模块。

解码子模块，设置为将所述至少一个语音数据样本中的每一个语音数据样本输入解码模型中得到多个语音识别结果，所述每一个语音数据样本具有预先标注的第一标签。

语音识别结果提取子模块，设置为提取预设数量的语音识别结果作为所述每一个语音数据样本的多个语音识别结果。

可选地，所述打分模块402包括：

打分模型输入子模块，设置为将每一个语音识别结果分别输入多个不同语言模型中，获得所述每一个语音识别结果在不同语言模型下的多个分数。

可选地，所述多个不同语言模型包括声学模型、n-gram语言模型和RNNLM语言模型。

可选地，所述第二获取模块403包括句词结构特征获取子模块、特征组合子模块以及第二标签获取子模块。

句词结构特征获取子模块，设置为针对每个语音识别结果，对所述语音识别结果进行分析以提取所述语音识别结果的句词结构特征。

特征组合子模块，设置为将所述每一个语音识别结果在多个不同语言模型下的多个分数和所述句词结构特征组合为所述每一个语音识别结果对应的样本特征向量。

第二标签获取子模块，设置为采用所述每一个语音识别结果和所述第一标签计算所述每一个语音识别结果的字符错误率，作为所述每一个语音识别结果的第二标签。

可选地，所述句词结构特征包括以下至少一项：

词频、字频、字或词排序、句子长度、字数、词数。

可选地，还包括：

特征归一化处理模块，设置为对所述至少一个语音数据样本对应的每一个样本特征向量进行归一化处理，得到归一化处理后的样本特征向量。

可选地，所述特征归一化处理模块，包括最大和最小样本特征向量确定子模块、差值计算子模块以及样本特征向量计算子模块。

最大和最小样本特征向量确定子模块，设置为在所述至少一个语音数据样本对应的所有样本特征向量中确定出模最大的样本特征向量和模最小的样本特征向量。

差值计算子模块，设置为计算所述模最大的样本特征向量和模最小的样本特征向量的差值得到向量差值。

样本特征向量计算子模块，设置为将所述至少一个语音数据样本对应的每一个样本特征向量除以所述向量差值的模得到的结果，作为所述至少一个语音数据样本对应的每一个样本特征向量归一化处理后的样本特征向量。

可选地，所述模型训练模块404包括初始化模型子模块、特征输入子模块、损失率计算子模块、梯度计算子模块以及模型参数调整子模块。

初始化模型子模块，设置为初始化模型参数。

特征输入子模块，设置为将所述每一个语音识别结果对应的归一化处理后的样本特征向量输入所述模型中，获得所述每一个语音识别结果的预估字符错误率。

损失率计算子模块，设置为采用所述每一个语音识别结果的预估字符错误率和所述第二标签计算损失率。

梯度计算子模块，设置为在所述损失率未满足预设条件时，采用所述损失率计算梯度。

模型参数调整子模块，设置为采用所述梯度调整所述模型参数，返回特征输入子模块。

可选地，所述损失率计算子模块包括：

损失率计算单元，设置为将所述每一个语音识别结果的预估字符错误率和所述第二标签代入预设的均方损失函数中计算得到损失率。

本申请实施例所提供的重打分模型训练装置可执行本申请实施例一或实施例二所述重打分模型训练方法，具备执行方法相应的功能模块。

实施例五

图6是本申请实施例五提供的一种语音识别装置的结构框图，如图6所示，本申请实施例的语音识别装置可以包括语音识别结果获取模块501、初始分数获取模块502、特征向量获取模块503、最终分数预测模块504以及语音识别结果确定模块505。

语音识别结果获取模块501，设置为获取待识别语音数据的多个语音识别结果。

初始分数获取模块502，设置为获取每一个语音识别结果在多个不同语言模型下的多个分数。

特征向量获取模块503，设置为基于所述每一个语音识别结果和所述多个分数，获得所述待识别语音数据的每一个语音识别结果对应的特征向量。

最终分数预测模块504，设置为将所述每一个语音识别结果对应的特征向量输入预先训练的重打分模型中，获得每个语音识别结果的最终分数。

语音识别结果确定模块505，设置为将多个语音识别结果的最终分数中的最小最终分数对应的语音识别结果确定为所述待识别语音数据的最终识别结果。

其中，所述重打分模型通过本申请任一实施例所述的重打分模型训练方法训练得到。

本申请实施例所提供的语音识别装置可执行本申请实施例三所述语音识别方法，具备执行方法相应的功能模块。

实施例六

参照图7，示出了本申请一个示例中的一种设备的结构示意图。如图7所示，该设备可以包括：处理器60、存储器61、具有触摸功能的显示屏62、输入装置63、输出装置64以及通信装置65。该设备中处理器60的数量可以是至少一个，图7中以一个处理器60为例。该设备的处理器60、存储器61、显示屏62、输入装置63、输出装置64以及通信装置65可以通过总线或者其他方式连接，图7中以通过总线连接为例。

存储器61作为一种计算机可读存储介质，可设置为存储软件程序、计算机可执行程序以及模块，如本申请实施例一到实施例二所述的重打分模型训练方法对应的程序指令/模块(例如，上述实施例四的重打分模型训练装置中的第一获取模块401、打分模块402、第二获取模块403和模型训练模块404)，或如本申请实施例三所述的语音识别方法对应的程序指令/模块(例如，上述实施例五的语音识别装置中的语音识别结果获取模块501、初始分数获取模块502、特征向量获取模块503和最终分数预测模块504)。存储器61可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作装置、至少一个功能所需的应用程序；存储数据区可存储根据设备的使用所创建的数据等。此外，存储器61可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器60可包括相对于处理器60远程设置的存储器，这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

显示屏62为具有触摸功能的显示屏62，其可以是电容屏、电磁屏或者红外屏。一般而言，显示屏62设置为根据处理器60的指示显示数据，还设置为接收作用于显示屏62的触摸操作，并将相应的信号发送至处理器60或其他装置。可选的，当显示屏62为红外屏时，其还包括红外触摸框，该红外触摸框设置在显示屏62的四周，其还可以设置为接收红外信号，并将该红外信号发送至处理器60或者其他设备。

通信装置65，设置为与其他设备建立通信连接，其可以是有线通信装置和/或无线通信装置。

输入装置63可设置为接收输入的数字或者字符信息，以及产生与设备的用户设置以及功能控制有关的键信号输入，还可以是设置为获取图像的摄像头以及获取音频数据的拾音设备。输出装置64可以包括扬声器等音频设备。需要说明的是，输入装置63和输出装置64的组成可以根据实际情况设定。

处理器60通过运行存储在存储器61中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述所述的重打分模型训练方法和语音识别方法中的至少之一。

示例性的，处理器60执行存储器61中存储的至少一个程序时，实现本申请实施例提供的重打分模型训练方法和语音识别方法中的至少之一。

本申请实施例还提供一种计算机可读存储介质，所述存储介质中的指令由设备的处理器执行时，使得设备能够执行如上述方法实施例所述的重打分模型训练方法和语音识别方法中的至少之一。

需要说明的是，对于装置、设备、存储介质实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本申请可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是机器人，个人计算机，服务器，或者网络设备等)执行本申请任意实施例所述的重打分模型训练方法和/或语音识别方法。

值得注意的是，上述重打分模型训练装置和语音识别装置中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的名称也只是为了便于相互区分，并不用于限制本申请的保护范围。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行装置执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有设置为对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(Programmable Gate Array，PGA)，现场可编程门阵列(Field Programmable Gate Array，FPGA)等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的至少一个实施例或示例中以合适的方式结合。

Claims

一种重打分模型训练方法，包括：

获取至少一个语音数据样本中的每一个语音数据样本的多个语音识别结果和所述每一个语音数据样本的第一标签，所述第一标签为预先标注的所述每一个语音数据样本的标签；

获取每一个语音识别结果在多个不同语言模型下的多个分数；

基于所述每一个语音数据样本的多个语音识别结果、所述多个分数和所述第一标签，获得所述每一个语音数据样本对应的多个样本特征向量和多个第二标签，所述样本特征向量和所述第二标签用于所述重打分模型的训练；

采用所述至少一个语音数据样本对应的所述样本特征向量和所述第二标签对模型进行训练，得到用于对所述语音识别结果进行重打分的重打分模型。
根据权利要求1所述的方法，其中，所述获取至少一个语音数据样本中的每一个语音数据样本的多个语音识别结果和所述每一个语音数据样本的第一标签，包括：

将所述至少一个语音数据样本中的每一个语音数据样本输入解码模型中得到多个语音识别结果，所述每一个语音数据样本具有预先标注的第一标签；

提取预设数量的语音识别结果作为所述每一个语音数据样本的多个语音识别结果。
根据权利要求1所述的方法，其中，所述获取每一个语音识别结果在多个不同语言模型下的多个分数，包括：

将每一个语音识别结果分别输入多个不同语言模型中，获得所述每一个语音识别结果在不同语言模型下的多个分数。
根据权利要求1-3任一项所述的方法，其中，所述多个不同语言模型包括声学模型、n-gram语言模型和RNNLM语言模型。
根据权利要求1所述的方法，其中，所述基于所述每一个语音数据样本的多个语音识别结果、所述多个分数和所述第一标签获得所述每一个语音数据样本的多个样本特征向量和多个第二标签，包括：

针对每一个语音识别结果，对所述语音识别结果进行分析以提取所述语音识别结果的句词结构特征；

将所述每一个语音识别结果在多个不同语言模型下的多个分数和所述句词结构特征组合为所述每一个语音识别结果对应的样本特征向量；

采用所述每一个语音识别结果和所述第一标签计算所述每一个语音识别结果的字符错误率，作为所述每一个语音识别结果的第二标签。
根据权利要求5所述的方法，其中，所述句词结构特征包括以下至少一项：

词频、字频、字或词排序、句子长度、字数、词数。
根据权利要求1所述的方法，其中，在所述采用至少一个语音数据样本对应的所述样本特征向量和所述第二标签对模型进行训练，得到重打分模型之前，包括：

对所述至少一个语音数据样本对应的每一个样本特征向量进行归一化处理，得到归一化处理后的样本特征向量。
根据权利要求7所述的方法，其中，所述对所述至少一个语音数据样本对应的每一个样本特征向量进行归一化处理，得到归一化处理后的样本特征向量，包括：

在所述至少一个语音数据样本对应的所有样本特征向量中确定出模最大的样本特征向量和模最小的样本特征向量；

计算所述模最大的样本特征向量和所述模最小的样本特征向量的差值得到向量差值；

将所述至少一个语音数据样本对应的每一个样本特征向量除以所述向量差值的模得到的结果，作为所述至少一个语音数据样本对应的每一个样本特征向量归一化处理后的样本特征向量。
根据权利要求7或8所述的方法，其中，所述采用所述至少一个语音数据样本对应的所述样本特征向量和所述第二标签对模型进行训练，得到重打分模型，包括：

初始化模型参数；

将所述每一个语音识别结果对应的归一化处理后的样本特征向量输入所述模型中，获得所述每一个语音识别结果的预估字符错误率；

采用所述每一个语音识别结果的预估字符错误率和所述第二标签计算损失率；

在所述损失率未满足预设条件时，采用所述损失率计算梯度；

采用所述梯度调整所述模型参数，返回将所述每一个语音识别结果归一化处理后的样本特征向量输入所述模型中获得所述每一个语音识别结果的预估字符错误率的步骤。
根据权利要求9所述的方法，其中，所述采用所述每一个语音识别结果的预估字符错误率和所述第二标签计算损失率，包括：

将所述每一个语音识别结果的预估字符错误率和所述第二标签代入预设的均方损失函数中计算。
一种语音识别方法，包括：

获取待识别语音数据的多个语音识别结果；

获取每一个语音识别结果在多个不同语言模型下的多个分数；

基于所述每一个语音识别结果和所述多个分数，获得所述待识别语音数据的每一个语音识别结果对应的特征向量；

将所述每一个语音识别结果对应的特征向量输入预先训练的重打分模型中，获得每一个语音识别结果的最终分数；

将多个语音识别结果的最终分数中的最小最终分数对应的语音识别结果确定为所述待识别语音数据的最终识别结果；

其中，所述重打分模型通过权利要求1-10任一项所述的重打分模型训练方法训练得到。
一种重打分模型训练装置，包括：

第一获取模块，设置为获取至少一个语音数据样本中的每一个语音数据样本的多个语音识别结果和所述每一个语音数据样本的第一标签，所述第一标签为预先标注的所述每一个语音数据样本的标签；

打分模块，设置为获取每一个语音识别结果在多个不同语言模型下的多个分数；

第二获取模块，设置为基于所述每一个语音数据样本的多个语音识别结果、所述多个分数和所述第一标签，获得所述每一个语音数据样本对应的多个样本特征向量和多个第二标签，所述样本特征向量和所述第二标签用于重打分模型的训练；

模型训练模块，设置为根据所述至少一个语音数据样本对应的样本特征向量和所述第二标签对模型进行训练，得到用于对所述语音识别结果进行重打分的重打分模型。
一种语音识别装置，包括：

语音识别结果获取模块，设置为获取待识别语音数据的多个语音识别结果；

初始分数获取模块，设置为获取每一个语音识别结果在多个不同语言模型下的多个分数；

特征向量获取模块，设置为基于所述每一个语音识别结果和所述多个分数，获得所述待识别语音数据的每一个语音识别结果对应的特征向量；

最终分数预测模块，设置为将所述每一个语音识别结果对应的样本特征向量输入预先训练的重打分模型中，获得每一个语音识别结果的最终分数；

语音识别结果确定模块，设置为将多个语音识别结果的最终分数中的最小最终分数对应的语音识别结果确定为所述待识别语音数据的最终识别结果；

其中，所述重打分模型通过权利要求1-10任一项所述的重打分模型训练方法训练得到。
一种设备，包括：

至少一个处理器；

存储装置，设置为存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现以下至少之一：如权利要求1-10中任一项所述的重打分模型训练方法，如权利要求11所述的语音识别方法。
一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时，实现以下至少之一：如权利要求1-10中任一项所述的重打分模型训练方法，如权利要求11所述的语音识别方法。