WO2019210796A1

WO2019210796A1 - 语音识别方法、装置、存储介质及电子设备

Info

Publication number: WO2019210796A1
Application number: PCT/CN2019/084131
Authority: WO
Inventors: 陈岩; 刘耀勇
Original assignee: Oppo广东移动通信有限公司
Priority date: 2018-05-02
Filing date: 2019-04-24
Publication date: 2019-11-07
Also published as: CN110459204A

Abstract

一种语音识别方法，包括：获取训练样本，训练样本包括真人发音样本和非真人发音样本（101）；提取训练样本中的特征信息（102）；将训练样本和特征信息作为训练数据输入参考模型中训练，得到优化参数（103）；根据优化参数生成活体检测模型（104）；当接收到测试语音时，通过活体检测模型对测试语音进行活体检测，生成预测结果（105）；根据预测结果确定是否对测试语音进行声纹识别（106）。

Description

语音识别方法、装置、存储介质及电子设备

本申请要求于2018年05月02日提交中国专利局、申请号为201810411000.9、发明名称为“一种语音识别方法、装置、存储介质及电子设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及移动通信技术领域，尤其涉及移动设备技术领域，具体涉及一种语音识别方法、装置、存储介质及电子设备。

背景技术

随着电子技术的发展以及智能电子设备的普及，信息安全问题尤为突出。在对智能手机等电子设备进行唤醒或者解锁等用户身份认证时，电子设备通常提供声纹识别算法，但是声纹识别在录音重放以及语音合成攻破的安全保护存在一定的问题。

发明内容

本申请实施例提供一种语音识别方法、装置、存储介质及电子设备，能够识别真人发音，防止他人利用录音或者人声合成进行安全攻破，提升安全性。

第一方面，本申请实施例提供了一种语音识别方法，应用于电子设备中，所述方法包括：

获取训练样本，所述训练样本包括真人发音样本和非真人发音样本；

提取所述训练样本中的特征信息；

将所述训练样本以及所述特征信息作为训练数据输入参考模型中进行训练，以得到训练后的所述参考模型的优化参数；

根据所述优化参数生成活体检测模型；

当接收到测试语音时，通过所述活体检测模型对所述测试语音进行活体检测，以生成预测结果；

根据所述预测结果确定是否对所述测试语音进行声纹识别。

第二方面，本申请实施例还提供了一种语音识别装置，所述装置包括：

获取模块，用于获取训练样本，所述训练样本包括真人发音样本和非真人发音样本；

提取模块，用于提取所述训练样本中的特征信息；

训练模块，用于将所述训练样本以及所述特征信息作为训练数据输入参考模型中进行训练，以得到训练后的所述参考模型的优化参数；

生成模块，用于根据所述优化参数生成活体检测模型；

检测模块，用于当接收到测试语音时，通过所述活体检测模型对所述测试语音进行活体检测，以生成预测结果；

识别模块，用于根据所述预测结果确定是否对所述测试语音进行声纹识别。

第三方面，本申请实施例还提供了一种存储介质，其上存储有计算机程序，当所述计算机程序在计算机上运行时，使得所述计算机执行如上述的语音识别方法。

第四方面，本申请实施例还提供了一种电子设备，包括存储器和处理器，所述处理器通过调用所述存储器中存储的计算机程序，用于执行步骤：

提取所述训练样本中的特征信息；

根据所述优化参数生成活体检测模型；

根据所述预测结果确定是否对所述测试语音进行声纹识别。

附图说明

下面结合附图，通过对本申请的具体实施方式详细描述，将使本申请的技术方案及其它有益效果显而易见。

图1为本申请实施例提供的一种语音识别装置的系统示意图。

图2为本申请实施例提供的一种语音识别装置的应用场景示意图。

图3为本申请实施例提供的一种语音识别方法的流程示意图。

图4为本申请实施例提供的一种语音识别方法的另一流程示意图。

图5为本申请实施例提供的一种语音识别装置的结构示意图。

图6为本申请实施例提供的一种语音识别装置的另一结构示意图。

图7为本申请实施例提供的一种电子设备的结构示意图。

图8为本申请实施例提供的一种电子设备的另一结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。可以理解的是，此处所描述的具体实施例仅用于解释本申请，而非对本申请的限定。另外，为了便于描述，附图中仅示出了与本申请相关的部分而非全部结构。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在现有技术中，在对智能手机等电子设备进行唤醒或者解锁等用户身份认证时，电子设备通常提供声纹识别算法，但是声纹识别在录音重放以及语音合成攻破的安全保护存在一定的问题。其中，所述电子设备可以是智能手机、平板电脑、台式电脑、笔记本电脑、或者掌上电脑等设备。

请参阅图1，图1为本申请实施例提供的一种语音识别装置的系统示意图。该语音识别装置主要用于：预先获取训练样本，并提取训练样本中的特征信息，将所述训练样本以及所述特征信息作为训练数据输入参考模型中进行训练，以得到训练后的所述参考模型的优化参数，根据所述优化参数生成活体检测模型，当接收到测试语音时，通过所述活体检测模型对所述测试语音进行活体检测，以生成预测结果，并根据所述预测结果确定是否对所述测试语音进行声纹识别能够准确识别出真人发音，以防止他人利用录音或者人声合成进行安全攻破，提升设备的安全性。

具体的，请参阅图2，图2为本申请实施例提供的一种语音识别装置的应用场景示意图。比如，语音识别装置在接收到用户输入的测试语音时，将测试语音的特征信息输入到活体检测模型中进行活体检测，以生成预测结果，若所述预测结果为真人发音，则对所述测试语音进行声纹识别以实现用户的身份认证，当身份认证通过时，对电子设备进行解锁，如图2中的状态B所示，当身份认证未通过时，提示认证失败并维持锁定状态。若所述预测结果为非真人发音，则禁止对所述测试语音进行身份认证，并可以发出语音提示或文本提示“非真人发音，禁止认证”，如图2中的状态C所示。

本申请实施例提供的一种语音识别方法的执行主体，可以为本申请实施例提供的一种语音识别装置，或者集成了所述语音识别装置的电子设备(譬如掌上电脑、平板电脑、智能手机等)，所述语音识别装置可以采用硬件或者软件的方式实现。

本发明实施例提供一种语音识别方法，包括：

提取所述训练样本中的特征信息；

根据所述优化参数生成活体检测模型；

根据所述预测结果确定是否对所述测试语音进行声纹识别。

在一种实施方式中，该根据所述预测结果确定是否对所述测试语音进行声纹识别的步骤，可以包括：若所述预测结果为真人发音，则确定对所述测试语音进行声纹识别以实现用户的身份认证；或者若所述预测结果为非真人发音，则确定不对所述测试语音进行声纹识别。

在一种实施方式中，该获取训练样本的步骤，可以包括：采集真人发音，并标记为所述真人发音样本；采集非真人发音，并标记为所述非真人发音样本，其中所述非真人发音样本包括真人录音子样本与合成人声录音子样本。

在一种实施方式中，该采集非真人发音，并标记为所述非真人发音样本的步骤，可以包括：对所述真人发音样本进行录音采集，并标记为所述非真人发音样本中的真人录音子样本；对合成人声发音进行录音采集，并标记为所述非真人发音样本中的合成人声录音子样本。

在一种实施方式中，该提取所述训练样本中的特征信息的步骤，可以包括：分别提取所述真人发音样本、所述真人录音子样本与所述合成人声录音子样本对应的声谱图。

在一种实施方式中，该将所述训练样本以及所述特征信息作为训练数据输入参考模型中进行训练，以得到训练后的所述参考模型的优化参数的步骤，可以包括：将所述真人发音样本、所述真人录音子样本与所述合成人声录音子样本分别对应的声谱图作为训练数据输入参考模型中进行训练，以得到训练后的所述参考模型的优化参数。

在一种实施方式中，该得到训练后的所述参考模型的优化参数的步骤，可以包括：开始计时；获取所述真人发音样本与所述真人录音子样本之间的差异特征值，以得到第一优化参数，以及获取所述真人发音样本与所述合成人声录音子样本之间的差异特征值，以得到第二优化参数。

在一种实施方式中，该根据所述优化参数生成活体检测模型的步骤，可以包括：根据所述第一优化参数与所述第二优化参数生成活体检测模型。

在一种实施方式中，该得到训练后的所述参考模型的优化参数的步骤，可以包括：将所述训练样本中的真人发音样本、真人录音子样本与合成人声录音子样本对应的声谱图作为训练数据输入卷积层得到第一中间值；将第一中间值输入全连接层得到第二中间值；将第二中间值输入分类器得到对应多个预测结果的概率；根据多个预测结果和与其对应的多个概率得到损失值；根据损失值进行训练，得到优化参数。

请参阅图3至图4，图3至图4均为本申请实施例提供的一种语音识别方法的流程示意图。所述方法应用于电子设备中，所述方法包括：

步骤101，获取训练样本，所述训练样本包括真人发音样本和非真人发音样本。

在一些实施例中，如图4所示，步骤101可以通过步骤1011以及步骤1012来实现，具体为：

步骤1011，采集真人发音，并标记为所述真人发音样本。

步骤1012，采集非真人发音，并标记为所述非真人发音样本，其中所述非真人发音样本包括真人录音子样本与合成人声录音子样本。

在一些实施例中，所述采集非真人发音，并标记为所述非真人发音样本，包括：

对所述真人发音样本进行录音采集，并标记为所述非真人发音样本中的真人录音子样本；

对合成人声发音进行录音采集，并标记为所述非真人发音样本中的合成人声录音子样本。

例如，利用手机等电子设备中的麦克风等录音设备先采集用户输入的真人发音并标记为真人发音样本，再对录制的真人发音样本或者合成人声发音进行录音采集并标记非真人发音样本。

其中，所述训练样本可以为一个样本集合M，该样本集M合包括多个样本组m，为了增加模型训练的准确性，在选择训练样本上，可以选择语音信息更为接近的训练样本进行训练，比如每一样本组可以包括一组语音内容相同的真人发音样本、真人录音子样本与合成人声录音子样本。例如，所述训练样本包括样本集合M，M包括多个样本组{m1,m2,m3…,mn}，其中第一样本组m1包括{x1,y1,z1},其中x1表示用户输入的语音内容为“今天天气不错”的真人录音样本，y1表示语音内容为“今天天气不错”的真人录音样本被电子设备回放后再被录音设备录制下来的真人录音子样本，z1表示语音内容为“今天天气不错”的合成人声录音子样本。

步骤102，提取所述训练样本中的特征信息。

其中，每一个声音都具有独特的特征信息，通过该特征信息能将不同人的声音进行有效的区分。

需要说明的是，这种独特的特征信息主要由两个因素决定，第一个是声腔的尺寸，具体包括咽喉、鼻腔和口腔等，这些器官的形状、尺寸和位置决定了声带张力的大小和声音频率的范围。因此不同的人虽然说同样的话，但是声音的频率分布是不同的，听起来有的低沉有的洪亮。每个人的发声腔都是不同的，就像指纹一样，每个人的声音也就有独特的特征信息。第二个决定声音特征信息的因素是发声器官被操纵的方式，发声器官包括唇、齿、舌、软腭及腭肌肉等，他们之间相互作用就会产生清晰的语音。而他们之间的协作方式是人通过后天与周围人的交流中随机学习到的。人在学习说话的过程中，通过模拟周围不同人的说话方式，就会逐渐形成自己的声纹特征信息。例如，声音的波长、频率、强度、节奏、音色，或者声谱图中的频率、相位、幅度等特征均能体现出不同声音之间的差别。

但是针对一组语音内容相同的真人发音与非真人发音之间从人耳分辩或者声纹识别系统中不容易区分开。而真人发音与非真人发音之间在某些特征值之间肯定存在差异参数。为了找出真人发音与真人录音或者合成之间不同的特征值，从而有效鉴别出是否为真人发音，则需要获取大量的训练样本进行训练。

在一些实施例中，可以分别提取所述真人发音样本、所述真人录音子样本与所述合成人声录音子样本对应的声谱图。其中，所述声谱图作为所述训练样本对应的特征信息。

例如，将每一训练样本转换为对应的声谱图，利用声谱图来体现训练样本的特征信息。

步骤103，根将所述训练样本以及所述特征信息作为训练数据输入参考模型中进行训练，以得到训练后的所述参考模型的优化参数。

在一些实施例中，将所述真人发音样本、所述真人录音子样本与所述合成人声录音子样本分别对应的声谱图作为训练数据输入参考模型中进行训练，以得到训练后的所述参考模型的优化参数。

例如，所述参考模型可以选择卷积神经网络模型。当然可以为隐马尔科夫模型、高斯混合模型等。

其中，卷积神经网络模型包括依次连接的卷积层、全连接层和分类器。具体的，该卷积神经网络主要包括网络结构部分和网络训练部分，其中网络结构部分包括依次连接的卷积层和全连接层。卷积层和全连接层之间还可以包括激励层和池化层。

可选的，卷积神经网络模型的网络结构部分可以包括五层网络，前三层为卷积层，卷积核大小统一为3×3，滑动步长统一为1，由于维度较小，可以不采用池化层，后两层为全连接层，分别为20个神经元、2个神经元。

需要说明的是，网络结构部分还可以包括其他层数的卷积层，如3层卷积层、7层卷积层、9层卷积层等，还可以包括其他层数的全连接层，如1层全连接层、3层全连接层等。也可以增加池化层，也可以不采用池化层。卷积核大小可以采用其他大小，如2×2。还可以不同的卷积层采用不同大小的卷积核，如第一层卷积层采用3×3的卷积核，其他层卷积层采用2×2的卷积核。滑动步长可以统一为2或其他值，也可以采用不一样的滑动步长，如第一层滑动步长为2，其他层滑动步长为1等。

例如，训练方法可以包括以下步骤：

(1)将所述训练样本中的真人发音样本、真人录音子样本与合成人声录音子样本对应的声谱图作为训练数据输入卷积层得到第一中间值。

(2)将第一中间值输入全连接层得到第二中间值。

(3)将第二中间值输入分类器得到对应多个预测结果的概率。

其中，得到预测结果的概率可以基于第一预设公式将第二中间值输入分类器得到对应多个预测结果的概率，其中第一预设公式为：

其中，ZK为目标第二中间值，C为预测结果的类别数，Zj为第j个第二中间值。

(4)根据多个预测结果和与其对应的多个概率得到损失值。

其中，得到损失值可以基于第二预设公式根据多个预测结果和与其对应的多个概率得到损失值，其中第二预设公式为：

其中C为预测结果的类别数，y _k为真实值。

(5)根据损失值进行训练，得到优化参数。

其中，可以根据损失值利用随机梯度下降法进行训练。还可以根据批量梯度下降法或梯度下降方法进行训练。

利用随机梯度下降法进行训练，可以当损失值等于或小于预设损失值时，则完成训练。也可以当连续获取的两个或多个损失值没有变化时，则完成训练。当然还可以不根据损失值，直接设定随机梯度下降法的迭代次数，迭代次数完成后，则完成训练。训练完成后，获取此时的参考模型的各个参数，并将该各个参数保存为优化参数，后续需要预测时，使用该优化参数进行预测。

进一步的，得到损失值可以基于第三预设公式根据多组参数得到损失值，每组参数包括多个预测结果和与其对应的多个概率得到损失值，其中第三预设公式为：

其中C为预测结果的类别数，y _k为真实值，E为平均值。

其中可以采用小批量的方式训练得到最优参数。如批量大小为128，第三预设公式中的E表示为128个损失值的平均值。

进一步的，可以先获取多个样本集，多个样本集构建成多个二维的声谱图，然后将多个声谱图作为训练数据输入参考模型，得到多个损失值，然后求多个损失值的平均值。

其中，所述优化参数用于表示真人发音与非真人发音之间的差异特征值，利用该优化参数可以有效地区分出真人发音与非真人发音。

在一些实施例中，所述得到训练后的所述参考模型的优化参数，包括：

获取所述真人发音样本与所述真人录音子样本之间的差异特征值，以得到第一优化参数，以及获取所述真人发音样本与所述合成人声录音子样本之间的差异特征值，以得到第二优化参数。

其中，利用第一优化参数可以有效地区分出真人发音与真人录音。利用第二优化参数可以有效地区分出真人发音与合成人声录音。

其中，在获取真人发音与真人录音的差异特征值时，由于低频语音信号和/或高频语音信号的差异度更明显，例如，低频语音信号中的真人录音信号相比于真人发音会缺失一些信息，例如真人发音信号中的音频信号波形在某个相位发生波形削减，则在该相位的波形削减程度可以看成是真人发音样本与真人录音子样本之间的差异特征值。则在利用训练样本训练参考模型时，该训练样本可以选取更多的高频的样本或者低频的样本进行训练，以得出更佳的优化参数，即通过将训练样本输入到参考模型中进行训练，由参考模型在不断的深度学习及训练过程中依靠模型自身找出真人发音与非真人发音之间的差异特征值，通过参考模型的深度学习得出优化参数，从输入到输出不再需要人工参与，而由可以深度学习的参考模型来完成。

步骤104，根据所述优化参数生成活体检测模型。

其中，所述活体检测模型依赖于上述训练得出的优化参数，所述活体检测模型利用该优化参数可以有效地检测出真人发音与非真人发音。

在一些实施例中，根据所述第一优化参数与所述第二优化参数生成活体检测模型。所述活体检测模型依赖于上述训练得出的优化参数，所述活体检测模型利用利用第一优化参数可以有效地区分出真人发音与真人录音，利用第二优化参数可以有效地区分出真人发音与合成人声录音。

步骤105，当接收到测试语音时，通过所述活体检测模型对所述测试语音进行活体检测，以生成预测结果。

其中，当接收到测试语音时，该测试语音可能为真人发音，或者也可能为录音等非真人发音，此时通过所述活体检测模型对所述测试语音进行活体检测，结合测试语音的特征信息以及所述活体检测模型中的优化参数进行检测，可以生成准确度较高的预测结果。该预测结果可以包括真人发音和非真人发音两个结果。该预测结果还可以包括真人发音、真人录音与合成人声三个结果。

步骤106，根据所述预测结果确定是否对所述测试语音进行声纹识别。

其中，若所述预测结果为真人发音，则确定对所述测试语音进行声纹识别以实现用户的身份认证；或者若所述预测结果为非真人发音，则确定不对所述测试语音进行声纹识别。

例如，若所述预测结果为真人发音，则将所述测试语音输入到声纹识别系统中进行声纹识别以实现用户的身份认证，例如将该测试语音与声纹识别库中的存储的预设用户的声纹模板进行匹配，若匹配成功则表示身份认证通过，若匹配失败则表示身份认证不通过。当身份认证通过时，对电子设备进行解锁或者唤醒操作，当身份认证未通过时，可以提示认证失败并维持锁定状态或者不响应唤醒操作。

若所述预测结果为非真人发音，则禁止对所述测试语音进行身份认证，还可以发出语音提示或文本提示，以提醒用户该测试语音为非真人发音，可能存在安全隐患。例如，当所述预测结果为非真人发音时，还可以向与当前设备绑定的其他用户设备或者用户邮箱发送提示消息，以提示用户所述当前设备目前正处于被他人非法认证的情形。例如，当所述预测结果为非真人发音时，当前设备还可以进入自保模式，该自保模式可以包括改变解锁方式，比如将解锁方式从声纹解锁改变为声纹识别与人脸识别相结合的解锁方式，以增加解锁难度。该自保模式可以包括启动自动关机功能。该自保模式可以包括自动隐藏当前设备中的隐私信息，比如隐藏标记为隐私信息的文件夹，或者隐藏包括支付或金融管理功能的应用程序，或者隐藏即时聊天应用程序，可以更有利的保护用户的信息安全。

需要说明的是，参考模型的训练过程可以在服务器端也可以在电子设备端。当参考模型的训练过程、实际预测过程都在服务器端完成时，需要使用优化后的参考模型进而生成的活体检测模型时，可以将测试语音以及测试语音对应的特征信息输入到服务器，服务器实际预测完成后，将预测结果发送至电子设备端，电子设备再根据预测结果选择是否进入下一步的身份认证。

当参考模型的训练过程、实际预测过程都在电子设备端完成时，需要使用优化后的参考模型进而生成的活体检测模型时，可以将测试语音以及测试语音对应的特征信息输入到电子设备，电子设备实际预测完成后，电子设备根据预测结果选择是否进入下一步的身份认证。

当参考模型的训练过程在服务器端完成，参考模型的实际预测过程在电子设备端完成时，需要使用优化后的参考模型进而生成的活体检测模型时，可以将测试语音以及测试语音对应的特征信息输入到电子设备，电子设备实际预测完成后，电子设备根据预测结果选择是否进入下一步的身份认证。可选的，可以将训练好的活体检测模型文件(model文件)移植到智能设备上，若需要对输入的测试语音进行活体检测，则讲测试语音输入到训练好的活体检测模型文件(model文件)，计算即可得到预测结果。

上述所有的技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

本申请实施例通过获取训练样本，所述训练样本包括真人发音样本和非真人发音样本，提取所述训练样本中的特征信息，将所述训练样本以及所述特征信息作为训练数据输入参考模型中进行训练，以得到训练后的所述参考模型的优化参数，根据所述优化参数生成活体检测模型，当接收到测试语音时，通过所述活体检测模型对所述测试语音进行活体检测，以生成预测结果，并根据所述预测结果确定是否对所述测试语音进行声纹识别。本申请实施例通过利用标记好的真人发音样本和非真人发音样本进行模型训练，并根据当前模型得到的优化参数再融入到声纹识别系统中进行声纹识别，能够准确识别出真人发音，以防止他人利用录音或者人声合成进行安全攻破，提升设备的安全性。

本发明实施例提供一种语音识别装置，包括：

提取模块，用于提取所述训练样本中的特征信息；

生成模块，用于根据所述优化参数生成活体检测模型；

在一种实施方式中，该识别模块，用于：若所述预测结果为真人发音，则确定对所述测试语音进行声纹识别以实现用户的身份认证；或者若所述预测结果为非真人发音，则确定不对所述测试语音进行声纹识别。

在一种实施方式中，该获取模块，可以包括：第一采集子模块，用于采集真人发音，并标记为所述真人发音样本；第二采集子模块，用于采集非真人发音，并标记为所述非真人发音样本。

在一种实施方式中，该第二采集子模块，用于：对所述真人发音样本进行录音采集，并标记为所述非真人发音样本中的真人录音子样本；对合成人声发音进行录音采集，并标记为所述非真人发音样本中的合成人声录音子样本。

在一种实施方式中，该提取模块，用于：分别提取所述真人发音样本、所述真人录音子样本与所述合成人声录音子样本对应的声谱图。该训练模块，用于将所述真人发音样本、所述真人录音子样本与所述合成人声录音子样本分别对应的声谱图作为训练数据输入参考模型中进行训练，以得到训练后的所述参考模型的优化参数。

在一种实施方式中，该训练模块，还用于：获取所述真人发音样本与所述真人录音子样本之间的差异特征值，以得到第一优化参数；以及获取所述真人发音样本与所述合成人声录音子样本之间的差异特征值，以得到第二优化参数。该生成模块，还用于根据所述第一优化参数与所述第二优化参数生成活体检测模型。

本申请实施例还提供一种语音识别装置，如图5至图6所示，图5至图6均为本申请实施例提供的一种语音识别装置的结构示意图。所述语音识别装置30包括获取模块31，提取模块32，训练模块33，生成模块34，检测模块35以及识别模块36。

其中，所述获取模块31，用于获取训练样本，所述训练样本包括真人发音样本和非真人发音样本。

在一些实施例中，如图6所示，所述获取模块31还包括第一采集子模块311和第二采集子模块312。

其中，所述第一采集子模块311，用于采集真人发音，并标记为所述真人发音样本；

所述第二采集子模块312，用于采集非真人发音，并标记为所述非真人发音样本。

所述第二采集子模块312，用于对所述真人发音样本进行录音采集，并标记为所述非真人发音样本中的真人录音子样本；对合成人声发音进行录音采集，并标记为所述非真人发音样本中的合成人声录音子样本。

所述提取模块32，用于提取所述训练样本中的特征信息。

在一些实施例中，所述提取模块32，用于分别提取所述真人发音样本、所述真人录音子样本与所述合成人声录音子样本对应的声谱图。

所述训练模块33，用于将所述训练样本以及所述特征信息作为训练数据输入参考模型中进行训练，以得到训练后的所述参考模型的优化参数。

在一些实施例中，所述训练模块33，用于将所述真人发音样本、所述真人录音子样本与所述合成人声录音子样本分别对应的声谱图作为训练数据输入参考模型中进行训练，以得到训练后的所述参考模型的优化参数。

在一些实施例中，所述训练模块33，还用于获取所述真人发音样本与所述真人录音子样本之间的差异特征值，以得到第一优化参数；以及获取所述真人发音样本与所述合成人声录音子样本之间的差异特征值，以得到第二优化参数。

所述生成模块34，用于根据所述优化参数生成活体检测模型。

在一些实施例中，所述生成模块34，还用于根据所述第一优化参数与所述第二优化参数生成活体检测模型。

所述检测模块35，用于当接收到测试语音时，通过所述活体检测模型对所述测试语音进行活体检测，以生成预测结果。

所述识别模块36，用于根据所述预测结果确定是否对所述测试语音进行声纹识别。

其中，所述识别模块36，用于若所述预测结果为真人发音，则确定对所述测试语音进行声纹识别以实现用户的身份认证；或者若所述预测结果为非真人发音，则确定不对所述测试语音进行声纹识别。

本申请实施例通过获取模块31获取训练样本，所述训练样本包括真人发音样本和非真人发音样本，提取模块32提取所述训练样本中的特征信息，训练模块33将所述训练样本以及所述特征信息作为训练数据输入参考模型中进行训练，以得到训练后的所述参考模型的优化参数，生成模块34根据所述优化参数生成活体检测模型，当接收到测试语音时，检测模块35通过所述活体检测模型对所述测试语音进行活体检测，以生成预测结果，识别模块36根据所述预测结果确定是否对所述测试语音进行声纹识别。本申请实施例的语音识别装置30通过利用标记好的真人发音样本和非真人发音样本进行模型训练，并根据当前模型得到的优化参数再融入到声纹识别系统中进行声纹识别，能够准确识别出真人发音，以防止他人利用录音或者人声合成进行安全攻破，提升设备的安全性。

本申请实施例还提供一种电子设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器调用所述存储器中存储的所述计算机程序，执行本申请任一实施例所述的语音识别方法。

该电子设备可以是智能手机、平板电脑、掌上电脑等设备。如图7所示，电子设备400包括有一个或者一个以上处理核心的处理器401、有一个或一个以上计算机可读存储介质的存储器402及存储在存储器上并可在处理器上运行的计算机程序。其中，处理器401与存储器402电性连接。本领域技术人员可以理解，图中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

处理器401是电子设备400的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或加载存储在存储器402内的应用程序，以及调用存储在存储器402内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。

在本申请实施例中，电子设备400中的处理器401会按照如下的步骤，将一个或一个以上的应用程序的进程对应的指令加载到存储器402中，并由处理器401来运行存储在存储器402中的应用程序，从而实现各种功能：

提取所述训练样本中的特征信息；

根据所述优化参数生成活体检测模型；

根据所述预测结果确定是否对所述测试语音进行声纹识别。

在一些实施例中，处理器401用于所述根据所述预测结果确定是否对所述测试语音进行声纹识别，包括：

若所述预测结果为真人发音，则确定对所述测试语音进行声纹识别以实现用户的身份认证；或者

若所述预测结果为非真人发音，则确定不对所述测试语音进行声纹识别。

在一些实施例中，处理器401用于所述获取训练样本，包括：

采集真人发音，并标记为所述真人发音样本；

采集非真人发音，并标记为所述非真人发音样本，其中所述非真人发音样本包括真人录音子样本与合成人声录音子样本。

在一些实施例中，处理器401用于所述采集非真人发音，并标记为所述非真人发音样本，包括：

在一些实施例中，处理器401用于所述提取所述训练样本中的特征信息，包括：

分别提取所述真人发音样本、所述真人录音子样本与所述合成人声录音子样本对应的声谱图；

所述将所述训练样本以及所述特征信息作为训练数据输入参考模型中进行训练，以得到训练后的所述参考模型的优化参数，包括：

将所述真人发音样本、所述真人录音子样本与所述合成人声录音子样本分别对应的声谱图作为训练数据输入参考模型中进行训练，以得到训练后的所述参考模型的优化参数。

在一些实施例中，处理器401用于所述得到训练后的所述参考模型的优化参数，包括：

获取所述真人发音样本与所述真人录音子样本之间的差异特征值，以得到第一优化参数，以及获取所述真人发音样本与所述合成人声录音子样本之间的差异特征值，以得到第二优化参数；

所述根据所述优化参数生成活体检测模型，包括：根据所述第一优化参数与所述第二优化参数生成活体检测模型。

将所述训练样本中的真人发音样本、真人录音子样本与合成人声录音子样本对应的声谱图作为训练数据输入卷积层得到第一中间值；

将第一中间值输入全连接层得到第二中间值；

将第二中间值输入分类器得到对应多个预测结果的概率；

根据多个预测结果和与其对应的多个概率得到损失值；

根据损失值进行训练，得到优化参数。

在一些实施例中，如图8所示，电子设备400还包括：显示屏403、麦克风404、音频电路405、输入单元406以及射频电路407。其中，处理器401分别与显示屏403、麦克风404、音频电路405、输入单元406以及射频电路407电性连接。本领域技术人员可以理解，图8中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

显示屏403可用于显示由用户输入的信息或提供给用户的信息以及电子设备的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示屏403为触控显示屏时，也可以作为输入单元的一部分实现输入功能。

麦克风404可以用于将声音信号转换为电信号，以实现声音信号的录制或输入等。比如，可以通过麦克风404录制用户的测试语音等。

音频电路405可以用于通过扬声器、传声器提供用户与电子设备之间的音频接口。

输入单元406可用于接收输入的数字、字符信息或用户特征信息(例如指纹)，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

射频电路404可用于收发射频信号，以通过无线通信与网络设备或其他电子设备建立无线通讯，与网络设备或其他电子设备之间收发信号。

尽管图8中未示出，电子设备400还可以包括摄像头、传感器、无线保真模块、蓝牙模块、电源等，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

本申请实施例中，所述语音识别装置与上文实施例中的一种语音识别方法属于同一构思，在所述语音识别装置上可以运行所述语音识别方法实施例中提供的任一方法，其具体实现过程详见所述语音识别方法实施例，此处不再赘述。

本申请实施例还提供一种存储介质，所述存储介质存储有计算机程序，当所述计算机程序在计算机上运行时，使得所述计算机执行上述任一实施例中的语音识别方法。

需要说明的是，对本申请所述语音识别方法而言，本领域普通测试人员可以理解实现本申请实施例所述语音识别方法的全部或部分流程，是可以通过计算机程序来控制相关的硬件来完成，所述计算机程序可存储于一计算机可读存储介质中，如存储在电子设备的存储器中，并被该电子设备内的至少一个处理器执行，在执行过程中可包括如所述语音识别方法的实施例的流程。其中，所述存储介质可为磁碟、光盘、只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)等。

对本申请实施例的所述语音识别装置而言，其各功能模块可以集成在一个处理芯片中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读存储介质中，所述存储介质譬如为只读存储器，磁盘或光盘等。

以上对本申请实施例所提供的一种语音识别方法、装置、存储介质及电子设备进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的技术方案及其核心思想；本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例的技术方案的范围。

Claims

一种语音识别方法，应用于电子设备中，其中，所述方法包括：

获取训练样本，所述训练样本包括真人发音样本和非真人发音样本；

提取所述训练样本中的特征信息；

将所述训练样本以及所述特征信息作为训练数据输入参考模型中进行训练，以得到训练后的所述参考模型的优化参数；

根据所述优化参数生成活体检测模型；

当接收到测试语音时，通过所述活体检测模型对所述测试语音进行活体检测，以生成预测结果；

根据所述预测结果确定是否对所述测试语音进行声纹识别。
如权利要求1所述的语音识别方法，其中，所述根据所述预测结果确定是否对所述测试语音进行声纹识别，包括：

若所述预测结果为真人发音，则确定对所述测试语音进行声纹识别以实现用户的身份认证；或者

若所述预测结果为非真人发音，则确定不对所述测试语音进行声纹识别。
如权利要求1所述的语音识别方法，其中，所述获取训练样本，包括：

采集真人发音，并标记为所述真人发音样本；

采集非真人发音，并标记为所述非真人发音样本，其中所述非真人发音样本包括真人录音子样本与合成人声录音子样本。
如权利要求3所述的语音识别方法，其中，所述采集非真人发音，并标记为所述非真人发音样本，包括：

对所述真人发音样本进行录音采集，并标记为所述非真人发音样本中的真人录音子样本；

对合成人声发音进行录音采集，并标记为所述非真人发音样本中的合成人声录音子样本。
如权利要求4所述的语音识别方法，其中，所述提取所述训练样本中的特征信息，包括：

分别提取所述真人发音样本、所述真人录音子样本与所述合成人声录音子样本对应的声谱图；

所述将所述训练样本以及所述特征信息作为训练数据输入参考模型中进行训练，以得到训练后的所述参考模型的优化参数，包括：

将所述真人发音样本、所述真人录音子样本与所述合成人声录音子样本分别对应的声谱图作为训练数据输入参考模型中进行训练，以得到训练后的所述参考模型的优化参数。
如权利要求5所述的语音识别方法，其中，所述得到训练后的所述参考模型的优化参数，包括：

获取所述真人发音样本与所述真人录音子样本之间的差异特征值，以得到第一优化参数，以及获取所述真人发音样本与所述合成人声录音子样本之间的差异特征值，以得到第二优化参数；

所述根据所述优化参数生成活体检测模型，包括：根据所述第一优化参数与所述第二优化参数生成活体检测模型。
如权利要求1所述的语音识别方法，其中，所述得到训练后的所述参考模型的优化参数，包括：

将所述训练样本中的真人发音样本、真人录音子样本与合成人声录音子样本对应的声谱图作为训练数据输入卷积层得到第一中间值；

将第一中间值输入全连接层得到第二中间值；

将第二中间值输入分类器得到对应多个预测结果的概率；

根据多个预测结果和与其对应的多个概率得到损失值；

根据损失值进行训练，得到优化参数。
一种语音识别装置，其中，所述装置包括：

获取模块，用于获取训练样本，所述训练样本包括真人发音样本和非真人发音样本；

提取模块，用于提取所述训练样本中的特征信息；

训练模块，用于将所述训练样本以及所述特征信息作为训练数据输入参考模型中进行训练，以得到训练后的所述参考模型的优化参数；

生成模块，用于根据所述优化参数生成活体检测模型；

检测模块，用于当接收到测试语音时，通过所述活体检测模型对所述测试语音进行活体检测，以生成预测结果；

识别模块，用于根据所述预测结果确定是否对所述测试语音进行声纹识别。
如权利要求8所述的语音识别装置，其中，所述识别模块，用于：

若所述预测结果为真人发音，则确定对所述测试语音进行声纹识别以实现用户的身份认证；或者

若所述预测结果为非真人发音，则确定不对所述测试语音进行声纹识别。
如权利要求8所述的语音识别装置，其中，所述获取模块还包括：

第一采集子模块，用于采集真人发音，并标记为所述真人发音样本；

第二采集子模块，用于采集非真人发音，并标记为所述非真人发音样本。
如权利要求10所述的语音识别装置，其中，第二采集子模块，用于：

对所述真人发音样本进行录音采集，并标记为所述非真人发音样本中的真人录音子样本；

对合成人声发音进行录音采集，并标记为所述非真人发音样本中的合成人声录音子样本。
如权利要求11所述的语音识别装置，其中，所述提取模块，用于分别提取所述真人发音样本、所述真人录音子样本与所述合成人声录音子样本对应的声谱图；

所述训练模块，用于将所述真人发音样本、所述真人录音子样本与所述合成人声录音子样本分别对应的声谱图作为训练数据输入参考模型中进行训练，以得到训练后的所述参考模型的优化参数。
如权利要求12所述的语音识别装置，其中，所述训练模块，还用于获取所述真人发音样本与所述真人录音子样本之间的差异特征值，以得到第一优化参数；以及获取所述真人发音样本与所述合成人声录音子样本之间的差异特征值，以得到第二优化参数；

所述生成模块，还用于根据所述第一优化参数与所述第二优化参数生成活体检测模型。
一种存储介质，其上存储有计算机程序，其中，当所述计算机程序在计算机上运行时，使得所述计算机执行如权利要求1所述的语音识别方法。
一种电子设备，包括存储器和处理器，其中，所述处理器通过调用所述存储器中存储的计算机程序，用于执行步骤：

获取训练样本，所述训练样本包括真人发音样本和非真人发音样本；

提取所述训练样本中的特征信息；

将所述训练样本以及所述特征信息作为训练数据输入参考模型中进行训练，以得到训练后的所述参考模型的优化参数；

根据所述优化参数生成活体检测模型；

当接收到测试语音时，通过所述活体检测模型对所述测试语音进行活体检测，以生成预测结果；

根据所述预测结果确定是否对所述测试语音进行声纹识别。
如权利要求15所述的电子设备，其中，所述处理器通过调用所述计算机程序，用于执行步骤：

若所述预测结果为真人发音，则确定对所述测试语音进行声纹识别以实现用户的身份认证；或者

若所述预测结果为非真人发音，则确定不对所述测试语音进行声纹识别。
如权利要求15所述的电子设备，其中，所述处理器通过调用所述计算机程序，用于执行步骤：

采集真人发音，并标记为所述真人发音样本；

采集非真人发音，并标记为所述非真人发音样本，其中所述非真人发音样本包括真人录音子样本与合成人声录音子样本。
如权利要求17所述的电子设备，其中，所述处理器通过调用所述计算机程序，用于执行步骤：

对所述真人发音样本进行录音采集，并标记为所述非真人发音样本中的真人录音子样本；

对合成人声发音进行录音采集，并标记为所述非真人发音样本中的合成人声录音子样本。
如权利要求18所述的电子设备，其中，所述处理器通过调用所述计算机程序，用于执行步骤：

分别提取所述真人发音样本、所述真人录音子样本与所述合成人声录音子样本对应的声谱图；

所述将所述训练样本以及所述特征信息作为训练数据输入参考模型中进行训练，以得到训练后的所述参考模型的优化参数，包括：

将所述真人发音样本、所述真人录音子样本与所述合成人声录音子样本分别对应的声谱图作为训练数据输入参考模型中进行训练，以得到训练后的所述参考模型的优化参数。
如权利要求19所述的电子设备，其中，所述处理器通过调用所述计算机程序，用于执行步骤：

获取所述真人发音样本与所述真人录音子样本之间的差异特征值，以得到第一优化参数，以及获取所述真人发音样本与所述合成人声录音子样本之间的差异特征值，以得到第二优化参数；

所述根据所述优化参数生成活体检测模型，包括：根据所述第一优化参数与所述第二优化参数生成活体检测模型。