WO2019075965A1

WO2019075965A1 - 一种基于语谱图和音素检索的身份同一性检验方法及装置

Info

Publication number: WO2019075965A1
Application number: PCT/CN2018/075774
Authority: WO
Inventors: 晏青
Original assignee: 深圳势必可赢科技有限公司
Priority date: 2017-10-18
Filing date: 2018-02-08
Publication date: 2019-04-25
Also published as: CN107680601A; CN107680601B

Abstract

一种基于语谱图和音素检索的身份同一性检验方法及装置，其中方法包括：获取样本音频文件对应的语谱图（101）；获取样本音频文件的语音特征参数（102）；构建音素识别模型，将语音特征参数输入至音素识别模型中进行音素检索，得到符合的音素（103）；将符合的音素标识在语谱图上，对具有相同标识的元音或元音组合进行同一性检验，判断样本音频文件对应的待识别者身份验证是否通过（104）。解决了实际声纹鉴定中搜索和查找音素的技术问题，并将音素可视化显示，提高办案人员的认定效率。

Description

一种基于语谱图和音素检索的身份同一性检验方法及装置

本申请要求于2017年10月18日提交中国专利局、申请号为201710971618.6、发明名称为“一种基于语谱图和音素检索的身份同一性检验方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明涉及语音识别领域，尤其涉及一种基于语谱图和音素检索的身份同一性检验方法及装置。

背景技术

成年以后，人的声音可保持长期相对稳定不变。实验证明，无论讲话者是故意模仿他人声音和语气，还是耳语轻声讲话，即使模仿得惟妙惟肖，其声纹却始终相同。基于声纹的这两个特征，侦查人员就可将获取的犯罪分子的声纹和嫌疑人的声纹，通过声纹鉴定技术进行检验对比，迅速认定罪犯，为侦查破案提供可靠的证据。

现有的声纹身份同一性检验方法主要是通过在录音音频对应显示语谱图中，人工逐个查找相似的元音，逐一比对声纹特征的方法。此方法最大的缺点是查找相似的元音需要花费大量的时间和精力，还需要人工标注相同音节进行统计。在实际的声纹鉴定中，由于对声纹特征的对比要求高，会对不同元音及组合进行反复的比较，传统的人工查找和搜索会导致大量人力成本的浪费，且单一的音素检索功能无法对声纹鉴定办案审理提供有效的鉴定结果。本发明解决了实际声纹鉴定中搜索和查找音素的技术问题，并将音素可视化显示，提高办案人员的认定效率。

发明内容

本发明提供了一种基于语谱图和音素检索的身份同一性检验方法及装置，解决了实际声纹鉴定中搜索和查找音素的技术问题，并将音素可视化显示，提高办案人员的认定效率。

本发明提供了一种基于语谱图和音素检索的身份同一性检验方法，包括：

获取样本音频文件对应的语谱图；

获取所述样本音频文件的语音特征参数；

构建音素识别模型，将所述语音特征参数输入至所述音素识别模型中进行音素检索，得到符合的音素；

将所述符合的音素标识在所述语谱图上，对具有相同标识的元音或元音组合进行同一性检验进行同一性检验，判断所述样本音频文件对应的待识别者身份验证是否通过。

作为优选，所述获取样本音频文件对应的语谱图具体包括：

获取样本音频文件的语谱参数，包括：带宽、动态范围、衰减系数、高频提升系数和加窗类型；

根据所述语谱参数构建对应的语谱图。

作为优选，所述获取所述样本音频文件的语音特征参数具体包括：

获取所述样本音频文件的梅尔频率倒谱系数。

作为优选，所述构建音素识别模型，将所述语音特征参数输入至所述音素识别模型中进行音素检索，得到符合的音素具体包括：

将预置的音素词典、预置的声学模型和预置的音素语言模型输入至音素识别器中构建音素识别模型；

将所述梅尔频率倒谱系数输入至所述音素识别模型中进行音素检索，根据概率分布，得到符合的音素。

作为优选，所述将所述符合的音素标识在所述语谱图上，对具有相同标识的元音或元音组合进行同一性检验，判断所述样本音频文件对应的待识别者身份验证是否通过具体包括：

将所述符合的音素标识在所述语谱图上，获取具有相同标识的元音或元音组合；

分析所述具有相同标识的元音或元音组合的共振峰特性；

判断第一组所述具有相同标识的元音或元音组合的语音特征是否匹配，

若是，则确定匹配的元音或元音组合的种类，并执行下一步，

若否，则判断下一组所述具有相同标识的元音或元音组合的语音特征是否匹配；

判断所述匹配的元音或元音组合的种类数量是否达到预置要求数量，

若是，则判断所述样本音频文件对应的待识别身份验证通过。

本发明提供了一种基于语谱图和音素检索的身份同一性检验装置，包括：

第一获取单元，用于获取样本音频文件对应的语谱图；

第二获取单元，用于获取所述样本音频文件的语音特征参数；

音素检索单元，用于构建音素识别模型，将所述语音特征参数输入至所述音素识别模型中进行音素检索，得到符合的音素；

身份验证单元，用于将所述符合的音素标识在所述语谱图上，对具有相同标识的元音或元音组合进行同一性检验，判断所述样本音频文件对应的待识别者身份验证是否通过。

作为优选，所述第一获取单元具体包括：

参数获取子单元，用于获取样本音频文件的语谱参数，包括：带宽、动态范围、衰减系数、高频提升系数和加窗类型；

语谱图构建子单元，用于根据所述语谱参数构建对应的语谱图。

作为优选，所述第二获取单元具体包括：

语音特征参数获取子单元，用于获取所述样本音频文件的梅尔频率倒谱系数。

作为优选，所述音素检索单元具体包括：

音素识别模型构建子单元，用于将预置的音素词典、预置的声学模型和预置的音素语言模型输入至音素识别器中构建音素识别模型；

音素检索子单元，用于将所述梅尔频率倒谱系数输入至所述音素识别模型中进行音素检索，根据概率分布，得到符合的音素。

作为优选，所述身份验证单元具体包括：

标识子单元，用于将所述符合的音素标识在所述语谱图上，获取具有相同标识的元音或元音组合；

分析子单元，用于分析所述具有相同标识的元音或元音组合的共振峰特性；

第一判断子单元，用于判断第一组所述具有相同标识的元音或元音组合的语音特征是否匹配，

第二判断子单元，用于判断所述匹配的元音或元音组合的种类数量是否达到预置要求数量，

从以上技术方案可以看出，本发明具有以下优点：

本发明提供了一种基于语谱图和音素检索的身份同一性检验方法，包括：获取样本音频文件对应的语谱图；获取所述样本音频文件的语音特征参数；构建音素识别模型，将所述语音特征参数输入至所述音素识别模型中进行音素检索，得到符合的音素；将所述符合的音素标识在所述语谱图上，对具有相同标识的元音或元音组合进行同一性检验，判断所述样本音频文件对应的待识别者身份验证是否通过。

本发明中，通过构建音素识别模型，检索出样本音频文件中符合要求的音素，且将符合要求的音素与样本音频文件对应的语谱图进行比对，鉴定样本音频文件对应的待识别者身份，相对于人工比较更加的准确，且通过音素识别模型检索出多个符合要求的音素，更加提高了比较的准确度，解决了实际声纹鉴定中搜索和查找音素的技术问题，并将音素可视化显示，提高办案人员的认定效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明提供的一种基于语谱图和音素检索的身份同一性检验方法的一个实施例的流程示意图；

图2为本发明提供的一种基于语谱图和音素检索的身份同一性检验方法的另一个实施例的流程示意图；

图3为本发明提供的一种基于语谱图和音素检索的身份同一性检验装置的一个实施例的结构示意图；

图4为本发明提供的一种基于语谱图和音素检索的身份同一性检验装置的另一个实施例的结构示意图。

具体实施方式

本发明实施例提供了一种基于语谱图和音素检索的身份同一性检验方法及装置，解决了实际声纹鉴定中搜索和查找音素的技术问题，并将音素可视化显示，提高办案人员的认定效率。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，本发明实施例提供了一种基于语谱图和音素检索的身份同一性检验方法的一个实施例，包括：

101、获取样本音频文件对应的语谱图；

需要说明的是，通过任意录音终端采集样本音频，并形成样本音频文件，获取样本音频文件对应的语谱图。

102、获取样本音频文件的语音特征参数；

需要说明的是，提取样本音频文件的语音特征参数。

103、构建音素识别模型，将语音特征参数输入至音素识别模型中进行音素检索，得到符合的音素；

需要说明的是，构建音素识别模型，将语音特征参数输入至音素识别模型中进行音素检索，得到符合的音素。

104、将符合的音素标识在语谱图上，获取具有相同标识的元音或元音组合，对具有相同标识的元音或元音组合进行同一性检验，判断样本音频文件对应的待识别者身份验证是否通过。

需要说明的是，将得到的符合的音素标识在语谱图上，对二者进行同一性检验，判断样本音频文件对应的待识别者身份验证是否通过。

本发明实施例中，通过构建音素识别模型，检索出样本音频文件中符合要求的音素，且将符合要求的音素与样本音频文件对应的语谱图进行比对，鉴定样本音频文件对应的待识别者身份，相对于人工比较更加的准确，且通过音素识别模型检索出多个符合要求的音素，更加提高了比较的准确度，解决了实际声纹鉴定中搜索和查找音素的技术问题，并将音素可视化显示，提高办案人员的认定效率。

以上是本发明提供的一种基于语谱图和音素检索的身份同一性检验方法的一个实施例进行说明，以下将说明本发明提供的一种基于语谱图和音素检索的身份同一性检验方法的另一个实施例进行说明。

请参阅图2，本发明实施例提供了一种基于语谱图和音素检索的身份同一性检验方法的另一个实施例，包括：

2011、获取样本音频文件的语谱参数，包括：带宽、动态范围、衰减系数、高频提升系数和加窗类型；

需要说明的是，通过任意录音终端采集样本音频，并形成样本音频文件，获取样本音频文件的语谱参数，包括：带宽、动态范围、衰减系数、高频提升系数和加窗类型。

2012、根据语谱参数构建对应的语谱图。

需要说明的是，通过得到的五个语谱参数，构建对应的语谱图。

202、获取样本音频文件的梅尔频率倒谱系数。

需要说明的是，获取样本音频文件的梅尔频率倒谱系数；

梅尔频率倒谱系数(MFCC，Mel-Frequency Cepstral Coefficients)是一种在主动语音和谈话人识别中广泛使用的特征。

2031、将预置的音素词典、预置的声学模型和预置的音素语言模型输入至音素识别器中构建音素识别模型；

需要说明的是，将预置的音素词典、预置的声学模型和预置的音素语言模型输入至音素识别器中构建音素识别模型，其中，预置的声学模型为已识别身份者的语音模型，预置的音素语音模型根据待识别者的语言类型预置相同的音素语言模型。

2032、将梅尔频率倒谱系数输入至音素识别模型中进行音素检索，根据概率分布，得到符合的音素。

需要说明的是，将梅尔频率倒谱系数输入至音素识别模型中进行音素检索，根据概率分布，得到符合的音素。

2041、将符合的音素标识在语谱图上，获取具有相同标识的元音或元音组合；

需要说明的是，将符合的音素标识在所述语谱图上，获取具有相同标识的元音或元音组合。

2042、分析具有相同标识的元音或元音组合的共振峰特性；

需要说明的是，分析具有相同标识的元音或元音组合的共振峰特性；

在语音声学中，人声也同样受自身生理如鼻孔、咽腔、口腔大小的影响有自身的共振峰区(Formant Regions)。通过利用这些共鸣空间的形状和大小不同的变化(例如改变咽喉、嘴形)，我们就能改变声音的共振峰。我们之所以能够区分不同的人声、元音，主要也是依靠它们的共振峰分布的位置。

2043、判断第一组具有相同标识的元音或元音组合的语音特征是否匹配，

若否，则判断下一组具有相同标识的元音或元音组合的语音特征是否匹配；

需要说明的是，对第一组具有相同标识的元音或元音组合的语音特征进行判断，若语音特征匹配，则确定匹配的元音或元音组合的种类，并执行步骤2044，若语音特征不匹配，则对下一组具有相同标识的元音或元音组合的语音特征是否匹配进行判断。

2044、判断匹配的元音或元音组合的种类数量是否达到预置要求数量，

若是，则判断样本音频文件对应的待识别身份验证通过。

需要说明的是，统计匹配的元音或元音组合的种类，得到匹配的元音或元音组合的种类数量，将匹配的元音或元音组合的种类数量与预置要求数量进行对比判断，若匹配的元音或元音组合的种类数量达到预置要求数量，则判断样本音频文件对应的待识别身份验证通过，若匹配的元音或元音组合的种类数量未达到预置要求数量，则判断样本音频文件对应的待识别身份验证不通过。

以上是对本发明提供的一种基于语谱图和音素检索的身份同一性检验方法的另一个实施例进行说明，以下将对本发明提供的一种基于语谱图和音素检索的身份同一性检验装置的一个实施例进行说明。

请参阅图3，本发明提供了一种基于语谱图和音素检索的身份同一性检验装置的一个实施例，包括：

第一获取单元301，用于获取样本音频文件对应的语谱图；

第二获取单元302，用于获取所述样本音频文件的语音特征参数；

音素检索单元303，用于构建音素识别模型，将所述语音特征参数输入至所述音素识别模型中进行音素检索，得到符合的音素；

身份验证单元304，用于将所述符合的音素标识在所述语谱图上，对具有相同标识的元音或元音组合进行同一性检验，判断所述样本音频文件对应的待识别者身份验证是否通过。

以上是对本发明提供的一种基于语谱图和音素检索的身份同一性检验装置的一个实施例进行说明，以下将对本发明提供的一种基于语谱图和音素检索的身份同一性检验装置的另一个实施例进行说明。

请参阅图4，本发明提供了一种基于语谱图和音素检索的身份同一性检验装置的另一个实施例，包括：

第一获取单元401，用于获取样本音频文件对应的语谱图；

第一获取单元401具体包括：

参数获取子单元4011，用于获取样本音频文件的语谱参数，包括：带宽、动态范围、衰减系数、高频提升系数和加窗类型；

语谱图构建子单元4012，用于根据所述语谱参数构建对应的语谱图。

第二获取单元402，用于获取所述样本音频文件的语音特征参数；

第二获取单元402具体包括：

语音特征参数获取子单元4021，用于获取所述样本音频文件的梅尔频率倒谱系数。

音素检索单元403，用于构建音素识别模型，将所述语音特征参数输入至所述音素识别模型中进行音素检索，得到符合的音素；

音素检索单元403具体包括：

音素识别模型构建子单元4031，用于将预置的音素词典、预置的声学模型和预置的音素语言模型输入至音素识别器中构建音素识别模型；

音素检索子单元4032，用于将所述梅尔频率倒谱系数输入至所述音素识别模型中进行音素检索，根据概率分布，得到符合的音素。

身份验证单元404，用于将所述符合的音素标识在所述语谱图上，对具有相同标识的元音或元音组合进行同一性检验，判断所述样本音频文件对应的待识别者身份验证是否通过。

身份验证单元404具体包括：

标识子单元4041，用于将所述符合的音素标识在所述语谱图上，获取具有相同标识的元音或元音组合；

分析子单元4042，用于分析所述具有相同标识的元音或元音组合的共振峰特性；

第一判断子单元4043，用于判断第一组所述具有相同标识的元音或元音组合的语音特征是否匹配，

第二判断子单元4044，用于判断所述匹配的元音或元音组合的种类数量是否达到预置要求数量，

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

一种基于语谱图和音素检索的身份同一性检验方法，其特征在于，包括：

获取样本音频文件对应的语谱图；

获取所述样本音频文件的语音特征参数；

构建音素识别模型，将所述语音特征参数输入至所述音素识别模型中进行音素检索，得到符合的音素；

将所述符合的音素标识在所述语谱图上，对具有相同标识的元音或元音组合进行同一性检验，判断所述样本音频文件对应的待识别者身份验证是否通过。
根据权利要求1所述的基于语谱图和音素检索的身份同一性检验方法，其特征在于，所述获取样本音频文件对应的语谱图具体包括：

获取样本音频文件的语谱参数，包括：带宽、动态范围、衰减系数、高频提升系数和加窗类型；

根据所述语谱参数构建对应的语谱图。
根据权利要求2所述的基于语谱图和音素检索的身份同一性检验方法，其特征在于，所述获取所述样本音频文件的语音特征参数具体包括：

获取所述样本音频文件的梅尔频率倒谱系数。
根据权利要求3所述的基于语谱图和音素检索的身份同一性检验方法，其特征在于，所述构建音素识别模型，将所述语音特征参数输入至所述音素识别模型中进行音素检索，得到符合的音素具体包括：

将预置的音素词典、预置的声学模型和预置的音素语言模型输入至音素识别器中构建音素识别模型；

将所述梅尔频率倒谱系数输入至所述音素识别模型中进行音素检索，根据概率分布，得到符合的音素。
根据权利要求4所述的基于语谱图和音素检索的身份同一性检验方法，其特征在于，所述将所述符合的音素标识在所述语谱图上，对具有相同标识的元音或元音组合进行同一性检验，判断所述样本音频文件对应的待识别者身份验证是否通过具体包括：

将所述符合的音素标识在所述语谱图上，获取具有相同标识的元音或元音组合；

分析所述具有相同标识的元音或元音组合的共振峰特性；

判断第一组所述具有相同标识的元音或元音组合的语音特征是否匹配，

若是，则确定匹配的元音或元音组合的种类，并执行下一步，

若否，则判断下一组所述具有相同标识的元音或元音组合的语音特征是否匹配；

判断所述匹配的元音或元音组合的种类数量是否达到预置要求数量，

若是，则判断所述样本音频文件对应的待识别身份验证通过。
一种基于语谱图和音素检索的身份同一性检验装置，其特征在于，包括：

第一获取单元，用于获取样本音频文件对应的语谱图；

第二获取单元，用于获取所述样本音频文件的语音特征参数；

音素检索单元，用于构建音素识别模型，将所述语音特征参数输入至所述音素识别模型中进行音素检索，得到符合的音素；

身份验证单元，用于将所述符合的音素标识在所述语谱图上，对具有相同标识的元音或元音组合进行同一性检验进行同一性检验，判断所述样本音频文件对应的待识别者身份验证是否通过。
根据权利要求6所述的基于语谱图和音素检索的身份同一性检验装置，其特征在于，所述第一获取单元具体包括：

参数获取子单元，用于获取样本音频文件的语谱参数，包括：带宽、动态范围、衰减系数、高频提升系数和加窗类型；

语谱图构建子单元，用于根据所述语谱参数构建对应的语谱图。
根据权利要求7所述的基于语谱图和音素检索的身份同一性检验装置，其特征在于，所述第二获取单元具体包括：

语音特征参数获取子单元，用于获取所述样本音频文件的梅尔频率倒谱系数。
根据权利要求8所述的基于语谱图和音素检索的身份同一性检验装置，其特征在于，所述音素检索单元具体包括：

音素识别模型构建子单元，用于将预置的音素词典、预置的声学模型和预置的音素语言模型输入至音素识别器中构建音素识别模型；

音素检索子单元，用于将所述梅尔频率倒谱系数输入至所述音素识别模型中进行音素检索，根据概率分布，得到符合的音素。
根据权利要求9所述的基于语谱图和音素检索的身份同一性检验装置，其特征在于，所述身份验证单元具体包括：

标识子单元，用于将所述符合的音素标识在所述语谱图上，获取具有相同标识的元音或元音组合；

分析子单元，用于分析所述具有相同标识的元音或元音组合的共振峰特性；

第一判断子单元，用于判断第一组所述具有相同标识的元音或元音组合的语音特征是否匹配，

若是，则确定匹配的元音或元音组合的种类，并执行下一步，

若否，则判断下一组所述具有相同标识的元音或元音组合的语音特征是否匹配；

第二判断子单元，用于判断所述匹配的元音或元音组合的种类数量是否达到预置要求数量，

若是，则判断所述样本音频文件对应的待识别身份验证通过。