WO2021127975A1

WO2021127975A1 - 一种声音采集对象声纹检测方法、装置和设备

Info

Publication number: WO2021127975A1
Application number: PCT/CN2019/127882
Authority: WO
Inventors: 陈昊亮; 罗伟航
Original assignee: 广州国音智能科技有限公司
Priority date: 2019-12-24
Filing date: 2019-12-24
Publication date: 2021-07-01
Also published as: CN111108553A

Abstract

一种声音采集对象声纹检测方法、装置和设备，该方法包括：将收集到的采集对象的音频转换为PCM编码的WAV格式文件（101）；将WAV格式文件的首尾段静音切除，得到待处理PCM音频流（102）；基于移动窗函数对PCM音频流进行声音分帧（103）；对声音分帧后的PCM音频流进行波形变换，进行声纹特征提取后得到帧率矩阵（104）；将帧率矩阵输入隐马尔可夫模型，根据隐马尔可夫模型的输出结果判断音频是否为正常的采集对象音频（105）。该方法实现了对采集对象的声音是否正常的识别检测。

Description

一种声音采集对象声纹检测方法、装置和设备

技术领域

本申请涉及音频识别技术领域，尤其涉及一种声音采集对象声纹检测方法、装置和设备。

背景技术

声纹是用电声学仪器显示的携带言语信息的声波频谱，不同的人在讲话时使用是发生器官在尺寸和形态方面的差异比较大，所以任何两个人的声纹图谱都有差异。使用声纹识别技术，可以把声信号转换成电信号，再用计算机进行识别，从而得到声纹识别结果。

声纹识别需要进行采集对象的声音采集，声音采集过程中可能会夹杂背景声音或非采集对象的对象发出的声音，这些非目标采集对象的声音会对采集对象的声音检测存在干扰，因此，有必要对采集到的音频进行声纹识别，判断音频是否存在波形失真，音频是否为正常的采集对象的声音。

发明内容

本申请提供了一种声音采集对象声纹检测方法、装置和设备，用于检测采集到的音频是否为采集对象的正常声音。

有鉴于此，本申请第一方面提供了一种声音采集对象声纹检测方法，包括：

将采集对象的音频转换成PCM编码处理的WAV格式文件；

将所述WAV格式文件的首尾段静音切除，得到待处理PCM音频流；

基于移动窗函数对所述PCM音频流进行声音分帧；

对声音分帧后的所述PCM音频流进行波形变换，进行声纹特征提取后得到帧率矩阵；

将所述帧率矩阵输入隐马尔可夫模型，根据所述隐马尔可夫模型的输出结果判断所述音频是否为正常的采集对象音频。

可选地，所述将采集对象的音频转换成PCM编码处理的WAV格式文件，之前还包括：

通过麦克风采集所述采集对象的音频。

可选地，所述帧率矩阵的行数为12行。

可选地，所述将所述帧率矩阵输入隐马尔可夫模型，根据所述隐马尔可夫模型的输出结果判断所述音频是否为正常的采集对象音频，之前还包括：

对所述隐马尔可夫模型进行训练。

本申请第二方面提供了一种声音采集对象声纹检测装置，包括：

转换模块，用于将采集对象的音频转换成PCM编码处理的WAV格式文件；

切除模块，用于将所述WAV格式文件的首尾段静音切除，得到待处理PCM音频流；

分帧模块，用于基于移动窗函数对所述PCM音频流进行声音分帧；

特征提取模块，用于对声音分帧后的所述PCM音频流进行波形变换，进行声纹特征提取后得到帧率矩阵；

识别模块，用于将所述帧率矩阵输入隐马尔可夫模型，根据所述隐马尔可夫模型的输出结果判断所述音频是否为正常的采集对象音频。

可选地，还包括：

采集模块，用于通过麦克风采集所述采集对象的音频。

可选地，还包括：

训练模块，用于对所述隐马尔可夫模型进行训练。

本申请第三方面提供了一种声音采集对象声纹检测设备，所述设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行第一方面的所述的任一种声音采集对象声纹检测方法。

本申请第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行第一方面所述的任一种声音采集对象声纹检测方法。

本申请第五方面提供了一种包括指令的计算机程序产品，当其在计算机上运行时，使得所述计算机执行第一方面所述的任一种声音采集对象声纹检测方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请中，提供了一种声音采集对象声纹检测方法，包括：将采集对象的音频转换成PCM编码处理的WAV格式文件；将WAV格式文件的首尾段静音切除，得到待处理PCM音频流；基于移动窗函数对PCM音频流进行声音分帧；对声音分帧后的PCM音频流进行波形变换，进行声纹特征提取后得到帧率矩阵；将帧率矩阵输入隐马尔可夫模型，根据隐马尔可夫模型的输出结果判断音频是否为正常的采集对象音频。本申请提供的声音采集对象声纹检测方法，将收集到的采集对象的音频转换为PCM编码的WAV格式文件，然后进行音频切除、分帧和声学特征提取处理，得到帧率矩阵，通过隐马尔可夫模型进行音频识别，根据隐马尔可夫模型的输出结果判断音频是否为正常的采集对象声音，实现了对采集对象的声音是否正常的识别检测。

附图说明

图1为本申请实施例中提供的一种声音采集对象声纹检测方法的流程示意图；

图2为本申请实施例中提供的一种声音采集对象声纹检测方法的另一流程示意图；

图3为本申请实施例中提供的一种声音采集对象声纹检测装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了便于理解，请参阅图1，本申请提供的一种声音采集对象声纹检测方法的一个实施例，本申请实施例中的声音采集对象声纹检测方法，包括：

步骤101、将采集对象的音频转换成PCM编码处理的WAV格式文件。

需要说明的是，对采集对象采集到的音频需要转成非压缩纯波形windows PCM文件，即使用PCM编码处理的WAV格式文件，WAV格式文件的PCM流存储了文件头以及声音的波形点，通过波形点的坐标，制作声音的波形图。

步骤102、将WAV格式文件的首尾段静音切除，得到待处理PCM音频流。

需要说明的是，在将WAV格式文件输入到算法模型之前，需要将WAV格式文件的首尾段的静音切除，降低干扰。

步骤103、基于移动窗函数对PCM音频流进行声音分帧。

需要说明的是，可以通过移动窗函数把声音进行分帧，切成多个小段。

步骤104、对声音分帧后的PCM音频流进行波形变换，进行声纹特征提取后得到帧率矩阵。

需要说明的是，分帧后，需要将PCM音频流进行波形变换，根据人耳生理特征，利用声学特征提取模块对声音波形进行声学特征提取，可得到一个12行的帧率矩阵。将N帧语音识别为一个状态，每3个状态组合成一个音素，多个音素组合成一个单词，汉语则是用声母跟韵母作为音素集，每一帧音素对应的状态判断可以根据训练好的声学模型匹配概率最大的状态值，让每一帧得到一个状态号。

步骤105、将帧率矩阵输入隐马尔可夫模型，根据隐马尔可夫模型的输出结果判断音频是否为正常的采集对象音频。

需要说明的是，为了把得到不同的状态号的帧音频组合起来，需要通过隐马尔可夫模型构建一个状态网络，在状态网络中匹配声音的路径，从而实现音频的解码，输出新的PCM流，通过对音频的标识，判断出每一段音频的准确性，判断方式可以是预先设定号环境变量，判断每一段音频是否出现波形失真，从而确定音频是否为正常的采集对象的音频。

本申请实施例提供的声音采集对象声纹检测方法，将收集到的采集对象的音频转换为PCM编码的WAV格式文件，然后进行音频切除、分帧和声学特征提取处理，得到帧率矩阵，通过隐马尔可夫模型进行音频识别，根据隐马尔可夫模型的输出结果判断音频是否为正常的采集对象声音，实现了对采集对象的声音是否正常的识别检测。

为了便于理解，请参阅图2，本申请中提供了一种声音采集对象声纹检测方法的另一个实施例，本申请实施例中的声音采集对象声纹检测方法，包括：

步骤201、通过麦克风采集采集对象的音频。

需要说明的是，本申请实施例中，首选通过麦克风采集目标采集对象的音频。

步骤202、将采集对象的音频转换成PCM编码处理的WAV格式文件。

步骤203、将WAV格式文件的首尾段静音切除，得到待处理PCM音频流。

步骤204、基于移动窗函数对PCM音频流进行声音分帧。

步骤205、对声音分帧后的PCM音频流进行波形变换，进行声纹特征提取后得到帧率矩阵。

需要说明的是，本申请实施例中的步骤202至步骤205与上一实施例的步骤101至步骤104一致，在此不再进行赘述。

步骤206、将帧率矩阵输入隐马尔可夫模型，根据隐马尔可夫模型的输出结果判断音频是否为正常的采集对象音频。

需要说明的是，隐马尔可夫模型在使用之前，需要先进行训练，可以通过BW-GA方法对隐马尔可夫模型进行训练。

为了便于理解，请参阅图3，本申请中提供了一种声音采集对象声纹检测装置的另一个实施例，本申请实施例中的声音采集对象声纹检测装置，包括：

转换模块，用于将采集对象的音频转换成PCM编码处理的WAV格式文件。

切除模块，用于将WAV格式文件的首尾段静音切除，得到待处理PCM音频流。

分帧模块，用于基于移动窗函数对PCM音频流进行声音分帧。

特征提取模块，用于对声音分帧后的PCM音频流进行波形变换，进行声纹特征提取后得到帧率矩阵。

识别模块，用于将帧率矩阵输入隐马尔可夫模型，根据隐马尔可夫模型的输出结果判断音频是否为正常的采集对象音频。

还可以包括：

采集模块，用于通过麦克风采集所述采集对象的音频。

还可以包括：

训练模块，用于对隐马尔可夫模型进行训练。

本申请中还提供了一种声音采集对象声纹检测设备的实施例，设备包括处理器以及存储器：

存储器用于存储程序代码，并将程序代码传输给所述处理器；

处理器用于根据程序代码中的指令执行前述的声音采集对象声纹检测方法实施例中的任一种声音采集对象声纹检测方法。

本申请中还提供了一种计算机可读存储介质，计算机可读存储介质用于存储程序代码，程序代码用于执行前述的声音采集对象声纹检测方法实施例中的任一种声音采集对象声纹检测方法。

本申请中还提供了一种包括指令的计算机程序产品，其特征在于，当其在计算机上运行时，使得所述计算机执行前述的声音采集对象声纹检测方法实施例中的任一种声音采集对象声纹检测方法。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文全称：Read-Only Memory，英文缩写：ROM)、随机存取存储器(英文全称：Random Access Memory，英文缩写：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

一种声音采集对象声纹检测方法，其特征在于，包括：

将采集对象的音频转换成PCM编码处理的WAV格式文件；

将所述WAV格式文件的首尾段静音切除，得到待处理PCM音频流；

基于移动窗函数对所述PCM音频流进行声音分帧；

对声音分帧后的所述PCM音频流进行波形变换，进行声纹特征提取后得到帧率矩阵；

将所述帧率矩阵输入隐马尔可夫模型，根据所述隐马尔可夫模型的输出结果判断所述音频是否为正常的采集对象音频。
根据权利要求1所述的声音采集对象声纹检测方法，其特征在于，所述将采集对象的音频转换成PCM编码处理的WAV格式文件，之前还包括：

通过麦克风采集所述采集对象的音频。
根据权利要求1所述的声音采集对象声纹检测方法，其特征在于，所述帧率矩阵的行数为12行。
根据权利要求1所述的声音采集对象声纹检测方法，其特征在于，所述将所述帧率矩阵输入隐马尔可夫模型，根据所述隐马尔可夫模型的输出结果判断所述音频是否为正常的采集对象音频，之前还包括：

对所述隐马尔可夫模型进行训练。
一种声音采集对象声纹检测装置，其特征在于，包括：

转换模块，用于将采集对象的音频转换成PCM编码处理的WAV格式文件；

切除模块，用于将所述WAV格式文件的首尾段静音切除，得到待处理PCM音频流；

分帧模块，用于基于移动窗函数对所述PCM音频流进行声音分帧；

特征提取模块，用于对声音分帧后的所述PCM音频流进行波形变换，进行声纹特征提取后得到帧率矩阵；

识别模块，用于将所述帧率矩阵输入隐马尔可夫模型，根据所述隐马尔可夫模型的输出结果判断所述音频是否为正常的采集对象音频。
根据权利要求5所述的声音采集对象声纹检测装置，其特征在于，还包括：

采集模块，用于通过麦克风采集所述采集对象的音频。
根据权利要求5所述的声音采集对象声纹检测装置，其特征在于，还包括：

训练模块，用于对所述隐马尔可夫模型进行训练。
一种声音采集对象声纹检测设备，其特征在于，所述设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行权利要求1-4中任一项所述的声音采集对象声纹检测方法。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行权利要求1-4中任一项所述的声音采集对象声纹检测方法。
一种包括指令的计算机程序产品，其特征在于，当其在计算机上运行时，使得所述计算机执行权利要求1-4中任一项所述的声音采集对象声纹检测方法。