WO2019169685A1

WO2019169685A1 - 语音处理方法、装置和电子设备

Info

Publication number: WO2019169685A1
Application number: PCT/CN2018/082036
Authority: WO
Inventors: 安黄彬
Original assignee: 深圳市沃特沃德股份有限公司
Priority date: 2018-03-06
Filing date: 2018-04-04
Publication date: 2019-09-12
Also published as: CN108711437A

Abstract

本发明揭示了一种语音处理方法、装置和电子设备，所述方法包括以下步骤：对声音信号进行语音活动检测，从声音信号中提取出语音信号；对语音信号进行浊音检测，从语音信号中提取出浊音片段；计算出浊音片段的过零率特征参数；利用过零率特征参数进行关键词匹配。从而滤除了语音信号中的清音、噪音等干扰项，只对有效语音（浊音片段）进行关键词匹配，一方面大大减小了特征参数的计算量，有效降低了系统功耗，另一方面提高了特征参数的稳健性，进而提高了关键词匹配的准确度。并且，本发明实施例采用的过零率特征参数的计算量更小，进一步降低了系统功耗，同时本发明实施例采用高斯混合模型进行关键词匹配，进一步提高了关键词匹配的准确度。

Description

语音处理方法、装置和电子设备技术领域

[0001] 本发明涉及电子技术领域，特别是涉及到一种语音处理方法、装置和电子设备背景技术

[0002] 语音唤醒技术是人工智能的一个分支，语音唤醒技术的应用领域很广泛，比如可以应用于机器人、手机、可穿戴设备、智能家居、车载等领域。许多带有语音识别功能的设备都会利用语音唤醒技术作为人与机器互动的开始。

[0003] 语音唤醒是指用户说出特定的语音指令时，设备从休眠状态切换到工作状态，并给出指定响应。唤醒技术的用途在于，用户对于设备的操作可以完全用语音进行，脱离双手的帮助；同时，利用唤醒这样的机制，设备不需要时时处于工作状态，大大节省能耗。

[0004] 语音唤醒的关键是进行关键词匹配。目前在进行关键词匹配时，首先对声音信号进行语音活动检测 (Voice Activity Detection, VAD)，从声音信号中提取出语音信号，然后利用语音信号进行关键词匹配，判断语音信号中是否包含唤醒关键词。

[0005] 由于语音活动检测不完善，导致有效语音 (即浊音) 的首尾和中间都可能存在噪音和清音，并且清音复杂多变，从而使得系统的计算量较大，增大了系统的功耗。同时，清音和噪音等干扰项对匹配的特征参数的稳健性产生了不利影响，进而影响关键词匹配的准确度。

发明概述

技术问题

[0006] 本发明的主要目的为提供一种语音处理方法、装置和电子设备，旨在降低系统功耗，提高关键词匹配的准确度。

问题的解决方案

技术解决方案 [0007] 为达以上目的，本发明实施例提出一种语音处理方法，所述方法包括以下步骤

[0008] 对声音信号进行语音活动检测，从所述声音信号中提取出语音信号；

[0009] 对所述语音信号进行浊音检测，从所述语音信号中提取出浊音片段；

[0010] 计算出所述浊音片段的过零率特征参数；

[0011] 利用所述过零率特征参数进行关键词匹配。

[0012] 本发明实施例同时提出一种语音处理装置，所述装置包括：

[0013] 第一检测模块，用于对声音信号进行语音活动检测，从所述声音信号中提取出语音信号；

[0014] 第二检测模块，用于对所述语音信号进行浊音检测，从所述语音信号中提取出浊音片段；

[0015] 计算模块，用于计算出所述浊音片段的过零率特征参数；

[0016] 匹配模块，用于利用所述过零率特征参数进行关键词匹配。

[0017] 本发明实施例还提出一种电子设备，其包括存储器、处理器和至少一个被存储在所述存储器中并被配置为由所述处理器执行的应用程序，所述应用程序被配置为用于执行前述语音处理方法。

[0018] 本发明实施例所提供的一种语音处理方法，通过从语音信号中提取出浊音片段，并计算出浊音片段的过零率特征参数，利用浊音片段的过零率特征参数进行关键词匹配，从而滤除了语音信号中的清音、噪音等干扰项，只对有效语音（浊音片段）进行关键词匹配，一方面大大减小了特征参数的计算量，有效降低了系统功耗，另一方面提高了特征参数的稳健性，进而提高了关键词匹配的准确度。

发明的有益效果

有益效果

[0019] 并且，相对于现有技术中采用的 LPC、 PLP、 LPCC、 MFCC等特征参数，本发明实施例采用的过零率特征参数的计算量更小，进一步降低了系统功耗，同时本发明实施例采用高斯混合模型进行关键词匹配，进一步提高了关键词匹配的准确度。对附图的简要说明

附图说明

[0020] 图 1是本发明的语音处理方法一实施例的流程图；

[0021] 图 2是本发明实施例中对声音信号进行语音活动检测的示意图；

[0022] 图 3是本发明实施例中对语音活动检测结果进行修正后的示意图；

[0023] 图 4是本发明实施例中从语音信号中提取出的浊音片段的示意图；

[0024] 图 5是本发明的语音处理装置一实施例的模块示意图；

[0025] 图 6是图 5中的第二检测模块的模块示意图；

[0026] 图 7是图 5中的第二检测模块的又一模块示意图；

[0027] 图 8是图 5中的计算模块的模块示意图；

[0028] 图 9是图 5中的匹配模块的模块示意图；

[0029] 图 10是图 9中的判断单元的模块示意图。

[0030] 本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

实施该发明的最佳实施例

本发明的最佳实施方式

[0031] 应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

[0032] 下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

[0033] 本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、 “ 一个”、 “所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和 /或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和 /或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“稱接”可以包括无线连接或无线耦接。这里使用的措辞“和 /或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

[0034] 本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语（包括技术术语和科学术语），具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

[0035] 本技术领域技术人员可以理解，这里所使用的“终端”、 “终端设备”既包括无线信号接收器的设备，其仅具备无发射能力的无线信号接收器的设备，又包括接收和发射硬件的设备，其具有能够在双向通信链路上，执行双向通信的接收和发射硬件的设备。这种设备可以包括：蜂窝或其他通信设备，其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备； PCS （Persona 1 Communications Service，个人通信系统），其可以组合语音、数据处理、传真和 /或数据通信能力； PDA （Personal Digital Assistant, 个人数字助理），其可以包括射频接收器、寻呼机、互联网 /内联网访问、网络浏览器、记事本、日历和 / 或 GPS （Global Positioning System, 全球定位系统）接收器；常规膝上型和 /或掌上型计算机或其他设备，其具有和 /或包括射频接收器的常规膝上型和 /或掌上型计算机或其他设备。这里所使用的“终端”、 “终端设备”可以是便携式、可运输、安装在交通工具（航空、海运和 /或陆地）中的，或者适合于和 /或配置为在本地运行，和 /或以分布形式，运行在地球和 /或空间的任何其他位置运行。这里所使用的“终端”、 “终端设备”还可以是通信终端、上网终端、音乐 /视频播放终端，例如可以是 PDA、 MID （Mobile Internet Device, 移动互联网设备）和 /或具有音乐 /视频播放功能的移动电话，也可以是智能电视、机顶盒等设备。

[0036] 参照图 1，提出本发明的语音处理方法一实施例，所述方法包括以下步骤：

[0037] S11、对声音信号进行语音活动检测，从声音信号中提取出语音信号。

[0038] 本发明实施例中，电子设备通过麦克风采集声音信号或接收外部设备发送的声音信号，并对声音信号进行语音活动检测，从声音信号中提取出语音信号。所述电子设备可以是手机、平板、个人电脑、笔记本电脑等终端设备，也可以是可穿戴设备、智能家居设备、车载设备、机器人等电子设备。 [0039] 本发明实施例中，电子设备可以基于过零率对声音信号进行语音活动检测，优选过零率与短时能量相结合，其中过零率的门限值为第一门限值。

[0040] 这里的过零率指短时过零率，短时过零率可以看作信号频率的简单度量，是语音信号时域分析中的一种特征参数。过零就是指信号通过零值，过零率就是单位时间内信号通过零值的次数，对有时间横轴的连续语音信号，可以观察到语音的时域波形通过横轴的情况。对于离散时间序列，过零则是指序列取样值改变符号，过零率则是每个样本改变符号的次数。对于语音信号，则是指在一帧语音中语音信号波形穿过横轴（零电平）的次数，可以用相邻两个取样改变符号的次数来计算。

[0041] 短时能量和过零率两个参数，可以用于语音活动检测，主要用于识别无声段和语音段的起点和终点的位置。在背景噪音比较小时用短时能量来识别比较有效，在背景噪音比较大的时用过零率来识别比较有效，但是通常情况是两个参数联合进行识别效果更好。

[0042] 可选地，在基于过零率对声音信号进行语音活动检测时，针对声音信号的声音帧中相邻的两个采样点 tmp 1和 tmp2，当同时满足 tmp 1 *tmp2<0和 Itmp 1 -tmp2l>T 1 时，电子设备则认定该声音帧过一次零，据此统计出声音帧的过零率，其中 T1 为第一门限值；然后电子设备从声音信号中提取出过零率大于预设值的声音帧作为语音信号，或者将声音信号中过零率小于或等于预设值的声音帧滤除后得到语音信号。这里的预设值可以根据实际需要设定。

[0043] 可选地，在基于过零率对声音信号进行语音活动检测时，针对声音信号中相邻的采样点对 tmpl和 tmp2，当同时满足 tmpl*tmp2<0和 ltmpl-tmp2l>Tl时，电子设备则判决过零率为 1，否则判决过零率为 0, 其中 T1为第一门限值；然后电子设备从声音信号中提取出所有过零率为 1的采样点对所对应的数据段作为语音信号，或者将声音信号中过零率为 0的采样点对所对应的数据段滤除后得到语音信号

[0044] 获得的语音信号中包含清音、浊音，还可能包含首尾部分的噪音，这与语音活动检测算法设置的语音时长参数和静音时长参数有关。

[0045] 进一步地，在步骤 S11之前，电子设备还可以对声音信号进行滤波处理，以滤除语音频段范围以外的声音信号。语音频段范围优选为为 200-3400HZ。

[0046] 进一步地，在对声音信号进行滤波处理后，步骤 S11之前，电子设备还可以对声音信号进行降噪处理，以降低 200-3400HZ频段内的噪音。

[0047] 进一步地，在对声音信号进行降噪处理后，步骤 S11之前，电子设备还可以对声音信号进行预加重处理，以使得后续能够更好的区分清音和浊音。

[0048] 如图 2所示，为语音活动检测示意图，图示中横轴为时间，纵轴为声音信号的幅度，两条线段之间的部分为本步骤 S11中语音活动检测的结果，该部分即为检测到的语音信号。

[0049] S12、对语音信号进行浊音检测，从语音信号中提取出浊音片段。

[0050] 语音活动检测后获得的语音信号，不但包括有效语音（即浊音），还包括部分噪音和清音。我们知道，噪音过零率高，且短时能量小，而清音频谱中高频成分较多，因此其过零率相对较高，而浊音的频谱则大多数集中在 3kHz以下，过零率较低。经过大量实验数据分析，我们发现对于特定的人，对于特定的关键词，其浊音的过零率基本上是相对稳定的，而清音则不然。

[0051] 有鉴于此，本发明实施例中，电子设备可以基于过零率对语音信号进行浊音检测，从语音信号中提取出浊音片段，其中过零率的门限值为第二门限值，且第二门限值大于第一门限值。

[0052] 可选地，在基于过零率对语音信号进行浊音检测时，针对语音信号的语音帧中相邻的两个采样点 tmp 1和 tmp2，当同时满足 tmp 1 *tmp2<0和 Itmp 1 -tmp2l>T2时，则认定该语音帧过一次零，据此统计出语音帧的过零率，其中 T2为第二门限值 ; 然后电子设备从语音信号中提取出过零率大于预设值的语音帧组成浊音片段。这里的预设值可以根据实际需要设定。第二门限值 T2大于前述第一门限值 T1 ，优选为语音信号的平均幅值的 8%-15% （如 10%）。

[0053] 可选地，在基于过零率对语音信号进行浊音检测时，针对语音信号中相邻的采样点对 tmpl和 tmp2，当同时满足 tmpl*tmp2<0和 ltmpl-tmp2l>T2时，则判决过零率为 1，否则判决过零率为 0, 其中 T2为第二门限值；然后电子设备从语音信号中提取出所有过零率为 1的采样点对所对应的数据段组成浊音片段。

[0054] 例如，采用以下公式进行浊音检测： [0055] signs =（tmpl.*tmp2）<0;

[0056] diffs = Itmpl -tmp2l>T2;

[0057] zcr=（signs.*diffs）;

[0058] 其中， signs是发生过零的位置， tmpl和 tmp2是语音信号中相邻的采样点对， tmpl和 tmp2对应位置数据相乘（.*代表两个向量的点积），小于 0则 signs为 1，否则为 0; diffs是基于点的幅值差位置， tmpl与 tm_P2之差的绝对值大于第二门限值 T2 时，变量值 diffs为 1，否则为 0; zcr是基于点的过零率，当 signscO且 diffs>T2时，贝 IJzcr为 1，否则为 0, 从而就把清音和噪音的过零率全部置零，而只保留了语音（浊音）的过零率。

[0059] 第二门限值 T2可以为检测到的语音信号的幅度的平均值（即平均幅值）的 8%- 20% , 例如，假设平均幅值为 0.2，第二门限值 T2=0.2xl0%=0.02。

[0060] 如图 3所示，为对语音活动检测结果进行修正后的语音信号的示意图，从图 3中可以看出，图 2所示语音信号中首尾两端的清音部分已被滤除。

[0061] 如图 4所示，为从语音信号中提取出的浊音片段的示意图，从图 4中可以看出，图 3所示语音信号中浊音之间的清音部分已被滤除。

[0062] S13、计算出浊音片段的过零率特征参数。

[0063] 本发明实施例中，电子设备先将浊音片段拆分为至少两个语音帧，相邻两个语音帧的帧间重叠长度优选为语音帧长度的一半，再将每个语音帧拆分为至少两个子帧，然后计算出每个语音帧中各个子帧的平均过零率，最后将每个语音帧中的所有子帧的平均过零率组成为语音帧的特征向量，并将浊音片段中所有语音帧的特征向量作为浊音片段的过零率特征参数。

[0064] 例如，按照每帧长 480个采样点，帧间重叠长度为 240个采样点来对浊音片段进行分帧。然后将每个语音帧拆分为 6个子帧，计算出每个子帧的平均过零率，因此一个语音帧包括 6个平均过零率，这 6个平均过零率组成该语音帧的特征向量，用公式表达如下：

[0065] [0066] 上式中， j=l,2,...,6。其中， fea①为第 j子帧的平均过零率， zero_cross (k) 为第 k个采样点的过零率。通过上式的计算，可以得到本语音帧最终的特征向量 fea

_vector：

[0067]

[0068] 最后计算出浊音片段中所有语音帧的特征向量 feajector，即得到浊音片段的过零率特征参数。

[0069] S14、利用浊音片段的过零率特征参数进行关键词匹配。

[0070] 本发明实施例中，电子设备将过零率特征参数输入高斯混合模型 (Gaussian Mixture Model， GMM)进行匹配度评判，根据评判结果判断是否匹配成功。

[0071] 前述高斯混合模型为利用关键词声音样本训练出的声学参数模型。可以采集大约 500人的关键词声音样本进行高斯混合模型训练，即采用前述步骤 S11-S13对关键词声音样本进行处理，获得过零率特征参数，并将其输入到电子设备的训练模块进行高斯混合模型训练。

[0072] 本发明实施例中，在根据评判结果判断是否匹配成功时，电子设备先获取高斯混合模型输出的针对浊音片段中每个语音帧的特征向量的评判分数，然后计算所有特征向量的评判分数的平均值，比较平均值与阈值的大小，判断平均值是否大于或等于阈值，当平均值大于或等于阈值时，判定匹配成功，否则判定匹配失败。

[0073] 在其它实施例中，电子设备也可以从评判分数中选取最小数、最大数或中位数与阈值进行比较，当比较结果为大于或等于阈值时则判定匹配成功。

[0074] 由于本发明实施例只计算有效语音即浊音片段的特征参数并利用该特征参数进行关键词匹配，从而一方面大大减小了特征参数的计算量，有效降低了系统功耗，另一方面滤除了语音信号中的清音、噪音等干扰项，提高了特征参数的稳健性，进而提高了关键词匹配的准确度。

[0075] 并且，相对于现有技术中采用的 LPC、 PLP、 LPCC、 MFCC等特征参数，本发明实施例采用的过零率特征参数的计算量更小，进一步降低了系统功耗，同时本发明实施例采用高斯混合模型进行关键词匹配，进一步提高了关键词匹配的准确度。 [0076] 本发明实施例的语音处理方法可以应用于设备唤醒、设备解锁等应用场景。若应用于设备唤醒，当关键词匹配成功时，电子设备的唤醒模块则唤醒设备。若应用于设备解锁，当关键词匹配成功时，电子设备的解锁模块则进行解锁。

[0077] 本发明实施例的语音处理方法，通过从语音信号中提取出浊音片段，并计算出浊音片段的过零率特征参数，利用浊音片段的过零率特征参数进行关键词匹配，从而滤除了语音信号中的清音、噪音等干扰项，只对有效语音（浊音片段）进行关键词匹配，一方面大大减小了特征参数的计算量，有效降低了系统功耗，另一方面提高了特征参数的稳健性，进而提高了关键词匹配的准确度。

[0078] 并且，相对于现有技术中采用的 LPC、 PLP、 LPCC、 MFCC等特征参数，本发明实施例采用的过零率特征参数的计算量更小，进一步降低了系统功耗，同时本发明实施例采用高斯混合模型进行关键词匹配，进一步提高了关键词匹配的准确度。而且，本发明实施例的特征参数的计算全部在时域中进行，有效避免了频域的复杂计算。

[0079] 参照图 5，提出本发明的语音处理装置一实施例，所述装置包括第一检测模块 1 0、第二检测模块 20、计算模块 30和匹配模块 40，其中：第一检测模块 10，用于对声音信号进行语音活动检测，从声音信号中提取出语音信号；第二检测模块 2 0, 用于对语音信号进行浊音检测，从语音信号中提取出浊音片段；计算模块 30 ，用于计算出浊音片段的过零率特征参数；匹配模块 40, 用于利用过零率特征参数进行关键词匹配。

[0080] 本发明实施例中，第一检测模块 10用于基于过零率对声音信号进行语音活动检测，优选过零率与短时能量相结合，其中过零率的门限值为第一门限值。

[0081] 可选地，在基于过零率对声音信号进行语音活动检测时，针对声音信号的声音帧中相邻的两个采样点 tmp 1和 tmp2，当同时满足 tmp 1 *tmp2<0和 Itmp 1 -tmp2l>T 1 时，第一检测模块 10则认定该声音帧过一次零，据此统计出声音帧的过零率，其中 T1为第一门限值；然后第一检测模块 10从声音信号中提取出过零率大于预设值的声音帧作为语音信号，或者将声音信号中过零率小于或等于预设值的声音帧滤除后得到语音信号。这里的预设值可以根据实际需要设定。

[0082] 可选地，在基于过零率对声音信号进行语音活动检测时，针对声音信号中相邻的米样点对 tmpl和 tmp2，当同时满足 tmpl*tmp2<0和 ltmpl-tmp2l>Tl时，第一检测模块 10则判决过零率为 1，否则判决过零率为 0, 其中 T1为第一门限值；然后第一检测模块 10从声音信号中提取出所有过零率为 1的采样点对所对应的数据段作为语音信号，或者将声音信号中过零率为 0的采样点对所对应的数据段滤除后得到语音信号。

[0083] 获得的语音信号中包含清音、浊音，还可能包含首尾部分的噪音，这与语音活动检测算法设置的语音时长参数和静音时长参数有关。

[0084] 进一步地，在进行语音活动检测之前，语音处理装置还可以对声音信号进行滤波处理，以滤除语音频段范围以外的声音信号。语音频段范围优选为为 200-3400 HZ。

[0085] 进一步地，在对声音信号进行滤波处理后，语音活动检测之前，语音处理装置还可以对声音信号进行降噪处理，以降低 200-3400HZ频段内的噪音。

[0086] 进一步地，在对声音信号进行降噪处理后，语音活动检测之前，语音处理装置还可以对声音信号进行预加重处理，以使得后续能够更好的区分清音和浊音。

[0087] 本发明实施例中，第二检测模块 20用于基于过零率对语音信号进行浊音检测，其中过零率的门限值为第二门限值，且第二门限值大于所述第一门限值。

[0088] 可选地，如图 6所示，第二检测模块 20包括统计单元 21和第一提取单元 22，其中：统计单元 21，用于针对语音信号的语音帧中相邻的两个采样点 tmpl和 tm_P2 ，当同时满足 tmpl*tmp2<0和 ltmpl-tmp2l>T2时，则认定语音帧过一次零，据此统计出所音帧的过零率，其中 T2为第二门限值；第一提取单元 22, 用于从语音信号中提取出过零率大于预设值的语音帧组成浊音片段。

[0089] 这里的预设值可以根据实际需要设定。第二门限值 T2大于前述第一门限值 T1，优选为语音信号的平均幅值的 8%-15% （如 10%）。

[0090] 可选地，如图 7所示，第二检测模块 20包括判决单元 23和第二提取单元 24，其中：判决单元 23 , 用于针对语音信号中相邻的采样点对 tmpl和 tm_P2, 当同时满足 tmpl*tmp2<0和 ltmpl-tmp2l>T2时，则判决过零率为 1，否则判决过零率为 0，其中 T2为第二门限值；第二提取单元 24, 用于从语音信号中提取出所有过零率为 1的采样点对所对应的数据段组成浊音片段。 [0091] 例如，第二检测模块 20采用以下公式进行浊音检测：

[0092] signs = (tmpl.*tmp2)<0;

[0093] diffs = Itmpl -tmp2l>T2;

[0094] zcr=(signs.*diffs);

[0095] 其中， signs是发生过零的位置， tmpl和 tmp2是语音信号中相邻的采样点对， tmpl和 tmp2对应位置数据相乘 (.*代表两个向量的点积)，小于 0则 signs为 1，否则为 0; diffs是基于点的幅值差位置， tmpl与 tm_P2之差的绝对值大于第二门限值 T2 时，变量值 diffs为 1，否则为 0; zcr是基于点的过零率，当 signscO且 diffs>T2时，贝 IJzcr为 1，否则为 0, 从而就把清音和噪音的过零率全部置零，而只保留了语音 (浊音) 的过零率。

[0096] 第二门限值 T2可以为检测到的语音信号的幅度的平均值 (即平均幅值) 的 8%- 20% , 例如，假设平均幅值为 0.2，第二门限值 T2=0.2xl0%=0.02。

[0097] 当提取出浊音片段后，计算模块 30则计算出浊音片段的过零率特征参数。本发明实施例中，计算模块 30如图 8所示，包括第一拆分单元 31、第二拆分单元 32、计算单元 33和组合单元 34, 其中：第一拆分单元 31，用于将浊音片段拆分为至少两个语音帧；第二拆分单元 32, 用于将每个语音帧拆分为至少两个子帧；计算单元 33 , 用于计算出每个语音帧中各个子帧的平均过零率；组合单元 34, 用于将每个语音帧中的所有子帧的平均过零率组成为语音帧的特征向量，将浊音片段中所有语音帧的特征向量作为浊音片段的过零率特征参数。

[0098] 例如，第一拆分单元 31按照每帧长 480个采样点，帧间重叠长度为 240个采样点来对浊音片段进行分帧。然后第二拆分单元 32将每个语音帧拆分为 6个子帧，计算单元 33计算出每个子帧的平均过零率，因此一个语音帧包括 6个平均过零率，组合单元 34将这 6个平均过零率组成该语音帧的特征向量，用公式表达如下：

[0099]

[0100] 上式中， j=l,2,...,6。其中， fea(j)为第 j子帧的平均过零率， zero_cross (k) 为第 k个采样点的过零率。通过上式的计算，可以得到本语音帧最终的特征向量 fea —vector:

[0101]

[0102] 最后计算模块 30计算出浊音片段中所有语音帧的特征向量 feajector，即得到浊音片段的过零率特征参数。

[0103] 当获得过零率特征参数之后，匹配模块 40则利用过零率特征参数进行关键词匹配。本发明实施例中，匹配模块 40如图 9所示，包括输入单元 41和判断单元 42，其中：输入单元 41，用于将过零率特征参数输入高斯混合模型进行匹配度评判 ; 判断单元 42, 用于根据评判结果判断是否匹配成功。

[0104] 前述高斯混合模型为利用关键词声音样本训练出的声学参数模型。可以采集大约 500人的关键词声音样本进行高斯混合模型训练，即利用前述第一检测模块 10 、第二检测模块 20和计算模块 30对关键词声音样本进行处理，获得过零率特征参数，并将其输入到语音处理装置的训练模块进行高斯混合模型训练。

[0105] 本发明实施例中，判断单元 42如图 10所示，包括获取子单元 421、计算子单元 4 22、判断子单元 423和判定子单元 424, 其中：获取子单元 421，用于获取高斯混合模型输出的针对浊音片段中每个语音帧的特征向量的评判分数；计算子单元 4 22, 用于计算所有特征向量的评判分数的平均值；判断子单元 423 , 用于判断平均值是否大于或等于阈值；判定子单元 424, 用于当平均值大于或等于阈值时，判定匹配成功。

[0106] 在其它实施例中，判断子单元 423也可以从评判分数中选取最小数、最大数或中位数与阈值进行比较，当比较结果为大于或等于阈值时判定子单元 424则判定匹配成功。

[0107] 本发明实施例的语音处理装置可以应用于设备唤醒、设备解锁等应用场景。若应用于设备唤醒，该装置还包括唤醒模块，该唤醒模块用于：当关键词匹配成功时，唤醒设备。若应用于设备解锁，该装置还包括解锁模块，该解锁模块用于：当关键词匹配成功时，对设备解锁。

[0108] 本发明实施例的语音处理装置，通过从语音信号中提取出浊音片段，并计算出浊音片段的过零率特征参数，利用浊音片段的过零率特征参数进行关键词匹配，从而滤除了语音信号中的清音、噪音等干扰项，只对有效语音（浊音片段）进行关键词匹配，一方面大大减小了特征参数的计算量，有效降低了系统功耗，另一方面提高了特征参数的稳健性，进而提高了关键词匹配的准确度。

[0109] 并且，相对于现有技术中采用的 LPC、 PLP、 LPCC、 MFCC等特征参数，本发明实施例采用的过零率特征参数的计算量更小，进一步降低了系统功耗，同时本发明实施例采用高斯混合模型进行关键词匹配，进一步提高了关键词匹配的准确度。

[0110] 本发明同时提出一种电子设备，其包括存储器、处理器和至少一个被存储在存储器中并被配置为由处理器执行的应用程序，所述应用程序被配置为用于执行语音处理方法。所述语音处理方法包括以下步骤：对声音信号进行语音活动检测，从声音信号中提取出语音信号；对语音信号进行浊音检测，从语音信号中提取出浊音片段；计算出浊音片段的过零率特征参数；利用过零率特征参数进行关键词匹配。本实施例中所描述的语音处理方法为本发明中上述实施例所涉及的语音处理方法，在此不再赘述。

[0111] 本领域技术人员可以理解，本发明包括涉及用于执行本申请中所述操作中的一项或多项的设备。这些设备可以为所需的目的而专门设计和制造，或者也可以包括通用计算机中的已知设备。这些设备具有存储在其内的计算机程序，这些计算机程序选择性地激活或重构。这样的计算机程序可以被存储在设备（例如，计算机）可读介质中或者存储在适于存储电子指令并分别耦联到总线的任何类型的介质中，所述计算机可读介质包括但不限于任何类型的盘（包括软盘、硬盘、光盘、 CD-ROM、和磁光盘）、 ROM （Read-Only Memory，只读存储器）、 RAM （Random Access Memory, 随机存储器）、 EPROM （Erasable Programmable Read-Only

Memory , 可擦写可编程只读存储器）、 EEPROM （Electrically Erasable Programmable Read-Only Memory , 电可擦可编程只读存储器）、闪存、磁性卡片或光线卡片。也就是，可读介质包括由设备（例如，计算机）以能够读的形式存储或传输信息的任何介质。

[0112] 本技术领域技术人员可以理解，可以用计算机程序指令来实现这些结构图和 / 或框图和 /或流图中的每个框以及这些结构图和 /或框图和 /或流图中的框的组合。本技术领域技术人员可以理解，可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来实现，从而通过计算机或其他可编程数据处理方法的处理器来执行本发明公开的结构图和 /或框图和 /或流图的框或多个框中指定的方案。

[0113] 本技术领域技术人员可以理解，本发明中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地，具有本发明中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地，现有技术中的具有与本发明中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。

[0114] 以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

权利要求书

[权利要求 1] 一种语音处理方法，其特征在于，包括以下步骤：

对声音信号进行语音活动检测，从所述声音信号中提取出语音信号；对所述语音信号进行浊音检测，从所述语音信号中提取出浊音片段；计算出所述浊音片段的过零率特征参数；

利用所述过零率特征参数进行关键词匹配。

[权利要求 2] 根据权利要求 i所述的语音处理方法，其特征在于，所述根据所述浊音片段计算过零率特征参数的步骤包括：

将所述浊音片段拆分为至少两个语音帧；

将每个语音帧拆分为至少两个子帧；

计算出每个语音帧中各个子帧的平均过零率；

将每个语音帧中的所有子帧的平均过零率组成为所述语音帧的特征向量，将所述浊音片段中所有语音帧的特征向量作为所述浊音片段的过零率特征参数。

[权利要求 3] 根据权利要求 2所述的语音处理方法，其特征在于，相邻两个语音帧的帧间重叠长度是所述语音帧长度的一半。

[权利要求 4] 根据权利要求 2所述的语音处理方法，其特征在于，所述利用所述过零率特征参数进行关键词匹配的步骤包括：

将所述过零率特征参数输入高斯混合模型进行匹配度评判，所述高斯混合模型为利用所述关键词声音样本训练出的声学参数模型；根据评判结果判断是否匹配成功。

[权利要求 5] 根据权利要求 4所述的语音处理方法，其特征在于，所述根据评判结果判断是否匹配成功的步骤包括：

获取所述高斯混合模型输出的针对所述浊音片段中每个语音帧的特征向量的评判分数；

计算所有特征向量的评判分数的平均值；

判断所述平均值是否大于或等于阈值；

当所述平均值大于或等于阈值时，判定匹配成功。

[权利要求 6] 根据权利要求 1所述的语音处理方法，其特征在于：

所述对声音信号进行语音活动检测的步骤包括：基于过零率对声音信号进行语音活动检测，所述过零率的门限值为第一门限值；所述对所述语音信号进行浊音检测的步骤包括：基于过零率对所述语音信号进行浊音检测，所述过零率的门限值为第二门限值，且所述第二门限值大于所述第一门限值。

[权利要求 7] 根据权利要求 6所述的语音处理方法，其特征在于，所述第二门限值为所述语音信号的平均幅值的 8%-15%。

[权利要求 8] 根据权利要求 6所述的语音处理方法，其特征在于，所述对所述语音信号进行浊音检测，从所述语音信号中提取出浊音片段的步骤包括：针对所述语音信号的语音帧中相邻的两个采样点 tmpl和 tm_P2，当同时满足 tmpl*tmp2<0和 ltmpl-tmp2l>T2时，则认定所述语音帧过一次零，据此统计出所述语音帧的过零率，其中 T2为第二门限值；从所述语音信号中提取出过零率大于预设值的语音帧组成浊音片段。

[权利要求 9] 根据权利要求 6所述的语音处理方法，其特征在于，所述对所述语音信号进行浊音检测，从所述语音信号中提取出浊音片段的步骤包括：针对所述语音信号中相邻的采样点对 tmpl和 tmp2，当同时满足 tmpl*t mp2<0和 ltmpl-tmp2l>T2时，则判决过零率为 1，否则判决过零率为 0 ，其中 T2为第二门限值；

从所述语音信号中提取出所有过零率为 1的采样点对所对应的数据段组成浊音片段。

[权利要求 10] 根据权利要求 1所述的语音处理方法，其特征在于，所述利用所述过零率特征参数进行关键词匹配的步骤之后还包括：当关键词匹配成功时，唤醒设备。

[权利要求 11] 一种语音处理装置，其特征在于，包括：

第一检测模块，用于对声音信号进行语音活动检测，从所述声音信号中提取出语音信号；

第二检测模块，用于对所述语音信号进行浊音检测，从所述语音信号中提取出浊音片段；

计算模块，用于计算出所述浊音片段的过零率特征参数；

匹配模块，用于利用所述过零率特征参数进行关键词匹配。

[权利要求 12] 根据权利要求 11所述的语音处理装置，其特征在于，所述计算模块包括：

第一拆分单元，用于将所述浊音片段拆分为至少两个语音帧；第二拆分单元，用于将每个语音帧拆分为至少两个子帧；

计算单元，用于计算出每个语音帧中各个子帧的平均过零率；组合单元，用于将每个语音帧中的所有子帧的平均过零率组成为所述语音帧的特征向量，将所述浊音片段中所有语音帧的特征向量作为所述浊音片段的过零率特征参数。

[权利要求 13] 根据权利要求 12所述的语音处理装置，其特征在于，相邻两个语音帧的帧间重叠长度是所述语音帧长度的一半。

[权利要求 14] 根据权利要求 12所述的语音处理装置，其特征在于，所述匹配模块包括：

输入单元，用于将所述过零率特征参数输入高斯混合模型进行匹配度评判，所述高斯混合模型为利用所述关键词声音样本训练出的声学参数模型；

判断单元，用于根据评判结果判断是否匹配成功。

[权利要求 15] 根据权利要求 14所述的语音处理装置，其特征在于，所述判断单元包括：

获取子单元，用于获取所述高斯混合模型输出的针对所述浊音片段中每个语音帧的特征向量的评判分数；

计算子单元，用于计算所有特征向量的评判分数的平均值；判断子单元，用于判断所述平均值是否大于或等于阈值；

判定子单元，用于当所述平均值大于或等于阈值时，判定匹配成功。

[权利要求 16] 根据权利要求 11所述的语音处理装置，其特征在于：

所述第一检测模块用于：基于过零率对声音信号进行语音活动检测，所述过零率的门限值为第一门限值；

所述第二检测模块用于：基于过零率对所述语音信号进行浊音检测，所述过零率的门限值为第二门限值，且所述第二门限值大于所述第一门限值。

[权利要求 17] 根据权利要求 16所述的语音处理装置，其特征在于，所述第二门限值为所述语音信号的平均幅值的 8%-15%。

[权利要求 18] 根据权利要求 16所述的语音处理装置，其特征在于，所述第二检测模块包括：

统计单元，用于针对所述语音信号的语音帧中相邻的两个采样点 tmpl 和 tmp2，当同时满足 tmpl*tmp2<0和 ltmpl-tmp2l>T2时，则认定所述语音帧过一次零，据此统计出所述语音帧的过零率，其中 T2为第二门限值；

第一提取单元，用于从所述语音信号中提取出过零率大于预设值的语音帧组成浊音片段。

[权利要求 19] 根据权利要求 16所述的语音处理装置，其特征在于，所述第二检测模块包括：

判决单元，用于针对所述语音信号中相邻的采样点对 tmpl和 tm_P2，当同时满足 tmpl*tmp2<0和 ltmpl-tmp2l>T2时，则判决过零率为 1，否则判决过零率为 0, 其中 T2为第二门限值；

第二提取单元，用于从所述语音信号中提取出所有过零率为 1的采样点对所对应的数据段组成浊音片段。

[权利要求 20] 一种电子设备，包括存储器、处理器和至少一个被存储在所述存储器中并被配置为由所述处理器执行的应用程序，其特征在于，所述应用程序被配置为用于执行权利要求 1至 10任一项所述的语音处理方法。