WO2019169551A1 - 语音处理方法、装置和电子设备 - Google Patents

语音处理方法、装置和电子设备 Download PDF

Info

Publication number
WO2019169551A1
WO2019169551A1 PCT/CN2018/078155 CN2018078155W WO2019169551A1 WO 2019169551 A1 WO2019169551 A1 WO 2019169551A1 CN 2018078155 W CN2018078155 W CN 2018078155W WO 2019169551 A1 WO2019169551 A1 WO 2019169551A1
Authority
WO
WIPO (PCT)
Prior art keywords
zero
signal
speech
voice
sound
Prior art date
Application number
PCT/CN2018/078155
Other languages
English (en)
French (fr)
Inventor
安黄彬
Original Assignee
深圳市沃特沃德股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 深圳市沃特沃德股份有限公司 filed Critical 深圳市沃特沃德股份有限公司
Priority to PCT/CN2018/078155 priority Critical patent/WO2019169551A1/zh
Publication of WO2019169551A1 publication Critical patent/WO2019169551A1/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Abstract

本发明揭示了一种语音处理方法,包括以下步骤:对声音信号进行语音活动检测,从声音信号中提取出语音信号;对语音信号进行浊音检测,从语音信号中提取出浊音片段;利用浊音片段进行关键词匹配。从而滤除了语音信号中的清音、噪音等干扰项,减少了关键词匹配过程中的计算量,降低了系统功耗,提高了关键词匹配的准确度。

Description

语音处理方法、装置和电子设备 技术领域
本发明涉及电子技术领域,特别是涉及到一种语音处理方法、装置和电子设备。
背景技术
语音唤醒技术是人工智能的一个分支,语音唤醒技术的应用领域很广泛,比如可以应用于机器人、手机、可穿戴设备、智能家居、车载等领域。许多带有语音识别功能的设备都会利用语音唤醒技术作为人与机器互动的开始。
语音唤醒是指用户说出特定的语音指令时,设备从休眠状态切换到工作状态,并给出指定响应。唤醒技术的用途在于,用户对于设备的操作可以完全用语音进行,脱离双手的帮助;同时,利用唤醒这样的机制,设备不需要时时处于工作状态,大大节省能耗。
语音唤醒的关键是进行关键词匹配。目前在进行关键词匹配时,首先对声音信号进行语音活动检测(Voice Activity Detection,VAD),从声音信号中提取出语音信号,然后利用语音信号进行关键词匹配,判断语音信号中是否包含唤醒关键词。
由于语音活动检测不完善,导致有效语音(即浊音)的首尾和中间都可能存在噪音和清音,并且清音复杂多变,从而使得系统的计算量较大,增大了系统的功耗。同时,清音和噪音等干扰项对匹配的特征参数的稳健性产生了不利影响,进而影响关键词匹配的准确度。
技术问题
本发明的主要目的为提供一种语音处理方法、装置和电子设备,旨在降低系统功耗,提高关键词匹配的准确度。
技术解决方案
为达以上目的,本发明实施例提出一种语音处理方法,所述方法包括以下步骤:
对声音信号进行语音活动检测,从所述声音信号中提取出语音信号;
对所述语音信号进行浊音检测,从所述语音信号中提取出浊音片段;
利用所述浊音片段进行关键词匹配。
本发明实施例同时提出一种语音处理装置,所述装置包括:
第一检测模块,设置为对声音信号进行语音活动检测,从所述声音信号中提取出语音信号;
第二检测模块,设置为对所述语音信号进行浊音检测,从所述语音信号中提取出浊音片段;
匹配模块,设置为利用所述浊音片段进行关键词匹配。
本发明实施例还提出一种电子设备,其包括存储器、处理器和至少一个被存储在所述存储器中并被配置为由所述处理器执行的应用程序,所述应用程序被配置为用于执行前述语音处理方法。
有益效果
本发明实施例所提供的一种语音处理方法,通过从语音信号中提取出浊音片段,并利用浊音片段进行关键词匹配,从而滤除了语音信号中的清音、噪音等干扰项,只利用有效语音(浊音片段)进行匹配运算,一方面大大减少了关键词匹配过程中的计算量,降低了系统功耗,另一方面提高了关键词匹配的准确度。
附图说明
图1是本发明的语音处理方法一实施例的流程图;
图2是本发明实施例中对声音信号进行语音活动检测的示意图;
图3是本发明实施例中对语音活动检测结果进行修正后的示意图;
图4是本发明实施例中从语音信号中提取出的浊音片段的示意图;
图5是本发明的语音处理装置一实施例的模块示意图;
图6是图5中的第二检测模块的模块示意图;
图7是图5中的第二检测模块的又一模块示意图;
图8是图5中的匹配模块的模块示意图;
图9是图8中的计算单元的模块示意图;
图10是图8中的匹配单元的模块示意图;
图11是图10中的判断子单元的模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
本发明的最佳实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
本技术领域技术人员可以理解,这里所使用的“终端”、“终端设备”既包括无线信号接收器的设备,其仅具备无发射能力的无线信号接收器的设备,又包括接收和发射硬件的设备,其具有能够在双向通信链路上,执行双向通信的接收和发射硬件的设备。这种设备可以包括:蜂窝或其他通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备;PCS(Personal Communications Service,个人通信系统),其可以组合语音、数据处理、传真和/或数据通信能力;PDA(Personal Digital Assistant,个人数字助理),其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global Positioning System,全球定位系统)接收器;常规膝上型和/或掌上型计算机或其他设备,其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的,或者适合于和/或配置为在本地运行,和/或以分布形式,运行在地球和/或空间的任何其他位置运行。这里所使用的“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端,例如可以是PDA、MID(Mobile Internet Device,移动互联网设备)和/或具有音乐/视频播放功能的移动电话,也可以是智能电视、机顶盒等设备。
参照图1,提出本发明的语音处理方法一实施例,所述方法包括以下步骤:
S11、对声音信号进行语音活动检测,从声音信号中提取出语音信号。
本发明实施例中,电子设备通过麦克风采集声音信号或接收外部设备发送的声音信号,并对声音信号进行语音活动检测,从声音信号中提取出语音信号。所述电子设备可以是手机、平板、个人电脑、笔记本电脑等终端设备,也可以是可穿戴设备、智能家居设备、车载设备、机器人等电子设备。
本发明实施例中,电子设备可以基于过零率对声音信号进行语音活动检测,优选过零率与短时能量相结合,其中过零率的门限值为第一门限值。
这里的过零率指短时过零率,短时过零率可以看作信号频率的简单度量,是语音信号时域分析中的一种特征参数。过零就是指信号通过零值,过零率就是单位时间内信号通过零值的次数,对有时间横轴的连续语音信号,可以观察到语音的时域波形通过横轴的情况。对于离散时间序列,过零则是指序列取样值改变符号,过零率则是每个样本改变符号的次数。对于语音信号,则是指在一帧语音中语音信号波形穿过横轴(零电平)的次数,可以用相邻两个取样改变符号的次数来计算。    短时能量和过零率两个参数,可以用于语音活动检测,主要用于识别无声段和语音段的起点和终点的位置。在背景噪音比较小时用短时能量来识别比较有效,在背景噪音比较大的时用过零率来识别比较有效,但是通常情况是两个参数联合进行识别效果更好。    可选地,在基于过零率对声音信号进行语音活动检测时,针对声音信号的声音帧中相邻的两个采样点tmp1和tmp2,当同时满足tmp1*tmp2<0和|tmp1-tmp2|>T1时,电子设备则认定该声音帧过一次零,据此统计出声音帧的过零率,其中T1为第一门限值;然后电子设备从声音信号中提取出过零率大于预设值的声音帧作为语音信号,或者将声音信号中过零率小于或等于预设值的声音帧滤除后得到语音信号。这里的预设值可以根据实际需要设定。
可选地,在基于过零率对声音信号进行语音活动检测时,针对声音信号中相邻的采样点对tmp1和tmp2,当同时满足tmp1*tmp2<0和|tmp1-tmp2|>T1时,电子设备则判决过零率为1,否则判决过零率为0,其中T1为第一门限值;然后电子设备从声音信号中提取出所有过零率为1的采样点对所对应的数据段作为语音信号,或者将声音信号中过零率为0的采样点对所对应的数据段滤除后得到语音信号。
获得的语音信号中包含清音、浊音,还可能包含首尾部分的噪音,这与语音活动检测算法设置的语音时长参数和静音时长参数有关。
进一步地,在步骤S11之前,电子设备还可以对声音信号进行滤波处理,以滤除语音频段范围以外的声音信号。语音频段范围优选为为200-3400HZ。
进一步地,在对声音信号进行滤波处理后,步骤S11之前,电子设备还可以对声音信号进行降噪处理,以降低200-3400HZ频段内的噪音。
进一步地,在对声音信号进行降噪处理后,步骤S11之前,电子设备还可以对声音信号进行预加重处理,以使得后续能够更好的区分清音和浊音。
如图2所示,为语音活动检测示意图,图示中横轴为时间,纵轴为声音信号的幅度,两条线段之间的部分为本步骤S11中语音活动检测的结果,该部分即为检测到的语音信号。
S12、对语音信号进行浊音检测,从语音信号中提取出浊音片段。
语音活动检测后获得的语音信号,不但包括有效语音(即浊音),还包括部分噪音和清音。我们知道,噪音过零率高,且短时能量小,而清音频谱中高频成分较多,因此其过零率相对较高,而浊音的频谱则大多数集中在3kHz以下,过零率较低。经过大量实验数据分析,我们发现对于特定的人,对于特定的关键词,其浊音的过零率基本上是相对稳定的,而清音则不然。
有鉴于此,本发明实施例中,电子设备可以基于过零率对语音信号进行浊音检测,从语音信号中提取出浊音片段,其中过零率的门限值为第二门限值,且第二门限值大于第一门限值。
可选地,在基于过零率对语音信号进行浊音检测时,针对语音信号的语音帧中相邻的两个采样点tmp1和tmp2,当同时满足tmp1*tmp2<0和|tmp1-tmp2|>T2时,则认定该语音帧过一次零,据此统计出语音帧的过零率,其中T2为第二门限值;然后电子设备从语音信号中提取出过零率大于预设值的语音帧组成浊音片段。这里的预设值可以根据实际需要设定。第二门限值T2大于前述第一门限值T1,优选为语音信号的平均幅值的8%-15%(如10%)。
可选地,在基于过零率对语音信号进行浊音检测时,针对语音信号中相邻的采样点对tmp1和tmp2,当同时满足tmp1*tmp2<0和|tmp1-tmp2|>T2时,则判决过零率为1,否则判决过零率为0,其中T2为第二门限值;然后电子设备从语音信号中提取出所有过零率为1的采样点对所对应的数据段组成浊音片段。
例如,采用以下公式进行浊音检测:
signs = (tmp1.*tmp2)<0;
diffs = |tmp1 -tmp2|>T2;
zcr=(signs.*diffs);
其中,signs是发生过零的位置,tmp1和tmp2是语音信号中相邻的采样点对, tmp1和tmp2对应位置数据相乘(.*代表两个向量的点积),小于0则signs为1,否则为0;diffs是基于点的幅值差位置,tmp1与tmp2之差的绝对值大于第二门限值T2时,变量值diffs为1,否则为0;zcr是基于点的过零率,当signs<0且diffs>T2时,则zcr为1,否则为0,从而就把清音和噪音的过零率全部置零,而只保留了语音(浊音)的过零率。
第二门限值T2可以为检测到的语音信号的幅度的平均值(即平均幅值)的8%-20%,例如,假设平均幅值为0.2,第二门限值T2=0.2x10%=0.02。
如图3所示,为对语音活动检测结果进行修正后的语音信号的示意图,从图3中可以看出,图2所示语音信号中首尾两端的清音部分已被滤除。
如图4所示,为从语音信号中提取出的浊音片段的示意图,从图4中可以看出,图3所示语音信号中浊音之间的清音部分已被滤除。
S13、利用浊音片段进行关键词匹配。
本发明实施例中,当从语音信号中提取出有效语音即浊音片段后,则利用浊音片段进行关键词匹配。
可选地,电子设备可以对浊音片段进行语音识别,识别出浊音片段对应的语音内容,判断语音内容是否包含关键词或者是否与关键词相同,若是,则匹配成功。
由于本发明实施例滤除了语音信号中的清音、噪音等干扰项,因此减少了语音识别的计算量以及语音识别的准确度,进而降低了系统功耗,并提高了关键词匹配的准确度。
可选地,电子设备也可以提取出浊音片段的特征参数,然后利用特征参数进行关键词匹配。所述特征参数如线性预测系数(Linear Prediction Coefficient,LPC)、感知线性预测系数(Perceptual Linear Predict ive,PLP)、线性预测倒谱系数(Linear Prediction Cepstrum Coefficien,LPCC)、梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)等等。从浊音片段中提取出前述特征参数并进行关键词匹配的方式与现有技术中从语音信号中提取出前述特征参数并进行关键词匹配的方式类似,在此不赘述。
由于本发明实施例只对有效语音(浊音片段)进行关键词匹配,一方面大大减小了特征参数的计算量,有效降低了系统功耗,另一方面滤除了语音信号中的清音、噪音等干扰项,提高了特征参数的稳健性,进而提高了关键词匹配的准确度。
作为优选,本发明实施例中,电子设备先计算出浊音片段的过零率特征参数,然后利用浊音片段的过零率特征参数进行关键词匹配。
在计算浊音片段的过零率特征参数时,电子设备先将浊音片段拆分为至少两个语音帧,相邻两个语音帧的帧间重叠长度优选为语音帧长度的一半,再将每个语音帧拆分为至少两个子帧,然后计算出每个语音帧中各个子帧的平均过零率,最后将每个语音帧中的所有子帧的平均过零率组成为语音帧的特征向量,并将浊音片段中所有语音帧的特征向量作为浊音片段的过零率特征参数。
例如,按照每帧长480个采样点,帧间重叠长度为240个采样点来对浊音片段进行分帧。然后将每个语音帧拆分为6个子帧,计算出每个子帧的平均过零率,因此一个语音帧包括6个平均过零率,这6个平均过零率组成该语音帧的特征向量,用公式表达如下:
 
Figure dest_path_image002
上式中,j=1,2,…,6。其中,fea(j)为第j子帧的平均过零率,zero_cross(k)为第k个采样点的过零率。通过上式的计算,可以得到本语音帧最终的特征向量fea_vector:
Figure dest_path_image004
最后计算出浊音片段中所有语音帧的特征向量fea_vector,即得到浊音片段的过零率特征参数。
在利用浊音片段的过零率特征参数进行关键词匹配时,电子设备将过零率特征参数输入高斯混合模型(Gaussian Mixture Model,GMM)进行匹配度评判,根据评判结果判断是否匹配成功。
前述高斯混合模型为利用关键词声音样本训练出的声学参数模型。可以采集大约500人的关键词声音样本进行高斯混合模型训练,即采用前述步骤S11-S12对关键词声音样本进行处理获取浊音片段,并计算出浊音片段的过零率特征参数,并将其输入到电子设备的训练模块进行高斯混合模型训练。
本发明实施例中,在根据评判结果判断是否匹配成功时,电子设备先获取高斯混合模型输出的针对浊音片段中每个语音帧的特征向量的评判分数,然后计算所有特征向量的评判分数的平均值,比较平均值与阈值的大小,判断平均值是否大于或等于阈值,当平均值大于或等于阈值时,判定匹配成功,否则判定匹配失败。
在其它实施例中,电子设备也可以从评判分数中选取最小数、最大数或中位数与阈值进行比较,当比较结果为大于或等于阈值时则判定匹配成功。
相对于现有技术中采用的LPC、PLP、LPCC、MFCC等参数,过零率特征参数的计算量更小,从而进一步降低了系统功耗。同时采用高斯混合模型进行关键词匹配,进一步提高了关键词匹配的准确度。
本发明实施例的语音处理方法可以应用于设备唤醒、设备解锁等应用场景。若应用于设备唤醒,当关键词匹配成功时,电子设备的唤醒模块则唤醒设备。若应用于设备解锁,当关键词匹配成功时,电子设备的解锁模块则进行解锁。
本发明实施例的语音处理方法,通过从语音信号中提取出浊音片段,并利用浊音片段进行关键词匹配,从而滤除了语音信号中的清音、噪音等干扰项,只利用有效语音(浊音片段)进行匹配运算,一方面大大减少了关键词匹配过程中的计算量,降低了系统功耗,另一方面提高了关键词匹配的准确度。
参照图5,提出本发明的语音处理装置一实施例,所述装置包括第一检测模块10、第二检测模块20和匹配模块30,其中:第一检测模块10,设置为对声音信号进行语音活动检测,从声音信号中提取出语音信号;第二检测模块20,设置为对语音信号进行浊音检测,从语音信号中提取出浊音片段;匹配模块30,设置为利用浊音片段进行关键词匹配。
本发明实施例中,第一检测模块10设置为基于过零率对声音信号进行语音活动检测,优选过零率与短时能量相结合,其中过零率的门限值为第一门限值。
可选地,在基于过零率对声音信号进行语音活动检测时,针对声音信号的声音帧中相邻的两个采样点tmp1和tmp2,当同时满足tmp1*tmp2<0和|tmp1-tmp2|>T1时,第一检测模块10则认定该声音帧过一次零,据此统计出声音帧的过零率,其中T1为第一门限值;然后第一检测模块10从声音信号中提取出过零率大于预设值的声音帧作为语音信号,或者将声音信号中过零率小于或等于预设值的声音帧滤除后得到语音信号。这里的预设值可以根据实际需要设定。
可选地,在基于过零率对声音信号进行语音活动检测时,针对声音信号中相邻的采样点对tmp1和tmp2,当同时满足tmp1*tmp2<0和|tmp1-tmp2|>T1时,第一检测模块10则判决过零率为1,否则判决过零率为0,其中T1为第一门限值;然后第一检测模块10从声音信号中提取出所有过零率为1的采样点对所对应的数据段作为语音信号,或者将声音信号中过零率为0的采样点对所对应的数据段滤除后得到语音信号。
获得的语音信号中包含清音、浊音,还可能包含首尾部分的噪音,这与语音活动检测算法设置的语音时长参数和静音时长参数有关。
本发明实施例中,第二检测模块20设置为基于过零率对语音信号进行浊音检测,其中过零率的门限值为第二门限值,且第二门限值大于所述第一门限值。
可选地,如图6所示,第二检测模块20包括统计单元21和第一提取单元22,其中:统计单元21,设置为针对语音信号的语音帧中相邻的两个采样点tmp1和tmp2,当同时满足tmp1*tmp2<0和|tmp1-tmp2|>T2时,则认定语音帧过一次零,据此统计出所音帧的过零率,其中T2为第二门限值;第一提取单元22,设置为从语音信号中提取出过零率大于预设值的语音帧组成浊音片段。
这里的预设值可以根据实际需要设定。第二门限值T2大于前述第一门限值T1,优选为语音信号的平均幅值的8%-15%(如10%)。
可选地,如图7所示,第二检测模块20包括判决单元23和第二提取单元24,其中:判决单元23,设置为针对语音信号中相邻的采样点对tmp1和tmp2,当同时满足tmp1*tmp2<0和|tmp1-tmp2|>T2时,则判决过零率为1,否则判决过零率为0,其中T2为第二门限值;第二提取单元24,设置为从语音信号中提取出所有过零率为1的采样点对所对应的数据段组成浊音片段。
例如,第二检测模块20采用以下公式进行浊音检测:
signs = (tmp1.*tmp2)<0;
diffs = |tmp1 -tmp2|>T2;
zcr=(signs.*diffs);
其中,signs是发生过零的位置,tmp1和tmp2是语音信号中相邻的采样点对, tmp1和tmp2对应位置数据相乘(.*代表两个向量的点积),小于0则signs为1,否则为0;diffs是基于点的幅值差位置,tmp1与tmp2之差的绝对值大于第二门限值T2时,变量值diffs为1,否则为0;zcr是基于点的过零率,当signs<0且diffs>T2时,则zcr为1,否则为0,从而就把清音和噪音的过零率全部置零,而只保留了语音(浊音)的过零率。
第二门限值T2可以为检测到的语音信号的幅度的平均值(即平均幅值)的8%-20%,例如,假设平均幅值为0.2,第二门限值T2=0.2x10%=0.02。
当从语音信号中提取出有效语音即浊音片段后,匹配模块30则利用浊音片段进行关键词匹配。
可选地,匹配模块30可以对浊音片段进行语音识别,识别出浊音片段对应的语音内容,判断语音内容是否包含关键词或者是否与关键词相同,若是,则匹配成功。
由于本发明实施例滤除了语音信号中的清音、噪音等干扰项,因此减少了语音识别的计算量以及语音识别的准确度,进而降低了系统功耗,并提高了关键词匹配的准确度。
可选地,匹配模块30也可以提取出浊音片段的特征参数,然后利用特征参数进行关键词匹配。所述特征参数如线性预测系数(Linear Prediction Coefficient,LPC)、感知线性预测系数(Perceptual Linear Predict ive,PLP)、线性预测倒谱系数(Linear Prediction Cepstrum Coefficien,LPCC)、梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)等等。从浊音片段中提取出前述特征参数并进行关键词匹配的方式与现有技术中从语音信号中提取出前述特征参数并进行关键词匹配的方式类似,在此不赘述。
由于本发明实施例只对有效语音(浊音片段)进行关键词匹配,一方面大大减小了特征参数的计算量,有效降低了系统功耗,另一方面滤除了语音信号中的清音、噪音等干扰项,提高了特征参数的稳健性,进而提高了关键词匹配的准确度。
作为优选,本发明实施例中,匹配模块30如图8所示,包括计算单元31和匹配单元32,其中:计算单元31,设置为计算出浊音片段的过零率特征参数;匹配单元32,设置为利用浊音片段的过零率特征参数进行关键词匹配。
计算单元31如图9所示,包括第一拆分子单元311、第二拆分子单元312、计算子单元313和组合子单元314,其中:第一拆分子单元311,设置为将浊音片段拆分为至少两个语音帧;第二拆分子单元312,设置为将每个语音帧拆分为至少两个子帧;第一计算子单元313,设置为计算出每个语音帧中各个子帧的平均过零率;组合子单元314,设置为将每个语音帧中的所有子帧的平均过零率组成为语音帧的特征向量,将浊音片段中所有语音帧的特征向量作为浊音片段的过零率特征参数。
例如,第一拆分子单元31按照每帧长480个采样点,帧间重叠长度为240个采样点来对浊音片段进行分帧。然后第二拆分子单元32将每个语音帧拆分为6个子帧,第一计算子单元33计算出每个子帧的平均过零率,因此一个语音帧包括6个平均过零率,组合子单元34将这6个平均过零率组成该语音帧的特征向量,用公式表达如下:
Figure dest_path_image002a
 
上式中,j=1,2,…,6。其中,fea(j)为第j子帧的平均过零率,zero_cross(k)为第k个采样点的过零率。通过上式的计算,可以得到本语音帧最终的特征向量fea_vector:
Figure dest_path_image004a
最后计算单元31计算出浊音片段中所有语音帧的特征向量fea_vector,即得到浊音片段的过零率特征参数。
匹配单元32如图10所示,包括输入子单元321和判断子单元322,其中:输入子单元321,设置为将过零率特征参数输入高斯混合模型进行匹配度评判;判断子单元322,设置为根据评判结果判断是否匹配成功。
前述高斯混合模型为利用关键词声音样本训练出的声学参数模型。可以采集大约500人的关键词声音样本进行高斯混合模型训练,即利用前述第一检测模块10、第二检测模块20和计算单元31对关键词声音样本进行处理,获得过零率特征参数,并将其输入到语音处理装置的训练模块进行高斯混合模型训练。
本发明实施例中,判断子单元322如图11所示,包括获取子单元3221、第二计算子单元3222、判别子单元3223和判定子单元3224,其中:获取子单元3221,设置为获取高斯混合模型输出的针对浊音片段中每个语音帧的特征向量的评判分数;第二计算子单元3222,设置为计算所有特征向量的评判分数的平均值;判别子单元3223,设置为判断平均值是否大于或等于阈值;判定子单元3224,设置为当平均值大于或等于阈值时,判定匹配成功。
在其它实施例中,判别子单元3223也可以从评判分数中选取最小数、最大数或中位数与阈值进行比较,当比较结果为大于或等于阈值时判定子单元3224则判定匹配成功。
相对于现有技术中采用的LPC、PLP、LPCC、MFCC等参数,过零率特征参数的计算量更小,从而进一步降低了系统功耗。同时采用高斯混合模型进行关键词匹配,进一步提高了关键词匹配的准确度。
本发明实施例的语音处理装置可以应用于设备唤醒、设备解锁等应用场景。若应用于设备唤醒,该装置还包括唤醒模块,该唤醒模块设置为:当关键词匹配成功时,唤醒设备。若应用于设备解锁,该装置还包括解锁模块,该解锁模块设置为:当关键词匹配成功时,对设备解锁。
进一步地,所述装置还可以包括滤波处理模块,该滤波处理模块设置为:在第一检测模块对声音信号进行语音活动检测之前,对声音信号进行滤波处理,以滤除语音频段范围以外的声音信号。语音频段范围优选为为200-3400HZ。
进一步地,所述装置还可以包括降噪处理模块,该降噪处理模块设置为:在滤波处理模块对声音信号进行滤波处理后,第一检测模块对声音信号进行语音活动检测之前,对声音信号进行降噪处理,以降低200-3400HZ频段内的噪音。
进一步地,所述装置还可以包括预加重处理模块,该预加重处理模块设置为:当降噪处理模块对声音信号进行降噪处理后,第一检测模块对声音信号进行语音活动检测之前,对声音信号进行预加重处理,以使得后续能够更好的区分清音和浊音。
本发明实施例的语音处理装置,通过从语音信号中提取出浊音片段,并利用浊音片段进行关键词匹配,从而滤除了语音信号中的清音、噪音等干扰项,只利用有效语音(浊音片段)进行匹配运算,一方面大大减少了关键词匹配过程中的计算量,降低了系统功耗,另一方面提高了关键词匹配的准确度。
本发明同时提出一种电子设备,其包括存储器、处理器和至少一个被存储在存储器中并被配置为由处理器执行的应用程序,所述应用程序被配置为用于执行语音处理方法。所述语音处理方法包括以下步骤:对声音信号进行语音活动检测,从声音信号中提取出语音信号;对语音信号进行浊音检测,从语音信号中提取出浊音片段;利用浊音片段进行关键词匹配。本实施例中所描述的语音处理方法为本发明中上述实施例所涉及的语音处理方法,在此不再赘述。
本领域技术人员可以理解,本发明包括涉及用于执行本申请中所述操作中的一项或多项的设备。这些设备可以为所需的目的而专门设计和制造,或者也可以包括通用计算机中的已知设备。这些设备具有存储在其内的计算机程序,这些计算机程序选择性地激活或重构。这样的计算机程序可以被存储在设备(例如,计算机)可读介质中或者存储在适于存储电子指令并分别耦联到总线的任何类型的介质中,所述计算机可读介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM(Read-Only Memory,只读存储器)、RAM(Random Access Memory,随机存储器)、EPROM(Erasable Programmable Read-Only Memory,可擦写可编程只读存储器)、EEPROM(Electrically Erasable Programmable Read-Only Memory,电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是,可读介质包括由设备(例如,计算机)以能够读的形式存储或传输信息的任何介质。
本技术领域技术人员可以理解,可以用计算机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。本技术领域技术人员可以理解,可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来实现,从而通过计算机或其他可编程数据处理方法的处理器来执行本发明公开的结构图和/或框图和/或流图的框或多个框中指定的方案。
本技术领域技术人员可以理解,本发明中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地,具有本发明中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地,现有技术中的具有与本发明中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (20)

  1. 一种语音处理方法,包括以下步骤:
    对声音信号进行语音活动检测,从所述声音信号中提取出语音信号;
    对所述语音信号进行浊音检测,从所述语音信号中提取出浊音片段;
    利用所述浊音片段进行关键词匹配。
  2. 根据权利要求1所述的语音处理方法,其中:
    所述对声音信号进行语音活动检测的步骤包括:基于过零率对声音信号进行语音活动检测,所述过零率的门限值为第一门限值;
    所述对所述语音信号进行浊音检测的步骤包括:基于过零率对所述语音信号进行浊音检测,所述过零率的门限值为第二门限值,且所述第二门限值大于所述第一门限值。
  3. 根据权利要求2所述的语音处理方法,其中,所述第二门限值为所述语音信号的平均幅值的8%-15%。
  4. 根据权利要求3所述的语音处理方法,其中,所述第二门限值为所述语音信号的平均幅值的10%。
  5. 根据权利要求2所述的语音处理方法,其中,所述基于过零率对所述语音信号进行浊音检测,从所述语音信号中提取出浊音片段的步骤包括:
    针对所述语音信号的语音帧中相邻的两个采样点tmp1和tmp2,当同时满足tmp1*tmp2<0和|tmp1-tmp2|>T2时,则认定所述语音帧过一次零,据此统计出所述语音帧的过零率,其中T2为第二门限值;
    从所述语音信号中提取出过零率大于预设值的语音帧组成浊音片段。
  6. 根据权利要求2所述的语音处理方法,其中,所述基于过零率对所述语音信号进行浊音检测,从所述语音信号中提取出浊音片段的步骤包括:
    针对所述语音信号中相邻的采样点对tmp1和tmp2,当同时满足tmp1*tmp2<0和|tmp1-tmp2|>T2时,则判决过零率为1,否则判决过零率为0,其中T2为第二门限值;
    从所述语音信号中提取出所有过零率为1的采样点对所对应的数据段组成浊音片段。
  7. 根据权利要求1所述的语音处理方法,其中,所述对声音信号进行语音活动检测的步骤之前还包括:
    对所述声音信号进行滤波处理,以滤除语音频段范围以外的声音信号。
  8. 根据权利要求7所述的语音处理方法,其中,所述对所述声音信号进行滤波处理的步骤之后还包括:对所述声音信号进行降噪处理。
  9. 根据权利要求8所述的语音处理方法,其中,所述对所述声音信号进行降噪处理的步骤之后还包括:对所述声音信号进行预加重处理。
  10. 根据权利要求1所述的语音处理方法,其中,所述对所述浊音片段进行关键词匹配的步骤之后还包括:当关键词匹配成功时,唤醒设备。
  11. 一种语音处理装置,包括:
    第一检测模块,设置为对声音信号进行语音活动检测,从所述声音信号中提取出语音信号;
    第二检测模块,设置为对所述语音信号进行浊音检测,从所述语音信号中提取出浊音片段;
    匹配模块,设置为利用所述浊音片段进行关键词匹配。
  12. 根据权利要求11所述的语音处理装置,其中:
    所述第一检测模块设置为:基于过零率对声音信号进行语音活动检测,所述过零率的门限值为第一门限值;
    所述第二检测模块设置为:基于过零率对所述语音信号进行浊音检测,所述过零率的门限值为第二门限值,且所述第二门限值大于所述第一门限值。
  13. 根据权利要求12所述的语音处理装置,其中,所述第二门限值为所述语音信号的平均幅值的8%-15%。
  14. 根据权利要求13所述的语音处理装置,其中,所述第二门限值为所述语音信号的平均幅值的10%。
  15. 根据权利要求12所述的语音处理装置,其中,所述第二检测模块包括:
    统计单元,设置为针对所述语音信号的语音帧中相邻的两个采样点tmp1和tmp2,当同时满足tmp1*tmp2<0和|tmp1-tmp2|>T2时,则认定所述语音帧过一次零,据此统计出所述语音帧的过零率,其中T2为第二门限值;
    第一提取单元,设置为从所述语音信号中提取出过零率大于预设值的语音帧组成浊音片段。
  16. 根据权利要求12所述的语音处理装置,其中,所述第二检测模块包括:
    判决单元,设置为针对所述语音信号中相邻的采样点对tmp1和tmp2,当同时满足tmp1*tmp2<0和|tmp1-tmp2|>T2时,则判决过零率为1,否则判决过零率为0,其中T2为第二门限值;
    第二提取单元,设置为从所述语音信号中提取出所有过零率为1的采样点对所对应的数据段组成浊音片段。
  17. 根据权利要求11所述的语音处理装置,其中,所述装置还包括滤波处理模块,所述滤波处理模块设置为:对所述声音信号进行滤波处理,以滤除语音频段范围以外的声音信号。
  18. 根据权利要求17所述的语音处理装置,其中,所述装置还包括降噪处理模块,所述降噪处理模块设置为:当所述滤波处理模块对所述声音信号进行滤波处理后,对所述声音信号进行降噪处理。
  19. 根据权利要求18所述的语音处理装置,其中,所述装置还包括预加重处理模块,所述预加重处理模块设置为:当所述降噪处理模块对所述声音信号进行降噪处理后,对所述声音信号进行预加重处理。
  20. 一种电子设备,包括存储器、处理器和至少一个被存储在所述存储器中并被配置为由所述处理器执行的应用程序,其中,所述应用程序被配置为用于执行权利要求1所述的语音处理方法。
PCT/CN2018/078155 2018-03-06 2018-03-06 语音处理方法、装置和电子设备 WO2019169551A1 (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/CN2018/078155 WO2019169551A1 (zh) 2018-03-06 2018-03-06 语音处理方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2018/078155 WO2019169551A1 (zh) 2018-03-06 2018-03-06 语音处理方法、装置和电子设备

Publications (1)

Publication Number Publication Date
WO2019169551A1 true WO2019169551A1 (zh) 2019-09-12

Family

ID=67846455

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2018/078155 WO2019169551A1 (zh) 2018-03-06 2018-03-06 语音处理方法、装置和电子设备

Country Status (1)

Country Link
WO (1) WO2019169551A1 (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104035743A (zh) * 2013-03-07 2014-09-10 亚德诺半导体技术公司 用于基于传感器数据进行处理器唤醒的系统和方法
US20150112690A1 (en) * 2013-10-22 2015-04-23 Nvidia Corporation Low power always-on voice trigger architecture
CN105405448A (zh) * 2014-09-16 2016-03-16 科大讯飞股份有限公司 一种音效处理方法及装置
CN108447506A (zh) * 2018-03-06 2018-08-24 深圳市沃特沃德股份有限公司 语音处理方法和语音处理装置
CN108711437A (zh) * 2018-03-06 2018-10-26 深圳市沃特沃德股份有限公司 语音处理方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104035743A (zh) * 2013-03-07 2014-09-10 亚德诺半导体技术公司 用于基于传感器数据进行处理器唤醒的系统和方法
US20150112690A1 (en) * 2013-10-22 2015-04-23 Nvidia Corporation Low power always-on voice trigger architecture
CN105405448A (zh) * 2014-09-16 2016-03-16 科大讯飞股份有限公司 一种音效处理方法及装置
CN108447506A (zh) * 2018-03-06 2018-08-24 深圳市沃特沃德股份有限公司 语音处理方法和语音处理装置
CN108711437A (zh) * 2018-03-06 2018-10-26 深圳市沃特沃德股份有限公司 语音处理方法和装置

Similar Documents

Publication Publication Date Title
CN110310623B (zh) 样本生成方法、模型训练方法、装置、介质及电子设备
US8731936B2 (en) Energy-efficient unobtrusive identification of a speaker
CN108922541B (zh) 基于dtw和gmm模型的多维特征参数声纹识别方法
WO2017084360A1 (zh) 一种用于语音识别方法及系统
CN105206271A (zh) 智能设备的语音唤醒方法及实现所述方法的系统
CN103065629A (zh) 一种仿人机器人的语音识别系统
CN109524011A (zh) 一种基于声纹识别的冰箱唤醒方法及装置
CN108597505A (zh) 语音识别方法、装置及终端设备
CN111667818A (zh) 一种训练唤醒模型的方法及装置
CN108447506A (zh) 语音处理方法和语音处理装置
CN108091340B (zh) 声纹识别方法、声纹识别系统和计算机可读存储介质
CN102237083A (zh) 一种基于WinCE平台的便携式口语翻译系统及其语言识别方法
CN105679312A (zh) 一种噪声环境下声纹识别的语音特征处理方法
CN110189746A (zh) 一种应用于地空通信的话音识别方法
WO2019075829A1 (zh) 语音翻译方法、装置和翻译设备
Shahnawazuddin et al. Pitch-normalized acoustic features for robust children's speech recognition
CN109215634A (zh) 一种多词语音控制通断装置的方法及其系统
WO2019169685A1 (zh) 语音处理方法、装置和电子设备
CN110268471A (zh) 具有嵌入式降噪的asr的方法和设备
Li et al. A Convolutional Neural Network with Non-Local Module for Speech Enhancement.
CN110189750B (zh) 词语检测系统、词语检测方法以及记录介质
WO2019169551A1 (zh) 语音处理方法、装置和电子设备
CN113241059B (zh) 语音唤醒方法、装置、设备及存储介质
Isyanto et al. Voice biometrics for Indonesian language users using algorithm of deep learning CNN residual and hybrid of DWT-MFCC extraction features
CN102290048A (zh) 一种基于mfcc远距离差值的鲁棒语音识别方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18908956

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18908956

Country of ref document: EP

Kind code of ref document: A1