WO2014023183A1

WO2014023183A1 - 一种应用于手机的语音增强方法和装置

Info

Publication number: WO2014023183A1
Application number: PCT/CN2013/080634
Authority: WO
Inventors: 刘崧; 李波; 楼厦厦
Original assignee: 歌尔声学股份有限公司
Priority date: 2012-08-07
Filing date: 2013-08-01
Publication date: 2014-02-13
Also published as: KR101639933B1; US9437209B2; JP5952434B2; JP2015517116A; DK2835958T3; EP2835958A4; EP2835958B1; KR20150017703A; CN102801861B; US20150142426A1; CN102801861A; EP2835958A1

Abstract

一种应用于手机的语音增强方法和装置，在用户说话时对用户的手机握持状态进行检测，根据用户的手机握持状态采用不同的降噪处理方案，在用户正常握持手机时采用多麦克风降噪和单麦克风降噪结合的方案对稳态噪声和非稳态噪声都进行有效的抑制，而在用户异常握持手机时采用单麦克风降噪方案只对稳态噪声进行抑制，避免了多麦克风降噪对语音的损伤，保证了语音质量。

Description

一种应用于手机的语音增强方法和装置技术领域本发明涉及语音信号处理技术领域，特别涉及一种应用于手机的语音增强方法和装置。发明背景手机在人们的日常生活和工作中已经得到了广泛应用，解除了人们通讯的时空约束，为人们的生活和工作提供了极大的便利。但是人们进行通讯的环境是复杂多变的，其中包括嘈杂的环境噪声，环境噪声会使得通话的语音质量严重下降，因此应用于手机的抑制噪声的语音增强技术有着重要的意义。

目前手机中常用的语音增强技术中有单麦克风谱减语音增强技术，也叫单通道谱减语音增强技术，也可以称为单麦克风降噪技术。这种技术只能抑制稳态的噪声，对非稳态的噪声，如商场超市或餐厅里的周围人的说话声等，没有明显的抑制效果。

另一种更优的降噪技术是多麦克风阵列语音增强技术，也称为多麦克风降噪技术，这种技术又分为两类：

第一类是通过多麦克风信号处理形成固定的指向性，即保留来自一个指定方向的声音，抑制来自其它方向的声音，当处理形成的指向性指向使用者的嘴，则能达到保护语音抑制周围噪声的效果。

第二类是利用多麦克风接收到信号的能量差来区分语音噪声从而进行降噪处理。图 1 是利用多麦克风接收到信号的能量差来区分语音噪声从而进行降噪处理方案的多麦克风的安装位置示意图。如图 1 所示，这里有两个麦克风，分别为主麦克风 1和辅麦克风 2,把主麦克风 1安装到手机的底端靠近人嘴的位置，主麦克风 1接收到的使用者的语音信号能量很大，辅麦克风 2安装在手机的顶端远离人嘴的位置，辅麦克风 2接收到的使用者的语音信号能量小。如图 1所示，对于外界环境噪声两个麦克风接收到的能量接近，因此通过比较两个麦克风接收到的信号能量差异可以判断是语音信号还是噪声信号，从而保留语音成分抑制噪声成分，达到提高信噪比的效果。

多麦克风降噪技术优于单麦克风降噪技术的是，多麦克风降噪技术可以有效抑制非稳态的噪声。但是多麦克风降噪技术对用户使用手机的方式会有严格约束，即用户握持手机的方式要受到限制。对于所述第一类利用指向性的技术来说，用户必须保持指向性对准人嘴的握持方式，否则若用户的握持方式有偏差就会导致人嘴偏离被保护的方向，语音就会被作为来自其他方向的噪声抑制；同样对于第二类利用能量差异的技术，也要求用户保证主麦克靠近人嘴而辅麦克远离人嘴的握持方式，如图 2所示，图 2是用户正常握持手机状态示意图；当用户异常握持时，如手机被水平握持时，如图 3所示，图 3是用户异常握持手机状态示意图，两个麦克风到人嘴的距离接近，语音到两个麦克风的能量接近，语音同样会被当作噪声抑制。发明内容有鉴于此，本发明提供了一种应用于手机的语音增强方法和装置，以解决只釆用单麦克风降噪只能抑制稳态噪声，而釆用多麦克风降噪虽然能抑制非稳态噪声，但在用户异常握持手机时存在损伤语音信号的问题。

为达到上述目的，本发明的技术方案是这样实现的：

本发明公开了一种应用于手机的语音增强方法，在手机的底部设置主麦克风，在手机的远离主麦克风的位置设置一个或多个辅麦克风，则该方法包括：根据主麦克风信号和辅助麦克风信号判断用户处于说话状态还是处于接听状态；

当判断用户处于说话状态时，进一步检测用户的手机握持状态是正常握持手机还是异常握持手机；当判断用户处于接听状态时，保持之前的语音增强处理方式不变；

当检测到用户正常握持手机时，釆用多麦克风降噪和单麦克风降噪相结合的方式进行语音增强处理；

当检测到用户异常握持手机时，只釆用单麦克风降噪方式进行语音增强处理。

本发明还公开了一种应用于手机的语音增强装置，在手机的底部设置有主麦克风，在手机的远离主麦克风的位置设置有一个或多个辅麦克风，则该装置包括：检测单元和降噪单元，其中：

检测单元，用于根据主麦克风信号和各辅助麦克风信号判断用户处于说话状态还是处于接听状态；当判断用户处于说话状态时，进一步检测用户的手机握持状态是正常握持手机还是异常握持手机，并通知给降噪单元；当判断用户处于接听状态时无进一步操作，使降噪单元保持之前的语音增强处理方式不变；降噪单元，用于在接收到用户正常握持手机的通知时，釆用多麦克风降噪和单麦克风降噪相结合的方式进行语音增强处理；用于在接收到用户异常握持手机的通知时，只釆用单麦克风降噪方式进行语音增强处理。

在上述装置中，所述检测单元包括：近场语音检测模块和握持状态检测模块；所述降噪单元包括：多麦克风降噪处理模块和单麦克风降噪处理模块；其中，

近场语音检测模块，用于接收主麦克风信号和辅助麦克风信号，并根据主麦克风信号和辅助麦克风信号判断用户处于说话状态还是处于接听状态，当判断用户处于说话状态时向握持状态检测模块发送通知，当判断用户处于接听状态时不向握持状态检测模块发送通知；

握持状态检测模块，用于接收主麦克风信号和各辅助麦克风信号，在收到近场语音检测模块的通知时，检测用户的手机握持状态是正常握持手机还是异常握持手机，当检测到用户正常握持手机时，将主麦克风信号和辅助麦克风信号发送给多麦克风降噪处理模块，当检测到用户异常握持手机时，将主麦克风信号发送给单麦克风降噪处理模块；

多麦克风降噪处理模块，用于对所接收的信号进行多麦克风降噪处理后发送给单麦克风降噪处理模块；

单麦克风降噪处理模块，用于对所接收的信号进行单麦克风降噪处理后输出。

由上述可见，本发明这种在用户说话时对用户的手机握持状态进行检测，根据用户的手机握持状态釆用不同的降噪处理方案，在用户正常握持手机时釆用多麦克风降噪和单麦克风降噪结合的方案对稳态噪声和非稳态噪声都进行有效的抑制，而在用户异常握持手机时釆用单麦克风降噪方案只对稳态噪声进行抑制，避免了多麦克风降噪对语音的损伤，保证了语音质量。附图简要说明图 1是一种双麦克风手机麦克风的安装位置示意图；

图 2是用户正常握持手机状态示意图；

图 3是用户异常握持手机状态示意图；图 4是本发明实施例中的一种应用于手机的语音增强装置的结构示意图。实施本发明的方式本发明是应用于手机的语音增强技术，本发明中釆用了手机握持状态检测技术，对用户正常握持手机状态釆用多麦克降噪与单麦克降噪结合处理的方案，从而能够保证在用户正确握持手机时能达到最优的降噪效果，对用户异常握持状态釆用单通道降噪处理技术，只对稳态噪声进行抑制以避免此时釆用多麦克降噪处理对语音造成伤害。也就是说，本发明在多麦克风降噪的基础上加入用户手机握持状态的检测，从而能在不同的手机握持状态釆用不同的降噪技术，保证最优降噪的同时也避免语音失真。

下面对本发明的技术方案进行佯细分析介绍。

在嘈杂的环境中使用手机通话时往往会遇到这样的情况，自己的说话声被周围的噪声所掩盖导致对方难以听清。本发明所公开的就是一种消除这些噪声，保留清晰的语音，使得通话即使在吵闹的环境中仍然能够通畅清晰进行的多麦克风降噪技术。这里的多个麦克风包括两个或两个以上的麦克风。因此本技术适用于安装有两个或两个以上麦克风的手机。如图 1 是一种双麦克风手机麦克风的安装位置示意图，其中安装在手机底部的是主麦克 1 , 安装在手机背部上端位置的是辅麦克 2。在其他情况下也可以使用 3个或 3个以上的麦克风，其中只有一个主麦克风安装在手机底部，其余多个辅麦克风安装在手机的远离主麦克风的位置，如手机的顶部或背部上端位置。

用户在使用手机通话时通常会有两种握持方式：

1、正常握持，手机底部的主麦克风 1挨近用户的嘴，如图 2所示。此时在本发明中釆用多麦克风降噪和单麦克风降噪结合的降噪技术能够 4艮好的消除噪声，同时语音质量不会受到损害；

2、异常握持，手机底部的主麦克风 1远远偏离用户的嘴，如图 3所示。此时若釆用多麦克降噪技术在消除噪声的同时会把语音当作噪声消除，因此在本发明中只釆用单麦克风降噪处理。

本发明的技术方案主要包括两大单元：检测单元和降噪单元。检测单元的作用是检测目前的通话状态，这些状态包括：用户在说话还是在接听，用户正常握持手机还是异常握持手机。其中用户的说话或接听状态由近场语音检测模块检测得到；用户的握持手机状态则进一步由握持状态检测模块检测得到。近场语音检测模块的原理是：当用户使用手机时，不管是正常握持还是异常握持，用户的嘴到手机上的麦克风的距离都会小于 20cm,可认为是近场声源，而周围的噪声源一般都会距离手机 50cm以上，可认为是远场声源，因此可以通过检测声源的距离来判断是用户的说话还是用户没有说话只有周围噪声。若是近场声源，两个麦克风接收到的信号间的相关性强，若是远场声源，两个麦克风接收到的信号间的相关性弱。因此可以通过计算主辅麦克风信号间的相关性来判断信号是用户语音还是周围噪声。具体的检测步骤可以如下：

1、计算主麦克风信号与辅麦克风信号之间的相关值；可以计算主麦克风信号与每个辅麦克风信号之间的相关值，然后进行平均得到平均相关值，或者，也可以计算主麦克风信号与其中一个辅麦克风信号之间的相关值；

2、如该相关值小于或等于设定阈值则信号是远场噪声信号，用户处于接听状态；若该相关值大于设定阈值则信号是近场语音信号，用户处于说话状态。

若是用户处于说话状态，则进一步进行用户握持状态检测。在本发明中提供检测用户握持状态的两种方法：

第一种方法：通过多麦克风检测语音的方向，通过语音的方向来判断用户握持状态，若语音来自手机的底部则是正常握持，若语音来自手机的侧向或顶部方向则是异常握持。

第二种方法：通过多麦克风信号能量的差异来判断用户握持状态：若主麦克风信号能量与辅麦克风信号能量的比值大于设定的阈值，则是正确握持，若能量比值小于或等于设定的阈值，则是异常握持。

经过检测单元的判定后，降噪单元根据不同的状态釆用对应的降噪处理：

1、若是正常握持，釆用多麦克风降噪模式：即首先经过多麦克风降噪处理抑制大部分的噪声，然后再经过单麦克风降噪处理抑制残留的稳态噪声，从而达到最优降噪；

2、若是异常握持，釆用单麦克风降噪模式：不经过多麦克风降噪处理，只经过单麦克风降噪处理抑制稳态噪声，从而保证最优的语音质量。

3、用户接听状态，保持降噪模式不变，即保持之前的语音增强处理方式不变。由于用户不说话，此时不确定用户的握持状态，因此认为上一次检测到的握持状态没有改变，所以降噪模式也不改变。

通过本发明可以根据用户使用手机时的握持状态釆用不同的降噪模式，从而有效消除噪声，同时能够保证语音信号不会受到损伤。为使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明中的应用于手机的语音增强装置进行佯细描述。

以图 1所示的具有两个麦克风的手机为例，其中主麦克风 1在手机的底部，辅麦克风 2在手机的背部上端位置，远离主麦克风 1。当用户如图 2所示正常握持手机时，主麦克风 1到嘴的距离小于 5cm,辅麦克风 2到嘴的距离 15cm〜20cm。当用户如图 3所示异常握持手机时，主麦克风 1到嘴的距离大于 10cm, 辅麦克风 2到嘴的距离 15cm〜20cm。因此用户正常握持时，主麦克风 1接收到的语音能量与辅麦克风 2接收到的语音能量的差异大于 9dB以上；用户异常握持时，主麦克风 1接收到的语音能量与辅麦克风 2接收到的语音能量的差异在 3dB以内。无论何种握持，主麦克风 1接收到的噪声能量与辅麦克风 2接收到的噪声能量的接近，也在 3dB以内。因此正常握持时，能通过两个麦克风的能量差异来区分语音和噪声，釆用多麦克风降噪能有效抑制噪声不损伤语音。但异常握持时，不能通过两个麦克风的能量差异来区分语音和噪声，釆用多麦克风降噪会损伤语音，此时要保护语音只能釆用单麦克风降噪抑制稳态噪声。

在本发明的实施例中，也可以在手机的底部设置 1 个主麦克风，在手机的远离主麦克风的位置，如在手机的顶部或背部上端设置 2以上的多个辅麦克风，多个辅助麦克风可以相距较近地分布在手机的顶部或背部上端。

在本实施例中设有 P ( P为大于 1的自然数）个麦克风：首先把主麦克风接收到的时域信号 _Sl和多个辅麦克风接收到的时域信号 s₂, s_P通过快速傅里叶变换（FFT ) 变换为频域信号 S_l S_P。频域信号输入近场语音检测模块，场语音检测模块通过主麦克风信号和辅麦克风信号的相关性判断输入的信号是近场语音还是远场噪声。若近场语音检测模块检测到的是近场语音信号，把频域信号输入到握持状态检测模块，握持状态检测模块通过主麦克风信号和辅麦克风信号的总能量差异判断用户是正常握持还是异常握持。若用户是正常握持， P个麦克风的 P路频域信号输入到多麦克风降噪处理模块进行降噪处理，然后再经过单麦克风降噪处理，最后输出一路经过降噪后的频域信号。若用户是异常握持，只把一路主麦克风的频域信号 Si输入单麦克风降噪处理模块进行降噪处理，输出一路经过降噪后的频域信号。若近场语音检测模块检测到的是远场噪声信号，此时不能确定握持状态，因此保持此时的降噪模式。最后把经过降噪处理后的频域信号进行逆快速傅里叶变换（IFFT ) 变换成时域信号输出。佯细的处理结构见图 4。图 4是本发明实施例中的一种应用于手机的语音增强装置的结构示意图。参见图 4, 该装置包括：快速傅里叶变换模块 41、检测单元 42、降噪单元 43和逆快速傅里叶变换模块 44, 其中：

快速傅里叶变换模块 41、用于将主麦克风信号和各辅麦克风信号分别进行快速傅里叶变换处理后发送给检测单元 42;

检测单元 42, 用于根据主麦克风信号和各辅助麦克风信号判断用户处于说话状态还是处于接听状态；当判断用户处于说话状态时，进一步检测用户的手机握持状态是正常握持手机还是异常握持手机，并通知给降噪单元 43; 当判断用户处于接听状态时无进一步操作，使降噪单元 43保持之前的语音增强处理方式不变；

降噪单元 43 , 用于在接收到用户正常握持手机的通知时，釆用多麦克风降噪和单麦克风降噪相结合的方式进行语音增强处理；用于在接收到用户异常握持手机的通知时，只釆用单麦克风降噪方式进行语音增强处理；

逆快速傅里叶变换模块 44,用于将降噪单元 43输出的信号进行逆快速傅里叶变换处理后输出。

如图 4所示，检测单元 42包括：近场语音检测模块 421和握持状态检测模块 422; 降噪单元 43包括：多麦克风降噪处理模块 431和单麦克风降噪处理模块 432; 其中，

近场语音检测模块 421 , 用于接收主麦克风信号和各辅助麦克风信号，并根据主麦克风信号和各辅助麦克风信号判断用户处于说话状态还是处于接听状态，当判断用户处于说话状态时向握持状态检测模块 422发送通知；当判断用户处于接听状态时近场语音检测模块 421不向握持状态检测模块 422发送通知，这样握持状态检测模块 422就会仍按照之前的握持状态判断结果向降噪单元 43 输入对应的信号，则降噪单元 43仍保持之前的降噪模式；

握持状态检测模块 422, 用于接收主麦克风信号和各辅助麦克风信号，在收到近场语音检测模块 421 的通知时，检测用户的手机握持状态是正常握持手机还是异常握持手机，当检测到用户正常握持手机时，将主麦克风信号和各辅助麦克风信号发送给多麦克风降噪处理模块 431 , 当检测到用户异常握持手机时，只将主麦克风信号发送给单麦克风降噪处理模块 432;

多麦克风降噪处理模块 431 ,用于对所接收的信号进行多麦克风降噪处理后发送给单麦克风降噪处理模块 432; 单麦克风降噪处理模块 432,用于对所接收的信号进行单麦克风降噪处理后输出。

下面对各个模块的具体处理过程进行佯细介绍：

快速傅里叶变换模块 41: 首先对 S进行分帧处理（i = l, ... , P ), 每帧 N个釆样点，第 m帧信号是 di(m,n),其中 0≤n < N, m≥0。相邻两帧有 M个釆样点的混叠，即当前帧的前 M个釆样点是前一帧的最后 M个釆样点，每帧只有 L=N-M 个釆样点的新数据。因此第 m帧数据为 (^(ιη,η^ ^ιη + η) » 例如在本实施方案中取帧长 Ν=256, 混叠 Μ=128, 即 50%的混叠。分帧处理后对每帧信号用窗函数 win(n)进行加窗处理，加窗后的数据为

窗函数可选择汉明窗，汉宁窗等窗函数，本实施方案选取汉宁窗：

2πη

win(n) = 0.5 1— cos

N - l

加窗后的数据最后进行 FFT转换到频域：

N-1

Si(m,k) = Ai(m,k)e— (^m，^k) = _Wi(m,n)e— ^{j2;rnk N}

n-0

其中，0≤k≤ 是频率子带， Ai(m,k)是幅度， (m,k)是相位。近场语音检测模块 421：用于计算主麦克风信号与各辅麦克风信号之间的相关值，如果该相关值大于第一阈值则判断用户处于说话状态，如果该相关值小于或等于第一阈值则判断用户处于接听状态；

在只有 1 个辅麦克风的情况下，可以直接计算主麦克风信号与辅麦克风信号之间的相关值。在有 2个以上辅麦克风的情况下，近场语音检测模块 421可以计算主麦克风信号与每个辅麦克风信号之间的相关值，然后进行平均得到平均相关值，或者，计算主麦克风信号与其中一个辅麦克风信号之间的相关值。

在本实施例中具体来说近场语音检测模块 421 在每个频率子带计算主麦克风信号 Si和一个辅麦克风信号如 S₂的相关函数 Coh₁₂(m^):

其中， conj( * )是共轭运算， abs( * )是求模运算。然后计算全频带内相关函数的均值 Mcoh₁₂(m):

N-l

MCoh₁₂ (m) =— Coh₁₂ (m, k) 同样可以计算主麦克风信号 Si和其他辅麦克风信号如 s₃之间的相关值 Mcoh₁₃(m), 以此类推。最后再对主麦克风信号与各辅麦克风信号间的相关值进行求和平均，得到最后的相关值 MCoh(m)。

MCoh(m)越大声源到两个麦克风的距离越小，通过 MCoh(m)与设定的阈值 Coh— th 比较来确定声音是来自近场声源还是远场声源，进而确定声音是用户语音还是环境噪声，例如在本实施方案中 Coh— th设定为 0.5。 MCoh(m)> Coh— th 说明相关性足够大，信号是来自近场，是用户的语音，用户在讲话。若 MCoh(m) Coh— th说明相关性较小，信号是来自远场，是周围的环境噪声，用户在接听。

握持状态检测模块 422:用于计算主麦克风信号能量与辅麦克风信号能量的比值，如果该比值大于第二阈值，则确定用户正常握持手机，如果该比值小于或等于第二阈值，则确定用户异常握持手机。

具体来说握持状态检测模块 422计算主麦克风信号 Si和一个辅麦克风信号的如 S₂的总能量 P m)和 P₂(

然后计算两个总能量的比值 Pr₁₂(m) = ^^，同理可以计算主麦克风信号 Si和其他辅麦克风信号如 S₃的总能量比值!¾ , 以此类推。最后对这些总能

量比值进行求和平均得到最后的比值 Pr( )。在本发明的其他实施例中也可以先对各辅麦克风信号的能量进行求和平均，然后再与主麦克风信号能量相比得到比值 Pr(m)。

Pr(m)越大表明主麦克风越接近人嘴，反之越小表明主麦克风距离人嘴越远，通过 Pr(m)与阈值 Pr— th进行比较来确定手机的握持状态，例如在本实施方案中 Pr— th设定为 2。 Pr(m)>Pr— th为手机正常握持， Pr(m) Pr— th为手机异常握持。

在本发明的其他实施例中，握持状态检测模块 422也可以通过多麦克风检测语音的方向，若语音来自手机底部方向，则确定用户正常握持手机，若语音来自手机的侧向或顶部方向，则确定用户异常握持手机。

多麦克风降噪处理模块 431: 用于在每个频率子带上，计算主麦克风信号和辅麦克风信号在该频率子带上的能量比值，根据该能量比值确定抑噪函数在该频率子带上的取值；用于将抑噪函数与主麦克风信号进行相乘运算得到抑制非稳态噪声后的信号后输出给单麦克风降噪处理模 432。

具体来说多麦克风降噪处理模块 431计算主麦克风信号 Si和一个辅麦克风信号的如 S₂的在每个频率子带上的能量比值 Pb₁₂(m，k) = ^^，同理可以计算

A₂(m,k)

主麦克风信号 Si和其他辅麦克风信号如 S₃的总能量比值 Pb₁₃(m，k) = ^Al(m，^k) , 以

A₃(m, k) 此类推可以得到主麦克风信号 Si和最后一个辅麦克风信号 s_P的总能量比值

Pb_1P(m,k) = ^Al(m，^k)。最后对这些总能量比值进行求和平均得到最后的比值

A_p(m,k)

Pb(m，k)。在其他实施例中也可以先对各辅麦克风信号的能量进行求和平均，然后再与主麦克风信号能量相比得到比值 Pb(m，k)。

Pb(m，k)越大表明第 k个频率子带的信号成分是语音的几率越大，反之第 k 个频率子带的信号成分是噪声的几率越小。根据本实施方案中 Pb(m，k)与设定的能量比值上限 Pb— U(k)和能量比值下限 Pb— L(k)进行比较，来判断第 k个频率子带的成分是语音的几率，例如在本实施方案中 Pb— U( 设定为 4, Pb— L(k)设定为 2。若 Pb(m，k) > Pb— U(k), 则此频率子带内的信号成分是语音的几率为 1 , 抑噪函数 G_d(m，k)=l ; 若 Pb(m，k) Pb—L(k), 则此频率子带内的信号成分是语音的几率为 0 , 全是噪声， G_d(m，k)=RL， RL<1 决定最大的降噪量。若 Pb_U(k)>Pb(m,k)>Pb_L(k) , 则此频率子带内的信号成分有语音也有噪声不进行处理，此时 RL<G_d(m，k)<l。最后通过 Gd m'k S^m'k)运算抑制每个频率子带中的噪声成分，得到降噪后的信号 S_d(m，k)。

单麦克风降噪处理模块 432: 用于在每个频率子带上，通过滑动平均算法计算出所接收信号在该频率子带上的平稳噪声能量，进而计算出语音成分比例函数在该频率子带上的取值；将语音成分比例函数与所接收信号进行相乘运算得到抑制稳态噪声的信号后输出给逆快速傅里叶变换模块 44;

在本实施例中设单麦克风降噪处理模块 432的输入是 S_sl(m，k), 此输入根据降噪模式会不同，当是多麦克风降噪模式时， S_sl(m，k)是多麦克降噪处理模块 431 降噪后的输出 S_d(m，k) ; 当是单麦克风降噪模式时， S_sl(m，k)是主麦克风信号 S m,]^ 本模块通过滑动平均的方法计算 S_sl(m，k)在每个频率子带中的平稳噪声能量 P_n(m，k):

P_n(m,k) = a * P_n(m,k) + (1 - «) * P_s(m,k) ,

其中 α是平滑参数，例如在本实施方案中 a=0.98。 P_s(m，k)是本模块输入信号的能量谱，

P_s(m，k) = (abs(S_si(m，k)))²。

因为平稳噪声的能量不会有大的变化，因此通过慢平滑平均可以估计出平稳噪声的能量大小。因此每个频率子带内的语音成分所占的比例是

_{G (}m，_k ，^k) - ^P"m，^k)。

P_s(m,k)

最后通过 G_s(m，k)*S_sl(m，k)达到保留每个频率子带中的语音成分，得到抑制噪声后的频域信号 S_s。(m，k)

逆快速傅里叶变换模块 44: 把单麦克风降噪处理模块 432的输出频域信号 S_s。(m，k)经过逆快速傅立叶变换 (IFFT)变换回时域，就得到经过降噪处理后的最终输出信号 s。( ，《):

S。(m，n) = ¾S_s。(m，k)_e ^k/N 在本实施例中，当近场语音检测模块 421检测出目前的信号中只有噪声时，此时用户处于接听状态，没有说话，因此不能判断用户的握持方式，也就不能准确判断目前应该釆用何种降噪模式，因此本发明假设上一次检测到的握持方式到目前没有改变，从而保持原来的降噪模式，直到下一次用户说话能够准确判断用户的握持方式。

综上所述，本发明这种在用户说话时对用户的手机握持状态进行检测，根据用户的手机握持状态釆用不同的降噪处理方案，在用户正常握持手机时釆用多麦克风降噪和单麦克风降噪结合的方案对稳态噪声和非稳态噪声都进行有效的抑制，而在用户异常握持手机时釆用单麦克风降噪方案只对稳态噪声进行抑制，避免了多麦克风降噪对语音的损伤，保证了语音质量。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

权利要求书

1、一种应用于手机的语音增强方法，在手机的底部设置主麦克风，在手机的远离主麦克风的位置设置一个或多个辅麦克风，其特征在于，该方法包括：根据主麦克风信号和辅助麦克风信号判断用户处于说话状态还是处于接听状态；

2、根据权利要求 1所述的方法，其特征在于，所述根据主麦克风信号和辅助麦克风信号判断用户处于说话状态还是处于接听状态包括：

计算主麦克风信号与辅麦克风信号之间的相关值，如果该相关值大于第一阈值则判断用户处于说话状态，如果该相关值小于或等于第一阈值则判断用户处于接听状态；

其中，计算主麦克风信号与辅麦克风信号之间的相关值为：计算主麦克风信号与每个辅麦克风信号之间的相关值，然后进行平均得到平均相关值，或者，计算主麦克风信号与其中一个辅麦克风信号之间的相关值。

3、根据权利要求 1所述的方法，其特征在于，所述检测用户的手机握持状态是正常握持手机还是异常握持手机包括：

通过多麦克风检测语音的方向，若语音来自手机底部方向，则确定用户正常握持手机，若语音来自手机的侧向或顶部方向，则确定用户异常握持手机；或者，计算主麦克风信号能量与辅麦克风信号能量的比值，如果该比值大于第二阈值，则确定用户正常握持手机，如果该比值小于或等于第二阈值，则确定用户异常握持手机。

4、根据权利要求 1所述的方法，其特征在于，

在根据主麦克风信号和辅助麦克风信号判断用户处于说话状态还是处于接听状态之前，该方法还包括：对主麦克风信号和辅助麦克风信号进行快速傅里叶变换处理的步骤；在进行语音增强处理之后，该方法进一步包括：对降噪后的信号进行逆快速傅里叶变换处理的步骤。

5、根据权利要求 4所述的方法，其特征在于，

所述釆用多麦克风降噪和单麦克风降噪相结合的方式进行语音增强处理包括：先进行多麦克风降噪处理，然后进行单麦克风降噪处理；

其中，先进行多麦克风降噪处理为：在每个频率子带上，计算主麦克风信号和辅麦克风信号在该频率子带上的能量比值，根据该能量比值确定抑噪函数在该频率子带上的取值；将抑噪函数与主麦克风信号进行相乘运算得到抑制非稳态噪声后的信号；

然后进行单麦克风降噪处理为：在每个频率子带上，通过滑动平均算法计算出所述抑制非稳态噪声后的信号在该频率子带上的平稳噪声能量，进而计算出语音成分比例函数在该频率子带上的取值；将语音成分比例函数与所述抑制非稳态噪声后的信号进行相乘运算，得到抑制非稳态噪声后又抑制了稳态噪声的信号；

所述只釆用单麦克风降噪方式进行语音增强处理包括：在每个频率子带上，通过滑动平均算法计算出主麦克风信号在该频率子带上的平稳噪声能量，进而计算出语音成分比例函数在该频率子带上的取值；将语音成分比例函数与主麦克风信号进行相乘运算，得到抑制稳态噪声后的信号。

6、一种应用于手机的语音增强装置，在手机的底部设置有主麦克风，在手机的远离主麦克风的位置设置有一个或多个辅麦克风，其特征在于，该装置包括：检测单元和降噪单元，其中：

检测单元，用于根据主麦克风信号和辅助麦克风信号判断用户处于说话状态还是处于接听状态；当判断用户处于说话状态时，进一步检测用户的手机握持状态是正常握持手机还是异常握持手机，并通知给降噪单元；当判断用户处于接听状态时无进一步操作，使降噪单元保持之前的语音增强处理方式不变；降噪单元，用于在接收到用户正常握持手机的通知时，釆用多麦克风降噪和单麦克风降噪相结合的方式进行语音增强处理；用于在接收到用户异常握持手机的通知时，只釆用单麦克风降噪方式进行语音增强处理。

7、根据权利要求 6所述的装置，其特征在于，所述检测单元包括：近场语音检测模块和握持状态检测模块；所述降噪单元包括：多麦克风降噪处理模块和单麦克风降噪处理模块；其中，近场语音检测模块，用于接收主麦克风信号和辅助麦克风信号，并根据主麦克风信号和辅助麦克风信号判断用户处于说话状态还是处于接听状态，当判断用户处于说话状态时向握持状态检测模块发送通知，当判断用户处于接听状态时不向握持状态检测模块发送通知；

握持状态检测模块，用于接收主麦克风信号和辅助麦克风信号，在收到近场语音检测模块的通知时，检测用户的手机握持状态是正常握持手机还是异常握持手机，当检测到用户正常握持手机时，将主麦克风信号和辅助麦克风信号发送给多麦克风降噪处理模块，当检测到用户异常握持手机时，将主麦克风信号发送给单麦克风降噪处理模块；

8、根据权利要求 7所述的装置，其特征在于，

所述近场语音检测模块，用于计算主麦克风信号与辅麦克风信号之间的相关值，如果该相关值大于第一阈值则判断用户处于说话状态，如果该相关值小于或等于第一阈值则判断用户处于接听状态；

9、根据权利要求 7所述的装置，其特征在于，

所述握持状态检测模块，用于通过多麦克风检测语音的方向，若语音来自手机底部方向，则确定用户正常握持手机，若语音来自手机的侧向或顶部方向，则确定用户异常握持手机；

或者，

所述握持状态检测模块，用于计算主麦克风信号能量与辅麦克风信号能量的比值，如果该比值大于第二阈值，则确定用户正常握持手机，如果该比值小于或等于第二阈值，则确定用户异常握持手机。

10、根据权利要求 7 所述的装置，其特征在于，该装置还包括：快速傅里叶变换模块和逆快速傅里叶变换模块，其中：

所述快速傅里叶变换模块，输入连接主麦克风和辅麦克风，输出连接检测单元，用于将主麦克风信号和辅麦克风信号分别进行快速傅里叶变换处理后发送给近场语音检测模块和握持状态检测模块；

所述多麦克风降噪处理模块，用于在每个频率子带上，计算主麦克风信号和辅麦克风信号在该频率子带上的能量比值，根据该能量比值确定抑噪函数在该频率子带上的取值；将抑噪函数与主麦克风信号进行相乘运算得到抑制非稳态噪声后的信号后输出给单麦克风降噪处理模块；

所述单麦克风降噪处理模块，用于在每个频率子带上，通过滑动平均算法计算出所接收信号在该频率子带上的平稳噪声能量，进而计算出语音成分比例函数在该频率子带上的取值；将语音成分比例函数与所接收信号进行相乘运算得到抑制稳态噪声的信号后输出给逆快速傅里叶变换模块；

所述逆快速傅里叶变换模块，输入连接降噪单元，用于对降噪后的信号进行逆快速傅里叶变换处理后输出。