WO2020014931A1 - 语音增强方法、装置、设备及存储介质 - Google Patents

语音增强方法、装置、设备及存储介质 Download PDF

Info

Publication number
WO2020014931A1
WO2020014931A1 PCT/CN2018/096335 CN2018096335W WO2020014931A1 WO 2020014931 A1 WO2020014931 A1 WO 2020014931A1 CN 2018096335 W CN2018096335 W CN 2018096335W WO 2020014931 A1 WO2020014931 A1 WO 2020014931A1
Authority
WO
WIPO (PCT)
Prior art keywords
virtual
microphone
microphone array
voice signal
ture
Prior art date
Application number
PCT/CN2018/096335
Other languages
English (en)
French (fr)
Inventor
李国梁
王鑫山
郭红敬
朱虎
Original Assignee
深圳市汇顶科技股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 深圳市汇顶科技股份有限公司 filed Critical 深圳市汇顶科技股份有限公司
Priority to PCT/CN2018/096335 priority Critical patent/WO2020014931A1/zh
Priority to CN201880001281.9A priority patent/CN109074817B/zh
Publication of WO2020014931A1 publication Critical patent/WO2020014931A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Definitions

  • the present application relates to the technical field of speech processing, and in particular, to a speech enhancement method, device, device, and storage medium.
  • Speech enhancement technology can improve the accuracy of speech recognition and improve the user experience. Therefore, speech enhancement technology is very important in both traditional speech communication and speech interaction applications.
  • Speech enhancement technology is divided into single-channel speech enhancement technology and multi-channel speech enhancement technology.
  • Single-channel speech enhancement technology can eliminate steady-state noise, but it cannot eliminate non-steady-state noise.
  • the increase in signal ratio comes at the expense of speech damage. The more the signal-to-noise ratio increases, the greater the speech damage.
  • Multi-channel speech enhancement technology uses a microphone array to collect multiple signals, and uses phase information and coherent information between multi-microphone signals to eliminate noise. It can eliminate non-steady-state noise and has less damage to speech.
  • a microphone array with a fixed distance is generally used to implement speech enhancement.
  • the attenuation of low-frequency noise is weak.
  • the method of increasing the microphone distance is used to enhance the attenuation of low-frequency noise, when the microphone distance is greater than half of the highest frequency wavelength, high-frequency aliasing is likely to occur, resulting in high-frequency noise that is difficult to eliminate.
  • the prior art uses a linear array composed of multiple microphones or an area array composed of multiple microphones to overcome the problems of weak attenuation of low frequency noise and high frequency aliasing.
  • the microphone array of this method is relatively large, which is not conducive to application in portable devices.
  • the invention provides a method, a device, a device and a storage medium for voice enhancement, so as to achieve a flat attenuation of noise in different frequency bands without changing the physical structure of the microphone array, prevent high-frequency aliasing, and control the volume of the microphone array. It is small enough for portable applications.
  • an embodiment of the present invention provides a speech enhancement method, including:
  • obtaining a voice signal of the fixed microphone array includes:
  • the voice signals of each of the microphones in the fixed microphone array are acquired separately, and the voice signals of all the microphones in the fixed microphone array are synthesized into the voice signals of the fixed microphone array.
  • constructing a virtual microphone array according to the voice signal includes:
  • any two adjacent microphones in the fixed microphone array as: a first microphone and a second microphone; wherein the voice signal of the first microphone is X 1 ( ⁇ ) and the voice signal of the second microphone is X 2 ( ⁇ ); ⁇ represents the frequency of the speech signal;
  • a virtual microphone array is constructed according to the virtual distance D virtual .
  • calculating a virtual distance D virtual between the first microphone and the second microphone after the virtual movement includes:
  • ⁇ l ⁇ h ⁇ l is a frequency upper limit value in a low frequency region
  • ⁇ h is a frequency lower limit value in a high frequency region
  • Fs is a sampling frequency
  • D virtual is greater than D ture ;
  • D virtual and D ture satisfy the following relationship :
  • Q is a correction factor virtual microphone array
  • * represents multiplication
  • L represents a wavelength corresponding to
  • ⁇ ⁇ represents ( ⁇ ) X a wavelength corresponding to 1 ( ⁇ ) and X 2
  • D ture represents a first microphone and Actual distance of the second microphone;
  • Q is a correction factor of the virtual microphone array
  • represents a multiplication operation
  • ⁇ ⁇ h represents a wavelength corresponding to ⁇ h
  • ⁇ ⁇ represents a wavelength corresponding to X 1 ( ⁇ ) and X 2 ( ⁇ );
  • C is a constant, C ⁇ 0.5;
  • performing phase correction on the voice signals of the fixed microphone array to obtain the voice signals of the virtual microphone array includes:
  • ( ⁇ ) * represents the conjugate of a complex number
  • Is the conjugate of X 1 ( ⁇ )
  • Imag (.) Represents taking the imaginary part of the complex number
  • Real (.) Represents taking the real part of the complex number
  • performing denoising processing on the voice signal of the virtual microphone array to obtain an enhanced processed voice signal includes:
  • Coherent noise is removed from the voice signals of the virtual microphone array by a beamforming algorithm, and non-coherent noise is removed by a post filter to obtain an enhanced processed voice signal.
  • this embodiment provides a voice enhancement device, including:
  • a virtual module configured to construct a virtual microphone array according to the voice signal
  • a correction module configured to perform phase correction on a voice signal of the fixed microphone array according to a correction factor of the virtual microphone array to obtain a voice signal of the virtual microphone array;
  • the denoising module is configured to perform denoising processing on a voice signal of the virtual microphone array to obtain an enhanced processed voice signal.
  • the obtaining module is specifically configured to:
  • the virtual module is specifically configured to:
  • a virtual microphone array is constructed according to the virtual distance D virtual .
  • calculating a virtual distance D virtual between the first microphone and the second microphone after the virtual movement includes:
  • D virtual is greater than D ture ;
  • D virtual and D ture satisfy the following relationship :
  • Q is a correction factor virtual microphone array
  • * represents multiplication
  • ⁇ ⁇ l represents the wavelength corresponding ⁇ l
  • ( ⁇ ) X a wavelength corresponding to 1 ( ⁇ ) and X 2 ⁇ ⁇ represents
  • D ture represents a first microphone Actual distance from the second microphone
  • correction module is specifically configured to:
  • ( ⁇ ) * represents the conjugate of a complex number
  • Is the conjugate of X 1 ( ⁇ )
  • Imag (.) Represents taking the imaginary part of the complex number
  • Real (.) Represents taking the real part of the complex number
  • the denoising module is specifically configured to:
  • the speech enhancement method, device, device and storage medium provided by the present invention obtain voice signals of a fixed microphone array; construct a virtual microphone array according to the voice signals; and modify the fixed microphone according to a correction factor of the virtual microphone array.
  • the voice signals of the array are phase-corrected to obtain the voice signals of the virtual microphone array; the voice signals of the virtual microphone array are denoised to obtain the enhanced processed voice signals.
  • the invention can virtualize microphones of any distance, which is equivalent to a microphone array composed of an infinite number of microphones.
  • FIG. 4 is a flowchart of a speech enhancement method provided in Embodiment 2 of the present invention.
  • FIG. 5 is a schematic diagram of a virtual microphone construction principle for a low-frequency voice signal
  • FIG. 10 is a schematic structural diagram of a voice enhancement device according to a fourth embodiment of the present invention.
  • a process, method, system, product, or device that includes a series of steps or units need not be limited to those steps or units that are explicitly listed, but may include those that are not explicitly listed or for those processes, methods, products, or Other steps or units inherent to the equipment.
  • FIG. 1 is a schematic diagram of a noise attenuation curve of a conventional small-distance microphone.
  • noise with a bandwidth of 0-8000 Hz has a poor noise attenuation effect in a frequency range less than 1000 Hz.
  • the microphone distance is large, a high frequency may result in aliasing, increasing the distance between the microphones can be increased noise attenuation of low-frequency region, but according to the distance between the spatial sampling theorem, a microphone smaller than half the minimum wavelength d of ⁇ min, which is And when May cause high-frequency aliasing.
  • the distance between different microphones in the virtual microphone array may be adjusted according to the frequency of the voice signal received by each microphone in the fixed microphone. After the distances between all microphones in the virtual microphone array are determined, a virtual microphone array corresponding to the fixed microphone array is obtained. Calculate a correction factor of the virtual microphone array, and perform phase correction on the voice signal of the fixed microphone array through the correction factor to obtain an output signal of the virtual microphone array.
  • the human speech frequency is within 100 Hz, there is very little energy, so a simple high-pass filter can be used to remove noise less than 100 Hz.
  • the method of the present invention significantly improves the attenuation performance of noise by virtualizing microphone arrays of different distances. Therefore, the volume of the microphone array can be reduced in design so that it can be applied to portable devices.
  • the voice signals of each microphone in the fixed microphone array can be obtained separately, and the voice signals of all microphones in the fixed microphone array are synthesized into the voice signals of the fixed microphone array.
  • the method of this embodiment can be applied to different fixed microphone arrays, and the specific structure and form of the microphone array are not limited in this embodiment.
  • C is a constant, C ⁇ 0.5;
  • C is a constant, and its specific value can be adjusted according to the actual situation, which is not limited in this embodiment.
  • the two adjacent microphones are taken as an example for detailed description.
  • the voice signal after the virtual movement of the second microphone is X ′ 2 ( ⁇ )
  • be the angle between X 1 ( ⁇ ) and X 2 ( ⁇ )
  • FIG 8 is a schematic view of the principle of the phase correction for high frequency speech signal, shown in Figure 8, when Q ⁇ [0,1], the same, X 1 according to ([omega]) and X 2 ( ⁇ ) X 1 can be obtained The angle ⁇ between ( ⁇ ) and X 2 ( ⁇ )
  • the voice signals of the virtual microphone array may be subjected to a beamforming algorithm to remove coherent noise, and a post-filter may be used to remove non-coherent noise to obtain an enhanced processed voice signal.
  • a fixed beamforming algorithm a generalized side-lobe canceller (GSC) algorithm, a Minimum Variance Distortionless Response (MVDR) algorithm, and a linearly constrained minimum variance (MVDR) algorithm may be used.
  • GSC generalized side-lobe canceller
  • MVDR Minimum Variance Distortionless Response
  • MVDR linearly constrained minimum variance
  • Any one of the minimum variance (LCMV) algorithms and the like to perform denoising processing on the voice signals of the virtual microphone array is not limited.
  • the main role of the beamforming algorithm is to remove coherent noise.
  • Common methods for estimating Wiener filter coefficients include based on mutual power. Spectral method, a priori signal-to-noise ratio method, posterior signal-to-noise ratio method, wavelet threshold-based method, etc. This embodiment does not limit the Wiener filter coefficient estimation method.
  • a voice signal of a fixed microphone array is obtained; a virtual microphone array is constructed according to the voice signal; a phase correction is performed on the voice signal of the fixed microphone array according to a correction factor of the virtual microphone array to obtain a virtual microphone.
  • Voice signals of the array performing denoising processing on the voice signals of the virtual microphone array to obtain an enhanced processed voice signal.
  • the invention can virtualize microphones of any distance, which is equivalent to a microphone array composed of an infinite number of microphones.
  • the speech enhancement algorithm has the same attenuation degree at different frequencies, thereby achieving no Changing the physical structure of the microphone array can flatten the attenuation of noise in different frequency bands, prevent high-frequency aliasing, and control the volume of the microphone array to be small enough for convenient use in portable devices.
  • FIG. 9 is a schematic structural diagram of a voice enhancement device provided in Embodiment 3 of the present invention. As shown in FIG. 9, the device in this embodiment may include:
  • An acquisition module 31 configured to acquire a voice signal of a fixed microphone array
  • a virtual module 32 configured to construct a virtual microphone array according to the voice signal
  • a correction module 33 configured to perform phase correction on a voice signal of the fixed microphone array according to a correction factor of the virtual microphone array to obtain a voice signal of the virtual microphone array;
  • the denoising module 34 is configured to perform denoising processing on a voice signal of the virtual microphone array to obtain an enhanced processed voice signal.
  • the obtaining module 31 is specifically configured to:
  • the virtual module 32 is specifically configured to:
  • any two adjacent microphones in the fixed microphone array as: a first microphone and a second microphone; wherein the voice signal of the first microphone is X 1 ( ⁇ ) and the voice signal of the second microphone is X 2 ( ⁇ );
  • a virtual microphone array is constructed according to the virtual distance D virtual .
  • ⁇ l ⁇ h ⁇ l is a frequency upper limit value in a low frequency region
  • ⁇ h is a frequency lower limit value in a high frequency region
  • Fs is a sampling frequency
  • D virtual is greater than D ture ;
  • D virtual and D ture satisfy the following relationship :
  • Q is a correction factor of the virtual microphone array
  • represents a multiplication operation
  • ⁇ ⁇ l represents a wavelength corresponding to ⁇ l
  • ⁇ ⁇ represents a wavelength corresponding to X 1 ( ⁇ ) and X 2 ( ⁇ );
  • Q is a correction factor of the virtual microphone array
  • represents a multiplication operation
  • ⁇ ⁇ h represents a wavelength corresponding to ⁇ h
  • ⁇ ⁇ represents a wavelength corresponding to X 1 ( ⁇ ) and X 2 ( ⁇ );
  • correction module 33 is specifically configured to:
  • ( ⁇ ) * represents the conjugate of a complex number
  • Is the conjugate of X 1 ( ⁇ )
  • Imag (.) Represents taking the imaginary part of the complex number
  • Real (.) Represents taking the real part of the complex number
  • the denoising module 34 is specifically configured to:
  • Coherent noise is removed from the voice signals of the virtual microphone array by a beamforming algorithm, and non-coherent noise is removed by a post filter to obtain an enhanced processed voice signal.
  • the speech enhancement device in this embodiment may execute the methods shown in FIG. 2 and FIG. 4. For specific implementation processes and technical principles, refer to related descriptions in the method shown in FIG. 4, and details are not described herein again.
  • FIG. 10 is a schematic structural diagram of a voice enhancement device provided in Embodiment 4 of the present invention. As shown in FIG. 10, the voice enhancement device 40 in this embodiment includes:
  • the memory 42 is configured to store executable instructions, and the memory may also be a flash (flash memory).
  • the processor 41 is configured to execute executable instructions stored in a memory to implement each step in the method according to the foregoing embodiment. For details, refer to related descriptions in the foregoing method embodiments.
  • the memory 42 may be independent or integrated with the processor 41.
  • the voice enhancement device 40 may further include:
  • the speech enhancement device in this embodiment can execute the methods shown in FIG. 2 and FIG. 4. For specific implementation processes and technical principles, refer to related descriptions in the method shown in FIG. 4, and details are not described herein again.
  • a person of ordinary skill in the art may understand that all or part of the steps of implementing the foregoing method embodiments may be implemented by a program instructing related hardware.
  • the aforementioned program may be stored in a computer-readable storage medium.
  • the steps including the foregoing method embodiments are executed; and the foregoing storage medium includes: a read-only memory (ROM), a random access memory (RAM), a magnetic disk, or an optical disk, which can store program code. medium.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Abstract

一种语音增强方法,包括:获取固定麦克风阵列的语音信号(S101);根据语音信号,构建虚拟麦克风阵列(S102);根据虚拟麦克风阵列的修正因数,对固定麦克风阵列的语音信号进行相位修正,得到虚拟麦克风阵列的语音信号(S103);对虚拟麦克风阵列的语音信号进行去噪处理,得到增强处理后的语音信号(S104)。还涉及一种语音增强装置、设备及存储介质。

Description

语音增强方法、装置、设备及存储介质 技术领域
本申请涉及语音处理技术领域,尤其涉及一种语音增强方法、装置、设备及存储介质。
背景技术
在语音智能交互应用中,语音增强技术能够提高语音识别的准确率,提高用户体验,因此语音增强技术无论是在传统的语音通讯,还是语音交互应用中都至关重要。语音增强技术分为单通道语音增强技术和多通道语音增强技术。单通道语音增强技术能够消除稳态噪声,但是不能消除非稳态噪声,且信号比提高是以语音损伤为代价,信噪比提高越多,语音损伤越大。多通道语音增强技术利用麦克风阵列采集多路信号,利用多麦克风信号之间的相位信息和相干信息消除噪声,能够消除非稳态噪声,且对语音损伤较小。
目前,一般使用固定距离的麦克风阵列来实现语音增强,当设置较小的麦克风距离时,低频噪声衰减程度较弱。但是,若采用增大麦克风距离的方法来增强低频噪声的衰减,那么当麦克风距离大于最高频率波长的一半时,容易出现高频混叠,导致高频噪声难于消除。
针对上述问题,现有技术采用了多个麦克风组成的线阵或多个麦克风组成的面阵,来克服低频噪声衰减较弱和高频混叠的问题。但是,这种方法的麦克风阵列体积较大,不利于应用在便携设备中。
发明内容
本发明提供一种语音增强方法、装置、设备及存储介质,以实现不改变麦克风阵列的物理结构,就能使噪声在不同频段的衰减平坦,防止高频混叠,又能控制麦克风阵列的体积足够小,方便应用于便携设备。
第一方面,本发明实施例提供一种语音增强方法,包括:
获取固定麦克风阵列的语音信号;
根据所述语音信号,构建虚拟麦克风阵列;
根据所述虚拟麦克风阵列的修正因数,对所述固定麦克风阵列的语音信号进行相位修正,得到虚拟麦克风阵列的语音信号;
对所述虚拟麦克风阵列的语音信号进行去噪处理,得到增强处理后的语音信号。
可选地,获取固定麦克风阵列的语音信号,包括:
分别获取所述固定麦克风阵列中每个麦克风的语音信号,其中,所述固定麦克风阵列中所有麦克风的语音信号合成所述固定麦克风阵列的语音信号。
可选地,根据所述语音信号,构建虚拟麦克风阵列,包括:
将所述固定麦克风阵列中任意两个相邻的麦克风标记为:第一麦克风和第二麦克风;其中,第一麦克风的语音信号为X 1(ω),第二麦克风的语音信号为X 2(ω);ω表示语音信号的频率;
令X 1(ω)对应的第一麦克风的位置不变,虚拟移动X 2(ω)对应的第二麦克风的位置;
根据X 1(ω)和X 2(ω)的频率范围,计算得到第一麦克风和虚拟移动后的第二麦克风之间的虚拟距离D virtual
根据所述虚拟距离D virtual构建虚拟麦克风阵列。
可选地,根据X 1(ω)和X 2(ω)的频率范围,计算得到第一麦克风和虚拟移动后的第二麦克风之间的虚拟距离D virtual,包括:
确定所述X 1(ω)和X 2(ω)的频率位于低频区域[0,ω l]还是高频区域
Figure PCTCN2018096335-appb-000001
其中,ω l≤ω h,ω l为低频区域的频率上限值,ω h为高频区域的频率下限值,Fs为采样频率;
当所述X 1(ω)和X 2(ω)的频率位于低频区域[0,ω l]内,且ω l<ω h时,使得D virtual大于D ture;D virtual与D ture满足如下关系:
D virtual=Q·D ture
其中:
Figure PCTCN2018096335-appb-000002
式中,Q为虚拟麦克风阵列的修正因数,·表示乘法运算,λ ωl表示ωl对应的波长,λ ω表示X 1(ω)和X 2(ω)对应的波长;D ture表示第一麦克风和第二麦克风的实际距离;
当所述X 1(ω)和X 2(ω)的频率位于高频区域
Figure PCTCN2018096335-appb-000003
内,且ω l<ω h时,使得D virtual小于D ture;D virtual与D ture满足如下关系:
D virtual=Q·D ture
其中:
Figure PCTCN2018096335-appb-000004
式中,Q为虚拟麦克风阵列的修正因数,·表示乘法运算,λ ωh表示ω h对应的波长,λ ω表示X 1(ω)和X 2(ω)对应的波长;
当ω l=ω h时,令D virtual=C·λ ω
其中,C为常数,C<0.5;
Figure PCTCN2018096335-appb-000005
可选地,根据所述虚拟麦克风阵列的修正因数,对所述固定麦克风阵列的语音信号进行相位修正,得到虚拟麦克风阵列的语音信号,包括:
假设第二麦克风虚拟移动后的语音信号为X′ 2(ω),令θ表示X 1(ω)到X 2(ω)之间的夹角,θ′表示X 1(ω)到X′ 2(ω)之间的夹角,根据D virtual=Q·D ture,得到θ′=Q·θ;
其中,
Figure PCTCN2018096335-appb-000006
式中:(·) *表示复数的共轭,
Figure PCTCN2018096335-appb-000007
为X 1(ω)的共轭,Imag(.)表示取复数虚部,Real(.)表示取复数实部;
X 2(ω)到X′ 2(ω)的夹角Δθ=θ′-θ,则X′ 2(ω)=X 2(ω)·e jΔθ
可选地,对所述虚拟麦克风阵列的语音信号进行去噪处理,得到增强处理后的语音信号,包括:
将所述虚拟麦克风阵列的语音信号通过波束形成算法去除相干噪声,并通过后置滤波器去除非相干噪声,得到增强处理后的语音信号。
第二方面,本实施例提供一种语音增强装置,包括:
获取模块,用于获取固定麦克风阵列的语音信号;
虚拟模块,用于根据所述语音信号,构建虚拟麦克风阵列;
修正模块,用于根据所述虚拟麦克风阵列的修正因数,对所述固定麦克风阵列的语音信号进行相位修正,得到虚拟麦克风阵列的语音信号;
去噪模块,用于对所述虚拟麦克风阵列的语音信号进行去噪处理,得到增强处理后的语音信号。
可选地,所述获取模块,具体用于:
分别获取所述固定麦克风阵列中每个麦克风的语音信号,其中,所述固定麦克风阵列中所有麦克风的语音信号合成所述固定麦克风阵列的语音信号。
可选地,所述虚拟模块,具体用于:
将所述固定麦克风阵列中任意两个相邻的麦克风标记为:第一麦克风和第二麦克风;其中,第一麦克风的语音信号为X 1(ω),第二麦克风的语音信号为X 2(ω);ω表示语音信号的频率;
令X 1(ω)对应的第一麦克风的位置不变,虚拟移动X 2(ω)对应的第二麦克风的位置;
根据X 1(ω)和X 2(ω)的频率范围,计算得到第一麦克风和虚拟移动后的第二麦克风之间的虚拟距离D virtual
根据所述虚拟距离D virtual构建虚拟麦克风阵列。
可选地,根据X 1(ω)和X 2(ω)的频率范围,计算得到第一麦克风和虚拟移动后的第二麦克风之间的虚拟距离D virtual,包括:
确定所述X 1(ω)和X 2(ω)的频率位于低频区域[0,ω l]还是高频区域
Figure PCTCN2018096335-appb-000008
其中,ω l≤ω h,ω l为低频区域的频率上限值,ω h为高频区域的频率下限值,Fs为采样频率;
当所述X 1(ω)和X 2(ω)的频率位于低频区域[0,ω l]内,且ω l<ω h时,使得D virtual大于D ture;D virtual与D ture满足如下关系:
D virtual=Q·D ture
其中:
Figure PCTCN2018096335-appb-000009
式中,Q为虚拟麦克风阵列的修正因数,·表示乘法运算,λ ωl表示ω l对应的波长,λ ω表示X 1(ω)和X 2(ω)对应的波长;D ture表示第一麦克风和第二麦克风的实际距离;
当所述X 1(ω)和X 2(ω)的频率位于高频区域
Figure PCTCN2018096335-appb-000010
内,且ω l<ω h时,使得D virtual小于D ture;D virtual与D ture满足如下关系:
D virtual=Q·D ture
其中:
Figure PCTCN2018096335-appb-000011
式中,Q为虚拟麦克风阵列的修正因数,·表示乘法运算,λ ωh表示ω h对应的波长,λ ω表示X 1(ω)和X 2(ω)对应的波长;
当ω l=ω h时,令D virtual=C·λ ω
其中,C为常数,C<0.5;
Figure PCTCN2018096335-appb-000012
可选地,所述修正模块,具体用于:
假设第二麦克风虚拟移动后的语音信号为X′ 2(ω),令θ表示X 1(ω)到X 2(ω)之间的夹角,θ′表示X 1(ω)到X′ 2(ω)之间的夹角,根据D virtual=Q·D ture,得到θ′=Q·θ;
其中,
Figure PCTCN2018096335-appb-000013
式中:(·) *表示复数的共轭,
Figure PCTCN2018096335-appb-000014
为X 1(ω)的共轭,Imag(.)表示取复数虚部,Real(.)表示取复数实部;
X 2(ω)到X′ 2(ω)的夹角Δθ=θ′-θ,则X′ 2(ω)=X 2(ω)·e jΔθ
可选地,所述去噪模块,具体用于:
将所述虚拟麦克风阵列的语音信号通过波束形成算法去除相干噪声,并通过后置滤波器去除非相干噪声,得到增强处理后的语音信号。
第三方面,本发明实施例提供一种语音增强设备,包括:信号处理器和存储器;所述存储器中存储有算法程序,所述信号处理器用于调取所述存储器中的算法程序,执行如第一方面中任一项所述的语音增强方法。
第四方面,本发明实施例提供一种计算机可读存储介质,包括:程序指令,当其在计算机上运行时,使得计算机执行所述程序指令,以实现如第一方面中任一项所述的语音增强方法。
本发明提供的语音增强方法、装置、设备及存储介质,通过获取固定麦克风阵列的语音信号;根据所述语音信号,构建虚拟麦克风阵列;根据所述虚拟麦克风阵列的修正因数,对所述固定麦克风阵列的语音信号进行相位修正,得到虚拟麦克风阵列的语音信号;对所述虚拟麦克风阵列的语音信号进行去噪处理,得到增强处理后的语音信号。本发明可以虚拟出任何距离的麦克风,等效于有无限多个麦克风组成的麦克风阵列,对不同频率的噪声调整不同的虚拟麦克风距离,使语音增强算法在不同频率处衰减程度相同,从而实现不改变麦克风阵列的物理结构,就能使噪声在不同频段的衰减平坦,防止高频混叠,又能控制麦克风阵列的体积足够小,方便应用于便携设备。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图进行简单的介绍。显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为现有的小距离麦克风的噪声衰减曲线示意图;
图2为本发明实施例一提供的语音增强方法的原理示意图;
图3为应用本发明中的方法和现有技术的方法进行语音信号增强的噪声衰减曲线对比示意图;
图4为本发明实施例二提供的语音增强方法的流程图;
图5为针对低频语音信号的虚拟麦克风构建原理示意图;
图6为针对高频语音信号的虚拟麦克风构建原理示意图;
图7为针对低频语音信号的相位修正原理示意图;
图8为针对高频语音信号的相位修正原理示意图;
图9为本发明实施例三提供的语音增强装置的结构示意图;
图10为本发明实施例四提供的语音增强设备的结构示意图。
通过上述附图,已示出本公开明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围,而是通过参考特定实施例为本领域技术人员说明本公开提到的概念。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例,能够以除了在这里图示或描述的那些以 外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含。例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
下面以具体的实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
图1为现有的小距离麦克风的噪声衰减曲线示意图,如图1所示,带宽为0-8000Hz的噪声,在小于1000Hz频率的区间内,噪声衰减效果较差。当麦克风距离较大时,可能导致高频混叠,加大麦克风之间的距离能够提高低频区域噪声的衰减程度,但根据空间采样定理,麦克风之间的距离d小于最小波长λ min的一半,即
Figure PCTCN2018096335-appb-000015
而当
Figure PCTCN2018096335-appb-000016
时,可能导致高频混叠。
本发明提供一种方法,无需改变固定麦克风阵列的物理结构,而是将对固定麦克风阵列的信号处理算法抽象为:计算与所述固定麦克风阵列对应的虚拟麦克风阵列的输出信号。然后通过对虚拟麦克风阵列的输出信号进行去噪处理,得到增强处理后的语音信号。
具体地,在构建虚拟麦克风阵列时,虚拟麦克风阵列中不同麦克风之间的距离可以根据所述固定麦克风中各个麦克风所接收到的语音信号的频率进行调整。当确定虚拟麦克风阵列中所有麦克风之间的距离之后,即得到所述固定麦克风阵列对应的虚拟麦克风阵列。计算所述虚拟麦克风阵列的修正因数,通过所述修正因数对所述固定麦克风阵列的语音信号进行相位修正,即可得到所述虚拟麦克风阵列的输出信号。
图2为本发明实施例一提供的语音增强方法的原理示意图,如图2所示,X N(ω)表示固定麦克风阵列的语音信号,根据语音信号的当前频率ω的范围构建虚拟麦克风阵列,通过所述虚拟麦克风阵列关于固定麦克风阵列的修正因数对X N(ω)进行相位修正,得到相位修正后的信号;然后对所述相位修正后的信号通过波束形成算法去除相干噪声,然后通过后置滤波处理将通过波束形成算法去除相干噪声的信号做进一步地滤波处理,以去除非相干噪声,最终得到增强的语音信号Y(ω)。
图3为应用本发明中的方法和现有技术的方法进行语音信号增强的噪声衰减曲线对比示意图,如图3所示,现有技术的方法(固定距离的麦克 风阵列语音增强方法)在带宽为0-8000Hz范围内,不同频率的噪声的衰减程度不同,即在低频、中频、高频的衰减程度不同,语音增强处理后残留噪声频谱不平坦,会影响用户的听觉感受。而本发明中的方法可以使噪声在100Hz到8000KHz范围内衰减平坦。在实际应用中,由于人的语音频率位于100Hz范围内的能量很少,因此可以通过一个简单的高通滤波滤除小于100Hz的噪声。本发明方法通过虚拟出不同距离的麦克风阵列来显著提高噪声的衰减性能。因此,在设计上可以减小麦克风阵列的体积,使其应用于便携式设备。
下面以具体的实施例对本发明的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本发明的实施例进行描述。
图4为本发明实施例二提供的语音增强方法的流程图,如图4所示,本实施例中的方法可以包括:
S101、获取固定麦克风阵列的语音信号。
本实施例中,可以分别获取所述固定麦克风阵列中每个麦克风的语音信号,其中,所述固定麦克风阵列中所有麦克风的语音信号合成所述固定麦克风阵列的语音信号。本实施例的方法可以应用在不同的固定麦克风阵列中,对麦克风阵列的具体结构和形式,本实施例不予限定。
S102、根据所述语音信号,构建虚拟麦克风阵列。
本实施例中,固定麦克阵列中的任何一个麦克风的位置都可以依据其相邻的麦克风来确定,因此知道相邻麦克风之间的虚拟距离,即可构建与固定麦克风阵列对应的虚拟麦克风阵列。
在一种可选的实施方式中,将所述固定麦克风阵列中任意两个相邻的麦克风标记为:第一麦克风和第二麦克风;其中,第一麦克风的语音信号为X 1(ω),第二麦克风的语音信号为X 2(ω)。令X 1(ω)对应的第一麦克风的位置不变,虚拟移动X 2(ω)对应的第二麦克风的位置。根据X 1(ω)和X 2(ω)的频率范围,计算得到第一麦克风和虚拟移动后的第二麦克风之间的虚拟距离D virtual;最后根据所述虚拟距离D virtual构建虚拟麦克风阵列。
在一种可选的实施方式中,首先划分一个低频区域和高频区域,具体地,设置低频区域为[0,ω l],高频区域为
Figure PCTCN2018096335-appb-000017
其中,ω l≤ω h,ω l为 低频区域的频率上限值,ω h为高频区域的频率下限值,Fs为采样频率。需要说明的是,本实施例不限定ω l和ω h的具体取值,本领域技术人员可以根据实际应用情况对其进行调整。
第一种情况:所述X 1(ω)和X 2(ω)的频率位于低频区域[0,ω l]内,且ω l<ω h时,这时,需要增大相邻麦克风之间的虚拟距离,使得D virtual大于D ture;D virtual与D ture满足如下关系:
D virtual=Q·D ture
其中:
Figure PCTCN2018096335-appb-000018
式中,Q为虚拟麦克风阵列的修正因数,·表示乘法运算,λ ωl表示ω l对应的波长,λ ω表示X 1(ω)和X 2(ω)对应的波长。
图5为针对低频语音信号的虚拟麦克风构建原理示意图,如图5所示,所述X 1(ω)和X 2(ω)的频率位于低频区域[0,ω l]内,且ω l<ω h时,固定第一麦克风10的位置不变,虚拟移动第二麦克风20的位置,使得第一麦克风10和第二麦克风20的虚拟距离增大。这是因为,语音信号的频率较低时,其掺杂的噪声的频率也较低,此时噪声的波长较大,若固定麦克风阵列中的麦克风之间的距离较小(例如固定麦克风阵列中的麦克风之间的距离远小于噪声波长的一半),则会使得噪声衰减较弱。
第二种情况:所述X 1(ω)和X 2(ω)的频率位于高频区域
Figure PCTCN2018096335-appb-000019
内,且ω l<ω h时,这时,需要减小相邻麦克风之间的虚拟距离,使得D virtual小于D ture;D virtual与D ture满足如下关系:
D virtual=Q·D ture
其中:
Figure PCTCN2018096335-appb-000020
式中,Q为虚拟麦克风阵列的修正因数,·表示乘法运算,λ ωh表示ω h对应的波长,λ ω表示X 1(ω)和X 2(ω)对应的波长。
图6为针对高频语音信号的虚拟麦克风构建原理示意图,如图6所示,所述X 1(ω)和X 2(ω)的频率位于高频区域
Figure PCTCN2018096335-appb-000021
内,且ω l<ω h时,固定第一麦克风10的位置不变,虚拟移动第二麦克风20的位置,使得第一麦克风10和第二麦克风20的虚拟距离减小。这是因为,语音信号的频率较高时,其掺杂的噪声的频率也较高,此时噪声的波长较小,若固定麦克风阵列中的麦克风之间的距离较大(例如固定麦克风阵列中的麦克风之间的距离大于噪声波长的一半),则会造成语音信号的高频混叠。
第三种情况:当ω l=ω h时,即对语音信号的全频带范围内应用虚拟麦克风阵列,此时,令D virtual=C·λ ω
其中,C为常数,C<0.5;
Figure PCTCN2018096335-appb-000022
本实施例中,C为常数,其具体取值可以根据实际情况进行调整,本实施例不予限定。
S103、根据所述虚拟麦克风阵列的修正因数,对所述固定麦克风阵列的语音信号进行相位修正,得到虚拟麦克风阵列的语音信号。
本实施例中,可以根据步骤S102中计算的得到的虚拟麦克风阵列的修正因数Q对所述固定麦克风阵列的语音信号进行相位修正。
具体地,仍然以相邻的两个麦克风为例进行详细说明。假设第一麦克风的位置固定不变,第二麦克风虚拟移动后的语音信号为X′ 2(ω),令θ表示X 1(ω)到X 2(ω)之间的夹角,θ′表示X 1(ω)到X′ 2(ω)之间的夹角,根据D virtual=Q·D ture,得到θ′=Q·θ;
其中,
Figure PCTCN2018096335-appb-000023
式中:(·) *表示复数的共轭,
Figure PCTCN2018096335-appb-000024
为X 1(ω)的共轭,Imag(.)表示取复数虚部,Real(.)表示取复数实部。X 2(ω)到X′ 2(ω)的夹角Δθ=θ′-θ,则X′ 2(ω)=X 2(ω)·e jΔθ
图7为针对低频语音信号的相位修正原理示意图,如图7所示,当Q>1时,根据X 1(ω)和X 2(ω)可求出X 1(ω)到X 2(ω)之间的夹角θ
Figure PCTCN2018096335-appb-000025
X 1(ω)到X′ 2(ω)之间的夹角θ′=Q·θ
X 2(ω)到X′ 2(ω)的夹角Δθ=θ′-θ
最后,计算出虚拟麦克信号X′ 2(ω)=X 2(ω)·e jΔθ
当Q=1时,无需进行相位修正,X′ 2(ω)=X 2(ω)。
图8为针对高频语音信号的相位修正原理示意图,如图8所示,当Q∈[0,1]时,同样的,根据X 1(ω)和X 2(ω)可求出X 1(ω)到X 2(ω)之间的夹角θ
Figure PCTCN2018096335-appb-000026
X 1(ω)到X′ 2(ω)之间的夹角θ′=Q·θ
X 2(ω)到X′ 2(ω)的夹角Δθ=θ′-θ
最后,计算出虚拟麦克信号X′ 2(ω)=X 2(ω)·e jΔθ
需要说明的是,本实施例中以两个相邻麦克风为例进行详细说明,但是本实施例并不限定固定麦克风阵列的具体排列结构和麦克风数量,任何排列结构的麦克风阵列中必然存在相邻的麦克风,而相邻麦克风的虚拟距离设置,以及相位修正方式的原理和实现过程在本发明中已经详细论述,因此可以根据上述方法构建任何麦克风阵列的虚拟麦克风阵列,并得到对应虚拟麦克风阵列的语音信号。
S104、对所述虚拟麦克风阵列的语音信号进行去噪处理,得到增强处理后的语音信号。
在一种可选的实施方式中,可以将所述虚拟麦克风阵列的语音信号通过波束形成算法去除相干噪声,并通过后置滤波器去除非相干噪声,得到增强处理后的语音信号。
本实施例中,可以采用固定波束形成算法、广义旁瓣抵消器(generalized side-lobe canceller,GSC)算法、最小方差无失真响应(Minimum Variance Distortionless Response,MVDR)算法、线性约束最小方差(linearly constrained minimum variance,LCMV)算法等中的任一种来对虚拟麦克风阵列的语音信号进行去噪处理。本发明中波束形成算法的选取方式不作限制。波束形成算法主要作用是消除相干噪声。
针对述虚拟麦克风阵列的语音信号的非相干噪声,采用后置滤波方式进行滤除,具体地,在波束形成算法对语音信号处理之后,通过串联的后置滤波器消除非相干噪声。后置滤波的基本原理是:假设麦克风接收到的目标信号相同,接收到的噪声信号独立同分布,信号和噪声不相关,根据噪声特性,依据预设规则实时更新滤波器的权系数,对所接收到的语音信号进行滤波,从而达到语音增强的目的。本实施例中,波束形成后置滤波是以预设规则估计出维纳滤波器系数,然后在时域或频率对波束形成模块的输出进一步滤波,维纳滤波器系数估计常见方法包括基于互功率谱方法、基于先验信噪比后验信噪比方法、基于小波阈值方法等。本实施例对维纳滤波系数估计方法不作限制。
本实施例,通过获取固定麦克风阵列的语音信号;根据所述语音信号,构建虚拟麦克风阵列;根据所述虚拟麦克风阵列的修正因数,对所述固定麦克风阵列的语音信号进行相位修正,得到虚拟麦克风阵列的语音信号;对所述虚拟麦克风阵列的语音信号进行去噪处理,得到增强处理后的语音信号。本发明可以虚拟出任何距离的麦克风,等效于有无限多个麦克风组成的麦克风阵列,对不同频率的噪声调整不同的虚拟麦克风距离,使语音增强算法在不同频率处衰减程度相同,从而实现不改变麦克风阵列的物理结构,就能使噪声在不同频段的衰减平坦,防止高频混叠,又能控制麦克风阵列的体积足够小,方便应用于便携设备。
图9为本发明实施例三提供的语音增强装置的结构示意图,如图9所示,本实施例中的装置可以包括:
获取模块31,用于获取固定麦克风阵列的语音信号;
虚拟模块32,用于根据所述语音信号,构建虚拟麦克风阵列;
修正模块33,用于根据所述虚拟麦克风阵列的修正因数,对所述固定麦克风阵列的语音信号进行相位修正,得到虚拟麦克风阵列的语音信号;
去噪模块34,用于对所述虚拟麦克风阵列的语音信号进行去噪处理,得到增强处理后的语音信号。
可选地,所述获取模块31,具体用于:
分别获取所述固定麦克风阵列中每个麦克风的语音信号,其中,所述固定麦克风阵列中所有麦克风的语音信号合成所述固定麦克风阵列的语音信号。
可选地,所述虚拟模块32,具体用于:
将所述固定麦克风阵列中任意两个相邻的麦克风标记为:第一麦克风和第二麦克风;其中,第一麦克风的语音信号为X 1(ω),第二麦克风的语音信号为X 2(ω);
令X 1(ω)对应的第一麦克风的位置不变,虚拟移动X 2(ω)对应的第二麦克风的位置;
根据X 1(ω)和X 2(ω)的频率范围,计算得到第一麦克风和虚拟移动后的第二麦克风之间的虚拟距离D virtual
根据所述虚拟距离D virtual构建虚拟麦克风阵列。
可选地,根据X 1(ω)和X 2(ω)的频率范围,计算得到第一麦克风和虚拟 移动后的第二麦克风之间的虚拟距离D virtual,包括:
确定所述X 1(ω)和X 2(ω)的频率位于低频区域[0,ω l]还是高频区域
Figure PCTCN2018096335-appb-000027
其中,ω l≤ω h,ω l为低频区域的频率上限值,ω h为高频区域的频率下限值,Fs为采样频率;
当所述X 1(ω)和X 2(ω)的频率位于低频区域[0,ω l]内,且ω l<ω h时,使得D virtual大于D ture;D virtual与D ture满足如下关系:
D virtual=Q·D ture
其中:
Figure PCTCN2018096335-appb-000028
式中,Q为虚拟麦克风阵列的修正因数,·表示乘法运算,λ ωl表示ω l对应的波长,λ ω表示X 1(ω)和X 2(ω)对应的波长;
当所述X 1(ω)和X 2(ω)的频率位于高频区域
Figure PCTCN2018096335-appb-000029
内,且ω l<ω h时,使得D virtual小于D ture;D virtual与D ture满足如下关系:
D virtual=Q·D ture
其中:
Figure PCTCN2018096335-appb-000030
式中,Q为虚拟麦克风阵列的修正因数,·表示乘法运算,λ ωh表示ω h对应的波长,λ ω表示X 1(ω)和X 2(ω)对应的波长;
当ω l=ω h时,令D virtual=C·λ ω
其中,C为常数,C<0.5;
Figure PCTCN2018096335-appb-000031
可选地,所述修正模块33,具体用于:
假设第二麦克风虚拟移动后的语音信号为X′ 2(ω),令θ表示X 1(ω)到X 2(ω)之间的夹角,θ′表示X 1(ω)到X′ 2(ω)之间的夹角,根据D virtual=Q·D ture,得到θ′=Q·θ;
其中,
Figure PCTCN2018096335-appb-000032
式中:(·) *表示复数的共轭,
Figure PCTCN2018096335-appb-000033
为X 1(ω)的共轭,Imag(.)表示取复数虚部,Real(.)表示取复数实部;
X 2(ω)到X′ 2(ω)的夹角Δθ=θ′-θ,则X′ 2(ω)=X 2(ω)·e jΔθ
可选地,所述去噪模块34,具体用于:
将所述虚拟麦克风阵列的语音信号通过波束形成算法去除相干噪声,并通过后置滤波器去除非相干噪声,得到增强处理后的语音信号。
本实施例中的语音增强装置可以执行图2、图4所示的方法,其具体实现过程和技术原理参见图4所示方法中的相关描述,此处不再赘述。
图10为本发明实施例四提供的语音增强设备的结构示意图,如图10所示,本实施例中的语音增强设备40包括:
处理器41以及存储器42;其中:
存储器42,用于存储可执行指令,该存储器还可以是flash(闪存)。
处理器41,用于执行存储器存储的可执行指令,以实现上述实施例涉及的方法中的各个步骤。具体可以参见前面方法实施例中的相关描述。
可选地,存储器42既可以是独立的,也可以跟处理器41集成在一起。
当所述存储器42是独立于处理器41之外的器件时,所述语音增强设备40还可以包括:
总线43,用于连接所述存储器42和处理器41。
本实施例中的语音增强设备可以执行图2、图4所示的方法,其具体实现过程和技术原理参见图4所示方法中的相关描述,此处不再赘述。
此外,本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,当用户设备的至少一个处理器执行该计算机执行指令时,用户设备执行上述各种可能的方法。
其中,计算机可读介质包括计算机存储介质和通信介质,其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于应用专用集成电路(ASIC)中。另外,该应用专用集成电路可以位于用户设备中。当然,处理器和存储介质也可以作为分立组件存在于通信设备中。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:只读存储器(ROM)、随机存取存储器(RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本 公开的其它实施方案。本发明旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求书指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求书来限制。

Claims (14)

  1. 一种语音增强方法,其特征在于,包括:
    获取固定麦克风阵列的语音信号;
    根据所述语音信号,构建虚拟麦克风阵列;
    根据所述虚拟麦克风阵列的修正因数,对所述固定麦克风阵列的语音信号进行相位修正,得到虚拟麦克风阵列的语音信号;
    对所述虚拟麦克风阵列的语音信号进行去噪处理,得到增强处理后的语音信号。
  2. 根据权利要求1所述的方法,其特征在于,获取固定麦克风阵列的语音信号,包括:
    分别获取所述固定麦克风阵列中每个麦克风的语音信号,其中,所述固定麦克风阵列中所有麦克风的语音信号合成为所述固定麦克风阵列的语音信号。
  3. 根据权利要求1所述的方法,其特征在于,根据所述语音信号,构建虚拟麦克风阵列,包括:
    将所述固定麦克风阵列中任意两个相邻的麦克风标记为:第一麦克风和第二麦克风;其中,第一麦克风的语音信号为X 1(ω),第二麦克风的语音信号为X 2(ω),ω表示语音信号的频率;
    令X 1(ω)对应的第一麦克风的位置不变,虚拟移动X 2(ω)对应的第二麦克风的位置;
    根据X 1(ω)和X 2(ω)的频率范围,计算得到第一麦克风和虚拟移动后的第二麦克风之间的虚拟距离D virtual
    根据所述虚拟距离D virtual构建虚拟麦克风阵列。
  4. 根据权利要求3所述的方法,其特征在于,根据X 1(ω)和X 2(ω)的频率范围,计算得到第一麦克风和虚拟移动后的第二麦克风之间的虚拟距离D virtual,包括:
    确定所述X 1(ω)和X 2(ω)的频率位于低频区域[0,ω l]还是高频区域
    Figure PCTCN2018096335-appb-100001
    其中,ω l≤ω h,ω l为低频区域的频率上限值,ω h为高频区域的频率下限值,Fs为采样频率;
    当所述X 1(ω)和X 2(ω)的频率位于低频区域[0,ω l]内,且ω l<ω h时,使得D virtual大于D ture;D virtual与D ture满足如下关系:
    D virtual=Q·D ture
    其中:
    Figure PCTCN2018096335-appb-100002
    式中,Q为虚拟麦克风阵列的修正因数,·表示乘法运算,λ ωl表示ω l对应的波长,λ ω表示X 1(ω)和X 2(ω)对应的波长;D ture表示第一麦克风和第二麦克风的实际距离;
    当所述X 1(ω)和X 2(ω)的频率位于高频区域
    Figure PCTCN2018096335-appb-100003
    内,且ω l<ω h时,使得D virtual小于D ture;D virtual与D ture满足如下关系:
    D virtual=Q·D ture
    其中:
    Figure PCTCN2018096335-appb-100004
    式中,Q为虚拟麦克风阵列的修正因数,·表示乘法运算,λ ωh表示ω h对应的波长,λ ω表示X 1(ω)和X 2(ω)对应的波长;
    当ω l=ω h时,令D virtual=C·λ ω
    其中,C为常数,C<0.5;
    Figure PCTCN2018096335-appb-100005
  5. 根据权利要求4所述的方法,其特征在于,根据所述虚拟麦克风阵列的修正因数,对所述固定麦克风阵列的语音信号进行相位修正,得到虚拟麦克风阵列的语音信号,包括:
    假设第二麦克风虚拟移动后的语音信号为X′ 2(ω),令θ表示X 1(ω)到X 2(ω)之间的夹角,θ′表示X 1(ω)到X′ 2(ω)之间的夹角,根据D virtual=Q·D ture,得到θ′=Q·θ;
    其中,
    Figure PCTCN2018096335-appb-100006
    式中:(·) *表示复数的共轭,
    Figure PCTCN2018096335-appb-100007
    为X 1(ω)的共轭,Imag(.)表示取复数虚部,Real(.)表示取复数实部;
    X 2(ω)到X′ 2(ω)的夹角Δθ=θ′-θ,则X′ 2(ω)=X 2(ω)·e jΔθ
  6. 根据权利要求1-5中任一项所述的方法,其特征在于,对所述虚拟麦克风阵列的语音信号进行去噪处理,得到增强处理后的语音信号,包括:
    将所述虚拟麦克风阵列的语音信号通过波束形成算法去除相干噪声,并通过后置滤波器去除非相干噪声,得到增强处理后的语音信号。
  7. 一种语音增强装置,其特征在于,包括:
    获取模块,用于获取固定麦克风阵列的语音信号;
    虚拟模块,用于根据所述语音信号,构建虚拟麦克风阵列;
    修正模块,用于根据所述虚拟麦克风阵列的修正因数,对所述固定麦克风阵列的语音信号进行相位修正,得到虚拟麦克风阵列的语音信号;
    去噪模块,用于对所述虚拟麦克风阵列的语音信号进行去噪处理,得到增强处理后的语音信号。
  8. 根据权利要求7所述的装置,其特征在于,所述获取模块,具体用于:
    分别获取所述固定麦克风阵列中每个麦克风的语音信号,其中,所述固定麦克风阵列中所有麦克风的语音信号合成所述固定麦克风阵列的语音信号。
  9. 根据权利要求7所述的装置,其特征在于,所述虚拟模块,具体用于:
    将所述固定麦克风阵列中任意两个相邻的麦克风标记为:第一麦克风和第二麦克风;其中,第一麦克风的语音信号为X 1(ω),第二麦克风的语音信号为X 2(ω),ω表示语音信号的频率;
    令X 1(ω)对应的第一麦克风的位置不变,虚拟移动X 2(ω)对应的第二麦克风的位置;
    根据X 1(ω)和X 2(ω)的频率范围,计算得到第一麦克风和虚拟移动后的第二麦克风之间的虚拟距离D virtual
    根据所述虚拟距离D virtual构建虚拟麦克风阵列。
  10. 根据权利要求9所述的装置,其特征在于,根据X 1(ω)和X 2(ω)的频率范围,计算得到第一麦克风和虚拟移动后的第二麦克风之间的虚拟距离D virtual,包括:
    确定所述X 1(ω)和X 2(ω)的频率位于低频区域[0,ω l]还是高频区域
    Figure PCTCN2018096335-appb-100008
    其中,ω l≤ω h,ω l为低频区域的频率上限值,ω h为高频区域的频率下限值,Fs为采样频率;
    当所述X 1(ω)和X 2(ω)的频率位于低频区域[0,ω l]内,且ω l<ω h时,使得D virtual大于D ture;D virtual与D ture满足如下关系:
    D virtual=Q·D ture
    其中:
    Figure PCTCN2018096335-appb-100009
    式中,Q为虚拟麦克风阵列的修正因数,·表示乘法运算,λ ωl表示ω l对应的波长,λ ω表示X 1(ω)和X 2(ω)对应的波长;D ture表示第一麦克风和第二麦克风的实际距离;
    当所述X 1(ω)和X 2(ω)的频率位于高频区域
    Figure PCTCN2018096335-appb-100010
    内,且ω l<ω h时,使得D virtual小于D ture;D virtual与D ture满足如下关系:
    D virtual=Q·D ture
    其中:
    Figure PCTCN2018096335-appb-100011
    式中,Q为虚拟麦克风阵列的修正因数,·表示乘法运算,λ ωh表示ω h对应的波长,λ ω表示X 1(ω)和X 2(ω)对应的波长;
    当ω l=ω h时,令D virtual=C·λ ω
    其中,C为常数,C<0.5;
    Figure PCTCN2018096335-appb-100012
  11. 根据权利要求10所述的装置,其特征在于,所述修正模块,具体用于:
    假设第二麦克风虚拟移动后的语音信号为X′ 2(ω),令θ表示X 1(ω)到X 2(ω)之间的夹角,θ′表示X 1(ω)到X′ 2(ω)之间的夹角,根据D virtual=Q·D ture,得到θ′=Q·θ;
    其中,
    Figure PCTCN2018096335-appb-100013
    式中:(·) *表示复数的共轭,
    Figure PCTCN2018096335-appb-100014
    为X 1(ω)的共轭,Imag(.)表示取复数虚部,Real(.)表示取复数实部;
    X 2(ω)到X′ 2(ω)的夹角Δθ=θ′-θ,则X′ 2(ω)=X 2(ω)·e jΔθ
  12. 根据权利要求7-11中任一项所述的装置,其特征在于,所述去噪模块,具体用于:
    将所述虚拟麦克风阵列的语音信号通过波束形成算法去除相干噪声,并通过后置滤波器去除非相干噪声,得到增强处理后的语音信号。
  13. 一种语音增强设备,其特征在于,包括:信号处理器和存储器;所述存储器中存储有算法程序,所述信号处理器用于调取所述存储器中的算法程序,执行如权利要求1-6中任一项所述的语音增强方法。
  14. 一种计算机可读存储介质,其特征在于,包括:程序指令,当其在计算机上运行时,使得计算机执行所述程序指令,以实现如权利要求1-6 中任一项所述的语音增强方法。
PCT/CN2018/096335 2018-07-19 2018-07-19 语音增强方法、装置、设备及存储介质 WO2020014931A1 (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
PCT/CN2018/096335 WO2020014931A1 (zh) 2018-07-19 2018-07-19 语音增强方法、装置、设备及存储介质
CN201880001281.9A CN109074817B (zh) 2018-07-19 2018-07-19 语音增强方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2018/096335 WO2020014931A1 (zh) 2018-07-19 2018-07-19 语音增强方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
WO2020014931A1 true WO2020014931A1 (zh) 2020-01-23

Family

ID=64789345

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2018/096335 WO2020014931A1 (zh) 2018-07-19 2018-07-19 语音增强方法、装置、设备及存储介质

Country Status (2)

Country Link
CN (1) CN109074817B (zh)
WO (1) WO2020014931A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117454300B (zh) * 2023-12-21 2024-04-05 广东美的制冷设备有限公司 电机异音检测方法、装置、电子设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020176589A1 (en) * 2001-04-14 2002-11-28 Daimlerchrysler Ag Noise reduction method with self-controlling interference frequency
US20040204933A1 (en) * 2003-03-31 2004-10-14 Alcatel Virtual microphone array
CN101779476A (zh) * 2007-06-13 2010-07-14 爱利富卡姆公司 全向性双麦克风阵列
CN102074245A (zh) * 2011-01-05 2011-05-25 瑞声声学科技(深圳)有限公司 基于双麦克风语音增强装置及语音增强方法
CN102324237A (zh) * 2011-05-30 2012-01-18 深圳市华新微声学技术有限公司 麦克风阵列语音波束形成方法、语音信号处理装置及系统
CN105741849A (zh) * 2016-03-06 2016-07-06 北京工业大学 数字助听器中融合相位估计与人耳听觉特性的语音增强方法
CN107544055A (zh) * 2016-06-23 2018-01-05 意法半导体股份有限公司 基于麦克风阵列的波束形成方法以及对应的装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020176589A1 (en) * 2001-04-14 2002-11-28 Daimlerchrysler Ag Noise reduction method with self-controlling interference frequency
US20040204933A1 (en) * 2003-03-31 2004-10-14 Alcatel Virtual microphone array
CN101779476A (zh) * 2007-06-13 2010-07-14 爱利富卡姆公司 全向性双麦克风阵列
CN102074245A (zh) * 2011-01-05 2011-05-25 瑞声声学科技(深圳)有限公司 基于双麦克风语音增强装置及语音增强方法
CN102324237A (zh) * 2011-05-30 2012-01-18 深圳市华新微声学技术有限公司 麦克风阵列语音波束形成方法、语音信号处理装置及系统
CN105741849A (zh) * 2016-03-06 2016-07-06 北京工业大学 数字助听器中融合相位估计与人耳听觉特性的语音增强方法
CN107544055A (zh) * 2016-06-23 2018-01-05 意法半导体股份有限公司 基于麦克风阵列的波束形成方法以及对应的装置

Also Published As

Publication number Publication date
CN109074817B (zh) 2021-06-25
CN109074817A (zh) 2018-12-21

Similar Documents

Publication Publication Date Title
CN109767783B (zh) 语音增强方法、装置、设备及存储介质
US8971548B2 (en) Motor noise reduction circuit
US8238569B2 (en) Method, medium, and apparatus for extracting target sound from mixed sound
US8229129B2 (en) Method, medium, and apparatus for extracting target sound from mixed sound
CN109727604A (zh) 用于语音识别前端的频域回声消除方法及计算机储存介质
US20120082322A1 (en) Sound scene manipulation
US20140025374A1 (en) Speech enhancement to improve speech intelligibility and automatic speech recognition
WO2021179424A1 (zh) 结合ai模型的语音增强方法、系统、电子设备和介质
US20160219365A1 (en) Adaptive Beamforming for Eigenbeamforming Microphone Arrays
JP2013542677A (ja) マルチマイクロホンアレイ雑音除去方法、装置及びシステム
CN108172231A (zh) 一种基于卡尔曼滤波的去混响方法及系统
CN107369460B (zh) 基于声学矢量传感器空间锐化技术的语音增强装置及方法
JP6204312B2 (ja) 収音装置
WO2022256577A1 (en) A method of speech enhancement and a mobile computing device implementing the method
WO2020014931A1 (zh) 语音增强方法、装置、设备及存储介质
TW202322106A (zh) 抑制麥克風及電子裝置的風切聲的方法
CN112201273A (zh) 一种噪声功率谱密度计算方法、系统、设备及介质
CN110890099B (zh) 声音信号处理方法、装置以及存储介质
CN110708651B (zh) 一种基于分段陷波的助听器啸叫检测与抑制方法及装置
CN115061087B (zh) 信号处理方法、doa估计方法及电子设备
CN112802490B (zh) 一种基于传声器阵列的波束形成方法和装置
CN116106826A (zh) 声源定位方法、相关装置和介质
WO2018214296A1 (zh) 一种降低噪声的方法、装置、终端和计算机存储介质
CN113611319B (zh) 基于语音成分实现的风噪抑制方法、装置、设备及系统
CN114420153A (zh) 音质调整方法、装置、设备及存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18927029

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18927029

Country of ref document: EP

Kind code of ref document: A1