WO2018199367A1 - 스테레오 채널 잡음 제거 장치 및 방법 - Google Patents

스테레오 채널 잡음 제거 장치 및 방법 Download PDF

Info

Publication number
WO2018199367A1
WO2018199367A1 PCT/KR2017/004589 KR2017004589W WO2018199367A1 WO 2018199367 A1 WO2018199367 A1 WO 2018199367A1 KR 2017004589 W KR2017004589 W KR 2017004589W WO 2018199367 A1 WO2018199367 A1 WO 2018199367A1
Authority
WO
WIPO (PCT)
Prior art keywords
noise
audio signal
calculated
power
calculating
Prior art date
Application number
PCT/KR2017/004589
Other languages
English (en)
French (fr)
Inventor
정상배
홍정표
Original Assignee
경상대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 경상대학교 산학협력단 filed Critical 경상대학교 산학협력단
Publication of WO2018199367A1 publication Critical patent/WO2018199367A1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/002Damping circuit arrangements for transducers, e.g. motional feedback circuits
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2410/00Microphones
    • H04R2410/03Reduction of intrinsic noise in microphones

Definitions

  • the present disclosure relates to a stereo channel noise canceling apparatus and method, and more particularly to a stereo channel noise canceling apparatus and method for improving speech recognition performance and speech-based call quality.
  • the cross-spectral subtraction (CSS) method is a method of measuring the cross power spectral density of noise by an overestimation technique.
  • the cross spectral subtraction method has a characteristic that the filter gain has a value close to zero in the noise section and a value close to one in the speech section.
  • phase-error function (PEF) method has a small filter gain due to a large phase difference in a noise section and a small filter gain in a speech section, so that the filter gain is close to one. Has characteristics.
  • the target to non-target directional signal ratio with decision-directed (TNR-DD) method is a delay-and-sum beamforming (DSB) method.
  • DSB delay-and-sum beamforming
  • BM target speech blocking matrix
  • noise can be removed by the amount of the input signal multiplied by a gain. Since the conventional stereo channel noise cancellation method uses a qualitative concept, it is difficult to obtain an accurate gain when the noise level is medium. Therefore, the conventional stereo channel noise cancellation method has a problem that the noise removal efficiency is lowered when the noise level is moderate.
  • the present disclosure is to solve the above-described problems, an object of the present disclosure is to provide a stereo channel noise canceling apparatus and method that can improve the reliability of noise cancellation by using a new feature parameter for high-performance speech detection.
  • receiving an audio signal including noise and voice through two channels and reducing the average power of the channel-to-channel subtraction signal of the input audio signal.
  • Calculating the correlation calculating a correlation matrix between the channels of the input audio signal, and calculating a determinant; average power of the calculated inter-channel subtraction signal and power of the input audio signal based on the calculated determinant
  • the channel subtraction signal may be a signal from which a voice signal is cut off.
  • the calculating of the power of the input audio signal may use a parameter obtained by dividing the calculated determinant by the average power of the calculated inter-channel subtraction signal.
  • the SNR may be calculated by subtracting the minimum statistical estimation value from the audio signal power calculated using the parameter in the section including the voice signal and dividing by the noise power.
  • the filtering of the audio signal may use a Wiener filter.
  • the determining of the section including the voice signal and the noise section may be performed by dividing the input audio signal into a section of a predetermined time, and determining the noise section when the power of the audio signal of each section is smaller than a threshold. When the power of the audio signal in each section is greater than the threshold, it may be determined as a section including the voice signal.
  • the threshold value may be an average value of the voice signal during a preset time without noise.
  • the average power of the audio signal of the noise section is calculated as the noise power in the case of the noise section, and the noise power of the previous section is determined as the noise power in the section including the voice signal. It can be calculated as
  • a stereo microphone for receiving an audio signal including noise and voice, a processor for removing noise from the input audio signal, and the noise canceled audio signal And an output speaker, wherein the processor recursively calculates an average power of channel-to-channel subtraction signals of the input audio signal, calculates a correlation matrix between channels of the input audio signal, and calculates a determinant.
  • an apparatus and method for removing stereo channel noise may perform high performance voice detection using optimal parameters.
  • the stereo channel noise canceling apparatus and method can estimate the power of the precise target speech signal.
  • stereo channel noise canceling apparatus and method can be combined with high performance voice detection to produce a precise signal-to-noise ratio and effectively remove noise.
  • FIG. 1 is a block diagram of an apparatus for removing stereo channel noise according to an embodiment of the present disclosure.
  • FIG. 2 is a diagram illustrating a process of removing noise in a processor according to an embodiment of the present disclosure.
  • FIG. 3 is a flowchart of a stereo channel noise cancellation method according to an embodiment of the present disclosure.
  • FIG. 4 is a diagram illustrating a test environment according to an exemplary embodiment.
  • FIG. 5 is a diagram illustrating voice detection performance according to an embodiment of the present disclosure.
  • 6 and 7 are diagrams illustrating measurement results of noise reduction performance according to an exemplary embodiment of the present disclosure.
  • the terms "comprises” or “having” are intended to indicate that there is a feature, number, step, operation, component, part, or combination thereof described in the specification, and one or more other features. It is to be understood that the present invention does not exclude the possibility of the presence or the addition of numbers, steps, operations, components, components, or a combination thereof.
  • a component When a component is referred to as being “connected” or “connected” to another component, it may be directly connected to or connected to that other component, but it may be understood that other components may be present in between. Should be.
  • a component is said to be “directly connected” or “directly connected” to another component, it should be understood that there is no other component in between.
  • module or “unit” for the components used in the present specification performs at least one function or operation.
  • the module or unit may perform a function or an operation by hardware, software, or a combination of hardware and software.
  • a plurality of “modules” or a plurality of “parts” other than “modules” or “parts” to be executed in specific hardware or executed in at least one processor may be integrated into at least one module.
  • Singular expressions include plural expressions unless the context clearly indicates otherwise.
  • FIG. 1 is a block diagram of an apparatus for removing stereo channel noise according to an embodiment of the present disclosure.
  • the stereo channel noise canceling apparatus 100 includes a microphone 110, a processor 120, and a speaker 130.
  • the microphone 110 receives an audio signal including noise and voice.
  • the microphone 110 may be an adjacently arranged stereo microphone.
  • voice signals input through the stereo microphones do not have a difference between channels.
  • a sound source (a target voice) for inputting voice through a stereo microphone is located in front.
  • the processor 120 removes noise from the input audio signal.
  • the processor 120 recursively calculates an average power of the channel-to-channel subtraction signal of the input audio signal.
  • the channel subtraction signal may be a signal in which a voice signal is cut off.
  • the processor 120 calculates a determinant by calculating a correlation matrix between channels of the input audio signal.
  • the processor 120 determines a section including a voice signal and a noise section based on the calculated average power of the channel-to-channel subtraction signal and the calculated determinant.
  • the processor 120 calculates noise power of a section including the determined voice signal and a noise section, and calculates a minimum statistical estimation value of the calculated audio signal power.
  • the processor 120 calculates a Signal to Noise Ratio (SNR) based on the calculated power of the audio signal, the calculated minimum statistical estimation value, and the calculated noise power.
  • the processor 120 filters the audio signal based on the calculated SNR.
  • the processor 120 may be a general purpose processor, or may be a dedicated processor for speech processing such as a digital signal processor (DSP).
  • DSP digital signal processor
  • the speaker 130 outputs an audio signal from which noise is removed.
  • the stereo channel noise canceling device may include a smartphone, a tablet PC, a notebook computer, a desktop computer, a digital broadcasting terminal, a digital TV, a PDA, a navigation device, a wearable device, a kiosk, and the like including two microphones. .
  • FIG. 2 is a diagram illustrating a process of removing noise in a processor according to an embodiment of the present disclosure.
  • the stereo channel noise cancellation system may preliminarily apply optimal equalizing coefficients to the second channel (second microphone) to compensate for the gain and phase difference of the target voice between the stereo microphone inputs.
  • the stereo channel noise cancellation system uses a recursive mean, correlation matrix determinant of the input correlation matrix divided by the long-term average of the target spectral density power (PSD) (target blocked PSD).
  • PSD target spectral density power
  • the determinant is extracted and used for speech activity detection (SAD) and signal to noise ratio (SNR) estimation.
  • SAD speech activity detection
  • SNR signal to noise ratio
  • Audio signals including voice and noise, are input through each of the stereo microphones (dual microphones).
  • An audio signal including the input voice and noise in the time domain is as follows.
  • the audio signal Is the target voice signal, Means noise.
  • the audio signal input to each of the stereo microphones may be converted from the time domain to the frequency domain through Discrete Fourier Transform (DFT) processes 11a and 11b for each channel.
  • DFT Discrete Fourier Transform
  • the frequency domain is expressed in vector format as follows.
  • N is a frame sample index of an audio signal
  • k is a frequency index.
  • the stereo channel noise cancellation system performs a time-recursive averaging 12 process on the audio signal of each frequency-converted channel. In other words, the stereo channel noise cancellation system recursively calculates the average power of the channel-to-channel subtraction signal.
  • the channel subtraction signal may mean a target-blocked signal.
  • a regression factor for calculating the average power of the subtraction signal between channels And G (n-1, k) means Wiener filter gain at DFT frequency.
  • the stereo channel noise cancellation system estimates (13) the PSD matrix using the audio signal input to the channel and calculates the determinant (14).
  • the stereo channel noise cancellation system can recursively estimate the PSD matrix for the input spectral field.
  • the stereo channel noise cancellation system calculates the determinant of the PSD matrix estimated from the input spectral vector.
  • the long-term average of the target signal PSD, And The noise PSD in the first and second channels Denotes the cross PSD of the noise spectrum of the stereo microphone.
  • Equation (9) shows that subtracting the determinant of the stereo microphone noise input and noise correlation matrix is equal to the product of the long-term average of the target speech signal PSD and the target speech blocked PSD.
  • noise power can be calculated through precise detection of the noise section.
  • the stereo channel noise cancellation system uses voice parameters to perform voice detection 15.
  • Means noise interval Means a section including voice.
  • the presence or absence of a signal in the kth bin of the nth analysis frame may be determined as follows.
  • the threshold May be set to the average power of the noise-free speech signal for about 200 ms.
  • the noise power may be estimated 16 based on the detected speech section.
  • the noise power is recursively calculated using the noise of the previous noise section, and in the speech section, the noise power may be regarded as the same as the noise power of the previous noise section.
  • the stereo channel noise cancellation system may perform the process of least statistical estimation (17).
  • r ⁇ v (n, k) min ⁇ r v (n, k), r v (n-1, k), ..., r v (nN min , k) ⁇ --- (15)
  • the voice power value may be calculated.
  • the stereo channel noise cancellation system may perform an SNR estimation process 18 based on the calculated noise power, the calculated power of the audio signal, and the calculated minimum statistical estimate.
  • the SNR estimation 18 may be performed for the H 1 interval, which is a voice interval, and the SNR may be calculated by dividing the power of the target voice signal by the noise power.
  • Stereo channel noise reduction systems can use a Wiener filter to filter the audio signal.
  • Wiener filter to filter the audio signal.
  • the SNR which is a factor of the Wiener filter gain, is affected by the power of the audio signal.
  • the power of the audio signal of the present disclosure may be represented by a new parameter.
  • the stereo channel noise cancellation system of the present disclosure can perform an effective and reliable noise cancellation function.
  • FIG. 3 is a flowchart of a stereo channel noise cancellation method according to an embodiment of the present disclosure.
  • the stereo channel noise canceling device receives an audio signal including noise and voice through two channels (S310). Two channels represent a stereo microphone. An audio signal input through two channels may be converted into a signal of a frequency band from a time band through a DFT conversion process, respectively.
  • the stereo channel noise canceling apparatus recursively calculates an average power of channel-to-channel subtraction signals of the input audio signal (S320).
  • the channel subtraction signal may be a signal in which a voice signal is cut off.
  • a determinant is calculated by calculating a correlation matrix between channels of the input audio signal (S330).
  • the power of the input audio signal is calculated based on the calculated average power of the channel-to-channel subtraction signal and the calculated matrix (S340). That is, the stereo channel noise canceling device calculates a parameter obtained by dividing the calculated determinant by the average power of the calculated channel-to-channel subtraction signal as the power of the audio signal to remove the noise. Can be done.
  • the section including the voice signal and the noise section are determined based on the calculated power of the audio signal (S350).
  • the section including the voice signal may be referred to as a voice section.
  • the noise section refers to a section including only noise without a voice signal.
  • the stereo channel noise canceller divides the input audio signal into sections of a preset time period, and then determines that the audio signal of each section is a noise section when the power of the audio signal of the section is smaller than a threshold value. Judging by The threshold value may be an average value of the voice signal during a preset time without noise.
  • the noise power of the section including the determined voice signal and the noise section is calculated (S360).
  • the noise power of the noise section may be calculated recursively using the noise power of the previous section.
  • the noise power of the section including the voice signal, that is, the voice section may be regarded as the same as the noise power of the previous section.
  • the minimum statistical estimation value of the calculated audio signal power is calculated (S370).
  • the SNR is calculated based on the calculated power of the audio signal, the calculated minimum statistical estimation value, and the calculated noise power (S380).
  • the stereo channel noise removing apparatus may calculate the SNR by subtracting the minimum statistical estimation value from the audio signal power calculated using the parameter calculated in the section including the voice signal and dividing by the noise power.
  • the audio signal is filtered based on the calculated SNR (S390). Filtering can use Wiener filters.
  • the variable used for the gain of the Wiener filter may be an SNR calculated using the calculated parameter.
  • FIG. 4 is a diagram illustrating a test environment according to an exemplary embodiment.
  • a speaker 1 corresponding to a target sound source is illustrated.
  • 4 (b) a navigation including dual microphones 2 corresponding to stereo channels is illustrated.
  • the sound source output from the speaker 1 may correspond to the driver's voice signal.
  • the dual microphone 2 receives a sound source output from the speaker 1.
  • the navigation may remove noise from the input sound source through the above-described process.
  • the database conditions for the experiment are as follows.
  • the target voice is 30 IEEE sentences, and the noise is driving noise (80 ⁇ 100km / h), music, talk show.
  • the target voice and three kinds of noise were collected respectively.
  • SIR is a signal-to-interface noise ratio
  • SAR is a signal-to-ambient noise ratio.
  • Interface noise is music and talk shows, and ambient noise is driving noise. Through channel correction, there is no difference in the target voice between channels.
  • FIG. 5 is a diagram illustrating voice detection performance according to an embodiment of the present disclosure.
  • the solid line is a result of applying a threshold to the characteristic parameter ry (n, k) of the present disclosure
  • the dashed line is a target-to-nontarget directional signal ratio technique having a crystal directivity (Target-to-Nontarget Directional Signal).
  • Ratio With Decision-Directed is the result of applying a threshold to the statistical probability ratio for speech detection.
  • dashed dashed is a result of applying a threshold to the energy of the delay-and-sum beamforming result
  • dotted is a result of applying a threshold to the energy of the first channel.
  • the method described in the present disclosure exhibits better performance in speech detection than when the other methods are applied.
  • 6 and 7 are diagrams illustrating measurement results of noise reduction performance according to an exemplary embodiment of the present disclosure.
  • FIG. 6 (a) shows the overall SNR result for each DB
  • FIG. 6 (b) shows the Segmental SNR result for each DB.
  • PEF Phase-Error Function method
  • CSS Cross-Spectral Subtraction Method. Proposed means a method according to the present disclosure.
  • SNR means a signal-to-noise ratio, and as shown in Figs. 6 (a) and 6 (b), the method according to the present disclosure shows better results than other methods.
  • Figure 7 (a) shows the Log Spectral Distnace results for each DB
  • Figure 7 (b) shows the PESQ results for each DB.
  • Log Spectral Distnace means the difference between the speech signal without noise and the speech signal from which noise is removed according to signal processing. Therefore, the small Log Spectral Distnace means that the difference between the speech signal without noise and the speech signal from which the noise is removed according to signal processing is small.
  • PESQ Perceptual Evaluation of Speech Quality
  • FIGS. 7 (a) and 7 (b) the method according to the present disclosure shows better results than other methods.
  • the noise canceling method of the stereo channel noise canceling apparatus may be implemented as a program to provide a non-transitory computer readable medium in which the program is stored.
  • the non-transitory readable medium refers to a medium that stores data semi-permanently and is readable by a device, not a medium storing data for a short time such as a register, a cache, a memory, and the like.
  • a non-transitory readable medium such as a CD, a DVD, a hard disk, a Blu-ray disk, a USB, a memory card, a ROM, or the like.

Abstract

스테레오 채널 잡음 제거 장치 및 방법이 개시된다. 스테레오 채널 잡음 제거 방법은 두 개의 채널을 통해 잡음 및 음성을 포함하는 오디오 신호를 입력받는 단계, 입력된 오디오 신호의 채널간 차감 신호의 평균 전력을 제귀적으로 산출하는 단계, 입력된 오디오 신호의 채널간 상관 관계 행렬을 산출하여 행렬식을 산출하는 단계, 산출된 채널간 차감 신호의 평균 전력 및 산출된 행렬식에 기초하여 입력된 오디오 신호의 전력을 산출하는 단계, 산출된 오디오 신호의 전력에 기초하여 음성 신호를 포함하는 구간 및 잡음 구간을 판단하는 단계, 판단된 음성 신호를 포함하는 구간 및 잡음 구간의 잡음 전력을 산출하는 단계, 산출된 오디오 신호 전력의 최소통계추정값을 산출하는 단계, 산출된 오디오 신호의 전력, 산출된 최소통계추정값 및 산출된 잡음 전력에 기초하여 SNR을 산출하는 단계 및 산출된 SNR을 기초로 오디오 신호를 필터링하는 단계를 포함한다.

Description

스테레오 채널 잡음 제거 장치 및 방법
본 개시는 스테레오 채널 잡음 제거 장치 및 방법에 관한 것으로, 더욱 상세하게는 음성 인식 성능을 향상시키고 음성 기반 통화 품질을 향상시키는 스테레오 채널 잡음 제거 장치 및 방법에 관한 것이다.
스테레오 채널의 잡음 제거를 위한 다양한 방식이 적용되고 있다. 예를 들어, 상호 스펙트럼 차감법(Cross-spectral subtraction(CSS) method)은 잡음의 상호 전력 스펙트럼 밀도를 과대평가추정(overestimation) 기법으로 측정하는 방식이다. 상호 스펙트럼 차감법은 필터 이득이 잡음 구간에서 0에 가까운 값을 가지고, 음성 구간에서 1에 가까운 값을 가지는 특징을 가진다.
그리고, 위상 오차 함수 기법(Phase-error function(PEF) method)은 잡음 구간에서는 위상차가 크게 발생하여 필터 이득이 작은 값을 가지고, 음성 구간에서는 위상차가 작게 발생하여 필터 이득이 1에 근접한 값을 가지는 특징을 가진다.
또한, 결정 지향성을 갖는 목표 대 비목표 방향성 신호비 기법(Target to non-target directional signal ratio with decision-directed(TNR-DD) method)은 지연-합 빔포밍(delay-and-sum beamforming(DSB))과 목표음성 차단행렬(blocking matrix(BM)) 출력의 비가 잡음 구간에서 최소값을 가지고, 음성 구간에서의 값이 잡음 구간에서의 값보다 매우 크다는 특징을 가진다.
일반적으로 잡음은 입력 신호에 이득을 곱한 크기만큼 제거될 수 있다. 기존의 스테레오 채널 잡음 제거 방법은 정성적인 개념을 이용하기 때문에 잡음 정도가 중간 정도일 때 정확한 이득을 구하기 어려운 점이 존재한다. 따라서, 기존의 스테레오 채널 잡음 제거 방법은 잡음 정도가 중간 정도일 때 잡음 제거 효율이 떨어지는 문제가 있다.
본 개시는 상술한 문제점을 해결하기 위한 것으로, 본 개시의 목적은 고성능의 음성 검출을 위한 새로온 특징 파라미터를 이용하여 잡음 제거의 신뢰도를 높일 수 있는 스테레오 채널 잡음 제거 장치 및 방법을 제공하는 것이다.
이상과 같은 목적을 달성하기 위한 본 개시의 일 실시 예에 따르면, 두 개의 채널을 통해 잡음 및 음성을 포함하는 오디오 신호를 입력받는 단계, 상기 입력된 오디오 신호의 채널간 차감 신호의 평균 전력을 제귀적으로 산출하는 단계, 상기 입력된 오디오 신호의 채널간 상관 관계 행렬을 산출하여 행렬식을 산출하는 단계, 상기 산출된 채널간 차감 신호의 평균 전력 및 상기 산출된 행렬식에 기초하여 입력된 오디오 신호의 전력을 산출하는 단계, 상기 산출된 오디오 신호의 전력에 기초하여 음성 신호를 포함하는 구간 및 잡음 구간을 판단하는 단계, 상기 판단된 음성 신호를 포함하는 구간 및 잡음 구간의 잡음 전력을 산출하는 단계, 상기 산출된 오디오 신호 전력의 최소통계추정값을 산출하는 단계, 상기 산출된 오디오 신호의 전력, 상기 산출된 최소통계추정값 및 상기 산출된 잡음 전력에 기초하여 SNR을 산출하는 단계 및 상기 산출된 SNR을 기초로 상기 오디오 신호를 필터링하는 단계를 포함하는 스테레오 채널 잡음 제거 방법을 제공한다.
그리고, 상기 채널간 차감 신호는 음성 신호가 차단된 신호일 수 있다.
한편, 입력된 오디오 신호의 전력을 산출하는 단계는 상기 산출된 행렬식을 상기 산출된 채널간 차감 신호의 평균 전력으로 나눈 파라미터를 사용할 수 있다.
그리고, 상기 SNR을 산출하는 단계는 상기 음성 신호를 포함하는 구간에서 상기 파라미터를 사용하여 산출된 오디오 신호 전력에서 상기 최소통계추정값을 감산한 후 상기 잡음 전력으로 나누어 상기 SNR을 산출할 수 있다.
또한, 상기 오디오 신호를 필터링하는 단계는 Wiener 필터를 사용할 수 있다.
또한, 상기 음성 신호를 포함하는 구간 및 잡음 구간을 판단하는 단계는 상기 입력된 오디오 신호를 기 설정된 시간의 구간으로 나누고, 각 구간의 오디오 신호의 전력이 임계값보다 작은 경우 상기 잡음 구간으로 판단하고, 각 구간의 오디오 신호의 전력이 임계값보다 큰 경우 상기 음성 신호를 포함하는 구간으로 판단할 수 있다.
한편, 상기 임계값은 잡음이 없는 기 설정된 시간 동안의 음성 신호의 평균값일 수 있다.
그리고, 상기 잡음 전력을 산출하는 단계는 상기 잡음 구간의 경우 상기 잡음 구간의 오디오 신호의 평균 전력을 상기 잡음 전력으로 산출하고, 상기 음성 신호를 포함하는 구간의 경우 이전 구간의 잡음 전력을 상기 잡음 전력으로 산출할 수 있다.
이상과 같은 목적을 달성하기 위한 본 개시의 일 실시 예에 따르면, 잡음 및 음성을 포함하는 오디오 신호를 입력받는 스테레오 마이크, 입력된 오디오 신호 중 잡음을 제거하는 프로세서 및 상기 잡음이 제거된 오디오 신호를 출력하는 스피커를 포함하고, 상기 프로세서는 상기 입력된 오디오 신호의 채널간 차감 신호의 평균 전력을 제귀적으로 산출하고, 상기 입력된 오디오 신호의 채널간 상관 관계 행렬을 산출하여 행렬식을 산출하며, 상기 산출된 채널간 차감 신호의 평균 전력 및 상기 산출된 행렬식에 기초하여 입력된 오디오 신호의 전력을 산출하고, 상기 산출된 오디오 신호의 전력에 기초하여 음성 신호를 포함하는 구간 및 잡음 구간을 판단하며, 상기 판단된 음성 신호를 포함하는 구간 및 잡음 구간의 잡음 전력을 산출하고, 상기 산출된 오디오 신호 전력의 최소통계추정값을 산출하며, 상기 산출된 오디오 신호의 전력과 상기 산출된 최소통계추정값 및 상기 산출된 잡음 전력에 기초하여 SNR을 산출하고, 상기 산출된 SNR을 기초로 상기 오디오 신호를 필터링하는 스테레오 채널 잡음 제거 장치를 제공한다.
이상 설명한 바와 같이, 본 개시의 다양한 실시 예에 따르면, 스테레오 채널 잡음 제거 장치 및 방법은 최적의 파라미터를 이용하여 고성능의 음성 검출을 할 수 있다.
그리고, 스테레오 채널 잡음 제거 장치 및 방법은 정밀한 목표 음성 신호의 전력을 추정할 수 잇다.
또한, 스테레오 채널 잡음 제거 장치 및 방법은 고성능의 음성 검출과 결합하여 정밀한 신호대 잡음비를 산출할 수 있고, 효과적으로 잡음을 제거할 수 있다.
도 1은 본 개시의 일 실시 예에 따른 스테레오 채널 잡음 제거 장치의 블록도이다.
도 2는 본 개시의 일 실시 예에 따른 프로세서에서 잡음을 제거하는 과정을 설명하는 도면이다.
도 3은 본 개시의 일 실시 예에 따른 스테레오 채널 잡음 제거 방법의 흐름도이다.
도 4는 본 개시의 일 실시 예에 따른 테스트 환경을 설명하는 도면이다.
도 5는 본 개시의 일 실시 예에 따른 음성 검출 성능을 나타내는 도면이다.
도 6 및 도 7은 본 개시의 일 실시 예에 따른 잡음 제거 성능의 측정 결과를 나타내는 도면이다.
이하에서는 첨부된 도면을 참조하여 다양한 실시 예를 보다 상세하게 설명한다. 본 명세서에 기재된 실시 예는 다양하게 변형될 수 있다. 특정한 실시 예가 도면에서 묘사되고 상세한 설명에서 자세하게 설명될 수 있다. 그러나, 첨부된 도면에 개시된 특정한 실시 예는 다양한 실시 예를 쉽게 이해하도록 하기 위한 것일 뿐이다. 따라서, 첨부된 도면에 개시된 특정 실시 예에 의해 기술적 사상이 제한되는 것은 아니며, 발명의 사상 및 기술 범위에 포함되는 모든 균등물 또는 대체물을 포함하는 것으로 이해되어야 한다.
제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 이러한 구성요소들은 상술한 용어에 의해 한정되지는 않는다. 상술한 용어는 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.
본 명세서에서, "포함한다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다. 어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
한편, 본 명세서에서 사용되는 구성요소에 대한 "모듈" 또는 "부"는 적어도 하나의 기능 또는 동작을 수행한다. 그리고, "모듈" 또는 "부"는 하드웨어, 소프트웨어 또는 하드웨어와 소프트웨어의 조합에 의해 기능 또는 동작을 수행할 수 있다. 또한, 특정 하드웨어에서 수행되어야 하거나 적어도 하나의 프로세서에서 수행되는 "모듈" 또는 "부"를 제외한 복수의 "모듈들" 또는 복수의 "부들"은 적어도 하나의 모듈로 통합될 수도 있다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.
그 밖에도, 본 발명을 설명함에 있어서, 관련된 공지 기능 혹은 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우, 그에 대한 상세한 설명은 축약하거나 생략한다.
도 1은 본 개시의 일 실시 예에 따른 스테레오 채널 잡음 제거 장치의 블록도이다.
도 1을 참조하면, 스테레오 채널 잡음 제거 장치(100)는 마이크(110), 프로세서(120) 및 스피커(130)를 포함한다. 마이크(110)는 잡음 및 음성을 포함하는 오디오 신호를 입력받는다. 일 실시 예로서, 마이크(110)는 인접하게 배치된 스테레오 마이크일 수 있다. 본 개시에서 스테레오 마이크는 인접하게 배치되었기 때문에 스테레오 마이크 각각을 통해 입력된 음성 신호는 채널간 차이가 없다고 가정한다. 또한, 스테레오 마이크를 통해 음성을 입력하는 음원(목표 음성)은 정면에 위치한다고 가정한다.
프로세서(120)는 입력된 오디오 신호 중 잡음을 제거한다. 프로세서(120)는 입력된 오디오 신호의 채널간 차감 신호의 평균 전력을 제귀적으로 산출한다. 채널간 차감 신호는 음성 신호가 차단된 신호일 수 있다. 프로세서(120)는 입력된 오디오 신호의 채널간 상관 관계 행렬을 산출하여 행렬식을 산출한다. 프로세서(120)는 산출된 채널간 차감 신호의 평균 전력 및 산출된 행렬식에 기초하여 음성 신호를 포함하는 구간 및 잡음 구간을 판단한다.
그리고, 프로세서(120)는 판단된 음성 신호를 포함하는 구간 및 잡음 구간의 잡음 전력을 산출하고, 산출된 오디오 신호 전력의 최소통계추정값을 산출한다. 프로세서(120)는 산출된 오디오 신호의 전력, 산출된 최소통계추정값 및 산출된 잡음 전력에 기초하여 SNR(Signal to Noise Ratio)을 산출한다. 프로세서(120)는 산출된 SNR을 기초로 오디오 신호를 필터링한다. 예를 들어, 프로세서(120)는 범용 프로세서일 수 있고, DSP(Digital Signal Processor)와 같은 음성 처리 전용 프로세서일 수도 있다.
스피커(130)는 잡음이 제거된 오디오 신호를 출력한다.
예를 들어, 스테레오 채널 잡음 제거 장치는 두 개의 마이크를 포함하는 스마트 폰, 태블릿 PC, 노트북 컴퓨터, 데스크탑 컴퓨터, 디지털방송용 단말 장치, 디지털 TV, PDA, 네비게이션, 웨어러블 디바이스, 키오스크 등을 포함할 수 있다.
아래에서는 프로세서의 각 블록도를 중심으로 잡음 제거 과정을 구체적으로 설명한다.
도 2는 본 개시의 일 실시 예에 따른 프로세서에서 잡음을 제거하는 과정을 설명하는 도면이다.
도 2에는 SNR 평가(estimation)에 기초한 행렬식을 이용한 스테레오 채널 잡음 제거 시스템이 도시되어 있다. 스테레오 채널 잡음 제거 시스템은 예비적으로 제2 채널(제2 마이크)에 최적 등화 계수(optimal equalizing coefficients)를 적용하여 스테레오 마이크 입력 간의 목표 음성의 이득 및 위상차를 보상할 수도 있다. 스테레오 채널 잡음 제거 시스템은 재귀 평균, 상관 행렬의 행렬식 분석을 통해 목표 음성 차단 파워 스펙트럼 밀도(Power Spectral Density: PSD)(target blocked PSD)의 롱-텀(long-term) 평균으로 나눈 입력 상관 행렬의 행렬식을 추출하여 음성 구간 검출(Speech Activity Detection: SAD) 및 SNR(Signal to Noise Ratio) 추정에 사용한다. 마지막으로 추정된 SNR로 도출된 위너 필터(Wiener filter)를 적용하여 목표 음성을 획득한다.
음성 및 잡음을 포함하는 오디오 신호는 스테레오 마이크(듀얼 마이크) 각각을 통해 입력된다. 입력된 음성 및 잡음을 포함하는 오디오 신호를 시간 영역에서 나타내면 다음과 같다.
Figure PCTKR2017004589-appb-I000001
----- (1)
여기에서,
Figure PCTKR2017004589-appb-I000002
는 오디오 신호,
Figure PCTKR2017004589-appb-I000003
는 목표음성신호,
Figure PCTKR2017004589-appb-I000004
는 잡음을 의미한다.
스테레오 마이크 각각으로 입력된 오디오 신호는 각 채널별로 DFT(Discrete Fourier Transform)(11a, 11b) 과정을 통해 시간 영역에서 주파수 영역으로 변환될 수 있다. 주파수 영역으로 변환된 오디오 신호를 나타내면 다음과 같다.
Figure PCTKR2017004589-appb-I000005
----- (2)
주파수 영역을 벡터 형식으로 나타내면 다음과 같다.
Figure PCTKR2017004589-appb-I000006
----- (3)
여기에서 n은 오디오 신호의 프레임 표본 인덱스이고, k는 주파수 인덱스를 의미한다. 본 개시의 스테레오 채널 잡음 제거 방법은 목표 음성과 잡음은 통계적으로 독립적이고, 목표 음성은 정면에 위치하고 채널간 차이가 없다고 가정한다. 즉,
Figure PCTKR2017004589-appb-I000007
이라고 가정한다.
스테레오 채널 잡음 제거 시스템은 주파수 변환된 각 채널의 오디오 신호에 대해 제귀적 평균 계산(time-recursive averaging)(12) 과정을 수행한다. 즉, 스테레오 채널 잡음 제거 시스템은 채널간 차감 신호의 평균 전력을 제귀적으로 계산한다. 채널간 차감 신호는 목표 음성이 차단된 신호(target-blocked signal)를 의미할 수 있다.
제귀적 평균 계산을 하면
Figure PCTKR2017004589-appb-I000008
--- (4)
그리고, 채널간 차감 신호의 평균 전력 계산을 위한 제귀인자
Figure PCTKR2017004589-appb-I000009
이고, G(n-1, k)는 DFT 주파수에서의 Wiener 필터 이득을 의미한다.
여기에서,
Figure PCTKR2017004589-appb-I000010
인데, 목표 음원이 정면에 있다고 가정하면
Figure PCTKR2017004589-appb-I000011
가 0이 되므로,
Figure PCTKR2017004589-appb-I000012
이다.
또한, 스테레오 채널 잡음 제거 시스템은 채널로 입력된 오디오 신호를 이용하여 PSD 행렬을 추정(13)하고, 행렬식을 계산(14)한다.
스테레오 채널 잡음 제거 시스템은 입력 스펙트럼 터에 관한 PSD 행렬을 제귀적으로 추정할 수 있다.
Figure PCTKR2017004589-appb-I000013
--- (5)
여기에서,
Figure PCTKR2017004589-appb-I000014
로서, PSD 행렬 추정을 위한 제귀인자를 의미한다.
스테레오 채널 잡음 제거 시스템은 입력 스펙트럼 벡터로부터 추정한 PSD 행렬의 행렬식(determinant)을 계산한다.
추정된 입력 PSD 행렬이 다음과 같을 때,
Figure PCTKR2017004589-appb-I000015
Figure PCTKR2017004589-appb-I000016
--- (6)
행렬식을 계산하면,
Figure PCTKR2017004589-appb-I000017
--- (7)
행렬식을 수학적으로 분석하면,
Figure PCTKR2017004589-appb-I000018
=
Figure PCTKR2017004589-appb-I000019
=
Figure PCTKR2017004589-appb-I000020
--- (8)
여기서, 목표 음성과 잡음은 통계적으로 독립하다고 가정한다.
Figure PCTKR2017004589-appb-I000021
는 목표 신호 PSD의 롱-텀 평균,
Figure PCTKR2017004589-appb-I000022
Figure PCTKR2017004589-appb-I000023
는 제1 및 제2 채널에서 노이즈 PSD,
Figure PCTKR2017004589-appb-I000024
는 스테레오 마이크의 노이즈 스펙트럼의 교차 PSD를 의미한다.
행렬식을 구하면,
Figure PCTKR2017004589-appb-I000025
=
Figure PCTKR2017004589-appb-I000026
--- (9)
여기서
Figure PCTKR2017004589-appb-I000027
Figure PCTKR2017004589-appb-I000028
Figure PCTKR2017004589-appb-I000029
이고,
Figure PCTKR2017004589-appb-I000030
는 목표 음성이 차단된 롱-텀 평균이고,
Figure PCTKR2017004589-appb-I000031
는 잡음 상관 관계 행렬의 행렬식이다. 식 (9)는 스테레오 마이크 잡음 입력과 잡음 상관 관계 행렬의 행렬식을 뺀 것이 목표 음성 신호 PSD와 목표 음성이 차단된 PSD의 롱-텀 평균을 곱한 것과 동일하다는 것을 보여준다.
계산된 행렬식을 계산된 제귀적 평균으로 나누면 새로운 파라미터가 구해진다.
Figure PCTKR2017004589-appb-I000032
--- (10)
새로운 파라미터를 이용하면 잡음 구간의 정밀한 검출을 통해 잡음 전력이 산출될 수 있다.
스테레오 채널 잡음 제거 시스템은 파라미터를 이용하여 음성 검출(15)을 한다.
Figure PCTKR2017004589-appb-I000033
--- (11)
Figure PCTKR2017004589-appb-I000034
--- (12)
여기서,
Figure PCTKR2017004589-appb-I000035
는 잡음 구간을 의미하고,
Figure PCTKR2017004589-appb-I000036
은 음성을 포함하는 구간을 의미한다. 식 (10)을 이용하여
Figure PCTKR2017004589-appb-I000037
가 항상 단일 마이크 입력 PSD보다 작거나 같음을 알 수 있다.
식 (11), (12)에 기초하여 n번째 분석 프레임의 k번째 bin에서의 신호 유무는 다음과 같이 결정될 수 있다.
Figure PCTKR2017004589-appb-I000038
Figure PCTKR2017004589-appb-I000039
: 나머지
여기서,
Figure PCTKR2017004589-appb-I000040
는 DFT 주파수 k에서의
Figure PCTKR2017004589-appb-I000041
또는
Figure PCTKR2017004589-appb-I000042
의 판정을 위한 임계치를 의미한다.
Figure PCTKR2017004589-appb-I000043
이고,
Figure PCTKR2017004589-appb-I000044
는 초기 잡음 구간의 프레임 수를 의미하고, w는 1보다 큰 상수이다. 예를 들어, 임계치
Figure PCTKR2017004589-appb-I000045
는 약 200ms 동안 잡음이 없는 음성 신호의 전력 평균값으로 설정될 수 있다.
음성 구간을 검출한 뒤, 검출된 음성 구간에 기초하여 잡음 전력을 추정(16)할 수 있다.
잡음만이 존재하는 잡음 구간인
Figure PCTKR2017004589-appb-I000046
에서 잡음 전력은
Figure PCTKR2017004589-appb-I000047
--- (13)
으로 나타낼 수 있다. 여기서
Figure PCTKR2017004589-appb-I000048
는 잡음 전력의 제귀적 추정을 위한 제귀 인자를 의미한다.
그리고, 잡음과 음성이 함께 존재하는 음성 구간인
Figure PCTKR2017004589-appb-I000049
에서 잡음 전력은
Figure PCTKR2017004589-appb-I000050
--- (14)
으로 나타낼 수 있다. 즉, 잡음 구간에서는 이전 잡음 구간의 잡음을 이용하여 제귀적으로 잡음 전력이 산출되고, 음성 구간에서는 잡음 전력이 이전 잡음 구간의 잡음 전력과 동일한 것으로 간주될 수 있다.
한편, 음성 신호의 전력
Figure PCTKR2017004589-appb-I000051
를 구하기 위해, 오디오 신호의 전력은 모든 구간에서
Figure PCTKR2017004589-appb-I000052
의 낮은 궤적을 추적하여
Figure PCTKR2017004589-appb-I000053
를 추정할 수 있다. 즉, 스테레오 채널 잡음 제거 시스템은 최소통계추정(17) 과정을 수행할 수 있다.
r^v(n,k) = min{rv(n,k), rv(n-1, k), ..., rv(n-Nmin,k)} --- (15)
Figure PCTKR2017004589-appb-I000054
은 최소 통계 추정을 위한 윈도우의 길이를 나타낸다. 최소통계추정 과정에서
Figure PCTKR2017004589-appb-I000055
구간에서는 임의의 값을 산출하고,
Figure PCTKR2017004589-appb-I000056
구간에서는 음성 파워 값을 산출할 수 있다.
스테레오 채널 잡음 제거 시스템은 산출된 잡음 전력, 산출된 오디오 신호의 전력 및 산출된 최소통계추정값에 기초하여 SNR 추정(18) 과정을 수행할 수 있다. SNR 추정(18) 과정은 음성 구간인 H1 구간에 대해 수행될 수 있고, SNR은 목표 음성 신호의 전력을 잡음 전력으로 나누어 산출될 수 있다.
SNR(n,k) = φx(n,k)/φv(n,k) = (ry(n,k) - r^v(n,k))/φv(n,k) --- (16)
스테레오 채널 잡음 제거 시스템은 Wiener 필터를 이용하여 오디오 신호를 필터링할 수 있다. 필터링의 이득은
Figure PCTKR2017004589-appb-I000057
--- (17)
과 같이 나타낼 수 있다. Wiener 필터 이득의 인자인 SNR은 오디오 신호의 전력에 영향을 받는데 상술한 바와 같이, 본 개시의 오디오 신호의 전력은 새로운 파라미터로 표시될 수 있다. 따라서, 본 개시의 스테레오 채널 잡음 제거 시스템은 효과적이고 확실한 잡음 제거 기능을 수행할 수 있다.
도 3은 본 개시의 일 실시 예에 따른 스테레오 채널 잡음 제거 방법의 흐름도이다.
스테레오 채널 잡음 제거 장치는 두 개의 채널을 통해 잡음 및 음성을 포함하는 오디오 신호를 입력받는다(S310). 두 개의 채널은 스테레오 마이크를 의미한다. 두 개의 채널을 통해 입력된 오디오 신호는 각각 DFT 변환 과정을 통해 시간 대역에서 주파수 대역의 신호로 변환될 수 있다.
스테레오 채널 잡음 제거 장치는 입력된 오디오 신호의 채널간 차감 신호의 평균 전력을 제귀적으로 산출한다(S320). 채널간 차감 신호는 음성 신호가 차단된 신호일 수 있다.
입력된 오디오 신호의 채널간 상관 관계 행렬을 산출하여 행렬식을 산출한다(S330). 산출된 채널간 차감 신호의 평균 전력 및 산출된 행렬식에 기초하여 입력된 오디오 신호의 전력을 산출한다(S340). 즉, 스테레오 채널 잡음 제거 장치는 산출된 행렬식을 산출된 채널간 차감 신호의 평균 전력으로 나눈 파라미터를 오디오 신호의 전력으로 산출하여 잡음 제거에 이용함으로써 기존 스테레오 채널 잡음 제거 장치에 비해 잡음 제거를 효율적으로 수행할 수 있다.
산출된 오디오 신호의 전력에 기초하여 음성 신호를 포함하는 구간 및 잡음 구간을 판단한다(S350). 음성 신호를 포함하는 구간은 음성 구간이라고 할 수 있다. 그리고, 잡음 구간은 음성 신호 없이 잡음만이 포함된 구간을 의미한다. 스테레오 채널 잡음 제거 장치는 입력된 오디오 신호를 기 설정된 시간의 구간으로 나눈 후, 각 구간의 오디오 신호의 전력이 임계값보다 작은 경우 잡음 구간으로 판단하고, 임계값보다 큰 경우 음성 신호를 포함하는 구간으로 판단할 수 있다. 그리고, 임계값은 잡음이 없는 기 설정된 시간 동안의 음성 신호의 평균값일 수 있다.
판단된 음성 신호를 포함하는 구간 및 잡음 구간의 잡음 전력을 산출한다(S360). 잡음 구간의 잡음 전력은 이전 구간의 잡음 전력을 이용하여 제귀적으로 산출될 수 있다. 그리고, 음성 신호를 포함하는 구간, 즉, 음성 구간의 잡음 전력은 이전 구간의 잡음 전력과 동일한 것으로 간주할 수 있다.
산출된 오디오 신호 전력의 최소통계추정값을 산출한다(S370). 산출된 오디오 신호의 전력, 산출된 최소통계추정값 및 산출된 잡음 전력에 기초하여 SNR을 산출한다(S380). 스테레오 채널 잡음 제거 장치는 음성 신호를 포함하는 구간에서 산출된 파라미터를 사용하여 산출된 오디오 신호 전력에서 최소통계추정값을 감산한 후 잡음 전력으로 나누어 SNR을 산출할 수 있다.
산출된 SNR을 기초로 오디오 신호를 필터링한다(S390). 필터링은 Wiener 필터를 사용할 수 있다. 그리고, Wiener 필터의 이득에 사용하는 변수는 산출된 파라미터를 이용하여 산출된 SNR일 수 있다.
지금까지 스테레오 채널 잡음 제거 방법의 흐름도를 설명하였다. 아래에서는 본 개시의 스테레오 채널 잡음 제거 방법으로 테스트를 수행한 결과를 설명한다.
도 4는 본 개시의 일 실시 예에 따른 테스트 환경을 설명하는 도면이다.
도 4(a)를 참조하면, 목표 음원에 해당하는 스피커(1)가 도시되어 있다. 그리고, 도 4(b)를 참조하면, 스테레오 채널에 해당하는 듀얼 마이크(2)를 포함하는 네비게이션이 도시되어 있다.
스피커(1)에서 출력되는 음원은 운전자의 음성 신호에 대응될 수 있다. 듀얼 마이크(2)는 스피커(1)에서 출력되는 음원을 입력받는다. 그리고, 네비게이션은 입력된 음원으로부터 상술한 과정을 통해 잡음을 제거할 수 있다.
실험을 위한 데이터베이스 조건은 아래와 같다.
조 건
Case 1 SIR (음악): 5 dB, SAR: 5dB
Case 2 SIR (음악): 5 dB, SAR: 15dB
Case 3 SIR (음악): 15 dB, SAR: 5dB
Case 4 SIR (음악): 15 dB, SAR: 15dB
Case 5 SIR (토크쇼): 5 dB, SAR: 5dB
Case 6 SIR (토크쇼): 5 dB, SAR: 15dB
Case 7 SIR (토크쇼): 15 dB, SAR: 5dB
Case 8 SIR (토크쇼): 15 dB, SAR: 15dB
목표 음성은 IEEE sentence 30개이고, 잡음은 주행잡음(80~100km/h), 음악, 토크쇼이다. 목표 음성, 3 종류의 잡음은 각각 수집되었다. 그리고, SIR은 Signal-to-interface noise ratio이고, SAR은 Signal-to-ambient noise ratio이다. interface noise는 음악, 토크쇼이고, ambient noise는 주행잡음이다. 채널 보정을 통해 채널간 목표 음성은 차이가 없다.
도 5는 본 개시의 일 실시 예에 따른 음성 검출 성능을 나타내는 도면이다.
도 5(a)는 상술한 Case 1 ~ Case 4 DB에 대한 테스트 결과이고, 도 5(b)는 Case 5 ~ Case 8 DB에 대한 테스트 결과이다. True acceptance rate은 음성 신호를 음성 신호로 판단하는 확률을 의미하고, False acceptance rate은 잡음 신호를 음성 신호로 판단하는 확률을 의미한다.
그리고, 실선은 본 개시의 특징 파라미터(ry(n, k))에 임계치를 적용한 결과이고, 대쉬선(dashed)은 결정 지향성을 갖는 목표 대 비목표 방향성 신호비 기법 (Target-to-Nontarget Directional Signal Ratio With Decision-Directed: TNR-DD)에서 음성 검출을 위한 통계적 확률비에 임계치를 적용한 결과이다. 또한, 대쉬-점선(dotted dashed)은 지연-합(delay-and-sum) 빔포밍 결과의 에너지에 임계치를 적용한 결과이고, 점선(dotted)은 제1 채널의 에너지에 임계치를 적용한 결과이다.
도 5(a) 및 도 5(b)에 도시된 바와 같이, 본 개시에서 설명한 방식이 다른 방식을 적용한 경우보다 음성 검출에 있어서 더 좋은 성능을 나타낸다.
도 6 및 도 7은 본 개시의 일 실시 예에 따른 잡음 제거 성능의 측정 결과를 나타내는 도면이다.
도 6(a)에는 각 DB에 대한 Overall SNR 결과가 도시되어 있고, 도 6(b)에는 각 DB에 대한 Segmental SNR 결과가 도시되어 있다. 그리고, PEF는 위상오차함수 기법(Phase-Error Function method)을 의미하고, CSS는 상호스펙트럼 차감법(Cross-Spectral Subtraction method)을 의미한다. Proposed는 본 개시에 의한 방법을 의미한다. SNR은 신호 대 잡음비를 의미하며, 도 6(a) 및 도 6(b)에 도시된 바와 같이, 본 개시에 따른 방법이 다른 방법에 비해 좋은 결과를 보여준다.
도 7(a)에는 각 DB에 대한 Log Spectral Distnace 결과가 도시되어 있고, 도 7(b)에는 각 DB에 대한 PESQ 결과가 도시되어 있다.
Log Spectral Distnace는 잡음이 포함되지 않은 음성 신호와 신호 처리에 따라 잡음을 제거한 음성 신호 간의 차이를 의미한다. 따라서, Log Spectral Distnace가 작다는 것은 잡음이 포함되지 않은 음성 신호와 신호 처리에 따라 잡음을 제거한 음성 신호 간의 차이가 작다는 것을 의미한다.
그리고, PESQ(Perceptual Evaluation of Speech Quality)는 정성적인 음성 품질 측정 방식이다. 따라서, 높은 값을 가지는 케이스가 음성 품질이 좋다는 것을 의미한다. 따라서, 도 7(a) 및 도 7(b)에 도시된 바와 같이, 본 개시에 따른 방법이 다른 방법에 비해 좋은 결과를 보여준다.
상술한 다양한 실시 예에 따른 스테레오 채널 잡음 제거 장치의 잡음 제거 방법은 프로그램으로 구현되어 프로그램이 저장된 비일시적 판독 가능 매체(non-transitory computer readable medium)가 제공될 수 있다.
비일시적 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상술한 다양한 어플리케이션 또는 프로그램들은 CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등과 같은 비일시적 판독 가능 매체에 저장되어 제공될 수 있다.
또한, 이상에서는 본 발명의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.

Claims (9)

  1. 두 개의 채널을 통해 잡음 및 음성을 포함하는 오디오 신호를 입력받는 단계;
    상기 입력된 오디오 신호의 채널간 차감 신호의 평균 전력을 제귀적으로 산출하는 단계;
    상기 입력된 오디오 신호의 채널간 상관 관계 행렬을 산출하여 행렬식을 산출하는 단계;
    상기 산출된 채널간 차감 신호의 평균 전력 및 상기 산출된 행렬식에 기초하여 입력된 오디오 신호의 전력을 산출하는 단계;
    상기 산출된 오디오 신호의 전력에 기초하여 음성 신호를 포함하는 구간 및 잡음 구간을 판단하는 단계;
    상기 판단된 음성 신호를 포함하는 구간 및 잡음 구간의 잡음 전력을 산출하는 단계;
    상기 산출된 오디오 신호 전력의 최소통계추정값을 산출하는 단계;
    상기 산출된 오디오 신호의 전력, 상기 산출된 최소통계추정값 및 상기 산출된 잡음 전력에 기초하여 SNR을 산출하는 단계; 및
    상기 산출된 SNR을 기초로 상기 오디오 신호를 필터링하는 단계;를 포함하는 스테레오 채널 잡음 제거 방법.
  2. 제1항에 있어서,
    상기 채널간 차감 신호는 음성 신호가 차단된 신호인 스테레오 채널 잡음 제거 방법.
  3. 제1항에 있어서,
    입력된 오디오 신호의 전력을 산출하는 단계는,
    상기 산출된 행렬식을 상기 산출된 채널간 차감 신호의 평균 전력으로 나눈 파라미터를 사용하는 스테레오 채널 잡음 제거 방법.
  4. 제3항에 있어서,
    상기 SNR을 산출하는 단계는,
    상기 음성 신호를 포함하는 구간에서 상기 파라미터를 사용하여 산출된 오디오 신호 전력에서 상기 최소통계추정값을 감산한 후 상기 잡음 전력으로 나누어 상기 SNR을 산출하는 스테레오 채널 잡음 제거 방법.
  5. 제4항에 있어서,
    상기 오디오 신호를 필터링하는 단계는,
    Wiener 필터를 사용하는 스테레오 채널 잡음 제거 방법.
  6. 제1항에 있어서,
    상기 음성 신호를 포함하는 구간 및 잡음 구간을 판단하는 단계는,
    상기 입력된 오디오 신호를 기 설정된 시간의 구간으로 나누고, 각 구간의 오디오 신호의 전력이 임계값보다 작은 경우 상기 잡음 구간으로 판단하고, 각 구간의 오디오 신호의 전력이 임계값보다 큰 경우 상기 음성 신호를 포함하는 구간으로 판단하는 스테레오 채널 잡음 제거 방법.
  7. 제6항에 있어서,
    상기 임계값은 잡음이 없는 기 설정된 시간 동안의 음성 신호의 평균값인 스테레오 채널 잡음 제거 방법.
  8. 제1항에 있어서,
    상기 잡음 전력을 산출하는 단계는,
    상기 잡음 구간의 경우 상기 잡음 구간의 오디오 신호의 평균 전력을 상기 잡음 전력으로 산출하고, 상기 음성 신호를 포함하는 구간의 경우 이전 구간의 잡음 전력을 상기 잡음 전력으로 산출하는 스테레오 채널 잡음 제거 방법.
  9. 잡음 및 음성을 포함하는 오디오 신호를 입력받는 스테레오 마이크;
    입력된 오디오 신호 중 잡음을 제거하는 프로세서; 및
    상기 잡음이 제거된 오디오 신호를 출력하는 스피커;를 포함하고,
    상기 프로세서는,
    상기 입력된 오디오 신호의 채널간 차감 신호의 평균 전력을 제귀적으로 산출하고, 상기 입력된 오디오 신호의 채널간 상관 관계 행렬을 산출하여 행렬식을 산출하며, 상기 산출된 채널간 차감 신호의 평균 전력 및 상기 산출된 행렬식에 기초하여 입력된 오디오 신호의 전력을 산출하고, 상기 산출된 오디오 신호의 전력에 기초하여 음성 신호를 포함하는 구간 및 잡음 구간을 판단하며, 상기 판단된 음성 신호를 포함하는 구간 및 잡음 구간의 잡음 전력을 산출하고, 상기 산출된 오디오 신호 전력의 최소통계추정값을 산출하며, 상기 산출된 오디오 신호의 전력과 상기 산출된 최소통계추정값 및 상기 산출된 잡음 전력에 기초하여 SNR을 산출하고, 상기 산출된 SNR을 기초로 상기 오디오 신호를 필터링하는 스테레오 채널 잡음 제거 장치.
PCT/KR2017/004589 2017-04-27 2017-04-28 스테레오 채널 잡음 제거 장치 및 방법 WO2018199367A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020170054466A KR101811635B1 (ko) 2017-04-27 2017-04-27 스테레오 채널 잡음 제거 장치 및 방법
KR10-2017-0054466 2017-04-27

Publications (1)

Publication Number Publication Date
WO2018199367A1 true WO2018199367A1 (ko) 2018-11-01

Family

ID=61094028

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2017/004589 WO2018199367A1 (ko) 2017-04-27 2017-04-28 스테레오 채널 잡음 제거 장치 및 방법

Country Status (2)

Country Link
KR (1) KR101811635B1 (ko)
WO (1) WO2018199367A1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102478393B1 (ko) * 2018-02-12 2022-12-19 삼성전자주식회사 노이즈가 정제된 음성 신호를 획득하는 방법 및 이를 수행하는 전자 장치
KR20210101670A (ko) * 2020-02-10 2021-08-19 삼성전자주식회사 음질 개선 방법 및 이를 이용한 전자 장치

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080073936A (ko) * 2007-02-07 2008-08-12 삼성전자주식회사 실제 잡음 환경의 특성을 반영한 빔포밍 장치 및 방법
KR20090056597A (ko) * 2007-11-30 2009-06-03 삼성전자주식회사 마이크로폰 어레이를 통해 획득한 음원 신호를 보정하는방법 및 장치
KR20110021419A (ko) * 2009-08-26 2011-03-04 삼성전자주식회사 복소 스펙트럼 잡음 제거 장치 및 방법
KR20110109333A (ko) * 2010-03-31 2011-10-06 경상대학교산학협력단 잡음 제거 장치 및 잡음 제거 방법
KR20150078831A (ko) * 2013-12-31 2015-07-08 서울대학교산학협력단 비음수 행렬 인수분해 및 기저 행렬 업데이트를 이용한 음향 개선 방법 및 시스템

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8175291B2 (en) 2007-12-19 2012-05-08 Qualcomm Incorporated Systems, methods, and apparatus for multi-microphone based speech enhancement
MX363414B (es) 2014-12-12 2019-03-22 Huawei Tech Co Ltd Aparato de procesamiento de señal para mejorar un componente de voz dentro de una señal de audio multi-canal.

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080073936A (ko) * 2007-02-07 2008-08-12 삼성전자주식회사 실제 잡음 환경의 특성을 반영한 빔포밍 장치 및 방법
KR20090056597A (ko) * 2007-11-30 2009-06-03 삼성전자주식회사 마이크로폰 어레이를 통해 획득한 음원 신호를 보정하는방법 및 장치
KR20110021419A (ko) * 2009-08-26 2011-03-04 삼성전자주식회사 복소 스펙트럼 잡음 제거 장치 및 방법
KR20110109333A (ko) * 2010-03-31 2011-10-06 경상대학교산학협력단 잡음 제거 장치 및 잡음 제거 방법
KR20150078831A (ko) * 2013-12-31 2015-07-08 서울대학교산학협력단 비음수 행렬 인수분해 및 기저 행렬 업데이트를 이용한 음향 개선 방법 및 시스템

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
HONG, HMGPYO ET AL.: "Dual-Microphone Noise Reduction in Car Environments With Determinant Analysis of Input Correlation Matrix", IEEE SENSORS JOURNAL, vol. 16, no. 9, 1 May 2016 (2016-05-01), pages 3131 - 3140, XP011603367 *

Also Published As

Publication number Publication date
KR101811635B1 (ko) 2018-01-25

Similar Documents

Publication Publication Date Title
WO2018190547A1 (ko) 심화신경망 기반의 잡음 및 에코의 통합 제거 방법 및 장치
WO2018111038A1 (ko) 심화 신경망을 이용한 다채널 마이크 기반의 잔향시간 추정 방법 및 장치
WO2017144007A1 (zh) 一种基于经验模态分解的音频识别方法及系统
WO2018008885A1 (ko) 영상처리장치, 영상처리장치의 구동방법 및 컴퓨터 판독가능 기록매체
KR101597752B1 (ko) 잡음 추정 장치 및 방법과, 이를 이용한 잡음 감소 장치
CN106875938B (zh) 一种改进的非线性自适应语音端点检测方法
CN107170465B (zh) 一种音频质量检测方法及音频质量检测系统
JP2019191558A (ja) 音声を増幅する方法及び装置
US20120123772A1 (en) System and Method for Multi-Channel Noise Suppression Based on Closed-Form Solutions and Estimation of Time-Varying Complex Statistics
EP3172906A1 (en) Method and apparatus for wind noise detection
EP3166239A1 (en) Method and system for scoring human sound voice quality
WO2016056683A1 (ko) 전자 장치 및 이의 잔향 제거 방법
WO2009145449A2 (ko) 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터 판독 가능한 기록매체
WO2018199367A1 (ko) 스테레오 채널 잡음 제거 장치 및 방법
WO2018217059A1 (en) Method and electronic device for managing loudness of audio signal
WO2019156339A1 (ko) 오디오 신호의 주파수의 변화에 따른 위상 변화율에 기반하여 노이즈가 감쇠된 오디오 신호를 생성하는 장치 및 방법
EP2710591B1 (en) Reducing noise pumping due to noise suppression and echo control interaction
WO2021251627A1 (ko) 다채널 음향 신호를 이용한 심화 신경망 기반의 잔향 제거, 빔포밍 및 음향 인지 모델의 결합 학습 방법 및 장치
KR100917460B1 (ko) 잡음제거 장치 및 방법
CN112802490B (zh) 一种基于传声器阵列的波束形成方法和装置
WO2010092914A1 (ja) 多チャンネル音響信号処理方法、そのシステム及びプログラム
WO2009123412A1 (ko) 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터 판독 가능한 기록매체
WO2016053019A1 (ko) 잡음이 포함된 오디오 신호를 처리하는 방법 및 장치
EP3991452A1 (en) Personalized headphone equalization
EP4042725A1 (en) Position detection method, apparatus, electronic device and computer readable storage medium

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17907227

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 17907227

Country of ref document: EP

Kind code of ref document: A1