KR101054071B1 - Method and apparatus for discriminating voice and non-voice interval - Google Patents

Method and apparatus for discriminating voice and non-voice interval Download PDF

Info

Publication number
KR101054071B1
KR101054071B1 KR1020090005597A KR20090005597A KR101054071B1 KR 101054071 B1 KR101054071 B1 KR 101054071B1 KR 1020090005597 A KR1020090005597 A KR 1020090005597A KR 20090005597 A KR20090005597 A KR 20090005597A KR 101054071 B1 KR101054071 B1 KR 101054071B1
Authority
KR
South Korea
Prior art keywords
signal
section
noise
speech
voice
Prior art date
Application number
KR1020090005597A
Other languages
Korean (ko)
Other versions
KR20100059637A (en
Inventor
홍정표
한승호
정상배
한민수
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Publication of KR20100059637A publication Critical patent/KR20100059637A/en
Application granted granted Critical
Publication of KR101054071B1 publication Critical patent/KR101054071B1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Filters That Use Time-Delay Elements (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

본 발명은 잡음 환경에서 빔포밍의 성능을 향상시키기 위하여 여기신호 상관도를 이용하여 음성 부재 확률을 측정하고 그 측정 결과를 근거로 현재 구간이 음성신호 구간인지 잡음신호 구간인지 판별하는 기술에 관한 것이다. 이러한 본 발명은, 다채널 음성신호를 입력받아 각 채널마다 선형 예측 분석을 실시하여 여기신호를 생성하는 제1과정과; 상기 여기신호 간의 상호상관도를 측정하는 제2과정과; 상기 여기신호의 상호상관도를 이용하여 음성부재확률을 측정는 제3과정과; 상기 음성부재확률값을 실험적으로 얻은 문턱치와 비교하여 그 비교 결과를 근거로 현재 신호 구간이 음성구간인지 잡음구간인지 판단하는 제4과정에 의해 달성된다.The present invention relates to a technique for measuring a speech absence probability using an excitation signal correlation to improve the performance of beamforming in a noisy environment, and determining whether a current section is a voice signal section or a noise signal section based on the measurement result. . The present invention includes a first step of generating an excitation signal by receiving a multi-channel voice signal and performing linear prediction analysis on each channel; A second step of measuring a correlation between the excitation signals; A third step of measuring a voice member probability using the cross-correlation of the excitation signal; A fourth process is performed by comparing the voice member probability value with an experimentally obtained threshold and determining whether the current signal section is a voice section or a noise section based on the comparison result.

부엽제거기, 여기신호, 음성부재확률, 빔포밍 Side lobe remover, excitation signal, speech absence probability, beamforming

Description

음성과 비음성 구간 판별 방법 및 장치{APPARATUS AND METHOD FOR DISCRIMINATING SPEECH/NON-SPEECH PERIOD}Method and apparatus for discriminating voice and non-voice interval {APPARATUS AND METHOD FOR DISCRIMINATING SPEECH / NON-SPEECH PERIOD}

본 발명은 잡음 환경에서 빔포밍의 성능을 향상시키기 위하여 음성 구간을 판별하는 기술에 관한 것으로, 특히 입력 음성신호에 잡음신호가 혼재되어 입력되는 환경에서 현재 구간이 음성 구간인지 잡음 구간인지 판별할 수 있도록 한 음성과 비음성 구간 판별 방법 및 장치에 관한 것이다. The present invention relates to a technique for discriminating a speech section in order to improve the performance of beamforming in a noisy environment. In particular, the present invention relates to determining whether a current section is a speech section or a noise section in an environment in which a noise signal is mixed with an input speech signal. The present invention relates to a method and an apparatus for discriminating voice and non-voice intervals.

잡음 환경에서 현재의 입력신호 구간이 음성신호 구간인지 잡음신호 구간인지를 판별하는 종래의 기술로서 입력 채널간의 상호 상관 관계도를 이용한 방법이 있다. As a conventional technique for determining whether a current input signal section is a voice signal section or a noise signal section in a noisy environment, there is a method using cross-correlation between input channels.

상기 입력 채널간의 상호 상관 관계도를 이용한 방법은 부엽제거기(GSC: Generalized Sidelobe Canceller) 구조에서 다중입력제거기 단의 적응 모드 제어(AMC: Adaptation Mode Control)를 하기 위해 설계된 방법으로써, GSC 출력과 고정빔포밍(Fixed Beamforming; FBF의 종류 중 Delay and Sum Beamforming을 사용)의 출력과의 상호 상관 관계도를 구하면, 아래의 [수학식 1]과 같이 표현된다.The method using the cross-correlation diagram between the input channels is a method designed for adaptive mode control (AMC) of a multi-input canceller stage in a generalized sidelobe canceller (GSC) structure. When the cross-correlation diagram with the output of fixed beamforming (using Delay and Sum Beamforming among FBF types) is obtained, Equation 1 below is used.

Figure 112009004397400-pat00001
Figure 112009004397400-pat00001

여기서,

Figure 112009004397400-pat00002
는 각각의 전력값을 의미하며, 이들은 아래의 [수학식 2]와 같이 표현된다.here,
Figure 112009004397400-pat00002
Are the respective power values, and they are represented by Equation 2 below.

Figure 112009004397400-pat00003
Figure 112009004397400-pat00003

또한, n은 표본 지수(sample index), λ는 전력 업데이트시의 망각율(forgetting factor)을 의미한다. 상기 상호 상관 관계도의 값을 적응 모드 제어단에서 실험적으로 정해진 문턱치 값과 비교하여 그 비교 결과를 근거로 현재 구간이 음성신호 구간(목적신호 구간)인지 잡음신호 구간인지를 판단하게 된다.In addition, n means a sample index, and λ means a forgetting factor during power update. The value of the cross correlation diagram is compared with a threshold value experimentally determined by the adaptive mode control stage, and based on the comparison result, it is determined whether the current section is a voice signal section (a target signal section) or a noise signal section.

Figure 112009004397400-pat00004
Figure 112009004397400-pat00004

즉, 상기 상호 상관 관계도가 1에 가까울수록 현재 구간은 음성신호가 존재할 확률이 높고, 0에 가까울수록 잡음신호만 존재할 확률이 높은 것으로 판단한다.That is, the closer the cross-correlation degree is to 1, the higher the probability that a voice signal exists in the current section, and the closer to 0, the higher the probability that only a noise signal exists.

그러나, 이와 같은 종래의 기술에 있어서는 현재 입력신호 구간이 음성신호 구간인지 잡음신호 구간인지를 판단하는 능력이 기대치에 미치지 못하고, 특히 원거리 환경에서 그 판단 능력이 매우 떨어졌다. 이로 인하여, 음성신호 비음성신호 구 간 판단 결과를 근거로 음성 인식률을 향상시키는데 어려움이 있었다. However, in such a conventional technology, the ability to determine whether the current input signal section is a voice signal section or a noise signal section does not meet expectations. In particular, the ability to determine the range is very poor in a remote environment. As a result, it is difficult to improve the speech recognition rate based on the determination result of the speech signal non-voice signal section.

따라서, 본 발명의 목적은 잡음 환경에서 빔포밍의 성능을 향상시키기 위하여 여기신호 상관도를 이용하여 음성 부재 확률을 측정하고 그 측정 결과를 근거로 현재 구간이 음성신호 구간인지 잡음신호 구간인지 판별하는 방법을 제공함에 있다.Accordingly, an object of the present invention is to measure the probability of speech absence using an excitation signal correlation to improve the performance of beamforming in a noisy environment, and to determine whether the current section is a speech signal section or a noise signal section based on the measurement result. In providing a method.

본 발명의 또 다른 목적은 잡음 환경에서 빔포밍의 성능을 향상시키기 위하여 여기신호 상관도를 이용하여 음성 부재 확률을 측정하고 그 측정 결과를 근거로 현재 구간이 음성신호 구간인지 잡음신호 구간인지 판별한 다음 그 판별 결과에 따라 다중입력제거기의 동작을 적응적으로 제어하는 장치를 제공함에 있다.Another object of the present invention is to measure the probability of speech absence using an excitation signal correlation to improve the performance of beamforming in a noisy environment, and to determine whether the current section is a speech signal section or a noise signal section based on the measurement result. Next, an apparatus for adaptively controlling the operation of a multiple input eliminator according to the determination result is provided.

상기와 같은 목적을 달성하기 위한 본 발명은, 다채널 음성신호를 입력받아 각 채널마다 선형 예측 분석을 실시하여 여기신호를 생성하는 제1과정과; 상기 여기신호 간의 상호상관도를 측정하는 제2과정과; 상기 여기신호의 상호상관도를 이용하여 음성부재확률을 측정하는 제3과정과; 상기 음성부재확률값을 실험적으로 얻은 문턱치와 비교하여 그 비교 결과를 근거로 현재 신호 구간이 음성구간인지 잡음구간인지 판단하는 제4과정으로 이루어짐을 특징으로 한다. The present invention for achieving the above object, the first process for receiving a multi-channel speech signal and performing linear prediction analysis for each channel to generate an excitation signal; A second step of measuring a correlation between the excitation signals; A third step of measuring a voice member probability using the cross-correlation of the excitation signal; And a fourth process of comparing the voice member probability value with an experimentally obtained threshold value and determining whether the current signal section is a voice section or a noise section based on the comparison result.

상기와 같은 목적을 달성하기 위한 또 다른 본 발명은, 다채널 음성신호를 입력받아 각 채널마다 선형 예측 분석을 실시하여 여기신호를 생성하는 선형 예측 분석기와; 상기 선형 예측 분석기에 의해 생성된 여기신호를 이용하여 채널 간의 상호 상관도를 측정하는 상관도 측정부와; 단구간 채널간의 RNCC를 구하고, 이를 이용하 여 음성과 잡음을 모델링하여 음성 부재 확률을 구하는 SAP 계산부와; 상기 SAP값을 문턱치와 비교하고, 그 비교 결과를 근거로 현재 구간이 잡음구간인지 음성구간인지 판단하여 그 판단 결과에 따른 구동제어신호를 GSC 시스템 상의 다중입력 제거기에 출력하는 적응형 모드 콘트롤러로 구성함을 특징으로 한다.Another object of the present invention for achieving the above object is a linear prediction analyzer for generating an excitation signal by receiving a multi-channel speech signal and performing a linear prediction analysis for each channel; A correlation measurer for measuring cross-correlation between channels using an excitation signal generated by the linear prediction analyzer; An SAP calculation unit for obtaining RNCC between short-term channels and modeling speech and noise using the RNCC to obtain a speech absence probability; It is composed of an adaptive mode controller that compares the SAP value with a threshold value and determines whether the current section is a noise section or a voice section based on the comparison result, and outputs a driving control signal according to the determination result to the multiple input eliminator on the GSC system. It is characterized by.

본 발명은 잡음 환경에서 빔포밍의 성능을 향상시키기 위하여 여기신호 상관도를 이용하여 음성 부재 확률을 측정하고 그 측정 결과를 근거로 현재 구간이 목적신호(음성신호) 구간인지 잡음신호 구간인지 판별할 수 있도록 함으로써, 목적신호 구간을 보다 정확하게 검출할 수 있는 효과가 있다.In order to improve the performance of beamforming in a noisy environment, the present invention measures the probability of speech absence using an excitation signal correlation and determines whether the current section is the target signal (voice signal) section or the noise signal section based on the measurement result. By doing so, there is an effect that the target signal section can be detected more accurately.

그리고, 상기 판별 결과에 따라 다중입력제거기의 동작을 적응적으로 제어함으로써, 음성인식률이 향상되어 복원된 신호의 음질이 향상되는 효과가 있다.  In addition, by adaptively controlling the operation of the multiple input remover according to the determination result, the voice recognition rate is improved, and thus the sound quality of the restored signal is improved.

또한, 본 발명에 의한 목적신호 검출 방법을 적용되는 휴대폰, 네비게이션 등의 각종 휴대 단말기 뿐만 아니라, 4채널, 8채널을 이용한 로봇 등에도 적용할 수 있는 효과가 있다.  In addition, there is an effect that can be applied to not only various portable terminals such as a mobile phone and a navigation, to which the object signal detection method according to the present invention is applied, but also robots using four or eight channels.

이하, 첨부한 도면을 참조하여 본 발명의 바람직한 실시예를 상세히 설명하면 다음과 같다.Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings.

먼저, 도 1은 본 발명에 의한 음성과 비음성 구간 판별 방법의 처리과정을 나타낸 흐름도로서 이를 참조하여 본 발명에 의한 음성과 비음성 구간 판별 방법을 설명하면 다음과 같다.First, FIG. 1 is a flowchart illustrating a process of a voice and non-voice interval discrimination method according to the present invention. Referring to this, a voice and non-voice interval discrimination method according to the present invention will be described below.

목적신호 위치 정보를 로드하고, 마이크 간의 부정합을 조정하기 위해 등화기의 정보를 입력받는다.(SA1,SA2)It loads the target signal position information and receives the information of the equalizer to adjust the mismatch between the microphones (SA1, SA2).

마이크간의 특성 차이는 실제 환경에서 피할 수 없다. 그와 함께 마이크로부터 신호를 수신하는 A/D(analog-to-digital) 변환기의 특성도 차이가 날 수 있다. 이를 감안하여, 본 발명에서는 다채널 마이크 및 A/D 변환기의 특성 보상을 주파수 영역에서 수행한다. 예를 들어, 기준 채널이 제 1번이고, 입력 채널의 수가 N개일 때 i번째 입력 채널 신호의 등화기 구현을 위한 비용 함수는 다음의 [수학식 4]와 같이 표현된다. Characteristic differences between the microphones are unavoidable in real environments. At the same time, the characteristics of an analog-to-digital (A / D) converter that receives a signal from the microphone can be different. In view of this, the present invention performs the characteristic compensation of the multi-channel microphone and A / D converter in the frequency domain. For example, when the reference channel is the first and the number of input channels is N, the cost function for the equalizer implementation of the i-th input channel signal is expressed as Equation 4 below.

Figure 112009004397400-pat00005
Figure 112009004397400-pat00005

여기서, k는 이산 주파수, τ는 시간, T는 총 음성 신호 블록의 개수이다. 그리고,

Figure 112009004397400-pat00006
이며, FFT[]는 고속 푸리에 변환 함수이다.
Figure 112009004397400-pat00007
는 채널 별 입력 신호이다. αik는 채널의 주파수 응답을 보정하기 위한 등화기 계수이다. 상기 [수학식 4]를 최적화 하면 아래의 [수학식 5]를 얻는다. Where k is the discrete frequency, τ is the time, and T is the total number of speech signal blocks. And,
Figure 112009004397400-pat00006
FFT [] is a fast Fourier transform function.
Figure 112009004397400-pat00007
Is an input signal for each channel. α ik is an equalizer coefficient for correcting the frequency response of the channel. By optimizing Equation 4, Equation 5 below is obtained.

Figure 112009004397400-pat00008
Figure 112009004397400-pat00008

이후, 소정의 구간(예: 10ms) 간격으로 상기 과정(SA1,SA2)을 수행하기 위해 단 구간 다채널 신호를 입력받고, 입력 채널의 반사성분을 제거 하기 위해 여기신호를 이용하게 된다.(SA3) Subsequently, the multi-channel signal is input to perform the steps SA1 and SA2 at predetermined intervals (for example, 10 ms), and the excitation signal is used to remove the reflection component of the input channel. )

즉, 상기 알고리즘이 근거리 환경에서 사용될 경우에는 직선경로로 입력되는 신호가 대부분이고, 반사되어 입력되는 신호는 적다. 그러나, 원거리 환경에서 사용될 경우, 음원과 마이크로폰 배열(Microphone Array)의 간격이 넓으면, 반향에 의해 마이크로폰 배열에 입력되는 신호 중, 반사 성분이 증가하여 입력신호의 첨도(kurtosis)가 낮아진다. 이에 따라, 음성신호(목적신호)와 잡음신호 사이에 신호 크기 차이가 작아지고 목적신호 구간이 넓게 나타난다. 그 결과 목적신호 구간을 검출하는데 어려움을 겪게 된다. 따라서, 여기신호를 이용하여 목적신호의 첨도를 높이고 반사성분을 제거하여 목적신호의 구간 검출이 용이해 지도록 하였다.That is, when the algorithm is used in a short-range environment, most of the signals input by the straight path are small, and the signals which are reflected and input are few. However, when used in a remote environment, when the distance between the sound source and the microphone array is wide, the reflection component increases among the signals input to the microphone array due to reflection, thereby lowering the kurtosis of the input signal. Accordingly, the difference in signal magnitude between the voice signal (target signal) and the noise signal is reduced and the target signal section is wide. As a result, it is difficult to detect the target signal section. Therefore, by using the excitation signal, the kurtosis of the target signal is increased and the reflection component is removed to facilitate the detection of the section of the target signal.

이를 위해 각 채널마다 선형 예측 분석(LPL analysis)을 실시하여 여기신호를 생성하고, 그 여기신호를 이용하여 채널 간의 상호 상관도를 측정한다. 여기서, 여기신호 및 상호 상관도는 아래의 [수학식 6] 및 [수학식 7]로 표현된다.(SA4,SA5) To this end, linear prediction analysis (LPL analysis) is performed for each channel to generate an excitation signal, and the cross correlation between the channels is measured using the excitation signal. Here, the excitation signal and the cross correlation are expressed by Equations 6 and 7 below. (SA4, SA5)

Figure 112009004397400-pat00009
Figure 112009004397400-pat00009

Figure 112009004397400-pat00010
Figure 112009004397400-pat00010

여기서, ei(n)은 여기신호, p는 선형 예측 계수, i와 j는 채널 인덱스를 나타낸다. 또한, 상기 [수학식 7]에서 φm는 해당 구간의 채널간의 여기신호 상호 상관도(RNCC: Residual Normalized Cross Correlation)이고, l은 구간의 길이이다. Where e i (n) is an excitation signal, p is a linear prediction coefficient, and i and j are channel indices. In addition, φ m in Equation 7 is the correlation of the excitation signal cross-correlation (RNCC: Residual Normalized Cross Correlation) between channels of the corresponding section, and l is the length of the section.

상기 여기신호 상호 상관도를 이용하여 H0와 H1에 대한 확률 밀도 함수를 나타내면, 아래의 [수학식 9]와 같다.When the probability density function for H 0 and H 1 is represented using the excitation signal cross-correlation, Equation 9 below.

Figure 112009004397400-pat00011
Figure 112009004397400-pat00011

Figure 112009004397400-pat00012
Figure 112009004397400-pat00012

여기서,

Figure 112009004397400-pat00013
는 목적신호의 RNCC이고,
Figure 112009004397400-pat00014
는 잡음의 RNCC이다. 그리고
Figure 112009004397400-pat00015
Figure 112009004397400-pat00016
는 각각 RNCC의 목적신호와 잡음의 분산이다. here,
Figure 112009004397400-pat00013
Is the RNCC of the destination signal,
Figure 112009004397400-pat00014
Is the RNCC of the noise. And
Figure 112009004397400-pat00015
Wow
Figure 112009004397400-pat00016
Are the variance of the target signal and noise of the RNCC, respectively.

Figure 112009004397400-pat00017
Figure 112009004397400-pat00017

상기 [수학식 10]은 RNCC를 이용하여 구한 음성 부재 확률관계식이다. 기존의 음성 부재 확률 계산에 있어서는 단구간 채널 입력에 대한 주파수 분석을 하여 시간-주파수 영역에서의 음성과 잡음을 모델링 하였지만, 본 발명에서는 단구간 채널간의 RNCC를 구하고, 이를 이용하여 음성과 잡음을 모델링 한 것이 다른 점이다.(SA6) Equation 10 is a negative absence probability relation obtained using RNCC. In the existing speech absence probability calculation, the speech and noise in the time-frequency domain were modeled by performing frequency analysis on the short-term channel input. However, in the present invention, the RNCC between the short-term channels is obtained and modeled using the speech and noise. One thing is different (SA6).

상기와 같은 과정을 통해 획득한 SAP값을 실험적으로 얻은 문턱치와 비교하여 현재 구간이 목적신호 구간(음성 구간)인지 잡음구간인지 판단한다.(SA7) The SAP value obtained through the above process is compared with the experimentally obtained threshold value to determine whether the current section is the target signal section (voice section) or the noise section. (SA7)

이러한 과정을 거쳐 신호의 입력이 끝나면 모든 신호처리 과정을 종료하고, 신호의 끝이 아니면 상기 제3단계(SA3)로 복귀하여 상기 과정을 반복 수행한다.(SA8)After the input of the signal through this process, all signal processing ends, and if not, the process returns to the third step SA3 and repeats the process.

도 2는 상기 여기신호 상호 상관도를 이용하여 음성 부재 확률을 측정하는 단계(SA6)에 대해 상세하게 설명한 흐름도로서, 이에 대해 설명하면 다음과 같다.FIG. 2 is a flowchart illustrating a detailed step SA6 of measuring a speech absence probability using the excitation signal cross-correlation chart.

먼저, 입력 신호의 단구간 수를 체크하여 소정 개수(예: 20개)의 단구간 입력 신호를 입력받아 이들의 여기신호 상호 상관도(RNCC)를 구한다.(SB1,SB2) First, the number of short sections of the input signal is checked, and a predetermined number (eg, 20) of short section input signals are inputted to obtain an excitation signal cross-correlation degree (RNCC) thereof (SB1, SB2).

이후, 상기 단구간 입력 신호의 RNCC에 대해

Figure 112009004397400-pat00018
를 취한 후, 이전 단구간을 기준으로 현재 단구간이 잡음 구간인지 확인하여 잡음 구간으로 판명되면 잡음을 갱신(204)한다. 아래의 [수학식 11]은 목적신호 분산을 갱신하는 것에 대한 식이고, [수학식 12]는 잡음의 분산을 갱신하는 식이다.(SB3-SB5) Then, with respect to the RNCC of the short-term input signal
Figure 112009004397400-pat00018
After the operation, if the current short section is determined to be a noise section based on the previous short section, if the noise section is found, the noise is updated (204). Equation 11 below is for updating the target signal variance, and Equation 12 is for updating the noise variance (SB3-SB5).

Figure 112009004397400-pat00019
Figure 112009004397400-pat00019

Figure 112009004397400-pat00020
Figure 112009004397400-pat00020

이어서, 상기 구해진 목적신호와 잡음의 분산을 이용하여 선험적 RNCC-SNR과 후험적 RNCC-SNR을 구한다. 아래의 [수학식 13]은 선험적 RNCC-SNR과 후험적 RNCC-SNR에 대한 것이다.(SB6)Subsequently, a priori RNCC-SNR and a priori RNCC-SNR are obtained using the obtained dispersion of the target signal and noise. Equation 13 below is for a priori RNCC-SNR and adolescent RNCC-SNR (SB6).

Figure 112009004397400-pat00021
Figure 112009004397400-pat00021

구해진 선험적 RNCC-SNR과 후험적 RNCC-SNR을 상기 [수학식 10]대입하여 가능비(Likelihood ratio)

Figure 112009004397400-pat00022
와 음성부재확률(SAP:Speech Absence Probability)을 측정한다.(SB7,SB8)Obtained a priori RNCC-SNR and epigenetic RNCC-SNR by using Equation 10 above to obtain the Likelihood ratio.
Figure 112009004397400-pat00022
And Speech Absence Probability (SAP) is measured (SB7, SB8).

이후, 현재 단구간이 입력신호의 끝인지 확인하여 끝이 아닌 것으로 판명되면 상기 제1단계(SB1)로 복귀하여 상기 과정을 반복 수행하게 되지만, 끝인 것으로 판명되면 상기 과정을 종료한다.(SB9)Thereafter, if it is determined that the current short section is not the end of the input signal, the process returns to the first step SB1 to repeat the process, but if it is determined to be the end, the process ends.

한편, 도 3은 본 발명에 의한 음성과 비음성 구간 판별 장치가 적용되는 잡음 제거 블록도로서, 적용되는 잡음 제거를 위해 시간지연 보상부(311); 고정 빔포밍부(312); 블록킹 매트릭스(313); 다중입력제거기(MIC: Multiple Input Canceller)(314); 가산기(315) 및 감산기(316)가 구비되고, 여기에 음성과 비음성 구간을 판별하기 위한 장치로서, 선형 예측 분석기(LPC analyzer)(321); 상관도 측정부(322); SAP 계산부(323); 적응형 모드 콘트롤러(324)가 구비된다.On the other hand, Figure 3 is a noise removal block diagram to which the speech and non-voice interval discrimination apparatus according to the present invention is applied, the time delay compensation unit 311 to remove the applied noise; A fixed beamforming unit 312; Blocking matrix 313; Multiple input canceller (MIC) 314; An adder 315 and a subtractor 316 are provided, and a device for discriminating speech and non-voice intervals, comprising: a linear prediction analyzer (LPC analyzer) 321; A correlation measurer 322; An SAP calculation unit 323; An adaptive mode controller 324 is provided.

시간지연 보상부(311)는 잡음 환경에서의 각 채널의 입력신호

Figure 112009004397400-pat00023
을 입력받아 장비나 보드 등의 오차에 의한 시간 지연을 보상하여 출력한다.The time delay compensator 311 is an input signal of each channel in a noisy environment
Figure 112009004397400-pat00023
It outputs by compensating for time delay caused by error of equipment or board.

고정 빔포밍부(312)는 상기 시간지연 보상부(311)에서 시간지연이 보상되어 출력되는 신호를 대상으로 고정 빔포밍을 수행하여 입력 음성신호에 혼입된 잡음신호를 제거한다. The fixed beamformer 312 removes the noise signal mixed in the input voice signal by performing the fixed beamforming on the signal output by the time delay compensation unit 311 being compensated by the time delay.

블록킹 매트릭스(313)는 상기 고정 빔포밍부(312)로부터 각 채널의 신호를 입력받아 목적신호를 차단하고 잡음신호만을 통과시킨다. The blocking matrix 313 receives a signal of each channel from the fixed beamformer 312 to block a target signal and pass only a noise signal.

다중입력제거기(314)는 상기 블록킹 매트릭스(313)의 첫 번째 채널의 출력신호와 상기 최종 출력단의 신호

Figure 112009004397400-pat00024
를 연산하여 잡음성분을 추출하고, 그 잡음 성분을 다음 채널의 출력신호와 연산하여 잡음성분을 추출하는 과정을 반복 수행하여 각 채널의 잡음성분을 추출한다. The multiple input eliminator 314 is configured to output an output signal of the first channel of the blocking matrix 313 and a signal of the final output terminal.
Figure 112009004397400-pat00024
The noise component is extracted by calculating a, and the noise component is calculated by extracting the noise component by calculating the noise component with the output signal of the next channel.

가산기(315)는 상기 다중입력제거기(314)에서 출력되는 각 채널의 신호를 가산하여 잡음신호

Figure 112009004397400-pat00025
를 출력한다.The adder 315 adds a signal of each channel output from the multiple input eliminator 314 to add a noise signal.
Figure 112009004397400-pat00025
.

감산기(316)는 상기 고정 빔포밍부(312)의 출력신호

Figure 112009004397400-pat00026
에서 상기 가산기(315)의 출력신호
Figure 112009004397400-pat00027
를 감산하여 그 결과를 상기 최종 출력단의 신호
Figure 112009004397400-pat00028
로 출력한다.The subtractor 316 is an output signal of the fixed beamformer 312
Figure 112009004397400-pat00026
Output signal of the adder 315
Figure 112009004397400-pat00027
And subtract the result into the signal at the final output stage.
Figure 112009004397400-pat00028
Will output

그런데, 상기 다중입력제거기(314)의 구동여부는 다음과 같은 일련의 과정을 통 해 결정되는 것으로 이에 대해 상세히 설명하면 다음과 같다.By the way, the driving of the multiple input eliminator 314 is determined through a series of processes as follows.

선형 예측 분석기(321)는 잡음환경에서 단구간 다채널 신호를 입력받고, 입력 채널의 반사성분을 제거 하기 위해 각 채널마다 선형 예측 분석(LPL analysis)을 실시하여 여기신호를 생성한다.The linear prediction analyzer 321 receives a short channel multi-channel signal in a noise environment, and generates an excitation signal by performing linear prediction analysis (LPL analysis) for each channel to remove reflection components of the input channel.

상관도 측정부(322)는 상기 선형 예측 분석기(321)에 의해 생성된 여기신호를 이용하여 채널 간의 상호 상관도를 측정한다.The correlation measurer 322 measures the correlation between the channels using the excitation signal generated by the linear prediction analyzer 321.

SAP 계산부(323)는 단구간 채널간의 RNCC를 구하고,이를 이용하여 음성과 잡음을 모델링하여 음성 부재 확률(SAP)을 구한다. The SAP calculation unit 323 obtains an RNCC between short-term channels, and uses this to model speech and noise to obtain a speech absence probability (SAP).

적응형 모드 콘트롤러(324)는 상기 SAP값을 실험적으로 얻은 문턱치와 비교하고, 그 비교 결과를 근거로 현재 구간이 잡음구간인 것으로 판단되면 상기 다중입력 제거기(314)에 구동신호를 출력하여 그로 하여금 상기와 같이 동작하여 각 채널의 잡음성분을 추출하도록 한다. 하지만, 현재 구간이 목적신호 구간(음성 구간)인 것으로 판명될 때에는 상기 다중입력 제거기(314)에 구동신호를 출력하지 않는다.The adaptive mode controller 324 compares the SAP value with the experimentally obtained threshold, and if it is determined that the current section is a noise section based on the comparison result, the adaptive mode controller 324 outputs a driving signal to the multi-input eliminator 314 and causes the result. It operates as described above to extract the noise component of each channel. However, when the current section is found to be the target signal section (voice section), the driving signal is not output to the multiple input eliminator 314.

도 4 (a)-(c)는 종래와 본 발명에 의한 목적신호 검출 결과를 나타낸 것으로, 표본화 주파수가 16kHz, 마이크 수가 8, 마이크간 간격이 4cm, 목적 신호원 1개 및 잡음 신호원 1, 잡음 신호원간의 각도 45도이고, [수학식 12]에서 기준 마이크 4번과 마이크 5번 사이의 여기 신호 상호상관도, SNR 5dB 일 때, (a)는 입력신호의 파형도이고, (b)는 기존 방법에 의한 목적신호 검출결과를 나타낸 것이고, (c)는 본 발명에 의한 목적신호 검출결과를 나타낸 것이다.Figure 4 (a)-(c) shows the detection result of the target signal according to the prior art and the present invention, the sampling frequency is 16kHz, the number of microphones 8, the interval between the microphones 4cm, one target signal source and noise signal source 1, When the angle between the noise signal source is 45 degrees, the excitation signal cross-correlation between the reference microphone 4 and the microphone 5 in Equation 12, SNR 5dB, (a) is the waveform diagram of the input signal, (b) Denotes the target signal detection result by the conventional method, and (c) illustrates the target signal detection result according to the present invention.

전술한 바와 같은 본 발명의 방법은 프로그램으로 구현되어 컴퓨터로 읽을 수 있는 형태로 기록매체 (씨디롬, 램, 롬, 플로피 디스크, 하드 디스크, 광자기 디스크 등)에 저장될 수 있다. 이러한 과정은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있으므로 더 이상 상세히 설명하지 않기로 한다. As described above, the method of the present invention may be implemented as a program and stored in a recording medium (CD-ROM, RAM, ROM, floppy disk, hard disk, magneto-optical disk, etc.) in a computer-readable form. Since this process can be easily implemented by those skilled in the art will not be described in more detail.

이상에서 본 발명의 바람직한 실시예에 대하여 상세히 설명하였지만, 본 발명의 권리범위가 이에 한정되는 것이 아니라 다음의 청구범위에서 정의하는 본 발명의 기본 개념을 바탕으로 보다 다양한 실시예로 구현될 수 있으며, 이러한 실시예들 또한 본 발명의 권리범위에 속하는 것이다. Although the preferred embodiment of the present invention has been described in detail above, the scope of the present invention is not limited thereto, and may be implemented in various embodiments based on the basic concept of the present invention defined in the following claims. Such embodiments are also within the scope of the present invention.

도 1은 본 발명에 의한 음성과 비음성 구간 판별 방법의 흐름도.1 is a flow chart of a voice and non-voice interval determination method according to the present invention.

도 2는 도 1에서 음성부재확률을 측정하는 과정에 대한 상세 흐름도. FIG. 2 is a detailed flowchart of a process of measuring a voice member probability in FIG. 1; FIG.

도 3은 본 발명에 의한 음성과 비음성 구간 판별 장치가 적용되는 부엽제거기의 전체 블록도.Figure 3 is a complete block diagram of the side lobe remover to which the speech and non-voice interval discrimination apparatus according to the present invention is applied.

도 4의 (a)-(c)는 본 발명에 의한 목적신호 검출 결과를 종래와 비교하여 나타낸 도면.4 (a) to 4 (c) show a result of detecting a target signal according to the present invention in comparison with the prior art.

***도면의 주요 부분에 대한 부호의 설명*** *** Description of the symbols for the main parts of the drawings ***

311 : 시간지연 보상부 312 : 고정 빔포밍부311: time delay compensation unit 312: fixed beamforming unit

313 : 블록킹 매트릭스 314 : 다중입력제거기313: Blocking Matrix 314: Multiple Input Eliminator

315 : 가산기 316 : 감산기315: adder 316: subtractor

321 : 선형 예측 분석기 322 : 상관도 측정부321: linear prediction analyzer 322: correlation measure

323 : SAP 계산부 324 : 적응형 모드 콘트롤러323: SAP calculation unit 324: Adaptive mode controller

Claims (7)

다채널 음성신호를 입력받아 각 채널마다 선형 예측 분석을 실시하여 여기신호를 생성하는 제1과정과; Receiving a multi-channel voice signal and performing linear prediction analysis on each channel to generate an excitation signal; 상기 여기신호에 기초하여 하기 [수학식 7]을 적용하여 여기신호 상호 상관도(RNCC: Residual Normalized Cross Correlation)를 산출하는 제2과정과; A second step of calculating an excitation signal cross correlation (RNCC) by applying Equation 7 based on the excitation signal; 상기 RNCC를 이용하여 음성과 잡음을 모델링하여 하기 [수학식 10]과 같은 음성부재확률을 산출하는 제3과정과; A third process of calculating a speech member probability as shown in Equation 10 by modeling speech and noise using the RNCC; 상기 음성부재확률을 실험적으로 얻은 문턱치와 비교하여 그 비교 결과를 근거로 현재 신호 구간이 음성구간인지 잡음구간인지 판단하는 제4과정으로 이루어지는 것을 특징으로 하는 음성과 비음성 구간 판별 방법.And a fourth process of comparing the probability of the speech member with a threshold obtained experimentally and determining whether the current signal section is a speech section or a noise section based on the comparison result. [수학식 7][Equation 7]
Figure 112010082405341-pat00034
Figure 112010082405341-pat00034
여기서, ei(n)은 여기신호, i와 j는 채널 인덱스, φm는 해당 구간의 채널간의 여기신호 상호 상관도, l은 구간의 길이를 의미하며,Here, e i (n) is the excitation signal, i and j is the channel index, φ m is the correlation between the excitation signal between the channels of the interval, l is the length of the interval, [수학식 10][Equation 10]
Figure 112010082405341-pat00035
Figure 112010082405341-pat00035
여기서, p(H 0)는 잡음구간일 확률, p(H 1)은 음성/잡음 혼합구간일 확률, φm는 해당 구간의 채널간의 여기신호 상호 상관도, Λ(φm)은 가능비, ξ(φ m)은 선험적 RNCC-SNR, γ(φ m)은 후험적 RNCC-SNR을 의미하며, q는 사전 확률 비율로서,잡음구간과 음성/잡음 혼합구간의 확률비를 의미함.Where p ( H 0 ) is the noise section probability, p ( H 1 ) is the speech / noise mixture section, φ m is the correlation between the excitation signals between the channels in the interval, Λ (φ m ) is the possible ratio, also ξ m) means a priori RNCC-SNR, γ (φ m ) is after-posteriori SNR and RNCC, q refers to a priori probability ratio, odds ratio of the noise period and the speech / noise mixing section.
청구항 2은(는) 설정등록료 납부시 포기되었습니다.Claim 2 has been abandoned due to the setting registration fee. 제1항에 있어서, 제1과정은 채널간 특성을 보상하기 위해 등화기를 이용하는 것을 특징으로 하는 음성과 비음성 구간 판별 방법.The method of claim 1, wherein the first process uses an equalizer to compensate for interchannel characteristics. 청구항 3은(는) 설정등록료 납부시 포기되었습니다.Claim 3 was abandoned when the setup registration fee was paid. 제1항에 있어서, 제1과정은 다채널 음성신호로부터 각 주파수 성분의 위치 정보를 정확하게 추정하기 위해 채널별로 등화기를 통과시키는 단계를 포함하여 이루어지는 것을 특징으로 하는 음성과 비음성 구간 판별 방법.2. The method of claim 1, wherein the first process includes passing an equalizer for each channel to accurately estimate position information of each frequency component from the multichannel speech signal. 삭제delete 제1항에 있어서, 제3과정은The method of claim 1, wherein the third process is 소정 개수의 단구간 입력 신호를 입력받아 이들의 여기신호 상호 상관도(RNCC)를 구하는 단계와; Receiving a predetermined number of short-term input signals and obtaining an excitation signal cross-correlation degree (RNCC) thereof; 상기 단구간 입력 신호의 에 대해
Figure 112009004397400-pat00029
를 취한 후, 이전 단구간을 기준으로 현재 단구간이 잡음 구간인지 확인하여 잡음을 갱신하는 단계와;
Of the short-term input signal
Figure 112009004397400-pat00029
After taking the step of checking whether the current short section is a noise section based on the previous short section, updating the noise;
구해진 목적신호(음성신호)와 잡음의 분산을 이용하여 선험적 RNCC-SNR과 후험적 RNCC-SNR을 구하는 단계와;Obtaining a priori RNCC-SNR and a priori RNCC-SNR using the obtained target signal (voice signal) and noise variance; 상기 구해진 선험적 RNCC-SNR과 후험적 RNCC-SNR을 이용하여 가능비와 음성부재확률을 측정하는 단계를 포함하여 이루어지는 것을 특징으로 하는 음성과 비음성 구간 판별 방법.And determining a possible ratio and a speech absence probability using the obtained a priori RNCC-SNR and a priori RNCC-SNR.
청구항 6은(는) 설정등록료 납부시 포기되었습니다.Claim 6 was abandoned when the registration fee was paid. 제5항에 있어서, 소정 개수는 20개인 것을 특징으로 하는 음성과 비음성 구간 판별 방법.6. The method of claim 5, wherein the predetermined number is 20. 다채널 음성신호를 입력받아 각 채널마다 선형 예측 분석을 실시하여 여기신호를 생성하는 선형 예측 분석기와; A linear prediction analyzer configured to receive a multi-channel voice signal and perform linear prediction analysis on each channel to generate an excitation signal; 상기 선형 예측 분석기에 의해 생성된 여기신호를 이용하여 채널 간의 상호 상관도를 측정하는 상관도 측정부와;A correlation measurer for measuring cross-correlation between channels using an excitation signal generated by the linear prediction analyzer; 단구간 채널간의 여기신호 상호 상관도(RNCC: Residual Normalized Cross Correlation)를 구하고, 상기 RNCC를 이용하여 음성과 잡음을 모델링하여 하기 [수학식 10]과 같은 음성부재확률을 구하는 음성부재확률(SAP: Speech Absence Probability) 계산부와;Voice member probability (SAP), which obtains a residual normalized cross correlation (RNCC) between short-term channels, models a speech and noise using the RNCC, and obtains a speech member probability as shown in Equation 10 below. Speech Absence Probability) calculation unit; 상기 음성부재확률을 문턱치와 비교하고, 그 비교 결과를 근거로 현재 구간이 잡음구간인지 음성구간인지 판단하여 그 판단 결과에 따른 구동제어신호를 부역제거기 시스템 상의 다중입력 제거기에 출력하는 적응형 모드 콘트롤러로 구성된 것을 특징으로 하는 음성과 비음성 구간 판별 장치.The adaptive mode controller compares the voice member probability with a threshold value and determines whether the current section is a noise section or a voice section based on the comparison result, and outputs a driving control signal based on the result of the determination to the multi-input eliminator on the reversal remover system. Voice and non-voice interval discrimination device, characterized in that consisting of. [수학식 10][Equation 10]
Figure 112010082405341-pat00036
Figure 112010082405341-pat00036
여기서, p(H 0)는 잡음구간일 확률, p(H 1)은 음성/잡음 혼합구간일 확률, φm는 해당 구간의 채널간의 여기신호 상호 상관도, Λ(φm)은 가능비, ξ(φ m)은 선험적 RNCC-SNR, γ(φ m)은 후험적 RNCC-SNR을 의미하며, q는 사전 확률 비율로서,잡음구간과 음성/잡음 혼합구간의 확률비를 의미함.Where p ( H 0 ) is the noise section probability, p ( H 1 ) is the speech / noise mixture section, φ m is the correlation between the excitation signals between the channels in the interval, Λ (φ m ) is the possible ratio, also ξ m) means a priori RNCC-SNR, γ (φ m ) is after-posteriori SNR and RNCC, q refers to a priori probability ratio, odds ratio of the noise period and the speech / noise mixing section.
KR1020090005597A 2008-11-25 2009-01-22 Method and apparatus for discriminating voice and non-voice interval KR101054071B1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020080117432 2008-11-25
KR20080117432 2008-11-25

Publications (2)

Publication Number Publication Date
KR20100059637A KR20100059637A (en) 2010-06-04
KR101054071B1 true KR101054071B1 (en) 2011-08-03

Family

ID=42360923

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020090005597A KR101054071B1 (en) 2008-11-25 2009-01-22 Method and apparatus for discriminating voice and non-voice interval

Country Status (1)

Country Link
KR (1) KR101054071B1 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101068666B1 (en) * 2010-09-20 2011-09-28 한국과학기술원 Method and apparatus for noise cancellation based on adaptive noise removal degree in noise environment
KR102112018B1 (en) * 2013-11-08 2020-05-18 한국전자통신연구원 Apparatus and method for cancelling acoustic echo in teleconference system

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004109712A (en) * 2002-09-20 2004-04-08 Nec Engineering Ltd Speaker's direction detecting device
KR20060082465A (en) * 2005-01-12 2006-07-18 삼성전자주식회사 Method and apparatus for classifying voice and non-voice using sound model

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004109712A (en) * 2002-09-20 2004-04-08 Nec Engineering Ltd Speaker's direction detecting device
KR20060082465A (en) * 2005-01-12 2006-07-18 삼성전자주식회사 Method and apparatus for classifying voice and non-voice using sound model

Also Published As

Publication number Publication date
KR20100059637A (en) 2010-06-04

Similar Documents

Publication Publication Date Title
Erdogan et al. Improved MVDR beamforming using single-channel mask prediction networks.
US20170140771A1 (en) Information processing apparatus, information processing method, and computer program product
Yoshioka et al. Making machines understand us in reverberant rooms: Robustness against reverberation for automatic speech recognition
KR101470528B1 (en) Adaptive mode controller and method of adaptive beamforming based on detection of desired sound of speaker's direction
JP5572445B2 (en) Reverberation suppression apparatus and reverberation suppression method
JP5381982B2 (en) Voice detection device, voice detection method, voice detection program, and recording medium
KR100883712B1 (en) Method of estimating sound arrival direction, and sound arrival direction estimating apparatus
JP4532576B2 (en) Processing device, speech recognition device, speech recognition system, speech recognition method, and speech recognition program
JP4812302B2 (en) Sound source direction estimation system, sound source direction estimation method, and sound source direction estimation program
KR20080111290A (en) System and method of estimating voice performance for recognizing remote voice
US10334360B2 (en) Method for accurately calculating the direction of arrival of sound at a microphone array
JP2011033717A (en) Noise suppression device
Habets et al. Temporal selective dereverberation of noisy speech using one microphone
JP2007279517A (en) Sound source separating device, program for sound source separating device, and sound source separating method
Gamper et al. Predicting word error rate for reverberant speech
KR101054071B1 (en) Method and apparatus for discriminating voice and non-voice interval
Sun et al. Investigations into the relationship between measurable speech quality and speech recognition rate for telephony speech
Hayashida et al. Close/distant talker discrimination based on kurtosis of linear prediction residual signals
CN105830152A (en) Sound collecting device, input signal correction method for sound collecting device, and mobile apparatus information system
KR101529647B1 (en) Sound source separation method and system for using beamforming
JP5339426B2 (en) Speech recognition system and method using cepstrum noise subtraction
KR100949910B1 (en) Method and apparatus for acoustic echo cancellation using spectral subtraction
Xu et al. Noise condition-dependent training based on noise classification and SNR estimation
Gburrek et al. On source-microphone distance estimation using convolutional recurrent neural networks
KR101068666B1 (en) Method and apparatus for noise cancellation based on adaptive noise removal degree in noise environment

Legal Events

Date Code Title Description
A201 Request for examination
N231 Notification of change of applicant
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20140630

Year of fee payment: 4

LAPS Lapse due to unpaid annual fee