KR100621076B1 - Microphone array method and system, and speech recongnition method and system using the same - Google Patents

Microphone array method and system, and speech recongnition method and system using the same Download PDF

Info

Publication number
KR100621076B1
KR100621076B1 KR1020040013029A KR20040013029A KR100621076B1 KR 100621076 B1 KR100621076 B1 KR 100621076B1 KR 1020040013029 A KR1020040013029 A KR 1020040013029A KR 20040013029 A KR20040013029 A KR 20040013029A KR 100621076 B1 KR100621076 B1 KR 100621076B1
Authority
KR
South Korea
Prior art keywords
signal
sound signal
frequency
separated
unit
Prior art date
Application number
KR1020040013029A
Other languages
Korean (ko)
Other versions
KR20040094300A (en
Inventor
공동건
최창규
방석원
이본용
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to EP04252563A priority Critical patent/EP1473964A3/en
Priority to US10/836,207 priority patent/US7567678B2/en
Priority to JP2004137875A priority patent/JP4248445B2/en
Publication of KR20040094300A publication Critical patent/KR20040094300A/en
Application granted granted Critical
Publication of KR100621076B1 publication Critical patent/KR100621076B1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/40Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
    • H04R2201/4012D or 3D arrays of transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/40Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
    • H04R2201/403Linear arrays of transducers

Abstract

실내 환경과 같이 반향이 존재하는 환경에서 음성 인식을 높이기 위한 마이크로폰 어레이 방법 및 시스템과, 이를 이용한 음성 인식 방법 및 장치를 제공한다.Provided are a microphone array method and system for enhancing speech recognition in an environment where echo exists, and a speech recognition method and apparatus using the same.

마이크로폰 어레이 시스템은 사운드 신호를 입력받기 위해 마이크로폰 어레이를 사용하는 입력부와, 입력받은 신호를 주파수 성분별로 분리하는 주파수 분리부와, 상기 어레이를 서브어레이의 집합으로 보아 서브 어레이의 광대역 공간 공분산 행렬을 구하고 이들의 평균을 구하는 평균 공간 공분산 행렬 추정부와, 추정된 공분산 행렬을 통해 신호원의 위치를 결정하는 신호원 위치 검색부와, 추정된 공분산 행렬을 이용하여 신호의 왜곡을 보정하는 신호왜곡 보정부, 및 주파수 영역의 신호를 시간 영역으로 복원하는 신호복원부를 포함한다.The microphone array system obtains a wideband spatial covariance matrix of a sub array by looking at an input unit using a microphone array to receive a sound signal, a frequency separation unit separating the received signal by frequency components, and viewing the array as a set of subarrays. An average spatial covariance matrix estimator for obtaining the average thereof, a signal source position search unit for determining the position of the signal source through the estimated covariance matrix, and a signal distortion correction unit for correcting the distortion of the signal using the estimated covariance matrix And a signal restoring unit for restoring a signal in the frequency domain to the time domain.

이 때, 상기 신호원 위치 검색부는 상기 입력부로부터 수신한 사운드 신호를 상기 주파수 분리부에 의해 분리된 사운드 신호의 각 주파수 성분으로 분리하고, 상기 분리된 주파수 성분들 중에서 소정의 기준에 따라 선택된 주파수 성분들에 대해서만 MUSIC알고리즘 연산을 수행함으로써 상기 사운드 신호의 입사각을 결정하는 것을 포함한다.In this case, the signal source position search unit divides the sound signal received from the input unit into respective frequency components of the sound signal separated by the frequency separation unit, and frequency components selected according to a predetermined criterion among the separated frequency components. Determining the angle of incidence of the sound signal by performing a MUSIC algorithm operation on only these fields.

공간 평활법, spatial smoothing, 마이크로폰 어레이, 서브 어레이, MV, 주파수 빈(frequency bin), MUSIC알고리즘Spatial smoothing, spatial smoothing, microphone array, subarray, MV, frequency bin, MUSIC algorithm

Description

마이크로폰 어레이 방법 및 시스템 및 이를 이용한 음성 인식 방법 및 장치{Microphone array method and system, and speech recongnition method and system using the same}Microphone array method and system and speech recognition method and apparatus using same {Microphone array method and system, and speech recongnition method and system using the same}

도 1은 종전에 의해 제안된 마이크로폰 어레이 시스템 블록도이다.1 is a block diagram of a microphone array system previously proposed.

도 2는 본 발명의 일 실시예에 따라 구현된 마이크로폰 어레이 시스템의 블록도이다.2 is a block diagram of a microphone array system implemented in accordance with one embodiment of the present invention.

도 3은 본 발명의 일 실시예에 따라 구현된 마이크로폰 어레이 시스템을 이용한 음성 인식장치의 블록도이다.3 is a block diagram of a speech recognition apparatus using a microphone array system implemented according to an embodiment of the present invention.

도 4는 협대역 신호에 대한 공간 평활법(Spatial Smoothing, 이하 "SS"라 함)의 개념을 설명하기 위한 도면이다.4 is a view for explaining the concept of spatial smoothing (hereinafter referred to as "SS") for narrowband signals.

도 5는 본 발명에 의하여 광대역의 신호원에 까지 확장된 광대역 SS의 개념을 설명하기 위한 도면이다.5 is a view for explaining the concept of a wideband SS extended to a wideband signal source according to the present invention.

도 6은 본 발명의 일 실시예에 따라 반향에 의한 왜곡을 보정하는 방법을 보여주는 흐름도이다.6 is a flowchart illustrating a method of correcting distortion due to echo according to an embodiment of the present invention.

도 7은 본 발명의 일 실시예에 따라 음성을 인식하는 방법을 보여주는 흐름도이다.7 is a flowchart illustrating a method of recognizing speech according to an embodiment of the present invention.

도 8은 마이크로폰 어레이를 실험한 실내 환경을 보여준다.8 shows the indoor environment in which the microphone array was tested.

도 9은 실제 구현한 마이크로폰 어레이 모습을 보여준다.9 shows a microphone array actually implemented.

도 10a는 기존의 방법에 의한 기준 신호에 대한 출력 신호를 보여주는 파형도이다.10A is a waveform diagram illustrating an output signal with respect to a reference signal by a conventional method.

도 10b는 본 발명에 의한 기준 신호에 대한 출력 신호를 보여주는 파형도이다.10B is a waveform diagram showing an output signal with respect to a reference signal according to the present invention.

도 11은 본 발명의 실시에 따라 MUSIC알고리즘의 계산량을 줄이기 위한 마이크로폰 어레이 시스템의 블록도를 나타내는 예시도이다.11 is an exemplary diagram showing a block diagram of a microphone array system for reducing the calculation amount of the MUSIC algorithm in accordance with an embodiment of the present invention.

도 12는 본 발명의 실시에 따른 광대역 MUSIC부의 논리적 블록도를 나타내는 예시도이다.12 is an exemplary diagram showing a logical block diagram of a wideband MUSIC unit according to an embodiment of the present invention.

도 13은 본 발명의 실시에 따라 주파수 빈(frequency bin)을 선택하기 위한 논리적 블록도를 나타내는 제1 실시도이다.FIG. 13 is a first embodiment showing a logical block diagram for selecting a frequency bin in accordance with an embodiment of the present invention. FIG.

도 14는 본 발명의 실시에 따른 채널(channel)과 주파수 빈(frequency bin)과의 관계를 나타내는 예시도이다.14 is an exemplary diagram illustrating a relationship between a channel and a frequency bin according to an embodiment of the present invention.

도 15는 본 발명의 실시에 따른 채널별 평균 음성 존재 확률 분포를 나타내는 예시도이다.15 is an exemplary diagram illustrating an average voice presence probability distribution for each channel according to an embodiment of the present invention.

도 16은 본 발명의 실시에 따라 주파수 빈(frequency bin)을 선택하기 위한 논리적 블록도를 나타내는 제2 실시도이다.FIG. 16 is a second embodiment illustrating a logical block diagram for selecting a frequency bin according to an embodiment of the present invention. FIG.

도 17은 본 발명의 실시에 따른 실험 환경을 나타내는 예시도이다.17 is an exemplary view showing an experimental environment according to the practice of the present invention.

도 18은 본 발명의 실시에 따른 마이크로폰 어레이 구조를 나타내는 예시도이다.18 is an exemplary view showing a microphone array structure according to the embodiment of the present invention.

도 19a 내지 도 19b는 본 발명의 실시에 따라 잡음 방향의 스펙트럼이 개선된 것을 나타내는 예시도이다.19A to 19B are exemplary views illustrating that the spectrum of the noise direction is improved according to the embodiment of the present invention.

본 발명은 마이크로폰 어레이 방법 및 시스템에 관한 것으로, 보다 상세하게는 마이크로폰 어레이에 입력되는 신호들 중에서 목적 신호를 효과적으로 입력받기 위한 마이크로폰 어레이 방법 및 시스템에 관한 것이다. 또한, 본 발명은 상기 마이크로폰 어레이 방법 및 시스템에서 이용되는 MUSIC알고리즘 연산량을 줄이는 방법에 관한 것이다.The present invention relates to a microphone array method and system, and more particularly, to a microphone array method and system for effectively receiving a desired signal among the signals input to the microphone array. In addition, the present invention relates to a method for reducing the amount of MUSIC algorithm used in the microphone array method and system.

또한, 본 발명은 상기 마이크로폰 어레이 방법 및 시스템을 이용한 음성인식 방법 및 음성인식장치에 관한 것이다. The present invention also relates to a voice recognition method and a voice recognition device using the microphone array method and system.

멀티미디어 기술의 발전과 보다 편리한 생활을 추구하는 인간의 욕구로 인하여, TV, DVD를 비롯한 가전 제품을 음성으로 제어하려는 연구가 새롭게 부각되고 있다. 이와 같이 편리한 HMI(Human-Machine Interface)를 위해서는 사용자의 음성을 받아들이는 음성 입력 모듈 및 그것을 인식하는 음성 인식모듈이 필요하다.Due to the development of multimedia technology and the desire of humans to pursue a more convenient life, research on the control of home appliances such as TV and DVD by voice is emerging. Such a convenient human-machine interface (HMI) requires a voice input module that receives a user's voice and a voice recognition module that recognizes the voice.

실제 환경에서 HMI를 위한 음성 인터페이스를 구성할 경우 말하는 사람의 음성뿐만 아니라 음악, TV, 배경 잡음 등과 같은 간섭 신호도 존재하게 된다. 이와 같은 실제 생활 환경에서 HMI를 위한 음성 인터페이스를 구성하려면 주변 잡음이나 간섭에 관계없이 고품질 음성 신호를 취득할 수 있는 음성 입력 모듈이 필요하다.When configuring a voice interface for an HMI in a real environment, not only the speaker's voice but also interference signals such as music, TV, and background noise exist. Configuring a voice interface for an HMI in such a real world environment requires a voice input module capable of acquiring a high quality voice signal regardless of ambient noise or interference.

마이크로폰 어레이 방법(Microphone Array Method)은 공간적으로 원하는 신호 방향에 대해 높은 이득을 주고 그렇게 않은 방향에 대해서는 작은 이득을 주는 공간 필터링(Spatial Filtering)을 통해 고품질의 음성 신호 취득을 가능하게 한다. 음성 인식에서는 이러한 마이크로폰 어레이 방법을 이용하여 고품질 음성 신호를 취득함으로써 음성 인식의 성능을 높이려는 연구가 활발히 진행되고 있다. 그러나 어레이 신호 처리 기술의 기본 가정인 협대역 조건에 비해 넓은 대역폭을 갖는 음성 신호를 사용해야 하는 문제와 실내 환경에서의 반향 등에 의해 발생하는 문제로 인해 실제 적용에는 어려움이 많다.The microphone array method enables high quality speech signal acquisition through spatial filtering, which gives a high gain for the spatially desired signal direction and a small gain for the direction that is not. In speech recognition, studies are being actively conducted to improve the performance of speech recognition by acquiring a high quality speech signal using the microphone array method. However, there are many difficulties in the practical application due to the problem of using a voice signal having a wider bandwidth than the narrow band condition, which is the basic assumption of the array signal processing technology, and a problem caused by echo in the indoor environment.

이를 해결하기 위하여 Griffths와 Jim 등이 GSC(Generalized Sidelobe Canceller)에 기반한 적응 마이크로폰 어레이 방법을 제안하였다. 적응 마이크로폰 어레이 방법의 경우 비교적 간단한 구조를 가지면서도 높은 SINR(Signal to Interface and Noise Ratio) 이득을 얻을 수 있는 장점을 가지고 있다. 그러나 입사각 추정 오차에 대한 영향과 실내 환경에서의 반향에 의해 성능 저하가 이루어지기 때문에 추정 오차와 반향에 강인한 적응 알고리즘의 개발을 필요로 하고 있다.To solve this problem, Griffths and Jim have proposed an adaptive microphone array method based on Generalized Sidelobe Canceller (GSC). The adaptive microphone array method has a relatively simple structure and high SINR (Signal to Interface and Noise Ratio) gain. However, because the performance degradation is caused by the influence on the incident angle estimation error and the echo in the indoor environment, it is necessary to develop an adaptive algorithm that is robust to the estimation error and the echo.

또한 Capon 등이 제안한 MVDR(Minimum Variance Distortionless Response)을 광대역 신호를 대상으로 확장한 광대역 MV 방법이 있다. 광대역 MV 방법은 신호의 자기 상관 행렬을 구성하는 방법에 따라 MV 방법과 ML(Maximum Likelihood) 방법으로 구분되며, 각 방법에서도 자기 상관 행렬을 구성하는 여러 가지 방법이 제안되고 있다. 이러한 광대역 MV에 기반한 마이크로폰 어레이는 Asano, Ward, Friedlander 등에 의해 제안되었다.In addition, there is a wideband MV method that extends the MVDR (Minimum Variance Distortionless Response) proposed by Capon. The wideband MV method is divided into the MV method and the ML (Maximum Likelihood) method according to the method of constructing the autocorrelation matrix of the signal, and various methods for constructing the autocorrelation matrix have also been proposed. A microphone array based on this wideband MV has been proposed by Asano, Ward, Friedlander et al.

다음은 종전 기술에 의한 마이크로폰 어레이 방법에 대한 설명이다. 먼저 M개의 센서를 가지고 있는 마이크로폰 어레이에 D개의 신호원이 θ=[θ1, θ2, ..., θd]의 방향에서 입사하는 경우에 θ1이 목적 신호의 방향이고, 나머지는 간섭 신호의 방향이라고 가정한다. 어레이에 수신된 데이터를 이산 푸리에 변환(Discrete Fourier Transform)한 후, 각 주파수 성분별로 모은 벡터를 다음과 같이 표현하여 신호를 모델링한다. 이 때, 상기 벡터를 이하에서는 주파수 빈(frequency bin)이라고 나타내기로 한다.The following is a description of the microphone array method according to the prior art. First, when D signal sources are incident on the microphone array having M sensors in the directions θ = [θ 1 , θ 2, ..., θ d ], θ 1 is the direction of the target signal, and the rest is interference. Assume the direction of the signal. After the Discrete Fourier Transform of the data received in the array, the signal is modeled by expressing the vector collected for each frequency component as follows. In this case, the vector will hereinafter be referred to as a frequency bin.

Figure 112004007978616-pat00001
Figure 112004007978616-pat00001

여기서,

Figure 112004007978616-pat00002
here,
Figure 112004007978616-pat00002

Figure 112004007978616-pat00003
Figure 112004007978616-pat00003

Figure 112004007978616-pat00004
Figure 112004007978616-pat00004

Figure 112004007978616-pat00005
Figure 112004007978616-pat00005

이고, k는 주파수 인덱스를 의미한다.

Figure 112004007978616-pat00006
는 m번 째 마이크로폰에서 관찰된 신호와 배경잡음의 이산 푸리에 변환 값을,
Figure 112004007978616-pat00007
는 d번째 신호원의 이산 푸리에 변환 값을 의미한다.
Figure 112004007978616-pat00008
는 d 번째 신호원 k번째 주파수의 지향벡터 를 의미하는데 다음과 같이 표현될 수 있다.K denotes a frequency index.
Figure 112004007978616-pat00006
Is the discrete Fourier transform of the signal and background noise observed at the mth microphone,
Figure 112004007978616-pat00007
Denotes the discrete Fourier transform value of the d-th signal source.
Figure 112004007978616-pat00008
Denotes a direction vector of the d-th signal source k-th frequency and may be expressed as follows.

Figure 112004007978616-pat00009
Figure 112004007978616-pat00009

여기서,

Figure 112004007978616-pat00010
은 d번째 신호원의 k번째 주파수 성분이 m번째 마이크로폰까지 도달하는데 걸리는 지연시간을 의미한다.here,
Figure 112004007978616-pat00010
Denotes the delay time for the k-th frequency component of the d-th signal source to reach the m-th microphone.

광대역 신호의 입사각 추정은 어레이 입력 신호를 이산 푸리에 변환한 후, 각 주파수 성분마다 MUSIC(Multiple Signal Classification)알고리즘을 적용하고, 관심있는 주파수 대역에서 평균을 취하는 방법이 사용된다. k번째 주파수 성분에 대한 유사 공간 스펙트럼은 다음과 같이 정의된다.The incidence angle estimation of a wideband signal is performed by performing a discrete Fourier transform on an array input signal, applying a multiple signal classification (MUSIC) algorithm to each frequency component, and taking an average in a frequency band of interest. The pseudo spatial spectrum for the k th frequency component is defined as follows.

Figure 112004007978616-pat00011
Figure 112004007978616-pat00011

여기서,

Figure 112004007978616-pat00012
는 k번째 주파수 성분에 대한 잡음 고유벡터로 이루어진 행렬을 뜻하고,
Figure 112004007978616-pat00013
는 k번째 주파수 성분에 대한 협대역 지향 벡터를 의미한다. 이 때 가 신호원의 입사각과 일치하게 되면, 지향 벡터와 잡음 부공간은 직교한다는 성질에 의해 분모가 0이 되므로 유사 공간 스펙트럼은 무한대의 첨두치를 가지게 되며 이에 대응하는 각도가 입사방향이 된다.here,
Figure 112004007978616-pat00012
Is a matrix of noise eigenvectors for the k-th frequency component,
Figure 112004007978616-pat00013
Denotes a narrowband directed vector for the k-th frequency component. If is equal to the angle of incidence of the signal source, since the denominator is zero due to the orthogonality of the directional vector and the noise subspace, the pseudo-spatial spectrum has infinite peaks and the corresponding angle becomes the direction of incidence.

이 때, 평균화된 유사 공간 스펙트럼은 다음과 같이 구할 수 있다.At this time, the averaged similar spatial spectrum can be obtained as follows.

Figure 112004007978616-pat00014
Figure 112004007978616-pat00014

여기서,

Figure 112004007978616-pat00015
는 관심있는 주파수 영역의 최저 주파수와 최고 주파수의 인덱스를 의미한다.here,
Figure 112004007978616-pat00015
Is the index of the lowest frequency and the highest frequency in the frequency domain of interest.

광대역 MV 알고리즘은 광대역 신호인 음성을 이산 푸리에 변환한 후, 각 주파수 성분마다 협대역 MV 알고리즘을 적용한다. 이것의 가중치 벡터를 구하기 위한 최적화 문제는 각 주파수 별로 다른 선형 제한 조건을 갖는 빔형성 방법으로부터 유도된다.The wideband MV algorithm performs discrete Fourier transform of speech, which is a wideband signal, and then applies a narrowband MV algorithm to each frequency component. The optimization problem for obtaining its weight vector is derived from the beamforming method with different linear constraints for each frequency.

Figure 112004007978616-pat00016
Figure 112004007978616-pat00016

여기서 공간 공분산 행렬 Rk는 다음과 같다.Where the spatial covariance matrix R k is

Figure 112004007978616-pat00017
Figure 112004007978616-pat00017

라그랑쥐 멀티플라이어(Lagrange Multiplier)를 사용하여 수학식6을 풀면 가중치 벡터

Figure 112004007978616-pat00018
는 다음과 같다.Solving Equation 6 using Lagrange Multiplier
Figure 112004007978616-pat00018
Is as follows.

Figure 112004007978616-pat00019
Figure 112004007978616-pat00019

이와 같은 광대역 MV는 수학식7에서 Rk를 추정하는 방법에 따라 두 가지로 구분된다. 목적 신호와 잡음이 동시에 존재하는 구간에서 가중치를 구하는 방법을 MV 빔형성 방법이라 하고, 잡음만 존재하는 구간에서 가중치를 구하는 방법을 SINR 빔형성 방법 또는 ML(Maximum Likelihood) 방법이라 한다. Such a wideband MV is classified into two types according to the method of estimating R k in Equation (7). The method of obtaining the weight in the section in which the target signal and the noise exist simultaneously is called the MV beamforming method, and the method of obtaining the weight in the section in which only the noise exists is called the SINR beamforming method or the ML (Maximum Likelihood) method.

도 1은 종전에 제안된 마이크로폰 어레이 시스템을 보여준다. 종전의 마이크로폰 어레이 시스템은 상술한 입사각 추정 방법과 광대역 빔형성 방법을 통합하였다. 도 1의 마이크로폰 어레이 시스템은 복수의 마이크로폰으로 구성된 입력부(1)에 입력된 사운드 신호를 이산 푸리에 변환부(2)에서 복수의 협대역 신호로 분해한 후, 잡음과 음성 구간을 구분하는 음성 신호 검출기(3)를 이용하여 공간 공분산 행렬 추정부(4)에서 각각의 협대역 신호에 대한 공간 공분산 행렬을 추정한다. 추정된 공간 공분산 행렬은 광대역 MUSIC 모듈(5)에서 고유치 분해를 통해, 잡음 부공간에 해당하는 고유 벡터를 구한후, 수학식4를 이용하여 평균 유사 공간 스펙트럼을 계산하여 목적 신호의 방향 정보를 얻는다. 그리고 나서 광대역 MV 모듈(6)에서 수학식7을 이용하여 각 주파수 성분에 해당하는 가중치 벡터를 구하고 이를 각 주파수 성분에 곱한다. 역이산 푸리에 변환부(7)는 보정된 각 주파수 성분을 사운드 신호로 복원한다.1 shows a microphone array system previously proposed. Previous microphone array systems have integrated the above-described incident angle estimation method and the wideband beamforming method. The microphone array system of FIG. 1 decomposes a sound signal input to an input unit 1 composed of a plurality of microphones into a plurality of narrowband signals by a discrete Fourier transform unit 2, and then separates a noise and a voice section. Using (3), the spatial covariance matrix estimator 4 estimates the spatial covariance matrix for each narrowband signal. The estimated spatial covariance matrix obtains the eigenvalue decomposition in the wideband MUSIC module (5), obtains the eigenvector corresponding to the noise subspace, and calculates the average pseudo space spectrum using Equation (4) to obtain direction information of the target signal. . Then, in the broadband MV module 6, a weight vector corresponding to each frequency component is obtained using Equation 7 and multiplied by each frequency component. The inverse discrete Fourier transform unit 7 restores each corrected frequency component to a sound signal.

이러한 종전의 시스템은 간섭 신호만 존재하는 구간에서 공간 공분산 행렬을 추정하는 경우에는 안정된 동작을 보인다. 그러나 만약 목적 신호가 존재하는 구간에서 공간 공분산 행렬을 구하게 되면 간섭 신호뿐 아니라 목적 신호까지 제거하는 문제가 발생한다. 이러한 현상이 발생하는 것은 목적 신호가 직접 경로뿐만 아니라 반향에 의한 다중경로를 통해 전송되기 때문이다. 즉, 목적 신호의 방향 이외의 방향으로 전송된 목적 신호는 모두 간섭 신호로 간주되어 상관도가 있는 목적 신호까지 제거되게 된다. Such a conventional system shows stable operation when estimating a spatial covariance matrix in a section where only interference signals exist. However, if the spatial covariance matrix is obtained in the section where the target signal exists, there is a problem of removing not only the interference signal but also the target signal. This phenomenon occurs because the target signal is transmitted not only through the direct path but also through the multipath by echo. That is, all of the object signals transmitted in directions other than the direction of the object signal are regarded as interference signals, and thus even the object signals with correlation are removed.

상술한 바와 같이 반향에 의한 영향을 덜 받으면서 목적신호를 효과적으로 입력받을 수 있는 방법이나 시스템이 필요하다.As described above, there is a need for a method or system capable of effectively receiving a desired signal while being less affected by echo.

또한, 광대역 MUSIC 모듈(5)에서는 각각의 주파수 빈(frequency bin)에 대하여 MUSIC알고리즘의 연산이 수행되는데, 상기 연산은 시스템 동작에 있어서 많은 부하로 작용하게 되는바, MUSIC알고리즘의 연산량을 감소하는 방법이 필요하게 되었다.In addition, in the wideband MUSIC module 5, the operation of the MUSIC algorithm is performed for each frequency bin, which causes a large load on the operation of the system, thus reducing the amount of computation of the MUSIC algorithm. This became necessary.

본 발명은 상기 필요성을 위하여 안출된 것으로, 본 발명은 반향 환경에 강인한 마이크로폰 어레이 방법 및 시스템을 제공하는 것을 그 기술적 과제로 한다.The present invention has been made in view of the above necessity, the present invention is to provide a microphone array method and system that is robust to the echo environment to the technical problem.

또한 제공된 마이크로폰 어레이 방법 및 시스템을 이용하여 반향 환경에 강인한 음성 인식 방법 및 장치를 제공하는 것을 다른 기술적 과제로 한다.Another object of the present invention is to provide a speech recognition method and apparatus robust to an echo environment using the provided microphone array method and system.

또한 주파수 빈(frequency bin)의 개수를 감소시킴으로써 음성의 방향을 인식하기 위해 사용되는 MUSIC알고리즘의 연산량을 줄이는 방법을 제공하는 것을 그 기술적 과제로 한다.In addition, the technical problem is to provide a method for reducing the amount of calculation of the MUSIC algorithm used to recognize the direction of speech by reducing the number of frequency bins (frequency bin).

상기 목적을 달성하기 위하여 본 발명에 의한 마이크로폰 어레이 시스템은 사운드 신호를 입력받기 위해 복수의 마이크로폰을 사용하는 입력부와, 상기 입력부에 입력된 각 사운드 신호를 협대역의 신호로 분리하는 주파수 분리부와, 상기 주파수 분리부를 통해 분리된 사운드 신호의 각 주파수 성분에 대한 공간 공분산 행렬을 구하는데 있어, 상기 입력부의 복수의 마이크로폰을 가상의 서브 어레이의 결합으로 가정하여 각 서브 어레이별로 공간 공분산 행렬을 구하고 이의 평균을 구하는 공간 평활법을 사용하는 평균 공간 공분산 행렬 추정부와, 공간 평활법을 통해 구해진 평균 공분산 행렬을 통해 상기 사운드 신호의 입사각을 결정하는 신호위치 결정부와, 상기 신호원 위치 결정부를 통해 얻은 사운드 신호의 입사각을 바탕으로 상기 사운드 신호의 각 주파수 성분에 곱해줄 가중치를 구해 이를 곱해주는 신호왜곡 보정부, 및 보정된 각 주파수 성분들을 이용해 사운드 신호를 복원해 내는 신호 복원부를 포함한다. 한편 본 발명에 의한 마이크로폰 어레이 시스템의 상기 주파수 분리부는 이산 푸리에 변환을 사용하여 주파수를 분리하고 상기 신호 복원부는 역이산 푸리에 변환을 통해 사운드 신호를 복원하도록 구현할 수 있다.In order to achieve the above object, the microphone array system according to the present invention includes an input unit using a plurality of microphones for receiving a sound signal, a frequency separation unit for separating each sound signal input to the input unit into a narrow band signal, In obtaining a spatial covariance matrix for each frequency component of a sound signal separated by the frequency divider, assuming that a plurality of microphones of the input unit is a combination of virtual subarrays, a spatial covariance matrix is obtained for each subarray and its average An average spatial covariance matrix estimation unit using a spatial smoothing method for obtaining a signal, a signal positioning unit for determining an incident angle of the sound signal through an average covariance matrix obtained through a spatial smoothing method, and a sound obtained through the signal source positioning unit The sound scene based on the angle of incidence of the signal The calculated weights to multiply each frequency component by using the distortion correction signal, and each of the corrected frequency component multiplying it comprises parts that restore signal to restore a sound signal. Meanwhile, the frequency separation unit of the microphone array system according to the present invention may divide the frequency using a discrete Fourier transform, and the signal recovery unit may be configured to restore the sound signal through an inverse discrete Fourier transform.

상기 다른 목적을 달성하기 위하여 본 발명에 의한 음성인식장치는 상기 구현된 마이크로폰 어레이 시스템과, 상기 마이크로폰 어레이 시스템에서 입력받은 사운드 신호의 특징을 추출하는 특징 추출부, 상기 추출된 특징과 비교될 패턴을 저장하고 있는 기준패턴 저장부, 상기 기준패턴 저장부의 패턴과 상기 추출된 특징 과 비교하는 비교부, 및 상기 비교된 결과로 음성인식 여부를 판정하는 결정부를 포함한다.In order to achieve the above object, the voice recognition device according to the present invention includes a microphone array system, a feature extractor for extracting a feature of a sound signal input from the microphone array system, and a pattern to be compared with the extracted feature. A reference pattern storage unit for storing, a comparison unit for comparing the pattern with the extracted feature and the extracted feature, and a determination unit for determining whether to recognize speech based on the result of the comparison.

이를 위한 마이크로폰 어레이 방법은 복수개의 마이크로폰으로 구성된 어레이로부터 광대역의 사운드 신호를 입력받는 단계, 입력받은 신호를 복수의 협대역으로 분리하는 단계, 상기 어레이를 복수개의 마이크로폰으로 구성된 서브 어레이의 집합으로 가정하여 서브 어레이 별로 상기 분리된 대역별로 소정의 방식으로 공간 공분산 행렬을 구하고 이를 각 대역별로 평균하여 대역별로 평균 공간 공분산 행렬을 구하는 단계, 상기 평균 공간 공분산 행렬로 상기 사운드 신호의 입사각을 소정의 공식으로 구하는 단계, 상기 구해진 입사각을 바탕으로 상기 협대역으로 분리된 신호에게 곱해줄 가중치를 계산하여 이를 상기 협대역으로 분리된 신호에게 곱해주는 단계, 및 상기 가중치를 곱한 협대역 신호를 광대역 신호로 복원하는 단계를 포함한다. 본 발명에 의한 마이크로폰 어레이 방법은 상기 입력받은 신호를 협대역으로 분리하는 것은 이산 푸리에 변환에 의하고, 상기 가중치를 곱한 협대역 신호를 광대역 신호로 복원하는 단계는 역이산 푸리에 변환에 의하도록 구현할 수 있다.The microphone array method for this purpose is a step of receiving a wideband sound signal from an array consisting of a plurality of microphones, separating the input signal into a plurality of narrow bands, assuming that the array is a set of a sub array consisting of a plurality of microphones Obtaining a spatial covariance matrix for each of the divided bands in a predetermined manner for each of the separated bands, and averaging them for each band to obtain an average spatial covariance matrix for each band; Calculating a weight to be multiplied to the signal separated into the narrowband based on the obtained angle of incidence, multiplying the multiplied signal to the signal separated into the narrowband, and restoring the narrowband signal multiplied by the weight to a wideband signal; It includes. In the microphone array method according to the present invention, the input signal may be separated into a narrow band by a discrete Fourier transform, and the narrowband signal multiplied by the weight may be implemented by a inverse discrete Fourier transform. .

또한 음성인식 방법은 상기 마이크로폰 어레이 방법에 의해 입력된 신호의 특징을 추출하는 단계, 상기 추출된 특징과 기준패턴과 비교하는 단계, 및 상기 특징과 기준패턴을 비교한 결과로 음성인식 여부를 결정하는 단계를 포함한다.In addition, the voice recognition method may be configured to extract a feature of a signal input by the microphone array method, compare the extracted feature with a reference pattern, and determine whether speech recognition is performed as a result of comparing the feature with the reference pattern. Steps.

이하, 첨부도면을 참조하여 본 발명에 따른 바람직한 실시예를 상세히 설명한다.Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings.

도 2는 본 발명의 일 실시예에 따라 구현된 마이크로폰 어레이 시스템의 블록도이다. 2 is a block diagram of a microphone array system implemented in accordance with one embodiment of the present invention.

마이크로폰 어레이 시스템은 서브 어레이를 포함하는 M개의 마이크로폰을 이용하는 입력부(101)에서 사운드 신호를 입력받는다. 이 때 M개의 마이크로폰 어레이는 L개의 마이크로폰으로 구성된 가상의 서브 어레이로 구성된 것으로 가정하는데 서브 어레이를 구성하는 방법에 대해서는 도 4를 통해 상술한다. M개의 마이크로폰을 통해 입력된 M개 사운드 신호는 협대역 주파수 신호들로 분리되도록 이산 푸리에 변환부(102)에 입력된다. 본 발명의 바람직한 실시예에 있어서는 이산 푸리에 변환을 통해 음성과 같은 광대역의 사운드 신호를 N개의 협대역의 주파수 성분으로 분리하는데 이에 한정되지는 않는다. 이산 푸리에 변환부(102)를 통해 각 사운드 신호는 N개의 주파수 성분으로 나뉜다. 평균 공간 공분산 행렬 추정부(104)는 M개의 사운드 신호를 소정의 개수로 이루어진 서브 어레이를 기준으로 하여 공간 공분산 행렬을 구하고 이를 평균하여 각 주파수 성분에 대한 N개의 평균 공간 공분산 행렬을 구한다. 이에 관해서는 도 5를 통해 상술한다. 추정된 공간 공분산 행렬을 이용하여 신호원의 위치를 결정하기 위한 광대역 MUSIC부(105)가 신호원의 위치를 계산하고, 이 결과를 바탕으로 광대역 MV부(106)는 각 주파수 성분에 곱할 가중치 행렬을 구하고 이를 통해 잡음과 목적 신호의 반향에 의한 왜곡을 보정한다. 보정된 N개의 주파수 성분은 역이산 푸리에 변환부(107)에 의해 사운드 신호로 복원된다.The microphone array system receives a sound signal from an input unit 101 using M microphones including a sub array. In this case, it is assumed that the M microphone arrays are configured as a virtual subarray composed of L microphones. A method of configuring the subarrays will be described in detail with reference to FIG. 4. The M sound signals input through the M microphones are input to the discrete Fourier transform 102 to be separated into narrowband frequency signals. In a preferred embodiment of the present invention, a discrete Fourier transform is used to separate a wideband sound signal such as voice into N narrowband frequency components, but is not limited thereto. Through the discrete Fourier transform unit 102, each sound signal is divided into N frequency components. The mean spatial covariance matrix estimator 104 obtains a spatial covariance matrix based on a predetermined number of subarrays of M sound signals and averages them to obtain N mean spatial covariance matrices for each frequency component. This will be described in detail with reference to FIG. 5. The wideband MUSIC unit 105 for determining the position of the signal source using the estimated spatial covariance matrix calculates the position of the signal source, and based on the result, the wideband MV unit 106 multiplies each frequency component by a weight matrix. And then correct for the distortion caused by noise and echo of the target signal. The corrected N frequency components are restored to the sound signal by the inverse discrete Fourier transform unit 107.

도 3은 본 발명의 일 실시예에 따라 구현된 마이크로폰 어레이 시스템(신호 왜곡 보정모듈)과 음성 인식모듈을 포함하는 음성 인식장치를 보여준다.3 illustrates a voice recognition device including a microphone array system (signal distortion correction module) and a voice recognition module implemented according to an embodiment of the present invention.

음성 인식모듈에 대해 살펴보면 다음과 같다. 먼저 특징추출부(201)는 역이산 푸리에 변환부(106)를 통해 받은 디지털 사운드 신호를 바탕으로 신호원의 특징을 추출한다. 추출된 특징 벡터는 패턴비교부(202)에 입력되고, 패턴비교부(202)는 이와 유사한 사운드를 찾기 위한 패턴들이 저장되어 있는 기준패턴저장부(203)에 저장되어 있는 패턴과 특징 벡터를 비교한다. 양자를 비교하여 매칭되는 정도가 가장 큰 패턴(상관도가 가장 큰 패턴)과 비교하여 그 상관도(매칭 점수)를 결정부(204)로 보낸다. 결정부는 매칭 점수가 일정 정도 이상이면 해당 사운드 정보에 해당하는 정보를 결정한다.The speech recognition module is as follows. First, the feature extractor 201 extracts a feature of a signal source based on the digital sound signal received through the inverse discrete Fourier transform 106. The extracted feature vector is input to the pattern comparator 202, and the pattern comparator 202 compares the feature vector with the pattern stored in the reference pattern storage 203 where the patterns for finding similar sounds are stored. do. The two are compared with the pattern having the largest matching degree (pattern with the highest correlation), and the correlation (matching score) is sent to the determination unit 204. The determination unit determines information corresponding to the sound information when the matching score is a predetermined level or more.

도 4는 공간 평활법(Spatial Smoothing, 이하 "SS"라 함)의 개념을 설명하기 위한 도면이다. 전체 어레이가 여러 개의 서브 어레이로 구성된 것으로 가정하여 각 부배열 센서 출력의 공간 공분산 행렬에 대해 평균을 취함으로써 새로운 공간 공분산 행렬을 만드는 전처리 방법이다. 이 때 만들어진 공간 공분산 행렬은 전체 어레이에 의해 나타나는 지향 행렬과 동일한 특성을 갖는 새로운 지향 행렬과 상관 관계가 제거된 새로운 신호원으로 구성된다. M개의 센서로 구성된 등간격 어레이 마이크로폰의 개수가 L개인 p개의 서브 어레이를 다음과 같이 정의한다.4 is a view for explaining the concept of spatial smoothing (hereinafter referred to as "SS"). It is a preprocessing method that creates a new spatial covariance matrix by averaging the spatial covariance matrix of each subarray sensor output assuming that the entire array is composed of several subarrays. The spatial covariance matrix created at this time consists of a new directed matrix with the same characteristics as the directed matrix represented by the entire array and a new signal source with no correlation. P sub-arrays having the number of equally spaced array microphones composed of M sensors are defined as follows.

Figure 112004007978616-pat00020
Figure 112004007978616-pat00020

i번째 서브 어레이 입력 벡터는i-th sub-array input vector

Figure 112004007978616-pat00021
Figure 112004007978616-pat00022
로 주어지고, 는
Figure 112004007978616-pat00021
Figure 112004007978616-pat00022
Given by

Figure 112004007978616-pat00023
이고,
Figure 112004007978616-pat00023
ego,

Figure 112004007978616-pat00024
는 d번째 신호원의 센서간 지연시간을 의미한다.
Figure 112004007978616-pat00024
Denotes the delay time between the sensors of the d-th signal source.

또한, B는 전체 등간격 선형 어레이의 M차원 지향 벡터보다 줄어든 L차원 서브 어레이 지향 벡터로 이루어진 지향 행렬로써In addition, B is a directed matrix composed of L-dimensional sub-array directed vectors, which are smaller than the M-dimensional directed vectors of the entire equidistant linear array.

Figure 112004007978616-pat00025
Figure 112004007978616-pat00025

여기서,

Figure 112004007978616-pat00026
은 다음과 같다.here,
Figure 112004007978616-pat00026
Is as follows.

Figure 112004007978616-pat00027
Figure 112004007978616-pat00027

각 서브 어레이에서 공간 공분산 행렬을 구하고 평균화를 취하면 다음과 같다.The spatial covariance matrix in each subarray is obtained and averaged as follows.

Figure 112004007978616-pat00028
Figure 112004007978616-pat00028

여기서

Figure 112004007978616-pat00029
는 다음과 같은 형태를 갖는다.here
Figure 112004007978616-pat00029
Has the form

Figure 112004007978616-pat00030
Figure 112004007978616-pat00030

이 때, p ≥D이면,

Figure 112004007978616-pat00031
의 rank는 D가 된다. 의 rank가 D가 되면, 신호 부공간 차원이 D가 되므로 나머지 고유벡터와 직교하게 되고 결과적으로 간섭 신호의 방향으로 널(null)을 형성하게 된다. 만일 K개의 코히어런트한 신호를 분리해내기 위해서는 신호원 수보다 하나 이상 많은 센서수로 구성된 서브 어레이 센서가 K개 있어야 하므로, 적어도 전체 어레이 센서의 수는 2K 이상이 되어야 한다.At this time, if p ≥ D,
Figure 112004007978616-pat00031
Rank is D. If the rank of D becomes D, the signal subspace dimension becomes D, so that it is orthogonal to the remaining eigenvectors, and as a result, nulls are formed in the direction of the interference signal. If the K coherent signal is to be separated, there must be K sub-array sensors composed of one or more sensors than the number of signal sources, and therefore the total number of array sensors must be at least 2K.

도 5는 본 발명에 의해 확장된 광대역 SS을 설명하기 위한의 블록도이다. 본 발명에서는 실제 환경에서 발생하는 반향의 문제를 해결하기 위해 앞서 설명한 SS를 광대역 신호원에 적용이 가능하도록 확장하였다. 이를 위해 광대역으로 입력되는 신호를 바람직하게는 이산 푸리에 변환에 의하여 협대역 신호로 분리한 후, 각 협대역 신호마다 SS를 적용하였다. 다음과 같이 p개의 서브 어레이 마이크로폰을 정의하면, k번째 주파수 성분에서의 l차원 서브 어레이 마이크로폰의 입력 신호는 다음과 같이 정의할 수 있다.5 is a block diagram for illustrating the wideband SS extended by the present invention. In the present invention, in order to solve the problem of echo occurring in a real environment, the above-described SS is extended to be applicable to a wideband signal source. To this end, a signal input over a wideband is preferably separated into a narrowband signal by a discrete Fourier transform, and then SS is applied to each narrowband signal. If p sub array microphones are defined as follows, the input signal of the l-dimensional sub array microphone in the k-th frequency component may be defined as follows.

Figure 112004007978616-pat00032
Figure 112004007978616-pat00032

각 서브 어레이 마이크로폰에서 공간 공분산 행렬을 구하고 그것을 평균화 취하면 다음과 같다.The spatial covariance matrix of each sub array microphone is obtained and averaged.

Figure 112004007978616-pat00033
Figure 112004007978616-pat00033

Figure 112004007978616-pat00034
를 수학식3, 4, 및 7을 이용하여 목적 신호원의 입사각 추정과 빔형성을 할 수 있다. 본 발명은
Figure 112004007978616-pat00035
를 목적 신호원의 입사각 추정과 빔형성 방법에 이용함으로써 반향 환경에서 나타나는 성능 저하를 방지할 수 있다.
Figure 112004007978616-pat00034
Equation 3, 4, and 7 can be used to estimate the angle of incidence and beamforming the target signal source. The present invention
Figure 112004007978616-pat00035
Can be used for the estimation of the angle of incidence of the target signal source and the beamforming method to prevent performance degradation in the echo environment.

도 6은 본 발명의 일 실시예에 따라 반향에 의한 왜곡을 보정하는 어레이 방법을 보여주는 흐름도이다.6 is a flowchart illustrating an array method for correcting distortion due to echo according to an embodiment of the present invention.

먼저 M개의 마이크로폰 어레이로부터 사운드 신호를 입력받는다(S1). 입력받은 M개의 사운드 신호에 대해 N포인트 이산 푸리에 변환을 한다(S2). 이산 푸리에 변환을 통해 광대역의 사운드 신호의 주파수를 협대역의 N개의 주파수 성분으로 나눈다. 그리고 나서 협대역의 각 주파수 성분에 대해 공간 공분산 행렬을 구한다. 공간 공분산 행렬을 구할 때 M개의 신호들 전부를 대상으로 계산하지 않고 L개의 마이크로폰으로 구성된 가상 서브 어레이들 각각에 대하여 주파수 성분별로 공간 공분산 행렬을 구하고(S3), 각 서브 어레이로부터 구해진 공간 공분산 행렬의 평균을 주파수 성분별로 구한다(S4). 평균 공간 공분산 행렬이 구해지면 이를 바탕으로 목적 신호원의 위치(신호원의 입사각도)를 검색한다(S5). 목적 신호원의 위치는 바람직하게는 MUSIC(MUltiple SIgnal Classfication)법을 이용한다. 신호원의 위치(입사각)을 찾으면 이를 바탕으로 신호원의 각 주파수 성분에 대하여 신호왜곡을 보정하기 위한 가중치를 계산하여 이를 곱한다(S6). 신호원에 가중치를 부여하는 바람직한 방법은 광대역 MV법이다. 가중치가 부여된 신호원의 각 주파수 성분을 합쳐 본래의 사운드 신호로 복원한다(S7). 바람직한 복원 방법은 역이산 푸리에 변환을 이용한다.First, a sound signal is received from the M microphone arrays (S1). N-point discrete Fourier transform is performed on the M sound signals received (S2). The Discrete Fourier Transform divides the frequency of the wideband sound signal by the N frequency components of the narrowband. Then, a spatial covariance matrix is obtained for each frequency component of the narrow band. When calculating the spatial covariance matrix, a spatial covariance matrix is calculated for each of the virtual subarrays of L microphones by frequency component without calculating all M signals (S3), and the spatial covariance matrix obtained from each subarray is obtained. The average is obtained for each frequency component (S4). When the average spatial covariance matrix is obtained, the position (incidence angle of the signal source) of the target signal source is searched based on the result (S5). The location of the target signal source is preferably using the MUSIC (MUltiple SIgnal Classfication) method. When the position (incidence angle) of the signal source is found, the weight for correcting the signal distortion of each frequency component of the signal source is calculated and multiplied by this (S6). A preferred method of weighting a signal source is the wideband MV method. Each frequency component of the weighted signal source is summed and restored to the original sound signal (S7). Preferred reconstruction methods employ an inverse discrete Fourier transform.

도 7은 본 발명의 일 실시예에 따라 음성을 인식하는 방법을 보여주는 흐름도이다. 도 6에서 설명한 과정을 통해 반향에 의한 신호왜곡을 보정한 사운드 신호, 예를 들면 사람의 음성을 입력받는다(S10). 받은 사운드 신호에 대하여 그 특징점을 추출하여 특징 벡터를 생성한다(S11). 생성된 특징 벡터를 저장되어 있는 기준 패턴과 비교를 한다(S12). 비교한 양자의 상관 정도가 일정한 기준을 넘으면 그 결과를 출력하고 그렇지 않으면 새로운 사운드 입력을 기다린다(S13).7 is a flowchart illustrating a method of recognizing speech according to an embodiment of the present invention. Through the process described with reference to FIG. 6, a sound signal, for example, a human voice, which corrects signal distortion due to reflection is received (S10). The feature point is extracted from the received sound signal to generate a feature vector (S11). The generated feature vector is compared with the stored reference pattern (S12). If the degree of correlation between the two exceeds a certain criterion, the result is output, otherwise a new sound input is awaited (S13).

도 8은 마이크로폰 어레이를 실험한 실내 환경을 보여준다. 대략 가정에서 가로 세로 수 미터 규모의 크기에서 TV와 같은 가전 기기와 벽면이 존재하고 여러 사람이 있을 수 있다. 이러한 물체나 벽면 또는 사람들로 인하여 사운드 신호는 마이크로폰 어레이에 직접 전달되는 것 이외에 반사되어 전달되는 것도 있다. 도 9는 실제 구현한 마이크로폰 어레이 구조를 보여준다. 본 발명을 위한 실험에서는 9개의 마이크로폰을 사용하여 어레이 시스템을 구축하였다. 본 발명에서 제안한 사운드 신호에 적합한 공간 평활법은 마이크로폰 수에 따라 성능이 변화하게 된다. 서브 어레이의 마이크로폰 수가 감소하면 서브 어레이의 개수가 증가하여 목적 신호 제거 현상이 줄어들지만, 분해능의 감소로 인하여 간섭 신호의 제거 성능이 저하된다. 적절한 수의 마이크로폰으로 서브 어레이를 구성하여야 한다. 다음은 9개의 마이크로폰 어레이 시스템에서 서브 어레이의 마이크로폰 개수에 따른 SINR(Signal Interface Noise Ratio)와 음성 인식률을 실험한 결과이다.8 shows the indoor environment in which the microphone array was tested. At home, roughly a few meters in size, there are home appliances and walls, such as TVs, and there can be many people. Due to these objects, walls, or people, sound signals may be reflected and transmitted in addition to being transmitted directly to the microphone array. 9 shows the actual microphone array structure. In the experiment for the present invention, an array system was constructed using nine microphones. The spatial smoothing method suitable for the sound signal proposed in the present invention will vary in performance depending on the number of microphones. If the number of microphones in the sub array is reduced, the number of sub arrays is increased to reduce the target signal cancellation phenomenon, but the performance of the interference signal is degraded due to the decrease in resolution. The subarray should be constructed with the appropriate number of microphones. The following are the results of experiments on signal interface noise ratio (SINR) and speech recognition rate according to the number of microphones in a sub array in nine microphone array systems.

잡음Noise 서브 어레이 마이크로폰 수Number of sub-array microphones SINR(dB)SINR (dB) 인식률(%)Recognition rate (%) 음악music 9 8 7 6 59 8 7 6 5 1.1 8.7 12 13 11.11.1 8.7 12 13 11.1 60 75 82.5 87.5 87.560 75 82.5 87.5 87.5 의사잡음(PN)Pseudo Noise (PN) 9 8 7 6 59 8 7 6 5 3.2 8.6 11.9 10.1 83.2 8.6 11.9 10.1 8 77.5 80 85 90 87.577.5 80 85 90 87.5

표 1의 결과를 바탕으로 서브 어레이의 최적 마이크로폰 수를 6개로 결정하였다. 도 10a는 기존의 방법에 의한 기준 신호에 대한 출력 신호를 보여주는 파형도이고 도 10b은 본 발명에 의한 기준 신호에 대한 출력 신호를 보여주는 파형도이다.Based on the results in Table 1, the optimum number of microphones in the subarray was determined to be six. Figure 10a is a waveform diagram showing the output signal to the reference signal by the conventional method and Figure 10b is a waveform diagram showing the output signal to the reference signal according to the present invention.

각각 (a)는 기준신호이고 (b)는 첫 번째 마이크로폰에 입력된 신호이고 (c)는 최종 출력 신호이다. 도면에서 확인할 수 있듯이, 본 발명을 이용하여 목적 신호 감쇄 현상을 극복할 수 있음을 확인할 수 있다. (A) is the reference signal, (b) is the signal input to the first microphone, and (c) is the final output signal. As can be seen from the drawings, it can be seen that the present invention can overcome the target signal attenuation phenomenon.

종전 기술에 의한 음성 인식률과 본 발명에 의한 음성 인식률을 비교하기 위하여 다양한 잡음 환경에서 실험한 평균 음성 인식률은 다음과 같다.In order to compare the speech recognition rate according to the conventional technology and the speech recognition rate according to the present invention, the average speech recognition rate tested in various noise environments is as follows.

종전의 기술Conventional technology 본 발명The present invention 평균 음성 인식률Average speech recognition rate 68.8 %68.8% 88.8 %88.8%

종전의 기술은 음성 신호 검출기의 성능에 의해 전체 시스템의 성능이 좌우되는 데 비해서 본 발명은 공간 평활법을 적용하여 목적 신호의 존재 유무에 관계없이 안정된 성능을 보장할 수 있다.While the conventional technology is dependent on the performance of the speech signal detector, the performance of the entire system is dependent on the present invention, and the present invention can apply the spatial smoothing method to ensure stable performance regardless of the presence or absence of the target signal.

한편, 본 발명의 경우 상기 도 2에서 도시한 광대역 MUSIC부(105)에서는 모 든 주파수 빈(frequency bin)에 대하여 MUSIC알고리즘 연산이 수행되는데, 이는 앞서 설명한 바와 같이 음성 신호의 방향을 인식하는 시스템에 있어서는 상당한 시스템 부하(system load)로 작용하게 된다. 즉, 마이크로폰 어레이를 구성하는 마이크로폰의 개수가 M개일 경우, 협대역 MUSIC알고리즘 대부분의 연산량은 M*M 공분산 행렬(covariance matrix)로부터 잡음 부영역(noise subspace)을 찾기 위해 수행하는 고유치 분해(eigen value decomposition)에서 이루어지는데, 이 때, 연산량은 마이크 개수의 3승에 비례하며, N포인트-이산 푸리에 변환을 수행하는 경우 광대역 MUSIC알고리즘 연산량은 O(M3)*NFFT/2 와 같이 나타낼 수 있다. 따라서, 전체적인 시스템 성능의 향상을 위해 광대역 MUSIC알고리즘 연산량을 줄이는 방법이 필요하게 되었다.Meanwhile, in the present invention, in the wideband MUSIC unit 105 shown in FIG. 2, a MUSIC algorithm operation is performed on all frequency bins. As described above, a system for recognizing a direction of a voice signal is performed. This is a significant system load. That is, when the number of microphones constituting the microphone array is M, most of the calculations of the narrow-band MUSIC algorithm are performed to find noise subspaces from the M * M covariance matrix. where the amount of computation is proportional to the third power of the number of microphones, and when performing the N point-to-discrete Fourier transform, the amount of broadband MUSIC algorithm computation can be expressed as O (M 3 ) * N FFT / 2 . Thus, there is a need for a method for reducing the bandwidth MUSIC algorithm computations to improve overall system performance.

도 11은 본 발명의 실시에 따라 MUSIC 알고리즘의 계산량을 줄이기 위한 마이크로폰 어레이 시스템의 블록도를 나타내는 예시도이다.11 is an exemplary diagram showing a block diagram of a microphone array system for reducing the amount of computation of the MUSIC algorithm in accordance with an embodiment of the present invention.

일반적으로 광대역 MUSIC부(105)에서 수행되는 MUSIC알고리즘은 앞에서 설명한 바와 같이 모든 주파수 빈(frequency bin)에 대해 연산을 수행하므로 MUSIC알고리즘을 이용하는 음성 인식 시스템의 계산량에 부하가 많이 걸리는 문제점이 있다. 따라서, 본 발명에서는 다수의 마이크로폰으로 구성되는 마이크로폰 어레이로부터 신호를 수신한 후, 소정의 기준에 따라 수신한 신호 중에 음성 신호가 존재할 가능성이 높은 주파수 빈(frequency bin)들을 선택하고, 광대역 MUSIC부(105)로 하여금 상기 선택된 주파수 빈(frequency bin)들에 대해서만 MUSIC알고리즘 연산을 수행하도록 하는 주파수 빈 선택부(1110)를 상기 도 11에서 도시한 바와 같이 신호왜곡보정모듈에 추가함으로써, MUSIC알고리즘의 연산 감소에 따른 시스템 성능 향상을 도모할 수 있다. 또한, 공분산 행렬 생성부(1120)은 상기 도 2에서 도시한 광대역 SS법을 이용한 공간 공분산 행렬 추정부(104)일 수도 있고, 공분산 행렬을 생성하는 다른 형태의 논리 블록일 수도 있다. 이 때, 이산 푸리에 변환부(102)에서는 고속 푸리에 변환(Fast Fourier Transform)도 가능하다.In general, the MUSIC algorithm performed by the wideband MUSIC unit 105 performs a calculation on all frequency bins as described above, which causes a large load on the calculation amount of the speech recognition system using the MUSIC algorithm. Accordingly, in the present invention, after receiving a signal from a microphone array composed of a plurality of microphones, the frequency bins having a high probability that a voice signal exists in the received signal according to a predetermined criterion are selected, and a wideband MUSIC unit ( By adding a frequency bin selector 1110 to the signal distortion correction module as shown in FIG. 11 to cause 105 to perform a MUSIC algorithm operation on the selected frequency bins only, the calculation of the MUSIC algorithm is performed. The system performance can be improved by decreasing. In addition, the covariance matrix generator 1120 may be a spatial covariance matrix estimator 104 using the wideband SS method illustrated in FIG. 2, or may be another type of logical block for generating a covariance matrix. At this time, the Discrete Fourier Transformation Unit 102 may also perform a Fast Fourier Transform.

한편, 광대역 MUSIC부(105)를 구성하는 논리적 블록도를 도 12에서 구체적으로 예시하고 있다. 상기 도 12에서 도시하고 있는 바와 같이, 광대역 MUSIC부(105)에 있는 공분산 행렬 선택부(Covariance Selector)(1210)는 상기 주파수 빈 선택부(frequency bin selector)(1110)에 의해 선택된 주파수 빈에 해당하는 공분산 행렬만을 선택한다. 따라서, 예컨대 NFFT포인트-이산 푸리에 변환을 하는 경우 NFFT/2개의 주파수 빈(frequency bin)이 형성될 수 있다. 이 때, 공분산 행렬 선택부(Covariance Selector)(1210)에서 형성된 NFFT/2 개의 주파수 빈(frequency bin) 전부에 대하여 MUSIC알고리즘 연산이 수행되는 것이 아니라, 주파수 빈 선택부(frequency bin selector)(1110)에 의해 선택된 L개의 주파수 빈(frequency bin)에 대해서만 MUSIC알고리즘 연산이 수행되는 되는 것이다. 따라서, MUSIC알고리즘 연산량이 종래의 O(M3)*NFFT/2에서 O(M3)*L로 감소된다. 한편, 각각의 MUSIC알고리즘 연산 결과는 스펙트럼 평균(Spectrum Average) 과정(1230)을 거친 후, 첨두치 검출부(Peak Detector)(1240)에서 음성 신호의 방향값을 얻게 된다. 이 때, 상기 스펙트럼 평균 및 첨두치 검출 연산은 종래의 MUSIC알고리즘 방법을 이용할 수 있다. Meanwhile, a logical block diagram constituting the wideband MUSIC unit 105 is specifically illustrated in FIG. 12. As shown in FIG. 12, the covariance selector 1210 in the wideband MUSIC unit 105 corresponds to the frequency bin selected by the frequency bin selector 1110. Choose only covariance matrices. Thus, for example, when N FFT point-to-discrete Fourier transform is performed, N FFT / 2 frequency bins may be formed. In this case, the MUSIC algorithm is not performed on all of the N FFT / 2 frequency bins formed by the covariance selector 1210, but the frequency bin selector 1110. The MUSIC algorithm operation is performed only on the L frequency bins selected by. Therefore, the MUSIC algorithm calculation amount is reduced from O (M 3 ) * N FFT / 2 to O (M 3 ) * L. On the other hand, each MUSIC algorithm calculation result is subjected to a Spectrum Average process 1230, and then the peak detector 1240 obtains the direction value of the voice signal. In this case, the spectral mean and peak detection operation may use a conventional MUSIC algorithm method.

도 13은 본 발명의 실시에 따라 주파수 빈(frequency bin)을 선택하기 위한 논리적 블록도를 나타내는 제1 실시도로서, 상기 도 11에서 도시한 주파수 빈 선택부(frequency bin selector)(1110)를 보다 구체적으로 도시하고 있다. 특히, 상기 제1 실시도에서는 직접 주파수 빈(frequency bin)의 개수를 선택하는 것이 아니라, 선택된 채널(channel) 개수에 의해 간접적으로 주파수 빈(frequency bin)의 개수가 결정되는 방법을 나타내고 있다. 이 때, 상기 '채널(channel)'의 의미에 대해서는 이하 상기 제1 실시도의 동작 과정을 설명하면서 정의하도록 한다.FIG. 13 is a first block diagram illustrating a logical block diagram for selecting a frequency bin according to an embodiment of the present invention, and the frequency bin selector 1110 shown in FIG. Specifically shown. In particular, the first embodiment illustrates a method in which the number of frequency bins is indirectly determined by the number of channels selected, rather than directly selecting the number of frequency bins. In this case, the meaning of the 'channel' is defined below with reference to the operation of the first embodiment.

M개의 마이크로폰으로 구성되는 마이크로폰 어레이로부터 수신한 신호들을 합한 후(1310), 종래에 이미 공지되어 있는 기술을 이용한 음성신호검출기(Voice Activity Detector, 이하 'VAD' 라고 한다)(1320)에서 음성 신호가 검출되면, 상기 VAD(1320)는 각각의 채널(channel)별로 음성 신호가 존재할 확률을 출력값으로 제공한다. 이 때, 상기 '채널(channel)'이라 함은 일정한 개수의 주파수 빈(frequency bin)을 묶은 묶음 단위를 말한다. 즉, 음성이 고주파로 가면서 파워(power)가 감소하는 경향이 있기 때문에 음성 신호의 처리를 각각의 주파수 빈(frequency bin)마다 하지 않고 채널단위로 하게 되는 것이다. 따라서, 고주파로 갈수록 하나의 채널(channel)을 구성하는 주파수 빈(frequency bin)의 개수는 많아지게 된다. After summating signals received from a microphone array consisting of M microphones (1310), a voice signal is detected in a Voice Activity Detector (hereinafter referred to as 'VAD') 1320 using a conventionally known technique. When detected, the VAD 1320 provides as an output value the probability that a voice signal exists for each channel. In this case, the "channel" refers to a bundle unit in which a certain number of frequency bins are bundled. That is, since the power tends to decrease as the voice goes to a high frequency, the voice signal is processed in units of channels instead of for each frequency bin. Therefore, as the frequency increases, the number of frequency bins constituting one channel increases.

도 14에서는 본 발명의 실시에 있어서 상기 VAD(1320)에서 사용되는 채널(channel)과 주파수 빈(frequency bin)과의 관계를 나타내고 있는데, 가로축은 주파수 빈(frequency bin)을 나타내고, 세로축은 채널(channel)을 나타내고 있다. 이 때, 본 발명의 실시에서는 128포인트-이산 푸리에 변환을 하였기 때문에 주파수 빈(frequency bin)의 개수는 64개가 된다. 그러나, 실제로는 62개의 주파수 빈(frequency bin)이 사용되는데, 이것은 첫번째 주파수 빈(frequency bin)은 직류성분의 신호이고, 두번째 주파수 빈(frequency bin)은 매우 낮은 저주파 성분이므로 2개의 주파수 빈(frequency bin)을 제외시킨 것이다. FIG. 14 illustrates a relationship between a channel used in the VAD 1320 and a frequency bin in the embodiment of the present invention. The horizontal axis represents a frequency bin, and the vertical axis represents a channel ( channel). At this time, since the 128-point Discrete Fourier Transform was performed in the present invention, the number of frequency bins is 64. In practice, however, 62 frequency bins are used, which means that the first frequency bin is a signal of direct current and the second frequency bin is a very low low frequency component. bin).

상기 도 14에서 도시한 바와 같이, 고주파 성분의 신호일수록 여러 개의 주파수 빈(frequency bin)이 하나의 채널을 형성하는 것을 볼 수 있다. 예컨대, 6번째 채널(channel)에는 2개의 주파수 빈(frequency bin)이 속해 있지만, 16번째 채널(channel)에는 8개의 주파수 빈(frequency bin)이 속해 있다.As shown in FIG. 14, it can be seen that a plurality of frequency bins form one channel as a signal having a high frequency component. For example, two frequency bins belong to the sixth channel, but eight frequency bins belong to the sixteenth channel.

한편, 본 발명에서는 채널(channel)의 개수를 16개로 하였기 때문에 상기 VAD(1320)는 모두 16개의 채널(channel)별로 음성이 존재할 확률을 출력하게 된다. 그리고 나서, 채널 선택부(1330)는 16개의 확률값을 정렬하여 확률이 높은 상위 K개의 채널만을 선택하여 채널-빈 컨버터(1340)로 전달하고, 상기 채널-빈 컨버터(1340)는 상기 선택된 K개의 채널을 주파수 빈(frequency bin)으로 전환하여, 전환된 주파수 빈(frequency bin)에 대해서만 상기 도 12에서 도시한 광대역 MUSIC부(105)에 있는 공분산 행렬 선택부(Covariance Selector)(1210)에서 선택된다.Meanwhile, in the present invention, since the number of channels is 16, the VAD 1320 outputs the probability that voice is present for each of 16 channels. Then, the channel selector 1330 arranges the 16 probability values, selects only the upper K channels having the highest probability, and transfers them to the channel-emp converter 1340, and the channel-bin converter 1340 receives the selected K coefficients. By switching the channel to a frequency bin, only the switched frequency bin is selected by the covariance selector 1210 in the wideband MUSIC section 105 shown in FIG. .

예컨대, 도 14에서 도시한 5번째 채널(channel)과 10번째 채널(channel)에서 음성이 존재할 확률이 가장 높다고 가정하면, 채널 선택부에서 음성이 존재할 확률이 높은 상위 2개의 채널만 선택하도록 할 경우(즉, K=2), 모두 6개의 주파수 빈(frequency bin)에 대해서만 MUSIC알고리즘 연산이 수행되는 것이다.For example, assuming that voices are most likely to exist in the fifth and tenth channels shown in FIG. 14, the channel selector selects only the top two channels having the highest probability of voice. (Ie, K = 2), MUSIC algorithm operation is performed only on all six frequency bins.

도 15에서는 1.33dB 정도의 팬 잡음(Fan noise)이 존재할 때, 상기 도 13에서 도시한 VAD(1320)에서 연산된 각각의 채널에 대한 평균 음성 존재 확률 분포를 나타내고 있다. 이 때, K=6이라고 하면, 채널 선택부(1330)에서는 상기 도 15에서 나타낸 바와 같이, 2 내지 6번째 채널과, 12,13번째 채널을 선택하게 된다. FIG. 15 illustrates an average voice presence probability distribution for each channel calculated by the VAD 1320 illustrated in FIG. 13 when fan noise of about 1.33 dB is present. In this case, if K = 6, the channel selector 1330 selects the 2nd to 6th channels and the 12th and 13th channels as shown in FIG.

상기 도 15의 우측 상단에 있는 그래프는 시간이 지남에 따른 신호의 크기를 나타낸 것으로서, 샘플링 주파수를 8kHz로 하여 측정한 신호를 16비트 샘플링 값의 크기로 나타내고 있다. 또한, 상기 도 15의 우측 하단에 있는 그래프는 스펙트로그램(spectrogram)을 나타낸 것으로서, 상기 도 14를 참조하여 보면 상기 선택된 6개의 채널에 속한 주파수 빈(frequency bin)에 해당하는 부분은 스펙트로그램 상에서 사각형 부분에 해당되며 잡음보다 음성이 많이 존재하는 부분임을 알 수 있다.The graph in the upper right of FIG. 15 shows the magnitude of a signal over time, and shows a signal measured with a sampling frequency of 8 kHz as a 16-bit sampling value. In addition, the graph at the lower right of FIG. 15 represents a spectrogram, and referring to FIG. 14, a portion corresponding to a frequency bin belonging to the selected six channels is a rectangle on the spectrogram. It corresponds to the part and it can be seen that there is more voice than noise.

도 16은 본 발명의 실시에 따라 주파수 빈(frequency bin)을 선택하기 위한 논리적 블록도를 나타내는 제2 실시도로서, 상기 도 13에서 도시한 제1 실시예와는 달리 직접 주파수 빈(frequency bin)의 개수를 선택하는 방법을 나타내고 있다.FIG. 16 is a second embodiment showing a logical block diagram for selecting a frequency bin in accordance with an embodiment of the present invention. Unlike FIG. 13, FIG. The method of selecting the number of is shown.

상기 도 14에서 도시한 바와 같이, 각각의 채널(channel)에는 다른 수의 주파수 빈(frequency bin)이 속해 있기 때문에 음성이 존재할 확률이 높은 상위 K개의 채널을 선택하더라도 MUSIC알고리즘 연산을 수행하는 주파수 빈(frequency bin)의 개수는 변하게 된다. 따라서, MUSIC알고리즘 연산을 수행하는 주파수 빈(frequency bin)의 개수를 일정하게 유지하기 위한 방법이 필요한바, 상기 도 16에서 이를 나타내고 있다.As shown in FIG. 14, since each channel belongs to a different number of frequency bins, a frequency bin that performs a MUSIC algorithm operation is performed even if the top K channels having a high probability of speech are selected. The number of frequency bins will vary. Accordingly, a method for maintaining a constant number of frequency bins for performing a MUSIC algorithm operation is needed, which is illustrated in FIG.

즉, 주파수 빈 개수 결정부(1610)에서 L개의 주파수 빈(frequency bin)을 선택하도록 결정되면, 채널선택부(1620)에서는 음성이 존재할 확률이 높은 순서대로 정렬된 채널에서 L번째 주파수 빈(frequency bin)이 속하는 K번째 채널(channel)을 결정한다. 이 때, (K-1)번째 채널(channel)까지는 제1 채널-빈 컨버터(1630)에서 M개의 주파수 빈(frequency bin)으로 변환되고, 광대역 MUSIC부(105)에 있는 공분산 행렬 선택부(Covariance Selector)(1210)에서 변환된 M개의 주파수 빈(frequency bin)이 선택된다. That is, when it is determined that the frequency bin number determiner 1610 selects L frequency bins, the channel selector 1620 uses the L-th frequency bins in the channels arranged in the order of the high probability of the voice. It determines the K-th channel (bin) belongs to. At this time, up to the (K-1) -th channel is converted into M frequency bins in the first channel-bin converter 1630, and the covariance matrix selection unit Covariance in the wideband MUSIC unit 105 is used. The M frequency bins transformed by the selector 1210 are selected.

한편, L번째 주파수 빈(frequency bin)이 속하는 K번째 채널(channel)에서는 (L-M)개의 주파수 빈(frequency bin)이 선택되어야 하는데, 선택하는 방법으로서 K번째 채널(channel) 내에서 주파수 빈(frequency bin)의 파워(power)가 높은 순으로 (L-M)개의 주파수 빈(frequency bin)을 선택하는 방법을 이용할 수 있다. 즉, 제2 채널-빈 컨버터(1650)에서 K번째 채널(channel)을 주파수 빈(frequency bin)으로 변환하고, 잔여 빈(bin) 선택부(1650)에서는 상기 변환된 주파수 빈(frequency bin)들 중에서 파워(power)가 높은 순서대로 (L-M)개의 주파수 빈(frequency bin)을 선택함으로써 광대역 MUSIC부(105)에 있는 공분산 행렬 선택부(Covariance Selector)(1210)가 변환된 (L-M)개의 주파수 빈(frequency bin)을 선택하여 MUSIC알고리즘 연산을 수행하도록 한다. 이 때, 파워 측정부(1660)는 VAD(1320)로 입력되는 신호들에 대해 각각의 주파수 빈(frequency bin)별로 파워(power)를 측정한 후, 측정 결과를 잔여 빈 선택부(1650)로 전달함으로써 잔여 빈 선택부(1650)가 (L-M)개의 주파수 빈(frequency bin)을 선택할 수 있도록 한다.Meanwhile, in the K-th channel to which the L-th frequency bin belongs, (LM) frequency bins should be selected. As a selection method, frequency bins in the K-th channel are selected. A method of selecting (LM) frequency bins in ascending order of power of bins may be used. That is, the second channel-bin converter 1650 converts the K-th channel into a frequency bin, and the remaining bin selector 1650 converts the converted frequency bins. (LM) frequency bins in which the covariance matrix selector 1210 in the wideband MUSIC unit 105 is converted by selecting (LM) frequency bins in order of the highest power. Select (frequency bin) to perform MUSIC algorithm operation. At this time, the power measuring unit 1660 measures power for each frequency bin of the signals input to the VAD 1320, and then transfers the measurement result to the remaining bin selecting unit 1650. By passing, the remaining bin selector 1650 can select (LM) frequency bins.

도 17은 본 발명의 실시에 따른 실험 환경을 나타내는 예시도로서, 음성 스피커(1710)와 잡음 스피커(1720), 및 신호처리하는 로보트(1730)로 구성된다. 이 때 상기 음성 스피커(1710)와 상기 잡음 스피커(1720)는 상기 로보트(1730)을 기준으로 90도 방향에 위치한다. 잡음은 팬 잡음(Fan noise)를 이용하였고, 신호 대 잡음비(Signal to Noise Ratio, 이하, 'SNR'이라고 한다)는 12.54dB, 5.88dB, 1.33dB의 세 가지 경우로 나누어 실험하였다. 잡음 스피커(1720)는 로보트로부터 4m, 270도에 위치시켰다. 또한, 상기 음성 스피커(1710)은 로보트(1730)으로부터 1m, 2m, 3m, 4m, 5m 떨어진 경우에 대해서 반시계방향으로 0도, 45도, 90도, 135도, 180도로 이동하면서 측정하였다. 다만, 실험 환경의 제약에 따라 5m의 경우 45도와 135도 회전한 경우에만 측정하였다.FIG. 17 is a diagram illustrating an experimental environment according to an exemplary embodiment of the present invention, and includes a voice speaker 1710, a noise speaker 1720, and a robot 1730 for signal processing. In this case, the voice speaker 1710 and the noise speaker 1720 are positioned at a 90 degree direction with respect to the robot 1730. Fan noise was used, and signal-to-noise ratio (hereinafter referred to as SNR) was divided into three cases of 12.54 dB, 5.88 dB, and 1.33 dB. The noise speaker 1720 was positioned 4 m and 270 degrees from the robot. In addition, the voice speaker 1710 was measured while moving 0 degrees, 45 degrees, 90 degrees, 135 degrees, and 180 degrees counterclockwise with respect to the case of 1 m, 2 m, 3 m, 4 m, and 5 m from the robot 1730. However, it was measured only when rotated 45 degrees and 135 degrees in the case of 5m in accordance with the constraints of the experimental environment.

한편, 마이크로폰 어레이 구조는 도 18에서 도시하고 있는데, 마이크로폰은 모두 8개를 사용하였으며, 상기 8개의 마이크로폰은 상기 로보트(1730)의 배면에 부착되도록 하였다.On the other hand, the microphone array structure is shown in Figure 18, all eight microphones were used, the eight microphones were to be attached to the back of the robot 1730.

또한, 본 실험에서는 음성의 존재할 확률이 높은 상위 6개의 채널을 선택하는 것으로 하여 MUSIC알고리즘 연산을 수행하도록 하였는데, 상기 도 15에서 나타난 바와 같이, 2 내지 6번째 채널과, 12,13번째 채널이 선택됨으로써 총 62개의 주파수 빈(frequency bin) 중 상기 선택된 채널들에 대한 21개의 주파수 빈(frequency bin)에 대하여 MUSIC알고리즘 연산이 수행되었다.In addition, in this experiment, the MUSIC algorithm was performed by selecting the top six channels having a high probability of speech. As shown in FIG. 15, the second to sixth channels and the 12th and 13th channels are selected. As a result, a MUSIC algorithm operation was performed on 21 frequency bins for the selected channels among a total of 62 frequency bins.

상기 도 17과 상기 도 18과 같은 실험 환경에서, 본 발명의 실시에 따른 음성 방향 인식 실험을 한 결과는 다음과 같다. 이 때, 종래의 방법이란 모든 주파수 빈(frequency bin)에 대해 MUSIC알고리즘 연산을 수행하는 방법을 말한다. 또한, 오차의 한계를 벗어난 경우에는 밑줄로 표시하였다.In the experimental environment as illustrated in FIGS. 17 and 18, the results of the voice direction recognition experiment according to the embodiment of the present invention are as follows. In this case, the conventional method refers to a method of performing a MUSIC algorithm operation for all frequency bins. In addition, it is underlined when the deviation of the error is exceeded.

(1) SNR = 12.54dB인 경우(오차의 한계: +-5도)(1) When SNR = 12.54 dB (limit of error: + -5 degrees)

(ㄱ) 종래의 방법에 의한 실험 결과(A) Experimental results by the conventional method

Figure 112004007978616-pat00036
Figure 112004007978616-pat00036

(ㄴ) 본 발명의 실시에 따른 실험 결과 (계산량 70.0% 감소)(B) Experimental results according to the practice of the present invention (calculated amount 70.0% reduction)

Figure 112004007978616-pat00037
Figure 112004007978616-pat00037

(2) SNR = 5.88dB인 경우(오차의 한계: +-5도)(2) When SNR = 5.88 dB (Limit of Error: + -5 degrees)

(ㄱ) 종래의 방법에 의한 실험 결과(A) Experimental results by the conventional method

Figure 112004007978616-pat00038
Figure 112004007978616-pat00038

(ㄴ) 본 발명의 실시에 따른 실험 결과 (계산량 63.5% 감소)(B) Experimental results according to the practice of the present invention (calculated amount 63.5% reduction)

Figure 112004007978616-pat00039
Figure 112004007978616-pat00039

(3) SNR = 1.33dB인 경우(오차의 한계: +-5도)(3) When SNR = 1.33 dB (Limit of error: + -5 degrees)

(ㄱ) 종래의 방법에 의한 실험 결과(A) Experimental results by the conventional method

Figure 112004007978616-pat00040
Figure 112004007978616-pat00040

(ㄴ) 본 발명의 실시에 따른 실험 결과(B) Experimental results according to the practice of the present invention

Figure 112004007978616-pat00041
Figure 112004007978616-pat00041

상기 (1) 내지 (3)의 결과를 분석해 보면, 전체 계산량은 평균 약 66% 감소된 것으로 나타나는데, 이는 주파수 빈(frequency bin)의 개수가 감소된 비율과 거의 동일하다고 볼 수 있다. 다만, 계산량이 감소된 만큼 음성 스피커(1710)의 방향을 가리키는 성공률이 다소 떨어질 수 있는데, 이를 [표 9]에서 나타내고 있다. 그러나, [표 9]를 보면 계산량 감소에 따른 성공률의 감소는 미미함을 알 수 있다. Analyzing the results of (1) to (3), the total amount of calculation is shown to be reduced by about 66% on average, which is almost the same as the rate of decrease in the number of frequency bins (frequency bins). However, as the calculation amount decreases, the success rate indicating the direction of the voice speaker 1710 may drop slightly, which is shown in [Table 9]. However, it can be seen from Table 9 that the success rate decreases due to the decrease of the calculation amount.

Figure 112004007978616-pat00042
Figure 112004007978616-pat00042

도 19a 내지 도 19b는 본 발명의 실시에 따라 잡음 방향의 스펙트럼이 개선된 것을 나타내는 예시도이다. 이 때, 상기 도 19a는 종래의 방법에 따라 모든 주 파수 빈(frequency bin)에 대하여 MUSIC알고리즘 연산을 수행한 결과를 나타내는 스펙트럼(spectrum)이고, 상기 도 19b는 본 발명의 실시에 따라 선택된 주파수 빈(frequency bin)에 대하여 MUSIC알고리즘 연산을 수행한 결과를 나타내는 스펙트럼(spectrum)이다. 상기 도 19a에서 도시한 바와 같이 모든 주파수 빈(frequency bin)을 사용할 경우에는 잡음 방향으로도 스펙트럼이 크게 나타나지만, 상기 도 19b에서 도시한 바와 같이 본 발명의 실시에 따라 음성존재 확률값을 기반으로 하여 주파수 빈(frequency bin)을 선택하면 잡음 방향의 스펙트럼을 많이 줄일 수 있게 된다. 즉, 채널(channel) 개수를 음성존재 확률값에 기반해서 선택함으로써 MUSIC알고리즘의 연산량을 줄이는 효과 외에도 스펙트럼(spectrum) 개선 효과도 얻을 수 있게 된다.19A to 19B are exemplary views illustrating that the spectrum of the noise direction is improved according to the embodiment of the present invention. 19A is a spectrum showing a result of performing a MUSIC algorithm operation on all frequency bins according to a conventional method, and FIG. 19B is a frequency bin selected according to an embodiment of the present invention. Spectrum representing the result of performing a MUSIC algorithm operation on a frequency bin. When all frequency bins are used as shown in FIG. 19A, the spectrum appears large in the noise direction. However, as shown in FIG. 19B, the frequency is based on the probability of speech presence according to the present invention. Selecting a frequency bin can greatly reduce the spectrum in the noise direction. In other words, by selecting the number of channels based on the probability of speech existence, the spectrum improvement effect can be obtained in addition to the effect of reducing the calculation amount of the MUSIC algorithm.

본 발명이 속하는 기술분야의 당업자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 등가개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.Those skilled in the art will appreciate that the present invention can be embodied in other specific forms without changing the technical spirit or essential features. Therefore, it should be understood that the embodiments described above are exemplary in all respects and not restrictive. The scope of the present invention is shown by the following claims rather than the detailed description, and all changes or modifications derived from the meaning and scope of the claims and their equivalents should be construed as being included in the scope of the present invention. do.

상기한 바와 같이 이루어진 본 발명에 따르면, 실내 환경과 같이 반향이 존재하는 곳에서도 광대역의 목적 신호가 제거되는 것을 감소시킴으로써 목적 신호를 최대한 살릴 수 있다.According to the present invention made as described above, it is possible to maximize the object signal by reducing the removal of the object signal of the broadband even in the presence of echoes, such as indoor environment.

또한 본 발명에 의한 음성 인식장치는 이러한 목적 신호 제거 현상을 감소시키는 마이크로폰 어레이를 사용함으로써 높은 음성인식률을 달성할 수 있다.In addition, the speech recognition apparatus according to the present invention can achieve a high speech recognition rate by using a microphone array that reduces the target signal cancellation phenomenon.

또한 본 발명에 따라 광대역 MUSIC알고리즘의 연산량을 줄임으로써 마이크로폰 어레이 시스템의 성능 향상을 도모할 수 있다.In addition, according to the present invention, it is possible to improve the performance of the microphone array system by reducing the calculation amount of the wideband MUSIC algorithm.

Claims (26)

사운드 신호를 입력받기 위해 복수의 마이크로폰을 사용하는 입력부;An input unit using a plurality of microphones to receive a sound signal; 상기 입력부에 입력된 각 사운드 신호를 협대역의 신호로 분리하는 주파수 분리부;A frequency separation unit for separating each sound signal input to the input unit into a narrow band signal; 상기 주파수 분리부를 통해 분리된 사운드 신호의 각 주파수 성분에 대한 공간 공분산 행렬을 구하는데 있어, 상기 입력부의 복수의 마이크로폰을 가상의 서브 어레이의 결합으로 가정하여 각 서브 어레이별로 공간 공분산 행렬을 구하고 이의 평균을 구하는 공간 평활법을 사용하는 평균 공간 공분산 행렬 추정부;In obtaining a spatial covariance matrix for each frequency component of a sound signal separated by the frequency divider, assuming that a plurality of microphones of the input unit is a combination of virtual subarrays, a spatial covariance matrix is obtained for each subarray and its average An average spatial covariance matrix estimator using a spatial smoothing method for obtaining the coefficients; 상기 구해진 공간 평활법을 통해 구해진 평균 공분산 행렬을 통해 상기 사운드 신호의 입사각을 결정하는 신호원 위치 결정부;A signal source position determiner for determining an incident angle of the sound signal through the average covariance matrix obtained through the obtained spatial smoothing method; 상기 신호원 위치 결정부를 통해 얻은 사운드 신호의 입사각을 바탕으로 상기 사운드 신호의 각 주파수 성분에 곱해줄 가중치를 구해 이를 곱해주는 신호왜곡 보정부; 및A signal distortion correction unit which obtains a weight to be multiplied by each frequency component of the sound signal based on an incident angle of the sound signal obtained through the signal source position determiner; And 보정된 각 주파수 성분들을 이용해 사운드 신호를 복원해 내는 신호 복원부를 포함하는 마이크로폰 어레이 시스템.A microphone array system including a signal recovery unit for recovering a sound signal using each of the corrected frequency components. 제1항에 있어서,The method of claim 1, 상기 주파수 분리부는 이산 푸리에 변환을 사용하여 주파수를 분리하고 상기 신호 복원부는 역이산 푸리에 변환을 통해 사운드 신호를 복원하는 것을 특징으로 하는 마이크로폰 어레이 시스템.And the frequency separation unit separates frequencies using a discrete Fourier transform, and the signal recovery unit recovers a sound signal through an inverse discrete Fourier transform. 제1항에 있어서,The method of claim 1, 상기 공간 평활법은 수학식
Figure 112004007978616-pat00043
에 의하여 이루어지고, p는 상기 가상의 서브 어레이의 수를
Figure 112004007978616-pat00044
는 i번째 서브 어레이 마이크로폰 입력신호 벡터를 뜻하고, k는 광대역에서 나누어진 협대역의 k번째 주파수 성분을 의미하며
Figure 112004007978616-pat00045
는 평균 공간 공분산 행렬을 의미하는데, 상기
Figure 112004007978616-pat00046
를 이용하여 MUSIC법에 의해 신호의 입사각
Figure 112004007978616-pat00047
을 구한뒤, 수학식
Figure 112004007978616-pat00048
에 넣어 상기 입력받은 사운드 신호에게 곱해줄 가중치를 계산하는 것을 특징으로 하는 마이크로폰 어레이 시스템.
The spatial smoothing method is
Figure 112004007978616-pat00043
P is the number of the virtual sub-arrays
Figure 112004007978616-pat00044
Denotes the i-th sub-array microphone input signal vector, and k denotes the k-th frequency component of the narrowband divided by the wideband.
Figure 112004007978616-pat00045
Means the mean spatial covariance matrix,
Figure 112004007978616-pat00046
Angle of signal by MUSIC method
Figure 112004007978616-pat00047
After finding the equation,
Figure 112004007978616-pat00048
The microphone array system, characterized in that for calculating the weight to be multiplied by the input sound signal.
제1항에 있어서,The method of claim 1, 상기 신호원 위치 결정부는 상기 입력부로부터 수신한 사운드 신호를 상기 주파수 분리부에 의해 분리된 사운드 신호의 각 주파수 성분으로 분리하고, 상기 분리된 주파수 성분들 중에서 소정의 기준에 따라 선택된 주파수 성분들에 대해서만 MUSIC알고리즘 연산을 수행함으로써 상기 사운드 신호의 입사각을 결정하는 것을 포함하는 마이크로폰 어레이 시스템.The signal source positioning unit divides the sound signal received from the input unit into respective frequency components of the sound signal separated by the frequency separation unit, and only for frequency components selected according to a predetermined criterion among the separated frequency components. And determining an angle of incidence of the sound signal by performing a MUSIC algorithm operation. 제4항에 있어서, The method of claim 4, wherein 상기 신호원 위치 결정부는 The signal source positioning unit 상기 입력부로부터 수신한 사운드 신호를 상기 주파수 분리부에 의해 분리된 사운드 신호의 각 주파수 성분으로 분리하고, 상기 분리된 각 주파수 성분들을 복수개의 그룹으로 나누어 각 그룹별로 음성이 존재할 가능성을 측정하는 음성신호 검출부;A voice signal that divides the sound signal received from the input unit into each frequency component of the sound signal separated by the frequency separation unit, divides each of the separated frequency components into a plurality of groups, and measures the likelihood that voice is present in each group. Detection unit; 상기 그룹들 중에서 상기 가능성이 높은 순서대로 소정의 개수만큼의 그룹을 선택하는 그룹 선택부;A group selector which selects a predetermined number of groups from the groups in the order of high probability; 상기 선택된 그룹에 속하는 주파수 성분에 대하여 MUSIC알고리즘 연산을 수행하는 연산부를 포함하는 마이크로폰 어레이 시스템.And a calculator configured to perform a MUSIC algorithm operation on frequency components belonging to the selected group. 사운드 신호를 입력받기 위해 복수의 마이크로폰을 사용하는 입력부, 상기 입력부에 입력된 각 사운드 신호를 협대역의 신호로 분리하는 주파수 분리부, 상기 주파수 분리부를 통해 분리된 사운드 신호의 각 주파수 성분별로 공간 공분산 행렬을 구하는데 있어, 상기 입력부의 복수의 마이크로폰을 가상의 서브 어레이의 결합으로 가정하여 각 서브 어레이별로 공간 공분산 행렬을 구하고 이의 평균을 구하는 공간 평활법을 사용하는 평균 공간 공분산 행렬 추정부, 상기 구해진 공간 평활법을 통해 구해진 평균 공분산 행렬을 통해 상기 사운드 신호의 입사각을 결정하는 신호원 위치 검색부, 상기 신호원 위치 검색부를 통해 얻은 사운드 신호의 입사각 을 바탕으로 상기 사운드 신호의 각 주파수 성분에 곱해줄 가중치를 구해 이를 곱해주는 신호왜곡 보정부, 및 보정된 각 주파수 성분들을 이용해 사운드 신호를 복원해 내는 신호 복원부를 포함하는 마이크로폰 어레이 시스템과;An input unit using a plurality of microphones to receive a sound signal, a frequency separation unit separating each sound signal input to the input unit into a narrow band signal, and spatial covariance for each frequency component of the sound signal separated through the frequency separation unit An average spatial covariance matrix estimator using a spatial smoothing method for obtaining a spatial covariance matrix for each sub array and averaging the plurality of microphones of the input unit as a combination of virtual sub arrays, A signal source position search unit for determining an incident angle of the sound signal through an average covariance matrix obtained through spatial smoothing method, and multiplies each frequency component of the sound signal based on the incident angle of the sound signal obtained through the signal source position search unit. Signal distortion by taking weights and multiplying them The microphone array system by using the respective frequency components of the government, and including a correction signal that restoration to restore a sound signal; 상기 마이크로폰 어레이 시스템에서 입력받은 사운드 신호의 특징을 추출하는 특징 추출부;A feature extractor for extracting a feature of a sound signal received from the microphone array system; 상기 추출된 특징과 비교될 패턴을 저장하고 있는 기준패턴 저장부;A reference pattern storage unit which stores a pattern to be compared with the extracted feature; 상기 기준패턴 저장부의 패턴과 상기 추출된 특징과 비교하는 비교부; 및A comparison unit comparing the pattern of the reference pattern storage unit with the extracted feature; And 상기 비교된 결과로 음성인식 여부를 판정하는 결정부를 포함하는 음성인식 장치.Speech recognition device comprising a determination unit for determining whether or not the speech recognition as a result of the comparison. 제6항에 있어서,The method of claim 6, 상기 공간 평활법은 수학식
Figure 112004007978616-pat00049
에 의하여 이루어지고, p는 상기 가상의 서브 어레이의 수를
Figure 112004007978616-pat00050
는 i번째 서브 어레이 마이크로폰 입력신호 벡터를 뜻하고, k는 광대역에서 나누어진 협대역의 k번째 주파수 성분을 의미하며
Figure 112004007978616-pat00051
는 평균 공간 공분산 행렬을 의미하는데, 상기
Figure 112004007978616-pat00052
를 이용하여 MUSIC법에 의해 신호의 입사각
Figure 112004007978616-pat00053
을 구한뒤, 수학식
Figure 112004007978616-pat00054
에 넣어 상기 입력받은 사운드 신호에게 곱해줄 가중치를 계산하는 것을 특징으로 하는 음성인식 장치.
The spatial smoothing method is
Figure 112004007978616-pat00049
P is the number of the virtual sub-arrays
Figure 112004007978616-pat00050
Denotes the i-th sub-array microphone input signal vector, and k denotes the k-th frequency component of the narrowband divided by the wideband.
Figure 112004007978616-pat00051
Means the mean spatial covariance matrix,
Figure 112004007978616-pat00052
Angle of signal by MUSIC method
Figure 112004007978616-pat00053
After finding the equation,
Figure 112004007978616-pat00054
And a weight to be multiplied by the input sound signal.
제6항에 있어서,The method of claim 6, 상기 신호원 위치 결정부는 상기 입력부로부터 수신한 사운드 신호를 상기 주파수 분리부에 의해 분리된 사운드 신호의 각 주파수 성분으로 분리하고, 상기 분리된 주파수 성분들 중에서 소정의 기준에 따라 선택된 주파수 성분들에 대해서만 MUSIC알고리즘 연산을 수행함으로써 상기 사운드 신호의 입사각을 결정하는 것을 포함하는 음성인식 장치.The signal source positioning unit divides the sound signal received from the input unit into respective frequency components of the sound signal separated by the frequency separation unit, and only for frequency components selected according to a predetermined criterion among the separated frequency components. And determining an angle of incidence of the sound signal by performing a MUSIC algorithm operation. 제8항에 있어서,The method of claim 8, 상기 신호원 위치 결정부는 The signal source positioning unit 상기 입력부로부터 수신한 사운드 신호를 상기 주파수 분리부에 의해 분리된 사운드 신호의 각 주파수 성분으로 분리하고, 상기 분리된 각 주파수 성분들을 복수개의 그룹으로 나누어 각 그룹별로 음성이 존재할 가능성을 측정하는 음성신호 검출부;A voice signal that divides the sound signal received from the input unit into each frequency component of the sound signal separated by the frequency separation unit, divides each of the separated frequency components into a plurality of groups, and measures the likelihood that voice is present in each group. Detection unit; 상기 그룹들 중에서 상기 가능성이 높은 순서대로 소정의 개수만큼의 그룹을 선택하는 그룹 선택부;A group selector which selects a predetermined number of groups from the groups in the order of high probability; 상기 선택된 그룹에 속하는 주파수 성분에 대하여 MUSIC알고리즘 연산을 수행하는 연산부를 포함하는 음성인식 장치.And a calculator configured to perform a MUSIC algorithm operation on the frequency component belonging to the selected group. 복수개의 마이크로폰으로 구성된 어레이로부터 광대역의 사운드 신호를 입력받는 제1단계;A first step of receiving a wideband sound signal from an array consisting of a plurality of microphones; 입력받은 신호를 복수의 협대역으로 분리하는 제2단계;Dividing the received signal into a plurality of narrow bands; 상기 어레이를 복수개의 마이크로폰으로 구성된 서브 어레이의 집합으로 가정하여 서브 어레이 별로 상기 분리된 대역별로 소정의 방식으로 공간 공분산 행렬을 구하고 이를 각 대역별로 평균하여 대역별로 평균 공간 공분산 행렬을 구하는 제3단계;Assuming that the array is a set of subarrays composed of a plurality of microphones, obtaining a spatial covariance matrix in a predetermined manner for each of the separated bands for each subarray, and averaging them for each band to obtain an average spatial covariance matrix for each band; 상기 평균 공간 공분산 행렬로 상기 사운드 신호의 입사각을 소정의 공식으로 구하는 제4단계;A fourth step of obtaining an incidence angle of the sound signal by a predetermined formula using the mean spatial covariance matrix; 상기 구해진 입사각을 바탕으로 상기 협대역으로 분리된 신호에게 곱해줄 가중치를 계산하여 이를 상기 협대역으로 분리된 신호에게 곱해주는 제5단계; 및A fifth step of calculating a weight to be multiplied to the signal separated into the narrowband based on the obtained angle of incidence and multiplying the result to the signal separated into the narrowband; And 및 상기 가중치를 곱한 협대역 신호들로부터 광대역 신호로 복원하는 제6단계를 포함하는 마이크로폰 어레이 방법.And restoring a wideband signal from narrowband signals multiplied by the weight. 제10항에 있어서,The method of claim 10, 상기 제2단계는 이산 푸리에 변환에 의하고, 제6단계는 역이산 푸리에 변환에 의하는 것을 특징으로 하는 마이크로폰 어레이 방법.Wherein the second step is by discrete Fourier transform and the sixth step is by inverse discrete Fourier transform. 제10항에 있어서,The method of claim 10, 상기 제3단계는 평균 공간 공분산 행렬
Figure 112004007978616-pat00055
를 수학식
Figure 112004007978616-pat00056
에 의해 구하고, 상기 제4단계는 상기
Figure 112004007978616-pat00057
를 사용하여 MUSIC법에 의해 신호의 입사각
Figure 112004007978616-pat00058
을 구하고, 상기 제5단계는 상기 제3단계에서 구해진
Figure 112004007978616-pat00059
와 상기 제4단계에서 구해진
Figure 112004007978616-pat00060
을 수학식
Figure 112004007978616-pat00061
에 대입하여 k번째 주파수 성분에 대한 가중치를 구하고 이를 각 주파수 성분에 곱해주는 것을 특징으로 하는 마이크로폰 어레이 방법.
The third step is an average spatial covariance matrix
Figure 112004007978616-pat00055
To the equation
Figure 112004007978616-pat00056
Obtained by, and the fourth step is
Figure 112004007978616-pat00057
Angle of incidence of signals by MUSIC method using
Figure 112004007978616-pat00058
And the fifth step is obtained from the third step.
Figure 112004007978616-pat00059
And obtained in the fourth step
Figure 112004007978616-pat00060
To the equation
Figure 112004007978616-pat00061
A microphone array method, comprising: substituting for and obtaining a weight for a k-th frequency component and multiplying the frequency component by each frequency component.
제10항에 있어서,The method of claim 10, 상기 제4단계는 상기 제1단계에서 수신한 사운드 신호를 상기 제2단계에서 분리된 사운드 신호의 각 주파수 성분으로 분리하고, 상기 분리된 주파수 성분들 중에서 소정의 기준에 따라 선택된 주파수 성분들에 대해서만 MUSIC알고리즘 연산을 수행함으로써 상기 사운드 신호의 입사각을 결정하는 단계를 포함하는 마이크로폰 어레이 방법.In the fourth step, the sound signal received in the first step is separated into respective frequency components of the sound signal separated in the second step, and only for frequency components selected according to a predetermined criterion among the separated frequency components. Determining an angle of incidence of the sound signal by performing a MUSIC algorithm operation. 제13항에 있어서,The method of claim 13, 상기 제4단계는 상기 제1단계에서 수신한 사운드 신호를 상기 제2단계에서 분리된 사운드 신호의 각 주파수 성분으로 분리하는 단계, 상기 분리된 각 주파수 성분들을 복수개의 그룹으로 나누어 각 그룹별로 음성이 존재할 가능성을 측정하는 단계, 상기 가능성이 높은 순서대로 소정의 개수만큼의 그룹을 선택하는 단계, 상기 선택된 그룹에 속하는 주파수 성분에 대하여 MUSIC알고리즘 연산을 수행하는 단계를 포함하는 마이크로폰 어레이 방법.In the fourth step, the sound signal received in the first step is separated into respective frequency components of the sound signal separated in the second step. Measuring a likelihood of existence, selecting a predetermined number of groups in the order of likelihood, and performing a MUSIC algorithm operation on frequency components belonging to the selected group. 복수개의 마이크로폰으로 구성된 어레이로부터 광대역의 사운드 신호를 입력받는 제1단계;A first step of receiving a wideband sound signal from an array consisting of a plurality of microphones; 입력받은 신호를 복수의 협대역으로 분리하는 제2단계;Dividing the received signal into a plurality of narrow bands; 상기 어레이를 복수개의 마이크로폰으로 구성된 서브 어레이의 집합으로 가정하여 서브 어레이 별로 상기 분리된 대역별로 소정의 방식으로 공간 공분산 행렬을 구하고 이를 각 대역별로 평균하여 대역별로 평균 공간 공분산 행렬을 구하는 제3단계;Assuming that the array is a set of subarrays composed of a plurality of microphones, obtaining a spatial covariance matrix in a predetermined manner for each of the separated bands for each subarray, and averaging them for each band to obtain an average spatial covariance matrix for each band; 상기 평균 공간 공분산 행렬로 상기 사운드 신호의 입사각을 소정의 공식으로 구하는 제4단계;A fourth step of obtaining an incidence angle of the sound signal by a predetermined formula using the mean spatial covariance matrix; 상기 구해진 입사각을 바탕으로 상기 협대역으로 분리된 신호에게 곱해줄 가중치를 계산하여 이를 상기 협대역으로 분리된 신호에게 곱해주는 제5단계; 및A fifth step of calculating a weight to be multiplied to the signal separated into the narrowband based on the obtained angle of incidence and multiplying the result to the signal separated into the narrowband; And 상기 가중치를 곱한 협대역 신호들로부터 광대역 신호로 복원하는 제6단계;Restoring a wideband signal from narrowband signals multiplied by the weights; 상기 복원된 광대역 신호의 특징을 추출하는 제7단계;Extracting features of the restored wideband signal; 상기 추출된 특징과 기준패턴과 비교하는 제8단계; 및An eighth step of comparing the extracted feature with a reference pattern; And 상기 특징과 기준패턴을 비교한 결과로 음성인식 여부를 결정하는 제9단계를 포함하는 음성인식 방법.And a ninth step of determining whether to recognize the voice as a result of comparing the feature and the reference pattern. 제15항에 있어서,The method of claim 15, 상기 제2단계는 이산 푸리에 변환에 의하고, 제6단계는 역이산 푸리에 변환에 의하는 것을 특징으로 하는 음성인식 방법.The second step is a discrete Fourier transform, the sixth step is an inverse discrete Fourier transform. 제15항에 있어서, 상기 제3단계는 평균 공간 공분산 행렬
Figure 112004007978616-pat00062
를 수학식
Figure 112004007978616-pat00063
에 의해 구하고, 상기 제4단계는 상기
Figure 112004007978616-pat00064
를 사용하여 MUSIC법에 의해 신호의 입사각
Figure 112004007978616-pat00065
을 구하고, 상기 제5단계는 상기 제3단계에서 구해진
Figure 112004007978616-pat00066
와 상기 제4단계에서 구해진
Figure 112004007978616-pat00067
을 수학식
Figure 112004007978616-pat00068
에 대입하여 k번째 주파수 성분에 대한 가중치를 구하고 이를 각 주파수 성분에 곱해주는 것을 특징으로 하는 음성인식 방법.
16. The method of claim 15, wherein the third step is an average spatial covariance matrix
Figure 112004007978616-pat00062
To the equation
Figure 112004007978616-pat00063
Obtained by, and the fourth step is
Figure 112004007978616-pat00064
Angle of incidence of signals by MUSIC method using
Figure 112004007978616-pat00065
And the fifth step is obtained from the third step.
Figure 112004007978616-pat00066
And obtained in the fourth step
Figure 112004007978616-pat00067
To the equation
Figure 112004007978616-pat00068
Obtaining a weight for the k-th frequency component by substituting for and multiplying it by each frequency component.
제15항에 있어서, 상기 제4단계는 상기 제1단계에서 수신한 사운드 신호를 상기 제2단계에서 분리된 사운드 신호의 각 주파수 성분으로 분리하고, 상기 분리된 주파수 성분들 중에서 소정의 기준에 따라 선택된 주파수 성분들에 대해서만 MUSIC알고리즘 연산을 수행함으로써 상기 사운드 신호의 입사각을 결정하는 단계를 포함하는 음성인식 방법.The method of claim 15, wherein the fourth step divides the sound signal received in the first step into respective frequency components of the sound signal separated in the second step, and according to a predetermined criterion among the separated frequency components. Determining the angle of incidence of the sound signal by performing a MUSIC algorithm operation on only selected frequency components. 제18항에 있어서, 상기 제4단계는 상기 제1단계에서 수신한 사운드 신호를 상기 제2단계에서 분리된 사운드 신호의 각 주파수 성분으로 분리하는 단계, 상기 분리된 각 주파수 성분들을 복수개의 그룹으로 나누어 각 그룹별로 음성이 존재할 가능성을 측정하는 단계, 상기 가능성이 높은 순서대로 소정의 개수만큼의 그룹을 선택하는 단계, 상기 선택된 그룹에 속하는 주파수 성분에 대하여 MUSIC알고리즘 연산을 수행하는 단계를 포함하는 음성인식 방법.19. The method of claim 18, wherein the fourth step divides the sound signal received in the first step into respective frequency components of the sound signal separated in the second step, and separates each of the separated frequency components into a plurality of groups. Dividing and measuring the likelihood of existence of speech for each group, selecting a predetermined number of groups in the order of high probability, and performing a MUSIC algorithm operation on frequency components belonging to the selected group. Recognition method. 제1항에 있어서, 상기 신호원 위치 결정부는 상기 입력부로부터 수신한 사운드 신호를 상기 주파수 분리부에 의해 분리된 사운드 신호의 각 주파수 성분으로 분리하고, 상기 분리된 주파수 성분들 중에서 소정의 기준에 따라 선택된 주파수 성분들에 대해서만 MUSIC알고리즘 연산을 수행함으로써 상기 사운드 신호의 입사각을 결정하는 것을 포함하는 마이크로폰 어레이 시스템.The method of claim 1, wherein the signal source positioning unit separates the sound signal received from the input unit into each frequency component of the sound signal separated by the frequency separation unit, according to a predetermined criterion among the separated frequency components And determining an angle of incidence of the sound signal by performing a MUSIC algorithm operation on only selected frequency components. 사운드 신호를 입력받는 복수의 마이크로폰을 포함하는 신호 입력부;A signal input unit including a plurality of microphones for receiving a sound signal; 상기 신호 입력부에 입력된 사운드 신호를 협대역의 신호로 분리하는 주파수 분리부;A frequency separation unit for separating the sound signal input to the signal input unit into a narrow band signal; 상기 주파수 분리부에 의해 분리된 사운드 신호의 각 주파수 성분 중에서 소정의 기준에 따라 선택된 주파수 성분에 대하여 MUSIC알고리즘 연산을 수행하는 신 호처리부;A signal processor for performing a MUSIC algorithm operation on a frequency component selected according to a predetermined reference among the frequency components of the sound signal separated by the frequency separator; 상기 신호처리부의 처리 결과를 이용하여 음성 신호의 방향을 검출하는 방향 검출부를 포함하는 음성인식 장치.And a direction detecting unit detecting a direction of a voice signal using the processing result of the signal processing unit. 제21항에 있어서,The method of claim 21, 상기 주파수 분리부는 이산 푸리에 변환(Discrete Fourier Transform)을 사용하여 주파수를 분리하는 것을 포함하는 음성인식 장치.The frequency separation unit speech recognition device comprising separating the frequency using a Discrete Fourier Transform (Discrete Fourier Transform). 제21항에 있어서,The method of claim 21, 상기 신호처리부는The signal processor 상기 신호 입력부로부터 수신한 사운드 신호를 상기 주파수 분리부에 의해 분리된 사운드 신호의 각 주파수 성분으로 분리하고, 상기 분리된 각 주파수 성분들을 복수개의 그룹으로 나누어 각 그룹별로 음성이 존재할 가능성을 측정하는 음성신호 검출부;Voice that separates the sound signal received from the signal input unit into each frequency component of the sound signal separated by the frequency separation unit, divides each of the separated frequency components into a plurality of groups, and measures the likelihood that there is a voice for each group A signal detector; 상기 그룹들 중에서 상기 가능성이 높은 순서대로 소정의 개수만큼의 그룹을 선택하는 그룹 선택부;A group selector which selects a predetermined number of groups from the groups in the order of high probability; 상기 선택된 그룹에 속하는 주파수 성분에 대하여 MUSIC알고리즘 연산을 수행하는 연산부를 포함하는 음성인식 장치.And a calculator configured to perform a MUSIC algorithm operation on the frequency component belonging to the selected group. 복수의 마이크로폰으로부터 사운드 신호를 수신하는 (a) 단계;(A) receiving a sound signal from a plurality of microphones; 상기 수신한 사운드 신호를 협대역의 신호로 분리하는 (b) 단계;(B) separating the received sound signal into a narrowband signal; 상기 분리된 사운드 신호의 각 주파수 성분 중에서 소정의 기준에 따라 선택된 주파수 성분에 대하여 MUSIC알고리즘 연산을 수행하는 (c) 단계;(C) performing a MUSIC algorithm on a frequency component selected according to a predetermined criterion among the frequency components of the separated sound signal; 상기 (c) 단계의 연산 결과를 이용하여 음성 신호의 방향을 검출하는 (d) 단계를 포함하는 음성인식 방법.(D) detecting a direction of a voice signal using the operation result of step (c). 제24항에 있어서,The method of claim 24, 상기 (b) 단계는 이산 푸리에 변환(Discrete Fourier Transform)을 사용하여 주파수를 분리하는 단계인 것을 포함하는 음성인식 방법.The step (b) is a speech recognition method comprising the step of separating the frequency using a Discrete Fourier Transform (Discrete Fourier Transform). 제24항에 있어서,The method of claim 24, 상기 (c) 단계는 상기 (a) 단계로부터 수신한 사운드 신호를 상기 (b) 단계에 의해 분리된 사운드 신호의 각 주파수 성분으로 분리하고, 상기 분리된 각 주파수 성분들을 복수개의 그룹으로 나누어 각 그룹별로 음성이 존재할 가능성을 측정하는 단계;In the step (c), the sound signal received from the step (a) is divided into respective frequency components of the sound signal separated by the step (b), and each divided frequency component is divided into a plurality of groups. Measuring the likelihood that voice is present; 상기 그룹들 중에서 상기 가능성이 높은 순서대로 소정의 개수만큼의 그룹을 선택하는 단계;Selecting a predetermined number of groups from the groups in the order of likelihood; 상기 선택된 그룹에 속하는 주파수 성분에 대하여 MUSIC알고리즘 연산을 수행하는 단계를 포함하는 음성인식 방법.And performing a MUSIC algorithm operation on frequency components belonging to the selected group.
KR1020040013029A 2003-05-02 2004-02-26 Microphone array method and system, and speech recongnition method and system using the same KR100621076B1 (en)

Priority Applications (3)

Application Number Priority Date Filing Date Title
EP04252563A EP1473964A3 (en) 2003-05-02 2004-04-30 Microphone array, method to process signals from this microphone array and speech recognition method and system using the same
US10/836,207 US7567678B2 (en) 2003-05-02 2004-05-03 Microphone array method and system, and speech recognition method and system using the same
JP2004137875A JP4248445B2 (en) 2003-05-02 2004-05-06 Microphone array method and system, and voice recognition method and apparatus using the same

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020030028340 2003-05-02
KR20030028340 2003-05-02

Publications (2)

Publication Number Publication Date
KR20040094300A KR20040094300A (en) 2004-11-09
KR100621076B1 true KR100621076B1 (en) 2006-09-08

Family

ID=37374020

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020040013029A KR100621076B1 (en) 2003-05-02 2004-02-26 Microphone array method and system, and speech recongnition method and system using the same

Country Status (1)

Country Link
KR (1) KR100621076B1 (en)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100657912B1 (en) 2004-11-18 2006-12-14 삼성전자주식회사 Noise reduction method and apparatus
CN101371295B (en) * 2006-01-18 2011-12-21 Lg电子株式会社 Apparatus and method for encoding and decoding signal
TWI333643B (en) * 2006-01-18 2010-11-21 Lg Electronics Inc Apparatus and method for encoding and decoding signal
KR101534781B1 (en) * 2014-01-02 2015-07-08 경상대학교산학협력단 Apparatus and method for estimating sound arrival direction
US10342509B2 (en) * 2015-03-27 2019-07-09 Alpinion Medical Systems Co., Ltd. Beamforming device, ultrasonic imaging device, and beamforming method allowing simple spatial smoothing operation
KR102081295B1 (en) * 2017-05-26 2020-02-25 에스케이텔레콤 주식회사 Apparatus and method for preprocessing of speech signal
KR101986780B1 (en) 2018-01-22 2019-06-07 주식회사 숨터 Convergence Type Nono Washer Air Cleaner
CN110517703B (en) * 2019-08-15 2021-12-07 北京小米移动软件有限公司 Sound collection method, device and medium
KR102343811B1 (en) * 2020-02-28 2021-12-28 광주과학기술원 Method for detecting voice
KR102611910B1 (en) * 2023-04-28 2023-12-11 주식회사 엠피웨이브 Beamforming device
CN116609726A (en) * 2023-05-11 2023-08-18 钉钉(中国)信息技术有限公司 Sound source positioning method and device

Also Published As

Publication number Publication date
KR20040094300A (en) 2004-11-09

Similar Documents

Publication Publication Date Title
JP4248445B2 (en) Microphone array method and system, and voice recognition method and apparatus using the same
US7496482B2 (en) Signal separation method, signal separation device and recording medium
US10127922B2 (en) Sound source identification apparatus and sound source identification method
KR101413229B1 (en) DOA estimation Device and Method
Ishi et al. Evaluation of a MUSIC-based real-time sound localization of multiple sound sources in real noisy environments
EP2748817B1 (en) Processing signals
KR101925887B1 (en) Systems and methods for blind localization of correlated sources
EP2530484B1 (en) Sound source localization apparatus and method
WO2002031815A1 (en) System and method for linear prediction
US20080310646A1 (en) Audio signal processing method and apparatus for the same
JP5702685B2 (en) Sound source direction estimating apparatus and sound source direction estimating method
US10771894B2 (en) Method and apparatus for audio capture using beamforming
Grondin et al. Time difference of arrival estimation based on binary frequency mask for sound source localization on mobile robots
KR100621076B1 (en) Microphone array method and system, and speech recongnition method and system using the same
Li et al. Estimation of relative transfer function in the presence of stationary noise based on segmental power spectral density matrix subtraction
US20180277140A1 (en) Signal processing system, signal processing method and storage medium
Asaei et al. Model-based sparse component analysis for reverberant speech localization
CN111308424A (en) Transformer substation equipment audible sound source positioning method based on summation and MUSIC combined algorithm
CN113870893A (en) Multi-channel double-speaker separation method and system
JP4977849B2 (en) Radio wave arrival direction detector
CN115201753A (en) Low-power-consumption multi-spectral-resolution voice positioning method
JP6815956B2 (en) Filter coefficient calculator, its method, and program
JP2017151216A (en) Sound source direction estimation device, sound source direction estimation method, and program
Bai et al. Acoustic source localization and deconvolution-based separation
Lee et al. Subspace-based DOA with linear phase approximation and frequency bin selection preprocessing for interactive robots in noisy environments

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee