KR20100010356A - Sound source separation method and system for using beamforming - Google Patents
Sound source separation method and system for using beamforming Download PDFInfo
- Publication number
- KR20100010356A KR20100010356A KR1020080071287A KR20080071287A KR20100010356A KR 20100010356 A KR20100010356 A KR 20100010356A KR 1020080071287 A KR1020080071287 A KR 1020080071287A KR 20080071287 A KR20080071287 A KR 20080071287A KR 20100010356 A KR20100010356 A KR 20100010356A
- Authority
- KR
- South Korea
- Prior art keywords
- voice signal
- signal
- sound source
- transfer function
- individual
- Prior art date
Links
- 238000000926 separation method Methods 0.000 title claims abstract description 34
- 238000012546 transfer Methods 0.000 claims abstract description 52
- 238000005516 engineering process Methods 0.000 claims abstract description 24
- 230000004044 response Effects 0.000 claims abstract description 17
- 238000012545 processing Methods 0.000 claims abstract description 16
- 238000000034 method Methods 0.000 claims description 34
- 238000001514 detection method Methods 0.000 claims description 10
- 238000003491 array Methods 0.000 claims description 8
- 238000006243 chemical reaction Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 2
- 230000005236 sound signal Effects 0.000 claims 1
- 230000006870 function Effects 0.000 abstract description 36
- 230000003044 adaptive effect Effects 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 5
- 238000001914 filtration Methods 0.000 description 4
- 238000012880 independent component analysis Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008571 general function Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
Abstract
본 발명에 따른 빔포밍 기술을 이용한 음원 분리 방법 및 시스템은 마이크 어레이를 통해 적어도 하나 이상의 음성이 포함된 통합 음성신호가 입력되면 그 통합 음성신호에 대하여 기 설정된 방향으로 hanning 윈도우를 씌어 프레임으로 구분하는 windowing 처리부; 프레임별로 구분된 각각의 개별 음성신호를 주파수축으로 변환하는 DFT 변환부; 주파수 축으로 변환된 프레임에 대한 임펄스 응답을 구하여 개별 음성신호의 트랜스퍼 펑션(Transfer Function)을 추정하는 적어도 하나 이상의 TF 추정부; 통합 음성신호에서 개별 음성신호의 트랜스퍼 펑션들을 제거하여 잡음 신호를 추정하는 잡음 추정부; 개별 음성신호들 중 추출하고자 하는 개별 음성신호를 제외한 나머지 개별 음성신호를 통합 음성신호에서 제거하는 적어도 하나 이상의 음성신호 추출부; 및 검출하고자 하는 개별 음성신호의 트랜스퍼 펑션에서 잡음 추정부를 통해 제공되는 잡음 부분을 제거하여 잡음이 제거된 개별 음성신호를 추출하는 적어도 하나 이상의 음성신호 검출부를 포함하는 것으로, 적어도 하나 이상의 음원이 동시에 입력되더라도 그 음원들을 각각 분리하여 별도로 저장 관리하거나 최초 음원을 저장 관리할 수 있는 이점이 있다. In the sound source separation method and system using the beamforming technology according to the present invention, when an integrated voice signal including at least one voice is input through a microphone array, the integrated voice signal is divided into frames by writing a hanning window in a predetermined direction. windowing processing unit; A DFT converter for converting each individual voice signal classified for each frame into a frequency axis; At least one TF estimator for estimating a transfer function of an individual voice signal by obtaining an impulse response for a frame converted into a frequency axis; A noise estimator for estimating a noise signal by removing transfer functions of individual speech signals from the integrated speech signal; At least one voice signal extracting unit for removing remaining individual voice signals from the integrated voice signals except for the individual voice signals to be extracted among the individual voice signals; And at least one voice signal detector for extracting an individual voice signal from which noise is removed by removing a noise portion provided through a noise estimator in a transfer function of an individual voice signal to be detected, wherein at least one sound source is input at the same time. Even though the sound sources are separated from each other, there is an advantage of separately storing and managing the first sound source.
Description
본 발명은 음성통신/인식에 필요한 음원분리에 관한 것이다. The present invention relates to sound source separation required for voice communication / recognition.
여기서 음원 분리란 입력장치(마이크 어레이)에 적어도 두 개 이상의 음원이 동시에 입력되는 경우 이를 각각 분리하는 것을 말한다. Here, sound source separation refers to separating at least two sound sources when input to the input device (microphone array) at the same time.
종래 마이크 어레이 어레이를 이용한 잡음 제거 시스템은 적어도 하나 이상의 마이크 어레이, 마이크 어레이에 각각 연결된 단구간 분석부, 에코 제거부, 방향성 잡음 제거와, 정면소리 유/무를 기반으로 필터 weight update on/off하는 적응 빔포밍(adaptive beamforming) 처리부, 마이크간의 신호의 상관관계를 이용하여 정면소리를 정면소리 검출부, 잔여잡음 제거와 정면소리 유/무를 기반으로 잔여 잡음을 제어하는 포스트 필터링부(Post-filtering) 및 오버랩 및 추가(Overlap and add) 처리부를 포함한다. The conventional noise reduction system using a microphone array array has at least one microphone array, a short section analyzer connected to each of the microphone arrays, an echo canceller, a directional noise canceller, and an adaptation of filter weight update on / off based on the presence or absence of frontal sound. Adaptive beamforming processing unit, front-side sound detection unit using the correlation of the signal between the microphone, the front noise detection unit, post-filtering and overlapping to control the residual noise based on the presence and absence of the residual noise and overlapping And an overlap (add) processing unit.
빔포밍(Beamforming)은 마이크 어레이를 사용하는 경우 각 마이크에 들어오 는 신호의 차이 때문에 각도에 따른 입력신호의 이득이 달라진다. 이것은 각도에 따라서 방향성 패턴(directivity pattern)을 형성한다. In beamforming, when the microphone array is used, the gain of the input signal varies depending on the angle due to the difference in the signal input to each microphone. This forms a directivity pattern according to the angle.
도 1은 마이크 어레이 정면이 90도인 경우의 방향성 패턴(directivity pattern)이다. 1 is a directivity pattern in the case where the front face of the microphone array is 90 degrees.
이는 하기 [수학식 1]과 같다. This is shown in
[수학식 1] [Equation 1]
여기서, f =주파수, N= 마이크의 개수, d=마이크 사이의 간격, Where f = frequency, N = number of microphones, d = spacing between microphones,
는 amplitude weight이고 는 phase weight이다. Is the amplitude weight and is the phase weight.
따라서 빔포밍(Beamforming) 기술은 마이크 어레이를 사용함에 따라 생기는 방향성 패턴(directivity pattern)을 과 을 조절함으로써 원하는 각도의 방향으로 바꿔주는 것이다. Therefore, beamforming technology eliminates the directivity pattern generated by using a microphone array. and By adjusting, you change the direction of the desired angle.
이러한 방법을 통해서 원하는 방향의 신호만을 받을 수 있다. In this way, only the signal in the desired direction can be received.
이후, FDBSS(frequency domain blind source separation, 이하 "FDBSS"라 함) 기술을 수행한다. Thereafter, a frequency domain blind source separation (FDBSS) technique is performed.
FDBSS 기술은 두 개의 음원이 섞여서 들어오는 경우에 이를 분리하기 위한 기술로서 주파수축에서 수행된다. 주파수 축에서 하는 경우 알고리즘 구현이 보다 간단해지고 계산시간이 줄어드는 장점이 있다. The FDBSS technique is a technique for separating two sound sources when they are mixed and performed on the frequency axis. On the frequency axis, the algorithm implementation is simpler and the computation time is reduced.
입력된 두 개의 음원이 섞인 신호는 short-time Fourier transform(STFT)으로 주파수축으로 바뀐다. 그 후 independent component analysis(ICA)의 3개의 단계를 통해서 음원이 분리된 신호로 바뀐다. The mixed signal of two input sources is short-time Fourier transform (STFT) to change the frequency axis. The sound source is then transformed into separate signals through three stages of independent component analysis (ICA).
우선, 1단계는 linear transformation이다. First step is linear transformation.
마이크의 수가 음원의 수보다 많은 경우 transformation(V)을 통해서 입력신호의 차원을 음원의 차원으로 줄여주는 단계이다. 일반적으로 음원의 수보다 마이크의 수가 많기 때문에 범위 분류(dimension reduction) 부분이 ICA에 포함된다. If the number of microphones is larger than the number of sound sources, this step reduces the dimensions of the input signal to the dimensions of the sound source through transformation (V). In general, the dimension reduction part is included in the ICA because the number of microphones is larger than the number of sound sources.
2단계는 1단계에서 처리된 신호에 단일 행렬(unitary matrix)(B)를 곱해줌으로써 분리된 신호의 주파수 영역의 값을 구한다.
3단계는 1단계와 2단계를 통하여 구한 분리 행렬(separation matrix)(V*B)를 연구를 통해 나타난 법칙(learning rule)을 이용하여 점진적으로 향상시킨다.In the third step, the separation matrix (V * B) obtained in
위의 과정을 통해서 분리된 신호를 얻은 후 위치측정(localization)을 취해준다.The above procedure obtains the separated signal and takes localization.
위치측정은 ICA에 의해 분리된 음원이 어떤 방향에서 들어온 소리인지를 구분한다. Positioning distinguishes which direction the sound source separated by the ICA is coming from.
다음 단계는 교환(permutation)이다. The next step is permutation.
이 단계에서는 앞에서 분리한 음원의 방향이 바뀌지 않고 유지되도록 해주 는 역할을 한다.In this stage, the direction of the previously separated sound source is kept unchanged.
그 다음은 마지막 단계로서 scaling&smoothing이다.The next step is scaling & smoothing.
음원 분리된 신호의 크기가 왜곡되지 않도록 조정해주는 단계가 크기이다. 음원분리를 위해 사용한 분리 행렬(separation matrix)의 pseudo inverse를 계산함으로써 해결 할 수 있다.The step is to adjust the size of the sound source separated signal so that it is not distorted. This can be solved by calculating the pseudo inverse of the separation matrix used for sound source separation.
FDBSS에서 fs/L(fs : sampling frequency)의 간격을 갖는 L 포인트(point)들로 샘플링(sampling)된 주파수 응답(frequency response)들은 시간 축에서 주기 L/fs를 갖는 주기신호들로 표현된다. Frequency responses sampled to L points with an interval of fs / L (fs: sampling frequency) in the FDBSS are represented by periodic signals having a period L / fs on the time axis.
이것은 periodic infinite-length filter로서 현실적이지 않다. This is not realistic as a periodic infinite-length filter.
그래서 일반적으로 시간 축에서 신호가 하나의 주기를 갖는 필터를 사용한다. So, in general, you use a filter in which the signal has one period on the time axis.
이 필터를 사용하는 경우 신호(signal)에 손실이 생기고 분리(separation)의 성능이 낮아진다. Using this filter results in loss of signal and poor separation performance.
이것은 해결하기위해서 smoothing 단계가 필요하다. This requires a smoothing step to solve.
이 단계에서 양 끝이 0으로 점점 부드럽게 가까워지는 Hanning window를 곱해줌으로써 주파스 응답이 부드럽게 하여 신호의 손실이 줄고 분리의 성능이 향상된다. By multiplying the Hanning window, where both ends get closer to zero, the frequency response is smoother, reducing signal loss and improving separation.
이런 방법을 통해서 음원 분리를 하는 것이 FDBSS이다.It is FDBSS to separate sound sources through this method.
그러나 종래 빔포밍(Beamforming) 기술은 마이크 어레이의 방향성 패턴(directivity pattern)을 조정함으로써 원하는 방향의 신호만을 받을 수 있는 방 법이지만 그 방향 주변에 다른 음원이 있는 경우 성능이 하락되는 문제가 있었다. 종래 빔포밍(Beamforming) 기술은 어느 정도 원하는 방향으로의 방향성 패턴(directivity pattern) 조절은 가능하지만 정확히 우리가 원하는 방향을 향해 뽀족하게 나오도록 하는 것은 어렵기 때문이다. However, the conventional beamforming technique can receive only a signal in a desired direction by adjusting the directivity pattern of the microphone array, but there is a problem in that performance decreases when there are other sound sources around the direction. The conventional beamforming technique is able to adjust the direction pattern in the desired direction to some extent, but it is difficult to make it point out exactly in the desired direction.
그리고 FDBSS 기술은 음원의 개수, reverberation, 사용자 위치이동 같은 제약조건에 성능 차이가 나는 문제가 있다. 또한 음성인식 관점에서 missing feature compensation의 보상이 필요한 문제점이 있었다. In addition, the FDBSS technique has a performance difference in constraints such as the number of sound sources, reverberation, and user position shift. In addition, there was a problem that the compensation of the missing feature compensation in terms of speech recognition.
두 사람이 동시에 말하는 경우에 신호가 섞이게 되면서 음성인식의 성능이 현저하게 떨어지게 되는 문제점이 있었다. When two people speak at the same time, there is a problem that the performance of speech recognition is significantly reduced as the signals are mixed.
따라서 본 발명은 상기와 같은 종래의 문제점을 해결하기 위한 것으로서, 본 발명의 목적은 두 개의 음성이 동시에 들어오는 상황에서 음성통신/인식기의 성능 향상을 위해 각각의 음성을 분리하는 빔포밍 기술을 이용한 음원 분리 방법 및 시스템을 제공하는 데 있다. Therefore, the present invention is to solve the conventional problems as described above, the object of the present invention is a sound source using a beamforming technology that separates each voice to improve the performance of the voice communication / recognizer in the situation where two voices at the same time To provide a separation method and system.
상기한 목적을 달성하기 위한 본 발명에 따른 빔포밍 기술을 이용한 음원 분리 시스템의 일 측면에 따르면, 빔포밍된 적어도 하나 이상의 마이크 어레이를 통해 입력된 통합 음성신호에 윈도우를 씌우는 windowing 처리부; 상기 windown 처리부를 통해 윈도우가 씌워진 신호를 주파수축으로 변환하는 DFT 변환부; 윈도우가 씌워진 신호로부터 상기 서로 다른 둘 이상의 개별 음성 신호의 특징 값을 갖는 트랜스퍼 펑션을 추정하는 TF 추정부; 상기 TF 추정부를 통해 추정된 서로 다른 둘 이상의 개별 음성신호의 특징값을 갖는 트랜스퍼 펑션으로부터 개별 음성 신호들의 잡음을 제거하는 잡음 추정부; 및 잡음 제거된 음성 신호로부터 상기 서로 다른 개별 음성신호를 추출하는 음성신호 검출부를 포함한다. According to an aspect of the sound source separation system using the beamforming technology according to the present invention for achieving the above object, a windowing processing unit for covering the window on the integrated voice signal input through the beam-formed at least one microphone array; A DFT converter for converting a signal covered by a window into a frequency axis through the windown processor; A TF estimator for estimating a transfer function having feature values of the two or more different voice signals from the windowed signal; A noise estimator for removing noise of individual speech signals from a transfer function having characteristic values of two or more different speech signals estimated by the TF estimator; And a voice signal detector extracting the different individual voice signals from the noise-removed voice signal.
상기 트랜스퍼 펑션 추정부는, DFT 변환부를 통해 변환된 값을 통해 얻어진 임펄스 응답을 이용해서 트랜스퍼 펑션을 추정한다. The transfer function estimator estimates a transfer function using an impulse response obtained through a value converted through the DFT converter.
그리고 상기 DFT 변환부는, Discrete 푸리에 변환(DFT)이다. The DFT converter is a Discrete Fourier Transform (DFT).
상기 TF 추정부는, 서로 다른 음원 수와 같다. The TF estimator is equal to the number of different sound sources.
상기 시스템은, 상기 TF 추정부를 통해 제공되는 개별 음성신호들 중 추출하고자 하는 개별 음성신호를 제외한 나머지 개별 음성신호를 상기 DFT 변환부를 통해 제공되는 통합 음성신호에서 제거하는 적어도 하나 이상의 음성신호 추출부를 더 포함한다. The system may further include at least one voice signal extracting unit which removes the remaining individual voice signals except the individual voice signals to be extracted from the individual voice signals provided through the TF estimator from the integrated voice signal provided through the DFT converter. Include.
상기 windowing 처리부는, hanning 윈도우의 길이는 32ms이며, 이동구간은 16ms이다. The windowing processor, the length of the hanning window is 32ms, the moving section is 16ms.
그리고 상기 TF 추정부는, 기 설정된 방향의 음성신호에 대하여 임의의 시간동안 마이크 어레이 사이의 임펄스 응답(impulse response)을 구하여 트랜스퍼 기능(transfer function; TF)을 추정한다. The TF estimator estimates a transfer function TF by obtaining an impulse response between microphone arrays for a predetermined time with respect to a voice signal in a predetermined direction.
또한 상기 음성신호 검출부는, 주파수 축의 개별 음성신호를 시간 축 개별 음성신호로 변환하는 IDFT 변환부를 더 포함한다. The voice signal detector may further include an IDFT converter configured to convert individual voice signals on a frequency axis into individual voice signals on a time axis.
개별 음성신호의 트랜스퍼 펑션(Transfer Function)을 검출한 후 해당 방향으로 신호를 보낸 후 신호의 값의 크기를 비교하여 신호이득이 1이 나오면 정확하게 원하는 방향의 신호를 받아들인 것으로 판단하고 1이 아닌 다른 값이 나오면 개별 음성신호의 트랜스퍼 펑션(Transfer Function)이 부정확하다고 판단하는 TF 정확성 확인부를 더 포함할 수 있다. After detecting the transfer function of the individual voice signal, send the signal in the corresponding direction and compare the magnitude of the value of the signal. When the signal gain is 1, it is determined that the signal of the desired direction is correctly received. The value may further include a TF accuracy check unit for determining that the transfer function of the individual voice signal is incorrect.
본 발명에 따른 빔포밍 기술을 이용한 음원 분리 방법의 일 측면에 따르면, 빔포밍된 적어도 하나 이상의 마이크 어레이를 통해 입력된 통합 음성신호에 윈도 우를 씌우는 windowing 처리 단계; 상기 windown 처리 단계를 통해 윈도우가 씌워진 신호를 주파수축으로 변환하는 DFT 변환 단계; 윈도우가 씌워진 신호로부터 상기 서로 다른 둘 이상의 개별 음성 신호의 특징 값을 갖는 트랜스퍼 펑션을 추정하는 TF 추정 단계; 상기 TF 추정 단계를 통해 추정된 서로 다른 둘 이상의 개별 음성신호의 특징값을 갖는 트랜스퍼 펑션으로부터 개별 음성 신호들의 잡음을 제거하는 잡음 추정 단계; 및 잡음 제거된 음성 신호로부터 상기 서로 다른 개별 음성신호를 추출하는 음성신호 검출 단계를 포함한다. According to an aspect of a sound source separation method using a beamforming technology according to the present invention, the windowing processing step of covering the window on the integrated voice signal input through the beam-formed at least one microphone array; A DFT conversion step of converting a window-covered signal to a frequency axis through the windown processing step; A TF estimating step of estimating a transfer function having characteristic values of said two or more different speech signals from the windowed signal; A noise estimation step of removing noise of individual voice signals from a transfer function having characteristic values of two or more different voice signals estimated through the TF estimation step; And a voice signal detecting step of extracting the different individual voice signals from the noise canceled voice signal.
상기 트랜스퍼 펑션 추정 단계는, DFT 변환부를 통해 변환된 값을 통해 얻어진 임펄스 응답을 이용해서 트랜스퍼 펑션을 추정한다. The transfer function estimating step estimates a transfer function using an impulse response obtained through a value converted through the DFT converter.
여기서, 상기 DFT 변환 단계는, Discrete 푸리에 변환(DFT)이다. Here, the DFT transform step is a Discrete Fourier transform (DFT).
한편, 상기 TF 추정 단계는, 서로 다른 음원 수 만큼 수행한다. Meanwhile, the TF estimating step is performed by different number of sound sources.
또한 상기 방법은, 상기 TF 추정 단계를 통해 제공되는 개별 음성신호들 중 추출하고자 하는 개별 음성신호를 제외한 나머지 개별 음성신호를 상기 DFT 변환 단계를 통해 제공되는 통합 음성신호에서 제거하는 음성신호 추출 단계를 더 포함한다. The method may further include a voice signal extraction step of removing individual voice signals except for individual voice signals to be extracted from the individual voice signals provided through the TF estimation step from the integrated voice signal provided through the DFT conversion step. It includes more.
한펴, 상기 windowing 처리 단계는, hanning 윈도우의 길이는 32ms이며, 이동구간은 16ms이다. In the windowing step, the length of the hanning window is 32ms and the moving section is 16ms.
그리고 상기 TF 추정 단계는, 기 설정된 방향의 음성신호에 대하여 임의의 시간동안 마이크 어레이 사이의 임펄스 응답(impulse response)을 구하여 트랜스퍼 기능(transfer function; TF)을 추정한다. The TF estimating step estimates a transfer function TF by obtaining an impulse response between microphone arrays for a predetermined time with respect to the voice signal in a predetermined direction.
또한 상기 음성신호 검출 단계는, 주파수 축의 개별 음성신호를 시간 축 개별 음성신호로 변환하는 IDFT 처리 단계를 더 포함한다. The voice signal detecting step may further include an IDFT processing step of converting individual voice signals on the frequency axis into individual voice signals on the time axis.
개별 음성신호의 트랜스퍼 펑션(Transfer Function)을 검출한 후 해당 방향으로 신호를 보낸 후 신호의 값의 크기를 비교하여 신호이득이 1이 나오면 정확하게 원하는 방향의 신호를 받아들인 것으로 판단하고 1이 아닌 다른 값이 나오면 개별 음성신호의 트랜스퍼 펑션(Transfer Function)이 부정확하다고 판단하는 TF 정확성 확인 단계를 더 포함할 수 있다. After detecting the transfer function of the individual voice signal, send the signal in the corresponding direction and compare the magnitude of the value of the signal. When the signal gain is 1, it is determined that the signal of the desired direction is correctly received. If the value comes out, it may further include a step of verifying the TF accuracy to determine that the transfer function (Transfer Function) of the individual voice signal is incorrect.
상술한 바와 같이 본 발명에 의한 빔포밍 기술을 이용한 음원 분리 방법 및 시스템에 의하면, 적어도 하나 이상의 음원이 동시에 입력되더라도 그 음원들을 각각 분리하여 별도로 저장 관리하거나 최초 음원을 저장 관리할 수 있는 뛰어난 효과가 있다. As described above, according to the sound source separation method and system using the beamforming technology according to the present invention, even if at least one or more sound sources are input at the same time, there is an excellent effect that can be separately stored and managed separately or the first sound source can be managed separately have.
이하, 본 발명에 따른 빔포밍 기술을 이용한 음원 분리 방법 및 시스템에 대한 바람직한 실시 예에 대하여 첨부한 도면을 참조하여 상세하게 살펴보기로 한다. 이 때, 아래에서 설명하는 시스템 구성은 본 발명의 설명을 위해서 인용한 시스템으로써 아래 시스템으로 본 발명을 한정하지 않음을 이 분야의 통상의 지식을 가진 자라면 이해해야할 것이다. Hereinafter, a preferred embodiment of a sound source separation method and system using a beamforming technology according to the present invention will be described in detail with reference to the accompanying drawings. At this time, it will be understood by those of ordinary skill in the art that the system configuration described below is a system cited for the purpose of the present invention and does not limit the present invention to the following system.
도 2는 종래 마이크 어레이 어레이를 이용한 방향성 잡음 제거 시스템을 나타낸 도면으로써, 적어도 하나 이상의 마이크 어레이(10), 마이크 어레이(10)에 각각 연결된 단구간 분석부(20), 에코 제거부(30), 방향성 잡음 제거와, 정면소리 유/무를 기반으로 필터 weight update on/off하는 adaptive 빔포밍(Beamforming) 처리부(40), 마이크간의 신호의 상관관계를 이용하여 정면소리를 정면소리 검출부(50), 잔여잡음 제거와 정면소리 유/무를 기반으로 잔여 잡음을 제어하는 Post-filtering부(60) 및 Overlap and add 처리부(70)를 포함한다. 2 is a diagram illustrating a directional noise removing system using a conventional microphone array array, wherein at least one
각 마이크 어레이(10)을 통해 입력된 음성들은 각각의 단구간 분석부(20)를 통해 주파수 영역을 분석한다. Speech input through each
예를 들어 설명하면, 하나의 프레임은 2.56ms에 해당하며 이동구간은 128ms이다. 따라서 16Khz 샘플링에서 256ms는 4,096개로 샘플링되며, Hanning window를 사용할 수 있다. For example, one frame corresponds to 2.56 ms and the moving section is 128 ms. Therefore, at 16Khz sampling, 256ms are sampled at 4,096, and Hanning window can be used.
이후, DFT를 하기 위해 real-FFT를 이용하며, 소스코드는 ETSI 표준 특징 추출 프로그램을 이용한다. Then, real-FFT is used for DFT, and source code uses ETSI standard feature extraction program.
적응 빔포밍(adaptive Beamforming) 처리부(40)를 통해 방향성 잡음이 제거한다. The directional noise is removed by the
적응 빔포밍 처리부(40)는 generalized sidelobe canceller(이하 "GSC"라 함)를 이용한다. The adaptive
이후, Far-end 신호가 스피커에 어레이로 도착하는 경로를 추정하여 에코를 제거하는 것과 마찬가지이다. This is then equivalent to canceling the echo by estimating the path of the far-end signal to the array in the speaker.
도 3은 본 발명에 따른 빔포밍 기술을 이용한 음원 분리 시스템의 구성을 나타낸 도면으로서, 본 발명에 따른 빔포밍 기술을 이용한 음원 분리 시스템은 적어도 하나 이상의 마이크 어레이(10), 마이크 어레이(10)에 각각 연결된 단구간 분석부(20), 에코 제거부(30), 정면소리 검출부(50), Post-filtering부(60) 및 Overlap and add 처리부(70)가 포함되며, 범위설정(windowing)부(100), DFT 변환부(200), 적어도 하나 이상의 TF 추정부(300), 잡음 추정부(400), 적어도 하나 이상의 음성신호 추출부(500) 및 적어도 하나 이상의 음성신호 검출부(600)를 포함하며, 음성신호 검출부(600)는 IDFT 변환부(610)를 포함한다. 3 is a view showing the configuration of a sound source separation system using a beamforming technology according to the present invention, the sound source separation system using a beamforming technology according to the present invention is at least one
범위설정(windowing)부(100)는 마이크 어레이(10)를 통해 적어도 하나 이상의 음성이 포함된 통합 음성신호가 입력되면 그 통합 음성신호에 대하여 기 설정된 방향으로 hanning 윈도우를 씌어 프레임으로 구분한다. 이때, 범위설정부(100)는 단구간 분석부(20)와 에코 제거부(30)를 통해 마이크 어레이(10)를 통해 통합 음성신호를 제공받을 수도 있다. When the integrated voice signal including at least one voice is input through the
이때, 범위설정(windowing)부(100)는 hanning 윈도우의 길이는 32ms이며, 이동구간은 16ms이다. In this case, the
그리고 DFT 변환부(200)는 범위설정(windowing)부(100)를 통해 프레임별로 구분된 각각의 개별 음성신호를 주파수축으로 변환한다. In addition, the
또한, 적어도 하나 이상의 TF 추정부(300)는 DFT 변환부(200)를 통해 주파수 축으로 변환된 프레임에 대한 임펄스 응답을 구하여 개별 음성신호의 트랜스퍼 펑 션(Transfer Function)을 추정한다. 이때, TF 추정부(300)는 기 설정된 방향의 음성신호에 대하여 임의의 시간동안 마이크 어레이 사이의 임펄스 응답(impulse response)을 구하여 트랜스퍼 기능(transfer function; TF)을 추정한다. In addition, the at least one
그리고 잡음 추정부(400)는 DFT 변환부(200)를 통해 주파수 축으로 변환된 통합 음성신호에서 각 TF 추정부(300)를 통해 추정된 트랜스퍼 펑션(Transfer Function)을 통해 검출한 개별 음성신호들을 제거하여 잡음 신호를 추정한다. The
또한 적어도 하나 이상의 음성신호 추출부(500)는 TF 추정부(300)를 통해 제공되는 개별 음성신호들 중 추출하고자 하는 개별 음성신호를 제외한 나머지 개별 음성신호를 상기 DFT 변환부(200)를 통해 제공되는 통합 음성신호에서 제거한다. In addition, the at least one
그리고 적어도 하나 이상의 음성신호 검출부(600)는 트랜스퍼 펑션(Transfer Function)을 통해 검출하고자 하는 개별 음성신호에서 잡음 추정부(400)를 통해 제공되는 잡음 부분을 제거하여 잡음이 제거된 개별 음성신호를 추출한다. 이때, 음성신호 검출부(600)는 주파수 축의 개별 음성신호를 시간 축 개별 음성신호로 변환하는 IDFT 변환부(610)를 더 포함한다. The at least one
상기한 각 구성들에 대한 일반적인 기능 및 각각의 상세한 동작에 대하여는 그 설명을 생략하고, 본 발명에 상응하는 동작 위주로 그 동작들을 설명하기로 한다. General functions and detailed operations of the above-described elements will be omitted, and the operations will be described based on operations corresponding to the present invention.
먼저, 마이크 어레이(10)는 두개의 음성신호가 섞인 통합 음성신호를 입력받아 범위설정(windowing)부(100)로 제공한다. 이때, 마이크 어레이(10)를 통해 입 결되는 신호는 마이크 어레이(10) 사이의 간격 때문에 약간씩 차이가 있는 음성신호이다. First, the
그러면, 범위설정(windowing)부(100)는 제공된 통합 음성신호에 대하여 기 설정된 방향으로 hanning 윈도우를 씌어 32ms 구간의 프레임으로 구분한다. 이 과정에서 구분된 프레임은 16ms 구간만큼 이동시키면서 자르게된다. Then, the
한편, 범위설정(windowing)부(100)는 hanning 윈도우를 씌우기 위한 방향은 기 설정되어 있으며, hanning 윈도우의 개수는 사람의 수에 따라 달라질 수 있는 것으로 이를 한정하지는 않는다. Meanwhile, the
이어서, DFT 변환부(200)는 범위설정(windowing)부(100)를 통해 프레임별로 구분된 각각의 개별 음성신호를 주파수축으로 변환한다. Subsequently, the
이후, TF 추정부(300)는 DFT 변환부(200)를 통해 주파수 축으로 변환된 프레임에 대한 임펄스 응답을 구하여 개별 음성신호의 트랜스퍼 펑션(Transfer Function)을 추정한다. 이때, TF 추정부(300)는 두 개의 개별 음성신호의 트랜스퍼 펑션(Transfer Function)을 추정하거나, 두 개의 TF 추정부(300)를 통해 각각의 개별 음성신호의 트랜스퍼 펑션(Transfer Function)을 추정할 수 있다. 이때, TF 추정부(300)는 기 설정된 방향의 음성신호에 대하여 임의의 시간동안 마이크 어레이 사이의 임펄스 응답(impulse response)을 구하여 트랜스퍼 기능(transfer function; TF)을 추정한다. Thereafter, the
이렇게 TF 추정부(300) 또는 각각의 TF 추정부(300)를 통해 개별 음성신호의 트랜스퍼 펑션(Transfer Function)이 추정되면, 잡음 추정부(400)는 DFT 변환 부(200)를 통해 주파수 축으로 변환된 통합 음성신호에서 TF 추정부(300)를 통해 추정된 트랜스퍼 펑션(Transfer Function)을 통해 검출한 개별 음성신호들을 제거하여 잡음 신호를 추정한다. When the transfer function of the individual voice signal is estimated through the
이후, 음성신호 추출부(500)는 TF 추정부(300)를 통해 제공되는 개별 음성신호의 트랜스퍼 펑션(Transfer Function)들 중 추출하고자 하는 개별 음성신호의 트랜스퍼 펑션(Transfer Function)을 제외한 나머지 개별 음성신호의 트랜스퍼 펑션(Transfer Function)을 DFT 변환부(200)를 통해 제공되는 통합 음성신호에서 제거한다. 그러면, 추출하고자 하는 개별 음성신호를 추출할 수 있다. Subsequently, the
이후, 적어도 하나 이상의 음성신호 검출부(600)는 트랜스퍼 펑션(Transfer Function)을 통해 검출하고자 하는 개별 음성신호에서 상기 잡음 추정부(400)를 통해 제공되는 잡음 부분을 제거하여 잡음이 제거된 개별 음성신호를 추출한다. 이때, 음성신호 검출부(600)는 IDFT 변환부(610)를 통해 주파수 축의 개별 음성신호를 시간 축 개별 음성신호로 변환한다. Thereafter, the at least one
그러면, 상기와 같은 구성을 가지는 본 발명에 따른 빔포밍 기술을 이용한 음원 분리 방법에 대해 도 4를 참조하여 설명하기로 한다. Next, a sound source separation method using the beamforming technique according to the present invention having the above configuration will be described with reference to FIG. 4.
먼저, 마이크 어레이(10)를 통해 적어도 하나 이상의 음성이 포함된 통합 음성신호가 입력되면 기 설정된 방향으로 hanning 윈도우를 씌어 프레임으로 구분한다(S1). 여기서 windowing 처리 단계(S1)는 hanning 윈도우의 길이는 32ms이며, 이동구간은 16ms인 이다. First, when an integrated voice signal including at least one voice is input through the
이어서, 프레임별로 구분된 각각의 개별 음성신호를 주파수축으로 변환한다(S2). Subsequently, each individual voice signal divided for each frame is converted into a frequency axis (S2).
그런 후, 주파수 축으로 변환된 프레임에 대한 임펄스 응답을 구하여 개별 음성신호의 트랜스퍼 펑션(Transfer Function)을 추정한다(S3). 한편, TF 추정 단계는 기 설정된 방향의 음성신호에 대하여 임의의 시간동안(5초) 마이크 어레이 사이의 임펄스 응답(impulse response)을 구하여 트랜스퍼 기능(transfer function; TF)을 추정한다. Then, the impulse response of the frame converted to the frequency axis is obtained to estimate a transfer function of the individual voice signals (S3). Meanwhile, the TF estimating step estimates a transfer function TF by obtaining an impulse response between microphone arrays for a predetermined time (5 seconds) with respect to a voice signal in a predetermined direction.
이어서, 주파수 축으로 변환된 통합 음성신호에서 트랜스퍼 펑션(Transfer Function)을 통해 검출한 개별 음성신호들을 제거하여 잡음 신호를 추정한다(S4). Subsequently, the noise signal is estimated by removing individual voice signals detected through a transfer function from the integrated voice signal converted into the frequency axis (S4).
이후, 개별 음성신호들 중 추출하고자 하는 개별 음성신호를 제외한 나머지 개별 음성신호를 통합 음성신호에서 제거한다(S5). Thereafter, the individual voice signals except for the individual voice signals to be extracted from the individual voice signals are removed from the integrated voice signal (S5).
그러면, 트랜스퍼 펑션(Transfer Function)을 통해 검출하고자 하는 개별 음성신호에서 잡음 부분을 제거하여 잡음이 제거된 개별 음성신호를 추출한다(S6). 한편 음성신호 검출 단계(S6)는 주파수 축의 개별 음성신호를 시간 축 개별 음성신호로 변환한다. Then, the noise part is removed from the individual voice signal to be detected through the transfer function to extract the individual voice signal from which the noise is removed (S6). On the other hand, the voice signal detection step S6 converts the individual voice signals on the frequency axis into individual time signals on the time axis.
이상에서 본 발명은 기재된 구체적인 실시 예에 대해서만 상세히 설명하였지만 본 발명의 기술 사상 범위 내에서 다양한 변형 및 수정이 가능함은 당업자에게 있어서 명백한 것이며, 이러한 변형 및 수정이 첨부된 특허청구범위에 속함은 당연한 것이다. Although the present invention has been described in detail only with respect to the specific embodiments described, it will be apparent to those skilled in the art that various changes and modifications can be made within the scope of the present invention, and such modifications and modifications belong to the appended claims. .
도 1은 종래 적응 빔포밍을 위한 사용자 방향의 소리 검출 시스템에서 마이크 어레이 정면이 90도인 경우의 방향성 패턴(directivity pattern)을 나타낸 도면. BRIEF DESCRIPTION OF THE DRAWINGS Fig. 1 is a view showing a directivity pattern when the front of a microphone array is 90 degrees in a user-oriented sound detection system for adaptive beamforming.
도 2는 종래 적응 빔포밍을 위한 사용자 방향의 소리 검출 시스템을 나타낸 기능블록도. 2 is a functional block diagram illustrating a user-oriented sound detection system for conventional adaptive beamforming.
도 3은 본 발명에 따른 빔포밍 기술을 이용한 음원 분리 시스템의 구성을 나타낸 기능블록도. Figure 3 is a functional block diagram showing the configuration of a sound source separation system using a beamforming technology according to the present invention.
도 4는 본 발명에 따른 빔포밍 기술을 이용한 음원 분리 방법을 나타낸 순서도이다. 4 is a flowchart showing a sound source separation method using a beamforming technique according to the present invention.
<도면의 주요 부분에 대한 부호의 설명><Explanation of symbols for the main parts of the drawings>
10 : 적어도 하나 이상의 마이크 어레이 20 : 단구간 분석부10: at least one microphone array 20: short-term analysis unit
30 : 에코 제거부 40 : adaptive beamforming 처리부30: echo canceller 40: adaptive beamforming processor
50 : 정면소리 검출부 60 : Post-filtering부50: front sound detection unit 60: post-filtering unit
70 : Overlap and add 처리부 70: Overlap and add processing unit
100 : 범위설정부 200 : DFT 변환부100: range setting unit 200: DFT conversion unit
300 : 적어도 하나 이상의 TF 추정부 400 : 잡음 추정부300: at least one TF estimator 400: noise estimator
500 : 적어도 하나 이상의 음성신호 추출부500: at least one voice signal extraction unit
600 : 적어도 하나 이상의 음성신호 검출부600: at least one voice signal detector
610 : IDFT 변환부 610: IDFT conversion unit
Claims (18)
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020080071287A KR101529647B1 (en) | 2008-07-22 | 2008-07-22 | Sound source separation method and system for using beamforming |
US12/460,473 US8577677B2 (en) | 2008-07-21 | 2009-07-20 | Sound source separation method and system using beamforming technique |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020080071287A KR101529647B1 (en) | 2008-07-22 | 2008-07-22 | Sound source separation method and system for using beamforming |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20100010356A true KR20100010356A (en) | 2010-02-01 |
KR101529647B1 KR101529647B1 (en) | 2015-06-30 |
Family
ID=42085052
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020080071287A KR101529647B1 (en) | 2008-07-21 | 2008-07-22 | Sound source separation method and system for using beamforming |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101529647B1 (en) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101233272B1 (en) * | 2011-03-08 | 2013-02-14 | 고려대학교 산학협력단 | Apparatus and method for processing speech in noise environment |
US9384753B2 (en) | 2010-08-30 | 2016-07-05 | Samsung Electronics Co., Ltd. | Sound outputting apparatus and method of controlling the same |
US10750281B2 (en) | 2018-12-03 | 2020-08-18 | Samsung Electronics Co., Ltd. | Sound source separation apparatus and sound source separation method |
KR20210117120A (en) * | 2020-03-13 | 2021-09-28 | 베이징 시아오미 파인콘 일렉트로닉스 컴퍼니 리미티드 | Audio signal processing method and device, and storage medium |
KR102438701B1 (en) * | 2021-04-12 | 2022-09-01 | 한국표준과학연구원 | Method and device for removing voice signal using microphone array |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7099822B2 (en) * | 2002-12-10 | 2006-08-29 | Liberato Technologies, Inc. | System and method for noise reduction having first and second adaptive filters responsive to a stored vector |
-
2008
- 2008-07-22 KR KR1020080071287A patent/KR101529647B1/en active IP Right Grant
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9384753B2 (en) | 2010-08-30 | 2016-07-05 | Samsung Electronics Co., Ltd. | Sound outputting apparatus and method of controlling the same |
KR101233272B1 (en) * | 2011-03-08 | 2013-02-14 | 고려대학교 산학협력단 | Apparatus and method for processing speech in noise environment |
US10750281B2 (en) | 2018-12-03 | 2020-08-18 | Samsung Electronics Co., Ltd. | Sound source separation apparatus and sound source separation method |
KR20210117120A (en) * | 2020-03-13 | 2021-09-28 | 베이징 시아오미 파인콘 일렉트로닉스 컴퍼니 리미티드 | Audio signal processing method and device, and storage medium |
US11490200B2 (en) | 2020-03-13 | 2022-11-01 | Beijing Xiaomi Pinecone Electronics Co., Ltd. | Audio signal processing method and device, and storage medium |
KR102438701B1 (en) * | 2021-04-12 | 2022-09-01 | 한국표준과학연구원 | Method and device for removing voice signal using microphone array |
Also Published As
Publication number | Publication date |
---|---|
KR101529647B1 (en) | 2015-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101470528B1 (en) | Apparatus and method for adaptive mode control based on user-oriented sound detection for adaptive beamforming | |
US8577677B2 (en) | Sound source separation method and system using beamforming technique | |
CN110085248B (en) | Noise estimation at noise reduction and echo cancellation in personal communications | |
EP3360250B1 (en) | A sound signal processing apparatus and method for enhancing a sound signal | |
KR101726737B1 (en) | Apparatus for separating multi-channel sound source and method the same | |
EP2237271B1 (en) | Method for determining a signal component for reducing noise in an input signal | |
US20170140771A1 (en) | Information processing apparatus, information processing method, and computer program product | |
CN110140360B (en) | Method and apparatus for audio capture using beamforming | |
JP2008512888A (en) | Telephone device with improved noise suppression | |
US8666737B2 (en) | Noise power estimation system, noise power estimating method, speech recognition system and speech recognizing method | |
KR101529647B1 (en) | Sound source separation method and system for using beamforming | |
Schwarz et al. | A two-channel reverberation suppression scheme based on blind signal separation and Wiener filtering | |
Nesta et al. | A flexible spatial blind source extraction framework for robust speech recognition in noisy environments | |
Maas et al. | A two-channel acoustic front-end for robust automatic speech recognition in noisy and reverberant environments | |
KR100917460B1 (en) | Noise Reduction Device and Method | |
EP3566228B1 (en) | Audio capture using beamforming | |
Seltzer | Bridging the gap: Towards a unified framework for hands-free speech recognition using microphone arrays | |
KR20100009936A (en) | Noise environment estimation/exclusion apparatus and method in sound detecting system | |
Astudillo et al. | Integration of beamforming and automatic speech recognition through propagation of the wiener posterior | |
Schwarz et al. | On blocking matrix-based dereverberation for automatic speech recognition | |
KR100198019B1 (en) | Remote voice input device using microphone array and remote voice input processing method | |
KR101966175B1 (en) | Apparatus and method for removing noise | |
KR101068666B1 (en) | Noise Canceling Method and Apparatus Based on Adaptive Noise Canceling in Noisy Environment | |
Martın-Donas et al. | A postfiltering approach for dual-microphone smartphones | |
Wang et al. | Speech Enhancement Using Multi‐channel Post‐Filtering with Modified Signal Presence Probability in Reverberant Environment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20080722 |
|
PG1501 | Laying open of application | ||
A201 | Request for examination | ||
PA0201 | Request for examination |
Patent event code: PA02012R01D Patent event date: 20130705 Comment text: Request for Examination of Application Patent event code: PA02011R01I Patent event date: 20080722 Comment text: Patent Application |
|
E902 | Notification of reason for refusal | ||
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20140929 Patent event code: PE09021S01D |
|
E701 | Decision to grant or registration of patent right | ||
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20150420 |
|
GRNT | Written decision to grant | ||
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20150611 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20150612 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration | ||
FPAY | Annual fee payment |
Payment date: 20180530 Year of fee payment: 4 |
|
PR1001 | Payment of annual fee |
Payment date: 20180530 Start annual number: 4 End annual number: 4 |
|
FPAY | Annual fee payment |
Payment date: 20190530 Year of fee payment: 5 |
|
PR1001 | Payment of annual fee |
Payment date: 20190530 Start annual number: 5 End annual number: 5 |
|
PR1001 | Payment of annual fee |
Payment date: 20200528 Start annual number: 6 End annual number: 6 |
|
PC1903 | Unpaid annual fee |
Termination category: Default of registration fee Termination date: 20230322 |