KR102088222B1 - 분산도 마스크를 이용한 음원 국지화 방법 및 음원 국지화 장치 - Google Patents

분산도 마스크를 이용한 음원 국지화 방법 및 음원 국지화 장치 Download PDF

Info

Publication number
KR102088222B1
KR102088222B1 KR1020180009446A KR20180009446A KR102088222B1 KR 102088222 B1 KR102088222 B1 KR 102088222B1 KR 1020180009446 A KR1020180009446 A KR 1020180009446A KR 20180009446 A KR20180009446 A KR 20180009446A KR 102088222 B1 KR102088222 B1 KR 102088222B1
Authority
KR
South Korea
Prior art keywords
sound source
signal
mask
noise
target sound
Prior art date
Application number
KR1020180009446A
Other languages
English (en)
Other versions
KR20190090578A (ko
Inventor
박형민
이란
Original Assignee
서강대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서강대학교 산학협력단 filed Critical 서강대학교 산학협력단
Priority to KR1020180009446A priority Critical patent/KR102088222B1/ko
Priority to US16/255,112 priority patent/US10593344B2/en
Publication of KR20190090578A publication Critical patent/KR20190090578A/ko
Application granted granted Critical
Publication of KR102088222B1 publication Critical patent/KR102088222B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/8006Multi-channel systems specially adapted for direction-finding, i.e. having a single aerial system capable of giving simultaneous indications of the directions of different signals
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/802Systems for determining direction or deviation from predetermined direction
    • G01S3/808Systems for determining direction or deviation from predetermined direction using transducers spaced apart and measuring phase or time difference between signals therefrom, i.e. path-difference systems
    • G01S3/8083Systems for determining direction or deviation from predetermined direction using transducers spaced apart and measuring phase or time difference between signals therefrom, i.e. path-difference systems determining direction of source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/027Spatial or constructional arrangements of microphones, e.g. in dummy heads
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/04Circuits for transducers, loudspeakers or microphones for correcting frequency response

Abstract

본 발명은 분산도를 기반으로 한 마스크를 전술한 기술적 과제를 달성하기 위한 본 발명의 제1 특징에 따른 음원 국지화 방법은, (a) 적어도 둘 이상의 마이크를 포함하는 다중 마이크로폰을 통해 타겟 음원신호와 잡음 및 반향 신호가 혼합된 신호를 입력받는 단계; (b) 상기 입력된 신호들을 이용하여 타겟 음원과 잡음원에 대한 정보인 일관성 대 분산도의 비(CDR)을 이용하여 분산도를 기반으로 한 이진화 마스크를 생성하는 단계; (c) 상기 생성된 이진화 마스크를 이용하여 다중 마이크로폰으로의 입력 신호를 전처리하는 단계; (d) 상기 전처리된 입력 신호에 대하여 GCC-PHAT 또는 SRP-PHAT와 같은 사전 설정된 알고리즘을 수행하여 타겟 음원에 대한 방향을 추정하는 단계; 를 구비한다.

Description

분산도 마스크를 이용한 음원 국지화 방법 및 음원 국지화 장치{Sound source localization method based CDR mask and localization apparatus using the method }
본 발명은 음원 국지화 방법에 관한 것으로서, 더욱 구체적으로는 타겟 음원 신호가 잡음 및 반향 환경에서 다중 마이크로폰으로 입력된 혼합 신호에 대하여, 일관성(Coherence) 대 분산도(Diffuseness) 파워비인 CDR(Coherence to Diffuseness ratio)을 이용하여 만든 분산도 마스크를 적용하여 교차 상관 기법을 기반으로 하여 타겟 음원의 방향을 추정함으로써, 반향 및 분산 잡음에 강인한 음원 국지화 방법 및 음원 국지화 장치에 관한 것이다.
최근 인공지능이 급속도로 발전함에 따라 인공지능 음성인식에 대한 관심도가 높아지고 있다. 이에 따라 인공지능 음성인식 스피커가 대중화되면서, 원거리 및 잡음이 있는 환경에서는 음성인식의 성능이 저하되는 문제점이 발생되고 있다. 따라서, 반향 및 잡음이 존재하는 환경에서 정확한 성능을 보장하는 음원 국지화 기술의 개발이 요구되고 있다.
다중 마이크로폰을 사용할 때에는 음원이 마이크로 입력될 때의 음원의 방향에 따라 마이크마다 음원이 도달하는 시간이 다르게 된다. 따라서 이를 이용해 각 마이크 별 신호의 도달 시간의 차를 추정하여 음원의 방향을 유추할 수 있다.
음원의 위치를 탐지하기 위한 음원 국지화 알고리즘으로 교차 상관 기반의 음원 국지화 방법이 가장 널리 사용되고 있다. 교차 상관 기반의 음원 국지화 방법은 안정적인 성능과 다중 음원 방향 추정이 가능하다는 장점을 갖지만, 잡음이나 반향이 존재하는 환경에서 전 방향으로 교차 상관 값이 커지게 되어 음원 국지화 성능이 크게 악화되는 단점이 있다. 즉, 대부분의 교차 상관 기반 방법들은 주변 잡음원으로 인한 가산 잡음 왜곡이 존재할 때나, 반향으로 인해 직선 경로 성분이 반사되어 원신호와 혼합되어 입력되는 경우에는 그 정확도가 매우 떨어지게 된다. 특히, 반향 성분들에 의한 왜곡이 존재할 때는 이전 시간에 존재했던 직접 경로 성분이 공간에서 반사됨에 따라 지연, 감쇄되어 현재 신호와 혼합되기 때문에, 직접 경로 성분과 상관도가 높아 잡음제거와 다른 별도의 알고리즘이 요구된다. 이러한 환경에서의 성능을 향상시키기 위한 기술들이 개발되어 왔지만 대부분 제한된 성능 향상을 보였고, 정확도 향상을 위한 긴 데이터와 많은 계산량이 요구되고 있는 실정이다
따라서, 잡음과 반향이 존재하는 환경에서의 음성인식 성능을 개선할 수 있는 안정적이고 정확한 음원 국지화 기술이 요구된다.
이하, 본 발명에 따른 음원 국지화 방법을 설명하기에 앞서, 기존의 음원 국지화 알고리즘들에 대해 설명한다.
< 일반화된 교차 상관 방법 (Generalized Cross Correaltion) >
도 1은 구좌표계에서의 음원으로부터 나온 음성 신호가 각도별 다중 마이크로폰에 도착하는 시간 지연을 설명하기 위하여 도시한 그래프이다. 도 1을 참조하면, 원거리에서 (r S, φ S, θ S) 방향에 타겟 음원이 존재할 때, 잡음 환경에서 두 개의 마이크로 들어오는 신호 중 두번째 마이크의 신호인 x2(t)는 수학식 1과 같다.
Figure 112018008918942-pat00001
여기서, xm(t)는 마이크로 들어온 입력 신호이며, s(t) 및 vm(t)는 각각 원신호와 가산잡음을 나타내며, αm은 원 신호의 감쇠도이다. f12는 음원의 위치에 따른 첫번째 마이크와 두번째 마이크 사이의 상대적 시간 지연을 의미한다. f12는 수학식 2로 나타낼 수 있다.
Figure 112018008918942-pat00002
여기서, c는 소리의 속도이며 d는 음원(s)과 각 마이크 사이의 거리이다.
여기서 첫번째 마이크와 두번째 마이크 간에 발생할 수 있는 샘플 지연(τ)은 수학식 3과 같다. 수학식 3에서 round 의 의미는 추정한 값을 측정가능한 샘플 지연 단위로 환산하는 의미에서 사용된다.
Figure 112018008918942-pat00003
수학식 1을 참조하여 다중 마이크에 들어오는 입력 신호를 살펴 보면, 기준 마이크에 입력된 신호가 두번째 마이크에서 감쇄되고 지연되어 들어오는 형태임을 알 수 있다. 따라서, 두 마이크 사이의 시간 지연(τ)에 해당하는 지연 보상이 이루어졌을 때, 두 마이크 사이의 교차 상관값이 최대를 보일 것이라고 예상할 수 있다. 도 2는 지연 보상이 되었을 때의 교차 상관값을 설명하기 위한 그림이다.
두 마이크의 신호 x1(t)와 x2(t) 사이의 교차 상관값은 수학식 4와 같고, 이를 푸리에 변환하여 주파수 영역으로 변환하면 수학식 5와 같다.
Figure 112018008918942-pat00004
Figure 112019088429319-pat00005
수학식 4와 5를 정리하고, 푸리에 변환에서의 컨볼루션 특징을 적용하면 ω=2πf 일 때 수학식 6과 같이 정리할 수 있다.
Figure 112018008918942-pat00006
여기서, X1(ω)는 x1(t)의 푸리에 변환식이며, X2'(ω)는 x2(t)의 푸리에 변환식의 켤레 복소이다.
이를 다시 역푸리에 변환함으로써, 수학식 7과 같이, 원래의 마이크 입력에서 τ만큼의 시간 지연 보상이 이루어진 교차 상관값에 대한 식을 구할 수 있다.
Figure 112018008918942-pat00007
수학식 7의 교차 상관값을 바탕으로 하여, x1(t)와 x2(t)가 각각 필터 H1(ω)와 H2(ω)를 통과한 신호에 대해 교차 상관값을 정의하면 수학식 8 내지 수학식 10과 같이 나타낼 수 있다.
Figure 112018008918942-pat00008
Figure 112018008918942-pat00009
Figure 112018008918942-pat00010
여기서, Ψ12(ω)는 가중치 함수가 된다.
따라서, 최종적인 음원의 방향은 수학식 11과 같이, 수학식 10의 일반화된 교차 상관값인 R12(τ) 를 최대화하는 τ를 추정함으로써 추정할 수 있게 된다.
Figure 112018008918942-pat00011
< 가중치 교차 상관 방법(weighted GCC) >
일반적으로 신호를 취득할 때에는 주파수의 겹침 문제를 해결하기 위해 가장 낮은 주파수 영역의 파장보다 작은 값을 갖도록 두 마이크 사이의 거리를 가깝게 둔다. 낮은 주파수 영역에는 대부분의 음성 에너지가 분포 하는데 이러한 낮은 주파수 값에 영향을 많이 받게 될수록 교차 상관 값의 피크 폭은 그 폭의 너비가 더 넓어지는 경향을 띤다. 그 결과 평평해진 교차 상관 값에 기반한 음원 국지화는 낮은 성능을 보이게 된다. 따라서 이러한 문제를 보완하기 위하여 주파수에 따라 다른 가중치를 주어 교차 상관 값을 구한다. 일반화된 교차 상관의 경우도 두 필터 값 H1(ω)와 H2(ω)에 의해 주파수 성분에 가중치가 더해진 형태로 볼 수 있는데, Ψ = H1 H2' 가 바로 가중치를 반영하는 부분이라고 할 수 있다.
GCC에서 사용하는 가장 간단한 가중치 함수 이외에도 교차 상관 값을 주파수 성분 별로 보완하는 여러 가중치 함수들이 존재하는데, 이 중, 가장 많이 쓰는 가중치 함수는 phase transform(PHAT)이다. 이 방식은 간단한 방식으로 억제가 필요한 부분의 교차 상관 값의 크기를 효과적으로 줄일 수 있으며, 각 주파수 대역에서 각 위상에 대해 동일한 가중치를 제공한다. 이러한 특성에 따라 PHAT 기반의 교차 상관 값은 이론적으로는 델타 함수만큼이나 뾰족한 첨도를 갖게 된다. 따라서 반향이 있는 환경에서 음원을 찾아야 할 때나 다중 음원을 찾아야 되는 경우 유리하게 작용된다.
PHAT 가중치 함수는
Figure 112018008918942-pat00012
이며, 여기서
Figure 112018008918942-pat00013
이고, i와 j는 마이크로폰 번호를 가리킨다. GCC-PHAT는 GCC에 비해 다른 방향 대비 음원 방향에 대해 높은 교차 상관값을 가지며 피크에서 비교적 뾰족한 첨도를 보인다.
반향 성분에 강인한 PHAT 의 가중치를 적용한 GCC-PHAT는 실질적으로 음원의 파워가 작을 때 잡음의 파워의 영향이 켜짐에 따라 추정 오차가 커지게 되므로 잡음의 존재에 민감하게 되는 단점이 있다.
< Steered Response Power 빔포밍 >
Steered response power 기반의 음원 국지화 방법은 음원이 존재하지 않는 방향에 비해 음원이 존재하는 방향에서 더 큰 에너지를 갖는다는 가정을 이용하여, 마이크로 입사 가능한 모든 방향에 대한 delay-and-sum beamformer 출력을 계산하여 출력 power가 가장 높은 방향을 찾아 음원 국지화를 수행한다.
SRP 빔포밍은 다수 개(M)의 마이크에 대하여 입력 신호를 이용하며, 각 입력 신호는 수학식 12와 같이 나타낼 수 있다.
Figure 112018008918942-pat00014
여기서, s(t)는 음원 신호이며,
Figure 112018008918942-pat00015
는 음원 위치에 따른 impulse response이다.
도 3은 종래의 delay sum beamforming 방법을 이용한 Steered Response Power 알고리즘을 설명하기 위하여 도시한 그림이다. 도 3을 참조하면, 각각의 마이크는 서로 다른 위치를 가지므로, 마이크에 입력되는 신호는 시간차를 가지게 된다. 이때, Steered Response Power 알고리즘은 delay-and-sum beamformer는 M개의 각 마이크로 입력되는 신호에 대하여 적당한 steering delay δm 를 주고 모든 신호를 더함으로서 enhanced된 신호를 얻는 방법이다.
도 3에서는 신호들이 일정한 delay를 거친 후에 모두 더해지는 것을 보여주고 있다. 출력(Output)은 결과적으로 신호의 방향이 음원의 위치에 집중되기 때문에 증가된다. Delay-and-sum의 output은 수학식 13 및 수학식 14와 같이 나타낼 수 있다.
Figure 112018008918942-pat00016
Figure 112018008918942-pat00017
이때, steering delay δm 은 특정 전파 지연 τm과 상수 τ0의 차로 표현된다.
수학식 12를 사용하여 수학식 13을 정리하면 수학식 15와 같이 되며, 이를 푸리에 변환하면 수학식 16과 같다.
Figure 112018008918942-pat00018
Figure 112018008918942-pat00019
여기서, Xm(ω)는 xm(t)의 푸리에 변환식이다.
위에서의 각 마이크에 대한 steering delay δ1, ''', δm 를 조정함으로써 특정 방향에 대한 beamformer 출력을 얻을 수 있다. 따라서 각 마이크에 대한 steering delay δ1, ''', δm 를 마이크로 음원이 입사 가능한 모든 방향에 맞춰 조정하고, 그에 따른 beamformer 출력 power를 구함으로써 steered response power를 구할 수 있게 된다. 이를 주파수 축에서의 식으로 나타내면 수학식 17과 같다.
Figure 112018008918942-pat00020
수학식 17을 수학식 16을 통해 나타내면 수학식 18과 같다.
Figure 112018008918942-pat00021
수학식 14에 의해 수학식 19 및 수학식 20과 같은 관계를 갖는다.
Figure 112018008918942-pat00022
Figure 112018008918942-pat00023
따라서, P 1, ''', δM) 는 모든 마이크 쌍에 대한 steered response power를 δ1, ''', δM 에 따라 구하게 되며, 그것이 최대가 되는 steering delay δ1, ''', δM 를 구하여 방향을 찾게 된다. 일반적으로 마이크 배열 중심으로부터 가능한 입사 방향으로의 azimuth(θ), elevation(φ)의 쌍 (θ, φ)에 대한 steering delay δ1, ''', δN를 계산하고, 모든 (θ, φ) 에 해당하는 steered response power를 계산하여 최대가 되는 (θ, φ) 를 구하게 된다.
위 수학식 20에서 결과값은 신호의 세기가 큰 주파수 성분에 큰 영향을 받기 때문에, 주파수별 가중치를 동일하게 주기 위해서 Phase Transform(PHAT)은 각 주파수에 수학식 21과 같은 추가적인 가중치를 적용한다.
Figure 112018008918942-pat00024
가중치 함수를 적용하고 time delay 를 τlk = τlk 로 표현하면 수학식 22와 같다.
Figure 112018008918942-pat00025
따라서, 최종적으로 steering delay를 수학식 23과 같이 얻어 음원의 방향을 찾을 수 있게 된다.
Figure 112018008918942-pat00026
그리고 마이크 한 쌍에 대한 localization 방법으로 일반적인 Generalized Cross Correlation(GCC)는 수학식 24와 같다.
Figure 112018008918942-pat00027
GCC는 두 마이크로 입사되는 신호의 cross-correlation을 이용하며, 이 값이 최대가 되는 time delay τ를 구함으로써 신호의 방향을 찾게 된다. SRP에 대한 수학식 22에서의 적분은 수학식 22에 2π 상수배를 한 값으로 대체할 수 있으며, 결과적으로 SRP는 모든 마이크 쌍에 대한 GCC를 누적한 것이 된다.
한국등록특허공보 제 10-1269236호 한국등록특허공보 제 10-1073632호 한국등록특허공보 제 10-0612616호
전술한 문제점을 해결하기 위한 본 발명의 목적은 분산도 마스크를 이용하여 반향 및 잡음에 강인한 음원 국지화 방법 및 장치를 제공하는 것이다.
전술한 기술적 과제를 달성하기 위한 본 발명의 제1 특징에 따른 음원 국지화 방법은, (a) 적어도 둘 이상의 마이크를 포함하는 다중 마이크로폰을 통해 타겟 음원신호와 잡음 및 반향 신호가 혼합된 신호를 입력받는 단계; (b) 상기 입력된 신호들을 이용하여 타겟 음원과 잡음원에 대한 정보를 반영하는 분산도를 기반으로 하는 마스크를 생성하는 단계; (c) 상기 생성된 마스크를 이용하여 다중 마이크로폰으로의 입력 신호를 전처리하는 단계; (d) 상기 전처리된 입력 신호에 대하여 사전 설정된 알고리즘을 수행하여 타겟 음원에 대한 방향을 추정하는 단계; 를 구비한다.
전술한 제1 특징에 따른 음원 국지화 방법에 있어서. 상기 (b) 마스크를 생성하는 단계는, 입력 신호의 각 주파수(f) 및 시간 프레임(l)에 대한 일관성 대 분산도의 비(Coherence to Diffuseness ratio) (CDR(l,f))을 계산하고, 상기 CDR(l,f) 을 이용하여 분산도(D(l,f))를 계산하고, 상기 분산도(D(l,f))를 이용하여 아래의 수학식에 따라 마스크(MASk)값을 설정하여 이진화 마스크(M)을 생성하는 것이 바람직하다.
Figure 112018008918942-pat00028
전술한 제1 특징에 따른 음원 국지화 방법에 있어서, 상기 (c) 입력 신호를 전처리하는 단계는, 이진화 마스크를 이용하여 입력 신호를 이진화시키는 것이 바람직하다.
전술한 제1 특징에 따른 음원 국지화 방법에 있어서, 상기 (d) 단계의 사전 설정된 알고리즘은 일반화된 교차 상관(Generalized Cross-correlation;'GCC')값을 기반으로 한 음원 국지화 방법이거나 Steered Response Power('SRP')를 기반으로 한 음원 국지화 방법인 것이 바람직하며,
상기 알고리즘들은 각 주파수의 신호들에 대하여 아래의 수학식에 따른 가중치(Ψ(ω))를 부가하는 Phase Transform('PHAT") 방식을 적용하는 것이 더욱 바람직하다.
Figure 112018008918942-pat00029
여기서, k, l 은 마이크의 번호이며, ω=2πf 이며, Xk(ω)는 k 번째 마이크의 입력 신호에 대한 푸리에 변환값이며, Xl (ω)는 l번째 마이크의 입력 신호에 대한 푸리에 변환값의 켤레값임.
전술한 제1 특징에 따른 음원 국지화 방법에 있어서, 각 주파수(f) 및 시간 프레임(l)에 대한 CDR(l,f)은 잡음(n), 타겟 음원 신호(s) 및 잡음과 타겟 음원 신호의 혼합 신호(x)에 대한 일관성들을 이용하여 아래의 수학식에 따라 추정되는 것이 바람직하다.
Figure 112018008918942-pat00030
여기서, Γn(f)는 잡음(n)에 대한 일관성이며, Γs(f)는 타겟 음원 신호(s)에 대한 일관성이며, Γx(l,f)는 잡음과 타겟 음원 신호의 혼합 신호(x)에 대한 일관성임.
전술한 제1 특징에 따른 음원 국지화 방법에 있어서, 상기 분산도(D(l,f))는 아래의 수학식에 따라 계산되는 것이 바람직하다.
Figure 112018008918942-pat00031
본 발명의 제2 특징에 따른 음원 국지화 장치는, 다중 마이크로폰과 연결되어 다중 마이크로폰으로부터 타겟 음원 신호와 잡음 및 반향 신호가 혼합된 신호를 입력받는 혼합 신호 입력 모듈; 상기 혼합 신호 입력 모듈로부터 제공된 혼합 신호를 이용하여 분산도를 기반으로 한 이진화 마스크를 생성하여 출력하는 마스크 생성 모듈; 상기 마스크 생성 모듈로부터 이진화 마스크를 제공받고, 상기 혼합 신호 입력 모듈로부터 제공된 혼합 신호에 대하여 이진화 마스크를 적용하여 혼합 신호를 전처리하여 출력하는 입력 신호 전처리 모듈; 상기 입력 신호 전처리 모듈로부터 전처리된 혼합 신호를 제공받고, 상기 혼합 신호에 대하여 사전 설정된 국지화 알고리을 수행하여 타겟 음원에 대한 방향을 추정하여 출력하는 타겟 방향 추정 모듈; 을 구비하여, 다중 마이크로폰으로부터 입력되는 신호들을 이용하여 타겟 음원의 방향을 추정한다.
전술한 제2 특징에 따른 음원 국지화 장치에 있어서, 상기 마스크 생성 모듈은, 상기 혼합 신호 입력 모듈로부터 제공된 혼합 신호의 각 주파수(f) 및 시간 프레임(l)에 대한 일관성 대 분산도의 비(Coherence to Diffuseness ratio) (CDR(l,f))을 계산하고, 상기 CDR(l,f) 을 이용하여 분산도(D(l,f))를 계산하고, 상기 분산도(D(l,f))를 이용하여 아래의 수학식에 따라 마스크(MASk)값을 설정하여 이진화 마스크(M)을 생성하는 것이 바람직하다.
Figure 112018008918942-pat00032
전술한 제2 특징에 따른 음원 국지화 장치에 있어서, 상기 타겟 방향 추정 모듈의 사전 설정된 국지화 알고리즘은 일반화된 교차 상관(Generalized Cross-correlation;'GCC')값을 기반으로 한 음원 국지화 방법이거나 Steered Response Power('SRP')를 기반으로 한 음원 국지화 방법인 것이 바람직하다.
전술한 제2 특징에 따른 음원 국지화 장치에 있어서, 각 주파수(f) 및 시간 프레임(l)에 대한 CDR(l,f)은 잡음(n), 타겟 음원 신호(s) 및 잡음과 타겟 음원 신호의 혼합 신호(x)에 대한 일관성들을 이용하여 아래의 수학식에 따라 추정되는 것이 바람직하다.
Figure 112018008918942-pat00033
여기서, Γn(f)는 잡음(n)에 대한 일관성이며, Γs(f)는 타겟 음원 신호(s)에 대한 일관성이며, Γx(l,f)는 잡음과 타겟 음원 신호의 혼합 신호(x)에 대한 일관성임.
본 발명에 따른 음원 국지화 방법에 따라 입력 신호에 대해 CDR을 기반으로 한 이진화 마스크를 적용함으로써, 잡음과 반향이 증가되더라도 그 정확도가 증가되어 기존의 다른 알고리즘들에 비하여 잡음과 반향에 강인한 성능을 보인다.
도 1은 구좌표계에서의 음원으로부터 나온 음성 신호가 각도별 다중 마이크로폰에 도착하는 시간 지연을 설명하기 위하여 도시한 그래프이다.
도 2는 지연 보상이 되었을 때의 교차 상관값을 설명하기 위한 그림이다.
도 3은 종래의 delay sum beamforming 방법을 이용한 Steered Response Power 알고리즘을 설명하기 위하여 도시한 그림이다.
도 4는 분산 잡음의 구성을 예시적으로 도시한 그림이다.
도 5는 반향 환경에서의 입력 신호의 입력 경로를 예시적으로 도시한 상태도이다.
도 6은 본 발명의 바람직한 실시예에 따른 음원 국지화 방법을 구현한 음원 국지화 장치를 전체적으로 도시한 블록도이다.
도 7의 (a),(b) 및 (c)는 본 발명의 바람직한 실시예에 따른 음원 국지화 방법에 있어서, 입력된 혼합신호, 이에 따라 추정된 CDR, 및 이진화 마스크를 각각 도시한 그래프이다.
도 8은 본 발명의 바람직한 실시예에 따른 음원 국지화 방법의 성능을 종래의 방법과 비교하여 도시한 그래프들이다.
본 발명에 따른 음원 국지화 방법 및 장치는 방향 및 잡음 환경에서, 타겟 음원과 잡음원에 대한 정보를 반영하는 분산도를 기반으로 한 이진화 마스크를 생성하고, 생성된 이진화 마스크를 이용하여 입력 신호를 변환시킨 후, 변환된 입력신호에 대하여 교차 상관 기법을 기반으로 한 GCC-PHAT 또는 SRP-PHAT을 적용하여 타겟 음원의 방향을 추정하는 것을 특징으로 한다.
이하, 본 발명의 바람직한 음원 국지화 방법 및 장치에 대하여 구체적으로 설명한다.
수학식 25와 같이, 타겟 음원 신호와 잡음의 파워 비율인 SNR(Signal to Noise ratio)를 정의할 때 타겟 음원의 자기 상관값 Φs(l,f) 과 잡음원의 자기 상관값 Φn(l,f) 의 비로 표현한다. 이 때, 타겟 음원의 자기 상관값 Φs(l,f) 과 잡음원의 자기 상관값 Φn(l,f) 은 잡음과 늦은 반향이 존재하는 환경에 대해 수학식 25와 같이 나타낼 수 있다.
Figure 112018008918942-pat00034
여기서, l은 시간 프레임이며, f는 주파수 빈을 의미한다.
다음, 분산도(D)는 수학식 26에 의해 측정된다. 여기서, Ppw는 평면파의 페이저, Pdiff는 분산 잡음의 페이저를 의미한다. 평면파와 분산 잡음은 각각 일관성에 의해 구분될 수 있는데, 이론적으로는 평면파의 일관성은 1에 해당하고 분산 잡음의 일관성은 0에 해당한다. 그리고, 분산도(D)는 0~1 의 범위의 값으로 나타내어지며, 값이 클수록 분산도가 높고 값이 작을수록 분산도가 낮음을 의미한다.
한편, 일관성 대 분산도 비(Coherent to Diffuse power ratio ; 'CDR')는 수학식 27로 나타낼 수 있다. CDR은 SNR에서 타겟 음원을 평면파로 가정하고 잡음을 분산 잡음으로 가정할 때의 경우와 동일하다. 즉, CDR은 일관성이 높은 신호 대비 일관성이 낮은 신호의 비율이라고 볼 수 있다.
Figure 112018008918942-pat00035
Figure 112018008918942-pat00036
따라서, 음성 신호의 경우에는 일관성이 높은 신호이며, 본 발명의 대상 잡음인 분산 잡음은 일관성이 낮은 신호이므로, CDR은 SNR과 동일하게 사용가능하다. 이때, '일관성'은 수학식 28에 나타난 바와 같이, 두 개의 마이크로 들어오는 입력 신호 x1(t)와 x2(t)가 존재할 때, 이 신호에 대한 교차 상관값 Φx1x2 을 신호의 자기 상관값들로 정규화한 값으로 정의된다. 이에 따라 일관성은 시간에 따른 음원의 크기 변화에 영향을 받지 않고 일정한 방향으로 들어온다고 가정할 경우 시간에 독립적임을 알 수 있다. 따라서, 일관성은 교차 상관 값에 비하여 타겟 음원과 잡음원에 대해 시간적인 특징을 배제한 공간적인 특징만을 반영할 수 있다. 즉, 타겟 신호와 잡음신호 각각의 공간적인 특징에 따라서 일관성의 식을 정할 수 있게 된다. 따라서, CDR 을 교차 상관 값이 아닌 혼합신호의 일관성, 타겟음원의 일관성, 잡음원의 일관성으로 나타낼 경우 혼합신호를 통해서도 잡음 대비 신호가 우세한 시간 및 주파수 영역을 추정할 수 있다.
Figure 112018008918942-pat00037
수학식 28에 따른 일관성의 정의에 따라, 타겟 음원(s)과 잡음원(n)의 일관성은 수학식 29와 같이 각각 나타낼 수 있다.
Figure 112018008918942-pat00038
다음, 입력 신호 x(t)에 대한 일관성은 수학식 30과 같이 나타낼 수 있으며, 이를 CDR에 대하여 나타내면 수학식 31 및 수학식 32로 나타낼 수 있으며, 다시 CDR은 각 신호에 대한 일관성을 이용하여 수학식 33과 같이 나타낼 수 있다.
Figure 112018008918942-pat00039
Figure 112018008918942-pat00040
Figure 112018008918942-pat00041
Figure 112018008918942-pat00042
다시, 수학식 26에 따른 분산도(D)를 일관성을 이용하여 정리하면 수학식 34과 같이 나타낼 수 있다.
Figure 112018008918942-pat00043
이하, 본 발명의 바람직한 실시예에 따른 음원 국지화 방법을 적용하여 구현한 음원 국지화 장치에 대하여 구체적으로 설명한다.
도 6은 본 발명의 바람직한 실시예에 따른 음원 국지화 방법을 구현한 음원 국지화 장치를 전체적으로 도시한 블록도이다. 도 6을 참조하면, 본 발명에 따른 음원 국지화 장치(10)는, 혼합 신호 입력 모듈(100), 마스크 생성 모듈(110), 입력 신호 전처리 모듈(120), 타겟 방향 추정 모듈(130)을 구비한다.
전술한 구성을 갖는 본 발명에 따른 음원 국지화 장치(10)는 M 개의 마이크들로 이루어진 다중 마이크로폰(20)과 연결되며, 다중 마이크로폰으로부터 입력되는 신호들을 이용하여 타겟 음원의 방향을 추정하게 된다.
상기 혼합 신호 입력 모듈(100)은, 상기 다중 마이크로폰과 연결되어 다중 마이크로폰으로부터 타겟 음원 신호와 잡음 및 반향 신호가 혼합된 신호를 입력받게 된다.
상기 마스크 생성 모듈(110)은, 상기 혼합 신호 입력 모듈로부터 제공된 혼합 신호를 이용하여 분산도를 기반으로 한 이진화 마스크(M)를 생성하여 출력한다. 상기 마스크 생성 모듈의 동작에 대한 자세한 설명은 후술한다.
상기 입력 신호 전처리 모듈(120)은, 상기 마스크 생성 모듈로부터 이진화 마스크를 제공받고, 상기 혼합 신호 입력 모듈로부터 제공된 혼합 신호에 대하여 이진화 마스크를 적용하여 혼합 신호를 전처리하여 출력한다.
상기 타겟 방향 추정 모듈(130)은, 상기 입력 신호 전처리 모듈로부터 전처리된 혼합 신호를 제공받고, 상기 혼합 신호에 대하여 GCC 알고리즘 또는 SRP 알고리즘을 이용하거나, 교차 상관값에 대하여 Phase tramsform 가중치 함수를 적용하는 GCC-PHAT 알고리즘이나 SRP-PHAT 알고리즘을 이용하여 타겟 음원의 방향을 추정하여 출력한다.
이하, 본 발명에 따른 음원 국지화 방법에서 사용되는 분산도를 이용한 이진화 마스크의 생성 방법에 대하여 구체적으로 설명한다. 한편, 본 발명에 따른 음원 국지화 장치(10)의 마스크 생성 모듈(110)은 아래의 이진화 마스크 생성 방법을 적용하여 구현된 것을 특징으로 한다.
본 발명에서는 분산도 값에 따라 타겟 음원이 우세한 시간 및 주파수에서의 방향 추정이 가능하도록 분산도를 기반으로 한 이진화 마스크를 사용한다. 먼저, 타겟 음원, 잡음 및 반향에 대한 일관성에 대하여 구체적인 정의를 설명한다.
타겟 음원이 원거리에서 θ의 도달 방향을 가지고 마이크로폰으로 입력될 경우의 타겟 음원의 일관성(Coherence)은 수학식 35로 나타낼 수 있다.
Figure 112019088429319-pat00044
다음, 환경적인 배경 잡음을 고려할 때에는 보통 무한의 개수를 가지는 비상관 잡음의 중첩 신호로 가정한다. 그리고 이러한 잡음은 공간적으로 원형 중간에 마이크로폰이 존재할 때에 모든 방향으로부터 입력된다. 즉, 잡음원이 마이크로폰으로부터 멀리 떨어진 모든 방향으로부터 균등하게 분포되어 있어 입력된 신호에서 상호관계성이 없게 되는 것이다. 그리고 이러한 잡음을 바로 분산 잡음 또는 등방성 잡음이라고 일컫는다. 대부분 실험적으로 이러한 분산 잡음을 생성할 때에는 도 4와 같이 많은 수의 비상관 잡음원을 전 방향으로 두어 구성한다. 도 4는 분산 잡음의 구성을 예시적으로 도시한 그림이다.
그리고, 분산 잡음에 대한 일관성은 두 마이크로폰에 대하여 수학식 36과 같이 정의된다
Figure 112018008918942-pat00045
한편, 반향 신호의 경우는 일반적으로 RIR(Room Impulse Response)와 타겟음원이 컨볼루션되어 입력된다고 가정한다. 이 때, 반향 신호는 도 5와 같이 녹음 환경 내부의 장애물에 부딪혀 여러 반사경로를 통하여 서로 다른 시간차와 감쇄된 크기를 가지고 마이크로폰으로 들어오게 되기 때문에 일반적으로 분산 잡음과 유사한 등방향성의 성질을 띄게 된다. 따라서 늦은 반향신호의 경우는 분산 잡음과 동일하게 취급이 가능하다. 도 5는 반향 환경에서의 입력 신호의 입력 경로를 예시적으로 도시한 상태도이다.
먼저, CDR 값을 구하는 데에 있어 필요한 두 마이크 신호간의 자기 및 교차 상관 값은 상기 각 시간에 대하여 평균적인 값을 구하기 위하여 수학식 37과 같이 순환적으로 구한다. 이 때의 λ는 0과 1 사이의 상수 값이다
Figure 112018008918942-pat00046
또한, 수학식 33으로 나타낸 CDR을 결정하기 위하여, 수학식 38과 같이 타겟 음원의 일관성을 1로 가정하고, 수학식 38을 정리하여 수학식 39로 표현한다. 이를 이용하여 타겟 음원 방향을 모를 때의 CDR을 수학식 40을 통해 구한다. 수학식 40에서, CDR을 찾기 위해 0과 CDR 중에서 최대값을 취하는 이유는 CDR이 음수가 나오는 것을 방지하기 위함이다.
Figure 112018008918942-pat00047
Figure 112018008918942-pat00048
Figure 112018008918942-pat00049
최종적으로, 분산도(D)의 값은 수학식 41과 같이 정리되고, 앞서 언급된 바와 같이 0부터 1 사이의 값을 갖게 된다.
Figure 112018008918942-pat00050
일반적으로 잡음제거나 반향제거 알고리즘에서는 마스크를 이용하여 잡음원을 제거할 경우에 타겟 음원에 대한 왜곡이 생기기 때문에 음성인식률 성능을 떨어뜨리게 되므로, 잡음제거 또는 반향제거의 성능을 조금 포기하더라도 원 신호의 왜곡이 가지 않는 선에서 마스킹을 진행한다. 하지만, 본 발명에서는 CDR을 통하여 수행하고자 하는 것이 잡음제거나 반향제거가 아닌 잡음과 반향에 대한 정보를 주어 강인한 음원 국지화를 진행하는 것이므로, 타겟 음원의 두 마이크 사이의 위상 차가 보존되는 범위 안에서는 잡음을 최대한 많이 지워주는 것이 타겟 음원에서 더욱 명확한 교차 상관 값을 가질 수 있을 것이라 판단할 수 있다. 따라서, 수학식 42와 같이 선형적으로 값을 가지는 분산도의 값을 임계치(threshold)를 두어 이진화시키게 된다.
Figure 112018008918942-pat00051
이때, 임계치(threshold)는 실험을 통하여, 가장 높은 타겟 음원 추정에 대한 정확도를 갖는 값으로 설정되는 것이 바람직하다.
전술한 바와 같이, CDR을 이용하여 측정한 분산도를 이용하여 생성한 이진화 마스크를 마이크로폰으로 입력된 입력 신호에 적용하여 GCC-PHAT 또는 SRP-PHAT을 진행함으로써 반향 및 잡음에 강인한 음원 국지화를 구현할 수 있다.
도 7의 (a),(b) 및 (c)는 본 발명의 바람직한 실시예에 따른 음원 국지화 방법에 있어서, 입력된 혼합신호, 이에 따라 추정된 CDR, 및 이진화 마스크를 각각 도시한 그래프이다. 도 7을 참조하면, 타겟 신호가 존재하는 구간에서 대부분 우세한 값을 보이면서, 음성 신호가 존재하는 시간 및 주파수를 검출해 내고 있음을 알 수 있다.
도 8은 본 발명의 바람직한 실시예에 따른 음원 국지화 방법의 성능을 종래의 방법과 비교하여 도시한 그래프들이다. 도 8의 (a)는 종래의 방법에 따른 GCC-PHAT의 결과 그래프로서 오검출되었던 프레임을 나타내며, 도 8의 (b)는 본 발명에 따라 마스킹 기법을 적용한 GCC-PHAT의 결과를 도시한 그래프이다. 도 8을 참조하면, 종래의 방법에서는 타겟 음원의 방향이 오검출되었으나 본 발명에서는 정확하게 검출됨을 파악할 수 있다.
한편, 앞서 설명한 바와 같이, SRP-PHAT 는 2개의 마이크로폰에 적용하는 GCC-PHAT 알고리즘을 멀티 마이크로폰에 적용한 것과 같다. 또한, 수학식적으로도 SRP-PHAT 는 모든 마이크로폰 쌍에 대한 GCC-PHAT의 합이다. 따라서, 마이크를 2개만 사용하는 경우, SRP-PHAT와 GCC-PHAT는 같은 결과를 가지게 된다. 따라서, 본 발명에 따른 국지화 방법은 분산도를 이용하여 생성한 이진화 마스크를 입력신호에 적용한 후, GCC-PHAT 뿐만 아니라 SRP-PHAT를 이용하여 타겟 음원의 방향을 추정할 수 있다.
이상에서 본 발명에 대하여 그 바람직한 실시예를 중심으로 설명하였으나, 이는 단지 예시일 뿐 본 발명을 한정하는 것이 아니며, 본 발명이 속하는 분야의 통상의 지식을 가진 자라면 본 발명의 본질적인 특성을 벗어나지 않는 범위에서 이상에 예시되지 않은 여러 가지의 변형과 응용이 가능함을 알 수 있을 것이다. 그리고, 이러한 변형과 응용에 관계된 차이점들은 첨부된 청구 범위에서 규정하는 본 발명의 범위에 포함되는 것으로 해석되어야 할 것이다.
10 : 음원 국지화 장치
20 : 다중 마이크로폰
100 : 혼합 신호 입력 모듈
110 : 마스크 생성 모듈
120 : 입력 신호 전처리 모듈
130 : 타겟 방향 추정 모듈

Claims (11)

  1. (a) 적어도 둘 이상의 마이크를 포함하는 다중 마이크로폰을 통해 타겟 음원신호와 잡음 및 반향 신호가 혼합된 신호를 입력받는 단계;
    (b) 상기 입력된 신호들을 이용하여 타겟 음원과 잡음원에 대한 정보를 반영하는 분산도를 기반으로 하는 마스크를 생성하는 단계;
    (c) 상기 생성된 마스크를 이용하여 다중 마이크로폰으로의 입력 신호를 전처리하는 단계;
    (d) 상기 전처리된 입력 신호에 대하여 사전 설정된 알고리즘을 수행하여 타겟 음원에 대한 방향을 추정하는 단계;
    를 구비하고, 상기 (b) 마스크를 생성하는 단계는,
    입력 신호의 각 주파수(f) 및 시간 프레임(l)에 대한 일관성(Coherence) 및 분산도(Diffuseness)를 이용하여 마스크를 생성하는 것을 특징으로 하는 음원 국지화 방법.
  2. 제1항에 있어서. 상기 (b) 마스크를 생성하는 단계는,
    입력 신호의 각 주파수(f) 및 시간 프레임(l)에 대한 일관성 대 분산도의 비(Coherence to Diffuseness ratio) (CDR(l,f))을 계산하고,
    상기 CDR(l,f) 을 이용하여 분산도(D(l,f))를 계산하고,
    상기 분산도(D(l,f))를 이용하여 아래의 수학식에 따라 마스크(MASk)값을 설정하여 이진화 마스크(M)을 생성하는 것을 특징으로 하는 음원 국지화 방법.
    Figure 112019088429319-pat00052
  3. 제2항에 있어서, 상기 (c) 입력 신호를 전처리하는 단계는,
    이진화 마스크를 이용하여 입력 신호를 이진화시키는 것을 특징으로 하는 음원 국지화 방법.
  4. 제1항에 있어서, 상기 (d) 단계의 사전 설정된 알고리즘은 일반화된 교차 상관(Generalized Cross-correlation;'GCC')값을 기반으로 한 음원 국지화 방법이거나 Steered Response Power('SRP')를 기반으로 한 음원 국지화 방법인 것을 특징으로 하는 음원 국지화 방법.
  5. 제4항에 있어서, 상기 알고리즘들은 각 주파수의 신호들에 대하여 아래의 수학식에 따른 가중치(Ψ(ω))를 부가하는 Phase Transform('PHAT") 방식을 적용하는 것을 특징으로 하는 음원 국지화 방법.
    Figure 112018008918942-pat00053

    여기서, k, l 은 마이크의 번호이며, ω=2πf 이며, Xk(ω)는 k 번째 마이크의 입력 신호에 대한 푸리에 변환값이며, Xl (ω)는 l번째 마이크의 입력 신호에 대한 푸리에 변환값의 켤레값임.
  6. 제2항에 있어서, 각 주파수(f) 및 시간 프레임(l)에 대한 CDR(l,f)은 잡음(n), 타겟 음원 신호(s) 및 잡음과 타겟 음원 신호의 혼합 신호(x)에 대한 일관성들을 이용하여 아래의 수학식에 따라 추정되는 것을 특징으로 하는 음원 국지화 방법.
    Figure 112019088429319-pat00054

    여기서, Γn(f)는 잡음(n)에 대한 일관성이며, Γs(f)는 타겟 음원 신호(s)에 대한 일관성이며, Γx(l,f)는 잡음과 타겟 음원 신호의 혼합 신호(x)에 대한 일관성임.
  7. 제2항에 있어서, 상기 분산도(D(l,f))는 아래의 수학식에 따라 계산되는 것을 특징으로 하는 음원 국지화 방법.
    Figure 112018008918942-pat00055
  8. 다중 마이크로폰과 연결되어 다중 마이크로폰으로부터 타겟 음원 신호와 잡음 및 반향 신호가 혼합된 신호를 입력받는 혼합 신호 입력 모듈;
    상기 혼합 신호 입력 모듈로부터 제공된 혼합 신호를 이용하여 분산도를 기반으로 한 이진화 마스크를 생성하여 출력하는 마스크 생성 모듈;
    상기 마스크 생성 모듈로부터 이진화 마스크를 제공받고, 상기 혼합 신호 입력 모듈로부터 제공된 혼합 신호에 대하여 이진화 마스크를 적용하여 혼합 신호를 전처리하여 출력하는 입력 신호 전처리 모듈;
    상기 입력 신호 전처리 모듈로부터 전처리된 혼합 신호를 제공받고, 상기 혼합 신호에 대하여 사전 설정된 국지화 알고리을 수행하여 타겟 음원에 대한 방향을 추정하여 출력하는 타겟 방향 추정 모듈;
    을 구비하여, 다중 마이크로폰으로부터 입력되는 신호들을 이용하여 타겟 음원의 방향을 추정하는 것을 특징으로 하며,
    상기 마스크 생성 모듈은,
    상기 혼합 신호 입력 모듈로부터 제공된 혼합 신호의 각 주파수(f) 및 시간 프레임(l)에 대한 일관성(Coherence) 및 분산도(Diffuseness)를 이용하여 마스크를 생성하는 것을 특징으로 하는 음원 국지화 장치.
  9. 제8항에 있어서, 상기 마스크 생성 모듈은,
    상기 혼합 신호 입력 모듈로부터 제공된 혼합 신호의 각 주파수(f) 및 시간 프레임(l)에 대한 일관성 대 분산도의 비(Coherence to Diffuseness ratio) (CDR(l,f))을 계산하고,
    상기 CDR(l,f) 을 이용하여 분산도(D(l,f))를 계산하고,
    상기 분산도(D(l,f))를 이용하여 아래의 수학식에 따라 마스크(MASk)값을 설정하여 이진화 마스크(M)을 생성하는 것을 특징으로 하는 음원 국지화 장치.
    Figure 112019088429319-pat00056
  10. 제8항에 있어서, 상기 타겟 방향 추정 모듈의 사전 설정된 국지화 알고리즘은 일반화된 교차 상관(Generalized Cross-correlation;'GCC')값을 기반으로 한 음원 국지화 방법이거나 Steered Response Power('SRP')를 기반으로 한 음원 국지화 방법인 것을 특징으로 하는 음원 국지화 장치.
  11. 제9항에 있어서, 각 주파수(f) 및 시간 프레임(l)에 대한 CDR(l,f)은 잡음(n), 타겟 음원 신호(s) 및 잡음과 타겟 음원 신호의 혼합 신호(x)에 대한 일관성들을 이용하여 아래의 수학식에 따라 추정되는 것을 특징으로 하는 음원 국지화 장치.
    Figure 112019088429319-pat00057

    여기서, Γn(f)는 잡음(n)에 대한 일관성이며, Γs(f)는 타겟 음원 신호(s)에 대한 일관성이며, Γx(l,f)는 잡음과 타겟 음원 신호의 혼합 신호(x)에 대한 일관성임.
KR1020180009446A 2018-01-25 2018-01-25 분산도 마스크를 이용한 음원 국지화 방법 및 음원 국지화 장치 KR102088222B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020180009446A KR102088222B1 (ko) 2018-01-25 2018-01-25 분산도 마스크를 이용한 음원 국지화 방법 및 음원 국지화 장치
US16/255,112 US10593344B2 (en) 2018-01-25 2019-01-23 Sound source localization method and sound source localization apparatus based coherence-to-diffuseness ratio mask

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180009446A KR102088222B1 (ko) 2018-01-25 2018-01-25 분산도 마스크를 이용한 음원 국지화 방법 및 음원 국지화 장치

Publications (2)

Publication Number Publication Date
KR20190090578A KR20190090578A (ko) 2019-08-02
KR102088222B1 true KR102088222B1 (ko) 2020-03-16

Family

ID=67299364

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180009446A KR102088222B1 (ko) 2018-01-25 2018-01-25 분산도 마스크를 이용한 음원 국지화 방법 및 음원 국지화 장치

Country Status (2)

Country Link
US (1) US10593344B2 (ko)
KR (1) KR102088222B1 (ko)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10334360B2 (en) * 2017-06-12 2019-06-25 Revolabs, Inc Method for accurately calculating the direction of arrival of sound at a microphone array
CN110459236B (zh) * 2019-08-15 2021-11-30 北京小米移动软件有限公司 音频信号的噪声估计方法、装置及存储介质
CN110364159B (zh) * 2019-08-19 2022-04-29 北京安云世纪科技有限公司 一种语音指令的执行方法、装置及电子设备
US20220342026A1 (en) * 2019-09-02 2022-10-27 Nec Corporation Wave source direction estimation device, wave source direction estimation method, and program recording medium
CN113286252B (zh) * 2021-07-23 2021-11-16 科大讯飞(苏州)科技有限公司 一种声场重建方法、装置、设备及存储介质
CN113655440B (zh) * 2021-08-09 2023-05-30 西南科技大学 一种自适应折中预白化的声源定位方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013097273A (ja) * 2011-11-02 2013-05-20 Toyota Motor Corp 音源推定装置、方法、プログラム、及び移動体
WO2017094862A1 (ja) * 2015-12-02 2017-06-08 日本電信電話株式会社 空間相関行列推定装置、空間相関行列推定方法および空間相関行列推定プログラム

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100612616B1 (ko) 2004-05-19 2006-08-17 한국과학기술원 영교차점을 이용한 신호대잡음비 추정방법 및 음원 방향탐지방법
KR101456866B1 (ko) * 2007-10-12 2014-11-03 삼성전자주식회사 혼합 사운드로부터 목표 음원 신호를 추출하는 방법 및장치
US8724829B2 (en) * 2008-10-24 2014-05-13 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for coherence detection
KR101161248B1 (ko) * 2010-02-01 2012-07-02 서강대학교산학협력단 Duet 를 기반으로 한 관심 음원 향상 방법
KR101073632B1 (ko) 2010-02-25 2011-10-14 경북대학교 산학협력단 반향 환경에서의 영교차 기반 다음원 국지화 방법 및 장치
US8538035B2 (en) * 2010-04-29 2013-09-17 Audience, Inc. Multi-microphone robust noise suppression
KR101269236B1 (ko) 2011-07-21 2013-05-30 경희대학교 산학협력단 4채널 마이크어레이를 이용한 향상된 음원방향감지 시스템
KR101767925B1 (ko) * 2012-07-26 2017-08-18 한화테크윈 주식회사 음원 위치 추정 장치 및 방법
KR101568282B1 (ko) * 2013-09-03 2015-11-12 서강대학교산학협력단 클러스터 기반 손실 특징 복원 알고리즘을 위한 마스크 추정 방법 및 장치
KR101642084B1 (ko) * 2014-05-29 2016-07-22 경희대학교 산학협력단 다중 음원 국지화 기법을 이용한 얼굴 검출 장치 및 방법
WO2016093834A1 (en) * 2014-12-11 2016-06-16 Nuance Communications, Inc. Speech enhancement using a portable electronic device
WO2016093854A1 (en) * 2014-12-12 2016-06-16 Nuance Communications, Inc. System and method for speech enhancement using a coherent to diffuse sound ratio
WO2017108097A1 (en) * 2015-12-22 2017-06-29 Huawei Technologies Duesseldorf Gmbh Localization algorithm for sound sources with known statistics

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013097273A (ja) * 2011-11-02 2013-05-20 Toyota Motor Corp 音源推定装置、方法、プログラム、及び移動体
WO2017094862A1 (ja) * 2015-12-02 2017-06-08 日本電信電話株式会社 空間相関行列推定装置、空間相関行列推定方法および空間相関行列推定プログラム

Also Published As

Publication number Publication date
US10593344B2 (en) 2020-03-17
KR20190090578A (ko) 2019-08-02
US20190228790A1 (en) 2019-07-25

Similar Documents

Publication Publication Date Title
KR102088222B1 (ko) 분산도 마스크를 이용한 음원 국지화 방법 및 음원 국지화 장치
JP7158806B2 (ja) オーディオ認識方法、ターゲットオーディオを位置決める方法、それらの装置、およびデバイスとコンピュータプログラム
RU2760097C2 (ru) Способ и устройство для захвата аудиоинформации с использованием формирования диаграммы направленности
US8675890B2 (en) Speaker localization
US20130083832A1 (en) Processing Signals
JP6225118B2 (ja) 音源位置推定
JP7041157B2 (ja) ビームフォーミングを使用するオーディオキャプチャ
US10638224B2 (en) Audio capture using beamforming
KR20080064807A (ko) 감쇄 인자를 이용하여 노이즈 구별을 개선하기 위한 방법및 장치
Grondin et al. Time difference of arrival estimation based on binary frequency mask for sound source localization on mobile robots
Seo et al. Impulsive sound source localization using peak and RMS estimation of the time-domain beamformer output
Di Carlo et al. Mirage: 2d source localization using microphone pair augmentation with echoes
US6058075A (en) System for canceling interferers from broadband active sonar signals using adaptive beamforming methods
Niwa et al. Optimal microphone array observation for clear recording of distant sound sources
Chen et al. Insight into split beam cross-correlator detector with the prewhitening technique
Xia et al. Delay-and-sum beamforming based on the diagonal reducing method
Sun et al. Robust adaptive beamforming method for active sonar in single snapshot
Gray et al. Direction of arrival estimation of kiwi call in noisy and reverberant bush
Kerner et al. Two microphone array MVDR beamforming with controlled beamwidth and immunity to gain mismatch
Liu et al. Deconvolved Matched Field Processing Localization with a Vertical Line Array
Chakrabarty et al. A method to analyze the spatial response of informed spatial filters
Dhull Context-Aware Acoustic Source Localization Methods.
Alrabadi et al. Locating an Acoustic Source Using a Mutual Information Beamformer
Nejevenko et al. Improvement of Sound Source Detection by using of the Shoreline Modeling
Lundström Matched field beamforming applied to sonar data

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right