KR20090037845A - 혼합 신호로부터 목표 음원 신호를 추출하는 방법 및 장치 - Google Patents

혼합 신호로부터 목표 음원 신호를 추출하는 방법 및 장치 Download PDF

Info

Publication number
KR20090037845A
KR20090037845A KR1020080129411A KR20080129411A KR20090037845A KR 20090037845 A KR20090037845 A KR 20090037845A KR 1020080129411 A KR1020080129411 A KR 1020080129411A KR 20080129411 A KR20080129411 A KR 20080129411A KR 20090037845 A KR20090037845 A KR 20090037845A
Authority
KR
South Korea
Prior art keywords
signal
sound source
target sound
nonlinear filter
filter
Prior art date
Application number
KR1020080129411A
Other languages
English (en)
Inventor
정소영
오광철
정재훈
김규홍
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020080129411A priority Critical patent/KR20090037845A/ko
Publication of KR20090037845A publication Critical patent/KR20090037845A/ko
Priority to US12/458,698 priority patent/US8238569B2/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Abstract

혼합 신호로부터 목표 음원 신호를 추출하는 방법 및 장치에 따르면, 마이크로폰 어레이(microphone array)에서 혼합 신호를 획득하고, 혼합 신호에 대하여 목표 음원 방향으로 지향성이 강조된 제 1 신호와 목표 음원 방향으로 지향성이 억제된 제 2 신호를 생성하고, 제 1 신호 및 제 2 신호간의 진폭 비율 및 주파수 및 혼합 신호에서의 간섭 신호의 비율 중 적어도 어느 하나에 적응적인 비선형 필터를 산출하고, 제 1 신호를 비선형 필터로 필터링(filtering)하여 목표 음원 신호를 추출한다.

Description

혼합 신호로부터 목표 음원 신호를 추출하는 방법 및 장치{METHOD AND APPARATUS FOR EXTRACTING THE TARGET SOUND SIGNAL FROM THE MIXED SOUND}
본 발명은 혼합 신호로부터 특정 음원에 대한 음원 신호를 추출하는 방법 및 장치에 관한 발명으로서, 휴대 전화, 캠코더 및 디지털 녹음기 등 음성 신호 처리나 사운드 취득이 가능한 디지털 휴대 기기 등에 입력되는 다양한 음원이 포함된 혼합 신호로부터 사용자가 원하는 목표 음원 신호만을 추출하기 위하여 혼합 신호를 가공하는 방법 및 장치에 관한 것이다.
휴대용 디지털 기기를 사용하여 전화 통화를 하거나 외부 음성을 녹음하거나 동영상을 취득하는 것이 일상화되는 시대가 도래하였다. CE(consumer electronics) 기기 및 휴대 전화 등 다양한 디지털 기기에서는 사운드를 취득하기 위한 수단으로서 마이크로폰(microphone)이 사용되는데, 단일 채널의 모노(mono) 사운드가 아닌 2 이상의 채널을 활용하는 스테레오(stereo) 사운드를 구현하기 위해서는 일반적으로 다수의 마이크로폰들이 포함된 마이크로폰 어레이(microphone array)가 사용된다.
마이크로폰 어레이는 다수의 마이크로폰들을 조합하여 사운드 자체뿐만 아니 라 취득하려는 사운드의 방향이나 위치와 같은 지향성(directivity)에 관한 부가적인 성질을 얻을 수 있다. 지향성이라 함은 음원 신호가 어레이를 구성하는 다수의 마이크로폰들 각각에 도달하는 시간 차이를 이용하여 특정 방향에 위치한 음원으로부터 방사되는 음원 신호에 대한 감도를 크게 하는 것을 말한다. 따라서, 이러한 마이크로폰 어레이를 이용하여 음원 신호들을 취득함으로써 특정 방향으로부터 입력되는 음원 신호를 강조하거나 억제할 수 있다.
마이크로폰 어레이를 사용하여 목표 음원과 간섭 잡음이 혼합된 혼합 신호를 획득하고, 목표 음원 신호를 혼합 신호에서 추출하는 필터에 있어서 음악적 잡음(musical noise)이나 급변하는 주위 환경의 영향에 대처하기 위한 연구가 진행되고 있다. 또한, 국제통신연맹(ITU)은 입력 음성과 출력 음성을 비교하여 객관적으로 음질을 평가하는 PESQ(Perceptual Evaluation Speech Quality) 지수를 사용한다.
이하에서 음원(sound source)이란 음향(sound)이 방사되어 나오는 소스(source)로서 어레이 스피커를 구성하는 개별 스피커를 의미하는 용어로서 사용되고, 음장(sound field)이란 음원으로부터 방사된 음향이 형성하는 가상적인 영역으로서, 음향 에너지가 미치는 영역을 의미하는 용어로서 사용될 것이다. 또한, 음압(sound pressure)이란, 음향 에너지가 미치는 힘을 압력의 물리량을 사용하여 표현한 것이다.
본 발명이 해결하고자 하는 기술적 과제는 마이크로폰 어레이를 통해 입력된 복수 개의 사운드가 포함된 혼합 신호로부터 특정 음원 신호를 선명하게 분리하지 못하는 문제점을 해결하는 목표 음원 분리 방법 및 장치를 제공하는데 있다.
본 발명의 적어도 하나의 실시예가 이루고자 하는 또 다른 기술적 과제는 급변화하는 주위 환경에 대처하여 혼합 신호로부터 목표 음원 신호를 추출하는 방법 및 장치를 제공하는데 있다. 또한, 상기 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체를 제공하는데 있다. 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.
상기 기술적 과제를 달성하기 위하여, 본 발명에 따른 목표 음원 신호 추출 방법은 마이크로폰 어레이를 통해 혼합 신호를 입력받는 단계; 상기 혼합 신호에 대하여 목표 음원 방향으로 지향성이 강조된 제 1 신호와 상기 목표 음원 방향으로 지향성이 억제된 제 2 신호를 생성하는 단계; 및 상기 제 1 신호 및 상기 제 2 신호 간의 비율에 기초하여 상기 제 1 신호에 포함된 간섭 음원 신호를 마스킹함으로써 상기 제 1 신호로부터 목표 음원 신호를 추출하는 단계를 포함하는 것을 특징으로 한다.
상기 다른 기술적 과제를 해결하기 위하여, 본 발명은 상기 기재된 목표 음 원 신호 추출 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.
상기 기술적 과제를 달성하기 위하여, 본 발명에 따른 목표 음원 신호 추출 장치는 혼합 신호를 입력받는 마이크로폰 어레이; 상기 혼합 신호에 대하여 목표 음원 방향으로 지향성이 강조된 제 1 신호와 상기 목표 음원 방향으로 지향성이 억제된 제 2 신호를 생성하는 빔 형성부(beam-former); 및 상기 제 1 신호 및 상기 제 2 신호 간의 비율에 기초하여 상기 제 1 신호에 포함된 간섭 음원 신호를 마스킹함으로써 상기 제 1 신호로부터 목표 음원 신호를 추출하는 신호 추출부를 포함하는 것을 특징으로 한다.
상기 기술적 과제를 해결하기 위한 본 실시예에 따른 혼합 신호로부터 목표 음원 신호의 적응적 추출 방법은 마이크로폰 어레이(microphone array)에서 상기 혼합 신호를 획득하는 단계; 상기 혼합 신호에 대하여 목표 음원 방향으로 지향성이 강조된 제 1 신호와 상기 목표 음원 방향으로 지향성이 억제된 제 2 신호를 생성하는 단계; 상기 제 1 신호 및 상기 제 2 신호 간의 시간-주파수 영역에서의 진폭 비율, 상기 신호들의 주파수 및 상기 혼합 신호에서의 간섭 신호의 비율 중 적어도 어느 하나에 적응적인 비선형 필터를 산출하는 단계; 및 상기 제 1 신호를 상기 비선형 필터로 필터링(filtering)하는 단계를 포함한다.
상기 다른 기술적 과제를 해결하기 위하여, 본 발명은 상기 기재된 목표 음원 신호의 적응적 추출 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체를 제공한다.
상기 또 다른 기술적 과제를 해결하기 위하여 본 실시예에 따른 혼합 신호로부터 목표 음원 신호를 적응적으로 추출하는 장치는 상기 혼합 신호를 획득하는 마이크로폰 어레이; 상기 혼합 신호에 대하여 목표 음원 방향으로 지향성이 강조된 제 1 신호와 상기 목표 음원 방향으로 지향성이 억제된 제 2 신호를 생성하는 빔 형성부(beam-former); 상기 제 1 신호 및 상기 제 2 신호 간의 시간-주파수 영역에서의 진폭 비율, 상기 신호들의 주파수 및 상기 혼합 신호에서의 간섭 신호의 비율 중 적어도 어느 하나에 적응적인 비선형 필터를 산출하는 비선형 필터 산출부; 및 상기 제 1 신호를 상기 비선형 필터로 필터링하여 상기 제 1 신호로부터 상기 목표 음원 신호를 추출하는 추출부를 포함한다.
상기된 바에 따르면, 급변하는 주위 환경 및 음악적 잡음(musical noise)에 대하여, 진폭 비율, 주파수 및 혼합 신호 중 간섭 잡음의 비율에 적응적인 비선형 필터를 이용하여 혼합 신호로부터 PESQ(Perceptual Evaluation of Speech Quality)가 높은 목표 음원 신호를 추출할 수 있다.
이하에서는 도면을 참조하여 본 발명의 다양한 실시예들을 상세히 설명한다.
일반적으로 휴대용 디지털 기기를 통해 사운드를 녹음하거나 음성 신호를 입력받는 환경은 주변 간섭 잡음이 없이 조용한 환경이기보다는 다양한 소음과 주변 간섭 잡음이 모두 포함되어 있는 환경일 경우가 더 많을 것이다. 특히, 종래의 음성 통화만이 가능했던 휴대 전화에서는 통화자와 휴대 전화 간의 거리가 매우 가까 웠기 때문에 휴대 전화에 구비된 마이크로폰(microphone)을 통해 간섭 잡음이 유입되는 것이 큰 문제가 되지 않았지만, 최근 화상 통화가 가능한 통신 수단이 보급되면서 상대적으로 간섭 잡음이 통화자의 음성 신호에 미치는 영향이 증가하였으며, 결과적으로 선명한 통화에 어려움이 발생하였다. 이렇듯, 마이크로폰이 구비된 CE(consumer electronics) 기기 및 휴대 전화 등 다양한 음향 취득 기기에서 혼합 신호로부터 목표 음원 신호를 추출하는 방법에 대한 요구가 증가하고 있다.
도 1은 본 발명이 해결하고자 하는 문제 상황을 예시한 도면으로서, 마이크로폰 어레이(microphone array)(110)로부터 주변 음원들까지의 거리를 동심원으로 표현하였다. 도 1은 마이크로폰 어레이(110)를 중심으로 주위에 다수의 음원들이 배치되어 있음을 보여주고 있으며, 각각의 음원들은 마이크로폰 어레이(110)로부터의 거리와 방향이 모두 다르다. 마이크로폰 어레이(110)를 통해 사운드를 취득하려 할 경우, 이들 음원들로부터 방사된 다양한 사운드가 혼합되어 마이크로폰 어레이(110)로 입력되고, 다수의 음원들 중 특정 음원으로부터 방사되는 사운드를 선명하게 취득하려고 한다.
이러한 특정 음원은 이하에서 설명한 본 발명의 다양한 실시예들이 구현되는 환경에 따라 특정될 수 있는데, 일반적으로 혼합 신호에 포함된 다수의 음원 신호들 중에서 지배적인(dominant) 음원 신호로 특정될 수 있다. 즉, 음원 신호의 이득(gain)이나 음압(sound pressure)이 큰 신호가 목표 음원으로 특정될 수 있다. 목표 음원 특정을 위한 다른 방법으로는 마이크로폰 어레이로부터의 방향이나 거리를 고려하는 방법이 사용될 수 있을 것이다. 즉, 마이크로폰 어레이의 정면에 위치 한 음원일수록, 또는 마이크로폰 어레이의 가까이에 위치한 음원일수록 목표 음원이 될 가능성이 더 크다. 도 1에서는 마이크로폰 어레이(110)의 정면에 가까이 위치한 음원(120)을 목표 음원으로 특정하여, 혼합 신호로부터 이를 추출하고자 하는 상황을 예시하고 있다.
이상에서 설명한 바와 같이 목표 음원을 특정하는 것은 본 발명의 다양한 실시예들이 구현되는 환경에 따라 달라질 수 있는 것이므로 이상의 2 가지 방법 이외에도 다양한 방법이 적용 가능함을 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 알 수 있는 것이다.
도 2a 및 도 2b는 본 발명의 일 실시예에 따른 목표 음원 추출 장치를 도시한 블럭도로서, 각각은 목표 음원의 방향을 알고 있는 경우와 모르는 경우를 구분하여 도시한 도면이다.
도 2a의 목표 음원 추출 장치는 상기 도 1에서 설명한 다양한 방법을 통해 목표 음원이 위치한 방향을 특정한 경우를 가정한 것으로서, 마이크로폰 어레이(210), 빔 형성기(beam-former)(220) 및 신호 추출부(230)를 포함한다.
마이크로폰 어레이(210)는 주위에 위치한 다수의 음원들로부터 방사되는 음원 신호들을 혼합 신호의 형태로 취득한다. 마이크로폰 어레이(210)는 다수의 마이크로폰으로 구성되므로 다수의 음원 신호들이 각각의 마이크로폰들에 도달하는 시간은 해당 음원의 위치 및 거리에 따라 차이가 날 것이다. 이렇게 어레이를 구성하는 N 개의 마이크로폰을 통해 입력된 N 개의 음원 신호들을 각각 X1(t), X2(t) 내지 XN(t)라고 하자.
빔 형성기(220)는 마이크로폰 어레이(210)를 통해 입력된 음원 신호들에 대하여 목표 음원 방향으로 지향성이 강조된 신호와 목표 음원 방향으로 지향성이 억제된 신호를 생성한다. 이러한 역할은 각각 강조 신호 빔 형성기(221) 및 억제 신호 빔 형성기(222)를 통해 수행된다.
일반적으로 2 개 이상의 마이크로폰들로 이루어진 마이크로폰 어레이는 배경 잡음과 혼합된 목표 신호를 고감도로 수신하기 위해 마이크로폰 어레이에 수신된 각각의 신호에 적절한 가중치를 주어 진폭을 향상시킴으로써 원하는 목표 신호와 간섭 잡음 신호의 방향이 다를 경우의 잡음을 공간적으로 줄일 수 있는 필터 역할을 하는데, 이러한 일종의 공간적 필터(spatial filter)를 빔 형성기라고 한다. 다른 방향의 잡음으로부터 목표 신호를 증폭시키거나 추출하기 위해서는 어레이 패턴과 각각의 마이크로폰에 입력된 신호들 간의 위상 차이를 구하여야 하며, 이러한 신호 정보를 구하기 위한 다수의 빔 형성 알고리즘들이 알려져 있다.
목표 음원 신호를 증폭하거나 추출하기 위한 대표적인 빔 형성 알고리즘에는 음원 신호가 마이크로폰에 도달하는 상대적인 지연 시간으로부터 음원의 위치를 알아내는 딜레이-앤드-섬 알고리즘(delay-and-sum algorithm)이나, 음원들이 형성하는 음장(sound field) 내에서 2 개 이상의 신호와 잡음으로 인한 영향을 줄이기 위해 공간적으로 선형 필터(linear filter)를 이용하여 출력을 필터링하는 필터-앤드-섬 알고리즘(filter-and-sum) 등이 있다. 이러한 빔 형성 알고리즘들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 널리 알려져 있는 것이다.
도 2a에서 강조 신호 빔 형성기(221)는 특정된 목표 음원에 대한 지향성 감도를 높임으로써 목표 음원에 대한 음압을 강화한다. 지향성 감도를 조절하는 방법은 다음의 도 3a 및 도 3b를 통해 설명한다.
도 3a 및 도 3b는 본 발명의 일 실시예에 따른 목표 음원 강조 빔형성기를 도시한 블럭도로서, 각각 고정 필터(fixed filter) 및 적응 지연항(adaptive delay)을 이용한 방법을 예시하고 있다.
도 3a에서는 마이크로폰 어레이(310)의 정면에 목표 음원이 존재한다고 가정하고, 마이크로폰 어레이(310)를 통해 입력된 음원 신호를 가산기(320)를 통해 가산하여 목표 음원의 음압을 강화함으로써 목표 음원 방향의 지향성을 높인다. 도 3a에서 A, B 및 C는 각각 음원의 위치를 의미한다. 본 실시예에서는 마이크로폰 어레이(310)의 정면인 A 지점에 목표 음원이 위치해 있다고 가정하였으므로, B 및 C 지점에 위치한 음원은 간섭 잡음이 될 것이다.
혼합 신호 중에서 마이크로폰 어레이(310)의 정면에 위치한 A 지점으로부터 방사되는 음원 신호가 마이크로폰 어레이(310)에 입력될 경우, 입력된 음원 신호들의 위상과 크기가 거의 동일할 것이다. 그 결과, 입력된 음원 신호들은 가산기(320)를 통해 신호의 이득(gain)이 강화되고 위상은 변하지 않은 신호가 출력된다. 반면, B 또는 C 지점으로부터 방사되는 음원 신호가 마이크로폰 어레이(310)에 입력될 경우, 음원과 어레이를 구성하는 각각의 마이크로폰들이 이루는 각도와 거리에 차이가 있으므로, 음원 신호가 각각의 마이크로폰들에 도달하는 시간에 차이 가 있다. 즉, B 또는 C 지점으로부터 방사되는 음원 신호는 음원으로부터 가까이에 위치한 마이크로폰에는 좀 더 빨리 도착할 것이고, 음원으로부터 멀리 위치한 마이크로폰에는 상대적으로 더 늦게 도착할 것이다. 이러한 도착 시간에 차이가 발생한 신호들을 가산기(320)를 통해 가산하면, 각 신호들 간의 도착 시간 차이로 인해 신호들이 부분적으로 상쇄되거나 위상 간의 차이로 인해 이득이 감소한다. 비록, 신호들 간의 위상 차가 정확하게 일치하지는 않지만, A 지점으로부터의 음원 신호에 비해 상대적으로 신호의 이득이 줄어드는 효과가 발생한다. 따라서, 본 실시예와 같이 고정된 간격의 마이크로폰 어레이(310)와 가산기(320)만으로도 마이크로폰 어레이(310)의 정면에 위치한 목표 음원에 대한 지향성 감도를 향상시킬 수 있다.
도 3b는 목표 음원 방향에 대한 지향성을 강화하기 위한 목표 음원 강조 빔 형성기로서, 설명의 편의상 2 개의 마이크로폰만으로 이루어진 1차 차분 마이크로폰(first-order differential microphone) 구조를 이용하고 있다.
우선, 마이크로폰 어레이로부터 입력된 음원 신호를 각각 X1(t) 및 X2(t)라고 할 때, 지연부(330)는 적응 지연항(adaptive delay) 조절을 통해 입력 신호 X1(t)를 일정 시간만큼 지연시키고, 이어서 지연된 입력 신호 X1(t)를 감산기(340)를 통해 입력 신호 X2(t)로부터 감산하면, 특정 방향에 대해 지향성을 갖는 음원 신호가 생성된다. 마지막으로 감산 결과 생성된 음원 신호를 저대역 통과 필터(low-pass filter, LPF)(350)를 통해 필터링하면, 음원 신호의 주파수 변화에 독립적인 강조 음원 신호가 출력된다. (Acoustic signal processing for telecommunication, Steven L. Gay and Jacob Benesty, Kluwer Academic Publishers, 2000) 이러한 빔 형성기를 딜레이-앤드-서브트랙트(delay-and-subtract) 빔 형성기라고 하며, 이러한 빔 형성기는 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 파악할 수 있는 것이므로 이하에서는 본 실시예에 필요한 한도 내에서 간략하게 설명하도록 한다.
일반적으로 마이크로폰 어레이의 지향성 응답(directional response)을 결정하는 요소로는 어레이를 구성하는 마이크로폰들 간의 간격, 각각의 마이크로폰들에 인가되는 음원 신호들의 지연 시간 등과 같은 지향성 조절 인자들이 널리 알려져 있다. 이러한 지향성 조절 인자들 간의 관계는 다음의 수학식 1과 같이 정의된다.
Figure 112008087101740-PAT00001
여기서 τ는 지향성 응답을 결정하는 적응 지연항(adpative delay)이고, d는 마이크로폰들 간의 간격이고, α1는 음압장과 지향성 조절 인자들 간의 관계를 정의하기 위해 도입된 조절 변수이며, c는 공기 중 음파의 속도인 340m/sec이다.
도 3b에서 지연부(330)는 지향성을 강조하고자 하는 음원 신호 방향에 기초하여 수학식 1에 따른 지연항을 결정하고, 결정된 지연항의 값만큼 입력 신호 X1(t)를 지연시킨다. 이어서, 감산기(340)는 입력 신호 X2(t)로부터 지연된 입력 신호 X1(t)를 감산한다. 이러한 지연에 따라 어레이를 구성하는 마이크로폰들 간의 시간 차이가 발생하고, 그 결과 마이크로폰 어레이에 입력되는 음원 신호로부터 특정 방향(목표 음원 방향을 의미합니다.)에 대한 지향성이 강화된 강조 신호를 얻을 수 있다.
한편, 지연부(330)를 통해 지연된 입력 신호 X1(t)의 음압장(sound pressure field)은 신호의 각 주파수(angular frequency) 및 음원으로부터 마이크로폰 어레이에 음원 신호가 입사되는 각도에 관한 함수로 정의된다. 이러한 음압장은 마이크로폰들 간의 간격이나 음원 신호의 입사 각도 등 다양한 변수들에 따라 변화하는데, 이러한 변수들 중 특히 음원 신호의 주파수 내지 진폭은 음원 신호의 특성에 따라 달라지므로 음압장을 조절하는데 어려움이 있다. 따라서, 음원 신호의 주파수 내지 진폭의 변화에 상관없이 음압장을 수학식 1의 적응 지연항만으로 제어할 필요가 있다.
저대역 통과 필터(350)는 음압장에 포함된 주파수 성분을 고정시킴으로써 이상의 주파수의 변화에 따라 음압장이 변화하는 것을 억제한다. 그 결과, 감산기(340)를 통해 출력된 음원 신호를 다시 저대역 통과 필터(350)를 통해 필터링하면, 음원 신호의 주파수 내지 진폭에 상관없이 수학식 1과 같은 적응 지연항만으로 목표 음원 방향의 지향성을 조절할 수 있다. 즉, 도 3b에 도시된 목표 음원 강조 빔 형성기를 통해 목표 음원 방향에 대한 지향성이 강화된 강조 음원 신호 Y(t)를 생성할 수 있다.
이상에서 도 3a 및 도 3b를 통해 목표 음원의 지향성을 강화하는 목표 음원 강조 빔 형성기의 2 가지 실시예들을 살펴보았다. 이와 반대로 목표 음원의 지향성을 억제하여 목표 음원이 위치한 방향에서 입사되는 음원 신호를 줄이는 빔 형성기가 있는데, 이를 목표 음원 억제 빔 형성기라고 한다.
도 4a 및 도 4b는 본 발명의 일 실시예에 따른 목표 음원 억제 빔형성기를 도시한 블럭도로서, 각각 고정 필터(fixed filter) 및 적응 지연항(adaptive delay)을 이용한 방법을 예시하고 있다.
도 4a에서도 도 3a와 마찬가지로 마이크로폰 어레이(410)의 정면에 목표 음원이 존재한다고 가정한다. 또한, A, B 및 C에 각각 음원이 위치한다고 가정한다. 또한, 도 3a와 마찬가지로 본 실시예에서도 마이크로폰 어레이(410)의 정면인 A 지점에 목표 음원이 위치해 있다고 가정하였으므로, B 및 C 지점에 위치한 음원은 간섭 잡음이 될 것이다. 도 4a에서는 마이크로폰 어레이(410)를 통해 입력된 음원 신호에 대하여 각각 번갈아가며 +과 -의 신호값을 부여한 후, 가산기(420)를 통해 모든 신호들을 가산함으로써 목표 음원 방향의 지향성을 억제한다. 도 4a에 예시된 + 및 -의 신호값은 입력 신호에 (-1,+1,-1,+1)과 같은 행렬을 승산함으로써 부여될 수 있을 것이다. 이와 같이 인접한 마이크로폰에 입력된 음원 신호들을 감쇄시키기 위해 부호를 번갈아가며 부여하는 행렬을 블로킹 행렬(blocking matrix)이라고 한다.
지향성 억제 과정을 보다 상세하게 설명하면 다음과 같다. 우선 혼합 신호 중에서 A 지점으로부터 방사되는 음원 신호가 마이크로폰 어레이(410)에 입력될 경우, 4 개의 마이크로폰들 중 서로 인접해 있는 마이크로폰을 통하여 입력된 음원 신호는 그 위상과 크기가 매우 유사할 것이다. 다시 말해, 첫 번째와 두 번째, 두 번째와 세 번째, 세 번째와 네 번째에 위치한 마이크로폰 간의 입력 신호는 서로 유사할 것이다. 따라서, 인접한 마이크로폰을 통해 입력된 음원 신호들에 대하여 각각 반대의 부호를 부여하고, 이를 가산기(420)를 통해 가산하면, 인접 신호들이 서로 상쇄되는 효과가 발생한다. 따라서, 마이크로폰 어레이(410)의 정면에 위치한 음원 A로부터 입력된 음원 신호의 이득 내지 음압이 감소함으로써 목표 음원 방향에 대한 지향성이 억제된다.
반면, B 또는 C 지점으로부터 방사되는 음원 신호가 마이크로폰 어레이(410)에 입력될 경우, 음원으로부터의 거리에 따라 어레이를 구성하는 각각의 마이크로폰에 일정 시간만큼의 지연이 발생한다. 즉, B 또는 C 지점으로부터 방사되는 음원 신호에 있어서 마이크로폰에 도달하는 도착 시간 간에 차이가 발생한다. 이러한 시간 차가 발생한 신호들에 대해 인접한 마이크로폰 별로 반대의 신호를 부여한 후 가산기(420)를 통해 가산하더라도 각 신호들 간의 시간 차로 인해 B 또는 C 지점에서의 신호들의 상쇄 효과는 그다지 크지 않다. 따라서, 본 실시예와 같이 고정된 간격의 마이크로폰 어레이(410)와 인접 신호에 반대의 부호를 승산한 후에 가산기(420)를 통해 가산함으로써 마이크로폰 어레이(410)의 정면에 위치한 목표 음원에 대한 지향성 감도를 억제할 수 있다.
도 4b는 목표 음원 방향에 대한 지향성을 억제하기 위한 목표 음원 억제 빔 형성기로서, 도 3b에서 설명한 1차 차분 마이크로폰 구조를 이용하였으므로 이하에서는 도 3b의 목표 음원 강조 빔 형성기와의 차이점을 중심으로 설명하겠다.
마이크로폰 어레이로부터 입력된 음원 신호를 각각 X1(t) 및 X2(t)라고 할 때, 지연부(430)는 적응 지연항 조절을 통해 입력 신호 X2(t)를 일정 시간만큼 지연시킨다. 이어서, 도 3b과는 반대로 감산기(440)는 지연된 입력 신호 X2(t)로부터 입력 신호 X1(t)을 감산한다. 마지막으로 감산된 결과를 저대역 통과 필터(450)를 통해 필터링하면, 목표 음원 방향으로부터 입력된 음원 신호가 억제된 억제 음원 신호 Z(t)가 출력된다. 적응 지연항을 조절하는데 있어서, 앞서 설명한 수학식 1에 따라 지향성 조절 인자를 제어하는 과정은 이상의 도 3b와 동일하지만, 목표 음원 방향에 대한 지향성을 억제하도록 적응 지연항이 조절되는 점에서 차이가 있다. 즉, 도 4b의 목표 음원 억제 빔 형성기는 목표 음원이 위치한 방향으로부터 마이크로폰 어레이에 입사되는 음원 신호의 음압을 감소시키게 된다. 또한, 감산기(440)를 통한 감산 과정에서 목표 음원 방향의 지향성을 억제하기 위해 입력 신호들에 대한 부호가 반대로 부여되는 차이점이 있다.
이상에서 도 3a 내지 도 4b를 통해 목표 음원에 대한 지향성을 강화하거나 지향성을 억제하는 빔 형성기의 다양한 실시예들을 설명하였다. 다시 도 2a로 돌아와서 빔 형성부(220)를 살펴보면, 목표 음원 강조 빔 형성기(221) 및 목표 음원 억제 빔 형성기(222)를 통해 각각 강조 신호 Y(τ)(251)와 억제 신호 Z(τ)(252)가 생성된다. 이러한 빔 형성부(220)는 음향 전달의 지향성 원리를 이용하여 목표 음원의 지향성을 강화하거나 억제하는 효과적인 제어 기술을 다수 활용할 수 있다는 장점이 있다.
신호 추출부(230)는 마스킹 필터(masking filter)(231) 및 추출부(232)를 포함하며, 입력값인 강조 신호 Y(τ)(251) 및 억제 신호 Z(τ)(252) 간의 시간-주파수 영역에서의 진폭 비율에 따라 설정된 마스킹 필터(231)를 통해 강조 신호 Y(τ)(251)로부터 목표 음원 신호를 추출한다. 여기서 마스킹이란 여러 개의 신호가 동시 또는 인접한 시간에 존재할 때 하나의 신호가 다른 신호를 억제하는 것을 말하며, 음원 신호와 간섭 잡음이 같이 존재할 때 음원 신호 성분이 간섭 잡음 성분을 억제할 수 있다면 좀 더 선명한 음원 신호를 추출할 수 있다는 기대에서 출발한다.
마스킹 필터(231)는 강조 신호 Y(τ)(251) 및 억제 신호 Z(τ)(252)의 2 개의 신호들을 입력받아 양자 간의 시간-주파수 영역에서의 비율에 기초하여 양 신호를 필터링한다. 이어서, 추출부(232)는 최종적으로 간섭 잡음이 제거된 목표 음원 O(τ, f)(240)를 추출한다. 신호 추출부(230)에서 마스킹 필터(231)를 이용한 필터링은 이진 마스킹 필터(binary masking filter)로 도출한 소프트 마스킹 필터(soft masking filter) 및 진폭 비율에 적응적인 소프트 마스킹 필터가 있고, 나아가 진폭 비율에 적응적이면서 주파수 또는 혼합 신호 중 간섭 잡음 신호의 비율에도 적응적인 소프트 마스킹 필터의 일 실시예인 비선형 필터(nonlinear filter)가 존재한다. 도 5는 이진 마스킹 필터 및 진폭 비율에 적응적인 소프트 마스킹 필터를 도시하고, 도 8은 진폭 비율, 주파수 및 혼합 신호 중 간섭 잡음 신호의 비율 중 적어도 어느 하나에 적응적인 비선형 필터를 도시한 도면이다. 신호 추출부(230)에서 마스킹 필터(231)를 이용한 필터링 과정을 보다 상세하게 설명하면 다음의 도 5와 같다.
도 5는 본 발명의 일 실시예에 따른 마스킹 필터를 도시한 블럭도로서, 윈도우 함수(window function)(521, 522), 고속 푸리에 변환부(fast Fourier transform unit, FFT)(531, 532), 진폭 비율 산출부(540) 및 마스킹 필터 설정부(550)를 포함한다.
우선, 빔 형성부(미도시)를 통해 생성된 강조 신호 Y(t)(511) 및 억제 신호 Z(t)(512)를 각각 윈도우 함수를 통해 개별 프레임(frame)으로 재구성한다. 프레임이란 시간의 변화에 따라 음원 신호를 일정한 구간으로 분리한 단위 유닛(unit)을 의미한다. 윈도우 함수란, 시간에 따라 연속적인 하나의 음원 신호를 프레임이라는 일정 구간별로 나누어 처리하기 위해 사용하는 일종의 필터이다. 일반적으로 디지털 신호 처리에서는 해당 시스템에 신호를 입력하고 그 결과로서 생성되는 출력 신호를 표현하기 위해 컨벌루션(convolution)을 사용하는데, 주어진 대상 신호를 유한하게 제한하기 위해 윈도우 함수를 통해 개별 프레임 구간으로 나누어 처리하게 되는 것이다. 이러한 윈도우 함수의 대표적인 예로서 해밍 윈도우(Hamming window)가 널리 알려져 있으며, 이는 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 파악할 수 있는 것이다.
이렇게 윈도우 함수(521, 522)를 통해 재구성된 강조 신호 Y(t)(511) 및 억제 신호 Z(t)(512)는 연산의 편의를 위해 고속 푸리에 변환부(531, 532)를 통해 시간-주파수 영역(time-frequency domain)으로 변환된다. 이어서, 변환된 신호들에 기초하여 다음의 수학식 2와 같은 진폭 비율(amplitude ratio)이 계산된다.
Figure 112008087101740-PAT00002
여기서 τ는 시간, f는 주파수이고, 진폭 비율 α(τ, f)는 강조 신호 Y(τ, f) 및 억제 신호 Z(τ, f)의 절대값의 비율로 표현된다. 즉, 수학식 2의 진폭 비율을 시간-주파수 영역에서의 개별 프레임를 구성하는 강조 신호와 억제 신호의 비율을 의미한다.
도 5에서 마스킹 필터 설정부(550)는 진폭 비율 산출부(540)를 통해 산출된 진폭 비율 α(τ, f)에 기초하여 마스킹 필터(560)를 설정하는데 이하에서는 마스킹 필터의 설정 방법으로서 2 가지 실시예를 제시한다.
첫째, 이진 마스킹 필터(binary masking filter)와 이진 마스킹 필터로부터 도출된 소프트 마스킹 필터(soft masking filter)를 통해 마스킹 필터를 설정할 수 있다. 여기서, 이진 마스킹 필터란 0과 1만을 결과값으로 출력되는 필터를 말하며, 하드 마스킹 필터(hard masking filter)라고도 한다. 반면, 소프트 마스킹 필터란 0과 1의 이진수로 출력되는 결과값에 대하여 선형적으로 부드럽게 증가하고 감소하도록 조절된 필터를 말한다.
도 5의 마스킹 필터 설정부(550)는 상기 설명한 이진 마스킹 필터를 이용하여 소프트 마스킹 필터(560)를 설정하는 구성을 도시한 것으로, 이러한 주파수 비율로부터 도출되는 이진 마스킹 필터는 다음의 수학식 3과 같이 정의된다.
Figure 112008087101740-PAT00003
여기서 T(f)는 음원 신호의 주파수 f에 따른 마스킹 문턱값(threshold value)을 의미하며, 이는 본 발명의 다양한 실시예들에 따라 해당 프레임이 목표 신호인지 간섭 잡음인지를 결정할 수 있는 적절한 값을 갖도록 실험적으로 구해진다. 이진 마스킹 필터는 결과값이 0과 1로만 출력되므로 이진 마스킹 필터라고 하며, 하드 마스킹 필터(hard masking filter)라고도 한다. 수학식 3에서, 만약 진폭 비율이 마스킹 문턱값보다 크거나 같을 경우, 즉 강조 신호가 억제 신호보다 클 경우 2진 마스킹 필터를 1로 설정한다. 반대로 만약 진폭 비율이 마스킹 문턱값보다 작을 경우, 즉 강조 신호가 억제 신호보다 작을 경우 이진 마스킹 필터를 0으로 설정한다. 이러한 시간-주파수 영역에서의 마스킹은 목표 음원 및 간섭 잡음 등을 포함한 주위 음원의 개수보다 마이크로폰 어레이를 구성하는 마이크로폰들의 개수가 더 적은 환경에서도 비교적 적은 계산량으로 동작한다는 장점이 있다. 왜냐하면, 목표 음원을 추출하기 위해 음원의 개수만큼 마스크 필터를 생성하여 마스킹을 수행하면 되므로, 마이크로폰의 개수에 크게 영향받지 않기 때문이다. 따라서, 다수의 음원이 존재하는 환경에서도 마스킹 필터는 좋은 성능을 나타낸다.
도 5에서 진폭 비율 산출부(540)를 통해 산출된 진폭 비율은 마스킹 문턱값(551)과의 비교를 통해 이진 마스킹 필터 M(τ,f)로 정의된다. 이어서, 스무딩 필터(smoothing filter)(552)는 이진 마스킹 필터 적용에서 발생할 수 있는 뮤지컬 노이즈(musical noise)를 제거한다. 뮤지컬 노이즈란 이진 마스킹 필터를 통해 정의된 개별 프레임의 마스크에서 주위의 프레임들과 일련의 군집을 형성하지 못하고 두드러지게 나타나는 잉여 잡음(residual noise)을 말한다.
이러한 뮤지컬 노이즈를 제거하기 위해 다양한 방법들이 소개되었는데, 대표적인 방법으로 가우시안 필터(Gaussian filter)가 널리 알려져 있다. 가우시안 필터는 다수의 신호 블럭들 중 중간값에 더 큰 가중치를 부여하고 그 외에는 낮은 가중치를 부여함으로써, 중간값을 잘 여과시키고 중간값에서 멀어질수록 점점 여과 정도가 작아진다.
도 6은 본 발명의 일 실시예에 따른 마스킹 필터 구현에 이용 가능한 가우시안 필터를 예시한 도면으로서, 그래프의 가로 방향의 2 개 축은 신호 블럭을 의미하고, 세로 방향의 1 개 축은 필터를 통한 여과 정도의 나타낸다. 도 6에서는 이상에서 설명한 바와 같이 블럭들의 중앙부(610)에 더 큰 가중치가 부여되어 잘 여과되고 있음을 예시하고 있다.
이러한 가우시안 필터 이외에도 가로, 세로의 일정 크기의 신호 블럭으로부터 중앙값을 선택하는 미디언 필터(median filter) 등 다수의 뮤지컬 노이즈 제거 방법이 있으며, 이러한 필터들의 다양한 실시예들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 파악할 수 있는 것이므로, 여기에서는 자세한 설명을 생략한다.
이상과 같은 방법을 통해, 도 5의 이진 마스킹 필터 M(τ, f)는 스무딩 필터(552)와 승산함으로써 최종적으로 소프트 마스킹 필터(560)로 설정한다. 설정된 소프트 마스킹 필터는 다음의 수학식 4와 같이 정의된다.
Figure 112008087101740-PAT00004
여기서 W(τ, f)는 스무딩 필터로서 사용된 가우시안 필터이다. 즉, 수학식 4에서 소프트 마스킹 필터는 가우시안 필터와 이진 마스킹 필터의 곱을 나타낸다.
이상에서 이진 마스킹 필터를 이용하여 소프트 마스킹 필터를 설정하는 방법을 설명하였다. 이하에서는 마스킹 필터를 설정하는 다른 실시예로서 진폭 비율로부터 직접 소프트 마스킹 필터를 설정하는 방법을 설명하겠다.
둘째, 마스킹 필터 설정부(550)는 마스킹 문턱값(551)을 통해 정의된 이진 마스킹 필터를 이용하지 않고, 직접 진폭 비율 산출부(540)를 통해 산출된 진폭 비율 α(τ, f)로부터 소프트 마스킹 필터(560)를 설정할 수 있는 시그모이드 함수(sigmoid function)를 모델링할 수 있다. 시그모이드 함수란 단속적이고 비선형적인 입력값들을 0과 1 사이에서 연속적이고 선형적인 값으로 변환해주는 특수한 함수로서, 입력값으로부터 출력값으로의 변환 과정을 정의한 전달 함수의 일종이다. 특히, 시그모이드 함수는 다수의 입력 변수로 인해 최적의 변수 및 함수를 특정하기 어려운 모형 개발에 있어서 자료의 축척에 따른 학습을 통해 모형의 예측 능력을 향상시키는 신경망 이론에서 널리 사용되고 있다. 본 실시예에서는 진폭 비율 α(τ, f)을 시그모이드 함수를 통해 0과 1 사이의 값으로 변환함으로써, 이진 마스킹 필터를 사용하지 않고 직접 소프트 마스킹 필터를 설정할 수 있다.
도 7은 본 발명의 다른 실시예에 따른 마스킹 필터 구현에 이용 가능한 시그모이드 함수를 예시한 도면으로서 통상의 시그모이드 함수를 특정 값인 β만큼 우측으로 이동시켜 원점에서 0의 값을 갖도록 설계된 함수이다. 도 7에서 가로축은 진폭 비율 α를 의미하고 세로축은 소프트 마스킹 필터를 의미하며, 양자의 관계는 다음의 수학식 5와 같이 정의된다.
Figure 112008087101740-PAT00005
여기서 γ는 시그모이드 함수의 기울기를 나타내는 변수이다. 수학식 5 및 도 7에서 단속적인 임의의 값인 진폭 비율 α를 입력받은 시그모이드 함수가 0와 1 사이의 연속적인 결과값을 출력해주는 것을 확인할 수 있다. 따라서, 마스킹 필터 설정부(550)는 이러한 시그모이드 함수를 이용하여 진폭 비율 산출부(540)를 통해 산출된 진폭 비율 α(τ, f)로부터 마스킹 문턱값(551)과의 비교없이 직접 소프트 마스킹 필터(560)를 설정할 수 있다.
도 8은 마스킹 필터의 또 다른 실시예인 진폭 비율, 주파수 및 혼합 신호 중 간섭 잡음의 비율 중 적어도 어느 하나에 적응적인 비선형 필터(850)를 도시한 블럭도이다. 불연속적이고 순간적으로 생기는 잡음, 또는 뮤지컬 노이즈에 대비하기 위해서는 다양한 변수에 적응적인 비선형 필터(850)가 필요하다. 따라서, 강조 신호 Y(t) 및 억제 신호 Z(t)의 진폭 비율, 주파수 및 혼합 신호 중 간섭 잡음 신호의 비율에 적응적인 비선형 필터에 의하면 변화하는 주변 환경 또는 뮤지컬 노이즈 에 대응하여 고감도 필터링 할 수 있다. 또한, 마이크로폰 어레이에서 마이크로폰간의 간격이 가까운 경우에도 예측하지 못하였던 잡음 신호들을 효과적으로 제거할 수 있으며, 잡음 신호의 제거에 의하여 새롭게 발생하는 뮤지컬 노이즈를 효과적으로 억제하여 향상된 PESQ(Perceptual Evaluation of Speech Quality) 지수를 얻을 수 있다.
비선형 필터(850)는 마스킹 필터(560)의 일 실시예로 시간-주파수 도메인에서 비선형적인 응답 특성을 가지는 함수를 의미한다. 본 실시예에서 비선형 필터의 일 실시예로서 시그모이드 함수를 사용한다. 본 실시예와 관련된 기술 분야에서 통상의 지식을 가진 자라면, 시그모이드 함수 외에도 비선형적 특성을 가지는 함수는 본 실시예의 비선형 필터에 적용이 가능하다는 것을 알 수 있다.
본 실시예에서 시그모이드 함수와 같은 형태를 가지는 비선형 필터(850)를 사용하여 혼합 신호에서 목표 음원 신호를 효율적으로 추출하는 방법을 설명한다. 또한 주위 환경에 적응적인 필터링을 위하여 주파수 및 시간에 적응적인 시그모이드 함수를 이용한다.
좀 더 상세히 설명하면, 빔 형성부(미도시)를 통해 생성된 강조 신호 Y(t)(811) 및 억제 신호 Z(t)(812)를 각각 윈도우 함수를 통해 개별 프레임(frame)으로 재구성한다. 윈도우 함수(821, 822)를 통해 재구성된 강조 신호 및 억제 신호는 연산의 편의를 위해 고속 푸리에 변환부(831, 832)를 통해 시간-주파수 영역(time-frequency domain)으로 변환된다. 이상의 과정은 상기 도 5에서 설명한 과정과 동일함을 본 실시예의 기술 분야에서 통상의 지식을 가진 자라면 알 수 있다.
강조 신호 Y(t) 및 억제 신호 Z(t)는 윈도우 함수(821, 822) 및 고속 푸리에 변환부(831, 832)를 통하여 각각 Y(τ, f) 및 Z(τ, f)가 된다. 이때 τ는 프레임 인덱스를 뜻하고, f는 주파수 인덱스를 뜻한다. 도 9는 프레임 인덱스 및 주파수 인덱스에 대한 개념을 도시한 도면이다.
도 9를 참조하면, 시간-주파수 도메인에서 시간 축과 주파수 축을 각각 다수개의 프레임으로 분할한 상태를 나타낸다. 이때, 프레임 인덱스 τ 및 주파수 인덱스 f가 각각 지칭하는 부분에 의하여 하나의 국부적인(local) 구간(91)이 특정된다.
다시 도 8을 참조하면, 비선형 필터 산출부(840)는 고속 푸리에 변환부(831, 832)로부터 획득한 강조 신호 Y(τ, f) 및 억제 신호 Z(τ, f)를 이용하여 비선형 필터를 산출한다. 본 실시예에서 비선형 필터는 혼합 음원 신호에서 목표 음원 신호를 추출하기 위하여 사용되는 마스킹 필터의 일 실시예에 해당하며, 본 실시예에서 이러한 비선형 필터의 예로 시그모이드 함수를 사용하여 설명한다.
비선형 필터 산출부(840)는 진폭 비율 산출부(841), 주파수 적응적 계수 산출부(842) 및 간섭 잡음 비율 적응적 계수 산출부(843)로 구성된다. 좀 더 상세히 설명하면, 비선형 필터 산출부(840)는 진폭 비율, 주파수 적응적 계수 및 혼합 신호 중 간섭 잡음 비율 각각을 시그모이드 함수의 입력 변수, 기울기 계수 및 바이어스(bias) 계수로 사용하여 시그모이드 함수를 산출한다.
진폭 비율 산출부(841)는 고속 푸리에 변환부(831, 832)로부터 획득한 강조 신호 Y(τ, f) 및 억제 신호 Z(τ, f)의 진폭 비율(amplitude ratio)을 산출한다. 진폭 비율은 시그모이드 함수의 입력 변수로 사용되며, 진폭 비율은 수학식 6으로 정의할 수 있다.
Figure 112008087101740-PAT00006
이때, 진폭 비율 SNRTF(τ, f)는 국부(local)의 신호 대 잡음비를 의미하고, |Y(τ, f)|는 강조 신호의 진폭, |Z(τ, f)|는 억제 신호의 진폭을 뜻한다. 또한 ε는 억제 신호 Z(τ, f)의 진폭이 0(zero)일 경우에 대비한 바닥 항(flooring term)을 의미한다. 수학식 6에서 정의한 국부의 신호 대 잡음비는 도 9에서 표시한 국부적인 구간(91)에서의 강조 신호 및 진폭 신호의 진폭 비율을 의미한다. 본 실시예와 관련된 기술 분야에서 통상의 지식을 가진 자라면 수학식 6은 진폭 비율 또는 국부의 신호 대 잡음비를 구하기 위한 하나의 일 실시예에 불과한 것이며, 다양한 접근을 통하여 이와 유사한 기능을 하는 수학식이 존재함을 알 수 있다. 수학식 6에서 계산한 진폭 비율 SNRTF(τ, f)는 수학식 2에서의 진폭 비율 α(τ, f) 계산법에 바닥 항을 더 고려하였다.
진폭 비율은 프레임으로 분할된 각 유닛(unit)의 신뢰도를 의미한다. 예를 들어, 임의의 유닛에서 강조 신호 Y(τ, f)와 억제 신호 Z(τ, f)의 진폭 비율이 크면 상기 유닛은 목표 음원 신호가 우세한 음원 신호에 해당하고, 임의의 유닛에서 진폭 비율이 작으면 상기 유닛은 간섭 잡음이 우세한 음원 신호이다. 따라서, 비선형 필터의 출력, 즉 시그모이드 함수의 출력은 수학식 6에서 정의한 진폭 비율이 증가할수록 비선형적으로 증가한다.
주파수 적응적 계수 산출부(842)는 주파수 인덱스 f를 이용하여 비선형 필터, 즉 시그모이드 함수의 기울기 계수를 생성한다. 높은 주파수 요소 (예를 들면, 3KHz 이상)의 음원은 상대적으로 낮은 에너지를 가지고 있기에 노이즈에 영향을 쉽게 받기에, 고주파 영역의 국부적 신호 대 잡음비는 신뢰도가 낮다. 따라서 시그모이드 함수의 기울기는 주파수에 반비례하게 설정된다.
좀 더 상세히 설명하면, 시그모이드 함수 기울기가 σ1 이상 σ2 이하 라고 하면, 시그모이드 함수 기울기의 일 실시예는 수학식 7과 같다.
Figure 112008087101740-PAT00007
수학식 7에서 γ(f)는 시그모이드 함수의 기울기, σ2는 시그모이드 함수 기울기의 최대 값, f는 해당 국부 지점에서의 주파수 및 m은 평활 모수(smoothing parameter)를 나타내며 수학식 8로 정의할 수 있다.
Figure 112008087101740-PAT00008
수학식 8에서 m은 평활 모수, NFFT는 고속 푸리에 변환의 샘플 포인트 수, σ1 및 σ2는 시그모이드 함수의 기울기가 가질 수 있는 최소 값 및 최대 값을 나타낸다. 시그모이드 함수의 기울기의 최소 값과 최대 값인 σ1 및 σ2는 사용환경에 따라 임의로 지정할 수 있다.
좀 더 상세히 설명하면, 시그모이드 함수의 기울기 γ(f)에 따라 시그모이드 함수의 출력 값이 변화한다. 도 10은 시그모이드 함수의 기울기 변화에 따른 출력 값의 변화를 도시한 도면이다. 설명의 편의를 위하여 시그모이드 함수를 수학식 9로 정의한다.
Figure 112008087101740-PAT00009
s를 입력 변수로 가지는 시그모이드 함수에서 γ(f)는 주파수에 적응적인 시그모이드 함수의 기울기를 의미하며 f(s)는 시그모이드 함수의 출력 값을 의미한다. 주파수 f1이 f2보다 크면, 기울기는 주파수에 반비례하기에 γ(f2)가 γ(f1)보다 크다. 따라서, 시그모이드 함수의 입력 s가 동일하고, 시그모이드 함수의 기울기가 γ(f1)인 함수의 그래프(101)와 기울기가 γ(f2)인 함수의 그래프(102)는 도 10과 같이 도시된다. 또한, 시그모이드 함수의 출력 h2는 h1보다 큰 값을 가진다. 따라서 주파수와 시그모이드 함수의 관계는 수학식 10으로 정의할 수 있다.
Figure 112008087101740-PAT00010
단, f1> f2, γ(f1)< γ(f2)
상기에서 설명한 바는 하나의 일 실시예에 불과하며, 주파수가 증가하면 비선형 필터의 기울기가 감소하고, 주파수가 감소하면 비선형 필터의 기울기가 증가하는 계수를 사용하여 시그모이드 함수의 기울기 γ(f)를 정의할 수 있음을 본 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자가 알 수 있다. 주파수 적응적 계수 산출부(841)는 강조 신호 Y(τ, f) 및 억제 신호 Z(τ, f)의 주파수에 적응적인 비선형 필터의 계수를 설정한다. 이와 같은 주파수 적응적 계수에 의하여 비선형 필터는 주파수에 적응적으로 변형이 가능하고, 목표 음원 신호를 고감도로 추출할 수 있다.
수학식 5에서 정의 한 소프트 마스킹 필터는 시그모이드 함수의 기울기가 γ로 설정된 것에 대비하여, 주파수에 적응적인 기울기 γ(f)를 비선형 필터에 적용함으로써 목표 음원 신호를 고감도로 마스킹 할 수 있다.
간섭 잡음 비율 적응적 계수 산출부(843)는 고속 푸리에 변환부(831, 832)로부터 강조 신호 Y(τ, f) 및 억제 신호 Z(τ, f)의 진폭을 획득하여 시그모이드 함수의 바이어스(bias) 계수를 생성한다. 시그모이드 함수의 바이어스(bias) 계수는 시그모이드 함수의 치우침 정도를 나타낸다. 시그모이드 함수의 바이어스 계수 β(τ)는 프레임 인덱스 τ에 의하여 변화한다. 즉, 프레임 인덱스가 τ인 영역에서 혼합 신호 중 간섭 잡음의 비를 이용하여, 시그모이드 함수의 바이어스 계수로 사용한다. 따라서, 본 실시예에서 시그모이드 함수의 바이어스 계수는 프레임, 즉 시 간에 적응적이다. 좀 더 자세히 설명하면, 임의의 프레임에서의 혼합 신호 중 간섭 잡음 신호의 비율에 적응적이다. 본 실시예에서 시그모이드 함수의 바이어스 계수 β(τ)는 수학식 11로 정의될 수 있다.
Figure 112008087101740-PAT00011
β(τ)는 시그모이드 함수의 바이어스 계수, λ1 및 λ2는 시그모이드 함수의 바이어스 계수의 최소 값이 λ1, 최대 값이 λ12일 때의 λ1, λ2를 나타낸다. 또한, |Y(τ, f)|는 강조 신호 Y(τ, f)의 진폭, |Z(τ, f)|는 억제 신호 Z(τ, f)의 진폭을 의미한다. 이때 시그모이드 함수 바이어스 계수의 최소 값 및 최대 값을 설정하기 위한 λ1 및 λ2는 사용 환경에 따라 적절하게 조정 가능하다.
좀 더 상세히 설명하면, 임의의 프레임 인덱스 τ에서 모든 주파수 대역에 대한 진폭을 가산하여 혼합 신호 중 간섭 잡음 신호의 비율을 구한다. 즉, 임의의 시간대에서 모든 주파수 대역에 존재하는 강조 신호 및 억제 신호의 진폭 각각을 가산한다. 계산 결과를 이용하여 임의의 프레임에서 강조 신호와 억제 신호 중 억제 신호의 비율을 구한다. 상기 수학식 11에 의하면, 억제 신호의 비율이 커질수록, 시그모이드 함수의 바이어스 계수 β(τ)가 커진다. 예를 들면, 강조 신호의 진폭의 합이 0라고 하면, 바이어스 계수 β(τ)는 최대 값인 λ12가 되고, 억제 신호의 진폭의 합이 0라고 하면, 바이어스 계수 β(τ)는 최소 값인 λ1가 된다. 도 11은 시그모이드 함수의 바이어스 계수 변화에 따른 출력 값의 변화를 도시한 도면이다. 설명의 편의를 위하여 시그모이드 함수를 수학식 12와 같이 정의한다.
Figure 112008087101740-PAT00012
s를 변수로 가지는 시그모이드 함수에서 β(τ)는 상기 수학식 11에서 계산한 시그모이드 함수의 시간에 적응적인 바이어스 계수를 의미하며 f(s)는 시그모이드 함수의 출력 값을 의미한다. 프레임 τ1 및 τ2에서 β(τ1)이 β(τ2)보다 더 크다고 하면, 즉 τ1 프레임에서 간섭 잡음의 비율이 τ2 프레임에서 간섭 잡음의 비율보다 더 크다고 가정하면, 바이어스 계수가 더 큰 시그모이드 함수의 그래프(111)가 더 s축으로 치우친다. 따라서, 시그모이드 함수의 입력 s가 동일하고, 시그모이드 함수의 바이어스 계수가 β(τ1)인 함수의 그래프(111)와 바이어스 계수가 β(τ2)인 함수의 그래프(112)는 도 11과 같이 도시된다. 그 결과, 시그모이드 함수의 출력 h2는 h1보다 큰 값을 가진다. 따라서 시간과 시그모이드 함수의 관계는 수학식 13으로 정의할 수 있다.
Figure 112008087101740-PAT00013
단, β(τ1)>β(τ2)
상기에서 설명한 바는 하나의 일 실시예에 불과하며, 임의의 프레임에서 간섭 잡음의 비율이 증가하면 비선형 필터의 출력 값이 감소하고, 간섭 잡음의 비율이 감소하면 비선형 필터의 출력 값이 증가하는 계수를 사용하여 시그모이드 함수의 바이어스 계수 β(τ)를 정의할 수 있음을 본 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자가 알 수 있다. 간섭 잡음 비율 적응적 계수 산출부(843)는 임의의 프레임에서 혼합 신호 중 간섭 잡음 비율에 적응적인 비선형 필터의 계수를 설정한다. 이와 같은 계수에 의한 비선형 필터는 시간에 따른 간섭 잡음의 비율에 적응적으로 변형이 가능하기에 목표 음원 신호를 고감도로 추출할 수 있다.
비선형 필터 산출부(840)는 진폭 비율 산출부(841), 주파수 적응적 계수 산출부(842) 및 간섭 잡음 비율 적응적 계수 산출부(843) 중 적어도 어느 하나로부터 계수를 획득하여 비선형 필터(850)를 산출한다. 본 실시예에서 비선형 필터를 시그모이드 함수라고 하면, 수학식 14와 같은 비선형 필터를 정의할 수 있다.
Figure 112008087101740-PAT00014
Figure 112008087101740-PAT00015
(τ, f)는 비선형 필터, γ(f)는 주파수 적응적 계수 산출부(842)에서 산출한 기울기 계수, SNRTF(τ, f)는 진폭 비율 산출부(841)에서 산출한 진폭 비율, β(τ)는 간섭 잡음 비율 적응적 계수 산출부(843)에서 산출한 바이어스 계수를 의미한다. 비선형 필터(850)는 진폭 비율 적응적 계수를 입력 변수로 획득하고, 주파수 적응적 기울기 계수 및 간섭 잡음 비율 적응적 바이어스 계수 중 적어도 어느 하나를 획득한다. 다만, 기울기 계수 및 바이어스 계수를 주파수 및 간섭 잡음 비율에 적응적으로 사용하지 않을 경우에는 일정한 수치를 사용할 수 있음을 본 발명과 관련된 기술 분야에서 통상의 지식을 가진 자라면 알 수 있다. 도 12는 본 발명의 일 실시예에 따른 비선형 필터의 출력 값을 도시한 도면이다.
도 12를 참조하면, 도시의 편의를 위하여 기울기 γ(f)는 [0.5, 5.0]의 범위에서 변화하고, 고속 푸리에 변환의 샘플 포인트는 512개이며 바이어스 개수 β(τ)는 5.0으로 고정된 경우를 도시하였다. 비선형 필터(850)는 국부적 신호 대 잡음비(SNRTF(τ, f))를 입력 변수로 하여, 주파수에 따른 출력 값을 도시하였다. 음원 신호의 주파수가 낮고, 국부 지역의 신호 대 잡음비가 커질수록 비선형 필터의 출력 값이 증가함을 알 수 있다. 따라서, 뮤지컬 노이즈 또는 순간적인 환경 변화에 유연하게 대처하여 혼합 신호로부터 목표 음원 신호를 고감도로 추출할 수 있다.
다시 도 2a로 돌아와서, 신호 추출부(230)에서의 잔여 과정을 살펴보면 다음과 같다. 이상에서 설정된 마스크 필터(231)를 이용하여 강조 신호 Y(τ, f)(251)를 필터링하면 최종적으로 목표 음원 신호(240)가 추출된다. 따라서, 목표 음원 신호는 다음의 수학식 15와 같이 정의된다.
Figure 112008087101740-PAT00016
이렇게 출력된 목표 음원 신호 O(τ, f)는 시간-주파수 영역의 값이므로, 이 를 다시 역 고속 푸리에 변환(inverse fast Fourier transform, IFFT)을 통해 시간 영역으로 변환한다.
이상에서 도 2a를 통해 목표 음원의 방향을 알고 있는 경우에 목표 음원을 추출하는 장치를 설명하였다. 본 실시예에 따르면 목표 음원의 방향을 알고 있는 경우에 마이크로폰 어레이를 통해 입력된 복수 개의 사운드가 포함된 혼합 신호로부터 특정 음원 신호를 선명하게 분리하는 효과가 나타난다.
이하에서는 목표 음원의 방향을 알지 못하는 경우에 목표 음원을 추출하는 장치를 설명하겠다.
도 2b는 본 발명의 일 실시예에 따른 목표 음원 추출 장치를 도시한 블럭도로서, 목표 음원의 방향을 모르는 경우를 도시한 도면이다. 도 2a와 비교할 때, 마이크로폰 어레이(210), 빔 형성기(220) 및 신호 추출부(230)의 기본적인 구성은 동일하나, 빔 형성기(220)에 추가적으로 음원 탐색부(223)를 더 포함하고 있는 차이가 있다. 차이점을 중심으로 설명하겠다.
음원 탐색부(223)는 목표 음원이 어디에 위치해 있는지를 알지 못할 때, 이하에서 기술할 다양한 알고리즘을 이용하여 목표 마이크로폰 어레이(210)를 중심으로 주위의 어느 위치에 목표 음원이 존재하는지를 탐색한다. 앞서 설명한 바와 같이, 일반적으로 주위의 혼합 신호로부터 이득이나 음압이 큰 지배적인 신호 특성을 가진 음원 신호를 목표 음원이라고 판단하는 것이 타당하므로, 음원 탐색부(223)는 마이크로폰 어레이(210)를 통해 입력된 혼합 신호에 대하여 목표 음원이 존재하리라고 판단되는 방향이나 위치를 검출한다. 여기서 지배적인 신호 특성을 인지하는 방법은 해당 음원 신호에 대해 신호 대 잡음비(signal to noise ratio; SNR)와 같은 객관적인 측정값을 통해 측정값이 상대적으로 큰 음원이 위치한 방향을 목표 음원 방향으로 특정함으로써 수행될 수 있다.
이러한 측정 방법에는 도착 시간 지연법(TDOA, time delay of arrival), 빔 형성 방법(beam-forming), 고해상도 스펙트럼 추정 방법(spectral analysis) 등의 다양한 음원 위치 탐색 방법들이 널리 소개되어 있다. 이하에서는 개요만을 간단히 설명하겠다.
도착 시간 지연법에 따르면, 우선 다수의 음원들로부터 마이크로폰 어레이(210)로 입력되는 혼합 신호에 대하여 어레이를 구성하는 마이크로폰들을 2 개씩 짝(pair)을 지어 마이크로폰들 간의 시간 지연을 측정하고, 측정된 시간 지연으로부터 음원의 방향을 추정한다. 이어서, 음원 탐색부(223)는 각각의 짝에서 추정된 음원 방향들이 교차하는 공간상의 지점에 음원이 존재한다고 추정하게 된다. 또 다른 방법으로 제시된 빔 형성 방법에 따르면 음원 탐색부(223) 특정 각도의 음원 신호에 지연을 주고 각도에 따라 공간 상의 신호들을 스캔(scan)하여 스캔된 신호값이 가장 큰 위치를 목표 음원 방향으로 선택함으로써 음원의 위치를 추정하게 된다. 이러한 다양한 위치 탐색 방법들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 파악할 수 있는 것으로서, 보다 구체적인 설명은 생략한다. (Juyang Weng, Three-dimensional sound localization from a compact non-coplanar array of microphones using tree-based learning, pp. 310-323, 110(1), JASA 2001)
이상의 다양한 실시예들을 통해 음원 탐색부(223)가 목표 음원의 방향을 특정하게 되면, 특정 결과에 기초하여 목표 음원 강조 빔 형성기(221) 및 목표 음원 억제 빔 형성기(222)로 혼합 신호를 인가하고, 그 이후의 과정은 앞서 설명한 도 2a에서의 일련의 과정과 동일하게 진행된다. 본 실시예에 따르면 목표 음원의 방향을 모르는 경우에 마이크로폰 어레이를 통해 입력된 복수 개의 사운드가 포함된 혼합 신호로부터 특정 음원 신호를 선명하게 분리하는 효과가 나타난다.
도 13은 본 발명의 일 실시예에 따른 목표 음원 추출 방법을 도시한 흐름도로서, 다음과 같은 단계들을 포함한다.
1310 단계에서 마이크로폰 어레이를 통해 주위로부터 혼합 신호를 입력받는다.
1320 단계에서 목표 음원의 방향을 알고 있는지 여부를 판단한다. 이 과정은 선택적인 과정으로서, 이미 목표 음원 방향에 대한 정보가 주어져 있다면 음원 탐색 과정을 수행할 필요없이 다음 단계로 진행할 것이다. 만약, 목표 음원 방향에 대한 정보가 주어져 있지 않다면, 1325 단계로 진행하여 주위의 음원들 중 어느 위치에서 지배적인 신호 특성이 나타나는지를 검출하여 해당 음원의 위치한 방향을 목표 음원 방향으로 설정한다. 이러한 과정은 도 2b의 음원 탐색부(223)에서 설명한 음원 탐색 과정에 해당한다.
1331 단계 및 1332 단계에서 각각 혼합 신호로부터 목표 음원 방향으로 지향성을 나타내는 강조 신호 및 지향성을 억제하는 억제 신호를 생성한다. 이러한 과정은 도 2a 및 도 2b의 강조 신호 빔 형성기(221) 및 억제 신호 빔 형성기(222)에 서 설명한 바와 같다.
1341 단계 및 1342 단계에서는 이전 단계인 1331 단계 및 1332 단계에서 각각 생성한 강조 신호 및 억제 신호를 윈도우 함수를 통해 필터링한다. 이러한 과정은 앞서 설명한 바와 같이 연속적인 신호에 대해 컨벌루션 연산을 수행하기 위해 일정 크기의 개별 프레임으로 나누는 것을 말한다. 또한, 나누어진 개별 프레임에 대하여 시간-주파수 영역으로 변환하는 고속 푸리에 변환을 수행한다.
1350 단계에서 이전 단계인 1341 단계 및 1342 단계를 통해 시간-주파수 영역으로 변환된 강조 신호 및 억제 신호에 대하여 양자의 진폭 비율을 산출한다. 이러한 진폭 비율은 개별 프레임에 해당하는 음원 신호에 포함된 목표 음원과 간섭 잡음의 비율을 알려주는 역할을 한다.
1360 단계에서 산출된 진폭 비율에 기초하여 마스킹 필터를 설정한다. 마스킹 필터를 설정하는 방법으로는 앞서 설명한 바와 같이 이진 마스킹 필터와 마스킹 문턱값을 사용하는 방법과 시그모이드 함수를 이용하여 직접 소프트 마스킹 필터를 구하는 방법의 2 가지 실시예를 제시하였다.
1370 단계에서 설정된 마스킹 필터를 강조 신호에 적용한다. 즉, 강조 신호와 마스킹 필터를 승산함으로써 목표 음원 신호를 추출한다.
1380 단계에서 추출된 목표 음원 신호에 대하여 다시 시간 영역으로 변환하기 위해 역 고속 푸리에 변환을 수행하고, 1390 단계에서 최종적으로 시간 영역의 목표 음원 신호가 추출된다.
도 14는 본 발명의 또 다른 실시예에 따른 비선형 필터를 이용한 목표 음원 추출 방법을 도시한 흐름도이다. 도 14를 참조하면, 본 실시예에 따른 목표 음원 추출 방법은 도 2a 및 도 2b에 도시된 목표 음원 신호 추출 장치에서 시계열적으로 처리되는 단계들로 구성된다. 따라서 이하 생략되는 내용이라 하더라도 도 2a 및 도 2b에 도시된 목표 음원 신호 추출 장치에 관하여 이상에서 기술된 내용은 본 실시예에 따른 목표 음원 신호 추출 방법에도 적용된다.
1401 단계에서 마이크로폰 어레이는 혼합 신호를 획득한다. 혼합 신호의 일 실시예는 도 1에서 도시된 바와 같이, 목표 음원(120) 및 기타 간섭 잡음으로 구성된다.
1402 단계에서 목표 음원의 방향을 알고 있는지 여부를 판단한다. 다만, 이과정은 선택적인 과정으로 이미 목표 음원 방향에 대한 정보가 주어져 있다면 음원 신호의 방향을 알고 있는지 여부에 대한 판단 과정도 불필요하다. 목표 음원 방향에 대한 정보를 수집할 필요가 없거나, 또는 목표 음원 신호의 방향을 알고 있는 경우에는 1403 단계를 생략할 수 있다.
1403 단계는 목표 음원 방향에 대한 정보가 주어져 있지 않는 경우, 주위의 음원들 중 어느 위치에서 지배적인 신호 특성이 있는지 검출하고, 해당 음원 신호의 방향을 목표 음원 방향으로 설정한다. 상기의 과정은 도 2b에서 설명한 음원 탐색부(223)에서 설명한 목표 음원 신호의 방향 탐색 과정을 따른다.
1404 단계 및 1405 단계는 각각 혼합 신호로부터 목표 음원 방향으로 지향성을 나타내는 강조 신호 및 지향성을 억제하는 억제 신호를 생성한다. 강조 신호 빔 형성기(221) 및 억제 신호 빔 형성기(222)에서 설명한 바와 같다.
1406 단계는 이전 단계인 1404 단계 및 1405 단계에서 각각 생성한 강조 신호 및 억제 신호를 윈도우 함수를 거쳐 고속 푸리에 변환한다. 각 신호가 윈도우 함수를 통과하면 시간 및 주파수 프레임으로 분할된다. 또한, 고속 푸리에 변환은 시간 영역에서 정의된 강조 신호 및 억제 신호에 대하여 시간-주파수 영역으로 변환하는 고속 푸리에 변환을 수행한다.
1407 단계는 이전 단계인 1404 단계 내지 1406 단계를 통해 시간-주파수 영역으로 변환된 강조 신호 Y(τ, f) 및 억제 신호 Z(τ, f)에 대하여 양자의 진폭 비율을 산출한다. 이러한 진폭 비율은 개별 프레임에 해당하는 강조 신호 및 억제 신호의 비율을 알려주는 역할을 한다. 1407 단계에서 구해진 진폭 비율은 비선형 필터의 입력 변수로 이용된다. 진폭 비율이 높을수록 비선형 필터의 출력이 증가한다.
1408 단계는 1406 단계에서 수행한 시간-주파수 영역으로의 변환 과정을 이용하여 주파수에 적응적인 비선형 필터의 기울기를 생성한다. 비선형 필터의 기울기는 주파수와 반비례 하도록 설정된다. 고주파 영역에서의 음원 신호는 노이즈에 취약한 것이 일반적이므로, 고주파 영역의 음원 신호는 비선형 필터를 통과하면 낮은 출력 값을 가진다. 따라서, 주파수가 높을수록 비선형 필터의 출력 값이 낮아진다.
1409 단계는 이전 단계인 1404 단계 내지 1406 단계를 통해 시간-주파수 영역으로 변환된 강조 신호 및 억제 신호를 이용하여 시간 프레임에 대하여 혼합 신호 중 간섭 잡음의 비율에 적응적인 비선형 필터의 바이어스(bias) 계수를 계산한 다. 이러한 바이어스 계수는 비선형 필터의 치우침 정도를 나타내며, 시간 프레임의 간섭 잡음 비가 클수록 비선형 필터의 출력 값이 낮아진다.
1410 단계는 이전 단계인 1407 단계 내지 1409 단계를 통해 생성된 진폭 비율, 주파수 적응적 기울기 및 간섭 잡음 비율 적응적 바이어스 계수에 기초하여 비선형 필터를 산출한다.
1411 단계는 비선형 필터를 이용하여 강조 신호를 필터링한다. 즉, 강조 신호를 비선형 필터로 필터링하여 강조 신호로부터 간섭 잡음이 제거된 목표 음원 신호를 추출한다.
1412 단계는 추출된 목표 음원 신호를 다시 시간 영역으로 변환하기 위하여 역 단구간 푸리에 변환을 수행하고, 최종적으로 목표 음원 신호를 추출한다.
상기된 바와 같은 실시예들에 따르면, 음원 신호의 혼합 신호 중 간섭 잡음 신호의 비율 및 주파수에 적응적인 비선형 필터를 이용하여 간섭 잡음이 순간적으로 발생하거나 잉여 잡음이 발생하는 경우에도 목표 음원 신호를 고감도로 추출할 수 있다. 또한, 간섭 잡음이 있는 혼합 신호에서 목표 음원 신호를 깨끗하게 복원할 수 있다. 특히, 마이크로폰 어레이의 마이크로폰들간의 거리가 가까운 경우에도 PESQ 지수가 높은 고감도의 음원 신호 추출이 가능하다.
한편, 상술한 본 발명의 실시예들은 컴퓨터에서 실행될 수 있는 프로그램으로 작성 가능하고, 컴퓨터로 읽을 수 있는 기록 매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다. 또한, 상술한 본 발명의 실시예에서 사용된 데이터의 구조는 컴퓨터로 읽을 수 있는 기록 매체에 여러 수단을 통하여 기록될 수 있다. 상기 컴퓨터로 읽을 수 있는 기록 매체는 마그네틱 저장매체(예를 들면, 롬, 플로피 디스크, 하드 디스크 등), 광학적 판독 매체(예를 들면, 시디롬, 디브이디 등)와 같은 저장 매체를 포함한다.
이상에서 본 발명에 대한 다양한 실시예들을 중심으로 살펴보았다. 본 발명에 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.
도 1은 본 발명이 해결하고자 하는 문제 상황을 예시한 도면이다.
도 2a 및 도 2b는 본 발명의 일 실시예에 따른 목표 음원 추출 장치를 도시한 블럭도이다.
도 3a 및 도 3b는 본 발명의 일 실시예에 따른 목표 음원 강조 빔 형성기를 도시한 블럭도이다.
도 4a 및 도 4b는 본 발명의 일 실시예에 따른 목표 음원 억제 빔 형성기를 도시한 블럭도이다.
도 5는 본 발명의 일 실시예에 따른 마스킹 필터를 도시한 블럭도이다.
도 6은 본 발명의 일 실시예에 따른 마스킹 필터 구현에 이용 가능한 가우시안 필터(Gaussian filter)를 예시한 도면이다.
도 7은 본 발명의 다른 실시예에 따른 마스킹 필터 구현에 이용 가능한 시그모이드(sigmoid) 함수를 예시한 도면이다.
도 8은 마스킹 필터의 또 다른 실시예인 진폭 비율, 주파수 및 혼합 신호 중 간섭 잡음 비율 중 적어도 어느 하나에 적응적인 비선형 필터(851)를 도시한 블럭도이다.
도 9는 프레임 인덱스 및 주파수 인덱스에 대한 개념을 도시한 도면이다.
도 10은 시그모이드 함수의 기울기 변화에 따른 출력 값의 변화를 도시한 도면이다.
도 11은 시그모이드 함수의 바이어스 계수 변화에 따른 출력 값의 변화를 도 시한 도면이다.
도 12는 본 발명의 일 실시예에 따른 비선형 필터의 출력 값을 도시한 도면이다.
도 13은 본 발명의 일 실시예에 따른 목표 음원 추출 방법을 도시한 흐름도이다.
도 14는 본 발명의 또 다른 실시예에 따른 비선형 필터를 이용한 목표 음원 추출 방법을 도시한 흐름도이다.

Claims (14)

  1. 혼합 신호로부터 목표 음원 신호의 적응적 추출 방법에 있어서,
    마이크로폰 어레이(microphone array)에서 상기 혼합 신호를 획득하는 단계;
    상기 혼합 신호에 대하여 목표 음원 방향으로 지향성이 강조된 제 1 신호와 상기 목표 음원 방향으로 지향성이 억제된 제 2 신호를 생성하는 단계;
    상기 제 1 신호 및 상기 제 2 신호 간의 시간-주파수 영역에서의 진폭 비율, 상기 신호들의 주파수 및 상기 혼합 신호에서의 간섭 신호의 비율 중 적어도 어느 하나에 적응적인 비선형 필터를 산출하는 단계; 및
    상기 제 1 신호를 상기 비선형 필터로 필터링(filtering)하는 단계를 포함하는 방법.
  2. 제 1 항에 있어서,
    상기 비선형 필터를 산출하는 단계는 상기 진폭 비율이 증가할수록 상기 비선형 필터의 출력이 증가하도록 비선형 필터의 계수를 정의하는 방법.
  3. 제 1 항에 있어서,
    상기 비선형 필터를 산출하는 단계는 상기 주파수가 증가할수록 상기 비선형 필터의 출력이 감소하도록 비선형 필터의 계수를 정의하는 방법.
  4. 제 1 항에 있어서,
    상기 비선형 필터를 산출하는 단계는 상기 간섭 신호의 비율이 증가할수록 상기 비선형 필터의 출력이 감소하도록 비선형 필터의 계수를 정의하는 방법.
  5. 제 1 항에 있어서,
    상기 비선형 필터를 산출하는 단계는 상기 진폭 비율, 상기 주파수 및 상기 간섭 신호의 비율 중 적어도 어느 하나에 적응적인 시그모이드 함수를 이용하여 비선형 필터를 산출하는 방법.
  6. 제 1 항에 있어서,
    소정의 음원 탐색 알고리즘을 사용하여 상기 혼합 신호로부터 상기 목표 음원 방향을 검출하는 단계를 더 포함하는 방법.
  7. 제 6 항에 있어서,
    상기 소정의 음원 탐색 알고리즘은 상기 마이크로폰 어레이를 중심으로 신호 대 잡음비가 상대적으로 큰 음원이 위치한 방향을 목표 음원 방향으로 특정하는 방법.
  8. 제 1 항 내지 제 7 항 중에 어느 한 항의 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체.
  9. 혼합 신호로부터 목표 음원 신호를 적응적으로 추출하는 장치에 있어서,
    상기 혼합 신호를 획득하는 마이크로폰 어레이;
    상기 혼합 신호에 대하여 목표 음원 방향으로 지향성이 강조된 제 1 신호와 상기 목표 음원 방향으로 지향성이 억제된 제 2 신호를 생성하는 빔 형성부(beam-former);
    상기 제 1 신호 및 상기 제 2 신호 간의 시간-주파수 영역에서의 진폭 비율, 상기 신호들의 주파수 및 상기 혼합 신호에서의 간섭 신호의 비율 중 적어도 어느 하나에 적응적인 비선형 필터를 산출하는 비선형 필터 산출부; 및
    상기 제 1 신호를 상기 비선형 필터로 필터링하여 상기 제 1 신호로부터 상기 목표 음원 신호를 추출하는 추출부를 포함하는 장치.
  10. 제 9 항에 있어서,
    상기 비선형 필터 산출부는 상기 제 1 신호 및 상기 제 2 신호의 시간-주파수 영역에서의 진폭 비율을 산출하여 상기 비선형 필터의 입력 변수로 이용하는 진폭 비율 산출부를 더 포함하는 장치.
  11. 제 9 항에 있어서,
    상기 비선형 필터 산출부는 상기 신호들의 주파수를 이용하여 상기 비선형 필터의 기울기 계수를 산출하는 주파수 적응적 계수 산출부를 더 포함하는 장치.
  12. 제 9 항에 있어서,
    상기 비선형 필터 산출부는 임의의 시간에서 상기 혼합 신호에서의 상기 간섭 신호의 비율을 산출하여 상기 비선형 필터의 바이어스(bias) 계수로 이용하는 간섭 잡음 비율 적응적 계수 산출부를 더 포함하는 장치.
  13. 제 9 항에 있어서,
    소정의 음원 탐색 알고리즘을 사용하여 상기 혼합 신호로부터 상기 목표 음원 방향을 검출하는 음원 탐색부를 더 포함하는 장치.
  14. 제 13 항에 있어서,
    상기 소정의 음원 탐색 알고리즘은 상기 마이크로폰 어레이를 중심으로 신호 대 잡음비가 상대적으로 큰 음원이 위치한 방향을 목표 음원 방향으로 특정하는 장치.
KR1020080129411A 2007-10-12 2008-12-18 혼합 신호로부터 목표 음원 신호를 추출하는 방법 및 장치 KR20090037845A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020080129411A KR20090037845A (ko) 2008-12-18 2008-12-18 혼합 신호로부터 목표 음원 신호를 추출하는 방법 및 장치
US12/458,698 US8238569B2 (en) 2007-10-12 2009-07-21 Method, medium, and apparatus for extracting target sound from mixed sound

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020080129411A KR20090037845A (ko) 2008-12-18 2008-12-18 혼합 신호로부터 목표 음원 신호를 추출하는 방법 및 장치

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020070103166A Division KR101456866B1 (ko) 2007-10-12 2007-10-12 혼합 사운드로부터 목표 음원 신호를 추출하는 방법 및장치

Publications (1)

Publication Number Publication Date
KR20090037845A true KR20090037845A (ko) 2009-04-16

Family

ID=40762330

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020080129411A KR20090037845A (ko) 2007-10-12 2008-12-18 혼합 신호로부터 목표 음원 신호를 추출하는 방법 및 장치

Country Status (1)

Country Link
KR (1) KR20090037845A (ko)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110021419A (ko) * 2009-08-26 2011-03-04 삼성전자주식회사 복소 스펙트럼 잡음 제거 장치 및 방법
US8477962B2 (en) 2009-08-26 2013-07-02 Samsung Electronics Co., Ltd. Microphone signal compensation apparatus and method thereof
KR20170053623A (ko) * 2014-09-05 2017-05-16 톰슨 라이센싱 사운드 소스들을 향상시키기 위한 방법 및 장치
KR102093822B1 (ko) * 2018-11-12 2020-03-26 한국과학기술연구원 음원 분리 장치
KR20200066366A (ko) * 2017-10-23 2020-06-09 아이플라이텍 캄파니 리미티드 마이크로폰 어레이 기반 타겟 음성 획득 방법 및 장치
KR20200066367A (ko) * 2017-10-23 2020-06-09 아이플라이텍 캄파니 리미티드 타겟 음성 검출 방법 및 장치
CN111863005A (zh) * 2019-04-28 2020-10-30 北京地平线机器人技术研发有限公司 声音信号获取方法和装置、存储介质、电子设备
KR102189733B1 (ko) * 2019-06-12 2020-12-11 주식회사 에이치알지 대동물의 섭취량을 측정하는 전자 장치 및 그 동작 방법

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110021419A (ko) * 2009-08-26 2011-03-04 삼성전자주식회사 복소 스펙트럼 잡음 제거 장치 및 방법
US8477962B2 (en) 2009-08-26 2013-07-02 Samsung Electronics Co., Ltd. Microphone signal compensation apparatus and method thereof
KR20170053623A (ko) * 2014-09-05 2017-05-16 톰슨 라이센싱 사운드 소스들을 향상시키기 위한 방법 및 장치
KR20200066366A (ko) * 2017-10-23 2020-06-09 아이플라이텍 캄파니 리미티드 마이크로폰 어레이 기반 타겟 음성 획득 방법 및 장치
KR20200066367A (ko) * 2017-10-23 2020-06-09 아이플라이텍 캄파니 리미티드 타겟 음성 검출 방법 및 장치
US11308974B2 (en) 2017-10-23 2022-04-19 Iflytek Co., Ltd. Target voice detection method and apparatus
KR102093822B1 (ko) * 2018-11-12 2020-03-26 한국과학기술연구원 음원 분리 장치
US10803882B2 (en) 2018-11-12 2020-10-13 Korea Institute Of Science And Technology Apparatus and method of separating sound sources
CN111863005A (zh) * 2019-04-28 2020-10-30 北京地平线机器人技术研发有限公司 声音信号获取方法和装置、存储介质、电子设备
KR102189733B1 (ko) * 2019-06-12 2020-12-11 주식회사 에이치알지 대동물의 섭취량을 측정하는 전자 장치 및 그 동작 방법

Similar Documents

Publication Publication Date Title
KR101456866B1 (ko) 혼합 사운드로부터 목표 음원 신호를 추출하는 방법 및장치
KR101449433B1 (ko) 마이크로폰을 통해 입력된 사운드 신호로부터 잡음을제거하는 방법 및 장치
US8238569B2 (en) Method, medium, and apparatus for extracting target sound from mixed sound
US8654990B2 (en) Multiple microphone based directional sound filter
KR101415026B1 (ko) 마이크로폰 어레이를 이용한 다채널 사운드 획득 방법 및장치
KR101210313B1 (ko) 음성 향상을 위해 마이크로폰 사이의 레벨 차이를 활용하는시스템 및 방법
KR101597752B1 (ko) 잡음 추정 장치 및 방법과, 이를 이용한 잡음 감소 장치
KR20090037845A (ko) 혼합 신호로부터 목표 음원 신호를 추출하는 방법 및 장치
KR102352927B1 (ko) 상관 기반 근접장 검출기
US9467775B2 (en) Method and a system for noise suppressing an audio signal
KR20130084298A (ko) 원거리 다중 음원 추적 및 분리 시스템, 방법, 장치 및 컴퓨터-판독가능 매체
JP5672770B2 (ja) マイクロホンアレイ装置及び前記マイクロホンアレイ装置が実行するプログラム
KR20090050372A (ko) 혼합 사운드로부터 잡음을 제거하는 방법 및 장치
JP2007523514A (ja) 適応ビームフォーマ、サイドローブキャンセラー、方法、装置、及びコンピュータープログラム
JP5772151B2 (ja) 音源分離装置、プログラム及び方法
KR102191736B1 (ko) 인공신경망을 이용한 음성향상방법 및 장치
WO2015129760A1 (ja) 信号処理装置、方法及びプログラム
WO2022256577A1 (en) A method of speech enhancement and a mobile computing device implementing the method
JP2009134102A (ja) 目的音抽出装置,目的音抽出プログラム,目的音抽出方法
JP6314475B2 (ja) 音声信号処理装置及びプログラム
JP2017181761A (ja) 信号処理装置及びプログラム、並びに、ゲイン処理装置及びプログラム
JP6631127B2 (ja) 音声判定装置、方法及びプログラム、並びに、音声処理装置
Bai et al. Kalman filter-based microphone array signal processing using the equivalent source model
JP6221463B2 (ja) 音声信号処理装置及びプログラム
JP6903947B2 (ja) 非目的音抑圧装置、方法及びプログラム

Legal Events

Date Code Title Description
A107 Divisional application of patent
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application