KR101090893B1

KR101090893B1 - 음원 방향 검지 시스템 및 방법

Info

Publication number: KR101090893B1
Application number: KR1020100022697A
Authority: KR
Inventors: 황도형; 최종석
Original assignee: 한국과학기술연구원
Priority date: 2010-03-15
Filing date: 2010-03-15
Publication date: 2011-12-08
Also published as: US20110222707A1; KR20110103572A; US8270632B2

Abstract

음원 방향 검지 시스템은, 음원으로부터 신호를 입력받는 복수의 마이크로폰; 스파스 코딩을 이용하여 상기 복수의 마이크로폰으로 입력된 신호를 시간, 주파수 및 크기로 분리한 후 상기 복수의 마이크로폰으로 입력된 신호 간의 시간 지연차를 주파수별로 추출하는 시간 지연차 추출부; 및 상기 시간 지연차를 이용하여 상기 음원의 방향을 검지하는 음원 방향 검지부를 포함하여 구성된다. 음원 방향 검지 방법은, 음원으로부터 신호를 입력받는 단계; 스파스 코딩을 이용하여 상기 신호를 시간, 주파수 및 크기로 분리하는 단계; 상기 신호 간의 시간 지연차를 주파수별로 추출하는 단계; 및 상기 시간 지연차를 이용하여 상기 음원의 방향을 검지하는 단계를 포함하여 구성된다.

Description

음원 방향 검지 시스템 및 방법{Sound source localization system}

실시예는 음원 방향 검지 시스템 및 방법에 관한 것이다.

일반적으로 지능 로봇의 청각 기술 중 음원 방향 검지 기술은 다채널 마이크로폰에서 입력 받은 신호의 특징을 분석하여 음원이 발생한 위치를 알아내는 기술이다. 즉, 음원 방향 검지 기술은 로봇과 사람의 상호작용, 비전 카메라의 시야 외적인 곳에서 발생하는 음원을 효과적으로 찾을 수 있는 기술이다.

도 1은 마이크로폰 어레이를 이용한 종래의 방향 검지 기술을 나타낸 도면이다.

종래의 방향 검지 기술들은 도 1과 같이 마이크로폰 어레이가 특정한 구조물의 형태를 갖추고 있고, 이러한 마이크로폰 어레이를 이용하여 음원의 방향을 검지한다. 이 방법은 주로 음원에서 각 마이크로폰에 음성 신호가 도달하는 시간 차이를 측정하여 방향각을 알아 내기 때문에 이 방법을 이용할 때에는 각각의 마이크로폰 사이에 음성 신호의 흐름을 방해하는 물체가 없어야만 정확한 측정이 가능하다. 하지만 실제 사람과 같이 두 귀를 이용하는 경우에 위와 같은 방향 검지 기법을 사용하면 문제가 발생할 수 있다.

도 2는 종래의 방향 검지 기술을 두 귀를 이용한 방향 검지 기법에 적용할 경우의 문제점을 설명하기 위한 도면이다.

도 2를 참조하면, 실제와 같이 두 귀를 이용하는 로봇 기술에 종래의 방향 검지 기술을 사용할 경우, 음원에서 두 귀로 입력되는 신호의 특징이 마이크 사이의 얼굴과 귀의 영향으로 변화 되어 성능이 떨어지는 것을 알 수 있다.

이를 극복하기 위해서 머리 전달 함수(Head Related Transfer Function, HRTF)를 이용한 방법이 제시되었다. HRTF를 이용한 방법은 해당 플랫폼의 형태에 따른 각각의 임펄스 응답(impulse response)을 다시 측정함으로써, 플랫폼에 의한 영향을 제거하였다. 하지만 임펄스 응답을 측정하기 위해서는 무향실에서 각각의 방향에 따른 신호를 취득해야 하기 때문에 플랫폼이 바뀔 때마다 매번 측정하기 까다롭다. 따라서 HRTF를 이용한 방법은 다양한 플랫폼의 로봇 청각 시스템에 적용하기에는 한계가 있다.

이외에도 종래의 일반적인 방향 검지 시스템들은 환경 변화에 민감하게 반응하기 때문에 환경 변화 시 그에 맞는 셋팅을 위하여 프로그램등을 변경해 주어야 하기 때문에 다양한 변수가 상존하는 사람과의 상호작용(human robot interaction)에 적용하기에는 많은 문제점이 있다.

본 발명의 일 측면에 따르면, 사람의 음원 방향 검지 경로를 모델로 하여 음원 방향 검지를 구현하기 위하여 스파스 코딩(Sparse Coding) 및 자기 구성 지도(Self-Organized Map, SOM)을 이용함으로써, 임펄스 응답을 매번 측정할 필요가 없어 다양한 플랫폼의 형태에 적용할 수 있고 환경 변화에 적응이 가능한 음원 방향 검지 시스템 및 방법을 제공할 수 있다.

본 발명의 일 측면에 따른 음원 방향 검지 시스템은, 음원으로부터 신호를 입력받는 복수의 마이크로폰; 스파스 코딩을 이용하여 상기 복수의 마이크로폰으로 입력된 신호를 시간, 주파수 및 크기로 분리한 후 상기 복수의 마이크로폰으로 입력된 신호 간의 시간 지연차를 주파수별로 추출하는 시간 지연차 추출부; 및 상기 시간 지연차를 이용하여 상기 음원의 방향을 검지하는 음원 방향 검지부를 포함하여 구성된다.

또한 본 발명의 다른 측면에 따른 음원 방향 검지 방법은, 음원으로부터 신호를 입력받는 단계; 스파스 코딩을 이용하여 상기 신호를 시간, 주파수 및 크기로 분리하는 단계; 상기 신호 간의 시간 지연차를 주파수별로 추출하는 단계; 및 상기 시간 지연차를 이용하여 상기 음원의 방향을 검지하는 단계를 포함하여 구성된다.

본 발명의 일 측면에 따른 음원 방향 검지 시스템 및 방법은, 스파스 코딩(Sparse Coding) 및 자기 구성 지도(Self-Organized Map, SOM)을 이용함으로써, 임펄스 응답을 매번 측정할 필요가 없어 다양한 플랫폼의 형태에 적용할 수 있고 환경 변화에 적응이 가능하여 다양한 로봇 개발 분야에 이용될 수 있다.

도 1은 마이크로폰 어레이를 이용한 종래의 방향 검지 기술을 나타낸 도면이다.
도 2는 종래의 방향 검지 기술을 두 귀를 이용한 방향 검지 기법에 적용할 경우의 문제점을 설명하기 위한 도면이다.
도 3은 사람의 방향 검지 시스템과 본 발명의 일 실시예에 따른 음원 방향 검지 시스템의 대응 관계를 설명하기 위한 도이다.
도 4는 본 발명의 일 실시예에 따른 방향 검지 시스템을 개략적으로 도시한 도면이다.
도 5a 내지 도 5d는 본 발명의 일 실시예에 따른 음원 방향 검지 시스템의 필터들을 적용한 결과를 나타내는 그래프이다.
도 6은 본 발명의 일 실시예에 따른 음원 방향 검지 방법의 개략적인 순서도이다.

이하에서, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예에 대하여 상세히 살펴본다.

도 3은 사람의 방향 검지 시스템과 본 발명의 일 실시예에 따른 음원 방향 검지 시스템의 대응 관계를 설명하기 위한 도이다.

도 3을 참조하면, 발생한 음원 신호는 인간의 귀(301')에 대응되는 인공 귀(kemar ear)(301)에 부착된 2개의(2채널) 마이크로폰을 통해 입력된다. 그리고 방향 검지를 위해 디지털화 된다. 입력된 신호의 처리는 인간 청각의 인지 모델을 기반으로 하고 있으므로 인간의 청각에서 각 기능을 담당하는 기관과 대응되게 된다. 입력된 음원의 방향 검지는 크게 신경 코딩(neural coding)(302) 및 신경망(neural network)(303)의 두 가지 단계로 이루어 진다. 신경 코딩(302) 부분은 음원 방향 검지에 이용하기 위하여 주파수 별 신호 간 시간 지연차(Sparse Interaural Time Difference, SITD)를 추출하는 MSO(Medial Superior Olive)(302')의 역할을 한다. 신경망(303) 부분은 음원의 방향을 결정하고 학습에 대한 부분을 담당하는 IC(Inferior colliculus)(303')의 역할을 한다. 이와 같은 신경 부호화(302) 및 신경망(303) 단계를 거치면 인간의 청각 피질(304')에서 방향 검지를 하는 것과 같이 본 발명의 일 실시예에 따른 방향 검지 시스템에서도 방향 검지(304)가 이루어 진다.

본 실시예에서는 마이크로폰이 2개인 것으로 기술되었으나 이는 예시적인 것이며 이에 한정되는 것은 아니다. 즉, 본 발명에 따른 방향 검지 시스템은 필요에 따라 3개 이상의 마이크로폰도 구비할 수 있다. 예컨대, 복수의 마이크로폰을 두 그룹으로 나누어 인간의 얼굴 형태의 모형의 좌우에 배치하는 등의 방식으로 본 발명이 적용될 수 있다.

도 4는 본 발명의 일 실시예에 따른 방향 검지 시스템을 개략적으로 도시한 도면이다.

앞의 도 3에서 설명한 바와 같이 본 발명은 크게 신경 코딩 및 신경망으로 나뉜다. 도 4를 참조하면, 신경 코딩은 주파수별 시간 지연차를 추출하므로 시간 지연차 추출부(410)에 대응될 수 있고, 신경망은 주파수별 시간 지연차를 이용하여 음원의 방향을 검지하므로 음원 방향 검지부(420)에 대응될 수 있다.

시간 지연차 추출부(410)의 알고리즘은 다음과 같은 흐름으로 구성될 수 있다. 음원 신호(400)는 먼저 2개의(2채널) 마이크로폰을 통해 입력되고 신호 처리를 위해 디지털화된다. 디지털화할 때, 원하는 샘플링 레이트(sampling rate) 예컨대, 16 kHz로 디지털화할 수 있다. 디지털화된 음원 신호(411)는 한 프레임(100ms) 단위로 64개의 다른 중심 주파수(center frequency)를 가진 감마톤 필터뱅크(filter bank)(412)에 입력될 수 있고, 여기서 각 주파수 별로 필터링 되어 스파스 코딩(sparse coding)(413)으로 들어갈 수 있다. 스파스 코딩(413)을 거치면 SITD를 구할 수 있고, 이렇게 구해진 SITD는 3 가지 종류의 필터(414)를 거쳐 에러가 제거될 수 있다. 필터(414)의 종류에 대해서는 후술하도록 한다.

이제부터 시간 지연차 추출부(410)의 알고리즘에 대해서 자세히 설명하도록 한다. 상기 언급한 바와 같이 음원 신호(400)는 2개의(2채널) 마이크로폰을 통해 입력되고 디지털화되어 한 프레임(100ms) 단위로 나뉘어 감마톤 필터뱅크로 전달될 수 있다. 여기서 인간의 귀와 같이 배치된 두 인공귀에 의해 방향 검지를 하게 되면 얼굴 표면의 영향으로 주파수별 시간 차이가 다르게 된다. 이러한 문제를 효과적으로 해결하기 위해서는 주파수 별 신호 시간차를 알아야 하기 때문에 본 발명의 일 실시예에 따른 음원 방향 검지 시스템에서는 주파수 별 분리를 위해 감마톤 필터뱅크(411)를 사용하였다. 감마톤 필터뱅크(411)는 인간의 외이(outer ear)에서의 음향 처리과정을 모델링한 필터로, 특히 달팽이관이 서로 겹치는 밴드패스 필터(bandpass filter)들의 집합으로 이뤄진 점을 착안하여 다음의 수학식 1과 같은 감마톤 함수(gammatone function)로 필터뱅크의 임펄스 응답(impulse response)을 구하여 활용하게 된다.

여기서 r(n,b)는 정규화 팩터(normalization factor), b는 대역폭(bandwidth), w는 중심 주파수이다.

수학식 1에서 알 수 있듯이, 감마톤 필터뱅크를 생성하기 위해서는 필터의 개수, 각 필터뱅크의 중심 주파수와 대역폭이 필요하다. 일반적으로, 필터의 개수는 최고 주파수(f_H)와 최저 주파수(f_L)로 결정이 되는데, 다음과 같은 수학식 2에 의해 구해진다. 본 실시예에서는 최저 주파수 100Hz, 최고 주파수를 8KHz로 설정하고 필터뱅크의 개수를 구하도록 한다.

여기서 v는 중첩(overlap)되는 필터의 수이다. 그리고 중심 주파수는 다음의 수학식 3으로 구해질 수 있다.

상기와 같은 수학식들을 이용하여 필터의 개수 및 각 필터뱅크의 중심 주파수를 구한 다음, ERB(Equivalent Rectangular Bandwidth) 필터의 대역폭을 적용하여 64개의 감마톤 필터를 생성한다. ERB 필터는 청각 필터(auditory filter)가 직사각형(rectangular) 형태이며, 같은 임계 대역폭(critical bandwidth)에서는 동일한 노이즈 파워(noise power)가 통과한다는 가정 하에 제안된 필터이며, 이 필터의 대역폭을 감마톤 필터에 사용하는 것이 일반적이다.

본 실시예에서는, 입력된 음원의 신호를 시간, 주파수 및 크기의 3가지 요소로 분리하는 스파스 코딩(412) 기법을 사용하였다. 스파스 코딩(412) 기법은 일반적인 신호를 스파스(sparse)와 커넬(kernel) 방식을 이용하여 시간, 주파수 및 크기의 3 가지 요소로 다음의 수학식 4와 같이 분리한다.

여기서, T_i ^m은 시간, S_i ^m은 시간 i 번째의 계수,

은 커넬 함수, n_m은 커넬 함수의 수이며,

는 노이즈이다. 수학식 4에서 알 수 있듯이 스파스와 커넬 방식을 사용하여 표현하면 모든 신호는 시간 t에서 커넬 함수(kernel function)의 계수(coefficient)들의 합과 노이즈로 표현할 수 있다. 본 발명에서 사용한 커넬 함수는 감마톤 필터뱅크이고, 이는 다양한 주파수 대역을 가지고 있어 시간, 주파수, 크기의 3가지 요소로의 분리가 가능하다.

여기서, 입력된 신호를 생성된 커넬 함수로 분해하기 위하여 여러 알고리즘을 사용될 수 있다. 본 실시예에서는 정합 추적(matching pursuit) 알고리즘이 사용되었다. 이 알고리즘을 이용하여 채널별 커넬 함수와 계수의 조합으로 신호를 분리 한 후 각 채널의 최대 계수를 찾아 두 채널(왼쪽 귀와 오른쪽 귀의 신호 즉, 왼쪽 마이크로폰과 오른쪽 마이크로폰의 신호) 간의 시간 지연차를 주파수별로 추출하게 된다. 이렇게 추출된 시간 지연차는 Sparse ITD란 이름을 따서 SITD라 명명된다. 이와 같이 추출된 SITD는 신경망 즉, 음원 방향 검지부(420)에 전달되어 방향을 감지하게 된다.

스파스 코딩에서 SITD를 계산할 때에는 16KHz로 입력된 신호를 200msec로 나누어 3200개의 데이터를 활용하며 이후 다음 프레임(Frame) 연산 시에 25%를 중첩시켜 사용한다. 한 개의 프레임에는 64개 채널의 SITD가 존재하나 이중 환경 노이즈와 작은 계수 등의 문제로 모든 채널을 사용하였을 경우 음원 방향 추정에 좋지 않은 영향을 미칠 수가 있다. 이 영향을 제거하기 위해 본 발명에서는 상기 언급한 3가지 종류의 필터(414)를 사용한다.

제1 필터는 평균 분산 필터(Mean-Variance Filter)라 명명하며 SITD들의 위치의 가우시안(Gaussian) 평균을 구하고 평균값을 중심으로 오차가 미리 설정된 값 이상이 되는 것들은 에러로 판단하여 제거 하는 필터이다. 상기 미리 설정된 값이란, 정상적인 신호로 인정되지 않을 정도의 오차 범위로 사용자가 미리 설정하는 값이다. 제2 필터는 밴드패스 필터로서, 음성대역을 사용하여 해당 영역 감마톤 필터뱅크의 SITD 결과만을 사용한다. 음성대역은 보통 500~4000Hz까지의 대역을 의미한다. 마지막으로 제3 필터는 특정 임계값(threshold)을 사용자가 정하여 해당 값보다 추출된 SITD의 계수가 작을 경우 제거 하는 필터이다.

상기와 같이 기술한 필터들은 제1 필터, 제2 필터 등으로 명명되었으나 그 순서에 구애되는 것은 아니며, 각 필터들이 필수적인 것은 아니고, 필요에 따라 그 일부 또는 전부가 삭제되거나 부가될 수 있다. 또한, 이 필터들은 예시적인 것이며 본 발명을 한정하는 것은 아니고, 다른 형태의 필터들이 사용될 수 있다.

도 5a 내지 도 5d는 본 발명의 일 실시예에 따른 음원 방향 검지 시스템의 필터들을 적용한 결과를 나타내는 그래프이다.

도 5a는 필터링을 전혀 거치지 않은 SITD의 그래프이다. 즉, 감마톤 필터뱅크 및 스파스 코딩 등의 과정을 거친 SITD는 도 5a와 같은 스파이크-그램(spike-gram)으로 나타난다. 도 5a를 살펴보면, 계산된 값이 고르지 않고, 오차가 큰 값들이 존재하는 것을 알 수 있다.

도 5b는 제1 필터를 거친 결과이고, 도 5c는 제1 필터를 거친 결과에 제2 필터를 거친 결과이고, 도 5d는 제1 필터 및 제2 필터를 거친 결과에 제3 필터를 거친 결과이다. 상기 언급한 바와 같이, 필터링의 순서는 구애받지 않으며, 어느 필터링을 먼저 한다고 해도 똑 같은 결과가 나온다. 또한, 어느 하나의 필터링을 필요에 따라 삭제하거나 부가할 수 있으며, 필터링을 많이 거칠수록 좀더 정확한 결과가 나올 수 있다. 도 5b 내지 도 5d에서도 확인할 수 있는 바와 같이 필터링을 하나씩 거칠수록 SITD 결과들이 고르게 나옴을 알 수 있다.

다시 도 4로 돌아와서, 상기와 같은 필터링을 거친 SITD는 다음 단계인 신경망 즉, 음원 방향 검지부(420)의 입력으로 들어가게 된다.

본 발명의 일 실시예에 따른 음원 방향 시스템의 음원 방향 검지부(420)는 신경망 중 하나인 SOM(Self-Organizing Map)을 사용할 수 있다. 배경 기술에서 언급한 바와 같이 종래의 음원 방향 검지 시스템의 구성은 대부분 머리 전달 함수(Head Related Transfer Function, HRTF)를 이용하여 주파수별 다른 도달 시간차이를 계산한다. 하지만 이 HRTF를 정확히 알기 위해서는 무향실에서 각도를 다르게 하고 음원을 발화하여 각각의 임펄스 응답을 측정하여야 하기 때문에 일반적으로 시스템을 구성하는데 많은 비용과 자원이 들어간다.

이와 대조적으로 본 발명의 일 실시예에 따른 음원 방향 시스템의 음원 방향 검지부(420)의 SOM은 초기화된 SOM에 구축된 시스템과 실제의 환경에서 신경 부호화(410)를 통해 추정된 SITD를 이용하여 학습(Learning) 과정을 거친 후 각각의 SOM에서 결과를 추정할 수 있다. 또한 SOM은 일반적인 신경망과는 달리 온라인 학습(On-Line Learning)이 가능하므로 사람이 청각의 기능 변화에 적응하는 것과 같은 이치로 주위 환경의 변화나 하드웨어의 변화 등에 적응할 수 있다.

상기와 같이 입력된 음원 신호는 시간 지연차 추출부(410) 및 음원 방향 검지부(420)를 거쳐 음원의 방향(430)을 검지할 수 있다.

도 6은 본 발명의 일 실시예에 따른 음원 방향 검지 방법의 개략적인 순서도이다.

본 발명의 일 실시예에 따른 음원 방향 검지 방법은 먼저 음원으로부터 신호를 입력받으면서(S601) 시작된다. 그 다음, 상기 입력된 신호는 스파스 코딩을 이용하여 시간, 주파수 및 크기로 분리된다(S602). 그리고 분리된 신호를 이용하여 상기 신호 간의 시간 지연차를 주파수별로 추출한다(S603).

추출된 상기 신호 간의 시간 지연차는 몇 가지 필터에 의해 필터링될 수 있다(S604). 예컨대, 상기 시간 지연차의 위치의 가우시안 평균을 구하여 상기 가우시안 평균을 중심으로 오차가 미리 설정된 값 이상인 시간 지연차를 제거하는 제1 필터, 상기 시간 지연차 중 음성대역 안에 있는 시간 지연차만을 통과시키는 제2 필터, 상기 시간 지연차의 계수가 미리 설정된 임계값보다 작은 시간 지연차만을 통과시키는 제3 필터 등에 의해 필터링될 수 있다. 이와 같은 필터들은 제1 필터, 제2 필터 등으로 명명되었으나 그 순서에 구애되는 것은 아니며, 각 필터들이 필수적인 것은 아니고, 필요에 따라 그 일부 또는 전부가 삭제되거나 부가될 수 있다. 또한, 이 필터들은 예시적인 것이며 본 발명을 한정하는 것은 아니고, 다른 형태의 필터들이 사용될 수 있다.

이와 같은 필터링 단계를 거친 상기 시간 지연차를 이용하여 상기 음원의 방향을 검지(S605)하게 된다. 음원의 방향을 검지하는 단계(S605)는 상기 시간 지연차를 학습하고, 학습된 상기 시간 지연차를 이용하여 음원의 방향을 검지함으로써 이루어질 수 있다.

전술한 음원 방향 검지 방법은 도면에 제시된 순서도를 참조로 하여 설명되었다. 간단히 설명하기 위하여 상기 방법은 일련의 블록들로 도시되고 설명되었으나, 본 발명은 상기 블록들의 순서에 한정되지 않고, 몇몇 블록들은 다른 블록들과 본 명세서에서 도시되고 기술된 것과 상이한 순서로 또는 동시에 일어날 수도 있으며, 동일한 또는 유사한 결과를 달성하는 다양한 다른 분기, 흐름 경로, 및 블록의 순서들이 구현될 수 있다. 또한, 본 명세서에서 기술되는 방법의 구현을 위하여 도시된 모든 블록들이 요구되지 않을 수도 있다.

이상 본 발명의 특정 실시예를 도시하고 설명하였으나, 본 발명의 기술사상은 첨부된 도면과 상기한 설명내용에 한정하지 않으며 본 발명의 사상을 벗어나지 않는 범위 내에서 다양한 형태의 변형이 가능함은 이 분야의 통상의 지식을 가진 자에게는 자명한 사실이며, 이러한 형태의 변형은, 본 발명의 정신에 위배되지 않는 범위 내에서 본 발명의 특허청구범위에 속한다고 볼 것이다.

Claims

음원으로부터 신호를 입력받는 복수의 마이크로폰;
스파스 코딩을 이용하여 상기 복수의 마이크로폰으로 입력된 신호를 시간, 주파수 및 크기로 분리한 후 상기 복수의 마이크로폰으로 입력된 신호 간의 시간 지연차를 주파수별로 추출하는 시간 지연차 추출부; 및
상기 시간 지연차를 이용하여 상기 음원의 방향을 검지하는 음원 방향 검지부를 포함하고,
상기 지연차 추출부는 감마톤 필터뱅크를 이용하여 스파스 코딩하는 것을 특징으로 하는 음원 방향 검지 시스템.
삭제
제1항에 있어서,
상기 음원 방향 검지부는,
상기 시간 지연차를 학습하고, 학습된 상기 시간 지연차를 이용하여 음원의 방향을 검지하는 것을 특징으로 하는 음원 방향 검지 시스템.
제1항에 있어서,
상기 시간 지연차 추출부 및 상기 음원 방향 검지부의 사이에, 상기 시간 지연차의 가우시안 평균을 구하여 상기 가우시안 평균을 중심으로 오차가 미리 설정된 값 이상인 시간 지연차를 제거하는 제1 필터를 더 포함하는 것을 특징으로 하는 음원 방향 검지 시스템.
제1항에 있어서,
상기 시간 지연차 추출부 및 상기 음원 방향 검지부의 사이에, 상기 시간 지연차 중 음성대역 안에 있는 시간 지연차만을 통과시키는 제2 필터를 더 포함하는 것을 특징으로 하는 음원 방향 검지 시스템.
제1항에 있어서,
상기 시간 지연차 추출부 및 상기 음원 방향 검지부의 사이에, 상기 시간 지연차의 계수가 미리 설정된 임계값보다 작은 시간 지연차만을 통과시키는 제3 필터를 더 포함하는 것을 특징으로 하는 음원 방향 검지 시스템.
음원으로부터 신호를 입력받는 단계;
스파스 코딩을 이용하여 상기 신호를 시간, 주파수 및 크기로 분리하는 단계;
상기 신호 간의 시간 지연차를 주파수별로 추출하는 단계; 및
상기 시간 지연차를 이용하여 상기 음원의 방향을 검지하는 단계를 포함하고,
상기 분리하는 단계는 감마톤 필터뱅크를 이용하여 스파스 코딩을 하는 단계를 포함하는 것을 특징으로 하는 음원 방향 검지 방법.
삭제
제7항에 있어서,
상기 검지하는 단계는,
상기 시간 지연차를 학습하는 단계; 및
학습된 상기 시간 지연차를 이용하여 음원의 방향을 검지하는 단계를 포함하는 것을 특징으로 하는 음원 방향 검지 방법.
제7항에 있어서,
상기 추출하는 단계 및 상기 검지하는 단계 사이에, 상기 시간 지연차의 가우시안 평균을 구하여 상기 가우시안 평균을 중심으로 오차가 미리 설정된 값 이상인 시간 지연차를 제거하는 단계를 더 포함하는 것을 특징으로 하는 음원 방향 검지 방법.
제7항에 있어서,
상기 추출하는 단계 및 상기 검지하는 단계 사이에, 상기 시간 지연차 중 음성대역 안에 있는 시간 지연차만을 통과시키는 단계를 더 포함하는 것을 특징으로 하는 음원 방향 검지 방법.
제7항에 있어서,
상기 추출하는 단계 및 상기 검지하는 단계 사이에, 상기 시간 지연차의 계수가 미리 설정된 임계값보다 작은 시간 지연차만을 통과시키는 단계를 더 포함하는 것을 특징으로 하는 음원 방향 검지 방법.