KR101090893B1 - 음원 방향 검지 시스템 및 방법 - Google Patents

음원 방향 검지 시스템 및 방법 Download PDF

Info

Publication number
KR101090893B1
KR101090893B1 KR1020100022697A KR20100022697A KR101090893B1 KR 101090893 B1 KR101090893 B1 KR 101090893B1 KR 1020100022697 A KR1020100022697 A KR 1020100022697A KR 20100022697 A KR20100022697 A KR 20100022697A KR 101090893 B1 KR101090893 B1 KR 101090893B1
Authority
KR
South Korea
Prior art keywords
time delay
sound source
delay difference
detecting
frequency
Prior art date
Application number
KR1020100022697A
Other languages
English (en)
Other versions
KR20110103572A (ko
Inventor
황도형
최종석
Original Assignee
한국과학기술연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술연구원 filed Critical 한국과학기술연구원
Priority to KR1020100022697A priority Critical patent/KR101090893B1/ko
Priority to US12/844,004 priority patent/US8270632B2/en
Publication of KR20110103572A publication Critical patent/KR20110103572A/ko
Application granted granted Critical
Publication of KR101090893B1 publication Critical patent/KR101090893B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/027Spatial or constructional arrangements of microphones, e.g. in dummy heads
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • General Health & Medical Sciences (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Abstract

음원 방향 검지 시스템은, 음원으로부터 신호를 입력받는 복수의 마이크로폰; 스파스 코딩을 이용하여 상기 복수의 마이크로폰으로 입력된 신호를 시간, 주파수 및 크기로 분리한 후 상기 복수의 마이크로폰으로 입력된 신호 간의 시간 지연차를 주파수별로 추출하는 시간 지연차 추출부; 및 상기 시간 지연차를 이용하여 상기 음원의 방향을 검지하는 음원 방향 검지부를 포함하여 구성된다. 음원 방향 검지 방법은, 음원으로부터 신호를 입력받는 단계; 스파스 코딩을 이용하여 상기 신호를 시간, 주파수 및 크기로 분리하는 단계; 상기 신호 간의 시간 지연차를 주파수별로 추출하는 단계; 및 상기 시간 지연차를 이용하여 상기 음원의 방향을 검지하는 단계를 포함하여 구성된다.

Description

음원 방향 검지 시스템 및 방법{Sound source localization system}
실시예는 음원 방향 검지 시스템 및 방법에 관한 것이다.
일반적으로 지능 로봇의 청각 기술 중 음원 방향 검지 기술은 다채널 마이크로폰에서 입력 받은 신호의 특징을 분석하여 음원이 발생한 위치를 알아내는 기술이다. 즉, 음원 방향 검지 기술은 로봇과 사람의 상호작용, 비전 카메라의 시야 외적인 곳에서 발생하는 음원을 효과적으로 찾을 수 있는 기술이다.
도 1은 마이크로폰 어레이를 이용한 종래의 방향 검지 기술을 나타낸 도면이다.
종래의 방향 검지 기술들은 도 1과 같이 마이크로폰 어레이가 특정한 구조물의 형태를 갖추고 있고, 이러한 마이크로폰 어레이를 이용하여 음원의 방향을 검지한다. 이 방법은 주로 음원에서 각 마이크로폰에 음성 신호가 도달하는 시간 차이를 측정하여 방향각을 알아 내기 때문에 이 방법을 이용할 때에는 각각의 마이크로폰 사이에 음성 신호의 흐름을 방해하는 물체가 없어야만 정확한 측정이 가능하다. 하지만 실제 사람과 같이 두 귀를 이용하는 경우에 위와 같은 방향 검지 기법을 사용하면 문제가 발생할 수 있다.
도 2는 종래의 방향 검지 기술을 두 귀를 이용한 방향 검지 기법에 적용할 경우의 문제점을 설명하기 위한 도면이다.
도 2를 참조하면, 실제와 같이 두 귀를 이용하는 로봇 기술에 종래의 방향 검지 기술을 사용할 경우, 음원에서 두 귀로 입력되는 신호의 특징이 마이크 사이의 얼굴과 귀의 영향으로 변화 되어 성능이 떨어지는 것을 알 수 있다.
이를 극복하기 위해서 머리 전달 함수(Head Related Transfer Function, HRTF)를 이용한 방법이 제시되었다. HRTF를 이용한 방법은 해당 플랫폼의 형태에 따른 각각의 임펄스 응답(impulse response)을 다시 측정함으로써, 플랫폼에 의한 영향을 제거하였다. 하지만 임펄스 응답을 측정하기 위해서는 무향실에서 각각의 방향에 따른 신호를 취득해야 하기 때문에 플랫폼이 바뀔 때마다 매번 측정하기 까다롭다. 따라서 HRTF를 이용한 방법은 다양한 플랫폼의 로봇 청각 시스템에 적용하기에는 한계가 있다.
이외에도 종래의 일반적인 방향 검지 시스템들은 환경 변화에 민감하게 반응하기 때문에 환경 변화 시 그에 맞는 셋팅을 위하여 프로그램등을 변경해 주어야 하기 때문에 다양한 변수가 상존하는 사람과의 상호작용(human robot interaction)에 적용하기에는 많은 문제점이 있다.
본 발명의 일 측면에 따르면, 사람의 음원 방향 검지 경로를 모델로 하여 음원 방향 검지를 구현하기 위하여 스파스 코딩(Sparse Coding) 및 자기 구성 지도(Self-Organized Map, SOM)을 이용함으로써, 임펄스 응답을 매번 측정할 필요가 없어 다양한 플랫폼의 형태에 적용할 수 있고 환경 변화에 적응이 가능한 음원 방향 검지 시스템 및 방법을 제공할 수 있다.
본 발명의 일 측면에 따른 음원 방향 검지 시스템은, 음원으로부터 신호를 입력받는 복수의 마이크로폰; 스파스 코딩을 이용하여 상기 복수의 마이크로폰으로 입력된 신호를 시간, 주파수 및 크기로 분리한 후 상기 복수의 마이크로폰으로 입력된 신호 간의 시간 지연차를 주파수별로 추출하는 시간 지연차 추출부; 및 상기 시간 지연차를 이용하여 상기 음원의 방향을 검지하는 음원 방향 검지부를 포함하여 구성된다.
또한 본 발명의 다른 측면에 따른 음원 방향 검지 방법은, 음원으로부터 신호를 입력받는 단계; 스파스 코딩을 이용하여 상기 신호를 시간, 주파수 및 크기로 분리하는 단계; 상기 신호 간의 시간 지연차를 주파수별로 추출하는 단계; 및 상기 시간 지연차를 이용하여 상기 음원의 방향을 검지하는 단계를 포함하여 구성된다.
본 발명의 일 측면에 따른 음원 방향 검지 시스템 및 방법은, 스파스 코딩(Sparse Coding) 및 자기 구성 지도(Self-Organized Map, SOM)을 이용함으로써, 임펄스 응답을 매번 측정할 필요가 없어 다양한 플랫폼의 형태에 적용할 수 있고 환경 변화에 적응이 가능하여 다양한 로봇 개발 분야에 이용될 수 있다.
도 1은 마이크로폰 어레이를 이용한 종래의 방향 검지 기술을 나타낸 도면이다.
도 2는 종래의 방향 검지 기술을 두 귀를 이용한 방향 검지 기법에 적용할 경우의 문제점을 설명하기 위한 도면이다.
도 3은 사람의 방향 검지 시스템과 본 발명의 일 실시예에 따른 음원 방향 검지 시스템의 대응 관계를 설명하기 위한 도이다.
도 4는 본 발명의 일 실시예에 따른 방향 검지 시스템을 개략적으로 도시한 도면이다.
도 5a 내지 도 5d는 본 발명의 일 실시예에 따른 음원 방향 검지 시스템의 필터들을 적용한 결과를 나타내는 그래프이다.
도 6은 본 발명의 일 실시예에 따른 음원 방향 검지 방법의 개략적인 순서도이다.
이하에서, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예에 대하여 상세히 살펴본다.
도 3은 사람의 방향 검지 시스템과 본 발명의 일 실시예에 따른 음원 방향 검지 시스템의 대응 관계를 설명하기 위한 도이다.
도 3을 참조하면, 발생한 음원 신호는 인간의 귀(301')에 대응되는 인공 귀(kemar ear)(301)에 부착된 2개의(2채널) 마이크로폰을 통해 입력된다. 그리고 방향 검지를 위해 디지털화 된다. 입력된 신호의 처리는 인간 청각의 인지 모델을 기반으로 하고 있으므로 인간의 청각에서 각 기능을 담당하는 기관과 대응되게 된다. 입력된 음원의 방향 검지는 크게 신경 코딩(neural coding)(302) 및 신경망(neural network)(303)의 두 가지 단계로 이루어 진다. 신경 코딩(302) 부분은 음원 방향 검지에 이용하기 위하여 주파수 별 신호 간 시간 지연차(Sparse Interaural Time Difference, SITD)를 추출하는 MSO(Medial Superior Olive)(302')의 역할을 한다. 신경망(303) 부분은 음원의 방향을 결정하고 학습에 대한 부분을 담당하는 IC(Inferior colliculus)(303')의 역할을 한다. 이와 같은 신경 부호화(302) 및 신경망(303) 단계를 거치면 인간의 청각 피질(304')에서 방향 검지를 하는 것과 같이 본 발명의 일 실시예에 따른 방향 검지 시스템에서도 방향 검지(304)가 이루어 진다.
본 실시예에서는 마이크로폰이 2개인 것으로 기술되었으나 이는 예시적인 것이며 이에 한정되는 것은 아니다. 즉, 본 발명에 따른 방향 검지 시스템은 필요에 따라 3개 이상의 마이크로폰도 구비할 수 있다. 예컨대, 복수의 마이크로폰을 두 그룹으로 나누어 인간의 얼굴 형태의 모형의 좌우에 배치하는 등의 방식으로 본 발명이 적용될 수 있다.
도 4는 본 발명의 일 실시예에 따른 방향 검지 시스템을 개략적으로 도시한 도면이다.
앞의 도 3에서 설명한 바와 같이 본 발명은 크게 신경 코딩 및 신경망으로 나뉜다. 도 4를 참조하면, 신경 코딩은 주파수별 시간 지연차를 추출하므로 시간 지연차 추출부(410)에 대응될 수 있고, 신경망은 주파수별 시간 지연차를 이용하여 음원의 방향을 검지하므로 음원 방향 검지부(420)에 대응될 수 있다.
시간 지연차 추출부(410)의 알고리즘은 다음과 같은 흐름으로 구성될 수 있다. 음원 신호(400)는 먼저 2개의(2채널) 마이크로폰을 통해 입력되고 신호 처리를 위해 디지털화된다. 디지털화할 때, 원하는 샘플링 레이트(sampling rate) 예컨대, 16 kHz로 디지털화할 수 있다. 디지털화된 음원 신호(411)는 한 프레임(100ms) 단위로 64개의 다른 중심 주파수(center frequency)를 가진 감마톤 필터뱅크(filter bank)(412)에 입력될 수 있고, 여기서 각 주파수 별로 필터링 되어 스파스 코딩(sparse coding)(413)으로 들어갈 수 있다. 스파스 코딩(413)을 거치면 SITD를 구할 수 있고, 이렇게 구해진 SITD는 3 가지 종류의 필터(414)를 거쳐 에러가 제거될 수 있다. 필터(414)의 종류에 대해서는 후술하도록 한다.
이제부터 시간 지연차 추출부(410)의 알고리즘에 대해서 자세히 설명하도록 한다. 상기 언급한 바와 같이 음원 신호(400)는 2개의(2채널) 마이크로폰을 통해 입력되고 디지털화되어 한 프레임(100ms) 단위로 나뉘어 감마톤 필터뱅크로 전달될 수 있다. 여기서 인간의 귀와 같이 배치된 두 인공귀에 의해 방향 검지를 하게 되면 얼굴 표면의 영향으로 주파수별 시간 차이가 다르게 된다. 이러한 문제를 효과적으로 해결하기 위해서는 주파수 별 신호 시간차를 알아야 하기 때문에 본 발명의 일 실시예에 따른 음원 방향 검지 시스템에서는 주파수 별 분리를 위해 감마톤 필터뱅크(411)를 사용하였다. 감마톤 필터뱅크(411)는 인간의 외이(outer ear)에서의 음향 처리과정을 모델링한 필터로, 특히 달팽이관이 서로 겹치는 밴드패스 필터(bandpass filter)들의 집합으로 이뤄진 점을 착안하여 다음의 수학식 1과 같은 감마톤 함수(gammatone function)로 필터뱅크의 임펄스 응답(impulse response)을 구하여 활용하게 된다.
Figure 112010016147105-pat00001
여기서 r(n,b)는 정규화 팩터(normalization factor), b는 대역폭(bandwidth), w는 중심 주파수이다.
수학식 1에서 알 수 있듯이, 감마톤 필터뱅크를 생성하기 위해서는 필터의 개수, 각 필터뱅크의 중심 주파수와 대역폭이 필요하다. 일반적으로, 필터의 개수는 최고 주파수(fH)와 최저 주파수(fL)로 결정이 되는데, 다음과 같은 수학식 2에 의해 구해진다. 본 실시예에서는 최저 주파수 100Hz, 최고 주파수를 8KHz로 설정하고 필터뱅크의 개수를 구하도록 한다.
Figure 112010016147105-pat00002
여기서 v는 중첩(overlap)되는 필터의 수이다. 그리고 중심 주파수는 다음의 수학식 3으로 구해질 수 있다.
Figure 112010016147105-pat00003
상기와 같은 수학식들을 이용하여 필터의 개수 및 각 필터뱅크의 중심 주파수를 구한 다음, ERB(Equivalent Rectangular Bandwidth) 필터의 대역폭을 적용하여 64개의 감마톤 필터를 생성한다. ERB 필터는 청각 필터(auditory filter)가 직사각형(rectangular) 형태이며, 같은 임계 대역폭(critical bandwidth)에서는 동일한 노이즈 파워(noise power)가 통과한다는 가정 하에 제안된 필터이며, 이 필터의 대역폭을 감마톤 필터에 사용하는 것이 일반적이다.
본 실시예에서는, 입력된 음원의 신호를 시간, 주파수 및 크기의 3가지 요소로 분리하는 스파스 코딩(412) 기법을 사용하였다. 스파스 코딩(412) 기법은 일반적인 신호를 스파스(sparse)와 커넬(kernel) 방식을 이용하여 시간, 주파수 및 크기의 3 가지 요소로 다음의 수학식 4와 같이 분리한다.
Figure 112010016147105-pat00004
여기서, Ti m은 시간, Si m은 시간 i 번째의 계수,
Figure 112010016147105-pat00005
은 커넬 함수, nm은 커넬 함수의 수이며,
Figure 112010016147105-pat00006
는 노이즈이다. 수학식 4에서 알 수 있듯이 스파스와 커넬 방식을 사용하여 표현하면 모든 신호는 시간 t에서 커넬 함수(kernel function)의 계수(coefficient)들의 합과 노이즈로 표현할 수 있다. 본 발명에서 사용한 커넬 함수는 감마톤 필터뱅크이고, 이는 다양한 주파수 대역을 가지고 있어 시간, 주파수, 크기의 3가지 요소로의 분리가 가능하다.
여기서, 입력된 신호를 생성된 커넬 함수로 분해하기 위하여 여러 알고리즘을 사용될 수 있다. 본 실시예에서는 정합 추적(matching pursuit) 알고리즘이 사용되었다. 이 알고리즘을 이용하여 채널별 커넬 함수와 계수의 조합으로 신호를 분리 한 후 각 채널의 최대 계수를 찾아 두 채널(왼쪽 귀와 오른쪽 귀의 신호 즉, 왼쪽 마이크로폰과 오른쪽 마이크로폰의 신호) 간의 시간 지연차를 주파수별로 추출하게 된다. 이렇게 추출된 시간 지연차는 Sparse ITD란 이름을 따서 SITD라 명명된다. 이와 같이 추출된 SITD는 신경망 즉, 음원 방향 검지부(420)에 전달되어 방향을 감지하게 된다.
스파스 코딩에서 SITD를 계산할 때에는 16KHz로 입력된 신호를 200msec로 나누어 3200개의 데이터를 활용하며 이후 다음 프레임(Frame) 연산 시에 25%를 중첩시켜 사용한다. 한 개의 프레임에는 64개 채널의 SITD가 존재하나 이중 환경 노이즈와 작은 계수 등의 문제로 모든 채널을 사용하였을 경우 음원 방향 추정에 좋지 않은 영향을 미칠 수가 있다. 이 영향을 제거하기 위해 본 발명에서는 상기 언급한 3가지 종류의 필터(414)를 사용한다.
제1 필터는 평균 분산 필터(Mean-Variance Filter)라 명명하며 SITD들의 위치의 가우시안(Gaussian) 평균을 구하고 평균값을 중심으로 오차가 미리 설정된 값 이상이 되는 것들은 에러로 판단하여 제거 하는 필터이다. 상기 미리 설정된 값이란, 정상적인 신호로 인정되지 않을 정도의 오차 범위로 사용자가 미리 설정하는 값이다. 제2 필터는 밴드패스 필터로서, 음성대역을 사용하여 해당 영역 감마톤 필터뱅크의 SITD 결과만을 사용한다. 음성대역은 보통 500~4000Hz까지의 대역을 의미한다. 마지막으로 제3 필터는 특정 임계값(threshold)을 사용자가 정하여 해당 값보다 추출된 SITD의 계수가 작을 경우 제거 하는 필터이다.
상기와 같이 기술한 필터들은 제1 필터, 제2 필터 등으로 명명되었으나 그 순서에 구애되는 것은 아니며, 각 필터들이 필수적인 것은 아니고, 필요에 따라 그 일부 또는 전부가 삭제되거나 부가될 수 있다. 또한, 이 필터들은 예시적인 것이며 본 발명을 한정하는 것은 아니고, 다른 형태의 필터들이 사용될 수 있다.
도 5a 내지 도 5d는 본 발명의 일 실시예에 따른 음원 방향 검지 시스템의 필터들을 적용한 결과를 나타내는 그래프이다.
도 5a는 필터링을 전혀 거치지 않은 SITD의 그래프이다. 즉, 감마톤 필터뱅크 및 스파스 코딩 등의 과정을 거친 SITD는 도 5a와 같은 스파이크-그램(spike-gram)으로 나타난다. 도 5a를 살펴보면, 계산된 값이 고르지 않고, 오차가 큰 값들이 존재하는 것을 알 수 있다.
도 5b는 제1 필터를 거친 결과이고, 도 5c는 제1 필터를 거친 결과에 제2 필터를 거친 결과이고, 도 5d는 제1 필터 및 제2 필터를 거친 결과에 제3 필터를 거친 결과이다. 상기 언급한 바와 같이, 필터링의 순서는 구애받지 않으며, 어느 필터링을 먼저 한다고 해도 똑 같은 결과가 나온다. 또한, 어느 하나의 필터링을 필요에 따라 삭제하거나 부가할 수 있으며, 필터링을 많이 거칠수록 좀더 정확한 결과가 나올 수 있다. 도 5b 내지 도 5d에서도 확인할 수 있는 바와 같이 필터링을 하나씩 거칠수록 SITD 결과들이 고르게 나옴을 알 수 있다.
다시 도 4로 돌아와서, 상기와 같은 필터링을 거친 SITD는 다음 단계인 신경망 즉, 음원 방향 검지부(420)의 입력으로 들어가게 된다.
본 발명의 일 실시예에 따른 음원 방향 시스템의 음원 방향 검지부(420)는 신경망 중 하나인 SOM(Self-Organizing Map)을 사용할 수 있다. 배경 기술에서 언급한 바와 같이 종래의 음원 방향 검지 시스템의 구성은 대부분 머리 전달 함수(Head Related Transfer Function, HRTF)를 이용하여 주파수별 다른 도달 시간차이를 계산한다. 하지만 이 HRTF를 정확히 알기 위해서는 무향실에서 각도를 다르게 하고 음원을 발화하여 각각의 임펄스 응답을 측정하여야 하기 때문에 일반적으로 시스템을 구성하는데 많은 비용과 자원이 들어간다.
이와 대조적으로 본 발명의 일 실시예에 따른 음원 방향 시스템의 음원 방향 검지부(420)의 SOM은 초기화된 SOM에 구축된 시스템과 실제의 환경에서 신경 부호화(410)를 통해 추정된 SITD를 이용하여 학습(Learning) 과정을 거친 후 각각의 SOM에서 결과를 추정할 수 있다. 또한 SOM은 일반적인 신경망과는 달리 온라인 학습(On-Line Learning)이 가능하므로 사람이 청각의 기능 변화에 적응하는 것과 같은 이치로 주위 환경의 변화나 하드웨어의 변화 등에 적응할 수 있다.
상기와 같이 입력된 음원 신호는 시간 지연차 추출부(410) 및 음원 방향 검지부(420)를 거쳐 음원의 방향(430)을 검지할 수 있다.
도 6은 본 발명의 일 실시예에 따른 음원 방향 검지 방법의 개략적인 순서도이다.
본 발명의 일 실시예에 따른 음원 방향 검지 방법은 먼저 음원으로부터 신호를 입력받으면서(S601) 시작된다. 그 다음, 상기 입력된 신호는 스파스 코딩을 이용하여 시간, 주파수 및 크기로 분리된다(S602). 그리고 분리된 신호를 이용하여 상기 신호 간의 시간 지연차를 주파수별로 추출한다(S603).
추출된 상기 신호 간의 시간 지연차는 몇 가지 필터에 의해 필터링될 수 있다(S604). 예컨대, 상기 시간 지연차의 위치의 가우시안 평균을 구하여 상기 가우시안 평균을 중심으로 오차가 미리 설정된 값 이상인 시간 지연차를 제거하는 제1 필터, 상기 시간 지연차 중 음성대역 안에 있는 시간 지연차만을 통과시키는 제2 필터, 상기 시간 지연차의 계수가 미리 설정된 임계값보다 작은 시간 지연차만을 통과시키는 제3 필터 등에 의해 필터링될 수 있다. 이와 같은 필터들은 제1 필터, 제2 필터 등으로 명명되었으나 그 순서에 구애되는 것은 아니며, 각 필터들이 필수적인 것은 아니고, 필요에 따라 그 일부 또는 전부가 삭제되거나 부가될 수 있다. 또한, 이 필터들은 예시적인 것이며 본 발명을 한정하는 것은 아니고, 다른 형태의 필터들이 사용될 수 있다.
이와 같은 필터링 단계를 거친 상기 시간 지연차를 이용하여 상기 음원의 방향을 검지(S605)하게 된다. 음원의 방향을 검지하는 단계(S605)는 상기 시간 지연차를 학습하고, 학습된 상기 시간 지연차를 이용하여 음원의 방향을 검지함으로써 이루어질 수 있다.
전술한 음원 방향 검지 방법은 도면에 제시된 순서도를 참조로 하여 설명되었다. 간단히 설명하기 위하여 상기 방법은 일련의 블록들로 도시되고 설명되었으나, 본 발명은 상기 블록들의 순서에 한정되지 않고, 몇몇 블록들은 다른 블록들과 본 명세서에서 도시되고 기술된 것과 상이한 순서로 또는 동시에 일어날 수도 있으며, 동일한 또는 유사한 결과를 달성하는 다양한 다른 분기, 흐름 경로, 및 블록의 순서들이 구현될 수 있다. 또한, 본 명세서에서 기술되는 방법의 구현을 위하여 도시된 모든 블록들이 요구되지 않을 수도 있다.
이상 본 발명의 특정 실시예를 도시하고 설명하였으나, 본 발명의 기술사상은 첨부된 도면과 상기한 설명내용에 한정하지 않으며 본 발명의 사상을 벗어나지 않는 범위 내에서 다양한 형태의 변형이 가능함은 이 분야의 통상의 지식을 가진 자에게는 자명한 사실이며, 이러한 형태의 변형은, 본 발명의 정신에 위배되지 않는 범위 내에서 본 발명의 특허청구범위에 속한다고 볼 것이다.

Claims (12)

  1. 음원으로부터 신호를 입력받는 복수의 마이크로폰;
    스파스 코딩을 이용하여 상기 복수의 마이크로폰으로 입력된 신호를 시간, 주파수 및 크기로 분리한 후 상기 복수의 마이크로폰으로 입력된 신호 간의 시간 지연차를 주파수별로 추출하는 시간 지연차 추출부; 및
    상기 시간 지연차를 이용하여 상기 음원의 방향을 검지하는 음원 방향 검지부를 포함하고,
    상기 지연차 추출부는 감마톤 필터뱅크를 이용하여 스파스 코딩하는 것을 특징으로 하는 음원 방향 검지 시스템.


  2. 삭제
  3. 제1항에 있어서,
    상기 음원 방향 검지부는,
    상기 시간 지연차를 학습하고, 학습된 상기 시간 지연차를 이용하여 음원의 방향을 검지하는 것을 특징으로 하는 음원 방향 검지 시스템.
  4. 제1항에 있어서,
    상기 시간 지연차 추출부 및 상기 음원 방향 검지부의 사이에, 상기 시간 지연차의 가우시안 평균을 구하여 상기 가우시안 평균을 중심으로 오차가 미리 설정된 값 이상인 시간 지연차를 제거하는 제1 필터를 더 포함하는 것을 특징으로 하는 음원 방향 검지 시스템.
  5. 제1항에 있어서,
    상기 시간 지연차 추출부 및 상기 음원 방향 검지부의 사이에, 상기 시간 지연차 중 음성대역 안에 있는 시간 지연차만을 통과시키는 제2 필터를 더 포함하는 것을 특징으로 하는 음원 방향 검지 시스템.
  6. 제1항에 있어서,
    상기 시간 지연차 추출부 및 상기 음원 방향 검지부의 사이에, 상기 시간 지연차의 계수가 미리 설정된 임계값보다 작은 시간 지연차만을 통과시키는 제3 필터를 더 포함하는 것을 특징으로 하는 음원 방향 검지 시스템.
  7. 음원으로부터 신호를 입력받는 단계;
    스파스 코딩을 이용하여 상기 신호를 시간, 주파수 및 크기로 분리하는 단계;
    상기 신호 간의 시간 지연차를 주파수별로 추출하는 단계; 및
    상기 시간 지연차를 이용하여 상기 음원의 방향을 검지하는 단계를 포함하고,
    상기 분리하는 단계는 감마톤 필터뱅크를 이용하여 스파스 코딩을 하는 단계를 포함하는 것을 특징으로 하는 음원 방향 검지 방법.


  8. 삭제
  9. 제7항에 있어서,
    상기 검지하는 단계는,
    상기 시간 지연차를 학습하는 단계; 및
    학습된 상기 시간 지연차를 이용하여 음원의 방향을 검지하는 단계를 포함하는 것을 특징으로 하는 음원 방향 검지 방법.
  10. 제7항에 있어서,
    상기 추출하는 단계 및 상기 검지하는 단계 사이에, 상기 시간 지연차의 가우시안 평균을 구하여 상기 가우시안 평균을 중심으로 오차가 미리 설정된 값 이상인 시간 지연차를 제거하는 단계를 더 포함하는 것을 특징으로 하는 음원 방향 검지 방법.
  11. 제7항에 있어서,
    상기 추출하는 단계 및 상기 검지하는 단계 사이에, 상기 시간 지연차 중 음성대역 안에 있는 시간 지연차만을 통과시키는 단계를 더 포함하는 것을 특징으로 하는 음원 방향 검지 방법.
  12. 제7항에 있어서,
    상기 추출하는 단계 및 상기 검지하는 단계 사이에, 상기 시간 지연차의 계수가 미리 설정된 임계값보다 작은 시간 지연차만을 통과시키는 단계를 더 포함하는 것을 특징으로 하는 음원 방향 검지 방법.
KR1020100022697A 2010-03-15 2010-03-15 음원 방향 검지 시스템 및 방법 KR101090893B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020100022697A KR101090893B1 (ko) 2010-03-15 2010-03-15 음원 방향 검지 시스템 및 방법
US12/844,004 US8270632B2 (en) 2010-03-15 2010-07-27 Sound source localization system and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020100022697A KR101090893B1 (ko) 2010-03-15 2010-03-15 음원 방향 검지 시스템 및 방법

Publications (2)

Publication Number Publication Date
KR20110103572A KR20110103572A (ko) 2011-09-21
KR101090893B1 true KR101090893B1 (ko) 2011-12-08

Family

ID=44559985

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020100022697A KR101090893B1 (ko) 2010-03-15 2010-03-15 음원 방향 검지 시스템 및 방법

Country Status (2)

Country Link
US (1) US8270632B2 (ko)
KR (1) KR101090893B1 (ko)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2446291A4 (en) * 2009-06-26 2012-11-28 Lizard Technology Aps TONORTUNGSROBOTER
US9689959B2 (en) * 2011-10-17 2017-06-27 Foundation de l'Institut de Recherche Idiap Method, apparatus and computer program product for determining the location of a plurality of speech sources
US9881616B2 (en) * 2012-06-06 2018-01-30 Qualcomm Incorporated Method and systems having improved speech recognition
GB2514184B (en) * 2013-05-17 2016-05-04 Canon Kk Method for determining a direction of at least one sound source from an array of microphones
US9395723B2 (en) 2013-09-30 2016-07-19 Five Elements Robotics, Inc. Self-propelled robot assistant
CN103985390A (zh) * 2014-05-20 2014-08-13 北京安慧音通科技有限责任公司 一种基于伽马通相关图语音特征参数提取方法
US10063965B2 (en) * 2016-06-01 2018-08-28 Google Llc Sound source estimation using neural networks
US9883142B1 (en) 2017-03-21 2018-01-30 Cisco Technology, Inc. Automated collaboration system
US11190896B1 (en) 2018-09-27 2021-11-30 Apple Inc. System and method of determining head-related transfer function parameter based on in-situ binaural recordings
CN111462766B (zh) * 2020-04-09 2022-04-26 浙江大学 一种基于稀疏编码的听觉脉冲编码方法及系统
CN112904279B (zh) * 2021-01-18 2024-01-26 南京工程学院 基于卷积神经网络和子带srp-phat空间谱的声源定位方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6719700B1 (en) * 2002-12-13 2004-04-13 Scimed Life Systems, Inc. Ultrasound ranging for localization of imaging transducer
NO318096B1 (no) * 2003-05-08 2005-01-31 Tandberg Telecom As Arrangement og fremgangsmate for lokalisering av lydkilde
US7495998B1 (en) * 2005-04-29 2009-02-24 Trustees Of Boston University Biomimetic acoustic detection and localization system
KR100943224B1 (ko) 2007-10-16 2010-02-18 한국전자통신연구원 음원 추적이 가능한 지능형 로봇 및 방법
US20100217590A1 (en) * 2009-02-24 2010-08-26 Broadcom Corporation Speaker localization system and method

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
논문(2009.08)

Also Published As

Publication number Publication date
US20110222707A1 (en) 2011-09-15
KR20110103572A (ko) 2011-09-21
US8270632B2 (en) 2012-09-18

Similar Documents

Publication Publication Date Title
KR101090893B1 (ko) 음원 방향 검지 시스템 및 방법
Dietz et al. Auditory model based direction estimation of concurrent speakers from binaural signals
US6792118B2 (en) Computation of multi-sensor time delays
JP4841863B2 (ja) バイノーラル信号に基づいた音源定位
AU2010346387B2 (en) Device and method for direction dependent spatial noise reduction
EP2603018B1 (de) Hörvorrichtung mit Sprecheraktivitätserkennung und Verfahren zum Betreiben einer Hörvorrichtung
WO2016025812A1 (en) Binaurally integrated cross-correlation auto-correlation mechanism
Benichoux et al. On the variation of interaural time differences with frequency
CN104575511B (zh) 语音增强方法及装置
KR20170034405A (ko) 바람 잡음 검출을 위한 방법 및 장치
KR102316671B1 (ko) Cnn을 이용한 음향 처리방법
Zhang et al. Statistical method to identify key anthropometric parameters in HRTF individualization
Anumula et al. An event-driven probabilistic model of sound source localization using cochlea spikes
CA2804449A1 (en) System and method for measuring and validating the occlusion effect of a hearing aid user
Puffay et al. Relating the fundamental frequency of speech with EEG using a dilated convolutional network
US20130034138A1 (en) Time delay estimation
US10070220B2 (en) Method for equalization of microphone sensitivities
Pirhosseinloo et al. Time-Frequency Masking for Blind Source Separation with Preserved Spatial Cues.
Kayser et al. Robust auditory localization using probabilistic inference and coherence-based weighting of interaural cues
Goodman et al. Learning to localise sounds with spiking neural networks
Chou et al. A binaural algorithm for space and pitch detection
Koshkina et al. Localization in static and dynamic hearing scenarios: Utilization of machine learning and binaural auditory model
Karthik et al. Subband Selection for Binaural Speech Source Localization.
Smith Using depressing synapses for phase locked auditory onset detection
Wrigley et al. Binaural speech separation using recurrent timing neural networks for joint F0-localisation estimation

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20141201

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20151126

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20161201

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20171201

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20181203

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20191203

Year of fee payment: 9