KR20100086616A - 음원 위치 추적 장치 - Google Patents

음원 위치 추적 장치 Download PDF

Info

Publication number
KR20100086616A
KR20100086616A KR1020090005930A KR20090005930A KR20100086616A KR 20100086616 A KR20100086616 A KR 20100086616A KR 1020090005930 A KR1020090005930 A KR 1020090005930A KR 20090005930 A KR20090005930 A KR 20090005930A KR 20100086616 A KR20100086616 A KR 20100086616A
Authority
KR
South Korea
Prior art keywords
harmonic
section
delay time
phase
frequency
Prior art date
Application number
KR1020090005930A
Other languages
English (en)
Inventor
김승일
전혜정
강홍구
양재모
Original Assignee
엘지전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘지전자 주식회사 filed Critical 엘지전자 주식회사
Priority to KR1020090005930A priority Critical patent/KR20100086616A/ko
Publication of KR20100086616A publication Critical patent/KR20100086616A/ko

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S11/00Systems for determining distance or velocity not using reflection or reradiation
    • G01S11/14Systems for determining distance or velocity not using reflection or reradiation using ultrasonic, sonic, or infrasonic waves
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S5/00Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
    • G01S5/18Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
    • G01S5/22Position of source determined by co-ordinating a plurality of position lines defined by path-difference measurements

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Abstract

본 발명은 음원 위치 추적 장치에 관한 것으로, 복수의 수신기를 통해 입력된 두 음성신호를 시간축에서 주파수축으로 변환한 후 주파수축에서 두 음성신호 간의 교차 스펙트럼(cross power spectrum)을 계산하는 교차스펙트럼계산부와, 상기 교차스펙트럼계산부에서 구해진 교차 스펙트럼의 하모닉 성분에 대한 주파수를 선택하는 하모닉주파수선택부와, 상기 하모닉주파수선택부에 의해 선택된 하모닉들의 위상 성분을 미리 설정된 지연시간 구간별로 카운트하고, 가장 많은 수의 하모닉 위상들을 포함하는 특정 지연시간 구간을 선택하는 하모닉위상구간예측부, 및 상기 하모닉위상구간예측부를 통해 선택된 특정 지연시간 구간 내의 하모닉 성분을 이용하여 두 음성신호 간의 지연시간을 계산함에 따라 음원의 위치를 예측하는 지연시간계산부를 구비한다.
Figure P1020090005930
음원 위치 추적, 도래각, 교차 스펙트럼, 하모닉, 지연시간 구간

Description

음원 위치 추적 장치{DEVICE FOR LOCATING SPEECH SOURCE}
본 발명은 마이크로폰이나 안테나에 입사되는 음성신호의 음원 위치를 예측하는 음원 위치 추적 장치에 관한 것이다.
음원 위치 예측 기술은 2개 이상의 마이크로폰 어레이를 이용하여 음원의 공간적 정보를 예측한다. 음원 위치 예측 알고리즘은 일반적으로 입력신호의 시간차(TDOA; time difference of arrival)를 이용하는 방법이 가장 널리 이용되고 있다.
상기 입력신호의 시간차를 이용하는 방법은 마이크로폰 어레이에서 2개의 수신기에 대한 시간차를 예측하고, 이를 바탕으로 교차 시간차를 만족하는 공간적 위치를 구하는 방식이다. 이때, 두 수신기의 정확한 시간차이를 구하는 것이 중요한데, 일반적으로 교차 상관도(GCC; generalized cross correlation) 알고리즘을 이용한다.
교차 상관도(GCC) 알고리즘에 기초한 방법들은 잡음과 반향 환경에 강인한 예측성능을 위해 전치필터(pre-filter)를 추가적으로 이용하는데, 전치필터(pre-filter)를 디자인하는 방식에 따라 GCC-PHAT(phase transform) 방식과 GCC-ML(maximum likelihood) 방식 등으로 나눌 수 있다.
GCC-PHAT는 두 입력 교차 스펙트럼의 크기의 역수를 전치필터로 이용하는 방식이고, GCC-ML은 두 입력신호의 잡음 크기를 예측하여 최대 근사(maximum likelihood)를 예측하는 방식이다.
GCC-ML 방식은 이론적으로 이상적인 예측기임에도 불구하고 정확한 잡음의 크기를 예측하기 어려운 단점을 가지고 있다. 현재까지는 GCC-PHAT 방식이 가장 이상적인 성능을 내는 것으로 알려져 있으며, 가장 일반적으로 이용되고 있다.
하지만, GCC-PHAT를 이용하여 두 수신기 사이의 지연시간을 구하기 위해서는 예상되는 모든 시간차(
Figure 112009004655980-PAT00001
)에 대하여 GCC-PHAT 값을 계산하여 최대값을 찾아야 하므로, 실시간 시스템 등에서는 모든 수신기쌍에서 반복적으로 GCC-PHAT 값을 계산함에 따라 연산량이 과도해진다. 또한, GCC-PHAT는 교차 스펙트럼의 크기로 정규화를 시켜주기 때문에 반향 환경에서는 강인하지만 백색 잡음이 있는 환경에서는 음성신호가 존재하지 않는 주파수 대역에서 오히려 잡음이 증폭될 수 있으므로 보다 개선된 음원 위치 예측 기술이 요구된다.
본 발명은 지연시간 선예측(pre-estimation)을 하기 위해 음성의 하모닉 성 분을 선택적으로 이용함으로써, 백색 잡음에 취약한 GCC-PHAT의 단점을 보완할 수 있는 음원 위치 추적 장치를 제공하기 위한 것이다.
본 발명에서는 지연시간 선예측을 통해, 예상되는 지연시간의 구간을 줄임으로써, 반복적인 DFT(discrete Fourier transform) 연산을 획기적으로 줄일 수 있는 음원 위치 추적 장치를 제공하기 위한 것이다.
본 발명이 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 다른 기술적 과제들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
상기 목적을 달성하기 위한 본 발명의 기술적 수단은, 복수의 수신기를 통해 각각 입력된 제1 및 제2 입력신호를 시간축에서 주파수축으로 변환하고, 상기 주파수축에서 제1 및 제2 입력신호 간의 교차 스펙트럼(cross power spectrum)을 계산하는 교차스펙트럼계산부; 상기 교차스펙트럼계산부에서 구해진 교차 스펙트럼의 하모닉 성분에 대한 특정 주파수를 선택하는 하모닉주파수선택부; 상기 하모닉주파수선택부에 의해 선택된 하모닉들의 위상 성분을 미리 설정된 지연시간 구간별로 카운트하고, 가장 많은 수의 하모닉 위상들을 포함하는 특정 지연시간 구간을 선택하는 하모닉위상구간예측부; 및 상기 하모닉위상구간예측부를 통해 선택된 특정 지연시간 구간 내의 하모닉 성분을 이용하여 제1 및 제2 입력신호 간의 지연시간을 계산함에 따라 음원의 위치를 예측하는 지연시간계산부;를 포함하는 것을 특징으로 한다.
구체적으로, 상기 수신기는 마이크로폰 또는 안테나인 것을 특징으로 하고, 교차스펙트럼계산부는 주파수축에서 제2 입력신호를 콤플렉스 콘쥬게이트(complex conjugate)시킨 후 제1 및 제2 입력신호를 곱셈하여 두 입력신호 사이의 교차 스펙트럼을 계산하는 것을 특징으로 하며, 상기 하모닉주파수선택부는 교차 스펙트럼의 하모닉 성분들 중 크기(magnitude)가 주변 값보다 큰 하모닉 성분에 대한 주파수를 선택하는 것을 특징으로 한다.
또한, 상기 하모닉위상구간예측부는, 전체 지연시간 구간을 미리 설정된 등간격의 각도로 분할하는 지연구간분할부; 상기 지연구간분할부에 의해 분할된 각 지연시간 구간 내에 포함된 하모닉 위상 성분들의 개수를 구간별로 카운트하는 하모닉카운터; 및 상기 하모닉카운터의 결과에 따라 가장 많은 하모닉 위상들을 포함하는 특정 지연시간 구간을 도래각 선예측 구간으로 정하는 구간선택부;를 포함하는 것을 특징으로 한다.
상기 지연구간분할부는 전체 지연시간 구간을 일정 간격으로 분할할 때 서로 인접되는 구간끼리 중복되도록 분할하는 것을 특징으로 하며, 상기 하모닉카운터는 서로 인접된 구간 사이의 중복 구간에 위치한 음원은 양 구간에서 모두 카운트하는 것을 특징으로 한다.
상기 지연시간계산부는 제1 및 제2 입력신호 간의 지연시간을 GCC-PHAT (Generalized Cross Correlation-phase transform) 알고리즘을 이용하여 계산하는 것을 특징으로 한다.
이상에서 설명한 바와 같이 본 발명은 지연시간 선예측을 통해 예상되는 지연시간의 구간을 줄임으로써, 반복적인 DFT(discrete Fourier transform) 연산을 획기적으로 줄일 수 있다. 또는, 지연시간 선예측(pre-estimation)을 하기 위해 음성의 하모닉 성분을 선택적으로 이용함에 따라 백색 잡음에 취약한 GCC-PHAT의 단점을 보완할 수 있는 이점이 있다.
이하, 첨부된 도면을 참조하여 본 발명의 실시예에 대하여 보다 상세하게 설명하고자 한다.
도 1은 본 발명에 의한 음원 위치 추적 장치를 나타낸 회로 블록도로서, 음원 위치 추적 장치(100)는, 수신부(110)와 아날로그디지털변환부(120), 교차스펙트럼계산부(130), 하모닉주파수선택부(140), 하모닉위상구간예측부(150), 및 지연시간계산부(160)를 포함하여 이루어져 있다.
상기 수신부(110)는 외부로부터 송신된 음성신호를 수신하여 전기적인 신호로 변환하는 마이크로폰 또는 안테나와 같은 적어도 2개 이상의 수신기(111, 115)로 이루어져 있다. 여기에서 수신기들(111, 115)은 수신신호가 음파일 경우에는 마이크로폰이 될 수 있고, 전파의 경우에는 안테나가 될 수 있으며, 수중 음파의 경 우에는 하이드로폰 그리고 지진파의 경우에는 지오폰이 될 수 있다. 이러한 수신기들(111, 115)을 통해 수신한 신호를 이용하여 신호의 방향을 추정하는 알고리즘을 도래각(direction of arrival; DOA) 추정 알고리즘이라고 한다.
아울러, 상기 수신기 어레이(110)는 적어도 2개의 수신기(111, 115)가 한 쌍으로 이루어져 있고, 한 쌍의 수신기(111, 115) 간의 간격은 수신하려는 신호의 대략
Figure 112009004655980-PAT00002
(λ는 수신신호의 파장임)보다 작아야 한다. 한 쌍의 수신기(111, 115) 간의 간격이 반파장(
Figure 112009004655980-PAT00003
)보다 커질 경우 신호에 대한 앨리어싱(aliasing) 현상이 발생된다.
아날로그디지털변환부(120; ADC)는 복수의 수신기(111, 115)를 통해 각기 입력된 음성신호를 미리 설정된 샘플링 주파수를 이용하여 디지털신호로 각각 변환한다.
교차스펙트럼계산부(130)는 아날로그디지털변환부(120)로부터 입력된 두 개의 시간축 음성신호에 대하여 DFT(discrete Fourier transform)를 이용하여 주파수축으로 각각 변환한 후 변환된 2개의 주파수축 신호 중 제2 입력신호를 콤플렉스 콘쥬게이트(complex conjugate)시킨 후 제1 입력신호와 곱셈하여 두 신호 사이의 교차 스펙트럼(cross power spectrum; CPS)을 구한다.
일반적인 TDOA(time difference of arrival) 알고리즘의 기본적인 개념은 2개의 수신기(111, 115)로부터 입력된 각 음성신호에 대해 시간축 교차 상관도(cross correlation)를 지연시간에 따라 구하여 교차 상관도가 최대가 되는 지연 시간을 이용하여 도래각을 예측하는 것이다. 하지만 실제 연산에서는 교차 상관도의 해상도가 샘플링 주파수의 역수이므로 정확한 지연시간을 구하기 어렵다. 그러므로 일반적으로 주파수축에서 교차 스펙트럼을 이용하게 되는데, 이때 교차 상관도와 교차 스펙트럼은 푸리에 변환 관계에 있다. 시간축에서의 지연시간은 주파수축에서 교차 스펙트럼의 위상(phase) 성분이 되고, 이상적인 경우 일정한 지연시간에 대해 교차 스펙트럼은 선형적인 위상(linear phase)을 갖게 된다.
하모닉주파수선택부(140)는 교차스펙트럼계산부(130)에서 구해진 교차 스펙트럼의 하모닉 성분들 중 주변보다 큰 크기(magnitude)의 값(local peak)을 갖는 특정 주파수를 선택하도록 구성되어 있다. 음성신호의 하모닉 주파수를 구하는 방법은 여러 가지 방법이 있을 수 있으나, 잡음이 심한 상황에서 정확한 음성 하모닉 주파수를 찾기 위해서는 알고리즘이 복잡해 질 수 있으므로, 본 발명에서는 교차 스펙트럼의 최대 크기(magnitude local maxima)를 찾는 간단한 알고리즘을 이용한다. 이 방법은 음성의 하모닉 주파수에 에너지가 집중되는 특성을 이용하여 교차 스펙트럼의 하모닉 성분들의 크기가 주변 값보다 큰 특정 값(local peak)들을 선택한다.
하모닉위상구간예측부(150)는 미리 설정된 복수의 지연시간 구간 내에 포함된 하모닉 성분들을 구간별로 카운트하여 가장 많은 수의 하모닉 위상들을 포함하는 특정 지연시간 구간을 선택하도록 구성되어 있는 데, 하모닉위상구간예측부(150)는 세부적으로 지연구간분할부(151)와 하모닉카운터(153) 및 구간선택부(155)를 포함하여 이루어져 있다.
상기 지연구간분할부(151)는 전체 지연시간 구간을 미리 설정된 등간격의 각도(phase angle)로 분할하도록 이루어져 있다. 지연구간분할부(151)는 하모닉주파수선택부(140)에서 선택된 하모닉 성분들의 위상을 이용하여 도래각 선예측(pre-estimation)을 하기 위해서 -90°부터 +90°까지의 전체 각도(phase angle)를 몇 개의 각도구간으로 초기 분할한다. 예를 들어, 도 2a와 같이 -90°부터 +90°까지의 전체 각도구간을 45°씩 나누면 4개의 초기 각도구간(1구간, 2구간, 3구간, 4구간)이 생긴다. 한편, 지연시간의 경우 각도(phase angle)로 표현할 수 있으므로 본 발명에서는 지연시간과 각도를 혼용하여 표기하며, 이들은 동일한 의미를 갖는다. 아울러, 상기 지연시간과 각도가 같은 정보이려면 음파의 속도와 복수의 수신기(111, 115) 간의 간격은 미리 알고 있어야 하고, 또한 음원이 수신기 사이의 간격보다 충분히 멀리 떨어져 있어서 두 수신기로 들어오는 신호가 평행해야 한다.
하지만, 도 2a와 같은 각도구간에서는 각 부분의 각도구간의 경계(-45°, 0°, +45°)에 음원(음원1 내지 음원3)이 위치할 경우 음원이 위치한 각도구간을 선택하는데 문제가 있을 수 있다. 이러한 경우 경계에 위치한 음원들은 각도구간 선택시에 무시(discard)되도록 구현할 수도 있지만, 이를 방지하기 위해 도 2b와 같이 각 경계에서 각도구간이 중복되도록 하여 경계에 음원이 위치할 경우 양 구간에서 모두 카운트되도록 각도구간을 분할할 수도 있다.
예컨대, 도 2b에서는 전체 구간의 분할 각도를 30° 구간으로 15° 중복되도록 분할하였고, 전체 11개의 각도 구간 중 음원4의 경우에는 2구간과 3구간에 모두 속한 음원으로 취급한다.
도 2a 및 도 2b의 구간 분할은 실시예에 불과하며, 필요에 따라 각도구간을 더 좁게 설정하여 뒷단의 지연시간계산부(160)에서 발생할 GCC-PHAT 연산량을 더 감소시킬 수가 있다. 잡음이 적은 환경에서는 교차 스펙트럼의 위상이 비교적 정확하므로 각도구간을 더 좁게 설정하는 것이 가능하다.
그리고, 하모닉카운터(153)는 지연구간분할부(151)에 의해 분할된 각각의 구간 내에 포함된 하모닉 위상 성분들의 개수를 구간별로 카운트하고, 구간선택부(155)는 하모닉카운터(153)의 결과에 따라 가장 많은 하모닉 위상들을 포함하는 특정 구간을 도래각 선예측 구간으로 정한다.
즉, 하모닉카운터(153)는 선택된 하모닉 성분의 위상을 이용하여 미리 나누어진 각도구간별로 하모닉들의 위상 성분을 카운트하고, 상기 카운트 결과에 따라 구간선택부(155)는 가장 많은 하모닉 위상들을 포함하는 특정 각도구간을 도래각 선예측 구간으로 정하게 된다.
지연시간계산부(160)는 상기 하모닉위상구간예측부(150)를 통해 선택된 특정 지연시간 구간 내의 하모닉 성분을 이용하여 두 입력신호 간의 지연시간을 계산함에 따라 음원의 위치를 예측한다. 상기 두 입력신호 간의 지연시간은 GCC-PHAT(phase transform) 알고리즘을 이용하여 계산한다. 상기 GCC-PHAT(phase transform) 알고리즘의 경우 공지된 기술이며, 본 발명의 경우 선택된 특정 지연시간 구간에서 GCC-PHAT 연산을 수행하는 것에 특징이 있는 것이다.
이와 같이 구성된 음원 위치 추적 장치(100)의 동작 과정을 도 3의 플로우챠트를 이용하여 상세하게 살펴보면 아래와 같다.
먼저, 아날로그디지털변환부(120)는 마이크로폰이나 안테나와 같은 수신기 어레이로 이루어진 수신부(110)에서 한 쌍의 수신기(111, 115)를 통해 음성신호를 각각 입력받고, 입력된 각 음성신호를 미리 설정된 샘플링 주파수를 이용하여 디지털신호로 각각 변환하게 된다(S1).
이어, 교차스펙트럼계산부(130)는 아날로그디지털변환부(120)로부터 입력된 시간축의 제1 및 제2 입력신호에 대하여 DFT 변환을 통해 주파수축으로 각각 변환하게 된다. 이어 교차스펙트럼계산부(130)는 주파수축에서 제2 입력신호를 콤플렉스 콘쥬게이트시킨 후 제1 및 제2 입력신호를 곱셈하여 제1 및 제2 입력신호 사이의 교차 스펙트럼(cross power spectrum; CPS)을 계산하게 된다(S2).
하모닉주파수선택부(140)는 교차스펙트럼계산부(130)에서 구해진 교차 스펙트럼의 하모닉 성분들 중 크기(magnitude)가 주변 값보다 큰 하모닉 성분에 대한 주파수를 선택하게 된다(S3).
상기에서 음성신호의 하모닉 주파수를 선택하는 방법은 여러 가지가 있을 수 있으나, 잡음이 심한 상황에서 정확한 음성 하모닉 주파수를 찾기 위해서는 알고리즘이 다소 복잡해질 수 있으므로, 본 발명에서는 교차 스펙트럼의 최대 크기(magnitude local maxima)를 찾는 간단한 알고리즘을 이용한다.
여기서, 제1 수신기(111)를 통해 입력된 주파수축 제1 입력신호를
Figure 112009004655980-PAT00004
이라 하고, 제2 수신기(115)를 통해 입력된 주파수축 제2 입력신호를
Figure 112009004655980-PAT00005
라고 하면, 두 입력신호(
Figure 112009004655980-PAT00006
,
Figure 112009004655980-PAT00007
)의 교차 스펙트럼(
Figure 112009004655980-PAT00008
)은 아래 수학식 1과 같이 나타낼 수 있다.
Figure 112009004655980-PAT00009
여기서, 별표(*)는 허수부의 부호를 바꾸는 복소켤레(complex conjugate)를 의미한다.
제1 및 제2 입력신호(
Figure 112009004655980-PAT00010
,
Figure 112009004655980-PAT00011
)에 대한 교차 스펙트럼(
Figure 112009004655980-PAT00012
)은 상기 수학식 1과 같이 각각의 입력신호를 DFT 변환하고, 제2 입력신호(
Figure 112009004655980-PAT00013
)를 콤플렉스 콘쥬게이트(complex conjugate) 시킨 후 제1 입력신호(
Figure 112009004655980-PAT00014
)와 곱셈하면 된다. 이때 교차 스펙트럼(
Figure 112009004655980-PAT00015
)은 복소수의 값을 가지므로 아래 수학식 2와 같이 표현될 수 있다.
Figure 112009004655980-PAT00016
여기서, k는 0, 1, ..., K-1(K=DTF point)이고, A는 실수부이며, B는 허수부이다. 상기 수학식 2의
Figure 112009004655980-PAT00017
는 크기(magnitude)에 대한 값이고,
Figure 112009004655980-PAT00018
는 위상(phase)에 대한 값이다.
상기 수학식 2는 전체 K개의 주파수 빈(bean) 중 k번째 한 개의 주파수 빈에 대한 전개를 한 것인데, 나머지 빈들도 상기 수학식 2와 같이 전개되므로 마찬가지 이다. 이것을 전체 주파수 대역 k=0,1,...,K-1까지 나타낸 것이 도 4a 및 도 4b이다.
도 4a 및 도 4b는 복수의 수신기(111, 115)로부터 입력된 음성신호에 대한 교차 스펙트럼(CPS)의 크기(magnitude)와 위상(phase)을 각각 나타낸 것으로, 하모닉주파수선택부(140)에 의해 선택된 음성신호의 하모닉 성분들이 원으로 표시되어 있다. 이러한 주파수 대역에 음성신호가 집중되어 상대적으로 신호대잡음비(SNR)가 크다. 그러므로 선택된 하모닉 성분들의 위상 왜곡이 적어 이상적인 선형 위상에 포함되는 위상을 갖는 것을 볼 수 있다.
다시 말해서, 도 4a 및 도 4b는 하나의 교차 스펙트럼(복소수값)을 극 형식(polar form)으로 표현했을 때 크기(magnitude; 항상 양수, 음성신호의 에너지값으로 볼 수 있음)와 위상(phase; -π~π 범위, 최종적으로 구하려는 시간지연 정보(phase의 기울기))을 나눠서 각각 도시한 것이다.
따라서, 하모닉주파수선택부(140)는 도 4a와 같이 교차 스펙트럼의 하모닉 성분들 중 에너지(magnitude)가 주변보다 큰 값(local peak)을 갖는 주파수를 선택한다. 도 4b는 상기에서 선택된 주파수에서의 위상값들에 표시를 해놓은 것으로, 주변보다 선택된 주파수에서의 위상이 이상적인 위상(도 4b의 점선으로 표시됨)과 비슷하게 일치되는 것을 알 수 있다.
상기 이상적인 위상(ideal phase, 도 4b의 점선)은, 잡음이 없는 상태에서 두 개의 입력신호 사이에 지연(τ)을 제외한 나머지가 모두 같을 경우에 나타난다. 즉, 제1 수신기(111)로부터 입력되는 신호를
Figure 112009004655980-PAT00019
라고 하고, 제2 수신기(115)로부 터 입력되는 신호를
Figure 112009004655980-PAT00020
라고 하고, 이 두 입력신호에 DFT를 이용하여 푸리에 변환을 하면
Figure 112009004655980-PAT00021
Figure 112009004655980-PAT00022
가 각각 된다.
여기서, 상기 두 입력신호에 대한 교차 스펙트럼을 구하면 아래 수학식 3과 같이 된다.
Figure 112009004655980-PAT00023
여기서, k는 0, 1, ..., K-1(K=DTF point)이다.
따라서, 잡음이 없는 이상적인 상황에서는 교차 스펙트럼의 크기(magnitude;
Figure 112009004655980-PAT00024
=
Figure 112009004655980-PAT00025
)는 입력신호의 에너지가 되고, 위상(
Figure 112009004655980-PAT00026
)는 주파수축(ω)에서 기울기가 τ인 직선이 된다.
아울러, 상기 교차 스펙트럼에서 하모닉 성분들의 피크(peak)값의 위치는 양쪽 기울기의 부호가 반대이므로 미분을 이용해서 기울기의 부호가 바뀌는 점들을 찾으면 된다.
이어, 하모닉위상구간예측부(150)는 미리 설정된 지연시간 구간 내에 포함된 하모닉들의 위상 성분을 카운트하여 가장 많은 수의 하모닉 위상들을 포함하는 특정 지연시간 구간을 선택하게 된다(S4, S5).
즉, 먼저 하모닉위상구간예측부(150)의 지연구간분할부(151)는 선택된 하모 닉 성분들의 위상을 이용하여 도래각 선예측을 하기 위하여 -90°부터 +90°까지의 전체 각도를 몇 개의 지연시간(각도) 구간으로 초기 분할한다. 상기 지연시간을 분할하는 방식은 상술한 바와 같다. 아울러, -90°부터 +90°까지의 전체 각도구간에서 지연시간 구간을 작게 분할할수록 뒷단의 GCC-PHAT 연산량을 줄일 수 있어 유리하다.
이어, 하모닉카운터(153)는 하모닉주파수선택부(140)에서 선택된 하모닉 위상을 이용하여 상기 분할된 각 지연시간 구간에 포함된 하모닉 위상 성분들의 개수를 구간별로 각각 카운트하고(S4), 구간선택부(155)는 가장 많은 수의 하모닉 위상들을 포함하는 특정 지연시간 구간을 도래각 선예측 구간으로 선택한다(S5). 따라서, 뒷단의 지연시간계산부(160)는 구간선택부(155)에 의해 선택된 선예측 구간에서만 GCC-PHAT 알고리즘을 수행하면 된다.
도 5의 원으로 표시된 점들이 선택된 주파수 빈(bean)의 그룹 지연(group delay)을 나타낸다. 그룹 지연은 선형 위상의 기울기 성분으로서, 이 경우 일정 상수 값을 갖는다. 도 5에서 점선으로 표시된 사각 박스는 구간선택부(155)에 의해 선택된 특정 지연시간(τ)의 선예측된 구간을 나타낸다.
이어, 지연시간계산부(160)는 구간선택부(155)를 통해 선택된 지연시간 구간 내에서 아래 수학식 4 내지 수학식 6과 같은 GCC-PHAT(phase transform) 알고리즘을 이용하여 두 신호 간의 지연시간을 계산한다(S6).
상기 GCC-PHAT(phase transform) 알고리즘을 이용하여 두 신호 간의 지연시간을 구하는 과정을 간단하게 살펴보면, 먼저 지연시간계산부(160)는 상호 상관함 수(Generalized Cross-Correlation, GCC)를 이용하여 제1 수신기(111)와 제2 수신기(115) 간의 시간차(
Figure 112009004655980-PAT00027
) 또는 위상차(
Figure 112009004655980-PAT00028
)를 구한다. 제1 수신기(111)를 통해 입력된 주파수축 신호를
Figure 112009004655980-PAT00029
이라 하고, 제2 수신기(115)를 통해 입력된 주파수축 신호를
Figure 112009004655980-PAT00030
라고 하면, GCC-PHAT(phase transform) 값은 아래 수학식 4에 의해 구해질 수 있다.
Figure 112009004655980-PAT00031
여기서,
Figure 112009004655980-PAT00032
는 DFT(discrete Fourier transform)의 길이를 의미한다.
상기 수학식 4는 두 입력신호의 교차 스펙트럼(cross power spectrum;
Figure 112009004655980-PAT00033
)을 자신의 크기로 정규화시켜 주는 PHAT 이득을 포함하고 있다.
그리고, 상호 상관함수(GCC)가 최대값을 갖는 지연시간 값을 아래 수학식 5에 의해 찾는다.
Figure 112009004655980-PAT00034
상기 수학식 5에 의해 구해진 시간차(
Figure 112009004655980-PAT00035
)로부터 신호가 발생된 위치로부터의 거리차(
Figure 112009004655980-PAT00036
)를 구한다.
제1 및 제2 수신기(111, 115)로부터 거리차(
Figure 112009004655980-PAT00037
)가 일정한 곳의 위치가 음원 이 발생된 위치이며, 이것은 제1 및 제2 수신기(111, 115)의 위치를 초점으로 하는 쌍곡선의 형태로 표현이 된다. 제1 및 제2 수신기(111, 115)의 위치를 각각 (c,0) (-c,0)으로 가정하면, 이때의 쌍곡선의 방정식은 아래 수학식 6과 같이 표현될 수 있다.
Figure 112009004655980-PAT00038
여기서,
Figure 112009004655980-PAT00039
이 된다.
다른 수신기 쌍에 대해서 위의 과정을 반복한 후 교차점을 구하면, 음원의 위치를 파악할 수 있다.
상기와 같은 GCC-PHAT 알고리즘에서 상기 수학식 5를 이용하여 두 수신기(111, 115) 간의 지연시간을 구하기 위해서는 예상되는 모든 시간차(
Figure 112009004655980-PAT00040
)에 대하여 수학식 4를 계산하여 최대값을 찾아야 한다. 예를 들어, x축 선상에 위치한 두 수신기(111, 115) 사이의 입력신호 도달시간의 차이를 1°의 해상도로 구하기 위해서는 -90°(-x축 방향)부터 +90°(+x축 방향)까지 181개의 각도에 대한 수학식 4를 계산해야 한다. 실시간 시스템 등에서는 모든 수신기 쌍에서 반복적으로 수학식 4를 계산해야 하므로 과도한 연산량이 문제가 된다. 그러므로 본 발명에서는 지연시간 선예측을 통해 예상되는 지연시간의 구간을 줄여줌으로써 반복적인 수학식 4의 연산을 획기적으로 줄일 수 있다. 예를 들어, 제안된 선예측 알고리즘을 통해 음원의 위치가 +45° 방향의 근방에 있다고 판단하면, 이 방향의 주변 각도에 대한 수 학식 4의 계산만을 통해 음원의 위치를 예측할 수 있다.
또한, 수학식 4의 GCC-PHAT는 음원을 교차 스펙트럼의 크기로 정규화를 시켜주기 때문에 반향 환경에서는 강인하지만 백색 잡음이 있는 환경에서는 음성신호가 존재하지 않는 주파수 대역에서 오히려 잡음이 증폭되는 문제가 있다. 본 발명에서는 지연시간 선예측을 하기 위해 음성의 하모닉 성분을 선택적으로 이용하는데, 이 과정을 통해 음성신호가 많이 포함된 주파수축만을 선택적으로 이용하여 상대적으로 신호대잡음비(SNR)를 높여 백색 잡음에 취약한 GCC-PHAT의 단점을 보완할 수가 있다.
도 6은 선택된 주파수 빈(bean)의 위상 정확도를 나타낸 그래프로서, 이 정확도는 전체 주파수 빈들 중 실제 음원이 위치하는 각도의 선예측 구간 내에 위상이 포함되는 주파수 빈들의 비율이다.
전체 주파수 빈들에 대한 위상의 정확도(하단 곡선)와 하모닉 주파수 빈들의 위상 정확도(상단 곡선)를 비교해 보면, 본 발명에서 제안한 하모닉 선택 알고리즘을 통해 선예측 구간 내에 들어오는 하모닉 성분들의 지연시간 정보가 SNR 0dB에서 대략 2.7배(25%→68%) 정도가 향상되는 결과를 보여준다. 이 결과는 본 발명에 의한 하모닉 주파수를 선택하는 알고리즘을 통해 좀 더 정확한 위상을 갖는 주파수 빈을 선택적으로 이용함으로써, GCC-PHAT 연산 성능 자체를 높일 수 있음을 의미한다.
또한, 선예측 구간 내에서만 수학식 4를 연산하여 최대 지연시간 값을 구하면 되므로 연산량 측면에서 획기적인 이득이 있다. 마지막으로 선택된 하모닉 성분 들은 상대적으로 신호대잡음비가 높으므로 GCC-PHAT에서 음성이 존재하지 않는 주파수 대역에서 잡음이 증폭되는 문제가 생기지 않는다.
이와 같은 음성 위치 추적 장치는, 핸즈프리를 이용하여 통화할 경우 움직이고 있는 화자의 위치를 추적하여 화자 방향의 음질을 개선, 즉 빔 포밍 기술에 이용될 수 있다. 또한, 화상회의 시스템에서 말하는 사람을 따라 카메라가 자동으로 움직이도록 하는 화자 추적 기술이나 음성을 이용한 로봇과의 통신에서 자연스러운 인터페이스를 제공하는 등 다양한 응용기술에 적용될 수 있다.
상기의 본 발명의 바람직한 실시예는 예시의 목적을 위해 개시된 것이고, 본 발명에 대한 통상의 지식을 가진 당업자라면 본 발명의 기술적 사상 내에서 다양한 수정, 변경 및 부가가 가능할 것이다. 그러므로, 이러한 수정, 변경 및 부가는 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.
도 1은 본 발명에 의한 음원 위치 추적 장치를 나타낸 회로 블록도이다.
도 2a 및 도 2b는 본 발명에 의한 지연시간 구간 분할 방법을 각각 나타낸 도면이다.
도 3은 본 발명에 의한 음원 위치 추적 장치의 제반 동작 과정을 나타낸 플로우챠트이다.
도 4a 및 도 4b는 본 발명에 의한 교차 스펙트럼의 하모닉 성분들의 크기 및 위상과 관련된 파형도이다.
도 5는 본 발명에 의한 교차 스펙트럼의 지연시간 구간 선택을 나타낸 파형도이다.
도 6은 본 발명에 의해 선택된 주파수 빈(bean)의 위상 정확도를 나타낸 그래프이다.
* 도면의 주요 부분에 대한 부호의 설명
100: 음원 위치 추적 장치 110: 수신부
111: 제1 수신기 115: 제2 수신기
120: 아날로그디지털변환부 130: 교차스펙트럼계산부
140: 하모닉주파수선택부 150: 하모닉위상구간예측부
151: 지연구간분할부 153: 하모닉카운터
155: 구간선택부 160: 지연시간계산부

Claims (9)

  1. 복수의 수신기를 통해 각각 입력된 제1 및 제2 입력신호를 시간축에서 주파수축으로 변환하고, 상기 주파수축에서 제1 및 제2 입력신호 간의 교차 스펙트럼(cross power spectrum)을 계산하는 교차스펙트럼계산부;
    상기 교차스펙트럼계산부에서 구해진 교차 스펙트럼의 하모닉 성분에 대한 특정 주파수를 선택하는 하모닉주파수선택부;
    상기 하모닉주파수선택부에 의해 선택된 하모닉들의 위상 성분을 미리 설정된 지연시간 구간별로 카운트하고, 가장 많은 수의 하모닉 위상들을 포함하는 특정 지연시간 구간을 선택하는 하모닉위상구간예측부; 및
    상기 하모닉위상구간예측부를 통해 선택된 특정 지연시간 구간 내의 하모닉 성분을 이용하여 제1 및 제2 입력신호 간의 지연시간을 계산함에 따라 음원의 위치를 예측하는 지연시간계산부;를 포함하는 음원 위치 추적 장치.
  2. 제 1 항에 있어서,
    상기 교차스펙트럼계산부는 주파수축에서 제2 입력신호를 콤플렉스 콘쥬게이트(complex conjugate)시킨 후 제1 및 제2 입력신호를 곱셈하여 두 입력신호 사이의 교차 스펙트럼을 계산하는 것을 특징으로 하는 음원 위치 추적 장치.
  3. 제 1 항 또는 제 2 항에 있어서,
    상기 하모닉주파수선택부는 교차 스펙트럼의 하모닉 성분들 중 크기(magnitude)가 주변 값보다 큰 하모닉 성분에 대한 주파수를 선택하는 것을 특징으로 하는 음원 위치 추적 장치.
  4. 제 1 항 또는 제 2 항에 있어서,
    상기 하모닉위상구간예측부는, 전체 지연시간 구간을 미리 설정된 등간격의 각도로 분할하는 지연구간분할부; 상기 지연구간분할부에 의해 분할된 각 지연시간 구간 내에 포함된 하모닉 위상 성분들의 개수를 구간별로 카운트하는 하모닉카운터; 및 상기 하모닉카운터의 결과에 따라 가장 많은 하모닉 위상들을 포함하는 특정 지연시간 구간을 도래각 선예측 구간으로 정하는 구간선택부;를 포함하는 것을 특징으로 하는 음원 위치 추적 장치.
  5. 제 4 항에 있어서,
    상기 지연구간분할부는 전체 지연시간 구간을 일정 간격으로 분할할 때 서로 인접되는 구간끼리 중복되도록 분할하는 것을 특징으로 하는 음원 위치 추적 장치.
  6. 제 5 항에 있어서,
    상기 하모닉카운터는 서로 인접된 구간 사이의 중복 구간에 위치한 음원은 양 구간에서 모두 카운트하는 것을 특징으로 하는 음원 위치 추적 장치.
  7. 제 1 항 또는 제 2 항에 있어서,
    상기 수신기는 마이크로폰 또는 안테나인 것을 특징으로 하는 음원 위치 추적 장치.
  8. 제 1 항 또는 제 2 항에 있어서,
    상기 지연시간계산부는 제1 및 제2 입력신호 간의 지연시간을 GCC-PHAT (Generalized Cross Correlation-phase transform) 알고리즘을 이용하여 계산하는 것을 특징으로 하는 음원 위치 추적 장치.
  9. 제 1 항 또는 제 2 항에 있어서,
    상기 제1 및 제2 입력신호 간의 교차 스펙트럼(
    Figure 112009004655980-PAT00041
    )은 아래 수학식 1에 의 해 구해지며, 아래 수학식 1의
    Figure 112009004655980-PAT00042
    는 교차 스펙트럼의 크기(magnitude)에 대한 값이고,
    Figure 112009004655980-PAT00043
    는 교차 스펙트럼의 위상(phase)에 대한 값인 것을 특징으로 하는 음원 위치 추적 장치.
    수학식 1
    Figure 112009004655980-PAT00044
    단,
    Figure 112009004655980-PAT00045
    는 제1 입력신호에 대한 주파수축 신호이고,
    Figure 112009004655980-PAT00046
    는 제2 입력신호에 대한 주파수축 신호이고, k는 0, 1, ..., K-1(K=DTF point)이고, A는 실수부이고, B는 허수부이며, 별표(*)는 허수부의 부호를 바꾸는 복소켤레(complex conjugate)임.
KR1020090005930A 2009-01-23 2009-01-23 음원 위치 추적 장치 KR20100086616A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020090005930A KR20100086616A (ko) 2009-01-23 2009-01-23 음원 위치 추적 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020090005930A KR20100086616A (ko) 2009-01-23 2009-01-23 음원 위치 추적 장치

Publications (1)

Publication Number Publication Date
KR20100086616A true KR20100086616A (ko) 2010-08-02

Family

ID=42753631

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020090005930A KR20100086616A (ko) 2009-01-23 2009-01-23 음원 위치 추적 장치

Country Status (1)

Country Link
KR (1) KR20100086616A (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140040812A (ko) * 2011-07-14 2014-04-03 마이크로소프트 코포레이션 위상 스펙트럼을 사용한 음원 위치 측정 기법
KR101483513B1 (ko) * 2013-02-28 2015-01-19 재단법인 포항산업과학연구원 음원위치추적장치 및 음원위치추적방법

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140040812A (ko) * 2011-07-14 2014-04-03 마이크로소프트 코포레이션 위상 스펙트럼을 사용한 음원 위치 측정 기법
KR101483513B1 (ko) * 2013-02-28 2015-01-19 재단법인 포항산업과학연구원 음원위치추적장치 및 음원위치추적방법

Similar Documents

Publication Publication Date Title
US8577055B2 (en) Sound source signal filtering apparatus based on calculated distance between microphone and sound source
KR100855132B1 (ko) 상이한 동작 특성을 갖는 센서의 어레이로부터 공급된 채널 신호를 처리하는 신호 처리 시스템 및 방법, 어레이 신호 처리 시스템, 및 교정 시스템
KR101449433B1 (ko) 마이크로폰을 통해 입력된 사운드 신호로부터 잡음을제거하는 방법 및 장치
CA2407855C (en) Interference suppression techniques
US5874916A (en) Frequency selective TDOA/FDOA cross-correlation
KR100779409B1 (ko) 향상된 신호 위치 측정 장치
US9548806B2 (en) Radio measurement method and radio measurement apparatus using multi-antenna channel multiplex
JPH09512676A (ja) 適応性ビーム形成方法及び装置
US20030097257A1 (en) Sound signal process method, sound signal processing apparatus and speech recognizer
JP2002511591A (ja) センサアレイを用いての電波源の方向決定
WO2014007911A1 (en) Audio signal processing device calibration
US20100111325A1 (en) Device for processing sound signal, and method of processing sound signal
JP2011244232A (ja) マイクロホンアレイ装置及び前記マイクロホンアレイ装置が実行するプログラム
JP2007336232A (ja) 特定方向収音装置、特定方向収音プログラム、記録媒体
CN114578289B (zh) 一种高分辨率谱估计声阵列成像方法
KR20100086616A (ko) 음원 위치 추적 장치
KR20030046727A (ko) 서브밴드 씨피에스피 알고리듬을 이용한 음원위치추정방법및 그 시스템
JP3862685B2 (ja) 音源方向推定装置、信号の時間遅延推定装置及びコンピュータプログラム
JP2017227480A (ja) 音波監視装置および航走体
Ballal et al. Doa estimation for a multi-frequency signal using widely-spaced sensors
Ashtekar et al. Study of generalized cross correlation techniques for direction finding of wideband signals
JP5713933B2 (ja) 音源距離測定装置、音響直間比推定装置、雑音除去装置、それらの方法、及びプログラム
RU2321014C2 (ru) Способ пеленгования радиосигналов и многоканальный пеленгатор
Nguyen et al. Correlation bias analysis-A novel method of sinus cardinal model for least squares estimation in cross-correlation
Srinath et al. Direction of arrival estimation for narrowband and wideband underwater targets

Legal Events

Date Code Title Description
WITN Withdrawal due to no request for examination