KR102005590B1

KR102005590B1 - 위상 스펙트럼을 사용한 음원 위치 측정 기법

Info

Publication number: KR102005590B1
Application number: KR1020147000965A
Authority: KR
Inventors: 샨카르 리구나탄; 가즈히토 고이시다; 하샤바다나 나라야나 키케리
Original assignee: 마이크로소프트 테크놀로지 라이센싱, 엘엘씨
Priority date: 2011-07-14
Filing date: 2012-07-10
Publication date: 2019-10-08
Also published as: WO2013009722A3; CN103688187B; EP2732301A2; JP2014525037A; EP2732301B1; US9435873B2; US20130016852A1; KR20140040812A; US9817100B2; JP6203714B2; WO2013009722A2; US20170052245A1; CN103688187A; EP2732301A4

Abstract

이동 로봇에 배치된 마이크 어레이는 복수의 채널의 오디오 신호를 제공한다. 수신된 오디오 신호 셋을 오디오 세그먼트라고 하고, 이는 복수의 프레임들로 나뉘어진다. 각각의 마이크 쌍으로부터의 신호 프레임에 대해 위상 분석이 실행된다. 프레임 동안 양쪽 마이크들이 활성 상태이면, 이런 마이크 쌍 각각에 대해 후보 각도가 생성된다. 그 결과는 프레임에 대한 후보 각도 목록이 된다. 이 목록은 프레임에 대한 최종 후보 각도를 선택하도록 처리된다. 후보 각도 목록은 시간에 따라 추적되어 그 오디오 세그먼트에 대한 최종 후보 각도를 선택하는 프로세스를 돕는다.

Description

위상 스펙트럼을 사용한 음원 위치 측정 기법{SOUND SOURCE LOCALIZATION USING PHASE SPECTRUM}

몇몇 애플리케이션에서는 음원에서 생성된 음향 에너지를 포착하는 마이크를 사용하여 음원의 위치를 결정하는 것이 도움이 된다.

이런 위치를 결정하는 하나의 방법은 최대 에너지 영역에 대한 공간을 찾는 것이다. 이와 같은 접근 방법은 통상적으로 잡음과 잔향(reverberation)과 같은 간섭에 강건하지(robust) 않다.

이런 위치를 결정하는 또 다른 방법은 각기 다른 마이크들에서의 도착 시간의 차이를 결정하는 것이다. 음원의 음파는 각기 다른 위치의 다른 센서들에서 각기 다른 시기에 도착할 것이다. 이런 차이를 측정하는 공통적인 접근 방법은 상호 상관 함수(cross correlation function)의 피크(peak)를 찾음으로써 한 쌍의 마이크에서 수신하는 신호들의 위상 차이를 측정하는 것을 포함한다. 이와 같은 접근 방법은 잡음과 잔향과 같은 간섭에 강건하지 않다.

본 요약은 이하의 상세한 설명에 상세히 기술되는 개념들의 선택을 간략한 형태로 소개하기 위한 것이다. 본 요약은 특허청구된 대상의 주요 특징이나 필수적인 특징을 확인하기 위한 것이 아니며, 특허청구된 대상의 범위를 한정하는 데 사용되도록 의도된 것도 아니다.

이동 로봇(mobile robot)에 배치된 마이크 어레이는 복수의 채널의 오디오 신호를 제공한다. 수신된 오디오 신호 셋을 오디오 세그먼트라고 하고, 이는 복수의 프레임들로 나뉘어진다. 각각의 마이크 쌍으로부터의 신호 프레임에 대해 위상 분석이 실행된다. 프레임 동안 양쪽 마이크들이 활성 상태이면, 이런 마이크 쌍 각각에 대해 후보 각도가 생성된다. 그 결과는 프레임에 대한 후보 각도 목록이 된다. 이 목록은 프레임에 대한 최종 후보 각도를 선택하도록 처리된다. 후보 각도 목록은 시간에 따라 추적되어 그 오디오 세그먼트에 대한 최종 후보 각도를 선택하는 프로세스를 돕는다.

추적된 각도에 대해, 이동 로봇에서 다양한 작업들을 실행할 수 있다. 예를 들어, 이동 로봇은 음향의 감지된 위치에 기반해 움직일 수 있다. 로봇은 예컨대, 인간 화자(speaker)를 마주보고 움직임으로써, 화자에 응답할 수 있다. 이러한 로봇의 위치 변경은 마이크 어레이로부터 더 좋은 오디오 신호를 얻도록 도울 수 있고, 이는 다른 오디오 처리 작업을 개선할 수 있다. 이런 위치 정보는 사람 얼굴에 대한 좋은 위치 단서를 제공할 수 있으므로, 안면 추적 프로세서에 입력될 수도 있다.

따라서, 일 양태에서, 복수의 마이크 쌍들로부터의 신호가 메모리로 수신된다. 마이크로들부터의 신호는, 그 신호가 활성 상태일 때를 식별하고 신호에 대한 주파수 스펙트럼 데이터를 계산하도록 처리된다. 각각의 활성 신호 쌍에서, 주파수 스펙트럼 데이터를 사용하여 그 쌍에 대한 후보 각도가 결정된다. 복수의 마이크 쌍들에 대한 후보 각도들 중에서 어느 한 각도가 선택된다. 일 실시예에서, 각각의 신호는 복수의 프레임들로써 저장되고, 프레임 단위로(per frame basis) 처리된다.

다수의 프레임에 걸쳐 후보 각도들의 히스토리(history)가 저장되고, 이 히스토리는 현재 프레임으로부터의 후보 각도로 업데이트된다. 예를 들어, 히스토리로부터 선택된 각도는 모든 항목들(entries)의 최소 위상 왜곡보다 작거나 같은 위상 왜곡을 갖는 것일 수 있다. 히스토리로부터 선택된 각도는 프레임에 대해 최상위(highest ranked) 후보 각도와 유사한 각도를 갖는 것일 수 있다. 히스토리로부터 선택된 각도는 히스토리의 각도의 최대 존재(presence) 점수보다 크거나 같은 존재 점수를 갖는 것일 수 있다.

다음의 설명에서, 본원의 일부를 구성하며, 또한 본 기술의 구체적인 구현예들이 예로써 도시된 첨부 도면을 참조한다. 다른 실시예들이 이용될 수 있으며 본 개시의 범위를 벗어나지 않고 구조적인 변경이 이루어질 수 있음을 이해할 것이다.

도 1은 이동 로봇 상의 음원 위치 측정의 애플리케이션의 개략도이다.
도 2는 두 개의 마이크로부터 음파각(angle of a sound wave)이 어떻게 계산되는지를 도시하는 개략도이다.
도 3은 음원 위치 측정의 구현예를 도시하는 데이터 순서도이다.
도 4는 도 3의 부분들의 보다 상세한 데이터 순서도이다.
도 5는 각도 추적(tracking) 목록에 관한 예시적인 데이터 구조도이다.
도 6은 음원 위치 측정의 구현예를 설명하는 순서도이다.
도 7은 이와 같은 시스템이 구현될 수 있는 예시적인 컴퓨팅 장치의 블록도이다.

다음 섹션에서는 음원 위치 측정이 구현될 수 있는 예시적인 운영 환경을 제공한다.

도 1을 참조하면, 이동 로봇(100)은 마이크 어레이(102)를 포함한다.

도 1은 이동 로봇으로 지정되었지만, 마이크들 간의 알려진 공간 관계를 유지하기 위해서 마이크 어레이(102)를 지원할 수 있는 임의의 객체가 사용될 수 있다. 이동 로봇의 음원 위치 측정의 사용은 본 기술이 사용될 수 있는 예시적인 애플리케이션에 불과하다. 이동 객체 대신 한 개 이상의 고정된 객체에 의해 마이크 어레이가 지원될 수 있다. 한편, 로봇과 같은 이동 객체는 음원의 결정된 위치에 대응하여 이동할 수 있다.

도 1은 여섯 개의 마이크를 도시하며, 마이크의 개수와 구성은 도 1의 구성에 제한되지 않는다. 어레이에서 각각의 마이크 쌍 사이에 알려진 공간 관계가 있고, 어레이가 복수 개의 마이크 쌍을 포함한다면, 임의의 마이크 구성과 개수가 사용될 수 있다. 본 발명은 사용되는 마이크의 종류에 의해 제한되지 않는다. 복수의 마이크로부터의 신호들의 정규화(normalization)를 피하기 위해, 각각의 마이크 쌍의 양쪽 마이크들은 같은 유형이 된다.

한 애플리케이션에서, 음원은 인간 화자(104)이다. 인간 화자는 말할 때 소리(106)를 낸다. 다른 음원들도 탐지될수 있지만, 이 애플리케이션에서 로봇은 인간 화자와 인터랙션하도록 설계되고, 인간 화자의 위치 결정은 이런 인터랙션의 보조로써 사용될 수 있다.

이런 상황에서, 음원 위치 측정의 구현예가 지금부터 도 2-5와 관련하여 보다 상세하게 설명될 것이다.

도 2에서, 음원(200)의 위치가 어떻게 결정되는지가 이제 설명될 것이다. 음원(200)은 음파(202)를 발생시킨다. 음파는 알려진 속도(예컨대, 통상의 환경에서 초당 340 미터)로 간다. 202a, 202b 및 202c에서 표시된 대로, 소리는 다른 시기에 마이크들(204a 및 204b)에 이동, 및 도착한다. 마이크들(204a 및 204b)은 채널 쌍(본원에서 "<c_a, c_b>"라고 표시됨)의 일례이다. 채널 쌍 <c_a, c_b>이 주어졌을 때, 원점(218)을 통과하는 기준선(210)과 두 마이크를 통과하는 선(212) 간의 각도를 나타내는 절대각(global angle)φ_< _Ca _, _Cb _>이 있게 된다. 기준선(210)과 원점(218)은 마이크 어레이의 모든 채널 쌍에 대해 동일하다. 214에 도시된 대로, 채널 쌍 거리 |d_<Ca, _Cb _>|는 두 마이크들 간의 기하학적 거리를 나타낸다. 음원 위치 측정은 음파원(sound wave source)과 원점(218)을 통과하는 선과 기준선(210)에 수직인 선 간의 각도(216)(θ'_< _Ca _, _Cb _>)의 계산을 포함한다. 이 각도를 어떻게 얻는지는 아래에서 보다 상세하게 설명된다.

이제 도 3을 참조하여, 음원 위치 측정의 구현예를 도시하는 데이터 순서도가 지금부터 설명될 것이다. 이런 구현에서는 마이크 어레이(도시되지 않음)로부터 입력 오디오 신호(300)를 수신한다. 각각의 마이크는, 초당 S 샘플의 샘플링율로 샘플링되는 K-비트 디지털 오디오 신호와 같은 오디오 신호를 제공한다. K에 적절한 값은 16이며, S에 적절한 값은 16 kHz이다. 따라서, 8 개의 마이크의 마이크 어레이는 8 개의 채널 입력 오디오 신호를 제공한다. 입력 오디오 신호는 프레임 단위로 처리되며, 여기서 프레임은 128 개의 샘플을 포함한다. i-번째 프레임에서 c-번째 채널의 입력 오디오 신호는 x_c _,i(n)으로 표현되며, 여기서 n = 0, 1, … N - 1 (N = 128), c = 0, 1, … C - 1 (C = 8)이다. 입력 신호들 x_c _,i(n)이 처리되어 i-번째 프레임에 대한 음향 도착 각도 θ_i를 생성한다.

전처리 장치(preprocessor)(302)는 입력 오디오 신호들(300)을 수신하고 이 신호들에 각종 작업을 수행하여 분석을 위한 준비를 한다.

이런 전처리는 DC 제거 필터를 포함할 수 있다. 이 DC 제거 필터는 그 다음의 처리를 위해 아주 낮은 주파수에서 바람직하지 않는 컴포넌트를 억제하기 위해 사용된다. 이와 같은 필터의 구현예가 FIR(first-order finite impulse response) 필터이며, 입력 신호는 각 채널 별로 처리된다. 필터의 출력은

로 계산되며, 여기서 n = 0, 1, …, N-l, c = 0, 1, …, C-1이며, x_c _,i(-1)은 이전 프레임에서의 마지막 샘플이고, 즉, x_c _,i(-1) = x_c _,i-1(N - 1)이다.

전처리의 또 다른 예는 해밍 윈도우(Hamming window)를 적용하는 것이다. 해밍 윈도우 h(n)은 이전 및 현재의 두 프레임에 걸쳐 곱해지고, C-채널 윈도윙된(windowed) 신호가 생성된다:

여기서

윈도윙된 신호, x^" _c,i(n)은 2N 개의 샘플을 포함한다.

해밍 윈도우를 적용함으로써, 이웃 스펙트럼 요소들의 분리성(separability)이 향상되어, 아래에서 설명되는 위상 분석이 더 잘 실행될 수 있다.

그 다음으로 전처리 단계의 출력(304), 본 예시에서는 해밍 윈도우의 출력이 FFT(fast Fourier transform) 프로세서(306)로 입력된다. 본 구현예에서, FFT 프로세서의 출력은 주파수 영역 데이터(frequency domain data)(308)이다. 예를 들어, 크기 2N을 갖는 FFT가 x^" _c,i(n)에 적용되어, 각각의 채널에 대해 주파수 스펙트럼의 복소수 값 X_c _,i(k)를 얻을 수 있다. 거울 이미지 특성(mirror image property)으로 인해, X_c _,i(k)는, 0, 8000/K, …, 8000Hz에 대응하는 주파수 빈(bin) k = 0, 1, …, K(= N/2)의 범위에서 고유값을 갖게 되어, 이 범위 내의 스펙트럼이 다음 작업에서 처리된다.

주파수 영역 데이터(308)는 후처리 모듈(post processing module)(310)로 표시된 바와 같이, 음성 인식과 같은 다양한 애플리케이션을 위한 추가적인 후처리를 받을 수 있다. 본 발명은 이런 후처리에 의해 제한되지 않고, 또한 이런 후처리가 요구되지도 않는다.

마지막으로, 본 구현예에서, 주파수 영역 데이터(308)와 입력 신호들(300)은, 이하에서 보다 상세하게 설명되는 음원 위치 측정기(sound source localizer)(312)에 입력되어, 각각의 프레임 i에 대해, i-번째 프레임에 대한 음향 도착 각도 θ_i를 생성한다.

이제 도 4를 참조하여, 도 3의 음원 위치 측정기(312)의 구현예가 지금부터 보다 상세하게 설명될 것이다.

입력 오디오 신호들(400)이 오디오 신호가 특정 프레임에서 활성 상태인지를(active) 나타내는 데이터를 출력하는 활성 검출기(activity detector)(402)로 입력된다. 활성 검출기의 구현예는 다음과 같다:

i-번째 프레임에서 c-번째 채널의 로그 에너지(log energy)는

에 의해 계산되며, 여기서 x_c _,i(n)은 상응하는 PCM 입력이다. 처음 몇 개의 프레임에서, E_c _,i가 축적되고, 그 평균이 잡음 플로어(noise floor)

를 설정하는 데 사용된다. 각각의 채널의 잡음 플로어는 과거 수초 동안의 좋은 후보와 주기적으로 교체된다. 이런 초기 단계 이후에, 채널 활성을 결정하기 위해 각-채널 단위(per-channel basis)로 다음의 조건이 테스트된다.

즉, 본 구현에서, 활성 검출기(402)는 i-번째 프레임에서 c-번째 채널의 로그 에너지가 오프셋이 더해진 채널의 잡음 플로어보다 더 큰지를 결정한다. 이 조건이 참이면, 채널 상태는 "활성"으로 설정되고, 그 외에는 채널 상태는 "정지(pause)"로 설정된다. 다음으로, 프레임 상태는 채널 상태들의 결합에 의해 구해진다. 몇 개의 채널이, 예를 들어, 적어도 세 개가 "활성"으로 검출되면 프레임 상태가 "활성"으로 설정되고, 그 외에는 프레임 상태는 "정지"로 설정된다.

활성 검출기(402)가, 404에서 결정된 바대로, "정지" 프레임 상태를 설정하면, 음향 위치 측정기가 제 1 각도 추적기 업데이터(angle tracker updater)(414)(이하에서 설명됨)를 사용하여, 그 프레임에 대해 각도가 "검출되지 않음(undetected)"을 반환한다.

활성 검출기(402)가, 404에서 결정된 바대로, "활성" 프레임 상태를 설정하면, 위상 분석기(406)가 다수의 채널에 대해 주파수 영역 데이터(예컨대, 도 3의 308)를 처리하여, 후보 각도 목록을 생성한다. 위상 분석기는 양쪽 채널 모두에서 활성 상태인 사전 정의된 채널 쌍을 가지고 실행된다. 예를 들어, 채널 쌍 c_a 및 c_b의 상호 파워 스펙트럼(cross power spectrum)은

으로 계산되며, *는 복소 공액(complex conjugate)이며, 그 위상 스펙트럼은

으로 정해진다.

채널 c_a 및 c_b 간의 최상 샘플 지연(best sample lag)은 이론 값에 대한 최소 위상 왜곡(phase distortion)을 위해 지연 범위를 탐색함으로써 추정된다:

앞에서, 두 채널의 지연 범위 L_< _ca _, _cb _>는

에 의해 얻어지며, 여기서

는 상한 연산(ceiling operation)이며, 도 2와 관련하여 앞서 언급한 바와 같이, |d_< _Ca _, _Cb _>|는 두 마이크 채널들 간의 기하학적 거리이며, N_S는 샘플링율, 예컨대, 16 kHz이고, SS는 음향의 속도(예컨대, 초당 340 미터)이다. 위상 펼침(phase unwrapping)이 적용되어, 상기의 식에서 위상 왜곡을 계산한다.

(도 2에 도시된 두 마이크들 사이의 가상선에 대해) 거울-이미징된 두 각도들이 τ_< _Ca _, _Cb _>로부터 얻어지고, 이는 다음과 같다:

. 및

이들 각도는 채널 쌍 <c_a, c_b>의 위치에 대해 상대적이므로, 이들은 채널 쌍의 절대각 φ _< _Ca _, _Cb _> 로 보상된다.

사전 정의된 채널 쌍들에 대해 상기의 위상 분석 절차를 반복하여, 추정 각도와 그 위상 왜곡을 포함한 초기 후보 목록을 얻는다. 따라서, 위상 분석 모듈(406)의 출력은 후보 각도 및 위상 왜곡의 목록이다.

후보 선택 모듈(408)은 후보 각도 목록을 처리하여, 이를 선택된 각도 쪽으로 수정한다(refine). 이와 같은 목록을 수정하는 다양한 방법들이 있다. 예를 들어, 둘 이상의 각도가 서로 비슷하면, 즉 임계치 내에 있으면, 이들 각도들은 예컨대, 평균을 내어, ε_min/M의 할인된 위상 왜곡을 갖는 목록의 어느 한 각도로 합쳐지고, 여기서, ε_min은 각도들 중에서 최소 위상 왜곡이며, M은 비슷한 각도들의 개수이다. 이런 수정에서, 고립된 각도들이 제거되고, 더 자주 발생하는 각도들에 더 작은 왜곡이 부여된다. 그 결과, 왜곡에 기반하여 각도를 선택하는 후속 단계 처리에서, 더 자주 발생하는 각도가 좀더 선택될 가능성이 많다.

수정된 후보 각도 및 위상 왜곡 목록은 제 1 각도 추적기 업데이트 모듈(410)에 전달된다. 이 모듈에서, 시간에 따른 후보 각도 및 위상 왜곡 목록은 각도 추적 목록에 보관된다. 이런 목록에서의 각 항목은, 도 5에 도시된 바와 같이, 각도(500), 위상 왜곡(502), 존재(presence) 점수(504), 존재 카운터(506) 및 업데이트 상태(508)를 포함한다. 처음의 활성 프레임에서, 후보 목록이 각도 추적 목록에 삽입된다. 그 다음의 활성 프레임들에서, 데이터는 다음 방식으로 처리된다.

먼저, 영이 아닌(non-zero) 존재 점수를 갖고 있고 아직 업데이트되지 않은 모든 항목들로부터 최저 위상 왜곡을 갖는 각도 추적 목록의 항목이 식별된다. 다음으로, 모든 후보들 중 최저 위상 왜곡을 갖는 후보 목록에서, 각도가 각도 추적 목록의 식별된 항목과 유사한 타겟 후보가 발견된다. 이런 후보가 발견되면, 타겟 입력 (θ_i, ε_i, δ_i)은 다음과 같이 후보 (θ, ε)로 업데이트된다.

각도: θ_i = μ_θθ_i-1 + (1 - μ_θ)θ, μ_θ : 상수

위상 왜곡: ε_i = μ_εε_i-1 + (1 - μ_ε)ε, μ_ε: 상수

존재 점수: δ_i = max(δ_i-1 + μ_δ, 1.0) , μ_δ: 상수

또는, 새로운 항목이, 다음과 같이, 후보로부터 생성된다.

θ_i = θ, ε_i = ε, δ_i = δ^Init

이와 같은 프로세스는 각도 추적 목록과 후보 목록의 모든 항목들이 평가될 때까지 계속된다. 다음으로, 상기의 절차에서 업데이트되지 않은 항목들이, 왜곡이 증가하고 존재 점수가 감소하는 방식으로 업데이트된다. 특히,

θ_i= θ_i-1, ε_i = μ'_εε_i-1, δ_i = δ_i-1- μ_δ, μ_ε= 상수.

존재 점수가 임계치 이하가 되면, 이런 항목들은 목록에서 제거된다. 업데이트의 마지막 단계는 모든 항목들을 다시 검사하여 비슷한 각도를 갖도록 합치는 것이다.

각도 추적 목록이 주어지면, 최종 선택 모듈(412)에서 프레임에 대한 최종 각도 선택을 한다. 예를 들어, 각도 추적 목록에서 다음의 기준을 만족하는 항목이 선택된다. 첫 번째, 그 존재 점수가 각도 추적 목록의 항목들의 최대 존재 점수보다 크거나 같다. 두 번째, 그 위상 왜곡이 각도 추적 목록의 항목들의 최소 위상 왜곡보다 작거나 같다. 세 번째, 후보 선택 모듈로부터 얻어진 최상위 후보 각도와 유사한 각도를 갖는다. 다른 항목들의 존재 카운터가 감소할 때 이 항목의 존재 카운터는 증가한다. 카운터는 항목이 최근 프레임에서 얼마나 자주 선택되는지를 나타낸다. 항목의 카운터가 임계치를 초과할 때, 그 각도 θ_i가 검출 각도로 보고된다. 항목이 상기의 조건들을 충족하지 않으면, "검출되지 않음"이 반환된다.

마지막으로, 제 2 각도 추적기 업데이터(414)는 추적 항목들을 검사하고 이전 모듈에서 업데이트되지 않은 항목들을 업데이트하도록 각도 추적 목록을 처리한다. 업데이트 방식은 제 1 각도 추적기 업데이트에서 사용된 것과 동일하며, 왜곡은 더 커지며 존재 점수는 더 작아진다.

요약하자면, 도 6을 참조해서, 음원 위치 측정 프로세스는 마이크 어레이 내의 활성 채널 쌍들의 식별(600)을 포함한다. 즉, 몇 개의 마이크, 예컨대, 적어도 세 개의 마이크가 활성 상태이다. 마이크로부터의 신호들은 프레임으로 나뉨으로써 처리될 수 있고, 각각의 프레임은 다수의 샘플을 갖고 있다. 따라서, 마이크(또는 채널)의 활성 여부는 프레임 단위로 결정될 수 있다. 각각의 활성 마이크로부터의 신호가 변환되어 주파수 영역 데이터 또는 주파수 스펙트럼을 계산한다(602). 각각의 활성 채널 쌍에서, 주파수 영역 데이터로부터 후보 각도가 식별된다(604). 활성 채널 쌍들에 대해 식별된 후보 각도 중에서 어느 한 각도가 선택된다(606).

지금까지 구현예를 설명하였으며, 본 시스템이 동작하도록 구현된 컴퓨팅 환경이 이제부터 설명될 것이다. 다음의 설명은 본 시스템이 구현될 수 있는 적절한 컴퓨팅 환경에 대한 간략하고 일반적인 설명을 제공하기 위한 것이다. 시스템은 다양한 범용 혹은 특수 목적 컴퓨팅 하드웨어 구성으로 구현될 수 있다. 적합한 잘 알려진 컴퓨팅 장치들의 예시들로는 개인용 컴퓨터, 서버 컴퓨터, 핸드-헬드 또는 랩톱 장치(예컨대, 미디어 플레이어, 노트북 컴퓨터, 휴대폰, PDA, 음성 녹음기), 멀티프로세서 시스템, 마이크로프로세서 기반 시스템, 셋톱 박스, 게임 콘솔, 프로그램가능한 가전 제품, 네트워크 PC, 미니 컴퓨터, 메인프레임 컴퓨터, 상기 시스템 또는 장치들 중 임의의 것을 포함하는 분산 컴퓨팅 환경 등을 포함하지만, 이에 제한되는 것은 아니다.

도 7은 적절한 컴퓨팅 시스템 환경의 일례를 도시한다. 컴퓨팅 시스템 환경은 적절한 컴퓨팅 환경의 일례에 불과하며, 이런 컴퓨팅 환경의 사용 또는 기능의 범위를 제한하기 위한 것은 아니다. 컴퓨팅 환경은 예시적인 운영 환경에 도시된 임의의 하나의 컴포넌트 또는 컴포넌트들의 조합에 관해 임의의 종속성이나 필요 조건을 갖는 것으로 해석되어서는 안 된다.

도 7을 참조하면, 예시적인 컴퓨팅 환경은 컴퓨팅 머신(700)과 같은 컴퓨팅 머신을 포함할 수 있다. 가장 기본적인 구성에서, 컴퓨팅 머신(700)은 통상 적어도 하나의 처리 장치(702) 및 메모리(704)를 포함한다. 컴퓨팅 장치는 다수의 처리 장치 및/또는 그래픽 처리 장치(720)와 같은 추가 보조 프로세싱(coprocessing) 장치를 포함할 수 있다. 컴퓨팅 장치의 정확한 구성 및 유형에 따라, 메모리(704)는 휘발성(예컨대, RAM), 비휘발성(예컨대, ROM, 플래시 메모리), 또는 이 둘의 임의의 조합을 포함할 수 있다. 이러한 가장 기본적인 구성이 점선(706)으로 도 7에 도시된다. 또한, 컴퓨팅 머신(700)은 부가적인 특징/기능을 가질 수 있다. 예컨대, 컴퓨팅 머신(700)은 예컨대 자기 디스크, 광 디스크 또는 테이프를 포함하는, 그러나 이에 제한되지는 않는, (제거 가능 및/또는 제거 가능하지 않은) 부가적인 저장 장치를 포함할 수 있다. 이와 같은 부가적인 저장 장치가 제거 가능한 저장 장치(708) 및 제거 가능하지 않은 저장 장치(710)에 의해 도 7에 도시된다. 컴퓨터 저장 매체는 컴퓨터 프로그램 명령어, 데이터 구조, 프로그램 모듈 또는 다른 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현되는 휘발성 및 비휘발성, 제거 가능 및 제거 가능하지 않은 매체를 포함한다. 메모리(704), 제거 가능한 저장 장치(708) 및 제거 가능하지 않은 저장 장치(710)는 모든 컴퓨터 저장 매체의 예시이다. 컴퓨터 저장 매체는 RAM, ROM, EEPROM, 플래시 메모리 또는 다른 메모리 기술, CD-ROM, 디지털 다기능 디스크(DVD) 또는 다른 광 저장 장치, 자기 카셋트, 자기 테이프, 자기 디스크 저장 또는 다른 자기 저장 장치, 또는 정보를 저장하는데 이용될 수 있고, 컴퓨팅 머신(700)에 의해 접근될 수 있는 임의의 다른 매체를 포함하지만, 이에 제한되지 않는다. 이와 같은 임의의 컴퓨터 저장 매체는 컴퓨팅 머신(700)의 일부일 수 있다.

컴퓨팅 머신(700)은, 장치가 다른 컴퓨팅 장치들과 통신하게 할 수 있는 통신 접속부(들)(712)도 포함할 수 있다. 통신 접속부(들)(712)는 통신 매체의 일례이다. 통신 매체는 통상적으로 컴퓨터 프로그램 명령어, 데이터 구조, 프로그램 모듈, 또는 반송파 또는 다른 전송 메카니즘과 같은 변조 데이터 신호의 다른 데이터를 전달하며, 임의의 정보 전달 매체를 포함한다. 용어 "변조 데이터 신호"는 신호의 정보를 인코딩하는 방식으로 설정되거나 변경되는 하나 이상의 특성을 가진 신호를 나타내며, 따라서 신호의 수신 장치의 구성이나 상태를 변경한다. 예를 들어, 제한하지는 않고, 통신 매체는 유선 네트워크 또는 직접 유선 접속부와 같은 유선 매체와, 음향, RF, 적외선 및 다른 무선 매체와 같은 무선 매체를 포함한다.

컴퓨팅 머신(700)은 디스플레이, 키보드, 마우스, 펜, 카메라, 터치 입력 장치 등과 같은 입력 장치(들)(714)를 가질 수 있다. 스피커, 프린터 등과 같은 출력 장치(들)(716)도 포함될 수 있다. 이와 같은 장치들 모두는 상술한 장치 모두는 잘 알려진 기술이며, 본원에서 길게 설명될 필요가 없다.

본 시스템은, 프로그램 모듈과 같이 컴퓨팅 장치에서 실행되는 컴퓨터 실행 가능 명령어 및/또는 컴퓨터 해석 가능 명령어를 포함하는 일반적인 소프트웨어로 구현될 수 있다. 일반적으로, 프로그램 모듈은, 처리 장치에 의해 실행될 때, 특정 작업을 수행하거나 특정 추상(abstract) 데이터 타입을 구현하도록 처리 장치에게 명령하는 루틴, 프로그램, 객체, 컴포넌트, 데이터 구조 등을 포함한다. 본 시스템은 통신 네트워크를 통해 연결되는 원격 처리 장치들에 의해 작업이 수행되는 분산 컴퓨팅 환경에서 실시될 수 있다. 분산 컴퓨팅 환경에서, 프로그램 모듈은 메모리 저장 장치들을 포함하는 로컬 및 원격 메모리 저장 장치의 양방에 위치될 수 있다.

첨부된 청구항들의 전제부의 "제조 물품(article of manufacture)", "프로세스", "머신" 및 "합성물(composition of matter)"의 용어들은 35 U.S.C §101에서 이들 용어의 사용으로 정의된 특허 가능한 대상의 범위 내에 속하는 것으로 여겨지는 특허 대상으로 청구항들을 제한하기 위한 것이다.

본원에 설명된, 교대로 나오는 전술한 실시예들의 임의의 하나 혹은 모두는 추가적인 혼합 실시예를 형성하기 위해 임의의 조합으로 사용될 수 있다. 첨부된 청구항들에서 정의된 대상은 전술한 특정 구현에 제한되는 것은 아님을 이해하여야 한다. 전술한 특정 구현은 단지 예시로서 개시된다.

Claims

복수의 마이크 쌍으로부터의 신호를 메모리로 수신하는 단계와,
상기 마이크로부터의 신호를 처리하여 상기 신호가 활성 상태인 때를 식별하는 단계와,
활성 상태인 신호에 대한 주파수 스펙트럼 데이터를 계산하는 단계와,
각각의 활성 신호 쌍에 대해,
상기 활성 신호 쌍의 상기 주파수 스펙트럼 데이터를 사용하여 상호 파워 스펙트럼(cross power spectrum)의 위상 스펙트럼을 결정하는 단계와,
상기 위상 스펙트럼으로부터 상기 활성 신호 쌍에 대한 위상 왜곡(phase distortion)을 결정하는 단계와,
상기 결정된 위상 왜곡으로부터 후보 각도를 도출하는 단계와,
상기 복수의 마이크 쌍에 대해 도출된 상기 후보 각도 중에서 한 각도를 선택하는 단계
를 포함하는 컴퓨터로 구현된 방법.
제 1 항에 있어서,
상기 신호를 수신하는 단계는, 각각의 신호를 복수의 프레임으로써 수신하는 단계를 포함하고,
상기 마이크로부터의 신호를 처리하여 상기 신호가 활성 상태인 때를 식별하는 단계와, 상기 활성 상태인 신호에 대한 주파수 스펙트럼 데이터를 계산하는 단계와, 상기 활성 신호 쌍의 상기 주파수 스펙트럼 데이터를 사용하여 상호 파워 스펙트럼(cross power spectrum)의 위상 스펙트럼을 결정하는 단계와, 상기 복수의 마이크 쌍에 대해 도출된 상기 후보 각도 중에서 한 각도를 선택하는 단계는 프레임 단위로 실행되는
컴퓨터로 구현된 방법.
제 1 항에 있어서,
상기 후보 각도 중에서 한 각도를 선택하는 단계는 이전 후보 각도에 대한 정보를 사용하여 상기 각도를 선택하는 단계를 포함하는
컴퓨터로 구현된 방법.
제 3 항에 있어서,
상기 이전 후보 각도에 대한 정보를 사용하여 상기 각도를 선택하는 단계는,
다수의 프레임에 걸쳐 후보 각도의 히스토리(history)를 저장하는 단계와,
현재 프레임부터의 후보 각도로 상기 히스토리를 업데이트하는 단계
를 포함하는
컴퓨터로 구현된 방법.
제 4 항에 있어서,
상기 각도는 상기 히스토리로부터 선택되되, 상기 선택된 각도는 모든 항목(entries) 중의 최소 위상 왜곡보다 작거나 같은 위상 왜곡을 갖는 각도인
컴퓨터로 구현된 방법.
제 4 항에 있어서,
상기 각도는 상기 히스토리로부터 선택되되, 상기 선택된 각도는 상기 프레임에 대한 최상위 후보 각도와 비슷한 각도인
컴퓨터로 구현된 방법.
제 4 항에 있어서,
상기 각도는 상기 히스토리로부터 선택되되, 상기 선택된 각도는 상기 히스토리의 각도의 최대 존재(presence) 점수보다 크거나 같은 존재 점수를 갖는 각도인
컴퓨터로 구현된 방법.
컴퓨터 저장 매체와,
상기 컴퓨터 저장 매체에 저장된 컴퓨터 프로그램 명령어
를 포함하고,
상기 컴퓨터 프로그램 명령어는, 처리 장치에 의해 처리될 때, 상기 처리 장치로 하여금,
복수의 마이크 쌍으로부터의 신호를 메모리로 수신하는 처리와,
상기 마이크로부터의 신호를 처리하여 상기 신호가 활성 상태인 때를 식별하는 처리와,
활성 상태인 신호에 대한 주파수 스펙트럼을 계산하는 처리와,
각각의 활성 신호 쌍에 대해,
상기 활성 신호 쌍의 상기 주파수 스펙트럼 데이터를 사용하여 상호 파워 스펙트럼의 위상 스펙트럼을 결정하는 처리와,
상기 위상 스펙트럼으로부터 상기 활성 신호 쌍에 대한 위상 왜곡을 결정하는 처리와,
상기 결정된 위상 왜곡으로부터 후보 각도를 도출하는 처리와,
상기 복수의 마이크 쌍에 대해 도출된 상기 후보 각도 중에서 한 각도를 선택하는 처리
를 포함한 처리를 수행하게 하는,
제조 물품.
제 8 항에 있어서,
상기 신호를 수신하는 처리는, 각각의 신호를 복수의 프레임으로써 수신하는 처리를 포함하고,
상기 마이크로부터의 신호를 처리하여 상기 신호가 활성 상태인 때를 식별하는 처리와, 상기 활성 상태인 신호에 대한 주파수 스펙트럼을 계산하는 처리와, 상기 활성 신호 쌍의 상기 주파수 스펙트럼 데이터를 사용하여 상호 파워 스펙트럼의 위상 스펙트럼을 결정하는 처리와, 상기 복수의 마이크 쌍에 대해 도출된 상기 후보 각도 중에서 한 각도를 선택하는 처리는 프레임 단위로 실행되는
제조 물품.
제 8 항에 있어서,
상기 후보 각도 중에서 한 각도를 선택하는 처리는 이전 후보 각도에 대한 정보를 사용하여 상기 각도를 선택하는 처리를 포함하는
제조 물품.
제 10 항에 있어서,
상기 이전 후보 각도에 대한 정보를 사용하여 상기 각도를 선택하는 처리는,
다수의 프레임에 걸쳐 후보 각도의 히스토리를 저장하는 처리와,
현재 프레임부터의 후보 각도로 상기 히스토리를 업데이트하는 처리
를 포함하는
제조 물품.
제 11 항에 있어서,
상기 각도는 상기 히스토리로부터 선택되되, 상기 선택된 각도는 모든 항목 중의 최소 위상 왜곡보다 작거나 같은 위상 왜곡을 갖는 각도인
제조 물품.
제 11 항에 있어서,
상기 각도는 상기 히스토리로부터 선택되되, 상기 선택된 각도는 상기 프레임에 대한 최상위 후보 각도와 비슷한 각도인
제조 물품.
제 11 항에 있어서,
상기 각도는 상기 히스토리로부터 선택되되, 상기 선택된 각도는 상기 히스토리의 각도의 최대 존재 점수보다 크거나 같은 존재 점수를 갖는 각도인
제조 물품.
메모리와,
복수의 마이크 쌍으로부터의 신호를 메모리로 수신하기 위한 입력부와,
상기 마이크로부터의 신호를 처리하여, 상기 신호가 활성 상태인 때를 식별하고 활성 상태인 신호에 대한 주파수 스펙트럼 데이터를 계산하는 처리 장치
를 포함하되,
상기 처리 장치는, 활성 상태인 신호 쌍의 상기 주파수 스펙트럼 데이터를 사용하여 상호 파워 스펙트럼의 위상 스펙트럼을 결정하고, 상기 위상 스펙트럼을 이용해서 상기 활성 상태인 신호 쌍에 대한 위상 왜곡을 결정하며, 상기 위상 왜곡으로부터 후보 각도를 도출하고, 상기 복수의 마이크 쌍에 대해 도출된 상기 후보 각도 중에서 한 각도를 선택하는
컴퓨팅 머신.
제 15 항에 있어서,
상기 입력부는 각각의 신호를 복수의 프레임으로써 수신하고 저장하며,
상기 처리 장치는 상기 신호를 프레임 단위로 처리하도록 구성되는
컴퓨팅 머신.
제 15 항에 있어서,
상기 메모리는 다수의 프레임에 걸쳐 후보 각도의 히스토리를 더 저장하고,
상기 처리 장치는, 현재 프레임부터의 후보 각도로 상기 히스토리를 업데이트하도록 구성되는
컴퓨팅 머신.
제 17 항에 있어서,
상기 각도는 상기 히스토리로부터 선택되되, 상기 선택된 각도는 모든 항목 중의 최소 위상 왜곡보다 작거나 같은 위상 왜곡을 갖는 각도인
컴퓨팅 머신.
제 17 항에 있어서,
상기 각도는 상기 히스토리로부터 선택되되, 상기 선택된 각도는 상기 프레임에 대한 최상위 후보 각도와 비슷한 각도인
컴퓨팅 머신.
제 17 항에 있어서,
상기 각도는 상기 히스토리로부터 선택되되, 상기 선택된 각도는 상기 히스토리의 각도의 최대 존재 점수보다 크거나 같은 존재 점수를 갖는 각도인
컴퓨팅 머신.