WO2014021492A1

WO2014021492A1 - 공간 분할을 이용한 위치 의존형 누화 제거 방법

Info

Publication number: WO2014021492A1
Application number: PCT/KR2012/006332
Authority: WO
Inventors: 이기승
Original assignee: 건국대학교 산학협력단
Priority date: 2012-07-30
Filing date: 2012-08-09
Publication date: 2014-02-06
Also published as: KR101404411B1; KR20140016652A

Abstract

스테레오 재생 시스템에서 공간 분할을 이용한 위치 의존형 누화 제거 방법이 개시된다. 전체 청취 공간이 복수의 비중첩 셀 영역으로 분할되며, 누화 제거 필터가 각각의 셀영역에 할당된다. 청취 공간 분할과 그에 대응하여 할당되는 누화 제거 필터는 평균 채널 분리율을 최대로 함으로써 구현된다. 셀 기반 누화 제거를 이용하기 때문에 청취자의 정확한 위치의 추정이 필요하지 않고, 대신에 단지 청취자가 위치되는 셀을 결정하는 것만이 필요하다. 이는 각각의 쌍의 마이크에 대한 시간 지연이 셀 지수에 상응하는 ANN 입력 및 ANN 출력으로서 이용되는 인공 신경망(artificial neural network, ANN)을 단순히 이용함으로써 달성된다.

Description

명세서 발명의 명칭: 공간분할을 이용한 위치 의존형 누화 제거 방법 기술분야

[1] 본 발명은 바이노럴 (binaural) 재생시스템에 관한 것으로서, 특히 공간 분할을 이용한 위치 의존형 누화 제거 방법에 관한 것이다.

배경기술

[2] 일반적으로, 2개의 라우드스피커 (loudspeaker)를 이용하는 바이노럴 재생시스템 (binaural playback system)에서는 헤드폰을 이용한 바이노럴 재생 시에는 발생하지 않는 몇 가지 바람직하지 않은 효과가 발생된다. 누화는 라우드스피커 기반 바이노럴 재생시스템 (loudspeaker-based binaural playback system)에서 발생하는 바람직하지 못한 주요 효과 중 하나로서， 좌측 귀를 위해 위한 신호가 우측 귀에 의해 인지되거나 또는 그 반대 현상이 발생하는 것이다.

[3] 누화 제거 필터 (cross-talk cancellation filter)는 이러한 바람직하지 않은 효과를 제거하기 위해 고안되었다. 누화 제거는 라우드스피커에서 청취자 귀까지의 임펄스 웅답 (impulse responses)을 알고 있다고 가정함으로써 이루어진다. 따라서, 누화 제거 필터의 설계를 위해 필요한 정보에는 라우드스피커로부터 청취 지점까지 공기를 통한 파동의 전파를 나타내는 한 쌍의 방향 의존형 전달 함수 (direct ion-dependent transfer function)가 포함된다. 음원으로부터 청취자의 고막까지의 방향 의존형 음향 전달 함수인 머리 전달 함수 (head-related transfer function, HRTF)가 누화 제거에 종종 이용되었다. 자유음장 모델 (free-field mode 1 )도또한 라우드스피커에서 청취자 귀까지의 음향 경로를

특성화하기 위해 채용돠었다. 이러한 모델은 HRTF-기반모델보다

. 단순하기 때문에 하드웨어 구현 측면에서 이점이 있다. 그러나, 귀와 음파사이의 상호작용 (예를 들어， 피나 효과 (pinna effects))에 대한 세부사항은 자유음장 모델에 의해 특성화될 수 없다. 보다 상세하게 음향 경로를 특성화하기 위해 하이브리드 모델이 이용된 바 있는데 , 이는 거리 변화에 의해 야기된 감쇠 (attenuation) 및 지연을 조정하기 위해 자유음장 모델을 채택하였다.

[4] HRTF모델과 자유음장 모델이 모두 방향 의존형이기 때문에， 이들

모델을 위한 모델 기술 매개변수 (model description parameter)는 청취자의 위치에 따라 변한다. 이는 필터가 청취자의 위치에 대해 설계되지 않는다면 누화 제거기가좋은 성능을 갖지 못한다는 것을 의미한다. 즉, 청취자의 위치와 무관하게 고정삭누화 제거 필터 (fixed cross-talk cancellation filter)가 이용된다면， 단지 "스위트 스폿 (sweet spot)" 으로 지칭되는 제한된 영역에 대해서만 누화 신호가 적절히 제거된다.

[5] 최근 디지털 신호 처리 기술이 발전함에 따라 청취자의 위치에

무관하게 양호한 스테레오 착각 ( stereophonic illusion)을 생성하는 스테레오 재생시스템을 개발하기에 이르렀다. 이러한 시스템에서는， 누화 제거 필터가 청취자의 추정 위치에 따라 갱신된다. 이 시스템은 2개의: 기법， 즉 자동 청취자.위치 추적 (automatic listener position tracking) 및 청취자의 추정 위치에 따른 사운드 렌더링 (sound rendering) (또는 스위트 스폿의 조정)을 병합함으로써 구현되었다. 위치 적웅형 음성 재생시스템의 유용성은 이미 입증된 바 있다. 그러나, 이러한신뢰성 있는 청취자의 위치 추정을 구현하는 데에는 간단치 않은 문제가 있다. 이는 특수한 하드웨어 시스템， 예를 들어 디지털카메라를 이용한 화상 기반 청취자 추적 시스템 (vis ion一 based listener tracking system) , 레이저스캐너를 이용한 측위 시스템 (positioning system with a laser scanner), 및 초음파센서 및 적외선센서를 이용한 원격 제어 기반 청취자 추적 시스템 (remote control -based listener tracking system)을 요구한다. 또한, 청취자의 절대위치를 축정하기 위한 알고리즘은 광범위한 계산이 필요한데， 이를테면， 위치 추정에서 가우스 뉴턴 비선형 최소 제곱법 (Gauss— Newt on nonlinear least square method)이 이용되 ^'는 경우 수많은 반복 연산이 필요하다. 기존에 개발되었던 이러한모든 측위 방법은 주로 청취자 위치의 정확도를 높이는데 집중되었다. 따라서， 실제 청취자 위치와 추정된 청취자 위치 사이의 절대오차가 측위 알고리즘의 설계에서 주요 기준이었다.

[6] 측위 문제를 위치 적웅형 음성 재생시스템의 구현에 한정한다면，

목표가 일반적인 측위 시스템과 약간 달라질 것이다. 따라서

근본적으로는 기존의 측위 방법을 넘어서서 몇 가지 장점을 가지는， 누화 제거와 관련된 측위 알고리즘을 제공할 필요가 있다.

[7] 이러한 이슈와 관련하여， 문제는 포인트-바이-포인트 (point-by-point) 측위가 적절한 누화 제거 성능을 획득하기 위한 필요 조건인지 여부이다. 오직 청취자의 머리를 둘러싸는 작은 "버블" 내에서만 적당한 정도의 누화 제거가 유지된다고 알려져 있다.

발명의 내용

기술적 과제

[8] 본 발명은 복수개의 샐 영역으로 분할하고 각 셀 영역에 하나의 대표 누화 제거 필터를 배치함으로써 적은 수의 필터로 효율적인 누화 제거를 수행할 수 있는, 공간 분할을 이용한 위치 의존형 누화 제거 방법을 제공한다.

[9] 본 발명은 청취 위치를 영역 단위로 선정함으로써 상대적으로 덜 정밀한 청취자의 위치 추적 과정이 요구되는 공간 분할을 이용한 위치 의존형 누화 제거 방법을 제공한다.

[10] 본 발명은 적은 시스템 리소스를 이용하여 적합한 누화 제거가

구현되는 공간 분할을 이용한 위치 의존형 누화 제거 방법을 제공한다. 기술적 해결방법

[11] 본 발명은 스피커를 이용하는 바이노럴 재생시스템에서 공간 분할을 이용한 위치 의존형 누화 제거 방법을 제공하며, 이 방법은: (1) 청취 공간을 복수개의 셀영역으로 분할하는 단계; 및 (2) 상기 복수개의 셀영역 각각의 최적 위치에 하나의 누화 제거 필터를 할당하는 단계;를 포함한다.

[12] 상기 단계 (2)에서 상기 최적 위치는 분할된 복수개의 셀영역 내의 모든 지점 중에 채널 분리율의 합 또는평균이 최대가 되는 지점이며, 상기 채널 분리을은 최초 신호의 대각성분과 누화 신호의 비대각성분 사이의 비율을 나타낸다.

[13] 상기 채널 분리율은 좌측 채널에 대한 것과 우측 채널에 대한 것의 최소값을 선택한다.

[14] 상기 단계 (2) 이후에， 인공 신경망을 이용하여 상기 복수의 셀영역의 지수를 추정함으로써 청취 위치의 추정을 수행하며, 상기 청취 위치의 추정은 상기 청취 공간에 설치된 마이크 쌍 간으로부터 신호의

시간지연으로부터 추정된다.

[15] 상기 단계 (1) 및 (2)는: (a-1) 청취 공간이 주어지면, 상기 청취

공간을 각각 임의의 형태를 가지는 상기 복수개의 셀영역 (S⁽⁰⁾ =

{s[° s ,·.., ⁰⁾))으로 분할하는 초기화를 수행하는 단계; (a-2) 상기 복수개의 셀영역 각각에 대하여 셀영역 전체의 모든 위치에 걸쳐서 평가된 채널 분리율 ( R^f))의 합이 최대가 되는 지점 (^에 하나의 누화 제거 필터를 할당하는 누화 제거 필터 세트를 할당 단계; 및 (a-3) 상기 누화 제거 필터를 이용하여 상기 청취 공간을 재분할 하는 단계;를 포함한다.

[16] 상기 단계 (a-2)와 상기 단계 (a-3)은 소정 조건까지 반복한다.

[17] 상기 단계 (a-1)에서 문턱값 f,f⁽⁰⁾= -∞ 및 ί = 0을 설정하며, 상기 단계 (a-2)와 상기 단계 (a-3)의 반복에서: 반복적으로 구해지는 누화 제거 필터의 위치 다음의 식에 따라산출되고，

[18] ¾° = argmax^ ) [∑ ,_es(_i) ,_≠ {C5fi (?：?')}]

[19] 여기에서, l≤n≤i 이고 ？'은기본 셀영역에 속하는 영역의 지점들로 주어지며，

[20] n번째 반복된〉복수개의 셀영역은 다음식으로 주어지며 , [21] s^ⁱ⁺¹⁾ = { |C5/?(f_n ⁽⁰, r) > CSR( ®, f),l≤m≤N,m≠ n)

[22] 여기서 l≤n≤i 이고， 그에 따라 i번째 반복에서 최적 클러스터

세트가 다음식으로 주어지며，

[24] ί·번째 반복에서 CSR의 합이 다음식으로 주어질 때,

[26] 만일

<e라면， 각각 최종 세트의 클러스터 및 누화 제거 필터를 획득하기 위한 최종 세트의 위치들을 나타내는 S⁽ⁱ⁺¹⁾, R⁽ⁱ⁾를 정지하고, 그렇지 않다면， ί를 (ί + l)로 대체하고, 다시 상기 단계 (a- 2)로 진행하여 반복한다.

[27] 상기 복수개의 셀영역의 각각은 상호 비중첩되는 것이다.

유리한효과

[28] 본 발명은 셀 기반의 누화쎄거를 수행하기 때문에 적은 수의 누화 제거 필터를 이용하여 적합한 누화 제거가 가능하다. 다시 말해서， 본 발명에서는 전체 청취 영역을 복수개의 셀 영역으로 분할하고 각 샐 영역에 하나의 대표 누화 제거 필터만을 배치하여 셀 영역에 대한 누화 제거를 수행하기 때문에 적은 수의 필터로 효율적인 누화 제거가 가능하다. 또한 본 발명은 청취자의 위치추적을 셀 인텍스를 분류하는 것으로 충족되기 때문에 상대적으로 덜 정밀한 추적 과정이 요구된다. 결과적으로 적은 시스템 리소스에서도 적합한 누화 제거가 구현될 수 있다.

도면의 간단한설명

[29] 도 1은 본 발명의 방법에 따른 청취자의 위치에 따라 스위트 스폿을 조정할 수 있는 음성 재생 시스템에 대한 블록도이다.

[30] 도 2는 본 발명의 방법에 따른 2개의 라우드스피커를 이용하는 위치 의존형 누화쎄거 시스템의 구성을 개략적으로 도시한 도면이다.

[31] 도 3은 본 발명의 방법이 적용되는 벽 반사를 갖는 우측 스피커의 ^ 청취자의 귀 사이의 음향 경로를 나타내는 도면으로서, ， l_RiK, 및 θ_κ,_κ는 각각 번째 벽에 대한 반사 계수， 우측스피커의 ^번째 상과 청취자사이의 거리， 및 우측 스피커의 번째 상과 청취자 사이의 각도를 나타낸다.

[32] 도 4는 본 발명의 방법이 4개의 클러스터에 적용될 경우의 공간 분할 알고리즘을 설명하기 위한 도면이다.

[33] 도 5는 본 발명의 공간 분할을 이용한 위치 의존형 누화 제거 방법에 채용되는 공간 분할을 통해 얻어진 예를 도시한 도면이다. [34] 도 6은 본 발명의 공간 분할을 이용한 위치 의존형 누화 제거 방법에 채용된 청취자 추적 구성을 개략적으로 도시한 블록도이다.

[35] 도 7은 본 발명의 공간 분할을 이용한 위치 의존형 누화 제거 방법을 이용한 실험예에 이용된 가상 청취 공간을 도시한 도면이다.

[36] 도 8a내지 8c는 본 발명의 공간 분할을 이용한 위치 의존형 누화 제거 방법의 실험예에 따른 결과물을 도시한 도면이다.

[37] 도 9a내지 9c는 본 발명의 공간 분할을 이용한 위치 의존형 누화 제거 방법의 실험예에 따른 결과물을 도시한 도면이다.

[38] 도 10은 본 발명의 공간 분할을 이용한 위치 의존형 누화 제거

방법에서 클러스터 수 대비 평균 CSR의 관계 및 클러스터 수 대비 CSR > 10dB의 퍼센트를 보여주는 그래프이다.

[39] 도 11a내지 11c는 본 발명의 공간 분할을 이용한 위치 의존형 누화

제거 방법에서 인공신경망을 이용한 공간 분류 결과를 보여주는 도면이다.

[40] 도 12는 본 발명의 공간 분할을 이용한 위치 의존형 누화 제거 방법의 실험예에 따른 주관적 측위 테스트의 결과를 도시한 그래프이다.

[41] 도 13은 본 발명의 공간 분할을 이용한 위치 의존형 누화 제거 방법을 적용한 잔향 환경 (가정 거실)에 대한 주관적 측위 테스트의 결과를 보여주는 도면이다.

[42] 도 14는 도 12와 비교를 위해 도시한 기존의 위치 기반 누화 제거에

대한 측위 테스트 결과를 나타낸다.

발명의 실시를 위한 최선의 형태

[43] 본 발명에서는, 전체 청취 공간이 복수의 비중첩 클러스터로 분할된다. 각각의 클러스터에 하나의 대표 누화 제거 필터가 할당된다. 그 후， 청취자가 위치하는 클러스터가 결정되고, 해당 클러스터에 할당된 누화 제거 필터가 구현된다. 본 발명에서 제공하는 클러스터 기반 측위에 있어서 기본적인 가정은 작은 영역에 대해서는 하나의 누화 제거 필터를 이용하여도 그다지 누화 제거 성능이 떨어지지 않는다는 것이다. 이러한 가정을 테스트하기 위해, 본 발명은 채널 분리율 (CSR)의 평균값이

최대화되는 공간 분할 방법을 제안한다. 제안된 방법에서， 합동

분할 /추정 알고리즘에 의해 최적의 분할 및 최적의 누화 제거 필터 세트가 결정된다. 이러한 접근 방법은 통상적인 점 기반측위 구성을 뛰어넘는 연산 상의 장점을 갖는데, 왜냐하면 사용자 위치에 대하여 상대적으로 덜 정확한 추정이 용인되기 때문이다. 제안된 방법을

검증하기 위해서， 클러스터 수와 CSR의 평균값 사이의 관계를 분석하는 여러 가지 실험을 수행하였다. 제안된 분할 방법은 백터 양자화 (vector quantization (VQ)) 기반 분할 방법과는 다르기 때문에, 결과적으로 생성된 클러스터의 형상이 보로노이 셀 (Voronoi-cell)과 유사하지 않을 - 수 있다. 따라서, 비선형 클러스터링 방법이 위치 추정에 이용되며， ᅳ 여기서는 인공 신경망 (ANN)을 이용하여 클러스터 인덱스가 마이크 쌍들 사이의 시간 지연으로부터 추정된다.

[44] 아래에 기재된 몇몇 실험결과들은 본 발명의 음성 재생시스템의

실행가능성을 보여준다. 누화 제거 성능을 주관적으로 평가하기 위해， 음성 측위 (_sound localization) 실험이 수행되었고， 음성 측위

정확도 (sound localization accuracy)에 관한성능이 평가되었다.

[45] 하기 설명에서는 전체 청취 공간을 분할하는 방법과 클러스터 기반

청취자 측위 방식을 포함하는 전체 위치 적응형 누화 제거 과정을 설명한다. 또한 실험 및 그 결과에 대하여 설명한다.

[46] [위치 적웅형 누화 제거 (POSITION-ADAPTIVE CROSS-TALK CANCELLATION)] [47] A. 누화 제거 (Cross-talk cancellation)

[48] 도 1은 청취자의 위치에 따라 스위트 스폿을 조정할 수 있는 일반적인 을성 재생 시스템에 대한 블록도이다.

[49] 스테레오 재생 환경에 대하여， 양쪽 귀에서 관찰된 신호의 주파수

도메인 표현은 다음의 식 (1)과 같다.

[50] [식 1]

[51] X_L{f) = H_lL{f)S_L(f) + H_RL f)S_R f)

[52] X_R{f) = H_LR{f)S_L{f) + H_RR{f)S_R{f)

[53] 여기서, ¾(/)과 (/)는 각각 좌측 채널과 우측 채널로의 입력 (또는

오리지널) 신호이다. H_L[ n, H_LR f), H_RL f) 및 H_RR(f)는 도 1에 도시된 각각의 경로에 대한 주파수 응답이다. 식 (1)은 다음의 식 (2)와 같이 매트릭스 형태로 나타낼 수 있다.

[54] [식 2]

[55] X = HS

[56] 여기서 X， H, 및 S는 각각 관측 행렬 (observation matrix), 전달

행렬 (transfer matrix), 및 신호 행렬 (signal matrix)이다.

[57] 누화 제거는 S에 제거 행렬 (cancellation matrix) C를 곱함으로써

달성되며， 따라서 얻어진 신호는 다음 식 (3)과 같이 오리지널 신호의 시간지연된 버전으로 주어진다.

[58] [식 3]

[59] X = HCS = e-^^^is

[60] 여기서 I와 e ^{' 2π} 는 각각 단위 행렬 (identity matrix)과 시간 지연 항 (time-delay term)이다. C가 식 (3)을 만족시키기 위해，

라우드스피커에서 청취자의 귀까지의 주파수 응답이 연역적으로 (a priori) 준비되어야 한다. 머라 전달 함수 (head-related transfer function, HRTF) 및 자유음장 모델 (free-field model)을 포함하여, 라우드스피커에서 귀까지의 채널들에 대한 주파수 웅답을 표현하는 몇 가지 방법이 있다.

본 발명에서는, 비 맞춤형 HRTF(non-customized HRTF)가 이용되며, 이는

KEMAR(Knowles Electronics Manikin for Acoustic Research)

모형 (dummy)에서 측정된다.

[61] 도 2는 본 발명의 방법에 따른 2개의 라우드스피커를 이용하는 위치

의존형 누화 제거 시스템의 구성을 개략적으로 도시한 도면이다.

[62] KEMAR HRTF로부터의 측정 조건이 청취 환경 조건과 상이하므로， 이들

차이를 보상할 필요가 있다. 이를 위해， 거리 변화로 인한 감쇠 및

지연을 설명하기 위해 크기 (magnitude) 및 위상이 조정되었다. 청취자

위치의 중앙에 대한 스피커의 좌측 방향 및 우측 방향이 각각 및 ^로 주어질 때， 누화 제거 행렬은 다음의 식 (4)와 같이 주어진다.

[63] [식 ⁴]

[65] 여기에서 A_[L,_R]= 27r/(Z _] -Z₀)/_C 와 c는 음성 속도이다. H ( )는 사잇각 (span angle) 0에 상웅하는 HRTF이며, 위첨자 ^과 은 각각 좌측 채널과 우측 채널을 지칭한다. ί₀은 KEMAR HRTF가 측정되었을 때 머리의 중앙과 소스사이의 거리로서 1.4m이다. 도 2에 도시된 바와 같이， ^과

^은 각각 머리의 중앙에 대한 좌측 라우드스피커 및 우측

라우드스피커로부터 거리이며 다음의 식 (5)로 주어진다.

[66] [식 5]

[69] 여기서， (^, )는 청취자의 위치이몌 ^는좌측 라우드스피커와우측

라우드스피커 사이의 거리이다. 식 (5)에서， 머리의 반경은

라우드스피커와 귀 사이의 거리에 비해 층분히 작다고 가정된다. 사잇각 ¬과 θ_κ은 다음의 식 (6)으로 표현된다.

[70] [식 6]

[71] 9_R = tan^"1^^

[72] 9_L = tan-¹^^

¹ Vu

식 (4)의 역 (inversion) 문제는 주파수 의존형 정규화

매개변수 (frequency dependent^' regularization parameter)를 패스트 디컨볼루션 알고리즘 (fast deconvolution algorithm)을 통하여 해결된다. 따라서 역 행렬 (inversion matrix)은 다음의 식 (7)로 주어진다.

[74] [삭 7]

[75] C{f) = [Η'^ίί(/)Η'( ) + α²σ)0^_1Η'^ίί )

[76] (.)"는 에리미트 전치 (Hermitian transpose)를 나타내며， α(/)는 정규화 항 (regularization term)이다. 은 적절한삭제 성능이 유지되면서 행렬 역 프로세스의 특이성 (singularity) 문제를 피하도록 결정된다.

[77] 전달 행렬 H'와 및 누화 제거 행렬 C는 청취자의 위치 0_M,y_u)에

의존한다는 것을 유념하자. 이는 청취자 위치가 주어지지 않는 한 누화 제거가 적절히 수행되지 않는다는 것을 의미한다. 청취자의 위치는 지금까지 제안된 측위 방법에 의해 추정될 수 있다. 이들 방법은 측위 정확도 측면에서 상당한성능을 나타냈다. 그러나， 실제는 정확한 위치는 획득될 수 없으며, 따라서 이들 측위 방법을 이용하여 단지 근사치의 위치가 획득될 수 있다. 이 경 에, 청취자 귀에서의

퍼스펙티브 (perspective)는 다음의 식 (8)로 주어진다.

[78] [식 8]

[79] X = H'dx_u,y_u)C(x_u,y_u)S = H'C^yjH'-^^ JS

[80] 여기에서 (x_u,y_u)와 는 각각 청취자의 실제 위치와 추정된

위치이다. 식 (8)에서， 단순화를 위해 주파수 지수 /가 생략되었다.

(½,y_u)≠ e_u,5>_u)라면， 곱셈 행렬 G H'O^y CC^,^)의

비대각성분 (off-diagonal components)은 0이 아닌 값을 갖는다는 것을 유념한다. 이제 채널 분리율 (CSR)은 각각의 채널에 대한 대각 성분 (최초 신호)과 비대각성분 (누화 신호) 사이의 비율로서 다음의 식 (9)로

정의된다.

[81] [식 9]

[84] 여기에서 g f), l≤i, ≤2은 행렬 G의 성분이다. 본 발명에서 , 적분 구간 B는 머리 쉐도우잉 효과 (head-shadowing effects)로부터 영향을 받지 않는 주파수 범위인 [0.3 - 3.0 kHz]이었다.

[85] B. 잔향과 관련된 누화 제거 (Cross-talk cancellation involved with reverberation)

[86] 일상 환경에서 통상적으로 관측될 수 있는 잔향 효과 (reverberation

effects)를 설명하는 것은 쉽지 않다. 이는 전체 청취 공간에 대한 잔향 효과는 단순한 수학적 모델을 이용하여 잘 표현되지 않기 때문이다. 즉, 임필스 웅답이 전체 청취 공간에 걸쳐 측정되지 않는 한 누화 제거에서 잔향 효과가 고려될 수 없다. 본 발명에서는, 대안적인 방식이 이용되며， 여기서는 임의의 위치에서의 음성 장이 제한된 수의 반사 음원의 중첩에 의해 표현될 수 있다. 기본 가정은 실내 임펄스 응답 (room impulse response, RIR)이 전형적으로 몇 개의 초기 (강한) 반사에 의해 특징 지워진다는 것이다. 실내 전달 함수 (room transfer function)의 에너지 변이 특성 (energy一 modifying characteristics)이 전형적으로_.몇 개의 초기 (강한) 반사에 의해 지배되므로， 이는 타당한가정이다. 이는 초기 반사를 보상하는 것이 귀에서의 음향 에너지의 대부분을 보정할 수 있다는 것을 의미하는데， 왜냐하면 초기에 도착하는 에너지가

방위각 (azimuth) 및 고도 (elevation) 측위의 주원인이기 때문이다.

주관적 거리 인지에서 중요한 영향을 미치는 말기의 잔향은 본 발명에서 주요 관심사가 아니라는 것을 유념한다.

[87] 도 3은 본 발명의 방법이 적용되는 벽 반사를 갖는 우측 스피커와

청취자의 귀 사이의 음향 경로를 나타내는 도면으로서， β_κ, l_R,K, 및 θ_κ,κ는 각각 번째 벽에 대한 반사 계수， 우측 스피커의 번째 상과 청취자사이의 거리， 및 우측 스피커의^번째 상과 청취자 사이의 각도를 나타낸다.

[88] 직사각형의 닫힌 실내공간이라고 가정하면, 반사 부분은 실제 음원

주위의 먼쪽 벽들에 존재하는 다양한 허 음원 (image sound

source)으로부터의 직접적인 음성으로서 모델링될 수 있다. 일 예가 도 3에 도시되는데， 여기에서는 번째 벽에 의해 발생된 반사를 고려하여 우측 스피커와 청취자의 귀 사이의 음향 경로를 나타낸다. 이 경우에， 허 음원 (imaged source)으로부터 청취자의 좌측 귀로의 음향 경로는 다음의 식 (10)으로 나타낼 수 있다.

[89] [식 10]

[90] ¾ )= β^-^Η^)

[91] 여기서， A_R,_fc=)27r(Z_R,fc-Z₀)/i:. _k, l_Rik 및 0_R,k는 각각 번째 벽에 대한 반사 계수， 우측 스피커의 번째 이미지 O th image)와 청취자 사이의 거리， 그리고 우측 스피커의 번째 이미지와 청취자사이의 각도를 나타낸다. KEMAR HRTF가 또한 특정 방향 에 대한 주파수 웅답을 표현하도록 채택되었다는 것을 유념한다. 청취자가 6 개의 평면， 즉 네 개의 벽， 천정， 및 바닥을 갖는 전형적인 실내 내에 위치할 때， 식 (4)의 전달 행렬 H'의 각 성분이 청취자를 둘러싸는 6 개의 벽에 의해 반사된 허음원으로부터의 전달 함수의 합에 의해 수정되며, 이는 다음의 식 (11)과 같다.

[92] [식 11]

[94] 0번째 벽 지수 (fc = 0)는 직접적인 음성 경로에 대웅한다는 것, 즉

Δ_Ιι0=Δ„ A_Ri0= A_R, 및 ₀ = l이라는 것을 유념한다. RIR에 관련된

CSR들은 수정된 행렬로부터 계산된다.

[95] 식 (11)에서， l_Lik, l_Rik, 9_Ltk, 및 ^는 청취 공간의 규모 (치수)와

청취자의 위치로부터 계산된다. 반사계수 ^는 직접 측정으로 얻어질 수 있거나， 특정 재료에 대한 개별적인 반사계수가 주어진 미리 설정된 테이블올 이용하여 추정될 수 있다.

[96] C. CSR에 따른 공간 분할 (Space partitioning according to CSR)

[97] 기존의 방법은 고정식 누화 제거 필터가 기본 영역에 대해 사용될 때, 일부 영역에서 누화 제거의 성능이 적절히 유지될 수 있다는 것을 보여준다 (예를 들어, CSR > 10dB)이라는 것을 보여주었다.) 이는 전체 청취 공간이 적절히 분할되고 각각의 클러스터에 적합한 누화 제거 필터가 설계된다면, 제한된 수의 누화 제거 필터를 이용하여서도 누화 제거가 효율적으로 유지될 수 있다는 것을 암시한다. 이 σ경우에, 청취자 추적 문제는 절대 청취 위치를 추정하는 것이 아닌 주어진 센서 신호에 대한 셀 지수를 알아내는 것으로 공식화될 수 있다. 이는 비교적 단순한 청취자 추적 방식을 구현하는데 도움이 될 것이다. 또한， 누화 제거 필터의 개수를 감소시키는 것은 제한된 시스템 메모리를 갖는 오디오 시스템을 위해 바람직할 수 있다. 여기에서, 공간 분할 방법이

설명되는데, 주어진 청취 구성에 대해， 누화 제거에 관한 성능이 전체 청취 공간에 대해 효을적으로 유지되도록 전체 청취 공간이 분할된다.

[98] 채널 분리율 은 기준 - ,;^)에 있는 청취자를 위해 설계된 누화 제거 필터를 이용하여 위치 = 0₂,y₂)에서 평가된 채널 분리을로서 정의된다. (？ 이 행렬 G HOi,;^)^^,;^)로부터 계산된다는 것을 유념한다. 본 발명에서 최적의 공간 분할의 문제는 다음의 식 (12)로 표현된다.

[99] [식 12]

[100] {S*, R*} = arg rnax_SiR[∑_1≤nsN[∑^_n{CSR(r*,r)}]]

[101] 여기에서 S* = {si,s₂* ,.·., s_N*] 와 R* = ,·.., )은 최적의 클러스터 세트와 각 클러스터에 대한 최적의 누화 제거 필터를 설계하기 위한 위치 세트를 각각 나타낸다. 모든 분할영역이 중첩되지 않으며 전체 청취 공간이 S*에 속하는 모든 클러스터로 구성된다는 것을 유념한다.

식 (12)의 문제는 전체 청취 공간에 걸쳐 평가된 CSR들의 합 (또는, 등가적으로， 평균 CSR)을 최대화하는 세트 S, R을 찾는 것이다. [102] CSR들이 좌측 채널과 우측 채널에 대해 별개로 평가되므로， 문제는 2개의 채널의 CSR을 이용하여 식 (12)에서 CSR을 어떻게 정의하는지가 된다. 평균 CSR이 이용될 때, 이는 좌측 채널 CSR과 우측 채널 CSR이 동일하게 큰 값을 갖는다는 것을 보장하지 않는다. 공간 분할의 목적은 좌측 채널 및 우측 채널 둘 모두에 대해 적절히 양호한 누화 제거를 유지하는 것이다. 따라서， CSR은 다음의 식 (13)과 같이 좌측 채널 CSR과 우측 채널 CSR의 최소값에 의해 주어진다.

[103] [식 13]

[104] CSR(r*,f) = min{CSR_L(r ,r),CSR_R(r*,r)}

[105] 청취 구성 (예를 들어， 두 개의 라우드스피커의 위치)이 변화될 때 특정 워치에 대한 CSR이 변한다는 것을 유념한다. 그러므로， 그 결과로 얻은 분할 및 누화 제거 필터 세트는 단지 공간 분할이 수행되었던 청취 공간에 대해서만 최적이다. 또한 여기서 제안된 공간 분할 방식에서는 스피커 임펼스 응답， 온도 및 습도와 같은 라우드스피커와 청취자의 귀로부터의 전달 함수를 변화시킬 수 있는 많은 다른 요인이 고려되지 않았다.

[106] S*,R'을 알아내기 위해， 반복 과정에 의해 최적화가 달성되는 합동 최적 알고리즘 (joint optimization algorithm)이 제안된다. 제안된 알고리즘이 도 4에 도시되었다. 전체 과정은 아래와 같다.

[107] 도 4는 본 발명의 방법이 4개의 클러스터에 적용될 경우의 공간 분할 알고리즘을 설명하기 위한 도면이다.

[108] 단계 (a-1): 초기화 - 청취 공간이 주어지면， 적절한 방법 (예를 들어 , 균일 분할)을 이용하여 초기 S⁽⁰⁾ = {_S ⁰⁾, ^{0) 0)}}이 생성된다. 문턱값 e,f⁽⁰⁾ = ~∞ 및 ί = 0올 설정한다.

[109] 단계 (a-2): 각각의 클러스터에 대한 누화 제거 필터를 갱신 ： 이전에 결정된 S⁽ⁱ⁾를 이용하여 각각의 클러스터에 대한 누화 제거 필터를 찾아내며， 여기서 누화 제거 필터는 해당 파티션에 의해 둘러싸인 영역에 속하는 모든 위치에 걸쳐서 평가된 CSR들의 합을 최대로 하는 것들이다. 실제로, 이는 CSR(^')의 합을 최대로 하는 위치 f를 구함으로써 달성되는데, 이때 은 다음의 식 (14)와 같이 해당 클러스터에 의해 둘러싸인 영역에 속하는 점들에 의해 주어진다.

[110] [식 14]

[HI] r_n ⁽ⁱ⁾ = argmax._es(o [∑_fles^ _fl≠f{CSR(r,f')}]

[112] 여기에서， l≤n≤ N이다. 그 후， 최적 누화 제거 필터를 얻기 위한 위치 세트가아래의 식 (15)과 같이 구성된다.

[113] [식 15] [114] i?« = {f ),f₂ ⁽ⁱ) }

[115] 최적 위치 f_n ⁽ⁱ⁾가 닫힌 해 (closed form solution)에 의해 주어질 수

없으므로， 최적의 누화 제거 필터를 구하기 위해 해당 클러스터에 의해 둘러싸인 구역 내의 모든 점에 걸쳐서 브루트 포스 그리드 서치 (brute- force grid search)가 이용되었다. 그리드 크기는 인접하는 CSR사이의 차이가 층분히 작도록 결정되었다. 본 발명에서는 이를 5cm로 설정하였다.

[116] 단계 (a-3): 공간 재분할 - 누화 제거 필터가 갱신된 후에， 갱신된

필터를 이용하여 전체 청취 공간을 분할할 필요가 있다. 갱신된 n번째 클러스터는 다음와 식 (16)으로 주어진다.

[117] 얻어진 필터를 이용하여 공간을 재분할하는 과정에서는 재생 공간

영역에 포함되는 모든 좌표 (x,y)에 대해 모든 누화 제거 필터를 이용하여 누화 제거를 수행하고, 이 중 가장 우수한 누화 제거 성능을 보이는 필터를 선택한다. 이를 통해 모든 좌표에 대해 최적의 누화 제거 필터가 할당되며， 동일한 누화 제거 필터가 할당된 좌표를 하나의 그룹으로 묶어 셀영역을 구성하는 것이다,

[118] [식 16]

[119] = { |C5R(_n ⁽⁰,r) > CSR(f^,f), l≤m≤N,m≠n)

[120] 여기서 l≤n≤N이다. 그 후, /번째 반복에서 최적 클러스터 세트가

다음의 식 (17) 같이 구성된다.

[121] [식 17]

[122] S(ⁱ⁺¹) = {5₁ ⁽ⁱ⁺¹⁾,5₂ ⁽ⁱ⁺¹⁾,..., ⁱ⁺¹⁾}

[123] 단계 (a-4)： 컨버전스 (convergence) 테스트 - S(ⁱ⁺¹⁾과 ^를 이용하여

i번째 반복에서 CSR의 합을 다음의 식 (18)과 같이 계산한다.

[124] [식 18]

[125] =∑_1≤n≤ ∑_€s - CSR(f^,r

[126] 만일 ( ⁽ⁱ⁾- -¹⁾)/^-¹⁾ <e라면, 각각 최종 세트의 클러스터 및 누화 제거 필터를 획득하기 위한 최종 세트의 위치들을 나타내는 S⁽ⁱ⁺¹⁾, R⁽ⁱ⁾를 정지한다. 그렇지 않다면， i를 (i + 1)로 대체하고, 단계 (a-2)로

진행한다.

[127] 이와 같이 공간 분할의 반복이 중지되는시점은 전체 누화 제거의

평균값이 정체 상태에 이르는 시점이 된다. 즉 분할과 필터 설계를 반복 수행하더라도 더 이상 누화 제거를 얻지 못하는 경우에 해당된다..

[128] 갱신 스테이지 (단계 (a-2))가 각각의 클러스터에 대한 CSR들의 합을 최대로 하는 누화 제거 필터를 산출하기 때문에, 전체 청취 공간에 대한

CSR들의 합이 이전의 반복의 CSR들의 합보다 작을 수 없다. 그러나, 비록 최대 기준이 공간 재분할 단계 (단계 (a-3))에 적용되더라도， 개별 위치의 CSR이 이전 스테이지에서보다크다고 언제나 보장할수는 없다. 이는 때때로 CSR의 합산의 감소 또는 매우 짧은 반복이라는 결과를 가져온다. 이 경우에 , 결과로 얻어진 CSR의 합은 그다지 크지 않다. 실험 결과에 따르면, 이러한 바람직하지 않은 효과에 의한 주파수는 초기 분할에 의해 다소 영향을 받은 것이었다. 이러한 실험은 백터 양자화기 설계에서 채택된 초기화 방법과 유사한 다음의 초기화 방법이 보다 안정적인 결과를 생성한다는 것을 보여주었다.

[129] 단계 (b-1): 초기화 - M = l로 설정하고, ° =^ 전체 청취 공간의 중심을 정의한다.

[130] 단계 (b-2): 분리 - M 개의 위치 {>/⁰⁾;( = 1 Λ }를 포함하는 세트 ■S⁽⁰⁾(M)이 주어지면, 각각의 위치 f/⁰⁾를 2개의 인접 위치 ⁰⁾ + 과 r ⁰⁾ - 5로 분리하며， 여기에서 = (δχ, Sy)는 고정 섭동 백터 (fixed perturbation vector)이다. { ⁽⁰⁾ + ό및 ⁽⁰⁾一 ¾의 컬텍션 S⁽⁰)(M)은

2M개의 위치를 갖는다. M을 2M으로 대체한다.

[131] 단계 (b-3): 갱신 - M = W인가?. 그렇다면, S⁽⁰⁾ = 5⁽⁰⁾(M)으로

설정하고 중단한다. 그러면, 5⁽⁰⁾는 Λ ]의 공간 분할을 위한 초기 위치 세트이다. 그렇지 않다면， 초기 세트 S⁽⁰⁾(M)를 이용하여 합동 분할 /추정 알고리즘을 실행하여, M개의 최적 위치 세트 및 그에 상응하는 M개의 누화 제거 필터를 생성하고 나서, 단계 b-2로 복귀한다.

[132] 섭동정도 (degree of perturbation)는 실험 결과를 기반으로 하여

체험적으로 결정되었다. 과 5y를 각각 0.05 과 0.05xy_max로 설정하였을 때 최상의 결과가 획득되었다.

[133] D. ANN 기반 클러스터 분류 (ANN-based cluster classification)

[134] 셀 기반의 누화 제거 (cell-based cross-talk cancel 1 at ion)를 달성하기 위해， 청취자가 현재 위치하는 클러스터 인덱스 (cluster index)를 식별할 필요가 있다. 즉， 주어진 청취 위치를 상응하는 클러스터 인텍스로 매핑하는 분류 (classification) 규칙은 위치 (x,y)-클러스터 인덱스 쌍 (position-cluster index pairs)을 이용하여 구성되어야 한다. 분류 규칙을 구성하기 전에 , 제안된 공간 분할 방법으로부터 얻어지는 클러스터의 형상을 알아 보았다.

[135] 도 5는 본 발명의 공간 분할을 이용한 위치 의존형 누화 제거 방법에 채용되는 공간 분할을 통해 얻어진 예를 도시한 도면으로서， 클러스터와 개수는 6이고， 2개의 라우드스피커 사이의 거리는 ½이며 따라서 청취 공간은 401 <4111(\/\^<1))이다.

[136] 본 발명에 채용된 공간분할 방법의 결과로서 생성되는 분할의 일 예가 도 5에 도시되었으며, 여기에서는 클러스터의 개수가 6이다. 이러한 예는 선형 결정 경계 (linear decision boundaries)들을 산출하는 분류 방법이 청취 위치를 분류하려는 목적에는 효을적이지 않다는 것을 명확히 보여준다. 본 발명에서는， 비선형 분류기로서 많이 채택되었던 인공 신경망 (artificial neural network, ANN)이 청취 위치를 청취자 공간 분할 알고리즘으로부터 얻어진 복수의 클러스터로 분류하는데 이용된다.

[137] 도 6은 본 발명의 공간 분할을 이용한 위치 의존형 누화 제거 방법에 채용된 청취자 추적 구성을 개략적으로 도시한 블록도이다.

[138] ANN-기반 접근 방법에서， 각각의 출력 노드가 특정 클러스터 인덱스에 대응한다. 따라서， 출력 노드의 개수는 클러스터의 개수와 동일하다. 분류는 ANN의 입력 노드에 청취 위치 ( c,y)를 제시한 다음 어느 출력 노드가 최대값을 갖는지를 식별함으로써 달성된다. 그러나， 이러한 접근은 청취 위치가 또한 추정되어야 하므로 비효율적이다. 본

발명에서는, 도 6에 도시된 바와 같이, 청취자의 위치를 ANN의

입력으로서 이용한 대신에 한 쌍의 마이크 신호들 사이의 시간 지연을 이용하는 접근이 채택된다. 한 쌍의 마이크로부터 얻어진 신호는 청취자로부터의 음향 신호 (예를 들어， 손뼉 치기 (hand clapping))에 의해 주어진다. 이러한 접근의 기본 원리는， 마이크의 개수가 3보다 크다는 조건 하에, 한쌍의 마이크 신호들 사이의 시간 지연에 의해 3차원의 청취 위치가 독특하게 결정된다는 것이다. 이러한 접근을 이용하여, 전체 분류기가 두 개의 캐스케이드식 분류기 (cascaded classifiers)로 구성된다고 말할 수 있다. 제 1분류기는 시간 지연을 청취 위치로 매핑하며， 그런 다음 제 2분류 스테이지에서 청취 위치를 클러스터 인덱스로 분류한다. 본 발명에서 채택된 ANN의 구조는 다중 층

인지 (multi-layer perception, MLP)의 형태를 취한다. 그러므로， 2개 스테이지 분류기 구조는, 은닉 층 (hidden layer)의 개수를

증가시킴으로써, 단일 MLP를 이용하여 쉽게 구현돨수 있다. 실험 결과에 따르면, MLP가 3개의 은닉 층을 포함하고 은닉 층에서 노드의 개수가 출력 노드의 1.5배로 설정되었을 때, 최상의 분류 결과가 얻어졌다.

[139] 시간 지연 추정과 관련된 문제는 본 발명에서 고려되지 않았다. 알려진 청취 위치에 대해 한 쌍의 마이크 신호들 사이의 실제 시간 지연이 있다고 가정되었다. [140] [실험예]

[141] 도 7은 본 발명의 공간 분할을 이용한 위치 의존형 누화 제거 방법을 이용한 실험예에 이용된 가상 청취 공간을 도시한 도면이다.

[142] 본 발명에 채용된 공간 분할 알고리즘이 가상 공간 (virtual space)에서 수행되었다. 실험에 채택된 가상 공간의 형상 및 치수는 도 7에 도시되어 있다. 전체 가상 공간의 크기는 6x6x2.5m³(WDH)이며， 실제 청취 영역은 가상 공간의 중심에 위치된 각각의 측방향 길이가 4m인

사각형이었다. 원점은 2개의 라우드스피커가 위치된 수평선의 중앙에 의해 주어졌다. 2개의 라우드스피커들 사이의 거리는 ½이었으며， 이는 작은 실내의 정상적인 청취 조건에 적합했다. 본 실험은 단지 수평면 내에서의 누화 제거에 관련된 문제에만 집중했다. 그러므로， 본

실험에서는， 제로 (0) 앙각 (elevation angle)에서 HRTF가 이용되었다. 청취 위치를 추적하기 위한 (또는， 등가적으로， 본 작업에서 클러스터 인덱스를 발견하기 위한) 마이크의 위치는 도 7에 도시되어 있으며, 이는 (-3， 1.95), (-3, 2.05), (3， 1.95)， (3, 2.05), (-0.05， 0), 및 (0.05, 0)이었다. 따라서， 총 6개의 마이크가 청취자 추적에 이용되었다.

청취자의 위치는 실제 청취 영역 내로 제한되었다. 전달 행렬 H를 구성하는데 있어서 단지 1차 반사만 고려되었으며, 이는 식 (11)에 의해 주어진다. 각각의 벽에서 직접 측정에 의해 반사 계수가 획득되었다.

[143] A. 공간 분할 결과

[144] 도 8a내지 8c는 본 발명의 공간 분할을 이용한 위치 의존형 누화 제거 방법의 실험예에 따른 결과물을 도시한 도면이다. 도 8a내지 8c는 각각 클러스터 수가 4, 8, 및 16개로 공간분할 된 것을 보여주며, 하부는 각각의 상부 공간분할에 대한 채널 분리율 윤곽선 플롯을 나타낸다.

[145] 본 발명의 방법에 따라 얻어진 공간 분할 결과가 도 8a, 8b, 및 8c의 상부에 도시되었으며， 각각의 구역이 그레이 레벨 (gray level)로 표시되었다. 클러스터의 개수는 각각 4， 8 및 16이다. 상웅하는 CSR 플롯이 각각 도면의 하부에 도시되어 있다. 데시벨 단위의 채널 분리율은 그레이 레벨로 표시된다. 그레이 레벨이 더 밝을수록 CSR이 더 크다. 그러므로， CSR윤곽선 (contour) 플롯의 흰색 구역이 최대 CSR지점에 해당하며, 최대 CSR지점은 누화 제거 필터를 설계하기 위한 위치이다. 예상되는 바와 같이 , 클러스터의 형상은 VQ클러스터링 (VQ- clustering)으로부터 얻어지는 보로도이 셀 (Voronoi cell)과 유사하지 않다. 이는 CSR이 누화 제거 필터를 설계하기 위한지점에 상응했던 중심 (centroid)으로부터의 거리에만 전적으로 의존하지 않기 때문이다. CSR은 중심으로부터의 거리뿐만 아니라 좌측 라우드스피커 및—우측ᅳ ᅳ— 라우드스피커로부터의 거리， 그리고 2개의 라우드스피커에 대한 시야 방향 (look-direct ion)에 의해 결정되었다. 이는 클러스터 내에 CSR의 복잡한 윤곽선 플롯을 생성하였다. 대부분의 클러스터는 호 (arc) 또는 윙 (wing)의 형태를 취한다. 중심 (누화 제거 필터를 위한 설계 지점)은 균일하게 분포되지 않았으며 , 일부 증심은 도 8a, 8b, 및 8c의 하부에 도시된 바와 갈이 동일한 호를 따라 위치되었다.

[146] 이러한 구성에서, 2개의 인접한 클러스터들이 때때로 분명하게

분리되지 않았다. 예를 들어, 4개의 클러스터의 경우에, y축의 하부에 위치된 2개의 클러스터는 클러스터의 경계에서 잘 구별되지 않았다. 이는 청취자가 클러스터 경계 근처에 위치될 경우에는， 심지어 작은

변위조차도 누화 제거 필터의 스위칭을 일으켜서 가청 불연속 (audible discontinuities)을 야기한다는 것을 나타낸다. 그러므로, 청취자가 클러스터 경계에 인접할 경우에는 필터의 보간 (interpolation)을

구현하는 것이 매우 바람직하다.

[147] 도 9a내지 9c는 본 발명의 공간 분할을 이용한 위치 의존형 누화 제거 방법의 실험예에 따른 결과물을 도시한 도면으로서, 각각 4， 8 및 16개의 클러스터로 분할된 상태에서 10dB 채널 분리율 (스윗 스폿)의 윤곽선 플롯을 보여주며, 백색 영역이 스윗 스폿에 해당한다.

[148] 보고에 의하면， KMB의 누화 제거가 바람직한 주관적 인지를 얻는데

필요한 적절한 추정치이다. 따라서， 0.3 내지 3.0 kHz의 주파수 범위에서， 적어도 10dB누화 제거 성능이 스위트 스폿의 경계의 기준으로서

선택되었다. 도 9a내지 9c에 제시된 CSR≥10dB구역의 플롯은， 공간을 더 많은 개수의 클러스터로 나눌 때 조차도, 스위트 스폿이 전체 청취 공간을 커버할 수 없다는 것을 보여준다. 실험 결과에 따르면, 비교적 많은 개수 (≥10)의 클러스터가 채택되었을 때 10dB미만의 CSR을 갖는 영역의 대부분이 라우드스피커와 벽 근처에 있었다. 이러한 결과의 일 예를 도 9c에서 알 수 있으며, 여기서는 클러스터의 개수가 16이다.

일반적인 청취 상황에서는, 청취자가 라우드스피커에 많이 근접하지 않는다. 따라서 일반적인 청취 상황을 고려하면， 청취자가 스위트 스폿 구역의 외부에 위치될 확률이 매우 낮다고 예상된다.

[149] 도 10은 본 발명의 공간 분할을 이용한 위치 의존형 누화 제거

[150] 다양한 클러스터 개수에 대한 평균 CSR들이 도 10의 상부에 도시되어 있다. 클러스터의 개수가 KEMAR 데이터베이스에서의 HRTF총 개수의 ^' 절반인 36을 초과할 때는， 본 발명에서 메모리 공간이 그다지 절약되지 않는다는 것에 유념한다. 따라서 클러스터의 최대 개수는 실험에서

36으로 제한되었다. 결과는 클러스터의 개수가 증가함에 따라 평균 CSR이 변화없이 증가된다는 것을 보여주었다. 이러한 도면에서 관찰된 흥미로운 사항 중의 하나는， 비록 클러스터의 개수와 CSR의 역 (inverse) 사이의 명시적인 관련성이 존재하지 않더라도， CSR곡선의 역의 형상이 일반적인 비트율 -왜곡 곡선 (rate-distortion curve)을 닮았다는 것이다.

[151] 도 10의 하부는 CSR이 KWB보다 큰 영역의 퍼센트에 대한 폴롯을

도시한다. 클러스터 개수를 증가시키면, CSR이 10dB보다 큰 영역도 또한 증가된다. 예를 들어， 클러스터의 개수가 14보다 클 경우, 10dB의

CSR보다 큰 CSR값을 가지는 청취 공간 내에서， 모든 평가된 위치의 퍼센트가 90%보다 컸다. 클러스터의 개수가 20을 초과할 경우， 전체 청취 공간의 95%이상이 10dB보다 큰 CSR을 가졌다. 이는 특정 영역에 적합하게 설계된 제한된 개수의 누화 제거 필터가 이용될 때 조차도， 스위트 스폿이 거와전체의 청취 공간을 차지하게 된다는 것을 나타낸다.

[152] 결과적으로， 누화 제거에 관한 적합한성과를 얻기 위해서는 제한된 개수의 누화 제거、필터가 필요하다고 할 수 있다.

[153] B. ANN기반 분류 결과 (扁-based classification results)

[154] 도 11a내지 11c는 본 발명의 공간 분할을 이용한 위치 의존형 누화 제거 방법에서 인공신경망을 이용한 공간 분류 결과를 보여주며, 각각 클러스터 수가 4， 8 및 16이며， 회색 레벨이 다르면 다른 클러스터이다.

[155] 4, 8， 및 16개의 클러스터에 대한 ANN의 분류 결과가 도 11a내지

11c에 도시되어 있다. 결과는 6400개의 시간지연 대 클러스터 인덱스 쌍 (time delays— to-c luster index pairs)올 이용하여 트레이닝된

ANN( trained ANN)에 의해 획득되었다. 시간 지연은 도 7에 도시된 위치들에 놓여진 3개의 마이크로부터의 신호를 이용하여 계산되었다. 따라서, ANN에 대한 입력 노드의 개수와 동일한 3개의 시간 지연이 있었다. 시간 지연 추정 방법에 의해 일어나는 오차는 본 발명에서 고려되지 않았다. 따라서 시간 지연은 각각의 마이크에 대한 청취자의 거리를 이용하여 계산되었다. 각각의 위치에 대한 클러스터 인덱스는 상술한 본 발명의 공간 분할 방법에 의해 주어지며， 이는 도 8a 내지 8c의 상부에 도시된다. ANN을 트레이닝하기 위한 최대 반복 회수는 10000으로 설정되었다. ANN 입력값 (시간 지연) 모두가 그들의 분산 및 평균에 의해 정규화되었다. 역 전파 트레이닝 알고리즘 (back propagation training algorithm)의 경우에， 학습 이득 (learning gain, η)은 0.5로 설정되었고, 시그모이드 활성 함수 (sigmoid active function)의 운동량 상수 (momentum constant, α)는 0.7로 설정되었다.

[156] 분류 결과는, 도 8a내지 8c에 도시된 바와 같이, 각각의 클러스터

경계 (boundary)의 전체 형상이 오리지널 공간 클러스터링 결과와 유사하다는 것을 명확하게 보여주었다. 각각의 클러스터의 경계 형상이 본래의 분할보다 매끄러웠다는 것이 주목할 만하다. 예를 들어， 오리지널 분할에서 종종 관측되었던 클러스터 경계의 톱니-형상이 대부분 사라졌다. 이는 ANN으로부터 얻어진 분류 경계의 형상은 노드의 개수 및 채택된 활성 함수 (active function)에 의해 특징 지워진다는 사실에 기인한다. 따라서， 제한된 개수의 ANN노드가 매끄러운 클러스터 형상을 생성했다. 그러나， 보다 단순한 분류 경계 형상은 클러스터 경계 구역에서 분류 오차를 야기한다. 실험 결과에 따르면， 클러스터의 개수가 각각 4, 8, 및 16이었을 때, 정확한 분류율 (correct classification ratio)은 95.1%, 93.4%, 및 92.6%이었다. 이는 클러스터의 개수가증가됨에 따라 분류 오차가 증가된다는 나타낸다. 얻어잔위치의 퍼센트 중 KWB보다큰

CSR을 가지는 것은 각각 59.1%, 77.5%, 및 89.2%이었다. 비록 ANN의 분류 정확도가 클러스터의 개수에 따라 감소되긴 했지만， 1CWB의 CSR보다 큰 CSR을 갖는 영역의 퍼센트에 관한 결과는 상대적으로 많은 개수의

클러스터가 채택되었을 경우 심하게 낮아지지 않았다.

[157] 분류 정확도 및 CSR결과가 ANN에서의 노드 개수 및 마이크 쌍의

개수가 증가되었을 때 약간 개선되었다. CSR 결과는 심자어 ANN에서 매우 많은 개수의 노드 및 많은 개수의 마아크가 이용되었을 때에도 그다지 개선되지 않았다.

[158] C. 피험자 청취 테스트 결과 (Subjective listening test results)

[159] 본 발명의 방법에 의해서 임의의 청취 위치에서 인지된 누화 신호가

적절히 감소되었는지 여부를 검증하기 위해 주관적 청취 테스트가

수행되었다. 검증은 가상 음성 위치에 대한 정확한 식별 점수를 평가하는 것으로 이루어졌다. 수평면 상에서의 미리 명시된 13개 방향의 가상 음성 상 (virtual sound image)들이 공간 분할 규칙을 구성하는데 채택된

HRTF를 이용하여 렌더링되었다. 이어 6개의 위치가 가상 청취 공간 내에서 무작위로 선택되었다. 따라서, 위치 및 가상 음성 방향의 조합의 개수는 78이었다. 각각의 샘플링 위치에 대한 누화 제거 필터가 해당 클러스터로부터 선택되었다. 클러스터의 개수는 16이 되도록

선택되었는데， 16은 모든 누화 제거 필터를 나타내는데 필요한 정보의 양과 결과사이에서 좋은 절층안이었다. 무잔향 환경 및 잔향이 있는 환경 (잔향 환경)에 대한 평가가 수행되었다.

[160] 1) 무향 환경에 대한 평가 (Evaluation for anechoic environment):

무향실 (4x3 x 1.5m³, WDH)에서 12명의 피험자가 참여하는 청취 테스트가 수행되었다. 모든 피험자는 정상적인 청각 능력을 가졌다. 각각의

피험자는 결정을 하기 전에 필요한 횟수만큼 자극을 청취하도록

허용되었다. 청취자 피로의 효과를 완화시키기 위해， 청취 테스트는 3개의 세션으로 나누었다. 각각의 피험자에게 각각의 세션 내에서 22개의 자극이 주어졌다. 피험자의 귀의 높이는 1.2m아었으며, 이는

라우드스피커와 동밀한 높이였다. 2개의 라우드스피커 사이의 거리는

4m이었으며, 이는 가상 청취 공간 내의 거리와 동일했다. 평가 위치는 무향실의 중앙에 위치된 직사각형 구역 (3.5x2.5 m²,WD)으로부터 무작위로 선택되었다.

[161] 100ms의 코사인 페이드 인 (fade-in)와 페이드 아웃 (fade-out)을 갖는 1초 핑크 잡음 샘플 (1-second pink-noise sample)이 음원으로서 이용되었다. 자극의 수준은 피크 A-가중치 음압 레벨 (peak A-weighted sound pressure level)이 70dB을 초과하지 않도록 조정되었다. 이는 레벨 적웅 (level adaptation)을 방지하기 위해 수행되었다. 한사람에 대해 계산된 테스트 시¾스에 대한 이득 조정 (gain adjustment)은 행해지지 않았는데, 왜냐하면 레벨에서의 유일한 가변성 (only variability in level)은 사용된 누화 제거 필터에 의해 도입되었기 때문이다. 음성은 한 쌍의 제네렉 8020A(GENELEC 8020A) 이증 증폭 모니터 스피커 (bi- amplified monitor speaker)를 통해 제공되었다. 실험에서， 피험자가 비주얼 큐 (visual que)에 의해 음성의 방향을 판단하는 것을 방지하기 위해 라우드스피커는 음향 투과성 스크린 뒤에 배치되었다. 공간 분할에서 오로지 직접적인 음성만이 고려되었다는 것, 즉 식 (11) = 0forK≥l이라는 것을 유념한다.

[162] 도 12는 본 발명의 공간 분할을 이용한 위치 의존형 누화 제거 방법의 실험예에 따른 주관적 측위 테스트의 결과를 도시한 그래프이며， 가로축은 타겟 방위각 (도)를 나타내고， 세로축은 판단된 방위각 (도)를 나타낸다. 참고로, 도 14는 도 12와 비교를 위해 도시한 위치 기반 누화 제거에 대한 측위 테스트 결과를 나타낸다.

[163] 도 12 및 14에서 측위 테스트 (localization test)의 결과를 보여주는데 이들은 여기서 타겟 각도 대 판단한 각도를 보여준다. 각각의 원의 크기는 가상 음성 방향에 대한 정확한 식별율에 비례한다. 상술한 바와 같이 비교를 위해, 본 발명의 공간 분할을 이용한 셀 기반의 누화 제거 방법에 따른 측위 결과가 도 12에 도시되었고， 기존의 위치 기반 누화 제거 방법에 따른 측위 결과가 도 14에 도시되었다. 먼저 도 14는 누화 제거 필터가 각각의 청취자 위치에서 계산된 경우쎄 관한 것이다. 이러한 경우는 "위치 기반 누화 제거 (posit ion— based cross-talk

cancellation)" 로 불린다. 도 12의 결과는 본 발명에서 제안된 샐 기반 누화 제거 (cell-based cross-talk cancel 1 at ion)의 경우에 대한 것이다. 2경우 모두에서, 가상 음원이 좌 /우측 코너 근처와 정면에 (±80° ， 0° 의 방위각)에 위치할 때, 공통적으로 더 정확한 식별율이 관측되었다. 중간 방위각 (-40° —10° , 10° -40° )의 경우에는， 2경우 모두에서 전반적으로 정확도가 낮았다. 이는 주로 방위각이 조밀하게 이격되었으며 대부분의 피험자가 가상 음성 방향에서의 미세한 차이를 구별하는 것이 어려웠기 때문이다. 위치 기반 누화 제거 및 셀 기반 누화 제거의 경우에 전체적인 정확한 식별율은 각각 43.7% 및 41.73%이었다. 이러한 결과는 심지어 샐 대 샐 누화 제거 (cell-by-cell cross-talk cancel 1 at ion)가 수행될 때에도 음성 측위에 관하여 전반적인 결과가 그다지 낮아지지 않았다는 것을 나타낸다. 위치 기반 누화 제거의 경우에, HRTF보간법이

채택되었으며, 여기서 (전방 방위각에 해당하는) 총 36개의 HRTF가 이용되었다. 따라서， 조사 결과는 심지어 누화 제거를 위해 필요한 정보의 양이 55%만큼 감소되었을 때에도 음성 측위 성과가 적절히 유지되었다는 것을 나타낸다. 또한， 미리 구성된 누화 제거 필터가 이용되었기 때문에， 셀 기반 구성에서는 누화 제거 필터 계수를 획득하기 위한 긴 계산 시간이 필요하지 않았다.

[164] 2) 잔향 환경에 대한 평가 (Evaluation for reverberation environment)：

[165] 도 13은 본 발명의 공간 분할을 이용한 위치 의존형 누화 제거 방법을 적용한 잔향 환경 (가정 거실)에 대한 주관적 측위 테스트의 결과를 보여주는 도면으로서, 가로축은 타켓 방위각 (도)이고 세로축은 판단된 방위각 (도)를 나타낸다.

[166] 본 발명의 누화 제거 방법의 유효성을 보다 실질적으로 검증하기 위해, 일상 환경에서의 주관적 성과를 평가할 필요가 있다. 이를 위해, 청취 테스트가 본래부터 홈 씨어터 (home theater)로 조성된 가정 거실 (8x6x 2.5 m³,WDH) 에서 또한 수행되었다. 불필요한 에코를 방지하기 위해， 벽에 방음 커튼이 설치되었으며 카펫으로 실내 바닥 덮었다. 청취

테스트의 프로토콜은， 공간 분할에서 반사형 신호가 고려되었던 것을 제외하고는， 상술한 무향 환경에 대한 프로토콜과 동일했다. 16개의 클러스터가 있었으며， 동일한 12명의 피험자가 이 테스트에 참가했다.

[167] 결과는, 도 13에 도시된 바와 같이, 전반적인 경향이 무향 환경인

경우의 전반적인 경향과 유사하였다. 전반적으로 정확한식별율은

40.5%이었으며, 이는 무향 환경보다 크게 낮지는 않았다. 그러나， 정확한 방향과 인지된 방향 간의 편차는 무향 환경의 결과에 비해 더 컸다. 또한， 가상 음원이 ±55^° 의 방위각에 위치할 때, 음성 방향은 종종 인접한 방향 (±40° )으로 인지되었다. 이는 피험자가 벽에 더 가까이 앉았을 때 더 자주 관측되었다. 이는 비록 공간 분할에서 잔향 효과가 고려되긴 했지만 인지된 음성 방향이 잔향 효과에 의해 다소 영향을 받았다는 것을 나타낸다. 실내 임필스 반웅의 단순한 표현 (단지 초기 반사만

고려되었음)은 벽의 측부 근처에서 누화 제거 성과를 낮추는 가능한 원인이다. 그러므로， 실제 상황인 경우에， 특히 벽 측부에서 잔향 효과에 대한 보다 더 정밀한 표현이 위치 기반 누화 제거를 갖는 오다오 시스템의 전체적인 성능을 높이는데 도움이 될 것이다.

[168] [결론]

[169] 본 발명은 임의의 청취 위치에서 적절한 정도의 누화 제거가 달성될 수 있는 음성 렌더링 방법을 제공한다. 이러한 방법은 전체 청취 공간을 복수의 비중첩 클러스터로 분할하고 각각의 클러스터에 대해 적합한 누화 제거 필터를 할당함으로써 구현되었다. 청취 공간을 나누고 나서 한 세트의 누화 제거 필터를 구성하는 새로운 방법을 제공하며， 이는 최대 CSR 기준에 기반을 둔다. 주어진 청취 위치에 대한 클러스터 인덱스를 획득하기 위해 ANN이 채택되었다. 본 발명의 유효성이 실험을 통해 어느 정도 검증되었다. 객관적인 평가에서, 청취 공간 내의 대부분의 위치가 10dB보다 큰 채널 분리율을 가졌다. 기대되는 결과가 주관적인 청취 테스트에서 또한 얻어졌는데， 가상 음성 위치에 대한 정확한 식별률이 포지션 바이 포지션 기반 방식과 필적할 만하였다.

[170] 본 발명의 셀 기반 누화 제거 방식에는 몇 가지 제약이 있다. 이동하고 있는 청취자를 위해 필터 매개변수가 연속적으로 갱신되는 웅용에서:, 클러스터 경계에서의 필터 매개변수의 스위칭은 성가신 비연속성을 야기했다. 이 결과는 또한 채널 분리율의 관점에서의 성능이 전체 청취 공간에 걸쳐 균일하게 유지되지 않았다는 것을 보여주었다. 향후의 연구는 이들 이슈에 집증할 것이다.

Claims

청구의 범위

[청구항 1] 스피커를 이용하는 바이노럴 재생시스템에서 누화를 제거하는 방법으로서: 청취 공간을 복수개의 셀영역으로 분할하는 단계; 및 상기 복수개의 셀영역 각각의 최적 위치에 하나의 누화 제거 필터를 할당하는 단계;를 포함하는， 공간 분할을 이용한 위치 의존형 누화 제거 방법.

[청구항 2] 청구항 1에 있어서 ,

상기 단계 (2)에서 상기 최적 위치는 분할된 복수개의 셀영역 내의 모든 지점 중에 채널 분리율의 합또는 평균이 최대가 되는 지점이며, 상기 채널 분리율은 최초 신호의 대각성분과 누화 신호의 비대각성분 사이의 비율을 나타내는 것인, 공간 분할을 이용한 위치 의존형 누화 제거 방법.

[청구항 3] 청구항 2에 있어서，

상기 채널 분리율은 좌측 채널에 대한 것과 우측 채널에 대한 것의 최소값을 선택하는 것인， 공간 분할을 이용한 위치 의존형 누화 제거 방법 .

[청구항 4] 청구항 1 내지 3에 있어서，

상기 단계 (2) 이후에, 인공 신경망을 이용하여 상기 복수의 셀영역의 지수를 추정함으로써 청취 위치의 추정을 수행하며， 상기 청취 위치의 추정은 상기 청취 공간에 설치된 마이크 쌍 간으로부터 신호의 시간지연으로부터 추정되는 것인， 공간 분할을 이용한 위치 의존형 누화 제거 방법.

[청구항 5] 청구항 1에 있어서， 상기 단계 1 및 2는：

(a-1) 청취 공간이 주어지면, 상기 청취 공간을 각각 임의의 형태를 가지는 상기 복수개의 샐영역 (S⁽⁰⁾ = {si⁰⁾,s ⁰⁾))으로 분할하는 초기화를 수행하는 단계; (a-2) 상기 복수개의 샐영역 、 각각에 대하여 셀영역 전체의 모든 위치에 걸쳐서 평가된 채널 분리율 의 합이 최대가 되는 지점 (ί 에 하나의 누화 제거 필터를 할당하는 누화 제거 필터 세트를 할당 단계; 및 (a- 3) 상기 누화 제거 필터를 이용하여 상기 청취 공간을 재분할 하는 단계;를 포함하는 것인， 공간 분할을 이용한 위치 의존형 누화 제거 방법 .

[청구항 6] 청구항 5에 있어서，

상기 단계 (a-2)와 상기 단계 (a-3)은 소정 조건까지 반복하는 것 인, 공간 분할을 이용한 위치 의존형 누화 제거 방법.

[청구항 7] 청구항 6에 있어서， 상기 단계 (a-1)에서 문턱값 e,f⁽⁰⁾ = -co 및 i = 0을 설정하며， 상기 단계 (a-2)와 상기 단계 (a-3)의 반복에서 : 반복적으로 구해지는 누화 제거 필터의 위치 다음의 식에 따라산출되고,

여기에서， l≤ n≤N이고？'은 기본 셀영역에 속하는 영역의 지점들로 주어지며,

n번째 반복된 복수개의 셀영역은 다음식으로 주어지며ᅵ，

+¹⁾ = {r\CSR{^,r)≥ CSR{f^ f), l≤m≤N,m≠n) 여기서 1≤η≤Λί이고， 그에 따라 i번째 반복에서 최적 클러스터 세트가 다음식으로 주어지며，

₅(_{i+1) = s +1})_{s +}i) ,.·., _s ÷i)j

ί^'번째 반복에서 CSR의 합이 다음식으로 주어질 때，

만일 (fW-^-^/^-^ e라면， 각각 최종 세트의 클러스터 및 누화 제거 필터를 획득하기 위한 최종 세트의 위치들을 나타내는 S⁽ⁱ⁺¹⁾, R⁽ⁱ⁾를 정지하고， 그렇지 않다면， ί를 + 로 대체하고, 다시 상기 단계 (a-2)로 진행하여 반복하는 것인， 공간 분할을 이용한 위치 의존형 누화 제거 방법 .

[청구항 8] 청구항 1 또는 7에 있어서，

상기 복수개의 셀영역의 각각은 상호 비중첩되는 것인, 공간 분할을 이용한 위치 의존형 누화 제거 방법 .