KR20110049863A

KR20110049863A - 오디오 신호 트랜스포맷팅

Info

Publication number: KR20110049863A
Application number: KR1020117005432A
Authority: KR
Inventors: 데이비드 에스. 맥그라스; 글렌 엔. 딕킨스
Original assignee: 돌비 레버러토리즈 라이쎈싱 코오포레이션
Priority date: 2008-08-14
Filing date: 2009-08-13
Publication date: 2011-05-12
Also published as: US8705749B2; CN102124516B; WO2010019750A1; EP2327072A1; JP5298196B2; JP2012500532A; CN102124516A; EP2327072B1; US20110137662A1; KR101335975B1; KR20130034060A

Abstract

본 발명은, 복수의 오디오 입력 신호를 동적으로 변하는 트랜스포맷팅 행렬에 적용하여 상기 복수의 오디오 입력 신호를 제 1 포맷으로부터 제 2 포맷으로 리포맷팅하는 방법에 관한 것이다. 보다 구체적으로, 본 발명은 하나 이상의 방향성 신호 성분의 방향 및 강도에 기인하는 정보를 획득하고, 제 1 및 제 2 규칙에 기초하여 트랜스포맷팅 행렬을 계산하고, 오디오 입력 신호를 트랜스포맷팅 행렬에 적용하여 출력 신호를 산출한다.

Description

오디오 신호 트랜스포맷팅{AUDIO SIGNAL TRANSFORMATTING}

관련 출원에 대한 상호 참조

본 출원은 2008년 8월 14일에 제출되고 전체가 본원에 통합되어 있는 미국 특허 가출원 번호 61/189,087의 우선권을 주장한다.

본 발명은 일반적으로 오디오 신호 프로세싱(audio signal processing)에 관한 것이다. 보다 구체적으로, 본 발명은 복수의 오디오 입력 신호를 동적으로 변하는 트랜스포맷팅 행렬(transformatting matrix)에 적용하여 상기 입력 신호를 제 1 포맷에서 제 2 포맷으로 리포맷팅(reformatting)하기 위한 방법에 관한 것이다. 본 발명은 또한 이와 같은 방법을 실행하기 위한 장치와 컴퓨터 프로그램에 관한 것이다.

본 발명의 양상에 따라, 복수[NI]의 오디오 입력 신호[Input₁(t)]를 동적으로 변하는 트랜스포맷팅 행렬[M]에 적용하여 상기 복수의 오디오 입력 신호를 제 1 포맷에서 제 2 포맷으로 리포맷팅하기 위한 방법으로서, 상기 복수의 오디오 입력 신호는 각각 자신에 대한 정보와 연관된 개념상 소스 신호(notional source signal)[Source₁(t)...Source_NS(t)]를 인코딩 행렬(encoding matrix)[I]에 적용하여 도출된 것으로 가정되고, 상기 인코딩 행렬은 각각의 개념상 소스 신호와 연관된 개념상 정보에 따라 각각의 개념상 소스 신호를 처리하는 제 1 규칙에 따라 상기 개념상 소스 신호를 처리하고, 상기 트랜스포맷팅 행렬은 자신에 의해 생성된 복수[NO]의 출력 신호[Output₁(t)...Output_NO(t)] 및 상기 개념상 소스 신호를 이상적인 디코딩 행렬(ideal decoding matrix)[O]에 적용하여 도출된 것으로 가정되는 복수[NO]의 개념상 이상적인 출력 신호[IdealOut₁(t)...IdealOut_NO(t)] 사이의 차이가 감소하도록 제어되고, 상기 디코딩 행렬은 각각의 개념상 소스 신호와 연관된 개념상 정보에 따라 각각의 개념상 소스 신호를 처리하는 제 2 규칙에 따라 상기 개념상 소스 신호를 처리하는 방법은,

복수의 주파수 및 시간 세그먼트(segment) 각각에서 오디오 입력 신호에 응답하여, 확산하는, 비-방향성 신호 성분의 방향 및 강도에 기인하는 정보를 얻는 단계와,

상기 제 1 규칙과 제 2 규칙에 기초하여 상기 트랜스포맷팅 행렬을 계산하는 단계로서, (a) (i) 상기 복수의 주파수 및 시간 세그먼트 중 적어도 하나에서 오디오 입력 신호의 공분산 행렬(convariance matrix) 및 (ii) 상기 복수의 주파수 및 시간 세그먼트 중 동일한 적어도 하나에서 오디오 입력 신호 및 개념상 이상적인 출력 신호의 교차 공분산 행렬을 추정하는 단계와, (b) (i) 방향성 신호 성분의 방향 및 강도와 (ii) 확산하는 비-방향성 신호 성분의 강도를 결합하는 단계를 포함하는, 트랜스포맷팅 행렬을 계산하는 단계와,

상기 오디오 입력 신호를 상기 트랜스포맷팅 행렬에 적용하여 상기 출력 신호를 생성하는 단계를 포함한다.

상기 트랜스포맷팅 행렬 특징은 공분산 행렬 및 교차 공분산 행렬의 함수로써 계산될 수 있다. 트랜스포맷팅 행렬[M]의 원소는 공분산 행렬의 역(inverse)에 의해 교차-공분산 행렬 상에서 우측으로부터 연산함으로써 획득될 수 있다.

M = Cov([IdealOutput],[Input]){Cov([Input],[Input])}^-1

상기 복수의 개념상 소스 신호는 서로에 대해 상호 비상관(uncorrelated) 되는 것으로 가정될 수 있고, 여기서 상기 개념상 소스 신호의 공분산 행렬의 계산이 M의 계산에 고유할 때 상기 공분산 행렬은 대각화(diagonalized)됨으로써, 상기 계산을 간소화한다. 디코더 행렬[M]은 최대 경사(steepest descent) 방법에 의해 결정될 수 있다. 상기 최대 경사의 방법은 이전의 시간 간격으로부터의 M의 이전 추정에 기초하여 트랜스포맷팅 행렬의 반복 추정치를 계산하는 경사 강하 방법(gradient-descent method)일 수 있다.

본 발명의 양상에 따라, 복수[NI]의 오디오 입력 신호[Input₁(t)...Input_NI(t)]를 동적으로 변하는 트랜스포맷팅 행렬[M]에 적용하여 상기 복수의 오디오 입력 신호를 제 1 포맷으로부터 제 2 포맷으로 리포맷팅하기 위한 방법으로서, 상기 복수의 오디오 입력 신호는 각각 서로 상호 관련되지 않고 자신에 대한 정보와 각각 연관된 것으로 가정되는 복수의 개념상 소스 신호들(S = [Source₁(t)...Source_NS(t)])을 인코딩 행렬[I]에 적용하여 도출된 것으로 가정되고, 상기 인코딩 행렬은 각각의 개념상 소스 신호와 연관된 개념상 정보에 따라 상기 각각의 개념상 소스 신호를 처리하는 제 1 규칙에 따라 상기 개념상 소스 신호를 처리하고, 상기 트랜스포맷팅 행렬은 상기 트랜스포맷팅 행렬에 의해 생성된 복수[NO]의 출력 신호들[Output₁(t)...Output_NO(t)] 및 상기 개념상 소스 신호를 이상적인 디코딩 행렬[O]에 적용하여 도출된 것으로 가정되는 복수[NO]의 개념상 이상적인 출력 신호들[IdealOut₁(t)...Idealout_NO(t)] 사이의 차이가 감소하도록 제어되고, 상기 디코딩 행렬은 각각의 개념상 소스 신호와 연관된 개념상 정보에 따라 상기 각각의 개념상 소스 신호를 처리하는 제 2 규칙에 따라 상기 개념상 소스 신호를 처리하는 방법은,

복수의 주파수 및 시간 세그먼트 각각에서 오디오 입력 신호에 응답하여, 하나 이상의 방향성 신호 성분의 방향 및 강도와 확산하는 비-방향성 신호 성분의 강도에 기인하는 정보를 얻는 단계와,

상기 트랜스포맷팅 행렬(M)을 계산하는 단계로서, 상기 계산하는 단계는 (a) 상기 복수의 주파수 및 시간 세그먼트에서, (i) 방향성 신호 성분의 방향 및 강도와 (ii) 확산하는 비방향성 신호 성분이 강도를 결합하는 단계로서, 상기 결합하는 단계의 결과는 상기 소스 신호의 공분산 행렬[S × S^*]의 추정치를 구성하는, 결합 단계, (b) ISSI = I × [S × S^*] × I^* 및 OSSI = O × (S × S^*] × I^*를 계산하는 단계와, (c) M = (OSSI) × (ISSI)^-1을 계산하는 단계를 포함하는, 트랜스포맷팅 행렬(M) 계산 단계와,

상기 오디오 입력 신호를 상기 트랜스포맷팅 행렬에 적용하여 출력 신호를 생성하는 단계를 포함한다.

상기 개념상 정보는 인덱스(index)를 포함할 수 있고 특정 인덱스와 연관된 제 1 규칙에 따른 프로세싱은 동일한 인덱스와 연관된 제 2 규칙에 따른 프로세싱과 쌍을 이룰 수 있다. 제 1 규칙과 제 2 규칙은 제 1 검색표 및 제 2 검색표로서 구현될 수 있고, 표 엔트리(table entry)들은 공통 인덱스에 의해 서로 쌍을 이룰 수 있다.

상기 개념상 정보는 개념상 방향성 정보일 수 있다. 개념상 방향성 정보는 개념상 3차원 방향성 정보일 수 있다. 개념상 3차원 정보는 개념상 청취 위치에 대한 개념상 방위각 및 고도 관계(animuthal and elevation relationship)를 포함할 수 있다. 개념상 방향성 정보는 개념상 2차원 방향성 정보일 수 있다. 개념상 2차원 방향성 정보는 개념상 청취 위치에 대한 개념상 방위각 관계를 포함할 수 있다.

상기 제 1 규칙은 입력 패닝 규칙(panning rule)일 수 있고 제 2 규칙은 출력 패닝 규칙일 수 있다.

복수의 주파수 및 시간 세그먼트 각각에서 오디오 입력 신호에 응답하여, 하나 이상의 방향성 신호 성분의 방향 및 강도와 확산하는 비방향성 신호 성분에 기인하는 정보를 얻는 단계는 상기 복수의 주파수 및 시간 세그먼트 각각에서 오디오 신호의 공분산 행렬을 계산하는 단계를 포함할 수 있다. 각각의 주파수 및 시간 세그먼트에 대한 확산하는 비-방향성 신호 성분의 하나 이상의 방향성 신호 성분의 방향 및 강도는 공분산 행렬 계산의 결과들에 기초하여 추정될 수 있다. 각각의 주파수 및 시간 세그먼트에 대한 확산하는 비-방향성 신호의 추정치는 공분산 행렬 계산에서 가장 작은 고유값(eigenvalue)으로부터 형성될 수 있다.

상기 트랜스포맷팅 행렬은 가변 계수를 갖는 가변 행렬 또는 고정된 계수들 및 가변 출력을 갖는 가변 행렬일 수 있고, 상기 트랜스포맷팅 행렬은 가변 계수를 변화시키거나 가변 출력을 변화시켜 제어될 수 있다.

상기 디코더 행렬[M]은 주파수-의존성(frequency-dependent) 디코더 행렬[M_B]의 가중 합, M = ∑_BW_BM_B일 수 있고, 여기서 주파수 의존성은 대역폭(B)과 연관된다.

본 발명의 다른 양상은 또한 상기 방법 중 임의의 방법을 실행하도록 적응되는 장치를 포함한다.

본 발명의 다른 양상은 상기 방법 중 임의의 방법을 구현하도록 적응되는 컴퓨터 프로그램을 더 포함한다.

본 발명은, 복수의 오디오 입력 신호를 동적으로 변하는 트랜스포맷팅 행렬에 적용하여 상기 입력 신호를 제 1 포맷에서 제 2 포맷으로 리포맷팅하기 위한 방법을 제공하는 효과를 갖는다.

도 1은, 본 발명에 따른 트랜스포맷터의 양상들을 설명하는데 유용한 기능적 블록도.
도 2는, 청취자 주위에 분포된 다수의 오디오 소스의 예.
도 3은, 본 발명에 따른 트랜스포맷터의 입력과 관련되는 규칙들의 세트를 정의하는데 사용될 수 있는 바와 같은 "I" 행렬 인코더의 예.
도 4는, 본 발명에 따른 트랜스포맷터의 이상적인 출력과 관련되는 규칙의 세트를 정의하는데 사용될 수 있는 바와 같은 "O" 행렬 디코더의 예.
도 5는, I 및 O 행렬의 예로서, I 행렬은 방위각도에 대하여 플롯팅(plotting)되는 두 출력을 갖고 O 행렬은 방위각도에 대하여 플롯팅되는 5개의 출력을 갖는, 도면.
도 6은, 본 발명의 양상에 따른 M 트랜스포맷터의 예를 도시한 기능도.
도 7은, 소스 전력을 본 발명의 양상들을 이해하는데 유용한 방위각 위치의 함수로서 개념적으로 도시한 도면.
도 8은, 본 발명의 양상들을 이해하는데 유용한 단기간 푸리에 변환(Short-Term Fourier Transform: STFT) 공간의 개념도.
도 9는, 세 시간 슬롯(time slot)들의 시간 길이 및 두 빈(bin)의 주파수 높이를 갖는 주파수 및 시간 세그먼트의 STFT 공간에서 예를 도시한 도면.
도 10은, 인간의 지각 대역들과 유사한 방식으로, 시간/주파수 분해능(resolution)이 저 및 고 주파수들 사이에서 변화하는 다수의 주파수 및 시간 세그먼트의 예를 도시한 도면.
도 11은, 주파수 및 시간 세그먼트로부터 추출된 것, 즉 조향되는(steered) 신호 성분, 확산되는 신호 성분, 및 소스 방위각 방향의 추정을 개념적으로 도시한 도면.
도 12는, 복수의 주파수 및 시간 세그먼트들로부터, 결합된 것, 즉 조향되는 신호 성분, 확산되는 신호 성분 및 소스 방위각 추정들을 개념적으로 도시한 도면.
도 13은, 확산 신호 성분 추정들이 조향되는 신호 성분 및 소스 방위각 방향 추정들로부터 개별적으로 결합되는 도 12의 변형예를 도시한 도면.
도 14는, M 행렬이 개념상 소스 신호의 공분산 행렬을 추정하는 것을 포함하는 단계에 의해 계산되는 도 13의 변형예를 도시한 도로서, 상기 추정은 공분산 행렬을 대각화함으로써 상기 추정의 간소화를 포함하는, 도면.
도 15는, 도 14 예의 단계가 재배열되는 도 14의 변형예를 도시한 도면.
도 16은, 본 발명의 양상에 따른 다중대역(multiband) 디코더의 예를 도시한 기능적 블록도.
도 17은, 각각의 출력 프로세싱 대역에 대한 적절한 믹스 행렬(mix matrix) M_b를 정의함으로써 더 큰 주파수 대역들의 세트를 더 작은 세트로 통합하는 예를 도시한 개념도.
도 18은, 본 발명의 양상에 따른 다중대역 디코더에서 분석 대역 데이터를 계산한 예를 개념적으로 도시한 도면.

본 발명의 양상에 따라, 트랜스포맷팅 프로세스 또는 디바이스(트랜스포맷터)는 복수의 오디오 입력 신호를 수신하고 수신된 신호를 제 1 포맷에서 제 2 포맷으로 리포맷팅한다. 설명의 간소화를 위해, 프로세스 및 디바이스는 본원에서 "트랜스포맷터"로 다양하게 불린다. 트랜스포맷터는 동적으로-변하는 트랜스포맷팅 행렬 또는 행렬화 프로세스(matrixing process)(예를 들어 선형 행렬 또는 선형 행렬화 프로세스)일 수 있다. 그와 같은 행렬 또는 행렬화 프로세스는 흔히 당업계에 "능동 행렬(active matrix)" 또는 "적응성 행렬(adaptive matrix)"로 불린다.

이론상, 본 발명의 양상이 아날로그 도메인 또는 디지털 도메인(또는 이 둘의 어떤 결합)에서 실시될 수 있을지라도, 본 발명의 실제적인 실시예에서, 오디오 신호는 데이터의 블록들에서 시간 샘플들에 의해 표시되고 프로세싱은 디지털 도메인에서 행해진다. 다양한 오디오 신호 각각은 아날로그 신호로부터 도출되었을 수 있거나 아날로그 오디오 신호로 변환되어야 하는 시간 샘플일 수 있다. 다양한 시간-샘플링된 신호는, 예를 들어 선형 펄스-코드 변조(pulse-code modulation: PCM) 신호의 형태에서와 같이, 임의의 적절한 방식 또는 방식들로 인코딩될 수 있다.

제 1 포맷의 예는 5개의 이산 오디오 신호 또는 "채널"을 인코딩하는 행렬의 결과이거나 상기 행렬의 결과로 취해지는 한 쌍의 입체 음향 오디오 신호이며(흔히 Lt(left total: 좌측 총합) 및 Rt(right total: 우측 총합) 채널로 불린다), 상기 5개의 오디오 신호 또는 채널은 좌("L"), 중앙("C"), 우("R"), 좌 서라운드(left surround)("LS") 및 우 서라운드(right surround)("RS")와 같이 청취자에 대한 방위각과 개념적으로 연관된다. 공간 방향과 개념적으로 연관되는 오디오 신호는 흔히 "채널"로 불린다. 그와 같은 행렬 인코딩은, 예를 들어 각각 당업계에 널리 공지되어 있는 MP 행렬 인코더 또는 ProLogic II 행렬 인코더와 같이, 정의된 패닝 규칙(panning rule)들에 따라 5개의 방향 채널을 두 방향성 채널로 매핑(mapping)하는 수동 행렬 인코더에 의해 성취되었을 수 있다. 이와 같은 인코더의 세부사항은 본 발명에 필수적이거나 반드시 필요한 것은 아니다.

제 2 포맷의 예는 상술한 좌("L"), 중앙("C"), 우("R"), 좌 서라운드("LS"), 및 우 서라운드("RS")와 같이 청취자에 대한 방위각과 각각 개념적으로 연관되는 5개의 오디오 신호 또는 채널의 세트이다. 전형적으로, 그와 같은 신호는 각각의 채널이 별개로 에너지를 공급받는 경우 자신이 연관되어 있는 방향으로부터 도달하고 있다는 임프레션(impression)을 적절하게 위치되어 있는 청취자에게 제공하는 방식으로 재생되는 것으로 가정된다.

예시적인 트랜스포맷터가 본원에서 상술한 것처럼 두 입력 채널을 갖고, 상술한 것처럼 다섯 개의 출력 채널을 갖는 것으로 기술될지라도, 본 발명에 따른 트랜스포맷터는 둘 이외의 입력 채널 및 다섯 이외의 출력 채널을 가질 수 있다. 입력 채널의 수는 출력 채널의 수보다 많거나 적을 수 있고 또는 각 채널의 수는 동일할 수 있다. 본 발명에 따른 트랜스포맷터에 의해 제공되는 포맷팅에서 변환은 채널의 수를 포함할 뿐만 아니라, 채널의 개념상 방향의 변화를 포함할 수 있다.

본 발명의 양상에 따른 트랜스포맷터를 기술하는 하나의 유용한 방법은 도 1의 환경과 같은 환경에 있다. 도 1을 참조하면, 벡터 "S"에 의해 표현될 수 있는 복수(NS)의 개념적인 오디오 신호(Source₁(t)...Source_NS(t))는 라인(2)에서 수신되는 것으로 가정된다. S는

로 정의될 수 있고, 여기서 Source₁(t) 내지 Source_NS(t)는 NS개의 개념상 오디오 소스 신호(source signal)들 또는 신호 성분이다. 개념상 오디오 소스 신호는 개념적인 것으로(이들은 존재하거나 존재하지 않을 수 있다) 트랜스포맷터 행렬을 계산하는데 공지되지 않는다. 그러나, 본원에서 설명되는 바와 같이, 개념상 소스 신호의 특정한 속성의 추정치는 본 발명의 양상에 유용하다.

고정된 수의 개념상 소스 신호가 존재하는 것으로 가정할 수 있다. 예를 들어, 12개의 입력 소스들(아래의 예에서처럼)이 존재하는 것으로 가정할 수 있거나, 360 소스 신호가 존재하는 것으로 가정할 수 있고(예를 들어, 청취자의 둘레의 하나의 평면당 각도가 1도씩 증가하면서 이격되는), 임의의 수(NS)의 소스가 존재할 수 있음이 이해된다. 자체의 방위각 또는 개념적인 청취자에 대한 방위각 및 고도와 같이, 자신에 대한 정보는 각각의 오디오 소스 신호와 연관된다. 후술되는, 도 2의 예를 참조한다.

설명에서 명료성을 위해, 본 문서에 걸쳐서, 다수의 신호(다수의 신호 성분들을 갖는 벡터)를 반송하는 라인은 단일 라인으로 도시된다. 실제의 하드웨어 구현예에서, 그리고 유사하게 소프트웨어 구현예에서, 그와 같은 라인은 다수의 물리적 라인으로 또는 신호가 멀티플렉싱(multiplexing)된 형태로 반송되는 하나 이상의 물리적 라인으로 구현될 수 있다.

도 1의 설명으로 돌아와서, 개념상 오디오 소스 신호는 두 경로로 인가된다. 도 1에서 상부 경로로 도시된 제 1 경로에서, 개념상 오디오 소스 신호는 "I" 인코더 또는 인코딩 프로세스("Encoder")(4)에 인가된다. 부가하여 후술되는 바와 같이, I 인코더(4)는 제 1 규칙들의 세트에 따라 연산하는 정적(static)(시-불변) 인코딩 행렬 프로세스 또는 행렬 인코더(예를 들어, 선형 믹싱(mixing) 프로세스 또는 선형 믹서(mixer))(I)일 수 있다. 이 규칙은 I 인코더 행렬로 하여금 개념상 소스 신호와 연관된 개념상 정보에 따라 상기 각각의 개념상 소스 신호를 프로세싱하도록 할 수 있다. 예를 들어, 방향이 소스 신호와 연관된 경우, 소스 신호는 상기 방향과 연관되는 패닝 규칙들 또는 계수들에 따라 인코딩될 수 있다. 규칙들의 제 1 세트의 예는 후술되는 입력 패닝 규칙들이다.

I 인코더(4)는 자신에게 인가되는 NS 소스 신호에 응답하여, 복수(NI)의 오디오 신호를 출력하고, 상기 복수의 오디오 신호는 라인(6)에서 트랜스포맷터에 오디오 입력 신호들(Input₁(t)...Input_NI(t))로 인가된다. NS 오디오 신호는 벡터 "Input"에 의해 표시될 수 있고, Input은

로 정의될 수 있으며, 여기서 Input₁(t) 내지 Input_NI(t)는 NI개의 오디오 입력 신호 또는 신호 성분이다.

NI 오디오 입력 신호는 트랜스포맷팅 프로세스 또는 트랜스포맷터(M)(8)에 인가된다. 부가하여 후술되는 바와 같이, 트랜스포맷터(M)는 제어 가능한 동적으로 변하는 트랜스포맷팅 행렬 또는 행렬화 프로세스일 수 있다. 트랜스포맷터의 제어는 도 1에 도시되지 않는다. 트랜스포맷터(M)의 제어는 아래 도 6과 관련하여 초기에 설명된다. 트랜스포맷터(M)는 라인(10)에서 벡터 "Output"에 의해 표현될 수 있는 복수(NO)의 출력 신호(Output₁(t)...Output_NO(t))를 출력하고, 이들은 이에 따라

으로 정의될 수 있고, 여기서 Output₁(t) 내지 Output_NO(t)는 NO개의 오디오 신호 또는 신호 성분이다.

상술한 바와 같이, 개념상 오디오 소스 신호(Source₁(t)...Source_NS(t))는 두 경로로 인가된다. 도 1에서 하위 경로로 도시되는 제 2 경로에서, 개념상 오디오 소스 신호는 인코더 또는 인코딩 프로세스("이상적인 디코더'O'")(10)에 인가된다. 부가하여 후술되는 바와 같이, 이상적인 디코더(O)는 제 2 규칙에 따라 연산하는, 정적(시-불변하는) 디코딩 행렬 프로세스 또는 행렬 디코더(예를 들어, 선형 믹싱 프로세스 또는 선형 믹서)(O)일 수 있다. 이 규칙은 디코더 행렬(O)로 하여금 각각의 개념상 소스 신호와 연관된 개념상 정보에 따라 상기 각각의 개념상 소스 신호를 프로세싱하도록 한다. 예를 들어, 방향이 소스 신호와 연관된 경우, 소스 신호는 상기 방향과 연관되는 패닝 계수에 따라 디코딩될 수 있다. 제 2 규칙의 예는 후술되는 출력 패닝 규칙이다.

이상적인 디코더는 라인(14)에서 벡터 "Ideal Out"에 의해 표현될 수 있는 복수(NO)의 이상적인 출력 신호(IdealOut₁(t)...IdealOut_NO(t))를 출력하고, 이들은 이에 따라

으로 정의될 수 있고, 여기서 IdealOut₁(t) 내지 IdealOut_NO(t)는 NO개의 출력 신호 또는 신호 성분이다.

본 발명의 양상에 따른 트랜스포맷터(M)는 청취자(20) 주위에 위치한 다수의 이산 가상 사운드 소스(sound source)가 존재하는 도 2에 도시된 상황에 가능한 밀접하게 근접한 경험을 청취자에게 제공하기 위해 이용된다. 도 2의 예에서, 8개의 사운드 소스가 존재하고, 상술한 바와 같이 임의의 수(NS)의 소스들이 존재할 수 있음이 이해된다. 자체의 방위각 또는 개념상의 청취자에 대한 방위각 및 고도와 같이, 자신에 대한 정보는 각각의 사운드 소스와 연관된다.

이론상, 본 발명의 양상에 따라 동작하는 트랜스포맷터(M)는 Input이 단지 NI개의 이산 소스들을 나타낼 때 완벽한 결과(Output 대 IdealOut의 완벽한 매칭)를 제공할 수 있다. 예를 들어, 두 Source 신호로부터 도출되는 두 Input 신호의 경우, 많은 신호 상태에 대해 상이한 방위각으로 각각 패닝되므로, 트랜스포맷터(M)는 두 소스를 분리하고 이들을 자체의 Output 채널들 내의 자신들의 적절한 방향으로 패닝 가능하게 할 수 있다.

상술한 바와 같이, 입력 소스 신호(Source₁(t), Source₂(t)...Source_NS(t))는 개념적이며 공지되지 않는다. 대신에 공지되는 것은 행렬 인코더(I)에 의해 NS개의 소스 신호보다는 적게 믹싱되었던 보다 적은 입력 신호(NI)의 세트이다. 이 입력 신호의 생성은 공지되어 있는 정적 믹싱 행렬(I)(NI×NS 행렬)을 사용함으로써 수행되는 것으로 가정된다. 행렬(I)은, 필요한 경우, 믹싱 프로세스에 적용되는 위상 천이(phase shift)를 나타내기 위하여 복수 값을 포함할 수 있다.

트랜스포맷터(M)로부터 출력된 신호는 확성기들의 세트를 구동하거나 구동하도록 의도되는 것으로 가정되고, 여기서 확성기의 수는 공지되고 이 확성기들은 원래의 소스 신호 방향들에 대응하는 각 위치들에 반드시 위치될 필요는 없다. 트랜스포맷터(M)의 목적은, 자신의 입력 신호를 취해서 출력 신호를 생성하여, 상기 출력 신호가 확성기들에 인가될 때 청취자에게 도 2의 예에서와 같은 시나리오를 가능한 밀접하게 에뮬레이팅(emulating)하는 경험을 제공하는 것이다.

원 소스 신호(Source₁(t), Source₂(t)...Source_NS(t))가 제공되는 것으로 가정하면, "이상적인" 확성기 신호를 생성하는 최적의 믹싱 프로세스가 존재한다고 가정할 수 있다. 이상적인 디코더 행렬(O)(NO×NS 행렬)이 소스 신호를 믹싱하여 이러한 스피커 피드(feed)가 생성된다. 트랜스포맷터(M)로부터 출력되는 신호 및 이상적인 디코더 행렬(O)로부터의 이상적인 출력 신호 이 둘 모두는 하나 이상의 청취자들이 마주하는 동일한 방식으로 배열되는 확성기들의 동일한 세트에 피딩(feeding)하거나 피딩하고자 의도되는 것으로 가정된다.

트랜스포맷터(M)에는 NI의 입력 신호가 제공된다. 이는 선형 행렬-믹서(M)를 사용하여(여기서 M은 시변일 수 있다) NO개의 출력 신호를 발생시킨다. M은 NO×NI 행렬이다. 트랜스포맷터의 목적은 이상적인 디코더(그러나 이상적인 출력 신호는 공지되지 않는다)의 출력을 가능한 밀접하게 매칭하는 출력을 발생시키는 것이다. 그러나, 트랜스포맷터는 I 및 O 행렬 믹서들의 계수(예를 들어 후술되는 바와 같이 입력 및 출력 패닝표들로부터 획득될 수 있다)를 인지하고, 상기 트랜스포맷터는 이 정보를 이용하여 자신의 믹싱 특성들을 결정하도록 할 수 있다. 물론, "이상적인 디코더"는 트랜스포맷터의 실제 부분은 아니지만, 이는 도 1에 도시되는데, 왜냐하면 이상적인 디코더의 출력은 후술되는 바와 같이, 트랜스포맷터의 성능과 이론적으로 비교되는데 사용되기 때문이다.

트랜스포맷터(M)로부터의 그리고 트랜스포맷터(M)로의 입력들 및 출력들의 수(NI 및 NO)가 제공되는 트랜스포맷터에 대해 고정될지라도, 입력 소스들의 수는 일반적으로 공지되지 않으며, 하나의 상당히 유효한 방법은 소스들의 수(NS)가 크다고(NS = 360과 같은) "추측"하는 것이다. 일반적으로, NS가 너무 작게 선택되면 트랜스포맷터에서 어느 정도의 정확성의 손실이 존재할 수 있으므로, NS에 대한 이상적인 값은 정확성 대 효율성 사이의 트레이드-오프(trade-off)를 포함한다. NS = 360의 선택은 독자에게 (a) 소스들의 수가 바람직하게도 커야만 하고 전형적으로 (b) 이 소스는 청취자 주위의 수평면에서 360도에 걸치는(spannig) 것을 상기시키는데 유용할 수 있다. 실제 시스템에서, NS는 훨씬 더 작게(아래의 예에서처럼, NS = 12와 같은) 선택될 수 있거나, 또는 일부 구현예가 소스 오디오를 고정된 각의 위치로 양자화하기보다는(마치 NS = ∞인 것처럼) 각의 연속 함수로 처리하는 방식으로 동작하는 것을 가능하게 할 수 있다.

패닝표는 입력 패닝 규칙과 출력 패닝 규칙을 표현하는데 사용될 수 있다. 그와 같은 패닝표는 예를 들어 표의 행들이 사운드 소스 방위각에 대응하도록 배열될 수 있다. 등가적으로, 패닝 규칙은 임의의 특정 사운드-소스 방위각을 참고하지 않고, 쌍으로 이루어진 엔트리를 갖는 입력-대-출력 리포맷팅 규칙의 형태로 정의될 수 있다.

한 쌍의 검색표를 정의할 수 있는데, 이 둘 모두는 동일한 수의 엔트리를 갖고, 제 1 검색표는 입력 패닝표이고, 제 2 검색표는 출력 패닝표이다. 예를 들어, 아래 표 1은 행렬 인코더에 대한 입력 패닝표를 도시하고, 여기서 표 내의 12 행은 12개의 가능한 입력-패닝 시나리오에 대응한다(이 경우에, 이것들은 수평의 서라운드 사운드 재생 시스템에 대한 12개의 방위 각에 대응한다). 아래 표 2는 동일한 12개의 시나리오에 대한 원하는 출력-패닝 규칙들을 표시하는 출력 패닝 표를 도시한다. 입력 패닝표 및 출력 패닝표는 입력 패닝표의 각각의 행이 출력 패닝표에서 대응하는 행과 쌍을 이룰 수 있도록 동일한 수의 행을 가질 수 있다.

본원에서 예에서, 패닝표가 참조될지라도, 이들을 패닝 함수들로 특징화하는 것이 또한 가능하다. 패닝표는 표의 행을 정수인 인덱스로 어드레싱함으로써 사용되고, 반면에 패닝 함수들은 연속 입력(방위각과 같은)에 의해 인덱스화되는 것이 주요 차이이다. 패닝 함수는 대부분 무한-크기의 패닝표처럼 연산을 행하는데, 이는 패닝 값(예를 들어, 행렬이 인코딩된 입력의 경우 sin() 및 cos() 함수)의 어떤 종류의 알고리즘 계산에 의존해야만 한다.

패닝표의 각각의 행은 시나리오에 대응할 수 있다. 시나리오의 총 수는 또한 표에서 행의 수와 같으므로 NS이다. 본원에서 예에서, NS = 12이다. 일반적으로, 입력 및 출력 패닝표를 표 3에서 후술되는 바와 같이 결합 입력-출력 패닝표로 합칠 수 있다.

도 3은 I 인코더(4), 12-입력, 2-출력 행렬 인코더(30)의 예를 도시한다. 이와 같은 행렬 인코더는 RS(우 서라운드), R(우), C(중앙), L(좌), 및 LS(좌 서라운드) 입력을 갖는 종래의 5-입력, 2-출력(Lt 및 Rt) 인코더의 상위-세트로 고려될 수 있다. 공칭 도착 각도(angle-of-arrival) 방위 값은 아래 표 1에서 도시되는 바와 같이, 12 입력 채널(시나리오) 각각과 연관될 수 있다. 이 예에서 이득 값은 단순 각의 코사인에 대응하도록 선택되어 후속 계산을 간소화하였다. 다른 값이 사용될 수 있다. 특정한 이득 값은 본 발명에 필수적이지 않다.

시나리오	방위각(θ)	대응하는 5 채널 입력	Lt 출력에 대한 이득	Rt 출력에 대한 이득
1	-180		cos(-135°)	cos(-45°)
2	-150	RS	cos(-120°)	cos(-30°)
3	-120		cos(-105°)	cos(-15°)
4	-90	R	cos(-90°)	cos(0°)
5	-60		cos(-75°)	cos(15°)
6	-30		cos(-60°)	cos(30°)
7	0	C	cos(-45°)	cos(45°)
8	30		cos(-30°)	cos(60°)
9	60		cos(-15°)	cos(75°)
10	90	L	cos(0°)	cos(90°)
11	120		cos(15°)	cos(105°)
12	150	LS	cos(30°)	cos(120°)

표 1 - 입력 패닝표

그러므로, 이 예에 따르면, 입력 패닝 행렬(I)은 2×12 행렬이고, 다음과 같이 정의된다:

여기서,

이 이득 값은 행렬 인코딩을 위해 일반적으로 허용되는 규칙을 준수한다:

1) 신호가 90°로(좌로) 패닝될 때, 좌 채널에 대한 이득은 1.0이고, 우 채널에 대한 이득은 0.0이어야 한다;

2) 신호가 -90°로(우로) 패닝될 때, 좌 채널에 대한 이득은 0.0이고, 우 채널에 대한 이득은 1.0이어야 한다;

3) 신호가 0°로(중앙으로) 패닝될 때, 좌 채널에 대한 이득은

이고, 우 채널에 대한 이득은

이어야 한다.

4) 신호가 180°로(후방으로) 패닝될 때, 좌 및 우 채널 이득은 위상반전(out-of-phase)이어야 하고,

5) 각 θ와 관계없이, 두 이득의 제곱은 합하여 1.0이 되어야만 한다:

.

도 4는 O 이상적인 디코더(12), 12-입력, 5-출력 행렬 디코더(40)의 예를 도시한다. 출력들은 청취자에 대해 나타내는 공칭 방향들에 각각 위치되는 5개의 확성기들로 지향된다. 공칭 도착 각도 값은 아래 표 2에 도시되는 바와 같이, 12 입력 채널들(시나리오들) 각각과 연관될 수 있다. 이 예에서 이득 값은 단순 각들의 코사인들에 대응하도록 선택되어 후속 계산들을 간소화하였다. 다른 값들이 선택될 수 있다. 특정한 이득 값은 본 발명에 필수적이지 않다.

시나리오	방위각(θ)	대응하는 5채널 입력	L 출력에 대한 이득	C 출력에 대한 이득	R 출력에 대한 이득	LS 출력에 대한 이득	RS 출력에 대한 이득
1	-180		0	0	0	-0.5	0.5
2	-150	RS	0	0	0	0	1
3	-120		0	0	0.5	0	0.5
4	-90	R	0	0	1	0	0
5	-60		0	0.333	0.666	0	0
6	-30		0	0.666	0.333	0	0
7	0	C	0	1	0	0	0
8	30		0.333	0.666	0	0	0
9	60		0.666	0.333	0	0	0
10	90	L	1	0	0	0	0
11	120		0.5	0	0	0.5	0
12	150	LS	0	0	0	1	0

표 2 - 출력 패닝표

표 2에서 패닝 계수는 예시적인 O 행렬을 효과적으로 정의하는데, 즉

대안으로, 정전력(constant-power) 출력 패닝 행렬이 식 1.4에 제공된다:

정전력 패닝 행렬은 O 행렬의 각각의 열에서 패닝 이득의 제곱들이 합하여 1이 되는 특성을 지닌다. 입력 인코딩 행렬(I)이 전형적으로 미리 정의된 행렬인데 반해, 출력 믹싱 행렬(O)은 어느 정도 "수동 조작(hand-crafted)"될 수 있어서 패닝 규칙들의 얼마간의 수정을 가능하게 할 수 있다. 유리한 것으로 확인되었던 하나의 패닝 행렬은 아래에 도시된 행렬이며, 여기서 L-LS 및 R-RS 스피커 쌍들 사이의 패닝은 정전력 팬이고, 모든 다른 스피커 쌍의 편성(pairing)은 정진폭(constant-amplitude) 팬으로 패닝된다:

도 5는 방위각에 대하여 플롯팅(plotting)되는 I 및 O 행렬들의 행들을 도시한다(I 행렬은 2 행들을 갖고 O 행렬은 5 행들을 가짐으로써 총 7개의 곡선들이 플롯팅된다). 이 플롯은 실제로 위에 도시된 행렬보다 더 큰 분해능을 갖는(청취자 주위에, 12 방위각 포인트라기보다는 72 방위각 포인트에서 양자화된 각을 사용하는) 패닝 곡선을 도시한다. 여기에 도시된 출력 패닝 곡선은 L-Ls 및 R-Rs 사이의 정전력-패닝 및 다른 스피커 쌍들 사이의 정진폭 패닝의 혼합에 기초한다(식 1.5에 도시되는 바와 같이).

실제로, 행렬 인코더에 대한(또는 유사하게 디코더에 대한) 패닝표는 θ= 180°에서 불연속점을 포함하는데, 여기서 Lt 및 Rt 이득들은 "플립(flip)"된다. 서라운드 채널에서 위상 천이를 도입함으로써 이 위상 플립을 극복하는 것이 가능하고, 이때 이의 결과는 표 2의 마지막 두 행에서 실수라기보다는 복소수인 이득 값을 산출할 것이다.

상술한 바와 같이, 입력 및 출력 패닝표를 서로 결합된 입력-출력 패닝표로 결합할 수 있다. 쌍으로 이루어진 엔트리들을 갖고 행 수들에 의해 인덱스화되는, 그와 같은 표는 표 3에 도시된다.

인덱스 (s)	입력 팬 1	입력 팬 2	...	입력 팬 i	...	입력 팬 NI	출력 팬 1	출력 팬 2	...	출력 팬 o	...	출력 팬 NO
1	I₁ _,1	I₂ _,1	...	I_i _,1	...	I_NI _,1	O₁ _,1	O₂ _,1	...	O_o _,1	...	O_NO _,1
2	I₁ _,2	I₂ _,2	...	I_i _,2	...	I_NI _,2	O₁ _,2	O₂ _,2	...	O_o _,2	...	O_NO _,2
...			...		...	...	...	...	...	...	...	...
s	I₁ _,s	I₂ _,s	...	I_i _,s	...	I_NI _,s	O₁ _,s	O₂ _,s	...	O_o _,s	...	O_NO _,s
...			...		...	...	...	...	...	...	...	...
NS	I₁ _, _NS1	I₂ _, _NS	...	I_i _, _NS	...	I_NI _, _NS	O₁ _, _NS	O₂ _, _NS	...	O_o _, _NS	...	O_NO _, _NS

표 3 - 결합된 입력-출력 패닝표

입력 신호는 입력 패닝표에 공개된 믹싱 규칙들에 따라 생성되는 것으로 가정할 수 있다. 또한 입력 신호의 생성자는 입력 패닝표에서 시나리오들에 따른 다수의 원래의 소스 신호를 믹싱함으로써 이 입력 신호를 생성하는 것으로 가정할 수 있다. 예를 들어, 두 개의 원래의 소스 신호(Source₃ 및 Source₈)가 입력 패닝표에서 시나리오들(3 및 8)에 따라 믹싱되는 경우, 입력 신호는:

Input_i = I_i _,3 × Source₃ + I_i _,8 × Source₈ (1.6)

그러므로, 각각의 입력 신호(i = 1...NI)는 입력 패닝표의 행들 3 및 8에서 정의되는 바와 같이 이득 계수들(I_i _,3 및 I_i _,8)에 따라, 원래의 소스 신호들(Source₃ 및 Source₈)을 서로 믹싱함으로써 생성된다.

이상적으로, 트랜스포맷터는 이상에 가능한 근접하게 매칭하는 출력(NO 채널들)을 생성한다:

IdealOutput_o = O_o _,3 × Source₃ + O_o _,8 × Source₈ (1.7)

그러므로, 각각의 이상적인 출력 채널(o = 1....NO)은 출력 패닝표의 행들 3 및 8에서 정의되는 바와 같이 이득 계수들(O_o _,3 및 O_o _,8)에 따라, 원래의 소스 신호들(Source₃ 및 Source₈)을 서로 믹싱함으로써 생성된다.

입력 신호들(상기 예에서는 두 입력 신호들)의 생성에 사용되는 원래의 소스 신호의 실제 수와는 관계없이, 패닝표들에서 각각의 시나리오에 대해 하나의 원래의 소스 신호가 존재하는 것으로 가정하면 계산이 간소화된다. 상기 경우에, 식 1.6 및 1.7은

도 1을 참조하면, M 트랜스포맷터의 목적은 자신의 출력 및 O 이상적인 디코더의 출력 사이의 진폭 제곱 에러를 최소화하는 것이다:

Error = Output - IdealOut = M × I × S - O × S (1.9)

여기서, "*" 연산자는 행렬 또는 벡터의 공액 전치(conjugate-transpose)를 나타낸다.

식 (1.10)의 확장에 대해서:

목적은 상기 함수의 기울기를 영(0)으로 동등화(equating)함으로써 식 1.9를 최소화하는 것이다.

공통으로 인지되는 행렬 항등식을 사용하면:

식 1.12를 간소화할 수 있다:

1.15를 영으로 동등화함으로써"

I × S × S^* × I^* × M^* = I × S × S^*× O^* (1.16)

이 산출된다.

식 1.16의 양 측을 전치하면:

M × I × S × S^* × I^* = O × S × S^* × I^* (1.17)

이 산출된다.

식 (1.17)에 나타나는 바와 같이, 행렬(M)에 대한 최적 값은 두 행렬들(I 및 O)뿐만 아니라 S×S^*에 종속된다. 상술한 바와 같이, I 및 O는 공지되므로, M 트랜스포맷터를 최적화하는 것은 소스 신호의 공분산인 S×S^*를 추정함으로써 달성될 수 있다. 소스 공분산 행렬은:

으로 표현될 수 있다.

이론상, 트랜스포맷터는 새로운 행렬이 매 샘플 기간마다 계산될 수 있도록, 공분산 S×S^*의 새로운 추정치를 매 샘플 기간마다 발생시킬 수 있다. 비록 이는 최소 에러를 산출할 수 있을지라도, 이는 또한 M 트랜스포맷터를 사용하는 시스템에 의해 생성된 오디오에 원하지 않는 왜곡을 발생시킬 수 있다. 그와 같은 왜곡을 감소시키거나 제거하기 위한 M의 시간-갱신에 평활화(smoothing)가 적용될 수 있다. 그러므로, 천천히 변하고 보다 덜 빈번하게 갱신되는 S×S^*의 결정(determination)이 이용될 수 있다.

실제로, 소스 공분산 행렬은 시간 윈도(time window)에 걸쳐 평균화된 시간에 의해 구성될 수 있다:

약식법을 사용할 수 있다:

이상적으로, 시간-평균화 프로세스는 시간의 앞에 있거나 또는 뒤에 있거나 하는 것으로 보여야만 하지만(식 (1.19)에 따라), 실제 시스템은 입력 신호의 미래의 샘플들에 액세스할 수 없다. 그러므로, 실제 시스템은 통계 분석을 위해 지난 입력 샘플들을 이용하는 것으로 제한될 수 있다. 그러나 다른 경우에 지연들이 시스템 내에 추가되어 "예견(look-ahead)"의 효과를 제공할 수 있다. (도 6에서 "지연" 블록을 참조하라).

ISSI 및 ISSI 행렬

식 1.19는 항들 I × S × S^* × I^* 및 O × S × S^* × I^*을 포함한다. 간소화된 용어의 형태로서, ISSI 및OSSI는 이 행렬들을 언급하는데 사용된다. 2-채널 입력 대 5-채널 출력 트랜스포맷터의 경우, ISSI는 2×2 행렬이고, OSSI는 5 × 2 행렬이다. 결과적으로, S 벡터의 크기와 관계없이(벡터는 훨씬 클 수 있다), ISSI 및 OSSI 행렬들은 상대적으로 작다. 본 발명의 양상는 ISSI 및 ISSI 행렬들의 크기가 S의 크기와 무관할 뿐만 아니라, S에 대한 직접적인 정보를 지니는 것이 불필요하다는 것이다.

여러 방법으로 ISSI 및 OSSI 행렬들의 의미를 해석할 수 있다. 소스 공분산(S × S^*)의 추정치를 형성하였다면, ISSI 및 OSSI를:

ISSI = I × (S × S^*) × I^* = I × cov(S) × I^*

OSSI = O × (S × S^*) × I^* = O × cov(S) × I^*(1.21)

상기 식들은 ISSI 및 OSSI를 계산하기 위해 소스 공분산 S × S^*를 이용할 수 있음을 나타낸다. 본 발명의 양상는, 최적의 M의 값을 계산하기 위해, 실제 신호들(S)을 인지할 필요가 없고, 다만 소스 공분산 S × S^*를 인지할 필요가 있다는 것이다.

대안으로, ISSI 및 OSSI는 다음과 같이 해석될 수 있다:

그러므로, 본 발명의 부가적인 양상에 따르면:

· ISSI 행렬은 트랜스포맷터의 Input 신호의 공분산이므로, 어떠한 소스 신호들(S)의 정보 없이도 결정될 수 있다.

· OSSI 행렬은 IdealOut 신호 및 트랜스포맷터 Input 신호 사이의 교차-공분산이다. ISSI 행렬과는 달리, (a) OSSI 행렬의 값을 계산하기 위해 소스 신호의 공분산 S × S^*또는 IdealOut 신호의 추정치(Input 신호는 공지되어 있다) 중 하나를 인지할 필요가 있다.

본 발명의 양상에 따라, Output 신호 및 IdealOutput 신호 사이의 차를 최소화하기 위하여 M 트랜스포맷터를 제어하는 근사치(최소-평균-자승 근사치와 같은)는 다음의 방식으로 달성될 수 있는데, 예를 들어:

Input 신호들(Input₁, Input₂,...,Input_NI)을 M 트랜스포맷터에 가하여 이들의 공분산(ISSI 행렬)을 계산한다. 공분산 데이터를 조사함으로써, 입력 패닝표의 어떤 행들이 입력 데이터를 생성하는데 사용되는지를 추정하라(원래의 소스 신호의 전력 추정치). 그리고나서, Input 및 Output 패닝표를 이용하여 Input 대 IdealOutput 교차-공분산을 추정하라. 그리고나서, 입력 공분산 및 Input-IdealOutput 교차 공분산을 사용하여 믹스 행렬(M)을 계산하고나서 이 행렬을 입력 신호에 적용하여 Output 신호를 생성하라. 더 후술되는 바와 같이, 원래의 소스 신호가 서로 상호 간 비상관하는 것으로 가정되면, Input-IdealOutput 교차-공분산의 추정치는 패닝표를 참고하지 않고 획득될 수 있다.

Input 및 Output 패닝표를 새로운 ISSI 및 OSSI표들로 대체할 수 있다. 예를 들어, 원래의 입력/출력 패닝표가 표 3에서 도시되면, ISSI/OSSI 검색표는 표 4와 같이 보일 것이다.

표 4 - ISSI/OSSI 검색표

ISSI/OSSI 검색표를 이용함으로써, 본 발명의 양상에 따라, Output 신호 및 IdealOutput 신호 사이의 차를 최소화하기 위하여 M 트랜스포맷터를 제어하는 근사치(최소-평균-자승 근사치와 같은)는 다음의 방식으로 달성될 수 있는데, 예를 들어:

Input 신호(Input₁, Input₂,...,Input_NI)를 취하여 이들의 공분산(ISSI 행렬)을 계산하라. 계산된 입력 공분산을 ISSI/OSSI 검색표 내의 Lookup_ISSI 값과 매칭시킴으로써, ISSI/OSSI 검색표의 어떤 행들이 입력 공분산 데이터를 생성하는데 사용되는지를 추정하라(원래의 소스 신호의 전력 추정치). 그리고나서, Lookup_ISSI 값을 이용하여 대응하는 Input 대 IdealOutput 교차-공분산을 계산하라. 그리고나서, 입력 공분산 및 Input-IdealOutput 교차 공분산을 사용하여 믹스 행렬(M)을 계산하고나서 이 행렬을 입력 신호에 적용하여 Output 신호를 생성하라.

도 6의 기능도는 본 발명의 양상에 따른 M 트랜스포맷터의 예를 도시한다. 신호 경로인 제 1 경로(62)에서 M 트랜스포맷터의 코어 연산자(core operator), 즉 믹서 또는 믹싱 기능("믹서(M)")(60)은 선택적인 지연(64)을 통해 NI개의 입력 신호를 수신하고 NO개의 출력 신호를 출력한다. M 믹서(60)는 NO×NI 행렬(M)을 포함하여 NI 입력 신호를 식 1.3에 따라 NO 출력 신호로 매핑한다. M 믹서(60)의 계수들은 세 디바이스들 또는 기능들을 갖는 제 2 경로 또는 "사이드-체인(side-chain)", 즉 제어 경로의 프로세싱에 의해 시간에 따라 가변될 수 있다:

· Input 신호는 디바이스 또는 기능(66)에 의해 분석되고 소스 신호들(S)의 공분산의 추정치를 구성한다("입력을 분석하고 S×S^*를 추정).

· 소스 공분산 추정치는 디바이스 또는 기능(68)에서 ISSI 및 OSSI 행렬들을 계산하는데 이용된다("ISSI 및 OSSI를 계산").

· ISSI 및 OSSI 행렬들은 디바이스 또는 기능(70)에 의해 이용되어 믹서 계수들(M)mf 계산한다("M을 계산").

사이드-체인은 가능성 있는 S × S^*의 추정치를 찾는 시도를 함으로써 소스 신호에 대한 추정들을 행하는 시도를 한다. 통계 분석이 합리적인 크기의 데이터 세트에 대해 행해질 수 있도록 윈도화된 입력의 블록들을 취함으로써 이 프로세스를 보조할 수 있다. 게다가, 어느 정도의 시간 평활화가 S × S^*, ISSI, OSSO 및/또는 M의 계산에 적용될 수 있다. 블록-프로세싱 및 평활화 동작들의 결과로서, 믹서(M)의 계수들의 계산이 오디오 데이터보다 뒤처지는 것(lag)이 가능하므로, 도 6에서 선택적인 지연(64)에 의해 나타나는 바와 같이 믹서로의 입력들을 지연시키는 것이 유용할 수 있다. 행렬(M)은 NO 행들 및 NI 열들을 가지며, NI 입력 신호 및 NO 출력 신호 사이의 선형 매핑들을 정의한다. 이것은 또한 "능동 행렬 디코더"로 칭해질 수 있는데 왜냐하면 이것은 시간에 따라 연속해서 갱신되어 입력 신호의 현재 관찰된 특성들에 기초하여 적절한 매핑 기능을 제공하기 때문이다.

소스 공분산 S × S ^* 의 더 자세한 고찰

다수(NS)의 미리 정의된 소스 위치들이 청취 경험을 나타내는데 사용되는 경우, 소스 위치들 사이의 팬텀 (패닝된) 이미지(phantom image)를 생성함으로써 어떤 임의의 방향으로부터의 사운드 도착의 임프레션을 청취자에게 제공하는 것이 이론상으로는 가능하다. 그러나, 다수(NS)의 소스 위치들이 충분히 큰 경우, 팬텀 이미지 패닝에 대한 의무가 방지될 수 있고 소스 신호들(Source₁,...,Source_NS)은 상호 비상관된다. 일반적인 경우에서는 사실이 아닐 수 있을지라도, 경험은 상기 알고리즘이 이 간소화와 관계없이 충분히 실행되는 것을 나타낸다. 본 발명의 양상에 따른 트랜스포맷터는 소스 신호가 상호 비상관하는 것으로 가정하는 방식으로 계산된다.

이 가정의 가장 중요한 부작용은 소스 공분산 행렬이 대각화된다는 것이다:

결과적으로, ISSI 및 OSSI 행렬들의 추정은 더 간소화된 임무로 축소되어, 도 2의 예에 도시되는 바와 같이 청취자를 에워싸는 변하는 방위각 위치들에서 소스 신호들: Source₁, Source₂,...,Source_NS의 상대적인 전력을 추정한다. 그러므로, 소스 공분산 행렬(NS × NS)은 식 1.24에서처럼, 소스 전력 열 벡터(NS × 1)에 의해서 추정될 수 있고, 여기서 방위각 위치의 함수로서의 소스 전력의 개념적인 설명은 예를 들어 도 7에 도시되는 바와 같다. 301과 같은 강도 분포에서 피크(peak)는 302에 의해 나타나는 각에서 상승 소스 전력을 나타낸다.

도래각 ( Direction - of - Arrival ) 추정

도 6의 블록에서 도시되는 바와 같이, 입력 신호의 분석은 소스 공분산( S × S^*)의 추정을 포함한다. 상술한 바와 같이, S × S^*의 추정은 입력 신호의 공분산을 이용함으로써 전력 대 방위각 분포를 결정함으로써 달성될 수 있다. 이는 소위 단기 푸리에 변환(Short-Term Fourier Transform) 즉 STFT을 이용함으로써 행해질 수 있다. STFT 공간의 개념은 도 8에 도시되고, 여기서 세로축은 n개의 주파수 대역들 또는 빈(bin)들로 분할되는 주파수(최대 약 20 kHz)이고 가로축은 시간 간격들(m)로 분할되는 시간이다. 임의의 주파수-시간 세그먼트(F_i(m,n))가 도시된다. 슬롯(m) 이후의 시간 슬롯들은 슬롯들(m + 1 및 m + 2)로 도시된다.

시간-의존성(time-dependent) 푸리에 변환 데이터는 인접한 주파수 대역(△f)으로 분리되고 시변 간격(△t)에 걸쳐서 통합될 수 있어서, 적(product) △f × △t는 미리 결정된(그러나 반드시 고정되지는 않는다) 값으로 유지되고, 가장 단순한 경우는 상기 적이 일정하게 유지되는 것이다. 각각의 주파수 대역과 연관되는 데이터로부터 정보를 추출함으로써, 전력 레벨 및 추정된 방위각 소스 각도가 추론될 수 있다. 모든 주파수 대역들에 걸친 그와 같은 정보의 앙상블(ensemble)로 인해 도 7의 예에서처럼 소스 전력 대 방위각 분포의 상대적으로 완전한 추정치가 제공될 수 있다.

도 8, 도 9, 및 도 10은 STFT 방법을 도시한다. 여러 주파수 대역들(△f)은 시변 간격들(△t)에 걸쳐 통합된다. 일반적으로 말해서, 하위의 주파수들은 상위의 주파수들보다 더 긴 시간에 걸쳐 통합될 수 있다. STFT는 각각의 시간 간격에서 그리고 각각의 주파수 빈에서 복수 푸리에 계수들의 세트를 제공한다.

STFT는 시간-샘플링된 입력 신호의 원래의 벡터를 샘플링된 푸리에 계수들의 세트로 변환한다:

그리고나서 그와 같은 시간/주파수 간격에 걸친 입력 신호의 공분산이 결정된다. 이들은 부분ISSI(m,n,△m,△n)(이하 PartialISSI(m,n,△m,△n))으로 칭해지는데, 왜냐하면 이들은 입력 신호의 단지 일부분으로부터 결정되기 때문이다.

여기서 m은 시작 시간 인덱스를 칭하고 △m은 이의 지속시간을 칭한다. 유사하게, n은 초기 주파수 빈을 칭하고 △n은 이의 자체의 범위까지를 칭한다. 도 9는 △m = 3 및 △n = 2인 경우를 도시한다.

시간/주파수 블록들의 그룹화는 다수의 방법들로 행해질 수 있다. 비록 본 발명에 결정적인 것은 아닐지라도, 다음 예가 유용한 것으로 밝혀졌다:

· PartialISSI(m,n,△m,△n)의 계산에서 결합되는 푸리에 계수들의 수는 △m × △n와 같다. 공분산의 합리적인 치우쳐지지 않은 추정치를 계산하기 위해서, △m × △n은 최소 10이어야 한다. 실제로, △m × △n = 32와 같이, 더 큰 블록을 사용하는 것이 유용하다고 밝혀졌다.

· 하위 주파수 범위에서, △n = 1 및 △m = 32로 설정하는 것이 종종 유용한데, 시간 훼손(time smearing)을 증가시키지 않고 하위 주파수에서 상위 주파수 선택성을 효과적으로 제공한다.

· 상위 주파수 범위에서, △n = 32 및 △m = 1로 설정되는 것이 종종 유용한데, 상위 주파수들에서 하위 주파수 선택성을 효과적으로 제공하지만, 시간-분해능의 장점을 지닌다. 이 개념이 도 10에 도시되고, 여기서 저 및 고 주파수들 사이에서 변하는 시간/주파수 분해능은 인간의 지각 대역들과 유사한 방식이다.

PartialISSI 공분산 계산은 시간-샘플링된 Input_i(t) 신호를 사용하여 행해질 수 있다. 그러나, STFT 계수를 사용함으로써 PartialISSI는 상이한 주파수 대역들에 대해 더 쉽게 계산될 뿐만 아니라 PartialISSI 계산들로부터 위상 정보를 추출한 추가된 케이퍼빌리티(capability)를 제공하게 된다.

행렬 디코더에 대한 도래각 분포

각각의 PartialISSI 행렬로부터의 소스 방위각의 추출은 2개의(NI = 2) 입력 채널들에 대해 아래에 예시된다. 입력 신호는 두 신호 성분들로 구성되는 것으로 가정된다:

Input = SteeredSignal + DiffuseSignal (1.27)

여기서 성분 신호의 RMS 전력은:

로 제공된다.

즉, 방향성 또는 "조향(steered)" 신호는 소스 방향(θ)에 기초하여, 입력 채널로 패닝되었던 소스 신호(Sig(t))로 구성되고, 반면에 확산 신호는 두 입력 신호 모두에서 동일하게 확산되는 비상관된 잡음으로 구성된다.

공분산 행렬은:

이 공분산 행렬은 두 고유값들을 갖는다:

공분산 행렬의 고유값들을 조사함으로써 σ_noise _,, 즉 확산 신호 성분 및 σ_sig, 즉, 조향 신호 성분의 진폭들이 밝혀진다. 더욱이, 다음과 같이, 적절한 삼각 조작법(trigonometirc manipulation)이 사용되어 각(θ)을 추출할 수 있다:

이 방식에서, 각각의 PartialISSI 행렬은 분석되어서 도 11에 도시되는 바와 같이 조향 신호 성분, 확산 신호 성분, 및 소스 방위각 방향의 추정치들을 추출할 수 있다. 그리고나서 PartialISSI의 완전한 세트로부터의 데이터의 앙상블은 서로 결합되어 도 12에 도시되는 바와 같이, 단일 합성 분포를 형성한다. 실제로, 도 13에 도시되는 바와 같이, 조향 분포 데이터를 확산 분포 데이터와 격리하여 유지하는 것이 바람직하다. 도 14의 신호 흐름에서, 추출된 신호 통계치로부터의 분포의 형성은 선형 동작인데 왜냐하면 각각의 PartialISSI 계산은 자기 자신의 조향 및 확산 분포 데이터를 산출하고, 이는 서로 선형으로 합산되어 최종 분포를 형성하기 때문이다. 더욱이, 최종 분포는 또한 선형인 ISSI 및 OSSI를 생성하는데 사용된다. 이 단계들이 선형이므로, 도 15에 도시되는 바와 같이, 계산들을 간소화하기 위해 이들을 재배열할 수 있다.

조향 및 확산 ISSI 및 OSSI 행렬 계산

FinalISSI 및 FinalOSSI는 다음과 같이 계산된다:

여기서 PartialISSI 행렬들의 분석은 각각의 성분에 대한 파라미터들을 계산하는데 사용된다. ISSI 및 OSSI 행렬들에 대한 총 조향 성분은:

여기서 p에 대한 합계는 각각의 PartialISSI 및 PartialOSSI 기여분(contribution)들 모두에 대한 합계를 나타낸다.

각각의 PartialISSI 행렬의 분석으로부터, 신호 전력 진폭(σ_sig), 확산 전력 진폭(σ_noise), 및 연관된 소스 방위각(θ)이 획득된다. 각각의 PartialISSI 행렬은 다음과 같이 재기록될 수 있다:

여기서 상기 식의 제 1 항은 확산 성분이고 제 2 항은 조향 성분이다. 다음을 주목하는 것이 중요하다:

· 확산 성분(ISSI_diff _.p)은 스칼라 및 항등 행렬의 적(product)이다. 방위각(θ)과 관계없다.

· 조향 성분(ISSI_sttered _.p)은 스칼라 및 단지 방위각(θ)에만 좌우되는 원소들을 갖는 행렬의 적이다. 후자는 편리하게도 가장 근접하게 이웃하는 방위각에 의해 인덱스화된 미리 계산된 검색표에 저장된다.

OSSI_diff _.p 및 OSSI_steered _.p 행렬들은 유사하게 정의될 수 있다.

조향된 ("방향성") 성분

조향 항은 다음과 같이 기록될 수 있다:

여기서, 현재의 예에 대해서:

및

I_k _,θ의 예는:

그리고 O_k _,θ에 대해서도 유사하게:

확산 성분

총 DiffuseISSI 및 총 DiffuseOSSI 행렬은:

로 기록될 수 있고, 여기서 DesiredDiffuseISSI 및 DesiredDiffuseOSSI는 균일하게 확산된 조향 신호의 세트와 동일한 방식으로 확산 입력 신호를 디코딩하도록 설계된 미리 계산된 행렬들이다. 실제로, 예를 들어, 조향 신호의 음향 세기(loudness)에 주관적으로 응답하는 것과 같이 주관적인 평가에 기초하여 DesiredDiffuseISSO 및 DesiredDiffuseOSSI를 수정하는 것이 유용하다고 밝혀졌다.

예로서, DesiredDiffuseISSO 및 DesiredDiffuseOSSI의 하나의 선택은 다음과 같다:

믹싱 행렬(M)의 계산

디코더에서 최종 단P는 믹스 행렬(M)의 계수를 계산하는 것이다. 이론상, M은 식에 대한 최소-자승 해법이 되도록 의도된다:

M × ISSI = OSSI (1.47)

실제로, ISSI 행렬은 언제나 양으로 한정된다. 그러므로 이는 M을 효과적으로 계산하기 위한 두 가지의 가능한 방법들을 발생시킨다.

· 양으로 한정되므로, ISSI는 가역이다. 그러므로, 식: M = ISSI × OSSI^-1에 의해 M을 계산하는 것이 가능하다.

· ISSI가 양으로 한정되므로, 경사 강하 알고리즘을 사용하여, M을 반복하여 계산하는 것이 상당히 수월하다. 경사-강하 방법은 다음과 같이 동작할 수 있다:

M_i ₊₁ = M_i + δ × (OSSI - M_i × ISSI) (1.48)

여기서, δ는 경사-강하 알고리즘의 수렴 속도를 조정하기 위해서 선택된다. δ의 값은 M의 갱신을 더 느리게 하기 위해 의도적으로 작게 선택되어, 믹스 계수들에서 시간 변화들을 부드럽게 하고, 급속하게 변하는 계수들의 결과로서 발생하는 왜곡 아티팩트(artifact)를 방지할 수 있다.

트랜스포맷터의 다중대역 버전

상술한 내용은 일반적으로 입력 신호를 프로세싱하여 출력 신호를 생성하기 위해, 단일 행렬(M)의 사용을 언급한다. 이는 광대역 행렬로 칭해질 수 있는데 왜냐하면 입력 신호의 모든 주파수 성분이 동일한 방식으로 프로세싱되기 때문이다. 그러나, 다중대역 버전(version)은 디코더가 동일한 행렬 연산들 외에 상이한 주파수 대역들에 적용될 수 있도록 한다.

일반적으로 말해서, 모든 다중대역 기술들은 다음의 중요한 특징들을 나타낸다:

· 입력 신호는 조향 정보가 대역 내에서 추론될 수 있도록 다수의 대역들(P)로 쪼개진다. 수 P는 조향 정보가 추론되거나 계산될 수 있는 대역들의 수를 칭한다.

· 입력-대-출력 프로세싱 연산은 광대역 믹스(M)가 아니지만, 대신에 주파수에 따라 변하고, 대체로 상이한 주파수 범위에 각각 적용되는 다수의 개별 믹스 동작들에 등가적이다. B는 출력 신호의 프로세싱에서 사용되는 주파수 대역들의 수를 칭한다.

다중대역 디코더는 입력 신호는 다수의 개별 대역들로 분리하고나서 광대역 행렬 디코더를 도 16의 예의 방식에서와 같이 각각의 대역에서 사용함으로써 구현될 수 있다.

이 예에서, 입력 신호는 세 주파수 대역들로 분리된다. "분리된" 프로세스는 확성기 크로스오버(crossover)들에서 사용되는 것처럼, 크로스오버 필터들 또는 필터링 프로세스들("크로스오버")을 사용함으로써 구현될 수 있다. 크로스오버(160)는 제 1 입력 신호(Input₁)를 수신하고 크로스오버(162)는 제 2 입력 신호(Input₂)를 수신한다. 그리고나서 두 입력들로부터 도출되는 저-, 중간-, 및 고-주파수 신호는 세 광대역 행렬 디코더들 또는 디코더 기능들("광대역 행렬 디코더")(164, 166, 및 168)에 각각 공급되고, 세 디코더들의 출력들은 부가적인 결합기들 또는 결합 기능들(제각기 기호로서 "+" 기호를 갖는 것으로 각각 도시된다)에 의해 서로 다시 합산되어 최종 5개의 출력 채널들(L, C, R, Ls, Rs)을 산출한다.

세 광대역 디코더들(164, 166, 및 168) 각각은 상이한 주파수에서 동작하므로 자신의 각각의 주파수 대역 내에 패닝된 오디오의 우세 방향에 관하여 개별 결정을 각각 행할 수 있다. 결과적으로, 다중대역 디코더는 상이한 주파수 대역들을 상이한 방식들로 디코딩함으로써 더 양호한 결과를 달성할 수 있다. 예를 들어, 다중대역 디코더는, 두 기계들을 상이한 출력 채널로 조향하여 자신들의 개별 주파수 범위들의 이점을 취함으로써, 튜바(tuba) 및 피콜로(piccolo)의 행렬 인코딩 기록을 디코딩할 수 있다.

도 16의 예에서, 세 광대역 디코더들은 세 주파수 대역들에서 효과적으로 분석을 수행하고 있고 후속해서 동일한 세 주파수 대역들에서 출력 오디오를 처리하고 있다. 그러므로, 이 예에서, P = B = 3이다.

본 발명의 양상는 P > B일 때 동작하는 트랜스포맷터의 능력이다. 즉, 조향 정보의 (P)의 채널이 도출되고(PartialISSI 통계 추출) 출력 프로세싱이 더 작은 수(B)의 더 넓은 주파수 대역들에 인가될 때, 본 발명의 양상은 각각의 프로세싱 대역에 대하여 적절한 믹스 행렬(M_b)을 정의함으로써 더 큰 세트가 더 작은 세트로 합쳐지는 방식을 정의한다. 이 상황은 도 17의 예에 도시된다. 출력 프로세싱 대역들(H_b : b=1...B) 각각은 도면에서 그룹화하는 부호들에 의해 표시되는 바와 같이, 각각의 입력 분석 대역들의 세트와 중첩된다.

P 분석 대역들에서 동작하고 후속해서 B 프로세싱 대역들에서 오디오를 프로세싱하기 위해서, 트랜스포맷터의 다중대역 버전은 차후에 기술되는 바와 같이 P AnalysisData 세트를 계산함으로써 시작된다. 이는 도 16의 상부 절반과 비교될 수 있다. AnalysisData는 하나의 분석 대역에 대한 데이터의 세트를 나타낸다. 각각의 출력 대역(b = 1...B)의 경우, AnalysisData는 다음과 같이 결합된다 {식들 (1.35), (1.36), (1.43) 및 (1.46)과 비교하라}:

여기서,

및

최종적으로,

M_b = FinalOSSI(b) × FinalISSI(b)^-1 (1.52)

상기 계산은, M 행렬, 및 FinalISSI 및 FinalOSSI 행렬들이 각각의 프로세싱 대역(b = 1...B)에 대해 계산되고 PartialISSI AnalysisData(ISSI_S _,p, OSSI_S,p, 및 σ_p)가 BandWigght_b _,p에 의해 가중되는 것을 제외하고, 광대역 디코더에 대한 계산과 동일하다. 가중요소들은 각각의 출력 프로세싱 대역이 단지 분석 대역들을 중첩한 것으로부터 AnalysisData에 의해 영향을 받도록 하기 위해서 사용된다.

각각의 출력 프로세싱 대역(b)은 작은 수의 입력 분석 대역들과 중첩될 수 있다. 그러므로, 많은 수의 BandWeight_b _,p 가중치들이 영(0)이 될 수 있다. 식 (1.50) 및 (1.51)에 도시된 합산 연산들에 필요한 항들의 수를 감소시키기 위해서 BandWeights 데이터의 희소성(sparseness)이 사용될 수 있다.

일단 M_b 행렬들이 계산되었다면(b= 1...B에 대해), 출력 신호는 다수의 상이한 기술들에 의해 계산될 수 있다:

· 입력 신호는 B 대역들로 분리될 수 있고, 각각의 대역(b)은 자신 각각의 행렬(M_b)을 통하여 프로세싱되어 NO 출력 채널을 생성할 수 있다. 이 경우에, B × NO 중간 신호가 생성된다. NO 출력 채널의 B 세트들은 후속해서 서로 다시 합산되어 NO 광대역 출력 신호를 생성한다. 이 기술은 도 18에 도시된 것과 매우 유사하다.

입력 신호는 주파수 도메인에서 서로 믹싱될 수 있다. 이 경우에, 믹싱 계수들은 주파수의 매끈한 함수(smooth function)로서 변경될 수 있다. 예를 들어, 중간 FFT 빈들에 대한 믹싱 계수들은 행렬들 M_b 및 M_b ₊₁의 계수들 사이에 보간(interpolating)됨으로써 계산되어, FFT 빈은 중간 주파수의 프로세싱 대역들(b 및 b + 1) 사이에 있는 주파수에 대응하는 것으로 가정할 수 있다.

구현예

본 발명은 하드웨어 또는 소프트웨어, 또는 이 둘의 결합(예를 들어 프로그래머블 논리 어레이(programmable logic array)들)으로 구현될 수 있다. 달리 지정되지 않으면, 본 발명의 일부로 포함되는 알고리즘들은 본래부터 임의의 특정 컴퓨터 또는 다른 장치와 관련되지 않는다. 특히, 다양한 범용 기계들이 본원에서 내용들에 따라 기록된 프로그램들에 의해 사용될 수 있거나, 필요한 방법 단계들을 실행하기 위해 더욱 전문화된 장치(예를 들어 집적 회로들)를 구성하는 것이 더 편리할 수 있다. 그러므로, 본 발명은 각각 적어도 하나의 프로세서, 적어도 하나의 데이터 저장 시스템(휘발성 및 비휘발성 메모리 및/또는 저장 소자들을 포함하는), 적어도 하나의 입력 디바이스 또는 포트(port), 및 적어도 하나의 출력 디바이스 또는 포트를 포함하는 하나 이상의 프로그래머블 컴퓨터 시스템들 상에서 수행되는 하나 이상의 컴퓨터 프로그램들에서 구현될 수 있다. 프로그램 코드는 입력 데이터에 적용되어 본원에서 서술된 기능들을 실행하고 출력 정보를 생성한다. 출력 정보는 공지된 방식으로, 하나 이상의 출력 디바이스에 적용된다.

이러한 프로그램 각각은 임의의 원하는 컴퓨터 언어(기계, 어셈블리, 또는 고급 순차 실행, 논리 또는 객체 지향 프로그래밍 언어들)로 구현되어 컴퓨터 시스템과 통신할 수 있다. 아무튼, 상기 언어는 컴파일되거나 번역되는 언어일 수 있다.

이러한 컴퓨터 프로그램 각각은 바람직하게도, 저장 매체 또는 디바이스가 컴퓨터 시스템에 의해 판독되어 본원에 기술되는 절차들을 실행할 때 컴퓨터를 구성하고 동작시키기 위해, 범용 또는 특수 목적 프로그래머블 컴퓨터에 의해 판독 가능한 저장 매체 또는 디바이스(예를 들어, 고체 상태 메모리 또는 매체, 또는 자기 또는 광학 매체)에 저장되거나 다운로드될 수 있다. 본 발명의 시스템은 또한 컴퓨터 프로그램으로 구성되는 컴퓨터-판독 가능 저장 매체로서 구현되는 것으로 간주될 수 있고, 여기서 그렇게 구성되는 저장 매체는 컴퓨터 시스템으로 하여금 특정 그리고 미리 결정된 방식으로 동작하도록 하여 본원에 서술된 기능들을 수행하게 한다. 본 발명의 다수의 실시예가 기술되었다. 그럼에도 불구하고, 다양한 수정들이 본 발명의 정신 및 범위를 벗어나지 않고 행해질 수 있음이 이해될 것이다. 예를 들어, 본원에서 기술되는 단계들의 일부는 순서에 관계없을 수 있으므로, 기술된 것과는 다른 순서로 실행될 수 있다.

Claims

복수[NI]의 오디오 입력 신호[Input₁(t)...Input_NI(t)]를 동적으로 변하는 트랜스포맷팅 행렬(transformatting matrix)[M]에 적용하여 상기 복수의 오디오 입력 신호를 제 1 포맷에서 제 2 포맷으로 리포맷팅(reformatting)하는 방법으로서,
상기 복수의 오디오 입력 신호는 각각 자신에 대한 정보와 연관된 복수의 개념상 소스 신호(notional source signal)[Source₁(t)...Source_NS(t)]를 인코딩 행렬(encoding matrix)[I]에 적용하여 도출된 것으로 가정되고, 상기 인코딩 행렬은 각각의 개념상 소스 신호와 연관된 개념상 정보에 따라 각각의 개념상 소스 신호를 처리하는 제 1 규칙에 따라 상기 개념상 소스 신호를 처리하고, 상기 트랜스포맷팅 행렬은 자신에 의해 생성된 복수[NO]의 출력 신호[Output₁(t)...Output_NO(t)]와 상기 개념상 소스 신호를 이상적인 디코딩 행렬(ideal decoding matrix)[O]에 적용하여 도출된 것으로 가정되는 복수[NO]의 개념상 이상적인 출력 신호[IdealOut₁(t)...IdealOut_NO(t)] 사이의 차이가 감소하도록 제어되고, 상기 디코딩 행렬은 각각의 개념상 소스 신호와 연관된 개념상 정보에 따라 각각의 개념상 소스 신호를 처리하는 제 2 규칙에 따라 상기 개념상 소스 신호를 처리하는, 복수의 오디오 입력 신호를 리포맷팅하는 방법에 있어서,
복수의 주파수 및 시간 세그먼트(segment) 각각에서 오디오 입력 신호에 응답하여, 하나 이상의 방향성 신호 성분의 방향 및 강도 그리고 확산하는 비-방향성 신호 성분의 방향 및 강도에 기인하는 정보를 얻는 단계와,
상기 제 1 규칙과 제 2 규칙에 기초하여 상기 트랜스포맷팅 행렬을 계산하는 단계로서, (a) (i) 상기 복수의 주파수 및 시간 세그먼트 중 적어도 하나에서 오디오 입력 신호의 공분산 행렬(convariance matrix) 및 (ii) 상기 복수의 주파수 및 시간 세그먼트 중 동일한 적어도 하나에서 상기 오디오 입력 신호 및 상기 개념상 이상적인 출력 신호의 교차 공분산 행렬을 추정하는 단계와, (b) 복수의 상기 주파수 및 시간 세그먼트에서, (i) 우세 신호 성분의 상기 방향 및 강도와 (ii) 확산하는 비-방향성 신호 성분의 상기 강도를 결합하는 단계를 포함하는, 트랜스포맷팅 행렬을 계산하는 단계와,
상기 오디오 입력 신호를 상기 트랜스포맷팅 행렬에 적용하여 상기 출력 신호를 생성하는 단계를
포함하는, 복수의 오디오 입력 신호를 리포맷팅하는 방법.
복수[NI]의 오디오 입력 신호[Input₁(t)...Input_NI(t)]를 동적으로 변하는 트랜스포맷팅 행렬[M]에 적용하여 상기 복수의 오디오 입력 신호를 제 1 포맷으로부터 제 2 포맷으로 리포맷팅하는 방법으로서,
상기 복수의 오디오 입력 신호는 각각 서로 상호 관련되지 않고 자신에 대한 정보와 각각 연관된 것으로 가정되는 복수의 개념상 소스 신호(S = [Source₁(t)...Source_NS(t)])를 인코딩 행렬[I]에 적용하여 도출된 것으로 가정되고, 상기 인코딩 행렬은 각각의 개념상 소스 신호와 연관된 개념상 정보에 따라 상기 각각의 개념상 소스 신호를 처리하는 제 1 규칙에 따라 상기 개념상 소스 신호를 처리하고, 상기 트랜스포맷팅 행렬은 상기 트랜스포맷팅 행렬에 의해 생성된 복수[NO]의 출력 신호[Output₁(t)...Output_NO(t)]와 상기 개념상 소스 신호를 이상적인 디코딩 행렬[O]에 적용하여 도출된 것으로 가정되는 복수[NO]의 개념상 이상적인 출력 신호[IdealOut₁(t)...Idealout_NO(t)] 사이의 차이가 감소하도록 제어되고, 상기 디코딩 행렬은 각각의 개념상 소스 신호와 연관된 개념상 정보에 따라 상기 각각의 개념상 소스 신호를 처리하는 제 2 규칙에 따라 상기 개념상 소스 신호를 처리하는, 복수의 오디오 입력 신호를 리포맷팅하는 방법에 있어서,
복수의 주파수 및 시간 세그먼트 각각에서 오디오 입력 신호에 응답하여, 하나 이상의 방향성 신호 성분의 방향 및 강도 그리고 확산하는 비-방향성 신호 성분의 강도에 기인하는 정보를 얻는 단계와,
상기 트랜스포맷팅 행렬(M)을 계산하는 단계로서, 상기 계산하는 단계는 (a) 복수의 상기 주파수 및 시간 세그먼트에서, (i) 우세 신호 성분의 상기 방향 및 강도와 (ii) 확산하는 비방향성 신호 성분이 강도를 결합하는 단계로서, 상기 결합하는 단계의 결과는 상기 소스 신호의 공분산 행렬[S × S^*]의 추정치를 구성하는, 결합 단계, (b) ISSI = I × [cov(소스)] × I^* 및 OSSI = O × [cov(소스)] × I^*를 계산하는 단계와, (c) M = (OSSI) × (ISSI)^-1을 계산하는 단계를 포함하는, 트랜스포맷팅 행렬(M)을 계산하는 단계와,
상기 오디오 입력 신호를 상기 트랜스포맷팅 행렬에 적용하여 출력 신호를 생성하는 단계를
포함하는, 복수의 오디오 입력 신호를 리포맷팅하는 방법.
제 1항 또는 제 2항에 있어서, 상기 개념상 정보는 인덱스(index)를 포함하고, 특정 인덱스와 연관된 제 1 규칙에 따른 프로세싱은 동일한 인덱스와 연관된 제 2 규칙에 따른 프로세싱과 쌍을 이루는, 복수의 오디오 입력 신호를 리포맷팅하는 방법.
제 3항에 있어서, 상기 개념상 정보는 개념상 방향성 정보(notional directional information)인, 복수의 오디오 입력 신호를 리포맷팅하는 방법.
제 4항에 있어서, 상기 개념상 방향성 정보는 개념상 3차원 방향성 정보인, 복수의 오디오 입력 신호를 리포맷팅하는 방법.
제 5항에 있어서, 상기 개념상 3차원 방향성 정보는 개념상 청취 위치(notional listening position)에 대한 개념상 방위각과 고도 관계를 포함하는, 복수의 오디오 입력 신호를 리포맷팅하는 방법.
제 4항에 있어서, 상기 개념상 방향성 정보는 개념상 2차원 방향성 정보인, 복수의 오디오 입력 신호를 리포맷팅하는 방법.
제 7항에 있어서, 상기 개념상 2차원 방향성 정보는 개념상 청취 위치에 대한 개념상 방위각 관계를 포함하는, 복수의 오디오 입력 신호를 리포맷팅하는 방법.
제 1항 내지 제 8항 중 어느 한 항에 있어서, 상기 제 1 규칙은 입력 패닝 규칙(panning rule)이고, 상기 제 2 규칙은 출력 패닝 규칙인, 복수의 오디오 입력 신호를 리포맷팅하는 방법.
제 1항 또는 제 2항에 있어서, 상기 얻는 단계는 상기 복수의 주파수 및 시간 세그먼트 각각에서 오디오 신호의 공분산 행렬을 계산하는 단계를 포함하는, 복수의 오디오 입력 신호를 리포맷팅하는 방법.
제 10항에 있어서, 상기 하나 이상의 우세 신호 성분의 방향 및 강도와 각각의 주파수 및 시간 세그먼트에 대한 확산하는 비-방향성 신호 성분의 강도는, 상기 공분산 행렬 계산의 결과를 기초로 추정하는, 복수의 오디오 입력 신호를 리포맷팅하는 방법.
제 11항에 있어서, 각각의 주파수 및 시간 세그먼트에 대한 확산하는 비-방향성 신호의 상기 추정치는 상기 공분산 행렬 계산에서 가장 작은 고유값(eigenvalue)으로부터 형성되는, 복수의 오디오 입력 신호를 리포맷팅하는 방법.
제 1항 또는 제 3항 내지 제 12항 중 어느 한 항에 있어서, 상기 트랜스포맷팅 행렬 특징은 상기 공분산 행렬 및 상기 교차 공분산 행렬의 함수로 계산되는, 복수의 오디오 입력 신호를 리포맷팅하는 방법.
제 13항에 있어서, 상기 트랜스포맷팅 행렬[M]의 원소는, 상기 공분산 행렬의 역(inverse)에 의해 교차-공분산 행렬 상에서 우측으로부터 연산하여 얻어지는,
M = Cov([IdealOutput],[Input]){Cov[Input],[Input]}^-1인, 복수의 오디오 입력 신호를 리포맷팅하는 방법.
제 14항에 있어서, 상기 복수의 개념상 소스 신호는 서로에 대해 상호 관련되지 않는 것으로 가정되고, 상기 개념상 소스 신호의 공분산 행렬의 계산이 M의 계산에 고유할 때 상기 공분산 행렬은 대각화(diagonalized)됨으로써, 상기 계산을 간소화하는, 복수의 오디오 입력 신호를 리포맷팅하는 방법.
제 14항 또는 제 15항에 있어서, 상기 디코더 행렬[M]은 최대 경사 방법(method of steepest descent)에 의해 결정되는, 복수의 오디오 입력 신호를 리포맷팅하는 방법.
제 16항에 있어서, 상기 최대 경사 방법은, 이전의 시간 간격으로부터 M의 이전 추정을 기초로 상기 트랜스포맷팅 행렬의 반복 추정치를 계산하는 경사 강하 방법(gradient descent method)인, 복수의 오디오 입력 신호를 리포맷팅하는 방법.
제 1항 내지 제 17항 중 어느 한 항에 있어서, 상기 트랜스포맷팅 행렬은 가변 계수를 갖는 가변 행렬이거나 고정된 계수와 가변 출력을 갖는 가변 행렬이고, 상기 트랜스포맷팅 행렬은 상기 가변 계수를 변화시키거나 가변 출력을 변화시켜 제어되는, 복수의 오디오 입력 신호를 리포맷팅하는 방법.
제 3항 내지 제 18항 중 어느 한 항에 있어서, 상기 제 1 규칙과 제 2 규칙은 제 1 검색표와 제 2 검색표로 구현되고, 표 엔트리는 공통 인덱스(common index)에 의해 서로 쌍을 이루는, 복수의 오디오 입력 신호를 리포맷팅하는 방법.
제 1항 내지 제 19항 중 어느 한 항에 있어서, 상기 디코더 행렬[M]은 주파수-의존성 디코더 행렬[M_B]의 가중 합이고,
M = ∑_BW_BM_B이고,
여기서, 주파수 의존성은 대역폭(B)과 연관된, 복수의 오디오 입력 신호를 리포맷팅하는 방법.
제 1항 내지 제 20항 중 어느 한 항의 방법을 실행하는데 적합한 장치.
제 1항 내지 제 20항 중 어느 한 항의 방법을 구현하는데 적합한 컴퓨터 프로그램.