KR101633441B1

KR101633441B1 - 공간적 오디오 처리에서 역상관기의 이용 및 최적 믹싱 행렬들

Info

Publication number: KR101633441B1
Application number: KR1020147006724A
Authority: KR
Inventors: 유하 빌카모; 탐 벡스트룀; 파비안 쿠에흐; 아힘 쿤츠
Original assignee: 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date: 2011-08-17
Filing date: 2012-08-14
Publication date: 2016-07-08
Also published as: MX2014001731A; JP2014526065A; PL2617031T3; WO2013024085A1; AU2012296895A1; KR20140047731A; CN103765507B; HK1187731A1; CA2843820A1; ES2499640T3; US20140233762A1; US10748516B2; EP2617031A1; CN103765507A; US20190251938A1; US10339908B2; RU2014110030A; EP2617031B1; AR087564A1; AU2012296895B2

Abstract

두개 이상의 오디오 입력 채널들을 갖는 오디오 입력 신호로부터 두개 이상의 오디오 출력 채널들을 갖는 오디오 출력 신호를 발생시키는 장치가 제공된다. 상기 장치는 공급자(110) 및 신호 프로세서(120)를 포함한다. 공급자(110)는 오디오 입력 신호의 제1공분산 특성들을 제공하도록 적용된다. 신호 프로세서(120)는 두개 이상의 오디오 입력 채널들의 적어도 두개에 관한 믹싱 규칙을 적용하는 것에 의해 오디오 출력 신호를 발생시키도록 구성된다. 신호 프로세서(120)는 오디오 입력 신호의 제1공분산 특성들에 기반하여 그리고 오디오 출력 신호의 제2공분산 특성들에 기반하여 믹싱 규칙을 결정하도록 구성되며, 제2공분산 특성들은 제1공분산 특성들과 다르다.

Description

공간적 오디오 처리에서 역상관기의 이용 및 최적 믹싱 행렬들{OPTIMAL MIXING MATRICES AND USAGE OF DECORRELATORS IN SPATIAL AUDIO PROCESSING}

본 발명은 오디오 신호 프로세싱에 관련되며, 특히 최적 믹싱(mixing) 행렬들을 이용하는 방법 및 장치에 관련되며, 더 나아가, 공간적 오디오 프로세싱에서 역상관기의 활용에 관계된다.

오디오 프로세싱은 더욱 더 중요해지고 있다. 공간적 오디오의 지각 프로세싱에 있어서, 일반적 가정은 확성기-재생 사운드의 공간적 관점 은 에너지 및 지각 주파수 대역들에서 오디오 채널들 사이의 시간-정렬 의존도들에 의해 특히 결정된다는 것이다. 이는, 확성기들을 넘어 재생될 때, 이러한 특성들이, 공간적 지각의 바이노럴(두 귀의) 신호인, 상호-청각(inter-aural) 레벨 차이들, 상호-청각 시간 차이들 및 상호-청각 일관성으로 전송한다는 개념에서 발견된다. 이러한 개념으로부터, 업믹싱을 포함하는, 다양한 공간적 프로세싱 방법들이 발견되었고, 다음을 보라.

[1] C. Faller, Multiple-Loudspeaker Playback of Stereo Signals, Journal of the Audio Engineering Society, Vol. 54, No. 11, pp. 1051-1064, June 2006,

공간적 마이크로포니(microphony)는, 예를 들어, 다음을 보라,

[2] V. Pulkki, Spatial Sound Reproduction with Directional Audio Coding, Journal of the Audio Engineering Society, Vol. 55, No. 6, pp. 503-516, June 2007; 및

[3] C. Tournery, C. Faller, F. Kch, J. Herre, Converting Stereo Microphone Signals Directly to MPEG Surround, 128th AES Convention, May 2010;

그리고 효율적인 스테레오 및 멀티채널 전송에 관해서는, 예를 들어, 다음을 보라,

[4] J. Breebaart, S. van de Par, A. Kohlrausch and E. Schuijers, Parametric Coding of Stereo Audio, EURASIP Journal on Applied Signal Processing, Vol. 2005, No. 9, pp. 1305-1322, 2005; 및

[5] J. Herre, K. Kjrling, J. Breebaart, C. Faller, S. Disch, H. Purnhagen, J. Koppens, J. Hilpert, J. Rdn, W. Oomen, K. Linzmeier and K. S. Chong, MPEG Surround The ISO/MPEG Standard for Efficient and Compatible Multichannel Audio Coding, Journal of the Audio Engineering Society, Vol. 56, No. 11, pp. 932-955, November 2008.

청음 테스트는 각 응용에서 개념의 이익을 확실히 하였고, 예를 들어, [1, 4, 5]를 참고하고, 예를 들어,

[6] J. Vilkamo, V. Pulkki, Directional Audio Coding: Virtual Microphone-Based Synthesis and Subjective Evaluation, Journal of the Audio Engineering Society, Vol. 57, No. 9, pp. 709-724, September 2009.

모든 기술들은, 비록 상이한 응용에서 , 동일한 핵심 업무를 가지고, 그것은 시간 및 주파수의 기능에 따라 의존도 및 정의된 에너지들을 갖는 출력 채널들의 집합을 입력 채널들의 집합으로부터 발생시키며, 그것은 지각적 공간적 오디오 프로세싱에서 일반적으로 기본적인 업무로 가정될 수 있다. 예를 들어, 방향 오디오 코딩(DirAC)의 문맥에서, 예를 들어, [2]를 보면, 소스 채널들은 일반적으로 제1순서 마이크로폰 신호이고, 그것은 믹싱의 수단에 의해, 측정된 사운드 필드에 지각적으로 근사하도록 처리되는 역상관 및 진폭 패닝이다. 업믹싱에서([1]을 보라), 스테레오 입력 채널들은, 다시, 시간 및 주파수의 기능으로서, 서라운드 설정에 적응적으로(adaptively) 분배된다.

입력 채널들의 집합으로부터 정의된 특성들을 갖는 출력 채널들의 집합을 발생시키기 위해 향상된 개념을 제공하는 것이 본 발명의 목적이다.

본 발명의 목적은 제1항에 따른 장치, 제25항에 따른 방법 및 제26항에 따른 컴퓨터 프로그램에 의해 달성된다.

상기 개념의 일반적 목적은, 사운드 품질의 관점에서 극도의 최적화를 갖는 공간적 사운드를 향상, 수정 및/또는 합성하는 것이다.

본 발명의 바람직한 실시예들은 다음 도면들에 대한 레퍼런스와 함께 설명될 것이다:
도 1은 실시예에 따른 둘 이상의 오디오 입력 채널들을 갖는 오디오 입력 신호로부터 둘 이상의 오디오 출력 채널들을 갖는 오디오 출력 신호를 발생시키기 위한 장치를 도시한다.
도 2는 실시예에 따라 신호 프로세서를 설명한다.
도 3은 새로운 벡터 집합 R 및 L을 달성하기 위해 벡터들 L 및 R의 선형 결합을 적용하기 위한 예를 보여준다.
도 4는 또다른 실시예에 따른 장치의 블록도를 보여준다.
도 5는 실시예에 따라 MPEG 써라운드 인코더에 스테레오 일치 마이크로폰 신호를 설명하는 다이어그램을 보여준다.
도 6은 SAM-to-MPS 인코더에 대해 다운믹스 ICC/레벨 상관에 관련된 또다른 실시예에 따른 장치를 보여준다.
도 7은 작은 공간 마이크로폰 배치에 대한 향상을 위한 실시예에 따른 장치를 보여준다.
도 8은 스테레오 또는 멀티채널 플레이백에서 공간적 사운드 품질의 블라인드 향상을 위한 또다른 실시예에 따른 장치를 보여준다.
도 9는 협소한 확성기 설정들의 향상을 보여준다.
도 10은 B-포맷 마이크로폰 신호에 기반하여 향상된 방향성 오디오 코딩 렌더링을 제공하는 실시예를 보여준다.
도 11은 실시예의 수치 예들을 보여주는 표 1을 도시한다.
도 12는 실시예에 따른 방법의 매트랩(Matlab) 실행을 보여주는 목록 1을 보여준다.

둘 이상의 오디오 입력 채널들을 갖는 오디오 입력 신호로부터 둘 이상의 오디오 출력 채널들을 갖는 오디오 출력 신호를 발생시키는 장치가 제공된다. 상기 장치는 공급자와 신호 프로세서를 포함한다. 공급자는 오디오 입력 신호의 제1공분산 특성들을 제공하도록 적응된다. 신호 프로세서는 둘 이상의 오디오 입력 채널들 중 적어도 둘에 대해 믹싱 규칙을 적용시키는 것에 의해 오디오 출력 신호를 발생시키도록 적응된다. 신호 프로세서는 오디오 출력 신호의 제2공분산 특성에 기반하여 그리고 오디오 입력 신호의 제1공분산 특성에 기반하여 믹싱 규칙을 결정하도록 구성되고, 제2공분산 특성들은 제1공분산 특성들과는 다르다.

예를 들어, 채널 에너지들 및 시간-정렬 의존도들은, 예를 들어, 지각적 주파수 대역들에서, 신호 공분산 행렬의 실제 부분에 의해 표현될 수 있다. 다음에서, 이 영역에서 공간적 사운드를 처리하기 위해 일반적으로 응용가능한 개념들이 제시된다. 상기 개념은, 예를 들어, 입력 채널들에서 독립 요소들의 최적 활용에 의해, 주어진 타겟 공분산 행렬인, 주어진 타겟 공분산 특성들(제2공분산 특성들)에 도달하기 위해 적응 믹싱 솔루션을 포함한다. 실시예에서, 그렇지 않은 경우 상기 타겟이 달성되지 않을 때, 수단은(means) 역상관된 사운드 에너지의 필요량을 주입하기 위해 제공될 수 있다. 그러한 개념은 그것의 기능에서 강하고 다양한 이용 경우에 적용될 수 있다. 타겟 공분산 특성들은, 예를 들어, 유저에 의해 제공될 수 있다. 예를 들어, 실시예에 따른 장치는 유저가 공분산 특성들을 입력하도록 하는 수단을 가질 수 있다.

실시예에 따라, 공급자는 제1공분산 특성들을 제공하도록 구성될 수 있고, 여기서 제1공분산 특성들은 제1시간-주파수 빈(bin)에 대해 제1상태를 가질 수 있고, 여기서 제1공분산 특성들은, 제1시간-주파수 빈과 다른, 제2시간-주파수 빈에 대해, 제1상태와 다른, 제2상태를 가질 수 있다. 공급자는 상기 공분산 특성들을 얻기 위해, 분석을 반드시 수행할 필요는 없지만, 유사한 소스들로부터 또는 유저 입력, 저장소로부터 이러한 데이터를 제공할 수 있다.

또다른 실시예에서, 신호 프로세서는 상기 제2공분산 특성들에 기반하여 믹싱 규칙을 결정하도록 구성될 수 있고, 여기서 상기 제2공분산 특성들은 제3시간-주파수 빈에 대한 제3상태를 가지며, 여기서 제2공분산 특성들은, 제3시간-주파수 빈과 다른, 제4시간-주파수 빈에 대해 제3상태와 다른, 제4상태를 갖는다.

또다른 실시예에 따라, 신호 프로세서는 둘 이상의 오디오 출력 채널들 중 각 하나는 둘 이상의 오디오 입력 채널들 중 각 하나에 의존하도록 믹싱 규칙을 적용하는 것에 의해 오디오 출력 신호를 발생시키도록 구성된다.

또다른 실시예에서, 신호 프로세서는 에러 측정이 최소화되도록 믹싱 규칙을 결정하도록 구성될 수 있다. 에러 측정은, 예를 들어, 실제 출력 신호 및 레퍼런스 출력 신호 사이의 절대 차이 신호(absolute difference signal)일 수 있다.

실시예에서, 에러 측정은, 예를 들어,

∥y_ref _-y∥²

에 의존한 측정일 수 있고,

여기서 y는 오디오 출력 신호이고, 여기서

y_ref = Qx 이며,

여기서 x는 오디오 입력 신호를 특정하고 여기서 Q는 y_ref 는 레퍼런스 타겟 오디오 출력 신호를 특정하도록, 어플리케이션-특정일 수 있는, 맵핑 행렬이다.

추가 실시예에 따라, 신호 프로세서는

이 최소화되도록 믹싱 규칙을 결정하도록 구성될 수 있고, 여기서 E는 예측 연산자(expectation operator)이고, y_ref 는 정의된 레퍼런스 포인트이며, 여기서 y는 오디오 출력 신호이다.

추가 실시예에 따라, 신호 프로세서는 상기 제2공분산 특성들을 결정하기 위해 믹싱 규칙을 결정하도록 구성될 수 있고, 여기서 신호 프로세서는 상기 제1공분산 특성들에 기반하여 제2공분산 특성들을 결정하도록 구성될 수 있다.

추가 실시예에 따라, 신호 프로세서는 믹싱 규칙에 따라 믹싱 행렬을 결정하도록 구성될 수 있고, 여기서 신호 프로세서는 제2공분산 특성들에 기반하여 그리고 제1공분산 특성들에 기반하여 믹싱 행렬을 결정하도록 구성될 수 있다.

또다른 실시예에서, 공급자는 오디오 입력 신호의 제1공분산 매트릭스를 결정하는 것에 의해 제1공분산 특성들을 분석하도록 구성될 수 있고 여기서 신호 프로세서는 상기 제2공분산 특성들에 따라 오디오 출력 신호의 제2공분산 매트릭스에 기반하여 믹싱 규칙을 결정하도록 구성될 수 있다.

또다른 실시예에 따라, 제1공분산 행렬의 각 대각선(diagonal) 값이 오디오 입력 채널들 중 하나의 에너지를 표시할 수 있도록 그리고 대각선 값이 아닌 제1공분산 행렬의 각 값이 제1오디오 입력 채널 및 다른 제2오디오 입력 채널 사이의 상호-채널 상관을 표시할 수 있도록 공급자는 제1공분산 행렬을 결정하는 것으로 구성될 수 있다.

추가 실시예에 따라, 신호 프로세서는 제2공분산 행렬에 기반하여 믹싱 규칙을 결정하도록 구성될 수 있고, 여기서 제2공분산 행렬의 각 대각 값은 오디오 출력 채널들 중 하나의 에너지를 표시할 수 있고 여기서 대각선 값이 아닌 제2공분산 행렬의 각 값은 제1오디오 출력 채널 및 제2오디오 출력 채널 사이의 상호-채널 상관을 표시할 수 있다.

또다른 실시예에 따라, 신호 프로세서는

이고

인 믹싱 행렬을 결정하도록 구성될 수 있고, 여기서 M은 믹싱 행렬이고, 여기서 C_x 는 제1공분산 행렬이고, C_y는 제2공분산 행렬이고, 여기서

는 제1분해 행렬 K _x 의 제1 전치 행렬이고, 여기서

는 제2분해 행렬 K_y의 제2전치 행렬이고, 여기서

는 상기 제1분해 행렬 K _x 의 역행렬이고 여기서 P는 제1단위 행렬이다.

추가 실시예에서, 신호 프로세서는

인 믹싱 행렬을 결정하도록 구성될 수 있고, 여기서

P = VU ^T이며

여기서 U^T 는 제2단위 행렬 U의 제3전치 행렬이고, 여기서 V는 제3단위 행렬이며, 여기서

이며,

여기서 Q ^T 는 다운믹스 행렬 Q의 제4전치 행렬이며, 여기서 V^T는 제3단위 행렬 V의 제5전치 행렬이며, 여기서 S는 대각 행렬이다.

또다른 실시예에 따라, 신호 프로세서는 믹싱 규칙에 따라 믹싱 행렬을 결정하도록 구성되고, 여기서 신호 프로세서는 제2공분산 특성들에 기반하고 제1공분산 특성들에 기반하여 믹싱 행렬을 결정하도록 구성되고, 여기서 공급자는 상기 오디오 입력 신호의 제1공분산 행렬을 결정하는 것에 의해 제1공분산 특성들을 분석하거나 공급하도록 구성되며, 여기서 상기 신호 프로세서는 제2공분산 특성들에 따라 오디오 출력 신호의 제2공분산 행렬에 기반하여 믹싱 규칙을 결정하도록 구성되고, 여기서 신호 프로세서는 대각 행렬 S_x의 값들이 0 또는 미리 결정된 임계값보다 작을 때, 대각 행렬 S_x의 적어도 몇몇 대각선 값들이 임계값들보다 크거나 같게 수정하도록 구성되며, 여기서 신호 프로세서는 대각 행렬에 기반하여 믹싱 행렬을 결정하도록 구성된다. 그러나, 임계 값은 반드시 미리 결정될 필요는 없지만 기능(function)에 의존할 수도 있다.

추가 실시예에서, 신호 프로세서는 대각 행렬 S _x의 적어도 몇 대각 값들을 수정하도록 구성되고, 여기서

이고,

이며, 여기서 C_x는 제1공분산 행렬이고, 여기서 S_x는 대각 행렬이며, 여기서 U_x는 제2행렬이고,

는 제3전치 행렬이며, 여기서

는 제5행렬 K_x의 제4전치 행렬이다. 행렬들 V_x 및 U_x는 단위 행렬들일 수 있다.

또다른 실시예에 따라, 신호 프로세서는 오디오 출력 신호를 얻기 위해 매개 신호에 잔류 신호 r을 더하는 것에 의해 그리고 매개 신호

를 얻기 위해 둘 이상의 오디오 입력 채널들 중 적어도 둘에 관해 믹싱 규칙을 적용하는 것에 의해 오디오 출력 신호를 발생시키도록 구성된다.

또다른 실시예에서, 신호 프로세서는 대각 이득 행렬 G 및 매개 행렬

에 기반하여 믹싱 행렬을 결정하도록 구성되고,

이고, 여기서 대각 이득 행렬은

값을 가지며, 여기서

이며,

여기서 M은 믹싱 행렬이고, 여기서 G는 대각 이득 행렬이며 여기서

은 매개 행렬이고, 여기서 C_y 는 제2공분산 행렬이고 여기서

는 행렬

의 제5전치 행렬이다.

도 1은 실시예에 따라 둘 이상의 오디오 입력 채널들을 갖는 오디오 입력 신호로부터 둘 이상의 오디오 출력 채널들을 갖는 오디오 출력 신호를 발생시키는 장치를 도시한다. 상기 장치는 공급자(110) 및 신호 프로세서(120)을 포함한다. 상기 공급자(110)는 둘 이상의 오디오 입력 채널들을 갖는 오디오 입력 신호를 수신하도록 구성된다. 게다가, 공급자(110)는 오디오 입력 신호의 제1공분산 특성을 분석하도록 구성된다. 공급자(110)는 신호 프로세서(120)에 제1공분산 특성들을 공급하도록 더 구성된다. 신호 프로세서(120)는 오디오 입력 신호를 수신하도록 더 구성된다. 신호 프로세서(120)는 오디오 입력 신호의 둘 이상의 입력 채널들의 적어도 둘에 관해 믹싱 규칙을 적용하는 것에 의해 오디오 출력 신호를 발생시키도록 더 구성된다. 신호 프로세서(120)는 오디오 출력 신호의 제2공분산 특성들에 기반하여 그리고 오디오 입력 신호의 제1공분산 특성들에 기반하여 믹싱 규칙을 결정하도록 구성되고, 제2공분산 특성들은 제1공분산 특성들과 다르다.

도 2는 실시예에 따라 신호 프로세서를 도시한다. 신호 프로세서는 최적 믹싱 행렬 형성 유닛(210)과 믹싱 유닛(220)을 포함한다. 최적 믹싱 행렬 형성 유닛(210)은 최적 믹싱 매트릭스를 만들어낸다. 이를 위해, 최적 믹싱 행렬 형성 유닛(210)은, 예를 들어, 도 1의 실시예의 공급자에 의해, 수신되는 것처럼 스테레오 또는 멀티채널 주파수 대역 오디오 입력 신호의 제1공분산 특성들(230) (예를 들어, 입력 공분산 특성들)을 이용한다. 게다가, 최적 믹싱 매트릭스 형성 유닛(210)은 응용 의존적일 수 있는, 예를 들어, 타겟 공분산 매트릭스처럼, 제2공분산 특성들(240)에 의존하여 믹싱 행렬을 결정한다. 최적 믹싱 행렬 형성 유닛(210)에 의해 형성되는 최적 믹싱 행렬은 채널 맵핑 행렬로 이용될 수 있다. 최적 믹싱 매트릭스는 믹싱 유닛(220)에 제공될 수 있다. 믹싱 유닛(220)은 오디오 출력 신호의 스테레오 또는 멀티채널 주파수 대역 출력을 얻기 위해 스테레오 또는 멀티채널 주파수 대역 입력에 최적 믹싱 행렬을 적용한다. 오디오 출력 신호는 요구되는 제2공분산 특성들을 갖는다(타겟 공분산 특성들).

본 발명의 실시예들을 더 자세히 설명하기 위해, 정의들이 도입된다. 이제, 제로-평균 복합 입력 및 출력 신호들 x_i(t,f) 및 y_j(t,f) 가 정의되며, 여기서 t는 시간 지수이고, 여기서 f는 주파수 지수이고, 여기서 i는 입력 채널 지수이고, 여기서 j는 출력 채널 지수이다. 게다가, 오디오 입력 신호 x 및 오디오 출력 신호 y의 신호 벡터들이 정의된다:

여기서 N_x 및 N_y 는 입력 및 출력 채널들의 전체 숫자이다.

게다가, N = max (N_y, N_x) 이고 동일 차원 0-패디드(padded) 신호들이 정의된다:

제로-패디드 신호들은 유도된 해법들이 상이한 벡터 길이들로 확장되기 전까지 공식에서 이용될 수 있다. 위에서 설명된 것처럼, 멀티채널 사운드의 공간적 관점을 설명하기 위해 널리 이용되는 방법은 채널 에너지들 및 시간-정렬 의존도들의 결합이다. 이러한 특성들은 공분산 행렬들의 실수 부분에 포함되며, 다음과 같이 정의된다:

방정식 (3) 및 다음에서, E[] 는 예측 연산자(expectation operator)이고, Re는 실수 부분 연산자이고, x ^H 및 y ^H 는 x 및 y의 공액전치(conjugate transposes)들이다. 예측 연산자 E[] 는 수학적 연산자이다. 실제 응용들에서 그것은 특정 시간 인터벌에 대한 평균처럼 추정에 의해 교체된다. 다음 섹션들에서, 용어 공분산 행렬의 활용은 이 실수값 정의를 나타낸다. C _x 및 C _y 는 대칭적 그리고 양반한정(positive semi-definite)이며, 이와 같이, 실수 매트리스들 K _x 및 K _y 가 정의될 수 있고, 그래서 :

이다.

그러한 분해들은 예를 들어, 콜레스키(Cholesky) 분해 또는 고유분해(eigendecomposition)를 이용하여 얻어질 수 있고, 예를 들어,

[7] Golub, G.H. and Van Loan, C.F., Matrix computations, Johns Hopkins Univ Press, 1996. 를 보라.

방정식(4)를 충족하는 분해들의 무한한 숫자가 존재한다는 것이 숙지되어야 한다. 어떠한 직교 행렬들 P _x 및 P _y에 대해, 행렬들 K _x P _x 및 K _y P _y 또한 스테레오가 이용되는 케이스들에서

이기 때문에 상기 조건을 만족하며, 공분산 행렬은 예를 들어, [1, 3, 4]에서, 상호-채널 상관(ICC) 및 채널 에너지들의 형태로 종종 주어진다. C_x의 대각 값들은 채널 에너지들이고 두개의 채널들 사이의 ICC는

이며 대응적으로 C_y에 대해서이다. 브래킷들(brackets)에서의 지수들은 행렬 열 및 행을 나타낸다.

나머지 정의(잔여 정의, remaining definition)는, 입력 채널들이 각 출력 채널의 구성에서 이용되는, 정보를 포함하는, 응용-결정 맵핑 행렬(어플리케이션-결정 맵핑 행렬) Q이다. Q와 함께 하나는 레퍼런스 신호를 정의할 수 있다.

맵핑 행렬 Q는 차원성(dimensionality), 스케일링, 채널들의 재배열 및 조합에서의 변화들을 포함할 수 있다. 신호들의 제로-패디드 정의 때문에, Q는 여기에서 N ×N 정방 행렬이고 그것은 제로 열 및 행들을 포함할 수 있다. Q의 몇몇 예들은 :

- 공간적 향상 : Q=I, 응용들에서, 여기서 출력은 입력을 최적으로 유사해야 한다.

- 다운믹싱 : Q는 다운믹싱 행렬이다.

- 제1순서 마이크로폰 신호들로부터의 공간적 합성 : Q는, y_ref가 가상 마이크로폰 신호들의 집합임을 의미하는, 예를 들어, 앰비소닉 마이크로폰 믹싱 행렬(Ambisonic microphone mixing matrix)일 수 있다.

다음에서, y가 응용-정의 공분산 행렬 C_y를 갖는 제약과 함께, 어떻게 신호 x로부터 신호 y를 발생시키는지가 공식화된다. 상기 응용은 또한 최적화를 위해 레퍼런스 지점을 주는 맵핑 행렬 Q를 정의한다. 입력 신호 x는 측정된 공분산 행렬 C_x를 갖는다. 언급된대로, 이러한 변형을 수행하기 위해 제안된 개념들은 주로 채널들의 오직 최적 믹싱의 개념을 주로 이용하며, 역상관기의 이용은 일반적으로 신호 품질을 포함하기 때문에, 부차적으로는, 그외에 목적이 달성되지 않을 때 역상관된 에너지의 주입에 의한다.

이러한 개념들에 따른 입력-출력 관계는

로 쓰여질 수 있고 여기서 M은 1차 개념에 따른 실수 믹싱 행렬이고 r은 이차적인 개념에 따른 잔류 신호이다.

다음에서, 개념들이 공분산 행렬 변경을 위해 제안된다.

먼저, 1차 개념에 따른 작업은 입력 채널들을 크로스-믹싱하는 것에 의해서만 해결된다. 방정식 (8)은

로 단순화된다.

방정식 (3) 및 (9) 로부터, 하나는

를 갖는다.

방정식 (5) 및 (10)으로부터 그것은

를 따르며 그것으로부터 방정식(10)을 충족시키는 M에 대한 솔루션들(solutions)의 집합은

(12)

를 따른다.

이러한 솔루션들에 대한 조건은

가 존재하는 것이다. 직교 행렬

는 잔여 자유 파라미터(remaining free parameter)이다. 다음에서, 최적 행렬 M을 제공하는 행렬 P가 어떻게 발견되는지 설명된다. 방정식 (12)에서 모든 M으로부터, 정의된 레퍼런스 포인트 y _ref에 가장 근접한 출력을 생성하는 것에 대해 검색되고, 즉 그것은

(13a)

를 최소화하고 즉 그것은

를 최소화한다.

이제, E[Reww^H] = I 이도록, 신호 w가 정의된다. w는

때문에, x = K_xw 로 선택될 수 있다.

그것은

를 따른다.

방정식(13)은

로 쓰여질 수 있다.

E[Reww^H] = I 로부터, 행렬 트레이스(matrix trace)인, E[w^H Aw] = tr(A) 인, 실수 대칭 행렬 A에 대해 쉽게 보여질 수 있다. 그것은 방정식(16)이

(17)

의 형태를 취한다는 것을 따른다.

행렬 트레이스들에 대해,

(18)

라는 것이 쉽게 확인될 수 있다.

이러한 특성들을 이용하여, 방정식 (17)은

(19)

의 형태를 취한다.

오직 마지막 항만이 P에 의존한다. 최적화 문제는 그래서

(20)

이다.

그것은 비-음수 대각 행렬 S 및 어떠한 직교 행렬 P_s 에 대해

(21)

라는 것이 쉽게 보여질 수 있다.

그래서, 단일 값 분해

를 정의하는 것에 의해, 여기서 S는 비-음수 및 대각선이고 U 및 V는 직교이며, 그것은 어떠한 직교 P에 대해

를 따른다. 동일한 것이

를 유지하며, 여기서 이 P는 방정식(13)에서 에러 측정의 최소값 및 tr(

)의 최대값을 산출한다.

실시예에 따른 장치는 에러 e가 최소화되도록, 최적 믹싱 행렬 M을 결정한다. 오디오 입력 신호 및 오디오 출력 신호의 공분산 특성들은 다른 시간-주파수 빈들에 대해 달라질 수 있다는 것이 숙지되어야 한다. 그것을 위해, 실시예에 따른 장치의 공급자는 다른 시간-시간 주파수 빈들에 대해 다를 수 있는 오디오 입력 채널의 공분산 특성들을 분석하도록 구성된다. 게다가, 실시예에 따른 장치의 신호 프로세서는 믹싱 규칙, 예를 들어, 오디오 출력 신호의 제2공분산 특성들에 기반한 믹싱 행렬 M, 을 결정하도록 구성되고, 여기서 제2공분산 특성은 다른 시간-주파수 빈들에 대해 다른 값들을 가질 수 있다.

결정된 믹싱 행렬 M이 오디오 입력 신호의 오디오 입력 채널들 각각에 적용될 때, 그리고 오디오 출력 신호의 결과 오디오 출력 채널들이 오디오 입력 채널들 중 각 하나에 의존할 수 있을 때, 실시예에 따른 장치의 신호 프로세서는 그래서 둘 이상의 오디오 출력 채널들 중 각 하나가 오디오 입력 신호의 둘 이상의 오디오 입력 채널들 중 각 하나에 의존하도록 믹싱 규칙을 적용하는 것에 의해 오디오 출력 신호를 발생시키도록 구성된다.

또다른 실시예에 따라,

가 존재하지 않을 때 또는 불안정할 때 역상관을 이용하는 것이 제안된다. 위에서 설명된 실시예들에서,

가 존재한다고 가정되는 곳에서 최적 믹싱 행렬을 결정하기 위한 솔루션이 제공되었다. 그러나,

는 언제나 존재하지 않을 수 있고 또는 그것의 역(inverse)은 x의 몇몇 원리 구성요소들이 매우 작은 경우 아주 큰 승수(multipliers)를 수반할 수 있다. 역(inverse)을 규칙화하는 효과적인 방법은 단일 값 분해

를 이용하는 것이다. 따라서 상기 역은

이다.

비-음수 대각 행렬 S_x가 0이거나 아주 작을 때 문제들이 발생한다. 상기 역을 양호하게 규칙화하는 개념은 이후 더 큰 값들로 이러한 값들을 교체하는 것이다. 이 절차의 결과는

이며, 대응 역은

, 그리고 대응 믹싱 행렬은

이다.

이러한 규칙화는 믹싱 프로세스 내에서 효과적으로 영향을 주며, x에서 작은 원리 구성요소들의 몇몇의 증폭이 감소되며, 결과적으로 그들의 출력 신호 y에 대한 온전함 또한 감소되며 타겟 공분산 C_y는 일반적으로 도달되지 않는다.

이에 의해, 실시예에 따라, 신호 프로세서는 대각 행렬 S_x의 적어도 몇몇 대각 값들을 수정하도록 구성될 수 있고, 여기서 대각 행렬 Sx의 값들은 임계 값보다 작거나 제로일 수 있고(임계 값은 미리 결정될 수 있거나 기능에 의존할 수 있다), 상기 값들은 임계 값보다 크거나 같고, 여기서 상기 신호 프로세서는 대각 행렬에 기반하여 믹싱 행렬을 결정하도록 구성될 수 있다.

실시예에 따라, 신호 프로세서는 대각 행렬 Sx의 적어도 몇몇 대각 값들을 수정하도록 구성될 수 있고, 여기서 K_x = U_xS_xV_x ^T 이고, 여기서 C_x = K_xK_x ^T 이고 여기서 Cx 는 제1공분산 행렬이고, 여기서 Sx는 대각 행렬이고, 여기서 Ux는 제2행렬이고, V_x ^T 는 제3전치 행렬이고 여기서 K_x ^T 는 제5행렬 K_x 제4 전치 행렬이다.

신호 구성요소의 위 손실은 잔류 신호 r로 완전히 보상될 수 있다. 원래 입력-출력 관계는 규칙화된 역과 함께 설명될 수 있다.

(25)

이제, 추가 구성요소 c는

대신에 정의되며, 하나는

를 갖는다. 추가로,

및

이도록, 독립 신호 w가 정의된다.

신호

가 공분산 C_y를 가질 수 있다는 것이 쉽게 보여진다.

규칙화를 보상하기 위한 잔류 신호는

이다.

방정식 (27) 및 (28)로부터, 다음을 따른다.

c가 확률론적 신호에 따라 정의되므로, r의 관련 특성이 그것의 공분산 행렬이라는 것을 따른다. 이와 같이, 공분산 C_x를 가지도록 처리되는 x와 관련하여 독립적인 어떠한 신호는 설명된 것처럼 규칙화가 이용되었을 때 상황에서 타겟 공분산 행렬 C_y를 이상적으로 복원하는 잔류 신호로 기능한다. 그러한 잔류 신호는 채널 믹싱의 제안된 방법 및 역상관기들을 이용하여 쉽게 발생될 수 있다.

역상관 에너지량 및 작은 신호 구성요소들의 증폭 사이의 최적 밸런스를 분석적으로 찾아내는 것은 직접적이지 않다. 이는 입력 신호, 적용된 분석 윈도우 및 입력 신호의 SNR의 통계적 특성들의 안정성처럼 응용-특정 인수들에 의존하기 때문이다. 그러나, 아래에서 제공되는 예시 코드에서 수행되는 것처럼, 명백한 불이익 없이 이러한 밸런싱을 수행하는 발견적 기능을 조정하는 것은 다소 직접적이다.

이에 따라서, 실시예에 따른 장치의 신호 프로세서는 적어도 두개의 오디오 입력 신호들 중 적어도 두개에 관해 믹싱 규칙을 적용하는 것에 의해 오디오 출력 신호를 발생시키도록 구성될 수 있고, 오디오 출력 신호를 얻기 위해 매개 신호에 잔류 신호 r을 더하는 것에 의해 그리고 매개 신호 y’=

x 를 얻도록 구성될 수 있다.

그것은 K_x의 역의 규칙화가 적용될 때, 전체 출력에서 손실 신호 구성요소가 공분산 C_x와 함께 잔류 신호 r로 완전히 보상될 수 있다는 것을 보여준다. 이러한 수단들에 의해, 타겟 공분산 C_y는 언제나 도달된다는 것이 보장될 수 있다. 다음에서, 대응 잔류 신호 r를 발생시키는 하나의 방법이 제공된다. 그것은 다음 단계들을 포함한다:

1. 출력 채널들만큼 많은 신호들의 집합을 발생시킨다. 그것이 출력 신호 만큼 많은 채널들을 가지기 때문에, 신호 y_ref=Qx 가 이용될 수 있고, 출력 신호 각각은 특정 채널에 대해 적당한 신호를 포함한다.

2. 이 신호를 역상관(decorrelate)한다. 주파수 대역에서 유사-랜덤 지연(pseudo-random delays), 올-패스 필터들(all-pass filters), 노이즈 버스트를 갖는 컨벌루션들(convolutions with noise bursts)을 포함하는, 역상관을 위한 많은 방법들이 있다.

3. 역상관된 신호의 공분산 행렬을 측정 (또는 추정)한다. 측정이 가장 단순하고 가장 양호하지만, 신호들이 역상관기로부터 오기 때문에, 그것들은 비간섭성(인코히어런트, incoherent)으로 간주될 수도 있다. 그래서, 오직 에너지의 측정으로 충분할 것이다.

4. 역상관된 신호에 적용될 때, 공분산 행렬 C_x와 함께 출력 신호를 발생시키는, 믹싱 행렬을 발생시키는 제안된 방법을 적용한다. 신호 컨텐츠에 최소로 영향을 미치고 싶어하기 때문에, 맵핑 행렬 Q=I를 여기서 이용하라.

5. 이 믹싱 행렬과 함께 역상관기들로부터 신호를 처리하고 그것을 신호 구성요소들의 부족에 대해 보상하기 위한 출력 신호에 대해 입력한다. 이에 의해, 타겟 C_y가 도달된다.

대안적 실시예에서 역상관 채널들은 최적 믹싱 행렬을 형성하기 전에 (적어도 하나의) 입력 신호에 첨부된다. 이 경우에, 입력 및 출력은 동일 차원이고, 입력 신호가 입력 채널들이 있는만큼 많은 독립 신호 구성요소들을 갖도록 제공되고, 잔류 신호 r을 활용할 필요가 없다. 역상관기가 이러한 방식으로 이용될 때, 역상관기들의 이용은 제안된 개념에 보이지 않고, 이는 역상관된 채널들이 무언가 다른 입력 채널들이기 때문이다.

만약 역상관기들의 이용이 바람직하지 않다면, 적어도 타겟 채널 에너지들은

의 열(rows)들을 곱하는 것에 의해 달성될 수 있고

이며, 여기서 G는 값들

를 갖는 대각 이득 행렬이며,

여기서

이다.

많은 응용들에서 입력 및 출력 채널들의 숫자가 다르다. 방정식 (2)에서 설명된 것처럼, 더 작은 차원을 갖는 신호의 제로-패딩(zero-padding)은 더 높은 것에 따라 동일 차원을 갖도록 적용된다. 제로-패딩은 결과 M에서 몇몇 열들 및 행들이 정의된 0 에너지를 갖는 채널들에 대응하기 때문에 계산적인 오버헤드(overhead)를 내포한다. 수학적으로, 첫번째 제로-패딩을 이용하고 관련 차원 N_y × N_x에 최종적으로 크롭핑(cropping)하는 것에 균등하게, 상기 오버헤드는 차원 N_y × N_x에 0이 첨부되는 항등 행렬(identity matrix)인 도입 행렬에 의해 감소될 수 있고, 예를 들어,

이다. P는 재-정의되고 그래서

P = VΛ U ^T (33)

이다. 결과 M은 제로-패딩 케이스의 M의 관련 부분과 동일한 N_y × N_x 믹싱 행렬이다. 이후, C_x, C_y, K_x 및 K_y는 차원 N_y × N_x 의 맵핑 행렬 Q 및 그들의 자연적 차원(natural dimension)일 수 있다.

입력 공분산 행렬은 언제나

로 분해가능하고 이는 실제 신호로부터 양반한정(positive semi-definite) 측정이기 때문이다. 그러나 그것들이 불가능 채널 의존도를 표현하는 이유 때문에 분해가능하지 않은 그러한 타겟 공분산 행렬들을 정의하는 것이 가능하다. 음수 고유값을 0으로 조정하고 에너지를 정규화하는 것처럼, 분해가능성을 담보하는 개념이 있고, 예를 들어, 다음을 참조하라.

[8] R. Rebonato, P. Jckel, The most general methodology to create a valid correlation matrix for risk management and option pricing purposes, Journal of Risk, Vol. 2, No. 2, pp. 17-28, 2000.

그러나, 제안된 개념의 가장 의미있는 활용은 오직 가능한 공분산 행렬을 요구하는 것이다.

위를 요약하자면, 공통 업무가 다음처럼 바꾸어말해질 수 있다. 먼저 하나는 특정 공분산 행렬과 함께 입력 신호를 갖는다. 두번째로, 응용은 두개의 파라미터들을 정의한다 : 타겟 공분산 행렬 및 규칙, 이는 입력 채널들이 각 출력 채널의 구성에서 이용될 것이다. 이러한 변형을 수행하기 위해, 다음 개념들을 이용하는 것이 제안된다: 도 2에 도시된 것처럼, 주 개념은, 타겟 공분산(target covariance)이 입력 채널들의 최적 믹싱의 솔루션을 이용하여 달성된다는 것이다. 이러한 개념은 그것이 종종 신호 품질과 타협하는, 역상관기의 활용을 피하기 때문에 주요하게 고려된다. 이차 개념은 이용가능한 합리적인 에너지의 충분히 독립적인 구성요소가 없을 때 발생한다. 역상관된 에너지는 이러한 구성요소들의 부족을 보상하기 위해 주입된다. 이와 함께, 이러한 두개의 개념들은 어떠한 주어진 시나리오에서 양호한 공분산 행렬 조정을 수행하기 위한 수단들을 제공한다.

제안된 개념의 주로 예상되는 응용은 공간적 마이크로포니 [2, 3]의 분야이며, 이는 신호 공분산에 관련된 문제들이 방향성 마이크로폰(microphone)들의 물리적 한계 때문에 특히 명확한 분야이다. 게다가 예상되는 이용 케이스들은 스테레오- 및 멀티채널 향상, 앰비언스(분위기, ambiance) 추출, 업믹싱 및 다운믹싱을 포함한다.

위 설명에서, 정의들이 주어지며, 제안된 개념의 유도가 뒤따른다. 먼저, 크로스 믹싱 솔루션이 제공되었으며, 이후 상관된(correlated) 사운드 에너지를 주입하는 개념이 주어졌다. 다음으로, 입력 및 출력 채널들의 상이한 숫자를 갖는 개념의 설명 및 공분산 행렬 분해성에 대한 고려 또한 제공되었다. 다음에서, 실제적 이용 경우들이 제공되며 수치적 예시들의 집합 및 결론이 제시된다. 게다가, 이 문서에 따른 완전한 기능을 갖는 예시 매트랩(Matlab) 코드가 제공된다.

스테레오 또는 멀티채널 사운드의 인식된 공간적 특성들은 주파수 대역들에서 신호의 공분산 행렬에 의해 크게 정의된다. 개념은 주어진 공분산 특성들을 갖는 입력 채널들의 집합을 임의적으로 정의가능한 공분산 특성들을 갖는 출력 채널들의 집합에 대해 최적으로 그리고 적응적으로(adaptively) 크로스믹스(crossmix)하기 위해 제공된다. 추가 개념은 합리적 에너지의 독립적 사운드 구성요소들이 이용가능하지 않을 때 거기에 필요한 역상관된 에너지만을 주입하도록 제공된다. 개념은 공간적 오디오 신호 프로세싱의 분야에서 응용들의 넓은 다양성을 갖는다.

멀티채널 신호의 채널들 (또는 공분산 행렬) 사이의 채널 에너지들 및 의존도들은 요구되는 타겟 특성들 및 입력 특성들에 의존하는 채널들을 오직 선형으로 그리고 시간 변이적으로 크로스믹싱하는 것에 의해서 제어될 수 있다. 이 개념은 벡터들 사이의 각도가 채널 의존도에 대응하고 상기 벡터의 진폭이 신호 레벨에 동일한 곳에서 신호의 인수 표현과 함께 도시될 수 있다.

도 3은 새로운 벡터 집합 R 및 L 을 달성하기 위해 벡터들 L 및 R 의 선형 조합을 적용하는 예를 도시한다. 유사하게, 오디오 채널 베레들 및 그들의 의존도는 선형 조합과 함께 수정될 수 있다. 일반 솔루션은 벡터들을 포함하지는 않지만 채널들의 어떠한 숫자에 최적인 행렬 형성은 포함한다.

스테레오 신호들의 믹싱 행렬은, 도 3에서 보여질 수 있는 것처럼, 삼각법으로 또한 쉽게 형성될 수 있다. 상기 결과들은 행렬 수학들과 동일하지만, 상기 공식화는 다르다.

만약 입력 채널들이 아주 의존적이라면, 타겟 공분산 행렬을 달성하는 것이 오직 역상관기들을 이용하는 것에 의해서만 가능하다. 필요할 때, 예를 들어, 최적으로, 역상관기들을 주입하는 단계가, 또한 제공되었다.

도 4는 믹싱 기술을 적용하는 실시예의 장치의 블록 다이어그램을 도시한다. 상기 장치는 공분산 행렬 분석 모듈(410), 및 신호 프로세서(미도시)를 포함하며, 여기서 신호 프로세서는 믹싱 행렬 형성 모듈(420) 및 믹싱 행렬 응용 모듈(430)을 포함한다. 스테레오 또는 멀티채널 주파수 대역 입력의 입력 공분산 특성들은 공분산 행렬 분석 모듈(410)에 의해 분석된다. 공분산 행렬 분석의 결과는 믹싱 행렬 형성 모듈(420)으로 입력된다.

믹싱 행렬 형성 모듈(420)은, 타겟 공분산 행렬에 기반하여 그리고 가능다면 에러 기준에 기반하여, 공분산 행렬 분석의 결과에 기반하여 믹싱 행렬을 형성한다. 믹싱 행렬 형성 모듈(420)은 믹싱 행렬을 믹싱 행렬 응용 모듈(430)에 입력한다.

믹싱 행렬 응용 모듈(430)은 예를 들어, 미리 정의된, 타겟 공분산 행렬에 의존하는 타겟 공분산 특성들을 갖는, 스테레오 또는 멀티채널 주파수 대역 출력을 얻기 위해 스테레오 또는 멀티채널 주파수 대역 입력에 믹싱 행렬을 적용한다.

위 내용을 요약하면, 상기 개념의 일반적 목적은, 사운드 품질의 관점에서 극도의 최적화를 갖는 공간적 사운드를 향상, 수정 및/또는 합성하는 것이다. 타겟은, 예를 들어, 제2공분산 특성들은, 응용에 의해 정의된다.

또한 모든 대역에서 응용가능한, 개념은 주파수 대역 프로세싱에서 특히 지각적으로 의미가 있다.

역상관기들은 상호-채널 상관기를 향상(감소)시키기 위해 이용된다. 그것들은 이렇게 작동하지만, 특히 과도 사운드 구성요소를 갖는, 전체 사운드 품질을 타협하는 경향이 있다.

제안된 개념은 역상관기들의 이용을 피하거나 또는 몇몇 응용에서 최소화한다. 이러한 결과는 사운드 품질의 그러한 손실 없이 동일한 공간적 특성을 갖는다.

다른 이용들 중에, 상기 기술은 SAM-to-MPS 인코더에서 이용될 수 있다.

제안된 개념은 제1순서 스테레오 일치 마이크로폰들로부터 MPEG 서라운드 비트 스트림(MPEG =Moving Picture Experts Group)을 발생시키는 마이크로폰 기술을 향상시키도록 실행되었고, 예를 들어, [3]을 참조하라. 상기 프로세스는 스테레오 신호로부터 주파수 대역에서 사운드 필드(sound field)의 분산성 및 방향을 추정하고, 리시버 끝에서 디코딩될 때, 오리지널 사운드 필드를 지각적으로 근사하는 사운드 필드를 생성하는 그러한 MPEG 서라운드 비트스트림을 생성하는 것을 포함한다.

도 5에서, 다이어그램은 주어진 마이크로폰 신호로부터 MPEG 서라운드 다운믹스 신호를 생성하기 위해 제안된 개념을 이용하는, 실시예에 따른 MPEG 서라운드 인코더에 스테레오 일치 마이크로폰 신호를 설명하는 것이 도시된다. 모든 프로세싱은 주파수 대역에서 수행된다.

공간적 데이터 결정 모듈(520)은 사운드 필드 모델(510)에 의존하여 방향 및 분산 정보에 기반하여 공간적 서라운드 데이터 및 다운믹스 ICC 및/또는 레벨들을 포함하는 구성 정보 데이터를 형성하도록 구성된다. 사운드 필드 모델 그 자체는 스테레오 마이크로폰 신호의 레벨 및 마이크로폰 ICC들의 분석에 기반한다. 공간적 데이터 결정 모듈(520)은 이후 믹싱 행렬 형성 모듈(530)에 대한 타겟 다운믹스 ICC들 및 레벨들을 제공한다. 게다가, 공간적 데이터 결정 모듈(520)은 MPEG 서라운드 공간적 부가 정보에 따라 공간적 서라운드 데이터 및 다운믹스 ICC 들 및 레벨들을 형성하도록 구성된다. 믹싱 행렬 형성 모듈(530)은 이후 제공된 구성 정보 데이터, 예를 들어, 타겟 다운믹스 ICC들 및 레벨들, 에 기반하여 믹싱 행렬을 형성하고 믹싱 모듈(540)에 상기 행렬을 입력한다. 믹싱 모듈(540)은 스테레오 마이크로폰 신호에 믹싱 행렬을 적용한다. 이에 의해, 신호는 타겟 ICC들 및 레벨들을 갖고 발생된다. 타겟 ICC들 및 레벨들을 갖는 신호는 코어 코더(550)에 제공된다. 실시예에서, 모듈들(520, 530 및 540)은 신호 프로세서의 서브모듈들(submodules)이다.

도 5에 따른 장치에 의해 수행되는 프로세스 내에서, MPEG 서라운드 스테레오 다운믹스는 반드시 발생되어야 한다. 이는 사운드 품질에 대한 최소한의 영향을 가지고 주어진 스테레오 신호의 ICC들 및 레벨들을 조정할 필요를 포함한다. 제안된 크로스-믹싱 개념은 이 목적을 위해 적용되었고 [3]의 선행기술의 지각적 이점이 관찰될 수 있었다.

도 6은 SAM-to-MPS 인코더에 대한 다운믹스 ICC/레벨 수정에 관련된 또다른 실시예에 따른 장치를 도시한다. ICC 및 레벨 분석은 모듈(602)에서 수행되고 사운드필드 모델(610)은 모듈(602)에 의한 ICC 및 레벨 분석에 의존한다. 도 5에서 모듈(620)은 모듈(520)에 대응하고, 모듈(630)은 모듈(530)에 대응하며 모듈(640)은 모듈 (540)에 각각 대응한다. 동일한 것이 도 5의 코어 코더(550)에 대응하는 코어 코더(650)에 적용된다. 위에서 설명된 개념은 마이크로폰 신호들로부터 정확히 정확한 ICC 및 레벨들을 갖는 MPS 다운믹스를 생성하기 위해 SAM-to-MPS 인코더로 통합될 수 있다. 위에서 설명된 개념은 역상관기 이용량을 최소화하는 동안 이상적인 공간적 합성을 제공하기 위해 MPS 없이 직접(다이렉트) SAM-to-멀티채널 렌더링에서도 응용가능하다.

향상은 소스 거리, 소스 로컬라이제이션, 안정성, 청취 쾌적함 및 둘러싸는 느낌에 관련되어 예상된다.

도 7은 작은 공간 마이크로폰 배치에 대한 향상을 위한 실시예에 따른 장치를 묘사한다. 모듈(705)는 마이크로폰 공분산 행렬을 얻기 위해 마이크로폰 입력 신호의 공분산 행렬 분석을 수행하도록 구성된다. 마이크로폰 공분산 행렬은 믹싱 행렬 형성 모듈(730)으로 입력된다. 게다가, 마이크로폰 공분산 행렬은 사운드필드 모델(710)을 유도하기 위해 이용된다. 사운드필드 모델(710)은 공분산 행렬보다 다른 소스들에 기반할 수 있다.

사운드필드 모델에 기반하는 방향 및 분산 정보는 타겟 공분산 행렬을 발생시키기 위해 타겟 공분산 행렬 형성 모듈(720)으로 입력된다. 타겟 공분산 행렬 형성 모듈(720)은 이후 믹싱 행렬 형성 모듈(730)으로 발생된 타겟 공분산 행렬을 입력한다.

믹싱 행렬 형성 모듈(730)은 믹싱 행렬을 발생시키고 믹싱 행렬 응용 모듈(740)으로 발생된 믹싱 행렬을 입력하도록 구성된다. 믹싱 행렬 응용 모듈(740)은 타겟 공분산 특성들을 갖는 마이크로폰 출력 신호를 얻기 위해 마이크로폰 입력 신호에 믹싱 행렬을 적용하도록 구성된다. 실시예에서, 모듈들(720, 730 및 740)은 신호 프로세서의 서브모듈들이다.

그러한 장치는 DirAC 및 SAM에서 개념들을 따르며, 이는 오리지널 사운드 필드의 방향 및 분산을 추정하고 추정된 방향 및 분산을 최적으로 재생하는 그러한 출력을 생성한다. 이 신호 프로세싱 절차는 정확한 공간 이미지를 제공하기 위해 큰 공분산 행렬 조정을 요구한다. 제안된 개념은 그것에 대한 솔루션이다. 제안된 개념에 의해, 소스 거리, 소스 로컬라이제이션 및/또는 소스 분리, 청취 쾌적함 및/또는 둘러싸는 느낌이다.

도 8은 스테레오- 멀티채널 플레이백에서 공간적 사운드 품질의 보이지 않는 향상을 위한 실시예를 보여주는 예를 도시한다. 모듈(805)에서, 공분산 행렬 분석, 예를 들어, 스테레오 또는 멀티채널 컨텐츠의 ICC 또는 레벨 분석이 수행된다. 이후, 향상 규칙은 향상 모듈(815)에서 적용되며, 예를 들어, 입력 ICC들로부터 출력 ICC들을 얻기 위해서이다.

믹싱 행렬 형성 모듈(830)은 향상 모듈(815)에서 수행된 향상 규칙을 적용하는 것으로부터 유도된 정보에 기반하여 그리고 모듈(805)에 의해 수행되는 공분산 행렬 분석에 기반하여 믹싱 행렬을 발생시킨다. 믹싱 행렬은 타겟 공분산 특성들을 갖는 조정된 스테레오 또는 멀티채널 컨텐츠를 얻기 위해 모듈(840)에서 스테레오 또는 멀티채널 컨텐츠에 적용된다.

예를 들어, 믹스 또는 레코딩같은, 멀티채널 사운드에 관해, 그것은 특히 너무 높은 ICC의 관점에서, 공간적 사운드에서 지각적 준 최적성(suboptimality)를 찾기 위해 상당히 일반적이다. 일반적 결과는 너비, 엔빌로프(둘러쌈, envelopment), 거리, 소스 분리, 소스 로컬라이제이션 및/또는 소스 안정성 및 청취 쾌적성에 관해 감소된 품질이다. 상기 개념이 불필요하게 높은 ICC들을 갖는 아이템들과 함께 이러한 특성들을 향상시킬 수 있다는 것이 비공식적으로 테스트되었다. 관찰된 향상들은 너비, 소스 거리, 소스 로컬라이제이션/분리, 엔빌로프 및 청취 쾌적성이다.

도 9는 협소한 확성기 설정들(예를 들어, 태블릿들, TV)의 향상을 위해 또다른 실시예를 도시한다. 제안된 개념은 확성기 각도가 너무 좁은 곳에서(예를 들어, 태블릿) 재생 설정들에서 스테레오 품질을 향상시키기 위한 도구로서 아마 이익이 있을 것이다. 제안된 개념은 다음을 제공한다:

- 더 넓은 확성기 설정을 매치시키기 위해 주어진 아크(arc) 내에서 소스들의 리패닝(repanning)

- 더 넓은 확성기 설정의 더 나은 매칭을 위한 ICC 증가

- 요구되는 청각 신호들을 생성하는 직접적인 방법이 없을 때만, 예를 들어, 크로스톡(crosstalk) 취소를 이용하여, 크로스톡-취소(crosstalk-cancellation)를 수행하는 더 나은 시작 지점을 제공

향상들은 정규 크로스토크 취소, 사운드 품질 및 양호함에 관해 그리고 너비에 관련해 예상된다.

도 10에서 도시되는 다른 응용 예에서, 실시예는 B-포맷 마이크로폰 신호에 기반하여 최적 방향성 오디오 코딩 (DirAc) 렌더링을 제공하며 설명된다.

도 10의 실시예는 오디오 품질을 포함하여, 일치하는 마이크로폰 신호들에 기반하여 유닛들을 렌더링하는 최신 DirAC가 불필요한 확장에서 역상관을 적용한다는 발견에 기반한다. 예를 들어, 사운드 필드가 분산하도록 분석된다면, 비록 B-포맷(format)이 수평 사운드 필드(W, X, Y)의 경우에 이미 세개의 비간섭성(인코히어런트) 사운드 구성요소를 제공하지만, 완전 상관은 모든 채널들에 적용된다. 이 효과는 분산이 0일 때를 제외하고 변화하는 정도에서 존재한다.

게다가, 가상 마이크로폰들이 사운드 필드 분산 및 확성기 포지셔닝, 소스 앵글에 다르게 의존하는 사운드에 영향을 미치기 때문에 가상 마이크로폰들을 이용하는 위에서-설명된 시스템들은 정확한 출력 공분산 행렬(레벨들 및 채널들 상관들)을 보장하지 않는다.

제안된 개념은 양쪽 이슈들을 해소한다. 두개의 대안들이 존재한다 : (아래 도면처럼) 초과 입력 채널들에 따라 역상관된 채널들을 제공하는 것; 또는 역상관-믹싱 개념을 이용하는 것.

도 10에서, 모듈(1005)는 공분산 행렬 분석을 수행한다. 타겟 공분산 행렬 형성 모듈(1018)은 타겟 공분산 행렬을 형성할 때 사운드필드(soundfield) 모델만이 아니라 확성기 구성도 고려한다. 게다가, 믹싱 행렬 형성 모듈(1030)은 공분산 행렬 분석 및 타겟 공분산 행렬에 기반하는 것 뿐만 아니라, 최적 기준, 예를 들어, 모듈(1032)에 의해 제공되는 B-포맷-to-가상 마이크로폰 믹싱 행렬에도 기반하여 믹싱 행렬을 발생시킨다. 사운드필드 모델(1010)은 도 7의 사운드필드 모델(710)에 대응할 수 있다. 믹싱 행렬 응용 모듈(1040)은 도 7의 믹싱 매트릭스 응용 모듈(740)에 대응할 수 있다.

추가 응용 예에서, 실시예가 채널 변환 방법에서의, 예를 들어, 다운믹스에서, 공간적 조정을 위해 제공된다. 채널 변환은, 예를 들어, 22.2 오디오 트랙으로부터 자동 5.1 다운믹스를 만드는 것은 붕괴 채널들(collapsing channels)을 포함한다. 이는 제안된 개념과 함께 다루어질 수 있는 공간적 이미지의 손실 또는 변화를 포함할 수 있다. 다시, 두개의 대안들이 존재한다 : 첫번째 것은 더 낮은 숫자의 손실 채널들에 대해서는 0-에너지 채널들을 정의하면서 더 높은 채널들 숫자의 영역에서의 개념을 활용한다; 다른 것은 상이한 채널 숫자들에 대해 직접적으로 행렬 솔루션을 형성한다.

도 11은 표 1을 도시하며, 이는 위 설명된 개념들의 수치적 예들을 제공한다. 공분산 C _x를 갖는 신호가 믹싱 행렬 M과 함께 처리되고 C _x 를 갖는 가능한 잔류 신호가 보상될 때, 출력 신호는 공분산 C _y를 갖는다. 비록 수치적 예들은 고정적이지만, 제안된 방법의 일반적 이용은 동적이다. 채널 순서는 L, R, C, Ls, Rs, (Lr, Rr)로 가정된다.

표 1은 몇몇 예상되는 이용 케이스들에서 제안된 개념의 거동을 도시하기 위한 수치적 예들의 집합을 보여준다. 행렬들은 목록 1에서 제공되는 매트랩 코드와 함께 형성되었다.

목록 1은 도 12에서 도시된다. 도 12의 목록 1은 제안된 개념의 매트랩 실행을 도시한다. 매트랩 코드는 수치적 예들에서 이용되었고 제안된 개념의 일반적 기능을 제공한다.

비록 행렬들은 고정으로 도시되었지만, 일반적 응용들에서 그것들은 시간 및 주파수에서 달라진다. 설계 기준은 만약 공분산 C _x를 갖는 신호가 믹싱 행렬 M 과 함께 처리되고 C _x를 갖는 가능한 잔류 신호가 완성된다면 출력 신호가 정의된 공분산 C _y를 갖는다는 것을 만족시키는 정의에 의한다.

표의 제1 및 제2 열은 신호를 역상관시키는 수단에 의해 스테레오 향상의 이용 케이스(경우)를 도시한다. 첫번째 열에서 두개의 채널들 사이에 작지만 합리적인 비간섭성 구성요소가 있고 그래서 완전히 비간섭성 출력이 오직 채널 믹싱에 의해서 달성된다. 두번째 열에서, 입력 상관은 아주 높고, 예를 들어, 더 낮은 원리 구성요소는 아주 작다. 극도로 이를 증폭하는 것은 바람직하지 않고 그래서 빌트-인(built-in) 리미터는 상관된 에너지의 주입을 대신 요구하기 시작하고, 예를 들어, C _r는 이제 비-제로이다(0이 아니다).

세번째 열은 5.0 업믹싱에 대한 스테레오의 케이스를 보여준다. 이 예에서, 타겟 공분산 행렬이 설정되고 스테레오 믹스의 비간섭성 구성요소는 동등하게 그리고 비간섭적으로 측면 및 후방 확성기들에 분배되며 간섭성(코히어런트, coherent) 구성요소는 중앙 확성기에 위치된다. 신호의 차원이 증가되었기 때문에 잔류 신호는 다시 비-제로이다.

네번째 열은 원래 두개의 후방 채널들이 네개의 새로운 후방 채널들에 비간섭성으로 업믹싱되는 곳에서 단순 5.0 내지 7.0 업믹싱의 경우를 보여준다. 이러한 예는 조정이 요구되는 곳에서 그러한 채널들에 프로세싱이 중점을 둔다는 것을 설명한다.

다섯번째 열은 스테레오에 5.0 신호를 다운믹싱하는 케이스를 설명한다. 고정 다운믹싱 행렬 Q를 적용하는 것처럼, 수동적 다운믹싱은 비간섭성 구성요소들에 대해 간섭성 구성요소들을 증폭시킨다. 여기서 타겟 공분산 행렬은 결과 M에 의해 충족되는, 에너지를 보존하기 위해 정의되었다.

여섯번째 및 일곱번째 열은 코인시던트 공간적 마이크로포니의 이용 경우를 도시한다. 입력 공분산 행렬들 C _x 는 이상적 분산 필드에 이상적 첫번째 순서 일치 마이크로폰을 위치시키는 결과이다. 여섯번째 열에서 마이크로폰들 사이의 각도들은 동일하고, 일곱번째 열에서 마이크로폰들은 5.0 설정의 기준 각도들을 향한다. 양쪽 경우에서, C _x 의 큰 오프-대각선(off-diagonal) 값들은 이상적 경우에서 수동적 제1순서 일치 마이크로폰 기술들의 내재하는 단점을 도시하며, 분산 필드를 가장 잘 나타내는 공분산 행렬은 대각선이며, 이는 그래서 타겟으로 설정된다. 양쪽 경우들에서, 모든 에너지에 대해 상관된 에너지를 도출하는 비율은 정확히 2/5이다. 이는 첫번째 순서 수평 일치 마이크로폰 신호들에서 이용가능한 세개의 독립 신호 구성요소들이 있기 때문이며, 두개는 5-채널 대각선 타겟 공분산 행렬을 이루기 위해 더해진다.

스테레오 및 멀티채널 재생에서 공간적 지각은 지각적으로 관련된 주파수 대역들에서 신호 공분산 행렬에서 특히 의존하도록 식별되었다.

채널들의 최적 크로스믹싱(crossmixing)에 의해 신호의 공분산 행렬을 제어하는 개념이 제시되었다. 합리적인 에너지의 충분히 독립적인 신호 구성요소들이 이용가능하지 않는 경우에 필요한 역상관된 에너지를 주입하는 수단이 제시되었다.

상기 개념은 그것의 목적에서 양호하다는 것이 발견되었고 응용들의 넓은 다양성이 식별되었다.

다음에서, 어떻게 C_x에 기반하여 C_y 를 발생시키는지의, 실시예들이 제시되었다. 첫 예에 따라, 5.0 업믹싱에 대한 스테레오가 고려되었다. 스테레오-to-5.0 업믹싱에 관해, 업믹싱에서, C _x 는 2x2 행렬이고 Cy는 5x5 행렬이다(이 예에서, 서브우퍼 채널은 고려되지 않는다). C_x에 기반하여 C_y 를 발생시키는 단계는, 각 시간-주파수 타일(tile)에서, 업믹싱의 컨텍스트에서, 예를 들어, 다음처럼 될 수 있다:

1. 왼쪽 및 오른쪽 채널에서 앰비언트(주변, ambient) 및 직접 에너지를 추정한다. 앰비언스(Ambience)는 양쪽 채널 사이에서 동등한 채널들 사이에서 비간섭성(인코히어런트, incoherent) 구성요소에 의해 특성화된다. 직접 에너지는 앰비언스 에너지 부분이 전체 에너지, 예를 들어, 간섭성(코히어런트, coherent) 에너지 구성요소,로부터 제거될 때 가능하게는 왼쪽 및 오른쪽 채널들에서 다른 에너지들을 갖는 나머지(잔류물, remainder)이다.

2. 직접 구성요소의 각도를 추정한다. 이는 역으로 진폭 패닝 법칙을 이용하여 수행된다. 직접 구성요소에서 진폭 패닝 비율이 있으며, 그것에 대응하는 전방 확성기들 사이에 오직 하나의 각도가 있다.

3. C_y 에 따라 0의 5x5 행렬을 발생시킨다.

4. 분석된 방향의 두개의 가장 근접한 확성기들에 대응하는 C_y의 대각선에 직접 에너지량을 놓는다. 이러한 것들 사이의 에너지의 분배는 진폭 패닝 법칙에 의해 얻어질 수 있다. 진폭 패닝은 간섭성이며, 그래서 대응 비-대각인 두개의 채널들의 에너지들의 곱의 제곱근에 더한다.

채널들 L, R, Ls 및 Rs에 대응하는, C_y의 대각선에 더하며, 에너지량은 앰비언스 구성요소의 에너지에 대응한다. 동등한 분배는 좋은 선택이다. 이제 하나는 타겟 C_y를 갖는다. 또다른 예에 따라, 향상이 고려된다. 0을 향해 상호채널 일관성(코히어런스, coherence)을 조정하는 것에 의한 포위 또는 너비처럼 지각적 품질을 증가시키는 것이 목적이다. 여기서, 향상을 수행하기 위한 두가지 방식으로, 두개의 다른 예들이 주어진다. 첫번째 방식에 대해, 하나는 스테레오 향상의 이용 케이스를 선택하며, 그래서 C_x 및 C_y는 2x2 행렬들이다. 상기 단계들은 다음을 따른다:

1. ICC를 형성 ( -1 및 1 사이의 정규화된 공분산 값), 예를 들어, 공식이 제공된다.

2. 기능에 의해 ICC를 조정한다. 예를 들어, ICC_new = sign(ICC) * ICC². 이는 꽤 약한 조정이다. 또는 ICC_new = sign(ICC) * max(0, abs(ICC) * 10 - 9). 이는 더 큰 조정이다.

3. 대각 값들이 C_x와 동일한 값이도록 C_y를 형성하며, 그러나 비-대각 값은 ICC_new를 이용하여 형성되며, 그러나 역으로 단계 1에서와 동일 공식을 갖는다.

위 시나리오에서, 잔류 신호는 필요하지 않고, 이는 시스템이 작은 신호 구성요소들의 큰 증폭을 요청하지 않도록 ICC 조정이 설계되기 때문이다.

이러한 이용 케이스에서 상기 방법을 실행하는 두번째 타입은, 다음과 같다. 하나는 N 채널 입력 신호를 갖고, C_x 및 C_y는 NxN 행렬들이다.

1. C_x에서와 동일하게 C_y에서 대각 값을 간단하게 설정하는 것에 의해 C_x로부터 C_y를 형성하며, 비-대각 값들을 0으로 한다.

2. 나머지(residuals)를 이용하는 대신에, 제안된 방법에서 이득-보상(gain-compensating) 방법을 이용가능하게 한다.

K_x의 역에서 규칙화(regularization)는 시스템이 안정적이도록 관리한다. 이득 보상은 에너지가 보존되도록 관리한다.

향상을 위한 두개의 설명된 방식들은 유사한 결과들을 제공한다. 후자는 멀티-채널 이용 케이스에서 실행이 더 쉽다.

최종적으로, 세번째 예에따라, 직접/분산 모델, 예를 들어, 방향 오디오 코딩 (DirAC)가 고려된다.

DirAC, 및 공간 오디오 마이크로폰들(Spatial Audio Microphones, SAM)도, 파라미터 방향 및 분산을 갖는 사운드 필드의 해석을 제공한다. 방향은 방향 사운드 구성요소의 도착의 각도이다. 분산성은 0 및 1사이의 값이며, 이는 전체 사운드 에너지의 큰 양이 어떻게 분산되는지에 대한 정보를 주며, 예를 들어, 모든 방향으로부터 비간섭성으로 도착하는 것으로 가정된다. 이는 사운드 필드의 근사이며, 그러나 지각적 주파수 대역들에서 적용될 때, 사운드 필드의 지각적으로 좋은 표현이 제공된다. 방향, 분산성, 및 알려진 사운드 필드의 전체 에너지는 시간-주파수 타일에서 가정된다. 이러한 것들은 마이크로폰 공분산 행렬 C_x에서의 정보를 이용하여 형성된다. C_y를 발생시키기 위한 단계들은 업믹싱에 유사하며, 다음과 같다:

1. Cy에 따라 0의 NxN 행렬을 발생시킨다.

2. 분석된 방향의 두개의 인접 확성기들에 대응하는 C_y의 대각선에 대해 (1 - 분산성) * 전체 에너지인, 직접 에너지량을 위치시킨다. 이것들 사이의 에너지의 분배는 진폭 패닝 법칙에 의해 얻어질 수 있다. 진폭 패닝은 간섭성(코히어런트, coherent)이며, 대응 비-대각선에 두개의 채널들의 에너지들의 곱의 제곱근을 더한다.

3. 분산성 * 전체 에너지인, 분산 에너지량을 C_y의 대각선에 분배한다. 상기 분배는, 예를 들어, 확성기가 드문 방향으로 더 많은 에너지가 위치되도록 수행될 수 있다. 이제 하나는 타겟 C_y를 갖는다.

비록 몇몇 관점들이 장치의 관점에서 설명되었지만, 이러한 관점들은 또한 대응하는 방법의 묘사도 나타낸다는 것이 명백하며, 여기서 블록 또는 장치는 방법 단계 또는 방법 단계의 특징에 대응한다. 유사하게, 방법 단계의 문맥에서 설명된 관점들은 대응하는 장치의 대응하는 블록 또는 아이템 또는 특징의 설명 또한 나타낸다.

특정한 실행의 요구들에 의존하여, 이 발명의 실시 예들은 하드웨어 또는 소프트웨어에서 실행될 수 있다. 실행들은 전자적으로 읽을 수 있는 컨트롤 신호들을 그곳에 저장하고 있는 디지털 저장매체, 예를 들어 플로피 디스크, DVD, CD, ROM, PROM, EPROM, EEPROM 또는 플래시 메모리,를 이용하여 수행될 수 있고 그것은, 각 방법이 수행되는, 프로그래밍 가능한 컴퓨터 시스템과 연동한다. 그래서, 디지털 저장 매체는 컴퓨터 판독가능할 수 있다.

본 발명에 따른 몇몇 실시 예들은 전자적 판독 가능한 컨트롤 신호들을 갖는 데이터 캐리어를 포함하며, 그것은 여기서 설명된 방법 중 하나가 수행되는 프로그래밍 가능한 컴퓨터 시스템과 연동 가능하다.

일반적으로 본 발명의 실시 예들은 프로그램 코드로 컴퓨터 프로그램 결과물에서 실행될 수 있으며, 상기 프로그램 코드는 컴퓨터 프로그램 결과물이 컴퓨터에서 수행될 때 상기 방법 중 하나를 수행하도록 작동되는 것이다. 프로그램 코드는 예시적으로 기계 판독가능 캐리어에 저장될 수도 있다.

다른 실시 예들은 여기에 설명되고, 기계 판독가능 캐리어에 저장된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함한다.

다른 말로, 발명의 방법의 실시 예는, 컴퓨터 프로그램이 컴퓨터에서 운영될 때 여기서 설명된 방법 중 하나를 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.

발명의 방법의 또 다른 실시 예는, 여기서 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 그 자체에 포함하는 데이터 캐리어이다.(또는 디지털 저장 매체, 또는 컴퓨터 판독가능 매체). 데이터 캐리어, 디지털 저장 매체 또는 저장된 매체는 일반적으로 유형이고 그리고/또는 비-일시적일 수 있다.

발명의 방법의 또 다른 실시 예는, 여기서 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 나타내는 신호들의 순서 또는 데이터 스트림이다. 데이터 스트림 또는 신호들의 순서는, 예를 들어 인터넷 같은 데이터 통신 연결을 통해 전송되기 위해 예시적으로 구성될 수 있다.

또다른 실시 예는 여기서 설명된 방법 중 하나를 수행하기 위해 구성되거나 적응되기 위하여 프로세싱 수단, 예를 들어 컴퓨터 또는 프로그래밍 가능한 논리 장치를 포함한다.

또다른 실시 예는 여기서 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램이 그 자체에 설치된 컴퓨터를 포함한다.

몇몇 실시 예에서, 프로그래밍 가능한 논리 장치(예를 들어 필드 프로그래밍 가능한 게이트 어레이)는 여기서 설명된 방법 중 모든 기능 또는 몇몇을 수행하도록 사용될 수 있다. 몇몇 실시 예에서, 필드 프로그래밍 가능한 게이트 어레이는 여기서 설명된 방법 중 하나를 수행하기 위해 마이크로 프로세서와 연동될 수 있다. 일반적으로, 상기 방법들은 바람직하게는 어떠한 하드웨어 장치에 의해서도 수행된다.

상기 설명된 실시 예들은 단지 본 발명의 원리를 위해 예시적일 뿐이다. 본 상기 배열의 변형, 변화, 그리고 여기서 설명된 자세한 내용들을 기술분야의 다른 숙련자에게 명백하다고 이해되어야 한다. 그것의 의도는, 따라서, 여기의 실시 예의 설명 또는 묘사의 방법에 의해 표현된 특정 세부사항들에 의해 제한되는 것이 아닌 오직 목전의 특허 청구항의 범위에 의해서만 제한된다는 것이다.

문헌(Literature):

[1] C. Faller, Multiple-Loudspeaker Playback of Stereo Signals, Journal of the Audio Engineering Society, Vol. 54, No. 11, pp. 1051-1064, June 2006.

[2] V. Pulkki, Spatial Sound Reproduction with Directional Audio Coding, Journal of the Audio Engineering Society, Vol. 55, No. 6, pp. 503-516, June 2007.

[3] C. Tournery, C. Faller, F. Kch, J. Herre, Converting Stereo Microphone Signals Directly to MPEG Surround, 128th AES Convention, May 2010.

[4] J. Breebaart, S. van de Par, A. Kohlrausch and E. Schuijers, Parametric Coding of Stereo Audio, EURASIP Journal on Applied Signal Processing, Vol. 2005, No. 9, pp. 1305-1322, 2005.

[7] Golub, G.H. and Van Loan, C.F., Matrix computations, Johns Hopkins Univ Press, 1996.

Claims

오디오 입력 신호의 제1공분산 특성들을 제공하는 공급자(110), 및
둘 이상의 오디오 입력 채널들 중 적어도 둘에 대한 믹싱 규칙을 적용하는 것에 의해 상기 오디오 출력 신호를 발생시키는 신호 프로세서(120)를 포함하며,
여기서 상기 신호 프로세서(120)는 상기 오디오 입력 신호의 상기 제1공분산 특성들에 기반하여 그리고 상기 오디오 출력 신호의 제2공분산 특성들에 기반하여 상기 믹싱 규칙을 결정하도록 구성되고, 상기 제2공분산 특성들은 상기 제1공분산 특성들과 다르며,
둘 이상의 오디오 입력 채널들을 갖는 오디오 입력 신호로부터 둘 이상의 오디오 출력 채널들을 갖는 오디오 출력 신호를 발생시키는 장치.
제1항에 따른 장치에 있어서,
여기서 상기 공급자(110)는 상기 제1공분산 특성들을 제공하며, 여기서 상기 제1공분산 특성들은 제1공분산 특성들은 제1 시간-주파수 빈(bin)에 대한 제1상태를 가지며, 여기서 상기 제1공분산 특성들은, 상기 제1시간-주파수 빈과 다른, 제2 시간-주파수 빈에 대한 상기 제1상태와 다른, 제2상태를 가지는 장치.
제1항에 따른 장치에 있어서,
여기서 상기 신호 프로세서(120)가 상기 제2공분산 특성들에 기반하여 상기 믹싱 규칙을 결정하도록 구성되며, 여기서 상기 제2공분산 특성들은 제3시간-주파수 빈에 대한 제3상태를 가지며, 여기서 상기 제2공분산 특성들은, 상기 제3시간-주파수 빈과 다른, 제4시간-주파수 빈에 대해 상기 제3상태와 다른, 제4상태를 가지는 장치.
제1항에 따른 장치에 있어서,
여기서 상기 신호 프로세서(120)가 둘 이상의 오디오 출력 채널들 중 각 하나가 둘 이상의 오디오 입력 채널들 중 각 하나에 의존하도록 상기 믹싱 규칙을 적용하는 것에 의해 상기 오디오 출력 신호를 발생시키도록 구성되는 장치.
제1항에 따른 장치에 있어서,
여기서 상기 신호 프로세서(120)가 에러 측정이 최소화되도록 상기 믹싱 규칙이 결정되도록 구성되는 장치.
제5항에 따른 장치에 있어서,
여기서 상기 신호 프로세서(120)는 상기 믹싱 규칙이
∥y_ref - y∥²
에 의존하도록 상기 믹싱 규칙을 결정하도록 구성되며,
여기서
y_ref = Qx 이고,
여기서 x 는 상기 오디오 입력 신호이며, 여기서 Q는 맵핑 행렬이고, 여기서 y는 상기 오디오 출력 신호인, 장치.
제1항에 따른 장치에 있어서,
여기서 상기 신호 프로세서(120)는 상기 제2공분산 특성들을 결정하는 것에 의해 상기 믹싱 규칙을 결정하도록 구성되고, 여기서 상기 신호 프로세서(120)는 상기 제1공분산 특성들에 기반하여 상기 제2공분산 특성들을 결정하도록 구성되는, 장치.
제1항에 따른 장치에 있어서,
여기서 상기 신호 프로세서(120)는 상기 믹싱 규칙에 따라 믹싱 행렬을 결정하도록 구성되고, 여기서 상기 신호 프로세서(120)는 상기 제1공분산 특성들에 기반하여 그리고 상기 제2공분산 특성들에 기반하여 상기 믹싱 행렬을 결정하도록 구성되는, 장치.
제1항에 따른 장치에 있어서,
여기서 상기 공급자(110)는 상기 오디오 입력 신호의 제1공분산 행렬을 결정하는 것에 의해 상기 제1공분산 특성들을 제공하도록 구성되며, 여기서 상기 신호 프로세서(120)는 상기 제2공분산 특성들에 따라 상기 오디오 출력 신호의 제2공분산 행렬에 기반하여 상기 믹싱 규칙을 결정하도록 구성되는, 장치.
제9항에 따른 장치에 있어서,
여기서 상기 공급자(110)는, 상기 제1공분산 행렬의 각 대각선 값이 상기 오디오 입력 채널들 중 하나의 에너지를 표시하도록, 그리고 대각선 값이 아닌 상기 제1공분산 행렬의 각 값이, 제1오디오 입력 채널 및 상이한 제2오디오 입력 채널 사이의 상호-채널 상관(correlation)을 표시하도록, 상기 제1공분산 행렬을 결정하는 것으로 구성되는, 장치.
제9항에 따른 장치에 있어서,
여기서 상기 신호 프로세서(120)는 상기 제2공분산 행렬에 기반하여 상기 믹싱 규칙을 결정하도록 구성되고, 여기서 상기 제2공분산 행렬의 각 대각선 값은 상기 오디오 출력 채널들 중 하나의 에너지를 표시하며, 여기서 대각선 값이 아닌 상기 제2공분산 행렬의 각 값은 제1오디오 출력 채널 및 제2오디오 출력 채널 사이의 상호-채널 상관을 표시하는, 장치.
제1항에 따른 장치에 있어서,
여기서 상기 신호 프로세서(120)는 상기 믹싱 규칙에 따라 믹싱 행렬을 결정하도록 구성되며, 여기서 상기 신호 프로세서(120)는 상기 제1공분산 특성들에 기반하여 그리고 상기 제2공분산 특성들에 기반하여 상기 믹싱 행렬을 결정하도록 구성되며, 여기서 상기 공급자(110)는 상기 오디오 입력 신호의 제1공분산 행렬을 결정하는 것에 의해 상기 제1공분산 특성들을 제공하도록 구성되고, 여기서 상기 신호 프로세서(120)는 상기 제2공분산 특성에 따라 상기 오디오 출력 신호의 제2공분산 행렬에 기반하여 믹싱 규칙을 결정하도록 구성되고, 여기서 상기 신호 프로세서(120)는,

이고,

이도록,
상기 믹싱 행렬을 결정하는 것으로 구성되며, 여기서 M은 상기 믹싱 행렬이고, 여기서 C_x 는 상기 제1공분산 행렬이며, 여기서 C_y 는 상기 제2공분산 행렬이고, 여기서
는 제1분해 행렬 K_x의 제1 전치 행렬이고, 여기서
는 제2분해 행렬 K_y의 제2전치 행렬이며, 여기서
는 상기 제1분해 행렬 K_x의 역 행렬이고, 여기서 P는 제1단위 행렬인 것을 특징으로 하는, 장치.
제12항에 따른 장치에 있어서,
여기서 상기 신호 프로세서(120)는

이도록 상기 믹싱 행렬을 결정하도록 구성되고,
여기서

이고
여기서 U^T는 제2단위 행렬 U의 제3전치 행렬이고, 여기서 V는 제3단위 행렬이며, 여기서 Λ는 0이 첨부된 항등 행렬(identity matrix)이며, 여기서

이고, 여기서 Q^T는 맵핑 행렬 Q의 제4전치 행렬이며, 여기서 V^T는 상기 제3단위 행렬 V의 제5전치 행렬이며, 여기서 S는 대각 행렬인 것을 특징으로 하는, 장치.
제1항에 따른 장치에 있어서,
여기서 상기 신호 프로세서(120)는 상기 믹싱 규칙에 따라 믹싱 행렬을 결정하도록 구성되고, 여기서 상기 신호 프로세서(120)는 상기 제1공분산 특성들에 기반하여 그리고 상기 제2공분산 특성들에 기반하여 상기 믹싱 행렬을 결정하도록 구성되며,
여기서 상기 공급자(110)는 상기 오디오 입력 신호의 제1공분산 행렬을 결정하는 것에 의해 상기 제1공분산 특성들을 제공하도록 구성되며,
여기서 상기 신호 프로세서는 상기 제2공분산 특성들에 따라 상기 오디오 출력 신호의 제2공분산 행렬에 기반하여 상기 믹싱 규칙을 결정하도록 구성되며,
여기서 상기 신호 프로세서(120)는 대각 행렬 S_x의 값들이 0 또는 임계 값보다 작을 때, 상기 값들이 상기 임계 값보다 크거나 같도록, 대각 행렬 S_x의 적어도 몇몇 대각 값들을 수정하는 것에 의해 상기 믹싱 규칙을 결정하도록 구성되고,
여기서 상기 대각 행렬은 상기 제1공분산 행렬에 의존하는, 장치.
제14항에 따른 장치에 있어서,
여기서 상기 신호 프로세서(120)는 상기 대각 행렬 S_x의 적어도 몇몇 대각선 값들을 수정하도록 구성되며, 여기서
, 여기서
이고, 여기서 C_x는 상기 제1공분산 행렬이고, 여기서 S_x는 상기 대각 행렬이고, 여기서 U_x는 제2행렬이고,
는 제5행렬 K_x의 제4전치 행렬이고, 여기서 V_x 및U_x 는 단위 행렬들인, 장치.
제14항에 따른 장치에 있어서,
여기서 상기 신호 프로세서(120)는 매개 신호를 얻기 위해 상기 둘 이상의 오디오 입력 채널들 중 적어도 둘에 상기 믹싱 행렬을 적용하는 것에 의해 그리고 상기 오디오 출력 신호를 얻기 위해 상기 매개 신호에 잔류 신호 r을 더하는 것에 의해 상기 오디오 출력 신호를 발생시키도록 구성되는, 장치.
제14항에 따른 장치에 있어서,
여기서 상기 신호 프로세서(120)는
이도록, 매개 행렬
및 대각 이득 행렬 G에 의존하여 상기 믹싱 행렬를 결정하도록 구성되며, 여기서 상기 대각 이득 행렬은 상기 값

을 가지며,
여기서
이고,
여기서 M'은 상기 믹싱 행렬이고, 여기서 G는 상기 대각 이득 행렬이며, 여기서 C_y는 상기 제2공분산 행렬이며 여기서
는 매개 행렬
의 제5전치 행렬인, 장치.
제1항에 따른 장치에 있어서,
여기서 상기 신호 프로세서(120)는 :
상기 제1공분산 특성들에 기반하여 상기 믹싱 규칙에 따라 믹싱 행렬을 발생시키기 위한 믹싱 행렬 형성 모듈(420; 530; 630; 730; 830; 1030), 및
상기 오디오 출력 신호를 발생시키기 위해 상기 오디오 입력 신호에 상기 믹싱 행렬을 적용하기 위한 믹싱 행렬 응용 모듈 (430; 540; 640; 740; 840; 1040)을 포함하는, 장치.
제18항에 따른 장치에 있어서,
여기서 상기 공급자(110)는 상기 제1공분산 특성들에 따라 분석 결과를 얻기 위해 상기 오디오 입력 신호의 입력 공분산 특성들을 제공하기 위한 공분산 행렬 분석 모듈 (410; 705; 805; 1005)을 포함하고,
여기서 상기 믹싱 행렬 형성 모듈 (420; 530; 630; 730; 830; 1030)은 상기 분석 결과에 기반하여 상기 믹싱 행렬을 발생시키도록 구성되는, 장치.
제18항에 따른 장치에 있어서,
여기서 상기 믹싱 행렬 형성 모듈 (420; 530; 630; 730; 830; 1030)은 에러 기준에 기반하여 상기 믹싱 행렬을 발생시키도록 구성되는, 장치.
제18항에 따른 장치에 있어서,
여기서 상기 신호 프로세서(120)는 써라운드 공간 데이터, 상호-채널 상관 데이터 또는 오디오 신호 레벨 데이터를 포함하는 구성 정보 데이터를 결정하기 위한 공간 데이터 결정 모듈 (520; 620)을 더 포함하며,
여기서 상기 믹싱 행렬 형성 모듈 (420; 530; 630; 730; 830; 1030)은 상기 구성 정보 데이터에 기반하여 상기 믹싱 행렬을 발생시키도록 구성되는, 장치.
제19항에 따른 장치에 있어서,
여기서 상기 신호 프로세서(120)는 상기 분석 결과에 기반하여 타겟 공분산 행렬을 발생시키기 위한 타겟 공분산 행렬 형성 모듈 (730; 1018)을 더 포함하고,
여기서 상기 믹싱 행렬 형성 모듈 (420; 530; 630; 730; 830; 1030)은 상기 타겟 공분산 행렬에 기반하여 믹싱 행렬를 발생시키도록 구성되는, 장치.
제22항에 따른 장치에 있어서,
여기서 상기 타겟 공분산 행렬 형성 모듈 (1018)은 확성기 구성에 기반하여 상기 타겟 공분산 행렬를 발생시키도록 구성되는, 장치.
제18항에 따른 장치에 있어서,
여기서 상기 신호 프로세서(120)는, 입력 상호-채널 상관 데이터와 다른, 입력 상호-채널 상관 데이터에 기반하는 출력 상호-채널 상관 데이터를 얻기 위한 향상 모듈(815)를 더 포함하며,
여기서 상기 믹싱 행렬 형성 모듈 (420; 530; 630; 730; 830; 1030)은 상기 출력 상호-채널 상관 데이터에 기반하여 상기 믹싱 행렬을 발생시키도록 구성되는, 장치.
오디오 입력 신호의 제1공분산 특성들을 제공하는 단계 및
둘 이상의 오디오 입력 채널들 중 적어도 둘에 믹싱 규칙을 적용하는 것에 의해 오디오 출력 신호를 발생시키는 단계를 포함하며,
여기서 상기 믹싱 규칙은 상기 오디오 입력 신호의 제1공분산 특성들에 기반하여 그리고 상기 제1공분산 특성들과 다른 상기 오디오 출력 신호의 제2공분산 특성들에 기반하여 결정되는,
둘 이상의 오디오 입력 채널들을 갖는 오디오 입력 신호로부터 둘 이상의 오디오 출력 채널들을 갖는 오디오 출력 신호를 발생시키는 방법.
컴퓨터 또는 프로세서에서 실행될 때 제25항의 방법을 실행하기 위한 컴퓨터 프로그램을 포함하는 컴퓨터 판독가능 매체.