KR101633441B1 - 공간적 오디오 처리에서 역상관기의 이용 및 최적 믹싱 행렬들 - Google Patents

공간적 오디오 처리에서 역상관기의 이용 및 최적 믹싱 행렬들 Download PDF

Info

Publication number
KR101633441B1
KR101633441B1 KR1020147006724A KR20147006724A KR101633441B1 KR 101633441 B1 KR101633441 B1 KR 101633441B1 KR 1020147006724 A KR1020147006724 A KR 1020147006724A KR 20147006724 A KR20147006724 A KR 20147006724A KR 101633441 B1 KR101633441 B1 KR 101633441B1
Authority
KR
South Korea
Prior art keywords
matrix
covariance
mixing
signal
signal processor
Prior art date
Application number
KR1020147006724A
Other languages
English (en)
Other versions
KR20140047731A (ko
Inventor
유하 빌카모
탐 벡스트룀
파비안 쿠에흐
아힘 쿤츠
Original Assignee
프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. filed Critical 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Publication of KR20140047731A publication Critical patent/KR20140047731A/ko
Application granted granted Critical
Publication of KR101633441B1 publication Critical patent/KR101633441B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/18Selecting circuits
    • G10H1/183Channel-assigning means for polyphonic instruments
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0017Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Amplifiers (AREA)

Abstract

두개 이상의 오디오 입력 채널들을 갖는 오디오 입력 신호로부터 두개 이상의 오디오 출력 채널들을 갖는 오디오 출력 신호를 발생시키는 장치가 제공된다. 상기 장치는 공급자(110) 및 신호 프로세서(120)를 포함한다. 공급자(110)는 오디오 입력 신호의 제1공분산 특성들을 제공하도록 적용된다. 신호 프로세서(120)는 두개 이상의 오디오 입력 채널들의 적어도 두개에 관한 믹싱 규칙을 적용하는 것에 의해 오디오 출력 신호를 발생시키도록 구성된다. 신호 프로세서(120)는 오디오 입력 신호의 제1공분산 특성들에 기반하여 그리고 오디오 출력 신호의 제2공분산 특성들에 기반하여 믹싱 규칙을 결정하도록 구성되며, 제2공분산 특성들은 제1공분산 특성들과 다르다.

Description

공간적 오디오 처리에서 역상관기의 이용 및 최적 믹싱 행렬들{OPTIMAL MIXING MATRICES AND USAGE OF DECORRELATORS IN SPATIAL AUDIO PROCESSING}
본 발명은 오디오 신호 프로세싱에 관련되며, 특히 최적 믹싱(mixing) 행렬들을 이용하는 방법 및 장치에 관련되며, 더 나아가, 공간적 오디오 프로세싱에서 역상관기의 활용에 관계된다.
오디오 프로세싱은 더욱 더 중요해지고 있다. 공간적 오디오의 지각 프로세싱에 있어서, 일반적 가정은 확성기-재생 사운드의 공간적 관점 은 에너지 및 지각 주파수 대역들에서 오디오 채널들 사이의 시간-정렬 의존도들에 의해 특히 결정된다는 것이다. 이는, 확성기들을 넘어 재생될 때, 이러한 특성들이, 공간적 지각의 바이노럴(두 귀의) 신호인, 상호-청각(inter-aural) 레벨 차이들, 상호-청각 시간 차이들 및 상호-청각 일관성으로 전송한다는 개념에서 발견된다. 이러한 개념으로부터, 업믹싱을 포함하는, 다양한 공간적 프로세싱 방법들이 발견되었고, 다음을 보라.
[1] C. Faller, Multiple-Loudspeaker Playback of Stereo Signals, Journal of the Audio Engineering Society, Vol. 54, No. 11, pp. 1051-1064, June 2006,
공간적 마이크로포니(microphony)는, 예를 들어, 다음을 보라,
[2] V. Pulkki, Spatial Sound Reproduction with Directional Audio Coding, Journal of the Audio Engineering Society, Vol. 55, No. 6, pp. 503-516, June 2007; 및
[3] C. Tournery, C. Faller, F. Kch, J. Herre, Converting Stereo Microphone Signals Directly to MPEG Surround, 128th AES Convention, May 2010;
그리고 효율적인 스테레오 및 멀티채널 전송에 관해서는, 예를 들어, 다음을 보라,
[4] J. Breebaart, S. van de Par, A. Kohlrausch and E. Schuijers, Parametric Coding of Stereo Audio, EURASIP Journal on Applied Signal Processing, Vol. 2005, No. 9, pp. 1305-1322, 2005; 및
[5] J. Herre, K. Kjrling, J. Breebaart, C. Faller, S. Disch, H. Purnhagen, J. Koppens, J. Hilpert, J. Rdn, W. Oomen, K. Linzmeier and K. S. Chong, MPEG Surround The ISO/MPEG Standard for Efficient and Compatible Multichannel Audio Coding, Journal of the Audio Engineering Society, Vol. 56, No. 11, pp. 932-955, November 2008.
청음 테스트는 각 응용에서 개념의 이익을 확실히 하였고, 예를 들어, [1, 4, 5]를 참고하고, 예를 들어,
[6] J. Vilkamo, V. Pulkki, Directional Audio Coding: Virtual Microphone-Based Synthesis and Subjective Evaluation, Journal of the Audio Engineering Society, Vol. 57, No. 9, pp. 709-724, September 2009.
모든 기술들은, 비록 상이한 응용에서 , 동일한 핵심 업무를 가지고, 그것은 시간 및 주파수의 기능에 따라 의존도 및 정의된 에너지들을 갖는 출력 채널들의 집합을 입력 채널들의 집합으로부터 발생시키며, 그것은 지각적 공간적 오디오 프로세싱에서 일반적으로 기본적인 업무로 가정될 수 있다. 예를 들어, 방향 오디오 코딩(DirAC)의 문맥에서, 예를 들어, [2]를 보면, 소스 채널들은 일반적으로 제1순서 마이크로폰 신호이고, 그것은 믹싱의 수단에 의해, 측정된 사운드 필드에 지각적으로 근사하도록 처리되는 역상관 및 진폭 패닝이다. 업믹싱에서([1]을 보라), 스테레오 입력 채널들은, 다시, 시간 및 주파수의 기능으로서, 서라운드 설정에 적응적으로(adaptively) 분배된다.
입력 채널들의 집합으로부터 정의된 특성들을 갖는 출력 채널들의 집합을 발생시키기 위해 향상된 개념을 제공하는 것이 본 발명의 목적이다.
본 발명의 목적은 제1항에 따른 장치, 제25항에 따른 방법 및 제26항에 따른 컴퓨터 프로그램에 의해 달성된다.
상기 개념의 일반적 목적은, 사운드 품질의 관점에서 극도의 최적화를 갖는 공간적 사운드를 향상, 수정 및/또는 합성하는 것이다.
본 발명의 바람직한 실시예들은 다음 도면들에 대한 레퍼런스와 함께 설명될 것이다:
도 1은 실시예에 따른 둘 이상의 오디오 입력 채널들을 갖는 오디오 입력 신호로부터 둘 이상의 오디오 출력 채널들을 갖는 오디오 출력 신호를 발생시키기 위한 장치를 도시한다.
도 2는 실시예에 따라 신호 프로세서를 설명한다.
도 3은 새로운 벡터 집합 R 및 L을 달성하기 위해 벡터들 L 및 R의 선형 결합을 적용하기 위한 예를 보여준다.
도 4는 또다른 실시예에 따른 장치의 블록도를 보여준다.
도 5는 실시예에 따라 MPEG 써라운드 인코더에 스테레오 일치 마이크로폰 신호를 설명하는 다이어그램을 보여준다.
도 6은 SAM-to-MPS 인코더에 대해 다운믹스 ICC/레벨 상관에 관련된 또다른 실시예에 따른 장치를 보여준다.
도 7은 작은 공간 마이크로폰 배치에 대한 향상을 위한 실시예에 따른 장치를 보여준다.
도 8은 스테레오 또는 멀티채널 플레이백에서 공간적 사운드 품질의 블라인드 향상을 위한 또다른 실시예에 따른 장치를 보여준다.
도 9는 협소한 확성기 설정들의 향상을 보여준다.
도 10은 B-포맷 마이크로폰 신호에 기반하여 향상된 방향성 오디오 코딩 렌더링을 제공하는 실시예를 보여준다.
도 11은 실시예의 수치 예들을 보여주는 표 1을 도시한다.
도 12는 실시예에 따른 방법의 매트랩(Matlab) 실행을 보여주는 목록 1을 보여준다.
둘 이상의 오디오 입력 채널들을 갖는 오디오 입력 신호로부터 둘 이상의 오디오 출력 채널들을 갖는 오디오 출력 신호를 발생시키는 장치가 제공된다. 상기 장치는 공급자와 신호 프로세서를 포함한다. 공급자는 오디오 입력 신호의 제1공분산 특성들을 제공하도록 적응된다. 신호 프로세서는 둘 이상의 오디오 입력 채널들 중 적어도 둘에 대해 믹싱 규칙을 적용시키는 것에 의해 오디오 출력 신호를 발생시키도록 적응된다. 신호 프로세서는 오디오 출력 신호의 제2공분산 특성에 기반하여 그리고 오디오 입력 신호의 제1공분산 특성에 기반하여 믹싱 규칙을 결정하도록 구성되고, 제2공분산 특성들은 제1공분산 특성들과는 다르다.
예를 들어, 채널 에너지들 및 시간-정렬 의존도들은, 예를 들어, 지각적 주파수 대역들에서, 신호 공분산 행렬의 실제 부분에 의해 표현될 수 있다. 다음에서, 이 영역에서 공간적 사운드를 처리하기 위해 일반적으로 응용가능한 개념들이 제시된다. 상기 개념은, 예를 들어, 입력 채널들에서 독립 요소들의 최적 활용에 의해, 주어진 타겟 공분산 행렬인, 주어진 타겟 공분산 특성들(제2공분산 특성들)에 도달하기 위해 적응 믹싱 솔루션을 포함한다. 실시예에서, 그렇지 않은 경우 상기 타겟이 달성되지 않을 때, 수단은(means) 역상관된 사운드 에너지의 필요량을 주입하기 위해 제공될 수 있다. 그러한 개념은 그것의 기능에서 강하고 다양한 이용 경우에 적용될 수 있다. 타겟 공분산 특성들은, 예를 들어, 유저에 의해 제공될 수 있다. 예를 들어, 실시예에 따른 장치는 유저가 공분산 특성들을 입력하도록 하는 수단을 가질 수 있다.
실시예에 따라, 공급자는 제1공분산 특성들을 제공하도록 구성될 수 있고, 여기서 제1공분산 특성들은 제1시간-주파수 빈(bin)에 대해 제1상태를 가질 수 있고, 여기서 제1공분산 특성들은, 제1시간-주파수 빈과 다른, 제2시간-주파수 빈에 대해, 제1상태와 다른, 제2상태를 가질 수 있다. 공급자는 상기 공분산 특성들을 얻기 위해, 분석을 반드시 수행할 필요는 없지만, 유사한 소스들로부터 또는 유저 입력, 저장소로부터 이러한 데이터를 제공할 수 있다.
또다른 실시예에서, 신호 프로세서는 상기 제2공분산 특성들에 기반하여 믹싱 규칙을 결정하도록 구성될 수 있고, 여기서 상기 제2공분산 특성들은 제3시간-주파수 빈에 대한 제3상태를 가지며, 여기서 제2공분산 특성들은, 제3시간-주파수 빈과 다른, 제4시간-주파수 빈에 대해 제3상태와 다른, 제4상태를 갖는다.
또다른 실시예에 따라, 신호 프로세서는 둘 이상의 오디오 출력 채널들 중 각 하나는 둘 이상의 오디오 입력 채널들 중 각 하나에 의존하도록 믹싱 규칙을 적용하는 것에 의해 오디오 출력 신호를 발생시키도록 구성된다.
또다른 실시예에서, 신호 프로세서는 에러 측정이 최소화되도록 믹싱 규칙을 결정하도록 구성될 수 있다. 에러 측정은, 예를 들어, 실제 출력 신호 및 레퍼런스 출력 신호 사이의 절대 차이 신호(absolute difference signal)일 수 있다.
실시예에서, 에러 측정은, 예를 들어,
∥yref - y∥2
에 의존한 측정일 수 있고,
여기서 y는 오디오 출력 신호이고, 여기서
yref = Qx 이며,
여기서 x는 오디오 입력 신호를 특정하고 여기서 Q는 yref 는 레퍼런스 타겟 오디오 출력 신호를 특정하도록, 어플리케이션-특정일 수 있는, 맵핑 행렬이다.
추가 실시예에 따라, 신호 프로세서는
Figure 112014024213168-pct00001
이 최소화되도록 믹싱 규칙을 결정하도록 구성될 수 있고, 여기서 E는 예측 연산자(expectation operator)이고, yref 는 정의된 레퍼런스 포인트이며, 여기서 y는 오디오 출력 신호이다.
추가 실시예에 따라, 신호 프로세서는 상기 제2공분산 특성들을 결정하기 위해 믹싱 규칙을 결정하도록 구성될 수 있고, 여기서 신호 프로세서는 상기 제1공분산 특성들에 기반하여 제2공분산 특성들을 결정하도록 구성될 수 있다.
추가 실시예에 따라, 신호 프로세서는 믹싱 규칙에 따라 믹싱 행렬을 결정하도록 구성될 수 있고, 여기서 신호 프로세서는 제2공분산 특성들에 기반하여 그리고 제1공분산 특성들에 기반하여 믹싱 행렬을 결정하도록 구성될 수 있다.
또다른 실시예에서, 공급자는 오디오 입력 신호의 제1공분산 매트릭스를 결정하는 것에 의해 제1공분산 특성들을 분석하도록 구성될 수 있고 여기서 신호 프로세서는 상기 제2공분산 특성들에 따라 오디오 출력 신호의 제2공분산 매트릭스에 기반하여 믹싱 규칙을 결정하도록 구성될 수 있다.
또다른 실시예에 따라, 제1공분산 행렬의 각 대각선(diagonal) 값이 오디오 입력 채널들 중 하나의 에너지를 표시할 수 있도록 그리고 대각선 값이 아닌 제1공분산 행렬의 각 값이 제1오디오 입력 채널 및 다른 제2오디오 입력 채널 사이의 상호-채널 상관을 표시할 수 있도록 공급자는 제1공분산 행렬을 결정하는 것으로 구성될 수 있다.
추가 실시예에 따라, 신호 프로세서는 제2공분산 행렬에 기반하여 믹싱 규칙을 결정하도록 구성될 수 있고, 여기서 제2공분산 행렬의 각 대각 값은 오디오 출력 채널들 중 하나의 에너지를 표시할 수 있고 여기서 대각선 값이 아닌 제2공분산 행렬의 각 값은 제1오디오 출력 채널 및 제2오디오 출력 채널 사이의 상호-채널 상관을 표시할 수 있다.
또다른 실시예에 따라, 신호 프로세서는
Figure 112014024213168-pct00002
이고
Figure 112014024213168-pct00003
인 믹싱 행렬을 결정하도록 구성될 수 있고, 여기서 M은 믹싱 행렬이고, 여기서 Cx 는 제1공분산 행렬이고, Cy는 제2공분산 행렬이고, 여기서
Figure 112014024213168-pct00004
는 제1분해 행렬 K x 의 제1 전치 행렬이고, 여기서
Figure 112014024213168-pct00005
는 제2분해 행렬 Ky의 제2전치 행렬이고, 여기서
Figure 112014024213168-pct00006
는 상기 제1분해 행렬 K x 의 역행렬이고 여기서 P는 제1단위 행렬이다.
추가 실시예에서, 신호 프로세서는
Figure 112014024213168-pct00007
인 믹싱 행렬을 결정하도록 구성될 수 있고, 여기서
P = VU T이며
여기서 UT 는 제2단위 행렬 U의 제3전치 행렬이고, 여기서 V는 제3단위 행렬이며, 여기서
Figure 112014024213168-pct00008
이며,
여기서 Q T 는 다운믹스 행렬 Q의 제4전치 행렬이며, 여기서 VT는 제3단위 행렬 V의 제5전치 행렬이며, 여기서 S는 대각 행렬이다.
또다른 실시예에 따라, 신호 프로세서는 믹싱 규칙에 따라 믹싱 행렬을 결정하도록 구성되고, 여기서 신호 프로세서는 제2공분산 특성들에 기반하고 제1공분산 특성들에 기반하여 믹싱 행렬을 결정하도록 구성되고, 여기서 공급자는 상기 오디오 입력 신호의 제1공분산 행렬을 결정하는 것에 의해 제1공분산 특성들을 분석하거나 공급하도록 구성되며, 여기서 상기 신호 프로세서는 제2공분산 특성들에 따라 오디오 출력 신호의 제2공분산 행렬에 기반하여 믹싱 규칙을 결정하도록 구성되고, 여기서 신호 프로세서는 대각 행렬 Sx의 값들이 0 또는 미리 결정된 임계값보다 작을 때, 대각 행렬 Sx의 적어도 몇몇 대각선 값들이 임계값들보다 크거나 같게 수정하도록 구성되며, 여기서 신호 프로세서는 대각 행렬에 기반하여 믹싱 행렬을 결정하도록 구성된다. 그러나, 임계 값은 반드시 미리 결정될 필요는 없지만 기능(function)에 의존할 수도 있다.
추가 실시예에서, 신호 프로세서는 대각 행렬 S x의 적어도 몇 대각 값들을 수정하도록 구성되고, 여기서
Figure 112014024213168-pct00009
이고,
Figure 112014024213168-pct00010
이며, 여기서 Cx는 제1공분산 행렬이고, 여기서 Sx는 대각 행렬이며, 여기서 Ux는 제2행렬이고,
Figure 112014024213168-pct00011
는 제3전치 행렬이며, 여기서
Figure 112014024213168-pct00012
는 제5행렬 Kx의 제4전치 행렬이다. 행렬들 Vx 및 Ux는 단위 행렬들일 수 있다.
또다른 실시예에 따라, 신호 프로세서는 오디오 출력 신호를 얻기 위해 매개 신호에 잔류 신호 r을 더하는 것에 의해 그리고 매개 신호
Figure 112014024213168-pct00013
를 얻기 위해 둘 이상의 오디오 입력 채널들 중 적어도 둘에 관해 믹싱 규칙을 적용하는 것에 의해 오디오 출력 신호를 발생시키도록 구성된다.
또다른 실시예에서, 신호 프로세서는 대각 이득 행렬 G 및 매개 행렬
Figure 112014024213168-pct00014
에 기반하여 믹싱 행렬을 결정하도록 구성되고,
Figure 112014024213168-pct00015
이고, 여기서 대각 이득 행렬은
Figure 112014024213168-pct00016
값을 가지며, 여기서
Figure 112014024213168-pct00017
이며,
여기서 M은 믹싱 행렬이고, 여기서 G는 대각 이득 행렬이며 여기서
Figure 112014024213168-pct00018
은 매개 행렬이고, 여기서 Cy 는 제2공분산 행렬이고 여기서
Figure 112014024213168-pct00019
는 행렬
Figure 112014024213168-pct00020
의 제5전치 행렬이다.
도 1은 실시예에 따라 둘 이상의 오디오 입력 채널들을 갖는 오디오 입력 신호로부터 둘 이상의 오디오 출력 채널들을 갖는 오디오 출력 신호를 발생시키는 장치를 도시한다. 상기 장치는 공급자(110) 및 신호 프로세서(120)을 포함한다. 상기 공급자(110)는 둘 이상의 오디오 입력 채널들을 갖는 오디오 입력 신호를 수신하도록 구성된다. 게다가, 공급자(110)는 오디오 입력 신호의 제1공분산 특성을 분석하도록 구성된다. 공급자(110)는 신호 프로세서(120)에 제1공분산 특성들을 공급하도록 더 구성된다. 신호 프로세서(120)는 오디오 입력 신호를 수신하도록 더 구성된다. 신호 프로세서(120)는 오디오 입력 신호의 둘 이상의 입력 채널들의 적어도 둘에 관해 믹싱 규칙을 적용하는 것에 의해 오디오 출력 신호를 발생시키도록 더 구성된다. 신호 프로세서(120)는 오디오 출력 신호의 제2공분산 특성들에 기반하여 그리고 오디오 입력 신호의 제1공분산 특성들에 기반하여 믹싱 규칙을 결정하도록 구성되고, 제2공분산 특성들은 제1공분산 특성들과 다르다.
도 2는 실시예에 따라 신호 프로세서를 도시한다. 신호 프로세서는 최적 믹싱 행렬 형성 유닛(210)과 믹싱 유닛(220)을 포함한다. 최적 믹싱 행렬 형성 유닛(210)은 최적 믹싱 매트릭스를 만들어낸다. 이를 위해, 최적 믹싱 행렬 형성 유닛(210)은, 예를 들어, 도 1의 실시예의 공급자에 의해, 수신되는 것처럼 스테레오 또는 멀티채널 주파수 대역 오디오 입력 신호의 제1공분산 특성들(230) (예를 들어, 입력 공분산 특성들)을 이용한다. 게다가, 최적 믹싱 매트릭스 형성 유닛(210)은 응용 의존적일 수 있는, 예를 들어, 타겟 공분산 매트릭스처럼, 제2공분산 특성들(240)에 의존하여 믹싱 행렬을 결정한다. 최적 믹싱 행렬 형성 유닛(210)에 의해 형성되는 최적 믹싱 행렬은 채널 맵핑 행렬로 이용될 수 있다. 최적 믹싱 매트릭스는 믹싱 유닛(220)에 제공될 수 있다. 믹싱 유닛(220)은 오디오 출력 신호의 스테레오 또는 멀티채널 주파수 대역 출력을 얻기 위해 스테레오 또는 멀티채널 주파수 대역 입력에 최적 믹싱 행렬을 적용한다. 오디오 출력 신호는 요구되는 제2공분산 특성들을 갖는다(타겟 공분산 특성들).
본 발명의 실시예들을 더 자세히 설명하기 위해, 정의들이 도입된다. 이제, 제로-평균 복합 입력 및 출력 신호들 xi(t,f) 및 yj(t,f) 가 정의되며, 여기서 t는 시간 지수이고, 여기서 f는 주파수 지수이고, 여기서 i는 입력 채널 지수이고, 여기서 j는 출력 채널 지수이다. 게다가, 오디오 입력 신호 x 및 오디오 출력 신호 y의 신호 벡터들이 정의된다:
Figure 112014024213168-pct00021

여기서 Nx 및 Ny 는 입력 및 출력 채널들의 전체 숫자이다.
게다가, N = max (Ny, Nx) 이고 동일 차원 0-패디드(padded) 신호들이 정의된다:
Figure 112014024213168-pct00022

제로-패디드 신호들은 유도된 해법들이 상이한 벡터 길이들로 확장되기 전까지 공식에서 이용될 수 있다. 위에서 설명된 것처럼, 멀티채널 사운드의 공간적 관점을 설명하기 위해 널리 이용되는 방법은 채널 에너지들 및 시간-정렬 의존도들의 결합이다. 이러한 특성들은 공분산 행렬들의 실수 부분에 포함되며, 다음과 같이 정의된다:
Figure 112014024213168-pct00023
방정식 (3) 및 다음에서, E[] 는 예측 연산자(expectation operator)이고, Re는 실수 부분 연산자이고, x Hy Hxy의 공액전치(conjugate transposes)들이다. 예측 연산자 E[] 는 수학적 연산자이다. 실제 응용들에서 그것은 특정 시간 인터벌에 대한 평균처럼 추정에 의해 교체된다. 다음 섹션들에서, 용어 공분산 행렬의 활용은 이 실수값 정의를 나타낸다. C xC y 는 대칭적 그리고 양반한정(positive semi-definite)이며, 이와 같이, 실수 매트리스들 K xK y 가 정의될 수 있고, 그래서 :
Figure 112014024213168-pct00024
이다.
그러한 분해들은 예를 들어, 콜레스키(Cholesky) 분해 또는 고유분해(eigendecomposition)를 이용하여 얻어질 수 있고, 예를 들어,
[7] Golub, G.H. and Van Loan, C.F., Matrix computations, Johns Hopkins Univ Press, 1996. 를 보라.
방정식(4)를 충족하는 분해들의 무한한 숫자가 존재한다는 것이 숙지되어야 한다. 어떠한 직교 행렬들 P xP y에 대해, 행렬들 K x P xK y P y 또한 스테레오가 이용되는 케이스들에서
Figure 112014024213168-pct00025
이기 때문에 상기 조건을 만족하며, 공분산 행렬은 예를 들어, [1, 3, 4]에서, 상호-채널 상관(ICC) 및 채널 에너지들의 형태로 종종 주어진다. Cx의 대각 값들은 채널 에너지들이고 두개의 채널들 사이의 ICC는
Figure 112014024213168-pct00026
이며 대응적으로 Cy에 대해서이다. 브래킷들(brackets)에서의 지수들은 행렬 열 및 행을 나타낸다.
나머지 정의(잔여 정의, remaining definition)는, 입력 채널들이 각 출력 채널의 구성에서 이용되는, 정보를 포함하는, 응용-결정 맵핑 행렬(어플리케이션-결정 맵핑 행렬) Q이다. Q와 함께 하나는 레퍼런스 신호를 정의할 수 있다.
Figure 112014024213168-pct00027
맵핑 행렬 Q는 차원성(dimensionality), 스케일링, 채널들의 재배열 및 조합에서의 변화들을 포함할 수 있다. 신호들의 제로-패디드 정의 때문에, Q는 여기에서 N ×N 정방 행렬이고 그것은 제로 열 및 행들을 포함할 수 있다. Q의 몇몇 예들은 :
- 공간적 향상 : Q=I, 응용들에서, 여기서 출력은 입력을 최적으로 유사해야 한다.
- 다운믹싱 : Q는 다운믹싱 행렬이다.
- 제1순서 마이크로폰 신호들로부터의 공간적 합성 : Q는, yref가 가상 마이크로폰 신호들의 집합임을 의미하는, 예를 들어, 앰비소닉 마이크로폰 믹싱 행렬(Ambisonic microphone mixing matrix)일 수 있다.
다음에서, y가 응용-정의 공분산 행렬 Cy를 갖는 제약과 함께, 어떻게 신호 x로부터 신호 y를 발생시키는지가 공식화된다. 상기 응용은 또한 최적화를 위해 레퍼런스 지점을 주는 맵핑 행렬 Q를 정의한다. 입력 신호 x는 측정된 공분산 행렬 Cx를 갖는다. 언급된대로, 이러한 변형을 수행하기 위해 제안된 개념들은 주로 채널들의 오직 최적 믹싱의 개념을 주로 이용하며, 역상관기의 이용은 일반적으로 신호 품질을 포함하기 때문에, 부차적으로는, 그외에 목적이 달성되지 않을 때 역상관된 에너지의 주입에 의한다.
이러한 개념들에 따른 입력-출력 관계는
Figure 112014024213168-pct00028
로 쓰여질 수 있고 여기서 M은 1차 개념에 따른 실수 믹싱 행렬이고 r은 이차적인 개념에 따른 잔류 신호이다.
다음에서, 개념들이 공분산 행렬 변경을 위해 제안된다.
먼저, 1차 개념에 따른 작업은 입력 채널들을 크로스-믹싱하는 것에 의해서만 해결된다. 방정식 (8)은
Figure 112014024213168-pct00029
로 단순화된다.
방정식 (3) 및 (9) 로부터, 하나는
Figure 112014024213168-pct00030
를 갖는다.
방정식 (5) 및 (10)으로부터 그것은
Figure 112014024213168-pct00031
를 따르며 그것으로부터 방정식(10)을 충족시키는 M에 대한 솔루션들(solutions)의 집합은
Figure 112014024213168-pct00032
(12)
를 따른다.
이러한 솔루션들에 대한 조건은
Figure 112014024213168-pct00033
가 존재하는 것이다. 직교 행렬
Figure 112014024213168-pct00034
는 잔여 자유 파라미터(remaining free parameter)이다. 다음에서, 최적 행렬 M을 제공하는 행렬 P가 어떻게 발견되는지 설명된다. 방정식 (12)에서 모든 M으로부터, 정의된 레퍼런스 포인트 y ref에 가장 근접한 출력을 생성하는 것에 대해 검색되고, 즉 그것은
Figure 112014024213168-pct00035
(13a)
를 최소화하고 즉 그것은
Figure 112014024213168-pct00036
를 최소화한다.
이제, E[RewwH] = I 이도록, 신호 w가 정의된다. w는
Figure 112014024213168-pct00037
때문에, x = Kxw 로 선택될 수 있다.
그것은
Figure 112014024213168-pct00038
를 따른다.
방정식(13)은
Figure 112014024213168-pct00039
로 쓰여질 수 있다.
E[RewwH] = I 로부터, 행렬 트레이스(matrix trace)인, E[wH Aw] = tr(A) 인, 실수 대칭 행렬 A에 대해 쉽게 보여질 수 있다. 그것은 방정식(16)이
Figure 112014024213168-pct00040
(17)
의 형태를 취한다는 것을 따른다.
행렬 트레이스들에 대해,
Figure 112014024213168-pct00041
(18)
라는 것이 쉽게 확인될 수 있다.
이러한 특성들을 이용하여, 방정식 (17)은
Figure 112014024213168-pct00042
(19)
의 형태를 취한다.
오직 마지막 항만이 P에 의존한다. 최적화 문제는 그래서
Figure 112014024213168-pct00043
(20)
이다.
그것은 비-음수 대각 행렬 S 및 어떠한 직교 행렬 Ps 에 대해
Figure 112014024213168-pct00044
(21)
라는 것이 쉽게 보여질 수 있다.
그래서, 단일 값 분해
Figure 112014024213168-pct00045
를 정의하는 것에 의해, 여기서 S는 비-음수 및 대각선이고 U 및 V는 직교이며, 그것은 어떠한 직교 P에 대해
Figure 112014024213168-pct00046
를 따른다. 동일한 것이
Figure 112014024213168-pct00047
를 유지하며, 여기서 이 P는 방정식(13)에서 에러 측정의 최소값 및 tr(
Figure 112014024213168-pct00048
)의 최대값을 산출한다.
실시예에 따른 장치는 에러 e가 최소화되도록, 최적 믹싱 행렬 M을 결정한다. 오디오 입력 신호 및 오디오 출력 신호의 공분산 특성들은 다른 시간-주파수 빈들에 대해 달라질 수 있다는 것이 숙지되어야 한다. 그것을 위해, 실시예에 따른 장치의 공급자는 다른 시간-시간 주파수 빈들에 대해 다를 수 있는 오디오 입력 채널의 공분산 특성들을 분석하도록 구성된다. 게다가, 실시예에 따른 장치의 신호 프로세서는 믹싱 규칙, 예를 들어, 오디오 출력 신호의 제2공분산 특성들에 기반한 믹싱 행렬 M, 을 결정하도록 구성되고, 여기서 제2공분산 특성은 다른 시간-주파수 빈들에 대해 다른 값들을 가질 수 있다.
결정된 믹싱 행렬 M이 오디오 입력 신호의 오디오 입력 채널들 각각에 적용될 때, 그리고 오디오 출력 신호의 결과 오디오 출력 채널들이 오디오 입력 채널들 중 각 하나에 의존할 수 있을 때, 실시예에 따른 장치의 신호 프로세서는 그래서 둘 이상의 오디오 출력 채널들 중 각 하나가 오디오 입력 신호의 둘 이상의 오디오 입력 채널들 중 각 하나에 의존하도록 믹싱 규칙을 적용하는 것에 의해 오디오 출력 신호를 발생시키도록 구성된다.
또다른 실시예에 따라,
Figure 112014024213168-pct00049
가 존재하지 않을 때 또는 불안정할 때 역상관을 이용하는 것이 제안된다. 위에서 설명된 실시예들에서,
Figure 112014024213168-pct00050
가 존재한다고 가정되는 곳에서 최적 믹싱 행렬을 결정하기 위한 솔루션이 제공되었다. 그러나,
Figure 112014024213168-pct00051
는 언제나 존재하지 않을 수 있고 또는 그것의 역(inverse)은 x의 몇몇 원리 구성요소들이 매우 작은 경우 아주 큰 승수(multipliers)를 수반할 수 있다. 역(inverse)을 규칙화하는 효과적인 방법은 단일 값 분해
Figure 112014024213168-pct00052
를 이용하는 것이다. 따라서 상기 역은
Figure 112014024213168-pct00053
이다.
비-음수 대각 행렬 Sx가 0이거나 아주 작을 때 문제들이 발생한다. 상기 역을 양호하게 규칙화하는 개념은 이후 더 큰 값들로 이러한 값들을 교체하는 것이다. 이 절차의 결과는
Figure 112014024213168-pct00054
이며, 대응 역은
Figure 112014024213168-pct00055
, 그리고 대응 믹싱 행렬은
Figure 112014024213168-pct00056
이다.
이러한 규칙화는 믹싱 프로세스 내에서 효과적으로 영향을 주며, x에서 작은 원리 구성요소들의 몇몇의 증폭이 감소되며, 결과적으로 그들의 출력 신호 y에 대한 온전함 또한 감소되며 타겟 공분산 Cy는 일반적으로 도달되지 않는다.
이에 의해, 실시예에 따라, 신호 프로세서는 대각 행렬 Sx의 적어도 몇몇 대각 값들을 수정하도록 구성될 수 있고, 여기서 대각 행렬 Sx의 값들은 임계 값보다 작거나 제로일 수 있고(임계 값은 미리 결정될 수 있거나 기능에 의존할 수 있다), 상기 값들은 임계 값보다 크거나 같고, 여기서 상기 신호 프로세서는 대각 행렬에 기반하여 믹싱 행렬을 결정하도록 구성될 수 있다.
실시예에 따라, 신호 프로세서는 대각 행렬 Sx의 적어도 몇몇 대각 값들을 수정하도록 구성될 수 있고, 여기서 Kx = UxSxVx T 이고, 여기서 Cx = KxKx T 이고 여기서 Cx 는 제1공분산 행렬이고, 여기서 Sx는 대각 행렬이고, 여기서 Ux는 제2행렬이고, Vx T 는 제3전치 행렬이고 여기서 Kx T 는 제5행렬 Kx 제4 전치 행렬이다.
신호 구성요소의 위 손실은 잔류 신호 r로 완전히 보상될 수 있다. 원래 입력-출력 관계는 규칙화된 역과 함께 설명될 수 있다.
Figure 112014024213168-pct00057
(25)
이제, 추가 구성요소 c는
Figure 112014024213168-pct00058
대신에 정의되며, 하나는
Figure 112014024213168-pct00059
를 갖는다. 추가로,
Figure 112014024213168-pct00060

Figure 112014024213168-pct00061
이도록, 독립 신호 w가 정의된다.
신호
Figure 112014024213168-pct00062
가 공분산 Cy를 가질 수 있다는 것이 쉽게 보여진다.
규칙화를 보상하기 위한 잔류 신호는
Figure 112014024213168-pct00063
이다.
방정식 (27) 및 (28)로부터, 다음을 따른다.
Figure 112014024213168-pct00064
c가 확률론적 신호에 따라 정의되므로, r의 관련 특성이 그것의 공분산 행렬이라는 것을 따른다. 이와 같이, 공분산 Cx를 가지도록 처리되는 x와 관련하여 독립적인 어떠한 신호는 설명된 것처럼 규칙화가 이용되었을 때 상황에서 타겟 공분산 행렬 Cy를 이상적으로 복원하는 잔류 신호로 기능한다. 그러한 잔류 신호는 채널 믹싱의 제안된 방법 및 역상관기들을 이용하여 쉽게 발생될 수 있다.
역상관 에너지량 및 작은 신호 구성요소들의 증폭 사이의 최적 밸런스를 분석적으로 찾아내는 것은 직접적이지 않다. 이는 입력 신호, 적용된 분석 윈도우 및 입력 신호의 SNR의 통계적 특성들의 안정성처럼 응용-특정 인수들에 의존하기 때문이다. 그러나, 아래에서 제공되는 예시 코드에서 수행되는 것처럼, 명백한 불이익 없이 이러한 밸런싱을 수행하는 발견적 기능을 조정하는 것은 다소 직접적이다.
이에 따라서, 실시예에 따른 장치의 신호 프로세서는 적어도 두개의 오디오 입력 신호들 중 적어도 두개에 관해 믹싱 규칙을 적용하는 것에 의해 오디오 출력 신호를 발생시키도록 구성될 수 있고, 오디오 출력 신호를 얻기 위해 매개 신호에 잔류 신호 r을 더하는 것에 의해 그리고 매개 신호 y’=
Figure 112014024213168-pct00065
x 를 얻도록 구성될 수 있다.
그것은 Kx의 역의 규칙화가 적용될 때, 전체 출력에서 손실 신호 구성요소가 공분산 Cx와 함께 잔류 신호 r로 완전히 보상될 수 있다는 것을 보여준다. 이러한 수단들에 의해, 타겟 공분산 Cy는 언제나 도달된다는 것이 보장될 수 있다. 다음에서, 대응 잔류 신호 r를 발생시키는 하나의 방법이 제공된다. 그것은 다음 단계들을 포함한다:
1. 출력 채널들만큼 많은 신호들의 집합을 발생시킨다. 그것이 출력 신호 만큼 많은 채널들을 가지기 때문에, 신호 yref=Qx 가 이용될 수 있고, 출력 신호 각각은 특정 채널에 대해 적당한 신호를 포함한다.
2. 이 신호를 역상관(decorrelate)한다. 주파수 대역에서 유사-랜덤 지연(pseudo-random delays), 올-패스 필터들(all-pass filters), 노이즈 버스트를 갖는 컨벌루션들(convolutions with noise bursts)을 포함하는, 역상관을 위한 많은 방법들이 있다.
3. 역상관된 신호의 공분산 행렬을 측정 (또는 추정)한다. 측정이 가장 단순하고 가장 양호하지만, 신호들이 역상관기로부터 오기 때문에, 그것들은 비간섭성(인코히어런트, incoherent)으로 간주될 수도 있다. 그래서, 오직 에너지의 측정으로 충분할 것이다.
4. 역상관된 신호에 적용될 때, 공분산 행렬 Cx와 함께 출력 신호를 발생시키는, 믹싱 행렬을 발생시키는 제안된 방법을 적용한다. 신호 컨텐츠에 최소로 영향을 미치고 싶어하기 때문에, 맵핑 행렬 Q=I를 여기서 이용하라.
5. 이 믹싱 행렬과 함께 역상관기들로부터 신호를 처리하고 그것을 신호 구성요소들의 부족에 대해 보상하기 위한 출력 신호에 대해 입력한다. 이에 의해, 타겟 Cy가 도달된다.
대안적 실시예에서 역상관 채널들은 최적 믹싱 행렬을 형성하기 전에 (적어도 하나의) 입력 신호에 첨부된다. 이 경우에, 입력 및 출력은 동일 차원이고, 입력 신호가 입력 채널들이 있는만큼 많은 독립 신호 구성요소들을 갖도록 제공되고, 잔류 신호 r을 활용할 필요가 없다. 역상관기가 이러한 방식으로 이용될 때, 역상관기들의 이용은 제안된 개념에 보이지 않고, 이는 역상관된 채널들이 무언가 다른 입력 채널들이기 때문이다.
만약 역상관기들의 이용이 바람직하지 않다면, 적어도 타겟 채널 에너지들은
Figure 112014024213168-pct00066
의 열(rows)들을 곱하는 것에 의해 달성될 수 있고
Figure 112014024213168-pct00067
이며, 여기서 G는 값들
Figure 112014024213168-pct00068
를 갖는 대각 이득 행렬이며,
여기서
Figure 112014024213168-pct00069
이다.
많은 응용들에서 입력 및 출력 채널들의 숫자가 다르다. 방정식 (2)에서 설명된 것처럼, 더 작은 차원을 갖는 신호의 제로-패딩(zero-padding)은 더 높은 것에 따라 동일 차원을 갖도록 적용된다. 제로-패딩은 결과 M에서 몇몇 열들 및 행들이 정의된 0 에너지를 갖는 채널들에 대응하기 때문에 계산적인 오버헤드(overhead)를 내포한다. 수학적으로, 첫번째 제로-패딩을 이용하고 관련 차원 Ny × Nx에 최종적으로 크롭핑(cropping)하는 것에 균등하게, 상기 오버헤드는 차원 Ny × Nx에 0이 첨부되는 항등 행렬(identity matrix)인 도입 행렬에 의해 감소될 수 있고, 예를 들어,
Figure 112014024213168-pct00070
이다. P는 재-정의되고 그래서
P = VΛ U T (33)
이다. 결과 M은 제로-패딩 케이스의 M의 관련 부분과 동일한 Ny × Nx 믹싱 행렬이다. 이후, Cx, Cy, Kx 및 Ky는 차원 Ny × Nx 의 맵핑 행렬 Q 및 그들의 자연적 차원(natural dimension)일 수 있다.
입력 공분산 행렬은 언제나
Figure 112014024213168-pct00071
로 분해가능하고 이는 실제 신호로부터 양반한정(positive semi-definite) 측정이기 때문이다. 그러나 그것들이 불가능 채널 의존도를 표현하는 이유 때문에 분해가능하지 않은 그러한 타겟 공분산 행렬들을 정의하는 것이 가능하다. 음수 고유값을 0으로 조정하고 에너지를 정규화하는 것처럼, 분해가능성을 담보하는 개념이 있고, 예를 들어, 다음을 참조하라.
[8] R. Rebonato, P. Jckel, The most general methodology to create a valid correlation matrix for risk management and option pricing purposes, Journal of Risk, Vol. 2, No. 2, pp. 17-28, 2000.
그러나, 제안된 개념의 가장 의미있는 활용은 오직 가능한 공분산 행렬을 요구하는 것이다.
위를 요약하자면, 공통 업무가 다음처럼 바꾸어말해질 수 있다. 먼저 하나는 특정 공분산 행렬과 함께 입력 신호를 갖는다. 두번째로, 응용은 두개의 파라미터들을 정의한다 : 타겟 공분산 행렬 및 규칙, 이는 입력 채널들이 각 출력 채널의 구성에서 이용될 것이다. 이러한 변형을 수행하기 위해, 다음 개념들을 이용하는 것이 제안된다: 도 2에 도시된 것처럼, 주 개념은, 타겟 공분산(target covariance)이 입력 채널들의 최적 믹싱의 솔루션을 이용하여 달성된다는 것이다. 이러한 개념은 그것이 종종 신호 품질과 타협하는, 역상관기의 활용을 피하기 때문에 주요하게 고려된다. 이차 개념은 이용가능한 합리적인 에너지의 충분히 독립적인 구성요소가 없을 때 발생한다. 역상관된 에너지는 이러한 구성요소들의 부족을 보상하기 위해 주입된다. 이와 함께, 이러한 두개의 개념들은 어떠한 주어진 시나리오에서 양호한 공분산 행렬 조정을 수행하기 위한 수단들을 제공한다.
제안된 개념의 주로 예상되는 응용은 공간적 마이크로포니 [2, 3]의 분야이며, 이는 신호 공분산에 관련된 문제들이 방향성 마이크로폰(microphone)들의 물리적 한계 때문에 특히 명확한 분야이다. 게다가 예상되는 이용 케이스들은 스테레오- 및 멀티채널 향상, 앰비언스(분위기, ambiance) 추출, 업믹싱 및 다운믹싱을 포함한다.
위 설명에서, 정의들이 주어지며, 제안된 개념의 유도가 뒤따른다. 먼저, 크로스 믹싱 솔루션이 제공되었으며, 이후 상관된(correlated) 사운드 에너지를 주입하는 개념이 주어졌다. 다음으로, 입력 및 출력 채널들의 상이한 숫자를 갖는 개념의 설명 및 공분산 행렬 분해성에 대한 고려 또한 제공되었다. 다음에서, 실제적 이용 경우들이 제공되며 수치적 예시들의 집합 및 결론이 제시된다. 게다가, 이 문서에 따른 완전한 기능을 갖는 예시 매트랩(Matlab) 코드가 제공된다.
스테레오 또는 멀티채널 사운드의 인식된 공간적 특성들은 주파수 대역들에서 신호의 공분산 행렬에 의해 크게 정의된다. 개념은 주어진 공분산 특성들을 갖는 입력 채널들의 집합을 임의적으로 정의가능한 공분산 특성들을 갖는 출력 채널들의 집합에 대해 최적으로 그리고 적응적으로(adaptively) 크로스믹스(crossmix)하기 위해 제공된다. 추가 개념은 합리적 에너지의 독립적 사운드 구성요소들이 이용가능하지 않을 때 거기에 필요한 역상관된 에너지만을 주입하도록 제공된다. 개념은 공간적 오디오 신호 프로세싱의 분야에서 응용들의 넓은 다양성을 갖는다.
멀티채널 신호의 채널들 (또는 공분산 행렬) 사이의 채널 에너지들 및 의존도들은 요구되는 타겟 특성들 및 입력 특성들에 의존하는 채널들을 오직 선형으로 그리고 시간 변이적으로 크로스믹싱하는 것에 의해서 제어될 수 있다. 이 개념은 벡터들 사이의 각도가 채널 의존도에 대응하고 상기 벡터의 진폭이 신호 레벨에 동일한 곳에서 신호의 인수 표현과 함께 도시될 수 있다.
도 3은 새로운 벡터 집합 R 및 L 을 달성하기 위해 벡터들 L 및 R 의 선형 조합을 적용하는 예를 도시한다. 유사하게, 오디오 채널 베레들 및 그들의 의존도는 선형 조합과 함께 수정될 수 있다. 일반 솔루션은 벡터들을 포함하지는 않지만 채널들의 어떠한 숫자에 최적인 행렬 형성은 포함한다.
스테레오 신호들의 믹싱 행렬은, 도 3에서 보여질 수 있는 것처럼, 삼각법으로 또한 쉽게 형성될 수 있다. 상기 결과들은 행렬 수학들과 동일하지만, 상기 공식화는 다르다.
만약 입력 채널들이 아주 의존적이라면, 타겟 공분산 행렬을 달성하는 것이 오직 역상관기들을 이용하는 것에 의해서만 가능하다. 필요할 때, 예를 들어, 최적으로, 역상관기들을 주입하는 단계가, 또한 제공되었다.
도 4는 믹싱 기술을 적용하는 실시예의 장치의 블록 다이어그램을 도시한다. 상기 장치는 공분산 행렬 분석 모듈(410), 및 신호 프로세서(미도시)를 포함하며, 여기서 신호 프로세서는 믹싱 행렬 형성 모듈(420) 및 믹싱 행렬 응용 모듈(430)을 포함한다. 스테레오 또는 멀티채널 주파수 대역 입력의 입력 공분산 특성들은 공분산 행렬 분석 모듈(410)에 의해 분석된다. 공분산 행렬 분석의 결과는 믹싱 행렬 형성 모듈(420)으로 입력된다.
믹싱 행렬 형성 모듈(420)은, 타겟 공분산 행렬에 기반하여 그리고 가능다면 에러 기준에 기반하여, 공분산 행렬 분석의 결과에 기반하여 믹싱 행렬을 형성한다. 믹싱 행렬 형성 모듈(420)은 믹싱 행렬을 믹싱 행렬 응용 모듈(430)에 입력한다.
믹싱 행렬 응용 모듈(430)은 예를 들어, 미리 정의된, 타겟 공분산 행렬에 의존하는 타겟 공분산 특성들을 갖는, 스테레오 또는 멀티채널 주파수 대역 출력을 얻기 위해 스테레오 또는 멀티채널 주파수 대역 입력에 믹싱 행렬을 적용한다.
위 내용을 요약하면, 상기 개념의 일반적 목적은, 사운드 품질의 관점에서 극도의 최적화를 갖는 공간적 사운드를 향상, 수정 및/또는 합성하는 것이다. 타겟은, 예를 들어, 제2공분산 특성들은, 응용에 의해 정의된다.
또한 모든 대역에서 응용가능한, 개념은 주파수 대역 프로세싱에서 특히 지각적으로 의미가 있다.
역상관기들은 상호-채널 상관기를 향상(감소)시키기 위해 이용된다. 그것들은 이렇게 작동하지만, 특히 과도 사운드 구성요소를 갖는, 전체 사운드 품질을 타협하는 경향이 있다.
제안된 개념은 역상관기들의 이용을 피하거나 또는 몇몇 응용에서 최소화한다. 이러한 결과는 사운드 품질의 그러한 손실 없이 동일한 공간적 특성을 갖는다.
다른 이용들 중에, 상기 기술은 SAM-to-MPS 인코더에서 이용될 수 있다.
제안된 개념은 제1순서 스테레오 일치 마이크로폰들로부터 MPEG 서라운드 비트 스트림(MPEG =Moving Picture Experts Group)을 발생시키는 마이크로폰 기술을 향상시키도록 실행되었고, 예를 들어, [3]을 참조하라. 상기 프로세스는 스테레오 신호로부터 주파수 대역에서 사운드 필드(sound field)의 분산성 및 방향을 추정하고, 리시버 끝에서 디코딩될 때, 오리지널 사운드 필드를 지각적으로 근사하는 사운드 필드를 생성하는 그러한 MPEG 서라운드 비트스트림을 생성하는 것을 포함한다.
도 5에서, 다이어그램은 주어진 마이크로폰 신호로부터 MPEG 서라운드 다운믹스 신호를 생성하기 위해 제안된 개념을 이용하는, 실시예에 따른 MPEG 서라운드 인코더에 스테레오 일치 마이크로폰 신호를 설명하는 것이 도시된다. 모든 프로세싱은 주파수 대역에서 수행된다.
공간적 데이터 결정 모듈(520)은 사운드 필드 모델(510)에 의존하여 방향 및 분산 정보에 기반하여 공간적 서라운드 데이터 및 다운믹스 ICC 및/또는 레벨들을 포함하는 구성 정보 데이터를 형성하도록 구성된다. 사운드 필드 모델 그 자체는 스테레오 마이크로폰 신호의 레벨 및 마이크로폰 ICC들의 분석에 기반한다. 공간적 데이터 결정 모듈(520)은 이후 믹싱 행렬 형성 모듈(530)에 대한 타겟 다운믹스 ICC들 및 레벨들을 제공한다. 게다가, 공간적 데이터 결정 모듈(520)은 MPEG 서라운드 공간적 부가 정보에 따라 공간적 서라운드 데이터 및 다운믹스 ICC 들 및 레벨들을 형성하도록 구성된다. 믹싱 행렬 형성 모듈(530)은 이후 제공된 구성 정보 데이터, 예를 들어, 타겟 다운믹스 ICC들 및 레벨들, 에 기반하여 믹싱 행렬을 형성하고 믹싱 모듈(540)에 상기 행렬을 입력한다. 믹싱 모듈(540)은 스테레오 마이크로폰 신호에 믹싱 행렬을 적용한다. 이에 의해, 신호는 타겟 ICC들 및 레벨들을 갖고 발생된다. 타겟 ICC들 및 레벨들을 갖는 신호는 코어 코더(550)에 제공된다. 실시예에서, 모듈들(520, 530 및 540)은 신호 프로세서의 서브모듈들(submodules)이다.
도 5에 따른 장치에 의해 수행되는 프로세스 내에서, MPEG 서라운드 스테레오 다운믹스는 반드시 발생되어야 한다. 이는 사운드 품질에 대한 최소한의 영향을 가지고 주어진 스테레오 신호의 ICC들 및 레벨들을 조정할 필요를 포함한다. 제안된 크로스-믹싱 개념은 이 목적을 위해 적용되었고 [3]의 선행기술의 지각적 이점이 관찰될 수 있었다.
도 6은 SAM-to-MPS 인코더에 대한 다운믹스 ICC/레벨 수정에 관련된 또다른 실시예에 따른 장치를 도시한다. ICC 및 레벨 분석은 모듈(602)에서 수행되고 사운드필드 모델(610)은 모듈(602)에 의한 ICC 및 레벨 분석에 의존한다. 도 5에서 모듈(620)은 모듈(520)에 대응하고, 모듈(630)은 모듈(530)에 대응하며 모듈(640)은 모듈 (540)에 각각 대응한다. 동일한 것이 도 5의 코어 코더(550)에 대응하는 코어 코더(650)에 적용된다. 위에서 설명된 개념은 마이크로폰 신호들로부터 정확히 정확한 ICC 및 레벨들을 갖는 MPS 다운믹스를 생성하기 위해 SAM-to-MPS 인코더로 통합될 수 있다. 위에서 설명된 개념은 역상관기 이용량을 최소화하는 동안 이상적인 공간적 합성을 제공하기 위해 MPS 없이 직접(다이렉트) SAM-to-멀티채널 렌더링에서도 응용가능하다.
향상은 소스 거리, 소스 로컬라이제이션, 안정성, 청취 쾌적함 및 둘러싸는 느낌에 관련되어 예상된다.
도 7은 작은 공간 마이크로폰 배치에 대한 향상을 위한 실시예에 따른 장치를 묘사한다. 모듈(705)는 마이크로폰 공분산 행렬을 얻기 위해 마이크로폰 입력 신호의 공분산 행렬 분석을 수행하도록 구성된다. 마이크로폰 공분산 행렬은 믹싱 행렬 형성 모듈(730)으로 입력된다. 게다가, 마이크로폰 공분산 행렬은 사운드필드 모델(710)을 유도하기 위해 이용된다. 사운드필드 모델(710)은 공분산 행렬보다 다른 소스들에 기반할 수 있다.
사운드필드 모델에 기반하는 방향 및 분산 정보는 타겟 공분산 행렬을 발생시키기 위해 타겟 공분산 행렬 형성 모듈(720)으로 입력된다. 타겟 공분산 행렬 형성 모듈(720)은 이후 믹싱 행렬 형성 모듈(730)으로 발생된 타겟 공분산 행렬을 입력한다.
믹싱 행렬 형성 모듈(730)은 믹싱 행렬을 발생시키고 믹싱 행렬 응용 모듈(740)으로 발생된 믹싱 행렬을 입력하도록 구성된다. 믹싱 행렬 응용 모듈(740)은 타겟 공분산 특성들을 갖는 마이크로폰 출력 신호를 얻기 위해 마이크로폰 입력 신호에 믹싱 행렬을 적용하도록 구성된다. 실시예에서, 모듈들(720, 730 및 740)은 신호 프로세서의 서브모듈들이다.
그러한 장치는 DirAC 및 SAM에서 개념들을 따르며, 이는 오리지널 사운드 필드의 방향 및 분산을 추정하고 추정된 방향 및 분산을 최적으로 재생하는 그러한 출력을 생성한다. 이 신호 프로세싱 절차는 정확한 공간 이미지를 제공하기 위해 큰 공분산 행렬 조정을 요구한다. 제안된 개념은 그것에 대한 솔루션이다. 제안된 개념에 의해, 소스 거리, 소스 로컬라이제이션 및/또는 소스 분리, 청취 쾌적함 및/또는 둘러싸는 느낌이다.
도 8은 스테레오- 멀티채널 플레이백에서 공간적 사운드 품질의 보이지 않는 향상을 위한 실시예를 보여주는 예를 도시한다. 모듈(805)에서, 공분산 행렬 분석, 예를 들어, 스테레오 또는 멀티채널 컨텐츠의 ICC 또는 레벨 분석이 수행된다. 이후, 향상 규칙은 향상 모듈(815)에서 적용되며, 예를 들어, 입력 ICC들로부터 출력 ICC들을 얻기 위해서이다.
믹싱 행렬 형성 모듈(830)은 향상 모듈(815)에서 수행된 향상 규칙을 적용하는 것으로부터 유도된 정보에 기반하여 그리고 모듈(805)에 의해 수행되는 공분산 행렬 분석에 기반하여 믹싱 행렬을 발생시킨다. 믹싱 행렬은 타겟 공분산 특성들을 갖는 조정된 스테레오 또는 멀티채널 컨텐츠를 얻기 위해 모듈(840)에서 스테레오 또는 멀티채널 컨텐츠에 적용된다.
예를 들어, 믹스 또는 레코딩같은, 멀티채널 사운드에 관해, 그것은 특히 너무 높은 ICC의 관점에서, 공간적 사운드에서 지각적 준 최적성(suboptimality)를 찾기 위해 상당히 일반적이다. 일반적 결과는 너비, 엔빌로프(둘러쌈, envelopment), 거리, 소스 분리, 소스 로컬라이제이션 및/또는 소스 안정성 및 청취 쾌적성에 관해 감소된 품질이다. 상기 개념이 불필요하게 높은 ICC들을 갖는 아이템들과 함께 이러한 특성들을 향상시킬 수 있다는 것이 비공식적으로 테스트되었다. 관찰된 향상들은 너비, 소스 거리, 소스 로컬라이제이션/분리, 엔빌로프 및 청취 쾌적성이다.
도 9는 협소한 확성기 설정들(예를 들어, 태블릿들, TV)의 향상을 위해 또다른 실시예를 도시한다. 제안된 개념은 확성기 각도가 너무 좁은 곳에서(예를 들어, 태블릿) 재생 설정들에서 스테레오 품질을 향상시키기 위한 도구로서 아마 이익이 있을 것이다. 제안된 개념은 다음을 제공한다:
- 더 넓은 확성기 설정을 매치시키기 위해 주어진 아크(arc) 내에서 소스들의 리패닝(repanning)
- 더 넓은 확성기 설정의 더 나은 매칭을 위한 ICC 증가
- 요구되는 청각 신호들을 생성하는 직접적인 방법이 없을 때만, 예를 들어, 크로스톡(crosstalk) 취소를 이용하여, 크로스톡-취소(crosstalk-cancellation)를 수행하는 더 나은 시작 지점을 제공
향상들은 정규 크로스토크 취소, 사운드 품질 및 양호함에 관해 그리고 너비에 관련해 예상된다.
도 10에서 도시되는 다른 응용 예에서, 실시예는 B-포맷 마이크로폰 신호에 기반하여 최적 방향성 오디오 코딩 (DirAc) 렌더링을 제공하며 설명된다.
도 10의 실시예는 오디오 품질을 포함하여, 일치하는 마이크로폰 신호들에 기반하여 유닛들을 렌더링하는 최신 DirAC가 불필요한 확장에서 역상관을 적용한다는 발견에 기반한다. 예를 들어, 사운드 필드가 분산하도록 분석된다면, 비록 B-포맷(format)이 수평 사운드 필드(W, X, Y)의 경우에 이미 세개의 비간섭성(인코히어런트) 사운드 구성요소를 제공하지만, 완전 상관은 모든 채널들에 적용된다. 이 효과는 분산이 0일 때를 제외하고 변화하는 정도에서 존재한다.
게다가, 가상 마이크로폰들이 사운드 필드 분산 및 확성기 포지셔닝, 소스 앵글에 다르게 의존하는 사운드에 영향을 미치기 때문에 가상 마이크로폰들을 이용하는 위에서-설명된 시스템들은 정확한 출력 공분산 행렬(레벨들 및 채널들 상관들)을 보장하지 않는다.
제안된 개념은 양쪽 이슈들을 해소한다. 두개의 대안들이 존재한다 : (아래 도면처럼) 초과 입력 채널들에 따라 역상관된 채널들을 제공하는 것; 또는 역상관-믹싱 개념을 이용하는 것.
도 10에서, 모듈(1005)는 공분산 행렬 분석을 수행한다. 타겟 공분산 행렬 형성 모듈(1018)은 타겟 공분산 행렬을 형성할 때 사운드필드(soundfield) 모델만이 아니라 확성기 구성도 고려한다. 게다가, 믹싱 행렬 형성 모듈(1030)은 공분산 행렬 분석 및 타겟 공분산 행렬에 기반하는 것 뿐만 아니라, 최적 기준, 예를 들어, 모듈(1032)에 의해 제공되는 B-포맷-to-가상 마이크로폰 믹싱 행렬에도 기반하여 믹싱 행렬을 발생시킨다. 사운드필드 모델(1010)은 도 7의 사운드필드 모델(710)에 대응할 수 있다. 믹싱 행렬 응용 모듈(1040)은 도 7의 믹싱 매트릭스 응용 모듈(740)에 대응할 수 있다.
추가 응용 예에서, 실시예가 채널 변환 방법에서의, 예를 들어, 다운믹스에서, 공간적 조정을 위해 제공된다. 채널 변환은, 예를 들어, 22.2 오디오 트랙으로부터 자동 5.1 다운믹스를 만드는 것은 붕괴 채널들(collapsing channels)을 포함한다. 이는 제안된 개념과 함께 다루어질 수 있는 공간적 이미지의 손실 또는 변화를 포함할 수 있다. 다시, 두개의 대안들이 존재한다 : 첫번째 것은 더 낮은 숫자의 손실 채널들에 대해서는 0-에너지 채널들을 정의하면서 더 높은 채널들 숫자의 영역에서의 개념을 활용한다; 다른 것은 상이한 채널 숫자들에 대해 직접적으로 행렬 솔루션을 형성한다.
도 11은 표 1을 도시하며, 이는 위 설명된 개념들의 수치적 예들을 제공한다. 공분산 C x를 갖는 신호가 믹싱 행렬 M과 함께 처리되고 C x 를 갖는 가능한 잔류 신호가 보상될 때, 출력 신호는 공분산 C y를 갖는다. 비록 수치적 예들은 고정적이지만, 제안된 방법의 일반적 이용은 동적이다. 채널 순서는 L, R, C, Ls, Rs, (Lr, Rr)로 가정된다.
표 1은 몇몇 예상되는 이용 케이스들에서 제안된 개념의 거동을 도시하기 위한 수치적 예들의 집합을 보여준다. 행렬들은 목록 1에서 제공되는 매트랩 코드와 함께 형성되었다.
목록 1은 도 12에서 도시된다. 도 12의 목록 1은 제안된 개념의 매트랩 실행을 도시한다. 매트랩 코드는 수치적 예들에서 이용되었고 제안된 개념의 일반적 기능을 제공한다.
비록 행렬들은 고정으로 도시되었지만, 일반적 응용들에서 그것들은 시간 및 주파수에서 달라진다. 설계 기준은 만약 공분산 C x 를 갖는 신호가 믹싱 행렬 M 과 함께 처리되고 C x 를 갖는 가능한 잔류 신호가 완성된다면 출력 신호가 정의된 공분산 C y를 갖는다는 것을 만족시키는 정의에 의한다.
표의 제1 및 제2 열은 신호를 역상관시키는 수단에 의해 스테레오 향상의 이용 케이스(경우)를 도시한다. 첫번째 열에서 두개의 채널들 사이에 작지만 합리적인 비간섭성 구성요소가 있고 그래서 완전히 비간섭성 출력이 오직 채널 믹싱에 의해서 달성된다. 두번째 열에서, 입력 상관은 아주 높고, 예를 들어, 더 낮은 원리 구성요소는 아주 작다. 극도로 이를 증폭하는 것은 바람직하지 않고 그래서 빌트-인(built-in) 리미터는 상관된 에너지의 주입을 대신 요구하기 시작하고, 예를 들어, C r는 이제 비-제로이다(0이 아니다).
세번째 열은 5.0 업믹싱에 대한 스테레오의 케이스를 보여준다. 이 예에서, 타겟 공분산 행렬이 설정되고 스테레오 믹스의 비간섭성 구성요소는 동등하게 그리고 비간섭적으로 측면 및 후방 확성기들에 분배되며 간섭성(코히어런트, coherent) 구성요소는 중앙 확성기에 위치된다. 신호의 차원이 증가되었기 때문에 잔류 신호는 다시 비-제로이다.
네번째 열은 원래 두개의 후방 채널들이 네개의 새로운 후방 채널들에 비간섭성으로 업믹싱되는 곳에서 단순 5.0 내지 7.0 업믹싱의 경우를 보여준다. 이러한 예는 조정이 요구되는 곳에서 그러한 채널들에 프로세싱이 중점을 둔다는 것을 설명한다.
다섯번째 열은 스테레오에 5.0 신호를 다운믹싱하는 케이스를 설명한다. 고정 다운믹싱 행렬 Q를 적용하는 것처럼, 수동적 다운믹싱은 비간섭성 구성요소들에 대해 간섭성 구성요소들을 증폭시킨다. 여기서 타겟 공분산 행렬은 결과 M에 의해 충족되는, 에너지를 보존하기 위해 정의되었다.
여섯번째 및 일곱번째 열은 코인시던트 공간적 마이크로포니의 이용 경우를 도시한다. 입력 공분산 행렬들 C x 는 이상적 분산 필드에 이상적 첫번째 순서 일치 마이크로폰을 위치시키는 결과이다. 여섯번째 열에서 마이크로폰들 사이의 각도들은 동일하고, 일곱번째 열에서 마이크로폰들은 5.0 설정의 기준 각도들을 향한다. 양쪽 경우에서, C x 의 큰 오프-대각선(off-diagonal) 값들은 이상적 경우에서 수동적 제1순서 일치 마이크로폰 기술들의 내재하는 단점을 도시하며, 분산 필드를 가장 잘 나타내는 공분산 행렬은 대각선이며, 이는 그래서 타겟으로 설정된다. 양쪽 경우들에서, 모든 에너지에 대해 상관된 에너지를 도출하는 비율은 정확히 2/5이다. 이는 첫번째 순서 수평 일치 마이크로폰 신호들에서 이용가능한 세개의 독립 신호 구성요소들이 있기 때문이며, 두개는 5-채널 대각선 타겟 공분산 행렬을 이루기 위해 더해진다.
스테레오 및 멀티채널 재생에서 공간적 지각은 지각적으로 관련된 주파수 대역들에서 신호 공분산 행렬에서 특히 의존하도록 식별되었다.
채널들의 최적 크로스믹싱(crossmixing)에 의해 신호의 공분산 행렬을 제어하는 개념이 제시되었다. 합리적인 에너지의 충분히 독립적인 신호 구성요소들이 이용가능하지 않는 경우에 필요한 역상관된 에너지를 주입하는 수단이 제시되었다.
상기 개념은 그것의 목적에서 양호하다는 것이 발견되었고 응용들의 넓은 다양성이 식별되었다.
다음에서, 어떻게 Cx에 기반하여 Cy 를 발생시키는지의, 실시예들이 제시되었다. 첫 예에 따라, 5.0 업믹싱에 대한 스테레오가 고려되었다. 스테레오-to-5.0 업믹싱에 관해, 업믹싱에서, C x 는 2x2 행렬이고 Cy는 5x5 행렬이다(이 예에서, 서브우퍼 채널은 고려되지 않는다). Cx에 기반하여 Cy 를 발생시키는 단계는, 각 시간-주파수 타일(tile)에서, 업믹싱의 컨텍스트에서, 예를 들어, 다음처럼 될 수 있다:
1. 왼쪽 및 오른쪽 채널에서 앰비언트(주변, ambient) 및 직접 에너지를 추정한다. 앰비언스(Ambience)는 양쪽 채널 사이에서 동등한 채널들 사이에서 비간섭성(인코히어런트, incoherent) 구성요소에 의해 특성화된다. 직접 에너지는 앰비언스 에너지 부분이 전체 에너지, 예를 들어, 간섭성(코히어런트, coherent) 에너지 구성요소,로부터 제거될 때 가능하게는 왼쪽 및 오른쪽 채널들에서 다른 에너지들을 갖는 나머지(잔류물, remainder)이다.
2. 직접 구성요소의 각도를 추정한다. 이는 역으로 진폭 패닝 법칙을 이용하여 수행된다. 직접 구성요소에서 진폭 패닝 비율이 있으며, 그것에 대응하는 전방 확성기들 사이에 오직 하나의 각도가 있다.
3. Cy 에 따라 0의 5x5 행렬을 발생시킨다.
4. 분석된 방향의 두개의 가장 근접한 확성기들에 대응하는 Cy의 대각선에 직접 에너지량을 놓는다. 이러한 것들 사이의 에너지의 분배는 진폭 패닝 법칙에 의해 얻어질 수 있다. 진폭 패닝은 간섭성이며, 그래서 대응 비-대각인 두개의 채널들의 에너지들의 곱의 제곱근에 더한다.
채널들 L, R, Ls 및 Rs에 대응하는, Cy의 대각선에 더하며, 에너지량은 앰비언스 구성요소의 에너지에 대응한다. 동등한 분배는 좋은 선택이다. 이제 하나는 타겟 Cy를 갖는다. 또다른 예에 따라, 향상이 고려된다. 0을 향해 상호채널 일관성(코히어런스, coherence)을 조정하는 것에 의한 포위 또는 너비처럼 지각적 품질을 증가시키는 것이 목적이다. 여기서, 향상을 수행하기 위한 두가지 방식으로, 두개의 다른 예들이 주어진다. 첫번째 방식에 대해, 하나는 스테레오 향상의 이용 케이스를 선택하며, 그래서 Cx 및 Cy는 2x2 행렬들이다. 상기 단계들은 다음을 따른다:
1. ICC를 형성 ( -1 및 1 사이의 정규화된 공분산 값), 예를 들어, 공식이 제공된다.
2. 기능에 의해 ICC를 조정한다. 예를 들어, ICCnew = sign(ICC) * ICC2. 이는 꽤 약한 조정이다. 또는 ICCnew = sign(ICC) * max(0, abs(ICC) * 10 - 9). 이는 더 큰 조정이다.
3. 대각 값들이 Cx와 동일한 값이도록 Cy를 형성하며, 그러나 비-대각 값은 ICCnew를 이용하여 형성되며, 그러나 역으로 단계 1에서와 동일 공식을 갖는다.
위 시나리오에서, 잔류 신호는 필요하지 않고, 이는 시스템이 작은 신호 구성요소들의 큰 증폭을 요청하지 않도록 ICC 조정이 설계되기 때문이다.
이러한 이용 케이스에서 상기 방법을 실행하는 두번째 타입은, 다음과 같다. 하나는 N 채널 입력 신호를 갖고, Cx 및 Cy는 NxN 행렬들이다.
1. Cx에서와 동일하게 Cy에서 대각 값을 간단하게 설정하는 것에 의해 Cx로부터 Cy를 형성하며, 비-대각 값들을 0으로 한다.
2. 나머지(residuals)를 이용하는 대신에, 제안된 방법에서 이득-보상(gain-compensating) 방법을 이용가능하게 한다.
Kx의 역에서 규칙화(regularization)는 시스템이 안정적이도록 관리한다. 이득 보상은 에너지가 보존되도록 관리한다.
향상을 위한 두개의 설명된 방식들은 유사한 결과들을 제공한다. 후자는 멀티-채널 이용 케이스에서 실행이 더 쉽다.
최종적으로, 세번째 예에따라, 직접/분산 모델, 예를 들어, 방향 오디오 코딩 (DirAC)가 고려된다.
DirAC, 및 공간 오디오 마이크로폰들(Spatial Audio Microphones, SAM)도, 파라미터 방향 및 분산을 갖는 사운드 필드의 해석을 제공한다. 방향은 방향 사운드 구성요소의 도착의 각도이다. 분산성은 0 및 1사이의 값이며, 이는 전체 사운드 에너지의 큰 양이 어떻게 분산되는지에 대한 정보를 주며, 예를 들어, 모든 방향으로부터 비간섭성으로 도착하는 것으로 가정된다. 이는 사운드 필드의 근사이며, 그러나 지각적 주파수 대역들에서 적용될 때, 사운드 필드의 지각적으로 좋은 표현이 제공된다. 방향, 분산성, 및 알려진 사운드 필드의 전체 에너지는 시간-주파수 타일에서 가정된다. 이러한 것들은 마이크로폰 공분산 행렬 Cx에서의 정보를 이용하여 형성된다. Cy를 발생시키기 위한 단계들은 업믹싱에 유사하며, 다음과 같다:
1. Cy에 따라 0의 NxN 행렬을 발생시킨다.
2. 분석된 방향의 두개의 인접 확성기들에 대응하는 Cy의 대각선에 대해 (1 - 분산성) * 전체 에너지인, 직접 에너지량을 위치시킨다. 이것들 사이의 에너지의 분배는 진폭 패닝 법칙에 의해 얻어질 수 있다. 진폭 패닝은 간섭성(코히어런트, coherent)이며, 대응 비-대각선에 두개의 채널들의 에너지들의 곱의 제곱근을 더한다.
3. 분산성 * 전체 에너지인, 분산 에너지량을 Cy의 대각선에 분배한다. 상기 분배는, 예를 들어, 확성기가 드문 방향으로 더 많은 에너지가 위치되도록 수행될 수 있다. 이제 하나는 타겟 Cy를 갖는다.
비록 몇몇 관점들이 장치의 관점에서 설명되었지만, 이러한 관점들은 또한 대응하는 방법의 묘사도 나타낸다는 것이 명백하며, 여기서 블록 또는 장치는 방법 단계 또는 방법 단계의 특징에 대응한다. 유사하게, 방법 단계의 문맥에서 설명된 관점들은 대응하는 장치의 대응하는 블록 또는 아이템 또는 특징의 설명 또한 나타낸다.
특정한 실행의 요구들에 의존하여, 이 발명의 실시 예들은 하드웨어 또는 소프트웨어에서 실행될 수 있다. 실행들은 전자적으로 읽을 수 있는 컨트롤 신호들을 그곳에 저장하고 있는 디지털 저장매체, 예를 들어 플로피 디스크, DVD, CD, ROM, PROM, EPROM, EEPROM 또는 플래시 메모리,를 이용하여 수행될 수 있고 그것은, 각 방법이 수행되는, 프로그래밍 가능한 컴퓨터 시스템과 연동한다. 그래서, 디지털 저장 매체는 컴퓨터 판독가능할 수 있다.
본 발명에 따른 몇몇 실시 예들은 전자적 판독 가능한 컨트롤 신호들을 갖는 데이터 캐리어를 포함하며, 그것은 여기서 설명된 방법 중 하나가 수행되는 프로그래밍 가능한 컴퓨터 시스템과 연동 가능하다.
일반적으로 본 발명의 실시 예들은 프로그램 코드로 컴퓨터 프로그램 결과물에서 실행될 수 있으며, 상기 프로그램 코드는 컴퓨터 프로그램 결과물이 컴퓨터에서 수행될 때 상기 방법 중 하나를 수행하도록 작동되는 것이다. 프로그램 코드는 예시적으로 기계 판독가능 캐리어에 저장될 수도 있다.
다른 실시 예들은 여기에 설명되고, 기계 판독가능 캐리어에 저장된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함한다.
다른 말로, 발명의 방법의 실시 예는, 컴퓨터 프로그램이 컴퓨터에서 운영될 때 여기서 설명된 방법 중 하나를 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.
발명의 방법의 또 다른 실시 예는, 여기서 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 그 자체에 포함하는 데이터 캐리어이다.(또는 디지털 저장 매체, 또는 컴퓨터 판독가능 매체). 데이터 캐리어, 디지털 저장 매체 또는 저장된 매체는 일반적으로 유형이고 그리고/또는 비-일시적일 수 있다.
발명의 방법의 또 다른 실시 예는, 여기서 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 나타내는 신호들의 순서 또는 데이터 스트림이다. 데이터 스트림 또는 신호들의 순서는, 예를 들어 인터넷 같은 데이터 통신 연결을 통해 전송되기 위해 예시적으로 구성될 수 있다.
또다른 실시 예는 여기서 설명된 방법 중 하나를 수행하기 위해 구성되거나 적응되기 위하여 프로세싱 수단, 예를 들어 컴퓨터 또는 프로그래밍 가능한 논리 장치를 포함한다.
또다른 실시 예는 여기서 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램이 그 자체에 설치된 컴퓨터를 포함한다.
몇몇 실시 예에서, 프로그래밍 가능한 논리 장치(예를 들어 필드 프로그래밍 가능한 게이트 어레이)는 여기서 설명된 방법 중 모든 기능 또는 몇몇을 수행하도록 사용될 수 있다. 몇몇 실시 예에서, 필드 프로그래밍 가능한 게이트 어레이는 여기서 설명된 방법 중 하나를 수행하기 위해 마이크로 프로세서와 연동될 수 있다. 일반적으로, 상기 방법들은 바람직하게는 어떠한 하드웨어 장치에 의해서도 수행된다.
상기 설명된 실시 예들은 단지 본 발명의 원리를 위해 예시적일 뿐이다. 본 상기 배열의 변형, 변화, 그리고 여기서 설명된 자세한 내용들을 기술분야의 다른 숙련자에게 명백하다고 이해되어야 한다. 그것의 의도는, 따라서, 여기의 실시 예의 설명 또는 묘사의 방법에 의해 표현된 특정 세부사항들에 의해 제한되는 것이 아닌 오직 목전의 특허 청구항의 범위에 의해서만 제한된다는 것이다.
문헌(Literature):
[1] C. Faller, Multiple-Loudspeaker Playback of Stereo Signals, Journal of the Audio Engineering Society, Vol. 54, No. 11, pp. 1051-1064, June 2006.
[2] V. Pulkki, Spatial Sound Reproduction with Directional Audio Coding, Journal of the Audio Engineering Society, Vol. 55, No. 6, pp. 503-516, June 2007.
[3] C. Tournery, C. Faller, F. Kch, J. Herre, Converting Stereo Microphone Signals Directly to MPEG Surround, 128th AES Convention, May 2010.
[4] J. Breebaart, S. van de Par, A. Kohlrausch and E. Schuijers, Parametric Coding of Stereo Audio, EURASIP Journal on Applied Signal Processing, Vol. 2005, No. 9, pp. 1305-1322, 2005.
[5] J. Herre, K. Kjrling, J. Breebaart, C. Faller, S. Disch, H. Purnhagen, J. Koppens, J. Hilpert, J. Rdn, W. Oomen, K. Linzmeier and K. S. Chong, MPEG Surround The ISO/MPEG Standard for Efficient and Compatible Multichannel Audio Coding, Journal of the Audio Engineering Society, Vol. 56, No. 11, pp. 932-955, November 2008.
[6] J. Vilkamo, V. Pulkki, Directional Audio Coding: Virtual Microphone-Based Synthesis and Subjective Evaluation, Journal of the Audio Engineering Society, Vol. 57, No. 9, pp. 709-724, September 2009.
[7] Golub, G.H. and Van Loan, C.F., Matrix computations, Johns Hopkins Univ Press, 1996.
[8] R. Rebonato, P. Jckel, The most general methodology to create a valid correlation matrix for risk management and option pricing purposes, Journal of Risk, Vol. 2, No. 2, pp. 17-28, 2000.

Claims (26)

  1. 오디오 입력 신호의 제1공분산 특성들을 제공하는 공급자(110), 및
    둘 이상의 오디오 입력 채널들 중 적어도 둘에 대한 믹싱 규칙을 적용하는 것에 의해 상기 오디오 출력 신호를 발생시키는 신호 프로세서(120)를 포함하며,
    여기서 상기 신호 프로세서(120)는 상기 오디오 입력 신호의 상기 제1공분산 특성들에 기반하여 그리고 상기 오디오 출력 신호의 제2공분산 특성들에 기반하여 상기 믹싱 규칙을 결정하도록 구성되고, 상기 제2공분산 특성들은 상기 제1공분산 특성들과 다르며,
    둘 이상의 오디오 입력 채널들을 갖는 오디오 입력 신호로부터 둘 이상의 오디오 출력 채널들을 갖는 오디오 출력 신호를 발생시키는 장치.
  2. 제1항에 따른 장치에 있어서,
    여기서 상기 공급자(110)는 상기 제1공분산 특성들을 제공하며, 여기서 상기 제1공분산 특성들은 제1공분산 특성들은 제1 시간-주파수 빈(bin)에 대한 제1상태를 가지며, 여기서 상기 제1공분산 특성들은, 상기 제1시간-주파수 빈과 다른, 제2 시간-주파수 빈에 대한 상기 제1상태와 다른, 제2상태를 가지는 장치.
  3. 제1항에 따른 장치에 있어서,
    여기서 상기 신호 프로세서(120)가 상기 제2공분산 특성들에 기반하여 상기 믹싱 규칙을 결정하도록 구성되며, 여기서 상기 제2공분산 특성들은 제3시간-주파수 빈에 대한 제3상태를 가지며, 여기서 상기 제2공분산 특성들은, 상기 제3시간-주파수 빈과 다른, 제4시간-주파수 빈에 대해 상기 제3상태와 다른, 제4상태를 가지는 장치.
  4. 제1항에 따른 장치에 있어서,
    여기서 상기 신호 프로세서(120)가 둘 이상의 오디오 출력 채널들 중 각 하나가 둘 이상의 오디오 입력 채널들 중 각 하나에 의존하도록 상기 믹싱 규칙을 적용하는 것에 의해 상기 오디오 출력 신호를 발생시키도록 구성되는 장치.
  5. 제1항에 따른 장치에 있어서,
    여기서 상기 신호 프로세서(120)가 에러 측정이 최소화되도록 상기 믹싱 규칙이 결정되도록 구성되는 장치.
  6. 제5항에 따른 장치에 있어서,
    여기서 상기 신호 프로세서(120)는 상기 믹싱 규칙이
    ∥yref - y∥2
    에 의존하도록 상기 믹싱 규칙을 결정하도록 구성되며,
    여기서
    yref = Qx 이고,
    여기서 x 는 상기 오디오 입력 신호이며, 여기서 Q는 맵핑 행렬이고, 여기서 y는 상기 오디오 출력 신호인, 장치.
  7. 제1항에 따른 장치에 있어서,
    여기서 상기 신호 프로세서(120)는 상기 제2공분산 특성들을 결정하는 것에 의해 상기 믹싱 규칙을 결정하도록 구성되고, 여기서 상기 신호 프로세서(120)는 상기 제1공분산 특성들에 기반하여 상기 제2공분산 특성들을 결정하도록 구성되는, 장치.
  8. 제1항에 따른 장치에 있어서,
    여기서 상기 신호 프로세서(120)는 상기 믹싱 규칙에 따라 믹싱 행렬을 결정하도록 구성되고, 여기서 상기 신호 프로세서(120)는 상기 제1공분산 특성들에 기반하여 그리고 상기 제2공분산 특성들에 기반하여 상기 믹싱 행렬을 결정하도록 구성되는, 장치.
  9. 제1항에 따른 장치에 있어서,
    여기서 상기 공급자(110)는 상기 오디오 입력 신호의 제1공분산 행렬을 결정하는 것에 의해 상기 제1공분산 특성들을 제공하도록 구성되며, 여기서 상기 신호 프로세서(120)는 상기 제2공분산 특성들에 따라 상기 오디오 출력 신호의 제2공분산 행렬에 기반하여 상기 믹싱 규칙을 결정하도록 구성되는, 장치.
  10. 제9항에 따른 장치에 있어서,
    여기서 상기 공급자(110)는, 상기 제1공분산 행렬의 각 대각선 값이 상기 오디오 입력 채널들 중 하나의 에너지를 표시하도록, 그리고 대각선 값이 아닌 상기 제1공분산 행렬의 각 값이, 제1오디오 입력 채널 및 상이한 제2오디오 입력 채널 사이의 상호-채널 상관(correlation)을 표시하도록, 상기 제1공분산 행렬을 결정하는 것으로 구성되는, 장치.
  11. 제9항에 따른 장치에 있어서,
    여기서 상기 신호 프로세서(120)는 상기 제2공분산 행렬에 기반하여 상기 믹싱 규칙을 결정하도록 구성되고, 여기서 상기 제2공분산 행렬의 각 대각선 값은 상기 오디오 출력 채널들 중 하나의 에너지를 표시하며, 여기서 대각선 값이 아닌 상기 제2공분산 행렬의 각 값은 제1오디오 출력 채널 및 제2오디오 출력 채널 사이의 상호-채널 상관을 표시하는, 장치.
  12. 제1항에 따른 장치에 있어서,
    여기서 상기 신호 프로세서(120)는 상기 믹싱 규칙에 따라 믹싱 행렬을 결정하도록 구성되며, 여기서 상기 신호 프로세서(120)는 상기 제1공분산 특성들에 기반하여 그리고 상기 제2공분산 특성들에 기반하여 상기 믹싱 행렬을 결정하도록 구성되며, 여기서 상기 공급자(110)는 상기 오디오 입력 신호의 제1공분산 행렬을 결정하는 것에 의해 상기 제1공분산 특성들을 제공하도록 구성되고, 여기서 상기 신호 프로세서(120)는 상기 제2공분산 특성에 따라 상기 오디오 출력 신호의 제2공분산 행렬에 기반하여 믹싱 규칙을 결정하도록 구성되고, 여기서 상기 신호 프로세서(120)는,
    Figure 112015108141274-pct00072
    이고,
    Figure 112015108141274-pct00073

    Figure 112015108141274-pct00074
    이도록,
    상기 믹싱 행렬을 결정하는 것으로 구성되며, 여기서 M은 상기 믹싱 행렬이고, 여기서 Cx 는 상기 제1공분산 행렬이며, 여기서 Cy 는 상기 제2공분산 행렬이고, 여기서
    Figure 112015108141274-pct00075
    는 제1분해 행렬 Kx의 제1 전치 행렬이고, 여기서
    Figure 112015108141274-pct00076
    는 제2분해 행렬 Ky의 제2전치 행렬이며, 여기서
    Figure 112015108141274-pct00077
    는 상기 제1분해 행렬 Kx의 역 행렬이고, 여기서 P는 제1단위 행렬인 것을 특징으로 하는, 장치.
  13. 제12항에 따른 장치에 있어서,
    여기서 상기 신호 프로세서(120)는
    Figure 112015108141274-pct00078
    이도록 상기 믹싱 행렬을 결정하도록 구성되고,
    여기서
    Figure 112015108141274-pct00079
    이고
    여기서 UT는 제2단위 행렬 U의 제3전치 행렬이고, 여기서 V는 제3단위 행렬이며, 여기서 Λ는 0이 첨부된 항등 행렬(identity matrix)이며, 여기서
    Figure 112015108141274-pct00080

    이고, 여기서 QT는 맵핑 행렬 Q의 제4전치 행렬이며, 여기서 VT는 상기 제3단위 행렬 V의 제5전치 행렬이며, 여기서 S는 대각 행렬인 것을 특징으로 하는, 장치.
  14. 제1항에 따른 장치에 있어서,
    여기서 상기 신호 프로세서(120)는 상기 믹싱 규칙에 따라 믹싱 행렬을 결정하도록 구성되고, 여기서 상기 신호 프로세서(120)는 상기 제1공분산 특성들에 기반하여 그리고 상기 제2공분산 특성들에 기반하여 상기 믹싱 행렬을 결정하도록 구성되며,
    여기서 상기 공급자(110)는 상기 오디오 입력 신호의 제1공분산 행렬을 결정하는 것에 의해 상기 제1공분산 특성들을 제공하도록 구성되며,
    여기서 상기 신호 프로세서는 상기 제2공분산 특성들에 따라 상기 오디오 출력 신호의 제2공분산 행렬에 기반하여 상기 믹싱 규칙을 결정하도록 구성되며,
    여기서 상기 신호 프로세서(120)는 대각 행렬 Sx의 값들이 0 또는 임계 값보다 작을 때, 상기 값들이 상기 임계 값보다 크거나 같도록, 대각 행렬 Sx의 적어도 몇몇 대각 값들을 수정하는 것에 의해 상기 믹싱 규칙을 결정하도록 구성되고,
    여기서 상기 대각 행렬은 상기 제1공분산 행렬에 의존하는, 장치.
  15. 제14항에 따른 장치에 있어서,
    여기서 상기 신호 프로세서(120)는 상기 대각 행렬 Sx의 적어도 몇몇 대각선 값들을 수정하도록 구성되며, 여기서
    Figure 112015108141274-pct00081
    , 여기서
    Figure 112015108141274-pct00082
    이고, 여기서 Cx는 상기 제1공분산 행렬이고, 여기서 Sx는 상기 대각 행렬이고, 여기서 Ux는 제2행렬이고,
    Figure 112015108141274-pct00083
    는 제5행렬 Kx의 제4전치 행렬이고, 여기서 Vx 및Ux 는 단위 행렬들인, 장치.
  16. 제14항에 따른 장치에 있어서,
    여기서 상기 신호 프로세서(120)는 매개 신호를 얻기 위해 상기 둘 이상의 오디오 입력 채널들 중 적어도 둘에 상기 믹싱 행렬을 적용하는 것에 의해 그리고 상기 오디오 출력 신호를 얻기 위해 상기 매개 신호에 잔류 신호 r을 더하는 것에 의해 상기 오디오 출력 신호를 발생시키도록 구성되는, 장치.
  17. 제14항에 따른 장치에 있어서,
    여기서 상기 신호 프로세서(120)는
    Figure 112014024282153-pct00084
    이도록, 매개 행렬
    Figure 112014024282153-pct00085
    및 대각 이득 행렬 G에 의존하여 상기 믹싱 행렬를 결정하도록 구성되며, 여기서 상기 대각 이득 행렬은 상기 값
    Figure 112014024282153-pct00086

    을 가지며,
    여기서
    Figure 112014024282153-pct00087
    이고,
    여기서 M'은 상기 믹싱 행렬이고, 여기서 G는 상기 대각 이득 행렬이며, 여기서 Cy는 상기 제2공분산 행렬이며 여기서
    Figure 112014024282153-pct00088
    는 매개 행렬
    Figure 112014024282153-pct00089
    의 제5전치 행렬인, 장치.
  18. 제1항에 따른 장치에 있어서,
    여기서 상기 신호 프로세서(120)는 :
    상기 제1공분산 특성들에 기반하여 상기 믹싱 규칙에 따라 믹싱 행렬을 발생시키기 위한 믹싱 행렬 형성 모듈(420; 530; 630; 730; 830; 1030), 및
    상기 오디오 출력 신호를 발생시키기 위해 상기 오디오 입력 신호에 상기 믹싱 행렬을 적용하기 위한 믹싱 행렬 응용 모듈 (430; 540; 640; 740; 840; 1040)을 포함하는, 장치.
  19. 제18항에 따른 장치에 있어서,
    여기서 상기 공급자(110)는 상기 제1공분산 특성들에 따라 분석 결과를 얻기 위해 상기 오디오 입력 신호의 입력 공분산 특성들을 제공하기 위한 공분산 행렬 분석 모듈 (410; 705; 805; 1005)을 포함하고,
    여기서 상기 믹싱 행렬 형성 모듈 (420; 530; 630; 730; 830; 1030)은 상기 분석 결과에 기반하여 상기 믹싱 행렬을 발생시키도록 구성되는, 장치.
  20. 제18항에 따른 장치에 있어서,
    여기서 상기 믹싱 행렬 형성 모듈 (420; 530; 630; 730; 830; 1030)은 에러 기준에 기반하여 상기 믹싱 행렬을 발생시키도록 구성되는, 장치.
  21. 제18항에 따른 장치에 있어서,
    여기서 상기 신호 프로세서(120)는 써라운드 공간 데이터, 상호-채널 상관 데이터 또는 오디오 신호 레벨 데이터를 포함하는 구성 정보 데이터를 결정하기 위한 공간 데이터 결정 모듈 (520; 620)을 더 포함하며,
    여기서 상기 믹싱 행렬 형성 모듈 (420; 530; 630; 730; 830; 1030)은 상기 구성 정보 데이터에 기반하여 상기 믹싱 행렬을 발생시키도록 구성되는, 장치.
  22. 제19항에 따른 장치에 있어서,
    여기서 상기 신호 프로세서(120)는 상기 분석 결과에 기반하여 타겟 공분산 행렬을 발생시키기 위한 타겟 공분산 행렬 형성 모듈 (730; 1018)을 더 포함하고,
    여기서 상기 믹싱 행렬 형성 모듈 (420; 530; 630; 730; 830; 1030)은 상기 타겟 공분산 행렬에 기반하여 믹싱 행렬를 발생시키도록 구성되는, 장치.
  23. 제22항에 따른 장치에 있어서,
    여기서 상기 타겟 공분산 행렬 형성 모듈 (1018)은 확성기 구성에 기반하여 상기 타겟 공분산 행렬를 발생시키도록 구성되는, 장치.
  24. 제18항에 따른 장치에 있어서,
    여기서 상기 신호 프로세서(120)는, 입력 상호-채널 상관 데이터와 다른, 입력 상호-채널 상관 데이터에 기반하는 출력 상호-채널 상관 데이터를 얻기 위한 향상 모듈(815)를 더 포함하며,
    여기서 상기 믹싱 행렬 형성 모듈 (420; 530; 630; 730; 830; 1030)은 상기 출력 상호-채널 상관 데이터에 기반하여 상기 믹싱 행렬을 발생시키도록 구성되는, 장치.
  25. 오디오 입력 신호의 제1공분산 특성들을 제공하는 단계 및
    둘 이상의 오디오 입력 채널들 중 적어도 둘에 믹싱 규칙을 적용하는 것에 의해 오디오 출력 신호를 발생시키는 단계를 포함하며,
    여기서 상기 믹싱 규칙은 상기 오디오 입력 신호의 제1공분산 특성들에 기반하여 그리고 상기 제1공분산 특성들과 다른 상기 오디오 출력 신호의 제2공분산 특성들에 기반하여 결정되는,
    둘 이상의 오디오 입력 채널들을 갖는 오디오 입력 신호로부터 둘 이상의 오디오 출력 채널들을 갖는 오디오 출력 신호를 발생시키는 방법.
  26. 컴퓨터 또는 프로세서에서 실행될 때 제25항의 방법을 실행하기 위한 컴퓨터 프로그램을 포함하는 컴퓨터 판독가능 매체.
KR1020147006724A 2011-08-17 2012-08-14 공간적 오디오 처리에서 역상관기의 이용 및 최적 믹싱 행렬들 KR101633441B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201161524647P 2011-08-17 2011-08-17
US61/524,647 2011-08-17
EP12156351.4 2012-02-21
EP12156351A EP2560161A1 (en) 2011-08-17 2012-02-21 Optimal mixing matrices and usage of decorrelators in spatial audio processing
PCT/EP2012/065861 WO2013024085A1 (en) 2011-08-17 2012-08-14 Optimal mixing matrices and usage of decorrelators in spatial audio processing

Publications (2)

Publication Number Publication Date
KR20140047731A KR20140047731A (ko) 2014-04-22
KR101633441B1 true KR101633441B1 (ko) 2016-07-08

Family

ID=45656296

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020147006724A KR101633441B1 (ko) 2011-08-17 2012-08-14 공간적 오디오 처리에서 역상관기의 이용 및 최적 믹싱 행렬들

Country Status (16)

Country Link
US (3) US10339908B2 (ko)
EP (2) EP2560161A1 (ko)
JP (1) JP5846460B2 (ko)
KR (1) KR101633441B1 (ko)
CN (1) CN103765507B (ko)
AR (1) AR087564A1 (ko)
AU (1) AU2012296895B2 (ko)
BR (1) BR112014003663B1 (ko)
CA (1) CA2843820C (ko)
ES (1) ES2499640T3 (ko)
HK (1) HK1187731A1 (ko)
MX (1) MX2014001731A (ko)
PL (1) PL2617031T3 (ko)
RU (1) RU2631023C2 (ko)
TW (1) TWI489447B (ko)
WO (1) WO2013024085A1 (ko)

Families Citing this family (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104054126B (zh) * 2012-01-19 2017-03-29 皇家飞利浦有限公司 空间音频渲染和编码
KR101662680B1 (ko) * 2012-02-14 2016-10-05 후아웨이 테크놀러지 컴퍼니 리미티드 멀티-채널 오디오 신호의 적응적 다운-믹싱 및 업-믹싱을 수행하기 위한 방법 및 장치
EP2688066A1 (en) 2012-07-16 2014-01-22 Thomson Licensing Method and apparatus for encoding multi-channel HOA audio signals for noise reduction, and method and apparatus for decoding multi-channel HOA audio signals for noise reduction
US9980074B2 (en) 2013-05-29 2018-05-22 Qualcomm Incorporated Quantization step sizes for compression of spatial components of a sound field
US9466305B2 (en) 2013-05-29 2016-10-11 Qualcomm Incorporated Performing positional analysis to code spherical harmonic coefficients
KR102161169B1 (ko) * 2013-07-05 2020-09-29 한국전자통신연구원 오디오 신호 처리 방법 및 장치
EP2830050A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for enhanced spatial audio object coding
EP2830045A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for audio encoding and decoding for audio channels and audio objects
EP2830335A3 (en) 2013-07-22 2015-02-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method, and computer program for mapping first and second input channels to at least one output channel
EP2830047A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for low delay object metadata coding
EP2866227A1 (en) * 2013-10-22 2015-04-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for decoding and encoding a downmix matrix, method for presenting audio content, encoder and decoder for a downmix matrix, audio encoder and audio decoder
US9502045B2 (en) 2014-01-30 2016-11-22 Qualcomm Incorporated Coding independent frames of ambient higher-order ambisonic coefficients
US9922656B2 (en) 2014-01-30 2018-03-20 Qualcomm Incorporated Transitioning of ambient higher-order ambisonic coefficients
US10770087B2 (en) 2014-05-16 2020-09-08 Qualcomm Incorporated Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals
US9620137B2 (en) 2014-05-16 2017-04-11 Qualcomm Incorporated Determining between scalar and vector quantization in higher order ambisonic coefficients
US9852737B2 (en) 2014-05-16 2017-12-26 Qualcomm Incorporated Coding vectors decomposed from higher-order ambisonics audio signals
CN110992964B (zh) * 2014-07-01 2023-10-13 韩国电子通信研究院 处理多信道音频信号的方法和装置
US9747910B2 (en) 2014-09-26 2017-08-29 Qualcomm Incorporated Switching between predictive and non-predictive quantization techniques in a higher order ambisonics (HOA) framework
US20160171987A1 (en) * 2014-12-16 2016-06-16 Psyx Research, Inc. System and method for compressed audio enhancement
US9712936B2 (en) 2015-02-03 2017-07-18 Qualcomm Incorporated Coding higher-order ambisonic audio data with motion stabilization
ES2922373T3 (es) 2015-03-03 2022-09-14 Dolby Laboratories Licensing Corp Realce de señales de audio espacial por decorrelación modulada
US10129661B2 (en) * 2015-03-04 2018-11-13 Starkey Laboratories, Inc. Techniques for increasing processing capability in hear aids
US10448188B2 (en) 2015-09-30 2019-10-15 Dolby Laboratories Licensing Corporation Method and apparatus for generating 3D audio content from two-channel stereo content
BR112018014632B1 (pt) 2016-01-18 2020-12-29 Boomcloud 360, Inc. método para produzir dois canais de áudio e sistema
US10225657B2 (en) 2016-01-18 2019-03-05 Boomcloud 360, Inc. Subband spatial and crosstalk cancellation for audio reproduction
EP3406085B1 (en) 2016-01-19 2024-05-01 Boomcloud 360, Inc. Audio enhancement for head-mounted speakers
WO2017143003A1 (en) * 2016-02-18 2017-08-24 Dolby Laboratories Licensing Corporation Processing of microphone signals for spatial playback
US11234072B2 (en) 2016-02-18 2022-01-25 Dolby Laboratories Licensing Corporation Processing of microphone signals for spatial playback
US10923132B2 (en) 2016-02-19 2021-02-16 Dolby Laboratories Licensing Corporation Diffusivity based sound processing method and apparatus
US10979844B2 (en) * 2017-03-08 2021-04-13 Dts, Inc. Distributed audio virtualization systems
US9820073B1 (en) 2017-05-10 2017-11-14 Tls Corp. Extracting a common signal from multiple audio signals
US10313820B2 (en) 2017-07-11 2019-06-04 Boomcloud 360, Inc. Sub-band spatial audio enhancement
GB201718341D0 (en) 2017-11-06 2017-12-20 Nokia Technologies Oy Determination of targeted spatial audio parameters and associated spatial audio playback
US10764704B2 (en) 2018-03-22 2020-09-01 Boomcloud 360, Inc. Multi-channel subband spatial processing for loudspeakers
GB2572420A (en) * 2018-03-29 2019-10-02 Nokia Technologies Oy Spatial sound rendering
GB2572650A (en) * 2018-04-06 2019-10-09 Nokia Technologies Oy Spatial audio parameters and associated spatial audio playback
GB2574239A (en) 2018-05-31 2019-12-04 Nokia Technologies Oy Signalling of spatial audio parameters
CN110782911A (zh) * 2018-07-30 2020-02-11 阿里巴巴集团控股有限公司 音频信号处理方法、装置、设备和存储介质
GB2582749A (en) * 2019-03-28 2020-10-07 Nokia Technologies Oy Determination of the significance of spatial audio parameters and associated encoding
CA3193359A1 (en) 2019-06-14 2020-12-17 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Parameter encoding and decoding
CA3147429A1 (en) * 2019-08-01 2021-02-04 Dolby Laboratories Licensing Corporation Systems and methods for covariance smoothing
GB2587357A (en) * 2019-09-24 2021-03-31 Nokia Technologies Oy Audio processing
CN112653985B (zh) 2019-10-10 2022-09-27 高迪奥实验室公司 使用2声道立体声扬声器处理音频信号的方法和设备
US10841728B1 (en) 2019-10-10 2020-11-17 Boomcloud 360, Inc. Multi-channel crosstalk processing
GB2589321A (en) 2019-11-25 2021-06-02 Nokia Technologies Oy Converting binaural signals to stereo audio signals
GB2594265A (en) * 2020-04-20 2021-10-27 Nokia Technologies Oy Apparatus, methods and computer programs for enabling rendering of spatial audio signals
US11373662B2 (en) * 2020-11-03 2022-06-28 Bose Corporation Audio system height channel up-mixing
WO2023147864A1 (en) * 2022-02-03 2023-08-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method to transform an audio stream

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4298466B2 (ja) * 2003-10-30 2009-07-22 日本電信電話株式会社 収音方法、装置、プログラム、および記録媒体
SE0402652D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Methods for improved performance of prediction based multi- channel reconstruction
BRPI0608945C8 (pt) * 2005-03-30 2020-12-22 Coding Tech Ab codificador de áudio de multi-canal, decodificador de áudio de multi-canal, método de codificar n sinais de áudio em m sinais de áudio e dados paramétricos associados, método de decodificar k sinais de áudio e dados paramétricos associados, método de transmitir e receber um sinal de áudio de multi-canal codificado, mídia de armazenamento legível por computador, e, sistema de transmissão
JP4875142B2 (ja) 2006-03-28 2012-02-15 テレフオンアクチーボラゲット エル エム エリクソン(パブル) マルチチャネル・サラウンドサウンドのためのデコーダのための方法及び装置
JP5270566B2 (ja) * 2006-12-07 2013-08-21 エルジー エレクトロニクス インコーポレイティド オーディオ処理方法及び装置
JP5254983B2 (ja) 2007-02-14 2013-08-07 エルジー エレクトロニクス インコーポレイティド オブジェクトベースオーディオ信号の符号化及び復号化方法並びにその装置
CN101542597B (zh) * 2007-02-14 2013-02-27 Lg电子株式会社 用于编码和解码基于对象的音频信号的方法和装置
EP2137725B1 (en) * 2007-04-26 2014-01-08 Dolby International AB Apparatus and method for synthesizing an output signal
CN101821799B (zh) * 2007-10-17 2012-11-07 弗劳恩霍夫应用研究促进协会 使用上混合的音频编码
US8315396B2 (en) * 2008-07-17 2012-11-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating audio output signals using object based metadata
KR20110049863A (ko) * 2008-08-14 2011-05-12 돌비 레버러토리즈 라이쎈싱 코오포레이션 오디오 신호 트랜스포맷팅
KR20100111499A (ko) * 2009-04-07 2010-10-15 삼성전자주식회사 목적음 추출 장치 및 방법
CA2775828C (en) 2009-09-29 2016-03-29 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio signal decoder, audio signal encoder, method for providing an upmix signal representation, method for providing a downmix signal representation, computer program and bitstream using a common inter-object-correlation parameter value
TWI396186B (zh) * 2009-11-12 2013-05-11 Nat Cheng Kong University 基於盲訊號分離語音增強技術之遠距離雜訊語音辨識
US9344813B2 (en) * 2010-05-04 2016-05-17 Sonova Ag Methods for operating a hearing device as well as hearing devices

Also Published As

Publication number Publication date
MX2014001731A (es) 2014-03-27
JP2014526065A (ja) 2014-10-02
PL2617031T3 (pl) 2015-01-30
WO2013024085A1 (en) 2013-02-21
AU2012296895A1 (en) 2014-02-27
KR20140047731A (ko) 2014-04-22
CN103765507B (zh) 2016-01-20
HK1187731A1 (en) 2014-04-11
CA2843820A1 (en) 2013-02-21
ES2499640T3 (es) 2014-09-29
US20140233762A1 (en) 2014-08-21
US10748516B2 (en) 2020-08-18
EP2617031A1 (en) 2013-07-24
CN103765507A (zh) 2014-04-30
US20190251938A1 (en) 2019-08-15
US10339908B2 (en) 2019-07-02
RU2014110030A (ru) 2015-09-27
EP2617031B1 (en) 2014-07-23
AR087564A1 (es) 2014-04-03
AU2012296895B2 (en) 2015-07-16
TW201320059A (zh) 2013-05-16
CA2843820C (en) 2016-09-27
RU2631023C2 (ru) 2017-09-15
BR112014003663A2 (pt) 2020-10-27
TWI489447B (zh) 2015-06-21
US20200372884A1 (en) 2020-11-26
EP2560161A1 (en) 2013-02-20
BR112014003663B1 (pt) 2021-12-21
US11282485B2 (en) 2022-03-22
JP5846460B2 (ja) 2016-01-20

Similar Documents

Publication Publication Date Title
KR101633441B1 (ko) 공간적 오디오 처리에서 역상관기의 이용 및 최적 믹싱 행렬들
US8515759B2 (en) Apparatus and method for synthesizing an output signal
US8126152B2 (en) Method and arrangement for a decoder for multi-channel surround sound
AU2017248532B2 (en) Multi-channel decorrelator, multi-channel audio decoder, multi-channel audio encoder, methods and computer program using a premix of decorrelator input signals
US9502040B2 (en) Encoding and decoding of slot positions of events in an audio signal frame
RU2497204C2 (ru) Устройство параметрического стереофонического повышающего микширования, параметрический стереофонический декодер, устройство параметрического стереофонического понижающего микширования, параметрический стереофонический кодер
KR101058047B1 (ko) 스테레오 신호 생성 방법
EP3933834A1 (en) Enhanced soundfield coding using parametric component generation
KR20170063657A (ko) 오디오 인코더 및 디코더
Hyun et al. Joint Channel Coding Based on Principal Component Analysis

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20190530

Year of fee payment: 4