KR102501969B1 - 오디오 신호의 파라메트릭 믹싱 - Google Patents

오디오 신호의 파라메트릭 믹싱 Download PDF

Info

Publication number
KR102501969B1
KR102501969B1 KR1020177011883A KR20177011883A KR102501969B1 KR 102501969 B1 KR102501969 B1 KR 102501969B1 KR 1020177011883 A KR1020177011883 A KR 1020177011883A KR 20177011883 A KR20177011883 A KR 20177011883A KR 102501969 B1 KR102501969 B1 KR 102501969B1
Authority
KR
South Korea
Prior art keywords
channel
signal
channels
additional
downmix
Prior art date
Application number
KR1020177011883A
Other languages
English (en)
Other versions
KR20170078663A (ko
Inventor
라스 빌레모스
하이코 펀하겐
하이디 마리아 레토넨
Original Assignee
돌비 인터네셔널 에이비
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 돌비 인터네셔널 에이비 filed Critical 돌비 인터네셔널 에이비
Publication of KR20170078663A publication Critical patent/KR20170078663A/ko
Application granted granted Critical
Publication of KR102501969B1 publication Critical patent/KR102501969B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

인코딩 섹션(100)에서, 다운믹스 섹션(110)은 다운믹스 신호의 제1 및 제2 채널들(L1, L2)을 M-채널 오디오 신호의 채널들의 제1 및 제2 그룹들(401, 402)의 선형 조합들로서 각각 형성하고; 분석 섹션(120)은 오디오 신호의 파라메트릭 재구성을 위한 업믹스 파라미터들(αLU) 및 믹싱 파라미터들(αLM)을 결정한다. 디코딩 섹션에서(1200), 상관성 제거 섹션(1210)은 다운믹스 신호에 기초한 상관성 제거된 신호(D)를 출력하고; 믹싱 섹션(1220)은 믹싱 파라미터들 또는 업믹스 파라미터들에 기초하여 믹싱 계수들을 결정하고, 믹싱 계수에 따라 다운믹스 신호와 상관성 제거된 신호의 선형 조합으로서 K-채널 출력 신호
Figure 112017042130710-pct00120
를 형성한다. 출력 신호의 채널들은 오디오 신호의 채널들의 K개의 그룹(501-502, 1301-1303)의 선형 조합들에 각각 근사화한다. K개의 그룹은 제1 및 제2 그룹들과는 상이한 오디오 신호의 파티션을 구성하고, 2 ≤ K < M이다.

Description

오디오 신호의 파라메트릭 믹싱{PARAMETRIC MIXING OF AUDIO SIGNALS}
본 명세서에 개시된 발명은 일반적으로 오디오 신호의 인코딩 및 디코딩에 관한 것으로, 특히 관련된 메타데이터에 기초한 다운믹스 신호의 채널들의 믹싱에 관한 것이다.
다수의 라우드스피커를 포함하는 오디오 재생 시스템은 멀티채널 오디오 신호에 의해 표현되는 오디오 장면을 재생하는데 자주 사용되며, 멀티채널 오디오 신호의 각각의 채널은 각각의 라우드스피커들에서 재생된다. 멀티채널 오디오 신호는 예를 들어 복수의 음향 변환기를 통해 기록되었을 수 있거나 오디오 저작 장비에 의해 생성되었을 수 있다. 많은 경우에, 오디오 신호를 재생 장비로 송신하기 위한 대역폭 제한 및/또는 오디오 신호를 컴퓨터 메모리 또는 휴대용 저장 장치에 저장하기 위한 제한된 공간이 있다. 필요한 대역폭 또는 스토리지를 줄이기 위해, 오디오 신호의 파라메트릭 코딩을 위한 오디오 코딩 시스템이 존재한다. 인코더 측에서, 이들 시스템은 전형적으로 멀티채널 오디오 신호를, 전형적으로 모노(하나의 채널) 또는 스테레오(2개의 채널) 다운믹스인, 다운믹스 신호로 다운믹스하고, 레벨 차이 및 교차 상관과 같은 파라미터들에 의해 채널들의 특성을 설명하는 사이드 정보를 추출한다. 다운믹스 및 사이드 정보는 그 후 인코딩되어 디코더 측으로 전송된다. 디코더 측에서, 멀티채널 오디오 신호는 사이드 정보의 파라미터들의 제어하에 다운믹스로부터 재구성, 즉 근사화된다
가정에서 최종 사용자를 겨냥한 신흥 세그먼트를 포함하여 멀티채널 오디오 콘텐츠를 재생할 수 있는 다양한 유형의 장치 및 시스템을 고려하여, 스토리지에 대한 대역폭 요구 사항 및/또는 필요한 메모리 크기를 줄이고, 디코더 측에서 멀티채널 오디오 신호의 재구성을 용이하게 하며, 및/또는 디코더 측에서 재구성된 멀티채널 오디오 신호의 충실도를 증가시키기 위해, 멀티채널 오디오 콘텐츠를 효율적으로 인코딩하는 새로운 대체 가능한 방법이 필요하다. 또한 원래의 멀티채널 오디오 콘텐츠에 존재하는 채널의 수보다 적은 수의 스피커를 갖는 시스템을 포함하여, 다양한 유형의 스피커 시스템들상에서 인코딩된 멀티채널 오디오 콘텐츠의 재생을 용이하게 할 필요가 있다.
이하에서는, 예시적인 실시예들에 대해 다음의 첨부 도면들을 참조하여 더 상세히 설명한다.
도 1은 예시적인 실시예에 따른, M-채널 신호를 2-채널 다운믹스 신호 및 관련된 메타데이터로서 인코딩하기 위한 인코딩 섹션의 일반화된 블록도이다.
도 2는 예시적인 실시예에 따른, 도 1에 도시된 인코딩 섹션을 포함하는 오디오 인코딩 시스템의 일반화된 블록도이다.
도 3은 예시적인 실시예에 따른, M-채널 오디오 신호를 2-채널 다운믹스 신호 및 관련된 메타데이터로서 인코딩하기 위한 오디오 인코딩 방법의 흐름도이다.
도 4 내지 도 6은 예시적인 실시예들에 따른, 11.1-채널(또는 7.1+4-채널 또는 7.1.4-채널) 오디오 신호를 각각의 다운믹스 채널들에 의해 표현된 채널들의 그룹들로 파티션하는 대안적인 방법들을 도시한다.
도 7은 예시적인 실시예에 따른, 2-채널 다운믹스 신호 및 관련된 업믹스 파라미터들에 기초하여 2-채널 출력 신호를 제공하기 위한 디코딩 섹션의 일반화된 블록도이다.
도 8은 예시적인 실시예에 따른, 도 7에 도시된 디코딩 섹션을 포함하는 오디오 디코딩 시스템의 일반화된 블록도이다.
도 9는 예시적인 실시예에 따른, 2-채널 다운믹스 신호 및 관련된 믹싱 파라미터들에 기초하여 2-채널 출력 신호를 제공하기 위한 디코딩 섹션의 일반화된 블록도이다.
도 10은 예시적인 실시예에 따른, 2-채널 다운믹스 신호 및 관련된 메타데이터에 기초하여 2-채널 출력 신호를 제공하기 위한 오디오 디코딩 방법의 흐름도이다.
도 11은 예시적인 실시예에 따른, 컴퓨터 판독 가능 매체를 개략적으로 도시한다.
도 12는 예시적인 실시예에 따른, 2-채널 다운믹스 신호 및 관련된 업믹스 파라미터들에 기초하여 K-채널 출력 신호를 제공하기 위한 디코딩 섹션의 일반화된 블록도이다.
도 13 및 도 14는 예시적인 실시예들에 따른, 11.1-채널(또는 7.1+4-채널 또는 7.1.4-채널) 오디오 신호를 채널들의 그룹들로 파티션하는 대안적인 방법들을 도시한다.
도 15 및 도 16은 예시적인 실시예들에 따른, 13.1-채널(또는 9.1+4-채널 또는 9.1.4-채널) 오디오 신호를 채널들의 그룹들로 파티션하는 대안적인 방법을 도시한다.
모든 도면들은 개략적이며 일반적으로 본 발명을 명료하게 하기 위해 필요한 부분들만을 도시하는 반면, 다른 부분들은 생략되거나 단지 제안될 수 있다.
본 명세서에서 사용될 때, 오디오 신호는 독립형 오디오 신호, 시청각 신호 또는 멀티미디어 신호의 오디오 부분 또는 이들 중 임의의 것을 메타데이터와 조합한 것일 수 있다.
본 명세서에 사용될 때, 채널은 미리 정의된/고정된 공간 위치/방향 또는 "좌측" 또는 "우측"과 같은 정의되지 않은 공간 위치와 관련된 오디오 신호이다.
I. 개요 - 디코더 측
제1 양태에 따르면, 예시적인 실시예들은 오디오 디코딩 시스템, 오디오 디코딩 방법 및 관련된 컴퓨터 프로그램 제품을 제안한다. 제1 양태에 따른, 제안된 디코딩 시스템, 방법, 및 컴퓨터 프로그램 제품은 일반적으로 동일한 특징 및 이점을 공유할 수 있다.
예시적인 실시예들에 따르면, 2-채널 다운믹스 신호를 수신하는 단계를 포함하는 오디오 디코딩 방법이 제공된다. 상기 다운믹스 신호는 상기 다운믹스 신호에 기초한 M-채널 오디오 신호의 파라메트릭 재구성을 위한 업믹스 파라미터들을 포함하는 메타데이터와 관련되며, 여기서 M ≥ 4이다. 상기 다운믹스 신호의 제1 채널은 상기 M-채널 오디오 신호의 하나 이상의 채널의 제1 그룹의 선형 조합에 대응하고, 상기 다운믹스 신호의 제2 채널은 상기 M-채널 오디오 신호의 하나 이상의 채널의 제2 그룹의 선형 조합에 대응한다. 상기 제1 및 제2 그룹들은 상기 M-채널 오디오 신호의 M개의 채널의 파티션을 구성한다. 상기 오디오 디코딩 방법은: 상기 메타데이터의 적어도 일부를 수신하는 단계; 상기 다운믹스 신호의 적어도 하나의 채널에 기초하여 상관성 제거된 신호를 생성하는 단계; 상기 수신된 메타데이터에 기초하여 믹싱 계수들의 세트를 결정하는 단계; 및 상기 믹싱 계수들에 따라 상기 다운믹스 신호 및 상기 상관성 제거된 신호의 선형 조합으로서 2-채널 출력 신호를 형성하는 단계를 추가로 포함한다. 상기 믹싱 계수들은 상기 출력 신호의 제1 채널이 상기 M-채널 오디오 신호의 하나 이상의 채널의 제3 그룹의 선형 조합에 근사화하도록, 그리고 상기 출력 신호의 제2 채널이 상기 M-채널 오디오 신호의 하나 이상의 채널의 제4 그룹의 선형 조합에 근사화하도록 결정된다. 상기 믹싱 계수들은 또한 상기 제3 및 제4 그룹들이 상기 M-채널 오디오 신호의 M개의 채널의 파티션을 구성하도록, 그리고 상기 제3 및 제4 그룹들 모두가 상기 제1 그룹으로부터의 적어도 하나의 채널을 포함하도록 결정된다.
상기 M-채널 오디오 신호는 상기 2-채널 다운믹스 신호 및 상기 M-채널 오디오 신호의 파라메트릭 재구성을 위한 업믹스 파라미터들로서 인코딩되었다. 인코더 측에서 상기 M-채널 오디오 신호를 인코딩할 때, 코딩 포맷은 예를 들어, 상기 다운믹스 신호로부터 상기 M-채널 오디오 신호의 재구성을 용이하게 하기 위해, 상기 다운믹스 신호로부터 재구성된 상기 M-채널 오디오 신호의 충실도를 향상시키기 위해, 및/또는 상기 다운믹스 신호의 코딩 효율을 향상시키기 위해 선택될 수 있다. 이러한 코딩 포맷의 선택은 상기 제1 및 제2 그룹들을 선택하고 각각의 그룹들 내의 채널들의 각각의 선형 조합들로서 상기 다운믹스 신호들의 채널들을 형성함으로써 수행될 수 있다.
본 발명자들은 선택된 코딩 포맷이 상기 다운믹스 신호로부터의 상기 M-채널 오디오 신호의 재구성을 용이하게 할 수 있지만, 상기 다운믹스 신호는 그 자체가 특정 2-스피커 구성을 사용하는 재생에 적합하지 않을 수 있음을 깨달았다. 상기 M-채널 오디오 신호의 상기 제3 및 제4 그룹들로의 상이한 파티션에 대응하는 상기 출력 신호는 상기 다운믹스 신호보다 특정 2-채널 재생 설정에 더 적합할 수 있다. 따라서, 상기 다운믹스 신호 및 상기 수신된 메타데이터에 기초하여 상기 출력 신호를 제공하는 것은 청취자에 의해 지각되는 2-채널 재생 품질을 향상시킬 수 있고, 및/또는 상기 M-채널 오디오 신호에 의해 표현된 음장에 대한 상기 2-채널 재생의 충실도를 향상시킬 수 있다.
본 발명자들은 다운믹스 신호로부터 M-채널 오디오 신호를 먼저 재구성한 다음 M-채널 오디오 신호의 대안적인 2-채널 표현을 생성하는(예를 들어, 가산 믹싱에 의해) 대신에, 상기 출력 신호에 의해 제공된 대안적인 2-채널 표현은 M-채널 오디오 신호의 일부 채널들이 2-채널 표현들 양자 모두에서 유사하게 함께 그룹화된다는 사실을 이용함으로써 다운믹스 신호 및 수신된 메타데이터로부터 더 효율적으로 생성될 수 있다는 것을 추가로 깨달았다. 다운믹스 신호 및 상관성 제거된 신호의 선형 조합으로서 출력 신호를 형성하는 것은 예를 들어 디코더 측에서의 계산 복잡성을 감소시키고 및/또는 M-채널 오디오 신호의 대안적인 2-채널 표현을 획득하기 위해 사용되는 컴포넌트 또는 처리 단계의 수를 감소시킬 수 있다.
다운믹스 신호의 제1 채널은 예를 들어, 인코더 측에서, 하나 이상의 채널의 제1 그룹의 선형 조합으로서 형성되었을 수 있다. 유사하게, 다운믹스 신호의 제2 채널은 예를 들어, 인코더 측에서, 하나 이상의 채널의 제2 그룹의 선형 조합으로서 형성되었을 수 있다.
M-채널 오디오 신호의 채널들은 예를 들어 음장을 함께 표현하는 더 많은 수의 채널의 서브세트를 형성할 수 있다.
제3 및 제4 그룹들 모두가 제1 그룹으로부터의 적어도 하나의 채널을 포함하기 때문에, 제3 및 제4 그룹들에 의해 제공되는 파티션은 제1 및 제2 그룹들에 의해 제공되는 파티션과 상이하다는 것을 이해할 것이다.
상관성 제거된 신호는 청취자에 의해 지각되는, 다운믹스 신호의 오디오 콘텐츠의 차원성을 증가시키는 역할을 한다. 상관성 제거된 신호를 생성하는 것은 예를 들어 다운믹스 신호의 하나 이상의 채널에 선형 필터를 적용하는 것을 포함할 수 있다.
출력 신호를 형성하는 것은 예를 들어 믹싱 계수들의 적어도 일부를 다운믹스 신호의 채널들에 적용하고, 믹싱 계수들의 적어도 일부를 상관성 제거된 신호의 하나 이상의 채널에 적용하는 것을 포함할 수 있다.
예시적인 실시예에서, 수신된 메타데이터는 업믹스 파라미터들을 포함할 수 있고, 믹싱 계수들은 업믹스 파라미터들을 처리함으로써, 예를 들어 믹스 파라미터들에 대해 수학적 연산들(예를 들어, 산술 연산들을 포함)을 수행함으로써 결정될 수 있다. 업믹스 파라미터들은 전형적으로 인코더 측에서 이미 결정되고 디코더 측에서 M-채널 오디오 신호의 파라메트릭 재구성을 위해 다운믹스 신호와 함께 제공된다. 업믹스 파라미터들은 다운믹스 신호에 기초하여 출력 신호를 제공하기 위해 사용될 수 있는 M-채널 오디오 신호에 관한 정보를 전달한다. 디코더 측에서, 업믹스 파라미터들에 기초한 믹싱 계수들을 결정하는 것은 인코더 측에서 생성될 추가적인 메타데이터에 대한 필요성을 감소시키고 인코더 측으로부터 송신된 데이터의 감소를 가능하게 한다.
예시적인 실시예에서, 수신된 메타데이터는 업믹스 파라미터들과 구별되는 믹싱 파라미터들을 포함할 수 있다. 본 예시적인 실시예에서, 믹싱 계수들은 수신된 메타데이터에 기초하여 그리고 그에 따라 믹싱 파라미터들에 기초하여 결정될 수 있다. 믹싱 파라미터들은 이미 인코더 측에서 결정되어, 믹싱 계수들의 결정을 용이하게 하기 위해 디코더 측에 전송될 수 있다. 또한, 믹싱 계수들을 결정하기 위해 믹싱 파라미터들을 사용하면 인코더 측으로부터의 믹싱 계수들을 제어할 수 있다. 원래의 M-채널 오디오 신호가 인코더 측에서 이용 가능하기 때문에, 믹싱 파라미터들은 예를 들어 M-채널 오디오 신호의 2-채널 표현으로서 2-채널 출력 신호의 충실도를 증가시키기 위해 인코더 측에서 조정될 수 있다. 믹싱 파라미터들은 예를 들어 믹싱 계수들 자체일 수 있거나, 믹싱 파라미터들은 믹싱 계수들의 더 콤팩트한 표현을 제공할 수 있다. 믹싱 계수들은 예를 들어 믹싱 파라미터들을, 예를 들어 미리 정의된 규칙에 따라 처리함으로써 결정될 수 있다. 믹싱 파라미터들은 예를 들어 3개의 독립적으로 할당 가능한 파라미터들을 포함할 수 있다.
예시적인 실시예에서, 믹싱 계수들은 업믹스 파라미터들의 임의의 값들과 독립적으로 결정될 수 있으며, 이는 업믹스 파라미터들과 독립적으로 믹싱 계수들의 조정을 가능하게 하고, M-채널 오디오 신호의 2-채널 표현으로서 2-채널 출력 신호의 충실도를 증가시키는 것을 가능하게 한다.
예시적인 실시예에서, M = 5일 수 있다, 즉 M-채널 오디오 신호는 5-채널 오디오 신호일 수 있다. 본 예시적인 실시예의 오디오 디코딩 방법은 예를 들어 현재 설정된 5.1 오디오 포맷들 중 하나의 5개의 정규 채널에 대해, 또는 11.1 멀티채널 오디오 신호에서 좌측 또는 우측의 5개의 채널에 대해 사용될 수 있다. 대안적으로, M = 4 또는 M ≥ 6일 수도 있다.
예시적인 실시예에서, M-채널 오디오 신호의 채널로부터 다운믹스 신호의 채널들이 대응하는 선형 조합들 중 하나로의 기여를 제어하는 각각의 이득은, M-채널 오디오 신호의 채널로부터 상기 출력 신호의 채널들에 의해 근사화된 선형 조합들 중 하나로의 기여를 제어하는 이득과 일치할 수 있다. 이러한 이득들이 본 예시적인 실시예에서 일치한다는 사실은 다운믹스 신호에 기초하여 출력 신호의 제공을 단순화하는 것을 가능하게 한다. 특히, 다운믹스 신호에 기초하여 제3 및 제4 그룹들의 선형 조합에 근사화하기 위해 사용되는 상관성 제거된 채널의 수를 감소시키는 것이 가능하다.
예를 들어, M-채널 오디오 신호의 상이한 채널들에 대해 상이한 이득들이 사용될 수 있다.
제1 예에서, 모든 이득은 값 1을 가질 수 있다. 제1 예에서, 다운믹스 신호의 제1 및 제2 채널들은 각각 제1 및 제2 그룹들의 비가중된 합들에 대응할 수 있고, 출력 신호의 제1 및 제2 채널들은 각각 제3 및 제4 세트들의 비가중된 합들에 근사화할 수 있다.
제2 예에서, 이득들의 적어도 일부는 1과는 상이한 값들을 가질 수 있다. 제2 예에서, 다운믹스 신호의 제1 및 제2 채널들은 각각 제1 및 제2 그룹들의 가중된 합들에 대응할 수 있고, 출력 신호의 제1 및 제2 채널들은 각각 제3 및 제4 세트들의 가중된 합들에 근사화할 수 있다.
예시적인 실시예에서, 상기 디코딩 방법은 상기 다운믹스 신호 및 상기 메타데이터를 나타내는 비트스트림을 수신하는 단계; 및 상기 비트스트림으로부터, 상기 다운믹스 신호 및 상기 메타데이터의 수신된 부분을 추출하는 단계를 추가로 포함할 수 있다. 다시 말해서, 믹싱 계수들을 결정하기 위해 사용된 수신된 메타데이터는 먼저 비트스트림으로부터 추출되었을 수 있다. 업믹스 파라미터들을 포함하는 모든 메타데이터는 예를 들어 비트스트림으로부터 추출될 수 있다. 대안적인 예에서, 믹싱 계수들을 결정하는 데 필요한 메타데이터만이 비트스트림으로부터 추출될 수 있고, 추가적인 메타데이터의 추출은 예를 들어 억제(inhibit)될 수 있다.
예시적인 실시예에서, 상관성 제거된 신호는 단일-채널 신호일 수 있고, 출력 신호는 단지 하나의 상관성 제거된 신호 채널을 다운믹스 신호 및 상관성 제거된 신호의 선형 조합에, 즉 출력 신호가 획득되는 선형 조합에 포함시킴으로써 형성될 수 있다. 본 발명자들은 2-채널 출력 신호를 제공하기 위해 M-채널 오디오 신호를 재구성할 필요가 없고, 전체 M-채널 오디오 신호가 재구성될 필요가 없으므로, 상관성 제거된 신호 채널의 수는 감소될 수 있다는 것을 깨달았다.
예시적인 실시예에서, 믹싱 계수들은 출력 신호의 2개의 채널이 상관성 제거된 신호로부터 동일한 크기(예를 들어, 동일한 진폭)의 기여들을 수신하도록 결정될 수 있다. 상관성 제거된 신호로부터 출력 신호의 각각의 채널로의 기여들은 반대 부호들을 가질 수 있다. 다시 말해서, 믹싱 계수들은 상관성 제거된 신호의 채널로부터 출력 신호의 제1 채널로의 기여를 제어하는 믹싱 계수와, 상관성 제거된 신호의 동일한 채널로부터 출력 신호의 제2 채널로의 기여를 제어하는 믹싱 계수의 합이 값 0을 갖도록 결정될 수 있다.
본 예시적인 실시예에서, 상관성 제거된 신호로부터 유래하는 오디오 콘텐츠(즉, 다운믹스 신호의 차원성을 증가시키기 위한 오디오 콘텐츠)의 양(예를 들어, 진폭)은 예를 들어 출력 신호의 양쪽 모두의 채널에서 동일할 수 있다.
예시적인 실시예에서, 출력 신호를 형성하는 것은 3개의 채널로부터 2개의 채널로의 투영, 즉 다운믹스 신호의 2개의 채널 및 하나의 상관성 제거된 신호 채널로부터의 출력 신호의 2개의 채널로의 투영에 상당할 수 있다. 예를 들어, 출력 신호는 M-채널 오디오 신호의 전체 M개의 채널을 먼저 재구성하지 않고 다운믹스 신호 및 상관성 제거된 신호의 선형 조합으로서 직접 획득될 수 있다.
예시적인 실시예에서, 믹싱 계수들은 다운믹스 신호의 제1 채널로부터 출력 신호의 제1 채널로의 기여를 제어하는 믹싱 계수와, 다운믹스 신호의 제1 채널로부터 출력 신호의 제2 채널로의 기여를 제어하는 믹싱 계수의 합이 값 1을 갖도록 결정될 수 있다. 특히, 믹싱 계수들 중 하나는 업믹스 파라미터들로부터 도출 가능하며(예를 들어, 이 개시의 다른 섹션들에서 설명된 바와 같이, 콤팩트한 표현에 대해 계산을 수행한 후 업믹스 파라미터들로부터 획득 가능하거나 명시적인 값으로서 전송되며), 다른 하나는 양쪽 모두의 믹싱 계수들의 합이 1과 같도록 요구함으로써 쉽게 계산될 수 있다.
추가적으로, 또는 대안적으로, 믹싱 계수들은 다운믹스 신호의 제2 채널로부터 출력 신호의 제1 채널로의 기여를 제어하는 믹싱 계수와, 다운믹스 신호의 제2 채널로부터 출력 신호의 제2 채널로의 기여를 제어하는 믹싱 계수의 합이 값 1을 갖도록 결정될 수 있다.
예시적인 실시예에서, 제1 그룹은 2개 또는 3개의 채널로 구성될 수 있다. 4개 이상의 채널들의 선형 조합에 대응하기보다는, 2개 또는 3개의 채널의 선형 조합에 대응하는 다운믹스 신호의 채널들은 모든 M개의 채널의 파라메트릭 재구성을 수행하는 디코더에 의해 재구성된 M-채널 오디오 신호의 충실도를 증가시킬 수 있다. 본 예시적인 실시예의 디코딩 방법은 이러한 코딩 포맷과 호환 가능할 수 있다.
예시적인 실시예에서, M-채널 오디오 신호는 M-채널 오디오 신호에 대한 재생 환경에서 상이한 수평 방향들을 나타내는 3개의 채널 및 재생 환경에서 3개의 채널의 방향들과 수직으로 분리된 방향들을 나타내는 2개의 채널을 포함할 수 있다. 다시 말해서, M-채널 오디오 신호는 청취자(또는 청취자의 귀)와 실질적으로 동일한 높이에 위치하고 및/또는 실질적으로 수평으로 전파하는 오디오 소스에 의한 재생을 위한 3개의 채널, 및 다른 높이들에 위치하고 및/또는 (실질적으로) 비수평으로 전파하는 오디오 소스들에 의한 재생을 위한 2개의 채널을 포함할 수 있다. 이 2개의 채널은 예를 들어 상승된 방향들을 나타낼 수 있다
예시적인 실시예에서, 제1 그룹은 M-채널 오디오 신호에 대한 재생 환경에서 상이한 수평 방향들을 나타내는 3개의 채널로 구성될 수 있고, 제2 그룹은 재생 환경에서 3개의 채널의 방향들과 수직으로 분리된 방향들을 나타내는 2개의 채널로 구성될 수 있다. 본 예시적인 실시예에서 제1 및 제2 그룹들에 의해 제공된 M-채널 오디오 신호의 수직 파티션은, 예를 들어 수직 차원이 M-채널 오디오 신호에 의해 표현된 음장의 전체적인 인상에 중요할 경우에, 모든 M개의 채널의 파라메트릭 재구성을 수행하는 디코더에 의해 재구성된 M-채널 오디오 신호의 충실도를 증가시킬 수 있다. 본 예시적인 실시예의 디코딩 방법은 이러한 수직 파티션을 제공하는 코딩 포맷과 호환 가능할 수 있다.
예시적인 실시예에서, 제3 및 제4 그룹들 중 하나는 재생 환경에서 3개의 채널의 방향들과 수직으로 분리된 방향들을 나타내는 2개의 채널 모두를 포함할 수 있다. 대안적으로, 제3 및 제4 그룹들 각각은 재생 환경에서 3개의 채널의 방향들과 수직으로 분리된 방향들을 나타내는 2개의 채널 중 하나를 포함할 수 있다(즉, 제3 및 제4 그룹들은 이들 2개의 채널 중 각각 하나를 포함할 수 있다.
예시적인 실시예에서, 상관성 제거된 신호는, 다운믹스 신호의 채널들의 선형 조합을 처리함으로써(예를 들어, 다운믹스 신호 채널들의 채널들의 선형 조합에 선형 필터를 적용하는 것을 포함하여) 획득될 수 있다. 대안적으로, 상관성 제거된 신호는 다운믹스 신호의 채널들 중 단지 하나에 기초하여, 다운믹스 신호의 채널을 처리함으로써(예를 들어, 선형 필터를 적용하는 것을 포함하여) 획득될 수 있다. 예를 들어, 채널들의 제2 그룹이 단일-채널로 구성되고 다운믹스 신호의 제2 채널이 이 단일-채널에 대응하면, 상관성 제거된 신호는 예를 들어 다운믹스 신호의 제1 채널만을 처리함으로써 획득될 수 있다.
예시적인 실시예에서, 제1 그룹은 N개의 채널(여기서 N ≥ 3)로 구성될 수 있고, 제1 그룹은 본 명세서에서 건식(dry) 업믹스 계수들로 지칭되는 제1 유형의 업믹스 계수들을 다운믹스 신호의 제1 채널에 적용하고, 본 명세서에서 습식(wet) 업믹스 계수들로 지칭되는 제2 유형의 업믹스 계수들을 (N-1)-채널 상관성 제거된 신호의 채널들에 적용함으로써 (N-1)-채널 상관성 제거된 신호와 다운믹스 신호의 제1 채널의 선형 조합으로서 재구성될 수 있다. 본 예시적인 실시예에서, 수신된 메타데이터는 본 명세서에서 건식 업믹스 파라미터들로 지칭되는 제1 유형의 업믹스 파라미터들, 및 본 명세서에서 습식 업믹스 파라미터들로 지칭되는 제2 유형의 업믹스 파라미터들을 포함할 수 있다. 상기 믹싱 계수들을 결정하는 단계는: 상기 건식 업믹스 파라미터들에 기초하여, 상기 건식 업믹스 계수들을 결정하는 단계; 수신된 습식 업믹스 파라미터들의 수보다 많은 원소들을 갖는 중간 행렬을, 상기 중간 행렬이 미리 정의된 행렬 클래스에 속한다는 것을 아는 것 및 상기 수신된 습식 업믹스 파라미터들에 기초하여, 채우는 단계; 상기 중간 행렬을 미리 정의된 행렬과 곱함으로써 상기 습식 업믹스 계수들을 획득하는 단계 - 상기 습식 업믹스 계수들은 상기 곱셈으로부터 생성된 행렬에 대응하고 상기 중간 행렬 내의 원소들의 수보다 많은 계수들을 포함함 -; 및 상기 습식 및 건식 업믹스 계수들을 처리하는 단계를 포함할 수 있다.
본 예시적인 실시예에서, 상기 채널들의 제1 그룹을 재구성하기 위한 습식 업믹스 계수들의 수는 수신된 습식 업믹스 파라미터들의 수보다 크다. 수신된 습식 업믹스 파라미터들로부터 습식 업믹스 계수들을 획득하기 위해 미리 정의된 행렬 및 미리 정의된 행렬 클래스에 대한 지식을 이용함으로써, 채널들의 제1 그룹의 파라메트릭 재구성에 필요한 정보의 양이 감소될 수 있어, 인코더 측으로부터 다운믹스 신호와 함께 송신되는 메타데이터의 양의 감소를 가능하게 한다. 파라메트릭 재구성을 위해 필요한 데이터의 양을 감소시킴으로써, M-채널 오디오 신호의 파라메트릭 표현의 송신에 필요한 대역폭, 및/또는 그러한 표현을 저장하기 위해 필요한 메모리 크기가 감소될 수 있다.
(N-1)-채널 상관성 제거된 신호는 다운믹스 신호의 제1 채널에 기초하여 생성될 수 있고, 청취자에 의해 지각되는, 재구성된 채널들의 제1 그룹의 콘텐츠의 차원성을 증가시키는 역할을 한다.
미리 정의된 행렬 클래스는 행렬 원소들 중 일부 사이의 특정 관계, 또는 0인 일부 행렬 원소들과 같은, 클래스 내의 모든 행렬에 대해 유효한 적어도 일부 행렬 원소들의 알려진 속성들과 관련될 수 있다. 이러한 속성들에 대한 지식은 중간 행렬 내의 행렬 원소들의 전체 수보다 적은 수의 습식 업믹스 파라미터에 기초하여 중간 행렬을 채우는 것을 가능하게 한다. 디코더 측은 적어도 더 적은 수의 습식 업믹스 파라미터에 기초하여 모든 행렬 원소를 계산하는 데 필요한 원소들의 속성들 및 원소들 간의 관계에 대한 지식을 갖는다.
미리 정의된 행렬 및 미리 정의된 행렬 클래스를 결정하고 사용하는 방법은 미국 가출원 제61/974,544호(처음 거명된 발명자: Lars Villemoes; 출원일: 2014년 4월 3일)의 16페이지, 15행 내지 20페이지, 2행에 더 상세히 기술되어 있다. 특히 미리 정의된 행렬의 예들에 대해서는 수학식 9를 참조한다.
예시적인 실시예에서, 수신된 메타데이터는 N(N-1)/2개의 습식 업믹스 파라미터들을 포함할 수 있다. 본 예시적인 실시예에서, 중간 행렬을 채우는 단계는 그 중간 행렬이 미리 정의된 행렬 클래스에 속한다는 것을 아는 것 및 수신된 N(N-1)/2개의 습식 업믹스 파라미터들에 기초하여 (N-1)2개의 행렬 원소에 대한 값들을 획득하는 단계를 포함할 수 있다. 이는 습식 업믹스 파라미터들의 값들을 행렬 원소들로서 즉시 삽입하거나, 행렬 원소들에 대한 값들을 도출하기 위해 적합한 방식으로 습식 업믹스 파라미터들을 처리하는 것을 포함할 수 있다. 본 예시적인 실시예에서, 미리 정의된 행렬은 N(N-1)개의 원소들을 포함할 수 있고, 습식 업믹스 계수들의 세트는 N(N-1)개의 계수를 포함할 수 있다. 예를 들어, 수신된 메타데이터는 단지 N(N-1)/2개의 독립적으로 할당 가능한 습식 업믹스 파라미터를 포함할 수 있고 및/또는 습식 업믹스 파라미터들의 수는 단지 채널들의 제1 그룹을 재구성하기 위한 습식 업믹스 계수들의 수의 절반에 불과할 수 있다.
예시적인 실시예에서, 수신된 메타데이터는 (N-1)개의 건식 업믹스 파라미터를 포함할 수 있다. 본 예시적인 실시예에서, 상기 건식 업믹스 계수들은 N개의 계수를 포함할 수 있고, 상기 건식 업믹스 계수들은 상기 수신된 (N-1)개의 건식 업믹스 파라미터들에 기초하여 그리고 상기 건식 업믹스 계수들 간의 미리 정의된 관계에 기초하여 결정될 수 있다. 예를 들어, 수신된 메타데이터는 단지 (N-1)개의 독립적으로 할당 가능한 건식 업믹스 파라미터들을 포함할 수 있다.
예시적인 실시예에서, 상기 미리 정의된 행렬 클래스는: 클래스 내의 모든 행렬들의 알려진 속성들이 0인 미리 정의된 행렬 원소들을 포함하는, 하삼각 또는 상삼각 행렬들; 클래스 내의 모든 행렬들의 알려진 속성들이 같은 (주 대각선의 양측에) 미리 정의된 행렬 원소들을 포함하는, 대칭 행렬들; 및 클래스 내의 모든 행렬들의 알려진 속성들이 미리 정의된 행렬 원소들 간에 알려진 관계들을 포함하는, 직교 행렬 및 대각 행렬의 곱들 중 하나일 수 있다. 다시 말해서, 미리 정의된 행렬 클래스는 하삼각 행렬들의 클래스, 상삼각 행렬들의 클래스, 대칭 행렬들의 클래스 또는 직교 행렬과 대각 행렬의 곱들의 클래스일 수 있다. 상기 클래스들 각각의 공통 속성은 그의 차원이 행렬 원소들의 전체 수보다 적다는 점이다.
예시적인 실시예에서, 상기 디코딩 방법은 상기 M-채널 오디오 신호의 적어도 2개의 코딩 포맷 중 (선택된) 하나를 지시하는 시그널링을 수신하는 단계를 추가로 포함할 수 있고, 상기 코딩 포맷들은 다운믹스 신호의 채널들과 관련된 각각의 제1 및 제2 그룹들로의 상기 M-채널 오디오 신호의 채널들의 각각의 상이한 파티션들에 대응한다. 본 예시적인 실시예에서, 제3 및 제4 그룹들은 미리 정의될 수 있고, 믹싱 계수들은 출력 신호의 채널들에 의해 근사화된, 채널들의 제3 및 제4 그룹들로의 상기 M-채널 오디오 신호의 단일 파티션이 상기 적어도 2개의 코딩 포맷에 대해 유지되도록(즉, 공통이도록) 결정될 수 있다.
본 예시적인 실시예에서, 상관성 제거된 신호는 예를 들어 지시된 코딩 포맷 및 다운믹스 신호의 적어도 하나의 채널에 기초하여 결정될 수 있다.
본 예시적인 실시예에서, 상기 적어도 2개의 상이한 코딩 포맷은 다운믹스 신호 및 메타데이터를 결정할 때 인코더 측에서 사용될 수 있으며, 상기 디코딩 방법은 믹싱 계수들, 및 옵션으로 또한 상관성 제거된 신호를 조정함으로써 코딩 포맷 간의 차이들을 처리할 수 있다. 제1 코딩 포맷으로부터 제2 코딩 포맷으로의 전환이 검출되는 경우, 상기 디코딩 방법은 예를 들어 제1 코딩 포맷과 관련된 믹싱 파라미터들로부터 제2 코딩 포맷과 관련된 믹싱 파라미터들로 보간을 수행하는 단계를 포함할 수 있다.
예시적인 실시예에서, 상기 디코딩 방법은: 특정 코딩 포맷을 지시하는 시그널링에 응답하여, 상기 다운믹스 신호를 상기 출력 신호로서 통과시키는 단계를 추가로 포함할 수 있다. 본 예시적인 실시예에서, 특정 코딩 포맷은 제3 및 제4 그룹들이 정의하는 파티션과 일치하는 M-채널 오디오 신호의 채널들의 파티션에 대응할 수 있다. 본 예시적인 실시예에서, 다운믹스 신호의 채널들에 의해 제공되는 파티션은 출력 신호의 채널들에 의해 제공될 파티션과 일치할 수 있고, 다운믹스 신호를 처리할 필요가 없을 수 있다. 따라서, 다운믹스 신호는 출력 신호로서 통과될 수 있다.
예시적인 실시예에서, 상기 디코딩 방법은: 특정 코딩 포맷을 지시하는 시그널링에 응답하여, 상기 상관성 제거된 신호로부터 상기 출력 신호로의 기여를 억제하는 단계를 포함할 수 있다. 본 예시적인 실시예에서, 특정 코딩 포맷은 제3 및 제4 그룹들이 정의하는 파티션과 일치하는 M-채널 오디오 신호의 채널들의 파티션에 대응할 수 있다. 본 예시적인 실시예에서, 다운믹스 신호의 채널들에 의해 제공되는 파티션은 출력 신호의 채널들에 의해 제공되는 파티션과 일치할 수 있고, 상관성 제거의 필요가 없을 수 있다.
예시적인 실시예에서, 제1 코딩 포맷에서, 제1 그룹은 M-채널 오디오 신호에 대한 재생 환경에서 상이한 수평 방향들을 나타내는 3개의 채널로 구성될 수 있고, 채널들의 제2 그룹은 재생 환경에서 3개의 채널의 방향들과 수직으로 분리된 방향들을 나타내는 2개의 채널로 구성될 수 있다. 제2 코딩 포맷에서, 제1 및 제2 그룹들 각각은 2개의 채널 중 하나를 포함할 수 있다.
본 발명의 예시적인 실시예들에 따르면, 2-채널 다운믹스 신호를 수신하도록 구성된 디코딩 섹션을 포함하는 오디오 디코딩 시스템이 제공된다. 다운믹스 신호는 다운믹스 신호에 기초한 M-채널 오디오 신호의 파라메트릭 재구성을 위한 업믹스 파라미터들을 포함하는 메타데이터와 관련되며, 여기서 M ≥ 4이다. 상기 다운믹스 신호의 제1 채널은 상기 M-채널 오디오 신호의 하나 이상의 채널의 제1 그룹의 선형 조합에 대응하고, 상기 다운믹스 신호의 제2 채널은 M-채널 오디오 신호의 하나 이상의 채널의 제2 그룹의 선형 조합에 대응한다. 제1 및 제2 그룹들은 M-채널 오디오 신호의 M개의 채널의 파티션을 구성한다. 상기 디코딩 섹션은: 상기 메타데이터의 적어도 일부를 수신하고; 다운믹스 신호 및 수신된 메타데이터에 기초하여 2-채널 출력 신호를 제공하도록 추가로 구성된다. 상기 디코딩 섹션은 다운믹스 신호의 적어도 하나의 채널을 수신하고, 그에 기초하여, 상관성 제거된 신호를 출력하도록 구성된 상관성 제거 섹션을 포함한다. 상기 디코딩 섹션은: 상기 수신된 메타데이터에 기초하여 믹싱 계수들의 세트를 결정하고, 상기 믹싱 계수들에 따라 상기 다운믹스 신호 및 상기 상관성 제거된 신호의 선형 조합으로서 상기 출력 신호를 형성하도록 구성된 믹싱 섹션을 추가로 포함한다. 상기 믹싱 섹션은 출력 신호의 제1 채널이 M-채널 오디오 신호의 하나 이상의 채널의 제3 그룹의 선형 조합에 근사화하도록, 그리고 출력 신호의 제2 채널이 M-채널 오디오 신호의 하나 이상의 채널의 제4 그룹의 선형 조합에 근사화하도록 믹싱 계수들을 결정하도록 구성된다. 상기 믹싱 섹션은 제3 및 제4 그룹들이 M-채널 오디오 신호의 M개의 채널의 파티션을 구성하도록, 그리고 제3 및 제4 그룹들 모두가 제1 그룹으로부터의 적어도 하나의 채널을 포함하도록 믹싱 계수들을 결정하도록 추가로 구성된다.
예시적인 실시예에서, 상기 오디오 디코딩 시스템은 추가적인 2-채널 다운믹스 신호를 수신하도록 구성된 추가적인 디코딩 섹션을 추가로 포함할 수 있다. 추가적인 다운믹스 신호는 추가적인 다운믹스 신호에 기초한 추가적인 M-채널 오디오 신호의 파라메트릭 재구성을 위한 추가적인 업믹스 파라미터들을 포함하는 추가적인 메타데이터와 관련될 수 있다. 상기 추가적인 다운믹스 신호의 제1 채널은 상기 추가적인 M-채널 오디오 신호의 하나 이상의 채널의 제1 그룹의 선형 조합에 대응할 수 있고, 상기 추가적인 다운믹스 신호의 제2 채널은 상기 추가적인 M-채널 오디오 신호의 하나 이상의 채널의 제2 그룹의 선형 조합에 대응할 수 있다. 추가적인 M-채널 오디오 신호의 채널들의 제1 및 제2 그룹들은 추가적인 M-채널 오디오 신호의 M개의 채널의 파티션을 구성할 수 있다. 추가적인 디코딩 섹션은: 추가적인 메타데이터의 적어도 일부를 수신하고; 추가적인 다운믹스 신호 및 추가적인 수신된 메타데이터에 기초하여 추가적인 2-채널 출력 신호를 제공하도록 추가로 구성될 수 있다. 상기 추가적인 디코딩 섹션은 상기 추가적인 다운믹스 신호의 적어도 하나의 채널을 수신하고, 그에 기초하여, 추가적인 상관성 제거된 신호를 출력하도록 구성된 추가적인 상관성 제거 섹션을 포함할 수 있다. 상기 추가적인 디코딩 섹션은: 상기 수신된 추가적인 메타데이터에 기초하여 추가적인 믹싱 계수들의 세트를 결정하고, 추가적인 믹싱 계수들에 따라 상기 추가적인 다운믹스 신호 및 상기 추가적인 상관성 제거된 신호의 선형 조합으로서 상기 추가적인 출력 신호를 형성하도록 구성된 추가적인 믹싱 섹션을 추가로 포함할 수 있다. 상기 추가적인 믹싱 섹션은 추가적인 출력 신호의 제1 채널이 추가적인 M-채널 오디오 신호의 하나 이상의 채널의 제3 그룹의 선형 조합에 근사화하도록, 그리고 추가적인 출력 신호의 제2 채널이 추가적인 M-채널 오디오 신호의 하나 이상의 채널의 제4 그룹의 선형 조합에 근사화하도록 추가적인 믹싱 계수들을 결정하도록 구성될 수 있다. 상기 추가적인 믹싱 섹션은 추가적인 M-채널 오디오 신호의 채널들의 제3 및 제4 그룹들이 추가적인 M-채널 오디오 신호의 M개의 채널의 파티션을 구성하도록, 그리고 추가적인 M-채널 오디오 신호의 채널들의 제3 및 제4 그룹들 모두가 추가적인 M-채널 오디오 신호의 채널들의 제1 그룹으로부터의 적어도 하나의 채널을 포함하도록 추가적인 믹싱 계수들을 결정하도록 추가로 구성될 수 있다.
본 예시적인 실시예에서, 추가적인 디코딩 섹션, 추가적인 상관성 제거 섹션 및 추가적인 믹싱 섹션은 예를 들어 각각 디코딩 섹션, 상관성 제거 섹션 및 믹싱 섹션과 기능적으로 동등할 수 있다(또는 그와 유사하게 구성될 수 있다). 대안적으로, 추가적인 디코딩 섹션, 추가적인 상관성 제거 섹션 및 추가적인 믹싱 섹션 중 적어도 하나는 예를 들어 디코딩 섹션, 상관성 제거 섹션 및 믹싱 섹션의 대응하는 섹션에 의해 수행되는 것과는 적어도 하나의 상이한 유형의 계산 및/또는 보간을 수행하도록 구성될 수 있다.
본 예시적인 실시예에서, 추가적인 디코딩 섹션, 추가적인 상관성 제거 섹션 및 추가적인 믹싱 섹션은 예를 들어 디코딩 섹션, 상관성 제거 섹션 및 믹싱 섹션과 독립적으로 동작 가능할 수 있다.
예시적인 실시예에서, 상기 디코딩 시스템은 비트스트림으로부터: 다운믹스 신호, 메타데이터의 적어도 일부, 및 이산적으로 코딩된 오디오 채널을 추출하도록 구성된 디멀티플렉서를 추가로 포함할 수 있다. 상기 디코딩 시스템은 상기 이산적으로 코딩된 오디오 채널을 디코딩하도록 동작 가능한 단일-채널 디코딩 섹션을 추가로 포함할 수 있다. 상기 이산적으로 코딩된 오디오 채널은 예를 들어 Dolby Digital 또는 MPEG AAC와 같은 지각 오디오 코덱을 사용하여 비트스트림으로 인코딩될 수 있으며, 단일-채널 디코딩 섹션은 예를 들어 상기 이산적으로 코딩된 오디오 채널을 디코딩하기 위한 코어 디코더를 포함할 수 있다. 단일-채널 디코딩 섹션은 예를 들어 디코딩 섹션과 독립적으로 상기 이산적으로 코딩된 오디오 채널을 디코딩하도록 동작 가능할 수 있다.
예시적인 실시예에 따르면, 상기 제1 양태의 방법들 중 임의의 것을 수행하기 위한 명령들을 갖는 컴퓨터 판독 가능 매체를 포함하는 컴퓨터 프로그램 제품이 제공된다.
전술한 제1 양태의 오디오 디코딩 시스템, 방법, 및 컴퓨터 프로그램 제품의 예시적인 실시예들에 따르면, 출력 신호는 2-채널 신호 대신에 K-채널 신호(여기서 2 ≤ K < M)일 수 있고, 출력 신호의 K개의 채널은 2개의 그룹으로의 M-채널 신호의 파티션에 대응하는 출력 신호의 2개의 채널 대신에 K개의 그룹으로의 M-채널 오디오 신호의 파티션에 대응할 수 있다.
더 구체적으로, 예시적인 실시예들에 따르면, 2-채널 다운믹스 신호를 수신하는 단계를 포함하는 오디오 디코딩 방법이 제공된다. 상기 다운믹스 신호는 다운믹스 신호에 기초한 M-채널 오디오 신호의 파라메트릭 재구성을 위한 업믹스 파라미터들을 포함하는 메타데이터와 관련되며, 여기서 M ≥ 4이다. 상기 다운믹스 신호의 제1 채널은 상기 M-채널 오디오 신호의 하나 이상의 채널의 제1 그룹의 선형 조합에 대응하고, 상기 다운믹스 신호의 제2 채널은 M-채널 오디오 신호의 하나 이상의 채널의 제2 그룹의 선형 조합에 대응한다. 제1 및 제2 그룹들은 M-채널 오디오 신호의 M개의 채널의 파티션을 구성한다. 상기 오디오 디코딩 방법은: 상기 메타데이터의 적어도 일부를 수신하는 단계; 상기 다운믹스 신호의 적어도 하나의 채널에 기초하여 상관성 제거된 신호를 생성하는 단계; 상기 수신된 메타데이터에 기초하여 믹싱 계수들의 세트를 결정하는 단계; 및 상기 믹싱 계수들에 따라 상기 다운믹스 신호 및 상기 상관성 제거된 신호의 선형 조합으로서 K-채널 출력 신호를 형성하는 단계를 추가로 포함하며, 2 ≤ K < M이다. 상기 믹싱 계수들은 출력 신호의 K개의 채널 각각이 M-채널 오디오 신호의 하나 이상의 채널의 그룹의 선형 조합에 근사화하도록(따라서 출력 신호의 K개의 채널 각각이 M-채널 오디오 신호의 하나 이상의 채널의 그룹에 대응하도록) 결정될 수 있고, 출력 신호의 각각의 채널들에 대응하는 그룹들은 하나 이상의 채널의 K개의 그룹으로의 M-채널 오디오 신호의 M개의 채널의 파티션을 구성하고; 상기 K개의 그룹 중 적어도 2개는 상기 제1 그룹으로부터의 적어도 하나의 채널을 포함한다.
M-채널 오디오 신호는 2-채널 다운믹스 신호 및 M-채널 오디오 신호의 파라메트릭 재구성을 위한 업믹스 파라미터들로서 인코딩되었다. 인코더 측에서 M-채널 오디오 신호를 인코딩할 때, 코딩 포맷은 예를 들어, 다운믹스 신호로부터 M-채널 오디오 신호의 재구성을 용이하게 하기 위해, 다운믹스 신호로부터 재구성된 M-채널 오디오 신호의 충실도를 향상시키기 위해, 및/또는 다운믹스 신호의 코딩 효율을 향상시키기 위해 선택될 수 있다. 이러한 코딩 포맷의 선택은 제1 및 제2 그룹들을 선택하고 각각의 그룹들 내의 채널들의 각각의 선형 조합들로서 다운믹스 신호들의 채널들을 형성함으로써 수행될 수 있다.
본 발명자들은 선택된 코딩 포맷이 다운믹스 신호로부터의 M-채널 오디오 신호의 재구성을 용이하게 할 수 있지만, 다운믹스 신호는 그 자체가 특정 K-스피커 구성을 사용하는 재생에 적합하지 않을 수 있음을 깨달았다. K개의 그룹으로의 M-채널 오디오 신호의 파티션에 대응하는 K-채널 출력 신호는 다운믹스 신호보다 특정 K-채널 재생 설정에 더 적합할 수 있다. 따라서, 다운믹스 신호 및 수신된 메타데이터에 기초하여 출력 신호를 제공하는 것은 청취자에 의해 지각되는 K-채널 재생 품질을 향상시킬 수 있고, 및/또는 M-채널 오디오 신호에 의해 표현된 음장에 대한 K-채널 재생 충실도를 향상시킬 수 있다.
본 발명자들은 다운믹스 신호로부터 M-채널 오디오 신호를 먼저 재구성한 다음 M-채널 오디오 신호의 K-채널 표현을 생성하는(예를 들면, 가산 믹싱에 의해) 대신에, 상기 출력 신호에 의해 제공된 K-채널 표현은 M-채널 오디오 신호의 일부 채널들이 제공될 K-채널 표현 및 다운믹스 신호에 의해 제공된 2-채널 표현에서 유사하게 함께 그룹화된다는 사실을 이용함으로써 다운믹스 신호 및 수신된 메타데이터로부터 더 효율적으로 생성될 수 있다는 것을 추가로 깨달았다. 다운믹스 신호 및 상관성 제거된 신호의 선형 조합으로서 출력 신호를 형성하는 것은 예를 들어 디코더 측에서의 계산 복잡성을 감소시킬 수 있고 및/또는 M-채널 오디오 신호의 K-채널 표현을 획득하기 위해 사용되는 컴포넌트 또는 처리 단계의 수를 감소시킬 수 있다.
K개의 그룹이 M-채널 오디오 신호의 채널들의 파티션을 구성하는 것은, K개의 그룹은 서로소이고(disjoint) M-채널 오디오 신호의 모든 채널들을 함께 포함한다는 것을 의미한다.
K-채널 출력 신호를 형성하는 것은 예를 들어 믹싱 계수들의 적어도 일부를 다운믹스 신호의 채널들에 적용하고, 믹싱 계수들의 적어도 일부를 상관성 제거된 신호의 하나 이상의 채널에 적용하는 것을 포함할 수 있다.
다운믹스 신호의 제1 및 제2 채널들은 예를 들어 하나 이상의 채널의 제1 및 제2 그룹들 내의 채널들의 (가중된 또는 비가중된) 합들에 각각 대응할 수 있다.
출력 신호의 K개의 채널은 예를 들어 하나 이상의 채널의 K개의 그룹 내의 채널들의 (가중된 또는 비가중된) 합들에 근사화할 수 있다.
일부 예시적인 실시예에서, K = 2, K = 3, 또는 K = 4이다.
일부 예시적인 실시예에서, M = 5, 또는 M = 6이다.
예시적인 실시예에서, 상관성 제거된 신호는 2-채널 신호일 수 있고, 출력 신호는 다운믹스 신호 및 상관성 제거된 신호의 선형 조합에, 즉 출력 신호가 획득되는 선형 조합에 단지 2개의 상관성 제거된 신호 채널을 포함시킴으로써 형성될 수 있다. 본 발명자들은 2-채널 출력 신호를 제공하기 위해 M-채널 오디오 신호를 재구성할 필요가 없고, 전체 M-채널 오디오 신호가 재구성될 필요가 없으므로, 상관성 제거된 신호 채널의 수가 감소될 수 있다는 것을 깨달았다.
예시적인 실시예에서, K = 3이고, 출력 신호를 형성하는 것은 4개의 채널로부터 3개의 채널로의 투영, 즉 다운믹스 신호의 2개의 채널 및 2개의 상관성 제거된 신호 채널로부터의 출력 신호의 3개의 채널로의 투영에 상당할 수 있다. 예를 들어, 출력 신호는 M-채널 오디오 신호의 전체 M개의 채널을 먼저 재구성하지 않고 다운믹스 신호 및 상관성 제거된 신호의 선형 조합으로서 직접 획득될 수 있다.
예시적인 실시예에서, 믹싱 계수들은 출력 신호의 채널들의 쌍이 상관성 제거된 신호의 채널로부터 동일한 크기(예를 들어, 동일한 진폭)의 기여들을 수신하도록 결정될 수 있다. 상관성 제거된 신호의 이 채널로부터 쌍의 각각의 채널로의 기여들은 반대 부호들을 가질 수 있다. 다시 말해서, 믹싱 계수들은 상관성 제거된 신호의 채널로부터 출력 신호의 (예를 들어, 제1) 채널로의 기여를 제어하는 믹싱 계수와, 상관성 제거된 신호의 동일한 채널로부터 출력 신호의 또 다른(예를 들어, 제2) 채널로의 기여를 제어하는 믹싱 계수의 합이 값 0을 갖도록 결정될 수 있다. K-채널 출력 신호는 예를 들어 상관성 제거된 신호의 이 특정 채널로부터 어떠한 기여도 수신하지 않는 하나 이상의 채널을 포함할 수 있다.
예시적인 실시예에서, 믹싱 계수들은 다운믹스 신호의 제1 채널로부터 출력 신호의 (예를 들어, 제1) 채널로의 기여를 제어하는 믹싱 계수와, 다운믹스 신호의 제1 채널로부터 출력 신호의 또 다른(예를 들어, 제2) 채널로의 기여를 제어하는 믹싱 계수의 합이 값 1을 갖도록 결정될 수 있다. 특히, 믹싱 계수들 중 하나는 예를 들어 업믹스 파라미터들로부터 도출 가능할 수 있고(예를 들어, 이 개시의 다른 섹션들에서 설명된 바와 같이, 콤팩트한 표현에 대해 계산을 수행한 후 업믹스 파라미터들로부터 획득 가능하거나 명시적인 값으로서 전송될 수 있고), 다른 하나는 양쪽 모두의 믹싱 계수들의 합이 1과 같도록 요구함으로써 쉽게 계산될 수 있다. K-채널 출력 신호는 예를 들어 다운믹스 신호의 제1 채널로부터 어떠한 기여도 수신하지 않는 하나 이상의 채널을 포함할 수 있다.
예시적인 실시예에서, 믹싱 계수들은 다운믹스 신호의 제2 채널로부터 출력 신호의 (예를 들어, 제1) 채널로의 기여를 제어하는 믹싱 계수와, 다운믹스 신호의 제2 채널로부터 출력 신호의 또 다른(예를 들어, 제2) 채널로의 기여를 제어하는 믹싱 계수의 합이 값 1을 갖도록 결정될 수 있다. K-채널 출력 신호는 예를 들어 다운믹스 신호의 제2 채널로부터 어떤 기여도 수신하지 않는 하나 이상의 채널을 포함할 수 있다.
예시적인 실시예에서, 상기 방법은 M-채널 오디오 신호의 적어도 2개의 코딩 포맷 중 (선택된) 하나를 지시하는 시그널링을 수신하는 단계를 포함할 수 있다. 코딩 포맷들은 다운믹스 신호의 채널들과 관련된 각각의 제1 및 제2 그룹들로의 M-채널 오디오 신호의 채널들의 각각의 상이한 파티션들에 대응할 수 있다. K개의 그룹은 미리 정의될 수 있다. 믹싱 계수들은 출력 신호의 채널들에 의해 근사화된, 채널들의 K개의 그룹으로의 M-채널 오디오 신호의 단일 파티션이 상기 적어도 2개의 코딩 포맷에 대해 유지되도록(즉, 공통이도록) 결정될 수 있다.
예시적인 실시예에서, 상관성 제거된 신호는 2개의 채널을 포함할 수 있다. 상관성 제거된 신호의 제1 채널은 다운믹스 신호의 제1 채널에 기초하여, 예를 들어 단지 다운믹스 신호의 제1 채널을 처리함으로써 획득될 수 있다. 상관성 제거된 신호의 제2 채널은 다운믹스 신호의 제2 채널에 기초하여, 예를 들어, 단지 다운믹스 신호의 제2 채널을 처리함으로써 획득될 수 있다.
II. 개요 - 인코더 측
제2 양태에 따르면, 예시적인 실시예들은 오디오 인코딩 시스템뿐만 아니라 오디오 인코딩 방법 및 관련된 컴퓨터 프로그램 제품을 제안한다. 제2 양태에 따른, 제안된 인코딩 시스템, 방법, 및 컴퓨터 프로그램 제품은 일반적으로 동일한 특징들 및 이점들을 공유할 수 있다. 또한, 제1 양태에 따른, 디코딩 시스템, 방법, 및 컴퓨터 프로그램 제품의 특징들에 대해 위에서 제시된 이점들은 일반적으로 제2 양태에 따른 인코딩 시스템, 방법, 및 컴퓨터 프로그램 제품의 대응하는 특징들에 대해 유효할 수 있다.
본 발명의 예시적인 실시예에 따르면, M-채널 오디오 신호(여기서 M ≥ 4)를 수신하는 단계; 및 상기 M-채널 오디오 신호에 기초하여 2-채널 다운믹스 신호를 계산하는 단계를 포함하는 오디오 인코딩 방법이 제공된다. 다운믹스 신호의 제1 채널은 M-채널 오디오 신호의 하나 이상의 채널의 제1 그룹의 선형 조합으로서 형성되고, 다운믹스 신호의 제2 채널은 M-채널 오디오 신호의 하나 이상의 채널의 제2 그룹의 선형 조합으로서 형성된다. 제1 및 제2 그룹들은 M-채널 오디오 신호의 M개의 채널의 파티션을 구성한다. 상기 인코딩 방법은: 상기 다운믹스 신호로부터 상기 M-채널 오디오 신호의 파라메트릭 재구성을 위한 업믹스 파라미터들을 결정하는 단계; 및 상기 다운믹스 신호에 기초하여, 2-채널 출력 신호를 획득하기 위한 믹싱 파라미터들을 결정하는 단계를 추가로 포함하고, 상기 출력 신호의 제1 채널은 상기 M-채널 오디오 신호의 하나 이상의 채널의 제3 그룹의 선형 조합에 근사화하고, 상기 출력 신호의 제2 채널은 상기 M-채널 오디오 신호의 하나 이상의 채널의 제4 그룹의 선형 조합에 근사화한다. 제3 및 제4 그룹들은 M-채널 오디오 신호의 M개의 채널의 파티션을 구성하고, 제3 및 제4 그룹들 모두는 제1 그룹으로부터의 적어도 하나의 채널을 포함한다. 상기 인코딩 방법은: 공동 저장 또는 송신을 위해 상기 다운믹스 신호 및 메타데이터를 출력하는 단계를 추가로 포함하며, 상기 메타데이터는 상기 업믹스 파라미터들 및 상기 믹싱 파라미터들을 포함한다.
다운믹스 신호의 채널들은 제1 및 제2 그룹들로의 M-채널 오디오 신호의 M개의 채널의 파티션에 대응하며, 예를 들어 M-채널 오디오 신호의 비트 효율적인 2-채널 표현 및/또는 M-채널 오디오 신호의 고충실도 파라메트릭 재구성을 가능하게 하는 2-채널 표현을 제공할 수 있다.
본 발명자들은 사용된 2-채널 표현이 다운믹스 신호로부터의 M-채널 오디오 신호의 재구성을 용이하게 할 수 있지만, 다운믹스 신호는 그 자체가 특정 2-스피커 배열을 사용하는 재생에 적합하지 않을 수 있음을 깨달았다. 다운믹스 신호 및 업믹스 파라미터들과 함께 출력되는 믹싱 파라미터들은 다운믹스 신호에 기초하여 2-채널 출력 신호를 획득하는 것을 가능하게 한다. 채널들의 제3 및 제4 그룹들로의 M-채널 오디오 신호의 상이한 파티션에 대응하는 출력 신호는 다운믹스 신호보다 특정 2-채널 재생 설정에 더 적합할 수 있다. 따라서, 다운믹스 신호 및 믹싱 파라미터들에 기초하여 출력 신호를 제공하는 것은 청취자에 의해 지각되는 2-채널 재생 품질을 향상시킬 수 있고, 및/또는 M-채널 오디오 신호에 의해 표현된 음장에 대한 2-채널 재생의 충실도를 향상시킬 수 있다.
다운믹스 신호의 제1 채널은 예를 들어 제1 그룹 내의 채널들의 합으로서, 또는 그의 스케일링으로서 형성될 수 있다. 다시 말해서, 다운믹스 신호의 제1 채널은 예를 들어 제1 그룹 내의 채널들의 합(즉, 예를 들어, 샘플 단위로 또는 변환-계수 단위로 가산 믹싱에 의해 형성된, 각각의 채널들로부터의 오디오 콘텐츠의 합)으로서, 또는 이러한 합의 리스케일링된 버전(예를 들어, 채널들을 합산하고 그 합을 리스케일링 팩터와 곱하는 것에 의해 획득된)으로서 형성될 수 있다. 유사하게, 다운믹스 신호의 제2 채널은 예를 들어 제2 그룹 내의 채널들의 합으로서, 또는 그의 스케일링으로서 형성될 수 있다. 출력 신호의 제1 채널은 예를 들어 제3 그룹 내의 채널들의 합, 또는 그의 스케일링에 근사화할 수 있고, 출력 신호의 제2 채널은 예를 들어 제4 그룹 내의 채널들의 합, 또는 그의 스케일링에 근사화할 수 있다.
예를 들어, M-채널 오디오 신호는 5-채널 오디오 신호일 수 있다. 상기 오디오 인코딩 방법은 예를 들어 현재 확립된 5.1 오디오 포맷들 중 하나의 5개의 정규 채널에 대해, 또는 11.1 멀티채널 오디오 신호에서 좌측 또는 우측의 5개의 채널에 대해 사용될 수 있다. 대안적으로, M = 4, 또는 M ≥ 6일 수도 있다.
예시적인 실시예에서, 믹싱 파라미터들은 다운믹스 신호로부터 및 상관성 제거된 신호로부터 출력 신호로의 각각의 기여들을 제어할 수 있다. 믹싱 파라미터들 중 적어도 일부는 출력 신호의 채널들이 각각 채널들의 제1 및 제2 그룹들의 선형 조합들(또는 합들)의 공분산 보존 근사화(covariance-preserving approximation)들이 되게 하는 믹싱 파라미터들 중에서 상관성 제거된 신호로부터의 기여를 최소화함으로써 결정될 수 있다. 상관성 제거된 신호로부터의 기여는 예를 들어 이 기여의 신호 에너지 또는 진폭이 최소화된다는 점에서 최소화될 수 있다.
출력 신호의 제1 채널이 근사화할 제3 그룹의 선형 조합과, 출력 신호의 제2 채널이 근사화할 제4 그룹의 선형 조합은 예를 들어 제1 공분산 행렬을 갖는 2-채널 오디오 신호에 대응할 수 있다. 채널들의 제1 및 제2 그룹들 각각의 선형 조합들의 공분산 보존 근사화들인 출력 신호의 채널들은 예를 들어 출력 신호의 공분산 행렬이 제1 공분산 행렬과 일치하는(또는 적어도 실질적으로 일치하는) 것에 대응할 수 있다.
공분산 보존 근사화들 중에서, 상관성 제거된 신호로부터의 기여의 감소된 크기(예를 들어, 에너지 또는 진폭)는 재생 동안 청취자에 의해 지각되는 근사화의 충실도의 증가를 나타낼 수 있다. 상관성 제거된 신호로부터의 기여를 감소시키는 믹싱 파라미터들을 사용하는 것은 M-채널 오디오 신호의 2-채널 표현으로서 출력 신호의 충실도를 향상시킬 수 있다.
예시적인 실시예에서, 채널들의 제1 그룹은 N개의 채널(여기서 N ≥ 3)로 구성될 수 있고, 업믹스 파라미터들 중 적어도 일부는 상기 다운믹스 신호의 제1 채널에 기초하여 결정된 (N-1)-채널 상관성 제거된 신호 및 상기 다운믹스 신호의 제1 채널로부터의 채널들의 제1 그룹의 파라메트릭 재구성에 적합할 수 있다. 본 예시적인 실시예에서, 업믹스 파라미터들을 결정하는 단계는: 채널들의 제1 그룹에 근사화하는 다운믹스 신호의 제1 채널의 선형 매핑을 정의하기 위해, 건식 업믹스 계수들로 지칭되는 제1 유형의 업믹스 계수들의 세트를 결정하는 단계; 및 상기 수신된 채널들의 제1 그룹의 공분산과, 상기 다운믹스 신호의 상기 제1 채널의 선형 매핑에 의해 근사화된 상기 채널들의 제1 그룹의 공분산 간의 차이에 기초하여 중간 행렬을 결정하는 단계를 포함할 수 있다. 미리 정의된 행렬과 곱해질 때, 상기 중간 행렬은 채널들의 제1 그룹의 파라메트릭 재구성의 일부로서 상관성 제거된 신호의 선형 매핑을 정의하는, 습식 업믹스 계수들로 지칭되는 제2 유형의 업믹스 계수들의 세트에 대응할 수 있다. 상기 습식 업믹스 계수들의 세트는 상기 중간 행렬 내의 원소들의 수보다 많은 계수들을 포함할 수 있다. 본 예시적인 실시예에서, 업믹스 파라미터들은 건식 업믹스 계수들의 세트가 도출 가능한, 건식 업믹스 파라미터들로 지칭되는 제1 유형의 업믹스 파라미터들, 및 상기 중간 행렬이 미리 정의된 행렬 클래스에 속한다면 상기 중간 행렬을 고유하게 정의하는, 습식 업믹스 파라미터들로 지칭되는 제2 유형의 업믹스 파라미터들을 포함할 수 있다. 상기 중간 행렬은 습식 업믹스 파라미터들의 수보다 많은 원소들을 가질 수 있다.
본 예시적인 실시예에서, 디코더 측에서 채널들의 제1 그룹의 파라메트릭 재구성 사본은, 하나의 기여로서, 다운믹스 신호의 제1 채널의 선형 매핑에 의해 형성된 건식 업믹스 신호, 및, 추가적인 기여로서, 상관성 제거된 신호의 선형 매핑에 의해 형성된 습식 업믹스 신호를 포함한다. 건식 업믹스 계수들의 세트는 다운믹스 신호의 제1 채널의 선형 매핑을 정의하고, 습식 업믹스 계수들의 세트는 상관성 제거된 신호의 선형 매핑을 정의한다. 습식 업믹스 계수들의 수보다 적은, 그리고 그로부터 미리 정의된 행렬 및 미리 정의된 행렬 클래스에 기초하여 습식 업믹스 계수들이 도출 가능한, 습식 업믹스 파라미터들을 출력함으로써, M-채널 오디오 신호의 재구성을 가능하게 하기 위해 디코더 측에 전송되는 정보의 양이 감소될 수 있다. 파라메트릭 재구성에 필요한 데이터의 양을 감소시킴으로써, M-채널 오디오 신호의 파라메트릭 표현의 송신에 필요한 대역폭, 및/또는 그러한 표현을 저장하기 위해 필요한 메모리 크기가 감소될 수 있다.
상기 중간 행렬은 예를 들어 상관성 제거된 신호의 선형 매핑에 의해 획득된 신호의 공분산이 다운믹스 신호의 제1 채널의 선형 매핑에 의해 근사화되는 채널들의 제1 그룹의 공분산을 보완하도록 결정될 수 있다.
미리 정의된 행렬 및 미리 정의된 행렬 클래스를 결정하고 사용하는 방법은 미국 가출원 제61/974,544호(처음 거명된 발명자: Lars Villemoes; 출원일: 2014년 4월 3일)의 16페이지, 15행 내지 20페이지, 2행에 더 상세히 기술되어 있다. 특히 미리 정의된 행렬의 예들에 대해서는 수학식 9를 참조한다.
예시적인 실시예에서, 중간 행렬을 결정하는 단계는 습식 업믹스 계수들의 세트에 의해 정의된 상관성 제거된 신호의 선형 매핑에 의해 획득된 신호의 공분산이 상기 수신된 채널들의 제1 그룹의 공분산과, 상기 다운믹스 신호의 상기 제1 채널의 선형 매핑에 의해 근사화된 상기 채널들의 제1 그룹의 공분산 간의 차이에 근사화하거나 그와 실질적으로 일치하도록 상기 중간 행렬을 결정하는 단계를 포함할 수 있다. 다시 말해서, 중간 행렬은 다운믹스 신호의 제1 채널의 선형 매핑에 의해 형성된 건식 업믹스 신호와 상관성 제거된 신호의 선형 매핑에 의해 형성된 습식 업믹스 신호의 합으로서 획득된, 채널들의 제1 그룹의 재구성 사본이 수신된 채널들의 제1 그룹의 공분산을 완전히, 또는 적어도 거의 복원하도록 결정될 수 있다.
예시적인 실시예에서, 상기 습식 업믹스 파라미터들은 단지 N(N-1)/2개의 독립적으로 할당 가능한 습식 업믹스 파라미터를 포함할 수 있다. 본 예시적인 실시예에서, 중간 행렬은 (N-1)2개의 행렬 원소를 가질 수 있고 중간 행렬이 미리 정의된 행렬 클래스에 속한다면 습식 업믹스 파라미터들에 의해 고유하게 정의될 수 있다. 본 예시적인 실시예에서, 습식 업믹스 계수들의 세트는 N(N-1)개의 계수를 포함할 수 있다.
예시적인 실시예에서, 상기 건식 업믹스 계수들의 세트는 N개의 계수를 포함할 수 있다. 본 예시적인 실시예에서, 건식 업믹스 파라미터들은 단지 N-1개의 건식 업믹스 파라미터를 포함할 수 있고, 건식 업믹스 계수들의 세트는 미리 정의된 규칙을 사용하여 N-1개의 건식 업믹스 파라미터로부터 도출 가능할 수 있다.
예시적인 실시예에서, 결정된 건식 업믹스 계수들의 세트는 채널들의 제1 그룹의 최소 평균 제곱 오차 근사화에 대응하는 다운믹스 신호의 제1 채널의 선형 매핑을 정의할 수 있고, 즉, 다운믹스 신호의 제1 채널의 선형 매핑들의 세트 중에서, 상기 결정된 건식 업믹스 계수들의 세트는 최소 평균 제곱의 점에서 채널들의 제1 그룹에 가장 근사화하는 선형 매핑을 정의할 수 있다.
예시적인 실시예에서, 상기 인코딩 방법은 적어도 2개의 코딩 포맷 중 하나를 선택하는 단계를 추가로 포함할 수 있으며, 상기 코딩 포맷들은 다운믹스 신호의 채널들과 관련된 각각의 제1 및 제2 그룹들로의 상기 M-채널 오디오 신호의 채널들의 각각의 상이한 파티션들에 대응한다. 상기 다운믹스 신호의 제1 및 제2 채널들은 선택된 코딩 포맷에 따라, M-채널 오디오 신호의 하나 이상의 채널의 제1 및 제2 그룹의 선형 조합들로서 각각 형성될 수 있다. 업믹스 파라미터들 및 믹싱 파라미터들은 선택된 코딩 포맷에 기초하여 결정될 수 있다. 상기 인코딩 방법은 상기 선택된 코딩 포맷을 지시하는 시그널링을 제공하는 단계를 추가로 포함할 수 있다. 상기 시그널링은 예를 들어 다운믹스 신호 및 메타데이터에 대해 공동 저장 및/또는 송신을 위해 출력될 수 있다.
다운믹스 신호 및 업믹스 파라미터들에 기초하여 재구성된 M-채널 오디오 신호는: 다운믹스 신호에 건식 업믹스 계수들을 적용함으로써 형성된 건식 업믹스 신호; 및 상기 다운믹스 신호에 기초하여 결정된 상관성 제거된 신호에 습식 업믹스 계수들을 적용함으로써 형성된 습식 업믹스 신호의 합일 수 있다. 코딩 포맷의 선택은 예를 들어 각각의 코딩 포맷들에 대해, 수신된 M-채널 오디오 신호의 공분산과 건식 업믹스 신호에 의해 근사화된 M-채널 오디오 신호의 공분산 간의 차이에 기초하여 이루어질 수 있다. 코딩 포맷의 선택은 예를 들어 각각의 코딩 포맷들에 대한 습식 업믹스 계수들에 기초하여, 예를 들어, 각각의 코딩 포맷들에 대한 습식 업믹스 계수들의 제곱들의 각각의 합들에 기초하여 이루어질 수 있다. 선택된 코딩 포맷은 예를 들어 각각의 코딩 포맷들의 제곱들의 합들 중 최소의 것과 관련될 수 있다.
예시적인 실시예들에 따르면, M-채널 오디오 신호를 2-채널 다운믹스 신호 및 관련된 메타데이터로서 인코딩하고(여기서, M ≥ 4), 상기 다운믹스 신호 및 메타데이터를 공동 저장 또는 송신을 위해 출력하도록 구성된 인코딩 섹션을 포함하는 오디오 인코딩 시스템이 제공된다. 인코딩 섹션은: M-채널 오디오 신호에 기초하여 다운믹스 신호를 계산하도록 구성된 다운믹스 섹션을 포함한다. 다운믹스 신호의 제1 채널은 M-채널 오디오 신호의 하나 이상의 채널의 제1 그룹의 선형 조합으로서 형성되고, 다운믹스 신호의 제2 채널은 M-채널 오디오 신호의 하나 이상의 채널의 제2 그룹의 선형 조합으로서 형성된다. 제1 및 제2 그룹들은 M-채널 오디오 신호의 M개의 채널의 파티션을 구성한다. 상기 인코딩 섹션은: 상기 다운믹스 신호로부터 상기 M-채널 오디오 신호의 파라메트릭 재구성을 위한 업믹스 파라미터들; 및 상기 다운믹스 신호에 기초하여 2-채널 출력 신호를 획득하기 위한 믹싱 파라미터들을 결정하도록 구성된 분석 섹션을 추가로 포함한다. 출력 신호의 제1 채널은 M-채널 오디오 신호의 하나 이상의 채널의 제3 그룹의 선형 조합에 근사화하고, 출력 신호의 제2 채널은 M-채널 오디오 신호의 하나 이상의 채널의 제4 그룹의 선형 조합에 근사화한다. 제3 및 제4 그룹들은 M-채널 오디오 신호의 M개의 채널의 파티션을 구성한다. 제3 및 제4 그룹들 모두는 제1 그룹으로부터의 적어도 하나의 채널을 포함한다. 메타데이터는 업믹스 파라미터들 및 믹싱 파라미터들을 포함한다.
예시적인 실시예들에 따르면, 제2 양태의 방법들 중 임의의 것을 수행하기 위한 명령들을 갖는 컴퓨터 판독 가능 매체를 포함하는 컴퓨터 프로그램 제품이 제공된다.
전술한 제2 양태의 오디오 인코딩 시스템, 방법, 및 컴퓨터 프로그램 제품의 예시적인 실시예들에 따르면, 출력 신호는 2-채널 신호 대신에 K-채널 신호(여기서 2 ≤ K < M)일 수 있고, 출력 신호의 K개의 채널은 2개의 그룹으로의 M-채널 신호의 파티션에 대응하는 출력 신호의 2개의 채널 대신에, K개의 그룹으로의 M-채널 오디오 신호의 파티션에 대응할 수 있다.
더 구체적으로, 예시적인 실시예들에 따르면, M-채널 오디오 신호(여기서 M ≥ 4)를 수신하는 단계; 및 상기 M-채널 오디오 신호에 기초하여 2-채널 다운믹스 신호를 계산하는 단계를 포함하는 오디오 인코딩 방법이 제공된다. 다운믹스 신호의 제1 채널은 M-채널 오디오 신호의 하나 이상의 채널의 제1 그룹의 선형 조합으로서 형성되고, 다운믹스 신호의 제2 채널은 M-채널 오디오 신호의 하나 이상의 채널의 제2 그룹의 선형 조합으로서 형성된다. 제1 및 제2 그룹들은 M-채널 오디오 신호의 M개의 채널의 파티션을 구성한다. 상기 인코딩 방법은: 상기 다운믹스 신호로부터 상기 M-채널 오디오 신호의 파라메트릭 재구성을 위한 업믹스 파라미터들을 결정하는 단계; 및 상기 다운믹스 신호에 기초하여, K-채널 출력 신호(여기서 2 ≤ K < M)를 획득하기 위한 믹싱 파라미터들을 결정하는 단계를 추가로 포함할 수 있고, 상기 출력 신호의 상기 K개의 채널 각각은 M-채널 오디오 신호의 하나 이상의 채널의 그룹의 선형 조합에 근사화한다. 출력 신호의 각각의 채널들에 대응하는 그룹들은 하나 이상의 채널의 K개의 그룹으로의 M-채널 오디오 신호의 M개의 채널의 파티션을 구성할 수 있고, K개의 그룹 중 적어도 2개는 제1 그룹으로부터의 적어도 하나의 채널을 포함할 수 있다. 상기 인코딩 방법은 공동 저장 또는 송신을 위해 상기 다운믹스 신호 및 메타데이터를 출력하는 단계를 추가로 포함할 수 있으며, 상기 메타데이터는 상기 업믹스 파라미터들 및 상기 믹싱 파라미터들을 포함한다.
예시적인 실시예에서, 상기 믹싱 파라미터들은 다운믹스 신호로부터 그리고 상관성 제거된 신호로부터 출력 신호로의 각각의 기여를 제어할 수 있다. 상기 믹싱 파라미터들 중 적어도 일부는 출력 신호의 채널들이 채널들의 각각의 K개의 그룹의 하나 이상의 채널의 선형 조합들(또는 합들)의 공분산 보존 근사화들이 되게 하는 믹싱 파라미터들 중에서 상관성 제거된 신호로부터의 기여를 최소화함으로써 결정될 수 있다. 상관성 제거된 신호로부터의 기여는 예를 들어 이 기여의 신호 에너지 또는 진폭이 최소화된다는 점에서 최소화될 수 있다.
출력 신호의 K개의 채널이 근사화할 K개의 그룹의 채널들의 선형 조합들은 예를 들어 제1 공분산 행렬을 갖는 K-채널 오디오 신호에 대응할 수 있다. 각각 채널들의 K개의 그룹의 채널들의 선형 조합들의 공분산 보존 근사화들인 출력 신호의 채널들은 예를 들어 출력 신호의 공분산 행렬이 제1 공분산 행렬과 일치하는(또는 적어도 실질적으로 일치하는) 것에 대응할 수 있다.
공분산 보존 근사화들 중에서, 상관성 제거된 신호로부터의 기여의 감소된 크기(예를 들어, 에너지 또는 진폭)는 재생 동안 청취자에 의해 지각되는 근사화의 충실도의 증가를 나타낼 수 있다. 상관성 제거된 신호로부터의 기여를 감소시키는 믹싱 파라미터들을 사용하는 것은 M-채널 오디오 신호의 K-채널 표현으로서 출력 신호의 충실도를 향상시킬 수 있다.
III. 개요 - 컴퓨터 판독 가능 매체
제3 양태에 따르면, 예시적인 실시예는 컴퓨터 판독 가능 매체를 제안한다. 제1 및/또는 제2 양태들에 따른 시스템, 방법, 및 컴퓨터 프로그램 제품의 특징에 대해 상기 제시된 이점들은 일반적으로 제3 양태에 따른 컴퓨터 판독 가능 매체의 대응하는 특징에 대해 유효할 수 있다.
예시적인 실시예들에 따르면, 2-채널 다운믹스 신호; 및 이 다운믹스 신호에 기초한 M-채널 오디오 신호(여기서 M ≥ 4)의 파라메트릭 재구성을 가능하게 하는 업믹스 파라미터들을 나타내는 데이터 캐리어가 제공된다. 상기 다운믹스 신호의 제1 채널은 상기 M-채널 오디오 신호의 하나 이상의 채널의 제1 그룹의 선형 조합에 대응하고, 상기 다운믹스 신호의 제2 채널은 상기 M-채널 오디오 신호의 하나 이상의 채널의 제2 그룹의 선형 조합에 대응한다. 제1 및 제2 그룹들은 M-채널 오디오 신호의 M개의 채널의 파티션을 구성한다. 상기 데이터 캐리어는 다운믹스 신호에 기초한 2-채널 출력 신호의 제공을 가능하게 하는 믹싱 파라미터들을 추가로 나타낸다. 출력 신호의 제1 채널은 M-채널 오디오 신호의 하나 이상의 채널의 제3 그룹의 선형 조합에 근사화하고, 출력 신호의 제2 채널은 M-채널 오디오 신호의 하나 이상의 채널의 제4 그룹의 선형 조합에 근사화한다. 제3 및 제4 그룹들은 M-채널 오디오 신호의 M개의 채널의 파티션을 구성한다. 제3 및 제4 그룹들 모두는 제1 그룹으로부터의 적어도 하나의 채널을 포함한다.
예시적인 실시예에서, 상기 데이터 캐리어에 의해 표현된 데이터는 시간 프레임들로 배열될 수 있고, 주어진 시간 프레임에 대해, 해당 시간 프레임에 대한 다운믹스 신호 및 관련된 믹싱 파라미터들이 관련된 업믹스 파라미터들과 독립적으로 추출될 수 있도록 계층화될 수 있다. 예를 들어, 상기 데이터 캐리어는 해당 시간 프레임에 대한 다운믹스 신호 및 관련된 믹싱 파라미터들이 관련된 업믹스 파라미터들을 추출 및/또는 액세스하지 않고 추출될 수 있도록 계층화될 수 있다. 전술한 제3 양태의 컴퓨터 판독 가능 매체(또는 데이터 캐리어)의 예시적인 실시예들에 따르면, 출력 신호는 2-채널 신호 대신에 K-채널 신호(여기서 2 ≤ K < M)일 수 있고, 출력 신호의 K개의 채널은 2개의 그룹으로의 M-채널 신호의 파티션에 대응하는 출력 신호의 2개의 채널 대신에 K개의 그룹으로의 M-채널 오디오 신호의 파티션에 대응할 수 있다.
더 구체적으로, 예시적인 실시예들에 따르면, 2-채널 다운믹스 신호; 및 이 다운믹스 신호에 기초한 M-채널 오디오 신호(여기서 M ≥ 4)의 파라메트릭 재구성을 가능하게 하는 업믹스 파라미터들을 나타내는 컴퓨터 판독 가능 매체(또는 데이터 캐리어)가 제공된다. 상기 다운믹스 신호의 제1 채널은 상기 M-채널 오디오 신호의 하나 이상의 채널의 제1 그룹의 선형 조합에 대응하고, 상기 다운믹스 신호의 제2 채널은 상기 M-채널 오디오 신호의 하나 이상의 채널의 제2 그룹의 선형 조합에 대응한다. 제1 및 제2 그룹들은 M-채널 오디오 신호의 M개의 채널의 파티션을 구성한다. 상기 데이터 캐리어는 다운믹스 신호에 기초한 K-채널 출력 신호(여기서 2 ≤ K < M)의 제공을 가능하게 하는 믹싱 파라미터들을 추가로 나타낼 수 있다. 출력 신호의 각각의 채널은 M-채널 오디오 신호의 하나 이상의 채널의 그룹의 선형 조합(예를 들어, 가중된 또는 비가중된 합)에 근사화할 수 있다. 출력 신호의 각각의 채널들에 대응하는 그룹들은 하나 이상의 채널의 K개의 그룹으로의 M-채널 오디오 신호의 M개의 채널의 파티션을 구성할 수 있다. K개의 그룹 중 적어도 2개는 제1 그룹으로부터의 적어도 하나의 채널을 포함할 수 있다.
추가적인 예시적인 실시예들은 종속 청구항들에서 정의된다. 예시적인 실시예들은 비록 서로 상이한 청구항들에 열거되어 있다고 할지라도, 특징들의 모든 조합을 포함한다는 점에 유의한다.
IV. 예시적인 실시예들
도 4 내지 도 6은 11.1-채널 오디오 신호를 5.1-채널 오디오 신호로서 파라메트릭 인코딩하기 위해, 또는 11.1-채널 오디오 신호를 5개의 라우드스피커와 1개의 서브우퍼를 포함하는 스피커 시스템에서 재생하기 위해 11.1-채널 오디오 신호를 채널들의 그룹들로 파티션하는 대안적인 방법들을 도시한다.
11.1-채널 오디오 신호는 다음의 채널들 L(left), LS(left side), LB(left back), TFL(top front left), TBL(top back left), R(right), RS(right side), RB(right back), TFR(top front right), TBR(top back right), C(center), 및 LFE(low frequency effects)를 포함한다. 5개의 채널 L, LS, LB, TFL 및 TBL은 11.1-채널 오디오 신호의 재생 환경에서 좌측 절반 공간을 나타내는 5-채널 오디오 신호를 형성한다. 3개의 채널 L, LS 및 LB는 재생 환경에서 상이한 수평 방향들을 나타내고, 2개의 채널 TFL 및 TBL은 3개의 채널 L, LS 및 LB의 방향들로부터 수직으로 분리된 방향들을 나타낸다. 2개의 채널 TFL 및 TBL은 예를 들어 천장 스피커들에서의 재생을 위해 의도될 수 있다. 유사하게, 5개의 채널 R, RS, RB, TFR 및 TBR은 재생 환경의 우측 절반 공간을 나타내는 추가적인 5-채널 오디오 신호를 형성하고, 3개의 채널 R, RS 및 RB는 재생 환경에서 상이한 수평 방향들을 나타내고, 2개의 채널 TFR 및 TBR은 3개의 채널 R, RS 및 RB의 방향들로부터 수직으로 분리된 방향들을 나타낸다.
11.1-채널 오디오 신호를 5.1-채널 오디오 신호로서 나타내기 위해, 채널들 L, LS, LB, TFL, TBL, R, RS, RB, TFR, TBR, C, 및 LFE의 모음은 각각의 다운믹스 채널들 및 관련된 메타데이터에 의해 표현되는 채널들의 그룹들로 파티션될 수 있다. 5-채널 오디오 신호 L, LS, LB, TFL, TBL은 2-채널 다운믹스 신호 L1, L2 및 관련된 메타데이터에 의해 표현될 수 있는 반면, 추가적인 5-채널 오디오 신호 R, RS, RB, TFR, TBR은 추가적인 2-채널 다운믹스 신호 R1, R2 및 관련된 추가적인 메타데이터에 의해 표현될 수 있다. 채널들 C 및 LFE는 11.1-채널 오디오 신호의 5.1-채널 표현에서도 개별 채널들로서 유지될 수 있다.
도 4는 5-채널 오디오 신호 L, LS, LB, TFL, TBL이 채널들 L, LS, LB의 제1 그룹(401) 및 채널들 TFL, TBL의 제2 그룹(402)으로 파티션되고, 추가적인 5-채널 오디오 신호 R, RS, RB, TFR, TBR이 채널들 R, RS, RB의 추가적인 제1 그룹(403) 및 채널들 TFR, TBR의 추가적인 제2 그룹(404)으로 파티션되는, 제1 코딩 포맷(F1)을 도시한다. 제1 코딩 포맷(F1)에서, 채널들의 제1 그룹(401)은 2-채널 다운믹스 신호의 제1 채널(L1)에 의해 표현되고, 채널들의 제2 그룹(402)은 2-채널 다운믹스 신호의 제2 채널(L2)에 의해 표현된다. 상기 다운믹스 신호의 제1 채널(L1)은
L1 = L + LS + LB
에 따라 채널들의 제1 그룹(401)의 합에 대응할 수 있고,
상기 다운믹스 신호의 제2 채널(L2)은
L2 = TFL + TBL
에 따라 채널들의 제2 그룹(402)의 합에 대응할 수 있다.
일부 예시적인 실시예들에서, 다운믹스 신호의 제1 채널(L1)은 L1 = c1L + c2LS + c3LB에 따라 채널들의 제1 그룹(401)의 선형 조합에 대응할 수 있고, 다운믹스 신호의 제2 채널(L2)은 L2 = c4TFL + c5TBL에 따라 채널들의 제2 그룹(402)의 선형 조합에 대응할 수 있도록, 채널들의 일부 또는 전부는 합산 이전에 일부 또는 리스케일링될 수 있다. 이득들 c2, c3, c4, c5는 예를 들어 일치할 수 있는 반면, 이득 c1은 예를 들어 상이한 값을 가질 수 있다; 예를 들어, c1은 전혀 리스케일링하지 않는 것에 대응할 수 있다. 예를 들어, 값들 c1 = 1 및 c2 = c3 = c4 = c5 =
Figure 112017042130710-pct00001
가 사용될 수 있다. 그러나, 제1 코딩 포맷 F1에 대한 각각의 채널들 L, LS, LB, TFL, TBL에 적용되는 이득들 c1, ..., c5가 도 5 및 도 6에 관련하여 후술되는 다른 코딩 포맷들 F2 및 F3에서 이들 채널에 적용되는 이득들과 일치하는 한, 이러한 이득들은 후술되는 계산들에 영향을 미치지 않는다. 따라서 채널들 L, LS, LB, TFL, TBL에 대해 아래에서 도출된 수학식들 및 근사화는 이러한 채널들의 리스케일링된 버전들 c1L, c2LS, c3LB, c4TFL, c5TBL에도 적용된다. 다른 한편으로, 상이한 이득들이 상이한 코딩 포맷들에서 사용된다면, 아래에서 수행되는 계산들 중 적어도 일부가 수정되어야 할 수도 있다; 예를 들어, 더 충실한 근사화를 제공하기 위해, 추가적인 상관성 제거기들을 포함하는 옵션이 고려될 수 있다.
유사하게, 채널들의 추가적인 제1 그룹(403)은 추가적인 다운믹스 신호의 제1 채널(R1)에 의해 표현되고, 채널들의 추가적인 제2 그룹(404)은 추가적인 다운믹스 신호의 제2 채널(R2)에 의해 표현된다.
제1 코딩 포맷(F1)은 천장 채널들 TFL, TBL, TFR 및 TBR을 나타내기 위한 전용 다운믹스 채널들 L2 및 R2을 제공한다. 따라서, 제1 코딩 포맷(F1)의 사용은, 예를 들어, 재생 환경에서의 수직 차원이 11.1-채널 오디오 신호의 전체적인 인상에 대해 중요한 경우에 비교적 높은 충실도로 11.1-채널 오디오 신호의 파라메트릭 재구성을 허용할 수 있다.
도 5는 5-채널 오디오 신호 L, LS, LB, TFL, TBL이 각각의 채널들 L1 및 L2에 의해 표현되는 채널들의 제3 그룹(501) 및 제4 그룹(502)로 파티션되는 제2 코딩 포맷(F2)을 도시하며, 여기서 채널들 L1 및 L2는, 예를 들어 제1 코딩 포맷(F1)에서와 같이 리스케일링을 위해 동일한 이득들 c1, ..., c5를 사용하는, 채널들의 각각의 그룹들의 합들에 대응한다. 유사하게, 추가적인 5-채널 오디오 신호 R, RS, RB, TFR, TBR은 각각의 채널들 R1 및 R2에 의해 표현되는 채널들의 추가적인 제3 그룹(503) 및 제4 그룹(504)으로 파티션된다.
제2 코딩 포맷(F2)은 천장 채널들 TFL, TBL, TFR 및 TBR을 나타내기 위한 전용 다운믹스 채널들을 제공하지 않지만, 예를 들어, 재생 환경에서의 수직 차원이 11.1-채널 오디오 신호의 전체적인 인상에 대해 그다지 중요한 경우에 비교적 높은 충실도로 11.1-채널 오디오 신호의 파라메트릭 재구성을 허용할 수 있다. 제2 코딩 포맷(F2)은 또한 제1 코딩 포맷(F1)보다 5.1 채널 재생에 더 적합할 수 있다.
도 6은 5-채널 오디오 신호 L, LS, LB, TFL, TBL이 다운믹스 신호의 각각의 채널들 L1 및 L2에 의해 표현되는 채널들의 제5 그룹(601) 및 제6 그룹(602)으로 파티션되는 제3 코딩 포맷(F3)을 도시하며, 여기서 채널들 L1 및 L2는, 예를 들어 제1 코딩 포맷(F1)에서와 같이 리스케일링을 위해 동일한 이득들 c1, ..., c5를 사용하는, 채널들의 각각의 그룹들의 합들에 대응한다. 유사하게, 추가적인 5-채널 오디오 신호 R, RS, RB, TFR, TBR은 각각의 채널들 R1 및 R2에 의해 표현되는 채널들의 추가적인 제5 그룹(603) 및 제6 그룹(604)으로 파티션된다.
제3 코딩 포맷(F3)에서, 4개의 채널 LS, LB, TFL, TBL은 제2 채널(L2)에 의해 표현된다. 11.1-채널 오디오 신호의 고충실도 파라메트릭 재구성은 잠재적으로 제3 코딩 포맷(F3)에서가 다른 코딩 포맷들에서보다 더 어려울 수 있지만, 제3 코딩 포맷(F3)은 예를 들어 5.1-채널 재생을 위해 사용될 수 있다.
본 발명자들은 코딩 포맷들 F1, F2, F3 중 하나에 따라 11.1-채널 오디오 신호의 5.1-채널 표현과 관련된 메타데이터가 원래의 11.1-채널 신호를 먼저 재구성하지 않고 코딩 포맷들 F1, F2, F3 중 또 하나에 따라 5.1-채널 표현을 생성하는 데 사용될 수 있다는 것을 깨달았다. 11.1-채널 오디오 신호의 좌측 절반 평면을 나타내는 5-채널 신호 L, LS, LB, TFL, TBL, 및 우측 절반 평면을 나타내는 추가적인 5-채널 신호 R, RS, RB, TFR, TBR은 유사하게 취급될 수 있다.
m1 = x1 + x2 + x3에 따라, 다운믹스 채널 m1을 형성하기 위해 3개의 채널 x1, x2, x3이 합산되었고, x1과 x2 + x3이 재구성되어야 한다고 가정한다. 3개의 모든 채널 x1, x2, x3은 인코더 측에서 결정된 업믹스 파라미터들 ci(1 ≤ i ≤ 3), 및 pij(1 ≤ i ≤ 3, 1 ≤ j ≤ 2), 및 독립된 상관성 제거기들 D1 및 D2를 사용함으로써 다음
Figure 112017042130710-pct00002
과 같이 다운믹스 채널 m1로부터 재구성 가능하다. 사용된 업믹스 파라미터들이 k = 1, 2에 대해 c1 + c2 + c3 = 1 및 p1k + p2k + p3k = 0을 만족한다고 가정하면, 신호 x1 및 x2 + x3은 다음
Figure 112017042130710-pct00003
과 같이 재구성될 수 있고, 이는 다음
Figure 112017042130710-pct00004
과 같이 표현될 수 있고,
여기서 2개의 상관성 제거기 D1 및 D2는 하나의 상관성 제거기 D1로 대체되었으며, 여기서
Figure 112017042130710-pct00005
이다. m2 = x4 + x5에 따라 제2 다운믹스 채널 m2을 형성하기 위해 2개의 채널 x4 및 x5가 합산되었다면, 신호 x1 및 x2 + x3 + x4 + x5는 다음
Figure 112017042130710-pct00006
과 같이 재구성될 수 있다.
후술되는 바와 같이, 수학식 2는 제1 코딩 포맷(F1)에 부합되는 신호들에 기초하여 제3 코딩 포맷(F3)에 부합되는 신호들을 생성하기 위해 사용될 수 있다.
채널 x4 및 x5는 상관성 제거기 D3 및 d1 + d2 = 1 및 q1 + q2 = 0을 만족하는 및 업믹스 파라미터들을 사용하여 다음
Figure 112017042130710-pct00007
과 같이 재구성 가능하다. 수학식 1 및 수학식 3에 기초하여, 신호들 x1 + x4 및 x2 + x3 + x5는 다음
Figure 112017042130710-pct00008
과 같이 그리고 다음
Figure 112017042130710-pct00009
과 같이 재구성될 수 있고, 여기서 2개의 상관성 제거기 D1 및 D3(즉, 그의 입력 신호의 에너지를 보존하는 유형의 상관성 제거기들)로부터의 기여들은 단일 상관성 제거기 D1(즉, 그의 입력 신호의 에너지를 보존하는 유형의 상관성 제거기)로부터의 기여에 의해 근사화되었다. 이 근사화는, 특히 다운믹스 채널 m1, m2가 상관성이 없는 경우 그리고 가중치 a 및 b에 대해 값 a = p1 및 b = q1이 사용되는 경우, 매우 작은 감지된 충실도의 손실과 관련될 수 있다. 인코더 측에서 다운믹스 채널들 m1, m2이 생성되는 코딩 포맷은 예를 들어 다운믹스 채널들 m1, m2 간의 상관성을 낮게 유지하려는 노력으로 선택되었을 수 있다. 후술되는 바와 같이, 수학식 4는 제1 코딩 포맷(F1)에 부합되는 신호들에 기초하여 제2 코딩 포맷(F2)에 부합되는 신호들을 생성하는 데 사용될 수 있다.
수학식 4의 구조는 옵션으로 다음
Figure 112017042130710-pct00010
으로 수정될 수 있으며, 여기서 이득 계수 g = (a2 + b2)1/2는 상관성 제거기 D1에 대한 입력 신호의 전력을 조정하는 데 사용된다. 0 < v < 1에 대해 g = (a2 + b2)1/v와 같은 다른 이득 계수의 값들이 사용될 수도 있다.
제1 코딩 포맷(F1)이 11.1-채널 신호의 파라메트릭 표현을 제공하기 위해 사용되고, 제2 코딩 포맷(F2)이 오디오 콘텐츠의 렌더링을 위해 디코더 측에서 요구된다면, 수학식 4의 근사화를 좌측과 우측 모두에 적용하고, 물결표들에 의해 좌측 수량들(출력 신호의 4개의 채널) 중 일부의 근사 특성을 나타내면, 다음
Figure 112017042130710-pct00011
이 생성되고, 여기서, 제2 코딩 포맷(F2)에 따라,
Figure 112017042130710-pct00012
Figure 112017042130710-pct00013
이고,
Figure 112017042130710-pct00014
Figure 112017042130710-pct00015
이고,
여기서 SL = D(aLL1 + bLL2) 및 SR = D(aRR1 + bRR2)이고, 여기서 c1,L, d1,L, aL, bL 및 c1,R, d1,R, aR, bR은 각각 수학식 4로부터의 파라미터들 c1, d1, a, b의 좌측 채널 및 우측 패널 버전들이고, D는 상관성 제거 오퍼레이터를 나타낸다. 따라서, 11.1-채널 오디오 신호를 실제로 재구성할 필요 없이, 11.1-채널 오디오 신호의 파라메트릭 재구성을 위한 업믹스 파라미터들에 기초하여 제1 코딩 포맷(F1)으로부터 제2 코딩 포맷(F2)의 근사화가 획득될 수 있다.
제1 코딩 포맷(F1)이 11.1-채널 신호의 파라메트릭 표현을 제공하기 위해 사용되고, 제3 코딩 포맷(F3)이 오디오 콘텐츠의 렌더링을 위해 디코더 측에서 요구된다면, 수학식 2의 근사화를 좌측과 우측 모두에 적용하고, 좌측 수량들의 일부의 근사 특성을 나타내면, 다음
Figure 112017042130710-pct00016
이 생성되고, 여기서 제3 코딩 포맷(F3)에 의해,
Figure 112017042130710-pct00017
Figure 112017042130710-pct00018
이고,
Figure 112017042130710-pct00019
Figure 112017042130710-pct00020
이고,
여기서, c1,L, p1,L 및 c1,R, p1,R은 각각 수학식 2로부터의 파라미터들 c1 및 p1의 좌측 채널 및 우측 채널 버전들이고, D는 상관성 제거 오퍼레이터를 나타낸다. 따라서, 11.1-채널 오디오 신호를 실제로 재구성할 필요 없이, 11.1-채널 오디오 신호의 파라메트릭 재구성을 위한 업믹스 파라미터들에 기초하여 제1 코딩 포맷(F1)으로부터 제3 코딩 포맷(F3)의 근사화가 획득될 수 있다.
제2 코딩 포맷(F2)이 11.1-채널 오디오 신호의 파라메트릭 표현을 제공하기 위해 사용되고, 제1 코딩 포맷(F1) 또는 제3 코딩 포맷(F3)이 오디오 콘텐츠의 렌더링을 위해 디코더 측에서 요구된다면, 동일한 아이디어를 사용하여 수학식 5 및 수학식 6에서 제시된 것들과 유사한 관계들이 도출될 수 있다.
제3 코딩 포맷(F3)이 11.1-채널 오디오 신호의 파라메트릭 표현을 제공하기 위해 사용되고, 제1 코딩 포맷(F1) 또는 제2 코딩 포맷(F2)이 오디오 콘텐츠의 렌더링을 위해 디코더 측에서 요구된다면, 전술한 아이디어 중 적어도 일부가 사용될 수 있다. 그러나, 채널
Figure 112017042130710-pct00021
에 의해 표현되는 채널들의 제6 그룹(602)은 4개의 채널 LS, LB, TFL, TBL을 포함하기 때문에, 예를 들어 좌측에 대해(그리고 유사하게 우측에 대해) 하나보다 많은 상관성 제거된 채널이 사용될 수 있고, 채널 L만을 나타내는 다른 채널
Figure 112017042130710-pct00022
은 예를 들어 상관성 제거기들 중 임의의 것에 대한 입력으로서 포함되지 않을 수 있다.
전술한 바와 같이, 5.1-채널 파라메트릭 표현(코딩 포맷들 F1, F2 및 F3 중 하나에 부합됨)으로부터의 11.1-채널 오디오 신호의 파라메트릭 재구성을 위한 업믹스 파라미터들은 11.1-채널 오디오 신호(다른 코딩 포맷들 F1, F2 및 F3 중 어느 하나에 부합됨)의 대안적인 5.1-채널 표현을 획득하기 위해 사용될 수 있다. 다른 예시적인 실시예들에서, 대안적인 5.1-채널 표현은 인코더 측에서 이러한 목적을 위해 특별히 결정된 믹싱 파라미터들에 기초하여 획득될 수 있다. 이러한 믹싱 파라미터들을 결정하는 한 가지 방법에 대해 이제 설명한다.
4개의 오디오 신호 u1, u2, u3, u4로부터 형성된 2개의 오디오 신호 y1 = u1 + u2 및 y2 = u3 + u4가 주어지면, 2개의 오디오 신호 z1 = u1 + u3 및 z2 = u2 + u4의 근사화가 획득될 수 있다. 차이 z1 - z2는 y1 및 y2로부터 다음
z1 - z2 = αy1 + βy2 + r
에 따라 최소 제곱 추정치로서 추정될 수 있으며,
여기서 오차 신호 r은 y1과 y2 모두에 직교한다. z1 + z2 = y1 + y2를 사용하면, 다음
Figure 112017042130710-pct00023
이 도출될 수 있다.
신호들 z1 및 z2의 정확한 공분산 구조를 복원하는 근사화에 도달하기 위해, 오차 신호 r은 예를 들어 γD(y1 + y2) 형태의 동일한 전력의 상관성 제거된 신호로 대체될 수 있으며, 여기서 D는 상관성 제거를 나타내고 파라미터 γ는 신호 전력을 보존하기 위해 조정된다. 수학식 7의 상이한 파라미터화를 사용하면, 근사화는 다음
Figure 112017042130710-pct00024
과 같이 표현될 수 있다.
제1 코딩 포맷(F1)이 11.1-채널 신호의 파라메트릭 표현을 제공하기 위해 사용되고, 제2 코딩 포맷(F2)이 오디오 콘텐츠의 렌더링을 위해 디코더 측에서 요구된다면, 좌측에서 z1 = L + TFL, z2 = LS + LB + TBL, y1 = L + LS + LB, 및 y2 = TFL + TBL과 함께, 그리고 우측에서 z1 = R + TFR, z2 = RS + RB + TBR, y1 = R + RS + RB, 및 y2 = TFR + TBR과 함께 수학식 8의 근사화를 적용하고, 물결표들에 의해 좌측 수량들의 일부의 근사 특성을 나타내면, 다음
Figure 112017042130710-pct00025
이 생성되고, 여기서 제1 코딩 포맷(F1)에 의해,
Figure 112017042130710-pct00026
Figure 112017042130710-pct00027
이고,
Figure 112017042130710-pct00028
Figure 112017042130710-pct00029
이고,
여기서 rL = D(L1 + L2) 및 rR = D(R1 + R2)이고, cL, dL, γL, 및 cR, dR, γR은 각각 수학식 8로부터의 파라미터들 c, d, γ의 좌측 채널 및 우측 채널 버전들이고, 여기서 D는 상관성 제거를 나타낸다. 따라서, 예를 들어 해당 목적을 위해 인코더 측에서 결정되고 다운믹스 신호들과 함께 디코더 측에 송신된 믹싱 파라미터들 cL, dL, γL, cR, dR 및 γR에 기초하여 제1 코딩 포맷(F1)으로부터 제2 코딩 포맷(F2)의 근사화가 획득될 수 있다. 믹싱 파라미터들을 사용하면 인코더 측으로부터 증가된 제어가 가능하다. 원래의 11.1-채널 오디오 신호가 인코더 측에서 이용 가능하기 때문에, 믹싱 파라미터들은 제2 코딩 포맷(F2)의 근사화의 충실도를 증가시키기 위해 예를 들어 인코더 측에서 조정될 수 있다. 유사하게, 유사한 믹싱 파라미터들에 기초하여 제1 코딩 포맷(F1)으로부터 제3 코딩 포맷(F3)의 근사화가 획득될 수 있다. 제1 코딩 포맷(F1) 및 제3 코딩 포맷(F3)의 유사한 근사화들이 또한 제2 코딩 포맷(F2)으로부터 획득될 수 있다.
수학식 9에서 알 수 있는 바와 같이, 출력 신호
Figure 112017042130710-pct00030
의 2개의 채널은 상관성 제거된 신호 rL로부터 동일한 크기의, 그러나 반대 부호의 기여들을 수신한다. 대응하는 상황은 수학식 5 및 수학식 6에서 각각 상관성 제거된 신호 SL 및 D(L1)로부터의 기여들에 대해 유지된다.
수학식 9에서 알 수 있는 바와 같이, 다운믹스 신호의 제1 채널(L1)로부터 출력 신호의 제1 채널
Figure 112017042130710-pct00031
로의 기여를 제어하는 믹싱 계수 cL와 믹싱 계수다운믹스 신호의 제1 채널(L1)로부터 출력 신호의 제2 채널
Figure 112017042130710-pct00032
로의 기여를 제어하는 믹싱 계수 1 - cL의 합은 값 1을 갖는다. 대응하는 관계들은 수학식 5 및 수학식 6에 대해서도 유지된다.
도 1은 예시적인 실시예에 따른, M-채널 신호를 2-채널 다운믹스 신호 및 관련된 메타데이터로서 인코딩하기 위한 인코딩 섹션(100)의 일반화된 블록도이다.
M-채널 오디오 신호는 본 명세서에서 도 4를 참조하여 설명된 5-채널 신호 L, LS, LB, TFL 및 TBL에 의해 예시되며, 다운믹스 신호는 도 4를 참조하여 설명된 제1 코딩 포맷(F1)에 따라 계산된 제1 채널(L1) 및 제2 채널(L2)에 의해 예시된다. 인코딩 섹션(100)이 도 4 내지 도 6을 참조하여 설명된 코딩 포맷들 중 임의의 것에 따라 다운믹스 신호를 계산하는 예시적인 실시예들이 예상될 수 있다. 또한, 인코딩 섹션(100)이 M-채널 오디오 신호(여기서 M ≥ 4)에 기초하여 다운믹스 신호를 계산하는 예시적인 실시예들이 예상될 수 있다. 특히, 전술한 것들과 유사한, 그리고 수학식 5, 수학식 6 및 수학식 9까지 이어지는 계산들 및 근사화들은 M = 4 또는 M ≥ 6인 예시적인 실시예들에 대해 수행될 수 있음을 이해할 것이다.
인코딩 섹션(100)은 다운믹스 섹션(110) 및 분석 섹션(120)을 포함한다. 다운믹스 섹션(110)은 다운믹스 신호의 제1 채널(L1)을 5-채널 오디오 신호의 채널들의 제1 그룹(401)의 선형 조합으로서(예를 들어 합으로서) 형성함으로써, 그리고 다운믹스 신호의 제2 채널(L2)을 5-채널 오디오 신호의 채널들의 제2 그룹(402)의 선형 조합으로서(예를 들어, 합으로서) 형성함으로써 5-채널 오디오 신호에 기초하여 다운믹스 신호를 계산한다. 제1 및 제2 그룹들(401, 402)은 5-채널 오디오 신호의 5개의 채널 L, LS, LB, TFL, TBL의 파티션을 구성한다. 분석 섹션(120)은 파라메트릭 디코더에서 다운믹스 신호로부터 5-채널 오디오 신호의 파라메트릭 재구성을 위한 업믹스 파라미터들 αLU를 결정한다. 분석 섹션(120)은 또한 다운믹스 신호에 기초하여 2-채널 출력 신호를 획득하기 위한 믹싱 파라미터들 αLM를 결정한다.
본 예시적인 실시예에서, 출력 신호는 도 5를 참조하여 설명된 제2 코딩 포맷(F2)에 따른 5-채널 오디오 신호의 2-채널 표현이다. 그러나, 출력 신호가 도 4 내지 도 6을 참조하여 설명된 코딩 포맷들 중 임의의 것에 따른 5-채널 오디오 신호를 나타내는 예시적인 실시예들도 예상될 수 있다.
출력 신호의 제1 채널
Figure 112017042130710-pct00033
은 5-채널 오디오 신호의 채널들의 제3 그룹(501)의 선형 조합(예를 들어, 합)에 근사화하고, 출력 신호의 제2 채널
Figure 112017042130710-pct00034
은 5-채널 오디오 신호의 채널들의 제4 그룹(502)의 선형 조합(예를 들어, 합)에 근사화한다. 제3 및 제4 그룹들(501, 502)은 채널들의 제1 및 제2 그룹들(401, 402)에 의해 제공되는 것보다 5-채널 오디오 신호의 5개의 채널 L, LS, LB, TFL, TBL의 상이한 파티션을 구성한다. 특히, 제3 그룹(501)은 제1 그룹(401)으로부터의 채널 L을 포함하는 반면, 제4 그룹(502)은 제1 그룹(401)으로부터의 채널들 LS 및 LB를 포함한다.
인코딩 섹션(100)은 다운믹스 신호 L1, L2 및 관련된 메타데이터를 공동 저장 및 디코더 측으로의 송신을 위해 출력한다. 메타데이터는 업믹스 파라미터들 αLU 및 믹싱 파라미터들 αLM을 포함한다. 믹싱 파라미터들 αLM은 다운믹스 신호 L1, L2에 기초한 출력 신호
Figure 112017042130710-pct00035
를 획득하기 위해 수학식 9를 사용하기에 충분한 정보를 운반할 수 있다. 믹싱 파라미터들 αLM은 예를 들어 파라미터들 cL, dL, γL 또는 심지어 수학식 9의 최좌측 행렬의 모든 원소를 포함할 수 있다.
도 2는 예시적인 실시예에 따른, 도 1을 참조하여 설명된 인코딩 섹션(100)을 포함하는 오디오 인코딩 시스템(200)의 일반화된 블록도이다. 본 예시적인 실시예에서, 예를 들어 하나 이상의 음향 변환기(201)에 의해 기록된, 또는 오디오 저작 장비(201)에 의해 생성된 오디오 콘텐츠가 도 4 내지 도 6을 참조하여 설명된 11.1 채널 오디오 신호의 형태로 제공된다. QMF(quadrature mirror filter) 분석 섹션(202)은 5-채널 오디오 신호 L, LS, LB, TFL, TBL을 시간 세그먼트마다, 시간/주파수 타일들의 형태로 5-채널 오디오의 인코딩 섹션(100)에 의한 처리를 위해 QMF 도메인으로 변환한다. 오디오 인코딩 시스템(200)은 인코딩 섹션(100)과 유사한 그리고 추가적인 5-채널 오디오 신호 R, RS, RB, TFR 및 TBR을 추가적인 2-채널 다운믹스 신호 R1, R2 및 추가적인 업믹스 파라미터들 αRU 및 추가적인 믹싱 파라미터들 αRM을 포함하는 추가적인 관련된 메타데이터로서 인코딩하도록 적응된 추가적인 인코딩 섹션(203)을 포함한다. 추가적인 믹싱 파라미터들 αRM은 예를 들어 수학식 9로부터의 파라미터들 cR, dR 및 γR을 포함할 수 있다. QMF 분석 섹션(202)은 또한 추가적인 5-채널 오디오 신호 R, RS, RB, TFR 및 TBR을 추가적인 인코딩 섹션(203)에 의한 처리를 위해 QMF 도메인으로 변환한다. 인코딩 섹션(100)에 의해 출력되는 다운믹스 신호 L1 L2는 QMF 합성 섹션(204)에 의해 QMF 도메인으로부터 역변환되고 변환 섹션(205)에 의해 변형 이산 코사인 변환(MDCT) 도메인으로 변환된다. 양자화 섹션(206 및 207)은 업믹스 파라미터들 αLU 및 믹싱 파라미터들 αLM을 각각 양자화한다. 예를 들어, 0.1 또는 0.2(무차원)의 스텝 크기를 갖는 균일한 양자화가 사용될 수 있으며, 이어서 허프만 코딩의 형태로 엔트로피 코딩이 사용될 수 있다. 스텝 크기 0.2를 갖는 더 거친 양자화가 예를 들어 송신 대역폭을 절약하기 위해 사용될 수 있고, 스텝 크기 0.1을 갖는 더 미세한 양자화가 예를 들어 디코더 측에서 재구성의 충실도를 향상시키기 위해 사용될 수 있다. 유사하게, 추가적인 인코딩 섹션(203)에 의해 출력된 추가적인 다운믹스 신호 R1, R2는 QMF 합성 섹션(208)에 의해 QMF 도메인으로부터 역변환되고 변환 섹션(209)에 의해 MDCT 영역으로 변환된다. 양자화 섹션들(210, 211)은 추가적인 업믹스 파라미터들 αRU 및 추가적인 믹싱 파라미터들 αRM을 각각 양자화한다. 채널들 C 및 LFE도 각각의 변환 섹션들(214 및 215)에 의해 MDCT 도메인으로 변환된다. MDCT 변환된 다운믹스 신호들 및 채널들, 및 양자화된 메타데이터는 그 후 디코더 측으로의 송신을 위해, 멀티플렉서(216)에 의해 비트스트림 B로 결합된다. 오디오 인코딩 시스템(200)은 또한 다운믹스 신호 L1, L2, 추가적인 다운믹스 신호 R1, R2 및 채널들 C 및 LFE를, 그 다운믹스 신호들 및 채널들 C 및 LFE가 멀티플렉서(216)에 제공되기 전에, Dolby Digital 또는 MPEG AAC와 같은 지각 오디오 코덱을 사용하여 인코딩하도록 구성된 코어 인코더(도 2에 도시되지 않음)를 포함한다. 비트스트림 B를 형성하기 전에, 예를 들어 다운믹스 신호 L1, L2, 추가적인 다운믹스 신호 R1 R2, 및 채널 C에, 예를 들어 -8.7dB에 대응하는 클립 이득이 적용될 수 있다.
도 3은 예시적인 실시예에 따른, 오디오 인코딩 시스템(200)에 의해 수행되는 오디오 인코딩 방법(300)의 흐름도이다. 오디오 인코딩 방법(300)은 5-채널 오디오 신호 L, LS, LB, TFL, TBL를 수신하는 단계(310); 상기 5-채널 오디오 신호에 기초하여 2-채널 다운믹스 신호 L1, L2를 계산하는 단계(320); 상기 업믹스 파라미터들 αLU를 결정하는 단계(330); 상기 믹싱 파라미터들 αLM을 결정하는 단계(340); 및 공동 저장 및/또는 송신을 위해 상기 다운믹스 신호 및 메타데이터를 출력하는 단계(350)를 포함하며, 상기 메타데이터는 업믹스 파라미터들 αLU 및 믹싱 파라미터들 αLM을 포함한다.
도 7은 본 발명의 예시적인 실시예에 따른, 2-채널 다운믹스 신호 L1, L2 및 관련된 메타데이터에 기초한 2-채널 출력 신호
Figure 112017042130710-pct00036
를 제공하기 위한 디코딩 섹션(700)의 일반화된 블록도이다.
본 예시적인 실시예에서, 다운믹스 신호 L1, L2는 도 1을 참조하여 설명된 인코딩 섹션(100)에 의해 출력되는 다운믹스 신호 L1, L2이고, 인코딩 섹션(100)에 의해 출력되는 업믹스 파라미터들 αLU 및 믹싱 파라미터들 αLM 모두와 관련된다. 도 1 및 도 4를 참조하여 설명된 바와 같이, 업믹스 파라미터들 αLU는 다운믹스 신호 L1, L2에 기초하여 5-채널 오디오 신호 L, LS, LB, TFL, TBL의 파라메트릭 재구성을 위해 적응된다. 그러나, 업믹스 파라미터들 αLU가 M-채널 오디오 신호(여기서 M = 4 또는 M ≥ 6)의 파라메트릭 재구성을 위해 적응되는 실시예들도 예상될 수 있다.
본 예시적인 실시예에서, 다운믹스 신호의 제1 채널(L1)은 5-채널 오디오 신호의 채널들의 제1 그룹(401)의 선형 조합(예를 들어, 합)에 대응하고, 다운믹스 신호의 제2 채널(L2)은 은 5-채널 오디오 신호의 채널들의 제2 그룹(402)의 선형 조합(예를 들어, 합)에 대응한다. 제1 및 제2 그룹들(401, 402)은 5-채널 오디오 신호의 5개의 채널 L, LS, LB, TFL, TBL의 파티션을 구성한다.
본 예시적인 실시예에서, 디코딩 섹션(700)은 2-채널 다운믹스 신호 L1, L2 및 업믹스 파라미터들 αLU를 수신하고, 이 다운믹스 신호 L1, L2 및 업믹스 파라미터들 αLU에 기초한 2-채널 출력 신호
Figure 112017042130710-pct00037
를 제공한다. 디코딩 섹션(700)은 상관성 제거 섹션(710) 및 믹싱 섹션(720)을 포함한다. 상관성 제거 섹션(710)은 다운믹스 신호 L1, L2를 수신하고, 그에 기초하여 그리고 업믹스 파라미터들(수학식 4 및 수학식 5 참조)에 따라, 단일-채널 상관성 제거된 신호 D를 출력한다. 믹싱 섹션(720)은 업믹스 파라미터들 αLU에 기초하여 믹싱 계수들의 세트를 결정하고, 이 믹싱 계수들에 따라 다운믹스 신호 L1, L2와 상관성 제거된 신호 D의 선형 조합으로서 출력 신호
Figure 112017042130710-pct00038
를 형성한다. 다시 말해서, 믹싱 섹션(720)은 3개의 채널로부터 2개의 채널로의 투영을 수행한다.
본 예시적인 실시예에서, 디코딩 섹션(700)은 도 5를 참조하여 설명된 제2 코딩 포맷(F2)에 따라 출력 신호
Figure 112017042130710-pct00039
를 제공하도록 구성되고, 따라서 수학식 5에 따라 출력 신호
Figure 112017042130710-pct00040
를 형성한다. 다시 말해서, 믹싱 계수들은 수학식 5의 최좌측 행렬 내의 원소들에 대응하고, 업믹스 파라미터들 αLU에 기초하여 믹싱 섹션에 의해 결정될 수 있다.
따라서, 믹싱 섹션(720)은 출력 신호의 제1 채널
Figure 112017042130710-pct00041
이 5-채널 오디오 신호 L, LS, LB, TFL, TBL의 채널들의 제3 그룹(501)의 선형 조합(예를 들어, 합)에 대응하도록, 그리고 출력 신호의 제2 채널
Figure 112017042130710-pct00042
이 5-채널 오디오 신호 L, LS, LB, TFL, TBL의 채널들의 제4 그룹의 선형 조합(예를 들어, 합)에 대응하도록 믹싱 계수들을 결정한다. 도 5를 참조하여 설명된 바와 같이, 제3 및 제4 그룹들(501, 502)은 5-채널 오디오 신호의 5개의 채널 신호 L, LS, LB, TFL, TBL의 파티션을 구성하고, 제3 및 제4 그룹들(501, 502) 모두는 채널들의 제1 그룹(401)으로부터의 적어도 하나의 채널을 포함한다.
일부 예시적인 실시예들에서, 다운믹스 신호 L1, L2로부터 및 상관성 제거된 신호로부터의 5-채널 오디오 신호 L, LS, LB, TFL, TBL의 파라메트릭 재구성을 위해 사용되는 계수들은 파라메트릭 재구성을 위해 사용되는 실제 계수들의 수보다 적은 수의 파라미터들을 포함하는 콤팩트한 형태로 업믹스 파라미터들 αLU에 의해 표현될 수 있다. 이러한 실시예들에서, 실제 계수들은 사용되는 특정 콤팩트한 형태의 지식에 기초하여 디코더 측에서 도출될 수 있다.
도 8은 예시적인 실시예에 따른, 도 7을 참조하여 설명된 디코딩 섹션(700)을 포함하는 오디오 디코딩 시스템(800)의 일반화된 블록도이다.
예를 들어, 디멀티플렉서를 포함하는, 수신 섹션(801)은 도 2를 참조하여 설명된 오디오 인코딩 시스템(200)으로부터 송신된 비트스트림 B를 수신하고, 비트스트림 B으로부터, 다운믹스 신호 L1, L2 및 관련된 업믹스 파라미터들 αLU, 추가적인 다운믹스 신호 R1, R2 및 관련된 추가적인 업믹스 파라미터들 αRU뿐만 아니라, 채널들 C 및 LFE를 추출한다.
믹싱 파라미터들 αLM 및 추가적인 믹싱 파라미터들 αRM이 비트스트림 B에서 이용 가능할 수 있지만, 이들 파라미터는 본 예시적인 실시예에서 오디오 디코딩 시스템(800)에 의해 사용되지 않는다. 다시 말해서, 본 예시적인 실시예의 오디오 디코딩 시스템(800)은 이러한 믹싱 파라미터들이 추출되지 않을 수도 있는 비트스트림들과 호환 가능하다. 믹싱 파라미터들 αLM을 사용하는 디코딩 섹션에 대해서는 도 9를 참조하여 아래에 더 설명한다.
다운믹스 신호 L1, L2, 추가적인 다운믹스 신호 R1, R2 및/또는 채널들 C 및 LFE가 Dolby Digital, MPEG AAC, 그의 개발들과 같은 지각 오디오 코덱을 사용하여 비트스트림 B에 인코딩되는 경우에, 오디오 디코딩 시스템(800)은 비트스트림 B로부터 추출될 때 각각의 신호들 및 채널들을 디코딩하도록 구성된 코어 디코더(도 8에 도시되지 않음)를 포함할 수 있다.
변환 섹션(802)은 역 MDCT를 수행함으로써 다운믹스 신호 L1, L2를 변환하고, QMF 분석 섹션(803)은 다운믹스 신호 L1, L2를 시간/주파수 타일들의 형태로 다운믹스 신호 L1, L2의 디코딩 섹션(700)에 의한 처리를 위해 QMF 도메인으로 변환한다. 역양자화 섹션(804)은 업믹스 파라미터들 αLU를 디코딩 섹션(700)에 공급하기 전에, 예를 들어 엔트로피 코딩된 포맷으로부터 역양자화한다. 도 2를 참조하여 설명된 바와 같이, 2개의 상이한 스텝 크기, 예를 들어, 0.1 또는 0.2 중 하나로 양자화가 수행되었을 수 있다. 사용되는 실제 스텝 크기는 미리 정의될 수 있거나, 인코더 측으로부터, 예를 들어, 비트스트림 B를 통해 오디오 디코딩 시스템(800)에 시그널링될 수 있다.
본 예시적인 실시예에서, 오디오 디코딩 시스템(800)은 디코딩 섹션(700)과 유사한 추가적인 디코딩 섹션(805)을 포함한다. 추가적인 디코딩 섹션(805)은 도 2 및 도 4를 참조하여 설명된 추가적인 2-채널 다운믹스 신호 R1, R2, 및 이 추가적인 다운믹스 신호 R1, R2에 기초한 추가적인 5-채널 오디오 신호 R, RS, RB, TFR, TBR의 파라메트릭 재구성을 위한 추가적인 업믹스 파라미터들 αRU를 포함하는 추가적인 메타데이터를 수신하도록 구성된다. 추가적인 디코딩 섹션(805)은 다운믹스 신호 및 추가적인 업믹스 파라미터들 αRU에 기초한 추가적인 2-채널 출력 신호
Figure 112017042130710-pct00043
를 제공하도록 구성된다. 추가적인 출력 신호
Figure 112017042130710-pct00044
는 도 5를 참조하여 설명된 제2 코딩 포맷(F2)에 부합되는 추가적인 5-채널 오디오 신호 R, RS, RB, TFR, TBR의 표현을 제공한다.
변환 섹션(806)은 역 MDCT를 수행함으로써 추가적인 다운믹스 신호 R1, R2를 변환하고, QMF 분석 섹션(807)은 추가적인 다운믹스 신호 R1, R2를 시간/주파수 타일들의 형태로 추가적인 다운믹스 신호 R1, R2의 추가적인 디코딩 섹션(805)에 의한 처리를 위해 QMF 도메인으로 변환한다. 역양자화 섹션(808)은 추가적인 업믹스 파라미터들 αRU를 추가적인 디코딩 섹션(805)에 공급하기 전에, 예를 들어 엔트로피 코딩된 포맷으로부터 역양자화한다.
인코더 측에서 다운믹스 신호 L1, L2, 추가적인 다운믹스 신호 R1 R2 및 채널 C에 클립 이득이 적용된 예시적인 실시예들에서, 클립 이득을 보상하기 위해 오디오 디코딩 시스템(800)에서 이들 신호에 대응하는 이득(예를 들어, 8.7 dB에 대응함)이 적용될 수 있다.
도 8을 참조하여 설명된 예시적인 실시예에서, 디코딩 섹션(700) 및 추가적인 디코딩 섹션(805)에 의해 각각 출력되는 출력 신호
Figure 112017042130710-pct00045
및 추가적인 출력 신호
Figure 112017042130710-pct00046
는 예를 들어 5개의 스피커 및 서브우퍼를 포함하는 멀티스피커 시스템(812)에서의 재생을 위해 오디오 디코딩 시스템(800)의 출력으로서 채널들 C 및 LFE와 함께 제공되기 전에 QMF 합성 섹션(811) 에 의해 QMF 도메인으로부터 역변환된다. 변환 섹션들(809, 810)은 이들 채널이 오디오 디코딩 시스템(800)의 출력에 포함되기 전에 역 MDCT를 수행함으로써 채널들 C 및 LFE를 시간 도메인으로 변환한다.
채널들 C 및 LFE는 예를 들어 이산적으로 코딩된 형태로 비트스트림 B로부터 추출될 수 있고, 디코딩 시스템(800)은 예를 들어 각각의 이산적으로 코딩된 채널들을 디코딩하도록 구성된 단일-채널 디코딩 섹션들(도 8에 도시되지 않음)을 포함할 수 있다. 단일-채널 디코딩 섹션은 예를 들어 Dolby Digital, MPEG AAC 또는 그의 개발들과 같은 지각 오디오 코덱을 사용하여 인코딩된 오디오 콘텐츠를 디코딩하기 위한 코어 디코더들을 포함할 수 있다.
도 9는 예시적인 실시예에 따른, 대안적인 디코딩 섹션(900)의 일반화된 블록도이다. 디코딩 섹션(900)은 도 7을 참조하여 설명된 디코딩 섹션(700)와 유사하지만, 이 디코딩 섹션(900)은 도 1을 참조하여 설명된 인코딩 섹션(100)에 의해 또한 제공되는 업믹스 파라미터들 αLU를 사용하는 대신에, 인코딩 섹션(100)에 의해 제공되는 믹싱 파라미터들 αLM을 사용한다는 점은 예외이다.
디코딩 섹션(700)과 유사하게, 디코딩 섹션(900)은 상관성 제거 섹션(910) 및 믹싱 섹션(920)을 포함한다. 상관성 제거 섹션(910)은 도 1을 참조하여 설명된 인코딩 섹션(100)에 의해 제공되는 다운믹스 신호 L1, L2를 수신하고, 이 다운믹스 신호 L1, L2에 기초하여, 단일-채널 상관성 제거된 신호 D를 출력하도록 구성된다. 믹싱 섹션(920)은 믹싱 파라미터들 αLM에 기초하여 믹싱 계수들의 세트를 결정하고, 이 믹싱 계수들에 따라 다운믹스 신호 L1, L2 및 상관성 제거된 신호 D의 선형 조합으로서 출력 신호
Figure 112017042130710-pct00047
를 형성한다. 믹싱 섹션(920)은 업믹스 파라미터들 αLU와 독립적으로 믹싱 파라미터들을 결정하고, 3개의 채널로부터 2개의 채널로의 투영을 수행함으로써 출력 신호
Figure 112017042130710-pct00048
를 형성한다.
본 예시적인 실시예에서, 디코딩 섹션(900)은 도 5를 참조하여 설명된 제2 코딩 포맷(F2)에 따라 출력 신호
Figure 112017042130710-pct00049
를 제공하도록 구성되고, 따라서 수학식 9에 따라 출력 신호
Figure 112017042130710-pct00050
를 형성한다. 다시 말해서, 수신된 믹싱 파라미터들 αLM은 수학식 9의 최좌측 행렬에 파라미터들 cL, dL, γL을 포함할 수 있고, 믹싱 파라미터들 αLM은 수학식 9와 관련하여 설명된 바와 같이 인코더 측에서 결정되었을 수 있다. 따라서, 믹싱 섹션(920)은 출력 신호의 제1 채널
Figure 112017042130710-pct00051
이 도 4 내지 도 6을 참조하여 설명된 5-채널 오디오 신호 L, LS, LB, TFL, TBL의 채널들의 제3 그룹(501)의 선형 조합(예를 들어, 합)에 근사화하도록, 그리고 출력 신호의 제2 채널
Figure 112017042130710-pct00052
이 5-채널 오디오 신호 L, LS, LB, TFL, TBL의 채널들의 제4 그룹(502)의 선형 조합(예를 들어, 합)에 근사화하도록 믹싱 계수들을 결정한다.
다운믹스 신호 L1, L2 및 믹싱 파라미터들 αLM은 예를 들어 도 2를 참조하여 설명된 오디오 인코딩 시스템(200)에 의해 출력된 비트스트림 B로부터 추출될 수 있다. 비트스트림 B에 또한 인코딩된 업믹스 파라미터들 αLU는 본 예시적인 실시예의 디코딩 섹션(900)에 의해 사용될 수 없으며, 따라서 비트스트림 B로부터 추출될 필요가 없다.
도 10은 예시적인 실시예에 따른, 2-채널 다운믹스 신호 및 관련된 업믹스 파라미터들에 기초한 2-채널 출력 신호를 제공하기 위한 오디오 디코딩 방법(1000)의 흐름도이다. 디코딩 방법(1000)은 예를 들어 도 8을 참조하여 설명된 오디오 디코딩 시스템(800)에 의해 수행될 수 있다.
디코딩 방법(1000)은 다운믹스 신호에 기초하여, 도 4 내지 도 6을 참조하여 설명된 5-채널 오디오 신호 L, LS, LB, TFL, TBL의 파라메트릭 재구성을 위한 업믹스 파라미터들을 포함하는 메타데이터와 관련된 2-채널 다운믹스 신호를 수신하는 단계(1010)를 포함한다. 다운믹스 신호는 예를 들어 도 1을 참조하여 설명된 다운믹스 신호 L1, L2일 수 있으며, 도 4에 관하여 설명된 제1 코딩 포맷(F1)에 부합될 수 있다. 디코딩 방법(1000)은 메타데이터의 적어도 일부를 수신하는 단계(1020)를 추가로 포함한다. 수신된 메타데이터는 예를 들어 도 1을 참조하여 설명된 업믹스 파라미터들 αLU 및/또는 믹싱 파라미터들 αLM을 포함할 수 있다. 디코딩 방법(1000)은: 다운믹스 신호의 적어도 하나의 채널에 기초하여 상관성 제거된 신호를 생성하는 단계(1040); 상기 수신된 메타데이터에 기초하여 믹싱 계수들의 세트를 결정하는 단계(1050); 및 상기 믹싱 계수들에 따라, 상기 다운믹스 신호 및 상기 상관성 제거된 신호의 선형 조합으로서 2-채널 출력 신호를 형성하는 단계(1060)를 추가로 포함한다. 2-채널 출력 신호는 예를 들어 도 7 및 도 8을 참조하여 설명된 2-채널 출력 신호
Figure 112017042130710-pct00053
일 수 있으며, 도 5를 참조하여 설명된 제2 코딩 포맷(F2)에 부합될 수 있다. 다시 말해서, 믹싱 계수들은: 출력 신호의 제1 채널
Figure 112017042130710-pct00054
이 채널들의 제3 그룹(501)의 선형 조합에 근사화하고, 출력 신호의 제2 채널
Figure 112017042130710-pct00055
이 채널들의 제4 그룹(502)의 선형 조합에 근사화하도록 결정될 수 있다.
디코딩 방법(1000)은 옵션으로: 수신된 다운믹스 신호 L1, L2가 도 4 및 도 5를 각각 참조하여 설명된 제1 코딩 포맷(F1) 및 제2 코딩 포맷(F2) 중 하나에 부합되는 것을 지시하는 시그널링을 수신하는 단계(1030)를 포함할 수 있다. 제3 및 제4 그룹들(501, 502)은 미리 정의될 수 있고, 믹싱 계수들은 출력 신호
Figure 112017042130710-pct00056
의 채널들에 의해 근사화된, 채널들의 제3 및 제4 그룹들(501, 502)로의 5-채널 오디오 신호 L, LS, LB, TFL, TBL의 단일 파티션이 수신된 다운믹스 신호의 가능한 코딩 포맷 F1, F2 모두에 대해 유지되도록 결정될 수 있다. 디코딩 방법(1000)은 옵션으로 상기 시그널링이 수신된 다운믹스 신호가 제2 코딩 포맷(F2)에 부합되는 것을 지시하는 것에 응답하여 다운믹스 신호 L1, L2를 출력 신호
Figure 112017042130710-pct00057
로서 통과시키는 단계(및/또는 상관성 제거된 신호로부터 출력 신호로의 기여를 억제하는 단계)를 포함할 수 있고, 이후 수신된 다운믹스 신호 L1, L2의 코딩 포맷은 출력 신호
Figure 112017042130710-pct00058
에서 제공될 코딩 포맷과 일치한다.
도 11은 예시적인 실시예에 따른, 컴퓨터 판독 가능 매체(1100)를 개략적으로 도시한다. 컴퓨터 판독 가능 매체(1100)는: 도 1 및 도 4를 참조하여 설명된 2-채널 다운믹스 신호 L1, L2; 다운믹스 신호 L1, L2에 기초한 5-채널 오디오 신호 L, LS, LB, TFL, TBL의 파라메트릭 재구성을 가능하게 하는, 도 1을 참조하여 설명된 업믹스 파라미터들 αLU; 및 도 1을 참조하여 설명된 믹싱 파라미터들 αLM을 나타낸다.
도 1을 참조하여 설명된 인코딩 섹션(100)은 제1 코딩 포맷(F1)에 따라 11.1-채널 오디오 신호를 인코딩하고, 제2 코딩 포맷(F2)에 부합되는 출력 신호를 제공하기 위한 믹싱 파라미터들 αLM을 제공하도록 구성되지만, 코딩 포맷들 F1, F2, F3 중 어느 하나에 따라 11.1-채널 오디오 신호를 인코딩하고, 코딩 포맷 F1, F2, F3 중 어느 하나에 부합되는 출력 신호를 제공하기 위한 믹싱 파라미터들을 제공하도록 구성되는 유사한 인코딩 섹션들이 제공될 수 있다는 것을 이해할 것이다.
또한, 도 7 및 도 9를 참조하여 설명된 디코딩 섹션들(700, 900)은 제1 코딩 포맷(F1)에 부합되는 다운믹스 신호에 기초하여 제2 코딩 포맷(F2)에 부합되는 출력 신호를 제공하도록 구성되지만, 코딩 포맷들 F1, F2, F3 중 어느 하나에 부합되는 다운믹스 신호에 기초하여 코딩 포맷들 F1, F2, F3 중 어느 하나에 부합되는 출력 신호를 제공하도록 구성되는 유사한 디코딩 섹션들이 제공될 수 있다는 것을 이해할 것이다.
도 6을 참조하여 설명된 채널들의 제6 그룹(602)은 4개의 채널을 포함하기 때문에, 제3 코딩 포맷(F3)에 부합되는 다운믹스 신호에 기초하여 제1 또는 제2 코딩 포맷들(F1, F2)에 부합되는 출력 신호를 제공하는 것은 예를 들어: 하나보다 많은 상관성 제거된 채널을 사용하는 단계; 및/또는 상관성 제거 섹션에 대한 입력으로서 다운믹스 신호의 채널들 중 단지 하나를 사용하는 단계를 포함할 수 있다는 것을 이해할 것이다.
상기 설명된 예들은 도 4 내지 도 6를 참조하여 설명된 11.1-채널 오디오 신호의 관점에서 진술되었지만, 임의의 수의 인코딩 섹션 또는 디코딩 섹션을 각각 포함하는, 그리고 임의의 수의 M-채널 오디오 신호를 포함하는 오디오 신호들을 처리하도록 구성될 수 있는 인코딩 시스템들 및 디코딩 시스템들이 예상될 수 있다는 것을 이해할 것이다.
도 12는 예시적인 실시예에 따른, 2-채널 다운믹스 신호 L1, L2 및 관련된 메타데이터에 기초하여 K-채널 출력 신호
Figure 112017042130710-pct00059
를 제공하기 위한 디코딩 섹션(1200)의 일반화된 블록도이다. 이 디코딩 섹션(1200)은 도 7을 참조하여 설명된 디코딩 섹션(700)과 유사하지만, 디코딩 섹션(1200)은 2-채널 오디오 신호
Figure 112017042130710-pct00060
대신에 K-채널 출력 신호
Figure 112017042130710-pct00061
(여기서 2 ≤ K < M)를 제공한다는 점은 예외이다.
더 구체적으로, 디코딩 섹션(1200)은 메타데이터와 관련된 2-채널 다운믹스 신호 L1, L2를 수신하도록 구성되고, 상기 메타데이터는 다운믹스 신호 L1, L2에 기초한 M-채널 오디오 신호(여기서 M ≥ 4)의 파라메트릭 재구성을 위한 업믹스 파라미터들 αLU를 포함한다. 다운믹스 신호 L1, L2의 제1 채널(L1)은 M-채널 오디오 신호의 하나 이상의 채널의 제1 그룹(예를 들어, 도 4를 참조하여 설명된 제1 그룹(401))의 선형 조합(또는 합)에 대응한다. 다운믹스 신호 L1, L2의 제2 채널(L2)은 M-채널 오디오 신호의 하나 이상의 채널의 제2 그룹(예를 들어, 도 4를 참조하여 설명된 제2 그룹(402))의 선형 조합(또는 합)에 대응한다. 제1 및 제2 그룹들은 M-채널 오디오 신호의 M개의 채널의 파티션을 구성한다. 다시 말해서, 제1 및 제2 그룹들은 서로소이며 함께 M-채널 오디오 신호의 모든 채널을 포함한다.
디코딩 섹션(1200)은 메타데이터(예를 들어, 업믹스 파라미터들 αLU를 포함함)의 적어도 일부를 수신하고, 다운믹스 신호 L1, L2 및 수신된 메타데이터에 기초하여 K-채널 출력 신호
Figure 112017042130710-pct00062
를 제공하도록 구성된다. 디코딩 섹션(1200)은 다운믹스 신호 L1, L2의 적어도 하나의 채널을 수신하고, 그에 기초하여, 상관성 제거된 신호 D를 출력하도록 구성된 상관성 제거 섹션(1210)을 포함한다. 디코딩 섹션(1200)은 수신된 메타데이터에 기초하여 믹싱 계수들의 세트를 결정하고, 이 믹싱 계수들에 따라 다운믹스 신호 L1, L2 및 상관성 제거된 신호 D의 선형 조합으로서 출력 신호
Figure 112017042130710-pct00063
를 형성하도록 구성된 믹싱 섹션(1220)을 추가로 구성된다. 믹싱 섹션(1220)은 출력 신호
Figure 112017042130710-pct00064
의 K개의 채널 각각이 M-채널 오디오 신호의 하나 이상의 채널의 그룹의 선형 조합에 근사화하도록 믹싱 계수들을 결정하도록 구성된다. 믹싱 계수들은 출력 신호
Figure 112017042130710-pct00065
의 각각의 채널들에 대응하는 그룹들이 하나 이상의 채널의 K개의 그룹으로의 M-채널 오디오 신호의 M개의 채널의 파티션을 구성하도록, 그리고 이들 K개의 그룹 중 적어도 2개가 M-채널 신호의 채널들의 제1 그룹(즉, 다운믹스 신호의 제1 채널(L1)에 대응하는 그룹)으로부터의 적어도 하나의 채널을 포함하도록 결정된다.
상관성 제거된 신호 D는 예를 들어 단일-채널 신호일 수 있다. 도 12에서 지시된 바와 같이, 상관성 제거된 신호 D는 예를 들어 2-채널 신호일 수 있다. 일부 예시적인 실시예들에서, 상관성 제거된 신호 D는 2개보다 많은 채널을 포함할 수 있다.
M-채널 신호는 예를 들어 도 4를 참조하여 설명된 5-채널 신호 L, LS, LB, TFL, TBL일 수 있고, 다운믹스 신호 L1, L2는 예를 들어 도 4 내지 도 6을 참조하여 설명된 코딩 포맷들 F1, F2, F3 중 어느 하나에 따라 5-채널 신호 L, LS, LB, TFL, TBL의 2-채널 표현일 수 있다.
도 8을 참조하여 설명된 오디오 디코딩 시스템(800)은 예를 들어, 디코딩 섹션들(700 및 805) 대신에, 도 12를 참조하여 설명된 유형의 하나 이상의 디코딩 섹션(1200)을 포함할 수 있으며, 멀티스피커 시스템(812)은 예를 들어 도 8을 참조하여 설명된 5개보다 많은 라우드스피커 및 서브우퍼를 포함할 수 있다.
오디오 디코딩 시스템(800)은 예를 들어 도 10을 참조하여 설명된 오디오 디코딩 방법(1000)과 유사한 오디오 디코딩 방법을 수행하도록 적응될 수 있지만, 2-채널 출력 신호 대신에 K-채널 출력 신호가 제공된다는 점은 예외이다.
디코딩 섹션(1200) 및 오디오 디코딩 시스템(800)의 예시적인 실시예들에 대해서는 도 12 내지 도 16를 참조하여 아래에 설명한다.
도 4 내지 도 6과 유사하게, 도 12 및 도 13은 11.1-채널 오디오 신호를 하나 이상의 채널의 그룹들로 파티션하는 대안적인 방법들을 도시한다.
11.1-채널(또는 7.1+4-채널, 또는 7.1.4-채널) 오디오 신호를 7.1-채널(또는 5.1+2-채널 또는 5.1.2-채널) 오디오 신호로서 나타내기 위해, 채널들 L, LS, LB, TFL, TBL, R, RS, RB, TFR, TBR, C, 및 LFE는 각각의 채널들에 의해 표현된 채널들의 그룹들로 파티션될 수 있다. 5-채널 오디오 신호 L, LS, LB, TFL, TBL은 3-채널 신호 L1, L2, L3에 의해 표현될 수 있는 반면, 추가적인 5-채널 오디오 신호 R, RS, RB, TFR, TBR은 추가적인 3-채널 신호 R1, R2, R3에 의해 표현될 수 있다. 채널들 C 및 LFE는 11.1-채널 오디오 신호의 7.1-채널 표현에서도 개별 채널들로서 유지될 수 있다.
도 13은 11.1-채널 오디오 신호의 7.1-채널 표현을 제공하는 제4 코딩 포맷(F4)을 도시한다. 제4 코딩 포맷(F4)에서, 5-채널 오디오 신호 L, LS, LB, TFL, TBL은 채널 L을 포함하는 채널들의 제1 그룹(1301), 채널 LS, LB를 포함하는 채널들의 제2 그룹(1302), 및 채널들 TFL, TBL을 포함하는 채널들의 제3 그룹(1303)으로 파티션된다. 3-채널 신호 L1, L2, L3의 채널들 L1, L2, L3은 채널들의 각각의 그룹들(1301, 1302, 1303)의 선형 조합들(예를 들어, 가중된 또는 비가중된 합들)에 대응한다. 유사하게, 추가적인 5-채널 오디오 신호 R, RS, RB, TFR, TBR은 채널 R을 포함하는 추가적인 제1 그룹(1304), 채널들 RS, RB를 포함하는 추가적인 제2 그룹(1305), 및 채널들 TFR, TBR을 포함하는 추가적인 제3 그룹(1306)으로 파티션된다. 추가적인 3-채널 신호 R1, R2, R3의 채널들 R1, R2, R3은 채널들의 각각의 추가적인 그룹들(1304, 1305, 1306)의 선형 조합들(예를 들어, 가중된 또는 비가중된 합들)에 대응한다.
본 발명자들은 원래의 11.1-채널 신호를 먼저 재구성하지 않고 제4 코딩 포맷(F4 )에 따른 7.1-채널 표현을 생성하기 위해 제1, 제2 및 제3 코딩 포맷들 F1, F2, F3 중 하나에 따른 11.1-채널 오디오 신호의 5.1-채널 표현과 관련된 메타데이터가 이용될 수 있다는 것을 깨달았다. 5-채널 신호 L, LS, LB, TFL, TBL은 11.1-채널 오디오 신호의 좌측 절반 평면을 나타내고, 추가적인 5-채널 신호 R, RS, RB, TFR, TBR은 우측 절반 평면을 나타내고, 유사하게 취급될 수 있다.
수학식 3을 사용하여 합 m2 = x4 + x5로부터 2개의 채널 x4 및 x5가 재구성 가능함을 상기하자.
제2 코딩 포맷(F2)이 11.1-채널 신호의 파라메트릭 표현을 제공하기 위해 사용되고 제4 코딩 포맷(F4)이 오디오 콘텐츠의 7.1-채널 렌더링을 위해 디코더 측에서 요구된다면, 수학식 1에 의해 주어진 근사화는 한 번은
x1 = TBL, x2 = LS, x3 = LB와 함께,
그리고 한 번은
x1 = TBR, x2 = RS, x3 = RB와 함께 적용될 수 있고,
수학식 3에 의해 주어진 근사화는 한 번은
x4 = L, x5 = TFL과 함께,
그리고 한 번은
x4 = R, x5 = TFR과 함께 적용될 수 있다.
물결표들에 의해 좌측 수량들(출력 신호의 6개의 채널) 중 일부의 근사 특성을 나타내고, 수학식 1 및 수학식 3을 그렇게 적용하면 다음
Figure 112017042130710-pct00066
이 생성되고
여기서
Figure 112017042130710-pct00067
이고,
여기서, 제4 코딩 포맷(F4)에 따라,
Figure 112017042130710-pct00068
,
Figure 112017042130710-pct00069
이다.
상기 행렬 A에서, 파라미터들 c1,L, p1,L 및 c1,R, p1,R은 각각 수학식 1로부터의 업믹스 파라미터들 c1, p1의 좌측 채널 및 우측 채널 버전들이고, d1,L, q1,L 및 d1,R, q1,R은 각각 수학식 3으로부터의 업믹스 파라미터들 d1, q1의 좌측 채널 및 우측 채널 버전들이고, D는 상관성 제거 오퍼레이터를 나타낸다. 따라서, 11.1-채널 오디오 신호를 실제로 재구성할 필요 없이 11.1-채널 오디오 신호의 파라메트릭 재구성을 위한 업믹스 파라미터들(예를 들어, 도 1 및 2를 참조하여 설명된 업믹스 파라미터들 αLU, αRU)에 기초하여 제2 코딩 포맷(F2)으로부터 제4 코딩 포맷(F4)의 근사화가 획득될 수 있다.
(K = 3, M = 5 및 2-채널 상관성 제거된 신호 D와 함께) 도 12를 참조하여 설명된 디코딩 섹션(1200)의 2개의 인스턴스는 제4 코딩 포맷(F4)의 3-채널 신호들 L1, L2, L3 및 R1, R2, R3에 근사화하는 3-채널 출력 신호들
Figure 112017042130710-pct00070
Figure 112017042130710-pct00071
을 제공할 수 있다. 더 구체적으로, 디코딩 섹션들(1200)의 믹싱 섹션들(1220)은 수학식 10으로부터의 행렬 A에 따라 업믹스 파라미터들에 기초하여 믹싱 계수들을 결정할 수 있다. 도 8을 참조하여 설명된 오디오 디코딩 시스템(800)과 유사한 오디오 디코딩 시스템이 2개의 그러한 디코딩 섹션(1200)을 사용하여 7.1-채널 재생을 위한 11.1 오디오 신호의 7.1-채널 표현을 제공할 수 있다.
제1 코딩 포맷(F1)이 11.1-채널 신호의 파라메트릭 표현을 제공하기 위해 사용되고, 제4 코딩 포맷(F4)이 오디오 콘텐츠의 렌더링을 위해 디코더 측에서 요구된다면, 수학식 1에 의해 주어진 근사화는 한 번은
x1 = TBL, x2 = LS, x3 = LB와 함께,
그리고 한 번은
x1 = TBR, x2 = RS, x3 = RB와 함께 적용될 수 있다.
물결표들에 의해 좌측 수량들(출력 신호의 6개의 채널) 중 일부의 근사 특성을 나타내고, 수학식 1을 그렇게 적용하면 다음
Figure 112017042130710-pct00072
이 생성되고,
여기서, 제4 코딩 포맷(F4)에 따라,
Figure 112017042130710-pct00073
(근사화되지 않음),
Figure 112017042130710-pct00074
(근사화되지 않음)이다.
상기 수학식 11에서, 파라미터 c1,L, p1,L 및 c1,R, p1,R은 각각 수학식 1로부터의 파라미터 c1, p1의 좌측 채널 및 우측 채널 버전들이고, D는 상관성 제거 오퍼레이터를 나타낸다. 따라서, 11.1-채널 오디오 신호를 실제로 재구성할 필요 없이, 11.1-채널 오디오 신호의 파라메트릭 재구성을 위한 업믹스 파라미터들에 기초하여 제1 코딩 포맷(F1)으로부터 제4 코딩 포맷(F4)의 근사화가 획득될 수 있다.
(K = 3, M = 5와 함께) 도 12를 참조하여 설명된 디코딩 섹션(1200)의 2개의 인스턴스는 제4 코딩 포맷(F4)의 3-채널 신호들 L1, L2, L3 및 R1, R2, R3에 근사화하는 3-채널 출력 신호들
Figure 112017042130710-pct00075
Figure 112017042130710-pct00076
을 제공할 수 있다. 더 구체적으로, 디코딩 섹션들(1200)의 믹싱 섹션들(1220)은 수학식 11에 따라 업믹스 파라미터들에 기초하여 믹싱 계수들을 결정할 수 있다. 도 8을 참조하여 설명된 오디오 디코딩 시스템(800)과 유사한 오디오 디코딩 시스템이 2개의 그러한 디코딩 섹션(1200)을 사용하여 7.1-채널 재생을 위한 11.1 오디오 신호의 7.1-채널 표현을 제공할 수 있다.
수학식 11에서 알 수 있는 바와 같이, 실제로는 2개의 상관성 제거된 채널만이 필요하다. 상관성 제거된 채널들 D(L2) 및 D(R2)가 제1 코딩 포맷(F1)으로부터 제4 코딩 포맷(F4)을 제공하기 위해 필요하지는 않지만, 그러한 상관성 제거기들은 예를 들어 어쨌든 실행 상태로 유지(또는 활성 상태로 유지)될 수 있으며, 따라서 상관성 제거기의 버퍼들/메모리들은 다운믹스 신호의 코딩 포맷이 예를 들어 제2 코딩 포맷(F2)으로 변경되는 경우에 업데이트되고 이용 가능한 상태로 유지된다. 제2 코딩 포맷(F2)으로부터 제4 코딩 포맷(F4)을 제공할 때 4개의 상관성 제거된 채널이 사용됨을 상기하자(수학식 10 및 관련 행렬 A 참조).
제3 코딩 포맷(F3)이 11.1-채널 오디오 신호의 파라메트릭 표현을 제공하기 위해 사용되고, 제4 코딩 포맷(F4)이 오디오 콘텐츠의 렌더링을 위해 디코더 측에서 요구된다면, 동일한 아이디어를 사용하여 수학식 10 및 수학식 11에서 제시된 것들과 유사한 관계들이 도출될 수 있다. 도 8을 참조하여 설명된 오디오 디코딩 시스템(800)과 유사한 오디오 디코딩 시스템이 2개의 그러한 디코딩 섹션(1200)을 사용하여 제4 코딩 포맷(F4)에 따라 11.1 오디오 신호의 7.1-채널 표현을 제공할 수 있다.
11.1-채널 오디오 신호를 9.1 채널(또는 5.1+4-채널, 또는 5.1.4-채널) 오디오 신호로서 나타내기 위해, 채널들 L, LS, LB, TFL, TBL, R, RS, RB, TFR, TBR, C 및 LFE의 모음은 각각의 채널들에 의해 표현된 채널들의 그룹들로 파티션될 수 있다. 5-채널 오디오 신호 L, LS, LB, TFL, TBL은 4-채널 신호 L1, L2, L3, L4에 의해 표현될 수 있는 반면, 추가적인 5-채널 오디오 신호 R, RS, RB, TFR, TBR은 추가적인 4-채널 신호 R1, R2, R3, R4에 의해 표현될 수 있다. 채널들 C 및 LFE는 11.1-채널 오디오 신호의 9.1 채널 표현에서도 개별 채널들로서 유지될 수 있다.
도 14는 11.1-채널 오디오 신호의 9.1-채널 표현을 제공하는 제5 코딩 포맷(F5)을 도시한다. 제5 코딩 포맷에서, 5-채널 오디오 신호 L, LS, LB, TFL, TBL은 채널 L만을 포함하는 채널들의 제1 그룹(1401), 채널들 LS, LB를 포함하는 채널들의 제2 그룹(1402), 채널 TFL만을 포함하는 채널들의 제3 그룹(1403), 및 채널 TBL만을 포함하는 채널들의 제4 그룹(1404)으로 파티션된다. 4-채널 신호 L1, L2, L3, L4의 채널들 L1, L2, L3, L4은 하나 이상의 채널의 각각의 그룹들(1401,1402,1403,1404)의 선형 조합들(예를 들어, 가중된 또는 비가중된 합들)에 대응한다. 유사하게, 추가적인 5-채널 오디오 신호 R, RS, RB, TFR, TBR은 채널 R을 포함하는 추가적인 제1 그룹(1405), 채널들 RS, RB를 포함하는 추가적인 제2 그룹(1406), 채널 TFR을 포함하는 추가적인 제3 그룹(1407), 및 채널 TBR을 포함하는 추가적인 제4 그룹(1408)으로 파티션된다. 추가적인 4-채널 신호 R1, R2, R3, R4의 채널들 R1, R2, R3, R4은 하나 이상의 채널의 각각의 추가적인 그룹들(1405, 1406, 1407, 1408)의 선형 조합들(예를 들어, 가중된 또는 비가중된 합들)에 대응한다.
본 발명자들은 원래의 11.1-채널 신호를 먼저 재구성하지 않고 제5 코딩 포맷(F5)에 따른 9.1-채널 표현을 생성하기 위해 코딩 포맷들 F1, F2, F3 중 하나에 따른 11.1-채널 오디오 신호의 5.1-채널 표현과 관련된 메타데이터가 사용될 수 있음을 깨달았다. 11.1-채널 오디오 신호의 좌측 절반 평면을 나타내는 5-채널 신호 L, LS, LB, TFL, TBL 및 우측 절반 평면을 나타내는 추가적인 5-채널 신호 R, RS, RB, TFR, TBR은 유사하게 취급될 수 있다.
제2 코딩 포맷(F2)이 11.1-채널 신호의 파라메트릭 표현을 제공하기 위해 사용되고, 제5 코딩 포맷(F5)이 오디오 콘텐츠의 렌더링을 위해 디코더 측에서 요구된다면, 수학식 1에 의해 제공된 근사화는 한 번은
x1 = TBL, x2 = LS, x3 = LB와 함께,
그리고 한 번은
x1 = TBR, x2 = RS, x3 = RB와 함께 적용될 수 있고,
수학식 3의 근사화는 한 번은
x4 = L, x5 = TFL과 함께,
그리고 한 번은
x4 = R, x5 = TFR과 함께 적용될 수 있다.
물결표들에 의해 좌측 수량들(출력 신호의 6개의 채널) 중 일부의 근사 특성을 나타내고, 수학식 1 및 수학식 3을 그렇게 적용하면 다음
Figure 112017042130710-pct00077
이 생성되고,
여기서
Figure 112017042130710-pct00078
이고,
여기서, 제5 코딩 포맷(F5)에 따라,
Figure 112017042130710-pct00079
이고
Figure 112017042130710-pct00080
이다.
상기 행렬 A에서, 파라미터들 c1,L, p1,L 및 c1,R, p1,R은 각각 수학식 1로부터의 업믹스 파라미터들 c1, p1의 좌측 채널 및 우측 채널 버전들이고, d1,L, q1,L 및 d1,R, q1,R은 각각 수학식 3으로부터의 업믹스 파라미터들 d1, q1의 좌측 채널 및 우측 채널 버전들이고, D는 상관성 제거 오퍼레이터를 나타낸다. 따라서, 11.1-채널 오디오 신호를 실제로 재구성할 필요 없이 11.1-채널 오디오 신호의 파라메트릭 재구성을 위한 업믹스 파라미터들에 기초하여 제2 코딩 포맷(F2)으로부터 제5 코딩 포맷(F5)의 근사화가 획득될 수 있다.
(K = 4, M = 5 및 2-채널 상관성 제거된 신호 D와 함께) 도 12를 참조하여 설명된 디코딩 섹션(1200)의 2개의 인스턴스는 제5 코딩 포맷(F5)의 4-채널 신호들 L1, L2, L3, L4 및 R1, R2, R3, R4에 근사화하는 4-채널 출력 신호들
Figure 112017042130710-pct00081
Figure 112017042130710-pct00082
을 제공할 수 있다. 더 구체적으로, 디코딩 섹션들의 믹싱 섹션들(1220)은 수학식 12에 따라 업믹스 파라미터들에 기초하여 믹싱 계수들을 결정할 수 있다. 도 8을 참조하여 설명된 오디오 디코딩 시스템(800)과 유사한 오디오 디코딩 시스템이 2개의 그러한 디코딩 섹션(1200)을 사용하여 9.1-채널 재생을 위한 11.1 오디오 신호의 9.1-채널 표현을 제공할 수 있다.
제1 코딩 포맷(F1) 또는 제3 코딩 포맷(F3)이 11.1-채널 오디오 신호의 파라메트릭 표현을 제공하기 위해 사용되고, 제5 코딩 포맷(F5)이 오디오 콘텐츠의 렌더링을 위해 디코더 측에서 요구된다면, 동일한 아이디어를 사용하여 수학식 12에서 제시된 관계와 유사한 관계들이 도출될 수 있다.
도 15 및 도 16은 13.1-채널 오디오 신호를 5.1-채널 오디오 신호, 및 7.1-채널 신호로서 각각 표현하기 위해 13.1-채널(또는 9.1+4-채널, 또는 9.1.4-채널) 오디오 신호를 채널들의 그룹들로서 파티션하는 대안적인 방법들을 도시한다.
13.1-채널 오디오 신호는 다음 채널들 LW(left wide), LSCRN(left screen), LS(left side), LB(left back), TFL(top front left), TBL(top back left), RW(right wide), RSCRN(right screen), RS(right side), RB(right back), TFR(top front right), TBR(top back right), C(center), 및 LFE(low frequency effects)를 포함한다. 6개의 채널 LW, LSCRN, LS, LB, TFL 및 TBL은 13.1-채널 오디오 신호의 재생 환경에서 좌측 절반 공간을 나타내는 6-채널 오디오 신호를 형성한다. 4개의 채널 LW, LSCRN, LS 및 LB는 재생 환경에서 상이한 수평 방향들을 나타내고, 2개의 채널 TFL 및 TBL은 4개의 채널 LW, LSCRN, LS 및 LB의 방향들로부터 수직으로 분리된 방향들을 나타낸다. 2개의 채널 TFL 및 TBL은 예를 들어 천장 스피커들에서의 재생을 위해 의도될 수 있다. 유사하게, 6개의 채널 RW, RSCRN, RS, RB, TFR 및 TBR은 재생 환경의 우측 절반 공간을 나타내는 추가적인 6-채널 오디오 신호를 형성하고, 4개의 채널 RW, RSCRN, RS 및 RB는 재생 환경에서 상이한 수평 방향들을 나타내고, 2개의 채널 TFR 및 TBR은 4개의 채널 RW, RSCRN, RS 및 RB의 방향들로부터 수직으로 분리된 방향들을 나타낸다.
도 15는 6-채널 오디오 신호 LW, LSCRN, LS, LB, TFL, TBL이 채널들 LW, LSCRN, TFL의 제1 그룹(1501)과 채널들 LS, LB, TBL의 제2 그룹(1502)으로 파티션되고, 추가적인 6-채널 오디오 신호 RW, RSCRN, RS, RB, TFR, TBR이 채널들 RW, RSCRN, TFR의 추가적인 제1 그룹(1503) 및 채널들 RS, RB, TBR 의 추가적인 제2 그룹(1504)으로 파티션되는 제6 코딩 포맷(F6)을 도시한다. 2-채널 다운믹스 신호 L1, L2의 채널들 L1, L2은 채널들의 각각의 그룹들(1501, 1502)의 선형 조합들(예를 들어, 가중된 또는 비가중된 합들)에 대응한다. 유사하게, 추가적인 2-채널 다운믹스 신호 R1, R2의 채널들 R1, R2은 채널들의 각각의 추가적인 그룹들(1503, 1504)의 선형 조합들(예를 들어, 가중된 또는 비가중된 합들)에 대응한다.
도 16은 6-채널 오디오 신호 LW, LSCRN, LS, LB, TFL, TBL이 채널들 LW, LSCRN의 제1 그룹(1601), 채널들 LS, LB의 제2 그룹(1602) 및 채널들 TFL, TBL의 제3 그룹(1603)으로 파티션되고, 추가적인 6-채널 오디오 신호 RW, RSCRN, RS, RB, TFR, TBR이 채널들 RW, RSCRN의 추가적인 제1 그룹(1604), 채널들 RS, RB의 추가적인 제2 그룹(1605), 및 채널들 TFR, TBR의 추가적인 제3 그룹(1606)으로 파티션되는 제7 코딩 포맷(F7)을 도시한다. 3개의 채널 L1, L2, L3은 채널들의 각각의 그룹들(1601, 1602, 1603)의 선형 조합들(예를 들어, 가중된 또는 비가중된 합들)에 대응한다. 유사하게, 3개의 추가적인 채널 R1, R2, R3은 채널들의 각각의 추가적인 그룹들(1604, 1605, 1606)의 선형 조합들(예를 들어, 가중된 또는 비가중된 합들)에 대응한다.
본 발명자들은 원래의 13.1-채널 신호를 먼저 재구성하지 않고 제7 코딩 포맷(F7)에 따른 7.1-채널 표현을 생성하기 위해 제6 코딩 포맷(F6)에 따른 13.1-채널 오디오 신호의 5.1-채널 표현과 관련된 메타데이터가 사용될 수 있다는 것을 깨달았다. 13.1-채널 오디오 신호의 좌측 절반 평면을 나타내는 6-채널 신호 LW, LSCRN, LS, LB, TFL, TBL, 및 13.1-채널 오디오 신호의 우측 절반 평면을 나타내는 추가적인 6-채널 신호 RW, RSCRN, RS, RB, TFR, TBR은 유사하게 취급될 수 있다.
수학식 3을 사용하여 합 m2 = x4 + x5로부터 2개의 채널 x4 및 x5가 재구성 가능함을 상기하자.
제6 코딩 포맷(F6)이 13.1-채널 신호의 파라메트릭 표현을 제공하기 위해 사용되고 제7 코딩 포맷(F7)이 오디오 콘텐츠의 7.1-채널(또는 5.1+2-채널 또는 5.1.2-채널) 렌더링을 위해 디코더 측에서 요구된다면, 수학식 1에 의해 주어진 근사화는 한 번은
x1 = TBL, x2 = LS, x3 = LB와 함께,
한 번은
x1 = TBR, x2 = RS, x3 = RB와 함께,
한 번은
x1 = TFL, x2 = LW, x3 = LSCRN과 함께,
그리고 한 번은
x1 = TFR, x2 = RW, x3 = RSCRN과 함께 4회 적용될 수 있다.
물결표들에 의해 좌측 수량들(출력 신호의 6개의 채널) 중 일부의 근사 특성을 나타내고, 수학식을 그렇게 적용하면 다음
Figure 112017042130710-pct00083
이 생성되고
여기서
Figure 112017042130710-pct00084
이고,
여기서, 제7 코딩 포맷(F7)에 따라,
Figure 112017042130710-pct00085
Figure 112017042130710-pct00086
이다.
상기 행렬 A에서, 파라미터들 c1,L, p1,L 및 c'1,L, p'1,L 은 좌측에 대한 수학식 1로부터의 업믹스 파라미터들 c1, p1의 2개의 상이한 인스턴스이고, 파라미터들 c1,R, p1,R 및 c'1,R, p'1,R은 우측에 대한 수학식 1로부터의 업믹스 파라미터들 c1, p1의 2개의 상이한 인스턴스이고, D는 상관성 제거 오퍼레이터를 나타낸다. 따라서, 13.1-채널 오디오 신호를 실제로 재구성할 필요 없이 13.1-채널 오디오 신호의 파라메트릭 재구성을 위한 업믹스 파라미터들에 기초하여 제6 코딩 포맷(F6)으로부터 제7 코딩 포맷(F7)의 근사화가 획득될 수 있다.
(K = 3, M = 6 및 2-채널 상관성 제거된 신호 D와 함께) 도 12를 참조하여 설명된 디코딩 섹션(1200)의 2개의 인스턴스는 제6 코딩 채널(F6)에 따라 인코더 측에서 생성된 2-채널 다운믹스 신호들에 기초하여, 제7 코딩 포맷(F7)의 3-채널 신호들 L1, L2, L3 및 R1, R2, R3에 근사화하는 3-채널 출력 신호들
Figure 112017042130710-pct00087
Figure 112017042130710-pct00088
을 제공할 수 있다. 더 구체적으로, 디코딩 섹션들(1200)의 믹싱 섹션들(1220)은 수학식 13으로부터의 행렬 A에 따라 업믹스 파라미터들에 기초하여 믹싱 계수들을 결정할 수 있다. 도 8을 참조하여 설명된 오디오 디코딩 시스템(800)과 유사한 오디오 디코딩 시스템이 2개의 그러한 디코딩 섹션(1200)을 사용하여 7.1-채널 재생을 위한 13.1 오디오 신호의 7.1-채널 표현을 제공할 수 있다.
수학식 10 내지 수학식 13(및 관련 행렬들 A)에서 알 수 있는 바와 같이, 출력 신호의 2개의 채널(예를 들어, 수학식 11에서의 채널들
Figure 112017042130710-pct00089
Figure 112017042130710-pct00090
)이 동일한 상관성 제거된 채널(예를 들어, 수학식 11에서의 D(L1))로부터의 기여들을 수신한다면, 이 2개의 기여들은 동일한 크기를 갖지만, 반대 부호들(예를 들어 수학식 11에서의 믹싱 계수들 p1,L 및 -p1,L에 의해 지시됨)을 갖는다.
수학식 10 내지 수학식 13(및 관련 행렬들 A)에서 알 수 있는 바와 같이, 출력 신호의 2개의 채널(예를 들어, 수학식 11에서의 채널들
Figure 112017042130710-pct00091
Figure 112017042130710-pct00092
)이 동일한 다운믹스 채널(예를 들어, 수학식 11에서의 채널 L1)로부터의 기여들을 수신한다면, 이 2개의 기여들을 제어하는 2개의 믹싱 계수들(예를 들어, 수학식 11에서의 믹싱 계수들 c1,L 및 1 - c1,L)의 합은 값 1을 갖는다.
도 12 내지 도 16을 참조하여 전술한 바와 같이, 디코딩 섹션(1200)은 2-채널 다운믹스 신호 L1, L2 및 업믹스 파라미터들 αLU에 기초한 K-채널 출력 신호
Figure 112017042130710-pct00093
를 제공할 수 있다. 업믹스 파라미터들 αLU는 원래의 M-채널 오디오 신호의 파라메트릭 재구성을 위해 적응될 수 있고, 디코딩 섹션(1200)의 믹싱 섹션(1220)은 M-채널 오디오 신호를 재구성하지 않고 K-채널 출력 신호
Figure 112017042130710-pct00094
를 제공하기 위해, 업믹스 파라미터들 αLU에 기초하여 적합한 믹싱 파라미터들을 계산할 수 있다.
일부 예시적인 실시예들에서, 디코더 측에서 K-채널 출력 신호
Figure 112017042130710-pct00095
의 제공을 용이하게 하기 위해 인코더 측으로부터 전용 믹싱 파라미터들 αLM이 전송될 수 있다.
예를 들면, 디코딩 섹션(1200)은 도 9를 참조하여 설명된 디코딩 섹션(900)과 유사하게 구성될 수 있다.
예를 들어, 디코딩 섹션(1200)은 수학식 10 내지 수학식 13에 도시된 믹싱 행렬들(즉, A로 표시된 행렬들) 중 하나 이상의 행렬의 원소들(또는 믹싱 계수들)의 형태로 믹싱 파라미터들 αLM 을 수신할 수 있다. 이러한 예에서, 디코딩 섹션(1200)이 수학식 10 내지 수학식 13에서의 믹싱 행렬들 내의 원소들 중 임의의 원소를 계산할 필요가 없을 수 있다.
예시적인 실시예들은 도 1을 참조하여 설명된 분석 섹션(120)(및 도 2를 참조하여 설명된 추가적인 분석 섹션(203))이 다운믹스 신호 L1, L2에 기초하여, K-채널 출력 신호(여기서, 2 ≤ K < M)를 획득하기 위한 믹싱 파라미터들 αLM를 결정한다. 이 믹싱 파라미터들 αLM은 예를 들어 수학식 10 내지 수학식 13의 믹싱 행렬들(즉, A로 표시된 행렬들) 중 하나 이상의 행렬의 원소들 (또는 믹싱 계수들)의 형태로 제공될 수 있다.
예를 들어 믹싱 파라미터들 αLM의 다수의 세트가 제공될 수 있으며, 여기서 믹싱 파라미터들 αLM의 각각의 세트들은 디코더 측에서의 상이한 렌더링 유형들을 위해 의도된다. 예를 들어, 도 2를 참조하여 전술한 오디오 인코딩 시스템(200)은 원래의 11.1-채널 오디오 신호의 5.1 다운믹스 표현이 제공되는, 그리고 5.1-채널 렌더링을 위해(제1, 제2 및/또는 제3 코딩 포맷들(F1, F2, F3)에 따른), 7.1-채널 렌더링을 위해(제4 코딩 포맷(F4)에 따른) 및/또는 9.1 채널 렌더링을 위해(제5 코딩 포맷(F5)에 따른) 믹싱 파라미터들 αLM의 세트가 제공될 수 있는 비트스트림 B를 제공할 수 있다.
도 3을 참조하여 설명된 오디오 인코딩 방법(300)은 예를 들어 다운믹스 신호 L1, L2에 기초하여, K-채널 출력 신호(여기서 2 ≤ K < M)를 획득하기 위한 믹싱 파라미터들 αLM을 결정하는 단계(340)를 포함할 수 있다.
도 11을 참조하여 설명된 컴퓨터 판독 가능 매체(1100)가: 2-채널 다운믹스 신호(예를 들어, 도 1 및 도 4를 참조하여 설명된 2-채널 다운믹스 신호 L1, L2); 다운믹스 신호에 기초하여 M-채널 오디오 신호(예를 들어, 5-채널 오디오 신호 L, LS, LB, TFL, TBL)의 파라메트릭 재구성을 가능하게 하는 업믹스 파라미터들(예를 들어, 도 1을 참조하여 설명된 업믹스 파라미터들 αLU); 및 다운믹스 신호에 기초하여 K-채널 출력 신호의 제공을 가능하게 하는 믹싱 파라미터들 αLM을 나타내는 예시적인 실시예들이 예상될 수 있다. 전술한 바와 같이, M ≥ 4 및 2 ≤ K < M이다.
전술한 예들은 M = 5개 및 M = 6개 채널을 갖는 원래의 오디오 신호들 및 K = 2개, K = 3개 및 K = 4개 채널을 갖는 출력 신호들의 관점에서 진술되었지만, M ≥ 4 및 2 ≤ K < M을 만족하는 임의의 M 및 K에 대해 유사한 인코딩 시스템들(및 인코딩 섹션들) 및 디코딩 시스템들(및 디코딩 섹션들)이 예상될 수 있다는 것을 이해할 것이다.
V. 균등물, 확장, 대안 및 기타 사항
본 개시가 특정한 예시적인 실시예들을 설명 및 도시하고 있지만, 본 발명은 이들 특정 예에 제한되지 않는다. 상기 예시적인 실시예들에 대한 수정 및 변형은 첨부된 청구항들에 의해서만 한정되는 본 발명의 범위를 벗어나지 않고 이루어질 수 있다.
청구항들에서, "포함하는(comprising)"이란 용어는 다른 요소들 또는 단계들을 배제하는 것은 아니며, 부정관사("a" 또는 "an")는 복수를 배제하는 것은 아니다. 특정 수단들이 서로 상이한 종속 청구항들에서 인용된다는 단순한 사실이, 이러한 수단들의 조합이 유익하게 사용될 수 없다는 것을 나타내는 것은 아니다. 청구항들에 나오는 임의의 참조 부호들은 그들의 범위를 제한하는 것으로 이해되어서는 안 된다.
위에 개시된 디바이스들 및 방법들은 소프트웨어, 펌웨어, 하드웨어 또는 이들의 조합으로서 구현될 수 있다. 하드웨어 구현에서, 상기 설명에서 참조된 기능적 유닛들 간의 작업들의 분할은 반드시 물리적 유닛들로의 분할에 대응하지 않고; 반대로, 하나의 물리적 컴포넌트는 다중 기능들을 가질 수 있고, 하나의 작업은 여러 물리적 컴포넌트들에 의해 분산된 방식으로 협력하여 수행될 수 있다. 특정 컴포넌트들 또는 모든 컴포넌트들은 디지털 프로세서, 신호 프로세서 또는 마이크로프로세서에 의해 실행되는 소프트웨어로서 구현될 수 있거나, 하드웨어로서 또는 특정 용도의 집적 회로로서 구현될 수 있다. 이러한 소프트웨어는 컴퓨터 저장 매체(또는 비일시적인 매체) 및 통신 매체(또는 일시적인 매체)를 포함할 수 있는, 컴퓨터 판독가능 매체 상에 분배될 수 있다. 본 기술 분야의 통상의 기술자에게 널리 공지된 바와 같이, 컴퓨터 저장 매체라는 용어는 컴퓨터 판독가능 명령들, 데이터 구조들, 프로그램 모듈들 또는 다른 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술에서 구현되는 휘발성 및 비휘발성, 이동식 및 비이동식 매체 모두를 포함한다. 컴퓨터 저장 매체는 RAM, ROM, EEPROM, 플래시 메모리 또는 다른 메모리 기술, CD-ROM, 디지털 다기능 디스크들(DVD) 또는 다른 광학 디스크 스토리지, 자기 카세트들, 자기 테이프, 자기 디스크 스토리지 또는 다른 자기 저장 디바이스들, 또는 원하는 정보를 저장하는 데 사용될 수 있고 컴퓨터에 의해 액세스될 수 있는 임의의 다른 매체를 포함하지만, 이들로 제한되지 않는다. 또한, 통신 매체는 전형적으로 컴퓨터 판독가능 명령들, 데이터 구조들, 프로그램 모듈들 또는 다른 데이터를 반송파 또는 다른 전송 메커니즘과 같은 변조된 데이터 신호에 구현하고 임의의 정보 전달 매체를 포함한다는 것은 통상의 기술자에게 널리 공지되어 있다.
VI. 예들의 목록
1. 오디오 디코딩 방법(1000)으로서,
메타데이터와 관련되는 2-채널 다운믹스 신호(L1, L2)를 수신하는 단계(1010) - 상기 메타데이터는 상기 다운믹스 신호에 기초한 M-채널 오디오 신호(L, LS, LB, TFL, TBL)의 파라메트릭 재구성을 위한 업믹스 파라미터들(αLU)을 포함하고, M ≥ 4이고, 상기 다운믹스 신호의 제1 채널(L1)은 상기 M-채널 오디오 신호의 하나 이상의 채널의 제1 그룹(401)의 선형 조합에 대응하고, 상기 다운믹스 신호의 제2 채널(L2)은 상기 M-채널 오디오 신호의 하나 이상의 채널의 제2 그룹(402)의 선형 조합에 대응하고, 상기 제1 및 제2 그룹들은 상기 M-채널 오디오 신호의 M개의 채널의 파티션을 구성함 -;
상기 메타데이터의 적어도 일부를 수신하는 단계(1020);
상기 다운믹스 신호의 적어도 하나의 채널에 기초하여 상관성 제거된 신호(D)를 생성하는 단계(1040);
상기 수신된 메타데이터에 기초하여 믹싱 계수들의 세트를 결정하는 단계(1050); 및
상기 믹싱 계수들에 따라 상기 다운믹스 신호 및 상기 상관성 제거된 신호의 선형 조합으로서 2-채널 출력 신호
Figure 112017042130710-pct00096
를 형성하는 단계(1060)를 포함하고,
상기 믹싱 계수들은:
상기 출력 신호의 제1 채널
Figure 112017042130710-pct00097
이 상기 M-채널 오디오 신호의 하나 이상의 채널의 제3 그룹(501)의 선형 조합에 근사화하고;
상기 출력 신호의 제2 채널
Figure 112017042130710-pct00098
이 상기 M-채널 오디오 신호의 하나 이상의 채널의 제4 그룹(502)의 선형 조합에 근사화하고;
상기 제3 및 제4 그룹들이 상기 M-채널 오디오 신호의 M개의 채널의 파티션을 구성하고;
상기 제3 및 제4 그룹들 모두가 상기 제1 그룹으로부터의 적어도 하나의 채널을 포함하도록 결정되는, 오디오 디코딩 방법.
2. 예 1의 오디오 디코딩 방법으로서, 상기 수신된 메타데이터는 상기 업믹스 파라미터들을 포함하고, 상기 믹싱 계수들은 상기 업믹스 파라미터들을 처리함으로써 결정되는, 오디오 디코딩 방법.
3. 예 1의 오디오 디코딩 방법으로서, 상기 수신된 메타데이터는 상기 업믹스 파라미터들과 구별되는 믹싱 파라미터들(αLM)을 포함하는, 오디오 디코딩 방법.
4. 예 3의 오디오 디코딩 방법으로서, 상기 믹싱 계수들은 상기 업믹스 파라미터들의 임의의 값들과 독립적으로 결정되는, 오디오 디코딩 방법.
5. 앞의 예들 중 어느 하나의 오디오 디코딩 방법으로서, M = 5인, 오디오 디코딩 방법.
6. 앞의 예들 중 어느 하나의 오디오 디코딩 방법으로서, 상기 M-채널 오디오 신호의 채널로부터 상기 다운믹스 신호의 채널들이 대응하는, 상기 선형 조합들 중 하나로의 기여를 제어하는 각각의 이득은, 상기 M-채널 오디오 신호의 상기 채널로부터 상기 출력 신호의 채널들에 의해 근사화된 상기 선형 조합들 중 하나로의 기여를 제어하는 이득과 일치하는, 오디오 디코딩 방법.
7. 앞의 예들 중 어느 하나의 오디오 디코딩 방법으로서, 상기 다운믹스 신호 및 상기 메타데이터를 나타내는 비트스트림(B)을 수신하는 초기 단계를 추가로 포함하고, 상기 다운믹스 신호 및 상기 수신된 메타데이터는 상기 비트스트림으로부터 추출되는, 오디오 디코딩 방법.
8. 앞의 예들 중 어느 하나의 오디오 디코딩 방법으로서, 상기 상관성 제거된 신호는 단일-채널 신호이고, 상기 출력 신호는 단지 하나의 상관성 제거된 신호 채널을 상기 다운믹스 신호 및 상기 상관성 제거된 신호의 상기 선형 조합에 포함시킴으로써 형성되는, 오디오 디코딩 방법.
9. 예 8의 오디오 디코딩 방법으로서, 상기 믹싱 계수들은 상기 출력 신호의 2개의 채널이 상기 상관성 제거된 신호로부터 동일한 크기의 기여들을 수신하도록 결정되며, 상기 상관성 제거된 신호로부터 상기 출력 신호의 각각의 채널로의 기여들은 반대 부호들을 갖는, 오디오 디코딩 방법.
10. 예 8 및 예 9 중 어느 하나의 오디오 디코딩 방법으로서, 상기 출력 신호를 형성하는 단계는 3개의 채널로부터 2개의 채널로의 투영에 상당하는, 오디오 디코딩 방법.
11. 앞의 예들 중 어느 하나의 오디오 디코딩 방법으로서, 상기 믹싱 계수들은 상기 다운믹스 신호의 제1 채널로부터 상기 출력 신호의 제1 채널로의 기여를 제어하는 믹싱 계수와, 상기 다운믹스 신호의 제1 채널로부터 상기 출력 신호의 제2 채널로의 기여를 제어하는 믹싱 계수의 합이 값 1을 갖도록 결정되는, 오디오 디코딩 방법.
12. 앞의 예들 중 어느 하나의 오디오 디코딩 방법으로서, 상기 제1 그룹은 2개 또는 3개의 채널로 구성되는, 오디오 디코딩 방법.
13. 앞의 예들 중 어느 하나의 오디오 디코딩 방법으로서, 상기 M-채널 오디오 신호는 상기 M-채널 오디오 신호에 대한 재생 환경에서 상이한 수평 방향들을 나타내는 3개의 채널(L, LS, LB), 및 상기 재생 환경에서 상기 3개의 채널의 방향들과 수직으로 분리된 방향들을 나타내는 2개의 채널(TFL, TBL)을 포함하는, 오디오 디코딩 방법.
14. 예 13의 오디오 디코딩 방법으로서, 상기 제1 그룹은 상기 3개의 채널로 구성되고, 상기 제2 그룹은 상기 2개의 채널로 구성되는, 오디오 디코딩 방법.
15. 예 14의 오디오 디코딩 방법으로서, 상기 제3 및 제4 그룹들 중 하나는 상기 2개의 채널 모두를 포함하는, 오디오 디코딩 방법.
16. 예 14의 오디오 디코딩 방법으로서, 상기 제3 및 제4 그룹들 각각은 상기 2개의 채널 중 하나를 포함하는, 오디오 디코딩 방법.
17. 앞의 예들 중 어느 하나의 오디오 디코딩 방법으로서, 상기 상관성 제거된 신호는 상기 다운믹스 신호의 채널들의 선형 조합을 처리함으로써 획득되는, 오디오 디코딩 방법.
18. 예 1 내지 예 15 중 어느 하나의 오디오 디코딩 방법으로서, 상기 상관성 제거된 신호는 상기 다운믹스 신호의 단지 하나의 채널에 기초하여 획득되는, 오디오 디코딩 방법.
19. 예 1 및 예 2 및 예 5 내지 예 18 중 어느 하나의 오디오 디코딩 방법으로서, 상기 제1 그룹은 N개의 채널로 구성되고, N ≥ 3이고, 상기 제1 그룹은 건식(dry) 업믹스 계수들을 상기 다운믹스 신호의 상기 제1 채널에 적용하고, 습식(wet) 업믹스 계수들을 (N-1)-채널 상관성 제거된 신호의 채널들에 적용함으로써 상기 (N-1)-채널 상관성 제거된 신호와 상기 다운믹스 신호의 상기 제1 채널의 선형 조합으로서 재구성 가능하고, 상기 수신된 메타데이터는 습식 업믹스 파라미터들 및 건식 업믹스 파라미터들을 포함하고, 상기 믹싱 계수들을 결정하는 단계는:
상기 건식 업믹스 파라미터들에 기초하여, 상기 건식 업믹스 계수들을 결정하는 단계;
수신된 습식 업믹스 파라미터들의 수보다 많은 원소들을 갖는 중간 행렬을, 상기 중간 행렬이 미리 정의된 행렬 클래스에 속한다는 것을 아는 것 및 상기 수신된 습식 업믹스 파라미터들에 기초하여, 채우는 단계;
상기 중간 행렬을 미리 정의된 행렬과 곱함으로써 상기 습식 업믹스 계수들을 획득하는 단계 - 상기 습식 업믹스 계수들은 상기 곱셈으로부터 생성된 행렬에 대응하고 상기 중간 행렬 내의 원소들의 수보다 많은 계수들을 포함함 -; 및
상기 습식 및 건식 업믹스 계수들을 처리하는 단계를 포함하는, 오디오 디코딩 방법.
20. 앞의 예들 중 어느 하나의 오디오 디코딩 방법으로서,
상기 M-채널 오디오 신호의 적어도 2개의 코딩 포맷(F1, F2, F3) 중 하나를 지시하는 시그널링을 수신하는 단계(1030)를 추가로 포함하고, 상기 코딩 포맷들은 상기 다운믹스 신호의 채널들과 관련된 각각의 제1 및 제2 그룹들로의 상기 M-채널 오디오 신호의 채널들의 각각의 상이한 파티션들에 대응하고,
상기 제3 및 제4 그룹들은 미리 정의되고, 상기 믹싱 계수들은 상기 출력 신호의 채널들에 의해 근사화된, 채널들의 상기 제3 및 제4 그룹들로의 상기 M-채널 오디오 신호의 단일 파티션이 상기 적어도 2개의 코딩 포맷에 대해 유지되도록 결정되는, 오디오 디코딩 방법.
21. 예 20의 오디오 디코딩 방법으로서,
특정 코딩 포맷(F2)을 지시하는 상기 시그널링에 응답하여, 상기 다운믹스 신호를 상기 출력 신호로서 통과시키는 단계(1070)를 추가로 포함하고, 상기 특정 코딩 포맷은 상기 제3 및 제4 그룹들이 정의하는 파티션과 일치하는 상기 M-채널 오디오 신호의 채널들의 파티션에 대응하는, 오디오 디코딩 방법.
22. 예 20의 오디오 디코딩 방법으로서,
특정 코딩 포맷을 지시하는 상기 시그널링에 응답하여, 상기 상관성 제거된 신호로부터 상기 출력 신호로의 기여를 억제하는 단계를 추가로 포함하고, 상기 특정 코딩 포맷은 상기 제3 및 제4 그룹들이 정의하는 파티션과 일치하는 상기 M-채널 오디오 신호의 채널들의 파티션에 대응하는, 오디오 디코딩 방법.
23. 예 20 내지 예 22 중 어느 하나의 오디오 디코딩 방법으로서,
제1 코딩 포맷(F1)에서, 상기 제1 그룹은 상기 M-채널 오디오 신호에 대한 재생 환경에서 상이한 수평 방향들을 나타내는 3개의 채널(L, LS, LB)로 구성되고, 상기 제2 그룹은 상기 재생 환경에서 상기 3개의 채널의 방향들과 수직으로 분리된 방향들을 나타내는 2개의 채널(TFL, TBL)로 구성되고;
제2 코딩 포맷(F2)에서, 상기 제1 및 제2 그룹들 각각은 상기 2개의 채널 중 하나를 포함하는, 오디오 디코딩 방법.
24. 디코딩 섹션(700)을 포함하는 오디오 디코딩 시스템(800)으로서, 상기 디코딩 섹션은:
메타데이터와 관련되는 2-채널 다운믹스 신호(L1, L2)를 수신하고 - 상기 메타데이터는 상기 다운믹스 신호에 기초한 M-채널 오디오 신호(L, LS, LB, TFL, TBL)의 파라메트릭 재구성을 위한 업믹스 파라미터들(αLU)을 포함하고, M ≥ 4이고, 상기 다운믹스 신호의 제1 채널(L1)은 상기 M-채널 오디오 신호의 하나 이상의 채널의 제1 그룹(401)의 선형 조합에 대응하고, 상기 다운믹스 신호의 제2 채널(L2)은 상기 M-채널 오디오 신호의 하나 이상의 채널(TFL, TBL)의 제2 그룹(402)의 선형 조합에 대응하고, 상기 제1 및 제2 그룹들은 상기 M-채널 오디오 신호의 M개의 채널의 파티션을 구성함 -;
상기 메타데이터의 적어도 일부를 수신하고;
상기 다운믹스 신호 및 상기 수신된 메타데이터에 기초하여 2-채널 출력 신호
Figure 112017042130710-pct00099
를 제공하도록 구성되고,
상기 디코딩 섹션은:
상기 다운믹스 신호의 적어도 하나의 채널을 수신하고, 그에 기초하여, 상관성 제거된 신호(D)를 출력하도록 구성된 상관성 제거 섹션(710); 및
상기 수신된 메타데이터에 기초하여 믹싱 계수들의 세트를 결정하고, 상기 믹싱 계수들에 따라 상기 다운믹스 신호 및 상기 상관성 제거된 신호의 선형 조합으로서 상기 출력 신호를 형성하도록 구성된 믹싱 섹션(720)을 포함하고,
상기 믹싱 섹션은:
상기 출력 신호의 제1 채널
Figure 112017042130710-pct00100
이 상기 M-채널 오디오 신호의 하나 이상의 채널의 제3 그룹(501)의 선형 조합에 근사화하고;
상기 출력 신호의 제2 채널
Figure 112017042130710-pct00101
이 상기 M-채널 오디오 신호의 하나 이상의 채널의 제4 그룹(502)의 선형 조합에 근사화하고;
상기 제3 및 제4 그룹들이 상기 M-채널 오디오 신호의 M개의 채널의 파티션을 구성하고;
상기 제3 및 제4 그룹들 모두가 상기 제1 그룹으로부터의 적어도 하나의 채널을 포함하도록 상기 믹싱 계수들을 결정하도록 구성되는, 오디오 디코딩 시스템.
25. 예 24의 오디오 디코딩 시스템으로서, 추가적인 디코딩 섹션(805)을 추가로 포함하고, 상기 추가적인 디코딩 섹션은:
추가적인 메타데이터와 관련되는 추가적인 2-채널 다운믹스 신호(R1, R2)를 수신하고 - 상기 추가적인 메타데이터는 상기 추가적인 다운믹스 신호에 기초한 추가적인 M-채널 오디오 신호(R, RS, RB, TFR, TBR)의 파라메트릭 재구성을 위한 추가적인 업믹스 파라미터들(αRU)을 포함하고, 상기 추가적인 다운믹스 신호의 제1 채널(R1)은 상기 추가적인 M-채널 오디오 신호의 하나 이상의 채널의 제1 그룹(403)의 선형 조합에 대응하고, 상기 추가적인 다운믹스 신호의 제2 채널(R2)은 상기 추가적인 M-채널 오디오 신호의 하나 이상의 채널의 제2 그룹(404)의 선형 조합에 대응하고, 상기 추가적인 M-채널 오디오 신호의 채널들의 상기 제1 및 제2 그룹들은 상기 M-채널 오디오 신호의 M개의 채널의 파티션을 구성함 -,
상기 추가적인 메타데이터의 적어도 일부를 수신하고;
상기 추가적인 다운믹스 신호 및 상기 추가적인 수신된 메타데이터에 기초하여 추가적인 2-채널 출력 신호
Figure 112017042130710-pct00102
를 제공하도록 구성되고,
상기 추가적인 디코딩 섹션은:
상기 추가적인 다운믹스 신호의 적어도 하나의 채널을 수신하고, 그에 기초하여, 추가적인 상관성 제거된 신호를 출력하도록 구성된 추가적인 상관성 제거 섹션; 및
상기 수신된 추가적인 메타데이터에 기초하여 추가적인 믹싱 계수들의 세트를 결정하고, 상기 추가적인 믹싱 계수들에 따라 상기 추가적인 다운믹스 신호 및 상기 추가적인 상관성 제거된 신호의 선형 조합으로서 상기 추가적인 출력 신호를 형성하도록 구성된 추가적인 믹싱 섹션을 포함하고,
상기 추가적인 믹싱 섹션은:
상기 추가적인 출력 신호의 제1 채널
Figure 112017042130710-pct00103
이 상기 추가적인 M-채널 오디오 신호의 하나 이상의 채널의 제3 그룹(503)의 선형 조합에 근사화하고;
상기 추가적인 출력 신호의 제2 채널
Figure 112017042130710-pct00104
이 상기 추가적인 M-채널 오디오 신호의 하나 이상의 채널의 제4 그룹(504)의 선형 조합에 근사화하고;
상기 추가적인 M-채널 오디오 신호의 채널들의 상기 제3 및 제4 그룹들이 상기 추가적인 M-채널 오디오 신호의 M개의 채널의 파티션을 구성하고;
상기 추가적인 M-채널 오디오 신호의 채널들의 상기 제3 및 제4 그룹들 모두가 상기 추가적인 M-채널 오디오 신호의 채널들의 상기 제1 그룹으로부터의 적어도 하나의 채널을 포함하도록 상기 추가적인 믹싱 계수들을 결정하도록 구성되는, 오디오 디코딩 시스템.
26. 예 24 및 예 25 중 어느 하나의 디코딩 시스템으로서,
비트스트림(B)으로부터, 상기 다운믹스 신호, 상기 수신된 메타데이터, 및 이산적으로 코딩된 오디오 채널(C)을 추출하도록 구성된 디멀티플렉서(801); 및
상기 이산적으로 코딩된 오디오 채널을 디코딩하도록 동작 가능한 단일-채널 디코딩 섹션을 추가로 포함하는, 오디오 디코딩 시스템.
27. 오디오 인코딩 방법(300)으로서,
M-채널 오디오 신호(L, LS, LB, TFL, TBL)를 수신하는 단계(310) - M ≥ 4 -;
상기 M-채널 오디오 신호에 기초하여 2-채널 다운믹스 신호(L1, L2)를 계산하는 단계(320) - 상기 다운믹스 신호의 제1 채널(L1)은 상기 M-채널 오디오 신호의 하나 이상의 채널의 제1 그룹(401)의 선형 조합으로서 형성되고, 상기 다운믹스 신호의 제2 채널(L2)은 상기 M-채널 오디오 신호의 하나 이상의 채널의 제2 그룹(402)의 선형 조합으로서 형성되고, 상기 제1 및 제2 그룹들은 상기 M-채널 오디오 신호의 M개의 채널의 파티션을 구성함 -;
상기 다운믹스 신호로부터 상기 M-채널 오디오 신호의 파라메트릭 재구성을 위한 업믹스 파라미터들(αLU)을 결정하는 단계(330);
상기 다운믹스 신호에 기초하여, 2-채널 출력 신호
Figure 112017042130710-pct00105
를 획득하기 위한 믹싱 파라미터들을 결정하는 단계(340) - 상기 출력 신호의 제1 채널
Figure 112017042130710-pct00106
은 상기 M-채널 오디오 신호의 하나 이상의 채널의 제3 그룹(501)의 선형 조합에 근사화하고, 상기 출력 신호의 제2 채널
Figure 112017042130710-pct00107
은 상기 M-채널 오디오 신호의 하나 이상의 채널의 제4 그룹(502)의 선형 조합에 근사화하고, 상기 제3 및 제4 그룹들은 상기 M-채널 오디오 신호의 M개의 채널의 파티션을 구성하고, 상기 제3 및 제4 그룹들 모두는 상기 제1 그룹으로부터의 적어도 하나의 채널을 포함함 -; 및
공동 저장 또는 송신을 위해 상기 다운믹스 신호 및 메타데이터를 출력하는 단계(350)를 포함하고, 상기 메타데이터는 상기 업믹스 파라미터들 및 상기 믹싱 파라미터들을 포함하는, 오디오 인코딩 방법.
28. 예 27의 오디오 인코딩 방법으로서, 상기 믹싱 파라미터들은 상기 다운믹스 신호로부터 및 상관성 제거된 신호로부터 상기 출력 신호로의 각각의 기여들을 제어하고, 상기 믹싱 파라미터들 중 적어도 일부는 상기 출력 신호의 채널들이 각각 채널들의 상기 제1 및 제2 그룹들의 선형 조합들의 공분산 보존 근사화(covariance-preserving approximation)들이 되게 하는 믹싱 파라미터들 중에서 상기 상관성 제거된 신호로부터의 기여를 최소화함으로써 결정되는, 오디오 인코딩 방법.
29. 예 27 및 예 28 중 어느 하나의 오디오 인코딩 방법으로서,
상기 제1 그룹은 N개의 채널로 구성되고, N ≥ 3이고, 상기 업믹스 파라미터들 중 적어도 일부는 상기 다운믹스 신호의 상기 제1 채널에 기초하여 결정된 (N-1)-채널 상관성 제거된 신호 및 상기 다운믹스 신호의 상기 제1 채널로부터의 상기 제1 그룹의 파라메트릭 재구성에 적합하고, 상기 업믹스 파라미터들을 결정하는 단계는:
상기 제1 그룹에 근사화하는 상기 다운믹스 신호의 상기 제1 채널의 선형 매핑을 정의하기 위해 건식 업믹스 계수들의 세트를 결정하는 단계; 및
수신된 상기 제1 그룹의 공분산과, 상기 다운믹스 신호의 상기 제1 채널의 선형 매핑에 의해 근사화된 상기 제1 그룹의 공분산 간의 차이에 기초하여 중간 행렬을 결정하는 단계를 포함하고, 상기 중간 행렬은 미리 정의된 행렬과 곱해질 때 상기 제1 그룹의 파라메트릭 재구성의 일부로서 상기 상관성 제거된 신호의 선형 매핑을 정의하는 습식 업믹스 계수들의 세트에 대응하고, 상기 습식 업믹스 계수들의 세트는 상기 중간 행렬 내의 원소들의 수보다 많은 계수들을 포함하고,
상기 업믹스 파라미터들은 상기 건식 업믹스 계수들의 세트가 도출 가능한, 건식 업믹스 파라미터들, 및 상기 중간 행렬이 미리 정의된 행렬 클래스에 속한다면 상기 중간 행렬을 고유하게 정의하는 습식 업믹스 파라미터들을 포함하고, 상기 중간 행렬은 상기 습식 업믹스 파라미터들의 수보다 많은 원소들을 갖는, 오디오 인코딩 방법.
30. 예 27 내지 예 29 중 어느 하나의 오디오 인코딩 방법으로서,
적어도 2개의 코딩 포맷(F1, F2, F3) 중 하나를 선택하는 단계를 추가로 포함하고, 상기 코딩 포맷들은 상기 다운믹스 신호의 채널들과 관련된 각각의 제1 및 제2 그룹들로의 상기 M-채널 오디오 신호의 채널들의 각각의 상이한 파티션들에 대응하고,
상기 다운믹스 신호의 상기 제1 및 제2 채널들은 상기 선택된 코딩 포맷에 따라, 상기 M-채널 오디오 신호의 하나 이상의 채널의 제1 및 제2 그룹의 선형 조합들로서 각각 형성되고, 상기 업믹스 파라미터들 및 상기 믹싱 파라미터들은 상기 선택된 코딩 포맷에 기초하여 결정되고,
상기 방법은:
상기 선택된 코딩 포맷을 지시하는 시그널링을 제공하는 단계를 추가로 포함하는, 오디오 인코딩 방법.
31. 인코딩 섹션(100)을 포함하는 오디오 인코딩 시스템(200)으로서, 상기 인코딩 섹션은 M-채널 오디오 신호(L, LS, LB, TFL, TBL)를 2-채널 다운믹스 신호(L1, L2) 및 관련된 메타데이터로서 인코딩하고 - M ≥ 4 -, 상기 다운믹스 신호 및 메타데이터를 공동 저장 또는 송신을 위해 출력하도록 구성되고, 상기 인코딩 섹션은:
상기 M-채널 오디오 신호에 기초하여 상기 다운믹스 신호를 계산하도록 구성된 다운믹스 섹션(110) - 상기 다운믹스 신호의 제1 채널(L1)은 상기 M-채널 오디오 신호의 하나 이상의 채널의 제1 그룹(401)의 선형 조합으로서 형성되고, 상기 다운믹스 신호의 제2 채널(L2)은 상기 M-채널 오디오 신호의 하나 이상의 채널의 제2 그룹(402)의 선형 조합으로서 형성되고, 상기 제1 및 제2 그룹들은 상기 M-채널 오디오 신호의 M개의 채널의 파티션을 구성함 -; 및
상기 다운믹스 신호로부터 상기 M-채널 오디오 신호의 파라메트릭 재구성을 위한 업믹스 파라미터들(αLU), 및 상기 다운믹스 신호에 기초하여, 2-채널 출력 신호
Figure 112017042130710-pct00108
를 획득하기 위한 믹싱 파라미터들(αLM)을 결정하도록 구성된 분석 섹션(120)을 포함하고, 상기 출력 신호의 제1 채널
Figure 112017042130710-pct00109
은 상기 M-채널 오디오 신호의 하나 이상의 채널의 제3 그룹(501)의 선형 조합에 근사화하고, 상기 출력 신호의 제2 채널
Figure 112017042130710-pct00110
은 상기 M-채널 오디오 신호의 하나 이상의 채널의 제4 그룹(502)의 선형 조합에 근사화하고, 상기 제3 및 제4 그룹들은 상기 M-채널 오디오 신호의 M개의 채널의 파티션을 구성하고, 상기 제3 및 제4 그룹들 모두는 상기 제1 그룹으로부터의 적어도 하나의 채널을 포함하고,
상기 메타데이터는 업믹스 파라미터들 및 믹싱 파라미터들을 포함하는, 오디오 인코딩 시스템.
32. 예 1 내지 예 23 및 예 27 내지 예 30 중 어느 하나의 방법을 수행하기 위한 명령들을 갖는 컴퓨터 판독 가능 매체를 포함하는 컴퓨터 프로그램 제품.
33. 컴퓨터 판독 가능 매체(1100)로서,
2-채널 다운믹스 신호(L1, L2);
상기 다운믹스 신호에 기초한 M-채널 오디오 신호(L, LS, LB, TFL, TBL)의 파라메트릭 재구성을 가능하게 하는 업믹스 파라미터들(αLU) - M ≥ 4이고, 상기 다운믹스 신호의 제1 채널(L1)은 상기 M-채널 오디오 신호의 하나 이상의 채널의 제1 그룹(401)의 선형 조합에 대응하고, 상기 다운믹스 신호의 제2 채널(L2)은 상기 M-채널 오디오 신호의 하나 이상의 채널의 제2 그룹(402)의 선형 조합에 대응하고, 상기 제1 및 제2 그룹들은 상기 M-채널 오디오 신호의 M개의 채널의 파티션을 구성함 -; 및
상기 다운믹스 신호에 기초한 2-채널 출력 신호
Figure 112017042130710-pct00111
의 제공을 가능하게 하는 믹싱 파라미터들(αLM)을 나타내고, 상기 출력 신호의 제1 채널
Figure 112017042130710-pct00112
은 상기 M-채널 오디오 신호의 하나 이상의 채널의 제3 그룹(501)의 선형 조합에 근사화하고, 상기 출력 신호의 제2 채널
Figure 112017042130710-pct00113
은 상기 M-채널 오디오 신호의 하나 이상의 채널의 제4 그룹(502)의 선형 조합에 근사화하고, 상기 제3 및 제4 그룹들은 상기 M-채널 오디오 신호의 M개의 채널의 파티션을 구성하고, 상기 상기 제3 및 제4 그룹들 모두는 상기 제1 그룹으로부터의 적어도 하나의 채널을 포함하는, 컴퓨터 판독 가능 매체.
34. 예 33의 컴퓨터 판독 가능 매체로서, 상기 데이터 캐리어에 의해 표현된 데이터는 시간 프레임들로 배열되고, 주어진 시간 프레임에 대해, 해당 시간 프레임에 대한 상기 다운믹스 신호 및 관련된 믹싱 파라미터들이 관련된 업믹스 파라미터들과 독립적으로 추출될 수 있도록 계층화되는, 컴퓨터 판독 가능 매체.

Claims (41)

  1. 오디오 디코딩 방법(1000)으로서,
    메타데이터와 관련되는 2-채널 다운믹스 신호(L1, L2)를 수신하는 단계(1010) - 상기 메타데이터는 상기 다운믹스 신호에 기초한 M-채널 오디오 신호(L, LS, LB, TFL, TBL)의 파라메트릭 재구성을 위한 업믹스 파라미터들(αLU)을 포함하고, M ≥ 4임 -;
    상기 메타데이터의 적어도 일부를 수신하는 단계(1020);
    상기 다운믹스 신호의 적어도 하나의 채널에 기초하여 상관성 제거된 신호(D)를 생성하는 단계(1040);
    상기 수신된 메타데이터에 기초하여 믹싱 계수들의 세트를 결정하는 단계(1050); 및
    상기 믹싱 계수들에 따라 상기 다운믹스 신호 및 상기 상관성 제거된 신호의 선형 조합으로서 K-채널 출력 신호
    Figure 112022118514480-pct00114
    를 형성하는 단계(1060)를 포함하고, 2 ≤ K < M이고,
    상기 믹싱 계수들은 상기 다운믹스 신호의 제1 채널로부터 상기 출력 신호의 채널로의 기여를 제어하는 믹싱 계수와 상기 다운믹스 신호의 제1 채널로부터 상기 출력 신호의 또다른 채널로의 기여를 제어하는 믹싱 계수의 합이 값 1을 갖도록 결정되고,
    상기 다운믹스 신호가 제1 코딩 포맷(F1)에 따라 상기 M-채널 오디오 신호를 나타내면, 상기 K-채널 출력 신호는 제2 코딩 포맷(F2, F4)에 따라 상기 M-채널 오디오 신호를 나타내고,
    상기 제1 코딩 포맷(F1)에서,
    상기 다운믹스 신호의 제1(L1) 채널이 상기 M-채널 오디오 신호의 하나 이상의 채널의 제1 그룹(401)의 특정 선형 조합에 대응하고;
    상기 다운믹스 신호의 제2 채널(L2)은 상기 M-채널 오디오 신호의 하나 이상의 채널의 제2 그룹(402)의 특정 선형 조합에 대응하고;
    상기 제1 및 제2 그룹들은 상기 M-채널 오디오 신호의 M개의 채널의 특정 파티션을 구성하고,
    상기 제2 코딩 포맷(F2, F4)에서,
    상기 출력 신호의 상기 K개의 채널들 각각은 상기 M-채널 오디오 신호의 하나 이상의 채널의 그룹의 선형 조합에 근사화하고;
    상기 출력 신호의 상기 각각의 채널들에 대응하는 그룹들은 상기 M-채널 오디오 신호의 상기 M개의 채널들의 파티션을 하나 이상의 채널의 K 그룹들(501-502, 1301-1303)로 구성하고;
    상기 K개의 그룹들 중 적어도 2개는 상기 제1 그룹으로부터의 적어도 하나의 채널을 포함하는, 오디오 디코딩 방법.
  2. 제1항에 있어서,
    K = 2, K = 3 또는 K = 4 및/또는 M=5 또는 M=6인 오디오 디코딩 방법.
  3. 제1항 또는 제2항에 있어서,
    상기 수신된 메타데이터는 상기 업믹스 파라미터들을 포함하고, 상기 믹싱 계수들은 상기 업믹스 파라미터들을 처리함으로써 결정되는, 오디오 디코딩 방법.
  4. 제1항 또는 제2항에 있어서,
    상기 제1 코딩 포맷에서, 상기 M-채널 오디오 신호의 상기 채널들 각각은 상기 다운믹스 신호의 채널들이 대응하는, 상기 선형 조합들 중 하나로의 해당 채널들로부터의 기여를 제어하는 넌-제로 이득과 관련되고;
    상기 제2 코딩 포맷에서, 상기 M-채널 오디오 신호의 상기 채널들 각각은 상기 출력 신호의 채널들에 의해 근사화된 선형 조합들 중 하나로의 해당 채널들로부터의 기여를 제어하는 넌-제로 이득과 관련되고;
    상기 M-채널 오디오 신호의 채널들 각각에 대해, 상기 제1 코딩 포맷에서의 채널과 관련된 상기 넌-제로 이득은 상기 제2 코딩 포맷에서의 채널과 관련된 상기 넌-제로 이득과 일치하는, 오디오 디코딩 방법.
  5. 제1항 또는 제2항에 있어서,
    상기 상관성 제거된 신호는 2-채널 신호이고, 상기 출력 신호는 단지 두개의 상관성 제거된 신호 채널들을 상기 다운믹스 신호 및 상기 상관성 제거된 신호의 상기 선형 조합에 포함시킴으로써 형성되는, 오디오 디코딩 방법.
  6. 제5항에 있어서,
    K = 3이고, 상기 출력 신호를 형성하는 단계는 4개의 채널로부터 3개의 채널로의 투영에 상당하는, 오디오 디코딩 방법.
  7. 제1항 또는 제2항에 있어서,
    상기 M-채널 오디오 신호는 상기 M-채널 오디오 신호에 대한 재생 환경에서 상이한 수평 방향들을 나타내는 3개 또는 4개의 채널(L, LS, LB 또는 LSCRN, LW, LS, LB), 및 상기 재생 환경에서 상기 3개 또는 4개의 채널의 방향들과 수직으로 분리된 방향들을 나타내는 2개의 채널(TFL, TBL)을 포함하는, 오디오 디코딩 방법.
  8. 제7항에 있어서,
    상기 제1 그룹은 상기 3개의 채널로 구성되고, 상기 제2 그룹은 상기 재생 환경에서 상기 3개의 채널의 방향들과 수직으로 분리된 방향들을 나타내는 상기 2개의 채널로 구성되는, 오디오 디코딩 방법.
  9. 제7항에 있어서,
    상기 K개의 그룹 중 하나는 상기 재생 환경에서 상기 3개 또는 4개의 채널의 방향들과 수직으로 분리된 방향들을 나타내는 상기 2개의 채널 모두를 포함하는, 오디오 디코딩 방법.
  10. 제1항 또는 제2항에 있어서,
    상기 상관성 제거된 신호는 2개의 채널을 포함하고, 상기 상관성 제거된 신호의 제1 채널은 상기 다운믹스 신호의 제1 채널에 기초하여 획득되고, 상기 상관성 제거된 신호의 제2 채널은 상기 다운믹스 신호의 제2 채널에 기초하여 획득되는, 오디오 디코딩 방법.
  11. 제1항 또는 제2항에 있어서,
    상기 M-채널 오디오 신호의 적어도 2개의 코딩 포맷(F1, F2, F3) 중 하나를 지시하는 시그널링 단계(1030)를 추가로 포함하고, 상기 코딩 포맷들은 상기 다운믹스 신호의 채널들과 관련된 각각의 제1 및 제2 그룹들로의 상기 M-채널 오디오 신호의 채널들의 각각의 상이한 파티션들에 대응하고,
    상기 K개의 그룹은 미리 정의되고, 상기 믹싱 계수들은 상기 출력 신호의 채널들에 의해 근사화된, 채널들의 상기 K개의 그룹들로의 상기 M-채널 오디오 신호의 단일 파티션이 상기 적어도 2개의 코딩 포맷에 대해 유지되도록 결정되는, 오디오 디코딩 방법.
  12. 제11항에 있어서,
    상기 적어도 2개의 코딩 포맷 중 제1 코딩 포맷(F1)에서, 상기 제1 그룹은 상기 M-채널 오디오 신호에 대한 재생 환경에서 상이한 수평 방향들을 나타내는 3개의 채널(L, LS, LB)로 구성되고, 상기 제2 그룹은 상기 재생 환경에서 상기 3개의 채널의 방향들과 수직으로 분리된 방향들을 나타내는 2개의 채널(TFL, TBL)로 구성되고;
    상기 적어도 2개의 코딩 포맷 중 제2 코딩 포맷(F2)에서, 상기 제1 및 제2 그룹들 각각은 상기 재생 환경에서 상기 3개의 채널의 방향들과 수직으로 분리된 방향들을 나타내는 상기 2개의 채널 중 하나를 포함하는, 오디오 디코딩 방법.
  13. 디코딩 섹션(700, 1200)을 포함하는 오디오 디코딩 시스템(800)으로서, 상기 디코딩 섹션은:
    메타데이터와 관련되는 2-채널 다운믹스 신호(L1, L2)를 수신하고 - 상기 메타데이터는 상기 다운믹스 신호에 기초한 M-채널 오디오 신호(L, LS, LB, TFL, TBL)의 파라메트릭 재구성을 위한 업믹스 파라미터들(αLU)을 포함하고, M ≥ 4임 -;
    상기 메타데이터의 적어도 일부를 수신하고;
    상기 다운믹스 신호 및 상기 수신된 메타데이터에 기초하여 K-채널 출력 신호
    Figure 112022118514480-pct00137
    를 제공하도록 구성되고, 2 ≤ K < M이고,
    상기 디코딩 섹션은:
    상기 다운믹스 신호의 적어도 하나의 채널을 수신하고, 그에 기초하여, 상관성 제거된 신호(D)를 출력하도록 구성된 상관성 제거 섹션(710, 1210); 및
    상기 수신된 메타데이터에 기초하여 믹싱 계수들의 세트를 결정하고, 상기 믹싱 계수들에 따라 상기 다운믹스 신호 및 상기 상관성 제거된 신호의 선형 조합으로서 상기 출력 신호를 형성하도록 구성된 믹싱 섹션(720, 1220)을 포함하고,
    상기 믹싱 섹션은 상기 다운믹스 신호의 제1 채널로부터 상기 출력 신호의 채널로의 기여를 제어하는 믹싱 계수와 상기 다운믹스 신호의 제1 채널로부터 상기 출력 신호의 또다른 채널로의 기여를 제어하는 믹싱 계수의 합이 값 1을 갖도록 상기 믹싱 계수들이 결정되도록 구성되고,
    상기 다운믹스 신호가 제1 코딩 포맷(F1)에 따라 상기 M-채널 오디오 신호를 나타내면, 상기 K-채널 출력 신호는 제2 코딩 포맷(F2, F4)에 따라 상기 M-채널 오디오 신호를 나타내고,
    상기 제1 코딩 포맷(F1)에서,
    상기 다운믹스 신호의 제1(L1) 채널이 상기 M-채널 오디오 신호의 하나 이상의 채널의 제1 그룹(401)의 특정 선형 조합에 대응하고;
    상기 다운믹스 신호의 제2 채널(L2)은 상기 M-채널 오디오 신호의 하나 이상의 채널의 제2 그룹(402)의 특정 선형 조합에 대응하고;
    상기 제1 및 제2 그룹들은 상기 M-채널 오디오 신호의 M개의 채널의 특정 파티션을 구성하고,
    상기 제2 코딩 포맷(F2, F4)에서,
    상기 출력 신호의 상기 K 채널들 각각은 상기 M-채널 오디오 신호의 하나 이상의 채널의 그룹의 선형 조합에 근사화하고;
    상기 출력 신호의 상기 각각의 채널들에 대응하는 그룹들은 상기 M-채널 오디오 신호의 상기 M 채널들의 파티션을 하나 이상의 채널의 K개의 그룹들(501-502, 1301-1303)로 구성하고;
    상기 K개의 그룹들 중 적어도 2개는 상기 제1 그룹으로부터의 적어도 하나의 채널을 포함하는, 오디오 디코딩 시스템.
  14. 제13항에 있어서,
    추가적인 디코딩 섹션(805)을 추가로 포함하고, 상기 추가적인 디코딩 섹션은:
    추가적인 메타데이터와 관련되는 추가적인 2-채널 다운믹스 신호(R1, R2)를 수신하고 - 상기 추가적인 메타데이터는 상기 추가적인 다운믹스 신호에 기초한 추가적인 M-채널 오디오 신호(R, RS, RB, TFR, TBR)의 파라메트릭 재구성을 위한 추가적인 업믹스 파라미터들(αRU)을 포함함 -;
    상기 추가적인 메타데이터의 적어도 일부를 수신하고;
    상기 추가적인 다운믹스 신호 및 상기 추가적인 수신된 메타데이터에 기초하여 추가적인 K-채널 출력 신호
    Figure 112020114180416-pct00138
    를 제공하도록 구성되고,
    상기 추가적인 디코딩 섹션은:
    상기 추가적인 다운믹스 신호의 적어도 하나의 채널을 수신하고, 그에 기초하여, 추가적인 상관성 제거된 신호를 출력하도록 구성된 추가적인 상관성 제거 섹션; 및
    상기 수신된 추가적인 메타데이터에 기초하여 추가적인 믹싱 계수들의 세트를 결정하고,
    상기 추가적인 믹싱 계수들에 따라 상기 추가적인 다운믹스 신호 및 상기 추가적인 상관성 제거된 신호의 선형 조합으로서 상기 추가적인 출력 신호를 형성하도록 구성된 추가적인 믹싱 섹션을 포함하고,
    상기 추가적인 믹싱 섹션은 상기 추가적인 다운믹스 신호의 제1 채널로부터 상기 추가적인 출력 신호의 채널로의 기여를 제어하는 믹싱 계수와 상기 추가적인 다운믹스 신호의 제1 채널로부터 상기 추가적인 출력 신호의 또다른 채널로의 기여를 제어하는 믹싱 계수의 합이 값 1을 갖도록 상기 추가적인 믹싱 계수들을 결정하도록 구성되고,
    상기 추가적인 다운믹스 신호가 제3 코딩 포맷에 따라 상기 추가적인 M-채널 오디오 신호를 나타내면, 상기 추가적인 K-채널 출력 신호는 제4 코딩 포맷에 따라 상기 추가적인 M-채널 오디오 신호를 나타내고,
    상기 제3 코딩 포맷에서,
    상기 추가적인 다운믹스 신호의 제1(R1) 채널은 상기 추가적인 M-채널 오디오 신호의 하나 이상의 채널의 제1 그룹(403)의 선형 조합에 대응하고;
    상기 추가적인 다운믹스 신호의 제2 채널(R2)은 상기 추가적인 M-채널 오디오 신호의 하나 이상의 채널의 제2 그룹(404)의 선형 조합에 대응하고;
    상기 제1 및 제2 그룹들은 상기 추가적인 M-채널 오디오 신호의 M개의 채널의 파티션을 구성하고,
    상기 제4 코딩 포맷에서,
    상기 추가적인 출력 신호의 상기 K개의 채널들 각각은 상기 M-채널 오디오 신호의 하나 이상의 채널의 그룹의 선형 조합에 근사화하고;
    상기 추가적인 출력 신호의 상기 각각의 채널들에 대응하는 그룹들은 상기 추가적인 M-채널 오디오 신호의 상기 M개의 채널들의 파티션을 하나 이상의 채널의 K개의 그룹들(503-504, 1304-1306)로 구성하고;
    상기 K개의 그룹들 중 적어도 2개는 상기 추가적인 M-채널 오디오 신호의 채널들의 상기 제1 그룹으로부터의 적어도 하나의 채널을 포함하는, 오디오 디코딩 시스템.
  15. 제13항 또는 제14항에 있어서,
    비트스트림(B)으로부터, 상기 다운믹스 신호, 상기 수신된 메타데이터, 및 이산적으로 코딩된 오디오 채널(C)을 추출하도록 구성된 디멀티플렉서(801); 및
    상기 이산적으로 코딩된 오디오 채널을 디코딩하도록 동작 가능한 단일-채널 디코딩 섹션을 추가로 포함하는, 오디오 디코딩 시스템.
  16. 제1항 또는 제2항의 방법을 수행하기 위한 명령들을 갖는, 컴퓨터 판독 가능한 기록 매체에 저장된 컴퓨터 프로그램.
  17. 삭제
  18. 삭제
  19. 삭제
  20. 삭제
  21. 삭제
  22. 삭제
  23. 삭제
  24. 삭제
  25. 삭제
  26. 삭제
  27. 삭제
  28. 삭제
  29. 삭제
  30. 삭제
  31. 삭제
  32. 삭제
  33. 삭제
  34. 삭제
  35. 삭제
  36. 삭제
  37. 삭제
  38. 삭제
  39. 삭제
  40. 삭제
  41. 삭제
KR1020177011883A 2014-10-31 2015-10-28 오디오 신호의 파라메트릭 믹싱 KR102501969B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201462073462P 2014-10-31 2014-10-31
US62/073,462 2014-10-31
US201562167711P 2015-05-28 2015-05-28
US62/167,711 2015-05-28
PCT/EP2015/075022 WO2016066705A1 (en) 2014-10-31 2015-10-28 Parametric mixing of audio signals

Publications (2)

Publication Number Publication Date
KR20170078663A KR20170078663A (ko) 2017-07-07
KR102501969B1 true KR102501969B1 (ko) 2023-02-21

Family

ID=54364338

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020177011883A KR102501969B1 (ko) 2014-10-31 2015-10-28 오디오 신호의 파라메트릭 믹싱

Country Status (39)

Country Link
US (1) US9930465B2 (ko)
EP (1) EP3213322B1 (ko)
JP (1) JP6686015B2 (ko)
KR (1) KR102501969B1 (ko)
CN (1) CN107112020B (ko)
AU (1) AU2015340622B2 (ko)
CA (1) CA2965731C (ko)
CL (1) CL2017001037A1 (ko)
CO (1) CO2017004283A2 (ko)
CY (1) CY1121917T1 (ko)
DK (1) DK3213322T3 (ko)
EA (1) EA034250B1 (ko)
EC (1) ECSP17023702A (ko)
ES (1) ES2732668T3 (ko)
GE (1) GEP20196960B (ko)
GT (1) GT201700088A (ko)
HK (1) HK1243547B (ko)
HR (1) HRP20191107T1 (ko)
HU (1) HUE044368T2 (ko)
IL (1) IL251789B (ko)
LT (1) LT3213322T (ko)
ME (1) ME03453B (ko)
MX (1) MX364405B (ko)
MY (1) MY190174A (ko)
PE (1) PE20170759A1 (ko)
PH (1) PH12017500723A1 (ko)
PL (1) PL3213322T3 (ko)
PT (1) PT3213322T (ko)
RS (1) RS58874B1 (ko)
SA (1) SA517381440B1 (ko)
SG (1) SG11201703263PA (ko)
SI (1) SI3213322T1 (ko)
SV (1) SV2017005431A (ko)
TN (1) TN2017000143A1 (ko)
TW (1) TWI587286B (ko)
UA (1) UA123388C2 (ko)
UY (1) UY36378A (ko)
WO (1) WO2016066705A1 (ko)
ZA (1) ZA201702647B (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6640849B2 (ja) * 2014-10-31 2020-02-05 ドルビー・インターナショナル・アーベー マルチチャネル・オーディオ信号のパラメトリック・エンコードおよびデコード
EP3286930B1 (en) 2015-04-21 2020-05-20 Dolby Laboratories Licensing Corporation Spatial audio signal manipulation
BR112021014135A2 (pt) * 2019-01-21 2021-09-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Sinal de áudio codificado, aparelho e método para codificação de uma representação de áudio espacial ou aparelho e método para decodificação de um sinal de áudio codificado
US11523239B2 (en) * 2019-07-22 2022-12-06 Hisense Visual Technology Co., Ltd. Display apparatus and method for processing audio

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060165184A1 (en) 2004-11-02 2006-07-27 Heiko Purnhagen Audio coding using de-correlated signals
WO2009049896A1 (en) 2007-10-17 2009-04-23 Fraunhofer-Fesellschaft Zur Förderung Der Angewandten Forschung E.V. Audio coding using upmix
WO2010128136A1 (en) 2009-05-08 2010-11-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio format transcoder
WO2014126689A1 (en) 2013-02-14 2014-08-21 Dolby Laboratories Licensing Corporation Methods for controlling the inter-channel coherence of upmixed audio signals

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7720230B2 (en) * 2004-10-20 2010-05-18 Agere Systems, Inc. Individual channel shaping for BCC schemes and the like
US20060106620A1 (en) 2004-10-28 2006-05-18 Thompson Jeffrey K Audio spatial environment down-mixer
US7813933B2 (en) 2004-11-22 2010-10-12 Bang & Olufsen A/S Method and apparatus for multichannel upmixing and downmixing
US20060165247A1 (en) 2005-01-24 2006-07-27 Thx, Ltd. Ambient and direct surround sound system
TWI313857B (en) * 2005-04-12 2009-08-21 Coding Tech Ab Apparatus for generating a parameter representation of a multi-channel signal and method for representing multi-channel audio signals
WO2006108543A1 (en) * 2005-04-15 2006-10-19 Coding Technologies Ab Temporal envelope shaping of decorrelated signal
CN102693727B (zh) * 2006-02-03 2015-06-10 韩国电子通信研究院 用于控制音频信号的渲染的方法
US7965848B2 (en) 2006-03-29 2011-06-21 Dolby International Ab Reduced number of channels decoding
EP2054875B1 (en) 2006-10-16 2011-03-23 Dolby Sweden AB Enhanced coding and parameter representation of multichannel downmixed object coding
CA2670864C (en) 2006-12-07 2015-09-29 Lg Electronics Inc. A method and an apparatus for processing an audio signal
US8908873B2 (en) 2007-03-21 2014-12-09 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Method and apparatus for conversion between multi-channel audio formats
KR101312470B1 (ko) * 2007-04-26 2013-09-27 돌비 인터네셔널 에이비 출력 신호 합성 장치 및 방법
JP5258967B2 (ja) * 2008-07-15 2013-08-07 エルジー エレクトロニクス インコーポレイティド オーディオ信号の処理方法及び装置
EP2214162A1 (en) 2009-01-28 2010-08-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Upmixer, method and computer program for upmixing a downmix audio signal
EP2214161A1 (en) * 2009-01-28 2010-08-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for upmixing a downmix audio signal
EP2489038B1 (en) 2009-11-20 2016-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus for providing an upmix signal representation on the basis of the downmix signal representation, apparatus for providing a bitstream representing a multi-channel audio signal, methods, computer programs and bitstream representing a multi-channel audio signal using a linear combination parameter
US9437198B2 (en) 2012-07-02 2016-09-06 Sony Corporation Decoding device, decoding method, encoding device, encoding method, and program
EP2870603B1 (en) 2012-07-09 2020-09-30 Koninklijke Philips N.V. Encoding and decoding of audio signals
BR112016008817B1 (pt) 2013-10-21 2022-03-22 Dolby International Ab Método para reconstruir um sinal de áudio de n canais, sistema de decodificação de áudio, método para codificar um sinal de áudio de n canais e sistema de codificação de áudio

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060165184A1 (en) 2004-11-02 2006-07-27 Heiko Purnhagen Audio coding using de-correlated signals
WO2009049896A1 (en) 2007-10-17 2009-04-23 Fraunhofer-Fesellschaft Zur Förderung Der Angewandten Forschung E.V. Audio coding using upmix
WO2010128136A1 (en) 2009-05-08 2010-11-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio format transcoder
WO2014126689A1 (en) 2013-02-14 2014-08-21 Dolby Laboratories Licensing Corporation Methods for controlling the inter-channel coherence of upmixed audio signals

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ETSI TS 103 190 V1.1.1, Digital Audio Compression (AC-4) Standard, 2014.04.
Jurgen Herre, et al. MPEG Surround - The ISO/MPEG Standard for Efficient and Compatible Multichannel Audio Coding. Journal of the Audio Engineering Society, 2008.11.

Also Published As

Publication number Publication date
IL251789B (en) 2019-07-31
IL251789A0 (en) 2017-06-29
TW201629951A (zh) 2016-08-16
US20170332185A1 (en) 2017-11-16
BR112017007521A2 (pt) 2017-12-19
AU2015340622B2 (en) 2021-04-01
MX364405B (es) 2019-04-24
AU2015340622A1 (en) 2017-04-20
PH12017500723B1 (en) 2017-10-09
KR20170078663A (ko) 2017-07-07
CN107112020A (zh) 2017-08-29
UY36378A (es) 2016-06-01
CY1121917T1 (el) 2020-10-14
US9930465B2 (en) 2018-03-27
EA034250B1 (ru) 2020-01-21
EA201790753A1 (ru) 2017-12-29
CA2965731C (en) 2023-12-05
GEP20196960B (en) 2019-03-25
CL2017001037A1 (es) 2017-12-01
SG11201703263PA (en) 2017-05-30
LT3213322T (lt) 2019-09-25
EP3213322A1 (en) 2017-09-06
ME03453B (me) 2020-01-20
PL3213322T3 (pl) 2019-09-30
ZA201702647B (en) 2018-08-29
SI3213322T1 (sl) 2019-08-30
JP6686015B2 (ja) 2020-04-22
CA2965731A1 (en) 2016-05-06
SA517381440B1 (ar) 2020-05-23
CN107112020B (zh) 2021-01-22
ECSP17023702A (es) 2018-03-31
TWI587286B (zh) 2017-06-11
EP3213322B1 (en) 2019-04-03
PT3213322T (pt) 2019-07-05
UA123388C2 (uk) 2021-03-31
GT201700088A (es) 2019-08-12
MX2017005409A (es) 2017-06-21
MY190174A (en) 2022-03-31
SV2017005431A (es) 2017-06-07
WO2016066705A1 (en) 2016-05-06
ES2732668T3 (es) 2019-11-25
DK3213322T3 (da) 2019-07-15
TN2017000143A1 (en) 2018-10-19
PH12017500723A1 (en) 2017-10-09
HK1243547B (zh) 2019-11-29
JP2017537342A (ja) 2017-12-14
NZ731194A (en) 2020-11-27
HUE044368T2 (hu) 2019-10-28
RS58874B1 (sr) 2019-08-30
CO2017004283A2 (es) 2017-07-19
PE20170759A1 (es) 2017-07-04
HRP20191107T1 (hr) 2019-10-18

Similar Documents

Publication Publication Date Title
JP5185340B2 (ja) マルチチャネルオーディオ信号を表示するための装置と方法
KR102486365B1 (ko) 오디오 신호들의 파라메트릭 재구성
US10163446B2 (en) Audio encoder and decoder
KR102501969B1 (ko) 오디오 신호의 파라메트릭 믹싱
JP2023029374A (ja) マルチチャネル・オーディオ・コンテンツの符号化
US9955276B2 (en) Parametric encoding and decoding of multichannel audio signals
CN112823534B (zh) 信号处理设备和方法以及程序
KR20160056324A (ko) 오디오 신호들의 파라메트릭 재구성을 위한 역상관기 구조
NZ731194B2 (en) Parametric mixing of audio signals
BR112017007521B1 (pt) Método e sistema de decodificação de áudio e meio legível por computador

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant