KR102486338B1 - 멀티채널 오디오 신호의 파라메트릭 인코딩 및 디코딩 - Google Patents

멀티채널 오디오 신호의 파라메트릭 인코딩 및 디코딩 Download PDF

Info

Publication number
KR102486338B1
KR102486338B1 KR1020177011541A KR20177011541A KR102486338B1 KR 102486338 B1 KR102486338 B1 KR 102486338B1 KR 1020177011541 A KR1020177011541 A KR 1020177011541A KR 20177011541 A KR20177011541 A KR 20177011541A KR 102486338 B1 KR102486338 B1 KR 102486338B1
Authority
KR
South Korea
Prior art keywords
signal
channel
downmix
channels
coding format
Prior art date
Application number
KR1020177011541A
Other languages
English (en)
Other versions
KR20170078648A (ko
Inventor
하이코 펀하겐
하이디 마리아 레토넨
야누스 클레즈사
Original Assignee
돌비 인터네셔널 에이비
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 돌비 인터네셔널 에이비 filed Critical 돌비 인터네셔널 에이비
Publication of KR20170078648A publication Critical patent/KR20170078648A/ko
Application granted granted Critical
Publication of KR102486338B1 publication Critical patent/KR102486338B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control

Abstract

제어 섹션(1009)은, M-채널 오디오 신호(L, LS, LB, TFL, TBL)의 적어도 2개의 코딩 포맷(F1, F2, F3) 중 하나를 지시하는 시그널링(S)을 수신하고, 코딩 포맷들은 각각의 제1 및 제2 그룹들(601, 602)로의 오디오 신호의 채널들의 상이한 파티션들에 대응하며, 지시된 코딩 포맷에서, 다운믹스 신호의 제1 및 제2 채널들(L1, L2)은 제1 및 제2 그룹들의 선현 조합에 각각 대응하고; 디코딩 섹션(900)은 다운믹스 신호 및 연관된 업믹스 파라미터들(αL)에 기초하여 오디오 신호를 재구성한다. 디코딩 섹션에서, 상관해제 입력 신호(D1, D2, D3)는 다운믹스 신호 및 지시된 코딩 포맷에 기초하여 결정되고; 상관해제 입력 신호에 기초하여 생성된 다운믹스 신호 및 상관해제된 신호의 선형 매핑을 제어하는 습식 및 건식 업믹스 계수들은 업믹스 파라미터들 및 지시된 코딩 포맷에 기초하여 결정된다.

Description

멀티채널 오디오 신호의 파라메트릭 인코딩 및 디코딩{PARAMETRIC ENCODING AND DECODING OF MULTICHANNEL AUDIO SIGNALS}
관련 출원들에 대한 상호 참조
본 출원은 2014년 10월 31일에 출원된 미국 가출원 제62/073,642호 및 2015년 3월 4일에 출원된 미국 가출원 제62/128,425호에 대한 우선권을 주장하며, 이들 각각은 그 전체가 본원에 참고로 포함된다.
본 명세서에 개시된 본 발명은 일반적으로 오디오 신호의 파라메트릭 인코딩 및 디코딩에 관한 것으로, 특히 채널 기반 오디오 신호의 파라메트릭 인코딩 및 디코딩에 관한 것이다.
다수의 라우드스피커를 포함하는 오디오 재생 시스템은 멀티채널 오디오 신호에 의해 표현되는 오디오 장면을 재생하는데 자주 사용되며, 멀티채널 오디오 신호의 각각의 채널은 각각의 라우드스피커에서 재생된다. 멀티채널 오디오 신호는 예를 들어 복수의 음향 변환기를 통해 기록되었을 수 있거나 오디오 저작 장비에 의해 생성되었을 수 있다. 많은 상황에서, 오디오 신호를 재생 장비로 송신하기 위한 대역폭 제한 및/또는 오디오 신호를 컴퓨터 메모리 또는 휴대용 저장 디바이스에 저장하기 위한 제한된 공간이 있다. 대역폭 또는 저장 크기를 줄이기 위해, 오디오 신호의 파라메트릭 코딩을 위한 오디오 코딩 시스템이 존재한다. 인코더 측에서, 이들 시스템은 전형적으로 멀티채널 오디오 신호를, 전형적으로 모노(하나의 채널) 또는 스테레오(2개의 채널) 다운믹스인, 다운믹스 신호로 다운믹싱하고, 레벨 차이 및 교차 상관과 같은 파라미터들에 의해 채널들의 속성을 설명하는 사이드 정보(side information)를 추출한다. 그 다음에 다운믹스 및 사이드 정보는 인코딩되고 디코더 측으로 전송된다. 디코더 측에서, 멀티채널 오디오 신호는 사이드 정보의 파라미터들의 제어하에 다운믹스로부터 재구성, 즉 근사화된다.
가정에서 최종 사용자를 겨냥한 신흥 세그먼트를 포함하여 멀티채널 오디오 콘텐츠의 재생에 이용가능한 광범위의 다양한 유형의 디바이스 및 시스템을 고려하여, 저장을 위해 요구된 메모리 크기 및/또는 대역폭 요건들을 줄이고, 디코더 측에서 멀티채널 오디오 신호의 재구성을 용이하게 하며, 및/또는 디코더 측에서 재구성된 멀티채널 오디오 신호의 충실도를 증가시키기 위해, 멀티채널 오디오 콘텐츠를 효율적으로 인코딩하는 새롭고 대안적인 방식이 필요하다.
이하에서는, 예시적인 실시예들이 더 상세히 그리고 첨부 도면들을 참조하여 설명될 것이다.
도 1 및 도 2는 예시적인 실시예들에 따른, M-채널 오디오 신호를 2-채널 다운믹스 신호 및 연관된 업믹스 파라미터들로서 인코딩하기 위한 인코딩 섹션의 일반화된 블록도이다.
도 3은 예시적인 실시예에 따른, 도 1에 도시된 인코딩 섹션을 포함하는 오디오 인코딩 시스템의 일반화된 블록도이다.
도 4 및 도 5는 예시적인 실시예들에 따른, M-채널 오디오 신호를 2-채널 다운믹스 신호 및 연관된 업믹스 파라미터들로서 인코딩하기 위한 오디오 인코딩 방법의 흐름도들이다.
도 6 내지 도 8은 예시적인 실시예들에 따른, 11.1-채널(또는 7.1+4-채널 또는 7.1.4-채널) 오디오 신호를 각각의 다운믹스 채널들에 의해 표현된 채널들의 그룹들로 파티션하는 대안적인 방식들을 도시한다.
도 9는 예시적인 실시예에 따른, 2-채널 다운믹스 신호 및 연관된 업믹스 파라미터들에 기초하여 M-채널 오디오 신호를 재구성하기 위한 디코딩 섹션의 일반화된 블록도이다.
도 10은 예시적인 실시예에 따른, 도 9에 도시된 디코딩 섹션을 포함하는 오디오 디코딩 시스템의 일반화된 블록도이다.
도 11은 예시적인 실시예에 따른, 도 9에 도시된 디코딩 섹션에 포함된 믹싱 섹션의 일반화된 블록도이다.
도 12는 예시적인 실시예에 따른, 2-채널 다운믹스 신호 및 연관된 업믹스 파라미터들에 기초하여 M-채널 오디오 신호를 재구성하기 위한 오디오 디코딩 방법의 흐름도이다.
도 13은 예시적인 실시예에 따른, 5.1-채널 신호 및 연관된 업믹스 파라미터들에 기초하여 13.1-채널 오디오 신호를 재구성하기 위한 디코딩 섹션의 일반화된 블록도이다.
도 14는 M-채널 오디오 신호(및 가능한 추가 채널들)를 인코딩하기 위해 사용될 적합한 코딩 포맷을 결정하고, 선택된 포맷에 대해, M-채널 오디오 신호를 2-채널 다운믹스 신호 및 연관된 업믹스 파라미터들로서 표현하도록 구성된 인코딩 섹션의 일반화된 블록도이다.
도 15는 도 14에 도시된 인코딩 섹션 내의 듀얼-모드 다운믹스 섹션의 상세이다.
도 16은 도 14에 도시된 인코딩 섹션 내의 듀얼-모드 분석 섹션의 상세이다.
도 17은 도 14 내지 도 16에 도시된 컴포넌트들에 의해 수행될 수 있는 오디오 인코딩 방법의 흐름도이다.
모든 도면들은 개략적이며 일반적으로 본 발명을 명료하게 하기 위해 필요한 부분들만을 도시하는 반면, 다른 부분들은 생략되거나 단지 암시될 수 있다.
본 명세서에서 사용될 때, 오디오 신호는 독립형 오디오 신호, 시청각 신호 또는 멀티미디어 신호의 오디오 부분 또는 이들 중 임의의 것을 메타데이터와 조합한 것일 수 있다. 본 명세서에 사용될 때, 채널은 미리 정의된/고정된 공간 위치/배향 또는 "좌측"이나 "우측"과 같이 한정되지 않은 공간 위치와 연관된 오디오 신호이다.
I. 개요 - 디코더 측
제1 양태에 따르면, 예시적인 실시예들은 오디오 디코딩 시스템, 오디오 디코딩 방법 및 연관된 컴퓨터 프로그램 제품을 제안한다. 제1 양태에 따른, 제안된 디코딩 시스템, 방법, 및 컴퓨터 프로그램 제품은 일반적으로 동일한 특징 및 이점을 공유할 수 있다.
예시적인 실시예들에 따르면, 2-채널 다운믹스 신호 및 다운믹스 신호에 기초한 M-채널 오디오 신호(여기서 M ≥ 4)의 파라메트릭 재구성을 위한 업믹스 파라미터들을 수신하는 단계를 포함하는 오디오 디코딩 방법이 제공된다. 오디오 디코딩 방법은 M-채널 오디오 신호의 적어도 2개의 코딩 포맷 중 선택된 하나를 지시하는 시그널링을 수신하는 단계를 포함하고, 여기서 코딩 포맷들은 하나 이상의 채널의 각각의 제1 및 제2 그룹들로의 M-채널 오디오 신호의 채널들의 각각의 상이한 파티션들에 대응한다. 지시된 코딩 포맷에서, 다운믹스 신호의 제1 채널은 M-채널 오디오 신호의 하나 이상의 채널의 제1 그룹의 선형 조합에 대응하고, 다운믹스 신호의 제2 채널은 M-채널 오디오 신호의 하나 이상의 채널의 제2 그룹의 선형 조합에 대응한다. 오디오 디코딩 방법은: 지시된 코딩 포맷에 기초하여 사전 상관해제 계수들의 세트를 결정하는 단계; 다운믹스 신호의 선형 매핑으로서 상관해제 입력 신호(decorrelation input signal)를 계산하는 단계 - 사전 상관해제 계수들의 세트는 다운믹스 신호에 적용됨 -; 상관해제 입력 신호에 기초하여 상관해제된 신호(decorrelated signal)를 생성하는 단계; 수신된 업믹스 파라미터들 및 지시된 코딩 포맷에 기초하여, 본 명세서에서 습식 업믹스 계수들(wet upmix coefficients)로 지칭되는 제1 유형의 업믹스 계수들의 세트, 및 본 명세서에서 건식 업믹스 계수들(dry upmix coefficients)로 지칭되는 제2 유형의 업믹스 계수들의 세트를 결정하는 단계; 본 명세서에서 건식 업믹스 신호로 지칭되는 제1 유형의 업믹스 신호를 다운믹스 신호의 선형 매핑으로서 계산하는 단계 - 건식 업믹스 계수들의 세트는 다운믹스 신호에 적용됨 -; 본 명세서에서 습식 업믹스 신호로 지칭되는 제2 유형의 업믹스 신호를 상관해제된 신호의 선형 매핑으로서 계산하는 단계 - 습식 업믹스 계수들의 세트는 상관해제된 신호에 적용됨 -; 및 재구성될 M-채널 오디오 신호에 대응하는 다차원 재구성 신호(multidimensional reconstructed signal)를 획득하기 위해 건식 및 습식 업믹스 신호들을 조합하는 단계를 추가로 포함한다.
M-채널 오디오 신호의 오디오 콘텐츠에 의존하여, 제1 및 제2 그룹들로의 M-채널 오디오 신호의 채널들의 상이한 파티션들 - 각각의 그룹은 다운믹스 신호의 채널에 기여함 - 은, 예를 들어, 다운믹스 신호로부터 M-채널 오디오 신호의 재구성을 용이하게 하고, 다운믹스 신호로부터 재구성된 M-채널 오디오 신호의 (지각된) 충실도를 향상시키고 및/또는 다운믹스 신호의 코딩 효율을 향상시키는 데 적합할 수 있다. 코딩 포맷들 중 선택된 하나의 코딩 포맷을 지시하는 시그널링을 수신하고, 사전 상관해제 계수들뿐만 아니라 습식 및 건식 업믹스 계수들의 결정을 지시된 코딩 포맷에 적응시키는 오디오 디코딩 방법의 능력은, 예를 들어, M-채널 오디오 신호를 표현하기 위해 특정한 코딩 포맷을 이용하는 상대적 이점들을 활용하기 위해, M-채널 오디오 신호의 오디오 콘텐츠에 기초하여, 인코더 측에서 코딩 포맷이 선택되는 것을 가능하게 한다.
특히, 지시된 코딩 포맷에 기초하여 사전 상관해제 계수들을 결정하는 것은 그로부터 상관해제된 신호가 생성되는, 다운믹스 신호의 채널 또는 채널들이, 상관해제된 신호가 생성되기 전에, 지시된 코딩에 기초하여, 선택 및/또는 가중되는 것을 가능하게 할 수 있다. 따라서, 상이한 코딩 포맷들에 대해 상이하게 사전 상관해제 계수들을 결정하는 오디오 디코딩 방법의 능력은 재구성된 M-채널 오디오 신호의 충실도를 향상시키는 것을 가능하게 할 수 있다.
다운믹스 신호의 제1 채널은 예를 들어, 인코더 측에서, 지시된 코딩 포맷에 따라, 하나 이상의 채널의 제1 그룹의 선형 조합으로서 형성되었을 수 있다. 유사하게, 다운믹스 신호의 제2 채널은 예를 들어, 인코더 측에서, 지시된 코딩 포맷에 따라, 하나 이상의 채널의 제2 그룹의 선형 조합으로서 형성되었을 수 있다.
M-채널 오디오 신호의 채널들은 예를 들어 음장을 함께 표현하는 더 많은 수의 채널의 서브세트를 형성할 수 있다.
상관해제된 신호는 청취자에 의해 지각되는, 다운믹스 신호의 오디오 콘텐츠의 차원성을 증가시키는 역할을 한다. 상관해제된 신호를 생성하는 것은 예를 들어 상관해제 입력 신호에 선형 필터를 적용하는 것을 포함할 수 있다.
상관해제 입력 신호가 다운믹스 신호의 선형 매핑으로서 계산된다는 것은 상관해제 입력 신호가 제1 선형 변환을 다운믹스 신호에 적용함으로써 획득된다는 것을 의미한다. 제1 선형 변환은 다운믹스 신호의 2개의 채널을 입력으로서 취하여 상관해제 입력 신호의 채널들을 출력으로서 제공하고, 사전 상관해제 계수들은 제1 선형 변환의 정량적 속성들을 정의하는 계수들이다.
건식 업믹스 신호가 다운믹스 신호의 선형 매핑으로서 계산된다는 것은 건식 업믹스 신호가 제2 선형 변환을 다운믹스 신호에 적용함으로써 획득된다는 것을 의미한다. 제2 선형 변환은 다운믹스 신호의 2개의 채널을 입력으로서 취하여 M개의 채널을 출력으로서 제공하고, 건식 업믹스 계수들은 제2 선형 변환의 정량적 속성들을 정의하는 계수들이다.
습식 업믹스 신호가 상관해제된 신호의 선형 매핑으로서 계산된다는 것은 습식 업믹스 신호가 제3 선형 변환을 상관해제된 신호에 적용함으로써 획득된다는 것을 의미한다. 제3 선형 변환은 상관해제된 신호의 채널을 입력으로서 취하여 M개의 채널을 출력으로서 제공하고, 습식 업믹스 계수들은 제3 선형 변환의 정량적 속성들을 정의하는 계수들이다.
건식 및 습식 업믹스 신호들을 조합하는 단계는 예를 들어 샘플 단위의 또는 변환-계수 단위의 가산 믹싱을 이용하여, 건식 업믹스 신호의 각각의 채널들로부터의 오디오 콘텐츠를 습식 업믹스 신호의 각각의 대응하는 채널들의 오디오 콘텐츠에 추가하는 단계를 포함할 수 있다.
시그널링은 예를 들어 다운믹스 신호 및/또는 업믹스 파라미터들과 함께 수신될 수 있다. 다운믹스 신호, 업믹스 파라미터들 및 시그널링은 예를 들어 비트스트림으로부터 추출될 수 있다.
예시적인 실시예에서, M = 5, 즉 M-채널 오디오 신호는 5-채널 오디오 신호일 수 있다. 본 예시적인 실시예의 오디오 디코딩 방법은 예를 들어 현재 설정된 5.1 오디오 포맷들 중 하나에서의 5개의 정규 채널을 그 5개의 채널의 2-채널 다운믹스로부터 재구성하기 위해, 또는 11.1 멀티채널 오디오 신호에서 좌측 또는 우측의 5개의 채널을 그 5개의 채널의 2-채널 다운믹스로부터 재구성하기 위해 이용될 수 있다. 대안적으로, M = 4 또는 M ≥ 6일 수도 있다.
예시적인 실시예에서, 상관해제 입력 신호 및 상관해제된 신호는 각각 M-2개의 채널을 포함할 수 있다. 본 예시적인 실시예에서, 상관해제된 신호의 채널은 상관해제 입력 신호의 단지 하나의 채널에 기초하여 생성될 수 있다. 예를 들어, 상관해제된 신호의 각각의 채널은 상관해제 입력 신호의 단지 하나의 채널에 기초하여 생성될 수 있지만, 상관해제된 신호의 상이한 채널들은 예를 들어 상관해제 입력 신호의 상이한 채널들에 기초하여 생성될 수 있다.
본 예시적인 실시예에서, 사전 상관해제 계수들은, 코딩 포맷들 각각에서, 상관해제 입력 신호의 채널이 다운믹스 신호의 단지 하나의 채널로부터의 기여를 수신하도록 결정될 수 있다. 예를 들어, 사전 상관해제 계수들은, 코딩 포맷들 각각에서, 상관해제 입력 신호의 각각의 채널이 다운믹스 신호의 채널과 일치하도록 결정될 수 있다. 그러나, 상관해제된 입력 신호의 채널들 중 적어도 일부는 예를 들어 주어진 코딩 포맷에서 및/또는 상이한 코딩 포맷들에서 다운믹스 신호의 상이한 채널들과 일치할 수 있음을 이해할 것이다.
각각의 주어진 코딩 포맷에서, 다운믹스 신호의 2개의 채널은 하나 이상의 채널의 서로소(disjoint)인 제1 및 제2 그룹들을 표현하므로, 제1 그룹은 다운믹스 신호의 제1 채널로부터, 예를 들어 다운믹스 신호의 제1 채널에 기초하여 생성된 상관해제된 신호의 하나 이상의 채널을 이용하여 재구성될 수 있는 반면, 제2 그룹은 다운믹스 신호의 제2 채널로부터, 예를 들어 다운믹스 신호의 제2 채널에 기초하여 생성된 상관해제된 신호의 하나 이상의 채널을 이용하여 재구성될 수 있다. 본 예시적인 실시예에서, 상관해제된 신호를 통해, 하나 이상의 채널의 제2 그룹으로부터 하나 이상의 채널의 제1 그룹의 재구성된 버전으로의 기여는 각각의 코딩 포맷에서 회피될 수 있다. 유사하게, 상관해제된 신호를 통해, 하나 이상의 채널의 제1 그룹으로부터 하나 이상의 채널의 제2 그룹의 재구성된 버전으로의 기여는 각각이 코딩 포맷에서 회피될 수 있다. 따라서, 본 예시적인 실시예는 재구성된 M-채널 오디오 신호의 충실도를 증가시키는 것을 가능하게 할 수 있다.
예시적인 실시예에서, 사전 상관해제 계수들은 M-채널 오디오 신호의 제1 채널이 다운믹스 신호를 통해, 코딩 포맷들 중 적어도 2개의 코딩 포맷에서 상관해제 입력 신호의 제1 고정 채널에 기여하도록 결정될 수 있다. 즉, M-채널 오디오 신호의 제1 채널은 다운믹스 신호를 통해, 이들 코딩 포맷들 모두에서 상관해제 입력 신호의 동일한 채널에 기여할 수 있다. 본 예시적인 실시예에서, M-채널 오디오 신호의 제1 채널은 예를 들어 다운믹스 신호를 통해, 주어진 코딩 포맷에서 상관해제 입력 신호의 다수의 채널에 기여할 수 있음을 이해할 것이다.
본 예시적인 실시예에서, 지시된 코딩 포맷이 2개의 코딩 포맷 사이에서 전환한다면, 상관해제 입력 신호의 제1 고정 채널의 적어도 일부는 전환 동안 유지된다. 이는 재구성된 M-채널 오디오 신호의 재생 동안 청취자에 의해 지각되는, 코딩 포맷들 사이의 더 매끄러운 및/또는 덜 갑작스런 전이를 가능하게 할 수 있다. 특히, 본 발명자들은, 상관해제된 신호가 예를 들어 코딩 포맷들 사이의 전환이 다운믹스 신호에서 발생할 수 있는 몇몇 시간 프레임에 대응하는 다운믹스 신호의 섹션에 기초하여 생성될 수 있기 때문에, 코딩 포맷들 사이의 전환의 결과로서 상관해제된 신호에서 가청 아티팩트들이 잠재적으로 생성될 수 있다는 것을 인식한다. 코딩 포맷들 사이의 전환에 응답하여 습식 및 건식 업믹스 계수들이 보간되더라도, 상관해제된 신호에서 생성된 아티팩트들은 재구성된 M-채널 오디오 신호에서 여전히 지속될 수 있다. 본 예시적인 실시예에 따라 상관해제 입력 신호를 제공하는 것은 코딩 포맷들 사이의 전환에 의해 야기되는 상관해제된 신호 내의 그러한 아티팩트들을 억제하는 것을 가능하게 하며, 재구성된 M-채널 오디오 신호의 재생 품질을 향상시킬 수 있다.
예시적인 실시예에서, 사전 상관해제 계수들은, 추가로, M-채널 오디오 신호의 제2 채널이 다운믹스 신호를 통해, 코딩 포맷들 중 적어도 2개의 코딩 포맷에서 상관해제 입력 신호의 제2 고정 채널에 기여하도록 결정될 수 있다. 즉, M-채널 오디오 신호의 제2 채널은 다운믹스 신호를 통해, 이들 코딩 포맷들 모두에서 상관해제 입력 신호의 동일 채널에 기여한다. 본 예시적인 실시예에서, 지시된 코딩 포맷이 2개의 코딩 포맷 사이에서 전환한다면, 제2 고정 상관해제 입력 신호의 적어도 일부는 전환 동안 유지된다. 이와 같이, 단일 상관해제기 피드만이 코딩 포맷들 사이의 전이에 의해 영향을 받는다. 이는 재구성된 M-채널 오디오 신호의 재생 동안 청취자에 의해 지각되는, 코딩 포맷들 사이의 더 매끄러운 및/또는 덜 갑작스런 전이를 가능하게 할 수 있다.
M-채널 오디오 신호의 제1 및 제2 채널들은 예를 들어 서로 구별될 수 있다. 상관해제 입력 신호의 제1 및 제2 고정 채널들은 예를 들어 서로 구별될 수 있다.
예시적인 실시예에서, 수신된 시그널링은 적어도 3개의 코딩 포맷 중 선택된 하나의 코딩 포맷을 지시할 수 있고, 사전 상관해제 계수들은 M-채널 오디오 신호의 제1 채널이 다운믹스 신호를 통해, 코딩 포맷들 중 적어도 3개의 코딩 포맷에서 상관해제 입력 신호의 제1 고정 채널에 기여하도록 결정될 수 있다. 즉, M-채널 오디오 신호의 제1 채널은 다운믹스 신호를 통해, 이들 3개의 코딩 포맷에서 상관해제 입력 신호의 동일한 채널에 기여한다. 본 예시적인 실시예에서, 지시된 코딩 포맷이 3개의 코딩 포맷 중 임의의 코딩 포맷들 사이에 변화하면, 상관해제 입력 신호의 제1 고정 채널의 적어도 일부는 전환 동안 유지되며, 이는 재구성된 M-채널 오디오 신호의 재생 동안 청취자에 의해 지각되는, 코딩 포맷들 사이의 더 매끄러운 및/또는 덜 갑작스런 전이을 가능하게 한다.
예시적인 실시예에서, 사전 상관해제 계수들은 M-채널 오디오 신호의 채널들의 쌍이 다운믹스 신호를 통해, 코딩 포맷들 중 적어도 2개의 코딩 포맷에서 상관해제 입력 신호의 제3 고정 채널에 기여하도록 결정될 수 있다. 즉, M-채널 오디오 신호의 채널들의 쌍은 다운믹스 신호를 통해, 이들 코딩 포맷들 모두에서 상관해제 입력 신호의 동일한 채널에 기여한다. 본 예시적인 실시예에서, 지시된 코딩 포맷이 2개의 코딩 포맷 사이에서 전환한다면, 상관해제 입력 신호의 제3 고정 채널의 적어도 일부는 전환 동안 유지되고, 이는 재구성된 M-채널 오디오 신호의 재생 동안 청취자에 의해 지각되는, 코딩 포맷들 사이의 더 매끄러운 및/또는 덜 갑작스런 전이를 가능하게 한다.
채널들의 쌍은 예를 들어 M-채널 오디오 신호의 제1 및 제2 채널들과 구별될 수 있다. 상관해제 입력 신호의 제3 고정 채널은 예를 들어 상관해제 입력 신호의 제1 및 제2 고정 채널들과 구별될 수 있다.
예시적인 실시예에서, 오디오 디코딩 방법은: 제1 코딩 포맷으로부터 제2 코딩 포맷으로의 지시된 코딩 포맷의 전환을 검출하는 것에 응답하여, 제1 코딩 포맷과 연관된 사전 상관해제 계수 값들로부터 제2 코딩 포맷과 연관된 사전 상관해제 계수 값들로 점진적인 전이를 수행하는 단계를 추가로 포함할 수 있다. 코딩 포맷들 사이의 전환 동안 사전 상관해제 계수들 사이의 점진적인 전이를 이용하면 재구성된 M-채널 오디오 신호의 재생 동안 청취자에 의해 지각되는, 코딩 포맷들 사이의 더 매끄러운 및/또는 덜 갑작스런 전이가 가능해진다. 특히, 본 발명자들은, 상관해제된 신호가 예를 들어 코딩 포맷들 사이의 전환이 다운믹스 신호에서 발생할 수 있는 몇몇 시간 프레임에 대응하는 다운믹스 신호의 섹션에 기초하여 생성될 수 있기 때문에, 코딩 포맷들 사이의 전환의 결과로서 상관해제된 신호에서 가청 아티팩트들이 잠재적으로 생성될 수 있다는 것을 인식한다. 코딩 포맷들 사이의 전환에 응답하여 습식 및 건식 업믹스 계수들이 보간되더라도, 상관해제된 신호에서 생성된 아티팩트들은 재구성된 M-채널 오디오 신호에서 여전히 지속될 수 있다. 본 예시적인 실시예에 따라 상관해제 입력 신호를 제공하는 것은 코딩 포맷들 사이의 전환에 의해 야기되는 상관해제된 신호 내의 그러한 아티팩트들을 억제하는 것을 가능하게 하며, 재구성된 M-채널 오디오 신호의 재생 품질을 향상시킬 수 있다.
점진적인 전이는 예를 들어 선형 또는 연속 보간을 통해 수행될 수 있다. 점진적인 전이는 예를 들어 변화율이 제한된 보간을 통해 수행될 수 있다.
예시적인 실시예에서, 오디오 디코딩 방법은: 제1 코딩 포맷으로부터 제2 코딩 포맷으로의 지시된 코딩 포맷의 전환을 검출하는 것에 응답하여, 제1 코딩 포맷과 연관된, 제로 값의 계수들을 포함하는 습식 및 건식 업믹스 계수 값들로부터 제2 코딩 포맷과 연관된, 제로 값의 계수들을 다시 포함하는 습식 및 건식 업믹스 계수 값들로의 보간을 수행하는 단계를 추가로 포함할 수 있다. 다운믹스 채널들은 원래 인코딩된 M-채널 오디오 신호로부터의 채널들의 상이한 조합들에 대응하므로, 제1 코딩 포맷에서 제로 값인 업믹스 계수는 제2 코딩 포맷에서도 제로 값일 필요가 없고, 그 반대도 마찬가지라는 것을 상기한다. 바람직하게는, 보간은 콤팩트한 표현의 계수들, 예를 들어, 아래에 논의된 표현보다는 오히려 업믹스 계수들에 대해 작용한다.
업믹스 계수 값들 사이의 선형 또는 연속 보간은, 예를 들어, 재구성된 M-채널 오디오 신호의 재생 동안 청취자에 의해 지각되는, 코딩 포맷들 사이의 더 매끄러운 전이를 제공하기 위해 이용될 수 있다.
코딩 포맷들 사이의 전환과 연관된 특정 시점에서 새로운 업믹스 계수 값들이 오래된 업믹스 계수 값들을 대체하는 급격한 보간(steep interpolation)은 예를 들어 재구성된 M-채널 오디오 신호의 증가된 충실도를 가능하게 할 수 있는데, 예를 들어 M-채널 오디오 신호의 오디오 콘텐츠가 신속하게 변화하고, 코딩 포맷이 인코더 측에서 전환되는 경우, 이러한 변화에 응답하여, 재구성된 M-채널 오디오 신호의 충실도의 증가를 가능하게 할 수 있다.
예시적인 실시예에서, 오디오 디코딩 방법은 하나의 코딩 포맷 내에서 습식 및 건식 업믹스 파라미터들의 보간을 위해 이용될 복수의 보간 방식 중 하나를 지시하는 시그널링을 수신하는 단계(즉, 코딩 포맷의 변화가 발생하지 않는 기간에 업믹스 계수들에 새로운 값들이 할당되는 경우), 및 지시된 보간 방식을 이용하는 단계를 추가로 포함할 수 있다. 복수의 보간 방식 중 하나를 지시하는 시그널링은 예를 들어 다운믹스 신호 및/또는 업믹스 파라미터들과 함께 수신될 수 있다. 바람직하게는, 시그널링에 의해 지시된 보간 방식은 코딩 포맷들 사이에서 전이하기 위해 추가로 이용될 수 있다.
원래의 M-채널 오디오 신호가 이용가능한 인코더 측에서는, 예를 들어 M-채널 오디오 신호의 실제 오디오 콘텐츠에 특히 적합한 보간 방식들이 선택될 수 있다. 예를 들어, 매끄러운 전환이 재구성된 M-채널 오디오 신호의 전체적인 인상에 중요한 경우에는 선형 또는 연속 보간이 이용될 수 있는 반면, 고속 전환이 재구성된 M-채널 오디오 신호의 전체적인 인상에 중요한 경우에는 급격한 보간 - 즉 코딩 포맷들 사이의 전이와 연관된 특정 시점에 새로운 업믹스 계수 값들이 오래된 업믹스 계수 값들을 대체함 - 이 이용될 수 있다.
예시적인 실시예에서, 적어도 2개의 코딩 포맷은 제1 코딩 포맷 및 제2 코딩 포맷을 포함할 수 있다. 각각의 코딩 포맷에서, M-채널 오디오 신호의 채널로부터 다운믹스 신호의 채널들이 대응하는 선형 조합들 중 하나로의 기여를 제어하는 이득이 있다. 본 예시적인 실시예에서, 제1 코딩 포맷에서의 이득은 M-채널 오디오 신호의 동일 채널로부터의 기여를 제어하는 제2 코딩 포맷에서의 이득과 일치할 수 있다.
제1 및 제2 코딩 포맷들에서 동일한 이득들을 이용하는 것은 예를 들어 제1 코딩 포맷에서의 다운믹스 신호의 채널들의 조합된 오디오 콘텐츠와 제2 코딩 포맷에서의 다운믹스 신호의 채널들의 조합된 오디오 콘텐츠 간의 유사성을 증가시킬 수 있다. 다운믹스 신호의 채널들이 M-채널 다운믹스 신호를 재구성하는 데 사용되기 때문에, 이것은 청취자에 의해 지각되는, 이들 2개의 코딩 포맷 사이의 더 매끄러운 전이에 기여할 수 있다.
제1 및 제2 코딩 포맷들에서 동일한 이득들을 이용하는 것은 예를 들어 제1 코딩 포맷에서의 다운믹스 신호의 제1 및 제2 채널들 각각의 오디오 콘텐츠가 제2 코딩 포맷에서의 다운믹스 신호의 제1 및 제2 채널들 각각의 오디오 콘텐츠와 더 유사하게 되는 것을 가능하게 할 수 있다. 이는 청취자에 의해 지각되는, 이들 2개의 코딩 포맷 사이의 더 매끄러운 전이에 기여할 수 있다.
본 예시적인 실시예에서, 예를 들어 M-채널 오디오 신호의 상이한 채널들에 대해 상이한 이득들이 이용될 수 있다. 제1 예에서, 제1 및 제2 코딩 포맷들에서의 모든 이득은 값 1을 가질 수 있다. 제1 예에서, 다운믹스 신호의 제1 및 제2 채널들은, 제1 및 제2 코딩 포맷 모두에서, 각각 제1 및 제2 그룹들의 가중되지 않은 합들에 대응할 수 있다. 제2 예에서, 이득들 중 적어도 일부는 1과는 상이한 값들을 가질 수 있다. 제2 예에서, 다운믹스 신호의 제1 및 제2 채널들은 각각 제1 및 제2 그룹들의 가중된 합들에 대응할 수 있다.
예시적인 실시예에서, M-채널 오디오 신호는 M-채널 오디오 신호에 대한 재생 환경에서 상이한 수평 방향들을 표현하는 3개의 채널 및 재생 환경에서 3개의 채널의 방향들과 수직으로 분리된 방향들을 표현하는 2개의 채널을 포함할 수 있다. 다시 말해서, M-채널 오디오 신호는 청취자(또는 청취자의 귀)와 실질적으로 동일한 높이에 위치하고 및/또는 실질적으로 수평으로 전파하는 오디오 소스에 의한 재생을 위해 의도된 3개의 채널, 및 다른 높이들에 위치하고 및/또는 (실질적으로) 비수평으로 전파하는 오디오 소스들에 의한 재생을 위해 의도된 2개의 채널을 포함할 수 있다. 이 2개의 채널은 예를 들어 상승된 방향들을 표현할 수 있다
예시적인 실시예에서, 제1 코딩 포맷에서, 채널들의 제2 그룹은 재생 환경에서 3개의 채널의 방향들과 수직으로 분리된 방향들을 표현하는 2개의 채널을 포함할 수 있다. 제2 그룹에서 이들 2개의 채널 모두를 갖고, 이들 2개의 채널 모두를 표현하기 위해 다운믹스 신호의 동일한 채널을 이용하는 것은, 예를 들어, 재생 환경에서 수직 차원이 M-채널 오디오 신호의 전체적인 인상에 중요한 경우에 재구성된 M-채널 오디오 신호의 충실도를 향상시킬 수 있다.
예시적인 실시예에서, 제1 코딩 포맷에서, 하나 이상의 채널의 제1 그룹은 M-채널 오디오 신호의 재생 환경에서 상이한 수평 방향들을 표현하는 3개의 채널을 포함할 수 있고, 하나 이상의 채널의 제2 그룹은 재생 환경에서 3개의 채널의 방향들로부터 수직으로 분리된 방향들을 표현하는 2개의 채널을 포함할 수 있다. 본 예시적인 실시예에서, 제1 코딩 포맷들은 다운믹스 신호의 제1 채널이 3개의 채널을 표현하고 다운믹스 신호의 제2 채널이 2개의 채널을 표현하는 것을 가능하게 하고, 이는 예를 들어 재생 환경에서 수직 차원이 M-채널 오디오 신호의 전체적인 인상에 중요한 경우에 재구성된 M-채널 오디오 신호의 충실도를 향상시킬 수 있다.
예시적인 실시예에서, 제2 코딩 포맷에서, 제1 및 제2 그룹들 각각은 M-채널 오디오 신호의 재생 환경에서 3개의 채널의 방향들로부터 수직으로 분리된 방향들을 표현하는 2개의 채널 중 하나를 포함할 수 있다. 상이한 그룹들에서 이들 2개의 채널을 갖고, 이들 2개의 채널을 표현하기 위해 다운믹스 신호의 상이한 채널들을 이용하면, 예를 들어 재생 환경에서 수직 차원이 M-채널 오디오 신호의 전체적인 인상에 그다지 중요하지 않은 경우에, 재구성된 M-채널 오디오 신호의 충실도를 향상시킬 수 있다.
예시적인 실시예에서, 본 명세서에서 특정한 코딩 포맷으로 지칭되는 코딩 포맷에서, 하나 이상의 채널의 제1 그룹은 N개의 채널로 구성될 수 있으며, 여기서 N ≥ 3이다. 본 예시적인 실시예에서, 지시된 코딩 포맷이 특정한 코딩 포맷인 것에 응답하여: 사전 상관해제 계수들은 상관해제된 신호의 N-1개의 채널이 다운믹스 신호의 제1 채널에 기초하여 생성되도록 결정될 수 있고; 건식 및 습식 업믹스 계수들은 하나 이상의 채널의 제1 그룹이 다운믹스 신호의 제1 채널과 상관해제된 신호의 N-1개의 채널의 선형 매핑으로서 재구성되도록 결정될 수 있으며, 건식 업믹스 계수들의 서브세트가 다운믹스 신호의 제1 채널에 적용되고, 습식 업믹스 계수들의 서브세트가 상관해제된 신호의 N-1개의 채널에 적용된다.
사전 상관해제 계수들은 예를 들어 상관해제 입력 신호의 N-1개의 채널이 다운믹스 신호의 제1 채널과 일치하도록 결정될 수 있다. 상관해제된 신호의 N-1개의 채널은 예를 들어 상관해제 입력 신호의 이들 N-1개의 채널을 처리함으로써 생성될 수 있다.
하나 이상의 채널의 제1 그룹이 다운믹스 신호의 제1 채널 및 상관해제된 신호의 N-1개의 채널의 선형 매핑으로서 재구성된다는 것은 하나 이상의 채널의 제1 그룹의 재구성된 버전이 다운믹스 신호의 제1 채널 및 상관해제된 신호의 N-1개의 채널에 선형 변환을 적용함으로써 획득된다는 것을 의미한다. 이 선형 변환은 N개의 채널을 입력으로서 취하여 N개의 채널을 출력으로서 제공하며, 여기서 건식 업믹스 계수들의 서브세트 및 습식 업믹스 계수들의 서브세트는 함께 이 선형 변환의 정량적 속성들을 정의하는 계수들로 구성된다.
예시적인 실시예에서, 수신된 업믹스 파라미터들은 본 명세서에서 습식(wet) 업믹스 파라미터들로 지칭되는 제1 유형의 업믹스 파라미터들, 및 본 명세서에서 건식(dry) 업믹스 파라미터들로 지칭되는 제2 유형의 업믹스 파라미터들을 포함할 수 있다. 본 예시적인 실시예에서, 특정한 코딩 포맷에서, 습식 및 건식 업믹스 계수들의 세트들을 결정하는 단계는: 건식 업믹스 파라미터들에 기초하여, 건식 업믹스 계수들의 서브세트을 결정하는 단계; 수신된 습식 업믹스 파라미터들의 수보다 많은 요소를 갖는 중재 매트릭스(intermediate matrix)를, 중재 매트릭스가 미리 정의된 매트릭스 클래스에 속한다는 지식 및 수신된 습식 업믹스 파라미터들에 기초하여, 채우는 단계; 및 중재 매트릭스를 미리 정의된 매트릭스와 곱함으로써 습식 업믹스 계수들의 서브세트를 획득하는 단계를 포함할 수 있고, 습식 업믹스 계수들의 서브세트는 곱셈으로부터 생성된 매트릭스에 대응하고 중재 매트릭스 내의 요소들의 수보다 많은 계수를 포함한다.
본 예시적인 실시예에서, 습식 업믹스 계수들의 서브세트 내의 습식 업믹스 계수들의 수는 수신된 습식 업믹스 파라미터들의 수보다 많다. 수신된 습식 업믹스 파라미터들로부터 습식 업믹스 계수들의 서브세트를 획득하기 위해 미리 정의된 매트릭스 및 미리 정의된 매트릭스 클래스에 대한 지식을 활용함으로써, 하나 이상의 채널의 제1 그룹의 파라메트릭 재구성에 필요한 정보의 양이 감소될 수 있어, 인코더 측으로부터 다운믹스 신호와 함께 송신되는 메타데이터의 양의 감소를 가능하게 한다. 파라메트릭 재구성을 위해 필요한 데이터의 양을 감소시킴으로써, M-채널 오디오 신호의 파라메트릭 표현의 송신에 요구되는 대역폭, 및/또는 그러한 표현을 저장하기 위해 요구되는 메모리 크기가 감소될 수 있다.
미리 정의된 매트릭스 클래스는 매트릭스 요소들 중 일부 사이의 특정 관계, 또는 0인 일부 매트릭스 요소들과 같은, 클래스 내의 모든 매트릭스에 대해 유효한 적어도 일부 매트릭스 요소들의 알려진 속성들과 연관될 수 있다. 이러한 속성들에 대한 지식은 중재 매트릭스 내의 매트릭스 요소들의 전체 수보다 적은 수의 습식 업믹스 파라미터에 기초하여 중재 매트릭스를 채우는 것을 가능하게 한다. 디코더 측은 적어도 더 적은 수의 습식 업믹스 파라미터에 기초하여 모든 매트릭스 요소를 계산하는 데 필요한 요소들의 속성들 및 요소들 간의 관계에 대한 지식을 갖는다.
미리 정의된 매트릭스 및 미리 정의된 매트릭스 클래스를 결정하고 이용하는 방법은 미국 가출원 제61/974,544호(처음 명명된 발명자: Lars Villemoes; 출원일: 2014년 4월 3일)의 16페이지 15행 내지 20페이지 2행에 더 상세히 설명되어 있다. 특히 미리 정의된 매트릭스의 예들에 대해서는 수학식 9를 참조한다.
예시적인 실시예에서, 수신된 업믹스 파라미터들은 N(N-1)/2개의 습식 업믹스 파라미터들을 포함할 수 있다. 본 예시적인 실시예에서, 중재 매트릭스를 채우는 단계는 그 중재 매트릭스가 미리 정의된 매트릭스 클래스에 속한다는 지식 및 수신된 N(N-1)/2개의 습식 업믹스 파라미터들에 기초하여 (N-1)2개의 매트릭스 요소에 대한 값들을 획득하는 단계를 포함할 수 있다. 이는 습식 업믹스 파라미터들의 값들을 매트릭스 요소들로서 즉시 삽입하거나, 매트릭스 요소들에 대한 값들을 도출하기 위해 적합한 방식으로 습식 업믹스 파라미터들을 처리하는 것을 포함할 수 있다. 본 예시적인 실시예에서, 미리 정의된 매트릭스는 N(N-1)개의 요소들을 포함할 수 있고, 습식 업믹스 계수들의 서브세트는 N(N-1)개의 계수를 포함할 수 있다. 예를 들어, 수신된 업믹스 파라미터들은 단지 N(N-1)/2개의 독립적으로 할당가능한 습식 업믹스 파라미터를 포함할 수 있고 및/또는 습식 업믹스 파라미터들의 수는 단지 습식 업믹스 계수들의 서브세트 내의 습식 업믹스 계수들의 수의 절반에 불과할 수 있다.
예시적인 실시예에서, 수신된 업믹스 파라미터들은 (N-1)개의 건식 업믹스 파라미터를 포함할 수 있다. 본 예시적인 실시예에서, 건식 업믹스 계수들의 서브세트는 N개의 계수를 포함할 수 있고, 건식 업믹스 계수들의 서브세트는 수신된 (N-1)개의 건식 업믹스 파라미터들에 기초하여 그리고 건식 업믹스 계수들의 서브세트 내의 계수들 간의 미리 정의된 관계에 기초하여 결정될 수 있다. 예를 들어, 수신된 업믹스 파라미터들은 단지 (N-1)개의 독립적으로 할당가능한 건식 업믹스 파라미터들을 포함할 수 있다.
예시적인 실시예에서, 미리 정의된 매트릭스 클래스는: 클래스 내의 모든 매트릭스들의 알려진 속성들이, 0인 미리 정의된 매트릭스 요소들을 포함하는, 하삼각 또는 상삼각 매트릭스들(lower or upper triangular matrices); 클래스 내의 모든 매트릭스들의 알려진 속성들이 같은 (주 대각선의 양측에) 미리 정의된 매트릭스 요소들을 포함하는, 대칭 매트릭스들; 및 클래스 내의 모든 매트릭스들의 알려진 속성들이 미리 정의된 매트릭스 요소들 간에 알려진 관계들을 포함하는, 직교 매트릭스 및 대각 매트릭스의 곱들 중 하나일 수 있다. 다시 말해서, 미리 정의된 매트릭스 클래스는 하삼각 매트릭스들의 클래스, 상삼각 매트릭스들의 클래스, 대칭 매트릭스들의 클래스 또는 직교 매트릭스와 대각 매트릭스의 곱들의 클래스일 수 있다. 위의 클래스들 각각의 공통 속성은 그의 차원성이 매트릭스 요소들의 전체 수보다 적다는 점이다.
예시적인 실시예에서, 미리 정의된 매트릭스 및/또는 미리 정의된 매트릭스 클래스는 지시된 코딩 포맷과 연관될 수 있어, 예를 들어, 디코딩 방법이 그에 따라 습식 업믹스 계수들의 세트의 결정을 조정할 수 있게 한다.
예시적인 실시예들에 따르면, 적어도 2개의 미리 정의된 채널 구성 중 하나를 지시하는 시그널링을 수신하는 단계; 미리 정의된 제1 채널 구성을 지시하는 수신된 시그널링을 검출하는 것에 응답하여, 제1 양태의 오디오 디코딩 방법들 중 임의의 것을 수행하는 단계를 포함하는 오디오 디코딩 방법이 제공된다. 이 오디오 디코딩 방법은 미리 정의된 제2 채널 구성을 지시하는 수신된 시그널링을 검출하는 것에 응답하여: 2-채널 다운믹스 신호 및 연관된 업믹스 파라미터들을 수신하는 단계; 다운믹스 신호의 제1 채널 및 업믹스 파라미터들 중 적어도 일부에 기초하여 제1의 3-채널 오디오 신호의 파라메트릭 재구성을 수행하는 단계; 및 다운믹스 신호의 제2 채널 및 업믹스 파라미터들 중 적어도 일부에 기초하여 제2의 3-채널 오디오 신호의 파라메트릭 재구성을 수행하는 단계를 포함할 수 있다.
미리 정의된 제1 채널 구성은 M-채널 오디오 신호가 수신된 2-채널 다운믹스 신호 및 연관된 업믹스 파라미터들에 의해 표현되는 것에 대응할 수 있다. 미리 정의된 제2 채널 구성은 제1 및 제2의 3-채널 오디오 신호가 수신된 다운믹스 신호의 제1 및 제2 채널들에 의해 각각, 그리고 연관된 업믹스 파라미터들에 의해 표현되는 것에 대응할 수 있다.
적어도 2개의 미리 정의된 채널 구성들 중 하나를 지시하는 시그널링을 수신하고, 지시된 채널 구성에 기초하여 파라메트릭 재구성을 수행하는 능력은, 인코더 측으로부터 디코더 측으로 M-채널 오디오 신호 또는 2개의 3-채널 오디오 신호의 파라메트릭 표현을 운반하는 컴퓨터 판독가능 매체에 대해 공통의 포맷이 이용될 수 있게 할 수 있다.
예시적인 실시예들에 따르면, 2-채널 다운믹스 신호 및 연관된 업믹스 파라미터들에 기초하여 M-채널 오디오 신호를 재구성하도록 구성된 디코딩 섹션을 포함하는 오디오 디코딩 시스템이 제공되며, 여기서 M ≥ 4이다. 이 오디오 디코딩 시스템은 M-채널 오디오 신호의 적어도 2개의 코딩 포맷 중 선택된 하나의 코딩 포맷을 지시하는 시그널링을 수신하도록 구성된 제어 섹션을 포함한다. 코딩 포맷들은 하나 이상의 채널의 각각의 제1 및 제2 그룹들로의 M-채널 오디오 신호의 채널들의 각각의 상이한 파티션들에 대응한다. 지시된 코딩 포맷에서, 다운믹스 신호의 제1 채널은 M-채널 오디오 신호의 하나 이상의 채널의 제1 그룹의 선형 조합에 대응하고, 다운믹스 신호의 제2 채널은 M-채널 오디오 신호의 하나 이상의 채널의 제2 그룹의 선형 조합에 대응한다. 디코딩 섹션은: 지시된 코딩 포맷에 기초하여 사전 상관해제 계수들의 세트를 결정하고, 다운믹스 신호의 선형 매핑으로서 상관해제 입력 신호를 계산하도록 구성된 사전 상관해제 섹션 - 사전 상관해제 계수들의 세트는 다운믹스 신호에 적용됨 -; 및 상관해제 입력 신호에 기초하여 상관해제된 신호를 생성하도록 구성된 상관해제 섹션을 포함한다. 디코딩 섹션은: 수신된 업믹스 파라미터들 및 지시된 코딩 포맷에 기초하여 습식 및 건식 업믹스 계수들의 세트들을 결정하고; 다운믹스 신호의 선형 매핑으로서 건식 업믹스 신호를 계산하고 - 건식 업믹스 계수들의 세트는 다운믹스 신호에 적용됨 -; 상관해제된 신호의 선형 매핑으로서 습식 업믹스 신호를 계산하고 - 습식 업믹스 계수들의 세트는 상관해제된 신호에 적용됨 -; 재구성될 M-채널 오디오 신호에 대응하는 다차원 재구성 신호를 획득하기 위해 건식 및 습식 업믹스 신호들을 조합하도록 구성된 믹싱 섹션을 포함한다.
예시적인 실시예에서, 오디오 디코딩 시스템은 추가적인 2-채널 다운믹스 신호 및 연관된 추가적인 업믹스 파라미터들에 기초하여 추가적인 M-채널 오디오 신호를 재구성하도록 구성된 추가적인 디코딩 섹션을 추가로 포함할 수 있다. 제어 섹션은 추가적인 M-채널 오디오 신호의 적어도 2개의 코딩 포맷 중 선택된 하나의 코딩 포맷을 지시하는 시그널링을 수신하도록 구성될 수 있다. 추가적인 M-채널 오디오 신호의 코딩 포맷들은 하나 이상의 채널의 각각의 제1 및 제2 그룹들로의 추가적인 M-채널 오디오 신호의 채널들의 각각의 상이한 파티션들에 대응할 수 있다. 추가적인 M-채널 오디오 신호의 지시된 코딩 포맷에서, 추가적인 다운믹스 신호의 제1 채널은 추가적인 M-채널 오디오 신호의 하나 이상의 채널의 제1 그룹의 선형 조합에 대응할 수 있고, 추가적인 다운믹스 신호의 제2 채널은 추가적인 M-채널 오디오 신호의 하나 이상의 채널의 제2 그룹의 선형 조합에 대응할 수 있다. 추가적인 디코딩 섹션은: 추가적인 M-채널 오디오 신호의 지시된 코딩 포맷에 기초하여 추가적인 사전 상관해제 계수들의 세트를 결정하고, 추가적인 다운믹스 신호의 선형 매핑으로서 추가적인 상관해제 입력 신호를 계산하도록 구성된 추가적인 사전 상관해제 섹션 - 추가적인 사전 상관해제 계수들의 세트는 추가적인 다운믹스 신호에 적용됨 -; 및 추가적인 상관해제 입력 신호에 기초하여 추가적인 상관해제된 신호를 생성하도록 구성된 추가적인 상관해제 섹션을 포함할 수 있다. 추가적인 디코딩 섹션은: 수신된 추가적인 업믹스 파라미터들 및 추가적인 M-채널 오디오 신호의 지시된 코딩 포맷에 기초하여 추가적인 습식 및 건식 업믹스 계수들의 세트들을 결정하고; 추가적인 다운믹스 신호의 선형 매핑으로서 추가적인 건식 업믹스 신호를 계산하고 - 추가적인 건식 업믹스 계수들의 세트는 추가적인 다운믹스 신호에 적용됨 -; 추가적인 상관해제된 신호의 선형 매핑으로서 추가적인 습식 업믹스 신호를 계산하고 - 추가적인 습식 업믹스 계수들의 세트는 추가적인 상관해제된 신호에 적용됨 -; 재구성될 추가적인 M-채널 오디오 신호에 대응하는 추가적인 다차원 재구성 신호를 획득하기 위해 추가적인 건식 및 습식 업믹스 신호들을 조합하도록 구성된 추가적인 믹싱 섹션을 추가로 포함할 수 있다.
본 예시적인 실시예에서, 추가적인 디코딩 섹션, 추가적인 사전 상관해제 섹션, 추가적인 상관해제 섹션 및 추가적인 믹싱 섹션은 예를 들어 디코딩 섹션, 사전 상관해제 섹션, 상관해제 섹션 및 믹싱 섹션과 독립적으로 동작가능할 수 있다.
본 예시적인 실시예에서, 추가적인 디코딩 섹션, 추가적인 사전 상관해제 섹션, 추가적인 상관해제 섹션 및 추가적인 믹싱 섹션은 예를 들어 디코딩 섹션, 사전 상관해제 섹션, 상관해제 섹션 및 믹싱 섹션과 각각 기능적으로 등가일 수 있다(또는 유사하게 구성될 수 있다). 대안적으로, 추가적인 디코딩 섹션, 추가적인 사전 상관해제 섹션, 추가적인 상관해제 섹션 및 추가적인 믹싱 섹션 중 적어도 하나는 예를 들어 디코딩 섹션, 사전 상관해제 섹션, 상관해제 섹션 및 믹싱 섹션의 대응하는 섹션에 의해 수행되는 것과는 적어도 하나의 상이한 유형의 보간을 수행하도록 구성될 수 있다.
예를 들어, 수신된 시그널링은 M-채널 오디오 신호 및 추가적인 M-채널 오디오 신호에 대해 상이한 코딩 포맷들을 지시할 수 있다. 대안적으로, 2개의 M-채널 오디오 신호의 코딩 포맷들은 예를 들면 항상 일치할 수 있고, 수신된 시그널링은 2개의 M-채널 오디오 신호에 대한 적어도 2개의 공통 코딩 포맷 중 선택된 하나의 코딩 포맷을 지시할 수 있다.
M-채널 오디오 신호의 코딩 포맷들 사이의 전환에 응답하여, 사전 상관해제 계수들 사이의 점진적인 전이를 위해 이용되는 보간 방식들은, 추가적인 M-채널 오디오 신호의 코딩 포맷들 사이의 전환에 응답하여, 추가적인 사전 상관해제 계수들 사이의 점진적인 전이를 위해 이용되는 보간 방식들과 일치할 수 있거나, 상이할 수 있다.
유사하게, M-채널 오디오 신호의 코딩 포맷들 사이의 전환에 응답하여, 습식 및 건식 업믹스 계수들의 값들의 보간을 위해 이용되는 보간 방식들은, 추가적인 M-채널 오디오 신호의 코딩 포맷들 사이의 전환에 응답하여, 추가적인 습식 및 건식 업믹스 계수들의 값들의 보간을 위해 이용되는 보간 방식들과 일치할 수 있거나, 상이할 수 있다.
예시적인 실시예에서, 오디오 디코딩 시스템은 비트스트림으로부터: 다운믹스 신호, 다운믹스 신호와 연관된 업믹스 파라미터들, 및 이산적으로 코딩된 오디오 채널을 추출하도록 구성된 디멀티플렉서를 추가로 포함할 수 있다. 디코딩 시스템은 이산적으로 코딩된 오디오 채널을 디코딩하도록 동작가능한 단일-채널 디코딩 섹션을 추가로 포함할 수 있다. 이산적으로 코딩된 오디오 채널은 예를 들어 Dolby Digital, MPEG AAC, 또는 그의 신개발품들과 같은 지각 오디오 코덱을 사용하여 비트스트림으로 인코딩될 수 있으며, 단일-채널 디코딩 섹션은 예를 들어 이산적으로 코딩된 오디오 채널을 디코딩하기 위한 코어 디코더를 포함할 수 있다. 단일-채널 디코딩 섹션은 예를 들어 이산적으로 코딩된 오디오 채널을 디코딩 섹션과 독립적으로 디코딩하도록 동작가능할 수 있다.
예시적인 실시예에 따르면, 제1 양태의 방법들 중 임의의 것을 수행하기 위한 명령어들을 갖는 컴퓨터 판독가능 매체를 포함하는 컴퓨터 프로그램 제품이 제공된다.
II. 개요 - 인코더 측
제2 양태에 따르면, 예시적인 실시예들은 오디오 인코딩 시스템뿐만 아니라 오디오 인코딩 방법 및 연관된 컴퓨터 프로그램 제품을 제안한다. 제2 양태에 따른, 제안된 인코딩 시스템, 방법, 및 컴퓨터 프로그램 제품은 일반적으로 동일한 특징들 및 이점들을 공유할 수 있다. 또한, 제1 양태에 따른, 디코딩 시스템, 방법, 및 컴퓨터 프로그램 제품의 특징들에 대해 위에서 제시된 이점들은 일반적으로 제2 양태에 따른 인코딩 시스템, 방법, 및 컴퓨터 프로그램 제품의 대응하는 특징들에 대해 유효할 수 있다.
예시적인 실시예에 따르면, M-채널 오디오 신호(이에 대해 M ≥ 4)를 수신하는 단계를 포함하는 오디오 인코딩 방법이 제공된다. 오디오 인코딩 방법은 임의의 적합한 선택 기준, 예를 들어, 신호 속성, 시스템 부하, 사용자 선호도, 네트워크 조건에 기초하여 적어도 2개의 코딩 포맷들 중 하나의 코딩 포맷을 반복적으로 선택하는 단계를 포함한다. 선택은 오디오 신호의 각각의 시간 프레임마다 한 번 또는 매 n번째 시간 프레임마다 한 번 반복될 수 있으며, 아마도 초기에 선택된 포맷과 상이한 포맷의 선택으로 이어질 수 있고; 대안적으로, 선택은 이벤트-구동형일 수 있다. 코딩 포맷들은 하나 이상의 채널의 각각의 제1 및 제2 그룹들로의 M-채널 오디오 신호의 채널들의 각각의 상이한 파티션들에 대응한다. 코딩 포맷들 각각에서, 2-채널 다운믹스 신호는 M-채널 오디오 신호의 하나 이상의 채널의 제1 그룹의 선형 조합으로서 형성된 제1 채널, 및 M-채널 오디오 신호의 하나 이상의 채널의 제2 그룹의 선형 조합으로서 형성된 제2 채널을 포함한다. 선택된 코딩 포맷에 대해, 다운믹스 채널은 M-채널 오디오 신호에 기초하여 계산된다. 일단 계산되면, 현재 선택된 코딩 포맷의 다운믹스 신호가, 현재 선택된 코딩 포맷을 지시하는 시그널링 및 M-채널 오디오 신호의 파라메트릭 재구성을 가능하게 하는 사이드 정보와 마찬가지로 출력된다. 선택이 선택된 제1 코딩 포맷으로부터 별개의 선택된 제2 코딩 포맷으로의 변화를 야기하면, 전이가 개시될 수 있고, 그에 따라 선택된 제1 코딩 포맷에 따른 다운믹스 신호와 선택된 제2 코딩 포맷에 따른 다운믹스 신호의 크로스 페이드(cross fade)가 출력된다. 이러한 맥락에서, 크로스 페이드는 2개의 신호의 선형 또는 비선형 시간 보간일 수 있다. 예로서,
Figure 112017041293607-pct00001
는 시간에 걸쳐 선형적으로 함수 x2로부터 함수 x1로의 크로스 페이드 y를 제공하며, 여기서 x1, x2는 각각의 코딩 포맷에 따른 다운믹스 신호들을 표현하는 시간의 벡터 값 함수들일 수 있다. 표기의 단순화를 위해, 크로스 페이드가 수행되는 시간 간격은 [0, 1]로 리스케일링되었으며, 여기서 t = 0은 크로스 페이드의 시작(onset)을 표현하고, t = 1은 크로스 페이드가 완료된 시점(point in time)을 표현한다.
물리적 유닛들에서 포인트 t = 0 및 t = 1의 위치는 재구성된 오디오의 지각된 출력 품질에 중요할 수 있다. 크로스 페이드를 찾기 위한 가능한 가이드라인으로서, 시작은 상이한 포맷에 대한 필요성이 결정된 후 가능한 한 조기에 일어날 수 있고/있거나 크로스 페이드는 지각적으로 눈에 띄지 않는 가능한 최단 시간 내에 완료될 수 있다. 이와 같이, 코딩 포맷의 선택이 매 프레임마다 반복되는 구현들에 대해, 일부 예시적인 실시예들은 크로스 페이드가 프레임의 처음에 시작되고(t = 0), 그의 종점(t = 1)은 가능한 한 가깝지만, 평균 청취자가 2개의 별개의 코딩 포맷에 기초하여 공통의 M-채널 오디오 신호(전형적인 콘텐츠를 가짐)의 2개의 재구성 사이의 전이로 인해 아티팩트들 또는 열화들을 의식할 수 없을 만큼 충분히 멀리 있는 것을 규정한다. 하나의 예시적인 실시예에서, 오디오 인코딩 방법에 의해 출력된 다운믹스 신호는 시간 프레임들로 세그먼트화되고 크로스 페이드가 하나의 프레임을 점유할 수 있다. 또 다른 예시적인 실시예에서, 오디오 인코딩 방법에 의해 출력된 다운믹스 신호는 오버랩하는 시간 프레임들로 세그먼트화되고, 크로스 페이드의 지속 시간은 하나의 시간 프레임에서 다음 시간 프레임으로의 스트라이드(stride)에 대응한다.
예시적인 실시예들에서, 현재 선택된 코딩 포맷을 지시하는 시그널링은 프레임 단위로 인코딩될 수 있다. 대안적으로, 시그널링은 선택된 코딩 포맷에 변화가 없다면 그러한 시그널링이 하나 이상의 연속적인 프레임에서 생략될 수 있다는 의미에서 시간-차등적(time-differential)일 수 있다. 디코더 측에서, 이러한 프레임들의 시퀀스는 가장 최근에 시그널링된 코딩 포맷이 선택된 상태로 유지된다 것을 의미하는 것으로 해석될 수 있다.
M-채널 오디오 신호의 오디오 콘텐츠에 의존하여, 다운믹스 신호의 각각의 채널들에 의해 표현되는, 제1 및 제2 그룹들로의 M-채널 오디오 신호의 채널들의 상이한 파티션들은, M-채널 오디오 신호를 캡처하고 효율적으로 인코딩하고, 이 신호가 다운믹스 신호 및 연관된 업믹스 파라미터들로부터 재구성될 때 충실도를 유지하기 위해 적합할 수 있다. 따라서, 재구성된 M-채널 오디오 신호의 충실도는 적절한 코딩 포맷, 즉 다수의 미리 정의된 코딩 포맷들 중에서 가장 적합한 것을 선택함으로써 증가될 수 있다.
예시적인 실시예에서, 사이드 정보는 건식 및 습식 업믹스 계수들을 포함하며, 이들 용어는 본 개시내용에서 위에 사용된 것과 동일한 의미이다. 특정한 구현 이유가 아니라면, 일반적으로 현재 선택된 코딩 포맷에 대한 사이드 정보(특히 건식 및 습식 업믹스 계수들)를 계산하는 것으로 충분하다. 특히, 건식 업믹스 계수들의 세트(차원 M×2의 매트릭스로서 표현될 수 있음)는 M-채널 오디오 신호를 근사화하는 각각의 다운믹스 신호의 선형 매핑을 정의할 수 있다. 습식 업믹스 계수들의 세트(차원 M×P의 매트릭스로 표현될 수 있으며, 여기서 P인 상관해제기(decorrelators)의 수는 P=M-2로 설정될 수 있음)는 상관해제된 신호의 선형 매핑에 의해 획득된 신호의 공분산이 선택된 코딩 포맷의 다운믹스 신호의 선형 매핑에 의해 근사화된 M-채널 오디오 신호의 공분산을 보완하도록 상관해제된 신호의 선형 매핑을 정의한다. 습식 업믹스 계수들의 세트가 정의하는 상관해제된 신호의 매핑은 상관해제된 신호의 매핑과 M-채널 오디오 신호의 합의 공분산이 전형적으로 수신된 M-채널 오디오 신호의 공분산에 더 가깝다는 의미에서 (근사화된) M-채널 오디오 신호의 공분산을 보완할 것이다. 보완 공분산(supplementary covariance)을 추가하는 것의 효과는 디코더 측에서 재구성된 신호의 충실도가 향상될 수 있다는 것이다.
다운믹스 신호의 선형 매핑은 M-채널 오디오 신호의 근사화를 제공한다. 디코더 측에서 M-채널 오디오 신호를 재구성할 때, 상관해제된 신호는 다운믹스 신호의 오디오 콘텐츠의 차원성을 증가시키기 위해 이용되고, 상관해제된 신호의 선형 매핑에 의해 획득된 신호는 다운믹스 신호의 선형 매핑에 의해 획득된 신호와 조합되어 M-채널 오디오 신호의 근사화의 충실도를 향상시킨다. 상관해제된 신호는 다운믹스 신호의 적어도 하나의 채널에 기초하여 결정되고, 다운믹스 신호에서 이미 이용가능하지 않은 M-채널 오디오 신호로부터의 어떤 오디오 콘텐츠도 포함하지 않기 때문에, 수시된 M-채널 오디오 신호의 공분산과 다운믹스 신호의 선형 매핑에 의해 근사화된 M-채널 오디오 신호의 공분산 사이의 차이는 다운믹스 신호의 선형 매핑에 의해 근사화된 M-채널 오디오 신호의 충실도뿐만 아니라, 다운믹스 신호 및 상관해제된 신호 둘 다를 사용하여 재구성된 M-채널 오디오 신호의 충실도도 나타낼 수 있다. 특히, 수신된 M-채널 오디오 신호의 공분산과 다운믹스 신호의 선형 매핑에 의해 근사화된 M-채널 오디오 신호의 공분산 사이의 감소된 차이는 재구성된 M-채널 오디오 신호의 향상된 충실도를 나타낼 수 있다. 습식 업믹스 계수들의 세트가 정의하는 상관해제된 신호의 매핑은 상관해제된 신호의 매핑과 M-채널 오디오 신호의 합의 공분산이 수신된 M-채널 오디오 신호의 공분산에 더 가깝다는 의미에서 (다운믹스 신호로부터 획득된) M-채널 오디오 신호의 공분산을 보완한다. 따라서, 각각의 계산된 차이들에 기초하여 코딩 포맷들 중 하나를 선택하는 것은 재구성된 M-채널 오디오 신호의 충실도를 향상시키는 것을 가능하게 한다.
코딩 포맷들은 예를 들어 계산된 차이들에 기초하여 직접, 또는 계산된 차이들에 기초하여 결정된 계수들 및/또는 값들에 기초하여 선택될 수 있음을 이해할 것이다.
또한, 코딩 포맷들은 예를 들어, 각각의 계산된 차이들 외에 각각의 계산된 건식 업믹스 파라미터들에 기초하여 선택될 수 있음을 이해할 것이다.
건식 업믹스 계수들의 세트는 예를 들어 다운믹스 신호만이 재구성을 위해 이용가능하다는 가정하에, 즉 상관해제된 신호가 재구성을 위해 이용되지 않는다는 가정하에 최소 평균 제곱 오차 근사화를 통해 결정될 수 있다.
계산된 차이들은 예를 들어 수신된 M-채널 오디오 신호의 공분산 매트릭스와 상이한 코딩 포맷들의 다운믹스 신호의 각각의 선형 매핑들에 의해 근사화된 M-채널 오디오 신호의 공분산 매트릭스들 간의 차이들일 수 있다. 코딩 포맷들 중 하나를 선택하는 것은 예를 들어 공분산 매트릭스들 간의 각각의 차이들에 대한 매트릭스 놈(matrix norm)들을 계산하는 것과, 계산된 매트릭스 놈들에 기초하여 코딩 포맷들 중 하나를 선택하는 것, 예를 들어 계산된 매트릭스 놈들 중 최소의 매트릭스 놈과 연관된 코딩 포맷을 선택하는 것을 포함할 수 있다.
상관해제된 신호는 예를 들어 적어도 하나의 채널 및 많아야 M-2개의 채널을 포함할 수 있다.
다운믹스 신호의 선형 매핑을 정의하는 건식 업믹스 계수들의 세트가 M-채널 다운믹스 신호를 근사화한다는 것은 M-채널 다운믹스 신호의 근사화가 다운믹스 신호에 선형 변환을 적용함으로써 획득된다는 것을 의미한다. 이 선형 변환은 다운믹스 신호의 2개의 채널을 입력으로서 취하여 M개의 채널을 출력으로서 제공하고, 건식 업믹스 계수들은 이 선형 변환의 정량적 속성들을 정의하는 계수들이다.
유사하게, 습식 업믹스 파라미터들은 상관해제된 신호의 채널(들)을 입력으로 취하고 M개의 채널을 출력으로서 제공하는 선형 변환의 정량적 속성들을 정의한다.
예시적인 실시예에서, 습식 업믹스 파라미터들은 상관해제된 신호의 (습식 업믹스 파라미터들이 정의하는) 선형 매핑에 의해 획득된 신호의 공분산이 수신된 M-채널 오디오 신호의 공분산과 선택된 코딩 포맷의 다운믹스 신호의 선형 매핑에 의해 근사화된 M-채널 오디오 신호의 공분산 사이의 차이에 근사화하도록 결정될 수 있다. 다르게 말해서, 다운믹스 신호의 (건식 업믹스 파라미터들에 의해 정의되는) 제1 선형 매핑과 상관해제된 신호의 (이 예시적인 실시예에 따라 결정된 습식 업믹스 파라미터들에 의해 정의되는) 제2 선형 매핑의 합의 공분산은 위에서 논의된 오디오 인코딩 방법에 대한 입력을 구성하는 M-채널 오디오 신호의 공분산에 가까울 것이다. 본 예시적인 실시예에 따라 습식 업믹스 계수들을 결정하는 것은 재구성된 M-채널 신호의 충실도를 향상시킬 수 있다.
대안적으로, 습식 업믹스 파라미터들은 상관해제된 신호의 선형 매핑에 의해 획득된 신호의 공분산이 수신된 M-채널 오디오 신호의 공분산과 선택된 코딩 포맷의 다운믹스 신호의 선형 매핑에 의해 근사화된 M-채널 오디오 신호의 공분산 사이의 차이의 일부에 근사화하도록 결정될 수 있다. 예를 들어, 디코더 측에서 제한된 수의 상관해제기가 이용가능하다면, 수신된 M-채널 오디오 신호의 공분산을 완전히 복원하는 것이 가능하지 않을 수 있다. 이러한 예에서, 감소된 수의 상관해제기를 이용하는, M-채널 오디오 신호의 공분산의 부분적인 재구성에 적합한 습식 업믹스 파라미터들은 인코더 측에서 결정될 수 있다.
예시적인 실시예에서, 오디오 인코딩 방법은 적어도 2개의 코딩 포맷 각각에 대해: (해당 코딩 포맷의) 건식 업믹스 계수들과 함께 (해당 코딩 포맷의) 다운믹스 신호로부터 그리고 (해당 포맷의) 다운믹스 신호에 기초하여 결정된 상관해제된 신호로부터의 M-채널 오디오 신호의 파라메트릭 재구성을 가능하게 하는 습식 업믹스 계수들의 세트를 결정하는 단계를 추가로 포함할 수 있고, 습식 업믹스 계수들의 세트는 상관해제된 신호의 선형 매핑에 의해 획득된 공분산이 수신된 M-채널 오디오 신호의 공분산과 (해당 포맷의) 다운믹스 신호의 선형 매핑에 의해 근사화된 M-채널 오디오 신호의 공분산 사이의 차이에 근사화하도록 상관해제된 신호의 선형 매핑을 정의한다. 본 예시적인 실시예에서, 선택된 코딩 포맷은 습식 업믹스 계수들의 각각의 결정된 세트들의 값들에 기초하여 선택될 수 있다.
재구성된 M-채널 오디오 신호의 충실도에 대한 지시는 예를 들어 결정된 습식 업믹스 계수들에 기초하여 획득될 수 있다. 코딩 포맷의 선택은 예를 들어 결정된 습식 업믹스 계수들의 가중된 또는 가중되지 않은 합들, 결정된 습식 업믹스 계수들의 규모들(magnitudes)의 가중된 또는 가중되지 않은 합들, 및/또는 결정된 습식 업믹스 계수들의 제곱들의 가중된 또는 가중되지 않은 합들에 기초할 수 있고, 예를 들어 각각의 계산된 건식 업믹스 계수들의 대응하는 합들에도 기초할 수 있다.
습식 업믹스 파라미터들은 예를 들어 M-채널 신호의 복수의 주파수 대역에 대해 계산될 수 있으며, 코딩 포맷의 선택은 예를 들어 각각의 주파수 대역들에서의 습식 업믹스 계수들의 각각의 결정된 세트들의 값들에 기초할 수 있다.
예시적인 실시예에서, 제1 및 제2 코딩 포맷들 사이의 전이는 하나의 시간 프레임에서의 제1 코딩 포맷 및 후속 시간 프레임에서의 제2 코딩 포맷의 건식 및 습식 업믹스 계수들의 이산 값들을 출력하는 것을 포함한다. 궁극적으로 M-채널 신호를 재구성하는 디코더 내의 기능성들은 출력 이산 값들 사이의 업믹스 계수들의 보간을 포함할 수 있다. 이러한 디코더 측 기능성들 덕분에, 제1 코딩 포맷으로부터 제2 코딩 포맷으로의 크로스 페이드가 효과적으로 야기될 것이다. 위에서 설명된, 다운믹스 신호에 적용된 크로스 페이딩처럼, 이러한 크로스 페이딩은 M-채널 오디오 신호가 재구성될 때 코딩 포맷들 사이의 덜 지각가능한 전이로 이어질 수 있다.
M-채널 오디오 신호에 기초하여 다운믹스 신호를 계산하기 위해 이용된 계수들은, 즉, 다운믹스 신호가 제1 코딩 포맷에 따라 계산되는 프레임과 연관된 값들로부터, 다운믹스 신호가 제2 코딩 포맷에 따라 계산되는 프레임과 연관된 값들로 보간될 수 있다는 것이 이해된다. 적어도 다운믹싱이 시간 도메인에서 발생하면, 약술된 유형의 계수 보간에 기인하는 다운믹스 크로스 페이드는 각각의 다운믹스 신호들에 대해 직접 수행된 보간에 기인하는 크로스 페이드와 등가일 것이다. 다운믹스 신호를 계산하기 위해 이용되는 계수들의 값은 전형적으로 신호 의존적이지 않고 이용가능한 코딩 포맷들 각각에 대해 미리 정의될 수 있다는 것을 상기한다.
다운믹스 신호 및 업믹스 계수들의 크로스 페이딩으로 되돌아가서, 2개의 크로스 페이드 간의 동시성을 보장하는 것이 유리하다고 생각된다. 바람직하게는, 다운믹스 신호 및 업믹스 계수들에 대한 각각의 전이 기간들은 일치할 수 있다. 특히, 각각의 크로스 페이드를 담당하는 엔티티들은 제어 데이터의 공통 스트림에 의해 제어될 수 있다. 이러한 제어 데이터는 크로스 페이드의 시작점과 종료점, 및 선택적으로 선형, 비선형 등과 같은 크로스 페이드 파형을 포함할 수 있다. 업믹스 계수들의 경우, 크로스 페이드 파형은 디코딩 디바이스의 거동을 지배하는 미리 결정된 보간 규칙에 의해 주어질 수 있지만; 크로스 페이드의 시작점과 종료점은 업믹스 계수들의 이산 값들이 정의 및/또는 출력되는 위치들에 의해 암묵적으로 제어될 수 있다. 2개의 크로스 페이딩 프로세스의 시간 의존성에 있어서의 유사성은 다운믹스 신호와 그의 재구성을 위해 제공된 파라미터들 사이의 양호한 매치를 보장하며, 이는 디코더 측에서 아티팩트들의 감소로 이어질 수 있다.
예시적인 실시예에서, 코딩 포맷의 선택은 수신된 M-채널 신호와 다운믹스 신호에 기초하여 재구성된 M-채널 신호의 공분산에 있어서의 차이를 비교하는 것에 기초한다. 특히, 재구성은 건식 업믹스 계수들에 의해서만 정의된, 즉, (예를 들어, 다운믹스 신호의 오디오 콘텐츠의 차원성을 증가시키기 위해) 상관해제를 사용하여 결정된 신호로부터의 기여 없이, 정의된 다운믹스 신호의 선형 매핑과 동등할 수 있다. 특히, 임의의 습식 업믹스 계수들의 세트에 의해 정의된 선형 매핑의 어떤 기여도 비교에서 고려되지 않아야 한다. 다르게 말해서, 상관해제된 신호가 이용가능하지 않은 것처럼 비교가 이루어진다. 이러한 선택의 기준은 현재 더 충실한 재구성을 가능하게 하는 코딩 포맷을 선호할 수 있다. 선택적으로, 이러한 비교가 수행되고 코딩 포맷의 선택에 대한 결정이 이루어진 후에, 습식 업믹스 계수들의 세트가 결정된다. 이 프로세스와 연관된 이점은 수신된 M-채널 오디오 신호의 주어진 섹션에 대한 습식 업믹스 계수들의 중복 결정이 없다는 것이다.
이전 단락에서 설명된 예시적인 실시예에 대한 변형에서, 건식 및 습식 업믹스 계수들은 모든 코딩 포맷에 대해 계산되고, 습식 업믹스 계수들의 정량적 측정치는 코딩 포맷의 선택을 위한 기초로서 사용된다. 실제로, 결정된 습식 업믹스 계수들에 기초하여 계산된 양은 재구성된 M-채널 오디오 신호의 충실도의 (반대) 지시를 제공할 수 있다. 코딩 포맷의 선택은 예를 들어 결정된 습식 업믹스 계수들의 가중된 또는 가중되지 않은 합들, 결정된 습식 업믹스 계수들의 규모들의 가중된 또는 가중되지 않은 합들, 및/또는 결정된 습식 업믹스 계수들의 제곱들의 가중된 또는 가중되지 않은 합들에 기초할 수 있다. 이러한 선택사항들 각각은 각각의 계산된 건식 업믹스 계수들의 대응하는 합들과 조합될 수 있다. 습식 업믹스 파라미터들은 예를 들어 M-채널 신호의 복수의 주파수 대역에 대해 계산될 수 있으며, 코딩 포맷의 선택은 예를 들어 각각의 주파수 대역에들서의 습식 업믹스 계수들의 각각의 결정된 세트들의 값들에 기초할 수 있다
예시적인 실시예에서, 오디오 인코딩 방법은: 적어도 2개의 코딩 포맷 각각에 대해, 대응하는 습식 업믹스 계수들의 제곱들의 합 및 대응하는 건식 업믹스 계수들의 제곱들의 합을 계산하는 단계를 추가로 포함할 수 있다. 본 예시적인 실시예에서, 선택된 코딩 포맷은 계산된 제곱들의 합들에 기초하여 선택될 수 있다. 본 발명자들은 계산된 제곱들의 합들이 M-채널 오디오 신호가 습식 및 건식 기여들의 믹스에 기초하여 재구성될 때 발생하는, 청취자에 의해 지각되는, 충실도의 손실에 대한 특히 양호한 지시를 제공할 수 있음을 인식했다.
예를 들어, 각각의 코딩 포맷에 대해 계산된 제곱들의 합들에 기초하여 각각의 코딩 포맷에 대한 비율(ratio)이 형성될 수 있고, 선택된 코딩 포맷은 형성된 비율들의 최소 또는 최대의 비율과 연관될 수 있다. 비율을 형성하는 것은 예를 들어 한편으로 습식 업믹스 계수들의 제곱들의 합을, 다른 한편으로 습식 업믹스 계수들의 제곱들의 합과 건식 업믹스 계수들의 제곱들의 합의 합산으로 나누는 것을 포함할 수 있다. 대안적으로, 비율은 습식 업믹스 계수들의 제곱들의 합을 건식 업믹스 계수들의 제곱들의 합으로 나누는 것에 의해 형성될 수 있다.
예시적인 실시예에서, 방법은 M-채널 오디오 신호 및 적어도 하나의 연관된 (M2-채널) 오디오 신호의 인코딩을 제공한다. 오디오 신호들은 예를 들어 동시에 기록되거나 공통 저작 프로세스에서 생성됨으로써, 그들이 공통의 오디오 장면을 설명한다는 의미에서 연관될 수 있다. 오디오 신호들은 공통의 다운믹스 신호에 의해 인코딩될 필요는 없지만, 별개의 프로세스들에서 인코딩될 수 있다. 그러한 셋업에서, 코딩 포맷들 중 하나의 선택은 적어도 하나의 추가적인 오디오 채널에 관한 데이터를 추가적으로 고려하고, 그렇게 선택된 코딩 포맷은 M-채널 오디오 신호 및 연관된 (M2-채널) 오디오 신호 둘 다를 인코딩하는 데 사용되어야 한다.
예시적인 실시예에서, 오디오 인코딩 방법에 의해 출력된 다운믹스 신호는 시간 프레임들로 세그먼트화될 수 있고, 코딩 포맷의 선택은 프레임당 한 번 수행될 수 있고, 선택된 코딩 포맷은 상이한 코딩 포맷이 선택되기 전에 적어도 미리 정의된 수의 시간 프레임들에 대해 유지될 수 있다. 프레임에 대한 코딩 포맷의 선택은 예를 들어 공분산들 사이의 차이들을 고려하는 것, 이용가능한 코딩 포맷들에 대한 습식 업믹스 계수들의 값들을 고려하는 것 등에 의해 위에 약술된 방법들 중 임의의 방법에 의해 수행될 수 있다. 최소 수의 시간 프레임들에 대해 선택된 코딩 포맷을 유지함으로써, 코딩 포맷들 사이에서 앞뒤로의 반복된 점프들이 회피될 수 있다. 본 예시적인 실시예는 예를 들어 재구성된 M-채널 오디오 신호의, 청취자에 의해 지각되는, 재생 품질을 향상시킬 수 있다.
시간 프레임들의 최소 수는 예를 들어 10일 수 있다.
수신된 M-채널 오디오 신호는 예를 들어 최소 수의 시간 프레임들에 대해 버퍼링될 수 있고, 코딩 포맷의 선택은 예를 들어 선택된 코딩 포맷이 유지되어야 하는 프레임들의 최소 수를 고려하여 선택된 수의 시간 프레임들을 포함하는 이동 윈도우(moving window)에 대한 다수결 결정에 기초하여 수행될 수 있다. 그러한 안정화 기능성의 구현은 다양한 평활화 필터들, 특히 디지털 신호 처리에서 공지된 유한 임펄스 응답 평활화 필터들 중 하나를 포함할 수 있다. 이 접근법의 대안으로서, 시퀀스 내의 최소 수의 프레임들에 대해 새로운 코딩 포맷이 선택된 것으로 발견된 경우, 코딩 포맷들은 새로운 코딩 포맷으로 전환될 수 있다. 이 기준을 시행하기 위해, 최소 수의 연속 프레임들을 갖는 이동 시간 윈도우가, 예를 들어, 버퍼링된 프레임들에 대한 과거의 코딩 포맷 선택들에 적용될 수 있다. 제1 코딩 포맷의 프레임들의 시퀀스 후에, 이동 윈도우 내의 각각의 프레임에 대해 제2 코딩 포맷이 선택된 상태로 유지된다면, 제2 코딩 포맷으로의 전이가 확인되고 이동 윈도우의 처음부터 계속 효력을 발휘한다. 위의 안정화 기능성의 구현은 상태 머신을 포함할 수 있다.
예시적인 실시예에서, 건식 및 습식 업믹스 파라미터들의 콤팩트한 표현이 제공되며, 이는 특히 미리 정의된 매트릭스 클래스에 속한 덕분에 매트릭스 내의 요소들보다 더 적은 수의 파라미터들에 의해 고유하게 결정되는 중재 매트릭스(intermediate matrix)를 생성하는 것을 포함한다. 이 콤팩트한 표현(compact representation)의 양태들은 본 개시내용의 초기 섹션들에서, 그리고 특히 미국 가출원 제61/974,544호(처음 명명된 발명자: Lars Villemoes; 출원일: 2014년 4월 3일)를 참조하여 설명되었다.
예시적인 실시예에서, 선택된 코딩 포맷에서, M-채널 오디오 신호의 하나 이상의 채널의 제1 그룹은 N개의 채널로 구성될 수 있고, 여기서 N ≥ 3이다. 하나 이상의 채널의 제1 그룹은 습식 및 건식 업믹스 계수들 중 적어도 일부를 적용함으로써 다운믹스 신호의 제1 채널 및 상관해제된 신호의 N-1개의 채널로부터 재구성 가능할 수 있다.
본 예시적인 실시예에서, 선택된 코딩 포맷의 건식 업믹스 계수들의 세트를 결정하는 것은 선택된 코딩 포맷의 하나 이상의 채널의 제1 그룹을 근사화하는 선택된 코딩 포맷의 다운믹스 신호의 제1 채널의 선형 매핑을 정의하기 위해 선택된 코딩 포맷의 건식 업믹스 계수들의 서브세트를 결정하는 것을 포함할 수 있다.
본 예시적인 실시예에서, 선택된 코딩 포맷의 습식 업믹스 계수들의 세트를 결정하는 것은: 수신된 선택된 코딩 포맷의 하나 이상의 채널의 제1 그룹의 공분산과, 선택된 코딩 포맷의 다운믹스 신호의 제1 채널의 선형 매핑에 의해 근사화된 선택된 코딩 포맷의 하나 이상의 채널의 제1 그룹의 공분산 사이의 차이에 기초하여 중재 매트릭스를 결정하는 것을 포함할 수 있다. 미리 정의된 매트릭스와 곱해질 때, 중재 매트릭스는 선택된 포맷의 하나 이상의 채널의 제1 그룹의 파라메트릭 재구성의 일부로서 상관해제된 신호의 N-1개의 채널의 선형 매핑을 정의하는 선택된 코딩 포맷의 습식 업믹스 계수들의 서브세트에 대응할 수 있다. 선택된 코딩 포맷의 습식 업믹스 계수들의 서브세트는 중재 매트릭스 내의 요소들의 수보다 많은 계수를 포함할 수 있다.
본 예시적인 실시예에서, 출력 업믹스 파라미터들은, 건식 업믹스 계수들의 서브세트가 도출가능한, 건식 업믹스 파라미터들로 본 명세서에서 지칭되는 제1 유형의 업믹스 파라미터들의 세트, 및 중재 매트릭스가 미리 정의된 매트릭스 클래스에 속하는 경우에 중재 매트릭스를 고유하게 정의하는, 습식 업믹스 파라미터들로 본 명세서에서 지칭되는 제2 유형의 업믹스 파라미터들의 세트를 포함할 수 있다. 중재 매트릭스는 선택된 코딩 포맷의 습식 업믹스 파라미터들의 서브세트 내의 요소들의 수보다 많은 요소를 가질 수 있다.
본 예시적인 실시예에서, 디코더 측에서 하나 이상의 채널의 제1 그룹의 파라메트릭 재구성 사본은, 하나의 기여로서, 다운믹스 신호의 제1 채널의 선형 매핑에 의해 형성된 건식 업믹스 신호, 및, 추가적인 기여로서, 상관해제된 신호의 N-1개의 채널의 선형 매핑에 의해 형성된 습식 업믹스 신호를 포함한다. 건식 업믹스 계수들의 서브세트는 다운믹스 신호의 제1 채널의 선형 매핑을 정의하고, 습식 업믹스 계수들의 서브세트는 상관해제된 신호의 선형 매핑을 정의한다. 습식 업믹스 계수들의 서브세트 내의 계수들의 수보다 적은, 그리고 그로부터 미리 정의된 매트릭스 및 미리 정의된 매트릭스 클래스에 기초하여 습식 업믹스 계수들의 서브세트가 도출가능한, 습식 업믹스 파라미터들을 출력함으로써, M-채널 오디오 신호의 재구성을 가능하게 하기 위해 디코더 측에 전송되는 정보의 양이 감소될 수 있다. 파라메트릭 재구성에 필요한 데이터의 양을 감소시킴으로써, M-채널 오디오 신호의 파라메트릭 표현의 송신에 요구되는 대역폭, 및/또는 그러한 표현을 저장하기 위해 요구되는 메모리 크기가 감소될 수 있다.
중재 매트릭스는 예를 들어 상관해제된 신호의 N-1개의 채널의 선형 매핑에 의해 획득된 신호의 공분산이 다운믹스 신호의 제1 채널의 선형 매핑에 의해 근사화된 하나 이상의 채널의 제1 그룹의 공분산을 보완하도록 결정될 수 있다.
미리 정의된 매트릭스 및 미리 정의된 매트릭스 클래스를 결정 및 이용하는 방법은 위에서 언급한 미국 가출원 제61/974,544호의 16페이지 15행 내지 20페이지 2행에 더 상세히 설명되어 있다. 특히 미리 정의된 매트릭스의 예들에 대해서는 수학식 9를 참조한다.
예시적인 실시예에서, 중재 매트릭스를 결정하는 것은 습식 업믹스 계수들의 서브세트에 의해 정의된 상관해제된 신호의 N-1개의 채널의 선형 매핑에 의해 획득된 신호의 공분산이 수신된 하나 이상의 채널의 제1 그룹의 공분산과, 다운믹스 신호의 제1 채널의 선형 매핑에 의해 근사화된 하나 이상의 채널의 제1 그룹의 공분산 사이의 차이에 근사화하거나 그와 실질적으로 일치하도록 중재 매트릭스를 결정하는 것을 포함할 수 있다. 다시 말해서, 중재 매트릭스는 다운믹스 신호의 제1 채널의 선형 매핑에 의해 형성된 건식 업믹스 신호와 상관해제된 신호의 N-1개의 채널의 선형 매핑에 의해 형성된 습식 업믹스 신호의 합으로서 획득된, 하나 이상의 채널의 제1 그룹의 재구성 사본이 수신된 하나 이상의 채널의 제1 그룹의 공분산을 완전히, 또는 적어도 거의 복원하도록 결정될 수 있다.
예시적인 실시예에서, 습식 업믹스 파라미터들은 단지 N(N-1)/2개의 독립적으로 할당가능한 습식 업믹스 파라미터를 포함할 수 있다. 본 예시적인 실시예에서, 중재 매트릭스는 (N-1)2개의 매트릭스 요소를 가질 수 있고 중재 매트릭스가 미리 정의된 매트릭스 클래스에 속하는 경우에 습식 업믹스 파라미터들에 의해 고유하게 정의될 수 있다. 본 예시적인 실시예에서, 습식 업믹스 계수들의 서브세트는 N(N-1)개의 계수를 포함할 수 있다.
예시적인 실시예에서, 건식 업믹스 계수들의 서브세트는 N개의 계수를 포함할 수 있다. 본 예시적인 실시예에서, 건식 업믹스 파라미터들은 단지 N-1개의 건식 업믹스 파라미터를 포함할 수 있고, 건식 업믹스 계수들의 서브세트는 미리 정의된 규칙을 사용하여 N-1개의 건식 업믹스 파라미터로부터 도출가능할 수 있다.
예시적인 실시예에서, 결정된 건식 업믹스 계수들의 서브세트는 하나 이상의 채널의 제1 그룹의 최소 평균 제곱 오차 근사화에 대응하는 다운믹스 신호의 제1 채널의 선형 매핑을 정의할 수 있고, 즉, 다운믹스 신호의 제1 채널의 선형 매핑들의 세트 중에서, 결정된 건식 업믹스 계수들의 세트는 최소 평균 제곱의 의미에서 하나 이상의 채널의 제1 그룹에 가장 근사화하는 선형 매핑을 정의할 수 있다.
예시적인 실시예들에서, M-채널 오디오 신호를 2-채널 오디오 신호 및 연관된 업믹스 파라미터들로서 인코딩하도록 구성된 인코딩 섹션을 포함하는 오디오 인코딩 시스템이 제공된다(여기서, M ≥ 4). 인코딩 섹션은: 하나 이상의 채널의 각각의 제1 및 제2 그룹들로의 M-채널 오디오 신호의 채널들의 각각의 상이한 파티션들에 대응하는 적어도 2개의 코딩 포맷 중 적어도 하나에 대하여, 코딩 포맷에 따라, M-채널 오디오 신호에 기초하여 2-채널 다운믹스 신호를 계산하도록 구성된 다운믹스 섹션을 포함한다. 다운믹스 신호의 제1 채널은 M-채널 오디오 신호의 하나 이상의 채널의 제1 그룹의 선형 조합으로서 형성되고, 다운믹스 신호의 제2 채널은 M-채널 오디오 신호의 하나 이상의 채널의 제2 그룹의 선형 조합으로서 형성된다.
오디오 인코딩 시스템은 임의의 적합한 기준, 예를 들어, 신호 속성, 시스템 부하, 사용자 선호도, 네트워크 조건에 기초하여 코딩 포맷들 중 하나를 선택하도록 구성된 제어 섹션을 추가로 포함한다. 오디오 인코딩 시스템은 제어 섹션에 의해 전이가 명령(order)되었을 때 2개의 코딩 포맷 사이에서 다운믹스 신호를 크로스 페이드하는, 다운믹스 보간기(downmix interpolator)를 추가로 포함한다. 이러한 전이 동안, 코딩 포맷 둘 다에 대한 다운믹스 신호들이 계산될 수 있다. 다운믹스 신호 - 또는 적용 가능한 경우 그의 크로스 페이드 - 외에, 오디오 인코딩 시스템은 적어도 다운믹스 신호에 기초하여 M-채널 오디오 신호의 파라메트릭 재구성을 가능하게 하는 사이드 정보 및 현재 선택된 코딩 포맷을 지시하는 시그널링을 출력한다. 시스템이 예를 들어 오디오 채널의 각각의 그룹들을 인코딩하기 위해 병렬로 동작하는 다수의 인코딩 섹션을 포함하면, 제어 섹션은 이들 각각으로부터 자율적으로 구현될 수 있고 인코딩 섹션들 각각에 의해 사용되는 공통 코딩 포맷을 선택하는 것을 담당할 수 있다.
예시적인 실시예들에서, 본 섹션에서 설명된 방법들 중 임의의 것을 수행하기 위한 명령어들을 갖는 컴퓨터 판독가능 매체를 포함하는 컴퓨터 프로그램 제품이 제공된다.
III. 예시적인 실시예들
도 6-8은 5.1-채널 오디오 신호로서 11.1-채널 오디오 신호의 파라메트릭 인코딩을 위한 채널들의 그룹들로 11.1-채널 오디오 신호를 파티션하는 대안적인 방식들을 예시한다. 11.1-채널 오디오 신호는 채널들(L(left), LS(left side), LB(left back), TFL(top front left), TBL(top back left), R(right), RS(right side), RB(right back), TFR(top front right), TBR(top back right), C(center) 및 LFE(low frequency effects))을 포함한다. 5개의 채널(L, LS, LB, TFL 및 TBL)은 11.1-채널 오디오 신호의 재생 환경에서 왼쪽 절반-공간(left half-space)을 표현하는 5-채널 오디오 신호를 형성한다. 3개의 채널(L, LS 및 LB)은 재생 환경에서 상이한 수평 방향을 표현하고, 2개의 채널(TFL 및 TBL)은 3개의 채널(L, LS 및 LB)의 방향들로부터 수직으로 분리된 방향들을 표현한다. 2개의 채널(TFL 및 TBL)은 예를 들어 천장 스피커에서 재생되도록 의도될 수 있다. 유사하게, 5개의 채널(R, RS, RB, TFR 및 TBR)은 재생 환경의 오른쪽 절반-공간을 표현하는 추가적인 5-채널 오디오 신호를 형성하고, 3개의 채널(R, RS 및 RB)은 재생 환경에서 상이한 수평 방향을 표현하고, 2개의 채널(TFR 및 TBR)은 3개의 채널(R, RS 및 RB)의 방향들로부터 수직으로 분리된 방향들을 표현한다.
5.1-채널 오디오 신호로서 11.1-채널 오디오 신호를 표현하기 위해, 채널들(L, LS, LB, TFL, TBL, R, RS, RB, TFR, TBR, C 및 LFE)의 집합은 각각의 다운믹스 채널들 및 연관된 업믹스 파라미터들에 의해 표현되는 채널들의 그룹들로 파티션될 수 있다. 5-채널 오디오 신호(L, LS, LB, TFL, TBL)는 2-채널 다운믹스 신호(L1, L2) 및 연관된 업믹스 파라미터들에 의해 표현될 수 있는 한편, 추가적인 5-채널 오디오 신호(R, RS, RB, TFR, TBR)는 추가적인 2-채널 다운믹스 신호(R1, R2) 및 연관된 추가적인 업믹스 파라미터들에 의해 표현될 수 있다. 채널들(C 및 LFE)은 11.1-채널 오디오 신호의 5.1 채널 표현에서도 분리 채널들로서 유지될 수 있다.
도 6은 제1 코딩 포맷(F1)을 예시하며, 5-채널 오디오 신호(L, LS, LB, TFL, TBL)는 채널들(L, LS, LB)의 제1 그룹(601) 및 채널들(TFL, TBL)의 제2 그룹(602)으로 파티션되고, 추가적인 5-채널 오디오 신호(R, RS, RB, TFR, TBR)는 채널들(R, RS, RB)의 추가적인 제1 그룹(603) 및 채널들(TFR, TBR)의 추가적인 제2 그룹(604)으로 파티션된다. 제1 코딩 포맷(F1)에서, 채널들의 제1 그룹(601)은 2-채널 다운믹스 신호의 제1 채널(L1)에 의해 표현되고, 채널들의 제2 그룹(602)은 2-채널 다운믹스 신호의 제2 채널(L2)에 의해 표현된다. 다운믹스 신호의 제1 채널(L1)은 L1 = L + LS + LB에 따른 채널들의 제1 그룹(601)의 합에 대응할 수 있고, 다운믹스 신호의 제2 채널(L2)은 L2 = TFL + TBL에 따른 채널들의 제2 그룹(602)의 합에 대응할 수 있다.
일부 예시적인 실시예들에서, 채널들의 일부 또는 전부는 합산 전에 리스케일링(rescale)될 수 있어, 다운믹스 신호의 제1 채널(L1)은 L1 = c1L + c2LS + c3LB에 따른 채널들의 제1 그룹(601)의 선형 조합에 대응할 수 있고, 다운믹스 신호의 제2 채널(L2)은 L2 = c4TFL + c5TBL에 따른 채널들의 제2 그룹(602)의 선형 조합에 대응할 수 있다. 이득들(c2, c3, c4, c5)은 예를 들어 일치할 수 있는 한편, 이득(c1)은 예를 들어 상이한 값을 가질 수 있고; 예를 들어, c1는 전혀 리스케일링하지 않은 것에 대응할 수 있다. 예를 들어, 값들
Figure 112017041293607-pct00002
Figure 112017041293607-pct00003
가 사용될 수 있다. 예를 들어, 제1 코딩 포맷(F1)에서 각각의 채널(L, LS, LB, TFL, TBL)에 적용되는 이득들(c1, ..., c5)이 도 7 및 8을 참조하여 아래 설명된 다른 코딩 포맷(F2 및 F3)에서 이러한 채널들에 적용되는 이득과 일치하면, 이러한 이득들은 상이한 코딩 포맷들(F1, F2, F3) 사이에서 전환할 때 다운믹스 신호가 어떻게 변화하는지에 영향을 미치지 않고, 따라서 리스케일링된 채널들(c1L, c2LS, c3LB, c4TFL, c5TBL)은 그들이 원래 채널들(L, LS, LB, TFL, TBL)인 것처럼 취급될 수 있다. 다른 한편으로, 상이한 코딩 포맷들에서 동일한 채널들의 리스케일링을 위해 상이한 이득들이 이용되면, 이러한 코딩 포맷들 사이의 전환은 예를 들어 다운믹스 신호에서 상이하게 스케일링된 채널들(L, LS, LB, TFL, TBL)의 버전들 사이에서 점프들을 유발할 수 있고, 이는 잠재적으로 디코더 측에서의 가청 아티팩트들을 유발할 수 있다. 그러한 아티팩트들은, 예를 들어, 수학식 3 및 4와 관련하여 아래 설명된 바와 같이, 코딩 포맷의 전환 이전에 다운믹스 신호를 형성하기 위해 이용된 계수들로부터 코딩 포맷의 전환 이후에 다운믹스 신호를 형성하기 위해 이용된 계수들로의 보간을 이용하는 것, 및/또는 사전 상관해제 계수들의 보간을 이용하는 것에 의해 억제될 수 있다.
유사하게, 채널들의 추가적인 제1 그룹(603)은 추가적인 다운믹스 신호의 제1 채널(R1)에 의해 표현되고, 채널들의 추가적인 제2 그룹(604)은 추가적인 다운믹스 신호의 제2 채널(R2)에 의해 표현된다.
제1 코딩 포맷(F1)은 천장 채널들(TFL, TBL, TFR 및 TBR)을 표현하기 위한 전용 다운믹스 채널들(L2 및 R2)을 제공한다. 따라서, 제1 코딩 포맷(F1)의 사용은, 예를 들어, 재생 환경에서의 수직 차원이 11.1-채널 오디오 신호의 전체적인 인상에 중요한 경우에, 비교적 높은 충실도를 갖는 11.1-채널 오디오 신호의 파라메트릭 재구성을 가능하게 할 수 있다.
도 7은 제2 코딩 포맷(F2)을 예시하며, 5-채널 오디오 신호(L, LS, LB, TFL, TBL)는 다운믹스 신호의 각각의 채널들(L1, L2)에 의해 표현되는 채널들의 제1 그룹(701) 및 제2 그룹(702)으로 파티션되고, 여기서, 채널들(L1, L2)은 제1 코딩 포맷(F1)에서처럼 채널들의 각각의 그룹들(701 및 702)의 합, 또는 각각의 채널들(L, LS, LB, TFL, TBL)을 리스케일링하기 위해 동일한 이득들(c1, ..., c5)을 이용하는 채널들의 각각의 그룹들(701, 702)의 선형 조합들에 대응한다. 유사하게, 추가적인 5-채널 오디오 신호(R, RS, RB, TFR, TBR)는 각각의 채널(R1 및 R2)에 의해 표현된 채널들의 추가적인 제1 그룹(703) 및 제2 그룹(704)으로 파티션된다.
제2 코딩 포맷(F2)은 천장 채널들(TFL, TBL, TFR 및 TBR)을 표현하기 위한 전용 다운믹스 채널들을 제공하지 않지만, 예를 들어, 재생 환경에서 수직 차원이 11.1-채널 오디오 신호의 전체적인 인상에 중요하지 않은 경우에, 비교적 높은 충실도를 갖는 11.1-채널 오디오 신호의 파라메트릭 재구성을 가능하게 할 수 있다.
도 8은 제3 코딩 포맷(F3)을 예시하며, 5-채널 오디오 신호(L, LS, LB, TFL, TBL)는 다운믹스 신호의 각각의 채널(L1 및 L2)에 의해 표현되는 하나 이상의 채널의 제1 그룹(801) 및 제2 그룹(802)으로 파티션되고, 여기서 신호의 채널들(L1 및 L2)은 제1 코딩 포맷(F1)에서처럼 하나 이상의 채널의 각각의 그룹들(801 및 802)의 합, 또는 각각의 채널들(L, LS, LB, TFL, TBL)의 리스케일링을 위해 동일한 계수들(c1, ..., c5)을 이용하는 하나 이상의 채널의 각각의 그룹들(801 및 802)의 선형 조합들에 대응한다. 유사하게, 추가적인 5-채널 신호(R, RS, RB, TFR, TBR)는 각각의 채널(R1 및 R2)에 의해 표현된 채널들의 추가적인 제1 그룹(803) 및 제2 그룹(804)으로 파티션된다. 제3 코딩 포맷(F3)에서, 채널(L)만이 다운믹스 신호의 제1 채널(L1)에 의해 표현되는 한편, 4개의 채널(LS, LB, TFL 및 TBL)은 다운믹스 신호의 제2 채널(L2)에 의해 표현된다.
도 1-5를 참조하여 설명되는 인코더 측에서, 2-채널 다운믹스 신호(L1, L2)는,
Figure 112017041293607-pct00004
에 따라 5-채널 오디오 신호 X = [L LS LB TFL TBL]T의 선형 매핑으로서 계산되며, 여기서, dn,m, n = 1,2, m=1, ..., 5는 다운믹스 매트릭스(D)에 의해 표현된 다운믹스 계수들이다. 도 9-13을 참조하여 설명되는 디코더 측에서, 5-채널 오디오 신호 [L LS LB TFL TBL]T의 파라메트릭 재구성은,
Figure 112017041293607-pct00005
에 따라 수행되며, 여기서, cn,m, n = 1, ..., 5, m = 1,2는 건식 업믹스 매트릭스(βL)에 의해 표현된 건식 업믹스 계수들이고, pn,k, n = 1, ..., 5, k = 1,2,3은 습식 업믹스 매트릭스(γL)에 의해 표현된 습식 업믹스 계수들이고, zk, k = 1,2,3은 다운믹스 신호(L1, L2)에 기초하여 생성된 3-채널 상관해제된 신호(Z)의 채널들이다.
도 1은 예시적인 실시예에 따라 M-채널 오디오 신호를 2-채널 다운믹스 신호 및 연관된 업믹스 파라미터로서 인코딩하기 위한 인코딩 섹션(100)의 일반화된 블록도이다.
M-채널 오디오 신호는 본 명세서에서 도 6-8을 참조하여 설명된 5-채널 오디오 신호(L, LS, LB, TFL 및 TBL)에 의해 예시된다. 인코딩 섹션(100)이 M-채널 오디오 신호 - M = 4 또는 M ≥ 6 - 에 기초하여 2-채널 다운믹스 신호를 계산하는 예시적인 실시예들이 또한 고려될 수 있다.
인코딩 섹션(100)은 다운믹스 섹션(110) 및 분석 섹션(120)을 포함한다. 도 6-8을 참조하여 설명된 코딩 포맷들(F1, F2, F3) 각각에 대해, 다운믹스 섹션(110)은 코딩 포맷에 따라 5-채널 오디오 신호(L, LS, LB, TFL, TBL)에 기초하여 2-채널 다운믹스 신호(L1, L2)를 계산한다. 예를 들어 제1 코딩 포맷(F1)에서, 다운믹스 신호의 제1 채널(L1)은 5-채널 오디오 신호(L, LS, LB, TFL, TBL)의 채널들의 제1 그룹(601)의 선형 조합(예를 들어, 합)으로서 형성되고, 다운믹스 신호의 제2 채널(L2)은 5-채널 오디오 신호(L, LS, LB, TFL, TBL)의 채널들의 제2 그룹(602)의 선형 조합(예를 들어, 합)으로서 형성된다. 다운믹스 섹션(110)에 의해 수행되는 동작은 예를 들면 수학식 1로서 표현될 수 있다.
코딩 포맷들(F1, F2, F3) 각각에 대해, 분석 섹션(120)은 5-채널 오디오 신호(L, LS, LB, TFL, TBL)를 근사화하는 각각의 다운믹스 신호(L1, L2)의 선형 매핑을 정의하는 건식 업믹스 계수들의 세트(βL)를 결정하고, 수신된 5-채널 오디오 신호(L, LS, LB, TFL, TBL)의 공분산과 각각의 다운믹스 신호(L1, L2)의 각각의 선형 매핑에 의해 근사화된 5-채널 오디오 신호의 공분산 사이의 차이를 계산한다. 계산된 차이는, 본 명세서에서, 수신된 5-채널 오디오 신호(L, LS, LB, TFL, TBL)의 공분산 매트릭스와 각각의 다운믹스 신호(L1, L2)의 각각의 선형 매핑에 의해 근사화된 5-채널 오디오 신호의 공분산 매트릭스 사이의 차이에 의해 예시된다. 코딩 포맷들(F1, F2, F3) 각각에 대해, 분석 섹션(120)은 각각의 계산된 차이에 기초하여 습식 업믹스 계수들의 세트(γL)를 결정하고, 이는 건식 업믹스 계수들(βL)과 함께, 다운믹스 신호(L1, L2)로부터 그리고 다운믹스 신호(L1, L2)에 기초하여 디코더 측에서 결정된 3-채널 상관해제된 신호로부터 5-채널 오디오 신호(L, LS, LB, TFL, TBL)의 수학식 2에 따른 파라메트릭 재구성을 가능하게 한다. 습식 업믹스 계수들의 세트(γL)는 상관해제된 신호의 선형 매핑을 정의하여, 상관해제된 신호의 선형 매핑에 의해 획득된 신호의 공분산 매트릭스가 수신된 5-채널 오디오 신호(L, LS, LB, TFL, TBL)의 공분산 매트릭스와 다운믹스 신호(L1, L2)의 선형 매핑에 의해 근사화된 5-채널 오디오 신호의 공분산 매트릭스 사이의 차이에 근사화하게 한다.
다운믹스 섹션(110)은 예를 들어 시간 도메인에서, 즉, 5-채널 오디오 신호(L, LS, LB, TFL, TBL)의 시간 도메인 표현에 기초하여, 또는 주파수 도메인에서, 즉 5-채널 오디오 신호(L, LS, LB, TFL, TBL)의 주파수 도메인 표현에 기초하여 다운믹스 신호(L1, L2)를 계산할 수 있다.
분석 섹션(120)은 예를 들어 5-채널 오디오 신호(L, LS, LB, TFL, TBL)의 주파수 도메인 분석에 기초하여 건식 업믹스 계수들(βL) 및 습식 업믹스 계수들(γL)을 결정할 수 있다. 분석 섹션(120)은 예를 들어 다운믹스 섹션(110)에 의해 계산된 다운믹스 신호(L1, L2)를 수신할 수 있거나, 건식 업믹스 계수들(βL) 및 습식 업믹스 계수들(γL)을 결정하기 위한 다운믹스 신호(L1, L2)의 그 자체 버전을 계산할 수 있다.
도 3은 예시적인 실시예에 따른 도 1을 참조하여 설명된 인코딩 섹션(100)을 포함하는 오디오 인코딩 시스템(300)의 일반화된 블록도이다. 본 예시적인 실시예에서, 예를 들어, 하나 이상의 음향 변환기(301)에 의해 기록되거나 오디오 저작 장비(301)에 의해 생성된 오디오 콘텐츠는 도 6-8을 참조하여 설명된 11.1-채널 오디오 신호의 형태로 제공된다. QMF(quadrature mirror filter) 분석 섹션(302) (또는 필터뱅크)은 5-채널 오디오 신호(L, LS, LB TFL, TBL)를 인코딩 섹션(100)에 의해 시간/주파수 타일들의 형태로 처리하기 위해, 5-채널 오디오 신호(L, LS, LB, TFL, TBL)를 시간 세그먼트 단위로 QMF 도메인으로 변환한다.(이하에서 추가로 설명되는 바와 같이, QMF 분석 섹션(302) 및 그의 대응부인 QMF 합성 섹션(305)은 선택적이다.) 오디오 인코딩 시스템(300)은 인코딩 섹션(100)과 비슷하고, 추가적인 5-채널 오디오 신호(R, RS, RB, TFR 및 TBR)를 추가적인 2-채널 다운믹스 신호(R1, R2) 및 연관된 추가적인 건식 업믹스 파라미터(βR)와 추가적인 습식 업믹스 파라미터(γR)로서 인코딩하도록 적응된 추가적인 인코딩 섹션(303)을 포함한다. QMF 분석 섹션(302)은 또한 추가적인 인코딩 섹션(303)에 의한 처리를 위해 추가적인 5-채널 오디오 신호(R, RS, RB, TFR 및 TBR)를 QMF 도메인으로 변환한다.
제어 섹션(304)은 각각의 코딩 포맷(F1, F2, F3)에 대해 인코딩 섹션(100) 및 추가적인 인코딩 섹션(303)에 의해 결정된 습식 및 건식 업믹스 계수들(γL, γR 및 βL, βR)에 기초하여 코딩 포맷들(F1, F2, F3) 중 하나를 선택한다. 예를 들어, 코딩 포맷들(F1, F2, F3) 각각에 대해, 제어 섹션(304)은 비율(ratio)
Figure 112017041293607-pct00006
를 계산할 수 있으며, 여기서 Ewet은 습식 업믹스 계수들(γL 및 γR)의 제곱들의 합이고, Edry는 건식 업믹스 계수들(βL, βR)의 제곱들의 합이다. 선택된 코딩 포맷은 코딩 포맷들(F1, F2, F3)의 비율들(E) 중 최소 비율과 연관될 수 있는데, 즉, 제어 섹션(304)은 가장 작은 비율(E)에 대응하는 코딩 포맷을 선택할 수 있다. 본 발명자들은 비율(E)에 대한 감소된 값이 연관된 코딩 포맷으로부터 재구성된 11.1-채널 오디오 신호의 증가된 충실도를 나타낼 수 있다는 것을 인식했다.
일부 예시적인 실시예에서, 건식 업믹스 계수들(βL, βR)의 제곱들의 합(Edry)은 예를 들어 채널(C)가 디코더 측으로 송신된다는 사실에 대응하는 값 1을 갖는 추가적인 항을 포함할 수 있고, 어떠한 상관해제도 없이, 예를 들어, 단지 값 1을 갖는 건식 업믹스 계수를 이용하여 재구성될 수 있다.
일부 예시적인 실시예에서, 제어 섹션(304)은 습식 및 건식 업믹스 계수들(γL, βL) 및 추가적인 습식 및 건식 업믹스 계수들(γR, βR)에 각각 기초하여 서로 독립적으로 2개의 5-채널 오디오 신호들(L, LS, LB TFL, TBL 및 R, RS, RB, TFR, TBR)에 대한 코딩 포맷들을 선택할 수 있다.
그 다음, 오디오 인코딩 시스템(300)은 선택된 코딩 포맷의 다운믹스 신호(L1, L2)와 추가적인 다운믹스 신호(R1, R2), 선택된 코딩 포맷과 연관된 건식 및 습식 업믹스 계수들(βL, γL)과 추가적인 건식 및 습식 업믹스 계수들(βR, γR)을 그로부터 도출할 수 있는 업믹스 파라미터들(α), 및 선택된 코딩 포맷을 지시하는 시그널링(S)을 출력할 수 있다.
본 예시적인 실시예에서, 제어 섹션(304)은 선택된 코딩 포맷의 다운믹스 신호(L1, L2)와 추가적인 다운믹스 신호(R1, R2), 선택된 코딩 포맷과 연관된 건식 및 습식 업믹스 계수들(βL, γL)과 추가적인 건식 및 습식 업믹스 계수들(βR, γR)을 그로부터 도출할 수 있는 업믹스 파라미터들(α), 및 선택된 코딩 포맷을 지시하는 시그널링(S)을 출력한다. 다운믹스 신호(L1, L2)와 추가적인 다운믹스 신호(R1, R2)는 QMF 합성 섹션(305)(또는 필터뱅크)에 의해 QMF 도메인으로부터 다시 변환되고, 변환 섹션(306)에 의해 MDCT(modified discrete cosine transform) 도메인으로 변환된다. 양자화 섹션(307)은 업믹스 파라미터(α)를 양자화한다. 예를 들어, 0.1 또는 0.2의 스텝 사이즈(무차원(dimension-less))를 갖는 균일한 양자화가 이용될 수 있으며, 이어서 허프만 코딩 형태의 엔트로피 코딩이 이용될 수 있다. 스텝 사이즈 0.2를 갖는 더 거친 양자화(coarser quantization)는 예를 들어 송신 대역폭을 절약하기 위해 이용될 수 있고, 스텝 사이즈 0.1을 갖는 더 미세한 양자화(finer quantization)는 예를 들어 디코더 측에서 재구성의 충실도를 향상시키기 위해 이용될 수 있다. 채널들(C 및 LFE)은 또한 변환 섹션(308)에 의해 MDCT 도메인으로 변환된다. 그 다음, MDCT 변환된 다운믹스 신호들 및 채널들, 양자화된 업믹스 파라미터들, 및 시그널링은 디코더 측으로의 송신을 위해 멀티플렉서(309)에 의해 비트스트림(B)으로 조합된다. 오디오 인코딩 시스템(300)은, 다운믹스 신호들 및 채널들(C 및 LFE)이 멀티플렉서(309)에 제공되기 전에, Dolby Digital, MPEG AAC 또는 이들의 신개발품과 같은, 지각 오디오 코덱을 사용하여 다운믹스 신호(L1, L2), 추가적인 다운믹스 신호(R1, R2) 및 채널들(C 및 LFE)을 인코딩하도록 구성된 코어 인코더(도 3에 도시되지 않음)를 또한 포함할 수 있다. 예를 들어, -8.7dB에 대응하는 클립 이득이 예를 들어 비트스트림(B)을 형성하기 이전에 다운믹스 신호(L1, L2), 추가적인 다운믹스 신호(R1, R2), 및 채널(C)에 적용될 수 있다. 대안적으로, 파라미터들이 절대 레벨에 독립적이기 때문에, 클립 이득들은 또한 L1, L2에 대응하는 선형 조합을 형성하기 전에 모든 입력 채널에 적용될 수 있다.
제어 섹션(304)은 코딩 포맷을 선택하기 위해 단지 상이한 코딩 포맷들(F1, F2, F3)에 대한 습식 및 건식 업믹스 계수들(γL, γR, βL, βR)(또는 상이한 코딩 포맷들에 대한 습식 및 건식 업믹스 계수들의 제곱들의 합들)만을 수신하는, 즉, 제어 섹션(304)이 상이한 코딩 포맷들에 대한 다운믹스 신호들(L1, L2, R1, R2)을 반드시 수신할 필요는 없는 실시예들이 또한 고려될 수 있다. 이러한 실시예에서, 제어 섹션(304)은 예를 들어 선택된 코딩 포맷에 대한 다운믹스 신호들(L1, L2, R1, R2), 건식 업믹스 계수들(βL, βR) 및 습식 업믹스 계수들(γL, γR)을 오디오 인코딩 시스템(300)의 출력으로서, 또는 멀티플렉서(309)로의 입력으로서 전달하도록 인코딩 섹션(100, 303)을 제어할 수 있다.
선택된 코딩 포맷이 코딩 포맷들 사이에서 전환된다면, 예를 들어 수학식 1에 따라 다운믹스 신호를 형성하기 위해 코딩 포맷의 전환 전후에 이용된 다운믹스 계수 값들 사이에서 보간이 수행될 수 있다. 이것은 일반적으로 다운믹스 계수 값들의 각각의 세트들에 따라 생산된 다운믹스 신호들의 보간에 상당한다.
도 3은 어떻게 다운믹스 신호가 QMF 도메인에서 생성된 다음 후속해서 시간 도메인으로 다시 변환될 수 있는지를 예시하지만, 동일한 의무를 충족하는 대안적인 인코더는 QMF 섹션들(302, 305)없이 구현될 수 있으며, 그에 의해 시간 도메인에서 직접 다운믹스 신호를 계산한다. 이것은 다운믹스 계수가 주파수-의존적이지 않은 상황에서 가능하며, 이는 일반적으로 유효하다. 대안적인 인코더의 경우, 각각의 코딩 포맷에 대한 2개의 다운믹스 신호 사이의 크로스페이딩에 의해 또는 다운믹스 신호를 생산하는 다운믹스 계수들(포맷들 중 하나에서 제로-값인 계수들을 포함함) 사이의 보간에 의해 코딩 포맷 전이가 처리될 수 있다. 이러한 대안적인 인코더는 더 낮은 지연/대기 시간 및/또는 더 낮은 계산 복잡성을 가질 수 있다.
도 2는 예시적인 실시예에 따른 도 1을 참조하여 설명된 인코딩 섹션(100)과 유사한 인코딩 섹션(200)의 일반화된 블록도이다. 인코딩 섹션(200)은 다운믹스 섹션(210) 및 분석 섹션(220)을 포함한다. 도 1을 참조하여 설명된 인코딩 섹션(100)에서처럼, 다운믹스 섹션(210)은 코딩 포맷들(F1, F2, F3) 각각에 대한 5-채널 오디오 신호(L, LS, LB, TFL, TBL)에 기초하여 2-채널 다운믹스 신호(L1, L2)를 계산하고, 분석 섹션(220)은 건식 업믹스 계수들의 각각의 세트들(βL)을 결정하고, 수신된 5-채널 오디오 신호(L, LS, LB, TFL, TBL)의 공분산 매트릭스와 각각의 다운믹스 신호의 각각의 선형 매핑에 의해 근사화된 5-채널 오디오 신호의 공분산 매트릭스 사이의 차이들(ΔL)을 계산한다.
도 1을 참조하여 설명된 인코딩 섹션(100)에서의 분석 섹션(120)과 대조적으로, 분석 섹션(220)은 모든 코딩 포맷에 대한 습식 업믹스 파라미터들을 계산하지는 않는다. 그 대신에, 계산된 차이들(ΔL)이 코딩 포맷의 선택을 위해 제어 섹션(304)(도 3 참조)에 제공된다. 계산된 차이들(ΔL)에 기초하여 코딩 포맷이 선택되면, 그 다음, 선택된 코딩 포맷에 대한 (업믹스 파라미터들의 세트에 포함될) 습식 업믹스 계수들이 제어 섹션(304)에 의해 결정될 수 있다. 대안적으로, 제어 섹션(304)은 위에서 논의된 공분산 매트릭스들 사이의 계산된 차이들(△L)에 기초하여 코딩 포맷을 선택하는 것을 담당하지만, 업스트림 방향으로의 시그널링을 통해, 습식 업믹스 계수들(γL)을 계산하도록 분석 섹션(220)에게 지시하고; 이러한 대안(도시되지 않음)에 따라, 분석 섹션(220)은 차이들 및 습식 업믹스 계수들 둘 다를 출력하는 능력을 갖는다.
본 예시적인 실시예에서, 습식 업믹스 계수의 세트는, 습식 업믹스 계수들에 의해 정의된 상관해제된 신호의 선형 매핑에 의해 획득된 신호의 공분산 매트릭스가 선택된 코딩 포맷의 다운믹스 신호의 선형 매핑에 의해 근사화된 5-채널 오디오 신호의 공분산 매트릭스를 보완하도록 결정된다. 다시 말해, 디코더 측에서 5-채널 오디오 신호(L, LS, LB, TFL, TBL)를 재구성할 때 전체 공분산 재구성을 달성하기 위해 습식 업믹스 파라미터들이 반드시 결정될 필요는 없다. 습식 업믹스 파라미터들은 재구성된 5-채널 오디오 신호의 충실도를 향상시키도록 결정될 수 있지만, 예를 들어 디코더 측에서 상관해제기의 수가 제한되면, 습식 업믹스 파라미터들이 5-채널 오디오 신호(L, LS, LB, TFL, TBL)의 공분산 매트릭스의 가능한 한 많은 재구성을 가능하게 하도록 결정될 수 있다.
도 3을 참조하여 설명된 오디오 인코딩 시스템(300)과 유사한 오디오 인코딩 시스템들이 도 2를 참조하여 설명된 유형의 하나 이상의 인코딩 섹션(200)을 포함하는 실시예들이 고려될 수 있다.
도 4는 예시적인 실시예에 따라 M-채널 오디오 신호를 2-채널 다운믹스 신호 및 연관된 업믹스 파라미터로서 인코딩하기 위한 오디오 인코딩 방법(400)의 흐름도이다. 오디오 인코딩 방법(400)은 본 명세서에서 도 2를 참조하여 설명된 인코딩 섹션(200)을 포함하는 오디오 인코딩 시스템에 의해 수행된 방법에 의해 예시된다.
오디오 인코딩 방법(400)은: 5-채널 오디오 신호(L, LS, LB, TFL, TBL)를 수신하는 단계(410); 도 6-8을 참조하여 설명된 코딩 포맷들(F1, F2, F3) 중 제1 코딩 포맷에 따라, 5-채널 오디오 신호(L, LS, LB, TFL, TBL)에 기초하여, 2-채널 다운믹스 신호(L1, L2)를 계산하는 단계(420); 코딩 포맷에 따라 건식 업믹스 계수들의 세트(βL)를 결정하는 단계(430); 및 코딩 포맷에 따라 차이(ΔL)를 계산하는 단계(440)를 포함한다. 오디오 인코딩 방법(400)은: 차이(ΔL)가 코딩 포맷들(F1, F2, F3) 각각에 대해 계산되었는지를 결정하는 단계(450)를 포함한다. 적어도 하나의 코딩 포맷에 대해 계산될 차이(ΔL)가 남아있는 한, 오디오 인코딩 방법(400)은 다음 차례의 코딩 포맷에 따라 다운믹스 신호(L1, L2)를 계산하는 단계(420)로 복귀하는데, 이는 흐름도에서 아니오(N)로 나타낸다.
코딩 포맷들(F1, F2, F3) 각각에 대한 차이들(ΔL)이 계산되면 - 흐름도에서 예(Y)로 나타냄 - , 방법(400)은 각각의 계산된 차이(ΔL)에 기초하여 코딩 포맷ㄷ드들 F2, F3) 중 하나를 선택하는 단계(460); 및 선택된 코딩 포맷의 건식 업믹스 계수들(βL)와 함께, 수학식 2에 따라 5-채널 오디오 신호(L, LS, LB, TFL, TBL)의 파라메트릭 재구성을 가능하게 하는 습식 업믹스 계수들의 세트를 결정하는 단계(470)로 진행한다. 오디오 인코딩 방법(400)은: 선택된 코딩 포맷의 다운믹스 신호(L1, L2) 및 선택된 코딩 포맷과 연관된 건식 및 습식 업믹스 계수들을 그로부터 도출할 수 있는 업믹스 파라미터들을 출력하는 단계(480); 및 선택된 코딩 포맷을 지시하는 시그널링(S)을 출력하는 단계(490)를 추가로 포함한다.
도 5는 예시적인 실시예에 따라 M-채널 오디오 신호를 2-채널 다운믹스 신호 및 연관된 업믹스 파라미터들로서 인코딩하기 위한 오디오 인코딩 방법(500)의 흐름도이다. 오디오 인코딩 방법(500)은 본 명세서에서 도 3을 참조하여 설명된 오디오 인코딩 시스템(300)에 의해 수행된 방법에 의해 예시된다.
도 4를 참조하여 설명된 오디오 인코딩 방법(400)과 유사하게, 오디오 인코딩 방법(500)은: 5-채널 오디오 신호(L, LS, LB, TFL, TBL)를 수신하는 단계(410); 코딩 포맷들(F1, F2, F3) 중 제1 코딩 포맷에 따라, 5-채널 오디오 신호(L, LS, LB, TFL, TBL)에 기초하여 2-채널 다운믹스 신호(L1, L2)를 계산하는 단계(420); 코딩 포맷에 따라 건식 업믹스 계수들의 세트(βL)를 결정하는 단계(430); 및 코딩 포맷에 따라 차이(ΔL)를 계산하는 단계(440)를 포함한다. 오디오 인코딩 방법(500)은, 코딩 포맷의 건식 업믹스 계수들(βL)와 함께, 수학식 2에 따라 M-채널 오디오 신호의 파라메트릭 재구성을 가능하게 하는 습식 업믹스 계수들의 세트(γL)를 결정하는 단계(560)를 추가로 포함한다. 오디오 인코딩 방법(500)은: 습식 및 건식 업믹스 계수들(γL, βL)이 코딩 포맷들(F1, F2, F3) 각각에 대해 계산되었는지를 결정하는 단계(550)를 포함한다. 적어도 하나의 코딩 포맷에 대해 계산될 습식 및 건식 업믹스 계수들(γL, βL)이 남아있는 한, 오디오 인코딩 방법(500)은 다음 차례의 코딩 포맷에 따라 다운믹스 신호(L1, L2)를 계산하는 단계(420)로 복귀하는데, 이는 흐름도에서 아니오(N)로 나타낸다.
코딩 포맷들(F1, F2, F3) 각각에 대한 습식 및 건식 업믹스 계수들(γL, βL)이 계산되면 - 흐름도에서 예(Y)로 나타냄 - , 오디오 인코딩 방법(500)은 각각의 계산된 습식 및 건조 업믹스 계수들(γL, βL)에 기초하여, 코딩 포맷들(F1, F2, F3) 중 하나를 선택하는 단계(570); 선택된 코딩 포맷의 다운믹스 신호(L1, L2), 및 선택된 코딩 포맷과 연관된 건식 및 습식 업믹스 계수들(βLL)을 그로부터 도출할 수 있는 업믹스 파라미터들을 출력하는 단계(480); 및 선택된 코딩 포맷을 지시하는 시그널링을 출력하는 단계(490)로 진행한다.
도 9는 예시적인 실시예에 따라 2-채널 다운믹스 신호 및 연관된 업믹스 파라미터들(αL)에 기초하여 M-채널 오디오 신호를 재구성하기 위한 디코딩 섹션(900)의 일반화된 블록도이다.
본 예시적인 실시예에서, 다운믹스 신호는 도 1을 참조하여 설명된 인코딩 섹션(100)에 의해 출력된 다운믹스 신호(L1, L2)에 의해 예시된다. 본 예시적인 실시예에서, 인코딩 섹션(100)에 의해 출력되고, 5-채널 오디오 신호(L, LS, LB, TFL, TBL)의 파라메트릭 재구성을 위해 적응되는 건식 및 습식 업믹스 파라미터들(βLL)은 업믹스 파라미터들(αL)로부터 도출할 수 있다. 그러나, 업믹스 파라미터들(αL)이 M-채널 오디오 신호 - M = 4 또는 M > 6 - 의 파라메트릭 재구성을 위해 적응되는 실시예들이 또한 고려될 수 있다.
디코딩 섹션(900)은 사전 상관해제 섹션(910), 상관해제 섹션(920) 및 믹싱 섹션(930)을 포함한다. 사전 상관해제 섹션(910)은 5-채널 오디오 신호(L, LS, LB, TFL, TBL)를 인코딩하기 위해 인코더 측에서 이용되는 선택된 코딩 포맷에 기초하여 사전 상관해제 계수들의 세트를 결정한다. 도 10을 참조하여 아래 설명되는 바와 같이, 선택된 코딩 포맷은 인코더 측으로부터의 시그널링을 통해 지시될 수 있다. 사전 상관해제 섹션(910)은 다운믹스 신호(L1, L2)의 선형 매핑으로서 상관해제 입력 신호(D1, D2, D3)를 계산하며, 여기서, 사전 상관해제 계수들의 세트는 다운믹스 신호(L1, L2)에 적용된다.
상관해제 섹션(920)은 상관해제 입력 신호(D1, D2, D3)에 기초하여 상관해제된 신호를 생성한다. 상관해제된 신호는 본 명세서에서 예를 들어, 상관해제 입력 신호(D1, D2, D3)의 각각의 채널들에 선형 필터들을 적용하는 것을 포함하는 상관해제 섹션(920)의 상관해제기(921-923)에서 상관해제 입력 신호의 채널들 중 하나를 처리함으로써 각각 생성되는 3-채널에 의해 예시된다.
믹싱 섹션(930)은 5-채널 오디오 신호(L, LS, LB, TFL, TBL)를 인코딩하기 위해 인코더 측에서 이용되는 선택된 코딩 포맷 및 수신된 업믹스 파라미터들(αL)에 기초하여 습식 및 건식 업믹스 계수들의 세트들을 결정한다. 믹싱 섹션(930)은 수학식 2에 따라 5-채널 오디오 신호(L, LS, LB, TFL, TBL)의 파라메트릭 재구성을 수행하는데, 즉, 그것은 건식 업믹스 신호를 다운믹스 신호(L1, L2)의 선형 매핑으로서 계산하고 - 건식 업믹스 계수들의 세트(βL)는 다운믹스 신호(L1, L2)에 적용됨 - ; 상관해제된 신호의 선형 매핑으로서 습식 업믹스 신호를 계산하며 - 습식 업믹스 계수들의 세트(γL)는 상관해제된 신호에 적용됨 - ; 재구성될 5-채널 오디오 신호(L, LS, LB, TFL, TBL)에 대응하는 다차원 재구성 신호(
Figure 112017041293607-pct00007
)를 획득하기 위해 건식 및 습식 업믹스 신호들을 조합한다.
일부 예시적인 실시예에서, 수신된 업믹스 파라미터들(αL)은 습식 및 건식 업믹스 계수들(βLL) 자체를 포함할 수 있고, 또는 이용된 특정한 콤팩트한 형태에 대한 지식에 기초하여, 디코더 측에서, 습식 및 건식 업믹스 계수들(βLL)이 그로부터 도출될 수 있는 습식 및 건식 업믹스 계수들(βLL)의 수보다 적은 파라미터들을 포함하는 더 콤팩트한 형태에 대응할 수 있다.
도 11은, 다운믹스 신호(L1, L2)가 도 6을 참조하여 설명된 제1 코딩 포맷(F1)에 따라 5-채널 오디오 신호(L, LS, LB, TFL, TBL)를 표현하는 예시적인 시나리오에서 도 9를 참조하여 설명된 믹싱 섹션(930)의 동작을 예시한다. 믹싱 섹션(930)의 동작은, 다운믹스 신호(L1, L2)가 제2 및 제3 코딩 포맷들(F2, F3) 중 임의의 것에 따라 5-채널 오디오 신호(L, LS, LB, TFL, TBL)를 표현하는 예시적인 시나리오와 유사할 수 있음을 이해할 것이다. 특히, 믹싱 섹션(930)은 계산된 다운믹스 신호의 동시 이용가능성을 요구할 수 있는 2개의 코딩 포맷 사이의 크로스-페이드를 가능하게 하기 위해, 임박하여 설명될 업믹스 섹션들 및 조합 섹션들의 추가 인스턴스들을 일시적으로 활성화할 수 있다.
본 예시적인 시나리오에서, 다운믹스 신호의 제1 채널(L1)은 3개의 채널(L, LS, LB)을 표현하고, 다운믹스 신호의 제2 채널(L2)은 2개의 채널(TFL, TBL)을 표현한다. 사전 상관해제 섹션(910)은 상관해제된 신호의 2개의 채널이 다운믹스 신호의 제1 채널(L1)에 기초하여 생성되도록 그리고 상관해제된 신호의 하나의 채널이 다운믹스 신호의 제2 채널(L2)에 기초하여 생성되도록 사전 상관해제 계수를 결정한다.
제1 건식 업믹스 섹션(931)은 다운믹스 신호의 제1 채널(L1)의 선형 매핑으로서 3-채널 건식 업믹스 신호(X1)를 제공하며, 여기서, 수신된 업믹스 파라미터들(αL)로부터 도출할 수 있는 건식 업믹스 계수들의 서브세트가 다운믹스 신호의 제1 채널(L1)에 적용된다. 제1 습식 업믹스 섹션(932)은 상관해제된 신호의 2개의 채널의 선형 매핑으로서 3-채널 습식 업믹스 신호(Y1)를 제공하며, 여기서, 수신된 업믹스 파라미터들(αL)로부터 도출할 수 있는 습식 업믹스 계수들의 서브세트가 상관해제된 신호의 2개의 채널에 적용된다. 제1 조합 섹션(933)은 제1 건식 업믹스 신호(X1) 및 제1 습식 업믹스 신호(Y1)를 채널들(L, LS, LB)의 재구성된 버전들(
Figure 112017041293607-pct00008
)로 조합한다.
유사하게, 제2 건식 업믹스 섹션(934)은 다운믹스 신호의 제2 채널(L2)의 선형 매핑으로서 2-채널 건식 업믹스 신호(X2)를 제공하고, 제2 습식 업믹스 섹션(935)은 상관해제된 신호의 하나의 채널의 선형 조합으로서 2-채널 습식 업믹스 신호(Y2)를 제공한다. 제2 조합 섹션(936)은 제2 건식 업믹스 신호(X2) 및 제2 습식 업믹스 신호(Y2)를 채널들(TFL, TBL)의 재구성된 버전들(
Figure 112017041293607-pct00009
)로 조합한다.
도 10은 예시적인 실시예에 따라 도 9를 참조하여 설명된 디코딩 섹션(900)을 포함하는 오디오 디코딩 시스템(1000)의 일반화된 블록도이다. 예를 들어, 디멀티플렉서를 포함하는 수신 섹션(1001)은 도 3을 참조하여 설명된 오디오 인코딩 시스템(300)으로부터 송신된 비트스트림(B)을 수신하고, 비트스트림(B)으로부터 다운믹스 신호(L1, L2), 추가적인 다운믹스 신호(R1, R2), 및 업믹스 파라미터들(α)은 물론 채널들(C 및 LFE)을 추출한다. 업믹스 파라미터들(α)은, 예를 들어, 재구성될 11.1-채널 오디오 신호(L, LS, LB, TFL, TBL, R, RS, RB, TFR, TBR, C, LFE)의 좌측 및 우측 각각과 연관된 제1 및 제2 서브세트들(αL 및 αR)을 포함할 수 있다.
다운믹스 신호(L1, L2), 추가적인 다운믹스 신호(R1, R2) 및/또는 채널들(C 및 LFE)이 비트 스트림(B)에서 Dolby Digital, MPEG AAC 또는 그것의 신개발품과 같은 지각 오디오 코덱을 사용하여 인코딩되는 경우에, 오디오 디코딩 시스템(1000)은 비트스트림(B)으로부터 추출될 때 각각의 신호 및 채널을 디코딩하도록 구성된 코어 디코더(도 10에 도시되지 않음)를 포함할 수 있다.
변환 섹션(1002)은 역 MDCT를 수행하여 다운믹스 신호(L1, L2)를 변환하고, QMF 분석 섹션(1003)은 다운믹스 신호(L1, L2)를 디코딩 섹션(900)에 의해 시간/주파수 타일의 형태로 처리하기 위해 다운믹스 신호(L1, L2)를 QMF 도메인으로 변환한다. 역양자화 섹션(1004)은, 디코딩 섹션(900)에 그것을 공급하기 전에, 예를 들어 엔트로피 코딩된 포맷으로부터의 업믹스 파라미터들(αL)의 제1 서브세트를 역양자화한다. 도 3을 참조하여 설명된 바와 같이, 양자화는 2개의 상이한 스텝 사이즈, 예를 들어, 0.1 또는 0.2 중 하나로 수행될 수 있다. 이용된 실제 스텝 사이즈는 미리 정의될 수 있고, 또는 예를 들어, 비트스트림(B)을 통해 인코더 측으로부터 오디오 디코딩 시스템(1000)으로 시그널링될 수 있다.
본 예시적인 실시예에서, 오디오 디코딩 시스템(1000)은 디코딩 섹션(900)과 비슷한 추가적인 디코딩 섹션(1005)을 포함한다. 추가적인 디코딩 섹션(1005)은 도 3을 참조하여 설명된 추가적인 2-채널 다운믹스 신호(R1, R2)를 수신하고, 추가적인 다운믹스 신호(R1, R2) 및 업믹스 파라미터들의 제2 서브세트(αR)에 기초하여 추가적인 5-채널 오디오 신호(R, RS, RB, TFR, TBR)의 재구성된 버전(
Figure 112017041293607-pct00010
)을 제공하도록 구성된다.
변환 섹션(1006)은 역 MDCT를 수행하여 추가적인 다운믹스 신호(R1, R2)를 변환하고, QMF 분석 섹션(1007)은 추가적인 다운믹스 신호(R1, R2)를 추가적인 디코딩 섹션(1005)에 의해 시간/주파수 타일의 형태로 처리하기 위해 추가적인 다운믹스 신호(R1, R2)를 QMF 도메인으로 변환한다. 역양자화 섹션(1008)은 추가적인 디코딩 섹션(1005)에 그들을 제공하기 전에, 예를 들어 엔트로피 코딩된 포맷으로부터의 업믹스 파라미터들의 제2 서브세트(αR)를 역양자화한다.
인코더 측에서의 다운믹스 신호(L1, L2), 추가적인 다운믹스 신호(R1, R2), 및 채널(C)에 클립 이득이 적용되는 예시적인 실시예에서, 예를 들어, 8.7 dB에 대응하는 대응 이득이 오디오 디코딩 시스템(1000)에서의 이러한 신호에 적용되어 클립 이득을 보상할 수 있다.
제어 섹션(1009)은 11.1-채널 오디오 신호를 다운믹스 신호(L1, L2), 추가적인 다운믹스 신호(R1, R2), 및 연관된 업믹스 파라미터(α)로 인코딩하기 위해 인코더 측에서 이용된 코딩 포맷들(F1, F2, F3) 중 선택된 하나의 코딩 포맷을 지시하는 시그널링(S)을 수신한다. 제어 섹션(1009)은 지시된 코딩 포맷에 따라 파라메트릭 재구성을 수행하기 위해 디코딩 섹션(900)(예를 들어, 그 안에 있는 사전 상관해제 섹션(910) 및 믹싱 섹션(920)) 및 추가적인 디코딩 섹션(1005)을 제어한다.
본 예시적인 실시예에서, 디코딩 섹션(900) 및 추가적인 디코딩 섹션(1005)에 의해 각각 출력된 5-채널 오디오 신호(L, LS, LB, TFL, TBL) 및 추가적인 5-채널 오디오 신호(R, RS, RB, TFL, TBL)의 재구성된 버전은 멀티-스피커 시스템(1012)에서 재생하기 위한 오디오 디코딩 시스템(1000)의 출력으로서 채널들(C 및 LFE)과 함께 제공되기 전에 QMF 합성 섹션(1011)에 의해 QMF 도메인으로부터 다시 변환된다. 변환 섹션(1010)은 이러한 채널이 오디오 디코딩 시스템(1000)의 출력에 포함되기 전에 역 MDCT를 수행함으로써 채널들(C 및 LFE)을 시간 도메인으로 변환한다.
채널들(C 및 LFE)은 예를 들어 비트스트림(B)으로부터 이산 코딩된 형태로 추출될 수 있고, 오디오 디코딩 시스템(1000)은 예를 들어 각각의 이산 코딩된 채널을 디코딩하도록 구성된 단일 채널 디코딩 섹션(도 10에 도시되지 않음)을 포함할 수 있다. 단일-채널 디코딩 섹션은 예를 들어 Dolby Digital, MPEG AAC 또는 그것의 신개발품과 같은 지각 오디오 코덱을 사용하여 인코딩된 오디오 콘텐츠를 디코딩하기 위한 코어 디코더를 포함할 수 있다.
본 예시적인 실시예에서, 사전 상관해제 계수들은, 코딩 포맷들(F1, F2, F3) 각각에서, 상관해제 입력 신호(D1, D2, D3)의 채널들 각각이 표 1에 따라 다운믹스 신호(L1, L2)의 채널과 일치하도록 사전 상관해제 섹션(910)에 의해 결정된다.
상관해제 입력 신호의 채널 코딩 포맷 F1 코딩 포맷 F2 코딩 포맷 F3
D1 L1 = L +LS + LB L1 = L + TFL L2 = LS + LB + TFL + TBL
D2 L1 = L +LS + LB L2 = LS + LB + TBL L2 = LS + LB + TFL + TBL
D3 L2 = TFL + TBL L2 = LS + LB + TBL L2 = LS + LB + TFL + TBL
표 1에서 볼 수 있는 바와 같이, 채널(TBL)은 다운믹스 신호(L1, L2)를 통해, 코딩 포맷들(F1, F2, F3) 중 3개 모두에서 상관해제 입력 신호의 제3 채널(D3)에 기여하는 한편, 채널들의 쌍들(LS, LB 및 TFL, TBL) 각각은 다운믹스 신호(L1, L2)를 통해 코딩 포맷들 중 적어도 2개에서 상관해제 입력 신호의 제3 채널(D3)에 각각 기여한다.
표 1은 채널들(L 및 TFL) 각각이 다운믹스 신호(L1, L2)를 통해 코딩 포맷들 중 2개에서 상관해제 입력 신호의 제1 채널(D1)에 각각 기여하고, 채널들의 쌍(LS, LB)은 다운믹스 신호(L1, L2)를 통해 코딩 포맷들 중 적어도 2개에서 상관해제 입력 신호의 제1 채널(D1)에 기여한다는 것을 보여준다.
표 1은 또한 3개의 채널(LS, LB, TBL)이 다운믹스 신호(L1, L2)를 통해 제2 및 제3 코딩 포맷들(F2, F3) 둘 다에서 상관해제 입력 신호의 제2 채널(D2)에 기여하는 한편, 채널들의 쌍(LS, LB)은 다운믹스 신호(L1, L2)를 통해 3개의 코딩 포맷(F1, F2, F3) 모두에서 상관해제 입력 신호의 제2 채널(D2)에 기여한다는 것을 보여준다.
지시된 코딩 포맷이 상이한 코딩 포맷 사이에서 전환될 때, 상관해제기(921-923)로의 입력은 변화한다. 본 예시적인 실시예에서, 상관해제 입력 신호들(D1, D2, D3)의 적어도 일부는 전환 동안 유지되는데, 즉, 5-채널 오디오 신호(L, LS, LB, TFL, TBL) 중 적어도 하나의 채널은 코딩 포맷들(F1, F2, F3) 중 2개 사이에서의 임의의 전환에서 상관해제 입력 신호(D1, D2, D3)의 각각의 채널에서 유지되고, 이는 재구성된 M-채널 오디오 신호의 재생 동안 청취자에 의해 지각되는 코딩 포맷들 사이에서의 더 매끄러운 전이를 가능하게 한다.
본 발명자는, 상관해제된 신호가 코딩 포맷의 전환이 발생할 수 있는 여러 개의 시간 프레임에 대응하는 다운믹스 신호(L1, L2)의 섹션에 기초하여 생성될 수 있기 때문에, 코딩 포맷의 전환의 결과로서 상관해제된 신호에서 가청 아티팩트가 잠재적으로 생성될 수 있다는 것을 인식했다. 코딩 포맷 사이의 전이에 응답하여 습식 및 건식 업믹스 계수들(βL, γL)이 보간되더라도, 상관해제된 신호에서 야기된 아티팩트는 재구성된 5-채널 오디오 신호(L, LS, LB, TFL, TBL)에서 여전히 지속될 수 있다. 표 1에 따라 상관해제 입력 신호(D1, D2, D3)를 제공하면 코딩 포맷의 전환에 의해 야기된 상관해제된 신호에서의 가청 아티팩트를 억제할 수 있고, 재구성된 5-채널 오디오 신호(L, LS, LB, TFL, TBL)의 재생 품질을 향상시킬 수 있다.
표 1은 다운믹스 신호(L1, L2)의 채널이 채널들의 제1 및 제2 그룹의 합들로서 각각 생성되는 코딩 포맷들(F1, F2, F3)의 측면에서 표현되지만, 예를 들어 다운믹스 신호의 채널들이 채널들의 제1 및 제2 그룹의 선형 조합들로서 각각 형성될 때 사전 상관해제 계수에 대해 동일한 값들이 이용될 수 있어, 표 1에 따라 상관해제 입력 신호(D1, D2, D3)의 채널들이 다운믹스 신호(L1, L2)의 채널들과 일치하게 한다. 다운믹스 신호의 채널들이 채널들의 제1 및 제2 그룹의 선형 조합들로서 각각 형성될 때에도, 재구성된 5-채널 오디오 신호의 재생 품질이 이러한 방식으로 향상될 수 있다는 것을 이해할 것이다.
재구성된 5-채널 오디오 신호의 재생 품질을 추가로 향상시키기 위해, 예를 들어, 코딩 포맷의 전환에 응답하여 사전 상관해제 계수의 값의 보간이 수행될 수 있다. 제1 코딩 포맷(F1)에서, 상관해제 입력 신호(D1, D2, D3)는,
Figure 112017041293607-pct00011
으로서 결정될 수 있는 한편, 제2 코딩 포맷(F2)에서, 상관해제 입력 신호(D1, D2, D3)는,
Figure 112017041293607-pct00012
으로서 결정될 수 있다.
제1 코딩 포맷(F1)에서 제2 코딩 포맷(F2)으로의 전환에 응답하여, 예를 들어, 수학식 3에서의 사전 상관해제 매트릭스와 수학식 4에서의 사전 상관해제 매트릭스 사이에서 연속 또는 선형 보간이 수행될 수 있다.
수학식 3 및 4에서의 다운믹스 신호(L1, L2)는 예를 들어 QMF 도메인에 있을 수 있고, 코딩 포맷 사이에서 전환할 때, 수학식 1에 따라 다운믹스 신호(L1, L2)를 계산하기 위해 인코더 측에서 이용되는 다운믹스 계수들은 예를 들어, 32 QMF 슬롯 동안 보간될 수 있다. 사전 상관해제 계수들(또는 매트릭스들)의 보간은, 예를 들어, 다운믹스 계수들의 보간과 동기화될 수 있는데, 예를 들어, 동일한 32 QMF 슬롯 동안 수행될 수 있다. 사전 상관해제 계수들의 보간은, 예를 들어 오디오 디코딩 시스템(1000)에 의해 디코딩된 모든 주파수 대역에 대해 이용되는, 예를 들어 광대역 보간일 수 있다.
건식 및 습식 업믹스 계수들(βL, γL) 또한 보간될 수 있다. 건식 및 습식 업믹스 계수들(βL, γL)의 보간은, 예를 들어, 일시적인 핸들링을 향상시키기 위해 인코더 측으로부터의 시그널링(S)을 통해 제어될 수 있다. 코딩 포맷의 전환의 경우에, 디코더 측의 건식 및 습식 업믹스 계수들(βL, γL)을 보간하기 위해, 인코더 측에서 선택된 보간 방식은 예를 들어, 코딩 포맷의 전환에 적합한 보간 방식일 수 있으며, 이는 코딩 포맷의 전환이 발생하지 않을 때 건식 및 습식 업믹스 계수들(βL, γL)에 대해 이용된 보간 방식과 상이할 수 있다.
일부 예시적인 실시예에서, 추가적인 디코딩 섹션(1005)에서와 상이한 적어도 하나의 보간 방식이 디코딩 섹션(900)에서 이용될 수 있다.
도 12는 예시적인 실시예에 따라 2-채널 다운믹스 신호 및 연관된 업믹스 파라미터들에 기초하여 M-채널 오디오 신호를 재구성하기 위한 오디오 디코딩 방법(1200)의 흐름도이다. 디코딩 방법(1200)은 본 명세서에서 도 10을 참조하여 설명된 오디오 디코딩 시스템(1000)에 의해 수행될 수 있는 디코딩 방법에 의해 예시된다.
오디오 디코딩 방법(1200)은: 다운믹스 신호(L1, L2)에 기초하여, 도 6-8을 참조하여 설명된 5-채널 오디오 신호(L, LS, LB, TFL, TBL)의 파라메트릭 재구성을 위한 2-채널 다운믹스 신호(L1, L2) 및 업믹스 파라미터(αL)를 수신하는 단계(1201); 도 6-8을 참조하여 설명된 코딩 포맷들(F1, F2, F3) 중 선택된 코딩 포맷을 지시하는 시그널링(S)을 수신하는 단계(1202); 및 지시된 코딩 포맷에 기초하여 사전 상관해제 계수의 세트를 결정하는 단계(1203)를 포함한다.
오디오 디코딩 방법(1200)은 지시된 포맷이 하나의 코딩 포맷으로부터 다른 코딩 포맷으로 전환하는지 여부를 검출하는 단계(1204)를 포함한다. 전환이 검출되지 않으면 - 흐름도에서 아니오(N)로 나타냄 - , 다음 단계는 다운믹스 신호(L1, L2)의 선형 매핑으로서 상관해제 입력 신호(D1, D2, D3)를 계산하는 단계(1205)이고, 사전 상관해제 계수의 세트는 다운믹스 신호에 적용된다. 그에 반해, 코딩 포맷의 전환이 검출되면 - 흐름도에서 예(Y)로 나타냄 - , 다음 단계는 대신에 하나의 코딩 포맷의 사전 상관해제 계수 값으로부터 또 다른 코딩 포맷의 사전 상관해제 계수 값으로의 점진적 전이의 형태로 보간을 수행하는 단계(1206)와, 그 다음에 보간된 사전 상관해제 계수 값들을 이용하여 상관해제 입력 신호(D1, D2, D3)를 계산하는 단계(1205)이다.
오디오 디코딩 방법(1200)은 상관해제 입력 신호(D1, D2, D3)에 기초하여 상관해제된 신호를 생성하는 단계(1207); 및 수신된 업믹스 파라미터들 및 지시된 코딩 포맷에 기초하여 습식 및 건식 업믹스 계수들의 세트(βL, γL)를 결정하는 단계(1208)를 포함한다.
코딩 포맷의 전환이 검출되지 않으면 - 판정 박스(1209)로부터의 분기 N(아니오)으로 나타냄 - , 방법(1200)은 다운믹스 신호의 선형 매핑으로서 건식 업믹스 신호를 계산하는 단계(1210) - 여기서 건식 업믹스 계수들의 세트(βL)가 다운믹스 신호(L1, L2)에 적용됨 - ; 및 상관해제된 신호의 선형 매핑으로서 습식 업믹스 신호를 계산하는 단계(1211) - 여기서 습식 업믹스 계수들의 세트(γL)는 상관해제된 신호에 적용됨 - 로 이어진다. 이에 반해, 지시된 코딩 포맷이 하나의 코딩 포맷으로부터 결정 박스(1209)로부터의 분기 Y(예)로 나타낸 다른 코딩 포맷으로 전환한다면, 방법은 대신에 : 하나의 코딩 포맷에 적용가능한 건식 및 습식 업믹스 계수(제로-값 계수를 포함함)의 값으로부터, 다른 코딩 포맷에 적용가능한 건식 및 습식 업믹스 계수(제로-값 계수를 포함함)의 값으로의 보간을 수행하는 단계(1212); 다운믹스 신호(L1, L2)의 선형 매핑으로서 건식 업믹스 신호를 계산하는 단계(1210) - 여기서 건식 업믹스 계수의 보간된 세트가 다운믹스 신호(L1, L2)에 적용됨 - ; 및 상관해제된 신호의 선형 매핑으로서 습식 업믹스 신호를 계산하는 단계(1211) - 여기서 습식 업믹스 계수의 보간된 세트가 상관해제된 신호에 적용됨 - 로 이어진다. 방법은 또한: 재구성될 5-채널 오디오 신호에 대응하는 다차원의 재구성된 신호(
Figure 112017041293607-pct00013
)를 획득하기 위해 건식 및 습식 업믹스 신호를 조합하는 단계(1213)를 포함한다.
도 13은 예시적인 실시예에 따라, 5.1-채널 오디오 신호 및 연관된 업믹스 파라미터들(α)에 기초하여 13.1-채널 오디오 신호를 재구성하기 위한 디코딩 섹션(1300)의 일반화된 블록도이다.
본 예시적인 실시예에서, 13.1-채널 오디오 신호는 채널)(LW(left wide), LSCRN(left screen), TFL(top front left), LS(left side), LB(left back), TBL(top back left), RW(right wide), RSCRN(right screen), TFR(top front right), RS(right side), RB(right back), TBR(top back right), C(center), 및 LFE(low-frequency effects))에 의해 예시된다. 5.1-채널 신호는: 제1 채널(L1)이 채널들(LW, LSCRN, TFL)의 선형 조합에 대응하고, 제2 채널(L2)이 채널들(LS, LB, TBL)의 선형 조합에 대응하는 다운믹스 신호(L1, L2); 제1 채널(R1)이 채널들(RW, RSCRN, TFR)의 선형 조합에 대응하고, 제2 채널(R2)이 채널들(RS, RB, TBR)의 선형 조합에 대응하는 추가적인 다운믹스 신호(R1, R2); 및 채널들(C 및 LFE)을 포함한다.
제1 업믹스 섹션(1310)은 업믹스 파라미터들(α)의 적어도 일부의 제어하에 다운믹스 신호의 제1 채널(L1)에 기초하여 채널들(LW, LSCRN 및 TFL)을 재구성하고; 제2 업믹스 섹션(1320)은 업믹스 파라미터들(α)의 적어도 일부의 제어하에 다운믹스 신호의 제2 채널(L2)에 기초하여 채널들(LS, LB, TBL)을 재구성하며; 제3 업믹스 섹션(1330)은 업믹스 파라미터들(α)의 적어도 일부의 제어하에 추가적인 다운믹스 신호의 제1 채널(R1)에 기초하여 채널들(RW, RSCRN, TFR)을 재구성하고, 제4 업믹스 섹션(1340)은 업믹스 파라미터들(α)의 적어도 일부의 제어하에 다운믹스 신호의 제2 채널(R2)에 기초하여 채널들(RS, RB, TBR)을 재구성한다. 13.1-채널 오디오 신호의 재구성된 버전 (
Figure 112017041293607-pct00014
Figure 112017041293607-pct00015
)은 디코딩 섹션(1310)의 출력으로서 제공될 수 있다.
예시적인 실시예에서, 도 10을 참조하여 설명된 오디오 디코딩 시스템(1000)은 디코딩 섹션(900 및 1005)에 더하여 디코딩 섹션(1300)을 포함할 수 있거나, 적어도 디코딩 섹션(1300)에 의해 수행된 것과 유사한 방법에 의해 13.1-채널의 신호를 재구성하도록 동작가능할 수 있다. 비트스트림(B)으로부터 추출된 시그널링(S)은 예를 들어 수신된 5.1-채널 오디오 신호(L1, L2, R1, R2, C, LFE) 및 연관된 업믹스 파라미터가 도 10을 참조하여 설명된 바와 같이 11.1-채널 신호를 표현하는지 또는 그것이 도 13을 참조하여 설명된 바와 같이, 13.1-채널 오디오 신호를 표현하는지 지시할 수 있다.
제어 섹션(1009)은 수신된 시그널링(S)이 11.1 채널 구성을 지시하는지 아니면 13.1 채널 구성을 지시하는지를 검출할 수 있고, 도 10을 참조하여 설명된 바와 같이 11.1-채널 오디오 신호의 또는 도 13을 참조하여 설명된 바와 같이 13.1-채널 오디오 신호의 파라메트릭 재구성을 수행하도록 오디오 디코딩 시스템(1000)의 다른 섹션을 제어할 수 있다. 예를 들어, 11.1-채널 구성에 대한 것처럼, 2개 또는 3개의 코딩 포맷 대신에, 13.1-채널 구성에 대해 단일 코딩 포맷이 이용될 수 있다. 시그널링(S)이 13.1 채널 구성을 지시하는 경우에, 그에 따라 코딩 포맷이 암묵적으로 지시될 수 있고, 시그널링 S에 대해서는 선택된 코딩 포맷을 명시적으로 지시할 필요가 없을 수 있다.
도 1-5를 참조하여 설명된 예시적인 실시예가 도 1-6을 참조하여 설명된 11.1-채널 오디오 신호의 관점에서 공식화되었지만, 임의의 수의 인코딩 섹션을 포함할 수 있고 임의의 수의 M-채널 오디오 신호 - 여기서, M ≥ 4 임 - 를 인코딩하도록 구성될 수 있는 인코딩 시스템이 예상될 수 있다는 것을 이해할 것이다. 유사하게, 도 9-12를 참조하여 설명된 예시적인 실시예가 도 6-8을 참조하여 설명된 11.1-채널 오디오 신호의 관점에서 공식화되었지만, 임의의 수의 디코딩 섹션을 포함할 수 있고, 임의의 수의 M-채널 오디오 신호 - 여기서, M ≥ 4 임 - 를 재구성하도록 구성될 수 있는 디코딩 시스템이 예상될 수 있다는 것을 이해할 것이다.
일부 예시적인 실시예에서, 인코더 측은 모든 3개의 코딩 포맷(F1, F2, F3) 사이에서 선택될 수 있다. 다른 예시적인 실시예에서, 인코더 측은 단지 2개의 코딩 포맷, 예를 들면, 제1 및 제2 코딩 포맷(F1, F2) 사이에서 선택할 수 있다.
도 14는 예시적인 실시예에 따라 2-채널 다운믹스 신호 및 연관된 건식 및 습식 업믹스 계수로서 M-채널 오디오 신호를 인코딩하기 위한 인코딩 섹션(1400)의 일반화된 블록도이다. 인코딩 섹션(1400)은 도 3에 도시된 유형의 오디오 인코딩 시스템에 배열될 수 있다. 보다 정확하게는, 인코딩 섹션(100)에 의해 점유된 위치에 배열될 수 있다. 도시된 컴포넌트의 내부 동작이 설명될 때 명확해지는 것처럼, 인코딩 섹션(1400)은 2개의 별개의 코딩 포맷으로 동작가능지만; 본 발명의 범위를 벗어나지 않고, 3개 이상의 코딩 포맷으로 동작가능한 유사한 인코딩 섹션이 구현될 수 있다.
인코딩 섹션(1400)은 다운믹스 섹션(1410) 및 분석 섹션(1420)을 포함한다. 도 6-7을 참조하여 설명된 것들 중 하나일 수 있거나 상이한 포맷일 수 있는, 코딩 포맷(F1, F2) 중 적어도 선택된 포맷(인코딩 섹션(1400)의 제어 섹션(1430)의 아래 설명 참조)에 대해, 다운믹스 섹션(1410)은 코딩 포맷에 따라 5-채널 오디오 신호(L, LS, LB, TFL, TBL)에 기초하여 2-채널 다운믹스 신호(L1, L2)를 계산한다. 예를 들어, 제1 코딩 포맷(F1)에서, 다운믹스 신호의 제1 채널(L1)은 5-채널 오디오 신호(L, LS, LB, TFL, TBL)의 채널의 제1 그룹의 선형 조합(예를 들면, 합)으로서 형성되고, 다운믹스 신호의 제2 채널(L2)은 5-채널 오디오 신호(L, LS, LB, TFL, TBL)의 채널의 제2 그룹의 선형 조합(예를 들면, 합)으로서 형성된다. 다운믹스 섹션(1410)에 의해 수행된 동작은 예를 들어 수학식 1과 같이 표현될 수 있다.
코딩 포맷(F1, F2) 중 적어도 선택된 포맷에 대해, 분석 섹션(1420)은 5-채널 오디오 신호(L, LS, LB, TFL, TBL)를 근사화하는 각각의 다운믹스 신호(L1, L2)의 선형 매핑을 정의하는 건식 업믹스 계수들의 세트(βL)를 결정한다. 코딩 포맷(F1, F2) 각각에 대해, 분석 섹션(1420)은 각각의 계산된 차이에 기초하여 습식 업믹스 계수들의 세트(γL)를 추가로 결정하고, 이는 건식 업믹스 계수(βL)와 함께 다운믹스 신호(L1, L2)로부터 그리고 다운믹스 신호(L1, L2)에 기초하여 디코더 측에서 결정된 3-채널 상관해제된 신호로부터의 5-채널 오디오 신호(L, LS, LB, TFL, TBL)의 수학식 2에 따른 파라메트릭 재구성을 가능하게 한다. 습식 업믹스 계수들의 세트(γL)는, 상관해제된 신호의 선형 매핑에 의해 획득된 신호의 공분산 매트릭스가 수신된 5-채널 오디오 신호(L, LS, LB, TFL, TBL)의 공분산 매트릭스와 다운믹스 신호(L1, L2)의 선형 매핑에 의해 근사화된 5-채널 오디오 신호의 공분산 매트릭스 사이의 차이에 근사화하도록 상관해제된 신호의 선형 매핑을 정의한다.
다운믹스 섹션(1410)은 예를 들어 시간 도메인에서, 즉 5-채널 오디오 신호(L, LS, LB, TFL, TBL)의 시간 도메인 표현에 기초하여, 또는 주파수 도메인에서, 즉 5-채널 오디오 신호(L, LS, LB, TFL, TBL)의 주파수 도메인 표현에 기초하여 다운믹스 신호(L1, L2)를 계산할 수 있다. 적어도 코딩 포맷에 대한 결정이 주파수-선택적이 아니고 따라서 M-채널 오디오 신호의 모든 주파수 컴포넌트에 적용된다면 시간 도메인에서 L1, L2를 계산하는 것이 가능하고; 이것은 현재 선호되는 경우이다.
분석 섹션(1420)은 예를 들어 5-채널 오디오 신호(L, LS, LB, TFL, TBL)의 주파수-도메인 분석에 기초하여 건식 업믹스 계수(βL) 및 습식 업믹스 계수(γL)를 결정할 수 있다. 주파수-도메인 분석은 M-채널 오디오 신호의 윈도잉된 섹션에 대해 수행될 수 있다. 윈도잉(windowing)을 위해, 예를 들어, 분리된 직사각형 또는 중첩 삼각형 윈도우가 사용될 수 있다. 분석 섹션(1420)은 예를 들어 다운믹스 섹션(1410)에 의해 계산된 다운믹스 신호(L1, L2)를 수신할 수 있거나(도 14에 도시되지 않음), 건식 업믹스 계수(βL) 및 습식 업믹스 계수(γL)를 결정하는 특수 목적을 위해 다운믹스 신호(L1, L2)의 그 자신의 버전을 계산할 수 있다.
인코딩 섹션(1400)은 현재 사용되는 코딩 포맷을 선택하는 것을 담당하는 제어 섹션(1430)을 추가로 포함한다. 제어 섹션(1430)이 선택될 코딩 포맷을 결정하기 위한 특정한 기준 또는 특정한 이유를 활용하는 것이 필수적인 것은 아니다. 제어 섹션(1430)에 의해 생성된 시그널링(S)의 값은 M-채널 오디오 신호의 현재 고려되는 섹션(예를 들면, 시간 프레임)에 대한 제어 섹션(1430)의 의사 결정의 결과를 지시한다. 시그널링(S)은 인코딩된 오디오 신호의 재구성을 용이하게 하기 위해 인코딩 섹션(1400)이 포함된 인코딩 시스템(300)에 의해 생산된 비트스트림(B)에 포함될 수있다. 추가적으로, 시그널링(S)은 다운믹스 섹션(1410) 및 분석 섹션(1420) 각각에 공급되어 이들 섹션들에 사용될 코딩 포맷을 통지한다. 분석 섹션(1420)과 마찬가지로, 제어 섹션(1430)은 M-채널 신호의 윈도잉된 섹션을 고려할 수 있다. 완전성을 위해, 다운믹스 섹션(1410)은 제어 섹션(1430)에 대해 1 또는 2 프레임의 지연과 함께 동작할 수 있고 추가적인 미리보기와 함께 동작할 가능성도 있을 수 있다는 것에 주의한다. 선택적으로, 시그널링(S)은 또한 다운믹스 섹션(1410)이 생산하는 다운믹스 신호의 크로스 페이드(cross fade)에 관한 정보 및/또는 서브-프레임 시간 스케일에 대한 동시성을 보정하기 위해 분석 섹션(1420)이 제공하는 건식 및 습식 업믹스 계수의 이산 값의 디코더-측 보간에 관한 정보를 포함할 수 있다.
선택적인 컴포넌트로서, 인코딩 섹션(1400)은, 제어 섹션(1430)의 바로 다운스트림에 배치되는 것으로, 다른 컴포넌트에 의해 처리되기 직전에 그것의 출력 신호에 대해 작용하는 안정화기(stabilizer; 1440)를 포함할 수 있다. 이러한 출력 신호에 기초하여, 안정화기(1440)는 사이드 정보(S)를 다운스트림 컴포넌트에 공급한다. 안정화기(1440)는 선택된 코딩 포맷을 너무 빈번하게 변화하지 않는 바람직한 목적을 구현할 수 있다. 이러한 목적을 위해, 안정화기(1440)는 M-채널 오디오 신호의 과거 시간 프레임에 대한 다수의 코드 포맷 선택을 고려할 수 있고, 선택된 코딩 포맷이 적어도 미리 정의된 수의 시간 프레임 동안 유지되도록 보장할 수 있다. 대안적으로, 안정화기는 다수의 과거 코딩 포맷 선택에 평균화 필터를 적용할 수 있는데(예를 들면, 이산 변수로서 표현됨), 이는 평활화 효과를 야기할 수 있다. 또 다른 대안으로서, 상태 머신이 제어 섹션(1430)에 의해 제공된 코딩 포맷 선택이 이동 시간 윈도우 전체에 걸쳐 안정한 상태로 유지되었다고 결정하면, 안정화기(1440)는 이동 시간 윈도우 내의 모든 시간 프레임에 대한 사이드 정보(S)를 공급하도록 구성된 상태 머신을 포함할 수 있다. 이동 시간 윈도우는 다수의 과거 시간 프레임에 대한 코딩 포맷 선택을 저장하는 버퍼에 대응할 수 있다. 본 개시내용을 연구하는 통상의 기술자가 쉽게 지각할 수 있는 것처럼, 그러한 안정화 기능은 안정화기(1440)와 적어도 다운믹스 섹션(1410) 및 분석 섹션(1420) 사이의 동작 지연의 증가를 수반할 필요가 있을 수 있다. 지연은 M-채널 오디오 신호의 섹션을 버퍼링하는 방식에 의해 구현될 수 있다.
도 14는 도 3에서의 인코딩 시스템의 부분도이다. 도 14에 도시된 컴포넌트는 좌측 채널(L, LS, LB, TFL, TBL)의 처리에만 관련되는 한편, 인코딩 시스템은 적어도 우측 채널(R, RS, RB, TFR, TBR)을 또한 처리한다. 예를 들어, 인코딩 섹션(1400)의 추가의 인스턴스(예를 들면, 기능적으로 동등한 복제)는 채널(R, RS, RB, TFR, TBR)을 포함하는 우측 신호를 인코딩하도록 병렬로 동작할 수 있다. 좌측 및 우측 채널은 2개의 개별 다운믹스 신호에(또는 적어도 공통 다운믹스 신호의 채널의 개별 그룹에) 기여하지만, 모든 채널에 대해 공통 코딩 포맷을 사용하는 것이 바람직하다. 즉, 좌측 인코딩 섹션(1400) 내의 제어 섹션(1430)은, 좌측 및 우측 채널 둘 다에 대해 사용될 공통 코딩 포맷을 결정할 책임이 있을 수 있고; 제어 섹션(1430)은 우측 채널(R, RS, RB, TFR, TBR)에 또한 액세스하거나 이러한 신호로부터 도출된 양, 이를테면, 공분산, 다운믹스 신호 등에 액세스하는 것이 바람직할 수 있으며, 이들은 사용되는 코딩 포맷을 결정할 때 고려할 수 있다. 시그널링(S)은 (좌측) 제어 섹션(1430)의 다운믹스 섹션(1410) 및 분석 섹션(1420)뿐만 아니라 우측의 인코딩 섹션(도시되지 않음)의 등가의 섹션에도 제공된다. 대안적으로, 모든 채널에 대해 공통 코딩 포맷을 사용하는 목적은 제어 섹션(1430) 자체가 인코딩 섹션(1400)의 좌측 인스턴스와 그것의 우측 인스턴스 모두에 공통이 되게 함으로써 달성될 수 있다. 도 3에 도시된 유형의 레이아웃에서, 인코딩 섹션(1430)은 좌측 채널 및 우측 채널을 각각 담당하는 인코딩 섹션(100) 및 추가적인 인코딩 섹션(303) 둘 다의 외측에 제공될 수 있으며, 좌측 채널 및 우측 채널(L, LS, LB, TFL, TBL, R, RS, RB, TFR, TBR) 모두를 수신하고 시그널링(S) - 이는 코딩 포맷의 선택을 지시하고 적어도 인코딩 섹션(100) 및 추가적인 인코딩 섹션(303)에 제공됨 - 을 출력한다.
도 15는 2개의 미리 정의된 코딩 포맷(F1, F2) 사이에서 시그널링(S)에 따라 교대하고 이들의 크로스 페이드를 제공하도록 구성된 다운믹스 섹션(1410)의 가능한 구현을 개략적으로 도시한다. 다운믹스 섹션(1410)은 M-채널 오디오 신호를 수신하고 2-채널 다운믹스 신호를 출력하도록 구성된 2개의 다운믹스 서브섹션(1411, 1412)을 포함한다. 2개의 다운믹스 서브섹션(1411, 1412)은 상이한 다운믹스 세팅(예컨대, M-채널 오디오 신호에 기초하여 다운믹스 신호(L1, L2)를 생산하기 위한 계수의 값)으로 구성되지만, 하나의 디자인의 기능적으로 동등한 복사본일 수 있다. 정상 동작에서, 2개의 다운믹스 서브섹션(1411, 1412)은 함께 제1 코딩 포맷(F1)에 따라 하나의 다운믹스 신호(L1(F1), L2(F1))를 및/또는 제2 코딩 포맷(F2)에 따라 하나의 다운믹스 신호(L1(F2), L2(F2))를 제공한다. 다운믹스 서브섹션(1411, 1412)의 다운스트림에는 제1 다운믹스 보간 섹션(1413) 및 제2 다운믹스 보간 섹션(1414)가 배열된다. 제1 다운믹스 보간 섹션(1413)은 크로스-페이딩을 포함하여 다운믹스 신호의 제1 채널(L1)을 보간하도록 구성되고, 제2 다운믹스 보간 섹션(1414)은 크로스-페이딩을 포함하여 다운믹스 신호의 제2 채널(L2)을 보간하도록 구성된다. 제1 다운믹스 보간 섹션(1413)은 적어도 다음의 상태에서 동작가능하다:
a) 제1 코딩 포맷에서의 안정-상태 동작에서 사용될 수 있는, 단지 제1 코딩 포맷(L1 = L1(F1));
b) 제2 코딩 포맷에서의 안정-상태 동작에서 사용될 수 있는, 단지 제2 코딩 포맷(L1 = L1(F2)); 및
c) 제1 코딩 포맷에서 제2 코딩 포맷으로의 전이에 사용될 수 있는, 코딩 포맷 둘 다에 따른 다운믹스 채널의 믹싱(L1 = α1L1(F1) + α2L1(F2), 여기서 0 < α1 <1 및 0 < α2 < 1).
믹싱 상태(c)는 다운믹스 신호가 제1 및 제2 다운믹스 서브섹션(1411, 1412) 둘 다로부터 이용가능할 것을 요구할 수 있다. 바람직하게는, 제1 다운믹스 보간 섹션(1413)은 복수의 믹싱 상태(c)에서 동작가능하여, 미세한 서브스텝에서의 전이 또는 심지어 준-연속적인(quasi-continuous) 크로스 페이드가 가능하다. 이것은 크로스 페이드를 덜 지각할 수 있게 하는 장점이 있다. 예를 들어, α1 + α2 = 1인 보간기 디자인에서, (α1, α2)의 다음 값 : (0.2, 0.8), (0.4, 0.6), (0.6, 0.4), (0.8, 0.2)이 정의되면, 5-스텝 크로스 페이드가 가능하다. 제2 다운믹스 보간 섹션(1414)은 동일하거나 유사한 능력을 가질 수 있다.
다운믹스 섹션(1410)의 실시예에 대한 변형에서, 도 15에 파선으로 제안된 바와 같이, 시그널링(S)은 제1 및 제2 다운믹스 서브섹션(1411, 1412)에도 제공될 수 있다. 전술한 바와 같이, 선택되지 않은 코딩 포맷과 연관된 다운믹스 신호의 생성은 억제될 수 있다. 이것은 평균 계산 부하를 감소시킬 수 있다.
이러한 변형에 추가적으로 또는 대안적으로, 2개의 상이한 코딩 포맷의 다운믹스 신호 사이의 크로스 페이드는 다운믹스 계수를 크로스 페이딩함으로써 달성될 수 있다. 제1 다운믹스 서브섹션(1411)은 이용가능한 코딩 포맷(F1, F2)에서 사용될 다운믹스 계수의 미리 정의된 값을 저장하고 시그널링(S)을 입력으로서 수신하는 계수 보간기(도시되지 않음)에 의해 생산되는 보간된 다운믹스 계수에 의해 제공될 수 있다. 이러한 구성에서, 제2 다운믹스 서브섹션(1412)과 제1 및 제2 보간 서브섹션(1413, 1414) 모두는 제거되거나 영구적으로 비활성화될 수 있다.
다운믹스 섹션(1410)이 수신하는 시그널링(S)은 적어도 다운믹스 보간 섹션(1413, 1414)에 공급되지만, 반드시 다운믹스 서브섹션(1411, 1412)에 공급될 필요는 없다. 교대하는 동작이 요구된다면, 즉, 중복 다운믹싱의 양이 코딩 포맷 사이의 전이 외측에서 감소되어야 한다면, 시그널링(S)을 다운믹스 서브섹션(1411, 1412)에 공급할 필요가 있다. 시그널링은, 예를 들면, 다운믹스 보간 섹션(1413, 1414)의 상이한 동작 모드를 지칭하는 저-레벨 커맨드일 수 있거나, 지시된 시작 점에서 미리 정의된 크로스 페이드 프로그램을 실행하기 위한 명령(예를 들면, 각각이 미리 정의된 지속시간을 갖는 동작 모드의 연속)과 같은 고-레벨 명령어와 관련될 수 있다.
도 16을 참조하면, 2개의 미리 정의된 코딩 포맷(F1, F2) 사이에서 시그널링 S에 따라 교대하도록 구성된 분석 섹션(1420)의 가능한 구현이 도시되어 있다. 분석 섹션(1420)은 M-채널 오디오 신호를 수신하고 건식 및 습식 업믹스 계수를 출력하도록 구성된 2개의 분석 서브섹션(1421, 1422)을 포함한다. 2개의 분석 서브섹션(1421, 1422)은 하나의 디자인의 기능적으로 동등한 복사본일 수 있다. 정상 동작에서, 2개의 분석 서브섹션(1421, 1422)은 함께 제1 코딩 포맷(F1)에 따라 건식 및 습식 업믹스 계수의 하나의 세트(βL(F1), γL(F1))를 제공하고 및/또는 제2 코딩 포맷(F2)에 따라 습식 업믹스 계수의 하나의 세트(βL(F2), γL(F2))를 제공한다.
분석 섹션(1420) 전체에 대해 위에서 설명된 것처럼, 현재 다운믹스 신호는 다운믹스 섹션(1410)으로부터 수신될 수 있거나, 이 신호의 복제가 분석 섹션(1420)에서 생산될 수 있다. 보다 상세하게는, 제1 분석 서브섹션(1421)은 다운믹스 섹션(1410)에서 제1 다운믹스 서브섹션(1411)로부터의 제1 코딩 포맷(F1)에 따른 다운믹스 신호(L1(F1), L2(F1))를 수신할 수 있거나, 자체적으로 복제를 생산할 수 있다. 유사하게, 제2 분석 서브섹션(1422)은 제2 다운믹스 서브섹션(1412)으로부터 제2 코딩 포맷(F2)에 따른 다운믹스 신호(L1(F2), L2(F2))를 수신할 수 있거나, 자체적으로 이 신호의 복제를 생산할 수 있다.
분석 섹션(1421, 1422)의 다운스트림에는, 건식 업믹스 계수 선택기(1423) 및 습식 업믹스 계수 선택기(1424)가 배열된다. 건식 업믹스 계수 선택기(1423)는 제1 또는 제2 분석 서브섹션(1421, 1422) 중 하나로부터의 건식 업믹스 계수들의 세트(βL)를 포워드하도록 구성되고, 습식 업믹스 계수 선택기(1424)는 제1 또는 제2 분석 서브섹션(1421, 1422) 중 하나로부터의 습식 업믹스 계수들의 세트(γL)를 포워드하도록 구성된다. 건식 업믹스 계수 선택기(1423)는 적어도 제1 다운믹스 보간 섹션(1413)에 대해 위에서 논의된 상태 (a) 및 (b)에서 동작가능하다. 그러나, 그 일부가 여기서 설명되는 도 3의 인코딩 시스템이 도 9에 도시된 것처럼 그것이 수신하는 업믹스 계수의 보간된 이산 값에 기초하여 파라메트릭 재구성을 수행하는 디코딩 시스템과 협력하도록 구성된다면, 다운믹스 보간 섹션(1413, 1414)에 대해 정의된 (c)와 같은 믹싱 상태를 구성할 필요가 없다. 습식 업믹스 계수 선택기(1424)는 유사한 능력을 가질 수 있다.
분석 섹션(1420)이 수신하는 시그널링(S)은 적어도 습식 및 건식 업믹스 계수 선택기(1423, 1424)에 공급된다. 전이 외측의 업믹스 계수의 중복 계산을 회피하는 것이 유리하지만, 분석 서브섹션(1421, 1422)이 시그널링을 수신할 필요는 없다. 시그널링은 건식 및 습식 업믹스 계수 선택기(1423, 1424)의 상이한 동작 모드를 지칭하는 저-레벨 커맨드일 수 있거나, 주어진 시간 프레임에서 하나의 코딩 포맷으로부터 다른 코딩 포맷으로 전이하기 위한 명령과 같은 고-레벨 명령어에 관련될 수 있다. 전술한 바와 같이, 이것은 크로스 페이딩 동작을 수반하지 않는 것이 바람직하지만, 적절한 시점에 대한 업믹스 계수의 값을 정의하거나, 또는 적절한 시점에서 적용하도록 이러한 값을 정의하는 것에 이를 수 있다.
이제, 도 17에서의 흐름도로서 개략적으로 도시된 예시적인 실시예에 따른 2-채널 다운믹스 신호로서 M-채널 오디오 신호를 인코딩하는 방법의 변형인 방법(1700)이 설명될 것이다. 여기에 예시된 방법은 도 14-16을 참조하여 위에서 설명한 인코딩 섹션(1400)를 포함하는 오디오 인코딩 시스템에 의해 수행될 수 있다.
오디오 인코딩 방법(1700)은: M-채널 오디오 신호(L, LS, LB, TFL, TBL)를 수신하는 단계(1710); 도 6-8을 참조하여 설명된 코딩 포맷(F1, F2, F3) 중 적어도 2개 중 하나를 선택하는 단계(1720); 선택된 코딩 포맷에 대해, M-채널 오디오 신호(L, LS, LB, TFL, TBL)에 기초하여 2-채널 다운믹스 신호(L1, L2)를 계산하는 단계(1730); 선택된 코딩 포맷의 다운믹스 신호(L1, L2) 및 다운믹스 신호에 기초하여 M-채널 오디오 신호의 파라메트릭 재구성을 가능하게 하는 사이드 정보(α)를 출력하는 단계(1740); 및 선택된 코딩 포맷을 지시하는 시그널링(S)을 출력하는 단계(1750)를 포함한다. 방법은, 예를 들면 M-채널 오디오 신호의 각각의 시간 프레임에 대해 반복한다. 선택(1720)의 결과가 직전에 선택된 것과 상이한 코딩 포맷이면, 다운믹스 신호는 적절한 지속기간 동안 이전 코딩 포맷 및 현재 코딩 포맷에 따른 다운믹스 신호 사이의 크로스 페이드에 의해 대체된다. 이미 논의된 바와 같이, 고유의 디코더 측 보간에 종속될 수 있는 사이드 정보를 크로스-페이드할 필요는 없거나 가능하지 않다.
여기서 설명된 방법은 도 4에 도시된 4개의 단계들(430, 440, 450 및 470) 중 하나 이상 없이 구현될 수 있다는 것에 주의한다.
IV. 등가물, 확장자, 대체물 및 기타
비록 본 개시내용이 특정한 예시적인 실시예를 설명하고 도시하지만, 본 발명은 이러한 특정한 예들로 제한되지 않는다. 위에서 설명한 예시적인 실시예에 대한 수정 및 변형은 첨부된 청구범위에 의해서만 정의되는 본 발명의 범위를 벗어나지 않고 이루어질 수 있다.
청구항에서, "포함하는(comprising)"이란 용어가 다른 요소 또는 단계를 배제하는 것은 아니며, 부정관사("a" 또는 "an")가 복수를 배제하는 것은 아니다. 소정의 방안이 상호 상이한 종속 항에서 인용된다는 단순한 사실이, 이러한 방안의 조합이 유익하게 사용될 수 없다는 것을 나타내는 것은 아니다. 청구항에서 등장하는 임의의 참조 부호도 그들의 범주를 제한하는 것으로 이해되어서는 안 된다.
위에 개시된 디바이스 및 방법은 소프트웨어, 펌웨어, 하드웨어 또는 이들의 조합으로서 구현될 수 있다. 하드웨어 구현에서, 이상의 설명에서 언급된 기능 유닛들 사이의 작업들의 분할이 반드시 물리적 유닛들로의 분할에 대응할 필요는 없고; 반대로, 하나의 물리적 컴포넌트가 다수의 기능을 가질 수 있고, 하나의 작업이 몇 개의 물리적 컴포넌트들에 의해 협력하여 분산 방식으로 수행될 수 있다. 소정의 컴포넌트 또는 모든 컴포넌트가 디지털 프로세서, 신호 프로세서 또는 마이크로프로세서에 의해 실행되는 소프트웨어로서 구현될 수 있거나, 하드웨어로서 또는 ASIC(application-specific integrated circuit)로서 구현될 수 있다. 그러한 소프트웨어는, 컴퓨터 저장 매체(또는 비-일시적 매체) 및 통신 매체(또는 일시적 매체)를 포함할 수 있는, 컴퓨터 판독가능 매체 상에 분산되어 있을 수 있다. 본 기술 분야의 통상의 기술자에게 잘 알려진 바와 같이, 용어 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 다른 데이터와 같은 정보의 저장을 위해 임의의 방법 또는 기술로 구현되는 휘발성 및 비휘발성, 이동식 및 비이동식 매체 둘 다를 포함한다. 컴퓨터 저장 매체는 RAM, ROM, EEPROM, 플래시 메모리 또는 다른 메모리 기술, CD-ROM, DVD(digital versatile disk) 또는 다른 광학적 디스크 스토리지, 자기 카세트, 자기 테이프, 자기 디스크 스토리지 또는 다른 자기 저장 디바이스, 또는 원하는 정보를 저장하는 데 사용될 수 있고 컴퓨터에 의해 액세스될 수 있는 임의의 다른 매체를 포함하지만, 이들로 제한되지 않는다. 게다가, 통신 매체가 전형적으로 반송파 또는 다른 전송 메커니즘과 같은 변조된 데이터 신호로 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 다른 데이터를 구현하고 임의의 정보 전달 매체를 포함한다는 것은 통상의 기술자에게 잘 알려져 있다.

Claims (39)

  1. 오디오 디코딩 방법(1200)으로서,
    2-채널 다운믹스 신호(L1, L2) 및 상기 다운믹스 신호에 기초한 미리 정의된 채널 구성을 갖는 M-채널 오디오 신호(L, LS, LB, TFL, TBL)의 파라메트릭 재구성을 위한 업믹스 파라미터들(αL)을 수신하는 단계(1201) - M ≥ 4 -;
    상기 미리 정의된 채널 구성을 갖는 상기 M-채널 오디오 신호의 적어도 2개의 코딩 포맷(F1, F2, F3) 중 선택된 하나의 코딩 포맷을 지시하는 시그널링(S)을 수신하는 단계(1202) - 지시된 선택된 코딩 포맷은 적어도 2개의 코딩 포맷 사이에서 전환하고, 상기 코딩 포맷들은 하나 이상의 채널의 각각의 제1 및 제2 그룹들(601, 602)로의 상기 M-채널 오디오 신호의 상기 미리 정의된 채널 구성의 채널들의 각각의 상이한 파티션들에 대응하고, 상기 지시된 코딩 포맷에서, 상기 다운믹스 신호의 제1 채널은 상기 M-채널 오디오 신호의 상기 미리 정의된 채널 구성의 하나 이상의 채널의 제1 그룹의 선형 조합에 대응하고 상기 다운믹스 신호의 제2 채널은 상기 M-채널 오디오 신호의 상기 미리 정의된 채널 구성의 하나 이상의 채널의 제2 그룹의 선형 조합에 대응함 -;
    상기 지시된 코딩 포맷에 기초하여 사전 상관해제 계수들의 세트를 결정하는 단계(1203);
    상기 다운믹스 신호의 선형 매핑으로서 상관해제 입력 신호(D1, D2, D3)를 계산하는 단계(1205) - 상기 사전 상관해제 계수들의 세트는 상기 다운믹스 신호에 적용되고, 상기 사전 상관해제 계수들은 상기 M-채널 오디오 신호의 상기 미리 정의된 채널 구성의 제1 채널(TBL)이 상기 다운믹스 신호를 통해, 상기 코딩 포맷들 중 적어도 2개의 코딩 포맷에서 상기 상관해제 입력 신호의 제1 고정 채널(D3)에 기여하도록 결정됨 -;
    상기 상관해제 입력 신호에 기초하여 상관해제된 신호를 생성하는 단계(1207);
    상기 수신된 업믹스 파라미터들 및 상기 지시된 코딩 포맷에 기초하여 습식 및 건식 업믹스 계수들의 세트들(γL, βL)을 결정하는 단계(1208);
    상기 다운믹스 신호의 선형 매핑으로서 건식 업믹스 신호(X1, X2)를 계산하는 단계(1210) - 상기 건식 업믹스 계수들의 세트는 상기 다운믹스 신호에 적용됨 -;
    상기 상관해제된 신호의 선형 매핑으로서 습식 업믹스 신호(Y1, Y2)를 계산하는 단계(1211) - 상기 습식 업믹스 계수들의 세트는 상기 상관해제된 신호에 적용됨 -; 및
    재구성될 상기 M-채널 오디오 신호에 대응하는 다차원 재구성 신호
    Figure 112017052581508-pct00039
    를 획득하기 위해 상기 건식 및 습식 업믹스 신호들을 조합하는 단계(1213)
    를 포함하는 오디오 디코딩 방법.
  2. 제1항에 있어서,
    상기 상관해제 입력 신호 및 상기 상관해제된 신호는 각각 M-2개의 채널을 포함하고, 상기 상관해제된 신호의 채널은 상기 상관해제 입력 신호의 단지 하나의 채널(no more than one channel)에 기초하여 생성되고, 상기 사전 상관해제 계수들은, 상기 코딩 포맷들 각각에서, 상기 상관해제 입력 신호의 채널이 상기 다운믹스 신호의 단지 하나의 채널로부터의 기여를 수신하도록 결정되는, 오디오 디코딩 방법.
  3. 제1항 또는 제2항에 있어서,
    상기 사전 상관해제 계수들은 추가로, 상기 M-채널 오디오 신호의 제2 채널(L)이 상기 다운믹스 신호를 통해, 상기 코딩 포맷들 중 적어도 2개의 코딩 포맷에서 상기 상관해제 입력 신호의 제2 고정 채널(D1)에 기여하도록 결정되는, 오디오 디코딩 방법.
  4. 제1항 또는 제2항에 있어서,
    상기 사전 상관해제 계수들은 상기 M-채널 오디오 신호의 채널들의 쌍(LS, LB)이 상기 다운믹스 신호를 통해, 상기 코딩 포맷들 중 적어도 2개의 코딩 포맷에서 상기 상관해제 입력 신호의 제3 고정 채널(D2)에 기여하도록 결정되는, 오디오 디코딩 방법.
  5. 제1항 또는 제2항에 있어서,
    제1 코딩 포맷으로부터 제2 코딩 포맷으로의 상기 지시된 코딩 포맷의 전환을 검출하는 것에 응답하여, 상기 제1 코딩 포맷과 연관된 사전 상관해제 계수 값들로부터 상기 제2 코딩 포맷과 연관된 사전 상관해제 계수 값들로 점진적인 전이를 수행하는 단계(1206)를 추가로 포함하는, 오디오 디코딩 방법.
  6. 제1항 또는 제2항에 있어서,
    상기 M-채널 오디오 신호는 상기 M-채널 오디오 신호에 대한 재생 환경에서 상이한 수평 방향들을 표현하는 3개의 채널(L, LS, LB) 및 상기 재생 환경에서 상기 3개의 채널의 방향들과 수직으로 분리된 방향들을 표현하는 2개의 채널(TFL, TBL)을 포함하는, 오디오 디코딩 방법.
  7. 제6항에 있어서,
    제1 코딩 포맷(F1)에서, 상기 제2 그룹은 상기 2개의 채널을 포함하고 및/또는 제1 코딩 포맷(F1)에서, 상기 제1 그룹은 상기 3개의 채널을 포함하고 상기 제2 그룹은 상기 2개의 채널을 포함하고 및/또는 제2 코딩 포맷(F2)에서, 상기 제1 및 제2 그룹들 각각은 상기 2개의 채널 중 하나를 포함하는, 오디오 디코딩 방법.
  8. 제1항 또는 제2항에 있어서,
    특정한 코딩 포맷(F1, F2)에서, 상기 제1 그룹은 N개의 채널로 구성되고, N ≥ 3이고, 상기 지시된 코딩 포맷이 상기 특정한 코딩 포맷인 것에 응답하여:
    상기 사전 상관해제 계수들은 상기 상관해제된 신호의 N-1개의 채널이 상기 다운믹스 신호의 제1 채널에 기초하여 생성되도록 결정되고;
    상기 건식 및 습식 업믹스 계수들은 상기 제1 그룹이 상기 다운믹스 신호의 제1 채널과 상기 상관해제된 신호의 상기 N-1개의 채널의 선형 매핑으로서 재구성되도록 결정되며, 상기 건식 업믹스 계수들의 서브세트가 상기 다운믹스 신호의 제1 채널에 적용되고, 상기 습식 업믹스 계수들의 서브세트가 상기 상관해제된 신호의 상기 N-1개의 채널에 적용되는, 오디오 디코딩 방법.
  9. 오디오 디코딩 방법으로서,
    적어도 2개의 미리 정의된 채널 구성 중 하나를 지시하는 시그널링(S)을 수신하는 단계;
    미리 정의된 제1 채널 구성(L, LS, LB, TFL, TBL)을 지시하는 상기 수신된 시그널링을 검출하는 것에 응답하여, 제1항 또는 제2항의 오디오 디코딩 방법을 수행하는 단계; 및
    미리 정의된 제2 채널 구성(LW, LSCRN, TFL, LS, LB, TBL)을 지시하는 상기 수신된 시그널링을 검출하는 것에 응답하여
    2-채널 다운믹스 신호(L1, L2) 및 연관된 업믹스 파라미터들(α)을 수신하는 단계,
    상기 다운믹스 신호의 제1 채널(L1) 및 상기 업믹스 파라미터들 중 적어도 일부에 기초하여 제1의 3-채널 오디오 신호(LW, LSCRN, TFL)의 파라메트릭 재구성을 수행하는 단계, 및
    상기 다운믹스 신호의 제2 채널(L2) 및 상기 업믹스 파라미터들 중 적어도 일부에 기초하여 제2의 3-채널 오디오 신호(LS, LB, TBL)의 파라메트릭 재구성을 수행하는 단계를 포함하는, 오디오 디코딩 방법.
  10. 오디오 디코딩 시스템(1000)으로서,
    제1항 또는 제2항의 방법을 수행하도록 구성된 하나 이상의 컴포넌트
    를 포함하는 오디오 디코딩 시스템.
  11. 제10항에 있어서,
    상기 하나 이상의 컴포넌트는,
    추가적인 2-채널 다운믹스 신호(R1, R2) 및 연관된 추가적인 업믹스 파라미터들(αR)에 기초하여 추가적인 M-채널 오디오 신호(R, RS, RB, TFR, TBR)를 재구성하고;
    상기 추가적인 M-채널 오디오 신호의 적어도 2개의 코딩 포맷 중 선택된 하나의 코딩 포맷을 지시하는 시그널링(S)을 수신하고 - 상기 추가적인 M-채널 오디오 신호의 코딩 포맷들은 하나 이상의 채널의 각각의 제1 및 제2 그룹들(603, 604)로의 상기 추가적인 M-채널 오디오 신호의 채널들의 각각의 상이한 파티션들에 대응하고, 상기 추가적인 M-채널 오디오 신호의 상기 지시된 코딩 포맷에서, 상기 추가적인 다운믹스 신호의 제1 채널(R1)은 상기 추가적인 M-채널 오디오 신호의 하나 이상의 채널의 제1 그룹의 선형 조합에 대응하고 상기 추가적인 다운믹스 신호의 제2 채널(R2)은 상기 추가적인 M-채널 오디오 신호의 하나 이상의 채널의 제2 그룹의 선형 조합에 대응함 -;
    상기 추가적인 M-채널 오디오 신호의 상기 지시된 코딩 포맷에 기초하여 추가적인 사전 상관해제 계수들의 세트를 결정하고;
    상기 추가적인 다운믹스 신호의 선형 매핑으로서 추가적인 상관해제 입력 신호를 계산하고 - 상기 추가적인 사전 상관해제 계수들의 세트는 상기 추가적인 다운믹스 신호에 적용됨 -;
    상기 추가적인 상관해제 입력 신호에 기초하여 추가적인 상관해제된 신호를 생성하고;
    상기 수신된 추가적인 업믹스 파라미터들 및 상기 추가적인 M-채널 오디오 신호의 상기 지시된 코딩 포맷에 기초하여 추가적인 습식 및 건식 업믹스 계수들의 세트들을 결정하고;
    상기 추가적인 다운믹스 신호의 선형 매핑으로서 추가적인 건식 업믹스 신호를 계산하고 - 상기 추가적인 건식 업믹스 계수들의 세트는 상기 추가적인 다운믹스 신호에 적용됨 -;
    상기 추가적인 상관해제된 신호의 선형 매핑으로서 추가적인 습식 업믹스 신호를 계산하고 - 상기 추가적인 습식 업믹스 계수들의 세트는 상기 추가적인 상관해제된 신호에 적용됨 -;
    재구성될 상기 추가적인 M-채널 오디오 신호에 대응하는 추가적인 다차원 재구성 신호
    Figure 112017052581508-pct00040
    를 획득하기 위해 상기 추가적인 건식 및 습식 업믹스 신호들을 조합하도록 구성되는, 오디오 디코딩 시스템.
  12. 제10항에 있어서,
    상기 하나 이상의 컴포넌트는,
    비트스트림(B)으로부터, 상기 다운믹스 신호, 상기 다운믹스 신호와 연관된 상기 업믹스 파라미터들, 및 이산적으로 코딩된 오디오 채널(C)을 추출하고;
    상기 이산적으로 코딩된 오디오 채널을 디코딩하도록 추가로 구성되는, 오디오 디코딩 시스템.
  13. 오디오 인코딩 방법(1700)으로서,
    미리 정의된 채널 구성을 갖는 M-채널 오디오 신호(L, LS, LB, TFL, TBL)를 수신하는 단계(1710) - M ≥ 4 -;
    하나 이상의 채널 각각의 각자의 제1 및 제2 그룹들(601, 602)로의 상기 M-채널 오디오 신호의 상기 미리 정의된 채널 구성의 채널들의 각자의 상이한 파티션들에 대응하는 적어도 2개의 코딩 포맷(F1, F2, F3) 중 하나의 코딩 포맷을 반복적으로 선택하는 단계(1720) - 상기 코딩 포맷들 각각은 2-채널 다운믹스 신호(L1, L2)를 정의하고, 상기 다운믹스 신호의 제1 채널(L1)은 상기 M-채널 오디오 신호의 상기 미리 정의된 채널 구성의 하나 이상의 채널의 제1 그룹의 선형 조합으로서 형성되고, 상기 다운믹스 신호의 제2 채널(L2)은 상기 M-채널 오디오 신호의 상기 미리 정의된 채널 구성의 하나 이상의 채널의 제2 그룹의 선형 조합으로서 형성됨 -;
    현재 선택된 코딩 포맷에 대해, 건식 업믹스 계수들의 세트(βL) 및 습식 업믹스 계수들의 세트(γL)를 결정하는 단계;
    현재 선택된 코딩 포맷에 따라, 상기 M-채널 오디오 신호에 기초한 2-채널 다운믹스 신호(L1, L2)를 계산하는 단계(1730);
    현재 선택된 코딩 포맷의 상기 다운믹스 신호 - 상기 다운믹스 신호는 시간 프레임들로 세그먼트화됨 -, 및 상기 선택된 코딩 포맷의 상기 다운믹스 신호와 상기 다운믹스 신호의 적어도 하나의 채널에 기초하여 결정된 상관해제된 신호에 기초하여 상기 M-채널 오디오 신호의 파라메트릭 재구성을 가능하게 하는 사이드 정보를 출력하는 단계(1740) - 상기 사이드 정보는 상기 건식 및 습식 업믹스 계수들의 세트들(βL, γL)의 이산 값들을 포함하고, 시간 프레임당 적어도 하나의 이산 값이 출력됨 -; 및
    현재 선택된 코딩 포맷을 지시하는 시그널링(S)을 출력하는 단계(1750)
    를 포함하고,
    선택된 제1 코딩 포맷으로부터 별개의 선택된 제2 코딩 포맷으로의 변화에 응답하여, 상기 선택된 제2 코딩 포맷에 따른 다운믹스 신호가 계산되고, 상기 선택된 제1 코딩 포맷에 따른 다운믹스 신호 및 상기 선택된 제2 코딩 포맷에 따른 다운믹스 신호의 크로스 페이드가 상기 다운믹스 신호 대신에 출력되며,
    상기 이산 값들 사이에서의 상기 M-채널 오디오 신호의 상기 파라메트릭 재구성은 미리 정의된 보간 규칙에 따른 건식 및 습식 업믹스 계수들의 세트들(βL, γL)의 보간된 값들에 기초해야 하고, 상기 다운믹스 신호 크로스 페이드 및 상기 건식 및 습식 업믹스 계수들의 세트들의 상기 이산 값들은 상기 크로스 페이드 및 보간이 동시에 일어나는 방식으로 출력되는 오디오 인코딩 방법.
  14. 미리 정의된 채널 구성을 갖는 M-채널 오디오 신호(L, LS, LB, TFL, TBL)를 2-채널 다운믹스 신호 및 연관된 업믹스 파라미터들로서 인코딩하도록 구성된 인코딩 섹션(1400)을 포함하는 오디오 인코딩 시스템(300) - M≥4 - 으로서,
    상기 인코딩 섹션은:
    하나 이상의 채널 각각의 각자의 제1 및 제2 그룹들(601, 602)로의 상기 M-채널 오디오 신호의 상기 미리 정의된 채널 구성의 채널들의 각자의 상이한 파티션들에 대응하는 적어도 2개의 코딩 포맷(F1, F2, F3) 중 적어도 하나에 대해, 상기 코딩 포맷에 따라, 상기 M-채널 오디오 신호에 기초하여 2-채널 다운믹스 신호(L1, L2)를 계산하도록 구성된 다운믹스 섹션(1411, 1412) - 상기 다운믹스 신호는 시간프레임들로 세그먼트화되고, 상기 다운믹스 신호의 제1 채널(L1)은 상기 M 채널 오디오 신호의 상기 미리 정의된 채널 구성의 하나 이상의 채널의 제1 그룹의 선형 조합으로서 형성되고 상기 다운믹스 신호의 제2 채널(L2)은 상기 M-채널 오디오 신호의 상기 미리 정의된 채널 구성의 하나 이상의 채널의 제2 그룹의 선형 조합으로서 형성됨 - ;
    상기 코딩 포맷들 중 하나의 코딩 포맷을 반복적으로 선택하도록 구성된 제어 섹션(1430); 및
    상기 제어 섹션에 의해 선택된 제1 코딩 포맷에 따른 다운믹스 신호와, 상기 제1 코딩 포맷 직후에 상기 제어 섹션에 의해 선택된 제2 코딩 포맷에 따른 다운믹스 신호의 크로스 페이드를 생성하도록 구성된 다운믹스 보간기(1413, 1414)
    를 포함하며,
    상기 오디오 인코딩 시스템은 현재 선택된 코딩 포맷에 대해 건식 업믹스 계수들의 세트(βL) 및 습식 업믹스 계수들의 세트(γL)를 결정하고, 현재 선택된 코딩 포맷을 지시하는 시그널링(S) 및 상기 선택된 코딩 포맷의 상기 다운믹스 신호와 상기 다운믹스 신호의 적어도 하나의 채널에 기초하여 결정된 상관해제된 신호에 기초하여 상기 M-채널 오디오 신호의 파라메트릭 재구성을 가능하게 하는 사이드 정보(α)를 출력 - 상기 사이드 정보는 상기 건식 및 습식 업믹스 계수들의 세트들(βL, γL)의 이산 값들을 포함하고, 시간 프레임당 적어도 하나의 이산 값이 출력됨 - 하도록 구성되고,
    상기 이산 값들 사이에서의 상기 M-채널 오디오 신호의 상기 파라메트릭 재구성은 미리 정의된 보간 규칙에 따른 건식 및 습식 업믹스 계수들의 세트들(βL, γL)의 보간된 값들에 기초해야 하고, 상기 오디오 인코딩 시스템은 상기 다운믹스 신호 크로스 페이드 및 상기 건식 및 습식 업믹스 계수들의 세트들의 상기 이산 값들을 상기 크로스 페이드 및 보간이 동시에 일어나는 방식으로 출력하도록 구성되는 오디오 인코딩 시스템.
  15. 제14항에 있어서, M2-채널 오디오 신호(R, RS, RB, TFR, TBR)를 추가로 인코딩하도록 구성되며,
    상기 제어 섹션은 상기 M-채널 오디오 신호 및 상기 M2-채널 오디오 신호에 대해 효과적으로 상기 코딩 포맷들 중 하나의 코딩 포맷을 반복적으로 선택하도록 구성되고,
    상기 시스템은, 상기 제어 섹션에 통신 가능하게 결합되고 상기 제어 섹션에 의해 선택된 상기 코딩 포맷에 따라 상기 M2-채널 오디오 신호를 인코딩하도록 구성되는 추가적인 인코딩 섹션을 추가로 포함하는 오디오 인코딩 시스템.
  16. 컴퓨터에서 실행되는 경우, 상기 컴퓨터로 하여금 제1항, 제2항 및 제13항 중 어느 한 항의 방법을 수행하게 하기 위한 명령어들을 갖는 컴퓨터 판독가능 기록 매체.
  17. 삭제
  18. 삭제
  19. 삭제
  20. 삭제
  21. 삭제
  22. 삭제
  23. 삭제
  24. 삭제
  25. 삭제
  26. 삭제
  27. 삭제
  28. 삭제
  29. 삭제
  30. 삭제
  31. 삭제
  32. 삭제
  33. 삭제
  34. 삭제
  35. 삭제
  36. 삭제
  37. 삭제
  38. 삭제
  39. 삭제
KR1020177011541A 2014-10-31 2015-10-29 멀티채널 오디오 신호의 파라메트릭 인코딩 및 디코딩 KR102486338B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201462073642P 2014-10-31 2014-10-31
US62/073,642 2014-10-31
US201562128425P 2015-03-04 2015-03-04
US62/128,425 2015-03-04
PCT/EP2015/075115 WO2016066743A1 (en) 2014-10-31 2015-10-29 Parametric encoding and decoding of multichannel audio signals

Publications (2)

Publication Number Publication Date
KR20170078648A KR20170078648A (ko) 2017-07-07
KR102486338B1 true KR102486338B1 (ko) 2023-01-10

Family

ID=54705555

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020177011541A KR102486338B1 (ko) 2014-10-31 2015-10-29 멀티채널 오디오 신호의 파라메트릭 인코딩 및 디코딩

Country Status (9)

Country Link
US (1) US9955276B2 (ko)
EP (2) EP3213323B1 (ko)
JP (2) JP6640849B2 (ko)
KR (1) KR102486338B1 (ko)
CN (2) CN107004421B (ko)
BR (1) BR112017008015B1 (ko)
ES (1) ES2709661T3 (ko)
RU (1) RU2704266C2 (ko)
WO (1) WO2016066743A1 (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3522155B1 (en) * 2015-05-20 2020-10-14 Telefonaktiebolaget LM Ericsson (publ) Coding of multi-channel audio signals
EP3337066B1 (en) 2016-12-14 2020-09-23 Nokia Technologies Oy Distributed audio mixing
CN107576933B (zh) * 2017-08-17 2020-10-30 电子科技大学 多维拟合的信源定位方法
US20200388292A1 (en) * 2019-06-10 2020-12-10 Google Llc Audio channel mixing

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060165184A1 (en) 2004-11-02 2006-07-27 Heiko Purnhagen Audio coding using de-correlated signals
WO2009049896A1 (en) 2007-10-17 2009-04-23 Fraunhofer-Fesellschaft Zur Förderung Der Angewandten Forschung E.V. Audio coding using upmix
WO2010128136A1 (en) 2009-05-08 2010-11-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio format transcoder
WO2014126689A1 (en) 2013-02-14 2014-08-21 Dolby Laboratories Licensing Corporation Methods for controlling the inter-channel coherence of upmixed audio signals

Family Cites Families (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7644003B2 (en) 2001-05-04 2010-01-05 Agere Systems Inc. Cue-based audio coding/decoding
FR2862799B1 (fr) 2003-11-26 2006-02-24 Inst Nat Rech Inf Automat Dispositif et methode perfectionnes de spatialisation du son
US7394903B2 (en) * 2004-01-20 2008-07-01 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal
US20060165247A1 (en) 2005-01-24 2006-07-27 Thx, Ltd. Ambient and direct surround sound system
EP1691348A1 (en) * 2005-02-14 2006-08-16 Ecole Polytechnique Federale De Lausanne Parametric joint-coding of audio sources
ATE421845T1 (de) * 2005-04-15 2009-02-15 Dolby Sweden Ab Zeitliche hüllkurvenformgebung von entkorrelierten signalen
CN101223575B (zh) * 2005-07-14 2011-09-21 皇家飞利浦电子股份有限公司 音频编码和解码
WO2007026821A1 (ja) 2005-09-02 2007-03-08 Matsushita Electric Industrial Co., Ltd. エネルギー整形装置及びエネルギー整形方法
KR100888474B1 (ko) * 2005-11-21 2009-03-12 삼성전자주식회사 멀티채널 오디오 신호의 부호화/복호화 장치 및 방법
KR101294022B1 (ko) * 2006-02-03 2013-08-08 한국전자통신연구원 공간큐를 이용한 다객체 또는 다채널 오디오 신호의 랜더링제어 방법 및 그 장치
JP4396683B2 (ja) * 2006-10-02 2010-01-13 カシオ計算機株式会社 音声符号化装置、音声符号化方法、及び、プログラム
AU2007312597B2 (en) * 2006-10-16 2011-04-14 Dolby International Ab Apparatus and method for multi -channel parameter transformation
JP5133401B2 (ja) * 2007-04-26 2013-01-30 ドルビー・インターナショナル・アクチボラゲット 出力信号の合成装置及び合成方法
BR122020009727B1 (pt) * 2008-05-23 2021-04-06 Koninklijke Philips N.V. Método
JP5608660B2 (ja) 2008-10-10 2014-10-15 テレフオンアクチーボラゲット エル エム エリクソン(パブル) エネルギ保存型マルチチャネルオーディオ符号化
EP2214162A1 (en) * 2009-01-28 2010-08-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Upmixer, method and computer program for upmixing a downmix audio signal
KR101622950B1 (ko) * 2009-01-28 2016-05-23 삼성전자주식회사 오디오 신호의 부호화 및 복호화 방법 및 그 장치
ES2452569T3 (es) 2009-04-08 2014-04-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato, procedimiento y programa de computación para mezclar en forma ascendente una señal de audio con mezcla descendente utilizando una suavización de valor fase
CN102414743A (zh) * 2009-04-21 2012-04-11 皇家飞利浦电子股份有限公司 音频信号合成
EP2360681A1 (en) 2010-01-15 2011-08-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for extracting a direct/ambience signal from a downmix signal and spatial parametric information
TWI462087B (zh) * 2010-11-12 2014-11-21 Dolby Lab Licensing Corp 複數音頻信號之降混方法、編解碼方法及混合系統
US9219972B2 (en) 2010-11-19 2015-12-22 Nokia Technologies Oy Efficient audio coding having reduced bit rate for ambient signals and decoding using same
EP2661907B8 (en) 2011-01-04 2019-08-14 DTS, Inc. Immersive audio rendering system
WO2012122397A1 (en) 2011-03-09 2012-09-13 Srs Labs, Inc. System for dynamically creating and rendering audio objects
KR101845226B1 (ko) 2011-07-01 2018-05-18 돌비 레버러토리즈 라이쎈싱 코오포레이션 적응형 오디오 신호 생성, 코딩 및 렌더링을 위한 시스템 및 방법
RU2618383C2 (ru) * 2011-11-01 2017-05-03 Конинклейке Филипс Н.В. Кодирование и декодирование аудиообъектов
WO2013122388A1 (en) 2012-02-15 2013-08-22 Samsung Electronics Co., Ltd. Data transmission apparatus, data receiving apparatus, data transceiving system, data transmission method and data receiving method
EP2817802B1 (en) * 2012-02-24 2016-12-07 Dolby International AB Audio processing
EP2834814B1 (en) * 2012-04-05 2016-03-02 Huawei Technologies Co., Ltd. Method for determining an encoding parameter for a multi-channel audio signal and multi-channel audio encoder
CN103748629B (zh) 2012-07-02 2017-04-05 索尼公司 解码装置和方法、编码装置和方法以及程序
US9473870B2 (en) 2012-07-16 2016-10-18 Qualcomm Incorporated Loudspeaker position compensation with 3D-audio hierarchical coding
US9479886B2 (en) 2012-07-20 2016-10-25 Qualcomm Incorporated Scalable downmix design with feedback for object-based surround codec
JP6085029B2 (ja) 2012-08-31 2017-02-22 ドルビー ラボラトリーズ ライセンシング コーポレイション 種々の聴取環境におけるオブジェクトに基づくオーディオのレンダリング及び再生のためのシステム
JP6186436B2 (ja) 2012-08-31 2017-08-23 ドルビー ラボラトリーズ ライセンシング コーポレイション 個々に指定可能なドライバへの上方混合されたコンテンツの反射されたおよび直接的なレンダリング
BR122021021487B1 (pt) 2012-09-12 2022-11-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V Aparelho e método para fornecer capacidades melhoradas de downmix guiado para áudio 3d
WO2014068583A1 (en) 2012-11-02 2014-05-08 Pulz Electronics Pvt. Ltd. Multi platform 4 layer and x, y, z axis audio recording, mixing and playback process
US9913064B2 (en) 2013-02-07 2018-03-06 Qualcomm Incorporated Mapping virtual speakers to physical speakers
US9570083B2 (en) * 2013-04-05 2017-02-14 Dolby International Ab Stereo audio encoder and decoder
KR102244379B1 (ko) 2013-10-21 2021-04-26 돌비 인터네셔널 에이비 오디오 신호들의 파라메트릭 재구성
TWI587286B (zh) 2014-10-31 2017-06-11 杜比國際公司 音頻訊號之解碼和編碼的方法及系統、電腦程式產品、與電腦可讀取媒體

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060165184A1 (en) 2004-11-02 2006-07-27 Heiko Purnhagen Audio coding using de-correlated signals
WO2009049896A1 (en) 2007-10-17 2009-04-23 Fraunhofer-Fesellschaft Zur Förderung Der Angewandten Forschung E.V. Audio coding using upmix
WO2010128136A1 (en) 2009-05-08 2010-11-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio format transcoder
WO2014126689A1 (en) 2013-02-14 2014-08-21 Dolby Laboratories Licensing Corporation Methods for controlling the inter-channel coherence of upmixed audio signals

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ETSI TS 103 190 V1.1.1, Digital Audio Compression (AC-4) Standard, 2014.04.
Jurgen Herre, et al. MPEG Surround - The ISO/MPEG Standard for Efficient and Compatible Multichannel Audio Coding. Journal of the Audio Engineering Society, 2008.11.

Also Published As

Publication number Publication date
US9955276B2 (en) 2018-04-24
BR112017008015B1 (pt) 2023-11-14
ES2709661T3 (es) 2019-04-17
JP2017536756A (ja) 2017-12-07
EP3540732B1 (en) 2023-07-26
BR112017008015A2 (pt) 2017-12-19
EP3213323A1 (en) 2017-09-06
CN107004421B (zh) 2020-07-07
WO2016066743A1 (en) 2016-05-06
KR20170078648A (ko) 2017-07-07
US20170339505A1 (en) 2017-11-23
JP7009437B2 (ja) 2022-01-25
RU2019131327A (ru) 2019-11-25
CN107004421A (zh) 2017-08-01
EP3213323B1 (en) 2018-12-12
RU2017114642A3 (ko) 2019-05-24
RU2704266C2 (ru) 2019-10-25
RU2017114642A (ru) 2018-10-31
JP2020074007A (ja) 2020-05-14
CN111816194A (zh) 2020-10-23
EP3540732A1 (en) 2019-09-18
JP6640849B2 (ja) 2020-02-05

Similar Documents

Publication Publication Date Title
JP7193603B2 (ja) デコーダシステム、復号方法及びコンピュータプログラム
JP5185337B2 (ja) レベル・パラメータを生成する装置と方法、及びマルチチャネル表示を生成する装置と方法
KR100933548B1 (ko) 비상관 신호의 시간적 엔벨로프 정형화
JP7009437B2 (ja) マルチチャネル・オーディオ信号のパラメトリック・エンコードおよびデコード
JP5179881B2 (ja) オーディオソースのパラメトリックジョイント符号化
CN106463125B (zh) 基于空间元数据的音频分割
KR101751228B1 (ko) 오디오 오브젝트들을 포함한 오디오 장면들의 효율적 코딩
RU2630754C2 (ru) Эффективное кодирование звуковых сцен, содержащих звуковые объекты
KR20150136136A (ko) 오디오 현장의 코딩
AU2019216363B2 (en) Audio scene encoder, audio scene decoder and related methods using hybrid encoder/decoder spatial analysis
KR102426965B1 (ko) 대화 향상을 위한 디코딩 방법 및 디코더
KR102501969B1 (ko) 오디오 신호의 파라메트릭 믹싱
RU2798759C2 (ru) Параметрическое кодирование и декодирование многоканальных аудиосигналов

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant