KR101823278B1 - 결합하여 인코딩된 잔류 신호들을 이용하는 오디오 인코더, 오디오 디코더, 방법들 및 컴퓨터 프로그램 - Google Patents

결합하여 인코딩된 잔류 신호들을 이용하는 오디오 인코더, 오디오 디코더, 방법들 및 컴퓨터 프로그램 Download PDF

Info

Publication number
KR101823278B1
KR101823278B1 KR1020167004625A KR20167004625A KR101823278B1 KR 101823278 B1 KR101823278 B1 KR 101823278B1 KR 1020167004625 A KR1020167004625 A KR 1020167004625A KR 20167004625 A KR20167004625 A KR 20167004625A KR 101823278 B1 KR101823278 B1 KR 101823278B1
Authority
KR
South Korea
Prior art keywords
signal
audio
channel
residual
downmix
Prior art date
Application number
KR1020167004625A
Other languages
English (en)
Other versions
KR20160033777A (ko
Inventor
사샤 딕
크리스티안 에르텔
크리스티안 헴리히
요하네스 힐퍼트
안드레아스 홀저
아힘 쿤츠
Original Assignee
프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. filed Critical 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Publication of KR20160033777A publication Critical patent/KR20160033777A/ko
Application granted granted Critical
Publication of KR101823278B1 publication Critical patent/KR101823278B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0017Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

인코딩된 표현에 기초하여 적어도 4개의 오디오 채널 신호들을 제공하기 위한 오디오 디코더는 다중-채널 디코딩을 이용하여 제 1 잔류 신호와 제 2 잔류 신호의 결합하여 인코딩된 표현에 기초하여 제 1 잔류 신호 및 제 2 잔류 신호를 제공하도록 구성된다. 오디오 디코더는 잔류-신호-보조된 다중-채널 디코딩을 이용하여 제 1 다운믹스 신호 및 제 1 잔류 신호에 기초하여 제 1 오디오 채널 신호 및 제 2 오디오 채널 신호를 제공하도록 구성된다. 오디오 디코더는 잔류-신호-보조된 다중-채널 디코딩을 이용하여 제 2 다운믹스 신호 및 제 2 잔류 신호에 기초하여 제 3 오디오 채널 신호 및 제 4 오디오 채널 신호를 제공하도록 구성된다. 오디오 인코더는 대응하는 고려사항들에 기초한다.

Description

결합하여 인코딩된 잔류 신호들을 이용하는 오디오 인코더, 오디오 디코더, 방법들 및 컴퓨터 프로그램{AUDIO ENCODER, AUDIO DECODER, METHODS AND COMPUTER PROGRAM USING JOINTLY ENCODED RESIDUAL SIGNALS}
본 발명에 따른 실시예들은 인코딩된 표현에 기초하여 상기 적어도 4개의 채널 오디오 신호를 제공하는 오디오 디코더와 관련된다.
본 발명에 따른 또 다른 실시예는 적어도 4개의 채널 오디오 신호에 기초하여 인코딩된 표현을 제공하기 위해 오디오 인코더에 관련된다.
본 발명에 따른 또 다른 실시예는 인코딩된 표현의 기준으로 적어도 4개의 오디오 채널 신호들에 기초하여 인코딩된 표현을 제공하는 방법으로, 적어도 4개의 오디오 채널 신호를 제공하기 위한 방법에 관련된다.
본 발명에 따른 또 다른 실시예는 상기 방법을 수행하는 컴퓨터 프로그램에 관련된다.
일반적으로, 본 발명에 따른 실시예는 n 채널의 조인트 코딩에 관련된다.
최근에는 오디오 컨텐트의 저장 및 전송에 대한 요구가 꾸준히 증가하고 있다. 또한, 오디오 컨텐트의 저장 및 송신에 대한 품질 요구는 꾸준히 증가되었다. 따라서, 오디오 컨텐트 및 디코딩에 대한 개념이 개선되었다. 예를 들어, 소위 "고급 오디오 코딩"(AAC)이 개발되었고, 이것은 예를 들어 국제 표준 ISO/IEC 13818-7:2003에 기술되었다. 또한, 일부 공간 확장이 생성되었고, 이것은 예를 들어, 국제 표준 ISO/IEC 23003-1:2007에 기재된 소위 "MPEG 서라운드"-개념과 같다. 또한, 오디오 신호의 공간 정보의 인코딩 및 디코딩에 대한 추가 개선은 소위 공간 오디오 객체 코딩(SAOC)과 관련되는 국제 표준 ISO/IEC 23003-2:2010에 기재된다.
또한, 양호한 코딩 효율을 갖는 일반적 오디오 신호들 및 음성 신호들을 인코딩하고, 다중-채널 오디오 신호들을 다룰 수 있는 가능성을 제공하는 유연한 오디오 인코딩/디코딩 개념은 소위 "통합형 음성 및 오디오 코딩"(USAC) 개념을 기술하는 국제 표준 ISO/IEC 23003-2:2012에 정의된다.
MPEG USAC [1]에서, 두 채널의 조인트 스테레오 코딩은 대역 제한이나 전 대역 잔류 신호를 가지고 복합 예측, MPS 2-1-1 또는 통합 스테레오를 사용하여 수행된다.
MPEG 서라운드 [2]는 잔류 신호의 전송 있거나 없이 다중-채널 오디오의 결합 코딩을 위해 OTT 및 TTT 박스를 계층적으로 조합한다.
그러나, 3차원 오디오 장면의 효율적인 인코딩 및 디코딩을 위한 더욱 진보 된 개념을 제공하는 것이 바람직하다.
본 발명에 따른 실시예는 인코딩된 표현에 기초하여 상기 적어도 4개의 채널 오디오 신호를 제공하기 위한 오디오 디코더를 생성한다. 오디오 디코더는 다중-채널 디코딩을 이용하여 제 1 잔류 신호 및 제 2 잔류 신호의 결합하여 인코딩된 표현에 기초하여 제 1 잔류 신호의 제 2 잔류 신호를 제공하도록 구성된다. 오디오 디코더는 또한 잔류-신호-보조된 다중-채널 디코딩을 이용하여 제 1 다운믹스 신호 및 제 1 잔류 신호에 기초하여 제 1 오디오 채널 신호 및 제 2 오디오 채널 신호를 제공하도록 구성된다. 오디오 디코더는 잔류-신호-보조된 다중-채널 디코딩을 이용하여 제 2 다운믹스 신호 및 제 2 잔류 신호에 기초하여 제 3 오디오 채널 신호 및 제 4 오디오 채널 신호를 제공하도록 또한 구성된다.
본 발명에 따른 이 실시예는 4개 이상의 오디오 채널 신호들 사이의 종속성이 잔류 신호들의 공동-인코딩된 표현으로부터 2개의 잔류 신호들을 유도함으로써 개발될 수 있다는 발견에 기초하는데, 잔류 신호들 각각은 잔류-신호-보조된 다중-채널 디코딩을 이용하여 2개 이상의 오디오 채널 신호를 제공하기 위해 사용된다. 즉, 전형적으로 상기 잔류 신호들의 몇 가지 유사성이 있는 것으로 밝혀졌는데, 이것은, 적어도 4개의 오디오 채널 신호를 디코딩할 때 오디오 품질을 개선하는데 도움을 주고, 이것은 다중-채널 디코딩을 이용하여 결합하여-인코딩된 표현으로부터 2개의 잔류 신호들을 도출함으로써 감소될 수 있고, 이것은 잔류 신호들 사이의 유사성 및/또는 종속성을 이용한다.
바람직한 실시예에서, 오디오 디코더는 다중-채널 디코딩을 이용하여 제 1 다운믹스 신호와 제 2 다운믹스 신호의 결합하여-인코딩된 표현에 기초하여 제 1 다운믹스 신호 및 제 2 다운믹스 신호를 제공하도록 구성된다. 따라서, 오디오 디코더의 계층적 구조가 생성되고, 적어도 4개의 오디오 채널 신호들을 제공하기 위한 잔류-신호-보조된 다중-채널 디코딩에 사용된 다운믹스 신호들 및 잔류 신호들 모두는 개별적인 다중-채널 디코딩을 이용하여 도출된다. 그러한 개념은 특히 효율적인데, 이것은 2개의 다운믹스 신호들이 일반적으로 다중-채널 인코딩/디코딩에 이용될 수 있는 유사성을 포함하고, 2개의 잔류 신호들이 일반적으로 또한 다중-채널 인코딩/디코딩에 이용될 수 있는 유사성을 포함하기 때문이다. 따라서, 일반적으로 양호한 코딩 효율이 이 개념을 이용하여 얻어질 수 있다.
바람직한 실시예에서, 오디오 디코더는 예측-기반의 다중-채널 디코딩을 이용하여 제 1 잔류 신호 및 제 2 잔류 신호의 결합하여-인코딩된 표현에 기초하여 제 1 잔류 신호 및 제 2 잔류 신호를 제공하도록 구성된다. 예측-기반의 다중-채널 디코딩의 사용은 일반적으로 잔류 신호에 대한 비교적 양호한 재구성 품질을 함께 가져온다. 이것은, 예를 들어 제 1 잔류 신호가 오디오 장면의 좌측부를 나타내고, 제 2 잔류 신호가 오디오 장면의 우측을 나타내는 경우 유리한데, 이는 인간의 청각이 일반적으로 오디오 장면의 좌측부와 우측부 사이의 차이에 대해 비교적 민감하기 때문이다.
삭제
바람직한 실시예에서, 오디오 디코더는 잔류-신호-보조된 다중-채널 디코딩을 이용하여 제 1 잔류 신호 및 제 2 잔류 신호의 결합하여-인코딩된 표현에 기초하여 제 1 잔류 신호 및 제 2 잔류 신호를 제공하도록 구성된다. 제 1 및 제 2 잔류 신호의 특히 양호한 품질은, 제 1 잔류 신호 및 제 2 잔류 신호가 다중-채널 디코딩을 이용하여 제공되는 경우 달성될 수 있으며, 이것은 잔류 신호(및 일반적으로 또한 다시 제 1 잔류 신호와 제 2 잔류 신호를 조합하는 다운믹스 신호)를 수신한다는 것이 발견되었다. 따라서, 디코딩 단계들이 연속적으로 존재하며, 거기에는 2개의 잔류 신호들(제 1 오디오 채널 신호 및 제 2 오디오 채널 신호를 제공하는데 사용되는 제 1 잔류 신호와, 제 3 오디오 채널 신호 및 제 4 오디오 채널 신호를 제공하는데 사용되는 제 2 잔류 신호)이 입력 다운믹스 신호 및 입력 잔류 신호에 기초하여 제공되며, 제 2 잔류 신호는 다른 한편으로는 제 1 잔류 신호 및 제 2 잔류 신호의 공동 잔류 신호로서 지정될 수도 있다. 따라서, 제 1 잔류 신호 및 제 2 잔류 신호는 실제로 "중간" 잔류 신호인데, 이것은 대응하는 다운믹스 신호 및 대응하는 "공통" 잔류 신호로부터 다중-채널 디코딩을 이용하여 도출된다.
바람직한 실시예에서, 예측-기반의 다중-채널 디코딩은 이전 프레임의 신호 성분을 이용하여 도출되는 신호 성분의 현재 프레임의 잔류 신호(즉, 제 1 잔류 신호 및 제 2 잔류 신호)의 제공에 기여를 기재하는 예측 파라미터를 평가하도록 구성된다. 예측-기반의 다중-채널 디코딩의 이용은 잔류 신호들(제 1 잔류 신호 및 제 2 잔류 신호)의 ㅌ그히 양호한 품질을 야기한다.
바람직한 실시예에서, 예측-기반의 다중-채널 디코딩은 (대응)다운믹스 신호 및 (대응) "공통" 잔류 신호에 기초하여 제 1 잔류 신호 및 제 2 잔류 신호를 획득하도록 구성되며, 예측-기반의 다중-채널 디코딩은 제 1 부호를 갖는 공통 잔류 신호를 적용하고, 제 1 잔류 신호를 얻고, 제 1 부호와 반대인 제 2 부호를 갖는 공통 잔류 신호를 적용하고, 제 2 잔류 신호를 얻도록 구성된다. 그러한 예측-기반의 다중-채널 디코딩이 제 1 잔류 신호 및 제 2 잔류 신호를 재구성하기 위한 양호한 효율을 야기한다는 것이 발견되었다.
바람직한 실시예에서, 변형된-이산-코사인-변환 도메인(MDCT 도메인)에서 동작하는 다중-채널 디코딩을 이용하여 제 1 잔류 신호 및 제 2 잔류 신호의 결합하여-인코딩된 표현에 기초하여 제 1 잔류 신호 및 제 2 잔류 신호를 제공하도록 오디오 디코더가 구성된다. 그러한 개념이 효율적인 방식으로 구현될 수 있는데, 이는 제 1 잔류 신호 및 제 2 잔류 신호의 결합하여-인코딩된 표현을 제공하는데 사용될 수 있는 오디오 디코딩이 바람직하게 MDCT 도메인에서 동작하기 때문이라는 것이 발견되었다. 따라서, 중간 변환들은 MDCT 도메인ㅋ에서 제 1 잔류 신호 및 제 2 잔류 신호를 제공하기 위한 다중-채널 디코딩을 적용함으로써 회피될 수 있다.
바람직한 실시예에서, 오디오 디코더는 USAC 복합 스테레오 예측(예를 들어, 전술한 USAC 표준에 언급된)을 이용하여 제 1 잔류 신호 및 제 2 잔류 신호의 결합하여-인코딩된 표현에 기초하여 제 1 잔류 신호 및 제 2 잔류 신호를 제공하도록 구성된다. 그러한 USAC 복합 스테레오 예측이 제 1 잔류 신호 및 제 2 잔류 신호의 디코딩을 위핸 양호한 결과를 야기한다는 것이 발견되었다. 또한, 제 1 잔류 신호 및 제 2 잔류 신호의 디코딩에 대한 USAC 복합 스테레오 예측의 이용은 통합-음성-및-오디오 코딩(USAC)에 이미 이용가능한 디코딩 블록들을 이용하여 개념의 간단한 구현을 허용한다. 따라서, 통합형-음성-및-오디오 코딩 디코더는 여기에 논의된 디코딩 개념을 수행하도록 쉽게 재구성될 수 있다.
바람직한 실시예에서, 오디오 디코더는 파라미터-기반의 잔류-신호-보조된 다중-채널 디코딩을 이용하여 제 1 다운믹스 신호 및 제 1 잔류 신호에 기초하여 제 1 오디오 채널 신호 및 제 2 오디오 채널 신호를 제공하도록 구성된다. 유사하게, 오디오 디코더는 파라미터-기반의 잔류-신호-보조된 다중-채널 디코딩을 이용하여 제 2 다운믹스 신호 및 제 2 잔류 신호에 기초하여 제 3 오디오 채널 신호 및 제 4 오디오 채널 신호를 제공하도록 구성된다. 그러한 다중-채널 디코딩이 제 1 다운믹스 신호, 제 1 잔류 신호, 제 2 다운믹스 신호 및 제 2 잔류 신호에 기초하여 오디오 채널 신호의 도출에 매우 적합하다는 것이 발견되었다. 또한, 그러한 파라미터-기반의 잔류-신호-보조된 다중-채널 디코딩이 일반적인 다중-채널 오디오 디코더에이미 존재하는 처리 블록을 이용하여 작은 노력으로 구현될 수 있다는 것이 발견되었다.
바람직한 실시예에서, 파라미터-기반의 잔류-신호 보조된 다중-채널 디코딩은 각 다운믹스 신호 및 각 대응하는 잔류 신호에 기초하여 2개 이상의 오디오 채널 신호들을 제공하기 위해 2개의 채널들 사이의 원하는 상관 및/또는 2개의 채널들 사이의 레벨 차이들을 설명하는 하나 이상의 파라미터들을 평가하도록 구성된다. 그러한 파라미터-기반의 잔류-신호-보조된 다중-채널 디코딩이 케스케이드형(cascaded) 다중-채널 디코딩의 제 2 스테이지에 매우 적합하다(바람직하게, 제 1 및 제 2 다운믹스 신호 및 제 1 및 제 2 잔류 신호는 예측-기반의 다중-채널 디코딩을 이요하여 제공된다)는 것이 발견되었다.
바람직한 실시예에서, 오디오 디코더는 QMF 도메인에서 동작하는 잔류-신호-보조된 다중-채널 디코딩을 이용하여 제 1 다운믹스 신호 및 제 1 잔류 신호에 기초하여 제 1 오디오 채널 신호 및 제 2 오디오 채널 신호를 제공하도록 구성된다. 유사하게, 오디오 디코더는 QMF 도메인에서 동작하는 잔류-신호-보조된 다중-채널 디코딩을 이용하여 제 2 다운믹스 신호 및 제 2 잔류 신호에 기초하여 제 3 오디오 채널 신호 및 제 4 오디오 채널 신호를 제공하도록 구성된다. 따라서, 계층적 다중-채널 디코딩의 제 2 스테이지는 QMF 도메인에서 동작하고, 이것은 일반적인 후치-처리에 매우 적합하고, 이것은 종종 QMF 도메인에서 수행되어, 중간 변환들이 회피될 수 있다.
바람직한 실시예에서, 오디오 디코더는 MPEG 서라운드 2-1-2 디코딩 또는 통합형 스테레오 디코딩을 이용하여 제 1 다운믹스 신호 및 제 1 잔류 신호에 기초하여 제 1 오디오 채널 신호 및 제 2 오디오 채널 신호를 제공하도록 구성된다. 유사하게, 오디오 디코더는 MPEG 서라운드 2-1-2 디코딩 또는 통합형 스테레오 디코딩을 이용하여 제 2 다운믹스 신호 및 제 2 잔류 신호에 기초하여 제 3 오디오 채널 신호 및 제 4 오디오 채널 신호를 제공하도록 구성된다. 이러한 디코딩 개념들은 계층적 디코딩의 제 2 스테이지에 대하여 특히 잘-적합화된다는 것이 발견되었다.
바람직한 실시예에서, 제 1 잔류 신호 및 제 2 잔류 신호는 오디오 장면의 상이한 수평 위치들(또는, 동등하게 방위각-위치들과 연관된다. 계층적 다중-채널 처리의 제 1 스테이지에서 상이한 수평 위치들(또는 방위각 위치들)과 연관되는 잔류 신호를 분리하는 것이 특히 유리한데, 이는 지각적으로 중요한 좌측/우측 분리가 계층적 다중-채널 디코딩의 제 1 스테이지에서 수행되는 경우 특히 양호한 청취 인상이 얻어질 수 있기 때문이라는 것이 발견되었다.
바람직한 실시예에서, 제 1 오디오 채널 신호 및 제 2 채널 신호는 오디오 장면의 수직적 이웃 위치(또는 동등하게, 오디오 장면의 이웃 앙각 위치들을 갖는)와 연관된다. 또한, 제 3 오디오 채널 신호 및 제 4 오디오 채널 신호는 바람직하게 오디오 장면의 수직적 이웃 위치(또는 동등하게, 오디오 장면의 이웃 앙각 위치들을 갖는)와 연관된다. 상부와 하부 신호 사이의 분리가 계층적 오디오 디코더(일반적으로 제 1 스테이지보다 약간 더 작은 분리 정밀도를 포함)의 제 2 스테이지에서 수행되는 경우 양호한 디코딩 결과가 달성될 수 있는데, 이는 인간 청취 시스템이 오디오 소스의 수평 위치에 비해 오디오 소스의 수직 위치에 대해 덜 민감하기 때문이라는 것이 발견되었다.
바람직한 실시예에서, 제 1 오디오 채널 신호 및 제 2 오디오 채널 신호는 오디오 장면의 제 1 수평 위치들(또는 동등하게, 방위각 위치)과 연관되고, 제 3 오디오 채널 신호 및 제 4 오디오 채널 신호는 제 1 수평 위치(또는 동등하게, 방위각 위치)와 상이한 오디오 장면의 제 2 수평 위치(또는 동등하게 방위각 위치)와 연관된다.
바람직한 실시예에서, 제 1 잔류 신호는 오디오 장면의 좌측부와 연관되고, 제 2 잔류 신호는 오디오 장면의 우측부와 연관된다. 따라서, 좌측부 분리는 계층적 오디오 디코딩의 제 1 스테이지에서 수행된다.
바람직한 실시예에서, 제 1 오디오 채널 신호 및 제 2 오디오 채널 신호는 오디오 장면의 좌측부와 연관되고, 제 3 오디오 채널 신호 및 제 4 오디오 채널 신호는 오디오 장면의 우측부와 연관된다.
다른 바람직한 실시예에서, 제 1 오디오 채널 신호는 오디오 장면의 하부 좌측부와 연관되고, 제 2 오디오 채널 신호는 오디오 장면의 상부 좌측부와 연관되고, 제 3 오디오 채널 신호는 오디오 장면의 하부 우측부와 연관되고, 제 4 오디오 채널 신호는 오디오 장면의 상부 우측부와 연관된다. 오디오 채널 신호의 그러한 연관은 특히 양호한 코딩 결과들을 야기한다.
바람직한 실시예에서, 오디오 디코더는 다중-채널 디코딩을 이용하여 제 1 다운믹스 신호 및 제 2 다운믹스 신호의 결합하여-인코딩된 표현에 기초하여 제 1 다운믹스 신호 및 제 2 다운믹스 신호를 제공하도록 구성되고, 제 1 다운믹스 신호는 오디오 장면의 좌측부와 연관되고, 제 2 다운믹스 신호는 오디오 장면의 우측부와 연관된다. 다운믹스 신호들이 오디오 장면의 상이한 측부들과 연관되더라도, 다중-채널 코딩을 이용하여 양호한 코딩 효율로 다운믹스 신호들이 인코딩될수 있다는 것이 발견되었다.
바람직한 실시예에서, 오디오 디코더는 예측-기반의 다중-채널 디코딩 또는 심지어 잔류-신호-보조된 예측-기반의 다중-채널 디코딩을 이용하여 제 1 다운믹스 신호 및 제 2 다운믹스 신호의 결합하여-인코딩된 표현에 기초하여 제 1 다운믹스 신호 및 제 2 다운믹스 신호를 제공하도록 구성된다. 그러한 다중-채널 디코딩 개념들의 이용이 특히 양호한 디코딩 결과를 제공하는 것이 발견되었다. 또한, 기존의 디코딩 기능들은 몇몇 오디오 디코더들에서 재사용될 수 있다.
바람직한 실시예에서, 오디오 디코더는 제 1 오디오 채널 신호 및 제 3 오디오 채널 신호에 기초하여 제 1 다중-채널 대역폭 확장을 수행하도록 구성된다. 또한, 오디오 디코더는 제 2 오디오 채널 신호 및 제 4 오디오 채널 신호에 기초하여 제 2 (일반적으로 개별적인) 다중-채널 대역폭 확장을 수행하도록 구성된다. 오디오 장면의 상이한 측부들과 연관되는 2개의 오디오 채널 신호들에 기초하여 가능한 대역폭 확장을 수행하는 것이 유리하다(상이한 잔류 신호들은 일반적으로 오디오 장면의 상이한 측부들과 연관된다)는 것이 발견되었다.
바람직한 실시예에서, 제 1 오디오 채널 신호 및 제 3 오디오 채널 신호 및 하나 이상의 대역폭 확장 파라미터들에 기초하여 오디오 장면의 제 1 공통 수평 평면(또는 동등하게, 제 1 공통 앙각)과 연관된 2개 이상의 대역폭-확장된 오디오 채널 신호들을 얻기 위해 제 1 다중-채널 대역폭 확장을 수행하도록 구성된다. 또한, 오디오 디코더는 제 2 오디오 채널 신호 및 제 4 오디오 채널 신호 및 하나 이상의 대역폭 확장 파라미터들에 기초하여 오디오 장면의 제 2 공통 수평 평면(또는 동등하게, 제 2 공통 앙각)과 연관된 2개 이상의 대역폭-확장된 오디오 채널 신호들을 얻기 위해 제 2 다중-채널 대역폭 확장을 수행하도록 구성된다. 그러한 디코딩 구성이 양호한 오디오 품질을 초래하는데, 이는 다중-채널 대역폭 확장이 그러한 배치에서 청취 인상에 대해 중요한 스테레오 특징들을 고려할 수 있다는 것이 발견되었다.
바람직한 실시예에서, 제 1 잔류 신호 및 제 2 잔류 신호의 결합하여-인코딩된 표현은 제 1 및 제 2 잔류 신호의 공통 잔류 신호 및 제 1 및 제 2 잔류 신호의 다운믹스 신호를 포함하는 채널 쌍 엘리먼트를 포함한다. 채널 쌍 엘리먼트를 이용하여 제 1 및 제 2 잔류 신호의 공통 잔류 신호 및 제 1 및 제 2 잔류 신호의 다운믹스 신호의 인코딩이 유리한데, 이는 제 1 및 제 2 잔류 신호의 다운믹스 신호와 제 1 및 제 2 잔류 신호의 공통 잔류 신호가 일반적으로 다수의 특징들을 공유한다는 것이 발견되었다. 따라서, 채널 쌍 엘리먼트의 이용은 일반적으로 신호 발신 오버헤드를 감소시키고, 그 결과 유효 인코딩을 허용한다.
다른 바람직한 실시예에서, 오디오 디코더는 다중-채널 디코딩을 이용하여 제 1 다운믹스 신호 및 제 2 다운믹스 신호의 결합하여-인코딩된 표현에 기초하여 제 1 다운믹스 신호 및 제 2 다운믹스 신호를 제공하도록 구성되고, 제 1 다운믹스 신호 및 제 2 다운믹스 신호의 결합하여-인코딩된 표현은 채널 쌍 엘리먼트를 포함한다. 채널 쌍 엘리먼트는 제 1 및 제 2 다운믹스 신호의 다운믹스 신호 및 제 1 및 제 2 다운믹스 신호의 공통 잔류 신호를 포함한다. 이 실시예는 전술한 실시예와 동일한 고려사항에 기초한다.
본 발명에 따른 다른 실시예는 적어도 4개의 오디오 채널 신호에 기초하여 인코딩된 표현을 제공하기 위한 오디오 인코더를 생성한다. 오디오 인코더는 제 1 다운믹스 신호 및 제 1 잔류 신호를 얻기 위해 잔류-신호-보조된 다중-채널 인코딩을 이용하여 적어도 제 1 오디오 채널 신호 및 제 2 오디오 채널 신호를 결합하여 인코딩하도록 구성된다. 오디오 인코더는 제 2 다운믹스 신호 및 제 2 잔류 신호를 얻기 위해 잔류-신호-보조된 다중-채널 인코딩을 이용하여 적어도 제 3 오디오 채널 신호 및 제 4 오디오 채널 신호를 결합하여 인코딩하도록 구성된다. 더욱이, 오디오 인코더는 잔류 신호의 결합하여-인코딩된 표현을 얻기 위해 다중-채널 인코딩을 이용하여 제 1 잔류 신호 및 제 2 잔류 신호를 결합하여 인코딩하도록 구성된다. 이러한 오디오 인코더는 전술한 오디오 디코더와 동일한 고려사항에 기초한다.
더욱이, 이러한 오디오 인코더의 선택적 개선들, 및 오디오 인코더의 바람직한 구성들은 전술한 오디오 디코더의 개선 및 바람직한 구성과 실질적으로 평행하다. 따라서, 상기 논의에 대해 참조가 이루어진다.
본 발명에 따른 다른 실시예는 인코딩된 표현에 기초하여 적어도 4개의 오디오 채널 신호를 제공하기 위한 방법을 생성하고, 이것은 전술한 오디오 인코더의 기능을 실질적으로 수행하고, 전술한 임의의 특징들 및 기능들에 의해 보완될 수 있다.
본 발명에 따른 다른 실시예는 적어도 4개의 오디오 채널 신호에 기초하여 인코딩된 표현을 제공하기 위한 방법을 생성하고, 이것은 전술한 오디오 디코더의 기능을 실질적으로 충족시킨다.
본 발명에 따른 다른 실시예는 전술한 방법들을 수행하기 위한 컴퓨터 프로그램을 생성한다.
본 발명에 따른 실시예들은 후속하여 첨부된 도면들을 고려하여 기재될 것이다.
도 1은 본 발명의 실시예에 따른 오디오 인코더의 개략적인 블록도.
도 2는 본 발명의 실시예에 따른 오디오 디코더의 개략적인 블록도.
도 3은 본 발명의 또 다른 실시예에 따른 오디오 디코더의 개략적인 블록도.
도 4는 본 발명의 실시예에 따른 오디오 인코더의 개략적인 블록도.
도 5는 본 발명의 실시예에 따른 오디오 디코더의 개략적인 블록도.
도 6은 본 발명의 또 다른 실시예에 따른 오디오 디코더의 개략적인 블록도.
도 7은 본 발명의 실시예에 따라 적어도 4개의 오디오 채널 신호들에 기초하여 인코딩된 표현을 제공하기 위한 방법의 흐름도.
도 8은 본 발명의 실시예에 따라 인코딩된 표현에 기초하여 적어도 4개의 채널 오디오 신호들을 제공하기 위한 방법의 흐름도.
도 9는 본 발명의 실시예에 따라 적어도 4개의 채널 오디오 신호에 기초하여 인코딩된 표현을 제공하기 위한 방법의 흐름도.
도 10은, 본 발명의 실시예에 따라 인코딩된 표현에 기초하여 적어도 4개의 오디오 채널 신호를 제공하기 위한 방법의 흐름도.
도 11은 본 발명의 실시예에 따른 오디오 인코더의 개략적인 블록도.
도 12는 본 발명의 다른 실시예에 따른 오디오 인코더의 개략적인 블록도.
도 13은 본 발명의 실시예에 따른 오디오 디코더의 개략적인 블록도.
도 14a는 도 13에 따른 오디오 인코더에 사용될 수 있는 비트 스트림의 구문표현을 도시한 도면.
도 14b는 파라미터 qceIndex의 상이한 값들의 테이블을 도시한 도면.
도 15는 본 발명에 따른 개념이 사용될 수 있는 3D 오디오 인코더의 개략적 인블록도.
도 16은 본 발명에 따른 개념이 사용될 수 있는 3D 오디오 디코더의 개략적인 블록도.
도 17은 포맷 변환기의 개략적인 블록도.
도 18은 본 발명의 실시예에 따른 쿼드 채널 요소(QCE)의 토폴로지컬(topological) 구조를 도시한 도면.
도 19는 본 발명의 실시예에 따른 오디오 디코더의 개략적인 블록도.
도 20은 본 발명의 실시예에 따른 QCE 디코더의 상세한 개략적인 블록도.
도 21은 본 발명의 실시예에 따른 쿼드 채널 인코더의 상세한 개략적인 블록도.
1. 도 1에 따른 오디오 인코더
도 1은 100으로 전체적으로 표시되는 오디오 인코더의 개략적인 블록도를 도시한다. 오디오 인코더(100)는 적어도 4개의 오디오 채널 신호들에 기초하여 인코딩된 표현을 제공하도록 구성된다. 오디오 인코더(100)는 제 1 오디오 채널 신호 (110), 제 2 오디오 채널 신호(112), 제 3 오디오 채널 신호(114) 및 제 4 오디오 채널 신호(116)를 수신하도록 구성된다. 또한, 오디오 인코더(100)는 제 1 다운믹스 신호(120)와 제 2 다운믹스 신호(122)뿐만 아니라, 잔류 신호의 결합하여 인코딩된 표현(130)을 제공하도록 구성된다. 오디오 인코더(100)는 제 1 다운믹스 신호(120) 및 제 1 잔류 신호(142)를 얻기 위해 잔류-신호-보조된 다중-채널 인코딩을 사용하여 제 1 오디오 채널 신호(110) 및 제 2 오디오 채널 신호 (112)를 결합하여-인코딩하도록 구성된 잔류-신호-보조된 다중-채널 인코더(140)을 포함한다. 오디오 인코더(100)는 제 2 다운믹스 신호(122) 및 제 2 잔류 신호(152)를 얻기 위해 잔류-신호-보조된 다중-채널 인코딩을 사용하여 적어도 제 3 오디오 채널 신호(114) 및 제 4 오디오 채널 신호(116)를 결합하여-인코딩하도록 구성된 잔류-신호-보조된 다중-채널 인코더(150)를 또한 포함한다. 오디오 디코더(100)는 잔류 신호(142, 152)의 결합하여 인코딩된 표현(130)을 얻기 위해 제 1 잔류 신호(142) 및 제 2 잔류 신호(152)를 결합하여 인코딩하도록 구성된 다중-채널 인코더(160)를 또한 포함한다.
오디오 인코더(100)의 기능에 관해서는, 오디오 인코더(100)는 계층적 인코딩을 수행하고, 제 1 오디오 채널 신호(110) 및 제 2 오디오 채널 신호(112)가 잔류-신호-보조된 다중-채널 인코딩(140)을 이용하여 결합하여-인코딩되고, 제 1 다운믹스 신호(120) 및 제 2 잔류 신호(142) 모두가 제공되는 것이 주지되어야 한다. 제 1 잔류 신호(142)는, 예를 들어, 제 1 오디오 채널 신호(110)와 제 2 오디오 채널 신호(112) 사이의 차이를 설명할 수 있고, 및/또는 잔류-신호-보조된 다중-채널 인코더(140)에 의해 제공될 수 있는 제 1 다운믹스 신호(120) 및 선택적인 파라미터에 의해 표현될 수 없다. 바꾸어 말하면, 제1 잔류 신호(142)는, 잔류-신호-보조된 다중-채널 인코더(140)에 의해 제공될 수 있는 임의의 가능한 파라미터 및 제 1 다운믹스 신호(120)에 기초하여 얻어질 수 있는 디코딩 결과의 개정을 허용하는 잔류 신호일 수 있다. 예를 들어, 제 1 잔류 신호(142)는 고레벨 신호 특징(예를 들어, 상관 특징, 컨베리언스 특징, 레벨 차이 특징 등과 같은)의 드문 재구성에 비해 오디오 디코더의 측에서 제 1 오디오 채널 신호(110) 및 제 2 오디오 채널 신호(112)의 적어도 부분 파형 재구성을 허용할 수 있다. 마찬가지로, 잔류-신호-보조된 다중-채널 인코더(150)는 제 3 오디오 채널 신호 (114) 및 제 4 오디오 채널 신호(116)에 기초하여 제 2 다운믹스 신호(122) 및 제 2 잔류 신호(152) 모두를 제공하여, 제 2 잔류 신호는 오디오 디코더 측에서 제 3 오디오 채널 신호(114) 및 제 4 오디오 채널 신호(116)의 신호 재구성의 개정을 허용한다. 제 2 잔류 신호 (152)는 결과적으로 제 1 잔류 신호(142)와 동일한 기능을 작용한다. 하지만, 오디오 채널 신호(110, 112, 114, 116)가 몇몇 상관을 포함하면, 제 1 잔류 신호(142) 및 제 2 잔류 신호(152)는 또한 통상적으로, 어느 정도 상관된다. 따라서, 다중-채널 인코더(160)를 이용하여 제 1 잔류 신호(142) 및 제 2 잔류 신호(152)의 결합 인코딩은 일반적으로 높은 효율을 포함하는데, 이는 상관된 시호의 다중-채널 인코딩이 일반적으로 종속성을 이용함으로써 비트율을 감소시키기 때문이다. 그 결과 제 1 잔류 신호(142) 및 제 2 잔류 신호(152)는 양호한 정밀도로 인코딩될 수 있는 한편, 잔류 신호의 결합하여-인코딩된 표현(130)의 비트율을 비교적 적게 유지한다.
요약하면, 도 1에 따른 실시예는 계층적 다중-채널 인코딩을 제공하고, 양호한 재생 품질은 잔류-신호-보조된 다중-채널 인코더(140, 150)를 이용함으로써 달성될 수 있고, 비트율 요구는 제 1 잔류 신호(142) 및 제 2 잔류 신호(152)를 결합하여-인코딩함으로써 일정하게 유지될 수 있다.
오디오 인코더(100)의 또 다른 선택적인 개선이 가능하다. 이러한 개선 중 일부는 도 4, 도 11 및 도 12를 참조하여 설명된다. 그러나, 오디오 인코더(100)는 본원에 기재된 오디오 디코더와 병렬로 적응될 수 있고, 오디오 디코더의 기능이 오디오 디코더의 기능과 반대인 것이 주지되어야 한다.
2. 도 2에 따른 오디오 디코더
도 2는 200으로 전체가 지정된 오디오 디코더의 개략적인 블록도를 도시한다.
오디오 디코더(200)는 제 1 잔류 신호 및 제 2 잔류 신호의 결합하여-인코딩된 표현(210)를 포함하는 인코딩된 표현을 수신하도록 구성된다. 오디오 디코더(200)는 또한 제 1 다운믹스 신호(212) 및 제 2 다운믹스 신호(214)의 표현을 수신한다. 오디오 디코더(200)는 제 1 오디오 채널 신호(220), 제 2 오디오 채널 신호(222), 제 3 오디오 채널 신호(224) 및 제 4 오디오 채널 신호(226)를 제공하도록 구성된다.
오디오 디코더(200)는 제 1 잔류 신호(232) 및 제 2 잔류 신호(232)의 결합하여-인코딩된 표현(210)에 기초하여 제 1 잔류 신호(232) 및 제 2 잔류 신호(234)를 제공하도록 구성되는 다중-채널 디코더(230)를 포함한다. 오디오 디코더(200)는 다중-채널 디코딩을 이용하여 제 1 다운믹스 신호(212) 및 제 1 잔류 신호(232)에 기초하여 제 1 오디오 채널 신호(220) 및 제 2 오디오 채널 신호(222)를 제공하도록 구성된 (제1) 잔류-신호-보조된 댜중-채널 디코더(240)를 포함한다. 오디오 디코더(200)는 또한 제 2 다운믹스 신호(214) 및 제 2 잔류 신호(234)에 기초하여 제 3 오디오 채널 신호(224) 및 제 4 오디오 채널 신호(226)를 제공하도록 구성되는 (제 2) 잔류-신호-보조된 다중-채널 디코더(250)를 포함한다.
오디오 디코더(200)의 기능에 관해서, 오디오 신호 디코더(200)가 (제 1) 공통 잔류-신호-보조된 다중-채널 디코딩(240)에 기초하여 제 1 오디오 채널 신호(220) 및 제 2 오디오 채널 신호(222)를 제공하고, 다중-채널 디코딩의 디코딩 품질이 제 1 잔류 신호(232)(비-잔류-신호-보조된 디코딩에 비해)에 의해 증가된다는 것이 주지되어야 한다. 즉, 제 1 다운믹스 신호(212)는 제 1 오디오 채널 신호(220) 및 제 2 오디오 채널 신호(222)에 대한 "거친" 정보를 제공하며, 예를 들어, 제 1 오디오 채널 신호(220) 및 제 2 오디오 채널 신호(222) 사이의 차이가 잔류-신호-보조된 다중-채널 디코더(240) 및 제 1 잔류 신호(232)에 의해 수신될 수 있는 (선택적) 파라미터들에 의해 기재될 수 있다. 따라서, 제 1 잔류 신호(232)는, 예를 들어, 제 1 오디오 채널 신호(220) 및 제 2 오디오 채널 신호(222)의 부분 파형 재구성을 허용할 수 있다.
유사하게, (제 2) 잔류-신호-보조된 다중-채널 디코더(250)는 제 2 다운믹스 신호(214)에 기초하여 제 4 음성 채널 신호(226)에 3 오디오 채널 신호(224)를 제공하고, 제 2 다운믹스 신호(214)는, 예를 들면 제 3 오디오 채널 신호(224) 및 제 4 음성 채널 신호(226)를 "거칠게(coarsely)" 설명할 수 있다. 또한, 제 3 오디오 채널 신호(224)와 제 4 오디오 채널 신호(226) 사이의 차이는, 예를 들면, (선택적) 파라미터에 의해 기술될 수 있고, 이것은 (제 2) 잔류-신호-보조된 다중-채널 디코더(250) 및 제 2 잔류 신호(234)에 의해 수신될 수 있다. 따라서, 제 2 잔류 신호(234)의 평가는 예를 들어 제 3 오디오 채널 신호(224) 및 제 4 오디오 채널 신호(226)의 부분 파형 재구성을 허용할 수 있다. 따라서, 제 2 잔류 신호(234)는 제 3 오디오 채널 신호(224) 및 제 4 오디오 채널 신호(226)의 재구성의 품질의 개선을 허용할 수 있다.
그러나, 제 1 잔류 신호(232) 및 제 2 잔류 신호(234)는 제 1 잔류 신호 및 제 2 잔류 신호의 결합하여-인코딩된 표현(210)으로부터 도출된다. 다중-채널 디코더(230)에 의해 수행되는 이러한 다중-채널 디코딩은 높은 디코딩 효율을 허용하는데, 이는 제 1 오디오 채널 신호(220), 제 2 오디오 채널 신호(222), 제 3 오디오 채널 신호(224) 및 제 4 오디오 채널 신호(226)가 일반적으로 유사하거나 "상관"되기 때문이다. 따라서, 제 1 잔류 신호(232) 및 제 2 잔류 신호(234)는 일반적으로 유사하거나 "상관"되는데, 이것은 다중-채널 디코딩을 이용하여 결합하여-인코딩된 표현(210)으로부터 제 1 잔류 신호(232) 및 제 2 잔류 신호(234)를 도출함으로써 이용될 수 있다.
결과적으로, 이들의 결합하여-인코딩된 표현(210)에 기초하여 잔류 신호들 (232, 234)을 디코딩하여, 그리고 2개 이상의 오디오 채널 신호들의 디코딩에 대한 잔류 신호 각각을 사용하여, 적절한 비트 레이트로 높은 디코딩 품질을 얻을 수 있다.
결론적으로, 오디오 디코더(200)는 고품질 오디오 채널 신호들(220, 222, 224, 226)을 제공함으로써 높은 인코딩 효율을 허용한다.
오디오 디코더(200)에 선택적으로 구현될 수 있는 추가적인 특징 및 기능들이 도 3, 5, 6 및 13을 참조하여 후속하여 기재될 것임이 주지되어야 한다. 그러나, 오디오 인코더(200)는 임의의 추가 변형 없이 전술한 이점을 포함할 수 있음이 주지되어야 한다.
3. 도 3에 따른 오디오 디코더
도 3은 본 발명의 다른 실시예에 따른 오디오 디코더의 개략적인 블록도를 도시한다. 도 3의 오디오 디코더는 300으로서 전체적으로 지정된다. 오디오 디코더(300)는 도 2에 따른 오디오 디코더(200)와 유사하여, 상기 설명들이 또한 적용된다. 하지만, 다음에 설명되는 바와 같이, 오디오 디코더(200)에 비해 오디오 디코더(300)는 추가적인 특징 및 기능으로 보완된다.
오디오 디코더(300)는 제 1 잔류 신호 및 제 2 잔류 신호의 결합하여-인코딩된 표현(310)을 수신하도록 구성된다. 또한, 오디오 디코더(300)는 제 1 다운믹스 신호 및 제 2 다운믹스 신호의 결합하여-인코딩된 표현(360)을 수신하도록 구성된다. 또한, 오디오 디코더(300)는 제 1 오디오 채널 신호(320), 제 2 오디오 채널 신호(322), 제 3 오디오 채널 신호(324) 및 제 4 오디오 채널 신호(326)를 제공하도록 구성된다. 오디오 디코더(300)는 다중-채널 디코더(330)를 포함하는데, 다중-채널 디코더(330)는 제 1 잔류 신호 및 제 2 잔류 신호의 결합하여-인코딩된 표현(310)을 수신하고, 이에 기초하여 제 1 잔류 신호(332) 및 제 2 잔류 신호(334)를 제공하도록 구성된다. 오디오 디코더(300)는 또한 제 1 잔류 신호(332) 및 제 1 다운믹스 신호(312)를 수신하고, 제 1 오디오 채널 신호(320) 및 제 2 오디오 채널 신호(322)를 제공하는 (제 1) 잔류-신호-보조된 다중-채널 디코더(340)를 또한 포함한다. 오디오 디코더(300)는 또한 제 2 잔류 신호(334) 및 제 2 다운믹스 신호(314)를 수신하고, 제 3 오디오 채널 신호(324) 및 제 4 오디오 채널 신호(326)를 제공하도록 구성되는 (제 2) 잔류-신호-보조된 다중-채널 디코더(350)를 또한 포함한다.
오디오 디코더(300)는 또한 제 1 다운믹스 신호 및 제 1 다운믹스 신호의 결합하여-인코딩된 표현(360)을 수신하고, 이에 기초하여 제 1 다운믹스 신호(312) 및 제 2 다운믹스 신호(314)를 제공하도록 구성된 다른 다중-채널 디코더(370)을 또한 포함한다.
이하에서, 오디오 디코더(300)의 일부 추가 특정 세부사항들이 설명될 것이다. 그러나, 실제 오디오 디코더는 이러한 모든 추가 특징 및 기능들의 조합을 구현할 필요가 없다는 것을 주목해야 한다. 오히려, 이하에 설명된 특징과 기능이 오디오 디코더(200)(또는 임의의 다른 오디오 디코더)를 점차 개선하기 위해, 오디오 디코더(200)(또는 임의의 다른 오디오 디코더)에 개별적으로 추가될 수 있다.
바람직한 실시예에서, 오디오 디코더(300)는 제 1 잔류 신호 및 제 2 잔류 신호의 결합하여-인코딩된 표현(310)을 수신하고, 결합하여-인코딩된 표현(310)은 제1 잔류 신호(332) 및 제 2 잔류 신호(334)의 다운믹스 신호 및 제 1 잔류 신호(332) 및 제 2 잔류 신호(334)의 공통 잔류 신호를 포함할 수 있다. 더욱이, 결합하여-인코딩된 표현(310)은 예를 들어 하나 이상의 예측 파라미터들을 포함할 수 있다. 따라서, 다중-채널 디코더(330)는 예측-기반, 잔류-신호-보조된 다중-채널 디코더일 수 있다. 예를 들어, 다중-채널 디코더(330)는 국제 표준 ISO/IEC 23003-3:2012의 섹션 "복합 스테레오 예측"에서 기재된 바와 같이 USAC 복합 스테레오 예측일 수 있다. 예를 들어, 다중-채널 디코더(330)는 이전 프레임의 신호 성분을 이용하여 도출되는 신호 성분의 현재 프레임에 대한 제 1 잔류 신호(332) 및 제 2 잔류 신호(334)의 제공으로의 기여를 기재하는 예측 파라미터를 평가하도록 구성될 수 있다. 또한, 다중-채널 디코더(330)는 제 1 부호를 갖는 공통 잔류 신호{결합하여 인코딩된 표현(310)에 포함됨}를 적용하고, 제 1 잔류 신호(332)를 획득하고, 제 1 부호와 반대인 제 2 부호를 갖는 공통 잔류 신호{결합하여-인코딩된 표현(310)에 포함됨}를 적용하고, 제 2 잔류 신호(334)를 얻도록 구성될 수 있다. 따라서, 공통 잔류 신호는 적어도 부분적으로 제 1 잔류 신호(332)와 제 2 잔류 신호(334) 사이의 차이를 기재할 수 있다. 하지만, 다중-채널 디코더(330)는 다운믹스 신호, 공통 잔류 신호 및 하나 이상의 예측 파라미터들을 평가할 수 있고, 이들은 모두 결합하여-인코딩된 표현(310)에 포함되어, 전술한 국제 표준 ISO/IEC 23003-2012에 기재된 바와 같이 제 1 잔류 신호(332) 및 제 2 잔류 신호(334)를 얻는다. 더욱이, 제 1 잔류 신호(332)는 제 1 수평 위치(또는 방위각 위치), 예를 들어, 좌측 수평 위치와 연관될 수 있고, 제 2 잔류 신호(334)는 오디오 장면의 제 2 수평 위치(또는 방위각 위치), 예를 들어, 우측 수평 위치와 연관될 수 있다는 것이 주지되어야 한다.
삭제
제 1 다운믹스 신호와 제 2 다운믹스 신호의 결합하여- 인코딩된 표현 (360)은 바람직하게 제 1 다운믹스 신호 및 제 2 다운믹스 신호의 다운믹스 신호와, 제 1 다운믹스 신호 및 제 2 다운믹스 신호의 공통 잔류 신호, 및 하나 이상의 예측 파라미터들을 포함한다. 즉, 제 1 다운믹스 신호(312) 및 제 2 다운믹스 신호(314)가 다운믹싱되는 "공통" 다운믹스 신호가 존재하고, 적어도 부분적으로, 제 1 다운믹스 신호(312)와 제 2 다운믹스 신호(314) 사이의 차이를 기재할 수 있는 "공통" 잔류 신호가 존재한다. 다중-채널 디코더(370)는 바람직하게는 예측-기반의, 잔류-신호-보조된 다중-채널 디코더, 예를 들어, 복합 USAC 스테레오 예측 디코더이다. 즉, 제 1 다운믹스 신호(312) 및 제 2 다운믹스 신호(314)를 제공하는 다중-채널 디코더(370)는, 다중-채널 디코더(330)와 실질적으로 동일할 수 있고, 이것은 제 1 잔류 신호(332) 및 제 2 잔류 신호(334)를 제공하여, 상기 설명 및 참조가 또한 적용된다. 또한, 제 1 다운믹스 신호(312)는 바람직하게 오디오 장면의 제 1 수평 위치 또는 방위각 위치(예를 들어 좌측 수평 위치 또는 방위각 위치)와 연관되고, 제 2 다운믹스 신호(314)는 오디오 장면의 제 2 수평 위치 또는 방위각 위치(예를 들어, 우측 수평 위치 또는 방위각 위치)와 연관되는 것이 주지되어야 한다. 따라서, 제 1 다운믹스 신호(312) 및 제 1 잔류 신호(332)는 동일한 제 1 수평 위치 또는 방위각 위치(예를 들어 좌측 수평 위치)와 연관될 수 있고, 제 2 다운믹스 신호(314) 및 제 2 잔류 신호(334)는 동일한 제 2 수평 위치 또는 방위각 위치(예를 들어 우측 수평 위치)와 연관될 수 있다. 따라서, 다중-채널 디코더(370) 및 다중-채널 디코더(330) 모두가 수평 분할(또는 수평 분리 또는 수평 분포)를 수행할 수 있다.
잔류-신호-보조된 다중-채널 디코더(340)는 바람직하게는 파라미터에 기초할 수 있고, 결과적으로 2개의 채널{예를 들어, 제 1 오디오 채널 신호(320)와 제 2 오디오 채널 신호(322) 사이} 사이의 원하는 상관 및/또는 상기 2개의 채널들 사이의 레벨 차이를 기재하는 하나 이상의 파라미터들(342)을 수신할 수 있다. 예를 들어, 잔류-신호-보조된 다중-채널 디코딩(340)은 잔류 신호 확장 또는 "통합형 스테레오 디코딩" 디코더를 갖는 MPEG-Srround 코딩{예를 들어, ISO/IEC 23003-1:2007에 기재된 바와 같이)에 기초할 수 있다{예를 들어, ISO/IEC 23003-3, 챕터 7.11 (디코더) 및 Annex B.21(인코더의 설명 및 용어 "통합형 스테레오"의 정의)에 기재됨}. 따라서, 잔류-신호-보조된 다중-채널 디코더(340)는 제 1 오디오 채널 신호(320) 및 제 2 오디오 채널 신호(322)를 제공할 수 있고, 제 1 오디오 채널 신호(320) 및 제 2 오디오 채널 신호(322)는 오디오 장면의 수직적 이웃 위치들과 연관된다. 예를 들어, 제 1 오디오 채널 신호는 오디오 장면의 하부 좌측 위치와 연관될 수 있고, 제 2 오디오 채널 신호는 오디오 장면의 상부 좌측의 위치와 연관될 수 있다{제 1 오디오 채널 신호(320) 및 제 2 오디오 채널 신호(322)는 예를 들어, 오디오 장면의 동일한 수평 위치들 또는 방위각 위치들, 또는 최대 30도만큼 분리된 방위각 위치들과 연관된다}. 즉, 잔류-신호-보조된 다중-채널 디코더(340)는 수직 분할(또는 분포, 또는 분리)을 수행 할 수 있다.
잔류-신호-보조된 다중-채널 디코더(350)의 기능은 잔류-신호-보조된 다중-채널 디코더(340)의 기능과 동일할 수 있고, 제 3 오디오 채널 신호는 예를 들어, 오디오 장면의 하부 우측 위치와 연관될 수 있고, 제 4 오디오 채널 신호는 예를 들어 오디오 장면의 상부 우측 위치와 연관될 수 있다. 즉, 제 3 오디오 채널 신호 및 제 4 오디오 채널 신호는 오디오 장면의 수직 이웃 위치들과 연관될 수 있고, 오디오 장면의 동일한 수평 위치 또는 방위각 위치와 연관될 수 있고, 잔류-신호-보조된 다중-채널 디코더(350)는 수직 분할(또는 분리, 또는 분배)을 수행한다.
요약하면, 도 3에 따른 오디오 디코더(300)는 계층적 오디오 디코딩을 수행하며, 좌우 분할은 제 1 스테이지{다중-채널 디코더(330), 다중-채널 디코더(370)}에서 수행되고, 상부 하부 분할은 제 2 스테이지{잔류-신호-보조된 다중-채널 디코더들(340, 350)}에서 수행된다. 또한, 잔류 신호(332, 334)는 결합하여-인코딩된 표현(310) 뿐만 아니라 다운믹스 신호(312, 314){결합하여-인코딩된 표현(360)}를 사용하여 인코딩된다. 따라서 서로 다른 채널들 사이의 상관은 다운믹스 신호(312, 314)의 인코딩(및 디코딩)과 잔류 신호들(332, 334)의 인코딩(및 디코딩)에 대해 모두 이용된다. 따라서, 높은 코딩 효율이 달성되고, 신호들 사이의 상관들은 잘 이용된다.
4. 도 4에 따른 오디오 인코더
도 4는 본 발명의 또 다른 실시예에 따른 오디오 인코더의 개략적인 블록도를 도시한다. 도 4에 따른 오디오 인코더는 400로 전체적으로 지정된다. 오디오 인코더(400)는 4개의 오디오 채널 신호들, 즉 제 1 오디오 채널 신호(410), 제 2 오디오 채널 신호(412), 제 3 오디오 채널 신호(414) 및 제 4 오디오 채널 신호를 수신하도록 구성된다. 또한, 오디오 인코더(400)는 오디오 채널 신호들(410, 412, 414 및 416)에 기초하여 인코딩된 표현을 제공하도록 구성되고, 상기 인코딩된 표현은 2개의 다운믹스 신호들의 결합하여 인코딩된 표현(420), 공통 대역폭 확장 파라미터들의 제 1 세트(422) 및 공통 대역폭 확장 파라미터들의 제 2 세트(424)의 인코딩된 표현을 포함한다. 오디오 인코더(400)는 제 1 오디오 채널 신호(410) 및 제 3 오디오 채널 신호(414)에 기초하여 공통 대역폭 추출 파라미터들의 제 1 세트(422)를 포함한다. 오디오 인코더(400)는 또한 제 2 오디오 채널 신호(412) 및 제 4 오디오 채널 신호(416)에 기초하여 공통 대역폭 확장 파라미터들의 제 2 세트(424)를 얻도록 구성되는 제 2 대역폭 확장 파라미터 추출기(440)를 또한 포함한다.
또한, 오디오 인코더(400)는 다중-채널 인코딩을 이용하여 적어도 제 1 오디오 채널 신호(410) 및 제 2 오디오 채널 신호(412)를 결합하여-인코딩하도록 구성되는 (제 1) 다중-채널 인코더(450)를 포함한다, 추가로, 오디오 인코더(400)는 제 2 다운믹스 신호(462)를 얻기 위해 다중-채널 인코딩을 이용하여 적어도 제 3 오디오 채널 신호(414) 및 제 4 오디오 채널 신호(416)를 결합하여-인코딩하도록 구성되는 (제 2) 다중-채널 인코더(460)를 포함한다. 더욱이, 오디오 인코더(400)는 다운믹스 신호들의 결합하여-인코딩된 표현(420)을 얻기 위해 다중-채널 인코딩을 이용하여 제 1 다운믹스 신호(452) 및 제 2 다운믹스 신호(462)를 결합하여-인코딩하도록 구성되는 (제 3) 다중-채널 인코더(470)를 포함한다.
오디오 인코더(400)의 기능에 관해서는, 오디오 인코더(400)는 계층적 다중-채널 인코딩을 수행하고, 제 1 오디오 채널 신호(410) 및 제 2 오디오 채널 신호(412)가 제 1 스테이지에서 조합되고, 제 3 오디오 채널 신호(414) 및 제 4 오디오 채널 신호(416)가 또한 제 1 스테이지에서 조합되어, 이를 통해 제 1 다운믹스 신호(452) 및 제 2 다운믹스 신호(462)를 얻는다. 제 1 다운믹스 신호(452) 및 제 2 다운믹스 신호(462)는 제 2 스테이지에서 결합하여 인코딩된다. 하지만, 제 1 대역폭 확장 파라미터 추출기(430)는 계층적 다중-채널 인코딩의 제 1 단계에서 서로 다른 다중-채널 인코더들(450, 460)에 의해 처리되는 오디오 채널 신호(410, 414)에 기초하여 공통 대역 추출 파라미터들의 제 1 세트(422)를 제공하는 것이 주지되어야 한다. 유사하게, 제 2 대역폭 확장 파라미터 추출기(440)는 제 1 스테이지에서 서로 다른 다중-채널 인코더들(450, 460)에 의해 처리되는 상이한 오디오 채널 신호(412, 416)에 기초하여 공통 대역 추출 파라미터들의 제 2 세트(424)를 제공한다. 이러한 특정 처리 순서는 대역폭 확장 파라미터의 세트(422, 424)가 계층 인코딩{즉, 다중-채널 인코더(470)에서}의 제 2 스테이지에서 조합되는 채널들에 기초한다. 이것은 유리한데, 이는 계층 인코딩의 제 1 스테이지에서의 그러한 오디오 채널들을 조합하는 것이 바람직하며, 그 관계가 사운드 소스 위치 지각에 대해 그리 관련되지 않기 때문이다. 오히려, 제 1 다운믹스 신호와 제 2 다운믹스 신호 사이의 관계가 주로 사운드 소스 위치 지각을 결정하는데, 이는 제 1 다운믹스 신호(452)와 제 2 다운믹스 신호(462) 사이의 관계가 개별적인 오디오 채널 신호들(410, 412, 414, 416) 사이의 관계보다 더 양호하게 유지될 수 있기 때문이다. 달리 말하면, 공통 대역폭 확장 파라미터들의 제 1 세트(422)가 다운믹스 신호(452, 462)의 상이한 것에 기여하는 2개의 오디오 채널(오디오 채널 신호)에 기초하고, 공통 대역폭 확장 파라미터들의 제 2 세트(424)가 계층적 다중-채널 인코딩에서 오디오 채널 신호들의 전술한 처리에 의해 도달되는, 다운믹스 신호(452, 462)의 상이한 것에 또한 기여하는 오디오 채널 신호(412, 416)에 기초하여 제공된다는 것이 발견되었다. 따라서, 공통 대역폭 확장 파라미터들의 제 1 세트(422)는 제 1 다운믹스 신호(452)와 제 2 다운믹스 신호(462) 사이의 채널 관계에 비해 유사한 채널 관계에 기초하며, 후자는 오디오 디코더의 측부에서 생성된 공간 인상이 두드러진다. 따라서, 대역폭 확장 파라미터들의 제 1 세트(422)의 제공, 및 또한 대역폭 확장 파라미터들의 제 2 세트(424)의 제공은 오디오 디코더의 측부에서 생성된 공간 청취 인상에 잘 적합하다.
5. 도 5에 따른 오디오 디코더
도 5는 본 발명의 또 다른 실시예에 따른 오디오 디코더의 개략적인 블록도를 나타낸다. 도 5에 따른 오디오 디코더는 전체적으로 500으로 지정되어 있다.
오디오 디코더(500)는 제 1 다운믹스 신호 및 제 2 다운믹스 신호의 결합하여-인코딩된 표현(510)을 수신하도록 구성된다. 또한, 오디오 디코더(500)는 제 1 대역폭 확장 채널 신호(520), 제 2 대역폭 확장 채널 신호(522), 제 3 대역폭 확장 채널 신호(524) 및 제 4 대역폭 확장 채널 신호(526)를 제공하도록 구성된다.
오디오 디코더(500)는 다중-채널 디코딩을 이용하여 제1 다운믹스 신호 및 제 2 다운믹스 신호의 결합하여-인코딩된 표현(510)에 기초하여 제 1 다운믹스 신호(532) 및 제 2 다운믹스 신호(534)를 제공하도록 구성된 (제 1) 다중-채널 디코더(530)를 포함한다. 오디오 디코더(500)는 다중-채널 디코딩을 이용하여 제 1 다운믹스 신호(532)에 기초하여 적어도 제 1 오디오 채널 신호(542) 및 제 2 오디오 채널 신호(544)를 제공하도록 구성된 (제 2) 다중-채널 디코더(540)를 포함한다. 오디오 디코더(500)는 다중-채널 디코딩을 이용하여 제 2 다운믹스 신호(544)에 기초하여 적어도 제 3 오디오 채널 신호(556) 및 제 4 오디오 채널 신호(558)를 제공하도록 구성된 (제 3) 다중-채널 디코더(550)를 포함한다. 또한, 오디오 디코더(500)는 제 1 대역폭-확장된 채널 신호(520) 및 제 3 대역폭-확장된 채널 신호(524)를 얻기 위해 제 1 오디오 채널 신호(542) 및 제 3 오디오 채널 신호(556)에 기초하여 다중-채널 확장을 수행하도록 구성된 (제 1) 다중-채널 대역폭 확장부(560)를 포함한다. 또한, 오디오 디코더(500)는 제 2 대역폭-확장된 채널 신호(522) 및 제 4 대역폭-확장된 채널 신호(526)를 얻기 위해 제 2 오디오 채널 신호(544) 및 제 4 오디오 채널 신호(558)에 기초하여 다중-채널 대역폭 확장을 수행하도록 구성된 (제 2) 다중-채널 대역폭 확장부(570)를 포함한다.
오디오 디코더(500)의 기능에 관해, 오디오 인코더(500)는 계층적 다중-채널 디코딩을 수행하고, 제 1 다운믹스 신호(532) 및 제 2 다운믹스 신호(534)가 계층적 디코딩의 제 1 스테이지에서 수행되고, 제 1 오디오 채널 신호(542) 및 제 2 오디오 채널 신호(544)는 계층적 디코딩의 제 2 스테이지에서 제 1 다운믹스 신호(532)로부터 도출되고, 제 3 오디오 채널 신호(556) 및 제 4 오디오 채널 신호(558)는 계층적 디코딩의 제 2 스테이지에서 제 2 다운믹스 신호(550)로부터 도출된다. 하지만, 제 1 다중-채널 대역폭 확장부(560) 및 제 2 다중-채널 대역폭 확장부(560) 모두는 각각 제 1 다운믹스 신호(532)로부터 도출되는 하나의 오디오 채널 신호 및 제 2 다운믹스 신호(534)로부터 도출되는 하나의 오디오 채널 신호를 수신한다. 더 양호한 채널 분리가 일반적으로 계층 디코딩의 제 2 스테이지에 비해, 계층적 다중-채널 디코딩의 제 1 스테이지로서 수행되는 (제 1) 다중 채널 디코딩(530)에 의해 일반적으로 달성되기 때문에, 각 다중-채널 대역폭 확장(560, 570)은 잘 분리되는 입력 신호들을 수신하는 것{이들이 잘 채널-분리되는 제 1 다운믹스 신호(532) 및 제 2 다운믹스 신호(534)로부터 유래되기 때문에}을 알 수 있다. 따라서, 다중-채널 대역폭 확장부(560, 570)는 스테레오 특징을 고려할 수 있고, 이것은 청취 인상에 중요하고, 제 1 다운믹스 신호(532)와 제 2 다운믹스 신호(534) 사이의 관계에 의해 잘 표현되고, 그러므로 양호한 청취 인상을 제공할 수 있다.
즉, 각 다중-채널 대역폭 확장 스테이지들(560, 570) 각각이 양쪽(제 2 스테이지) 다중-채널 디코더(540, 550)로부터 입력 신호를 수신하는 오디오 디코더의 ("교차") 구조는 양호한 다중-채널 대역폭 확장을 허용하고, 이것은 채널들 사이의 스테레오 관계를 고려한다.
하지만, 오디오 디코더(500)가 도 2, 3, 6 및 13에 따라 오디오 디코더에 대해 본원에 기재된 임의의 특징 및 기능들에 의해 보완될 수 있고, 오디오 디코더의 성능을 점차 개선하기 위해 개별 특징들을 오디오 디코더(500)에 도입하는 것이 가능하다는 것이 주지되어야 한다.
6. 도 6에 따른 오디오 디코더
도 6은 본 발명의 다른 실시예에 따른 오디오 디코더의 개략적인 블록도를 나타낸다. 도 6에 따른 오디오 디코더는 전체가 600으로 지정된다. 도 6에 따른 오디오 디코더(600)는 도 5에 따른 오디오 디코더(500)와 유사하여, 위의 설명이 또한 적용된다. 그러나, 오디오 디코더(600)는 또한 개선하기 위해 오디오 디코더(500)에 개별적으로 또는 조합하여 도입될 수 있는 몇몇 특징 및 기능에 의해 보완되었다.
오디오 디코더 (600)는 제 1 다운믹스 신호 및 제 2 다운믹스 신호의 결합하여 인코딩된 표현(610)을 수신하고, 제 1 대역폭 확장된 신호(620), 제 2 대역폭 확장된 신호(622), 제 3 대역폭 확장된 신호(624) 및 제 4 대역폭 확장된 신호(626)를 제공하도록 구성된다. 오디오 디코더(600)는 제 1 다운믹스 신호 및 제 2 다운믹스 신호의 결합하여 인코딩된 표현(610)을 수신하고, 이에 기초하여, 제 1 다운믹스 신호(632) 및 제 2 다운믹스 신호(634)를 제공하도록 구성된 다중-채널 디코더(630)를 포함한다. 오디오 디코더(600)는 제 1 다운믹스 신호(632)를 수신하고, 이에 기초하여, 제 1 오디오 채널 신호(542) 및 제 2 오디오 채널 신호(544)를 제공하도록 구성된 다중-채널 디코더(640)를 더 포함한다. 오디오 디코더(600)는 또한 제 2 다운믹스 신호(634)를 수신하고, 제 3 오디오 채널 신호(656) 및 제 4 오디오 채널 신호(658)를 제공하도록 구성된 다중-채널 디코더(650)를 포함한다. 오디오 디코더(600)는 또한 제 1 오디오 채널 신호(642) 및 제 3 오디오 채널 신호(656)를 수신하고, 이에 기초하여, 제 1 대역폭 확장된 채널 신호(620) 및 제 3 대역폭 확장된 채널 신호(624)를 제공하도록 구성된 (제 1) 다중-채널 대역폭 확장부(660)를 포함한다. 또한, (제 2) 다중-채널 대역폭 확장부(670)는 제 2 오디오 채널 신호(644) 및 제 4 오디오 채널 신호(658)를 수신하고, 이에 기초하여, 제 2 대역폭 확장된 채널 신호(622) 및 제 4 대역폭 확장된 채널 신호(626)를 제공한다.
오디오 디코더(600)는 또한 제 1 잔류 신호 및 제 2 잔류 신호의 결합하여 인코딩된 표현(682)을 수신하고, 이에 기초하여, 다중-채널 디코더(640)에 의한 사용을 위한 제 1 잔류 신호(684), 및 다중-채널 디코더(650)에 의한 사용을 위한 제 2 잔류 신호(686)를 제공하는 추가 다중-채널 디코더(680)를 포함한다.
다중-채널 디코더(630)는 바람직하게 예측-기반의 잔류-신호-보조된 다중-채널 디코더이다. 예를 들어, 다중-채널 디코더(680)는 전술한 다중-채널 디코더(330)와 실질적으로 동일할 수 있다. 예를 들어, 다중-채널 디코더(680)는 전술한 바와 같이, 및 위에 참조된 USAC 표준에 기재된 바와 같이 USAC 복합 스테레오 예측 디코더일 수 있다. 따라서, 제 1 다운믹스 신호 및 제 2 다운믹스 신호의 결합하여 인코딩된 표현 (682)은 예를 들어, 제 1 다운믹스 신호 및 제 2 다운믹스 신호의 (공통) 다운믹스 신호, 제 1 다운믹스 신호 및 제 2 다운믹스 신호의 (공통) 잔류 신호, 및 다중-채널 디코더(630)에 의해 평가되는하나 이상의 예측 파라미터들을 포함할 수 있다.
더욱이, 제 1 다운믹스 신호(632)가 예를 들어 오디오 장면의 제 1 수평 위치 또는 방위각 위치(예를 들어, 좌측 수평 위치)와 연관될 수 있고,,제 2 다운믹스 신호(634)는 예를 들어 오디오 장면의 제 2 수평 위치 또는 방위각 위치(예를 들어, 우측 수평 위치)와 연관될 수 있다는 것이 주지되어야 한다.
더욱이, 다중-채널 디코더(680)는 예를 들어, 예측-기반의 잔류-신호-연관된 다중-채널 디코더이다. 다중-채널 디코더(680)는 전술한 다중-채널 디코더(330)와 실질적으로 동일할 수 있다. 예를 들어, 다중-채널 디코더(680)는 전술한 바와 같이,USAC 복합 스테레오 예측 디코더일 수 있다. 따라서, 제 1 잔류 신호 및 제 2 잔류 신호의 결합하여 인코딩된 표현(682)은 제 1 잔류 신호 및 제 2 잔류 신호의 (공통) 다운믹스 신호, 제 1 잔류 신호 및 제 2 잔류 신호의 (공통) 잔류 신호, 및 다중-채널 디코더(680)에 의해 평가되는 하나 이상의 예측 파라미터들을 포함할 수 있다. 더욱이, 제 1 잔류 신호(684)가 오디오 장면의 제 1 수평 위치 또는 방위각 위치(예를 들어, 좌측 수평 위치)와 연관될 수 있고, 제 2 잔류 신호(686)는 오디오 장면의 제 2 수평 위치 또는 방위각 위치(예를 들어, 우측 수평 위치)와 연관될 수 있다는 것이 주지되어야 한다.
다중-채널 디코더 (640)는, 예를 들어, 전술한 및 참조 표준에서 설명한 바와 같이 예를 들면, MPEG 서라운드 다중-채널 디코딩과 같은 파라미터-기반의 다중-채널 디코딩일 수 있다. 하지만, (선택적) 다중-채널 디코더(680) 및 (선택적인) 제 1 잔류 신호(684)의 존재에서, 다중-채널 디코더(640)는 예를 들어, 통합형 스테레오 디코더와 같이 파라미터 기반 잔류-신호-보조된 다중-채널 디코더일 수 있다. 따라서, 다중-채널 디코더(640)는 전술한 다중-채널 디코더(340)와 실질적으로 동일할 수도 있고, 다중-채널 디코더(640)는, 예를 들어, 전술한 파라미터들(342)을 수신할 수 있다.
유사하게, 다중-채널 디코더(650)는 다중-채널 디코더(640)와 실질적으로 동일할 수 있다. 다중-채널 디코더(650)는, 예를 들어, 파라미터 기반일 수 있고, 선택적으로 잔류-신호 보조될 수 있다{선택적 다중-채널 디코더(680)의 존재시}.
또한, 제 1 오디오 채널 신호(642) 및 제 2 오디오 신호 채널(644)은 바람직하게 오디오 장면의 수직으로 인접한 공간 위치와 연관되어 있음을 주목해야 한다. 예를 들어, 제 1 오디오 채널 신호(642)는 오디오 장면의 하부 좌측 위치와 연관되고, 제 2 오디오 채널 신호(644)는 오디오 장면의 상부 좌측 위치와 관련된다. 따라서, 다중-채널 디코더(640)는 제 1 다운믹스 신호(632)(선택적으로, 제 1 잔류 신호(684)에 의해)에 의해 기재된 오디오 컨텐트의 수직 분할(또는 분리 또는 분배)을 수행한다. 유사하게, 제 3 오디오 채널 신호(656) 및 제 4 오디오 채널 신호 (658)는 오디오 장면의 수직으로 인접한 위치와 연관되며, 바람직하게는 오디오 장면의 동일한 수평 위치 또는 방위각 위치와 연관된다. 예를 들어, 제 3 오디오 채널 신호(656)는 바람직하게는 오디오 장면의 하부 우측 위치와 연관되고, 제 4 오디오 채널 신호(658)는 바람직하게 오디오 장면의 상부 우측 위치와 관련된다. 따라서, 다중-채널 디코더(650)는 제 2 다운믹스 신호(634)(및 선택적으로 제 2 잔류 신호(686))에 의해 기재된 오디오 콘텐트의 수직 분할(또는 분리, 또는 분배)를 수행한다.
그러나, 제 1 다중-채널 대역폭 확장부(660)는 제 1 오디오 채널 신호(642) 및 제 3 오디오 채널(656)을 수신하고, 이들은 오디오 장면의 하부 우측 위치와 하부 좌측 위치와 연관된다. 따라서, 제 1 다중-채널 대역폭 확장부(660)는 오디오 장면의 동일한 수평 평면(예를 들어, 하부 수평 평면) 또는 앙각과 오디오 장면의 상이한 측부(좌측/우측)과 연관되는 2개의 오디오 채널 신호에 기초하여 다중-채널 대역폭 확장을 수행한다. 따라서, 다중-채널 대역폭 확장은 대역폭 확장을 수행할 때 스테레오 특징(예를 들어, 인간 스테레오 지각)를 고려할 수 있다. 유사하게, 제 2 다중-채널 대역폭 확장부(670)는 또한 스테레오 특징을 고려할 수 있는데, 이는 제 2 다중-채널 대역폭 확장이 동일한 수평 평면(예를 즐어, 상부 수평 평면) 또는 앙각이지만, 오디오 장면의 상이한 수평 위치(상이한 측부)(좌측/우측)에서의 오디오 채널 신호들 상에서 동작하기 때문이다.
결론적으로, 계층적 오디오 디코더(600)는, 좌측/우측 분할(또는 분리, 또는 분배)이 제 1 스테이지(다중채널 디코딩(630, 680))에서 수행되고, 수직 분할(분리 또는 분배)이 제 2 스테이지(다중-채널 디코딩 (640, 650))에서 수행되고, 다중-채널 대역폭 확장은 좌측/우측 신호의 쌍((다중-채널 대역폭 확장(660, 670)) 상에서 동작하는 구조를 포함한다. 디코딩하는 경로의 이러한 "교차"는 좌측/우측 분리를 허용하고, 이것은 특히 청취 인상(예를 들어, 상부/하부 분할보다 더 중요함)에 대해 특히 중요하고, 계층적 오디오 디코더의 제 1 처리 스테이지에서 수행될 수 있고, 다중-채널 대역폭 확장은 또한 좌측-우측 오디오 채널 신호의 쌍 상에서 수행될 수 있고, 이것은 다시 특히 양호한 청취 인상을 초래한다. 상부/하부 분할은 좌측-우측 분리와 다중-채널 대역폭 확장 사이의 중간 스테이지로서 수행되고, 이것은 4개의 오디오 채널 신호들(또한 대역폭-확장된 채널 신호들)을 청취 인상을 크게 감소시키지 않고도 도출하도록 한다.
7. 도 7에 따른 방법
도 7은 적어도 4개의 채널 오디오 신호에 기초하여 인코딩된 표현을 제공하는 방법(700)의 흐름도를 도시한다.
방법(700)은 제 1 다운믹스 신호 및 제 1 잔류 신호를 얻기 위해 잔류-신호-보조된 다중-채널 인코딩을 이용하여 적어도 제 1 음성 채널 신호와 제 2 오디오 채널 신호를 결합하여 인코딩(710)하는 것을 포함한다. 방법은 제 2 다운믹스 신호 및 제 2 잔류 신호를 얻기 위해 잔류-신호-보조된 다중-채널 인코딩을 이용하여 적어도 제 3 음성 채널 신호와 제 4 오디오 채널 신호를 결합하여 인코딩(720)하는 것을 포함한다. 방법은 잔류 신호들의 인코딩된 표현을 얻기 위해 다중-채널 인코딩을 이용하여 제 1 잔류 신호와 제 2 잔류 신호를 결합하여 인코딩(730)하는 것을 포함한다. 그러나, 방법(700)은 오디오 인코더 및 오디오 디코더와 관련하여 본 명세서에 설명된 임의의 특징 및 기능에 의해 보완될 수 있다는 것을 주목해야 한다.
8. 도 8에 따른 방법
도 8은 인코딩된 표현에 기초하여 상기 적어도 4개의 오디오 채널 신호를 제공하기 위한 방법(800)의 흐름도를 도시한다.
방법(800)은 다중-채널 디코딩을 이용하여 제 1 잔류 신호 및 제 2 잔류 신호의 결합하여-인코딩된 표현에 기초하여 제 1 잔류 신호 및 제 2 잔류 신호를 제공(810)하는 것을 포함한다. 방법(800)은 또한 잔류-신호-보조된 다중-채널 디코딩을 이용하여 제 1 다운믹스 신호 및 제 1 잔류 신호에 기초하여 제 1 오디오 채널 신호 및 제 2 오디오 채널 신호를 제공(820)하는 것을 포함한다. 방법은 또한 잔류-신호-보조된 다중-채널 디코딩을 이용하여 제 2 다운믹스 신호 및 제 2 잔류 신호에 기초하여 제 3 오디오 채널 신호 및 제 4 오디오 채널 신호를 제공(830)하는 것을 포함한다.
또한, 방법(800)은 오디오 인코더 및 오디오 디코더와 관련하여 본 명세서에 설명된 임의의 특징 및 기능에 의해 보완될 수 있다는 것을 주목해야 한다.
9. 도 9에 따른 방법
도 9는 적어도 4개의 오디오 채널 신호에 근거하여 인코딩된 표현을 제공하는 방법(900)의 흐름도를 도시한다.
삭제
방법(900)은 제 1 오디오 채널 신호 및 제 3 채널 오디오 신호에 기초하여 공통 대역 확장 파라미터들의 제 1 세트를 획득하는 단계(910)를 포함한다. 방법(900)은 제 2 오디오 채널 신호 및 제 4 오디오 채널 신호에 기초하여 일반적인 대역폭 확장 파라미터들의 제 2 세트를 획득하는 단계(920)를 포함한다. 상기 방법은 제 1 다운믹스 신호를 얻기 위해 다중-채널 인코딩을 이용하여 적어도 제 1 오디오 채널 신호 및 제 2 오디오 채널 신호를 결합하여 인코딩하여, 제 2 다운믹스 신호를 얻기 위해 다중-채널 인코딩을 이용하여 적어도 제 3 오디오 채널 신호 및 제 4 다운믹스 신호를 결합하여 인코딩(940)하는 것을 포함한다. 방법은 또한 다운믹스 신호의 인코딩된 표현을 얻기 위해 다중-채널 인코딩을 이용하여 제 1 다운믹스 신호 및 제 2 다운믹스 신호를 결합하여 인코딩(950)하는 것을 포함한다.
이는 특정 상호 종속성을 포함하지 않는 방법(900)의 단계 중 일부는, 임의의 순서로 또는 병렬로 수행될 수 있음에 유의해야 한다. 또한, 방법(900)은 오디오 인코더 및 오디오 디코더와 관련하여 본 명세서에 기재된 특징 및 기능 중 임의의 것에 의해 보완될 수 있다는 것을 주목해야 한다.
10. 도 10에 따른 방법
도 10은 인코딩된 표현에 기초하여 적어도 4개의 채널 오디오 신호를 제공하기 위한 방법(1000)의 흐름도를 도시한다.
방법(1000)은 다중-채널 디코딩을 이용하여 제 1 다운믹스 신호와 제 2 다운믹스 신호의 결합하여 인코딩된 표현에 기초하여 제 1 다운믹스 신호 및 제 2 다운믹스 신호를 제공하는 단계(1010), 다중-채널 디코딩을 이용하여 제 1 다운믹스 신호에 기초하여 적어도 제 1 오디오 채널 신호 및 제 2 오디오 채널 신호를 제공하는 단계(1020), 다중-채널 디코딩을 이용하여 제 2 다운믹스 신호에 기초하여 적어도 제 3 다운믹스 신호 및 제 4 다운믹스 신호를 제공하는 단계(1030), 제 1 대역폭-확장된 채널 신호 및 제 3 대역폭-확장된 채널 신호를 얻기 위해 제 1 오디오 채널 신호와 제 2 오디오 채널 신호에 기초하여 다중-채널 대역폭 확장을 수행하는 단계(1040), 제 2 대역폭-확장된 채널 신호 및 제 4 대역폭-확장된 채널 신호를 얻기 위해 제 2 오디오 채널 신호와 제 4 오디오 채널 신호에 기초하여 다중-채널 대역폭 확장을 수행하는 단계(1050)를 포함한다.
방법(1000)의 단계들 중 일부가 상이한 순서로 또는 병렬로 수행될 수 있음에 유의해야 한다. 또한, 방법(1000)은 오디오 인코더 및 오디오 디코더와 관련하여 본 명세서에 기재된 특징 및 기능 중 임의의 것에 의해 보완될 수 있다는 것을 주목해야 한다.
도 11, 12, 및 13에 따른 실시예
이하, 본 발명에 따른 몇몇부 추가 실시예들 및 기본 사항이 설명될 것이다.
도 11은 본 발명의 실시예에 따른 오디오 인코더(1100)의 개략적인 블록도를 도시한다. 오디오 인코더(1100)는 좌측 하부 채널 신호(1110), 좌측 상부 채널 신호(1112), 우측 하부 채널 신호(1114), 우측 우측 채널 신호 (1116)를 수신하도록 구성된다.
오디오 인코더(1100)는 제 1 다중-채널 오디오 인코더(또는 인코딩)(1120)를 포함하고, 이것은 MPEG 서라운드 2-1-2 오디오 인코더(또는 인코딩) 또는 통합형 스테레오 오디오 인코더(또는 인코딩)이고, 이것은 좌측 하부 채널 신호(1110) 및 좌측 상부 채널 신호(1112)를 수신한다. 제 1 다중-채널 오디오 인코더(1120)는 좌측 다운믹스 신호(1122) 및 선택적으로 좌측 잔여 신호(1124)를 제공한다. 또한, 오디오 인코더(1100)는 제 2 다중-채널 오디오 인코더(또는 인코딩)(1130)를 포함하고, 이것은 MPEG 서라운드 2-1-2 오디오 인코더(또는 인코딩) 또는 통합형 스테레오 오디오 인코더(또는 인코딩)이고, 이것은 좌측 하부 채널 신호(1114) 및 좌측 상부 채널 신호(1116)를 수신한다. 제 2 다중-채널 오디오 인코더(1130)는 우측 다운믹스 신호(1132) 및 선택적으로 우측 잔여 신호(1134)를 제공한다. 오디오 인코더(1100)는 또한 스테레오 코더(또는 코딩)(1140)를 포함하고, 이것은 좌측 다운믹스 신호(1122) 및 우측 다운믹스 신호(1132)를 수신한다. 또한, 복합 예측 스테레오 코딩인 제 1 스테레오 코딩(1140)은 음향 심리학적 모델로부터 음향 심리학적 모델 정보(1142)를 수신한다. 예를 들면, 음향 심리학적 모델 정보(1142)는 다른 주파수 대역 또는 주파수 서브 대역, 음향 심리학적 마스킹 효과 등의 음향 심리학적 관련성을 기술할 수 있다. 스테레오 코딩(1140)은 채널 쌍 엘리먼트(CPE) "다운믹스"를 제공하고, 이러한 채널 쌍 엘리먼트(CPE) "다운믹스"는 1144로 표시되고, 결합하여 인코딩된 형태로 좌측 다운믹스 신호(1122) 및 우측 다운믹스 신호(1132)를 기재한다. 또한, 오디오 인코더(1100)는 선택적으로 선택적 좌측 잔류 신호(1124) 및 선택적 우측 잔류 신호(1134)뿐 아니라, 음향 심리학적 모델 정보(1142)를 수신하도록 구성된 제 2 스테레오 코더(또는 코딩)(1150)를 포함한다. 복합 예측 스테레오 코딩인 제 2 스테레오 코딩(1150)은 채널 쌍 엘리먼트(CPE)를 제공하도록 구성되고, 이것은 결합하여 인코딩된 형태로 좌측 잔류 신호(1124) 및 우측 잔류 신호(1134)를 나타낸다.
인코더(1100)(뿐만 아니라, 본원에 기재된 다른 오디오 인코더)는, 수평 및 수직 신호 종속성이 이용가능한 USAC 스테레오 툴들(즉, USAC 인코딩에 이용가능한 인코딩 개념들)을 계층적으로 조합함으로써 이용된다는 생각에 기초한다. 수직적 이웃 채널 쌍들은 MPEG 서라운드 2-1-2 또는 통합형 스테레오(1120 및 1130으로 표시됨)를 이용하여 대역-제한된 또는 풀-대역 잔류 신호(1124 및 1134로 표시됨)와 조합된다. 각 수직 채널 쌍의 출력은 다운믹스 신호(1122, 1132)이고, 통합형 스테레오에 대해, 잔류 신호(1124, 1134)이다. 입체 음향 언마스킹(binaural unmasking)에 대한 지각적 요건들을 충족하기 위해, 다운믹스 신호들(1122, 1132) 모두는 MDCT 도메인에서 복합 예측{인코더(1140)}의 이용에 의해 결합하여 코딩되고, 이것은 좌측-우측 및 중간-측 코딩의 가능성을 포함한다. 동일한 방법은 수평으로 조합된 잔류 신호들(1124, 1134)에 적용될 수 있다. 이 개념은 도 11에 도시된다.
도 11을 참조하여 설명된 계층 구조는 스테레오 툴들(예를 들어, USAC 스테레오 툴들 모두)을 가능하게 하고 그 사이의 채널들을 재분류함으로써 달성될 수 있다. 따라서, 추가 사전-/후치 처리 단계가 필요없고, 툴의 페이로드들의 송신을 위한 비트스트림 구문은 변하지 않은 상태로 유지한다(예를 들어, USAC 표준에 비해 실질적으로 변하지 않게 됨). 이러한 생각은 도 12에 도시된 인코더 구조를 초래한다.
도 12는 본 발명의 실시예에 따른 오디오 인코더(1200)의 개략적인 블록도를 도시한다. 오디오 인코더(1200)는 제 1 채널 신호(1210), 제 2 채널 신호(1212), 제 3 채널 신호(1214), 및 제 4 채널 신호(1216)를 수신하도록 구성된다. 오디오 인코더(1200)는 제 1 채널 쌍 엘리먼트에 대한 비트스트림(1220) 및 제 2 채널 쌍 엘리먼트에 대한 비트스트림(1222)을 제공하도록 구성된다.
오디오 인코더(1200)는 제 1 다중-채널 인코더(1230)를 포함하고, 이것은 MMPEG-서라운드 2-1-2 인코더 또는 통합형 스테레오 인코더이고, 제 1 채널 신호(1210) 및 제 2 채널 신호(1212)를 수신한다. 더욱이, 제 1 다중-채널 인코더(1230)는 제 1 다운믹스 신호(1232), MPEG 서라운드 페이로드(1236), 및 선택적으로 제 1 잔류 신호(1234)를 제공한다. 오디오 인코더(1200)는 또한 제 2 다중-채널 인코더(1240)를 포함하고, 이것은 MPEG-서라운드 2-1-2 인코더 또는 통합형 스테레오 인코더이고, 제 3 채널 신호(1214) 및 제 4 채널 신호(1216)를 수신한다. 제 2 다중-채널 인코더(1240)는 제 1 다운믹스 신호(1242), MPEG 서라운드 페이로드(1246), 및 선택적으로 제 2 잔류 신호(1244)를 제공한다.
오디오 인코더(1200)는 또한 복합 예측 코딩인 제 1 스테레오 코딩(1250)을 포함한다. 제 1 스테레오 코딩(1250)은 제 1 다운믹스 신호(1232) 및 제 2 다운믹스 신호(1242)를 수신한다. 제 1 스테레오 코딩(1250)은 제 1 다운믹스 신호(1232) 및 제 2 다운믹스 신호(1242)의 결합하여 인코딩된 표현(1252)을 제공하고, 결합하여 인코딩된 표현(1252)은 (공통) 다운믹스 신호{제 1 다운믹스 신호(1232) 및 제 2 다운믹스 신호(1242)} 및 공통 잔류 신호{제 1 다운믹스 신호(1232) 및 제 2 다운믹스 신호(1242)}의 표현을 포함할 수 있다. 더욱이, (제 1) 복합 예측 스테레오 코딩(1250)은 하나 이상의 복합 예측 계수들을 일반적으로 포함하는 복합 예측 페이로드(1254)를 제공한다. 더욱이, 오디오 인코더(1200)는 또한 복합 예측 스테레오 코딩인 제 2 스테레오 코딩(1260)을 포함한다. 제 2 스테레오 코딩(1260)은 제 1 잔류 신호(1244){또는, 다중-채널 인코더들(1230, 1240)에 의해 제공된 잔류 신호가 없는 경우, 제로 입력 값들}을 수신한다. 제 2 스테레오 코딩(1260)은 제 1 잔류 신호(1234) 및 제 2 잔류 신호(1244)의 결합하여 인코딩된 표현(1262)을 제공하고, 이들은 예를 들어 (공통) 다운믹스 신호{제 1 잔류 신호(1234) 및 제 2 잔류 신호(1244)} 및 공통 잔류 신호{제 1 잔류 신호(1234) 및 제 2 잔류 신호(1244)}의 표현을 포함할 수 있다. 더욱이, 복합 예측 스테레오 코딩(1260)은 일반적으로 하나 이상의 예측 계수들을 포함하는 복합 예측 페이로드(1264)를 제공한다.
또한, 오디오 인코더(1200)는 제 1 복합 예측 스테레오 코딩(1250) 및 제 2 복잡한 예측 스테레오 코딩(1260)을 제어하는 정보를 제공하는 음향 심리학적 모델(1270)을 포함한다. 예를 들어, 음향 심리학적 모델(1270)에 의해 제공된 정보가 기재될 수 있고, 주파수 대역 또는 주파수 빈(bins)들은 높은 음향 심리학적 관련성을 갖고, 높은 정밀도로 인코딩되어야 한다. 하지만, 음향 심리학적 모델(1270)에 의해 제공된 정보의 이용이 선택적이라는 것이 주지되어야 한다.
또한, 오디오 인코더(1200)는 제 1 복합 예측 스테레오 코딩(1250)으로부터 결합하여 인코딩된 표현(1252), 제 1 복합 예측 스테레오 코딩(1250)으로부터 복합 예측 페이로드(1254) 및 제 1 다중-채널 오디오 인코더(1230)로부터 MPEG 서라운드 페이로드(126)를 수신하는 제 1 인코더 및 멀티플렉서(1280)를 포함한다. 더욱이, 제 1 인코딩 및 멀티플렉싱(128)은 음향 심리학적 모델(1270)로부터 정보를 수신할 수 있고, 이것은 예를 들어, 음향 심리학적 마스킹 효과들 등을 고려하여, 인코딩 정밀도가 어떤 주파수 대역들 또는 주파수 서브 대역들에 적용되어야 하는 지를 기재한다. 따라서, 제 1 인코딩 및 멀티플렉싱(128)은 제 1 채널 쌍 엘리먼트 비트스트림(1220)을 제공한다.
또한, 오디오 인코더(1200)는 제 2 인코딩 및 멀티플렉싱(1290)을 포함하고, 이들은 제 2 복합 예측 스테레오 인코딩(1260), 제 2 복합 예측 스테레오 코딩(1260)에 의해 증명된 복합 예측 페이로드(1264), 및 제 2 다중-채널 오디오 인코더(1240)에 의해 제공된 MPEG 서라운드 페이로드(1246)에 의해 제공된 겨합하여 인코딩된 표현(1262)을 수신하도록 구성된다. 또한, 제 2 인코딩 및 멀티플렉싱(1290)은 음향 심리학적 모델(1270)로부터 정보를 수신할 수 있다. 따라서, 제 2 인코딩 및 멀티플렉싱(1290)은 제 2 채널 쌍 엘리먼트 비트스트림(1222)을 제공한다.
오디오 인코더(1200)의 기능에 관하여, 상기 설명에 대해 참조되고, 또한 도 2, 3, 5 및 6에 따른 오디오 인코더들에 대한 설명이 참조된다.
또한, 이 개념이 기하학적 및 지각적 특성을 고려하여, 수평, 수직 또는 다른 경우 기하학적으로 관련된 채널들의 결합 코딩에 대한 다중 MPEG 서라운드 박스들을 이용하고, 다운믹스 및 잔여 신호들을 복합 예측 스테레오 쌍들과 조합하고도록 확장될 수 있다는 것이 주지되어야 한다. 이것은 일반화된 디코더 구조를 초래한다.
다음에서, 쿼드 채널 요소의 구현을 설명한다. 3차원 오디오 코딩 시스템에서, 쿼드 채널 요소(QCE)를 형성하기 위해 4개의 채널들의 계층적 조합이 이용된다. QCE는 2개의 USAC 채널 쌍 엘리먼트(CPE)로 구성된다)또는 2개의 USAC 채널 쌍들을 제공하거나, USAC 채널 쌍 엘리먼트들에 수신한다). 수직 채널 쌍들은 MPS 2-1-2 또는 통합된 스테레오를 이용하여 조합된다. 다운믹스 채널들은 제 1 채널 쌍 엘리먼트(CPE)에서 결합되어 코딩된다. 잔류 큐딩이 적용되면, 잔류 신호들은 제 2 채널 쌍 엘리먼트(CPE)로 결합하여 코딩되고, 그렇지 않으면 제 2 CPE에서의 신호가 제로(zero)로 설정된다. 채널 쌍 좌측-우측 및 중간-측 코딩 모두는 좌측-우측 및 중간-측 코딩의 가능성을 포함하는, 결합 스케레오 코딩에 대한 복합 예측을 이용한다. 신호의 고주파수 부분의 지각적 스테레오 특성들을 보존하기 위해, 스테레오 SBR(spectral bandwidht replication)은 SBR 적용 이전에 추가 분류 단계에 의해 상부 좌측/우측 채널 쌍과 하부 좌측/우측 채널 쌍 사이에 적용된다.
가능한 디코더 구조는 본 발명의 실시예에 따른 오디오 디코더의 개략적인 블록도를 도시하는 도 13을 참조하여 기재될 것이다. 오디오 디코더(1300)는 제 1 채널 쌍 엘리먼트를 나타내는 제 1 비트스트림(1310), 및 제 2 채널 쌍 엘리먼트를 나타내는 제 2 비트스트림(1312)을 수신하도록 구성된다. 하지만, 제 1 비트스트림(1310) 및 제 2 비트스트림(1312)은 공통 전체 비트스트림에 포함될 수 있다.
오디오 디코더(1300): 제 1 대역폭 확장 채널 신호(1320)을 제공하도록 구성되며, 이것은, 예컨대, 오디오 장면(audio scene)의 하부 좌측 위치를 표현할 수 있고, 제 2 대역폭 확장 채널 신호(1322)를 제공하도록 구성되며, 이것은, 예컨대, 오디오 장면의 상부 좌측 위치를 표현할 수 있고, 제 3 대역폭 확장 채널 신호(1324)를 제공하도록 구성되며, 이것은, 예컨대, 오디오 장면의 하부 우측 위치와 연관될 수 있고, 제 4 대역폭 확장 채널 신호(1326)을 제공하도록 구성되며, 이것은, 예컨대, 오디오 장면의 상부 우측 위치와 연관될 수 있다.
오디오 디코더(1300)는 제 1 비트 스트림 디코딩(1330)을 포함하고, 이것은 제1 채널 쌍 엘리먼트에 대한 비트스트림(1310)을 수신하고, 이에 기초하여, 2개의 다운믹스 신호, 복합 예측 페이로드(1334), MPEG 서라운드 페이로드(1336) 및 스펙트럼 대역폭 복제 페이로드(1338)의 결합하여-인코딩된 표현을 제공하도록 구성된다. 오디오 디코더(1300)는 또한 제 1 복합 예측 스테레오 디코딩(1340)을 포함하고, 이것은 결합하여 인코딩된 표현(1332) 및 복합 예측 페이로드(1334)를 수신하고, 이에 기초하여, 제 1 다운믹스 신호(1342) 및 제 2 다운믹스 신호(1344)를 제공하도록 구성된다. 유사하게, 오디오 디코더(1300)는 제 2 비트 스트림 디코딩(1350)을 포함하고, 이것은 제 2 채널 쌍 엘리먼트에 대한 비트스트림(1312)을 수신하고, 이에 기초하여, 2개의 잔류 신호, 복합 예측 페이로드(1354), MPEG 서라운드 페이로드(1356) 및 스펙트럼 대역폭 복제 비트 로드(1358)의 결합하여-인코딩된 표현을 제공하도록 구성된다. 오디오 디코더는 또한 제 2 복합 예측 스테레오 디코딩(1360)을 포함하고, 이것은 결합하여 인코딩된 표현(1352) 및 복합 예측 페이로드(1354)에 기초하여 제 1 잔류 신호(1362) 및 제 2 잔류 신호(1364)를 제공한다.
또한, 오디오 디코더(1300)는 MPEG 서라운드 2-1-2 디코딩 또는 통합형 스테레오 디코딩인 제 1 MPEG 서라운드-유형 다중 채널 디코딩(1370)을 포함한다. 제 1 MPEG 서라운드-유형의 다중-채널 디코딩(1370)은 제 1 다운믹스 신호(1342), 제 2 잔류 신호(1362)(선택적) 및 MPEG 서라운드 페이로드(1336)를 수신하고, 이에 기초하여, 제 1 오디오 채널 신호(1372) 및 제 2 오디오 채널 신호(1374)를 제공한다. 오디오 디코더(1300)는 또한 MPEG 서라운드 2-1-2 디코딩 또는 통합형 스테레오 디코딩인 제 2 MPEG 서라운드-유형 다중 채널 디코딩(1380)을 포함한다. 제 2 MPEG 서라운드-유형의 다중-채널 디코딩(1380)은 제 2 다운믹스 신호(!344), 제 2 잔류 신호(1364)(선택적) 및 MPEG 서라운드 페이로드(1356)를 수신하고, 이에 기초하여, 제 3 오디오 채널 신호(1382) 및 제 4 오디오 채널 신호(1384)를 제공한다. 오디오 디코더(1300)는 또한 제 1 오디오 채널 신호(1372) 및 제 3 오디오 채널 신호(1382)뿐 아니라 스펙트럼 대역폭 복제 페이로드(1338)를 수신하고, 이에 기초하여 제 1 대역폭 확장된 채널 신호(1320) 및 제 3 대역폭 확장된 채널 신호(1324)를 제공하도록 구성된 제 1 스테레오 스펙트럼 대역폭 복제(1390)를 포함한다. 또한, 오디오 디코더(1300)는 또한 제 2 오디오 채널 신호(1374) 및 제 4 오디오 채널 신호(1384)뿐 아니라 스펙트럼 대역폭 복제 페이로드(1358)를 수신하고, 이에 기초하여 제 2 대역폭 확장된 채널 신호(1322) 및 제 4 대역폭 확장된 채널 신호(1326)를 제공하도록 구성된 제 2 스테레오 스펙트럼 대역폭 복제(1394)를 포함한다.
오디오 디코더(1300)의 기능에 관해, 상기 논의가 참조되고, 또한 도 2, 3, 5 및 6에 따른 오디오 디코더의 논의가 참조된다.
다음에서, 본원에 기재된 오디오 인코딩/디코딩에 사용될 수 있는 비트스트림의 예는 도 14a 및 도 14b를 참조하여 기재될 것이다. 비트스트림이 예를 들어, 전술한 표준(ISO/IEC 23003-3;2012)에 기재된 통합형 음성-및-오디오 코딩(USAC)에 사용된 비트스트림의 확장일 수 있다는 것이 주지되어야 한다. 예를 들어, MPEG 서라운드 페이로드들(1236, 1246, 1336, 1356) 및 복합 예측 페이로드들(1254, 1263, 1334, 1354)은 레거시 채널 쌍 엘리먼트들(즉, USAC 표준에 따른 채널 쌍 엘리먼트들에 대해)로서 송신될 수 있다. 쿼드 채널 요소(QCE)의 이용을 신호 발신하기 위해, USAC 채널 쌍 구성은 도 14a에 도시된 바와 같이 2 비트만큼 확장될 수 있다. 즉, "qcelndex"로 지정된 2 비트는 USAC 비트스트림 리멘트(leement) "UsacChannelPairElementConfig()"에 추가될 수 있다. 비트 "qcelndex"에 의해 표현된 파라미터의 의미는 예를 들어 도 14b의 표에 도시된다.
예를 들어, QCE를 형성하는 2 채널 쌍 엘리먼트들은 연속 요소들로서, 먼저 다운믹스 채널들 및 제 1 MPS 박스에 대한 MPS 페이로드를 포함하는 CPE, 두번째로 잔류 신호(또는 MPS 2-1-2 코딩에 대한 제로 오디오 신호) 및 제 2 MPS 박스에 대한 MPS 페이로드를 포함하는 CPE로서 송신될 수 있다.
즉, 쿼드 채널 요소(QCE)를 송신하기 위한 종래의 USAC 비트스트림에 비해 작은 신호 발신 오버헤드(overhead)가 존재한다.
하지만, 상이한 비트스트림 포맷은 자연스럽게 또한 사용될 수 있다.
12. 인코딩/디코딩 환경
다음으로, 오디오 인코딩/디코딩 환경이 기재될 것이고, 여기서 본 발명에 따른 개념이 적용될 수 있다.
본 발명에 따른 개념이 이용될 수 있는 3D 오디오 코덱 시스템은, 채널 및 객체 신호의 디코딩을 위한 MPEG-D USAC 코덱에 기초한다. 객체의 많은 양의 인코딩 효율을 향상시키기 위해, MPEG SAOC 기술이 적용되어 있다. 렌더러의 세 종류는 객체를 채널로 렌더링하고, 채널들을 헤드폰에 렌더링하거나 채널들을 상이한 스피커 설정에 렌더링하는 작업을 수행한다. 객체 신호가 명시적으로 송신되거나 SAOC를 이용하여 파라미터적으로 인코딩되는 경우, 해당 객체 메타 데이터 정보는 압축되고, 3D 오디오 비트 스트림으로 멀티플렉싱된다.
도 15는 오디오 인코더의 개략적인 블록도를 나타낸다. 도 16은 그러한 오디오 디코더의 개략적인 블록도를 나타낸다. 즉, 도 15 및 16은 3D 오디오 시스템의 다른 알고리즘 블록을 나타낸다.
이제 3D 오디오 인코더(1500)의 개략적인 블록도를 도시한 도 15를 참조하면, 몇몇 세부 사항이 설명될 것이다. 인코더(1500)는 그 하나 이상의 채널 신호 (1516) 및 하나 이상의 객체 신호(1514)를 수신하고, 이에 기초하여 하나 이상의 채널 신호(1516) 및 하나 이상의 객체 신호(1518, 1520)를 제공하는 선택적 사전-렌더러/믹서(1510)를 포함한다. 오디오 인코더는 USAC 인코더(1530) 및, 선택적으로 SAOC 인코더(1540)를 포함한다. SAOC 인코더(1540)는 SAOC 인코더에 제공된 하나 이상의 객체들(1520)에 기초하여 하나 이상의 SAOC 전송 채널들(1542) 및 SAOC 부가 정보(1544)를 제공하도록 구성된다. 또한, USAC 인코더(1530)는 사전-렌더러/믹서로부터 채널을 포함하는 채널 신호들(1516) 및 서전-렌더링된 객체를 수신하고, 사전-렌더러/믹서로부터 하나 이상의 객체 신호(1518)를 수신하고, 하나 이상의 SAOC 전송 채널들(1542) 및 SAOC 부가 정보(1544)를 수신하고, 이에 기초하여, 인코딩된 표현(1532)을 제공하도록 구성된다. 또한, 오디오 인코더(1500)는 또한 객체 메타데이터 인코더(1550)를 포함하고, 이것은 객체 메타데이터(1552){사전-렌더러/믹서(1510)에 의해 평가될 수 있는}를 수신하고, 인코딩된 객체 메타데이터(1554)를 얻기 위해 객체 메타데이터를 인코딩하도록 구성된다. 인코딩된 메타데이터는 또한 USAC 인코더(1530)에 의해 수신되고, 인코딩된 표현(1532)을 제공하는데 사용된다.
오디오 인코더 (1500)의 각 구성 요소에 관한 몇몇 세부 사항을 아래에 설명한다.
이제 도 16을 참조하면, 오디오 디코더(1600)를 설명할 것이다. 오디오 디코더(1600)는 인코딩된 표현(1610)을 수신하고, 이에 기초하여, 다중-채널 스피커 신호들(1612), 헤드폰 신호들(1614), 및/또는 스피커 신호들(1616)을 대안적인 포맷(예를 들면, 5.1 포맷)으로 제공하도록 구성된다.
삭제
오디오 디코더(1600)는 USAC 디코더(1620)를 포함하고, 하나 이상의 채널 신호(1622), 하나 이상의 사전-렌더링된 객체 신호(1624), 하나 이상의 객체 신호 (1626), 하나 이상의 SAOC 전송 채널(1628), SAOC 부가 정보(1630) 및 압축된 객체 메타데이터 정보(1632)를 인코딩된 표현(1610)에 기초하여 제공한다. 오디오 디코더(1600)는 객체 신호(1626) 및 객체 메타 데이터 정보(1644)에 기초하여, 하나 이상의 렌더링된 객체 신호(1642)를 제공하도록 구성되는 객체 렌더러(1640)를 포함하고, 객체 메타데이터 정보(1644)는 압축된 객체 메타데이터 정보(1632)에 기초하여 객체 메타데이터 디코더(1650)에 의해 제공된다. 오디오 디코더(1600)는 R또한 선택적으로 SAOC 디코더(1660)를 포함하고, 이것은 SAOC 전송 채널(1628) 및 SAOC 부가 정보(1630)를 수신하고, 이에 기초하여, 하나 이상의 렌더링된 객체 신호(1662)를 제공하도록 구성된다. 오디오 디코더(1600)는 또한 믹서(1670)를 포함하고, 이것은 채널 신호(1622), 사전-렌더링된 객체 신호(1624), 렌더링된 객체 신호(1642), 및 렌더링된 객체 신호(1662)를 수신하고, 이에 기초하여, 예를 들어 다중-채널 스피커 신호들(1612)을 구성할 수 있는 복수의 믹싱된 채널 신호(1672)를 제공하도록 구성된다. 오디오 디코더(1600)는 또한 입체 음향 렌더(1680)를 포함할 수 있고, 이것은 믹싱된 채널 신호(1672)을 수신하고, 이에 기초하여, 헤드폰 신호(1614)를 제공하도록 구성된다. 더욱이, 오디오 디코더(1600)는 포맷 변환(1690)을 포함할 수 있고, 이것은 믹싱된 채널 신호(1672) 및 재생 레이아웃 정보(1692)를 수신하고, 이에 기초하여, 대안적인 스피커 설정에 대한 스피커 신호(1616)를 제공하도록 구성된다.
이하에서, 오디오 인코더(1500) 및 오디오 디코더(1600)의 성분에 관한 몇몇 세부 사항을 설명한다.
사전 렌더러/믹서
사전 렌더러/믹서(1510)는 선택적으로 인코딩 전에 채널에 객체 입력 장면을 더한 것을 채널 장면으로 변환하는데 사용될 수 있다. 기능적으로는, 예를 들면, 후술하는 객체 렌더러/믹서와 동일할 수 있다. 객체의 사전-렌더링은 예를 들면, 기본적으로 동시에 활성화 객체 신호의 수에 무관하게 있는 인코더 입력에서 결정적 신호 엔트로피를 보장할 수 있다. 객체의 사전 렌더링에서, 객체 메타데이터 전송이 필요하지 않다. 이산 객체 신호는 인코더가 사용하도록 구성된 채널 레이아웃으로 렌더링된다. 각 채널에 대한 객체의 가중치는 연관된 객체 메타데이터(OAM) (1552)에서 얻어진다.
USAC 코어 코덱
스피커 채널 신호, 이산 객체 신호, 객체 다운믹스 신호 및 사전 렌더링 신호에 대한 코어 코덱(1530, 1620)은 MPEG-D USAC 기술에 기초한다. 이것은 입력의 채널과 객체 할당의 기하학적 및 구문 정보에 기초하여 채널 및 객체 매핑 정보를 생성하여 신호의 다수의 코딩을 처리한다. 이 매핑 정보는, 입력 채널들 및 객체가 USAC 채널 요소(CPE들, SCE들, LFE들)와 대응하는 정보가 디코더로 어떻게 전송되는 지를 기재한다. SAOC 데이터 또는 객체 메타 데이터와 같은 모든 추가 페이로드는 확장 요소를 통해 송신되고, 인코더 속도(rate) 제어에 고려되었다.
객체의 코딩은 렌더러에 대한 반복 요건 및 속도/왜곡 요건에 따라 상이한 방식으로 가능하다. 다음의 객체 코딩 변형들이 가능하다:
1. 사전-렌더링된 객체 : 객체 신호는 인코딩 전에 22.2 채널 신호로 사전 렌더링되고, 혼합된다. 후속 코딩 체인은 22.2 채널 신호를 본다.
2. 이산 객체 파형 : 객체가 인코더에 모노 파의 형태로 제공된다. 인코더는 채널 신호 외에도 객체를 전송하기 위해 단일 채널 요소(SCE)를 사용한다. 디코딩 된 개체는 수신기 측에서 렌더링되고 믹싱된다. 압축된 객체 메타데이터 정보는 측면을 따라 수신기/렌더러로 전송된다.
3. 파라메트릭 객체 파형 : 서로에 대한 객체 속성과 관계는 SAOC 파라미터에 의해 설명된다. 객체 신호의 다운믹스는 USAC으로 코딩된다. 파라메트릭 정보는 측면을 따라 전송된다. 다운믹스 채널의 개수는 객체의 개수와 전체 데이터 속도에 따라 선택된다. 압축된 객체 메타데이터 정보가 SAOC 렌더러로 전송된다.
SAOC
SAOC 인코더(1540) 및 SAOC 디코더(1660)는 MPEG SAOC 기술에 기초한다. 시스템은 전송 채널들 및 추가 파라미메트릭 데이터(객체 레벨 차이 OLD들, 인터 객체 상관 IOC, 다운믹스 이득 DMGs)의 소수에 기초하여 오디오 객체들의 수를 재생성하고, 변형하고 렌더링할 수 있다. 추가 파라메트릭 데이터는 개별적으로 모든 객체를 전송하는데 요구된 것보다 훨씬 낮은 데이터 속도를 나타내어, 코딩을 매우 효율적이게 한다. SAOC 인코더는 입력으로서 모노 파형으로서 객체/채널 신호를 받아, 파라메트릭 정보(3D 오디오 비트스트림(1532, 1610)으로 패킹된다) 및 SAOC 전송 채널들(단일 채널 요소들을 이용하여 인코딩되고 송신됨)을 출력한다.
SAOC 디코더(1600)는 디코딩된 SAOC 전송 채널들(1628) 및 파라메트릭 정보(1630)로부터 객체/채널 신호를 재구성하고, 재생 레이아웃, 압축 해제된 객체 메타데이터 정보 및 선택적으로 사용자 대화 정보에 기초하여 출력 오디오 장면을 생성한다.
객체 메타 데이터 코덱 각 객체에 대해, 3D 공간에서의 객체의 기하학적 위치 및 볼륨을 지정하는 관련 메타데이터는 시간과 공간에서의 객체 속성의 양자화에 의해 효율적으로 코딩된다. 압축된 객체 메타데이터(COAM)(1554, 1632)는 부가 정보로서, 수신기로 전송된다.
삭제
객체 렌더러/믹서
객체 렌더러는 주어진 재생 포맷에 따른 객체 파형을 생성하기 위한 압축된 객체 메타데이터를 이용한다. 각 객체는 메타데이터에 따라 특정 출력 채널로 렌더링된다. 이 블록의 출력은 부분 결과들의 합으로부터 초래된다. 양쪽 채널 기반 컨텐트 뿐만 아니라 이산/파라메트릭 객체가 디코딩되는 경우, 채널 기반의 파형과 렌더링된 객체 파형은 결과적인 파형을 출력하기 전에(또는 입체 음향 렌더러 또는 스피커 렌더러 모듈과 같은 후치 프로세서에 공급하기 전에) 믹싱된다.
입체 음향 렌더러
입체 음향 렌더러 모듈(1680)은 다중 채널 오디오 자료의 입체 음향 다운믹스를 생성하여, 각 입력 채널은 가상 사운드 소스에 의해 표현된다. 처리는 QMF 도메인에서 프레임-방식으로(frame-wiser) 수행된다. 입체 음향화는 측정된 임체 음향 룸 임펄스 음답들에 기초한다.
스피커 렌더러 / 형식 변환
송신된 채널 구성과 원하는 재생 포맷 사이에서 변환한다. 이에 따라, 다음에서 "포맷 변환기"라 불린다. 포맷 변환기는 더 낮은 수의 출력 채널들로의 변환들을 수행하는데, 즉 다운믹스들을 생성한다. 시스템은 입력 및 출력 포맷들의 주어진 조합에 대한 최적화된 다운믹스 매트릭스들을 자동으로 생성하고, 다운믹스 프로세스에서 이들 매트릭스들을 적용한다. 포맷 변환기는 표준 스피커 구성들에 대해서 뿐 아니라 비-표준 스피커 위치들을 갖는 랜덤 구성들에 대해 허용한다.
도 17은 포맷 변환의 개략적인 블록도를 나타낸다. 알 수 있는 바와 같이, 포맷 변환기(1700)는 믹서 출력 신호(1710), 예를 들면, 믹싱된 채널 신호(1672)를 수신하고, 스피커 신호들(1712), 예를 들면, 스피커 신호(1616)를 제공한다. 포맷 변환기는 QMF 도메인 및 다운믹스 구성기(1730)에서 다운믹스 프로세스(1720)를 포함하고, 다운믹스 구성기는 믹서 출력 레이아웃 정보(1732) 및 재생 레이아웃 정보에(1734)에 기초하여 다운믹스 프로세스(1720)에 대한 구성 정보를 제공한다.
또한, 전술한 개념, 예를 들어, 오디오 인코더(100), 오디오 디코더(200 또는 300), 오디오 인코더(400), 오디오 디코더(500 또는 600), 방법들(700, 800, 900, 또는 1000), 오디오 인코더(1100 또는 1200) 및 오디오 디코더(1300)는 오디오 인코더(1500) 및/또는 오디오 디코더(1600) 내에서 사용될 수 있다는 것이 주지되어야 한다. 예를 들어, 전술한 오디오 인코더/디코더는 상이한 공간 위치들과 연관되는 채널 신호들의 인코딩 또는 디코딩을 위해 사용될 수 있다.
13. 대안적인 실시예들
이하, 추가적인 실시예를 설명할 것이다.
도 18 내지 도 21을 이제 참조하면, 본 발명에 따른 추가적인 실시예가 설명될 것이다.
소위 "쿼드 채널 요소"(QCE)가 예를 들어, 3차원 오디오 컨텐트에 사용될 수 있는 오디오 디코더의 툴로서 고려될 수 있다는 것이 주지되어야 한다.
즉, 쿼드 채널 요소(QCE)는 수평 및 수직으로의 분배 채널을 보다 효율적으로 코딩하기 위한 4개의 채널의 결합 코딩을 위한 방법이다. QCE는 2개의 연속 CPE로 구성되고, 수직 방향의 MPEG 서라운드 스테레오 툴과 수평 방향의 복합 스테레오 예측 툴과 결합 스테레오 툴을 계층적으로 조합함으로써 형성된다. 이것은 두 개의 스테레오 툴들을 인에이블링(enabling)하고 툴들을 적용하는 것 사이에서 출력 채널들을 스와핑(swapping)함으로써 달성된다. 스테레오 SBR은 고주파수의 좌측-우측 관계를 보존하기 위해 수평 방향으로 수행된다.
도 18은 QCE의 위상 구조를 도시한다. 도 18의 QCE가 도 11의 OCE와 유사하여, 상기 설명을 참조하게 된다는 점에 유의해야 한다. 하지만, 도 18의 QCE에서, 복합 스테레오 예측을 수행할 때 음향 심리학적 모델을 이용(그러한 이용이 자연스럽게 선택적으로 가능하면서)하는 것이 필요하지 않다. 또한, 제 1 스테레오 스펙트럼 대역 복제(스테레오 SBR)가 좌측 하부 채널 및 우측 하부 채널에 기초하여 수행되고, 제 2 스테레오 스펙트럼 대역 복제(스테레오 SBR)가 좌측 상부 채널 및 우측 상부 채널에 기초하여 수행되는 것을 알 수 있다.
이하, 몇 가지 용어 및 정의가 제공될 것이고, 이것은 몇몇 실시예에 적용 될 수 있다.
데이터 요소 qceIndex는 CPE의 QCE 모드를 나타낸다. 비트스트림 변수 qceIndex의 의미에 대해서는, 도 14b를 참조로 이루어진다. qceIndex가 유형 UsacChannelPairElement()의 2개의 후속 요소들이 쿼드러플 채널 요소(QCE)로서 처리되는지 여부를 설명하는 점을 유의해야 한다. 상이한 QCE 모드가 도 14b에 주어진다. qceIndex는 하나의 QCE을 형성하는 2개의 후속 요소에 대해 동일해야 한다.
이하에서, 몇몇 도움 요소이 정의될 것이고, 이것은 본 발명에 따른 몇몇 실시예들에서 사용될 수 있다:
cplx_out_dmx_L 복합 예측 스테레오 디코딩 이후 제 1 CPE의 제 1 채널
cplx_out_dmx_R[] 복합 예측 스테레오 디코딩 이후 제 1 CPE의 제 2 채널
cplx_out_res_L[] 복합 예측 스테레오 디코딩 이후 제 2 CPE(qcelndex=1인 경우 제로)
cplx_out_res_R[] 복합 예측 스테레오 디코딩 이후 제 2 CPE의 제 2 채널(qceIndex = 1인 경우 제로)
mps_out_L_1은 [] 제 1 MPS 박스의 제 1 출력 채널
mps_out_L_2은 [] 제 1 MPS 박스의 제 2 출력 채널
mps_out_R_1은 [] 제 2 MPS 박스의 제 1 출력 채널
mps_out_R_2[] 제 2 MPS 박스의 제 2 출력 채널
sbr_out_L_1은 [] 제 1 스테레오 SBR 박스의 제 1 출력 채널
sbr_out_R_1은 [] 제 1 스테레오 SBR 박스의 제 2 출력 채널
sbr_out_L_2은 [] 제 2 스테레오 SBR 박스의 제 1 출력 채널
sbr_out_R_2은 [] 제 2 스테레오 SBR 박스의 제 2 출력 채널
이하, 본 발명에 따른 실시예에서 수행되는 디코딩 프로세스에 대하여 설명한다.
UsacChannelPairElementConfig()에서의 구문 요소(또는 비트 스트림 요소 또는 데이터 요소)qcelndex는, CPE가 QCE에 속하는지의 여부와 잔류 코딩이 사용되는 경우를 나타낸다. qceIndex이 0과 동일하지 않은 경우에, 현재 CPE는 후속 요소와 함께 QCE를 형성하고, 이것은 동일한 qceIndex를 갖는 CPE일 수 있다. 스테레오 SBR이 항상 QCE에 사용되어, 구문 항목 stereoConfigIndex은 3일 수 있고, bsStereoSbr는 1이다.
qceIndex == 1인 경우에, MPEG 서라운드 및 SBR에 대한 페이로드 및 관련 오디오 신호 데이터는 제 2 CPE에 포함되지 않고, 구문 요소 bsResidualCoding는 0으로 설정된다.
제 2 CPE에서 잔류 신호의 존재는 qceIndex == 2로 표시된다. 이 경우에, 구문 요소는 ResidualCoding일 수 있고, 1로 설정된다.
그러나, 또한 몇몇 다른 가능한 간략화된 신호 발신 구성이 사용될 수 있다.
복합 스테레오 예측의 가능성을 가지고 결합 스테레오의 디코딩은 ISO/IEC 23003-3, 서브 절 7.7에 기재된 바와 같이 수행된다. 제 1 CPE의 결과적인 출력은 MPS 다운믹스 신호 cplx_out_dmx_L[] 및 cplx_out_dmx_R[]이다. 잔류 코딩이 사용되는 경우(즉 qceIndex == 2), 제 2 CPE의 출력은 MPS 잔류 신호cplx_out_res_L[]이고, 잔류 신호가 전송되지 않은 경우(즉 qceIndex == 1), 제로 신호가 삽입된다.
MPEG 서라운드 디코딩을 적용하기 전에, 제 1 요소(cplx_out_dmx_R [])의 제 2 채널 및 제 2 요소(cplx_out_res_L[])의 제 1 채널은 스와핑된다.
ISO / IEC 23003-3, 7.11절에 기술된 바와 같이 MPEG 서라운드의 디코딩이 수행된다. 잔류 코딩이 사용되는 경우, 하지만, 디코딩은 몇몇 실시예에서, 종래의 MPEG 서라운드 디코딩에 비해 변형될 수 있다. ISO/IEC 23003-3에 정의된 SBR을 사용하여 잔류하지 않고 MPEG 서라운드 디코딩은, 스테레오 SBR이 또한 bsResidualCoding == 1에 사용되도록 변형되어, 도 19에 도시된 디코더 구문들을 초래한다. 도 19는 bsResidualCoding == 0과 bsStereoSbr == 1을 위한 오디오 코더의 개략적인 블록도를 도시한다.
도 19에서 알 수 있듯이, USAC 코어 디코더(2010)는 다운믹스 신호(DMX)(2012)를 MPS(MPEG 서라운드) 디코더(2020)에 제공하고, 이것은 제 1 디코딩된 오디오 신호(2022) 및 제 2 디코딩된 오디오 신호(2024)를 제공한다. 스테레오 SBR 디코더(2030)는 제 1 디코딩된 오디오 신호(2022) 및 제 2 디코딩된 오디오 신호(2024)를 수신하고, 이에 기초하여, 좌측 대역폭 확장된 오디오 신호(2032) 및 우측 대역폭 확장된 오디오 신호(2034)를 제공한다.
스테레오 SBR을 적용하기 전에, 제 1 요소(mps_out_L_2[])의 제 2 채널과 제 2 요소(mps_out_R_1[])의 제 1 채널은 우측-좌측 스테레오 SBR을 허용하도록 스와핑된다. 스테레오 SBR의 적용 후, 제 1 요소(sbr_out_R_1[])의 제 2 출력과 제 2 요소(sbr_out_L_2[])의 제 1 채널은 입력 채널 순서를 복원하기 위해 다시 스와핑된다.
QCE 디코더 구조는 도 20에 도시되고, 도 20은 QCE 디코더 구성을 도시한다.
도 20의 개략적인 블록가 도 13의 개략적인 블록도와 매우 유사하여, 상기 설명에 대해 또한 참조된다는 것이 주지되어야 한다. 또한, 몇몇 신호 발신이 도 20에 추가되었고, 이 섹션에서의 정의를 참조하는 것이 주지되어야 한다. 더욱이, 채널들의 최종 분류가 도시되고, 이것은 스테레오 SBR 이후에 수행된다.
도 21은 본 발명의 실시예에 따른 쿼드 채널 인코더(2200)의 개략적인 블록도를 도시한다. 즉, 코어 인코더 툴로서 간주될 수 있는 쿼드 채널 인코더(쿼드 채널 요소)가 도 21에 도시된다.
쿼드 채널 인코더(2200)는 제 1 스테레오 SBR(2210)를 포함하고, 이것은 제 1 좌측 채널 입력 신호(2212) 및 제 2 좌측 채널 입력 신호(2214)를 수신하고, 이에 기초하여, 제 1 SBR 페이로드(2215), 제 2 좌측 채널(SBR) 출력 신호(2216) 및 제 1 우측 채널 SBR 출력 신호(2218)를 제공한다. 또한, 쿼드 채널 인코더(2200)는 제 2 스테레오 SBR을 포함하고, 이것은 제 2 좌측 채널 입력 신호(2222) 및 제 2 우측 채널 입력 신호(2224)를 수신하고, 이에 기초하여, 제 1 SBR 페이로드(2225), 제 1 좌측 채널 SBR 출력 신호(2226) 및 제 1 우측 채널 SBR 출력 신호(2228)를 제공한다.
쿼드 채널 인코더(2200)는 제 1 MPEG-서라운드-유형(MPS 2-1-2 또는 통합형 스테레오) 다중-채널 인코더(2230)를 포함하고, 이것은 제 1 좌측 채널 SBR 출력 신호(2216) 및 제 2 좌측 채널 SBR 출력 신호(2226)를 수신하고, 이에 기초하여, 제 1 MPS 페이로드(2232), 좌측 채널 MPEG 서라운드 다운믹스 신호(2234), 및 선택적으로 좌측 채널 MPEG 서라운드 잔류 신호(2236)를 제공한다.
쿼드 채널 인코더(2200)는 제 2 MPEG-서라운드-유형(MPS 2-1-2 또는 통합형 스테레오) 다중-채널 인코더(2240)를 포함하고, 이것은 제 2 우측 채널 SBR 출력 신호(2218) 및 제 2 우측 채널 SBR 출력 신호(2228)를 수신하고, 이에 기초하여, 제 1 MPS 페이로드(2242), 우측 채널 MPEG 서라운드 다운믹스 신호(2244), 및 선택적으로 우측 채널 MPEG 서라운드 잔류 신호(2246)를 제공한다.
쿼드 채널 인코더(2200)는 제 1 복합 예측 스테레오 인코딩(2250)을 포함하고, 이것은 좌측 채널 MPEG 서라운드 다운믹스 신호(2234) 및 우측 채널 MPEG 서라운드 다운믹스 신호(2244)를 수신하고, 이에 기초하여, 복합 예측 페이로드(2252), 및 좌측 채널 MPEG 서라운드 다운믹스 신호(2234)와 우측 채널 MPEG 서라운드 다운믹스 신호(2244)의 결합하여 인코딩된 표현(2254)을 제공한다. 쿼드 채널 인코더(2200)는 제 2 복합 예측 스테레오 인코딩(2260)을 포함하고, 이것은 좌측 채널 MPEG 서라운드 잔류 신호(2236) 및 우측 채널 MPEG 서라운드 잔류 신호(2246)를 수신하고, 이에 기초하여, 복합 예측 페이로드(2262), 및 좌측 채널 MPEG 서라운드 다운믹스 신호(2236)와 우측 채널 MPEG 서라운드 다운믹스 신호(2246)의 결합하여 인코딩된 표현(2254)을 제공한다.
쿼드 채널 인코더는 또한 제 1 비트스트림 인코딩(2270)을 포함하고, 이것은 결합하에 인코딩된 표현(2254), 복합 예측 페이로드(2252m), MPS 페이로드(2232) 및 SBR 페이로드(2215)를 수신하고, 이에 기초하여 제 1 채널 쌍 엘리먼트를 나타내는 비트스트림 부분을 제공한다. 쿼드 채널 인코더는 또한 제 2 비트스트림 인코딩(2280)을 포함하고, 이것은 결합하여 인코딩된 표현(2264), 복합 예측 페이로드(2262), MPS 페이로드(2242) 및 SBR 페이로드(2225)를 수신하고, 이에 기초하여, 제 1 채널 쌍 엘리먼트를 나타내는 비트스트림 부분을 제공한다.
14. 구현 대안들
몇몇 양상들이 장치의 정황에서 기재되었지만, 이들 양상들이 또한, 블록 또는 디바이스가 방법 단계 또는 방법 단계의 특징에 대응하는 대응하는 방법의 설명을 나타낸다는 것이 또한 명백하다. 유사하게, 방법 단계의 정황에서 기재된 양상들은 또한 대응하는 장치의 대응하는 블록 또는 항목 또는 특징의 설명을 나타낸다. 방법 단계들의 몇몇 또는 전부는 예를 들어, 마이크로프로세서, 프로그래밍가능 컴퓨터 또는 전자 회로와 같은 하드웨어 장치에 의해(또는 이용하여) 실행될 수 있다. 몇몇 실시예들에서, 하나 이상의 가장 중요한 방법 단계들의 몇몇은 그러한 장치에 의해 실행될 수 있다.
본 발명의 인코딩된 오디오 신호는 디지털 저장 매체 상에 저장될 수 있거나, 인터넷과 같은 무선 송신 매체 또는 유선 송신 매체와 같은 송신 매체 상에서 송신될 수 있다.
특정 구현 요건들에 따라, 본 발명의 실시예들은 하드웨어 또는 소프트웨어로 구현될 수 있다. 구현은 디지털 저장 매체, 예를 들어, 플로피 디스크, DVD, CD, ROM, PROM, EPROM, EEPROM, 또는 FLASH 메모리를 이용하여 수행될 수 있는데, 이러한 디지털 저장 매체는 그 위에 저장된 전자적으로 판독가능한 제어 신호들을 갖고, 각 방법이 수행되도록 프로그래밍가능 컴퓨터 시스템과 협력한다(또는 협력할 수 있다). 그러므로, 디지털 저장 매체는 컴퓨터 판독가능할 수 있다.
본 발명에 따른 몇몇 실시예들은, 본 명세서에 기재된 방법들 중 하나가 수행되도록, 프로그래밍가능 컴퓨터 시스템과 협력할 수 있는, 전자적으로 판독가능한 제어 신호들을 갖는 데이터 캐리어를 포함한다.
일반적으로, 본 발명의 실시예들은 프로그램 코드를 갖는 컴퓨터 프로그램 제품으로서 구현될 수 있고, 프로그램 코드는, 컴퓨터 프로그램이 컴퓨터 상에서 실행될 때 방법들 중 하나를 수행하기 위해 동작가능하다. 프로그램 코드는 예를 들어, 기계 판독가능한 캐리어 상에 저장될 수 있다.
다른 실시예들은 기계 판독가능한 캐리어 상에 저장된, 본 명세서에 기재된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함한다.
즉, 그러므로, 본 발명의 방법의 실시예는, 컴퓨터 프로그램이 컴퓨터 상에서 실행될 때, 본 명세서에 기재된 방법들 중 하나를 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.
그러므로, 본 발명의 방법들의 추가 실시예는 본 명세서에 기재된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 그 위에 리코딩되게 포함하는 데이터 캐리어(또는 디지털 저장 매체, 또는 컴퓨터-판독가능 매체)이다. 데이터 캐리어, 디지털 저장 매체 또는 리코딩된 매체는 일반적으로 실체적(tangible)이고 및/또는 비-과도적이다.
그러므로, 본 발명의 방법의 추가 실시예는 본 명세서에 기재된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 나타내는 신호들의 시퀀스 또는 데이터 스트림이다. 예를 들어, 신호들의 시퀀스들 또는 데이터 스트림은 데이터 통신 연결부를 통해, 예를 들어, 인터넷을 통해, 전송되도록 구성될 수 있다.
추가 실시예는 본 명세서에 기재된 방법들 중 하나를 수행하도록 프로그래밍되고, 구성되거나 적응된 처리 수단, 예를 들어, 컴퓨터, 또는 프로그래밍가능 논리 디바이스를 포함한다.
추가 실시예는 본 명세서에 기재된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램이 그 위에 설치된 컴퓨터를 포함한다.
본 발명에 따른 추가 실시예는 본 명세서에 기재된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 수신기에 (예를 들어, 전자적으로 또는 광학적으로) 전달하도록 구성된 장치 또는 시스템을 포함한다. 수신기는 예를 들어, 컴퓨터, 모바일 디바이스, 메모리 디바이스 등일 수 있다. 장치 또는 시스템은 예를 들어, 컴퓨터 프로그램을 수신기에 전달하기 위한 파일 서버를 포함할 수 있다.
몇몇 실시예들에서, 프로그래밍가능 논리 디바이스(예를 들어, 전계 프로그래밍가능 게이트 어레이)는 본 명세서에 기재된 방법들의 기능들 중 몇몇 또는 전부를 수행하는데 사용될 수 있다. 몇몇 실시예들에서, 전계 프로그래밍가능 게이트 어레이는 본 명세서에 기재된 방법들 중 하나를 수행하기 위해 마이크로프로세서와 협력할 수 있다. 일반적으로, 방법들은 임의의 하드웨어 장치에 의해 바람직하게 수행된다.
전술한 실시예들은 본 발명의 원리들을 위해 단지 예시적이다. 본 명세서에 기재된 세부사항들 및 배치들의 변형들 및 변경들이 당업자에게 명백하다는 것이 이해된다. 그러므로, 본 명세서에서 실시예들의 기재 및 설명에 의해 제공된 특정 세부사항들에 의해서가 아니라 다음의 특허 청구항들의 범주에 의해서만 제한되도록 의도된다.
15. 결론
이하, 몇 가지 결론을 제공할 것이다.
본 발명에 따른 실시예들은 수직 및 수평으로 분배된 채널 간의 신호 종속성을 설명하기 위해, 4개의 채널이 결합 스테레오 코딩 툴들을 계층적으로 조합함으로써 결합하여 코딩될 수 있다는 고려사항에 기초한다. 예를 들어 수직 채널 쌍은 MPS 2-1-2 및/또는 통합형 스테레오를 이용하여 대역-제한 또는 전대역 잔류 코딩과 조합된다. 입체 음향 언마스킹에 대한 지각적 요건들을 충족하기 위해, 출력 다운믹스들은 예를 들어 MDCT 도메인에서 복합 예측의 이용에 의해 결합하여 코딩되고, 이것은 좌측-우측 및 중간-측 코딩의 가능성을 포함한다. 잔류 신호들이 존재하는 경우, 이들은 동일한 방법을 이용하여 수평으로 조합된다.
또한, 본 발명에 따른 실시예들은 종래 기술의 단점의 일부 또는 전부를 극복하는 것이 주지되어야 한다. 본 발명에 따른 실시예들은 3D 오디오 컨텍스트에 적응되고, 스피커 채널들은 7개의 높이 층들에 분배되어, 수평 및 수직 채널 쌍들을 초래한다. USAC에서 정의된 2개의 채널들만의 결합 코딩은 채널들 사이의 공간 및 지각적 관계들을 고려할 정도로 충분하지 않다는 것이 발견되었다. 하지만, 이문제는 본 발명에 따른 실시예들에 의해 극복된다.
또한, 종래의 MPEG 서라운드가 추가 사전-/후치 처리 단계에 적용되어, 잔류 신호들은 결합 스테레오 코딩의 가능성 없이, 예를 들어 좌측 및 우측 방사상 잔류 신호들 사이의 종속성들을 탐색하기 위해 개별적으로 송신된다. 이와 대조적으로, 본 발명에 따른 실시예들은 그러한 종속성들을 이용함으로써 효율적인 인코딩/디코딩을 허용한다.
추가로 결론적으로, 본 발명에 따른 실시예들은 본원에 기재된 바와 같이 인코딩 및 디코딩을 위한 장치, 방법 또는 컴퓨터 프로그램을 생성한다.
인용 문헌들
[1] ISO/IEC 23003-3: 2012 - Information Technology - MPEG Audio Technologies, Part 3: Unified Speech and Audio Coding;
[2] ISO/IEC 23003-1: 2007 - Information Technology - MPEG Audio Technologies, Part1:MPEGSurround

Claims (42)

  1. 인코딩된 표현(210;310;360;610;682;1310;1312;1610)에 기초하여 적어도 4개의 오디오 채널 신호들(220,222,224,226; 320,322,324,326; 620,622,624, 626; 1320,1322,1324,1326)을 제공하기 위한 오디오 디코더(200;300;600;1300;1600;2000)로서,
    상기 오디오 디코더는, 잔류 신호들 사이의 유사도(similarity)들 및/또는 의존도(dependency)들을 이용하는 다중-채널 디코딩(230;330;680;1360)을 이용하여 제 1 잔류 신호와 제 2 잔류 신호의 결합하여 인코딩된 표현(210;310;682;1312)에 기초하여 제 1 잔류 신호(232;332;684;1362) 및 제 2 잔류 신호(234;334;686;1364)를 제공하도록 구성되고;
    상기 오디오 디코더는 잔류-신호-보조된 다중-채널 디코딩(240;340;640;1370)을 이용하여 제 1 다운믹스 신호(212;312;632;1342) 및 제 1 잔류 신호에 기초하여 제 1 오디오 채널 신호(220;320;642;1372) 및 제 2 오디오 채널 신호(222;322;644;1374)를 제공하도록 구성되고; 및
    상기 오디오 디코더는 잔류-신호-보조된 다중-채널 디코딩(250;350;650;1380)을 이용하여 제 2 다운믹스 신호(214;314;634;1344) 및 제 2 잔류 신호에 기초하여 제 3 오디오 채널 신호(224;324;656;1382) 및 제 4 오디오 채널 신호(226;326;658;1384)를 제공하도록 구성되는, 오디오 디코더.
  2. 제 1항에 있어서, 상기 오디오 디코더는 다중-채널 디코딩(370;630;1340)을 이용하여 상기 제 1 다운믹스 신호 및 상기 제 2 다운믹스 신호의 결합하여-인코딩된 표현(360;610;1310)에 기초하여 상기 제 1 다운믹스 신호(212;312;632;1342) 및 상기 제 2 다운믹스 신호(214;314;634;1344)를 제공하도록 구성되는, 오디오 디코더.
  3. 제 1항에 있어서, 상기 오디오 디코더는 예측-기반의 다중-채널 디코딩을 이용하여 상기 제 1 잔류 신호 및 상기 제 2 잔류 신호의 상기 결합하여 인코딩된 표현에 기초하여 상기 제 1 잔류 신호 및 상기 제 2 잔류 신호를 제공하도록 구성되는, 오디오 디코더.
  4. 제 1항에 있어서, 상기 오디오 디코더는 잔류-신호-보조된 다중-채널 디코딩을 이용하여 상기 제 1 잔류 신호 및 상기 제 2 잔류 신호의 상기 결합하여 인코딩된 표현에 기초하여 상기 제 1 잔류 신호 및 상기 제 2 잔류 신호를 제공하도록 구성되는 오디오 디코더.
  5. 제 3항에 있어서, 상기 예측-기반의 다중-채널 디코딩은 이전 프레임의 신호 성분을 이용하여 도출되는 신호 성분의 현재 프레임의 상기 잔류 신호들의 제공에 기여하는 것을 기재하는 예측 파라미터를 평가하도록 구성되는, 오디오 디코더.
  6. 제 3항에 있어서, 상기 예측-기반의 다중-채널 디코딩은 상기 제 1 잔류 신호 및 상기 제 2 잔류 신호의 다운믹스 신호에 기초하여, 그리고 상기 제 1 잔류 신호 및 상기 제 2 잔류 신호의 공통 잔류 신호에 기초하여 상기 제 1 잔류 신호 및 상기 제 2 잔류 신호를 얻도록 구성되는, 오디오 디코더.
  7. 제 6항에 있어서, 상기 예측-기반의 다중-채널 디코딩은 제 1 부호를 갖는 상기 공통 잔류 신호를 적용하여, 상기 제 1 잔류 신호를 얻고, 상기 제 1 부호와 반대인 제 2 부호를 갖는 상기 공통 잔류 신호를 적용하여, 상기 제 2 잔류 신호를 얻도록 구성되는, 오디오 디코더.
  8. 제 1항에 있어서, 상기 오디오 디코더는 MDCT 도메인에서 동작가능한 다중-채널 디코딩을 이용하여 상기 제 1 잔류 신호 및 상기 제 2 잔류 신호의 상기 결합하여 인코딩된 표현에 기초하여 상기 제 1 잔류 신호 및 상기 제 2 잔류 신호를 제공하도록 구성되는, 오디오 디코더.
  9. 제 1항에 있어서, 상기 오디오 디코더는 USAC 복합 스테레오 예측을 이용하여 상기 제 1 잔류 신호 및 상기 제 2 잔류 신호의 상기 결합하여 인코딩된 표현에 기초하여 상기 제 1 잔류 신호 및 상기 제 2 잔류 신호를 제공하도록 구성되는, 오디오 디코더.
  10. 제 1항에 있어서,
    상기 오디오 디코더는 파라미터-기반의 잔류-신호-보조된 다중-채널 디코딩을 이용하여 상기 제 1 다운믹스 신호 및 상기 제 1 잔류 신호에 기초하여 상기 제 1 오디오 채널 신호 및 상기 제 2 오디오 채널 신호를 제공하도록 구성되고; 및
    상기 오디오 디코더는 파라미터-기반의 잔류-신호-보조된 다중-채널 디코딩을 이용하여 상기 제 2 다운믹스 신호 및 상기 제 2 잔류 신호에 기초하여 상기 제 3 오디오 채널 신호 및 상기 제 4 오디오 채널 신호를 제공하도록 구성되는, 오디오 디코더.
  11. 제 10항에 있어서, 상기 파라미터-기반의 잔류-신호 보조된 다중-채널 디코딩은 상기 다운믹스 신호들의 각 다운믹스 신호와 상기 잔류 신호들의 대응하는 잔류 신호에 기초하여 2개 이상의 오디오 채널 신호들을 제공하기 위해 2개의 채널들 사이의 원하는 상관 및/또는 2개의 채널들 사이의 레벨 차이들을 기재하는 하나 이상의 파라미터들을 평가하도록 구성되는, 오디오 디코더.
  12. 제 1항에 있어서, 상기 오디오 디코더는 QMF 도메인에서 동작하는 잔류-신호-보조된 다중-채널 디코딩을 이용하여 상기 제 1 다운믹스 신호 및 상기 제 1 잔류 신호에 기초하여 상기 제 1 오디오 채널 신호 및 상기 제 2 오디오 채널 신호를 제공하도록 구성되고, 및
    상기 오디오 디코더는 QMF 도메인에서 동작하는 잔류-신호-보조된 다중-채널 디코딩을 이용하여 상기 제 2 다운믹스 신호 및 상기 제 2 잔류 신호에 기초하여 상기 제 3 오디오 채널 신호 및 상기 제 4 오디오 채널 신호를 제공하도록 구성되는, 오디오 디코더.
  13. 제 1항에 있어서, 상기 오디오 디코더는 MPEG 서라운드 2-1-2 디코딩 또는 통합형 스테레오 디코딩을 이용하여 상기 제 1 다운믹스 신호 및 상기 제 1 잔류 신호에 기초하여 상기 제 1 오디오 채널 신호 및 상기 제 2 오디오 채널 신호를 제공하도록 구성되고; 및
    상기 오디오 디코더는 MPEG 서라운드 2-1-2 디코딩 또는 통합형 스테레오 디코딩을 이용하여 상기 제 2 다운믹스 신호 및 상기 제 2 잔류 신호에 기초하여 상기 제 3 오디오 채널 신호 및 상기 제 4 오디오 채널 신호를 제공하도록 구성되는, 오디오 디코더.
  14. 제 1항에 있어서, 상기 제 1 잔류 신호 및 상기 제 2 잔류 신호는 오디오 장면의 상이한 수평 위치들 또는 상기 오디오 장면의 상이한 방위각 위치들과 연관되는, 오디오 디코더.
  15. 제 1항에 있어서, 상기 제 1 오디오 채널 신호 및 상기 제 2 오디오 채널 신호는 오디오 장면의 수직적 이웃 위치들과 연관되고,
    상기 제 3 오디오 채널 신호 및 상기 제 4 오디오 채널 신호는 상기 오디오 장면의 수직적 이웃 위치들과 연관되는, 오디오 디코더.
  16. 제 1항에 있어서, 상기 제 1 오디오 채널 신호 및 상기 제 2 오디오 채널 신호는 오디오 장면의 제 1 수평 위치 또는 방위각 위치와 연관되고,
    상기 제 3 오디오 채널 신호 및 상기 제 4 오디오 채널 신호는 상기 제 1 수평 위치 또는 상기 제 1 방위각 위치와 상이한, 상기 오디오 장면의 제 2 수평 위치 또는 방위각 위치와 연관되는, 오디오 디코더.
  17. 제 1항에 있어서, 상기 제 1 잔류 신호는 오디오 장면의 좌측부와 연관되고, 상기 제 2 잔류 신호는 오디오 장면의 우측부와 연관되는, 오디오 디코더.
  18. 제 17항에 있어서,
    상기 제 1 오디오 채널 신호 및 상기 제 2 오디오 채널 신호는 상기 오디오 장면의 상기 좌측부와 연관되고,
    상기 제 3 오디오 채널 신호 및 상기 제 4 오디오 채널 신호는 상기 오디오 장면의 상기 우측부와 연관되는, 오디오 디코더.
  19. 제 18항에 있어서, 상기 제 1 오디오 채널 신호는 상기 오디오 장면의 하부 좌측 위치와 연관되고,
    상기 제 2 오디오 채널 신호는 상기 오디오 장면의 상부 좌측 위치와 연관되고,
    상기 제 3 오디오 채널 신호는 상기 오디오 장면의 하부 우측 위치와 연관되고,
    상기 제 4 오디오 채널 신호는 상기 오디오 장면의 상부 우측 위치와 연관되는, 오디오 디코더.
  20. 제 1항에 있어서, 상기 오디오 디코더는 다중-채널 디코딩을 이용하여 상기 제 1 다운믹스 신호 및 상기 제 2 다운믹스 신호의 결합하여-인코딩된 표현에 기초하여 상기 제 1 다운믹스 신호 및 상기 제 2 다운믹스 신호를 제공하도록 구성되고, 상기 제 1 다운믹스 신호는 오디오 장면의 좌측부와 연관되고, 상기 제 2 다운믹스 신호는 상기 오디오 장면의 우측부와 연관되는, 오디오 디코더.
  21. 제 1항에 있어서, 상기 오디오 디코더는 예측-기반의 다중-채널 디코딩을 이용하여 상기 제 1 다운믹스 신호 및 상기 제 2 다운믹스 신호의 결합하여-인코딩된 표현에 기초하여 상기 제 1 다운믹스 신호 및 상기 제 2 다운믹스 신호를 제공하도록 구성되는, 오디오 디코더.
  22. 제 1항에 있어서, 상기 오디오 디코더는 잔류-신호-보조된 예측-기반의의 다중-채널 디코딩을 이용하여 상기 제 1 다운믹스 신호 및 상기 제 2 다운믹스 신호의 결합하여-인코딩된 표현에 기초하여 상기 제 1 다운믹스 신호 및 상기 제 2 다운믹스 신호를 제공하도록 구성되는, 오디오 디코더.
  23. 제 1항에 있어서, 상기 오디오 디코더는 상기 제 1 오디오 채널 신호 및 상기 제 3 오디오 채널 신호에 기초하여 제 1 다중-채널 대역폭 확장(660;1390)을 수행하도록 구성되고,
    상기 오디오 디코더는 상기 제 2 오디오 채널 신호 및 상기 제 4 오디오 채널 신호에 기초하여 제 2 다중-채널 대역폭 확장(670;1394)을 수행하도록 구성되는, 오디오 디코더.
  24. 제 23항에 있어서, 상기 오디오 디코더는 상기 제 1 오디오 채널 신호 및 상기 제 3 오디오 채널 신호와 하나 이상의 대역폭 확장 파라미터들(1338)에 기초하여 오디오 장면의 제 1 공통 앙각(elevation) 또는 제 1 공통 수평 평면과 연관된 2개 이상의 대역폭-확장된 오디오 채널 신호들(620,624;1320,1324)을 얻기 위해 상기 제 1 다중-채널 대역폭 확장을 수행하도록 구성되고,
    상기 오디오 디코더는 상기 제 2 오디오 채널 신호 및 상기 제 4 오디오 채널 신호와 하나 이상의 대역폭 확장 파라미터들(1358)에 기초하여 오디오 장면의 제 2 공통 앙각 또는 제 2 공통 수평 평면과 연관된 2개 이상의 대역폭-확장된 오디오 채널 신호들(622,626;1322,1326)을 얻기 위해 상기 제 2 다중-채널 대역폭 확장을 수행하도록 구성되는, 오디오 디코더.
  25. 제 1항에 있어서, 상기 제 1 잔류 신호 및 상기 제 2 잔류 신호의 상기 결합하여 인코딩된 표현은 상기 제 1 및 제 2 잔류 신호의 다운믹스 신호와, 상기 제 1 및 제 2 잔류 신호의 공통 잔류 신호를 포함하는 채널 쌍 엘리먼트를 포함하는, 오디오 디코더.
  26. 제 1항에 있어서, 상기 오디오 디코더는 다중-채널 디코딩을 이용하여 상기 제 1 다운믹스 신호 및 상기 제 2 다운믹스 신호의 결합하여-인코딩된 표현에 기초하여 상기 제 1 다운믹스 신호 및 상기 제 2 다운믹스 신호를 제공하도록 구성되고,
    상기 제 1 다운믹스 신호 및 상기 제 2 다운믹스 신호의 상기 결합하여 인코딩된 표현은 상기 제 1 및 제 2 다운믹스 신호의 다운믹스 신호와, 상기 제 1 및 제 2 다운믹스 신호의 공통 잔류 신호를 포함하는 채널 쌍 엘리먼트를 포함하는, 오디오 디코더.
  27. 적어도 4개의 오디오 채널 신호들(110,112,114,116; 1110,1112,1114,1116; 1210,1212,1214,1216; 2216,2226,2218,2228)에 기초하여 인코딩된 표현(130;1144,1154;1220,1222;2272,2282)을 제공하기 위한 오디오 인코더(100;1100;1200;1500;2100)로서,
    상기 오디오 인코더는 제 1 다운믹스 신호(120;1122;1232;2234) 및 제 1 잔류 신호(142;1124;1234;2236)를 얻기 위해 잔류-신호-보조된 다중-채널 인코딩(140;1120;1230;2230)을 이용하여 적어도 제 1 오디오 채널 신호 및 제 2 오디오 채널 신호를 결합하여 인코딩하도록 구성되고;
    상기 오디오 인코더는 제 2 다운믹스 신호(122;1132;1242;2244) 및 제 2 잔류 신호(152;1134;1244;2246)를 얻기 위해 잔류-신호-보조된 다중-채널 인코딩(150;1130;1240;2240)을 이용하여 적어도 제 3 오디오 채널 신호 및 제 4 오디오 채널 신호를 결합하여 인코딩하도록 구성되고;
    상기 오디오 인코더는 잔류 신호들의 결합하여 인코딩된 표현(130;1154;1262;2264)를 얻기 위해 전류 신호들 사이의 유사도들 및/또는 의존도들을 이용하는 다중-채널 인코딩(160;1150;1260;2260)를 이용하여 제 1 잔류 신호 및 제 2 잔류 신호를 결합하여 인코딩하도록 구성되는, 오디오 인코더.
  28. 제 27항에 있어서,
    상기 오디오 인코더는 상기 다운믹스 신호들의 결합하여 인코딩된 표현(1144;1252;2254)을 얻기 위해 다중-채널 인코딩(1140;1250;2250)을 이용하여 상기 제 1 다운믹스 신호 및 상기 제 2 다운믹스 신호를 결합하여 인코딩하도록 구성되는, 오디오 인코더.
  29. 제 28항에 있어서, 상기 오디오 인코더는 예측-기반의 다중-채널 인코딩을 이용하여 상기 제 1 잔류 신호 및 상기 제 2 잔류 신호를 결합하여 인코딩하도록 구성되고,
    상기 오디오 인코더는 예측-기반의 다중-채널 인코딩을 이용하여 상기 제 1 다운믹스 신호 및 상기 제 2 다운믹스 신호를 결합하여 인코딩하도록 구성되는, 오디오 인코더.
  30. 제 27항에 있어서, 상기 오디오 인코더는 파라미터-기반의 잔류-신호-보조된 다중-채널 인코딩을 이용하여 적어도 상기 제 1 오디오 채널 신호 및 상기 제 2 오디오 채널 신호를 결합하여 인코딩하도록 구성되고,
    상기 오디오 인코더는 파라미터-기반의 잔류-신호-보조된 다중-채널 인코딩을 이용하여 적어도 상기 제 3 오디오 채널 신호 및 상기 제 4 오디오 채널 신호를 결합하여 인코딩하도록 구성되는, 오디오 인코더.
  31. 제 27항에 있어서, 상기 제 1 오디오 채널 신호 및 상기 제 2 오디오 채널 신호는 오디오 장면의 수직적 이웃 위치들과 연관되고,
    상기 제 3 오디오 채널 신호 및 상기 제 4 오디오 채널 신호는 상기 오디오 장면의 수직적 이웃 위치들과 연관되는, 오디오 인코더.
  32. 제 27항에 있어서, 상기 제 1 오디오 채널 신호 및 상기 제 2 오디오 채널 신호는 오디오 장면의 제 1 수평 위치 또는 방위각 위치와 연관되고,
    상기 제 3 오디오 채널 신호 및 상기 제 4 오디오 채널 신호는 상기 제 1 수평 위치 또는 방위각 위치와 상이한, 오디오 장면의 제 2 수평 위치 또는 방위각 위치와 연관되는, 오디오 인코더.
  33. 제 27항에 있어서, 상기 제 1 잔류 신호는 오디오 장면의 좌측부와 연관되고, 상기 제 2 잔류 신호는 상기 오디오 장면의 우측부와 연관되는, 오디오 인코더.
  34. 제 33항에 있어서,
    상기 제 1 오디오 채널 신호 및 상기 제 2 오디오 채널 신호는 상기 오디오 장면의 상기 좌측부와 연관되고,
    상기 제 3 오디오 채널 신호 및 상기 제 4 오디오 채널 신호는 상기 오디오 장면의 상기 우측부와 연관되는, 오디오 인코더.
  35. 제 34항에 있어서, 상기 제 1 오디오 채널 신호는 상기 오디오 장면의 하부 좌측 위치와 연관되고,
    상기 제 2 오디오 채널 신호는 상기 오디오 장면의 상부 좌측 위치와 연관되고,
    상기 제 3 오디오 채널 신호는 상기 오디오 장면의 하부 우측 위치와 연관되고,
    상기 제 4 오디오 채널 신호는 상기 오디오 장면의 상부 우측 위치와 연관되는, 오디오 인코더.
  36. 제 27항에 있어서, 상기 오디오 인코더는 상기 다운믹스 신호들의 결합하여 인코딩된 표현을 얻기 위해 다중-채널 인코딩을 이용하여 상기 제 1 다운믹스 신호 및 상기 제 2 다운믹스 신호를 결합하여 인코딩하도록 구성되고, 상기 제 1 다운믹스 신호는 오디오 장면의 좌측부와 연관되고, 상기 제 2 다운믹스 신호는 상기 오디오 장면의 우측부와 연관되는, 오디오 인코더.
  37. 인코딩된 표현에 기초하여 적어도 4개의 오디오 채널 신호들을 제공하기 위한 방법(800)으로서,
    잔류 신호들 사이의 유사도들 및/또는 의존도들을 활용하는 다중-채널 디코딩을 이용하여 제 1 잔류 신호와 제 2 잔류 신호의 결합하여 인코딩된 표현에 기초하여 제 1 잔류 신호 및 제 2 잔류 신호를 제공하는 단계(810);
    잔류-신호-보조된 다중-채널 디코딩을 이용하여 제 1 다운믹스 신호 및 상기 제 1 잔류 신호에 기초하여 제 1 오디오 채널 신호 및 제 2 오디오 채널 신호를 제공하는 단계(820); 및
    잔류-신호-보조된 다중-채널 디코딩을 이용하여 제 2 다운믹스 신호 및 제 2 잔류 신호에 기초하여 제 3 오디오 채널 신호 및 제 4 오디오 채널 신호를 제공하는 단계(830)를
    포함하는, 인코딩된 표현에 기초하여 적어도 4개의 오디오 채널 신호들을 제공하기 위한 방법.
  38. 적어도 4개의 오디오 채널 신호들에 기초하여 인코딩된 표현을 제공하기 위한 방법(700)으로서,
    제 1 다운믹스 신호 및 제 1 잔류 신호를 얻기 위해 잔류-신호-보조된 다중-채널 인코딩을 이용하여 적어도 제 1 오디오 채널 신호 및 제 2 오디오 채널 신호를 결합하여 인코딩하는 단계(710);
    제 2 다운믹스 신호 및 제 2 잔류 신호를 얻기 위해 잔류-신호-보조된 다중-채널 인코딩을 이용하여 적어도 제 3 오디오 채널 신호 및 제 4 오디오 채널 신호를 결합하여 인코딩하는 단계(720); 및
    잔류 신호들의 결합하여 인코딩된 표현를 얻기 위해 잔류 신호들 사이의 유사도들 및/또는 의존도들을 이용하는 다중-채널 인코딩를 이용하여 제 1 잔류 신호 및 제 2 잔류 신호를 결합하여 인코딩하는 단계(730)를
    포함하는, 적어도 4개의 오디오 채널 신호들에 기초하여 인코딩된 표현을 제공하기 위한 방법.
  39. 컴퓨터 프로그램이 컴퓨터 상에서 실행될 때 제 37항 또는 제 38항에 따른 방법을 수행하기 위해 컴퓨터로 판독가능한 저장 매체에 저장되는 컴퓨터 프로그램.
  40. 인코딩된 표현(210;310;360;610;682;1310;1312;1610)에 기초하여 적어도 4개의 오디오 채널 신호들(220,222,224,226; 320,322,324,326; 620,622,624, 626; 1320,1322,1324,1326)을 제공하기 위한 오디오 디코더(200;300;600;1300;1600;2000)로서,
    상기 오디오 디코더는, 다중-채널 디코딩(230;330;680;1360)을 이용하여 제 1 잔류 신호와 제 2 잔류 신호의 결합하여 인코딩된 표현(210;310;682;1312)에 기초하여 제 1 잔류 신호(232;332;684;1362) 및 제 2 잔류 신호(234;334;686;1364)를 제공하도록 구성되고;
    상기 오디오 디코더는, 잔류-신호-보조된 다중-채널 디코딩(240;340;640;1370)을 이용하여 제 1 다운믹스 신호(212;312;632;1342) 및 제 1 잔류 신호에 기초하여 제 1 오디오 채널 신호(220;320;642;1372) 및 제 2 오디오 채널 신호(222;322;644;1374)를 제공하도록 구성되고; 그리고,
    상기 오디오 디코더는 잔류-신호-보조된 다중-채널 디코딩(250;350;650;1380)을 이용하여 제 2 다운믹스 신호(214;314;634;1344) 및 제 2 잔류 신호에 기초하여 제 3 오디오 채널 신호(224;324;656;1382) 및 제 4 오디오 채널 신호(226;326;656;1384)를 제공하도록 구성되고;
    상기 오디오 디코더는 상기 제 1 오디오 채널 신호 및 상기 제 3 오디오 채널 신호에 기초하여 제 1 다중-채널 대역폭 확장(660;1390)을 수행하도록 구성되고,
    상기 오디오 디코더는 상기 제 2 오디오 채널 신호 및 상기 제 4 오디오 채널 신호에 기초하여 제 2 다중-채널 대역폭 확장(670;1394)을 수행하도록 구성되고,
    상기 오디오 디코더는 상기 제 1 오디오 채널 신호 및 상기 제 3 오디오 채널 신호와 하나 이상의 대역폭 확장 파라미터들(1338)에 기초하여 오디오 장면의 제 1 공통 앙각(elevation) 또는 제 1 공통 수평 평면과 연관된 2개 이상의 대역폭-확장된 오디오 채널 신호들(620,624;1320,1324)을 얻기 위해 상기 제 1 다중-채널 대역폭 확장을 수행하도록 구성되고,
    상기 오디오 디코더는 상기 제 2 오디오 채널 신호 및 상기 제 4 오디오 채널 신호와 하나 이상의 대역폭 확장 파라미터들(1358)에 기초하여 오디오 장면의 제 2 공통 앙각 또는 제 2 공통 수평 평면과 연관된 2개 이상의 대역폭-확장된 오디오 채널 신호들(622,626;1322,1326)을 얻기 위해 상기 제 2 다중-채널 대역폭 확장을 수행하도록 구성되는,
    오디오 디코더.
  41. 인코딩된 표현에 기초하여 적어도 4개의 오디오 채널 신호들을 제공하기 위한 방법(800)으로서,
    다중-채널 디코딩을 이용하여 제 1 잔류 신호와 제 2 잔류 신호의 결합하여 인코딩된 표현에 기초하여 제 1 잔류 신호 및 제 2 잔류 신호를 제공하는 단계(810);
    잔류-신호-보조된 다중-채널 디코딩을 이용하여 제 1 다운믹스 신호 및 상기 제 1 잔류 신호에 기초하여 제 1 오디오 채널 신호 및 제 2 오디오 채널 신호를 제공하는 단계(820); 및
    잔류-신호-보조된 다중-채널 디코딩을 이용하여 제 2 다운믹스 신호 및 제 2 잔류 신호에 기초하여 제 3 오디오 채널 신호 및 제 4 오디오 채널 신호를 제공하는 단계(830);를 포함하고,
    상기 방법은 상기 제 1 오디오 채널 신호 및 상기 제 3 오디오 채널 신호에 기초하여 제 1 다중-채널 대역폭 확장(660;1390)을 수행하는 단계를 포함하고,
    상기 방법은 상기 제 2 오디오 채널 신호 및 상기 제 4 오디오 채널 신호에 기초하여 제 2 다중-채널 대역폭 확장(670;1394)을 수행하는 단계를 포함하고,
    상기 제 1 다중-채널 대역폭 확장은 상기 제 1 오디오 채널 신호 및 상기 제 3 오디오 채널 신호와 하나 이상의 대역폭 확장 파라미터들(1338)에 기초하여 오디오 장면의 제 1 공통 앙각(elevation) 또는 제 1 공통 수평 평면과 연관된 2개 이상의 대역폭-확장된 오디오 채널 신호들(620,624;1320,1324)을 얻기 위해 수행되고,
    상기 제 2 다중-채널 대역폭 확장은 상기 제 2 오디오 채널 신호 및 상기 제 4 오디오 채널 신호와 하나 이상의 대역폭 확장 파라미터들(1358)에 기초하여 오디오 장면의 제 2 공통 앙각 또는 제 2 공통 수평 평면과 연관된 2개 이상의 대역폭-확장된 오디오 채널 신호들(622,626;1322,1326)을 얻기 위해 수행되는,
    방법.
  42. 컴퓨터 상에서 실행될 때 제 41 항에 따른 방법을 수행하기 위해 컴퓨터로 판독가능한 저장 매체에 저장되는 컴퓨터 프로그램.
KR1020167004625A 2013-07-22 2014-07-11 결합하여 인코딩된 잔류 신호들을 이용하는 오디오 인코더, 오디오 디코더, 방법들 및 컴퓨터 프로그램 KR101823278B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP13177376.4 2013-07-22
EP13177376 2013-07-22
EP13189305.9A EP2830051A3 (en) 2013-07-22 2013-10-18 Audio encoder, audio decoder, methods and computer program using jointly encoded residual signals
EP13189305.9 2013-10-18
PCT/EP2014/064915 WO2015010926A1 (en) 2013-07-22 2014-07-11 Audio encoder, audio decoder, methods and computer program using jointly encoded residual signals

Publications (2)

Publication Number Publication Date
KR20160033777A KR20160033777A (ko) 2016-03-28
KR101823278B1 true KR101823278B1 (ko) 2018-01-29

Family

ID=48874137

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020167004625A KR101823278B1 (ko) 2013-07-22 2014-07-11 결합하여 인코딩된 잔류 신호들을 이용하는 오디오 인코더, 오디오 디코더, 방법들 및 컴퓨터 프로그램
KR1020167004626A KR101823279B1 (ko) 2013-07-22 2014-07-14 인코딩된 표현에 기초하여 적어도 4개의 오디오 채널 신호들을 제공하기 위한 오디오 디코더, 오디오 인코더, 방법, 적어도 4개의 오디오 채널 신호들에 기초하여 인코딩된 표현을 제공하기 위한 방법, 및 대역폭 확장을 이용하는 컴퓨터 프로그램

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020167004626A KR101823279B1 (ko) 2013-07-22 2014-07-14 인코딩된 표현에 기초하여 적어도 4개의 오디오 채널 신호들을 제공하기 위한 오디오 디코더, 오디오 인코더, 방법, 적어도 4개의 오디오 채널 신호들에 기초하여 인코딩된 표현을 제공하기 위한 방법, 및 대역폭 확장을 이용하는 컴퓨터 프로그램

Country Status (19)

Country Link
US (8) US9953656B2 (ko)
EP (4) EP2830051A3 (ko)
JP (2) JP6346278B2 (ko)
KR (2) KR101823278B1 (ko)
CN (5) CN111105805A (ko)
AR (2) AR097012A1 (ko)
AU (2) AU2014295360B2 (ko)
BR (1) BR112016001137B1 (ko)
CA (2) CA2917770C (ko)
ES (2) ES2650544T3 (ko)
MX (2) MX357667B (ko)
MY (1) MY181944A (ko)
PL (2) PL3022735T3 (ko)
PT (2) PT3022735T (ko)
RU (2) RU2677580C2 (ko)
SG (1) SG11201600468SA (ko)
TW (2) TWI550598B (ko)
WO (2) WO2015010926A1 (ko)
ZA (2) ZA201601078B (ko)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2830053A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multi-channel audio decoder, multi-channel audio encoder, methods and computer program using a residual-signal-based adjustment of a contribution of a decorrelated signal
EP2830051A3 (en) 2013-07-22 2015-03-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder, methods and computer program using jointly encoded residual signals
CA2978075A1 (en) * 2015-02-27 2016-09-01 Auro Technologies Nv Encoding and decoding digital data sets
EP3067886A1 (en) 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
CN114005454A (zh) 2015-06-17 2022-02-01 三星电子株式会社 实现低复杂度格式转换的内部声道处理方法和装置
CN107731238B (zh) 2016-08-10 2021-07-16 华为技术有限公司 多声道信号的编码方法和编码器
US10217468B2 (en) * 2017-01-19 2019-02-26 Qualcomm Incorporated Coding of multiple audio signals
US10573326B2 (en) * 2017-04-05 2020-02-25 Qualcomm Incorporated Inter-channel bandwidth extension
US10431231B2 (en) 2017-06-29 2019-10-01 Qualcomm Incorporated High-band residual prediction with time-domain inter-channel bandwidth extension
WO2019143867A1 (en) 2018-01-18 2019-07-25 Dolby Laboratories Licensing Corporation Methods and devices for coding soundfield representation signals
CN111955020B (zh) 2018-04-11 2022-08-23 杜比国际公司 用于音频渲染的预渲染信号的方法、设备和系统
CN114708874A (zh) 2018-05-31 2022-07-05 华为技术有限公司 立体声信号的编码方法和装置
CN110556116B (zh) * 2018-05-31 2021-10-22 华为技术有限公司 计算下混信号和残差信号的方法和装置
CN115132214A (zh) 2018-06-29 2022-09-30 华为技术有限公司 立体声信号的编码、解码方法、编码装置和解码装置
KR20210076145A (ko) 2018-11-02 2021-06-23 돌비 인터네셔널 에이비 오디오 인코더 및 오디오 디코더
US10985951B2 (en) 2019-03-15 2021-04-20 The Research Foundation for the State University Integrating Volterra series model and deep neural networks to equalize nonlinear power amplifiers
CN112020724A (zh) * 2019-04-01 2020-12-01 谷歌有限责任公司 学习可压缩的特征
US20200402522A1 (en) * 2019-06-24 2020-12-24 Qualcomm Incorporated Quantizing spatial components based on bit allocations determined for psychoacoustic audio coding
CN110534120B (zh) * 2019-08-31 2021-10-01 深圳市友恺通信技术有限公司 一种移动网络环境下的环绕声误码修复方法
MX2023002255A (es) * 2020-09-03 2023-05-16 Sony Group Corp Dispositivo y método de procesamiento de señales, dispositivo y método de aprendizaje y programa.

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2485979A (en) * 2010-11-26 2012-06-06 Univ Surrey Spatial audio coding

Family Cites Families (82)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3528260B2 (ja) * 1993-10-26 2004-05-17 ソニー株式会社 符号化装置及び方法、並びに復号化装置及び方法
US5488665A (en) 1993-11-23 1996-01-30 At&T Corp. Multi-channel perceptual audio compression system with encoding mode switching among matrixed channels
US5970152A (en) 1996-04-30 1999-10-19 Srs Labs, Inc. Audio enhancement system for use in a surround sound environment
SE522553C2 (sv) 2001-04-23 2004-02-17 Ericsson Telefon Ab L M Bandbreddsutsträckning av akustiska signaler
ES2271654T3 (es) * 2002-08-07 2007-04-16 Dolby Laboratories Licensing Corporation Conversion espacial de canales de audio.
US7447317B2 (en) * 2003-10-02 2008-11-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V Compatible multi-channel coding/decoding by weighting the downmix channel
BR122018007834B1 (pt) 2003-10-30 2019-03-19 Koninklijke Philips Electronics N.V. Codificador e decodificador de áudio avançado de estéreo paramétrico combinado e de replicação de banda espectral, método de codificação avançada de áudio de estéreo paramétrico combinado e de replicação de banda espectral, sinal de áudio avançado codificado de estéreo paramétrico combinado e de replicação de banda espectral, método de decodificação avançada de áudio de estéreo paramétrico combinado e de replicação de banda espectral, e, meio de armazenamento legível por computador
US7394903B2 (en) 2004-01-20 2008-07-01 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal
SE0400997D0 (sv) 2004-04-16 2004-04-16 Cooding Technologies Sweden Ab Efficient coding of multi-channel audio
US20080275709A1 (en) * 2004-06-22 2008-11-06 Koninklijke Philips Electronics, N.V. Audio Encoding and Decoding
ATE442644T1 (de) 2004-08-26 2009-09-15 Panasonic Corp Mehrkanalige signal-dekodierung
SE0402652D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Methods for improved performance of prediction based multi- channel reconstruction
EP1691348A1 (en) * 2005-02-14 2006-08-16 Ecole Polytechnique Federale De Lausanne Parametric joint-coding of audio sources
US7573912B2 (en) 2005-02-22 2009-08-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschunng E.V. Near-transparent or transparent multi-channel encoder/decoder scheme
US7840411B2 (en) * 2005-03-30 2010-11-23 Koninklijke Philips Electronics N.V. Audio encoding and decoding
KR100818268B1 (ko) * 2005-04-14 2008-04-02 삼성전자주식회사 오디오 데이터 부호화 및 복호화 장치와 방법
US7751572B2 (en) * 2005-04-15 2010-07-06 Dolby International Ab Adaptive residual audio coding
EP1876585B1 (en) * 2005-04-28 2010-06-16 Panasonic Corporation Audio encoding device and audio encoding method
TWI462086B (zh) * 2005-09-14 2014-11-21 Lg Electronics Inc 音頻訊號之解碼方法及其裝置
KR100888474B1 (ko) * 2005-11-21 2009-03-12 삼성전자주식회사 멀티채널 오디오 신호의 부호화/복호화 장치 및 방법
TWI469133B (zh) * 2006-01-19 2015-01-11 Lg Electronics Inc 媒體訊號處理方法及裝置
US7953604B2 (en) 2006-01-20 2011-05-31 Microsoft Corporation Shape and scale parameters for extended-band frequency coding
JP2007207328A (ja) 2006-01-31 2007-08-16 Toshiba Corp 情報記憶媒体、プログラム、情報再生方法、情報再生装置、データ転送方法、及びデータ処理方法
JP4875142B2 (ja) * 2006-03-28 2012-02-15 テレフオンアクチーボラゲット エル エム エリクソン(パブル) マルチチャネル・サラウンドサウンドのためのデコーダのための方法及び装置
US20080004883A1 (en) * 2006-06-30 2008-01-03 Nokia Corporation Scalable audio coding
DE102006047197B3 (de) 2006-07-31 2008-01-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Verarbeiten eines reellen Subband-Signals zur Reduktion von Aliasing-Effekten
EP2328364B1 (en) * 2006-10-13 2020-07-01 Auro Technologies NV A method and encoder for combining digital data sets, a decoding method and decoder for such combined digital data sets and a record carrier for storing such combined digital data set
CN101071570B (zh) * 2007-06-21 2011-02-16 北京中星微电子有限公司 耦合声道的编、解码处理方法、音频编码装置及解码装置
KR101450940B1 (ko) 2007-09-19 2014-10-15 텔레폰악티에볼라겟엘엠에릭슨(펍) 멀티채널 오디오의 조인트 인핸스먼트
WO2009049896A1 (en) * 2007-10-17 2009-04-23 Fraunhofer-Fesellschaft Zur Förderung Der Angewandten Forschung E.V. Audio coding using upmix
WO2009054665A1 (en) * 2007-10-22 2009-04-30 Electronics And Telecommunications Research Institute Multi-object audio encoding and decoding method and apparatus thereof
BRPI0820488A2 (pt) * 2007-11-21 2017-05-23 Lg Electronics Inc método e equipamento para processar um sinal
WO2009078681A1 (en) * 2007-12-18 2009-06-25 Lg Electronics Inc. A method and an apparatus for processing an audio signal
US20090164223A1 (en) * 2007-12-19 2009-06-25 Dts, Inc. Lossless multi-channel audio codec
KR20100095586A (ko) 2008-01-01 2010-08-31 엘지전자 주식회사 신호 처리 방법 및 장치
EP2259254B1 (en) * 2008-03-04 2014-04-30 LG Electronics Inc. Method and apparatus for processing an audio signal
US8811621B2 (en) 2008-05-23 2014-08-19 Koninklijke Philips N.V. Parametric stereo upmix apparatus, a parametric stereo decoder, a parametric stereo downmix apparatus, a parametric stereo encoder
EP2144231A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme with common preprocessing
EP2144229A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Efficient use of phase information in audio encoding and decoding
CA2820199C (en) 2008-07-31 2017-02-28 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Signal generation for binaural signals
EP2345027B1 (en) * 2008-10-10 2018-04-18 Telefonaktiebolaget LM Ericsson (publ) Energy-conserving multi-channel audio coding and decoding
WO2010064877A2 (en) * 2008-12-05 2010-06-10 Lg Electronics Inc. A method and an apparatus for processing an audio signal
US8332229B2 (en) * 2008-12-30 2012-12-11 Stmicroelectronics Asia Pacific Pte. Ltd. Low complexity MPEG encoding for surround sound recordings
EP2214161A1 (en) 2009-01-28 2010-08-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for upmixing a downmix audio signal
EP2214162A1 (en) 2009-01-28 2010-08-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Upmixer, method and computer program for upmixing a downmix audio signal
CA2754671C (en) * 2009-03-17 2017-01-10 Dolby International Ab Advanced stereo coding based on a combination of adaptively selectable left/right or mid/side stereo coding and of parametric stereo coding
WO2010115850A1 (en) 2009-04-08 2010-10-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for upmixing a downmix audio signal using a phase value smoothing
CN101582262B (zh) * 2009-06-16 2011-12-28 武汉大学 一种空间音频参数帧间预测编解码方法
SG177277A1 (en) 2009-06-24 2012-02-28 Fraunhofer Ges Forschung Audio signal decoder, method for decoding an audio signal and computer program using cascaded audio object processing stages
CN101989425B (zh) 2009-07-30 2012-05-23 华为终端有限公司 多描述音频编解码的方法、装置及系统
KR101569702B1 (ko) * 2009-08-17 2015-11-17 삼성전자주식회사 레지듀얼 신호 인코딩 및 디코딩 방법 및 장치
JP2011066868A (ja) * 2009-08-18 2011-03-31 Victor Co Of Japan Ltd オーディオ信号符号化方法、符号化装置、復号化方法及び復号化装置
KR101613975B1 (ko) * 2009-08-18 2016-05-02 삼성전자주식회사 멀티 채널 오디오 신호의 부호화 방법 및 장치, 그 복호화 방법 및 장치
KR101391110B1 (ko) 2009-09-29 2014-04-30 돌비 인터네셔널 에이비 오디오 신호 디코더, 오디오 신호 인코더, 업믹스 신호 표현을 제공하는 방법, 다운믹스 신호 표현을 제공하는 방법, 공통 객체 간의 상관 파라미터 값을 이용한 컴퓨터 프로그램 및 비트스트림
CN101695150B (zh) * 2009-10-12 2011-11-30 清华大学 多声道音频编码方法、编码器、解码方法和解码器
KR101710113B1 (ko) 2009-10-23 2017-02-27 삼성전자주식회사 위상 정보와 잔여 신호를 이용한 부호화/복호화 장치 및 방법
UA101291C2 (ru) * 2009-12-16 2013-03-11 Долби Интернешнл Аб Сводка параметров последовательности бит sbr
KR101437896B1 (ko) * 2010-04-09 2014-09-16 돌비 인터네셔널 에이비 Mdct-기반의 복소수 예측 스테레오 코딩
EP2375409A1 (en) * 2010-04-09 2011-10-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder and related methods for processing multi-channel audio signals using complex prediction
AU2011240239B2 (en) 2010-04-13 2014-06-26 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio or video encoder, audio or video decoder and related methods for processing multi-channel audio or video signals using a variable prediction direction
EP3144932B1 (en) 2010-08-25 2018-11-07 Fraunhofer Gesellschaft zur Förderung der Angewand An apparatus for encoding an audio signal having a plurality of channels
KR101697550B1 (ko) * 2010-09-16 2017-02-02 삼성전자주식회사 멀티채널 오디오 대역폭 확장 장치 및 방법
EP2647005B1 (en) 2010-12-03 2017-08-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for geometry-based spatial audio coding
EP2477188A1 (en) 2011-01-18 2012-07-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoding and decoding of slot positions of events in an audio signal frame
CN102610231B (zh) * 2011-01-24 2013-10-09 华为技术有限公司 一种带宽扩展方法及装置
SG192745A1 (en) 2011-02-14 2013-09-30 Fraunhofer Ges Forschung Noise generation in audio codecs
MY159444A (en) 2011-02-14 2017-01-13 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E V Encoding and decoding of pulse positions of tracks of an audio signal
EP2710588B1 (en) * 2011-05-19 2015-09-09 Dolby Laboratories Licensing Corporation Forensic detection of parametric audio coding schemes
US9070361B2 (en) * 2011-06-10 2015-06-30 Google Technology Holdings LLC Method and apparatus for encoding a wideband speech signal utilizing downmixing of a highband component
MY176406A (en) 2012-08-10 2020-08-06 Fraunhofer Ges Forschung Encoder, decoder, system and method employing a residual concept for parametric audio object coding
WO2014118136A1 (en) 2013-01-29 2014-08-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for selecting one of a first audio encoding algorithm and a second audio encoding algorithm
US9679571B2 (en) 2013-04-10 2017-06-13 Electronics And Telecommunications Research Institute Encoder and encoding method for multi-channel signal, and decoder and decoding method for multi-channel signal
WO2014168439A1 (ko) * 2013-04-10 2014-10-16 한국전자통신연구원 다채널 신호를 위한 인코더 및 인코딩 방법, 다채널 신호를 위한 디코더 및 디코딩 방법
EP2830335A3 (en) 2013-07-22 2015-02-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method, and computer program for mapping first and second input channels to at least one output channel
EP2830053A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multi-channel audio decoder, multi-channel audio encoder, methods and computer program using a residual-signal-based adjustment of a contribution of a decorrelated signal
EP2830051A3 (en) 2013-07-22 2015-03-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder, methods and computer program using jointly encoded residual signals
EP2830065A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding an encoded audio signal using a cross-over filter around a transition frequency
EP2830045A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for audio encoding and decoding for audio channels and audio objects
EP2838086A1 (en) 2013-07-22 2015-02-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. In an reduction of comb filter artifacts in multi-channel downmix with adaptive phase alignment
EP2830049A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for efficient object metadata coding
EP2866227A1 (en) 2013-10-22 2015-04-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for decoding and encoding a downmix matrix, method for presenting audio content, encoder and decoder for a downmix matrix, audio encoder and audio decoder
EP2928216A1 (en) 2014-03-26 2015-10-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for screen related audio object remapping

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2485979A (en) * 2010-11-26 2012-06-06 Univ Surrey Spatial audio coding

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ISO/IEC FDIS 23003-1:2006(E). Information technology - MPEG audio technologies Part 1: MPEG Surround. ISO/IEC JTC 1/SC 29/WG 11. 2006.07.21.
ISO/IEC FDIS 23003-3:2011(E), Information technology - MPEG audio technologies - Part 3: Unified speech and audio coding. ISO/IEC JTC 1/SC 29/WG 11. 2011.09.20.*
Marina Bosi, et al. ISO/IEC MPEG-2 advanced audio coding. Journal of the Audio engineering society, 1997, Vol.45. No.10, pp.789-814.*

Also Published As

Publication number Publication date
SG11201600468SA (en) 2016-02-26
TWI550598B (zh) 2016-09-21
US9940938B2 (en) 2018-04-10
CA2918237A1 (en) 2015-01-29
KR101823279B1 (ko) 2018-03-08
CN105580073B (zh) 2019-12-13
AU2014295282B2 (en) 2017-07-27
US10147431B2 (en) 2018-12-04
CA2917770A1 (en) 2015-01-29
AU2014295282A1 (en) 2016-03-10
PT3022735T (pt) 2017-12-07
CN111128205A (zh) 2020-05-08
JP2016529544A (ja) 2016-09-23
US9953656B2 (en) 2018-04-24
TW201514972A (zh) 2015-04-16
RU2677580C2 (ru) 2019-01-17
TWI544479B (zh) 2016-08-01
CN105593931B (zh) 2019-12-27
US10741188B2 (en) 2020-08-11
CA2917770C (en) 2021-01-05
EP3022734A1 (en) 2016-05-25
ZA201601080B (en) 2017-08-30
ZA201601078B (en) 2017-05-31
JP6117997B2 (ja) 2017-04-19
JP2016530788A (ja) 2016-09-29
MY181944A (en) 2021-01-14
EP3022735A1 (en) 2016-05-25
MX357667B (es) 2018-07-18
RU2666230C2 (ru) 2018-09-06
WO2015010926A1 (en) 2015-01-29
EP2830051A3 (en) 2015-03-04
EP2830051A2 (en) 2015-01-28
BR112016001137A2 (ko) 2017-07-25
US20160247509A1 (en) 2016-08-25
KR20160033777A (ko) 2016-03-28
KR20160033778A (ko) 2016-03-28
WO2015010934A1 (en) 2015-01-29
PT3022734T (pt) 2017-11-29
AR097012A1 (es) 2016-02-10
PL3022734T3 (pl) 2018-01-31
EP3022734B1 (en) 2017-08-23
AU2014295360A1 (en) 2016-03-10
TW201514973A (zh) 2015-04-16
US20190378522A1 (en) 2019-12-12
CN111105805A (zh) 2020-05-05
AU2014295360B2 (en) 2017-10-26
BR112016001137B1 (pt) 2022-11-29
US11488610B2 (en) 2022-11-01
EP2830052A1 (en) 2015-01-28
ES2649194T3 (es) 2018-01-10
US11657826B2 (en) 2023-05-23
US10770080B2 (en) 2020-09-08
US20190108842A1 (en) 2019-04-11
EP3022735B1 (en) 2017-09-06
AR097011A1 (es) 2016-02-10
CN111128206A (zh) 2020-05-08
PL3022735T3 (pl) 2018-02-28
MX2016000939A (es) 2016-04-25
US20160247508A1 (en) 2016-08-25
RU2016105702A (ru) 2017-08-25
RU2016105703A (ru) 2017-08-25
JP6346278B2 (ja) 2018-06-20
US20240029744A1 (en) 2024-01-25
ES2650544T3 (es) 2018-01-19
CA2918237C (en) 2021-09-21
MX2016000858A (es) 2016-05-05
US20210056979A1 (en) 2021-02-25
CN105580073A (zh) 2016-05-11
CN105593931A (zh) 2016-05-18
US20160275957A1 (en) 2016-09-22
MX357826B (es) 2018-07-25
US20210233543A1 (en) 2021-07-29

Similar Documents

Publication Publication Date Title
KR101823278B1 (ko) 결합하여 인코딩된 잔류 신호들을 이용하는 오디오 인코더, 오디오 디코더, 방법들 및 컴퓨터 프로그램

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
GRNT Written decision to grant