KR20160033769A - 오디오 채널들 및 오디오 객체들을 오디오 인코딩 및 디코딩하기 위한 개념 - Google Patents

오디오 채널들 및 오디오 객체들을 오디오 인코딩 및 디코딩하기 위한 개념 Download PDF

Info

Publication number
KR20160033769A
KR20160033769A KR1020167004468A KR20167004468A KR20160033769A KR 20160033769 A KR20160033769 A KR 20160033769A KR 1020167004468 A KR1020167004468 A KR 1020167004468A KR 20167004468 A KR20167004468 A KR 20167004468A KR 20160033769 A KR20160033769 A KR 20160033769A
Authority
KR
South Korea
Prior art keywords
audio
channels
objects
output
encoder
Prior art date
Application number
KR1020167004468A
Other languages
English (en)
Other versions
KR101943590B1 (ko
Inventor
알렉산더 아다미
크리스티안 보르스
사샤 딕
크리스티안 에르텔
시모네 푸에그
유르겐 헤레
요하네스 힐퍼트
안드레아스 홀저
미하엘 크래슈머
파비앙 쿠치
아힘 쿤츠
아드리안 무타자
얀 프록스티스
안드레아스 실즈레
한네 스텐젤
Original Assignee
프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. filed Critical 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Publication of KR20160033769A publication Critical patent/KR20160033769A/ko
Application granted granted Critical
Publication of KR101943590B1 publication Critical patent/KR101943590B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/028Noise substitution, i.e. substituting non-tonal spectral components by noisy source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Stereophonic System (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

오디오 출력 데이터(501)를 얻기 위해 오디오 입력 데이터(101)를 인코딩하기 위한 오디오 인코더는, 복수의 오디오 채널들, 복수의 오디오 객체들, 및 상기 복수의 오디오 객체들의 하나 이상에 관련된 메타데이터를 수신하기 위한 입력 인터페이스(100); 복수의 사전-믹싱된 채널들을 얻기 위해 상기 복수의 객체들 및 상기 복수의 채널들을 믹싱하기 위한 믹서(200)로서, 각 사전-믹싱된 채널은 채널의 오디오 데이터 및 적어도 하나의 객체의 오디오 데이터를 포함하는, 믹서(200); 코어 인코더 입력 데이터를 코어 인코딩하기 위한 코어 인코더(300); 및 상기 복수의 오디오 객체들의 하나 이상에 관련된 상기 메타데이터를 압축하기 위한 메타데이터 압축기(400)를 포함하고, 상기 오디오 인코더는, 상기 코어 인코더가 코어 인코더 입력 데이터로서 상기 입력 인터페이스에 의해 수신된 상기 복수의 오디오 채널들 및 상기 복수의 오디오 객체들을 인코딩하도록 구성되는 제 1 모드와, 상기 코어 인코더(300)가 상기 코어 인코더 입력 데이터로서 상기 믹서(200)에 의해 생성된 상기 복수의 사전-믹싱된 채널들을 수신하기 위해 구성되는 제 2 모드를 포함하는 적어도 2개의 모드들의 그룹의 모드들 모두에서 동작하도록 구성된다.

Description

오디오 채널들 및 오디오 객체들을 오디오 인코딩 및 디코딩하기 위한 개념{CONCEPT FOR AUDIO ENCODING AND DECODING FOR AUDIO CHANNELS AND AUDIO OBJECTS}
본 출원은 오디오 인코딩/디코딩에 관한 것으로, 특히 공간 오디오 코딩 및 공간 오디오 객체 코딩에 관한 것이다.
공간 오디오 코딩 툴들(tools)은 종래 기술에 잘 알려져 있고, 예를 들어 MPEG-서라운드 표준에서 표준화된다. 공간 오디오 코딩은 재생 설정에서의 그 배치에 의해 예를 들어, 좌측 채널, 센터 채널, 우측 채널, 좌측 서라운드 채널, 우측 서라운드 채널 및 저주파수 개선(LFE) 채널로서 식별되는 복수의 원 입력, 예를 들어, 5개 또는 7개의 입력 채널들에서 시작한다. 공간 오디오 인코더는 원 채널들로부터 하나 이상의 다운믹스 채널들을 도출할 수 있고, 추가로 채널 코히어런스(coherence) 값들에서의 채널간 레벨 차이들, 채널간 위상 차이들, 채널간 시간 차이들 등과 같은 공간 큐들(cues)에 관한 파라미터적 데이터를 도출할 수 있다. 하나 이상의 다운믹스 채널들은 원 입력 채널들의 근사적인(approximated) 버전인 출력 채널들을 마지막으로 얻기 위해 공간 큐들을 나타내는 파라미터적 부가 정보와 함께. 다운믹스 채널들 및 연관된 파라미터적 데이터를 디코딩하기 위한 공간 오디오 디코더로 송신된다. 예를 들어, 5.1 포맷, 7.1 포맷 등과 같이 출력 설정에서 채널들의 배치가 고정될 수 있다.
또한, 공간 오디오 객체 코딩 툴들은 종래 기술에 잘 알려져 있고, 예를 들어, MPEG SAOC 표준(SAOC=spatial audio object coding)에서 표준화된다. 원 채널들에서 시작하는 공간 오디오 코딩에 대조적으로, 공간 오디오 객체 코딩은 특정한 렌더링 재생 설정을 위해 자동적으로 지정되지 않는 오디오 객체들에서 시작한다. 오히려, 재생 장면에서의 오디오 객체들의 배치는 융통성있을 수 있고, 사용자에 의해 예를 들어, 특정 렌더링 정보를 공간 오디오 객체 코딩 디코더에 입력함으로써, 설정될 수 있다. 대안적으로 또는 추가적으로, 렌더링 정보는 추가 부가 정보 또는 메타데이터로서 송신될 수 있고; 렌더링 정보는, 재생 설정에서 특정 오디오 객체가 위치(예를 들어, 시간이 지남에 따라)되는 위치에서 정보를 포함한다. 특정 데이터 압축을 얻기 위해, 다수의 오디오 객체들은, 입력 객체들로부터 특정 다운믹스 정보에 따라 객체들을 다운믹싱함으로써 하나 이상의 전송 채널들을 계산하는 SAOC 인코더를 이용하여 인코딩된다. 더욱이, SAOC 인코더는 객체 레벨 차이들(OLD), 객체 코히어런스 값들 등과 같이 인터-객체 큐들을 나타내는 파라미터적 부가 정보를 계산한다. SAC(SAC=spatial Audio Coding)에서와 같이, 인터-객체 파라미터적 데이터는 개별적인 시간/주파수 타일들(tiles)에 대해 계산된다. 오디오 신호의 특정 프레임(예를 들어, 1024 또는 2048 샘플들)에 대해, 복수의 주파수 대역들(예를 들어, 24, 32, 또는 64 대역들)은, 파라미터적 데이터가 각 프레임 및 각 주파수 대역에 대해 제공되도록 고려된다. 예를 들어, 오디오 부품(piece)이 20 프레임들을 가질 때, 그리고 각 프레임이 32 주파수 대역들로 세분화될 때, 시간/주파수 타일들의 수는 640이다.
지금까지, 낮은 비트율에서의 수용가능한 오디오 품질들이 얻어지도록 한 편으로 채널 코딩과 다른 한 편으로 객체 코딩을 조합하는 융통성있는 기술은 존재하지 않는다.
본 발명의 목적은 오디오 인코딩 및 오디오 디코딩을 위한 개선된 개념을 제공하는 것이다.
이 목적은 제 1항의 오디오 인코더, 제 8항의 오디오 디코더, 제 22항의 오디오 인코딩 방법, 제 23항의 오디오 디코딩 방법, 또는 제 24항의 컴퓨터 프로그램에 의해 달성된다.
본 발명은, 한 편으로 융통성있고 다른 한 편으로 양호한 오디오 품질에서 양호한 압축 효율을 제공하는 최적의 시스템에 대해 공간 오디오 코딩, 즉 채널-기반의 오디오 코딩과 공간 오디오 객체 코딩, 즉 객체 기반의 코딩을 조합함으로써 달성된다는 발견에 기초한다. 특히, 인코더-측 상에서 객체들과 채널들을 미리 믹싱하기 위한 믹서를 제공하는 것은 특히 낮은 비트율 어플리케이션들에 대해 양호한 융통성을 제공하는데, 이는 임의의 객체 송신이 불필요할 수 있거나 송신될 객체들의 수가 감소될 수 있기 때문이다. 다른 한 편으로, 융통성은, 오디오 인코더가 2가지 상이한 모드들, 즉 객체들이 코어-인코딩(core-encoded)되기 전에 채널들과 믹싱되는 모드에서 제어될 수 있기 위해 요구되는데, 한편 다른 모드에서 한 편으로 객체 데이터 및 다른 한 편으로 채널 데이터는 그 사이에서 어떠한 믹싱 없이 직접 코어-인코딩된다.
이것은, 풀 융통성(full flexibility)이 디코더 측 상에서 이용가능하지만, 개선된 비트율의 비용으로 이용가능하도록 사용자가 인코더 측 상에서 처리된 객체들 및 채널들을 분리시킬 수 있는 것을 보장한다. 다른 한 편으로, 비트율 요건들이 더 엄격할 때, 본 발명은 인코더 측 상에서 믹싱/사전-렌더링을 미리 수행하도록 하는데, 즉 몇몇 또는 모든 오디오 객체들이 채널들과 미리 믹싱되어, 코어 인코더가 채널 데이터만을 인코딩하고 다운믹스의 형태 또는 파라미터적(parametric) 인터 객체 데이터의 형태로 오디오 객체 데이터를 송신하는데 요구된 임의의 비트들이 요구되지 않는다.
디코더 측상에서, 사용자는, 동일한 오디오 디코더가 2가지 상이한 모드들, 즉 개별 또는 별개의 채널 및 객체 코딩이 발생하고 디코더가 객체들의 렌더링 및 채널 데이터와의 믹싱에 대한 풀 융통성을 갖는 제 1 모드로 동작을 허용한다는 점으로 인해 다시 높은 융통성을 갖는다. 다른 한 편으로, 믹싱/사전-렌더링이 인코더 측 상에서 미리 발생하였을 때, 디코더는 어떠한 중간 객체 처리 없이 후치 처리를 수행하도록 구성된다. 다른 한 편으로, 후치 처리는 또한 다른 모드로, 즉 객체 렌더링/믹싱이 디코더 측 상에서 발생할 때 데이터에 다시 적용될 수 있다. 따라서, 본 발명은 인코더 측 뿐 아니라 디코더 측 상에서 리소스들의 고도의 재사용을 허용하는 처리 작업들의 프레임워크(framework)를 허용한다. 후치 처리는 의도된 재생 레이아웃(reproduction layout)과 같은 최종 채널 시나리오를 얻기 위해 다운믹싱 및 입체 음향(binauralizing) 또는 임의의 다른 처리로 언급될 수 있다.
더욱이, 매우 낮은 비트율 요건들의 경우에, 본 발명은 즉, 일부 융통성의 비용으로, 그럼에도 불구하고 인코더로부터 디코더로 더 이상 어떠한 객체 데이터도 제공하지 않음으로써 절감된 비트들이 채널 데이터를 더 미세하게 양자화함으로써 또는 품질을 개선하거나 충분한 비트들이 이용가능할 때 인코딩 손실을 감소시키기 위한 다른 수단에 의해서와 같이 채널 데이터를 더 양호하게 인코딩하는데 사용될 수 있다는 점으로 인해 디코더 측 상의 매우 양호한 오디오 품질이 얻어지도록 인코더 측 상의 사전-렌더링에 의해, 낮은 비트율 요건들에 반응할 정도로 충분한 융통성을 사용자에게 제공한다.
본 발명의 바람직한 실시예에서, 인코더는 SAOC 인코더를 추가로 포함하고, 더욱이 더욱 더 낮은 요구된 비트율에서 양호한 오디오 품질을 얻기 위해 인코더에 입력된 객체들을 인코딩할 뿐 아니라 채널 데이터를 SAOC 인코딩하도록 한다. 본 발명의 추가 실시예들은 입체 음향 렌더러 및/또는 포맷 변환기를 포함하는 후치 처리 기능을 허용한다. 더욱이, 디코더 측 상의 전체 처리가 22 또는 32 채널 스피커(loudspeaker) 설정과 같은 특정한 높은 수의 스피커들에 대해 미리 발생하는 것이 바람직하다. 하지만, 예를 들어, 포맷 변환기는, 최대 수의 채널들보다 낮은 수를 갖는 5.1 출력, 즉 재생 레이아웃을 위한 출력이 요구된다는 것을 결정하고, 포맷 변환기가 코어 디코딩 동작 및 SAOC 디코딩 동작을 제약하기 위해 USAC 디코더 또는 SAOC 디코더를 제어하여, 결국 그럼에도 불구하고, 포맷 변환으로 다운 믹싱된 임의의 채널들이 디코딩시 생성되지 않는 것이 바람직하다. 일반적으로, 업믹싱된(upmixed) 채널들의 생성은 역상관 처리를 요구하고, 각 역상관 처리는 결점들의 몇몇 레벨을 도입한다. 그러므로, 마지막으로 요구된 출력 포맷에 의해 코어 디코더 및/또는 SAOC 디코더를 제어함으로써, 많은 추가 역상관 처리는, 이러한 상호 작용(interaction)이 존재하지 않는 상황에 비해 절감되고, 이것은 개선된 오디오 품질 뿐 아니라 디코더의 감소된 복잡도를 초래하고, 결국, 본 발명의 인코더 또는 본 발명의 디코더를 수용하는 모바일 디바이스들에 특히 유용한 감소된 전력 소비를 초래한다. 하지만, 본 발명의 인코더들/디코더들은 모바일 폰들, 스마트 폰들, 노트북 컴퓨터들 또는 네비게이션(navigation) 디바이스들과 같은 모바일 디바이스들에 도입될 수 있을 뿐 아니라, 간단한 데스크탑 컴퓨터들 또는 임의의 다른 비-모바일 기기들에 사용될 수 있다.
즉, 몇몇 채널들을 생성하지 않는 상기 구현은 최적이 아닐 수 있는데, 이는 몇몇 정보(다운믹싱될 채널들 사이의 레벨 차이와 같은)가 손실될 수 있기 때문이다. 이러한 레벨 차이 정보는 중요하지 않을 수 있지만, 다운믹스가 상이한 다운믹스 이득들을 업믹스된 채널들에 적용하는 경우 상이한 다운믹스 출력 신호를 초래할 수 있다. 개선된 해법은 단지 업믹스에서 역상관을 스위칭 오프(switches off)하지만, 여전히 정확한 레벨 차이들{파라미터적 SAC에 의해 신호 발신된(signalled)}을 갖는 모든 업믹스 채널들을 생성한다. 제 2 해법은 더 양호한 오디오 품질을 초래하지만, 제 1 해법은 더 큰 복잡도 감소를 초래한다.
바람직한 실시예들은 첨부 도면들에 대해 후속하여 논의된다.
도 1은 인코더의 제 1 실시예를 도시한 도면.
도 2는 디코더의 제 1 실시예를 도시한 도면.
도 3은 인코더의 제 2 실시예를 도시한 도면.
도 4는 디코더의 제 2 실시예를 도시한 도면.
도 5는 인코더의 제 3 실시예를 도시한 도면.
도 6은 디코더의 제 3 실시예를 도시한 도면.
도 7은, 본 발명의 실시예들에 따른 인코더들/디코더들이 동작될 수 있는 개별적인 모드들을 나타내는 맵을 도시한 도면.
도 8은 포맷 변환기의 특정 구현을 도시한 도면.
도 9는 입체 음향 변환기의 특정 구현을 도시한 도면.
도 10은 코어 디코더의 특정 구현을 도시한 도면.
도 11은 쿼드 채널 요소(OCE)를 처리하기 위한 인코더 및 대응하는 QCE 디코더의 특정 구현을 도시한 도면.
도 1은 본 발명의 실시예에 따른 인코더를 도시한다. 인코더는 오디오 출력 데이터(501)를 얻기 위해 오디오 입력 데이터(101)를 인코딩하기 위해 구성된다. 인코더는 CH로 표시된 복수의 오디오 채널들 및 OBJ로 표시된 복수의 오디오 객체들을 수신하기 위한 입력 인터페이스를 포함한다. 더욱이, 도 1에 도시된 바와 같이, 입력 인터페이스(100)는 복수의 오디오 객체들(OBJ)의 하나 이상에 관련된 메타데이터(metadata)를 추가로 수신한다. 더욱이, 인코더는 복수의 사전-믹싱된 채널들을 얻기 위해 복수의 객체들 및 복수의 채널들을 믹싱하기 위한 믹서(200)를 포함하고, 각 사전-믹싱된 채널은 채널의 오디오 데이터 및 적어도 하나의 객체의 오디오 데이터를 포함한다.
더욱이, 인코더는 코어 인코더 입력 데이터를 코어 인코딩하기 위한 코어 인코더(300), 복수의 오디오 객체들의 하나 이상에 관련된 메타데이터를 압축하기 위한 메타데이터 압축기(400)를 포함한다. 더욱이, 인코더는 여러 동작 모드들 중 하나의 동작 모드로 믹서를 제어하기 위한 모드 제어기(600), 코어 인코더 및/또는 출력 인터페이스(500)를 포함할 수 있다. 제 1 모드에서, 코어 인코더는 믹서에 의한 어떠한 상호 작용 없이, 즉 믹서(200)에 의한 어떠한 믹싱 없이, 입력 인터페이스(100)에 의해 수신된 복수의 오디오 객체들 및 복수의 오디오 채널들을 인코딩하도록 구성된다. 하지만, 믹서(200)가 활성(active)인 제 2 모드에서, 코어 인코더는 복수의 믹싱된 채널들, 즉 블록(200)에 의해 생성된 출력을 인코딩한다. 이러한 후자의 경우에, 어떠한 객체 데이터도 더 이상 인코딩하지 않는 것이 바람직하다. 그 대신, 오디오 객체들의 위치들을 나타내는 메타데이터는 메타데이터에 의해 표시된 채널들 상으로 객체들을 렌더링하기 위해 믹서(200)에 의해 미리 사용된다. 즉, 믹서(200)는 오디오 객체들을 사전-렌더링하기 위해 복수의 오디오 객체들에 관련된 메타데이터를 이용하고, 그런 후에 사전-렌더링된 오디오 객체들은 믹서의 출력에서 믹싱된 채널들을 얻기 위해 채널들과 믹싱된다. 이 실시예에서, 임의의 객체들은 반드시 송신될 필요는 없고, 이것은 또한 블록(400)에 의해 출력으로서 압축된 메타데이터에 대해 적용된다. 하지만, 인터페이스(100)에 입력된 모든 객체들이 믹싱되지 않고, 특정 양의 객체들이 믹싱되면, 나머지 비-믹싱된 객체들 및 연관된 메타데이터는 그럼에도 불구하고 각각 코어 인코더(300) 또는 메타데이터 압축기(400)로 송신된다.
도 3은, SAOC 인코더(800)를 더 포함하는 인코더의 추가 실시예를 도시한다. SAOC 인코더(800)는 공간 오디오 객체 인코더 입력 데이터로부터 하나 이상의 전송 채널들 및 팔아미터적 데이터를 생성하기 위해 구성된다. 도 3에 도시된 바와 같이, 공간 오디오 객체 인코더 입력 데이터는 사전-렌더러/믹서에 의해 처리되지 않은 객체들이다. 대안적으로, 개별적인 채널/객체 코딩이 활성화되는 모드 1에서와 같이 사전-렌더러/믹서가 우회된 경우, 입력 인터페이스(100)에 입력된 모든 입력은 SAOC 인코더(800)에 의해 인코딩된다.
더욱이, 도 3에 도시된 바와 같이, 코어 인코더(300)는 USAC 인코더로서, 즉 MPEG-USAC 표준(USAC=unified speech and audio coding)에서 정의되고 표준화된 인코더로서 바람직하게 구현된다. 도 3에 도시된 전체 인코더의 출력은 개별적인 데이터 유형들에 대한 컨테이너-형(container-like) 구조들을 갖는 MPEG 4 데이터 스트림이다. 더욱이, 메타데이터는 "OAM" 데이터로서 표시되고, 도 1에서의 메타데이터 압축기(400)는 USAC 인코더(300)에 입력되는 압축된 OAM 데이터를 얻기 위해 OAM 인코더(400)에 대응한다. USAC 인코더(300)는 도 3에서 알 수 있듯이, 인코딩된 채널/객체 데이터를 가질 뿐 아니라 압축된 OAM 데이터를 갖는 MP4 출력 데이터 스트림을 얻기 위해 출력 인터페이스를 더 포함한다.
도 5는 인코더의 추가 실시예를 도시하며, 여기서 도 3에 비해, SAOC 인코더는, 이 모드에서 활성화되지 않는 사전-렌더러/믹서(200)에 제공된 채널들을 SAOC 인코딩 알고리즘을 통해 인코딩하거나, 대안적으로 사전-렌더링된 채널들과 객체들을 더한 것을 SAOC 인코딩하도록 구성될 수 있다. 따라서, 도 5에서, SAOC 인코더(800)는 3가지 상이한 종류들의 입력 데이터, 즉 어떠한 사전-렌더링된 객체들을 갖지 않는 채널들, 채널들 및 사전-렌더링된 객체들, 또는 객체들 전용 상에서 동작할 수 있다. 더욱이, 도 5에서의 추가 OAM 디코더(420)를 제공하는 것이 바람직하여, SAOC 인코더(800)는 처리를 위해, 디코더 측 상에서와 동일한 데이터, 즉 원본 OAM 데이터가 아니라 손실 압축에 의해 얻어진 데이터를 이용한다.
도 5의 인코더는 여러 개별적인 모드들로 동작할 수 있다.
도 1의 정황에서 논의된 제 1 및 제 2 모드들 외에도, 도 5의 인코더는, 사전-렌더러/믹서(200)가 활성화되지 않을 때 코어 인코더가 개별적인 객체들로부터 하나 이상의 전송 채널들을 생성하는 제 3 모드로 추가적으로 동작할 수 있다. 대안적으로 또는 추가적으로, 이러한 제 3 모드에서, SAOC 인코더(800)는, 즉 다시 도 1의 믹서(200)에 대응하는 사전-렌더러/믹서(200)가 활성화되지 않을 때, 원본 채널들로부터 하나 이상의 대안적인 또는 추가 전송 채널들을 생성할 수 있다.
마지막으로, SAOC 인코더(800)는, 인코더가 제 4 모드로 구성될 때, 사전-렌더러/믹서에 의해 생성된 사전-렌더링된 객체들을 채널들에 더한 것을 인코딩할 수 있다. 따라서, 제 4 모드에서, 가장 낮은 비트율 어플리케이션들은, 채널들 및 객체들이 "SAOC-SI"로서 도 3 및 도 5에 표시된 바와 같이 개별적인 SAOC 전송 채널들 및 연관된 부가 정보로 완전히 변형되었고, 추가적으로, 이러한 제 4 모드에서 어떠한 압축된 메타데이터도 송신될 필요는 없다.
도 2는 본 발명의 실시예에 따른 디코더를 도시한다. 디코더는 입력부로서, 인코딩된 오디오 데이터, 즉 도 1의 데이터(501)를 수신한다.
디코더는 메타데이터 압축 해제기(1400), 코어 디코더(1300), 객체 프로세서(1200), 모드 제어기(1600), 및 후치 프로세서(1700)를 포함한다.
특히, 오디오 디코더는 인코딩된 오디오 데이터를 디코딩하기 위해 구성되고, 입력 인터페이스는 인코딩된 오디오 데이터를 수신하기 위해 구성되고, 인코딩된 오디오 데이터는 복수의 인코딩된 채널들 및 복수의 인코딩된 객체들 및 특정 모드에서의 복수의 객체들에 관련된 압축된 메타데이터를 포함한다.
더욱이, 코어 디코더(1300)는 복수의 인코딩된 채널들 및 복수의 인코딩된 객체들을 디코딩하기 위해 구성되고, 추가적으로, 메타데이터 압축 해제기는 압축된 메타데이터를 압축 해제하기 위해 구성된다.
더욱이, 객체 프로세서(1200)는 객체 데이터를 포함하는 미리 결정된 수의 출력 채널들 및 디코딩된 채널들을 얻기 위해 압축 해제된 메타데이터를 이용하여 코어 디코더(1300)에 의해 생성된 복수의 디코딩된 객체들을 처리하기 위해 구성된다. 1205로서 표시된 이들 출력 채널들은 후치 프로세서(1700)에 입력된다. 후치 프로세서(1700)는 다수의 출력 채널들(1205)을 특정 출력 포맷으로 변환하기 위해 구성되며, 이러한 특정 출력 포맷은 5.1, 7.1, 등의 출력 포맷과 같이 입체 음향 출력 포맷 또는 스피커 출력 포맷일 수 있다.
바람직하게, 디코더는 모드 표시를 검출하기 위해 인코딩된 데이터를 분석하기 위해 구성되는 모드 제어기(1600)를 포함한다. 그러므로, 모드 제어기(1600)는 도 2에서의 입력 인터페이스(1100)에 연결된다. 하지만, 대안적으로, 모드 제어기는 반드시 입력 인터페이스에 있을 필요는 없다. 그 대신, 융통성있는 디코더는 사용자 입력 또는 임의의 다른 제어와 같은 임의의 다른 종류의 제어 데이터에 의해 사전 설정될 수 있다. 도 2에서의 오디오 디코더, 및 바람직하게 모드 제어기(1600)에 의해 제어된 오디오 디코더는 객체 프로세서를 우회하고, 복수의 디코딩된 채널들을 후치 프로세서(1700)에 공급하도록 구성된다. 이것은 모드 2, 즉 모드 2가 도 1의 인코더에 적용될 때, 즉 사전-렌더링된 채널들이 수신되는 모드 2에서의 동작이다. 대안적으로, 모드 1이 인코더에 적용될 때, 즉 인코더가 개별적인 채널/객체 코딩을 수행할 때, 객체 프로세서(1200)는 우회하지 않고, 복수의 디코딩된 채널들 및 복수의 디코딩된 객체들은 메타데이터 압축 해제기(1400)에 의해 생성된 압축 해제된 메타데이터와 함께 객체 프로세서(1200)에 공급된다.
바람직하게, 모드 1 또는 모드 2가 적용되는 지의 여부에 대한 표시는 인코딩된 오디오 데이터에 포함되고, 모드 제어기(1600)는 모드 표시를 검출하기 위해 인코딩된 데이터를 분석한다. 모드 1은, 인코딩된 오디오 데이터가 인코딩된 채널들을 포함한다는 것을 모드 표시가 표시할 때 사용되고, 모드 2는, 인코딩된 오디오 데이터가 임의의 오디오 객체들을 포함하지 않는데, 즉 도 1의 인코더의 모드 2에 의해 얻어진 사전-렌더링된 채널들만을 포함한다는 것을 표시할 때 적용된다.
도 4는 도 2의 디코더에 비해 바람직한 실시예를 도시하고, 도 4의 실시예는 도 3의 인코더에 대응한다. 도 2의 디코더 구현 외에도, 도 4에서의 디코더는 SAOC 디코더(1800)를 포함한다. 더욱이, 도 2의 객체 프로세서(1200)는 개별적인 객체 렌더러(1210) 및 믹서(1220)로서 구현되는 한편, 모드에 따라, 객체 렌더러(1210)의 기능은 또한 SAOC 디코더(1800)에 의해 구현될 수 있다.
더욱이, 후치 프로세서(1700)는 입체 음향 렌더러(1710) 또는 포맷 변환기(1720)로서 구현될 수 있다. 대안적으로, 도 2의 데이터(1205)의 직접 출력은 또한 1730으로 도시된 바와 같이 구현될 수 있다. 그러므로, 융통성을 갖고 그런 후에 더 작은 포맷이 요구되는 경우 후치-처리하기 위해 22.2 또는 32와 같은 채널들의 가장 높은 수 상에서 디코더에서의 처리를 수행하는 것이 바람직하다. 하지만, 5.1 포맷과 같은 작은 포맷이 요구되는 바로 개시부에서 명백하게 될 때, SAOC 디코더 및/또는 USAC 디코더를 통한 특정 제어가 불필요한 업믹싱 동작들 및 무속 다운믹싱 동작들을 피하기 위해 적용될 수 있다는 것이 도 2 또는 도 6에 의해 숏컷(shortcut)(1727)에 의해 표시된 바와 같이 바람직하다.
본 발명의 바람직한 실시예에서, 객체 프로세서(1200)는 SAOC 디코더(1800)를 포함하고, SAOC 디코더는, 코어 디코더에 의해 출력 하나 이상의 전송 패널들 및 연관된 파라미터적 데이터를 디코딩하고 압축된 메타데이터를 이용하여, 복수의 렌더링된 오디오 객체들을 얻기 위해 구성된다. 이 때문에, OAM 출력은 박스(1800)에 연결된다.
더욱이, 객체 프로세서(1200)는 코어 디코더에 의해 출력된 디코딩된 객체들을 렌더링하도록 구성되고, 코어 디코더는 SAOC 전송 채널들에서 인코딩되지 않고, 객체 렌더러(1210)에 의해 표시된 일반적으로 단일 채널링된 요소들에서 개별적으로 인코딩된다. 더욱이, 디코더는 믹서의 출력을 스피커들에 출력하기 위한 출력(1730)에 대응하는 출력 인터페이스를 포함한다.
추가 실시예에서, 객체 프로세서(1200)는 하나 이상의 전송 채널들, 및 인코딩된 오디오 객체들 또는 인코딩된 오디오 채널들을 나타내는 연관된 파라미터적 부가 정보를 디코딩하기 위한 공간 오디오 객체 코딩 디코더(1800)를 포함하고, 공간 오디오 객체 코딩 디코더는 연관된 파라미터적 정보 및 압축 해제된 메타데이터를 예를 들어 SAOC의 더 이른 버전에서 한정된 바와 같이, 출력 포맷을 직접 렌더링하는데 유용한 트랜스코딩된(transcoded) 파라미터적 부가 정보로 트랜스코딩하도록 구성된다. 후치 프로세서(1700)는 디코딩된 전송 채널들 및 트랜스코딩된 파라미터적 부가 정보를 이용하여 출력 포맷의 오디오 채널들을 계산하기 위해 구성된다. 후치 프로세서에 의해 수행된 처리는 MPEG 서라운드 처리와 유사할 수 있거나, BCC 처리 등과 같은 임의의 다른 처리일 수 있다.
추가 실시예에서, 객체 프로세서(1200)는 디코딩된(코어 디코더에 의해) 전송 채널들 및 파라미터적 부가 정보를 이용하여 출력 포맷에 대한 채널 신호들을 직접 업믹싱하고 렌더링하도록 구성된 공간 오디오 객체 코딩 디코더(1800)를 포함한다.
더욱이, 그리고 중요하게, 도 2의 객체 프로세서는 믹서(1220)를 추가로 포함하고, 믹서(1220)는 입력으로서, 채널들과 믹싱된 사전-렌더링된 객체들이 존재할 때, 즉 도 1의 믹서(200)가 활성화될 때 USAC 디코더(!300)에 의해 직접 출력된 데이터를 수신한다. 추가적으로, 믹서(1220)는 SAOC 디코딩 없이 객체 렌더링을 수행하는 객체 렌더러로부터 데이터를 수신한다. 더욱이, 믹서는 SAOC 디코더 출력 데이터, 즉 SAOC 렌더링된 객체들을 수신한다.
믹서(1220)는 출력 인터페이스(1730), 입체 음향 렌더러(1710) 및 포맷 변환기(1720)에 연결된다. 입체 음향 렌더러(1710)는 머리 관련 전달 함수들 또는 입체 음향 룸 임펄스 응답들(BRIR)을 이용하여 출력 채널들을 2개의 입체 음향 채널들로 렌더링하기 위해 구성된다. 포맷 변환기(1720)는, 믹서 및 포맷 변환기(1720)의 출력 채널들(1205)이 5.1 스피커들 등과 같이 재생 레이아웃에 관한 정보를 요구하기 보다 출력 채널들을 낮은 수의 채널들을 갖는 출력 포맷으로 변환하기 위해 구성된다.
도 6의 디코더는, SAOC 디코더가 렌더링된 객체들 뿐 아니라 렌더링된 채널들을 생성할 뿐 아니라 이것이 도 5의 인코더가 사용되었고 채널들/사전-렌더링된 객체들과 SAOC 인코더(800) 입력 인터페이스 사이의 연결(900)이 활성화될 때 그러하다는 점에서 도 4의 디코더와 상이하다.
더욱이, SAOC 디코더로부터 재생 레이아웃에 관한 정보를 수신하고, 렌더링 매트릭스를 SAOC 디코더에 출력하여, SAOC 디코더가 결국 1205의 높은 채널 포맷, 즉 32 스피커들에서 믹서의 어떠한 추가 동작 없이 렌더링된 채널들을 제공할 수 있는 벡터 기반의 진폭 패닝(VBAP) 스테이지(1810)가 구성된다.
VBAP 블록은 바람직하게 렌더링 매트릭스들을 도출하기 위해 디코딩된 OAM 데이터를 수신한다. 더 일반적으로, 바람직하게 재생 레이아웃의 기하학적 정보 뿐 아니라 입력 신호들이 재생 레이아웃 상으로 렌더링되어야 하는 위치들의 기하학적 정보를 요구한다. 이러한 기하학적 입력 데이터는 SAOC를 이용하여 송신된 채널들에 대한 객체들 또는 채널 위치 정보에 대한 OAM 데이터일 수 있다.
하지만, 특정 출력 인터페니스가 요구되는 경우, VBAP 상태(1810)는 예를 들어, 5.1 출력에 대한 요구된 렌더링 매트릭스를 미리 제공할 수 있다. SAOC 디코더(1800)는 SAOC 전송 채널들, 연관된 파라미터적 데이터 및 압축 해제된 메타데이터로부터의 직접 렌더링, 믹서(1220)의 어떠한 상호 작용 없이 요구된 출력 포맷으로의 직접 렌더링을 수행한다. 하지만, 모드들 사이의 특정 믹스가 적용될 때, 즉 여러 채널들이 SAOC 인코딩되지만 모든 채널들이 SAOC 인코딩되지 않는 경우, 또는 여러 객체들이 SAOC 인코딩되지만, 모든 객체들이 SAOC 인코딩되지 않은 경우, 또는 채널들을 갖는 특정 양의 사전-렌더링된 객체들이 SAOC 디코딩되고 나머지 채널들이 SAOC 처리되지 않을 때, 믹서는 개별적인 입력 부분들로부터, 예를 들어, 코어 디코더(1300)로부터 직접, 객체 렌더러(1210)로부터 그리고 SAOC 디코더(1800)로부터 데이터를 종합할 것이다.
후속하여, 도 7은 본 발명의 크게 융통성있고 높은 품질의 오디오 인코더/디코더 개념에 의해 적용될 수 있는 특정 인코더/디코더 모드들을 표시하기 위해 논의된다.
제 1 코딩 모드에 따라, 도 1의 인코더에서의 믹서(200)는 우회되므로, 도 2의 디코더에서의 객체 프로세서는 우회되지 않는다.
제 2 모드에서, 도 1에서의 믹서(200)는 활성화되고, 도 2에서의 객체 프로세서는 우회된다.
그런 후에, 제 3 코딩 모드에서, 도 3의 SAOC 인코더는 활성화되지만, 채널들 또는 믹서에 의해 출력된 채널들보다 객체들을 SAOC 인코딩한다. 그러므로, 모드 3은, 도 4에 도시된 디코더 측 상에서, SAOC 디코더가 객체들에 대해서만 활성화되고 렌더링된 객체들을 생성하는 것을 요구한다.
도 5에 도시된 제 4 코딩 모드에서, SAOC 인코더는 사전-렌더링된 채널들을 SAOC 인코딩하기 위해 구성되는데, 즉, 믹서는 제 2 모드로서 활성화된다. 디코더 측 상에서, SAOC 디코딩은, 객체 프로세서가 제 2 코딩 모드에서와 같이 우회되도록 사전-렌더링된 객체들에 대해 수행된다.
더욱이, 모드들 1 내지 4 중 임의의 믹스에 의한 것일 수 있는 제 5 코딩 모드가 존재한다. 특히, 믹스 코딩 모드는, 도 6에서의 믹서(1220)가 USAC 디코더로부터 직접 채널들을 수신하고, 추가로 USAC 디코더로부터 사전-렌더링된 객체들을 갖는 채널들을 수신할 때 존재할 것이다. 더욱이, 이러한 믹싱된 코딩 모드에서, 객체들은 바람직하게, USAC 디코더의 단일 채널 요소를 이용하여 직접 인코딩된다. 이러한 정황에서, 객체 렌더러(1210)는 이들 디코딩된 객체들을 렌더링할 것이고, 이들을 믹서(1220)에 송출할 것이다. 더욱이, 여러 객체들은 SAOC 인코더에 의해 추가로 인코딩되어, SAOC 디코더는, SAOC 기술에 의해 인코딩된 여러 채널들이 존재할 때 렌더링된 객체들 및/또는 렌더링된 채널들을 믹서에 출력할 것이다.
믹서(1220)의 각 입력 부분은 이 후, 예시적으로 1205로 표시된 32와 같은 채널들의 수를 수신하기 위한 적어도 잠재성을 가질 수 있다. 따라서, 기본적으로, 믹서는 USAC 디코더로부터 32 채널들을 수신할 수 있고, 추가적으로, USAC 디코더로부터 32 사전-렌더링/믹싱된 채널들을 수신할 수 있고, 추가적으로, 객체 렌더러로부터 32 "채널들"을 수신할 수 있고, 추가적으로, SAOC 디코더로부터 32 "채널들"을 수신할 수 있고, 여기서 한 편으로 1210 및 1218과 다른 한 편으로 블록(1220) 사이의 각 "채널"은 대응하는 스피커 채널에서의 대응하는 객체들의 기여를 갖고, 그런 후에 믹서(1220)는 믹싱하는데, 예를 들어, 각 스피커 채널에 대한 개별적인 기여들을 가산한다.
본 발명의 바람직한 실시예에서, 인코딩/디코딩 시스템은 채널 및 객체 신호들의 코딩에 대한 MPEG-D USAC 코덱에 기초한다. 다량의 객체들을 코딩하기 위한 효율을 증가시키기 위해, MPEG SAOC 기술이 적응되었다. 3가지 유형들의 렌더러들은 객체들을 채널들로 렌더링하고, 채널들을 헤드폰들에 렌더링하거나, 채널들을 상이한 스피커 설정에 렌더링하는 작업을 수행한다. 객체 신호들이 SAOC를 이용하여 명시적으로 송신되거나 파라미터적으로 인코딩될 때, 대응하는 객체 메타데이터 정보는 압축되어 인코딩된 출력 데이터로 멀티플렉싱된다.
실시예에서, 사전-렌더러/믹서(200)는 채널을 더한 객체 입력 장면을 인코딩 이전에 채널 장면으로 변환하는데 사용된다. 기능적으로, 도 4 또는 도 6에 도시되고 도 2의 객체 프로세서(1200)에 의해 표시된 바와 같이 디코더 측 상의 객체 렌더러/믹서 조합과 동일하다. 객체들의 사전-렌더링은 다수의 동시에 활성의 객체 신호들에 기본적으로 독립적인 인코더 입력에서 결정론적 신호 엔트로피를 보장한다. 객체들의 사전-렌더링을 통해, 객체 메타데이터 송신은 요구되지 않는다. 이산 객체 신호들은, 인코더가 사용하도록 구성되는 채널 레이아웃으로 렌더링된다. 각 채널에 대한 객체들의 가중치들은 화살표(402)로 표시된 바와 같이 연관된 객체 메타데이터(OAM)로부터 얻어진다.
스피커 채널 신호들, 이산 객체 신호들, 객체 다운믹스 신호들 및 사전-렌더링된 신호들에 대한 코어/인코더/디코더로서, USAC 기술이 바람직하다. 이것은 채널 및 객체 매핑 정보(입력 채널 및 객체 할당의 기하학적 및 구문적 정보)를 생성함으로써 신호들의 크기의 코딩을 다룬다. 이러한 매핑 정보는, 입력 채널들 및 객체들이 도 10에 도시된 USAC 채널 요소들, 예를 들어, 채널 쌍 요소들(CPEs), 단일 채널 요소들(SCEs), 채널 쿼드 요소들(QCEs)에 어떻게 매핑되는 지를 기재하고, 대응하는 정보는 코어 인코더로부터 코어 디코더로 송신된다. SAOC 데이터 또는 객체 메타데이터와 같은 모든 추가 페이로드들(payloads)은 연장 요소들을 통과하였고, 인코더의 속도(rate) 제어에서 고려되었다.
객체들의 코딩은 속도/왜곡 요건들 및 렌더러에 대한 상호 작용성(interactivity) 요건들에 따라 상이한 방식들로 가능하다. 다음의 객체 코딩 변경들이 가능하다:
- 사전 렌더링된 객체들: 객체 신호들은 사전 렌더링되고 인코딩 이전에 22.2 채널 신호들로 믹싱된다. 후속 코딩 체인은 22.2 채널 신호들을 본다.
- 이산 객체 파형들: 객체들은 모노포닉(monophonic) 파형들로서 인코더에 공급된다. 인코더는 채널 신호들 외에도 객체들을 송신하기 위해 단일 채널 요소들(SCEs)을 이용한다. 디코딩된 객체들은 렌더링되고, 수신사 측에서 믹싱된다. 압축된 객체 메타데이터 정보는 수신기/렌더러로 함께 송신된다.
- 파라미터적 객체 파형들: 객체 특성들 및 서로에 대한 관계는 SAOC 파라미터들에 의해 기재된다. 객체 신호들의 다운-믹스는 USAC로 코딩된다. 파라미터적 정보는 함께 송신된다. 다운믹스 채널들의 수는 객체들의 수 및 전체 데이터 속도에 따라 선택된다. 압축된 객체 메타데이터 정보는 SAOC 렌더러로 송신된다.
객체 신호들에 대한 SAOC 인코더 및 디코더는 MPEG SAOC 기술에 기초한다. 시스템은 더 작은 수의 송신된 채널들 및 추가 파라미터적 데이터{OLD들, IOC들(Inter Object Coherence), DMG들(Down Mix Gains)}에 기초하여 다수의 오디오 객체들을 재생성하고, 변형하고, 렌더링할 수 있다. 추가 파라미터적 데이터는 모든 객체들을 개별적으로 송신하기 위해 요구된 것보다 상당히 더 낮은 데이터 속도를 나타내어, 이것은 코딩을 매우 효율적이게 만든다.
SAOC 인코더는 모노포닉 파형들로서 객체/채널 신호들을 입력으로서 취하고, 파라미터적 정보(3D-오디오 비트스트림으로 패킹됨) 및 SAOC 전송 채널들(단일 채널 요소들을 이용하여 인코딩되고, 송신됨)을 출력한다.
SAOC 디코더는 디코딩된 SAOC 전송 채널들 및 파라미터적 정보로부터 객체/채널 신호들을 재구성하고, 재생 레이아웃, 압축 해제된 객체 메타데이터 정보 및, 선택적으로 사용자 상호 작용 정보에 기초하여 출력 오디오 장면을 생성한다.
각 객체에 대해, 3D 공간에서의 객체의 기하학적 위치 및 부피를 규정하는 연관된 메타데이터는 시간 및 공간에서 객체 특성들의 양자화에 의해 효율적으로 코딩된다. 압축된 객체 메타데이터(cOAM)는 부가 정보로서 수신기에 송신된다. 객체의 부피는 이러한 오디오 객체의 오디오 신호의 신호 레벨의 정보 및/또는 공간 연장에 관한 정보를 포함할 수 있다.
객체 렌더러는 주어진 재생 포맷에 따라 객체 파형들을 생성하기 위해 압축된 객체 메타데이터를 이용한다. 각 객체는 그 메타데이터에 따라 특정 출력 채널들로 렌더링된다. 이러한 블록의 출력은 부분 결과들의 합으로부터 초래된다.
채널 기반의 컨텐트 및 이산/파라미터적 객체들이 디코딩되면, 채널 기반의 파형들 및 렌더링된 객체 파형들은 결과적인 파형들을 출력하기 전에(또는 입체 음향 렌더러와 같은 후치 프로세서 모듈 또는 스피커 렌더러 모듈에 공급하기 전에) 믹싱된다.
입체 음향 렌더러 모듈은 다중 채널 오디오 재료의 입체 음향 다운믹스를 발생시켜, 각 입력 채널은 가상 사운드 소스에 의해 표현된다. 처리는 QMF(Quadrature Mirror Filterbank) 도메인에서 프레임 방식으로 수행된다.
입체 음향화는 측정된 입체 음향 룸 임펄스 응답들에 기초한다.
도 8은 포맷 변환기(1720)의 바람직하 실시예를 도시한다. 스피커 렌더러 또는 포맷 변환기는 송신기 채널 구성과 원하는 재생 포맷 사이에서 변환한다. 이러한 포맷 변환기는 낮은 수의 출력 채널들로의 변환을 수행하는데, 즉, 다운믹스들을 생성한다. 이 때문에, QMF 도메인에서 바람직하게 동작하는 다운믹서(1722)는 믹서 출력 신호들(1205)을 수신하고, 스피커 신호들을 출력한다. 바람직하게, 다운믹서(1722)를 구성하기 위한 제어기(1724)가 제공되고, 이것은 제어 입력으로서 믹서 출력 레이아웃, 즉 데이터(1205)가 결정되고 원하는 재생 레이아웃이 일반적으로 도 6에 도시된 포맷 변환 블록(1720)에 입력된 레이아웃을 수신한다. 이러한 정보에 기초하여, 제어기(1724)는 바람직하게 입력과 출력 포맷들의 주어진 조합에 대한 최적화된 다운믹스 매트릭스들을 자동으로 생성하고, 다운믹스 프로세스에서 다운믹서 블록(1722)에서의 이들 매트릭스들을 적용한다. 포맷 변환기는 표준 스피커 구성들 및 비-표준 스피커 위치들을 갖는 무작위 구성들을 허용한다.
도 6의 정황에 도시된 바와 같이, SAOC 디코더는 목표 재생 레이아웃으로의 후속 포맷 변환을 가지고 22.2와 같은 미리 한정된 채널 레이아웃으로 렌더링하도록 설계된다. 하지만, 대안적으로, SAOC 디코더는, SAOC 디코더가 후속 포맷 변환 없이 재생 레이아웃에 직접 디코딩하도록 구성되는 "저전력" 모드를 지원하도록 구성된다. 이러한 구현에서, SAOC 디코더(1800)는 5.1 스피커 신호들과 같은 스피커 신호를 직접 출력하고, SAOC 디코더(1800)는 재생 레이아웃 정보 및 렌더링 매트릭스를 요구하여, 벡터 기반의 진폭 패닝 또는 다운믹스 정보를 생성하기 위한 임의의 다른 종류의 프로세서가 동작할 수 있다.
도 9는 도 6의 입체 음향 렌더러(1710)의 추가 실시예를 도시한다. 특히, 모바일 디바이스들에 대해, 입체 음향 렌더링은 그러한 모바일 디바이스들에 부착된 헤드폰들 또는 일반적으로 소형 모바일 디바이스들에 직접 부착된 스피커들에 대해 요구된다. 그러한 모바일 디바이스들에 대해, 디코더 및 렌더링 복잡도를 제한하기 위한 제약들이 존재할 수 있다. 그러한 처리 시나리오들에서 역상관을 생략하는 것 외에도, 먼저 다운믹서(1712)를 이용하여 중간 다운믹스로 다운믹싱하는 것이 바람직한데, 즉 낮은 수의 출력 채널들로 다운믹싱하는 것이 바람직하며, 이것은 입체 음향 변환기(1714)에 대한 낮은 수의 입력 채널을 초래한다. 경험적으로, 22.2 채널 자료는 다운믹서(1712)에 의해 5.1 중간 다운믹스로 다운믹싱되거나, 대안적으로, 중간 다운믹스는 일종의 "숏컷" 모드로 도 6의 SAOC 디코더(1800)에 의해 직접 계산된다. 그런 후에, 입체 음향 렌더링만이 10개의 HRTF들(Head Related Transfer Functions) 또는, 22.2 입력 채널들이 미리 직접 렌더링된 경우 BRIR 함수들에 대한 44 HRTF를 적용하는 것과 대조적으로 상이한 위치들에서 5개의 개별적인 채널들을 렌더링하기 위한 BRIR 함수들을 적용해야만 한다. 특히, 입체 음향 렌더링에 필요한 컨볼루션 동작들은 많은 처리 전력을 요구하므로, 여전히 수용가능한 오디오 품질을 얻으면서 이러한 처리 전력을 감소시키는 것이 특히 모바일 디바이스들에 유용하다.
바람직하게, 제어 라인(1727)에 의해 예시된 "솟컷"은 낮은 수의 채널들로 디코딩하기 위해 디코더(1300)를 제어하는 것, 즉 디코더에서의 완전한 OTT 처리 블록의 스키핑(skipping) 또는 낮은 수의 채널들로의 포맷 변환을 포함하고, 도 9에 도시된 바와 같이, 입체 음향 렌더링은 낮은 수의 채널들에 대해 수행된다. 동일한 처리는 도 6에서 라인(1727)에 의해 예시된 바와 같이 입체 음향 처리 뿐 아니라 포맷 변환에 대해 적용될 수 있다.
추가 실시예에서, 처리 블록들 사이의 효율적인 인터페이싱(interfacinbg)이 요구된다. 특히 도 6에서, 상이한 처리 블록들 사이의 오디오 신호 경로가 도시된다. 입체 음향 렌더러(1710), 포맷 변환기(1720), SAOC 디코더(1800) 및 USAC 디코더(1300)는, SBR(spectral band replication)이 적용되는 경우, 모두 QMF 또는 하이브리드 QMF 도메인에서 동작한다. 실시예에 따라, 이들 모든 처리 블록들은 효율적인 방식으로 QMF 도메인에서 서로 간에 오디오 신호들의 통과를 허용하기 위해 QMF 또는 하이브리드 QMF를 제공한다. 추가적으로, QMF 또는 하이브리드 QMF 도메인에서 작용하기 위해 믹서 모듈 및 객체 렌더러 모듈을 구현하는 것이 바람직하다. 그 결과, 개별적인 QMF 또는 하이브리드 QMF 분석 및 합성 스테이지들이 회피될 수 있고, 이것은 상당한 복잡도 절감을 초래하고, 최종 QMF 분석 스테이지는 1730에 표시된 스피커들을 생성하거나, 블록(1710)의 출력에서 입체 음향 데이터를 생성하거나, 블록(1720)의 출력에서 재생 레이아웃 스피커 신호들을 생성하기 위해 요구된다.
후속하여, 쿼드 채널 요소들(QCE)을 설명하기 위해 도 11이 참조된다. US AC-MPEG 표준에서 한정된 채널 쌍 요소와 대조적으로, 쿼드 채널 요소는 4개의 입력 채널들(90)을 요구하고, 인코딩된 QCE 요소(91)를 출력한다. 일실시예에서, 2-1-2 모드에서의 2개의 MPEG 서라운드 박스들 또는 2개의 TTO 박스들(TTO=Two To One) 및 MPEG USAC 또는 MPEG 서라운드에 한정된 추가 조인트 스테레오 코딩 툴들(예를 들어, MS-스테레오)의 계층이 제공되고, QCE 요소는 2개의 결합하여 스테레오 코딩된 다운믹스 채널들 뿐 아니라 선택적으로 2개의 결합하여 스테레오 코딩된 잔류 채널들, 및 추가적으로 예를 들어 2개의 TTO 박스들로부터 도출된 파라미터적 데이터를 포함한다. 디코더 측 상에서, 2개의 다운믹스 채널들 및 선택적으로 2개의 잔류 채널들의 조인트 스테레오 디코딩이 적용되고 2개의 OTT 박스들을 갖는 제 2 스테이지에서 다운믹스 및 선태 잔류 채널들이 4개의 출력 채널들로 업믹싱되는 구조가 적용된다. 하지만, 하나의 QCE 인코더에 대한 대안적인 처리 동작들은 계층적 동작 대신에 적용될 수 있다. 따라서, 2개의 채널들의 그룹의 결합 채널 코딩 외에도, 코어 인코더/디코더는 추가적으로 4개의 채널들의 그룹의 결합 채널 코딩을 이용한다.
더욱이, 1200 kbps에서 절충되지 않은 풀-밴드(18kHz) 코딩을 가능하게 하기 위해 개선된 잡음 충진 절차를 수행하는 것이 바람직하다.
인코더는 동적 데이터에 대한 속도 버퍼(rate buffer)로서 채널당 6144 비트의 최대치를 이용하여 '비트-저장소를 갖는 일정한 속도' 방식으로 동작되었다.
SAOC 데이터 또는 객체 메타데이터와 같은 모든 추가 페이로드들은 확장 요소들을 통과하였고, 인코더의 속도 제어에서 고려되었다.
또한 3D 오디오 컨텐트에 대한 SAOC 기능들을 이용하기 위해, MPEG SOAC로의 다음의 확장들이 구현되었다:
- SAOC 전송 채널들의 임의의 수로의 다운믹싱.
- 높은 수의 스피커들(최대 22.2)을 갖는 출력 구성들로의 개선된 렌더링.
입체 음향 렌더러 모듈은 다중 채널 오디오 자료의 입체 음향 다운믹스를 발생하여, 각 입력 채널(LFE 채널들을 제외)은 가상 사운드 소스에 의해 표현된다. 처리는 QMF 도메인에서 프레임 방식으로 수행된다.
입체 음향화는 측정된 입체 음향 룸 임펄스 응답들에 기초한다. 직접 사운드 및 초기 반사들은 QMF 도메인의 상부 상의 고속 컨볼루션을 이용하여 의사-FFT 도메인에서 컨볼루셔널 접근법을 통해 오디오 자료에 날인(imprinted)된다.
몇몇 양상들이 장치의 정황에서 기재되었지만, 이들 양상들이 또한, 블록 또는 디바이스가 방법 단계 또는 방법 단계의 특징에 대응하는 대응하는 방법의 설명을 나타낸다는 것이 또한 명백하다. 유사하게, 방법 단계의 정황에서 기재된 양상들은 또한 대응하는 장치의 대응하는 블록 또는 항목 또는 특징의 설명을 나타낸다. 방법 단계들의 몇몇 또는 전부는 예를 들어, 마이크로프로세서, 프로그래밍가능 컴퓨터 또는 전자 회로와 같은 하드웨어 장치에 의해(또는 이용하여) 실행될 수 있다. 몇몇 실시예들에서, 하나 이상의 가장 중요한 방법 단계들의 몇몇은 그러한 장치에 의해 실행될 수 있다.
특정 구현 요건들에 따라, 본 발명의 실시예들은 하드웨어 또는 소프트웨어로 구현될 수 있다. 구현은 디지털 저장 매체, 예를 들어, 플로피 디스크, DVD, CD, ROM, PROM, EPROM, EEPROM, 또는 FLASH 메모리를 이용하여 수행될 수 있는데, 이러한 디지털 저장 매체는 그 위에 저장된 전자적으로 판독가능한 제어 신호들을 갖고, 각 방법이 수행되도록 프로그래밍가능 컴퓨터 시스템과 협력한다(또는 협력할 수 있다). 그러므로, 디지털 저장 매체는 컴퓨터 판독가능할 수 있다.
본 발명에 따른 몇몇 실시예들은, 본 명세서에 기재된 방법들 중 하나가 수행되도록, 프로그래밍가능 컴퓨터 시스템과 협력할 수 있는, 전자적으로 판독가능한 제어 신호들을 갖는 데이터 캐리어를 포함한다.
일반적으로, 본 발명의 실시예들은 프로그램 코드를 갖는 컴퓨터 프로그램 제품으로서 구현될 수 있고, 프로그램 코드는, 컴퓨터 프로그램이 컴퓨터 상에서 실행될 때 방법들 중 하나를 수행하기 위해 동작가능하다. 프로그램 코드는 예를 들어, 기계 판독가능한 캐리어 상에 저장될 수 있다.
다른 실시예들은 기계 판독가능한 캐리어 상에 저장된, 본 명세서에 기재된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함한다.
즉, 그러므로, 본 발명의 방법의 실시예는, 컴퓨터 프로그램이 컴퓨터 상에서 실행될 때, 본 명세서에 기재된 방법들 중 하나를 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.
그러므로, 본 발명의 방법들의 추가 실시예는 본 명세서에 기재된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 그 위에 리코딩되게 포함하는 데이터 캐리어(또는 디지털 저장 매체, 또는 컴퓨터-판독가능 매체)이다. 데이터 캐리어, 디지털 저장 매체 또는 리코딩된 매체는 일반적으로 실체적(tangible)이고 및/또는 비-과도적이다.
그러므로, 본 발명의 방법의 추가 실시예는 본 명세서에 기재된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 나타내는 신호들의 시퀀스 또는 데이터 스트림이다. 예를 들어, 신호들의 시퀀스들 또는 데이터 스트림은 데이터 통신 연결부를 통해, 예를 들어, 인터넷을 통해, 전송되도록 구성될 수 있다.
추가 실시예는 본 명세서에 기재된 방법들 중 하나를 수행하도록 프로그래밍되고, 구성되거나 적응된 처리 수단, 예를 들어, 컴퓨터, 또는 프로그래밍가능 논리 디바이스를 포함한다.
추가 실시예는 본 명세서에 기재된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램이 그 위에 설치된 컴퓨터를 포함한다.
본 발명에 따른 추가 실시예는 본 명세서에 기재된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 수신기에 (예를 들어, 전자적으로 또는 광학적으로) 전달하도록 구성된 장치 또는 시스템을 포함한다. 수신기는 예를 들어, 컴퓨터, 모바일 디바이스, 메모리 디바이스 등일 수 있다. 장치 또는 시스템은 예를 들어, 컴퓨터 프로그램을 수신기에 전달하기 위한 파일 서버를 포함할 수 있다.
몇몇 실시예들에서, 프로그래밍가능 논리 디바이스(예를 들어, 전계 프로그래밍가능 게이트 어레이)는 본 명세서에 기재된 방법들의 기능들 중 몇몇 또는 전부를 수행하는데 사용될 수 있다. 몇몇 실시예들에서, 전계 프로그래밍가능 게이트 어레이는 본 명세서에 기재된 방법들 중 하나를 수행하기 위해 마이크로프로세서와 협력할 수 있다. 일반적으로, 방법들은 임의의 하드웨어 장치에 의해 바람직하게 수행된다.
전술한 실시예들은 본 발명의 원리들을 위해 단지 예시적이다. 본 명세서에 기재된 세부사항들 및 배치들의 변형들 및 변경들이 당업자에게 명백하다는 것이 이해된다. 그러므로, 본 명세서에서 실시예들의 기재 및 설명에 의해 제공된 특정 세부사항들에 의해서가 아니라 다음의 특허 청구항들의 범주에 의해서만 제한되도록 의도된다.

Claims (24)

  1. 오디오 출력 데이터(501)를 얻기 위해 오디오 입력 데이터(101)를 인코딩하기 위한 오디오 인코더로서,
    복수의 오디오 채널들, 복수의 오디오 객체들, 및 상기 복수의 오디오 객체들의 하나 이상에 관련된 메타데이터를 수신하기 위한 입력 인터페이스(100);
    복수의 사전-믹싱된 채널들을 얻기 위해 상기 복수의 객체들 및 상기 복수의 채널들을 믹싱하기 위한 믹서(200)로서, 각 사전-믹싱된 채널은 채널의 오디오 데이터 및 적어도 하나의 객체의 오디오 데이터를 포함하는, 믹서(200);
    코어 인코더 입력 데이터를 코어 인코딩하기 위한 코어 인코더(300); 및
    상기 복수의 오디오 객체들의 하나 이상에 관련된 상기 메타데이터를 압축하기 위한 메타데이터 압축기(400)를 포함하고,
    상기 오디오 인코더는, 상기 코어 인코더가 코어 인코더 입력 데이터로서 상기 입력 인터페이스에 의해 수신된 상기 복수의 오디오 채널들 및 상기 복수의 오디오 객체들을 인코딩하도록 구성되는 제 1 모드와, 상기 코어 인코더(300)가 상기 코어 인코더 입력 데이터로서 상기 믹서(200)에 의해 생성된 상기 복수의 사전-믹싱된 채널들을 수신하기 위해 구성되는 제 2 모드를 포함하는 적어도 2개의 모드들의 그룹의 모드들 모두에서 동작하도록 구성되는, 오디오 인코더.
  2. 제 1항에 있어서,
    공간 오디오 객체 인코더 입력 데이터로부터 하나 이상의 전송 채널들 및 파라미터적(parametric) 데이터를 생성하기 위한 공간 오디오 객체 인코더(800)를 더 포함하고,
    상기 오디오 인코더는, 상기 코어 인코더(300)가 상기 공간 오디오 객체 인코더 입력 데이터로부터 도출된 상기 하나 이상의 전송 채널들을 인코딩하는 제 3 모드로 추가적으로 동작하도록 구성되고, 상기 공간 오디오 객체 인코더 입력 데이터는 상기 복수의 오디오 객체들, 또는 추가적으로 또는 대안적으로, 상기 복수의 오디오 채널들의 2개 이상을 포함하는, 오디오 인코더.
  3. 제 1항 또는 제 2항에 있어서,
    공간 오디오 객체 인코더 입력 데이터로부터 하나 이상의 전송 채널들 및 파라미터적 데이터를 생성하기 위한 공간 오디오 객체 인코더(800)를 더 포함하고,
    상기 오디오 인코더는, 상기 코어 인코더가 상기 공간 오디오 객체 인코더 입력 데이터로서 상기 사전-믹싱된 채널들로부터 상기 공간 오디오 객체 인코더(800)에 의해 도출된 전송 채널들을 인코딩하는 제 4 모드로 추가적으로 동작하도록 구성되는, 오디오 인코더.
  4. 제 1항 내지 제 3항 중 어느 한 항에 있어서, 상기 제 1 모드로 상기 입력 인터페이스(100)의 출력을 상기 코어 인코더(300)의 입력에 연결하고, 상기 입력 인터페이스(100)의 상기 출력을 상기 믹서(200)의 입력에 연결하고, 상기 제 2 모드로 상기 믹서(200)의 출력을 상기 코어 인코더(300)의 상기 입력에 연결하기 위한 연결기, 및
    사용자 인터페이스로부터 수신되거나 상기 오디오 입력 데이터(101)로부터 추출된 모드 표시(mode indication)에 따라 상기 연결기를 제어하기 위한 모드 제어기(600)를
    더 포함하는, 오디오 인코더.
  5. 제 1항 내지 제 4항 중 어느 한 항에 있어서,
    상기 오디오 출력 데이터(501)로서 출력 신호를 제공하기 위한 출력 인터페이스(500)로서, 상기 출력 신호는 상기 제 1 모드에서, 상기 코어 인코더(300)의 출력 및 압축된 메타데이터를 포함하고, 상기 제 2 모드에서, 어떠한 메타데이터 없이 상기 코어 인코더(300)의 출력을 포함하고, 상기 제 3 모드에서, 상기 코어 인코더(300)의 출력, SAOC 부가 정보 및 상기 압축된 메타데이터를 포함하고, 상기 제 4 모드에서, 상기 코어 인코더(300)의 출력 및 SAOC 부가 정보를 포함하는, 출력 인터페이스(500)를 더 포함하는, 오디오 인코더.
  6. 제 1항 내지 제 5항 중 어느 한 항에 있어서,
    상기 믹서(200)는, 상기 복수의 채널들이 연관되는 리플레이 설정(replay setup)에서 각 채널의 위치의 표시와 상기 메타데이터를 이용하여 상기 복수의 오디오 객체들을 사전-렌더링하기 위해 구성되고,
    상기 믹서(200)는, 상기 오디오 객체가 상기 메타데이터에 의해 결정된 바와 같이 상기 리플레이 설정에서의 상기 적어도 2개의 오디오 채널들 사이에 위치될 때, 오디오 객체를 적어도 2개의 오디오 채널들 및 이를 통해 오디오 채널들의 총 수로 믹싱하도록 구성되는, 오디오 인코더.
  7. 제 1항 내지 제 6항 중 어느 한 항에 있어서,
    상기 메타데이터 압축기(400)에 의해 출력된 압축된 메타데이터를 압축 해제(decompressing)하기 위한 메타데이터 압축 해제기(420)를 더 포함하고,
    상기 믹서(200)는 압축 해제된 메타데이터에 따라 상기 복수의 객체들을 믹싱하도록 구성되고, 상기 메타데이터 압축기(400)에 의해 수행된 압축 동작은 양자화 단계를 포함하는 손실 압축 동작인, 오디오 인코더.
  8. 인코딩된 오디오 데이터를 디코딩하기 위한 오디오 디코더로서,
    상기 인코딩된 오디오 데이터를 수신하기 위한 입력 인터페이스(1100)로서, 상기 인코딩된 오디오 데이터는 복수의 인코딩된 채널들 또는 복수의 인코딩된 객체들 또는 상기 복수의 객체들에 관련된 압축 메타데이터를 포함하는, 입력 인터페이스(1100);
    상기 복수의 인코딩된 채널들 및 상기 복수의 인코딩된 객체들을 디코딩하기 위한 코어 디코더(1300);
    상기 압축된 메타데이터를 압축 해제하기 위한 메타데이터 압축 해제기(1400),
    상기 객체들로부터 오디오 데이터를 포함하는 출력 채널들(1205)의 수 및 상기 디코딩된 채널들을 얻기 위해 상기 압축 해제된 메타데이터를 이용하여 상기 복수의 디코딩된 객체들을 처리하기 위한 객체 프로세서(1200); 및
    상기 출력 채널들(1205)의 수를 출력 포맷으로 변환하기 위한 후치 프로세서(1700)를 포함하고,
    상기 오디오 디코더는, 상기 객체 프로세서를 우회하고, 상기 인코딩된 오디오 데이터가 어떠한 오디오 객체들도 포함하지 않을 때 복수의 디코딩된 채널들을 상기 후치 프로세서(1700)에 공급하고, 상기 인코딩된 오디오 데이터가 인코딩된 채널들 및 인코딩된 객체들을 포함할 때 복수의 디코딩된 객체들 및 상기 복수의 디코딩된 채널들을 상기 객체 프로세서(1200)에 공급하도록 구성되는, 오디오 디코더.
  9. 제 8항에 있어서, 상기 후치 프로세서(1700)는 상기 출력 채널들(1205)의 수를 입체 음향 표현, 또는 상기 출력 채널들의 수보다 더 작은 수의 채널들을 갖는 재생 포맷으로 변환하도록 구성되고,
    상기 오디오 디코더는 사용자 인터페이스로부터 도출되거나 상기 인코딩된 오디오 신호로부터 추출된 제어 입력에 따라 상기 후치 프로세서(1700)를 제어하도록 구성되는, 오디오 디코더.
  10. 제 8항 또는 제 9항에 있어서, 상기 객체 프로세서는
    압축 해제된 메타데이터를 이용하여 디코딩된 객체들을 렌더링하기 위한 객체 렌더러; 및
    상기 출력 채널들(1205)의 수를 얻기 위해 렌더링된 객체들 및 디코딩된 채널들을 믹싱하기 위한 믹서(1220)를
    포함하는, 오디오 디코더.
  11. 제 8항 내지 제 10항 중 어느 한 항에 있어서, 상기 객체 프로세서(1200)는
    하나 이상의 전송 채널들과, 인코딩된 오디오 객체들을 나타내는 연관된 파라미터적 부가 정보를 디코딩하기 위한 공간 오디오 객체 코딩 디코더로서, 상기 공간 오디오 객체 코딩 디코더는 상기 오디오 객체들의 배치에 관련된 렌더링 정보에 따라 상기 디코딩된 오디오 객체들을 렌더링하고, 상기 출력 채널들(1205)의 수를 얻기 위해 상기 렌더링된 오디오 객체들과 상기 디코딩된 오디오 채널들을 믹싱하기 위해 상기 객체 프로세서를 제어하도록 구성되는, 오디오 디코더.
  12. 제 8항 내지 제 10항 중 어느 한 항에 있어서, 상기 객체 프로세서(1200)는 하나 이상의 전송 채널들, 및 인코딩된 오디오 객체들과 인코딩된 오디오 채널들을 나타내는 연관된 파라미터적 부가 정보를 디코딩하기 위한 공간 오디오 객체 코딩 디코더(1800)를 포함하고,
    상기 공간 오디오 객체 코딩 디코더는 상기 하나 이상의 전송 채널들 및 상기 파라미터적 부가 정보를 이용하여 상기 인코딩된 오디오 객체들 및 상기 인코딩된 오디오 채널들을 디코딩하도록 구성되고, 상기 객체 프로세서는 상기 압축 해제된 메타데이터를 이용하여 상기 복수의 오디오 객체들을 렌더링하고, 상기 채널들을 디코딩하고, 이들을 상기 렌더링된 객체들과 믹싱하여 상기 출력 채널들(1205)의 수를 얻도록 구성되는, 오디오 디코더.
  13. 제 8항 내지 제 10항 중 어느 한 항에 있어서, 상기 객체 프로세서(1200)는 하나 이상의 전송 채널들과, 인코딩된 오디오 객체들 또는 인코딩된 오디오 채널들을 나타내는 연관된 파라미터적 부가 정보를 디코딩하기 위한 공간 오디오 객체 코딩 디코더(1800)를 포함하고,
    상기 공간 오디오 객체 코딩 디코더는 상기 연관된 파라미터적 정보 및 상기 압축 해제된 메타데이터를, 상기 출력 포맷을 직접 렌더링하는데 사용가능한 트랜스코딩된(transcoded) 파라미터적 부가 정보로 트랜스코딩하도록 구성되고, 상기 후치 프로세서(1700)는 상기 디코딩된 전송 채널들 및 상기 트랜스코딩된 파라미터적 부가 정보를 이용하여 상기 출력 포맷의 오디오 채널들을 계산하기 위해 구성되고, 또는
    상기 공간 오디오 객체 코딩 디코더는 상기 디코딩된 전송 채널들 및 상기 파라미터적 부가 정보를 이용하여 상기 출력 포맷에 대한 채널 신호들을 직접 업믹싱(upmix)하고 렌더링하도록 구성되는, 오디오 디코더.
  14. 제 8항 내지 제 13항 중 어느 한 항에 있어서,
    상기 객체 프로세서(1200)는 복수의 렌더링된 오디오 객체들을 얻기 위해 상기 코어 디코더(1300)에 의해 출력된 하나 이상의 전송 채널들, 및 연관된 파라미터적 데이터, 및 압축 해제된 메타데이터를 디코딩하기 위한 공간 오디오 객체 코딩 디코더를 포함하고,
    상기 객체 프로세서(1200)는 상기 코어 디코더(1300)에 의해 출력된 디코딩된 객체들을 렌더링하도록 더 구성되고;
    상기 객체 프로세서(1200)는 렌더링된 디코딩된 객체들을 디코딩된 채널들과 믹싱하도록 더 구성되고,
    상기 오디오 디코더는 상기 믹서(1220)의 출력을 스피커들에 출력하기 위한 출력 인터페이스(1730)를 더 포함하고,
    상기 후치 프로세서는
    머리 관련 전달 함수들 또는 입체 음향 임펄스 응답들을 이용하여 상기 출력 채널들을 2개의 입체 음향 채널들로 렌더링하기 위한 입체 음향 렌더러, 및
    상기 출력 채널들을 출력 포맷으로 변환하기 위한 포맷 변환기(1720)로서, 상기 출력 포맷은 재생 레이아웃에 관한 정보를 이용하여 상기 믹서(1220)의 상기 출력 채널들보다 더 낮은 수의 채널들을 갖는, 포맷 변환기(1720)를 더 포함하는, 오디오 디코더.
  15. 제 8항 내지 제 14항 중 어느 한 항에 있어서,
    상기 복수의 인코딩된 채널 요소들 또는 상기 복수의 인코딩된 오디오 객체들은 채널 쌍 요소들, 단일 채널 요소들, 저주파수 요소들 또는 쿼드 채널 요소들로서 인코딩되고, 쿼드 채널 요소는 4개의 원본 채널들 또는 객체들을 포함하고,
    상기 코어 디코더(1300)는 채널 쌍 요소, 단일 채널 요소, 저주파수 요소 또는 쿼드 채널 요소를 나타내는 상기 인코딩된 오디오 데이터에 포함된 부가 정보에 따라 상기 채널 쌍 요소들, 단일 채널 요소들, 저주파수 요소들 또는 쿼드 채널 요소들을 인코딩하도록 구성되는, 오디오 디코더.
  16. 제 8항 내지 제 15항 중 어느 한 항에 있어서,
    상기 코어 디코더(1300)는 스펙트럼 대역 복제 동작 없이 잡음 충진(noise filling) 동작을 이용하여 풀-밴드(full-band) 디코딩 동작을 적용하도록 구성되는, 오디오 디코더.
  17. 제 14항에 있어서, 상기 입체 음향 렌더러(1710), 상기 포맷 변환기(1720), 상기 믹서(1220), 상기 SAOC 디코더(1800) 및 상기 코어 디코더(1300)를 포함하고, 상기 객체 렌더러(1210)는 쿼드래처 미러 필터뱅크(QMF) 도메인에서 동작하고, 쿼드래처 미러 필터 도메인 데이터는 어떠한 합성 필터뱅크 및 후속 분석 필터뱅크 처리 없이 상기 요소들 중 하나로부터 상기 요소들의 다른 것으로 송신되는, 오디오 디코더.
  18. 제 8항 내지 제 17항 중 어느 한 항에 있어서,
    상기 후치 프로세서(1700)는 중간 다운믹스를 얻기 위해 상기 객체 프로세서(1200)에 의해 출력된 채널들을 3개 이상의 채널들 및 상기 객체 프로세서(1200)의 상기 출력 채널들(1205)의 수보다 적은 채널들을 갖는 포맷으로 다운믹싱하고, 상기 중간 다운믹스의 상기 채널들을 2-채널 입체 음향 출력 신호로 입체 음향적으로 렌더링(1210)하도록 구성되는, 오디오 디코더.
  19. 제 8항 내지 제 15항 중 어느 한 항에 있어서,
    상기 후치 프로세서(1700)는
    다운믹스 매트릭스를 적용하기 위한 제어된 다운믹서(1722); 및
    상기 객체 프로세서(1200)의 출력의 채널 구성에 관한 정보 및 의도된 재생 레이아웃에 관한 정보를 이용하여 특정 다운믹스 매트릭스를 결정하기 위한 제어기(1724)를
    포함하는, 오디오 디코더.
  20. 제 8항 내지 제 19항 중 어느 한 항에 있어서,
    상기 코어 디코더(1300) 또는 상기 객체 프로세서(1200)는 제어가능하고,
    상기 후치 프로세서(1700)는 상기 출력 포맷에 관한 정보에 따라 상기 코어 디코더(1300) 또는 상기 객체 프로세서(1200)를 제어하도록 구성되어, 상기 출력 포맷에서 개별적인 채널들로서 발생하지 않는 객체들 또는 채널들의 역상관 처리를 초래하는 렌더링은 감소되거나 제거되고, 또는 상기 출력 포맷에서의 상기 개별적인 채널들로서 발생하지 않는 객체들 또는 채널들에 대해, 상기 출력 포맷에서의 상기 개별적인 채널들로서 발생하지 않는 상기 객체들 또는 상기 채널들에 대한 임의의 역상관 처리가 비활성화된다는 것을 제외하고, 상기 객체들 또는 채널들이 상기 출력 포맷에서의 상기 개별적인 채널들로서 발생하는 것처럼 업믹싱 또는 디코딩 동작들이 수행되는, 오디오 디코더.
  21. 제 8항 내지 제 20항 중 어느 한 항에 있어서,
    상기 코어 디코더(1300)는 단일 채널 요소에 대한 변환 디코딩 및 스펙트럼 대역 복제 디코딩을 수행하고, 채널 쌍 요소들 및 쿼드 채널 요소들에 대한 변환 디코딩, 파라미터적 스테레오 디코딩 및 스펙트럼 대역 재생 디코딩을 수행하도록 구성되는, 오디오 디코더.
  22. 오디오 출력 데이터(501)를 얻기 위해 오디오 입력 데이터(101)를 인코딩하는 방법으로서,
    복수의 오디오 채널들, 복수의 오디오 객체들 및 상기 복수의 오디오 객체들의 하나 이상에 관련된 메타데이터를 수신하는 단계(100);
    복수의 사전-믹싱된 채널들을 얻기 위해 상기 복수의 객체들과 상기 복수의 채널들을 믹싱하는 단계(200)로서, 각 사전-믹싱된 채널은 채널의 오디오 데이터 및 적어도 하나의 객체의 오디오 데이터를 포함하는, 믹싱하는 단계(200);
    입력 데이터를 코어 인코딩하는 코어 인코딩 단계(300); 및
    상기 복수의 오디오 객체들의 하나 이상에 관련된 상기 메타데이터를 압축하는 단계(400)를 포함하고,
    상기 오디오 인코딩 방법은, 상기 코어 인코딩 단계가 코어 인코딩 입력 데이터로서 수신된 상기 복수의 오디오 채널들 및 상기 복수의 오디오 객체들을 인코딩하는 제 1 모드와, 상기 코어 인코딩 단계(300)가 상기 코어 인코딩 입력 데이터로서 상기 믹싱 단계(200)에 의해 생성된 상기 복수의 사전-믹싱된 채널들을 수신하는 제 2 모드를 포함하는 2개 이상의 모드들의 그룹의 2개의 모드들에서 동작하는, 오디오 출력 데이터를 얻기 위해 오디오 입력 데이터를 인코딩하는 방법.
  23. 인코딩된 오디오 데이터를 디코딩하는 방법으로서,
    상기 인코딩된 오디오 데이터를 수신하는 단계(1100)로서, 상기 인코딩된 오디오 데이터는 복수의 인코딩된 채널들 또는 복수의 인코딩된 객체들 또는 상기 복수의 객체들에 관련된 압축 메타데이터를 포함하는, 수신하는 단계(1100);
    상기 복수의 인코딩된 채널들 및 상기 복수의 인코딩된 객체들을 코어 디코딩하는 단계(1300);
    상기 압축된 메타데이터를 압축 해제하는 단계(1400),
    상기 객체들로부터 오디오 데이터를 포함하는 출력 채널들(1205)의 수 및 상기 디코딩된 채널들을 얻기 위해 상기 압축 해제된 메타데이터를 이용하여 상기 복수의 디코딩된 객체들을 처리하는 단계(1200); 및
    상기 출력 채널들(1205)의 수를 출력 포맷으로 변환하는 단계(1700)를 포함하고,
    상기 오디오 디코딩 방법에서, 상기 복수의 디코딩된 객체들을 처리하는 단계(1200)는 우회되고, 상기 인코딩된 오디오 데이터가 어떠한 오디오 객체들로 포함하지 않을 때 복수의 디코딩된 채널들은 상기 후치 처리 단계(1700)에 공급되고, 상기 인코딩된 오디오 데이터가 인코딩된 채널들 및 인코딩된 객체들을 포함할 때 상기 복수의 디코딩된 객체들 및 상기 복수의 디코딩된 채널들은 상기 복수의 디코딩된 객체들을 처리하는 단계(1200)에 공급되는, 인코딩된 오디오 데이터를 디코딩하는 방법.
  24. 컴퓨터 또는 프로세서 상에서 실행될 때, 제 22항 또는 제 23항의 방법을 수행하기 위한 컴퓨터 프로그램.
KR1020167004468A 2013-07-22 2014-07-16 오디오 채널들 및 오디오 객체들을 오디오 인코딩 및 디코딩하기 위한 개념 KR101943590B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP13177378.0 2013-07-22
EP20130177378 EP2830045A1 (en) 2013-07-22 2013-07-22 Concept for audio encoding and decoding for audio channels and audio objects
PCT/EP2014/065289 WO2015010998A1 (en) 2013-07-22 2014-07-16 Concept for audio encoding and decoding for audio channels and audio objects

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020187004232A Division KR101979578B1 (ko) 2013-07-22 2014-07-16 오디오 채널들 및 오디오 객체들을 오디오 인코딩 및 디코딩하기 위한 개념

Publications (2)

Publication Number Publication Date
KR20160033769A true KR20160033769A (ko) 2016-03-28
KR101943590B1 KR101943590B1 (ko) 2019-01-29

Family

ID=48803456

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020187004232A KR101979578B1 (ko) 2013-07-22 2014-07-16 오디오 채널들 및 오디오 객체들을 오디오 인코딩 및 디코딩하기 위한 개념
KR1020167004468A KR101943590B1 (ko) 2013-07-22 2014-07-16 오디오 채널들 및 오디오 객체들을 오디오 인코딩 및 디코딩하기 위한 개념

Family Applications Before (1)

Application Number Title Priority Date Filing Date
KR1020187004232A KR101979578B1 (ko) 2013-07-22 2014-07-16 오디오 채널들 및 오디오 객체들을 오디오 인코딩 및 디코딩하기 위한 개념

Country Status (18)

Country Link
US (3) US10249311B2 (ko)
EP (3) EP2830045A1 (ko)
JP (1) JP6268286B2 (ko)
KR (2) KR101979578B1 (ko)
CN (2) CN110942778A (ko)
AR (1) AR097003A1 (ko)
AU (1) AU2014295269B2 (ko)
BR (1) BR112016001143B1 (ko)
CA (1) CA2918148A1 (ko)
ES (1) ES2913849T3 (ko)
MX (1) MX359159B (ko)
PL (1) PL3025329T3 (ko)
PT (1) PT3025329T (ko)
RU (1) RU2641481C2 (ko)
SG (1) SG11201600476RA (ko)
TW (1) TWI566235B (ko)
WO (1) WO2015010998A1 (ko)
ZA (1) ZA201601076B (ko)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2830049A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for efficient object metadata coding
EP2830045A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for audio encoding and decoding for audio channels and audio objects
EP2830052A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, audio encoder, method for providing at least four audio channel signals on the basis of an encoded representation, method for providing an encoded representation on the basis of at least four audio channel signals and computer program using a bandwidth extension
US20170086005A1 (en) * 2014-03-25 2017-03-23 Intellectual Discovery Co., Ltd. System and method for processing audio signal
EP3208800A1 (en) * 2016-02-17 2017-08-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for stereo filing in multichannel coding
US10386496B2 (en) * 2016-03-18 2019-08-20 Deere & Company Navigation satellite orbit and clock determination with low latency clock corrections
EP3469589A1 (en) * 2016-06-30 2019-04-17 Huawei Technologies Duesseldorf GmbH Apparatuses and methods for encoding and decoding a multichannel audio signal
US9913061B1 (en) 2016-08-29 2018-03-06 The Directv Group, Inc. Methods and systems for rendering binaural audio content
US10891962B2 (en) * 2017-03-06 2021-01-12 Dolby International Ab Integrated reconstruction and rendering of audio signals
JP7230799B2 (ja) 2017-03-28 2023-03-01 ソニーグループ株式会社 情報処理装置、情報処理方法、およびプログラム
GB2563635A (en) * 2017-06-21 2018-12-26 Nokia Technologies Oy Recording and rendering audio signals
EP3740950B8 (en) * 2018-01-18 2022-05-18 Dolby Laboratories Licensing Corporation Methods and devices for coding soundfield representation signals
CN112074902B (zh) * 2018-02-01 2024-04-12 弗劳恩霍夫应用研究促进协会 使用混合编码器/解码器空间分析的音频场景编码器、音频场景解码器及相关方法
WO2019187437A1 (ja) * 2018-03-29 2019-10-03 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
KR102643006B1 (ko) 2018-04-11 2024-03-05 돌비 인터네셔널 에이비 오디오 렌더링을 위한 사전 렌더링된 신호를 위한 방법, 장치 및 시스템
EP3818524B1 (en) * 2018-07-02 2023-12-13 Dolby Laboratories Licensing Corporation Methods and devices for generating or decoding a bitstream comprising immersive audio signals
WO2020081674A1 (en) 2018-10-16 2020-04-23 Dolby Laboratories Licensing Corporation Methods and devices for bass management
GB2578625A (en) * 2018-11-01 2020-05-20 Nokia Technologies Oy Apparatus, methods and computer programs for encoding spatial metadata
CN109448741B (zh) * 2018-11-22 2021-05-11 广州广晟数码技术有限公司 一种3d音频编码、解码方法及装置
GB2582910A (en) * 2019-04-02 2020-10-14 Nokia Technologies Oy Audio codec extension
US11545166B2 (en) 2019-07-02 2023-01-03 Dolby International Ab Using metadata to aggregate signal processing operations
KR102471715B1 (ko) * 2019-12-02 2022-11-29 돌비 레버러토리즈 라이쎈싱 코오포레이션 채널-기반 오디오로부터 객체-기반 오디오로의 변환을 위한 시스템, 방법 및 장치
CN113724717B (zh) * 2020-05-21 2023-07-14 成都鼎桥通信技术有限公司 车载音频处理系统、方法、车机控制器和车辆
WO2023006582A1 (en) * 2021-07-29 2023-02-02 Dolby International Ab Methods and apparatus for processing object-based audio and channel-based audio
WO2023077284A1 (zh) * 2021-11-02 2023-05-11 北京小米移动软件有限公司 一种信号编解码方法、装置、用户设备、网络侧设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100138716A (ko) * 2009-06-23 2010-12-31 한국전자통신연구원 고품질 다채널 오디오 부호화 및 복호화 장치
WO2012125855A1 (en) * 2011-03-16 2012-09-20 Dts, Inc. Encoding and reproduction of three dimensional audio soundtracks

Family Cites Families (87)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US2605361A (en) 1950-06-29 1952-07-29 Bell Telephone Labor Inc Differential quantization of communication signals
JP3576936B2 (ja) 2000-07-21 2004-10-13 株式会社ケンウッド 周波数補間装置、周波数補間方法及び記録媒体
EP1427252A1 (en) * 2002-12-02 2004-06-09 Deutsche Thomson-Brandt Gmbh Method and apparatus for processing audio signals from a bitstream
EP1571768A3 (en) * 2004-02-26 2012-07-18 Yamaha Corporation Mixer apparatus and sound signal processing method
GB2417866B (en) 2004-09-03 2007-09-19 Sony Uk Ltd Data transmission
US7720230B2 (en) 2004-10-20 2010-05-18 Agere Systems, Inc. Individual channel shaping for BCC schemes and the like
SE0402651D0 (sv) 2004-11-02 2004-11-02 Coding Tech Ab Advanced methods for interpolation and parameter signalling
SE0402652D0 (sv) 2004-11-02 2004-11-02 Coding Tech Ab Methods for improved performance of prediction based multi- channel reconstruction
SE0402649D0 (sv) 2004-11-02 2004-11-02 Coding Tech Ab Advanced methods of creating orthogonal signals
EP1691348A1 (en) 2005-02-14 2006-08-16 Ecole Polytechnique Federale De Lausanne Parametric joint-coding of audio sources
MX2007011915A (es) 2005-03-30 2007-11-22 Koninkl Philips Electronics Nv Codificacion de audio multicanal.
EP1866913B1 (en) 2005-03-30 2008-08-27 Koninklijke Philips Electronics N.V. Audio encoding and decoding
US7548853B2 (en) 2005-06-17 2009-06-16 Shmunk Dmitry V Scalable compressed audio bit stream and codec using a hierarchical filterbank and multichannel joint coding
CN101288116A (zh) * 2005-10-13 2008-10-15 Lg电子株式会社 用于处理信号的方法和装置
KR100888474B1 (ko) 2005-11-21 2009-03-12 삼성전자주식회사 멀티채널 오디오 신호의 부호화/복호화 장치 및 방법
CN101410891A (zh) 2006-02-03 2009-04-15 韩国电子通信研究院 使用空间线索控制多目标或多声道音频信号的渲染的方法和装置
EP1989920B1 (en) * 2006-02-21 2010-01-20 Koninklijke Philips Electronics N.V. Audio encoding and decoding
CN101884227B (zh) 2006-04-03 2014-03-26 Dts有限责任公司 音频信号处理
US8027479B2 (en) 2006-06-02 2011-09-27 Coding Technologies Ab Binaural multi-channel decoder in the context of non-energy conserving upmix rules
TWI371694B (en) * 2006-06-29 2012-09-01 Lg Electronics Inc Method and apparatus for an audio signal processing
EP3447916B1 (en) 2006-07-04 2020-07-15 Dolby International AB Filter system comprising a filter converter and a filter compressor and method for operating the filter system
CN101617360B (zh) 2006-09-29 2012-08-22 韩国电子通信研究院 用于编码和解码具有各种声道的多对象音频信号的设备和方法
JP5238706B2 (ja) 2006-09-29 2013-07-17 エルジー エレクトロニクス インコーポレイティド オブジェクトベースオーディオ信号のエンコーディング/デコーディング方法及びその装置
PL2068307T3 (pl) 2006-10-16 2012-07-31 Dolby Int Ab Udoskonalony sposób kodowania i odtwarzania parametrów w wielokanałowym kodowaniu obiektów poddanych procesowi downmiksu
US20090265164A1 (en) 2006-11-24 2009-10-22 Lg Electronics Inc. Method for Encoding and Decoding Object-Based Audio Signal and Apparatus Thereof
JP5302207B2 (ja) 2006-12-07 2013-10-02 エルジー エレクトロニクス インコーポレイティド オーディオ処理方法及び装置
EP2595151A3 (en) 2006-12-27 2013-11-13 Electronics and Telecommunications Research Institute Transcoding apparatus
TWI443647B (zh) 2007-02-14 2014-07-01 Lg Electronics Inc 用以將以物件為主之音訊信號編碼與解碼之方法與裝置
CN101542596B (zh) 2007-02-14 2016-05-18 Lg电子株式会社 用于编码和解码基于对象的音频信号的方法和装置
RU2394283C1 (ru) 2007-02-14 2010-07-10 ЭлДжи ЭЛЕКТРОНИКС ИНК. Способы и устройства для кодирования и декодирования объектно-базированных аудиосигналов
KR20080082917A (ko) 2007-03-09 2008-09-12 엘지전자 주식회사 오디오 신호 처리 방법 및 이의 장치
RU2419168C1 (ru) 2007-03-09 2011-05-20 ЭлДжи ЭЛЕКТРОНИКС ИНК. Способ обработки аудиосигнала и устройство для его осуществления
JP4851598B2 (ja) 2007-03-16 2012-01-11 エルジー エレクトロニクス インコーポレイティド オーディオ信号の処理方法及び装置
US7991622B2 (en) * 2007-03-20 2011-08-02 Microsoft Corporation Audio compression and decompression using integer-reversible modulated lapped transforms
WO2008120933A1 (en) 2007-03-30 2008-10-09 Electronics And Telecommunications Research Institute Apparatus and method for coding and decoding multi object audio signal with multi channel
CN101809654B (zh) 2007-04-26 2013-08-07 杜比国际公司 供合成输出信号的装置和方法
MY146431A (en) 2007-06-11 2012-08-15 Fraunhofer Ges Forschung Audio encoder for encoding an audio signal having an impulse-like portion and stationary portion, encoding methods, decoder, decoding method, and encoded audio signal
US7885819B2 (en) 2007-06-29 2011-02-08 Microsoft Corporation Bitstream syntax for multi-process audio decoding
MX2010004220A (es) 2007-10-17 2010-06-11 Fraunhofer Ges Forschung Codificacion de audio usando mezcla descendente.
JP2011504250A (ja) 2007-11-21 2011-02-03 エルジー エレクトロニクス インコーポレイティド 信号処理方法及び装置
KR100998913B1 (ko) 2008-01-23 2010-12-08 엘지전자 주식회사 오디오 신호의 처리 방법 및 이의 장치
KR101061129B1 (ko) 2008-04-24 2011-08-31 엘지전자 주식회사 오디오 신호의 처리 방법 및 이의 장치
EP2144230A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
EP2144231A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme with common preprocessing
KR101223835B1 (ko) 2008-07-11 2013-01-17 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 오디오 신호 합성기 및 오디오 신호 인코더
EP2146522A1 (en) * 2008-07-17 2010-01-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating audio output signals using object based metadata
PL2146344T3 (pl) * 2008-07-17 2017-01-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Sposób kodowania/dekodowania sygnału audio obejmujący przełączalne obejście
KR20100035121A (ko) 2008-09-25 2010-04-02 엘지전자 주식회사 신호 처리 방법 및 이의 장치
US8798776B2 (en) 2008-09-30 2014-08-05 Dolby International Ab Transcoding of audio metadata
MX2011011399A (es) 2008-10-17 2012-06-27 Univ Friedrich Alexander Er Aparato para suministrar uno o más parámetros ajustados para un suministro de una representación de señal de mezcla ascendente sobre la base de una representación de señal de mezcla descendete, decodificador de señal de audio, transcodificador de señal de audio, codificador de señal de audio, flujo de bits de audio, método y programa de computación que utiliza información paramétrica relacionada con el objeto.
EP2194527A3 (en) * 2008-12-02 2013-09-25 Electronics and Telecommunications Research Institute Apparatus for generating and playing object based audio contents
KR20100065121A (ko) 2008-12-05 2010-06-15 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
EP2205007B1 (en) 2008-12-30 2019-01-09 Dolby International AB Method and apparatus for three-dimensional acoustic field encoding and optimal reconstruction
WO2010085083A2 (en) 2009-01-20 2010-07-29 Lg Electronics Inc. An apparatus for processing an audio signal and method thereof
US8139773B2 (en) 2009-01-28 2012-03-20 Lg Electronics Inc. Method and an apparatus for decoding an audio signal
CN102016982B (zh) 2009-02-04 2014-08-27 松下电器产业株式会社 结合装置、远程通信系统以及结合方法
KR101433701B1 (ko) * 2009-03-17 2014-08-28 돌비 인터네셔널 에이비 적응형으로 선택가능한 좌/우 또는 미드/사이드 스테레오 코딩과 파라메트릭 스테레오 코딩의 조합에 기초한 진보된 스테레오 코딩
WO2010105695A1 (en) 2009-03-20 2010-09-23 Nokia Corporation Multi channel audio coding
US8909521B2 (en) 2009-06-03 2014-12-09 Nippon Telegraph And Telephone Corporation Coding method, coding apparatus, coding program, and recording medium therefor
TWI404050B (zh) * 2009-06-08 2013-08-01 Mstar Semiconductor Inc 多聲道音頻信號解碼方法與裝置
US20100324915A1 (en) * 2009-06-23 2010-12-23 Electronic And Telecommunications Research Institute Encoding and decoding apparatuses for high quality multi-channel audio codec
CA2766727C (en) 2009-06-24 2016-07-05 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio signal decoder, method for decoding an audio signal and computer program using cascaded audio object processing stages
EP2461321B1 (en) 2009-07-31 2018-05-16 Panasonic Intellectual Property Management Co., Ltd. Coding device and decoding device
WO2011020067A1 (en) 2009-08-14 2011-02-17 Srs Labs, Inc. System for adaptively streaming audio objects
MX2012003785A (es) 2009-09-29 2012-05-22 Fraunhofer Ges Forschung Decodificador de señal de audio, codificador de señal de audio, metodo para proveer una representacion de señal de mezcla ascendente, metodo para proveer una representacion de señal de mezcla descendente, programa de computadora y cadena de bits usando un valor de parametro de correlacion-inter-objeto-comun.
RU2577199C2 (ru) 2009-10-20 2016-03-10 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Устройство для обеспечения представления сигнала повышающего микширования на основе представления сигнала понижающего микширования, устройство для обеспечения битового потока, представляющего многоканальный звуковой сигнал, способы, компьютерная программа и битовый поток, использующий передачу сигналов с контролем искажения
US9117458B2 (en) 2009-11-12 2015-08-25 Lg Electronics Inc. Apparatus for processing an audio signal and method thereof
TWI557723B (zh) 2010-02-18 2016-11-11 杜比實驗室特許公司 解碼方法及系統
CN116390017A (zh) * 2010-03-23 2023-07-04 杜比实验室特许公司 音频再现方法和声音再现系统
US8675748B2 (en) 2010-05-25 2014-03-18 CSR Technology, Inc. Systems and methods for intra communication system information transfer
US8755432B2 (en) 2010-06-30 2014-06-17 Warner Bros. Entertainment Inc. Method and apparatus for generating 3D audio positioning using dynamically optimized audio 3D space perception cues
MX2013000717A (es) 2010-07-20 2013-02-21 Owens Corning Intellectual Cap Revestimiento polimerico pirorretardante.
US8908874B2 (en) 2010-09-08 2014-12-09 Dts, Inc. Spatial audio encoding and reproduction
MX2013006068A (es) 2010-12-03 2013-12-02 Fraunhofer Ges Forschung Adquisicion de sonido, mediante la extraccion de informacion geometrica de estimativos de direccion de llegada.
TW202405797A (zh) 2010-12-03 2024-02-01 美商杜比實驗室特許公司 音頻解碼裝置、音頻解碼方法及音頻編碼方法
US9165558B2 (en) * 2011-03-09 2015-10-20 Dts Llc System for dynamically creating and rendering audio objects
US9754595B2 (en) * 2011-06-09 2017-09-05 Samsung Electronics Co., Ltd. Method and apparatus for encoding and decoding 3-dimensional audio signal
HUE054452T2 (hu) * 2011-07-01 2021-09-28 Dolby Laboratories Licensing Corp Rendszer és eljárás adaptív hangjel elõállítására, kódolására és renderelésére
KR102394141B1 (ko) 2011-07-01 2022-05-04 돌비 레버러토리즈 라이쎈싱 코오포레이션 향상된 3d 오디오 오서링과 렌더링을 위한 시스템 및 툴들
WO2013006325A1 (en) * 2011-07-01 2013-01-10 Dolby Laboratories Licensing Corporation Upmixing object based audio
CN102931969B (zh) 2011-08-12 2015-03-04 智原科技股份有限公司 数据提取的方法与装置
EP2560161A1 (en) 2011-08-17 2013-02-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Optimal mixing matrices and usage of decorrelators in spatial audio processing
BR112014010062B1 (pt) 2011-11-01 2021-12-14 Koninklijke Philips N.V. Codificador de objeto de áudio, decodificador de objeto de áudio, método para a codificação de objeto de áudio, e método para a decodificação de objeto de áudio
EP2721610A1 (en) 2011-11-25 2014-04-23 Huawei Technologies Co., Ltd. An apparatus and a method for encoding an input signal
CN105229731B (zh) * 2013-05-24 2017-03-15 杜比国际公司 根据下混的音频场景的重构
EP2830049A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for efficient object metadata coding
EP2830045A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for audio encoding and decoding for audio channels and audio objects

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100138716A (ko) * 2009-06-23 2010-12-31 한국전자통신연구원 고품질 다채널 오디오 부호화 및 복호화 장치
WO2012125855A1 (en) * 2011-03-16 2012-09-20 Dts, Inc. Encoding and reproduction of three dimensional audio soundtracks

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Jonas Engdegard, et al. Spatial audio object coding (SAOC) - The upcoming MPEG standard on parametric object based audio coding. Audio Engineering Society Convention 124. 2008.05.20.* *
Jurgen Herre, et al. MPEG Spatial Audio Object Coding-the ISO/MPEG standard for efficient coding of interactive audio scenes. Journal of the Audio Engineering Society, 2012.09. Vol.60. No.9, pp.655-67 *

Also Published As

Publication number Publication date
EP4033485A1 (en) 2022-07-27
MX359159B (es) 2018-09-18
US20160133267A1 (en) 2016-05-12
EP3025329A1 (en) 2016-06-01
PL3025329T3 (pl) 2022-07-18
RU2641481C2 (ru) 2018-01-17
ES2913849T3 (es) 2022-06-06
KR20180019755A (ko) 2018-02-26
PT3025329T (pt) 2022-06-24
MX2016000910A (es) 2016-05-05
KR101979578B1 (ko) 2019-05-17
US20190180764A1 (en) 2019-06-13
CN105612577A (zh) 2016-05-25
EP3025329B1 (en) 2022-03-23
US20220101867A1 (en) 2022-03-31
AR097003A1 (es) 2016-02-10
TWI566235B (zh) 2017-01-11
BR112016001143B1 (pt) 2022-03-03
CA2918148A1 (en) 2015-01-29
TW201528252A (zh) 2015-07-16
EP2830045A1 (en) 2015-01-28
AU2014295269B2 (en) 2017-06-08
JP2016525715A (ja) 2016-08-25
US11984131B2 (en) 2024-05-14
ZA201601076B (en) 2017-08-30
CN105612577B (zh) 2019-10-22
US10249311B2 (en) 2019-04-02
AU2014295269A1 (en) 2016-03-10
RU2016105518A (ru) 2017-08-25
KR101943590B1 (ko) 2019-01-29
JP6268286B2 (ja) 2018-01-24
CN110942778A (zh) 2020-03-31
WO2015010998A1 (en) 2015-01-29
US11227616B2 (en) 2022-01-18
SG11201600476RA (en) 2016-02-26
BR112016001143A2 (ko) 2017-07-25

Similar Documents

Publication Publication Date Title
KR101979578B1 (ko) 오디오 채널들 및 오디오 객체들을 오디오 인코딩 및 디코딩하기 위한 개념
KR101852951B1 (ko) 향상된 공간적 오디오 오브젝트 코딩을 위한 장치 및 방법
US9966080B2 (en) Audio object encoding and decoding
CN105580073B (zh) 音频解码器、音频编码器、方法和计算机可读存储介质
JP6732739B2 (ja) オーディオ・エンコーダおよびデコーダ
KR20160033734A (ko) 렌더러 제어 공간 업믹스

Legal Events

Date Code Title Description
A201 Request for examination
AMND Amendment
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
E902 Notification of reason for refusal
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant