KR20200116968A - 하이브리드 인코더/디코더 공간 분석을 사용한 오디오 장면 인코더, 오디오 장면 디코더 및 관련 방법들 - Google Patents

하이브리드 인코더/디코더 공간 분석을 사용한 오디오 장면 인코더, 오디오 장면 디코더 및 관련 방법들 Download PDF

Info

Publication number
KR20200116968A
KR20200116968A KR1020207025235A KR20207025235A KR20200116968A KR 20200116968 A KR20200116968 A KR 20200116968A KR 1020207025235 A KR1020207025235 A KR 1020207025235A KR 20207025235 A KR20207025235 A KR 20207025235A KR 20200116968 A KR20200116968 A KR 20200116968A
Authority
KR
South Korea
Prior art keywords
audio scene
signal
spatial
encoder
component signals
Prior art date
Application number
KR1020207025235A
Other languages
English (en)
Inventor
기욤 푸치스
스테판 바이어
마르쿠스 물트루스
올리버 티에르가르트
알렉산드레 보우더온
위르겐 헤어레
플로린 기도
울프강 예거스
파비앙 쿠치
Original Assignee
프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. filed Critical 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Publication of KR20200116968A publication Critical patent/KR20200116968A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/04Circuits for transducers, loudspeakers or microphones for correcting frequency response
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/12Circuits for transducers, loudspeakers or microphones for distributing signals to two or more loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/307Frequency adjustment, e.g. tone control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Otolaryngology (AREA)
  • General Health & Medical Sciences (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

적어도 2개의 컴포넌트 신호들을 포함하는 오디오 장면을 인코딩하기 위한 오디오 장면 인코더는: 적어도 2개의 컴포넌트 신호들을 코어 인코딩하기 위한 코어 인코더(160) ― 코어 인코더(160)는 적어도 2개의 컴포넌트 신호들의 제1 부분에 대한 제1 인코딩된 표현(310)을 생성하도록, 그리고 적어도 2개의 컴포넌트 신호들의 제2 부분에 대한 제2 인코딩된 표현(320)을 생성하도록 구성됨 ―, 제2 부분에 대한 하나 이상의 공간 파라미터들(330) 또는 하나 이상의 공간 파라미터 세트들을 도출하도록 오디오 장면을 분석하기 위한 공간 분석기(200); 및 인코딩된 오디오 장면 신호(340)를 형성하기 위한 출력 인터페이스(300)를 포함하며, 인코딩된 오디오 장면 신호(340)는 제1 인코딩된 표현(310), 제2 인코딩된 표현(320), 및 제2 부분에 대한 하나 이상의 공간 파라미터들(330) 또는 하나 이상의 공간 파라미터 세트들을 포함한다.

Description

하이브리드 인코더/디코더 공간 분석을 사용한 오디오 장면 인코더, 오디오 장면 디코더 및 관련 방법들
본 발명은 오디오 인코딩 또는 디코딩에 관한 것으로, 특히 하이브리드 인코더/디코더 파라메트릭 공간 오디오 코딩에 관한 것이다.
오디오 장면을 3차원으로 송신하는 것은 대개 송신할 많은 양의 데이터를 일으키는 여러 채널들을 다루는 것을 필요로 한다. 더욱이, 3D 사운드는 다양한 방식들로 표현될 수 있다: 각각의 송신 채널이 라우드스피커 포지션과 연관되는 종래의 채널 기반 사운드; 라우드스피커 포지션과 관계없이 3차원으로 포지셔닝될 수 있는 오디오 객체들을 통해 전달되는 사운드; 및 장면 기반(또는 앰비소닉스(Ambisonics)), 여기서 오디오 장면은 공간 직교 구형 고조파 기저 함수들의 선형 가중치들인 한 세트의 계수 신호들로 표현된다. 채널 기반 표현과는 달리, 장면 기반 표현은 특정 라우드스피커 설정과 독립적이며 디코더에서 추가 렌더링 프로세스의 희생으로 임의의 라우드스피커 설정들에서 재생될 수 있다.
이러한 포맷들 각각에 대해, 낮은 비트 레이트들로 오디오 신호들을 효율적으로 저장 또는 송신하기 위해 전용 코딩 방식들이 개발되었다. 예를 들어, MPEG 서라운드는 채널 기반 서라운드 사운드를 위한 파라메트릭 코딩 방식인 한편, MPEG 공간 오디오 객체 코딩(SAOC: Spatial Audio Object Coding)는 객체 기반 오디오 전용 파라메트릭 코딩 방법이다. 고차 앰비소닉스를 위한 파라메트릭 코딩 기술이 또한 최근 표준 MPEG-H 단계 2에서 제공되었다.
이 송신 시나리오에서, 전체 신호에 대한 공간 파라미터들은 항상 코딩되어 송신된 신호의 일부인데, 즉 완전히 이용 가능한 3D 사운드 장면을 기반으로 인코더에서 추정되어 코딩되고 디코더에서 오디오 장면의 재구성을 위해 디코딩되어 사용된다. 송신에 대한 레이트 제약들은 통상적으로, 송신된 오디오 데이터의 시간-주파수 분해능보다 더 낮을 수 있는, 송신된 파라미터들의 시간 및 주파수 분해능을 제한한다.
3차원 오디오 장면을 생성할 다른 가능성은 저차원 표현, 예컨대 2 채널 스테레오 또는 1차 앰비소닉스 표현을 저차원 표현으로부터 직접 추정된 큐(cue)들 및 파라미터들을 사용하여 원하는 차원으로 업믹스(upmix)하는 것이다. 이 경우, 시간-주파수 분해능은 원하는 만큼 미세하게 선택될 수 있다. 다른 한편으로, 오디오 장면의 사용된 저차원 그리고 가능하게는 코딩된 표현은 공간 큐들 및 파라미터들의 차선 추정으로 이어진다. 특히, 분석된 오디오 장면이 파라메트릭 및 반-파라메트릭 오디오 코딩 툴들을 사용하여 코딩되고 송신되었다면, 원래 신호의 공간 큐들은 저차원 표현만이 야기하는 것보다 더 많이 방해를 받는다.
파라메트릭 코딩 툴들을 사용한 저 레이트 오디오 코딩은 최근의 발전들을 보여주었다. 매우 낮은 비트 레이트들로 오디오 신호들을 코딩하는 이러한 발전들은 우수한 품질을 보장하기 위해 소위 파라메트릭 코딩 툴들의 광범위한 사용으로 이어졌다. 파형 보존 코딩, 즉 디코딩된 오디오 신호에 양자화 잡음만이 추가되는 코딩이 선호되지만, 예컨대 시간-주파수 변환 기반 코딩을 사용하여 그리고 MPEG-2 AAC 또는 MPEG-1 MP3와 같은 지각 모델을 이용한 양자화 잡음의 형성을 사용하면, 이는 특히, 낮은 비트 레이트들의 경우에 가청 양자화 잡음으로 이어진다.
이 문제들을 극복하기 위해, 신호의 부분들이 직접 코딩되는 것이 아니라, 원하는 오디오 신호들의 파라메트릭 설명을 사용하여 디코더에서 재생성되는 파라메트릭 코딩 툴들이 개발되었으며, 여기서 파라메트릭 설명은 파형 보존 코딩보다 더 낮은 송신 레이트를 필요로 한다. 이러한 방법들은 신호의 파형을 유지하려고 시도하는 것이 아니라, 원래 신호와 지각적으로 동일한 오디오 신호를 생성한다. 이러한 파라메트릭 코딩 툴들의 예들은 스펙트럼 대역 복제(SBR: Spectral Band Replication)와 같은 대역폭 확장들이며, 여기서 디코딩된 신호의 스펙트럼 표현의 고대역 부분들은 파형 코딩된 저대역 스펙트럼 신호 부분들을 복사하고 상기 파라미터들에 따라 적응함으로써 생성된다. 다른 방법은 지능형 갭 채움(IGF: Intelligent Gap Filling)인데, 여기서 스펙트럼 표현의 일부 대역들은 직접 코딩되는 한편, 인코더에서 0으로 양자화된 대역들은 송신된 파라미터들에 따라 다시 선택되고 조정되는 스펙트럼의 이미 디코딩된 다른 대역들로 대체된다. 사용되는 세 번째 파라메트릭 코딩 툴들은 잡음 채움인데, 여기서는 신호 또는 스펙트럼의 부분들이 0으로 양자화되고 랜덤 잡음으로 채워지며 송신된 파라미터들에 따라 조정된다.
중간 내지 저 비트 레이트들로 코딩하는 데 사용되는 최근 오디오 코딩 표준들은 이러한 파라미터 툴들의 혼합을 사용하여 그러한 비트 레이트들에 대한 높은 지각 품질을 얻는다. 이러한 표준들의 예들은 xHE-AAC, MPEG4-H 및 EVS이다.
DirAC 공간 파라미터 추정 및 블라인드 업믹스는 추가 프로시저이다. DirAC는 지각적으로 동기 부여된 공간 사운드 재생이다. 한 시간 인스턴트에서 그리고 하나의 임계 대역에서, 청각 시스템의 공간 분해능은 방향에 대한 하나의 큐 그리고 양귀간(inter-aural) 일관성 또는 확산성에 대한 다른 큐를 디코딩하는 것으로 제한된다고 가정된다.
이러한 가정들을 기반으로, DirAC는 2개의 스트림들: 무지향성 확산 스트림과 지향성 비확산 스트림을 크로스 페이딩함으로써 하나의 주파수 대역에서 공간 사운드를 나타낸다. DirAC 처리는 두 단계들: 도 5a 및 도 5b에 표시된 바와 같은 분석 및 합성으로 수행된다.
도 5a에 도시된 DirAC 분석 스테이지에서, B 포맷의 1차 일치 마이크로폰이 입력으로 간주되고, 주파수 도메인에서 사운드의 확산성 및 도착 방향이 분석된다. 도 5b에 도시된 DirAC 합성 스테이지에서, 사운드는 비확산 스트림과 확산 스트림인 두 스트림들로 나뉜다. 비확산 스트림은 진폭 패닝(panning)을 사용하여 포인트 소스들로서 재현되는데, 이는 벡터 기반 진폭 패닝(VBAP: vector base amplitude panning)[2]을 사용함으로써 이루어질 수 있다. 확산 스트림은 포위감을 담당하며 상호 역상관 신호들을 라우드스피커들로 전달함으로써 생성된다.
도 5a의 분석 스테이지는 대역 필터(1000), 에너지 추정기(1001), 강도 추정기(1002), 시간 평균 엘리먼트들(999a, 999b), 확산성 계산기(1003) 및 방향 계산기(1004)를 포함한다. 계산된 공간 파라미터들은 블록(1004)에 의해 생성된 각각의 시간/주파수 타일에 대한 도착 방향 파라미터 및 각각의 시간/주파수 타일에 대한 0 내지 1의 확산성 값이다. 도 5a에서, 방향 파라미터는 기준 또는 청취 포지션에 대한, 그리고 특히, 마이크로폰이 위치되며, 대역 필터(1000)에 입력되는 4개의 컴포넌트 신호들이 수집되는 포지션에 대한 사운드의 도착 방향을 나타내는 방위각 및 고도각을 포함한다. 이러한 컴포넌트 신호들은 도 5a의 예시에서는, 전방향성 컴포넌트 W, 지향성 컴포넌트 X, 다른 지향성 컴포넌트 Y 및 추가 지향성 컴포넌트 Z를 포함하는 1차 앰비소닉스 컴포넌트이다.
도 5b에 예시된 DirAC 합성 스테이지는 B 포맷 마이크로폰 신호들(W, X, Y, Z)의 시간/주파수 표현을 생성하기 위한 대역 필터(1005)를 포함한다. 개별 시간/주파수 타일들에 대한 해당 신호들은 각각의 채널에 대해 가상 마이크로폰 신호를 생성하는 가상 마이크로폰 스테이지(1006)에 입력된다. 특히, 예를 들어 중앙 채널에 대한 가상 마이크로폰 신호를 생성하기 위해, 가상 마이크로폰은 중앙 채널의 방향으로 향하고 결과 신호는 중앙 채널에 대한 해당 컴포넌트 신호이다. 그 다음, 직접 신호 브랜치(1015) 및 확산 신호 브랜치(1014)를 통해 신호가 처리된다. 두 브랜치들은 특정 마이크로폰 보상을 얻기 위해 블록들(1007, 1008)에서 원래의 확산성 파라미터로부터 도출되고 더욱이 블록들(1009, 1010)에서 처리된 확산성 값들에 의해 제어되는 대응하는 이득 조절기들 또는 증폭기들을 포함한다.
직접 신호 브랜치(1015)의 컴포넌트 신호는 또한, 방위각과 고도각으로 구성된 방향 파라미터로부터 도출된 이득 파라미터를 사용하여 이득 조절된다. 특히, 이러한 각도들은 VBAP(vector base amplitude panning) 이득 테이블(1011)에 입력된다. 그 결과는 각각의 채널에 대한 라우드스피커 이득 평균 스테이지(1012) 및 추가 정규화기(1013)에 입력되고, 결과적인 이득 파라미터가 다음에 직접 신호 브랜치(1015)의 증폭기 또는 이득 조절기로 전달된다. 역상관기(1016)의 출력에서 생성된 확산 신호와 직접 신호 또는 비확산 스트림이 결합기(1017)에서 결합되고, 그런 다음 예를 들어, 합성 필터 뱅크일 수 있는 다른 결합기(1018)에서 다른 부대역들이 추가된다. 따라서 특정 라우드스피커에 대한 라우드스피커 신호가 생성되고, 특정 라우드스피커 설정에서 다른 라우드스피커들(1019)에 대한 다른 채널들에 대해 동일한 프로시저가 수행된다.
DirAC 합성의 고품질 버전이 도 5b에 예시되는데, 여기서 합성기는 모든 B 포맷 신호들을 수신하며, 이러한 신호들로부터 각각의 라우드스피커 방향에 대해 가상 마이크로폰 신호가 계산된다. 이용되는 지향성 패턴은 통상적으로 쌍극자이다. 가상 마이크로폰 신호들은 다음에, 브랜치들(1016, 1015)과 관련하여 논의되는 바와 같이 메타데이터에 따라 비선형 방식으로 수정된다. DirAC의 저 비트 레이트 버전은 도 5b에 도시되지 않는다. 그러나 이 낮은 비트 레이트 버전에서는, 단일 오디오 채널만이 송신된다. 처리상의 차이점은 모든 가상 마이크로폰 신호들이 수신된 이 단일 오디오 채널로 대체된다는 것이다. 가상 마이크로폰 신호들은 개별적으로 처리되는 2개의 스트림들, 즉 확산 스트림과 비확산 스트림으로 나뉜다. 벡터 기반 진폭 패닝(VBAP)을 사용함으로써 비확산 사운드가 포인트 소스들로서 재현된다. 패닝에서, 모노포닉 사운드 신호가 라우드스피커 특정 이득 계수들과의 곱 이후 라우드스피커들의 서브세트에 적용된다. 이득 계수들은 스피커 설정 및 지정된 패닝 방향의 정보를 사용하여 계산된다. 저 비트 레이트 버전에서, 입력 신호는 메타데이터가 암시하는 방향들로 간단히 패닝된다. 고품질 버전에서, 각각의 가상 마이크로폰 신호가 대응하는 이득 계수와 곱해지며, 이는 패닝과 동일한 효과를 발생시키지만, 임의의 비선형 아티팩트들이 덜 발생한다.
확산 사운드 합성의 목표는 청취자를 둘러싸는 사운드의 지각을 생성하는 것이다. 저 비트 레이트 버전에서는, 입력 신호를 역상관하고 모든 각각의 라우드스피커로부터 입력 신호를 재생함으로써 확산 스트림이 재생된다. 고품질 버전에서, 확산 스트림들의 가상 마이크로폰 신호들은 이미 어느 정도 일관성이 없으며, 이러한 신호들은 약간만 역상관될 필요가 있다.
공간 메타데이터로도 또한 불리는 DirAC 파라미터들은 구형 좌표에서 방위각과 고도인 두 각도들로 표현되는 확산성과 방향의 튜플(tuple)들로 구성된다. 분석 및 합성 스테이지들 모두 디코더 측에서 실행된다면, DirAC 파라미터들의 시간-주파수 분해능은 DirAC 분석 및 합성에 사용되는 필터 뱅크, 즉 오디오 신호의 필터 뱅크 표현의 모든 각각의 시간 슬롯 및 주파수 빈에 대한 개별 파라미터 세트와 동일하도록 선택될 수 있다.
디코더 측에서만 공간 오디오 코딩 시스템에서 분석을 수행하는 문제는 중간 내지 저 비트 레이트에 대해 이전 섹션에서 설명한 것과 같은 파라메트릭 툴들이 사용된다는 것이다. 그러한 툴들의 비-파형 보존 성질 때문에, 주로 파라메트릭 코딩이 사용되는 스펙트럼 부분들에 대한 공간 분석은 공간 파라미터들에 대해 원래 신호의 분석이 생성했을 것과는 매우 다른 값들로 이어질 수 있다. 도 2a 및 도 2b는 부분적 파형 보존 및 부분적 파라메트릭 코딩을 이용하는 코더로, 코딩되지 않은 신호(a) 및 저 비트 레이트로 B 포맷 코딩되어 송신된 신호(b)에 대해 DirAC 분석이 수행된 오추정(misestimation) 시나리오를 도시한다. 특히, 확산성과 관련하여 큰 차이들이 관찰될 수 있다.
최근에는, [3] [4]에서 인코더에서 DirAC 분석을 이용하고 코딩된 공간 파라미터들을 디코더에서 송신하는 공간 오디오 코딩 방법이 개시되었다. 도 3은 DirAC 공간 사운드 처리를 오디오 코더와 결합한 인코더 및 디코더의 시스템 개요를 예시한다. 다채널 입력 신호, 1차 앰비소닉스(FOA: first order Ambisonics) 또는 고차 앰비소닉스(HOA: high order Ambisonics) 신호, 또는 객체들 및 대응하는 객체 메타데이터, 이를테면 에너지 메타데이터 및/또는 상관 데이터의 다운믹스를 포함하는 하나 이상의 전송 신호들로 구성된 객체 인코딩된 신호와 같은 입력 신호가 포맷 변환기 및 결합기(900)에 입력된다. 포맷 변환기 및 결합기는 입력 신호들 각각을 대응하는 B 포맷 신호로 변환하도록 구성되고, 포맷 변환기 및 결합기(900)는 대응하는 B 포맷 컴포넌트들을 서로 더함으로써 또는 상이한 입력 데이터의 상이한 정보의 선택 또는 가중 합으로 구성된 다른 결합 기술들에 의해 서로 다른 표현들로 수신되는 스트림들을 추가로 결합한다.
결과적인 B 포맷 신호는 도착 방향 메타데이터 및 확산성 메타데이터와 같은 DirAC 메타데이터를 도출하기 위해 DirAC 분석기(210)에 도입되고, 획득된 신호들은 공간 메타데이터 인코더(220)를 사용하여 인코딩된다. 더욱이, B 포맷 신호들을 전송 채널 또는 여러 전송 채널들로 다운믹스하기 위해 B 포맷 신호가 빔 형성기/신호 선택기로 전달되며, 이러한 전송 채널들은 EVS 기반 코어 인코더(140)를 사용하여 인코딩된다.
한편으로는 블록(220) 그리고 다른 한편으로는 블록(140)의 출력은 인코딩된 오디오 장면을 나타낸다. 인코딩된 오디오 장면은 디코더로 전달되고, 디코더에서 공간 메타데이터 디코더(700)가 인코딩된 공간 메타데이터를 수신하고 EVS 기반 코어 디코더(500)가 인코딩된 전송 채널들을 수신한다. 블록(700)에 의해 획득된 디코딩된 공간 메타데이터는 DirAC 합성 스테이지(800)로 전달되고, 블록(500)의 출력에서 디코딩된 하나 이상의 전송 채널들은 블록(860)에서 주파수 분석을 받게 된다. 결과적인 시간/주파수 분해는 또한 DirAC 합성기(800)로 전달되며, DirAC 합성기(800)는 다음에, 예를 들어 디코딩된 오디오 장면, 라우드스피커 신호들 또는 1차 앰비소닉스 또는 고차 앰비소닉스 컴포넌트들 또는 오디오 장면의 임의의 다른 표현으로 생성한다.
[3]과 [4]에 개시된 프로시저에서, DirAC 메타데이터, 즉 공간 파라미터들은 저 비트 레이트로 추정 및 코딩되어 디코더로 송신되며, 여기서 이러한 공간 파라미터들은 3D 오디오 장면을 오디오 신호의 저차원 표현으로 함께 재구성하는 데 사용된다.
본 발명에서, DirAC 메타데이터, 즉 공간 파라미터들은 저 레이트 레이트로 추정 및 코딩되어 디코더로 송신되며 여기서 이러한 공간 파라미터들은 3D 오디오 장면을 오디오 신호의 저차원 표현으로 함께 재구성하는 데 사용된다.
메타데이터에 대한 저 비트 레이트를 달성하기 위해, 시간-주파수 분해능은 3D 오디오 장면의 분석 및 합성에서 사용된 필터 뱅크의 시간-주파수 분해능보다 더 작다. 도 4a 및 도 4b는 DirAC 분석의 코딩되지 않고 그룹화되지 않은 공간 파라미터들(a)과, 코딩되어 송신된 DirAC 메타데이터로 [3]에 개시된 DirAC 공간 오디오 코딩 시스템을 이용한 동일한 신호의 코딩되고 그룹화된 파라미터들 간의 비교를 보여준다. 도 2a 및 도 2b와 비교하여, 디코더에 사용된 파라미터들(b)이 원래 신호로부터 추정된 파라미터들에 더 가깝지만, 시간-주파수 분해능은 디코더 전용 추정에 대해서보다 더 낮다는 것이 관찰될 수 있다.
오디오 장면을 처리, 이를테면 인코딩 또는 디코딩하기 위한 개선된 개념을 제공하는 것이 본 발명의 과제이다.
이러한 과제는 제1 항의 오디오 장면 인코더, 제15 항의 오디오 장면 디코더, 제35 항의 오디오 장면을 인코딩하는 방법, 제36 항의 오디오 장면을 디코딩하는 방법, 제37 항의 컴퓨터 프로그램 또는 제38 항의 인코딩된 오디오 장면에 의해 달성된다.
본 발명은 하이브리드 인코딩/디코딩 방식을 적용함으로써 향상된 오디오 품질 및 보다 높은 유연성, 그리고 일반적으로 향상된 성능이 얻어진다는 결론을 기반으로 하며, 여기서 디코더에서 디코딩된 2차원 또는 3차원을 생성하는 데 사용되는 공간 파라미터는 방식의 시간-주파수 표현의 일부 부분들에 대해 코딩되어 송신되고 디코딩된, 통상적으로 저차원 오디오 표현에 기초하여 디코더에서 추정되며, 인코더 내의 다른 부분들에 대해 추정, 양자화 및 코딩되어 디코더에 송신된다.
구현에 따라, 인코더 측 추정 영역과 디코더 측 추정 영역 간의 분할은 디코더에서 3차원 또는 2차원 오디오 장면의 생성에 사용되는 서로 다른 공간 파라미터들에 대한 분기일 수 있다.
실시예들에서, 서로 다른 부분들 또는 바람직하게는 시간/주파수 영역들으로의 이러한 분할은 임의적일 수 있다. 그러나 바람직한 실시예에서, 주로 파형 보존 방식으로 코딩되는 스펙트럼의 부분들에 대해 디코더에서 파라미터들을 추정하는 한편, 파라메트릭 코딩 툴들이 주로 사용된 스펙트럼의 부분들에 대해 인코더 계산된 파라미터들을 코딩하여 송신하는 것이 유리하다.
본 발명의 실시예들은 3D 오디오 장면의 재구성에 사용된 공간 파라미터들이 인코더에서 추정되고 코딩되어 디코더에 송신된 일부 부분들, 및 디코더에서 직접 추정된 나머지 부분들에 대한 것인 하이브리드 코딩 시스템을 채택함으로써 3D 오디오 장면을 송신하기 위한 저 비트 레이트 코딩 솔루션을 제안하는 것을 목표로 한다.
본 발명은 저차원 표현의 코딩과 함께 저차원성이 공간 파라미터의 차선 추정으로 이어질 스펙트럼의 부분들에 대해 오디오 인코더에서 공간 표현을 저차원이 되게 하고 인코더에서 저차원 표현을 인코딩 및 추정하고, 인코더에서 코딩하고, 공간 큐들 및 파라미터들을 인코더에서 디코더로 송신한 후 공간 큐들이 잘 유지되는 신호의 부분들에 대한 디코더 전용 파라미터 추정을 위한 하이브리드 접근 방식에 기반한 3D 오디오 재생을 개시한다.
일 실시예에서, 오디오 장면 인코더는 오디오 장면을 인코딩하기 위해 구성되고, 오디오 장면은 적어도 2개의 컴포넌트 신호들을 포함하며, 오디오 장면 인코더는 적어도 2개의 컴포넌트 신호들을 코어 인코딩하도록 구성된 코어 인코더를 포함하고, 코어 인코더는 적어도 2개의 컴포넌트 신호들의 제1 부분에 대한 제1 인코딩된 표현을 생성하고 2개의 컴포넌트 신호들의 제2 부분에 대한 제2 인코딩된 표현을 생성한다. 공간 분석기는 제2 부분에 대한 하나 이상의 공간 파라미터들 또는 하나 이상의 공간 파라미터 세트들을 도출하도록 오디오 장면을 분석하고, 다음에 출력 인터페이스는 제1 인코딩된 표현, 제2 인코딩된 표현 및 제2 부분에 대한 하나 이상의 공간 파라미터들 또는 하나 이상의 공간 파라미터 세트들을 포함하는 인코딩된 오디오 장면 신호를 형성한다. 통상적으로, 제1 부분에 대한 임의의 공간 파라미터들은 인코딩된 오디오 장면 신호에 포함되지 않는데, 그러한 공간 파라미터들은 디코더에서 디코딩된 제1 표현으로부터 추정되기 때문이다. 다른 한편으로, 제2 부분에 대한 공간 파라미터들은 원본 오디오 장면, 또는 차원에 대해 그리고 이에 따라, 비트 레이트에 대해 축소된 이미 처리된 오디오 장면을 기반으로 오디오 장면 인코더 내에서 이미 계산되었다.
따라서 인코더 계산된 파라미터들은 고품질 파라메트릭 정보를 전달할 수 있는데, 이러한 파라미터들은 매우 정확하고 코어 인코더 왜곡들의 영향을 받지 않으며 잠재적으로는 고품질 마이크로폰 어레이로부터 도출되는 신호와 같은 상당한 고차원에서도 이용 가능한 데이터로부터 인코더에서 계산되기 때문이다. 이러한 매우 높은 품질의 파라메트릭 정보가 보존된다는 사실로 인해, 다음에 더 낮은 정확도 또는 통상적으로 더 낮은 분해능으로 제2 부분을 코어 인코딩하는 것이 가능하다. 따라서 제2 부분을 상당히 대략적으로 코어 인코딩함으로써, 비트들이 저장될 수 있으며, 따라서 이들은 인코딩된 공간 메타데이터의 표현에 제공될 수 있다. 제2 부분의 매우 대략적인 인코딩에 의해 절감된 비트들은 또한 적어도 2개의 컴포넌트 신호들의 제1 부분의 고 분해능 인코딩에 투자될 수 있다. 디코더 측에서는 임의의 파라메트릭 공간 데이터가 제1 부분에 대해 존재하는 것이 아니라 공간 분석에 의해 디코더 내에서 도출되기 때문에, 적어도 2개의 컴포넌트 신호들의 고 분해능 또는 고품질 인코딩이 유용하다. 따라서 인코더에서 모든 공간 메타데이터를 계산하는 것이 아니라 적어도 2개의 컴포넌트 신호들을 코어 인코딩함으로써, 비교 사례에서는 인코딩된 메타데이터에 필요할 임의의 비트들이 절감되고 제1 부분 내의 적어도 2개의 컴포넌트 신호들의 더 높은 품질의 코어 인코딩에 투자될 수 있다.
따라서 본 발명에 따르면, 오디오 장면을 제1 부분 및 제2 부분으로 분리하는 것은 예를 들어, 비트 레이트 요건들, 오디오 품질 요건들, 처리 요건들, 즉 인코더 또는 디코더에서 더 많은 처리 자원들이 이용 가능한지 여부 등에 따라 매우 유연한 방식으로 이루어질 수 있다. 바람직한 실시예에서, 제1 부분 및 제2 부분으로의 분리는 코어 인코더 기능들에 기초하여 이루어진다. 특히, 스펙트럼 대역 복제 처리 또는 지능형 갭 채움 처리 또는 잡음 채움 처리와 같이 특정 대역들에 대한 파라메트릭 코딩 동작들을 적용하는 고품질 및 저 비트 레이트 코어 인코더들의 경우, 공간 파라미터들에 대한 분리는 신호의 비-파라메트릭 인코딩된 부분들이 제1 부분을 형성하고 신호의 파라메트릭 인코딩된 부분들이 제2 부분을 형성하는 방식으로 수행된다. 따라서 통상적으로 오디오 신호의 더 낮은 분해능으로 인코딩된 부분인 파라메트릭 인코딩된 제2 부분에 대해, 공간 파라미터들의 더 정확한 표현이 얻어지는 한편, 더 나은 인코딩, 즉 높은 분해능으로 인코딩된 제1 부분에 대해서는, 고품질 파라미터들이 그렇게 필요한 것은 아닌데, 이는 제1 부분의 디코딩된 표현을 사용하여 디코더 측에서 상당히 높은 품질의 파라미터들이 추정될 수 있기 때문이다.
추가 실시예에서, 그리고 비트 레이트를 훨씬 더 감소시키기 위해, 제2 부분에 대한 공간 파라미터들은 인코더 내에서 높은 시간/주파수 분해능 또는 낮은 시간/주파수 분해능일 수 있는 특정 시간/주파수 분해능으로 계산된다. 높은 시간/주파수 분해능의 경우, 계산된 파라미터들은 다음에, 낮은 시간/주파수 분해능 공간 파라미터들을 얻기 위해 특정 방식으로 그룹화된다. 이러한 낮은 시간/주파수 분해능 공간 파라미터들은 그럼에도, 낮은 분해능만을 갖는 고품질 공간 파라미터들이다. 그러나 송신을 위한 비트들이 절감된다는 점에서 낮은 분해능이 유용한데, 이는 특정 시간 길이와 특정 주파수 대역에 대한 공간 파라미터들의 수가 감소되기 때문이다. 그러나 그럼에도 공간 데이터는 시간 경과에 따라 그리고 주파수에 따라 너무 많이 변하지는 않기 때문에, 이러한 감소는 통상적으로 그리 문제가 되지는 않는다. 따라서 저 비트 레이트이지만 그럼에도 제2 부분에 대한 공간 파라미터의 양호한 품질 표현이 얻어질 수 있다.
제1 부분에 대한 공간 파라미터들이 디코더 측에서 계산되고 더는 송신될 필요가 없기 때문에, 분해능과 관련하여 어떠한 타협들도 수행할 필요가 없다. 따라서 공간 파라미터들의 높은 시간 및 높은 주파수 분해능 추정이 디코더 측에서 수행될 수 있으며, 그런 다음 이 고 분해능 파라메트릭 데이터는 그럼에도 오디오 장면의 제1 부분의 양호한 공간 표현을 제공하는 데 도움이 된다. 따라서 제1 부분에 대한 적어도 2개의 송신된 컴포넌트들에 기초하여 디코더 측에서 공간 파라미터들을 계산하는 "단점"은 높은 시간 및 주파수 분해능 공간 파라미터들을 계산함으로써 그리고 이러한 파라미터들을 오디오 장면의 공간 렌더링에 사용함으로써 감소되거나 심지어 제거될 수 있다. 디코더 측에서 수행되는 어떠한 처리도 인코더/디코더 시나리오에서 송신된 비트 레이트에 어떠한 부정적인 영향도 갖지 않기 때문에, 이는 비트 레이트에 어떠한 불이익도 발생시키지 않는다.
본 발명의 추가 실시예는 제1 부분에 대해 적어도 2개의 컴포넌트들이 인코딩되고 송신되어 적어도 2개의 컴포넌트들을 기초로 디코더 측에서 파라메트릭 데이터 추정이 수행될 수 있는 상황에 의존한다. 그러나 일 실시예에서, 오디오 장면의 제2 부분은 실질적으로 더 낮은 비트 레이트로 인코딩될 수 있는데, 이는 제2 표현에 대해 단일 전송 채널만을 인코딩하는 것이 바람직하기 때문이다. 이 전송 또는 다운믹스 채널은 제1 부분에 비해 매우 낮은 비트 레이트로 표현되는데, 이는 제2 부분에서는 단일 채널 또는 컴포넌트만이 인코딩되는 한편, 제1 부분에서는 디코더 측 공간 분석을 위한 충분한 데이터가 있도록 2개 이상의 컴포넌트들이 인코딩되기 때문이다.
따라서 본 발명은 인코더 또는 디코더 측에서 이용 가능한 비트 레이트, 오디오 품질 및 처리 요건들과 관련하여 추가 유연성을 제공한다.
이어서 본 발명의 선호되는 실시예들이 첨부 도면들에 관해 설명된다.
도 1a는 오디오 장면 인코더의 실시예의 블록도이다.
도 1b는 오디오 장면 디코더의 실시예의 블록도이다.
도 2a는 코딩되지 않은 신호의 DirAC 분석이다.
도 2b는 코딩된 저차원 신호로부터의 DirAC 분석이다.
도 3은 DirAC 공간 사운드 처리를 오디오 코더와 결합한 인코더 및 디코더의 시스템 개요이다.
도 4a는 코딩되지 않은 신호의 DirAC 분석이다.
도 4b는 시간-주파수 도메인에서의 파라미터들의 그룹화 및 파라미터들의 양자화를 사용하여 코딩되지 않은 신호로부터의 DirAC 분석이다.
도 5a는 종래 기술의 DirAC 분석 스테이지이다.
도 5b는 종래 기술의 DirAC 합성 스테이지이다.
도 6a는 서로 다른 부분들에 대한 예로서 중첩하는 서로 다른 시간 프레임들을 예시한다.
도 6b는 서로 다른 부분들에 대한 예로서 서로 다른 주파수 대역들을 예시한다.
도 7a는 오디오 장면 인코더의 추가 실시예를 예시한다.
도 7b는 오디오 장면 디코더의 실시예를 예시한다.
도 8a는 오디오 장면 인코더의 추가 실시예를 예시한다.
도 8b는 오디오 장면 디코더의 추가 실시예를 예시한다.
도 9a는 주파수 도메인 코어 인코더를 갖는 오디오 장면 인코더의 추가 실시예를 예시한다.
도 9b는 시간 도메인 코어 인코더를 갖는 오디오 장면 인코더의 추가 실시예를 예시한다.
도 10a는 주파수 도메인 코어 디코더를 갖는 오디오 장면 디코더의 추가 실시예를 예시한다.
도 10b는 시간 도메인 코어 디코더의 추가 실시예를 예시한다.
도 11은 공간 렌더러의 실시예를 예시한다.
도 1a는 적어도 2개의 컴포넌트 신호들을 포함하는 오디오 장면(110)을 인코딩하기 위한 오디오 장면 인코더를 예시한다. 오디오 장면 인코더는 적어도 2개의 컴포넌트 신호들을 코어 인코딩하기 위한 코어 인코더(100)를 포함한다. 구체적으로, 코어 인코더(100)는 적어도 2개의 컴포넌트 신호들의 제1 부분에 대한 제1 인코딩된 표현(310)을 생성하도록, 그리고 적어도 2개의 컴포넌트 신호들의 제2 부분에 대한 제2 인코딩된 표현(320)을 생성하도록 구성된다. 오디오 장면 인코더는 제2 부분에 대한 하나 이상의 공간 파라미터들 또는 하나 이상의 공간 파라미터 세트들을 도출하도록 오디오 장면을 분석하도록 구성된 공간 분석기를 포함한다. 오디오 장면 인코더는 인코딩된 오디오 장면 신호(340)를 형성하기 위한 출력 인터페이스(300)를 포함한다. 인코딩된 오디오 장면 신호(340)는 적어도 2개의 컴포넌트 신호들의 제1 부분을 나타내는 제1 인코딩된 표현(310), 제2 부분에 대한 제2 인코더 표현(320) 및 파라미터들(330)을 포함한다. 공간 분석기(200)는 원본 오디오 장면(110)을 사용하여 적어도 2개의 컴포넌트 신호들의 제1 부분에 대한 공간 분석을 적용하도록 구성된다. 대안으로, 공간 분석은 또한 오디오 장면의 축소된 차원 표현에 기초하여 수행될 수 있다. 예를 들어, 오디오 장면(110)이 예를 들어, 마이크로폰 어레이로 배열된 여러 마이크로폰의 녹음을 포함한다면, 공간 분석(200)은 물론 이 데이터에 기초하여 수행될 수 있다. 그러나 코어 인코더(100)는 다음에, 오디오 장면의 차원을 예를 들어, 1차 앰비소닉스 표현 또는 고차 앰비소닉스 표현으로 축소시키도록 구성될 것이다. 기본 버전에서, 코어 인코더(100)는 예를 들어, 전방향성 컴포넌트 및 B 포맷 표현의 X, Y 또는 Z와 같은 적어도 하나의 지향성 컴포넌트로 구성된 적어도 2개의 컴포넌트들로 차원을 축소시킬 것이다. 그러나 고차 표현들 또는 A 포맷 표현들과 같은 다른 표현들도 역시 유용하다. 제1 부분에 대한 제1 인코더 표현은 디코딩 가능한 적어도 2개의 서로 다른 컴포넌트들로 구성될 것이며, 통상적으로 각각의 컴포넌트에 대한 인코딩된 오디오 신호로 구성될 것이다.
제2 부분에 대한 제2 인코더 표현은 동일한 수의 컴포넌트들로 구성될 수 있거나, 대안으로 제2 부분에서 코어 코더에 의해 인코딩된 단지 단일 전방향성 컴포넌트와 같은 더 적은 수를 가질 수 있다. 코어 인코더(100)가 원본 오디오 장면(110)의 차원을 축소시키는 구현의 경우, 감소된 차원의 오디오 장면은 선택적으로 원본 오디오 장면 대신 라인(120)을 통해 공간 분석기로 전달될 수 있다.
도 1b는 인코딩된 오디오 장면 신호(340)를 수신하기 위한 입력 인터페이스(400)를 포함하는 오디오 장면 디코더를 예시한다. 이 인코딩된 오디오 장면 신호는 제1 인코딩된 표현(410), 제2 인코딩된 표현(420) 및 430에 예시된 적어도 2개의 컴포넌트 신호들의 제2 부분에 대한 하나 이상의 공간 파라미터들을 포함한다. 제2 부분의 인코딩된 표현은 다시 한번, 인코딩된 단일 오디오 채널일 수 있거나 2개 이상의 인코딩된 오디오 채널들을 포함할 수 있는 한편, 제1 부분의 제1 인코딩된 표현은 적어도 2개의 서로 다른 인코딩된 오디오 신호들을 포함한다. 제1 인코딩된 표현에서 또는 이용 가능하다면, 제2 인코딩된 표현에서 서로 다른 인코딩된 오디오 신호들은 공동으로 코딩된 스테레오 신호와 같은 공동으로 코딩된 신호들일 수 있거나, 대안으로 그리고 심지어 바람직하게는, 개별적으로 인코딩된 모노 오디오 신호들이다.
제1 부분에 대한 제1 인코딩된 표현(410) 및 제2 부분에 대한 제2 인코딩된 표현(420)을 포함하는 인코딩된 표현은 제1 인코딩된 표현 및 제2 인코딩된 표현을 디코딩하기 위해 코어 디코더에 입력되어, 오디오 장면을 나타내는 적어도 2개의 컴포넌트 신호들의 디코딩된 표현을 얻는다. 디코딩된 표현은 810에 표시된 제1 부분에 대한 제1 디코딩된 표현 및 820에 표시된 제2 부분에 대한 제2 디코딩된 표현을 포함한다. 제1 디코딩된 표현은 적어도 2개의 컴포넌트 신호들의 제1 부분에 대응하는 디코딩된 표현의 일부를 분석하기 위해 공간 분석기(600)로 전달되어, 적어도 2개의 컴포넌트 신호들의 제1 부분에 대한 하나 이상의 공간 파라미터들(840)을 획득한다. 오디오 장면 디코더는 또한, 도 1b의 실시예에서, 제1 부분에 대한 제1 디코딩된 표현(810) 및 제2 부분에 대한 제2 디코딩된 표현(820)을 포함하는 디코딩된 표현을 공간적으로 렌더링하기 위한 공간 렌더러(800)를 포함한다. 공간 렌더러(800)는 오디오 렌더링을 위해, 제1 부분에 대해서는 공간 분석기로부터 도출된 파라미터들(840)을 사용하고, 제2 부분에 대해서는 파라미터/메타데이터 디코더(700)를 통해 인코딩된 파라미터들로부터 도출된 파라미터들(830)을 사용하도록 구성된다. 인코딩된 신호의 파라미터들을 인코딩되지 않은 형태로 표현한 경우, 파라미터/메타데이터 디코더(700)는 필요하지 않으며, 적어도 2개의 컴포넌트 신호들의 제2 부분에 대한 하나 이상의 공간 파라미터들이 입력 인터페이스(400)로부터 직접 전달되고, 역다중화 또는 특정 처리 동작에 이어 공간 렌더러(800)에 데이터(830)로서 전달된다.
도 6a는 통상적으로 중첩하는 서로 다른 시간 프레임들(F1 내지 F4)의 개략적인 표현을 예시한다. 도 1a의 코어 인코더(100)는 적어도 2개의 컴포넌트 신호들로부터 이러한 후속 시간 프레임들을 형성하도록 구성될 수 있다. 그러한 상황에서, 제1 시간 프레임은 제1 부분일 수 있고 제2 시간 프레임은 제2 부분일 수 있다. 따라서 본 발명의 일 실시예에 따르면, 제1 부분은 제1 시간 프레임일 수 있고 제2 부분은 다른 시간 프레임일 수 있으며, 제1 부분과 제2 부분 간의 전환은 시간 경과에 따라 수행될 수 있다. 도 6a는 중첩하는 시간 프레임들을 예시하지만, 중첩하지 않는 시간 프레임들도 역시 유용하다. 도 6a는 동일한 길이들을 갖는 시간 프레임들을 예시하지만, 서로 다른 길이들을 갖는 시간 프레임들로 전환이 이루어질 수 있다. 따라서 시간 프레임(F2)이 예를 들어, 시간 프레임(F1)보다 더 작으면, 이것은 제1 시간 프레임(F1)에 관해 제2 시간 프레임(F2)에 대한 증가된 시간 분해능을 야기할 것이다. 그 다음, 증가된 분해능을 갖는 제2 시간 프레임(F2)은 바람직하게는, 컴포넌트들에 대해 인코딩되는 제1 부분에 대응하게 되는 한편, 제1 시간 부분, 즉 낮은 분해능 데이터는 더 낮은 분해능으로 인코딩되는 제2 부분에 대응할 것이지만, 인코더에서 전체 오디오 장면이 이용 가능하므로, 제2 부분에 대한 공간 파라미터들은 필요한 임의의 분해능으로 계산될 것이다.
도 6b는 적어도 2개의 컴포넌트 신호들의 스펙트럼이 특정 수의 대역들(B1, B2, … , B6, …)을 갖는 것으로 예시되는 대안적인 구현을 예시한다. 바람직하게는, 대역들은 스펙트럼의 지각적으로 동기 부여된 대역 분할을 갖기 위해 최저 중심 주파수에서 최고 중심 주파수까지 증가하는 서로 다른 대역폭들을 갖는 대역들로 분리된다. 적어도 2개의 컴포넌트 신호들의 제1 부분은 예를 들어, 처음 4개의 대역들로 구성될 수 있는데, 예를 들어 제2 부분은 대역 B5 및 대역 B6으로 구성될 수 있다. 이것은 코어 인코더가 스펙트럼 대역 복제를 수행하고 비-파라메트릭 인코딩된 저주파 부분과 파라메트릭 인코딩된 고주파 부분 사이의 크로스오버 주파수가 대역 B4와 대역 B5 사이의 경계가 되는 상황과 매칭할 것이다.
대안으로, 지능형 갭 채움(IGF) 또는 잡음 채움(NF: noise filling)의 경우, 대역들은 신호 분석에 따라 임의로 선택되며, 따라서 제1 부분은 예를 들어, 대역들(B1, B2, B4, B6)로 구성될 수 있고, 제2 부분은 B3, B5 및 바람직하게는 다른 더 높은 주파수 대역일 수 있다. 따라서 대역들이 선호되고 도 6b에 예시된 바와 같이, 최저 주파수에서 최고 주파수로 증가하는 대역폭을 갖는 통상적인 스케일 팩터 대역들인지 여부 또는 대역들이 동일한 크기의 대역들인지 여부에 관계없이, 오디오 신호를 대역들로 매우 유연하게 분리하는 것이 수행될 수 있다. 제1 부분과 제2 부분 사이의 경계들은 코어 인코더에 의해 통상적으로 사용되는 스케일 팩터 대역들과 반드시 일치할 필요는 없지만, 제1 부분과 제2 부분 사이의 경계와 스케일 팩터 대역과 인접한 스케일 팩터 대역 사이의 경계 간에 일치를 갖는 것이 바람직하다.
도 7a는 오디오 장면 인코더의 바람직한 구현을 예시한다. 특히, 오디오 장면은 바람직하게는 도 1a의 코어 인코더(100)의 일부인 신호 분리기(140)로 입력된다. 도 1a의 코어 인코더(100)는 양 부분들, 즉 오디오 장면의 제1 부분 및 오디오 장면의 제2 부분에 대한 차원 축소기(150a, 150b)를 포함한다. 차원 축소기(150a)의 출력에 적어도 2개의 컴포넌트 신호들이 존재하며, 이들은 다음에, 제1 부분에 대해 오디오 인코더(160a)에서 인코딩된다. 오디오 장면의 제2 부분에 대한 차원 축소기(150b)는 차원 축소기(150a)와 동일한 성상도를 포함할 수 있다. 그러나 대안으로, 차원 축소기(150b)에 의해 획득된 축소된 차원은 단일 전송 채널일 수 있으며, 이는 다음에, 적어도 하나의 전송/컴포넌트 신호의 제2 인코딩된 표현(320)을 획득하기 위해 오디오 인코더(160b)에 의해 인코딩된다.
제1 인코딩된 표현에 대한 오디오 인코더(160a)는 파형 보존 또는 비-파라메트릭 또는 높은 시간 또는 높은 주파수 분해능 인코더를 포함할 수 있는 한편, 오디오 인코더(160b)는 SBR 인코더, IGF 인코더, 잡음 채움 인코더 또는 임의의 낮은 시간 또는 주파수 분해능 등과 같은 파라메트릭 인코더일 수 있다. 따라서 오디오 인코더(160b)는 통상적으로 오디오 인코더(160a)에 비해 더 낮은 품질의 출력 표현을 야기할 것이다. 이러한 "단점"은 원본 오디오 장면 또는 대안으로, 차원 축소된 오디오 장면이 여전히 적어도 2개의 컴포넌트 신호들을 포함하는 경우, 차원 축소된 오디오 장면의 공간 데이터 분석기(210)를 통해 공간 분석을 수행함으로써 해결된다. 공간 데이터 분석기(210)에 의해 획득된 공간 데이터는 다음에, 인코딩된 낮은 분해능의 공간 데이터를 출력하는 메타데이터 인코더(220)로 전달된다. 두 블록들(210, 220)은 바람직하게는 도 1a의 공간 분석기 블록(200)에 포함된다.
바람직하게는, 공간 데이터 분석기는 높은 주파수 분해능 또는 높은 시간 분해능과 같은 높은 분해능으로 공간 데이터 분석을 수행하고, 인코딩된 메타데이터에 필요한 비트 레이트를 적정한 범위로 유지하기 위해, 높은 분해능의 공간 데이터는 바람직하게는, 인코딩된 낮은 분해능의 공간 데이터를 갖기 위해 메타데이터 인코더에 의해 그룹화되고 엔트로피 인코딩된다. 예를 들어, 프레임당 8개의 타임 슬롯들과 타임 슬롯당 10개의 대역들에 대해 예를 들어, 공간 데이터 분석이 수행될 때, 공간 데이터를 프레임당 단일 공간 파라미터 그리고 예를 들어, 파라미터당 5개의 대역들로 그룹화할 수 있다.
한편으로는 지향성 데이터를 그리고 다른 한편으로는 확산성 데이터를 계산하는 것이 바람직하다. 메타데이터 인코더(220)는 다음에, 지향성 및 확산성 데이터에 대해 서로 다른 시간/주파수 분해능들로 인코딩된 데이터를 출력하도록 구성될 수 있다. 통상적으로, 지향성 데이터는 확산성 데이터보다 더 높은 분해능이 요구된다. 서로 다른 분해능들로 파라메트릭 데이터를 계산하기 위해 선호되는 방법은 두 파라메트릭 종류들 모두에 대해 높은 분해능 그리고 통상적으로는 동일한 분해능으로 공간 분석을 수행한 다음, 서로 다른 방식들로 서로 다른 파라미터 종류들에 대해 서로 다른 파라메트릭 정보로 시간 및/또는 주파수의 그룹화를 수행하여, 이후에 예를 들어, 지향성 데이터에 대해 시간 및/또는 주파수의 중간 분해능 그리고 확산성 데이터에 대한 낮은 분해능을 갖는 인코딩된 낮은 분해능의 공간 데이터 출력(330)을 갖는 것이다.
도 7b는 오디오 장면 디코더의 대응하는 디코더 측 구현을 예시한다.
도 1b의 코어 디코더(500)는 도 7b의 실시예에서, 제1 오디오 디코더 인스턴스(510a) 및 제2 오디오 디코더 인스턴스(510b)를 포함한다. 바람직하게는, 제1 오디오 디코더 인스턴스(510a)는 적어도 2개의 컴포넌트 신호들의 디코딩된 제1 부분을 출력에서 생성하는 비-파라메트릭 또는 파형 보존 또는 (시간 및/또는 주파수의) 고 분해능 인코더이다. 이 데이터(810)는 한편으로는 도 1b의 공간 렌더러(800)로 전달되고 추가로 공간 분석기(600)에 입력된다. 바람직하게는, 공간 분석기(600)는 바람직하게는, 제1 부분에 대한 고 분해능 공간 파라미터들을 계산하는 고 분해능 공간 분석기이다. 통상적으로, 제1 부분에 대한 공간 파라미터들의 분해능은 파라미터/메타데이터 디코더(700)에 입력되는 인코딩된 파라미터들과 연관된 분해능보다 더 높다. 그러나 블록(700)에 의해 출력된 엔트로피 디코딩된 저 시간 또는 주파수 분해능 공간 파라미터들은 분해능 향상을 위한 파라미터 그룹화 해제기(710)에 입력된다. 이러한 파라미터 그룹화 해제는 송신된 파라미터를 특정 시간/주파수 타일들에 복사함으로써 수행될 수 있으며, 여기서 그룹화 해제는 도 7a의 인코더 측 메타데이터 인코더(220)에서 수행되는 해당 그룹화에 따라 수행된다. 물론, 그룹화 해제와 함께, 필요에 따라 추가 처리 또는 평활화 동작들이 수행될 수 있다.
그 다음, 블록(710)의 결과는 통상적으로 제1 부분에 대한 파라미터들(840)과 동일한 분해능을 갖는 제2 부분에 대한 디코딩된, 바람직하게는 고 분해능 파라미터들의 집합이다. 또한, 제2 부분의 인코딩된 표현은 오디오 디코더(510b)에 의해 디코딩되어 통상적으로 적어도 하나의 신호의 또는 적어도 2개의 컴포넌트들을 갖는 신호의 디코딩된 제2 부분(820)을 획득한다.
도 8a는 도 3과 관련하여 논의한 기능들에 의존하는 인코더의 바람직한 구현을 예시한다. 특히, 다채널 입력 데이터 또는 1차 앰비소닉스 또는 고차 앰비소닉스 입력 데이터 또는 객체 데이터는 예를 들어, 전방향성 오디오 신호와 같은 통상적으로 4개의 B 포맷 컴포넌트들과 X, Y 및 Z와 같은 3개의 지향성 오디오 신호들을 생성하기 위해 개별 입력 데이터를 변환하여 결합하는 B 포맷 변환기로 입력된다.
대안으로, 포맷 변환기 또는 코어 인코더로 입력된 신호는 제1 부분에 포지셔닝된 전방향성 마이크로폰에 의해 포착된 신호 및 제1 부분과는 다른 제2 부분에 포지셔닝된 전방향성 마이크로폰에 의해 포착된 다른 신호일 수 있다. 다시, 대안으로, 오디오 장면은 제1 컴포넌트 신호로서 제1 방향으로 향하는 지향성 마이크로폰에 의해 캡처된 신호 및 제2 컴포넌트로서, 제1 방향과는 다른 제2 방향으로 향하는 다른 지향성 마이크로폰에 의해 캡처된 적어도 하나의 신호를 포함한다. 이러한 "지향성 마이크로폰들"은 반드시 실제 마이크로폰들일 필요가 있는 것이 아니라, 또한 가상 마이크로폰들일 수 있다.
블록(900)으로 입력되는 또는 블록(900)에 의해 출력되는 또는 통상적으로 오디오 장면으로서 사용되는 오디오는 A 포맷 컴포넌트 신호들, B 포맷 컴포넌트 신호들, 1차 앰비소닉스 컴포넌트 신호들, 고차 앰비소닉스 컴포넌트 신호들, 또는 적어도 2개의 마이크로폰 캡슐들을 갖는 마이크로폰 어레이에 의해 포착된 컴포넌트 신호들 또는 가상 마이크로폰 처리로부터 계산된 컴포넌트 신호들을 포함할 수 있다.
도 1a의 출력 인터페이스(300)는 제2 부분에 대해 공간 분석기에 의해 생성된 하나 이상의 공간 파라미터들과 동일한 파라미터 종류로부터의 어떠한 공간 파라미터들도 인코딩된 오디오 장면 신호에 포함하지 않도록 구성된다.
따라서 제2 부분에 대한 파라미터들(330)이 도착 방향 데이터 및 확산성 데이터일 때, 제1 부분에 대한 제1 인코딩된 표현은 도착 방향 데이터 및 확산성 데이터를 포함하지 않을 것이지만, 스케일 팩터들, LPC 계수들 등과 같은 코어 인코더에 의해 계산된 임의의 다른 파라미터들을 물론 포함할 수 있다.
더욱이, 신호 분리기(140)에 의해 수행되는 대역 분리는 서로 다른 부분들이 서로 다른 대역들일 때, 제2 부분의 시작 대역이 대역폭 확장 시작 대역보다 더 낮고, 추가로 코어 잡음 채움이 반드시 임의의 고정 크로스오버 대역을 적용할 필요가 있는 것이 아니라, 주파수가 증가함에 따라 코어 스펙트럼들의 더 많은 부분들에 점진적으로 사용될 수 있는 식으로 구현될 수 있다.
더욱이, 시간 프레임의 제2 주파수 부대역에 대한 파라메트릭 또는 대체로 파라메트릭 처리는 제2 주파수 부대역의 개별 스펙트럼 라인들 대신, 제2 주파수 대역에 대한 진폭 관련 파라미터 및 이 진폭 관련 파라미터의 양자화 및 엔트로피 코딩을 계산하는 것을 포함한다. 제2 부분의 저 분해능 표현을 형성하는 이러한 진폭 관련 파라미터는 예를 들어, 각각의 스케일 팩터 대역에 대해 단지 하나의 스케일 팩터 또는 에너지 값만을 갖는 스펙트럼 포락선 표현으로 주어지는 한편, 높은 분해능의 제1 부분은 개별 MDCT 또는 FFT 또는 일반적인 개별 스펙트럼 라인들에 의존한다.
따라서 적어도 2개의 컴포넌트 신호들의 제1 부분은 각각의 컴포넌트 신호에 대한 특정 주파수 대역으로 제공되고, 각각의 컴포넌트 신호에 대한 특정 주파수 대역은 다수의 스펙트럼 라인들로 인코딩되어 제1 부분의 인코딩된 표현을 획득한다. 그러나 제2 부분과 관련하여, 제2 부분에 대한 개별 스펙트럼 라인들의 합 또는 제2 부분의 에너지를 나타내는 제곱된 스펙트럼 라인들의 합 또는 스펙트럼 부분에 대한 음량 측정을 나타내는 3의 거듭제곱으로 상승된 스펙트럼 라인들의 합과 같은 진폭 관련 측정이 제2 부분의 파라메트릭 인코딩된 표현에도 역시 사용될 수 있다.
다시 도 8a를 참조하면, 개별 코어 인코더 브랜치들(160a, 160b)로 구성된 인코더(160)는 제2 부분에 대한 빔 형성/신호 선택 프로시저를 포함할 수 있다. 따라서 도 8b에서 160a, 160b에 표시된 코어 인코더는 한편으로는 4개의 모든 B 포맷 컴포넌트들의 인코딩된 제1 부분 및 단일 전송 채널의 인코딩된 제2 부분 그리고 제2 부분 및 후속하여 연결된 공간 메타데이터 인코더(220)에 의존하여 DirAC 분석(210)에 의해 생성된, 제2 부분에 대한 공간 메타데이터를 출력한다.
디코더 측에서, 인코딩된 공간 메타데이터는 공간 메타데이터 디코더(700)에 입력되어 830에 예시된 제2 부분에 대한 파라미터들을 생성한다. 통상적으로 엘리먼트들(510a, 510b)로 구성된 EVS 기반 코어 디코더로서 구현되는 바람직한 실시예인 코어 디코더는 두 부분들로 구성된 디코딩된 표현을 출력하지만, 두 부분들 모두 아직 분리되지 않았다. 디코딩된 표현은 주파수 분석 블록(860)에 입력되고 주파수 분석기(860)는 제1 부분에 대한 컴포넌트 신호들을 생성하고 이를 DirAC 분석기(600)로 전달하여 제1 부분에 대한 파라미터들(840)을 생성한다. 제1 부분 및 제2 부분에 대한 전송 채널/컴포넌트 신호들은 주파수 분석기(860)로부터 DirAC 합성기(800)로 전달된다. 따라서 일 실시예에서 DirAC 합성기는 평소와 같이 작동하는데, 이는 DirAC 합성기가 어떠한 지식도 갖고 있지 않고, 제1 부분과 제2 부분에 대한 파라미터들이 인코더 측에서 도출되었든 아니면 디코더 측에서 도출되었든 실제로 어떠한 특정 지식도 필요하지 않기 때문이다. 대신, 다음에 DirAC 합성기(800) 및 DirAC 합성기에 대해 "동일한" 두 파라미터들이 862에 표시된 오디오 장면을 나타내는 적어도 2개의 컴포넌트 신호들의 디코딩된 표현의 주파수 표현 및 두 부분들 모두에 대한 파라미터들을 기초로 라우드스피커 출력, 1차 앰비소닉스(FOA), 고차 앰비소닉스(HOA) 또는 입체 음향 출력을 생성할 수 있다.
도 9a는 도 1a의 코어 인코더(100)가 주파수 도메인 인코더로서 구현되는 오디오 장면 인코더의 다른 바람직한 실시예를 예시한다. 이 구현에서, 코어 인코더에 의해 인코딩될 신호가, 바람직하게는 통상적으로 중첩하는 시간 프레임들을 이용하는 시간-스펙트럼 변환 또는 분해를 적용하는 분석 필터 뱅크(164)에 입력된다. 코어 인코더는 파형 보존 인코더 프로세서(160a) 및 파라메트릭 인코더 프로세서(160b)를 포함한다. 제1 부분 및 제2 부분으로의 스펙트럼 부분들의 분포는 모드 제어기(166)에 의해 제어된다. 모드 제어기(166)는 신호 분석, 비트 레이트 제어에 의존할 수 있거나 고정된 설정을 적용할 수 있다. 통상적으로, 오디오 장면 인코더는 서로 다른 비트 레이트들로 작동하도록 구성될 수 있으며, 여기서 제1 부분과 제2 부분 사이의 미리 결정된 경계 주파수는 선택된 비트 레이트에 의존하고, 미리 결정된 경계 주파수는 더 낮은 비트 레이트에 대해 더 낮거나 더 큰 비트 레이트에 대해 더 크다.
대안으로, 모드 제어기는 인코딩된 제1 부분에서 끝나는, 높은 스펙트럼 분해능으로 인코딩되어야 하는 대역들을 결정하기 위해 그리고 다음에 제2 부분에서 끝날, 파라메트릭 방식으로 인코딩될 수 있는 대역들을 결정하기 위해 입력 신호의 스펙트럼을 분석하는 지능형 갭 채움으로부터 알려진 음색 마스크 처리를 포함할 수 있다. 모드 제어기(166)는 인코더 측에서 공간 분석기(200)를 또한 제어하도록, 그리고 바람직하게는 공간 분석기의 대역 분리기(230) 또는 공간 분석기의 파라미터 분리기(240)를 제어하도록 구성된다. 이는 결국, 반드시 제1 부분에 대해서는 아니고 제2 부분에 대한 공간 파라미터만 생성되어 인코딩된 장면 신호로 출력되게 한다.
특히, 공간 분석기(200)가 분석 필터 뱅크에 입력되기 전 또는 필터 뱅크에 입력된 후 오디오 장면 신호를 직접 수신하면, 공간 분석기(200)는 제1 및 제2 부분에 대한 전체 분석을 계산하고, 그런 다음 파라미터 분리기(240)는 인코딩된 장면 신호로의 출력을 위해 제2 부분에 대한 파라미터들만을 선택한다. 대안으로, 공간 분석기(200)가 대역 분리기로부터 입력 데이터를 수신하면, 대역 분리기(230)는 이미 제2 부분만을 전달하고, 그런 다음, 공간 분석기(200)는 어떤 식으로든 제2 부분만을 수신하고 따라서 제2 부분에 대한 공간 데이터만을 출력하므로, 더는 파라미터 분리기(240)가 필요하지 않다.
따라서 제2 부분의 선택은 공간 분석 이전 또는 이후에 수행될 수 있으며 바람직하게는 모드 제어기(166)에 의해 제어되거나 고정된 방식으로 또한 구현될 수 있다. 공간 분석기(200)는 인코더의 분석 필터 뱅크에 의존하거나, 도 9a에 도시되지 않았지만, 예를 들어 1000에 표시된 DirAC 분석 스테이지 구현을 위해 도 5a에 예시된 자신의 별도의 필터 뱅크를 사용한다.
도 9b는 도 9a의 주파수 도메인 인코더와 달리 시간 도메인 인코더를 예시한다. 분석 필터 뱅크(164) 대신에, (도 9b에 예시되지 않은) 도 9a의 모드 제어기(166)에 의해 제어되거나 고정되는 대역 분리기(168)가 제공된다. 제어의 경우, 비트 레이트, 신호 분석 또는 이러한 목적에 유용한 임의의 다른 프로시저를 기반으로 제어가 수행될 수 있다. 대역 분리기(168)로 입력되는 통상적으로 M개의 컴포넌트들은 한편으로는 저대역 시간 도메인 인코더(160a)에 의해 그리고 다른 한편으로는 시간 도메인 대역폭 확장 파라미터 계산기(160b)에 의해 처리된다. 바람직하게는, 저대역 시간 도메인 인코더(160a)는 M개의 개별 컴포넌트들이 인코딩된 형태인 제1 인코딩된 표현을 출력한다. 이에 반해, 시간 도메인 대역폭 확장 파라미터 계산기(160b)에 의해 생성된 제2 인코딩된 표현은 N개의 컴포넌트들/전송 신호들만을 가지며, 여기서 수 N은 수 M보다 작고, N은 1보다 크거나 같다.
공간 분석기(200)가 코어 인코더의 대역 분리기(168)에 의존하는지 여부에 따라, 별도의 대역 분리기(230)가 필요하지 않다. 그러나 공간 분석기(200)가 대역 분리기(230)에 의존하는 경우, 도 9b의 블록(168)과 블록(200) 간의 연결은 필요하지 않다. 대역 분리기들(168 또는 230) 중 어느 것도 공간 분석기(200)의 입력에 없는 경우, 공간 분석기는 전체 대역 분석을 수행하고 그 다음에 파라미터 분리기(240)는 제2 부분에 대한 공간 파라미터들만을 분리하며, 이러한 파라미터들은 출력 인터페이스 또는 인코딩된 오디오 장면으로 전달된다.
따라서 도 9a는 엔트로피 코딩을 양자화하기 위한 파형 보존 인코더 프로세서(160a) 또는 스펙트럼 인코더를 예시하는 한편, 도 9b의 대응 블록(160a)은 EVS 인코더, ACELP 인코더, AMR 인코더 또는 유사한 인코더와 같은 임의의 시간 도메인 인코더이다. 블록(160b)이 주파수 도메인 파라메트릭 인코더 또는 일반 파라메트릭 인코더를 예시하지만, 도 9b의 블록(160b)은, 기본적으로 블록(160)과 동일한 파라미터들 또는 경우에 따라 다른 파라미터들을 계산할 수 있는 시간 도메인 대역폭 확장 파라미터 계산기이다.
도 10a는 도 9a의 주파수 도메인 인코더와 통상적으로 매칭하는 주파수 도메인 디코더를 예시한다. 인코딩된 제1 부분을 수신하는 스펙트럼 디코더는 160a에 예시된 바와 같이, 엔트로피 디코더, 역양자화기 및 예를 들어, AAC 인코딩 또는 임의의 다른 스펙트럼 도메인 인코딩으로부터 알려진 임의의 다른 엘리먼트들을 포함한다. 제2 부분에 대한 제2 인코딩된 표현으로서 대역별 에너지와 같은 파라메트릭 데이터를 수신하는 파라메트릭 디코더(160b)는 통상적으로 SBR 디코더, IGF 디코더, 잡음 채움 디코더 또는 다른 파라메트릭 디코더들로서 동작한다. 두 부분들, 즉, 제1 부분의 스펙트럼 값들과 제2 부분의 스펙트럼 값들은, 디코딩된 표현을 공간적으로 렌더링할 목적으로 통상적으로 공간 렌더러로 전달되는 디코딩된 표현을 갖기 위해 합성 필터 뱅크(169)로 입력된다.
제1 부분은 공간 분석기(600)로 직접 전달될 수 있거나, 제1 부분은 디코딩된 표현으로부터 대역 분리기(630)를 통해 합성 필터 뱅크(169)의 출력에서 도출될 수 있다. 상황이 어떤지에 따라, 파라미터 분리기(640)는 필요하거나 필요하지 않다. 공간 분석기(600)가 제1 부분만을 수신하는 경우, 그러면 대역 분리기(630) 및 파라미터 분리기(640)는 필요하지 않다. 공간 분석기(600)가 디코딩된 표현을 수신하고 대역 분리기가 없는 경우, 그러면 파라미터 분리기(640)가 필요하다. 디코딩된 표현이 대역 분리기(630)에 입력되는 경우, 그러면 공간 분석기(600)가 제1 부분에 대한 공간 파라미터들만을 출력하기 때문에, 공간 분석기는 파라미터 분리기(640)를 가질 필요가 없다.
도 10b는 도 9b의 시간 도메인 인코더와 매칭하고 있는 시간 도메인 디코더를 예시한다. 특히, 제1 인코딩된 표현(410)은 저대역 시간 도메인 디코더(160a)에 입력되고 디코딩된 제1 부분은 결합기(167)에 입력된다. 대역폭 확장 파라미터들(420)은 제2 부분을 출력하는 시간 도메인 대역폭 확장 프로세서에 입력된다. 제2 부분은 또한 결합기(167)에 입력된다. 구현에 따라, 결합기는 제1 및 제2 부분이 스펙트럼 값들일 때 스펙트럼 값들을 결합하도록 구현될 수 있거나, 제1 및 제2 부분이 이미 시간 도메인 샘플들로서 이용 가능할 때 시간 도메인 샘플들을 결합할 수 있다. 결합기(167)의 출력은 도 10a와 관련하여 이전에 논의된 것과 유사하게, 경우에 따라 대역 분리기(630)와 함께 또는 대역 분리기(630) 없이 또는 파라미터 분리기(640)와 함께 또는 파라미터 분리기(640) 없이 공간 분석기(600)에 의해 처리될 수 있는 디코딩된 표현이다.
도 11은 DirAC 파라미터들에 또는 DirAC 파라미터들 이외의 다른 파라미터들에 의존하거나, HOA 표현과 같이, 렌더링된 신호의, 직접 라우드스피커 표현과는 다른 표현을 생성하는 공간 렌더러의 다른 구현들이 역시 적용될 수 있지만, 공간 렌더러의 바람직한 구현을 예시한다. 통상적으로, DirAC 합성기(800)에 입력된 데이터(862)는 도 11의 왼쪽 상단 모서리에 표시된 바와 같이 제1 및 제2 부분에 대한 B 포맷과 같은 여러 컴포넌트들로 구성될 수 있다. 대안으로, 제2 부분은 여러 컴포넌트들에 이용 가능한 것이 아니라 단지 컴포넌트를 가질 뿐이다. 그러면 상황은 도 11의 좌측에서 하단 부분에 예시된 바와 같다. 특히, 모든 컴포넌트들을 갖는 제1 및 제2 부분을 갖는 경우, 즉 도 8b의 신호(862)가 B 포맷의 모든 컴포넌트들을 갖는 경우, 예를 들어 모든 컴포넌트들의 전체 스펙트럼이 이용 가능하며 시간-주파수 분해가 각각의 개별 시간/주파수 타일에 대한 처리를 수행할 수 있게 한다. 이 처리는 라우드스피커 설정의 각각의 라우드스피커에 대해, 디코딩된 표현으로부터 라우드스피커 컴포넌트를 계산하기 위해 가상 마이크로폰 프로세서(870a)에 의해 수행된다.
대안으로, 제2 부분이 단일 컴포넌트에서만 이용 가능하면, 제1 부분에 대한 시간/주파수 타일들은 가상 마이크로폰 프로세서(870a)에 입력되는 한편, 제2 부분에 대한 단일 또는 더 적은 수의 컴포넌트들에 대한 시간/주파수 타일들은 프로세서(870b)에 입력된다. 프로세서(870b)는 예를 들어, 단지 복사 동작을 수행해야 하는데, 즉 단일 전송 채널을 각각의 라우드스피커 신호에 대한 출력 신호로 복사하기만 하면 된다. 따라서 제1 대안의 가상 마이크로폰 처리(870a)는 단순히 복사 동작으로 대체된다.
그 다음, 제1 실시예의 블록(870a) 또는 제1 부분에 대한 블록(870a) 및 제2 부분에 대한 블록(870b)의 출력은 하나 이상의 공간 파라미터들을 사용하여 출력 컴포넌트 신호를 수정하기 위해 이득 프로세서(872)로 입력된다. 데이터는 또한 하나 이상의 공간 파라미터들을 사용하여 역상관된 출력 컴포넌트 신호를 생성하기 위해 가중기/역상관기 프로세서(874)로 입력된다. 블록(872)의 출력과 블록(874)의 출력은 각각의 컴포넌트에 대해 동작하는 결합기(876) 내에서 결합되어, 블록(876)의 출력에서 각각의 라우드스피커 신호의 주파수 도메인 표현을 획득한다.
그런 다음, 합성 필터 뱅크(878)에 의해 모든 주파수 도메인 라우드스피커 신호들이 시간 도메인 표현으로 변환될 수 있으며, 생성된 시간 도메인 라우드스피커 신호들은 디지털에서 아날로그로 변환되어, 정의된 라우드스피커 포지션들에 배치된 해당 라우드스피커들을 구동하는 데 사용될 수 있다.
통상적으로, 이득 프로세서(872)는 공간 파라미터들 및 바람직하게는 도착 방향 데이터와 같은 지향성 파라미터들에 기초하여, 그리고 선택적으로는 확산성 파라미터들에 기초하여 동작한다. 추가로, 가중기/역상관기 프로세서는 공간 파라미터들에도 역시 기초하여, 그리고 바람직하게는 확산성 파라미터들에 기초하여 동작한다.
따라서 한 구현에서, 이득 프로세서(872)는 1015에 예시된 도 5b의 비확산 스트림의 생성을 나타내고, 가중치/역상관기 프로세서(874)는 예를 들어, 도 5b의 상위 브랜치(1014)에 의해 표시된 바와 같이 확산 스트림의 생성을 나타낸다. 그러나 직접 및 확산 신호들을 생성하기 위해 서로 다른 프로시저들, 서로 다른 파라미터들 및 서로 다른 방법들에 의존하는 다른 구현들도 역시 구현될 수 있다.
최신 기술에 비해 바람직한 실시예들의 예시적인 이익들 및 이점들은 다음과 같다:
Figure pct00001
본 발명의 실시예들은 전체 신호에 대해 인코더 측 추정 및 코딩된 파라미터들을 사용하는 시스템에 비해 디코더 측 추정된 공간 파라미터들을 갖도록 선택된 신호의 부분들에 대해 더 나은 시간-주파수 분해능을 제공한다.
Figure pct00002
본 발명의 실시예들은 공간 파라미터들이 디코딩된 저차원 오디오 신호를 사용하여 디코더에서 추정되는 시스템에 비해 파라미터들의 인코더 측 분석을 사용하며 상기 파라미터들을 코딩하여 디코더로 송신하여 재구성된 신호의 부분들에 대해 더 나은 공간 파라미터 값들을 제공한다.
Figure pct00003
본 발명의 실시예들은 전체 신호에 대해 코딩된 파라미터를 사용하는 시스템 또는 전체 신호에 대해 디코더 측 추정된 파라미터를 사용하는 시스템이 제공할 수 있는 것보다 시간-주파수 분해능, 송신 레이트 그리고 파라미터 정확도 간의 보다 유연한 트레이드 오프를 허용한다.
Figure pct00004
본 발명의 실시예들은 주로 파라메트릭 코딩 툴들을 사용하여 코딩된 신호 부분들에 대한 일부 또는 모든 공간 파라미터들의 인코더 측 추정 및 코딩을 선택함으로써 그러한 신호 부분들에 대해 더 나은 파라미터 정확도를 제공하고, 주로 파형 보존 코딩 툴들을 사용하여 코딩된 신호 부분들에 대한 공간 파라미터들의 디코더 측 추정에 의존하는 그러한 신호 부분들에 대해 더 나은 시간-주파수 분해능을 제공한다.
참조들:
[1] V. Pulkki, M-V Laitinen, J Vilkamo, J Ahonen, T Lokki and T Pihlajam
Figure pct00005
ki, "Directional audio coding - perception-based reproduction of spatial sound", International Workshop on the Principles and Application on Spatial Hearing, Nov. 2009, Zao; Miyagi, Japan.
[2] Ville Pulkki. "Virtual source positioning using vector base amplitude panning". J. Audio Eng. Soc., 45(6):456{466, June 1997.
[3] European patent application No. EP17202393.9, "EFFICIENT CODING SCHEMES OF DIRAC METADATA".
[4] European patent application No EP17194816.9 "Apparatus, method and computer program for encoding, decoding, scene processing and other procedures related to DirAC based spatial audio coding".
본 발명의 인코딩된 오디오 신호는 디지털 저장 매체 또는 비-일시적 저장 매체 상에 저장될 수 있고 또는 송신 매체, 예컨대 무선 송신 매체 또는 유선 송신 매체, 예컨대 인터넷을 통해 송신될 수 있다.
일부 양상들은 장치와 관련하여 설명되었지만, 이러한 양상들은 또한 대응하기 위한 방법의 설명을 나타내며, 여기서 블록 또는 디바이스는 방법 단계 또는 방법 단계의 특징에 대응한다는 점이 명백하다. 비슷하게, 방법 단계와 관련하여 설명한 양상들은 또한 대응하는 장치의 대응하는 블록 또는 항목 또는 특징의 설명을 나타낸다.
특정 구현 요건들에 따라, 본 발명의 실시예들은 하드웨어로 또는 소프트웨어로 구현될 수 있다. 구현은 각각의 방법이 수행되도록 프로그래밍 가능 컴퓨터 시스템과 협력하는(또는 협력할 수 있는) 전자적으로 판독 가능 제어 신호들이 저장된 디지털 저장 매체, 예를 들어 플로피 디스크, DVD, CD, ROM, PROM, EPROM, EEPROM 또는 플래시 메모리를 사용하여 수행될 수 있다.
본 발명에 따른 일부 실시예들은 본 명세서에서 설명한 방법들 중 하나가 수행되도록, 프로그래밍 가능 컴퓨터 시스템과 협력할 수 있는 전자적으로 판독 가능 제어 신호들을 갖는 데이터 반송파를 포함한다.
일반적으로, 본 발명의 실시예들은 컴퓨터 프로그램 제품이 컴퓨터 상에서 실행될 때, 방법들 중 하나를 수행하기 위해 작동하는 프로그램 코드를 갖는 컴퓨터 프로그램 제품으로서 구현될 수 있다. 프로그램 코드는 예를 들어, 기계 판독 가능 반송파 상에 저장될 수 있다.
다른 실시예들은 기계 판독 가능 반송파 또는 비-일시적 저장 매체 상에 저장된, 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함한다.
즉, 본 발명의 방법의 한 실시예는 이에 따라, 컴퓨터 상에서 컴퓨터 프로그램이 실행될 때 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.
따라서 본 발명의 방법들의 추가 실시예는 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함하여 그 위에 기록된 데이터 반송파(또는 디지털 저장 매체, 또는 컴퓨터 판독 가능 매체)이다.
따라서 본 발명의 방법의 추가 실시예는 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 나타내는 신호들의 데이터 스트림 또는 시퀀스이다. 신호들의 데이터 스트림 또는 시퀀스는 예를 들어, 데이터 통신 접속을 통해, 예를 들어 인터넷을 통해 전송되도록 구성될 수 있다.
추가 실시예는 처리 수단, 예를 들어 본 명세서에서 설명한 방법들 중 하나를 수행하도록 구성 또는 적응된 컴퓨터 또는 프로그래밍 가능 로직 디바이스를 포함한다.
추가 실시예는 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램이 설치된 컴퓨터를 포함한다.
일부 실시예들에서, 프로그래밍 가능 로직 디바이스(예를 들어, 필드 프로그래밍 가능 게이트 어레이)는 본 명세서에서 설명한 방법들의 기능들 중 일부 또는 전부를 수행하는 데 사용될 수 있다. 일부 실시예들에서, 필드 프로그래밍 가능 게이트 어레이는 본 명세서에서 설명한 방법들 중 하나를 수행하기 위해 마이크로프로세서와 협력할 수 있다. 일반적으로, 방법들은 바람직하게 임의의 하드웨어 장치에 의해 수행된다.
앞서 설명한 실시예들은 단지 본 발명의 원리들에 대한 예시일 뿐이다. 본 명세서에서 설명한 배열들 및 세부사항들의 수정들 및 변형들이 다른 당업자들에게 명백할 것이라고 이해된다. 따라서 이는 본 명세서의 실시예들의 묘사 및 설명에 의해 제시된 특정 세부사항들로가 아닌, 첨부된 특허청구범위로만 한정되는 것을 취지로 한다.

Claims (38)

  1. 적어도 2개의 컴포넌트 신호들을 포함하는 오디오 장면(110)을 인코딩하기 위한 오디오 장면 인코더로서,
    상기 적어도 2개의 컴포넌트 신호들을 코어 인코딩하기 위한 코어 인코더(160) ― 상기 코어 인코더(160)는 상기 적어도 2개의 컴포넌트 신호들의 제1 부분에 대한 제1 인코딩된 표현(310)을 생성하도록, 그리고 상기 적어도 2개의 컴포넌트 신호들의 제2 부분에 대한 제2 인코딩된 표현(320)을 생성하도록 구성됨 ―;
    상기 제2 부분에 대한 하나 이상의 공간 파라미터들(330) 또는 하나 이상의 공간 파라미터 세트들을 도출하도록 상기 오디오 장면(110)을 분석하기 위한 공간 분석기(200); 및
    인코딩된 오디오 장면 신호(340)를 형성하기 위한 출력 인터페이스(300)를 포함하며,
    상기 인코딩된 오디오 장면 신호(340)는 상기 제1 인코딩된 표현, 상기 제2 인코딩된 표현(320), 및 상기 제2 부분에 대한 하나 이상의 공간 파라미터들(330) 또는 하나 이상의 공간 파라미터 세트들을 포함하는,
    오디오 장면 인코더.
  2. 제1 항에 있어서,
    상기 코어 인코더(160)는 상기 적어도 2개의 컴포넌트 신호들로부터 후속 시간 프레임들을 형성하도록 구성되고,
    상기 적어도 2개의 컴포넌트 신호들의 제1 시간 프레임은 상기 제1 부분이고 상기 적어도 2개의 컴포넌트 신호들의 제2 시간 프레임은 상기 제2 부분이거나, 또는
    상기 적어도 2개의 컴포넌트 신호들의 시간 프레임의 제1 주파수 부대역은 상기 적어도 2개의 컴포넌트 신호들의 제1 부분이고 상기 시간 프레임의 제2 주파수 부대역은 상기 적어도 2개의 컴포넌트 신호들의 제2 부분인,
    오디오 장면 인코더.
  3. 제1 항 또는 제2 항에 있어서,
    상기 오디오 장면(110)은 제1 컴포넌트 신호로서 전방향성 오디오 신호를 그리고 제2 컴포넌트 신호로서 적어도 하나의 지향성 오디오 신호를 포함하거나, 또는
    상기 오디오 장면(110)은 제1 컴포넌트 신호로서, 제1 포지션에 포지셔닝된 전방향성 마이크로폰에 의해 포착된 신호를 그리고 제2 컴포넌트 신호로서, 상기 제1 포지션과는 다른 제2 포지션에 포지셔닝된 전방향성 마이크로폰에 의해 포착된 적어도 하나의 신호를 포함하거나, 또는
    상기 오디오 장면(110)은 제1 컴포넌트 신호로서, 제1 방향으로 향하는 지향성 마이크로폰에 의해 포착된 적어도 하나의 신호를 그리고 제2 컴포넌트 신호로서, 제2 방향으로 향하는 지향성 마이크로폰을 포함하며, 상기 제2 방향은 상기 제1 방향과 다른,
    오디오 장면 인코더.
  4. 제1 항 내지 제3 항 중 어느 한 항에 있어서,
    상기 오디오 장면(110)은 A 포맷 컴포넌트 신호들, B 포맷 컴포넌트 신호들, 1차 앰비소닉스(First-Order Ambisonics) 컴포넌트 신호들, 고차 앰비소닉스(Higher-Order Ambisonics) 컴포넌트 신호들, 또는 적어도 2개의 마이크로폰 캡슐들을 갖는 마이크로폰 어레이에 의해 포착된 또는 이전에 녹음 또는 합성된 사운드 장면으로부터 가상 마이크로폰 계산에 의해 결정된 컴포넌트 신호들을 포함하는,
    오디오 장면 인코더.
  5. 제1 항 내지 제4 항 중 어느 한 항에 있어서,
    상기 출력 인터페이스(300)는 상기 제2 부분에 대해 상기 공간 분석기(200)에 의해 생성된 하나 이상의 공간 파라미터들(330)과 동일한 파라미터 종류로부터의 어떠한 공간 파라미터들도 상기 인코딩된 오디오 장면 신호(340)에 포함하지 않아, 상기 제2 부분만이 상기 파라미터 종류를 갖고 상기 인코딩된 오디오 장면 신호(340)의 제1 부분에 대해 상기 파라미터 종류의 어떠한 파라미터들도 포함되지 않도록 구성되는,
    오디오 장면 인코더.
  6. 제1 항 내지 제4 항 중 어느 한 항에 있어서,
    상기 코어 인코더(160)는 상기 제2 부분에 대해 파라메트릭 또는 대체로 파라메트릭 인코딩 동작(160b)을 수행하도록, 그리고 상기 제1 부분에 대해 파형 보존 또는 주로 파형 보존 인코딩 동작(160a)을 수행하도록 구성되거나, 또는
    상기 제2 부분에 대한 시작 대역은 대역폭 확장 시작 대역보다 더 낮고, 상기 코어 인코더(100)에 의해 수행되는 코어 잡음 채움 동작은 어떠한 고정된 크로스오버 대역도 갖지 않고 주파수가 증가할 때 코어 스펙트럼들의 더 많은 부분들에 대해 점진적으로 사용되는,
    오디오 장면 인코더.
  7. 제1 항 내지 제4 항 중 어느 한 항에 있어서,
    상기 코어 인코더(160)는 상기 적어도 2개의 컴포넌트 신호들의 제2 부분에 대응하는 시간 프레임의 제2 주파수 부대역에 대해 파라메트릭 또는 대체로 파라메트릭 처리(160b)를 수행하도록 구성되며, 상기 파라메트릭 처리 또는 대체로 파라메트릭 처리(160b)는 상기 제2 주파수 부대역에 대한 진폭 관련 파라미터를 계산하고, 상기 제2 주파수 부대역의 개별 스펙트럼 라인들 대신 상기 진폭 관련 파라미터를 양자화 및 엔트로피 코딩하는 것을 포함하고, 상기 코어 인코더(160)는 상기 적어도 2개의 컴포넌트 신호들의 제1 부분에 대응하는 상기 시간 프레임의 제1 부대역의 개별 스펙트럼 라인들을 양자화 및 엔트로피 인코딩(160a)하도록 구성되거나, 또는
    상기 코어 인코더(160)는 상기 적어도 2개의 컴포넌트 신호들의 제2 부분에 대응하는 시간 프레임의 고주파 부대역에 대해 파라메트릭 또는 대체로 파라메트릭 처리(160b)를 수행하도록 구성되며, 상기 파라메트릭 처리 또는 대체로 파라메트릭 처리는 상기 고주파 부대역에 대한 진폭 관련 파라미터를 계산하고, 상기 고주파 부대역의 시간 도메인 신호 대신 상기 진폭 관련 파라미터를 양자화 및 엔트로피 코딩하는 것을 포함하고, 상기 코어 인코더(160)는 상기 적어도 2개의 컴포넌트 신호들의 제1 부분에 대응하는 상기 시간 프레임의 저주파 부대역에서 상기 시간 도메인 오디오 신호를 시간 도메인 코딩 동작, 이를테면 LPC 코딩, LPC/TCX 코딩, 또는 EVS 코딩 또는 AMR 광대역 코딩 또는 AMR 광대역+ 코딩에 의해 양자화 및 엔트로피 인코딩(160b)하도록 구성되는,
    오디오 장면 인코더.
  8. 제7 항에 있어서,
    상기 파라메트릭 처리(160b)는 스펙트럼 대역 복제(SBR: spectral band replication) 처리, 지능형 갭 필링(IGF: intelligent gap filling) 처리 또는 잡음 필링 처리를 포함하는,
    오디오 장면 인코더.
  9. 제1 항 내지 제4 항 중 어느 한 항에 있어서,
    상기 제1 부분은 시간 프레임의 제1 부대역이고 상기 제2 부분은 상기 시간 프레임의 제2 부대역이며, 상기 코어 인코더(160)는 상기 제1 부대역과 상기 제2 부대역 사이에 미리 결정된 경계 주파수를 사용하도록 구성되거나, 또는
    상기 코어 인코더(160)는 저차원 오디오 장면을 얻기 위해 상기 오디오 장면(110)의 차원을 축소시키기 위한 차원 축소기(150a)를 포함하고, 상기 코어 인코더(160)는 상기 저차원 오디오 장면으로부터 상기 적어도 2개의 컴포넌트 신호들의 제1 부분에 대한 제1 인코딩된 표현(310)을 계산하도록 구성되며, 상기 공간 분석기(200)는 상기 저차원 오디오 장면의 차원보다 더 높은 차원을 갖는 오디오 장면(110)으로부터 상기 공간 파라미터들(330)을 도출하도록 구성되거나, 또는
    상기 코어 인코더(160)는 M개의 컴포넌트 신호들을 포함하는 제1 부분에 대한 제1 인코딩된 표현(310)을 생성하도록, 그리고 N개의 컴포넌트 신호들을 포함하는 제2 부분에 대한 제2 인코딩된 표현(320)을 생성하도록 구성되고, M은 N보다 크고 N은 1보다 크거나 같은,
    오디오 장면 인코더.
  10. 제1 항 내지 제9 항 중 어느 한 항에 있어서,
    서로 다른 비트 레이트들로 작동하도록 구성되며,
    상기 제1 부분과 상기 제2 부분 사이의 미리 결정된 경계 주파수는 선택된 비트 레이트에 의존하고,
    상기 미리 결정된 경계 주파수는 더 낮은 비트 레이트에 대해 더 낮거나, 상기 미리 결정된 경계 주파수는 더 큰 비트 레이트에 대해 더 큰,
    오디오 장면 인코더.
  11. 제1 항 내지 제4 항 중 어느 한 항에 있어서,
    상기 제1 부분은 상기 적어도 2개의 컴포넌트 신호들의 제1 부대역이고, 상기 제2 부분은 상기 적어도 2개의 컴포넌트 신호들의 제2 부대역이며,
    상기 공간 분석기(200)는 상기 제2 부대역에 대해 상기 하나 이상의 공간 파라미터들(330)로서 방향 파라미터 및 무지향성 파라미터, 이를테면 확산성 파라미터 중 적어도 하나를 계산하도록 구성되는,
    오디오 장면 인코더.
  12. 제1 항 내지 제11 항 중 어느 한 항에 있어서,
    상기 코어 인코더(160)는,
    상기 적어도 2개의 컴포넌트 신호들의 시간 프레임들의 시퀀스들을 상기 적어도 2개의 컴포넌트 신호들에 대한 공간 프레임들의 시퀀스들로 변환하기 위한 시간-주파수 변환기(164),
    상기 스펙트럼 프레임의 제1 부대역 내에서 스펙트럼 프레임들의 시퀀스들 중 한 프레임의 스펙트럼 값들을 양자화하고 엔트로피 코딩하기 위한 스펙트럼 인코더(160a); 및
    상기 스펙트럼 프레임의 제2 부대역 내에서 상기 스펙트럼 프레임의 스펙트럼 값들을 파라메트릭 인코딩하기 위한 파라메트릭 인코더(160b)를 포함하거나, 또는
    상기 코어 인코더(160)는 시간 프레임의 저대역 부분의 시간 도메인 또는 혼합 시간 도메인 및 주파수 도메인 인코딩 동작을 수행하기 위한 시간 도메인 또는 혼합 시간 도메인 주파수 도메인 코어 인코더(160)를 포함하거나, 또는
    상기 공간 분석기(200)는 상기 제2 부분을 분석 대역들로 세분화하도록 구성되며, 분석 대역의 대역폭은 상기 제1 부분 내에서 상기 스펙트럼 인코더에 의해 처리된 2개의 인접한 스펙트럼 값들과 연관된 대역폭보다 크거나 같거나, 또는 상기 제1 부분을 나타내는 저대역 부분의 대역폭보다 낮고, 상기 공간 분석기(200)는 상기 제2 부분의 각각의 분석 대역에 대한 방향 파라미터 및 확산성 파라미터 중 적어도 하나를 계산하도록 구성되거나, 또는
    상기 코어 인코더(160) 및 상기 공간 분석기(200)는 공통 필터 뱅크(164) 또는 서로 다른 특징들을 갖는 서로 다른 필터 뱅크들(164, 1000)을 사용하도록 구성되는,
    오디오 장면 인코더.
  13. 제12 항에 있어서,
    상기 공간 분석기(200)는 상기 방향 파라미터를 계산하기 위해, 상기 확산성 파라미터를 계산하는 데 사용되는 분석 대역보다 더 작은 분석 대역을 사용하도록 구성되는,
    오디오 장면 인코더.
  14. 제1 항 내지 제13 항 중 어느 한 항에 있어서,
    상기 코어 인코더(160)는 상기 적어도 2개의 컴포넌트 신호들에 대한 인코딩된 다채널 신호를 생성하기 위한 다채널 인코더를 포함하거나, 또는
    상기 코어 인코더(160)는 상기 적어도 2개의 컴포넌트 신호들의 컴포넌트 신호들의 수가 3개 이상인 경우, 2개 이상의 인코딩된 다채널 신호들을 생성하기 위한 다채널 인코더를 포함하거나, 또는
    상기 코어 인코더(160)는 제1 분해능으로 상기 제1 인코딩된 표현(310)을 생성하도록 그리고 제2 분해능으로 상기 제2 인코딩된 표현(320)을 생성하도록 구성되며, 상기 제2 분해능은 상기 제1 분해능보다 더 낮거나, 또는
    상기 코어 인코더(160)는 제1 시간 또는 제1 주파수 분해능으로 상기 제1 인코딩된 표현(310)을 생성하도록 그리고 제2 시간 또는 제2 주파수 분해능으로 상기 제2 인코딩된 표현(320)을 생성하도록 구성되며, 상기 제2 시간 또는 주파수 분해능은 상기 제1 시간 또는 주파수 분해능보다 더 낮거나, 또는
    상기 출력 인터페이스(300)는 상기 인코딩된 오디오 장면 신호(340)에 상기 제1 부분에 대한 어떠한 공간 파라미터들(330)도 포함하지 않도록, 또는 상기 제2 부분에 대한 상기 공간 파라미터들(330)의 수와 비교하여 상기 제1 부분에 대해 더 적은 수의 공간 파라미터들을 상기 인코딩된 오디오 장면 신호(340)에 포함하도록 구성되는,
    오디오 장면 인코더.
  15. 오디오 장면 디코더로서,
    적어도 2개의 컴포넌트 신호들의 제1 부분의 제1 인코딩된 표현(410), 상기 적어도 2개의 컴포넌트 신호들의 제2 부분의 제2 인코딩된 표현(420), 및 상기 적어도 2개의 컴포넌트 신호들의 제2 부분에 대한 하나 이상의 공간 파라미터들(430)을 포함하는 인코딩된 오디오 장면 신호(340)를 수신하기 위한 입력 인터페이스(400);
    오디오 장면을 나타내는 상기 적어도 2개의 컴포넌트 신호들의 디코딩된 표현(810, 820)을 얻기 위해 상기 제1 인코딩된 표현(410) 및 상기 제2 인코딩된 표현(420)을 디코딩하기 위한 코어 디코더(500);
    상기 적어도 2개의 컴포넌트 신호들의 제1 부분에 대한 하나 이상의 공간 파라미터들((840)을 도출하기 위해 상기 적어도 2개의 컴포넌트 신호들의 제1 부분에 대응하는 상기 디코딩된 표현의 일부(810)를 분석하기 위한 공간 분석기(600); 및
    상기 인코딩된 오디오 장면 신호(340)에 포함된, 상기 제1 부분에 대한 하나 이상의 공간 파라미터들(840) 및 상기 제2 부분에 대한 하나 이상의 공간 파라미터들(830)을 사용하여 상기 디코딩된 표현(810, 820)을 공간적으로 렌더링하기 위한 공간 렌더러(800)를 포함하는,
    오디오 장면 디코더.
  16. 제15 항에 있어서,
    상기 인코딩된 오디오 장면 신호(340)에 포함된 상기 제2 부분에 대한 하나 이상의 공간 파라미터들(430)을 디코딩하기 위한 공간 파라미터 디코더(700)를 더 포함하며,
    상기 공간 렌더러(800)는 상기 적어도 2개의 컴포넌트 신호들의 디코딩된 표현의 제2 부분을 렌더링하기 위해 상기 하나 이상의 공간 파라미터들(830)의 디코딩된 표현을 사용하도록 구성되는,
    오디오 장면 디코더.
  17. 제15 항 또는 제16 항에 있어서,
    상기 코어 디코더(500)는 디코딩된 프레임들의 시퀀스를 제공하도록 구성되고, 상기 제1 부분은 상기 디코딩된 프레임들의 시퀀스의 제1 프레임이고 상기 제2 부분은 상기 디코딩된 프레임들의 시퀀스의 제2 프레임이며, 상기 코어 디코더(500)는 상기 디코딩된 표현을 얻기 위해 후속 디코딩된 시간 프레임들을 중첩 가산하는 중첩 가산기를 더 포함하거나, 또는
    상기 코어 디코더(500)는 중첩 가산 연산 없이 동작하는 ACELP 기반 시스템을 포함하는,
    오디오 장면 디코더.
  18. 제15 항 내지 제17 항 중 어느 한 항에 있어서,
    상기 코어 디코더(500)는 디코딩된 시간 프레임들의 시퀀스를 제공하도록 구성되고,
    상기 제1 부분은 상기 디코딩된 시간 프레임들의 시퀀스의 시간 프레임의 제1 부대역이며, 상기 제2 부분은 상기 디코딩된 시간 프레임들의 시퀀스의 상기 시간 프레임의 제2 부대역이고,
    상기 공간 분석기(600)는 상기 제1 부대역에 대한 하나 이상의 공간 파라미터들(840)을 제공하도록 구성되며,
    상기 공간 렌더러(800)는,
    상기 시간 프레임의 제1 부대역 및 상기 제1 부대역에 대한 하나 이상의 공간 파라미터들(840)을 사용하여 상기 제1 부대역을 렌더링하도록, 그리고
    상기 시간 프레임의 제2 부대역 및 상기 제2 부대역에 대한 하나 이상의 공간 파라미터들(830)을 사용하여 상기 제2 부대역을 렌더링하도록 구성되는,
    오디오 장면 디코더.
  19. 제18 항에 있어서,
    상기 공간 렌더러(800)는 렌더링된 신호의 시간 프레임을 얻기 위해 제1 렌더링된 부대역 및 제2 렌더링된 부대역을 결합하기 위한 결합기를 포함하는,
    오디오 장면 디코더.
  20. 제15 항 내지 제19 항 중 어느 한 항에 있어서,
    상기 공간 렌더러(800)는 라우드스피커 설정의 각각의 라우드스피커에 대해 또는 1차 또는 고차 앰비소닉스 포맷의 각각의 컴포넌트에 대해 또는 입체 음향 포맷의 각각의 컴포넌트에 대해 렌더링된 신호를 제공하도록 구성되는,
    오디오 장면 디코더.
  21. 제15 항 내지 제20 항 중 어느 한 항에 있어서,
    상기 공간 렌더러(800)는,
    각각의 출력 컴포넌트에 대해, 상기 디코딩된 표현으로부터 출력 컴포넌트 신호를 생성하기 위한 프로세서(870b);
    상기 하나 이상의 공간 파라미터들(830, 840)을 사용하여 상기 출력 컴포넌트 신호를 수정하기 위한 이득 프로세서(872); 또는
    상기 하나 이상의 공간 파라미터들(830, 840)을 사용하여 역상관된 출력 컴포넌트 신호를 생성하기 위한 가중기/역상관기 프로세서(874), 및
    렌더링된 라우드스피커 신호를 얻기 위해 상기 역상관된 출력 컴포넌트 신호와 상기 출력 컴포넌트 신호를 결합하기 위한 결합기(876)를 포함하거나, 또는
    상기 공간 렌더러(800)는,
    라우드스피커 셋업의 각각의 라우드스피커에 대해, 상기 디코딩된 표현으로부터 라우드스피커 컴포넌트 신호를 계산하기 위한 가상 마이크로폰 프로세서(870a);
    상기 하나 이상의 공간 파라미터들(830, 840)을 사용하여 상기 라우드스피커 컴포넌트 신호를 수정하기 위한 이득 프로세서(872); 또는
    상기 하나 이상의 공간 파라미터들(830, 840)을 사용하여 역상관된 라우드스피커 컴포넌트 신호를 생성하기 위한 가중기/역상관기 프로세서(874), 및
    렌더링된 라우드스피커 신호를 얻기 위해 상기 역상관된 라우드스피커 컴포넌트 신호와 상기 라우드스피커 컴포넌트 신호를 결합하기 위한 결합기(876)를 포함하는,
    오디오 장면 디코더.
  22. 제15 항 내지 제21 항 중 어느 한 항에 있어서,
    상기 공간 렌더러(800)는 대역에 관한 방식으로 동작하도록 구성되고,
    상기 제1 부분은 제1 부대역이며, 상기 제1 부대역은 복수의 제1 대역들로 세분화되고,
    상기 제2 부분은 제2 부대역이며, 상기 제2 부대역은 복수의 제2 대역들로 세분화되고,
    상기 공간 렌더러(800)는 상기 분석기에 의해 도출된 대응하는 공간 파라미터를 사용하여 각각의 제1 대역에 대한 출력 컴포넌트 신호를 렌더링하도록 구성되고,
    상기 공간 렌더러(800)는 상기 인코딩된 오디오 장면 신호(340)에 포함된 대응하는 공간 파라미터를 사용하여 각각의 제2 대역에 대한 출력 컴포넌트 신호를 렌더링하도록 구성되며,
    상기 복수의 제2 대역들 중 제2 대역은 상기 복수의 제1 대역들 중 제1 대역보다 더 크고,
    상기 공간 렌더러(800)는 렌더링된 출력 신호를 얻기 위해 상기 제1 대역들 및 상기 제2 대역들에 대한 출력 컴포넌트 신호들을 결합(878)하도록 구성되며,
    상기 렌더링된 출력 신호는 라우드스피커 신호, A 포맷 신호, B 포맷 신호, 1차 앰비소닉스 신호, 고차 앰비소닉스 신호 또는 입체 음향 신호인,
    오디오 장면 디코더.
  23. 제15 항 내지 제22 항 중 어느 한 항에 있어서,
    코어 디코더(500)는 상기 오디오 장면을 나타내는 상기 디코딩된 표현으로서 제1 컴포넌트 신호, 전방향성 오디오 신호를 그리고 제2 컴포넌트 신호로서 적어도 하나의 지향성 오디오 신호를 생성하도록 구성되거나, 또는 상기 오디오 장면을 나타내는 상기 디코딩된 표현은 B 포맷 컴포넌트 신호들 또는 1차 앰비소닉스 컴포넌트 신호들 또는 고차 앰비소닉스 컴포넌트 신호들을 포함하는,
    오디오 장면 디코더.
  24. 제15 항 내지 제23 항 중 어느 한 항에 있어서,
    상기 인코딩된 오디오 장면 신호(340)는 상기 인코딩된 오디오 장면 신호(340)에 포함된 상기 제2 부분에 대한 공간 파라미터들(430)과 동일한 종류인, 상기 적어도 2개의 컴포넌트 신호들의 상기 제1 부분에 대한 어떠한 공간 파라미터들도 포함하지 않는,
    오디오 장면 디코더.
  25. 제15 항 내지 제24 항 중 어느 한 항에 있어서,
    상기 코어 디코더(500)는 상기 제2 부분에 대해 파라메트릭 디코딩 동작(510b)을 수행하도록 그리고 상기 제1 부분에 대해 파형 보존 디코딩 동작(510a)을 수행하도록 구성되는,
    오디오 장면 디코더.
  26. 제15 항 내지 제25 항 중 어느 한 항에 있어서,
    상기 코어 디코더(500)는 상기 제2 부대역을 포락선 조정하기 위한 진폭 관련 파라미터를 엔트로피 디코딩한 후 상기 진폭 관련 파라미터를 사용하여 파라메트릭 처리(510b)를 수행하도록 구성되고,
    상기 코어 디코더(500)는 상기 제1 부대역에서 개별 스펙트럼 라인들을 엔트로피 디코딩(510a)하도록 구성되는,
    오디오 장면 디코더.
  27. 제15 항 내지 제26 항 중 어느 한 항에 있어서,
    상기 코어 디코더(500)는 디코딩(510b)을 위해, 상기 제2 인코딩된 표현(420), 스펙트럼 대역 복제(SBR) 처리, 지능형 갭 채움(IGF) 처리 또는 잡음 채움 처리를 포함하는,
    오디오 장면 디코더.
  28. 제15 항 내지 제27 항 중 어느 한 항에 있어서,
    상기 제1 부분은 시간 프레임의 제1 부대역이고 상기 제2 부분은 상기 시간 프레임의 제2 부대역이며,
    상기 코어 디코더(500)는 상기 제1 부대역과 상기 제2 부대역 사이에 미리 결정된 경계 주파수를 사용하도록 구성되는,
    오디오 장면 디코더.
  29. 제15 항 내지 제28 항 중 어느 한 항에 있어서,
    상기 오디오 장면 디코더는 서로 다른 비트 레이트들로 작동하도록 구성되며,
    상기 제1 부분과 상기 제2 부분 사이의 미리 결정된 경계 주파수는 선택된 비트 레이트에 의존하고,
    상기 미리 결정된 경계 주파수는 더 낮은 비트 레이트에 대해 더 낮거나, 상기 미리 결정된 경계 주파수는 더 큰 비트 레이트에 대해 더 큰,
    오디오 장면 디코더.
  30. 제15 항 내지 제29 항 중 어느 한 항에 있어서,
    상기 제1 부분은 시간 부분의 제1 부대역이고 상기 제2 부분은 시간 부분의 제2 부대역이며,
    상기 공간 분석기(600)는 상기 제1 부대역에 대해 상기 하나 이상의 공간 파라미터들(840)로서 방향 파라미터 및 확산성 파라미터 중 적어도 하나를 계산하도록 구성되는,
    오디오 장면 디코더.
  31. 제15 항 내지 제30 항 중 어느 한 항에 있어서,
    상기 제1 부분은 시간 프레임의 제1 부대역이고 상기 제2 부분은 시간 프레임의 제2 부대역이며,
    상기 공간 분석기(600)는 상기 제1 부대역을 분석 대역들로 세분화하도록 구성되고, 분석 대역의 대역폭은 상기 제1 부대역에 대해 상기 코어 디코더(500)에 의해 생성된 2개의 인접한 스펙트럼 값들과 연관된 대역폭보다 크거나 같고,
    상기 공간 분석기(600)는 각각의 분석 대역에 대한 방향 파라미터 및 확산성 파라미터 중 적어도 하나를 계산하도록 구성되는,
    오디오 장면 디코더.
  32. 제31 항에 있어서,
    상기 공간 분석기(600)는 상기 방향 파라미터를 계산하기 위해, 상기 확산성 파라미터를 계산하는 데 사용되는 분석 대역보다 더 작은 분석 대역을 사용하도록 구성되는,
    오디오 장면 디코더.
  33. 제15 항 내지 제32 항 중 어느 한 항에 있어서,
    상기 공간 분석기(600)는 상기 방향 파라미터를 계산하기 위해, 제1 대역폭을 갖는 분석 대역을 사용하도록 구성되며,
    상기 공간 렌더러(800)는 상기 디코딩된 표현의 렌더링 대역을 렌더링하기 위해 상기 인코딩된 오디오 장면 신호(340)에 포함된 상기 적어도 2개의 컴포넌트 신호들의 제2 부분에 대해 상기 하나 이상의 공간 파라미터들(840)의 공간 파라미터를 사용하도록 구성되고, 상기 렌더링 대역은 제2 대역폭을 가지며,
    상기 제2 대역폭은 상기 제1 대역폭보다 더 큰,
    오디오 장면 디코더.
  34. 제15 항 내지 제33 항 중 어느 한 항에 있어서,
    상기 인코딩된 오디오 장면 신호(340)는 상기 적어도 2개의 컴포넌트 신호들에 대한 인코딩된 다채널 신호를 포함하거나, 또는 상기 인코딩된 오디오 장면 신호(340)는 2보다 더 많은 다수의 컴포넌트 신호들에 대해 적어도 2개의 인코딩된 다채널 신호들을 포함하며,
    상기 코어 디코더(500)는 상기 인코딩된 다채널 신호 또는 상기 적어도 2개의 인코딩된 다채널 신호들을 코어 디코딩하기 위한 다채널 디코더를 포함하는,
    오디오 장면 디코더.
  35. 적어도 2개의 컴포넌트 신호들을 포함하는 오디오 장면(110)을 인코딩하는 방법으로서,
    상기 적어도 2개의 컴포넌트 신호들을 코어 인코딩하는 단계 ― 상기 코어 인코딩하는 단계는 상기 적어도 2개의 컴포넌트 신호들의 제1 부분에 대한 제1 인코딩된 표현(310)을 생성하는 단계, 및 상기 적어도 2개의 컴포넌트 신호들의 제2 부분에 대한 제2 인코딩된 표현(320)을 생성하는 단계를 포함함 ―;
    상기 제2 부분에 대한 하나 이상의 공간 파라미터들(330) 또는 하나 이상의 공간 파라미터 세트들을 도출하도록 상기 오디오 장면(110)을 분석하는 단계; 및
    인코딩된 오디오 장면 신호를 형성하는 단계를 포함하며, 상기 인코딩된 오디오 장면 신호(340)는 상기 제1 인코딩된 표현, 상기 제2 인코딩된 표현(320), 및 상기 제2 부분에 대한 하나 이상의 공간 파라미터들(330) 또는 하나 이상의 공간 파라미터 세트들을 포함하는,
    오디오 장면(110)을 인코딩하는 방법.
  36. 오디오 장면을 디코딩하는 방법으로서,
    적어도 2개의 컴포넌트 신호들의 제1 부분의 제1 인코딩된 표현(410), 상기 적어도 2개의 컴포넌트 신호들의 제2 부분의 제2 인코딩된 표현(420), 및 상기 적어도 2개의 컴포넌트 신호들의 제2 부분에 대한 하나 이상의 공간 파라미터들(430)을 포함하는 인코딩된 오디오 장면 신호(340)를 수신하는 단계;
    상기 오디오 장면을 나타내는 상기 적어도 2개의 컴포넌트 신호들의 디코딩된 표현을 얻기 위해 상기 제1 인코딩된 표현(410) 및 상기 제2 인코딩된 표현(420)을 디코딩하는 단계;
    상기 적어도 2개의 컴포넌트 신호들의 제1 부분에 대한 하나 이상의 공간 파라미터들((840)을 도출하기 위해 상기 적어도 2개의 컴포넌트 신호들의 제1 부분에 대응하는 상기 디코딩된 표현의 일부를 분석하는 단계; 및
    상기 인코딩된 오디오 장면 신호(340)에 포함된, 상기 제1 부분에 대한 하나 이상의 공간 파라미터들(840) 및 상기 제2 부분에 대한 하나 이상의 공간 파라미터들(430)을 사용하여 상기 디코딩된 표현을 공간적으로 렌더링하는 단계를 포함하는,
    오디오 장면을 디코딩하는 방법.
  37. 컴퓨터 또는 프로세서 상에서 실행될 때, 제35 항의 방법 또는 제36 항의 방법을 수행하기 위한,
    컴퓨터 프로그램.
  38. 인코딩된 오디오 장면 신호(340)로서,
    오디오 장면(110)의 적어도 2개의 컴포넌트 신호들의 제1 부분에 대한 제1 인코딩된 표현;
    상기 적어도 2개의 컴포넌트 신호들의 제2 부분에 대한 제2 인코딩된 표현(320); 및
    상기 제2 부분에 대한 하나 이상의 공간 파라미터들(330) 또는 하나 이상의 공간 파라미터 세트들을 포함하는,
    인코딩된 오디오 장면 신호(340).
KR1020207025235A 2018-02-01 2019-01-31 하이브리드 인코더/디코더 공간 분석을 사용한 오디오 장면 인코더, 오디오 장면 디코더 및 관련 방법들 KR20200116968A (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP18154749 2018-02-01
EP18154749.8 2018-02-01
EP18185852 2018-07-26
EP18185852.3 2018-07-26
PCT/EP2019/052428 WO2019149845A1 (en) 2018-02-01 2019-01-31 Audio scene encoder, audio scene decoder and related methods using hybrid encoder/decoder spatial analysis

Publications (1)

Publication Number Publication Date
KR20200116968A true KR20200116968A (ko) 2020-10-13

Family

ID=65276183

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020207025235A KR20200116968A (ko) 2018-02-01 2019-01-31 하이브리드 인코더/디코더 공간 분석을 사용한 오디오 장면 인코더, 오디오 장면 디코더 및 관련 방법들

Country Status (16)

Country Link
US (3) US11361778B2 (ko)
EP (2) EP3724876B1 (ko)
JP (2) JP7261807B2 (ko)
KR (1) KR20200116968A (ko)
CN (2) CN112074902B (ko)
AU (1) AU2019216363B2 (ko)
BR (1) BR112020015570A2 (ko)
CA (1) CA3089550C (ko)
ES (1) ES2922532T3 (ko)
MX (1) MX2020007820A (ko)
PL (1) PL3724876T3 (ko)
RU (1) RU2749349C1 (ko)
SG (1) SG11202007182UA (ko)
TW (1) TWI760593B (ko)
WO (1) WO2019149845A1 (ko)
ZA (1) ZA202004471B (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023234429A1 (ko) * 2022-05-30 2023-12-07 엘지전자 주식회사 인공 지능 기기

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109547711A (zh) * 2018-11-08 2019-03-29 北京微播视界科技有限公司 视频合成方法、装置、计算机设备及可读存储介质
CN114067810A (zh) * 2020-07-31 2022-02-18 华为技术有限公司 音频信号渲染方法和装置
CN115881140A (zh) * 2021-09-29 2023-03-31 华为技术有限公司 编解码方法、装置、设备、存储介质及计算机程序产品
TW202332291A (zh) * 2021-11-30 2023-08-01 瑞典商都比國際公司 用於基於場景之沉浸式音訊內容之編碼或解碼之方法及裝置

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4363122A (en) * 1980-09-16 1982-12-07 Northern Telecom Limited Mitigation of noise signal contrast in a digital speech interpolation transmission system
US20070055510A1 (en) * 2005-07-19 2007-03-08 Johannes Hilpert Concept for bridging the gap between parametric multi-channel audio coding and matrixed-surround multi-channel coding
EP3712888B1 (en) * 2007-03-30 2024-05-08 Electronics and Telecommunications Research Institute Apparatus and method for coding and decoding multi object audio signal with multi channel
KR101452722B1 (ko) * 2008-02-19 2014-10-23 삼성전자주식회사 신호 부호화 및 복호화 방법 및 장치
EP2306452B1 (en) * 2008-07-29 2017-08-30 Panasonic Intellectual Property Management Co., Ltd. Sound coding / decoding apparatus, method and program
EP2169670B1 (en) * 2008-09-25 2016-07-20 LG Electronics Inc. An apparatus for processing an audio signal and method thereof
CA2754671C (en) 2009-03-17 2017-01-10 Dolby International Ab Advanced stereo coding based on a combination of adaptively selectable left/right or mid/side stereo coding and of parametric stereo coding
TW202339510A (zh) * 2011-07-01 2023-10-01 美商杜比實驗室特許公司 用於適應性音頻信號的產生、譯碼與呈現之系統與方法
CN103165136A (zh) * 2011-12-15 2013-06-19 杜比实验室特许公司 音频处理方法及音频处理设备
BR112014017457A8 (pt) * 2012-01-19 2017-07-04 Koninklijke Philips Nv aparelho de transmissão de áudio espacial; aparelho de codificação de áudio espacial; método de geração de sinais de saída de áudio espacial; e método de codificação de áudio espacial
US9460729B2 (en) * 2012-09-21 2016-10-04 Dolby Laboratories Licensing Corporation Layered approach to spatial audio coding
TWI618051B (zh) * 2013-02-14 2018-03-11 杜比實驗室特許公司 用於利用估計之空間參數的音頻訊號增強的音頻訊號處理方法及裝置
EP2830045A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for audio encoding and decoding for audio channels and audio objects
EP2963949A1 (en) * 2014-07-02 2016-01-06 Thomson Licensing Method and apparatus for decoding a compressed HOA representation, and method and apparatus for encoding a compressed HOA representation
EP3067886A1 (en) * 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
CN117238300A (zh) * 2016-01-22 2023-12-15 弗劳恩霍夫应用研究促进协会 使用帧控制同步来编码或解码多声道音频信号的装置和方法
US10454499B2 (en) * 2016-05-12 2019-10-22 Qualcomm Incorporated Enhanced puncturing and low-density parity-check (LDPC) code structure
CN109906616B (zh) * 2016-09-29 2021-05-21 杜比实验室特许公司 用于确定一或多个音频源的一或多个音频表示的方法、系统和设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023234429A1 (ko) * 2022-05-30 2023-12-07 엘지전자 주식회사 인공 지능 기기

Also Published As

Publication number Publication date
SG11202007182UA (en) 2020-08-28
US20230317088A1 (en) 2023-10-05
EP4057281A1 (en) 2022-09-14
CN118197326A (zh) 2024-06-14
BR112020015570A2 (pt) 2021-02-02
JP7261807B2 (ja) 2023-04-20
TW201937482A (zh) 2019-09-16
US11361778B2 (en) 2022-06-14
JP2021513108A (ja) 2021-05-20
US20220139409A1 (en) 2022-05-05
CN112074902B (zh) 2024-04-12
CN112074902A (zh) 2020-12-11
AU2019216363A1 (en) 2020-08-06
EP3724876B1 (en) 2022-05-04
ES2922532T3 (es) 2022-09-16
JP2023085524A (ja) 2023-06-20
CA3089550A1 (en) 2019-08-08
CA3089550C (en) 2023-03-21
TWI760593B (zh) 2022-04-11
AU2019216363B2 (en) 2021-02-18
PL3724876T3 (pl) 2022-11-07
EP3724876A1 (en) 2020-10-21
ZA202004471B (en) 2021-10-27
WO2019149845A1 (en) 2019-08-08
RU2749349C1 (ru) 2021-06-09
US11854560B2 (en) 2023-12-26
MX2020007820A (es) 2020-09-25
US20200357421A1 (en) 2020-11-12

Similar Documents

Publication Publication Date Title
US9940938B2 (en) Audio encoder, audio decoder, methods and computer program using jointly encoded residual signals
US8958566B2 (en) Audio signal decoder, method for decoding an audio signal and computer program using cascaded audio object processing stages
US11854560B2 (en) Audio scene encoder, audio scene decoder and related methods using hybrid encoder-decoder spatial analysis
JP2007531027A (ja) レベル・パラメータを生成する装置と方法、及びマルチチャネル表示を生成する装置と方法
KR20160033734A (ko) 렌더러 제어 공간 업믹스
TWI794911B (zh) 用以編碼音訊信號或用以解碼經編碼音訊場景之設備、方法及電腦程式
US20230298602A1 (en) Apparatus and method for encoding a plurality of audio objects or apparatus and method for decoding using two or more relevant audio objects
AU2021359777A1 (en) Apparatus and method for encoding a plurality of audio objects using direction information during a downmixing or apparatus and method for decoding using an optimized covariance synthesis

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application
E601 Decision to refuse application
E801 Decision on dismissal of amendment