KR20160015245A - 오디오 신호를 인코딩하기 위한 방법, 오디오 신호를 인코딩하기 위한 장치, 오디오 신호를 디코딩하기 위한 방법 및 오디오 신호를 디코딩하기 위한 장치 - Google Patents

오디오 신호를 인코딩하기 위한 방법, 오디오 신호를 인코딩하기 위한 장치, 오디오 신호를 디코딩하기 위한 방법 및 오디오 신호를 디코딩하기 위한 장치 Download PDF

Info

Publication number
KR20160015245A
KR20160015245A KR1020157034651A KR20157034651A KR20160015245A KR 20160015245 A KR20160015245 A KR 20160015245A KR 1020157034651 A KR1020157034651 A KR 1020157034651A KR 20157034651 A KR20157034651 A KR 20157034651A KR 20160015245 A KR20160015245 A KR 20160015245A
Authority
KR
South Korea
Prior art keywords
hoa
surround sound
sound
signal
bitstream
Prior art date
Application number
KR1020157034651A
Other languages
English (en)
Other versions
KR102228994B1 (ko
Inventor
피터 잭스
알렉산더 크루거
Original Assignee
톰슨 라이센싱
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 톰슨 라이센싱 filed Critical 톰슨 라이센싱
Publication of KR20160015245A publication Critical patent/KR20160015245A/ko
Application granted granted Critical
Publication of KR102228994B1 publication Critical patent/KR102228994B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Stereophonic System (AREA)

Abstract

본 발명은 HOA 콘텐츠의 계층적 코딩을 위한 새로운 개념을 도입한다. 계층적 오디오 비트스트림을 인코딩하기 위한 방법은 HOA 입력 신호를 서라운드 사운드로 렌더링하는 단계, 서라운드 사운드를 베이스층 출력 신호에 대해 인코딩하는 단계, 인코딩된 서라운드 사운드를 디코딩하여 재구성된 서라운드 사운드 신호를 획득하는 단계, 수신된 HOA 입력 신호에 대한 차원수 축소를 수행하는 단계, 차원수-축소된 HOA 신호와 재구성된 서라운드 사운드 신호 사이의 잔여물을 계산하는 단계, 잔여 신호를 인코딩하는 단계, 및 HOA 입력 신호에 관한 구조 정보, 인코딩된 잔여물들 및 인코딩된 서라운드 사운드를 비트스트림으로 멀티플렉싱하여 계층적 오디오 비트스트림을 획득하는 단계를 포함한다.

Description

오디오 신호를 인코딩하기 위한 방법, 오디오 신호를 인코딩하기 위한 장치, 오디오 신호를 디코딩하기 위한 방법 및 오디오 신호를 디코딩하기 위한 장치{METHOD FOR ENCODING AUDIO SIGNALS, APPARATUS FOR ENCODING AUDIO SIGNALS, METHOD FOR DECODING AUDIO SIGNALS AND APPARATUS FOR DECODING AUDIO SIGNALS}
본 발명은 오디오 신호들을 인코딩하기 위한 방법, 오디오 신호들을 인코딩하기 위한 장치, 오디오 신호들을 디코딩하기 위한 방법 및 오디오 신호들을 디코딩하기 위한 장치에 관한 것이다.
HOA(Higher-Order Ambisonics) 콘텐츠의 압축은 과학 문헌(scientific literature)에서 깊이 탐구되지는 않았다. 따라서, 이 섹션은 HOA 콘텐츠의 자립적(self-contained) 압축을 위한 예시적인 최신 모놀리식(monolithic) 아키텍처를 소개할 것이다. 이러한 아키텍처가 중간-레벨(예를 들어, 256 kbit/s) 내지 고-레벨(예를 들어, 1.5 Mbit/s) 데이터 레이트에서 고분해능의 공간적 사운드 장면들의 고품질 코딩을 가능하게 한다는 점이 광범위한 테스트에 의해 검증되었다. 이 섹션에 제공된 배경 정보는 이 아키텍처에 대해 구축된 계층적 개념들을 이해하기 위해 필요하다.
도 1은 인코더 관점에서의 자립적 HOA 압축에 대한 개념을 예시한다. 도면에 제공된 숫자들 및 파라미터들이 예시적이라는 점에 유의한다. 예를 들어, 4차 HOA 콘텐츠(N=4)의 인코딩을 위한 코덱 아키텍처가 본원에 도시되어 있는데, 이는 풀 3D 표현을 위해 (N+1)2 = 25개의 등가 오디오 채널들을 요구한다. 동일한 개념이 N=1 이상에서 임의의 HOA 차수의 인코딩을 위해 사용될 수 있다. 마찬가지로, 차원수 축소(dimensionality reduction) 이후의 추출된 "오디오 채널들"의 수 8은 크기의 정도를 강조할 예시적인 수이지만, 이러한 수 8(평균적으로)은 차수 N=4의 HOA 콘텐츠를 인코딩할 때 적합한 것으로 발견되었다.
인코딩 프로세스는 2개 스테이지들로 분할되며, 이들은 어느 정도는 서로 독립적이다. 제1 스테이지(10)는 차원수 축소 스테이지이다. 그것은 입력 HOA 콘텐츠를 분석하여, 그것을 더 낮은 수의 우세한 사운드 컴포넌트(dominant sound component)들로 분해함으로써 신호 차원(signal dimension)을 축소시킨다. 결과적인 신호들이 사운드 오브젝트들, 특정 공간 방향들 또는 앰비언스(ambience)에 반드시 대응하지는 않기 때문에 다소 추상적인 용어 "사운드 컴포넌트들"이 사용되지만, 이들은 실제로 특수한 경우에서만 그렇게 할 수 있다.
정보 이론으로부터, 적어도 복합 오디오 장면들에 대해, 이 스테이지(10)의 출력에 제공된 정보가 입력 정보보다 조직상으로(systematically) 더 작다는 점이 알려져 있다. 차원수 축소 스테이지(10)는 (1) 입력 오디오 장면의 내재적인 리던던시를 가능한 많이 이용함으로써, 정보 손실이 최소화되고, (2) 무관성(irrelevancy)이 축소되고, 즉, 입력 콘텐츠에 비해 재구성된 오디오 장면의 인지적 차이가 최소화되도록 출력 신호가 여전히 충분한 정보를 전달하는 방식으로 동작한다. 이 스테이지(10)는 시변적 및 신호-적응형 신호 프로세싱을 사용한다. 파라미터화 뿐만 아니라 신호 특성들에 따라, 그것의 출력 신호들의 수 역시, 적응적일 수 있다.
제2 인코딩 스테이지(11)는 모노럴 오디오 신호들에 대한 몇몇(이 경우 8개) 병렬 인지 인코더들의 뱅크를 포함한다. 이러한 인코더들은 개별 우세한 사운드 컴포넌트들을 인코딩하고, 1990년대 이래로 적절하게 설정된 시간-주파수 코딩의 원리들을 사용하여 동작한다. 예를 들어, MPEG-4 어드밴스드 오디오 코딩(AAC; Advanced Audio Coding) 인코더들의 뱅크는 제2 인코딩 스테이지(11)에서 이용될 수 있다. 인코더 구현예들은, 전역적 코더 제어 블록을 인에이블시켜서 평균 비트 레이트, 윈도우 스위칭 거동(window switching behavior), 비트 저장소(reservoir)의 크기, 스펙트럼 대역 복제의 거동(behavior of spectral band replication) 등과 같은 이러한 코어 코덱들의 특정 파라미터들에 영향을 주기 위해 약간 수정될 필요가 있다. 이러한 아키텍처는, 그것이, 가능한 최대 범위로 기존의 코덱 구현예들 및 대응하는 최적화들의 재사용을 용이하게 함으로써 HOA 코덱을 구현하기 위해 요구되는 설계 노력을 최소화하기 때문에 선택되었다.
전체 인코더의 동작은 코더 제어 스테이지(12)에 의해 제어된다. 여기서, 다른 신호 프로세싱 스테이지들을 구동하고 제어하기 위해 요구되는 파라미터들을 결정하는 인지적 오디오 장면 분석이 수행된다. 특히, 이러한 제어 경우(instance)는 데이터 데이터 레이트 리소스들의 전역적 최적화를 담당하며, 그것은 강력한 전반적 레이트-왜곡 성능을 달성하기 위해 중요하다. 마지막으로, 제2 인코딩 스테이지(11)의 결과적인 비트스트림들 및 코더 제어 스테이지(12)로부터의 보조 정보는 단일 출력 비트스트림으로 멀티플렉싱된다(13).
다른/서라운드 사운드 포맷들과의 적어도 기본적인 호환성을 허용하는 방식으로 HOA 콘텐츠를 인코딩하는 것이 바람직할 것이다. 도 1에 도시된 아키텍처의 한 가지 문제점은 그것이 HOA 포맷된 신호들에 대해서만 적용가능하다는 점이다. 본 발명은 HOA 콘텐츠의 계층적 코딩을 위한 새로운 개념, 방법 및 장치를 소개하는데, 이는 서라운드 사운드 포맷과 역호환가능한(backward compatible) 비트스트림을 초래한다.
특히, 본 발명은 다른 기존의 서라운드 사운드 디코더들과 역호환가능한 계층적 비트스트림으로 고분해능 공간 오디오 콘텐츠를 인코딩하기 위한 해법들을 개시한다. 결과적인 비트스트림은 종래의 서라운드 사운드 디코더들이 이용되는 경우 종래의 서라운드 사운드로 디코딩되는 반면, 본 발명의 일 실시예에 따른 새로운, 향상된 디코더가 바로 그 동일한 비트스트림을 풀 3D 오디오로(즉, 서라운드 사운드 초과로) 디코딩할 수 있다. 원리상, 비트스트림은 베이스 계층(base layer) 및 향상 계층(enhancement layer)을 포함한다. 인코딩 및 디코딩 모두 동안, 서라운드 사운드 표현으로부터의 정보는 향상 계층의 고품질 오디오 신호를 인코딩/디코딩하기 위해 이용된다.
계층적 오디오 비트스트림을 디코딩하기 위한 방법은 청구항 1에 개시되어 있다. 계층적 오디오 비트스트림을 인코딩하기 위한 방법은 청구항 2에 개시되어 있다. 계층적 오디오 비트스트림을 디코딩하기 위한 장치는 청구항 3에 개시되어 있고, 계층적 오디오 비트스트림을 인코딩하기 위한 장치는 청구항 5에 개시되어 있다.
일 실시예에서, 본 발명은, 컴퓨터 상에서 실행될 때, 컴퓨터가 청구항 1에 따른 디코딩 방법을 수행하게 하는 실행가능한 명령들이 저장된 컴퓨터 판독가능한 저장 매체에 관한 것이다. 일 실시예에서, 본 발명은, 컴퓨터 상에서 실행될 때, 컴퓨터가 청구항 2에 따른 디코딩 방법을 수행하게 하는 실행가능한 명령들이 저장된 컴퓨터 판독가능한 저장 매체에 관한 것이다.
일 실시예에서, 본 발명은 프로세서 및 메모리를 포함하는 디바이스에 관한 것이고, 메모리는 프로세서 상에서 실행될 때, 프로세서가 청구항 1에 따른 디코딩 방법을 수행하게 하는 실행가능한 명령들을 저장한다. 일 실시예에서, 본 발명은 프로세서 및 메모리를 포함하는 디바이스에 관한 것이며, 메모리는 프로세서 상에서 실행될 때, 프로세서가 청구항 2에 따른 디코딩 방법을 수행하게 하는 실행가능한 명령들을 저장한다.
일 실시예에서, 계층적 오디오 비트스트림을 디코딩하기 위한 방법은 계층적 오디오 비트스트림을 디멀티플렉싱하여 임베디드 서라운드 사운드 비트스트림 및 제2 계층 HOA 비트스트림을 획득하는 단계 ― 제2 계층 HOA 비트스트림은 제1 및 제2 보조 정보 및 인코딩된 잔여 신호들을 포함함 ―, 임베디드 서라운드 사운드 비트스트림을 디코딩하여 디코딩된 서라운드 사운드 비트스트림을 획득하는 단계, 및 제2 계층 비트스트림을 디코딩하는 단계를 포함한다. 제2 계층 비트스트림을 디코딩할 시에, 재구성된 HOA 신호는, 디코딩된 서라운드 사운드 비트스트림 및 제1 보조 정보를 사용하여 사운드 컴포넌트들을 예측하고, 예측된 사운드 컴포넌트들을 디코딩된 잔여 신호들과 중첩시켜 재구성된 사운드 컴포넌트들을 획득하고, 재구성된 사운드 컴포넌트들 및 제2 보조 정보를 개조(recomposing)함으로써 HOA 콘텐츠를 재구성함으로써 획득된다.
본 발명의 장점은, 서라운드 사운드 포맷들을 포함하는 다른 포맷들과의 적어도 기본 호환성을 허용하는 방식으로 HOA 콘텐츠를 인코딩하는 것을 허용한다는 점이다.
본 발명에 따른 계층적 코덱의 전체 구현예가 코어 코덱들의 뱅크에 대한 임의의 이용가능한 수정가능한 인코더 및 디코더 블록들에 의존할 것이며, 하기에 기술된 것과는 상이한 코어 코덱들을 사용할 수 있다는 점이 주목되어야 한다.
본 발명의 유리한 실시예들은 종속 청구항들, 후속하는 기재 및 도면들에 개시되어 있다.
발명의 예시적인 실시예들이 첨부 도면들을 참조하여 기술된다.
도 1은 HOA 압축에 대한 공지된 인코더 아키텍처의 구조이다.
도 2는 임베디드 서라운드 사운드 코덱 비트스트림을 이용한 계층적 HOA 인코딩에 대한 예시적인 아키텍처이다.
도 3은 예측 및 잔여물(residuum) 코딩을 이용한 계층적 HOA 인코딩이다.
도 4는 인지 코어 코덱의 심리-음향 제어(psycho-acoustics control)의 수정이다.
도 5는 예시적인 HOA 신호("호박벌")에 대한 예측 이득의 시간-종속적 거동이다.
도 6은 상이한 종류들의 HOA 콘텐츠에 대한 전역적 예측 이득들(global prediction gains)의 히스토그램이다.
도 7은 서라운드 사운드 데이터가 이미 이용가능한 계층적 HOA 인코딩의 예시적인 아키텍처이다.
도 8은 계층적 HOA 디코딩에 대한 예시적인 디코더 아키텍처이다.
도 9는 인코딩을 위한 방법의 흐름도이다.
도 10은 디코딩을 위한 방법의 흐름도이다.
본 발명은 HOA(Higher Order Ambisonics) 콘텐츠에 대한 임베디드 코딩 방식 접근법을 제공한다. 이러한 방식에 대한 매우 매력적인 응용예는 기존의 서라운드 사운드 디코더들과 역호환가능한 비트스트림을 이용한 고분해능 공간적 오디오 콘텐츠의 분배/방송이다. 이러한 종류의 비트스트림은 기존의 서라운드 사운드 디코더들이 이용되는 경우 종래의 서라운드 사운드로 디코딩되는 반면, 새로운, 향상된 디코더가 바로 그 동일한 비트스트림으로부터 풀 3D 오디오를 디코딩할 수 있다. 이에 의해, 일반적으로, 새로운 모놀리식(또는 자립적) 콘텐츠 포맷들 및 대응하는 디코더 구현예들의 대규모(large-scale) 배치를 현저하게 줄이는 "닭이 먼저냐 달걀이 먼저냐의 문제(chicken-egg problem)"가 회피될 수 있다. 콘텐츠 제공자들은 유리하게는 필드에, 즉, 잠재적 소비자들에 설치된 다수의 디코더들에 의한 기본 지원을 여전히 즐기는 새로운 품질의 콘텐츠를 분배하기 시작할 수 있다.
전술된 응용예는 계층적 코딩 기술들에 의해 효과적으로 다루어지는데, 즉, 임베디드 서라운드 사운드 비트스트림은, 일반적으로 자립적이지만, 또한 풀 3D 오디오 장면에 대해 요구되는 "가외 정보"를 반송하는 비트스트림 컨테이너로서의 역할을 한다. 이러한 제약들 하의 풀 오디오 장면의 고효율 압축을 위한 열쇠는, 주어진 품질 레벨에서 풀 3D 오디오 장면을 전송하기 위해 요구되는 총(gross) 비트 레이트를 최소화하기 위해, 기존의 서라운드 사운드 표현으로부터 최대량의 정보가 이용된다는 것이다.
본 발명은, 이러한 압축 기술이 어떻게 작용하는지에 대한 개념들 및 평가들을 소개하며, HOA 콘텐츠의 압축에 특히 초점을 맞춘다. HOA 표현들은 비용-효율적 생산 워크플로우가 요구되는 응용예들에서 특히 매력적이다. 또한, 그것의 내재적인 확장성(scalability) 및 레코딩 또는 라우드스피커 구성으로부터의 독립성을 가지는 HOA 기술은 가정으로의 매우 효율적인 전달 및 소비자의 가정에 존재할 수 있는 모든 종류의 실생활 라우드스피커 구성들로 유연하게 렌더링하는 것에 대한 문을 열었다.
구체적인 예로서, 비트스트림의 오디오 부분에 대한 총 비트 레이트가 128 kbit/s(스테레오) 내지 384 kbit/s(서라운드) 정도의 크기인 TV 방송을 고려할 수 있다. 이러한 비트 레이트들은, 복잡한 공간적 오디오 장면, 예를 들어, 4차 HOA 콘텐츠가 압축되어 전송될 경우 이미 도전과제이다(challenging). 이들은, 가상으로 동일한 총 데이터 레이트가 서라운드 버전 더하기 전체 공간적 오디오 장면을 괜찮은(decent) 품질로 전송하기 위해 사용될 경우, 자연적으로 훨씬 더 어렵다. 발명은 이러한 도전과제를 해결하기 위해 적용가능한 개념들을 소개한다.
위에 간략하게 소개된 자립적 HOA 압축을 위한 예시적인 최신 방식은 본 발명의 새로운 계층적 개념들의 이해를 위해 장면을 설정한다.
본 기재는, 효율적인 압축 및 렌더링을 위해 그것의 적합성에 관련한 이러한 콘텐츠의 유리한 특성들로 인해, HOA 포맷으로 원래 레코딩된 콘텐츠("원래 HOA 콘텐츠")에 초점을 둔다. 그럼에도, 하기에 기술된 것과 매우 유사한 계층적 압축 기법들은 또한, 원래 3D 오디오 장면 표현이 채널-지향적 및/또는 오브젝트-지향적 패러다임들을 사용하는 응용예들에 대해서도 적용될 수 있다.
하기에서, HOA 콘텐츠의 계층적 코딩을 위한 개념이 기재된다. 선택적으로, 원래 사운드 오브젝트들이 추가로 입력될 수 있다.
제안된 임베디드 코딩 원리들의 예시가 도 2에 도시되어 있다. 인코더는 2개의 병렬 신호 경로들을 사용하는데, 즉, 하나는 인입 HOA 신호로부터 서라운드 신호의 생성 및 인코딩을 위한 것이고, 다른 하나는 HOA 콘텐츠의 조건부 코딩을 위한 것이다. 하부 신호 경로에서, 인입 HOA 신호는 임베디드 서라운드 코더(21)의 라우드스피커 포맷으로 렌더링된다(20). 이러한 렌더링은 매우 유연한 방식으로 구현되고 제어될 수 있다. 예를 들어, 인입 HOA 콘텐츠로부터 완전히 자동적인 렌더링이 수행될 수 있거나, 또는 사운드 믹서들이 예술적 렌더링을 생성할 수 있다. 렌더링은 시불변적 또는 시변적일 수 있다. 원리상, 서라운드 신호들은 또한 HOA 콘텐츠의 원래 믹싱을 위해 사용된 것과는 완전히 상이한 믹싱 워크플로우에 의해 생성될 수 있다. 그러나, 일반적으로, 계층적 압축 방식은, 2개의 신호 표현들 사이의 적어도 일부 상관 레벨이 이용가능하고 조건부 코딩 블록(22)에 의해 이용될 수 있는 경우 단지 서라운드 사운드 비트스트림 더하기 HOA 비트스트림의 사이멀캐스트(simulcast) 전송 대 임의의 레이트-왜곡 이점을 획득할 수 있다. 이는 일반적인 경우이며, 서라운드 사운드 비트스트림이 입력 HOA 비트스트림으로부터 획득되는 경우 자명하다(self-evident).
서라운드 사운드 코더(21)가 임베디드 비트스트림에 대해 사용하는 서라운드 사운드 라우드스피커 포맷은 임의의 기존(또는 새로운 향후의) 서라운드 포맷, 예를 들어, 전통적인 5.1 서라운드, 또는 "적절한" 스피커 구성을 가지는 임의의 취향의 서라운드 사운드(예를 들어, 상이한 각도를 가지는, 예를 들어, 수정된 5.1 서라운드 사운드 포맷, 또는 임의의 7.1 포맷 등)를 따를 수 있다. 일반적으로, 더욱 독립적인 사운드 컴포넌트들이 임베디드 서라운드 신호에 포함되며, 하기에 소개되는 조건부 코딩 블록(22)으로부터 더 많은 효율성이 획득될 것이라는 점이 예상될 수 있다. 타당성 조사(feasibility study)에서, 전통적인 5-채널 서라운드 구성(좌, 중심, 우, 좌서라운드, 우서라운드의 채널들을 가짐)이 사용되었다.
인코딩된 서라운드 채널들이 완전히 또는 부분적으로 디코딩되어, 이들은 HOA 콘텐츠의 조건부 인코딩을 위한 보조 정보로서의 역할을 할 수 있다. 간략함을 위해, 이러한 서라운드 채널 디코딩은 도 2에 명시적으로 도시되어 있지는 않다(그러나 하기 도 3에 도시된다). 조건부 코딩(22)은 HOA 콘텐츠의 압축을 더욱 효율적으로 하기 위해 서라운드 채널들과 HOA 콘텐츠 사이에 가능한 많은 상관을 식별하고 이용한다. 특정 도전과제들 및 이들이 해결될 수 있는 방법에 관한 추가적인 상세항목들이 하기에 기술될 것이다.
조건부 코딩 블록(22)에 의해 제공된 인코딩된 서라운드 채널들 및 제2 계층(향상 계층) 비트스트림이 멀티플렉싱되고(23), 최종 출력 비트스트림(23q)은 확장가능한 구성(scalable configuration)에서 2개의 인코딩 블록들(21, 22)로부터의 멀티플렉싱된 서브-비트스트림들을 포함한다. 그 중심에 임베디드 서라운드 사운드 코더(21)의 비트스트림이 있다. 비트스트림의 이 부분은 역호환가능한 방식으로 패키지화되고, 따라서, 서라운드 코덱 포맷에 따르는 필드에서의 임의의 기존 디코더가 비트스트림의 이 부분을 이해하고 디코딩할 수 있는 한편, HOA 코덱의 가외의 비트스트림을 무시할 것이다. 추가로, 출력 비트스트림(23q)은 조건부 HOA 인코더(22)에 의해 생성된 비트스트림을 포함한다. 실제(truly) 계층적 설정에서, 비트스트림의 이 부분은, 전체 비트스트림/코덱 포맷을 인지하고 있는, 본 발명에 따른 디코더 구현예들에 의해서만 디코딩가능하다.
위에 언급된 확장가능한 (단일-)비트스트림 해상도에 대한 전제조건은, 향상될 서라운드 코덱 비트스트림의 포맷 사양이 기존의 서라운드 디코더들에 의해 무시될 새로운 서브 비트스트림들을 추가하기 위해 개방된다는 점이다. 즉, 발명은 이러한 추가를 허용하는 서라운드 사운드 포맷들에 대해 적용가능하다. 일반적인 5.1 서라운드 사운드 또는 7.1 서라운드 사운드와 같은 대부분의 서라운드 포맷들이 이 조건을 이행한다.
도 3은 임베디드 서라운드 신호들로부터 유도될 수 있는 정보를 사용하여 HOA 신호들의 인코딩에 대한 조건부 코딩 방식의 일 실시예의 간략화된 블록도를 도시한다. 도 1에 도시된 독립형 HOA 인코더에 비해 가장 명백한 수정은, 서라운드 사운드 디코더(37)가 경로들 사이에 추가되며, 잔여 신호들의 예측 및 계산을 위한 새로운 서브-시스템(35)이 차원수 축소 블록(34)과 코어 코덱들의 후속적인 뱅크(모노럴 코어 인코더들)(36) 사이에 추가된다는 점이다. 이러한 서브시스템은, 이러한 간략화된 견지에서, 중요한 성능 이득들을 획득하기 위한 열쇠이다.
원리상, 잔여 신호들의 예측 및 계산을 위한 새로운 서브-시스템(35)은 차원수 축소 블록(34)에 의해 생성된 우세한 사운드 컴포넌트들을 예측하기 위해 임베디드 서라운드 신호들로부터 정보를 사용하는 예측기로서 작용한다. 원래 우세한 사운드 컴포넌트들과 예측된 신호들 사이의 차이 신호들(이하에서 소위, "잔여물들" 또는 "잔여 신호들")은 이후 병렬 코어 인코더들의 뱅크(36)에 포워딩된다. 이들은 잔여 신호들을 서라운드 포맷, 예를 들어, 돌비 디지털 또는 5.1 서라운드 사운드로 인코딩한다. 임의의 종류의 선형 또는 비선형 예측이 이용될 수 있고, 이에 의해 알고리즘 복잡성과 신호 품질 간의 유연한 절충을 허용한다. 예측이 더 양호하게 작용하는 경우, 잔여 신호들이 더 적은 신호 에너지를 가질 것이고, 주어진 품질 레벨에서 괜찮은 압축을 위해 더 적은 데이터 레이트를 요구할 것이라는 점이 예상될 수 있다. 전술된 바와 같이, 우세한 사운드 컴포넌트들이 반드시 사운드 오브젝트들, 특정 공간 방향들 또는 앰비언스에 대응하지는 않는다.
위에서 소개된 단순한 예측의 원리는, 서라운드 신호들의 특성들에 대한 보조 정보가 또한 코어 인코더들의 뱅크(36) 내의 조건부 코딩을 통해 (추가로 또는 배타적으로) 이용될 수 있기 때문에 간략화되며, 이러한 보조 정보는 전역적 코더 제어뿐만 아니라 비트 할당을 위한 개별 코어 코덱들에서 사용되어야 한다. 위에 보여진 예측-전용 방식은, 그것이 코어 인코더들의 최소 수정만을 요구한다는 이점을 가진다.
전술된 예측 더하기 잔여물 코딩 원리에서, 주의해야 할 몇몇 기본 도전과제들이 존재한다.
먼저, 서라운드 사운드 채널들의 차원수는 통상적으로 HOA 콘텐츠의 차원수보다 더 작다. 따라서, 정보 이론 관점에서, 예를 들어, 순수하게 합성적으로 믹스된 콘텐츠에 대해, 두 표현들 모두의 내재적 크기가 제한되지 않는 한, 서라운드 채널들로부터 우세한 사운드 컴포넌트들의 완벽한 예측이 실현가능하다는 것이 나타나지 않을 수도 있다. 실제로 획득가능한 예측 이득들의 양은 2가지의 통상적인 콘텐츠의 시퀀스들에 대해 하기에서 평가될 것이다.
둘째, 서라운드 사운드 코덱(31, 37)은 따라서, HOA 콘텐츠의 예측을 위한 예측 블록(35)에 입력되는 보조 정보의 구성물인 코딩 잡음을 유입시킨다. 그러나, 서라운드 채널들에 비해, 코딩 잡음은 유용한 신호와 상관없을 뿐만 아니라 서라운드 채널들 사이에 있을 것이라고 가정될 수 있다. 따라서, 코딩 잡음이 잔여 신호들에서 추가될 수 있지만, 잔여물의 총 레벨은 원래 HOA 콘텐츠의 총 레벨과 동일하거나 더 낮을 것이다. 이에 의해, 잔여물의 SNR은 서라운드 사운드 코덱의 코딩 잡음으로 상당히 악화될 수 있을 것이다(suffer from).
예로서, 종래의 인지 오디오 코딩의 통상적인 SNR이 10-20 dB 범위 내에 있으며, 스펙트럼 대역 복제(SBR; spectral band replication)와 같은 파라미터 코딩 방식들이 적용되는 경우 훨씬 더 나쁘다고 가정한다. 위에 설명된 잡음 추가 메커니즘에 따르면, 잔여 신호들의 SNR은 전술된 범위보다 훨씬 더 낮을 수 있다. 결과적으로, 잔여 코더들이 유용한 신호들에 대해서보다는 서라운드 계층의 코딩 잡음을 인코딩하기 위해 데이터 레이트를 낭비한다는 상당한 위험성이 존재한다.
셋째, 잔여 신호들의 인지 압축에 있어서, 인코딩된 신호들과 마스킹 신호들 사이의 부정합이 고려되어야 한다. 잔여 신호들이 차원수 축소에 의해 제공되는 원래 사운드 컴포넌트들보다 더 낮은 신호 레벨들을 가질 수 있지만, 이러한 사운드 컴포넌트들은 여전히 마스킹 임계들의 심리-음향적 모델링에 대한 입력으로서 취해져야 한다. 이러한 아키텍처의 원리가 하기에 추가로 설명되는 바와 같이, 도 4에 도시되어 있다.
또한, 2가지 종류의 양자화 잡음 ― 하나는 전술된 바와 같이 임베디드 서라운드 코덱(31, 37)에 의해 생성되고, 다른 것은 잔여 인코더들의 실제 뱅크 내의 코딩 동작들의 결과임 ― 은 코어 코덱들의 뱅크(36)에 의해 최적화되어야 한다. 따라서, 위에 소개된 계층적 개념은, 코어 코덱들이 동일한 인지 오디오 코딩 알고리즘의 수정된 응용예 대 독립형 응용예임을 요구한다.
하기에 언급되는 타당성 조사는, 예측 단계를 적응시키기 위한 최적화 기준인 잔여 신호들의 프레임-방식 에너지 레벨(frame-wise energy level)의 최소화를 통해 획득된 결과들을 보여준다. 이는, 데이터 레이트가 충분히 높고 전력 분포가 상이한 주파수 범위들에 대해 실질적으로 동일한 경우, 제대로 작용하는 다소 간단한(straight-forward) 최적화 기준이다. 특정 응용예들에서 더욱 양호할 수 있는 대안적인 최적화 전략들은 주파수 또는 변환 도메인에서 형성된 차동 또는 인지 엔트로피 메트릭들의 최소화를 포함하며, 어느 메트릭이 가장 양호하게 작용하는지는 통합된 코어 코덱들의 아키텍처에 크게 의존한다.
도 4는 인지 코어 코덱의 심리-음향적 제어의 수정을 도시한다. 잔여 신호들은 차원수 축소에 의해 제공되는 원래 사운드 컴포넌트들보다 더 낮은 신호 레벨들을 가질 수 있지만, 여전히 사운드 컴포넌트들은 마스킹 임계들의 심리-음향적 모델링에 대한 입력으로서 취해져야 한다. 따라서, 각각의 우세한 사운드 컴포넌트에 대한 개별 인지 마스킹 임계가 계산되고(41), 잔여 신호의 인지 코딩(42)에서 사용된다. 이러한 방식은, 인지 코딩에서 잔여 신호들의 에너지 감소를 사용하기 위해 코어 인코더들의 뱅크(36)의 모든 인코더 엔티티들 내에서 수행되어야 한다.
자연적으로, 예측 방식은 프레임 기반으로 적응될 수 있지만, 또한 주파수-종속적 방식들이 잔여 신호들의 인지 오디오 코딩에 대한 예측의 영향을 최적화하기 위해 사용될 수 있다. 이러한 주파수-종속적 방식은 상이한 주파수 대역들에 대해 상이한 메트릭들을 가지는 프레임-방식 행렬 동작들을 (시간 도메인에서) 사용하는 방식이다. 이러한 방식으로, 한 측에서의 (디코더에서의 예측 제어를 위한) 보조 정보의 양과 알고리즘 복잡성 사이의 절충 및 다른 측에서의 품질 레벨이 조정될 수 있다.
보조 정보에 관련하여, 다음이 고려될 것이다.
예측 개념을 통해 직접 획득될 수 있는 잠재적 비트 레이트 절감 이외에도, 예측 블록의 파라미터들은 비트스트림 내에서 보조 정보로서 전송되어야 하고, 따라서 디코더는 압축되지 않은 사운드 컴포넌트들의 복원을 위한 동일한 예측 단계들을 수행할 수 있다. 요구되는 데이터 레이트의 최악의 경우의 평가는 다음과 같다:
도 3에 도시된 예시적인 계층적 HOA 코딩 시스템에 대해, 예측 시스템은 예측을 수행하기 위해 예를 들어, 5x8 계수들의 행렬을 사용할 수 있다. 행렬의 계수들은 48 kHz의 샘플 레이트로 1024개 샘플들의 모든 프레임에 대해 업데이트되는데, 즉, 초당 전체 개수 5 * 8 * 50 = 2000개 파라미터들이 인코딩되어 전송되어야 한다. 파라미터 당 8비트를 가지는 양자화를 가정하는 경우, 결과적인 보조 정보 데이터 레이트는 약 16 kbit/s일 것이다.
임베디드 서라운드 사운드 비트스트림을 가지는 계층적 HOA 코딩의 전술된 개념의 실현가능성은 일련의 실험들을 수행함으로써 검증되었다. 다음에서, 기반 제약들 및 가정들이 개요화되며, 주요 결과들이 몇몇 대표적인 예들을 통해 강조된다. 이러한 목적으로, 도 3에 도시된 인코딩 시스템의 코어 블록들이 구현되고 그리고/또는 시뮬레이트된다. 인입 HOA 콘텐츠를 5-채널 서라운드 사운드(좌, 중심, 우, 좌서라운드, 우서라운드)로 렌더링하기 위해, 또한 HOA 콘텐츠를 라우드스피커들로 직접 렌더링하기 위해 사용되는 고정된 렌더링 행렬이 이용되었다.
서라운드 사운드의 인코딩 및 디코딩의 영향이 10 dB의 평균 신호-대-잡음비(SNR)에 대한 상관없는 잡음의 추가를 통해 시뮬레이트되었다. 따라서, 시뮬레이트된 "코딩 잡음"은 원래 서라운드 사운드 채널들의 주파수 컴포넌트들에 따라 적응된 선형 예측 필터를 이용하여 필터링된다. 결과적으로, 코딩 잡음의 주파수 분포는 개략적으로 서라운드 신호들의 전력 스렉트럼을 따르지만, 특정된 SNR에 따른 더 낮은 전력 레벨을 가진다.
예측 방식에 대해, 공지된 신호들(서라운드 채널들)과 미공지된 신호들(우세한 사운드 컴포넌트들) 사이의 조인트 벡터의 공분산 행렬로부터 획득될 수 있는 선형 블록 예측이 사용된다. 이러한 적응은 상대적으로 간단하며, 평균-제곱 예측 에러의 최소화를 위해 조정된다. 적응은 48 kHz의 샘플 레이트에서 1024개 샘플의 프레임 선행을 가지고(with a frame advance of 1024 samples) 프레임별(frame-by-frame) 수행된다.
객관적 평가 메트릭으로서, 데시벨로 표현된 컴포넌트-방식 예측 이득이 특정되었다. 이러한 메트릭은, 그것이 ― 그러나 높은 데이터 레이트들을 가지는 응용예들에 대해서만(하기 참조) ― 공지된 6 dB/bit 경험 법칙(rule of thumb)을 통해 대응하는 레이트-왜곡 개선들을 암시할 수 있다는 이점을 가지는데, 즉, 예를 들어, 사운드 컴포넌트 당 6 dB의 예측 이득에서, 주어진 품질로 그 컴포넌트에 대한 잔여물을 전송하기 위해 요구되는 데이터 레이트가 원래 사운드 컴포넌트의 전송에 대해서보다 1 비트/샘플 더 낮다는 것이 예상될 수 있다. 이러한 규칙은 (예시적으로) 8개의 수반된 사운드 컴포넌트들 모두에 대해 획득된 평균 예측 이득에 기초하여 본 경우로 변환(translate)될 수 있는데, 즉, 1 dB의 각각의 예측 이득 개선은 대략 64 kbit/s까지의 이론적 데이터 레이트 절감을 획득한다.
결과들은 대표적 시퀀스들의 세트에 기초한 몬테 카를로(Monte Carlo) 방식을 통해 결정된다. 예측 이득들은, 상이한 개수의 사운드 오브젝트들과의 합성 믹스들 뿐만 아니라 다양한 사후 프로세싱 워크플로우와 함께 EigenMike와 같은 마이크로폰 어레이들을 이용하여 수행된 다양한 레코딩들을 포함한, 몇몇 통상적인 종류의 HOA 신호들에 대해 결정된다.
위의 가정들이 적합하지만, 이들이 실제로 특정 정도에 대해서만 적용될 수 있다는 점에 유의한다. 실제 구현예들에서 위의 가정들이 만족될 가능성은 서라운드 사운드 코덱 및 모노럴 코어 코덱들 모두의 특성들에 강하게 의존한다. 특정 응용예에 대한 더욱 정확한 평가는 수반되는 실제 코덱들을 이용하여 수행될 수 있다.
HOA 시퀀스 "호박벌"에 대한 예시적인 평가 결과들이 도 5에 도시되어 있는데, 이는 예시적인 HOA 신호("호박벌")에 대한 예측 이득의 시간-종속적 거동을 보여준다. 상위 도면은 각각의 프레임(수평축)에 대해 획득된 평균 예측 이득(gmed), 최소 예측 이득(gmin) 및 최대 예측 이득(gmax)에 대응하는 3개 곡선들을 도시한다. 하위 도면은 각각의 프레임(수평축)에 대한 8개의 우세한 사운드 오브젝트들 각각(각각은 수직 축 상의 하나의 행에 대응함)에 대한 프레임-종속적 예측 이득을 도시하며; 작은 이득(0 dB)은 어둡고(즉, 파란색) 강한 이득(20dB)은 붉은색이다. 마킹된 영역들(50a,50b,50c,50d,50e)은 주로 붉은색인데, 즉, 강한 이득을 도시하는 반면, 어두운(파란색) 부분들은 작은 이득들을 가진다. 다른 영역들에서, 중간 이득 값들이 우세하다.
이러한 결과들로부터, 예측 이득이 강력하게 시변적이며(그러나 항상 양임), 그것이 코딩될 콘텐츠 및/또는 우세한 사운드 컴포넌트의 타입에 의존한다는 점이 명백하다. 후자의 발견은 도 5의 하부 도면 내의 상이한 우세한 사운드 컴포넌트들에 대해 관측될 수 있는 예측의 완전히 상이한 거동에 반영된다.
풀 "호박벌" 시퀀스에 걸쳐 계산된 전반적인 평균 예측 이득은 9.22dB이다. 흥미롭게도, 9.22dB의 절댓값은 임베디드 서라운드 사운드 코덱에 대해 가정된 10dB의 SNR에 가깝다.
몇몇 HOA 신호들에 대한 예측 이득들의 통계적 평가가 도 6에 수집되어 있다. 7개의 테스트 시퀀스들 각각에 대해, 획득된 예측 이득의 히스토그램은 0.5dB의 단계들로 도시되어 있다. 이러한 평가는 상이한 타입들의 콘텐츠에 대해 예측 이득의 상이한 특성들을 강조한다. 예를 들어, 매우 흥미로운 콘텐츠 부분은 예측 이득들의 3-모드 히스토그램을 보이는 시퀀스 "스타디움 2"인데, 즉, 가상적으로 이득이 전혀 획득될 수 없는 많은 프레임들 및/또는 우세한 사운드 컴포넌트들이 존재하는 반면, 대략 3.5dB 및 11.5dB의 평균 값들을 가지는 2개의 다른 모드들이 존재한다. 이러한 히스토그램은 이러한 시퀀스에 대해 사용되는 특정 레코딩 및 사후 프로세싱 기술의 결과인데, 즉, 그것은 스포츠 경기장에서 레코딩되었으며 매우 분산되어 있는데, 즉, 그것은 많은 상관되지 않은 사운드 소스들을 가진다.
타당성 조사의 결과들은 다양한 종류의 신호들(마이크로폰 어레이 레코딩, 합성 믹스 및 하이브리드 신호들)에 대해 관측된 5-9dB의 일정한 예측 이득을 나타낸다. 단일 신호 프레임들의 예측 이득이 서라운드 사운드 코덱에 대해 시뮬레이트된 SNR보다 더 양호할 수 있지만, 평균 값들 중 어느 것도 10dB의 값을 넘지 않는다. 명백하게는, 서라운드 사운드 코덱의 SNR은 달성될 수 있는 최대 예측 이득에 대해 제약을 부과한다. 이러한 발견은 서라운드 사운드 코덱의 시뮬레이트된 SNR이 유사한 관측들에 따라 달라지는 실험들에 의해 지원된다.
평균 예측 이득 이외에도, 평가 결과들로부터, 예측 이득이 매우 시변적이며, 예측의 통계치들이 테스트 중인 신호의 종류에 크게 의존한다는 점이 명백해진다. 실제 응용예들에서, 강력한 비트 저장 기술(powerful bit reservoir technology)뿐만 아니라 스마트한 전역적 비트레이트 제어(smart global bit rate control)가 강한 시변성을 다루는 것을 보조할 수 있을 것이다. 용어 비트 저장 기술은, 인코딩될 신호에 따라, 시간 경과에 따라 이용가능한 비트를 분배하는 기술을 의미하며; 이는 신호의 향후 부분에 대한 비트를 계속 보존할 것을 요구한다.
높은-레이트 가정들 하에서(즉, 높은 비트-레이트가 이용가능하며, 따라서 위에 언급된 6dB 가정이 유효하다고 가정하면), 그리고 위에서 동기부여된 경험 법칙(예측 이득의 dB 당 64kbit/s의 비트 레이트 절감)을 이용하여, 예측 이득들의 식별된 레벨은 예측 없는 사이멀캐스트 전송에 비해 320-576 kbit/s까지의 절감으로 변환할 것이다. 이러한 결과는 적어도 거의 손실없는 압축 애플리케이션들에 대해 의미있는데, 왜냐하면, 이후 높은-레이트 가정들을 큰 범위에 대해 유지하기 때문이다. 모든 HOA 계수들의 손실없는 압축의 평가에 대해, 상이한 연구가 수행되어야 한다는 점에 유의하는데, 왜냐하면, 이 경우 "차원수 축소" 단계가 요구되지 않을 것이기 때문이다.
낮은-레이트 오디오 압축은 높은-레이트 압축과는 상이하게 거동하며, 이러한 요건들 하에서, 동일한 양의 비트 레이트 절감이 위에서 식별된 바와 같이 실현되지 않을 수도 있다. 이러한 낮은-레이트 시스템은 더욱 정확한 평가를 위해 구축될 수 있다. 이러한 낮은-비트-레이트 평가를 위해, 코어 코덱들의 뱅크에 몇몇 수정들을 포함시키는 것이 특히 중요하다.
그럼에도, 위의 결과는, 계층적 코딩이 서라운드 사운드 및 HOA 콘텐츠의 사이멀캐스트 전송에 비해 큰 이점들을 가진다고 가정하는 것이 적절함을 보여준다. 위에 언급된 예측 이득들 및 연관된 잠재적 데이터 레이트 감소는 총 비트 레이트가 대략 500 kbit/s의 중간 범위 내에 있는 응용예들에 대해 특히 중요한 것으로 보인다. 이러한 응용예들에서, 잠재적 데이터 레이트 절감의 양이 많이 문제가 되지만, 여전히 매우 낮은 비트 레이트 응용예들보다 높은-레이트 가정들에 더 가깝다.
도 7은 서라운드 사운드 데이터가 이미 이용가능한 계층적 HOA 인코딩의 예시적인 아키텍처를 도시한다. 따라서, HOA 신호로부터 서라운드 데이터를 유도하는 것이 가능하지도, 요구되지도 않는다. 대신, 예술적 프로세싱(71)이 이용가능한 서라운드 사운드 데이터에 대해 수행될 수 있는데, 예를 들어, 추가적인 음성들, 환경적 사운드, 청중 박수 소리 등이 추가될 수 있다. 업믹스(72, 73)는 그것의 HOA 표현을 획득하기 위해 예술적 프로세싱(71) 이전 또는 이후에(또는 이중 업믹스가 수행되는 경우 둘 모두에서) 수행될 수 있다. 서라운드 사운드는 서라운드 사운드 인코더(74)에서 인코딩되는데, 이는 또한 서라운드 사운드 콘텐츠로부터 초래되는 보조 정보를 제공한다. HOA 표현은, 보조 정보에 따라, 조건부 HOA 인코더(75)에서 조건부로 인코딩되어, 잔여 HOA 콘텐츠의 제2 계층 비트스트림을 획득한다. 마지막으로, 인코딩된 서라운드 사운드(76) 및 잔여 HOA 콘텐츠의 제2 계층 비트스트림(77)이 계층적 비트스트림 내에, 예를 들어, 멀티플렉서(78)를 사용하는 멀티플렉싱된 방식으로 더해진다. 추가적인 상세항목들은 도 3에 도시된 것과 유사하다.
도 8은 계층적 HOA 디코딩에 대한 예시적인 디코더 아키텍처를 도시한다. 수신된 계층적 비트스트림은 디멀티플렉서(81)에 입력된다. 디멀티플렉서는 2개의 서브스트림을 분리한다. 하나의 출력(81q1)에서, 디멀티플렉서는 종래의 인코딩된 서라운드 사운드 비트스트림인 임베디드 서라운드 사운드 비트스트림(811)을 제공한다. 다른 출력(81q2)에서, 디멀티플렉서는 HOA 코덱의 제2 계층 비트스트림에 대한 잔여물(812)을 제공한다. 제2 계층 비트스트림은 HOA 디코딩 블록(83)을 가지지 않는 종래의 디코더들에서 무시된다. 이러한 HOA 디코딩 블록(83)은 발명에 따른 디코더에서 이용가능하며, 제2 계층 HOA 비트스트림을 처리할 수 있다. HOA 디코딩 블록(83)은 조건부 HOA 디코더(84)를 포함하는데, 이는 일 실시예에서, 예측을 위한 제1 보조 정보(841), HOA 개조를 위한 제2 보조 정보(842) 및 디코딩된 잔여 신호들(843)을 포함한다. 인코딩된 서라운드 사운드 비트스트림은, 종래의 서라운드 사운드 신호들(821)을 출력에 제공하는 서라운드 사운드 디코더(82)에 입력된다.
HOA 디코딩 블록(83)에서, 종래의 서라운드 사운드 신호들(821)이, 예측 블록(85)에서 사운드 컴포넌트들을 예측하기 위해, 제1 보조 정보(841)와 함께 사용된다. 예측 블록(85)은 예측된 사운드 컴포넌트들(851)을 중첩 블록(86)에 제공한다. 중첩 블록(86)은 예측된 사운드 컴포넌트들(851)의, 조건부 HOA 디코더(84)로부터 온 디코딩된 잔여 신호들(843)과의 중첩을 수행하며, 재구성된 사운드 컴포넌트들(861)을 HOA 콘텐츠 개조 블록(87)에 제공한다. HOA 콘텐츠 개조 블록은 재구성된 사운드 컴포넌트들(861) 및 제2 보조 정보(842)로부터 재구성된 HOA 신호(83q)를 생성하고, 재구성된 HOA 신호(83q)를 그 출력 상에 출력한다. 이러한 재구성된 HOA 신호(83q)는 이후, 예를 들어, 주어진 라우드스피커 배열에 따라, 전송되고, 저장되고, 프로세싱되거나, 또는 HOA 디코딩될 수 있다.
도 9는, 일 실시예에서, 계층적 오디오 비트스트림을 인코딩하기 위한 방법(90)을 도시한다. 방법은 HOA 입력 신호를 수신하는 단계(91), HOA 입력 신호를 서라운드 사운드 포맷으로 렌더링하는 단계(92) ― 서라운드 사운드 믹스가 획득됨 ― , 서라운드 사운드 인코더에서 서라운드 사운드 믹스를 인코딩하는 단계(93) ― 인코딩된 서라운드 사운드가 획득됨 ―, 인코딩된 서라운드 사운드를 디코딩하여 재구성된 서라운드 사운드 신호를 획득하는 단계(94), 수신된 HOA 입력 신호에 대한 차원수 축소(95)를 수행하는 단계 ― 우세한 사운드 컴포넌트들을 포함하는 차원수-축소된 HOA 신호가 획득됨 ― , 차원수-축소된 HOA 신호와 재구성된 서라운드 사운드 신호 사이의 차이를 계산하는 단계(96) ― 잔여 신호가 획득됨 ― , 모노럴 인코더들의 뱅크(즉, 복수의 단일-채널 인코더들, 각각은 우세한 사운드 컴포넌트를 인코딩함)에서 잔여 신호를 인코딩하는 단계(97) ― 인코딩된 잔여물들이 획득됨 ― , 코더 제어 블록에서 HOA 입력 신호에 관한 구조 정보를 획득하는 단계(98), 및 구조 정보, 인코딩된 잔여물들 및 인코딩된 서라운드 사운드를 멀티플렉싱하여 계층적 오디오 비트스트림을 획득하는 단계(99)를 포함한다.
도 10은, 일 실시예에서, 계층적 오디오 비트스트림을 디코딩하기 위한 방법(100)을 도시한다. 이 방법은, 계층적 오디오 비트스트림을 수신하고 디멀티플렉싱하는 단계(101) ― 적어도 임베디드 서라운드 사운드 비트스트림 및 제2 계층 HOA 비트스트림이 획득되고, 제2 계층 HOA 비트스트림은 제1 및 제2 보조 정보 및 인코딩된 잔여 신호들을 포함함 ― , 임베디드 서라운드 사운드 비트스트림을 디코딩하여 디코딩된 서라운드 사운드 비트스트림을 획득하는 단계(102), 및 제2 계층 비트스트림을 디코딩하는 단계(103)를 포함하고, 재구성된 HOA 신호는 디코딩된 서라운드 사운드 비트스트림 및 제1 보조 정보를 사용하여 사운드 컴포넌트들을 예측하는 단계(105), 예측된 사운드 컴포넌트들을 디코딩된 잔여 신호들을 중첩시켜 재구성된 사운드 컴포넌트들을 획득하는 단계(106)(또는 원리 상, 베이스 신호를 중첩시키거나 추가함으로써 사운드 컴포넌트들, 소위 예측된 사운드 컴포넌트들 및 디코딩된 잔여 신호들을 재구성하는 단계), 및 재구성된 사운드 컴포넌트들 및 제2 보조 정보를 개조함으로써 HOA 콘텐츠를 재구성하는 단계(107) ― 재구성된 HOA 콘텐츠가 획득됨 ― 에 의해 획득된다. 재구성된 HOA 콘텐츠가 향상된 오디오 신호를 획득하기에 적합한 반면, 서라운드 신호(82q)는 베이스 오디오 신호이다. 원리 상, 디코딩은 도 3의 인코더 또는 도 7의 인코더에 의해 생성된 임의의 계층적 비트스트림들에 대해 적합하다.
도 3, 도 7 및 도 8에 도시된 구축 블록들 뿐만 아니라 위의 방법들의 단계가 하드웨어 유닛들로서, 소프트웨어 유닛들로서, 또는 이들의 혼합물로서 구현될 수 있다. 또한, 도시된 구축 블록들 중 둘 이상이 다수의 기능들을 수행하는 단일 구축 블록으로 구현될 수 있다.
임베디드 서라운드 비트스트림을 이용한 HOA 콘텐츠의 계층적 압축의 사용 경우가 구현되고, 추가적인 최적화를 위해 안정적인 신호 프로세싱 개념이 준비된다.
레거시 서라운드 코덱과 함께 HOA 압축을 사용하는 것의 특별한 이점은, 그것의 효율적인 역호환가능한 압축에 있다(내재적 확장성, 풀 사운드 필드의 코히런트 표현(coherent representation of full sound field)뿐만 아니라, 방식은 사운드 오브젝트들을 통합할 수 있다). 대략 500 kbit/s까지의 데이터 레이트의 축소가 특정 중간- 내지 높은- 비트-레이트 응용예들 및 특정 신호들에 대해 예상될 수 있다.
본 발명이 순수하게 예시에 의해 기술되었지만, 상세항목들의 수정들이 본 발명의 범위로부터 벗어나지 않고 이루어질 수 있다는 점이 이해될 것이다. 기재및 (적절한 경우) 청구항들과 도면들에 개시된 각각의 특징은 독립적으로 또는 임의의 적절한 조합으로 제공될 수 있다. 특징들은 적절한 경우, 하드웨어, 소프트웨어, 또는 둘 모두의 조합으로 구현될 수 있다. 접속들은, 적용가능한 경우, 무선 접속, 또는 반드시 직접적 또는 전용 접속이 아니더라도, 유선으로서 구현될 수 있다. 청구항들에 나타나는 참조 부호들은 단지 예시에 의한 것이며, 발명의 범위에 대한 제한적 효과를 가지지 않는다.

Claims (14)

  1. 계층적 오디오 비트스트림을 디코딩하기 위한 방법(100)으로서,
    - 상기 계층적 오디오 비트스트림을 수신하고 멀티플렉싱하는 단계(101) ― 적어도 임베디드 서라운드 사운드 비트스트림(embedded surround sound bitstream) 및 제2 계층 HOA 비트스트림(2nd layer HOA bitstream)이 획득되며, 상기 제2 계층 HOA 비트스트림은 제1 및 제2 보조 정보(side information) 및 인코딩된 잔여 신호들(encoded residual signals)을 포함함 ― ,
    - 상기 임베디드 서라운드 사운드 비트스트림을 디코딩하여 디코딩된 서라운드 사운드 비트스트림을 획득하는 단계(102), 및
    - 상기 제2 계층 비트스트림을 디코딩하는 단계(103)
    를 포함하고, 재구성된 HOA 신호는,
    - 상기 디코딩된 서라운드 사운드 비트스트림 및 상기 제1 보조 정보를 사용하여 사운드 컴포넌트들을 예측하는 단계(105),
    - 상기 예측된 사운드 컴포넌트들을 상기 디코딩된 잔여 신호들과 중첩시켜 재구성된 사운드 컴포넌트들을 획득하는 단계(106), 및
    - 상기 재구성된 사운드 컴포넌트들 및 상기 제2 보조 정보를 개조(recompose)함으로써 HOA 콘텐츠를 재구성하는 단계(107) ― 재구성된 HOA 콘텐츠가 획득됨 ― 에 의해 획득되는 방법.
  2. 제1항에 있어서,
    상기 예측하는 단계(105)는 적응형 예측을 사용하고, 상기 잔여 신호들의 프레임-방식 에너지 레벨(frame-wise energy level)의 최소화는 상기 예측을 적응시키기 위한 최적화 기준인 방법.
  3. 제1항 또는 제2항에 있어서,
    상기 예측하는 단계(105)는 주파수-종속적 적응형 예측을 사용하고, 상이한 주파수 대역들에 대해 상이한 행렬들을 가지는 프레임-방식 행렬 동작들이 사용되는 방법.
  4. 계층적 오디오 비트스트림을 인코딩하기 위한 방법(90)으로서,
    - HOA 입력 신호를 수신하는 단계(91);
    - 상기 HOA 입력 신호를 서라운드 사운드 포맷으로 렌더링(rendering)하는 단계(92) ― 서라운드 사운드 믹스(surround sound mix)가 획득됨 ― ;
    - 서라운드 사운드 인코더에서 상기 서라운드 사운드 믹스를 인코딩하는 단계(93) ― 인코딩된 서라운드 사운드가 획득됨 ― ;
    - 상기 인코딩된 서라운드 사운드를 디코딩하여 재구성된 서라운드 사운드 신호를 획득하는 단계(94);
    - 상기 수신된 HOA 입력 신호에 대한 차원수 축소(dimensionality reduction)를 수행하는 단계(95) ― 차원수-축소된(dimensionality-reduced) HOA 신호가 획득됨 ― ;
    - 상기 차원수-축소된 HOA 신호와 상기 재구성된 서라운드 사운드 신호 사이의 차이를 계산하는 단계(96) ― 잔여 신호가 획득됨 ―;
    - 복수의 모노럴 인지 인코더(monaural perceptual encoder)들에서 상기 잔여 신호를 인코딩하는 단계(97) ― 인코딩된 잔여물들(encoded residuals)이 획득됨 ―;
    - 코더 제어 블록에서 상기 HOA 입력 신호에 대한 구조 정보를 획득하는 단계(98); 및
    - 상기 구조 정보, 상기 인코딩된 잔여물들 및 상기 인코딩된 서라운드 사운드를 비트스트림으로 멀티플렉싱하여 계층적 오디오 비트스트림을 획득하는 단계(99)
    를 포함하는 방법.
  5. 제4항에 있어서,
    상기 복수의 모노럴 인지 인코더들 각각은 각각의 우세한 사운드 컴포넌트(dominant sound component)에 대한 개별 인지 마스킹 임계(individual perceptual masking threshold)를 계산하는(41) 방법.
  6. 제4항 또는 제5항에 있어서,
    추가적인 사운드 오브젝트들은 상기 HOA 입력 신호를 서라운드 사운드 포맷으로 렌더링하는 단계에 입력되는 방법.
  7. 계층적 오디오 비트스트림을 디코딩하기 위한 장치로서,
    - 상기 계층적 오디오 비트스트림을 디멀티플렉싱하기 위한 디멀티플렉서(81) ― 적어도 임베디드 서라운드 사운드 비트스트림 및 제2 계층 HOA 비트스트림이 획득되고, 상기 제2 계층 HOA 비트스트림은 제1 및 제2 보조 정보 및 인코딩된 잔여 신호들을 포함함 ― ,
    - 상기 임베디드 서라운드 사운드 비트스트림을 디코딩하여 디코딩된 서라운드 사운드 비트스트림을 획득하기 위한 서라운드 사운드 디코더(82), 및
    - 상기 제2 계층 비트스트림을 디코딩하기 위한 계층적 HOA 디코더(83)
    를 포함하고, 상기 계층적 HOA 디코더는
    - 상기 디코딩된 서라운드 사운드 비트스트림 및 상기 제1 보조 정보를 사용하여 사운드 컴포넌트들을 예측하기 위한 예측 유닛(85),
    - 상기 예측된 사운드 컴포넌트들을 상기 디코딩된 잔여 신호들과 중첩시켜서 재구성된 사운드 컴포넌트들을 획득하기 위한 중첩 유닛(86), 및
    - 상기 재구성된 사운드 컴포넌트들 및 상기 제2 보조 정보를 개조함으로써 HOA 콘텐츠를 재구성하기 위한 HOA 콘텐츠 개조 유닛(87) ― 재구성된 HOA 콘텐츠가 획득됨 ― 을 포함하는 장치.
  8. 제7항에 있어서,
    상기 제2 계층 HOA 비트스트림으로부터 제1 보조 정보, 제2 보조 정보 및 디코딩된 잔여 신호들을 추출하기 위한 조건부 HOA 디코더(conditional HOA decoder)(84)를 더 포함하는 장치.
  9. 제7항 또는 제8항에 있어서,
    상기 예측 유닛(85)은 적응형 예측을 사용하고, 상기 잔여 신호들의 프레임-방식 에너지 레벨의 최소화는 상기 예측을 적응시키기 위한 최적화 기준인 장치.
  10. 제7항 내지 제9항 중 어느 한 항에 있어서,
    상기 예측 유닛(85)은 주파수-종속적 적응형 예측을 사용하고, 상이한 주파수 대역들에 대해 상이한 행렬들을 가지는 프레임-방식 행렬 동작들이 사용되는 장치.
  11. 계층적 오디오 비트스트림을 인코딩하기 위한 장치로서,
    - HOA 입력 신호를 서라운드 사운드 포맷으로 렌더링하기 위한 서라운드 사운드 렌더러 블록(30) ― 서라운드 사운드 믹스가 획득됨 ― ;
    - 상기 서라운드 사운드 믹스를 인코딩하기 위한 서라운드 사운드 인코더(31) ― 인코딩된 서라운드 사운드가 획득됨 ― ;
    - 상기 인코딩된 서라운드 사운드를 디코딩하여 재구성된 서라운드 사운드 신호를 획득하기 위한 서라운드 사운드 디코더(37);
    - 상기 수신된 HOA 입력 신호에 대한 차원수 축소를 수행하기 위한 차원수 축소 유닛(34) ― 차원수-축소된 HOA 신호가 획득됨 ―;
    - 상기 차원수-축소된 HOA 신호와 상기 재구성된 서라운드 사운드 신호 사이의 차이를 계산하기 위한 예측 유닛(35)― 잔여 신호가 획득됨 ―;
    - 상기 잔여 신호를 인코딩하기 위한 복수의 모노럴 인지 인코더들(36) ― 상기 복수의 모노럴 인지 인코더들 각각은 상기 차원수 축소로부터 초래되는 특정 우세 신호에 대한 잔여 신호를 인코딩하고, 인코딩된 잔여물들이 획득됨 ―;
    - 상기 HOA 입력 신호에 대한 구조 정보를 획득하기 위한 코더 제어 블록(32); 및
    - 상기 구조 정보, 상기 인코딩된 잔여물들 및 상기 인코딩된 서라운드 사운드를 비트스트림(33q)으로 멀티플렉싱하여 계층적 오디오 비트스트림을 획득하기 위한 멀티플렉서(33)
    를 포함하는 장치.
  12. 제11항에 있어서,
    상기 잔여 신호를 인코딩하기 위한 상기 복수의 모노럴 인지 인코더들(36) 각각은, 각각의 우세한 사운드 컴포넌트에 대해, 개별적으로 계산된 인지 마스킹 임계를 사용하는 장치.
  13. 제11항 또는 제12항에 있어서,
    하나 이상의 추가적인 사운드 오브젝트들이 상기 서라운드 사운드 렌더러 블록(30)에 입력되고, 상기 사운드 렌더러 블록(30)은 상기 HOA 입력 신호 및 상기 하나 이상의 추가적인 사운드 오브젝트들을 서라운드 사운드 포맷으로 렌더링하는 장치.
  14. 제7항 내지 제13항 중 어느 한 항에 있어서,
    상기 서라운드 사운드 코더(21)는 5.1 서라운드 포맷, 수정된 5.1 서라운드 사운드 포맷, 돌비 디지털 또는 7.1 서라운드 사운드 포맷을 사용하는 장치.
KR1020157034651A 2013-06-05 2014-05-27 오디오 신호를 인코딩하기 위한 방법, 오디오 신호를 인코딩하기 위한 장치, 오디오 신호를 디코딩하기 위한 방법 및 오디오 신호를 디코딩하기 위한 장치 KR102228994B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP13305756.2 2013-06-05
EP13305756 2013-06-05
PCT/EP2014/060959 WO2014195190A1 (en) 2013-06-05 2014-05-27 Method for encoding audio signals, apparatus for encoding audio signals, method for decoding audio signals and apparatus for decoding audio signals

Publications (2)

Publication Number Publication Date
KR20160015245A true KR20160015245A (ko) 2016-02-12
KR102228994B1 KR102228994B1 (ko) 2021-03-17

Family

ID=48672536

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020157034651A KR102228994B1 (ko) 2013-06-05 2014-05-27 오디오 신호를 인코딩하기 위한 방법, 오디오 신호를 인코딩하기 위한 장치, 오디오 신호를 디코딩하기 위한 방법 및 오디오 신호를 디코딩하기 위한 장치

Country Status (6)

Country Link
US (1) US9691406B2 (ko)
EP (3) EP3923279B1 (ko)
JP (2) JP6377730B2 (ko)
KR (1) KR102228994B1 (ko)
CN (1) CN105264595B (ko)
WO (1) WO2014195190A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190019915A (ko) * 2017-08-17 2019-02-27 가우디오디오랩 주식회사 앰비소닉 신호를 사용하는 오디오 신호 처리 방법 및 장치

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9716959B2 (en) 2013-05-29 2017-07-25 Qualcomm Incorporated Compensating for error in decomposed representations of sound fields
US9922656B2 (en) 2014-01-30 2018-03-20 Qualcomm Incorporated Transitioning of ambient higher-order ambisonic coefficients
US9502045B2 (en) * 2014-01-30 2016-11-22 Qualcomm Incorporated Coding independent frames of ambient higher-order ambisonic coefficients
EP2922057A1 (en) * 2014-03-21 2015-09-23 Thomson Licensing Method for compressing a Higher Order Ambisonics (HOA) signal, method for decompressing a compressed HOA signal, apparatus for compressing a HOA signal, and apparatus for decompressing a compressed HOA signal
US10770087B2 (en) 2014-05-16 2020-09-08 Qualcomm Incorporated Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals
US9847088B2 (en) 2014-08-29 2017-12-19 Qualcomm Incorporated Intermediate compression for higher order ambisonic audio data
US9875745B2 (en) * 2014-10-07 2018-01-23 Qualcomm Incorporated Normalization of ambient higher order ambisonic audio data
JP6355207B2 (ja) * 2015-07-22 2018-07-11 日本電信電話株式会社 伝送システム、符号化装置、復号装置、それらの方法及びプログラム
WO2017036609A1 (en) * 2015-08-31 2017-03-09 Dolby International Ab Method for frame-wise combined decoding and rendering of a compressed hoa signal and apparatus for frame-wise combined decoding and rendering of a compressed hoa signal
CN116052696A (zh) * 2015-10-08 2023-05-02 杜比国际公司 用于压缩声音或声场表示的分层编解码
CN116312576A (zh) 2015-10-08 2023-06-23 杜比国际公司 声音或声场的压缩hoa表示的解码方法和装置
US9961475B2 (en) 2015-10-08 2018-05-01 Qualcomm Incorporated Conversion from object-based audio to HOA
US9961467B2 (en) * 2015-10-08 2018-05-01 Qualcomm Incorporated Conversion from channel-based audio to HOA
US10249312B2 (en) * 2015-10-08 2019-04-02 Qualcomm Incorporated Quantization of spatial vectors
TWI703558B (zh) 2015-10-08 2020-09-01 瑞典商杜比國際公司 解碼聲音或音場的壓縮高階環境立體聲聲音表徵的方法及設備
US9881628B2 (en) 2016-01-05 2018-01-30 Qualcomm Incorporated Mixed domain coding of audio
EP3220668A1 (en) * 2016-03-15 2017-09-20 Thomson Licensing Method for configuring an audio rendering and/or acquiring device, and corresponding audio rendering and/or acquiring device, system, computer readable program product and computer readable storage medium
CN107945810B (zh) * 2016-10-13 2021-12-14 杭州米谟科技有限公司 用于编码和解码hoa或多声道数据的方法和装置
WO2018081829A1 (en) * 2016-10-31 2018-05-03 Google Llc Projection-based audio coding
US10043530B1 (en) * 2018-02-08 2018-08-07 Omnivision Technologies, Inc. Method and audio noise suppressor using nonlinear gain smoothing for reduced musical artifacts
SG11202105719RA (en) 2018-12-07 2021-06-29 Fraunhofer Ges Forschung Apparatus, method and computer program for encoding, decoding, scene processing and other procedures related to dirac based spatial audio coding using low-order, mid-order and high-order components generators
BR112021013726A2 (pt) * 2019-01-13 2021-09-21 Huawei Technologies Co., Ltd. Método implementado por computador para realizar quantização residual, dispositivo eletrônico e meio legível por computador não transitório
CN110534120B (zh) * 2019-08-31 2021-10-01 深圳市友恺通信技术有限公司 一种移动网络环境下的环绕声误码修复方法
US11430451B2 (en) * 2019-09-26 2022-08-30 Apple Inc. Layered coding of audio with discrete objects
CN113948097A (zh) * 2020-07-17 2022-01-18 华为技术有限公司 多声道音频信号编码方法和装置
CN113948096A (zh) * 2020-07-17 2022-01-18 华为技术有限公司 多声道音频信号编解码方法和装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2469741A1 (en) * 2010-12-21 2012-06-27 Thomson Licensing Method and apparatus for encoding and decoding successive frames of an ambisonics representation of a 2- or 3-dimensional sound field

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7548853B2 (en) * 2005-06-17 2009-06-16 Shmunk Dmitry V Scalable compressed audio bit stream and codec using a hierarchical filterbank and multichannel joint coding
US7991272B2 (en) * 2005-07-11 2011-08-02 Lg Electronics Inc. Apparatus and method of processing an audio signal
UA94117C2 (ru) * 2006-10-16 2011-04-11 Долби Свиден Ав Усовершенстованное кодирование и отображение параметров многоканального кодирования микшированных объектов
KR101890229B1 (ko) * 2010-03-26 2018-08-21 돌비 인터네셔널 에이비 오디오 재생을 위한 오디오 사운드필드 표현을 디코딩하는 방법 및 장치
NZ587483A (en) * 2010-08-20 2012-12-21 Ind Res Ltd Holophonic speaker system with filters that are pre-configured based on acoustic transfer functions
EP2450880A1 (en) * 2010-11-05 2012-05-09 Thomson Licensing Data structure for Higher Order Ambisonics audio data
CN102664970A (zh) * 2012-04-06 2012-09-12 中山大学 一种基于移动子网的分层移动IPv6的方法
US9288603B2 (en) * 2012-07-15 2016-03-15 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for backward-compatible audio coding
US9883310B2 (en) * 2013-02-08 2018-01-30 Qualcomm Incorporated Obtaining symmetry information for higher order ambisonic audio renderers
US9685163B2 (en) * 2013-03-01 2017-06-20 Qualcomm Incorporated Transforming spherical harmonic coefficients
US9716959B2 (en) * 2013-05-29 2017-07-25 Qualcomm Incorporated Compensating for error in decomposed representations of sound fields

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2469741A1 (en) * 2010-12-21 2012-06-27 Thomson Licensing Method and apparatus for encoding and decoding successive frames of an ambisonics representation of a 2- or 3-dimensional sound field
KR20120070521A (ko) * 2010-12-21 2012-06-29 톰슨 라이센싱 2차원 또는 3차원 음장의 앰비소닉스 표현의 연속 프레임을 인코딩 및 디코딩하는 방법 및 장치

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Erik Hellerud, et al. Spatial redundancy in Higher Order Ambisonics and its use for low delay lossless compression. IEEE International Conference on Acoustics, Speech and Signal Processing. 2009.* *
Oliver Wubbolt, Thoughts on Draft Use Cases, Requirements and Evaluation Procedures for 3D Audio, ISO/IEC JTC1/SC29/WG11 MPEG2012/M24864, 2012.05. *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190019915A (ko) * 2017-08-17 2019-02-27 가우디오디오랩 주식회사 앰비소닉 신호를 사용하는 오디오 신호 처리 방법 및 장치
CN111034225A (zh) * 2017-08-17 2020-04-17 高迪奥实验室公司 使用立体混响信号的音频信号处理方法和装置
CN111034225B (zh) * 2017-08-17 2021-09-24 高迪奥实验室公司 使用立体混响信号的音频信号处理方法和装置
US11308967B2 (en) 2017-08-17 2022-04-19 Gaudio Lab, Inc. Audio signal processing method and apparatus using ambisonics signal

Also Published As

Publication number Publication date
CN105264595B (zh) 2019-10-01
KR102228994B1 (ko) 2021-03-17
US20160125890A1 (en) 2016-05-05
JP6377730B2 (ja) 2018-08-22
EP3503096B1 (en) 2021-08-04
JP2016523377A (ja) 2016-08-08
EP3503096A1 (en) 2019-06-26
EP3923279B1 (en) 2023-12-27
EP3005354B1 (en) 2019-07-03
EP3923279A1 (en) 2021-12-15
WO2014195190A1 (en) 2014-12-11
CN105264595A (zh) 2016-01-20
EP3005354A1 (en) 2016-04-13
JP2018165841A (ja) 2018-10-25
US9691406B2 (en) 2017-06-27

Similar Documents

Publication Publication Date Title
KR102228994B1 (ko) 오디오 신호를 인코딩하기 위한 방법, 오디오 신호를 인코딩하기 위한 장치, 오디오 신호를 디코딩하기 위한 방법 및 오디오 신호를 디코딩하기 위한 장치
RU2380766C2 (ru) Адаптивное остаточное аудиокодирование
TWI544479B (zh) 音訊解碼器、音訊編碼器、用以基於已編碼表示型態提供至少四音訊聲道信號的方法、用以基於至少四音訊聲道信號提供已編碼表示型態的方法、及使用頻寬擴展的電腦程式
JP5171256B2 (ja) ステレオ符号化装置、ステレオ復号装置、及びステレオ符号化方法
US8218775B2 (en) Joint enhancement of multi-channel audio
US7761290B2 (en) Flexible frequency and time partitioning in perceptual transform coding of audio
JP5171269B2 (ja) マルチチャネルオーディオ符号化における忠実度の最適化及び信号伝送量の低減
KR101397736B1 (ko) 유손실 인코딩 데이터 스트림 및 무손실 확장 데이터 스트림을 이용하는 소스 신호의 무손실 인코딩을 위한 방법및 장치
KR101473016B1 (ko) 소스 신호에 대한 손실 인코딩된 데이터 스트림 및 무손실 확장 데이터 스트림으로부터 상기 소스 신호에 대한 무손실 인코딩된 데이터 스트림을 생성하기 위해 상기 소스 신호를 무손실 인코딩하기 방법 및 장치
KR20100138716A (ko) 고품질 다채널 오디오 부호화 및 복호화 장치
KR20160124422A (ko) 고차 앰비소닉스(hoa) 신호를 압축하는 방법, 압축된 hoa 신호를 압축 해제하는 방법, hoa 신호를 압축하기 위한 장치, 및 압축된 hoa 신호를 압축 해제하기 위한 장치
WO2009048239A2 (en) Encoding and decoding method using variable subband analysis and apparatus thereof
KR20160124424A (ko) 고차 앰비소닉스(hoa) 신호를 압축하는 방법, 압축된 hoa 신호를 압축 해제하는 방법, hoa 신호를 압축하기 위한 장치, 및 압축된 hoa 신호를 압축 해제하기 위한 장치
TW202347316A (zh) 用以編碼音訊信號或用以解碼經編碼音訊場景之設備、方法及電腦程式
US20110311063A1 (en) Embedding and extracting ancillary data
Komori Trends in Standardization of Audio Coding Technologies
KR20090037806A (ko) 가변 서브밴드 분석을 이용한 부호화와 복호화 방법 및 그 장치

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant