KR20230079239A - 압축된 고차 앰비소닉스 사운드 또는 음장 표현들에 대한 계층화된 코딩 및 데이터 구조 - Google Patents

압축된 고차 앰비소닉스 사운드 또는 음장 표현들에 대한 계층화된 코딩 및 데이터 구조 Download PDF

Info

Publication number
KR20230079239A
KR20230079239A KR1020237017456A KR20237017456A KR20230079239A KR 20230079239 A KR20230079239 A KR 20230079239A KR 1020237017456 A KR1020237017456 A KR 1020237017456A KR 20237017456 A KR20237017456 A KR 20237017456A KR 20230079239 A KR20230079239 A KR 20230079239A
Authority
KR
South Korea
Prior art keywords
hoa
layer
layers
representation
sound
Prior art date
Application number
KR1020237017456A
Other languages
English (en)
Inventor
스벤 코르돈
알렉산더 크뤼거
Original Assignee
돌비 인터네셔널 에이비
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 돌비 인터네셔널 에이비 filed Critical 돌비 인터네셔널 에이비
Publication of KR20230079239A publication Critical patent/KR20230079239A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/301Automatic calibration of stereophonic sound system, e.g. with test microphone

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

본 문서는 사운드 또는 음장의 압축된 고차 앰비소닉스(HOA) 표현의 프레임의 계층화된 인코딩 방법에 관한 것이다. 압축된 HOA 표현은 복수의 전송 신호들을 포함한다. 본 방법은 복수의 전송 신호들을 복수의 계층적 레이어들에 배정하는 단계 - 복수의 레이어들은 베이스 레이어 및 하나 이상의 계층적 향상 레이어를 포함함 -, 각각의 레이어에 대해, 각자의 레이어 및 각자의 레이어보다 하위인 임의의 레이어들에 배정된 전송 신호들로부터 획득가능한 재구성된 HOA 표현을 파라미터적으로 향상시키기 위한 보조 정보를 포함하는 각자의 HOA 확장 페이로드를 생성하는 단계, 생성된 HOA 확장 페이로드들을 그 각자의 레이어들에 배정하는 단계, 및 생성된 HOA 확장 페이로드들을 출력 비트스트림에서 시그널링하는 단계를 포함한다. 본 문서는 추가로 사운드 또는 음장의 압축된 HOA 표현의 프레임을 디코딩하는 방법, 압축된 HOA 표현의 계층화된 코딩을 위한 인코더 및 디코더, 그리고 사운드 또는 음장의 압축된 HOA 표현의 프레임을 표현하는 데이터 구조에 관한 것이다.

Description

압축된 고차 앰비소닉스 사운드 또는 음장 표현들에 대한 계층화된 코딩 및 데이터 구조{LAYERED CODING AND DATA STRUCTURE FOR COMPRESSED HIGHER-ORDER AMBISONICS SOUND OR SOUND FIELD REPRESENTATIONS}
관련 출원의 상호 참조
본 출원은 2015년 10월 15일자로 출원된 유럽 특허 출원 제15306653.5호에 대한 우선권을 주장하고, 이 유럽 특허 출원은 참조에 의해 그 전체가 본원에 원용된다.
기술분야
본 문서는 계층화된 오디오 코딩을 위한 방법들 및 장치들에 관한 것이다. 상세하게는, 본 문서는 압축된 고차 앰비소닉스(Higher-Order Ambisonics)(HOA) 사운드(또는 음장) 표현들의 프레임들의 계층화된 오디오 코딩을 위한 방법들 및 장치들에 관한 것이다. 본 문서는 또한 압축된 HOA 사운드(또는 음장) 표현들의 프레임들을 표현하기 위한 데이터 구조들(예컨대, 비트스트림들)에 관한 것이다.
HOA 계층화된 코딩의 현재 정의에서, 특정 HOA 표현을 향상시키기 위해 공간 신호 예측, 서브대역 방향성 신호 합성 및 파라메트릭 앰비언스 복제(Parametric Ambience Replication)(PAR) 디코더와 같은 HOA 디코딩 도구들에 대한 보조 정보가 생성된다. 즉, 계층화된 HOA 코딩의 현재 정의에서, 제공된 데이터는 최상위 레이어(예컨대, 최상위 향상 레이어)의 HOA 표현을 적절히 확장시킬 뿐이다. 베이스 레이어를 비롯한 하위 레이어들에 대해, 이 도구들은 부분적으로 재구성된 HOA 표현을 적절히 향상시키지 못한다.
서브대역 방향성 신호 합성 및 파라메트릭 앰비언스 복제 디코더와 같은 도구들은, 몇 개의 전송 신호만이 이용가능한, 낮은 데이터 레이트들을 위해 특별히 설계되어 있다. 그렇지만, HOA 계층화된 코딩에서, 특히, 베이스 레이어와 같은, 저 비트레이트 레이어들에 대해 (부분적으로) 재구성된 HOA 표현들의 적절한 향상이 가능하지 않다. 이것은 낮은 비트레이트들에서의 사운드 품질의 관점에서 볼 때 명백히 바람직하지 않다.
그에 부가하여, 벡터 기반 신호들에 대한 인코딩된 V-벡터 요소들을 처리하는 종래의 방식이, HOADecoderConfig()에서 1과 동일한 CodedVVecLength가 시그널링되는 경우(즉, 벡터 코딩 모드가 활성인 경우), 적절한 디코딩을 가져오지 않는다는 것이 밝혀졌다. 이 벡터 코딩 모드에서, ContAddHoaCoeff 세트에 포함된 HOA 계수 인덱스들에 대한 V-벡터 요소들이 전송되지 않는다. 이 세트는 0과 동일한 AmbCoeffTransitionState를 갖는 HOA 계수 인덱스들 AmbCoeffIdx[i] 전부를 포함한다. 종래에는, 이 인덱스들에 대한 원래의 HOA 계수 시퀀스가 명시적으로 송신(시그널링)되기 때문에 가중된 V-벡터 신호를 추가할 필요도 없다. 따라서 이 인덱스들에 대해 V-벡터 요소는 0으로 설정된다.
그렇지만, 계층화된 코딩 모드에서, 연속적 HOA 계수 인덱스들의 세트는 현재 활성 레이어의 일부인 전송 채널들에 의존한다. 상위 레이어에서 송신되는 부가의 HOA 계수 인덱스들이 하위 레이어들에서 누락될 수 있다. 그러면, 상위 레이어들에 포함된 HOA 계수 시퀀스들에 속하는 HOA 계수 인덱스들에 대해, 벡터 신호가 HOA 계수 시퀀스에 기여해서는 안된다는 가정은 잘못된 것이다.
그 결과, 계층화된 HOA 코딩에서의 V-벡터가 최상위 레이어 아래의 임의의 레이어들의 디코딩에는 적당하지 않을 수 있다.
따라서, 사운드 또는 음장의 압축된 HOA 표현들의 계층화된 코딩에 적합화된 코딩 스킴(coding scheme)들 및 비트스트림들이 필요하다.
본 문서는 이상의 문제들을 다룬다. 상세하게는, 압축된 HOA 사운드 또는 음장 표현들의 프레임들의 계층화된 코딩을 위한 방법들 및 인코더들/디코더들은 물론 압축된 HOA 사운드 또는 음장 표현들의 프레임들을 표현하기 위한 데이터 구조들이 기술된다.
일 양태에 따르면, 사운드 또는 음장의 압축된 고차 앰비소닉스(HOA) 표현의 프레임의 계층화된 인코딩 방법이 기술된다. 압축된 HOA 표현은 초안 MPEG-H 3D 오디오 표준 및 임의의 다른 향후 채택되는 또는 초안 표준들을 준수한다. 압축된 HOA 표현은 복수의 전송 신호들을 포함할 수 있다. 전송 신호들은, 예컨대, HOA 표현의 우세 사운드 신호들 또는 계수 시퀀스들 중 어느 하나를 나타내는, 모노럴 신호들에 관련되어 있을 수 있다. 본 방법은 복수의 전송 신호들을 복수의 계층적 레이어들에 배정하는 단계를 포함할 수 있다. 예를 들어, 전송 신호들이 복수의 레이어들에 분배될 수 있다. 복수의 레이어들은 베이스 레이어 및 하나 이상의 계층적 향상 레이어를 포함할 수 있다. 복수의 계층적 레이어들은 베이스 레이어로부터 제1 향상 레이어, 제2 향상 레이어 등을 거쳐 전체 최상위(overall highest) 향상 레이어(전체 최상위 레이어)까지 순서화될 수 있다. 본 방법은, 각각의 레이어에 대해, 각자의 레이어 및 각자의 레이어보다 하위인 임의의 레이어들에 배정된 전송 신호들로부터 획득가능한 재구성된 HOA 표현을 파라미터적으로 향상시키기 위한 보조 정보(예컨대, 향상 보조 정보)를 포함하는 각자의 HOA 확장 페이로드를 생성하는 단계를 추가로 포함할 수 있다. 하위 레이어들에 대한 재구성된 HOA 표현들은 부분적으로 재구성된 HOA 표현들이라고 지칭될 수 있다. 본 방법은 생성된 HOA 확장 페이로드들을 그 각자의 레이어들에 배정하는 단계를 추가로 포함할 수 있다. 본 방법은 또한 생성된 HOA 확장 페이로드들을 출력 비트스트림에서 시그널링하는 단계를 추가로 포함할 수 있다. HOA 확장 페이로드들은 HOAEnhFrame() 페이로드에서 시그널링될 수 있다. 따라서, 보조 정보가 HOAFrame()으로부터 HOAEnhFrame()으로 이동될 수 있다.
이상과 같이 구성될 때, 제안된 방법은 낮은 비트레이트들에서도 고품질의 디코딩을 가능하게 하기 위해 압축된 HOA 표현들(의 프레임)에 계층화된 코딩을 적용한다. 상세하게는, 제안된 방법은 각각의 레이어가 현재 레이어까지의 임의의 레이어들에서의 전송 신호들로부터 획득된 (부분적으로) 재구성된 사운드 표현을 향상시키기 위한 적당한 HOA 확장 페이로드(예컨대, 향상 보조 정보)를 포함하도록 보장한다. 거기에서, 현재 레이어까지의 레이어들이란 현재 레이어까지의, 예를 들어, 베이스 레이어, 제1 향상 레이어, 제2 향상 레이어 등을 포함하는 것으로 이해된다. 거기에서, 현재 레이어까지의 레이어들이란 현재 레이어까지의, 예를 들어, 베이스 레이어, 제1 향상 레이어, 제2 향상 레이어 등을 포함하는 것으로 이해된다. 예를 들어, 디코더는, 베이스 레이어에 배정된 HOA 확장 페이로드를 참조하여, 베이스 레이어로부터 획득된 (부분적으로) 재구성된 사운드 표현을 향상시킬 수 있을 것이다. 종래의 접근법에서는, 최상위 향상 레이어의 재구성된 HOA 표현만이 HOA 확장 페이로드에 의해 향상될 수 있을 것이다. 따라서, 실제의 최상위 사용가능 레이어(예컨대, 최상위 사용가능 레이어 아래의 레이어들 전부 및 최상위 사용가능 레이어 자체가 유효하게 수신되도록, 유효하게 수신되지 않은 최하위 레이어 아래의 레이어)에 상관없이, 디코더는, (부분적으로) 재구성된 사운드 표현이 완전한(complete)(예컨대, 전체(full)) 사운드 표현과 상이할 수 있을지라도, 재구성된 사운드 표현을 개선 또는 향상시킬 수 있을 것이다. 상세하게는, 실제의 최상위 사용가능 레이어에 상관없이, 디코더가 실제의 최상위 사용가능 레이어까지의 레이어들에 포함된 전송 신호들 전부에 기초하여 획득가능한 (부분적으로) 재구성된 사운드 표현을 개선 또는 향상시키기 위해 단일 레이어만에 대한(즉, 최상위 사용가능 레이어에 대한) HOA 확장 페이로드를 디코딩하는 것으로 충분하다. 상위 또는 하위 레이어들의 HOA 확장 페이로드들을 디코딩하는 것이 요구되지 않는다. 다른 한편으로, 제안된 방법은 계층화된 코딩을 적용할 때 달성될 수 있는 요구 대역폭의 감소를 충분히 이용하는 것을 가능하게 한다.
실시예들에서, 본 방법은 각자의 에러 방지 레벨들로 복수의 레이어들에 대한 데이터 페이로드들을 전송하는 단계를 추가로 포함할 수 있다. 데이터 페이로드들은 각자의 HOA 확장 페이로드들을 포함할 수 있다. 베이스 레이어는 가장 높은 에러 방지를 가질 수 있고 하나 이상의 향상 레이어는 순차적으로 감소하는 에러 방지를 가질 수 있다. 그에 의해, 적어도 다수의 하위 레이어들이 신뢰성있게 전송되면서, 다른 한편으로 상위 레이어들에 과도한 에러 방지를 적용하지 않는 것에 의해 전체 요구 대역폭을 감소시키는 것이 보장될 수 있다.
실시예들에서, HOA 확장 페이로드들은 HOA 공간 신호 예측 디코딩 도구에 대한 비트스트림 요소들을 포함할 수 있다. 부가적으로 또는 대안적으로, HOA 확장 페이로드들은 HOA 서브대역 방향성 신호 합성 디코딩 도구에 대한 비트스트림 요소들을 포함할 수 있다. 부가적으로 또는 대안적으로, HOA 확장 페이로드들은 HOA 파라메트릭 앰비언스 복제 디코딩 도구에 대한 비트스트림 요소들을 포함할 수 있다.
실시예들에서, HOA 확장 페이로드들은 ID_EXT_ELE_HOA_ENH_LAYER라는 usacExtElementType을 가질 수 있다.
실시예들에서, 본 방법은, HOA 공간 신호 예측 디코딩 도구, HOA 서브대역 방향성 신호 합성 디코딩 도구, 및/또는 HOA 파라메트릭 앰비언스 복제 디코딩 도구를 구성하기 위한 비트스트림 요소들을 포함하는 HOA 구성 확장 페이로드를 생성하는 단계를 추가로 포함할 수 있다. HOA 구성 확장 페이로드는 HOADecoderEnhConfig()에 포함될 수 있다. 본 방법은 HOA 구성 확장 페이로드를 출력 비트스트림에서 시그널링하는 단계를 추가로 포함할 수 있다.
실시예들에서, 본 방법은, HOA 확장 페이로드들을 복수의 레이어들에 배정하는 것을 표시하는 정보를 포함하는 HOA 디코더 구성 페이로드를 생성하는 단계를 추가로 포함할 수 있다. 본 방법은 HOA 디코더 구성 페이로드를 출력 비트스트림에서 시그널링하는 단계를 추가로 포함할 수 있다.
실시예들에서, 본 방법은 벡터 코딩 모드가 활성인지 여부를 결정하는 단계를 추가로 포함할 수 있다. 본 방법은, 벡터 코딩 모드가 활성인 경우, 각각의 레이어에 대해, 각자의 레이어에 배정된 전송 신호들에 기초하여 연속적 HOA 계수 인덱스들의 세트를 결정하는 단계를 추가로 포함할 수 있다. 연속적 HOA 계수 인덱스들의 세트 내의 HOA 계수 인덱스들은 ContAddHOACoeff 세트에 포함된 HOA 계수 인덱스들일 수 있다. 본 방법은, 생성된 V-벡터가 각자의 전송 신호가 배정되는 레이어보다 상위인 레이어들에 배정된 임의의 전송 신호들에 대한 요소들을 포함하도록, 각각의 전송 신호에 대해, 각자의 전송 신호가 배정되는 레이어에 대한 연속적 HOA 계수 인덱스들의 결정된 세트에 기초하여 V-벡터를 생성하는 단계를 추가로 포함할 수 있다. 본 방법은 생성된 V-벡터를 출력 비트스트림에서 시그널링하는 단계를 추가로 포함할 수 있다.
다른 양태에 따르면, 사운드 또는 음장의 압축된 고차 앰비소닉스(HOA) 표현의 프레임의 계층화된 인코딩 방법이 기술된다. 압축된 HOA 표현은 복수의 전송 신호들을 포함할 수 있다. 전송 신호들은, 예컨대, HOA 표현의 우세 사운드 신호들 또는 계수 시퀀스들 중 어느 하나를 나타내는, 모노럴 신호들에 관련되어 있을 수 있다. 본 방법은 복수의 전송 신호들을 복수의 계층적 레이어들에 배정하는 단계를 포함할 수 있다. 예를 들어, 전송 신호들이 복수의 레이어들에 분배될 수 있다. 복수의 레이어들은 베이스 레이어 및 하나 이상의 계층적 향상 레이어를 포함할 수 있다. 본 방법은 벡터 코딩 모드가 활성인지 여부를 결정하는 단계를 추가로 포함할 수 있다. 본 방법은, 벡터 코딩 모드가 활성인 경우, 각각의 레이어에 대해, 각자의 레이어에 배정된 전송 신호들에 기초하여 연속적 HOA 계수 인덱스들의 세트를 결정하는 단계를 추가로 포함할 수 있다. 연속적 HOA 계수 인덱스들의 세트 내의 HOA 계수 인덱스들은 ContAddHOACoeff 세트에 포함된 HOA 계수 인덱스들일 수 있다. 본 방법은, 생성된 V-벡터가 각자의 전송 신호가 배정되는 레이어보다 상위인 레이어들에 배정된 임의의 전송 신호들에 대한 요소들을 포함하도록, 각각의 전송 신호에 대해, 각자의 전송 신호가 배정되는 레이어에 대한 연속적 HOA 계수 인덱스들의 결정된 세트에 기초하여 V-벡터를 생성하는 단계를 추가로 포함할 수 있다. 본 방법은 생성된 V-벡터를 출력 비트스트림에서 시그널링하는 단계를 추가로 포함할 수 있다.
이와 같이 구성될 때, 제안된 방법은 벡터 코딩 모드에서 최상위 사용가능 레이어까지의 레이어들에 속하는 모든 전송 신호에 대해 적당한 V-벡터가 이용가능하도록 보장한다. 상세하게는, 제안된 방법은 상위 레이어들에서의 전송 신호들에 대응하는 V-벡터의 요소들이 명시적으로 시그널링되지 않는 경우를 제외한다. 그에 따라, 최상위 사용가능 레이어까지의 레이어들에 속하는 임의의 전송 신호들을 디코딩하는 데 최상위 사용가능 레이어까지의 레이어들에 포함된 정보로 충분하다. 그에 의해, 상위 레이어들이 디코더에 의해 유효하게 수신되지 않았을 수 있더라도 하위 레이어들(저 비트레이트 레이어들)에 대한 각자의 재구성된 HOA 표현들의 적절한 압축해제가 있다. 다른 한편으로, 제안된 방법은 계층화된 코딩을 적용할 때 달성될 수 있는 요구 대역폭의 감소를 충분히 이용하는 것을 가능하게 한다.
다른 양태에 따르면, 사운드 또는 음장의 압축된 고차 앰비소닉스(HOA) 표현의 프레임을 디코딩하는 방법이 기술된다. 압축된 HOA 표현은 복수의 계층적 레이어들에 인코딩될 수 있다. 복수의 계층적 레이어들은 베이스 레이어 및 하나 이상의 계층적 향상 레이어를 포함할 수 있다. 본 방법은 압축된 HOA 표현의 프레임에 관련된 비트스트림을 수신하는 단계를 포함할 수 있다. 본 방법은 복수의 레이어들에 대한 페이로드들을 추출하는 단계를 추가로 포함할 수 있다. 각각의 페이로드는 각자의 레이어에 배정된 전송 신호들을 포함할 수 있다. 본 방법은 디코딩을 위한 복수의 레이어들 중의 최상위 사용가능 레이어를 결정하는 단계를 추가로 포함할 수 있다. 본 방법은 최상위 사용가능 레이어에 배정된 HOA 확장 페이로드를 추출하는 단계를 추가로 포함할 수 있다. 이 HOA 확장 페이로드는 최상위 사용가능 레이어에 대응하는 (부분적으로) 재구성된 HOA 표현을 파라미터적으로 향상시키기 위한 보조 정보를 포함할 수 있다. 최상위 사용가능 레이어에 대응하는 (부분적으로) 재구성된 HOA 표현은 최상위 사용가능 레이어 및 최상위 사용가능 레이어보다 하위인 임의의 레이어들에 배정된 전송 신호들에 기초하여 획득가능할 수 있다. 본 방법은 최상위 사용가능 레이어에 대응하는 (부분적으로) 재구성된 HOA 표현을 최상위 사용가능 레이어 및 최상위 사용가능 레이어보다 하위인 임의의 레이어들에 배정된 전송 신호들에 기초하여 생성하는 단계를 추가로 포함할 수 있다. 본 방법은 또한, 최상위 사용가능 레이어에 배정된 HOA 확장 페이로드에 포함된 보조 정보를 사용하여 (부분적으로) 재구성된 HOA 표현을 향상시키는(예컨대, 파라미터적으로 향상시키는) 단계를 추가로 포함할 수 있다. 그 결과, 향상된 재구성된 HOA 표현이 획득될 수 있다.
이와 같이 구성될 때, 제안된 방법은, 이용가능한(예컨대, 유효하게 수신된) 정보를 가능한 한 최대한으로 사용하여, 최종적인 (예컨대, 향상된) 재구성된 HOA 표현이 최적의 품질을 갖도록 보장한다.
실시예들에서, HOA 확장 페이로드들은 HOA 공간 신호 예측 디코딩 도구에 대한 비트스트림 요소들을 포함할 수 있다. 부가적으로 또는 대안적으로, HOA 확장 페이로드들은 HOA 서브대역 방향성 신호 합성 디코딩 도구에 대한 비트스트림 요소들을 포함할 수 있다. 부가적으로 또는 대안적으로, HOA 확장 페이로드들은 HOA 파라메트릭 앰비언스 복제 디코딩 도구에 대한 비트스트림 요소들을 포함할 수 있다.
실시예들에서, HOA 확장 페이로드들은 ID_EXT_ELE_HOA_ENH_LAYER라는 usacExtElementType을 가질 수 있다.
실시예들에서, 본 방법은, 비트스트림을 파싱하는 것에 의해 HOA 구성 확장 페이로드를 추출하는 단계를 추가로 포함할 수 있다. HOA 구성 확장 페이로드는 HOA 공간 신호 예측 디코딩 도구, HOA 서브대역 방향성 신호 합성 디코딩 도구, 및/또는 HOA 파라메트릭 앰비언스 복제 디코딩 도구를 구성하기 위한 비트스트림 요소들을 포함할 수 있다.
실시예들에서, 본 방법은 복수의 레이어들에 각각 배정된 HOA 확장 페이로드들을 추출하는 단계를 추가로 포함할 수 있다. 각각의 HOA 확장 페이로드는 그 각자의 배정된 레이어에 대응하는 (부분적으로) 재구성된 HOA 표현을 파라미터적으로 향상시키기 위한 보조 정보를 포함할 수 있다. 그 각자의 배정된 레이어에 대응하는 (부분적으로) 재구성된 HOA 표현은 그 레이어 및 그 레이어보다 하위인 임의의 레이어들에 배정된 전송 신호들로부터 획득가능할 수 있다. HOA 확장 페이로드들을 각자의 레이어들에 배정하는 것은 비트스트림에 포함된 구성 정보로부터 알 수 있다.
실시예들에서, 최상위 사용가능 레이어를 결정하는 단계는 유효하게 수신되지 않은 레이어들을 표시하는 유효하지 않은 레이어 인덱스들의 세트를 결정하는 단계를 포함할 수 있다. 이는 최상위 사용가능 레이어를 유효하지 않은 레이어 인덱스들의 세트에서의 가장 작은(가장 낮은) 인덱스에 의해 표시되는 레이어 아래의 하나의 레이어인 레이어로서 결정하는 단계를 추가로 포함할 수 있다. 베이스 레이어는 가장 낮은 레이어 인덱스(예컨대, 1의 레이어 인덱스)를 가질 수 있고, 계층적 향상 레이어들은 순차적으로 더 높은 레이어 인덱스들을 가질 수 있다. 그에 의해, 제안된 방법은 최상위 사용가능 레이어들 및 최상위 사용가능 레이어 아래의 임의의 레이어들로부터 (부분적으로) 재구성된 HOA 표현을 디코딩하는 데 요구된 정보 전부가 이용가능한 방식으로 최상위 사용가능 레이어가 선택되도록 보장한다.
실시예들에서, 최상위 사용가능 레이어를 결정하는 단계는 유효하게 수신되지 않은 레이어들을 표시하는 유효하지 않은 레이어 인덱스들의 세트를 결정하는 단계를 포함할 수 있다. 이는 현재 프레임에 선행하는 이전 프레임의 최상위 사용가능 레이어를 결정하는 단계를 추가로 포함할 수 있다. 이는 또한 최상위 사용가능 레이어를 이전 프레임의 최상위 사용가능 레이어 및 유효하지 않은 레이어 인덱스들의 세트에서의 가장 작은 인덱스에 의해 표시되는 레이어 아래의 하나의 레이어인 레이어 중 하위 레이어로서 결정하는 단계를 추가로 포함할 수 있다. 그에 의해, 현재 프레임이 선행 프레임에 대해 차분적으로 인코딩되었더라도, 현재 프레임에 대한 최상위 사용가능 레이어는 최상위 사용가능 레이어 및 최상위 사용가능 레이어 아래의 임의의 레이어들로부터의 (부분적으로) 재구성된 HOA 표현을 디코딩하는 데 요구된 정보 전부가 이용가능하도록 하는 방식으로 선택된다.
실시예들에서, 본 방법은, 현재 프레임의 최상위 사용가능 레이어가 이전 프레임의 최상위 사용가능 레이어보다 하위인 경우 그리고 현재 프레임이 이전 프레임에 대해 차분적으로 코딩된 경우 최상위 사용가능 레이어에 배정된 HOA 확장 페이로드에 포함된 보조 정보를 사용하는 (부분적으로) 재구성된 HOA 표현의 파라메트릭 향상(parametric enhancement)을 수행하지 않기로 결정하는 단계를 추가로 포함할 수 있다. 그에 의해, 현재 프레임(최상위 사용가능 레이어에 배정된 HOA 확장 페이로드에 포함된 보조 정보를 포함함)이 선행 프레임에 대해 차분적으로 인코딩된 경우에, 재구성된 HOA 표현이 에러 없이 디코딩될 수 있다.
실시예들에서, 유효하지 않은 레이어 인덱스들의 세트는 대응하는 HOA 확장 페이로드들의 유효성 플래그들을 평가하는 것에 의해 결정될 수 있다. 각자의 레이어에 배정된 HOA 확장 페이로드에 대한 유효성 플래그가 세트되지 않은 경우, 주어진 레이어의 레이어 인덱스가 유효하지 않은 레이어 인덱스들의 세트에 추가될 수 있다. 그에 의해, 유효하지 않은 레이어 인덱스들의 세트가 효율적인 방식으로 결정될 수 있다.
다른 양태에 따르면, 사운드 또는 음장의 압축된 고차 앰비소닉스(HOA) 표현의 프레임을 표현하는 데이터 구조(예컨대, 비트스트림)가 기술된다. 압축된 HOA 표현은 복수의 전송 신호들을 포함할 수 있다. 데이터 구조는 복수의 계층적 레이어들의 각자의 레이어들에 대응하는 복수의 HOA 프레임 페이로드들을 포함할 수 있다. HOA 프레임 페이로드들은 각자의 전송 신호들을 포함할 수 있다. 복수의 전송 신호들은 복수의 레이어들에 배정(예컨대, 분배)될 수 있다. 복수의 레이어들은 베이스 레이어 및 하나 이상의 계층적 향상 레이어를 포함할 수 있다. 데이터 구조는, 각각의 레이어에 대해, 각자의 레이어 및 각자의 레이어보다 하위인 임의의 레이어들에 배정된 전송 신호들로부터 획득가능한 (부분적으로) 재구성된 HOA 표현을 파라미터적으로 향상시키기 위한 보조 정보를 포함하는 각자의 HOA 확장 페이로드를 추가로 포함할 수 있다.
실시예들에서, 복수의 레이어들에 대한 HOA 프레임 페이로드들 및 HOA 확장 페이로드들이 각자의 에러 방지 레벨들로 제공될 수 있다. 베이스 레이어는 가장 높은 에러 방지를 가질 수 있고 하나 이상의 향상 레이어는 순차적으로 감소하는 에러 방지를 가질 수 있다.
실시예들에서, HOA 확장 페이로드들은 HOA 공간 신호 예측 디코딩 도구에 대한 비트스트림 요소들을 포함할 수 있다. 부가적으로 또는 대안적으로, HOA 확장 페이로드들은 HOA 서브대역 방향성 신호 합성 디코딩 도구에 대한 비트스트림 요소들을 포함할 수 있다. 부가적으로 또는 대안적으로, HOA 확장 페이로드들은 HOA 파라메트릭 앰비언스 복제 디코딩 도구에 대한 비트스트림 요소들을 포함할 수 있다.
실시예들에서, HOA 확장 페이로드들은 ID_EXT_ELE_HOA_ENH_LAYER라는 usacExtElementType을 가질 수 있다.
실시예들에서, 데이터 구조는 HOA 공간 신호 예측 디코딩 도구, HOA 서브대역 방향성 신호 합성 디코딩 도구, 및/또는 HOA 파라메트릭 앰비언스 복제 디코딩 도구를 구성하기 위한 비트스트림 요소들을 포함하는 HOA 구성 확장 페이로드를 추가로 포함할 수 있다.
실시예들에서, 데이터 구조는 HOA 확장 페이로드들을 복수의 레이어들에 배정하는 것을 표시하는 정보를 포함하는 HOA 디코더 구성 페이로드를 추가로 포함할 수 있다.
실시예들에서, 방법들 및 장치들은 사운드 또는 음장의 압축된 고차 앰비소닉스(HOA) 표현을 디코딩하는 것에 관한 것이다. 본 장치는 베이스 레이어 및 하나 이상의 계층적 향상 레이어를 포함하는 복수의 계층적 레이어들에 대응하는 압축된 HOA 표현을 포함하는 비트스트림을 수신하고 - 복수의 레이어들은 사운드 또는 음장의 기본 압축된 사운드 표현의 컴포넌트들을 배정받았고, 컴포넌트들은 각자의 컴포넌트 그룹들 내의 각자의 레이어들에 배정됨 -, 디코딩을 위한 복수의 레이어들 중의 최상위 사용가능 레이어를 결정하며; 최상위 사용가능 레이어에 배정된 HOA 확장 페이로드를 추출하며 - HOA 확장 페이로드는 최상위 사용가능 레이어에 대응하는 재구성된 HOA 표현을 파라미터적으로 향상시키기 위한 보조 정보를 포함하고, 최상위 사용가능 레이어에 대응하는 재구성된 HOA 표현은 최상위 사용가능 레이어 및 최상위 사용가능 레이어보다 하위인 임의의 레이어들에 배정된 전송 신호들에 기초하여 획득가능함 -; 최상위 사용가능 레이어에 대응하는 압축된 HOA 표현을 레이어 정보에 기초하여 디코딩하고 - 전송 신호들은 최상위 사용가능 레이어 및 최상위 사용가능 레이어보다 하위인 임의의 레이어들에 배정됨 -; 및 최상위 사용가능 레이어에 배정된 HOA 확장 페이로드에 포함된 보조 정보를 사용하여 디코딩된 HOA 표현을 파라미터적으로 향상시키도록 구성될 수 있거나 본 방법은 그 단계들을 포함할 수 있다.
HOA 확장 페이로드는 HOA 공간 신호 예측 디코딩 도구에 대한 비트스트림 요소들을 포함할 수 있다. 레이어 정보는 향상 레이어의 현재 프레임 내의 활성 방향성 신호들의 수를 표시할 수 있다.
레이어 정보는 향상 레이어에 대한 부가의 주변 HOA 계수들의 총수를 표시할 수 있다. 레이어 정보는 향상 레이어에 대한 각각의 부가의 주변 HOA 계수에 대한 HOA 계수 인덱스들을 포함할 수 있다. 레이어 정보는 공간 신호 예측, 서브대역 방향성 신호 합성 및 파라메트릭 앰비언스 복제 디코더 중 적어도 하나를 포함하는 향상 정보를 포함할 수 있다. 압축된 HOA 표현은, 1과 동일한 CodedVVecLength가 HOADecoderConfig()에서 시그널링되는 경우, HOA 기반 콘텐츠에 대한 계층화된 코딩 모드에 적합화되어 있다. 게다가, ContAddHoaCoeff 세트에 포함된 부가의 HOA 계수들의 인덱스들과 동일한 인덱스들에 대해 V-벡터 요소들이 전송되지 않을 수 있다. ContAddHoaCoeff 세트가 복수의 계층적 레이어들 각각에 대해 개별적으로 정의될 수 있다. 레이어 정보는 NumLayers개의 요소들을 포함하며, 여기서 각각의 요소는 제i 레이어까지의 레이어들 전부에 포함된 전송 신호들의 수를 표시한다. 레이어 정보는 제k 프레임에 대해 실제로 사용된 레이어들 전부의 지시자(indicator)를 포함할 수 있다. 레이어 정보는 또한 우세 벡터(predominant vector)들에 대한 계수들 전부가 명시되어 있다는 것을 표시할 수 있다. 레이어 정보는 MinNumOfCoeffsForAmbHOA보다 더 큰 숫자에 대응하는 우세 벡터들의 계수들이 명시되어 있다는 것을 표시할 수 있다. 레이어 정보는 ContAddHoaCoeff[lay]에 정의된 요소들 전부 및 MinNumOfCoeffsForAmbHOA가 전송되지 않는다는 것을 표시할 수 있고, 여기서 lay는 벡터에 대응하는 벡터 기반 신호를 포함하는 레이어의 인덱스이다.
다른 양태에 따르면, 사운드 또는 음장의 압축된 고차 앰비소닉스(HOA) 표현의 프레임의 계층화된 인코딩을 위한 인코더가 기술된다. 압축된 HOA 표현은 복수의 전송 신호들을 포함할 수 있다. 인코더는 앞서 언급된 제1 양태 및 앞서 언급된 제2 양태에 따른 방법들의 방법 단계들의 일부 또는 전부를 수행하도록 구성된 프로세서를 포함할 수 있다.
다른 양태에 따르면, 사운드 또는 음장의 압축된 고차 앰비소닉스(HOA) 표현의 프레임을 디코딩하기 위한 디코더가 기술된다. 압축된 HOA 표현은 베이스 레이어 및 하나 이상의 계층적 향상 레이어를 포함하는 복수의 계층적 레이어들에 인코딩될 수 있다. 디코더는 앞서 언급된 제3 양태에 따른 방법들의 방법 단계들의 일부 또는 전부를 수행하도록 구성된 프로세서를 포함할 수 있다.
다른 양태에 따르면, 소프트웨어 프로그램이 기술된다. 소프트웨어 프로그램은 프로세서 상에서 실행되도록 그리고 컴퓨팅 디바이스 상에서 실행될 때 본 문서에 개요가 기술된 방법 단계들 중 일부 또는 전부를 수행하도록 적합화될 수 있다.
또 다른 양태에 따르면, 저장 매체가 기술된다. 저장 매체는 프로세서 상에서 실행되도록 그리고 컴퓨팅 디바이스 상에서 실행될 때 본 문서에 개요가 기술된 방법 단계들 중 일부 또는 전부를 수행하도록 적합화된 소프트웨어 프로그램을 포함할 수 있다.
이상의 양태들 또는 그의 실시예들 중 임의의 것에 관해 이루어진 진술들이, 통상의 기술자가 알게 될 것인 바와 같이, 각자의 다른 양태들 또는 그들의 실시예들에도 적용된다는 것을 알 것이다. 이 진술들을 모든 양태 또는 실시예에 대해 반복하는 것이 간결함을 위해 생략되었다.
본 방법들 및 장치들이, 본 문서에 개요가 기술된 그들의 바람직한 실시예들을 비롯하여, 단독으로 또는 본 문서에 개시된 다른 방법들 및 시스템들과 결합하여 사용될 수 있다는 것에 유의해야 한다. 게다가, 본 문서에 개요가 기술된 방법들 및 장치들의 모든 양태들이 임의적으로 조합될 수 있다. 상세하게는, 청구항들의 피처(feature)들이 임의적인 방식으로 서로 조합될 수 있다.
방법 단계들 및 장치 피처들이 많은 방식들로 상호교환될 수 있다는 것에 추가로 유의해야 한다. 상세하게는, 통상의 기술자가 알 것인 바와 같이, 개시된 방법의 상세들이 방법의 단계들의 일부 또는 전부를 실행하도록 적합화된 장치로서 구현될 수 있고 그 반대일 수도 있다.
본 발명이 이하에서 예시적으로 첨부 도면들을 참조하여 설명된다.
도 1은 인코더측에서 페이로드들을 베이스 레이어 및 M-1개의 향상 레이어에 배정하는 것을 개략적으로 예시한 블록 다이어그램;
도 2는 수신기 및 압축해제 스테이지의 일 예를 개략적으로 예시한 블록 다이어그램;
도 3은 본 개시내용의 실시예들에 따른 압축된 HOA 표현의 프레임의 계층화된 인코딩 방법의 일 예를 예시한 플로차트;
도 4는 본 개시내용의 실시예들에 따른 압축된 HOA 표현의 프레임의 계층화된 인코딩 방법의 다른 예를 예시한 플로차트;
도 5는 본 개시내용의 실시예들에 따른 압축된 HOA 표현의 프레임을 디코딩하는 방법의 일 예를 예시한 플로차트;
도 6은 본 개시내용의 실시예들에 따른 인코더의 하드웨어 구현의 일 예를 개략적으로 예시한 블록 다이어그램;
도 7은 본 개시내용의 실시예들에 따른 디코더의 하드웨어 구현의 일 예를 개략적으로 예시한 블록 다이어그램.
먼저, 본 개시내용에 따른 방법들 및 인코더들/디코더들이 적용가능할 수 있는 압축된 사운드(또는 음장) 표현이 기술될 것이다.
시변 조건들을 갖는 전송 채널을 통해 압축된 사운드(또는 음장) 표현을 스트리밍하기 위해, 계층화된 코딩은 수신된 사운드 표현의 품질을 전송 조건들에 적응시키기 위한, 그리고 상세하게는 원하지 않는 신호 드롭아웃(signal dropout)들을 회피하기 위한 수단이다.
계층화된 코딩의 경우, 압축된 사운드(또는 음장) 표현은 보통 비교적 작은 크기의 고 우선순위 베이스 레이어(base layer)와 점감하는 우선순위(decremental priority)들 및 임의적 크기들을 갖는 부가의 향상 레이어(enhancement layer)들로 세분된다. 각각의 향상 레이어는 전형적으로 압축된 사운드(또는 음장) 표현의 품질을 개선시키기 위해 하위 레이어들 전부의 정보를 보완하는 증분적 정보(incremental information)를 포함하는 것으로 가정된다. 고안은 그러면 개별 레이어들을 그들의 우선순위에 따라 전송하기 위해 에러 방지의 양을 제어하는 것이다. 상세하게는, 베이스 레이어는 높은 에러 방지를 제공받으며, 이는 베이스 레이어의 작은 크기로 인해 타당하고 무난한 것이다.
이하에서, 완전한 압축된 사운드(또는 음장) 표현이 일반적으로 하기의 3개의 컴포넌트로 이루어져 있다고 가정된다:
1. 완전한 압축된 사운드(또는 음장) 표현의 두드러지게 가장 큰 비율을 차지하는, 다수의 상보적 컴포넌트들로 이루어진 기본 압축된 사운드(또는 음장) 표현.
2. 기본 압축된 사운드(또는 음장) 표현과 비교하여 훨씬 더 작은 크기인 것으로 가정되는, 기본 압축된 사운드 표현을 디코딩하는 데 필요한 기본 보조 정보. 이는 대부분 하기의 2개의 컴포넌트로 이루어져 있는 것으로 추가로 가정되고, 그 둘 다는 기본 압축된 사운드 표현의 단지 하나의 특정 컴포넌트의 압축해제를 명시한다.
a) 제1 컴포넌트는 기본 압축된 사운드(또는 음장) 표현의 개별 상보적 컴포넌트들을 다른 상보적 컴포넌트들과 독립적으로 기술하는 보조 정보를 포함한다.
b) 제2 (임의적인) 컴포넌트는 기본 압축된 사운드(또는 음장) 표현의 개별 상보적 컴포넌트들을 다른 상보적 컴포넌트들에 의존하여 기술하는 보조 정보를 포함한다. 상세하게는, 종속성(dependence)은 다음과 같은 특성들을 갖는다:
Figure pat00001
기본 압축된 사운드(또는 음장) 표현의 각각의 개별 상보적 컴포넌트에 대한 종속적 보조 정보는, 기본 압축된 사운드(또는 음장) 표현에 다른 특정 상보적 컴포넌트들이 포함되어 있지 않은 경우에, 그의 가장 큰 크기(extent)를 달성할 수 있다.
Figure pat00002
부가의 특정 상보적 컴포넌트들이 기본 압축된 사운드(또는 음장) 표현에 추가되는 경우에, 고려된 개별 상보적 컴포넌트에 대한 종속적 보조 정보는 원래의 종속적 보조 정보의 서브세트로 되고, 그에 의해 그의 크기를 감소시킨다.
3. 기본 압축된 사운드(또는 음장) 표현을 개선시키기 위한 임의적인 향상 보조 정보. 그의 크기가 또한 기본 압축된 사운드(또는 음장) 표현의 크기보다 훨씬 더 작은 것으로 가정된다.
이러한 유형의 완전한 압축된 사운드(또는 음장) 표현의 하나의 두드러진 예는 MPEG-H 3D 오디오 표준의 예비 버전에 의해 명시된 바와 같은 압축된 HOA 음장 표현에 의해 주어진다.
1. 그의 기본 압축된 음장 표현은 소위 주변 HOA 음장 컴포넌트의 소위 우세 사운드 신호들 또는 계수 시퀀스들 중 어느 하나를 표현하는, 다수의 양자화된 모노럴 신호들로 식별될 수 있다.
2. 기본 보조 정보는, 그 중에서도 특히, 이 모노럴 신호들 각각에 대해 모노럴 신호가 음장에 어떻게 공간적으로 기여하는지를 기술한다. 이 정보는 하기의 2개의 상이한 컴포넌트로 추가로 분리될 수 있다:
(a) 다른 모노럴 신호들의 존재와 독립적인, 특정 개별 모노럴 신호들에 관련된 보조 정보. 이러한 보조 정보는, 예를 들어, 특정 입사 방향을 갖는 방향성 신호(일반 평면파를 의미함)를 표현하는 모노럴 신호를 명시할 수 있다. 대안적으로, 모노럴 신호는 특정 인덱스를 갖는 원래의 HOA 표현의 계수 시퀀스로서 명시될 수 있다.
(b) 다른 모노럴 신호들의 존재에 의존적인, 특정 개별 모노럴 신호들에 관련된 보조 정보. 이러한 보조 정보는, 예컨대, 모노럴 신호들이 소위 벡터 기반 신호들인 것으로 명시되는 경우 - 이는 모노럴 신호들이 음장 내에서 방향성으로 분포된다는 것을 의미하고, 여기서 방향성 분포는 벡터에 의해 명시됨 -, 발생된다. 특정 모드(즉, CodedVVecLength = 1)에서, 이 벡터의 특정의 컴포넌트들은 암시적으로 0으로 설정되고 압축된 벡터 표현의 일부가 아니다. 이 컴포넌트들은 원래의 HOA 표현의 계수 시퀀스들의 인덱스들과 동일한 인덱스들을 갖는 컴포넌트들이고 기본 압축된 음장 표현의 일부이다. 이는, 벡터의 개별 컴포넌트들이 코딩되는 경우, 그들의 총수가 기본 압축된 음장 표현에, 상세하게는 기본 압축된 음장 표현이 원래의 HOA 표현의 어느 계수 시퀀스들을 포함하는지에 의존한다는 것을 의미한다.
원래의 HOA 표현의 계수 시퀀스들이 기본 압축된 음장 표현에 포함되지 않은 경우, 각각의 벡터 기반 신호에 대한 종속적 기본 보조 정보는 벡터 컴포넌트들 전부로 이루어져 있고 그의 가장 큰 크기를 갖는다. 특정 인덱스들을 갖는 원래의 HOA 표현의 계수 시퀀스들이 기본 압축된 음장 표현에 추가되는 경우에, 그 인덱스들을 갖는 벡터 컴포넌트들이 각각의 벡터 기반 신호에 대한 보조 정보로부터 제거되고, 그에 의해 벡터 기반 신호들에 대한 종속적 기본 보조 정보의 크기를 감소시킨다.
3. 향상 보조 정보는 하기의 컴포넌트들로 이루어져 있다:
Figure pat00003
방향성 신호들로부터 음장의 누락 부분들을 (선형적으로) 예측하는 소위 (광대역) 공간 예측에 관련된 파라미터들.
Figure pat00004
지금까지는 공간적으로 불완전한 또는 결함있는 압축된 HOA 표현을 보완하기 위해 부가의 모노럴 신호들의 주파수 종속적 파라메트릭 예측(frequency dependent, parametric prediction)이 공간적으로 분산될 수 있게 하는 압축 도구들인, 소위 서브대역 방향성 신호 합성 및 파라메트릭 앰비언스 복제에 관련된 파라미터들. 예측은 기본 압축된 음장 표현의 계수 시퀀스들에 기초한다. 중요한 양태는 음장에 대한 언급된 상보적 기여가, 부가의 양자화된 신호들에 의해서가 아니라 오히려 비교할 수 있을 정도로 훨씬 더 작은 크기의 추가의 보조 정보에 의해, 압축된 HOA 표현 내에 표현된다는 것이다. 따라서, 2개의 언급된 코딩 도구는 낮은 데이터 레이트들에서 HOA 표현들의 압축에 특히 적합하다.
앞서 언급된 구조를 갖는 모노럴 신호의 압축된 표현의 제2 예는 하기의 컴포넌트들로 이루어져 있을 수 있다:
1. 기본 압축된 표현으로 간주될 수 있는, 특정 상부 주파수까지의 비중복 주파수 대역(disjoint frequency band)들에 대한 어떤 코딩된 스펙트럼 정보.
2. (예컨대, 코딩된 주파수 대역들의 수 및 폭에 의해) 코딩된 스펙트럼 정보를 명시하는 어떤 기본 보조 정보.
3. 기본 압축된 표현에서 고려되지 않은 상위 주파수 대역들에 대한 스펙트럼 정보를 기본 압축된 표현으로부터 어떻게 파라미터적으로 재구성할지를 기술하는, 소위 스펙트럼 대역 복제(Spectral Band Replication)(SBR)의 파라미터들로 이루어진 어떤 향상 보조 정보.
다음에, 앞서 언급된 구조를 갖는 완전한 압축된 사운드(또는 음장) 표현의 계층화된 코딩을 위한 방법이 기술될 것이다.
압축이 연속적 시간 구간들, 예를 들어, 동일한 크기의 시간 구간들에 대한 (예컨대, 데이터 패킷들 또는 등가적으로 프레임 페이로드들의 형태의) 압축된 표현들을 제공한다는 의미에서, 압축이 프레임 기반이라고 가정된다. 이 데이터 패킷들은 유효성 플래그, 그들의 크기를 표시하는 값은 물론 실제의 압축된 표현 데이터를 포함하는 것으로 가정된다. 이하의 설명 전체에 걸쳐, 주로 단일 프레임의 처리에 중점을 둘 것이고, 따라서 프레임 인덱스가 생략될 것이다.
고려된 완전한 압축된 사운드(또는 음장) 표현(1100)의 각각의 프레임 페이로드는 BSRCj, j = 1, ..., J에 의해 표기되는 J개의 데이터 패킷 - 각각은 기본 압축된 사운드(또는 음장) 표현의 하나의 컴포넌트(1110-1, ..., 1110-J)에 대한 것임 - 을 포함하는 것으로 가정된다. 게다가, 프레임 페이로드는 기본 압축된 사운드 표현의 특정의 컴포넌트들(BSRCj)을 다른 컴포넌트들과 독립적으로 명시하는 BSII에 의해 표기된 독립적 기본 보조 정보(1120)를 갖는 패킷을 포함하는 것으로 가정된다. 임의로, 프레임 페이로드는, 그에 부가하여, 기본 압축된 사운드 표현의 특정의 컴포넌트들(BSRCj)을 다른 컴포넌트들에 의존하여 명시하는 BSID에 의해 표기된 종속적 기본 보조 정보를 갖는 패킷을 포함하는 것으로 가정된다. 2개의 데이터 패킷(BSII 및 BSID) 내에 포함된 정보는 단일 데이터 패킷(BSI)으로 임의로 그룹화될 수 있다.
궁극적으로, 프레임 페이로드는 완전한 기본 압축된 표현으로부터 재구성된 사운드(또는 음장)를 어떻게 개선시킬지에 대한 설명을 갖는 ESI에 의해 표기된 향상 보조 정보 페이로드를 포함한다.
계층화된 코딩을 위한 기술된 스킴은 전송을 위한 데이터 패킷들의 패킹(packing)을 포함하는 압축 파트는 물론 수신기 및 압축해제 파트 둘 다를 가능하게 하는 데 요구된 단계들을 다루고 있다. 각각의 파트는 이하에서 상세히 기술될 것이다.
먼저, 전송을 위한 압축 및 패킹이 기술될 것이다. 계층화된 코딩(총 M개의 레이어, 즉 하나의 기본 레이어 및 M-1개의 향상 레이어를 가정함)의 경우에, 완전한 압축된 사운드(또는 음장) 표현(1100)의 각각의 컴포넌트는 다음과 같이 처리된다:
Figure pat00005
기본 압축된 사운드(또는 음장) 표현은 개별 레이어들에 배정될 파트들로 세분된다. 일반성을 잃지 않고, Jm-1 ≤ j < Jm에 대해 BSRCj가 제m 레이어에 배정되도록, 그룹화는 M+1개의 숫자들(Jm, m = 0, .., M이고, J0 = 1이며 JM = J+1임)에 의해 기술될 수 있다.
Figure pat00006
그의 작은 크기로 인해, 그의 불필요한 단편화를 회피하기 위해 완전한 기본 보조 정보를 베이스 레이어에 배정하는 것이 타당하다. 독립적 기본 보조 정보(BSII)는 배정을 위해 변경되지 않은 채로 있지만, 한편으로는 수신기측에서의 올바른 디코딩을 가능하게 하기 위해 그리고 다른 한편으로는 전송될 종속적 보조 정보의 크기를 감소시키기 위해, 종속적 기본 보조 정보가 특히 계층화된 코딩을 위해 핸들링되어야만 한다. 종속적 기본 보조 정보를 BSID,m, m = 1,...,M에 의해 표기된 M개의 파트(1130-1, ..., 1130-M)로 분해하는 것이 제안되고, 여기서, 각자의 종속적 보조 정보가 존재하는 경우, 제m 파트는 제m 레이어에 배정된 기본 압축된 사운드 표현의 컴포넌트들(BSRCj, Jm-1 ≤ j <Jm) 각각에 대한 종속적 보조 정보를 포함한다. 각자의 종속적 보조 정보가 존재하지 않는 경우에, BSID,m이 비어있는 것으로 가정된다. 보조 정보(BSID,m)는, 제m 레이어까지의 레이어들 전부에 포함된, 컴포넌트들(BSRCj, 1 ≤ j < Jm) 전부에 의존한다.
Figure pat00007
계층화된 코딩의 경우에, 각각의 레이어에 대해 추가로 향상 보조 정보가 계산되어야만 하는 것을 실현하는 것이 중요한데, 그 이유는 예비적 압축해제된 사운드(또는 음장)를 향상시키는 것 - 그렇지만 이는 압축해제를 위해 이용가능한 레이어들에 의존함 - 이 의도되어 있기 때문이다. 따라서, 압축은, ESIm, m = 1, ..., M에 의해 표기된, M개의 개별 향상 보조 정보 데이터 패킷(1140-1, ..., 1140-M)을 제공해야만 하고, 여기서 제m 데이터 패킷(ESIm) 내의 향상 보조 정보는, 예컨대, 베이스 레이어 및 m보다 더 낮은 인덱스들을 갖는 향상 레이어들에 포함된 데이터 전부로부터 획득된 사운드(또는 음장) 표현을 향상시키도록 계산된다.
요약하면, 압축 스테이지에서, 하기의 조성(composition)을 갖는, FRAME에 의해 표기된, 프레임 데이터 패킷이 제공되어야만 한다:
Figure pat00008
프레임 데이터 패킷을 갖는 개별 페이로드들의 순서화가 일반적으로 임의적이라는 것이 이해된다.
이미 기술된, 개별 페이로드들을 베이스 및 향상 레이어들에 배정하는 것은 소위 전송 레이어들 패커(transport layers packer)에 의해 달성되며 도 1에 개략적으로 예시되어 있다.
다음에, 수신 및 압축해제가 기술될 것이다. 대응하는 수신기 및 압축해제 스테이지가 도 2에 예시되어 있다.
먼저, 완전한 압축된 사운드(또는 음장) 표현 - 이는 이어서 압축해제기(2100)에 전달됨 - 의 수신된 프레임 패킷
Figure pat00009
을 제공하기 위해 개별 레이어 패킷들(1200, 1300-1, ..., 1300-(M-1))이 멀티플렉싱된다. 개별 레이어의 전송이 에러가 없는 경우, 적어도 포함된 향상 보조 정보 페이로드의 유효성 플래그가 "참(true)"으로 설정되는 것으로 가정된다. 개별 레이어의 전송으로 인한 에러의 경우에, 이 레이어에서의 적어도 향상 보조 정보 페이로드 내의 유효성 플래그는 "거짓(false)"으로 설정된다. 따라서, 레이어 패킷의 유효성은 포함된 향상 보조 정보 페이로드의 유효성으로부터 결정될 수 있다.
압축해제기(2100)에서, 수신된 프레임 패킷이 먼저 디멀티플렉싱된다. 이를 위해, 개별 페이로드들의 데이터의 불필요한 파싱을 회피하기 위해 각각의 페이로드의 크기에 관한 정보가 이용될 수 있다.
다음 단계에서, 기본 사운드 표현의 압축해제를 위해 실제로 사용될 최상위 레이어의 번호(NB)가 선택된다. 기본 사운드 표현의 압축해제를 위해 실제로 사용될 최상위 향상 레이어는 NB - 1에 의해 주어진다. 각각의 레이어가 정확히 하나의 향상 보조 정보 페이로드를 포함하기 때문에, 포함측 레이어(containing layer)가 유효한지 여부는 각각의 향상 보조 정보 페이로드로부터 알 수 있다. 따라서, 선택은 향상 보조 정보 페이로드들(ESIm, m = 1, ..., M) 전부를 사용하여 달성될 수 있다. 그에 부가하여, 압축해제를 위해 사용될 향상 보조 정보 페이로드의 인덱스(NE)가 결정되며, 인덱스(NE)는 항상 NB와 동일하거나 0이다. 이것은 향상이 항상 기본 사운드 표현에 따라 달성되거나 전혀 달성되지 않는다는 것을 의미한다. 선택에 대한 보다 상세한 설명은 이하에서 추가로 주어진다.
연속적으로, 기본 압축된 사운드 표현 컴포넌트들(BSRC1, ..., BSRCj)의 페이로드들이 기본 보조 정보 페이로드들(즉 BSII 및 BSID,m, m = 1, ..., M) 전부 및 값(NB)과 함께 기본 표현 압축해제 처리 유닛(2200)에 전달되고, 기본 표현 압축해제 처리 유닛(2200)은 최하위 NB개의 레이어(즉, 베이스 레이어 및 NB - 1개의 향상 레이어) 내에 포함된 그 기본 압축된 사운드 표현 컴포넌트들만을 사용하여 기본 사운드(또는 음장) 표현을 재구성한다. 기본 압축된 사운드(또는 음장) 표현의 어느 컴포넌트들이 개별 레이어들에 포함되는지에 관한 요구된 정보는 구성 정보를 갖는 데이터 패킷으로부터 압축해제기(2100)에 알려지는 것으로 가정되며, 이 구성 정보는 프레임 데이터 패킷들 이전에 송신 및 수신되는 것으로 가정된다. 각각의 개별 종속적 기본 보조 정보 페이로드(BSID,m, m = 1,..., NB)의 실제 디코딩은 다음과 같이 2개의 파트로 분할될 수 있다:
1. 인코딩 스테이지에서 가정된, 처음 m개의 레이어에 포함된 처음 Jm - 1개의 기본 압축된 사운드 표현 컴포넌트(
Figure pat00010
)에 대한 그의 종속성을 이용하는 것에 의한 각각의 페이로드(BSID,m, m = 1, ..., NB)의 예비적 디코딩.
2. 기본 사운드 컴포넌트가, 예비적 디코딩에 대해 가정된 것보다 더 많은 컴포넌트들인, 처음 NB > m개의 레이어에 포함된 처음
Figure pat00011
개의 기본 압축된 사운드 표현 컴포넌트(
Figure pat00012
)로부터 최종적으로 재구성된다는 것을 고려하는 것에 의한 각각의 페이로드(BSID,m, m = 1,...,NB)의 연속적 정정. 따라서, 정정은 오래된 정보를 폐기하는 것에 의해 달성될 수 있으며, 이는 특정 상보적 컴포넌트들이 기본 압축된 사운드(또는 음장) 표현에 추가되는 경우, 각각의 개별 상보적 컴포넌트에 대한 종속적 기본 보조 정보가 원래의 종속적 기본 보조 정보의 서브세트로 된다는 종속적 기본 보조 정보의 초기에 가정된 특성으로 인해 가능하다.
궁극적으로, 재구성된 기본 사운드(또는 음장) 표현은, 향상 보조 정보 페이로드들(ESI1, ..., ESIM) 전부, 기본 보조 정보 페이로드들(BSII 및 BSID,m, m = 1,...,M), 및 값(NE)과 함께, 향상된 표현 압축해제 처리 유닛(2300)에 제공되고, 향상된 표현 압축해제 처리 유닛(2300)은, 향상 보조 정보 페이로드(
Figure pat00013
)만을 사용하고 다른 향상 보조 정보 페이로드들 전부를 폐기하는 것에 의해, 최종적인 향상된 사운드(또는 음장) 표현을 계산한다. NE의 값이 0인 경우, 향상 보조 정보 페이로드들 전부가 폐기되고 재구성된 최종적인 향상된 사운드(또는 음장) 표현은 재구성된 기본 사운드(또는 음장) 표현과 동일하다.
다음에, 레이어 선택이 기술될 것이다. 프레임 데이터 패킷들 전부가 서로 독립적으로 압축해제될 수 있는 경우에, 기본 사운드 표현의 압축해제를 위해 실제로 사용될 최상위 레이어의 번호(NB) 및 압축해제를 위해 사용될 향상 보조 정보 페이로드의 인덱스(NE) 둘 다가 유효한 향상 보조 정보 페이로드의 가장 높은 번호(L)로 설정되고, 유효한 향상 보조 정보 페이로드 자체는 향상 보조 정보 페이로드들 내의 유효성 플래그들을 평가하는 것에 의해 결정될 수 있다. 각각의 향상 보조 정보 페이로드의 크기에 대한 지식을 이용하는 것에 의해, 페이로드들의 유효성을 결정하기 위한 페이로드들의 실제 데이터의 복잡한 파싱이 회피될 수 있다.
프레임간 종속성(inter-frame dependency)들을 갖는 차분 압축해제(differential decompression)가 이용되는 경우에, 이전 프레임으로부터의 결정이 또한 고려되어야만 한다. 차분 압축해제에서, 독립적인 프레임 데이터 패킷들이 규칙적인 시간 간격들로, 이 시각(time instant)들로부터 압축해제를 시작하는 것을 가능하게 하도록, 전송되고, 여기서 값들(NB 및 NE)의 결정은 프레임 독립적으로 되고 앞서 기술된 바와 같이 수행된다.
프레임 종속적 결정을 상세히 설명하기 위해, 먼저 제k 프레임에 대해
Figure pat00014
유효한 향상 보조 정보 페이로드의 가장 높은 번호는 L(k)로
Figure pat00015
기본 사운드 표현의 압축해제를 위해 선택 및 사용될 최상위 레이어 번호(예컨대, 레이어 인덱스)는 NB(k)로
Figure pat00016
압축해제를 위해 사용될 향상 보조 정보 페이로드의 번호는 NE(k)로
표기한다. 이 기법을 사용하여, NB(k)로 되어 있는 기본 사운드 표현의 압축해제를 위해 사용될 최상위 레이어 번호는
Figure pat00017
에 따라 계산된다.
L(k) 및 NB(k-1)보다 크지 않은 NB(k)를 선택하는 것에 의해, 기본 사운드 표현의 차분 압축해제를 위해 요구된 정보 전부가 이용가능하도록 보장된다.
압축해제를 위해 사용될 향상 보조 정보 페이로드의 번호(NE(k))는
Figure pat00018
에 따라 결정된다.
이것은 상세하게는, 기본 사운드 표현의 압축해제를 위해 사용될 최상위 레이어 번호(NB(k))가 변하지 않는 한, 동일한 대응하는 향상 레이어 번호가 선택된다는 것을 의미한다. 그렇지만, NB(k)의 변화의 경우에, NE(k)를 0으로 설정하는 것에 의해 향상이 디스에이블된다. 향상 보조 정보의 가정된 차분 압축해제로 인해, NB(k)에 따른 그의 변화가 가능하지 않은데, 그 이유는 그것이 수행되지 않은 것으로 가정되는 이전 프레임에서의 대응하는 향상 보조 정보 레이어의 압축해제를 요구할 것이기 때문이다.
대안적으로, 압축해제에서 NE(k)까지의 번호들을 갖는 향상 보조 정보 페이로드들 전부가 병렬로 압축해제되는 경우, 선택 규칙(수학식 4)이
Figure pat00019
로 대체될 수 있다.
마지막으로, 차분 압축해제의 경우 최상위 사용된 레이어의 번호가 독립적 프레임 데이터 패킷들에서만 증가할 수 있는 반면, 모든 프레임에서 감소가 가능하다는 것에 유의해야 한다.
다음에, 압축된 사운드 표현의 프레임의 계층화된 코딩에 그리고 인코딩된 압축된 사운드 표현의 프레임을 표현하는 데이터 구조(예컨대, 비트스트림)에 관한 본 개시내용의 실시예들이 압축된 HOA 표현의 경우에 대해 기술될 것이다. 상세하게는, 압축된 HOA 표현의 계층화된 코딩 스킴에 대한 제안된 변경들이 기술될 것이다.
HOA 기반 콘텐츠에 대한 계층화된 코딩 모드의 정정으로서, 공간 신호 예측, 서브대역 방향성 신호 합성 및 파라메트릭 앰비언스 복제(PAR) 디코더와 같은 HOA 디코딩 도구들의 구성 및 프레임 페이로드들을 대응하는 HOA 향상 레이어에 보다 잘 적응시키기 위해 새로운 usacExtElementType이 정의된다. HOA 기반 콘텐츠에 대한 계층화된 코딩 모드가 활성화된 경우 - 이는 SingleLayer==0에 의해 시그널링됨 -, 이 도구들의 대응하는 비트스트림 요소들을 (베이스 레이어 및 하나 이상의 향상 레이어를 비롯한) 각각의 레이어에 대한 새로운 유형의 하나의 부가의 HOA 확장 페이로드로 이동시키는 것이 제안된다.
이 도구들에 대한 보조 정보가 특정 HOA 표현을 향상시키기 위해 생성되기 때문에 확장이 행해져야만 한다. 계층화된 HOA 코딩의 현재 정의에서, 제공된 데이터는 최상위 레이어의 HOA 표현을 적절히 확장시킬 뿐이다. 하위 레이어들에 대해, 이 도구들은 부분적으로 재구성된 HOA 표현을 적절히 향상시키지 못한다.
따라서, 이 도구들을 대응하는 레이어의 재구성된 HOA 표현에 보다 잘 적응시키기 위해 각각의 레이어에 대한 이 도구들의 보조 정보를 제공하는 것이 보다 나을 것이다.
그에 부가하여, 서브대역 방향성 신호 합성 및 파라메트릭 앰비언스 복제 디코더와 같은 도구들은, 몇 개의 전송 신호만이 이용가능한, 낮은 데이터 레이트들을 위해 특별히 설계되어 있다. 제안된 확장은 따라서 이 도구들의 보조 정보를 레이어에서의 전송 신호들의 수에 따라 최적으로 적응시킬 수 있는 것을 제공할 것이다. 그에 따라, 저 비트 레이트 레이어들, 예컨대, 베이스 레이어에 대한 재구성된 HOA 표현의 사운드 품질이 기존의 계층화된 접근법에 비해 상당히 증가될 수 있다.
게다가, 1과 동일한 CodedVVecLength가 HOADecoderConfig()에서 시그널링되는 경우 벡터 기반 신호들에 대한 인코딩된 V-벡터 요소들에 대한 비트스트림 신택스가 HOA 계층화된 코딩에 적합화되어야만 한다. 이 벡터 코딩 모드에서, ContAddHoaCoeff 세트에 포함된 HOA 계수 인덱스들에 대한 V-벡터 요소들이 전송되지 않는다. 이 세트는 0과 동일한 AmbCoeffTransitionState를 갖는 HOA 계수 인덱스들 AmbCoeffIdx[i] 전부를 포함한다. 이 인덱스들에 대한 원래의 HOA 계수 시퀀스가 명시적으로 송신되기 때문에 가중된 V-벡터 신호를 추가할 필요도 없다. 따라서 이 인덱스들에 대해 종래의 접근법에서의 V-벡터 요소는 0으로 설정된다.
그렇지만, 계층화된 코딩 모드에서, 연속적 HOA 계수 인덱스들의 세트는 현재 활성 레이어의 일부인 전송 채널들에 의존한다. 이것은 상위 레이어에서 송신된 부가의 HOA 계수 인덱스들이 하위 레이어들에서 누락되어 있다는 것을 의미한다. 그러면, 상위 레이어들에 포함된 HOA 계수 시퀀스들에 속하는 HOA 계수 인덱스들에 대해, 벡터 신호가 HOA 계수 시퀀스에 기여해서는 안된다는 가정은 잘못된 것이다. 따라서, 이 누락된 계수 인덱스들에 대한 V-벡터 요소들을 (명시적으로) 시그널링하는 것이 제안된다.
그 결과, 각각의 레이어에 대해 ContAddHoaCoeff 세트를 정의하는 것 및 활성 V-벡터 요소들의 선택을 위해 V-벡터 신호가 추가되는(V-벡터 신호의 전송 신호가 속하는) 레이어의 세트를 사용하는 것이 제안된다. 그럼에도 불구하고, V-벡터 데이터가 HOAFrame()에 머무르고 HOAEnhFrame()으로 이동되지 않는 것이 제안된다.
다음에, MPEG-H 비트스트림 신택스에의 통합이 기술될 것이다. 본 개시내용의 실시예들에 따른 대응하는 인코딩 방법(예컨대, 사운드 또는 음장의 압축된 HOA 표현의 프레임의 계층화된 인코딩 방법)이 도 3을 참조하여 기술될 것이다. MPEG-H 3D 비트스트림에 대한 제안된 변경들은 이하에서 부록에서 기술될 것이다.
계층화된 코딩 모드에서, HOADecoderConfig()에서의 SingleLayer 플래그는 비활성이고(SingleLayer==0) 레이어들의 수 및 레이어들의 대응하는, 배정된 HOA 전송 신호들의 수가 정의된다. 일반적으로, 압축된 HOA 표현은 복수의 전송 신호들을 포함할 수 있다.
그에 따라, 도 3의 S3010에서, 복수의 전송 신호들이 복수의 계층적 레이어들에 배정된다. 환언하면, 전송 신호들이 복수의 레이어들에 분배된다. 각각의 레이어는 그 레이어에 배정된 각자의 전송 신호들을 포함한다고 말해질 수 있다. 각각의 레이어는 하나 초과의 전송 신호를 배정받았을 수 있다. 복수의 레이어들은 베이스 레이어 및 하나 이상의 계층적 향상 레이어를 포함할 수 있다. 레이어들이 베이스 레이어로부터 향상 레이어들을 거쳐 전체 최상위 향상 레이어(전체 최상위 레이어)까지 순서화될 수 있다.
각각의 HOA 향상 레이어(베이스 레이어를 포함함)에 대한 공간 신호 예측, 서브대역 방향성 신호 합성 및 PAR 디코더 데이터의 하나의 페이로드를 전송하기 위해 새로 정의된 usacExtElementType인 ID_EXT_ELE_HOA_ENH_LAYER를 갖는 부가의 HOA 구성 확장 페이로드 및 HOA 프레임 확장 페이로드를 MPEG-H 비트스트림에 추가하는 것이 제안된다. 이 추가의 페이로드들은 mpegh3daExtElementConfig()에서 그리고 그에 대응하여 mpegh3daFrame()에서 ID_EXT_ELE_HOA 유형의 페이로드를 바로 뒤따라올 것이다.
따라서, SingleLayer == 0의 경우에, 공간 신호 예측, 서브대역 방향성 신호 합성 및 PAR 디코더에 대한 구성 요소들은 HOADecoderConfig()로부터 새로 정의된 HOADecoderEnhConfig()로 그리고 그에 대응하여 HOAPredictionInfo(), HOADirectionalPredictionInfo() 및 HOAParInfo()는 HOAFrame()로부터 새로 정의된 HOAEnhFrame()으로 이동시키는 것이 제안된다.
그에 따라, S3020에서, 각각의 레이어에 대한 각자의 HOA 확장 페이로드가 생성된다. 생성된 HOA 확장 페이로드는 각자의 레이어 및 각자의 레이어보다 하위인 임의의 레이어들에 배정된(예컨대, 그들에 포함된) 전송 신호들로부터 획득가능한 재구성된 HOA 표현을 파라미터적으로 향상시키기 위한 보조 정보를 포함할 수 있다. 앞서 살펴본 바와 같이, HOA 확장 페이로드들은 HOA 공간 신호 예측 디코딩 도구, HOA 서브대역 방향성 신호 합성 디코딩 도구, 및 HOA 파라메트릭 앰비언스 복제 디코딩 도구 중 하나 이상에 대한 비트스트림 요소들을 포함할 수 있다. 게다가, HOA 확장 페이로드들은 ID_EXT_ELE_HOA_ENH_LAYER라는 usacExtElementType을 가질 수 있다.
S3030에서, 생성된 HOA 확장 페이로드들이 그 각자의 레이어들에 배정된다.
게다가(도 3에 도시되지 않음), HOA 공간 신호 예측 디코딩 도구, HOA 서브대역 방향성 신호 합성 디코딩 도구, 및/또는 HOA 파라메트릭 앰비언스 복제 디코딩 도구를 구성하기 위한 비트스트림 요소들을 포함하는 HOA 구성 확장 페이로드가 생성될 수 있다.
게다가(도 3에 도시되지 않음), HOA 확장 페이로드들을 복수의 레이어들에 배정하는 것을 표시하는 정보를 포함하는 HOA 디코더 구성 페이로드가 생성될 수 있다.
다음에, 계층화된 비트스트림(예컨대, MPEG-H 비트스트림)의 전송이 기술될 것이다. MPEG-H 비트스트림의 확장 페이로드들 전부가 바이트 정렬되고 그들의 크기들이 명시적으로 시그널링되기 때문에, elementLengthPresent 플래그가 1이라고 가정되는 경우, 디패커(de-packer)는 MPEG-H 비트스트림을 파싱하고 1보다 더 높은 레이어들에 대한 페이로드들을 추출하며 그들을 상이한 전송 채널들을 통해 개별적으로 전송할 수 있다. 베이스 레이어는 상위 레이어들에 대한 데이터를 제외한 MPEG-H 비트스트림을 포함한다(예컨대, 이들로 이루어져 있다). 누락된 확장 페이로드들은 비어있거나 비활성인 것으로 시그널링된다. ID_USAC_SCE, ID_USAC_CPE 및 ID_USAC_LFE 유형의 페이로드들에 대해, 비어있는 페이로드는 0의 elementLength에 의해 시그널링되고, 여기서 elementLengthPresent는 1로 설정될 필요가 있다. ID_USAC_EXT 유형의 비어있는 페이로드는 usacExtElementPresent 플래그를 0(거짓)으로 설정하는 것에 의해 시그널링될 수 있다.
그에 따라, S3040에서, 생성된 HOA 확장 페이로드들이 출력 비트스트림에서 시그널링(예컨대, 전송 또는 출력)된다. 일반적으로, 복수의 레이어들 및 그들에 배정된 페이로드들이 출력 비트스트림에서 시그널링(예컨대, 전송, 또는 출력)된다. 게다가, HOA 디코더 구성 페이로드 및/또는 HOA 구성 확장 페이로드가 출력 비트스트림에서 시그널링(예컨대, 전송, 또는 출력)될 수 있다.
HOA 베이스 레이어(레이어 인덱스 = 1)가 가장 높은 에러 방지를 사용해 전송되고 비교적 작은 비트레이트를 갖는 것으로 가정된다. 후속하는 레이어들(하나 이상의 HOA 향상 레이어)에 대한 에러 방지는 향상 레이어들의 비트 레이트가 증가함에 따라 꾸준히 감소된다. 나쁜 전송 조건들 및 보다 낮은 에러 방지로 인해, 상위 레이어들의 전송이 실패할지도 모르며 최악의 경우에 베이스 레이어만이 올바르게 전송된다. 하나의 레이어의 페이로드들 전부에 대한 결합된 에러 방지가 적용되는 것으로 가정된다. 따라서 레이어의 전송이 실패하는 경우, 대응하는 레이어의 페이로드들 전부가 누락된다.
환언하면, 복수의 레이어들에 대한 데이터 페이로드들이 각자의 에러 방지 레벨들로 전송될 수 있으며, 여기서 베이스 레이어는 가장 높은 에러 방지를 갖고 하나 이상의 향상 레이어는 순차적으로 감소하는 에러 방지를 갖는다.
단계들이 특정 다른 단계들을 전제조건들로서 요구하지 않는 한, 앞서 언급된 단계들이 임의의 순서로 수행될 수 있고 도 3에 예시된 예시적인 순서는 비제한적인 것으로 이해된다.
앞서 살펴본 바와 같이, 1과 동일한 CodedVVecLength가 HOADecoderConfig()에서 시그널링되는 경우 벡터 기반 신호들에 대한 인코딩된 V-벡터 요소들에 대한 비트스트림 신택스가 HOA 계층화된 코딩에 적합화되어야만 한다. 본 개시내용의 실시예들에 따른 대응하는 인코딩 방법(예컨대, 사운드 또는 음장의 압축된 HOA 표현의 프레임의 계층화된 인코딩 방법)이 도 4를 참조하여 기술될 것이다.
도 4의 S4010에서, 복수의 전송 신호들이 복수의 계층적 레이어들에 배정된다. 이 단계는 앞서 기술된 S3010과 동일한 방식으로 수행될 수 있다.
S4020에서, 벡터 코딩 모드가 활성인지 여부가 결정된다. 이것은 CodedVVecLength==1인지 여부를 결정하는 것을 포함할 수 있다.
앞서 살펴본 바와 같이, 종래의 접근법에서는 벡터 코딩 모드에서, ContAddHoaCoeff 세트에 포함된 HOA 계수 인덱스들에 대한 V-벡터 요소들이 전송되지 않는다. 이 세트는 0과 동일한 AmbCoeffTransitionState를 갖는 HOA 계수 인덱스들 AmbCoeffIdx[i] 전부를 포함한다. 이 인덱스들에 대한 원래의 HOA 계수 시퀀스가 명시적으로 송신되기 때문에 가중된 V-벡터 신호를 추가할 필요도 없다. 따라서 이 인덱스들에 대해 종래의 접근법에서의 V-벡터 요소는 0으로 설정된다.
그렇지만, 계층화된 코딩 모드에서, 연속적 HOA 계수 인덱스들의 세트는 현재 활성 레이어의 일부인 전송 채널들에 의존한다. 이것은 상위 레이어에서 송신된 부가의 HOA 계수 인덱스들이 하위 레이어들에서 누락되어 있다는 것을 의미한다. 그러면, 상위 레이어들에 포함된 HOA 계수 시퀀스들에 속하는 HOA 계수 인덱스들에 대해, 벡터 신호가 HOA 계수 시퀀스에 기여해서는 안된다는 가정은 잘못된 것이다.
따라서, 벡터 코딩 모드가 활성인 경우, S4030에서, 각자의 레이어에 배정된 전송 신호들에 기초하여 각각의 레이어에 대한 연속적 HOA 계수 인덱스들의 세트(예컨대, ContAddHoaCoeff)가 결정(예컨대, 정의)된다.
벡터 코딩 모드가 활성인 경우, S4040에서, 각각의 전송 신호에 대해, 각자의 전송 신호가 배정되는 레이어에 대한 결정된 연속적 HOA 계수 인덱스들의 세트에 기초하여 V-벡터가 생성된다. 각각의 생성된 V-벡터는 각자의 전송 신호가 배정되는 레이어보다 상위인 레이어들에 배정된 임의의 전송 신호들에 대한 요소들을 포함할 수 있다. 이 단계는 활성 V-벡터 요소들의 선택을 위해 V-벡터 신호가 추가되는 레이어(V-벡터 신호의 전송 신호가 속하는 레이어)에 대해 결정된 연속적 HOA 계수 인덱스들의 세트를 사용하는 것을 포함할 수 있다. 그럼에도 불구하고, V-벡터 데이터가 HOAFrame()에 머무르고 HOAEnhFrame()으로 이동되지 않는 것이 제안된다.
이어서, S4050에서, 생성된 V-벡터들(V-벡터 신호들)이 출력 비트스트림에서 시그널링된다. 이것은 앞서 언급된 누락된 계수 인덱스들에 대한 V-벡터 요소들을 (명시적으로) 시그널링하는 것을 포함할 수 있다.
도 4의 단계들(S4020 내지 S4050)은 또한 도 3에 예시된 인코딩 방법과 관련하여, 예컨대, S3010 이후에 이용될 수 있다. 이 경우에, S3040과 S4050이 단일 시그널링 단계로 결합될 수 있다.
단계들이 특정 다른 단계들을 전제조건들로서 요구하지 않는 한, 앞서 언급된 단계들이 임의의 순서로 수행될 수 있고 도 4에 예시된 예시적인 순서는 비제한적인 것으로 이해된다.
수신기측에서, MPEG-H 비트스트림 패커(MPEG-H bitstream packer)는 올바르게 수신된 페이로드들을 베이스 레이어 MPEG-H 비트스트림에 재삽입하고 이를 MPEG-H 3D 오디오 디코더에 전달할 수 있다.
다음에, HOA 디코딩 초기화(구성)가 기술될 것이다. 바이트 단위의 대응하는 크기들을 갖는 ID_EXT_ELE_HOA 및 ID_EXT_ELE_HOA_ENH_LAYER 유형의 HOA 구성 페이로드들이 HOA 디코더에 그의 초기화를 위해 입력된다. HOA 코딩 도구들은, ID_EXT_ELE_HOA 유형의 페이로드로부터 파싱되는, HOAConfig()에 정의된 비트스트림 요소들에 따라 구성된다. 게다가, 이 페이로드는 계층화된 코딩 모드의 사용, 레이어들의 수 및 대응하는 레이어당 전송 신호들의 수를 포함한다. 이어서, 계층화된 코딩이 활성화되어 있는 경우(SingleLayer==0), 각각의 레이어의 대응하는 공간 신호 예측, 서브대역 방향성 신호 합성 및 파라메트릭 앰비언스 복제 디코더를 구성하기 위해 HOAEnhConfig()들이 ID_EXT_ELE_HOA_ENH_LAYER 유형의 페이로드들로부터 파싱된다.
HOAEnhConfig()로부터의 LayerIdx 요소는 mpegh3daExtElementConfig()에서의 HOA 향상 레이어 구성 페이로드들의 순서와 함께 HOA 향상 레이어들의 순서를 표시한다. mpegh3daFrame()에서의 ID_EXT_ELE_HOA_ENH_LAYER 유형의 HOA 향상 레이어 프레임 페이로드들의 순서는 프레임 페이로드들을 대응하는 레이어들에 명확히 배정하도록 mpegh3daExtElementConfig()에서의 구성 페이로드들의 순서와 동일하다.
SingleLayer==1(단일 레이어 코딩)의 경우에, ID_EXT_ELE_HOA_ENH_LAYER 유형의 페이로드들은 무시되고, 공간 신호 예측, 서브대역 방향성 신호 합성 및 파라메트릭 앰비언스 복제 디코더는 그들의 구성을 위해 HOADecoderConfig()로부터의 대응하는 데이터를 사용한다.
다음에, 계층화된 모드에서의 HOA 프레임 디코딩이 기술될 것이다. 본 개시내용의 실시예들에 따른 대응하는 디코딩 방법(예컨대, 사운드 또는 음장의 압축된 HOA 표현의 프레임을 디코딩하는 방법)이 도 5를 참조하여 기술될 것이다. 압축된 HOA 표현(예컨대, 앞서 기술된 도 3 또는 도 4의 방법들의 출력)이 베이스 레이어 및 하나 이상의 향상 레이어를 포함하는 복수의 계층적 레이어들에 인코딩된다는 것이 이해된다.
도 5의 S5010에서, 압축된 HOA 표현의 프레임에 관련된 비트스트림이 수신된다.
3D 오디오 코어 디코더는 올바르게 전송된 HOA 전송 신호들을 디코딩하고, 대응하는 유효하지 않은 페이로드들에 대해 샘플들 전부가 0인 전송 신호들을 생성한다. 디코딩된 전송 신호들이 usacExtElementPresent 플래그들, ID_EXT_ELE_HOA 및 ID_EXT_ELE_HOA_ENH_LAYER 유형의 HOA 페이로드들의 데이터 및 크기들과 함께 HOA 디코더에 입력된다. usacExtElementPresent 플래그가 거짓으로 설정되어 있는 ID_USAC_EXT 유형으로부터의 확장 페이로드들은, 페이로드들을 대응하는 레이어들에 배정하는 것을 보장하기 위해, 누락된 페이로드들로서 HOA 디코더에 시그널링되어야만 한다.
S5020에서, 복수의 레이어들에 대한 페이로드들이 추출된다. 각각의 페이로드는 각자의 레이어에 배정된 전송 신호들을 포함할 수 있다.
이 단계에서, HOA 디코더는 ID_EXT_ELE_HOA 유형의 페이로드로부터 HOAFrame()을 파싱할 수 있다.
이어서, 페이로드들의 대응하는 usacExtElementPresent 플래그를 평가하는 것에 의해 ID_EXT_ELE_HOA_ENH_LAYER 유형의 유효한 페이로드들 및 ID_EXT_ELE_HOA_ENH_LAYER 유형의 유효하지 않은 페이로드들이 결정되고, 여기서 유효하지 않은 페이로드는 usacExtElementPresent 플래그가 거짓인 것에 의해 표시되고 HOA 향상 페이로드들을 향상 레이어 인덱스들에 배정하는 것은 HOA 디코더 구성으로부터 알 수 있다.
S5030에서, 디코딩을 위한 복수의 레이어들 중의 최상위 사용가능 레이어가 결정된다.
레이어들이 전송 신호들의 면에서 서로 의존하기 때문에, HOA 디코더는 보다 낮은 인덱스를 갖는 레이어들 전부가 올바르게 수신될 때만 레이어를 디코딩할 수 있다. 최상위 사용가능 레이어까지의 레이어들 전부가 올바르게 수신되도록 최상위 사용가능 레이어가 이 단계에서 선택될 수 있다. 이 단계의 상세들이 이하에서 기술될 것이다.
S5040에서, 최상위 사용가능 레이어에 배정된 HOA 확장 페이로드가 추출된다. 앞서 살펴본 바와 같이, HOA 확장 페이로드는 최상위 사용가능 레이어에 대응하는 재구성된 HOA 표현을 파라미터적으로 향상시키기 위한 보조 정보를 포함할 수 있다. 거기에서, 최상위 사용가능 레이어에 대응하는 재구성된 HOA 표현은 최상위 사용가능 레이어 및 최상위 사용가능 레이어보다 하위인 임의의 레이어들에 배정된 전송 신호들에 기초하여 획득가능할 수 있다.
그에 부가하여, 복수의 레이어들의 나머지 레이어들에 각각 배정된 HOA 확장 페이로드들이 추출될 수 있다. 각각의 HOA 확장 페이로드는 그 각자의 배정된 레이어에 대응하는 재구성된 HOA 표현을 파라미터적으로 향상시키기 위한 보조 정보를 포함할 수 있다. 그 각자의 배정된 레이어에 대응하는 재구성된 HOA 표현은 그 레이어 및 그 레이어보다 하위인 임의의 레이어들에 배정된 전송 신호들로부터 획득가능할 수 있다.
게다가(도 5에 도시되지 않음), 디코딩 방법은 HOA 구성 확장 페이로드를 추출하는 단계를 포함할 수 있다. 이것은 비트스트림을 파싱하는 것에 의해 행해질 수 있다. HOA 구성 확장 페이로드는 HOA 공간 신호 예측 디코딩 도구, HOA 서브대역 방향성 신호 합성 디코딩 도구, 및/또는 HOA 파라메트릭 앰비언스 복제 디코딩 도구를 구성하기 위한 비트스트림 요소들을 포함할 수 있다.
S5050에서, 최상위 사용가능 레이어에 대응하는 (부분적으로) 재구성된 HOA 표현이 최상위 사용가능 레이어 및 최상위 사용가능 레이어보다 하위인 임의의 레이어들에 배정된 전송 신호들에 기초하여 생성된다.
실제로 사용된 전송 신호들(IADD,LAY(k))의 수는 최상위 사용가능 레이어(의 인덱스(MLAY(k)))에 따라 설정되고, 제1 예비적 HOA 표현은 HOAFrame()으로부터 그리고 레이어 및 임의의 하위 레이어들의 대응하는 전송 신호들로부터 디코딩된다.
이어서, S5060에서, 재구성된 HOA 표현이 최상위 사용가능 레이어에 배정된 HOA 확장 페이로드에 포함된 보조 정보를 사용하여 향상된다(예컨대, 파라미터적으로 향상된다).
즉, S5050에서 획득된 HOA 표현은 이어서 현재 활성 레이어(MLAY(k)), 즉 최상위 사용가능 레이어의 ID_EXT_ELE_HOA_ENH_LAYER 유형의 HOA 향상 레이어 확장 페이로드로부터 파싱된 HOAEnhFrame() 데이터를 사용하여 공간 신호 예측, 서브대역 방향성 신호 합성 및 파라메트릭 앰비언스 복제 디코더에 의해 향상된다.
단계들(S5020 내지 S5060)에서 사용된 정보는 레이어 정보라고 알려져 있을 수 있다.
단계들이 특정 다른 단계들을 전제조건들로서 요구하지 않는 한, 앞서 언급된 단계들이 임의의 순서로 수행될 수 있고 도 5에 예시된 예시적인 순서는 비제한적인 것으로 이해된다.
다음에, S5030에서 최상위 사용가능 레이어를 결정(예컨대, 선택)하는 것에 대한 상세들이 기술될 것이다.
앞서 살펴본 바와 같이, HOA 디코더는 보다 낮은 인덱스를 갖는 레이어들 전부가 올바르게 수신될 때에만 레이어를 디코딩할 수 있는데, 그 이유는 레이어들이 전송 신호들의 면에서 서로 의존하기 때문이다.
최상위 디코딩가능 레이어의 선택을 위해, HOA 디코더는 유효하지 않은 레이어 인덱스들의 세트를 생성할 수 있고, 여기서 이 세트로부터의 가장 작은 인덱스에서 1을 빼면 최상위 디코딩가능 향상 레이어의 인덱스(MLAY)가 얻어진다. 유효하지 않은 레이어 인덱스들의 세트는 대응하는 HOA 확장 페이로드들의 유효성 플래그들을 평가하는 것에 의해 결정될 수 있다.
환언하면, 최상위 사용가능 레이어를 결정하는 단계는 유효하게 수신되지 않은 레이어들을 표시하는 유효하지 않은 레이어 인덱스들의 세트를 결정하는 단계를 포함할 수 있다. 이는 최상위 사용가능 레이어를 유효하지 않은 레이어 인덱스들의 세트에서의 가장 작은 인덱스에 의해 표시되는 레이어 아래의 하나의 레이어인 레이어로서 결정하는 단계를 추가로 포함할 수 있다. 그에 의해, 최상위 사용가능 레이어 아래의 레이어들 전부가 유효하게 수신되도록 보장된다.
프레임들의 차분 인코딩의 경우에, 이전(예컨대, 직전) 프레임의 최상위 사용가능 레이어의 인덱스가 고려되어야만 할 것이다. 먼저, 이전(예컨대, 선행하는) 프레임의 최상위 사용가능 레이어의 인덱스가 유지되는 상황이 기술될 것이다.
현재 프레임에 대한 최상위 사용가능 레이어(예컨대, 최상위 디코딩가능 레이어)의 인덱스가 이전 프레임의 인덱스(MLAY(k-1))와 동일한 경우, 현재 프레임의 레이어 인덱스(MLAY(k))가 MLAY(k-1)로 설정된다.
이어서, 앞서 살펴본 바와 같이, 실제로 사용된 전송 신호들(IADD,LAY(k))의 수는 MLAY(k)에 따라 설정되고, 제1 예비적 HOA 표현은 HOAFrame()으로부터 그리고 레이어 및 임의의 하위 레이어들의 대응하는 전송 신호들로부터 디코딩된다. 앞서 살펴본 바와 같이, 이 HOA 표현은 이어서 현재 활성 레이어(MLAY(k))의 ID_EXT_ELE_HOA_ENH_LAYER 유형의 HOA 향상 레이어 확장 페이로드로부터 파싱된 HOAEnhFrame() 데이터를 사용하여 공간 신호 예측, 서브대역 방향성 신호 합성 및 파라메트릭 앰비언스 복제 디코더에 의해 향상된다.
다음에, 이전(예컨대, 선행하는) 프레임의 최상위 사용가능 레이어의 인덱스보다 더 낮은 인덱스로 전환되는 상황이 기술될 것이다. 즉, 현재 프레임에 대한 최상위 디코딩가능 레이어의 인덱스가 이전 프레임의 레이어의 인덱스(MLAY(k-1))보다 더 작은 경우에, HOA 디코더는 MLAY(k)를 현재 프레임에 대한 최상위 디코딩가능 레이어의 인덱스로 설정한다. 새로운 레이어에 대해 공간 신호 예측, 서브대역 방향성 신호 합성 및 파라메트릭 앰비언스 복제 디코더에 대한 페이로드들의 디코딩은 1과 동일한 hoaIndependencyFlag를 갖는 다음 HOA 프레임에서만 시작될 수 있다. 이러한 HOAFrame()이 수신될 때까지, 인덱스(MLAY(k))의 레이어의 HOA 표현은 공간 신호 예측, 서브대역 방향성 신호 합성 및 파라메트릭 앰비언스 복제 디코더를 수행하지 않고 재구성된다. 이것은 실제로 사용된 전송 신호들(IADD,LAY(k))의 수가 MLAY(k)에 따라 설정되고, 제1 예비적 HOA 표현만이 HOAFrame()으로부터 그리고 레이어 및 임의의 하위 레이어들의 대응하는 전송 신호들로부터 디코딩된다는 것을 의미한다. 이어서, 1과 동일한 hoaIndependencyFlag를 갖는 HOAFrame()이 수신된 경우, 이 프레임에 대해 현재 활성 레이어의 최대 품질(full quality)이 제공되도록, 예비적 HOA 표현을 향상시키기 위해 공간 신호 예측, 서브대역 방향성 신호 합성 및 파라메트릭 앰비언스 복제 디코더에 대한 페이로드들이 파싱 및 디코딩된다.
따라서, 제안된 방법은 현재 프레임의 최상위 사용가능 레이어가 이전 프레임의 최상위 사용가능 레이어보다 하위인 경우(현재 프레임이 이전 프레임에 대해 차분적으로 코딩된 경우) 최상위 사용가능 레이어에 배정된 HOA 확장 페이로드에 포함된 보조 정보를 사용하는 재구성된 HOA 표현의 파라메트릭 향상을 수행하지 않기로 결정하는 단계(도 5에 도시되지 않음)를 포함할 수 있다.
일반적으로, 현재 프레임에 대한 최상위 사용가능 레이어를 결정하는 단계는 현재 프레임에 대한 유효하게 수신되지 않은 레이어들을 표시하는 유효하지 않은 레이어 인덱스들의 세트를 결정하는 단계를 포함할 수 있다. 이는 현재 프레임에 선행하는 이전 프레임의 최상위 사용가능 레이어를 결정하는 단계를 추가로 포함할 수 있다. 이는 또한 (현재 프레임이 이전 프레임에 대해 차분적으로 코딩된 경우) 최상위 사용가능 레이어를 이전 프레임의 최상위 사용가능 레이어 및 유효하지 않은 레이어 인덱스들의 세트에서의 가장 작은 인덱스에 의해 표시되는 레이어 아래의 하나의 레이어인 레이어 중 하위 레이어로서 결정하는 단계를 추가로 포함할 수 있다.
대안의 해결책은 유효한 향상 레이어 페이로드들(예컨대, HOA 확장 페이로드들) 전부를, 이들이 현재 비활성일지라도, 병렬로 항상 파싱할 수 있다. 이것은 최대 품질을 갖는 보다 낮은 인덱스를 갖는 레이어로 곧바로 전환하는 것을 가능하게 할 것이며, 여기서 공간 신호 예측, 서브대역 방향성 신호 합성 및 파라메트릭 앰비언스 복제(PAR) 디코더가 전환된 프레임에서 직접 적용될 수 있다.
다음에, 이전(예컨대, 선행하는) 프레임의 최상위 사용가능 레이어의 인덱스보다 더 높은 인덱스로 전환되는 상황이 기술될 것이다. 보다 높은 인덱스를 갖는 레이어로의 이 전환은 mpegh3daFrame()이 1과 동일한 usacIndependencyFlag를 갖는 경우(예컨대, 프레임이 독립적 프레임인 경우)에만 적용될 수 있는데, 그 이유는 이전 프레임들의 대응하는 페이로드들 또는 디코딩 상태들 전부가 누락되어 있기 때문이다. 따라서, 상위 디코딩가능 레이어에 대한 유효한 데이터를 포함하는, 1과 동일한 usacIndependencyFlag를 갖는 mpegh3daFrame()(예컨대, 독립적 프레임)이 수신될 때까지 HOA 디코더는 HOA 레이어 인덱스(MLAY(k))를 MLAY(k-1)과 같도록 유지한다. 이어서 MLAY(k)는 현재 프레임에 대한 최상위 디코딩가능 레이어 인덱스로 설정되고, 그에 따라 실제로 사용된 전송 신호들(IADD,LAY(k))의 수가 결정된다. 그 레이어의 예비적 HOA 표현은 HOAFrame() 및 대응하는 전송 신호들로부터 디코딩되고 현재 활성 레이어(MLAY(k))의 ID_EXT_ELE_HOA_ENH_LAYER 유형의 HOA 향상 레이어 확장 페이로드로부터 파싱된 HOAEnhFrame() 데이터를 사용하여 공간 신호 예측, 서브대역 방향성 신호 합성 및 파라메트릭 앰비언스 복제 디코더에 의해 향상된다.
압축된 사운드 표현의 계층화된 인코딩의 제안된 방법이 압축된 사운드 표현의 계층화된 인코딩을 위한 인코더에 의해 구현될 수 있다는 것이 이해된다. 이러한 인코더는 앞서 기술된 각자의 단계들을 수행하도록 적합화된 각자의 유닛들을 포함할 수 있다. 이러한 인코더(6000)의 일 예가 도 6에 개략적으로 예시되어 있다. 예를 들어, 이러한 인코더(6000)는 앞서 언급된 S3010을 수행하도록 적합화된 전송 신호 배정 유닛(6010), 앞서 언급된 S3020을 수행하도록 적합화된 HOA 확장 레이어 페이로드 생성 유닛(6020), 앞서 언급된 S3030을 수행하도록 적합화된 HOA 확장 페이로드 배정 유닛(6030), 및 앞서 언급된 S3040을 수행하도록 적합화된 시그널링 유닛 또는 출력 유닛(6040)을 포함할 수 있다. 이러한 인코더의 각자의 유닛들이 상기 각자의 유닛들 각각에 의해 수행되는 처리를 수행하도록 적합화된, 즉 도 3에 개략적으로 예시된 제안된 인코딩 방법의 앞서 언급된 단계들 중 일부 또는 전부를 수행하도록 적합화된 컴퓨팅 디바이스의 프로세서(6100)에 의해 구현될 수 있다는 것이 추가로 이해된다. 그에 부가하여 또는 대안적으로, 프로세서(6100)는 도 4에 개략적으로 예시된 인코딩 방법의 단계들 각각을 수행하도록 적합화될 수 있다. 이를 위해, 프로세서(6100)는 인코더의 각자의 유닛들을 구현하도록 적합화될 수 있다. 인코더 또는 컴퓨팅 디바이스는 프로세서(6100)에 의해 액세스가능한 메모리(6200)를 추가로 포함할 수 있다.
복수의 계층적 레이어들에 인코딩되는 압축된 사운드 표현을 디코딩하는 제안된 방법이 복수의 계층적 레이어들에 인코딩되는 압축된 사운드 표현을 디코딩하기 위한 디코더에 의해 구현될 수 있다는 것이 추가로 이해된다. 이러한 디코더는 앞서 기술된 각자의 단계들을 수행하도록 적합화된 각자의 유닛들을 포함할 수 있다. 이러한 디코더(7000)의 일 예가 도 7에 개략적으로 예시되어 있다. 예를 들어, 이러한 디코더(7000)는 앞서 언급된 S5010을 수행하도록 적합화된 수신 유닛(7010), 앞서 언급된 S5020을 수행하도록 적합화된 페이로드 추출 유닛(7020), 앞서 언급된 S5030을 수행하도록 적합화된 최상위 사용가능 레이어 결정 유닛(7030), 앞서 언급된 S5040을 수행하도록 적합화된 HOA 확장 페이로드 추출 유닛(7040), 앞서 언급된 S5050을 수행하도록 적합화된 재구성된 HOA 표현 생성 유닛(7050), 및 앞서 언급된 S5060을 수행하도록 적합화된 향상 유닛(7060)을 포함할 수 있다. 이러한 디코더의 각자의 유닛들이 상기 각자의 유닛들 각각에 의해 수행되는 처리를 수행하도록 적합화된, 즉 제안된 디코딩 방법의 앞서 언급된 단계들 중 일부 또는 전부를 수행하도록 적합화된 컴퓨팅 디바이스의 프로세서(7100)에 의해 구현될 수 있다는 것이 추가로 이해된다. 디코더 또는 컴퓨팅 디바이스는 프로세서(7100)에 의해 액세스가능한 메모리(7200)를 추가로 포함할 수 있다.
다음에, 계층화된 코딩 모드에서 압축된 HOA 표현을 수용(예컨대, 표현)하기 위한 데이터 구조(예컨대, 비트스트림)가 기술될 것이다. 이러한 데이터 구조는 제안된 인코딩 방법들을 이용하는 것으로부터 발생될 수 있으며 제안된 디코딩 방법을 사용하여 디코딩(예컨대, 압축해제)될 수 있다.
데이터 구조는 복수의 계층적 레이어들의 각자의 레이어들에 대응하는 복수의 HOA 프레임 페이로드들을 포함할 수 있다. 복수의 전송 신호들은 복수의 레이어들의 각자의 레이어들에 배정될 수 있다(예컨대, 그에 속할 수 있다). 데이터 구조는 각자의 레이어 및 각자의 레이어보다 하위인 임의의 레이어들에 배정된 전송 신호들로부터 획득가능한 재구성된 HOA 표현을 파라미터적으로 향상시키기 위한 보조 정보를 포함하는 각자의 HOA 확장 페이로드를 포함할 수 있다. 앞서 살펴본 바와 같이, 복수의 레이어들에 대한 HOA 프레임 페이로드들 및 HOA 확장 페이로드들이 각자의 에러 방지 레벨들로 제공될 수 있다. 게다가, HOA 확장 페이로드들은 앞서 살펴본 비트스트림 요소들을 포함할 수 있으며 ID_EXT_ELE_HOA_ENH_LAYER라는 usacExtElementType을 가질 수 있다. 데이터 구조는 또한 앞서 살펴본 비트스트림 요소들을 포함하는 HOA 구성 확장 페이로드 및/또는 HOA 디코더 구성 페이로드를 추가로 포함할 수 있다.
설명 및 도면들이 제안된 방법들 및 장치들의 원리들을 예시하는 것에 불과하다는 것에 유의해야 한다. 따라서 본 기술분야의 통상의 기술자가, 비록 본원에 명시적으로 기술 또는 도시되지는 않았지만, 본 발명의 원리들을 구현하고 그의 사상 및 범주 내에 포함되는 다양한 구성들을 고안할 수 있을 것임을 알게 될 것이다. 게다가, 본원에 열거된 모든 예들은 주로 읽는 사람이 제안된 방법들 및 장치들의 원리들 및 발명자들에 의해 기술을 발전시키는 데 기여된 개념들을 이해하는 데 도움을 주기 위해 명확히 교육적 목적으로만 의도된 것이며, 이러한 특별히 열거된 예들 및 조건들로 제한되지 않는 것으로 해석되어야 한다. 더욱이, 본 발명의 원리들, 양태들, 및 실시예들은 물론 그의 특정 예들을 열거하는 본원에서의 진술들 전부가 그의 등가물들을 포함하도록 의도되어 있다.
본 문서에 기술된 방법들 및 장치들은 소프트웨어, 펌웨어 및/또는 하드웨어로서 구현될 수 있다. 특정 컴포넌트들은, 예컨대, 디지털 신호 프로세서 또는 마이크로프로세서 상에서 실행되는 소프트웨어로서 구현될 수 있다. 다른 컴포넌트들은, 예컨대, 하드웨어로서 그리고/또는 ASIC(application specific integrated circuit)들로서 구현될 수 있다. 기술된 방법들 및 장치들에서 나오는 신호들은 랜덤 액세스 메모리 또는 광학 저장 매체와 같은 매체 상에 저장될 수 있다. 이들은 라디오 네트워크(radio network)들, 위성 네트워크들, 무선 네트워크(wireless network)들 또는 유선 네트워크들, 예컨대, 인터넷과 같은, 네트워크들을 통해 전송될 수 있다.
부록:
제안된 MPEG-H 3D 비트스트림 변경들
변경들은 회색으로 하이라이트하는 것에 의해 표시되어 있다:
Figure pat00020
Figure pat00021
Figure pat00022
Figure pat00023
Figure pat00024
Figure pat00025
Figure pat00026
Figure pat00027
Figure pat00028
Figure pat00029
Figure pat00030
Figure pat00031
NumOfDirSigsPerLayer[lay] 이 요소는 HOA 향상 레이어(lay)에서 실제로 사용되는 현재 HOAFrame() 내의 활성 방향성 신호들의 수를 결정한다.
AddHoaCoeffPerLayer[lay] 이 어레이는 HOA 향상 레이어(lay)에서 실제로 사용되는 각각의 부가의 주변 HOA 계수에 대한 HOA 계수 인덱스를 포함한다.
NumOfAddHoaChansPerLayer[lay] 이 요소는 HOA 향상 레이어(lay)에서 실제로 사용되는 부가의 주변 HOA 계수들의 총수를 시그널링한다.
이 표를 추가
Figure pat00032
이 표를 업데이트:
Figure pat00033
Figure pat00034
Figure pat00035
Figure pat00036
Figure pat00037
Figure pat00038
Figure pat00039
Figure pat00040
codedLayerCh 이 요소는, 제1(즉, 베이스) 레이어에 대해, codedLayerCh + MinNumOfCoeffsForAmbHOA에 의해 주어지는, 포함된 전송 신호들의 수를 표시한다. 상위(즉, 향상) 레이어들에 대해, 이 요소는, codedLayerCh + 1에 의해 주어지는, 다음 하위 레이어와 비교하여 향상 레이어에 포함된 부가의 신호들의 수를 표시한다.
HOALayerChBits 이 요소는 codedLayerCh를 판독하기 위한 비트 수를 표시한다.
NumLayers 이 요소는 (HOADecoderConfig()의 판독 이후에) 비트스트림 내의 레이어들의 총수를 표시한다.
NumHOAChannelsLayer 이 요소는 NumLayers개의 요소들로 이루어진 어레이이고, 그 중 제i 요소는 제i 레이어까지의 레이어들 전부에 포함된 전송 신호들의 수를 표시한다.
12.4.1.x 프레임 및 사용자 종속적 파라미터들
MLAY(k) 디코더측에서 (명시될) 제k 프레임에 대해 실제로 사용되는 레이어들 전부의 수. 계층화된 코딩(SingleLayer==0에 의해 표시됨)의 경우에, 이 숫자는 비트스트림에 존재하는 레이어들의 총수보다 작거나 같아야만 한다, 즉 MLAY = NumLayers. 단일 계층화된 코딩(SingleLayer==1에 의해 표시됨)의 경우에, MLAY는 1로 설정된다.
MLAY(k)의 선택에 따라, 공간 HOA 디코딩을 위해 (즉, 암시적으로 항상 사용되는 OMIN 개의 채널들에 부가하여) 실제로 사용되는 부가의 전송 채널들의 수(IADD,LAY(k))는 다음과 같이 계산된다:
if(SingleLayer | (!SingleLayer & MLAY(k) == NumLayers))
{
IADD,LAY(k) = NumOfAdditionalCoders;
}
else
{
IADD,LAY(k) = NumHOACannelsLayer[MLAY(k) - 1] - MinNumOfCoeffsForAmbHOA;
}
VVecLength 및 VVecCoeffId
codedVVecLength 워드는 하기를 표시한다:
0) 전체 벡터 길이(NumOfHoaCoeffs 요소들). 우세 벡터들에 대한 계수들(NumOfHoaCoeffs) 전부가 명시되어 있다는 것을 표시한다.
1) 벡터 요소들 1 내지 MinNumOfCoeffsForAmbHOA 그리고 인덱스 lay=0??NumLayers-1의 현재 활성 레이어의 ContAddHoaCoeff[lay]에 정의된 요소들 전부가 전송되지 않는다. 단일 레이어 모드(SingleLayer==1)에 대해, 변수 NumLayers는 1로 설정되어야만 한다. MinNumOfCoeffsForAmbHOA보다 더 큰 숫자에 대응하는 우세 벡터의 그 계수들만이 명시된다는 것을 표시한다. ContAddAmbHoaChan[lay]에서 식별된 추가의 그 NumOfContAddAmbHoaChan[lay]개의 계수들이 감산된다. ContAddAmbHoaChan[lay] 리스트는 MinAmbHoaOrder 차수를 초과하는 차수에 대응하는 부가의 채널들을 명시한다.
2) 벡터 요소들 1 내지 MinNumOfCoeffsForAmbHOA가 전송되지 않는다. MinNumOfCoeffsForAmbHOA보다 더 큰 숫자에 대응하는 우세 벡터들의 그 계수들이 명시된다는 것을 표시한다.
codedVVecLength==1의 경우에, VVecLength[i] 어레이는 물론 VVecCoeffId[i][m] 2D 어레이 둘 다가 인덱스 i의 VVector에 대해 유효하고, 다른 경우들에서, VVecLength 요소는 물론 VVecCoeffId[m] 어레이 둘 다가 HOAFrame 내의 VVector 전부에 대해 유효하다. 이하의 배정 알고리즘에 대해, 헬퍼 함수(helper function)는 다음과 같이 정의된다:
switch CodedVVecLength{
case 0:
VVecLength = NumOfHoaCoeffs;
for (m=0; m<VVecLength; ++m) {
VVecCoeffId[m] = m;
}
break;
case 1:
for (i=0; i < NumOfVecSigs; ++i) {
lay = VecSigLayerIdx[i];
VVecLength[i] = NumOfHoaCoeffs
-.MinNumOfCoeffsForAmbHOA
- NumOfContAddHoaChans[lay];
CoeffIdx = MinNumOfCoeffsForAmbHOA+1;
for (m=0; m<VVecLength[i]; ++m) {
bIsInArray = isMemberOf(CoeffIdx,
ContAddHoaCoeff[lay],
NumOfContAddHoaChans[lay]);
while (bIsInArray) {
CoeffIdx++;
bIsInArray = isMemberOf(CoeffIdx,
ContAddHoaCoeff[lay],
NumOfContAddHoaChans[lay]);
}
VVecCoeffId[i][m] = CoeffIdx-1;
}
}
break;
case 2:
VVecLength = NumOfHoaCoeffs - MinNumOfCoeffsForAmbHOA;
for (m=0; m< VVecLength; ++m) {
VVecCoeffId[m] = m + MinNumOfCoeffsForAmbHOA;
}
}
3개의 case(case 0 내지 case 2)를 갖는 첫 번째 switch 문은 따라서 숫자(VVecLength) 및 계수들의 인덱스들(VVecCoeffId)로 우세 벡터 길이를 결정하는 방법을 제공한다.
12.4.1.X VVec 요소로의 변환
Vvector의 역양자화 종류는 NbitsQ 워드에 의해 시그널링된다. 4의 NbitsQ 값은 벡터 양자화를 표시한다. NbitsQ가 5일 때, 균일 8 비트 스칼라 역양자화(uniform 8 bit scalar dequantization)가 수행된다. 이와 달리, 6보다 크거나 같은 NbitsQ 값은 스칼라 양자화된 Vvector의 허프만 디코딩(Huffman decoding)의 적용을 표시한다. 예측 모드는 PFlag로서 표기되는 반면, CbFlag는 허프만 테이블(Huffman Table) 정보 비트를 나타낸다.
if (CodedVVecLength == 1) {
VVecLengthUsed = VVecLength[i];
VVecCoeffIdUsed = VVecCoeffId[i];
} else {
VVecLengthUsed = VVecLength;
VVecCoeffIdUsed = VVecCoeffId;
}
if (NbitsQ(k)[i] == 4) {
if (NumVvecIndices == 1) {
for (m=0; m< VVecLengthUsed; ++m) {
idx = VVecCoeffIdUsed[m];
Figure pat00041
= WeightVal[0] * VecDict[900].[VvecIdx[0]][idx];
}
} else {
cdbLen = O;
if (N==4) {
cdbLen = 32;
}
for (m=0; m<O; ++m) {
TmpVVec[m] = 0;
for (j=0; j< NumVvecIndices; ++j) {
TmpVVec[m] += WeightVal[j] * VecDict[cdbLen].[VvecIdx[j]][m];
}
}
FNorm = 0.0;
for (m=0; m<O; ++m) {
FNorm += TmpVVec[m] * TmpVVec[m];
}
FNorm = (N+1)/sqrt(FNorm);
for (m=0; m< VVecLengthUsed; ++m) {
idx = VVecCoeffIdUsed[m];
Figure pat00042
= TmpVVec[idx] * FNorm;
}
}
}
elseif (NbitsQ(k)[i] == 5) {
for (m=0; m< VVecLengthUsed; ++m) {
Figure pat00043
(N+1)*aVal[i][m];
}
}
elseif (NbitsQ(k)[i] >= 6) {
for (m=0; m< VVecLengthUsed; ++m) {
Figure pat00044
= (N+1) * (2^(16 - NbitsQ(k)[i])*aVal[i][m])/2^15;
if (PFlag(k)[i] == 1) {
Figure pat00045
+=
Figure pat00046
;
}
}
}

Claims (11)

  1. 사운드 또는 음장의 압축된 고차 앰비소닉스(Higher Order Ambisonics)(HOA) 표현을 디코딩하는 방법으로서,
    상기 압축된 HOA 표현을 포함하는 비트스트림을 수신하는 단계 - 상기 비트스트림은 베이스 레이어(base layer) 및 하나 이상의 계층적 향상 레이어(hierarchical enhancement layer)를 포함하는 복수의 계층적 레이어를 포함하고, 상기 복수의 계층적 레이어는 상기 사운드 또는 음장의 압축된 HOA 표현의 컴포넌트들을 포함함 -;
    디코딩을 위해 상기 복수의 계층적 레이어 중에서 최상위 사용가능 레이어를 결정하는 단계;
    상기 최상위 사용가능 레이어에 배정된 HOA 확장 페이로드를 추출하는 단계 - 상기 HOA 확장 페이로드는 상기 최상위 사용가능 레이어에 대응하는 재구성된 HOA 표현을 파라미터적으로 향상시키기 위한 보조 정보를 포함하고, 상기 HOA 확장 페이로드는 HOA 공간 신호 예측 디코딩을 위해 비트스트림 요소들을 포함하고, 상기 최상위 사용가능 레이어에 대응하는 상기 재구성된 HOA 표현은 상기 최상위 사용가능 레이어 및 상기 최상위 사용가능 레이어보다 하위인 임의의 레이어들에 배정된 전송 신호들에 기초하여 획득가능함 -;
    상기 최상위 사용가능 레이어에 대응하는 상기 압축된 HOA 표현을 레이어 정보에 기초하여 디코딩하는 단계 - 상기 전송 신호들은 상기 최상위 사용가능 레이어 및 상기 최상위 사용가능 레이어보다 하위인 임의의 레이어들에 배정됨 -; 및
    상기 최상위 사용가능 레이어에 배정된 상기 HOA 확장 페이로드에 포함된 상기 보조 정보를 사용하여 상기 디코딩된 HOA 표현을 파라미터적으로 향상시키는 단계
    를 포함하는, 방법.
  2. 제1항에 있어서, 상기 레이어 정보는 향상 레이어에 대한 부가의 주변 HOA 계수들의 총수를 표시하는, 방법.
  3. 제1항에 있어서, 상기 레이어 정보는 공간 신호 예측, 서브대역 방향성 신호 합성 및 파라메트릭 앰비언스 복제(Parametric Ambience Replication)(PAR) 디코더 중 적어도 하나를 포함하는 향상 정보를 포함하는, 방법.
  4. 제1항에 있어서,
    ContAddHoaCoeff 세트에 포함된 부가의 HOA 계수 인덱스들과 동일한 인덱스들에 대해 전송되지 않는 v-벡터 요소들을 더 포함하는, 방법.
  5. 제1항에 있어서, 상기 레이어 정보는 NumLayers개의 요소들을 포함하며, 각각의 요소는 제i 레이어까지의 레이어들 전부에 포함된 전송 신호들의 수를 표시하는, 방법.
  6. 제1항에 있어서, 상기 레이어 정보는 제k 프레임에 대해 실제로 사용된 레이어들 전부의 지시자(indicator)를 포함하는, 방법.
  7. 제1항에 있어서, 상기 레이어 정보는 우세 벡터(predominant vector)들에 대한 계수들이 명시되어 있다는 것을 표시하는, 방법.
  8. 제1항에 있어서, 상기 레이어 정보는 MinNumOfCoeffsForAmbHOA보다 더 큰 숫자에 대응하는 우세 벡터들의 계수들이 명시되어 있다는 것을 표시하는, 방법.
  9. 제1항에 있어서, 상기 레이어 정보는 ContAddHoaCoeff에 정의된 요소들 전부 및 MinNumOfCoeffsForAmbHOA가 전송되지 않는다는 것을 표시하고, lay는 벡터에 대응하는 벡터 기반 신호를 포함하는 레이어의 인덱스인, 방법.
  10. 프로세서에 의해 실행될 때, 제1항에 따른 방법을 수행하는 명령어들을 포함하는 비일시적 컴퓨터 판독가능 매체.
  11. 사운드 또는 음장의 압축된 고차 앰비소닉스(HOA) 표현을 디코딩하기 위한 장치로서,
    상기 압축된 HOA 표현을 포함하는 비트스트림을 수신하도록 구성된 수신기 - 상기 비트스트림은 베이스 레이어 및 하나 이상의 계층적 향상 레이어를 포함하는 복수의 계층적 레이어를 포함하고, 상기 복수의 계층적 레이어는 상기 사운드 또는 음장의 압축된 HOA 표현의 컴포넌트들을 포함함 -, 및
    디코더
    를 포함하고, 상기 디코더는:
    디코딩을 위해 상기 복수의 계층적 레이어 중에서 최상위 사용가능 레이어를 결정하고;
    상기 최상위 사용가능 레이어에 배정된 HOA 확장 페이로드를 추출하고 - 상기 HOA 확장 페이로드는 상기 최상위 사용가능 레이어에 대응하는 재구성된 HOA 표현을 파라미터적으로 향상시키기 위한 보조 정보를 포함하고, 상기 HOA 확장 페이로드는 HOA 공간 신호 예측 디코딩을 위해 비트스트림 요소들을 포함하고, 상기 최상위 사용가능 레이어에 대응하는 상기 재구성된 HOA 표현은 상기 최상위 사용가능 레이어 및 상기 최상위 사용가능 레이어보다 하위인 임의의 레이어들에 배정된 전송 신호들에 기초하여 획득가능함 -;
    상기 최상위 사용가능 레이어에 대응하는 상기 압축된 HOA 표현을 레이어 정보에 기초하여 디코딩하고 - 상기 전송 신호들은 상기 최상위 사용가능 레이어 및 상기 최상위 사용가능 레이어보다 하위인 임의의 레이어들에 배정됨 -;
    상기 최상위 사용가능 레이어에 배정된 상기 HOA 확장 페이로드에 포함된 상기 보조 정보를 사용하여 상기 디코딩된 HOA 표현을 파라미터적으로 향상시키도록
    구성되는, 장치.
KR1020237017456A 2015-10-08 2016-10-07 압축된 고차 앰비소닉스 사운드 또는 음장 표현들에 대한 계층화된 코딩 및 데이터 구조 KR20230079239A (ko)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
EP15306591 2015-10-08
EP15306591.7 2015-10-08
US201662361863P 2016-07-13 2016-07-13
US62/361,863 2016-07-13
KR1020187012834A KR102537337B1 (ko) 2015-10-08 2016-10-07 압축된 고차 앰비소닉스 사운드 또는 음장 표현들에 대한 계층화된 코딩 및 데이터 구조
PCT/EP2016/073971 WO2017060412A1 (en) 2015-10-08 2016-10-07 Layered coding and data structure for compressed higher-order ambisonics sound or sound field representations

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020187012834A Division KR102537337B1 (ko) 2015-10-08 2016-10-07 압축된 고차 앰비소닉스 사운드 또는 음장 표현들에 대한 계층화된 코딩 및 데이터 구조

Publications (1)

Publication Number Publication Date
KR20230079239A true KR20230079239A (ko) 2023-06-05

Family

ID=54361028

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020187012834A KR102537337B1 (ko) 2015-10-08 2016-10-07 압축된 고차 앰비소닉스 사운드 또는 음장 표현들에 대한 계층화된 코딩 및 데이터 구조
KR1020237017456A KR20230079239A (ko) 2015-10-08 2016-10-07 압축된 고차 앰비소닉스 사운드 또는 음장 표현들에 대한 계층화된 코딩 및 데이터 구조

Family Applications Before (1)

Application Number Title Priority Date Filing Date
KR1020187012834A KR102537337B1 (ko) 2015-10-08 2016-10-07 압축된 고차 앰비소닉스 사운드 또는 음장 표현들에 대한 계층화된 코딩 및 데이터 구조

Country Status (22)

Country Link
US (4) US10714099B2 (ko)
EP (2) EP3926626B1 (ko)
JP (2) JP6866362B2 (ko)
KR (2) KR102537337B1 (ko)
CN (6) CN116312576A (ko)
AU (3) AU2016335091B2 (ko)
BR (2) BR122022025224B1 (ko)
CA (3) CA3228657A1 (ko)
CL (1) CL2018000887A1 (ko)
CO (1) CO2018004868A2 (ko)
EA (1) EA035064B1 (ko)
ES (1) ES2903247T3 (ko)
HK (2) HK1250586A1 (ko)
IL (3) IL290796B2 (ko)
MA (1) MA45880B1 (ko)
MX (2) MX2018004166A (ko)
MY (1) MY188894A (ko)
PH (1) PH12018500704A1 (ko)
SA (1) SA518391264B1 (ko)
SG (1) SG10202001597WA (ko)
WO (1) WO2017060412A1 (ko)
ZA (3) ZA201802540B (ko)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116312576A (zh) * 2015-10-08 2023-06-23 杜比国际公司 声音或声场的压缩hoa表示的解码方法和装置
US10075802B1 (en) 2017-08-08 2018-09-11 Qualcomm Incorporated Bitrate allocation for higher order ambisonic audio data
US11270711B2 (en) 2017-12-21 2022-03-08 Qualcomm Incorproated Higher order ambisonic audio data
US10657974B2 (en) 2017-12-21 2020-05-19 Qualcomm Incorporated Priority information for higher order ambisonic audio data
JP6849007B2 (ja) 2018-04-12 2021-03-24 三生医薬株式会社 造粒組成物、及びその製造方法
US20210409888A1 (en) * 2020-06-29 2021-12-30 Qualcomm Incorporated Sound field adjustment

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003241799A (ja) 2002-02-15 2003-08-29 Nippon Telegr & Teleph Corp <Ntt> 音響符号化方法、復号化方法、符号化装置、復号化装置及び符号化プログラム、復号化プログラム
US7177804B2 (en) 2005-05-31 2007-02-13 Microsoft Corporation Sub-band voice codec with multi-stage codebooks and redundant coding
ATE442645T1 (de) 2006-02-06 2009-09-15 France Telecom Verfahren und vorrichtung zur hierarchischen kodierung eines quelltonsignals sowie entsprechendes decodierverfahren und gerät, programme und signal
AU2009267459B2 (en) 2008-07-11 2014-01-23 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, methods for encoding and decoding an audio signal, audio stream and computer program
CA2871268C (en) 2008-07-11 2015-11-03 Nikolaus Rettelbach Audio encoder, audio decoder, methods for encoding and decoding an audio signal, audio stream and computer program
US20110320193A1 (en) 2009-03-13 2011-12-29 Panasonic Corporation Speech encoding device, speech decoding device, speech encoding method, and speech decoding method
BR122021008581B1 (pt) 2010-01-12 2022-08-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificador de áudio, decodificador de áudio, método de codificação e informação de áudio, e método de decodificação de uma informação de áudio que utiliza uma tabela hash que descreve tanto valores de estado significativos como limites de intervalo
EP2395505A1 (en) 2010-06-11 2011-12-14 Thomson Licensing Method and apparatus for searching in a layered hierarchical bit stream followed by replay, said bit stream including a base layer and at least one enhancement layer
EP2469741A1 (en) * 2010-12-21 2012-06-27 Thomson Licensing Method and apparatus for encoding and decoding successive frames of an ambisonics representation of a 2- or 3-dimensional sound field
TWI505262B (zh) * 2012-05-15 2015-10-21 Dolby Int Ab 具多重子流之多通道音頻信號的有效編碼與解碼
US9460729B2 (en) 2012-09-21 2016-10-04 Dolby Laboratories Licensing Corporation Layered approach to spatial audio coding
US9613660B2 (en) 2013-04-05 2017-04-04 Dts, Inc. Layered audio reconstruction system
US9716959B2 (en) * 2013-05-29 2017-07-25 Qualcomm Incorporated Compensating for error in decomposed representations of sound fields
US9691406B2 (en) 2013-06-05 2017-06-27 Dolby Laboratories Licensing Corporation Method for encoding audio signals, apparatus for encoding audio signals, method for decoding audio signals and apparatus for decoding audio signals
US20150194157A1 (en) * 2014-01-06 2015-07-09 Nvidia Corporation System, method, and computer program product for artifact reduction in high-frequency regeneration audio signals
US9922656B2 (en) * 2014-01-30 2018-03-20 Qualcomm Incorporated Transitioning of ambient higher-order ambisonic coefficients
CN109410962B (zh) * 2014-03-21 2023-06-06 杜比国际公司 用于对压缩的hoa信号进行解码的方法、装置和存储介质
KR102201726B1 (ko) * 2014-03-21 2021-01-12 돌비 인터네셔널 에이비 고차 앰비소닉스(hoa) 신호를 압축하는 방법, 압축된 hoa 신호를 압축 해제하는 방법, hoa 신호를 압축하기 위한 장치, 및 압축된 hoa 신호를 압축 해제하기 위한 장치
EP2922057A1 (en) * 2014-03-21 2015-09-23 Thomson Licensing Method for compressing a Higher Order Ambisonics (HOA) signal, method for decompressing a compressed HOA signal, apparatus for compressing a HOA signal, and apparatus for decompressing a compressed HOA signal
CN116312576A (zh) * 2015-10-08 2023-06-23 杜比国际公司 声音或声场的压缩hoa表示的解码方法和装置

Also Published As

Publication number Publication date
ZA201802540B (en) 2020-08-26
IL258362A (en) 2018-05-31
IL290796A (en) 2022-04-01
US20210035588A1 (en) 2021-02-04
MA45880B1 (fr) 2022-01-31
HK1251712A1 (zh) 2019-02-01
CN116913291A (zh) 2023-10-20
US11955130B2 (en) 2024-04-09
CN116312576A (zh) 2023-06-23
BR122019018870A8 (ko) 2022-09-13
CN108140390A (zh) 2018-06-08
US20220284907A1 (en) 2022-09-08
JP2021107937A (ja) 2021-07-29
CL2018000887A1 (es) 2018-07-06
ZA202001987B (en) 2022-12-21
US11373661B2 (en) 2022-06-28
CA3228657A1 (en) 2017-04-13
CN116913292A (zh) 2023-10-20
IL290796B1 (en) 2023-06-01
MA45880A (fr) 2018-08-15
MY188894A (en) 2022-01-12
AU2021269310A1 (en) 2021-12-09
IL258362B (en) 2022-04-01
HK1250586A1 (zh) 2019-01-04
CA3000781C (en) 2024-03-12
BR122022025233B1 (pt) 2023-04-18
CA3228629A1 (en) 2017-04-13
JP2018530000A (ja) 2018-10-11
AU2016335091B2 (en) 2021-08-19
CO2018004868A2 (es) 2018-08-10
JP7258072B2 (ja) 2023-04-14
IL290796B2 (en) 2023-10-01
PH12018500704B1 (en) 2018-10-15
BR112018007171A2 (pt) 2018-10-16
EP3360134A1 (en) 2018-08-15
IL302588A (en) 2023-07-01
CA3000781A1 (en) 2017-04-13
SA518391264B1 (ar) 2021-10-06
MX2018004166A (es) 2018-08-01
SG10202001597WA (en) 2020-04-29
US20180268827A1 (en) 2018-09-20
EA201890845A1 (ru) 2018-10-31
ES2903247T3 (es) 2022-03-31
EP3926626B1 (en) 2024-05-22
CN108140390B (zh) 2023-06-09
CN116959460A (zh) 2023-10-27
EP3360134B1 (en) 2021-12-01
ZA202204514B (en) 2023-11-29
JP2023082173A (ja) 2023-06-13
BR122019018870A2 (pt) 2018-10-16
CN116312575A (zh) 2023-06-23
AU2021269310B2 (en) 2023-11-16
AU2016335091A1 (en) 2018-05-10
JP6866362B2 (ja) 2021-04-28
MX2021002517A (es) 2021-04-28
BR122022025224B1 (pt) 2023-04-18
EA035064B1 (ru) 2020-04-23
PH12018500704A1 (en) 2018-10-15
US10714099B2 (en) 2020-07-14
EP3926626A1 (en) 2021-12-22
KR102537337B1 (ko) 2023-05-26
AU2024200839A1 (en) 2024-02-29
WO2017060412A1 (en) 2017-04-13
US20240177718A1 (en) 2024-05-30
KR20180063279A (ko) 2018-06-11

Similar Documents

Publication Publication Date Title
KR102537337B1 (ko) 압축된 고차 앰비소닉스 사운드 또는 음장 표현들에 대한 계층화된 코딩 및 데이터 구조
KR102661914B1 (ko) 압축된 사운드 또는 음장 표현들에 대한 계층화된 코딩
KR20180066136A (ko) 압축된 사운드 또는 음장 표현들에 대한 계층화된 코딩
OA18601A (en) Layered coding and data structure for compressed higher-order ambisonics sound or sound field representations.
BR122020023384B1 (pt) Aparelho para decodificar uma representação ambissônica de ordem superior compactada de um som ou campo sonoro
BR122019018870B1 (pt) Método para decodificar uma representação ambissônica de ordem superior compactada de um som ou campo sonoro e mídia legível por computador não transitória
BR122020023376B1 (pt) Aparelho para decodificar uma representação ambissônica de ordem superior (hoa) compactada

Legal Events

Date Code Title Description
A107 Divisional application of patent
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right