KR102338374B1 - 사운드 필드의 고차 앰비소닉스 표현을 코딩하기 위해 요구되는 사이드 정보의 코딩을 개선하기 위한 방법 및 장치 - Google Patents

사운드 필드의 고차 앰비소닉스 표현을 코딩하기 위해 요구되는 사이드 정보의 코딩을 개선하기 위한 방법 및 장치 Download PDF

Info

Publication number
KR102338374B1
KR102338374B1 KR1020167021560A KR20167021560A KR102338374B1 KR 102338374 B1 KR102338374 B1 KR 102338374B1 KR 1020167021560 A KR1020167021560 A KR 1020167021560A KR 20167021560 A KR20167021560 A KR 20167021560A KR 102338374 B1 KR102338374 B1 KR 102338374B1
Authority
KR
South Korea
Prior art keywords
prediction
array
indices
side information
data
Prior art date
Application number
KR1020167021560A
Other languages
English (en)
Other versions
KR20160106692A (ko
Inventor
알렉산더 크루거
스벤 코돈
올리버 우에볼트
Original Assignee
돌비 인터네셔널 에이비
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 돌비 인터네셔널 에이비 filed Critical 돌비 인터네셔널 에이비
Priority to KR1020217040165A priority Critical patent/KR102409796B1/ko
Publication of KR20160106692A publication Critical patent/KR20160106692A/ko
Application granted granted Critical
Publication of KR102338374B1 publication Critical patent/KR102338374B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

고차 앰비소닉스는 특정 확성기 셋업에 독립적으로 3차원 사운드를 표현한다. 그러나, HOA 표현의 송신은 매우 높은 비트 레이트를 초래한다. 따라서, 고정된 수의 채널들을 이용한 압축이 사용되는데, 여기서 방향성 신호 성분들 및 주변 신호 성분들은 상이하게 처리된다. 코딩을 위해, 방향성 신호 성분들로부터 원래 HOA 표현의 부분들이 예측된다. 이러한 예측은 대응하는 디코딩을 위해 요구되는 사이드 정보를 제공한다. 일부 추가의 특정 목적 비트들을 사용함으로써, 그러한 사이드 정보를 코딩하기 위해 요구되는 비트 수가 평균적으로 감소된다는 점에서, 공지된 사이드 정보 코딩 처리가 개선된다.

Description

사운드 필드의 고차 앰비소닉스 표현을 코딩하기 위해 요구되는 사이드 정보의 코딩을 개선하기 위한 방법 및 장치{METHOD AND APPARATUS FOR IMPROVING THE CODING OF SIDE INFORMATION REQUIRED FOR CODING A HIGHER ORDER AMBISONICS REPRESENTATION OF A SOUND FIELD}
본 발명은 사운드 필드의 고차 앰비소닉스 표현을 코딩하기 위해 요구되는 사이드 정보의 코딩을 개선하기 위한 방법 및 장치에 관한 것이다.
고차 앰비소닉스(Higher Order Ambisonics)(HOA)는 파면 합성(wave field synthesis)(WFS)과 같은 다른 기술들 또는 22.2 멀티채널 오디오 포맷과 같은 채널 기반 접근법들 간에 3차원 사운드를 표현하는 하나의 가능성을 제공한다. 채널 기반 방법들과 대조적으로, HOA 표현은 특정 확성기 셋업에 독립적이라는 장점을 제공한다. 그러나, 이러한 유연성은 특정 확성기 셋업에서 HOA 표현의 재생을 위해 요구되는 디코딩 프로세스의 희생으로 이루어진다. 요구된 확성기들의 수가 통상 매우 큰 WFS 접근법과 비교하여, HOA 신호들은 또한 소수의 확성기들로만 구성되는 셋업들로 렌더링될 수 있다. HOA의 추가 장점은 동일한 표현이 또한 헤드폰들로의 바이노럴 렌더링(binaural rendering)을 위한 임의의 수정 없이 이용될 수 있다는 점이다.
HOA는 생략(truncated) 구면 조화 함수(Spherical Harmonics)(SH) 확장에 의한 복합 조화 평면파(complex harmonic plane wave) 진폭들의 공간 밀도의 표현에 기초한다. 각각의 확장 계수(expansion coefficient)는 시간 도메인 함수에 의해 등가적으로 표현될 수 있는 각 주파수의 함수이다. 따라서, 일반성의 손실 없이, 완전한 HOA 사운드 필드 표현은 실제로
Figure 112016076399050-pct00001
개의 시간 도메인 함수들로 구성되는 것으로 가정될 수 있으며,
Figure 112016076399050-pct00002
은 확장 계수들의 수를 나타낸다. 이러한 시간 도메인 함수들은 이하에서 HOA 계수 시퀀스들 또는 HOA 채널들로서 등가적으로 언급될 것이다.
HOA 표현의 공간 해상도(spatial resolution)는 확장의 증가하는 최대 차수
Figure 112016076399050-pct00003
에 따라 개선된다. 불행하게도, 확장 계수들의 수(
Figure 112016076399050-pct00004
)는 차수
Figure 112016076399050-pct00005
에 따라 2차식으로 증가하는데, 특히
Figure 112016076399050-pct00006
이다. 예를 들어, 차수
Figure 112016076399050-pct00007
= 4를 사용하는 전형적인 HOA 표현들은
Figure 112016076399050-pct00008
= 25개의 HOA (확장) 계수들을 요구한다. 이전에 이루어진 고려사항들에 따라, HOA 표현의 송신을 위한 전체 비트 레이트는, 원하는 단일 채널 샘플링 레이트(
Figure 112016076399050-pct00009
) 및 샘플 당 비트 수(
Figure 112016076399050-pct00010
)를 고려하면,
Figure 112016076399050-pct00011
에 의해 결정된다. 그 결과, 샘플당
Figure 112016076399050-pct00012
= 16 비트를 이용하여
Figure 112016076399050-pct00013
= 48kHz의 샘플링 레이트로 차수
Figure 112016076399050-pct00014
= 4의 HOA 표현을 송신하는 것은 예를 들어 스트리밍과 같은 많은 실제 애플리케이션들에 대해 매우 높은 19.2MBits/s의 비트 레이트를 초래한다. 따라서, HOA 표현들의 압축이 매우 바람직하다.
HOA 사운드 필드 표현들의 압축은 WO 2013/171083 A1, EP 13305558.2 및 PCT/EP2013/075559에 제안되어 있다. 이러한 처리들은, 사운드 필드 분석을 수행하고, 주어진 HOA 표현을 방향성 성분 및 잔여 주변 성분으로 분해하는 것을 통상 갖는다. 한편, 최종 압축된 표현은 다수의 양자화된 신호들로 구성되는 것으로 가정되며, 이는 주변 HOA 성분의 관련 계수 시퀀스들 및 방향성 신호들의 지각적 코딩으로부터 기인한다. 다른 한편, 그것은 양자화된 신호들과 관련되는 추가의 사이드 정보를 포함하는 것으로 가정되며, 그 사이드 정보는 그것의 압축된 버전으로부터의 HOA 표현의 재구성을 위해 필요하다.
그러한 사이드 정보의 중요한 부분은 방향성 신호들로부터의 원래 HOA 표현의 부분들의 예측의 설명이다. 이러한 예측을 위해 원래 HOA 표현은 공간적으로 균일하게 분배된 방향들로부터 충돌하는 다수의 공간적으로 분산된 일반적인 평면파들에 의해 등가적으로 표현되는 것으로 가정되므로, 예측은 이하에서 공간 예측(spatial prediction)으로 언급된다.
공간 예측과 관련되는 그러한 사이드 정보의 코딩은 ISO/IEC JTC1/SC29/WG11, N14061, "Working Draft Text of MPEG-H 3D Audio HOA RMO"(2013년 11월, 스위스 제네바)에 설명되어 있다. 그러나, 이러한 최신 기술의 사이드 정보의 코딩은 상당히 비효율적이다.
본 발명에 의해 해결되어야 하는 문제는 그러한 공간 예측과 관련되는 사이드 정보를 코딩하는 더 효율적인 방식을 제공하는 것이다.
이러한 문제는 청구항 1 및 청구항 6에 개시되는 방법들에 의해 해결된다. 이러한 방법들을 이용하는 장치는 청구항 2 및 청구항 7에 개시되어 있다.
비트는 코딩된 사이드 정보 표현 데이터(
Figure 112016076399050-pct00015
)에 추가되며, 그 비트는 임의의 예측이 수행되어야 하는지를 시그널링한다. 이러한 특징은 시간에 따라
Figure 112016076399050-pct00016
데이터의 송신을 위해 평균 비트 레이트를 감소시킨다. 또한, 특정 상황들에서, 각각의 방향에 대해 예측이 수행되는지를 표시하는 비트 어레이를 사용하는 대신에, 능동 예측들(active predictions)의 수 및 각각의 인덱스들을 송신하거나 전송하는 것이 더 효율적이다. 단일 비트는 예측이 수행되는 것으로 가정되는 방향들의 인덱스들이 그 방식으로 코딩되는 것을 표시하기 위해 사용될 수 있다. 평균적으로, 이러한 동작은 시간에 따라
Figure 112016076399050-pct00017
데이터의 송신을 위해 비트 레이트를 더 감소시킨다.
원칙적으로, 본 발명에 따른 방법은 HOA 계수 시퀀스들의 입력 시간 프레임들을 갖는 사운드 필드의 고차 앰비소닉스(HOA로 표시됨) 표현을 코딩하기 위해 요구되는 사이드 정보의 코딩을 개선하기에 적합하며, 여기서 잔여 주변 HOA 성분뿐만 아니라 우세 방향성 신호들이 결정되고, 상기 우세 방향성 신호들을 위해 예측이 사용되고, 그에 의해 HOA 계수들의 코딩된 프레임에 대해, 상기 예측을 설명하는 사이드 정보 데이터를 제공하고, 상기 사이드 정보 데이터는,
방향에 대해 예측이 수행되는지를 표시하는 비트 어레이;
예측이 수행되어야 하는 방향들에 대해, 각각의 비트가 이 예측의 종류를 표시하는 비트 어레이;
수행될 예측들에 대해, 사용될 방향성 신호들의 인덱스들을 나타내는 요소들을 갖는 데이터 어레이;
양자화된 스케일링 인자들을 표현하는 요소들을 갖는 데이터 어레이
를 포함할 수 있고,
상기 방법은,
상기 예측이 수행되어야 하는지를 표시하는 비트 값을 제공하는 단계;
예측이 수행되지 않아야 하는 경우에는, 상기 사이드 정보 데이터에서 상기 비트 어레이들 및 상기 데이터 어레이들을 생략하는 단계;
상기 예측이 수행되어야 하는 경우에는, 방향에 대해 예측이 수행되는지를 표시하는 상기 비트 어레이 대신에, 능동 예측들의 수, 및 예측이 수행되어야 하는 방향들의 인덱스들을 포함하는 데이터 어레이가 상기 사이드 정보 데이터에 포함되는지를 표시하는 비트 값을 제공하는 단계
를 포함한다.
원칙적으로, 본 발명에 따른 장치는 HOA 계수 시퀀스들의 입력 시간 프레임들을 갖는 사운드 필드의 고차 앰비소닉스(HOA로 표시됨) 표현을 코딩하기 위해 요구되는 사이드 정보의 코딩을 개선하기에 적합하며, 여기서 잔여 주변 HOA 성분뿐만 아니라 우세 방향성 신호들이 결정되고, 상기 우세 방향성 신호들을 위해 예측이 사용되고, 그에 의해 HOA 계수들의 코딩된 프레임에 대해, 상기 예측을 설명하는 사이드 정보 데이터를 제공하고, 상기 사이드 정보 데이터는,
방향에 대해 예측이 수행되는지를 표시하는 비트 어레이;
예측이 수행되어야 하는 방향들에 대해, 각각의 비트가 이 예측의 종류를 표시하는 비트 어레이;
수행될 예측들에 대해, 사용될 방향성 신호들의 인덱스들을 나타내는 요소들을 갖는 데이터 어레이;
양자화된 스케일링 인자들을 표현하는 요소들을 갖는 데이터 어레이
를 포함할 수 있고,
상기 장치는,
상기 예측이 수행되어야 하는지를 표시하는 비트 값을 제공하고;
예측이 수행되지 않아야 하는 경우에는, 상기 사이드 정보 데이터에서 상기 비트 어레이들 및 상기 데이터 어레이들을 생략하고;
상기 예측이 수행되어야 하는 경우에는, 방향에 대해 예측이 수행되는지를 표시하는 상기 비트 어레이 대신에, 능동 예측들의 수, 및 예측이 수행되어야 하는 방향들의 인덱스들을 포함하는 데이터 어레이가 상기 사이드 정보 데이터에 포함되는지를 표시하는 비트 값을 제공하는
수단을 포함한다.
본 발명의 유리한 추가의 실시예들은 각각의 독립 청구항들에 개시되어 있다.
본 발명의 예시적인 실시예들은 첨부 도면들을 참조하여 설명된다.
도 1은 EP 13305558.2에 설명되는 HOA 압축 처리에서의 공간 예측과 관련되는 사이드 정보의 예시적인 코딩을 도시한다.
도 2는 특허 출원 EP 13305558.2에 설명되는 HOA 압축해제 처리에서의 공간 예측과 관련되는 사이드 정보의 예시적인 디코딩을 도시한다.
도 3은 특허 출원 PCT/EP2013/075559에 설명된 바와 같은 HOA 분해를 도시한다.
도 4는 잔여 신호를 표현하는 일반적인 평면파들의 방향들(십자들로 도시됨) 및 우세 사운드 소스들의 방향들(원들로 도시됨)의 예시를 도시한다. 이러한 방향들은 단위구(unit sphere) 상의 샘플링 위치들로서 3차원 좌표계에 제시된다.
도 5는 최신 기술의 공간 예측 사이드 정보의 코딩을 도시한다.
도 6은 본 발명에 따른 공간 예측 사이드 정보의 코딩을 도시한다.
도 7은 본 발명에 따른 코딩된 공간 예측 사이드 정보의 디코딩을 도시한다.
도 8은 도 7의 계속을 도시한다.
이하에서, 특허 출원 EP 13305558.2에 설명되는 HOA 압축 및 압축해제 처리는 공간 예측과 관련되는 본 발명에 따른 사이드 정보의 코딩이 사용되는 컨텍스트를 제공하기 위해 개괄된다.
HOA 압축
도 1에서, 공간 예측과 관련되는 사이드 정보의 코딩이 특허 출원 EP 13305558.2에 설명되는 HOA 압축 처리로 어떻게 임베딩될 수 있는지가 예시되어 있다. HOA 표현 압축에 대해, 길이
Figure 112016076399050-pct00018
의 HOA 계수 시퀀스들의 오버랩하지 않는 입력 프레임들(
Figure 112016076399050-pct00019
)을 갖는 프레임 방식 처리가 가정되며, 여기서
Figure 112016076399050-pct00020
는 프레임 인덱스를 나타낸다. 도 1에서의 제1 단계 또는 스테이지(11/12)는 선택적이고, HOA 계수 시퀀스들(
Figure 112016076399050-pct00021
)의 오버랩하지 않는
Figure 112016076399050-pct00022
번째 및 (
Figure 112016076399050-pct00023
- 1)번째 프레임들을 긴 프레임(
Figure 112016076399050-pct00024
)으로 아래와 같이 연쇄시키는 것으로 구성되는데:
Figure 112016076399050-pct00025
여기서, 긴 프레임은 인접한 긴 프레임과 50% 오버랩되고, 긴 프레임은 우세 사운드 소스 방향들의 추정을 위해 연속적으로 사용된다.
Figure 112016076399050-pct00026
에 대한 표기법과 유사하게, 물결표 심볼은 각각의 양이 긴 오버랩 프레임들을 언급하는 것을 표시하기 위해 이하의 설명에 사용된다. 단계/스테이지(11/12)가 존재하지 않으면, 물결표 심볼은 특정 의미를 갖지 않는다.
굵게 표시된 파라미터는 값들의 세트, 예를 들어 매트릭스 또는 벡터를 의미한다.
긴 프레임(
Figure 112016076399050-pct00027
)은 EP 13305558.2에 설명되는 바와 같이 우세 사운드 소스 방향들의 추정을 위한 단계 또는 스테이지(13)에서 연속적으로 사용된다. 이러한 추정은 방향성 신호들의 대응하는 방향 추정치들의 데이터 세트(
Figure 112016076399050-pct00028
)뿐만 아니라, 검출되었던 관련된 방향성 신호들의 인덱스들의 데이터 세트(
Figure 112016076399050-pct00029
)를 제공한다.
Figure 112016076399050-pct00030
는, HOA 압축을 시작하기 전에 설정되어야 하고 이하의 공지된 처리로 핸들링될 수 있는 방향성 신호들의 최대 수를 나타낸다.
단계 또는 스테이지(14)에서, HOA 계수 시퀀스들의 현재 (긴) 프레임(
Figure 112016076399050-pct00031
)은 (EP 13305156.5에 제안된 바와 같이) 세트(
Figure 112016076399050-pct00032
)에 포함되는 방향들에 속하는 다수의 방향성 신호들(
Figure 112016076399050-pct00033
), 및 잔여 주변 HOA 성분(
Figure 112016076399050-pct00034
)으로 분해된다. 2개의 프레임들의 지연은 평활 신호들을 획득하기 위해 오버랩-애드 처리의 결과로서 도입된다.
Figure 112016076399050-pct00035
는 전체
Figure 112016076399050-pct00036
개의 채널들을 포함하고 있지만, 그 중 능동 방향성 신호들에 대응하는 것들만이 비제로인 것으로 가정된다. 이러한 채널들을 지정하는 인덱스들은 데이터 세트(
Figure 112016076399050-pct00037
)에서 출력되는 것으로 가정된다. 추가적으로, 단계/스테이지(14)에서의 분해는 방향성 신호들로부터 원래 HOA 표현의 부분들을 예측하기 위해 압축해제 측에서 사용될 수 있는 일부 파라미터들(
Figure 112016076399050-pct00038
)을 제공한다(더 많은 상세들에 대해서는 EP 13305156.5 참조). 공간 예측 파라미터들(
Figure 112016076399050-pct00039
)의 의미를 설명하기 위해, HOA 분해는 아래의 HOA 분해 섹션에서 더 상세히 설명된다.
단계 또는 스테이지(15)에서, 주변 HOA 성분(
Figure 112016076399050-pct00040
)의 계수들의 수는
Figure 112016076399050-pct00041
비제로 HOA 계수 시퀀스들만을 포함하기 위해 감소되며,
Figure 112016076399050-pct00042
는 데이터 세트(
Figure 112016076399050-pct00043
)의 카디널리티(cardinality), 즉 프레임(
Figure 112016076399050-pct00044
)에서의 능동 방향성 신호들의 수를 표시한다. 주변 HOA 성분이 HOA 계수 시퀀스들의 최소 수(
Figure 112016076399050-pct00045
)에 의해 항상 표현되는 것으로 가정되므로, 이러한 문제는 가능한
Figure 112016076399050-pct00046
시퀀스들로부터 나머지
Figure 112016076399050-pct00047
HOA 계수 시퀀스들의 선택으로 실제로 감소될 수 있다. 평활한 감소된 주변 HOA 표현을 획득하기 위해, 이러한 선택은 이전 프레임(
Figure 112016076399050-pct00048
)에서 취해지는 선택과 비교하여, 가능한 한 소수의 변경들이 발생하도록 달성된다.
Figure 112016076399050-pct00049
비제로 계수 시퀀스들의 감소된 수를 갖는 최종 주변 HOA 표현은
Figure 112016076399050-pct00050
에 의해 표시된다. 선택된 주변 HOA 계수 시퀀스들의 인덱스들은 데이터 세트(
Figure 112016076399050-pct00051
)에서 출력된다. 단계/스테이지(16)에서,
Figure 112016076399050-pct00052
에 포함되는 능동 방향성 신호들 및
Figure 112016076399050-pct00053
에 포함되는 HOA 계수 시퀀스들은 EP 13305558.2에 설명된 바와 같이 개별 지각적 인코딩을 위해
Figure 112016076399050-pct00054
채널들의 프레임(
Figure 112016076399050-pct00055
)에 할당된다. 지각적 코딩 단계/스테이지(17)는 프레임(
Figure 112016076399050-pct00056
)의
Figure 112016076399050-pct00057
채널들을 인코딩하고 인코딩된 프레임(
Figure 112016076399050-pct00058
)을 출력한다.
본 발명에 따르면, 단계/스테이지(14)에서의 원래 HOA 표현의 분해 후에, HOA 표현의 분해로부터 기인하는 공간 예측 파라미터들 또는 사이드 정보 데이터(
Figure 112016076399050-pct00059
)는 지연(18)에서 2개의 프레임들만큼 지연되는 인덱스 세트(
Figure 112016076399050-pct00060
)를 사용하여, 코딩된 데이터 표현(
Figure 112016076399050-pct00061
)을 제공하기 위해 단계 또는 스테이지(19)에서 무손실로 코딩된다.
HOA 압축해제
도 2에서, 단계 또는 스테이지(25)에서 특허 출원 EP 13305558.2의 도 3에 설명되는 HOA 압축해제 처리로 공간 예측과 관련되는 수신된 인코딩 사이드 정보 데이터(
Figure 112016076399050-pct00062
)의 디코딩을 임베딩하는 법이 예시적으로 도시된다. 인코딩된 사이드 정보 데이터(
Figure 112016076399050-pct00063
)의 디코딩은, 지연(24)에서 2개의 프레임들만큼 지연되는 수신된 인덱스 세트(
Figure 112016076399050-pct00064
)를 사용하여, 단계 또는 스테이지(23)에서 HOA 표현의 구성으로 그것의 디코딩된 버전(
Figure 112016076399050-pct00065
)을 입력하기 전에 수행된다.
단계 또는 스테이지(21)에서,
Figure 112016076399050-pct00066
에 포함되는
Figure 112016076399050-pct00067
신호들의 지각적 디코딩은
Figure 112016076399050-pct00068
에서
Figure 112016076399050-pct00069
디코딩된 신호들을 획득하기 위해 수행된다.
신호 재분배 단계 또는 스테이지(22)에서,
Figure 112016076399050-pct00070
에서의 지각적으로 디코딩된 신호들은 방향성 신호들의 프레임(
Figure 112016076399050-pct00071
) 및 주변 HOA 성분의 프레임(
Figure 112016076399050-pct00072
)을 재생성하기 위해 재분배된다. 신호들을 분배하는 법에 관한 정보는 인덱스 데이터 세트들(
Figure 112016076399050-pct00073
Figure 112016076399050-pct00074
)을 사용하여, HOA 압축을 위해 수행되는 할당 동작을 재생함으로써 획득된다. 구성 단계 또는 스테이지(23)에서, 원하는 전체 HOA 표현의 현재 프레임(
Figure 112016076399050-pct00075
)은 (PCT/EP2013/075559의 도 2b 및 도 4와 관련하여 설명되는 처리에 따라) 방향성 신호들의 프레임(
Figure 112016076399050-pct00076
), 대응하는 방향들의 세트(
Figure 112016076399050-pct00077
)와 함께 능동 방향성 신호 인덱스들의 세트(
Figure 112016076399050-pct00078
), 방향성 신호들로부터 HOA 표현의 부분들을 예측하는 파라미터들(
Figure 112016076399050-pct00079
), 및 감소된 주변 HOA 성분의 HOA 계수 시퀀스들의 프레임(
Figure 112016076399050-pct00080
)을 사용하여 재구성된다.
Figure 112016076399050-pct00081
는 PCT/EP2013/075559에서 성분(
Figure 112016076399050-pct00082
)에 대응하고,
Figure 112016076399050-pct00083
Figure 112016076399050-pct00084
는 PCT/EP2013/075559에서
Figure 112016076399050-pct00085
에 대응하며, 능동 방향성 신호 인덱스들은 유효 요소들을 포함하는
Figure 112016076399050-pct00086
의 행들의 그러한 인덱스들을 취함으로써 획득될 수 있다. 즉, 균일하게 분배된 방향들에 대한 방향성 신호들은 그러한 예측을 위해 수신된 파라미터들(
Figure 112016076399050-pct00087
)을 사용하여 방향성 신호들(
Figure 112016076399050-pct00088
)로부터 예측되고, 그 후에 현재 압축해제된 프레임(
Figure 112016076399050-pct00089
)은 방향성 신호들(
Figure 112016076399050-pct00090
)의 프레임으로부터,
Figure 112016076399050-pct00091
Figure 112016076399050-pct00092
으로부터, 그리고 예측된 부분들 및 감소된 주변 HOA 성분(
Figure 112016076399050-pct00093
)으로부터 재구성된다.
HOA 분해
도 3과 관련하여, HOA 분해 처리는 공간 예측의 의미를 설명하기 위해 상세히 설명된다. 이러한 처리는 특허 출원 PCT/EP2013/075559의 도 3과 관련하여 설명되는 처리로부터 도출된다.
우선, 평활화된 우세 방향성 신호들(
Figure 112016076399050-pct00094
) 및 그들의 HOA 표현(
Figure 112016076399050-pct00095
)은 입력 HOA 표현의 긴 프레임(
Figure 112016076399050-pct00096
), 방향들의 세트(
Figure 112016076399050-pct00097
) 및 방향성 신호들의 대응하는 인덱스들의 세트(
Figure 112016076399050-pct00098
)을 사용하여, 단계 또는 스테이지(31)에서 컴퓨팅된다.
Figure 112016076399050-pct00099
은 전체
Figure 112016076399050-pct00100
채널들을 포함하지만, 그 중 능동 방향성 신호들에 대응하는 것들만이 비제로인 것으로 가정된다. 이러한 채널들을 지정하는 인덱스는 세트(
Figure 112016076399050-pct00101
)에서 출력되는 것을 가정된다.
단계 또는 스테이지(33)에서, 우세 방향성 신호들의 원래 HOA 표현(
Figure 112016076399050-pct00102
)과 HOA 표현(
Figure 112016076399050-pct00103
) 사이의 잔여는
Figure 112016076399050-pct00104
방향성 신호들(
Figure 112016076399050-pct00105
)의 수에 의해 표현되며,
Figure 112016076399050-pct00106
방향성 신호들은 균일하게 분배된 방향들로부터의 일반적인 평면파들인 것으로 간주되고, 이 분배된 방향들은 균일한 그리드로 언급된다.
단계 또는 스테이지(34)에서, 이러한 방향성 신호들은 각각의 예측 파라미터들(
Figure 112016076399050-pct00107
)과 함께 예측된 신호들(
Figure 112016076399050-pct00108
)을 제공하기 위해 우세 방향성 신호들(
Figure 112016076399050-pct00109
)로부터 예측된다. 예측에 대해, 세트(
Figure 112016076399050-pct00110
)에 포함되는 인덱스들(
Figure 112016076399050-pct00111
)을 갖는 우세 방향성 신호들(
Figure 112016076399050-pct00112
)만이 고려된다. 예측은 아래의 공간 예측 섹션에서 더 상세히 설명된다.
단계 또는 스테이지(35)에서 예측된 방향성 신호들(
Figure 112016076399050-pct00113
)의 평활화된 HOA 표현(
Figure 112016076399050-pct00114
)이 컴퓨팅된다. 단계 또는 스테이지(37)에서, 균일하게 분배된 방향들로부터의 예측된 방향성 신호들의 HOA 표현(
Figure 112016076399050-pct00115
)과 함께 우세 방향성 신호들의 원래 HOA 표현(
Figure 112016076399050-pct00116
)과 HOA 표현(
Figure 112016076399050-pct00117
) 사이의 잔여
Figure 112016076399050-pct00118
가 컴퓨팅되고 출력된다.
도 3 처리에서의 요구된 신호 지연들은 대응하는 지연들(381 내지 387)에 의해 수행된다.
공간 예측
공간 예측의 목표는
Figure 112016076399050-pct00119
개의 잔여 신호들:
Figure 112016076399050-pct00120
을 평활화된 방향성 신호들의 확장된 프레임:
Figure 112016076399050-pct00121
Figure 112016076399050-pct00122
으로부터 예측하는 것이다(상기 HOA 분해 섹션 및 특허 출원 PCT/EP2013/075559에서의 설명 참조).
각각의 잔여 신호(
Figure 112016076399050-pct00123
)는 방향(
Figure 112016076399050-pct00124
)으로부터 충돌하는 공간적으로 분산된 일반적인 평면파를 표현하며, 그것에 의해 모든 방향들(
Figure 112016076399050-pct00125
,
Figure 112016076399050-pct00126
)은 단위구에 걸쳐 거의 균일하게 분배되는 것으로 가정된다. 전체 모든 방향들은 '그리드'로 언급된다.
각각의 방향성 신호(
Figure 112016076399050-pct00127
)는
Figure 112016076399050-pct00128
번째 방향성 신호가 각각의 프레임들에 대해 능동적인 것을 가정하면, 방향들(
Figure 112016076399050-pct00129
Figure 112016076399050-pct00130
) 사이에 삽입되는 궤적으로부터 충돌하는 일반적인 평면파를 표현한다.
공간 예측의 의미를 일 예에 의해 예시하기 위해, 차수
Figure 112016076399050-pct00131
= 3의 HOA 표현의 분해가 고려되며, 추출하기 위한 방향들의 최대 수는
Figure 112016076399050-pct00132
= 4와 동일하다. 단순화를 위해, 인덱스들('1' 및 '4')을 갖는 방향성 신호들만은 능동적인 반면에, 인덱스들('2' 및 '3')을 갖는 것들은 비능동(non-active)적인 것으로 더 가정된다. 추가적으로, 단순화를 위해, 우세 사운드 소스들의 방향들은 고려된 프레임들에 대해 일정한 것으로 가정되는데, 즉 다음과 같다.
Figure 112016076399050-pct00133
차수
Figure 112016076399050-pct00134
= 3의 결과로서, 공간적으로 분산된 일반적인 평면파들(
Figure 112016076399050-pct00135
,
Figure 112016076399050-pct00136
)의
Figure 112016076399050-pct00137
= 16 방향들(
Figure 112016076399050-pct00138
)이 있다. 도 4는 능동 우세 사운드 소스들의 방향들(
Figure 112016076399050-pct00139
Figure 112016076399050-pct00140
)과 함께 이러한 방향들을 도시한다.
공간 예측을 설명하는 최신 기술의 파라미터들
공간 예측을 하나의 방식은 상기 언급된 ISO/IEC 문헌에 제시된다. 이러한 문헌에서, 신호들(
Figure 112016076399050-pct00141
,
Figure 112016076399050-pct00142
)은 방향성 신호들의 미리 정의된 최대 수(
Figure 112016076399050-pct00143
)의 가중 합에 의해, 또는 가중 합의 저역 통과 필터링된 버전에 의해 예측되는 것으로 가정된다. 공간 예측과 관련되는 사이드 정보는 파라미터 세트(
Figure 112016076399050-pct00144
Figure 112016076399050-pct00145
)에 의해 설명되며, 파라미터 세트는 이하의 3개의 성분들로 구성된다:
Figure 112016076399050-pct00146
번째 방향(
Figure 112016076399050-pct00147
)에 대해 예측이 수행되는지를 표시하고, 만일 그렇다면, 어떤 종류의 예측인지를 또한 표시하는 요소들(
Figure 112016076399050-pct00148
,
Figure 112016076399050-pct00149
)을 갖는 벡터(
Figure 112016076399050-pct00150
)가 수행된다. 요소들의 의미는 다음과 같다.
Figure 112016076399050-pct00151
ㆍ 어느 방향성 신호들로부터 방향(
Figure 112016076399050-pct00152
)에 대한 예측이 수행되어야 하는지의 인덱스들을 요소들(
Figure 112016076399050-pct00153
,
Figure 112016076399050-pct00154
,
Figure 112016076399050-pct00155
)이 나타내는 매트릭스(
Figure 112016076399050-pct00156
). 예측이 방향(
Figure 112016076399050-pct00157
)에 대해 수행되지 않아야 한다면, 매트릭스(
Figure 112016076399050-pct00158
)의 대응하는 열은 제로들로 구성된다. 또한,
Figure 112016076399050-pct00159
미만의 방향성 신호들이 방향(
Figure 112016076399050-pct00160
)에 대한 예측을 위해 사용되면,
Figure 112016076399050-pct00161
Figure 112016076399050-pct00162
번째 열 내의 요구되지 않은 요소들은 또한 제로이다.
ㆍ 대응하는 양자화된 예측 인자들(
Figure 112016076399050-pct00163
,
Figure 112016076399050-pct00164
,
Figure 112016076399050-pct00165
)을 포함하는 매트릭스(
Figure 112016076399050-pct00166
).
이하의 2개의 파라미터들은 이러한 파라미터들의 적절한 해석을 가능하게 하기 위해 디코딩 측에 공지되어야 한다:
ㆍ 일반적인 평면파 신호(
Figure 112016076399050-pct00167
)가 예측되는 것이 허용되는 방향성 신호들의 최대 수(
Figure 112016076399050-pct00168
).
ㆍ 예측 인자들(
Figure 112016076399050-pct00169
,
Figure 112016076399050-pct00170
,
Figure 112016076399050-pct00171
)을 양자화하기 위해 사용되는 비트 수(
Figure 112016076399050-pct00172
). 역양자화 규칙은 수학식 (10)에 주어진다.
이러한 2개의 파라미터들은 인코더 및 디코더에 공지되는 고정 값들로 설정되거나, 추가적으로 송신되어야 하지만, 분명히 프레임 레이트보다 덜 빈번히 이루어져야 한다. 후자의 옵션은 2개의 파라미터들을 압축되는 HOA 표현에 적응시키기 위해 사용될 수 있다.
파라미터 세트에 대한 일 예는,
Figure 112016076399050-pct00173
= 16,
Figure 112016076399050-pct00174
= 2 및
Figure 112016076399050-pct00175
= 8을 가정하면, 이하와 같을 수 있다.
Figure 112016076399050-pct00176
Figure 112016076399050-pct00177
Figure 112016076399050-pct00178
그러한 파라미터들은 방향(
Figure 112016076399050-pct00179
)으로부터의 일반적인 평면파 신호(
Figure 112016076399050-pct00180
)가 값 40을 역양자화하는 것으로부터 기인하는 인자와의 순수 승산(즉 전체 대역(full band))에 의해 방향(
Figure 112016076399050-pct00181
)으로부터의 방향성 신호(
Figure 112016076399050-pct00182
)로부터 예측되는 것을 의미할 것이다. 또한, 방향(
Figure 112016076399050-pct00183
)으로부터의 일반적인 평면파 신호(
Figure 112016076399050-pct00184
)는 값 15 및 -13을 역양자화하는 것으로부터 기인하는 인자들과의 저역 통과 필터링 및 승산에 의해 방향성 신호들(
Figure 112016076399050-pct00185
Figure 112016076399050-pct00186
)로부터 예측된다.
이러한 사이드 정보를 고려하면, 예측이 이하와 같이 수행되는 것으로 가정된다:
우선, 양자화된 예측 인자들(
Figure 112016076399050-pct00187
,
Figure 112016076399050-pct00188
,
Figure 112016076399050-pct00189
)은 다음의 실제 예측 인자들을 제공하기 위해 역양자화된다.
Figure 112016076399050-pct00190
이미 언급된 바와 같이,
Figure 112016076399050-pct00191
는 예측 인자들의 역양자화를 위해 사용될 미리 정의된 비트 수를 나타낸다. 추가적으로,
Figure 112016076399050-pct00192
Figure 112016076399050-pct00193
이 제로와 동일하면, 제로로 설정되는 것으로 가정된다.
이전에 언급된 예에 대해,
Figure 112016076399050-pct00194
= 8을 가정하면, 역양자화된 예측 인자 벡터는 다음의 것을 초래할 것이다.
Figure 112016076399050-pct00195
또한, 저역 통과 예측을 수행하기 위해, 길이 Lh = 31의 다음과 같은 미리 정의된 저역 통과 FIR 필터가 사용된다.
Figure 112016076399050-pct00196
필터 지연은 Dh = 15개의 샘플들로 주어진다.
신호들로서 다음의 예측된 신호들:
Figure 112016076399050-pct00197
및 다음의 방향성 신호들:
Figure 112016076399050-pct00198
이 다음의 수학식들:
Figure 112016076399050-pct00199
Figure 112016076399050-pct00200
에 의해 그들의 샘플들로 구성되는 것을 가정하면, 예측된 신호들의 샘플 값들은 다음의 수학식에 의해 주어진다.
Figure 112016076399050-pct00201
Figure 112016076399050-pct00202
이미 언급된 바와 같이 및 이제 수학식 (17)로부터 알 수 있는 바와 같이, 신호들(
Figure 112016076399050-pct00203
,
Figure 112016076399050-pct00204
)은 방향성 신호들의 미리 정의된 최대 수(
Figure 112016076399050-pct00205
)의 가중 합에 의해, 또는 가중 합의 저역 통과 필터링된 버전들에 의해 예측되는 것으로 가정된다.
공간 예측과 관련되는 사이드 정보의 최신 기술의 코딩
상기 언급된 ISO/IEC 문헌에서, 공간 예측 사이드 정보의 코딩이 처리된다. 그것은 도 5에 도시된 알고리즘 1에 요약되고 이하에 설명될 것이다. 더 분명한 제시에 대해, 프레임 인덱스(k - 1)는 모든 표현들에서 무시된다.
우선,
Figure 112016076399050-pct00206
비트로 구성되는 비트 어레이(ActivePred)가 생성되며, 비트(ActivePred[q])는 방향(
Figure 112016076399050-pct00207
)에 대해 예측이 수행되는지를 표시한다. 이러한 어레이에서의 '1'의 수는 NumActivePred에 의해 표시된다.
다음에, 길이 NumActivePred의 비트 어레이(PredType)가 생성되며, 각각의 비트는, 예측이 수행되어야 하는 방향들에 대해, 이 예측의 종류, 즉 전체 대역 또는 저역 통과를 표시한다. 동시에, 길이 NumActivePred D PRED 의 무부호 정수 어레이(PredDirSigIds)가 생성되며, 그것의 요소들은, 각각의 능동 예측에 대해, 사용될 방향성 신호들의
Figure 112016076399050-pct00208
인덱스들을 나타낸다.
Figure 112016076399050-pct00209
미만의 방향성 신호들이 예측을 위해 사용되면, 인덱스들은 제로로 설정되는 것으로 가정된다. 어레이(PredDirSigIds)의 각각의 요소는
Figure 112016076399050-pct00210
비트에 의해 표현되는 것으로 가정된다. 어레이(PredDirSigIds) 내의 비제로 요소들의 수는 NumNonZeroIds에 의해 표시된다.
최종적으로, 길이 NumNonZeroIds의 정수 어레이(QuantPredGains)가 생성되며, 그것의 요소들은 수학식 (17)에서 사용될 양자화된 스케일링 인자들(
Figure 112016076399050-pct00211
)을 표현하는 것으로 가정된다. 대응하는 역양자화된 스케일링 인자들(
Figure 112016076399050-pct00212
)을 획득하는 역양자화는 수학식 (10)에 주어진다. 어레이(QuantPredGains)의 각각의 요소는
Figure 112016076399050-pct00213
비트에 의해 표현되는 것으로 가정된다.
결국, 사이드 정보(
Figure 112016076399050-pct00214
)의 코딩된 표현은:
Figure 112016076399050-pct00215
에 따라 4개의 상술된 어레이들로 구성된다.
이러한 코딩을 일 예에 의해 설명하기 위해, 수학식 (7) 내지 수학식 (9)의 코딩된 표현이 사용된다.
Figure 112016076399050-pct00216
Figure 112016076399050-pct00217
Figure 112016076399050-pct00218
Figure 112016076399050-pct00219
요구된 비트 수는 16 + 2 + 3ㆍ4 + 8ㆍ3 = 54와 동일하다.
공간 예측과 관련되는 본 발명에 따른 사이드 정보의 코딩
공간 예측과 관련되는 사이드 정보의 코딩의 효율을 증가시키기 위해, 최신 기술의 처리가 유리하게 수정된다.
A) 전형적인 사운드 신들(sound scenes)의 HOA 표현들을 코딩할 때, 본 발명자들은 HOA 압축 처리에서 임의의 공간 예측을 수행하지 않는 결정이 취해지는 프레임들이 종종 있는 것을 관찰했다. 그러나, 그러한 프레임들에서, 비트 어레이(ActivePred)는 제로들만으로 구성되며, 그것의 수는
Figure 112016076399050-pct00220
와 동일하다. 그러한 프레임 콘텐츠가 상당히 자주 발생하므로, 본 발명에 따른 처리는 코딩된 표현(
Figure 112016076399050-pct00221
)에, 임의의 예측이 수행되어야 하는지를 표시하는 단일 비트(PSPredictionActive)를 추가한다. 비트(PSPredictionActive)의 값이 제로(또는 대안으로서 '1')이면, 예측과 관련되는 어레이(ActivePred) 및 추가 데이터는 코딩된 사이드 정보(
Figure 112016076399050-pct00222
)로 포함되지 않는다. 실제로, 이러한 동작은 시간에 따라
Figure 112016076399050-pct00223
의 송신을 위한 평균 비트 레이트를 감소시킨다.
B) 전형적인 사운드 신들의 HOA 표현들을 코딩하는 동안에 이루어지는 추가 관찰은 능동 예측의 수(NumActivePred)가 종종 매우 낮다는 것이다. 그러한 상황에서, 각각의 방향(
Figure 112016076399050-pct00224
)에 대해 예측이 수행되는지를 표시하는 비트 어레이(ActivePred)를 사용하는 대신에, 능동 예측들의 수 및 각각의 인덱스들을 대신에 송신하거나 전송하는 것이 더 효율적일 수 있다. 특히, 이러한 수정된 종류의 코딩에서, 액티비티는:
Figure 112016076399050-pct00225
인 경우에 더 효율적이며, 여기서 MM은:
Figure 112016076399050-pct00226
을 충족시키는 최대 정수이다.
MM의 값은 상기 언급된 바와 같이 HOA 차수
Figure 112016076399050-pct00227
:
Figure 112016076399050-pct00228
의 지식으로만 컴퓨팅될 수 있다.
수학식 (25)에서,
Figure 112016076399050-pct00229
은 코딩을 위해 요구되는 비트 수, 즉 능동 예측들의 실제 수(NumActivePred)를 나타내고,
Figure 112016076399050-pct00230
은 코딩을 위해 요구되는 비트 수, 즉 각각의 방향 인덱스들이다. 수학식 (25)의 우측은 어레이(ActivePred)의 비트 수에 대응하며, 이는 공지된 방식으로 동일한 정보를 코딩하기 위해 요구될 것이다. 상술된 설명들에 따르면, 단일 비트(KindOfCodedPredIds)는 예측이 수행되는 것으로 가정되는 그들의 방향들의 인덱스들이 그 방식으로 코딩되는 것을 표시하기 위해 사용될 수 있다. 비트(KindOfCodedPredIds)가 값 '1'(또는 대안에서 '0')을 갖는 경우, 예측이 수행되는 것으로 가정되는 방향들의 인덱스들을 포함하는 어레이(PredIds) 및 수(NumActivePred)는 코딩된 사이드 정보(
Figure 112016076399050-pct00231
)에 추가된다. 그렇지 않으면, 비트(KindOfCodedPredIds)가 값 '0'(또는 대안에서 '1')을 갖는 경우, 어레이(ActivePred)는 동일한 정보를 코딩하기 위해 사용된다.
평균적으로, 이러한 동작은 시간에 따라
Figure 112016076399050-pct00232
의 송신을 위한 비트 레이트를 감소시킨다.
C) 사이드 정보 코딩 효율을 더 증가시키기 위해, 종종 예측을 위해 사용될 능동 방향성 신호들의 실제로 이용가능한 수가 D 미만이라는 사실이 이용된다. 이것은 인덱스 어레이(PredDirSigIds)의 각각의 요소의 코딩을 위해
Figure 112016076399050-pct00233
미만의 비트가 요구되는 것을 의미한다. 특히, 예측을 위해 사용될 능동 방향성 신호들의 실제로 이용가능한 수는 데이터 세트(
Figure 112016076399050-pct00234
)의 요소들의 수(
Figure 112016076399050-pct00235
)에 의해 주어지며, 데이터 세트는 능동 방향성 신호들의 인덱스들(
Figure 112016076399050-pct00236
)을 포함한다. 따라서,
Figure 112016076399050-pct00237
비트는 인덱스 어레이(PredDirSigIds)의 각각의 요소를 코딩하기 위해 사용될 수 있으며, 그 종류의 코딩이 더 효율적이다. 디코더에서, 데이터 세트(
Figure 112016076399050-pct00238
)는 공지된 것으로 가정되고, 따라서 디코더는 또한 많은 비트가 방향성 신호의 인덱스를 디코딩하기 위해 어떻게 판독되어야 하는지를 인식한다. 컴퓨팅되는
Figure 112016076399050-pct00239
의 프레임 인덱스들 및 사용된 인덱스 데이터 세트(
Figure 112016076399050-pct00240
)는 동일해야 하는 점을 주목한다.
공지된 사이드 정보 코딩 처리에 대한 상기 수정들 A) 내지 C)는 도 6에 도시된 예시적인 코딩 처리를 초래한다.
그 결과, 코딩된 사이드 정보는 이하의 성분들로 구성된다:
Figure 112016076399050-pct00241
리마크: 상기 언급된 ISO/IEC 문헌에서, 예를 들어 섹션 6.1.3에서, QuantPredGainsPredGains로 불려지지만, 이는 양자화된 값들을 포함한다.
수학식 (7) 내지 수학식 (9)에서의 예에 대한 코딩된 표현은 다음과 같을 것이며:
Figure 112016076399050-pct00242
Figure 112016076399050-pct00243
Figure 112016076399050-pct00244
Figure 112016076399050-pct00245
Figure 112016076399050-pct00246
Figure 112016076399050-pct00247
Figure 112016076399050-pct00248
요구된 비트 수는 1 + 1 + 2 + 2ㆍ4 + 2 + 2ㆍ4 + 8ㆍ3 = 46이다. 유리하게, 수학식 (20) 내지 수학식 (23)에서의 최신 기술의 코딩된 표현과 비교하여, 본 발명에 따라 코딩되는 이러한 표현은 8 비트 미만을 요구한다.
또한 인코더 측에서 비트 어레이(PredType)를 제공하지 않는 것이 가능하다.
공간 예측과 관련되는 수정된 사이드 정보 코딩의 디코딩
공간 예측과 관련되는 수정된 사이드 정보의 디코딩은 도 7 및 도 8에 도시된 예시적인 디코딩 처리에 요약되고(도 8에 도시된 처리는 도 7에 도시된 처리의 계속임) 이하에 설명된다.
초기에, 벡터(
Figure 112016076399050-pct00249
) 및 매트릭스들(
Figure 112016076399050-pct00250
Figure 112016076399050-pct00251
)의 모든 요소들은 제로에 의해 초기화된다. 그 다음, 비트(PSPredictionActive)가 판독되며, 비트는 공간 예측이 모두에서 수행되어야 하는지를 표시한다. 공간 예측(즉 PSPredictionActive = 1)의 경우에, 비트(KindOfCodedPredIds)가 판독되며, 비트는 예측이 수행되어야 하는 방향들의 인덱스들의 코딩의 종류를 표시한다.
Figure 112016076399050-pct00252
인 경우에, 길이
Figure 112016076399050-pct00253
의 비트 어레이(ActivePred)가 판독되며, 그 중
Figure 112016076399050-pct00254
번째 요소는 방향(
Figure 112016076399050-pct00255
)에 대해 예측이 수행되는지를 표시한다. 다음 단계에서, 어레이(ActivePred)로부터, 예측들의 수(NumActivePred)가 컴퓨팅되고 길이 NumActivePred의 비트 어레이(PredType)가 판독되며, 그것의 요소들은 관련 방향들 각각에 대해 수행되어야 하는 예측의 종류를 표시한다. ActivePred PredType에 포함되는 정보를 이용하여, 벡터(
Figure 112016076399050-pct00256
)의 요소들이 컴퓨팅된다.
또한 인코더 측에서 비트 어레이(PredType)를 제공하지 않고 비트 어레이(ActivePred)로부터 벡터(
Figure 112016076399050-pct00257
)의 요소들을 컴퓨팅하는 것이 가능하다.
KindOfCodedPredIds = 1인 경우, 능동 예측들의 수(NumActivePred)가 판독되며, 이는
Figure 112016076399050-pct00258
비트로 코딩되는 것으로 가정되며, MM은 수학식 (25)를 충족시키는 최대 정수이다. 그 다음, NumActivePred 요소들로 구성되는 데이터 어레이(PredIds)가 판독되며, 각각의 요소는
Figure 112016076399050-pct00259
비트에 의해 코딩되는 것으로 가정된다. 이러한 어레이의 요소들은 예측이 수행되어야 하는 방향들의 인덱스들이다. 연속적으로, 길이 NumActivePred의 비트 어레이(PredType)가 판독되며, 그것의 요소들은 관련 방향들의 각각의 방향에 대해 수행되어야 하는 예측의 종류를 표시한다. NumActivePred, PredIds PredType의 지식을 이용하여, 벡터(
Figure 112016076399050-pct00260
)의 요소들이 컴퓨팅된다.
또한 인코더 측에서 비트 어레이(PredType)를 제공하지 않고 수(NumActivePred) 및 데이터 어레이(PredIds)로부터 벡터(
Figure 112016076399050-pct00261
)의 요소들을 컴퓨팅하는 것이 가능하다.
양 경우들(즉 KindOfCodedPredIds = 0KindOfCodedPredIds = 1)에 대해, 다음 단계에서, 어레이(PredDirSigIds)가 판독되며, 이는 NumActivePred ㆍD PRED 요소들로 구성된다. 각각의 요소는
Figure 112016076399050-pct00262
비트에 의해 코딩되는 것으로 가정된다.
Figure 112016076399050-pct00263
,
Figure 112016076399050-pct00264
PredDirSigIds에 포함되는 정보를 사용하여, 매트릭스(
Figure 112016076399050-pct00265
)의 요소들이 설정되고,
Figure 112016076399050-pct00266
내의 비제로 요소들의 수(NumNonZeroIds)가 컴퓨팅된다.
최종적으로, 어레이(QuantPredGains)가 판독되며, 어레이는
Figure 112016076399050-pct00267
비트에 의해 각각 코딩되는 NumNonZeroIds 요소들로 구성된다.
Figure 112016076399050-pct00268
QuantPredGains에 포함되는 정보를 사용하여, 매트릭스(
Figure 112016076399050-pct00269
)의 요소들이 설정된다.
본 발명에 따른 처리는 단일 프로세서 또는 전자 회로, 또는 병렬로 동작하고/하거나 본 발명에 따른 처리의 상이한 부분들 상에 동작하는 수개의 프로세서들 또는 전자 회로들에 의해 수행될 수 있다.

Claims (10)

  1. 고차 앰비소닉스(Higher Order Ambisonics)(HOA로 표시됨) 계수 시퀀스들의 입력 시간 프레임들을 갖는 사운드 필드의 HOA 표현을 코딩하기 위해 요구되는 사이드 정보(side information)의 코딩을 개선하기 위한 방법으로서,
    잔여 주변 HOA 성분뿐만 아니라 우세 방향성 신호들(dominant directional signals)이 결정되고, 상기 우세 방향성 신호들을 위해 예측이 사용되고, 그에 의해 HOA 계수들의 코딩된 프레임에 대해, 상기 예측을 설명하는 사이드 정보 데이터를 제공하고,
    상기 사이드 정보 데이터는,
    방향에 대해 예측이 수행되는지를 표시하는 비트 어레이;
    수행될 예측들에 대해, 사용될 상기 방향성 신호들의 인덱스들을 나타내는 요소들을 갖는 제1 데이터 어레이;
    양자화된 스케일링 인자들을 표현하는 요소들을 갖는 제2 데이터 어레이
    를 포함할 수 있고,
    상기 방법은,
    상기 예측이 수행되어야 하는지를 표시하는 비트 값을 제공하는 단계;
    예측이 수행되지 않아야 하는 경우에는, 상기 사이드 정보 데이터에서 상기 비트 어레이 및 상기 제1 및 제2 데이터 어레이들을 생략하는 단계;
    상기 예측이 수행되어야 하는 경우에는, 방향에 대해 예측이 수행되는지를 표시하는 상기 비트 어레이 대신에, 능동 예측들(active predictions)의 수 및 예측이 수행되어야 하는 방향들의 인덱스들을 포함하는 제3 데이터 어레이가 상기 사이드 정보 데이터에 포함되는지를 표시하는 비트 값을 제공하는 단계
    를 포함하는 방법.
  2. 고차 앰비소닉스(HOA로 표시됨) 계수 시퀀스들의 입력 시간 프레임들을 갖는 사운드 필드의 HOA 표현을 코딩하기 위해 요구되는 사이드 정보의 코딩을 개선하기 위한 장치로서,
    잔여 주변 HOA 성분뿐만 아니라 우세 방향성 신호들이 결정되고, 상기 우세 방향성 신호들을 위해 예측이 사용되고, 그에 의해 HOA 계수들의 코딩된 프레임에 대해, 상기 예측을 설명하는 사이드 정보 데이터를 제공하고,
    상기 사이드 정보 데이터는,
    방향에 대해 예측이 수행되는지를 표시하는 비트 어레이;
    수행될 예측들에 대해, 사용될 상기 방향성 신호들의 인덱스들을 나타내는 요소들을 갖는 제1 데이터 어레이;
    양자화된 스케일링 인자들을 표현하는 요소들을 갖는 제2 데이터 어레이
    를 포함할 수 있고,
    상기 장치는,
    상기 예측이 수행되어야 하는지를 표시하는 비트 값을 제공하고;
    예측이 수행되지 않아야 하는 경우에는, 상기 사이드 정보 데이터에서 상기 비트 어레이 및 상기 제1 및 제2 데이터 어레이들을 생략하고;
    상기 예측이 수행되어야 하는 경우에는, 방향에 대해 예측이 수행되는지를 표시하는 상기 비트 어레이 대신에, 능동 예측들의 수 및 예측이 수행되어야 하는 방향들의 인덱스들을 포함하는 제3 데이터 어레이가 상기 사이드 정보 데이터에 포함되는지를 표시하는 비트 값을 제공하는
    장치.
  3. 제1항에 있어서,
    상기 HOA 표현의 상기 코딩에서, 우세 사운드 소스 방향들의 추정이 수행되고, 검출되었던 방향성 신호들의 인덱스들의 데이터 세트를 제공하는 방법.
  4. 제3항에 있어서,
    Figure 112021074192932-pct00365
    는 상기 HOA 계수 시퀀스들의 상기 코딩에서 사용될 수 있는 방향성 신호들의 미리 설정된 최대 수이고, 수행될 예측들에 대해, 사용될 상기 방향성 신호들의 인덱스들을 나타내는 상기 제1 데이터 어레이의 각각의 요소는
    Figure 112021074192932-pct00366
    비트 대신에
    Figure 112021074192932-pct00367
    비트를 사용하여 코딩되고,
    Figure 112021074192932-pct00368
    는 검출되었던 방향성 신호들의 인덱스들의 상기 데이터 세트의 요소들의 수인 방법.
  5. 제1항에 있어서,
    능동 예측들의 수 및 예측이 수행되어야 하는 방향들의 인덱스들을 포함하는 상기 제3 데이터 어레이가 상기 사이드 정보 데이터에 포함되는지를 표시하는 상기 비트 값은 상기 능동 예측들의 수가
    Figure 112021074192932-pct00369
    보다 큰 경우에만 제공되고, 여기서
    Figure 112021074192932-pct00370
    Figure 112021074192932-pct00371
    을 충족시키는 최대 정수이고,
    Figure 112021074192932-pct00372
    이고,
    Figure 112021074192932-pct00373
    은 상기 HOA 표현의 차수인 방법.
  6. 사이드 정보 데이터를 디코딩하기 위한 방법으로서,
    예측이 수행되어야 하는지를 표시하는 제1 비트 값을 평가하는 단계;
    상기 예측이 수행되어야 하는 경우, 상기 사이드 정보 데이터의 디코딩에서,
    a) 복수의 방향에 대해 예측이 수행되는지를 표시하는 비트 어레이가 사용되는지, 또는
    b) 능동 예측들의 수 및 예측이 수행되어야 하는 방향들의 인덱스들을 포함하는 어레이가 사용되는지
    를 표시하는 제2 비트 값을 평가하는 단계;
    경우 a)에서는:
    복수의 방향에 대해 예측이 수행되는지를 표시하는 상기 비트 어레이를 평가하는 단계 - 상기 비트 어레이의 각각의 요소는 대응하는 방향에 대해 예측이 수행되는지를 표시함 -;
    상기 비트 어레이로부터 벡터의 요소들을 컴퓨팅하는 단계;
    경우 b)에서는:
    상기 능동 예측들의 수를 평가하는 단계;
    예측이 수행되어야 하는 방향들의 인덱스들을 포함하는 상기 어레이를 평가하는 단계;
    상기 수 및 상기 어레이로부터 상기 벡터의 요소들을 컴퓨팅하는 단계,
    경우 a) 및 b)에서는:
    수행될 예측들에 대해, 사용될 방향성 신호들의 인덱스들을 나타내는 요소들을 갖는 제1 데이터 어레이를 평가하는 단계;
    상기 벡터, 방향성 신호들의 인덱스들의 데이터 세트 및 상기 제1 데이터 어레이로부터, 어느 방향성 신호들로부터 방향에 대해 상기 예측이 수행되어야 하는지의 인덱스들을 나타내는 매트릭스의 요소들 및 그 매트릭스에서의 비제로 요소들의 수를 컴퓨팅하는 단계;
    상기 예측에서 사용되는 양자화된 스케일링 인자들을 표현하는 요소들을 갖는 제2 데이터 어레이를 평가하는 단계
    를 포함하는 방법.
  7. 사이드 정보 데이터를 디코딩하기 위한 장치로서,
    프로세서를 포함하고,
    상기 프로세서는,
    예측이 수행되어야 하는지를 표시하는 제1 비트 값을 평가하는 것;
    상기 예측이 수행되어야 하는 경우, 상기 사이드 정보 데이터의 디코딩에서,
    a) 복수의 방향에 대해 예측이 수행되는지를 표시하는 비트 어레이가 사용되는지, 또는
    b) 능동 예측들의 수 및 예측이 수행되어야 하는 방향들의 인덱스들을 포함하는 어레이가 사용되는지
    를 표시하는 제2 비트 값을 평가하는 것;
    경우 a)에서는:
    복수의 방향에 대해 예측이 수행되는지를 표시하는 상기 비트 어레이를 평가하는 것 - 상기 비트 어레이의 각각의 요소는 대응하는 방향에 대해 예측이 수행되는지를 표시함 -;
    상기 비트 어레이로부터 벡터의 요소들을 컴퓨팅하는 것;
    경우 b)에서는:
    상기 능동 예측들의 수를 평가하는 것;
    예측이 수행되어야 하는 방향들의 인덱스들을 포함하는 상기 어레이를 평가하는 것;
    상기 수 및 상기 어레이로부터 상기 벡터의 요소들을 컴퓨팅하는 것,
    경우 a) 및 b)에서는:
    수행될 예측들에 대해, 사용될 방향성 신호들의 인덱스들을 나타내는 요소들을 갖는 제1 데이터 어레이를 평가하는 것;
    상기 벡터, 방향성 신호들의 인덱스들의 데이터 세트 및 상기 제1 데이터 어레이로부터, 어느 방향성 신호들로부터 방향에 대해 상기 예측이 수행되어야 하는지의 인덱스들을 나타내는 매트릭스의 요소들 및 그 매트릭스에서의 비제로 요소들의 수를 컴퓨팅하는 것;
    상기 예측에서 사용되는 양자화된 스케일링 인자들을 표현하는 요소들을 갖는 제2 데이터 어레이를 평가하는 것
    을 수행하는 장치.
  8. 제6항에 있어서,
    수행될 예측들에 대해 사용될 상기 방향성 신호들의 인덱스들을 나타내며
    Figure 112021074192932-pct00374
    비트를 사용하여 코딩된 상기 제1 데이터 어레이의 각각의 요소는 대응적으로 디코딩되고,
    Figure 112021074192932-pct00375
    는 상기 방향성 신호들의 인덱스들의 데이터 세트의 요소들의 수인 방법.
  9. 삭제
  10. 삭제
KR1020167021560A 2014-01-08 2014-12-19 사운드 필드의 고차 앰비소닉스 표현을 코딩하기 위해 요구되는 사이드 정보의 코딩을 개선하기 위한 방법 및 장치 KR102338374B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020217040165A KR102409796B1 (ko) 2014-01-08 2014-12-19 사운드 필드의 고차 앰비소닉스 표현을 코딩하기 위해 요구되는 사이드 정보의 코딩을 개선하기 위한 방법 및 장치

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP14305022 2014-01-08
EP14305022.7 2014-01-08
EP14305061 2014-01-16
EP14305061.5 2014-01-16
PCT/EP2014/078641 WO2015104166A1 (en) 2014-01-08 2014-12-19 Method and apparatus for improving the coding of side information required for coding a higher order ambisonics representation of a sound field

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020217040165A Division KR102409796B1 (ko) 2014-01-08 2014-12-19 사운드 필드의 고차 앰비소닉스 표현을 코딩하기 위해 요구되는 사이드 정보의 코딩을 개선하기 위한 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20160106692A KR20160106692A (ko) 2016-09-12
KR102338374B1 true KR102338374B1 (ko) 2021-12-13

Family

ID=52134201

Family Applications (4)

Application Number Title Priority Date Filing Date
KR1020227019915A KR102686291B1 (ko) 2014-01-08 2014-12-19 사운드 필드의 고차 앰비소닉스 표현을 코딩하기 위해 요구되는 사이드 정보의 코딩을 개선하기 위한 방법 및 장치
KR1020167021560A KR102338374B1 (ko) 2014-01-08 2014-12-19 사운드 필드의 고차 앰비소닉스 표현을 코딩하기 위해 요구되는 사이드 정보의 코딩을 개선하기 위한 방법 및 장치
KR1020217040165A KR102409796B1 (ko) 2014-01-08 2014-12-19 사운드 필드의 고차 앰비소닉스 표현을 코딩하기 위해 요구되는 사이드 정보의 코딩을 개선하기 위한 방법 및 장치
KR1020247023646A KR20240116835A (ko) 2014-01-08 2014-12-19 사운드 필드의 고차 앰비소닉스 표현을 코딩하기 위해 요구되는 사이드 정보의 코딩을 개선하기 위한 방법 및 장치

Family Applications Before (1)

Application Number Title Priority Date Filing Date
KR1020227019915A KR102686291B1 (ko) 2014-01-08 2014-12-19 사운드 필드의 고차 앰비소닉스 표현을 코딩하기 위해 요구되는 사이드 정보의 코딩을 개선하기 위한 방법 및 장치

Family Applications After (2)

Application Number Title Priority Date Filing Date
KR1020217040165A KR102409796B1 (ko) 2014-01-08 2014-12-19 사운드 필드의 고차 앰비소닉스 표현을 코딩하기 위해 요구되는 사이드 정보의 코딩을 개선하기 위한 방법 및 장치
KR1020247023646A KR20240116835A (ko) 2014-01-08 2014-12-19 사운드 필드의 고차 앰비소닉스 표현을 코딩하기 위해 요구되는 사이드 정보의 코딩을 개선하기 위한 방법 및 장치

Country Status (6)

Country Link
US (9) US9990934B2 (ko)
EP (3) EP3092641B1 (ko)
JP (4) JP6530412B2 (ko)
KR (4) KR102686291B1 (ko)
CN (7) CN111028849B (ko)
WO (1) WO2015104166A1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11781416B2 (en) 2019-10-16 2023-10-10 Saudi Arabian Oil Company Determination of elastic properties of a geological formation using machine learning applied to data acquired while drilling
US11796714B2 (en) 2020-12-10 2023-10-24 Saudi Arabian Oil Company Determination of mechanical properties of a geological formation using deep learning applied to data acquired while drilling

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7394903B2 (en) * 2004-01-20 2008-07-01 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal
SE0400997D0 (sv) * 2004-04-16 2004-04-16 Cooding Technologies Sweden Ab Efficient coding of multi-channel audio
US7983922B2 (en) * 2005-04-15 2011-07-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating multi-channel synthesizer control signal and apparatus and method for multi-channel synthesizing
US7680123B2 (en) * 2006-01-17 2010-03-16 Qualcomm Incorporated Mobile terminated packet data call setup without dormancy
US8379868B2 (en) * 2006-05-17 2013-02-19 Creative Technology Ltd Spatial audio coding based on universal spatial cues
US8301793B2 (en) * 2007-11-16 2012-10-30 Divx, Llc Chunk header incorporating binary flags and correlated variable-length fields
US8219409B2 (en) * 2008-03-31 2012-07-10 Ecole Polytechnique Federale De Lausanne Audio wave field encoding
PT2553947E (pt) * 2010-03-26 2014-06-24 Thomson Licensing Método e dispositivo para descodificar uma representação de um campo sonoro de áudio para a reprodução de áudio
EP2450880A1 (en) * 2010-11-05 2012-05-09 Thomson Licensing Data structure for Higher Order Ambisonics audio data
EP2451196A1 (en) * 2010-11-05 2012-05-09 Thomson Licensing Method and apparatus for generating and for decoding sound field data including ambisonics sound field data of an order higher than three
EP2469741A1 (en) 2010-12-21 2012-06-27 Thomson Licensing Method and apparatus for encoding and decoding successive frames of an ambisonics representation of a 2- or 3-dimensional sound field
EP2541547A1 (en) * 2011-06-30 2013-01-02 Thomson Licensing Method and apparatus for changing the relative positions of sound objects contained within a higher-order ambisonics representation
EP2637427A1 (en) * 2012-03-06 2013-09-11 Thomson Licensing Method and apparatus for playback of a higher-order ambisonics audio signal
EP2665208A1 (en) * 2012-05-14 2013-11-20 Thomson Licensing Method and apparatus for compressing and decompressing a Higher Order Ambisonics signal representation
EP2738762A1 (en) * 2012-11-30 2014-06-04 Aalto-Korkeakoulusäätiö Method for spatial filtering of at least one first sound signal, computer readable storage medium and spatial filtering system based on cross-pattern coherence
EP2743922A1 (en) * 2012-12-12 2014-06-18 Thomson Licensing Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Johannes Boehm, et al. RM0-HOA Working Draft Text, ISO/IEC JTC1/SC29/WG11 MPEG2012/M31408, 2013.10.23.*

Also Published As

Publication number Publication date
JP6530412B2 (ja) 2019-06-12
US11488614B2 (en) 2022-11-01
CN111182443A (zh) 2020-05-19
US20160336021A1 (en) 2016-11-17
JP2017508174A (ja) 2017-03-23
JP2019133200A (ja) 2019-08-08
CN111179951A (zh) 2020-05-19
CN118248156A (zh) 2024-06-25
JP2021081753A (ja) 2021-05-27
US20190362731A1 (en) 2019-11-28
EP3648102B1 (en) 2022-06-01
JP6848004B2 (ja) 2021-03-24
US10553233B2 (en) 2020-02-04
US20230108008A1 (en) 2023-04-06
EP3092641A1 (en) 2016-11-16
US20190214033A1 (en) 2019-07-11
CN118016077A (zh) 2024-05-10
KR102409796B1 (ko) 2022-06-22
CN111182443B (zh) 2021-10-22
EP4089675A1 (en) 2022-11-16
CN105981100B (zh) 2020-02-28
US20200126579A1 (en) 2020-04-23
KR20160106692A (ko) 2016-09-12
US9990934B2 (en) 2018-06-05
WO2015104166A1 (en) 2015-07-16
US11211078B2 (en) 2021-12-28
US10424312B2 (en) 2019-09-24
EP3092641B1 (en) 2019-11-13
US20240185872A1 (en) 2024-06-06
CN111179955B (zh) 2024-04-09
CN105981100A (zh) 2016-09-28
US20210027795A1 (en) 2021-01-28
JP7258063B2 (ja) 2023-04-14
KR20240116835A (ko) 2024-07-30
CN111179951B (zh) 2024-03-01
KR20210153751A (ko) 2021-12-17
US11869523B2 (en) 2024-01-09
US10714112B2 (en) 2020-07-14
CN111179955A (zh) 2020-05-19
US10147437B2 (en) 2018-12-04
CN111028849B (zh) 2024-03-01
CN111028849A (zh) 2020-04-17
US20180240469A1 (en) 2018-08-23
EP3648102A1 (en) 2020-05-06
US20220115027A1 (en) 2022-04-14
JP2023076610A (ja) 2023-06-01
KR20220085848A (ko) 2022-06-22
KR102686291B1 (ko) 2024-07-19

Similar Documents

Publication Publication Date Title
KR20160002846A (ko) 고차 앰비소닉스 표현을 압축 및 압축해제하기 위한 방법 및 장치
US11869523B2 (en) Method and apparatus for decoding a bitstream including encoded higher order ambisonics representations

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant