KR102428370B1 - Hoa 데이터 프레임 표현의 압축을 위해 비차분 이득 값들을 표현하는 데 필요하게 되는 비트들의 최저 정수 개수를 결정하는 방법 및 장치 - Google Patents

Hoa 데이터 프레임 표현의 압축을 위해 비차분 이득 값들을 표현하는 데 필요하게 되는 비트들의 최저 정수 개수를 결정하는 방법 및 장치 Download PDF

Info

Publication number
KR102428370B1
KR102428370B1 KR1020167036552A KR20167036552A KR102428370B1 KR 102428370 B1 KR102428370 B1 KR 102428370B1 KR 1020167036552 A KR1020167036552 A KR 1020167036552A KR 20167036552 A KR20167036552 A KR 20167036552A KR 102428370 B1 KR102428370 B1 KR 102428370B1
Authority
KR
South Korea
Prior art keywords
hoa
representation
signals
data frame
coefficient sequences
Prior art date
Application number
KR1020167036552A
Other languages
English (en)
Other versions
KR20170023017A (ko
Inventor
스벤 코돈
알렉산더 크뢰거
Original Assignee
돌비 인터네셔널 에이비
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=51178839&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=KR102428370(B1) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by 돌비 인터네셔널 에이비 filed Critical 돌비 인터네셔널 에이비
Priority to KR1020227026356A priority Critical patent/KR102568636B1/ko
Publication of KR20170023017A publication Critical patent/KR20170023017A/ko
Application granted granted Critical
Publication of KR102428370B1 publication Critical patent/KR102428370B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

HOA 데이터 프레임 표현을 압축할 때, 각각의 채널 신호가 인지 인코딩(16)되기 전에 각각의 채널 신호에 대해 이득 제어(15, 151)가 적용된다. 이득 값들이 차분 방식으로 보조 정보로서 전송된다. 그렇지만, 이러한 스트리밍되는 압축된 HOA 데이터 프레임 표현의 디코딩을 시작하기 위해, 절대 이득 값들이 필요하게 되고, 절대 이득 값들은 최소 수의 비트들로 코딩되어야만 한다. 이러한 비트들의 최저 정수 개수(
Figure 112016128005232-pct00597
)를 결정하기 위해, HOA 데이터 프레임 표현(
Figure 112016128005232-pct00598
)이 공간 영역에서 단위 구면 상에 있는 가상 스피커 신호들로 렌더링되고, 이어서 HOA 데이터 프레임 표현(
Figure 112016128005232-pct00599
)의 정규화가 뒤따른다. 이어서 비트들의 최저 정수 개수가 (AA)로 설정된다.

Description

HOA 데이터 프레임 표현의 압축을 위해 비차분 이득 값들을 표현하는 데 필요하게 되는 비트들의 최저 정수 개수를 결정하는 방법 및 장치{METHOD AND APPARATUS FOR DETERMINING FOR THE COMPRESSION OF AN HOA DATA FRAME REPRESENTATION A LOWEST INTEGER NUMBER OF BITS REQUIRED FOR REPRESENTING NON-DIFFERENTIAL GAIN VALUES}
본 발명은 HOA 데이터 프레임 표현의 압축을 위해 상기 HOA 데이터 프레임들 중 특정 HOA 데이터 프레임들의 채널 신호들과 연관된 비차분 이득 값들을 표현하는 데 필요하게 되는 비트들의 최저 정수 개수를 결정하는 방법 및 장치에 관한 것이다.
HOA라고 표기되는 고차 앰비소닉스(Higher Order Ambisonics)는 3차원 음향을 표현할 하나의 가능성을 제공한다. 다른 기법들은 WFS(wave field synthesis) 또는 22.2와 같은 채널 기반 접근법들이다. 채널 기반 방법들과 달리, HOA 표현은 특정 스피커 설정(loudspeaker set-up)에 독립적이라는 장점을 제공한다. 그렇지만, 이 유연성은 특정의 스피커 설정에서 HOA 표현의 재생을 위해 필요하게 되는 디코딩 프로세스의 대가이다. 요구된 스피커들의 수가 보통 아주 많은 WFS 접근법과 비교하여, HOA는 또한 단지 몇 개의 스피커들만으로 이루어진 설정에 맞춰 렌더링될 수 있다. HOA의 추가적인 장점은 헤드폰에 대한 바이노럴 렌더링(binaural rendering)을 위해 어떤 수정도 없이 동일한 표현이 또한 이용될 수 있다는 것이다.
HOA는 절단된 SH(Spherical Harmonics) 전개에 의한 복소 조화 평면파 진폭(complex harmonic plane wave amplitude)들의 공간 밀도의 표현에 기초한다. 각각의 전개 계수(expansion coefficient)는, 시간 영역 함수에 의해 동등하게 표현될 수 있는, 각주파수(angular frequency)의 함수이다. 그러므로, 일반성을 잃지 않고, 완전한 HOA 음장 표현이 실제로는
Figure 112016128005232-pct00001
개의 시간 영역 함수들로 이루어진 것으로 가정될 수 있으며, 여기서
Figure 112016128005232-pct00002
는 전개 계수들의 수를 나타낸다. 이 시간 영역 함수들은 동등하게 이하에서 HOA 계수 시퀀스들이라고 또는 HOA 채널들이라고 지칭될 것이다.
HOA 표현의 공간 분해능은 전개의 최대 차수
Figure 112016128005232-pct00003
이 증가함에 따라 향상된다. 안타깝게도, 전개 계수들의 수
Figure 112016128005232-pct00004
는 차수
Figure 112016128005232-pct00005
에 따라 이차식으로 증가하고, 상세하게는,
Figure 112016128005232-pct00006
이다. 예를 들어, 차수
Figure 112016128005232-pct00007
를 사용하는 전형적인 HOA 표현은
Figure 112016128005232-pct00008
개의 HOA (전개) 계수들을 필요로 한다. HOA 표현의 전송을 위한 총 비트 레이트는, 원하는 단일 채널 샘플링 레이트
Figure 112016128005232-pct00009
및 샘플당 비트 수
Figure 112016128005232-pct00010
가 주어지면,
Figure 112016128005232-pct00011
에 의해 결정된다. 샘플당
Figure 112016128005232-pct00012
비트를 이용하는
Figure 112016128005232-pct00013
의 샘플링 레이트로 차수
Figure 112016128005232-pct00014
의 HOA 표현을 전송하면 그 결과
Figure 112016128005232-pct00015
의 비트 레이트가 되고, 이는 많은 실제 응용분야들, 예컨대, 스트리밍에 대해 아주 높다. 이와 같이, HOA 표현들의 압축이 아주 바람직하다.
이전에, HOA 음장 표현들의 압축이 EP 2665208 A1, EP 2743922 A1, EP 2800401 A1 - ISO/IEC JTC1/SC29/WG11, N14264, WD1-HOA Text of MPEG-H 3D Audio, January 2014를 참조 - 에서 제안되었다. 이 접근법들의 공통점은 음장 분석을 수행하고 주어진 HOA 표현을 방향 성분(directional component)과 잔차 주변 성분(residual ambient component)으로 분해한다는 것이다. 최종적인 압축된 표현은, 한편으로는, 방향 및 벡터 기반 신호들은 물론 주변 HOA 성분의 관련성있는 계수 시퀀스들의 인지 코딩(perceptual coding)으로부터 얻어진, 다수의 양자화된 신호들로 이루어져 있는 것으로 가정된다. 다른 한편으로는, 최종적인 압축된 표현은 양자화된 신호들에 관련된 부가의 보조 정보를 포함하고, 이 보조 정보는 HOA 표현을 그의 압축된 버전으로부터 재구성하는 데 필요하게 된다.
인지 인코더(perceptual encoder)로 전달되기 전에, 이 중간의 시간 영역 신호들은 값 범위
Figure 112016128005232-pct00016
내에서 최대 진폭을 가질 필요가 있고, 이는 현재 이용가능한 인지 인코더들의 구현으로부터 생기는 요구사항이다. HOA 표현들을 압축할 때 이 요구사항을 충족시키기 위해, 입력 신호들을 매끄럽게 감쇠시키거나 증폭시키는 이득 제어 처리 유닛(EP 2824661 A1 및 앞서 언급된 ISO/IEC JTC1/SC29/WG11 N14264 문서를 참조)이 인지 인코더들보다 앞서 사용된다. 그에 따른 신호 수정이 가역적이고 프레임 단위로 적용되는 것으로 가정되고, 여기서 상세하게는 연속적인 프레임들 사이에서 신호 진폭들의 변화가 '2'의 멱수인 것으로 가정된다. HOA 압축해제기에서 이 신호 수정을 반대로 하는 것을 용이하게 하기 위해, 대응하는 정규화 보조 정보가 총 보조 정보에 포함된다. 이 정규화 보조 정보는 밑이 '2'인 지수들로 이루어져 있을 수 있고, 이 지수들은 2개의 연속적인 프레임들 사이의 상대 진폭 변화를 나타낸다. 이 지수들은 앞서 언급된 ISO/IEC JTC1/SC29/WG11 N14264 문서에 따라 런 길이 코드(run length code)를 사용하여 코딩되는데, 그 이유는 연속적인 프레임들 사이의 사소한 진폭 변화들이 보다 큰 진폭 변화들보다 가능성이 더 많기 때문이다.
예컨대, 단일의 파일이 어떤 시간적 점프도 없이 처음부터 끝까지 압축해제되는 경우에, HOA 압축해제에서 원래의 신호 진폭들을 재구성하기 위해 차분 코딩된 진폭 변화들을 사용하는 것이 실현가능하다. 그렇지만, 랜덤 액세스를 용이하게 하기 위해, 이전 프레임들로부터의 정보에 관계없이, 원하는 위치로부터(또는 적어도 그 근방에서) 압축해제를 시작하는 것을 가능하게 하기 위해, 독립적인 액세스 단위들이 (전형적으로 비트 스트림인) 코딩된 표현에 존재해야만 한다. 이러한 독립적인 액세스 단위는 첫 번째 프레임부터 현재 프레임까지 이득 제어 처리 유닛에 의해 야기된 총 절대 진폭 변화(즉, 비차분 이득 값)를 포함해야만 한다. 2개의 연속적인 프레임들 사이의 진폭 변화들이 '2'의 멱수인 것으로 가정하면, 총 절대 진폭 변화를 밑이 '2'인 지수에 의해 나타내는 것으로도 충분하다. 이 지수의 효율적인 코딩을 위해, 이득 제어 처리 유닛의 적용 이전에 신호들의 잠재적인 최대 이득들을 아는 것이 필수적이다. 그렇지만, 이것을 아는 것은 압축될 HOA 표현들의 값 범위에 관한 제약조건들의 명시에 많이 의존하고 있다. 안타깝게도, MPEG-H 3D 오디오 문서 ISO/IEC JTC1/SC29/WG11 N14264는, 값 범위들에 대한 어떤 제약조건들도 설정함이 없이, 입력 HOA 표현에 대한 포맷의 설명만을 제공한다.
본 발명에 의해 해결될 문제점은 비차분 이득 값들을 표현하는 데 필요하게 되는 비트들의 최저 정수 개수를 제공하는 것이다. 이 문제점은 청구항 1에 개시된 방법에 의해 해결된다. 이 방법을 이용하는 장치는 청구항 2에 개시되어 있다.
본 발명의 유리한 부가의 실시예들은 각자의 종속 청구항들에 개시되어 있다.
본 발명은 HOA 압축기 내에서의 이득 제어 처리 유닛의 적용 이전에 입력 HOA 표현의 값 범위와 신호들의 잠재적인 최대 이득들 사이의 상호관계를 구축한다. 그 상호관계에 기초하여, 첫 번째 프레임부터 현재 프레임까지 이득 제어 처리 유닛에 의해 야기된 수정된 신호들의 총 절대 진폭 변화들(즉, 비차분 이득 값)을 액세스 단위 내에 나타내기 위한 밑이 '2'인 지수의 효율적인 코딩을 위해 - 입력 HOA 표현의 값 범위에 대한 주어진 명시에 대해 - 필요하게 되는 비트들의 양이 결정된다.
게다가, 지수의 코딩을 위해 필요하게 되는 비트들의 양의 계산을 위한 규칙이 고정되어 있으면, 본 발명은 주어진 HOA 표현이 요구된 값 범위 제약조건들을 충족시킴으로써 올바르게 압축될 수 있는지를 검증하기 위한 처리를 사용한다.
원칙적으로, 본 발명의 방법은 HOA 데이터 프레임 표현의 압축을 위해 상기 HOA 데이터 프레임들 중 특정 HOA 데이터 프레임들의 채널 신호들에 대한 비차분 이득 값들을 표현하는 데 필요하게 되는 비트들의 최저 정수 개수
Figure 112016128005232-pct00017
를 결정하는 데 적합하고, 여기서 각각의 프레임 내의 각각의 채널 신호는 일군의 샘플 값들을 포함하고, 여기서 상기 HOA 데이터 프레임들의 각각의 HOA 데이터 프레임의 각각의 채널 신호에 차분 이득 값이 할당되며, 이러한 차분 이득 값은 현재 HOA 데이터 프레임에서의 채널 신호의 샘플 값들의, 이전 HOA 데이터 프레임에서의 그 채널 신호의 샘플 값들에 대한, 진폭들의 변화를 야기하고, 여기서 이러한 이득 적응된 채널 신호들이 인코더에서 인코딩되며,
그리고 여기서 상기 HOA 데이터 프레임 표현은 공간 영역에서
Figure 112016128005232-pct00018
개의 가상 스피커 신호들
Figure 112016128005232-pct00019
로 렌더링되었고, 여기서 가상 스피커들의 위치들은 단위 구면 상에 있고 그 단위 구면 상에 균일하게 분포되는 것을 목표로 하며, 상기 렌더링은 행렬 곱셈
Figure 112016128005232-pct00020
에 의해 표현되고, 여기서
Figure 112016128005232-pct00021
는 가상 스피커 신호들 모두를 포함하는 벡터이며,
Figure 112016128005232-pct00022
는 가상 스피커 위치들 모드 행렬이고,
Figure 112016128005232-pct00023
는 상기 HOA 데이터 프레임 표현의 대응하는 HOA 계수 시퀀스들의 벡터이며,
그리고 여기서 상기 HOA 데이터 프레임 표현은
Figure 112016128005232-pct00024
이도록 정규화되었고,
상기 방법은
- 상기 정규화된 HOA 데이터 프레임 표현으로부터 서브단계들 a), b), c) 중 하나 이상에 의해 상기 채널 신호들을 형성하는 단계:
a) 상기 채널 신호들에서의 우세 음향 신호들을 표현하기 위해, 상기 HOA 계수 시퀀스들의 벡터
Figure 112016128005232-pct00025
를 믹싱 행렬(mixing matrix)
Figure 112016128005232-pct00026
와 곱하는 단계 - 이 믹싱 행렬
Figure 112016128005232-pct00027
의 유클리드 노름(Euclidean norm)은 '1' 이하이고, 믹싱 행렬
Figure 112016128005232-pct00028
는 상기 정규화된 HOA 데이터 프레임 표현의 계수 시퀀스들의 선형 결합을 나타냄 -;
b) 상기 채널 신호들에서의 주변 성분
Figure 112016128005232-pct00029
를 표현하기 위해, 상기 우세 음향 신호들을 상기 정규화된 HOA 데이터 프레임 표현으로부터 차감하고, 상기 주변 성분
Figure 112016128005232-pct00030
의 계수 시퀀스들의 적어도 일부를 선택하며 -
Figure 112016128005232-pct00031
임 -,
Figure 112016128005232-pct00032
를 계산하는 것에 의해 얻어진 최소 주변 성분
Figure 112016128005232-pct00033
를 변환하는 단계 -
Figure 112016128005232-pct00034
이고
Figure 112016128005232-pct00035
은 상기 최소 주변 성분
Figure 112016128005232-pct00036
에 대한 모드 행렬임 -;
c) 상기 HOA 계수 시퀀스들
Figure 112016128005232-pct00037
의 일부를 선택하는 단계 - 상기 선택된 계수 시퀀스들은 공간 변환이 적용되는 주변 HOA 성분의 계수 시퀀스들에 관련되고, 상기 선택된 계수 시퀀스들의 수를 나타내는 최소 차수
Figure 112016128005232-pct00038
Figure 112016128005232-pct00039
임 -;
- 상기 채널 신호들에 대한 상기 비차분 이득 값들을 표현하기 위해 필요하게 되는 비트들의 상기 최저 정수 개수
Figure 112016128005232-pct00040
Figure 112016128005232-pct00041
로 설정하는 단계 -
Figure 112016128005232-pct00042
이고,
Figure 112016128005232-pct00043
은 차수이며,
Figure 112016128005232-pct00044
는 최대 관심 차수이고,
Figure 112016128005232-pct00045
은 상기 가상 스피커들의 방향들이며,
Figure 112016128005232-pct00046
은 HOA 계수 시퀀스들의 수이고,
Figure 112016128005232-pct00047
는 상기 모드 행렬의 유클리드 노름의 제곱
Figure 112016128005232-pct00048
Figure 112016128005232-pct00049
사이의 비임 - 를 포함한다.
원칙적으로, 본 발명의 장치는 HOA 데이터 프레임 표현의 압축을 위해 상기 HOA 데이터 프레임들 중 특정 HOA 데이터 프레임들의 채널 신호들에 대한 비차분 이득 값들을 표현하는 데 필요하게 되는 비트들의 최저 정수 개수
Figure 112016128005232-pct00050
를 결정하는 데 적합하고, 여기서 각각의 프레임 내의 각각의 채널 신호는 일군의 샘플 값들을 포함하고, 여기서 상기 HOA 데이터 프레임들의 각각의 HOA 데이터 프레임의 각각의 채널 신호에 차분 이득 값이 할당되며, 이러한 차분 이득 값은 현재 HOA 데이터 프레임에서의 채널 신호의 샘플 값들의, 이전 HOA 데이터 프레임에서의 그 채널 신호의 샘플 값들에 대한, 진폭들의 변화를 야기하고, 여기서 이러한 이득 적응된 채널 신호들이 인코더에서 인코딩되며,
그리고 여기서 상기 HOA 데이터 프레임 표현은 공간 영역에서
Figure 112016128005232-pct00051
개의 가상 스피커 신호들
Figure 112016128005232-pct00052
로 렌더링되었고, 여기서 가상 스피커들의 위치들은 단위 구면 상에 있고 그 단위 구면 상에 균일하게 분포되는 것을 목표로 하며, 상기 렌더링은 행렬 곱셈
Figure 112016128005232-pct00053
에 의해 표현되고, 여기서
Figure 112016128005232-pct00054
는 가상 스피커 신호들 모두를 포함하는 벡터이며,
Figure 112016128005232-pct00055
는 가상 스피커 위치들 모드 행렬이고,
Figure 112016128005232-pct00056
는 상기 HOA 데이터 프레임 표현의 대응하는 HOA 계수 시퀀스들의 벡터이며,
그리고 여기서 상기 HOA 데이터 프레임 표현은
Figure 112016128005232-pct00057
이도록 정규화되었고,
상기 장치는
- 상기 정규화된 HOA 데이터 프레임 표현으로부터 동작들 a), b), c) 중 하나 이상에 의해 상기 채널 신호들을 형성하는 수단:
a) 상기 채널 신호들에서의 우세 음향 신호들을 표현하기 위해, 상기 HOA 계수 시퀀스들의 벡터
Figure 112016128005232-pct00058
를 믹싱 행렬
Figure 112016128005232-pct00059
와 곱하는 동작 - 이 믹싱 행렬
Figure 112016128005232-pct00060
의 유클리드 노름은 '1' 이하이고, 믹싱 행렬
Figure 112016128005232-pct00061
는 상기 정규화된 HOA 데이터 프레임 표현의 계수 시퀀스들의 선형 결합을 나타냄 -;
b) 상기 채널 신호들에서의 주변 성분
Figure 112016128005232-pct00062
를 표현하기 위해, 상기 우세 음향 신호들을 상기 정규화된 HOA 데이터 프레임 표현으로부터 차감하고, 상기 주변 성분
Figure 112016128005232-pct00063
의 계수 시퀀스들의 적어도 일부를 선택하며 -
Figure 112016128005232-pct00064
임 -,
Figure 112016128005232-pct00065
를 계산하는 것에 의해 얻어진 최소 주변 성분
Figure 112016128005232-pct00066
를 변환하는 동작 -
Figure 112016128005232-pct00067
이고
Figure 112016128005232-pct00068
은 상기 최소 주변 성분
Figure 112016128005232-pct00069
에 대한 모드 행렬임 -;
c) 상기 HOA 계수 시퀀스들
Figure 112016128005232-pct00070
의 일부를 선택하는 동작 - 상기 선택된 계수 시퀀스들은 공간 변환이 적용되는 주변 HOA 성분의 계수 시퀀스들에 관련되고, 상기 선택된 계수 시퀀스들의 수를 나타내는 최소 차수
Figure 112016128005232-pct00071
Figure 112016128005232-pct00072
임 -;
- 상기 채널 신호들에 대한 상기 비차분 이득 값들을 표현하기 위해 필요하게 되는 비트들의 상기 최저 정수 개수
Figure 112016128005232-pct00073
Figure 112016128005232-pct00074
로 설정하는 수단 -
Figure 112016128005232-pct00075
이고,
Figure 112016128005232-pct00076
은 차수이며,
Figure 112016128005232-pct00077
는 최대 관심 차수이고,
Figure 112016128005232-pct00078
은 상기 가상 스피커들의 방향들이며,
Figure 112016128005232-pct00079
은 HOA 계수 시퀀스들의 수이고,
Figure 112016128005232-pct00080
는 상기 모드 행렬의 유클리드 노름의 제곱
Figure 112016128005232-pct00081
Figure 112016128005232-pct00082
사이의 비임 - 을 포함한다.
본 발명의 예시적인 실시예들이 첨부 도면들을 참조하여 기술된다.
도 1은 HOA 압축기를 나타낸 도면.
도 2는 HOA 압축해제기를 나타낸 도면.
도 3은 HOA 차수들
Figure 112016128005232-pct00083
에 대한 가상 방향들
Figure 112016128005232-pct00084
의 스케일링 값들
Figure 112016128005232-pct00085
를 나타낸 도면.
도 4는 HOA 차수들
Figure 112016128005232-pct00086
에 대한 가상 방향들
Figure 112016128005232-pct00087
,
Figure 112016128005232-pct00088
의 역 모드 행렬들
Figure 112016128005232-pct00089
의 유클리드 노름들을 나타낸 도면.
도 5는 위치들
Figure 112016128005232-pct00090
- 단,
Figure 112016128005232-pct00091
임 - 에 있는 가상 스피커들의 신호들의 최대 허용 크기
Figure 112016128005232-pct00092
의 결정을 나타낸 도면.
도 6은 구면 좌표계를 나타낸 도면.
비록 명시적으로 기술되어 있지 않지만, 이하의 실시예들은 임의의 컴비네이션 또는 서브컴비네이션으로 이용될 수 있다.
이하에서, 앞서 언급된 문제점이 발생하는 보다 상세한 정황을 제공하기 위해 HOA 압축 및 압축해제의 원리가 제시된다. 이 제시에 대한 기초는 MPEG-H 3D 오디오 문서 ISO/IEC JTC1/SC29/WG11 N14264 - EP 2665208 A1, EP 2800401 A1 및 EP 2743922 A1도 참조 - 에 기술된 처리이다. N14264에서, '방향 성분'이 '우세 음향 성분'으로 확장된다. 방향 성분으로서, 우세 음향 성분은, 방향 신호들 - 청취자에 충돌하는 것으로 가정되는 대응하는 방향을 갖는 모노럴 신호(monaural signal)들을 의미함 - 로부터 원래의 HOA 표현의 일부분들을 예측하는 어떤 예측 파라미터들과 함께, 방향 신호들에 의해 부분적으로 표현되는 것으로 가정된다. 그에 부가하여, 우세 음향 성분은 '벡터 기반 신호들' - 벡터 기반 신호들의 방향 분포를 정의하는 대응하는 벡터를 갖는 모노럴 신호들을 의미함 - 에 의해 표현되도록 되어 있다.
HOA 압축
EP 2800401 A1에 기술된 HOA 압축기의 전체적인 아키텍처가 도 1에 예시되어 있다. 이는 도 1의 A에 도시된 공간 HOA 인코딩 부분과 도 1의 B에 도시된 인지 및 소스 인코딩 부분을 갖는다. 공간 HOA 인코더는
Figure 112016128005232-pct00093
개의 신호들로 이루어져 있는 제1 압축된 HOA 표현을, 그의 HOA 표현을 어떻게 생성해야 하는지를 기술하는 보조 정보와 함께, 제공한다. 인지 및 보조 정보 소스 코더들에서,
Figure 112016128005232-pct00094
개의 신호들이 인지 인코딩되고 보조 정보는 소스 인코딩을 거치며, 그 후에 2개의 코딩된 표현들을 멀티플렉싱한다.
공간 HOA 인코딩
제1 단계에서, 원래의 HOA 표현의 현재 제
Figure 112016128005232-pct00095
프레임
Figure 112016128005232-pct00096
가, 튜플 세트들
Figure 112016128005232-pct00097
Figure 112016128005232-pct00098
를 제공하는 것으로 가정되는, 방향 및 벡터 추정 처리 단계 또는 스테이지(11)에 입력된다. 튜플 세트
Figure 112016128005232-pct00099
는 제1 요소가 방향 신호의 인덱스를 나타내고 제2 요소가 각자의 양자화된 방향을 나타내는 튜플들로 이루어져 있다. 튜플 세트
Figure 112016128005232-pct00100
는 제1 요소가 벡터 기반 신호의 인덱스를 나타내고 제2 요소가 신호들의 방향 분포 - 즉, 벡터 기반 신호의 HOA 표현이 어떻게 계산되는지 - 를 정의하는 벡터를 나타내는 튜플들로 이루어져 있다.
튜플 세트들
Figure 112016128005232-pct00101
Figure 112016128005232-pct00102
둘 다를 사용하여, 초기 HOA 프레임
Figure 112016128005232-pct00103
가 HOA 분해 단계 또는 스테이지(12)에서 모든 우세 음향(즉, 방향 및 벡터 기반) 신호들의 프레임
Figure 112016128005232-pct00104
과 주변 HOA 성분의 프레임
Figure 112016128005232-pct00105
으로 분해된다. 블록킹 아티팩츠(blocking artefact)를 피하기 위해 중첩-가산(overlap-add) 처리로 인한 하나의 프레임의 지연에 유의한다. 게다가, HOA 분해 단계/스테이지(12)는, 우세 음향 HOA 성분을 강화하기 위해, 방향 신호들로부터 원래의 HOA 표현의 일부분들을 어떻게 예측해야 하는지를 나타내는 어떤 예측 파라미터들
Figure 112016128005232-pct00106
을 출력하는 것으로 가정된다. 그에 부가하여, HOA 분해 처리 단계 또는 스테이지(12)에서 결정된, 우세 음향 신호들의
Figure 112016128005232-pct00107
개의 이용가능 채널들에의 할당에 관한 정보를 포함하는 대상 할당 벡터
Figure 112016128005232-pct00108
이 제공되는 것으로 가정된다. 영향을 받는 채널들은 점유되는 - 각자의 시간 프레임에서 주변 HOA 성분의 임의의 계수 시퀀스들을 전송하는 데 이용가능하지 않다는 것을 의미함 - 것으로 가정될 수 있다.
주변 성분 수정 처리 단계 또는 스테이지(13)에서, 주변 HOA 성분의 프레임
Figure 112016128005232-pct00109
이 대상 할당 벡터
Figure 112016128005232-pct00110
에 의해 제공되는 정보에 따라 수정된다. 상세하게는, (양태들 중에서도 특히) 어느 채널들이 이용가능하고 우세 음향 신호들에 의해 이미 점유되어 있는지에 관한 (대상 할당 벡터
Figure 112016128005232-pct00111
에 포함된) 정보에 따라, 주변 HOA 성분의 어느 계수 시퀀스들이 주어진
Figure 112016128005232-pct00112
개의 채널들에서 전송되어야 하는지가 결정된다. 그에 부가하여, 선택된 계수 시퀀스들의 인덱스들이 연속적인 프레임들 사이에서 변하면, 계수 시퀀스들의 페이드인(fade-in) 및 페이드아웃(fade-out)이 수행된다.
게다가, 주변 HOA 성분
Figure 112016128005232-pct00113
의 처음
Figure 112016128005232-pct00114
개의 계수 시퀀스들이 인지 코딩되어 전송되도록 항상 선택되고, 여기서
Figure 112016128005232-pct00115
이고,
Figure 112016128005232-pct00116
은 전형적으로 원래의 HOA 표현의 차수보다 더 작은 차수이다. 이 HOA 계수 시퀀스들을 무상관화(de-correlate)시키기 위해, 그들이 단계/스테이지(13)에서 어떤 미리 정의된 방향들
Figure 112016128005232-pct00117
,
Figure 112016128005232-pct00118
으로부터 충돌하는 방향 신호들(즉, 일반적인 평면파 함수들)로 변환될 수 있다.
수정된 주변 HOA 성분
Figure 112016128005232-pct00119
과 함께, 시간 예측된 수정된 주변 HOA 성분
Figure 112016128005232-pct00120
이 단계/스테이지(13)에서 계산되고, 타당한 예견을 가능하게 하기 위해 이득 제어 처리 단계들 또는 스테이지들(15, 151)에서 사용되며, 주변 HOA 성분의 수정에 관한 정보는 채널 할당 단계 또는 스테이지(14)에서 모든 가능한 유형들의 신호들을 이용가능한 채널들에 할당하는 것에 직접 관련되어 있다. 그 할당에 관한 최종 정보는 최종 할당 벡터
Figure 112016128005232-pct00121
에 포함되는 것으로 가정된다. 단계/스테이지(13)에서 이 벡터를 계산하기 위해, 대상 할당 벡터
Figure 112016128005232-pct00122
에 포함된 정보가 이용된다.
단계/스테이지(14)에서의 채널 할당은, 할당 벡터
Figure 112016128005232-pct00123
에 의해 제공되는 정보를 사용해, 프레임
Figure 112016128005232-pct00124
에 포함된 그리고 프레임
Figure 112016128005232-pct00125
에 포함된 적절한 신호들을
Figure 112016128005232-pct00126
개의 이용가능한 채널들에 할당하여, 신호 프레임들
Figure 112016128005232-pct00127
,
Figure 112016128005232-pct00128
를 산출한다. 게다가, 프레임
Figure 112016128005232-pct00129
에 그리고 프레임
Figure 112016128005232-pct00130
에 포함된 적절한 신호들이 또한
Figure 112016128005232-pct00131
개의 이용가능한 채널들에 할당되어, 예측된 신호 프레임들
Figure 112016128005232-pct00132
,
Figure 112016128005232-pct00133
를 산출한다.
신호 프레임들
Figure 112016128005232-pct00134
,
Figure 112016128005232-pct00135
각각은 이득 제어(15, 151)에 의해 최종적으로 처리되어, 지수들
Figure 112016128005232-pct00136
및 예외 플래그들
Figure 112016128005232-pct00137
,
Figure 112016128005232-pct00138
가 얻어지고, 신호 이득이 인지 인코더 단계들 또는 스테이지들(16)에 적당한 값 범위를 달성하는 것 등을 위해 매끄럽게 수정되는 신호들
Figure 112016128005232-pct00139
,
Figure 112016128005232-pct00140
가 얻어진다. 단계들/스테이지들(16)은 대응하는 인코딩된 신호 프레임들
Figure 112016128005232-pct00141
,
Figure 112016128005232-pct00142
를 출력한다. 예측된 신호 프레임들
Figure 112016128005232-pct00143
,
Figure 112016128005232-pct00144
는 연속적인 블록들 사이의 심각한 이득 변화들을 피하기 위해 일종의 예견을 가능하게 한다. 보조 정보 데이터
Figure 112016128005232-pct00145
,
Figure 112016128005232-pct00146
,
Figure 112016128005232-pct00147
,
Figure 112016128005232-pct00148
,
Figure 112016128005232-pct00149
Figure 112016128005232-pct00150
는 보조 정보 소스 코더 단계 또는 스테이지(17)에서 소스 코딩되어, 인코딩된 보조 정보 프레임
Figure 112016128005232-pct00151
가 얻어진다. 멀티플렉서(18)에서, 프레임
Figure 112016128005232-pct00152
의 인코딩된 신호들
Figure 112016128005232-pct00153
와 이 프레임에 대한 인코딩된 보조 정보 데이터
Figure 112016128005232-pct00154
가 결합되어, 출력 프레임
Figure 112016128005232-pct00155
가 얻어진다.
공간 HOA 디코더에서, 단계들/스테이지들(15, 151)에서의 이득 수정들은 지수들
Figure 112016128005232-pct00156
및 예외 플래그들
Figure 112016128005232-pct00157
,
Figure 112016128005232-pct00158
로 이루어져 있는 이득 제어 보조 정보를 사용하여 복귀되는 것으로 가정된다.
HOA 압축해제
EP 2800401 A1에 기술된 HOA 압축해제기의 전체적인 아키텍처가 도 2에 예시되어 있다. HOA 압축해제기는, 역순으로 배열되어 있고 도 2의 A에 도시된 인지 및 소스 디코딩 부분과 도 2의 B에 도시된 공간 HOA 디코딩 부분을 포함하는, HOA 압축기 컴포넌트들의 대응물들로 이루어져 있다.
(인지 및 보조 정보 소스 디코더를 나타내는) 인지 및 소스 디코딩 부분에서, 디멀티플렉싱 단계 또는 스테이지(21)는 비트 스트림으로부터 입력 프레임
Figure 112016128005232-pct00159
를 수신하고
Figure 112016128005232-pct00160
개의 신호들의 인지 코딩된 표현
Figure 112016128005232-pct00161
,
Figure 112016128005232-pct00162
및 그의 HOA 표현을 어떻게 생성해야 하는지를 기술하는 코딩된 보조 정보 데이터
Figure 112016128005232-pct00163
를 제공한다.
Figure 112016128005232-pct00164
신호들은 인지 디코더 단계 또는 스테이지(22)에서 인지 디코딩되어, 디코딩된 신호들
Figure 112016128005232-pct00165
,
Figure 112016128005232-pct00166
가 얻어진다. 코딩된 보조 정보 데이터
Figure 112016128005232-pct00167
는 보조 정보 소스 디코더 단계 또는 스테이지(23)에서 디코딩되어, 데이터 세트들
Figure 112016128005232-pct00168
,
Figure 112016128005232-pct00169
, 지수들
Figure 112016128005232-pct00170
, 예외 플래그들
Figure 112016128005232-pct00171
, 예측 파라미터들
Figure 112016128005232-pct00172
및 할당 벡터
Figure 112016128005232-pct00173
가 얻어진다.
Figure 112016128005232-pct00174
Figure 112016128005232-pct00175
사이의 차이에 관해서는, 앞서 언급된 MPEG 문서 N14264를 참조하기 바란다.
공간 HOA 디코딩
공간 HOA 디코딩 부분에서, 인지 디코딩된 신호들
Figure 112016128005232-pct00176
,
Figure 112016128005232-pct00177
각각은 역 이득 제어 처리 단계 또는 스테이지(24, 241)에, 그의 연관된 이득 보정 지수
Figure 112016128005232-pct00178
및 이득 보정 예외 플래그
Figure 112016128005232-pct00179
와 함께, 입력된다. 제
Figure 112016128005232-pct00180
역 이득 제어 처리 단계/스테이지는 이득 보정 신호 프레임
Figure 112016128005232-pct00181
를 제공한다.
Figure 112016128005232-pct00182
개의 이득 보정된 신호 프레임들
Figure 112016128005232-pct00183
,
Figure 112016128005232-pct00184
모두가, 할당 벡터
Figure 112016128005232-pct00185
및 튜플 세트들
Figure 112016128005232-pct00186
Figure 112016128005232-pct00187
과 함께, 채널 재할당 단계 또는 스테이지(25)에 피드된다 - 튜플 세트들
Figure 112016128005232-pct00188
Figure 112016128005232-pct00189
의 앞서 기술된 정의를 참조 -. 할당 벡터
Figure 112016128005232-pct00190
는, 각각의 전송 채널에 대해, 전송 채널이 주변 HOA 성분의 계수 시퀀스를 포함하는지 그리고 전송 채널이 어느 것을 포함하는지를 나타내는
Figure 112016128005232-pct00191
개의 성분들로 이루어져 있다. 채널 재할당 단계/스테이지(25)에서, 이득 보정된 신호 프레임들
Figure 112016128005232-pct00192
는 모든 우세 음향 신호들(즉, 모든 방향 및 벡터 기반 신호들)의 프레임
Figure 112016128005232-pct00193
및 주변 HOA 성분의 중간 표현의 프레임
Figure 112016128005232-pct00194
를 재구성하기 위해 재분포된다. 그에 부가하여, 제
Figure 112016128005232-pct00195
프레임에서 활성인 주변 HOA 성분의 계수 시퀀스들의 인덱스들의 세트
Figure 112016128005232-pct00196
, 및 제
Figure 112016128005232-pct00197
프레임에서 인에이블되고, 디스에이블되며, 활성인 채로 있어야만 하는 주변 HOA 성분의 계수 인덱스들의 데이터 세트들
Figure 112016128005232-pct00198
,
Figure 112016128005232-pct00199
Figure 112016128005232-pct00200
이 제공된다.
우세 음향 합성(predominant sound synthesis) 단계 또는 스테이지(26)에서, 우세 음향 성분
Figure 112016128005232-pct00201
의 HOA 표현이 모든 우세 음향 신호들의 프레임
Figure 112016128005232-pct00202
로부터, 튜플 세트
Figure 112016128005232-pct00203
, 예측 파라미터들의 세트
Figure 112016128005232-pct00204
, 튜플 세트
Figure 112016128005232-pct00205
그리고 데이터 세트들
Figure 112016128005232-pct00206
,
Figure 112016128005232-pct00207
Figure 112016128005232-pct00208
을 사용하여, 계산된다.
앰비언스 합성(ambience synthesis) 단계 또는 스테이지(27)에서, 주변 HOA 성분 프레임
Figure 112016128005232-pct00209
이 주변 HOA 성분의 중간 표현의 프레임
Figure 112016128005232-pct00210
로부터, 제
Figure 112016128005232-pct00211
프레임에서 활성인 주변 HOA 성분의 계수 시퀀스들의 인덱스들의 세트
Figure 112016128005232-pct00212
를 사용하여, 생성된다. 우세 음향 HOA 성분과의 동기화로 인해 하나의 프레임의 지연이 유입된다.
마지막으로, HOA 조성(HOA composition) 단계 또는 스테이지(28)에서, 주변 HOA 성분 프레임
Figure 112016128005232-pct00213
및 우세 음향 HOA 성분의 프레임
Figure 112016128005232-pct00214
이 디코딩된 HOA 프레임
Figure 112016128005232-pct00215
을 제공하기 위해 중첩된다.
그 후에, 공간 HOA 디코더는,
Figure 112016128005232-pct00216
개의 신호들 및 보조 정보로부터, 재구성된 HOA 표현을 생성한다.
인코딩측에서, 주변 HOA 성분이 방향 신호들로 변환된 경우에, 그 변환이 디코더측에서 단계/스테이지(27)에서 반대로 행해진다.
HOA 압축기 내에서 이득 제어 처리 단계들/스테이지들(15, 151) 이전의 신호들의 잠재적인 최대 이득들은 입력 HOA 표현의 값 범위에 많이 의존한다. 그러므로, 처음에 입력 HOA 표현에 대한 의미있는 값 범위가 정의되고, 이어서 이득 제어 처리 단계들/스테이지들에 들어가기 전에 신호들의 잠재적인 최대 이득들에 대해 결론을 내린다.
입력 HOA 표현의 정규화
본 발명의 방법을 사용하기 위해, (총) 입력 HOA 표현 신호의 정규화가 이전에 수행되어야만 한다. HOA 압축을 위해, 프레임 단위가 수행되고, 여기서 원래의 입력 HOA 표현의 제
Figure 112016128005232-pct00217
프레임
Figure 112016128005232-pct00218
는 고차 앰비소닉스의 기초 섹션에서 수학식 54에 명시된 시간 연속적 HOA 계수 시퀀스들의 벡터
Figure 112016128005232-pct00219
와 관련하여 수학식 1로서 정의되고,
[수학식 1]
Figure 112016128005232-pct00220
여기서
Figure 112016128005232-pct00221
는 프레임 인덱스를 나타내고,
Figure 112016128005232-pct00222
은 프레임 길이(단위: 샘플)를 나타내며,
Figure 112016128005232-pct00223
은 HOA 계수 시퀀스들의 수를 나타내고,
Figure 112016128005232-pct00224
는 샘플링 주기를 나타낸다.
EP 2824661 A1에서 언급된 바와 같이, 실제적 관점에서 본 HOA 표현의 의미있는 정규화는 개개의 HOA 계수 시퀀스들
Figure 112016128005232-pct00225
의 값 범위에 제약조건들을 부과하는 것에 의해 달성되지 않는데, 그 이유는 이 시간 영역 함수들이 렌더링 후에 스피커들에 의해 실제로 재생되는 신호들이 아니기 때문이다. 그 대신에, HOA 표현을
Figure 112016128005232-pct00226
개의 가상 스피커 신호들
Figure 112016128005232-pct00227
,
Figure 112016128005232-pct00228
로 렌더링하는 것에 의해 획득되는, '등가의 공간 영역 표현'을 고려하는 것이 보다 편리하다. 각자의 가상 스피커 위치들이 구면 좌표계에 의해 표현되는 것으로 가정되고, 여기서 각각의 위치는 단위 구면 상에 있는 것으로 그리고 '1'의 반경을 갖는 것으로 가정된다. 그러므로, 위치들이 차수 의존적 방향들
Figure 112016128005232-pct00229
에 의해 등가적으로 표현될 수 있고, 여기서
Figure 112016128005232-pct00230
Figure 112016128005232-pct00231
은, 각각, 경사들 및 방위각들을 나타낸다(또한 도 6 및 구면 좌표계의 정의에 대한 그의 설명을 참조). 이 방향들은 단위 구면 상에 가능한 균일하게 분포되어야만 하고, 예컨대, J. Fliege, U. Maier, "A two-stage approach for computing cubature formulae for the sphere", Technical report, Fachbereich Mathematik, University of Dortmund, 1999를 참조하기 바란다. 노드 번호들은 특정 방향들의 계산에 대한 http://www.mathematik.uni-dortmund.de/lsx/research/projects/fliege/nodes/nodes.html에 있다. 이 위치들은 일반적으로 '구면 상에서의 균일한 분포'의 정의의 종류에 의존하고, 따라서 명확하지 않다.
HOA 계수 시퀀스들에 대한 값 범위들을 정의하는 것보다 가상 스피커 신호들에 대한 값 범위들을 정의하는 것의 장점은 전자에 대한 값 범위가 PCM 표현을 가정하는 종래의 스피커 신호들에 대해서와 같이 똑같이 직관적으로 구간
Figure 112016128005232-pct00232
로 설정될 수 있다는 것이다. 이것은 공간적으로 균일하게 분포된 양자화 오차를 가져오며, 따라서 유리하게도 실제의 청취에 대해 관련성 있는 영역(domain)에서 양자화가 적용된다. 이와 관련하여 중요한 측면은 샘플당 비트 수가 종래의 스피커 신호들에 대해 전형적인 것만큼 낮게 - 즉, 16으로 - 선택될 수 있고, 이는, 보통 보다 높은 샘플당 비트 수(예컨대, 24 또는 심지어 32)가 요구되는, HOA 계수 시퀀스들의 직접 양자화와 비교하여 효율을 증가시킨다는 것이다.
공간 영역에서의 정규화 프로세스를 상세히 기술하기 위해, 모든 가상 스피커 신호들이 벡터로 수학식 2로서 요약되고
[수학식 2]
Figure 112016128005232-pct00233
여기서
Figure 112016128005232-pct00234
는 전치(transposition)를 나타낸다. 가상 방향들
Figure 112016128005232-pct00235
에 대한 모드 행렬을
Figure 112016128005232-pct00236
- 이는 수학식 3에 의해 정의되고
[수학식 3]
Figure 112016128005232-pct00237
여기서
[수학식 4]
Figure 112016128005232-pct00238
Figure 112016128005232-pct00239
임 -로 나타내면,
렌더링 프로세스는 행렬 곱셈
[수학식 5]
Figure 112016128005232-pct00240
로서 수식화될 수 있다.
이 정의들을 사용하여, 가상 스피커 신호들에 대한 타당한 요구사항은 수학식 6이고:
[수학식 6]
Figure 112016128005232-pct00241
수학식 6은 각각의 가상 스피커 신호의 크기가 범위
Figure 112016128005232-pct00242
내에 있어야만 한다는 것을 의미한다. 시간
Figure 112016128005232-pct00243
의 시각(time instant)은 샘플 인덱스
Figure 112016128005232-pct00244
및 상기 HOA 데이터 프레임들의 샘플 값들의 샘플 주기
Figure 112016128005232-pct00245
에 의해 표현된다.
스피커 신호들의 총 전력은 결과적으로 조건 수학식 7을 충족시킨다.
[수학식 7]
Figure 112016128005232-pct00246
HOA 데이터 프레임 표현의 렌더링 및 정규화는 도 1의 A의 입력
Figure 112016128005232-pct00247
의 전단(upstream)에서 수행된다.
이득 제어 이전의 신호 값 범위에 대한 결과
입력 HOA 표현의 정규화가 입력 HOA 표현의 정규화 섹션에서의 설명에 따라 수행되는 것으로 가정하면, HOA 압축기에서의 이득 제어 처리 유닛(15, 151)에 입력되는, 신호들
Figure 112016128005232-pct00248
,
Figure 112016128005232-pct00249
의 값 범위가 이하에서 고려된다. 이 신호들은 HOA 계수 시퀀스들, 또는 우세 음향 신호들
Figure 112016128005232-pct00250
,
Figure 112016128005232-pct00251
, 및/또는 주변 HOA 성분
Figure 112016128005232-pct00252
,
Figure 112016128005232-pct00253
의 특정의 계수 시퀀스들 - 이들의 일부에 공간 변환이 적용됨 - 중 하나 이상을 이용가능한
Figure 112016128005232-pct00254
개의 채널들에 할당하는 것에 의해 생성된다. 그러므로, 수학식 6에서의 정규화 가정 하에서 이 언급된 상이한 신호 유형들의 가능한 값 범위를 분석하는 것이 필요하다. 모든 종류의 신호들이 원래의 HOA 계수 시퀀스들로부터 즉각 계산되기 때문에, 그들의 가능한 값 범위들이 검토된다.
하나 이상의 HOA 계수 시퀀스들만이
Figure 112016128005232-pct00255
개의 채널들에 포함되어 있는 경우가 도 1의 A 및 도 2의 B에 도시되어 있지 않으며, 즉 이러한 경우에, HOA 분해, 주변 성분 수정 및 대응하는 합성 블록들이 필요하지 않게 된다.
HOA 표현의 값 범위에 대한 결과
시간 연속적 HOA 표현이 수학식 8에 의해 가상 스피커 신호들로부터 획득되고,
[수학식 8]
Figure 112016128005232-pct00256
수학식 8은 수학식 5에서의 연산의 역연산(inverse operation)이다. 그러므로, 모든 HOA 계수 시퀀스들의 총 전력은 수학식 8 및 수학식 7을 사용하여 다음과 같이 제한된다:
[수학식 9]
Figure 112016128005232-pct00257
구면 조화함수 함수들의 N3D 정규화의 가정 하에서, 모드 행렬의 유클리드 노름의 제곱은 수학식 10a와 같이 써질 수 있고,
[수학식 10a]
Figure 112016128005232-pct00258
여기서
[수학식 10b]
Figure 112016128005232-pct00259
은 모드 행렬의 유클리드 노름의 제곱과 HOA 계수 시퀀스들의 수
Figure 112016128005232-pct00260
사이의 비이다. 이 비는 특정 HOA 차수
Figure 112016128005232-pct00261
및 특정 가상 스피커 방향들
Figure 112016128005232-pct00262
에 의존하며, 수학식 10c와 같이 각자의 파라미터 목록을 비에 부가하는 것에 의해 표현될 수 있다.
[수학식 10c]
Figure 112016128005232-pct00263
도 3은 HOA 차수들
Figure 112016128005232-pct00264
에 대한 앞서 언급된 Fliege 등의 논문에 따른 가상 방향들
Figure 112016128005232-pct00265
에 대한
Figure 112016128005232-pct00266
의 값들을 나타내고 있다.
모든 이전의 인수(argument)들과 고려사항들을 결합하는 것은 다음과 같이 HOA 계수 시퀀스들의 크기에 대한 상한을 제공하고:
[수학식 11]
Figure 112016128005232-pct00267
여기서 첫 번째 부등식은 노름 정의들로부터 직접 나온 것이다.
유의할 중요한 점은 수학식 6에서의 조건이 수학식 11에서의 조건을 암시하지만, 그 반대가 성립하지 않는다 - 즉, 수학식 11이 수학식 6을 암시하지 않는다 - 는 것이다.
추가적인 중요한 측면은, 거의 균일하게 분포된 가상 스피커 위치들의 가정 하에서, 가상 스피커 위치들과 관련하여 모드 벡터들을 표현하는 모드 행렬
Figure 112016128005232-pct00268
의 열 벡터들이 서로 거의 직교이고 각각이
Figure 112016128005232-pct00269
의 유클리드 노름을 갖는다는 것이다. 이 특성은 공간 변환이 곱셈 상수(multiplicative constant)를 제외하고는 유클리드 노름을 거의 보존한다는 것을 의미하며, 즉,
[수학식 12]
Figure 112016128005232-pct00270
이다.
실제 노름
Figure 112016128005232-pct00271
가 수학식 12에서의 근사화와 많이 상이할수록, 모드 벡터들에 대한 직교성 가정이 많이 위반된다.
우세 음향 신호들의 값 범위에 대한 결과
양 유형의 우세 음향 신호들(방향 및 벡터 기반)의 공통점은 HOA 표현에 대한 그들의 기여가
Figure 112016128005232-pct00272
의 유클리드 노름을 갖는 단일의 벡터
Figure 112016128005232-pct00273
에 의해 기술된다는 것이며, 즉
[수학식 13]
Figure 112016128005232-pct00274
이다. 방향 신호의 경우에, 이 벡터는 특정의 신호 소스 방향
Figure 112016128005232-pct00275
에 대한 모드 벡터에 대응하며, 즉
[수학식 14]
Figure 112016128005232-pct00276
[수학식 15]
Figure 112016128005232-pct00277
이다. 이 벡터는 HOA 표현에 의해 신호 소스 방향
Figure 112016128005232-pct00278
으로의 방향 빔을 기술한다. 벡터 기반 신호의 경우에, 벡터
Figure 112016128005232-pct00279
은 임의의 방향에 대해 모드 벡터로 제약되지 않고, 그러므로 모노럴 벡터 기반 신호의 보다 일반적인 방향 분포를 기술할 수 있다.
이하에서
Figure 112016128005232-pct00280
개의 우세 음향 신호들
Figure 112016128005232-pct00281
,
Figure 112016128005232-pct00282
- 이들은 수학식 16에 따라 벡터
Figure 112016128005232-pct00283
에 모여 있을 수 있음 - 의 일반적인 경우가 고려된다.
[수학식 16]
Figure 112016128005232-pct00284
이 신호들은 모노럴 우세 음향 신호들
Figure 112016128005232-pct00285
,
Figure 112016128005232-pct00286
의 방향 분포를 나타내는 모든 벡터들
Figure 112016128005232-pct00287
,
Figure 112016128005232-pct00288
로 형성되는 수학식 17의 행렬에 기초하여 결정되어야만 한다.
[수학식 17]
Figure 112016128005232-pct00289
우세 음향 신호들
Figure 112016128005232-pct00290
의 의미있는 추출을 위해, 이하의 제약조건들이 수식화된다:
a) 각각의 우세 음향 신호가, 수학식 18과 같이, 원래의 HOA 표현의 계수 시퀀스들의 선형 결합으로서 획득되며,
[수학식 18]
Figure 112016128005232-pct00291
여기서
Figure 112016128005232-pct00292
는 믹싱 행렬을 나타낸다.
b) 믹싱 행렬
Figure 112016128005232-pct00293
는 그의 유클리드 노름이 '1'의 값을 초과하지 않도록 - 즉,
[수학식 19]
Figure 112016128005232-pct00294
이도록 - 그리고 원래의 HOA 표현과 우세 음향 신호들의 HOA 표현 사이의 잔차의 유클리드 노름의 제곱(또는 동등하게 전력)이 원래의 HOA 표현의 유클리드 노름의 제곱(또는 동등하게 전력) 이하이도록 - 즉,
[수학식 20]
Figure 112016128005232-pct00295
- 이도록 선택되어야만 한다.
수학식 18을 수학식 20에 삽입함으로써, 수학식 20이 수학식 21의 제약조건과 동등하다는 것을 알 수 있고,
[수학식 21]
Figure 112016128005232-pct00296
여기서
Figure 112016128005232-pct00297
는 항등 행렬을 나타낸다.
수학식 18 및 수학식 19에서의 제약조건들로부터 그리고 유클리드 행렬 및 벡터 노름들의 호환성으로부터, 우세 음향 신호들의 크기들에 대한 상한이 수학식 18, 수학식 19 및 수학식 11을 사용하여 다음과 같이 구해진다.
[수학식 22]
Figure 112016128005232-pct00298
[수학식 23]
Figure 112016128005232-pct00299
[수학식 24]
Figure 112016128005232-pct00300
그러므로, 우세 음향 신호들이, 수학식 25와 같이, 원래의 HOA 계수 시퀀스들과 동일한 범위에 있도록 보장된다(수학식 11과 비교).
[수학식 25]
Figure 112016128005232-pct00301
믹싱 행렬의 선택에 대한 예
제약조건(수학식 20)을 충족시키는 믹싱 행렬을 어떻게 결정해야 하는지의 일 예는, 수학식 26과 같이, 추출 이후의 잔차의 유클리드 노름이 최소화되도록 우세 음향 신호들을 계산하는 것에 의해 얻어진다.
[수학식 26]
Figure 112016128005232-pct00302
수학식 26에서의 최소화 문제에 대핸 해결책은 수학식 27에 의해 주어지고,
[수학식 27]
Figure 112016128005232-pct00303
여기서
Figure 112016128005232-pct00304
는 Moore-Penrose 의사 역행렬(pseudo-inverse)을 나타낸다. 수학식 27과 수학식 18을 비교해 보면, 이 경우에, 믹싱 행렬이 행렬
Figure 112016128005232-pct00305
의 Moore-Penrose 의사 역행렬과 같은 것으로 된다 - 즉,
Figure 112016128005232-pct00306
임 -.
그럼에도 불구하고, 행렬
Figure 112016128005232-pct00307
는 여전히 제약조건(수학식 19)을 충족시키도록, 즉 수학식 28이도록, 선택되어야만 한다.
[수학식 28]
Figure 112016128005232-pct00308
행렬
Figure 112016128005232-pct00309
가 어떤 소스 신호 방향들
Figure 112016128005232-pct00310
,
Figure 112016128005232-pct00311
에 대한 모드 행렬 - 즉, 수학식 29 - 인, 방향 신호들만의 경우에,
[수학식 29]
Figure 112016128005232-pct00312
제약조건(수학식 28)은, 임의의 2개의 이웃하는 방향들의 거리가 너무 작지 않도록, 소스 신호 방향들
Figure 112016128005232-pct00313
,
Figure 112016128005232-pct00314
를 선택하는 것에 의해 충족될 수 있다.
주변 HOA 성분의 계수 시퀀스들의 값 범위에 대한 결과
주변 HOA 성분은 원래의 HOA 표현을 우세 음향 신호들의 HOA 표현으로부터 차감하는 것에 의해 - 즉, 수학식 30에 의해 - 계산된다.
[수학식 30]
Figure 112016128005232-pct00315
우세 음향 신호들의 벡터
Figure 112016128005232-pct00316
가 기준(수학식 20)에 따라 결정되면, 다음과 같이 결론지어질 수 있다:
[수학식 31]
Figure 112016128005232-pct00317
[수학식 32]
Figure 112016128005232-pct00318
[수학식 33]
Figure 112016128005232-pct00319
[수학식 34]
Figure 112016128005232-pct00320
주변 HOA 성분의 공간 변환된 계수 시퀀스들의 값 범위
EP 2743922 A1에서 그리고 앞서 언급된 MPEG 문서 N14264에서 제안된 HOA 압축 처리에서의 추가적인 측면은 주변 HOA 성분의 처음
Figure 112016128005232-pct00321
개의 계수 시퀀스들이 항상 전송 채널들에 할당되도록 선택되고, 여기서
Figure 112016128005232-pct00322
이고
Figure 112016128005232-pct00323
은 전형적으로 원래의 HOA 표현의 차수보다 더 작은 차수이다. 이 HOA 계수 시퀀스들을 무상관화시키기 위해, 이들이 (입력 HOA 표현의 정규화 섹션에 기술된 개념과 유사하게) 어떤 미리 정의된 방향들
Figure 112016128005232-pct00324
,
Figure 112016128005232-pct00325
로부터 충돌하는 가상 스피커 신호들로 변환될 수 있다.
차수 인덱스
Figure 112016128005232-pct00326
을 갖는 주변 HOA 성분의 모든 계수 시퀀스들의 벡터를
Figure 112016128005232-pct00327
에 의해 그리고 가상 방향들
Figure 112016128005232-pct00328
,
Figure 112016128005232-pct00329
에 대한 모드 행렬을
Figure 112016128005232-pct00330
에 의해 정의하면, 모든 가상 스피커 신호들의 벡터
Figure 112016128005232-pct00331
(모든 가상 스피커 신호들은 그에 의해 정의됨)는 수학식 35에 의해 획득된다:
[수학식 35]
Figure 112016128005232-pct00332
그러므로, 유클리드 행렬과 벡터 노름들의 호환성을 사용하여,
[수학식 36]
Figure 112016128005232-pct00333
[수학식 37]
Figure 112016128005232-pct00334
[수학식 38]
Figure 112016128005232-pct00335
.
앞서 언급된 MPEG 문서 N14264에서, 가상 방향들
Figure 112016128005232-pct00336
,
Figure 112016128005232-pct00337
은 앞서 언급된 Fliege 등의 논문에 따라 선택된다. 모드 행렬들
Figure 112016128005232-pct00338
의 역행렬의 각자의 유클리드 노름들이 차수들
Figure 112016128005232-pct00339
에 대해 도 4에 예시되어 있다. 수학식 39라는 것을 알 수 있다.
[수학식 39]
Figure 112016128005232-pct00340
그렇지만, 이것은
Figure 112016128005232-pct00341
에 대해 일반적으로 성립하지 않으며, 여기서
Figure 112016128005232-pct00342
의 값들은 전형적으로 '1'보다 훨씬 더 크다. 그럼에도 불구하고, 적어도
Figure 112016128005232-pct00343
에 대해, 가상 스피커 신호들의 진폭들이 수학식 40에 의해 제한된다.
[수학식 40]
Figure 112016128005232-pct00344
이 HOA 표현으로부터 생성된 가상 스피커 신호들의 진폭들이 '1'의 값을 초과하지 않을 것을 요구하는, 조건(수학식 6)을 충족시키도록 입력 HOA 표현을 제약하는 것에 의해, 이득 제어 이전의 신호들의 진폭들이 다음과 같은 조건들 하에서 값
Figure 112016128005232-pct00345
(수학식 25, 수학식 34 및 수학식 40을 참조)을 초과하지 않을 것임이 보장될 수 있다:
a) 모든 우세 음향 신호들의 벡터
Figure 112016128005232-pct00346
가 수학식/제약조건 18, 수학식/제약조건 19 및 수학식/제약조건 20에 따라 계산된다;
b) 앞서 언급된 Fliege 등의 논문에서 정의된 것들이 가상 스피커 위치들로서 사용되는 경우, 공간 변환이 적용되는 주변 HOA 성분의 제1 계수 시퀀스들의 수
Figure 112016128005232-pct00347
을 결정하는 최소 차수
Figure 112016128005232-pct00348
은 '9'보다 낮아야만 한다.
이득 제어 이전의 신호들의 진폭들이 최대 관심 차수
Figure 112016128005232-pct00349
까지의 임의의 차수
Figure 112016128005232-pct00350
에 대해 값
Figure 112016128005232-pct00351
를 초과하지 않을 것으로 - 즉,
Figure 112016128005232-pct00352
일 것으로 - 추가로 결론내려질 수 있으며, 여기서 수학식 41a이다.
[수학식 41a]
Figure 112016128005232-pct00353
상세하게는, 도 3으로부터 결론내려질 수 있다. 초기 공간 변환을 위한 가상 스피커 방향들
Figure 112016128005232-pct00354
가 Fliege 등의 논문에서의 분포에 따라 선택되는 것으로 가정되는 경우 그리고 그에 부가하여, 최대 관심 차수가 (예컨대, MPEG 문서 N14264에서와 같이)
Figure 112016128005232-pct00355
인 것으로 가정되는 경우, 이득 제어 이전의 신호들의 진폭들이 값
Figure 112016128005232-pct00356
를 초과하지 않을 것인데, 그 이유는 이 특수한 경우에
Figure 112016128005232-pct00357
이기 때문이다. 즉,
Figure 112016128005232-pct00358
가 선택될 수 있다.
Figure 112016128005232-pct00359
는 최대 관심 차수
Figure 112016128005232-pct00360
및 가상 스피커 방향들
Figure 112016128005232-pct00361
에 의존하고, 수학식 41b에 의해 표현될 수 있다.
[수학식 41b]
Figure 112016128005232-pct00362
그러므로, 인지 코딩 이전의 신호들이 구간
Figure 112016128005232-pct00363
내에 있도록 하기 위해 이득 제어에 의해 적용되는 최소 이득은
Figure 112016128005232-pct00364
에 의해 주어지고, 여기서 수학식 41c이다.
[수학식 41c]
Figure 112016128005232-pct00365
이득 제어 이전의 신호들의 진폭들이 너무 작은 경우, 그들을
Figure 112016128005232-pct00366
까지의 인수를 사용해 매끄럽게 증폭시키는 것이 가능하고, 여기서
Figure 112016128005232-pct00367
이 코딩된 HOA 표현 내에서 보조 정보로서 전송되는 것이 MPEG 문서 N14264에 제안되어 있다.
이와 같이, 액세스 단위 내에서 첫 번째 프레임부터 현재 프레임까지 이득 제어 처리 유닛에 의해 야기된 수정된 신호의 총 절대 진폭 변화를 기술하는, 밑이 '2'인 각각의 지수가 구간
Figure 112016128005232-pct00368
내의 임의의 정수값을 취할 수 있다. 결과적으로, 그것을 코딩하는 데 필요하게 되는 비트들의 (최저 정수) 개수
Figure 112016128005232-pct00369
가 수학식 42에 의해 주어진다.
[수학식 42]
Figure 112016128005232-pct00370
이득 제어 이전 신호들의 진폭들이 너무 작지는 않은 경우, 수학식 42가 수학식 42a로 단순화될 수 있다:
[수학식 42a]
Figure 112016128005232-pct00371
이 비트 수
Figure 112016128005232-pct00372
는 이득 제어 단계들/스테이지들(15,...,151)의 입력에서 계산될 수 있다.
지수에 대해 이 비트 수
Figure 112016128005232-pct00373
를 사용하는 것은 HOA 압축기 이득 제어 처리 유닛들(15, ..., 151)에 의해 야기된 모든 가능한 절대 진폭 변화들이 포착될 수 있도록 보장하여, 압축된 표현 내의 어떤 미리 정의된 진입점들에서 압축해제를 시작하는 것을 가능하게 한다.
압축된 HOA 표현의 압축해제를 HOA 압축해제기에서 시작할 때, 어떤 데이터 프레임들에 대한 보조 정보에 할당되고 수신된 데이터 스트림
Figure 112016128005232-pct00374
중에서 디멀티플렉서(21)로부터 수신되는 총 절대 진폭 변화들을 나타내는 비차분 이득 값들이, 이득 제어 단계들/스테이지들(15,...,151)에서 수행된 처리와 정반대의 방식으로, 올바른 이득 제어를 적용하기 위해 역 이득 제어 단계들 또는 스테이지들(24,..., 241)에서 사용된다.
추가 실시예
HOA 압축 섹션, 공간 HOA 인코딩 섹션, HOA 압축해제 섹션 및 공간 HOA 디코딩 섹션에 기술된 바와 같은 특정의 HOA 압축/압축해제 시스템들을 구현할 때, 지수의 코딩을 위한 비트들의 양
Figure 112016128005232-pct00375
는 스케일링 인자
Figure 112016128005232-pct00376
에 의존하여 수학식 42에 따라 설정되어야만 하며, 스케일링 인자 자체는 압축될 HOA 표현들의 원하는 최대 차수
Figure 112016128005232-pct00377
및 특정 가상 스피커 방향들
Figure 112016128005232-pct00378
,
Figure 112016128005232-pct00379
에 의존한다.
예를 들어,
Figure 112016128005232-pct00380
인 것으로 가정하고 Fliege 등의 논문에 따라 가상 스피커 방향들을 선택할 때, 타당한 선택은
Figure 112016128005232-pct00381
일 것이다. 그 상황에서, 동일한 가상 스피커 방향들
Figure 112016128005232-pct00382
를 사용하여 입력 HOA 표현의 정규화 섹션에 따라 정규화되는,
Figure 112016128005232-pct00383
를 갖는 차수
Figure 112016128005232-pct00384
의 HOA 표현들에 대해 올바른 압축이 보장된다. 그렇지만, (효율로 인해) 가상 스피커 신호들에 의해 PCM 포맷으로 동등하게 표현되는 HOA 표현의 경우에, 그리고 가상 스피커들의 방향들
Figure 112016128005232-pct00385
이 시스템 설계 스테이지에서 가정된 가상 스피커 방향들
Figure 112016128005232-pct00386
와 상이하게 선택되는 경우, 이 보장이 주어지지 않을 수 있다.
가상 스피커 위치들의 이 상이한 선택으로 인해, 이 가상 스피커 신호들의 진폭들이 구간
Figure 112016128005232-pct00387
내에 있더라도, 이득 제어 이전의 신호들의 진폭들이 값
Figure 112016128005232-pct00388
를 초과하지 않을 것이라고 더 이상 보장될 수 없다. 그리고 따라서 이 HOA 표현이 MPEG 문서 N14264에 기술된 처리에 따른 압축에 대해 적절한 정규화를 갖는다고 보장될 수 없다.
이 상황에서, 각자의 HOA 표현이 MPEG 문서 N14264에 기술된 처리에 따른 압축에 적당하도록 하기 위해, 가상 스피커 위치들을 알고 있는 것에 기초하여, 가상 스피커 신호들의 최대 허용 진폭을 제공하는 시스템을 가지는 것이 유리하다. 도 5에, 이러한 시스템이 예시되어 있다. 이 시스템은 가상 스피커 위치들
Figure 112016128005232-pct00389
- 단,
Figure 112016128005232-pct00390
이고
Figure 112016128005232-pct00391
임 - 를 입력으로서 취하고, 가상 스피커 신호들의 최대 허용 진폭
Figure 112016128005232-pct00392
(데시벨로 측정됨)를 출력으로서 제공한다. 단계 또는 스테이지(51)에서, 가상 스피커 위치들에 대한 모드 행렬
Figure 112016128005232-pct00393
가 수학식 3에 따라 계산된다. 다음 단계 또는 스테이지(52)에서, 모드 행렬의 유클리드 노름
Figure 112016128005232-pct00394
가 계산된다. 제3 단계 또는 스테이지(53)에서, 수학식 43과 같이, 진폭
Figure 112016128005232-pct00395
가 가상 스피커 위치들의 수의 제곱근과
Figure 112016128005232-pct00396
의 제곱근의 곱과 모드 행렬의 유클리드 노름 사이의 비율(quotient)과 '1' 중의 최소값으로서 계산된다.
[수학식 43]
Figure 112016128005232-pct00397
수학식 44에 의해 데시벨 단위의 값이 획득된다.
[수학식 44]
Figure 112016128005232-pct00398
설명을 위해: 이상의 유도들로부터, HOA 계수 시퀀스들의 크기가 값
Figure 112016128005232-pct00399
를 초과하지 않는 경우, 즉 수학식 45인 경우,
[수학식 45]
Figure 112016128005232-pct00400
이득 제어 처리 유닛들(15, 151) 이전의 모든 신호들이 그에 따라, 적절한 HOA 압축에 대한 요구사항인, 이 값을 초과하지 않는다는 것을 알 수 있다.
수학식 9로부터, HOA 계수 시퀀스들의 크기가 수학식 46에 의해 제한된다는 것을 알 수 있다.
[수학식 46]
Figure 112016128005232-pct00401
결과적으로,
Figure 112016128005232-pct00402
가 수학식 43에 따라 설정되고 PCM 포맷의 가상 스피커 신호들이 수학식 47을 충족시키는 경우,
[수학식 47]
Figure 112016128005232-pct00403
수학식 7로부터 당연히 수학식 48로 되고,
[수학식 48]
Figure 112016128005232-pct00404
요구사항(수학식 45)이 충족된다.
즉, 수학식 6에서의 '1'의 최대 크기 값이 수학식 47에서의 최대 크기 값
Figure 112016128005232-pct00405
에 의해 대체된다.
고차 앰비소닉스의 기초
고차 앰비소닉스(HOA)는 음원들이 없는 것으로 가정되는 콤팩트한 관심 영역 내에서의 음장의 설명에 기초한다. 그 경우에, 시간
Figure 112016128005232-pct00406
및 위치
Figure 112016128005232-pct00407
에서의 음압
Figure 112016128005232-pct00408
의 시공간 거동이 동차 파동 방정식(homogeneous wave equation)에 의해 물리적으로 완전히 결정된다. 이하에서, 도 6에 도시된 바와 같은 구면 좌표계가 가정된다. 사용되는 좌표계에서,
Figure 112016128005232-pct00409
축은 전방 위치를 가리키고,
Figure 112016128005232-pct00410
축은 좌측을 가리키며,
Figure 112016128005232-pct00411
축은 상방을 가리킨다. 공간에서의 위치
Figure 112016128005232-pct00412
는 반경
Figure 112016128005232-pct00413
(즉, 좌표 원점까지의 거리)에 의해 표현되고, 경사각
Figure 112016128005232-pct00414
는 극축(polar axis)
Figure 112016128005232-pct00415
로부터 측정되며, 방위각
Figure 112016128005232-pct00416
Figure 112016128005232-pct00417
평면에서
Figure 112016128005232-pct00418
축으로부터 시계반대방향으로 측정된다. 게다가,
Figure 112016128005232-pct00419
는 전치를 나타낸다.
이어서, "Fourier Acoustics" 교재로부터
Figure 112016128005232-pct00420
에 의해 표기된 시간에 대한 음압의 푸리에 변환, 즉, 수학식 49가
[수학식 49]
Figure 112016128005232-pct00421
- 여기서
Figure 112016128005232-pct00422
는 각주파수를 나타내고
Figure 112016128005232-pct00423
는 허수 단위를 나타냄 - 수학식 50에 따라 구면 조화함수의 급수로 전개될 수 있다는 것을 알 수 있고,
[수학식 50]
Figure 112016128005232-pct00424
여기서
Figure 112016128005232-pct00425
는 음속을 나타내고
Figure 112016128005232-pct00426
Figure 112016128005232-pct00427
에 의해 각주파수
Figure 112016128005232-pct00428
에 관련되는 각파수(angular wave number)를 나타낸다. 게다가,
Figure 112016128005232-pct00429
는 제1종의 구면 베셀 함수(spherical Bessel function)들을 나타내고,
Figure 112016128005232-pct00430
는, 실수값 구면 조화함수의 정의 섹션에서 정의되는, 계수(order)
Figure 112016128005232-pct00431
및 차수(degree)
Figure 112016128005232-pct00432
의 실수값 구면 조화함수를 나타낸다. 전개 계수들
Figure 112016128005232-pct00433
는 각파수
Figure 112016128005232-pct00434
에만 의존한다. 유의할 점은, 음압이 공간적으로 대역 제한되어 있는 것으로 암시적으로 가정되었다는 것이다. 이와 같이, 급수가 차수 인덱스
Figure 112016128005232-pct00435
과 관련하여, HOA 표현의 차수라고 불리우는, 상한
Figure 112016128005232-pct00436
에서 절단된다.
음장이 각도 튜플(angle tuple)
Figure 112016128005232-pct00437
에 의해 명시되는 모든 가능한 방향들부터 도착하는 상이한 각주파수들
Figure 112016128005232-pct00438
의 무한 수의 조화 평면파들의 중첩에 의해 표현되는 경우, 각자의 평면파 분해 복소 진폭 함수
Figure 112016128005232-pct00439
가 수학식 51의 구면 조화함수 전개에 의해 표현될 수 있고
[수학식 51]
Figure 112016128005232-pct00440
여기서 전개 계수들
Figure 112016128005232-pct00441
는 수학식 52에 의해 전개 계수들
Figure 112016128005232-pct00442
에 관련되어 있다는 것을 알 수 있다(B. Rafaely, "Plane-wave decomposition of the sound field on a sphere by spherical convolution", J. Acoust. Soc. Am., vol.4(116), pages 2149-2157, October 2004를 참조)
[수학식 52]
Figure 112016128005232-pct00443
개개의 계수들
Figure 112016128005232-pct00444
가 각주파수
Figure 112016128005232-pct00445
의 함수들인 것으로 가정하면, 역푸리에 변환(
Figure 112016128005232-pct00446
에 의해 표기됨)의 적용은 각각의 계수
Figure 112016128005232-pct00447
및 차수
Figure 112016128005232-pct00448
에 대한 수학식 53의 시간 영역 함수들을 제공한다:
[수학식 53]
Figure 112016128005232-pct00449
이 시간 영역 함수들은 여기서, 수학식 54에 의해 단일의 벡터
Figure 112016128005232-pct00450
에 모여 있을 수 있는, 연속 시간 HOA 계수 시퀀스들이라고 지칭된다.
[수학식 54]
Figure 112016128005232-pct00451
Figure 112016128005232-pct00452
벡터
Figure 112016128005232-pct00453
내에서의 HOA 계수 시퀀스
Figure 112016128005232-pct00454
의 위치 인덱스는
Figure 112016128005232-pct00455
에 의해 주어진다. 벡터
Figure 112016128005232-pct00456
내의 요소들의 총수는
Figure 112016128005232-pct00457
에 의해 주어진다.
최종적인 앰비소닉스 포맷은 샘플링 주파수
Figure 112016128005232-pct00458
를 사용한
Figure 112016128005232-pct00459
의 샘플링된 버전을 수학식 55로서 제공하고,
[수학식 55]
Figure 112016128005232-pct00460
여기서
Figure 112016128005232-pct00461
는 샘플링 주기를 나타낸다.
Figure 112016128005232-pct00462
의 요소들은, 항상 실수값이라는 것을 알 수 있는, 이산 시간 HOA 계수 시퀀스들이라고 지칭된다. 이 특성은 연속 시간 버전들
Figure 112016128005232-pct00463
에 대해서도 성립한다.
실수값 구면 조화함수의 정의
실수값 구면 조화함수
Figure 112016128005232-pct00464
(J. Daniel, "Representation de champs acoustiques, application a la transmission et a la reproduction de scenes sonores complexes dans un contexte multimedia", PhD thesis, Universite Paris, 6, 2001, chapter 3.1에 따라 SN3D 정규화를 가정함)는 수학식 56에 의해 주어지고
[수학식 56]
Figure 112016128005232-pct00465
여기서
[수학식 57]
Figure 112016128005232-pct00466
연관된 르장드르 함수(Legendre function)들
Figure 112016128005232-pct00467
는 수학식 58로서 정의되고,
[수학식 58]
Figure 112016128005232-pct00468
수학식 58은 르장드르 다항식(Legendre polynomial)
Figure 112016128005232-pct00469
를 갖지만, E.G. Williams, "Fourier Acoustics", vol.93 of Applied Mathematical Sciences, Academic Press, 1999에서와 달리, 콘던-쇼틀리 위상(Condon-Shortley phase) 항
Figure 112016128005232-pct00470
을 갖지 않는다.
본 발명의 처리는 단일의 프로세서 또는 전자 회로에 의해, 또는 병렬로 동작하는 그리고/또는 본 발명의 처리의 상이한 부분들에서 동작하는 몇 개의 프로세서들 또는 전자 회로들에 의해 수행될 수 있다.
프로세서 또는 프로세서들을 작동시키는 명령어들은 하나 이상의 메모리들에 저장될 수 있다.

Claims (21)

  1. HOA(Higher Order Ambisonics) 데이터 프레임 표현
    Figure 112022039989141-pct00607
    의 압축을 위해 HOA 데이터 프레임들의 채널 신호들에 대해 진폭 변화들에 대응하는 비차분 이득 값들의 표현들을 2의 지수
    Figure 112022039989141-pct00608
    로서 나타내기 위한 비트들의 최저 정수 개수
    Figure 112022039989141-pct00609
    를 결정하는 방법으로서,
    각각의 프레임 내의 각각의 채널 신호는 일군의 샘플 값들을 포함하고, 상기 HOA 데이터 프레임들의 각각의 HOA 데이터 프레임의 각각의 채널 신호에 차분 이득 값이 할당되며, 상기 차분 이득 값은 현재 HOA 데이터 프레임
    Figure 112022039989141-pct00611
    에서의 채널 신호의 제1 샘플 값들의, 이전 HOA 데이터 프레임
    Figure 112022039989141-pct00612
    에서의 채널 신호의 제2 샘플 값들에 대한, 진폭들의 변화를 야기하고, 그 결과 얻어진 이득 적응된 채널 신호들이 인코더에서 인코딩되며,
    상기 HOA 데이터 프레임 표현은 공간 영역에서
    Figure 112022039989141-pct00613
    개의 가상 스피커 신호들
    Figure 112022039989141-pct00614
    로 렌더링되었고, 가상 스피커들의 위치들은 단위 구면 상에 있고 그 단위 구면 상에 균일하게 분포되는 것을 목표로 하며, 상기 렌더링은 행렬 곱셈
    Figure 112022039989141-pct00615
    에 의해 표현되고,
    Figure 112022039989141-pct00616
    는 가상 스피커 신호들 모두를 포함하는 벡터이며,
    Figure 112022039989141-pct00617
    는 가상 스피커 위치들 모드 행렬이고,
    Figure 112022039989141-pct00618
    는 상기 HOA 데이터 프레임 표현의 대응하는 HOA 계수 시퀀스들의 벡터이며,
    상기 HOA 데이터 프레임 표현
    Figure 112022039989141-pct00619
    Figure 112022039989141-pct00620
    이도록 정규화되었고,
    상기 방법은:
    a) 상기 채널 신호들에서의 우세 음향 신호들
    Figure 112022039989141-pct00621
    을 표현하기 위해, 상기 HOA 계수 시퀀스들의 벡터
    Figure 112022039989141-pct00622
    를 믹싱 행렬(mixing matrix)
    Figure 112022039989141-pct00623
    와 곱하는 것 - 믹싱 행렬
    Figure 112022039989141-pct00624
    는 정규화된 HOA 데이터 프레임 표현의 계수 시퀀스들의 선형 결합을 나타냄 -,
    b) 상기 채널 신호들에서의 주변 성분
    Figure 112022039989141-pct00625
    를 표현하기 위해, 상기 우세 음향 신호들을 상기 정규화된 HOA 데이터 프레임 표현으로부터 차감하고,
    Figure 112022039989141-pct00626
    를 계산하는 것에 의해 얻어진 최소 주변 성분
    Figure 112022039989141-pct00627
    를 변환하는 것 -
    Figure 112022039989141-pct00628
    이고
    Figure 112022039989141-pct00629
    은 상기 최소 주변 성분
    Figure 112022039989141-pct00630
    에 대한 모드 행렬임 -, 및
    c) 공간 변환이 적용되는 상기 주변 성분
    Figure 112022039989141-pct00822
    의 계수 시퀀스들에 관련되는 상기 HOA 계수 시퀀스들
    Figure 112022039989141-pct00631
    의 일부를 선택하는 것에 의해 채널 신호들을 형성하는 단계; 및
    Figure 112022039989141-pct00632
    Figure 112022039989141-pct00633
    에 기초하여 비트들의 상기 정수 개수
    Figure 112022039989141-pct00634
    를 결정하는 단계
    를 포함하고,
    Figure 112022039989141-pct00635
    이고,
    Figure 112022039989141-pct00636
    은 차수이며,
    Figure 112022039989141-pct00637
    는 최대 관심 차수이고,
    Figure 112022039989141-pct00638
    은 상기 가상 스피커들의 방향들이며,
    Figure 112022039989141-pct00639
    은 HOA 계수 시퀀스들의 수이고,
    Figure 112022039989141-pct00640
    는 상기 모드 행렬의 유클리드 노름의 제곱
    Figure 112022039989141-pct00641
    Figure 112022039989141-pct00642
    사이의 비인, 방법.
  2. 제1항에 있어서, 상기 변환된 최소 주변 성분에 부가하여, 상기 주변 성분
    Figure 112020061153934-pct00681
    의 비변환된 주변 계수 시퀀스들이 상기 채널 신호에 포함되는, 방법.
  3. 제1항에 있어서, 상기 HOA 데이터 프레임들의 특정 HOA 데이터 프레임들의 상기 채널 신호들과 연관된 상기 비차분 이득 값들의 표현들
    Figure 112020061153934-pct00683
    은 보조 정보로서 전송되고, 상기 표현들의 각각의 표현은
    Figure 112020061153934-pct00684
    개의 비트들로 나타내어지는, 방법.
  4. 삭제
  5. 제1항에 있어서,
    Figure 112020061153934-pct00689
    인, 방법.
  6. 제1항에 있어서, 상기 믹싱 행렬
    Figure 112020061153934-pct00690
    는, 모노럴 우세 음향 신호들의 방향 분포를 표현하는 모든 벡터들로 형성되는 모드 행렬의 Moore-Penrose 의사 역행렬을 취하는 것에 의해, 원래의 HOA 표현과 상기 우세 음향 신호들의 HOA 표현 사이의 잔차의 유클리드 노름을 최소화하도록 결정되는, 방법.
  7. 삭제
  8. HOA(Higher Order Ambisonics) 데이터 프레임 표현
    Figure 112022039989141-pct00763
    의 압축을 위해 HOA 데이터 프레임들의 채널 신호들에 대해 진폭 변화들에 대응하는 비차분 이득 값들의 표현들을 2의 지수
    Figure 112022039989141-pct00764
    로서 나타내기 위한 비트들의 최저 정수 개수
    Figure 112022039989141-pct00765
    를 결정하는 장치로서,
    각각의 프레임 내의 각각의 채널 신호는 일군의 샘플 값들을 포함하고, 상기 HOA 데이터 프레임들의 각각의 HOA 데이터 프레임의 각각의 채널 신호에 차분 이득 값이 할당되며, 상기 차분 이득 값은 현재 HOA 데이터 프레임
    Figure 112022039989141-pct00766
    에서의 채널 신호의 제1 샘플 값들의, 이전 HOA 데이터 프레임
    Figure 112022039989141-pct00767
    에서의 채널 신호의 제2 샘플 값들에 대한, 진폭들의 변화를 야기하고, 그 결과 얻어진 이득 적응된 채널 신호들이 인코더에서 인코딩되며,
    상기 HOA 데이터 프레임 표현
    Figure 112022039989141-pct00768
    은 공간 영역에서
    Figure 112022039989141-pct00769
    개의 가상 스피커 신호들
    Figure 112022039989141-pct00770
    로 렌더링되었고, 가상 스피커들의 위치들은 단위 구면 상에 있고 그 단위 구면 상에 균일하게 분포되는 것을 목표로 하며, 상기 렌더링은 행렬 곱셈
    Figure 112022039989141-pct00771
    에 의해 표현되고,
    Figure 112022039989141-pct00772
    는 가상 스피커 신호들 모두를 포함하는 벡터이며,
    Figure 112022039989141-pct00773
    는 가상 스피커 위치들 모드 행렬이고,
    Figure 112022039989141-pct00774
    는 상기 HOA 데이터 프레임 표현의 대응하는 HOA 계수 시퀀스들의 벡터이며,
    상기 HOA 데이터 프레임 표현
    Figure 112022039989141-pct00775
    Figure 112022039989141-pct00776
    이도록 정규화되었고,
    상기 장치는:
    a) 상기 채널 신호들에서의 우세 음향 신호들
    Figure 112022039989141-pct00777
    을 표현하기 위해, 상기 HOA 계수 시퀀스들의 벡터
    Figure 112022039989141-pct00778
    를 믹싱 행렬
    Figure 112022039989141-pct00779
    와 곱하는 것 - 믹싱 행렬
    Figure 112022039989141-pct00780
    는 정규화된 HOA 데이터 프레임 표현의 계수 시퀀스들의 선형 결합을 나타냄 -;
    b) 상기 채널 신호들에서의 주변 성분
    Figure 112022039989141-pct00781
    를 표현하기 위해, 상기 우세 음향 신호들을 상기 정규화된 HOA 데이터 프레임 표현으로부터 차감하고,
    Figure 112022039989141-pct00782
    를 계산하는 것에 의해 얻어진 최소 주변 성분
    Figure 112022039989141-pct00783
    를 변환하는 것 -
    Figure 112022039989141-pct00784
    이고
    Figure 112022039989141-pct00785
    은 상기 최소 주변 성분
    Figure 112022039989141-pct00786
    에 대한 모드 행렬임 -; 및
    c) 공간 변환이 적용되는 상기 주변 성분
    Figure 112022039989141-pct00823
    의 계수 시퀀스들에 관련되는 상기 HOA 계수 시퀀스들
    Figure 112022039989141-pct00787
    의 일부를 선택하는 것에 의해 상기 채널 신호들을 형성하도록 구성되는 프로세서
    를 포함하고,
    상기 프로세서는
    Figure 112022039989141-pct00788
    Figure 112022039989141-pct00789
    에 기초하여 비트들의 상기 정수 개수
    Figure 112022039989141-pct00790
    를 결정하도록 추가로 구성되고,
    Figure 112022039989141-pct00791
    이고,
    Figure 112022039989141-pct00792
    은 차수이며,
    Figure 112022039989141-pct00793
    는 최대 관심 차수이고,
    Figure 112022039989141-pct00794
    은 상기 가상 스피커들의 방향들이며,
    Figure 112022039989141-pct00795
    은 HOA 계수 시퀀스들의 수이고,
    Figure 112022039989141-pct00796
    는 상기 모드 행렬의 유클리드 노름의 제곱
    Figure 112022039989141-pct00797
    Figure 112022039989141-pct00798
    사이의 비인, 장치.
  9. 제8항에 있어서, 상기 변환된 최소 주변 성분에 부가하여, 상기 주변 성분
    Figure 112020061153934-pct00734
    의 비변환된 주변 계수 시퀀스들이 상기 채널 신호에 포함되는, 장치.
  10. 제8항에 있어서, 상기 HOA 데이터 프레임들의 특정 HOA 데이터 프레임들의 상기 채널 신호들과 연관된 상기 비차분 이득 값들의 표현들
    Figure 112020061153934-pct00736
    은 보조 정보로서 전송되고, 상기 표현들의 각각의 표현은
    Figure 112020061153934-pct00737
    개의 비트들로 나타내어지는, 장치.
  11. 삭제
  12. 제8항에 있어서,
    Figure 112020061153934-pct00742
    인, 장치.
  13. 제8항에 있어서, 상기 믹싱 행렬
    Figure 112020061153934-pct00743
    는, 모노럴 우세 음향 신호들의 방향 분포를 표현하는 모든 벡터들로 형성되는 모드 행렬의 Moore-Penrose 의사 역행렬을 취하는 것에 의해, 원래의 HOA 표현과 상기 우세 음향 신호들의 HOA 표현 사이의 잔차의 유클리드 노름을 최소화하도록 결정되는, 장치.
  14. 삭제
  15. 음향 또는 음장의 압축된 HOA(Higher Order Ambisonics) 음향 표현을 디코딩하는 방법으로서,
    상기 압축된 HOA 표현을 포함하는 비트 스트림을 수신하는 단계 - 상기 비트 스트림은 상기 압축된 HOA 표현에 대응하는 다수의 HOA 계수들을 포함함 -, 및
    상기 압축된 HOA 표현을 최저 정수 개수
    Figure 112020061153934-pct00800
    에 기초하여 디코딩하는 단계 - 상기 최저 정수 개수
    Figure 112020061153934-pct00801
    Figure 112020061153934-pct00802
    에 기초하여 결정되며,
    Figure 112020061153934-pct00803
    이고,
    Figure 112020061153934-pct00804
    은 차수이며,
    Figure 112020061153934-pct00805
    는 최대 관심 차수이고,
    Figure 112020061153934-pct00806
    은 가상 스피커들의 방향들이며,
    Figure 112020061153934-pct00807
    은 HOA 계수 시퀀스들의 수이고,
    Figure 112020061153934-pct00808
    는 모드 행렬의 유클리드 노름의 제곱
    Figure 112020061153934-pct00809
    Figure 112020061153934-pct00810
    사이의 비임 -
    를 포함하는, 방법.
  16. 제15항에 있어서,
    Figure 112022039989141-pct00824
    인, 방법.
  17. 음향 또는 음장의 압축된 HOA(Higher Order Ambisonics) 음향 표현을 디코딩하는 장치로서,
    상기 압축된 HOA 표현을 포함하는 비트 스트림을 수신하도록 구성되는 프로세서
    를 포함하고,
    상기 비트 스트림은 상기 압축된 HOA 표현에 대응하는 다수의 HOA 계수들을 포함하고,
    상기 프로세서는 상기 압축된 HOA 표현을 최저 정수 개수
    Figure 112020061153934-pct00811
    에 기초하여 디코딩하도록 추가로 구성되고,
    상기 최저 정수 개수
    Figure 112020061153934-pct00812
    Figure 112020061153934-pct00813
    에 기초하여 결정되며,
    Figure 112020061153934-pct00814
    이고,
    Figure 112020061153934-pct00815
    은 차수이며,
    Figure 112020061153934-pct00816
    는 최대 관심 차수이고,
    Figure 112020061153934-pct00817
    은 가상 스피커들의 방향들이며,
    Figure 112020061153934-pct00818
    은 HOA 계수 시퀀스들의 수이고,
    Figure 112020061153934-pct00819
    는 모드 행렬의 유클리드 노름의 제곱
    Figure 112020061153934-pct00820
    Figure 112020061153934-pct00821
    사이의 비인, 장치.
  18. 제17항에 있어서,
    Figure 112022039989141-pct00825
    인, 장치.
  19. 삭제
  20. 삭제
  21. 삭제
KR1020167036552A 2014-06-27 2015-06-22 Hoa 데이터 프레임 표현의 압축을 위해 비차분 이득 값들을 표현하는 데 필요하게 되는 비트들의 최저 정수 개수를 결정하는 방법 및 장치 KR102428370B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020227026356A KR102568636B1 (ko) 2014-06-27 2015-06-22 Hoa 데이터 프레임 표현의 압축을 위해 비차분 이득 값들을 표현하는 데 필요하게 되는 비트들의 최저 정수 개수를 결정하는 방법 및 장치

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP14306023.4 2014-06-27
EP14306023.4A EP2960903A1 (en) 2014-06-27 2014-06-27 Method and apparatus for determining for the compression of an HOA data frame representation a lowest integer number of bits required for representing non-differential gain values
PCT/EP2015/063912 WO2015197512A1 (en) 2014-06-27 2015-06-22 Method and apparatus for determining for the compression of an hoa data frame representation a lowest integer number of bits required for representing non-differential gain values

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020227026356A Division KR102568636B1 (ko) 2014-06-27 2015-06-22 Hoa 데이터 프레임 표현의 압축을 위해 비차분 이득 값들을 표현하는 데 필요하게 되는 비트들의 최저 정수 개수를 결정하는 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20170023017A KR20170023017A (ko) 2017-03-02
KR102428370B1 true KR102428370B1 (ko) 2022-08-02

Family

ID=51178839

Family Applications (3)

Application Number Title Priority Date Filing Date
KR1020227026356A KR102568636B1 (ko) 2014-06-27 2015-06-22 Hoa 데이터 프레임 표현의 압축을 위해 비차분 이득 값들을 표현하는 데 필요하게 되는 비트들의 최저 정수 개수를 결정하는 방법 및 장치
KR1020237027680A KR20230124763A (ko) 2014-06-27 2015-06-22 Hoa 데이터 프레임 표현의 압축을 위해 비차분 이득값들을 표현하는 데 필요하게 되는 비트들의 최저 정수 개수를 결정하는 방법 및 장치
KR1020167036552A KR102428370B1 (ko) 2014-06-27 2015-06-22 Hoa 데이터 프레임 표현의 압축을 위해 비차분 이득 값들을 표현하는 데 필요하게 되는 비트들의 최저 정수 개수를 결정하는 방법 및 장치

Family Applications Before (2)

Application Number Title Priority Date Filing Date
KR1020227026356A KR102568636B1 (ko) 2014-06-27 2015-06-22 Hoa 데이터 프레임 표현의 압축을 위해 비차분 이득 값들을 표현하는 데 필요하게 되는 비트들의 최저 정수 개수를 결정하는 방법 및 장치
KR1020237027680A KR20230124763A (ko) 2014-06-27 2015-06-22 Hoa 데이터 프레임 표현의 압축을 위해 비차분 이득값들을 표현하는 데 필요하게 되는 비트들의 최저 정수 개수를 결정하는 방법 및 장치

Country Status (9)

Country Link
US (5) US10236003B2 (ko)
EP (3) EP2960903A1 (ko)
JP (3) JP6567571B2 (ko)
KR (3) KR102568636B1 (ko)
CN (4) CN112908348B (ko)
BR (2) BR122022022357B1 (ko)
RU (1) RU2725602C9 (ko)
TW (3) TWI689916B (ko)
WO (1) WO2015197512A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220110615A (ko) * 2014-06-27 2022-08-08 돌비 인터네셔널 에이비 Hoa 데이터 프레임 표현의 압축을 위해 비차분 이득 값들을 표현하는 데 필요하게 되는 비트들의 최저 정수 개수를 결정하는 방법 및 장치

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113808598A (zh) * 2014-06-27 2021-12-17 杜比国际公司 针对hoa数据帧表示的压缩确定表示非差分增益值所需的最小整数比特数的方法
KR102606212B1 (ko) * 2014-06-27 2023-11-29 돌비 인터네셔널 에이비 Hoa 데이터 프레임 표현의 데이터 프레임들 중 특정 데이터 프레임들의 채널 신호들과 연관된 비차분 이득 값들을 포함하는 코딩된 hoa 데이터 프레임 표현
DE102016104665A1 (de) * 2016-03-14 2017-09-14 Ask Industries Gmbh Verfahren und Vorrichtung zur Aufbereitung eines verlustbehaftet komprimierten Audiosignals
WO2019035622A1 (ko) 2017-08-17 2019-02-21 가우디오디오랩 주식회사 앰비소닉 신호를 사용하는 오디오 신호 처리 방법 및 장치
JP2022539217A (ja) * 2019-07-02 2022-09-07 ドルビー・インターナショナル・アーベー 離散指向性情報の表現、符号化、および復号化のための方法、装置、およびシステム
CN115376529B (zh) * 2021-05-17 2024-10-11 华为技术有限公司 三维音频信号编码方法、装置和编码器

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5757927A (en) 1992-03-02 1998-05-26 Trifield Productions Ltd. Surround sound apparatus
US5956674A (en) * 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
SE522453C2 (sv) 2000-02-28 2004-02-10 Scania Cv Ab Sätt och anordning för styrning av ett mekaniskt tillsatsaggregat i ett motorfordon
CN1677492A (zh) 2004-04-01 2005-10-05 北京宫羽数字技术有限责任公司 一种增强音频编解码装置及方法
WO2006091139A1 (en) 2005-02-23 2006-08-31 Telefonaktiebolaget Lm Ericsson (Publ) Adaptive bit allocation for multi-channel audio encoding
US8135047B2 (en) * 2006-07-31 2012-03-13 Qualcomm Incorporated Systems and methods for including an identifier with a packet associated with a speech signal
US7848280B2 (en) * 2007-06-15 2010-12-07 Telefonaktiebolaget L M Ericsson (Publ) Tunnel overhead reduction
WO2009001874A1 (ja) 2007-06-27 2008-12-31 Nec Corporation オーディオ符号化方法、オーディオ復号方法、オーディオ符号化装置、オーディオ復号装置、プログラム、およびオーディオ符号化・復号システム
WO2011117399A1 (en) * 2010-03-26 2011-09-29 Thomson Licensing Method and device for decoding an audio soundfield representation for audio playback
EP2450880A1 (en) * 2010-11-05 2012-05-09 Thomson Licensing Data structure for Higher Order Ambisonics audio data
EP2451196A1 (en) * 2010-11-05 2012-05-09 Thomson Licensing Method and apparatus for generating and for decoding sound field data including ambisonics sound field data of an order higher than three
EP2469741A1 (en) * 2010-12-21 2012-06-27 Thomson Licensing Method and apparatus for encoding and decoding successive frames of an ambisonics representation of a 2- or 3-dimensional sound field
EP2541547A1 (en) 2011-06-30 2013-01-02 Thomson Licensing Method and apparatus for changing the relative positions of sound objects contained within a higher-order ambisonics representation
EP2637427A1 (en) * 2012-03-06 2013-09-11 Thomson Licensing Method and apparatus for playback of a higher-order ambisonics audio signal
EP2665208A1 (en) * 2012-05-14 2013-11-20 Thomson Licensing Method and apparatus for compressing and decompressing a Higher Order Ambisonics signal representation
US20130315402A1 (en) * 2012-05-24 2013-11-28 Qualcomm Incorporated Three-dimensional sound compression and over-the-air transmission during a call
EP2688066A1 (en) 2012-07-16 2014-01-22 Thomson Licensing Method and apparatus for encoding multi-channel HOA audio signals for noise reduction, and method and apparatus for decoding multi-channel HOA audio signals for noise reduction
EP2743922A1 (en) 2012-12-12 2014-06-18 Thomson Licensing Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field
EP2800401A1 (en) 2013-04-29 2014-11-05 Thomson Licensing Method and Apparatus for compressing and decompressing a Higher Order Ambisonics representation
US20140355769A1 (en) * 2013-05-29 2014-12-04 Qualcomm Incorporated Energy preservation for decomposed representations of a sound field
EP2824661A1 (en) 2013-07-11 2015-01-14 Thomson Licensing Method and Apparatus for generating from a coefficient domain representation of HOA signals a mixed spatial/coefficient domain representation of said HOA signals
DE102013223201B3 (de) * 2013-11-14 2015-05-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren und Vorrichtung zum Komprimieren und Dekomprimieren von Schallfelddaten eines Gebietes
US10412522B2 (en) * 2014-03-21 2019-09-10 Qualcomm Incorporated Inserting audio channels into descriptions of soundfields
CN113808598A (zh) * 2014-06-27 2021-12-17 杜比国际公司 针对hoa数据帧表示的压缩确定表示非差分增益值所需的最小整数比特数的方法
CN106471822B (zh) * 2014-06-27 2019-10-25 杜比国际公司 针对hoa数据帧表示的压缩确定表示非差分增益值所需的最小整数比特数的设备
EP2960903A1 (en) * 2014-06-27 2015-12-30 Thomson Licensing Method and apparatus for determining for the compression of an HOA data frame representation a lowest integer number of bits required for representing non-differential gain values
KR102606212B1 (ko) * 2014-06-27 2023-11-29 돌비 인터네셔널 에이비 Hoa 데이터 프레임 표현의 데이터 프레임들 중 특정 데이터 프레임들의 채널 신호들과 연관된 비차분 이득 값들을 포함하는 코딩된 hoa 데이터 프레임 표현

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Draft of ISO/IEC 23008-3:201x 3D Audio, Second Edition, w16391, 2016.10.31
Johannes Boehm, et al. Detailed Technical Description of 3D Audio Phase 2 Reference Model 0 for HOA technologies. ISO/IEC JTC1/SC29/WG11 MPEG2014/M35057. 2014.10.19.
Text of ISO/IEC 23008-3/CD, 3D audio. ISO/IEC JTC1/SC29/WG11 N14459. 2014.04.15.

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220110615A (ko) * 2014-06-27 2022-08-08 돌비 인터네셔널 에이비 Hoa 데이터 프레임 표현의 압축을 위해 비차분 이득 값들을 표현하는 데 필요하게 되는 비트들의 최저 정수 개수를 결정하는 방법 및 장치
KR102568636B1 (ko) * 2014-06-27 2023-08-22 돌비 인터네셔널 에이비 Hoa 데이터 프레임 표현의 압축을 위해 비차분 이득 값들을 표현하는 데 필요하게 되는 비트들의 최저 정수 개수를 결정하는 방법 및 장치
US11875803B2 (en) 2014-06-27 2024-01-16 Dolby Laboratories Licensing Corporation Methods and apparatus for determining for decoding a compressed HOA sound representation

Also Published As

Publication number Publication date
RU2020115874A (ru) 2020-06-18
US10872612B2 (en) 2020-12-22
KR20170023017A (ko) 2017-03-02
JP6869296B2 (ja) 2021-05-12
US20240212692A1 (en) 2024-06-27
CN112908349A (zh) 2021-06-04
RU2016151121A3 (ko) 2019-02-07
US20190214027A1 (en) 2019-07-11
TWI749471B (zh) 2021-12-11
US11322165B2 (en) 2022-05-03
BR122018012705A2 (ko) 2017-08-22
RU2725602C9 (ru) 2020-08-28
US20220270620A1 (en) 2022-08-25
CN112908348A (zh) 2021-06-04
CN112951254A (zh) 2021-06-11
US20170133020A1 (en) 2017-05-11
BR122022022357B1 (pt) 2024-01-16
BR122018012705A8 (pt) 2022-09-13
WO2015197512A1 (en) 2015-12-30
US20210193156A1 (en) 2021-06-24
JP2021103337A (ja) 2021-07-15
CN106471580A (zh) 2017-03-01
EP3161820A1 (en) 2017-05-03
CN112908348B (zh) 2022-07-15
KR20220110615A (ko) 2022-08-08
BR122023009299B1 (pt) 2023-12-26
TWI689916B (zh) 2020-04-01
EP3809409A1 (en) 2021-04-21
CN106471580B (zh) 2021-03-05
TWI820530B (zh) 2023-11-01
JP2019185065A (ja) 2019-10-24
US11875803B2 (en) 2024-01-16
JP6567571B2 (ja) 2019-08-28
BR112016029978A2 (pt) 2017-08-22
RU2016151121A (ru) 2018-06-26
KR102568636B1 (ko) 2023-08-22
RU2725602C2 (ru) 2020-07-02
EP2960903A1 (en) 2015-12-30
TW202238566A (zh) 2022-10-01
TW201603000A (zh) 2016-01-16
KR20230124763A (ko) 2023-08-25
US10236003B2 (en) 2019-03-19
TW202105364A (zh) 2021-02-01
EP3161820B1 (en) 2020-11-18
JP2017523456A (ja) 2017-08-17

Similar Documents

Publication Publication Date Title
KR102454747B1 (ko) Hoa 데이터 프레임 표현의 압축을 위해 비차분 이득 값들을 표현하는 데 필요하게 되는 비트들의 최저 정수 개수를 결정하는 장치
KR102410307B1 (ko) Hoa 데이터 프레임 표현의 데이터 프레임들 중 특정 데이터 프레임들의 채널 신호들과 연관된 비차분 이득 값들을 포함하는 코딩된 hoa 데이터 프레임 표현
KR102428370B1 (ko) Hoa 데이터 프레임 표현의 압축을 위해 비차분 이득 값들을 표현하는 데 필요하게 되는 비트들의 최저 정수 개수를 결정하는 방법 및 장치
KR102428425B1 (ko) Hoa 데이터 프레임 표현의 압축을 위해 비차분 이득 값들을 표현하는 데 필요하게 되는 비트들의 최저 정수 개수를 결정하는 방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant