KR102469964B1 - 서브대역 그룹들에 대한 서브대역 구성 데이터를 코딩하거나 디코딩하는 방법 및 장치 - Google Patents

서브대역 그룹들에 대한 서브대역 구성 데이터를 코딩하거나 디코딩하는 방법 및 장치 Download PDF

Info

Publication number
KR102469964B1
KR102469964B1 KR1020177008610A KR20177008610A KR102469964B1 KR 102469964 B1 KR102469964 B1 KR 102469964B1 KR 1020177008610 A KR1020177008610 A KR 1020177008610A KR 20177008610 A KR20177008610 A KR 20177008610A KR 102469964 B1 KR102469964 B1 KR 102469964B1
Authority
KR
South Korea
Prior art keywords
audio subband
subband
audio
configuration data
bandwidth
Prior art date
Application number
KR1020177008610A
Other languages
English (en)
Other versions
KR20170047361A (ko
Inventor
플로리안 카일러
스벤 코르돈
알렉산더 크뤼거
Original Assignee
돌비 인터네셔널 에이비
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 돌비 인터네셔널 에이비 filed Critical 돌비 인터네셔널 에이비
Publication of KR20170047361A publication Critical patent/KR20170047361A/ko
Application granted granted Critical
Publication of KR102469964B1 publication Critical patent/KR102469964B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

서브대역 구성 데이터의 효율적인 인코딩을 위해, 첫 번째, 끝에서 두 번째, 및 최종 서브대역 그룹들은 다른 서브대역 그룹들과는 상이하게 취급된다. 추가로, 서브대역 그룹 대역폭 차이값들이 인코딩에서 사용된다. 서브대역 그룹들의 수(
Figure 112017030815829-pct00362
)가
Figure 112017030815829-pct00363
을 나타내는 고정된 비트 수를 사용하여 코딩된다. 제1 서브대역 그룹의 대역폭 값(
Figure 112017030815829-pct00364
)이
Figure 112017030815829-pct00365
를 나타내는 단항 코드를 사용하여 코딩된다. 대역폭 값(
Figure 112017030815829-pct00366
)은 최종 서브대역(
Figure 112017030815829-pct00367
)에 대해 코딩되지 않는다. 서브대역 그룹들(
Figure 112017030815829-pct00368
)에 대해, 대역폭 차이값들(
Figure 112017030815829-pct00369
)은 단항 코드를 사용하여 코딩되며, 서브대역 그룹(
Figure 112017030815829-pct00370
)에 대한 대역폭 차이값(
Figure 112017030815829-pct00371
)은 고정된 비트 수를 사용하여 코딩된다.

Description

서브대역 그룹들에 대한 서브대역 구성 데이터를 코딩하거나 디코딩하는 방법 및 장치{METHOD AND APPARATUS FOR CODING OR DECODING SUBBAND CONFIGURATION DATA FOR SUBBAND GROUPS}
본 발명은 오디오 신호의 하나 이상의 프레임들에 대해 유효한 서브대역 그룹들에 대한 서브대역 구성 데이터를 코딩하거나 디코딩하는 방법 및 장치에 관한 것이다.
오디오 애플리케이션들, 특히 오디오 코딩에서는, 서브대역 신호의 프로세싱이 종종 수행된다. 효율적인 필터 뱅크들이 직교 미러 필터(QMF)를 사용함으로써 실현되거나, 고속 퓨리에 변환(FFT)이 동일한 대역폭을 갖는 서브대역들을 사용한다. 그러나, 오디오 애플리케이션 및 오디오 코딩에서, 사용된 서브대역들이 인간 청각의 음향 심리학적 특성들에 적응된 상이한 대역폭들을 갖는 것이 바람직하다. 따라서, 오디오 프로세싱에서, 원래의 필터 뱅크로부터의 다수의 서브대역들은 상이한 대역폭들을 갖는 서브대역들을 갖는 적응 필터 뱅크를 형성하도록 조합된다. 대안으로는, 원래의 필터 뱅크로부터의 인접 서브대역들의 그룹이 동일한 파라미터들을 사용하여 프로세싱된다. 오디오 코딩에서, 각각의 서브대역 그룹에 대한 양자화된 파라미터들이 저장되거나 송신된다.
인간 청각의 특성들을 어림하는 주파수 축에 대한 상이한 스케일들(예를 들어, Bark 스케일)이 존재하고: 예를 들어:
H.
Figure 112017030815829-pct00001
, "Analytical expressions for the tonotopic sensory scale", The Journal of the Acoustical Society of America, vol.88(1), pp.97-100, 1990.
E. Zwicker, and H. Fastl, "Psychoacoustics: Facts and Models", Springer series in information sciences, Springer, second updated edition, 1999.
조합된 서브대역들의 그룹이 사용되는 경우에, 인코더측에 적용된 대응하는 서브대역 구성은 디코더측에 알려져야 한다.
본 발명에 의해 해결될 문제점은 서브대역 구성을 정의하는 비트들의 요구되는 수를 감소시키는 것이다. 이러한 문제점은 청구항 제1항 및 제5항에 개시된 방법들에 의해 해결된다. 이들 방법들을 활용하는 장치가 청구항 제3항 및 제7항에 개시된다.
본 발명의 바람직한 추가의 실시예들이 각각의 종속항들에 개시된다.
서브대역 구성 데이터의 효율적인 인코딩을 위해, 첫 번째, 끝에서 두 번째, 및 최종 서브대역 그룹들은 다른 서브대역 그룹들과는 상이하게 취급된다. 추가로, 서브대역 그룹 대역폭 차이값들이 인코딩에서 사용된다.
원칙적으로, 본 발명의 코딩 방법은 오디오 신호의 하나 이상의 프레임들에 대해 유효한 서브대역 그룹들에 대한 서브대역 구성 데이터를 코딩하는데 적합하고, 여기서, 각각의 서브대역 그룹은 하나의 원래의 서브대역과 동일하거나 2개 이상의 인접한 원래의 서브대역들의 조합이고, 후속하는 서브대역 그룹의 대역폭은 현재 서브대역 그룹의 대역폭보다 크거나 동일하며, 원래의 서브대역들의 수는 미리 정해지고, 상기 방법은:
-
Figure 112017030815829-pct00002
을 나타내는 고정된 비트 수에 의해 서브대역 그룹들의 수(
Figure 112017030815829-pct00003
)를 코딩하는 단계;
-
Figure 112017030815829-pct00004
인 경우에, 제1 서브대역 그룹(
Figure 112017030815829-pct00005
)에 대해,
Figure 112017030815829-pct00006
을 나타내는 단항 코드로 대역폭 값(
Figure 112017030815829-pct00007
)을 코딩하는 단계;
-
Figure 112017030815829-pct00008
인 경우에, 상기 제1 서브대역 그룹(
Figure 112017030815829-pct00009
)에 대해 상기 대역폭 값(
Figure 112017030815829-pct00010
)을 코딩하는 단계에 부가하여, 서브대역 그룹(
Figure 112017030815829-pct00011
)에 대해, 고정된 비트 수에 의해 대역폭 차이값(
Figure 112017030815829-pct00012
)을 코딩하는 단계;
-
Figure 112017030815829-pct00013
인 경우에, 상기 제1 서브대역 그룹(
Figure 112017030815829-pct00014
)에 대해 상기 대역폭 값(
Figure 112017030815829-pct00015
)을 코딩하는 단계에 부가하여, 서브대역 그룹들(
Figure 112017030815829-pct00016
)에 대해, 단항 코드로 대응하는 수의 대역폭 차이값들(
Figure 112017030815829-pct00017
)을 코딩하고, 서브대역 그룹(
Figure 112017030815829-pct00018
)에 대해, 고정된 비트 수에 의해 대역폭 차이값(
Figure 112017030815829-pct00019
)을 코딩하는 단계를 포함하고, 서브대역 그룹에 대한 대역폭 값은 인접한 원래의 서브대역들의 수로서 표현되며,
서브대역(
Figure 112017030815829-pct00020
)에 대해, 대응하는 값이 상기 코딩된 서브대역 구성 데이터에 포함되지 않는다.
원칙적으로, 본 발명의 코딩 장치는 오디오 신호의 하나 이상의 프레임들에 대해 유효한 서브대역 그룹들에 대한 서브대역 구성 데이터를 코딩하는데 적합하고, 여기서, 각각의 서브대역 그룹은 하나의 원래의 서브대역과 동일하거나 2개 이상의 인접한 원래의 서브대역들의 조합이고, 후속하는 서브대역 그룹의 대역폭은 현재 서브대역 그룹의 대역폭보다 크거나 동일하며, 원래의 서브대역들의 수는 미리 정해지고, 상기 장치는:
-
Figure 112017030815829-pct00021
을 나타내는 고정된 비트 수에 의해 서브대역 그룹들의 수(
Figure 112017030815829-pct00022
)를 코딩하도록 구성된 수단;
-
Figure 112017030815829-pct00023
인 경우에, 제1 서브대역 그룹(
Figure 112017030815829-pct00024
)에 대해,
Figure 112017030815829-pct00025
을 나타내는 단항 코드로 대역폭 값(
Figure 112017030815829-pct00026
)을 코딩하도록 구성된 수단;
-
Figure 112017030815829-pct00027
인 경우에, 상기 제1 서브대역 그룹(
Figure 112017030815829-pct00028
)에 대해 상기 대역폭 값(
Figure 112017030815829-pct00029
)을 코딩하는 것에 부가하여, 서브대역 그룹(
Figure 112017030815829-pct00030
)에 대해, 고정된 비트 수에 의해 대역폭 차이값(
Figure 112017030815829-pct00031
)을 코딩하도록 구성된 수단;
-
Figure 112017030815829-pct00032
인 경우에, 상기 제1 서브대역 그룹(
Figure 112017030815829-pct00033
)에 대해 상기 대역폭 값(
Figure 112017030815829-pct00034
)을 코딩하는 것에 부가하여, 서브대역 그룹들(
Figure 112017030815829-pct00035
)에 대해, 단항 코드로 대응하는 수의 대역폭 차이값들(
Figure 112017030815829-pct00036
)을 코딩하고, 서브대역 그룹(
Figure 112017030815829-pct00037
)에 대해, 고정된 비트 수에 의해 대역폭 차이값(
Figure 112017030815829-pct00038
)을 코딩하도록 구성된 수단을 포함하고, 서브대역 그룹에 대한 대역폭 값은 인접한 원래의 서브대역들의 수로서 표현되며,
서브대역(
Figure 112017030815829-pct00039
)에 대해, 대응하는 값이 상기 코딩된 서브대역 구성 데이터에 포함되지 않는다.
원칙적으로, 본 발명의 디코딩 방법은 코딩된 오디오 신호의 하나 이상의 프레임들에 대해 유효한 서브대역 그룹들에 대한 코딩된 서브대역 구성 데이터를 디코딩하는데 적합하고, 그 서브대역 구성 데이터는 상기 코딩 방법에 따라 코딩되었고, 상기 서브대역 그룹들의 수 및 상기 제1 서브대역 그룹에 대한 상기 코딩된 대역폭 값 및 가능하면 하나 이상의 코딩된 대역폭 차이값의 시퀀스로서 배열되었던 데이터이고,
각각의 서브대역 그룹은 하나의 원래의 서브대역과 동일하거나 2개 이상의 인접한 원래의 서브대역들의 조합이고, 후속하는 서브대역 그룹의 대역폭은 현재 서브대역 그룹의 대역폭보다 크거나 동일하고, 원래의 서브대역들의 수(
Figure 112017030815829-pct00040
)는 미리 정해지고, 상기 방법은:
- 서브대역 그룹들의 수신된 코딩된 수의 디코딩된 버전에 '1'을 가산함으로써 서브대역 그룹들의 수(
Figure 112017030815829-pct00041
)를 결정하는 단계;
- 제1 서브대역 그룹(
Figure 112017030815829-pct00042
)에 대해, 대응하는 수신된 코딩된 대역폭 값의 디코딩된 버전에 '1'을 가산함으로써 대역폭 값(
Figure 112017030815829-pct00043
)을 결정하는 단계;
-
Figure 112017030815829-pct00044
인 경우에, 상기 제1 서브대역 그룹(
Figure 112017030815829-pct00045
)에 대해 상기 대역폭 값(
Figure 112017030815829-pct00046
)을 결정하는 단계에 부가하여, 대역폭 차이값(
Figure 112017030815829-pct00047
)의 수신된 코딩된 버전으로부터 서브대역 그룹(
Figure 112017030815829-pct00048
)에 대해, 대역폭 값(
Figure 112017030815829-pct00049
)을 디코딩하는 단계;
-
Figure 112017030815829-pct00050
인 경우에, 상기 제1 서브대역 그룹(
Figure 112017030815829-pct00051
)에 대해 상기 대역폭 값(
Figure 112017030815829-pct00052
)을 결정하는 단계에 부가하여, 대역폭 차이값들(
Figure 112017030815829-pct00053
)의 수신된 코딩된 버전으로부터 서브대역 그룹들(
Figure 112017030815829-pct00054
)에 대해, 대역폭 값들(
Figure 112017030815829-pct00055
)을 디코딩하고, 대역폭 차이값(
Figure 112017030815829-pct00056
)의 수신된 코딩된 버전으로부터 서브대역 그룹(
Figure 112017030815829-pct00057
)에 대해 대역폭 값(
Figure 112017030815829-pct00058
)을 디코딩하는 단계;
-
Figure 112017030815829-pct00059
로부터 대역폭들(
Figure 112017030815829-pct00060
내지
Figure 112017030815829-pct00061
)을 감산함으로써 서브대역(
Figure 112017030815829-pct00062
)에 대한 대역폭 값(
Figure 112017030815829-pct00063
)을 결정하는 단계를 포함하고,
서브대역 그룹에 대한 대역폭 값은 인접한 원래의 서브대역들의 수로서 표현된다.
원칙적으로, 본 발명의 디코딩 장치는 코딩된 오디오 신호의 하나 이상의 프레임들에 대해 유효한 서브대역 그룹들에 대한 코딩된 서브대역 구성 데이터를 디코딩하는데 적합하고, 그 서브대역 구성 데이터는 상기 코딩 방법에 따라 코딩되었고, 상기 서브대역 그룹들의 수 및 상기 제1 서브대역 그룹에 대한 상기 코딩된 대역폭 값 및 가능하면 하나 이상의 코딩된 대역폭 차이값의 시퀀스로서 배열되었던 데이터이고,
각각의 서브대역 그룹은 하나의 원래의 서브대역과 동일하거나 2개 이상의 인접한 원래의 서브대역들의 조합이고, 후속하는 서브대역 그룹의 대역폭은 현재 서브대역 그룹의 대역폭보다 크거나 동일하고, 원래의 서브대역들의 수(
Figure 112017030815829-pct00064
)는 미리 정해지고, 상기 장치는:
- 서브대역 그룹들의 수신된 코딩된 수의 디코딩된 버전에 '1'을 가산함으로써 서브대역 그룹들의 수(
Figure 112017030815829-pct00065
)를 결정하도록 구성된 수단;
- 제1 서브대역 그룹(
Figure 112017030815829-pct00066
)에 대해, 대응하는 수신된 코딩된 대역폭 값의 디코딩된 버전에 '1'을 가산함으로써 대역폭 값(
Figure 112017030815829-pct00067
)을 결정하도록 구성된 수단;
-
Figure 112017030815829-pct00068
인 경우에, 상기 제1 서브대역 그룹(
Figure 112017030815829-pct00069
)에 대해 상기 대역폭 값(
Figure 112017030815829-pct00070
)을 결정하는 것에 부가하여, 대역폭 차이값(
Figure 112017030815829-pct00071
)의 수신된 코딩된 버전으로부터 서브대역 그룹(
Figure 112017030815829-pct00072
)에 대해, 대역폭 값(
Figure 112017030815829-pct00073
)을 디코딩하도록 구성된 수단;
-
Figure 112017030815829-pct00074
인 경우에, 상기 제1 서브대역 그룹(
Figure 112017030815829-pct00075
)에 대해 상기 대역폭 값(
Figure 112017030815829-pct00076
)을 결정하는 것에 부가하여, 대역폭 차이값들(
Figure 112017030815829-pct00077
)의 수신된 코딩된 버전으로부터 서브대역 그룹들(
Figure 112017030815829-pct00078
)에 대해, 대역폭 값들(
Figure 112017030815829-pct00079
)을 디코딩하고, 대역폭 차이값(
Figure 112017030815829-pct00080
)의 수신된 코딩된 버전으로부터 서브대역 그룹(
Figure 112017030815829-pct00081
)에 대해 대역폭 값(
Figure 112017030815829-pct00082
)을 디코딩하도록 구성된 수단;
-
Figure 112017030815829-pct00083
로부터 대역폭들(
Figure 112017030815829-pct00084
내지
Figure 112017030815829-pct00085
)을 감산함으로써 서브대역(
Figure 112017030815829-pct00086
)에 대한 대역폭 값(
Figure 112017030815829-pct00087
)을 결정하도록 구성된 수단을 포함하고,
서브대역 그룹에 대한 대역폭 값은 인접한 원래의 서브대역들의 수로서 표현된다.
본 발명의 예시적인 실시예들이 첨부한 도면들을 참조하여 설명된다.
도 1은
Figure 112017030815829-pct00088
개의 원래의 서브대역들에 대한 서브대역 그룹들 및
Figure 112017030815829-pct00089
개의 서브대역 그룹들의 예시적인 프로세싱이다.
도 2는 제1 서브대역 그룹(
Figure 112017030815829-pct00090
)의 대역폭에 대한 히스토그램이다.
도 3은
Figure 112017030815829-pct00091
에 대한 대역폭 차이들(
Figure 112017030815829-pct00092
)에 대한 히스토그램이다.
도 4는 최종 전송된 서브대역 그룹 대역폭 차이들(
Figure 112017030815829-pct00093
)에 대한 히스토그램이다.
도 5는 상이한 수의 서브대역들에 대한 서브대역 구성 데이터의 송신을 위해 요구되는 비트 수이다.
도 6은 예시적인 인코더 블록도이다.
도 7은 예시적인 디코더 블록도이다.
명시적으로 설명되지 않더라도, 아래의 실시예들은 임의의 조합 또는 서브-조합으로 이용될 수 있다.
도 1은 8개의 서브대역들을 갖는 원래의 분석 필터 뱅크(11) 및 프로세싱을 위한 3개의 서브대역 그룹 블록들(12 내지 14)(
Figure 112017030815829-pct00094
)의 사용을 포함하는 예시적인 서브대역 프로세싱을 도시한다.
Figure 112017030815829-pct00095
은 이산 시간 샘플 인덱스(
Figure 112017030815829-pct00096
)를 갖는 오디오 입력 신호를 나타낸다.
Figure 112017030815829-pct00097
은 오디오 입력 신호의 샘플링 레이트와 비교하여 감소된 샘플링 레이트에서 일반적으로 정의되는 샘플 인덱스(
Figure 112017030815829-pct00098
)를 갖는 서브대역 신호들이다. 각각의 서브대역 그룹(12 내지 14) 내에서, 서브대역 신호들은 동일한 파라미터들을 사용하여 프로세싱된다. 그 후, 프로세싱된 서브대역 신호들(
Figure 112017030815829-pct00099
)은 원래의 샘플링 레이트에서 광대역 출력 오디오 신호(
Figure 112017030815829-pct00100
)를 재구성하는 합성 필터 뱅크(15)에 공급된다.
본 발명은 서브대역 그룹들의 수 및 서브대역 그룹들에 대한 원래의 서브대역 그룹들의 매핑을 포함하는 서브대역 구성들의 효율적인 코딩을 다룬다. 오디오 인코더가 상이한 서브대역 구성들(즉, 상이한 수의 서브대역들 및 이들 서브대역들의 상이한 대역폭들)로 동작할 수 있는 경우에, 이들 서브대역 구성들은 오디오 디코더측에 전송되거나 송신된다.
다른 실시예에서, 서브대역 구성은 시간을 통해(예를 들어, 오디오 입력 신호의 분석에 의존하여) 변화한다.
모두의 경우에서, 인코더 및 디코더 모두가 동일한 서브대역 구성을 사용한다는 것이 보장되어야 한다. 스트리밍 포맷들에 대해, 이러한 종류의 정보는 디코딩이 시작될 수 있는 각각의 스트리밍 블록의 시작에서 전송된다.
인코더에서 원래의 분석 필터 뱅크(11)의 구성 및 동작 모드(예를 들어, QMF)가 고정되고 디코더에 알려져 있다는 것이 가정된다. 분석 필터 뱅크(11)의 서브대역들의 수는
Figure 112017030815829-pct00101
로 표기되며 디코더측에 전송될 필요가 없다. 오디오 프로세싱을 위해 사용된 조합된 서브대역들 또는 서브대역 그룹들의 수는
Figure 112017030815829-pct00102
로 표기된다. 이들 조합된 서브대역들 또는 서브대역 그룹들에 대해 사용된 인덱스는
Figure 112017030815829-pct00103
이다.
Figure 112017030815829-pct00104
번째 서브대역 그룹이 분석 필터 뱅크(11)의 서브대역 인덱스들을 포함할 수 있는 데이터 세트(
Figure 112017030815829-pct00105
)에 의해 정의된다. 예를 들어, (도 1 비교):
Figure 112017030815829-pct00106
(1)
모든 서브대역 그룹들이 0 Hz로부터 나이퀴스트 주파수까지의 주파수 범위에서 원래의 필터 뱅크(11)의 모든 서브대역들을 커버한다는 것이 가정된다. 따라서, 서브대역 그룹들은 서브대역 그룹당 원래의 필터 뱅크의 수로 표현된 그들의 대역폭들에 의해 충분히 설명된다. 대역폭들에 대한 이들 수들은
Figure 112017030815829-pct00107
에 의해 표기되며, 이들 대역폭들의 합은 원래의 필터 뱅크(11)의 대역들의 수와 동일하다:
Figure 112017030815829-pct00108
. (2)
디코더측으로 전송될 필요가 있는 값들은:
Figure 112017030815829-pct00109
서브대역 그룹들의 수(
Figure 112017030815829-pct00110
);
Figure 112017030815829-pct00111
Figure 112017030815829-pct00112
에 대해 서브대역 그룹들의 대역폭들(
Figure 112017030815829-pct00113
)이고,
이에 의해, 최종 서브대역 그룹의 대역폭은 가정을 커버하는 상기 완벽한 주파수 범위로 인해 전송될 필요가 없다.
이들 값들의 조합을 서브대역 구성 데이터라 칭한다.
수학식 (2)를 사용하여, 최종 서브대역 그룹의 대역폭은
Figure 112017030815829-pct00114
(3)
에 의해 다른 대역폭으로부터 계산될 수 있다.
코딩의 일 방식으로, 서브대역 구성은 다음과 같을 수 있다:
Figure 112017030815829-pct00115
사용된 서브대역 그룹들의 수(
Figure 112017030815829-pct00116
)는 고정된 비트 수(
Figure 112017030815829-pct00117
)에 의해 코딩된다. 이러한 비트 수를 결정하기 위해, 서브대역들의 최대 수가 정의된다. 예로서,
Figure 112017030815829-pct00118
개의 비트들이 코딩을 위해 사용될 수 있다(
Figure 112017030815829-pct00119
).
Figure 112017030815829-pct00120
그룹들(
Figure 112017030815829-pct00121
)에 대한 대역폭들(
Figure 112017030815829-pct00122
)은 각각
Figure 112017030815829-pct00123
비트들로 코딩된다. 각각의 서브대역 그룹의 최대 대역폭은
Figure 112017030815829-pct00124
이고, 대역폭의 코딩은 각각의 서브대역 그룹에 대해
Figure 112017030815829-pct00125
비트들을 요구한다.
Figure 112017030815829-pct00126
,
Figure 112017030815829-pct00127
, 및
Figure 112017030815829-pct00128
를 갖는 일례로서, 이러한 접근방식은 서브대역 구성 데이터를 전송하기 위해
Figure 112017030815829-pct00129
비트들을 요구한다.
바람직하게는, 서브대역 구성을 전송하기 위해 요구되는 비트 수는 아래의 개선된 프로세싱을 사용함으로써 감소될 수 있다. 이는
Figure 112017030815829-pct00130
에 대해 3개의 통상의 서브대역 구성들을 설명하는 2 비트들로 코딩된 값(
Figure 112017030815829-pct00131
)을 사용한다.
Figure 112017030815829-pct00132
에 대해, 서브대역 구성 데이터의 적응 코딩이 사용된다. 3개의 미리 정해진 서브대역 구성들에 대해, 아래의 값들이 선택된다:
Figure 112017030815829-pct00133
서브대역 그룹들의 수;
Figure 112017030815829-pct00134
각각의 서브대역 그룹에 대해, 이러한 서브대역 그룹의 대역폭들.
표 1은 2-비트 값으로 인코딩된
Figure 112017030815829-pct00135
에 대한 필터 뱅크 서브대역 구성들의 예를 도시한다.
Figure 112017030815829-pct00136
대신에,
Figure 112017030815829-pct00137
또는
Figure 112017030815829-pct00138
가 사용될 수 있다.
Figure 112017030815829-pct00139
를 갖는 구성들이 인코더 및 디코더 모두에서 동일한 방식으로 정의된다.
Figure 112017030815829-pct00140
에 대한 제로 값이, 후술하는 구성 데이터 프로세싱이 전혀 사용되지 않는다는 것을 나타내기 위해 또한 사용될 수 있다. 이러한 방식으로, 대응하는 코딩 툴이 디스에이블될 수 있다.
[표 1]
Figure 112017030815829-pct00141
통상의 서브대역 구성들에 적응된 대역폭 코딩
Figure 112017030815829-pct00142
Figure 112017030815829-pct00143
문헌들과 관련하여 상기 언급한 바와 같이, 인간의 청각의 특성들을 어림하는 주파수 축에 대해 상이한 스케일들(예를 들어, Bark 스케일)이 존재한다. 이들 주파수 스케일들은 주파수의 증가에 따라 서브대역 폭들을 증가시키는 특성을 공유하여, 더 낮은 주파수들에서, 더 양호한 주파수 분해능이 획득된다. 서브대역 폭들은 대역폭 차이들을 전송함으로써 코딩될 수 있다.
Figure 112017030815829-pct00144
(4)
그 후, 고려된 서브대역 특성들에 대해, 이들 대역폭 차이들은 항상 넌-네거티브(non-negative)이다.
따라서, 서브대역 구성은:
Figure 112017030815829-pct00145
사용된 서브대역 그룹들의 수(
Figure 112017030815829-pct00146
);
Figure 112017030815829-pct00147
제1 서브대역 그룹(
Figure 112017030815829-pct00148
)에 대한 대역폭(
Figure 112017030815829-pct00149
);
Figure 112017030815829-pct00150
서브대역 그룹들(
Figure 112017030815829-pct00151
)에 대한 대역폭 차이들(
Figure 112017030815829-pct00152
)에 의해 또한 정의될 수 있다.
대역폭 차이들로부터, 서브대역 그룹들(
Figure 112017030815829-pct00153
)에 대한 대역폭들(
Figure 112017030815829-pct00154
)은 예를 들어, 라인(
Figure 112017030815829-pct00155
)에 후속하는 표 4에 나타낸 바와 같이, 재구성될 수 있다.
최종 서브대역 그룹 대역폭(
Figure 112017030815829-pct00156
)은 수학식 (3)을 사용함으로써 재구성될 수 있다.
통상의 서브대역 그룹 폭들의 통계적 분석
서브대역 그룹 대역폭들 및 대역폭 차이들의 통계적 분석을 위해,
Figure 112017030815829-pct00157
개 서브대역들 및 Bark 스케일을 어림하는
Figure 112017030815829-pct00158
개의 서브대역 그룹들을 갖는 QMF 필터 뱅크에 대한 예시적인 서브대역 구성들이 분석된다. 서브대역 그룹들은
Figure 112017030815829-pct00159
(5)
Figure 112017030815829-pct00160
(6)
에 의해 제공되는, Bark 단위의
Figure 112017030815829-pct00161
와 Hz 단위의
Figure 112017030815829-pct00162
사이에서 상기 언급한
Figure 112017030815829-pct00163
문헌에서 정의된 변환에 기초하여 정의되었다.
더욱 상세하게는, 서브대역 그룹들은:
Figure 112017030815829-pct00164
원하는 서브대역 그룹들의 수에 대해 Bark 스케일상에 동일하게 이격된 대역 에지들을 생성하고;
Figure 112017030815829-pct00165
이들 값들을 주파수 스케일로 다시 변환하고(이 변환된 값들은 서브대역 그룹들의 원하는 대역 에지들임);
Figure 112017030815829-pct00166
원하는 서브대역들 내부에 있는 원래의 QMF 서브대역들의 중심 주파수들을 찾고;
Figure 112017030815829-pct00167
서브대역 그룹들의 증가하는 대역폭들을 달성하기 위해 일부 사후 프로세싱을 행함으로써 획득된다.
서브대역 그룹들의 수에 의존하여, 서브대역 그룹들의 결과적인 대역폭들이 표 2에 제공된다:
Figure 112017030815829-pct00168
대역폭(
Figure 112017030815829-pct00169
)은, 64개의 서브대역들의 총 대역폭까지 가산한 나머지 대역폭이기 때문에 표 2에서 생략된다.
도 2는 코딩될 제1 서브대역(
Figure 112017030815829-pct00170
)의 서브대역 그룹 대역폭 차이들의 표 2로부터 유도된 히스토그램을 도시한다.
Figure 112017030815829-pct00171
에 대한 '5'의 단일 대역폭 차이값, 및
Figure 112017030815829-pct00172
Figure 112017030815829-pct00173
에 대한 '2'의 2개의 대역폭 차이값들이 존재한다. 모든 다른 대역폭 차이값들은 '1'이다. 도 2는 작은 값들이 더 큰 값들보다 훨씬 더 빈번하게 발생하기 때문에 단항 코드가 코딩에 매우 적합하다는 것을 나타낸다. 단항 코드로, 넌-네거티브 정수값(
Figure 112017030815829-pct00174
)이 하나의 '0' 스탑-비트가 후속하는
Figure 112017030815829-pct00175
개의 '1' 비트들에 의해 인코딩된다.
도 3은 서브대역 그룹들(
Figure 112017030815829-pct00176
)에 대한 대역폭 차이들(
Figure 112017030815829-pct00177
)의 히스토그램을 표 2에 기초하여 도시하고, 이는 단항 코드와의 코딩에 매우 적합한 분포를 다시 도시한다.
도 4에서, 최종 전송된 서브대역 그룹 대역폭 차이들(
Figure 112017030815829-pct00178
)의 표 2에 기초한 히스토그램이 도시되어 있다. 이러한 대역폭 차이가 이전의 서브대역 그룹들에 대한 것보다 일반적으로 더 높기 때문에, 이러한 값은
Figure 112017030815829-pct00179
라 칭하는 고정된 비트 수에 의헤 코딩될 수 있다. 고려되는 경우에서,
Figure 112017030815829-pct00180
개의 비트들의 폭이 충분하다.
상기 언급한 바와 같이, 최종 서브대역 그룹(
Figure 112017030815829-pct00181
)에 대해, 전송될 필요가 있는 대역폭 차이(
Figure 112017030815829-pct00182
)는 없다.
개선된 코딩 프로세싱
통계적 분석에 기초하여, 아래의 개선된 코딩 프로세싱이 수행된다:
Figure 112017030815829-pct00183
서브대역 그룹들의 수의 코딩:
Figure 112017030815829-pct00184
(7)
이 고정된 비트 수(
Figure 112017030815829-pct00185
)에 의해 코딩된다;
Figure 112017030815829-pct00186
서브대역 그룹들의 수(
Figure 112017030815829-pct00187
)가 하나인 경우에, 이러한 경우는 광대역 프로세싱과 동일하기 때문에 그밖에 다른 것은 전송되지 않는다;
Figure 112017030815829-pct00188
제1 서브대역 그룹의 대역폭 값(
Figure 112017030815829-pct00189
)의 코딩.
Figure 112017030815829-pct00190
이기 때문에,
Figure 112017030815829-pct00191
(8)
이 단항 코드로 코딩된다;
Figure 112017030815829-pct00192
아래의 대역폭 값들은
Figure 112017030815829-pct00193
인 경우에만 전송될 필요가 있다:
- 서브대역 그룹들(
Figure 112017030815829-pct00194
): 대역폭 차이값들(
Figure 112017030815829-pct00195
)은 단항 코드로 각각 코딩된다;
- 서브대역 그룹(
Figure 112017030815829-pct00196
): 대역폭 차이값(
Figure 112017030815829-pct00197
)은 고정된 비트 수(
Figure 112017030815829-pct00198
)에 의해 코딩된다;
- 서브대역 그룹(
Figure 112017030815829-pct00199
): 값 또는 코딩된 값은 전송되지 않는다.
코딩 방식 비트스트림 신택스가 서브대역 구성 데이터의 전송을 위한 의사-코드로서 표 3에 도시되어 있다. 볼드체의 데이터는 비트스트림에 기입되고, 서브대역 구성 데이터 블록(
Figure 112017030815829-pct00200
)을 나타낸다:
[표 3]
Figure 112017030815829-pct00201
발명자들은,
Figure 112017030815829-pct00202
에 대해, 충분한 비트 폭들(즉, 워드 길이들)이
Figure 112017030815829-pct00203
Figure 112017030815829-pct00204
이라는 것을 발견하였다.
표 4는 디코더측에서 수신된 비트스트림으로부터의 이들 데이터를 판독함으로써(볼드체의 데이터가 비트스트림으로부터 판독됨), 전송된 서브대역 구성 데이터의 디코딩, 및 대역폭 값들(
Figure 112017030815829-pct00205
)의 재구성을 도시한다.
[표 4]
Figure 112017030815829-pct00206
모든 서브대역 그룹들에 대한 재구성된 대역폭 값들(
Figure 112017030815829-pct00207
)로부터의 서브대역 인덱스 세트(
Figure 112017030815829-pct00208
)의 재구성은 표 5에 의사 코드로 도시되어 있다:
Figure 112017030815829-pct00209
개선된 코딩 프로세싱에 대한 결과들
서브대역 구성들을 코딩하는 요구되는 비트 수는
Figure 112017030815829-pct00210
개의 서브대역들 및 표 2에 제공된 구성들을 갖는
Figure 112017030815829-pct00211
개의 서브대역 그룹들을 갖는 QMF 필터 뱅크에 대해 시뮬레이션된다. 도 5는 서브대역 그룹들의 고려된 수들에 대해, 서브대역 구성을 코딩하는 상이한 방식들에 대한 결과적인 비트 수를 도시한다. 개선된 코딩 프로세싱에 대한 결과는 원들로서 도시되며, 2개의 대안의 접근방식들: (정사각형들로 도시된) 각각 3 비트들의 고정된 수와 대역폭 차이들의 코딩 및 (플러스 부호들로 도시된) 각각 6 비트들의 고정된 수와 대역폭들의 코딩과 비교된다.
수학식 (3)에 후속하는 단락에서 총 23 비트들의 예와 비교하여, 개선된 프로세싱은 12 비트들만을 요구한다.
개선된 서브대역 구성 코딩 프로세싱은 대안의 접근방식보다 명확히 성능이 우수하다.
대응하는 인코딩된 서브대역 구성 데이터의 생성을 포함하는 예시적인 인코더가 도 6에 도시되어 있으며, 인코딩된 서브대역 구성 데이터에 대한 디코더를 포함하는 대응하는 디코더가 도 7에 도시되어 있다. 이들 도면들에서, 실선들은 신호들을 나타내고, 점선들은 사이드 정보 데이터를 나타낸다. 인덱스(
Figure 112017030815829-pct00212
)는 시간을 통한 프레임 인덱스를 나타내고, 입력 신호(
Figure 112017030815829-pct00213
)는 현재 프레임(
Figure 112017030815829-pct00214
)의 샘플들을 포함하는 벡터이다.
도 6에서, 오디오 입력 신호(
Figure 112017030815829-pct00215
)는 분석 필터 뱅크 스텝 또는 스테이지(61)에 공급되고, 이로부터, 프레임 인덱스(
Figure 112017030815829-pct00216
) 및 서브대역 인덱스(
Figure 112017030815829-pct00217
)를 갖는
Figure 112017030815829-pct00218
로서 벡터 표기로 표기되는
Figure 112017030815829-pct00219
서브대역 신호들이 획득된다. 분석 필터 뱅크(61)가 서브대역 신호들의 다운샘플링을 적용하는 경우에, 서브대역 신호 벡터들의 길이는 입력 신호 벡터의 길이보다 작다. 스텝 또는 스테이지(63)에서, 원하는 서브대역 구성이 (예를 들어, 입력 신호(
Figure 112017030815829-pct00220
)의 현재 음향 심리학적 특성들에 기초하여) 정의되고, 대응하는 값들(
Figure 112017030815829-pct00221
Figure 112017030815829-pct00222
)이 서브대역 그룹핑 스텝 또는 스테이지(62) 및 서브대역 구성 데이터 인코딩 스텝 또는 스테이지(64)에 출력된다. 선택된 서브대역 구성에 따라, 서브대역 신호들의 그룹핑은 서브대역 그룹핑 스텝/스테이지(62)에서 수행된다.
Figure 112017030815829-pct00223
번째 그룹은
Figure 112017030815829-pct00224
를 갖는 모든 서브대역들을 포함한다. 예를 들어, 제1 서브대역 그룹은 서브대역 신호들(
Figure 112017030815829-pct00225
)을 포함하고, 가장 높은 서브대역 그룹에서의 가장 높은 서브대역 신호는
Figure 112017030815829-pct00226
이다. 각각의 서브대역 그룹에 대해, 프로세싱되고 양자화된 서브대역 신호들(
Figure 112017030815829-pct00227
) 및 대응하는 사이드 정보(
Figure 112017030815829-pct00228
)가 대응하는 인코더 프로세싱 스텝들 또는 스테이지들(65(그룹(
Figure 112017030815829-pct00229
)), 66(그룹(
Figure 112017030815829-pct00230
)), ..., 67(그룹(
Figure 112017030815829-pct00231
))에서 계산된다. 상술한 바와 같은 스텝/스테이지(64)에서 인코딩된 인코딩된 서브대역 구성 데이터(
Figure 112017030815829-pct00232
), 프로세싱된 서브대역 신호들(
Figure 112017030815829-pct00233
), 및 서브대역 그룹당 대응하는 사이드 정보 데이터(
Figure 112017030815829-pct00234
)가 대응하는 디코더에 전송될 수 있는 비트스트림으로 멀티플렉서 스텝 또는 스테이지(68)에서 멀티플렉싱된다. 코딩된 서브대역 구성 데이터는 프레임 마다에 대해서가 아니라, 디코딩이 시작될 수 있거나 서브대역 구성이 변하는 프레임들에 대해서만 전송될 필요가 있다.
도 7의 디코더에서, 수신된 비트스트림으로부터의 데이터는 디멀티플렉서 스텝 또는 스테이지(71)에서 인코딩된 서브대역 구성 데이터(
Figure 112017030815829-pct00235
), 프로세싱된 서브대역 신호들(
Figure 112017030815829-pct00236
), 및 서브대역 그룹당 대응하는 사이드 정보 데이터(
Figure 112017030815829-pct00237
)로 디멀티플렉싱된다. 인코딩된 서브대역 구성 데이터는 상술한 바와 같이 스텝 또는 스테이지(73)에서 디코딩되고, 대응하는 값들(
Figure 112017030815829-pct00238
Figure 112017030815829-pct00239
)을 발생시킨다. 이러한 디코딩된 서브대역 구성 데이터를 사용하여, 전송된 서브대역 신호들 및 서브대역 그룹 사이드 정보의 서브대역 그룹들에 대한 할당이, 예를 들어, 그룹(
Figure 112017030815829-pct00240
)에 대해,
Figure 112017030815829-pct00241
Figure 112017030815829-pct00242
를 출력하는 스텝 또는 스테이지(72)에서 수행된다. 따라서, 모든 서브대역 그룹들의 디코더 프로세싱이 각각의 서브대역 그룹에 대해 대응하는 사이드 정보를 사용함으로써 디코더들(74, 75, ..., 76)에서 수행된다. 예를 들어, 제1 출력 서브대역 그룹은 서브대역 신호들(
Figure 112017030815829-pct00243
)을 포함하고, 가장 높은 서브대역 그룹에서의 가장 높은 서브대역 신호는
Figure 112017030815829-pct00244
이다. 최종으로, 합성 필터 뱅크 스텝 또는 스테이지(77)가 디코딩된 오디오 신호(
Figure 112017030815829-pct00245
)를 재구성한다.
다른 실시예에서, 원래의 서브대역들은 동일한 폭들을 갖지 않는다. 추가로, '2'의 제곱인 원래의 서브대역들의 수를 갖는 대신에, 원래의 서브대역들의 임의의 다른 정수들이 사용될 수 있다. 모두의 경우들에서, 설명한 프로세싱은 대응하는 방식으로 사용될 수 있다.
추가의 실시예에서, 압축된 오디오 신호는 오디오 신호, 예를 들어, 상위 차수의 앰비소닉스(Ambisonics) 오디오 신호의 직접 신호 부분들 및 주변 신호 부분들 또는 임의의 다른 3D 오디오 신호, 또는 멀티-채널 오디오 신호의 상이한 채널들을 코딩하기 위해 사용된 상이한 코딩 툴들을 적용하는 역할을 하는 상술한 바와 같이 인코딩된 상이한 서브대역 구성 데이터의 다중 세트들을 포함한다.
추가의 실시예에서, 프로세싱된 서브대역 신호들(
Figure 112017030815829-pct00246
)은 디코더측으로 전송될 수 없지만, 디코더측에서, 서브대역 신호들은 다른 전송된 신호로부터 분석 필터 뱅크에 의해 계산된다. 그 후, 서브대역 그룹 사이드 정보(
Figure 112017030815829-pct00247
)는 추가의 프로세싱을 위해 디코더에서 사용된다.
설명한 프로세싱은 단일 프로세서 또는 전자 회로에 의해, 또는 병렬로 동작하며 그리고/또는 완벽한 프로세싱의 상이한 부분들에 대해 동작하는 여러 프로세서들 또는 전자 회로들에 의해 수행될 수 있다.
설명한 프로세싱에 따라 프로세서 또는 프로세서들을 동작시키는 명령어들은 하나 이상의 메모리들에 저장될 수 있다. 적어도 하나의 프로세서가 이들 명령어들을 수행하도록 구성된다.

Claims (12)

  1. 오디오 신호의 하나 이상의 프레임들에 대해 오디오 서브대역 그룹들
    Figure 112020086495963-pct00379
    에 대한 오디오 서브대역 구성 데이터
    Figure 112020086495963-pct00380
    를 코딩하기 위한 방법을 수행하기 위해 하나 이상의 프로세서를 제어하기 위한 명령어들이 저장되어 있는 비-일시적 매체로서, 상기 방법은:
    Figure 112020086495963-pct00381
    을 나타내는 고정된 비트 수
    Figure 112020086495963-pct00382
    에 의해 오디오 서브대역 그룹들의 수(
    Figure 112020086495963-pct00383
    )를 코딩하는 단계;
    Figure 112020086495963-pct00384
    라는 결정에 기초하여, 제1 오디오 서브대역 그룹(
    Figure 112020086495963-pct00385
    )에 대해,
    Figure 112020086495963-pct00386
    을 나타내는 단항 코드로 대역폭 값(
    Figure 112020086495963-pct00387
    )을 코딩하는 단계;
    Figure 112020086495963-pct00388
    이라는 결정에 기초하여, 오디오 서브대역 그룹(
    Figure 112020086495963-pct00389
    )에 대해, 고정된 비트 수
    Figure 112020086495963-pct00390
    에 의해 대역폭 차이값(
    Figure 112020086495963-pct00391
    )을 코딩하는 단계;
    Figure 112020086495963-pct00392
    이라는 결정에 기초하여, 오디오 서브대역 그룹들(
    Figure 112020086495963-pct00393
    )에 대해, 단항 코드에 대응하는 수의 대역폭 차이값들(
    Figure 112020086495963-pct00394
    )을 코딩하고, 오디오 서브대역 그룹(
    Figure 112020086495963-pct00395
    )에 대해, 고정된 비트 수
    Figure 112020086495963-pct00396
    에 의해 대역폭 차이값(
    Figure 112020086495963-pct00397
    )을 코딩하는 단계
    를 포함하고,
    오디오 서브대역 그룹에 대한 대역폭 값은 인접한 원래의 오디오 서브대역들의 수에 기초하며,
    오디오 서브대역(
    Figure 112020086495963-pct00398
    )이라는 결정에 기초하여, 대응하는 값이 상기 코딩된 오디오 서브대역 구성 데이터에 포함되지 않는, 비-일시적 매체.
  2. 제1항에 있어서,
    오디오 서브대역 구성 데이터 블록
    Figure 112020086495963-pct00399
    은:
    오디오 서브대역 그룹들의 수 및 관련 오디오 서브대역 그룹 폭들의 제1 조합이 상기 오디오 서브대역 구성 데이터를 나타내는지, 또는
    오디오 서브대역 그룹들의 수 및 관련 오디오 서브대역 그룹 폭들의 상이한 제2 조합이 상기 오디오 서브대역 구성 데이터를 나타내는지, 또는
    오디오 서브대역 그룹들의 수 및 관련 오디오 서브대역 그룹 폭들의 추가의 조합들이 상기 오디오 서브대역 구성 데이터를 나타내는지, 또는
    오디오 서브대역 구성 데이터가 제1항의 방법에 따라 코딩되는지
    를 결정하는 구성값
    Figure 112020086495963-pct00400
    을 포함하고,
    Figure 112020086495963-pct00401
    이라는 결정에 기초하여, 오디오 서브대역 구성 데이터가 생성되지 않는, 비-일시적 매체.
  3. 제1항의 방법에 따라 인코딩된 오디오 서브대역 구성 데이터를 포함하는 디지털 압축 오디오 신호를 저장한 비-일시적 저장 매체.
  4. 제1항의 방법에 따라 인코딩된 상이한 오디오 서브대역 구성 데이터의 다중 세트를 포함하는 디지털 압축 오디오 신호를 저장한 비-일시적 저장 매체.
  5. 오디오 서브대역 그룹들
    Figure 112020086495963-pct00402
    에 대한 오디오 서브대역 구성 데이터
    Figure 112020086495963-pct00403
    를 코딩하는 장치로서,
    적어도 하나 이상의 프로세서; 및
    Figure 112020086495963-pct00404
    을 나타내는 고정된 비트 수
    Figure 112020086495963-pct00405
    에 의해 오디오 서브대역 그룹들의 수(
    Figure 112020086495963-pct00406
    )를 코딩하도록 구성된 인코더
    를 포함하고, 상기 인코더는:
    Figure 112020086495963-pct00407
    라는 결정에 기초하여, 제1 오디오 서브대역 그룹(
    Figure 112020086495963-pct00408
    )에 대해,
    Figure 112020086495963-pct00409
    을 나타내는 단항 코드로 대역폭 값(
    Figure 112020086495963-pct00410
    )을 코딩하고;
    Figure 112020086495963-pct00411
    이라는 결정에 기초하여, 오디오 서브대역 그룹(
    Figure 112020086495963-pct00412
    )에 대해, 고정된 비트 수
    Figure 112020086495963-pct00413
    에 의해 대역폭 차이값(
    Figure 112020086495963-pct00414
    )을 코딩하고;
    Figure 112020086495963-pct00415
    이라는 결정에 기초하여, 오디오 서브대역 그룹들(
    Figure 112020086495963-pct00416
    )에 대해, 단항 코드로 대응하는 수의 대역폭 차이값들(
    Figure 112020086495963-pct00417
    )을 코딩하고, 오디오 서브대역 그룹(
    Figure 112020086495963-pct00418
    )에 대해, 고정된 비트 수
    Figure 112020086495963-pct00419
    에 의해 대역폭 차이값(
    Figure 112020086495963-pct00420
    )을 코딩하도록 추가로 구성되고,
    오디오 서브대역 그룹에 대한 대역폭 값은 인접한 원래의 오디오 서브대역들의 수에 기초하며,
    오디오 서브대역(
    Figure 112020086495963-pct00421
    )라는 결정에 기초하여, 대응하는 값이 상기 코딩된 오디오 서브대역 구성 데이터에 포함되지 않는, 장치.
  6. 제5항에 있어서,
    상기 인코더는:
    오디오 서브대역 그룹들의 수 및 관련 오디오 서브대역 그룹 폭들의 제1 조합이 상기 오디오 서브대역 구성 데이터를 나타내는지, 또는
    오디오 서브대역 그룹들의 수 및 관련 오디오 서브대역 그룹 폭들의 상이한 제2 조합이 상기 오디오 서브대역 구성 데이터를 나타내는지, 또는
    오디오 서브대역 그룹들의 수 및 관련 오디오 서브대역 그룹 폭들의 추가의 조합들이 상기 오디오 서브대역 구성 데이터를 나타내는지, 또는
    오디오 서브대역 구성 데이터가 제5항의 인코더 구성에 따라 코딩되는지
    를 결정하는 구성값
    Figure 112020086495963-pct00422
    을 포함하는 오디오 서브대역 구성 데이터 블록
    Figure 112020086495963-pct00423
    을 포함하도록 추가로 구성되고,
    Figure 112020086495963-pct00424
    이라는 결정에 기초하여, 오디오 서브대역 구성 데이터가 생성되지 않는, 장치.
  7. 코딩된 오디오 신호의 하나 이상의 프레임들에 대해 유효한 오디오 서브대역 그룹들
    Figure 112022109102911-pct00425
    에 대한 코딩된 오디오 서브대역 구성 데이터
    Figure 112022109102911-pct00426
    를 디코딩하는 방법을 수행하기 위해 하나 이상의 프로세서를 제어하기 위한 명령어들이 저장되어 있는 비-일시적 매체로서, 상기 방법은:
    오디오 서브대역 그룹들의 코딩된 수의 디코딩된 버전에 기초하여 오디오 서브대역 그룹들의 수(
    Figure 112022109102911-pct00427
    )를 결정하는 단계;
    제1 오디오 서브대역 그룹(
    Figure 112022109102911-pct00428
    )에 대해, 대응하는 코딩된 대역폭 값의 디코딩된 버전에 기초하여 대역폭 값(
    Figure 112022109102911-pct00429
    )을 결정하는 단계;
    그룹 g를 디코딩하는 단계;
    Figure 112022109102911-pct00430
    이라는 결정에 기초하여, 대역폭 차이값(
    Figure 112022109102911-pct00431
    )의 코딩된 버전으로부터 오디오 서브대역 그룹(
    Figure 112022109102911-pct00432
    )에 대해 대역폭 값(
    Figure 112022109102911-pct00433
    )을 디코딩하는 단계;
    Figure 112022109102911-pct00434
    이라는 결정에 기초하여, 대역폭 차이값들(
    Figure 112022109102911-pct00435
    )의 코딩된 버전으로부터 오디오 서브대역 그룹들(
    Figure 112022109102911-pct00436
    )에 대해 대역폭 값들(
    Figure 112022109102911-pct00437
    )을 디코딩하고, 대역폭 차이값(
    Figure 112022109102911-pct00438
    )의 코딩된 버전으로부터 오디오 서브대역 그룹(
    Figure 112022109102911-pct00439
    )에 대해 대역폭 값(
    Figure 112022109102911-pct00473
    )을 디코딩하는 단계;
    Figure 112022109102911-pct00441
    로부터 대역폭들(
    Figure 112022109102911-pct00442
    내지
    Figure 112022109102911-pct00443
    )을 감산함으로써 서브대역(
    Figure 112022109102911-pct00444
    )에 대한 대역폭 값(
    Figure 112022109102911-pct00445
    )을 결정하는 단계
    를 포함하고,
    오디오 서브대역 그룹에 대한 대역폭 값은 인접한 원래의 오디오 서브대역들의 수에 기초하는, 비-일시적 매체.
  8. 제7항에 있어서,
    상기 코딩된 오디오 서브대역 구성 데이터
    Figure 112022109102911-pct00474
    를 디코딩하는 것은
    오디오 서브대역 그룹들의 수 및 관련 오디오 서브대역 그룹 폭들의 제1 조합이 상기 오디오 서브대역 구성 데이터를 나타내는지, 또는
    오디오 서브대역 그룹들의 수 및 관련 오디오 서브대역 그룹 폭들의 상이한 제2 조합이 상기 오디오 서브대역 구성 데이터를 나타내는지, 또는
    오디오 서브대역 그룹들의 수 및 관련 오디오 서브대역 그룹 폭들의 추가의 조합들이 상기 오디오 서브대역 구성 데이터를 나타내는지, 또는
    오디오 서브대역 구성 데이터가 제1항의 방법에 따라 코딩되었는지
    를 나타내는 구성값
    Figure 112022109102911-pct00446
    을 포함하는 오디오 서브대역 구성 데이터 블록
    Figure 112022109102911-pct00447
    에 기초하는, 비-일시적 매체.
  9. 제7항에 있어서, 상기 오디오 서브대역 그룹들의 코딩된 수의 디코딩된 버전에 '1'을 가산함으로써 오디오 서브대역 그룹들의 수(
    Figure 112020086495963-pct00448
    )가 결정되는, 비-일시적 매체.
  10. 코딩된 오디오 신호의 하나 이상의 프레임들에 대해 유효한 오디오 서브대역 그룹들
    Figure 112022109102911-pct00449
    에 대한 코딩된 오디오 서브대역 구성 데이터
    Figure 112022109102911-pct00450
    를 디코딩하는 장치로서,
    적어도 하나 이상의 프로세서; 및
    상기 오디오 서브대역 그룹들의 코딩된 수의 디코딩된 버전에 기초하여 오디오 서브대역 그룹들의 수(
    Figure 112022109102911-pct00451
    )를 결정하도록 구성된 디코더 - 상기 디코더는 제1 오디오 서브대역 그룹(
    Figure 112022109102911-pct00452
    )에 대해, 대응하는 코딩된 대역폭 값의 디코딩된 버전에 기초하여 대역폭 값(
    Figure 112022109102911-pct00453
    )을 결정하도록 추가로 구성됨 -를 포함하고,
    Figure 112022109102911-pct00454
    이라는 결정에 기초하여, 상기 디코더는 대역폭 차이값(
    Figure 112022109102911-pct00455
    )의 코딩된 버전으로부터 오디오 서브대역 그룹(
    Figure 112022109102911-pct00456
    )에 대해, 대역폭 값(
    Figure 112022109102911-pct00457
    )을 디코딩하도록 추가로 구성되고;
    Figure 112022109102911-pct00458
    이라는 결정에 기초하여, 상기 디코더는 대역폭 차이값들(
    Figure 112022109102911-pct00459
    )의 코딩된 버전으로부터 오디오 서브대역 그룹들(
    Figure 112022109102911-pct00460
    )에 대해, 대역폭 값들(
    Figure 112022109102911-pct00461
    )을 디코딩하고, 대역폭 차이값(
    Figure 112022109102911-pct00462
    )의 코딩된 버전으로부터 오디오 서브대역 그룹(
    Figure 112022109102911-pct00463
    )에 대해 대역폭 값(
    Figure 112022109102911-pct00475
    )을 디코딩하도록 추가로 구성되고;
    상기 디코더는
    Figure 112022109102911-pct00465
    로부터 대역폭들(
    Figure 112022109102911-pct00466
    내지
    Figure 112022109102911-pct00467
    )을 감산함으로써 오디오 서브대역(
    Figure 112022109102911-pct00468
    )에 대한 대역폭 값(
    Figure 112022109102911-pct00469
    )을 결정하도록 추가로 구성되고,
    오디오 서브대역 그룹에 대한 대역폭 값은 인접한 원래의 오디오 서브대역들의 수에 기초하는, 장치.
  11. 제10항에 있어서, 상기 디코더는:
    오디오 서브대역 그룹들의 수 및 관련 오디오 서브대역 그룹 폭들의 제1 조합이 상기 오디오 서브대역 구성 데이터를 나타내는지, 또는
    오디오 서브대역 그룹들의 수 및 관련 오디오 서브대역 그룹 폭들의 상이한 제2 미리 정해진 조합이 상기 오디오 서브대역 구성 데이터를 나타내는지, 또는
    오디오 서브대역 그룹들의 수 및 관련 오디오 서브대역 그룹 폭들의 추가의 조합들이 상기 오디오 서브대역 구성 데이터를 나타내는지, 또는
    오디오 서브대역 구성 데이터가 제1항의 방법에 따라 코딩되는지
    를 나타내는 구성값
    Figure 112020086495963-pct00470
    을 포함하는 오디오 서브대역 구성 데이터 블록
    Figure 112020086495963-pct00471
    을 포함하도록 추가로 구성되는, 장치.
  12. 제10항에 있어서, 상기 디코더는 상기 오디오 서브대역 그룹들의 코딩된 수의 디코딩된 버전에 '1'을 가산함으로써 오디오 서브대역 그룹들의 수(
    Figure 112020086495963-pct00472
    )를 결정하도록 구성되는, 장치.
KR1020177008610A 2014-09-02 2015-08-19 서브대역 그룹들에 대한 서브대역 구성 데이터를 코딩하거나 디코딩하는 방법 및 장치 KR102469964B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP14306347.7 2014-09-02
EP14306347.7A EP2993665A1 (en) 2014-09-02 2014-09-02 Method and apparatus for coding or decoding subband configuration data for subband groups
PCT/EP2015/069077 WO2016034420A1 (en) 2014-09-02 2015-08-19 Method and apparatus for coding or decoding subband configuration data for subband groups

Publications (2)

Publication Number Publication Date
KR20170047361A KR20170047361A (ko) 2017-05-04
KR102469964B1 true KR102469964B1 (ko) 2022-11-24

Family

ID=51564606

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020177008610A KR102469964B1 (ko) 2014-09-02 2015-08-19 서브대역 그룹들에 대한 서브대역 구성 데이터를 코딩하거나 디코딩하는 방법 및 장치

Country Status (6)

Country Link
US (1) US10102864B2 (ko)
EP (2) EP2993665A1 (ko)
KR (1) KR102469964B1 (ko)
CN (1) CN107077850B (ko)
TW (1) TW201612895A (ko)
WO (1) WO2016034420A1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3007167A1 (en) 2014-10-10 2016-04-13 Thomson Licensing Method and apparatus for low bit rate compression of a Higher Order Ambisonics HOA signal representation of a sound field
CN110855673B (zh) * 2019-11-15 2021-08-24 成都威爱新经济技术研究院有限公司 一种复杂多媒体数据传输及处理方法
CN112669860B (zh) * 2020-12-29 2022-12-09 北京百瑞互联技术有限公司 一种增加lc3音频编解码有效带宽的方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070016412A1 (en) 2005-07-15 2007-01-18 Microsoft Corporation Frequency segmentation to obtain bands for efficient coding of digital media
US20090240491A1 (en) 2007-11-04 2009-09-24 Qualcomm Incorporated Technique for encoding/decoding of codebook indices for quantized mdct spectrum in scalable speech and audio codecs

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5731767A (en) * 1994-02-04 1998-03-24 Sony Corporation Information encoding method and apparatus, information decoding method and apparatus, information recording medium, and information transmission method
DK1706866T3 (da) * 2004-01-20 2008-06-09 Dolby Lab Licensing Corp Audiokodning på basis af blokgruppering
KR101301245B1 (ko) * 2008-12-22 2013-09-10 한국전자통신연구원 스펙트럼 계수의 서브대역 할당 방법 및 장치
CN102222505B (zh) * 2010-04-13 2012-12-19 中兴通讯股份有限公司 可分层音频编解码方法系统及瞬态信号可分层编解码方法
JP2012022021A (ja) * 2010-07-12 2012-02-02 Sony Corp 符号化装置および符号化方法、復号装置および復号方法、並びにプログラム
WO2016001355A1 (en) * 2014-07-02 2016-01-07 Thomson Licensing Method and apparatus for encoding/decoding of directions of dominant directional signals within subbands of a hoa signal representation

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070016412A1 (en) 2005-07-15 2007-01-18 Microsoft Corporation Frequency segmentation to obtain bands for efficient coding of digital media
US20090240491A1 (en) 2007-11-04 2009-09-24 Qualcomm Incorporated Technique for encoding/decoding of codebook indices for quantized mdct spectrum in scalable speech and audio codecs

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ISO/IEC 14496-3:200x Fourth Edition, Contens for Subpart 4. 2009.05.15.

Also Published As

Publication number Publication date
EP2993665A1 (en) 2016-03-09
KR20170047361A (ko) 2017-05-04
CN107077850B (zh) 2020-09-08
EP3195312A1 (en) 2017-07-26
EP3195312B1 (en) 2020-01-15
US20170243592A1 (en) 2017-08-24
US10102864B2 (en) 2018-10-16
CN107077850A (zh) 2017-08-18
TW201612895A (en) 2016-04-01
WO2016034420A1 (en) 2016-03-10

Similar Documents

Publication Publication Date Title
JP6735053B2 (ja) マルチチャネル符号化におけるステレオ充填装置及び方法
AU2006332046B2 (en) Scalable compressed audio bit stream and codec using a hierarchical filterbank and multichannel joint coding
RU2368074C2 (ru) Адаптивная группировка параметров для улучшенной эффективности кодирования
JP5705964B2 (ja) オーディオエンコーダ、オーディオデコーダ、及び複素数予測を使用したマルチチャンネルオーディオ信号処理方法
RU2711055C2 (ru) Устройство и способ для кодирования или декодирования многоканального сигнала
JP5752134B2 (ja) 最適化された低スループットパラメトリック符号化/復号化
KR102296067B1 (ko) 압축된 hoa 표현을 디코딩하기 위한 방법 및 장치와 압축된 hoa 표현을 인코딩하기 위한 방법 및 장치
KR101679083B1 (ko) 2개의 블록 변환으로의 중첩 변환의 분해
KR102460820B1 (ko) Hoa 신호 표현의 부대역들 내의 우세 방향 신호들의 방향들의 인코딩/디코딩을 위한 방법 및 장치
KR102327149B1 (ko) Hoa 신호 표현의 부대역들 내의 우세 방향 신호들의 방향들의 인코딩/디코딩을 위한 방법 및 장치
AU2014295167A1 (en) In an reduction of comb filter artifacts in multi-channel downmix with adaptive phase alignment
KR102433192B1 (ko) 압축된 hoa 표현을 디코딩하기 위한 방법 및 장치와 압축된 hoa 표현을 인코딩하기 위한 방법 및 장치
KR102469964B1 (ko) 서브대역 그룹들에 대한 서브대역 구성 데이터를 코딩하거나 디코딩하는 방법 및 장치
EP2690622B1 (en) Audio decoding device and audio decoding method
US7181079B2 (en) Time signal analysis and derivation of scale factors
KR102363275B1 (ko) Hoa 신호 표현의 부대역들 내의 우세 방향 신호들의 방향들의 인코딩/디코딩을 위한 방법 및 장치
CN102376307B (zh) 解码方法及其解码装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right