KR20080037105A - Apparatus for encoding and decoding audio signal and method thereof - Google Patents
Apparatus for encoding and decoding audio signal and method thereof Download PDFInfo
- Publication number
- KR20080037105A KR20080037105A KR1020087006788A KR20087006788A KR20080037105A KR 20080037105 A KR20080037105 A KR 20080037105A KR 1020087006788 A KR1020087006788 A KR 1020087006788A KR 20087006788 A KR20087006788 A KR 20087006788A KR 20080037105 A KR20080037105 A KR 20080037105A
- Authority
- KR
- South Korea
- Prior art keywords
- information
- bits
- represented
- audio signal
- parameter set
- Prior art date
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 97
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000006243 chemical reaction Methods 0.000 claims description 27
- 230000005540 biological transmission Effects 0.000 abstract description 8
- 238000010586 diagram Methods 0.000 description 32
- 230000008569 process Effects 0.000 description 11
- 230000006870 function Effects 0.000 description 10
- 238000012545 processing Methods 0.000 description 7
- 230000009977 dual effect Effects 0.000 description 6
- 230000015654 memory Effects 0.000 description 6
- 239000000284 extract Substances 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 238000005070 sampling Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000007493 shaping process Methods 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 230000001174 ascending effect Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 229920001690 polydopamine Polymers 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000009125 cardiac resynchronization therapy Methods 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/0017—Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/167—Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/40—Conversion to or from variable length codes, e.g. Shannon-Fano code, Huffman code, Morse code
- H03M7/42—Conversion to or from variable length codes, e.g. Shannon-Fano code, Huffman code, Morse code using table look-up for the coding or decoding process, e.g. using read-only memory
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L27/00—Modulated-carrier systems
- H04L27/26—Systems using multi-frequency codes
- H04L27/2601—Multicarrier modulation systems
- H04L27/2602—Signal structure
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/235—Processing of additional data, e.g. scrambling of additional data or processing content descriptors
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/435—Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S1/00—Two-channel systems
- H04S1/007—Two-channel systems in which the audio signals are in digital form
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Mathematical Physics (AREA)
- Theoretical Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Stereophonic System (AREA)
Abstract
Description
본 발명은 주로 오디오 신호 처리에 관한 것이다.The present invention mainly relates to audio signal processing.
통상적으로 공간 음성 코딩(SAC : Spatial Audio Coding)이라 불리우는 멀티 채널 오디오의 코딩을 인식하기 위한 새로운 접근방식이 연구 개발중에 있다. SAC는 멀티 채널 오디오를 낮은 비트 레이트로 송신가능하게 하므로, 다수의 오디오 적용분야(예를 들면, 인터넷 스트리밍, 음악 다운로드 등)에 적합하다.A new approach for recognizing the coding of multichannel audio, commonly called Spatial Audio Coding (SAC), is under research and development. SAC enables multi-channel audio to be transmitted at low bit rates, making it suitable for many audio applications (eg, internet streaming, music downloads, etc.).
SAC는 개별 오디오 입력 채널을 분산 코딩하는 것 보다 간단한 세트의 파라미터로 멀티 채널 오디오 신호의 공간 이미치를 획득한다. 이러한 파라미터는 디코더에 송신되어 오디오 신호의 공간 특성들을 합성하거나 재구성하는데 사용된다.SAC obtains the spatial image of a multi-channel audio signal with a simpler set of parameters than distributed coding individual audio input channels. These parameters are sent to the decoder and used to synthesize or reconstruct the spatial characteristics of the audio signal.
일부 SAC 적용분야에서는, 공간 파라미터가 비트스트림의 일부로서 디코더에 송신된다. 이러한 비트스트림은 공간 프레임들을 포함하고, 이러한 공간 프레임들은 공간 파라미터가 적용될 수 있도록 정렬된 타임 슬롯 세트를 포함한다. 비트스트림은 또한 위치 정보를 포함하는데, 디코더는 이러한 위치 정보를 사용하여 소정 파라미터 세트가 적용되는 정확한 타임 슬롯을 식별할 수 있다.In some SAC applications, spatial parameters are transmitted to the decoder as part of the bitstream. This bitstream includes spatial frames, which include a set of time slots arranged such that spatial parameters can be applied. The bitstream also includes positional information, which the decoder can use to identify the exact time slot to which a given set of parameters is applied.
일부 SAC 적용분야는 인코딩/디코딩 경로에 개념적인 엘리먼트를 사용한다. 그러한 엘리먼트 중 하나로는 통상적으로 OTT(One-To-Two)라 불리우는 것이 있고, 다른 엘리먼트로는 통상적으로 TTT(Two-To-Three)라 불리우는 것이 있는데, 이러한 명칭은 각각 대응 디코더 요소의 입력 채널과 출력 채널의 개수를 의미하는 것이다. OTT 인코더 엘리먼트는 2개의 공간 파라미터를 추출하여 다운믹스 신호와 레지듀얼 신호를 생성한다. TTT 엘리먼트는 3개의 오디오 신호를 1개의 다운믹스 신호와 1개의 레지듀얼 신호로 다운믹스한다. 이들 엘리먼트가 조합되어 다양한 구성의 공간 오디오 환경(예를 들어, 서라운드 사운드 등)을 제공할 수 있다.Some SAC applications use conceptual elements in the encoding / decoding path. One such element is commonly referred to as one-to-two (OTT), and the other is commonly referred to as two-to-three (TTT), each of which is called the input channel of the corresponding decoder element. It means the number of output channels. The OTT encoder element extracts two spatial parameters to produce a downmix signal and a residual signal. The TTT element downmixes three audio signals into one downmix signal and one residual signal. These elements can be combined to provide a variety of configurations of spatial audio environment (eg, surround sound, etc.).
일부 SAC 적용분야는 논-가이드(non-guided) 동작 모드로 동작할 수 있는데, 이러한 동작 모드에서는 공간 파라미터 송신이 필요없이 스테레오 다운믹스 신호만이 인코더로부터 디코더로 송신된다. 디코더는 다운믹스 신호로부터 공간 파라미터를 합성하여 멀티 채널 오디오 신호의 생성에 사용한다.Some SAC applications may operate in a non-guided mode of operation, in which only stereo downmix signals are transmitted from the encoder to the decoder without the need for spatial parameter transmission. The decoder synthesizes spatial parameters from the downmix signal used to generate a multi-channel audio signal.
오디오 신호와 관련된 공간 정보는 디코더에 송신되거나 또는 기록 매체에 기록될 수 있는 비트스트림으로 인코딩된다. 이러한 비트스트림은 시간, 주파수 및 공간 영역과 관련되는 서로 다른 구문을 포함할 수 있다. 일부 실시예에서, 비트스트림은 파라미터들이 적용될 수 있도록 정렬된 세트의 슬롯을 포함하는 하나 이상의 데이터 구조(예를 들어, 프레임들)를 포함할 수 있다. 이러한 데이터 구조는 고정된 것 또는 가변적인 것일 수 있다. 디코더가 데이터 구조 타입을 판정하여 적절한 디코딩 처리를 호출할 수 있도록 하는 데이터 구조 타입 표시자가 비트스트림에 포함될 수 있다. 데이터 구조는 위치 정보를 포함할 수 있고, 디코더는 이러한 위치 정보를 사용하여, 소정의 파라미터 세트가 적용되는 정확한 슬롯을 식별할 수 있다. 슬롯 위치 정보는, 데이터 구조 타입 표시자가 표시하는 데이터 구조 타입에 따라, 고정된 개수의 비트 또는 가변 개수의 비트로 인코딩될 수 있다. 가변 데이터 구조 타입에 대해, 슬롯 위치 정보는 상기 정렬된 세트의 슬롯에서 해당 슬롯의 위치에 따라 가변 개수의 비트로 인코딩될 수 있다.Spatial information associated with an audio signal is encoded into a bitstream that can be transmitted to a decoder or recorded on a recording medium. Such bitstreams may include different syntaxes relating to time, frequency and spatial domains. In some embodiments, the bitstream may include one or more data structures (eg, frames) that include an ordered set of slots so that parameters can be applied. This data structure may be fixed or variable. A data structure type indicator may be included in the bitstream that allows the decoder to determine the data structure type and invoke the appropriate decoding process. The data structure can include location information, and the decoder can use this location information to identify the correct slot to which a given set of parameters is applied. The slot position information may be encoded into a fixed number of bits or a variable number of bits according to the data structure type indicated by the data structure type indicator. For a variable data structure type, slot position information may be encoded into a variable number of bits depending on the position of the slot in the aligned set of slots.
일부 실시예에서, 오디오 신호를 인코딩하는 방법은: 오디오 신호의 제 1 정보 또는 제 2 정보에 대응하거나 상기 제 1 정보 또는 제 2 정보의 범위에 대응하는 오디오 신호의 파라미터 세트를 생성하는 단계; 및 상기 파라미터 세트 및 상기 대응하는 제 1 정보 또는 제 2 정보를 상기 오디오 신호를 나타내는 비트스트림에 삽입하는 단계를 포함하고, 상기 제 1 정보 또는 제 2 정보는 가변 개수의 비트로 표현되는 것을 특징으로 한다.In some embodiments, a method of encoding an audio signal comprises: generating a parameter set of an audio signal corresponding to the first information or the second information of the audio signal or corresponding to the range of the first information or the second information; And inserting said parameter set and said corresponding first or second information into a bitstream representing said audio signal, wherein said first or second information is represented by a variable number of bits. .
일부 실시예에서, 오디오 신호를 디코딩하는 방법은: 오디오 신호의 제 1 정보 또는 제 2 정보에 대응하거나 또는 상기 제 1 정보 또는 제 2 정보의 범위에 대응하는 파라미터 세트를 포함하는 비트스트림을 수신하는 단계; 및 상기 파라미터 세트 및 상기 제 1 정보 또는 제 2 정보에 기초하여 상기 오디오 신호를 디코딩하는 단계를 포함하고, 상기 제 1 정보 또는 제 2 정보는 가변 개수의 비트로 표현되는 것을 특징으로 한다.In some embodiments, a method of decoding an audio signal comprises: receiving a bitstream comprising a parameter set corresponding to a first information or a second information of an audio signal or corresponding to a range of the first information or the second information. step; And decoding the audio signal based on the parameter set and the first information or the second information, wherein the first information or the second information is represented by a variable number of bits.
시스템, 방법, 장치, 데이터 구조 및 컴퓨터 판독가능 매체에 관한 타임 슬롯 위치 코딩의 다른 실시예들도 개시된다.Other embodiments of time slot position coding with respect to systems, methods, apparatus, data structures, and computer readable media are also disclosed.
전술한 일반적인 설명 및 이하 실시예의 상세한 설명 모두는 예시적으로 설명하기 위한 것으로 특허청구범위에서 청구되는 본 발명의 이해를 돕기 위한 것이라는 점이 이해되어야 할 것이다. It is to be understood that both the foregoing general description and the detailed description of the following examples are intended to be illustrative, for the purpose of understanding the invention as claimed in the claims.
본 발명의 이해를 돕기 위해 포함되는 첨부 도면은, 본 발명의 실시예를 도시하는 것으로, 본 명세서와 함께 본 발명의 원리를 설명하기 위한 것이다.BRIEF DESCRIPTION OF THE DRAWINGS The accompanying drawings, which are included to aid the understanding of the present invention, illustrate embodiments of the present invention, and together with the present specification illustrate the principles of the present invention.
도 1은 본 발명의 일 실시예에 따라 공간 정보를 생성하는 윈리를 도시하는 도면이다;1 is a diagram illustrating a winry for generating spatial information according to an embodiment of the present invention;
도 2는 본 발명의 일 실시예에 따라 오디오 신호를 인코딩하는 인코더의 블록도이다;2 is a block diagram of an encoder for encoding an audio signal according to an embodiment of the present invention;
도 3은 본 발명의 일 실시예에 따라 오디오 신호를 디코딩하는 디코더의 블록도이다;3 is a block diagram of a decoder for decoding an audio signal according to an embodiment of the present invention;
도 4는 본 발명의 일 실시예에 따른 디코더의 업믹싱부에 포함되는 채널 변환부의 블록도이다;4 is a block diagram of a channel converter included in an upmixing unit of a decoder according to an embodiment of the present invention;
도 5는 본 발명의 일 실시예에 따라 오디오 신호의 비트스트림을 구성하는 방법을 설명하는 블록도이다;5 is a block diagram illustrating a method of constructing a bitstream of an audio signal according to an embodiment of the present invention;
도 6a와 도 6b는, 각각, 본 발명의 일 실시예 따른, 파라미터 세트, 타임 슬롯 및 파라미터 대역의 관계를 설명하기 위한, 도면과 시간/주파수 그래프이다;6A and 6B are diagrams and time / frequency graphs for explaining the relationship between parameter sets, time slots and parameter bands, respectively, according to one embodiment of the present invention;
도 7a는 본 발명의 일 실시예에 따른 공간 정보 신호의 구성 정보를 표시하는 구문을 도시하는 도면이다;7A is a diagram showing a syntax for displaying configuration information of a spatial information signal according to an embodiment of the present invention;
도 7b는 본 발명의 일 실시예에 따른 공간 정보 신호의 파라미터 대역의 개 수를 나타내는 표이다;7B is a table showing the number of parameter bands of a spatial information signal according to an embodiment of the present invention;
도 8a는, 본 발명의 일 실시예 따라, 고정된 개수의 비트로서 OTT 박스(box)에 적용된 파라미터 대역의 개수를 나타내는 구문을 도시하는 도면이다;FIG. 8A is a diagram illustrating syntax representing the number of parameter bands applied to an OTT box as a fixed number of bits, in accordance with an embodiment of the present invention; FIG.
도 8b는, 본 발명의 일 실시예에 따라, 가변 개수의 비트로 OTT 박스에 적용된 파라미터 대역의 개수를 나타내는 구문을 도시하는 도면이다;FIG. 8B is a diagram illustrating syntax representing the number of parameter bands applied to an OTT box with a variable number of bits, in accordance with an embodiment of the present invention; FIG.
도 9a는, 본 발명의 일 실시예에 따라, 고정된 개수의 비트로 TTT 박스에 적용된 파라미터 대역의 개수를 나타내는 구문을 도시하는 도면이다;FIG. 9A is a diagram illustrating syntax representing the number of parameter bands applied to a TTT box with a fixed number of bits, in accordance with an embodiment of the present invention; FIG.
도 9b는, 본 발명의 일 실시예에 따라, 가변 개수의 비트로 TTT 박스에 적용된 파라미터 대역의 개수를 나타내는 구문을 도시하는 도면이다;FIG. 9B is a diagram illustrating syntax representing the number of parameter bands applied to a TTT box with a variable number of bits, in accordance with an embodiment of the present invention; FIG.
도 10a는 본 발명의 일 실시예에 따른 공간 확장 프레임을 위한 공간 확장 구성 정보의 구문을 도시하는 도면이다;10A is a diagram illustrating the syntax of spatial extension configuration information for a spatial extension frame according to an embodiment of the present invention;
도 10b 및 도 10c는 본 발명의 일 실시예에 따라 공간 확장 프레임에 레지듀얼 신호가 포함되는 경우 레지듀얼 신호를 위한 공간 확장 구성 정보의 구문을 도시하는 도면이다;10B and 10C are diagrams illustrating syntax of spatial extension configuration information for a residual signal when the residual signal is included in the spatial extension frame according to an embodiment of the present invention;
도 10d는 본 발명의 일 실시예에 따라 레지듀얼 신호를 위한 파라미터 대역의 개수를 나타내는 방법을 위한 구문을 도시하는 도면이다;10D is a diagram illustrating syntax for a method for indicating the number of parameter bands for a residual signal according to an embodiment of the present invention;
도 11a는 본 발명의 일 실시예 따라 논-가이드 코딩을 사용하는 디코딩 장치의 블록도이다;11A is a block diagram of a decoding apparatus using non-guided coding according to an embodiment of the present invention;
도 11b는 본 발명의 일 실시예에 따라 파라미터 대역의 개수를 그룹으로 나타내는 방법을 나타내는 도면이다;FIG. 11B is a diagram illustrating a method of grouping the number of parameter bands according to an embodiment of the present invention; FIG.
도 12는 본 발명의 일 실시예에 따른 공간 프레임의 구성 정보의 구문을 나타내는 도면이다;12 is a diagram illustrating syntax of configuration information of a space frame according to an embodiment of the present invention;
도 13a는 본 발명의 일 실시예에 따라 파라미터 세트가 적용되는 타임 슬롯의 위치 정보의 구문을 나타내는 도면이다;13A is a diagram illustrating syntax of position information of a time slot to which a parameter set is applied according to an embodiment of the present invention;
도 13b는 본 발명의 일 실시예에 따라 절대값 및 차분값으로서 파라미터 세트가 적용되는 타임 슬롯의 위치 정보를 표현하기 위한 구문을 나타내는 도면이다;FIG. 13B is a diagram illustrating syntax for expressing position information of a time slot to which a parameter set is applied as an absolute value and a difference value according to an embodiment of the present invention; FIG.
도 13c는 본 발명의 일 실시예에 따라 파라미터 세트가 그룹으로서 적용되는 타임 슬롯의 복수의 위치 정보를 나타내는 도면이다;FIG. 13C is a diagram illustrating a plurality of position information of time slots to which parameter sets are applied as a group according to an embodiment of the present invention; FIG.
도 14는 본 발명의 일 실시예에 따른 인코딩 방법의 흐름도이다;14 is a flowchart of an encoding method according to an embodiment of the present invention;
도 15는 본 발명의 일 실시예에 따른 디코딩 방법의 흐름도이다;15 is a flowchart of a decoding method according to an embodiment of the present invention;
도 16은 도 1 내지 도 15를 참조하여 설명되는 인코딩 및 디코딩 처리를 구현하기 위한 장치 구조를 나타내는 블록도이다.FIG. 16 is a block diagram illustrating an apparatus structure for implementing the encoding and decoding process described with reference to FIGS. 1 to 15.
도 1은 본 발명의 일 실시예에 따라 공간 정보를 생성하는 원리를 도시하는 도면이다. 멀티 채널 오디오 신호에 대한 코딩 방식의 개념은, 인간이 오디오 신호를 3차원적으로 인식한다는 사실에 기초한다. 오디오 신호의 3차원 공간은 공간 정보를 사용하여 표현될 수 있으며, 이는 채널 레벨 차분(CLD; Channel Level Difference)과, 채널간 상관/일관성(ICC; Inter Cannel Correlation/Coherence)과, 채널 시간 차분(CTD; Channel Time Difference)과, 채널 예측 계수(CPC: Channel Prediction Coefficients) 등을 포함하지만, 이에 제한되는 것은 아니다. CLD는 2 개의 오디오 채널간 에너지 (레벨) 차분을 의미하고, ICC는 2개의 오디오 채널간 상관(correlation) 또는 일관성의 양을 의미하며, CTD는 2 채널간 시간 차분을 의미한다.1 is a diagram illustrating a principle of generating spatial information according to an embodiment of the present invention. The concept of a coding scheme for multi-channel audio signals is based on the fact that humans perceive audio signals three-dimensionally. The three-dimensional space of the audio signal may be represented using spatial information, which includes channel level difference (CLD), inter channel correlation / coherence (ICC), and channel time difference (ICD). Channel Time Difference (CTD), Channel Prediction Coefficients (CPC), and the like, but are not limited thereto. CLD means energy (level) difference between two audio channels, ICC means the amount of correlation or coherence between two audio channels, and CTD means time difference between two channels.
CTD와 CLD 파라미터의 생성이 도 1에 도시된다. 원거리 사운드 소스(101)로부터 제1 다이렉트 사운드파(103)가 인간의 왼쪽 귀(107)에 도달하고, 제2 다이렉트 사운드파(102)가 인간의 머리 주변에서 회절된 후 인간의 오른쪽 귀(106)에 도달한다. 2개의 사운드파(102 및 103)는 도달 시간과 에너지 레벨에 있어 상호 상이하다. CTD 파라미터와 CLD 파라미터는 사운드파(102와 103)의 도달 시간 및 에너지 레벨 차분에 기초하여 생성된다. 또한, 반사된 사운드파(104 및 105)가 양쪽 귀에(106 및 107)에 각각 도달하며, 이들은 상호 상관이 없다. ICC 파라미터는 사운드파(104 및 105)간 상관에 기초하여 생성될 수 있다.The generation of the CTD and CLD parameters is shown in FIG. 1. From the far
인코더에서는, 멀티 채널 오디오 신호에서 공간 정보(예를 들어, 공간 파라미터들 등)가 추출되고, 다운믹스 신호가 생성된다. 다운믹스 신호와 공간 파라미터는 디코더에 전송된다. 이에 제한되는 것은 아니지만, 모노 신호, 스테레오 신호 또는 멀티 채널 오디오 신호를 포함하는 다운믹스 신호에 임의 개수의 오디오 채널들이 사용될 수 있다. 디코더에서는, 다운믹스 신호와 공간 파라미터들로부터 멀티 채널 업믹스 신호가 생성된다.In the encoder, spatial information (eg, spatial parameters, etc.) is extracted from the multi-channel audio signal, and a downmix signal is generated. The downmix signal and spatial parameters are sent to the decoder. Although not limited thereto, any number of audio channels may be used for the downmix signal including a mono signal, a stereo signal, or a multi-channel audio signal. At the decoder, a multi-channel upmix signal is generated from the downmix signal and the spatial parameters.
도 2는 본 발명의 일 실시예에 따라 오디오 신호를 인코딩하는 인코더의 블록도이다. 인코더는 다운믹싱부(202)와, 공간 정보 생성부(203)와, 다운믹스 신호 인코딩부(207)와 멀티플렉싱부(209)를 포함한다. 인코더의 다른 구성 또한 가능하 다. 인코더는 하드웨어 또는 소프트웨어로 구현되거나, 하드웨어와 소프트웨어의 조합으로 구현될 수 있다. 인코더는 집적 회로 칩, 칩 셋, 시스템 온 칩(SoC: System on Chip), 디지털 신호 프로세서, 범용 프로세서 및 다양한 디지털 장치와 아날로그 장치로 구현될 수 있다.2 is a block diagram of an encoder for encoding an audio signal according to an embodiment of the present invention. The encoder includes a
다운믹싱부(202)는 멀티 채널 오디오 신호(201)로부터 다운믹스 신호(204)를 생성한다. 도 2에서, x1, , xn은 입력 오디오 채널을 나타낸다. 전술된 바와 같이, 다운믹스 신호(204)는 모노 신호, 스테레오 신호 또는 오디오 신호일 수 있다. 도시된 예에서, x'1, , x'm은 다운 믹스 신호(204)의 채널 번호를 나타낸다. 일부 실시예에서, 인코더는 다운믹스 신호(204) 대신에 외부 공급 다운믹스 신호(205)(예를 들어, 정교한 다운믹스 등)를 처리한다.The
공간 정보 생성부(203)는 멀티 채널 오디오 신호(201)로부터 공간 정보를 추출한다. 이 경우, 공간 정보란, 디코더에서 다운믹스 신호(204)를 멀티 채널 오디오 신호로 업믹싱하는데 사용되는 오디오 신호 채널과 관련되는 정보를 의미한다. 다운믹스 신호(204)는 멀티 채널 오디오 신호를 다운믹스함으로써 생성된다. 공간 정보는 인코딩되어 인코딩된 공간 정보 신호(206)를 제공한다.The
다운믹스 신호 인코딩부(207)는, 다운믹싱부(202)에서 생성된 다운믹스 신호(204)를 인코딩하여, 인코딩된 다운믹스 신호(208)를 생성한다.The downmix
멀티플렉싱부(209)는 인코딩된 다운믹스 신호(208)와 인코딩된 공간 정보 신호(206)를 포함하는 비트스트림(210)을 생성한다. 비트스트림(210)은 다운스트림 디코더에 전송되고/전송되거나 기록 매체에 기록된다.The
도 3은, 본 발명의 일 실시예에 따라, 인코딩된 오디오 신호를 디코딩하는 디코더의 블록도를 나타내는 도면이다. 디코더는, 디멀티플렉싱부(302)와, 다운믹스 신호 디코딩부(305)와, 공간 정보 디코딩부(307)와 업믹싱부(309)를 포함한다. 디코더는 하드웨어나 소프트웨어로, 또는 하드웨어와 소프트웨어의 조합으로 구현될 수 있다. 디코더는 집적 회로 칩, 칩셋, 시스템 온 칩(SoC: System on Chip), 디지털 신호 프로세서, 범용 프로세서 및 다양한 디지털 장치나 디바이스로 구현될 수 있다.3 is a block diagram of a decoder for decoding an encoded audio signal according to an embodiment of the present invention. The decoder includes a
일부 실시예에서, 디멀티플렉싱부(302)는, 오디오 신호를 나타내는 비트스트림(301)을 수신하여, 이 비트스트림(301)으로부터 인크드된 다운믹스 신호(303)와 인코딩된 공간 정보 신호(304)를 분리한다. 도 3에서, x'1, , x'm은 다운믹스 신호(303)의 채널을 나타낸다. 다운믹스 신호 디코딩부(305)는 인코딩된 다운믹스 신호(303)를 디코딩하여 디코딩된 다운믹스 신호(306)를 출력한다. 디코더가 멀티 채널 오디오 신호를 출력할 수 없는 경우, 다운믹스 신호 디코딩부(305)는 다운믹스 신호(306)를 직접 출력할 수 있다. 도 3에서, y'1, , y'm은 다운믹스 신호 디코딩부(305)의 직접 출력 채널들을 나타낸다.In some embodiments,
공간 정보 신호 디코딩부(307)는, 인코딩된 공간 정보 신호(304)로부터 공간 정보 신호의 구성 정보를 추출하고, 추출된 구성 정보를 사용하여 공간 정보 신호(304)를 디코딩한다.The spatial information
업믹싱부(309)는 추출된 공간 정보(308)를 사용하여 다운믹스 신호(306)를 멀티 채널 오디오 신호(310)로 업믹스할 수 있다. 도 3에서, y1, , y'n은 업믹싱 부(309)의 출력 채널 번호를 나타낸다.The
도 4는 도 3에 도시된 디코더의 업믹싱부(309)에 포함될 수 있는 채널 변환 모듈의 블록도를 나타내는 도면이다. 일부 실시예에서, 업믹싱부(309)는 복수의 채널 변환 모듈을 포함할 수 있다. 채널 변환 모듈은 특정 정보를 사용하여 입력 채널의 개수와 출력 채널의 개수를 구별할 수 있는 개념적인 장치이다.4 is a block diagram of a channel conversion module that may be included in the
일부 실시예에서, 채널 변환 모듈은, 1개 채널을 2개 채널 및 장치 등으로 변환하는 OTT(One-To-Two) 박스와, 2개 채널을 3개 채널 및 장치 등으로 변환하는 TTT(Two-To-Three) 박스를 포함한다. OTT 박스 및/또는 TTT 박스는 여러가지 유용한 구성으로 배치될 수 있다. 예를 들어, 도 3에 도시된 업믹싱부(309)는 5-1-5 구성, 5-2-5 구성, 7-2-7 구성, 7-5-7 구성 등을 포함할 수 있다. 5-1-5 구성에서는, 5개의 채널들을 1개의 채널로 다운믹싱하여 1개의 채널을 갖는 다운믹스 신호가 생성되는데, 이는 차후 5개의 채널들로 업믹스될 수 있다. OTT 박스와 TTT 박스의 다양한 조합을 사용하는 다른 구성들도 동일한 방식으로 생성될 수 있다.In some embodiments, the channel conversion module includes a one-to-two box for converting one channel into two channels, a device, and the like, and a TTT (Two for converting two channels into three channels, a device, etc.). -To-Three) box. OTT boxes and / or TTT boxes can be arranged in various useful configurations. For example, the
도 4를 참조하면, 업믹싱부(400)의 5-2-5 구성예가 도시된다. 5-2-5 구성에서는, 2개 채널을 갖는 다운믹스 신호(401)가 업믹싱부(400)에 입력된다. 도시된 예에는, 좌측 채널(L)과 우측 채널(R)이 업믹싱부(400)로의 입력으로서 제공된다. 본 실시예에서, 업믹싱부(400)는 1개의 TTT 박스(402)와 3개의 OTT 박스(406, 407 및 408)를 포함한다. 2개 채널을 갖는 다운믹스 신호(401)가 TTT 박스(TTT0)에 대한 입력으로서 제공되며, TTT 박스는 다운믹스 신호(401)를 처리하여 3개의 출력 채널(403, 404 및 405)을 제공한다. TTT 박스(402)에 대한 입력으로서 하나 이상 의 공간 파라미터들(예를 들어, CPC, CLD, ICC 등)이 제공되어, 후술되는 바와 같이 다운믹스 신호(401)를 처리하는데 사용될 수 있다. 이러한 경우, CPC는 2개의 채널로부터 3개의 채널을 생성하는 예측 계수로서 설명될 수 있다.Referring to FIG. 4, an example 5-2-5 of the
TTT 박스(402)로부터의 출력으로서 제공되는 채널(403)은, 하나 이상의 공간 파라미터을 사용하여 2개의 출력 채널을 생성하는 OTT 박스(406)에 대한 입력으로서 제공된다. 도시된 예에서, 2개의 출력 채널은, 예를 들어, 서라운드 사운드 환경에서의 전방 좌측(FL; Front Left) 스피커 위치와 후방 좌측(BL; Backward Left) 스피커 위치를 나타낸다. 채널(404)은 하나 이상의 공간 파라미터를 사용하여 2개의 출력 채널을 생성하는 OTT 박스(407)에 대한 입력으로서 제공된다. 도시된 예에서, 2개의 출력 채널은 전방 우측(FR; Front Right) 스피커 위치와 후방 우측(BR; Backward Right) 스피커 위치를 나타낸다. 채널(405)는 2개의 출력 채널을 생성하는 OTT 박스(408)에 대한 입력으로서 제공된다. 도시된 예에서, 2개의 출력 채널은 센터(C; Center) 스피커 위치와 저주파 확장(LFE; Low Frequency Enhancement) 채널을 나타낸다. 이 경우, 공간 정보(예를 들어, CLD, ICC 등)는 OTT 박스들 각각에 대한 입력으로서 제공된다. 일부 실시예에서는, 레지듀얼 신호들(Res1, Res2)이 OTT 박스들(406 및 407)에 대한 입력으로서 제공될 수 있다. 이러한 실시예에서, 레지듀얼 신호는 센터 채널과 LFE 채널을 출력하는 OTT 박스(408)에 대한 출력으로서 제공되지 않을 수 있다.The
도 4에 도시된 구성은 채널 변환 모듈용 구성의 일 예이다. OTT 박스와 TTT 박스의 다양한 조합을 포함하는 채널 변환 모듈용 다른 구성들도 가능하다. 채널 변환 모듈들 각각은 주파수 영역에서 동작할 수 있으므로, 채널 변환 모듈들 각각에 적용되는 파라미터 대역들의 개수가 정의될 수 있다. 파라미터 대역은 하나의 파라미터에 적용될 수 있는 적어도 하나의 주파수 대역을 의미한다. 파라미터 대역의 개수는 도 6b를 참조하여 설명된다.4 is an example of a configuration for a channel conversion module. Other configurations are also possible for the channel conversion module, including various combinations of OTT boxes and TTT boxes. Since each of the channel conversion modules may operate in the frequency domain, the number of parameter bands applied to each of the channel conversion modules may be defined. The parameter band means at least one frequency band that can be applied to one parameter. The number of parameter bands is described with reference to FIG. 6B.
도 5는 본 발명의 일 실시예에 따라 오디오 신호의 비트스트림을 구성하는 방법을 도시하는 도면이다. 도 5의 (a)는 공간 정보 신호만을 포함하는 오디오 신호의 비트스트림을 도시하고, 도 5의 (b) 및 (c)는 다운믹스 신호와 공간 정보 신호를 포함하는 오디오 신호의 비트스트림을 도시한다.5 is a diagram illustrating a method of constructing a bitstream of an audio signal according to an embodiment of the present invention. FIG. 5A illustrates a bitstream of an audio signal including only a spatial information signal, and FIGS. 5B and 5C illustrate a bitstream of an audio signal including a downmix signal and a spatial information signal. do.
도 5의 (a)를 참조하면, 오디오 신호의 비트스트림은 구성 정보(501)와 프레임(503)을 포함할 수 있다. 프레임(503)은 비트스트렘이세 반복될 수 있으며, 일부 실시예에서는 공간 오디오 정보를 포함하는 1개의 공간 프레임(502)을 포함한다.Referring to FIG. 5A, a bitstream of an audio signal may include
일부 실시예에서, 구성 정보(501)는 1개의 공간 프레임(502) 내에서의 타임 슬롯의 총 개수와, 오디오 신호의 주파수 범위를 확장하는 파라미터 대역의 총 개수와, OTT 박스에서의 파라미터 대역의 개수와, TTT 박스에서의 파라미터 대역의 개수와, 레지듀얼 신호에서의 파라미터 대역의 개수를 나타내는 정보를 포함한다. 구성 정보(501)에는 원하는 바에 따라 다른 정보가 포함될 수 있다.In some embodiments,
일부 실시예에서, 공간 프레임(502)은, 하나 이상의 공간 파라미터들(예를 들어, CLD, ICC 등)과, 프레임 타입과, 1개 프레임 내에서의 파라미터 세트들의 개수와 파라미터 세트들이 적용될 수 있는 타임 슬롯을 포함한다. 원하는 바에 따라 공간 프레임(502)에는 다른 정보가 포함될 수 있다. 구성 정보(501) 및 공간 프레임(502)에 포함되는 정보의 의미와 용도가 도 6 내지 10을 사용하여 설명될 것이다.In some embodiments,
도 5의 (b)를 참조하면, 오디오 신호의 비트스트림은 구성 정보(504)와, 다운믹스 신호(505)와 공간 프레임(506)을 포함한다. 이 경우, 1개의 프레임(507)은 다운믹스 신호(505)와 공간 프레임(506)을 포함하고, 이러한 프레임(507)이 비트스트림에서 반복될 수 있다.Referring to FIG. 5B, the bitstream of the audio signal includes
도 5의 (c)를 참조하면, 오디오 신호의 비트스트림은, 다운믹스 신호(508)와, 구성 정보(509)와 공간 프레임(510)을 포함한다. 이 경우, 1개의 프레임(511)은 구성 정보(509)와 공간 프레임(510)을 포함하고, 프레임(511)은 비트스트림에서 반복될 수 있다. 각 프레임(511)에 구성 정보(509)가 삽입되는 경우, 오디오 신호는 재생 장치에 의해 임의의 위치에서 재생될 수 있다.Referring to FIG. 5C, the bitstream of the audio signal includes a
도 5의 (c)는 구성 정보(509)가 프레임(511)마다 비트스트림에 삽입되는 것을 도시하는 것이지만, 주기적으로 또는 비주기적으로 반복되는 복수의 프레임마다 구성 정보(509)가 비트스트림에 삽입될 수 있다는 것은 자명할 것이다.Although FIG. 5C illustrates that the
도 6a와 도 6b는 본 발명의 일 실시예에 따른 파라미터 세트, 타임 슬롯 및 파라미터 대역들 사이의 관계를 도시하는 도면이다. 파라미터 세트는 1개의 타임 슬롯에 적용되는 하나 이상의 공간 파라미터들을 의미한다. 공간 파라미터들은 CLD, ICC, CPC 등의 공간 정보를 포함할 수 있다. 타임 슬롯은 공간 파라미터들이 적용될 수 있는 오디오 신호의 시간 간격을 의미한다. 1개의 공간 프레임은 하나 이상의 타임 슬롯을 포함할 수 있다.6A and 6B are diagrams showing a relationship between a parameter set, a time slot, and parameter bands according to an embodiment of the present invention. The parameter set refers to one or more spatial parameters applied to one time slot. Spatial parameters may include spatial information such as CLD, ICC, CPC, and the like. A time slot means a time interval of an audio signal to which spatial parameters can be applied. One spatial frame may include one or more time slots.
도 6a를 참조하면, 다수의 파라미터 세트들 1, , P가 공간 프레임에 사용될 수 있고, 각 파라미터 세트는 하나 이상의 데이터 필드 1, , Q-1를 포함할 수 있다. 오디오 신호의 전체 주파수 범위에 하나의 파라미터 세트가 적용될 수 있고, 이러한 파라미터 세트에서의 각 공간 파라미터는 해당 주파수 대역의 하나 이상의 위치에 적용될 수 있다. 예를 들어, 파라미터 세트가 20개의 공간 파라미터들을 포함하는 경우, 오디오 신호의 전체 주파수 대역은 20개의 영역(이하, 파라미터 대역이라고 함)으로 분할될 수 있고, 파라미터 세트의 20개의 공간 파라미터들이 이러한 20개의 파라미터 대역에 적용될 수 있다. 파라미터들은 원하는 바에 따라 파라미터 대역들에 적용될 수 있다. 예를 들어, 저주파 파라미터 대역에 공간 파라미터들이 집중적으로 적용되고 고주파 파라미터 대역에는 듬성듬성하게 적용될 수 있다.Referring to FIG. 6A, a plurality of parameter sets 1, P may be used in a spatial frame, and each parameter set may include one or
도 6b를 참조하면, 파라미트 세트들과 타임 슬롯들간 관계를 나타내는 시간/주파수 그래프가 도시된다. 도시된 예에서는, 1개의 공간 프레임에 12개의 타임 슬롯으로 정렬된 세트에 3개의 파라미터 세트들(파라미터 세트 1, 파라미터 세트 2, 파라미터 세트 3)이 적용된다. 이 경우, 오디오 신호의 전체 주파수 범위는 9개의 파라미터 대역들로 분할된다. 따라서, 수평축은 타임 슬롯의 개수를 나타내고 수직축은 파라미터 대역의 개수를 나타낸다. 3개의 파라미터 세트들 각각이 특정 타임 슬롯에 적용된다. 예를 들어, 첫번째 파라미터 세트(파라미터 세트 1)는 타임 슬롯 #1에 적용되고, 두번째 파라미터 세트(파라미터 세트 2)는 타임 슬롯 #5 에 적용되고, 세번째 파라미터 세트(파라미터 세트 3)는 타임 슬롯 #9에 적용된다. 타임 슬롯들에 이러한 파라미터 세트들을 보간 및/또는 복사함으로써, 나머지 타임 슬롯들에도 이들 파라미터 세트가 적용될 수 있다. 일반적으로, 파라미터 세트들의 개수는 타임 슬롯들의 개수 이하일 수 있고, 파라미터 대역의 개수는 오디오 신호의 주파수 대역들의 개수 이하일 수 있다. 오디오 신호의 전체 시간-주파수 영역 대신에 오디오 신호의 일부 시간-주파수 영역에 대한 공간 정보를 인코딩함으로써, 인코더에서 디코더로 보내어지는 공간 정보의 양을 감소시킬 수 있다. 이러한 데이터 감소가 가능한 것은, 공지된 오디오 코딩 인식의 원리에 따르면 시간-주파수 영역에서의 공간 정보는 대개의 경우 인간의 청각 인식에 충분하기 때문이다. Referring to FIG. 6B, a time / frequency graph is shown that illustrates the relationship between parameter sets and time slots. In the example shown, three parameter sets (parameter set 1, parameter set 2, parameter set 3) are applied to the set arranged in 12 time slots in one spatial frame. In this case, the entire frequency range of the audio signal is divided into nine parameter bands. Thus, the horizontal axis represents the number of time slots and the vertical axis represents the number of parameter bands. Each of the three parameter sets applies to a particular time slot. For example, the first parameter set (parameter set 1) applies to
개시된 실시예의 중요한 특징은, 파라미터 세트들이 적용되는 타임 슬롯 위치들을, 고정된 개수의 비트들 또는 가변 개수의 비트들을 사용하여, 인코딩하고 디코딩하는 것이다. 파라미터 대역들의 개수 또한 고정된 개수의 비트들로 또는 가변 개수의 비트들로 표현될 수 있다. 이에 제한되는 것은 아니지만, 공간 오디오 코딩에 사용되는 다른 정보로서, 시간 영역, 공간 영역 및/또는 주파수 영역과 관련된 정보를 포함하는 정보에도 가변 코딩 방식이 적용될 수 있다(예를 들어, 필터 뱅크로부터 출력되는 다수의 주파수 부대역에 적용됨).An important feature of the disclosed embodiment is the encoding and decoding of the time slot positions to which the parameter sets apply, using a fixed number of bits or a variable number of bits. The number of parameter bands may also be represented by a fixed number of bits or by a variable number of bits. As other information used for spatial audio coding, but not limited thereto, a variable coding scheme may be applied to information including information related to the time domain, the spatial domain, and / or the frequency domain (eg, output from a filter bank). Applied to multiple frequency subbands).
도 7a는 본 발명의 일 실시예에 따른 공간 정보의 구성 정보를 나타내는 구문을 도시한다. 이러한 구성 정보는 다수의 비트들이 할당될 수 있는 복수의 필드들(701 내지 718)을 포함한다.7A illustrates syntax representing configuration information of spatial information according to an embodiment of the present invention. This configuration information includes a plurality of
bsSamplingFrequencyIndex 필드(701)는 오디오 신호의 샘플링 처리로부터 취 득되는 샘플링 주파수를 나타낸다. 샘플링 주파수를 나타내기 위해, bsSamplingFrequencyIndex 필드(701)에는 4 비트가 할당된다. bsSamplingFrequencyIndex 필드(701)의 값이 15, 즉 2진수 1111이면, 샘플링 주파수를 나타내기 위해 bsSamplingFrequency 필드(702)가 추가된다. 이 경우, bsSamplingFrequency 필드(702)에는 24 비트가 할당된다.The
bsFrameLength 필드(703)는 1개의 공간 프레임 내의 타임 슬롯들의 총 개수(이하, numSlots이라 함)를 나타내고, numSlots와 bsFrameLength 필드(703) 사이에는 numSlots = bsFrameLength + 1이라는 관계가 존재할 수 있다.The
bsFreqRes 필드(704)는 오디오 신호의 전체 주파수 영역을 확장하는 파라미터 대역들의 총 개수를 나타낸다. bsFreqRes 필드(704)는 도 7B에서 설명될 것이다.The
bsTreeConfg 필드(705)는 도 4를 참조하여 설명한 바와 같은 복수의 채널 변환 모듈들을 포함하는 트리 구성을 위한 정보를 나타낸다. 이러한 트리 구성을 위한 정보는, 채널 변환 모듈의 타입, 채널 변환 모듈들의 개수, 채널 변환 모듈에 사용된 공간 정보의 타입, 오디오 신호의 입력/출력 채널들의 개수 등의 정보를 포함한다.The
트리 구성은, 채널 변환 모듈의 타입 또는 채널의 개수에 따라, 5-1-5 구성, 5-2-5 구성, 7-2-7 구성, 7-5-7 구성 등 중의 어느 하나일 수 있다. 트리 구성 중 5-2-5 구성이 도 4에 도시된다.The tree configuration may be any one of 5-1-5 configuration, 5-2-5 configuration, 7-2-7 configuration, 7-5-7 configuration, and the like, depending on the type of channel conversion module or the number of channels. . The 5-2-5 configuration of the tree configuration is shown in FIG.
bsQuantMode 필드(706)는 공간 정보의 양자화 모드 정보를 나타낸다.The
bsOneIcc 필드(707)는 1개의 ICC 파라미터 서브-세트가 모든 OTT 박스들에 대해 사용되는지 여부를 나타낸다. 이 경우, 파라미터 서브-세트는 특정 타임 슬롯 및 특정 채널 변환 모듈에 적용되는 파라미터 세트를 의미한다.The
bsArbitraryDownmix 필드(708)는 임의의 다운믹스 이득의 존재여부를 나타낸다.The
bsFixedGainSur 필드(709)는, LS(좌측 서라운드) 및 RS(우측 서라운드) 등의 서라운드 채널에 적용되는 이득을 나타낸다.The
bsFixedGainLFE는 LFE 채널에 적용되는 이득을 나타낸다.bsFixedGainLFE represents a gain applied to the LFE channel.
bsFixedGainDM은 다운믹스 신호에 적용되는 이득을 나타낸다.bsFixedGainDM represents the gain applied to the downmix signal.
bsMatrixMode 필드(712)는 스테레오 다운믹스 신호와 호환가능한 행렬이 인코더로부터 생성되는지 여부를 나타낸다.The
bsTempShapeConfig 필드(713)는 디코더에서 임시 형태(예를 들어, TES(Tempora Envelope Shaping) 및/또는 TP(Temporal Shaping))의 동작 모드를 나타낸다.The
bsDecorrConfig 필드(714)는 디코더의 상관해제기(decorrelator)의 동작 모드를 나타낸다.The
마지막으로, bs3DaudioMode 필드(715)는, 다운믹스 신호가 3D 신호로 인코딩되는지 여부와, 역 HRTF 처리가 사용되는지 여부를 나타낸다.Finally, the
인코더/디코더에서 각 필드의 정보가 결정/추출된 후, 채널 변환 모듈에 적용되는 파라미터 대역의 갯수에 대한 정보가 인코더/디코더에서 결정/추출된다. OTT 박스에 적용되는 파라미터 대역들의 개수가 먼저 결정/추출되고(716) 나서, TTT 박스에 적용되는 파라미터 대역들의 개수가 결정/추출된다(717). OTT 박스 및/또는 TTT 박스에 대한 파라미터 대역들의 개수는 이하 도 8a 내지 도 9b를 참조하여 상세히 설명될 것이다.After the information of each field is determined / extracted by the encoder / decoder, information about the number of parameter bands applied to the channel conversion module is determined / extracted by the encoder / decoder. The number of parameter bands applied to the OTT box is first determined / extracted (716), and then the number of parameter bands applied to the TTT box is determined / extracted (717). The number of parameter bands for the OTT box and / or TTT box will be described in detail below with reference to FIGS. 8A-9B.
확장 프레임이 존재하는 경우, spatialExtensionConfig 블록(718)은 확장 프레임에 대한 구성 정보를 포함한다. spatialExtensionConfig 블록(718)에 포함된 정보가 이하 도 10a 내지 도 10d를 참조하여 설명될 것이다.If there is an extension frame,
도 7b는 본 발명의 일 실시예에 따른 공간 정보 신호의 파라미터 대역들의 개수를 나타내는 표이다. numBands는 오디오 신호의 전체 주파수 영역에 대한 파라미터 대역들의 개수를 나타내고, bsFreqRes는 파라미터 대역들의 개수에 대한 인덱스 정보를 나타낸다. 예를 들어, 오디오 신호의 전체 주파수 영역은 원하는 바에 따른 파라미터 대역의 개수(예를 들어, 4, 5, 7, 10, 14, 20, 28 등)로 분할될 수 있다.7B is a table illustrating the number of parameter bands of a spatial information signal according to an embodiment of the present invention. numBands represents the number of parameter bands for the entire frequency domain of the audio signal, and bsFreqRes represents index information for the number of parameter bands. For example, the entire frequency region of the audio signal may be divided into the number of parameter bands (for example, 4, 5, 7, 10, 14, 20, 28, etc.) as desired.
일부 실시예에서는, 각 파라미터 대역에 하나의 파라미터가 적용될 수 있다. 예를 들어, numBands가 28인 경우, 오디오 신호의 전체 주파수 영역은 28개의 파라미터 대역들로 분할되고, 이러한 28개의 파라미터 대역들 각각에 28개의 파라미터들이 각각 적용될 수 있다. 다른 예에서, numBands가 4인 경우, 소정 오디오 신호의 전체 주파수 영역은 4개의 파라미터 대역들로 분할되고, 이러한 4개의 파라미터 대역들 각각에는 4개의 파라미터들이 각각 적용될 수 있다. 도 7b에서, Reserve는 소정 오디오 신호의 전체 주파수 영역에 대한 파라미터 대역들의 개수가 결정되지 않은 것을 의미한다.In some embodiments, one parameter may be applied to each parameter band. For example, when numBands is 28, the entire frequency region of the audio signal is divided into 28 parameter bands, and 28 parameters may be applied to each of these 28 parameter bands, respectively. In another example, when numBands is 4, the entire frequency region of a given audio signal is divided into four parameter bands, and four parameters may be applied to each of these four parameter bands, respectively. In FIG. 7B, Reserve means that the number of parameter bands for the entire frequency region of the predetermined audio signal is not determined.
인간의 청각 기관은 코딩 방식에서 사용되는 파라미터 대역들의 개수에 민감하지 않다는 것을 주의하여야 한다. 따라서, 적은 개수의 파라미터 대역들을 사용하여도 보다 많은 개수의 파라미터 대역들이 사용된 경우에 비해 청취자에게 유사한 공간 오디오 효과를 제공할 수 있다.It should be noted that the human auditory organ is not sensitive to the number of parameter bands used in the coding scheme. Thus, using fewer parameter bands can provide similar spatial audio effects to the listener as compared to the case where more parameter bands are used.
numBands와는 달리, 도 7a에 도시된 bsFramelength 필드(703)가 나타내는 numSlots은 모든 값을 나타낼 수 있다. 그러나, 1개의 공간 프레임내의 샘플들의 개수가 numSlots에 의해 명확히 분할되는 경우, numSlots의 값은 제한될 것이다. 따라서, 실질적으로 표현되어야 할 numSlots의 최대값이 'b'라면, bsFrameLength 필드(703)의 모든 값은 ceil{log2(b)} 비트(들)로 표현될 수 있다. 이 경우, 'ceil(x)'는 값 'x' 이상의 최대 정수를 의미한다. 예를 들어, 1개의 공간 프레임이 72개의 타임 슬롯들을 포함하는 경우, ceil{log2(72)} = 7 비트가 bsFrameLength 필드(703)에 할당될 수 있고, 채널 변환 모듈에 적용되는 파라미터 대역들의 개수는 numBands 내에서 결정될 수 있다.Unlike numBands, numSlots indicated by the
도 8a는, 본 발명의 일 실시예에 따라, OTT 박스에 적용되는 파라미터 대역들의 개수를 고정된 개수의 비트들로 나타내는 구문을 도시한다. 도 7a와 도 8a를 참조하면, 'i'는 '0'에서 'numOttBoxes 1'의 값을 갖고, 'numOttBoxes'는 OTT 박스의 총 개수이다. 즉, 'i'의 값이 각 OTT 박스를 나타내고, 각 OTT 박스에 적용되는 파라미터 대역들의 개수는 'i'의 값에 따라 표현된다. OTT 박스가 LFE 채널 모드를 갖는 경우, OTT 박스의 LFE 채널에 적용되는 파라미터 대역들의 개수(이하, bsOttBands라 함)는 고정된 개수의 비트들을 사용하여 표현될 수 있다. 도 8A에 도시된 예에서는, bsOttBands 필드(801)에 5 비트가 할당된다. OTT 박스가 LFE 채널 모드를 갖지 않는 경우, 총 개수의 파라미터 대역들(numBands)이 OTT 박스의 채널에 할당된다.FIG. 8A illustrates a syntax for representing a number of parameter bands applied to an OTT box as a fixed number of bits according to an embodiment of the present invention. 7A and 8A, 'i' has a value of 'numOttBoxes 1' to '0', and 'numOttBoxes' is the total number of OTT boxes. That is, the value of 'i' represents each OTT box, and the number of parameter bands applied to each OTT box is expressed according to the value of 'i'. When the OTT box has the LFE channel mode, the number of parameter bands (hereinafter referred to as bsOttBands) applied to the LFE channel of the OTT box may be expressed using a fixed number of bits. In the example shown in FIG. 8A, five bits are allocated to the
도 8b는, 본 발명의 일 실시예에 따라, OTT 박스에 적용되는 파라미터 대역들의 개수를 가변 개수의 비트들로 표현하는 구문을 도시한다. 도 8b는, 도 8a와 유사하지만, 도 8b에 도시된 bsOttBands 필드(802)가 가변 개수의 비트들로 표현된다는 점에서 도 8a와는 다르다. 구체적으로, numBands 이하의 값을 갖는 bsOttBands 필드(802)는 numBands를 사용하는 가변 개수의 비트로 표현될 수 있다.FIG. 8B illustrates a syntax for representing the number of parameter bands applied to the OTT box by a variable number of bits according to an embodiment of the present invention. FIG. 8B is similar to FIG. 8A but differs from FIG. 8A in that the
numBands가 2^(n-1) 이상이고 2^(n) 미만인 범위에 들면, bsOttBands 필드(802)는 가변 n 비트로 표현될 수 있다.If numBands is greater than or equal to 2 ^ (n-1) and less than 2 ^ (n), the
예를 들어: (a) numBands가 40인 경우, bsOttBands 필드(802)는 6 비트로 표현되고; (b) numBands가 28 또는 20인 경우, bsOttBands 필드(802)는 5 비트로 표현되고; (c) numBands가 14 또는 10인 경우, bsOttBands 필드(802)는 4 비트로 표현되며; (d) numBands가 7, 5 또는 4인 경우, bsOttBands 필드(802)는 3 비트로 표현된다.For example: (a) when numBands is 40, the
numBands가 2^(n-1) 초과이고 2^(n) 이하인 범위에 들면, bsOttBands 필드(802)는 가변 n 비트로 표현될 수 있다.If numBands is greater than 2 ^ (n-1) and less than or equal to 2 ^ (n), the
예를 들어: (a) numBands가 40인 경우, bsOttBands 필드(802)는 6 비트로 표 현되고; (b) numBands가 28 또는 20인 경우, bsOttBands 필드(802)는 5 비트로 표현되고; (c) numBands가 14 또는 10인 경우, bsOttBands 필드(802)는 4 비트로 표현되고; (d) numBands가 7 또는 5인 경우, bsOttBands 필드(802)는 3 비트로 표현되며; (e) numBands가 4인 경우, bsOttBands 필드(802)는 2 비트로 된다.For example: (a) when numBands is 40, the
bsOttBands 필드(802)는, numBands를 변수로서 취하여 가장 가까운 정수로 자리올림을 하는 함수(이하, 올림 함수(ceil function)이라 함)를 통해, 가변 개수의 비트들로 표현될 수 있다.The
구체적으로, i) 0 < bsOttBands numBands 또는 0 bsOttBands < numBands인 경우, bsOttBands 필드(802)는 ceil(log2(numBands))의 값에 대응하는 개수의 비트들로 표현되거나, ii) 0 bsOttBands numBands인 경우, bsOttBands 필드(802)는 ceil(log2(numBands + 1))로 표현될 수 있다.Specifically, i) when 0 <bsOttBands numBands or 0 bsOttBands <numBands, the
numBands(이하, numberBands라 함) 이하의 값이 임의로 결정되는 경우, bsBands 필드(802)는, numberBands를 변수로서 취하여 올림 함수를 통해, 가변 개수의 비트들로 표현될 수 있다.When a value less than or equal to numBands (hereinafter referred to as numberBands) is arbitrarily determined, the
구체적으로, i) 0 < bsOttBands numberBands 또는 0 bsOttBands < numberBands인 경우, bsOttBands 필드(802)는 ceil(log2(numberBands)) 비트들로 표현되거나, ii) 0 bsOttBands numberBands인 경우, bsOttBands 필드(802)는 ceil(log2(numberBands + 1))로 표현될 수 있다.Specifically, i) if 0 <bsOttBands numberBands or 0 bsOttBands <numberBands, the
하나 이상의 OTT 박스가 사용되는 경우, bsOttBands의 조합은 이하의 수학식 1로 표현될 수 있다:If more than one OTT box is used, the combination of bsOttBands can be represented by the following equation:
여기서, bsOttBandsi는 i번째 bsOttBands를 나타낸다. 예를 들어, OTT 박스가 3개 존재하고 bsOttBands 필드(802)에 대해 3개의 값(N=3)이 존재한다고 가정하자. 이러한 예에서, 3개의 OTT 박스에 적용되는 bsOttBands 필드(802)의 3개의 값(이하, 각각, a1, a2, a3라 함)은, 각각, 2비트로 표현될 수 있다. 그러므로, a1, a2, a3 값을 표현하기 위해 총 6 비트가 필요하다. 그러나, a1, a2, a3 값이 그룹으로 표현되는 경우, 27개(= 3 * 3 * 3)의 경우가 발생할 수 있고, 이는 5 비트로 표현될 수 있어 1 비트를 절약하게 된다. numBands가 3이고 5 비트로 표현되는 그룹 값이 15인 경우, 그룹 값은 15 = 1 x (3^2) + 2 * (3^1) + 0 * (3^0)으로 표현될 수 있다. 따라서, 디코더는 수학식 1의 역을 적용하여 그룹 값 15로부터 bsOttBands 필드(802)의 3개의 값 a1, a2, a3을 각각 1, 2, 0으로 결정할 수 있다.Here, bsOttBands i represents the i-th bsOttBands. For example, suppose there are three OTT boxes and three values (n = 3) for the
다수 OTT 박스의 경우, bsOttBands의 조합은 numberBands를 사용하는 수학식 2 내지 수학식 4(이하, 설명됨) 중 하나로서 표현될 수 있다. numberBands를 사용하는 bsOttBands의 표현은 수학식 1에서 numBands를 사용하는 표현과 유사하므로, 상세한 설명은 생략하고 그 식만을 이하에 개시하겠다.For multiple OTT boxes, the combination of bsOttBands may be represented as one of
도 9a는, 본 발명의 일 실시예에 따라, TTT 박스에 적용되는 파라미터 대역들의 개수를 고정된 개수의 비트들로 나타내는 구문을 도시한다. 도 7a와 도 9a를 참조하면, 'i'는 '0'에서 'numTttBoxes 1'의 값을 갖고, 'numTttBoxes'는 TTT 박스의 총 개수이다. 즉, 'i'의 값이 각 TTT 박스를 나타낸다. 각 TTT 박스에 적용되는 파라미터 대역들의 개수는 'i'의 값에 따라 표현된다. 일부 실시예에서, TTT 박스는 저주파 대역 범위와 고주파 대역 범위로 분할될 수 있고, 이러한 저주파 대역 범위와 고주파 대역 범위에는 서로 다른 처리가 적용될 수 있다. 다른 분할도 가능하다.FIG. 9A illustrates a syntax for representing the number of parameter bands applied to a TTT box as a fixed number of bits, according to an embodiment of the present invention. 7A and 9A, 'i' has a value of 'numTttBoxes 1' to '0', and 'numTttBoxes' is the total number of TTT boxes. That is, the value of 'i' represents each TTT box. The number of parameter bands applied to each TTT box is expressed according to the value of 'i'. In some embodiments, the TTT box may be divided into a low frequency band range and a high frequency band range, and different processing may be applied to the low frequency band range and the high frequency band range. Other divisions are possible.
bsTTTDualMode 필드(901)는 소정의 TTT 박스가 저주파 대역 범위와 고주파 대역 범위에 대해 각각 서로 다른 모드들(이하, 듀얼 모드라 함)로 동작하는지 여 부를 나타낸다. 예를 들어, bsTTTDualMode 필드(901)의 값이 0인 경우, 저주파 대역 범위와 고주파 대역 범위를 구별하지 않고 전체 대역 범위에 대해 1개의 모드가 사용된다. bsTTTDualMode 필드(901)의 값이 1인 경우, 저주파 대역 범위와 고주파 대역 범위에 대해 각각 서로 다른 모드가 사용된다.The
bsTttModeLow 필드(902)는 소정의 TTT 박스의 동작 모드를 나타내는 것으로, 이는 다양한 동작 모드를 가질 수 있다. 예를 들어, TTT 박스는, CPC 파라미터와 ICC 파라미터 등을 사용하는 예측 모드, CLD 파라미터를 사용하는 에너지 기반 모드 등을 가질 수 있다. TTT 박스가 듀얼 모드를 갖는 경우, 고주파 대역 범위에 대한 추가 정보가 필요할 것이다.The
bsTttModeHigh 필드(903)는 TTT 박스가 듀얼 모드를 갖는 경우 고주파 대역 범위의 동작 모드를 나타낸다.The
bsTttBandsLow 필드(904)는 TTT 박스에 적용되는 파라미터 대역들의 개수를 나타낸다.The
bsTttBandsHigh 필드(905)는 numBands를 갖는다.The
TTT 박스가 듀얼 모드를 갖는 경우, 저대역 범위는 0 이상 bsTttBandsLow 미만이고, 고대역 범위는 bsTttBandsLow 이상 bsTttBandsHigh 미만일 것이다.If the TTT box has dual mode, the low band range will be greater than 0 and less than bsTttBandsLow, and the high band range will be greater than bsTttBandsLow and less than bsTttBandsHigh.
TTT 박스가 듀얼 모드를 갖지 않는 경우, TTT 박스에 적용되는 파라미터 대역의 개수는 0 이상 numBands 미만일 것이다(907).If the TTT box does not have dual mode, the number of parameter bands applied to the TTT box will be greater than 0 and less than numBands (907).
bsTttBandsLow 필드(904)는 고정된 개수의 비트들로 표현될 수 있다. 예를 들어, 도 9a에 도시된 바와 같이, bsTttBandsLow 필드(904)를 표현하기 위해 5 비 트가 할당될 수 있다.The
도 9b는, 본 발명의 일 실시예에 따라, TTT 박스에 적용되는 파라미터 대역들의 개수를 가변 개수의 비트들로 표현하는 구문을 도시한다. 도 9b는, 도 9a와 유사하지만, 도 9b에서는 bsTttBandsLow 필드(907)를 가변 개수의 비트들로 표현하고 도 9a에서는 bsTttBandsLow 필드(904)를 고정된 개수의 비트들로 표현한다는 점에서 도 9a와 도 9b는 다르다. 구체적으로, bsTttBandsLow 필드(907)는 numBands 이하의 값을 갖기 때문에, bsTttBandsLow 필드(907)는 numBands를 사용하는 가변 개수의 비트로 표현될 수 있다.FIG. 9B illustrates a syntax for representing the number of parameter bands applied to the TTT box as a variable number of bits according to an embodiment of the present invention. FIG. 9B is similar to FIG. 9A, but in FIG. 9B the
구체적으로, numBands가 2^(n-1) 이상이고 2^(n) 미만인 범위에 들면, bsTttBandsLow 필드(907)는 n 비트로 표현될 수 있다.In detail, when numBands is greater than or equal to 2 ^ (n-1) and less than 2 ^ (n), the
예를 들어: (i) numBands가 40인 경우, bsTttBandsLow 필드(907)는 6 비트로 표현되고; (ii) numBands가 28 또는 20인 경우, bsTttBandsLow 필드(907)는 5 비트로 표현되고; (iii) numBands가 14 또는 10인 경우, bsTttBandsLow 필드(907)는 4 비트로 표현되며; (iv) numBands가 7, 5 또는 4인 경우, bsTttBandsLow 필드(907)는 3 비트로 표현된다.For example: (i) when numBands is 40, the
numBands가 2^(n-1) 초과이고 2^(n) 이하인 범위에 들면, bsTttBandsLow 필드(907)는 가변 n 비트로 표현될 수 있다.If numBands is greater than 2 ^ (n-1) and less than or equal to 2 ^ (n), the
예를 들어: (i) numBands가 40인 경우, bsTttBandsLow 필드(907)는 6 비트로 표현되고; (ii) numBands가 28 또는 20인 경우, bsTttBandsLow 필드(907)는 5 비트로 표현되고; (iii) numBands가 14 또는 10인 경우, bsTttBandsLow 필드(907)는 4 비트로 표현되고; (iv) numBands가 7 또는 5인 경우, bsTttBandsLow 필드(907)는 3 비트로 표현되며; (v) numBands가 4인 경우, bsOttBands 필드(802)는 2 비트로 된다.For example: (i) when numBands is 40, the
bsTttBandsLow 필드(907)는, numBands를 변수로서 취하여 가장 가까운 정수로 자리올림하여 결정되는 개수의 비트들로 표현될 수 있다.The
예를 들어: i) 0 < bsOttBandsLow numBands 또는 0 bsOttBandsLow < numBands인 경우, bsTttBandsLow 필드(907)는 ceil(log2(numBands))의 값에 대응하는 개수의 비트들로 표현되거나, ii) 0 bsOttBandsLow numBands인 경우, bsTttBandsLow 필드(907)는 ceil(log2(numBands + 1))로 표현될 수 있다.For example: i) If 0 <bsOttBandsLow numBands or 0 bsOttBandsLow <numBands, the
numBands, 즉, numberBands 이하의 값이 임의로 결정되는 경우, bsTttBandsLow 필드(907)는, numberBands를 사용하여 가변 개수의 비트들로 표현될 수 있다.When a value less than or equal to numBands, that is, numberBands, is arbitrarily determined, the
구체적으로, i) 0 < bsOttBandsLow numberBands 또는 0 bsOttBandsLow < numberBands인 경우, bsTttBandsLow 필드(907)는 ceil(log2(numberBands))의 값에 대응하는 개수의 비트들로 표현되거나, ii) 0 bsOttBandsLow numberBands인 경우, bsTttBandsLow 필드(907)는 ceil(log2(numberBands + 1))의 값에 대응하는 개수의 비트들로 표현될 수 있다.Specifically, i) when 0 <bsOttBandsLow numberBands or 0 bsOttBandsLow <numberBands, the
다수의 OTT 박스가 사용되는 경우, bsOttBandsLow의 조합은 이하의 수학식 5로 표현될 수 있다:If multiple OTT boxes are used, the combination of bsOttBandsLow can be represented by
여기서, bsTttBandsLowi는 i번째 bsTttBandsLow를 나타낸다. 수학식 5의 의미는 수학식 1의 의미와 동일하므로, 수학식 5의 상세한 설명은 생략한다.Here, bsTttBandsLow i represents the i-th bsTttBandsLow. Since the meaning of
다수 OTT 박스의 경우, bsOttBandsLow의 조합은 numberBands를 사용하는 수학식 6 내지 수학식 8 중 하나로서 표현될 수 있다. 수학식 6 내지 수학식 8의 의미는 수학식 2 내지 수학식 4의 의미와 동일하므로, 수학식 6 내지 수학식 8의 상세한 설명은 생략한다.For multiple OTT boxes, the combination of bsOttBandsLow can be represented as one of equations (6) to (8) using numberBands. Since the meanings of
채널 변환 모듈(예를 들어, OTT 박스 및/또는 TTT 박스 등)에 적용되는 파라 미터 대역들의 개수는 numBands의 분할 값으로서 표현될 수 있다. 이 경우, 상술한 분할 값은, numBands의 절반 값 또는 특정 값으로 numBands를 나눈 결과 값을 사용한다.The number of parameter bands applied to the channel conversion module (eg, OTT box and / or TTT box, etc.) may be expressed as a split value of numBands. In this case, the above-mentioned split value uses the result of dividing numBands by half of numBands or a specific value.
일단, OTT 및/또는 TT 박스에 적용되는 파라미터 대역들의 개수가 결정되면, 상기 파라미터 대역들의 개수의 범위 내에서 각 OTT 박스 및/또는 각 TTT 박스에 적용될 수 있는 파라미터 세트들이 결정된다. 각 OTT 박스 및/또는 각 TTT 박스에는 각 파라미터 세트가 타임 슬롯 단위로 적용될 수 있다. 즉, 하나의 타임 슬롯에 하나의 파라미터 세트가 적용될 수 있다.Once the number of parameter bands applied to the OTT and / or TT box is determined, parameter sets that can be applied to each OTT box and / or each TTT box are determined within the range of the number of parameter bands. Each parameter set may be applied to each OTT box and / or each TTT box in units of time slots. That is, one parameter set may be applied to one time slot.
지금까지의 설명에서 언급된 바와 같이, 1개의 공간 프레임은 복수의 타임 슬롯을 포함할 수 있다. 공간 프레임이 고정된 프레임 타입인 경우, 복수의 타임 슬롯에는 등간격으로 파라미터 세트가 적용될 수 있다. 공간 프레임이 가변 프레임 타입인 경우, 파라미터가 적용되는 타임 슬롯의 위치 정보가 필요하다. 이는 도 13a 내지 13c를 참조하여 후술될 것이다.As mentioned in the foregoing description, one spatial frame may include a plurality of time slots. When the space frame is a fixed frame type, parameter sets may be applied to the plurality of time slots at equal intervals. When the spatial frame is a variable frame type, position information of a time slot to which a parameter is applied is required. This will be described later with reference to FIGS. 13A-13C.
도 10a는 본 발명의 일 실시예에 따라 공간 확장 프레임에 대한 공간 확장 구성 정보를 나타내는 구문을 도시한다. 공간 확장 구성 정보는, bsSacExtType 필드(1001)와, bsSacExtLen 필드(1002)와, bsSacExtLenAdd 필드(1003)와, bsSacExtLenAddAdd 필드(1004)와, bsFillBits 필드(1007)를 포함한다. 다른 필드들도 가능하다.FIG. 10A illustrates syntax representing spatial extension configuration information for a spatial extension frame according to an embodiment of the present invention. FIG. The spatial extension configuration information includes a
bsSacExtType 필드(1001)는 공간 확장 프레임의 데이터 타입을 나타낸다. 예를 들어, 공간 확장 프레임은, 0, 레지듀얼 신호 데이터, 임의의 다운믹스 레지 듀얼 신호 데이터 또는 임의의 트리 데이터로 채워질 수 있다.The
bsSacExtLen 필드(1002)는 공간 확장 구성 정보의 바이트 개수를 나타낸다.The
bsSacExtLenAdd 필드(1003)는, 공간 확장 구성 정보의 바이트 수가 예를 들어 15 이상인 경우, 공간 확장 구성 정보의 추가 바이트 개수를 나타낸다.The
bsSacLenAddAdd 필드(1004)는, 공간 확장 구성 정보의 바이트 수가 예를 들어 270 이상인 경우, 공간 확장 구성 정보의 추가 바이트 개수를 나타낸다.The
인코더/디코더에서 각 필드가 결정/추출된 후, 공간 확장 프레임에 포함되는 데이터 타입에 대한 구성 정보가 결정된다(1005).After each field is determined / extracted in the encoder / decoder, configuration information for the data type included in the spatial extension frame is determined (1005).
앞서 설명에서 언급된 바와 같이, 공간 확장 프레임에는 레지듀얼 신호 데이터, 임의의 다운믹스 레지듀얼 신호 데이터, 트리 구성 데이터 등이 포함될 수 있다.As mentioned in the foregoing description, the spatial extension frame may include residual signal data, arbitrary downmix residual signal data, tree configuration data, and the like.
계속해서, 공간 확장 구성 정보의 길이 중 사용되지 않은 비트의 개수가 산출된다(1006).Subsequently, the number of unused bits in the length of the spatial extension configuration information is calculated (1006).
bsFillBits 필드(1007)는 사용되지 않은 비트들을 채우기 위해 간과될 수 있는 데이터의 비트 개수를 나타낸다.The
도 10b와 도 10c는, 본 발명의 일 실시예에 따라, 공간 확장 프레임에 레지듀얼 신호가 포함되는 경우, 레지듀얼 신호를 위한 공간 확장 정보를 나타내는 구문을 도시한다.10B and 10C illustrate syntaxes indicating spatial extension information for a residual signal when a residual signal is included in a spatial extension frame according to an embodiment of the present invention.
도 10b를 참조하면, bsResidualSamplingFrequencyIndex 필드(1008)는 레지듀얼 신호의 샘플링 주파수를 나타낸다.Referring to FIG. 10B, a
bsResidualFramesPerSpatialFrame 필드(1009)는 공간 프레임 당 레지듀얼 프레임의 개수를 나타낸다. 예를 들어, 1개의 공간 프레임에 1개, 2개, 3개 또는 4개의 레지듀얼 프레임이 포함될 수 있다.The
ResidualConfig 필드(1010)는 각 OTT 및/또는 TTT 박스에 적용되는 레지듀얼 신호에 대한 파라미터 대역의 개수를 나타낸다.The
도 10c를 참조하면, bsResidualPresent 필드(1011)는 각 OTT 및/또는 TTT 박스에 레지듀얼 신호가 적용되는지 여부를 나타낸다.Referring to FIG. 10C, the
bsResidualBands 필드(1012)는, 각 OTT 및/또는 TTT 박스에 레지듀얼 신호가 존재하는 경우, 각 OTT 및/또는 TTT 박스에 존재하는 레지듀얼 신호의 파라미터 대역의 개수를 나타낸다. 레지듀얼 신호의 파라미터 대역의 개수는 고정된 개수의 비트들 또는 가변 개수의 비트들로 표현될 수 있다. 파라미터 대역의 개수가 고정된 개수의 비트로 표현되는 경우, 레지듀얼 신호는 오디오 신호의 파라미터 대역들의 총 개수 이하의 값을 가질 수 있다. 그러므로, 모든 파라미터 대역들의 개수를 나타내기 위해 필요한 비트 수(예를 들어, 도 10C에서의 5 비트 등)가 할당될 수 있다.The
도 10d는, 본 발명의 일 실시예에 따라, 레지듀얼 신호의 파라미터 대역들의 개수를 가변 개수의 비트들로 표현하는 구문을 도시한다. beResidualBands 필드(1014)는 numBands를 사용하는 가변 개수의 비트들로 표현될 수 있다.FIG. 10D illustrates a syntax for representing the number of parameter bands of the residual signal into a variable number of bits, according to an embodiment of the present invention. The
numBands가 2^(n-1) 이상이고 2^(n) 미만이면, beResidualBands 필드(1014)는 n 비트로 표현될 수 있다.If numBands is greater than or equal to 2 ^ (n-1) and less than 2 ^ (n), the
예를 들어: (i) numBands가 40인 경우, beResidualBands 필드(1014)는 6 비트로 표현되고; (ii) numBands가 28 또는 20인 경우, beResidualBands 필드(1014)는 5 비트로 표현되고; (iii) numBands가 14 또는 10인 경우, beResidualBands 필드(1014)는 4 비트로 표현되며; (iv) numBands가 7, 5 또는 4인 경우, beResidualBands 필드(1014)는 는 3 비트로 표현된다.For example: (i) when numBands is 40, the
numBands가 2^(n-1) 초과이고 2^(n) 이하이면, beResidualBands 필드(1014)는 가변 n 비트로 표현될 수 있다.If numBands is greater than 2 ^ (n-1) and less than or equal to 2 ^ (n), the
예를 들어: (i) numBands가 40인 경우, beResidualBands 필드(1014)는 6 비트로 표현되고; (ii) numBands가 28 또는 20인 경우, beResidualBands 필드(1014)는 5 비트로 표현되고; (iii) numBands가 14 또는 10인 경우, beResidualBands 필드(1014)는 4 비트로 표현되고; (iv) numBands가 7 또는 5인 경우, beResidualBands 필드(1014)는 3 비트로 표현되며; (v) numBands가 4인 경우, beResidualBands 필드(1014)는 2 비트로 된다.For example: (i) when numBands is 40, the
또한, beResidualBands 필드(1014)는, numBands를 변수로서 취하여 가장 가까운 정수로 자리올림하여 결정되는 올림 함수에 의해 결정되는 비트 수로 표현될 수 있다.In addition, the
구체적으로, i) 0 < beResidualBands numBands 또는 0 beResidualBands < numBands인 경우, beResidualBands 필드(1014)는 ceil(log2(numBands)) 비트들로 표현되거나, ii) 0 beResidualBands numBands인 경우, beResidualBands 필드(1014) 는 ceil(log2(numBands + 1)) 비트로 표현될 수 있다.Specifically, i) when 0 <beResidualBands numBands or 0 beResidualBands <numBands, the
일부 실시예에서는, numBands 이하인 값(numberBands를 사용하여 beResidualBands 필드(1014)가 표현될 수 있다. In some embodiments, the
구체적으로, i) 0 < beResidualBands numberBands 또는 0 beResidualBands < numberBands인 경우, beResidualBands 필드(1014)는 ceil(log2(numberBands)) 비트로 표현되거나, ii) 0 beResidualBands numberBands인 경우, beResidualBands 필드(1014)는 ceil(log2(numberBands + 1))의 값으로 표현될 수 있다.Specifically, i) when 0 <beResidualBands numberBands or 0 beResidualBands <numberBands, the
복수의 레지듀얼 신호(N)가 존재하는 경우, beResidualBands의 조합은 이하의 수학식 9로 표현될 수 있다:When there are a plurality of residual signals N, a combination of beResidualBands may be represented by
이 경우, bsResidualBandsi는 i번째 bsResidualBands를 나타낸다. 수학식 9의 의미는 수학식 1의 의미와 동일하므로, 수학식 9의 상세한 설명은 생략한다.In this case, bsResidualBands i represents the i-th bsResidualBands. Since the meaning of
다수의 레지듀얼 신호가 존재하는 경우, bsResidualBands의 조합은 numberBands를 사용하는 수학식 10 내지 수학식 12 중 하나로서 표현될 수 있다. numberBands를 사용하여 bsResidualBands를 표현하는 것은 수학식 2 내지 수학식 4와 유사하므로, 상세한 설명은 생략한다.If there are multiple residual signals, the combination of bsResidualBands may be represented as one of
레지듀얼 신호의 파라미터 대역들의 개수는 numBands의 분할 값으로서 표현될 수 있다. 이 경우, 상술한 분할 값은, numBands의 절반 값 또는 특정 값으로 numBands를 나눈 결과 값을 사용한다.The number of parameter bands of the residual signal may be expressed as a division value of numBands. In this case, the above-mentioned split value uses the result of dividing numBands by half of numBands or a specific value.
레지듀얼 신호는 다운믹스 신호 및 공간 정보 신호와 함께 오디오 신호의 비트스트림에 포함될 수 있고, 이러한 비트스트림은 디코더에 전송될 수 있다. 디코더는 이러한 비트스트림으로부터 상기 다운믹스 신호와, 공간 정보 신호 및 레지듀얼 신호를 추출할 수 있다.The residual signal may be included in the bitstream of the audio signal along with the downmix signal and the spatial information signal, which may be transmitted to the decoder. The decoder may extract the downmix signal, the spatial information signal, and the residual signal from the bitstream.
계속해서, 다운믹스 신호는 공간 정보를 사용하여 업믹스된다. 한편, 레지듀얼 신호는 업믹스위 과정에서 다운믹스 신호에 적용된다. 구체적으로, 다운믹스 신호는 공간 정보를 사용하는 복수의 채널 변환 모듈에서 업믹스된다. 이와 같은 과정에서, 레지듀얼 신호가 채널 변환 모듈에 적용된다. 지금까지의 설명에서 언 급된 바와 같이, 채널 변환 모듈은 복수의 파라미터 대역을 갖고, 파라미트 세트는 타임 슬롯 단위로 채널 변환 모듈에 적용된다. 레지듀얼 신호가 채널 변환 모듈에 적용되는 경우, 레지듀얼 신호가 적용되는 오디오 신호의 채널간 상관 정보를 업데이트하기 위해서는 레지듀얼 신호가 필요할 것이다. 이와 같이 업데이트된 채널관 상관 정보는 업믹싱 처리에 사용된다.Subsequently, the downmix signal is upmixed using spatial information. On the other hand, the residual signal is applied to the downmix signal in the upmix process. Specifically, the downmix signal is upmixed in a plurality of channel conversion modules using spatial information. In this process, the residual signal is applied to the channel conversion module. As mentioned in the foregoing description, the channel conversion module has a plurality of parameter bands, and a set of parameters is applied to the channel conversion module in units of time slots. When the residual signal is applied to the channel conversion module, the residual signal will be needed to update the inter-channel correlation information of the audio signal to which the residual signal is applied. The updated channel correlation information is used for the upmixing process.
도 11a는 본 발명의 일 실시예에 따른 논-가이드 코딩(non-guided coding)을 위한 디코더를 나타내는 블록도이다. 논-가이드 코딩은 오디오 신호의 비트스트림에 공간 정보가 포함되지 않는 것을 의미한다.11A is a block diagram illustrating a decoder for non-guided coding according to an embodiment of the present invention. Non-guided coding means that the spatial information is not included in the bitstream of the audio signal.
일부 실시예에서, 디코더는 분석 필터 뱅크(filter bank; 1102)와, 분석부(1104)와, 공간 합성부(1006)와, 합성 필터 뱅크(1108)를 포함한다. 도 11a에는 스테레오 신호 타입의 다운 믹스 신호가 도시되었지만, 다른 타입의 다운믹스 신호가 사용될 수 있다.In some embodiments, the decoder includes an
동작시, 디코더는 다운믹스 신호(1101)를 수신하고, 분석 필터 뱅크(1102)는 상기 수신된 다운믹스 신호(1101)를 주파수 영역 신호(1103)로 변환한다. 분석부(1104)는 상기 변환된 다운믹스 신호(1103)로부터 공간 정보를 생성한다. 분석부(1104)가 슬롯 단위로 처리를 수행하여, 복수의 슬롯마다 공간 정보(1105)를 생성할 수 있다. 이 경우, 슬롯은 타임 슬롯을 포함한다.In operation, the decoder receives the
공간 정보는 2단계로 생성될 수 있다. 첫째, 다운믹스 신호로부터 다운믹스 파라미터가 생성된다. 둘째, 상기 다운믹스 파라미터는 공간 파라미터 등의 공간 정보로 변환된다. 일부 실시예에서, 다운믹스 파라미터는 다운믹스 신호의 행렬 연산을 통해 생성될 수 있다.Spatial information can be generated in two steps. First, downmix parameters are generated from the downmix signal. Second, the downmix parameters are converted into spatial information such as spatial parameters. In some embodiments, the downmix parameter may be generated through matrix operations of the downmix signal.
공간 합성부(1106)는 상기 생성된 공간 정보(1105)와 다운믹스 신호(1103)를 합성하여 멀티 채널 오디오 신호(1107)를 생성한다. 상기 생성된 멀티 채널 오디오 신호(1107)는 합성 필터 뱅크(1108)를 통과하여 시간 영역 오디오 신호(1109)로 변환된다.The
공간 정보는 소정 슬롯 위치들에 생성될 수 있다. 이러한 위치들간 거리는 동일할 수 있다(즉, 등거리). 예를들어, 공간 정보는 4개의 슬롯마다 생성될 수 있다. 또한, 공간 정보는 가변 슬롯 위치에 생성될 수 있다. 이 경우, 공간 정보가 생성되는 위치 정보가 비트스트림으로부터 추출될 수 있다. 상기 위치 정보는 가변 개수의 비트들로 표현될 수 있다. 상기 위치는 이전 슬롯 위치 정보로부터의 절대값 및 차분값으로서 표현될 수 있다.Spatial information may be generated at predetermined slot locations. The distance between these locations may be the same (ie equidistant). For example, spatial information may be generated every four slots. In addition, spatial information may be generated at variable slot positions. In this case, position information for generating spatial information may be extracted from the bitstream. The location information may be represented by a variable number of bits. The position may be expressed as an absolute value and a difference value from previous slot position information.
논-가이드 코딩을 사용하는 경우, 오디오 신호의 각 채널에 대한 파라미터 대역들의 개수(이하, bsNumguidedBlindBands라 함)는 고정된 개수의 비트로 표현될 수 있다. bsNumguidedBlindBands는 numBands를 이용하는 가변 개수의 비트로 표현될 수 있다. 예를 들어, numBands가 2^(n-1) 이상이고 2^(n) 미만이면, bsNumguidedBlindBands는 가변 n 비트로 표현될 수 있다.When using non-guided coding, the number of parameter bands (hereinafter, referred to as bsNumguidedBlindBands) for each channel of the audio signal may be represented by a fixed number of bits. bsNumguidedBlindBands may be represented by a variable number of bits using numBands. For example, if numBands is greater than or equal to 2 ^ (n-1) and less than 2 ^ (n), bsNumguidedBlindBands may be represented by variable n bits.
구체적으로, (a) numBands가 40인 경우, bsNumguidedBlindBands는 6 비트로 표현되고; (b) numBands가 28 또는 20인 경우, bsNumguidedBlindBands는 5 비트로 표현되고; (c) numBands가 14 또는 10인 경우, bsNumguidedBlindBands는 4 비트로 표현되며; (d) numBands가 7, 5 또는 4인 경우, bsNumguidedBlindBands는 3 비트로 표현된다.Specifically, (a) when numBands is 40, bsNumguidedBlindBands is represented by 6 bits; (b) when numBands is 28 or 20, bsNumguidedBlindBands is represented by 5 bits; (c) when numBands is 14 or 10, bsNumguidedBlindBands is represented by 4 bits; (d) When numBands is 7, 5 or 4, bsNumguidedBlindBands is represented by 3 bits.
numBands가 2^(n-1) 초과이고 2^(n) 이하이면, bsNumguidedBlindBands는 가변 n 비트로 표현될 수 있다.If numBands is greater than 2 ^ (n-1) and less than or equal to 2 ^ (n), bsNumguidedBlindBands may be represented by variable n bits.
예를 들어: (a) numBands가 40인 경우, bsNumguidedBlindBands는 6 비트로 표현되고; (b) numBands가 28 또는 20인 경우, bsNumguidedBlindBands는 5 비트로 표현되고; (c) numBands가 14 또는 10인 경우, bsNumguidedBlindBands는 4 비트로 표현되고; (d) numBands가 7 또는 5인 경우, bsNumguidedBlindBands는 3 비트로 표현되며; (e) numBands가 4인 경우, bsNumguidedBlindBands는 2 비트로 된다.For example: (a) when numBands is 40, bsNumguidedBlindBands is represented by 6 bits; (b) when numBands is 28 or 20, bsNumguidedBlindBands is represented by 5 bits; (c) when numBands is 14 or 10, bsNumguidedBlindBands is represented by 4 bits; (d) when numBands is 7 or 5, bsNumguidedBlindBands is represented by 3 bits; (e) When numBands is 4, bsNumguidedBlindBands is 2 bits.
또한, bsNumguidedBlindBands는 numBands를 변수로서 취하는 자리올림 함수를 사용하여 가변 개수의 비트들로 표현될 수 있다.In addition, bsNumguidedBlindBands may be represented by a variable number of bits using a rounding function that takes numBands as a variable.
예를 들어, i) 0 < bsNumguidedBlindBands numBands 또는 0 bsNumguidedBlindBands < numBands인 경우, bsNumguidedBlindBands는 ceil(log2(numBands)) 비트로 표현되거나, ii) 0 bsNumguidedBlindBands numBands인 경우, bsNumguidedBlindBands는 ceil(log2(numBands + 1)) 비트로 표현될 수 있다.For example, i) 0 <bsNumguidedBlindBands numBands or 0 bsNumguidedBlindBands <If the numBands, bsNumguidedBlindBands is ceil (log 2 (numBands)) representing bits or, ii) 0 bsNumguidedBlindBands case numBands is, bsNumguidedBlindBands is ceil (log 2 (numBands + 1 )) Can be expressed in bits.
numBands 이하의 값, 즉 numberBands가 임의로 결정되는 경우, bsNumguidedBlindBands는 다음과 같이 표현될 수 있다.When a value less than or equal to numBands, that is, numberBands is arbitrarily determined, bsNumguidedBlindBands may be expressed as follows.
구체적으로, i) 0 < bsNumguidedBlindBands numberBands 또는 0 bsNumguidedBlindBands < numberBands인 경우, bsNumguidedBlindBands는 ceil(log2(numberBands)) 비트들로 표현되거나, ii) 0 bsNumguidedBlindBands numberBands인 경우, bsNumguidedBlindBands는 ceil(log2(numberBands + 1))로 표현될 수 있다.Specifically, i) 0 <If bsNumguidedBlindBands numberBands or 0 bsNumguidedBlindBands <numberBands, bsNumguidedBlindBands is represented by a ceil (log 2 (numberBands)) bits, ii) 0 bsNumguidedBlindBands case numberBands of, bsNumguidedBlindBands is ceil (log 2 (numberBands + 1)).
다수의 채널(N)이 사용되는 경우, bsNumguidedBlindBands의 조합은 이하의 수학식 13으로 표현될 수 있다:When multiple channels N are used, the combination of bsNumguidedBlindBands can be represented by the following equation (13):
여기서, bsNumguidedBlindBandsi는 i번째 bsNumguidedBlindBands를 나타낸다. 수학식 13의 의미는 수학식 1의 의미와 동일하므로, 수학식 13의 상세한 설명은 생략한다.Here, bsNumguidedBlindBands i represents the i-th bsNumguidedBlindBands. Since the meaning of Equation 13 is the same as that of
다수 채널이 존재하는 경우, bsNumguidedBlindBands는 numberBands를 사용하는 수학식 14 내지 수학식 16 중 하나로서 표현될 수 있다. numberBands를 사용하는 bsNumguidedBlindBands의 표현은 수학식 2 내지 수학식 4의 표현과 동일하므로, 수학식 14 내지 수학식 16의 상세한 설명은 생략한다.If there are multiple channels, bsNumguidedBlindBands may be represented as one of
도 11b는 본 발명의 일 실시예에 따라 파라미터 대역 밴드의 개수를 그룹으로서 표현하는 방법을 나타내는 도면이다. 파라미터 대역의 개수는, 채널 변환 모듈에 적용되는 파라미터 대역의 개수 정보와, 레지듀얼 신호에 적용되는 파라미터 대역의 개수 정보와, 논-가이드 코딩을 사용하는 경우 오디오 신호의 각 채널에 대한 파라미터 대역의 개수 정보를 포함한다. 파라미터 대역의 개수 정보가 복수 존재하는 경우, 복수의 개수 정보(예를 들어, bsOttBands, bsTttBands, bsResidualBands 및/또는 bsNumguidedBlindBands 등)는 적어도 하나의 그룹으로서 표현될 수 있다.11B is a diagram illustrating a method of expressing the number of parameter band bands as a group according to an embodiment of the present invention. The number of parameter bands includes information on the number of parameter bands applied to the channel conversion module, the number of parameter bands applied to the residual signal, and the number of parameter bands for each channel of the audio signal when non-guided coding is used. Contains count information. When there are a plurality of number of parameter bands, a plurality of number information (for example, bsOttBands, bsTttBands, bsResidualBands and / or bsNumguidedBlindBands, etc.) may be represented as at least one group.
도 11b를 참조하면, 파라미터 대역의 개수 정보가 (kN + L)개 존재하고 각 파라미터 대역의 개수 정보를 표현하는데 Q비트가 필요한 경우, 복수개인 파라미터 대역의 개수 정보는 이하의 그룹으로 표현될 수 있다. 이 경우, 'k'와 'N'은 '0'이 아닌 임의의 정수이고, 'L'은 0 L < N을 충족시키는 임의의 정수이다.Referring to FIG. 11B, when there are (kN + L) number of parameter bands and Q bits are required to express the number information of each parameter band, the number information of a plurality of parameter bands may be represented by the following group. have. In this case, 'k' and 'N' are any integer other than '0' and 'L' is any integer satisfying 0 L <N.
그룹화 방법은, 파라미터 대역의 개수 정보 N개를 묶어서 k개의 그룹을 생성하는 단계와, 마지막 파라미터 대역의 개수 정보 L개를 묶어서 최종 그룹을 생성하 는 단계를 포함한다. K개의 그룹은 M 비트로 표현될 수 있고, 최종 그룹은 p 비트로 표현될 수 있다. 이 경우, M 비트가 바람직하게는, 파라미터 대역의 개수 정보 각각을 그룹화하지 않고 표현하는 경우 사용되는 N*Q 비트보다 작다. P 비트가 바람직하게는, 파라미터 대역의 개수 정보 각각을 그룹화하지 않고 표현하는 경우 사용되는 L*Q 비트 이하이다.The grouping method includes generating k groups by tying N number information of parameter bands and generating final group by tying L number information of last parameter bands. K groups may be represented by M bits, and the final group may be represented by p bits. In this case, the M bits are preferably smaller than the N * Q bits used when representing each of the number information of the parameter bands without grouping them. The P bits are preferably less than or equal to the L * Q bits used when representing each of the number information of the parameter bands without grouping them.
예를 들어, 파라미터 대역의 개수 정보 2개가 각각 b1과 b2라고 가정하자. b1과 b2가 각각 5개의 값을 갖는 경우, b1과 b2 각각을 표현하는데 3 비트가 필요하다. 이 경우, 3 비트는 8개의 값을 값을 표현할 수 있더라도, 실질적으로는 5개의 값이 필요하다. 따라서, b1과 b2 각각은 3개의 여분을 갖는다. 그러나, b1과 b2를 함께 묶어서 그룹으로서 표현하는 경우는, 6 비트(= 3 비트 + 3 비트) 대신에 5 비트가 사용될 것이다. 구체적으로, b1과 b2의 모든 조합은 25개(= 5 * 5)의 타입을 갖기 때문에, b1과 b2의 그룹은 5 비트로 표현될 수 있다. 5 비트는 32개의 값을 표현할 수 있으므로, 그룹화 표현의 경우 7개의 여분이 생성된다. 그러나, b1과 b2를 그룹화하여 표현하는 경우, 그 여분은 b1과 b2를 각각 3 비트로 표현하는 경우의 여분보다 작다. 파라미터 대역들의 개수 정보 복수개를 그룹으로서 표현하는 방법은 이하와 같이 다양한 방식으로 구현될 수 있다.For example, assume that two pieces of information of the number of parameter bands are b1 and b2, respectively. If b1 and b2 each have five values, three bits are required to represent each of b1 and b2. In this case, although three bits can represent eight values, substantially five values are required. Thus, each of b1 and b2 has three spares. However, when b1 and b2 are grouped together and represented as a group, 5 bits will be used instead of 6 bits (= 3 bits + 3 bits). Specifically, since all combinations of b1 and b2 have 25 types (= 5 * 5), groups of b1 and b2 can be represented by 5 bits. Since five bits can represent 32 values, seven spares are generated for the grouping representation. However, in the case where b1 and b2 are represented by grouping, the excess is smaller than that when b1 and b2 are represented by 3 bits, respectively. The method of expressing the number information of the parameter bands as a group may be implemented in various ways as follows.
파라미터 대역의 개수 정보 복수개가 각각 40 가지의 값을 갖는 경우, N으로서 2, 3, 4, 5 또는 6을 사용하여 k개의 그룹이 생성된다. 이러한 k개의 그룹은 각각 11 비트, 16 비트, 22 비트, 27 비트, 32 비트로서 표현될 수 있다. 대안적으로, 이러한 k개의 그룹은 각 경우를 조합하여 표현된다.When the number information of the number of parameter bands each has 40 values, k groups are generated using 2, 3, 4, 5 or 6 as N. These k groups can be represented as 11 bits, 16 bits, 22 bits, 27 bits, and 32 bits, respectively. Alternatively, these k groups are represented by combining each case.
파라미터 대역의 개수 정보 복수개가 각각 28가지의 값을 갖는 경우, N으로서 6을 사용하여 k개의 그룹이 생성되고, k는 29 비트로 표현될 수 있다.When the number information of the number of parameter bands each has 28 values, k groups are generated using 6 as N, and k may be represented by 29 bits.
파라미터 대역의 개수 정보 복수개가 각각 20가지의 값을 갖는 경우, N으로서 2, 3, 4, 5, 6 또는 7을 사용하여 k개의 그룹이 생성된다. 이러한 k개의 그룹은 각각 9 비트, 13 비트, 18 비트, 22 비트, 26 비트 및 31 비트로서 표현될 수 있다. 대안적으로, 이러한 k개의 그룹은 각 경우를 조합하여 표현될 수 있다.When the number information of the number of parameter bands each has 20 values, k groups are generated using 2, 3, 4, 5, 6 or 7 as N. These k groups can be represented as 9 bits, 13 bits, 18 bits, 22 bits, 26 bits and 31 bits, respectively. Alternatively, these k groups can be represented in combination with each case.
파라미터 대역의 개수 정보 복수개가 각각 14가지의 값을 갖는 경우, N으로서 6을 사용하여 k개의 그룹이 생성된다. 이러한 k개의 그룹은 23비트로 표현될 수 있다.When the number information of the number of parameter bands each has 14 values, k groups are generated using 6 as N. These k groups can be represented by 23 bits.
파라미터 대역의 개수 정보 복수개가 각각 10가지의 값을 갖는 경우, N으로서 2, 3, 4, 5, 6, 7, 8 또는 9를 사용하여 k개의 그룹이 생성된다. 이러한 k개의 그룹은 각각 7, 10, 14, 17, 20, 24, 27 및 30 비트로 표현될 수 있다. 대안적으로, 이러한 k개의 그룹이 각 경우를 조합하여 표현될 수 있다.When the number information of the number of parameter bands each has ten values, k groups are generated using 2, 3, 4, 5, 6, 7, 8 or 9 as N. These k groups can be represented by 7, 10, 14, 17, 20, 24, 27 and 30 bits, respectively. Alternatively, these k groups can be represented in combination with each case.
파라미터 대역의 개수 정보 복수개가 각각 7가지의 값을 갖는 경우, N으로서 6, 7, 8, 9, 10 또는 11을 사용하여 k개의 그룹이 생성된다. 이러한 k개의 그룹은 각각 17, 20, 23, 26, 29 및 31 비트로 표현될 수 있다. 대안적으로, 이러한 k개의 그룹이 각 경우를 조합하여 표현될 수 있다.When the number information of the number of parameter bands each has seven values, k groups are generated using 6, 7, 8, 9, 10 or 11 as N. These k groups can be represented by 17, 20, 23, 26, 29 and 31 bits, respectively. Alternatively, these k groups can be represented in combination with each case.
파라미터 대역의 개수 정보 복수개가 각각 5가지의 값을 갖는 경우, N으로서 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12 또는 13을 사용하여 k개의 그룹이 생성될 수 있다. 이러한 k개의 그룹은 각각 5, 7, 10, 12, 13, 17, 19, 21, 24, 26, 28 및 31 비트로 표현될 수 있다. 대안적으로, 이러한 k개의 그룹이 각 경우를 조합하여 표현될 수 있다.If the number information of the number of parameter bands each has five values, k groups are generated using 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, or 13 as N. Can be. These k groups can be represented by 5, 7, 10, 12, 13, 17, 19, 21, 24, 26, 28 and 31 bits, respectively. Alternatively, these k groups can be represented in combination with each case.
또한, 파라미터 대역의 개수 정보 복수개는, 전술된 그룹으로서 표현되도록 구성될 수 있거나, 또는 파라미터 대역의 개수 정보 각각을 독립적인 비트 시퀀스로 하여 연속적으로 표현되도록 구성될 수 있다.In addition, the number information of the number of parameter bands may be configured to be represented as the above-described group, or may be configured to be continuously expressed with each of the number information of the parameter bands as an independent bit sequence.
도 12는 본 발명의 일 실시예에 따라 공간 프레임의 구성 정보를 나타내는 구문을 도시한다. 공간 프레임은 FraminInfo 블록(1201)과, bsIndependencyFlag 블록(1201)과, Ottdata 블록(1203)과, Tttdata 블록(1204)과, SmgData 블록(1205)과, TempShapeData 블록(1206)을 포함한다.12 illustrates syntax representing configuration information of a spatial frame according to an embodiment of the present invention. The spatial frame includes a
FramingInfo 블록(1201)은 파라미터 세트의 개수에 대한 정보와 각 파라미터가 적용되는 타임 슬롯에 대한 정보를 포함한다. FramingInfo 블록(1201)은 도 13a에서 상세히 설명된다.
bsIndependencyFlag 필드(1202)는 현재 프레임이 이전 프레임에 대한 지식없이 디코딩될 수 있는지 여부를 나타낸다.The
OttData 블록(1203)은 모든 OTT 박스에 대한 모든 공간 파라미터 정보를 포함한다.
TttData 블록(1204)은 모든 TTT 박스에 대한 모든 공간 파라미터 정보를 포함한다.
SmgData 블록(1205)은 비양자화된(dequantized) 공간 파라미터에 적용되는 임시 평탄화(temporal smoothing)에 대한 정보를 포함한다.
TempShapeData 블록(1206)은 비상관 신호에 적용되는 임시 엔빌로프 형상화(temporal envelope shaping)에 대한 정보를 포함한다.
도 13a는, 본 발명의 일 실시예에 따라, 파라미터 세트가 적용되는 타임 슬롯 위치 정보를 나타내는 구문을 도시한다. bsFramingType 필드(1301)는 오디오 신호의 공간 프레임이 고정된 프레임 타입인지 아니면 가변 프레임 타입인지를 나타낸다. 고정된 프레임은 미리 설정된 타임 슬롯에 파라미터 세트가 적용되는 프레임을 의미한다. 예를 들어, 등간격으로 미리 설정된 타임 슬롯에 파라미터 세트가 적용된다. 가변 프레임은 파라미터 세트가 적용되는 타임 슬롯의 위치 정보를 별도로 수신하는 프레임을 의미한다.FIG. 13A illustrates syntax representing time slot position information to which a parameter set is applied according to an embodiment of the present invention. The
bsNumParamSets 필드(1302)는 1개의 공간 프레임 내에서 파라미터 세트의 개수를 나타내며(이하, numParamSets라 함), numParamSets와 bsNumParamSets 사이에는 numParamSets = bsNumparaSets + 1의 관계가 성립된다.The
예를 들어, 도 13A의 bsNumParasets 필드(1302)에 3 비트가 할당되면, 1개의 공간 프레임 내에는 최대 8개의 파라미터 세트가 제공될 수 있다. 할당되는 비트의 개수에 대해서는 제한이 없으므로, 공간 프레임 내에 보다 많은 파라미터 세트가 제공될 수 있다.For example, if three bits are allocated to the
공간 프레임이 고정된 프레임 타입인 경우, 파라미터 세트가 적용되는 타임 슬롯의 위치 정보는 미리 설정된 규칙에 따라 결정될 수 있고, 파라미터 세트가 적용되는 타임 슬롯의 추가적인 위치 정보는 불필요하다. 그러나, 공간 프레임이 가변 프레임 타입인 경우, 파라미터 세트가 적용되는 위치 정보가 필요하다.When the spatial frame is a fixed frame type, the position information of the time slot to which the parameter set is applied may be determined according to a preset rule, and additional position information of the time slot to which the parameter set is applied is unnecessary. However, when the spatial frame is a variable frame type, position information to which a parameter set is applied is necessary.
bsParamSlot 필드(1303)는 파라미터 세트가 적용되는 타임 슬롯의 위치 정보를 나타낸다. bsParamSlot 필드(1303)는 1개의 공간 프레임 내에서의 타임 슬롯의 개수, 즉, numSlots를 사용하여 가변 개수의 비토로 표현될 수 있다. 구체적으로, numSlots가 2^(n-1) 이상이고 2^(n) 미만인 범위에 들면, bsParamSlot 필드(1303)는 n 비트로 표현될 수 있다.The
예를 들어: (i) numSlots가 64와 127 사이의 범위에 있는 경우, bsParamSlot 필드(1303)는 7 비트로 표현될 수 있고; (ii) numSlots가 32와 63 사이의 범위에 있는 경우, bsParamSlot 필드(1303)는 6 비트로 표현될 수 있고; (iii) numSlots가 16과 31 사이의 범위에 있는 경우, bsParamSlot 필드(1303)는 5 비트로 표현되고; (iv) numSlots가 8과 15 사이의 범위에 있는 경우, bsParamSlot 필드(1303)는 4 비트로 표현될 수 있고; (v) numSlots가 4와 7 사이의 범위에 있는 경우, bsParamSlot 필드(1303)는 3 비트로 표현될 수 있고; (vi) numSlots가 2와 3 사이의 범위에 있는 경우, bsParamSlot 필드(1303)는 2 비트로 표현될 수 있고; (vii) numSlots가 1인 경우, bsParamSlot 필드(1303)는 1 비트로 표현되고; (viii) numSlots가 0인 경우, bsParamSlot 필드(1303)는 0 비트로 표현될 수 있다. 이와 마찬가지로, numSlots가 64와 127 사이의 범위에 있는 경우, bsParamSlot 필드(1303)는 7 비트로 표현될 수 있다.For example: (i) if numSlots is in the range between 64 and 127, the
다수의 파라미터 세트N가 존재하는 경우, bsParamSlot은 수학식 17에 따라 표현될 수 있다.If there are multiple parameter sets N , bsParamSlot may be represented according to equation (17).
이 경우, bsParamSlotsi는 I번째 파라미터 세트가 적용되는 타임 슬롯을 나타낸다. 예를 들어, numSlots가 3이고 bsParamSlot 필드(1303)가 10개의 값을 가질 수 있다고 가정하자. 이 경우, bsParamSlot 필드(1303)에 대한 3개의 정보(이하, 각각, c1, c2, c3라 함)가 필요하다. c1, c2, c3 각각을 표현하기 위해서는 4 비트가 필요하므로, 총 12 비트가 필요하다. c1, c2, c3를 함께 그룹으로 묶어서 표현하는 경우, 1,000개(= 10 * 10 * 10)의 경우가 발생할 수 있고, 이는 10 비트로 표현될 수 있어, 2 비트를 절약하게 된다. numSlots가 3이고 5 비트로 표현되는 그룹 값이 31인 경우, 그룹 값은 31 = 1 x (3^2) + 5 * (3^1) + 7 * (3^0)으로 표현될 수 있다. 따라서, 디코더 장치는 수학식 17의 역을 적용하여 c1, c2, c3을 각각 1, 5, 7로 결정할 수 있다.In this case, bsParamSlots i represents time slots to which the I-th parameter set is applied. For example, assume that numSlots is 3 and the
도 13b는 본 발명의 일 실시예에 따라 파라미터 세트가 절대값 및 차분값으로서 적용되는 타임 슬롯의 위치 정보를 나타내는 구문을 도시한다. 공간 프레임이 가변 프레임 타입인 경우, 도 13a에서의 bsParamSlot 필드(1301)는 bsParamSlot 정보가 단조 증가한다는 사실을 이용하여 절대값 및 차분값으로 표현될 수 있다.FIG. 13B illustrates a syntax representing position information of a time slot to which a parameter set is applied as an absolute value and a difference value according to an embodiment of the present invention. When the spatial frame is a variable frame type, the
예를 들어: (i) 첫번째 파라미터 세트가 적용되는 타임 슬롯의 위치는 절대값, 즉, bsParamSlot[0]으로 생성될 수 있고; (ii) 두번째 이상의 파라미터 세트가 적용되는 타임 슬롯의 위치는 절대값, 즉, bsParamSlot[ps]와 bsParamSlot[ps-1] 사이의 difference value 또는 difference value 1로 생성될 수 있다(이하, bsDiffParamSlot[ps]라 함). 이 경우, ps는 파라미터 세트를 의미한다.For example: (i) the position of the time slot to which the first parameter set applies is generated as an absolute value, i.e. bsParamSlot [0]; (ii) The position of the time slot to which the second or more parameter set is applied may be generated as an absolute value, that is, a difference value or
bsParamSlot[0] 필드(1304)는 numSlots과 numParamSets를 사용하여 산출되는 개수의 비트로 표현될 수 있다(이하, nBitsParamSlot(0)라 함).The bsParamSlot [0]
bsDiffParamSlot[ps] 필드(1305)는 numSlots, numParamSetst 및 이전 파라미터 세트가 적용된 타임 슬롯의 위치를 이용하여 산출되는 개수의 비트로 표현될 수 있다(이하, nBitParamSlot(ps)라 함).The bsDiffParamSlot [ps]
구체적으로, 최소 개수의 비트로 bsParamSlot[ps]를 표현하기 위해서, bsParamSlot[ps]를 표현하는 비트의 개수는 이하의 규칙에 따라 결정될 수 있다: (i) 복수의 bsParamSlot[ps]는 오름차 순으로 증가한다(bsParamSlot[ps] > bsParamSlot[ps-1]); (ii) bsParamSlot[0]의 최대값은 numSlots NumParamSets이다; (iii) 0 < ps < numParamSets인 경우, bsParamSlot[ps]는 bsParamSlot[ps-1] + 1과 numSlots numParamSets + ps 사이값 만을 갖는다.Specifically, in order to represent bsParamSlot [ps] with the minimum number of bits, the number of bits representing bsParamSlot [ps] may be determined according to the following rules: (i) The plurality of bsParamSlot [ps] is increased in ascending order. (BsParamSlot [ps]> bsParamSlot [ps-1]); (ii) the maximum value of bsParamSlot [0] is numSlots NumParamSets; (iii) When 0 <ps <numParamSets, bsParamSlot [ps] has only a value between bsParamSlot [ps-1] + 1 and numSlots numParamSets + ps.
예를 들어, numSlots가 10이고 numParamSets가 3인 경우, bsParamSlot[ps]는 오름차순으로 증가하기 때문에, bsParamSlot[0]의 최대값은 10 3 = 7이 된다. 즉, bsParamSlot[0]는 0 내지 7 중의 값으로부터 선택되어야 한다. 이는 bsParamSlot[0]이 7 이상의 값을 갖는 경우 나머지 파라미터 세트들에 대한 타임 슬롯의 개수가 불충분하기 때문이다.For example, if numSlots is 10 and numParamSets is 3, since bsParamSlot [ps] increases in ascending order, the maximum value of bsParamSlot [0] is 10 3 = 7. In other words, bsParamSlot [0] should be selected from a value between 0 and 7. This is because when bsParamSlot [0] has a value of 7 or more, the number of time slots for the remaining parameter sets is insufficient.
bsParamSlot[0]이 5인 경우, 두번째 파라미터 세트에 대한 타임 슬롯 위치 bsParamSlot[1]은 5 + 1 = 6과 10 3 + 1 = 8 사이의 값중에서 선택되어야 한다.If bsParamSlot [0] is 5, the time slot position bsParamSlot [1] for the second parameter set should be selected from values between 5 + 1 = 6 and 10 3 + 1 = 8.
bsParamSlot[1]이 7이면, bsParamSlot[2]은 8 또는 9가 될 수 있다. bsParamSlot[1]이 8이면, bsParamSlot[2]는 9가 될 수 있다.If bsParamSlot [1] is 7, bsParamSlot [2] may be 8 or 9. If bsParamSlot [1] is 8, bsParamSlot [2] may be 9.
따라서, bsParamSlot[ps]는 고정된 비트로서 표현되는 대신 위 특징을 사용하여 가변 개수의 비트로 표현될 수 있다.Thus, bsParamSlot [ps] may be represented as a variable number of bits using the above feature instead of being represented as a fixed bit.
bsParamSlot[ps]를 비트스트림에 구성함에 있어서, ps가 0인 경우, bsParamSlot[0]은 nBitsParamSlot(0)에 대응하는 개수의 비트에 의해 절대값으로서 표현될 수 있다. ps가 0보다 큰 경우, bsParamSlot[ps]는 nBitsParaSlot(ps)에 대응하는 개수에 의해 절대값으로서 표현될 수 있다. 비트스트림으로부터 위와 같이 구성된 bsParamSlot[ps]를 판독할 때, 각 데이터에 대한 비트스트림의 길이, 즉, nBitsParamSlot[ps]는 수학식 18을 사용하여 표현될 수 있다.In configuring bsParamSlot [ps] in the bitstream, when ps is 0, bsParamSlot [0] may be represented as an absolute value by the number of bits corresponding to nBitsParamSlot (0). When ps is greater than 0, bsParamSlot [ps] may be represented as an absolute value by the number corresponding to nBitsParaSlot (ps). When reading bsParamSlot [ps] configured as described above from the bitstream, the length of the bitstream, that is, nBitsParamSlot [ps] for each data may be expressed using Equation 18.
구체적으로, nBitsParamSlot[ps]는 nBitsParamSlot[0] = fb(numSlots numParaSets + 1)로 표현될 수 있다. 0 < ps < numParamSets이면, nBitsParamSlot[ps]는 nBitsParamSlot[ps] = fb(numSlots numParaSets + ps bsParamSlot[ps-1])로 표현될 수 있다. nBitsParamSlot[ps]는 수학식 18을 7 비트까지 연장한 수학식 19을 사용하여 결정될 수 있다.Specifically, nBitsParamSlot [ps] may be expressed as nBitsParamSlot [0] = f b (numSlots numParaSets + 1). If 0 <ps <numParamSets, nBitsParamSlot [ps] may be expressed as nBitsParamSlot [ps] = f b (numSlots numParaSets + ps bsParamSlot [ps-1]). nBitsParamSlot [ps] may be determined using Equation 19, which is extended from Equation 18 to 7 bits.
함수 fb(x)의 예는 아래와 같이 설명된다. numSlots가 15이고 numParamSets가 3인 경우, 위 함수는 nBitsParamSlot[1] = fb(15 3 + 1 7) = 3 비트를 구할 수 있다. 이 경우, bsDiffParamSlot[1] 필드(1305)는 3 비트로 표현될 수 있다.An example of the function fb (x) is described below. If numSlots is 15 and numParamSets is 3, the above function can obtain nBitsParamSlot [1] = fb (15 3 + 1 7) = 3 bits. In this case, the bsDiffParamSlot [1]
3 비트로 표현되는 값이 3인 경우, bsParamSlot[1]은 7 + 3 = 10이 된다. 따라서, nBitsParamSlot[2] = fb(15 3 + 2 10) = 2 비트가 된다. 이 경우, bsDiffParamSlot[1] 필드(1305)는 2 비트로 표현될 수 있다. 레지듀얼 타임 슬롯의 개수가 레지듀얼 파라미터 세트의 개수와 동일한 경우, bsDiffParamSlot[ps] 필드에는 0 비트가 할당될 것이다. 환언하면, 파라미터 세트가 적용되는 타임 슬롯의 위치를 표현하기 위한 추가 정보가 필요없다.When the value represented by 3 bits is 3, bsParamSlot [1] becomes 7 + 3 = 10. Thus, nBitsParamSlot [2] = f b (15 3 + 2 10) = 2 bits. In this case, the bsDiffParamSlot [1]
따라서, bsParamSlot[ps]에 대한 비트의 개수는 가변적으로 결정될 수 있다. bsParamSlot[ps]에 대한 비트의 개수는 디코더에서 함수 fb(x)를 사용하여 비트스트림으로부터 판독될 수 있다. 일부 실시예에서, 함수 fb(x)는 함수 ceil(log2(x))를 포함할 수 있다.Therefore, the number of bits for bsParamSlot [ps] may be variably determined. The number of bits for bsParamSlot [ps] can be read from the bitstream using the function f b (x) at the decoder. In some embodiments, the function f b (x) may comprise a function ceil (log 2 (x)).
절대값과 차분값으로 표현되는 bsParamSlot[ps]에 대한 정보를 디코더에서 비트스트림으로부터 판독할 때, 먼저, 비트스트림으로부터 bsParamSlot[0]이 판독되고 나서, 0 < ps < numParamSets에 대한 bsDiffParamSlot[ps]가 판독될 것이다. 그리고, 0 ps < numParamSets 간격에 대한 bsParamSlot[ps]는 bsParamSlot[0]과 bsDiffParamSlot[ps]를 사용하여 구할 수 있다. 예를 들어, 도 13b에 도시된 바와 같이, bsParamSlot[ps]는 bsParamSlot[ps-1]에 bsDiffParamSlot[ps] + 1을 더하여 구할 수 있다.When reading information about bsParamSlot [ps] expressed in absolute and difference values from the bitstream at the decoder, first bsParamSlot [0] is read from the bitstream and then bsDiffParamSlot [ps] for 0 <ps <numParamSets. Will be read. And, bsParamSlot [ps] for the
도 13c는, 본 발명의 일 실시예에 따라, 파라미터 세트가 적용되는 타임 슬롯의 위치 정보를 나타내는 구문을 도시하는 도면이다. 복수의 파라미터 세트가 존재하는 경우, 복수의 파라미터 세트에 대한 복수의 bsParamSlots(1307)는 적어도 하나의 그룹으로서 표현될 수 있다.FIG. 13C is a diagram illustrating syntax indicating position information of a time slot to which a parameter set is applied according to an embodiment of the present invention. When there are a plurality of parameter sets, the plurality of
bsParamSlots(1307)의 개수가 (kN + L)이고, bsParamSlots(1307) 각각을 표현하는데 Q비트가 필요한 경우, bsParamSlots(1307)은 이하의 그룹으로서 표현될 수 있다. 이 경우, 'k'와 'N'은 '0'이 아닌 임의의 정수이고, 'L'은 0 L < N을 충족시키는 임의의 정수이다.If the number of
그룹화 방법은, N개의 bsParamSlots(1307)을 묶어서 k개의 그룹을 생성하는 단계와, 마지막 L개의 bsParamSlots(1307)을 묶어서 최종 그룹을 생성하는 단계를 포함한다. k개의 그룹은 M 비트로 표현될 수 있고, 최종 그룹은 p 비트로 표현될 수 있다. 이 경우, M 비트가 바람직하게는, bsParamSlots(1307) 각각을 그룹화하지 않고 표현하는 경우 사용되는 N*Q 비트보다 작다. P 비트가 바람직하게는, bsParamSlots(1307) 각각을 그룹화하지 않고 표현하는 경우 사용되는 L*Q 비트 이하이다.The grouping method includes
예를 들어, 2개의 파라미터 세트에 대한 한 쌍의 bsParamSlots(1307)가 각각 d1과 d2라고 가정하자. d1과 d2가 각각 5개의 값을 갖는 경우, d1과 d2 각각을 표현하는데 3 비트가 필요하다. 이 경우, 3 비트는 8개의 값을 값을 표현할 수 있더라도, 실질적으로는 5개의 값이 필요하다. 따라서, d1과 d2 각각은 3개의 여분을 갖는다. 그러나, d1과 d2를 함께 묶어서 그룹으로서 표현하는 경우는, 6 비트(= 3 비트 + 3 비트) 대신에 5 비트가 사용될 것이다. 구체적으로, d1과 d2의 모든 조합은 25개(= 5 * 5)의 타입을 갖기 때문에, d1과 d2의 그룹은 5 비트로 표현될 수 있다. 5 비트는 32개의 값을 표현할 수 있으므로, 그룹화 표현의 경우 7개의 여분이 생성된다. 그러나, d1과 d2를 그룹화하여 표현하는 경우, 그 여분은 d1과 d2를 각각 3 비트로 표현하는 경우의 여분보다 작다. For example, assume that a pair of
그룹을 구성할 때, 그룹에 대한 데이터는, 초기값에 대한 bsParamSlot[0]과, 2번째 이상의 값에 대한 bsParamSlot[ps]의 쌍들간 차분값을 사용하여 구성될 수 있다.When constructing a group, the data for the group may be constructed using the difference between pairs of bsParamSlot [0] for the initial value and bsParamSlot [ps] for the second or more value.
그룹을 구성할 때, 파라미터 세트의 개수가 1이면 그룹화하지 않고 비트가 직접 할당될 수 있으며, 파라미터 세트의 개수가 2 이상이면 그룹화를 완료한 후 비트가 할당될 수 있다.When configuring a group, if the number of parameter sets is 1, the bits may be directly assigned without grouping. If the number of parameter sets is 2 or more, the bits may be allocated after the grouping is completed.
도 14는 본 발명의 일 실시예에 따른 인코딩 방법의 흐름도이다. 본 발명에 따른 오디오 신호의 인코딩 방법 및 인코더의 동작이 이하에 설명된다.14 is a flowchart of an encoding method according to an embodiment of the present invention. The method of encoding an audio signal and the operation of an encoder according to the invention are described below.
먼저, 1개의 공간 프레임에서 타임 슬롯의 총 개수(numSlots)와 오디오 신호의 파라미터 대역의 총 개수(numBands)가 결정된다(S1401).First, the total number (numSlots) of time slots and the total number (numBands) of parameter bands of an audio signal are determined in one spatial frame (S1401).
그리고, 채널 변환 모듈에 적용되는 파라미터의 개수 및/또는 레지듀얼 신호가 결정된다(S1402).Then, the number of parameters and / or the residual signal applied to the channel conversion module is determined (S1402).
OTT 박스가 LFE 채널 모드를 갖는 경우, OTT 박스에 적용되는 파라미터 대역의 개수는 별도로 결정된다.When the OTT box has the LFE channel mode, the number of parameter bands applied to the OTT box is determined separately.
OTT 박스가 LFE 채널 모드를 갖지 않는 경우, OTT 박스에 적용되는 파라미터 대역의 개수로서 numBands가 사용된다.If the OTT box does not have the LFE channel mode, numBands is used as the number of parameter bands applied to the OTT box.
계속해서, 공간 프레임의 타입이 판정된다. 이 경우, 공간 프레임은 고정된 프레임 타입과 가변 프레임 타입으로 분류된다.Subsequently, the type of the space frame is determined. In this case, the spatial frame is classified into a fixed frame type and a variable frame type.
공간 프레임이 가변 프레임 타입인 경우(S1403), 1개의 공간 프레임 내에서 사용되는 파라미터 세트의 개수가 결정된다(S1406). 이 경우, 파라미터 세트는 타임 슬롯 단위로 채널 변환 모듈에 적용될 수 있다.When the spatial frame is a variable frame type (S1403), the number of parameter sets used in one spatial frame is determined (S1406). In this case, the parameter set may be applied to the channel conversion module in units of time slots.
계속해서, 파라미터 세트가 적용되는 타임 슬롯의 위치가 결정된다(S1407). 이 경우, 파라미터 세트가 적용되는 타임 슬롯의 위치는 절대값과 차분값으로서 표현될 수 있다. 예를 들어, 첫번째 파라미터 세트가 적용되는 타임 슬롯의 위치는 절대값으로서 표현될 수 있고, 두번째 이상의 파라미터 세트가 적용되는 타임 슬롯의 위치는 이전 타임 슬롯의 위치로부터의 차분값으로서 표현될 수 있다. 이 경우, 파라미터 세트가 적용되는 타임 슬롯의 위치는 가변 개수의 비트로서 표현될 수 있다.Subsequently, the position of the time slot to which the parameter set is applied is determined (S1407). In this case, the position of the time slot to which the parameter set is applied may be expressed as an absolute value and a difference value. For example, the position of the time slot to which the first parameter set is applied may be represented as an absolute value, and the position of the time slot to which the second or more parameter set is applied may be represented as a difference value from the position of the previous time slot. In this case, the position of the time slot to which the parameter set is applied may be represented as a variable number of bits.
구체적으로, 첫번째 파라미터 세트가 적용되는 타임 슬롯의 위치는, 타임 슬롯의 총 개수와 파라미터 세트의 총 개수를 사용하여 산출되는 비트의 개수로 표현될 수 있다. 두번째 이상의 파라미터 세트가 적용되는 타임 슬롯의 위치는, 타임 슬롯의 총 개수와, 파라미터 세트의 총 개수와, 이전 파라미터 세트가 적용되는 타임 슬롯의 위치를 사용하여 산출되는 비트의 개수로 표현될 수 있다.In detail, the position of the time slot to which the first parameter set is applied may be expressed by the number of bits calculated using the total number of time slots and the total number of parameter sets. The position of the time slot to which the second or more parameter set is applied may be expressed by the total number of time slots, the total number of parameter sets, and the number of bits calculated using the position of the time slot to which the previous parameter set is applied. .
공간 프레임이 고정된 프레임 타입인 경우, 1개의 공간 프레임에 사용된 파라미터 세트의 개수가 결정된다(S1404). 이 경우, 파라미터 세트가 적용되는 타임 슬롯의 위치는 미리 설정된 규칙을 사용하여 결정된다. 예를 들어, 파라미터 세트가 적용되는 타임 슬롯의 위치는, 이전 파라미터 세트가 적용되는 타임 슬롯의 위치로부터 등간격을 갖도록 결정될 수 있다(S1405).When the space frame is a fixed frame type, the number of parameter sets used in one space frame is determined (S1404). In this case, the position of the time slot to which the parameter set is applied is determined using a preset rule. For example, the position of the time slot to which the parameter set is applied may be determined to have an equal interval from the position of the time slot to which the previous parameter set is applied (S1405).
계속해서, 다운믹싱부와 공간 생성부는, 앞서 결정된 타임 슬롯의 총 개수와, 파라미터 대역의 총 개수와, 채널 변환부에 적용되어야 할 파라미터 대역의 총 개수와, 1개의 공간 프레임에서의 파라미터 세트의 총 개수와, 파라미터 세트가 적용되는 타임 슬롯의 위치 정보를 사용하여, 다운믹스 신호와 공간 정보를 각각 생성한다(S1408).Subsequently, the downmixing unit and the space generating unit determine the total number of time slots determined before, the total number of parameter bands, the total number of parameter bands to be applied to the channel converting unit, and the parameter set in one spatial frame. A downmix signal and spatial information are generated using the total number and time slot position information to which the parameter set is applied (S1408).
마지막으로, 멀티플렉싱부는 다운믹스 신호와 공간 정보를 포함하는 비트스 트림을 생성하여(S1409), 이 생성된 비트스트림을 디코더에 전송한다(S1409).Finally, the multiplexer generates a bitstream including the downmix signal and spatial information (S1409) and transmits the generated bitstream to the decoder (S1409).
도 15는 본 발명의 일 실시예에 따른 디코딩 방법의 흐름도이다. 본 발명에 따른 오디오 신호의 디코딩 방법 및 디코더의 동작이 이하 설명될 것이다.15 is a flowchart of a decoding method according to an embodiment of the present invention. The operation of the decoding method and the decoder of the audio signal according to the present invention will be described below.
먼저, 디코더는 오디오 신호의 비트스트림을 수신한다(S1501). 디멀티플렉싱부는 수신된 비트스트림으로부터 다운믹스 신호와 공간 정보 신호를 분리한다(S1502). 계속해서, 공간 정보 신호 디코딩부는, 공간 정보 신호의 구성 정보로부터, 1개의 공간 프레임에서의 타임 슬롯의 총 개수, 파라미터 대역의 총 개수 및 채널 변환 모듈에 적용되는 파라미터 대역의 개수에 대한 정보를 추출한다(S1503).First, the decoder receives a bitstream of an audio signal (S1501). The demultiplexer separates the downmix signal and the spatial information signal from the received bitstream (S1502). Subsequently, the spatial information signal decoding unit extracts information on the total number of time slots, the total number of parameter bands, and the number of parameter bands applied to the channel conversion module from the configuration information of the spatial information signal. (S1503).
공간 프레임이 가변 프레임 타입인 경우(S1504), 1개의 공간 프레임에서의 파라미터 세트의 개수와 파라미터 세트가 적용되는 타임 슬롯의 위치 정보가 공간 프레임으로브터 추출된다(S1505). 타임 슬롯의 위치 정보는 고정된 개수의 비트 또는 가변 개수의 비트로 표현될 수 있다. 이 경우, 첫번째 파라미터 세트가 적용되는 타임 슬롯의 위치 정보는 절대값으로서 표현될 수 있고, 2번째 이상의 파라미터 세트가 적용되는 타임 슬롯의 위치 정보는 차분값으로서 표현될 수 있다. 2번째 이상의 파라미터 세트가 적용되는 타임 슬롯의 실제 위치 정보는 이전 파라미터 세트가 적용된 타임 슬롯의 위치 정보에 차분값을 더하여 구해질 수 있다.When the spatial frame is a variable frame type (S1504), the number of parameter sets in one spatial frame and the position information of the time slot to which the parameter set is applied are extracted to the spatial frame (S1505). The location information of the time slot may be represented by a fixed number of bits or a variable number of bits. In this case, the position information of the time slot to which the first parameter set is applied may be represented as an absolute value, and the position information of the time slot to which the second or more parameter set is applied may be represented as a difference value. The actual position information of the time slot to which the second or more parameter set is applied may be obtained by adding a difference value to the position information of the time slot to which the previous parameter set is applied.
마지막으로, 추출된 정보를 사용하여 다운믹스 신호가 멀티 채널 오디오 신호로 변환된다(S1506).Finally, the downmix signal is converted into a multi-channel audio signal using the extracted information (S1506).
본 명세서에 개시된 실시예들은 종래의 오디오 코딩 방식에 비해 여러가지 장점을 제공한다.Embodiments disclosed herein provide several advantages over conventional audio coding schemes.
첫째, 멀티 채널 오디오 신호의 코딩에 있어서, 파라미터 세트가 적용되는 타임 슬롯의 위치를 가변 개수의 비트로 표현함으로써, 전송 데이터량을 감소시킬수 있다.First, in coding of a multi-channel audio signal, the amount of data to be transmitted can be reduced by representing the position of a time slot to which a parameter set is applied by a variable number of bits.
둘째, 첫째 파라미터 세트가 적용되는 타임 슬롯의 위치를 절대값으로 표현하고, 두번째 이상의 파라미터 세트가 적용되는 타임 슬롯의 위치를 차분값으로 표현함으로써, 전송 데이터량을 감소시킬 수 있다.Second, by expressing the position of the time slot to which the first parameter set is applied as an absolute value and the position of the time slot to which the second or more parameter set is applied as a difference value, the amount of transmission data can be reduced.
셋째, OTT 박스 및/또는 TTT 박스 등에 적용되는 파라미터 대역의 개수를 고정된 개수의 비트 또는 가변 개수의 비트로 표현함으로써, 전송 데이터량을 감소시킬 수 있다. 이 경우, 파라미터 세트가 적용되는 타임 슬롯의 위치는 전술된 원리를 사용하여 표현될 수 있고, 여기서 파라미터 세트는 파라미터 대역의 개수 범위내에 존재한다.Third, the amount of transmission data can be reduced by expressing the number of parameter bands applied to the OTT box and / or the TTT box to a fixed number of bits or a variable number of bits. In this case, the position of the time slot to which the parameter set is applied can be expressed using the principle described above, where the parameter set is within the number range of parameter bands.
도 16은 도 1 내지 도 15를 참조하여 설명된 오디오 인코더/디코더를 구현하는 장치 구조(1600)의 일 예를 나타내는 블록도이다. 이 장치 구조(1600)는, 퍼스널 컴퓨터, 서버 컴퓨터, 가전 장치, 이동 전화, PDA, 전자 태블릿, 텔레비전 시스템, 텔레비전 셋톱 박스, 게임 콘솔, 매체 재생기, 음악 재생기, 네비게이션 시스템 및 오디오 신호를 디코딩할 수 있는 임의의 기타 장치를 포함하는 다양한 장치에 적용될 수 있지만 이에 제한되는 것은 아니다. 이들 장치 중 일부는 하드웨어와 소프트웨어의 조합을 사용하여 변경된 구조를 구현할 수 있다.FIG. 16 is a block diagram illustrating an example of an
본 구조(1600)는, 하나 이상의 프로세서(1602)(예를 들어, PowerPC, Intel Pentium 4 등)와, 하나 이상의 디스플레이 장치(1604)(예를 들어, CRT, LCD 등)와, 오디오 서브시스템(1606)(예를 들어, 오디오 하드웨어/소프트웨어)와, 하나 이상의 네트워크 인터페이스(1608)(예를 들어, Ethernet, FireWire, USB 등)와, 입력 장치(1610)(예를 들어, 키보드, 마우스 등)와 하나 이상의 컴퓨터 판독가능 매체(1612)(예를 들어, RAM, ROM, SDRAM, 하드 디스크, 광 디스크, 플래시 메모리 등)를 포함한다. 이들 구성요소는 하나 이상의 버스(1614)(예를 들어, EISA, PCI, PCI Express 등)를 통해 통신하고 데이터를 교환할 수 있다.The
컴퓨터 판독가능 매체라는 용어는 프로세서(1602)에게 실행용 명령어를 제공하는 임의의 매체를 일컫는 것으로, 불휘발성 매체(예를 들어, 광 디스크나 자기 디스크 등), 휘발성 매체(예를 들어, 메모리 등) 및 전송 매체를 포함하지만 이에 제한되는 것은 아니다. 전송 매체는, 동축 케이블, 구리 배선 및 광 섬유를 포함하지만 이에 제한되는 것은 아니다. 전송 매체는 또한 음향파, 광파 또는 무선 주파수 파형의 형태를 취할 수 있다.The term computer readable media refers to any medium that provides instructions to the
컴퓨터 판독가능 매체(1612)는, 운영 체제(1616)(예를 들어, Mac OS, Windows, Linux 등)와, 네트워크 통신 모듈(1618)과, 오디오 코덱(1620)과 하나 이상의 응용 프로그램(1622)을 더 포함한다.Computer-
운영 체제(1616)는 멀티 유저, 멀티프로세싱, 멀티태스킹, 멀티스레딩, 실시간 등일 수 있다. 운영 체제(1616)는, 입력 장치(1610)로부터 입력을 인식하고; 디스플레이 장치(1604)와 서브 시스템(1606)에 출력을 보내고; 컴퓨터 판독가능 매체(1612)(예를 들어, 메모리 또는 기록 장치 등) 상에 파일과 디렉토리를 유지하고; 주변 장치(예를 들어, 디스크 드라이브, 프린터 등)를 제어하고; 하나 이상의 버스(1614) 상에서의 트래픽을 관리하는 기본 태스크를 수행하지만 이에 제한되는 것은 아니다.
네트워크 통신 모듈(1618)은 네트워크 접속을 수립하고 유지하는 다양한 구성요소(예를 들어, TCP/IP, HTTP, Ethernet 등의 통신 프로토콜을 구현하는 소프트웨어 등)를 포함한다. 네트워크 통신 모듈(1618)은 장치 구조(1600)의 운영자가 정보(예를 들어, 오디오 콘텐츠 등)를 찾아 네트워크(예를 들어, 인터넷 등)를 검색하게 할 수 있는 브라우저를 포함할 수 있다.The
오디오 코덱(1620)은 도 1 내지 도 15를 참조하여 설명된 인코딩 및/또는 디코딩 프로세스의 전부 또는 일부를 구현하는 담당을 한다. 일부 실시예에서, 오디오 코덱은 하드웨어(예를 들어, 프로세서(1602), 오디오 서브시스템(1606) 등)와 연동하여 본 명세서에 설명된 본 발명에 따라 오디오 신호를 인코딩 및/또는 디코딩하는 것을 포함하여 오디오 신호를 처리한다.The
응용 프로그램(1622)은 오디오 콘텐츠와 관련된 임의의 소프트웨어를 포함할 수 있고, 오디오 콘텐츠는 매체 재생기, 음악 재생기(예를 들어, MP3 재생기 등), 이동 전화 애플리케이션, PDA, 텔레비전 시스템, 셋톱 박스 등에서 인코딩 및/또는 디코딩되지만 이에 제한되는 것은 아니다. 일 실시예에서, 오디오 코덱은 애플리케이션 서비스 제공업자가 네트워크(예를 들어, 인터넷 등)를 통해 인코딩/디코딩 서비스를 제공하는데 사용될 수 있다.
지금까지의 설명에서는, 설명의 목적상, 본 발명의 완전한 이해를 제공하기 위해 몇몇 특정 상세가 개시되었다. 그러나, 당업자라면 본 발명이 이러한 특정 상세 없이도 실행될 수 있다는 것을 이해할 것이다. 또한, 본 발명을 불명료하게 하는 것을 방지하기 위해 구조 및 장치는 블록도 형태로 도시되었다.In the foregoing description, for purposes of explanation, several specific details are set forth in order to provide a thorough understanding of the present invention. However, one skilled in the art will understand that the invention may be practiced without these specific details. Further, structures and devices are shown in block diagram form in order to avoid obscuring the present invention.
특히, 당업자라면, 다른 구조 및 그래픽 환경이 사용될 수 있고, 앞서 설명된 것과는 다른 그래픽 툴과 제품을 사용하여 본 발명이 구현될 수 있다는 점을 이해할 것이다. 특히, 클라이언트/서버 어프로치는 본 발명의 대시보드(dashboard) 기능을 제공하는 구조의 일 예일 뿐으로; 당업자라면 클라이언트/서버 어프로치가 아닌 다른 것이 사용될 수 있다는 점을 이해할 것이다.In particular, those skilled in the art will appreciate that other structural and graphical environments may be used and that the present invention may be implemented using other graphical tools and products than those described above. In particular, the client / server approach is merely one example of a structure that provides the dashboard functionality of the present invention; Those skilled in the art will appreciate that other than client / server approaches may be used.
상세한 설명 중 일부는 컴퓨터 메모리 내에서의 데이터 비트에 대한 연산의 알고리즘과 심볼 표현으로 제공되었다. 이들 알고리즘 설명과 표현은 데이터 처리 분야의 당업자들이 다른 당업자들에게 자신의 작업의 본질을 가장 효과적으로 전달하는 수단이다. 일반적으로, 그리고 본 명세서에서 알고리즘은 소망하는 결과에 이르는 단계들의 일련의 시퀀스로 인식된다. 이러한 단계는 물리량의 조작을 필요로 한다. 일반적으로, 반드시 그럴 필요는 없지만, 이러한 량은 저장되거나, 전송되거나, 조합되거나, 비교되거나 달리 조작될 수 있는 전기 신호 또는 자기 신호의 형태를 취한다. 주로 통상적인 용도의 이유로, 이들 신호를 비트, 값, 엘리먼트, 심볼, 캐릭터, 술어, 넘버 등으로 일컫는 것이 편리하다.Some of the details have been presented in terms of algorithms and symbolic representations of operations on data bits in computer memory. These algorithmic descriptions and representations are the means by which those skilled in the data processing arts most effectively convey the substance of their work to others skilled in the art. In general, and herein, an algorithm is recognized as a sequence of steps leading to a desired result. This step requires manipulation of physical quantities. Generally, but not necessarily, these quantities take the form of electrical or magnetic signals that can be stored, transmitted, combined, compared or otherwise manipulated. Primarily for normal use, it is convenient to refer to these signals as bits, values, elements, symbols, characters, predicates, numbers, and the like.
그러나, 이들 용어 및 이와 유사한 용어는 모두 적절한 물리량과 관련될 것이고 단지 이들 량에 적용되는 편리한 명명일 뿐이다. 논의로부터 명백하듯이 특별히 달리 언급되지 않는다면, 본 명세서에서, 처리(processing) 또는 컴퓨 팅(computing) 또는 산출(calculating) 또는 결정(determing) 또는 표시(displaying) 등의 용어를 사용하는 것은, 컴퓨터 시스템의 레지스터와 메모리 내에서 물리(전기)량으로서 표현되는 데이터를 조작하고 이를 컴퓨터 시스템 메모리 또는 레지스터나 다른 정보 저장, 전송 또는 표시 장치에서 물리량으로 표현되는 데이터로 변환하는 컴퓨터 시스템 또는 이와 유사한 전자 계산 장치의 액션 및 처리를 일컫는다.However, these terms and similar terms will all be associated with appropriate physical quantities and are merely convenient naming applied to these quantities. Unless specifically stated otherwise, as will be apparent from the discussion, in this specification, the use of terms such as processing or computing or calculating or determining or displaying is intended to be a computer system. A computer system or similar electronic computing device that manipulates data expressed as physical (electrical) quantities in registers and memories of a computer and converts it to data represented as physical quantities in a computer system memory or register or other information storage, transmission, or display device. It refers to the action and processing of.
본 발명은 또한 이러한 동작을 수행하는 장치와 관련된다. 본 장치는 요구되는 목적에 따라 특수하게 구성될 수 있거나, 컴퓨터에 저장된 컴퓨터 프로그램에 의해 선택적으로 활성화되거나 재구성되는 범용 컴퓨터를 포함할 수 있다. 이러한 컴퓨터 프로그램은, 플로피 디스크, 광 디스크, CD-ROM, 자기 광 디스크를 포함하는 임의 타입의 디스크, 판독 전용 메모리(ROM), 랜덤 액세스 메모리(RAM), EPROM, EEPROM, 자기 카드 또는 광 카드, 또는 전자적 명령어를 저장하기에 적합한 임의 타입의 매체를 포함하고 컴퓨터 시스템에 연결되는 컴퓨터 저장 매체에 저장될 수 있다.The invention also relates to an apparatus for performing such an operation. The apparatus may be specially configured according to the required purpose or may include a general purpose computer which is selectively activated or reconfigured by a computer program stored in the computer. Such computer programs include, but are not limited to, floppy disks, optical disks, CD-ROMs, disks of any type, including magnetic optical disks, read-only memory (ROM), random access memory (RAM), EPROM, EEPROM, magnetic cards or optical cards, Or may be stored in a computer storage medium including any type of medium suitable for storing electronic instructions and coupled to the computer system.
본 명세서에 개시되는 알고리즘과 모듈이 본래 임의의 특정 컴퓨터나 다른 장치에 관한 것은 아니다. 본 명세서에 개시되는 기술에 따르는 프로그램에 다양한 범용 시스템이 사용될 수 있고, 방법 단계들을 수행하는데 보다 특정화된 장치를 구성하는 것이 편리할 수 있다. 이러한 다양한 시스템에 필요한 구조는 이하 설명에 나타날 것이다. 본 명세서에 설명된 본 발명의 교시사항을 구현하기 위해 다양한 프로그래밍 언어가 사용될 수 있다. 또한, 당업자들에게는 자명하듯이, 본 발명의 보듈, 특징, 속성, 방법론 및 기타 양상들은 소프투에어, 하드웨어, 펌웨어 또는 이들 3가지에 대한 임의의 조합으로 구현될 수 있다. 물론, 본 발명의 구성요소가 소프트웨어로서 구현되는 경우, 이러한 구성요소는 독자적인 프로그램으로서, 보다 큰 프로그램의 일부로서, 복수의 개별 프로그램으로서, 정적으로 또는 동적으로 링크되는 라이브러리로서, 커넬 로드형 모듈로서, 디바이스 드라이버로서 구현되거나, 컴퓨터 프로그래밍의 분야에서의 당업자들에게 현재 알려진 또는 미래에 알려지는 모든 임의의 방식으로 구현될 수 있다. 또한, 본 발명이 임의의 특정 운영 체제나 환경에서 구현되는 것으로 제한되는 것은 아니다.The algorithms and modules disclosed herein are not inherently related to any particular computer or other apparatus. Various general-purpose systems may be used in the programs according to the techniques disclosed herein, and it may be convenient to configure more specialized apparatus to perform the method steps. The structures required for these various systems will appear in the description below. Various programming languages may be used to implement the teachings of the invention described herein. In addition, as will be apparent to those skilled in the art, the modules, features, attributes, methodologies, and other aspects of the present invention may be implemented in software, hardware, firmware, or any combination of the three. Of course, when the components of the present invention are implemented as software, these components are independent programs, as part of larger programs, as a plurality of individual programs, as statically or dynamically linked libraries, as kernel loaded modules. It may be implemented as a device driver, or in any manner currently known or known to those skilled in the art of computer programming. In addition, the present invention is not limited to being implemented in any particular operating system or environment.
당업자들에게는 본 발명의 사상 또는 범위를 일탈하지 않고도 본 명세서에 개시된 실시예들에 다양한 변형 및 변경이 이루어질 수 있다는 점이 자명할 것이다. 따라서, 본 발명은 이러한 변형 및 변경이 첨부된 특허청구범위 및 그 등가물의 범위 내에 있는 것이라면 개시된 실시예의 이러한 변형 및 변경을 모두 커버하는 것이다.It will be apparent to those skilled in the art that various modifications and changes can be made to the embodiments disclosed herein without departing from the spirit or scope of the invention. Thus, it is intended that the present invention cover all such modifications and variations of the disclosed embodiments provided they come within the scope of the appended claims and their equivalents.
Claims (20)
Applications Claiming Priority (24)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US71211905P | 2005-08-30 | 2005-08-30 | |
US60/712,119 | 2005-08-30 | ||
US71920205P | 2005-09-22 | 2005-09-22 | |
US60/719,202 | 2005-09-22 | ||
US72300705P | 2005-10-04 | 2005-10-04 | |
US60/723,007 | 2005-10-04 | ||
US72622805P | 2005-10-14 | 2005-10-14 | |
US60/726,228 | 2005-10-14 | ||
US72922505P | 2005-10-24 | 2005-10-24 | |
US60/729,225 | 2005-10-24 | ||
KR1020060004062A KR20070037974A (en) | 2005-10-04 | 2006-01-13 | Method of effective bitstream composition for the spatial parameter band number for non-guided coding in multi-channel audio coding |
KR1020060004062 | 2006-01-13 | ||
KR1020060004055 | 2006-01-13 | ||
KR1020060004051A KR20070025903A (en) | 2005-08-30 | 2006-01-13 | Method of effective bitstream composition for the spatial parameter band number of residual signal in multi-channel audio coding |
KR1020060004057 | 2006-01-13 | ||
KR1020060004063A KR20070025907A (en) | 2005-08-30 | 2006-01-13 | Method of effective bitstream composition for the parameter band number of channel conversion module in multi-channel audio coding |
KR20060004055 | 2006-01-13 | ||
KR20060004065 | 2006-01-13 | ||
KR1020060004065 | 2006-01-13 | ||
KR1020060004063 | 2006-01-13 | ||
KR1020060004051 | 2006-01-13 | ||
KR1020060004057A KR20070025904A (en) | 2005-08-30 | 2006-01-13 | Method of effective bitstream composition for the spatial parameter band number of a lfe-channel for multi-channel audio coding |
US76253606P | 2006-01-27 | 2006-01-27 | |
US60/762,536 | 2006-01-27 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20080037105A true KR20080037105A (en) | 2008-04-29 |
KR100880646B1 KR100880646B1 (en) | 2009-01-30 |
Family
ID=39805382
Family Applications (8)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020087006789A KR100891686B1 (en) | 2005-08-30 | 2006-08-30 | Apparatus for encoding and decoding audio signal and method thereof |
KR1020087021422A KR101165641B1 (en) | 2005-08-30 | 2006-08-30 | Apparatus for encoding and decoding audio signal and method thereof |
KR1020087006790A KR100891687B1 (en) | 2005-08-30 | 2006-08-30 | Apparatus for encoding and decoding audio signal and method thereof |
KR1020087006786A KR100880644B1 (en) | 2005-08-30 | 2006-08-30 | Apparatus for encoding and decoding audio signal and method thereof |
KR1020087006787A KR100880645B1 (en) | 2005-08-30 | 2006-08-30 | Apparatus for encoding and decoding audio signal and method thereof |
KR1020087006785A KR100891685B1 (en) | 2005-08-30 | 2006-08-30 | Apparatus for encoding and decoding audio signal and method thereof |
KR1020087006921A KR100880647B1 (en) | 2005-08-30 | 2006-08-30 | Apparatus for encoding and decoding audio signal and method thereof |
KR1020087006788A KR100880646B1 (en) | 2005-08-30 | 2006-08-30 | Apparatus for encoding and decoding audio signal and method thereof |
Family Applications Before (7)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020087006789A KR100891686B1 (en) | 2005-08-30 | 2006-08-30 | Apparatus for encoding and decoding audio signal and method thereof |
KR1020087021422A KR101165641B1 (en) | 2005-08-30 | 2006-08-30 | Apparatus for encoding and decoding audio signal and method thereof |
KR1020087006790A KR100891687B1 (en) | 2005-08-30 | 2006-08-30 | Apparatus for encoding and decoding audio signal and method thereof |
KR1020087006786A KR100880644B1 (en) | 2005-08-30 | 2006-08-30 | Apparatus for encoding and decoding audio signal and method thereof |
KR1020087006787A KR100880645B1 (en) | 2005-08-30 | 2006-08-30 | Apparatus for encoding and decoding audio signal and method thereof |
KR1020087006785A KR100891685B1 (en) | 2005-08-30 | 2006-08-30 | Apparatus for encoding and decoding audio signal and method thereof |
KR1020087006921A KR100880647B1 (en) | 2005-08-30 | 2006-08-30 | Apparatus for encoding and decoding audio signal and method thereof |
Country Status (4)
Country | Link |
---|---|
JP (1) | JP5319846B2 (en) |
KR (8) | KR100891686B1 (en) |
HK (1) | HK1124681A1 (en) |
MX (1) | MX2008002713A (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3023984A4 (en) * | 2013-07-15 | 2017-03-08 | Electronics and Telecommunications Research Institute | Encoder and encoding method for multichannel signal, and decoder and decoding method for multichannel signal |
KR101536855B1 (en) * | 2014-01-23 | 2015-07-14 | 재단법인 다차원 스마트 아이티 융합시스템 연구단 | Encoding apparatus apparatus for residual coding and method thereof |
US10672408B2 (en) | 2015-08-25 | 2020-06-02 | Dolby Laboratories Licensing Corporation | Audio decoder and decoding method |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
NL9000338A (en) | 1989-06-02 | 1991-01-02 | Koninkl Philips Electronics Nv | DIGITAL TRANSMISSION SYSTEM, TRANSMITTER AND RECEIVER FOR USE IN THE TRANSMISSION SYSTEM AND RECORD CARRIED OUT WITH THE TRANSMITTER IN THE FORM OF A RECORDING DEVICE. |
SG49883A1 (en) | 1991-01-08 | 1998-06-15 | Dolby Lab Licensing Corp | Encoder/decoder for multidimensional sound fields |
DE4209544A1 (en) | 1992-03-24 | 1993-09-30 | Inst Rundfunktechnik Gmbh | Method for transmitting or storing digitized, multi-channel audio signals |
US5481643A (en) | 1993-03-18 | 1996-01-02 | U.S. Philips Corporation | Transmitter, receiver and record carrier for transmitting/receiving at least a first and a second signal component |
EP0827312A3 (en) | 1996-08-22 | 2003-10-01 | Marconi Communications GmbH | Method for changing the configuration of data packets |
US6016473A (en) | 1998-04-07 | 2000-01-18 | Dolby; Ray M. | Low bit-rate spatial coding method and system |
EP1493146B1 (en) | 2002-04-11 | 2006-08-02 | Matsushita Electric Industrial Co., Ltd. | Encoding and decoding devices, methods and programs |
EP1523863A1 (en) | 2002-07-16 | 2005-04-20 | Koninklijke Philips Electronics N.V. | Audio coding |
SE0301273D0 (en) * | 2003-04-30 | 2003-04-30 | Coding Technologies Sweden Ab | Advanced processing based on a complex exponential-modulated filter bank and adaptive time signaling methods |
SE0401408D0 (en) * | 2004-06-02 | 2004-06-02 | Astrazeneca Ab | Diameter measuring device |
-
2006
- 2006-08-30 KR KR1020087006789A patent/KR100891686B1/en active IP Right Grant
- 2006-08-30 MX MX2008002713A patent/MX2008002713A/en active IP Right Grant
- 2006-08-30 KR KR1020087021422A patent/KR101165641B1/en active IP Right Grant
- 2006-08-30 KR KR1020087006790A patent/KR100891687B1/en active IP Right Grant
- 2006-08-30 KR KR1020087006786A patent/KR100880644B1/en active IP Right Grant
- 2006-08-30 KR KR1020087006787A patent/KR100880645B1/en active IP Right Grant
- 2006-08-30 KR KR1020087006785A patent/KR100891685B1/en active IP Right Grant
- 2006-08-30 KR KR1020087006921A patent/KR100880647B1/en active IP Right Grant
- 2006-08-30 KR KR1020087006788A patent/KR100880646B1/en active IP Right Grant
-
2009
- 2009-02-27 HK HK09101883.9A patent/HK1124681A1/en not_active IP Right Cessation
-
2013
- 2013-01-11 JP JP2013003356A patent/JP5319846B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
KR100880646B1 (en) | 2009-01-30 |
KR100891687B1 (en) | 2009-04-03 |
KR100891686B1 (en) | 2009-04-03 |
KR20080037111A (en) | 2008-04-29 |
KR100880647B1 (en) | 2009-01-30 |
KR20080037104A (en) | 2008-04-29 |
JP5319846B2 (en) | 2013-10-16 |
KR20080049746A (en) | 2008-06-04 |
KR101165641B1 (en) | 2012-07-17 |
KR100880644B1 (en) | 2009-01-30 |
KR100880645B1 (en) | 2009-01-30 |
KR20080086551A (en) | 2008-09-25 |
JP2013137546A (en) | 2013-07-11 |
KR20080037106A (en) | 2008-04-29 |
KR20080049747A (en) | 2008-06-04 |
HK1124681A1 (en) | 2009-07-17 |
KR20080036232A (en) | 2008-04-25 |
MX2008002713A (en) | 2008-03-18 |
KR100891685B1 (en) | 2009-04-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5108767B2 (en) | Apparatus and method for encoding and decoding audio signals | |
RU2376656C1 (en) | Audio signal coding and decoding method and device to this end | |
JP5319846B2 (en) | Apparatus and method for encoding and decoding audio signals |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
A302 | Request for accelerated examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20121227 Year of fee payment: 5 |
|
FPAY | Annual fee payment |
Payment date: 20131224 Year of fee payment: 6 |
|
FPAY | Annual fee payment |
Payment date: 20141224 Year of fee payment: 7 |
|
FPAY | Annual fee payment |
Payment date: 20151224 Year of fee payment: 8 |
|
FPAY | Annual fee payment |
Payment date: 20161214 Year of fee payment: 9 |
|
FPAY | Annual fee payment |
Payment date: 20171214 Year of fee payment: 10 |