KR20160101692A - 다채널 신호 처리 방법 및 상기 방법을 수행하는 다채널 신호 처리 장치 - Google Patents
다채널 신호 처리 방법 및 상기 방법을 수행하는 다채널 신호 처리 장치 Download PDFInfo
- Publication number
- KR20160101692A KR20160101692A KR1020160018462A KR20160018462A KR20160101692A KR 20160101692 A KR20160101692 A KR 20160101692A KR 1020160018462 A KR1020160018462 A KR 1020160018462A KR 20160018462 A KR20160018462 A KR 20160018462A KR 20160101692 A KR20160101692 A KR 20160101692A
- Authority
- KR
- South Korea
- Prior art keywords
- channel
- signal
- channels
- output signal
- downmix
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 239000011159 matrix material Substances 0.000 claims description 79
- 238000003672 processing method Methods 0.000 claims description 12
- 108091006146 Channels Proteins 0.000 abstract 6
- 230000000875 corresponding effect Effects 0.000 description 31
- 239000013598 vector Substances 0.000 description 28
- 238000005070 sampling Methods 0.000 description 22
- 238000010586 diagram Methods 0.000 description 19
- 238000007493 shaping process Methods 0.000 description 17
- 230000002123 temporal effect Effects 0.000 description 17
- 238000006243 chemical reaction Methods 0.000 description 16
- 230000015572 biosynthetic process Effects 0.000 description 12
- 238000003786 synthesis reaction Methods 0.000 description 12
- 230000005236 sound signal Effects 0.000 description 4
- 230000003595 spectral effect Effects 0.000 description 4
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 230000001276 controlling effect Effects 0.000 description 3
- 101100018996 Caenorhabditis elegans lfe-2 gene Proteins 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000021615 conjugation Effects 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 230000001939 inductive effect Effects 0.000 description 2
- 208000031501 Emergencies Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S1/00—Two-channel systems
- H04S1/007—Two-channel systems in which the audio signals are in digital form
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/20—Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/008—Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S5/00—Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/01—Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/03—Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/07—Generation or adaptation of the Low Frequency Effect [LFE] channel, e.g. distribution or signal processing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/03—Application of parametric coding in stereophonic audio systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/02—Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Mathematical Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
다채널 신호의 인코딩 방법 및 상기 인코딩 방법을 수행하는 인코딩 장치, 그리고, 다채널 신호 처리 방법 및 상기 디코딩 방법을 수행하는 디코딩 장치가 개시된다. 디코딩 방법은 N채널의 입력 신호로부터 도출된 N/2 채널의 다운믹스 신호를 식별하는 단계; 복수의 OTT 박스들을 이용하여 상기 식별된 N/2 채널의 다운믹스 신호로부터 N채널의 출력 신호를 생성하는 단계를 포함할 수 있다. 상기 복수의 OTT 박스들의 개수는, 상기 출력 신호에 LFE 채널이 없는 경우 상기 다운믹스 신호의 채널수인 N/2와 동일할 수 있다.
Description
본 발명은 다채널 신호 처리 방법 및 상기 방법을 수행하는 다채널 신호 처리 장치에 관한 것으로, 보다 구체적으로는 다채널 신호의 채널수가 증가하더라도 음질 열화없이 압축할 수 있는 방법 및 장치에 관한 것이다.
MPS(MPEG Surround)는 5.1채널, 7.1채널 등 다채널 신호를 코딩하기 위한 코덱이다. MPS에 의해, 다채널 신호를 높은 압축율로 압축하여 전송이 가능하다.
다만, 인코딩/디코딩 과정에서 하위 호환이라는 제약 사항을 가진다. 즉, MPS를 통해 생성된 다채널 신호의 비트스트림은 기존의 코덱을 통해 모노나 스테레오 형태로 재생이 가능해야 하는 하위 호환이 요구된다.
따라서, MPS에 정의된 채널 개수보다 많은 채널을 가지는 다채널 신호가 MPS에 입력되더라도, MPS에서 출력되어 전송되는 신호는 MPS와 동일하게 모노 또는 스테레오로 표현되어야 한다. 그러면, 디코더는 인코더로부터 수신한 부가 정보를 이용하여 비트스트림으로부터 다채널 신호를 복원할 수 있다. 이 때, 디코더는 업믹싱을 위한 부가 정보로 다채널 신호를 복원할 수 있다.
다만, 최근에 통신 환경이 개선되면서 전송 대역폭이 증가함에 따라 신호에 할당되는 대역폭도 증가하였다. 그렇기 때문에, 대역폭에 대응되도록 과도하게 압축하기 보다는 원래 다채널 신호가 가지는 음질을 유지하는 방향으로 기술이 발전하고 있다. 그렇다고 하더라도, 매우 많은 수의 채널을 가지는 다채널 신호를 처리하기 위해서는, 여전히 전송할 때 압축이 필요하다.
따라서, MPS 표준에서 정의하는 채널수보다 많은 채널 수를 가지는 입력 신호를 처리하는 경우, 다채널 신호의 품질을 유지하면서 일정 수준 이상의 압축을 통해 데이터량을 줄여서 전송할 수 있는 방법이 요구된다.
본 발명은 N-N/2-N 구조를 통해 다채널 신호를 처리하는 방법 및 장치를 제공한다.
본 발명의 일실시예에 따른 다채널 신호 처리 방법은 N채널의 입력 신호로부터 도출된 N/2 채널의 다운믹스 신호를 식별하는 단계; 및 복수의 OTT 박스들을 이용하여 상기 식별된 N/2 채널의 다운믹스 신호로부터 N채널의 출력 신호를 생성하는 단계를 포함하고, 상기 복수의 OTT 박스들의 개수는, 상기 출력 신호에 LFE 채널이 없는 경우 상기 다운믹스 신호의 채널수인 N/2와 동일할 수 있다.
상기 복수의 OTT 박스들 각각은, 상기 복수의 OTT 박스들 각각에 대응하는 비상관기(decorrelator)로부터 생성된 비상관성 신호와 1채널의 다운믹스 신호를 이용하여 2채널의 출력 신호를 생성할 수 있다.
상기 출력 신호의 채널수인 N이 미리 설정된 채널수 M을 초과하는 경우, 상기 비상관기는, M 이하의 채널에 대응하는 제1 비상관기와 M 초과의 채널에 대응하는 제2 비상관기를 포함하고, 상기 제2 비상관기는, 제1 비상관기의 필터셋(filter set)을 재사용할 수 있다.
상기 복수의 OTT 박스들 중 출력이 LFE 채널인 OTT 박스는, 비상관성 신호를 이용하지 않고 2채널의 다운믹스 신호를 생성할 수 있다.
상기 복수의 OTT 박스들 각각은, 전송된 잔차 신호가 존재하는 경우, 비상관성 신호 대신에 잔차 신호와 1채널의 다운믹스 신호를 이용하여 2채널의 출력 신호를 생성할 수 있다.
상기 N채널의 출력 신호를 생성하는 단계는, 프리 비상관기 매트릭스(pre decorrelator matrix) M1과 믹스 매트릭스(mix matrix) M2를 이용하여 N 채널의 출력 신호를 생성할 수 있다.
상기 복수의 OTT 박스들 각각은, CLD(channel level difference)를 이용하여 N채널의 출력 신호를 생성할 수 있다.
상기 출력 신호의 채널수 N은 10부터 32까지의 짝수일 수 있다.
본 발명의 다른 실시예에 따른 다채널 신호 처리 방법은 제1 코딩 방식에 따라 인코딩된 N/2 채널의 다운믹스 신호를 디코딩하는 단계; 및 제2 코딩 방식에 따라 상기 N/2 채널의 다운믹스 신호로부터 N 채널의 출력 신호를 생성하는 단계를 포함하고, 상기 제2 코딩 방식은, 상기 출력 신호에 LFE 채널을 포함하지 않는 경우, 상기 다운믹스 신호의 채널수인 N/2와 동일한 개수의 OTT(one-to-two) 박스들을 이용할 수 있다.
본 발명의 일실시예에 따른 다채널 신호 처리 장치는 다채널 신호 처리 방법을 실행하는 프로세스를 포함하고, 상기 프로세스는, N채널의 입력 신호로부터 도출된 N/2 채널의 다운믹스 신호를 식별하고, 복수의 OTT 박스들을 이용하여 상기 식별된 N/2 채널의 다운믹스 신호로부터 N채널의 출력 신호를 생성하며, 상기 복수의 OTT 박스들의 개수는, 상기 출력 신호에 LFE 채널이 없는 경우 상기 다운믹스 신호의 채널수인 N/2와 동일할 수 있다.
상기 복수의 OTT 박스들 각각은, 상기 복수의 OTT 박스들 각각에 대응하는 비상관기(decorrelator)로부터 생성된 비상관성 신호와 1채널의 다운믹스 신호를 이용하여 2채널의 출력 신호를 생성할 수 있다.
상기 출력 신호의 채널수인 N이 미리 설정된 채널수 M을 초과하는 경우, 상기 비상관기는, M 이하의 채널에 대응하는 제1 비상관기와 M 초과의 채널에 대응하는 제2 비상관기를 포함하고, 상기 제2 비상관기는, 제1 비상관기의 필터셋(filter set)을 재사용할 수 있다.
상기 복수의 OTT 박스들 중 출력이 LFE 채널인 OTT 박스는, 비상관성 신호를 이용하지 않고 2채널의 다운믹스 신호를 생성할 수 있다.
상기 복수의 OTT 박스들 각각은, 전송된 잔차 신호가 존재하는 경우, 비상관성 신호 대신에 잔차 신호와 1채널의 다운믹스 신호를 이용하여 2채널의 출력 신호를 생성할 수 있다.
상기 프로세스는, 프리 비상관기 매트릭스(pre decorrelator matrix) M1과 믹스 매트릭스(mix matrix) M2를 이용하여 N 채널의 출력 신호를 생성할 수 있다.
상기 복수의 OTT 박스들 각각은, CLD(channel level difference)를 이용하여 N채널의 출력 신호를 생성할 수 있다.
상기 출력 신호의 채널수 N은 10부터 32까지의 짝수일 수 있다.
본 발명의 다른 실시예에 따른 다채널 신호 처리 장치는 다채널 신호 처리 방법을 실행하는 프로세스를 포함하고, 상기 프로세스는, 제1 코딩 방식에 따라 인코딩된 N/2 채널의 다운믹스 신호를 디코딩하고, 제2 코딩 방식에 따라 상기 N/2 채널의 다운믹스 신호로부터 N 채널의 출력 신호를 생성하며, 상기 제2 코딩 방식은, 상기 출력 신호에 LFE 채널을 포함하지 않는 경우, 상기 다운믹스 신호의 채널수인 N/2와 동일한 개수의 OTT(one-to-two) 박스들을 이용할 수 있다.
본 발명의 일실시예에 따르면, N-N/2-N 구조에 따라 다채널 신호를 처리함으로써 MPS에서 정의하는 채널 수보다 많은 채널 수의 다채널 신호를 효율적으로 처리할 수 있다.
도 1은 일실시예에 따른 인코딩 장치와 디코딩 장치를 도시한 도면이다.
도 2는 일실시예에 따른 인코딩 장치의 세부 구성 요소를 도시한 도면이다.
도 3은 다른 실시예에 따른 인코딩 장치의 세부 구성 요소를 도시한 도면이다.
도 4는 일실시예에 따른 제1 인코딩부의 동작을 설명하기 위한 도면이다.
도 5는 일실시예에 따른 디코딩 장치의 세부 구성 요소를 도시한 도면이다.
도 6은 다른 실시예에 따른 디코딩 장치의 세부 구성 요소를 도시한 도면이다.
도 7은 일실시예에 따른 제2 디코딩부의 동작을 설명하기 위한 도면이다.
도 8은 일실시예에 따른 N-N/2-N 구조를 위한 공간적인 오디오 처리 과정을 도시한 도면이다.
도 9는 일실시예에 따른 N-N/2-N 구조를 위한 공간적인 오디오 처리를 수행하는 트리 구조를 도시한 도면이다.
도 10은 일실시예에 따른 12채널의 다운믹스로부터 24채널의 출력 신호를 생성하는 과정을 도시한 도면이다.
도 11은 일실시예에 따른 도 10의 과정을 OTT 박스로 표현한 도면이다.
도 12는 일실시예에 따른 도 11의 과정을 MPS 표준에 따라 표현한 도면이다.
도 2는 일실시예에 따른 인코딩 장치의 세부 구성 요소를 도시한 도면이다.
도 3은 다른 실시예에 따른 인코딩 장치의 세부 구성 요소를 도시한 도면이다.
도 4는 일실시예에 따른 제1 인코딩부의 동작을 설명하기 위한 도면이다.
도 5는 일실시예에 따른 디코딩 장치의 세부 구성 요소를 도시한 도면이다.
도 6은 다른 실시예에 따른 디코딩 장치의 세부 구성 요소를 도시한 도면이다.
도 7은 일실시예에 따른 제2 디코딩부의 동작을 설명하기 위한 도면이다.
도 8은 일실시예에 따른 N-N/2-N 구조를 위한 공간적인 오디오 처리 과정을 도시한 도면이다.
도 9는 일실시예에 따른 N-N/2-N 구조를 위한 공간적인 오디오 처리를 수행하는 트리 구조를 도시한 도면이다.
도 10은 일실시예에 따른 12채널의 다운믹스로부터 24채널의 출력 신호를 생성하는 과정을 도시한 도면이다.
도 11은 일실시예에 따른 도 10의 과정을 OTT 박스로 표현한 도면이다.
도 12는 일실시예에 따른 도 11의 과정을 MPS 표준에 따라 표현한 도면이다.
이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다. 본 발명에 의하면, MPS 인코더를 통해 N채널의 입력 신호로부터 N/2 채널의 다운믹스 신호를 생성하고, MPS 디코더를 통해 N/2 채널의 다운믹스 신호를 이용하여 N채널의 출력 신호를 생성하는 과정을 설명한다. 이 때, N/2 채널은 기존의 MPS 표준에서 정의된 채널수보다 더 많은 채널수를 나타낸다. 일례로, 본 발명의 일실시예에 따른 MPS 디코더는 MPEG-H 3D AUDIO 표준을 위한 확장된 MPS 표준을 만족할 수 있다.
이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.
본 발명에서 인코딩 장치와 디코딩 장치는 다채널 신호 처리 장치에 대응한다.
도 1은 일실시예에 따른 인코딩 장치와 디코딩 장치를 도시한 도면이다.
본 발명의 일실시예에 따른, 인코딩 장치(100)는 N채널의 입력 신호를 다운믹싱하여 N/2채널의 다운믹스 신호를 생성할 수 있다. 그러면, 디코딩 장치(101)는 N/2채널의 다운믹스 신호를 이용하여 N채널의 출력 신호를 생성할 수 있다. 여기서, N은 10 이상일 수 있다.
도 2는 일실시예에 따른 인코딩 장치의 세부 구성 요소를 도시한 도면이다.
도 2를 참고하면, 인코딩 장치는 제1 인코딩부(201), 샘플링율 변환부(202) 및 제2 인코딩부(203)를 포함할 수 있다. 제1 인코딩부(201)는 MPS 인코더로 정의된다. 그리고, 제2 인코딩부(203)는 USAC(Unified Speech and Audio Codec) 인코더로 정의된다. 즉, N채널의 입력 신호를 다운믹스하여 N/2채널의 다운믹스 신호를 생성할 수 있다.
그러면, 샘플링율 변환부(202)는 N/2채널의 다운믹스 신호에 대해 샘플링율을 변환할 수 있다. 샘플링율 변환부(202)는 제2 인코딩부(203)인 USAC 인코더에 할당된 비트레이트에 기초하여 다운샘플링할 수 있다. 만약, 제2 인코딩부(203)인 USAC 인코더에 충분히 높은 비트레이트가 할당된다면, 샘플링율 변환부(202)는 바이패스될 수 있다.
이 후, 제2 인코딩부(203)는 샘플링율이 변환된 N/2채널의 다운믹스 신호의 코어 대역에 대해 인코딩할 수 있다. 그러면, 제2 인코딩부(203)를 통해 인코딩된 N/2채널의 다운믹스 신호가 생성될 수 있다. 인코딩된 N/2채널의 다운믹스 신호는 M채널(M은 N/2보다 같거나 작음)의 신호일 수도 있다. 여기서, USAC 인코더에서 적용되는 SBR(Spectral Band Replication)을 통해 주파수 대역이 확장되는 경우, 코어 대역은 주파수 대역이 확장되지 않은 저주파수 대역을 의미한다.
기존의 MPS 표준에 의하면, 제1 인코딩부(201)에 대응하는 MPS 인코더를 통해 출력되는 다운믹스 신호의 채널 수는 1채널, 2채널, 및 5.1 채널로 한정되어 있다. 하지만, 본 발명의 일실시예에 따른 제1 인코딩부(201)는 이와 같은 MPS 표준에서 정의하는 다운믹스 신호의 채널 수를 초과할 수 있다. 즉, 제1 인코딩부(201)는 N채널의 입력 신호를 다운믹싱하여 N/2채널의 다운믹스 신호를 생성할 수 있다. 여기서, N/2채널의 다운믹스 신호에서, N/2채널은 1, 2, 5.1 또는 5.1 이상이 될 수 있다.
도 3은 다른 실시예에 따른 인코딩 장치의 세부 구성 요소를 도시한 도면이다.
도 3은 도 2에서 설명하는 구성 요소와 동일하나, 그 순서가 변경된 실시예를 나타낸다. 구체적으로, 도 2는 제1 인코딩부(201)와 제2 인코딩부(203) 사이에 샘플링율 변환부(202)가 존재하는 실시예를 나타낸다. 하지만, 도 3은 샘플링율 변환부(301) 이후에, 제1 인코딩부(302)와 제2 인코딩부(303)가 배치된 실시예를 나타낸다.
도 4는 일실시예에 따른 제1 인코딩부의 동작을 설명하기 위한 도면이다.
도 4는 N 채널의 입력 신호로부터 N/2채널의 다운믹스 신호를 생성하는 과정을 나타낸다. 도 4를 참고하면, 제1 인코딩부(401)는 복수의 TTO 박스(402)들을 포함할 수 있다. 여기서, 복수의 TTO 박스(402)들 각각은 2채널의 입력 신호를 다운믹싱하여 1채널의 다운믹스 신호를 출력할 수 있다. 즉, 도 4와 같이 입력된 N채널의 입력 신호를 다운믹싱하여 N/2채널의 다운믹스 신호를 생성하기 위해서, 제1 인코딩부(401)는 N/2개의 TTO 박스(402)를 포함할 수 있다.
제1 인코딩부(401)가 기존의 MPS 표준을 따른다면, 제1 인코딩부(401)에서 생성되는 다운믹스 신호는 1채널, 2채널, 또는 5.1 채널만 가능하다. 하지만, 본 발명의 일실시예에 따르면, 제1 인코딩부(401)는 MPS에 따라 N채널의 입력 신호로부터 N/2채널의 다운믹스 신호를 생성할 수 있다. 여기서, N/2채널은 1채널, 2채널 또는 5.1 채널 뿐만 아니라 5.1 채널 이상의 채널도 가능하다. 이 때, N채널이 MPS에서 정의하는 채널보다 큰 경우, 제1 인코딩부(401)는 MPS를 제어하기 위해 추가적인 구문을 고려할 필요가 있다. 일례로, 제1 인코딩부(401)는 임의적인 트리(arbitrary tree)를 이용한 코딩 모드를 활용하여 MPS를 제어하기 위한 추가적인 구문을 정의할 수 있다.
도 5는 일실시예에 따른 디코딩 장치의 세부 구성 요소를 도시한 도면이다.
도 5는 N/2 채널의 다운믹스 신호로부터 N채널의 출력 신호를 생성하는 과정을 나타낸다. 도 5를 참고하면, 디코딩 장치는 제1 디코딩부(501), 샘플링율 변환부(502), 및 제2 디코딩부(503)를 포함할 수 있다. 제1 디코딩부(501)는 인코딩된 N/2 채널의 다운믹스 신호를 디코딩하여 N/2채널의 다운믹스 신호를 복원할 수 있다. 여기서, 제1 디코딩부(501)는 USAC 디코더로 정의될 수 있다.
그리고, 샘플링율 변환부(502)는 N/2채널의 다운믹스 신호에 대한 샘플링율을 변환할 수 있다. 이 때, 샘플링율 변환부(502)는 인코딩 장치에서 샘플링율이 변환된 오디오 신호에 대해 원래의 샘플링율로 변환할 수 있다. 다시 말해서, 도 2나 도 3에서 샘플링율 변환이 수행된 경우, 샘플링율 변환부(502)가 동작한다. 만약, 도 2나 도 3에서 샘플링율 변환이 수행되지 않은 경우, 샘플링율 변환부(502)는 동작하지 않고 바이패스될 수 있다.
한편, 제2 디코딩부(503)는 샘플링율 변환부(502)에서 출력된 N/2채널의 다운믹스 신호를 업믹싱하여 N채널의 출력 신호를 생성할 수 있다.
종래의 MPS 디코더에 입력되는 다운믹스 신호는 1채널, 2채널, 및 5.1 채널로 한정되어 있다. 하지만, 본 발명의 일실시예에 따른 제2 디코딩부(503)에 입력되는 다운믹스 신호는 1채널, 2채널, 5.1채널 뿐만 아니라 N/2채널까지 확장될 수 있다. 그러면, 제2 디코딩부(503)는 N/2채널의 다운믹스 신호를 업믹싱하여 N채널의 출력 신호를 생성할 수 있다. 여기서, 제2 디코딩부(503)에 입력되는 N/2채널의 다운믹스 신호는 최소한 5.1 채널 이상을 의미하므로, N은 10.2 채널 이상이 될 수 있다.
도 6은 다른 실시예에 따른 디코딩 장치의 세부 구성 요소를 도시한 도면이다.
도 6은 도 5와 달리 제1 디코딩부(601), 제2 디코딩부(602) 및 샘플링율 변환부(603)의 순서에 따라 오디오 신호를 처리할 수 있다. 제1 디코딩부(601)는 N/2채널의 다운믹스 신호를 복원할 수 있다. 그러면, 제2 디코딩부(602)는 N/2채널의 다운믹스 신호를 업믹싱함으로써, N채널의 출력 신호를 생성할 수 있다. 이 후, 샘플링율 변환부(603)는 제2 디코딩부(602)를 통해 생성된 N채널의 출력 신호에 대해 샘플링율을 변환할 수 있다.
도 7은 일실시예에 따른 제2 디코딩부의 동작을 설명하기 위한 도면이다.
도 5 및 도 6에서 설명했던 제2 디코딩부(701)는 N/2채널의 다운믹스 신호를 업믹싱함으로써, N채널의 출력 신호를 생성할 수 있다. 이 때, 제2 디코딩부(701)는 복수의 OTT 박스(702)를 포함할 수 있다. OTT 박스(702)는 1채널의 다운믹스 신호를 업믹싱하여 스테레오 형태의 2채널의 출력 신호를 생성할 수 있다.
따라서, 제2 디코딩부(701)가 N/2채널의 다운믹스 신호를 업믹싱함으로써 N채널의 출력 신호를 생성하기 위해서, 제2 디코딩부(701)는 N/2개의 OTT 박스(702)들을 포함할 수 있다.
제2 디코딩부(701)가 기존의 MPS 표준을 따른다면, 제2 디코딩부(701)에 입력되어 처리될 수 있는 다운믹스 신호의 채널수는 1채널, 2채널, 또는 5.1채널할 수 있다. 하지만, 본 발명의 일실시예에 따르면, 제2 디코딩부(701)는 N/2채널의 다운믹스 신호로부터 MPS에 따라 N채널의 출력 신호를 생성할 수 있다. 여기서, N은 10.2 이상일 수 있다.
이 때, 제2 디코딩부(701)는 MPS를 제어하기 위해 추가적인 구문을 고려할 필요가 있다. 일례로, 제2 디코딩부(701)는 임의적인 트리(arbitrary tree)를 활용한 코딩 모드를 활용하여 MPS를 제어하기 위한 추가적인 구문을 정의할 수 있다.
도 8 내지 도 12에서 설명하는 MPS 디코더는 도 5의 제2 디코딩부(503) 및 도 6의 제2 디코딩부(602)에 관한 것이다.
도 8은 N-N/2-N 구조(configuration)에 따라 다채널 신호를 처리하는 과정을 도시한다.
도 8은, MPEG SURROUND에 정의된 구조가 변경된 N-N/2-N 구조를 나타낸다. MPEG SURROUND의 경우, 표 1과 같이 디코더에서 공간적 합성(spatial synthesis)이 수행될 수 있다. 공간적 합성은 입력 신호들을 하이브리드 QMF 분석 뱅크(hybrid QMF(Quadrature Mirror Filter) analysis bank)를 통해 시간 도메인에서 비규칙적인(non-uniform) 서브밴드 도메인으로 변환할 수 있다. 여기서, 비규칙적이라는 의미는 하이브리드에 대응한다.
그러면, 디코더는 하이브리드 서브밴드에서 동작한다. 디코더는 인코더에서 전달된 공간 파라미터들(spatial parameter)에 기초하여 공간적인 합성을 수행함으로써 입력 신호들로부터 출력 신호를 생성할 수 있다. 그런 후, 디코더는 하이브리드 QMF 합성 뱅크(hybrid QMF synthesis bank)를 이용하여 출력 신호들을 하이브리드 서브밴드에서 시간 도메인으로 역변환할 수 있다.
도 8은 디코더가 수행하는 공간적인 합성을 혼합된 매트릭스를 통해 다채널 신호를 처리하는 과정을 설명한다. 기본적으로 MPEG SURROUND는 5-1-5 구조, 5-2-5 구조, 7-2-7 구조, 7-5-7 구조를 정의하고 있지만, 본 발명은 N-N/2-N구조를 제안한다.
N-N/2-N 구조의 경우, N채널의 입력 신호가 N/2 채널의 다운믹스 신호로 변환된 후, N/2 채널의 다운믹스 신호로부터 N채널의 출력 신호가 생성되는 과정을 나타낸다. 본 발명의 일실시예에 따른 디코더는 N/2채널의 다운믹스 신호를 업믹싱하여 N채널의 출력 신호를 생성할 수 있다. 기본적으로, 본 발명의 N-N/2-N 구조에서 N채널의 개수는 제한이 없다. 즉, N-N/2-N 구조는 MPS에서 지원하는 채널 구조 뿐만 아니라, MPS에서 지원하지 않는 다채널 신호의 채널 구조까지 지원할 수 있다.
도 8에서 N/2는 MPS를 통해 도출된 다운믹스 신호의 채널 개수를 의미한다. NumInCh는 다운믹스 신호의 채널 개수를 의미하고, NumOutCh는 출력 신호의 채널 개수를 의미한다. 구체적으로, 다운믹스 신호의 채널수인 NumInCh 는 N/2이다. 즉, NumInCh는 N/2개이고, NumOutCh는 N개이다.
도 8에서 N/2채널의 다운믹스 신호 (X0~XNumInch-1)와 잔차 신호(res)들이 입력 벡터 X를 구성한다. 도 8에서 NumInCh는 N/2이므로, X0부터 XNumInCh-1는 N/2 채널의 다운믹스 신호를 의미한다. OTT(One-To-Two) 박스의 개수가 N/2개 이므로, N/2 채널의 다운믹스 신호를 처리하기 위해 출력 신호의 채널 개수인 N은 짝수이어야 한다. 본 발명의 일실시에에 따르면, N은 10부터 32일 수 있다.
도 8에서, 1부터 M(NumInCh-NumLfe)로 라벨링된 디코릴레이터들, 비상관성 신호들, 잔차 신호들은 서로 다른 OTT 박스들에 대응한다. N-N/2-N 구조가 적용되는 다채널 신호를 위한 복원 과정은 트리 구조로 시각화될 수 있다.
매트릭스 M1에 대응하는 벡터 와 곱해지는 입력 벡터 X는 N/2 채널의 다운믹스 신호를 포함하는 벡터를 의미한다. N채널의 출력 신호에 LFE(Low Frequency Effect) 채널이 N채널의 출력 신호에 포함되지 않는 경우, 비상관성 신호를 생성하는 비상관기(decorrelator)의 개수는 최대로 N/2가 될 수 있다. 그러나, 출력 신호의 채널 개수인 N이 20을 초과하는 경우, 비상관기의 필터들이 재사용될 수 있다.
비상관기의 출력 신호들의 직교성(orthogonality)을 보장하기 위해 N이 20인 경우 활용가능한 비상관기의 개수가 특정 개수(ex. 10개)로 제한될 필요가 있기 때문에, 몇몇의 비상관기의 인덱스들이 반복될 수 있다. 그래서, 본 발명의 바람직한 실시예에 의하면, N-N/2-N구조에서 출력 신호의 채널 개수인 N은 제한된 특정 개수의 2배(ex. N<20)보다 적을 필요가 있다. 만약, 출력 신호에 LFE 채널이 포함된 경우, N채널은 LFE 채널의 개수를 고려하여 특정 개수의 2배보다 좀더 많은 채널보다 작은 개수의 채널(ex. N<24)로 구성될 필요가 있다.
그리고, 비상관기들의 출력 결과는 비트스트림에 의존하여 특정 주파수 영역에 대한 잔차 신호로 대체될 수 있다. LFE 채널이 OTT 박스의 출력 중 하나인 경우, 업믹스에 기초한 OTT 박스에 대해 비상관기가 사용되지 않는다.
도 8에서 1부터 M(ex. NumInCh-NumLfe)로 라벨링된 비상관기들, 비상관기의 출력 결과(비상관된 신호), 잔차 신호들은 서로 다른 OTT 박스들에 대응한다. d1~dM은 비상관기(D1~DM)의 출력 결과인 비상관된 신호를 의미하고, res1~resM은 비상관기(D1~DM)의 출력 결과인 잔차 신호를 의미한다. 그리고, 비상관기 D1~DM은 서로 다른 OTT박스들 각각에 대응한다.
(1) 시간적인 쉐이핑 툴(termporal shaping tool)이 사용되지 않는 경우
시간적인 쉐이핑 툴이 사용되지 않는 경우, 벡터 는 수학식 1에 따라 벡터 와 매트릭스 M1에 대응하는 에 의해 도출된다. 그리고, 은 N번째 행에 1번째 열의 매트릭스를 의미한다.
이 때, 수학식 1에서 벡터 의 엘리먼트 중에서 내지 는 N/2개의 OTT 박스들에 대응하는 N/2개의 비상관기에 입력되지 않고 직접적으로 매트릭스 M2에 입력될 수 있다. 그래서, 내지 는 다이렉트 신호(direct signal)로 정의될 수 있다. 그리고, 벡터 의 엘리먼트 중에서 내지 를 제외한 나머지 신호들(내지 )는 N/2개의 OTT 박스들에 대응하는 N/2개의 비상관기들에 입력될 수 있다.
벡터 는 다이렉트 신호, 비상관기들로부터 출력된 비상관된 신호들(decorrelated signals)인 d1~dM 및 비상관기들로부터 출력된 잔차 신호들인 res1~resM로 구성된다. 벡터 는 하기 수학식 2에 의해 결정될 수 있다.
수학식 2에서 로 정의되고, 는 를 만족하는 모든 k의 집합을 의미한다. 그리고, 는 신호 가 비상관기 에 입력되었을 때, 비상관기로부터 출력되는 비상관된 신호를 의미한다. 특히, 는 OTT 박스가 OTTx이고, 잔차 신호가 인 경우에 비상관기로부터 출력되는 신호를 의미한다.
출력 신호의 서브 밴드는 모든 타임 슬롯 n과 모든 하이브리드 서브밴드 k에 대해 종속적으로 정의될 수 있다. 출력 신호 는 벡터 w와 매트릭스 M2를 통해 하기 수학식 3에 의해 결정될 수 있다.
한편, 에 의해 하이브리드 합성 필터뱅크를 통해 시간 도메인으로 합성될 수 있는 하이브리드 서브밴드 신호들을 의미한다. 여기서, 하이브리드 합성 필터뱅크는 나이퀴스트 합성 뱅크(Nyquist synthesis banks)를 거쳐 QMF 합성 뱅크(QMF synthesis bank)를 조합한 것으로, 는 하이브리드 합성 필터뱅크를 통해 하이브리드 서브밴드 도메인에서 시간 도메인으로 변환될 수 있다.
(2) 시간적인 쉐이핑 툴이 사용되는 경우
는 비상관기들을 거치지 않고 직접 매트릭스 M2로 입력되는 다이렉트 신호와 비상관기로부터 출력된 잔차 신호들을 의미하고, 는 비상관기로부터 출력된 비상관된 신호를 의미한다. 그리고, 로 정의되며, 는 를 만족하는 모든 k의 집합을 의미한다. 또한, 비상관기 에 입력 신호 가 입력되는 경우, 는 비상관기 로부터 출력되는 비상관된 신호를 의미한다.
수학식 6, 수학식 7에 정의된 와 로 인해 최종적으로 출력되는 신호는 와 로 구분될 수 있다. 는 다이렉트 신호(direct signal)를 포함하고, 는 확산 신호(diffuse signal)를 포함한다. 즉, 는 비상관기를 통과하지 않고 매트릭스 M2에 직접 입력된 다이렉트 신호로부터 도출된 결과이고, 는 비상관기에서 출력되어 매트릭스 M2에 입력된 확산 신호로부터 도출된 결과이다.
만약, 서브밴드 도메인 시간 프로세싱(Subband Domain Temporal Processing: STP)가 N-N/2-N 구조에 사용되는 경우, 가이드된 포락선 쉐이핑(Guided Envelope Shaping: GES)이 N-N/2-N 구조에 사용되는 경우로 구분되어 와 가 도출된다. 이 때, 와 는 데이터스트림 엘리먼트인 bsTempShapeConfig로 식별된다.
<STP가 사용되는 경우>
출력 신호의 채널들 간의 비상관 정도를 합성하기 위해, 공간적인 합성을 위한 비상관기를 통해 확산 신호가 생성된다. 이 때, 생성된 확산 신호는 다이렉트 신호와 믹싱될 수 있다. 일반적으로 확산 신호의 시간적인 포락선은 다이렉트 신호의 포락선과 매칭되지 않는다
이 때, 서브밴드 도메인 시간 프로세싱은 출력 신호의 각각의 확산 신호 부분의 포락선을 인코더로부터 전송된 다운믹스 신호의 시간적인 모양(termpoal shape)에 매칭되도록 쉐이핑하기 위해 사용된다. 이러한 프로세싱은 다이렉트 신호와 확산 신호에 대해 포락선 비율 계산 또는 확산 신호의 상위 스펙트럼 부분의 쉐이핑과 같은 포락선 추정으로 구현될 수 있다.
즉, 업믹싱을 통해 생성된 출력 신호에서 다이렉트 신호에 해당하는 부분과 확산 신호에 대응하는 부분에 대한 시간적인 에너지 포락선이 추정될 수 있다. 쉐이핑 펙터는 다이렉트 신호에 해당하는 부분과 확산 신호에 대응하는 부분에 대한 시간적인 에너지 포락선 간의 비율로 계산될 수 있다.
한편, 출력 신호를 생성하기 위한 공간적인 업믹스에 대해 전송된 원본 다운믹스 신호의 지연 정렬(delay alignment)의 필요성을 줄이기 위해, 공간적인 업믹스의 다운믹스는 전송된 원본 다운믹스 신호의 근사값(approximation)으로 계산될 수 있다.
N-N/2-N 구조에 대해, (NumInCh-NumLfe)에 대한 다이렉트 다운믹스 신호는 하기 수학식 8에 의해 정의될 수 있다.
여기서, 는 N-N/2-N 구조에 대해 출력 신호의 채널 d에 대응하는 출력 신호의 쌍(pair-wise)을 포함한다. 는 N-N/2-N 구조에 대해 하기 표 2와 같이 정의될 수 있다.
다운믹스의 브로드밴드 포락선들과 각각의 업믹스 채널의 확산 신호 부분에 대한 포락선은 정규화된 다이렉트 에너지를 이용하여 하기 수학식 9에 따라 추정될 수 있다.
N-N/2-N 구조에서 NumInCh-NumLfe에 대한 다이렉트 신호가 존재하므로, 를 만족하는 다이렉트 신호의 에너지인 는 MPEG Surround에서 정의하는 5-1-5 구조와 동일한 방식으로 획득될 수 있다. 최종 포락선 처리에 대한 스케일 팩터는 하기 수학식 10과 같이 정의될 수 있다.
수학식 10에서 스케일 팩터는 N-N/2-N 구조에 대해 인 경우에 정의될 수 있다. 그러면, 출력 신호의 확산 신호 부분에 스케일 팩터가 적용됨으로써 출력 신호의 시간적인 포락선이 실질적으로 다운믹스 신호의 시간적인 포락선에 매핑한다. 그러면, N채널의 출력 신호들의 각각의 채널에서 스케일 펙터로 처리된 확산 신호 부분은 다이렉트 신호 부분과 믹싱될 수 있다. 그러면, 출력 신호의 채널별로 확장 신호 부분이 스케일 팩터로 처리되었는지 여부가 시그널링될 수 있다. (인 경우, 확장 신호 부분이 스케일 팩터로 처리되었다는 것을 나타냄)
<GES가 사용되는 경우 >
앞서 설명한 출력 신호의 확장 신호 부분에 시간적인 쉐이핑을 수행하는 경우, 특징적인 왜곡이 발생될 가능성이 있다. 그래서, 가이드된 포락선 쉐이핑 (Guided Envelope Shaping :GES)은 왜곡 문제를 해결하면서 시간적/공간적인 품질을 향상시킬 수 있다. 디코더에서 출력 신호의 다이렉트 신호 부분과 확장 신호 부분을 개별적으로 처리하는데, GES가 적용되면 업믹싱된 출력 신호의 다이렉트 신호 부분만 변경될 수 있다.
GES는 합성된 출력 신호의 브로드밴드 포락선을 복원할 수 있다. GES는 출력 신호의 각 채널별로 다이렉트 신호 부분에 대해 포락선을 평편화(flatterning)하고 리쉐이핑(reshaping)하는 과정 이후에 수정된 업믹싱 과정을 포함한다.
리쉐이핑에 대해, 비트스트림에 포함된 파라메트릭 브로드밴드 포락선(parametric broadband envelop)의 부가 정보가 사용될 수 있다. 부가 정보는 원본 입력 신호의 포락선과 다운믹스 신호의 포락선에 대한 포락선 비율을 포함한다. 디코더에서 포락선 비율은 출력 신호의 채널별로 프레임에 포함된 각각의 타임 슬롯의 다이렉트 신호 부분에 적용될 수 있다. GES로 인해 출력 신호의 채널별로 확산 신호 부분은 변경(alter)되지 않는다.
만약, 인 경우, GES 과정이 진행될 수 있다. 만약, GES가 사용가능하다면, 출력 신호의 확장 신호와 다이렉트 신호는 하기 수학식 11에 따라 하이브리드 서브밴드 도메인에서 수정된 포스트 믹싱 매트릭스(M2)을 이용하여 각각 합성될 수 있다.
수학식 11에서 출력 신호 y에 대한 다이렉트 신호 부분은 다이렉트 신호와 잔차 신호를 제공하고, 출력 신호 y에 대한 확장 신호 부분은 확장 신호를 제공한다. 전체적으로, GES에 의해 다이렉트 신호만 처리될 수 있다.
GES가 처리된 결과는 하기 수학식 12에 따라 결정될 수 있다.
GES는 트리 구조에 의존하여 LFE 채널을 제외한 공간적인 합성을 수행하는 다운믹스 신호 및 디코더에 의해 다운믹스 신호로부터 업믹싱된 출력 신호의 특정 채널에 대해 포락선을 추출할 수 있다.
이하에서는, 모든 타임 슬롯 n과 모든 하이브리드 서브밴드 k에 대해 정의된 매트릭스 M1 ()과 매트릭스 M2()에 대해 설명하기로 한다. 이들 매트릭스들은 파라미터 타임 슬롯과 프로세싱 밴드에 유효한 CLD, ICC, CPC 파라미터들에 기초하여 주어진 파라미터 타임 슬롯 l과 주어진 프로세싱 밴드 m에 대해 정의된 및 의 보간된 버전이다.
<매트릭스 M1 (Pre-Matrix)의 정의>
도 8의 N-N/2-N 구조에서 매트릭스 M1에 대응하는 는 디코더에서 사용되는 비상관기들에 다운믹스 신호가 어떻게 입력되는지를 설명한다. 매트릭스 M1은 프리 매트릭스로 표현될 수 있다.
매트릭스 M1의 크기는 매트릭스 M1에 입력되는 다운믹스 신호의 채널 개수와 디코더에서 사용되는 비상관기의 개수에 의존한다. 반면에 매트릭스 M1의 엘리먼트들은 CLD 및/또는 CPC 파라미터들로부터 도출될 수 있다. M1은 이하 수학식 13에 의해 정의될 수 있다.
여기서, 와 에서 첫번째 행은 하이브리드 서브밴드 이고, 두번째 행은 프로세싱 밴드이고, 세번째 행은 특정 하이브리드 서브밴드 에 대해 의 복소 컨주게이션(complex conjugation)인 이다. 그리고, 는 이전 프레임의 마지막 파라미터 셋트를 의미한다.
(1) 매트릭스 R1
매트릭스 은 채널 구조에 따라 다르게 정의될 수 있다. N-N/2-N 구조에서, OTT 박스들이 캐스케이드되지 않도록 하기 위해, OTT 박스에 입력 신호의 모든 채널이 2채널씩 쌍이 되어 입력될 수 있다. 그래서, N-N/2-N 구조의 경우, OTT 박스의 개수는 N/2이다.
이 경우, 매트릭스 는 입력 신호를 포함하는 벡터 의 열 사이즈(column size)와 동일한 OTT 박스의 개수에 의존한다. 그렇지만, OTT 박스에 기초한 Lfe 업믹스는 비상관기가 필요하지 않기 때문에, N-N/2-N 구조에서는 고려되지 않는다. 매트릭스 의 모든 엘리먼트는 1 또는 0 중 어느 하나일 수 있다.
N-N/2-N 구조에서 모든 OTT 박스들은 케스케이드가 아닌 병렬적인 프로세싱 스테이지(parallele processing satge)를 표현한다. 그러므로, N-N/2-N 구조에서 모든 OTT 박스들은 어떤 다른 OTT 박스들과 연결되지 않는다. 그래서, 매트릭스 는 단위 매트릭스 와 단위 매트릭스 로 구성될 수 있다. 이 때, 단위 매트릭스 는 N*N 크기의 단위 매트릭스일 수 있다.
(2) 매트릭스 G1
MPEG Surround 디코딩 이전에 다운믹스 신호 또는 외부에서 공급된 다운믹스 신호를 핸들링하기 위해, 교정 팩터(correction factors)에 의해 제어된 데이터스트림이 적용될 수 있다. 교정 팩터는 매트릭스 에 의해 다운믹스 신호 또는 외부에서 공급된 다운믹스 신호에 적용될 수 있다.
매트릭스 는 파라미터가 표현하는 특정 타임/주파수 타일(time frequency tile)에 대한 다운믹스 신호의 레벨이 인코더에서 공간적인 파라미터가 추정될 때 획득되는 다운믹스 신호의 레벨과 동일하도록 보장할 수 있다.
이는 3가지 경우로 구분되며, (i) 외부 다운믹스 보상이 없는 경우(), (ii) 파라미터화된 외부 다운믹스 보상이 있는 경우() 및 (iii) 외부 다운믹스 보상에 기초한 잔차 코딩을 수행하는 경우()로 구분될 수 있다. 만약,인 경우, 디코더는 외부 다운믹스 보상에 기초한 잔차 코딩을 지원하지 않는다.
그리고, 만약, N-N/2-N 구조에서 외부의 다운믹스 보상(external downmix compensation)이 적용되지 않는 경우(), N-N/2-N 구조에서 매트릭스 는 하기 수학식 16에 의해 정의될 수 있다.
이와 달리, 만약 N-N/2-N 구조에서 외부의 다운믹스 보상(external downmix compensation)이 적용되는 경우(), N-N/2-N 구조에 대해 는 하기 수학식 17에 의해 정의될 수 있다.
(3) 매트릭스 H1
N-N/2-N 구조에서, 다운믹스 신호의 채널 개수는 5개보다 많을 수 있다. 그래서, 인버스(inverse) 매트릭스 H는 모든 파라미터 셋트와 프로세싱 밴드에 대해 입력 신호의 벡터 의 열의 개수와 동일한 사이즈를 가지는 단위 매트릭스일 수 있다.
<매트릭스 M2(post-matrix)의 정의>
N-N/2-N 구조에서, 매트릭스 M2인 는 다채널의 출력 신호를 재생성하기 위해 다이렉트 신호와 비상관된 신호를 어떻게 조합할 것인지를 정의한다. 는 하기 수학식 19에 의해 정의될 수 있다.
여기서, 와 에서 첫번째 행은 하이브리드 서브밴드 이고, 두번째 행은 프로세싱 밴드이고, 세번째 행은 특정 하이브리드 서브밴드 에 대해 의 복소 컨주게이션(complex conjugation)인 이다. 그리고, 는 이전 프레임의 마지막 파라미터 셋트를 의미한다.
매트릭스 M2를 위한 매트릭스 의 엘리먼트는 OTT 박스의 등가 모델(equivalent model)로부터 계산될 수 있다. OTT 박스는 비상관기와 믹싱부를 포함한다. OTT 박스에 입력되는 모노 형태의 입력 신호는 비상관기와 믹싱부에 각각 전달된다. 믹싱부는 모노 형태의 입력 신호와 비상관기를 통해 출력된 비상관된 신호 및 CLD, ICC 파라미터를 이용하여 스테레오 형태의 출력 신호를 생성할 수 있다. 여기서, CLD는 스테레오 필드에서 로컬라이제이션(localization)을 제어하고, ICC는 출력 신호의 스테레오 폭(wideness)를 제어한다.
그러면, 임의의 OTT 박스로부터 출력되는 결과는 하기 수학식 21에 의해 정의될 수 있다.
이 때, 포스트 게인 매트릭스는 하기 수학식 22와 같이 정의될 수 있다.
여기서, CLD와 ICC는 하기 수학식 24에 의해 정의될 수 있다.
<비상관기의 정의>
N-N/2-N 구조에서, 비상관기들은 QMF 서브밴드 도메인에서 잔향 필터(reverberation filter)에 의해 수행될 수 있다. 잔향 필터는 모든 하이브리드 서브밴드에서 현재 어떤 하이브리드 서브밴드에 해당하는지에 기초하여 서로 다른 필터 특징을 나타낸다.
잔향 필터는 IIR 격자 필터이다. 상호적으로 비상관된 직교 신호들을 생성하기 위해 서로 다른 비상관기에 대해 IIR 격자 필터들은 서로 다른 필터 계수를 가진다.
비상관기에 의해 수행되는 비상관 과정은 여러 과정으로 진행된다. 먼저, 매트릭스 M1의 출력인 는 전역 통과(all-pass) 비상관 필터의 셋트로 입력된다. 그러면, 필터링된 신호들은 에너지 쉐이핑될 수 있다. 여기서, 에너지 쉐이핑은 비상관된 신호들을 보다 입력 신호에 가깝게 매칭되도록 스펙트럴 또는 시간적인 포락선을 쉐이핑하는 것이다.
임의의 비상관기에 입력되는 입력 신호 는 벡터 의 일부분이다. 복수의 비상관기들을 통해 도출된 비상관된 신호들 간의 직교성을 보장하기 위해, 복수의 비상관기들마다 서로 다른 필터 계수를 가진다.
비상관 필터는 고정된 주파수 의존 딜레이(constant frequency-dependent delay)에 의해 선행하는 복수의 전역 통과(All-pass(IIR)) 영역으로 구성된다. 주파수 축은 QMF 분할 주파수에 대응되도록 서로 다른 영역으로 분할될 수 있다. 각 영역마다 딜레이의 길이와 필터 계수 벡터들의 길이는 서로 동일하다. 그리고, 추가적인 위상 회전(additional phase rotation) 때문에 부분적인 딜레이(fractional delay)를 가지는 비상관기의 필터 계수는 하이브리드 서브밴드 인덱스에 의존한다.
앞서 살펴본 바와 같이, 비상관기들로부터 출력된 비상관된 신호들 간의 직교성을 보장하기 위해 비상관기의 필터들은 서로 다른 필터 계수를 가진다. N-N/2-N 구조에서, N/2개의 비상관기들이 요구된다. 이 때, N-N/2-N 구조에서, 비상관기들의 개수는 10개로 제한될 수 있다. Lfe 모드가 존재하지 않는 N-N/2-N 구조에서, OTT 박스의 개수인 N/2가 10을 초과하는 경우, 10 기본 모듈로 연산(basis modulo operation)에 따라 비상관기들은 10을 초과하는 OTT 박스의 개수에 대응하여 재사용될 수 있다.
하기 표 6는, N-N/2-N 구조의 디코더에서 비상관기의 인덱스를 나타낸다. 표 6을 참고하면, N/2개의 비상관기들은 10 단위로 인덱스가 반복된다. 즉, 0번째 비상관기와 10번째 비상관기는 로 동일한 인덱스를 가진다. 구체적으로, 출력 신호의 채널수인 N이 미리 설정된 채널수 M을 초과하는 경우, 비상관기는, M 이하의 채널에 대응하는 제1 비상관기와 M 초과의 채널에 대응하는 제2 비상관기를 포함할 수 있다. 그리고, 제2 비상관기는, 제1 비상관기의 필터셋(filter set)을 재사용할 수 있다.
N-N/2-N 구조의 경우, 하기 표 7의 신택스에 의해 구현될 수 있다.
이 때, bsTreeConfig는 하기 표 8에 의해 구현될 수 있다. 이 때, bsTreeConfig는 하기 표 8에 의해 구현될 수 있다. 표 8에 의하면, bsTreeConfig가 7인 경우, 본 발명의 일실시예에 따른 N-N/2-N구조의 디코딩 장치의 구성을 나타낸다. OTT 박스들의 수(numOttBoxes)는 다운믹스 신호의 채널 수(NumInCh)과 동일하다. 그리고, TTT 박스들의 수는 0이다.
이 때, bsbsTreeConfig가 0,1,2,3,4,5,6인 경우, MPS 표준인 ISO/IEC 20003-1:2007의 Table 40은 표 9로 정의된다.
bsbsTreeConfig | Meaning |
0 | 5151 configuration numOttBoxes = 5 defaultCld[0] = 1 defaultCld[1] = 1 defaultCld[2] = 0 defaultCld[3] = 0 defaultCld[4] = 1 defaultCld[5] = 0 ottModeLfe[0] = 0 ottModeLfe[1] = 0 ottModeLfe[2] = 0 ottModeLfe[3] = 0 ottModeLfe[4] = 1 numTttBoxes = 0 numInChan = 1 numOutChan = 6 output channel ordering: L, R, C, LFE, Ls, Rs |
1 | 5152 configuration numOttBoxes = 5 defaultCld[0] = 1 defaultCld[1] = 0 defaultCld[2] = 1 defaultCld[3] = 1 defaultCld[4] = 1 defaultCld[5] = 0 ottModeLfe[0] = 0 ottModeLfe[1] = 0 ottModeLfe[2] = 1 ottModeLfe[3] = 0 ottModeLfe[4] = 0 numTttBoxes=0 numInChan = 1 numOutChan = 6 output channel ordering: L, Ls, R, Rs, C, LFE |
2 | 525 configuration numOttBoxes = 3 defaultCld[0] = 1 defaultCld[1] = 1 defaultCld[2] = 1 defaultCld[3] = 1 defaultCld[4] = 0 defaultCld[5] = 1 defaultCld[6] = 0 defaultCld[7] = 0 defaultCld[8] = 0 ottModeLfe[0] = 1 ottModeLfe[1] = 0 ottModeLfe[2] = 0 numTttBoxes=1 numInChan = 2 numOutChan = 6 output channel ordering: L, Ls, R, Rs, C, LFE |
3 | 7271 configuration (5/2.1) numOttBoxes = 5 defaultCld[0] = 1 defaultCld[1] = 1 defaultCld[2] = 1 defaultCld[3] = 1 defaultCld[4] = 1 defaultCld[5] = 1 defaultCld[6] = 0 defaultCld[7] = 1 defaultCld[8] = 0 defaultCld[9] = 0 defaultCld[10] = 0 ottModeLfe[0] = 1 ottModeLfe[1] = 0 ottModeLfe[2] = 0 ottModeLfe[3] = 0 ottModeLfe[4] = 0 numTttBoxes = 1 numInChan = 2 numOutChan = 8 output channel ordering: L, Lc, Ls, R, Rc, Rs, C, LFE |
4 | 7272 configuration (3/4.1) numOttBoxes = 5 defaultCld[0] = 1 defaultCld[1] = 1 defaultCld[2] = 1 defaultCld[3] = 1 defaultCld[4] = 1 defaultCld[5] = 1 defaultCld[6] = 0 defaultCld[7] = 1 defaultCld[8] = 0 defaultCld[9] = 0 defaultCld[10] = 0 ottModeLfe[0] = 1 ottModeLfe[1] = 0 ottModeLfe[2] = 0 ottModeLfe[3] = 0 ottModeLfe[4] = 0 numTttBoxes = 1 numInChan = 2 numOutChan = 8 output channel ordering: L, Lsr, Ls, R, Rsr, Rs, C, LFE |
5 | 7571 configuration (5/2.1) numOttBoxes = 2 defaultCld[0] = 1 defaultCld[1] = 1 defaultCld[2] = 0 defaultCld[3] = 0 defaultCld[4] = 0 defaultCld[5] = 0 defaultCld[6] = 0 defaultCld[7] = 0 ottModeLfe[0] = 0 ottModeLfe[1] = 0 numTttBoxes = 0 numInChan = 6 numOutChan = 8 output channel ordering: L, Lc, Ls, R, Rc, Rs, C, LFE |
6 | 7572 configuration (3/4.1) numOttBoxes = 2 defaultCld[0] = 1 defaultCld[1] = 1 defaultCld[2] = 0 defaultCld[3] = 0 defaultCld[4] = 0 defaultCld[5] = 0 defaultCld[6] = 0 defaultCld[7] = 0 ottModeLfe[0] = 0 ottModeLfe[1] = 0 numTttBoxes = 0 numInChan = 6 numOutChan = 8 output channel ordering: L, Lsr, Ls, R, Rsr, Rs, C, LFE |
그리고, N-N/2-N 구조에서 다운믹스 신호의 채널 개수인 bsNumInCh는 하기 표 10과 같이 구현될 수 있다.
이 때, NumInCh은 N-N/2-N구조의 디코딩 장치에 입력되는 다운믹스 신호의 채널수를 의미하고, NumOutCh은 다운믹스 신호가 업믹싱된 출력 신호의 채널수를 의미한다.
그리고, N-N/2-N 구조에서, 출력 신호들 중 LFE 채널의 개수인 는 하기 표 11과 같이 구현될 수 있다. NumLfe는 N-N/2-N구조에서 LFE 채널수(NLFE)를 의미한다.
bsNumLFE | NumLfe |
0 | 0 |
1 | 1 |
2 | 2 |
3 | Reserved |
그리고, N-N/2-N 구조에서, 출력 신호의 채널 순서는 출력 신호의 채널 개수 및 LFE 채널의 개수에 따라 표 12와 같이 구현될 수 있다.
표 7에서 bsHasSpeakerConfig는 실제로 재생하고자 하는 출력 신호의 레이아웃이 표 11에서 구체화된 채널 순서와 다른 레이아웃인지 여부를 나타내는 플래그이다. 만약, bsHasSpeakerConfig == 1인 경우, 실제 재생할 때의 라우드스피커의 레이아웃인 audioChannelLayout가 렌더링을 위해 사용될 수 있다.
그리고, audioChannelLayout 는 실제 재생할 때의 라우드스피커의 레이아웃을 나타낸다. 만약, 라우드스피커가 LFE 채널을 포함하는 경우, LFE 채널들은 LFE 채널이 아닌 것과 함께 하나의 OTT 박스를 이용하여 처리되어야 하고, 채널 리스트에서 마지막에 위치할 수 있다. 예를 들면, LFE 채널은 채널 리스트인 L,Lv,R,Rv,Ls,Lss,Rs,Rss,C,LFE,Cvr,LFE2에서 맨 마지막에 위치한다.
도 9는 일실시예에 따른 N-N/2-N 구조를 위한 공간적인 오디오 처리를 수행하는 트리 구조를 도시한 도면이다.
도 8에 도시된 N-N/2-N구조는 도 9와 같이 트리 형태로 표현될 수 있다. 도 9에서 모든 OTT 박스들은 CLD, ICC, 잔차 신호 및 입력 신호에 기초하여 2개 채널의 출력 신호를 재생성할 수 있다. OTT 박스와 이에 대응하는 CLD, ICC, 잔차 신호 및 입력 신호는 비트스트림에 나타나는 순서에 따라 번호가 매겨질 수 있다.
도 9에 의하면, 복수의 OTT 박스들은 N/2개가 존재한다. 이 때, 다채널 신호 처리 장치인 디코더는 N/2개의 OTT 박스를 이용하여 N/2채널의 다운믹스 신호로부터 N채널의 출력 신호를 생성할 수 있다. 여기서, N/2개의 OTT 박스들은 복수의 계층을 통해 구현되지 않는다. 즉, OTT 박스들은 N/2 채널의 다운믹스 신호의 각 채널별로 병렬적으로 업믹싱을 수행할 수 있다. 다시 말해서, 어느 하나의 OTT 박스는 다른 OTT 박스와 연결되지 않는다.
도 9의 왼쪽 트리 구조는 LFE 채널이 적용되지 않을 때의 N-N/2-N 트리 구조를 나타내고, 오른쪽 트리 구조는 LFE 채널이 적용될 때의 N-N/2-N 트리 구조를 나타낸다. 도 9에 도시된 모든 OTT 박스들은 1채널의 다운믹스 신호(M)를 업믹싱하여 2채널의 출력 신호를 재생성할 수 있다.
이 때, N채널의 출력 신호에 LFE 채널이 포함되지 않는 경우, N/2개의 OTT박스들은 잔차 신호(res)와 다운믹스 신호(M)를 이용하여 N채널의 출력 신호를 생성할 수 있다. 하지만, N채널의 출력 신호에 LFE 채널이 포함된 경우, N/2개의 OTT 박스들 중 LFE 채널이 출력되는 OTT 박스는 잔차 신호를 제외한 다운믹스 신호만 이용할 수 있다.
뿐만 아니라, N채널의 출력 신호에 LFE 채널이 포함된 경우, N/2개의 OTT 박스들 중 LFE 채널이 출력되지 않는 OTT 박스는 CLD와 ICC를 이용하여 다운믹스 신호를 업믹싱하지만, LFE 채널이 출력되는 OTT 박스는 CLD만 이용하여 다운믹스 신호를 업믹싱할 수 있다.
그리고, N채널의 출력 신호에 LFE 채널이 포함된 경우, N/2개의 OTT 박스들 중 LFE 채널이 출력되지 않는 OTT 박스는 비상관기를 통해 비상관된 신호를 생성하지만, LFE 채널이 출력되는 OTT 박스는 비상관 과정을 수행하지 않으므로 비상관된 신호를 생성하지 않는다.
도 10은 일실시예에 따른 12채널의 다운믹스로부터 24채널의 출력 신호를 생성하는 과정을 도시한 도면이다.
본 발명의 일실시예에 따르면, MPS 인코딩을 통해 N채널의 입력 신호로부터 N/2 채널의 다운믹스 신호가 생성될 수 있다. 그리고, MPS 디코딩을 통해 N/2 채널의 다운믹스 신호로부터 N채널의 출력 신호가 생성될 수 있다.
다만, 기존의 MPS 표준에서 인코더를 통해 출력되는 다운믹스 신호의 채널은 1채널, 2채널, 5.1채널이다. 하지만, 본 발명은 이에 한정되지 않는다. 다만 기존의 MPS 표준에 정의되어 있지 않은 다운믹스 신호의 채널수를 지원하기 위해서는 추가적인 구문정의가 필요하다.
MPS 표준에서 입출력 관계는 표 9와 같이 BsTreeConfig을 통해 정의될 수 있다. BsTreeConfig에 따라 입력 신호와 출력 신호의 디코딩 과정이 정의된다.
BsTreeConfig 0의 경우, 6채널(5.1채널)의 입력 신호로부터 1채널의 다운믹스 신호를 생성하고, 1채널의 다운믹스 신호로부터 6채널(5.1채널)의 출력 신호를 생성하는 과정을 정의한다. 이를 위해, 디코더는 5개의 OTT 박스가 필요하고, 각각의 OTT 박스에 CLD(Channel Level Difference)가 적용될 수 있다.
이 때, OTT 박스에 입력되는 CLD는 OTT 박스의 위치에 따라 defaultCLD[0~5]까지 정의될 수 있으며, OTT 박스에 대응하는 CLD가 enable된다. 즉, CLD가 enable되면 OTT 박스에 CLD가 입력될 수 있다. ottModeLfe도 OTT 박스로부터 LFE 채널이 출력되는 지를 의미한다.
현재 MPS 표준에 정의된 표 9에 의하면, 6개의 OTT 박스들에 대응하는 defaultCLD[0~5]만 정의되어 있다. 그래서, 현재 MPS 표준은 입력 신호의 채널이 10을 초과하여 5채널 이상의 다운믹스를 생성하는 경우를 커버하지 못한다.
이를 위해, 본 발명은 MPS 표준에 reserved bit를 이용하여 기존의 MPS 표준에서 정의한 채널과 다른 채널을 가지는 입력 신호를 처리할 수 있다. 예를 들어, 입력 신호의 채널수인 N이 24이고, 다운믹스 신호의 채널수가 12인 경우, 표 13과 같이 정의될 수 있다.
도 10은 표 13에 따라 구현한 디코더를 의미한다. 도 10에 의하면, 12채널의 다운믹스 신호(x0-x11)로부터 2개의 LFE 채널을 포함하는 24채널의 출력 신호를 생성하는 과정이 도시된다.
도 10에서 벡터 x(1001)를 참고하면, 12채널의 다운믹스 신호(x0-x11)와 12채널의 잔차 신호(res1-res11)가 입력되었지만, 이하에서는 잔차 신호를 제외하고 설명하기로 한다. 도 10의 디코더는 12채널의 다운믹스 신호를 비상관기(1007)에 입력하여 비상관성 신호를 생성할 수 있다.
도 10의 벡터 v(1003)는 벡터 x(1001)에 매트릭스 M1(1002)가 적용됨으로써 도출될 수 있다. 벡터 v(1003)는 하기 수학식 25에 따라 결정될 수 있다.
수학식 25는 수학식 1에 대응한다. 수학식 25에서 잔차 신호(res)가 존재하지 않는 경우, xMo~xM11은 vM0~vM11에 매핑될 수 있다. 비상관성 신호는 다운믹스 신호의 개수와 동일하게 도출될 수 있다.
벡터w(1004)는 하기 수학식 26에 따라 결정될 수 있다.
수학식 26은 수학식 2에 대응한다. 비상관기(1007)은 잔차 신호가 존재하지 않는 경우에 동작한다. 즉, 잔차 신호가 존재하지 않으면, 비상관성 신호가 생성될 수 있다. D()는 비상관기가 비상관성 신호를 생성할 때 활용된다. 수학식 26에서, 잔차 신호가 존재하면, 는 0이고 그렇지 않으면 1이다. 즉, 가 1일 때 수학식 15에 따라 비상관성 신호가 생성될 수 있다.
도 10에서 벡터 y(1006)는 수학식 27에 따라 벡터 w(1004)에 매트릭스 M2(1005)를 적용함으로써 도출될 수 있다. 벡터 y(1006)는 N채널(N=24)의 출력 신호에 대응한다.
매트릭스 M1(1002)과 매트릭스 M2(1005)를 도출하는 과정은 도 8의 설명을 통해 도출될 수 있다. 매트릭스 M1(1002)을 도출하기 위한 R1은 하기 수학식 28과 같고, 매트릭스 M2(1005)를 도출하기 위한 R2는 하기 수학식 29와 같다.
수학식 29에서 HLL, HLR, HRL, HRR은 각 OTT 박스에 대응하는 CLD와 ICC로부터 도출될 수 있다.
본 발명은 새롭게 정의된 bsTreeConfig 정보에 따라 N/2채널의 다운믹스 신호로부터 N채널의 출력 신호를 생성하는 병렬 구조의 OTT기반의 MPS(MPEG Surround) 디코더를 제안한다.
도 11은 일실시예에 따른 도 10의 과정을 OTT 박스로 표현한 도면이다.
도 11에 의하면, 각각의 OTT 박스는 1채널의 다운믹스 신호와 비상관기(D)를 통해 생성된 비상관성 신호를 이용하여 2채널의 신호를 생성한다. OTT 박스에는 CLD에 대응하는 defaultCld[0]~defaultCld[9]와 LFE 채널에 대응하는 OttModelfe[0], OttModelfe[1]이 입력될 수 있다. 예를 들어, 출력 신호이 22.2채널인 경우 출력 신호에 LFE 채널이 포함될 수 있다. 그러면, OttModelfe[0], OttModelfe[1]이 enable된다.
도 12는 일실시예에 따른 도 11의 과정을 MPS 표준에 따라 표현한 도면이다.
도 12에 의하면, 12채널의 다운믹스 신호(M0-M11)가 각각의 OTT 박스에 입력되는 경우가 도시된다. 그러면, 24채널의 출력 신호(y)가 생성된다. 여기서, CLD와 ICC도 각 OTT 박스에 입력된다. 도 12에서 잔차 신호가 OTT 박스에 입력되는 것으로 도시되었으나, 잔차 신호가 없는 경우 다운믹스 신호로부터 비상관기를 통해 생성된 비상관성 신호가 잔차 신호 대신 OTT 박스에 입력될 수 있다.
본 발명의 일실시예에 따른 다채널 오디오 신호 처리 방법은 N채널의 입력 신호로부터 생성된 N/2 채널의 다운믹스 신호와 잔차 신호를 식별하는 단계; 상기 N/2 채널의 다운믹스 신호와 잔차 신호를 제1 매트릭스에 적용하는 단계; 상기 제1 매트릭스를 통해 N/2개의 OTT 박스들에 대응하는 N/2개의 비상관기에 입력되는 제1 신호 및 N/2개의 비상관기에 입력되지 않고 제2 매트릭스에 전달되는 제2 신호를 출력하는 단계; 상기 N/2개의 비상관기를 통해 제1 신호로부터 비상관된 신호를 출력하는 단계; 상기 비상관된 신호와 제2 신호를 제2 매트릭스에 적용하는 단계; 및 상기 제2 매트릭스를 통해 N채널의 출력 신호를 생성하는 단계를 포함할 수 있다.
상기 N채널의 출력 신호에 LFE 채널이 포함되지 않는 경우, 상기 N/2개의 OTT 박스들에 N/2개의 비상관기가 대응할 수 있다.
상기 비상관기의 개수가 모듈로 연산의 기준값을 초과하는 경우, 상기 비상관기의 인덱스는 기준값에 따라 반복적으로 재사용될 수 있다.
상기 N채널의 출력 신호에 LFE 채널이 포함되는 경우, 상기 비상관기는, N/2개에서 LFE 채널 개수를 제외한 나머지 개수가 사용되고, 상기 LFE 채널은, OTT 박스의 비상관기를 사용하지 않을 수 있다.
시간적인 쉐이핑 툴이 사용되지 않는 경우, 상기 제2 매트릭스는, 상기 제2 신호, 상기 비상관기로부터 도출된 비상관된 신호 및 상기 비상관기로부터 도출된 잔차 신호를 포함하는 하나의 벡터가 입력될 수 있다.
시간적인 쉐이핑 툴이 사용되는 경우, 상기 제2 매트릭스는, 상기 제2 신호 및 상기 비상관기로부터 도출된 잔차 신호로 구성된 다이렉트 신호에 대응하는 벡터와 상기 비상관기로부터 도출된 비상관된 신호로 구성된 확산 신호에 대응하는 벡터가 입력될 수 있다.
상기 N채널의 출력 신호를 생성하는 단계는, 서브밴드 도메인 시간 프로세싱(STP)가 사용되는 경우, 확산 신호와 다이렉트 신호에 기초한 스케일 팩터를 출력 신호의 확산 신호 부분에 적용하여 출력 신호의 시간적인 포락선을 쉐이핑할 수 있다.
상기 N채널의 출력 신호를 생성하는 단계는, 가이드된 포락선 쉐이핑(GES)가 사용되는 경우, N채널의 출력 신호의 채널별로 다이렉트 신호 부분에 대한 포락선을 평편화하고 리쉐이핑할 수 있다.
상기 제1 매트릭스의 크기는, 상기 제1 매트릭스를 적용하는 다운믹스 신호의 채널 개수와 비상관기의 개수에 따라 결정되고, 상기 제1 매트릭스의 엘리먼트는, CLD 파라미터 또는 CPC 파라미터에 의해 결정될 수 있다.
본 발명의 다른 실시예에 따른 다채널 오디오 신호 처리 방법은 N/2채널의 다운믹스 신호와 N/2 채널의 잔차 신호를 식별하는 단계; N/2채널의 다운믹스 신호와 N/2 채널의 잔차 신호를 N/2개의 OTT 박스에 입력하여 N채널의 출력 신호를 생성하는 단계를 포함하고, 상기 N/2개의 OTT 박스들은 서로 연결되지 않고 병렬적으로 배치되며, 상기 N/2개의 OTT 박스들 중 LFE 채널을 출력하는 OTT 박스는, (1) 잔차 신호를 제외한 다운믹스 신호만 입력받고, (2) CLD 파라미터와 ICC 파라미터 중 CLD 파라미터를 이용하며, (3) 비상관기를 통해 비상관된 신호를 출력하지 않는다.
본 발명의 일실시예에 따른 다채널 신호 처리 장치는 다채널 신호 처리 방법을 수행하는 프로세서를 포함하고, 상기 다채널 신호 처리 방법은, N채널의 입력 신호로부터 생성된 N/2 채널의 다운믹스 신호와 잔차 신호를 식별하는 단계; 상기 N/2 채널의 다운믹스 신호와 잔차 신호를 제1 매트릭스에 적용하는 단계; 상기 제1 매트릭스를 통해 N/2개의 OTT 박스들에 대응하는 N/2개의 비상관기에 입력되는 제1 신호 및 N/2개의 비상관기에 입력되지 않고 제2 매트릭스에 전달되는 제2 신호를 출력하는 단계; 상기 N/2개의 비상관기를 통해 제1 신호로부터 비상관된 신호를 출력하는 단계; 상기 비상관된 신호와 제2 신호를 제2 매트릭스에 적용하는 단계; 및 상기 제2 매트릭스를 통해 N채널의 출력 신호를 생성하는 단계를 포함할 수 있다.
상기 N채널의 출력 신호에 LFE 채널이 포함되지 않는 경우, 상기 N/2개의 OTT 박스들에 N/2개의 비상관기가 대응할 수 있다.
상기 비상관기의 개수가 모듈로 연산의 기준값을 초과하는 경우, 상기 비상관기의 인덱스는 기준값에 따라 반복적으로 재사용될 수 있다.
상기 N채널의 출력 신호에 LFE 채널이 포함되는 경우, 상기 비상관기는, N/2개에서 LFE 채널 개수를 제외한 나머지 개수가 사용되고, 상기 LFE 채널은, OTT 박스의 비상관기를 사용하지 않을 수 있다.
시간적인 쉐이핑 툴이 사용되지 않는 경우, 상기 제2 매트릭스는, 상기 제2 신호, 상기 비상관기로부터 도출된 비상관된 신호 및 상기 비상관기로부터 도출된 잔차 신호를 포함하는 하나의 벡터가 입력될 수 있다.
시간적인 쉐이핑 툴이 사용되는 경우, 상기 제2 매트릭스는, 상기 제2 신호 및 상기 비상관기로부터 도출된 잔차 신호로 구성된 다이렉트 신호에 대응하는 벡터와 상기 비상관기로부터 도출된 비상관된 신호로 구성된 확산 신호에 대응하는 벡터가 입력될 수 있다.
상기 N채널의 출력 신호를 생성하는 단계는, 서브밴드 도메인 시간 프로세싱(STP)가 사용되는 경우, 확산 신호와 다이렉트 신호에 기초한 스케일 팩터를 출력 신호의 확산 신호 부분에 적용하여 출력 신호의 시간적인 포락선을 쉐이핑할 수 있다.
상기 N채널의 출력 신호를 생성하는 단계는, 가이드된 포락선 쉐이핑(GES)가 사용되는 경우, N채널의 출력 신호의 채널별로 다이렉트 신호 부분에 대한 포락선을 평편화하고 리쉐이핑할 수 있다.
상기 제1 매트릭스의 크기는, 상기 제1 매트릭스를 적용하는 다운믹스 신호의 채널 개수와 비상관기의 개수에 따라 결정되고, 상기 제1 매트릭스의 엘리먼트는, CLD 파라미터 또는 CPC 파라미터에 의해 결정될 수 있다.
본 발명의 다른 실시예에 따른 다채널 신호 처리 장치는, 다채널 신호 처리 방법을 수행하는 프로세서를 포함하고, 상기 다채널 신호 처리 방법은, N/2채널의 다운믹스 신호와 N/2 채널의 잔차 신호를 식별하는 단계; N/2채널의 다운믹스 신호와 N/2 채널의 잔차 신호를 N/2개의 OTT 박스에 입력하여 N채널의 출력 신호를 생성하는 단계를 포함하고,
상기 N/2개의 OTT 박스들은 서로 연결되지 않고 병렬적으로 배치되며, 상기 N/2개의 OTT 박스들 중 LFE 채널을 출력하는 OTT 박스는, (1) 잔차 신호를 제외한 다운믹스 신호만 입력받고, (2) CLD 파라미터와 ICC 파라미터 중 CLD 파라미터를 이용하며, (3) 비상관기를 통해 비상관된 신호를 출력하지 않는다.
본 발명의 실시 예에 따른 방법들은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다.
이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.
그러므로, 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.
100: 인코딩 장치
101: 디코딩 장치
101: 디코딩 장치
Claims (18)
- N채널의 입력 신호로부터 도출된 N/2 채널의 다운믹스 신호를 식별하는 단계;
복수의 OTT 박스들을 이용하여 상기 식별된 N/2 채널의 다운믹스 신호로부터 N채널의 출력 신호를 생성하는 단계
를 포함하고,
상기 복수의 OTT 박스들의 개수는, 상기 출력 신호에 LFE 채널이 없는 경우 상기 다운믹스 신호의 채널수인 N/2와 동일한 다채널 신호 처리 방법. - 제1항에 있어서,
상기 복수의 OTT 박스들 각각은,
상기 복수의 OTT 박스들 각각에 대응하는 비상관기(decorrelator)로부터 생성된 비상관성 신호와 1채널의 다운믹스 신호를 이용하여 2채널의 출력 신호를 생성하는 다채널 신호 처리 방법. - 제2항에 있어서,
상기 출력 신호의 채널수인 N이 미리 설정된 채널수 M을 초과하는 경우,
상기 비상관기는, M 이하의 채널에 대응하는 제1 비상관기와 M 초과의 채널에 대응하는 제2 비상관기를 포함하고,
상기 제2 비상관기는, 제1 비상관기의 필터셋(filter set)을 재사용하는 다채널 신호 처리 방법. - 제2항에 있어서,
상기 복수의 OTT 박스들 중 출력이 LFE 채널인 OTT 박스는, 비상관성 신호를 이용하지 않고 2채널의 다운믹스 신호를 생성하는 다채널 신호 처리 방법. - 제2항에 있어서,
상기 복수의 OTT 박스들 각각은,
전송된 잔차 신호가 존재하는 경우, 비상관성 신호 대신에 잔차 신호와 1채널의 다운믹스 신호를 이용하여 2채널의 출력 신호를 생성하는 다채널 신호 처리 방법. - 제1항에 있어서,
상기 N채널의 출력 신호를 생성하는 단계는,
프리 비상관기 매트릭스(pre decorrelator matrix) M1과 믹스 매트릭스(mix matrix) M2를 이용하여 N 채널의 출력 신호를 생성하는 다채널 신호 처리 방법. - 제1항에 있어서,
상기 복수의 OTT 박스들 각각은, CLD(channel level difference)를 이용하여 N채널의 출력 신호를 생성하는 다채널 신호 처리 방법. - 제1항에 있어서,
상기 출력 신호의 채널수 N은 10부터 32까지의 짝수인 다채널 신호 처리 방법. - 제1 코딩 방식에 따라 인코딩된 N/2 채널의 다운믹스 신호를 디코딩하는 단계; 및
제2 코딩 방식에 따라 상기 N/2 채널의 다운믹스 신호로부터 N 채널의 출력 신호를 생성하는 단계
를 포함하고,
상기 제2 코딩 방식은,
상기 출력 신호에 LFE 채널을 포함하지 않는 경우, 상기 다운믹스 신호의 채널수인 N/2와 동일한 개수의 OTT(one-to-two) 박스들을 이용하는 다채널 신호 처리 방법. - 다채널 신호 처리 장치에 있어서,
다채널 신호 처리 방법을 실행하는 프로세스를 포함하고,
상기 프로세스는,
N채널의 입력 신호로부터 도출된 N/2 채널의 다운믹스 신호를 식별하고,
복수의 OTT 박스들을 이용하여 상기 식별된 N/2 채널의 다운믹스 신호로부터 N채널의 출력 신호를 생성하며,
상기 복수의 OTT 박스들의 개수는, 상기 출력 신호에 LFE 채널이 없는 경우 상기 다운믹스 신호의 채널수인 N/2와 동일한 다채널 신호 처리 장치. - 제10항에 있어서,
상기 복수의 OTT 박스들 각각은,
상기 복수의 OTT 박스들 각각에 대응하는 비상관기(decorrelator)로부터 생성된 비상관성 신호와 1채널의 다운믹스 신호를 이용하여 2채널의 출력 신호를 생성하는 다채널 신호 처리 장치. - 제11항에 있어서,
상기 출력 신호의 채널수인 N이 미리 설정된 채널수 M을 초과하는 경우,
상기 비상관기는, M 이하의 채널에 대응하는 제1 비상관기와 M 초과의 채널에 대응하는 제2 비상관기를 포함하고,
상기 제2 비상관기는, 제1 비상관기의 필터셋(filter set)을 재사용하는 다채널 신호 처리 장치. - 제11항에 있어서,
상기 복수의 OTT 박스들 중 출력이 LFE 채널인 OTT 박스는, 비상관성 신호를 이용하지 않고 2채널의 다운믹스 신호를 생성하는 다채널 신호 처리 장치. - 제11항에 있어서,
상기 복수의 OTT 박스들 각각은,
전송된 잔차 신호가 존재하는 경우, 비상관성 신호 대신에 잔차 신호와 1채널의 다운믹스 신호를 이용하여 2채널의 출력 신호를 생성하는 다채널 신호 처리 장치. - 제10항에 있어서,
상기 프로세스는,
프리 비상관기 매트릭스(pre decorrelator matrix) M1과 믹스 매트릭스(mix matrix) M2를 이용하여 N 채널의 출력 신호를 생성하는 다채널 신호 처리 장치. - 제10항에 있어서,
상기 복수의 OTT 박스들 각각은, CLD(channel level difference)를 이용하여 N채널의 출력 신호를 생성하는 다채널 신호 처리 장치. - 제10항에 있어서,
상기 출력 신호의 채널수 N은 10부터 32까지의 짝수인 다채널 신호 처리 장치. - 다채널 신호 처리 장치에 있어서,
다채널 신호 처리 방법을 실행하는 프로세스를 포함하고,
상기 프로세스는,
제1 코딩 방식에 따라 인코딩된 N/2 채널의 다운믹스 신호를 디코딩하고,
제2 코딩 방식에 따라 상기 N/2 채널의 다운믹스 신호로부터 N 채널의 출력 신호를 생성하며,
상기 제2 코딩 방식은,
상기 출력 신호에 LFE 채널을 포함하지 않는 경우, 상기 다운믹스 신호의 채널수인 N/2와 동일한 개수의 OTT(one-to-two) 박스들을 이용하는 다채널 신호 처리 장치.
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/KR2016/001613 WO2016133366A1 (ko) | 2015-02-17 | 2016-02-17 | 다채널 신호 처리 방법 및 상기 방법을 수행하는 다채널 신호 처리 장치 |
US15/551,734 US10225675B2 (en) | 2015-02-17 | 2016-02-17 | Multichannel signal processing method, and multichannel signal processing apparatus for performing the method |
US16/290,469 US10638243B2 (en) | 2015-02-17 | 2019-03-01 | Multichannel signal processing method, and multichannel signal processing apparatus for performing the method |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR20150024464 | 2015-02-17 | ||
KR1020150024464 | 2015-02-17 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20160101692A true KR20160101692A (ko) | 2016-08-25 |
Family
ID=56884794
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020160018462A KR20160101692A (ko) | 2015-02-17 | 2016-02-17 | 다채널 신호 처리 방법 및 상기 방법을 수행하는 다채널 신호 처리 장치 |
Country Status (2)
Country | Link |
---|---|
US (2) | US10225675B2 (ko) |
KR (1) | KR20160101692A (ko) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11622219B2 (en) * | 2019-07-24 | 2023-04-04 | Nokia Technologies Oy | Apparatus, a method and a computer program for delivering audio scene entities |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100888474B1 (ko) | 2005-11-21 | 2009-03-12 | 삼성전자주식회사 | 멀티채널 오디오 신호의 부호화/복호화 장치 및 방법 |
KR101218776B1 (ko) | 2006-01-11 | 2013-01-18 | 삼성전자주식회사 | 다운믹스된 신호로부터 멀티채널 신호 생성방법 및 그 기록매체 |
US7965848B2 (en) | 2006-03-29 | 2011-06-21 | Dolby International Ab | Reduced number of channels decoding |
EP2410523B1 (en) | 2006-07-04 | 2013-01-30 | Electronics and Telecommunications Research Institute | Apparatus for restoring multi-channel audio signal using an MPEG surround decoder |
WO2009054665A1 (en) | 2007-10-22 | 2009-04-30 | Electronics And Telecommunications Research Institute | Multi-object audio encoding and decoding method and apparatus thereof |
EP3144932B1 (en) | 2010-08-25 | 2018-11-07 | Fraunhofer Gesellschaft zur Förderung der Angewand | An apparatus for encoding an audio signal having a plurality of channels |
RS60318B1 (sr) | 2012-08-01 | 2020-07-31 | Ikaika Therapeutics Llc | Ublažavanje tkivnog oštećenja i fibroze pomoću anti-ltbp4 antitela |
US9679571B2 (en) * | 2013-04-10 | 2017-06-13 | Electronics And Telecommunications Research Institute | Encoder and encoding method for multi-channel signal, and decoder and decoding method for multi-channel signal |
EP3023984A4 (en) * | 2013-07-15 | 2017-03-08 | Electronics and Telecommunications Research Institute | Encoder and encoding method for multichannel signal, and decoder and decoding method for multichannel signal |
EP2830053A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Multi-channel audio decoder, multi-channel audio encoder, methods and computer program using a residual-signal-based adjustment of a contribution of a decorrelated signal |
-
2016
- 2016-02-17 KR KR1020160018462A patent/KR20160101692A/ko not_active IP Right Cessation
- 2016-02-17 US US15/551,734 patent/US10225675B2/en active Active
-
2019
- 2019-03-01 US US16/290,469 patent/US10638243B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US20180035230A1 (en) | 2018-02-01 |
US10638243B2 (en) | 2020-04-28 |
US20190200150A1 (en) | 2019-06-27 |
US10225675B2 (en) | 2019-03-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5191886B2 (ja) | サイド情報を有するチャンネルの再構成 | |
EP1927266B1 (en) | Audio coding | |
EP1902443B1 (en) | Audio encoding and decoding | |
EP2896221B1 (en) | Apparatus and method for providing enhanced guided downmix capabilities for 3d audio | |
CN111970629B (zh) | 音频解码器和解码方法 | |
US11056122B2 (en) | Encoder and encoding method for multi-channel signal, and decoder and decoding method for multi-channel signal | |
US10645515B2 (en) | Multichannel audio signal processing method and device | |
JP6732739B2 (ja) | オーディオ・エンコーダおよびデコーダ | |
JP4988718B2 (ja) | オーディオ信号のデコーディング方法及び装置 | |
US8626503B2 (en) | Audio encoding and decoding | |
US10638243B2 (en) | Multichannel signal processing method, and multichannel signal processing apparatus for performing the method | |
KR20160081844A (ko) | 다채널 오디오 신호의 인코딩 방법 및 상기 인코딩 방법을 수행하는 인코딩 장치, 그리고, 다채널 오디오 신호의 디코딩 방법 및 상기 디코딩 방법을 수행하는 디코딩 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
AMND | Amendment | ||
E601 | Decision to refuse application | ||
X091 | Application refused [patent] | ||
AMND | Amendment | ||
X601 | Decision of rejection after re-examination |