KR101943601B1 - 적응적 위상 정렬을 갖는 멀티-채널 다운믹스에서의 콤 필터 아티팩트의 감소 - Google Patents
적응적 위상 정렬을 갖는 멀티-채널 다운믹스에서의 콤 필터 아티팩트의 감소 Download PDFInfo
- Publication number
- KR101943601B1 KR101943601B1 KR1020187005780A KR20187005780A KR101943601B1 KR 101943601 B1 KR101943601 B1 KR 101943601B1 KR 1020187005780 A KR1020187005780 A KR 1020187005780A KR 20187005780 A KR20187005780 A KR 20187005780A KR 101943601 B1 KR101943601 B1 KR 101943601B1
- Authority
- KR
- South Korea
- Prior art keywords
- audio signal
- input
- channels
- matrix
- encoded
- Prior art date
Links
- 230000003044 adaptive effect Effects 0.000 title description 8
- 230000009467 reduction Effects 0.000 title description 2
- 230000005236 sound signal Effects 0.000 claims abstract description 212
- 238000012545 processing Methods 0.000 claims abstract description 79
- 238000000034 method Methods 0.000 claims abstract description 77
- 230000008569 process Effects 0.000 claims abstract description 31
- 239000011159 matrix material Substances 0.000 claims description 210
- 238000013507 mapping Methods 0.000 claims description 43
- 238000004458 analytical method Methods 0.000 claims description 13
- 230000006870 function Effects 0.000 description 33
- 238000010606 normalization Methods 0.000 description 11
- 238000013459 approach Methods 0.000 description 10
- 238000002156 mixing Methods 0.000 description 10
- 238000004590 computer program Methods 0.000 description 9
- 239000013598 vector Substances 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 8
- 230000008859 change Effects 0.000 description 8
- 230000000694 effects Effects 0.000 description 8
- 238000006243 chemical reaction Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 238000009877 rendering Methods 0.000 description 7
- 238000001228 spectrum Methods 0.000 description 7
- 230000001419 dependent effect Effects 0.000 description 6
- 230000002452 interceptive effect Effects 0.000 description 5
- 230000007704 transition Effects 0.000 description 5
- 239000000203 mixture Substances 0.000 description 4
- 230000010363 phase shift Effects 0.000 description 4
- 230000003595 spectral effect Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 3
- 230000003111 delayed effect Effects 0.000 description 3
- 238000012886 linear function Methods 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 230000001427 coherent effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000008929 regeneration Effects 0.000 description 2
- 238000011069 regeneration method Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000001172 regenerating effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/02—Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/01—Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/03—Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/03—Application of parametric coding in stereophonic audio systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Quality & Reliability (AREA)
- Algebra (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Stereophonic System (AREA)
Abstract
적어도 하나의 주파수 대역(36)을 가지고, 상기 적어도 하나의 주파수 대역(36) 내에서 복수의 입력 채널들(38)을 갖는 입력 오디오 신호(37)를 프로세싱하도록 구성된 오디오 신호 프로세싱 디코더(2)로서, 상기 디코더(2)는:
입력 채널들(38) 사이의 인터-채널 의존성들(39)(inter-channel dependencies)에 따라서 상기 입력 채널들(38)의 위상들을 정렬하도록 구성되고 ― 상기 입력 채널들(38)의 위상들은 서로에 대해 더 많이 정렬될수록 자신의 인터-채널 의존성(39)은 더 높음 ―; 그리고
상기 정렬된 입력 오디오 신호를 상기 입력 채널들(38)의 개수보다 더 적은 개수의 출력 채널들(41)을 갖는다.
입력 채널들(38) 사이의 인터-채널 의존성들(39)(inter-channel dependencies)에 따라서 상기 입력 채널들(38)의 위상들을 정렬하도록 구성되고 ― 상기 입력 채널들(38)의 위상들은 서로에 대해 더 많이 정렬될수록 자신의 인터-채널 의존성(39)은 더 높음 ―; 그리고
상기 정렬된 입력 오디오 신호를 상기 입력 채널들(38)의 개수보다 더 적은 개수의 출력 채널들(41)을 갖는다.
Description
본 발명은 오디오 신호 처리에 관한 것이며, 보다 상세하게는 적응적 위상 정렬을 갖는 멀티-채널 다운믹스에서의 콤 필터 아티팩트들의 감소에 관한 것이다.
여러 개의 멀티-채널 사운드 포맷들이, 영화 사운드 트랙들에 전형적인 5.1 서라운드부터 보다 광범위한 3D 서라운드 포맷들에 이르기까지, 사용되고 있다. 몇몇 시나리오들에서, 더 적은 개수의 라우드스피커들을 통해 사운드 컨텐트를 전달하는 것이 필요하다.
또한, J. Breebaart, S. van de Par, A. Kohlrausch, and E. Schuijers, "Parametric coding of stereoaudio," EURASIP Journal on Applied Signal Processing, vol. 2005, pp. 1305-1322, 2005 및 J. Herre, K. Kjorling, J. Breebaart, C. Faller, S. Disch, H. Purnhagen, J. Koppens, J. Hilpert, J. Roden, W. Oomen, K. Linzmeier, and K. S. Chong, "MPEG Surround-The ISO/MPEG standard for efficient and compatible multichannel audio coding," J. Audio Eng. Soc, vol. 56, no. 11, pp. 932-955, 2008에서 설명된 바와 같은, 최근의 저-비트레이트 오디오 코딩 방법들에서, 원래의 채널 구성을 갖는 멀티-채널 신호가 복원되는데 이용되는, 공간 사이드 정보 및 다운믹스 신호들의 세트로서 더 많은 개수의 채널들이 전송된다. 이러한 사용 케이스들은 사운드 품질을 잘 유지하는 다운믹스 방법들의 개발에 대한 동기를 부여한다.
가장 단순한 다운믹스 방법은 정적(static) 다운믹스 매트릭스를 이용하는 채널 합산이다. 그러나, 입력 채널들이 코히어런트(co-herent)하지만 시간상으로 정렬되지 않는 사운드들을 포함하는 경우에, 다운믹스 신호는 콤 필터의 특성들과 같은, 인지가능한 스펙트럼 바이어스(spectral bias)를 가지게 될 가능성이 높다.
J. Breebaart and C. Faller, "Spatial audio processing: MPEG Surround and other applications," Wiley-Interscience, 2008에서, 2개의 입력 신호들의 위상 정렬 방법이 설명되며, 이러한 방법은 주파수 대역들에서 추정된 채널-간 위상 차이 파라미터(ICPD: inter-channel phase difference parameter)에 기초하여 입력 채널들의 위상들을 조정하였다. 이러한 솔루션은 본 명세서에서 제안되는 방법과 유사한 기본 기능을 제공하지만, 2개보다 많은 상호-종속적인(inter-dependent) 채널들을 다운믹스하는데 적용가능하지 않다.
WO 2012/006770, PCT/CN2010/075107(Huawai, Faller, Lang, Xu)에서, 2 대 1 채널(스테레오 대 모노) 케이스에 대한 위상 정렬 처리가 설명된다. 이러한 처리는 멀티채널 오디오에 대하여 직접적으로 적용가능하지 않다.
Wu et al, "Parametric Stereo Coding Scheme with a new Downmix Method and whole Band Inter Channel Time/Phase Differences," Proceedings of the ICASSP, 2013에서, 스테레오 다운믹스를 위해 전체-대역 채널-간 위상 차이를 이용하는 발명이 설명된다. 모노 신호의 위상은 좌측 채널 및 전체 위상 차이 간의 위상 차이로 설정된다. 다시, 상기 방법은 단지 스테레오 대 모노 다운믹스를 위해 적용가능하다. 2개보다 많은 상호-종속적 채널들은 이러한 방법을 이용하여 다운믹스될 수 없다.
본 발명의 목적은 오디오 신호 처리를 위한 향상된 개념들을 제공하고자 하는 것이다. 본 발명의 목적은 청구항 제1항에 따른 인코더에 의하여, 청구항 제12항에 따른 디코더에 의하여, 청구항 제13항에 따른 시스템에 의하여, 청구항 제14항에 따른 방법에 의하여, 그리고 청구항 제15항에 따른 컴퓨터 프로그램에 의하여 달성된다.
적어도 하나의 주파수 대역을 가지며, 상기 적어도 하나의 주파수 대역에서 다수의 입력 채널들을 갖는 입력 오디오 신호를 처리하도록 구성되는 오디오 신호 처리 디코더가 제공된다. 상기 디코더는 입력 채널들 간의 채널-간(inter-channel) 종속성(dependency)들에 의존하여 입력 채널들의 위상들을 정렬(align)하도록 구성되며, 입력 채널들의 위상들은 이들의 채널-간 종속성이 더 커질수록 서로에 대하여 더 많이 정렬된다. 또한, 상기 디코더는 정렬된 입력 오디오 신호를 입력 채널들의 개수보다 더 적은 개수의 출력 채널들을 갖는 출력 오디오 신호로 다운믹스하도록 구성된다.
상기 디코더의 기본적인 동작 원리는, 입력 오디오 신호의 상호 종속적인(코히어런트한) 입력 채널들은 특정한 주파수 대역에서 위상과 관련하여 서로를 어트랙트(attract)하는 반면에, 상호 독립적인(인코히어런트한) 입력 오디오 신호의 그러한 입력 채널들은 영향을 주지 않고 남아있다는 것이다. 제안된 디코더의 목표는, 비-결정적인 조건들에서 동일한 성능을 제공하면서도, 결정적인 신호 소거 조건들에서 후-등화(post-equalization) 접근 방식과 관련하여 다운믹스 품질을 향상시키는 것이다.
또한, 상기 디코더의 적어도 몇몇 기능들은 입력 오디오 신호를 제공하는, 인코더와 같은, 외부 디바이스로 이전될 수 있다. 이것은 현재 기술(state of the art)의 디코더가 아티팩트(artifact)들을 발생시킬 수 있는 신호들에 작용시킬 가능성을 제공할 수 있다. 또한, 디코더를 변경하지 않고 다운믹스 처리 규칙들을 업데이트하고 높은 다운믹스 품질을 보장하는 것이 가능하다. 디코더의 기능들의 이전은 아래에서 보다 상세하게 설명된다.
몇몇 실시예들에서, 상기 디코더는 입력 오디오 채널들 간의 채널-간 종속성들을 식별하기 위하여 주파수 대역에 있는 입력 오디오 신호를 분석하도록 구성될 수 있다. 이러한 경우에, 입력 오디오 신호의 분석이 디코더 자체에 의해 수행되기 때문에, 입력 오디오 신호를 제공하는 인코더는 표준 인코더일 수 있다.
실시예들에서, 상기 디코더는 입력 오디오 신호를 제공하는, 인코더와 같은, 외부 디바이스로부터 입력 채널들 간의 채널-간 종속성들을 수신하도록 구성될 수 있다. 이러한 버전은 디코더에서의 유연한 렌더링 셋업들을 허용하지만, 통상적으로 디코더의 입력 신호를 포함하는 비트스트림에서, 인코더 및 디코더 간의 더 추가적인 데이터 트래픽을 필요로 한다.
몇몇 실시예들에서 상기 디코더는 입력 오디오 신호의 결정된 에너지에 기초하여 출력 오디오 신호의 에너지를 정규화하도록 구성될 수 있으며, 여기서 상기 디코더는 입력 오디오 신호의 신호 에너지를 결정하도록 구성된다.
몇몇 실시예들에서 상기 디코더는 입력 오디오 신호의 결정된 에너지에 기초하여 출력 오디오 신호의 에너지를 정규화(normalize)하도록 구성될 수 있으며, 여기서 상기 디코더는 입력 오디오 신호를 제공하는, 인코더와 같은, 외부 디바이스로부터 입력 오디오 신호의 결정된 에너지를 수신하도록 구성된다.
입력 오디오 신호의 신호 에너지를 결정함으로써 그리고 출력 오디오 신호의 에너지를 정규화함으로써, 출력 오디오 신호의 에너지가 다른 주파수 대역들과 비교하여 적절한 레벨을 가지도록 보장될 수 있다. 예를 들어, 정규화는 각각의 주파수 대역 오디오 출력 신호의 에너지가 대응하는 다운믹싱 이득들의 제곱들과 곱해지는 주파수 대역 입력 오디오 신호 에너지들의 합과 동일하게 되는 방식으로 이루어질 수 있다.
다양한 실시예들에서 상기 디코더는 다운믹스 매트릭스에 기초하여 입력 오디오 신호를 다운믹싱하기 위한 다운믹서를 포함할 수 있으며, 상기 디코더는 입력 채널들의 위상들이 식별된 채널-간 종속성들에 기초하여 정렬되는 방식으로 다운믹스 매트릭스를 계산하도록 구성된다. 매트릭스 연산들은 다차원 문제들을 효과적으로 풀기 위한 수학적 도구이다. 그러므로, 다운믹스 매트릭스의 사용은 입력 오디오 신호를 입력 오디오 신호의 입력 채널들의 개수보다 적은 개수의 출력 채널들을 갖는 출력 오디오 신호로 다운믹스하기 위한 유연하고 용이한 방법을 제공한다.
몇몇 실시예들에서, 상기 디코더는 다운믹스 매트릭스에 기초하여 입력 오디오 신호를 다운믹싱하기 위한 다운믹서를 포함할 수 있으며, 상기 디코더는 입력 채널들의 위상들이 입력 오디오 신호를 제공하는, 인코더와 같은, 외부 디바이스로부터의 식별된 채널-간 종속성들에 기초하여 정렬되는 방식으로 계산된 다운믹스 매트릭스를 수신하도록 구성된다. 여기에서 디코더에서의 출력 오디오 신호의 처리 복잡도는 많이 감소된다.
특정한 실시예들에서, 상기 디코더는 출력 오디오 신호의 에너지가 입력 오디오 신호의 결정된 에너지에 기초하여 정규화되는 방식으로 다운믹스 매트릭스를 계산하도록 구성될 수 있다. 이러한 경우에, 출력 오디오 신호의 에너지의 정규화는 다운믹싱 프로세스로 통합되며, 그 결과 신호 처리는 단순화된다.
실시예들에서, 상기 디코더는 출력 오디오 신호의 에너지가 입력 오디오 신호를 제공하는, 인코더와 같은, 외부 디바이스로부터의 입력 오디오 신호의 결정된 에너지에 기초하여 정규화되는 방식으로 계산된 다운믹스 매트릭스 M을 수신하도록 구성될 수 있다.
에너지 등화 단계는 복잡하지 않고 명확하게 정의된 처리 단계이기 때문에 인코딩 프로세스에 포함될 수 있거나 또는 디코더에서 수행될 수 있다.
몇몇 실시예들에서 디코더는 윈도우 함수를 사용하여 입력 오디오 신호의 시간 간격들을 분석하도록 구성될 수 있으며, 채널-간 종속성들이 각각의 시간 프레임에 대하여 결정된다.
실시예들에서, 상기 디코더는 윈도우 함수를 사용하는 입력 오디오 신호의 시간 간격들의 분석을 수신하도록 구성될 수 있으며, 채널-간 종속성들은 입력 오디오 신호를 제공하는, 인코더와 같은, 외부 디바이스로부터 각각의 시간 프레임에 대하여 결정된다.
상기 프로세싱은, 관련된 파라미터들을 추정하기 위한 순환적 윈도우를 이용하는 것과 같은 다른 옵션들이 또한 이용가능하더라도, 양쪽 모두의 경우들에서 오버래핑 프레임-별(frame-wise) 방식으로 수행될 수 있다. 원칙적으로 임의의 윈도우 함수가 선택될 수 있다.
몇몇 실시예들에서, 상기 디코더는 공분산 값 매트릭스를 계산하도록 구성되며, 공분산 값들은 한쌍의 입력 오디오 채널들의 채널-간 종속성을 표현한다. 공분산 값 매트릭스의 계산은 입력 오디오 신호의 입력 채널들의 코히어런스를 결정하기 위해 사용될 수 있는 주파수 대역의 단-기간 확률적 특성들을 캡처하기 위한 용이한 방식이다.
실시예들에서, 상기 디코더는 공분산 매트릭스 값 매트릭스를 수신하도록 구성되며, 공분산 값들은 입력 오디오 신호를 제공하는, 인코더와 같은, 외부 디바이스로부터의 한쌍의 입력 오디오 채널들의 채널-간 종속성을 표현한다. 이러한 경우에 공분산 매트릭스의 계산은 인코더로 전달될 수 있다. 그후에, 공분산 매트릭스의 공분산 값들은 인코더 및 디코더 간의 비트스트림으로 전송되어야 한다. 이러한 버전은 수신기에서의 유연한 렌더링 셋업들을 허용하지만, 출력 오디오 신호에 추가적인 데이터를 필요로 한다.
선호되는 실시예들에서, 정규화된 공분산 값 매트릭스가 확립될 수 있으며, 정규화된 공분산 값 매트릭스는 공분산 값 매트릭스에 기반한다. 이러한 특징에 의해 추가적인 프로세싱이 단순화될 수 있다.
몇몇 실시예들에서 상기 디코더는 매핑 함수를 공분산 값 매트릭스 또는 공분산 값 매트릭스로부터 도출된 매트릭스에 적용함으로써 인력 값(attraction value) 매트릭스를 확립하도록 구성될 수 있다.
몇몇 실시예들에서, 매핑 함수의 경사도(gradient)는 모든 공분산 값들 또는 공분산 값들로부터 도출된 값들에 대하여 0과 같거나 또는 더 클 수 있다.
선호되는 실시예들에서, 매핑 함수는 0 및 1 사이의 입력 값들에 대하여 0 및 1 사이의 값들로 도달할 수 있다.
실시예들에서, 상기 디코더는 매핑 함수를 공분산 값 매트릭스 또는 공분산 값 매트릭스로부터 도출된 매트릭스로 적용함으로써 확립되는 인력 값 매트릭스 A를 수신하도록 구성될 수 있다. 비-선형 함수를 공분산 값 매트릭스 또는, 정규화된 공분산 매트릭스과 같은, 공분산 값 매트릭스로부터 도출된 매트릭스로 적용함으로써, 위상 정렬이 양쪽 모두의 경우들에서 조정될 수 있다.
위상 인력 값 매트릭스는 채널 쌍들 간의 위상 인력을 결정하는 위상 인력 계수들의 형태로 제어 데이터를 제공한다. 각각의 시간 주파수 타일에 대하여 도출되는 위상 조정들은 측정 공분산 값 매트릭스에 에 기초하며, 그 결과 낮은 공분산 값들을 갖는 채널들은 서로에 대하여 영향을 주지 않으며 높은 공분산 값들을 갖는 채널들은 서로에 대하여 위상 주시(phase look)된다.
몇몇 실시예들에서 매핑 함수는 비-선형 함수이다.
실시예들에서, 매핑 함수는 제 1 매핑 임계치보다 작은 공분산 값들 또는 공분산 값들로부터 도출된 값들에 대하여 0과 동일하고 그리고/또는 매핑 함수는 제 2 매핑 임계치보다 큰 공분산 값들 또는 공분산 값들로부터 도출된 값들에 대하여 1과 동일하다. 이러한 특징에 의해 매핑 함수는 3개의 간격들을 포함한다. 제 1 매핑 임계치보다 작은 모든 공분산 값들 또는 공분산 값들로부터 도출된 값들에 대하여, 위상 인력 계수들은 0으로 계산되고, 그리하여 위상 조정은 실행되지 않는다. 제 1 매핑 임계치보다 크지만 제 2 매핑 임계치보다 작은 모든 공분산 값들 또는 공분산 값들로부터 도출된 값들에 대하여, 위상 인력 계수들은 0과 1 사이의 값으로 계산되며, 그리하여 부분 위상 조정이 실행된다. 제 2 매핑 임계치보다 큰 모든 공분산 값들 또는 공분산 값들로부터 도출된 값들에 대하여, 위상 인력 계수들은 1로 계산되며, 그리하여 풀 위상 조정이 수행된다.
일례는 다음의 매핑 함수에 의해 주어진다:
다른 선호되는 예는 다음과 같이 주어진다:
몇몇 실시예들에서, 매핑 함수는 S-형상 곡선을 형성하는 함수에 의해 표현될 수 있다.
특정 실시예들에서, 상기 디코더는 위상 정렬 계수 매트릭스를 계산하도록 구성되며, 위상 정렬 계수 매트릭스는 공분산 값 매트릭스에 기반하고 그리고 원형(prototype) 다운믹스 매트릭스에 기반한다.
실시예들에서, 상기 디코더는 위상 정렬 계수 매트릭스를 계산하도록 구성되는데, 위상 정렬 계수 매트릭스는, 입력 오디오 신호를 제공하는, 인코더와 같은, 외부 디바이스로부터의, 공분산 값 매트릭스에 기반하고 원형 다운믹스 매트릭스에 기반한다.
위상 정렬 계수 매트릭스는 입력 오디오 신호의 비-제로 인력 채널들을 정렬하는데 필요한 위상 정렬의 양을 기술한다.
원형 다운믹스 매트릭스는 입력 채널들 중 어떤 채널들이 출력 채널들 중 어떤 채널들로 믹싱되는지를 정의한다. 다운믹스 매트릭스의 계수들은 입력 채널을 출력 채널로 다운믹싱하기 위한 스케일링 인자들일 수 있다.
위상 정렬 계수 매트릭스의 완전한 계산을 인코더로 전달하는 것이 가능하다. 그 다음에 위상 정렬 계수 매트릭스는 입력 오디오 신호로 전송될 필요가 있지만, 그것의 엘리먼트들은 종종 0이며 유도되는 방식에서 양자화될 수 있다. 위상 정렬 계수 매트릭스가 원형 다운믹스 매트릭스에 강하게 의존적이기 때문에, 이러한 매트릭스는 인코더 측에서 알려져 있어야 한다. 이것은 가능한 출력 채널 구성을 제한한다.
몇몇 실시예들에서 다운믹스 매트릭스의 다운믹스 계수들의 위상들 및/또는 크기들은 시간에 걸쳐 평활화(smooth)되도록 구성되며, 그 결과 인접한 시간 프레임들 간의 신호 소거에 기인한 시간 아티팩트들이 회피된다. 여기에서 "시간에 걸친 평활화"는 다운믹스 계수들에 대하여 시간에 걸쳐 돌발적인(abrupt) 변화들이 발생하지 않는다는 것을 의미한다. 특히, 다운믹스 계수들은 연속적인 또는 준-연속적인(quasi-continuous) 함수에 따라 시간에 걸쳐 변화할 수 있다.
실시예들에서, 다운믹스 매트릭스의 다운믹스 계수들의 위상들 및/또는 크기들은 주파수에 걸쳐 평활화되도록 구성되며, 그 결과 인접한 주파수 대역들 간의 신호 소거에 기인한 스펙트럼 아티팩트들이 회피된다. 여기에서, "주파수에 걸친 평활화"는 다운믹스 계수들에 대하여 주파수에 걸쳐 돌발적인 변화들이 발생하지 않는다는 것을 의미한다. 특히, 다운믹스 계수들은 연속적인 또는 준-연속적인 함수에 따라 주파수에 걸쳐 변화할 수 있다.
몇몇 실시예들에서, 상기 디코더는 정규화된 위상 정렬 계수 매트릭스를 계산하거나 또는 수신하도록 구성되며, 정규화된 위상 정렬 계수 매트릭스는 위상 정렬 계수 매트릭스에 기반한다. 이러한 특징에 의해 추가적인 프로세싱이 단순화될 수 있다.
선호되는 실시예들에서, 상기 디코더는 위상 정렬 계수 매트릭스에 기반하여 규칙화된(regularized) 위상 정렬 계수 매트릭스를 확립하도록 구성된다.
실시예들에서, 상기 디코더는 입력 오디오 신호를 제공하는, 인코더와 같은, 외부 디바이스로부터 위상 정렬 계수 매트릭스에 기반하는 규칙화된 위상 정렬 계수 매트릭스를 수신하도록 구성된다.
제안된 다운믹스 접근 방식은, 위상 정렬 처리가 자신의 극성을 돌발적으로 스위칭할 수 있는, 반대(opposite) 위상 신호들의 결정적인 조건에서 효과적인 규칙화를 제공한다.
추가적인 규칙화 단계는 돌발적으로 변화하는 위상 조정 계수들에 기인한 인접한 프레임들 간의 과도 영역(transient resion)들에서의 소거들을 감소시키도록 정의된다. 이러한 규칙화 및 인접한 시간 주파수 타일들 간의 돌발적인 위상 변화들의 회피는 이러한 제안된 다운믹스의 장점이다. 이것은 인접한 시간 주파수 타일들 사이에서 위상이 점프할 때 또는 노치(notch)들이 인접한 주파수 대역들 사이에 나타날 때 발생할 수 있는 원치않는 아티팩트들을 감소시킨다.
규칙화된 위상 정렬 다운믹스 매트릭스는 위상 규칙화 계수들 θi,j를 정규화된 위상 정렬 매트릭스에 적용함으로써 획득된다.
규칙화 계수들은 각각의 시간-주파수 타일에 걸친 프로세싱 루프에서 계산될 수 있다. 규칙화는 시간 및 주파수 방향으로 순환적으로 적용될 수 있다. 인접한 시간 슬롯들 및 주파수 대역들 간의 위상 차이가 고려되며 이들은 인력 값들에 의해 가중되어 가중 매트릭스를 도출한다. 이러한 매트릭스로부터 규칙화 계수들은 보다 상세하게 아래에서 논의되는 바와 같이 도출될 수 있다.
선호되는 실시예들에서 다운믹스 매트릭스는 규칙화된 위상 정렬 계수 매트릭스에 기반한다. 이러한 방식에서 다운믹스 매트릭스의 다운믹스 계수들은 시간 및 주파수에 걸쳐 평활화됨이 보장된다.
또한, 적어도 하나의 주파수 대역을 갖는 오디오 신호 처리 인코더는 상기 적어도 하나의 주파수 대역에서 다수의 입력 채널들을 갖는 입력 오디오 신호를 처리하도록 구성되며,
상기 인코더는, 입력 채널들 간의 채널-간 종속성들에 의존하여 입력 채널들의 위상들을 정렬하도록 구성되고, 입력 채널들의 위상들은 이들의 채널-간 종속성이 더 높을수록 서로에 대하여 더 많이 정렬되며,
상기 인코더는, 정렬된 입력 오디오 신호를 입력 채널들의 개수보다 더 적은 개수의 출력 채널들을 갖는 출력 오디오 신호로 다운믹스하도록 구성된다.
오디오 신호 처리 인코더는 본 출원에서 논의되는 오디오 신호 처리 디코더와 유사하게 구성될 수 있다.
또한, 적어도 하나의 주파수 대역을 갖는 오디오 신호 처리 인코더는 비트스트림을 출력하도록 구성되며, 상기 비트스트림은 주파수 대역에서 인코딩된 오디오 신호를 포함하고, 인코딩된 오디오 신호는 상기 적어도 하나의 주파수 대역에서 다수의 인코딩된 채널들을 가지며,
상기 인코더는, 입력 오디오 신호의 인코딩된 채널들 간의 채널-간 종속성들을 결정하고 비트스트림 내에 채널-간 종속성들을 출력하도록 구성되며, 그리고/또는
상기 인코더는, 인코딩된 오디오 신호의 에너지를 결정하고 비트스트림 내에 인코딩된 오디오 신호의 결정된 에너지를 출력하도록 구성되며, 그리고/또는
상기 인코더는, 인코딩된 채널들의 위상들이 식별된 채널-간 종속성들에 기반하여 정렬되는 방식으로, 바람직하게는 다운믹서의 출력 오디오 신호의 에너지가 인코딩된 오디오 신호의 결정된 에너지에 기초하여 정규화되는 방식으로, 다운믹스 매트릭스에 기초하여 입력 오디오 신호를 다운믹싱하기 위하여 다운믹서에 대한 다운믹스 매트릭스 M을 계산하고 비트스트림 내에서 상기 다운믹스 매트릭스 M을 전송하도록 구성되며, 특히 다운믹스 매트릭스의 다운믹스 계수들이 시간에 걸쳐 평활화되도록 구성되어 그 결과 인접한 시간 프레임들 간의 신호 소거에 기인한 시간 아티팩트들이 회피되고, 그리고/또는 특히 다운믹스 매트릭스의 다운믹스 계수들이 주파수에 걸쳐 평활화되도록 구성되어 그 결과 인접한 주파수 대역들 간의 신호 소거에 기인한 스펙트럼 아티팩트들이 회피되며, 그리고/또는
상기 인코더는, 윈도우 함수를 이용하여 인코딩된 오디오 신호의 시간 간격들을 분석하고 비트스트림 내에 각각의 시간 프레임에 대한 채널-간 종속성들을 출력하도록 구성되고, 채널-간 종속성들은 각각의 시간 프레임에 대하여 결정되며, 그리고/또는
상기 인코더는, 공분산 값 매트릭스를 계산하고 비트스트림 내에 공분산 값 매트릭스를 출력하도록 구성되며, 공분산 값들은 한쌍의 인코딩된 오디오 채널들의 채널-간 종속성을 표현하며, 그리고/또는
상기 인코더는, 매핑 함수를 공분산 값 매트릭스 또는 공분산 값 매트릭스로부터 도출된 매트릭스에 적용함으로써 인력 값 매트릭스를 확립하고 비트스트림 내에 인력 값 매트릭스를 출력하도록 구성되며, 매핑 함수의 경사도는 바람직하게는 모든 공분산 값들 또는 공분산 값들로부터 도출된 값들에 대하여 0과 같거나 또는 더 크며, 매핑 함수는 바람직하게는 0 및 1 사이의 입력 값들에 대하여 0 및 1 사이의 값들로 도달하며, 특히 매핑 함수는 비-선형 함수이며, 특히 매핑 함수는 제 1 매핑 임계치보다 작은 공분산 값들에 대하여 0과 동일하고 그리고/또는 제 2 매핑 임계치보다 큰 공분산 값들에 대하여 1과 동일하고 그리고/또는 S-형상 곡선을 형성하는 함수에 의해 표현되며, 그리고/또는
상기 인코더는, 위상 정렬 계수 매트릭스를 계산하도록 구성되고, 위상 정렬 계수 매트릭스는 공분산 값 매트릭스에 기초하고 원형 다운믹스 매트릭스에 기초하며, 그리고/또는
상기 인코더는, 위상 정렬 계수 매트릭스 V에 기반하여 규칙화된 위상 정렬 계수 매트릭스를 확립하고 비트스트림 내에 규칙화된 위상 정렬 계수 매트릭스를 출력하도록 구성된다.
이러한 인코더들의 비트스트림은 여기에서 설명되는 바와 같이 전송되어 디코더에 의해 디코딩될 수 있다. 추가적인 세부사항들에 대하여는 디코더에 관한 설명들을 참조하도록 한다.
본 발명에 따른 오디오 신호 처리 디코더 및 본 발명에 따른 오디오 신호 처리 인코더를 포함하는 시스템이 또한 제공된다.
또한, 주파수 대역에서 다수의 입력 채널들을 갖는 입력 오디오 신호를 처리하기 위한 방법이 제공되며, 상기 방법은, 주파수 대역에서 입력 오디오 신호를 분석하는 단계 ― 입력 오디오 채널들 간의 채널-간 종속성들이 식별됨 ―; 식별된 채널-간 종속성들에 기반하여 입력 채널들의 위상들을 정렬하는 단계 ― 입력 채널들의 위상들은 이들의 채널-간 종속성이 높을수록 서로에 대하여 더 많이 정렬됨 ―; 및 정렬된 입력 오디오 신호를 상기 주파수 대역에서 상기 입력 채널들의 개수보다 더 적은 개수의 출력 채널들을 갖는 출력 오디오 신호로 다운믹싱하는 단계를 포함한다.
또한, 컴퓨터 또는 신호 프로세서 상에서 실행될 때 위에서 언급된 방법을 구현하기 위한 컴퓨터 프로그램이 제공된다.
다음에서, 본 발명의 실시예들은 도면들과 관련하여 보다 상세하게 설명된다.
도 1은 제안된 적응적 위상 정렬 다운믹스의 블록 다이어그램을 도시한다.
도 2는 제안된 방법의 동작 원리를 도시한다.
도 3은 다운믹스 매트릭스 M의 계산을 위한 처리 단계들을 설명한다.
도 4는 인력 값(attraction value) 매트릭스 A를 계산하기 위해 정규화된 공분산 매트릭스 C'에 적용될 수 있는 공식을 도시한다.
도 5는 3D-오디오 인코더의 개념적인 오버뷰의 도식적인 블록 다이어그램을 도시한다.
도 6은 3D-오디오 디코더의 개념적인 오버뷰의 도식적인 블록 다이어그램을 도시한다.
도 7은 포맷 컨버터의 개념적인 오버뷰의 도식적인 블록 다이어그램을 도시한다.
도 8은 시간 상에서 2개의 채널들을 가지는 원래의 신호의 처리의 일례를 도시한다.
도 9는 주파수 상에서 따른 2개의 채널들을 가지는 원래의 신호의 처리의 일례를 도시한다.
도 10은 77 대역 하이브리드 필터뱅크를 도시한다.
도 1은 제안된 적응적 위상 정렬 다운믹스의 블록 다이어그램을 도시한다.
도 2는 제안된 방법의 동작 원리를 도시한다.
도 3은 다운믹스 매트릭스 M의 계산을 위한 처리 단계들을 설명한다.
도 4는 인력 값(attraction value) 매트릭스 A를 계산하기 위해 정규화된 공분산 매트릭스 C'에 적용될 수 있는 공식을 도시한다.
도 5는 3D-오디오 인코더의 개념적인 오버뷰의 도식적인 블록 다이어그램을 도시한다.
도 6은 3D-오디오 디코더의 개념적인 오버뷰의 도식적인 블록 다이어그램을 도시한다.
도 7은 포맷 컨버터의 개념적인 오버뷰의 도식적인 블록 다이어그램을 도시한다.
도 8은 시간 상에서 2개의 채널들을 가지는 원래의 신호의 처리의 일례를 도시한다.
도 9는 주파수 상에서 따른 2개의 채널들을 가지는 원래의 신호의 처리의 일례를 도시한다.
도 10은 77 대역 하이브리드 필터뱅크를 도시한다.
본 발명의 실시예들을 설명하기 전에, 현재-기술의-인코더-디코더-시스템들에 대한 더 많은 배경 지식이 제공된다.
도 5는 3D-오디오 인코더(1)의 개념적인 오버뷰의 도식적인 블록 다이어그램을 도시하며, 도 6은 3D-오디오 디코더(2)의 개념적인 오버뷰의 도식적인 블록 다이어그램을 도시한다.
3D 오디오 코덱 시스템(1,2)은 채널 신호들(4) 및 오브젝트 신호들(5)의 코딩을 위한 MPEG-D 통합 음성 및 오디오 코딩(USAC) 인코더(3)에 기반할 뿐만 아니라 인코더(3)의 출력 오디오 신호(7)를 디코딩하기 위한 MPEG-D 통합 음성 및 오디오 코딩(USAC) 디코더(6)에 기반할 수 있다.
비트스트림(7)은 인코더(1)의 주파수 대역과 관련되는 인코딩된 오디오 신호(37)를 포함할 수 있으며, 인코딩된 오디오 신호(37)는 다수의 인코딩된 채널들(38)을 가진다. 인코딩된 신호(37)는 입력 오디오 신호(37)로서 디코더(2)의 주파수 대역(36)(도 1 참조)으로 제공될 수 있다.
많은 양의 오브젝트들(5)을 코딩하기 위한 효율을 증가시키기 위해, 공간 오디오 오브젝트 코딩(SAOC) 기술이 채택되어왔다. 3가지 타입들의 렌더러들(8, 9, 10)은 오브젝트들(11, 12)을 채널들(13)로 렌더링하거나, 채널들(13)을 헤드폰들로 렌더링하거나 또는 채널들을 상이한 라우드스피커 셋업으로 렌더링하는 작업들을 수행한다.
오브젝트 신호들이 SAOC를 이용하여 파라메트릭하게 인코딩되거나 또는 명백하게 전송될 때, 대응하는 오브젝트 메타데이터(OAM)(14) 정보는 3D-오디오 비트스트림(7)으로 압축되고 멀티플렉싱된다.
사전렌더러(prerenderer)/믹서(15)는 선택적으로 인코딩 전에 채널-및-오브젝트 입력 장면(scene)(4,5)을 채널 장면(4,16)으로 컨버팅하는데 사용될 수 있다. 기능적으로 이것은 아래에서 설명되는 오브젝트 렌더러/믹서(15)와 동일하다.
오브젝트들(5)의 사전렌더링은 기본적으로 동시적인 액티브 오브젝트 신호들(5)의 개수에 독립적인 인코더(3)의 입력에서의 결정론적인 신호 엔트로피를 보장한다. 오브젝트들(5)의 사전렌더링을 통해, 오브젝트 메타데이터(14) 전송을 요구되지 않는다.
이산 오브젝트 신호들(5)은 인코더(3)가 사용하도록 구성되는 채널 레이아웃으로 렌더링된다. 각각의 채널(16)에 대한 오브젝트들(5)의 가중치들은 연관된 오브젝트 메타데이터(14)로부터 획득된다.
라우드스피커-채널 신호들(4), 이산 오브젝트 신호들(5), 오브젝트 다운믹스 신호들(14) 및 사전렌더링된 신호들(16)에 대한 코어 코덱은 MPEG-D USAC 기술에 기반할 수 있다. 이것은 입력의 채널 및 오브젝트 정렬의 지오메트릭 및 시만틱(semantic) 정보에 기반하여 채널- 및 오브젝트 매핑 정보를 생성함으로써 다수의 신호들(4, 5, 14)의 코딩을 처리한다. 이러한 매핑 정보는 입력 채널들(4) 및 오브젝트들(5)이 어떻게 USAC-채널 엘리먼트들, 즉, 채널 쌍 엘리먼트들(CPEs), 단일 채널 엘리먼트들(SCEs), 저 주파수 효과 엘리먼트들(LFEs)로 매핑되는지를 기술하며, 대응하는 정보가 디코더(6)로 전송된다.
SAOC 데이터(17) 또는 오브젝트 메타데이터(14)와 같은 모든 추가적인 페이로드들은 확장 엘리먼트들을 통해서 전달될 수 있으며 인코더(3)의 레이트 제어에서 고려될 수 있다.
오브젝트들(5)의 코딩은, 렌더링을 위한 상호작용성 요구들 및 레이트/왜곡 요구들에 의존하여, 상이한 방식들로 가능하다. 다음의 오브젝트 코딩 변형(variant)들이 가능하다:
- 사전렌더링된 오브젝트들(16): 오브젝트 신호들(5)은 인코딩 전에 사전렌더링되어 채널 신호들(4), 예를 들어, 22.2 채널 신호들(4)로 믹싱된다. 후속적인 코딩 체인은 22.2 채널 신호들(4)을 만나게 된다.
- 이산 오브젝트 파형들: 오브젝트들(5)은 모노포닉 파형들로서 인코더(3)로 제공된다. 인코더(3)는 채널 신호들(40)에 더하여 오브젝트들(5)을 전송하기 위해 단일 채널 엘리먼트들(SCEs)을 사용한다. 디코딩된 오브젝트들(18)은 수신기 측에서 렌더링되고 믹싱된다. 압축된 오브젝트 메타데이터 정보(19, 20)는 나란히 수신기/렌더러(21)로 전송된다.
- 파라메트릭 오브젝트 파형들(17): 오브젝트 특성들 및 이들의 서로에 대한 관계는 SAOC 파라미터들(22, 23)에 의해 기술된다. 오브젝트 신호들(17)의 다운-믹스는 USAC를 이용하여 코딩된다. 파라메트릭 정보(22)는 나란히 전송된다. 다운믹스 채널들(17)의 개수는 오브젝트들(5)의 개수 및 전체적인 데이터 레이트에 의존하여 선택된다. 압축된 오브젝트 메타데이터 정보(23)는 SAOC 렌더러(24)로 전송된다.
오브젝트 신호들(5)에 대한 SAOC 인코더(25) 및 디코더(24)는 MPEG SAOC 기술에 기반한다. 이러한 시스템은 더 적은 개수의 전송된 채널들(7), 및 오브젝트 레벨 차이들(OLDs), 오브젝트-간 상관들(IOCs) 및 다운믹스 이득 값들(DMGs)과 같은 추가적인 파라메트릭 데이터(22, 23)에 기반하여 다수의 오디오 오브젝트들(5)을 재생성하고, 수정하고, 렌더링할 수 있다. 추가적인 파라메트릭 데이터(22, 23)는 개별적으로 모든 오브젝트들(5)을 전송하기 위해 필요한 것보다 상당하게 낮은 데이터 레이트를 보여주며, 이는 코딩을 매우 효율적으로 되도록 한다.
SAOC 인코더(25)는 입력으로서 모노포닉 파형들로서 오브젝트/채널 신호들(5)을 취하여 (3D-오디오 비트스트림(7)으로 패킹되는) 파라메트릭 정보(22) 및 (단일 채널 엘리먼트들을 이용하여 인코딩되고 전송되는) SAOC 수송 채널들(17)을 출력한다. SAOC 디코더(24)는 디코딩된 SAOC 수송 채널들(26) 및 파라메트릭 정보(23)로부터 오브젝트/채널 신호들(5)을 재구성하고, 재생성 레이아웃, 압축해제된 오브젝트 메타데이터 정보에 기반하여, 그리고 선택적으로 사용자 상호작용 정보에 기반하여 출력 오디오 장면(27)을 생성한다.
각각의 오브젝트(5)에 대하여, 3D 공간에서의 오브젝트의 볼륨 및 지오메트릭 위치를 규정하는 연관된 오브젝트 메타데이터(14)는 시간 및 공간에서의 오브젝트 특성들의 양자화에 의해 오브젝트 메타데이터 인코더(28)에 의해 효율적으로 코딩된다. 압축된 오브젝트 메타데이터(cOAM)(19)는 OAM 디코더(29)에 의해 디코딩될 수 있는 사이드 정보(20)로서 수신기로 전송된다.
오브젝트 렌더러(21)는 주어진 재생성 포맷에 따라 오브젝트 파형들(12)을 생성하기 위해 압축된 오브젝트 메타데이터(20)를 이용한다. 각각의 오브젝트(5)는 자신의 메타데이터(19, 20)에 따라 특정한 출력 채널들(12)로 렌더링된다. 이러한 블록(21)의 출력은 부분 결과들의 합으로부터 도출된다. 이산/파라메트릭 오브젝트들(12, 27)뿐만 아니라 채널 기반 컨텐트(11, 30) 모두가 디코딩되는 경우에, 채널 기반 파형들(11, 30) 및 렌더링된 오브젝트 파형들(12, 27)은 믹서(8)에 의해 결과파형들을 출력하기 전에 (또는 이들을 바이너럴 렌더러(binaural renderer)(9) 또는 라우드스피커 렌더러 모듈(10)과 같은 후처리기 모듈(9, 10)로 제공하기 전에) 믹싱된다.
바이너럴 렌더러 모듈(9)은 각각의 입력 채널(13)이 가상 사운드 소스에 의해 표현되도록 멀티-채널 오디오 자료(13)의 바이너럴 다운믹스를 생성한다. 이러한 처리는 쿼드러처 미러 필터(QMF) 도메인에서 프레임-별로(frame-wise) 수행된다. 바이너럴화(binauralization)는 측정된 바이너럴 룸 임펄스 응답들에 기반한다.
도 7에 좀더 상세하게 도시된 라우드스피커 렌더러(10)는 전송된 채널 구성(13)과 희망하는 재생 형식(31) 간에 변환을 수행한다. 그래서 하기에서 형식변환기(10)로 불리어진다. 형식변환기(10)는 더 작은 수의 출력 채널(31)로 변환을 수행한다. 즉, 다운믹서(32)에 의하여 다운믹스 신호를 생성한다. DMX 구성기(33)는 입력 형식(13)과 출력 형식(31)의 주어진 조합에 대하여 자동적으로 최적화된 다운믹스 매트릭스를 생성하고, 이 매트릭스를 다운믹스 과정(32)에 적용한다. 이때 믹서 출력 레이아웃(34)과 재생 레이아웃(35)이 사용된다. 형식변환기(10)는 표준 라우드스피커 구성뿐만 아니라 비표준 라우드스피커 위치를 가지는 임의의 구성에도 적용 가능하다.
도 1은 적어도 하나의 주파수 대역(36)을 가지고, 적어도 하나의 주파수 대역(36) 내에 다수 개의 입력 채널들(38)을 가지는 입력 오디오 신호(37)를 처리하도록 구성된 오디오 신호 처리 장치를 도시하는데, 오디오 처리 장치는
입력 채널(48) 사이의 채널 상호간 의존성(39)을 도출할 수 있도록 입력 오디오 신호(37)를 분석하도록 구성되고,
입력 채널(38)들의 위상을 도출된 채널 상호간 의존성(39)에 기초하여 정렬할 수 있도록 구성되는데 입력 채널(38)의 위상을 채널 상호간 의존성(39)이 높을수록 상호간에 대하여 더 잘 정렬할 수 있도록 구성되고,
정렬된 입력 오디오 신호를 입력 채널(4)의 수보다 더 작은 수의 출력 채널(41)을 가지는 출력 오디오 신호(40)로 다운믹스하도록 구성된다.
오디오 신호 처리 장치는 인코더(1)일 수도 있고 디코더일 수도 있어, 본 발명은 인코더(1)뿐만 아니라 디코더에도 적용할 수 있다.
도 1에 블록다이어그램으로 도시된 제안된 다운믹싱 방법은 다음과 같은 원칙들을 가지도록 설계된다.
1. 위상 조정은 측정된 신호 공분산 매트릭스(covariance matrix) C을 기초로 낮은 공분산(ci,j)을 가진 채널들은 상호 간에 영향을 미치지 않고 높은 공분산(ci,j)을 가진 채널들은 위상 동기가 맞도록 매 시간-주파수 타일마다 행해진다.
2. 위상 조정은 인접하는 시간-주파수 타일의 겹쳐지는 영역에서의 위상 조정 차이에 기인하는 신호 제거 아티팩트를 피하기 위하여 시간과 주파수에 대하여 규칙화된다.
3. 다운믹스 매트릭스 이득은 에너지가 보존될 수 있도록 조정된다.
인코더(10)의 기본 운용 원칙은 입력 오디오 신호 중 상호 의존적인(간섭하는) 입력 채널들(38)은 특정 주파수 대역(36)에서 위상의 관점에서 서로 끌어당기도록 하고, 반면에 입력 오디오 신호(37) 중 서로 독립적인 입력 채널들(38)은 서로 영향을 받지 않도록 한다는 것이다. 제안된 인코더(10)의 목적은 심각한 신호 제거 상태에서의 후-균등화(post-equalization) 접근법에 대하여 다운믹스 품질을 개선하는 반면에 심각하지 않은 상태에서는 동일한 성능을 제공하는 것이다.
채널 상호간 의존성(39)이 일반적으로 미리 알려지지 않기 때문에 다운믹스의 적응적 접근법이 제안되고 있다.
신호 스펙트럼을 재생하는 직설적 접근법(straightforward approach)은 주파수 대역(36) 내의 신호들을 감쇄하거나 증폭하는 적응적 이퀄라이저(equalizer; 42)에 적용될 수 있다. 그러나, 적용된 주파수 변환 해상도보다 더 뾰족한 주파수 노치(notch)가 있다면 직설적 접근법은 신호(41)를 양호하게 복구할 수 없다고 보는 것이 합리적이다. 우선적으로 그와 같은 주파수 노치를 피하도록 하기 위하여 다운믹스 전에 입력 신호(37)의 위상을 전처리함으로서 이러한 문제점은 해결될 수 있다.
주파수 대역(36), 소위 시간-주파수 타일, 내에서 두 개 또는 그 이상의 채널(38)을 그 보다 작은 수의 채널(41)로 적응적으로 다운믹스하는 방법에 관한 본 발명의 일 실시 예가 아래에서 보여진다. 이 방법은 다음과 같은 특징을 포함한다:
- 주파수 대역(36)에서 신호 에너지와 (공분산 매트릭스 C에 함유되는) 채널 상호간 의존성(39)을 분석
- 다운믹싱의 신호 제거 효과를 줄이거나 간섭하는 신호의 합이 증가되도록 하기 위하여 다운믹싱 전에 주파수 대역 입력 채널 신호(39)들의 위상을 조정
- (잠재적인 위상 옵셋(phase offset)이 있더라도) 높은 의존성을 가진 채널 쌍이나 그룹은 상호간에 더 잘 정렬되도록 하고, 반면에 (동일하게 잠재적인 위상 옵셋이 있더라도) 낮은 상호의존성을 가진 채널들은 상호간에 위상이 더 나쁘게 정렬되거나 전혀 정렬되지 않도록 하는 방법으로 위상을 조정.
- 주파수 대역 다운믹스 채널 신호(41)의 에너지는 정규화된다. 예를 들면, 각 주파수 대역 다운믹스 신호(41)의 에너지는 주파수 대역 입력 신호(38) 에너지의 합에 대응되는 다운믹싱 이득의 제곱을 곱한 것과 같게 되도록 한다.
또한, 제안된 다운믹스 접근법은 위상 정렬 처리 공정이 급격하게 극성을 바꾸어야 하는 상반 위상 신호들과 같은 심각한 조건하에서도 효과적인 규칙화를 제공한다.
아래에 제공되는 다운믹서의 수학적 설명은 상기한 것에 대한 실용적인 실현의 일 예이다. 통상의 기술자에 있어서, 위의 서술에 따른 특징을 가지는 다른 특정한 실시 예의 구성이 가능할 것이 예상된다.
도 2에 도시된 것처럼, 상기 방법의 기본 운용 원칙은 상호간에 간섭하는 신호들(SC1, SC2, SC3)은 주파수 대역(36)에서 위상의 관점에서 서로 끌어당기고, 반면에 간섭하지 않는 신호들(SI1)은 영향을 받지 않고 그대로 있게 된다. 제안된 방법의 목적은 심각한 신호 제거 상태에서의 후-균등화(post-equalization) 접근법에 대하여 다운믹스 품질을 개선하는 반면에 심각하지 않은 상태에서는 동일한 성능을 제공하는 것이다.
제안된 방법은 주파수 대역 신호(37)의 단시간(short-time) 확률적(stochastic) 특성들과 정적 원형 다운믹스 매트릭스(Q)을 기초로 위상이 정렬되고 에너지가 균등화되는 다운믹스 매트릭스(M)이 주파수 대역(36)에서 적응적으로 만들어지도록 설계된다. 특히, 제안된 방법은 상호 의존적인 채널(SC1, SC2, SC3)들에서만 상호적으로 위상 정렬이 적용되도록 구성된다.
일반적인 작업 과정이 도 1에 도시되어 있다. 관련된 파라미터들의 추정을 위하여 순환 윈도우(recursive window)를 사용하는 것처럼 비록 다른 옵션(option) 들이 미리 이용 가능할 지라도 처리 공정은 오버랩(overlap)되는 프레임 방식으로 행해진다.
각 오디오 입력 신호 프레임(43)에 대하여, 위상 정렬 다운믹스 계수를 가지고 있는 위상 정렬 다운믹스 매트릭스(M)이 입력 신호 프레임(43)의 확률적 데이터와 어느 입력 채널(38)이 어느 출력 채널(41)로 다운믹스되는 지를 정의하는 원형 다운믹스 매트릭스(Q)에 따라 정의된다. 신호 프레임들(43)은 윈도잉(windowing) 단계(44)에서 생성된다. 확률적 데이터는 추정 단계(45)에서(또는 일 예로서 순환 윈도우를 사용하여) 신호 프레임(43)으로부터 추정된 입력 신호(37)의 복소수 값을 가지는 공분산 매트릭스(C)에 포함된다. 복소수 값을 가지는 공분산 매트릭스(C)로부터 위상 조정 매트릭스()이 위상 정렬 다운믹싱 계수의 공식화로 이름 붙여진 단계(46)에서 추출된다.
입력 채널의 수를 Nx라 하고, 다운믹스 채널의 수를 Nx보다 적은 Ny라 하자. 원형 다운믹스 매트릭스(Q)과 위상 정렬 다운믹스 매트릭스(M)은 일반적으로 성기고(sparse) Ny×Nx의 크기를 가진다. 위상 정렬 다운믹스 매트릭스(M)은 일반적으로 시간과 주파수의 함수로서 변하게 된다.
위상 정렬 다운믹싱 해결책은 채널 간의 신호 제거를 줄일 수 있으나 만약 위상 조정 계수가 돌발적으로 변한다면, 인접한 시간-주파수 타일 사이의 천이 영역(transition region)에서는 제거가 생길 수 있다. 시간 영역에서의 돌발 위상 변화는 가까운 역상의 입력 신호들이 다운믹스될 때 발생할 수 있으나 진폭 또는 위상에 적어도 약간 변할 수 있다. 이 경우에 신호 그 자체는 상당히 안정적일지라도 위상 정렬의 극성은 급격하게 바뀔 수 있다. 이 효과는 예를 들면 음조 신호 성분의 주파수가 채널 간 시간 차이와 일치할 때에 발생할 수 있고, 이러한 일치는 예를 들면 간격 마이크 기록 기술 또는 지연에 기초한 오디오 효과로부터 기인할 수 있다.
주파수축에 있어서 타일들 간의 돌발 위상 쉬프트는 예를 들면 두 개의 간섭하지만 다르게 지연된 광대역(wide band) 신호들이 다운믹스될 때 발생할 수 있다. 위상 차이는 더 높은 주파수에서 커질 수 있고, 특정 주파수 대역 경계에서의 랩핑(wrapping)이 천이 영역에서의 노치를 야기할 수 있다.
바람직하게는 내의 위상 조정 계수들은 시간 영역, 주파수 영역, 또는 시간 주파수 양 영역에서의 갑작스런 위상 천이에 의한 처리 공정 아티팩트를 피하기 위하여 다음 단계에서 규칙화될 수 있다. 그와 같은 방법으로 규칙화된 매트릭스()가 획득될 수 있다. 규칙화(47)가 제외된다면, 인접하는 시간 프레임들 및/또는 인접하는 주파수 대역들의 겹치는 영역에서 위상 조정 차이에 기인한 신호 제거 아티팩트가 있을 수 있다.
에너지 정규화(48)는 다운믹스 신호(들)(40)이 그럴 이유가 있는(motivated) 에너지 수준을 반드시 가지도록 보장한다. 처리된 신호 프레임들(43)은 오버랩 단계(49)에서 출력 데이터 스트림(40)에 오버랩 추가(overlap-added)된다. 이와 같은 시간-주파수 처리 구조를 설계하는데 있어서 이용 가능한 많은 변형이 있을 수 있다는 것에 주목하라. 다른 순서의 신호 처리 블록(block)으로 유사한 처리 공정을 획득하는 것이 가능하다. 또한, 블록의 몇 개는 하나의 처리 공정 단계로 결합될 수 있다. 이에 더하여, 윈도잉(44) 또는 블록 처리 공정 접근법은 유사한 처리 공정 특성을 달성하면서 다양한 방법으로 재형성될 수 있다.
위상 정렬 다운믹싱의 다른 단계들이 도 3에 도시되어 있다. 3개의 전체적인 처리 공정 단계들 후에 다운믹스 매트릭스(M)가 획득되는데 이 다운믹스 매트릭스(M)는 원래의 다-채널 입력 오디오 신호(37)를 다른 채널 수로 다운믹스하기 위하여 사용된다.
매트릭스(M)를 계산하기 위해 필요한 여러 가지 종속적인 단계의 상세한 설명이 아래 기술되어 있다.
본 발명의 일 실시 예에 따른 다운믹스 방법은 64밴드 QMF 도메인(domain)에서 구현될 수 있다. 64 밴드 복소수-변조된(complex-modulated) 유니폼(uniform) QMF 필터뱅크(filterbank)가 적용될 수 있다.
입력 오디오 신호 x(입력 오디오 신호(38)와 동등한 것임)로부터, 시간-주파수 도메인에서 복소수 값을 가지는 공분산 매트릭스(C)가 매트릭스 C=E{x xH}를 이용하여 계산될 수 있는데, 여기서 E{·}는 기대값 연산자이고, xH는 x의 컨주게이트 트랜스포즈(conjugate transpose) 이다. 실질적 구현에 있어서 기대값 연산자는 여러 번의 시간 및/또는 주파수 샘플(samples)에 대한 평균 연산자로 대치될 수 있다.
이 매트릭스(C)의 절대값은 공분산 정규화 단계(50)에서 정규화 될 수 있는데, 이때 절대값은 0과 1 사이의 값을 가진다(그러면 이 매트릭스의 각 요소는 c'i,j로 표시될 수 있고, 매트릭스는 C'으로 표시될 수 있다). 이러한 값들은 음 에너지의 다른 채널 쌍 사이에서의 간섭인 부분을 나타낸다. 그리고 위상 옵셋을 가질 수도 있다. 다시 말하면, 동상, 이상, 반전상 신호들 각각은 정규화된 값 1을 생성하고 간섭이 없는 신호들을 0의 값을 생성한다.
이것들은 인력 값 계산 단계(51)에서 제어 데이터(인력 값 매트릭스(A))로 변환되는데, 제어 데이터는 절대값 정규화된 공분산 매트릭스(M')의 모든 목록에 적용되는 매핑 함수(f(c'i,j))에 의하여 채널 쌍 사이의 위상 인력을 나타낸다. 여기서 다음과 같은 공식이 사용될 수 있다(도 4에 최종 매핑함수의 일 예를 도시하고 있다)
이 일 실시 예에서 매핑 함수(f(c'i,j))는 정규화된 공분산 값(c'i,j)이 제 1 매핑 임계치(54)보다 작으면 0일 수 있고, 그리고/또는 매핑 함수(f(c'i,j))는 정규화된 공분산 값(c'i,j)이 제 2 매핑 임계치(55)보다 크면 1일 수 있다. 이 특징에 의하여 매핑함수는 3개의 구간으로 구성될 수 있다. 모든 정규화된 공분산 값(c'i,j)이 제1 매핑 임계치(54)보다 작은 경우에 위상 인력 계수(ai,j)는 0으로 계산되므로, 위상 조정이 실행되지 않는다. 모든 정규화된 공분산 값(c'i,j)이 제1 매핑 임계치(54)보다 크고, 제2 매핑 임계치(55)보다 작은 경우에 위상 인력 계수(ai,j)는 0과 1사이의 값으로 계산되므로, 부분적인 위상 조정이 실행된다. 모든 정규화된 공분산 값(c'i,j)이 제2 매핑 임계치(55)보다 큰 경우에 위상 인력 계수(ai,j)는 1로 계산되므로, 완전한 위상 조정이 된다.
이 인력 값들로부터 위상 정렬 계수들(vi,j)이 계산된다. 위상 정렬 계수(vi,j)는 신호 x의 0이 아닌 인력을 가지는 채널들을 정렬하기 위하여 필요로 하는 위상 정렬 양을 묘사한다.
계수들(vi,j)은 위상 정렬 계수 매트릭스 정규화 단계(52)에서 다운믹스 매트릭스(Q)의 크기로 정규화되어, 결과적으로 다음 식에 따른 요소를 가지는 정규화된 위상 정렬 다운믹스 매트릭스() 가 된다.
이 다운믹스의 장점은 위상 조정이 측정된 신호의 공분산 매트릭스(C)로부터 도출되기 때문에 낮은 인력을 가지는 채널들(38)은 서로 간에 영향을 미치지 않는다는 것이다. 높은 인력을 가지는 채널들(38)은 서로 간에 위상이 동기 된다. 위상 수정의 강도는 상관 특성에 의존한다.
위상 정렬 다운믹싱 해결책은 채널 간의 신호 제거를 줄일 수 있다. 하지만 만약 위상 조정 계수가 급격하게 변한다면, 인접한 시간-주파수 타일 사이의 천이 영역에서는 제거가 생길 수 있다. 시간 영역에서의 돌발 위상 변경은 가까운 역상의 입력 신호들이 다운믹스될 때 발생할 수 있으나 진폭 또는 위상에 적어도 약간 변할 수 있다. 이 경우에 위상 정렬의 극성은 급격하게 바뀔 수 있다.
돌발적으로 변하는 위상 조정 계수(vi,j)에 기인한 인접 프레임들 간의 천이 영역에서의 제거를 줄이기 위하여 추가적인 규칙화 단계(47)가 정의된다. 이 규칙화 및 오디오 프레임들 간의 급력한 위상 변경의 회피는 이 제안된 다운믹스의 장점이다. 이것은 인접한 오디오 프레임들 사이의 위상의 급격한 변화가 발생할 수 있는 경우에 또는 인접하는 주파수 대역들 간에 노치가 발생할 수 있는 경우에 원하지 않는 아티팩트를 줄일 수 있다.
인접하는 시간-주파수 타일들 간의 커다란 위상 쉬프트를 피하기 위하여 정규화를 수행하는 여러 가지 옵션(option)이 있다. 일 실시 예로서 다음에서 자세하게 설명하는 것과 같은 단순한 정규화 방법이 사용될 수 있다. 이 방법에서 처리 공정 루프는 가장 낮은 주파수 대역의 타일에서부터 가장 높은 주파수 대역으로, 시간 영역에서 연속적으로 각 타일을 위하여 수행할 수 있도록 구성될 수 있고, 위상 정규화는 시간 영역과 주파수 영역에 있어서 이전 타일에 대하여 회귀적으로 적용할 수 있다.
다음에 기술된 것과 같은 설계된 처리 공정의 실질적인 효과는 도 8과 도 9에 도시되어 있다. 도 8은 시간 영역에서 2개의 채널(38)을 가지는 원 신호(37)의 예를 보여주고 있다. 두 채널(38) 사이에 느리게 증가하는 채널간 위상 차이(IPD; 56)가 존재한다. +Π 로부터 - Π로의 갑작스런 위상 쉬프트는 결과적으로 제 1 채널(38)의 정규화되지 않은 위상 조정(57) 및 제 2 채널(38)의 정규화되지 않은 위상 조정(58)의 급격한 변화가 된다.
하지만, 제 1 채널(38)의 정규화된 위상 조정(59) 및 제2 채널(38)의 정규화된 위상 조정(60)은 어떤 급작스런 변화도 보여주지 않는다.
도 9는 두 개의 채널(38)을 가진 원 신호(37)의 일 예를 도시한다. 또한 신호(37)중 한 채널(38)의 원래 스펙트럼(61) 또한 도시한다. 비-정렬되지 않은 다운믹스 스펙트럼(수동적 다운믹스 스펙트럼)은 콤 필터(comb filter) 효과를 보여준다. 이 콤 필터 효과는 비정규화된 다운믹스 스펙트럼(63)을 줄이게 된다. 하지만, 이러한 콤 필터 효과는 규칙화된 다운믹스 스펙트럼(64)에서는 현저하지 않다.
규칙화 계수는 각 시간-주파수 프레임에 대하여 처리 공정 루프에서 계산될 수 있다. 규칙화(47)는 시간 방향 및 주파수 방향으로 회기적으로 적용될 수 있다. 인접 시간 슬롯 사이 및 인접 주파수 대역 사이의 위상 차이는 고려될 수 있고, 인력 값에 가중되고 결과적으로 가중된 매트릭스(MdA)이 된다. 이 매트릭스로부터 다음 식을 이용하여 규칙화 계수가 도출된다.
다음 식과 같이 상대적 신호 에너지에 의존적인 0과 π/2 사이의 단계에서 0으로 사라지도록 규칙화를 구현함으로써 상수 위상 옵셋은 회피될 수 있다.
여기서
마지막으로, 에너지 정규화된 위상 정력 다운믹스 백터가 각 채널(j)에 대하여 에너지 정규화 단계(53)에서 정의되는데, 이때 최종 위상 정렬 다운믹스 매트릭스의 열은 다음 수학식과 같다.
매트릭스(M)의 계산 후에 출력 오디오 머티리얼(material)이 계산된다. 다음 수학식에 보이는 것처럼 QMF-도메인 출력 채널들은 QMF 입력 채널의 가중된 합이다. 적응적인 위상 정렬 처리 공정을 포함하는 복소 가중치는 매트릭스(M)의 요소이다.
약간의 처리 공정 단계들을 인코더(1)로 이전할 수 있다. 이것은 디코더(2)에서 다운믹스(7)의 처리 공정 복잡도를 크게 줄일 수 있다. 이것은 또한 다운믹서의 표준 버전이 아티팩드를 생성할 수도 있는 곳에서 입력 오디오 신호들(37)에 반응할 가능성을 제공한다. 그래서 디코더(2)의 변경 없이 다운믹스 처리 규칙을 갱신할 가능성이 있고, 다운믹스 품질을 향상시킬 수 있다.
위상 정렬 다운믹스의 어느 부분이 인코더(10)로 이전할 수 있는 지에 대한 많은 가능성이 있다. 위상 정렬 계수(vi,j)의 완전한 계산이 인코더(10)로 이전 가능하다. 그러면, 위상 정렬 계수(vi,j)는 비트스트림(7)으로 전송되어야만 하지만, 이 값들은 대부분이 0이고 그럴 이유가 있는 방법으로 양자화될 수 있다. 위상 정렬 계수(vi,j)는 원형 다운믹스 매트릭스(Q)에 강하게 의존적이므로 이 매트릭스(Q)는 인코더 측에 알려져야만 한다. 이것은 가능한 출력 채널 구성을 제약한다. 이퀄라이저나 에너지 정규화 단계는 인코딩 처리 공정에 포함되거나 또는 디코더(2)에서 여전히 할 수 있는데, 왜냐하면 이것들은 복잡하지 않고 명백하게 정의된 처리 공정 단계이기 때문이다.
다른 가능성은 공분산 매트릭스(C)의 계산을 인코더(1)로 이전하는 것이다. 그러면, 공분산 매트릭스(C)의 요소들은 비트스트림(7)으로 전송되어야만 한다. 이 버전은 수신기(2)에서 유연한 렌더링(rendering) 설정을 가능하게 하지만 비트스트림(7)에 더 많은 추가적인 데이터를 필요로 한다.
다음에 발명의 바람직한 일 실시 예를 설명한다.
형식 변환기(42)에 공급되는 오디오 신호들(37)은 다음 기술에서 입력 신호로 언급된다. 형신 변환 처리 공정의 결과인 오디오 신호들(40)은 출력 신호로 언급된다. 형식 변환기의 오디오 입력 신호들(37)은 코어 디코더(6)의 오디오 출력 신호이다.
백터와 매트릭스들은 볼드체 심볼로 표시한다. 백터 요소와 매트릭스 요소들은 백터/매트릭스에서 백터/매트릭스 요소의 열과 행을 나타내는 인덱스들이 추가된 이탤릭체 변수로 표시된다. 유사하게, M a,b는 매트릭스 M 의 a 번째 행과 b 번째 열에 있는 요소를 나타낸다.
다음 변수들이 사용된다:
N in: 입력 채널 구성에서의 채널 수
N out: 출력 채널 구성에서의 채널 수
MDMX: 실수이고 음수가 아닌 다운믹스 계수(다운믹스 이득)를 포함하는
G EQ: 이퀄라이징 필터의 주파수 응답을 결정하는 처리 대역 별 이득 값을
포함하는 매트릭스
I EQ: (만약 존재한다면) 이퀄라이저 필터가 입력 채널에 적용하는 백터 신호
L: 시간 영역 오디오 샘플에서 측정된 프레임 길이
ν: 시간 영역 샘플 인덱스
n: QMF 시간 슬롯 인덱스(= 부밴드 샘플 인덱스)
L n : QMF 슬롯에서 측정된 프레임 길이
F: 프레임 인덱스(프레임 번호)
K: 하이브리드 QMF 주파수 대역의 수(K=77)
k: QMF 대역 인덱스 (1..64) 또는 하이브리드 QMF 대역 인덱스 (1..K)
A,B: 채널 인덱스(채널 구성의 채널 번호)
eps: 수치 상수, eps=10-35
코어 디코더(6)에 의하여 전달되는 오디오 샘플의 치리 공정이 일어나기 전에 형식변환기(42)의 초기화가 수행된다.
초기화는 입력 파라미터로서 다음을 고려한다.
● 처리하기 위한 오디오 데이터의 샘플링 레이트(rate)
● 형식 변환기로 처리하여야 할 오디오 데이터의 채널 구성을 알려주는
파라미터(format_in)
● 원하는 출력 형식의 채널 구성을 알려주는 파라미터(format_out)
● 선택적 사항: 표준 라우드스피커 설정(임의의 설정 기능)으로부터
라우드스피커의 위치들의 편차를 알려주는 파라미터들
다음을 출력한다.
● 입력 라우드스피커 구성의 채널 수(N in),
● 출력 라우드스피커 구성의 채널 수(N out),
● 형식변환기(42)의 오디오 신호 처리 공정에 적용되는 다운믹스
매트릭스(MDMX)과 이퀄라이징 필터 파라미터들(I EQ, G EQ)
● 변하는 라우드스피커의 거리를 보상하기 위한 트림 이득과 지연 값들
(T g,A와 T d,A)
형식변환기(42)의 오디오 처리 블록은 코어 디코더(6)로부터 N in채널(38)의 시간 영역 오디오 샘플들(37)을 획득하고 N out채널(41)로 이루어지는 다운믹스된 시간 영역 오디오 출력 신호(40)를 생성한다.
처리공정은 입력으로서 다음을 사용한다.
● 코어 디코더(6)에 의해 디코딩된 오디오 데이터
● 형식변환기(42)의 초기화 시에 생성된 다운믹스 매트릭스(MDMX)
● 형식변환기(42)의 초기화 시에 생성된 이퀄라이징 필터 파라미터들
(I EQ, G EQ)
형식변환기(42)의 오디오 처리 블록은 형식변환기의 초기화 동안에 알려진 채널 구성(format_out)에 대한 N out-채널 시간 영역 출력 신호(40)를 돌려준다.
형식변환기(42)는 입력 오디오 신호의 시간 영역 샘플의 길이(L)는 2048이고 연속적이면서 겹치지 않는 프레임들을 처리할 수 있고 각 처리된 길이 L의 입력 프레임 별로 L 샘플을 가진 한 개의 프레임을 출력할 수 있다.
또한, T/F-변환(하이브리드 QMF 분석)이 수행될 수 있다. 첫번째 처리 단계로서, 변환기는 N in 채널의 시간 영역 입력 신호 의 L=2048 샘플을 L n =32 QMF 시간 슬롯 (슬롯 인덱스 n)과 K=77 주파수 대역(대역 인덱스 k)으로 구성된 하이브리드 QMF 채널 신호 표현으로 변환 한다. ISO/IEC 23003-2:2010의 7.14.2.2절에 의한 QMF 분석이 다음 수학식을 이용하여 먼저 수행된다.
다음 수학식의 하이브리드 분석이 따른다.
하이브리드 필터링은 ISO/IEC 14496-3:2009의 8.6.4.3절에 기술된 것처럼 수행되어야만 한다. 하지만, 저주파수 분할 정의(ISO/IEC 14496-3:2009의 표 8.36)는 다음 [표 1]로 대체될 수 있다.
QMF 부밴드 p | 밴드의 수 Qp | 필터 |
0 | 8 | Type A |
1 | 4 | |
2 | 4 |
또한, 원형 필터 정의는 다음 [표 2]에 있는 계수로 대치되어야만 한다.
또한, ISO/IEC 14496-3:2009의 8.6.4.3과는 다르게 어떤 부-부대역도 결합되지 않는다. 즉, 가장 낮은 3개의 QMF 부밴들을 (8, 4, 4) 부-부대역으로 분할함으로써 77 대역 하이브리드 필터뱅크가 형성된다. 77 대역 하이브리드 필터뱅크는 재정렬되지 않지만 하이브리드 필터뱅크에 따른 순서로 전달된다. 도 10을 참고한다.
이제, 정적 이퀄라이저 이들이 적용될 수 있다. 변환기(42)는 I EQ와 G EQ 변수들에 의해 신호되면서 0-위상 이득을 입력 채널(38)들에 적용한다.
I EQ는 N in 입력 채널의 각 채널 A에 대하여 신호하는 길이가 N in 인 백터이다.
● 특정한 입력 채널에 어떤 이퀄라이징 필터도 적용되지 않거나:I EQ,A=0
● 또는 0보다 큰 인덱스(I EQ,A>0)를 가지는 이퀄라이저 필터에 대응되는
G EQ의 이득이 적용된다.
입력 채널 A에 대하여 I EQ,A>0인 경우, 채널 A 의 입력 신호는 다음 수학식과 같이 I EQ,A에 의해 신호되는 G EQ 매트릭스의 행으로부터 얻어지는 0-위상 이득을 곱함으로써 필터 처리된다:
변환이 다시 시간 영역 신호로 돌아올 때까지 모든 다음 처리 공정 단계들은 각 하이브리드 QMF 주파수 대역 k에 대하여 개별적으로 그리고 k에 독립적으로 수행된다. 그러므로 주파수 대역 파라미터 k는 다음 방정식들에서 생략될 수 있는데, 일 예로서 각 주파수 대역 k에 대하여 이다.
또한, 입력 데이터의 갱신과 신호 적응적 입력 데이터 윈도잉이 수행될 수 있다. F를 단조적으로 증가하는, 입력 데이터의 현재 프레임을 나타내는 프레임 인덱스라 하면, 일 예로서 형식변환기(42)의 초기화 후 입력 데이터의 첫번째 프레임인 F=0에서 시작하여 프레임 F에 대하여 이다. 길이가 2*L n인 분석 프레임은 입력 하이브리드 QMF 스펙트럼들로부터 다음 수학식을 사용하여 만들어질 수 있다.
대하여 계산되는 신호 적응적 윈도우이다.
이제 공분산 분석이 수행될 수 있다. 공분산 분석은 윈도잉된(windowed) 입* 된 입력 데이터 프레임 F의 2Ln QMF 시간 슬롯들에 대한 auto-/cross-terms의 총합으로서 구현된다. 다음의 프로세싱 단계들은 각각의 프로세싱 프레임 F에 대해 독립적으로 수행된다. 인덱스 F 는 선명도(clarity)에 대해 필요할 때까지 생략되며, 예를 들어 프레임 F에 대해 일 때이다.
추가적으로, 위상-정렬 매트릭스가 공식화될 수 있다. 값들은 인력 측정(attraction measure) 매트릭스 에 매핑되며, 그 인력 측정 매트릭스는 다음과 같은 엘리먼트들을 갖는다.
중간 위상-정렬 믹싱 매트릭스 Mint는 돌발 위상 쉬프트들을 회피하도록 수정되며, 이로써 가 결정된다: 먼저 가중치 매트릭스 는 각각의 프레임 F에 대해 대각선 매트릭스로서 정의되며 그 대각선 매트릭스는 엘리먼트들 을 갖는다. 시간에 대한(즉, 프레임에 대한) 믹싱 매트릭스의 위상 변화는 현재의 가중화된 중간 믹싱 매트릭스 및 이전의 프레임의 가중화된 결과 믹싱 매트릭스 를 비교하는 것에 의해 측정되며 이는 다음과 같다:
중간 믹싱 매트릭스의 측정된 위성 변화가 프로세싱되어 중간 믹싱 매트릭스 Mint에 대해 적용되는 위상-수정 파라미터(phase-modification parameter)가 획득되며, 이로써 가 결정된다(정규화된 위상 정렬 계수 매트릭스 과 대등함):
에너지 스케일링이 믹싱 매트릭스에 적용되어 최종 위상 정렬 믹싱 매트릭스 가 획득된다. 이고 (·)H는 공액 전치 연산자(conjugate transpose operator)를 나타내고 ,
여기서 극대값(limit)들은 Smax = 100.4 그리고 Smin = 10-0.5로 정의되고, 최종 위상 정렬 믹싱 매트릭스 엘리먼트들은 다음과 같다.
추가적인 단계에서, 출력 데이터가 계산될 수 있다. 현재 프레임 F에 대한 출력 신호들은 동일한 복소값으로된 (complex valued) 다운믹스 매트릭스 를 윈도잉된 입력 데이터 벡터 의 모든 2Ln 시간 슬롯들 n에 적용함으로써 계산된다:
이제, F/T 변환(하이브리드 QMF 합성)이 수행될 수 있다. 이전에 설명한 프로세싱 단계들은 각각의 하이브리드 QMF 대역 k에 대해 독립적으로 수행되어야만 했음을 주목해야 한다. 이하의 공식들에서는 대역 인덱스 k가 다시 도입된다, 즉 이다. 하이브리드 QMF 주파수 도메인 출력 신호 는 출력 채널 B마다 길이 L의 시간 도메인 샘플들의 Nout-채널 시간 도메인 신호 프레임으로 변환되고, 최종 시간 도메인 출력 신호 는 다음과 같이 도출된다.
하이브리드 합성 는 ISO/IEC 14496-3:2009의 도 8.21에서 정의된 바와 같이 수행될 수 있다, 다시 말해, 3개의 최하위 QMF 서브대역들의 서브-서브대역들을 합함으로써 64 대역 QMF 표현의 3개의 최하위 QMF 서브밴드들이 획득된다. 그러나, ISO/IEC 14496-3:2009의 도 8.21에 나타난 프로세싱은 (6,2,2) 하위 주파수 분열 대신에, (8,4,4) 하위 주파수 밴드 분열에 적용되어야만 한다.
만약, 출력 라우드스피커 위치들이 반지름에서 상이하다면(즉, 만약 trimA가 모든 출력 채널들 A에 대해 동일하지 않다면), 초기화에서 도출된 보상 파라미터들이 출력 신호들에 적용될 수 있다. 출력 채널 A의 신호는 시간 지연 샘플들만큼 지연될 수 있고 그 신호는 또한 선형 이득 이 곱해질 수 있다.
디코더 및 인코더에 대해 그리고 설명한 실시예들의 방법에 대해 다음과 같은 내용이 언급된다:
일부 관점들이 장치의 맥락에서 설명되었음에도 불구하고, 이러한 관점들은 또한 대응하는 방법의 설명으로 표현된다는 것은 명백하며, 블록 또는 디바이스가 방법 단계 또는 방법 단계의 특징에 대응하게 된다. 비슷하게, 방법 단계의 맥락으로 설명된 관점들은 또한 대응하는 대응하는 장치의 블록 또는 아이템 또는 특징의 설명으로 표현될 수 있다.
일부 구현 요구에 따라서, 발명의 실시예들은 하드웨어 또는 소프트웨어로 구현될 수 있다. 구현은 디지털 저장 매체를 사용해 수행될 수 있으며, 예를 들어 플로피 디스크, DVD, CD, ROM, PROM, EPROM, EEPROM 또는 플래쉬 메모리 일 수 있고, 전자적으로 판독가능한 제어 신호들이 저장되어 있을 수 있고, 각각의 방법이 수행되는 프로그램가능한 컴퓨터 시스템과 협동할 수 있다(또는 협동이 가능할 수 있다).
본 발명에 따른 일부 실시예들은 전자적으로 판독가능한 제어 신호들을 갖는 데이터 캐리어를 포함하고, 프로그래밍가능한 컴퓨터 시스템과 협동이 가능하며, 본 명세서에서의 방법들 중의 하나가 수행될 수 있다.
일반적으로, 본 발명의 실시예들은 프로그램 코드를 갖는 컴퓨터 프로그램 제품으로서 구현될 수 있고, 프로그램 코드는 컴퓨터 프로그램 제품이 컴퓨터 상에서 실행될 때 방법들 중의 하나를 수행할 수 있다. 프로그램 코드는 예를 들어 기계 판독가능한 캐리어 상에 저장될 수 있다.
다른 실시예들은 본 명세서에서 설명한 방법들 중의 하나를 수행하기 위한 컴퓨터 프로그램을 포함하며, 기계 판독가능한 캐리어 또는 비-일시적 저장 매체에 저장될 수 있다.
디사 말해, 본 방법 발명의 실시예는, 따라서, 컴퓨터 프로그램이 컴퓨터 상에서 실행될 때 본 명세서에서 설명한 방법들 중의 하나를 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램일 수 있다.
본 방법 발명의 추가적인 실시예는, 따라서, 데이터 캐리어(또는 디지털 저장 매체, 또는 컴퓨터-판독가능한 매체)이고, 거기에는 본 명세서에서 설명한 방법들 중의 하나를 수행하기 위한 컴퓨터 프로그램이 기록되어 있을 수 있다.
본 방법 발명의 추가적인 실시예는, 따라서, 본 명세서에서 설명한 방법들 중의 하나를 수행하기 위한 컴퓨터 프로그램을 표현하는 데이터 스트림 또는 신호들의 시퀀스이다. 데이터 스트림 또는 신호들의 시퀀스는 데이터 통신 연결을 통해 전송되도록 구성될 수 있고, 예를 들어 인터넷을 통할 수 있다.
추가적인 실시예는 프로세싱 수단을 포함하고, 예를 들어 본 명세서에서 설명한 방법들 중 하나를 수행하도록 구성되거나 적응된, 컴퓨터 또는 프로그램가능한 로직 디바이스이다.
추가적인 실시예는 본 명세서에서 설명한 방법들 중의 하나를 수행하기 위한 컴퓨터 프로그램이 인스톨된 컴퓨터를 포함한다.
일부 실시예들에서, 프로그래밍가능한 로직 디바이스(예를 들어 필드 프로그래밍가능한 게이트 어레이)가 사용되어 본 명세서에서 설명한 방법들 중의 기능들의 전부 또는 일부가 수행될 수 있다. 일부 실시예들에서, 필드 프로그래밍가능한 게이트 어레이는 마이크로프로세서와 협동할 수 있고 본 명세서에서 설명한 방법들 중의 하나가 수행될 수 있다. 일반적으로, 방법들은 특정 하드웨어 장치들에서 수행될 때 유리할 수 있다.
본 발명이 특정 개수의 실시예들로서 설명되었으나, 본 발명의 범주 내에서는 대안적 실시예들, 치환적 실시예들, 등가적 실시예들이 존재할 수 있다. 본 발명의 방법들 및 구성요소들을 구현하기 위해서는 다양한 대안적인 방식들이 존재한다는 것을 이해해야 한다. 따라서, 이하에서의 특허청구범위는 본 발명의 범주 및 정신 내에서 모든 대안적 실시예들, 치환적 실시예들 및 등가적 실시예들을 포함하는 것으로 해석되어야 할 것이다.
Claims (21)
- 적어도 하나의 주파수 대역(36)을 가지고, 상기 적어도 하나의 주파수 대역(36) 내에서 복수의 입력 채널들(38)을 갖는 입력 오디오 신호(37)를 프로세싱하도록 구성된 오디오 신호 프로세싱 디코더(2)로서,
상기 디코더(2)는:
정렬된 입력 오디오 신호를 생성하기 위하여 입력 채널들(38) 사이의 인터-채널 의존성들(39)(inter-channel dependencies)에 따라서 상기 입력 채널들(38)의 위상들을 정렬하도록 구성되고 ― 상기 입력 채널들(38)의 위상들은 자신들의 인터-채널 의존성(39)이 더 높을수록 서로에 대하여 더 많이 정렬됨 ―;
상기 정렬된 입력 오디오 신호를 상기 입력 채널들(38)의 개수보다 더 적은 개수의 출력 채널들(41)을 갖는 출력 오디오 신호(40)로 다운믹싱하도록 구성되고;
상기 입력 오디오 채널들(38) 사이의 상기 인터-채널 의존성들(39)을 식별하기 위해서 상기 주파수 대역(36) 내에서 상기 입력 오디오 신호(37)를 분석하거나 또는, 상기 입력 오디오 신호(37)를 제공하는, 인코더(1)와 같은, 외부 디바이스로부터 상기 입력 오디오 채널들(38) 사이의 상기 인터-채널 의존성들(39)을 수신하도록 구성되고; 그리고
상기 입력 오디오 신호(37)의 결정된 에너지에 기초하여 상기 출력 오디오 신호(40)의 에너지를 정규화(normalize)하도록 구성되는 ― 상기 디코더(2)는 상기 입력 오디오 신호(37)의 신호 에너지를 결정하거나 또는, 상기 입력 오디오 신호(37)를 제공하는, 인코더(1)와 같은, 외부 디바이스로부터 상기 입력 오디오 신호(37)의 결정된 에너지를 수신하도록 구성됨 ―,
오디오 신호 프로세싱 디코더. - 적어도 하나의 주파수 대역(36)을 가지고, 상기 적어도 하나의 주파수 대역(36) 내에서 복수의 입력 채널들(38)을 갖는 입력 오디오 신호(37)를 프로세싱하도록 구성된 오디오 신호 프로세싱 디코더(2)로서,
상기 디코더(2)는:
정렬된 입력 오디오 신호를 생성하기 위하여 입력 채널들(38) 사이의 인터-채널 의존성들(39)에 따라서 상기 입력 채널들(38)의 위상들을 정렬하도록 구성되고 ― 상기 입력 채널들(38)의 위상들은 자신들의 인터-채널 의존성(39)이 더 높을수록 서로에 대하여 더 많이 정렬됨 ―;
상기 정렬된 입력 오디오 신호를 상기 입력 채널들(38)의 개수보다 더 적은 개수의 출력 채널들(41)을 갖는 출력 오디오 신호(40)로 다운믹싱하도록 구성되고;
상기 입력 오디오 신호(37)의 결정된 에너지에 기초하여 상기 출력 오디오 신호(40)의 에너지를 정규화하도록 구성되고 ― 상기 디코더(2)는 상기 입력 오디오 신호(37)의 신호 에너지를 결정하거나 또는, 상기 입력 오디오 신호(37)를 제공하는, 인코더(1)와 같은, 외부 디바이스로부터 상기 입력 오디오 신호(37)의 결정된 에너지를 수신하도록 구성됨 ―; 그리고
윈도우 함수(window function)를 이용하여 상기 입력 오디오 신호(37)의 시간 간격들(43)을 분석하도록 구성되거나 ― 여기서 상기 인터-채널 의존성들(39)은 각각의 시간 프레임(43)에 대해 결정됨 ― 또는, 상기 입력 오디오 신호(37)를 제공하는, 인코더(1)와 같은, 외부 디바이스로부터 윈도우 함수를 이용하여 상기 입력 오디오 신호(37)의 시간 간격들(43)에 대한 분석을 수신하도록 구성되는 ― 여기서 상기 인터-채널 의존성들(39)은 각각의 시간 프레임(43)에 대해 결정됨 ―,
오디오 신호 프로세싱 디코더. - 적어도 하나의 주파수 대역(36)을 가지고, 상기 적어도 하나의 주파수 대역(36) 내에서 복수의 입력 채널들(38)을 갖는 입력 오디오 신호(37)를 프로세싱하도록 구성된 오디오 신호 프로세싱 디코더(2)로서,
상기 디코더(2)는:
정렬된 입력 오디오 신호를 생성하기 위하여 입력 채널들(38) 사이의 인터-채널 의존성들(39)에 따라서 상기 입력 채널들(38)의 위상들을 정렬하도록 구성되고 ― 상기 입력 채널들(38)의 위상들은 자신들의 인터-채널 의존성(39)이 더 높을수록 서로에 대하여 더 많이 정렬됨 ―;
상기 정렬된 입력 오디오 신호를 상기 입력 채널들(38)의 개수보다 더 적은 개수의 출력 채널들(41)을 갖는 출력 오디오 신호(40)로 다운믹싱하도록 구성되고;
매핑 함수(f(c'i,j), TA,B)를 공분산 값 매트릭스(C, Cy)에 적용함으로써 또는 상기 공분산 값 매트릭스(C, Cy)로부터 도출되는 매트릭스(C')에 적용함으로써 인력 값(attraction value) 매트릭스(A,P)를 수립(establish)하도록 구성되거나, 또는 매핑 함수(f(c'i,j), TA,B)를 공분산 값 매트릭스(C, Cy)에 적용함으로써 또는 상기 공분산 값 매트릭스(C, Cy)로부터 도출되는 매트릭스(C')에 적용함으로써 수립되는 인력 값 매트릭스(A,P)를 수신하도록 구성되고;
상기 매핑 함수(f(c'i,j), TA,B)는 제 1 매핑 임계값보다 작은 공분산 값들(ci,j , Cy,A,B) 또는 상기 공분산 값들(ci,j , Cy,A,B)로부터 도출되는 값들(c'i,j , ICCA,B)에 대해 제로(0)와 동일하고, 그리고/또는, 상기 매핑 함수(f(c'i,j), TA,B)는 제 2 매핑 임계값보다 큰 공분산 값들(ci,j , Cy,A,B) 또는 상기 공분산 값들(ci,j , Cy,A,B)로부터 도출되는 값들(c'i,j , ICCA,B)에 대해 일(one)과 동일하고, 그리고/또는, 상기 매핑 함수(f(c'i,j), TA,B)는 상기 제 1 매핑 임계값보다 크고 상기 제 2 매핑 임계값보다 작은 공분산 값들(ci,j , Cy,A,B) 또는 상기 공분산 값들(ci,j , Cy,A,B)로부터 도출되는 값들(c'i,j , ICCA,B)에 대해 제로 및 일 사이에 있는,
오디오 신호 프로세싱 디코더. - 적어도 하나의 주파수 대역(36)을 가지고, 비트스트림(7)을 출력하도록 구성된 오디오 신호 프로세싱 인코더로서,
상기 비트스트림(7)은 상기 주파수 대역(36)에서 인코딩된 오디오 신호(37)를 포함하고, 상기 인코딩된 오디오 신호(37)는 상기 적어도 하나의 주파수 대역(36) 내에서 복수의 인코딩된 채널들(38)을 가지고,
상기 인코더(1)는:
상기 인코딩된 오디오 신호(37)의 상기 인코딩된 채널들(38) 사이의 인터-채널 의존성들(39)을 결정하고 상기 비트스트림(7) 내에서 상기 인터-채널 의존성들(39)을 출력하도록 구성되고; 그리고/또는
상기 인코딩된 오디오 신호(37)의 에너지를 결정하고 상기 비트스트림(7) 내에서 상기 인코딩된 오디오 신호(37)의 결정된 에너지를 출력하도록 구성되고; 그리고/또는
상기 인코딩된 채널들(38)의 위상들이 인터-채널 의존성들(39)에 기초하여 정렬되는 방식으로 다운믹스 매트릭스(M, MPA)에 기초하여 상기 인코딩된 오디오 신호(37)를 다운믹싱하기 위한 다운믹서(3)에 대해 상기 다운믹스 매트릭스(M, MPA)를 계산하도록 구성되고; 그리고/또는
윈도우 함수를 이용하여 상기 인코딩된 오디오 신호(37)의 시간 간격들(43)을 분석하고, 비트스트림(7) 내에서 각각의 시간 프레임(43)에 대해 상기 인터-채널 의존성들(39)을 출력하도록 구성되고 ― 여기서 상기 인터-채널 의존성들(39)은 각각의 시간 프레임(43)에 대해 결정됨 ―; 그리고/또는
공분산 값 매트릭스(C, Cy)를 계산하고, 비트스트림(7) 내에서 상기 공분산 값 매트릭스(C, Cy)를 출력하도록 구성되고 ― 여기서 공분산 값들(ci,j)은 한쌍의 인코딩된 오디오 채널들(38)의 인터-채널 의존성(39)을 나타냄 ―; 그리고/또는
매핑 함수(f(c'i,j), TA,B)를 상기 공분산 값 매트릭스(C, Cy)에 적용함으로써 또는 상기 공분산 값 매트릭스(C, Cy)로부터 도출되는 매트릭스(C')에 적용함으로써 인력 값 매트릭스(A,P)를 수립(establish)하고 비트스트림(7) 내에서 상기 인력 값 매트릭스(A,P)를 출력하도록 구성되고; 그리고/또는
위상 정렬 계수 매트릭스(V, Mint)를 계산하도록 구성되고 ― 여기서 상기 위상 정렬 계수 매트릭스(V, Mint)는 상기 공분산 값 매트릭스(C, Cy)에 기초하고 그리고 원형(prototype) 다운믹스 매트릭스(Q, MDMX)에 기초함 ―; 그리고/또는
상기 위상 정렬 계수 매트릭스(V)에 기초하여 규칙화된(regularized) 위상 정렬 계수 매트릭스()를 수립하고 비트스트림(7) 내에서 상기 규칙화된 위상 정렬 계수 매트릭스()를 출력하도록 구성되는,
오디오 신호 프로세싱 인코더. - 시스템으로서,
적어도 하나의 주파수 대역(36)을 가지고, 비트스트림(7)을 출력하도록 구성되는 오디오 신호 프로세싱 인코더(1) ― 상기 비트스트림(7)은 상기 주파수 대역(36)에서 인코딩된 오디오 신호(37)를 포함하고, 상기 인코딩된 오디오 신호(37)는 상기 적어도 하나의 주파수 대역(36) 내에서 복수의 인코딩된 채널들(38)을 가짐 ―; 및
상기 적어도 하나의 주파수 대역(36) 내에서 복수의 입력 채널들(38)을 갖는 입력 오디오 신호(37)로서 상기 인코딩된 오디오 신호(37)를 프로세싱하도록 구성되는 오디오 신호 프로세싱 디코더(2)를 포함하며,
상기 인코더(1)는,
상기 인코딩된 오디오 신호(37)의 상기 인코딩된 채널들(38) 사이의 인터-채널 의존성들(39)을 결정하고 상기 비트스트림(7) 내에서 상기 인터-채널 의존성들(39)을 출력하도록 구성되고,
상기 디코더(2)는,
상기 인코더(1)로부터 입력 채널들(38) 사이의 인터-채널 의존성들(39)을 수신하도록 구성되고,
상기 입력 채널들(38) 사이의 인터-채널 의존성들(39)에 따라서 상기 입력 채널들(38)의 위상들을 정렬하도록 구성되고 ― 상기 입력 채널들(38)의 위상들은 자신들의 인터-채널 의존성(39)이 더 높을수록 서로에 대하여 더 많이 정렬됨 ―, 그리고
상기 정렬된 입력 오디오 신호를 상기 입력 채널들(38)의 개수보다 더 적은 개수의 출력 채널들(41)을 갖는 출력 오디오 신호(40)로 다운믹싱하도록 구성되는,
시스템. - 시스템으로서,
적어도 하나의 주파수 대역(36)을 가지고, 비트스트림(7)을 출력하도록 구성되는 오디오 신호 프로세싱 인코더(1) ― 상기 비트스트림(7)은 상기 주파수 대역(36)에서 인코딩된 오디오 신호(37)를 포함하고, 상기 인코딩된 오디오 신호(37)는 상기 적어도 하나의 주파수 대역(36) 내에서 복수의 인코딩된 채널들(38)을 가짐 ―; 및
상기 적어도 하나의 주파수 대역(36) 내에서 복수의 입력 채널들(38)을 갖는 입력 오디오 신호(37)로서 상기 인코딩된 오디오 신호(37)를 프로세싱하도록 구성되는 오디오 신호 프로세싱 디코더(2)를 포함하며,
상기 인코더(1)는 상기 인코딩된 오디오 신호(37)의 에너지를 결정하고 상기 비트스트림(7) 내에서 상기 인코딩된 오디오 신호(37)의 결정된 에너지를 출력하도록 구성되고,
상기 디코더(2)는,
상기 입력 채널들(38) 사이의 인터-채널 의존성들(39)에 따라서 상기 입력 채널들(38)의 위상들을 정렬하도록 구성되고 ― 상기 입력 채널들(38)의 위상들은 자신들의 인터-채널 의존성(39)이 더 높을수록 서로에 대하여 더 많이 정렬됨 ―,
상기 정렬된 입력 오디오 신호를 상기 입력 채널들(38)의 개수보다 더 적은 개수의 출력 채널들(41)을 갖는 출력 오디오 신호(40)로 다운믹싱하도록 구성되고, 그리고
상기 입력 오디오 신호(37)의 결정된 에너지에 기초하여 상기 출력 오디오 신호(40)의 에너지를 정규화하도록 구성되는 ― 상기 디코더(2)는 상기 인코더(1)로부터 상기 입력 오디오 신호(37)의 결정된 에너지로서 상기 인코딩된 오디오 신호(37)의 결정된 에너지를 수신하도록 구성됨 ―,
시스템. - 시스템으로서,
적어도 하나의 주파수 대역(36)을 가지고, 비트스트림(7)을 출력하도록 구성되는 오디오 신호 프로세싱 인코더(1) ― 상기 비트스트림(7)은 상기 주파수 대역(36)에서 인코딩된 오디오 신호(37)를 포함하고, 상기 인코딩된 오디오 신호(37)는 상기 적어도 하나의 주파수 대역(36) 내에서 복수의 인코딩된 채널들(38)을 가짐 ―; 및
상기 적어도 하나의 주파수 대역(36) 내에서 복수의 입력 채널들(38)을 갖는 입력 오디오 신호(37)로서 상기 인코딩된 오디오 신호(37)를 프로세싱하도록 구성되는 오디오 신호 프로세싱 디코더(2) ― 상기 디코더는 다운믹스 매트릭스(M, MPA)에 기초하여 상기 입력 오디오 신호를 다운믹싱하기 위한 다운믹서를 포함함 ―
를 포함하며,
상기 인코더(1)는 상기 인코딩된 채널들(38)의 위상들이 식별된 인터-채널 의존성들(39)에 기초하여 정렬되는 방식으로 상기 다운믹스 매트릭스(M, MPA)에 기초하여 상기 인코딩된 오디오 신호(37)를 다운믹싱하기 위한 다운믹서(3)에 대해 상기 다운믹스 매트릭스(M, MPA)를 계산하고, 상기 비트스트림(7) 내에서 상기 다운믹스 매트릭스(M, MPA)를 출력하도록 구성되며,
상기 디코더(2)는,
상기 입력 채널들(38) 사이의 인터-채널 의존성들(39)에 따라서 상기 입력 채널들(38)의 위상들을 정렬하도록 구성되고 ― 상기 입력 채널들(38)의 위상들은 자신들의 인터-채널 의존성(39)이 더 높을수록 서로에 대하여 더 많이 정렬됨 ―,
상기 정렬된 입력 오디오 신호를 상기 입력 채널들(38)의 개수보다 더 적은 개수의 출력 채널들(41)을 갖는 출력 오디오 신호(40)로 다운믹싱하도록 구성되고, 그리고
상기 입력 채널들(38)의 위상들이 상기 식별된 인터-채널 의존성들(39)에 기초하여 정렬되는 방식으로 계산된 다운믹스 매트릭스(M, MPA)를 상기 인코더(1)로부터 수신하도록 구성되는,
시스템. - 제 7 항에 있어서,
상기 인코더(1)는,
상기 다운믹서의 출력 오디오 신호(41)의 에너지가 상기 인코딩된 오디오 신호(37)의 결정된 에너지에 기초하여 정규화되는 방식으로 상기 인코딩된 채널들(38)의 위상들이 식별된 인터-채널 의존성들(39)에 기초하여 정렬되는 방식으로 상기 다운믹스 매트릭스(M, MPA)에 기초하여 상기 인코딩된 오디오 신호(37)를 다운믹싱하기 위한 다운믹서(3)에 대해 상기 다운믹스 매트릭스(M, MPA)를 계산하도록 구성되고,
상기 디코더(2)는,
상기 출력 오디오 신호의 에너지가 상기 입력 오디오 신호(37)의 결정된 에너지에 기초하여 정규화되는 방식으로 계산된 상기 다운믹스 매트릭스(M, MPA)를 상기 인코더로부터 수신하도록 구성되는,
시스템. - 시스템으로서,
적어도 하나의 주파수 대역(36)을 가지고, 비트스트림(7)을 출력하도록 구성되는 오디오 신호 프로세싱 인코더(1) ― 상기 비트스트림(7)은 상기 주파수 대역(36)에서 인코딩된 오디오 신호(37)를 포함하고, 상기 인코딩된 오디오 신호(37)는 상기 적어도 하나의 주파수 대역(36) 내에서 복수의 인코딩된 채널들(38)을 가짐 ―; 및
상기 적어도 하나의 주파수 대역(36) 내에서 복수의 입력 채널들(38)을 갖는 입력 오디오 신호(37)로서 상기 인코딩된 오디오 신호(37)를 프로세싱하도록 구성되는 오디오 신호 프로세싱 디코더(2)를 포함하고,
상기 인코더(1)는,
윈도우 함수를 이용하여 상기 인코딩된 오디오 신호(37)의 시간 간격들(43)을 분석하고, 비트스트림(7) 내에서 각각의 시간 프레임(43)에 대해 인터-채널 의존성들(39)을 출력하도록 구성되고 ― 여기서 상기 인터-채널 의존성들(39)은 각각의 시간 프레임(43)에 대해 결정됨 ―,
상기 디코더(2)는,
상기 입력 채널들(38) 사이의 인터-채널 의존성들(39)에 따라서 상기 입력 채널들(38)의 위상들을 정렬하도록 구성되고 ― 상기 입력 채널들(38)의 위상들은 자신들의 인터-채널 의존성(39)이 더 높을수록 서로에 대하여 더 많이 정렬됨 ―,
상기 정렬된 입력 오디오 신호를 상기 입력 채널들(38)의 개수보다 더 적은 개수의 출력 채널들(41)을 갖는 출력 오디오 신호(40)로 다운믹싱하도록 구성되고, 그리고
인코더(1)로부터 윈도우 함수를 이용하여 상기 입력 오디오 신호(37)의 시간 간격들(43)에 대한 분석을 수신하도록 구성되는 ― 여기서 상기 인터-채널 의존성들(39)은 각각의 시간 프레임(43)에 대해 결정됨 ―,
시스템. - 시스템으로서,
적어도 하나의 주파수 대역(36)을 가지고, 비트스트림(7)을 출력하도록 구성되는 오디오 신호 프로세싱 인코더(1) ― 상기 비트스트림(7)은 상기 주파수 대역(36)에서 인코딩된 오디오 신호(37)를 포함하고, 상기 인코딩된 오디오 신호(37)는 상기 적어도 하나의 주파수 대역(36) 내에서 복수의 인코딩된 채널들(38)을 가짐 ―; 및
상기 적어도 하나의 주파수 대역(36) 내에서 복수의 입력 채널들(38)을 갖는 입력 오디오 신호(37)로서 상기 인코딩된 오디오 신호(37)를 프로세싱하도록 구성되는 오디오 신호 프로세싱 디코더(2)를 포함하고,
상기 인코더(1)는,
공분산 값 매트릭스(C, Cy)를 계산하고, 비트스트림(7) 내에서 상기 공분산 값 매트릭스(C, Cy)를 출력하도록 구성되고 ― 여기서 공분산 값들(ci,j)은 한쌍의 인코딩된 오디오 채널들(38)의 인터-채널 의존성(39)을 나타냄 ―,
상기 디코더(2)는,
상기 입력 채널들(38) 사이의 인터-채널 의존성들(39)에 따라서 상기 입력 채널들(38)의 위상들을 정렬하도록 구성되고 ― 상기 입력 채널들(38)의 위상들은 자신들의 인터-채널 의존성(39)이 더 높을수록 서로에 대하여 더 많이 정렬됨 ―,
상기 정렬된 입력 오디오 신호를 상기 입력 채널들(38)의 개수보다 더 적은 개수의 출력 채널들(41)을 갖는 출력 오디오 신호(40)로 다운믹싱하도록 구성되고, 그리고
상기 인코더(1)로부터 상기 공분산 값 매트릭스(C, Cy)를 수신하도록 구성되는 ― 여기서 공분산 값들(ci,j,Cy,A,B)은 한쌍의 입력 오디오 채널들(38)의 인터-채널 의존성(39)을 나타냄 ―,
시스템. - 시스템으로서,
적어도 하나의 주파수 대역(36)을 가지고, 비트스트림(7)을 출력하도록 구성되는 오디오 신호 프로세싱 인코더(1) ― 상기 비트스트림(7)은 상기 주파수 대역(36)에서 인코딩된 오디오 신호(37)를 포함하고, 상기 인코딩된 오디오 신호(37)는 상기 적어도 하나의 주파수 대역(36) 내에서 복수의 인코딩된 채널들(38)을 가짐 ―; 및
상기 적어도 하나의 주파수 대역(36) 내에서 복수의 입력 채널들(38)을 갖는 입력 오디오 신호(37)로서 상기 인코딩된 오디오 신호(37)를 프로세싱하도록 구성되는 오디오 신호 프로세싱 디코더(2)를 포함하고,
상기 인코더(1)는,
매핑 함수(f(c'i,j), TA,B)를 공분산 값 매트릭스(C, Cy)에 적용함으로써 또는 상기 공분산 값 매트릭스(C, Cy)로부터 도출되는 매트릭스(C')에 적용함으로써 인력 값 매트릭스(A,P)를 수립하고 상기 비트스트림(7) 내에서 상기 인력 값 매트릭스(A,P)를 출력하도록 구성되고,
상기 디코더(2)는,
상기 입력 채널들(38) 사이의 인터-채널 의존성들(39)에 따라서 상기 입력 채널들(38)의 위상들을 정렬하도록 구성되고 ― 상기 입력 채널들(38)의 위상들은 자신들의 인터-채널 의존성(39)이 더 높을수록 서로에 대하여 더 많이 정렬됨 ―,
상기 정렬된 입력 오디오 신호를 상기 입력 채널들(38)의 개수보다 더 적은 개수의 출력 채널들(41)을 갖는 출력 오디오 신호(40)로 다운믹싱하도록 구성되고, 그리고
매핑 함수(f(c'i,j), TA,B)를 공분산 값 매트릭스(C, Cy)에 적용함으로써 또는 상기 공분산 값 매트릭스(C, Cy)로부터 도출되는 매트릭스(C')에 적용함으로써 수립되는 인력 값 매트릭스(A,P)를 상기 인코더(1)로부터 수신하도록 구성되는,
시스템. - 시스템으로서,
적어도 하나의 주파수 대역(36)을 가지고, 비트스트림(7)을 출력하도록 구성되는 오디오 신호 프로세싱 인코더(1) ― 상기 비트스트림(7)은 상기 주파수 대역(36)에서 인코딩된 오디오 신호(37)를 포함하고, 상기 인코딩된 오디오 신호(37)는 상기 적어도 하나의 주파수 대역(36) 내에서 복수의 인코딩된 채널들(38)을 가짐 ―; 및
상기 적어도 하나의 주파수 대역(36) 내에서 복수의 입력 채널들(38)을 갖는 입력 오디오 신호(37)로서 상기 인코딩된 오디오 신호(37)를 프로세싱하도록 구성되는 오디오 신호 프로세싱 디코더(2)를 포함하고,
상기 인코더(1)는,
위상 정렬 계수 매트릭스(V, Mint)를 계산하고 ― 여기서 상기 위상 정렬 계수 매트릭스(V, Mint)는 공분산 값 매트릭스(C, Cy)에 기초하고 그리고 원형 다운믹스 매트릭스(Q, MDMX)에 기초함 ―, 상기 위상 정렬 계수 매트릭스(V, Mint)를 출력하도록 구성되고,
상기 디코더(2)는,
상기 입력 채널들(38) 사이의 인터-채널 의존성들(39)에 따라서 상기 입력 채널들(38)의 위상들을 정렬하도록 구성되고 ― 상기 입력 채널들(38)의 위상들은 자신들의 인터-채널 의존성(39)이 더 높을수록 서로에 대하여 더 많이 정렬됨 ―,
상기 정렬된 입력 오디오 신호를 상기 입력 채널들(38)의 개수보다 더 적은 개수의 출력 채널들(41)을 갖는 출력 오디오 신호(40)로 다운믹싱하도록 구성되고, 그리고
상기 인코더(1)로부터 상기 위상 정렬 계수 매트릭스(V, Mint)를 수신하도록 구성되는 ― 여기서 상기 위상 정렬 계수 매트릭스(V, Mint)는 상기 공분산 값 매트릭스(C, Cy)에 기초하고 그리고 상기 원형 다운믹스 매트릭스(Q, MDMX)에 기초함 ―,
시스템. - 시스템으로서,
적어도 하나의 주파수 대역(36)을 가지고, 비트스트림(7)을 출력하도록 구성되는 오디오 신호 프로세싱 인코더(1) ― 상기 비트스트림(7)은 상기 주파수 대역(36)에서 인코딩된 오디오 신호(37)를 포함하고, 상기 인코딩된 오디오 신호(37)는 상기 적어도 하나의 주파수 대역(36) 내에서 복수의 인코딩된 채널들(38)을 가짐 ―; 및
상기 적어도 하나의 주파수 대역(36) 내에서 복수의 입력 채널들(38)을 갖는 입력 오디오 신호(37)로서 상기 인코딩된 오디오 신호(37)를 프로세싱하도록 구성되는 오디오 신호 프로세싱 디코더(2)를 포함하고,
상기 인코더(1)는,
위상 정렬 계수 매트릭스(V)에 기초하여 규칙화된 위상 정렬 계수 매트릭스()를 수립하고 상기 비트스트림(7) 내에서 상기 규칙화된 위상 정렬 계수 매트릭스()를 출력하도록 구성되며,
상기 디코더(2)는,
상기 입력 채널들(38) 사이의 인터-채널 의존성들(39)에 따라서 상기 입력 채널들(38)의 위상들을 정렬하도록 구성되고 ― 상기 입력 채널들(38)의 위상들은 자신들의 인터-채널 의존성(39)이 더 높을수록 서로에 대하여 더 많이 정렬됨 ―,
상기 정렬된 입력 오디오 신호를 상기 입력 채널들(38)의 개수보다 더 적은 개수의 출력 채널들(41)을 갖는 출력 오디오 신호(40)로 다운믹싱하도록 구성되고, 그리고
상기 인코더(1)로부터 상기 위상 정렬 계수 매트릭스(V, Mint)에 기초하는 상기 규칙화된 위상 정렬 계수 매트릭스()를 수신하도록 구성되는,
시스템. - 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP13177358.2 | 2013-07-22 | ||
EP13177358 | 2013-07-22 | ||
EP13189287.9A EP2838086A1 (en) | 2013-07-22 | 2013-10-18 | In an reduction of comb filter artifacts in multi-channel downmix with adaptive phase alignment |
EP13189287.9 | 2013-10-18 | ||
PCT/EP2014/065537 WO2015011057A1 (en) | 2013-07-22 | 2014-07-18 | In an reduction of comb filter artifacts in multi-channel downmix with adaptive phase alignment |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020167004624A Division KR101835239B1 (ko) | 2013-07-22 | 2014-07-18 | 적응적 위상 정렬을 갖는 멀티-채널 다운믹스에서의 콤 필터 아티팩트의 감소 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20180027607A KR20180027607A (ko) | 2018-03-14 |
KR101943601B1 true KR101943601B1 (ko) | 2019-04-17 |
Family
ID=48874132
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020187005780A KR101943601B1 (ko) | 2013-07-22 | 2014-07-18 | 적응적 위상 정렬을 갖는 멀티-채널 다운믹스에서의 콤 필터 아티팩트의 감소 |
KR1020167004624A KR101835239B1 (ko) | 2013-07-22 | 2014-07-18 | 적응적 위상 정렬을 갖는 멀티-채널 다운믹스에서의 콤 필터 아티팩트의 감소 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020167004624A KR101835239B1 (ko) | 2013-07-22 | 2014-07-18 | 적응적 위상 정렬을 갖는 멀티-채널 다운믹스에서의 콤 필터 아티팩트의 감소 |
Country Status (18)
Country | Link |
---|---|
US (2) | US10360918B2 (ko) |
EP (2) | EP2838086A1 (ko) |
JP (1) | JP6279077B2 (ko) |
KR (2) | KR101943601B1 (ko) |
CN (2) | CN111862997A (ko) |
AR (1) | AR097001A1 (ko) |
AU (1) | AU2014295167B2 (ko) |
BR (1) | BR112016001003B1 (ko) |
CA (1) | CA2918874C (ko) |
ES (1) | ES2687952T3 (ko) |
MX (1) | MX359163B (ko) |
PL (1) | PL3025336T3 (ko) |
PT (1) | PT3025336T (ko) |
RU (1) | RU2678161C2 (ko) |
SG (1) | SG11201600393VA (ko) |
TW (1) | TWI560702B (ko) |
WO (1) | WO2015011057A1 (ko) |
ZA (1) | ZA201601112B (ko) |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108806706B (zh) | 2013-01-15 | 2022-11-15 | 韩国电子通信研究院 | 处理信道信号的编码/解码装置及方法 |
WO2014112793A1 (ko) | 2013-01-15 | 2014-07-24 | 한국전자통신연구원 | 채널 신호를 처리하는 부호화/복호화 장치 및 방법 |
EP2830052A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder, audio encoder, method for providing at least four audio channel signals on the basis of an encoded representation, method for providing an encoded representation on the basis of at least four audio channel signals and computer program using a bandwidth extension |
EP2838086A1 (en) * | 2013-07-22 | 2015-02-18 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | In an reduction of comb filter artifacts in multi-channel downmix with adaptive phase alignment |
KR102160254B1 (ko) * | 2014-01-10 | 2020-09-25 | 삼성전자주식회사 | 액티브다운 믹스 방식을 이용한 입체 음향 재생 방법 및 장치 |
JP6921832B2 (ja) * | 2016-02-03 | 2021-08-18 | ドルビー・インターナショナル・アーベー | オーディオ符号化における効率的なフォーマット変換 |
US10217467B2 (en) * | 2016-06-20 | 2019-02-26 | Qualcomm Incorporated | Encoding and decoding of interchannel phase differences between audio signals |
WO2018013959A1 (en) * | 2016-07-15 | 2018-01-18 | Sonos, Inc. | Spectral correction using spatial calibration |
CN107731238B (zh) | 2016-08-10 | 2021-07-16 | 华为技术有限公司 | 多声道信号的编码方法和编码器 |
CN107895580B (zh) * | 2016-09-30 | 2021-06-01 | 华为技术有限公司 | 一种音频信号的重建方法和装置 |
US10362423B2 (en) | 2016-10-13 | 2019-07-23 | Qualcomm Incorporated | Parametric audio decoding |
CA3045847C (en) | 2016-11-08 | 2021-06-15 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Downmixer and method for downmixing at least two channels and multichannel encoder and multichannel decoder |
EP3539126B1 (en) | 2016-11-08 | 2020-09-30 | Fraunhofer Gesellschaft zur Förderung der Angewand | Apparatus and method for downmixing or upmixing a multichannel signal using phase compensation |
CN109427338B (zh) * | 2017-08-23 | 2021-03-30 | 华为技术有限公司 | 立体声信号的编码方法和编码装置 |
EP3550561A1 (en) | 2018-04-06 | 2019-10-09 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Downmixer, audio encoder, method and computer program applying a phase value to a magnitude value |
CN110660400B (zh) * | 2018-06-29 | 2022-07-12 | 华为技术有限公司 | 立体声信号的编码、解码方法、编码装置和解码装置 |
KR20220042165A (ko) | 2019-08-01 | 2022-04-04 | 돌비 레버러토리즈 라이쎈싱 코오포레이션 | 공분산 평활화를 위한 시스템 및 방법 |
EP4052256A1 (en) * | 2019-10-30 | 2022-09-07 | Dolby Laboratories Licensing Corporation | Bitrate distribution in immersive voice and audio services |
CN113518227B (zh) * | 2020-04-09 | 2023-02-10 | 于江鸿 | 数据处理的方法和系统 |
GB2626953A (en) * | 2023-02-08 | 2024-08-14 | Nokia Technologies Oy | Audio rendering of spatial audio |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110255588A1 (en) | 2010-04-17 | 2011-10-20 | Samsung Electronics Co., Ltd. | Apparatus and method for encoding and decoding multichannel signal |
Family Cites Families (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040042504A1 (en) * | 2002-09-03 | 2004-03-04 | Khoury John Michael | Aligning data bits in frequency synchronous data channels |
WO2007109338A1 (en) * | 2006-03-21 | 2007-09-27 | Dolby Laboratories Licensing Corporation | Low bit rate audio encoding and decoding |
US20090299756A1 (en) * | 2004-03-01 | 2009-12-03 | Dolby Laboratories Licensing Corporation | Ratio of speech to non-speech audio such as for elderly or hearing-impaired listeners |
ATE527654T1 (de) | 2004-03-01 | 2011-10-15 | Dolby Lab Licensing Corp | Mehrkanal-audiodecodierung |
CN1942929A (zh) * | 2004-04-05 | 2007-04-04 | 皇家飞利浦电子股份有限公司 | 多信道编码器 |
JP2006050241A (ja) * | 2004-08-04 | 2006-02-16 | Matsushita Electric Ind Co Ltd | 復号化装置 |
US7966190B2 (en) | 2005-07-11 | 2011-06-21 | Lg Electronics Inc. | Apparatus and method for processing an audio signal using linear prediction |
AU2009221443B2 (en) | 2008-03-04 | 2012-01-12 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus for mixing a plurality of input data streams |
KR101230479B1 (ko) | 2008-03-10 | 2013-02-06 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 트랜지언트 이벤트를 갖는 오디오 신호를 조작하기 위한 장치 및 방법 |
EP3296992B1 (en) * | 2008-03-20 | 2021-09-22 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for modifying a parameterized representation |
JP5383676B2 (ja) * | 2008-05-30 | 2014-01-08 | パナソニック株式会社 | 符号化装置、復号装置およびこれらの方法 |
CN101604983B (zh) * | 2008-06-12 | 2013-04-24 | 华为技术有限公司 | 编解码装置、系统及其方法 |
JP5608660B2 (ja) * | 2008-10-10 | 2014-10-15 | テレフオンアクチーボラゲット エル エム エリクソン(パブル) | エネルギ保存型マルチチャネルオーディオ符号化 |
US8698612B2 (en) * | 2009-01-05 | 2014-04-15 | Gordon Toll | Apparatus and method for defining a safety zone using a radiation source for a vehicle |
EP2214161A1 (en) * | 2009-01-28 | 2010-08-04 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method and computer program for upmixing a downmix audio signal |
WO2010097748A1 (en) * | 2009-02-27 | 2010-09-02 | Koninklijke Philips Electronics N.V. | Parametric stereo encoding and decoding |
US8666752B2 (en) * | 2009-03-18 | 2014-03-04 | Samsung Electronics Co., Ltd. | Apparatus and method for encoding and decoding multi-channel signal |
WO2010105695A1 (en) * | 2009-03-20 | 2010-09-23 | Nokia Corporation | Multi channel audio coding |
CN101533641B (zh) * | 2009-04-20 | 2011-07-20 | 华为技术有限公司 | 对多声道信号的声道延迟参数进行修正的方法和装置 |
WO2011039668A1 (en) * | 2009-09-29 | 2011-04-07 | Koninklijke Philips Electronics N.V. | Apparatus for mixing a digital audio |
AU2010303039B9 (en) | 2009-09-29 | 2014-10-23 | Dolby International Ab | Audio signal decoder, audio signal encoder, method for providing an upmix signal representation, method for providing a downmix signal representation, computer program and bitstream using a common inter-object-correlation parameter value |
KR101641685B1 (ko) | 2010-03-29 | 2016-07-22 | 삼성전자주식회사 | 멀티채널 오디오의 다운믹스 방법 및 장치 |
WO2012006770A1 (en) | 2010-07-12 | 2012-01-19 | Huawei Technologies Co., Ltd. | Audio signal generator |
ES2655275T3 (es) | 2010-07-14 | 2018-02-19 | Guangdong Shengyi Sci. Tech Co., Ltd | Material compuesto y sustrato de circuito de alta frecuencia fabricado con el material compuesto y el método de fabricación del mismo |
BR112013004362B1 (pt) * | 2010-08-25 | 2020-12-01 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | aparelho para a geração de um sinal descorrelacionado utilizando informação de fase transmitida |
US9311923B2 (en) * | 2011-05-19 | 2016-04-12 | Dolby Laboratories Licensing Corporation | Adaptive audio processing based on forensic detection of media processing history |
EP2838086A1 (en) * | 2013-07-22 | 2015-02-18 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | In an reduction of comb filter artifacts in multi-channel downmix with adaptive phase alignment |
-
2013
- 2013-10-18 EP EP13189287.9A patent/EP2838086A1/en not_active Withdrawn
-
2014
- 2014-07-18 WO PCT/EP2014/065537 patent/WO2015011057A1/en active Application Filing
- 2014-07-18 RU RU2016105741A patent/RU2678161C2/ru active
- 2014-07-18 AU AU2014295167A patent/AU2014295167B2/en active Active
- 2014-07-18 JP JP2016528469A patent/JP6279077B2/ja active Active
- 2014-07-18 MX MX2016000909A patent/MX359163B/es active IP Right Grant
- 2014-07-18 PL PL14748143T patent/PL3025336T3/pl unknown
- 2014-07-18 KR KR1020187005780A patent/KR101943601B1/ko active IP Right Grant
- 2014-07-18 BR BR112016001003-5A patent/BR112016001003B1/pt active IP Right Grant
- 2014-07-18 PT PT14748143T patent/PT3025336T/pt unknown
- 2014-07-18 CA CA2918874A patent/CA2918874C/en active Active
- 2014-07-18 CN CN202010573675.0A patent/CN111862997A/zh active Pending
- 2014-07-18 KR KR1020167004624A patent/KR101835239B1/ko active IP Right Grant
- 2014-07-18 CN CN201480041810.XA patent/CN105518775B/zh active Active
- 2014-07-18 EP EP14748143.6A patent/EP3025336B1/en active Active
- 2014-07-18 ES ES14748143.6T patent/ES2687952T3/es active Active
- 2014-07-18 SG SG11201600393VA patent/SG11201600393VA/en unknown
- 2014-07-21 AR ARP140102704A patent/AR097001A1/es active IP Right Grant
- 2014-07-21 TW TW103124999A patent/TWI560702B/zh active
-
2016
- 2016-01-19 US US15/000,508 patent/US10360918B2/en active Active
- 2016-02-18 ZA ZA2016/01112A patent/ZA201601112B/en unknown
-
2019
- 2019-06-04 US US16/431,601 patent/US10937435B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110255588A1 (en) | 2010-04-17 | 2011-10-20 | Samsung Electronics Co., Ltd. | Apparatus and method for encoding and decoding multichannel signal |
Non-Patent Citations (2)
Title |
---|
ATSC Standard: Digital Audio Compression (AC-3). Advanced Television Systems Committee. Doc.A/52:2012. 2012.12.17.* |
Dongil Hyun, et al. Robust Interchannel Correlation (ICC) Estimation Using Constant Interchannel Time Difference (ICTD) Compensation. Audio Engineering Society Convention 127. 2009.10.12.* |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101943601B1 (ko) | 적응적 위상 정렬을 갖는 멀티-채널 다운믹스에서의 콤 필터 아티팩트의 감소 | |
US11430453B2 (en) | Apparatus, method and computer program for upmixing a downmix audio signal using a phase value smoothing | |
JP7528158B2 (ja) | マルチチャネル符号化におけるステレオ充填装置及び方法 | |
CN105378832B (zh) | 解码器、编码器、解码方法、编码方法和存储介质 | |
KR101657916B1 (ko) | 멀티채널 다운믹스/업믹스의 경우에 대한 일반화된 공간적 오디오 객체 코딩 파라미터 개념을 위한 디코더 및 방법 | |
WO2014053537A1 (en) | Encoder, decoder and methods for backward compatible multi-resolution spatial-audio-object-coding |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A107 | Divisional application of patent | ||
A201 | Request for examination | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |