KR20070094752A - 송신되는 채널들에 기초한 큐들을 갖는 공간 오디오의파라메트릭 코딩 - Google Patents
송신되는 채널들에 기초한 큐들을 갖는 공간 오디오의파라메트릭 코딩 Download PDFInfo
- Publication number
- KR20070094752A KR20070094752A KR1020077015057A KR20077015057A KR20070094752A KR 20070094752 A KR20070094752 A KR 20070094752A KR 1020077015057 A KR1020077015057 A KR 1020077015057A KR 20077015057 A KR20077015057 A KR 20077015057A KR 20070094752 A KR20070094752 A KR 20070094752A
- Authority
- KR
- South Korea
- Prior art keywords
- channels
- transmitted
- channel region
- input
- cues
- Prior art date
Links
- 238000000034 method Methods 0.000 claims description 53
- 238000004091 panning Methods 0.000 claims description 18
- 239000011159 matrix material Substances 0.000 claims description 16
- 238000013507 mapping Methods 0.000 claims description 12
- 230000002194 synthesizing effect Effects 0.000 claims description 10
- 239000013598 vector Substances 0.000 claims description 3
- 230000005236 sound signal Effects 0.000 abstract description 41
- 230000000875 corresponding effect Effects 0.000 description 40
- 238000012545 processing Methods 0.000 description 20
- 230000015572 biosynthetic process Effects 0.000 description 19
- 238000003786 synthesis reaction Methods 0.000 description 19
- 238000010586 diagram Methods 0.000 description 18
- 230000006870 function Effects 0.000 description 11
- 230000008569 process Effects 0.000 description 10
- 239000003795 chemical substances by application Substances 0.000 description 8
- 230000001934 delay Effects 0.000 description 6
- 230000003044 adaptive effect Effects 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 5
- 230000006835 compression Effects 0.000 description 4
- 238000007906 compression Methods 0.000 description 4
- 210000005069 ears Anatomy 0.000 description 4
- 238000003860 storage Methods 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000004807 localization Effects 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 230000008447 perception Effects 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 230000003321 amplification Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000008450 motivation Effects 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 210000003454 tympanic membrane Anatomy 0.000 description 2
- FDKXTQMXEQVLRF-ZHACJKMWSA-N (E)-dacarbazine Chemical compound CN(C)\N=N\c1[nH]cnc1C(N)=O FDKXTQMXEQVLRF-ZHACJKMWSA-N 0.000 description 1
- 210000002370 ICC Anatomy 0.000 description 1
- ZYXYTGQFPZEUFX-UHFFFAOYSA-N benzpyrimoxan Chemical compound O1C(OCCC1)C=1C(=NC=NC=1)OCC1=CC=C(C=C1)C(F)(F)F ZYXYTGQFPZEUFX-UHFFFAOYSA-N 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000005314 correlation function Methods 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000009365 direct transmission Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000009429 electrical wiring Methods 0.000 description 1
- 230000005670 electromagnetic radiation Effects 0.000 description 1
- 210000003128 head Anatomy 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000010988 intraclass correlation coefficient Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 238000003892 spreading Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M13/00—Coding, decoding or code conversion, for error detection or error correction; Coding theory basic assumptions; Coding bounds; Error probability evaluation methods; Channel models; Simulation or testing of codes
- H03M13/35—Unequal or adaptive error protection, e.g. by providing a different level of protection according to significance of source information or by adapting the coding according to the change of transmission channel characteristics
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B20/00—Signal processing not specific to the method of recording or reproducing; Circuits therefor
- G11B20/10—Digital recording or reproducing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/008—Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Theoretical Computer Science (AREA)
- Stereophonic System (AREA)
Abstract
큐 코드들이 송신되는 오디오 신호로부터 도출되는 바이노럴 큐 코딩 방식이 게시되어 있다. 일 실시예에서, 인코더는 C개의 입력 채널들을 다운믹싱하여 E개의 송신되는 채널들을 생성하는데, 여기서 C>E>1이다. 디코더는 송신되는 채널들로부터 큐 코드들을 도출하고, 이러한 큐 코드들을 사용하여 재생 채널들을 합성한다. 예를 들어, 하나의 5-대-2 BCC 실시예에서, 인코더는 5-채널 서라운드 신호를 다운믹싱하여 스테레오 신호의 좌측 및 우측 채널들을 생성한다. 디코더는 송신되는 스테레오 신호로부터 스테레오 큐들을 도출하고, 이러한 스테레오 큐들을 서라운드 큐들로 맵핑하며, 서라운드 큐들을 송신되는 스테레오 채널들로 적용하여, 5-채널 합성되는 서라운드 신호의 재생 채널들을 생성한다.
큐 코드, 오디오 신호, 인코더, 디코더, 스테레오 신호, 서라운드 신호
Description
관련 출원들과의 상호-참조
본 출원은 본원에 참조되어 있는 대리인 문서 번호 Faller 20으로서 2004년 11월 30일자로 출원된 미국 가출원 번호 제60/631,917호의 출원일의 권익을 청구한다.
본 출원의 주제는 그 내용이 본원에 참조되어 있는 다음 미국 출원의 주제와 관련된다.
o 대리인 문서 번호 Faller 5로서 2001년 5월 4일자로 출원된 미국 출원 일련 번호 제09/848,877호;
o 2001년 8월 10일자로 출원된 미국 가출원 번호 60/311,565의 출원일의 권익을 청구한 대리인 문서 번호 Baumgarte 1-6-8로서 2001년 7월 11일자로 출원된 미국 출원 일련 번호 제10/045,458호;
o 대리인 문서 번호 Baumgarte 2-10으로서 2002년 5월 24일자로 출원된 미국 출원 일련 번호 제10/155,437호;
o 대리인 문서 번호 Baumgarte 3-11으로서 2002년 9월 18일자로 출원된 미국 출원 일련 번호 제10/246,570호;
o 대리인 문서 번호 Baumgarte 7-12으로서 2004년 4월 1일자로 출원된 미국 출원 일련 번호 제10/815,591호;
o 대리인 문서 번호 Baumgarte 8-7-15로서 2004년 9월 8일자로 출원된 미국 출원 일련 번호 제10/936,464호;
o 2004년 1월 20일자로 출원된 미국 출원 일련 번호 제10/762,100호(Faller 13-1);
o 대리인 문서 번호 Allamanche 1-2-17-3으로서 2004년 12월 7일자로 출원된 미국 출원 일련 번호 제11/006,492호;
o 대리인 문서 번호 Allamanche 2-3-18-4로서 2004년 12월 7일자로 출원된 미국 출원 일련 번호 제11/006,482호; 및
o 대리인 문서 번호 Faller 22-5로서 2005년 1월 10일자로 출원된 미국 출원 일련 번호 제11/032,689호.
본 출원의 주제는 또한 그 내용이 본원에 참조되어 있는 다음 논문에 설명된 주제와 관련된다.
o F. Baumgarte 및 C. Faller의 "Binaural Cue Coding - Part I: Psychoacoustic Fundamentals and design principles, " IEEE trans. on Speech and Audio Proc., vol. 11, no. 6, Nov. 2003;
o C. Faller 및 F. Baumgarte의 "Binaural Cue Coding - Part II: Schemes and applications," IEEE trans. on Speech and Audio Proc., vol. 11, no.6, Nov. 2003; 및
o C. Faller의 "Coding of spatial audio compatible with different playback formats" Preprint 117th Conv, Aud. Eng. Soc., October 2004.
본 발명은 오디오 신호들의 인코딩 및 인코딩된 오디오 데이터로부터의 청각 장면을 나중에 합성하는 것에 관한 것이다.
사람이 특정 오디오 소스에 의해 생성된 오디오 신호(예를 들어, 사운드들)를 들을 때, 오디오 신호는 전형적으로 2개의 상이한 시간에, 그리고 2개의 상이한 오디오(예를 들어, 데시벨) 레벨들로 사람의 좌측 및 우측 귀들에 도달하는데, 여기서 이러한 상이한 시간 및 레벨들은 오디오 신호가 좌측 및 우측 귀들에 각각 도달하도록 이동하는 경로들의 차이의 함수들이다. 사람은 뇌는 시간 및 레벨에서의 이러한 차이들을 해석하여, 수신된 오디오 신호가 사람에 대하여 특정 위치(예를 들어, 방향 및 거리)에 위치된 오디오 소스에 의해 생성되고 있다는 지각을 사람에게 제공한다. 청각 장면은 사람에 대하여 하나 이상의 상이한 위치들에 위치되는 하나 이상의 상이한 오디오 소스들에 의해 생성되는 오디오 신호들을 동시적으로 청취하는 넷 이펙트(net effect)이다.
뇌에 의한 이 처리의 존재는 청각 장면들을 합성하는데 사용될 수 있고, 여기서 하나 이상의 상이한 오디오 소스들로부터의 오디오 신호들은 상이한 오디오 소스들이 청취자에 대하여 상이한 위치들에 위치된다는 지각을 제공하는 좌측 및 우측 오디오 신호들을 생성하기 위해 의도적으로 변경된다.
도 1은 단일 오디오 소스 신호(예를 들어, 모노 신호)를 바이노럴 신호(binaural signal)의 좌측 및 우측 오디오 신호들로 변환하는 종래의 바이노럴 신호 합성기(100)의 고-레벨 블록도이며, 여기서 바이노럴 신호는 청취자의 고막에서 수신되는 2개의 신호인 것으로 규정된다. 오디오 소스 신호 이외에, 합성기(100)는 청취자에 대한 오디오 소스 신호의 원하는 위치에 대응하는 공간 큐들의 세트를 수신한다. 전형적인 구현예들에서, 공간 큐들의 세트는 (좌측 및 우측 귀들에서 각각 수신된 바와 같은 좌측 및 우측 오디오 신호들 간의 오디오 레벨의 차이를 식별하는) 채널간 레벨 차이(ICLD) 값 및 (좌측 및 우측 귀들에서 각각 수신된 바와 같은 좌측 및 우측 오디오 신호들 사이의 시간의 차이를 식별하는) 채널간 시간 차이(ICTD) 값을 포함한다. 부가적으로, 또는 대안으로서, 일부 합성 기술들은 머리-관련 전달 함수(HRTF)라고 또한 칭해지는 신호 소스로부터 고막까지의 사운드에 대한 방향-의존 전달 함수의 모델링을 포함한다. 예를 들어, 그 내용이 본원에 참조되어 있는 J. Blauert의 ThePsychophysics of Human Sound Localization, MIT Press, 1983를 참조하라.
도 1의 바이노럴 신호 합성기(100)를 사용하면, 단일 사운드 소스에 의해 생성된 모노 오디오 신호는 헤드폰들을 통하여 청취될 때, 사운드 소스가 각각의 귀에 대한 오디오 신호를 발생시키기 위하여 공간 큐들의 적절한 세트(ICLD, ICTD, 및/또는 HRTF)를 적용함으로써 공간적으로 위치되도록 처리될 수 있다. 예를 들어, D. R. Begault의 3-D Sound for Virtual Reality and Multimedia, Academic Press, Cambridge, MA. 1994를 참조하라.
도 1의 바이노럴 신호 합성기(100)는 가장 간단한 유형의 청각 장면들을 생성한다; 이들은 청취자에 대하여 위치된 단일 오디오 소스를 갖는다. 청취자에 대하여 상이한 위치에 위치되는 2개 이상의 오디오 소스들을 포함하는 더 복잡한 청각 장면들은 특히 바이노럴 신호 합성기의 다수의 인스턴스(instance)들을 사용하여 구현되는 청각 장면 합성기를 사용하여 생성될 수 있고, 여기서 각각의 바이노럴 신호 합성기 인스턴스는 상이한 오디오 소스에 대응하는 바이노럴 신호를 생성한다. 각각의 상이한 오디오 소스가 청취자에 대한 상이한 위치를 갖기 때문에, 각각의 상이한 오디오 소스에 대한 바이노럴 오디오 신호를 생성하는데 공간 큐들의 상이한 세트가 사용된다.
일 실시예에 따르면, 본 발명은 E개의 송신되는 오디오 채널들로부터 C개의 재생 오디오 채널들을 합성하는 방법, 장치, 및 기계-판독 가능 매체이며, 여기서 C>E>1이다. 하나 이상의 큐들은 E개의 송신되는 채널로부터 도출되고, E개의 송신되는 채널들 중 하나 이상은 업믹싱되어 하나 이상의 업믹싱된 채널들을 생성하고, C개의 재생 채널들 중 하나 이상은 하나 이상의 도출된 큐들에 기초한 하나 이상의 업믹싱된 채널들로부터 합성된다.
다른 실시예에 따르면, 본 발명은 C개의 입력된 오디오 채널들로부터 E개의 송신되는 오디오 채널들을 생성하는 합성하는 방법, 장치, 및 기계-판독 가능 매체이며, 여기서 C>E>1이다. C개의 입력 채널들에서 청각 이벤트(auditory event)에 대해 방향이 추정되고, E개의 송신되는 채널을 생성하기 위해 다운믹싱 알고리즘이 C개의 입력된 채널들에 적용되며, 여기서 상기 다운믹싱 알고리즘은 청각 이벤트 방향에 기초한다.
또 다른 실시예에 따르면, 본 발명은 입력-채널 영역으로부터 송신되는-채널 영역으로의 맵핑에 기초하여 다운믹싱 알고리즘을 생성하기 위하여 패닝 법칙(panning law)을 적용하고, E개의 송신되는 채널들을 생성하기 위하여 C개의 입력 채널들에 다운믹싱 알고리즘을 적용함으로써 생성된 비트스트림이다.
본 발명의 다른 양상들, 특징들, 및 장점들은 다음의 상세한 설명, 첨부된 청구항들, 및 유사하거나 동일한 요소들에는 동일한 참조 번호가 병기되어 있는 첨부 도면들로부터 충분히 분명해질 것이다.
도 1은 종래의 바이노럴 신호 합성기의 고-레벨 블록도.
도 2는 일반적인 바이노럴 큐 코딩(BCC) 오디오 처리 시스템의 블록도.
도 3은 도 2의 다운믹서의 블록도.
도 4는 도 2의 디코터에 사용될 수 있는 BCC 합성기의 블록도.
도 5는 본 발명의 일 실시예에 따른, 도 2의 BCC 추정기의 블록도.
도 6은 5-채널 오디오에 대한 ICTD 및 ICLD의 생성을 도시한 도면.
도 7은 5-채널 오디오에 대한 ICC 데이터의 생성을 도시한 도면.
도 8은 공간 큐들 더하기 소정의 단일 송신되는 합 신호(s(n))를 제공받는 스테레오 또는 다-채널 오디오 신호를 생성하기 위하여 BCC 디코더에서 사용될 수 있는 도 4의 BCC 합성기의 구현예의 블록도.
도 9는 ICTD 및 ILCD가 주파수의 함수로서 서브대역 내에서 변화되는 방법을 도시한 도면.
도 10은 본 발명의 일 실시예에 따른 5-대-2 BCC 오디오 처리 시스템의 블록도.
도 11a는 하나의 가능한 5-채널 서라운드 구성을 도시한 도면.
도 11b는 도 11a의 5개의 확성기들의 방향을 도식적으로 나타낸 도면.
도 11c는 도 11a의 5-채널 서라운드 사운드가 도 10의 인코더에 의해 맵핑되는 하나의 가능한 스테레오 구성을 도시한 도면.
도 12는 도 11a의 5개의 서라운드 채널들을 도 11c의 2개의 스테레오 채널들로 다운믹싱하는데 사용될 수 있는 하나의 가능한 맵핑을 도식적으로 나타낸 도면.
도 13은 본 발명의 하나의 가능한 적응형 다운믹싱 동작에 따른 처리의 흐름도.
도 14는 도 10의 디코더에 사용되는 각도들 및 스케일 팩터들을 도시한 도면.
도 15는 사인들의 스테레오 법칙에 따른 ICLD 및 스테레오 이벤트 각도 사이의 관계를 도시한 도면.
도 16은 본 발명의 하나의 가능한 디코딩 동작에 따른 처리의 흐름도.
바이노럴 큐 코딩(BCC)에서, 인코더는 E개의 송신되는 오디오 채널들을 생성 하기 위하여 C개의 오디오 채널들을 인코딩하며, 여기서 C>E≥1이다. 특히, C개의 입력 채널들 중 2개 이상은 주파수 영역에서 제공되고, 주파수 영역의 2개 이상의 입력 채널들에서의 하나 이상의 상이한 주파수 대역들 각각에 대해 하나 이상의 큐 코드들이 생성된다. 게다가, C개의 입력 채널들은 다운믹싱되어, E개의 송신되는 채널들을 생성한다. 일부 다운믹싱 구현예들에서, E개의 송신되는 채널들 중 하나 이상은 C개의 입력 채널들 중 2개 이상에 기초하며, E개의 송신되는 채널들 중 적어도 하나는 C개의 입력 채널들 중 단지 하나에 기초한다.
일 실시예에서, BCC 코더는 2개 이상의 필터 뱅크들, 코드 추정기, 및 다운믹서를 갖는다. 2개 이상의 필터 뱅크들은 C개의 입력 채널들 중 2개 이상을 시간 영역으로부터 주파수 영역으로 변환한다. 코드 추정기는 2개 이상의 변환된 입력 채널들에서의 하나 이상의 상이한 주파수 대역들 각각에 대한 하나 이상의 큐 코드들을 생성한다. 다운믹서는 C개의 입력 채널들을 다운믹싱하여, E개의 송신되는 채널들을 발생시키며, 여기서 C>E≥1이다.
BCC 디코딩에서, E개의 송신되는 오디오 채널들이 디코딩되어 C개의 재생 (즉, 합성된) 오디오 채널들을 생성한다. 특히, 하나 이상의 상이한 주파수 대역들 각각에 대하여, E개의 송신되는 채널들 중 하나 이상이 주파수 영역에서 업믹싱되어, 주파수 영역에서 C개의 재생 채널 중 2개 이상을 생성하며, 여기서 C>E≥1이다. 하나 이상의 큐 코드들이 주파수 영역에서 2개 이상의 재생 채널들에서의 하나 이상의 상이한 주파수 대역들 각각에 적용되어, 2개 이상의 변경된 채널들을 생성하고, 상기 2개 이상의 변경된 채널들은 주파수 영역으로부터 시간 영역으로 변환 된다. 일부 업링크 구현예들에서, C개의 재생 채널들 중 적어도 하나는 E개의 송신되는 채널 중 적어도 하나 및 적어도 하나의 큐 코드에 기초하여, C개의 재생 채널들 중 적어도 하나는 E개의 송신되는 채널들 중 단지 하나의 채널에 기초하며, 임의의 큐 코드들과 독립적이다.
일 실시예에서, BCC 디코더는 업믹서, 합성기, 및 하나 이상의 역 필터 뱅크들을 갖는다. 하나 이상의 상이한 주파수 대역들 각각에 대하여, 업믹서는 주파수 영역에서 E개의 송신되는 채널을 업믹싱하여 주파수 영역에서 C개의 재생 채널들 중 2개 이상을 생성하며, 여기서 C>E≥1이다. 합성기는 주파수 영역에서 2개 이상의 재생 채널들에서의 하나 이상의 상이한 주파수 대역들 각각에 하나 이상의 큐 코드들을 적용하여, 2개 이상의 변경된 채널들을 생성한다. 하나 이상의 역 필터 뱅크들은 2개 이상의 변경된 채널들을 주파수 영역으로부터 시간 영역으로 변환한다.
특정 구현예에 따르면, 소정의 재생 채널은 2개 이상의 송신되는 채널의 조합보다는 오히려, 단일의 송신되는 채널에 기초할 수 있다. 예를 들어, 단지 하나의 송신되는 채널만이 존재할 때, C개의 재생 채널 각각은 상기 하나의 송신되는 채널에 기초한다. 이러한 상황들에서, 업믹싱은 대응하는 송신되는 채널의 복제에 대응한다. 이와 같이, 단지 하나의 송신되는 채널만이 존재하는 애플리케이션들의 경우에, 업믹서는 각각의 재생 채널에 대해 송신되는 채널을 복제하는 리플리케이터(replicator)를 사용하여 구현될 수 있다.
BCC 인코더들 및/또는 디코더들은 예를 들어, 디지털 비디오 레코더들/플레 이어들, 디지털 오디오 레코더들/플레이어들, 컴퓨터들, 위성 송신기들/수신기들, 케이블 송신기들/수신기들, 지상 방송 송신기들/수신기들, 가정용 엔터테인먼트 시스템, 및 영화관 시스템들을 포함하는 다수의 시스템들 또는 애플리케이션에 통합될 수 있다.
일반적인
BCC
처리
도 2는 인코더(202) 및 디코더(204)를 포함하는 일반적인 바이노럴 큐 코딩(BCC) 오디오 처리 시스템(200)의 블록도이다. 인코더(202)는 다운믹서(206) 및 BCC 추정기(208)를 포함한다.
다운믹서(206)는 입력 오디오 채널들 xi(n)을 E개의 송신되는 오디오 채널들 yi(n)으로 변환하고, 여기서 C>E≥1이다. 본 명세서에서, 변수 n을 사용하여 표현되는 신호들은 시간-영역 신호들인 반면, 변수 k를 사용하여 표현되는 신호들은 주파수-영역 신호들이다. 특정 구현예에 따르면, 다운믹싱은 시간 영역 도는 주파수 영역 중 하나에서 구현될 수 있다. BCC 추정기(208)는 C개의 입력 오디오 채널들로부터 BCC 코드들을 생성하고 이러한 VCC 코드들을 E개의 송신되는 오디오 채널들에 대한 대역내(in-band) 또는 대역외(out-of-band) 사이드 정보 중 하나로서 송신한다. 전형적인 BCC 코드들은 주파수 및 시간의 함수로서 입력 채널들의 어떤 쌍들 사이에서 추정되는 채널간 시간 차이(ICTD), 채널간 레벨 차이(ICLD), 및 채널간 상관(ICC) 데이터를 포함한다. 특정 구현예는 입력 채널들의 어떤 특정 쌍들 사이 에서 BCC 코드들이 추정되는지를 설명한다.
ICC 데이터는 오디오 신호의 감지된 폭과 관련되는 바이노럴 신호의 코히러런스(coherence)에 대응한다. 오디오 소스가 넓어지면 넓어질수록, 결과적인 바이노럴 신호의 좌측 및 우측 채널들 사이의 코히어런스는 더 낮아진다. 예를 들어, 방청석 스테이지(auditorium stage)를 통하여 확산되는 오케스트라에 대응하는 바이노럴 신호의 코히어런스는 전형적으로 단일 바이올린 독주에 대응하는 바이노럴 신호의 코히어런스보다 더 낮다. 일반적으로, 더 낮은 코히어런스를 갖는 오디오 신호는 통상적으로 청각 공간에서 더 많이 확산되는 것으로 인식된다. 이와 같이, ICC 데이터는 전형적으로 청취자 환경의 정도 및 분명한 소스 폭과 관련된다. 예를 들어, J. Blauert의 "The Psychophysics of Human Sound Localization, MIT Press, 1983을 참조하라.
특정 애플리케이션에 따르면, E개의 송신되는 오디오 채널 및 대응하는 BCC 코드들은 디코더(204)로 직접 송신되거나, 디코더(204)에 의한 나중의 액세스를 위해 어떤 적절한 유형의 저장 장치에 저장될 수 있다. 상황에 따라서, 용어 "송신하는"은 디코더로의 직접적인 송신 또는 나중에 디코더에 제공하기 위한 저장 중 하나와 관련될 수 있다. 어느 경우든, 디코더(204)는 송신되는 오디오 채널들 및 사이드 정보를 수신하고 BCC 코드들을 사용하여 업믹싱 및 BCC 합성을 수행하여, E개의 송신되는 오디오 채널들을 오디오 재생을 위한 E개 이상(전형적으로 C개 이지만, 반드시 그렇지는 않음)의 재생 오디오 채널들()로 변환한다. 특정 구현예 에 따르면, 업믹싱은 시간 영역 또는 주파수 영역 중 하나에서 수행될 수 있다.
도 2에 도시된 BCC 처리 이외에, 일반적인 BCC 오디오 처리 시스템은 각각, 인코더에서 오디오 신호들을 더 압축하고 나서, 디코더에서 상기 오디오 신호들을 압축해제하기 위하여 부가적인 인코딩 및 디코딩 단들을 포함할 수 있다. 이들 오디오 코덱들은 펄스 코드 변조(PCM), 차분 PCM(DPCM), 또는 적응형 DPCM(ADPCM)에 기초한 것과 같은 종래의 오디오 압축/압축해제 기술들에 기초할 수있다.
다운믹서(206)가 단일 합 신호(즉, E=1)를 생성할 때, BCC 코딩은 모노 오디오 신호를 표현하기 위해 필요로 되는 것보다 단지 조금 더 높은 비트레이트로 다-채널 오디오 신호를 표현할 수 있다. 이것은 채널 쌍 사이의 추정된 ICTD, ICLD, 및 ICC 데이터가 오디오 파형보다 더 적은 대략 2차의 크기 정보를 포함하기 때문에 그러하다.
BCC 코딩의 낮은 비트레이트뿐만 아니라, 이의 역방향 호환성 양상이 중요하다. 단일의 송신되는 합 신호는 원래 스테레오 또는 다-채널 신호의 모노 다운믹스에 대응한다. 스테레오 또는 다-채널 사운드 재생을 지원하지 않는 수신기들의 경우에, 송신되는 합 신호를 청취하는 것이 저-프로파일 모노 재생 장비 상에 오디오 자료를 제공하는 유효한 방법이다. 따라서, 다-채널 오디오 쪽으로의 모노 오디오 자료의 전달과 관련된 기존 서비스들을 강화하기 위하여 BCC 코딩이 사용될 수 있다. 예를 들어, 기존 모노 오디오 무선 브로드캐스팅 시스템은 BCC 사이드 정보가 기존의 송신 채널 내로 내장될 수 있는 경우에, 스테레오 또는 다-채널 재생을 위해 강화될 수 있다. 다-채널 오디오를 스테레오 오디오에 대응하는 2개의 합 신호 들로 다운믹싱할 때 유사한 케이퍼빌리티(capability)들이 존재한다.
BCC는 일정한 시간 및 주파수 레졸루션(resolution)으로 오디오 신호들을 처리한다. 사용되는 주파수 레졸루션은 주로 인간의 청각 시스템의 주파수 레졸루션에 의해 모티베이트(motivate)된다. 음향심리학은 공간 지각이 주로 음향 입력 신호의 임계 대역 표현에 기초하는 것을 제안한다. 이 주파수 레졸루션은 (예를 들어, 인간의 청각 시스템의 임계 대역폭과 동일하거나 이에 비례하는 대역폭을 가진 서브대역들을 갖는 고속 퓨리에 변환(FFT) 또는 직교 미러 필터(QMF)에 기초하는) 반전 가능한 필터뱅크를 사용함으로써 고려된다.
일반적인
다운믹싱
바람직한 구현예들에서, 송신되는 합 신호(들)는 입력 오디오 신호의 모든 신호 성분들을 포함한다. 각각의 신호 성분이 완전히 유지되는 것이 목적이다. 오디오 입력 채널들을 단순히 합하는 것은 종종 신호 성분들의 증폭 또는 감쇠를 초래한다. 즉, "간단한" 합에서의 신호 성분들의 거듭제곱은 종종 각각의 채널의 대응하는 신호 성분의 거듭제곱의 합보다 더 크거나 더 작다. 합 신호를 등화시키는 다운믹싱 기술이 사용되어, 합 신호에서의 신호 성분들의 거듭제곱이 모든 입력 채널들에서의 대응하는 거듭제곱과 거의 동일하도록 할 수 있다.
도 3은 BCC 시스템(200)의 어떤 구현예들에 따른 도 2의 다운믹서(206)에 사용될 수 있는 다운믹서(300)의 블록도를 도시한다. 다운믹서(300)는 각각의 입력 채널(xi(n))에 대한 필터 뱅크(FB)(302), 다운믹싱 블록(304), 선택적인 스케일링/지연 블록(306), 및 각각의 인코딩된 채널(yi(n))에 대한 역 FB(IFB)(308)를 갖는다.
각각의 필터 뱅크(302)는 시간 영역의 대응하는 디지털 입력 채널(xi(n))의 각 프레임(예를 들어, 20 msec)을 주파수 영역의 입력 계수들의 세트()로 변환한다. 다운믹싱 블록(304)은 C개의 대응하는 입력 계수들의 각각의 서브-대역을 E개의 다운믹싱된 주파수-영역 계수들의 대응하는 서브-밴드로 다운믹싱한다. 식(1)은 다음과 같이 다운믹싱된 계수를 생성하는 입력 계수의 k-번째 서브-대역의 다운믹싱을 나타내며,
여기서, D CE는 실수-값의 C x E 다운믹싱 매트릭스이다.
선택적인 스케일링/지연 블록(306)은 각각 대응하는 다운믹싱된 계수()를 스케일링 팩터(ei(k))만큼 승산하여 대응하는 스케일링된 계수()를 생성하는 승산기들(310)의 세트를 포함한다. 스케일링 동작에 대한 모티베이션(motivation)은 각각의 채널에 대한 임의의 가중 팩터들을 갖는 다운믹싱을 위해 일반화된 등화(equalization)와 등가이다. 입력 채널들이 독립적인 경우, 각각의 서브-대역에서의 다운믹싱된 신호의 거듭제곱()은 다음과 같이 식(2)에 의해 제공되며,
서브-대역들이 독립적이지 않은 경우에, 다운믹싱된 신호의 거듭제곱된 값()은 신호 성분들이 각각 동-위상이거나 이-위상일 때의 신호 증폭들 또는 소거들로 인해, 식(2)를 사용하여 계산되는 것보다 더 크거나 더 작을 것이다. 이를 방지하기 위하여, 식(1)의 다운믹싱 동작이 승산기들(310)의 스케일링 동작보다 앞서 서브-대역들에서 적용된다. 스케일링 팩터들(ei(k))(1≤i≤E)는 다음과 같이 식(3)을 사용하여 도출될 수 있고,
선택적인 스케일링을 제공하는 것 이외에, 또는 그것 대신에, 스케일링/지연 블록(306)은 신호들을 선택적으로 지연시킬 수 있다.
도 3이 후속 다운믹싱을 위해 주파수 영역으로 변환되는 C개의 입력 채널들 모두를 도시할지라도, 대안적인 구현예들에서, C개의 입력 채널들 중 하나 이상(C-1개보다 적음)은 도 3에 도시된 처리 중 일부 또는 모두를 바이패스하고 변경되지 않은 오디오 채널들의 등가의 수로서 송신될 수 있다. 특정 구현예에 따르면, 이러한 변경되지 않은 오디오 채널들은 송신되는 BCC 코드들을 생성할 시에 도 2의 BCC 추정기(208)에 의해 사용되거나 사용되지 않을 수 있다.
단일 합 신호(y(n))를 생성하는 다운믹서(300)의 구현예에서, E=1이고 각각의 입력 채널(c)의 각각의 서브대역의 신호들()이 부가되고 나서, 다음과 같이 식(4)에 따라 팩터(e(k))와 승산되고,
상기 팩터(e(k))는 다음과 같이 식(5)에 의해 제공되며,
여기서, 는 시간 인덱스(k)에서의 의 거듭제곱의 단시간 추정치이고, 는 의 거듭제곱의 단-시간 추정치이다. 등화된 서브대역들은 다시 시간 영역으로 변환되어 BCC 디코더에 송신되는 합 신호(y(n))를 발생시킨다.
일반적인
BCC
합성
도 4는 BCC 시스템(200)의 어떤 구현예들에 따른 도 2의 디코더(204)에 사용될 수 있는 BCC 합성기(400)의 블록도를 도시한다. BCC 합성기(400)는 각각의 송신되는 채널(yi(n))에 대한 필터 뱅크(402), 업믹싱 블록(404), 지연기들(406), 승산기들(408), 상관해제 블록(410), 및 각각의 재생 채널()에 대한 역 필터 뱅크(412)를 갖는다.
각각의 필터 뱅크(402)는 시간 영역의 대응하는 디지털의 송신되는 채널(yi(n))의 각 프레임을 주파수 영역의 입력 계수()의 세트로 변환한다. 업링크 블록(404)은 E개의 대응하는 송신되는-채널 계수들의 각각의 서브-대역을 C개의 업믹싱된 주파수-영역 계수들의 대응하는 서브-대역으로 업믹싱한다. 식(6)은 다음과 같이 업믹싱된 계수들의 k-번째 서브-대역을 생성하기 위한 송신되는 채널 계수들의 k-번째 서브-대역의 업믹싱을 나타내며,
여기서 U EC는 실수-값의 E x C 업링크 매트릭스이다. 주파수-영역에서 업믹싱을 수행하면 업믹싱이 각각의 상이한 서브-대역에서 개별적으로 수행될 수 있다.
각각의 지연기(406)는 재생 채널들의 어떤 쌍들 사이에서 원하는 ICDT 값들이 나타나도록 하기 위하여 ICTD 데이터에 대한 대응하는 BCC 코드에 기초하여 지연 값(di(k))을 인가한다. 각각의 승산기(408)는 재생 채널들의 어떤 쌍들 사이에서 원하는 ICLD 값들이 나타나도록 하기 위하여 ICLD 데이터에 대한 대응하는 BCC 코드에 기초하여 스케일링 팩터(ai(k)를 인가한다. 상관해제 블록(410)은 재생 채널들의 어떤 쌍들 사이에서 원하는 ICC 값들이 나타나도록 하기 위하여 ICC 데이터에 대한 대응하는 BCC 코드들에 기초하여 상관해제 동작(A)을 수행한다. 상관해제 블록(410)의 동작들의 부가적인 설명은 Baumgarte 2-10으로서 2002년 5월 24일자로 출원된 미국 특허 출원 번호 10/155,437에서 찾아볼 수 있다.
ICLD 값들의 합성은 ICLD 합성이 단지 서브-대역 신호들의 스케일링과 관련 되기 때문에, ICTD 및 ICC 값들의 합성보다 덜 곤란할 수 있다. ICLD 큐들이 가장 통상적으로 사용되는 방향성 큐들이기 때문에, ICLD 값들이 원래 오디오 신호의 값들에 근사화되는 것이 통상적으로 더 중요하다. 이와 같이, ICLD 데이터는 모든 채널 쌍들 사이에서 추정될 수 있다. 각각의 서브-대역에 대한 스케일링 팩터(ai(k))는 바람직하게는, 각각의 재생 채널의 서브-대역 거듭제곱이 원래 입력 오디오 채널의 대응하는 거듭제곱에 근사화되도록 선택된다.
하나의 목적은 ICTD 및 ICC 값들을 합성하기 위해 비교적 적은 신호 변경들을 적용하는 것일 수 있다. 이와 같이, BCC 데이터는 모든 채널 쌍들에 대한 ICTD 및 ICC 값들을 포함할 수는 없다. 그 경우에, BCC 합성기(400)는 어떤 채널 쌍들 사이에서만 ICTD 및 ICC 값들을 합성할 것이다.
도 4가 후속 업믹싱 및 BCC 처리를 위해 주파수 영역으로 변환되는 E개의 송신되는 채널들 모두를 도시할지라도, 대안적인 구현예들에서, E개의 송신되는 채널들 중 하나 이상(그러나, 모두는 아님)은 도 4에 도시된 처리 중 일부 또는 모두를 바이패스할 수 있다. 예를 들어, 송신되는 채널들 중 하나 이상은 임의의 업믹싱을 겪지 않은 변경되지 않은 채널들일 수 있다. C개의 재생 채널들 중 하나 이상 이외에, 이러한 변경되지 않은 채널들이 차례로, 다른 재생 채널들 중 하나 이상을 합성하기 위해 BCC 처리가 적용되는 기준 채널들로서 사용될 수 있지만, 그렇게 사용 되지 않아도 된다. 어느 경우든, 이와 같은 변경되지 않은 채널들은 재생 채널들의 나머지를 생성하는데 사용되는 업믹싱 및/또는 BCC 처리와 관련된 처리 시간을 보상하기 위하여 지연들을 겪게 될 수 있다.
도 4가 E개의 송신되는 채널들로부터 합성되는 C개의 재생 채널들을 도시할지라도, BCC 합성들이 그 수의 재생 채널들에 국한되지 않는다는 점에 주의하라. 일반적으로, 재생 채널들의 수는 C보다 더 크거나 더 적은 수들을 포함하는 임의의 채널들의 수일 수 있고 재생 채널들의 수가 송신되는 채널들의 수와 동일하거나 이보다 더 적은 상황들도 가능하다.
오디오 채널들 사이의 "지각적으로 관련된 차이들"
단일 합 신호를 가정하면, BCC는 스테레오 또는 다-채널 오디오 신호를 합성하여, ICTD, ICLD, 및 ICC가 원래 오디오 신호의 대응하는 큐들에 근사화되도록 한다. 다음에서, 청각 공산 이미지 속성들에 대한 ICTD, ICLD, 및 ICC의 역할이 논의된다.
공간 청취에 관한 인식은 하나의 청각 이벤트의 경우에, ICTD 및 ICLD가 지각된 방향과 관련된다는 것을 나타낸다. 하나의 소스의 바이노럴 룸 임펄스 응답들(binaural room impulse response: BRIRs)을 고려할 때, BRIRs의 초기와 후기 파트들에 대한 추정된 ICC 데이터 및 청취자 포위감(listener envelopment)과 청각 이벤트의 폭 사이에 관계가 존재한다. 그러나, 일반적인 신호들에 대한 이러한 특성들(단지 BRIRs이 아님) 및 ICC 사이의 관계는 직접적이지는 않다.
스테레오 및 다-채널 오디오 신호들은 통상적으로 밀폐된 공간들에서의 레코딩으로 인하여 반사된 신호 성분들에 의해 중첩되고 공간적인 임프레션(impression)을 인공적으로 생성하기 위해 레코딩 엔지니어에 의해 부가되는 동시 활성적 소스 신호들의 복합적인 혼합을 포함한다. 상이한 소스 신호들 및 이들은 반사들은 시간-주파수 평면에서 상이한 영역들을 점유한다. 이것은 주파수 및 시간의 함수로서 변화하는 ICTD, ILCD, 및 ICC에 의해 반영된다. 이 경우에, 순시적인 ICTD, ICLD와 ICC 및 청각 이벤트 방향들과 공간적인 임프레션 사이의 관계는 명백하지 않다. BCC의 어떤 실시예들의 전략은 이러한 큐들이 원래 오디오 신호의 대응하는 큐들에 근사화되도록 상기 큐들을 맹목적으로 합성하는 것이다.
등가 직사각형 대역폭(equivalent rectangular bandwidth: ERB)의 2배와 동일한 대역폭들의 서브대역들을 갖는 필터뱅크들이 사용된다. 비공식 청취는 더 높은 주파수 레졸루션 선택할 때, BCC의 오디오 품질이 현저히 개선되지 않는다는 것을 의미한다. 디코더에 송신될 필요가 있는 ICTD, ICLD, 및 ICC 값들을 더 적게 하여, 비트레이트를 더 낮게 때문에, 더 낮은 주파수 레졸루션이 바람직할 수 있다.
이 레졸루션에 관하여, ICTD, ICLD, 및 ICC는 전형적으로 규칙적인 시간 간격으로 고려된다. ICTD, ICLD, 및 ICC가 약 4 내지 16ms마다 고려될 때, 고성능이 획득된다. 큐들이 매우 짧은 시간 간격들마다 고려되지 않는다면, 선착 효과(precedence effect)는 직접적으로 고려되지 않는다는 점에 주의하라. 사운드 자극들의 종래의 진상/지상 쌍을 가정하면, 진상 및 지상이 큐들 중 하나의 세트만이 합성되는 시간 간격이 되는 경우, 진상의 국소 우세(localization dominace)가 고 려되지 않다. 이에도 불구하고, BCC는 평균하여 약 87(즉, "우수한" 오디오 품질) 및 어떤 오디오 신호들에 대하여 거의 100까지의 평균 MUSHRA 스코어에서 반영된 오디오 품질을 획득한다.
기준 신호 및 합성된 신호 사이의 자주-획득되는 지각적으로 작은 차이는 청각 공간 이미지 속성들과 관련된 큐들이 규칙적인 시간 간격으로 ICTD, ICLD, 및 ICC를 합성함으로써 암시적으로 고려된다. 다음에서, ICTD, ICLD, 및 ICC가 청각 공간 이미지 속성의 범위와 관련될 수 있는 방법에 대한 어떤 논의가 제공된다.
공간 큐들의 추정
다음에서, ICTD, ICLD, 및 ICC가 추정되는 방법이 설명된다. 이러한 (양자화되고 코딩된) 공간 큐들의 송신을 위한 비트레이트는 단지 몇 kb/s일 수 있으므로, BCC에 의하여, 단일 오디오 채널에 필요로 되는 것에 가까운 비트레이트로 스테레오 및 다-채널 오디오 신호들을 송신할 수 있다.
도 5는 본 발명의 일 실시예에 따른, 도 2의 BCC 추정기(208)의 블록도를 도시한다. BCC 추정기(208)는 도 3의 필터뱅크들(302)과 동일할 수 있는 필터뱅크들(FB)(502), 및 필터뱅크들(502)에 의해 생성된 각각의 상이한 주파수 서브대역에 대한 ICTD, ICLD, 및 ICC 공간 큐들을 생성하는 추정 블록(504)을 포함한다.
스테레오 신호들에 대한
ICTD
,
ICLD
, 및
ICC
의 추정
o ICTD[샘플들]:
표준화된 교차-상관 함수의 단-시간 추정치는 다음과 같이 식(8)에 의해 제공되며,
여기서,
o ICLD[dB]:
o ICC
표준화된 교차-상관의 절대값이 고려되고, c12(k)은 [0,1]의 범위를 갖는다.
다-채널 오디오 신호들에 대한
ICTD
,
ICLD
, 및
ICC
의 추정
2개 이상의 입력 채널들이 존재할 때, 통상적으로 C=5개의 채널들의 경우에 대해 도 6에 도시된 바와 같이, 기준 채널(예를 들어, 채널 번호 1) 및 다른 채널들 사이에 ICTD 및 ICLD를 규정하기만 하면 된다. 여기서 및 는 기준 채널(1) 및 채널(c) 사이의 ICTD 및 ICLD를 각각 나타낸다.
ICTD 및 ICLD에 반대되는 바와 같이, ICC는 통상적으로 더 많은 자유도들(degrees of freedom)을 갖는다. 규정된 바와 같은 ICC는 모든 가능한 입력 채널 쌍들 사이에서 상이한 값들을 가질 수 있다. C개의 채널들의 경우에, C(C-1)/2개의 가능한 채널 쌍들이 존재한다; 예를 들어, 5개의 채널들의 경우에, 도 7(a)에 도시된 바와 같이 10개의 채널 쌍들이 존재한다. 그러나, 이와 같은 방식은 각각의 시간 인덱스에서 각각의 서브대역에 대해, C(C-1)/2개의 ICC 값들이 추정되고 계산되는 것을 필요로 하여, 계산적인 복잡성이 높아지고 비트레이트가 높아지게 된다.
대안적으로, 각각의 서브대역에 대하여, ICTD 및 ICLD는 서브대역 내의 대응하는 신호 성분의 청각 이벤트가 렌더링되는 방향을 결정한다. 그 후, 서브대역 당 하나의 단일 ICC 파라미터가 사용되어, 모든 오디오 채널들 전체 코히어런스를 규정한다. 각각의 시간 인덱스에서의 각각의 서브대역에서 가장 큰 에너지를 갖는 2개의 채널들 사이에서만 ICC 큐들을 추정하고 송신함으로써 양호한 결과들이 획득될 수 있다. 이것이 시간 인스턴트들(k-1 및 k) 동안, 채널 쌍들(3, 4) 및 (1, 2) 이 각각 가장 강한 도 7(b)에 도시되어 있다. 다른 채널 쌍들 사이에서 ICC를 결정하는데 휴리스틱 규칙(heuristic rule)이 사용될 수 있다.
공간 큐들의 합성
도 8은 공간적인 큐들 더하기 단일의 송신되는 합 신호(s(n))를 제공받는 스테레오 또는 다-채널 오디오 신호를 생성하기 위하여 BCC 디코더에서 사용될 수 있는 도 4의 BCC 합성기(400)의 구현예의 블록도를 도시한다. 합 신호(s(n))는 서브대역들로 분해되고, 여기서 는 하나의 이와 같은 서브대역을 나타낸다. 출력 채널들 각각의 대응하는 서브대역들을 생성하기 위하여, 지연(dc), 스케일 팩터들(ac), 및 필터들(hc)이 합 신호의 대응하는 서브대역에 적용된다. (표시의 간소화를 위해, 지연들, 스케일 팩터들, 및 필터들에서 시간 인덱스(k)는 무시된다.) ICTD는 지연들을 부과함으로써 합성되고, ICLD는 스케일링에 의해 합성되며, ICC는 상관해제 필터들을 적용함으로써 합성된다. 도 8에 도시된 처리는 각각의 서브대역에 독립적으로 적용된다.
ICTD
합성
기준 채널에 대한 지연(d1)은 지연들(dc)의 최대 크기가 최소화되도록 계산된다. 서브대역 신호들이 더 적게 변경될수록, 아티팩트들이 발생할 위험이 더 적게 존재한다. 서브대역 샘플링 레이트가 ICTD 합성에 충분한 높은 레졸루션을 제공하지 않는 경우, 적절한 전역 통과 필터들을 사용함으로써 지연들이 더 정확하게 부과될 수 있다.
ICLD
합성
부가적으로, 출력 서브대역들은 바람직하게는, 모든 출력 채널들의 거듭제곱의 합이 입력 합 신호의 거듭제곱의 합과 동일하도록 표준화된다. 각각의 서브대역에서의 총 원래 신호 거듭제곱이 합 신호에서 보존되기 때문에, 이 표준화는 원래 인코더 입력 오디오 신호의 대응하는 거듭제곱에 근사화되는 각각의 출력 채널에 대한 절대 서브대역 거듭제곱을 발생시킨다. 이러한 제약들을 제공하면, 스케일 팩터들(ac)은 다음과 같이 식(14)에 의해 제공된다.
ICC 합성
어떤 실시예들에서, ICC 합성의 목적은 ICTD 및 ICLD에 영향을 줌이 없이, 지연들 및 스케일링이 적용된 후, 서브대역들 사이에 상관을 감소시키는 것이다. 이것은 각 서브대역(청각 임계 대역)에서 평균 편차가 제로가 되도록 ICTD 및 ICLD이 주파수의 함수로서 효율적으로 변화되도록 도 8에서 필터들(hc)을 설계함으로써 달성될 수 있다.
도 9는 ICTD 및 ICLD가 주파수의 함수로서 서브대역 내에서 변화되는 방법을 도시한다. ICTD 및 ICLD 변화의 크기는 상관해제의 정도를 결정하고, ICC의함수로서 제어된다. ICTD는 (도 9(a)에서와 같이) 완만하게 변화되는 반면, ICLD는 (도 9(b)에서와 같이) 랜덤하게 변화된다. ICLD를 ICTD와 같이 완만하게 변화시킬 수 있지만, 이것은 결과적인 오디오 신호들의 더 많은 컬러레이션(coloratin)을 발생시킨다.
다-채널 ICC 합성에 특히 적합한 ICC를 합성하는 또 다른 방법은 그 내용이 본원에 참조되어 있는 C. Faller의 "Parametric multi-channel audio coding: Synthesis of coherence cues, "IEEE Trans. on Speech and Audio Proc., 2003에 보다 상세히 설명된다. 시간 및 주파수의 함수로서, 특정 량들의 인공적인 늦은 잔향(artificial late reverberation)이 원하는 ICC를 달성하기 위하여 출력 채널들 각각에 부가된다. 부가적으로, 결과적인 신호의 스펙트럼 인벨롭(envelop)이 원래 오디오 신호의 스펙트럼 인벨롭에 접근하도록 스펙트럼 변경이 적용될 수 있다.
스테레오 신호들(또는 오디오 채널 쌍들)에 대한 다른 관련되거나 독립적인 ICC 합성 기술은 둘 모두의 내용이 본원에 참조되어 있는 E. Schuijers, W. Oomen, B. den Brinker, 및 J. Breebaart의 "Advances in parametric coding for high-quality audio" in Preprint 114th Conv. Aud. Eng. Soc., Mar. 2003, 및 J. Engdegard, H. Purnhagen, J. Roden, 및 L. Liljeryd의 "Synthetic ambience in parametric stereo coding," in Preprint 117th Conv. Aud. Eng. Soc., May 2004에 제시되어 있다.
C-대-E
BCC
상술된 바와 같이, BCC는 하나 이상의 송신 채널로 구현될 수 있다. C-대-E BCC를 나타내는, 하나의 단일 (송신되는) 채널이 아니라, E개의 채널로서 C개의 오디오 채널들을 표현하는 BCC의 변형이 설명되었다. C-대-E BCC에 대한 (적어도) 2개의 모티베이션들이 존재한다.
o 하나의 송신 채널에 의한 BCC는 스테레오 또는 다-채널 오디오 재생을 위 한 기존의 모노 시스템들을 업그레이드하기 위해 역방향 호환 가능한 경로를 제공한다. 업그레이드된 시스템은 BCC 사이드 정보를 부가적으로 송신하는 동안, BCC 다운믹싱된 합 신호를 기존의 모노 하부구조를 통해 송신한다. C-대-E BCC는 C-채널 오디오의 E-채널 역방향 호환 가능한 코딩에 적용 가능하다.
o C-대-E BCC는 송신되는 채널들의 수의 상이한 감소 정도들 면에서 스케일러빌리티(scalability)를 도입한다. 송신되는 오디오 채널들이 더 많을수록, 오디오 품질이 더 양호해질 것이 기대된다.
ICTD, ICLD, 및 ICC 큐들을 규정하는 방법과 같은 C-대-E BCC에 대한 신호 처리 세부사항들은 2004년 1월 20일자로 출원된 미국 출원 일련 번호 10/762,100(Faller 13-1)에 설명되어 있다.
송신되는 채널들에 기초한 큐들에 의한
BCC
상술된 바와 같이, 종래의 C-대-E BCC 방식에서, 인코더는 C개의 원래 채널들로부터 BCC 큐들(예를 들어, ICTD, ICLD, 및/또는 ICC 큐들)를 도출한다. 또한, 인코더는 C개의 원래 채널들을 다운믹싱하여, 도출된 BCC 큐들과 함께 디코더에 송신되는 E개의 다운믹싱된 채널들을 생성하며, 상기 디코더는 송신되는 (즉, 사이드 정보) BCC 큐들을 사용하여 E개의 송신되는 채널들로부터 C개의 합성된 채널들을 생성한다.
그러나, E개의 송신되는 채널들로부터 도출되는 큐들로 BCC 방식을 구현하는 것이 바람직할 수 있는 일부 애플리케이션들이 존재한다. 하나의 예시적인 애플리 케이션에서, 인코더는 C개의 원래 채널들을 다운믹싱하여, E개의 다운믹싱된 채널들을 생성하지만, 사이드 정보로서 임의의 BCC 큐들을 디코더에 송신하지 않는다. 대신에, 디코더(또는 아마도 디코더 상부의 사전-프로세서)는 송신되는 채널들로부터 BCC 큐들을 도출하고, 이러한 도출된 BCC 코드들을 사용하여, E개의 송신되는 채널들로부터 C개의 합성된 채널들을 생성한다. 유용하게도, 이 상황에서 송신되는 데이터의 량은 사이드 정보로서 BCC 큐들을 송신하는 종래의 BCC 방식의 데이터 량보다 더 적다.
또 다른 예시적인 애플리케이션에서, 인코더에서 E개의 다운믹싱된 채널들을 생성하기 위한 C개의 원래 채널들의 다운믹싱이 존재하지 않는다. 이 애플리케이션에서, 원래 채널들만이 E개의 송신되는 채널들일 수 있다. 이전 예에서와 같이, 디코더(또는 사전-프로세서)는 송신되는 채널들로부터 BCC 큐들을 도출하고, 이러한 도출된 BCC 코드들을 사용하여 E개의 송신되는 채널들로부터 C개의 합성된 채널들을 생성한다. 이론적으로, 이 애플리케이션은 기존의 스테레오 신호들을 다-채널 (예를 들어, 서라운드) 신호들로 변환하는데 사용될 수 있다.
본 발명의 어떤 실시예들에서, BCC 코드들은 인코더에서 도출되고 송신되는 채널들과 함께 사이드 정보로서 디코더에 송신될 수 있고, 여기서 이러한 BCC 코드들은 원래 (예를 들어, 사전-다운믹싱된) 채널들로부터 보다는 오히려, 송신되는 (예를 들어, 다운믹싱된) 채널들로부터 도출된다는 점에 주의하라.
도 10은 본 발명의 일 실시예에 따른 5-대-2 BCC 오디오 처리 시스템(1000)의 블록도를 도시하며, 여기서 BCC 코드들은 송신되는 채널들과 함께 사이드 정보 로서 인코더로부터 디코더에 송신되지 않는다. 5-대-2 BCC 시스템(1000)은 인코더(1002) 및 디코더(1004)를 포함한다. 인코더(1002)는 다운믹서(1006)를 포함하는 반면, 디코더(1004)는 큐 추정기(1008), 큐 맵퍼(1010), 및 합성기(1012)를 포함한다. 이 논의가 5-대-2 BCC 방식들과 관련될지라도, 본 발명은 C-대-E BCC 방식들에 일반적으로 적용될 수 있고, 여기서 C>E>1이다.
인코더(1002)에서, 다운믹서(1006)는 5개의 원래 서라운드 채널들(xi(n))을 다운믹싱하여, 2개의 송신되는 스테레오 채널들(yi(n))을 생성한다. 디코더(1004)에서, 큐 추정기(1008)는 송신되는 스테레오 신호로부터 추정된 채널간 큐들을 생성하고, 큐 맵퍼(1010)는 이러한 스테레오 큐들을 서라운드 큐들로 맵핑하고, 합성기(1012)는 이러한 서라운드 큐들을 2개의 송신되는 스테레오 채널에 적용하여, 5개의 합성된 서라운드 채널들()을 생성한다.
도 10에 도시된 바와 같이, 도 2에 도시된 바와 같은 종래의 BCC 방식과 달리, 시스템(1000)의 인코더(1002)는 원래 서라운드 채널들로부터 BCC 큐들을 생성하지 않는다. 오히려, 큐들은 합성된 서라운드 채널들을 생성하는데 사용하기 위하여 디코더(1004)에서 송신되는, 다운믹싱된 스테레오 채널들로부터 도출된다. 이와 같이, 시스템(1000)에서, BCC 큐들은 다운믹싱된 스테레오 채널들과 함께 사이드 정보로서 송신되지 않는다.
하나의 가능한 구현예에 따르면, 인코더(1002)는 5-채널 360°서라운드 사운드 이미지를 2-채널 60°스테레오 신호로 압축하는데, 여기서 스테레오 신호는 5- 채널 서라운드 사운드 이미지에서의 청각 이벤트들이 스테레오 사운드 이미지에서 상이한 위치들에 나타나도록 생성된다. 디코더(1004)에서, 스테레오 이미지에서의 각각의 청각 이벤트에 대한 BCC 큐들은 청각 이벤트가 다시 원래 서라운드 이미지에서의 자신의 근사 위치에 합성된 서라운드 이미지에서 맵핑될 수 있도록 선택된다.
인코더 처리
도 11a는 하나의 가능한 5-채널 서라운드 구성을 도시하며, 여기서 좌측 확성기(#1)은 중심 확성기(#3)의 30°좌측에 위치되고, 우측 확성기(#2)는 중심 확성기의 30°우측에 위치되며, 좌측 후방 확성기(#4)는 중심 확성기의 110°좌측에 위치되고, 우측 후방 확성기는 중심 확성기의 110°우측에 위치된다.
도 11b는 도 11a의 5개의 확성기의 방향을 단위 벡터(S i)로서 도식적으로 나타내며, 여기서 X-축은 중심 확성기의 방위를 나타내며, Y-축은 중심 스피커의 90°좌측 방위를 나타낸다.
도 11c는 도 11a의 5-채널 서라운드 사운드가 도 10의 인코더(1002)에 의해 맵핑되는 하나의 가능한 스테레오 구성을 도시하며, 여기서 좌측 및 우측 확성기들은 60°만큼 분리된다.
도 12는 도 11a의 5개의 서라운드 채널들(xi(n))을 도 11c의 2개의 스테레오 채널들(yi(n))로 다운믹싱하는데 사용될 수 있는 하나의 가능한 맵핑을 도식적으로 나타낸다. 이 맵핑에 따르면, -180 및 -30도 사이에 위치되는 청각 이벤트들은 -30 내지 -20도의 범위로 맵핑된다(각도 압축된다). -30 및 0도 사이에 위치되는 청각 이벤트들은 -20 및 0으로 맵핑된다(각도 압축된다). 유사하게, 양의 각도의 경우에, 30 및 180도 사이에 위치되는 청각 이벤트들은 20 내지 30도의 범위로 맵핑된다(각도 압축된다). 0 및 30도 사이에 위치되는 청각 이벤트들은 0 및 20도로 맵핑된다(각도 압축된다). 효과적으로, 이것은 원래의 ±30도 정면 이미지를 ±20도로 압축하며, (-30 내지 -20 및 20 내지 30도 범위들로) 압축된 전방 이미지의 측면들 상에 서라운드 이미지의 측면 및 후방 부분들을 추가한다.
상이한 영역 수들을 갖는 것 및/또는 하나 이상의 비-선형 영역들을 갖는 것을 포함하는 다른 변형들이 가능하다.
도 12의 맵핑은 다음과 같이 식(15)의 매트릭스-기반 변환에 따라 표현될 수 있고,
여기서, 예를 들어, (2x5) 다운믹싱 메트릭스의 처음 2개의 컬럼들의 팩터들(0.9 및 0.44)은 ±30°로부터 ±20°로의 압축에 대응하는 반면, 최종 2개의 칼럼들의 팩터들(1.0 및 0.0)은 ±110°로부터 ±30°로의 압축에 대응한다. 다운믹싱 동안 전체 신호 거듭제곱 레벨을 보존하기 위하여, 다운믹싱 매트릭스의 각 컬럼의 엔트 리들의 제곱들의 합은 1이 된다는 점을 또한 주의하라.
이 변환에 따르면, 좌측 및 우측 채널들(#1 및 #2)은 크로스토크를 갖는 송신된 스테레오 신호와 혼합된다. 중심 채널(#3)은 동일한 강도로 좌측 및 우측과 혼합된다. 이와 같이, 서라운드 이미지의 전방 중심은 스테레오 이미지의 전방 중심에서 유지된다. 좌측 채널(#4)은 좌측 스테레오 채널에만 혼합되고, 우측 채널(#5)은 우측 스테레오 채널에만 혼합된다. 여기서 크로스토크가 사용되지 않기 때문에, 좌측 및 우측 후방 채널들은 스테레오 이미지의 먼 좌측 및 우측으로 맵핑된다.
식(15)에서 표현되는 다운믹싱 동작은 시간 영역에서 구현되고, 이는 동일한 다운믹싱 매트릭스가 전체 주파수 대역에 대해 사용된다는 것을 나타낸다. 대안적인 구현예들에서, 다운믹싱은 이론적으로, 각각의 상이한 주파수에 대해 상이한 다운믹싱 매트릭스가 사용될 수 있는 주파수 영역에서 구현될 수 있다.
대안적인 실시예에서, 식(15)에서와 같이 고정된 다운믹싱 매트릭스를 적용하기보다는 오히려, 도 10의 다운믹서(1006)가 적응형 다운믹싱을 구현할 수 있다. 도 13은 본 발명의 하나의 가능한 적응형 다운믹싱 동작에 따른, 각각의 시간 기간(예를 들어, 20msec)에서 구현되는 처리의 흐름도를 도시한다. 특정 구현예에 따르면, 도 13의 처리는 전체 스펙트럼에 또는 개별적인 BCC 서브대역들에 독립적으로 적용될 수 있다.
특히, 서라운드 이미지에서의 대응하는 청각 이벤트의 방향이 다음과 같이 식(16)에 따라 추정되고(도 13의 단계 1302),
여기서, α는 도 11b의 X-축에 대한 청각 이벤트의 추정된 각도이고, Pi(k)는 시간 인덱스(k)에서 서라운드 채널(i)의 거듭제곱이며, s i는 서라운드 채널(i)에 대한 단위 벡터이고, 여기서 θi는 도 11b의 X-축에 대한 서라운드 확성기 각도이다.
그 후, 서라운드 공간에서의 청각 이벤트의 각도(α)가 예를 들어, 도 12의 변환을 사용하여 스테레오 공간에서의 각도(φ)로 맵핑된다(단계 1304).
그 후, 스테레오 공간에서의 2개의 스테레오 채널들 사이에서 원하는 레벨 차를 도출하기 위하여 진폭-패닝 법칙(또는 다른 가능한 주파수-의존 관계)이 적용된다(단계 1306). 진폭 패닝이 적용될 때, 청각 이벤트의 지각된 방향은 다음과 같이 식(17)에 의해 제공된 스테레오의 사인 법칙으로부터 추정될 수 있고,
여기서 o°<φ0≤90°는 도 11b의 X-축 및 각각의 스테레오 확성기 사이의 각도의 크기이고, φ는 청각 이벤트의 대응하는 각도이며, a1, a2는 다음과 같이 식(18)에 따른 레벨-차이 큐 ICLD와 관련되는 스케일 팩터들이다.
도 14는 각도들(φ0 및 φ) 및 스케일 팩터들(a1 및 a2)을 도시하며, 여기서 s(n)은 진폭 패닝이 스케일 팩터들(a1 및 a2)에 기초하여 적용될 때, 각도(φ)에서 나타나는 모노 신호를 나타낸다. 도 15는 φ0=30°인 표준 스테레오 구성에 대하여 식(17)의 스테레오의 사인 법칙에 따른 ICLD 및 스테레오 이벤트 각도(φ) 사이의 관계를 도식적으로 나타낸다.
그 후, 5개의 서라운드 채널들이 다음과 같이 식(19)에 따라 종래의 다운믹싱을 사용하여 다운믹싱된다(단계 1308).
이 표준 다운믹싱에 따르면, (i) 좌측 및 좌측 후방 서라운드 채널들은 좌측 스테레오 채널로 맵핑되고, (ii) 우측 및 우측 후방 서라운드 채널들은 우측 스테레오 채널로 맵핑되며, (iii) 중심 서라운드 채널은 좌측 및 우측 스테레오 채널들 사이에 고르게 분할되며, 이들 모두는 서라운드 이미지의 좌측 및 우측 사이에 임의의 크로스토크가 없다.
그 후, 좌측 및 우측 스테레오 채널들은 식(20)이 다음과 같이 충족되도록 진폭 패닝으로부터 도출되는 레벨 차이에 대응하는 스케일 팩터들(a1 및 a2)을 사용하여 각각 스케일링되며(단계 1310).
여기서, P1 및 P2는 각각 스케일링 이후의 좌측 및 우측의 다운믹싱된 스테레오 채널들의 거듭제곱들이고, 스케일링 팩터들은 총 스테레오 거듭제곱이 스케일링 전후에 동일하도록 하기 위하여 표준화된다(즉, ).
또 다른 실시예에 따르면, 다운믹싱 변환은 둘 모두의 내용이 본원에 참조되어 있는 J. Hall의 "Surround sonud past, present, and future," Tech. Rep., Dolby Laboratories, 1999, www.dolby.com/tech/, 및 R. Dressler의 "Dolby Surround Prologic II Decoder - Principles of operation," Tech. Rep., Dolby Laboratories, 2000, www.dolby.com/tech/에 설명된 것과 같은 종래의 매트릭싱 알고리즘들의 원리들에 기초하여 발생된다. 매트릭싱 알고리즘은 채널들의 수, 예를 들어, 5개의 입력 채널들을 2개의 스테레오(즉, 좌측 및 우측) 출력 채널들로 감소시키기 위하여 다운믹싱 매트릭스를 적용한다. 통상적으로, 후방 입력 채널들은 좌측 및 우측 입력 채널들과 이-위상으로 혼합되어, (후방 채널들이 스테레오 신호에서 이-위상이라는 것을 가정함으로써) 매트릭싱 디코더에서 어느 정도까지 복구될 수 있다. 예를 들어, 하나의 가능한 시간-영역 다운믹싱 동작이 다음과 같이 식(21)에 의해 규정되고,
여기서, 다운믹싱 매트릭스에서의 음의 팩터는 이-위상으로 다운믹싱되는 채널들에 대응한다. 여기서 좌측 및 우측 채널들(#1 및 #2)에 대하여, 크로스토크가 도입되지 않는다는 점에 주의하라. 이와 같이, 전체 전방 서라운드 이미지 폭은 임의의 이미지 압축 없이 유지된다. 여기서, 또한, 다운믹싱은 대안적으로 상이한 주파수 서브대역들에 대해 사용되는 상이한 다운믹싱 매트릭스들에 의해 주파수 영역에서 구현될 수 있다. 더구나, 다운믹싱은 (식(15)에서와 같이) 고정되거나, (식(19) 및 도 13에서와 같이) 적응형 알고리즘의 부분으로서 적용될 수 있다.
일반적으로, 5개의 서라운드 채널들로부터 2개의 스테레오 채널들을 생성하는데 어떤 기술이 사용되든지 간에, 그 기술은 바람직하게는, 도 10의 디코더(1004)와 같은 디코더가 결과적인 송신된 스테레오 이미지를 예를 들어, 원래의 5-채널 서라운드 이미지에 근사화되는 합성된 서라운드 이미지로 맵핑할 수 있도록 설계된다.
디코더 처리
도 10을 다시 참조하면, 특정 구현예에 따르면, 송신되는 스테레오 신호에 대해 디코더(1004)의 큐 추정기(1008)에 의해 생성되는 추정된 채널간 큐들은 ICLD, ICTD, 및/또는 ICC 데이터를 포함할 수 있다. 추정된 ICLD, ICTD, 및/또는 ICC는 2개의 송신되는 스테레오 채널의 대응하는 서브대역 신호들( 및 )에 식(7) 내지 식(11)을 적용함으로써 생성될 수 있다.
도 16은 본 발명의 하나의 가능한 디코딩 동작에 따른, 각각의 시간 기간(예를 들어, 20msec)에서 구현되는 처리의 흐름도이다. 이 예시적인 절차는 ICTD 규들이 아니라, ICLD 및 ICC 큐들을 사용한다. 각각의 시간(k) 및 각각의 BCC 서브대역에서, 다음 처리가 독립적으로 수행된다.
도 10의 큐 추정기(1008)는 식(10) 및 식(11)을 사용하여 추정된 ICLD 및 ICC 값들 도출하고(도 16의 단계 1602) 나서, 식(17)의 진폭-패닝 법칙에 기초하여 식(18)을 사용하여 스테레오 이미지에서의 청각 이벤트의 각도(φ)를 추정한다(단계 1604).
도 10의 큐 맵퍼(1010)는 예를 들어, 도 12의 변환을 사용하여 스테레오 이벤트 각도(φ)를 서라운드 공간에서의 대응하는 청각 이벤트 각도(α)로 맵핑한다(단계 1606).
도 10의 합성기(1012)는 송신되는 스테레오 채널들로부터 5개의 업믹싱된 채널들을 생성한다(단계 1608). 도 4의 업믹서(404)와 유사한, 합성기(1012)의 업믹서에 의해 적용되는 업믹싱 매트릭스는 도 10의 다운믹서(1006)에 의해 적용되는 다운믹싱 매트릭스에 따를 것이다. 예를 들어, 식(19)의 다운믹싱 동작에 대응하는 업믹싱 동작은 다음과 같이 식(22)에 의해 제공되며,
여기서, 좌측 스테레오 채널은 좌측 및 좌측 후방 서라운드 채널들 둘 모두로 복제되고, 우측 스테레오 채널은 우측 및 우측 후방 서라운드 채널들 둘 모두로 복제되며, 좌측 및 우측 스테레오 채널들은 중심 서라운드 채널에 대해 평균화된다. 유사하게, 식(21)의 다운믹싱 동작에 대응하는 업믹싱 동작이 다음과 같이 식(23)에 의해 제공되며,
여기서, 식(22)에서와 같이, 좌측 스테레오 채널은 좌측 서라운드 채널로 복제되고, 우측 스테레오 채널은 우측 서라운드 채널로 복제되며, 좌측 및 우측 스테레오 채널들은 중심 서라운드 채널에 대해 평균화된다. 그러나, 이 경우에, 좌측 및 우측 스테레오 채널은 좌측 후방 및 우측 후방 서라운드 채널들에 대한 베이스 채널들을 형성하기 위하여 역 메트릭싱을 사용하여 혼합된다.
단계(1610)에서, 합성기(1012)는 단계(1602)에서 추정된 ICLD 및 ICC 큐들에 기초하여 업믹싱된 채널들을 스케일링한다. 특히, 합성기(1012)는 (ICTD 값들을 또한 사용하는 대안적인 구현예들에서, (di(k)) 값들 중 적어도 일부는 제로가 아닐지 라도) 모든 ICTD 값들(di(k))을 0으로 설정한 채로, 추정된 ICLD 및 ICC 값들을 적용하여, 도 4에 도시된 BCC 합성 처리와 유사한 방식으로 합성된 5-채널 서라운드 신호를 생성한다. 예를 들어, 하나의 가능한 구현예에서, 이 스케일링은 다음과 같이 구현된다.
(1) 서라운드 이벤트 각도(α)를 즉시 서라운딩하는 확성기 쌍(m, n)을 선택하라.
(2) 다음과 같이 식(23)에 따라 확성기들(m 및 n)에 제공되는 직접적인 (즉, 상관된) 사운드의 거듭제곱의 비를 계산하기 위하여 식(17)에 의해 제공된 것과 같은 패닝 법칙을 적용하라.
여기서 Pm은 확성기(m)에 제공된 직접적인 사운드의 거듭제곱이고, Pn은 확성기(n)에 제공된 직접적인 사운드의 거듭제곱이다.
(3) 송신되는 스테레오 신호로부터 추정된 ICC 큐(c12(k))에 기초하여, 모든 확성기들에 거듭제곱(Pα)의 상관해제된(예를 들어, 늦은 잔향) 사운드를 인가하는데, 여기서, 상관해제된 신호 거듭제곱(Pα)은 다음과 같이 식(24)에 따른 ICC와 관련되며,
여기서, C는 사운드 신호에서의 채널들의 수이다.
도 4의 블록(410)과 유사한 합성기(1012)의 상관해제 블록은 식(23) 및 식(24)를 사용하여 계산되는 직접적이고 상관해제된 사운드의 량들을 거의 포함하는 출력 채널 서브대역들을 생성한다.
송신된 스테레오 신호가 식(21)에 따라 생성되었다면, 다음의 고려사항들이 적용될 수 있다.
부가적인 대안
실시예들
본 발명이 BCC 큐들이 임의의 서브대역들에 대해 송신되는 구현예들의 상황에서 설명되었을지라도, 대안적인 구현예들에서, 큐들은 일부 서브대역들에 대해서는 송신될 수 있는 반면, 다른 서브대역들은 송신된 큐를 갖지 않는다. 이러한 구현예들에서, 디코더는 큐들 없이 송신되는 서브대역들 중 하나 이상으로부터 큐들 을 도출할 것이다.
상술된 바와 같이, 본 발명이 5-대-2 BCC 방식의 상황에서 설명되었을지라도, 일반적으로, 본 발명은 상술된 5-대-2 BCC 방식에서와 동일한 원리들을 적용함으로써 임의의 C-대-E BCC 방식에 대해서 구현될 수 있으며, 여기서 C>E>1이다. 본 발명의 어떤 실시예들에 따른 BCC 방식은 BCC와 같은 합성을 사용하여 다-채널 신호를 생성하기 위해 다-채널 큐들을 계산할 시에 사용하기 위한 송신된 채널들 사이의 채널간 큐들의 추정을 포함한다. 상술된 예들에서, 추정된 큐들이 송신되는 채널들로부터 디코더에서 도출될지라도, 이론적으로, 추정된 큐들 또는 다-채널 큐들조차도 인코더 또는 디코더 상부의 다른 프로세서에서 생성되고 나서, 합성된 다-채널 신호를 생성하는데 사용하기 위하여 디코더로 송신될 수 있다.
본 발명이 ICTD, ICLD, 및/또는 ICC를 포함한 BCC 코딩 방식들의 상황에서 설명되었을지라도, 본 발명은 또한 하나 이상의 부가적인거나 대안적인 유형의 코드들을 포함하는 다른 BCC 코딩 방식들의 상황에서 구현될 수 있다.
본 발명이 BCC 코딩 방식의 상황에서 설명되었을지라도, 본 발명은 또한 오디오 신호들이 상관해제되는 다른 오디오 처리 시스템들 또는 신호들을 상관해제시킬 필요가 있는 다른 오디오 처리의 상황에서 구현될 수 있다.
본 발명이 인코더가 시간 영역에서 입력 오디오 신호를 수신하고 시간 영역에서 송신되는 오디오 신호들을 생성하며 디코더가 시간 영역에서 송신된 오디오 신호들을 수신하고 시간 영역에서 재생 오디오 신호들을 생성하는 구현예들의 상황에서 설명되었을지라도, 본 발명은 이에 국한되지 않는다. 예를 들어, 다른 구현예 들에서, 송신되는 입력, 및 재생 오디오 신호들 중 어느 하나 또는 그 이상은 주파수 영역에서 표현될 수 있다.
BCC 인코더들 및/또는 디코더들은 텔레비전 또는 전자 음악 배포, 영화관들, 방송, 스트리밍, 및/또는 수신을 위한 시스템들을 포함하는 다양한 애플리케이션들 또는 시스템들과 함께 사용되거나 상기 다양한 애플리케이션들 또는 시스템들 내로 통합될 수 있다. 이들은 예를 들어, 지상, 위성, 케이블, 인터넷, 인트라넷, 또는 물리적 매체(예를 들어, 콤팩트 디스크들, 디지털 다기능 디스크들, 반도체 칩들, 하드 드라이브들, 메모리 카드들 등)를 통한 인코딩/디코딩 송신용 시스템들을 포함한다. BCC 인코더들 및/또는 디코더들은 또한 예를 들어, 다수의 기계들, 플랫폼들, 또는 매체에 대해 발행될 수 있는 교육 및/또는 엔터테인먼트(동작, 롤 플레이, 전략, 모험, 시뮬레이션들, 레이싱, 스포츠, 아케이드, 카드, 및 보드 게임들)용으로 사용자와 대화하도록 의도된 대화식 소프트웨어 제품들을 포함하는 게임들 및 게임 시스템들에서 사용될 수 있다. 또한, BCC 인코더들 및/또는 디코더들은 오디오 레코더들/플레이어들 또는 CD-ROM/DVD 시스템들에 통합될 수 있다. BCC 인코더들 및/또는 디코더들은 또한 디지털 디코딩(예를 들어, 플레이어, 디코더)을 통합하는 PC 소프트웨어 애플리케이션 및 디지털 인코딩 케이퍼빌리티들(예를 들어, 인코더, 립퍼(ripper), 레코더, 또는 주크박스)을 통합하는 소프트웨어 애플리케이션들 내로 통합될 수 있다.
본 발명은 (ASIC 또는 FPGA와 같은) 단일 집적 회로, 다중-칩 모듈, 단일 카드, 다중-카드 회로 팩으로서의 가능한 구현예를 포함하는 회로-기반 처리들로서 구현될 수 있다. 당업자들에게 명백한 바와 같이, 회로 소자들의 다양한 기능들은 또한 소프트웨어 프로그램에서의 처리 단계들로서 구현될 수 있다. 이와 같은 소프트웨어는 예를 들어, 디지털 신호 프로세서, 마이크로-제어기, 또는 범용 컴퓨터에서 사용될 수 있다.
본 발명은 방법들 및 이들 방법들을 실행하는 장치들의 형태로 구현될 수 있다. 본 발명은 또한 플로피 디스켓들, CD-ROM들, 하드 드라이브들, 또는 임의의 다른 기계-판독 가능 저장 매체와 같은 유형 매체에서 구현되는 프로그램 코드의 형태로 구현될 수 있고, 상기 프로그램 코드가 컴퓨터와 같은 기계 내로 로딩되어 상기 기계에 의해 실행될 때, 상기 기계는 본 발명을 실행하는 장치가 된다. 본 발명은 또한 예를 들어, 저장 매체에 저장되든지, 기계 내로 로딩되어 상기 기계에 의해 실행되든지, 또는 전기 와이어링 또는 케이블링, 광섬유들, 또는 전자기 방사와 같은 어떤 송신 매체 또는 캐리어를 통하여 송신되든지 간에, 프로그램 코드의 형태로 구현될 수 있고, 상기 프로그램 코드가 컴퓨터와 같은 기계 내로 로딩되어 상기 기계에 의해 실행될 때, 상기 기계는 본 발명을 실행하는 장치가 된다. 범용 프로세서 상에서 구현될 때, 프로그램 코드 세그먼트들은 특정 논리 회로들과 유사하게 동작하는 특정한 디바이스를 제공하기 위하여 프로세서와 결합한다.
본 발명은 또한 상기 본 발명의 방법 및/또는 장치를 사용하여 생성되는 자기 기록 매체 등에 저장된 자기-필드 변화들을 매체를 통해 전기적으로 또는 선택적으로 송신되는 신호 값들의 비트스트림 또는 다른 시퀀스의 형태로 구현할 수 있다.
본 발명의 특성을 설명하기 위하여 서술되고 설명되는 부분들의 세부사항들, 재료들, 및 배열들의 다양한 변경들이 다음의 청구항들에 표현된 바와 같은 본 발명의 범위를 벗어남이 없이 당업자에 의해 행해질 수 있다는 것이 또한 이해될 것이다.
다음의 청구항들에서의 단계들이 만약 있다면, 대응하는 라벨링을 갖는 특정 시퀀스에서 열거될지라도, 청구항 열거들이 이들 단계들 중 일부 또는 모두를 구현하기 위한 특정 시퀀스를 나타내지 않는 경우, 이들 단계들은 반드시 그 특정 시퀀스로 구현되는 것으로 국한되도록 의도되는 것은 아니다.
Claims (30)
- E개의 송신되는 오디오 채널들로부터 C개의 재생 오디오 채널들을 합성하는 방법으로서, C>E>1인, 상기 합성 방법에 있어서,상기 E개의 송신되는 채널들로부터 하나 이상의 큐들을 도출하는 단계;상기 E개의 송신되는 채널들 중 하나 이상을 업믹싱하여 하나 이상의 업믹싱된 채널들을 생성하는 단계; 및상기 하나 이상의 도출된 큐들에 기초하여 상기 하나 이상의 업믹싱된 채널들로부터 상기 C개의 재생 채널들 중 하나 이상을 합성하는 단계를 포함하는, 합성 방법.
- 제 1 항에 있어서, 상기 방법은 상이한 서브대역들에 대해 독립적으로 구현되는, 합성 방법.
- 제 1 항에 있어서,송신되는-채널 영역에서의 상기 하나 이상의 도출된 큐들은 재생-채널 영역에서의 하나 이상의 맵핑된 큐들로 맵핑되며,상기 하나 이상의 재생 채널들은 상기 하나 이상의 맵핑된 큐들을 상기 하나 이상의 업믹싱된 채널들에 인가함으로써 합성되는, 합성 방법.
- 제 1 항에 있어서, 상기 하나 이상의 도출된 큐들은 ICLD 큐를 포함하는, 합성 방법.
- 제 4 항에 있어서, 상기 하나 이상의 도출된 큐들은 ICC 큐를 더 포함하는, 합성 방법.
- 제 1 항에 있어서, 상기 도출 단계는 큐를 도출하기 위하여 한 쌍의 송신되는 채널들에 패닝 법칙(panning law)을 적용하는 단계를 포함하는, 합성 방법.
- 제 1 항에 있어서,송신되는-채널 영역에서의 청각 이벤트에 대응하는 정보를 결정하기 위하여 패닝 법칙을 적용하는 단계;상기 송신되는-채널 영역에서의 청각 이벤트에 대응하는 정보를 재생-채널 영역에서의 청각 이벤트에 대응하는 정보로 맵핑하는 단계;적어도 2개의 재생 채널들에 대한 상대적인 거듭제곱 레벨들을 결정하기 위하여 상기 재생-채널 영역에 패닝 법칙을 적용하는 단계; 및상기 결정된 상대적인 거듭제곱 레벨들에 기초하여 적어도 2개의 재생 채널들을 스케일링하는 단계를 포함하는, 합성 방법.
- 제 7 항에 있어서,상기 송신되는 채널로부터 ICC 큐를 추정하는 단계; 및상기 ICC 큐에 기초하여 하나 이상의 재생 채널들에 대한 상관해제 거듭제곱 레벨을 생성하는 단계를 더 포함하는, 합성 방법.
- 제 1 항에 있어서,상기 E개의 송신되는 채널들은 C개의 입력 오디오 채널들에 다운믹싱 동작을 적용함으로써 생성되고,상기 업믹싱 단계는 E개의 송신되는 채널들에 업믹싱 동작을 적용하여 C개의 업믹싱된 채널들을 생성하는 단계를 포함하며,상기 업믹싱 동작은 다운믹싱 동작에 기초하여 선택되는, 합성 방법.
- 제 9 항에 있어서, 상기 업믹싱 동작 중 적어도 일부는 매트릭싱에 기초하는, 합성 방법.
- 제 9 항에 있어서, 상기 업믹싱 동작은 하나 이상의 비-중심(non-center) 업믹싱된 채널들을 생성하기 위하여 적어도 한 쌍의 송신되는 채널들 사이의 크로스토크(crosstalk)를 포함하는, 합성 방법.
- E개의 송신되는 오디오 채널들로부터 C개의 재생 오디오 채널들을 합성하는 장치로서, C>E>1인, 상기 합성 장치에 있어서,상기 E개의 송신되는 채널들로부터 하나 이상의 큐들을 도출하는 수단; 및상기 E개의 송신되는 채널들 중 하나 이상을 업믹싱하여 하나 이상의 업믹싱된 채널들을 생성하는 수단; 및상기 하나 이상의 도출된 큐들에 기초하여 상기 하나 이상의 업믹싱된 채널들로부터 상기 C개의 재생 채널들 중 하나 이상을 합성하는 수단을 포함하는, 합성 장치.
- E개의 송신되는 오디오 채널들로부터 C개의 재생 오디오 채널들을 합성하는 장치로서, C>E>1인, 상기 합성 장치에 있어서,상기 E개의 송신되는 채널들로부터 하나 이상의 큐들을 도출하도록 적응된 큐 추정기; 및상기 E개의 송신되는 채널들 중 하나 이상을 업믹싱하여 하나 이상의 업믹싱된 채널들을 생성하고,상기 하나 이상의 도출된 큐들에 기초하여 상기 하나 이상의 업믹싱된 채널들로부터 상기 C개의 재생 채널들 중 하나 이상을 합성하도록 적응된 합성기를 포함하는, 합성 장치.
- 제 13 항에 있어서,송신되는-채널 영역에서의 상기 하나 이상의 도출된 큐들을 재생-채널 영역에서의 하나 이상의 맵핑된 큐들로 맵핑하도록 적응된 큐 맵퍼를 더 포함하며,상기 합성기는 상기 하나 이상의 맵핑된 큐들을 상기 하나 이상의 업믹싱된 채널들에 인가함으로써 상기 하나 이상의 재생 채널들을 합성하도록 적응된, 합성 장치.
- 제 13 항에 있어서,큐 맵퍼를 더 포함하며,상기 큐 추정기는 송신되는 채널-영역에서의 청각 이벤트 방향에 대응하는 정보를 결정하기 위하여 패닝 법칙을 적용하도록 적응되고,상기 큐 맵퍼는 상기 송신되는-채널 영역에서의 청각 이벤트 방향에 대응하는 정보를 재생-채널 영역에서의 청각 이벤트 방향에 대응하는 정보로 맵핑하도록 적응되며,상기 합성기는:상기 재생 채널들의 쌍에 대한 상대적인 거듭제곱 레벨들을 결정하기 위하여 상기 재생 채널들의 쌍에 상기 재생-채널 영역에서의 패닝 법칙을 적용하고,상기 결정된 상대적인 거듭제곱 레벨들에 기초하여 상기 재생 채널들의 쌍을 스케일링하도록 적응되는, 합성 장치.
- 제 15 항에 있어서,상기 큐 추정기는 상기 송신되는 채널들로부터 ICC 큐를 추정하도록 더 적응 되며,상기 합성기는 상기 ICC 큐에 기초하여 각각의 재생 채널에 대한 상관해제된 거듭제곱 레벨을 생성하도록 더 적응되는, 합성 장치.
- 제 13 항에 있어서,상기 E개의 송신되는 채널들은 C개의 입력 오디오 채널들에 다운믹싱 동작을 적용함으로써 생성되고,상기 합성기는 E개의 송신된 채널들에 업믹싱 동작을 적용하여 C개의 업믹싱된 채널들을 생성하도록 적응되며,상기 업믹싱 동작은 상기 다운믹싱 동작에 기초하여 선택되는, 합성 장치.
- 인코딩된 프로그램 코드를 갖는 기계-판독 가능 매체로서, 상기 프로그램 코드가 기계에 의해 실행될 때, 상기 기계가 E개의 송신되는 오디오 채널들로부터 C개의 재생 오디오 채널들을 합성하는 방법을 구현하며, C>E>1인, 상기 기계-판독 가능 매체에 있어서,상기 방법은:상기 E개의 송신되는 채널들로부터 하나 이상의 큐들을 도출하는 단계;상기 E개의 송신되는 채널들 중 하나 이상을 업믹싱하여 하나 이상의 업믹싱된 채널들을 생성하는 단계; 및상기 하나 이상의 도출된 큐들에 기초하여 상기 하나 이상의 업믹싱된 채널 들로부터 상기 C개의 재생 채널들 중 하나 이상을 합성하는 단계를 포함하는, 기계-판독 가능 매체.
- C개의 입력 오디오 채널들로부터 E개의 송신되는 오디오 채널들을 생성하는 방법으로서, C>E>1인, 상기 생성 방법에 있어서,입력-채널 영역으로부터 송신되는-채널 영역으로의 맵핑에 기초하여 다운믹싱 알고리즘을 생성하기 위해 패닝 법칙을 적용하는 단계; 및상기 C개의 입력 채널들에 상기 다운믹싱 알고리즘을 적용하여 상기 E개의 송신되는 채널들을 생성하는 단계를 포함하는, 생성 방법.
- 제 19 항에 있어서,상기 맵핑은 상기 입력-채널 영역에서의 각각의 입력 채널의 방향을 상기 송신되는-채널 영역에서의 송신되는 채널들의 하나 이상의 방향들로 맵핑하며,상기 다운믹싱 알고리즘은 그 계수들이 상기 패닝 법칙에 기초하여 선택되는 고정된 다운믹싱 매트릭스의 적용을 포함하는, 생성 방법.
- 제 19 항에 있어서, 상기 다운믹싱 알고리즘은 상기 C개의 입력 채널들에서의 청각 이벤트에 대한 방향을 추정하는 것에 기초하여 생성되는, 생성 방법.
- 제 21 항에 있어서, 상기 청각 이벤트 방향은 독립적으로 추정되며, 상기 다 운믹싱 알고리즘은 상기 입력 채널들에서 다수의 서브대역들 각각에 대해 독립적으로 구현되는, 생성 방법.
- 제 21 항에 있어서, 상기 청각 이벤트 방향은 상기 입력 채널들에 대한 거듭제곱-가중된 방향 벡터들의 합에 기초하여 추정되는, 생성 방법.
- 제 21 항에 있어서,상기 다운믹싱 알고리즘은:상기 입력-채널 영역에서의 청각 이벤트 방향을 상기 송신되는-채널 영역에서의 청각 이벤트 방향으로 맵핑하는 단계;상기 C개의 입력 채널들에 다운믹싱 매트릭스를 적용하여 E개의 다운믹싱된 채널들을 생성하는 단계;적어도 2개의 다운믹싱된 채널들에 대한 상대적인 거듭제곱 레벨들을 결정하기 위하여 상기 송신되는-채널 영역에서 상기 패닝 법칙을 적용하는 단계; 및상기 결정된 상대적인 거듭제곱 레벨들에 기초하여 적어도 2개의 다운믹싱된 채널들을 스케일링하여 적어도 2개의 송신되는 채널들을 생성하는 단계를 포함하는, 생성 방법.
- 제 24 항에 있어서, 상기 다운믹싱 알고리즘 중 적어도 일부는 매트릭싱에 기초하는, 생성 방법.
- 제 24 항에 있어서, 상기 다운믹싱 알고리즘은 적어도 2개의 입력 채널들 사이의 크로스토크를 포함하는, 생성 방법.
- 제 19 항에 있어서, 사이드 정보로서 임의의 큐들 없이 상기 E개의 송신되는 채널들을 송신하는 단계를 더 포함하는, 생성 방법.
- C개의 입력 오디오 채널들로부터 E개의 송신되는 오디오 채널들을 생성하는 장치로서, C>E>1인, 상기 생성 장치에 있어서,입력-채널 영역으로부터 송신되는-채널 영역으로의 맵핑에 기초하여 다운믹싱 알고리즘을 생성하기 위하여 패닝 법칙을 적용하는 수단; 및상기 C개의 입력 채널들에 상기 다운믹싱 알고리즘을 적용하여 상기 E개의 송신되는 채널들을 생성하는 수단을 포함하는, 생성 장치.
- 인코딩된 프로그램 코드를 갖는 기계-판독 가능 매체로서, 상기 프로그램 코드가 기계에 의해 실행될 때, 상기 기계가 C개의 입력 오디오 채널들로부터 E개의 송신되는 오디오 채널들을 생성하는 방법을 구현하며, C>E>1인, 상기 기계-판독 가능 매체에 있어서,상기 방법은:입력-채널 영역으로부터 송신되는-채널 영역으로의 맵핑에 기초하여 다운믹 싱 알고리즘을 생성하기 위하여 패닝 법칙을 적용하는 단계; 및상기 C개의 입력 채널들에 상기 다운믹싱 알고리즘을 적용하여 상기 E개의 송신되는 채널들을 생성하는 단계를 포함하는, 기계-판독 가능 매체.
- C개의 입력 오디오 채널들로부터 생성되는 E개의 송신되는 오디오 채널들을 포함하는 비트스트림으로서, C>E>1인, 상기 비트스트림에 있어서,입력-채널 영역으로부터 송신되는-채널 영역으로의 맵핑에 기초하여 다운믹싱 알고리즘을 생성하기 위하여 패닝 법칙을 적용하고,상기 C개의 입력 채널들에 상기 다운믹싱 알고리즘을 적용하여 상기 E개의 송신되는 채널들을 생성하는, 비트스트림.
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US63191704P | 2004-11-30 | 2004-11-30 | |
US60/631,917 | 2004-11-30 | ||
US11/058,747 | 2005-02-15 | ||
US11/058,747 US7787631B2 (en) | 2004-11-30 | 2005-02-15 | Parametric coding of spatial audio with cues based on transmitted channels |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20070094752A true KR20070094752A (ko) | 2007-09-21 |
KR101215872B1 KR101215872B1 (ko) | 2012-12-27 |
Family
ID=36051465
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020077015057A KR101215872B1 (ko) | 2004-11-30 | 2005-11-22 | 송신되는 채널들에 기초한 큐들을 갖는 공간 오디오의파라메트릭 코딩 |
Country Status (7)
Country | Link |
---|---|
US (1) | US7787631B2 (ko) |
EP (1) | EP1817768B1 (ko) |
JP (1) | JP4856653B2 (ko) |
KR (1) | KR101215872B1 (ko) |
HK (1) | HK1106860A1 (ko) |
TW (1) | TWI423250B (ko) |
WO (1) | WO2006060280A2 (ko) |
Families Citing this family (62)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1691348A1 (en) * | 2005-02-14 | 2006-08-16 | Ecole Polytechnique Federale De Lausanne | Parametric joint-coding of audio sources |
DE602006002501D1 (de) * | 2005-03-30 | 2008-10-09 | Koninkl Philips Electronics Nv | Audiokodierung und audiodekodierung |
JP4988716B2 (ja) | 2005-05-26 | 2012-08-01 | エルジー エレクトロニクス インコーポレイティド | オーディオ信号のデコーディング方法及び装置 |
WO2006126844A2 (en) * | 2005-05-26 | 2006-11-30 | Lg Electronics Inc. | Method and apparatus for decoding an audio signal |
WO2007013784A1 (en) * | 2005-07-29 | 2007-02-01 | Lg Electronics Inc. | Method for generating encoded audio signal amd method for processing audio signal |
JP2009503574A (ja) * | 2005-07-29 | 2009-01-29 | エルジー エレクトロニクス インコーポレイティド | 分割情報のシグナリング方法 |
JP5108767B2 (ja) | 2005-08-30 | 2012-12-26 | エルジー エレクトロニクス インコーポレイティド | オーディオ信号をエンコーディング及びデコーディングするための装置とその方法 |
WO2007032648A1 (en) * | 2005-09-14 | 2007-03-22 | Lg Electronics Inc. | Method and apparatus for decoding an audio signal |
ES2478004T3 (es) * | 2005-10-05 | 2014-07-18 | Lg Electronics Inc. | Método y aparato para decodificar una señal de audio |
EP1974344A4 (en) * | 2006-01-19 | 2011-06-08 | Lg Electronics Inc | METHOD AND APPARATUS FOR DECODING A SIGNAL |
TWI329462B (en) * | 2006-01-19 | 2010-08-21 | Lg Electronics Inc | Method and apparatus for processing a media signal |
JP4966981B2 (ja) * | 2006-02-03 | 2012-07-04 | 韓國電子通信研究院 | 空間キューを用いたマルチオブジェクト又はマルチチャネルオーディオ信号のレンダリング制御方法及びその装置 |
JP5054035B2 (ja) * | 2006-02-07 | 2012-10-24 | エルジー エレクトロニクス インコーポレイティド | 符号化/復号化装置及び方法 |
KR20080093422A (ko) * | 2006-02-09 | 2008-10-21 | 엘지전자 주식회사 | 오브젝트 기반 오디오 신호의 부호화 및 복호화 방법과 그장치 |
CA2636330C (en) | 2006-02-23 | 2012-05-29 | Lg Electronics Inc. | Method and apparatus for processing an audio signal |
JP2009532712A (ja) * | 2006-03-30 | 2009-09-10 | エルジー エレクトロニクス インコーポレイティド | メディア信号処理方法及び装置 |
EP1853092B1 (en) * | 2006-05-04 | 2011-10-05 | LG Electronics, Inc. | Enhancing stereo audio with remix capability |
AU2007271532B2 (en) * | 2006-07-07 | 2011-03-17 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for combining multiple parametrically coded audio sources |
US7876904B2 (en) * | 2006-07-08 | 2011-01-25 | Nokia Corporation | Dynamic decoding of binaural audio signals |
US20090313029A1 (en) * | 2006-07-14 | 2009-12-17 | Anyka (Guangzhou) Software Technologiy Co., Ltd. | Method And System For Backward Compatible Multi Channel Audio Encoding and Decoding with the Maximum Entropy |
US20080235006A1 (en) * | 2006-08-18 | 2008-09-25 | Lg Electronics, Inc. | Method and Apparatus for Decoding an Audio Signal |
CN101652810B (zh) * | 2006-09-29 | 2012-04-11 | Lg电子株式会社 | 用于处理混合信号的装置及其方法 |
EP2084901B1 (en) | 2006-10-12 | 2015-12-09 | LG Electronics Inc. | Apparatus for processing a mix signal and method thereof |
WO2008060111A1 (en) * | 2006-11-15 | 2008-05-22 | Lg Electronics Inc. | A method and an apparatus for decoding an audio signal |
KR101062353B1 (ko) * | 2006-12-07 | 2011-09-05 | 엘지전자 주식회사 | 오디오 신호의 디코딩 방법 및 그 장치 |
JP5450085B2 (ja) * | 2006-12-07 | 2014-03-26 | エルジー エレクトロニクス インコーポレイティド | オーディオ処理方法及び装置 |
US8200351B2 (en) * | 2007-01-05 | 2012-06-12 | STMicroelectronics Asia PTE., Ltd. | Low power downmix energy equalization in parametric stereo encoders |
WO2008096313A1 (en) | 2007-02-06 | 2008-08-14 | Koninklijke Philips Electronics N.V. | Low complexity parametric stereo decoder |
CN101627425A (zh) * | 2007-02-13 | 2010-01-13 | Lg电子株式会社 | 用于处理音频信号的装置和方法 |
US20100121470A1 (en) * | 2007-02-13 | 2010-05-13 | Lg Electronics Inc. | Method and an apparatus for processing an audio signal |
ATE526663T1 (de) * | 2007-03-09 | 2011-10-15 | Lg Electronics Inc | Verfahren und vorrichtung zum verarbeiten eines audiosignals |
KR20080082916A (ko) * | 2007-03-09 | 2008-09-12 | 엘지전자 주식회사 | 오디오 신호 처리 방법 및 이의 장치 |
US20080298610A1 (en) * | 2007-05-30 | 2008-12-04 | Nokia Corporation | Parameter Space Re-Panning for Spatial Audio |
EP2009892B1 (fr) * | 2007-06-29 | 2019-03-06 | Orange | Positionnement de locuteurs en conférence audio 3D |
JP2010538571A (ja) * | 2007-09-06 | 2010-12-09 | エルジー エレクトロニクス インコーポレイティド | オーディオ信号のデコーディング方法及び装置 |
US8126172B2 (en) * | 2007-12-06 | 2012-02-28 | Harman International Industries, Incorporated | Spatial processing stereo system |
WO2009075511A1 (en) * | 2007-12-09 | 2009-06-18 | Lg Electronics Inc. | A method and an apparatus for processing a signal |
WO2009109217A1 (en) * | 2008-03-03 | 2009-09-11 | Nokia Corporation | Apparatus for capturing and rendering a plurality of audio channels |
WO2010037426A1 (en) * | 2008-10-03 | 2010-04-08 | Nokia Corporation | An apparatus |
EP2194527A3 (en) * | 2008-12-02 | 2013-09-25 | Electronics and Telecommunications Research Institute | Apparatus for generating and playing object based audio contents |
TWI449442B (zh) * | 2009-01-14 | 2014-08-11 | Dolby Lab Licensing Corp | 用於無回授之頻域主動矩陣解碼的方法與系統 |
US8255821B2 (en) * | 2009-01-28 | 2012-08-28 | Lg Electronics Inc. | Method and an apparatus for decoding an audio signal |
CN102577440B (zh) * | 2009-07-22 | 2015-10-21 | 斯托明瑞士有限责任公司 | 改进立体声或伪立体声音频信号的装置和方法 |
RU2607266C2 (ru) * | 2009-10-16 | 2017-01-10 | Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. | Устройство, способ и компьютерная программа для формирования с использованием среднего значения параметров сигнала, подстроенных для обеспечения представления микшированного с повышением сигнала на базе представления микшированного с понижением сигнала и параметрической сторонней информации, связанной с представлением микшированного с понижением сигнала |
KR101809272B1 (ko) * | 2011-08-03 | 2017-12-14 | 삼성전자주식회사 | 다 채널 오디오 신호의 다운 믹스 방법 및 장치 |
ITTO20120067A1 (it) * | 2012-01-26 | 2013-07-27 | Inst Rundfunktechnik Gmbh | Method and apparatus for conversion of a multi-channel audio signal into a two-channel audio signal. |
WO2013120510A1 (en) * | 2012-02-14 | 2013-08-22 | Huawei Technologies Co., Ltd. | A method and apparatus for performing an adaptive down- and up-mixing of a multi-channel audio signal |
EP2645748A1 (en) | 2012-03-28 | 2013-10-02 | Thomson Licensing | Method and apparatus for decoding stereo loudspeaker signals from a higher-order Ambisonics audio signal |
JP6063555B2 (ja) | 2012-04-05 | 2017-01-18 | 華為技術有限公司Huawei Technologies Co.,Ltd. | マルチチャネルオーディオエンコーダ及びマルチチャネルオーディオ信号を符号化する方法 |
US9407992B2 (en) * | 2012-12-14 | 2016-08-02 | Conexant Systems, Inc. | Estimation of reverberation decay related applications |
WO2014126689A1 (en) | 2013-02-14 | 2014-08-21 | Dolby Laboratories Licensing Corporation | Methods for controlling the inter-channel coherence of upmixed audio signals |
WO2014126688A1 (en) | 2013-02-14 | 2014-08-21 | Dolby Laboratories Licensing Corporation | Methods for audio signal transient detection and decorrelation control |
TWI618051B (zh) | 2013-02-14 | 2018-03-11 | 杜比實驗室特許公司 | 用於利用估計之空間參數的音頻訊號增強的音頻訊號處理方法及裝置 |
TWI618050B (zh) | 2013-02-14 | 2018-03-11 | 杜比實驗室特許公司 | 用於音訊處理系統中之訊號去相關的方法及設備 |
JP6248186B2 (ja) | 2013-05-24 | 2017-12-13 | ドルビー・インターナショナル・アーベー | オーディオ・エンコードおよびデコード方法、対応するコンピュータ可読媒体ならびに対応するオーディオ・エンコーダおよびデコーダ |
US9338573B2 (en) | 2013-07-30 | 2016-05-10 | Dts, Inc. | Matrix decoder with constant-power pairwise panning |
EP2866227A1 (en) * | 2013-10-22 | 2015-04-29 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method for decoding and encoding a downmix matrix, method for presenting audio content, encoder and decoder for a downmix matrix, audio encoder and audio decoder |
EP3444815B1 (en) * | 2013-11-27 | 2020-01-08 | DTS, Inc. | Multiplet-based matrix mixing for high-channel count multichannel audio |
EP3369257B1 (en) * | 2015-10-27 | 2021-08-18 | Ambidio, Inc. | Apparatus and method for sound stage enhancement |
US10224042B2 (en) * | 2016-10-31 | 2019-03-05 | Qualcomm Incorporated | Encoding of multiple audio signals |
WO2018182274A1 (ko) * | 2017-03-27 | 2018-10-04 | 가우디오디오랩 주식회사 | 오디오 신호 처리 방법 및 장치 |
US9820073B1 (en) | 2017-05-10 | 2017-11-14 | Tls Corp. | Extracting a common signal from multiple audio signals |
Family Cites Families (90)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4236039A (en) | 1976-07-19 | 1980-11-25 | National Research Development Corporation | Signal matrixing for directional reproduction of sound |
US4799260A (en) * | 1985-03-07 | 1989-01-17 | Dolby Laboratories Licensing Corporation | Variable matrix decoder |
US4815132A (en) | 1985-08-30 | 1989-03-21 | Kabushiki Kaisha Toshiba | Stereophonic voice signal transmission system |
DE3639753A1 (de) | 1986-11-21 | 1988-06-01 | Inst Rundfunktechnik Gmbh | Verfahren zum uebertragen digitalisierter tonsignale |
JP2645731B2 (ja) * | 1988-08-24 | 1997-08-25 | 日本電信電話株式会社 | 音像定位再生方式 |
DE3943879B4 (de) | 1989-04-17 | 2008-07-17 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Digitales Codierverfahren |
JPH0479599A (ja) * | 1990-07-19 | 1992-03-12 | Victor Co Of Japan Ltd | 定位可変音響信号記録再生装置 |
SG49883A1 (en) | 1991-01-08 | 1998-06-15 | Dolby Lab Licensing Corp | Encoder/decoder for multidimensional sound fields |
DE4209544A1 (de) | 1992-03-24 | 1993-09-30 | Inst Rundfunktechnik Gmbh | Verfahren zum Übertragen oder Speichern digitalisierter, mehrkanaliger Tonsignale |
US5291557A (en) * | 1992-10-13 | 1994-03-01 | Dolby Laboratories Licensing Corporation | Adaptive rematrixing of matrixed audio signals |
DE4236989C2 (de) | 1992-11-02 | 1994-11-17 | Fraunhofer Ges Forschung | Verfahren zur Übertragung und/oder Speicherung digitaler Signale mehrerer Kanäle |
US5371799A (en) | 1993-06-01 | 1994-12-06 | Qsound Labs, Inc. | Stereo headphone sound source localization system |
US5463424A (en) | 1993-08-03 | 1995-10-31 | Dolby Laboratories Licensing Corporation | Multi-channel transmitter/receiver system providing matrix-decoding compatible signals |
JP3227942B2 (ja) | 1993-10-26 | 2001-11-12 | ソニー株式会社 | 高能率符号化装置 |
DE4409368A1 (de) | 1994-03-18 | 1995-09-21 | Fraunhofer Ges Forschung | Verfahren zum Codieren mehrerer Audiosignale |
JP3277679B2 (ja) | 1994-04-15 | 2002-04-22 | ソニー株式会社 | 高能率符号化方法と高能率符号化装置及び高能率復号化方法と高能率復号化装置 |
JPH0969783A (ja) | 1995-08-31 | 1997-03-11 | Nippon Steel Corp | オーディオデータ符号化装置 |
JPH09102742A (ja) * | 1995-10-05 | 1997-04-15 | Sony Corp | 符号化方法および装置、復号化方法および装置、並びに記録媒体 |
US5956674A (en) | 1995-12-01 | 1999-09-21 | Digital Theater Systems, Inc. | Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels |
US5771295A (en) * | 1995-12-26 | 1998-06-23 | Rocktron Corporation | 5-2-5 matrix system |
US7012630B2 (en) | 1996-02-08 | 2006-03-14 | Verizon Services Corp. | Spatial sound conference system and apparatus |
DE69734543T2 (de) | 1996-02-08 | 2006-07-20 | Koninklijke Philips Electronics N.V. | Mit 2-kanal- und 1-kanal-übertragung kompatible n-kanalübertragung |
US5825776A (en) | 1996-02-27 | 1998-10-20 | Ericsson Inc. | Circuitry and method for transmitting voice and data signals upon a wireless communication channel |
US5889843A (en) | 1996-03-04 | 1999-03-30 | Interval Research Corporation | Methods and systems for creating a spatial auditory environment in an audio conference system |
US5812971A (en) | 1996-03-22 | 1998-09-22 | Lucent Technologies Inc. | Enhanced joint stereo coding method using temporal envelope shaping |
US6987856B1 (en) | 1996-06-19 | 2006-01-17 | Board Of Trustees Of The University Of Illinois | Binaural signal processing techniques |
US6697491B1 (en) | 1996-07-19 | 2004-02-24 | Harman International Industries, Incorporated | 5-2-5 matrix encoder and decoder system |
SG54379A1 (en) | 1996-10-24 | 1998-11-16 | Sgs Thomson Microelectronics A | Audio decoder with an adaptive frequency domain downmixer |
SG54383A1 (en) | 1996-10-31 | 1998-11-16 | Sgs Thomson Microelectronics A | Method and apparatus for decoding multi-channel audio data |
US5912976A (en) * | 1996-11-07 | 1999-06-15 | Srs Labs, Inc. | Multi-channel audio enhancement system for use in recording and playback and methods for providing same |
US6131084A (en) | 1997-03-14 | 2000-10-10 | Digital Voice Systems, Inc. | Dual subframe quantization of spectral magnitudes |
US6111958A (en) | 1997-03-21 | 2000-08-29 | Euphonics, Incorporated | Audio spatial enhancement apparatus and methods |
US5946352A (en) | 1997-05-02 | 1999-08-31 | Texas Instruments Incorporated | Method and apparatus for downmixing decoded data streams in the frequency domain prior to conversion to the time domain |
US5860060A (en) | 1997-05-02 | 1999-01-12 | Texas Instruments Incorporated | Method for left/right channel self-alignment |
US6108584A (en) | 1997-07-09 | 2000-08-22 | Sony Corporation | Multichannel digital audio decoding method and apparatus |
DE19730130C2 (de) | 1997-07-14 | 2002-02-28 | Fraunhofer Ges Forschung | Verfahren zum Codieren eines Audiosignals |
US5890125A (en) * | 1997-07-16 | 1999-03-30 | Dolby Laboratories Licensing Corporation | Method and apparatus for encoding and decoding multiple audio channels at low bit rates using adaptive selection of encoding method |
US6021389A (en) | 1998-03-20 | 2000-02-01 | Scientific Learning Corp. | Method and apparatus that exaggerates differences between sounds to train listener to recognize and identify similar sounds |
US6016473A (en) | 1998-04-07 | 2000-01-18 | Dolby; Ray M. | Low bit-rate spatial coding method and system |
TW444511B (en) | 1998-04-14 | 2001-07-01 | Inst Information Industry | Multi-channel sound effect simulation equipment and method |
JP3657120B2 (ja) | 1998-07-30 | 2005-06-08 | 株式会社アーニス・サウンド・テクノロジーズ | 左,右両耳用のオーディオ信号を音像定位させるための処理方法 |
US6252910B1 (en) * | 1998-11-11 | 2001-06-26 | Comspace Corporation | Bandwidth efficient QAM on a TDM-FDM system for wireless communications |
JP2000152399A (ja) | 1998-11-12 | 2000-05-30 | Yamaha Corp | 音場効果制御装置 |
US6408327B1 (en) | 1998-12-22 | 2002-06-18 | Nortel Networks Limited | Synthetic stereo conferencing over LAN/WAN |
US6282631B1 (en) | 1998-12-23 | 2001-08-28 | National Semiconductor Corporation | Programmable RISC-DSP architecture |
US6539357B1 (en) | 1999-04-29 | 2003-03-25 | Agere Systems Inc. | Technique for parametric coding of a signal containing information |
EP1054575A3 (en) * | 1999-05-17 | 2002-09-18 | Bose Corporation | Directional decoding |
US6442278B1 (en) * | 1999-06-15 | 2002-08-27 | Hearing Enhancement Company, Llc | Voice-to-remaining audio (VRA) interactive center channel downmix |
JP4438127B2 (ja) | 1999-06-18 | 2010-03-24 | ソニー株式会社 | 音声符号化装置及び方法、音声復号装置及び方法、並びに記録媒体 |
US6823018B1 (en) | 1999-07-28 | 2004-11-23 | At&T Corp. | Multiple description coding communication system |
US6434191B1 (en) | 1999-09-30 | 2002-08-13 | Telcordia Technologies, Inc. | Adaptive layered coding for voice over wireless IP applications |
US6614936B1 (en) | 1999-12-03 | 2003-09-02 | Microsoft Corporation | System and method for robust video coding using progressive fine-granularity scalable (PFGS) coding |
US6498852B2 (en) | 1999-12-07 | 2002-12-24 | Anthony Grimani | Automatic LFE audio signal derivation system |
US6845163B1 (en) | 1999-12-21 | 2005-01-18 | At&T Corp | Microphone array for preserving soundfield perceptual cues |
JP4842483B2 (ja) | 1999-12-24 | 2011-12-21 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | マルチチャネルオーディオ信号処理装置及び方法 |
US6782366B1 (en) | 2000-05-15 | 2004-08-24 | Lsi Logic Corporation | Method for independent dynamic range control |
US6850496B1 (en) | 2000-06-09 | 2005-02-01 | Cisco Technology, Inc. | Virtual conference room for voice conferencing |
US6973184B1 (en) | 2000-07-11 | 2005-12-06 | Cisco Technology, Inc. | System and method for stereo conferencing over low-bandwidth links |
US7236838B2 (en) | 2000-08-29 | 2007-06-26 | Matsushita Electric Industrial Co., Ltd. | Signal processing apparatus, signal processing method, program and recording medium |
JP3426207B2 (ja) | 2000-10-26 | 2003-07-14 | 三菱電機株式会社 | 音声符号化方法および装置 |
TW510144B (en) | 2000-12-27 | 2002-11-11 | C Media Electronics Inc | Method and structure to output four-channel analog signal using two channel audio hardware |
US6885992B2 (en) | 2001-01-26 | 2005-04-26 | Cirrus Logic, Inc. | Efficient PCM buffer |
US7292901B2 (en) | 2002-06-24 | 2007-11-06 | Agere Systems Inc. | Hybrid multi-channel/cue coding/decoding of audio signals |
US7116787B2 (en) | 2001-05-04 | 2006-10-03 | Agere Systems Inc. | Perceptual synthesis of auditory scenes |
US7006636B2 (en) | 2002-05-24 | 2006-02-28 | Agere Systems Inc. | Coherence-based audio coding and synthesis |
US20030035553A1 (en) | 2001-08-10 | 2003-02-20 | Frank Baumgarte | Backwards-compatible perceptual coding of spatial cues |
US6934676B2 (en) | 2001-05-11 | 2005-08-23 | Nokia Mobile Phones Ltd. | Method and system for inter-channel signal redundancy removal in perceptual audio coding |
US7668317B2 (en) | 2001-05-30 | 2010-02-23 | Sony Corporation | Audio post processing in DVD, DTV and other audio visual products |
SE0202159D0 (sv) | 2001-07-10 | 2002-07-09 | Coding Technologies Sweden Ab | Efficientand scalable parametric stereo coding for low bitrate applications |
JP4062905B2 (ja) * | 2001-10-24 | 2008-03-19 | ヤマハ株式会社 | ディジタル・ミキサ |
CN1705980A (zh) | 2002-02-18 | 2005-12-07 | 皇家飞利浦电子股份有限公司 | 参数音频编码 |
US20030187663A1 (en) | 2002-03-28 | 2003-10-02 | Truman Michael Mead | Broadband frequency translation for high frequency regeneration |
DE60326782D1 (de) | 2002-04-22 | 2009-04-30 | Koninkl Philips Electronics Nv | Dekodiervorrichtung mit Dekorreliereinheit |
ES2268340T3 (es) | 2002-04-22 | 2007-03-16 | Koninklijke Philips Electronics N.V. | Representacion de audio parametrico de multiples canales. |
EP2879299B1 (en) | 2002-05-03 | 2017-07-26 | Harman International Industries, Incorporated | Multi-channel downmixing device |
US6940540B2 (en) | 2002-06-27 | 2005-09-06 | Microsoft Corporation | Speaker detection and tracking using audiovisual data |
AU2003244932A1 (en) | 2002-07-12 | 2004-02-02 | Koninklijke Philips Electronics N.V. | Audio coding |
WO2004008437A2 (en) | 2002-07-16 | 2004-01-22 | Koninklijke Philips Electronics N.V. | Audio coding |
EP1523863A1 (en) | 2002-07-16 | 2005-04-20 | Koninklijke Philips Electronics N.V. | Audio coding |
JP4676140B2 (ja) * | 2002-09-04 | 2011-04-27 | マイクロソフト コーポレーション | オーディオの量子化および逆量子化 |
MXPA05003147A (es) * | 2002-09-27 | 2005-06-08 | Ibiquity Digital Corp | Metodo y aparato para intercalar bitios de senal en una radiodifusion de audio digital. |
JP4084990B2 (ja) * | 2002-11-19 | 2008-04-30 | 株式会社ケンウッド | エンコード装置、デコード装置、エンコード方法およびデコード方法 |
KR101008520B1 (ko) | 2002-11-28 | 2011-01-14 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 오디오 신호 코딩 |
KR101049751B1 (ko) | 2003-02-11 | 2011-07-19 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 오디오 코딩 |
FI118247B (fi) | 2003-02-26 | 2007-08-31 | Fraunhofer Ges Forschung | Menetelmä luonnollisen tai modifioidun tilavaikutelman aikaansaamiseksi monikanavakuuntelussa |
US20060171542A1 (en) | 2003-03-24 | 2006-08-03 | Den Brinker Albertus C | Coding of main and side signal representing a multichannel signal |
US20050069143A1 (en) | 2003-09-30 | 2005-03-31 | Budnikov Dmitry N. | Filtering for spatial audio rendering |
US7394903B2 (en) | 2004-01-20 | 2008-07-01 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal |
SE0400998D0 (sv) * | 2004-04-16 | 2004-04-16 | Cooding Technologies Sweden Ab | Method for representing multi-channel audio signals |
US7653533B2 (en) | 2005-10-24 | 2010-01-26 | Lg Electronics Inc. | Removing time delays in signal paths |
-
2005
- 2005-02-15 US US11/058,747 patent/US7787631B2/en active Active
- 2005-11-22 JP JP2007544409A patent/JP4856653B2/ja not_active Expired - Fee Related
- 2005-11-22 WO PCT/US2005/042773 patent/WO2006060280A2/en active Application Filing
- 2005-11-22 EP EP05852199.8A patent/EP1817768B1/en active Active
- 2005-11-22 KR KR1020077015057A patent/KR101215872B1/ko active IP Right Grant
- 2005-11-29 TW TW094141938A patent/TWI423250B/zh active
-
2007
- 2007-12-10 HK HK07113434.0A patent/HK1106860A1/xx not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
HK1106860A1 (en) | 2008-03-20 |
EP1817768B1 (en) | 2013-11-13 |
US20060115100A1 (en) | 2006-06-01 |
KR101215872B1 (ko) | 2012-12-27 |
WO2006060280A3 (en) | 2006-09-14 |
JP4856653B2 (ja) | 2012-01-18 |
TWI423250B (zh) | 2014-01-11 |
JP2008522551A (ja) | 2008-06-26 |
US7787631B2 (en) | 2010-08-31 |
WO2006060280A8 (en) | 2007-03-15 |
WO2006060280A2 (en) | 2006-06-08 |
TW200641795A (en) | 2006-12-01 |
EP1817768A2 (en) | 2007-08-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101215872B1 (ko) | 송신되는 채널들에 기초한 큐들을 갖는 공간 오디오의파라메트릭 코딩 | |
KR101215868B1 (ko) | 오디오 채널들을 인코딩 및 디코딩하는 방법, 및 오디오 채널들을 인코딩 및 디코딩하는 장치 | |
CA2593290C (en) | Compact side information for parametric coding of spatial audio | |
KR101236259B1 (ko) | 오디오 채널들을 인코딩하는 방법 및 장치 | |
CA2582485C (en) | Individual channel shaping for bcc schemes and the like |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20171211 Year of fee payment: 6 |
|
FPAY | Annual fee payment |
Payment date: 20191212 Year of fee payment: 8 |