KR101392546B1

KR101392546B1 - 마이크로폰 신호를 기반으로 공간 큐의 세트를 제공하는 장치, 방법 및 컴퓨터 프로그램과, 2채널 오디오 신호 및 공간 큐의 세트를 제공하는 장치

Info

Publication number: KR101392546B1
Application number: KR1020137006597A
Authority: KR
Inventors: 트리스토프 팔러
Original assignee: 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date: 2008-09-11
Filing date: 2009-09-04
Publication date: 2014-05-08
Also published as: KR20110063826A; CN102209988A; BRPI0913460B1; EP2347410B1; JP5520300B2; CA2736709C; WO2010028784A1; RU2493617C2; CN102209988B; CA2736709A1; KR20130031923A; JP2012502570A; MX2011002626A; EP2347410A1; RU2011113850A; BRPI0913460A2; KR101296757B1; AU2009291259A1; AU2009291259B2

Abstract

2채널 마이크로폰 신호를 기반으로 2 이상의 채널을 가진 업믹스 오디오 신호와 관련된 공간 큐의 세트를 제공하는 장치는 신호 분석기 및 공간 보조 정보 생성기를 포함한다. 신호 분석기는, 2채널 마이크로폰 신호를 기반으로 성분 에너지 정보 및 방향 정보를 획득하여, 성분 에너지 정보가 2채널 마이크로폰 신호의 직접 사운드 성분 및 2채널 마이크로폰 신호의 확산 사운드 성분의 에너지의 추정을 나타내고, 방향 정보가 2채널 마이크로폰 신호의 직접 사운드 성분이 발신하는 방향의 추정을 나타내도록 구성된다. 공간 보조 정보 생성기는 성분 에너지 정보 및 방향 정보를, 2 이상의 채널을 가진 업믹스 오디오 신호와 관련된 공간 큐의 세트를 나타내는 공간 큐 정보에 맵하도록 구성된다.

Description

마이크로폰 신호를 기반으로 공간 큐의 세트를 제공하는 장치, 방법 및 컴퓨터 프로그램과, 2채널 오디오 신호 및 공간 큐의 세트를 제공하는 장치{APPARATUS, METHOD AND COMPUTER PROGRAM FOR PROVIDING A SET OF SPATIAL CUES ON THE BASIS OF A MICROPHONE SIGNAL AND APPARATUS FOR PROVIDING A TWO-CHANNEL AUDIO SIGNAL AND A SET OF SPATIAL CUES}

본 발명에 따른 실시예들은 2채널 마이크로폰 신호를 기반으로 2 이상의 채널을 가진 업믹스(upmix) 오디오 신호와 관련된 공간 큐(spatial cues)의 세트를 제공하는 장치에 관한 것이다. 본 발명에 따른 다른 실시예들은 대응하는 방법 및 대응하는 컴퓨터 프로그램에 관한 것이다. 본 발명에 따른 다른 실시예들은 처리되거나 처리되지 않은 2채널 오디오 신호 및 공간 큐의 세트를 제공하는 장치에 관한 것이다.

본 발명에 따른 다른 실시예들은 공간 오디오 코더에 대한 마이크로폰 프론트 엔드(front end)에 관한 것이다.

다음에는, 오디오 신호의 파라미트릭 표현(parametric representation)의 분야에 대한 소개가 주어질 것이다.

스테레오 및 서라운드 오디오 신호의 파라미트릭 표현은 지난 수십년에 걸쳐 개발되어, 성숙한 상태(mature status)에 도달하였다. 인텐시티 스테레오(intensity stereo) (R. Waal and R. Veldhuis, "Subband coding of stereophonic digital audio signals," Proc . IEEE ICASSP 1991, pp. 3601-3604, 1991.), (J. Herre, K. Brandenburg, and D. Lederer, "Intensity stereo coding," 96th AES Conv ., Feb . 1994, Amsterdam ( preprint 3799), 1994.)는, MP3 (ISO/IEC, Coding of moving pictures and associated audio for digital storage media at up to about 1.5 Mbit /s - Part 3: Audio . ISO/IEC 11172-3 International Standard, 1993, jTC1/SC29/WG11.), MPEG-2 AAC (―, Generic coding of moving pictures and associated audio information - Part 7: Advanced Audio Coding . ISO/IEC 13818-7 International Standard, 1997, jTC1/SC29/WG11.), 및 다른 오디오 코더에 이용된다. 인텐시티 스테레오는 다운믹스 및 레벨차 정보에 의해 스테레오 신호를 나타내는 원래의 파라미트릭 스테레오 코딩 기술이다. 바이노럴 큐 코딩(Binaural Cue Coding)(BCC) (C. Faller and F. Baumgarte, "Efficient representation of spatial audio using perceptual parametrization," in Proc . IEEE Workshop on Appl . Of Sig . Proc . to Audio and Acoust ., Oct. 2001, pp. 199-202.), (―, "Binaural Cue Coding - Part II: Schemes and

applications," IEEE Trans . on Speech and Audio Proc ., vol. 11, no. 6, pp. 520-531, Nov. 2003.)은 오디오 코딩 (F. Baumgarte and C. Faller, "Why Binaural Cue Coding is better than Intensity Stereo Coding," in Preprint 112th Conv . Aud . Eng . Soc ., May 2002.)에 대해서보다 파라미트릭 스테레오/서라운드 코딩에 대한 서로 다른 필터뱅크(filterbank)를 이용하여 오디오 품질을 상당히 개선하였다. 즉, 그것은 통상의 오디오 코더에 대한 전후 처리기로 보일 수 있다. 더욱이, 그것은 단지 레벨차, 즉 또한 시간차 및 채널간 코히런스(inter-channel coherence) 보다 파라미터화(parametrization)에 대한 부가적인 공간 큐를 이용한다. IEC/ISO MPEG에서 표준화되는 파라미트릭 스테레오 (PS) (E. Schuijers, J. Breebaart, H. Purnhagen, and J. Engdegard, "Low complexity parametric stereo coding," in Preprint 117 th Conv . Aud . Eng . Soc ., May 2004.)는 시간차에 대립되는 위상차를 이용하며, 이는 인공물이 없는 합성(artifact free synthesis)이 시간 지연 합성에 대해서보다 더 쉽게 달성되는 이점을 갖는다. 상술한 파라미트릭 스테레오 개념은 또한 BCC에 의해 서라운드 사운드에도 적용된다. MP3 서라운드 (J. Herre, C. Faller, C. Ertel, J. Hilpert, A. Hoelzer, and C. Spenger, "MP3 Surround: Efficient and compatible coding of multi-channel audio," in Preprint 116 th Conv . Aud . Eng . Soc ., May 2004.), (C. Faller, "Coding of spatial audio compatible with different playback formats," in Preprint 117 th Conv. Aud . Eng . Soc ., October 2004.), 및 MPEG 서라운드 (J. Herre, K. Kjorling, J. Breebaart, C. Faller, S. Disch, H. Purnhagen, J. Koppens, J. Hilpert, J. Roden, W. Oomen, K. Linzmeier, and K. S. Chong, "Mpeg surround - the iso/mpeg standard for efficient and compatible multi-channel audio coding," in Preprint 122 th Conv . Aud . Eng . Soc ., May 2007.) 오디오 코더는 스테레오 다운믹스를 기반으로 공간 합성을 도입하여, 스테레오 역호환(backwards compatibility) 및 보다 고 오디오 품질을 가능하게 한다. BCC, MP3 서라운드, 및 MPEG 서라운드는 종종 공간 오디오 코더 (SAC)로서 지칭된다.

최근에, 공간 임펄스 응답 렌더링(spatial impulse response rendering) (SIRR) (J. Merimaa and V. Pulkki, "Spatial impulse response rendering i: Analysis and synthesis," J. Aud . Eng . Soc ., vol. 53, no. 12, 2005.), (V. Pulkki and J. Merimaa, "Spatial impulse response rendering ii: Reproduction of diffuse sound and listening tests," J. Aud . Eng . Soc ., vol. 54, no. 1, 2006.)을 나타내는 기술이 제안되었으며, 이는 단일 오디오 채널 (W-signal of Bformat (M. A. Gerzon, "Periphony: Width-Height Sound Reproduction," J. Aud . Eng. Soc ., vol. 21, no. 1, pp. 2-10, 1973.), (K. Farrar, "Soundfield microphone," Wireless World, pp. 48-50, Oct. 1979.) 플러스 B-포맷 신호로부터 획득된 공간 정보에 기초로 하여 (마이크로폰 위치에 대한) 어떤 방향으로 임펄스 응답을 합성한다. 이 기술은 나중에 또한, 임펄스 응답에 대립되고, 지향성 오디오 코딩 (DirAC) (V. Pulkki and C. Faller, "Directional audio coding: Filterbank and STFTbased design," in Preprint 120 th Conv . Aud . Eng . Soc ., May 2006, p. preprint 6658.)이라 부르는 오디오 신호에도 적용된다. DirAC는 마이크로폰 신호에 직접 적용 가능한 SAC로 보여질 수 있다. 여러 마이크로폰 구성은, DirAC (J. Ahonen, G. D. Galdo, M. Kallinger, F. Kuch, V. Pulkki, and R. Schultz-Amling, "Analysis and adjustment of planar microphone arrays for application in directional audio coding," in Preprint 124 ^th Conv . Aud . Eng . Soc ., May. 2008.), (J. Ahonen, M. Kallinger, F. Kuch, V. Pulkki, and R. Schultz-Amling, "Directional analysis of sound field with linear microphone array and applications in sound reproduction," in Preprint 124 th Conv . Aud . Eng . Soc ., May. 2008.)와 함께 사용하기 위해 제안되었다. DirAC은 항상 Bformat 신호에 기초로 하고, 여러 마이크로폰 구성의 신호는 DirAC의 지향성 분석에 이용되는 B-format을 획득하기 위해 처리된다.

상술한 바를 고려하여, 본 발명의 목적은 사운드 변환을 위한 노력을 상당히 작게 하면서 공간 큐 정보를 획득하기 위한 계산상 효율적인 개념을 창조하기 위한 것이다.

이런 문제는, 청구항 1에 따라 2채널 마이크로폰 신호를 기반으로 2 이상의 채널을 가진 업믹스 오디오 신호와 관련된 공간 큐의 세트를 제공하는 장치, 청구항 10에 따라 2 이상의 채널을 가진 업믹스 오디오 신호와 관련된 공간 큐의 세트 및 2채널 오디오 신호를 제공하는 장치, 청구항 11에 따라 2채널 마이크로폰 신호를 기반으로 2 이상의 채널을 가진 업믹스 신호와 관련된 공간 큐의 세트 및 처리된 2채널 오디오 신호를 제공하는 장치, 청구항 12에 따라 2채널 마이크로폰 신호를 기반으로 2 이상의 채널을 가진 업믹스 오디오 신호와 관련된 공간 큐의 세트를 제공하는 방법 및, 청구항 13에 따른 컴퓨터 프로그램에 의해 해결된다.

본 발명에 따른 실시예는 2채널 마이크로폰 신호를 기반으로 2 이상의 채널을 가진 업믹스 오디오 신호와 관련된 공간 큐의 세트를 제공하는 장치를 창출한다. 이 장치는, 2채널 마이크로폰 신호를 기반으로 성분(component) 에너지 정보 및 방향 정보를 획득하여, 성분 에너지 정보가 2채널 마이크로폰 신호의 직접 사운드 성분 및 2채널 마이크로폰 신호의 확산 사운드 성분의 에너지의 추정을 나타내고, 방향 정보가 2채널 마이크로폰 신호의 직접 사운드 성분이 발신하는 방향의 추정을 나타내도록 구성되는 신호 분석기를 포함한다. 이 장치는 또한, 2채널 마이크로폰 신호의 성분 에너지 정보 및 2채널 마이크로폰 신호의 방향 정보를 2 이상의 채널을 가진 업믹스 오디오 신호와 관련된 공간 큐의 세트를 나타내는 공간 큐 정보에 맵(map)하도록 구성되는 공간 보조(side) 정보 생성기를 포함한다.

이 실시예는, 업믹스 오디오 신호의 공간 큐가 직접 사운드 성분 및 확산 사운드 성분의 에너지와 방향 정보의 추정이 2채널 신호로부터 추출되어 공간 큐에 맵되는 경우에 특히 효율적인 방식으로 계산될 수 있다는 발견에 기초로 하는데, 그 이유는 성분 에너지 정보 및 방향 정보가 전형적으로 2 채널만을 가진 오디오 신호로부터 적당한 계산상 노력으로 추출될 수 있지만, 2 이상의 채널을 가진 업믹스 신호와 관련된 공간 큐의 계산을 위한 매우 좋은 기초를 구성하기 때문이다. 환언하면, 성분 에너지 정보 및 방향 정보가 2채널 신호에 기초로 할지라도, 이 정보는 중간 수량으로서 실제 업믹스 오디오 채널을 이용하지 않고 공간 큐의 직접 계산에 적합하다.

바람직한 실시예에서, 공간 보조 정보 생성기는 방향 의존 직접 사운드 대 서라운드 오디오 채널 맵핑(direction-dependent direct-sound to surround-audio-channel mapping)을 나타내는 이득 계수(gain factor)의 세트로 방향 정보를 맵하도록 구성된다. 게다가, 공간 보조 정보 생성기는 성분 에너지 정보 및 이득 계수를 기반으로 2 이상의 서라운드 채널의 추정된 강도를 나타내는 채널 강도 추정을 획득하도록 구성된다. 이 경우에, 공간 보조 정보 생성기는 바람직하게는 채널 강도 추정을 기반으로 업믹스 오디오 신호와 관련된 공간 큐를 결정하도록 구성된다. 이 실시예는, 2 채널 마이크로폰 신호가 방향 의존 직접 사운드 대 서라운드 오디오 채널 맵핑을 나타내는 이득 계수의 세트로 양호한 결과에 의해 맵될 수 있는 방향 정보의 추출을 고려하여, 업믹스 오디오 신호를 나타내고, 공간 큐 정보의 계산을 위한 기초를 형성하는 중요한 채널 강도 추정을 획득할 수 있다는 발견에 기반으로 한다.

바람직한 실시예에서, 공간 보조 정보 생성기는 또한 성분 에너지 정보 및 이득 계수를 기반으로 업믹스 신호의 서로 다른 채널 간의 상관을 나타내는 채널 상관 정보를 획득하도록 구성된다. 이 실시예에서, 공간 보조 정보 생성기는 바람직하게는 하나 이상의 채널 강도 추정 및 채널 상관 정보를 기반으로 업믹스 신호와 관련된 공간 큐를 결정하도록 구성된다. 성분 에너지 정보 및 이득 계수는, 채널 상관 정보의 계산에 충분하여, 채널 상관 정보가 바람직하게는 (업믹스 신호의 채널에 대한 확산 사운드의 분포를 반영하는 일부 상수를 제외하고) 어떤 추가적 변수를 이용하지 않고 계산될 수 있는 정보를 구성한다. 또한, 채널 강도 추정 및 채널 상관 정보가 알려지자 마자 업믹스 신호의 채널간 상관을 나타내는 공간 큐를 쉽게 결정할 수 있음이 인식되었다.

다른 바람직한 실시예에서, 공간 보조 정보 생성기는, 채널 강도 추정를 획득하기 위해 2 채널 마이크로폰 신호의 직접 사운드 성분의 강도의 추정 및 2 채널 마이크로폰 신호의 확산 사운드 성분의 강도의 추정을 선형적으로 조합하도록 구성된다. 이 실시예에서, 공간 보조 정보 생성기는 바람직하게는 이득 계수 및 방향 정보에 따라 직접 사운드 성분의 강도의 추정을 웨이트하도록 구성된다. 선택적으로, 공간 보조 정보 생성기는, 업믹스 오디오 신호의 서로 다른 채널에 대한 확산 사운드 성분의 분포를 반영하는 상수 값에 따라 확산 사운드 성분의 강도의 추정을 웨이트하도록 더 구성될 수 있다. 매우 간단한 수학 연산, 즉 선형 조합에 의해 성분 에너지 정보로부터 채널 강도 추정을 유도할 수 있음이 인식되었으며, 여기서, 2 채널 마이크로폰 신호로부터 효율적으로 유도될 수 있는 이득 계수는 적절한 웨이트 계수를 구성한다.

본 발명에 따른 다른 실시예는, 2 채널 오디오 신호 및, 2 이상의 채널을 가진 업믹스 오디오 신호와 관련된 공간 큐의 세트를 제공하는 장치를 창출한다. 이 장치는 제 1 지향성 마이크로폰 및 제 2 지향성 마이크로폰을 포함하는 마이크로폰 장치를 포함하며, 제 1 지향성 마이크로폰 및 제 2 지향성 마이크로폰은 바람직하게는 오직 30 센티미터만큼 (또는 오직 5 센티미터만큼도) 이격되며, 제 1 지향성 마이크로폰 및 제 2 지향성 마이크로폰은 제 2 지향성 마이크로폰의 지향성 특성이 제 1 지향성 마이크로폰의 지향성 특성의 회전된 버전이도록 맞추어진다. 2 채널 오디오 신호를 제공하는 장치는 또한, 상술한 바와 같이, 2 채널 마이크로폰 신호를 기반으로 2 이상의 채널을 가진 업믹스 오디오 신호와 관련된 공간 큐의 세트를 제공하는 장치를 포함한다. 업믹스 오디오 신호와 관련된 공간 큐의 세트를 제공하는 장치는 바람직하게는 2 채널 마이크로폰 신호로서 제 1 및 2 지향성 마이크로폰의 마이크로폰 신호를 수신하여, 이를 기반으로 공간 큐의 세트를 제공하도록 구성된다. 2 채널 오디오 신호를 제공하는 장치는 또한, 제 1 및 2 지향성 마이크로폰의 마이크로폰 신호, 또는 이의 처리된 버전을 2 채널 오디오 신호로서 제공하도록 구성되는 2 채널 오디오 신호 제공자를 포함한다. 본 발명에 따르면, 이 실시예는, 마이크로폰의 지향성 특성이 서로에 대해 회전될 경우에 짧은 거리를 가진 마이크로폰이 적절한 공간 큐 정보를 제공하기 위해 이용될 수 있다는 발견에 기반으로 한다. 따라서, 비교적 작은 물리적 장치를 기반으로 2 이상의 채널을 가진 업믹스 오디오 신호와 관련된 중요한 공간 큐를 계산할 수 있음이 인식되었다. 특히, 공간 큐 정보의 효율적 계산을 고려하는 성분 에너지 정보 및 방향 정보는, 2 채널 마이크로폰 신호를 제공하는 2개의 마이크로폰이 비교적 작은 스페이싱 (예컨대, 30 센티미터를 초과하지 않음)으로 배치되어, 결과적으로 매우 유사한 확산 사운드 정보를 포함할 경우에 적은 노력으로 추출될 수 있음이 발견되었다. 또한, 서로에 대해 회전되는 지향성 특성을 가진 지향성 마이크로폰의 사용은, 서로 다른 지향성 특성이 지향성 사운드와 확산 사운드 간의 분리를 고려하기 때문에, 성분 에너지 정보 및 방향 정보의 계산을 고려함이 발견되었다.

본 발명에 따른 다른 실시예는, 처리된 2 채널 오디오 신호 및, 2 채널 마이크로폰 신호를 기반으로 2 이상의 채널을 가진 업믹스 신호와 관련된 공간 큐의 세트를 제공하는 장치를 창출한다. 처리된 2 채널 오디오 신호를 제공하는 장치는, 상술한 바와 같이, 2 채널 마이크로폰 신호를 기반으로 2 이상의 채널을 가진 업믹스 오디오 신호와 관련된 공간 큐의 세트를 제공하는 장치를 포함한다. 처리된 2 채널 신호 및 공간 큐의 세트를 제공하는 장치는 또한 2 채널 마이크로폰 신호를 기반으로 처리된 2 채널 오디오 신호를 제공하도록 구성되는 2 채널 오디오 신호 제공자를 포함한다. 2 채널 오디오 신호 제공자는 바람직하게는, 하나 이상의 제 1 마이크로폰 신호 스케일 계수(scaling factor)를 이용하여 2 채널 마이크로폰 신호의 제 1 오디오 신호를 스케일하여, 처리된 2 채널 오디오 신호 중 제 1 처리된 오디오 신호를 획득하도록 구성된다. 2 채널 오디오 신호 제공자는 또한 바람직하게는, 하나 이상의 제 2 마이크로폰 신호 스케일 계수를 이용하여 2 채널 마이크로폰 신호의 제 2 오디오 신호를 스케일하여, 처리된 2 채널 오디오 신호 중 제 2 처리된 오디오 신호를 획득하도록 구성된다. 2 채널 오디오 신호 제공자는 바람직하게는, 공간 큐의 세트를 제공하는 장치의 신호 분석기에 의해 제공되는 성분 에너지 정보를 기반으로 하나 이상의 제 1 마이크로폰 신호 스케일 계수 및 하나 이상의 제 2 마이크로폰 신호 스케일 계수를 계산하여, 공간 큐 및 마이크로폰 신호 스케일 계수의 양방이 성분 에너지 정보에 의해 결정되도록 구성된다. 이 실시예는, 공간 큐의 세트의 계산 및 마이크로폰 신호의 적절한 스케일링을 위한 신호 분석기에 의해 제공되는 성분 에너지 정보를 이용하는 것이 효율적이다는 아이디어을 기반으로 하며, 마이크로폰 신호의 적절한 스케일링은 마이크로폰 신호 및 공간 큐를 적응시켜, 처리된 마이크로폰 신호 및 공간 큐의 양방을 포함하는 조합된 정보가 원하는 공간 오디오 코딩 산업 표준 (예컨대, MPEG 서라운드)에 순응시켜, 종래의 공간 오디오 코딩 디코더 (예컨대, 종래의 MPEG 서라운드 디코더)에서 오디오 내용을 재생시킬 가능성을 제공할 수 있다.

본 발명의 다른 실시예는 2 채널 마이크로폰 신호를 기반으로 2 이상의 채널을 가진 업믹스 오디오 신호와 관련된 공간 큐의 세트를 제공하는 방법을 창출한다.

본 발명에 따른 또다른 실시예는 이 방법을 실행하기 위한 컴퓨터 프로그램을 창출한다.

이하, 본 발명에 따른 실시예들이 첨부한 도면과 관련하여 기술될 것이다.
도 1은 본 발명의 실시예에 따라 2 채널 마이크로폰 신호를 기반으로 2 이상의 채널을 가진 업믹스 오디오 신호와 관련된 공간 큐의 세트를 제공하는 장치의 블록 개략도를 도시한 것이다.
도 2는 본 발명의 다른 실시예에 따라 2 이상의 채널을 가진 업믹스 오디오 신호와 관련된 공간 큐의 세트를 제공하는 장치의 블록 개략도를 도시한 것이다.
도 3은 본 발명의 다른 실시예에 따라 2 이상의 채널을 가진 업믹스 오디오 신호와 관련된 공간 큐의 세트를 제공하는 장치의 블록 개략도를 도시한 것이다.
도 4는 본 발명의 실시예에 이용될 수 있는 2 쌍극자 마이크로폰의 지향성 응답의 그래프도를 도시한 것이다.
도 5a는 쌍극자 스테레오 마이크로폰에 대한 사운드 도달 방향의 함수로서 좌우의 진폭비의 그래프도를 도시한 것이다.
도 5b는 쌍극자 스테레오 마이크로폰에 대한 사운드 도달 방향의 함수로서 총 전력의 그래프도를 도시한 것이다.
도 6은 본 발명의 일부 실시예에 이용될 수 있는 2 카디오이드(cardioid) 마이크로폰의 지향성 응답의 그래프도를 도시한 것이다.
도 7a는 카디오이드 스테레오 마이크로폰에 대한 사운드 도달 방향의 함수로서 좌우의 진폭비의 그래프도를 도시한 것이다.
도 7b는 카디오이드 스테레오 마이크로폰에 대한 사운드 도달 방향의 함수로서 총 전력의 그래프도를 도시한 것이다.
도 8은 본 발명의 일부 실시예에 이용될 수 있는 2 슈퍼 카디오이드(super-cardioid) 마이크로폰의 지향성 응답의 그래프도를 도시한 것이다.
도 9a는 슈퍼 카디오이드 스테레오 마이크로폰에 대한 사운드 도달 방향의 함수로서 좌우의 진폭비의 그래프도를 도시한 것이다.
도 9b는 슈퍼 카디오이드 스테레오 마이크로폰에 대한 사운드 도달 방향의 함수로서 총 전력의 그래프도를 도시한 것이다.
도 10a는 카디오이드 스테레오 마이크로폰에 대한 사운드 도달 방향의 함수로서 이득 수정의 그래프도를 도시한 것이다.
도 10b는 카디오이드 스테레오 마이크로폰에 대한 사운드 도달 방향의 함수로서 총 전력 (실선: 이득 수정 없음, 점선: 이득 수정 있음)의 그래프도를 도시한 것이다.
도 11a는 슈퍼 카디오이드 스테레오 마이크로폰에 대한 사운드 도달 방향의 함수로서 이득 수정의 그래프도를 도시한 것이다.
도 11b는 슈퍼 카디오이드 스테레오 마이크로폰에 대한 사운드 도달 방향의 함수로서 총 전력 (실선: 이득 수정 없음, 점선: 이득 수정 있음)의 그래프도를 도시한 것이다.
도 12는 본 발명의 다른 실시예에 따라 2 이상의 채널을 가진 업믹스 오디오 신호와 관련된 공간 큐의 세트를 제공하는 장치의 블록 개략도를 도시한 것이다.
도 13은 스테레오 마이크로폰 신호를 SAC 호환성 다운믹스 및 보조 정보로 변환하는 인코더, 및 또한 대응하는 (통상의) SAC 디코더의 블록 개략도를 도시한 것이다.
도 14는 스테레오 마이크로폰 신호를 SAC 호환성 공간 보조 정보로 변환하는 인코더의 블록 개략도 및 또한 다운믹스 처리를 갖는 대응하는 SAC 디코더의 블록 개략도를 도시한 것이다.
도 15는 스테레오 마이크로폰 신호가 직접 공급될 수 있는 블라인드(blind) SAC 디코더의 블록 개략도를 도시하며, SAC 다운믹스 및 SAC 공간 보조 정보는 스테레오 마이크로폰 신호의 분석 처리에 의해 획득된다.
도 16은 본 발명의 실시예에 따른 공간 큐의 세트를 제공하는 방법의 흐름도를 도시한 것이다.

도 1은 2 채널 마이크로폰 신호를 기반으로 2 이상의 채널을 가진 업믹스 오디오 신호와 관련된 공간 큐의 세트를 제공하는 장치(100)의 블록 개략도를 도시한 것이다. 장치(100)는 2 채널 마이크로폰 신호를 수신하도록 구성되며, 2 채널 마이크로폰 신호는, 예컨대, 제 1 채널 신호(110)(또한 x₁로 명시됨) 및 제 2 채널 신호(112)(또한 x₂로 명시됨)를 포함할 수 있다. 장치(100)는 공간 큐 정보(120)를 제공하도록 더 구성된다.

장치(100)는 제 1 채널 신호(110) 및 제 2 채널 신호(112)를 수신하도록 구성되는 신호 분석기(130)를 포함할 수 있다. 신호 분석기(130)는, 2 채널 마이크로폰 신호를 기반으로, 즉, 제 1 채널 신호(110) 및 제 2 채널 신호(112)를 기반으로 성분 에너지 정보(132) 및 방향 정보(134)를 획득하도록 구성된다. 바람직하게는, 신호 분석기(130)는 성분 에너지 정보(132) 및 방향 정보(134)를 획득하여, 성분 에너지 정보(132)가 2채널 마이크로폰 신호의 직접 사운드 성분 및 2채널 마이크로폰 신호의 확산 사운드 성분의 에너지의 추정을 나타내고, 방향 정보(134)가 2채널 마이크로폰 신호(110, 112)의 직접 사운드 성분이 발신하는 방향의 추정을 나타내도록 구성된다.

장치(100)는 또한, 성분 에너지 정보(132) 및 방향 정보(134)를 수신하여, 이를 기반으로 공간 큐 정보(120)를 제공하도록 구성되는 공간 보조 정보 생성기(140)를 포함한다. 바람직하게는, 공간 보조 정보 생성기(140)는 2채널 마이크로폰 신호(110, 112)의 성분 에너지 정보(132) 및 2채널 마이크로폰 신호(110, 112)의 방향 정보(134)를 공간 큐 정보(120)에 맵하도록 구성된다. 따라서, 공간 큐 정보(120)는 공간 큐 정보(120)가 2 이상의 채널을 가진 업믹스 오디오 신호와 관련된 공간 큐의 세트를 나타내도록 획득된다.

따라서, 장치(120)는 2채널 마이크로폰 신호를 기반으로 2 이상의 채널을 가진 업믹스 오디오 신호와 관련된 공간 큐 정보의 계산상 매우 효율적인 계산을 고려한다. 신호 분석기(130)는 2채널 마이크로폰 신호로부터의 상당량의 정보, 즉, 직접 사운드 성분의 에너지의 추정 및 확산 사운드 성분의 에너지의 추정의 양방을 나타내는 성분 에너지 정보 및, 2채널 마이크로폰 신호의 직접 사운드 성분이 발신하는 방향의 추정을 나타내는 방향 정보를 추출할 수 있다. 2채널 마이크로폰 신호(110, 112)를 기반으로 신호 분석기에 의해 획득될 수 있는 이런 정보는 2 이상의 채널을 가진 업믹스 오디오 신호에 대해서도 공간 큐 정보를 유도하기에 충분함이 발견되었다. 중요하게는, 성분 에너지 정보(132) 및 방향 정보(134)는, 사실상 중간 수량(intermediate quantity)으로서 업믹스 오디오 채널을 이용하지 않고 공간 큐 정보(120)를 직접 결정하기에 충분함이 발견되었다.

다음에는, 장치(100)의 일부 확장이 도 2 및 3과 관련하여 기술될 것이다.

도 2는 2채널 오디오 신호 및, 2 이상의 채널을 가진 업믹스 오디오 신호와 관련된 공간 큐의 세트를 제공하는 장치(200)의 블록 개략도를 도시한 것이다. 장치(200)는 제 1 채널 신호(212) 및 제 2 채널 신호(214)를 포함하는 2채널 마이크로폰 신호를 제공하도록 구성되는 마이크로폰 장치(210)를 포함한다. 장치(200)는, 도 1과 관련하여 기술된 바와 같이, 2채널 마이크로폰 신호를 기반으로 2 이상의 채널을 가진 업믹스 오디오 신호와 관련된 공간 큐의 세트를 제공하는 장치(100)를 더 포함한다. 장치(100)는, 이의 입력 신호로서, 마이크로폰 장치(210)에 의해 제공되는 제 1 채널 신호(212) 및 제 2 채널 신호(214)를 수신하도록 구성된다. 장치(100)는 공간 큐 정보(120)와 동일할 수 있는 공간 큐 정보(220)를 제공하도록 더 구성된다. 장치(200)는, 마이크로폰 장치(210)에 의해 제공되는 제 1 채널 신호(212) 및 제 2 채널 신호(214)를 수신하여, 2채널 오디오 신호(232)로서, 제 1 채널 마이크로폰 신호(212) 및 제 2 채널 마이크로폰 신호(214), 또는 이의 처리된 버전을 제공하도록 구성되는 2채널 오디오 신호 제공자(230)를 더 포함한다.

마이크로폰 장치(210)는 제 1 지향성 마이크로폰(216) 및 제 2 지향성 마이크로폰(218)을 포함한다. 제 1 지향성 마이크로폰(216) 및 제 2 지향성 마이크로폰(218)은 바람직하게는 오직 30 센티미터만큼 이격된다. 따라서, 제 1 지향성 마이크로폰(216) 및 제 2 지향성 마이크로폰(218)에 의해 수신되는 신호는 상당히 상관되어, 신호 분석기(130)에 의한 성분 에너지 정보 및 방향 정보의 계산에 유익한 것으로 발견되었다. 그러나, 제 1 지향성 마이크로폰(216) 및 제 2 지향성 마이크로폰(218)은 제 2 지향성 마이크로폰(218)의 지향성 특성(219)이 제 1 지향성 마이크로폰(216)의 지향성 특성(217)의 회전된 버전이도록 맞추어진다. 따라서, 제 1 채널 마이크로폰 신호(212) 및 제 2 채널 마이크로폰 신호(214)는 (마이크로폰(216, 218)의 공간 근접성(spatial proximity)으로 인해) 상당히 상관되지만, (지향성 마이크로폰(216, 218)의 서로 다른 지향성 특성(217, 219)으로 인해) 서로 다르다. 특히, 거의 일정한 방향으로부터 마이크로폰 장치(210)에 입사하는 지향성 신호는, 일시적으로 일정한 방향 의존 진폭비 (또는 강도비)를 가진 제 1 채널 마이크로폰 신호(212) 및 제 2 채널 마이크로폰 신호(214)의 신호 성분을 상당히 상관시킨다. 일시 변화하는 방향으로부터 마이크로폰 어레이(210)에 입사하는 주변 오디오 신호는, 상당한 상관을 갖지만, 일시 변동하는 진폭비 (또는 강도비)를 가진 제 1 채널 마이크로폰 신호(212) 및 제 2 채널 마이크로폰 신호(214)의 신호 성분을 생성시킨다. 따라서, 마이크로폰 장치(210)는, 마이크로폰(216, 218)이 근접하여 이격될 지라도 장치(100)의 신호 분석기(130)가 직접 사운드 및 확산 사운드 간을 구별하도록 하는 2채널 마이크로폰 신호(212, 214)를 제공한다. 따라서, 장치(200)는, 공간적으로 콤팩트한 형태로 실시될 수 있고, 그럼에도 불구하고, 2 이상의 채널을 가진 업믹스 신호와 관련된 공간 큐를 제공할 수 있는 오디오 신호 제공자를 구성한다. 공간 큐(220)는 서라운드 사운드 출력 신호를 제공하도록 공간 오디오 디코더에 의해 제공된 2채널 오디오 신호(232)와 협력하여 이용될 수 있다.

도 3은 처리된 2 채널 오디오 신호 및, 2 채널 마이크로폰 신호를 기반으로 2 이상의 채널을 가진 업믹스 신호와 관련된 공간 큐의 세트를 제공하는 장치(300)의 블록 개략도를 도시한 것이다. 장치(300)는 제 1 채널 신호(312) 및 제 2 채널 신호(314)를 포함하는 2채널 마이크로폰 신호를 제공하도록 구성된다. 장치(300)는 2채널 마이크로폰 신호(312, 314)를 기반으로 공간 큐 정보(316)를 제공하도록 구성된다. 게다가, 장치(300)는 2채널 마이크로폰 신호의 처리된 버전을 제공하도록 구성되며, 여기서, 2채널 마이크로폰 신호의 처리된 버전은 제 1 채널 신호(322) 및 제 2 채널 신호(324)를 포함한다.

장치(300)는 2채널 마이크로폰 신호(312, 314)를 기반으로 2 이상의 채널을 가진 업믹스 오디오 신호와 관련된 공간 큐의 세트를 제공하는 장치(100)를 포함한다. 장치(300)에서, 장치(100)는, 이의 입력 신호(110, 112)로서, 제 1 채널 신호(312) 및 제 2 채널 신호(314)를 수신하도록 구성된다. 또한, 장치(100)에 의해 제공되는 공간 큐 정보(120)는 장치(300)의 출력 정보(316)를 구성한다.

게다가, 장치(300)는 제 1 채널 신호(312) 및 제 2 채널 신호(314)를 수신하도록 구성되는 2채널 오디오 신호 제공자(340)를 포함한다. 2채널 오디오 신호 제공자(340)는 또한 장치(100)의 신호 분석기(130)에 의해 제공되는 성분 에너지 정보(342)를 수신하도록 더 구성된다. 2채널 오디오 신호 제공자(340)는 처리된 2 채널 오디오 신호의 제 1 채널 신호(322) 및 제 2 채널 신호(324)를 제공하도록 더 구성된다.

2채널 오디오 신호 제공자는 바람직하게는 스케일러(scaler)(350)를 포함하는데, 이 스케일러(350)는, 2채널 마이크로폰 신호의 제 1 채널 신호(312)를 수신하여, 제 1 채널 신호(312), 또는 이의 개별 시간/주파수 빈(frequency bins)을 스케일하고, 처리된 2 채널 오디오 신호의 제 1 채널 신호(322)를 획득하도록 구성된다. 스케일러(350)는 또한, 2채널 마이크로폰 신호의 제 2 채널 신호(314)를 수신하여, 제 2 채널 신호(314), 또는 이의 개별 시간/주파수 빈을 스케일하고, 처리된 2 채널 오디오 신호의 제 2 채널 신호(324)를 획득하도록 구성된다.

2채널 오디오 신호 제공자(340)는 또한, 성분 에너지 정보(342)를 기반으로 스케일러(350)에 의해 이용되는 스케일 계수를 계산하도록 구성되는 스케일 계수 계산기(360)를 포함한다. 따라서, 2채널 마이크로폰 신호의 직접 사운드 성분 및 또한 2채널 마이크로폰 신호의 확산 사운드 성분의 에너지의 추정을 나타내는 성분 에너지 정보(342)는 2채널 마이크로폰 신호의 제 1 채널 신호(312) 및 제 2 채널 신호(314)의 스케일링을 결정하며, 이 스케일링은 2채널 마이크로폰 신호로부터의 처리된 2채널 오디오 신호의 제 1 채널 신호(322) 및 제 2 채널 신호(324)를 유도하는데 적용된다. 따라서, 동일한 성분 에너지 정보는 2채널 마이크로폰 신호의 제 1 채널 신호(312) 및 제 2 채널 신호(314)의 스케일링 및 또한 공간 큐 정보(120)를 결정하는데 이용된다. 성분 에너지 정보(342)의 이중 사용(double-usage)은 계산상 매우 효율적인 솔루션이고, 또한 처리된 2채널 오디오 신호와 공간 큐 정보 간의 양호한 일관성(consistency)을 보증하는 것으로 발견되었다. 따라서, 표준화된 서라운드 디코더를 이용하여 2채널 마이크로폰 신호(312, 314)에 의해 나타낸 오디오 내용의 서라운드 재생을 고려하도록 처리된 2채널 오디오 신호 및 공간 큐 정보를 생성할 수 있다.

구현 상세 사항 - 스테레오 마이크로폰 및 서라운드 기록을 위한 이들의 적정성

이 섹션에서는, 여러 2채널 마이크로폰 구성이 후처리에 의해 서라운드 사운드 신호를 생성하기 위한 이들 구성의 적정성(suitability)에 대해 논의된다. 다음 섹션은 이들 통찰(insights)을 스테레오 마이크로폰에 따른 공간 오디오 코딩(SAC)의 이용에 적용한다.

여기에 기술된 마이크로폰 구성은, 예컨대, 2채널 마이크로폰 신호(110, 112) 또는 2채널 마이크로폰 신호(212, 214) 또는 2채널 마이크로폰 신호(312, 314)를 획득하기 위해 이용될 수 있다. 여기에 기술된 마이크로폰 구성은 마이크로폰 장치(210) 내에 이용될 수 있다.

인간 위치 추정(human source localization)이 주로, "law of the first wavefront" (J. Blauert, Spatial Hearing: The Psychophysics of Human Sound Localization, revised ed. Cambridge, Massachusetts, USA: The MIT Press, 1997)로 인해, 직접 사운드에 의존하므로, 이 섹션에서의 분석은 자유 음장(free-field)(무반사)의 마이크로폰에서 특정 각 α로부터 도달하는 단일 직접 원거리 사운드(far-field sound)에 대해 실행된다. 일반성을 잃지 않고, 간략함을 위해, 마이크로폰은 일치하는 것으로 가정하며, 즉, 2개의 마이크로폰 캡슐 (예컨대, 지향성 마이크로폰(216, 218))이 동일한 포인트에 위치되는 것으로 가정한다. 이런 가정이 주어지면, 좌측 및 우측 마이크로폰 신호는 다음과 같이 기록될 수 있다:

(1)

여기서, n은 이산 시간 지수이고, s(n)은 마이크로폰 위치에서의 사운드 압력에 대응하며, r₁(α)는 각 α로부터 도달하는 사운드에 대한 좌측 마이크로폰의 지향성 응답이고, r₂(α)는 우측 마이크로폰의 대응하는 응답이다. 좌측 및 우측 마이크로폰 간의 신호 진폭비는 다음과 같다.

(2)

진폭비는 신호가 동상 (α(α) > 0) 인지 이상 (α(α) < 0)인지에 관한 정보 및 레벨 차를 캡쳐(capture)하는 것에 주목한다. 단시간 퓨리에 변환과 같은 (예컨대, 마이크로폰 신호 x₁(n), x₂(n)의) 복소 신호 표현이 이용되면, α(α)의 위상은 지연에 관한 정보와 신호 간의 위상 차에 관한 정보를 제공한다. 이런 정보는 마이크로폰이 일치하지 않을 시에 유용하다.

도 4는 전방 x-축(forward x-axis)에 대해 ±45 도를 가리키는 2개의 일치 쌍극자(coincident dipole) (8자 모양) 마이크로폰의 지향성 응답을 도시한 것이다. 이 응답의 부분은 양의 부호를 가진 + 캡쳐(capture) 사운드로 표시되고, 부분은 음의 부호를 가진 - 캡쳐 사운드로 표시된다. 사운드의 도달 방향의 함수로서의 진폭비는 도 5a에 도시된다. 진폭비 a(α)는 가역 함수가 아님에 주목하며, 즉, 각 진폭비에 대해, 진폭비를 생성한 2개의 도달 방향에 대한 값이 존재한다. 사운드가 앞쪽 방향에서만, 즉 도 4에서 양의 x 방향에 대한 ±90 도 내에 도달하면, 진폭비는 유일하게 사운드가 도달된 곳으로부터 나타난다. 그러나, 앞쪽의 각 방향에 대해, 동일한 진폭비를 생성하는 뒷쪽의 방향이 레벨 차 및 진폭비를 캡쳐한다. 도 5(b)는 dB의 2 쌍극자의 전체 응답, 즉 다음을 도시한다.

(3)

2개의 쌍극자 마이크로폰은 모든 방향으로부터 동일한 전체 응답(0 dB)을 가진 사운드를 캡쳐한다.

상술한 바로부터, 도 4에 도시된 바와 같이 응답에 따른 2개의 쌍극자 마이크로폰은 다음의 이유 때문에 서라운드 사운드 신호 생성에 적합하지 않는 것으로 결론지을 수 있다:

180 도의 각 범위에 대해서만 진폭비가 유일하게 사운드 도달 방향을 결정한다.

뒷쪽 및 앞쪽 사운드는 동일한 전체 응답으로 캡쳐된다. 진폭비가 유일한 범위 밖의 방향으로부터의 사운드의 거부(rejection)가 존재하지 않는다.

고려되는 다음 마이크로폰 구성은, 도 6에 도시된 바와 같이 응답으로 ±45 도를 가리키는 2개의 카디오이드로 이루어진다. 이전과 유사한 분석의 결과는 도 7에 도시된다. 도 7a는 사운드 도달 방향의 함수로서 α(α)를 도시한다. -135 도와 135 도 간의 방향에 대해, α(α)는 유일하게 마이크로폰에서 사운드의 도달 방향을 결정한다. 도 7b는 도달 방향의 함수로서 전체 응답을 도시한 것이다. 앞쪽 방향으로부터의 사운드는 더욱 강하게 캡쳐되고, 뒷쪽으로부터 도달할 시에 사운드는 더욱 약하게 캡쳐되는 것에 주목한다.

이런 논의로부터, 도 6에 도시된 바와 같이 응답에 따른 2개의 카디오이드 마이크로폰은 다음의 이유에 대한 서라운드 사운드 생성에 적합한 것으로 결론지을 수 있다:

모든 가능 도달 방향의 4분의 3 (270 도)은 진폭비 α(α) , 즉, ±135 도 간의 방향으로부터 도달하는 사운드의 측정에 의해 유일하게 결정될 수 있다.

유일하게 결정될 수 없는 방향, 즉, 135 도와 227 도 간의 뒷쪽으로부터 도달하는 사운드는 감쇠되어, 부분적으로 앞쪽 방향으로부터 나오는 이들 사운드를 해석하는 음의 효과를 덜어준다.

특히 적절한 마이크로폰 구성은 슈퍼 카디오이드 마이크로폰 또는 음의 후방 로브(rear lobe)를 가진 다른 마이크로폰의 사용을 포함한다. 약 ±60 도를 가리키는 2개의 슈퍼 카디오이드 마이크로폰의 응답은 도 8에 도시된다. 도달 각의 함수로서의 진폭비는 도 9a에 도시된다. 진폭비는 사운드 도달 방향을 유일하게 결정하는 것에 주목한다. 이것은, 양방의 마이크로폰이 180 도에서 널 응답(null response)을 갖도록 마이크로폰 방향을 선택하기 때문이다. 다른 널 응답은 약 ±60 도에 있다.

이런 마이크로폰 구성은 약 ±60 도의 범위 내의 앞쪽 방향에 대해 동상 (α(α) > 0) 의 사운드을 픽업하는 것에 주목한다. 뒷쪽 사운드는 이상 (α(α) < 0), 즉, 서로 다른 부호로 캡쳐된다. 매트릭스 서라운드 인코딩 (J. M. Eargle, "Multichannel stereo matrix systems: An overview," IEEE Trans . on Speech and Audio Proc ., vol. 19, no. 7, pp. 552-559, July 1971.), (K. Gundry, "A new active matrix decoder for surround sound," in Proc . AES 19 th Int . Conf ., June 2001.)은 매트릭스 인코딩된 2채널 신호에 유사한 진폭비 큐 (C. Faller, "Matrix surround revisited," in Proc . 30 th Int . Conv . Aud . Eng . Soc ., March 2007.) 를 제공한다. 이런 관점으로부터, 이런 마이크로폰 구성은 캡쳐된 신호의 처리에 의해 서라운드 사운드 신호를 생성하는데 적절하다.

도 9b는 도달 방향의 함수로서 마이크로폰 구성의 전체 응답을 도시한 것이다. 상당한 범위의 방향에서, 사운드는 유사한 강도로 캡쳐된다. 뒷쪽을 향해, 전체 응답은 180 도에서 제로 (마이너스 무한 dB)에 도달할 때까지 감속한다.

다음의 함수는 마이크로폰 신호 간의 진폭비의 함수로서 사운드의 도달 방향을 산출한다.

(4)

(4)의 함수는 (2)가 가역인 원하는 범위 내에서 (2)에 주어진 함수를 반전시킴으로써 획득된다.

도 6에 도시된 바와 같은 2개의 카디오이드의 예에 대해, 도달 방향은 ±135 도의 범위 내에 있을 것이다. 사운드가 이 범위 밖으로부터 도달하면, 이의 진폭비는 잘못 해석될 것이고, ±135 도의 범위 내의 방향은 함수에 의해 리턴될 것이다. 도 8에 도시된 바와 같은 2개의 슈퍼 카디오이드 마이크로폰의 예에 대해, 결정된 도달 방향은 양방의 마이크로폰이 180 도에서 이들의 널(null)을 가지므로 180 도를 제외한 어떤 값일 수 있다.

도달 방향의 함수로서, 마이크로폰 신호의 이득은 방향의 원하는 범위 내에서 동일한 강도로 사운드를 캡쳐하기 위해 수정될 필요가 있을 수 있다. 마이크로폰 신호의 이득의 수정은, 예컨대, 마이크로폰 장치(210) 내에서 장치(100) 내의 마이크로폰 신호의 처리 전에 실행될 수 있다. 도달 방향의 함수로서의 이득 수정은 다음과 같다.

(5)

여기서, G는 이득 수정에 대한 dB의 상한치를 결정한다. 이와 같은 상한치는 신호가 너무 큰 계수에 의해 스케일되는 것을 방지하는데 종종 필요하다.

도 10a의 실선은 2개의 카디오이드의 경우에 ±135의 도달 범위의 원하는 방향 내에서 이득 수정을 도시한 것이다. 도 10a의 점선은 뒷쪽 방향으로부터, 135 도와 225 도 간의 사운드에 적용되는 이득 수정을 나타내며, 여기서 (4)는 (잘못) 앞쪽 방향을 산출한다. 예컨대, α = 180 도의 도달 방향에 대해, 추정된 도달 방향 (4)은

= 0 도이다. 그래서, 이득 수정은 α = 0 도, 즉, 0 dB에 대해 동일하다. 도 10b는 2개의 카디오이드 (실선)의 전체 응답 및 이득 수정이 적용될 경우(점선)의 전체 응답을 도시한 것이다. (4)의 한계치 G는 10 dB인 것으로 선택되지만, 도 7a에서의 데이터로 나타낸 바와 같이 도달되지 않는다.

유사한 분석이 슈퍼 카디오이드 마이크로폰 쌍의 경우에 대해 실행된다. 도 11a는 이 경우에 대한 이득 수정을 도시한 것이다. 180 도 근처에서 G = 10 dB의 한계치가 도달되는 것에 주목한다. 도 11b는 전체 응답 (실선) 및 이득 수정이 적용될 경우의 전체 응답 (점선)을 도시한 것이다. 이득 수정의 한계치로 인해, 전체 응답은 (180 도에서 널로 인해, 무한 수정이 필요로 된다) 뒷쪽을 향해 감소한다. 이득 수정 후에, 사운드는 대략 160 도의 범위 내에서 풀 레벨 (0 dB)로 캡쳐되어, 이런 스테레오 마이크로폰 구성을 원칙적으로 서라운드 사운드 신호로 변환될 신호를 캡쳐하는데 매우 적절하게 한다.

이전의 분석은, 원칙적으로 2개의 마이크로폰이 서라운드 사운드 오디오 신호를 생성시키기에 충분한 정보를 포함하는 신호를 캡쳐하는데 이용될 수 있음을 보여준다. 다음에는, 이를 달성하기 위해 공간 오디오 코딩 (SAC)을 이용하는 방법을 설명한다.

구현 상세 사항 - 공간 오디오 코더를 가진 스테레오 마이크로폰 이용

다음에는, 2채널 입력 오디오 신호 (전형적으로 2채널 마이크로폰 신호)를 기반으로 2 이상의 채널을 가진 업믹스 오디오 신호와 관련된 공간 큐의 세트를 나타내는 공간 큐 정보 및 처리된 마이크로폰 신호의 양방을 제공하는 장치의 실시예를 도시하는 도 12와 관련하여 발명의 개념이 상세히 기술될 것이다.

도 12의 장치(1200)는 수반된 기능을 예시한다. 그러나, 3개의 서로 다른 구성이 다채널 서라운드 신호를 생성하기 위해 공간 오디오 코더 (SAC)를 가진 스테레오 마이크로폰을 이용하는 방법에 관해 기술될 것이다. 도 13, 14 및 15와 관련하여 설명되는 3개의 구성은 동일한 기능을 포함할 수 있으며, 상기 기능을 구현하는 블록은 서로 다르게 인크더측 및 디코더측에 분포된다.

또한, 이전의 섹션에서, 적절한 스테레오 마이크로폰 구성의 2개의 예 (즉, 2개의 카디오이드 마이크로폰을 포함하는 장치 및, 2개의 슈퍼 카디오이드 마이크로폰을 포함하는 장치)가 주어진다. 그러나, 쌍극자 마이크로폰을 포함하는 장치와 같은 다른 마이크로폰 장치는 물론 또한, 성능이 약간 저하될 수 있을 지라도 이용될 수 있다.

완전 SAC 역호환 시스템

제 1 가능성은 SAC와 호환 가능한 다운믹스 및 비트스트림을 생성시키는 인코더를 이용하는 것이다. 도 12 및 13은 SAC 호환 가능한 인코더(1200 및 1300)를 도시한다. 2개의 마이크로폰 신호 x₁(t), x₂(t) 및, 대응하는 지향성 응답 정보(1310)가 주어지면, SAC 디코더(1370)와 호환 가능한 SAC 보조 정보(1220, 1320)가 생성된다. 부가적으로, 2개의 마이크로폰 신호 x₁(t), x₂(t) 는 SAC 디코더(1370)와 호환 가능한 다운믹스 신호(1322)를 생성시키도록 처리된다. 인코더(1200, 1300)에 서라운드 오디오 신호를 생성시킬 필요가 없어, 결과적으로 저 계산 복잡도(low computational complexity) 및 저 메모리 요구 조건을 생성한다.

완전 SAC 역호환 시스템 - 마이크로폰 신호 분석

다음에는, 신호 분석기(1212) 또는 분석 유닛(1312)에 의해 실행될 수 있는 마이크로폰 신호 분석에 대해 기술될 것이다.

마이크로폰 신호 x₁(n) 및 x₂(n) (또는 x₁(t) 및 x₂(t))의 시간-주파수 표현 (예컨대, 단시간 퓨리에 변환)은 X₁(l,i) 및 X₂(k,i)이며, 여기서, k 및 i는 시간 및 주파수 지수이다. X₁(l,i) 및 X₂(k,i)은 다음과 같이 모델링될 수 있다.

(6)

여기서, a(k, i)는 이득 계수이고, S(k, i) 는 직접 사운드이며, N ₁ (k, i) 및 N ₂ (k, i) 는 확산 사운드를 나타낸다. 다음에는, 표기의 간단함을 위해, 종종 시간 및 주파수 지수 k 및 i를 무시한다. 신호 모델(6)은, N₁ 및 N₂가 독립적인 것으로 가정하지 않는 것을 제외하고, ( ─, "Multi-loudspeaker playback of stereo signals," J. of the Aud . Eng . Soc ., vol. 54, no. 11, pp. 1051-1064, Nov. 2006.)에서 스테레오 신호 분석에 이용되는 신호 모델과 유사하다.

나중에 이용되는 바와 같이, 2개의 마이크로폰 신호 간의 정규 상호 상관 계수(normalized cross-correlation coefficient)는 다음과 같이 정의된다.

(7)

여기서, *은 공액 복소수를 나타내고, E{.}은 평균 연산이다.

수평 확산 사운드에 대해, φ은, 정규 상호 상관 계수 계산을 위해 (─, "A highly directive 2-capsule based microphone system," in Preprint 123 rd Conv . Aud. Eng . Soc ., Oct. 2007.) 에서 이용된 바와 유사한 가정을 이용하여 쉽게 검증될 수 있듯이 다음과 같다.

(8)

SAC 다운믹스 신호 및 보조 정보는 a, E{SS ^* }, E{N ₁ N ₁ ^*}, 및 E{N ₂ N ₂ ^*}의 함수로서 계산되며, 여기서, E{.}는 단시간 평균 연산이다. 이들 값은 다음에서 유도된다.

(6)으로부터, 그것은 다음과 같다.

(9)

양방의 마이크로폰 신호에서 확산 사운드의 량은 동일하며, 즉,

, N₁과 N₂ 간의 정규 상호 상관 계수는 φ_diff (8)인 것으로 가정한다. 이들 가정이 주어지면, (9)는 다음과 같이 기록될 수 있다.

(10)

(9)에서 E{SS * } 및 α의 제거는 2차 방정식을 산출한다.

(11)

(12)

이때, E{NN*}은 (11)의 2 솔루션 중 하나이고, 다음과 같다면 물리적으로 가능하다.

(13)

(11)의 다른 솔루션은 물리적으로 불가능한 마이크로폰 신호 전력보다 큰 확산 사운드 전력을 산출한다.

(13)이 주어지면, α및 E{SS * }를 계산하는 것이 쉽다:

(14)

직접 사운드 도달 방향 α(k,i)은 (4)에서의 α(k,i)을 이용하여 계산된다.

상술한 바를 요약하기 위해, 직접 사운드 에너지 정보 E{SS * }, 확산 사운드 에너지 정보 E{NN*}, 및 방향 정보 a, α는 신호 분석기(1212) 또는 분석 유닛(1312)에 의해 획득된다. 마이크로폰의 지향성 특성에 대한 지식이 여기서 활용된다. 2 채널 마이크로폰 신호를 제공하는 마이크로폰의 지향성 특성에 대한 지식은, 확산 사운드 신호가 지향성 사운드 성분과 다른 상호 상관 특성을 나타낸다는 사실을 반영하는 추정된 상관 계수

의 계산 (예컨대, 식(8)에 따라)을 허용한다. 마이크로폰 특성에 대한 지식은 신호 분석기(1212, 1312)의 디자인 시간에 적용될 수 있거나, 실행(run) 시간에 활용될 수 있다. 어떤 경우에, 신호 분석기(1212, 1312)는, 신호 분석기(1212, 1312)가 마이크로폰 특성에 동적으로 적응될 수 있도록, 마이크로폰의 지향성 특성을 나타내는 정보를 수신하도록 구성될 수 있다.

상술한 바를 더 요약하기 위해, 신호 분석기(1212, 1312)는 다음을 나타내는 연립 방정식을 풀기 위해 구성된다고 할 수 있다:

(1) 2채널 마이크로폰 신호의 제 1 채널 마이크로폰 신호의 추정된 에너지 (또는 강도), 2채널 마이크로폰 신호의 직접 사운드 성분의 추정된 에너지 (또는 강도), 및 2채널 마이크로폰 신호의 확산 사운드 성분의 추정된 에너지 간의 관계;

(2) 2채널 마이크로폰 신호의 제 2 채널 마이크로폰 신호의 추정된 에너지 (또는 강도), 2채널 마이크로폰 신호의 직접 사운드 성분의 추정된 에너지 (또는 강도), 및 2채널 마이크로폰 신호의 확산 사운드 성분의 추정된 에너지 간의 관계, 및;

(3) 제 1 채널 마이크로폰 신호 및 제 2 마이크로폰 신호의 추정된 상호 상관 값, 2채널 마이크로폰 신호의 직접 사운드 성분의 추정된 에너지 (또는 강도), 및 2채널 마이크로폰 신호의 확산 사운드 성분의 추정된 에너지 (또는 강도) 간의 관계;

(식(10) 참조).

이런 연립 방정식을 풀 시에, 신호 분석기는, 확산 사운드 성분의 에너지가 제 1 채널 마이크로폰 신호 및 제 2 채널 마이크로폰 신호에서 동일하다는 가정을 고려할 수 있다. 게다가, 제 1 마이크로폰 신호 및 제 2 마이크로폰 신호에서 직접 사운드 성분의 에너지의 비가 방향 의존적임이 고려될 수 있다. 더욱이, 제 1 마이크로폰 신호 및 제 2 마이크로폰 신호에서의 확산 사운드 성분 간의 정규 상호 상관 계수가 1보다 작은 상수 값을 취할 수 있음이 고려될 수 있으며, 이 상수 값은 제 1 마이크로폰 신호 및 제 2 마이크로폰 신호를 제공하는 마이크로폰의 지향성 특성에 의존한다. 식(8)에 주어지는 상호 상관 계수는 디자인 시간에 사전 계산될 수 있거나, 마이크로폰 특성을 나타내는 정보를 기반으로 실행 시간에 계산될 수 있다.

따라서, 먼저, 제 1 마이크로폰 신호 x₁의 자동 상관, 제 2 마이크로폰 신호 x₂의 자동 상관 및 제 1 마이크로폰 신호 x₁와 제 2 마이크로폰 신호 x₂간의 상호 상관을 계산하여, 예컨대, 식 (12), (13) 및 (14)을 이용하여 획득된 자동 상관 값 및 획득된 상호 상관값으로부터 성분 에너지 정보 및 방향 정보를 유도할 수 있다.

상술한 마이크로폰 신호 분석은, 예컨대, 신호 분석기(1212) 또는 분석 유닛(1312)에 의해 실행될 수 있다.

완전 SAC 역호환 시스템 - SAC 다운믹스 신호의 생성

바람직한 실시예에서, 발명의 장치는, 2채널 마이크로폰 신호 x₁, x₂를 기반으로 SAC 다운믹스 신호(1222, 1322)를 제공하기 위해 다운믹스 처리를 실행하도록 구성되는 SAC 다운믹스 신호 생성기(1214, 1314)를 포함한다. 따라서, SAC 다운믹스 신호 생성기(1214) 및 다운믹스 처리부(1314)는, 2채널 마이크로폰 신호 x₁, x₂를 처리하거나 수정하여, 2채널 마이크로폰 신호 x₁, x₂의 처리된 버전(1222, 1322)이 SAC 다운믹스 신호의 특성을 포함하고, 입력 신호로서 통상의 SAC 디코더에 적용될 수 있도록 구성될 수 있다. 그러나, SAC 다운믹스 생성기(1214) 및 다운믹스 처리부(1314)는 선택적인 것으로 고려되어야 함에 주목되어야 한다.

*마이크로폰 신호( x₁, x₂)는 때때로 다운믹스 신호로서 직접적으로 적절하지 않는데, 그 이유는 측면 및 후면으로부터의 직접 사운드가 전면 방향으로부터 도달하는 사운드에 대해 감쇠되기 때문이다. 마이크로폰 신호( x₁, x₂) 내에 포함된 직접 사운드는 g(α) dB (5)만큼 보상된 이득일 필요가 있으며, 즉 이상적으로 SAC 다운믹스는 다음과 같이 되어야 한다.

여기서, h는 다운믹스에서 확산 사운드의 량을 제어하는 dB의 이득이다. (여기서는, 다운믹스 매트릭스가 SAC에 의해 프론트 사이드 채널(front side channel) 및 리어(rear) 채널에 대해 동일한 웨이트로 이용되는 것으로 가정한다. ITU (Rec. ITU-R BS.775, Multi - Channel Stereophonic Sound System with or without Accompanying Picture. ITU, 1993, http://www.itu.org.)가 선택적으로 추천하는 바와 같이, 더욱 작은 웨이트가 리어 채널에 이용되면, 이것은 부가적으로 고려되어야 한다.)

위너 필터 (S. Haykin, Adaptive Filter Theory ( third edition ). Prentice Hall, 1996.) 는 원하는 다운믹스 신호를 추정하는데 이용되며,

위너 필터 는 다음과 같다.

표기의 간결을 위해, 시간 및 주파수 지수 k 및 i는 다시 생략됨에 주목한다. (6) 및 (15)를 (17)로 대체하면은 다음을 산출한다.

예컨대, 식(18)에서 주어진 바와 같이, 위너 필터 계수는, 예컨대, SAC 다운믹스 신호 생성기(1214)의 필터 계수 계산기 (또는 스케일 계수 계산기)(1214a)에 의해 계산될 수 있다. 말하자면, 위너 필터 계수는 다운믹스 처리부(1314)에 의해 계산될 수 있다. 또한, 위너 필터 계수는, 처리된 2채널 오디오 신호를 획득하도록 필터 (또는 스케일러)(1214b)에 의해 2채널 마이크로폰 신호 x₁, x₂에 적용될 수 있거나, 처리된 제 1 채널 신호

및 처리된 제 2 마이크로폰 신호

를 포함하는 채널 마이크로폰 신호(1222)로 처리될 수 있다. 말하자면, 위너 필터 계수는, 다운믹스 처리부(1314)에 의해, 2채널 마이크로폰 신호 x₁, x₂로부터 SAC 다운믹스 신호(1322)를 유도하기 위해 적용될 수 있다.

완전 SAC 역호환 시스템 - 공간 보조 정보의 생성

다음에는, 장치(1200)의 공간 보조 정보 생성기(1216)에 의해 공간 큐 정보(1220)이 획득되고, 장치(1300)의 분석 유닛(1312)에 의해 SAC 보조 정보(1320)이 획득되는 방법에 대해 기술될 것이다. 양방의 공간 보조 정보 생성기(1216) 및 분석 유닛(1312)은 동일한 출력 정보를 제공하여, 공간 큐 정보(1220)가 SAC 보조 정보(1320)과 균등할 수 있도록 구성될 수 있음에 주목되어야 한다.

스테레오 신호 분석 결과치, 즉, 제각기 α(4), E{SS*}, 및 E{NN*}인 파라미터가 주어지면, SAC 디코더 호환 가능한 공간 파라미터(1220, 1320)는 공간 보조 정보 생성기(1216) 또는 분석 유닛(1312)에 의해 생성된다. 이를 행하는 하나의 방식은 다채널 신호 모델, 예컨대, 다음을 고려하는 것이다:

여기서, 신호

내지

의 전력은 E{NN*}과 동일하고,

내지

은 서로 독립적임을 가정한다. 5 이상의 서라운드 오디오 채널이 바람직하면, 더 많은 채널을 가진 모델 및 SAC가 이용된다.

제 1 단계에서, 직접 사운드의 도달 방향 α(k, i)의 함수로서, 다채널 진폭 패닝 법칙(amplitude panning law) (V. Pulkki, "Virtual sound source positioning using Vector Base Amplitude Panning," J. Audio Eng . Soc ., vol. 45, pp. 456-466, June 1997.), (D. Griesinger, "Stereo and surround panning in practice," in Preprint 112 th Conv . Aud . Eng . Soc ., May 2002.)은 이득 계수 g₁ 내지 g₅를 결정하기 위해 적용된다. 이런 계산은 공간 보조 정보 생성기(1216)의 이득 계수 계산기(1216a)에 의해 실행될 수 있다. 그리고 나서, 휴리스틱 절차( heuristic procedure)가 확산 사운드 이득 h₁ 내지 h₅을 결정하기 위해 이용된다. 디자인 시간에 선택될 수 있는 상수 값 h₁ = 1:0, h₂ = 1:0, h₃ = 0, h₄ = 1:0, 및 h₅= 1:0은 적당한 선택이며, 즉, 앰비언스(ambience)는 균등하게 전면 및 후면으로 분포되지만, 중심 채널은 드라이 신호( dry signal)로서 생성된다.

서라운드 신호 모델(19)이 주어지면, 이용된 특정 SAC의 공간 큐 분석은 공간 큐를 획득하도록 신호 모델에 적용된다. 다음에는, 출력 정보(1220)로서 공간 보조 정보 생성기(1216)에 의해 획득될 수 있거나, 분석 유닛(1312)에 의해 SAC 보조 정보(1320)로서 획득될 수 있는 MPEG Surround에 필요로 되는 큐를 유도한다.

(19)에서 정의된 신호의 전력 스펙트럼은 다음과 같다.

이들 전력 스펙트럼은 신호 분석기(1212) 및 이득 계수 계산기(1216)에 의해 제공되는 정보를 기반으로 채널 강도 추정 계산기(1216b)에 의해 계산되어, 예컨대, h₁ 내지 h₅에 대한 상수 값을 고려할 수 있다. 선택적으로, 이들 전력 스펙트럼은 분석 유닛(1312)에 의해 계산될 수 있다.

다음에 필요로 되는 크로스 스펙트럼( cross-spectra)은 다음과 같다.

크로스 스펙트럼이 또한 채널 강도 추정 계산기(1216b)에 의해 계산될 수 있다. 선택적으로, 크로스 스펙트럼은 분석 유닛(1312)에 의해 계산될 수 있다.

MPEG Surround의 제 1의 2 대 1 (two-to-one) (TTO) 박스는 채널간 레벨차 (ICLD) 및 채널간 코히어런스 (ICC) 를 이용하며, 이는 (19)를 기반으로 다음과 같다.

따라서, 공간 큐 계산기(1216)는 채널 강도 추정 계산기(1216b)에 의해 제공되는 채널 강도 추정 및 크로스 스펙트럼을 기반으로 식(22)에서 정의된 바와 같이 공간 큐 ICLD_LLs 및 ICC_LLs를 계산하도록 구성될 수 있다. 따라서, 분석 유닛(1312)은 식(22)에서 정의된 바와 같이 공간 큐를 계산할 수 있다.

마찬가지로, R 및 R_s에 대한 제 2 TTO 박스의 ICLD 및 ICC는 다음과 같이 계산된다:

따라서, 공간 큐 계산기(1216c)는 채널 강도 추정 계산기(1216b)에 의해 제공되는 채널 강도 추정 및 크로스 스펙트럼을 기반으로 식(23)에서 정의된 바와 같이 공간 큐 ICLD_RRs 및 ICC_RRs를 계산하도록 구성될 수 있다. 선택적으로, 분석 유닛(1312)은 식(23)에서 정의된 바와 같이 공간 큐 ICLD_RRs 및 ICC_RRs를 계산할 수 있다.

MPEG Surround의 3 대 2 (TTT) 박스는 "에너지 모드"에 이용된다. TTT 박스에 의해 이용되는 2개의 ICLD 파라미터는 다음과 같다.

따라서, 공간 큐 계산기(1216c)는 채널 강도 추정 계산기(1216b)에 의해 제공되는 채널 강도 추정을 기반으로 식(24)에서 정의된 바와 같이 공간 큐 ICLD₁ 및 ICLD₂를 계산하도록 구성될 수 있다. 선택적으로, 분석 유닛(1312)은 식(24)에서 정의된 바와 같이 공간 큐 ICLD₁ 및 ICLD₂를 계산할 수 있다.

지수 i 및 k는 표기의 간략을 위해 다시 제거됨에 주목한다.

물론, 공간 큐 계산기(1216c)가 상술한 모든 큐 ICLD_LLs, ICC_RRs, ICLD₁, ICLD₂, ICC_LLs , ICC_RRs를 계산하는 것이 필수적이지 않다. 오히려, 그것은, 공간 큐 계산기(1216c) (또는 분석 유닛(1312))가 실제 응용에서 필요로 되는 어느쪽의 이들 공간 큐의 서브세트를 계산하면 충분하다. 마찬가지로, 채널 강도 추정기(1216b) (또는 분석 유닛(1312))가 상술한 모든 채널 강도 추정 P_L, P_R, P_C, P_Ls, P_Rs 및 크로스 스펙트럼 P_LLs, P_RRs를 계산하는 반드시 필요치는 않다. 오히려, 그것은 물론, 채널 강도 추정 계산기(1216b)가 공간 큐 계산기(1216)에 의해 원하는 공간 큐의 다음 계산을 위해 필요로 되는 이들 채널 강도 추정 및 크로스 스펙트럼을 계산하면 충분하다.

다운믹스로서 마이크로폰 신호를 이용하는 시스템

인코더(1200, 1300)를 이용하고, SAC 호환 가능한 다운믹스(1222, 1322) 및 공간 보조 정보(1220, 1320)를 생성하는 상술한 시나리오는 통상의 SAC 디코더(1320)가 서라운드 오디오 신호를 생성하는데 이용될 수 있는 이점을 가지고 있다.

역호환성이 역할을 하지 못하고, 어떤 이유로, 다운믹스 신호로서 수정되지 않은 마이크로폰 신호 x₁, x₂를 이용하는 것이 바람직하면, "다운믹스 처리"는, 도 14에 도시된 바와 같이, 인코더(1300)에서 디코더(1370)로 이동될 수 있다. 이 시나리오에서, 다운믹스 처리에 필요로 되는 정보, 즉 (18)는 (이런 정보를 공간 보조 정보로부터 유도하는 휴리스틱 알고리즘이 성공적으로 디자인되지 않으면) 공간 보조 정보 이외에 디코더로 송신되어야 한다.

환언하면, 도 14는 공간 오디오 코딩 인코더 및 공간 오디오 코딩 디코더의 블록 개략도를 도시한 것이다. 인코더(1400)는 분석 유닛(1410)을 포함하며, 이 분석 유닛(1410)은 분석 유닛(1310)과 동일하여, 신호 분석기(1212) 및 공간 보조 정보 생성기(1216)의 기능을 포함할 수 있다. 도 14의 실시예에서, 인코더(1400)에서 확장된 디코더(1470)로 송신되는 신호는 2채널 마이크로폰 신호 x₁, x₂(또는 이의 인코딩된 표현)를 포함한다. 또한, 인코더(1400)에서 확장된 디코더(1470)로 송신되는 신호는 또한, 예컨대, 직접 사운드 에너지 정보 E{SS * }, 및 확산 사운드 에너지 정보 E{NN*} (또는 이의 인코딩된 버전)를 포함할 수 있는 정보(1413)를 포함한다. 더욱이, 인코더(1400)에서 확장된 디코더(1470)로 전송되는 정보는, 공간 큐 정보(1220) 또는 SAC 보조 정보(1320)와 동일할 수 있는 SAC 보조 정보(1420)를 포함한다. 도 14의 실시예에서, 확장된 디코더(1470)는 SAC 다운믹스 신호 생성기(1214) 또는 다운믹스 프로세서(1314)의 기능을 인계받을 수 있는 다운믹스 처리부(1472)를 포함한다. 확장된 디코더(1470)는 또한, 기능면에서 SAC 디코더(1370)와 동일할 수 있는 통상의 SAC 디코더(1480)를 포함할 수 있다. 그래서, SAC 디코더(1480)는, 인코더(1400)의 분석 유닛(1410)에 의해 제공되는 SAC 보조 정보(1420), 및 인코더(1400)에 의해 제공되는 2채널 마이크로폰 신호 x₁, x₂를 기반으로 디코더의 다운믹스 처리부(1472)에 의해 제공되는 SAC 다운믹스 정보(1474) 및 인코더(1400)에 의해 제공되는 부가적인 정보(1413)를 수신하도록 구성될 수 있다. SAC 다운믹스 정보(1474) 는 SAC 다운믹스 정보(1322)와 동등할 수 있다. 그래서, SAC 디코더(1480)는 SAC 다운믹스 정보(1474) 및 SAC 보조 정보(1420)를 기반으로 2 이상의 오디오 채널을 포함하는 서라운드 사운드 출력 신호를 제공하도록 구성될 수 있다.

블라인드 시스템

스테레오 마이크로폰으로 SAC를 이용하기 위해 기술되는 제 3 시나리오는 서라운드 사운드 신호를 생성하도록 마이크로폰 신호 x₁, x₂를 직접 공급할 수 있는 수정된 "블라인드(Blind)" SAC 디코더이다. 이것은, 도 15에 도시된 바와 같이, "다운믹스 처리" 블록(1314) 뿐만 아니라, 인코더(1300)에서 디코더(1370)까지의 "분석" 블록(1312)을 이동하는 것에 대응한다. 제 1의 2개의 제안된 시스템의 디코더와는 대조적으로, 블라인드 SAC 디코더는 이용되는 특정 마이크로폰 구성에 관한 정보를 필요로 한다.

이와 같이 수정된 블라인드 SAC 디코더의 블록 개략도는 도 15에 도시된다. 알 수 있는 바와 같이, 수정된 블라인드 SAC 디코더(1500)는 마이크로폰 신호 x₁, x₂ 및, 선택적으로, 마이크로폰 신호 x₁, x₂를 생성시키는 마이크로폰 장치의 지향성 응답을 특징으로 하는 지향성 응답 정보를 수신하도록 구성된다. 도 15에서 알 수 있는 바와 같이, 디코더는 분석 유닛(1310) 및 분석 유닛(1410)과 동등한 분석 유닛(1510)을 포함한다. 게다가, 블라인드 SAC 디코더(1500)는 다운믹스 처리부(1314, 1472)와 동일한 다운믹스 처리부(1514)를 포함한다. 게다가, 수정된 블라인드 SAC 디코더(1500)는 SAC 디코더(1370, 1480)와 동일할 수 있는 SAC 합성부(1570)를 포함한다.

따라서, 블라인드 SAC 디코더(1500)의 기능은, 상술한 모든 구성 요소(1510, 1514, 1540, 1570)가 디코더측에 배치되는 것을 제외하고는, 인코더/디코더 시스템(1300, 1370) 및 인코더/디코더 시스템(1400, 1470)의 기능과 동일하다. 그래서, 처리되지 않은 마이크로폰 신호 x₁, x₂는 바람직하게는, SAC 디코더(1370)에 의해 수신되는 처리된 마이크로폰 신호(1322)보다는 오히려 블라인드 SAC 디코더(1500)에 의해 수신된다. 게다가, 블라인드 SAC 디코더(1500)는, SAC 보조 정보를 인코더로부터 수신하기보다는 저절로 SAC 공간 큐의 형식의 SAC 보조 정보를 유도하도록 구성된다.

SAC 디코더(1370, 1480, 1570)에 관해, 이 유닛은 다운믹스 오디오 신호 및 공간 큐(1320, 1420, 1520)를 기반으로 서라운드 사운드 출력 신호를 제공할 책임이 있음에 주목되어야 한다. 따라서, SAC 디코더(1370, 1480, 1570)는 서라운드 사운드 출력 신호를 합성하도록 구성되는 업믹서를 포함하며, 이 서라운드 사운드 출력 신호는 전형적으로 2 이상의 오디오 채널을 포함하며, 바람직하게는, 공간 큐 정보를 이용하여 다운믹스 신호 (예컨대, 처리되지 않거나 처리된 2채널 마이크로폰 신호)를 기반으로 6 이상의 오디오 채널 (예컨대, 5 서라운드 채널 및 1 저주파 채널)을 포함하며, 상기 공간 큐 정보는 전형적으로 하나 이상의 다음의 파라미터: 채널간 레벨차 (ICLD), 채널간 상관(ICC)을 포함한다.

방법

도 16은 2 채널 마이크로폰 신호를 기반으로 2 이상의 채널을 가진 업믹스 오디오 신호와 관련된 공간 큐의 세트를 제공하는 방법(1600)의 흐름도를 도시한 것이다. 방법(1600)은, 2채널 마이크로폰 신호를 기반으로 성분 에너지 정보 및 방향 정보를 획득하여, 성분 에너지 정보가 2채널 마이크로폰 신호의 직접 사운드 성분 및 2채널 마이크로폰 신호의 확산 사운드 성분의 에너지의 추정을 나타내고, 방향 정보가 2채널 마이크로폰 신호의 직접 사운드 성분이 발신하는 방향의 추정을 나타내도록 제 1 단계(1610)를 포함한다. 이 방법(1600)은 또한, 2채널 마이크로폰 신호의 성분 에너지 정보 및 2채널 마이크로폰 신호의 방향 정보를 2 이상의 채널을 가진 업믹스 오디오 신호와 관련된 공간 큐를 나타내는 공간 큐 정보에 맵하는 단계(1620)를 포함한다. 물론, 방법(1600)은 여기에 기술된 발명의 장치의 어떤 특징 및 기능에 의해 보충될 수 있다.

컴퓨터 구현

일부 양태가 장치와 관련하여 기술되었지만, 이들 양태는 또한 대응하는 방법에 대한 설명을 명백히 나타내며, 여기서, 블록 또는 디바이스는 방법 단계 또는 방법 단계의 특징에 대응한다. 유사하게도, 방법 단계와 관련하여 기술되는 양태는 또한 대응하는 장치의 대응하는 블록 또는 항목 또는 특징에 대한 설명을 나타낸다.

발명의 인코딩된 오디오 신호, 예컨대, SAC 보조 정보(1320)와 협력하는 SAC 다운믹스 신호(1322), 또는 정보(1413)와 협력하는 마이크로폰 신호 x₁, x₂, 및 SAC 보조 정보(1420), 마이크로폰 신호 x₁, x₂는 디지털 저장 매체 상에 저장될 수 있거나, 무선 송신 매체와 같은 송신 매체 또는 인터넷과 같은 유선 송신 매체 상에서 송신될 수 있다.

어떤 구현 요건에 따라, 본 발명의 실시예들은 하드웨어 또는 소프트웨어에서 구현될 수 있다. 이런 구현은 디지털 저장 매체, 예컨대, 플로피 디스크, DVD, 블루레이, CD, ROM, PROM, EPROM, EEPROM 또는 플래시 메모리를 이용하여 실행될 수 있으며, 이들은 전자식 판독 가능한 제어 신호를 저장하여, 각각의 방법이 실행되도록 하는 프로그램 가능한 컴퓨터 시스템과 협력한다 (또는 협력할 수 있다). 그래서, 디지털 저장 매체는 컴퓨터 판독 가능할 수 있다.

본 발명에 따른 일부 실시예들은 여기에 기술된 방법 중 하나가 실행되도록 프로그램 가능한 컴퓨터 시스템과 협력할 수 있는 전자식 판독 가능한 제어 신호를 가진 데이터 캐리어를 포함한다.

일반적으로, 본 발명의 실시예들은 프로그램 코드를 가진 컴퓨터 프로그램 제품으로서 실시될 수 있으며, 이 프로그램 코드는 컴퓨터 프로그램 제품이 컴퓨터 상에서 실행할 시에 방법 중 하나를 실행하기 위해 동작한다. 프로그램 코드는, 예컨대, 기계 판독 가능한 캐리어 상에 저장될 수 있다.

다른 실시예들은, 기계 판독 가능한 캐리어 상에 저장되고, 여기에 기술된 방법 중 하나를 실행하는 컴퓨터 프로그램을 포함한다.

그래서, 환언하면, 발명의 방법의 실시예는, 컴퓨터 프로그램이 컴퓨터 상에서 실행할 시에, 여기에 기술된 방법 중 하나를 실행하기 위한 프로그램 코드를 가진 컴퓨터 프로그램이다.

그래서, 발명의 방법의 추가 실시예는, 여기에 기술된 방법 중 하나를 실행하기 위한 컴퓨터 프로그램을 기록한 데이터 캐리어 (또는 디지털 저장 매체, 또는 컴퓨터 판독 가능한 매체)이다.

그래서, 발명의 방법의 추가 실시예는 여기에 기술된 방법 중 하나를 실행하기 위한 컴퓨터 프로그램을 나타내는 데이터 스트림 또는 신호의 시퀀스이다. 데이터 스트림 또는 신호의 시퀀스는, 예컨대, 데이터 통신 접속을 통해, 예컨대, 인터넷을 통해 전송되도록 구성될 수 있다.

추가 실시예는, 여기에 기술된 방법 중 하나를 실행하기 위해 구성되거나 적응되는 처리 수단, 예컨대, 컴퓨터, 또는 프로그램 가능한 논리 디바이스를 포함한다.

추가 실시예는 여기에 기술된 방법 중 하나를 실행하기 위한 컴퓨터 프로그램을 설치한 컴퓨터를 포함한다.

일부 실시예들에서, 프로그램 가능한 논리 디바이스 (예컨대, 필드 프로그램 가능 게이트 어레이)는 여기에 기술된 방법의 일부 또는 모든 기능을 실행하는데 이용될 수 있다. 일부 실시예들에서, 필드 프로그램 가능 게이트 어레이는 여기에 기술된 방법 중 하나를 실행하기 위해 마이크로프로세서와 협력할 수 있다. 일반적으로, 이들 방법은 바람직하게는 어떤 하드웨어 장치에 의해 실행된다.

상술한 실시예들은 단지 본 발명의 원리를 위해 예시한 것이다. 여기에 기술된 배치 및 상세 사항의 수정 및 변형은 당업자에게는 자명한 것으로 이해된다. 그래서, 여기의 실시예의 설명을 통해 제시된 특정 상세 사항에 의해 제한되지 않고, 첨부한 특허청구범위의 범주에 의해서만 제한되는 것으로 의도된다.

결론

공간 오디오 코딩 (SAC)에 의해 서라운드 사운드 기록을 위한 스테레오 마이크로폰의 적정성이 논의되었다. 스테레오 마이크로폰 신호에 기반하여 다채널 서라운드 오디오를 생성하기 위해 SAC를 이용하는 3개의 시스템이 제시되었다. 이들 시스템 중 하나, 즉, 도 12 및 13에 따른 큐 시스템은 기존 SACs와 호환 가능한 비트스트림 및 디코더이며, 여기서, 전용 인코더는 마이크로폰 스테레오 신호로부터 직접 호환 가능한 다운믹스 스테레오 신호 및 보조 정보를 생성한다. 도 14와 관련하여 기술된 제 2 제안된 시스템은 SAC 다운믹스 신호로서 직접 마이크로폰 스테레오 신호를 이용하며, 도 15와 관련하여 기술된 제 3 시스템은 스테레오 마이크로폰 신호를 직접 다채널 서라운드 오디오 신호로 변환하는 "블라인드" SAC 디코더이다.

3개의 서로 다른 구성은 다채널 서라운드 오디오 신호를 생성시키도록 공간 오디오 코더 (SAC)를 가진 스테레오 마이크로폰을 이용하는 방법에 관해 기술되었다. 이전의 섹션에서, 특히 적절한 스테레오 마이크로폰 구성의 2개의 예가 제공되었다.

본 발명에 따른 실시예들은 인코드 서라운드 사운드를 직접 캡쳐하도록 통상의 SAC와 함께 이용하기 위한 많은 2개의 캡슐 기반 마이크로폰 프론트 엔드를 생성한다. 제안된 기법의 특징은 다음과 같다:

마이크로폰 구성은 통상의 스테레오 마이크로폰 또는 특히 이를 위해 최적화된 스테레오 마이크로폰일 수 있다.

인코더에서 서라운드 신호를 생성하기 위한 필요 없이, SAC 호환 가능한 다운믹스 및 보조 정보가 생성된다.

고 품질 스테레오 다운믹스 신호가 생성되어, SAC 디코더에 의해 서라운드 사운드를 생성시키기 위해 이용된다.

코딩이 바람직하지 않다면, 수정된 "블라인드" SAC 디코더가 마이크로폰 신호를 서라운드 오디오 신호로 직접 변환하기 위해 이용될 수 있다.

본 설명에서, 서라운드 사운드 정보를 캡쳐하기 위한 서로 다른 스테레오 마이크로폰 구성의 적정성이 논의되었다. 이들 통찰에 기초로 하여, 스테레오 마이크로폰을 가진 SAC의 이용을 위한 3개의 시스템이 제안되었고, 일부 결론이 제시되었다.

서라운드 사운드 정보를 캡쳐하기 위한 서로 다른 스테레오 마이크로폰 구성의 적정성은, 명칭이 "Stereo Microphones and their Suitability for Surround Recording"인 섹션 하에 논의되었다. 3개의 시스템은 명칭이 "Using Stereo Microphones with Spatial Audio Coders"인 섹션에 기술되어 있다.

더 요약하기 위해, MPEG Surround와 같은 공간 오디오 코더는 다채널 서라운드 오디오의 저 비트율 및 스테레오 역호환 가능한 코딩을 가능하게 하였다. 지향성 오디오 코딩 (DirAC)은 특정 마이크로폰 프론트 엔드를 고려해 디자인된 공간 오디오 코딩으로 보여질 수 있다. DirAC은 B-format 공간 사운드 분석에 기초로 하고, 직접 스테레오 역호환성을 갖지 않는다. 본 발명은 많은 2개의 캡슐 기반 스테레오 호환 가능한 마이크로폰 프론트 엔드 및 대응하는 공간 오디오 코더 수정을 생성시키며, 이는 공간 오디오 코더의 이용이 서라운드 사운드를 직접 캡쳐하여 코딩할 수 있게 한다.

110; 제 1 채널 신호, 112; 제 2 채널 신호, 120; 공간 큐 정보, 130; 신호 분석기, 132; 성분 에너지 정보, 134; 방향 정보, 140; 공간 보조 정보 생성기.

Claims

2채널 마이크로폰 신호를 기반으로 2 이상의 채널을 가진 업믹스 오디오 신호와 관련된 공간 큐의 세트를 제공하는 장치에 있어서,
상기 2채널 마이크로폰 신호를 기반으로 성분 에너지 정보 및 방향 정보를 추출하여, 상기 성분 에너지 정보의 제1 파라미터는 상기 2채널 마이크로폰 신호의 직접 사운드 성분의 에너지의 추정을 나타내고 상기 성분 에너지 정보의 제2 파라미터는 상기 2채널 마이크로폰 신호의 확산 사운드 성분의 에너지의 추정을 나타내고, 상기 방향 정보의 파라미터는 상기 2채널 마이크로폰 신호의 직접 사운드 성분이 발신하는 방향의 추정을 나타내도록 구성되는 신호 분석기; 및
상기 2채널 마이크로폰 신호의 상기 성분 에너지 정보의 상기 파라미터 및 상기 2채널 마이크로폰 신호의 상기 방향 정보의 파라미터를 2 이상의 채널을 가진 업믹스 오디오 신호와 관련된 상기 공간 큐의 세트를 나타내는 공간 큐 정보에 맵하도록 구성되는 공간 보조 정보 생성기를 포함하며,
상기 공간 보조 정보 생성기는 상기 직접 사운드 성분 및 상기 확산 사운드 성분의 에너지의 추정과 상기 방향 정보를 공간 큐 정보에 맵하도록 구성되는 것을 특징으로 하는 공간 큐의 세트를 제공하는 장치.
청구항 1에 있어서,
상기 공간 보조 정보 생성기(140; 1216; 1312; 1410; 1510)는 상기 2채널 마이크로폰 신호 (X₁(t), X₂(t))의 상기 성분 에너지 정보 (E{SS*}, E{NN*}) 및 상기 2채널 마이크로폰 신호 (X₁(t), X₂(t))의 상기 방향 정보 (a,α)를 2 이상의 채널을 가진 업믹스 오디오 신호와 관련된 상기 공간 큐의 세트를 나타내는 상기 공간 큐 정보에 직접 맵하도록 구성되는 것을 특징으로 하는 공간 큐의 세트를 제공하는 장치.
청구항 1에 있어서,
상기 공간 보조 정보 생성기(140; 1216; 1312; 1410; 1510)는 상기 2채널 마이크로폰 신호 (X₁(t), X₂(t))의 상기 성분 에너지 정보 (E{SS*}, E{NN*}) 및 상기 2채널 마이크로폰 신호 (X₁(t), X₂(t))의 상기 방향 정보 (a,α)를, 중간 수량으로서 실제 상기 업믹스 오디오 채널을 이용하지 않고, 2 이상의 채널을 가진 업믹스 오디오 신호와 관련된 상기 공간 큐의 세트를 나타내는 상기 공간 큐 정보 (ICLD_LL, ICC_LLs, ICLD_RRs, ICLD₁, ICLD₂)에 맵하도록 구성되는 것을 특징으로 하는 공간 큐의 세트를 제공하는 장치.
청구항 1에 있어서,
상기 공간 보조 정보 생성기(140; 1216; 1312; 1410; 1510)는 상기 방향 정보 (a,α)를 방향 의존 직접 사운드 대 서라운드 오디오 채널 맵핑을 나타내는 이득 계수(g₁, g₂, g₃, g₄, g₅)의 세트로 맵하도록 구성되고; 및
상기 공간 보조 정보 생성기는 또한 상기 성분 에너지 정보 (E{SS*}, E{NN*}) 및 상기 이득 계수 (g₁, g₂, g₃, g₄, g₅)를 기반으로 2 이상의 서라운드 채널 (L,R,C,Ls,Rs)의 추정된 강도를 나타내는 채널 강도 추정 (P_L, P_R, P_C, P_Ls, P_Rs)을 획득하도록 구성되며; 및
상기 공간 보조 정보 생성기는 상기 채널 강도 추정 (P_L, P_R, P_C, P_Ls, P_Rs)을 기반으로 상기 업믹스 오디오 신호와 관련된 상기 공간 큐 (ICLD_LLs, ICC_LLs, ICLD_RRs, ICLD₁, ICLD₂)를 결정하도록 구성되는 것을 특징으로 하는 공간 큐의 세트를 제공하는 장치.
청구항 4에 있어서,
상기 공간 보조 정보 생성기(140; 1216; 1312; 1410; 1510)는 또한 상기 성분 에너지 정보 (E{SS*}, E{NN*}) 및 상기 이득 계수 (g₁, g₂, g₄, g₅)를 기반으로 상기 업믹스 신호의 서로 다른 채널 (L,Ls,R,Rs) 간의 상관을 나타내는 채널 상관 정보 (P_LLs, P_RRs)를 획득하도록 구성되며; 및
상기 공간 보조 정보 생성기는 또한 상기 채널 강도 추정 (P_L, P_Ls, P_R, P_Rs) 및 상기 채널 상관 정보 (P_LLs, P_RRs) 중 하나 이상을 기반으로 상기 업믹스 신호와 관련된 공간 큐 (ICC_LLs, ICC_RRs)를 결정하도록 구성되는 것을 특징으로 하는 공간 큐의 세트를 제공하는 장치.
청구항 4에 있어서,
상기 공간 보조 정보 생성기(140; 1216; 1312; 1410; 1510)는 상기 채널 강도 추정 (P_L, P_R, P_C, P_Ls, P_Rs)을 획득하기 위해 상기 2 채널 마이크로폰 신호 (X₁(t), X₂(t))의 직접 사운드 성분 (S)의 강도의 추정 (E{SS*}) 및 상기 2 채널 마이크로폰 신호의 확산 사운드 성분 (N)의 강도의 추정(E{NN*})을 선형적으로 조합하도록 구성되며, 및
상기 공간 보조 정보 생성기는 상기 이득 계수 (g₁,..., g₅) 및 상기 방향 정보 (a,α)에 따라 상기 직접 사운드 성분의 강도의 추정 (E{SS*})을 웨이트하도록 구성되는 것을 특징으로 하는 공간 큐의 세트를 제공하는 장치.
청구항 4에 있어서,
상기 공간 보조 정보 생성기(140; 1216; 1312; 1410; 1510)는,

에 따라 상기 업믹스 오디오 신호의 좌측 프론트 서라운드 채널의 추정된 전력 스펙트럼 값 (P_L)을 획득하고,

에 따라 상기 업믹스 오디오 신호의 우측 프론트 서라운드 채널의 추정된 전력 스펙트럼 값 (P_R)을 획득하며,

에 따라 상기 업믹스 오디오 신호의 중심 서라운드 채널의 추정된 전력 스펙트럼 값 (P_C)을 획득하며,

에 따라 상기 업믹스 오디오 신호의 좌측 리어 서라운드 채널의 추정된 전력 스펙트럼 값 (P_Ls)을 획득하며,

에 따라 상기 업믹스 오디오 신호의 우측 리어 서라운드 채널의 추정된 전력 스펙트럼 값 (P_Rs)을 획득하도록 구성되고, 및
상기 공간 보조 정보 생성기는 또한 상기 추정된 전력 스펙트럼 값을 이용하여 다수의 서로 다른 채널간 레벨차 (ICLD_LLs, ICLD_RRs, ICLD₁, ICLD₂)를 계산하도록 구성되며,
g₁, g₂, g₃, g₄, g₅은 방향 의존 직접 사운드 대 서라운드 오디오 채널 맵핑을 나타내는 이득 계수이며,
f(a)는 방향 의존 진폭 보정 계수이며,
E{SS*}는 상기 2채널 마이크로폰 신호 (X₁(t), X₂(t))의 직접 사운드 성분 (S)의 에너지의 추정을 나타내는 성분 에너지 정보이며;
E{NN*}는 상기 2채널 마이크로폰 신호 (X₁(t), X₂(t))의 확산 사운드 성분 (N)의 에너지의 추정을 나타내는 성분 에너지 정보이며; 및
h₁, h₂, h₃, h₄, h₅는 확산 사운드 대 서라운드 오디오 채널 맵핑을 나타내는 확산 사운드 분포 계수인 것을 특징으로 하는 공간 큐의 세트를 제공하는 장치.
청구항 4에 있어서,
상기 공간 보조 정보 생성기(140; 1216; 1312; 1410; 1510)는,

에 따라 상기 업믹스 오디오 신호의 좌측 프론트 서라운드 채널 및 우측 리어 서라운드 채널 간의 추정된 상호 상관 스펙트럼 값 (P_LLs)을 획득하고,

에 따라 우측 프론트 서라운드 채널 및 우측 리어 서라운드 채널 간의 추정된 상호 상관 스펙트럼 값 (P_RRs)을 획득하며,
채널간 코히어런스 큐 (ICC_LLs, ICC_RRs)를 획득하도록 상기 업믹스 오디오 신호의 서라운드 채널의 추정된 전력 스펙트럼 값 (P_L, P_Ls, P_R, P_Rs)과 상기 추정된 상호 상관 스펙트럼 값을 조합하도록 구성되며,
g₁, g₂, g₄, g₅은 방향 의존 직접 사운드 전력 서라운드 오디오 채널 맵핑을 나타내는 이득 계수이며,
f(a)는 방향 의존 진폭 보정 계수이며,
E{SS*}는 상기 2채널 마이크로폰 신호 (X₁, X₂)의 직접 사운드 성분 (S)의 에너지의 추정을 나타내는 성분 에너지 정보이며;
E{NN*}는 상기 2채널 마이크로폰 신호 (X₁, X₂)의 확산 사운드 성분 (N)의 에너지의 추정을 나타내는 성분 에너지 정보인 것을 특징으로 하는 공간 큐의 세트를 제공하는 장치.
청구항 1에 있어서,
상기 신호 분석기(130; 1212; 1312; 1410; 1510)는,
상기 확산 사운드 성분 (N)의 에너지 (E{NN*})가 상기 제 1 채널 마이크로폰 신호 (X₁) 및 상기 제 2 채널 마이크로폰 신호 (X₂)에서 동일하고,
상기 제 1 마이크로폰 신호 (X₁) 및 상기 제 2 마이크로폰 신호 (X₂)에서의 상기 직접 사운드 성분 (S)의 에너지(E{SS*}, a² E{SS*})의 비가 방향 의존적이며, 및
상기 제 1 마이크로폰 신호 (X₁) 및 상기 제 2 마이크로폰 신호 (X₂)에서의 상기 확산 사운드 성분 (N₁,N₂) 간의 정규 상호 상관 계수 (φ)가 1보다 작은 상수 값을 취하고, 상수 값은 상기 제 1 마이크로폰 신호 (X₁) 및 상기 제 2 마이크로폰 신호 (X₂)를 제공하는 마이크로폰의 지향성 특성에 의존한다는 가정을 고려하여,
(1) 상기 2채널 마이크로폰 신호의 제 1 채널 마이크로폰 신호 (X₁)의 추정된 에너지 (E{X₁X₁*}), 상기 2채널 마이크로폰 신호의 상기 직접 사운드 성분 (S)의 추정된 에너지 (E{SS*}), 및 상기 2채널 마이크로폰 신호의 상기 확산 사운드 성분 (N)의 추정된 에너지 (E{NN*}) 간의 관계,
(2) 상기 2채널 마이크로폰 신호의 제 2 채널 마이크로폰 신호 (X₂)의 추정된 에너지 (E{X₂X₂*}), 상기 2채널 마이크로폰 신호의 상기 직접 사운드 성분 (S)의 상기 추정된 에너지 (E{SS*}), 및 상기 2채널 마이크로폰 신호의 상기 확산 사운드 성분 (N)의 상기 추정된 에너지 (E{NN*}) 간의 관계, 및
(3) 상기 제 1 채널 마이크로폰 신호 (X₁) 및 상기 제 2 채널 마이크로폰 신호 (X₂)의 추정된 상호 상관 값 (E{X₁X₂*}), 상기 2채널 마이크로폰 신호의 상기 직접 사운드 성분 (S)의 상기 추정된 에너지 (E{SS*}), 및 상기 2채널 마이크로폰 신호의 상기 확산 사운드 성분 (N)의 상기 추정된 에너지 (E{NN*}) 간의 관계를 나타내는 연립 방정식을 풀도록 구성되는 것을 특징으로 하는 공간 큐의 세트를 제공하는 장치.
2채널 오디오 신호
및, 2 이상의 채널을 가진 업믹스 오디오 신호와 관련된 공간 큐 (ICLD_LLs, ICC_LLs, ICLD_RRs, ICC_RRs, ICLD₁, ICLD₂)의 세트를 제공하는 장치(200)에 있어서,
제 1 지향성 마이크로폰(216) 및 제 2 지향성 마이크로폰(218)을 포함하는 마이크로폰 장치(210)로서, 상기 제 1 지향성 마이크로폰 및 상기 제 2 지향성 마이크로폰은 30 센티미터만큼 이격되고, 상기 제 1 지향성 마이크로폰 및 상기 제 2 지향성 마이크로폰은 상기 제 2 지향성 마이크로폰의 지향성 특성이 상기 제 1 지향성 마이크로폰의 지향성 특성의 회전된 버전이도록 맞추어지는 마이크로폰 장치(210);
청구항 1 내지 9 중 어느 한 항에 따라, 2 채널 마이크로폰 신호 (X₁, X₂)를 기반으로 2 이상의 채널을 가진 업믹스 오디오 신호와 관련된 공간 큐 (ICLD_LLs, ICC_LLs, ICLD_RRs, ICC_RRs, ICLD₁, ICLD₂)의 세트를 제공하는 장치(100)로서, 상기 2 채널 마이크로폰 신호로서 상기 제 1 및 2 지향성 마이크로폰의 상기 마이크로폰 신호 (X₁, X₂)를 수신하여, 이를 기반으로 상기 공간 큐의 세트를 제공하도록 구성되는 장치(100); 및
상기 제 1 및 2 지향성 마이크로폰의 상기 마이크로폰 신호 (x₁, x₂), 또는 이의 처리된 버전을 상기 2채널 오디오 신호로서 제공하도록 구성되는 2 채널 오디오 신호 제공자(230; 340; 1214; 1314)를 포함하는 것을 특징으로 하는 2채널 오디오 신호 및 공간 큐의 세트를 제공하는 장치.
처리된 2채널 오디오 신호 및, 2채널 마이크로폰 신호 (X₁, X₂)를 기반으로 2 이상의 채널을 가진 업믹스 신호와 관련된 공간 큐 (ICLD_LLs, ICC_LLs, ICLD_RRs, ICC_RRs, ICLD₁, ICLD₂)의 세트를 제공하는 장치(300)에 있어서,
청구항 1 내지 9 중 어느 한 항에 따라, 상기 2채널 마이크로폰 신호 (X₁, X₂)를 기반으로 2 이상의 채널을 가진 업믹스 오디오 신호와 관련된 공간 큐 (ICLD_LLs, ICC_LLs, ICLD_RRs, ICC_RRs, ICLD₁, ICLD₂)의 세트를 제공하는 장치(100); 및
상기 2채널 마이크로폰 신호 (X₁, X₂)를 기반으로 처리된 2채널 오디오 신호를 제공하도록 구성되는 2채널 오디오 신호 제공자(230; 340; 1214; 1314)를 포함하는데,
상기 2채널 오디오 신호 제공자는 하나 이상의 제 1 마이크로폰 신호 스케일 계수 (H₁)를 이용하여 상기 2채널 마이크로폰 신호의 제 1 오디오 신호 (X₁)를 스케일하여, 상기 처리된 2채널 오디오 신호 중 제 1 처리된 오디오 신호
를 획득하도록 구성되고,
상기 2채널 오디오 신호 제공자는 또한 하나 이상의 제 2 마이크로폰 신호 스케일 계수 (H₂)를 이용하여 상기 2채널 마이크로폰 신호의 제 2 오디오 신호 (X₂)를 스케일하여, 상기 처리된 2채널 오디오 신호 중 제 2 처리된 오디오 신호
를 획득하도록 구성되며,
상기 2채널 오디오 신호 제공자는 공간 큐의 세트를 제공하는 장치의 상기 신호 분석기에 의해 제공되는 상기 성분 에너지 정보 (E{SS*}, E{NN*})를 기반으로 상기 하나 이상의 제 1 마이크로폰 신호 스케일 계수 (H₁) 및 상기 하나 이상의 제 2 마이크로폰 신호 스케일 계수 (H₂) 를 계산하여, 상기 공간 큐 및 상기 마이크로폰 신호 스케일 계수 (H₁, (H₂) 의 양방이 상기 성분 에너지 정보에 의해 결정되도록 구성되는 것을 특징으로 하는 처리된 2채널 오디오 신호 및 공간 큐의 세트를 제공하는 장치.
2채널 마이크로폰 신호를 기반으로 2 이상의 채널을 가진 업믹스 오디오 신호와 관련된 공간 큐의 세트를 제공하는 방법에 있어서,
성분 에너지 정보의 제1 파라미터는 상기 2채널 마이크로폰 신호의 직접 사운드 성분의 에너지의 추정을 나타내고 성분 에너지 정보의 제2 파라미터는 상기 2채널 마이크로폰 신호의 확산 사운드 성분의 에너지의 추정을 나타내고, 방향 정보의 파라미터는 상기 2채널 마이크로폰 신호의 직접 사운드 성분이 발신하는 방향의 추정을 나타내도록 상기 2채널 마이크로폰 신호를 기반으로 상기 성분 에너지 정보 및 상기 방향 정보를 추출하는 단계; 및
상기 2채널 마이크로폰 신호의 상기 성분 에너지 정보의 상기 파라미터 및 상기 2채널 마이크로폰 신호의 상기 방향 정보의 파라미터를 2 이상의 채널을 가진 업믹스 오디오 신호와 관련된 상기 공간 큐의 세트를 나타내는 공간 큐 정보에 맵핑하는 단계를 포함하고,
상기 직접 사운드 성분 및 상기 확산 사운드 성분의 에너지의 추정과 상기 방향 정보는 공간 큐 정보에 맵핑되는 것을 특징으로 하는 공간 큐의 세트를 제공하는 방법.
컴퓨터 프로그램이 컴퓨터 상에서 실행할 시에 청구항 12에 따른 방법을 실행하기 위한 컴퓨터 프로그램이 저장된 컴퓨터로 읽을 수 있는 매체.
2 이상의 채널을 가진 업믹스 오디오 신호와 관련된 공간 큐의 세트 및 2채널 오디오 신호를 제공하는 장치에 있어서,
제 1 지향성 마이크로폰 및 제 2 지향성 마이크로폰을 포함하는 마이크로폰 장치로서, 상기 제 1 지향성 마이크로폰 및 상기 제 2 지향성 마이크로폰은 30 센티미터 이하 만큼 이격되고, 상기 제 1 지향성 마이크로폰 및 상기 제 2 지향성 마이크로폰은 상기 제 2 지향성 마이크로폰의 지향성 특성이 상기 제 1 지향성 마이크로폰의 지향성 특성의 회전된 버전이도록 맞추어지는 마이크로폰 장치; 및
2 채널 마이크로폰 신호를 기반으로 2 이상의 채널을 가진 업믹스 오디오 신호와 관련된 공간 큐의 세트를 제공하는 장치; 및
상기 제 1 및 2 지향성 마이크로폰의 상기 마이크로폰 신호, 또는 이의 처리된 버전을 상기 2채널 오디오 신호로서 제공하도록 구성되는 2 채널 오디오 신호 제공자를 포함하며,
상기 2 채널 마이크로폰 신호를 기반으로 2 이상의 채널을 가진 업믹스 오디오 신호와 관련된 공간 큐의 세트를 제공하는 장치는,
상기 2채널 마이크로폰 신호를 기반으로 성분 에너지 정보 및 방향 정보를 획득하여, 상기 성분 에너지 정보의 제1 파라미터는 상기 2채널 마이크로폰 신호의 직접 사운드 성분의 에너지의 추정을 나타내고 상기 성분 에너지 정보의 제2 파라미터는 상기 2채널 마이크로폰 신호의 확산 사운드 성분의 에너지의 추정을 나타내고, 상기 방향 정보의 파라미터는 상기 2채널 마이크로폰 신호의 직접 사운드 성분이 발신하는 방향의 추정을 나타내도록 구성되는 신호 분석기; 및
상기 2채널 마이크로폰 신호의 상기 성분 에너지 정보의 상기 파라미터 및 상기 2채널 마이크로폰 신호의 상기 방향 정보의 파라미터를 2 이상의 채널을 가진 업믹스 오디오 신호와 관련된 상기 공간 큐의 세트를 나타내는 공간 큐 정보에 맵하도록 구성되는 공간 보조 정보 생성기를 포함하며,
상기 공간 보조 정보 생성기는 상기 직접 사운드 성분 및 상기 확산 사운드 성분의 에너지의 추정과 상기 방향 정보를 공간 큐 정보에 맵하도록 구성되고,
상기 업믹스 오디오 신호와 관련된 공간 큐의 세트를 제공하는 장치는 상기 2 채널 마이크로폰 신호로서 상기 제 1 및 2 지향성 마이크로폰의 상기 마이크로폰 신호를 수신하여, 이를 기반으로 상기 공간 큐의 세트를 제공하도록 구성되는 것을 특징으로 하는 2채널 오디오 신호 및 공간 큐의 세트를 제공하는 장치.
처리된 2채널 오디오 신호 및 2채널 마이크로폰 신호를 기반으로 2 이상의 채널을 가진 업믹스 오디오 신호와 관련된 공간 큐의 세트를 제공하는 장치에 있어서,
2채널 마이크로폰 신호를 기반으로 2 이상의 채널을 가진 업믹스 오디오 신호와 관련된 공간 큐의 세트를 제공하는 장치; 및
상기 2채널 마이크로폰 신호를 기반으로 처리된 2채널 오디오 신호로서 제공하도록 구성되는 2 채널 오디오 신호 제공자를 포함하며,
상기 2채널 오디오 신호 제공자는 하나 이상의 제 1 마이크로폰 신호 스케일 계수를 이용하여 상기 2채널 마이크로폰 신호의 제 1 오디오 신호를 스케일하여, 상기 처리된 2채널 오디오 신호 중 제 1 처리된 오디오 신호를 획득하도록 구성되고,
상기 2채널 오디오 신호 제공자는 또한 하나 이상의 제 2 마이크로폰 신호 스케일 계수를 이용하여 상기 2채널 마이크로폰 신호의 제 2 오디오 신호를 스케일하여, 상기 처리된 2채널 오디오 신호 중 제 2 처리된 오디오 신호를 획득하도록 구성되고,
상기 2채널 오디오 신호 제공자는 공간 큐의 세트를 제공하는 장치의 신호 분석기에 의해 제공되는 성분 에너지 정보를 기반으로 상기 하나 이상의 제 1 마이크로폰 신호 스케일 계수 및 상기 하나 이상의 제 2 마이크로폰 신호 스케일 계수를 계산하여, 상기 공간 큐 및 상기 마이크로폰 신호 스케일 계수의 양방이 상기 성분 에너지 정보에 의해 결정되도록 구성되며,
상기 2채널 마이크로폰 신호를 기반으로 2 이상의 채널을 가진 업믹스 오디오 신호와 관련된 공간 큐의 세트를 제공하는 장치는,
상기 2채널 마이크로폰 신호를 기반으로 성분 에너지 정보 및 방향 정보를 추출하여, 상기 성분 에너지 정보의 제1 파라미터는 상기 2채널 마이크로폰 신호의 직접 사운드 성분의 에너지의 추정을 나타내고 상기 성분 에너지 정보의 제2 파라미터는 상기 2채널 마이크로폰 신호의 확산 사운드 성분의 에너지의 추정을 나타내고, 상기 방향 정보의 파라미터는 상기 2채널 마이크로폰 신호의 직접 사운드 성분이 발신하는 방향의 추정을 나타내도록 구성되는 신호 분석기; 및
상기 2채널 마이크로폰 신호의 상기 성분 에너지 정보의 상기 파라미터 및 상기 2채널 마이크로폰 신호의 상기 방향 정보의 파라미터를 2 이상의 채널을 가진 업믹스 오디오 신호와 관련된 상기 공간 큐의 세트를 나타내는 공간 큐 정보에 맵하도록 구성되는 공간 보조 정보 생성기를 포함하며,
상기 공간 보조 정보 생성기는 상기 직접 사운드 성분 및 상기 확산 사운드 성분의 에너지의 추정과 상기 방향 정보를 공간 큐 정보에 맵하도록 구성되는 것을 특징으로 하는 2채널 오디오 신호 및 공간 큐의 세트를 제공하는 장치.
삭제
삭제