KR20110052702A - 변환된 공간 오디오 신호를 결정하는 장치 - Google Patents

변환된 공간 오디오 신호를 결정하는 장치 Download PDF

Info

Publication number
KR20110052702A
KR20110052702A KR1020117005560A KR20117005560A KR20110052702A KR 20110052702 A KR20110052702 A KR 20110052702A KR 1020117005560 A KR1020117005560 A KR 1020117005560A KR 20117005560 A KR20117005560 A KR 20117005560A KR 20110052702 A KR20110052702 A KR 20110052702A
Authority
KR
South Korea
Prior art keywords
component
directional component
directional
input
audio signal
Prior art date
Application number
KR1020117005560A
Other languages
English (en)
Other versions
KR101476496B1 (ko
Inventor
갈도 지오바니 델
파비안 퀴흐
마르쿠스 칼링거
빌레 풀키
미코-빌레 라티넹
리차드 슐츠-암링
Original Assignee
프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. filed Critical 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Publication of KR20110052702A publication Critical patent/KR20110052702A/ko
Application granted granted Critical
Publication of KR101476496B1 publication Critical patent/KR101476496B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Algebra (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Stereophonic System (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

변환된 공간 오디오 신호를 결정하는 장치(100)로서, 변환된 공간 오디오 신호는 입력 공간 오디오 신호로부터 무지향성 오디오 성분 (W') 및 하나 이상의 지향성 오디오 성분을 가지며, 입력 공간 오디오 신호는 입력 오디오 표현 (W) 및 입력 도달 방향 (
Figure pct00149
)을 갖는다. 장치(100)는, 입력 오디오 표현 (W) 및 입력 도달 방향 (
Figure pct00150
)에 기초로 하여 웨이브 필드 측정 및 웨이브 도달 방향 측정을 포함하는 웨이브 표현 (W)을 추정하는 추정기(110)를 포함한다. 장치(100)는 무지향성 오디오 성분 (W) 및 하나 이상의 지향성 성분 (X;Y;Z)을 획득하기 위해 웨이브 필드 측정 및 웨이브 도달 방향 측정을 처리하는 프로세서(120)를 더 포함한다.

Description

변환된 공간 오디오 신호를 결정하는 장치{AN APPARATUS FOR DETERMINING A CONVERTED SPATIAL AUDIO SIGNAL}
본 발명은 오디오 처리 분야에 관한 것으로서, 특히, 서로 다른 공간 오디오 포맷의 공간 오디오 처리 및 변환에 관한 것이다.
DirAC 오디오 코딩 (DirAC = Directional Audio Coding)은 공간 오디오의 재생 및 처리를 위한 방법이다. 통상의 시스템은, 기록된 소리, 원격 회의(teleconferencing) 애플리케이션, 지향성 마이크로폰, 및 스테레오-서라운드 업믹싱의 2차원 및 3차원의 고품질 재생 시에 DirAC를 적용하며,
V. Pulkki and C. Faller, Directional audio coding: Filterbank and STFT-based design, in 120th AES Convention, May 20-23, 2006, Paris, France May 2006,
V. Pulkki and C. Faller, Directional audio coding in spatial sound reproduction and stereo upmixing, in AES 28th International Conference, Pitea, Sweden, June 2006,
V. Pulkki, Spatial sound reproduction with directional audio coding, Journal of the Audio Engineering Society, 55(6): 503-516, June 2007,
Jukka Ahonen, V. Pulkki and Tapio Lokki, Teleconference application and B-format microphone array for directional audio coding, in 30th AES International Conference를 참조하라.
DirAC를 이용하는 다른 통상의 애플리케이션은, 예컨대, 유니버설 코딩 포맷(universal coding format) 및 잡음 제거이다. DirAC에서, 소리의 일부 지향성 특성이 시간에 따라 주파수 대역에서 분석된다. 이런 분석 데이터는 오디오 데이터와 함께 송신되어, 여러 목적을 위해 합성된다. 이런 분석은 일반적으로, 이론상 DirAC가 이런 포맷으로 제한받지 않지만, B-포맷 신호를 이용하여 행해진다. Michael Gerzon, Surround sound psychoacoustics, in Wireless World, volume 80, pages 483-486, December 1974를 참조하면, B-포맷은, 앰비소닉스 (Ambisonics), 1970년대 영국의 연구원에 의해 콘서트 홀의 서라운드 소리를 리빙 룸(living rooms)으로 가져오도록 개발된 시스템에 관한 작업에서 개발되었다. B-포맷은 4개의 신호, 즉, w(t),x(t),y(t), 및 z(t)로 이루어진다. 제 1 신호는 무지향성 마이크로폰(omnidirectional microphone)에 의해 측정되는 압력에 상응하는 반면에, 후자의 3개의 신호는, 데카르트 좌표계 (Cartesian coordinates system)의 3개의 축으로 지향되는 8자형(figure-of-eight) 픽업 패턴을 가진 마이크로폰의 압력 판독치(pressure readings)이다. 신호 x(t),y(t) 및 z(t)는 제각기 x, y 및 z로 지향되는 입자 속도 벡터의 성분에 비례한다.
DirAC 스트림은 지향성 메타데이터를 가진 오디오의 1-4 채널로 이루어진다. 원격 회의 및 일부 다른 경우에, 이 스트림은 메타데이터를 가진 단일 오디오 채널만으로 이루어지며, 이는 모노 DirAC 스트림이라 한다. 이것은, 단일 오디오 채널만이, 예컨대, 토커(talkers) 간에 양호한 공간 분리를 제공하는 보조(side) 정보와 함께 송신될 필요가 있을 시에, 공간 오디오를 묘사하는 아주 콤팩트한 방법이다. 그러나, 이와 같은 경우에, 반향 또는 주변 소리 시나리오와 같은 일부 소리 타입은 제한된 품질로 재생될 수 있다. 이들 경우에 양호한 품질을 산출하기 위해서는, 부가적인 오디오 채널이 송신될 필요가 있다.
V. Pulkki에서는, B-포맷에서 DirAC으로의 변환, 2004년 9월, 특허 WO 2004/077884 A1, 멀티채널 리스닝(multichannel listening)에서 자연적 또는 수정된 공간 인상(spatial impression)을 재생하는 방법이 기술되어 있다. 지향성 오디오 코딩은 공간 소리의 분석 및 재생에 대한 효율적인 접근법이다. DirAC는, 공간 소리의 지각과 관련된 특징(features), 즉, 주파수 부대역에서 음장(sound field)의 DOA (DOA = direction of arrival) 및 확산에 기반으로 하는 음장의 파라메트릭 표현(parametric representation)을 이용한다. 사실상, DirAC는, 음장의 DOA가 정확히 재생될 시에는 두 귀간의 시간차 (interaural time differences)(ITD) 및 두 귀간의 레벨차 (ILD)가 정확히 감지되지만, 확산이 정확히 재생될 경우에는 두 귀간의 코히어런스(interaural coherence)(IC)가 정확히 감지되는 것으로 추정한다. 이들 파라미터, 즉, DOA 및 확산은 모노 DirAC 스트림으로서 지칭되는 모노 신호를 수반하는 보조 정보를 나타낸다.
도 7은, 적절한 마이크로폰 신호로부터, 모노 오디오 채널 및 보조 정보, 즉, 확산 Ψ(k,n) 및 도달 방향 eDOA(k,n)을 계산하는 DirAC 인코더를 도시한 것이다. 도 7은 적절한 마이크로폰 신호로부터 모노 오디오 채널 및 보조 정보를 계산하기 위해 구성되는 DirAC 인코더(200)를 도시한 것이다. 환언하면, 도 7은 적절한 마이크로폰 신호로부터 확산 및 도달 방향을 결정하는 DirAC 인코더(200)를 도시한 것이다. 도 7은 P/U 추정 유닛(210)을 포함하는 DirAC 인코더(200)를 도시하며, 여기서, P(k,n)는 압력 신호를 나타내고, U(k,n)는 입자 속도 벡터를 나타낸다. P/U 추정 유닛은 P/U 추정을 기반으로 하는 입력 정보로서 마이크로폰 신호를 수신한다. 에너지적 분석 스테이지(energetic analysis stage)(220)는 모노 DirAC 스트림의 확산 파라미터 및 도달 방향의 추정을 가능하게 한다.
DirAC 파라미터는, 예컨대, 모노 오디오 표현 W(k,n), 확산 파라미터 Ψ(k,n) 및 도달 방향 (DOA) eDOA(k,n)으로서, 마이크로폰 신호의 주파수-시간 표현으로부터 획득될 수 있다. 그래서, 이런 파라미터는 시간 및 주파수에 의존한다. 재생측에서, 이런 정보는 정확한 공간 렌더링(spatial rendering)을 고려한다. 원하는 리스닝 위치에서 공간 소리를 재생하기 위해, 멀티-라우드스피커 셋업(multiloudspeaker setup)이 필요로 된다. 그러나, 이의 기하학적 배열(geometry)은 임의적일 수 있다. 사실상, 라우드스피커 채널은 DirAC 파라미터의 함수로서 결정될 수 있다.
Lars Villemocs, Juergen Herre, Jeroen Breebaart, Gerard Hetho, Sascha Disch, Heiko Purnhagen, 및 Kristofer Kjrling를 참조하면, MPEG Surround와 같이 DirAC 및 파라메트릭 멀티채널 오디오 코딩 간에는 상당한 차가 존재하며, MPEG Surround는, AES 28th International Conference, Pitea, Sweden, June 2006에서 공간 오디오 코딩에 대한 도래하는 ISO 표준이지만, 이들은 유사한 처리 구조를 공유한다. MPEG Surround는 서로 다른 라우드스피커 채널의 시간/주파수 분석에 기반으로 하지만, DirAC는 한 지점에서 음장을 효율적으로 묘사하는 동축형 마이크로폰(coincident microphones)의 채널을 입력으로서 취한다. 따라서, DirAC는 또한 공간 오디오에 대한 효율적인 기록 기술을 나타낸다.
Jonas Engdegard, Barbara Resch, Cornelia Falch, Oliver Hellmuth, Johannes Hilpert, Andreas Hoelzer, Leonid Terentiev, Jeroen Breebaart, Jeroen Koppens, Erik Schuijers, 및 Werner Oomen을 참조하면, 공간 오디오를 처리하는 다른 시스템은 SAOC (SAOC = Spatial Audio Object Coding)이며, Spatial Audio Object (SAOC)는, 현재 표준화 ISO/MPEG 하에, 12th AES Convention, May 17-20, 2008, Amsterdam, The Netherlands, 2008에서, 파라메트릭 객체 기반 오디오 코딩에 관한 도래하는 MPEG 표준이다. 그것은 MPEG Surround의 렌더링 엔진을 토대로 하고, 객체로서 여러 소리 소스를 취급한다. 이런 오디오 코딩은 비트레이트(bitrate)에 의해 매우 높은 효율을 제공하며, 재생측에서 전례가 없는 상호 작용의 자유(unprecedented freedom of interacton)를 부여한다. 이런 접근법은 레거시 시스템(legacy systems)에서 새로운 돋보이는 특징(compelling features) 및 기능 뿐만 아니라, 수개의 다른 새로운 애플리케이션을 보증한다.
본 발명의 목적은 공간 처리를 위한 개선된 개념을 제공하기 위한 것이다.
이 목적은 청구항 1에 따라 변환된 공간 오디오 신호를 결정하는 장치 및, 청구항 15에 따른 대응하는 방법에 의해 달성된다.
본 발명은, 예컨대, 모노 DirAC 스트림으로서 코드화된 공간 오디오 신호를 B-포맷 신호로 변환할 시에, 개선된 공간 처리가 달성될 수 있다는 연구 결과에 기초로 한다. 실시예들에서, 변환된 B-포맷 신호는, 일부 다른 오디오 신호에 부가되기 전에 처리되거나 렌더링되어, DirAC 스트림으로 다시 인코딩될 수 있다. 실시예들은 여러 애플리케이션, 예컨대, 여러 타입의 DirAC 및 B-포맷 스트림, DirAC 기반 등의 믹싱(mixing)을 가질 수 있다. 실시예들은 WO 2004/077884 A1에 대한 역 연산(inverse operation), 즉, 모노 DirAC 스트림에서 B-포맷으로의 변환을 도입할 수 있다.
본 발명은, 오디오 신호가 지향성 성분으로 변환될 경우에, 개선된 처리가 달성될 수 있다는 연구 결과에 기초로 한다. 환언하면, 그것은, 공간 오디오 신호의 포맷이, 예컨대, B-포맷 지향성 마이크로폰에 의해 기록되는 지향성 성분에 대응할 시에 개선된 공간 처리가 달성될 수 있다는 본 발명의 연구 결과이다. 더욱이, 그것은, 서로 다른 소스로부터의 지향성 또는 무지향성 성분이 공동으로 처리되어, 효율을 증대시킬 수 있다는 본 발명의 연구 결과이다. 환언하면, 특히, 다수의 오디오 소스로부터의 공간 오디오 신호를 처리할 시에, 다수의 오디오 소스의 신호가 공동으로 처리될 수 있을 시에 이들의 무지향성 및 지향성 성분의 포맷에 이용 가능한 경우에, 처리가 더욱 효율적으로 실행될 수 있다. 그래서, 실시예들에서, 오디오 효과 생성기 또는 오디오 프로세서는 다수의 소스의 조합된 성분을 처리함으로써 더욱 효율적으로 이용될 수 있다.
실시예들에서, 공간 오디오 신호는, 미디어 데이터가 송신 시에 하나의 오디오 채널만을 수반하는 DirAC 스트리밍 기술을 의미하는 모노 DirAC 스트림으로 나타낼 수 있다. 이런 포맷은, 예컨대, 다수의 지향성 성분을 가진 B-포맷 스트림으로 변환될 수 있다. 실시예들은 공간 오디오 신호를 지향성 성분으로 변환함으로써 공간 처리를 개선할 수 있다.
실시예들은, 라우드스피커 신호를 생성하기 전에 결정되는 지향성 오디오 성분에 기초로 하여 부가적 공간 처리를 가능하게 한다는 점에서, 하나의 오디오 채널만이 모든 라우드스피커 신호를 생성하는데 이용되는 모노 DirAC 디코딩 비해 이점을 제공할 수 있다. 실시예들은 반향 소리의 생성 시의 문제가 감소되는 이점을 제공할 수 있다.
실시예들에서, 예컨대, DirAC 스트림은 모노 오디오 신호 대신에 스테레오 오디오 신호를 사용할 수 있으며, 여기서, 스테레오 채널은 L (L = 좌측 스테레오 채널) 및 R (R = 우측 스테레오 채널)이며, DirAC 디코딩에 이용되도록 송신된다. 실시예들은 반향 소리에 대한 양호한 품질을 달성하여, 예컨대, 스테레오 라우드스피커 시스템과의 직접 호환성을 제공할 수 있다.
실시예들은 가상 마이크로폰 DirAC 디코딩을 가능하게 할 수 있는 이점을 제공할 수 있다. 가상 마이크로폰 DirAC 디코딩에 관한 상세 사항은, V. Pulkki, Spatial sound reproduction with directional audio coding, Journal of the Audio Engineering Society, 55(6): 503-516, June 2007에서 찾을 수 있다. 이들 실시예들은, 라우드스피커의 위치로 지향되는 가상 마이크로폰을 배치하고, 포인트형(point-like) 소리 소스를 가진 라우드스피커에 대한 오디오 신호를 획득하며, 이의 위치는 DirAC 파라미터에 의해 결정된다. 실시예들은, 변환에 의해, 오디오 신호의 편리한 선형 조합(linear combination)을 가능하게 할 수 있는 이점을 제공할 수 있다.
본 발명의 실시예들은 첨부한 도면을 이용하여 상세히 기술될 것이다.
도 1a는 변환된 공간 오디오 신호를 결정하는 장치의 실시예를 도시한 것이다.
도 1b는 평면파에 대한 가우스 평면(Gaussian plane)에서의 입자 속도 벡터의 압력 및 성분을 도시한 것이다.
도 2는 모노 DirAC 스트림을 B-포맷 신호로 변환하기 위한 다른 실시예를 도시한 것이다.
도 3은 다수의 변환된 공간 오디오 신호를 조합하기 위한 실시예를 도시한 것이다.
도 4a-4d는 서로 다른 오디오 효과를 적용하는 다수의 DirAC 기반 공간 오디오 신호를 조합하기 위한 실시예를 도시한 것이다.
도 5는 오디오 효과 생성기의 실시예를 도시한 것이다.
도 6은 지향성 성분 상에서 다수의 오디오 효과를 적용하는 오디오 효과 생성기의 실시예를 도시한 것이다.
도 7은 종래 기술의 DirAC 인코더를 도시한 것이다.
도 1a는 변환된 공간 오디오 신호를 결정하는 장치(100)를 도시하며, 변환된 공간 오디오 신호는 입력 공간 오디오 신호로부터 무지향성 성분 및 하나 이상의 지향성 성분 (X;Y;Z)을 가지며, 입력 공간 오디오 신호는 입력 오디오 표현 (W) 및 입력 도달 방향 (φ)을 갖는다.
장치(100)는, 입력 오디오 표현 (W) 및 입력 도달 방향 (φ)에 기초로 하여 웨이브 필드(wave field) 측정 및 웨이브 도달 방향 측정을 포함하는 웨이브 표현(wave representation)을 추정하는 추정기(110)를 포함한다. 더욱이, 장치(100)는, 무지향성 성분 및 하나 이상의 지향성 성분을 획득하도록 웨이브 필드 측정 및 웨이브 도달 방향 측정을 처리하는 프로세서(120)를 포함한다. 추정기(110)는 웨이브 표현을 평면파 표현으로서 추정하기 위해 구성될 수 있다.
실시예들에서, 프로세서는 입력 오디오 표현 (W)을 무지향성 오디오 성분 (W')으로서 제공하기 위해 구성될 수 있다. 환언하면, 무지향성 오디오 성분 (W')은 입력 오디오 표현 (W)과 동일할 수 있다. 그래서, 도 1a의 점선에 따라, 입력 오디오 표현은 추정기(110), 프로세서(120), 또는 양자 모두를 바이패스할 수 있다. 다른 실시예에서, 무지향성 오디오 성분 (W')은, 입력 오디오 표현 (W)과 함께 프로세서(120)에 의해 처리되는 웨이브 도달 방향 및 웨이브 세기에 기초로 할 수 있다. 실시예들에서, 다수의 지향성 오디오 성분 (X;Y;Z)은, 예컨대, 서로 다른 공간 방향에 대응하는 제 1 (X), 제 2 (Y) 및/또는 제 3 (Z) 지향성 오디오 성분으로서 처리될 수 있다. 실시예들에서, 예컨대, 3개의 서로 다른 지향성 오디오 성분 (X;Y;Z)은 데카르트 좌표계의 서로 다른 방향에 따라 유도될 수 있다.
추정기(110)는 웨이브 필드 진폭 및 웨이브 필드 위상에 의해 웨이브 필드 측정을 추정하기 위해 구성될 수 있다. 환언하면, 실시예들에서, 웨이브 필드 측정은 복소수량(complex valued quantity)으로서 추정될 수 있다. 웨이브 필드 진폭은 소리 압력 크기에 대응할 수 있고, 웨이브 필드 위상은 일부 실시예에서 소리 압력 위상에 대응할 수 있다.
실시예들에서, 웨이브 도달 방향 측정은, 예컨대, 벡터, 하나 이상의 각도(angle) 등으로 표현되는 어떤 지향성 수량에 대응할 수 있고, 그것은, 오디오 성분을, 예컨대, 세기 벡터, 입자 속도 벡터 등으로서 나타내는 어떤 지향성 측정으로부터 유도될 수 있다. 웨이브 필드 측정은, 실수 또는 복소수일 수 있는 오디오 성분을 묘사하는 어떤 물리적 수량에 대응할 수 있고, 압력 신호, 입자 속도 진폭 또는 크기, 음의 세기(loudness) 등에 대응할 수 있다. 더욱이, 측정은 시간 및/또는 주파수 도메인으로 간주될 수 있다.
실시예들은, 도 1a의 추정기(110)에 의해 실행될 수 있는 각각의 입력 스트림에 대한 평면파 표현의 추정에 기초로 할 수 있다. 환언하면, 웨이브 필드 측정은 평면파 표현을 이용하여 모델링될 수 있다. 일반적으로, 평면파 또는 평면파들의 수개의 등가의(equivalent) 명백한 (즉, 완전한) 설명이 존재한다. 다음에는, 서로 다른 성분에 대한 확산 파라미터 및 도달 방향 또는 방향 측정을 계산하기 위해 수학적 설명이 도입될 것이다. 몇몇 설명만이, 예컨대, 압력, 입자 속도 등으로서 물리적 수량에 직접 관계하지만, 잠재적으로, 웨이브 표현을 묘사할 무한 수의 여러 방식이 존재하며, 이 중 어느 하나가 일례로 제공되지만, 이는 어떤 방법으로든 본 발명의 실시예에 제한하는 것으로 의미되지 않는다. 어떤 조합은 웨이브 필드 측정 및 웨이브 도달 방향 측정에 대응할 수 있다.
여러 잠재적 설명을 더 상세히 하기 위해, 2개의 실수 a 및 b가 고려된다. a 및 b에 포함된 정보는 c 및 d를 송신함으로써 전달될 수 있으며, 이때,
Figure pct00001
여기서, Ω는 공지된 2×2 매트릭스이다. 예는 선형 조합만을 고려하며, 일반적으로는 어떤 조합, 즉 또한 비선형 조합이 생각될 수 있다.
다음에는, 스칼라(scalars)는 소문자 a,b,c로 나타내지만, 칼럼 벡터는 굵은 소문자 a,b,c로 나타낸다. 윗첨자 ()T는 제각기 전치 행렬(transpose)을 나타내는 반면에,
Figure pct00002
Figure pct00003
는 복소 공액을 나타낸다. 복소 페이저 표기(complex phasor notation)는 일시(temporal) 표기와 구별된다. 예컨대, 실수이고, 가능 웨이브 필드 측정이 유도될 수 있는 압력 p(t)은, 복소수이고, 다른 가능 웨이브 필드 측정이 다음에 의해 유도될 수 있는 페이저 P로 표현될 수 있다.
p(t) = Re{Pejwt},
여기서, Re{ㆍ}은 실수부를 나타내고, w = 2πf는 각도 주파수이다. 더욱이, 물리적 수량에 이용되는 대문자는 다음에서 페이저를 나타낸다. 다음에 소개되는 예의 표기에 대해, 혼동을 회피하기 위해, 아래 첨자 "PW"를 가진 모든 수량이 평면파를 나타내는 것에 주목한다.
이상적 단색성(monochromatic) 평면파에 대해, 입자 속도 벡터
Figure pct00004
는 다음과 같이 언급될 수 있다.
Figure pct00005
여기서, 단위 벡터
Figure pct00006
는, 예컨대, 방향 측정에 대응하는 웨이브의 전파 방향을 가리킨다. 그것은 다음과 같이 입증될 수 있다.
Figure pct00007
여기서,
Figure pct00008
는 액티브 인텐시티(active intensity)를 나타내고,
Figure pct00009
는 공기 밀도를 나타내며, c는 소리의 속도를 나타내고, E는 소리 필드 에너지를 나타내며, Ψ는 확산도를 나타낸다.
흥미로운 것은,
Figure pct00010
의 모든 성분이 실수이므로,
Figure pct00011
의 성분은 모두
Figure pct00012
와 동상이다는 것이다. 도 1b는 가우스 평면에서 예시적인
Figure pct00013
Figure pct00014
를 도시한다. 방금 기술된 바와 같이,
Figure pct00015
의 모든 성분은
Figure pct00016
와 동일한 위상, 즉, θ를 공유한다. 다른 한편으로는, 이들의 크기는 다음과 같이 된다.
Figure pct00017
본 발명의 실시예들은 모노 DirAC 스트림을 B-포맷 신호로 변환하는 방법을 제공할 수 있다. 모노 DirAC 스트림은, 예컨대, 무지향성 마이크로폰 및 보조 정보에 의해 포착되는 압력 신호로 나타낼 수 있다. 보조 정보는 확산 및 소리 도달 방향의 시간-주파수 의존 측정을 포함할 수 있다.
실시예들에서, 입력 공간 오디오 신호는 확산 파라미터 Ψ를 더 포함할 수 있고, 추정기(110)는 확산 파라미터 Ψ에 더 기초로 하여 웨이브 필드 측정을 추정하기 위해 구성될 수 있다.
입력 도달 방향 및 웨이브 도달 방향 측정은 입력 공간 오디오 신호의 기록 위치에 대응하는 기준점을 나타낼 수 있으며, 즉, 환언하면, 모든 방향은 동일한 기준점을 나타낼 수 있다. 기준점은 마이크로폰이 배치되거나, 다수의 지향성 마이크로폰이 소리 필드를 기록하기 위해 배치되는 위치일 수 있다.
실시예들에서, 변환된 공간 오디오 신호는 제 1 (X), 제 2 (Y) 및 제 3 (Z) 지향성 성분을 포함할 수 있다. 프로세서(120)는, 제 1 (X) 및/또는 제 2 (Y) 및/또는 제 3 (Z) 지향성 성분 및/또는 무지향성 오디오 성분을 획득하도록 웨이브 필드 측정 및 웨이브 도달 방향 측정을 더 처리하기 위해 구성될 수 있다.
다음의 표기에서, 데이터 모델이 도입될 수 있다.
p(t) 및
Figure pct00018
를 공간의 특정 포인트에 대해 제각기 압력 및 입자 속도 벡터라 하며, 여기서,
Figure pct00019
는 전치 행렬을 나타낸다. p(t)는 오디오 표현에 대응할 수 있고,
Figure pct00020
는 지향성 성분에 대응할 수 있다. 이들 신호는, 예컨대, V. Pulkki and C. Faller, Directional audio coding: Filterbank and STFT-based design, in 120th AES Convention, May 20-23, 2006, Paris, France May 2006에 의해 제시된 바와 같이, 적절한 필터 뱅크 또는 STFT (STFT = Short Time Fourier Transform)에 의해 시간-주파수 도메인으로 변환될 수 있다.
Figure pct00021
Figure pct00022
는 변환된 신호를 나타내며, 여기서, k 및 n은 제각기 주파수 (또는 주파수 대역) 및 시간에 대한 지표이다. 액티브 인텐시티 벡터
Figure pct00023
는 다음과 같이 정의될 수 있다.
Figure pct00024
(1)
여기서,
Figure pct00025
는 복소 공액을 나타내고,
Figure pct00026
는 실수부를 추출한다. F.J. Fahy, Sound Intensity, Essex: Elsevier Science Publishers Ltd., 1989를 참조하면, 액티브 인텐시티 벡터는 소리 필드를 특징으로 하는 에너지의 순 흐름을 표현할 수 있다.
c는 고려된 매체의 소리의 속도를 나타내고, E는 F.J. Fahy에 의해 정의된 소리 필드 에너지를 나타낸다.
Figure pct00027
(2)
여기서,
Figure pct00028
는 2-norm을 계산한다. 다음에는, 모노 DirAC 스트림의 콘텐츠(content)가 상세히 기술될 것이다.
모노 DirAC 스트림은 보조 정보, 예컨대, 도달 방향 측정의 모도 신호 p(t) 또는 오디오 표현으로 이루어질 수 있다. 이런 보조 정보는 시간-주파수 의존 도달 방향 및 시간-주파수 의존 확산 측정을 포함할 수 있다. 전자는 소리가 도달하는 방향을 가리키는, 즉, 도달 방향을 모델링할 수 있는 단위 벡터인
Figure pct00029
로 나타낼 수 있다. 후자, 확산도는 다음과 같이 나타낼 수 있다.
Figure pct00030
실시예들에서, 추정기(110) 및/또는 프로세서(120)는 단위 벡터
Figure pct00031
에 의해 입력 DOA 및/또는 웨이브 DOA 측정을 추정/처리하기 위해 구성될 수 있다. 도달 방향은 다음과 같이 획득될 수 있다.
Figure pct00032
여기서, 단위 벡터
Figure pct00033
는 액티브 인텐시티가 제각기 다음과 같이 가리키는 방향을 나타낸다.
Figure pct00034
(3)
선택적으로, 실시예들에서, DOA 또는 DOA 측정은 구형 좌표계에서 방위각 및 앙각 (elevation angle)에 의해 표현될 수 있다. 예컨대,
Figure pct00035
Figure pct00036
이 제각기 방위각 및 앙각이면, 다음과 같다.
Figure pct00037
여기서,
Figure pct00038
는 데카르트 좌표계의 x-축을 따른 입력 도달 방향의 단위 벡터
Figure pct00039
의 성분이고,
Figure pct00040
는 y-축을 따른
Figure pct00041
의 성분이며,
Figure pct00042
는 z-축을 따른
Figure pct00043
의 성분이다.
실시예들에서, 추정기(110)는, 선택적으로 또한 시간-주파수 의존 방식에서
Figure pct00044
으로 표현되는 확산 파라미터 Ψ에 더 기초로 하여 웨이브 필드 측정을 추정하기 위해 구성될 수 있다. 추정기(110)는 다음에 의해 확산 파라미터에 기초로 하여 추정하기 위해 구성될 수 있다.
Figure pct00045
(5)
여기서,
Figure pct00046
는 일시 평균(temporal average)을 나타낸다.
실제로
Figure pct00047
Figure pct00048
를 획득하기 위한 여러 전략이 존재한다. 하나의 가능성은 4개의 신호, 즉, w(t), x(t), y(t) 및 z(t)를 전달하는 B-포맷 마이크로폰을 이용하는 것이다. 제 1 신호 w(t)는 무지향성 마이크로폰의 압력 판독치에 대응할 수 있다. 후자의 3개의 신호는, 데카르트 좌표계의 3개의 축으로 지향되는 8자형 픽업 패턴을 가진 마이크로폰의 압력 판독치에 대응할 수 있다. 이들 신호는 또한 입자 속도에 비례한다. 그래서, 일부 실시예에서, 다음과 같다.
Figure pct00049
(6)
여기서, W(k,n), X(k,n), Y(k,n) 및 Z(k,n)은 무지향성 성분 W(k,n) 및 3개의 지향성 성분 X(k,n), Y(k,n), Z(k,n)에 대응하는 변환된 B-포맷 신호이다. Michael Gerzon, Surround sound psychoacoustics, in Wireless World, volume 80, pages 483-486, December 1974를 참조하면, (6)에서 인수
Figure pct00050
는 B-포맷 신호의 정의에서 이용된 협정(the convention used in the definition)에서 나오는 것에 주목한다.
선택적으로, J. Merimaa, Applications of a 3-D microphone array, in 112th AES Convention, Paper 5501, Munich, May 2002에서 제시된 바와 같이,
Figure pct00051
Figure pct00052
는 무지향성 마이크로폰 어레이에 의해 추정될 수 있다. 상술한 처리 단계는 또한 도 7에 도시된다.
도 7은 적절한 마이크로폰 신호로부터 모노 오디오 채널 및 보조 정보를 계산하기 위해 구성되는 DirAC 인코더(200)를 도시한다. 환언하면, 도 7은 적절한 마이크로폰 신호로부터 확산도
Figure pct00053
및 도달 방향
Figure pct00054
을 결정하는 DirAC 인코더(200)를 도시한다. 도 7은
Figure pct00055
추정 유닛(210)을 포함하는 DirAC 인코더(200)를 도시한다.
Figure pct00056
추정 유닛은
Figure pct00057
추정을 기초로 하여 마이크로폰 신호를 입력 정보로서 수신한다. 모든 정보가 이용 가능하므로,
Figure pct00058
추정은 상기 식에 따라 간단하다. 에너지적 분석 스테이지(220)는 도달 방향 및 조합된 스트림의 확산 파라미터의 추정을 가능하게 한다.
실시예들에서, 추정기(110)는 입력 오디오 표현
Figure pct00059
의 소수부(fraction)
Figure pct00060
에 기초로 하여 웨이브 필드 측정 또는 진폭을 결정하기 위해 구성될 수 있다. 도 2는 모노 DirAC 스트림으로부터 B-포맷 신호를 계산하는 실시예의 처리 단계를 도시한다. 모든 수량은 시간 및 주파수 지표 (k,n)에 의존하고, 부분적으로 간략화를 위해 다음에는 생략된다.
환언하면, 도 2는 다른 실시예를 도시한다. 식 (6)에 따르면, W(k,n)는 압력
Figure pct00061
과 동일하다. 그래서, 모노 DirAC 스트림으로부터 B-포맷을 합성하는 문제는, 그의 성분이 X(k,n), Y(k,n), 및 Z(k,n)에 비례함에 따라, 입자 속도 벡터
Figure pct00062
의 추정으로 감소한다.
실시예들은 필드가 확산 필드로 합산되는 평면파로 이루어진다는 가정하에 추정에 접근할 수 있다. 그래서, 압력 및 입자 속도는 다음과 같이 표현될 수 있다.
Figure pct00063
여기서, 첨자 "PW" 및 "diff"는 제각기 평면파 및 확산 필드를 나타낸다.
DirAC 파라미터는 액티브 인텐시티에 대해서만 정보를 반송한다. 그래서, 입자 속도 벡터
Figure pct00064
는, 평면파만의 입자 속도에 대한 추정기인
Figure pct00065
로 추정된다. 그것은 다음과 같이 정의될 수 있다.
Figure pct00066
(9)
여기서, 실수
Figure pct00067
는 적절한 가중 인수이며, 이는 일반적으로 주파수 의존적이고, 확산도
Figure pct00068
에 대한 역 비례성을 나타낼 수 있다. 사실상, 저 확산도, 즉, 0에 근접한
Figure pct00069
에 대해, 필드는 단일 평면파로 구성되어,
Figure pct00070
(10)
Figure pct00071
= 1임을 의미한다.
환언하면, 추정기(110)는, 저 확산 파라미터 Ψ에 대한 고 진폭으로 웨이브 필드 측정을 추정하고, 고 확산 파라미터 Ψ에 대해서는 저 진폭으로 웨이브 필드 측정을 추정하기 위해 구성될 수 있다. 실시예들에서, 확산 파라미터 Ψ = [0..1]이다. 확산 파라미터는 지향성 성분의 에너지와 무지향성 성분의 에너지 간의 관계를 나타낼 수 있다. 실시예들에서, 확산 파라미터 Ψ는 지향성 성분의 공간 폭에 대한 측정치일 수 있다.
상기 식 및 식 (6)을 고려하면, 무지향성 및/또는 제 1 및/또는 제 2 및/또는 제 3 지향성 성분은 다음과 같이 표현될 수 있다.
Figure pct00072
여기서,
Figure pct00073
는 데카르트 좌표계의 x-축을 따른 입력 도달 방향의 단위 벡터
Figure pct00074
의 성분이고,
Figure pct00075
는 y-축을 따른
Figure pct00076
의 성분이며,
Figure pct00077
는 z-축을 따른
Figure pct00078
의 성분이다. 도 2에 도시된 실시예에서, 추정기(110)에 의해 추정되는 웨이브 도달 방향 측정은
Figure pct00079
,
Figure pct00080
Figure pct00081
에 대응하며, 웨이브 필드 측정은
Figure pct00082
에 대응한다. 프로세서(120)에 의해 출력되는 제 1 지향성 성분은 X(k,n), Y(k,n) 또는 Z(k,n) 중 어느 하나에 대응할 수 있고, 이에 따라 제 2 지향성 성분은 X(k,n), Y(k,n) 또는 Z(k,n) 중 어느 다른 하나에 대응할 수 있다.
다음에는, 2개의 실제적인 실시예가 인수
Figure pct00083
를 결정하는 방법에 대해 제공될 것이다.
제 1 실시예는 먼저 평면파, 즉 PPW(k,n)의 압력을 추정하여, 그것으로부터, 입자 속도 벡터를 유도한다.
공기 밀도
Figure pct00084
는 1과 동일하게 설정하고, 간략화를 위해 함수 종속성(functional dependency) (k,n)을 없어지게 하면, 그것은 다음과 같이 기록될 수 있다.
Figure pct00085
확산 필드의 통계적 특성이 주어지면, 다음에 의해 근사치가 도입될 수 있다.
Figure pct00086
여기서,
Figure pct00087
는 확산 필드의 에너지이다. 따라서, 추정기는 다음에 의해 획득될 수 있다.
Figure pct00088
순시(instantaneous) 추정치를 계산하기 위해, 즉, 각 시간 주파수 타일(tile)에 대해, 기대값 연산자(expectation operator)는 제거되어, 다음을 획득할 수 있다.
Figure pct00089
평면파 가정(assumption)을 이용함으로써, 입자 속도에 대한 추정치가 직접 유도될 수 있고,
Figure pct00090
그것은 다음과 같이 된다.
Figure pct00091
환언하면, 추정기(110)는
Figure pct00092
에 따른 확산 파라미터
Figure pct00093
및,
Figure pct00094
에 따른 웨이브 필드 측정에 기초로 하여 소수부
Figure pct00095
를 추정하기 위해 구성될 수 있으며,
여기서, 프로세서(120)는, 다음 식에 의해, 제 1 지향성 성분 X(k,n) 및/또는 제 2 지향성 성분Y(k,n) 및/또는 제 3 지향성 성분 Z(k,n) 및/또는 무지향성 오디오 성분 W(k,n)의 크기를 획득하도록 구성될 수 있다.
Figure pct00096
여기서, 웨이브 도달 방향 측정은 단위 벡터
Figure pct00097
로 나타내며, 여기서, x, y, 및 z는 데카르트 좌표계의 방향을 나타낸다.
실시예들에서의 선택적 솔루션은 확산도
Figure pct00098
의 식으로부터 인수
Figure pct00099
를 직접 획득함으로써 유도될 수 있다. 상술한 바와 같이, 입자 속도
Figure pct00100
는 다음과 같이 모델링될 수 있다.
Figure pct00101
식(18)은 (5)로 치환되어 다음과 같이 될 수 있다.
Figure pct00102
순시 값을 획득하기 위해, 기대값 연산자는 제거되어,
Figure pct00103
에 대한 풀이가 산출된다.
Figure pct00104
환언하면, 실시예들에서, 추정기(110)는 다음 식에 따라
Figure pct00105
를 기초로 하여 소수부
Figure pct00106
를 추정하기 위해 구성될 수 있다.
Figure pct00107
실시예들에서, 입력 공간 오디오 신호는 모노 DirAC 신호에 대응할 수 있다. 실시예들은 다른 스트림을 처리하기 위해 확장될 수 있다. 스트림 또는 입력 공간 오디오 신호가 무지향성 채널을 반송하지 않는 경우에, 실시예들은 무지향성 픽업 패턴을 어림잡도록 이용 가능한 채널을 조합할 수 있다. 예컨대, 입력 공간 오디오 신호로서의 스테레오 DirAC 스트림의 경우에, 도 2에서의 압력 신호 P는 채널 L 및 R을 합산함으로써 어림잡게 될수 있다.
다음에는, Ψ = 1에 의한 실시예가 예시될 것이다. 도 2는, 확산도가 양방의 실시예에 대해 1과 동일할 경우에, 소리는 β가 0과 동일할 시에는 채널 W로만 경로 지정되어, 신호 X, Y 및 Z, 즉, 지향성 성분이 또한 0임을 도시한다. Ψ = 1이 시간적으로 일정하면, 모노 오디오 채널은 어떤 추가적 계산 없이 W-채널로 경로 지정될 수 있다. 이의 물리적 해석(physical interpretation)으로서, 입자 속도 벡터가 0 크기를 가질 시에, 오디오 신호는 순수 반응 필드(pure reactive field)인 리스너(listener)에 제공된다는 것이다.
Ψ = 1일 시의 다른 경우는, 오디오 신호가 하나 또는 어떤 서브세트의 다이폴 신호에만 제공되고, W 신호에는 제공되지 않는 상황을 고려한다. DirAC 확산 분석에서, 이런 시나리오는 식 5에 의해 Ψ = 1을 갖도록 분석되는데, 그 이유는 인텐시티 벡터(intensity vector)가 압력 p이 식 (1)에서 0일 시에 일정하게 0의 길이를 갖기 때문이다. 이의 물리적 해석으로서, 또한, 이런 시간 압력 신호가 일정하게 0이지만, 입자 속도 벡터는 0이 아닐 시에, 오디오 신호가 반응적인 리스너에 제공된다는 것이다.
B-포맷이 본래 라우드스피커 설정 독립 표현(setup independent representation)인 사실로 인해, 실시예들은 서로 다른 오디오 장치가 말한 공통 언어로서 B-포맷을 이용할 수 있으며, 이는 하나에서 다른 하나로의 변환이 B-포맷으로의 중간 변환을 통해 실시예들에 의해 가능하게 행해질 수 있다는 것을 의미한다. 예컨대, 실시예들은, B-포맷에서의 서로 다른 합성된 소리 환경과 서로 다른 기록된 음향 환경에서의 DirAC 스트림을 결합할 수 있다. B-포맷 스트림과 모노 DirAC 스트림의 결합은 또한 실시예들에 의해 가능하게 될 수 있다.
실시예들은 어떤 서라운드 포맷에서의 멀티채널 오디오 신호를 모노 DirAC 스트림과 결합하는 것을 가능하게 할 수 있다. 더욱이, 실시예들은 모노 DirAC 스트림을 어떠한 B-포맷 스트림과도 결합하는 것을 가능하게 할 수 있다. 더욱이, 실시예들은 모노 DirAC 스트림을 하나의 B-포맷 스트림과 결합하는 것을 가능하게 할 수 있다.
이들 실시예들은, 다음에 상세히 기술되는 바와 같이, 예컨대, 반향의 생성 시나 오디오 효과를 도입할 시에 이점을 제공할 수 있다. 음악 제작 시에, 반향기(reverberators)는 처리된 오디오를 가상 공간에 지각적으로 위치시키는 효과 장치로서 이용될 수 있다. 가상 현실에서, 반향 합성은, 가상 소스가, 폐쇄된 공간의 내부에서, 예컨대, 룸 또는 콘서트 홀 내에서 가청화(auralization)될 시에 필요로 될 수 있다.
반향을 위한 신호가 이용 가능할 시에, 이와 같은 가청화는 드라이 소리(dry sound) 및 반향된 소리를 서로 다른 DirAC 스트림에 적용함으로써 실시예들에 의해 실행될 수 있다. 실시예들은 DirAC 문맥(context)에서 반향된 신호를 처리하는 방법에 관한 여러 접근법을 이용할 수 있으며, 여기서, 실시예들은 리스너 주변에 최대한으로 확산되는 반향된 소리를 생성할 수 있다.
도 3은 조합 변환된 공간 오디오 신호를 결정하는 장치(300)의 실시예를 도시하며, 조합 변환된 공간 오디오 신호는 적어도 제 1 조합된 성분 및 제 2 조합된 성분을 가지며, 여기서, 조합 변환된 공간 오디오 신호는 제 1 및 2 입력 오디오 표현 및, 제 1 및 2 도달 방향을 가진 제 1 및 2 입력 공간 오디오 신호로부터 결정된다.
장치(300)는, 상기 설명에 따라 변환된 공간 오디오 신호를 결정하여, 제 1 장치(101)로부터 제 1 무지향성 성분 및 하나 이상의 지향성 성분을 가진 제 1 변환된 신호를 제공하는 장치(101)의 제 1 실시예를 포함한다. 더욱이, 장치(300)는, 상기 설명에 따라 변환된 공간 오디오 신호를 결정하여, 제 2 장치(102)로부터 제 2 무지향성 성분 및 하나 이상의 지향성 성분을 가진 제 2 변환된 신호를 제공하는 장치(102)의 다른 실시예를 포함한다.
일반적으로, 실시예들은 장치(100) 중 2개만을 포함하는 것으로 제한되지 않으며, 일반적으로, 다수의 상술한 장치가 장치(300) 내에 포함될 수 있으며, 예컨대, 장치(300)는 다수의 DirAC 신호를 조합하기 위해 구성될 수 있다.
도 3에 따르면, 장치(300)는, 제 1 장치(101)로부터 제 1 무지향성 또는 제 1 지향성 오디오 성분을 렌더링(rendering)하여, 제 1 렌더링된 성분을 획득하는 오디오 효과 생성기(301)를 더 포함한다.
더욱이, 장치(300)는, 제 1 렌더링된 성분을 제 1 및 2 무지향성 성분과 조합하거나, 제 1 렌더링된 성분을 제 1 장치(101) 및 제 2 장치(102)로부터의 지향성 성분과 조합하여, 제 1 조합된 성분을 획득하는 제 1 조합기(311)를 포함한다. 장치(300)는, 제 1 또는 2 장치(101 및 102)로부터 제 1 및 2 무지향성 성분 또는 지향성 성분을 조합하여, 제 2 조합된 성분을 획득하는 제 2 조합기(312)를 더 포함한다.
환언하면, 오디오 효과 생성기(301)는 제 1 무지향성 성분을 렌더링하여, 제 1 조합기(311)가 렌더링된 제 1 무지향성 성분, 제 1 무지향성 성분 및 제 2 무지향성 성분을 조합하여, 제 1 조합된 성분을 획득할 수 있다. 제 1 조합된 성분은 이때, 예컨대, 조합된 무지향성 성분에 대응할 수 있다. 이런 실시예에서, 제 2 조합기(312)는 제 1 장치(101)로부터의 지향성 성분 및 제 2 장치로부터의 지향성 성분을 조합하여, 예컨대, 제 1 조합된 지향성 성분에 대응하는 제 2 조합된 성분을 획득할 수 있다.
다른 실시예에서, 오디오 효과 생성기(301)는 지향성 성분을 렌더링할 수 있다. 이들 실시예에서, 조합기(311)는 제 1 장치(101)로부터의 지향성 성분, 제 2 장치(102)로부터의 지향성 성분 및 제 1 렌더링된 성분을 조합하여, 이 경우에 조합된 지향성 성분에 대응하는 제 1 조합된 성분을 획득할 수 있다. 이런 실시예에서, 제 2 조합기(312)는 제 1 장치(101) 및 제 2 장치(102)로부터의 제 1 및 2 무지향성 성분을 조합하여, 제 2 조합된 성분, 즉, 조합된 무지향성 성분을 획득할 수 있다.
환언하면, 도 3은 조합 변환된 공간 오디오 신호를 결정하도록 구성되는 장치(300)의 실시예를 도시하며, 조합 변환된 공간 오디오 신호는 제 1 및 2 입력 공간 오디오 신호로부터 적어도 제 1 조합된 성분 및 제 2 조합된 성분을 가지며, 제 1 입력 공간 오디오 신호는 제 1 입력 오디오 표현 및 제 1 도달 방향을 가지며, 제 2 공간 입력 신호는 제 2 입력 오디오 표현 및 제 2 도달 방향을 갖는다.
장치(300)는 변환된 공간 오디오 신호를 결정하도록 구성되는 장치(100)를 포함하는 제 1 장치(101)를 포함하며, 변환된 공간 오디오 신호는 입력 공간 오디오 신호로부터 무지향성 오디오 성분 W' 및 하나 이상의 지향성 오디오 성분 X;Y;Z을 가지며, 입력 공간 오디오 신호는 입력 오디오 표현 및 입력 도달 방향을 갖는다. 장치(100)는 웨이브 표현을 추정하도록 구성되는 추정기(110)를 포함하며, 웨이브 표현은, 입력 오디오 표현 및 입력 도달 방향에 기초로 하여, 웨이브 필드 측정 및 웨이브 도달 방향 측정을 포함한다.
더욱이, 장치(300)는, 무지향성 성분 (W') 및 하나 이상의 지향성 성분 (X;Y;Z)을 획득하기 위해 웨이브 필드 측정 및 웨이브 도달 방향 측정을 처리하도록 구성되는 프로세서(120)를 포함한다. 제 1 장치(101)는, 제 1 장치(101)로부터 제 1 무지향성 성분 및 하나 이상의 지향성 성분을 가진 제 1 입력 공간 오디오 신호에 기초로 하는 제 1 변환된 신호를 제공하도록 구성된다.
더욱이, 장치(300)는, 제 2 장치(102)로부터 제 2 무지향성 성분 및 하나 이상의 지향성 성분을 가진 제 2 입력 공간 오디오 신호에 기초로 하는 제 2 변환된 신호를 제공하도록 구성되는 다른 장치(100)를 포함하는 제 2 장치(102)를 포함한다. 더욱이, 장치(300)는, 제 1 무지향성 성분을 렌더링하여 제 1 렌더링된 성분을 획득하거나, 제 1 장치(101)로부터의 지향성 성분을 렌더링하여 제 1 렌더링된 성분을 획득하도록 구성되는 오디오 효과 생성기(301)를 포함한다.
더욱이, 장치(300)는, 제 1 렌더링된 성분, 제 1 무지향성 성분 및 제 2 무지향성 성분을 조합하거나, 제 1 렌더링된 성분, 제 1 장치(101)로부터의 지향성 성분, 및 제 2 장치(102)로부터의 지향성 성분을 조합하여, 제 1 조합된 성분을 획득하도록 구성되는 제 1 조합기(311)를 포함한다. 장치(300)는, 제 1 장치(101)로부터의 지향성 성분 및 제 2 장치(102)로부터의 지향성 성분을 조합하거나, 제 1 무지향성 성분 및 제 2 무지향성 성분을 조합하여, 제 2 조합된 성분을 획득하도록 구성되는 제 2 조합기(312)를 포함한다.
환언하면, 도 3은 조합 변환된 공간 오디오 신호를 결정하도록 구성되는 장치(300)의 실시예를 도시하며, 조합 변환된 공간 오디오 신호는 제 1 및 2 입력 공간 오디오 신호로부터 적어도 제 1 조합된 성분 및 제 2 조합된 성분을 가지며, 제 1 입력 공간 오디오 신호는 제 1 입력 오디오 표현 및 제 1 도달 방향을 가지며, 제 2 공간 입력 신호는 제 2 입력 오디오 표현 및 제 2 도달 방향을 갖는다. 장치(300)는 제 1 변환된 신호를 결정하도록 구성되는 제 1 수단(101)을 포함하며, 제 1 변환된 신호는 제 1 입력 공간 오디오 신호로부터 제 1 무지향성 성분 및 하나 이상의 제 1 지향성 오디오 성분 (X;Y;Z)을 갖는다. 제 1 수단(101)은 상술한 장치(100)의 실시예를 포함할 수 있다.
제 1 수단(101)은 제 1 웨이브 표현을 추정하도록 구성되는 추정기를 포함하며, 제 1 웨이브 표현은, 제 1 입력 오디오 표현 및 제 1 입력 도달 방향에 기초로 하여, 제 1 웨이브 필드 측정 및 제 1 웨이브 도달 방향 측정을 포함한다. 추정기는 상술한 추정기(110)의 실시예에 대응할 수 있다.
제 1 수단(101)은, 제 1 무지향성 성분 및 하나 이상의 제 1 지향성 성분을 획득하기 위해 제 1 웨이브 필드 측정 및 제 1 웨이브 도달 방향 측정을 처리하도록 구성되는 프로세서를 더 포함한다. 프로세서는 상술한 프로세서(120)의 실시예에 대응할 수 있다.
제 1 수단(101)은 제 1 무지향성 성분 및 하나 이상의 제 1 지향성 성분을 가진 제 1 변환된 신호를 제공하도록 더 구성될 수 있다.
더욱이, 장치(300)는, 제 2 무지향성 성분 및 하나 이상의 제 2 지향성 성분을 가진 제 2 입력 공간 오디오 신호에 기초로 하는 제 2 변환된 신호를 제공하도록 구성되는 제 2 수단(102)을 포함한다. 제 2 수단은 상술한 장치(100)의 실시예를 포함할 수 있다.
제 2 수단(102)은 제 2 웨이브 표현을 추정하도록 구성되는 다른 추정기를 더 포함하며, 제 2 웨이브 표현은, 제 2 입력 오디오 표현 및 제 2 입력 도달 방향에 기초로 하여, 제 2 웨이브 필드 측정 및 제 2 웨이브 도달 방향 측정을 포함한다. 상기 다른 추정기는 상술한 추정기(110)의 실시예에 대응할 수 있다.
제 2 수단(102)은, 제 2 무지향성 성분 및 하나 이상의 제 2 지향성 성분을 획득하기 위해 제 2 웨이브 필드 측정 및 제 2 웨이브 도달 방향 측정을 처리하도록 구성되는 다른 프로세서를 더 포함한다. 상기 다른 프로세서는 상술한 프로세서(120)의 실시예에 대응할 수 있다.
더욱이, 제 2 수단(101)은 제 2 무지향성 성분 및 하나 이상의 제 2 지향성 성분을 가진 제 2 변환된 신호를 제공하도록 구성된다.
더욱이, 장치(300)는, 제 1 무지향성 성분을 렌더링하여 제 1 렌더링된 성분을 획득하거나, 제 1 지향성 성분을 렌더링하여 제 1 렌더링된 성분을 획득하도록 구성되는 오디오 효과 생성기(301)를 포함한다. 장치(300)는, 제 1 렌더링된 성분, 제 1 무지향성 성분 및 제 2 무지향성 성분을 조합하거나, 제 1 렌더링된 성분, 제 1 지향성 성분, 및 제 2 지향성 성분을 조합하여, 제 1 조합된 성분을 획득하도록 구성되는 제 1 조합기(311)를 포함한다.
더욱이, 장치(300)는, 제 1 지향성 성분 및 제 2 지향성 성분을 조합하거나, 제 1 무지향성 성분 및 제 2 무지향성 성분을 조합하여, 제 2 조합된 성분을 획득하도록 구성되는 제 2 조합기(312)를 포함한다.
실시예들에서, 조합 변환된 공간 오디오 신호를 결정하는 방법이 실행될 수 있으며, 조합 변환된 공간 오디오 신호는 제 1 및 2 입력 공간 오디오 신호로부터 적어도 제 1 조합된 성분 및 제 2 조합된 성분을 가지며, 제 1 입력 공간 오디오 신호는 제 1 입력 오디오 표현 및 제 1 도달 방향을 가지며, 제 2 공간 입력 신호는 제 2 입력 오디오 표현 및 제 2 도달 방향을 갖는다.
상기 방법은, 제 1 입력 오디오 표현 및 제 1 입력 도달 방향에 기초로 하여, 제 1 웨이브 필드 측정 및 제 1 웨이브 도달 방향 측정을 포함하는 제 1 웨이브 표현을 추정하는 부단계; 및 제 1 무지향성 성분 (W') 및 하나 이상의 제 1 지향성 성분 (X;Y;Z)을 획득하도록 제 1 웨이브 필드 측정 및 제 1 웨이브 도달 방향 측정을 처리하는 부단계를 이용함으로써, 제 1 입력 공간 오디오 신호로부터 제 1 무지향성 성분 (W') 및 하나 이상의 제 1 지향성 성분 (X;Y;Z)을 가진 제 1 변환된 공간 오디오 신호를 결정하는 단계를 포함할 수 있다.
이 방법은 제 1 무지향성 성분 및 하나 이상의 제 1 지향성 성분을 가진 제 1 변환된 신호를 제공하는 단계를 더 포함할 수 있다.
더욱이, 상기 방법은, 제 2 입력 오디오 표현 및 제 2 입력 도달 방향에 기초로 하여, 제 2 웨이브 필드 측정 및 제 2 웨이브 도달 방향 측정을 포함하는 제 2 웨이브 표현을 추정하는 부단계; 및 제 2 무지향성 성분 (W') 및 하나 이상의 제 2 지향성 성분 (X;Y;Z)을 획득하도록 제 2 웨이브 필드 측정 및 제 2 웨이브 도달 방향 측정을 처리하는 부단계를 이용함으로써, 제 2 입력 공간 오디오 신호로부터 제 2 무지향성 성분 (W') 및 하나 이상의 제 2 지향성 성분 (X;Y;Z)을 가진 제 2 변환된 공간 오디오 신호를 결정하는 단계를 포함할 수 있다.
더욱이, 이 방법은 제 2 무지향성 성분 및 하나 이상의 제 2 지향성 성분을 가진 제 2 변환된 신호를 제공하는 단계를 포함할 수 있다.
이 방법은, 제 1 무지향성 성분을 렌더링하여 제 1 렌더링된 성분을 획득하거나, 제 1 지향성 성분을 렌더링하여 제 1 렌더링된 성분을 획득하는 단계; 및 제 1 렌더링된 성분, 제 1 무지향성 성분 및 제 2 무지향성 성분을 조합하거나, 제 1 렌더링된 성분, 제 1 지향성 성분, 및 제 2 지향성 성분을 조합하여, 제 1 조합된 성분을 획득하는 단계를 더 포함할 수 있다.
더욱이, 이 방법은, 제 1 지향성 성분 및 제 2 지향성 성분을 조합하거나, 제 1 무지향성 성분 및 제 2 무지향성 성분을 조합하여, 제 2 조합된 성분을 획득하는 단계를 포함할 수 있다.
상술한 실시예에 따르면, 각 장치들은 다수의 지향성 성분, 예컨대, X, Y 및 Z 성분을 생성할 수 있다. 실시예들에서, 도 3에서 점선 박스(302, 303 및 304)로 나타내는 다수의 오디오 효과 생성기가 이용될 수 있다. 이들 선택적 오디오 효과 생성기는, 무지향성 및/또는 지향성 입력 신호에 기초로 하여, 대응하는 랜더링된 성분을 생성할 수 있다. 한 실시예에서, 오디오 효과 생성기는 무지향성 성분에 기초로 하여 지향성 성분을 랜더링할 수 있다. 더욱이, 장치(300)는, 예컨대, 3개의 공간 차원(spatial dimensions)에 대해 하나의 무지향성 조합된 성분 및 다수의 조합된 지향성 성분을 조합하기 위해 다수의 조합기, 즉, 조합기(311, 312, 313 및 314)를 포함할 수 있다.
장치(300)의 구조의 이점 중 하나는, 일반적으로 비제한된 수의 오디오 소스를 렌더링하기 위해 최대 4개의 오디오 효과 생성기가 필요로 된다.
도 3에서 점선 조합기(331, 332, 333 및 334)로 나타낸 바와 같이, 오디오 효과 생성기는 장치(101 및 102)로부터의 지향성 또는 무지향성 성분의 조합을 렌더링하기 위해 구성될 수 있다. 한 실시예에서, 오디오 효과 생성기(301)는, 제 1 장치(101) 및 제 2 장치(102)로부터의 무지향성 성분의 조합을 렌더링하거나, 제 1 장치(101) 및 제 2 장치(102)의 지향성 성분의 조합을 렌더링하여, 제 1 렌더링된 성분을 획득위해 구성될 수 있다. 도 3에서 점선 경로로 나타낸 바와 같이, 다수의 성분의 조합은 서로 다른 오디오 효과 생성기에 제공될 수 있다.
한 실시예에서, 도 3에서 제 1 장치(101) 및 제 2 장치(102)로 나타내는 모든 소리 소스의 모든 무지향성 성분은 다수의 렌더링된 성분을 생성하기 위해 조합될 수 있다. 도 3에 도시된 4개의 경로의 각각에서, 각 오디오 효과 생성기는 소리 소스로부터의 대응하는 지향성 또는 무지향성 성분에 부가될 렌더링된 성분을 생성할 수 있다.
더욱이, 도 3에 도시된 바와 같이, 다수의 지연 및 스케일링(scaling) 스테이지(321 및 322)가 이용될 수 있다. 환언하면, 각 장치(101 또는 102)는, 그의 출력 경로에서, 그의 출력 성분의 하나 이상을 지연하기 위해 하나의 지연 및 스케일링 스테이지(321 또는 322)를 가질 수 있다. 일부 실시예에서, 지연 및 스케일링 스테이지는 각각의 무지향성 성분만을 지연하여 스케일링할 수 있다. 일반적으로, 지연 및 스케일링 스테이지는 무지향성 및 지향성 성분을 위해 이용될 수 있다.
실시예들에서, 장치(300)는 오디오 소스를 나타내는 다수의 장치(100) 및, 이에 상응하는 다수의 오디오 효과 생성기를 포함할 수 있는데, 여기서, 오디오 효과 생성기의 수는 소리 소스에 상응하는 장치의 수보다 적다. 이미 상술한 바와 같이, 한 실시예에서는, 기본적으로 비제한된 수의 소리 소스를 가진 4개까지의 오디오 효과 생성기가 존재할 수 있다. 실시예들에서, 오디오 효과 생성기는 반향기에 대응할 수 있다.
도 4a는 장치(300)의 다른 실시예를 더욱 상세히 도시한 것이다. 도 4a는, 각각 무지향성 오디오 성분 W, 및 3개의 지향성 성분 X, Y, Z을 가진 2개의 장치(101 및 102)를 도시한다. 도 4a에 도시된 실시예에 따르면, 각 장치(101 및 102)의 무지향성 성분은, 3개의 지연 및 스케일링된 성분을 출력하여, 조합기(331, 332, 333 및 334)에 의해 부가되는 2개의 지연 및 스케일링 스테이지(321 및 322)에 제공된다. 그 후, 각 조합된 신호는, 도 4a에서 반향기로서 구현되는 4개의 오디오 효과 생성기(301, 302, 303 및 304) 중 하나에 의해 개별적으로 렌더링된다. 도 4a에 도시된 바와 같이, 오디오 효과 생성기의 각각은, 전체적으로 하나의 무지향성 오디오 성분 및 3개의 지향성 성분에 대응하는 하나의 성분을 출력한다. 그리고 나서, 조합기(331, 332, 333 및 334)는, 도 4a에서는 일반적으로 다수의 장치(100)가 존재할 수 있는 장치(101 및 102)에 의해 출력되는 원래의 성분과 각각의 렌더링된 성분을 조합하는데 이용된다.
환언하면, 조합기(311)에서, 모든 장치의 조합된 무지향성 출력 신호의 렌더링된 버전(version)은 원래의 또는 렌더링되지 않은 무지향성 출력 성분과 조합될 수 있다. 유사한 조합이 지향성 성분에 대해 다른 조합기에 의해 실행될 수 있다. 도 4a에 도시된 실시예에서, 렌더링된 지향성 성분은 무지향성 성분의 지연 및 스케일링된 버전을 기초로 하여 생성된다.
일반적으로, 실시예들, 예컨대, 반향으로서 오디오 효과를 효율적으로 하나 이상의 DirAC 스트림에 적용할 수 있다. 예컨대, 2 이상의 DirAC 스트림은, 도 4a에 도시된 바와 같이, 장치(300)의 실시예로 입력된다. 실시예들에서, 이들 스트림은, 예컨대, 모노 신호를 수신하여, 방향 및 확산도로서 보조 정보를 부가함으로써, 리얼(real) DirAC 스트림 또는 합성된 스트림일 수 있다. 상기 논의에 따르면, 장치(101, 102)는 각 스트림에 대한 4개까지의 신호, 즉, W, X, Y 및 Z를 생성할 수 있다. 일반적으로, 장치(101 또는 102)의 실시예들은 3개 미만의 지향성 성분, 예컨대, X만, 또는 X 및 Y, 또는 이의 어떤 다른 조합을 제공할 수 있다.
일부 실시예에서, 무지향성 성분 W은, 렌더링된 성분을 생성하기 위해, 예컨대, 반향기로서 오디오 효과 생성기에 제공될 수 있다. 입력 DirAC 스트림의 각각에 대한 일부 실시예에서, 신호는, 도 4a에 도시되고, 장치(101 또는 102)마다 독립적으로, 즉 개별적으로 지연될 수 있는 4개의 브랜치에 카피(copy)될 수 있으며, 이들 4개의 브랜치는, 예컨대, 지연부 τWXYZ에 의해 독립적으로 지연되어, 예컨대, 스케일링 인수 γWXYZ에 의해 스케일링되며, 버전은 오디오 효과 생성기에 제공되기 전에 조합될 수 있다.
도 3 및 도 4a에 따르면, 서로 다른 스트림의 브랜치, 즉, 장치(101 및 102)의 출력은 4개의 조합된 신호를 획득하기 위해 조합될 수 있다. 그 후, 조합된 신호는 오디오 생성기, 예컨대, 통상의 모노 반향기에 의해 독립적으로 렌더링될 수 있다. 그리고 나서, 생성된 렌더링된 신호는 원래 서로 다른 장치(101 및 102)로부터 출력되는 W, X, Y 및 Z 신호에 합산될 수 있다.
실시예들에서, 일반적 B-포맷 신호가 획득되어, 예컨대, 앰비소닉스(Ambisonics)에서 실행될 시에 B-포맷 디코더로 실행될 수 있다. 다른 실시예들에서, B-포맷 신호는 도 7에 도시된 바와 같이 예컨대 DirAC 인코더로 인코딩됨으로써, 생성된 DirAC 스트림이 송신되어, 통상의 모노 DirAC 디코더로 더 처리되거나 디코딩될 수 있다. 디코딩 단계는 재생을 위한 라우드스피커 신호를 계산하는 단계에 대응할 수 있다.
도 4b는 장치(300)의 다른 실시예를 도시한 것이다. 도 4b는 대응하는 4개의 출력 성분을 가진 2개의 장치(101 및 102)를 도시한다. 도 4b에 도시된 실시예에서, 무지향성 W 성분만이 조합기(331)에 의해 조합되기 전에 지연 및 스케일링 스테이지(321 및 322)에서 먼저 개별적으로 지연되어 스케일링되는데 이용된다. 그 후, 조합된 신호는, 도 4b에서 반향기로서 다시 구현되는 오디오 효과 생성기(301)에 제공된다. 그리고 나서, 반향기(301)의 렌더링된 출력은 조합기(311)에 의해 장치(101 및 102)로부터의 원래의 무지향성 성분과 조합된다. 다른 조합기(312, 313 및 314)는, 대응하는 조합된 지향성 성분을 획득하기 위해 장치(101 및 102)로부터의 지향성 성분 X, Y 및 Z을 조합하는데 이용된다.
도 4a에 도시된 실시예와 관련하여, 도 4b에 도시된 실시예는 브랜치 X, Y 및 Z에 대한 스케일링 인수를 0으로 설정하는 것에 대응한다. 이런 실시예에서는, 하나의 오디오 효과 생성기 또는 반향기(301)만이 이용된다. 한 실시예에서, 오디오 효과 생성기(301)는 제 1 렌더링된 성분을 획득하도록 제 1 무지향성 성분만을 반향하기 위해 구성될 수 있으며, 즉, W만이 반향될 수 있다.
일반적으로, 장치(101, 102) 및, 잠재적으로 N 소리 소스에 대응하는 N 장치로서, 선택적인 잠재적으로 N 지연 및 스케일링 스테이지(321)는 소리 소스의 거리를 시뮬레이트할 수 있으며, 보다 짧은 지연은 리스너에 더 가까운 가상 소리 소스의 지각에 대응할 수 있다. 일반적으로, 지연 및 스케일링 스테이지(321)는 변환된 신호, 제각기 변환된 공간 오디오 신호로 나타내는 서로 다른 소리 소스 간의 공간 관계를 렌더링하는데 이용될 수 있다. 그 후, 주변 환경의 공간 인상(spatial impression)은 대응하는 오디오 효과 생성기(301) 또는 반향기에 의해 생성될 수 있다. 환언하면, 일부 실시예에서, 지연 및 스케일링 스테이지(321)는 다른 소리 소스에 대해 소스 특정 지연 및 스케일링을 도입하는데 이용될 수 있다. 그리고 나서, 적절히 관련되는, 즉 지연 및 스케일링되는 변환된 신호의 조합은 오디오 효과 생성기(301)에 의해 공간 환경에 적응될 수 있다.
지연 및 스케일링 스테이지(321)는 또한 일종의 반향기로서 보여질 수 있다. 실시예들에서, 지연 및 스케일링 스테이지(321)에 의해 도입되는 지연은 오디오 효과 생성기(301)에 의해 도입되는 지연보다 더 짧을 수 있다. 일부 실시예에서, 예컨대, 클록 생성기에 의해 제공되는 바와 같은 공통 시간 기준(common time basis)은 지연 및 스케일링 스테이지(321) 및 오디오 효과 생성기(301)에 이용될 수 있다. 그 후, 지연은 샘플 주기의 수에 의해 표현될 수 있고, 지연 및 스케일링 스테이지(321)에 의해 도입되는 지연은 오디오 효과 생성기(301)에 의해 도입되는 지연보다 낮은 수의 샘플 주기에 상응할 수 있다.
도 3, 4a 및 4b에 도시된 바와 같은 실시예들은, 모노 DirAC 디코딩이 공동으로 반향되는 N 소리 소스에 이용될 시의 경우에 활용될 수 있다. 반향기의 출력이 전체적으로 확산하는 출력을 갖는 것으로 추정될 수 있음에 따라, 즉, 그것은 또한 무지향성 신호 W로서 해석될 수 있다. 이런 신호는, N 오디오 소스 자신으로부터 발신되어, 리스너에 대한 직접 경로를 나타내는 B-포맷 신호와 같은 다른 합성된 B-포맷 신호와 조합될 수 있다. 생성된 B-포맷 신호가 더 DirAC 인코딩 및 디코딩될 시에, 반향된 소리는 실시예들에 의해 이용 가능하게 형성될 수 있다.
도 4c에서는, 장치(300)의 다른 실시예가 도시된다. 도 4c에 도시된 실시예에서, 장치(101 및 102)의 출력 무지향성 신호에 기초로 하여, 지향성 반향된 렌더링된 성분이 생성된다. 그래서, 무지향성 출력에 기초로 하여, 지연 및 스케일링 스테이지(321 및 322)는 조합기(331, 332 및 333)에 의해 조합되는 개별적으로 지연 및 스케일링된 성분을 생성한다. 각 조합된 신호에 서로 다른 반향기(301, 302 및 303)가 적용되며, 이들 반향기는 일반적으로 서로 다른 오디오 효과 생성기에 대응한다. 상기 설명에 따르면, 대응하는 무지향성, 지향성 및 렌더링된 성분은, 조합된 무지향성 성분 및 조합된 지향성 성분을 제공하기 위해, 조합기(311, 312, 313 및 314)에 의해 조합된다.
환언하면, 각 스트림에 대한 W-신호 또는 무지향성 신호는, 도면들에 도시된 바와 같이, 예컨대 반향기로서 3개의 오디오 효과 생성기에 공급된다. 일반적으로, 또한, 2차원 또는 3차원 소리 신호가 생성될 수 있는지에 따라 2개의 브랜치만이 존재할 수 있다. 일단 B-포맷 신호가 획득되면, 스트림은 가상 마이크로폰 DirAC 디코더를 통해 디코딩될 수 있다. 후자는 V. Pulkki, Spatial Sound Reproduction With Directional Audio Coding, Journal of the Audio Engineering Society, 55(6): 503-516에서 상세히 기술되어 있다.
이런 디코더에 의해, 라우드스피커 신호
Figure pct00108
는, 예컨대, 아래 식에 따라, W,X,Y 및 Z의 선형 조합으로서 획득될 수 있다.
Figure pct00109
여기서,
Figure pct00110
Figure pct00111
은 제 p 라우드스피커의 방위각 및 앙각이다. 용어
Figure pct00112
는 도달 방향 및 라우드스피커 구성에 의존하는 패닝 게인(panning gain)이다.
환언하면, 도 4c에 도시된 실시예는, 라우드스피커의 위치로 지향되는 가상 마이크로폰을 배치하고, DirAC 파라미터에 의해 위치가 결정되는 포인트형 소리 소스를 가짐으로써 획득 가능한 오디오 신호에 대응하는 라우드스피커에 대한 오디오 신호를 제공할 수 있다. 가상 마이크로폰은, 카디오이드(cardioids), 다이폴, 또는 어떤 제 1 차 지향성 패턴으로서 형상화된 픽업 패턴을 가질 수 있다.
반향된 소리는, 예컨대, B-포맷 합산에서 X 및 Y로서 효율적으로 이용될 수 있다. 이와 같은 실시예들은, 보다 많은 반향기에 대한 필요성을 생성하지 않고, 소정수의 라우드스피커를 가진 수평적 라우드스피커 레이아웃(layouts)에 적용될 수 있다.
초기에 논의된 바와 같이, 모노 DirAC 디코딩은 반향의 품질에서 제한(limitations)을 갖는데, 실시예들에서, 이런 품질은, B-포맷 스트림에서 또한 다이폴 신호를 이용하는 가상 마이크로폰 DirAC 디코딩으로 개선될 수 있다.
가상 마이크로폰 DirAC 디코딩을 위한 오디오 신호를 반향할 B-포맷 신호의 적절한 생성은 실시예들에서 실행될 수 있다. 실시예들에 의해 이용될 수 있는 간단하고 효율적인 개념은 서로 다른 오디오 채널을 서로 다른 다이폴 신호, 예컨대, X 및 Y 채널로 경로 지정할 수 있다. 실시예들은 이것을 2개의 반향기에 의해 실시할 수 있으며, 이들 반향기는, 동일한 입력 채널로부터 인코히런트(incoherent) 모노 오디오 채널을 생성하여, 도 4c에서 지향성 성분에 대해 도시된 바와 같이, 이들의 출력을 제각기 B-포맷 다이폴 오디오 채널 X 및 Y로서 처리한다. 신호들이 W에 인가되지 않을 시에, 신호들은 다음의 DirAC 인코딩에서 전체적으로 확산하도록 분석될 것이다. 또한, 반향을 위한 향상된 품질, 다이폴 채널이 다르게 반향된 소리를 포함할 시에, 가상 마이크로폰 DirAC 디코딩에서 획득될 수 있다. 게다가, 실시예들은, 모노 DirAC 디코딩 보다 "더 넓은(wider)" 및 더 많은 반향의 "인벨로핑(enveloping)" 지각을 생성할 수 있다. 그래서, 실시예들은, 수평 라우드스피커 레이아웃에서 최대 2개의 반향기, 및 기술된 DirAC 기반 반향에서 3-D 라우드스피커 레이아웃에 대해서는 3개의 반향기를 이용할 수 있다.
실시예들은, 신호들의 반향으로 제한되지 않고, 예컨대, 소리의 전체적 확산 지각을 지향하는 어떤 다른 오디오 효과를 응용할 수 있다. 상술한 실시예와 유사하게, 반향된 B-포맷 신호는, 실시예들에서, N 오디오 소스 자신들로부터 발신하는 것과 같은 다른 합성된 B-포맷 신호와 합산되어, 리스너에 대한 직접 경로를 나타낼 수 있다.
또 다른 실시예는 도 4d에 도시되어 있다. 도 4d는 도 4a와 유사한 실시예를 도시하지만, 지연 및 스케일링 스테이지(321 또는 322)가 존재하지 않는다. 즉, 브랜치에서의 개별 신호만이 반향되고, 일부 실시예에서는, 무지향성 성분 W만이 반향된다. 도 4d에 도시된 실시예는 또한 반향기 전의 지연 및 스케일(scales) 또는 게인이 제각기 0 및 1로 설정되는 도 4a에 도시된 실시예와 유사한 것으로 보여질 수 있지만, 이 실시예에서는, 반향기(301, 302, 303 및 304)는 임의적이고 독립적인 것으로 추정되지 않는다. 도 4d에 도시된 실시예에서, 4개의 오디오 효과 생성기는 특정 구조를 가져 서로 의존적인 것으로 추정된다.
오디오 효과 생성기 또는 반향기의 각각은, 다음에 도 5의 도움으로 상세히 기술되는 바와 같이, 탭 지연선(tapped delay line)으로서 실시될 수 있다. 지연 및 게인 또는 스케일은 각 탭이 방향, 지연, 및 전력을 마음대로 설정할 수 있는 하나의 별개의 에코(one distinct echo)를 모델링하는 식으로 적절히 선택될 수 있다.
이와 같은 실시예에서, 제 i 에코는, 예컨대, DirAC 소리
Figure pct00113
, 지연
Figure pct00114
및, 제각기 앙각 및 방위각에 대응하는 도달 방향
Figure pct00115
Figure pct00116
과 관련하여 가중 인수로 특징지워질 수 있다.
반향기의 파라미터는 다음과 같이 설정될 수 있다.
Figure pct00117
Figure pct00118
W 반향기에 대해,
Figure pct00119
, X 반향기에 대해,
Figure pct00120
, Y 반향기에 대해,
Figure pct00121
, Z 반향기에 대해.
일부 실시예들에서, 각 에코의 물리적 파라미터는 랜덤 프로세스에서 나올 수 있거나, 룸 공간 임펄스 응답으로부터 취해질 수 있다. 후자는, 예컨대, 레이-트레이싱 툴(ray-tracing tool)로 측정될 수 있거나 시뮬레이트될 수 있다.
일반적으로, 실시예들은 이와 함께 오디오 효과 생성기의 수가 소스의 수와 무관한 이점을 제공할 수 있다.
도 5는, 예컨대, DirAC 문맥 내에서 확장되는 오디오 효과 생성기 내에 이용되는 모노 오디오 효과의 개념적 기법을 이용하는 실시예를 도시한 것이다. 예컨대, 반향기는 이런 기법에 따라 실현될 수 있다. 도 5는 반향기(500)의 실시예를 도시한다. 도 5는 원리상 FIR-필터 구조 (FIR = Finite Impulse Response)를 도시한다. 다른 실시예들은 또한 IIR-필터 (IIR = Infinite Impulse Response)를 이용할 수 있다. 입력 신호는 511 내지 51K로 라벨되는 K 지연 단계에 의해 지연된다. 지연이 신호의 τ1 내지 τK로 나타내는 K 지연된 카피는 이때, 합산 스테이지(530)에서 합산되기 전에, 증폭 인수 γ1 내지 γK로 증폭기(521 내지 52K)에 의해 증폭된다.
도 6은 DirAC 문맥 내에서 도 5의 처리 체인(chain)을 확장한 다른 실시예를 도시한 것이다. 처리 블록의 출력은 B-포맷 신호일 수 있다. 도 6은 다수의 합산 스테이지(560, 562 및 564)를 이용하여 3개의 출력 신호 W, X 및 Y를 생성시키는 실시예를 도시한다. 서로 다른 조합을 확립하기 위해, 지연된 신호 카피는 3개의 서로 다른 가산 스테이지(560, 562 및 564)에서 가산되기 전에 서로 다르게 스케일링될 수 있다. 이것은 부가적인 증폭기(531 내지 53K) 및 (541 내지 54K)에 의해 실행된다. 환언하면, 도 6에 도시된 실시예(600)는 모노 DirAC 스트림에 기초로 하는 B-포맷 신호의 서로 다른 성분에 대한 반향을 실행한다. 이 신호의 3개의 서로 다른 반향된 카피는 서로 다른 필터 계수
Figure pct00122
내지
Figure pct00123
Figure pct00124
내지
Figure pct00125
를 통해 확립되는 3개의 서로 다른 FIR 필터를 이용하여 생성된다.
다음의 실시예는 도 5에서와 같이 모델링될 수 있는 반향기 또는 오디오 효과에 적용할 수 있다. 입력 신호는 간단한 탭 지연선을 통해 실행하며, 여기서, 이의 다수의 카피는 서로 합산된다. 제 i의 K 브랜치는 제각기
Figure pct00126
Figure pct00127
만큼 지연되어 감쇠된다.
인수 γ 및 τ는 바람직한 오디오 효과에 따라 획득될 수 있다. 반향기의 경우에, 이들 인수는 시뮬레이트될 수 있는 룸의 임펄스 응답을 모방한다(mimic). 여하튼, 이들의 결정이 명확하게 되지 않아, 주어지도록 추정된다.
한 실시예가 도 6에 도시된다. 도 5의 기법은 2이상의 층이 획득되도록 확장된다. 실시예들에서, 각 브랜치에, 도달각 θ은 확률적 프로세스(stochastic process)에서 획득되어 지정될 수 있다. 예컨대, θ은 범위 [-π,π]에서 균일한 분포의 실현일 수 있다. 제 i 브랜치는 다음과 같이 정의될 수 있는 인수
Figure pct00128
Figure pct00129
와 곱해진다.
Figure pct00130
게다가, 실시예들에서, 제 i 에코는 θi에서 나타나는 바와 같이 지각될 수 있다. 3D로의 확장은 간단하다. 이 경우에, 하나 이상의 층이 가산될 필요가 있고, 앙각이 고려될 필요가 있다. 일단 B-포맷 신호, 즉, W,X,Y, 및 어쩌면 Z가 생성되면, 그것을 다른 B-포맷 신호와 조합하는 것이 실행될 수 있다. 그리고 나서, 그것은 가상 마이크로폰 DirAC 디코더로 직접 송신될 수 있거나, DirAC 인코딩 후에, 모노 DirAC 스트림은 모노 DirAC 디코더로 송신될 수 있다.
실시예들은 변환된 공간 오디오 신호를 결정하는 방법을 포함할 수 있으며, 변환된 공간 오디오 신호는 입력 공간 오디오 신호로부터 제 1 지향성 오디오 성분 및 제 2 지향성 오디오 성분을 가지며, 입력 공간 오디오 신호는 입력 오디오 표현 및 입력 도달 방향을 갖는다. 이 방법은 웨이브 표현을 추정하는 단계를 포함하며, 웨이브 표현은 입력 오디오 표현 및 입력 도달 방향에 기초로 하여 웨이브 필드 측정 및 웨이브 도달 방향 측정을 포함한다.
더욱이, 이 방법은, 제 1 지향성 성분 및 제 2 지향성 성분을 획득하도록 웨이브 필드 측정 및 웨이브 도달 방향 측정을 처리하는 단계를 포함한다.
실시예들에서, 변환된 공간 오디오 신호를 결정하는 방법은, B-포맷으로 변환될 수 있는 모노 DirAC 스트림을 획득하는 단계를 포함할 수 있다. 선택적으로, W는 이용 가능할 시에 P로부터 획득될 수 있다. 그렇지 않으면, 이용 가능한 오디오 신호의 선형 조합으로서 W를 어림잡는 단계가 실행될 수 있다. 그 다음에, 확산도에 반비례하는 주파수 시간 의존 가중 인수로서 인수 β를 계산하는 단계가, 예컨대, 아래식에 따라 실행될 수 있다.
Figure pct00131
또는
Figure pct00132
이 방법은 P, β 및 eDOA로부터 신호 X, Y 및 Z를 계산하는 단계를 더 포함할 수 있다.
Figure pct00133
인 경우에, P로부터 W를 획득하는 단계는, X, Y 및 Z가 0인 P로부터 W를 획득하고, W가 0인 P로부터 하나 이상의 다이폴 신호 X, Y, 또는 Z를 획득하는 단계로 대체될 수 있다. 본 발명의 실시예들은 B-포맷 도메인 내의 신호 처리를 실행할 수 있고, 라우드스피커 신호가 생성되기 전에 전진된 신호 처리가 실행될 수 있는 이점을 산출할 수 있다.
본 발명의 방법의 어떤 구현 요건에 따라, 본 발명의 방법은 하드웨어 또는 소프트웨어에서 구현될 수 있다. 이런 구현은 디지털 저장 매체, 특히, 플래시 메모리, 디스크, 전자식 판독 가능한 제어 신호를 저장한 DVD 또는 CD를 이용하여 실행될 수 있으며, 이들은 본 발명의 방법이 실행되도록 하는 프로그램 가능한 컴퓨터 시스템과 협력한다. 일반적으로, 그래서, 본 발명은 기계 판독 가능한 캐리어 상에 저장된 프로그램 코드를 가진 컴퓨터 프로그램 코드이며, 프로그램 코드는 컴퓨터 프로그램이 컴퓨터 또는 프로세서 상에서 실행할 시에 본 발명의 방법을 실행하기 위해 동작한다. 환언하면, 그래서, 본 발명의 방법은, 컴퓨터 프로그램이 컴퓨터 상에서 실행할 시에, 본 발명의 방법 중 하나 이상을 실행하기 위한 프로그램 코드를 가진 컴퓨터 프로그램이다.

Claims (16)

  1. 조합 변환된 공간 오디오 신호를 결정하는 장치(300)로서, 상기 조합 변환된 공간 오디오 신호는 제 1 및 2 입력 공간 오디오 신호로부터 적어도 제 1 조합된 성분 및 제 2 조합된 성분을 가지며, 상기 제 1 입력 공간 오디오 신호는 제 1 입력 오디오 표현 및 제 1 도달 방향을 가지며, 상기 제 2 입력 공간 오디오 신호는 제 2 입력 오디오 표현 및 제 2 도달 방향을 가지는 조합 변환된 공간 오디오 신호를 결정하는 장치에 있어서,
    상기 제 1 입력 공간 오디오 신호로부터 제 1 무지향성 성분 및 하나 이상의 제 1 지향성 성분 (X;Y;Z)을 가진 제 1 변환된 신호를 결정하도록 구성되는 제 1 수단(101);
    제 2 무지향성 성분 및 하나 이상의 제 2 지향성 성분을 가진 상기 제 2 입력 공간 오디오 신호에 기초로 하는 제 2 변환된 신호를 제공하도록 구성되는 제 2 수단(102);
    상기 제 1 무지향성 성분을 렌더링하여 제 1 렌더링된 성분을 획득하거나, 상기 제 1 지향성 성분을 렌더링하여 제 1 렌더링된 성분을 획득하도록 구성되는 오디오 효과 생성기(301);
    상기 제 1 렌더링된 성분, 상기 제 1 무지향성 성분 및 상기 제 2 무지향성 성분을 조합하거나, 상기 제 1 렌더링된 성분, 상기 제 1 지향성 성분, 및 상기 제 2 지향성 성분을 조합하여, 상기 제 1 조합된 성분을 획득하도록 구성되는 제 1 조합기(311); 및
    상기 제 1 지향성 성분 및 상기 제 2 지향성 성분을 조합하거나, 상기 제 1 무지향성 성분 및 상기 제 2 무지향성 성분을 조합하여, 상기 제 2 조합된 성분을 획득하도록 구성되는 제 2 조합기(312)를 포함하는데,
    상기 제 1 수단(101)은,
    상기 제 1 입력 오디오 표현 및 상기 제 1 입력 도달 방향에 기초로 하여, 제 1 웨이브 필드 측정 및 제 1 웨이브 도달 방향 측정을 포함하는 제 1 웨이브 표현을 추정하도록 구성되는 추정기; 및
    상기 제 1 무지향성 성분 및 상기 하나 이상의 제 1 지향성 성분을 획득하기 위해 상기 제 1 웨이브 필드 측정 및 상기 제 1 웨이브 도달 방향 측정을 처리하도록 구성되는 프로세서를 포함하며;
    상기 제 1 수단(101)은 상기 제 1 무지향성 성분 및 상기 하나 이상의 제 1 지향성 성분을 가진 상기 제 1 변환된 신호를 제공하도록 구성되며;
    상기 제 2 수단(102)은,
    상기 제 2 입력 오디오 표현 및 상기 제 2 입력 도달 방향에 기초로 하여, 제 2 웨이브 필드 측정 및 제 2 웨이브 도달 방향 측정을 포함하는 제 2 웨이브 표현을 추정하도록 구성되는 다른 추정기; 및
    상기 제 2 무지향성 성분 및 상기 하나 이상의 제 2 지향성 성분을 획득하기 위해 상기 제 2 웨이브 필드 측정 및 상기 제 2 웨이브 도달 방향 측정을 처리하도록 구성되는 다른 프로세서를 포함하며;
    상기 제 2 수단(102)은 상기 제 2 무지향성 성분 및 하나 이상의 제 2 지향성 성분을 가진 상기 제 2 변환된 신호를 제공하도록 구성되는 것을 특징으로 하는 조합 변환된 공간 오디오 신호를 결정하는 장치.
  2. 청구항 1에 있어서,
    상기 추정기 또는 상기 다른 추정기는 웨이브 필드 진폭 및 웨이브 필드 위상에 의해 상기 제 1 또는 2 웨이브 필드 측정을 추정하기 위해 구성되는 것을 특징으로 하는 조합 변환된 공간 오디오 신호를 결정하는 장치.
  3. 청구항 1 또는 2에 있어서,
    상기 제 1 또는 2 입력 공간 오디오 신호는 확산 파라미터 Ψ를 더 포함하고, 상기 추정기 또는 상기 다른 추정기는 상기 확산 파라미터 Ψ에 더 기초로 하여 상기 웨이브 필드 측정을 추정하기 위해 구성되는 것을 특징으로 하는 조합 변환된 공간 오디오 신호를 결정하는 장치.
  4. 청구항 1 내지 3 중 어느 한 항에 있어서,
    상기 제 1 또는 2 입력 도달 방향은 기준점을 나타내고, 상기 추정기 또는 상기 다른 추정기는, 상기 입력 공간 오디오 신호의 기록 위치에 대응하는 기준점과 관련하여 상기 제 1 또는 2 웨이브 도달 방향 측정을 추정하기 위해 구성되는 것을 특징으로 하는 조합 변환된 공간 오디오 신호를 결정하는 장치.
  5. 청구항 1 내지 4 중 어느 한 항에 있어서,
    상기 제 1 또는 2 변환된 공간 오디오 신호는 제 1 (X), 제 2 (Y) 및 제 3 (Z) 지향성 성분을 포함하고, 상기 프로세서 또는 상기 다른 프로세서는, 상기 제 1 또는 2 변환된 신호에 대한 상기 제 1 (X), 제 2 (Y) 및 제 3 (Z) 지향성 성분을 획득하도록 상기 제 1 또는 2 웨이브 필드 측정 및 상기 제 1 또는 2 웨이브 도달 방향 측정을 더 처리하기 위해 구성되는 것을 특징으로 하는 조합 변환된 공간 오디오 신호를 결정하는 장치.
  6. 청구항 2 내지 5 중 어느 한 항에 있어서,
    상기 추정기 또는 상기 다른 추정기는 상기 제 1 또는 2 입력 오디오 표현
    Figure pct00134
    의 소수부
    Figure pct00135
    에 기초로 하여 상기 제 1 또는 2 웨이브 필드 측정을 결정하기 위해 구성되는데, k는 시간 지표를 나타내고, n은 주파수 지표를 나타내는 것을 특징으로 하는 조합 변환된 공간 오디오 신호를 결정하는 장치.
  7. 청구항 6에 있어서,
    상기 프로세서 또는 상기 다른 프로세서는, 다음 식에 의해 상기 제 1 또는 2 변환된 신호에 대해 제 1 지향성 성분 X(k,n) 및/또는 제 2 지향성 성분Y(k,n) 및/또는 제 3 지향성 성분 Z(k,n) 및/또는 제 1 또는 2 무지향성 오디오 성분 W(k,n)의 복소 측정(complex measure)을 획득하도록 구성되며,
    Figure pct00136

    여기서,
    Figure pct00137
    는 데카르트 좌표계의 x-축을 따른 상기 제 1 또는 2 입력 도달 방향의 단위 벡터
    Figure pct00138
    의 성분이고,
    Figure pct00139
    는 y-축을 따른
    Figure pct00140
    의 성분이며,
    Figure pct00141
    는 z-축을 따른
    Figure pct00142
    의 성분인 것을 특징으로 하는 조합 변환된 공간 오디오 신호를 결정하는 장치.
  8. 청구항 6 또는 7에 있어서,
    상기 추정기 또는 상기 다른 추정기는
    Figure pct00143
    에 따라 확산 파라미터
    Figure pct00144
    에 기초로 하여 소수부
    Figure pct00145
    를 추정하기 위해 구성되는 것을 특징으로 하는 조합 변환된 공간 오디오 신호를 결정하는 장치.
  9. 청구항 6 또는 7에 있어서,
    상기 추정기 또는 상기 다른 추정기는
    Figure pct00146
    에 따라
    Figure pct00147
    에 기초로 하여 소수부
    Figure pct00148
    를 추정하기 위해 구성되는 것을 특징으로 하는 조합 변환된 공간 오디오 신호를 결정하는 장치.
  10. 청구항 1 내지 9 중 어느 한 항에 있어서,
    상기 제 1 또는 2 입력 공간 오디오 신호는 DirAC 코딩된 오디오 신호에 대응하고, 상기 프로세서 또는 상기 다른 프로세서는 B-포맷 신호에 의해 상기 제 1 또는 2 무지향성 성분 (W') 및 상기 하나 이상의 제 1 또는 2 지향성 성분 (X;Y;Z)을 획득하도록 구성되는 것을 특징으로 하는 조합 변환된 공간 오디오 신호를 결정하는 장치.
  11. 청구항 1 내지 10 중 어느 한 항에 있어서,
    상기 오디오 효과 생성기(301)는 상기 제 1 무지향성 성분 및 상기 제 2 무지향성 성분의 조합을 렌더링하거나, 상기 제 1 지향성 성분 및 상기 제 2 지향성 성분의 조합을 렌더링하여 상기 제 1 렌더링된 성분을 획득하기 위해 구성되는 것을 특징으로 하는 조합 변환된 공간 오디오 신호를 결정하는 장치.
  12. 청구항 1 내지 11 중 어느 한 항에 있어서,
    상기 제 1 무지향성 성분 및/또는 상기 제 1 지향성 성분을 지연 및/또는 스케일링하는 제 1 지연 및 스케일링 스테이지(321), 및/또는 상기 제 2 무지향성 성분 및/또는 상기 제 2 지향성 성분을 지연 및/또는 스케일링하는 제 2 지연 및 스케일링 스테이지(322)를 더 포함하는 것을 특징으로 하는 조합 변환된 공간 오디오 신호를 결정하는 장치.
  13. 청구항 1 내지 12 중 어느 한 항에 있어서,
    다수의 입력 공간 오디오 신호를 변환하는 다수의 수단(100)을 포함하며, 상기 장치(300)는 다수의 오디오 효과 생성기를 더 포함하며, 오디오 효과 생성기의 수는 수단(100)의 수보다 적은 것을 특징으로 하는 조합 변환된 공간 오디오 신호를 결정하는 장치.
  14. 청구항 1 내지 13 중 어느 한 항에 있어서,
    상기 오디오 효과 생성기(301)는 상기 제 1 렌더링된 성분을 획득하도록 상기 제 1 무지향성 성분 또는 상기 제 1 지향성 성분을 반향하기 위해 구성되는 것을 특징으로 하는 조합 변환된 공간 오디오 신호를 결정하는 장치.
  15. 조합 변환된 공간 오디오 신호를 결정하는 방법으로서, 상기 조합 변환된 공간 오디오 신호는 제 1 및 2 입력 공간 오디오 신호로부터 적어도 제 1 조합된 성분 및 제 2 조합된 성분을 가지며, 상기 제 1 입력 공간 오디오 신호는 제 1 입력 오디오 표현 및 제 1 도달 방향을 가지며, 상기 제 2 입력 공간 오디오 신호는 제 2 입력 오디오 표현 및 제 2 도달 방향을 가지는 조합 변환된 공간 오디오 신호를 결정하는 방법에 있어서,
    상기 제 1 입력 오디오 표현 및 상기 제 1 입력 도달 방향에 기초로 하여, 제 1 웨이브 필드 측정 및 제 1 웨이브 도달 방향 측정을 포함하는 제 1 웨이브 표현을 추정하는 부단계; 및 제 1 무지향성 성분 (W') 및 하나 이상의 제 1 지향성 성분 (X;Y;Z)을 획득하도록 상기 제 1 웨이브 필드 측정 및 상기 제 1 웨이브 도달 방향 측정을 처리하는 부단계를 이용함으로써, 상기 제 1 입력 공간 오디오 신호로부터 상기 제 1 무지향성 성분 (W') 및 상기 하나 이상의 제 1 지향성 성분 (X;Y;Z)을 가진 제 1 변환된 공간 오디오 신호를 결정하는 단계;
    상기 제 1 무지향성 성분 및 상기 하나 이상의 제 1 지향성 성분을 가진 제 1 변환된 신호를 제공하는 단계;
    상기 제 2 입력 오디오 표현 및 상기 제 2 입력 도달 방향에 기초로 하여, 제 2 웨이브 필드 측정 및 제 2 웨이브 도달 방향 측정을 포함하는 제 2 웨이브 표현을 추정하는 부단계; 및 제 2 무지향성 성분 (W') 및 하나 이상의 제 2 지향성 성분 (X;Y;Z)을 획득하도록 상기 제 2 웨이브 필드 측정 및 상기 제 2 웨이브 도달 방향 측정을 처리하는 부단계를 이용함으로써, 상기 제 2 입력 공간 오디오 신호로부터 상기 제 2 무지향성 성분 (W') 및 상기 하나 이상의 제 2 지향성 성분 (X;Y;Z)을 가진 제 2 변환된 공간 오디오 신호를 결정하는 단계;
    상기 제 2 무지향성 성분 및 상기 하나 이상의 제 2 지향성 성분을 가진 제 2 변환된 신호를 제공하는 단계;
    상기 제 1 무지향성 성분을 렌더링하여 제 1 렌더링된 성분을 획득하거나, 상기 제 1 지향성 성분을 렌더링하여 제 1 렌더링된 성분을 획득하는 단계;
    상기 제 1 렌더링된 성분, 상기 제 1 무지향성 성분 및 상기 제 2 무지향성 성분을 조합하거나, 상기 제 1 렌더링된 성분, 상기 제 1 지향성 성분, 및 상기 제 2 지향성 성분을 조합하여, 상기 제 1 조합된 성분을 획득하는 단계; 및
    상기 제 1 지향성 성분 및 상기 제 2 지향성 성분을 조합하거나, 상기 제 1 무지향성 성분 및 상기 제 2 무지향성 성분을 조합하여, 상기 제 2 조합된 성분을 획득하는 단계를 포함하는 것을 특징으로 하는 조합 변환된 공간 오디오 신호를 결정하는 방법.
  16. 프로그램 코드가 컴퓨터 프로세서에서 실행할 시에 청구항 15의 방법을 실행하기 위한 프로그램 코드를 가진 컴퓨터 프로그램.
KR1020117005560A 2008-08-13 2009-08-12 조합 변환된 공간 오디오 신호를 결정하는 장치 및 방법 KR101476496B1 (ko)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US8851308P 2008-08-13 2008-08-13
US61/088,513 2008-08-13
US9168208P 2008-08-25 2008-08-25
US61/091,682 2008-08-25
EP09001398.8A EP2154677B1 (en) 2008-08-13 2009-02-02 An apparatus for determining a converted spatial audio signal
EP09001398.8 2009-02-02
PCT/EP2009/005859 WO2010017978A1 (en) 2008-08-13 2009-08-12 An apparatus for determining a converted spatial audio signal

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020137016621A Division KR20130089277A (ko) 2008-08-13 2009-08-12 변환된 공간 오디오 신호를 결정하는 장치

Publications (2)

Publication Number Publication Date
KR20110052702A true KR20110052702A (ko) 2011-05-18
KR101476496B1 KR101476496B1 (ko) 2014-12-26

Family

ID=40568458

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020117005560A KR101476496B1 (ko) 2008-08-13 2009-08-12 조합 변환된 공간 오디오 신호를 결정하는 장치 및 방법
KR1020137016621A KR20130089277A (ko) 2008-08-13 2009-08-12 변환된 공간 오디오 신호를 결정하는 장치

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020137016621A KR20130089277A (ko) 2008-08-13 2009-08-12 변환된 공간 오디오 신호를 결정하는 장치

Country Status (14)

Country Link
US (1) US8611550B2 (ko)
EP (2) EP2154677B1 (ko)
JP (1) JP5525527B2 (ko)
KR (2) KR101476496B1 (ko)
CN (1) CN102124513B (ko)
AU (1) AU2009281367B2 (ko)
BR (1) BRPI0912451B1 (ko)
CA (1) CA2733904C (ko)
ES (2) ES2425814T3 (ko)
HK (2) HK1141621A1 (ko)
MX (1) MX2011001657A (ko)
PL (2) PL2154677T3 (ko)
RU (1) RU2499301C2 (ko)
WO (1) WO2010017978A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150138167A (ko) * 2013-03-29 2015-12-09 삼성전자주식회사 오디오 장치 및 이의 오디오 제공 방법

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007083739A1 (ja) * 2006-01-19 2007-07-26 Nippon Hoso Kyokai 3次元音響パンニング装置
ES2472456T3 (es) 2010-03-26 2014-07-01 Thomson Licensing Método y dispositivo para decodificar una representación de un campo ac�stico de audio para reproducción de audio
ES2643163T3 (es) 2010-12-03 2017-11-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y procedimiento para codificación de audio espacial basada en geometría
AR084090A1 (es) 2010-12-03 2013-04-17 Fraunhofer Ges Forschung Metodo y aparato para adquisicion espacialmente selectiva del sonido mediante triangulacion acustica
FR2982111B1 (fr) * 2011-10-27 2014-07-25 Cabasse Enceinte acoustique comprenant un haut-parleur coaxial a directivite controlee et variable.
EP2665208A1 (en) * 2012-05-14 2013-11-20 Thomson Licensing Method and apparatus for compressing and decompressing a Higher Order Ambisonics signal representation
TWI590234B (zh) 2012-07-19 2017-07-01 杜比國際公司 編碼聲訊資料之方法和裝置,以及解碼已編碼聲訊資料之方法和裝置
TWI530941B (zh) 2013-04-03 2016-04-21 杜比實驗室特許公司 用於基於物件音頻之互動成像的方法與系統
EP2922057A1 (en) 2014-03-21 2015-09-23 Thomson Licensing Method for compressing a Higher Order Ambisonics (HOA) signal, method for decompressing a compressed HOA signal, apparatus for compressing a HOA signal, and apparatus for decompressing a compressed HOA signal
CN117253494A (zh) * 2014-03-21 2023-12-19 杜比国际公司 用于对压缩的hoa信号进行解码的方法、装置和存储介质
MX357405B (es) * 2014-03-24 2018-07-09 Samsung Electronics Co Ltd Metodo y aparato de reproduccion de señal acustica y medio de grabacion susceptible de ser leido en computadora.
WO2015172854A1 (en) 2014-05-13 2015-11-19 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for edge fading amplitude panning
CN105336332A (zh) 2014-07-17 2016-02-17 杜比实验室特许公司 分解音频信号
TWI584657B (zh) * 2014-08-20 2017-05-21 國立清華大學 一種立體聲場錄音以及重建的方法
TWI567407B (zh) * 2015-09-25 2017-01-21 國立清華大學 電子裝置及電子裝置之操作方法
GB2554446A (en) * 2016-09-28 2018-04-04 Nokia Technologies Oy Spatial audio signal format generation from a microphone array using adaptive capture
CN108346432B (zh) * 2017-01-25 2022-09-09 北京三星通信技术研究有限公司 虚拟现实vr音频的处理方法及相应设备
US9820073B1 (en) 2017-05-10 2017-11-14 Tls Corp. Extracting a common signal from multiple audio signals
PT3692523T (pt) 2017-10-04 2022-03-02 Fraunhofer Ges Forschung Aparelho, método e programa de computador para codificação, descodificação, processamento de cena e outros procedimentos relacionados com codificação de áudio espacial com base em dirac
CN108845292B (zh) * 2018-06-15 2020-11-27 北京时代拓灵科技有限公司 一种声源定位的方法及装置
CA3091150A1 (en) * 2018-07-02 2020-01-09 Dolby Laboratories Licensing Corporation Methods and devices for encoding and/or decoding immersive audio signals
WO2020075225A1 (ja) * 2018-10-09 2020-04-16 ローランド株式会社 効果音発生方法、及び情報処理装置
CN111145793B (zh) * 2018-11-02 2022-04-26 北京微播视界科技有限公司 音频处理方法和装置
BR112021014135A2 (pt) * 2019-01-21 2021-09-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Sinal de áudio codificado, aparelho e método para codificação de uma representação de áudio espacial ou aparelho e método para decodificação de um sinal de áudio codificado
US20200304933A1 (en) * 2019-03-19 2020-09-24 Htc Corporation Sound processing system of ambisonic format and sound processing method of ambisonic format

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2738099B1 (fr) * 1995-08-25 1997-10-24 France Telecom Procede de simulation de la qualite acoustique d'une salle et processeur audio-numerique associe
AUPO099696A0 (en) * 1996-07-12 1996-08-08 Lake Dsp Pty Limited Methods and apparatus for processing spatialised audio
EP1013140B1 (en) * 1997-09-05 2012-12-05 Harman International Industries, Incorporated 5-2-5 matrix decoder system
US7231054B1 (en) * 1999-09-24 2007-06-12 Creative Technology Ltd Method and apparatus for three-dimensional audio display
CN1452851A (zh) * 2000-04-19 2003-10-29 音响方案公司 保持三维中的空间谐波的多通道环绕声母版制作和再现技术
JP3810004B2 (ja) * 2002-03-15 2006-08-16 日本電信電話株式会社 ステレオ音響信号処理方法、ステレオ音響信号処理装置、ステレオ音響信号処理プログラム
FR2847376B1 (fr) * 2002-11-19 2005-02-04 France Telecom Procede de traitement de donnees sonores et dispositif d'acquisition sonore mettant en oeuvre ce procede
FI118247B (fi) 2003-02-26 2007-08-31 Fraunhofer Ges Forschung Menetelmä luonnollisen tai modifioidun tilavaikutelman aikaansaamiseksi monikanavakuuntelussa
CN1771533A (zh) * 2003-05-27 2006-05-10 皇家飞利浦电子股份有限公司 音频编码
JP2005345979A (ja) * 2004-06-07 2005-12-15 Nippon Hoso Kyokai <Nhk> 残響信号付加装置
ATE378793T1 (de) * 2005-06-23 2007-11-15 Akg Acoustics Gmbh Methode zur modellierung eines mikrofons
JP2007124023A (ja) * 2005-10-25 2007-05-17 Sony Corp 音場再現方法、音声信号処理方法、音声信号処理装置
US20080004729A1 (en) * 2006-06-30 2008-01-03 Nokia Corporation Direct encoding into a directional audio coding format
WO2008039339A2 (en) * 2006-09-25 2008-04-03 Dolby Laboratories Licensing Corporation Improved spatial resolution of the sound field for multi-channel audio playback systems by deriving signals with high order angular terms
US20080232601A1 (en) * 2007-03-21 2008-09-25 Ville Pulkki Method and apparatus for enhancement of audio reconstruction
US20090045275A1 (en) * 2007-08-14 2009-02-19 Beverly Ann Lambert Waste Chopper Kit

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150138167A (ko) * 2013-03-29 2015-12-09 삼성전자주식회사 오디오 장치 및 이의 오디오 제공 방법
US9549276B2 (en) 2013-03-29 2017-01-17 Samsung Electronics Co., Ltd. Audio apparatus and audio providing method thereof
US9986361B2 (en) 2013-03-29 2018-05-29 Samsung Electronics Co., Ltd. Audio apparatus and audio providing method thereof
US20180279064A1 (en) 2013-03-29 2018-09-27 Samsung Electronics Co., Ltd. Audio apparatus and audio providing method thereof
US10405124B2 (en) 2013-03-29 2019-09-03 Samsung Electronics Co., Ltd. Audio apparatus and audio providing method thereof

Also Published As

Publication number Publication date
RU2499301C2 (ru) 2013-11-20
AU2009281367A1 (en) 2010-02-18
EP2154677B1 (en) 2013-07-03
PL2154677T3 (pl) 2013-12-31
RU2011106584A (ru) 2012-08-27
BRPI0912451A2 (pt) 2019-01-02
EP2154677A1 (en) 2010-02-17
ES2425814T3 (es) 2013-10-17
HK1141621A1 (en) 2010-11-12
PL2311026T3 (pl) 2015-01-30
US8611550B2 (en) 2013-12-17
EP2311026A1 (en) 2011-04-20
CN102124513B (zh) 2014-04-09
CN102124513A (zh) 2011-07-13
KR20130089277A (ko) 2013-08-09
CA2733904A1 (en) 2010-02-18
BRPI0912451B1 (pt) 2020-11-24
KR101476496B1 (ko) 2014-12-26
EP2311026B1 (en) 2014-07-30
US20110222694A1 (en) 2011-09-15
AU2009281367B2 (en) 2013-04-11
CA2733904C (en) 2014-09-02
JP5525527B2 (ja) 2014-06-18
JP2011530915A (ja) 2011-12-22
WO2010017978A1 (en) 2010-02-18
MX2011001657A (es) 2011-06-20
HK1155846A1 (en) 2012-05-25
ES2523793T3 (es) 2014-12-01

Similar Documents

Publication Publication Date Title
KR101476496B1 (ko) 조합 변환된 공간 오디오 신호를 결정하는 장치 및 방법
JP7119060B2 (ja) マルチポイント音場記述を使用して拡張音場記述または修正音場記述を生成するためのコンセプト
RU2759160C2 (ru) УСТРОЙСТВО, СПОСОБ И КОМПЬЮТЕРНАЯ ПРОГРАММА ДЛЯ КОДИРОВАНИЯ, ДЕКОДИРОВАНИЯ, ОБРАБОТКИ СЦЕНЫ И ДРУГИХ ПРОЦЕДУР, ОТНОСЯЩИХСЯ К ОСНОВАННОМУ НА DirAC ПРОСТРАНСТВЕННОМУ АУДИОКОДИРОВАНИЮ
RU2556390C2 (ru) Устройство и способ основанного на геометрии кодирования пространственного звука
TWI555412B (zh) 整合幾何空間音源編碼串流之設備及方法
KR101392546B1 (ko) 마이크로폰 신호를 기반으로 공간 큐의 세트를 제공하는 장치, 방법 및 컴퓨터 프로그램과, 2채널 오디오 신호 및 공간 큐의 세트를 제공하는 장치
KR101235543B1 (ko) 공간 오디오 스트림을 병합하는 장치
JP6740347B2 (ja) パラメトリック・バイノーラル出力システムおよび方法のための頭部追跡
JP2023078432A (ja) 2dセットアップを使用したオーディオ再生のためのアンビソニックス・オーディオ音場表現を復号する方法および装置
US20210289310A1 (en) Concept for generating an enhanced sound-field description or a modified sound field description using a multi-layer description
JP2020110007A (ja) パラメトリック・バイノーラル出力システムおよび方法のための頭部追跡

Legal Events

Date Code Title Description
A201 Request for examination
AMND Amendment
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
X091 Application refused [patent]
AMND Amendment
A107 Divisional application of patent
J201 Request for trial against refusal decision
J301 Trial decision

Free format text: TRIAL DECISION FOR APPEAL AGAINST DECISION TO DECLINE REFUSAL REQUESTED 20130626

Effective date: 20140530

S901 Examination by remand of revocation
E902 Notification of reason for refusal
GRNO Decision to grant (after opposition)
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20171129

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20181210

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20191209

Year of fee payment: 6