KR101619578B1 - 기하학 기반의 공간 오디오 코딩을 위한 장치 및 방법 - Google Patents

기하학 기반의 공간 오디오 코딩을 위한 장치 및 방법 Download PDF

Info

Publication number
KR101619578B1
KR101619578B1 KR1020137017441A KR20137017441A KR101619578B1 KR 101619578 B1 KR101619578 B1 KR 101619578B1 KR 1020137017441 A KR1020137017441 A KR 1020137017441A KR 20137017441 A KR20137017441 A KR 20137017441A KR 101619578 B1 KR101619578 B1 KR 101619578B1
Authority
KR
South Korea
Prior art keywords
sound
audio data
values
sound source
audio
Prior art date
Application number
KR1020137017441A
Other languages
English (en)
Other versions
KR20130111602A (ko
Inventor
갈도 지오바니 델
올리버 시에르가르트
주르겐 헤르
파비안 쿠흐
엠마누엘 하베츠
알렉산드라 크라시운
아힘 쿤츠
Original Assignee
프라운호퍼-게젤샤프트 츄어 푀르더룽 데어 안게반텐 포르슝에.파우.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 프라운호퍼-게젤샤프트 츄어 푀르더룽 데어 안게반텐 포르슝에.파우. filed Critical 프라운호퍼-게젤샤프트 츄어 푀르더룽 데어 안게반텐 포르슝에.파우.
Publication of KR20130111602A publication Critical patent/KR20130111602A/ko
Application granted granted Critical
Publication of KR101619578B1 publication Critical patent/KR101619578B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/326Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only for microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
    • H04R2430/21Direction finding using differential microphone array [DMA]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Otolaryngology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Abstract

하나 이상의 사운드 소스들과 관련되는 오디오 데이터를 포함하는 오디오 데이터 스트림에 의거하여 적어도 하나의 오디오 출력 신호를 생성하는 장치가 제공된다. 상기 장치는 오디오 데이터를 포함하는 오디오 데이터 스트림을 수신하는 수신기를 포함한다. 상기 오디오 데이터는 사운드 소스들의 각각의 사운드 소스에 대해 하나 이상의 압력 값들을 포함한다. 게다가, 오디오 데이터는 사운드 소스들의 각각의 사운드 소스에 대해 사운드 소스들 중 하나의 위치를 표시하는 하나 이상의 위치 값들을 포함한다. 더욱이, 상기 장치는 오디오 데이터 스트림의 오디오 데이터의 하나 이상의 압력 값들 중 적어도 하나에 의거하고 오디오 데이터 스트림의 오디오 데이터의 하나 이상의 위치 값들 중 적어도 하나에 의거하여 적어도 하나의 오디오 출력 신호를 생성하는 합성 모듈을 포함한다.

Description

기하학 기반의 공간 오디오 코딩을 위한 장치 및 방법{APPARATUS AND METHOD FOR GEOMETRY-BASED SPATIAL AUDIO CODING}
본 발명은 오디오 처리에 관한 것이며, 특히 기하학 기반의 공간 오디오 코딩을 위한 장치 및 방법에 관한 것이다.
오디오 처리, 특히 공간 오디오 코딩은 점점 더 중요해지고 있다. 전통적인 공간 사운드 녹음은 재생 측에서, 청취자가 녹음 장소에 있었던 것 같이 사운드 이미지를 인지하도록 사운드 필드(sound field)를 캡처링하는 것을 목적으로 한다. 공간 사운드 기록 및 재생 기술에 대한 다른 접근 방식들은 채널-, 오브젝트- 또는 파라메트릭 표현에 의거할 수 있는 기존 기술로부터 알려져 있다.
채널 기반 표현은, 예를 들면 5.1 서라운드 사운드 셋업 등의 알려진 셋업으로 배치된 N개의 스피커에 의해 재생되는 것으로 예정된 N개의 이산 오디오 신호에 의해 사운드 신(sound scene)을 나타낸다. 공간 사운드 녹음을 위한 접근 방식은, 일반적으로 예를 들면 AB 입체 음향에서 무방향성 마이크로폰을 채용하거나, 또는 예를 들면 강도(intesity) 입체 음향에서, 일치하는 방향성 마이크로폰을 채용한다. 다르게는, B-포맷 마이크로폰과 같이 보다 정교한 마이크로폰이, 예를 들면 앰비소닉(Ambisonics)에서 채용될 수 있다. 앰비소닉은 다음을 참조한다:
[1] Michael A. Gerzon. Ambisonics in multichannel broadcasting and video. J. Audio Eng. Soc, 33(11):859-871, 1985.
알려진 셋업에 대해 원하는 스피커 신호는 녹음된 마이크로폰 신호로부터 직접 얻어지고, 이어서 전송되거나 이산되어 저장된다. 이산 신호에 오디오 코딩을 적용하여 보다 효율적인 표현이 얻어지며, 몇몇 경우들에 있어서 예를 들면 5.1용 MPEG-서라운드에서 향상된 효율을 위해 공동으로 상이한 채널들의 정보를 코딩한다. 5.1용 MPEG 서라운드는 다음을 참조한다:
[21] J. Herre, K. Kjorling, J. Breebaart, C. Faller, S. Disch, H. Purnhagen, J. Koppens, J. Hilpert, J. oden, W. Oomen, K. Linzmeier, K.S. Chong: "MPEG Surround - The ISO/MPEG Standard for Efficient and Compatible Multichannel Audio Coding", 122nd AES Convention, Vienna, Austria, 2007, Preprint 7084.
이 기술들의 주요 단점은 사운드 신이, 스피커 신호가 계산된 후, 변경될 수 없다는 것이다.
오브젝트 기반 표현은, 예를 들면 SAOC(Spatial Audio Object Coding)에서 이용된다. SAOC는 다음을 참조한다.
[25] Jeroen Breebaart, Jonas Engdegard, Cornelia Falch, Oliver Hellmuth, Johannes Hi 1 pert, Andreas Hoelzer, Jeroens oppens, Werner Oomen, Barbara Resch, Erik Schuijers, and Leonid Terentiev. Spatial audio object coding (saoc) - the upcoming mpeg standard on parametric object based audio coding. In Audio Engineering Society Convention 124, 5 2008.
오브젝트 기반 표현은 N개의 이산 오디오 오브젝트로 사운드 신을 나타낸다. 이 표현은, 사운드 신이 예를 들면 각 오브젝트의 위치 및 크기를 변경함으로써 조작될 수 있으므로 재생 측에서 높은 유연성을 제공한다. 이러한 표현은, 예를 들면 멀티 트랙 녹음에서 쉽게 이용 가능하지만, 일부 마이크로폰으로 녹음된 복잡한 사운드 신으로부터 얻어지는 것은 매우 곤란하다(예를 들면, [21] 참조). 사실상, 화자(talker)(또는 다른 사운드 방출 오브젝트)는 우선 로컬화되어야 하고, 이어서 인위적 결과를 야기할 수 있는 혼합물로부터 추출되어야 한다.
파라메트릭 표현은 종종 공간 마이크로폰을 이용함으로써 공간 사운드를 기술하는 공간측 정보와 함께 하나 이상의 오디오 다운믹스(downmix) 신호를 판정한다. 일 예는 DirAC(Directional Audio Coding)이며, 다음에서 논의되고 있다.
[22] Ville Pulkki. Spatial sound reproduction with directional audio coding. J. Audio Eng. Soc, 55(6):503-516, June 2007.
용어 "공간 마이크로폰"은 사운드 도착의 방향을 찾을 수 있는 공간 사운드의 취득을 위한 임의의 장치를 지칭한다(예를 들면, 방향성 마이크로폰, 마이크폰 어레이 등의 조합).
용어 "비공간(non-spatial) 마이크로폰"은 단일의 무방향성 또는 방향성 마이크로폰과 같은, 사운드 도착의 방향을 찾도록 적응되지 않은 임의의 장치를 말한다.
또 다른 예가 다음에서 제안되고 있다.
[23] C. Faller. Microphone front-ends for spatial audio coders. In Proc. of the AES 125 International Convention, San Francisco. Oct. 2008.
DirAC에서, 공간 큐 정보는 시간-주파수 도메인에서 계산된 사운드 필드의 확산(diffuseness) 및 사운드의 도착 방향(DOA; direction of arrival)을 포함한다. 사운드 재생에서, 오디오 재생 신호가 파라메트릭 설명에 의거하여 얻어질 수 있다. 이들 기술은, 임의의 스피커 셋업이 채용될 수 있고, 다운믹스 모노 오디오 신호 및 사이드 정보를 포함하여 표현이 특히 유연하고 콤팩트하고, 사운드 신에 대한 용이한 수정, 예를 들면 음향 줌, 방향성 필터링, 신 병합(scene merging)을 가능하게 하므로, 재생 측에서 커다란 유연성을 제공한다.
그러나, 이러한 기술은 녹음되는 공간 이미지가 항상 사용되는 공간 마이크로폰에 관련된다는 점에서 한계가 있다. 따라서, 음향의 관점을 변화시킬 수 없고, 사운드 신 내의 청취의 위치를 변경할 수 없다.
가상 마이크로폰 접근법은 다음에서 제시되어 있다.
[20] Giovanni Del Galdo, Oliver Thiergart, Tobias Weller, and E. A. P. Habcts. Generating virtual microphone signals using geometrical information gathered by distributed arrays. In Third Joint Workshop on Hands- free Speech Communication and Microphone Arrays (IISCMA'11), Edinburgh, United Kingdom, May 2011.
이것은 사실상 환경에서 의지대로(즉, 임의의 위치 및 배향) 가상적으로 위치된 임의의 공간 마이크로폰의 출력 신호를 계산할 수 있게 한다. 가상 마이크로폰(VM) 접근법을 특징으로 하는 유연성은, 후속 처리 단계에서 사운드 신이 의지대로 가상적으로 캡처링되게 할 수 있지만, 사운드 필드 표현이 이용 가능하지 않을 수 있으며, 그것은 효율적으로 사운드 신을 전송 및/또는 저장 및/또는 수정하는 데 사용될 수 있다. 또한, 시간-주파수 빈(time-frequency bin)마다 단 하나의 소스만이 활성화되는 것을 상정하고, 이에 따라 두 개 이상의 소스가 동일한 시간-주파수 빈에서 활성화된 경우 사운드 신을 올바르게 기술할 수 없다. 또한, 가상 마이크로폰(VM)이 수신기 측에서 적용될 경우, 모든 마이크로폰 신호는 채널을 통해 송신될 필요가 있으며, 이는 표현을 비효율적으로 만드는 반면, VM이 송신기 측에서 적용되면, 사운드 신은 더 조작될 수 없고, 모델은 유연성을 잃고 특정 스피커 셋업으로 제한된다. 또한, 파라메트릭 정보에 의거한 사운드 신의 조작을 고려하고 있지 않다.
[24] Emmanuel Gallo and Nicolas Tsingos. Extracting and re-rendering structured auditory scenes from field recordings. In AES 30th International Conference on intelligent Audio Environments, 2007,
사운드 소스 위치 추정은 분산된 마이크로폰의 수단에 의해 측정된 쌍별 시간 차이에 의거한다. 또한, 수신기는 녹음에 의존하고 합성(예를 들면, 스피커 신호의 생성)을 위한 모든 마이크로폰 신호를 필요로 한다.
그 방법이 다음에서 제시되어 있다.
[28] Svein Berge. Device and method for converting spatial audio signal. US patent application, Appl. No. 10/547,151.
이것은 DirAC와 마찬가지로, 파라미터로서 도착 방향을 이용함으로써, 사운드 신의 뷰의 특정 포인트에 표현을 제한한다. 또한, 분석 및 합성은 모두 통신 시스템의 같은 측에서 적용될 필요가 있으므로, 사운드 신 표현을 전송/저장할 가능성을 제시하고 있지 않다.
본 발명의 목적은 기하학적 정보의 추출을 통해 공간 사운드 취득 및 기술을 위한 향상된 개념을 제공하는 것이다. 본 발명의 목적은, 청구항 1에 따른 오디오 데이터 스트림에 의거하여 적어도 하나의 오디오 출력 신호을 생성하는 장치, 청구항 10에 따른 오디오 데이터 스트림을 생성하는 장치, 청구항 19에 따른 시스템, 청구항 20에 따른 오디오 데이터 스트림, 청구항 23에 따른 적어도 하나의 오디오 출력 신호를 생성하는 방법, 청구항 24에 따른 오디오 데이터 스트림을 생성하는 방법 및 청구항 25에 따른 컴퓨터 프로그램에 의해, 해결될 수 있다.
하나 이상의 사운드 소스에 관계되는 오디오 데이터를 포함하는 오디오 데이터 스트림에 의거하여 적어도 하나의 오디오 출력 신호를 생성하는 장치가 제공된다. 이 장치는 오디오 데이터를 포함하는 오디오 데이터 스트림을 수신하는 수신기를 포함한다. 오디오 데이터는 사운드 소스 각각마다 하나 이상의 압력 값을 포함한다. 또한, 오디오 데이터는 사운드 소스 각각마다 사운드 소스 중 하나의 위치를 지시하는 하나 이상의 위치 값을 포함한다. 또한, 오디오 데이터 스트림의 오디오 데이터의 하나 이상의 압력 값 중의 적어도 하나에 의거하고 오디오 데이터 스트림의 오디오 데이터의 하나 이상의 위치 값 중의 적어도 하나에 의거하는 적어도 하나의 오디오 출력 신호를 생성하는 합성 모듈을 포함한다. 일 실시예에서, 하나 이상의 위치 값의 각각은 적어도 두 개의 좌표 값을 포함할 수 있다.
오디오 데이터는 복수의 시간-주파수 빈 중 하나의 시간-주파수 빈에 대해 정의될 수 있다. 다르게는, 오디오 데이터가 상기 복수의 시각 중 하나의 시각에 대해 정의될 수 있다. 일부 실시예들에서, 오디오 데이터의 하나 이상의 압력 값이 복수의 시각 중 하나의 시각에 대해 정의될 수 있으며, 해당 파라미터(예를 들면, 위치 값)가 시간-주파수 도메인에서 정의될 수 있다. 이것은 다른 방식으로 시간-주파수에서 정의된 압력 값을 시간 도메인으로 역변환함으로써 쉽게 얻어질 수 있다. 사운드 소스의 각각마다, 적어도 하나의 압력 값이 오디오 데이터에 포함되어 있으며, 여기에서 적어도 압력 값은 방사된 사운드 웨이브에 관계되는 압력 값이고, 이는 예를 들면 사운드 소스로부터 비롯된다. 압력 값은 오디오 신호의 값, 예를 들면 가상 마이크로폰의 오디오 출력 신호를 생성하는 장치에 의해 생성된 오디오 출력 신호의 압력 값일 수 있고, 여기에서 가상 마이크로폰은 사운드 소스의 위치에 위치된다.
상술한 실시예는, 녹음 위치로부터 진정으로 독립한 사운드 필드 표현의 계산을 가능하게 하고, 재생 시스템에서 용이한 수정 및 향상된 유연성뿐만 아니라, 복잡한 사운드 신의 효율적인 전송 및 저장을 가능하게 한다.
특히 이 기술의 중요한 이점은, 재생 측에서 청취자가 녹음된 사운드 신 내에서 그 위치를 자유롭게 선택하고, 임의의 스피커 셋업을 이용하고, 기하학적 정보, 예를 들면 위치 기반 필터링에 의거한 사운드 신을 추가적으로 조작할 수 있다는 것이다. 즉, 제안된 기술로, 음향 관점은 다양해질 수 있고 사운드 신 내의 청취 위치는 변경될 수 있다.
상술한 실시예에 따르면, 오디오 데이터 스트림 내에 구성된 오디오 데이터는 사운드 소스 각각마다 하나 이상의 압력 값을 포함한다. 따라서, 압력 값은, 사운드 소스 중 하나에 관계되는 오디오 신호, 예를 들면 사운드 소스로부터 비롯된 오디오 신호, 및 녹음 마이크로폰의 위치와 관계되지 않는 오디오 신호를 지시한다. 마찬가지로, 오디오 데이터 스트림에 포함되는 하나 이상의 위치 값은 사운드 소스의 위치를 지시하며 마이크로폰의 위치를 지시하지는 않는다.
이에 의해, 복수의 이점이 실현된다. 예를 들면, 적은 비트를 이용하여 인코딩될 수 있는 오디오의 표현이 달성된다. 사운드 신은 특정 시간 주파수 빈에서 단일 사운드 소스만을 포함할 경우, 단일 사운드 소스에 관계되는 단일 오디오 신호의 압력 값만이 사운드 소스의 위치를 지시하는 위치 값과 함께 인코딩되어야 한다. 이와 반대로, 전통적인 방법은 수신기에서 오디오 신을 재구성하기 위해 복수의 녹음 마이크로폰으로부터 복수의 압력 값을 인코딩해야만 한다. 또한, 상술한 실시예는 후술하는 바와 같이 수신기 측뿐만 아니라 송신기에서 사운드 신의 용이한 수정을 가능하게 한다. 따라서, 신 구성(예를 들면, 사운드 신 내에서 청취 위치를 결정)이 수신기 측에서 수행될 수 있다.
실시예들은, 예를 들면, STFT(Short-Time Fourier Transform)에 의해 제공되는 것과 같은 시간-주파수 표현에서 특정 슬롯에서 활성화되는 등방점형 사운드 소스(IPLS), 점형 사운드 소스(PLS = point-like sound source) 등의 사운드 소스에 의해 복잡한 사운드 신을 모델링하는 개념을 채용한다.
일 실시예에 따르면, 수신기는 또한 오디오 데이터를 포함하는 오디오 데이터 스트림을 수신하도록 적응될 수 있으며, 여기에서 오디오 데이터는, 또한 사운드 소스의 각각마다 하나 이상의 확산 값을 포함한다. 합성 모듈은 하나 이상의 확산 값 중 적어도 하나에 의거하여 적어도 하나의 오디오 출력 신호를 생성하도록 적응될 수 있다.
다른 실시예에서, 수신기는 또한, 오디오 데이터의 하나 이상의 압력 값 중 적어도 하나 이상을 수정하거나, 오디오 데이터의 하나 이상의 위치 값의 적어도 하나를 수정하거나, 또는 오디오 데이터의 확산 값 중 적어도 하나를 수정함으로써, 수신된 오디오 데이터 스트림의 오디오 데이터를 수정하는 수정 모듈을 포함할 수 있다. 합성 모듈은, 수정된 적어도 하나 이상의 압력 값에 의거하거나, 수정된 적어도 하나의 위치 값에 의거하거나, 수정된 적어도 하나의 확산 값에 의거하여 적어도 하나의 오디오 출력 신호를 생성하도록 적응될 수 있다.
추가적인 실시예에서, 사운드 소스의 각각마다의 위치 값의 각각은 적어도 두 개의 좌표 값을 포함할 수 있다. 또한, 수정 모듈은, 사운드 소스가 환경의 소정의 영역 내의 위치에 위치됨을 좌표 값이 지시할 경우, 좌표 값에 적어도 하나의 난수(random number)를 추가함으로써 좌표 값을 수정하는 데 적응될 수 있다.
다른 실시예에 따르면, 사운드 소스의 각각마다의 위치값의 각각은 적어도 두 개의 좌표 값을 포함할 수 있다. 또한, 수정 모듈은, 사운드 소스가 환경의 소정의 영역 내의 위치에 위치됨을 좌표 값이 지시할 경우, 좌표 값의 결정적 함수를 추가함으로써 좌표 값을 수정하는 데 적응될 수 있다.
추가적인 실시예에서, 사운드 소스의 각각마다의 위치값의 각각은 적어도 두 개의 좌표 값을 포함할 수 있다. 또한, 수정 모듈은, 사운드 소스가 환경의 소정의 영역 내의 위치에 위치됨을 좌표 값이 지시할 경우, 좌표 값과 동일한 사운드 소스에 관계되는 오디오 데이터의 하나 이상의 압력 값 중 선택된 압력 값을 수정하는 데 적응될 수 있다.
일 실시예에 따르면, 합성 모듈은 제 1 스테이지 합성 유닛 및 제 2 스테이지 합성 유닛을 포함할 수 있다. 제 1 스테이지 합성 유닛은, 오디오 데이터 스트림의 오디오 데이터의 하나 이상의 압력 값 중의 적어도 하나에 의거하거나, 오디오 데이터 스트림의 오디오 데이터의 하나 이상의 위치 값 중의 적어도 하나에 의거하거나, 오디오 데이터 스트림의 오디오 데이터의 하나 이상의 확산 값 중의 적어도 하나에 의거하여, 확산 사운드 및 도착 정보의 방향을 포함하는 확산 압력 신호, 다이렉트 사운드를 포함하는 다이렉트 압력 신호를 생성하는 데 적응될 수 있다. 사운드 스테이지 합성 유닛은 다이렉트 압력 신호, 확산 압력 신호 및 도착 정보의 방향에 의거하여 적어도 하나의 오디오 출력 신호를 생성하는 데 적응될 수 있다.
일 실시예에 따르면, 하나 이상의 사운드 소스에 관계되는 사운드 소스 데이터를 포함하는 오디오 데이터 스트림을 생성하는 장치가 제공된다. 오디오 데이터 스트림을 생성하는 장치는 적어도 하나의 마이크로폰에 의해 녹음된 적어도 하나의 오디오 신호에 의거하고 적어도 두 개의 공간 마이크로폰에 의해 제공된 오디오 측 정보에 의거하여 사운드 소스 데이터를 판정하는 판정기를 포함한다. 또한, 이 장치는 오디오 데이터 스트림이 사운드 소스 데이터를 포함하도록 오디오 데이터 스트림을 생성하는 데이터 스트림 생성기를 포함한다. 사운드 소스 데이터는 사운드 소스 각각마다 하나 이상의 압력 값을 포함한다. 또한, 사운드 소스 데이터는 사운드 소스 각각마다 사운드 소스 위치를 지시하는 하나 이상의 위치 값을 더 포함한다. 또한, 사운드 소스 데이터는 복수의 시간-주파수 빈 중 하나의 시간-주파수 빈에 대해 정의된다.
추가적인 실시예에서, 판정기는 적어도 하나의 공간 마이크로폰에 의해 확산 정보에 의거하여 사운드 소스 데이터를 판정하도록 적응될 수 있다. 데이터 스트림 생성기는 오디오 데이터 스트림을 생성하도록 적응됨으로써 오디오 데이터 스트림이 사운드 소스 데이터를 포함하도록 할 수 있다. 사운드 소스 데이터는 사운드 소스의 각각마다 하나 이상의 확산 값을 더 포함한다.
다른 실시예에서, 오디오 데이터 스트림을 생성하는 장치는, 오디오 데이터의 압력 값 중의 적어도 하나를 수정하거나, 오디오 데이터의 위치 값 중의 적어도 하나를 수정하거나, 적어도 하나의 사운드 소스에 관계되는 오디오 데이터의 확산 값 중의 적어도 하나를 수정함으로써, 데이터 스트림 생성기에 의해 생성된 오디오 데이터 스트림을 수정하는 수정 모듈을 더 포함할 수 있다.
다른 실시예에 따르면, 사운드 소스마다의 위치 값 각각은 적어도 두 개의 좌표 값(예를 들면, 직교 좌표계, 또는 방위각 및 거리, 극 좌표계에서 2개의 좌표)을 포함할 수 있다. 수정 모듈은, 사운드 소스가 환경의 소정의 영역 내의 위치에 위치됨을 좌표 값이 지시할 경우, 좌표 값에 적어도 하나의 난수를 추가하거나, 좌표 값에 결정적인 함수를 적용함으로써 좌표 값을 수정하는 데 적응될 수 있다.
추가적인 실시예에 따르면, 오디오 데이터 스트림이 제공된다. 오디오 데이터 스트림은 하나 이상의 사운드 소스에 관계되는 오디오 데이터를 포함할 수 있고, 오디오 데이터는 사운드 소스 각각마다 하나 이상의 압력 값을 포함한다. 오디오 데이터는 사운드 소스의 각각마다의 사운드 소스 위치를 지시하는 적어도 하나의 위치 값을 더 포함할 수 있다. 일 실시예에서, 적어도 하나의 위치 값의 각각마다 적어도 두 개의 좌표 값을 포함할 수 있다. 오디오 데이터는 복수의 시간-주파수 빈 중 하나의 시간-주파수 빈에 대해 정의될 수 있다.
다른 실시예에서, 오디오 데이터는 사운드 소스의 각각에 대해 하나 이상의 확산 값을 포함한다.
본 발명의 바람직한 실시예들을 이하에서 설명하도록 하며, 여기서:
도 1은 일 실시예에 따른 하나 이상의 사운드 소스에 관계되는 오디오 데이터를 포함하는 오디오 데이터 스트림에 의거한 적어도 하나의 오디오 출력 신호를 생성하기 위한 장치를 도시하고 있고,
도 2는 일 실시예에 따른 하나 이상의 사운드 소스에 관계되는 사운드 소스 데이터를 포함하는 오디오 데이터 스트림을 생성하기 위한 장치를 도시하고 있고,
도 3a-3c는 다른 실시예에 따른 오디오 데이터 스트림을 도시하고 있고,
도 4는 다른 실시예에 따른 하나 이상의 사운드 소스에 관계되는 사운드 소스 데이터를 포함하는 오디오 데이터 스트림을 생성하기 위한 장치를 도시하고 있고,
도 5는 두 개의 사운드 소스 및 두 개의 균일한 선형 마이크로폰 어레이로 구성된 사운드 신을 도시하고 있고,
도 6a는 일 실시예에 따른 오디오 데이터 스트림에 의거한 적어도 하나의 오디오 출력 신호를 생성하기 위한 장치(600)를 도시하고 있고,
도 6b는 일 실시예에 따른 하나 이상의 사운드 소스에 관계되는 사운드 소스 데이터를 포함하는 오디오 데이터 스트림을 생성하기 위한 장치(660)를 도시하고 있고,
도 7은 일 실시예에 따른 수정 모듈을 도시하고 있고,
도 8은 다른 실시예에 따른 수정 모듈을 도시하고 있고,
도 9는 일 실시예에 따른 송신기/분석 유닛 및 수신기/합성 유닛을 도시하고 있고,
도 10a는 일 실시예에 따른 합성 모듈을 도시하고 있고,
도 10b는 일 실시예에 따른 제 1 합성 스테이지 유닛을 도시하고 있고,
도 10c는 일 실시예에 따른 제 2 합성 스테이지 유닛을 도시하고 있고,
도 11은 다른 실시예에 따른 합성 모듈을 도시하고 있고,
도 12는 일 실시예에 따른 가상 마이크로폰의 오디오 출력 신호를 생성하기 위한 장치를 도시하고 있고,
도 13은 일 실시예에 따른 가상 마이크로폰의 오디오 출력 신호를 생성하기 위한 장치 및 방법의 입력 및 출력을 도시하고 있고,
도 14는 사운드 이벤트의 위치 정보와 추정기 및 정보 계산 모듈을 포함하는 실시예에 따른 가상 마이크로폰의 오디오 출력 신호를 생성하기 위한 장치의 기본 구성을 도시하고 있고,
도 15는 실제 공간 마이크로폰이 3개의 마이크로폰 각각의 균일 선형 어레이로서 도시하고 하고,
도 16은 3D 공간에서 도착 방향을 추정하는 3D로 두 개의 공간 마이크로폰을 도시하고 있고,
도 17은 현재의 시간-주파수 빈(k, n)의 등방점형 사운드 소스가 위치 PIPLS(k, n)에 위치된 기하학적 구조를 도시하고 있고,
도 18은 일 실시예에 따른 정보 계산 모듈을 도시하고 있고,
도 19는 다른 실시예에 따른 정보 계산 모듈을 도시하고 있고,
도 20은 두 개의 실제 공간 마이크로폰, 로컬 사운드 이벤트 및 가상 공간 마이크로폰의 위치를 도시하고 있고,
도 21은 일 실시예에 따른 가상 마이크로폰에 대한 도착의 방향을 얻는 방법을 도시하고 있고,
도 22는 일 실시예에 따른 가상 마이크로폰의 관점으로부터 사운드의 DOA를 얻는 가능한 방법을 도시하고 있고,
도 23은 일 실시예에 따른 확산 계산 유닛을 포함하는 정보 계산 블록을 도시하고 있고,
도 24는 일 실시예에 따른 확산 계산 유닛을 도시하고 있고,
도 25는 사운드 이벤트의 위치 추정이 가능하지 않은 시나리오를 도시하고 있고,
도 26은 일 실시예에 따른 가상 마이크로폰 데이터 스트림을 생성하는 장치를 도시하고 있고,
도 27은 다른 실시예에 따른 오디오 데이터 스트림에 의거한 적어도 하나의 오디오 출력 신호를 생성하기 위한 장치를 도시하고 있고,
도 28a-도 28c는 두 개의 마이크로폰 어레이가 다이렉트 사운드, 벽에 의해 반사된 사운드 및 확산 사운드를 받는 시나리오를 도시하고 있다.
본 발명의 실시예들에 대한 상세한 설명을 제공하기 전에, 본 발명의 개념에 대한 배경 정보를 제공하기 위해, 가상 마이크로폰의 오디오 출력 신호를 생성하기 위한 장치를 설명한다.
도 12는 일 환경에서 구성 가능한 가상 위치(posVmic)에서 마이크로폰의 녹음을 시뮬레이션하기 위한 오디오 출력 신호를 생성하는 장치를 나타낸다. 이 장치는 사운드 이벤트 위치 추정기(110) 및 정보 계산 모듈(120)을 포함한다. 사운드 이벤트 위치 추정기(110)는 제 1 실제 공간 마이크로폰으로부터 제 1 방향 정보(di1) 및 제 2 실제 공간 마이크로폰으로부터 제 2 방향 정보(di2)를 받는다. 사운드 이벤트 위치 추정기(110)는, 상기 환경에서 사운드 웨이브를 방사하는 사운드 소스의 위치를 지시하는 사운드 소스 위치(ssp)를 추정하는 데 적응되며, 여기에서 상기 환경에서 제 1 실제 마이크로폰 위치(pos1mic)에 위치되는 제 1 실제 공간 마이크로폰에 의해 제공되는 제 1 방향 정보(di1)에 의거함과 함께, 상기 환경에서 제 2 실제 마이크로폰 위치에 위치되는 제 2 실제 공간 마이크로폰에 의해 제공되는 제 2 방향 정보(di2)에 의거하여 사운드 이벤트 위치 추정기(110)는 사운드 소스 위치(ssp)를 추정하는 데 적응된다. 정보 계산 모듈(120)은 제 1 실제 공간 마이크로폰에 의해 기록되는 제 1 녹음된 오디오 입력 신호(is1)에 의거하고, 제 1 실제 마이크로폰 위치(pos1mic)에 의거하고, 가상 마이크로폰의 가상 위치(posVmic)에 의거하는 오디오 출력 신호를 생성하는 데 적응된다. 정보 계산 모듈(120)은, 제 1 녹음된 오디오 입력 신호(is1)를 수정하고, 제 1 실제 공간 마이크로폰에서의 사운드 소스에 의해 방사된 사운드 웨이브의 도착과 가상 마이크로폰에서 사운드 웨이브의 도착 사이의 제 1 딜레이 또는 진폭 감쇠를 보상하고, 오디오 출력 신호를 생성하기 위해 제 1 녹음된 오디오 입력 신호(is1)의 진폭 값, 크기 값, 또는 위상 값을 조정함으로써 제 1 모듈 오디오 신호를 생성하는 데 적응되는 전파 보상기를 포함한다.
도 13은 일 실시예에 따른 장치 및 방법의 입력 및 출력을 나타낸다. 두 개 이상의 실제 공간 마이크로폰(111, 112,..., 11N)으로부터의 정보는 장치에 공급되며/상기 방법에 의해 처리된다. 이 정보는 실제 공간의 마이크로폰으로부터 방향 정보, 예를 들면 DOA(direction of arrival) 추정뿐만 아니라 실제 공간 마이크로폰에 의해 선택된 오디오 신호를 포함한다. 도착 추정의 방향 등의 방향 정보 및 오디오 신호는 시간-주파수 도메인에서 표현될 수 있다. 예를 들면, 2D 기하학적 재구성을 원하고 전통적인 STFT(short time Fourier transformation) 도메인이 신호의 표현을 위해 선택될 경우, DOA는 k 및 n에 의존한 방위각, 즉 주파수 및 시간 인덱스로서 표현될 수 있다.
일 실시예에서, 가상 마이크로폰의 위치를 기술하는 것뿐만 아니라 공간에의 사운드 이벤트 로컬화는, 공통 좌표 시스템에서 실제 및 가상 공간 마이크로폰의 위치 및 배향에 의거하여 행해질 수 있다. 이 정보는 도 13에서 입력(121...12N) 및 입력(104)에 의해 표현될 수 있다. 입력(104)은 후술하는 가상 마이크로폰의 특징, 예를 들면 그 위치 및 선택 패턴을 추가적으로 특정할 수 있다. 가상 공간 마이크로폰이 다수의 가상 센서를 포함할 경우, 그들의 위치 및 대응하는 다른 선택 패턴이 고려될 수 있다.
원할 경우 장치 또는 대응 방법의 출력은, 104에 의해 지정된 정의 및 위치의 공간 마이크로폰에 의해 선택될 수 있는 하나 이상의 사운드 신호(105)일 수 있다. 또한, 장치(또는 오히려 방법)는 가상 공간 마이크로폰을 채용함으로써 추정될 수 있는 대응하는 공간 측 정보(106)를 출력으로서 제공할 수 있다.
도 14는 2개의 주요 처리 유닛, 즉 사운드 이벤트 위치 추정기(201) 및 정보 계산 모듈(202)을 포함하는 실시예에 따른 장치를 나타낸다. 사운드 이벤트 위치 추정기(201)는 입력(111 ... 11N)에서 포함된 DOA에 기초하고 실제 공간 마이크로폰의 위치 및 배향의 지식에 의거하여 기하학적 재구성을 수행할 수 있으며, 여기에서 DOA가 계산되었다. 사운드 이벤트 위치 추정기(205)의 출력은 시간 및 주파수 빈마다 사운드 이벤트가 일어나는 사운드 소스의 위치 추정(2D 또는 3D에서)을 포함한다. 제 2 처리 블록(202)은 정보 계산 모듈이다. 도 14의 실시예에 따르면, 제 2 처리 블록(202)은 가상 마이크로폰 신호 및 공간 측 정보를 계산한다. 따라서, 가상 마이크로폰 신호 및 사이드 정보 계산 블록(202)이라고도 한다. 가상 마이크로폰 신호 및 사이드 정보 계산 블록(202)은 사운드 이벤트의 위치(205)를 이용하여, 111...11N에 포함된 오디오 신호를 처리하여 가상 마이크로폰 오디오 신호(105)를 출력한다. 블록(202)은, 필요할 경우, 가상 공간 마이크로폰에 대응하는 공간 측 정보(106)를 계산할 수도 있다. 다음의 실시예에서는 블록(201, 202)이 어떻게 작동할 수 있는 가능성을 나타낸다.
이하에서는, 일 실시예에 따른 사운드 이벤트 위치 추정기의 위치 추정을 보다 상세하게 기술한다.
상기 문제점(2D 또는 3D)의 차원수 및 공간 마이크로폰의 개수에 따른, 위치 추정에 대한 몇 가지 해결책들이 가능하다.
2D로 2개의 공간 마이크로폰들이 존재하는 경우, (가장 단순하게 가능한 케이스) 단순 삼각측량법(triangulation)이 가능하다. 도 15는 실제 공간 마이크로폰들이 각각 균일한 선형 어레이(Uniform Linear Array: ULA)의 3 마이크로폰으로 도시되어 있는 예시적 시나리오를 나타낸다. 방위각 a1(k, n) 및 a2(k, n)으로 표현되어 있는, DOA는 시간-주파수 빈(k, n)에 관해 계산된다. 이것은 적절한 DOA 추정기, 예컨대 ESPRIT를 사용하여 달성된다.
[13] R. Roy, A. Paulraj and T. Kailath, "Direction-of-arrival estimation by subspace rotation methods - ESPRIT," in IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), Stanford, CA, USA, April 1986,
또는 (root)MUSIC, 참조
[14] R. Schmidt, "Multiple emitter location and signal parameter estimation," IEEE Transactions on Antennas and Propagation, vol. 34, no. 3, pp. 276-280, 1986 to the pressure signals transformed into the time-freqeuncy domain.
도 15에는, 2개의 실제 공간 마이크로폰들, 여기서는, 2개의 실제 공간 마이크로폰 어레이들(410, 420)이 도시되어 있다. 2개의 추정된 DOA들 a1(k, n) 및 a2(k, n)는 2개의 라인으로 표현되어 있으며, 제 1 라인(430)은 DOA a1(k, n)을 나타내고, 제 2 라인(440)은 DOA a2(k, n)를 나타낸다. 삼각측량법은 각 배열의 위치와 방향을 아는 단순한 기하학적 고려들을 통해 가능하다.
삼각측량법은 2개의 라인들(430, 440)이 정확히 평행인 경우 실패한다. 그러나, 실제 적용에서, 이것은 매우 가능성이 적다. 그러나, 모든 삼각측량법 결과들이 고려된 공간의 사운드 이벤트에 대한 물리적인 또는 실현 가능한 위치에 대응하는 것은 아니다. 예를 들어, 사운드 이벤트의 추정된 위치는 훨씬 더 멀리 떨어져 있거나 또는 가정된 공간의 바깥에 존재할 수 있으며, 이것은 아마도 사용된 모델로 물리적으로 해석될 수 있는 임의-사운드 이벤트에 DOA들이 대응하지 않는다는 것을 나타낸다. 이러한 결과들은 센서 노이즈 또는 너무 강한 실내 잔향(room reverberation)에 의해 기인될 수 있다. 그러므로, 일 실시예에 따라, 이러한 바람직하지 않은 결과들이 표시됨으로써 정보 계산 모듈(202)이 그들을 적절히 처리할 수 있도록 한다.
도 16은 일 시나리오를 도시하고 있으며, 여기서 사운드 이벤트의 위치가 3D 공간에서 추정된다. 적절한 공간 마이크로폰들이 사용되며, 예를 들어, 평탄형 또는 3D 마이크로폰 어레이가 사용된다. 도 16에는, 제 1 공간 마이크로폰(510)(예컨대, 제 1 3D 마이크로폰 어레이), 및 제 2 공간 마이크로폰(520)(예컨대, 제 1 3D 마이크로폰 어레이)이 도시되어 있다. 3D 공간에서 DOA는 예를 들어, 방위각 및 고도로 표현될 수 있다. 단위 벡터들(530, 540)은 DOA들을 표현하기 위해 사용될 수 있다. 2개의 라인들(550, 560)은 DOA들을 따라 프로젝션된다. 3D에서, 매우 믿을 만한 추정치들에 불구하고, DOA들을 따라 프로젝션된 2개의 라인들(550, 560)은 교차되지 않을 수도 있다. 그러나, 삼각측량법은 예를 들어, 2개의 라인들을 연결하는 가장 작은 세그먼트의 중간 포인트를 선택함으로써 여전히 수행될 수 있다.
2D의 경우와 마찬가지로, 삼각측량법은 예컨대 도 14의 정보 계산 모듈(202)로 나중에 표시될 수도 있는, 방향들의 소정 조합에 실패하거나 실행 불가능한 결과들을 산출할 수 있다.
2개보다 많은 공간 마이크로폰들이 존재하는 경우, 몇 가지 해결책들이 가능하다. 예를 들어, 전술한 삼각측량법은 모든 쌍의 실제 공간 마이크로폰들(N = 3인 경우, 1과 2, 1과 3, 및 2와 3)마다 수행될 수 있다. 결과적으로 생성된 위치들은 그 후에 (x 및 y를 따라서, 그리고, 3D가 고려되는 경우에는, z를 따라서) 평균화될 수 있다.
다르게는, 더 복잡한 컨셉들이 사용될 수 있다. 예를 들어, 다음에 기술된 바와 같은 확률론적 방식(probabilistic approaches)이 적용될 수 있다.
[15] J. Michael Steele, "Optimal Triangulation of Random Samples in the Plane", The Annals of Probability, Vol. 10, No.3 (Aug., 1982), pp. 548-553.
일 실시예에 따라, 사운드 필드는 시간-주파수 도메인으로 분석될 수 있으며, 예를 들어, STFT(short-time Fourier transform)를 통해 얻어질 수 있으며, 여기서 k 와 n 은 각각 주파수 인덱스 k 와 시간 인덱스 n 을 나타낸다. 소정 k 및 n에 대한 임의의 위치 pv 에서의 복합 압력 Pv(k, n)는 예를 들어, 다음의 공식을 사용하여, 협대역 등방점형 소스에 의해 방사된 단일의 구면파로서 모델링된다.
Figure 112013059901080-pct00001
여기서, PIPLS(k, n)는 위치 pIPLS(k, n)에서 IPLS에 의해 방사된 신호이다. 복합 인자 γ(k, pIPLS, pv)는 pIPLS(k, n)로부터 pv로의 전파를 나타내며, 예컨대, 그것은 적절한 위상 및 크기 수정들을 도입한다. 여기서는, 각각의 시간-주파수 빈에 하나의 IPLS만이 활성이라는 가정이 적용될 수 있다. 그럼에도 불구하고, 상이한 위치들에 존재하는 복수의 협대역 IPLS들이 또한 단일의 시간 인스턴스에서 활성일 수도 있다.
각각의 IPLS는 다이렉트 사운드를 모델링하거나 확실한 실내 반향을 모델링한다. 위치 pIPLS(k, n)는 실내의 안쪽에 위치된 실제 사운드 소스, 또는 실내 바깥쪽에 위치된 미러 이미지 사운드 소스에 완전히 대응될 수 있다. 그러므로, 위치 pIPLS(k, n)는 사운드 이벤트의 위치를 또한 표시할 수 있다.
용어 "실제 사운드 소스들"은 녹음 환경에 물리적으로 존재하는 실제 사운드 소스들, 예컨대 화자 또는 악기들을 나타내는 것임에 유의한다. 반면에, "사운드 소스들" 또는 "사운드 이벤트들" 또는 "IPLS"에 있어서는, 소정 시간 인스턴트들 또는 소정 시간-주파수 빈들에서 활성인 효과적인 사운드 소스들을 지칭하며, 여기서 사운드 소스들은 예를 들어, 실제 사운드 소스들 또는 미러 이미지 소스들을 나타낼 수 있다.
도 28a-28b는 사운드 소스들을 로컬라이징하는 마이크로폰 어레이들을 도시하고 있다. 로컬라이징된 사운드 소스들은 그 특성에 따라 상이한 물리적 해석을 가질 수 있다. 마이크로폰 어레이들이 다이렉트 사운드를 수신하는 경우, 그들은 정확한 사운드 소스(예를 들면, 화자들)의 위치를 로컬라이징할 수 있다. 마이크로폰 어레이들이 반사물을 수신하는 경우, 그들은 미러 이미지 소스의 위치를 로컬라이징할 수 있다. 미러 이미지들은 또한 소스들이다.
도 28a는 2개의 마이크로폰 어레이들(151 및 152)이 실제 사운드 소스(물리적으로 존재하는 사운드 소스)(153)로부터 다이렉트 사운드를 수신하는 시나리오를 도시하고 있다.
도 28b는 2개의 마이크로폰 어레이들(161, 162)이 벽에 의해 반사된 반사 사운드를 수신하는 시나리오를 도시하고 있다. 반사로 인해, 마이크로폰 어레이들(161, 162)은 그 위치를 로컬라이징할 수 있으며, 여기서 상기 사운드는 스피커(163)의 위치와 상이한 미러 이미지 소스(165)의 위치에서 나오는 것으로 보이게 된다.
도 28a의 실제 사운드 소스(153) 및 미러 이미지 소스(165)는 사운드 소스들이다.
도 28c는 2개의 마이크로폰 어레이들(171, 172)이 확산 사운드를 수신하고 사운드 소스를 로컬라이징할 수 없는 시나리오를 도시하고 있다.
소스 신호들이 W-디스조인트 직교성(W-disjoint orthogonality: WDO) 조건을 만족시킨다는 점을 고려하면, 이 단파장 모델은 약한 반향 환경들에 대해서만 정밀하며, 즉, 시간-주파수 오버랩이 충분히 작다. 이것은 일반적으로 음성 신호들에 대해서 참이며, 예를 들어, 다음을 참조한다,
[12] S. Rickard and Z. Yilmaz, "On the approximate W-disjoint orthogonality of speech," in Acoustics, Speech and Signal Processing, 2002. ICASSP 2002. IEEE International Conference on, April 2002, vol. 1.
그러나, 상기 모델은 다른 환경들에 대해서도 양호한 추정을 제공하며, 따라서 그 환경들에 대해 적용 가능하다.
이하에서는, 일 실시예에 따른 위치들 pIPLS(k, n)의 추정이 설명된다. 소정 시간-주파수 빈에서 활성 IPLS의 위치 pIPLS(k, n), 및 이에 따른 시간-주파수 빈에서의 사운드 이벤트의 추정은, 적어도 2개의 상이한 관측 포인트에서 측정된 사운드의 도착 방향(DOA)에 기초하는 삼각측량법을 통해 추정된다.
도 17은 현재의 시간-주파수 슬롯(k, n)의 IPLS가 미지의 위치 pIPLS(k, n)에 있는 기하학적 구조를 도시하고 있다. 요구되는 DOA 정보를 판정하기 위해, 2개의 실제 공간 마이크로폰들, 여기서는, 2개의 마이크로폰 어레이들이 공지의 기하학적 구조, 위치 및 배향을 가지고서 사용되고 있으며, 이것은 위치들(610 및 620)에 각각 배치되어 있다. 벡터들 p1 및 p2 는 각각 위치들(610, 620)을 가리킨다. 어레이 배향들은 단위 벡터들 c1 및 c2에 의해 규정된다. 상기 사운드의 DOA는 예를 들어 DirAC 분석([2], [3] 참조)에 의해 제공되는, DOA 추정 알고리즘을 사용하여 각 (k, n)에 대한 위치들(610 및 620)에서 판정된다. 이에 의해, 마이크로폰 어레이들의 관점에 관한 제 1 관점 단위 벡터 e1 POV(k, n) 및 제 2 관점 단위 벡터 e2 POV(k, n)가 (도 17에는 모두 미도시) DirAC 분석의 출력으로서 제공될 수 있다. 예를 들어, 2D에서 작동하는 경우, 제 1 관점 단위 벡터는 다음과 같은 결과가 된다:
Figure 112013059901080-pct00002
여기서, φ1(k, n)은 도 17에 도시된 제 1 마이크로폰 어레이에서 추정된 DOA의 방위각을 나타낸다. 원점에서 전역 좌표계에 대한 대응 DOA 단위 벡터들 e1(k, n) 및 e2(k, n)는 다음의 공식을 적용함으로써 계산될 수 있다:
Figure 112013059901080-pct00003
여기서, R 은 좌표 변환 행렬이며, 예를 들어, 2D 및
Figure 112013059901080-pct00004
에서 작동하는 경우,
Figure 112013059901080-pct00005
이다.
삼각측량법을 수행함에 있어서, 방향 벡터들 d1(k, n) 및 d2(k, n)은 다음과 같이 계산될 수 있다:
Figure 112013059901080-pct00006
여기서,
Figure 112013059901080-pct00007
Figure 112013059901080-pct00008
는 IPLS와 2개의 마이크로폰 어레이들 사이의 알려지지 않은 거리들이다. 다음의 등식
Figure 112013059901080-pct00009
은 d1(k, n)을 위한 해가 구해질 수 있다. 마지막으로, IPLS의 위치 pIPLS(k, n)는 다음에 의해 주어진다.
Figure 112013059901080-pct00010
다른 실시예에서, 등식 (6)은 d2(k, n)을 위해 해가 구해질 수 있으며, pIPLS(k, n)은 d2(k, n)을 사용하여 유사하게 계산된다.
등식 (6)은 e1(k, n)과 e2(k, n)가 평행하지 않다면, 2D로 작동할 시에 항상 해(solution)를 제공한다. 그러나, 2개보다 많은 마이크로폰 어레이들을 사용하는 경우 또는 3D로 작동할 경우에 있어서, 방향 벡터들 d가 교차하지 않을 시에는 해가 획득될 수 없다. 일 실시예에 따르면, 이 경우에, 모든 방향 벡터들 d에 가장 근접한 포인트가 계산되며, 그 결과값은 IPLS의 위치로서 사용될 수 있다.
일 실시예에서, 모든 관측 포인트들(p1, p2, ...)은 IPLS에 의해 방사된 사운드는 동일한 시간 블록 n으로 들어가도록 위치되어야 한다. 이 요구조건은 2 관측 포인트들 사이의 거리 Δ 가 다음보다 작아지는 경우에 간단하게 충족될 수 있다
Figure 112013059901080-pct00011
여기서, nFFT는 STFT 윈도우 길이이고, 0 < R < 1 은 연속적인 시간 프레임들 사이의 오버랩을 명시하는 것이며, fs는 샘플링 주파수이다. 예를 들어, 50 % 오버랩(R = 0.5)을 가진 48 kHz에서의 1024-포인트 STFT에 있어서, 상기 요구조건을 충족하기 위한 어레이들 사이의 최대 간격은 Δ = 3.65 m 이다.
이하에서는, 일 실시예에 따른, 정보 계산 모듈(202), 예컨대 가상 마이크로폰 신호 및 사이드 정보 계산 모듈을 보다 상세히 설명하도록 한다.
도 18은 일 실시예에 따른 정보 계산 모듈(202)의 개략도를 도시하고 있다. 정보 계산 유닛은 전파 보상기(500), 결합기(510) 및 스펙트럼 가중 유닛(520)을 포함한다. 정보 계산 모듈(202)은 사운드 이벤트 위치 추정기에 의해 추정된 사운드 소스 위치 추정들(ssp), 하나 이상의 실제 공간 마이크로폰에 의해 녹음된 하나 이상의 오디오 입력 신호들, 하나 이상의 실제 공간 마이크로폰들의 위치들(posRealMic) 및 가상 마이크로폰의 가상 위치(posVmic)를 수신한다. 그것은 가상 마이크로폰의 오디오 신호를 나타내는 오디오 출력 신호(os)를 출력한다.
도 19는 다른 실시예에 따른 정보 계산 모듈을 도시하고 있다. 도 19의 정보 계산 모듈은 전파 보상기(500), 결합기(510) 및 스펙트럼 가중 유닛(520)을 포함한다. 전파 보상기(500)는 전파 파라미터 계산 모듈(501) 및 전파 보상 모듈(504)을 포함한다. 결합기(510)는 조합 인자 계산 모듈(502) 및 조합 모듈(505)을 포함한다. 스펙트럼 가중 유닛(520)은 스펙트럼 가중 계산 유닛(503), 스펙트럼 가중 응용 모듈(506) 및 공간 사이드 정보 계산 모듈(507)을 포함한다.
가상 마이크로폰의 오디오 신호를 계산하기 위해, 실제 공간 마이크로폰들(121 ... 12N)의 기하학적 정보, 예컨대 위치 및 배향, 가상 공간 마이크로폰(104)의 위치, 배향 및 특성, 및 사운드 이벤트들의 위치 추정들(205)이 정보 계산 모듈(202) 내로, 특히, 전파 보상기(500)의 전파 파라미터 계산 모듈(501) 내로, 결합기(510)의 조합 인자 계산 모듈(502) 내로 및 스펙트럼 가중 유닛(520)의 스펙트럼 가중 계산 유닛(503) 내로 공급된다. 전파 파라미터 계산 모듈(501), 조합 인자 계산 모듈(502) 및 스펙트럼 가중 계산 유닛(503)은 전파 보상 모듈(504), 조합 모듈(505) 및 스펙트럼 가중 응용 모듈(506)에서의 오디오 신호들(111 ... 11N)의 수정에 사용되는 파라미터들을 계산한다.
정보 계산 모듈(202)에서, 오디오 신호들(111...11N)은 사운드 이벤트 위치들과 실제 공간 마이크로폰들 사이의 상이한 전파 길이에 의해 주어진 영향을 보상하기 위해 먼저 수정될 수 있다. 그 후에, 상기 신호들은 예를 들어 신호대잡음비(SNR)를 개선하기 위해 조합될 수 있다. 마지막으로, 최종 신호는 그 후에 가상 마이크로폰의 방향적 픽업 패턴, 및 거리 종속적 게인 기능을 고려하여 스펙트럼적으로 가중처리될 수 있다. 이들 3 스텝들을 이하에서 더 상세히 논의하도록 한다.
이제, 전파 보상을 더 상세히 설명한다. 도 20의 상부 부분에는, 2개의 실제 공간 마이크로폰들(제 1 마이크로폰 어레이(910) 및 제 2 마이크로폰 어레이(920)), 시간-주파수 빈(k, n)을 위해 로컬라이징된 사운드 이벤트의 위치(930), 가상 공간 마이크로폰의 위치(940)가 도시되어 있다.
도 20의 하부 부분은 시간 축을 도시하고 있다. 사운드 이벤트는 시간 tO 에서 방사되며, 그 후에 실제 및 가상 공간 마이크로폰들로 전파하는 것으로 가정된다. 거리에 따른 도착 시간 딜레이 및 진폭 변경으로, 전파 길이가 더 길어지고, 진폭이 더 약해지며 도착 시간 딜레이가 더 커지게 된다.
2개의 실제 어레이들에서의 신호들은 그들 사이의 상대적 딜레이 Dt12 가 작은 경우에만 비교가능하다. 그렇지 않은 경우, 상대적 딜레이 Dt12 를 보상하기 위하여 그 2개의 신호들 중의 하나가 일시적으로 재정렬될 필요가 있으며, 가능하게는 상이한 감쇠들(decays)을 보상하기 위해 스케일링될 필요가 있다.
가상 마이크로폰에서의 도착과 실제 마이크로폰 어레이들(실제 공간 마이크로폰들 중의 하나)에서의 도착 사이의 딜레이를 보상하는 것은 사운드 이벤트의 로컬리제이션(localization)과 무관하게 딜레이를 변경하며, 이것은 다수의 애플리케이션들이 더 이상 필요치 않게 만든다.
도 19로 돌아가면, 전파 파라미터 계산 모듈(501)은 각각의 실제 공간 마이크로폰 및 각각의 사운드 이벤트가 보정되도록 하기 위해 딜레이들을 계산하도록 적응된다. 만약 원한다면, 그것은 상이한 진폭 감쇠들을 보상하도록 고려된 이득 계수들(gain factors)도 또한 계산한다.
전파 보상 모듈(504)은 이 정보를 사용하여 그에 맞게 오디오 신호들을 수정하도록 구성된다. 신호들이 적은 양의 시간만큼 시프트되는 경우(필터 뱅크의 시간 윈도우에 비해)에는, 간단한 위상 회전으로 충분하다. 딜레이들이 더 큰 경우에는, 보다 복잡한 구현들이 필요하다.
전파 보상 모듈(504)의 출력은 본래의 시간-주파수 도메인에 표현되는 수정된 오디오 신호들이다.
이하에서는, 특히 제 1 실제 공간 마이크로폰의 위치(610) 및 제 2 실제 공간 마이크로폰의 위치(620)를 도시하고 있는 도 17을 참조하여, 일 실시예에 따른 가상 마이크로폰에 관한 전파 보상의 특정 추정을 설명하도록 한다.
이하 설명되는 실시예들에서는, 적어도 제 1 녹음된 오디오 입력 신호, 예컨대 실제 공간 마이크로폰들(예를 들면, 마이크로폰 어레이들)의 적어도 하나의 압력 신호가 사용 가능한 것으로 가정된다(예를 들면, 제 1 실제 공간 마이크로폰의 압력 신호). 고려된 마이크로폰을 기준 마이크로폰으로 지칭하고, 그 위치를 기준 위치 pref 로 지칭하며, 그 압력 신호를 기준 압력 신호 Pref(k, n)로 지칭하도록 한다. 그러나, 전파 보상은 오직 하나의 압력 신호로만 수행될 수 있는 것은 아니며, 복수의 또는 모든 실제 공간 마이크로폰들의 압력 신호들에 대하여도 수행될 수 있다.
IPLS에 의해 방사된 압력 신호 PIPLS(k, n)와 pref에 위치된 기준 마이크로폰의 기준 압력 신호 Pref(k, n) 사이의 관계는 다음의 공식 (9)로 표현될 수 있다:
Figure 112013059901080-pct00012
일반적으로, 복합 인자 γ(k, pa, pb)는 pa에 있는 원점에서 pb로의 구면파의 전파에 의해 도입된 진폭 감쇠 및 위상 회전을 나타낸다. 그러나, 실제 테스트들에서는 γ의 진폭 감쇠만을 고려하는 것이 위상 회전도 고려하는 것에 비해 상당히 더 적은 아티팩트들을 가진 실현가능성 있는 인상의 가상 마이크로폰 신호를 초래하는 것으로 나타났다.
공간 내의 소정 포인트에서 측정될 수 있는 사운드 에너지는 사운드 소스로부터(도 6에서는 사운드 소스의 위치 pIPLS 로부터) 거리 r에 강하게 의존한다. 많은 상황들에서, 이 의존성은 잘 알려진 물리적 원리들(예를 들면, 포인트 소스의 원거리 음장(far-field)에서 사운드 압력의 1/r 감쇠)을 이용하여 충분한 정확도로 모델링될 수 있다. 기준 마이크로폰의 거리, 예를 들어, 사운드 소스로부터 제 1 실제 마이크로폰의 거리가 알려진 경우, 및 또한 사운드 소스로부터 가상 마이크로폰의 거리가 알려진 경우에는, 가상 마이크로폰의 위치에 있는 사운드 에너지가 기준 마이크로폰, 예컨대, 제 1 실제 공간 마이크로폰의 에너지와 신호로부터 추정될 수 있다. 이것은, 적절한 이득들을 기준 압력 신호에 적용하는 것에 의해 가상 마이크로폰의 출력 신호가 획득될 수 있다는 것을 의미한다.
제 1 실제 공간 마이크로폰이 기준 마이크로폰인 것으로 가정하면, pref = p1 이다. 도 17에서는, 가상 마이크로폰이 pv에 위치해 있다. 도 17의 기하학적 구조가 상세히 알려져 있기 때문에, 기준 마이크로폰(도 17: 제 1 실제 공간 마이크로폰)과 IPLS 사이의 거리
Figure 112013059901080-pct00013
가 용이하게 판정될 수 있고, 또한 가상 마이크로폰과 IPLS 사이의 거리
Figure 112013059901080-pct00014
도 용이하게 판정될 수 있다. 즉,
Figure 112013059901080-pct00015
가상 마이크로폰의 위치에서의 사운드 압력 Pv(k, n)은 공식 (1)과 (9)에 의해 계산되며, 다음을 발생시킨다.
Figure 112013059901080-pct00016
전술한 바와 같이, 일부 실시예들에서는, 인자 γ가 전파로 인한 진폭 감쇠만을 고려할 수 있다. 예를 들어 사운드 압력이 1/r에 따라 감소하는 것으로 가정하는 경우, 다음과 같다
Figure 112013059901080-pct00017
예를 들어, 다이렉트 사운드가 존재할 시에만 공식 (1)의 모델이 유지될 경우에는, 공식 (12)가 정확하게 크기 정보를 재구성할 수 있다. 그러나, 순수 확산 사운드 필드들의 경우, 예컨대, 모델 가정들이 충족되지 않는 경우에, 상기 제안된 방법은 센서 어레이들의 위치들로부터 멀리 가상 마이크로폰을 이동할 시에 신호의 묵시적 탈반향을 가져온다. 실제로, 위에서 논의된 바와 같이, 확산 사운드 필드에서는, 대부분의 IPLS가 2개의 센서 어레이들 근방에 로컬라이징될 것으로 예상된다. 따라서, 이들 위치들로부터 멀리 가상 마이크로폰을 이동시킬 경우에는, 도 17에서의 거리 s = ||s|| 를 증가시킬 가능성이 있다. 그러므로, 공식 (11)에 따른 가중치가 적용되는 경우에는, 기준 압력의 크기가 감소된다. 이와 상응되게, 실제 사운드 소스에 근접하게 가상 마이크로폰을 이동시킬 경우에는, 다이렉트 사운드에 대응하는 시간-주파수 빈들이 증폭됨으로써 전체 오디오 신호가 더 적은 확산으로 여겨지게 된다. 공식 (12)의 규칙을 조정함으로써, 다이렉트 사운드 증폭 및 확산 사운드 억제를 의지대로 제어할 수 있게 된다.
제 1 실제 공간 마이크로폰의 녹음된 오디오 입력 신호(예컨대, 압력 신호)에 대한 전파 보상을 수행함으로써, 제 1 수정된 오디오 신호가 획득된다.
실시예들에서, 제 2 수정된 오디오 신호는 제 2 실제 공간 마이크로폰의 녹음된 제 2 오디오 입력 신호(제 2 압력 신호)에 대한 전파 보상을 수행함으로써 획득될 수 있다.
다른 실시예들에서는, 추가적인 실제 공간 마이크로폰들의 녹음된 추가적인 오디오 입력 신호들(추가적인 압력 신호들)에 대한 전파 보상을 수행함으로써 추가적인 오디오 신호들이 획득될 수 있다.
이제, 일 실시예에 따른 도 19의 블록들(502 및 505)의 조합을 보다 상세히 설명하도록 한다. 복수의 상이한 실제 공간 마이크로폰들로부터의 2개 이상의 오디오 신호들은 상이한 전파 경로들을 보상하도록 수정됨으로써 2개 이상의 수정된 오디오 신호들을 갖는 것으로 가정된다. 상이한 실제 공간 마이크로폰들로부터의 오디오 신호들이 상이한 전파 경로들을 보상하도록 수정된 경우에는, 그들이 조합되어 오디오 품질을 향상시킬 수 있다. 그렇게 함으로써, 예를 들어, SNR이 증가될 수 있고 또는 잔향감(reverberance)이 감소될 수 있다.
조합에 관한 가능한 솔루션들은 다음을 포함한다:
- 예컨대, SNR 또는 가상 마이크로폰까지의 거리 또는 실제 공간 마이크로폰들에 의해 추정된 확산을 고려한, 가중처리된 평균. 전통적인 솔루션들, 예를 들어, MRC(Maximum Ratio Combining)나 EGC(Equal Gain Combining)가 사용될 수 있음, 또는
- 조합 신호를 획득하기 위한 수정된 오디오 신호들의 일부 또는 전체의 선형 조합. 수정된 오디오 신호들은 조합 신호를 획득하기 위해 선형 조합으로 가중처리될 수 있음. 또는
- 선택, 예컨대, SNR 또는 거리 또는 확산에 의존하는 하나의 신호만이 사용됨.
모듈(502)의 임무는, 적용 가능한 경우, 모듈(505)에서 수행되는 조합에 관한 파라미터들을 계산하는 것이다.
이제, 실시예들에 따른 스펙트럼 가중을 보다 상세히 설명하도록 한다. 이를 위해, 도 19의 블록들(503 및 506)에 대한 기준이 만들어진다. 이 마지막 스텝에서, 조합 또는 입력 오디오 신호들의 전파 보상으로 인해 생성된 오디오 신호들은 재구성된 기하학적 구조(205로 주어짐)에 따라 및/또는 입력(104)에 의해 명시된 가상 공간 마이크로폰의 공간 특성에 따라 시간-주파수 도메인에서 가중처리된다.
각각의 시간-주파수 빈에 있어서, 기하학적 재구성은 도 21에 나타낸 바와 같이, 가상 마이크로폰에 관한 DOA를 용이하게 획득할 수 있게 한다. 또한, 사운드 이벤트의 위치와 가상 마이크로폰 사이의 거리도 용이하게 계산될 수 있다.
그 후에, 요구되는 가상 마이크로폰의 타입을 고려하여 시간-주파수 빈에 관한 가중치가 계산된다.
방향성 마이크로폰들의 경우에, 미리정의된 픽-업 패턴에 따라 스펙트럼 가중치들이 계산될 수 있다. 예를 들면, 일 실시예에 따라, 카디오이드 마이크로폰이 기능 g(세타)로 규정된 픽업 패턴을 가질 수 있으며,
g(세타) = 0.5 + 0.5 cos(세타)이고,
여기서, 세타는 가상 공간 마이크로폰의 시야 방향과 가상 마이크로폰의 관점으로부터의 사운드의 DOA 사이의 각도이다.
다른 가능성은 아티스틱(비 물리적) 감쇠 기능들이다. 소정 응용들에서는, 자유-필드 전파를 특징으로 하는 것보다 큰 팩터를 가진 가상 마이크로폰으로부터 멀리 떨어진 곳에 있는 사운드 이벤트들을 억제할 것이 요구될 수 있다. 이러한 목적으로, 일부 실시예들은 가상 마이크로폰과 사운드 이벤트 사이의 거리에 의존하는 추가적인 가중 기능을 도입한다. 일 실시예에서는, 가상 마이크로폰으로부터 소정 거리(예컨대, 몇 미터) 이내의 사운드 이벤트들만이 픽업되어야 한다.
가상 마이크로폰의 방향성에 관하여는, 임의의 방향성 패턴들이 가상 마이크로폰에 대해 적용될 수 있다. 그렇게 함으로써, 복합 사운드 신(complex sound scene)으로부터 소스를 분리시킬 수 있다.
사운드의 DOA는 가상 마이크로폰의 위치 pv에서 계산될 수 있기 때문에, 즉
Figure 112013059901080-pct00018
이고,
여기서, cv는 가상 마이크로폰의 배향을 기술하는 단위 벡터이며, 가상 마이크로폰에 관한 임의의 방향성이 구현될 수 있다. 예를 들어, Pv(k,n)가 조합 신호 또는 전파-보상된 수정 오디오 신호를 나타내는 것으로 가정하는 경우, 공식:
Figure 112013059901080-pct00019
은 카디오이드 방향성을 가진 가상 마이크로폰의 출력을 계산한다. 잠재적으로 이러한 방식으로 생성될 수 있는, 방향성 패턴들은 위치 추정의 정확성에 의존한다.
실시예들에서, 하나 이상의 실제, 비-공간 마이크로폰들, 예를 들어, 카디오이드와 같은 방향성 마이크로폰 또는 전방향성 마이크로폰은 실제 공간 마이크로폰들에 부가하여 사운드 신에 배치됨으로써 도 8의 가상 마이크로폰 신호들(105)의 사운드 품질을 더욱 향상시킨다. 이들 마이크로폰들은 기하학적 정보를 모으기 위해서가 아닌 더욱 청명한 오디오 신호를 제공하기 위해서만 사용된다. 이들 마이크로폰들은 공간 마이크로폰들보다 사운드 소스들에 더 가까이 배치될 수 있다. 이 경우, 일 실시예에 따르면, 실제, 비-공간 마이크로폰들의 오디오 신호들 및 그들의 위치가, 실제 공간 마이크로폰들의 오디오 신호들을 대신하여, 처리를 위해 도 19의 전파 보상 모듈(504)로 단순 공급된다. 그 후에, 하나 이상의 비-공간 마이크로폰들의 위치에 대하여, 비-공간 마이크로폰들의 하나 이상의 녹음된 오디오 신호들을 위한 전파 보상이 수행된다. 이에 의해, 추가적인 비-공간 마이크로폰들을 사용하는 실시예가 구현된다.
추가의 실시예에서는, 가상 마이크로폰의 공간 사이드 정보의 계산이 구현된다. 마이크로폰의 공간 사이드 정보(106)를 계산하기 위해, 도 19의 정보 계산 모듈(202)은 사운드 소스의 위치들(205) 및 가상 마이크로폰의 위치, 배향 및 특성(104)을 입력으로서 수신하도록 적응된 공간 사이드 정보 계산 모듈(507)을 포함한다. 소정 실시예들에서는, 계산될 필요가 있는 사이드 정보(106)에 따라, 가상 마이크로폰(105)의 오디오 신호도 또한 공간 사이드 정보 계산 모듈(507)에 대한 입력으로서 고려될 수 있다.
공간 사이드 정보 계산 모듈(507)의 출력은 가상 마이크로폰(106)의 사이드 정보이다. 이 사이드 정보는 예를 들어, 가상 마이크로폰의 관점으로부터 각 시간-주파수 빈(k, n)에 대한 사운드의 확산 또는 DOA일 수 있다. 다른 가능한 사이드 정보는 예를 들어, 가상 마이크로폰의 위치에서 측정되는 활성 사운드 강도 벡터 Ia(k, n)일 수 있다. 이제 이들 파라미터들이 도출될 수 있는 방식을 설명하도록 한다.
일 실시예에 따라, 가상 공간 마이크로폰에 대한 DOA 추정이 구현된다. 정보 계산 모듈(120)은 도 22에 도시된 사운드 이벤트의 위치 벡터에 기초하고 또한 가상 마이크로폰의 위치 벡터에 기초하여, 공간 사이드 정보로서 가상 마이크로폰의 도착 방향을 추정하도록 적응된다.
도 22는 가상 마이크로폰의 관점으로부터 사운드의 DOA를 도출하는 가능한 방식을 도시하고 있다. 도 19의 블록(205)에 의해 제공된, 사운드 이벤트의 위치는 사운드 이벤트의 위치 벡터 r(k, n)을 가진 각 시간-주파수 빈(k, n)에 관해 기술될 수 있다. 마찬가지로, 도 19의 입력(104)으로 제공된, 가상 마이크로폰의 위치는 가상 마이크로폰의 위치 벡터 s(k,n)으로 기술될 수 있다. 가상 마이크로폰의 시야 방향은 벡터 v(k, n)으로 기술될 수 있다. 가상 마이크로폰에 대한 DOA는 a(k,n)으로 주어져 있다. 이것은 v 와 사운드 전파 경로 h(k,n) 사이의 각도를 나타낸다.
h(k, n)은 다음의 공식을 사용하여 계산될 수 있다:
Figure 112013059901080-pct00020
소망하는 DOA a(k, n)는 예를 들어 h(k,n)와 v(k,n)에 관한 내적(dot product)의 정의를 통해 이제 계산될 수 있다. 즉,
Figure 112013059901080-pct00021
다른 실시예에서, 정보 계산 모듈(120)은 도 22에 도시된 사운드 이벤트의 위치 벡터에 기초하고 또한 가상 마이크로폰의 위치 벡터에 기초하여, 공간 사이드 정보로서 가상 마이크로폰에서의 활성 사운드 강도를 추정하도록 적응될 수 있다.
위에서 정의된 DOA a(k, n)로부터, 가상 마이크로폰에서의 활성 사운드 강도 Ia(k, n)를 도출할 수 있다. 이를 위해, 도 19의 가상 마이크로폰 오디오 신호(105)는 전방향성 마이크로폰의 출력에 대응하는 것으로 가정한다(예컨대, 가상 마이크로폰은 전방향성 마이크로폰인 것으로 가정). 또한, 도 22의 시야 방향은 좌표계의 x-축에 평행인 것으로 가정한다. 소망하는 활성 사운드 강도 벡터 Ia(k, n)는 가상 마이크로폰의 위치에 걸친 에너지의 순수 흐름을 기술하기 때문에, 예컨대 다음의 공식에 따라 Ia(k, n)을 계산할 수 있다:
Figure 112013059901080-pct00022
여기서, []T는 전치된 벡터(transposed vector)를 나타내고, rho 는 공기 밀도이며, Pv(k, n)는 가상 공간 마이크로폰에 의해 측정된 사운드 압력(예컨대, 도 19에서 블록(506)의 출력(105))이다.
활성 강도 벡터가 일반 좌표계에서 표현되어 계산되지만, 여전히 가상 마이크로폰의 위치에서는, 다음의 공식이 적용될 수 있다:
Figure 112013059901080-pct00023
사운드의 확산(diffuseness of sound)은 소정 시간-주파수 슬롯(예컨대, [2] 참조)에 있는 사운드 필드의 확산 방식을 나타낸다. 확산은 값 ψ로 표현되며, 여기서 0 ≤ ψ ≤ 1 이다. 1의 확산은 사운드 필드의 전체 사운드 필드 에너지가 완전히 확산된 것을 나타낸다. 이 정보는 예컨대, 공간 사운드의 재구성에서 중요하다. 전통적으로, 확산은 마이크로폰 어레이가 배치된 공간 내의 특정 포인트에서 계산된다.
일 실시예에 따라, 확산은 가상 마이크로폰(VM)(이것은 의지대로 사운드 신의 임의 위치에 배치될 수 있음)을 위해 생성되는 사이드 정보에 대한 추가 파라미터로서 계산될 수 있다. 이에 의해, 가상 마이크로폰의 가상 위치에서의 오디오 신호 이외에 확산을 또한 계산하는 장치는, DirAC 스트림, 즉 사운드 신의 임의 포인트에 대한 오디오 신호, 도착 방향, 및 확산을 생성하는 것이 가능하므로, 가상 DirAC 프론트-엔드로서 이해될 수 있다. DirAC 스트림은 임의의 멀티-라우드스피커 셋업 상에서 추가 처리, 저장, 전송, 및 재생될 수 있다. 이 경우에, 청자는 가상 마이크로폰에 의해 지정된 위치에 있는 것과 같은 또한 그것의 방향으로 결정된 방향으로 보는 것과 같은 사운드 신을 경험하게 된다.
도 23은 가상 마이크로폰에서의 확산을 계산하는 확산 계산 유닛(801)을 포함하는 일 실시예에 따른 정보 계산 블록을 도시하고 있다. 정보 계산 블록(202)은 도 14의 입력들 이외에 실제 공간 마이크로폰들에서의 확산을 또한 포함하는, 입력들(111 내지 11N)을 수신하도록 적응된다. ψ( SM1 ) 내지 ψ( SMN ) 은 이들 값들을 나타내는 것으로 한다. 이들 추가 입력들은 정보 계산 모듈(202)로 공급된다. 확산 계산 유닛(801)의 출력(103)은 가상 마이크로폰의 위치에서 계산된 확산 파라미터이다.
일 실시예의 확산 계산 유닛(801)은 보다 상세하게 나타낸 도 24에 도시되어 있다. 일 실시예에 따라, 각각의 N 공간 마이크로폰들에서의 다이렉트 사운드 및 확산 사운드의 에너지가 추정된다. 그 후에, IPLS의 위치에 대한 정보 및 공간 마이크로폰과 가상 마이크로폰의 위치들에 대한 정보를 사용하여, 그 가상 마이크로폰의 위치에서의 이들 에너지들의 N 추정들이 획득된다. 최종적으로, 추정들이 조합됨으로써 추정 정확도를 향상시킬 수 있으며, 가상 마이크로폰에서의 확산 계수가 용이하게 계산될 수 있다.
Edir ( SM 1) 내지 Edir ( SM N) 및 Ediff ( SM 1) 내지 Ediff ( SM N) 은 에너지 분석 유닛(810)에 의해 계산된 N 공간 마이크로폰들에 대한 다이렉트 사운드 및 확산 사운드의 에너지들의 추정들을 나타내는 것으로 한다. Pi 가 복합 압력 신호이고 ψi 가 i-번째 공간 마이크로폰에 대한 확산인 경우, 에너지들은 예를 들어, 다음의 공식에 따라 계산될 수 있다:
Figure 112013059901080-pct00024
확산 사운드의 에너지는 모든 위치들에서 동일하며, 따라서, 가상 마이크로폰에서의 확산 사운드 에너지의 추정 Ediff ( VM )은 예를 들어 다음의 공식에 따라 확산 조합 유닛(820)에서, Ediff ( SM 1) 내지 Ediff ( SM N)을 평균화함으로써 간단히 계산될 수 있다:
Figure 112013059901080-pct00025
추정들 Ediff ( SM 1) 내지 Ediff ( SM N)의 더 효과적인 조합은 추정기의 변화를 고려함으로써(예를 들어, SNR을 고려함으로써) 수행될 수 있다.
다이렉트 사운드의 에너지는 전파로 인한 소스까지의 거리에 의존한다. 그러므로, Edir ( SM 1) 내지 Edir ( SM N)는 이것을 고려하여 수정될 수 있다. 이것은 예를 들어 다이렉트 사운드 전파 조정 유닛(830)에 의해 수행될 수 있다. 예를 들어, 다이렉트 사운드 필드의 에너지가 거리 자승 분의 1로 감쇠하는 것으로 가정하는 경우, i-번째 공간 마이크로폰에 대한 가상 마이크로폰에서의 다이렉트 사운드의 추정은 다음의 공식에 따라 계산될 수 있다:
Figure 112013059901080-pct00026
여러 공간 마이크로폰들에서 획득되는 확산 결합 유닛(820)과 유사하게, 다이렉트 사운드 에너지의 추정치들은 예를 들어 다이렉트 사운드 결합 유닛(840)에 의해 결합될 수 있다. 그 결과는
Figure 112013059901080-pct00027
, 예를 들어, 가상 마이크로폰에서의 다이렉트 사운드 에너지에 대한 추정치이다. 가상 마이크로폰에서의 확산들 ψ(νΜ)은 예를 들어, 확산 서브-계산기(850)에 의해, 예를 들어 식:
Figure 112013059901080-pct00028
에 따라 계산될 수 있다.
상술한 바와 같이, 일부 경우들에서, 예를 들어 도착 추정의 방향이 잘못된 경우 사운드 이벤트 위치 추정기에 의해 실행된 사운드 이벤트 위치 추정이 실패한다. 도 25는 그와 같은 시나리오를 도시한다. 이 경우들에서, 여러 공간 마아키르폰에서 추정된 확산 파라미터들과는 관계없이 그리고 입력들(111 내지 11N)에서와 같이 수신된 바에 따라, 가상 마이크로폰(103)에 대한 확산은 1로 세팅될 수 있는데(즉, 완전하게 확산), 왜냐하면 어떠한 공간 간섭 재생도 가능하지 않기 때문이다.
추가적으로, N개의 공간 마이크로폰들에서의 DOA 추정들의 신뢰도가 고려될 수 있다. 이것은 예를 들어 DOA 추정기 또는 SNR의 차이에 의해 표현될 수 있다. 그와 같은 정보는 DOA 추정들이 신뢰 불가능한 경우에 VM 확산(103)이 인공적으로 증가될 수 있도록 확산 서브-계산기(850)에 의해 고려될 수 있다. 실제로, 결과적으로, 위치 추정들(205)이 또한 신뢰 불가능할 것이다.
도 1은 하나의 실시예에 따른 하나 이상의 사운드 소스들과 관련되는 오디오 데이터를 포함하는 오디오 데이터 스트림에 의거하여 적어도 하나의 오디오 출력 신호를 생성하는 장치(150)를 도시한다.
상기 장치(150)는 오디오 데이터를 포함하는 오디오 데이터 스트림을 수신하는 수신기(160)를 포함한다. 오디오 데이터는 하나 이상의 사운드 소스들의 각각의 사운드 소스에 대해 하나 이상의 압력 값들을 포함한다. 게다가, 오디오 데이터는 사운드 소스들 중 하나의 위치를 표시하는 하나 이상의 위치 값들을 사운드 소스들의 각각의 사운드 소스에 대해 포함한다. 더욱이, 상기 장치는 오디오 데이터 스트림의 오디오 데이터의 하나 이상의 압력 값들 중 적어도 하나에 의거하여 그리고 오디오 데이터 스트림의 오디오 데이터의 하나 이상의 위치 값들 중 적어도 하나에 의거하여 적어도 하나의 오디오 출력 신호를 생성하는 합성 모듈(170)을 포함한다. 오디오 데이터는 복수의 시간-주파수 빈(bin)들 중 하나의 시간-주파수 빈에 대해 정의된다. 사운드 소스들의 각각의 사운드 소스에 대해, 오디오 데이터에는 적어도 하나의 압력 값이 포함되고, 여기서 적어도 하나의 압력 값은 예를 들어 사운드 소스에서 기원하는 방출된 음파들과 관련되는 압력 값일 수 있다. 압력 값은 오디오 신호의 값, 예를 들어 가상 마이크로폰의 오디오 출력 신호를 생성하는 장치에 의해 생성되는 오디오 출력 신호의 압력 값일 수 있고, 여기서 가상 마이크로폰은 사운드 소스의 위치에 배치된다.
그러므로, 도 1은 언급된 오디오 데이터 스트림을 수신 또는 프로세싱하는 데 이용될 수 있는 장치(150)를 도시, 즉, 장치(150)는 수신기/합성 측에서 이용될 수 있다. 오디오 데이터 스트림은 복수의 사운드 소스들의 각각의 사운드 소스에 대해 하나 이상의 압력 값들 및 하나 이상의 위치 값들을 포함하는 오디오 데이터를 포함하는, 즉, 압력 값들 및 위치 값들의 각각의 값은 녹음된 오디오 신의 하나 이상의 사운드 소스들 중 특정한 사운드 소스와 관련된다. 이것은 위치 값들이 녹음 마이크로폰들 대신 사운드 소스들의 위치들을 나타내는 것을 의미한다. 압력 값에 관하여, 이것은 오디오 데이터 스트림이 사운드 소스들의 각각의 사운드 소스에 대해 하나 이상의 압력 값을 포함하는, 즉, 압력 값들이 실제 공간 마이크로폰의 녹음과 관련되어 있는 대신 사운드 소스와 관련되는 오디오 신호를 표시하는 것을 의미한다.
하나의 실시예에 따르면, 수신기(160)는 오디오 데이터를 포함하는 오디오 데이터 스트림을 수신하도록 적응될 수 있고, 여기서 오디오 데이터는 더욱이 사운드 소스들의 각각의 사운드 소스에 대해 하나 이상의 확산 값들을 포함한다. 합성 모듈(170)은 하나 이상의 확산 값들 중 적어도 하나에 의거하여 적어도 하나의 오디오 출력 신호를 생성하도록 적응될 수 있다.
도 2는 하나의 실시예에 따라 하나 이상의 사운드 소스들과 관련되는 사운드 소스 데이터를 포함하는 오디오 데이터 스트림을 생성하는 장치(200)를 도시한다. 오디오 데이터 스트림을 생성하는 장치(200)는 적어도 하나의 공간 마이크로폰에 의해 녹음되는 적어도 하나의 오디오 입력 신호에 기초해서 그리고 적어도 2개의 공간 마이크로폰들에 의해 제공되는 오디오 측 정보에 의거하여 사운드 소스 데이터를 판정하는 판정기(210)를 포함한다. 게다가, 장치(200)는 오디오 데이터 스트림을 생성하여 오디오 데이터 스트림이 사운드 소스 데이터를 포함하도록 하는 데이터 스트림 생성기(220)를 포함한다. 사운드 소스 데이터는 사운드 소스들의 각각의 사운드 소스에 대해 하나 이상의 압력 값들을 포함한다. 더욱이, 사운드 소스 데이터는 사운드 소스들의 각각의 사운드 소스에 대한 사운드 소스 위치를 표시하는 하나 이상의 위치 값들을 더 포함한다. 게다가, 사운드 소스 데이터는 복수의 시간-주파수 빈들 중 하나의 시간-주파수 빈에 대해 정의된다.
장치(200)에 의해 생성되는 오디오 데이터 스트림은 그 후에 송신될 수 있다. 그러므로, 장치(200)는 분석/송신기 측에서 이용될 수 있다. 오디오 데이터 스트림은 복수의 사운드 소스들의 각각의 사운드 소스에 대해 하나 이상의 압력 값들 및 하나 이상의 위치들을 포함하는 오디오 데이터를 포함하는, 즉, 압력 값들 및 위치 값들의 각각의 값은 녹음된 오디오 신의 하나 이상의 사운드 소스들 중 특정한 사운드 소스와 관련된다. 이것은 위치 값들에 관하여, 상기 위치 값들이 녹음 마이크로폰들 대신 사운드 소스들의 위치들을 표시하는 것을 의미한다.
추가 실시예에서, 판정기(210)는 적어도 하나의 공간 마이크로폰에 의해 확산 정보에 의거하여 사운드 소스 데이터를 판정하도록 적응될 수 있다. 데이터 스트림 생성기(220)는 오디오 데이터 스트림을 생성하여 오디오 데이터 스트림이 사운드 소스 데이터를 포함하도록 적응될 수 있다. 사운드 소스 데이터는 사운드 소스들의 각각의 사운드 소스에 대해 하나 이상의 확산 값들을 더 포함한다.
도 3a는 하나의 실시예에 따른 오디오 데이터 스트림을 도시한다. 오디오 데이터 스트림은 시간-주파수 빈에서 활성인 2개의 사운드 소스들과 관련되는 오디오 데이터를 포함한다. 특히, 도 3a는 시간-주파수 빈(k, n)에 대해 송신되는 오디오 데이터를 도시하고, 여기서 k는 주파수 인덱스를 나타내고 n은 시간 인덱스를 나타낸다. 오디오 데이터는 제 1 사운드 소스의 압력 값(P1), 위치 값(Q1) 및 확산 값(ψ1)을 포함한다. 위치 값(Q1)은 제 1 사운드 소스의 위치를 나타내는 세 좌표 값들(X1, Y1 및 Z1)을 포함한다. 게다가, 오디오 데이터는 제 2 사운드 소스의 압력 값(P2), 위치 값(Q2) 및 확산 값(ψ2)을 포함한다. 위치 값(Q2)은 제 2 사운드 소스의 위치를 나타내는 세 좌표 값들(X2, Y2 및 Z2)을 포함한다.
도 3b는 다른 실시예에 따른 오디오 스트림을 도시한다. 다시, 오디오 데이터는 제 1 사운드 소스의 압력 값(P1), 위치 값(Q1), 및 확산 값(ψ1)을 포함한다. 위치 값(Q1)은 제 1 사운드 소스의 위치를 나타내는 세 좌표 값들(X1, Y1 및 Z1)을 포함한다. 게다가, 오디오 데이터는 제 2 사운드 소스의 압력 값(P2), 위치 값(Q2) 및 확산 값(ψ2)을 포함한다. 위치 값(Q2)은 제 2 사운드 소스의 위치를 나타내는 세 좌표 값들(X2, Y2 및 Z2)을 포함한다.
도 3c는 오디오 데이터 스트림의 다른 도시예를 제공한다. 오디오 데이터 시스템이 기하학 기반 공간 오디오 코딩(geometry-based audio coding; GAC) 정보를 제공하므로, 이는 "기하학적-기반 공간 오디오 코딩 스트림", 즉 "GAC 스트림"으로 또한 칭해진다. 오디오 데이터 스트림은 하나 이상의 사운드 소스들, 예를 들어 하나 이상의 등방점형 소스(isotropic point-like source; IPLS)와 관련되는 정보를 포함한다. 이미 상술한 바와 같이, GAC 스트림은 아래의 신호들을 포함할 수 있고, 여기서 k 및 n은 고려되는 시간-주파수 빈의 주파수 인덱스 및 시간 인덱스를 나타낸다:
· P(k,n): 예를 들어 사운드 소스에서, IPLS에서의 복소 압력. 이 신호는 가능하면 다이렉트 사운드(IPLS 자체로부터 발생되는 사운드) 및 확산 사운드를 포함한다.
· Q(k,n): 사운드 소스의, 예를 들어 IPLS의 위치(예를 들어, 3D에서의 직교 좌표들):이 위치는 예를 들어 직교 좌표들 X(k,n), Y(k,n), Z(k,n)를 포함한다.
· IPLS에서의 확산: ψ(k,n). 이 파라미터는 P(k,n)에 포함되는 사운드의 다이렉트 대 확산의 전력 비에 관련된다. P(k,n) = Pdir(k,n) + Pdiff(k,n)이면, 확산을 표현하는 하나의 가능성은 ψ(k,n) = |Pdiff(k,n)|2/|P(k,n)|2이다. |P(k,n)|2이 공지되면, 다른 등가의 표현들이 착상 가능한데, 예를 들어 다이렉트 대 확산 비(DDR)Γ=|Pdir(k,n)|2/|Pdiff(k,n)|2이다.
상술한 바와 같이, k 및 n은 주파수 및 시간 인덱스들을 각각 나타낸다. 원하는 경우 그리고 분석이 이를 허용하는 경우, 하나 이상의 IPLS가 소정의 시간-주파수 슬롯에서 표현될 수 있다. 이것은 도 3c에서 M개의 다중 층들에서 도시됨으로써 i번째 층에 대한(즉, i번째 IPLS에 대한) 압력 신호가 Pi(k,n)로 표시된다. 편의를 위해, IPLS의 위치는 벡터 Qi(k,n) = [Xi(k,n), Yi(k,n), Zi(k,n)]T로 표현될 수 있다. 최신식과는 달리, GAC 스트림 내의 모든 파라미터들은 하나 이상의 사운드 소스에 대해, 예를 들어 IPLS에 대해 표현됨으로써, 녹음 위치와의 독립성이 달성된다. 도 3a 및 도 3b에서뿐만 아니라 도 3c에서, 도면 내의 모든 양들은 시간-주파수 도메인에서 고려된다: (k,n) 표기는 간소화를 위해 무시되었는데, 예를 들어 Pi는 Pi(k,n)을 의미하는, 예를 들어 Pi = Pi(k,n)이다.
다음에, 하나의 실시예에 따른 오디오 데이터 스트림을 생성하는 장치가 더 상세하게 설명된다. 도 2의 장치와 같이, 도 4의 장치는 판정기(210) 및 판정기(210)와 유사할 수 있는 데이터 스트림 생성기(220)를 포함한다. 어떤 데이터 스트림 생성기가 오디오 데이터 스트림을 생성하는지에 의거하여 사운드 소스 데이터를 판정하기 위해 판정기가 오디오 입력 데이터를 분석할 때 판정기 및 데이터 스트림 생성기는 함께 "분석 모듈"로 칭해질 수 있다(도 4에서의 분석 모듈(410)을 참조하라).
분석 모듈(410)은 N개의 공간 마이크로폰들의 녹음들로부터 GAC 스트림을 계산한다. 원하는 층들의 수(M)(예를 들어, 정보가 특정한 시간-주파수 빈 동안 오디오 데이터 스트림에 포함될 사운드 소스들의 수), 공간 마이크로폰들의 유형 및 수(N)에 따라, 분석을 위한 상이한 방법들이 착상 가능하다. 서너 개의 예들이 다음에 제공된다.
제 1 예로서, 시간-주파수 슬롯당 하나의 사운드 소스, 예를 들어 하나의 IPLS에 대한 파라미터 추정이 고려된다. M=1의 경우, 가상 공간 마이크로폰이 사운드 소스의 위치에, 예를 들어 IPLS의 위치에 배치될 수 있으므로, GAC 스트림은 가상 마이크로폰의 오디오 출력 신호를 생성하는 장치에 대해 상술한 개념들에 의해 쉽게 획득될 수 있다. 이것은 압력 신호들이 IPLS의 위치에서, 대응하는 위치 추정들, 그리고 가능하면 확산과 함께 계산되는 것을 가능하게 한다. 이 세 파라미터들은 GAC 스트림에서 함께 그룹화되고 송신되거나 저장되기 전에 도 8에서의 모듈(102)에 의해 더 조작될 수 있다.
예를 들어, 판정기는 가상 마이크로폰의 오디오 출력 신호를 생성하는 장치의 사운드 이벤트 이벤트 위치 추정에 대해 제안되는 개념들을 이용함으로써 사운드 소스의 위치를 판정할 수 있다. 더욱이, 판정기는 오디오 출력 신호를 생성하는 장치를 포함할 수 있고 판정된 사운드 소스의 위치를 가상 마이크로폰의 위치로서 이용하여 사운드 소스의 위치에서의 압력 값들(예를 들어, 생성될 오디오 출력 신호의 값들) 및 확산을 계산할 수 있다.
특히, 예를 들어 도 4에서의 판정기(210)는 압력 신호들, 대응하는 위치 추정들 및 대응하는 확산들을 판정하도록 구성되는 반면에 데이터 스트림 생성기(220)는 계산된 압력 신호들, 위치 추정들 및 확산들에 의거하여 오디오 데이터 스트림을 생성하도록 구성된다.
다른 예로서, 시간-주파수 슬롯당 2개의 사운드 소스들, 예를 들어 2개의 IPLS에 대한 파라미터 추정이 고려된다. 분석 모듈(410)이 시간-주파수 빈당 2개의 사운드 소스들을 추정해야 한다면, 최신 기술의 추정기들에 의거하는 다음의 개념이 이용될 수 있다.
도 5는 2개의 사운드 소스들 및 2개의 일정한 선형 마이크로폰 어레이들로 구성되는 사운드 신을 도시한다. ESPRIT가 참조되며 다음을 참조하라.
[26] R. Roy and T. Kailath. ESPRIT-estimation of signal parameters via rotational invariance techniques. Acoustics, Speech and Signal Processing, IEEE Transactions on, 37(7):984-995, July 1989.
ESPRIT([26])는 각각의 어레이에서 각각의 시간-주파수 빈에 대한 2개의 DOA 추정들을 획득하기 위해 각각의 어레이에서 개별적으로 이용될 수 있다. 페어링 모호성(pairing ambiguity)으로 인해, 이는 소스들의 워치에 대해 2개의 가능한 해법들로 이어진다. 도 5로부터 확인될 수 있는 바와 같이, 2개의 가능한 해법들은 (1, 2) 및 (1', 2')에 의해 제공된다. 이 모호성을 해결하기 위해, 다음의 해법이 적용될 수 있다. 각각의 소스에서 방출되는 신호는 추정된 소스 위치들의 방향에서 기원하는 빔포머(beamformer)를 이용하고 전파를 보상하는 적절한 인수를 적용함으로써(예를 들어, 파에 의해 겪게 되는 감쇠의 역을 승산함으로써) 추정된다. 이것은 가능한 해법들의 각각에 대한 각각의 어레이에서의 각각의 소스에 대해 수행될 수 있다. 그 후에 소스들(i,j)의 각각의 쌍에 대해 추정 에러를
Eij = |Pi ,1 - Pi ,2|+|Pj ,1 - Pj ,2|, (1)
로서 규정할 수 있고 여기서 (i,j) ∈ {(1,2),(1',2')}(도 5를 참조하라)이고 Pi ,1은 어레이(r)에 의해 사운드 소스(i)로부터 확인되는 보상된 신호 전력을 나타낸다. 에러는 참 사운드 소스 쌍에 대해 최소이다. 일단 페어링 문제가 해결되고 정확한 DOA 추정들이 계산되면, 이것들은 대응하는 압력 신호들 및 확산 추정들과 함께 GAC 스트림으로 그룹화된다. 압력 신호들 및 확산 추정들은 하나의 사운드 소스에 대한 파라미터 추정에 대해 이미 기술된 동일한 방법을 이용하여 획득될 수 있다.
도 6a는 하나의 실시예에 따른 오디오 데이터 스트림에 의거하여 적어도 하나의 오디오 출력 신호를 생성하는 장치(600)를 도시한다. 장치(600)는 수신기(610) 및 합성 모듈(620)을 포함한다. 수신기(610)는 사운드 소스들 중 적어도 하나와 관련되는 오디오 데이터의 압력 값들 중 적어도 하나, 상기 오디오 데이터의 위치 값들 중 적어도 하나 또는 상기 오디오 데이터의 확산 값들 중 적어도 하나를 수정함으로써 수신된 오디오 데이터 스트림의 오디오 데이터를 수정하는 수정 모듈(630)을 포함한다.
도 6b는 하나의 실시예에 따라 하나 이상의 사운드 소스들과 관련되는 사운드 소스 데이터를 포함하는 오디오 데이터 스트림을 생성하는 장치(660)를 도시한다. 오디오 데이터 스트림을 생성하는 장치는 판정기(670), 데이터 스트림 생성기(680)를 포함하고 게다가 사운드 소스들 중 적어도 하나와 관련되는 오디오 데이터의 압력 값들 중 적어도 하나, 상기 오디오 데이터의 위치 값들 중 적어도 하나 또는 상기 오디오 데이터의 확산 값들 중 적어도 하나를 수정함으로써 데이터 스트림 생성기에 의해 생성되는 오디오 데이터 스트림을 수정하는 수정 모듈(690)을 포함한다.
도 6a의 수정 모듈(610)이 수신기/합성 측에서 이용되는 반면에, 도 6b의 수정 모듈(660)은 송신기/분석 측에서 이용된다.
수정 모듈들(610, 660)에 의해 수행되는 오디오 데이터 스트림의 수정들은 또한 사운드 신의 수정들로서 고려될 수 있다. 그러므로, 수정 모듈들(610, 660)은 사운드 신 조작 모듈들로서 칭해질 수 있다.
GAC 스트림에 의해 제공되는 음장 표현은 오디오 데이터 스트림의 상이한 종류들의 수정들, 즉, 결과적으로, 사운드 신의 조작들을 가능하게 한다. 본 컨텍스트에서의 일부 예들은:
1. 사운드 신에서의 공간/체적들의 임의의 섹션들을 확장(예를 들어, 청취자에게 더 넓게 들리는 것처럼 하기 위해 점형 사운드 소스의 팽창);
2. 공간/체적의 선택된 섹션을 사운드 신 내의 공간/체적의 어떤 다른 임의의 섹션으로 변형(변형되는 공간/체적은 예를 들어 새로운 장소로 이동될 것을 요구받는 소스를 포함할 수 있다);
3. 위치-기반 필터링, 여기서 사운드 신의 선택된 영역들은 강화되거나 부분적으로/완전하게 억제된다.
다음에, 오디오 데이터 스트림, 예를 들어, GAC 스트림의 층은 특정한 시간-주파수 빈에 대해 사운드 소스들 중 하나의 모든 오디오 데이터를 포함하는 것으로 가정된다.
도 7은 하나의 실시예에 따른 수정 모듈을 도시한다. 도 7의 수정 유닛은 디멀티플렉서(401), 조작 프로세서(420) 및 멀티플렉서(405)를 포함한다.
디멀티플렉서(401)는 M-층 GAC 스트림의 상이한 층들을 분리하고 M개의 단일 층 GAC 스트림들을 형성하도록 구성된다. 더욱이, 조작 프로세서(420)는 GAC 스트림들의 각각에 별개로 적용되는 유닛들(402, 403 및 404)을 포함한다. 게다가, 멀티플렉서(405)는 조작된 단일-층 GAC 스트림들로부터 상기 결과에 따른 M-층 GAC 스트림을 형성하도록 구성된다.
GAC 스트림으로부터의 위치 데이터 및 실제 소스들(예를 들어 말하는 사람들)의 위치에 대한 정보에 의거하여, 에너지는 모든 시간-주파수 빈에 대한 특정한 실제 소스와 연관될 수 있다. 압력 값들(P)은 그 후에 이에 따라 가중되어 각각의 실제 소스(예를 들어, 말하는 사람)의 음량을 수정한다. 이는 선험적인 정보 또는 실제 사운드 소스들(예를 들어, 말하는 사람들)의 위치의 추정을 필요로 한다.
일부 실시예들에서, 실제 소스들의 위치에 대한 정보가 이용 가능하면, GAC 스트림으로부터의 위치 데이터에 의거하여, 에너지는 모든 시간-주파수 빈에 대하여 특정한 실제 소스와 연관될 수 있다.
오디오 데이터 스트림, 예를 들어 GAC 스트림의 조작은 도 6a의 적어도 하나의 오디오 출력 신호를 생성하는 장치(600)의 조작 모듈(630)에서, 즉, 수신기/합성 측에서, 그리고/또는 도 6b의 오디오 데이터 스트림을 생성하는 장치(660)의 수정 모듈(690)에서, 즉 송신기/분석 측에서 발생할 수 있다.
예를 들어, 오디오 데이터 스트림, 즉, GAC 스트림은 송신 전에 또는 송신 이후의 합성 전에 수정될 수 있다.
수신기/합성 측에서의 도 6a의 수정 모듈(630)과는 달리, 송신기/분석 측에서의 도 6b의 수정 모듈(690)은 입력들(111 내지 11N(녹음된 신호들) 및 121 내지 12N)로부터 추가 정보를 이용할 수 있는데 이 정보는 송신 측에서 이용 가능하기 때문이다. 이 정보를 이용함으로써 하나의 대안 실시예에 따른 수정 유닛이 실현될 수 있고, 이는 도 8에 도시된다.
도 9는 시스템의 개략적인 개요를 도시함으로써 하나의 실시예를 나타내며,여기서 GAC 스트림은 송신기/분석 측 상에서 생성되고, 선택적으로, GAC 스트림은 송신기/분석 측에서 수정 모듈(102)에 의해 수정될 수 있고, GAC 스트림은 선택적으로 수정 모듈(103)에 의해 수신기/합성 측에서 수정될 수 있고, 여기서 GAC 스트림은 복수의 오디오 출력 신호들(191...19L)을 생성하는 데 이용된다.
송신/분석 측에서, 음장 표현(예를 들어, GAC 스트림)은 유닛(101)에서 입력들(111 내지 11N)로부터, 즉 N≥2의 공간 마이크로폰들에 의해 녹음되는 신호들로부터, 그리고, 입력들(121 내지 12N)로부터, 즉 공간 마이크로폰들의 상대 위치 및 방위로부터 계산된다.
유닛(101)의 출력은 상술한 음장 표현이고 이는 이후에 기하학 기반 공간 오디오 코딩(Geometry-based spatial Audio Coding; GAC) 시스템으로 표시된다. 다음
[20] Giovanni Del Galdo, Oliver Thiergart, Tobias Weller, and E. A. P. Habets. Generating virtual microphone signals using geometrical information gathered by distributed arrays. In Third Joint Workshop on Hands-free Speech Communication and Microphone Arrays (HSCMA'11), Edinburgh, United Kingdom, May 2011.
에서 제안과 유사하게, 그리고 구성 가능한 위치에서의 가상 마이크로폰의 오디오 출력 신호를 생성하는 장치에 대해 기술되는 바와 같이, 복소 사운드 신은 단시간 푸리에 변화(Short-Time Fourier Transform; STFT)에 의해 제공되는 것과 같은 시간-주파수 표현 내의 특정한 슬롯들에서 활성인 사운드 소스들, 예를 들어 등방성 포인트-형 사운드 소스들(IPLS)에 의해 모델링된다.
GAC 스트림은 또한 조작 유닛으로 칭해질 수 있는 선택적인 수정 모듈(102)에서 더 프로세싱될 수 있다. 수정 모듈(102)은 다수의 애플리케이션들을 고려한다. GAC 스트림은 이후에 송신되거나 저장될 수 있다. GAC 스트림의 파라미터의 특질은 매우 효율적이다. 합성/수신기 측에서, 하나 이상의 선택적인 수정 모듈들(조작 유닛들)(103)이 이용될 수 있다. 그 결과에 따른 GAC 스트림은 확성기 신호들을 생성하는 합성 유닛(104)에 진입한다. 녹음으로부터의 표현의 독립이 제공되면, 재생 측에 있는 최종 이용자는 잠재적으로 사운드 신을 조작하고 사운드 신 내의 청취 위치 및 방위를 자유로이 결정할 수 있다.
오디오 데이터 스트림, 예를 들어 GAC 스트림의 수정/조작은 모듈(102)에서의 송신 이전에 또는 합성(103) 이전의 송신 이후에 GAC 스트림을 알맞게 수정함으로써 도 9에서의 수정 모듈들(102 및/또는 103)에서 발생할 수 있다. 수신기/합성 측에 있는 수정 모듈(103)에서와는 달리, 송신기/분석 측에 있는 수정 모듈(102)은 입력들(111 내지 11N(공간 마이크로폰들에 의해 제공되는 오디오 데이터) 및 121 내지 12N(공간 마이크로폰들의 상대적인 위치 및 방위))로부터의 추가 정보를 이용할 수 있는데, 왜냐하면 이 정보는 송신기 측에서 이용 가능하기 때문이다. 도 8은 이 정보를 이용하는 수정 모듈의 대안의 실시예를 도시한다.
GAC 스트림의 조작을 위한 여러 개념들의 예들이 도 7 및 도 8을 이용하여 이후에 기술된다. 동일한 참조 신호들을 가지는 유닛들은 동일한 기능을 가진다.
1. 체적 확장
신 내의 특정한 에너지가 체적(V) 내에 배치되어 있다고 가정된다. 체적(V)은 환경의 미리 정의된 영역을 나타낼 수 있다.
Figure 112013059901080-pct00029
은 대응하는 사운드 소스들, 예를 들어 IPLS가 체적(V) 내에 국한되어 있는 시간-주파수 빈들의 세트를 표시한다.
체적(V)이 다른 체적(V')으로 확장되는 것이 바람직하다면, 이는
Figure 112013059901080-pct00030
일 때마다(판정 유닛들(403)에서 구해진다) GAC 스트림 내의 위치 데이터에 임의적 항(random term)을 추가하고 Q(k,n) = [X(k,n),Y(k,n),Z(k,n)]T(인덱스 층은 간소화를 위해 빠졌다)를 대체하여 도 7 및 도 8에서의 유닛들(404)의 출력들(431 내지 43M)이
Q(k,n) = [X(k,n) + Φx(k,n); Y(k,n) + Φy(k,n)Z(k,n) + Φz(k,n)]T (2)
이 되도록 함으로써 달성될 수 있고, 여기서 Φx, Φy 및 Φz는 범위가 원래의 체적(V)에 대해 새 체적(V')의 기하학적 모양에 따르는 임의의 변수들이다. 이 개념은 예를 들어 사운드 소스가 더 넓게 인지되도록 만드는 데 이용될 수 있다. 이 예에서, 원 체적(V)은 아주 작은, 즉, 사운드 소스, 예를 들어 IPLS는 모든
Figure 112013059901080-pct00031
에 대해 동일한 지점 Q(k,n) = [X(k,n),Y(k,n),Z(k,n)]T에 국한되어야 한다. 이 메커니즘은 위치 파라미터 Q(k,n)의 디더링(dithering)의 형태로서 확인될 수 있다.
하나의 실시예에 따르면, 사운드 소스들의 각각의 사운드 소스의 위치 값들의 각각의 값은 적어도 2개의 좌표 값들을 포함하고, 사운드 소스가 환경의 미리 정의된 영역 내의 위치에 배치되어 있음을 좌표 값들이 나타낼 때 수정 모듈은 좌표 값들에 적어도 하나의 난수를 추가함으로써 좌표 값들을 수정하도록 적응된다.
2. 체적 변형
체적 확장 외에, GAC 스트림으로부터의 위치 데이터는 음장 내의 공간/체적들의 섹션들을 재배치하도록 수정될 수 있다. 이 경우 또한, 조작될 데이터는 국지적인 에너지의 공간 좌표들을 포함한다.
V는 재배치될 체적을 다시 표시하고,
Figure 112013059901080-pct00032
는 에너지가 체적(V) 내에 국한되는 모든 시간-주파수 빈들(k, n)의 세트를 표시한다. 다시, 체적(V)은 환경의 미리 정의된 영역을 나타낼 수 있다.
체적 재배치는 GAC 시트림을 수정하여 모든 시간 주파수 빈들
Figure 112013059901080-pct00033
에 대해 Q(k,n)가 유닛들(404)의 출력들(431 내지 43M)에서 f(Q(k,n))에 의해 치환되도록 함으로써 달성될 수 있고, 여기서 f는 공간 좌표들(X, Y, Z)의 함수로, 수행될 체적 조작을 기술한다. 함수 f는 회전, 평행 이동 또는 임의의 다른 복소 비선형 매핑(mapping)과 같은 간단한 선형 변환을 나타낼 수 있다. 이 기술은 예를 들어 사운드 소스들이 체적(V) 내에 국한되었던 시간-주파수 빈들의 세트에
Figure 112013059901080-pct00034
이 대응하는 것을 보장함으로써 사운드 소스들을 한 위치에서 사운드 신 내의 다른 위치로 이동시키는 데 이용될 수 있다. 이 기술에 의해 신 미러링(scene mirroring), 신 회전, 신 확대 및/또는 압축 등과 같이, 전체 사운드 신의 다양한 다른 복소 조작들이 가능하다. 예를 들어, 체적(V)에 적절한 선형 매핑을 적용함으로써, 체적 확장의 보완 효과, 즉 체적 수축이 달성될 수 있다. 이는 예를 들어
Figure 112013059901080-pct00035
에 대한 Q(k,n)을 f(Q(k,n))∈V'로 매핑함으로써 행해질 수 있고, 여기서 V'⊂V이고 V'는 V보다 현저하게 작은 체적을 포함한다.
하나의 실시예에 따르면, 이 수정 모듈은 사운드 소스가 환경의 미리 정의된 영역 내의 한 위치에 배치되어 있음을 좌표 값들이 나타낼 때, 좌표 값들에 대한 확정 함수(deterministic function)를 적용함으로써 좌표 값들을 수정하도록 적응된다.
3. 위치-기반 필터링
기하학 기반 필터링(또는 위치-기반 필터링) 개념은 사운드 신으로부터의 공간/체적들의 섹션들을 강화하거나 또는 완전히/부분적으로 제거하는 방법을 제공한다. 그러나, 체적 확장 및 변형 기술들에 비해, 이 경우에, 적절한 스칼라 가중치들을 적용함으로써 GAC 스트림으로부터의 압력 데이터만이 수정된다.
기하학 기반 필터링에서, 송신-측 수정 모듈(102)이 도 8에 도시된 바와 같이, 적절한 필터 가중치들의 계산을 보조하는 데 입력들(111 내지 11N 및 121 내지 12N)을 이용할 수 있으므로 송신-측 수정 모듈(102) 및 수신-측 수정 모듈(103) 사이의 구분이 행해질 수 있다. 목적이 공간/체적(V)의 선택된 섹션으로부터 기원하는 에너지를 억제/강화하는 것임을 가정하면, 기하학 기반 필터링은 다음과 같이 적용될 수 있다:
모든
Figure 112013059901080-pct00036
에 대해, GAC 스트림에서의 복소 압력 P(k,n)은 402의 출력들에서 ηP(k,n)로 수정되고, 여기서 η은 예를 들어 유닛(402)에 의해 계산되는 실 가중 요소이다. 일부 실시예들에서, 모듈(402)은 또한 확산에 종속되는 가중 요소를 계산하도록 적응될 수 있다.
기하학 기반 필터링의 개념은 신호 강화 및 소스 분리와 같은 복수의 애플리케이션들에 이용될 수 있다. 애플리케이션들 및 요구되는 선험적 정보의 일부는 다음을 포함한다:
· 반향 제거(dereverberation). 실내 기하학 구조를 인지함으로써, 공간 필터는 다중경로 전파에 의해 발생될 수 있는 실내 경계들 외부의 국한된 에너지를 억제하는 데 이용될 수 있다. 이 적용은 예를 들어 미팅 룸들 및 차 내에서 핸즈프리 통신의 관심사항일 수 있다. 최근의 반향을 억제하기 위해서는 고 확산의 경우 필터를 폐쇄하는 것으로 충분한데 반해, 초기 반사들을 억제하기 위해서는 위치-종속 필터가 더 효과적임을 주지하라. 이 경우에, 이미 언급된 바와 같이, 실내의 기하학적 구조는 선험적으로 공지될 필요가 있다.
· 배경 잡음 억제. 배경 잡음을 억제하 는데 유사한 개념이 또한 이용될 수 있다. 소스들이 배치될 수 있는 잠재적인 영역들(예를 들어, 미팅룸들 내의 참여자들의 의자들 또는 차 내의 시트들)이 공지되면, 이 영역들의 외부에 배치되는 에너지는 배경 잡음과 연관되므로 공간 필터에 의해 억제된다. 이 애플리케이션은 선험적인 정보 또는 GAC 스트림들에서 이용 가능한 데이터에 의거하는 소스들의 근사 장소의 추정을 요구한다.
· 점형 간섭자의 억제. 간섭자가 분명하게 공간 내에 국한되어 있다면, 확산보다는, 위치-기반 필터링이 간섭자의 위치에 국한된 에너지를 감쇠하는 데 적용될 수 있다. 이는 선험적인 정보 또는 간섭자의 장소의 추정을 요구한다.
· 에코 제어. 이 경우에 억제되어야 하는 간섭자들은 확성기 신호들이다. 이를 위해, 점형 간섭자들에 대한 경우에서와 유사하게, 정확하게 또는 확성기들 위치의 근접한 부근에 국한되는 에너지가 억제된다. 이는 선험적인 정보 또는 확성기 위치들의 추정을 요구한다.
· 강화된 음성 검출. 기하학 기반 필터링과 연관되는 신호 강화 기술들은 예를 들어 자동차들 내의 종래의 음성 활성 검출 시스템 내의 사정 프로세싱 단계로서 구현될 수 있다. 반향 제거 또는 잡음 억제는 시스템 성능을 개선하기 위한 부가물로서 이용될 수 있다.
· 감시. 특정 영역들로부터의 에너지만을 보전하고 나머지를 억제하는 것은 감시 애플리케이션들에서 흔히 이용되는 기술이다. 이는 기하학적 구조에 대한 선험적인 정보 및 관심 영역의 장소를 요구한다.
· 소스 분리. 다수의 동시 활성 소스들이 있는 환경에서 기하학 기반 공간 필터링은 소스 분리에 적용될 수 있다. 적절하게 설계된 공간 필터를 소스가 있는 장소의 가운데 배치함으로써 다른 동시 활성 소스들의 억제/감쇠가 일어난다. 이 혁신은 예를 들어 SAOC에서의 프론트-엔드(front-end)로서 이용될 수 있다. 선험적인 정보 또는 소스 장소들의 추정이 요구된다.
· 위치-종속 자동 이득 제어(Automatic Gain Control; AGC). 위치-종속 가중치들은 예를 들어 원격 회의 애플리케이션들에서 여러 화자들의 소리 강도를 균등화하는 데 이용될 수 있다.
다음에, 실시예들에 따른 합성 모듈들이 기술된다. 하나의 실시예에 따르면, 합성 모듈은 오디오 데이터 스트림의 오디오 데이터의 적어도 하나의 압력 값에 의거하고 오디오 데이터 스트림의 오디오 데이터의 적어도 하나의 위치 값에 의거하여 적어도 하나의 오디오 출력 신호를 생성하도록 적응될 수 있다. 적어도 하나의 압력 값은 압력 신호, 예를 들어 오디오 신호의 압력 값일 수 있다.
GAC 합성의 배경이 되는 동작 원리들의 원인은
[27] WO2004077884: Tapio Lokki, Juha Merimaa, and Ville Pulkki. Method for reproducing natural or modified spatial impression in multichannel listening, 2006.
에서 제출된 공간 사운드의 인지에 대한 추정들에 의한다.
특히, 사운드 신의 공간 이미지를 정확하게 인지하는 데 필요한 공간 큐(cue)들은 각각의 시간-주파수 빈별로 비확산 사운드의 하나의 방향을 정확하게 재생함으로써 획득될 수 있다. 도 10a에 도시된 합성은 따라서 2개의 스테이지들로 분리된다.
제 1 스테이지는 사운드 신 내의 청취자의 위치 및 방향을 고려하고 M개의 IPLS 중 어느 것이 각각의 시간-주파수 빈에 대해 우세한지를 판정한다. 결과적으로, 자체의 압력 신호(Pdir) 및 도착 방향(θ)이 계산될 수 있다. 나머지 소스들 및 확산 사운드는 제2 압력 신호(Pdiff)에서 수집된다.
제 2 스테이지는 [27]에서 기술되는 DirAC 합성의 제 2 절반과 동일하다. 비확산 사운드는 점형 소스를 만드는 패닝 메커니즘(panning mechanism)으로 재생되고, 반면에 확산 사운드는 상관해제된 이후에 모든 확성기들로부터 재생된다.
도 10a는 GAC 시스템의 합성을 도시하는 하나의 실시예에 따른 합성 모듈을 도시한다.
제 1 스테이지 합성 유닛(501)은 상이하게 재생되는 데 필요한 압력 신호들(Pdir 및 Pdiff)을 계산한다. 실제로, Pdir이 공간 내에서 코히런트(coherent)하게 재생되어야 하는 사운드를 포함하는데 반해, Pdiff는 확산 사운드를 포함한다. 제 1 스테이지 합성 유닛(501)의 제 3 출력은 원하는 청취 위치의 뷰잉 지점으로부터의, 즉 도착 정보의 방향으로부터의 도착 방향(DOA)(θ)(505)이다. 도착 방향(DOA)은 2D 공간의 경우 방위 각으로 또는 3D에서 방위각 및 앙각 쌍에 의해 표현될 수 있음을 주지하라. 등가적으로, DOA를 가리키는 단위 노름(norm) 벡터가 이용될 수 있다. DOA는 신호(Pdir)가 어떤 방향으로부터 기원하여야 하는지를 명시한다. 제 1 스테이지 분석 유닛(501)은 GAC 스트림을 입력으로, 즉 음장의 파라미터 표현으로 취하고, 입력(141)에 의해 명시되는 청취자 위치 및 방향에 의거하여 상술한 신호들을 계산한다. 실제로, 최종 이용자는 GAC 스트림에 의해 기술되는 사운드 신 내에서 청취 위치 및 방위를 자유로이 결정할 수 있다.
제 2 스테이지 합성 유닛(502)은 확성기 셋업(131)의 정보에 의거하여 L개의 확성기 신호들(511 내지 51L)을 계산한다. 유닛(502)이 [27]에서의 DirAC 합성의 제 2 절반과 동일함을 상기하라.
도 10b는 하나의 실시예에 따른 제 1 합성 스테이지 유닛을 도시한다. 블록에 제공되는 입력은 M개의 층들로 구성되는 GAC 스트림이다. 제 1 단계에서, 유닛(601)은 M개의 층들을 하나의 층 각각의 M개의 병렬 GAC 스트림으로 디멀티플렉싱한다.
i번째 GAC 스트림은 압력 신호(Pi), 확산(ψi) 및 위치 벡터(Q = [Xi,Yi,Zi]T)를 포함한다. 압력 신호(Pi)는 하나 이상의 압력 값들을 포함한다. 위치 벡터는 위치 값이다. 적어도 하나의 오디오 출력 신호는 현재 이 값들에 의거하여 생성된다.
확산(ψi)으로부터 도출되는 적절한 인수를 적용함으로써 다이렉트 및 확산 사운드(Pdir ,i 및 Pdiff ,i)에 대한 압력 신호가 Pi로부터 획득된다. 다이렉트 사운드를 포함하는 압력 신호들은 사운드 소스 위치, 예를 들어 IPLS 위치로부터 청취자의 위치로의 신호 전파에 대응하는 지연들을 계산하는 전파 보상 블록(602)에 진입한다. 이 외에도, 브록은 또한 상이한 진폭 파괴들을 보상하는 데 필요한 이득 계수들을 계산한다. 다른 실시예들에서, 상이한 진폭 붕괴들만이 보상되고, 반면에 지연들은 보상되지 않는다.
Figure 112013059901080-pct00037
으로 표시되는 보상된 압력 신호들은 블록 603으로 진입하고, 이 블록은 가장 강한 입력의 인덱스(imax)를 출력한다.
Figure 112013059901080-pct00038
(3)
이 메커니즘의 배경이 되는 주 개념은 연구 중인 시간-주파수 빈에서 활성인 M개의 IPLS 중에서, 가장 강한 IPLS만이(청취자 위치에 대해) 코히런트하게 재생(즉, 다이렉트 사운드로서)될 것이라는 점이다. 블록들(604 및 605)은 자체의 입력들로부터 imax에 의해 정의되는 입력을 선택한다. 블록 607은 청취자의 위치 및 방위에 대해 imax번째 IPLS의 도착 방향을 계산한다(입력(141)). 블록 604의 출력(
Figure 112013059901080-pct00039
)은 블록 501의 출력, 즉 블록 502에 의해 다이렉트 사운드로서 재생될 사운드 신호(Pdir)에 대응한다. 확산 사운드, 즉 출력 504(Pdiff)는 imax번째, 즉 ∀j≠imax를 제외하고, 모든 다이렉트 사운드 신호들(
Figure 112013059901080-pct00040
)뿐만 아니라 M개의 브랜치들 내의 모든 확산 사운드의 합을 포함한다.
도 10c는 제 2 합성 스테이지 유닛(502)을 도시한다. 상술한 바와 같이, 이 스테이지는 [27]에서 제안된 합성 모듈의 제 2 절반과 동일하다. 비확산 사운드(Pdir)(503)는 예를 들어 패닝에 의해 점형 소스로서 재생되고, 이 이득들은 도착 방향(505)에 의거하여 블록(701)에서 계산된다. 한편, 확산 사운드(Pdiff)는 L의 별개의 상관 해제기들(711 내지 71L)을 통과한다. L개의 확성기 신호들의 각각의 경우, 역 필터뱅크(703)를 통과하기 전에 다이렉트 및 확산 사운드 경로들이 추가된다.
도 11은 대안의 실시예에 따른 합성 모듈을 도시한다. 도면에서의 모든 양들은 시간-주파수 도메인에서 고려되고; (k,n) 표기는 간소화를 위해 무시되는데, 예를 들어 Pi = Pi(k,n)이다. 특정한 복소 사운드 신들의 경우에서의 재생의 오디오 품질을 개선하기 위해, 예를 들어 동시에 활성화되는 많은 소스들, 합성 모듈, 예를 들어 합성 모듈(104)이 예를 들어 도 11에 도시된 바와 같이 실현될 수 있다. 코히런트하게 재생될 가장 우세한 IPLS를 선택하는 대신, 도 11에서의 합성은 M개의 층들 각각의 완전한 합성을 개별적으로 수행한다. i번째 층으로부터의 L개의 확성기 신호들은 블록 502의 출력이고 191i 내지 19Li로 표시된다. 제 1 합성 스테이지 유닛(501)의 출력에서의 h번째 확성기 신호(19h)는 19h1 내지 19hM의 합이다. 도 10b와는 상이하게, 블록 607에서의 DOA 추정 단계는 M개의 층들의 각각에 대해 수행될 필요가 있음을 주지하라.
도 26은 하나의 실시예에 따른 가상 마이크로폰 데이터 스트림을 생성하는 장치(950)를 도시한다. 가상 마이크로폰 데이터 스트림을 생성하는 장치(950)는 상술한 실시예들 중 하나에 따른, 예를 들어 도 12에 따른 가상 마이크로폰의 오디오 출력 신호를 생성하는 장치(960) 및 상술한 실시예들 중 하나에 따른, 예를 들어 도 2에 따른 오디오 데이터 스트림을 생성하는 장치(970)를 포함하고, 여기서 오디오 데이터 스트림을 생성하는 장치(970)에 의해 생성되는 오디오 데이터 스트림은 가상 마이크로폰 데이터 스트림이다.
가상 마이크로폰의 오디오 출력 신호를 생성하는, 예를 들어 도 26에서의 장치(960)는 도 12에서와 같이 정보 계산 모듈 및 사운드 이벤트 위치 추정기를 포함한다. 사운드 이벤트 위치 추정기는 환경에서 사운드 소스의 한 위치를 표시하는 사운드 소스 위치를 추정하도록 적응되고, 여기서 사운드 이벤트 위치 추정기는 환경 내의 제 1 실제 마이크로폰 위치에 배치되어 있는 제 1 실제 공간 마이크로폰에 의해 제공되는 제 1 방향 정보에 의거하고, 환경 내의 제 2 실제 마이크로폰 위치에 배치되어 있는 제 2 실제 공간 마이크로폰에 의해 제공되는 제 2 방향 정보에 의거하여 사운드 소스 위치를 추정하도록 적응된다. 정보 계산 모듈은 녹음된 오디오 입력 신호에 의거하고, 제 1 실제 마이크로폰 위치에 의거하고, 계산된 마이크로폰 위치에 의거하여 오디오 출력 신호를 생성하도록 적응된다.
가상 마이크로폰의 오디오 출력 신호를 생성하는 장치(960)는 오디오 데이터 스트림을 생성하는 장치(970)에 오디오 출력 신호를 제공하도록 배열된다. 오디오 데이터 스트림을 생성하는 장치(970)는 판정기, 예를 들어 도 2에 관하여 기술된 판정기(210)를 포함한다. 오디오 데이터 스트림을 생성하는 장치(970)의 판정기는 가상 마이크로폰의 오디오 출력 신호를 생성하는 장치(960)에 의해 제공되는 오디오 출력 신호에 의거하여 사운드 소스 데이터를 판정한다.
도 27은 상술한 실시예들 중 하나에 따른 오디오 데이터 스트림에 의거하여 적어도 하나의 오디오 출력 신호를 생성하는 장치(980), 예를 들어, 제 1 항의 장치를 도시하고, 이 장치는 가상 마이크로폰 데이터 스트림을 생성하는 장치(950), 예를 들어 도 26에서의 장치(950)에 의해 제공되는 오디오 데이터 스트림으로서의 가상 마이크로폰 데이터 스트림에 의거하여 오디오 출력 신호를 생성하도록 구성된다.
가상 마이크로폰 데이터 스트림을 생성하는 장치(980)는 오디오 데이터 스트림에 의거하여 적어도 하나의 오디오 출력 신호를 생성하는 장치(980)에 생성된 가상 마이크로폰 신호를 공급한다. 가상 마이크로폰 데이터 스트림이 오디오 데이터 스트림인 것이 주지되어야 한다. 오디오 데이터 스트림에 의거하여 적어도 하나의 오디오 출력 신호를 생성하는 장치(980)는 예를 들어 도 1의 장치에 대하여 기술된 바와 같이, 오디오 데이터 스트림으로서의 가상 마이크로폰 데이터 스트림에 의거하여 오디오 출력 신호를 생성한다.
일부 양태들이 장치의 상황에서 기술되었을지라도, 이 양태들은 또한 대응하는 방법의 기술을 표현하는 것이 명백하며 여기서 블록 또는 디바이스는 방법 단계 또는 방법 단계의 특징에 대응한다. 유사하게, 방법 단계의 상황에서 기술된 양태들은 대응하는 장치의 대응하는 유닛 또는 아이템 또는 특징의 기술을 표현한다.
본 발명의 분해된 신호는 디지털 저장 매체 상에 저장될 수 있거나 무선 송신 매체 또는 인터넷과 같은 유선 송신 매체와 같은 송신 매체 상에서 송신될 수 있다.
특정한 구현 요건들에 따르면, 본 발명의 실시예들은 하드웨어에서 또는 소프트웨어에서 구현될 수 있다. 상기 구현은 내부에 저장되며 프로그래머블 컴퓨터 시스템과 공동 작업하여(또는 공동 작업할 수 있어서) 각각의 방법이 수행되도록 하는 전자적으로 판독 가능한 제어 신호들을 가지는 디지털 저장 매체, 예를 들어 플로피 디스크, DVD, CD, ROM, PROM, EPROM, EEPROM 또는 플래시 메모리를 이용하여 수행될 수 있다.
본 발명에 따른 일부 실시예들은 프로그래머블 컴퓨터 시스템과 공동 작업할 수 있어서 본원에 기술된 방법들 중 하나가 수행되도록 하는 전자적으로 판독 가능한 제어 신호들을 가지는 비일시적 데이터 캐리어(carrier)를 포함한다.
일반적으로, 본 발명의 실시예들은 프로그램 코드를 가지는 컴퓨터 프로그램 제품으로 구현될 수 있고, 프로그램 코드는 컴퓨터 프로그램 제품이 컴퓨터에서 작동될 때 상기 방법들 중 하나는 수행하도록 동작한다. 프로그램 코드는 예를 들어 기계 판독 가능 캐리어 상에 저장될 수 있다.
다른 실시예들은 본원에 기술되는 방법들 중 하나를 수행하고 기계 판독 가능 캐리어 상에 저장되는 컴퓨터 프로그램을 포함한다.
즉, 본 발명의 방법의 하나의 실시예는 따라서 컴퓨터 프로그램이 컴퓨터 상에서 작동될 때 본원에 기술되는 방법들 중 하나를 수행하는 프로그램 코드를 가지는 컴퓨터 프로그램이다.
본 발명의 방법의 추가 실시예는 그러므로 내부에 기록되어서 본원에 기술되는 방법들 중 하나를 수행하는 컴퓨터 프로그램을 포함하는 데이터 캐리어(또는 디지털 저장 매체 또는 컴퓨터 판독 가능 매체)이다.
본 발명의 추가 실시예는 그러므로 본원에서 기술되는 방법들 중 하나를 수행하는 컴퓨터 프로그램을 표현하는 신호들의 데이터 스트림 또는 시퀀스이다. 신호들의 데이터 스트림 또는 시퀀스는 예를 들어 데이터 통신 접속을 통해, 예를 들어 인터넷을 통해 전송되고 구성될 수 있다.
추가 실시예는 본원에서 기술되는 방법들 중 하나를 수행하도록 구성되거나 적응되는 프로세싱 수단, 예를 들어 컴퓨터 또는 프로그래머블 로직 디바이스를 포함한다.
추가 실시예는 본원에 기술되는 방법들 중 하나를 수행하기 위해 내부에 컴퓨터 프로그램을 설치한 컴퓨터를 포함한다.
일부 실시예들에서, 프로그래머블 로직 디바이스(예를 들어, 필드 프로그래머블 게이트 어레이)는 본원에서 기술되는 방법들의 기능들의 일부 또는 모두를 수행하는 데 이용될 수 있다. 일부 실시예들에서, 필드 프로그래머블 게이트 어레이는 본원에서 기술되는 방법들 중 하나를 수행하기 위해 마이크로프로세서와 공동 작업할 수 있다. 일반적으로, 상기 방법들은 바람직하게도 임의의 하드웨어 장치에 의해 수행된다.
상술한 실시예들은 단지 본 발명의 원리들에 대한 예시이다. 본원에 기술되는 배열들 및 세부사항들의 수정들 및 변형들은 당업자에게 명백할 것임이 이해된다. 그러므로 바로 아래에 있는 특허 청구항들의 범위에 의해서만 제한되고 본원에서의 실시예들의 기술 및 설명에 의해 제공되는 특정한 세부사항들에 의해서 제한되지 않는 것이 본 발명의 의도이다.
문헌들
[1] Michael A. Gerzon. Ambisonics in multichannel broadcasting and video. J. Audio Eng. Soc, 33(11):859-871, 1985.
[2] V. Pulkki. "Directional audio coding in spatial sound reproduction and stereo upmixing," in Proceedings of the AES 28th International Conference, pp. 251-258, Pi tea, Sweden, June 30 - July 2, 2006.
[3] V. Pulkki, "Spatial sound reproduction with directional audio coding," J. Audio Eng. Soc, vol. 55, no. 6, pp. 503-516, June 2007.
[4] C. Fallen "Microphone Front-Ends for Spatial Audio Coders'", in Proceedings of the AES 125th International Convention, San Francisco, Oct, 2008.
[5] M. Kallinger, H. Ochsenfeld, G. Del Galdo, F. Kiich, D. Mahne, R. Schultz-Amling. and O. Thiergart, "A spatial filtering approach for directional audio coding," in Audio Engineering Society Convention 126, Munich, Germany, May 2009.
[6] R. Schultz-Amling, F. Koech, O. Thiergart, and M. Kallinger, "Acoustical zooming based on a parametric sound field representation," in Audio Engineering Society Convention 128, London UK, May 2010.
[7] J. Herre, C. Falch, D. Mahne, G. Del Galdo, M. Kallinger, and O. Thiergart, "Interactive teleconferencing combining spatial audio object coding and DirAC technology." in Audio Engineering Society Convention 128, London UK, May 2010.
[8] E. G. Williams, Fourier Acoustics; Sound Radiation and Nearfield Acoustical Holography, Academic Press, 1999.
[9] A. Kuntz and R. Rabenstein, "Limitations in the extrapolation of wave fields from circular measurements," in 15th European Signal Processing Conference (EUSIPCO 2007), 2007.
[10] A. Walther and C. Faller, "Linear simulation of spaced microphone arrays using b-format recordings," in Audio Engiineering Society Convention 128, London UK, May 2010.
[11] US61/287,596: An Apparatus and a Method for Converting a First Parametric Spatial Audio Signal into a Second Parametric Spatial Audio Signal.
[12] S. Rickard and Z. Yilmaz, "On the approximate W-disjoint orthogonality of speech," in Acoustics, Speech and Signal Processing, 2002. ICASSP 2002. IEEE International Conference on, April 2002, vol. 1.
[13] R. Roy, A. Paulraj, and T. Kailath, "Direction-of-arrival estimation by subspace rotation methods - ESPRIT," in IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), Stanford, CA, USA, April 1986.
[14] R. Schmidt, "Multiple emitter location and signal parameter estimation," IEEE Transactions on Antennas and Propagation, vol. 34, no. 3, pp. 276-280, 1986.
[15] J. Michael Steele, "Optimal Triangulation of Random Samples in the Plane", The Annals of Probability, Vol. 10, No.3 (Aug., 1982), pp. 548-553.
[16] F. J. Fahy, Sound Intensity, Essex: Elsevier Science Publishers Ltd., 1989.
[17] R. Schultz-Amling, F. Kuch, M. Kallinger, G. Del Galdo, T. Ahonen and V. Puikki, "Planar microphone array processing for the analysis and reproduction of spatial audio using directional audio coding," in Audio Engineering Society Convention 124, Amsterdam, The Netherlands, May 2008.
[18] M. Kallinger, F. Kuch, R. Schultz-Amling, G. Del Galdo, T. Ahonen and V. Puikki, "Enhanced direction estimation using microphone arrays for directional audio coding;" in Hands-Free Speech Communication and Microphone Arrays, 2008. HSCMA 2008, May 2008, pp. 45-48.
[19] R. K. Furness, "Ambisonics - An overview," in AES 8th International Conference, April 1990, pp. 181-189.
[20] Giovanni Del Galdo, Oliver Thiergart, Tobias Weller, and E. A. P. Habets. Generating virtual microphone signals using geometrical information gathered by distributed arrays. In Third Joint Workshop on Hands-free Speech Communication and Microphone Arrays (HSCMA’11), Edinburgh, United Kingdom, May 2011.
[21] J. Herre, K. Kjoerling, J. Breebaart, C. Faller, S. Disch, H. Purnhagen, J. Koppens, J. Hilpert, J. Roeden, W. Oomen, K. Linzmeier, K.S. Chong: "MPEG Surround - The ISO/MPEG Standard for Efficient and Compatible Multichannel Audio Coding", 122nd AES Convention, Vienna, Austria, 2007, Preprint 7084.
[22] Ville Pulkki. Spatial sound reproduction with directional audio coding. J. Audio Eng. Soc, 55(6):503-516, June 2007.
[23] C. Faller. Microphone front-ends for spatial audio coders. In Proc. of the AES 125th International Convention, San Francisco, Oct. 2008.
[24] Emmanuel Gallo and Nicolas Tsingos. Extracting and re-rendering structured auditory scenes from field recordings. In AES 30th International Conference on Intelligent Audio Environments, 2007.
[25] Jeroen Breebaart, Jonas Engdegard, Cornelia Falch, Oliver Hellmuth, Johannes Hilpert, Andreas Hoelzer, Jeroens Koppens, Werner Oomen, Barbara Resch, Erik Schuijers, and Leonid Terentiev. Spatial audio object coding (saoc) - the upcoming mpeg standard on parametric object based audio coding. In Audio Engineering Society Convention 124, 5 2008.
[26] R. Roy and T. Kailath. ESPRIT-estimation of signal parameters via rotational invariance techniques. Acoustics, Speech and Signal Processing, IEEE Transactions on, 37(7):984-995, July 1989.
[27] WO2004077884: Tapio Lokki, Juha Merimaa, and Ville Pulkki. Method for reproducing natural or modified spatial impression in multichannel listening, 2006.
[28] Svein Berge. Device and method for converting spatial audio signal. US patent application, Appl. No. 10/547,151.

Claims (25)

  1. 하나 이상의 사운드 소스들과 관련되는 오디오 데이터를 포함하는 오디오 데이터 스트림에 의거하여 적어도 하나의 오디오 출력 신호를 생성하는 장치(150; 600)로서,
    상기 오디오 데이터를 포함하는 오디오 데이터 스트림을 수신하는 수신기(160; 610) - 상기 오디오 데이터는 상기 하나 이상의 사운드 소스들의 각각의 사운드 소스에 대해 하나 이상의 사운드 압력 값들을 포함하고, 상기 오디오 데이터는 상기 하나 이상의 사운드 소스들의 각각의 사운드 소스에 대해 상기 사운드 소스들 중 하나의 위치를 표시하는 하나 이상의 위치 값들을 더 포함하고, 상기 하나 이상의 위치 값들의 각각의 값은 적어도 2개의 좌표 값들을 포함하고, 상기 오디오 데이터는 상기 사운드 소스들의 각각의 사운드 소스에 대해 하나 이상의 사운드 확산 값들(diffuseness-of-sound values)을 더 포함함 - 와,
    상기 오디오 데이터 스트림의 상기 오디오 데이터의 상기 하나 이상의 사운드 압력 값들 중 적어도 하나에 의거하고, 상기 오디오 데이터 스트림의 오디오 데이터의 하나 이상의 위치 값들 중 적어도 하나에 의거하고, 상기 오디오 데이터 스트림의 오디오 데이터의 하나 이상의 사운드 확산 값들 중 적어도 하나에 의거하여 상기 적어도 하나의 오디오 출력 신호를 생성하는 합성 모듈(170; 620)을 포함하는
    장치.
  2. 제 1 항에 있어서,
    상기 오디오 데이터는 시간-주파수 도메인에서 정의되는
    장치.
  3. 제 1 항에 있어서,
    상기 수신기(160; 610)는 상기 오디오 데이터의 하나 이상의 사운드 압력 값들 중 적어도 하나를 수정함으로써, 상기 오디오 데이터의 하나 이상의 위치 값들 중 적어도 하나를 수정함으로써, 또는 상기 오디오 데이터의 하나 이상의 사운드 확산 값들 중 적어도 하나를 수정함으로써 상기 수신된 오디오 데이터 스트림의 오디오 데이터를 수정하는 수정 모듈(630)을 더 포함하고,
    상기 합성 모듈(170; 620)은 수정된 적어도 하나의 사운드 압력 값에 의거하고, 수정된 적어도 하나의 위치 값에 의거하고 또는 수정된 적어도 하나의 사운드 확산 값에 의거하여 상기 적어도 하나의 오디오 출력 신호를 생성하도록 구성되는
    장치.
  4. 제 3 항에 있어서,
    상기 사운드 소스들의 각각의 사운드 소스의 위치 값들의 각각의 값은 적어도 2개의 좌표 값들을 포함하고, 상기 수정 모듈(630)은 사운드 소스가 환경의 미리 정의된 영역 내의 위치에 배치되어 있음을 상기 좌표 값들이 표시할 때 상기 좌표 값들에 적어도 하나의 난수를 추가함으로써 상기 좌표 값들을 수정하도록 구성되는
    장치.
  5. 제 3 항에 있어서,
    상기 사운드 소스들의 각각의 사운드 소스의 위치 값들의 각각의 값은 적어도 2개의 좌표 값들을 포함하고, 상기 수정 모듈(630)은 사운드 소스가 환경의 미리 정의된 영역 내의 위치에 배치되어 있음을 상기 좌표 값들이 표시할 때 상기 좌표 값들에 확정 함수(deterministic function)를 적용함으로써 상기 좌표 값들을 수정하도록 구성되는
    장치.
  6. 제 3 항에 있어서,
    상기 사운드 소스들의 각각의 사운드 소스의 위치 값들의 각각의 값은 적어도 2개의 좌표 값들을 포함하고, 상기 수정 모듈(630)은 사운드 소스가 환경의 미리 정의된 영역 내의 위치에 배치되어 있음을 상기 좌표 값들이 표시할 때 상기 오디오 데이터의 하나 이상의 사운드 압력 값들 중 선택된 사운드 압력 값을 수정하도록 구성되고, 상기 선택된 사운드 압력 값은 상기 좌표 값들과 동일한 사운드 소스과 관련되는
    장치.
  7. 제 6 항에 있어서,
    상기 수정 모듈(630)은 상기 사운드 소스가 환경의 미리 정의된 영역 내의 위치에 배치되어 있음을 상기 좌표 값들이 표시할 때, 상기 하나 이상의 사운드 확산 값들 중 하나에 의거하여 상기 오디오 데이터의 하나 이상의 사운드 압력 값들 중 상기 선택된 사운드 압력 값을 수정하도록 구성되는
    장치.
  8. 제 1 항에 있어서,
    상기 합성 모듈은
    상기 오디오 데이터 스트림의 오디오 데이터의 하나 이상의 사운드 압력 값들 중 적어도 하나에 의거하고, 상기 오디오 데이터 스트림의 오디오 데이터의 하나 이상의 위치 값들 중 적어도 하나에 의거하고 상기 오디오 데이터 스트림의 오디오 데이터의 하나 이상의 사운드 확산 값들 중 적어도 하나에 의거하여 다이렉트 사운드를 포함하는 다이렉트 사운드 압력 신호, 확산 사운드를 포함하는 확산 사운드 압력 신호 및 도착 정보의 방향을 생성하는 제 1 스테이지 합성 유닛(501)과,
    상기 다이렉트 사운드 압력 신호와, 상기 확산 사운드 압력 신호와, 도착 정보의 방향에 의거하여 상기 적어도 하나의 오디오 출력 신호를 생성하는 제 2 스테이지 합성 유닛(502)을 포함하는
    장치.
  9. 하나 이상의 사운드 소스들과 관련되는 사운드 소스 데이터를 포함하는 오디오 데이터 스트림을 생성하는 장치(200)로서,
    적어도 하나의 마이크로폰에 의해 녹음되는 적어도 하나의 오디오 입력 신호에 의거하고 적어도 2개의 공간 마이크로폰들에 의해 제공되는 오디오 사이드 정보에 의거하여 상기 사운드 소스 데이터를 판정하는 판정기(210; 670) - 상기 오디오 사이드 정보는 공간 사운드를 기술하는 공간 사이드 정보임 - 와,
    상기 오디오 데이터 스트림이 상기 사운드 소스 데이터를 포함하도록 상기 오디오 데이터 스트림을 생성하는 데이터 스트림 생성기(220; 680)를 포함하고,
    상기 적어도 2개의 공간 마이크로폰들의 각각의 공간 마이크로폰은 사운드의 도착 방향을 검출할 수 있는 공간 사운드의 획득을 위한 장치이고,
    상기 사운드 소스 데이터는 상기 사운드 소스들의 각각의 사운드 소스에 대해 하나 이상의 사운드 압력 값들을 포함하고, 상기 사운드 소스 데이터는 상기 사운드 소스들의 각각의 사운드 소스에 대해 사운드 소스 위치를 표시하는 하나 이상의 위치 값들을 더 포함하는
    장치.
  10. 제 9 항에 있어서,
    상기 사운드 소스 데이터는 시간-주파수 도메인에서 정의되는
    장치.
  11. 제 9 항에 있어서,
    상기 사운드 소스 데이터는 상기 사운드 소스들의 각각의 사운드 소스에 대해 하나 이상의 사운드 확산 값들을 더 포함하고
    상기 판정기(210; 670)는 상기 적어도 2개의 공간 마이크로폰들 중 적어도 하나의 공간 마이크로폰과 관련되는 사운드 확산 정보에 의거하여 상기 사운드 소스 데이터의 하나 이상의 사운드 확산 값들을 판정하도록 구성되고, 상기 사운드 확산 정보는 상기 적어도 2개의 공간 마이크로폰들 중 적어도 하나에서의 사운드 확산을 표시하는
    장치.
  12. 제 11 항에 있어서,
    상기 장치(200)는 상기 사운드 소스들 중 적어도 하나와 관련되는 오디오 데이터의 사운드 압력 값들 중 적어도 하나, 상기 오디오 데이터의 위치 값들 중 적어도 하나 또는 상기 오디오 데이터의 사운드 확산 값들 중 적어도 하나를 수정함으로써 상기 데이터 스트림 생성기에 의해 생성되는 오디오 데이터 스트림을 수정하는 수정 모듈(690)을 더 포함하는
    장치.
  13. 제 12 항에 있어서,
    상기 사운드 소스들의 각각의 사운드 소스의 위치 값들의 각각의 값은 적어도 2개의 좌표 값들을 포함하고, 상기 수정 모듈(690)은 사운드 소스가 환경의 미리 정의된 영역 내의 위치에 배치되어 있음을 상기 좌표 값들이 표시할 때 상기 좌표 값들에 적어도 하나의 난수를 추가함으로써 또는 상기 좌표 값들에 확정 함수를 적용함으로써 상기 좌표 값들을 수정하도록 구성되는
    장치.
  14. 제 12 항에 있어서,
    사운드 소스들의 각각의 사운드 소스의 위치 값들의 각각의 값은 적어도 2개의 좌표 값들을 포함하고, 상기 사운드 소스가 환경의 미리 정의된 영역 내의 위치에 배치되어 있음을 상기 사운드 소스들 중 하나의 좌표 값들이 표시할 때 상기 수정 모듈(690)은 상기 오디오 데이터의 상기 사운드 소스의 선택된 사운드 압력 값을 수정하도록 구성되는
    장치.
  15. 제 12 항에 있어서,
    상기 수정 모듈(690)은 사운드 소스가 환경의 미리 정의된 영역 내의 위치에 배치되어 있음을 좌표 값들이 표시할 때, 상기 좌표 값들에 확정 함수를 적용함으로써 상기 좌표 값들을 수정하도록 구성되는
    장치.
  16. 가상 마이크로폰 데이터 스트림을 생성하는 장치(950)로서,
    가상 마이크로폰의 오디오 출력 신호를 생성하는 장치(960)와,
    오디오 데이터 스트림을 상기 가상 마이크로폰 데이터 스트림으로서 생성하는 제 9 항 내지 제 12 항 중 한 항에 따른 장치(970) - 상기 오디오 데이터 스트림은 오디오 데이터를 포함하고, 상기 오디오 데이터는 하나 이상의 사운드 소스들의 각각의 사운드 소스에 대해 사운드 소스 위치를 표시하는 하나 이상의 위치 값들을 포함하고, 상기 하나 이상의 위치 값들의 각각의 값은 적어도 2개의 좌표 값들을 포함함 - 를 포함하고,
    가상 마이크로폰의 오디오 출력 신호를 생성하는 상기 장치(960)는
    환경 내의 사운드 소스의 위치를 표시하는 사운드 소스 위치를 추정하는 사운드 이벤트 위치 추정기(110) - 상기 사운드 이벤트 위치 추정기(110)는 상기 환경 내의 제 1 실제 마이크로폰 위치에 배치되어 있는 제 1 실제 공간 마이크로폰에 의해 방출되는 사운드의 제 1 도착 방향에 의거하고 상기 환경 내의 제 2 실제 마이크로폰 위치에 배치되어 있는 제 2 실제 공간 마이크로폰에 의해 방출되는 사운드의 제 2 도착 방향에 의거하여 상기 사운드 소스 위치를 추정하도록 구성됨 - 와,
    상기 제 1 실제 공간 마이크로폰에 의해 녹음되어 있는 녹음된 오디오 입력 신호에 의거하고, 상기 제 1 실제 마이크로폰 위치에 의거하고, 그리고 상기 가상 마이크로폰의 가상 위치에 의거하여 상기 오디오 출력 신호를 생성하는 정보 계산 모듈(120)을 포함하고,
    상기 제 1 실제 공간 마이크로폰 및 상기 제 2 실제 공간 마이크로폰은 사운드의 도착 방향을 검출할 수 있는 공간 사운드의 획득을 위한 장치들이고,
    가상 마이크로폰의 오디오 출력 신호를 생성하는 상기 장치(960)는 오디오 데이터 스트림을 생성하는 장치(970)에 상기 오디오 신호를 제공하도록 배열되고,
    오디오 데이터 스트림을 생성하는 장치(970)의 상기 판정기는 가상 마이크로폰의 오디오 출력 신호를 생성하는 장치(960)에 의해 제공되는 오디오 출력 신호에 의거하여 상기 사운드 소스 데이터를 판정하고, 상기 오디오 출력 신호는 오디오 데이터 스트림을 생성하는 제 9 항 내지 제 12 항 중 한 항에 따른 상기 장치(970)의 적어도 하나의 오디오 입력 신호 중 하나인
    장치.
  17. 하나 이상의 사운드 소스들과 관련되는 오디오 데이터를 포함하는 오디오 데이터 스트림에 의거하여 적어도 하나의 오디오 출력 신호를 생성하는 장치(980)로서,
    상기 장치(980)는,
    상기 오디오 데이터를 포함하는 오디오 데이터 스트림을 수신하는 수신기(160) - 상기 오디오 데이터는 상기 하나 이상의 사운드 소스들의 각각의 사운드 소스에 대해 하나 이상의 사운드 압력 값들을 포함하고, 상기 오디오 데이터는 상기 하나 이상의 사운드 소스들의 각각의 사운드 소스에 대해 상기 사운드 소스들 중 하나의 위치를 표시하는 하나 이상의 위치 값들을 더 포함하고, 상기 하나 이상의 위치 값들의 각각의 값은 적어도 2개의 좌표 값들을 포함하고, 상기 오디오 데이터는 상기 사운드 소스들의 각각의 사운드 소스에 대해 하나 이상의 사운드 확산 값들을 더 포함함 - 와,
    상기 오디오 데이터 스트림의 상기 오디오 데이터의 상기 하나 이상의 사운드 압력 값들 중 적어도 하나에 의거하고, 상기 오디오 데이터 스트림의 오디오 데이터의 하나 이상의 위치 값들 중 적어도 하나에 의거하고, 상기 오디오 데이터 스트림의 오디오 데이터의 하나 이상의 사운드 확산 값들 중 적어도 하나에 의거하여 상기 적어도 하나의 오디오 출력 신호를 생성하는 합성 모듈(170)을 포함하되,
    상기 장치는 제 16 항에 따른 가상 마이크로폰 데이터 스트림을 생성하는 장치(950)에 의해 제공되는 오디오 데이터 스트림으로서의 가상 마이크로폰 데이터 스트림에 의거하여 상기 오디오 출력 신호를 생성하도록 구성되는
    장치.
  18. 시스템으로서,
    제 1 항에 따라 적어도 하나의 오디오 출력 신호를 생성하는 장치와,
    하나 이상의 사운드 소스들과 관련되는 사운드 소스 데이터를 포함하는 오디오 데이터 스트림을 생성하는 장치를 포함하되,
    상기 오디오 데이터 스트림을 생성하는 장치는,
    적어도 하나의 마이크로폰에 의해 녹음되는 적어도 하나의 오디오 입력 신호에 의거하고 적어도 2개의 공간 마이크로폰들에 의해 제공되는 오디오 사이드 정보에 의거하여 상기 사운드 소스 데이터를 판정하는 판정기(210; 670) - 상기 오디오 사이드 정보는 공간 사운드를 기술하는 공간 사이드 정보임 - 와,
    상기 오디오 데이터 스트림이 상기 사운드 소스 데이터를 포함하도록 상기 오디오 데이터 스트림을 생성하는 데이터 스트림 생성기(220; 680)를 포함하고,
    상기 적어도 2개의 공간 마이크로폰들의 각각의 공간 마이크로폰은 사운드의 도착 방향을 검출할 수 있는 공간 사운드의 획득을 위한 장치이고,
    상기 사운드 소스 데이터는 상기 사운드 소스들의 각각의 사운드 소스에 대해 하나 이상의 사운드 압력 값들을 포함하고, 상기 사운드 소스 데이터는 상기 사운드 소스들의 각각의 사운드 소스에 대해 사운드 소스 위치를 표시하는 하나 이상의 위치 값들을 더 포함하는
    시스템.
  19. 하나 이상의 사운드 소스들과 관련되는 오디오 데이터를 포함하는 오디오 데이터 스트림을 포함하는 컴퓨터 판독가능 저장 매체로서,
    상기 오디오 데이터는 하나 이상의 사운드 소스들의 각각의 사운드 소스에 대해 하나 이상의 사운드 압력 값들을 포함하고,
    상기 오디오 데이터는 상기 하나 이상의 사운드 소스들의 각각의 사운드 소스에 대해 사운드 소스 위치를 표시하는 하나 이상의 위치 값들을 더 포함하고, 상기 하나 이상의 위치 값들이 각각의 값은 적어도 2개의 좌표 값들을 포함하고,
    상기 오디오 데이터는 상기 하나 이상의 사운드 소스들의 각각의 사운드 소스에 대해 하나 이상의 사운드 확산 값들을 더 포함하는
    컴퓨터 판독가능 저장 매체.
  20. 제 19 항에 있어서,
    상기 오디오 데이터는 시간-주파수 도메인에서 정의되는
    컴퓨터 판독가능 저장 매체.
  21. 하나 이상의 사운드 소스들과 관련되는 오디오 데이터를 포함하는 오디오 데이터 스트림에 의거하여 적어도 하나의 오디오 출력 신호를 생성하는 방법으로서,
    상기 오디오 데이터를 포함하는 오디오 데이터 스트림을 수신하는 단계 - 상기 오디오 데이터는 상기 하나 이상의 사운드 소스들의 각각의 사운드 소스에 대해 하나 이상의 사운드 압력 값들을 포함하고, 상기 오디오 데이터는 상기 하나 이상의 사운드 소스들의 각각의 사운드 소스에 대해 상기 사운드 소스들 중 하나의 위치를 표시하는 하나 이상의 위치 값들을 더 포함하고, 상기 하나 이상의 위치 값들의 각각의 값은 적어도 2개의 좌표 값을 포함하고, 상기 오디오 데이터는 상기 사운드 소스들의 각각의 사운드 소스에 대해 하나 이상의 사운드 확산 값들을 더 포함함 - 와,
    상기 오디오 데이터 스트림의 오디오 데이터의 하나 이상의 사운드 압력 값들 중 적어도 하나에 의거하고, 상기 오디오 데이터 스트림의 오디오 데이터의 하나 이상의 위치 값들 중 적어도 하나에 의거하고, 상기 오디오 데이터 스트림의 오디오 데이터의 하나 이상의 사운드 확산 값들 중 적어도 하나에 의거하여 상기 적어도 하나의 오디오 출력 신호를 생성하는 단계를 포함하는
    적어도 하나의 오디오 출력 신호를 생성하는 방법.
  22. 제 21 항에 있어서,
    상기 방법은 상기 오디오 데이터의 하나 이상의 사운드 압력 값들 중 적어도 하나를 수정함으로써, 상기 오디오 데이터의 하나 이상의 위치 값들 중 적어도 하나를 수정함으로써, 또는 상기 오디오 데이터의 하나 이상의 사운드 확산 값들 중 적어도 하나를 수정함으로써 상기 수신된 오디오 데이터 스트림의 오디오 데이터를 수정하는 단계를 더 포함하고,
    상기 적어도 하나의 오디오 출력 신호를 판정하는 단계는 상기 오디오 데이터 스트림의 오디오 데이터의 하나 이상의 사운드 확산 값들 중 적어도 하나에 의거하여 상기 적어도 하나의 오디오 출력 신호를 생성하는 단계를 포함하고,
    상기 적어도 하나의 오디오 출력 신호를 판정하는 단계는 수정된 상기 적어도 하나의 사운드 압력 값에 의거하고, 수정된 상기 적어도 하나의 위치 값에 의거하고, 또는 수정된 적어도 하나의 사운드 확산 값에 의거하여 상기 적어도 하나의 오디오 출력 신호를 생성하는 단계를 포함하는
    방법.
  23. 하나 이상의 사운드 소스들과 관련되는 사운드 소스 데이터를 포함하는 오디오 데이터 스트림을 생성하는 방법으로서,
    적어도 하나의 마이크로폰에 의해 녹음되는 적어도 하나의 오디오 입력 신호에 의거하고 적어도 2개의 공간 마이크로폰들에 의해 제공되는 오디오 사이드 정보에 의거하여 사운드 소스 데이터를 판정하는 단계 - 상기 오디오 사이드 정보는 공간 사운드를 기술하는 공간 사이드 정보임 - 와,
    상기 오디오 데이터 스트림이 상기 사운드 소스 데이터를 포함하도록 상기 오디오 데이터 스트림을 생성하는 단계를 포함하고,
    상기 적어도 2개의 공간 마이크로폰들의 각각의 마이크로폰은 사운드의 도착 방향을 검출할 수 있는 공간 사운드의 획득을 위한 장치이고,
    상기 사운드 소스 데이터는 상기 사운드 소스들의 각각의 사운드 소스에 대해 하나 이상의 사운드 압력 값들을 포함하고, 상기 사운드 소스 데이터는 상기 사운드 소스들의 각각의 사운드 소스에 대해 사운드 소스 위치를 표시하는 하나 이상의 위치 값들을 더 포함하는
    방법.
  24. 하나 이상의 사운드 소스들과 관련되는 오디오 데이터를 포함하는 오디오 데이터 스트림을 생성하는 방법으로서,
    상기 사운드 소스들의 각각의 사운드 소스에 대해 적어도 하나의 사운드 압력 값을 포함하는 오디오 데이터를 수신하는 단계 - 상기 오디오 데이터는 상기 사운드 소스들의 각각의 사운드 소스에 대해 사운드 소스 위치를 표시하는 하나 이상의 위치 값들을 더 포함하고, 상기 오디오 데이터는 상기 사운드 소스들의 각각의 사운드 소스에 대해 하나 이상의 사운드 확산 값들을 더 포함함 - 와,
    상기 오디오 데이터 스트림이 상기 사운드 소스들의 각각의 사운드 소스에 대해 상기 적어도 하나의 사운드 압력 값을 포함하도록 하고, 상기 오디오 데이터 스트림이 상기 사운드 소스들의 각각의 사운드 소스에 대해 사운드 소스 위치를 표시하는 상기 하나 이상의 위치 값을 더 포함하도록 하고, 상기 오디오 데이터 스트림이 상기 사운드 소스들의 각각의 사운드 소스에 대해 하나 이상의 사운드 확산 값들을 더 포함하도록 하기 위해, 상기 오디오 데이터 스트림을 생성하는 단계를 포함하는
    오디오 데이터 스트림을 생성하는 방법.
  25. 컴퓨터 또는 프로세서 상에서 실행될 때 제 21 항 내지 제 24 항 중 어느 한 항의 방법을 구현하는 컴퓨터 프로그램을 포함하는
    컴퓨터 판독가능 저장 매체.
KR1020137017441A 2010-12-03 2011-12-02 기하학 기반의 공간 오디오 코딩을 위한 장치 및 방법 KR101619578B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US41962310P 2010-12-03 2010-12-03
US61/419,623 2010-12-03
US42009910P 2010-12-06 2010-12-06
US61/420,099 2010-12-06
PCT/EP2011/071644 WO2012072804A1 (en) 2010-12-03 2011-12-02 Apparatus and method for geometry-based spatial audio coding

Publications (2)

Publication Number Publication Date
KR20130111602A KR20130111602A (ko) 2013-10-10
KR101619578B1 true KR101619578B1 (ko) 2016-05-18

Family

ID=45406686

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020137017441A KR101619578B1 (ko) 2010-12-03 2011-12-02 기하학 기반의 공간 오디오 코딩을 위한 장치 및 방법
KR1020137017057A KR101442446B1 (ko) 2010-12-03 2011-12-02 도달 방향 추정치로부터의 기하학적 정보 추출을 통한 사운드 수집

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020137017057A KR101442446B1 (ko) 2010-12-03 2011-12-02 도달 방향 추정치로부터의 기하학적 정보 추출을 통한 사운드 수집

Country Status (16)

Country Link
US (2) US9396731B2 (ko)
EP (2) EP2647005B1 (ko)
JP (2) JP5728094B2 (ko)
KR (2) KR101619578B1 (ko)
CN (2) CN103583054B (ko)
AR (2) AR084091A1 (ko)
AU (2) AU2011334851B2 (ko)
BR (1) BR112013013681B1 (ko)
CA (2) CA2819502C (ko)
ES (2) ES2525839T3 (ko)
HK (1) HK1190490A1 (ko)
MX (2) MX338525B (ko)
PL (1) PL2647222T3 (ko)
RU (2) RU2556390C2 (ko)
TW (2) TWI489450B (ko)
WO (2) WO2012072804A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11915718B2 (en) 2020-02-20 2024-02-27 Samsung Electronics Co., Ltd. Position detection method, apparatus, electronic device and computer readable storage medium

Families Citing this family (105)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9558755B1 (en) 2010-05-20 2017-01-31 Knowles Electronics, Llc Noise suppression assisted automatic speech recognition
EP2600637A1 (en) * 2011-12-02 2013-06-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for microphone positioning based on a spatial power density
US10154361B2 (en) 2011-12-22 2018-12-11 Nokia Technologies Oy Spatial audio processing apparatus
EP2805326B1 (en) * 2012-01-19 2015-10-14 Koninklijke Philips N.V. Spatial audio rendering and encoding
JP6129316B2 (ja) 2012-09-03 2017-05-17 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 情報に基づく多チャネル音声存在確率推定を提供するための装置および方法
WO2014046916A1 (en) * 2012-09-21 2014-03-27 Dolby Laboratories Licensing Corporation Layered approach to spatial audio coding
US10136239B1 (en) 2012-09-26 2018-11-20 Foundation For Research And Technology—Hellas (F.O.R.T.H.) Capturing and reproducing spatial sound apparatuses, methods, and systems
US9955277B1 (en) 2012-09-26 2018-04-24 Foundation For Research And Technology-Hellas (F.O.R.T.H.) Institute Of Computer Science (I.C.S.) Spatial sound characterization apparatuses, methods and systems
US10175335B1 (en) 2012-09-26 2019-01-08 Foundation For Research And Technology-Hellas (Forth) Direction of arrival (DOA) estimation apparatuses, methods, and systems
US20160210957A1 (en) * 2015-01-16 2016-07-21 Foundation For Research And Technology - Hellas (Forth) Foreground Signal Suppression Apparatuses, Methods, and Systems
US9554203B1 (en) 2012-09-26 2017-01-24 Foundation for Research and Technolgy—Hellas (FORTH) Institute of Computer Science (ICS) Sound source characterization apparatuses, methods and systems
US9549253B2 (en) * 2012-09-26 2017-01-17 Foundation for Research and Technology—Hellas (FORTH) Institute of Computer Science (ICS) Sound source localization and isolation apparatuses, methods and systems
US10149048B1 (en) 2012-09-26 2018-12-04 Foundation for Research and Technology—Hellas (F.O.R.T.H.) Institute of Computer Science (I.C.S.) Direction of arrival estimation and sound source enhancement in the presence of a reflective surface apparatuses, methods, and systems
US9640194B1 (en) 2012-10-04 2017-05-02 Knowles Electronics, Llc Noise suppression for speech processing based on machine-learning mask estimation
FR2998438A1 (fr) * 2012-11-16 2014-05-23 France Telecom Acquisition de donnees sonores spatialisees
EP2747451A1 (en) 2012-12-21 2014-06-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Filter and method for informed spatial filtering using multiple instantaneous direction-of-arrivial estimates
CN104010265A (zh) 2013-02-22 2014-08-27 杜比实验室特许公司 音频空间渲染设备及方法
CN104019885A (zh) * 2013-02-28 2014-09-03 杜比实验室特许公司 声场分析系统
US9979829B2 (en) 2013-03-15 2018-05-22 Dolby Laboratories Licensing Corporation Normalization of soundfield orientations based on auditory scene analysis
CN108810793B (zh) 2013-04-19 2020-12-15 韩国电子通信研究院 多信道音频信号处理装置及方法
CN108806704B (zh) 2013-04-19 2023-06-06 韩国电子通信研究院 多信道音频信号处理装置及方法
US20140358565A1 (en) 2013-05-29 2014-12-04 Qualcomm Incorporated Compression of decomposed representations of a sound field
CN104244164A (zh) 2013-06-18 2014-12-24 杜比实验室特许公司 生成环绕立体声声场
CN104240711B (zh) * 2013-06-18 2019-10-11 杜比实验室特许公司 用于生成自适应音频内容的方法、系统和装置
EP2830045A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for audio encoding and decoding for audio channels and audio objects
EP2830047A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for low delay object metadata coding
EP2830050A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for enhanced spatial audio object coding
EP2830052A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, audio encoder, method for providing at least four audio channel signals on the basis of an encoded representation, method for providing an encoded representation on the basis of at least four audio channel signals and computer program using a bandwidth extension
US9319819B2 (en) * 2013-07-25 2016-04-19 Etri Binaural rendering method and apparatus for decoding multi channel audio
EP3028476B1 (en) 2013-07-30 2019-03-13 Dolby International AB Panning of audio objects to arbitrary speaker layouts
CN104637495B (zh) * 2013-11-08 2019-03-26 宏达国际电子股份有限公司 电子装置以及音频信号处理方法
CN103618986B (zh) * 2013-11-19 2015-09-30 深圳市新一代信息技术研究院有限公司 一种3d空间中音源声像体的提取方法及装置
JP6430506B2 (ja) 2013-11-22 2018-11-28 アップル インコーポレイテッドApple Inc. ハンズフリー・ビームパターン構成
ES2833424T3 (es) * 2014-05-13 2021-06-15 Fraunhofer Ges Forschung Aparato y método para panoramización de amplitud de atenuación de bordes
US10770087B2 (en) 2014-05-16 2020-09-08 Qualcomm Incorporated Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals
US9620137B2 (en) * 2014-05-16 2017-04-11 Qualcomm Incorporated Determining between scalar and vector quantization in higher order ambisonic coefficients
WO2016033364A1 (en) * 2014-08-28 2016-03-03 Audience, Inc. Multi-sourced noise suppression
CN105376691B (zh) * 2014-08-29 2019-10-08 杜比实验室特许公司 感知方向的环绕声播放
CN104168534A (zh) * 2014-09-01 2014-11-26 北京塞宾科技有限公司 一种全息音频装置及控制方法
US9774974B2 (en) * 2014-09-24 2017-09-26 Electronics And Telecommunications Research Institute Audio metadata providing apparatus and method, and multichannel audio data playback apparatus and method to support dynamic format conversion
CN104378570A (zh) * 2014-09-28 2015-02-25 小米科技有限责任公司 录音方法及装置
WO2016056410A1 (ja) * 2014-10-10 2016-04-14 ソニー株式会社 音声処理装置および方法、並びにプログラム
EP3251116A4 (en) 2015-01-30 2018-07-25 DTS, Inc. System and method for capturing, encoding, distributing, and decoding immersive audio
TWI579835B (zh) * 2015-03-19 2017-04-21 絡達科技股份有限公司 音效增益方法
EP3079074A1 (fr) * 2015-04-10 2016-10-12 B<>Com Procédé de traitement de données pour l'estimation de paramètres de mixage de signaux audio, procédé de mixage, dispositifs, et programmes d'ordinateurs associés
US9609436B2 (en) 2015-05-22 2017-03-28 Microsoft Technology Licensing, Llc Systems and methods for audio creation and delivery
US9530426B1 (en) * 2015-06-24 2016-12-27 Microsoft Technology Licensing, Llc Filtering sounds for conferencing applications
US9601131B2 (en) * 2015-06-25 2017-03-21 Htc Corporation Sound processing device and method
HK1255002A1 (zh) 2015-07-02 2019-08-02 杜比實驗室特許公司 根據立體聲記錄確定方位角和俯仰角
WO2017004584A1 (en) 2015-07-02 2017-01-05 Dolby Laboratories Licensing Corporation Determining azimuth and elevation angles from stereo recordings
GB2543275A (en) 2015-10-12 2017-04-19 Nokia Technologies Oy Distributed audio capture and mixing
TWI577194B (zh) * 2015-10-22 2017-04-01 山衛科技股份有限公司 環境音源辨識系統及其環境音源辨識之方法
US10425726B2 (en) * 2015-10-26 2019-09-24 Sony Corporation Signal processing device, signal processing method, and program
US10206040B2 (en) * 2015-10-30 2019-02-12 Essential Products, Inc. Microphone array for generating virtual sound field
EP3174316B1 (en) * 2015-11-27 2020-02-26 Nokia Technologies Oy Intelligent audio rendering
US9894434B2 (en) 2015-12-04 2018-02-13 Sennheiser Electronic Gmbh & Co. Kg Conference system with a microphone array system and a method of speech acquisition in a conference system
US11064291B2 (en) 2015-12-04 2021-07-13 Sennheiser Electronic Gmbh & Co. Kg Microphone array system
CN108886649B (zh) 2016-03-15 2020-11-10 弗劳恩霍夫应用研究促进协会 用于生成声场描述的装置、方法或计算机程序
US9956910B2 (en) * 2016-07-18 2018-05-01 Toyota Motor Engineering & Manufacturing North America, Inc. Audible notification systems and methods for autonomous vehicles
US9986357B2 (en) 2016-09-28 2018-05-29 Nokia Technologies Oy Fitting background ambiance to sound objects
GB2554446A (en) * 2016-09-28 2018-04-04 Nokia Technologies Oy Spatial audio signal format generation from a microphone array using adaptive capture
US10820097B2 (en) 2016-09-29 2020-10-27 Dolby Laboratories Licensing Corporation Method, systems and apparatus for determining audio representation(s) of one or more audio sources
US9980078B2 (en) 2016-10-14 2018-05-22 Nokia Technologies Oy Audio object modification in free-viewpoint rendering
US10531220B2 (en) * 2016-12-05 2020-01-07 Magic Leap, Inc. Distributed audio capturing techniques for virtual reality (VR), augmented reality (AR), and mixed reality (MR) systems
CN106708041B (zh) * 2016-12-12 2020-12-29 西安Tcl软件开发有限公司 智能音箱、智能音箱定向移动方法及装置
US11096004B2 (en) 2017-01-23 2021-08-17 Nokia Technologies Oy Spatial audio rendering point extension
US10229667B2 (en) 2017-02-08 2019-03-12 Logitech Europe S.A. Multi-directional beamforming device for acquiring and processing audible input
US10366700B2 (en) 2017-02-08 2019-07-30 Logitech Europe, S.A. Device for acquiring and processing audible input
US10362393B2 (en) 2017-02-08 2019-07-23 Logitech Europe, S.A. Direction detection device for acquiring and processing audible input
US10366702B2 (en) 2017-02-08 2019-07-30 Logitech Europe, S.A. Direction detection device for acquiring and processing audible input
US10531219B2 (en) 2017-03-20 2020-01-07 Nokia Technologies Oy Smooth rendering of overlapping audio-object interactions
US10397724B2 (en) 2017-03-27 2019-08-27 Samsung Electronics Co., Ltd. Modifying an apparent elevation of a sound source utilizing second-order filter sections
US11074036B2 (en) 2017-05-05 2021-07-27 Nokia Technologies Oy Metadata-free audio-object interactions
US10165386B2 (en) * 2017-05-16 2018-12-25 Nokia Technologies Oy VR audio superzoom
IT201700055080A1 (it) * 2017-05-22 2018-11-22 Teko Telecom S R L Sistema di comunicazione wireless e relativo metodo per il trattamento di dati fronthaul di uplink
US10602296B2 (en) 2017-06-09 2020-03-24 Nokia Technologies Oy Audio object adjustment for phase compensation in 6 degrees of freedom audio
US10334360B2 (en) * 2017-06-12 2019-06-25 Revolabs, Inc Method for accurately calculating the direction of arrival of sound at a microphone array
GB2563606A (en) 2017-06-20 2018-12-26 Nokia Technologies Oy Spatial audio processing
GB201710093D0 (en) * 2017-06-23 2017-08-09 Nokia Technologies Oy Audio distance estimation for spatial audio processing
GB201710085D0 (en) 2017-06-23 2017-08-09 Nokia Technologies Oy Determination of targeted spatial audio parameters and associated spatial audio playback
EP3652735A1 (en) 2017-07-14 2020-05-20 Fraunhofer Gesellschaft zur Förderung der Angewand Concept for generating an enhanced sound field description or a modified sound field description using a multi-point sound field description
SG11202000285QA (en) * 2017-07-14 2020-02-27 Fraunhofer Ges Forschung Concept for generating an enhanced sound-field description or a modified sound field description using a multi-layer description
KR102568365B1 (ko) 2017-07-14 2023-08-18 프라운 호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 깊이-확장형 DirAC 기술 또는 기타 기술을 이용하여 증강된 음장 묘사 또는 수정된 음장 묘사를 생성하기 위한 개념
US10264354B1 (en) * 2017-09-25 2019-04-16 Cirrus Logic, Inc. Spatial cues from broadside detection
US11395087B2 (en) 2017-09-29 2022-07-19 Nokia Technologies Oy Level-based audio-object interactions
CN111201784B (zh) 2017-10-17 2021-09-07 惠普发展公司,有限责任合伙企业 通信系统、用于通信的方法和视频会议系统
US10542368B2 (en) 2018-03-27 2020-01-21 Nokia Technologies Oy Audio content modification for playback audio
TWI690921B (zh) * 2018-08-24 2020-04-11 緯創資通股份有限公司 收音處理裝置及其收音處理方法
US11017790B2 (en) * 2018-11-30 2021-05-25 International Business Machines Corporation Avoiding speech collisions among participants during teleconferences
WO2020115311A1 (en) * 2018-12-07 2020-06-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for encoding, decoding, scene processing and other procedures related to dirac based spatial audio coding using low-order, mid-order and high-order components generators
JP7354275B2 (ja) * 2019-03-14 2023-10-02 ブームクラウド 360 インコーポレイテッド 優先度を持つ空間認識マルチバンド圧縮システム
WO2021021460A1 (en) 2019-07-30 2021-02-04 Dolby Laboratories Licensing Corporation Adaptable spatial audio playback
US11968268B2 (en) 2019-07-30 2024-04-23 Dolby Laboratories Licensing Corporation Coordination of audio devices
KR102154553B1 (ko) * 2019-09-18 2020-09-10 한국표준과학연구원 지향성이 향상된 마이크로폰 어레이 및 이를 이용한 음장 취득 방법
EP3963902A4 (en) 2019-09-24 2022-07-13 Samsung Electronics Co., Ltd. METHODS AND SYSTEMS FOR MIXED AUDIO SIGNAL RECORDING AND DIRECTIONAL AUDIO CONTENT REPRODUCTION
TW202123220A (zh) 2019-10-30 2021-06-16 美商杜拜研究特許公司 使用方向性元資料之多通道音頻編碼及解碼
GB2590504A (en) * 2019-12-20 2021-06-30 Nokia Technologies Oy Rotating camera and microphone configurations
US11277689B2 (en) 2020-02-24 2022-03-15 Logitech Europe S.A. Apparatus and method for optimizing sound quality of a generated audible signal
US11425523B2 (en) * 2020-04-10 2022-08-23 Facebook Technologies, Llc Systems and methods for audio adjustment
CN111951833A (zh) * 2020-08-04 2020-11-17 科大讯飞股份有限公司 语音测试方法、装置、电子设备和存储介质
CN112083379B (zh) * 2020-09-09 2023-10-20 极米科技股份有限公司 基于声源定位的音频播放方法、装置、投影设备及介质
JPWO2022162878A1 (ko) * 2021-01-29 2022-08-04
CN116918350A (zh) * 2021-04-25 2023-10-20 深圳市韶音科技有限公司 声学装置
US20230035531A1 (en) * 2021-07-27 2023-02-02 Qualcomm Incorporated Audio event data processing
DE202022105574U1 (de) 2022-10-01 2022-10-20 Veerendra Dakulagi Ein System zur Klassifizierung mehrerer Signale für die Schätzung der Ankunftsrichtung

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010017978A1 (en) 2008-08-13 2010-02-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V An apparatus for determining a converted spatial audio signal
WO2010122455A1 (en) * 2009-04-21 2010-10-28 Koninklijke Philips Electronics N.V. Audio signal synthesizing

Family Cites Families (69)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01109996A (ja) * 1987-10-23 1989-04-26 Sony Corp マイクロホン装置
JPH04181898A (ja) * 1990-11-15 1992-06-29 Ricoh Co Ltd マイクロホン
JPH1063470A (ja) * 1996-06-12 1998-03-06 Nintendo Co Ltd 画像表示に連動する音響発生装置
US6577738B2 (en) * 1996-07-17 2003-06-10 American Technology Corporation Parametric virtual speaker and surround-sound system
US6072878A (en) 1997-09-24 2000-06-06 Sonic Solutions Multi-channel surround sound mastering and reproduction techniques that preserve spatial harmonics
JP3344647B2 (ja) * 1998-02-18 2002-11-11 富士通株式会社 マイクロホンアレイ装置
JP3863323B2 (ja) 1999-08-03 2006-12-27 富士通株式会社 マイクロホンアレイ装置
CA2406926A1 (en) * 2000-04-19 2001-11-01 Sonic Solutions Multi-channel surround sound mastering and reproduction techniques that preserve spatial harmonics in three dimensions
KR100387238B1 (ko) * 2000-04-21 2003-06-12 삼성전자주식회사 오디오 변조 기능을 갖는 오디오 재생 장치 및 방법, 그장치를 적용한 리믹싱 장치 및 방법
GB2364121B (en) 2000-06-30 2004-11-24 Mitel Corp Method and apparatus for locating a talker
JP4304845B2 (ja) * 2000-08-03 2009-07-29 ソニー株式会社 音声信号処理方法及び音声信号処理装置
JP4578243B2 (ja) * 2002-10-15 2010-11-10 韓國電子通信研究院 空間性が拡張された音源を有する3次元音響シーンの生成及び消費方法
KR100626661B1 (ko) * 2002-10-15 2006-09-22 한국전자통신연구원 공간성이 확장된 음원을 갖는 3차원 음향 장면 처리 방법
WO2004047490A1 (ja) * 2002-11-15 2004-06-03 Sony Corporation オーディオ信号の処理方法及び処理装置
JP2004193877A (ja) * 2002-12-10 2004-07-08 Sony Corp 音像定位信号処理装置および音像定位信号処理方法
KR20040060718A (ko) 2002-12-28 2004-07-06 삼성전자주식회사 오디오 스트림 믹싱 방법, 그 장치 및 그 정보저장매체
CA2514682A1 (en) 2002-12-28 2004-07-15 Samsung Electronics Co., Ltd. Method and apparatus for mixing audio stream and information storage medium
JP3639280B2 (ja) * 2003-02-12 2005-04-20 任天堂株式会社 ゲームメッセージ表示方法およびゲームプログラム
FI118247B (fi) 2003-02-26 2007-08-31 Fraunhofer Ges Forschung Menetelmä luonnollisen tai modifioidun tilavaikutelman aikaansaamiseksi monikanavakuuntelussa
JP4133559B2 (ja) 2003-05-02 2008-08-13 株式会社コナミデジタルエンタテインメント 音声再生プログラム、音声再生方法及び音声再生装置
US20060104451A1 (en) * 2003-08-07 2006-05-18 Tymphany Corporation Audio reproduction system
US9992599B2 (en) * 2004-04-05 2018-06-05 Koninklijke Philips N.V. Method, device, encoder apparatus, decoder apparatus and audio system
GB2414369B (en) * 2004-05-21 2007-08-01 Hewlett Packard Development Co Processing audio data
KR100586893B1 (ko) 2004-06-28 2006-06-08 삼성전자주식회사 시변 잡음 환경에서의 화자 위치 추정 시스템 및 방법
WO2006006935A1 (en) 2004-07-08 2006-01-19 Agency For Science, Technology And Research Capturing sound from a target region
US7617501B2 (en) 2004-07-09 2009-11-10 Quest Software, Inc. Apparatus, system, and method for managing policies on a computer having a foreign operating system
US7903824B2 (en) * 2005-01-10 2011-03-08 Agere Systems Inc. Compact side information for parametric coding of spatial audio
DE102005010057A1 (de) 2005-03-04 2006-09-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines codierten Stereo-Signals eines Audiostücks oder Audiodatenstroms
WO2006105105A2 (en) 2005-03-28 2006-10-05 Sound Id Personal sound system
JP4273343B2 (ja) * 2005-04-18 2009-06-03 ソニー株式会社 再生装置および再生方法
US20070047742A1 (en) 2005-08-26 2007-03-01 Step Communications Corporation, A Nevada Corporation Method and system for enhancing regional sensitivity noise discrimination
WO2007046288A1 (ja) * 2005-10-18 2007-04-26 Pioneer Corporation 定位制御装置、定位制御方法、定位制御プログラムおよびコンピュータに読み取り可能な記録媒体
CN101473645B (zh) * 2005-12-08 2011-09-21 韩国电子通信研究院 使用预设音频场景的基于对象的三维音频服务系统
WO2007136187A1 (en) * 2006-05-19 2007-11-29 Electronics And Telecommunications Research Institute Object-based 3-dimensional audio service system using preset audio scenes
KR101358700B1 (ko) 2006-02-21 2014-02-07 코닌클리케 필립스 엔.브이. 오디오 인코딩 및 디코딩
US8405323B2 (en) 2006-03-01 2013-03-26 Lancaster University Business Enterprises Limited Method and apparatus for signal presentation
GB0604076D0 (en) * 2006-03-01 2006-04-12 Univ Lancaster Method and apparatus for signal presentation
US8374365B2 (en) * 2006-05-17 2013-02-12 Creative Technology Ltd Spatial audio analysis and synthesis for binaural reproduction and format conversion
US20080004729A1 (en) * 2006-06-30 2008-01-03 Nokia Corporation Direct encoding into a directional audio coding format
JP4894386B2 (ja) * 2006-07-21 2012-03-14 ソニー株式会社 音声信号処理装置、音声信号処理方法および音声信号処理プログラム
US8229754B1 (en) * 2006-10-23 2012-07-24 Adobe Systems Incorporated Selecting features of displayed audio data across time
EP2097895A4 (en) * 2006-12-27 2013-11-13 Korea Electronics Telecomm DEVICE AND METHOD FOR ENCODING AND DECODING MULTI-OBJECT AUDIO SIGNAL WITH DIFFERENT CHANNELS WITH INFORMATION BIT RATE CONVERSION
JP4449987B2 (ja) * 2007-02-15 2010-04-14 ソニー株式会社 音声処理装置、音声処理方法およびプログラム
US9015051B2 (en) * 2007-03-21 2015-04-21 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Reconstruction of audio channels with direction parameters indicating direction of origin
JP4221035B2 (ja) * 2007-03-30 2009-02-12 株式会社コナミデジタルエンタテインメント ゲーム音出力装置、音像定位制御方法、および、プログラム
AU2008240722B2 (en) 2007-04-19 2012-02-02 Qualcomm Incorporated Voice and position localization
FR2916078A1 (fr) * 2007-05-10 2008-11-14 France Telecom Procede de codage et decodage audio, codeur audio, decodeur audio et programmes d'ordinateur associes
US20080298610A1 (en) 2007-05-30 2008-12-04 Nokia Corporation Parameter Space Re-Panning for Spatial Audio
US8180062B2 (en) * 2007-05-30 2012-05-15 Nokia Corporation Spatial sound zooming
WO2009046223A2 (en) * 2007-10-03 2009-04-09 Creative Technology Ltd Spatial audio analysis and synthesis for binaural reproduction and format conversion
JP5294603B2 (ja) * 2007-10-03 2013-09-18 日本電信電話株式会社 音響信号推定装置、音響信号合成装置、音響信号推定合成装置、音響信号推定方法、音響信号合成方法、音響信号推定合成方法、これらの方法を用いたプログラム、及び記録媒体
KR101415026B1 (ko) 2007-11-19 2014-07-04 삼성전자주식회사 마이크로폰 어레이를 이용한 다채널 사운드 획득 방법 및장치
DE212009000019U1 (de) 2008-01-10 2010-09-02 Sound Id, Mountain View Persönliches Schallsystem für die Anzeige eines Schalldruckpegels oder einer anderen Umgebungsbedingung
JP5686358B2 (ja) * 2008-03-07 2015-03-18 学校法人日本大学 音源距離計測装置及びそれを用いた音響情報分離装置
JP2009246827A (ja) * 2008-03-31 2009-10-22 Nippon Hoso Kyokai <Nhk> 音源及び仮想音源の位置特定装置、方法及びプログラム
KR101461685B1 (ko) * 2008-03-31 2014-11-19 한국전자통신연구원 다객체 오디오 신호의 부가정보 비트스트림 생성 방법 및 장치
US8457328B2 (en) * 2008-04-22 2013-06-04 Nokia Corporation Method, apparatus and computer program product for utilizing spatial information for audio signal enhancement in a distributed network environment
EP2154910A1 (en) * 2008-08-13 2010-02-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus for merging spatial audio streams
US8023660B2 (en) * 2008-09-11 2011-09-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus, method and computer program for providing a set of spatial cues on the basis of a microphone signal and apparatus for providing a two-channel audio signal and a set of spatial cues
MX2011002626A (es) * 2008-09-11 2011-04-07 Fraunhofer Ges Forschung Aparato, metodo y programa de computadora para proveer un conjunto de pistas espaciales en base a una señal de microfono y aparato para proveer una señal de audio de dos canales y un conjunto de pistas especiales.
US8964994B2 (en) * 2008-12-15 2015-02-24 Orange Encoding of multichannel digital audio signals
JP5309953B2 (ja) * 2008-12-17 2013-10-09 ヤマハ株式会社 収音装置
EP2205007B1 (en) * 2008-12-30 2019-01-09 Dolby International AB Method and apparatus for three-dimensional acoustic field encoding and optimal reconstruction
JP5620689B2 (ja) 2009-02-13 2014-11-05 本田技研工業株式会社 残響抑圧装置及び残響抑圧方法
JP5197458B2 (ja) * 2009-03-25 2013-05-15 株式会社東芝 受音信号処理装置、方法およびプログラム
US9197978B2 (en) * 2009-03-31 2015-11-24 Panasonic Intellectual Property Management Co., Ltd. Sound reproduction apparatus and sound reproduction method
EP2249334A1 (en) * 2009-05-08 2010-11-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio format transcoder
EP2346028A1 (en) 2009-12-17 2011-07-20 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. An apparatus and a method for converting a first parametric spatial audio signal into a second parametric spatial audio signal
KR20120059827A (ko) * 2010-12-01 2012-06-11 삼성전자주식회사 다중 음원 위치추적장치 및 그 위치추적방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010017978A1 (en) 2008-08-13 2010-02-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V An apparatus for determining a converted spatial audio signal
WO2010122455A1 (en) * 2009-04-21 2010-10-28 Koninklijke Philips Electronics N.V. Audio signal synthesizing

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Del Galdo, G. et al., ‘Generating virtual microphone signals using geometrical information gathered by distributed arrays’, HSCMA, 2011 Joint Workshop on, IEEE, 2011.05. pp.185-190

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11915718B2 (en) 2020-02-20 2024-02-27 Samsung Electronics Co., Ltd. Position detection method, apparatus, electronic device and computer readable storage medium

Also Published As

Publication number Publication date
BR112013013681A2 (pt) 2017-09-26
JP5878549B2 (ja) 2016-03-08
KR20140045910A (ko) 2014-04-17
RU2013130233A (ru) 2015-01-10
CA2819502C (en) 2020-03-10
JP5728094B2 (ja) 2015-06-03
WO2012072804A1 (en) 2012-06-07
CN103583054B (zh) 2016-08-10
KR20130111602A (ko) 2013-10-10
CA2819394A1 (en) 2012-06-07
CA2819502A1 (en) 2012-06-07
EP2647005A1 (en) 2013-10-09
CN103583054A (zh) 2014-02-12
RU2556390C2 (ru) 2015-07-10
EP2647222B1 (en) 2014-10-29
CA2819394C (en) 2016-07-05
RU2013130226A (ru) 2015-01-10
KR101442446B1 (ko) 2014-09-22
MX2013006150A (es) 2014-03-12
JP2014501945A (ja) 2014-01-23
MX338525B (es) 2016-04-20
AR084160A1 (es) 2013-04-24
AU2011334851B2 (en) 2015-01-22
RU2570359C2 (ru) 2015-12-10
EP2647005B1 (en) 2017-08-16
AU2011334857B2 (en) 2015-08-13
US20130259243A1 (en) 2013-10-03
US20130268280A1 (en) 2013-10-10
US9396731B2 (en) 2016-07-19
TWI489450B (zh) 2015-06-21
TW201234873A (en) 2012-08-16
ES2643163T3 (es) 2017-11-21
WO2012072798A1 (en) 2012-06-07
CN103460285A (zh) 2013-12-18
HK1190490A1 (en) 2014-11-21
MX2013006068A (es) 2013-12-02
BR112013013681B1 (pt) 2020-12-29
PL2647222T3 (pl) 2015-04-30
ES2525839T3 (es) 2014-12-30
CN103460285B (zh) 2018-01-12
EP2647222A1 (en) 2013-10-09
AU2011334857A1 (en) 2013-06-27
JP2014502109A (ja) 2014-01-23
TWI530201B (zh) 2016-04-11
AU2011334851A1 (en) 2013-06-27
US10109282B2 (en) 2018-10-23
AR084091A1 (es) 2013-04-17
TW201237849A (en) 2012-09-16

Similar Documents

Publication Publication Date Title
KR101619578B1 (ko) 기하학 기반의 공간 오디오 코딩을 위한 장치 및 방법
KR101666730B1 (ko) 기하학 기반 공간 오디오 코딩 스트림들을 병합하기 위한 장치 및 방법

Legal Events

Date Code Title Description
A201 Request for examination
AMND Amendment
AMND Amendment
E902 Notification of reason for refusal
N231 Notification of change of applicant
AMND Amendment
E902 Notification of reason for refusal
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20190426

Year of fee payment: 4