KR101666730B1 - 기하학 기반 공간 오디오 코딩 스트림들을 병합하기 위한 장치 및 방법 - Google Patents

기하학 기반 공간 오디오 코딩 스트림들을 병합하기 위한 장치 및 방법 Download PDF

Info

Publication number
KR101666730B1
KR101666730B1 KR1020147018321A KR20147018321A KR101666730B1 KR 101666730 B1 KR101666730 B1 KR 101666730B1 KR 1020147018321 A KR1020147018321 A KR 1020147018321A KR 20147018321 A KR20147018321 A KR 20147018321A KR 101666730 B1 KR101666730 B1 KR 101666730B1
Authority
KR
South Korea
Prior art keywords
audio data
data streams
monolayer
data stream
sound
Prior art date
Application number
KR1020147018321A
Other languages
English (en)
Other versions
KR20140097555A (ko
Inventor
지오바니 델 갈도
올리버 시에르가르트
유에르겐 헤레
파비안 쿠쉬
엠마누엘 해비츠
알렉산드라 크라쉰
아심 쿤츠
Original Assignee
프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. filed Critical 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Publication of KR20140097555A publication Critical patent/KR20140097555A/ko
Application granted granted Critical
Publication of KR101666730B1 publication Critical patent/KR101666730B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2134Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on separation criteria, e.g. independent component analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/305Electronic adaptation of stereophonic audio signals to reverberation of the listening space

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

병합된 오디오 데이터 스트림을 생성하기 위한 장치가 제공된다. 이 장치는 복수의 단일 계층 오디오 데이터 스트림들을 획득하기 위한 디멀티플렉서(180)를 포함하며, 여기서 디멀티플렉서(180)는 하나 또는 그보다 많은 입력 오디오 데이터 스트림들을 수신하도록 적응되고, 각각의 입력 오디오 데이터 스트림은 하나 또는 그보다 많은 계층들을 포함하며, 디멀티플렉서(180)는 하나 또는 그보다 많은 계층들을 갖는 입력 오디오 데이터 스트림들 각각을, 정확히 하나의 계층을 갖는 2개 또는 그보다 많은 디멀티플렉싱된 오디오 데이터 스트림들로 디멀티플렉싱하여, 2개 또는 그보다 많은 디멀티플렉싱된 오디오 데이터 스트림들이 해당 입력 오디오 데이터 스트림의 하나 또는 그보다 많은 계층들을 함께 포함하게 하도록 적응된다. 더욱이, 이 장치는 복수의 단일 계층 오디오 데이터 스트림들을 기초로, 하나 또는 그보다 많은 계층들을 갖는 병합된 오디오 데이터 스트림을 생성하기 위한 병합 모듈(190)을 포함한다. 입력 오디오 데이터 스트림들의, 디멀티플렉싱된 오디오 데이터 스트림들의, 단일 계층 데이터 스트림들의 그리고 병합된 오디오 데이터 스트림의 각각의 계층은 압력 신호의 압력 값, 위치 값 그리고 확산 값을 오디오 데이터로서 포함한다.

Description

기하학 기반 공간 오디오 코딩 스트림들을 병합하기 위한 장치 및 방법{APPARATUS AND METHOD FOR MERGING GEOMETRY-BASED SPATIAL AUDIO CODING STREAMS}
본 발명은 오디오 처리에 관한 것으로, 특히, 병합된 오디오 데이터 스트림을 생성하기 위한 장치 및 방법이 제공된다.
오디오 처리 그리고 특히, 공간 오디오 코딩은 점점 더 중요해지고 있다. 종래의 공간 사운드 레코딩은 재생 측에서, 청취자가 사운드 이미지를 그것이 레코딩 위치에 있었던 그대로 인식하도록 음장(sound field)을 캡처하는 것을 목표로 한다. 공간 사운드 레코딩 및 재생 기술들에 대한 다른 접근 방식들이 최신 기술로부터 공지되어 있으며, 이는 채널, 객체 또는 파라미터 표현들을 기반으로 할 수 있다.
채널 기반 표현들은 공지된 셋업, 예를 들어 5.1 서라운드 사운드 셋업으로 배치된 N개의 라우드 스피커에 의해 재생되는 것으로 여겨지는 N개의 이산 오디오 신호들에 의한 사운드 장면(scene)을 나타낸다. 공간 사운드 레코딩을 위한 접근 방식은 일반적으로, 예를 들어 AB 입체 음향에서는 간격을 둔 전방향성 마이크로폰들을, 또는 예를 들어 인텐서티(intensity) 입체 음향에서는 일치하는 지향성 마이크로폰들을 이용한다. 대안으로, 예를 들어 앰비소닉스(Ambisonics)에서는 B-포맷 마이크로폰과 같은 더 정교한 마이크로폰들이 이용될 수 있으며, 아래 문헌을 참조한다:
[1] Michael A. Gerzon. Ambisonics in multichannel broadcasting and video. J. Audio Eng. Soc, 33(11):859-871, 1985.
공지된 셋업에 대한 원하는 라우드 스피커 신호들은 레코딩된 마이크로폰 신호들로부터 직접 유도된 다음, 개별적으로 전송 또는 저장된다. 개별 신호들에 오디오 코딩을 적용함으로써 더 효과적인 표현이 얻어지는데, 어떤 경우들에는 예를 들어, 5.1을 위한 MPEG 서라운드(MPEG-Surround)에서 향상된 효율을 위해 서로 다른 채널들의 정보를 공동으로 코딩하며, 아래 문헌을 참조한다:
[21] J. Herre, K. Kjorling, J. Breebaart, C. Faller, S. Disch, H. Purnhagen, J. Koppens, J. Hilpert, J. Roden, W. Oomen, K. Linzmeier, K.S. Chong: "MPEG Surround - The ISO/MPEG Standard for Efficient and Compatible Multichannel Audio Coding", 122nd AES Convention, Vienna, Austria, 2007, Preprint 7084.
이러한 기술들의 큰 문제점은, 일단 라우드 스피커 신호들이 계산되면, 사운드 장면이 수정될 수 없다는 점이다.
예를 들어, 공간 오디오 객체 코딩(SAOC: Spatial Audio Object Coding)에 객체 기반 표현들이 사용되며, 아래 문헌을 참조한다:
[25] Jeroen Breebaart, Jonas Engdegard, Cornelia Falch, Oliver Hellmuth, Johannes Hilpert, Andreas Hoelzer, Jeroens Koppens, Werner Oomen, Barbara Resch, Erik Schuijers, and Leonid Terentiev. Spatial audio object coding (saoc) - the upcoming mpeg standard on parametric object based audio coding. In Audio Engineering Society Convention 124, 5 2008.
객체 기반 표현들은 N개의 이산 오디오 객체들로 사운드 장면을 나타낸다. 사운드 장면은 예를 들어, 각 객체의 위치 및 음량을 변화시킴으로써 조작될 수 있기 때문에, 이러한 표현은 재생 측에서 높은 적응성을 제공한다. 이러한 표현은 예를 들어, 멀티 트랙 레코딩으로부터 쉽게 입수될 수 있지만, 몇 개의 마이크로폰들로 레코딩된 복합 사운드 장면으로부터는 얻어지기가 매우 어렵다(예를 들어, [21] 참조). 사실, 대화자들(또는 다른 사운드 발산 객체들)은 우선 로컬라이징된 다음에 혼합물로부터 추출되어야 하는데, 이는 아티팩트(artifact)들을 야기할 수도 있다.
파라미터 표현들은 흔히 공간 마이크로폰들을 이용하여, 공간 사운드를 기술하는 공간 사이드 정보와 함께 하나 또는 그보다 많은 오디오 다운믹스 신호들을 결정한다. 한 예는 아래 문헌에서 논의된 것과 같은 지향성 오디오 코딩(DirAC: Directional Audio Coding)이다:
[29] Ville Pulkki. Spatial sound reproduction with directional audio coding. J. Audio Eng. Soc, 55(6):503-516, June 2007.
"공간 마이크로폰"이라는 용어는 사운드의 도착 방향을 리트리브(retrieve)할 수 있는 공간 사운드의 포착을 위한 임의의 장치(예를 들어, 지향성 마이크로폰들, 마이크로폰 어레이들 등의 결합)를 의미한다.
"비-공간 마이크로폰"은 단일 전방향성 또는 지향성 마이크로폰과 같이, 사운드의 도착 방향을 리트리브하기 위해 적응되지 않는 임의의 장치를 의미한다.
아래 문헌에서 다른 예가 제안된다:
[4] C. Faller. Microphone front-ends for spatial audio coders. In Proc. of the AES 125th International Convention, San Francisco, Oct. 2008.
DirAC에서, 공간 단서 정보는 사운드의 도착 방향(DOA: direction of arrival) 및 시간-주파수 도메인에서 계산되는 음장의 확산을 포함한다. 사운드 재생을 위해, 파라미터적 기술을 기반으로 오디오 재생 신호들이 유도될 수 있다. 이러한 기술들은, 임의의 라우드 스피커 셋업이 이용될 수 있기 때문에, 표현이 다운믹스 모노 오디오 신호 및 사이드 정보를 포함하므로 특히 적응성 있고 콤팩트하기 때문에, 그리고 사운드 장면에 대한 쉬운 수정들, 예를 들어 음향 줌(acoustic zooming), 지향성 필터링, 장면 병합 등을 가능하게 하기 때문에, 재생 측에서 큰 적응성을 제공한다.
그러나 레코딩된 공간 이미지는 사용되는 공간 마이크로폰에 항상 관련된다는 점에서 이러한 기술들은 여전히 제한적이다. 따라서 음향의 시점이 다양해질 수 없으며 사운드 장면 내에서의 청취 위치는 변경될 수 없다.
가상 마이크로폰 접근 방식이 아래 문헌에 제시되며:
[22] Giovanni Del Galdo, Oliver Thiergart, Tobias Weller, and E. A. P. Habets. Generating virtual microphone signals using geometrical information gathered by distributed arrays. In Third Joint Workshop on Hands-free Speech Communication and Microphone Arrays (HSCMA '11), Edinburgh, United Kingdom, May 2011.
이는 환경에 마음대로(즉, 임의의 위치 및 방향) 가상 배치된 임의의 공간 마이크로폰의 출력 신호들을 계산할 수 있게 한다. 가상 마이크로폰(VM: virtual microphone) 접근 방식을 특성화하는 적응성은 사운드 장면이 후처리 단계에서 마음대로 가상 캡처되게 하지만, 사운드 장면을 효과적으로 전송 및/또는 저장 및/또는 수정하는데 사용될 수 있는 어떠한 음장 표현도 이용 가능하지 않다. 더욱이, 시간-주파수 빈당 단 하나의 소스만이 액티브하다고 가정되며, 따라서 동일한 시간-주파수 빈에서 2개 또는 그보다 많은 소스들이 액티브하다면, 이는 사운드 장면을 정확히 묘사할 수 없다. 더욱이, 수신기 측에서 가상 마이크로폰(VM)이 적용된다면, 모든 마이크로폰 신호들이 채널을 통해 전송될 필요가 있어, 이는 표현을 비효율적이게 하는 반면, 송신기 측에서 VM이 적용된다면, 사운드 장면이 추가 조작될 수 없으며, 모델은 적응성을 상실하고 특정 라우드 스피커 셋업으로 제한된다. 더욱이, 이는 파라미터 정보를 기초로 한 사운드 장면의 조작을 고려하지 않는다.
아래 문헌에서,
[24] Emmanuel Gallo and Nicolas Tsingos. Extracting and re-rendering structured auditory scenes from field recordings. In AES 30th International Conference on Intelligent Audio Environments, 2007,
음원 위치 추정은 분산된 마이크로폰들에 의해 측정된 쌍별 도착 시간 차를 기초로 한다. 더욱이, 수신기는 레코딩에 의존하며 합성(예를 들어, 라우드 스피커 신호들의 생성)을 위해 모든 마이크로폰 신호들을 필요로 한다.
[28] Svein Berge. Device and method for converting spatial audio signal. US patent application, Appl. No. 10/547,151,
상기 문헌에 제시된 방법은 DirAC와 마찬가지로 도착 방향을 파라미터로서 사용하여, 사운드 장면의 특정 시점으로 표현을 제한한다. 더욱이, 이는 사운드 장면 표현을 전송/저장할 가능성을 제시하지 않는데, 이는 통신 시스템의 동일한 측에서 분석과 합성이 모두 적용될 필요가 있기 때문이다.
다른 예는 서로 다른 환경들에서 레코딩되고 있는 통화 상대(party)들이 고유 사운드 장면에서 재생될 필요가 있는 화상 회의 애플리케이션들일 수 있다. 다지점 제어 유닛(MCU: Multipoint Control Unit)은 고유 사운드 장면이 반드시 재생되게 해야 한다.
[22] G. Del Galdo, F.Kuech, M. Kallinger, and R. Schultz-Amling. Efficient merging of multiple audio streams for spatial sound reproduction in directional audio coding. In International Conference on Acoustics, Speech, and Signal Processing (ICASSP 2009), 2009.
상기 문헌에서 그리고
[23] US 20110216908: Apparatus for Merging Spatial Audio Streams
상기 출원에서, 사운드 장면의 2개 또는 그보다 많은 파라미터 표현들을 결합하는 아이디어가 제안되었다.
그러나 사운드 장면을 수정하기에 충분히 적응성 있게, 효과적인 방식으로 2개 또는 그보다 많은 사운드 장면 표현들로부터 고유 사운드 장면을 생성하기 위한 개념들이 제공된다면, 이는 상당히 유익할 것이다.
본 발명의 목적은 병합된 오디오 데이터 스트림, 예를 들어 GAC 스트림을 생성하기 위한 개선된 개념들을 제공하는 것이다. 본 발명의 목적은 제 1 항에 따른 장치에 의해, 제 17 항에 따른 방법에 의해 그리고 제 18 항에 따른 컴퓨터 프로그램에 의해 해결된다.
일 실시예에 따르면, 병합된 오디오 데이터 스트림을 생성하기 위한 장치가 제공된다. 장치는 복수의 단일 계층 오디오 데이터 스트림들을 획득하기 위한 디멀티플렉서를 포함하며, 여기서 디멀티플렉서는 하나 또는 그보다 많은 입력 오디오 데이터 스트림들을 수신하도록 적응되고, 여기서 각각의 입력 오디오 데이터 스트림은 하나 또는 그보다 많은 계층들을 포함하며, 여기서 단일 계층 오디오 데이터 스트림들 중 2개 또는 그보다 많은 단일 계층 오디오 데이터 스트림을 제공하기 위해, 디멀티플렉서는 하나 또는 그보다 많은 계층들을 갖는 입력 오디오 데이터 스트림들 각각을, 정확히 하나의 계층을 갖는 2개 또는 그보다 많은 디멀티플렉싱된 오디오 데이터 스트림들로 디멀티플렉싱하여, 하나 또는 그보다 많은 디멀티플렉싱된 오디오 데이터 스트림들이 입력 오디오 데이터 스트림들의 하나 또는 그보다 많은 계층들을 함께 포함하게 하도록 적응된다. 더욱이, 장치는 복수의 단일 계층 오디오 데이터 스트림들을 기초로, 예를 들어 복수의 디멀티플렉싱된 단일 계층 오디오 데이터 스트림들을 기초로, 하나 또는 그보다 많은 계층들을 갖는 상기 병합된 오디오 데이터 스트림을 생성하기 위한 병합 모듈을 포함한다. 입력 오디오 데이터 스트림들의, 디멀티플렉싱된 오디오 데이터 스트림들의, 단일 계층 데이터 스트림들의 그리고 병합된 오디오 데이터 스트림의 각각의 계층은 압력 신호의 압력 값, 위치 값 그리고 확산 값을 오디오 데이터로서 포함한다.
추가 실시예에서, 장치는 복수의 단일 계층 오디오 데이터 스트림들을 획득하기 위한 디멀티플렉서를 포함할 수 있으며, 여기서 디멀티플렉서는 2개 또는 그보다 많은 입력 오디오 데이터 스트림들을 수신하도록 적응되고, 여기서 각각의 입력 오디오 데이터 스트림은 하나 또는 그보다 많은 계층들을 포함하며, 여기서 단일 계층 오디오 데이터 스트림들 중 2개 또는 그보다 많은 단일 계층 오디오 데이터 스트림을 획득하기 위해, 디멀티플렉서는 입력 오디오 데이터 스트림들 중 2개 또는 그보다 많은 계층들을 갖는 각각의 입력 오디오 데이터 스트림을, 정확히 하나의 계층을 갖는 2개 또는 그보다 많은 디멀티플렉싱된 오디오 데이터 스트림들로 디멀티플렉싱하여, 2개 또는 그보다 많은 디멀티플렉싱된 오디오 데이터 스트림들이 입력 오디오 데이터 스트림들의 2개 또는 그보다 많은 계층들을 함께 포함하게 하도록 적응된다. 더욱이, 장치는 복수의 단일 계층 오디오 데이터 스트림들을 기초로, 하나 또는 그보다 많은 계층들을 갖는 상기 병합된 오디오 데이터 스트림을 생성하기 위한 병합 모듈을 포함할 수 있다.
일 실시예에서, 장치는 정확히 하나의 계층을 갖는 하나 또는 그보다 많은 수신된 입력 오디오 데이터 스트림들을 디멀티플렉서에 공급하지 않고 이들을 직접 병합 모듈에 공급하도록 적응될 수 있다.
입력 오디오 데이터 스트림들의, 디멀티플렉싱된 오디오 데이터 스트림들의, 단일 계층 데이터 스트림들의 그리고 병합된 오디오 데이터 스트림의 각각의 계층은 압력 신호의 압력 값, 위치 값 그리고 확산 값을 오디오 데이터로서 포함하며, 오디오 데이터는 복수의 시간-주파수 빈들 중 하나의 시간-주파수 빈에 대해 정의된다.
이 실시예에 따르면, 2개 또는 그보다 많은 레코딩된 사운드 장면들은, 2개 또는 그보다 많은 오디오 데이터 스트림들, 예를 들어 GAC 스트림들을 병합하는 수단에 의해, 그리고 단일 오디오 데이터 스트림, 예를 들어 단일 GAC 스트림을 출력함으로써 하나로 병합된다.
사운드 장면들의 병합은 예를 들어, 서로 다른 환경들에서 레코딩되는 통화 상대들이 고유 사운드 장면에서 재생될 필요가 있는 화상 회의 애플리케이션들에 사용될 수 있다. 따라서 병합이 다지점 제어 유닛(MCU)에서 일어나, 네트워크 트래픽을 감소시키거나 최종 사용자들에서, 합성의 계산 비용(예를 들어, 라우드 스피커 신호들의 계산)을 감소시킬 수 있다.
일 실시예에서, 병합 모듈은 단일 계층 오디오 데이터 스트림들 중 각각의 단일 계층 오디오 데이터 스트림에 비용 값을 할당하기 위한 비용 함수 모듈을 포함할 수 있으며, 여기서 병합 모듈은 단일 계층 오디오 데이터 스트림들에 할당된 비용 값들을 기초로, 병합된 오디오 데이터 스트림을 생성하도록 적응될 수 있다.
다른 실시예에 따르면, 비용 함수 모듈은 단일 계층 오디오 데이터 스트림의 압력 값들 또는 확산 값들 중 적어도 하나에 따라, 단일 계층 오디오 데이터 스트림들 중 각각의 단일 계층 오디오 데이터 스트림에 비용 값을 할당하도록 적응될 수 있다.
추가 실시예에서, 비용 함수 모듈은 식:
Figure 112014062357079-pct00001
을 적용함으로써, 단일 계층 오디오 데이터 스트림들의 그룹의 각각의 오디오 데이터 스트림에 비용 값을 할당하도록 적응될 수 있으며, 여기서 Pi는 예를 들어, 각각의 시간-주파수 빈에 대한 단일 계층 오디오 데이터 스트림들의 그룹의 제 i 오디오 데이터 스트림의 계층의 압력 값이고 ψi는 확산 값이다.
다른 실시예에 따르면, 병합 모듈은 압력 병합 유닛을 더 포함할 수 있으며, 여기서 압력 병합 유닛은 복수의 단일 계층 오디오 데이터 스트림들 중 하나 또는 그보다 많은 단일 계층 오디오 데이터 스트림들을 포함하는 제 1 그룹을 결정하도록 그리고 복수의 단일 계층 오디오 데이터 스트림들 중 하나 또는 그보다 많은 다른 단일 계층 오디오 데이터 스트림들을 포함하는 제 2 그룹을 결정하도록 적응될 수 있고, 여기서 제 1 그룹의 단일 계층 오디오 데이터 스트림들 각각의 비용 값이 제 2 그룹의 단일 계층 오디오 데이터 스트림들 각각의 비용 값보다 더 클 수도 있고, 혹은 여기서 제 1 그룹의 단일 계층 오디오 데이터 스트림들 각각의 비용 값이 제 2 그룹의 단일 계층 오디오 데이터 스트림들 각각의 비용 값보다 더 작을 수 있으며, 여기서 압력 병합 유닛은, 제 1 그룹의 단일 계층 오디오 데이터 스트림들 각각의 개개의 압력 값이 병합된 오디오 데이터 스트림의 계층들 중 한 계층의 압력 값이 될 수 있게, 그리고 제 2 그룹의 단일 계층 오디오 데이터 스트림들의 압력 값들의 결합이 병합된 오디오 데이터 스트림의 계층들 중 한 계층의 압력 값이 될 수 있게, 병합된 오디오 데이터 스트림의 하나 또는 그보다 많은 계층들의 하나 또는 그보다 많은 압력 값들을 생성하도록 적응될 수 있다.
추가 실시예에서, 병합 모듈은 확산 병합 유닛을 더 포함할 수 있으며, 여기서 확산 병합 유닛은 복수의 단일 계층 오디오 데이터 스트림들 중 하나 또는 그보다 많은 단일 계층 오디오 데이터 스트림들을 포함하는 제 3 그룹을 결정하도록 그리고 복수의 단일 계층 오디오 데이터 스트림들 중 하나 또는 그보다 많은 다른 단일 계층 오디오 데이터 스트림들을 포함하는 제 4 그룹을 결정하도록 적응될 수 있다. 제 3 그룹의 단일 계층 오디오 데이터 스트림들 각각의 비용 값이 제 4 그룹의 단일 계층 오디오 데이터 스트림들 각각의 비용 값보다 더 클 수도 있고, 혹은 여기서 제 3 그룹의 단일 계층 오디오 데이터 스트림들 각각의 비용 값이 제 4 그룹의 단일 계층 오디오 데이터 스트림들 각각의 비용 값보다 더 작을 수도 있으며, 여기서 확산 병합 유닛은, 제 3 그룹의 단일 계층 오디오 데이터 스트림들 각각의 개개의 확산 값이 병합된 오디오 데이터 스트림의 계층들 중 한 계층의 확산 값이 될 수 있게, 그리고 제 4 그룹의 단일 계층 오디오 데이터 스트림들의 확산 값들의 결합이 병합된 오디오 데이터 스트림의 계층들 중 한 계층의 확산 값이 될 수 있게, 병합된 오디오 데이터 스트림의 하나 또는 그보다 많은 계층들의 하나 또는 그보다 많은 확산 값들을 생성하도록 적응될 수 있다.
다른 실시예에 따르면, 병합 모듈은 위치 믹싱 유닛(1403)을 더 포함할 수 있으며, 여기서 위치 믹싱 유닛(1403)은 복수의 단일 계층 오디오 데이터 스트림들 중 하나 또는 그보다 많은 단일 계층 오디오 데이터 스트림들을 포함하는 제 5 그룹을 결정하도록 적응될 수 있고, 여기서 제 5 그룹의 단일 계층 오디오 데이터 스트림들 각각의 비용 값이 복수의 단일 계층 오디오 데이터 스트림들 중 제 5 그룹에 포함되지 않는 임의의 단일 계층 오디오 데이터 스트림들의 비용 값보다 더 클 수도 있고, 혹은 여기서 제 5 그룹의 단일 계층 오디오 데이터 스트림들 각각의 비용 값이 복수의 단일 계층 오디오 데이터 스트림들 중 제 5 그룹에 포함되지 않는 임의의 단일 계층 오디오 데이터 스트림들의 비용 값보다 더 작을 수도 있다. 위치 믹싱 유닛(1403)은, 제 5 그룹의 단일 계층 오디오 데이터 스트림들 각각의 개개의 위치 값이 병합된 오디오 데이터 스트림의 계층들 중 한 계층의 위치 값이 되게, 병합된 오디오 데이터 스트림의 하나 또는 그보다 많은 계층들의 하나 또는 그보다 많은 위치 값들을 생성하도록 적응될 수 있다.
다른 실시예에서, 병합 모듈은 복수의 단일 계층 오디오 데이터 스트림들 중 하나 또는 그보다 많은 단일 계층 오디오 데이터 스트림들의 위치 값을 조작하기 위한 사운드 장면 적응 모듈을 더 포함할 수 있다.
추가 실시예에 따르면, 사운드 장면 적응 모듈은 위치 값에 회전, 평행이동 또는 비선형 변환을 적용하여 복수의 단일 계층 오디오 데이터 스트림들 중 하나 또는 그보다 많은 단일 계층 오디오 데이터 스트림들의 위치 값을 조작하도록 적응될 수 있다.
다른 실시예에서, 디멀티플렉서는 복수의 디멀티플렉싱 유닛들을 포함할 수 있으며, 여기서 디멀티플렉싱 유닛들 중 각각의 디멀티플렉싱 유닛은 입력 오디오 데이터 스트림들 중 하나 또는 그보다 많은 입력 오디오 데이터 스트림을 디멀티플렉싱하도록 구성될 수 있다.
추가 실시예에 따르면, 장치는 정확히 하나의 계층을 포함하는 인공 데이터 스트림을 생성하기 위한 인공 음원 생성기를 더 포함할 수 있으며, 여기서 인공 소스 생성기는 시간 도메인으로 표현되는 압력 정보를 수신하도록 그리고 위치 정보를 수신하도록 적응될 수 있으며, 여기서 인공 소스 생성기는 복수의 시간-주파수 빈들에 대한 위치 정보를 생성하기 위해 압력 정보를 복제하도록 적응될 수 있고, 여기서 인공 소스 생성기는 압력 정보를 기초로 확산 정보를 계산하도록 추가로 적응될 수 있다.
다른 실시예에서, 인공 소스 생성기는 시간 도메인으로 표현되는 압력 정보를 시간-주파수 도메인으로 변환하도록 적응될 수 있다.
추가 실시예에 따르면, 인공 소스 생성기는 압력 정보에 잔향을 부가하도록 적응될 수 있다.
다른 실시예는 사운드 장면에 인공 음원을 삽입할 수 있도록 한다. 인공 음원의 삽입은 합성 소스들에 의해 복합 사운드 장면이 덧붙여질 수 있는 가상 현실 및 비디오 게임형 애플리케이션들에 특히 유용하다. 원격 회의 시나리오들에서는, 모노 채널을 통해 통신하는, 예를 들어 모바일 전화들을 통해 전화를 하는 통화 상태들을 결합하는데 삽입이 유용하다.
본 발명의 선호되는 실시예들이 다음에 설명될 것이다.
도 1은 일 실시예에 따른 병합된 오디오 데이터 스트림을 생성하기 위한 장치를 나타낸다.
도 2a는 일 실시예에 따라 하나 또는 그보다 많은 음원들에 관련된 오디오 데이터를 포함하는 오디오 데이터 스트림을 기초로 적어도 하나의 오디오 출력 신호를 생성하기 위한 장치를 나타낸다.
도 2b는 일 실시예에 따라 하나 또는 그보다 많은 음원들과 관련된 음원 데이터를 포함하는 오디오 데이터 스트림을 생성하기 위한 장치를 나타낸다.
도 3a-3c는 서로 다른 실시예들에 따른 오디오 데이터 스트림들을 나타낸다.
도 4는 다른 실시예에 따라 하나 또는 그보다 많은 음원들과 관련된 음원 데이터를 포함하는 오디오 데이터 스트림을 생성하기 위한 장치를 나타낸다.
도 5는 2개의 음원들 및 2개의 균일한 선형 마이크로폰 어레이들로 구성된 사운드 장면을 나타낸다.
도 6a는 일 실시예에 따라 오디오 데이터 스트림을 기초로 적어도 하나의 오디오 출력 신호를 생성하기 위한 장치(600)를 나타낸다.
도 6b는 일 실시예에 따라 하나 또는 그보다 많은 음원들과 관련된 음원 데이터를 포함하는 오디오 데이터 스트림을 생성하기 위한 장치(600)를 나타낸다.
도 7은 일 실시예에 따른 수정 모듈을 도시한다.
도 8은 다른 실시예에 따른 수정 모듈을 도시한다.
도 9는 일 실시예에 따른 송신기/분석 유닛들 및 수신기/합성 유닛들을 나타낸다.
도 10a는 일 실시예에 따른 합성 모듈을 도시한다.
도 10b는 일 실시예에 따른 제 1 합성 스테이지 유닛을 도시한다.
도 10c는 일 실시예에 따른 제 2 합성 스테이지 유닛을 도시한다.
도 11은 다른 실시예에 따른 합성 모듈을 도시한다.
도 12는 일 실시예에 따라 가상 마이크로폰의 오디오 출력 신호를 생성하기 위한 장치를 나타낸다.
도 13은 일 실시예에 따라 가상 마이크로폰의 오디오 출력 신호를 생성하기 위한 장치 및 방법의 입력들과 출력들을 나타낸다.
도 14는 사운드 이벤트 위치 추정기 및 정보 계산 모듈을 포함하는, 일 실시예에 따라 가상 마이크로폰의 오디오 출력 신호를 생성하기 위한 장치의 기본 구조를 나타낸다.
도 15는 실제 공간 마이크로폰들이 3개의 마이크로폰들 각각의 균일한 선형 어레이들로서 도시되는 예시적인 시나리오를 보여준다.
도 16은 3D 공간에서 도착 방향을 추정하기 위한 2개의 공간 마이크로폰들을 3D로 도시한다.
도 17은 현재 시간-주파수 빈(k, n)의 등방점형의 음원이 pIPLS(k, n) 위치에 위치하는 기하학적 구조를 나타낸다.
도 18은 일 실시예에 따른 정보 계산 유닛을 도시한다.
도 19는 다른 실시예에 따른 정보 계산 유닛을 도시한다.
도 20은 2개의 실제 공간 마이크로폰들, 로컬라이징된 사운드 이벤트 및 가상 공간 마이크로폰의 위치를 보여준다.
도 21은 일 실시예에 따라 가상 마이크로폰에 대해 도착 방향을 어떻게 획득하는지를 나타낸다.
도 22는 일 실시예에 따라 가상 마이크로폰의 시점으로부터 사운드의 DOC를 유도하기 위한 가능한 방향을 도시한다.
도 23은 일 실시예에 따른 확산 계산 유닛을 포함하는 정보 계산 블록을 나타낸다.
도 24는 일 실시예에 따른 확산 계산 유닛을 도시한다.
도 25는 사운드 이벤트 위치 추정이 가능하지 않은 시나리오를 나타낸다.
도 26은 일 실시예에 따라 가상 마이크로폰 데이터 스트림을 생성하기 위한 장치를 나타낸다.
도 27은 다른 실시예에 따라 오디오 데이터 스트림을 기초로 적어도 하나의 오디오 출력 신호를 생성하기 위한 장치를 나타낸다.
도 28은 다른 실시예에 따라 병합된 오디오 데이터 스트림을 생성하기 위한 장치의 입력들과 출력들을 도시한다.
도 29는 다른 실시예에 따라 병합된 오디오 데이터 스트림을 생성하기 위한 장치를 나타낸다.
도 30은 일 실시예에 따른 병합 모듈을 도시한다.
도 31a - 도 31c은 가능한 사운드 장면 시나리오들을 도시한다.
도 32a - 도 32b는 실시예들에 따른 인공 소스 생성기들을 나타낸다.
도 33a-33c는 2개의 마이크로폰 어레이들이 직접음, 벽에 의해 반사된 음 그리고 확산음을 수신하는 시나리오들을 나타낸다.
본 발명의 실시예들의 상세한 설명을 제공하기 전에, 본 발명의 개념들에 관한 배경 정보를 제공하기 위해 가상 마이크로폰의 오디오 출력 신호를 생성하기 위한 장치가 설명된다.
도 12는 환경에서 구성 가능한 가상 위치(posVmic)에서 마이크로폰의 레코딩을 시뮬레이팅하기 위해 오디오 출력 신호를 생성하기 위한 장치를 나타낸다. 장치는 사운드 이벤트 위치 추정기(110) 및 정보 계산 모듈(120)을 포함한다. 사운드 이벤트 위치 추정기(110)는 제 1 실제 공간 마이크로폰으로부터의 제 1 방향 정보(di1) 및 제 2 실제 공간 마이크로폰으로부터의 제 2 방향 정보(di2)를 수신한다. 사운드 이벤트 위치 추정기(110)는 환경에서 음파를 발산하는 음원의 위치를 나타내는 음원 위치(ssp)를 추정하도록 적응되며, 여기서 사운드 이벤트 위치 추정기(110)는 환경에서 제 1 실제 마이크로폰 위치(pos1mic)에 위치하고 있는 제 1 실제 공간 마이크로폰에 의해 제공되는 제 1 방향 정보(di1)를 기초로, 그리고 환경에서 제 2 실제 마이크로폰 위치에 위치하고 있는 제 2 실제 공간 마이크로폰에 의해 제공되는 제 2 방향 정보(di2)를 기초로 음원 위치(ssp)를 추정하도록 적응된다. 정보 계산 모듈(120)은 제 1 실제 공간 마이크로폰에 의해 레코딩되는 제 1 레코딩된 오디오 입력 신호(is1)를 기초로, 제 1 실제 마이크로폰 위치(pos1mic)를 기초로 그리고 가상 마이크로폰의 가상 위치(posVmic)를 기초로 오디오 출력 신호를 생성하도록 적응된다. 정보 계산 모듈(120)은, 오디오 출력 신호를 얻기 위해, 제 1 레코딩된 오디오 입력 신호(is1)의 진폭 값, 크기 값 또는 위상 값을 조정함으로써 제 1 실제 공간 마이크로폰에서의 음원에 의해 발산된 음파의 도착과 가상 마이크로폰에서의 음파의 도착 간의 진폭 감쇄 또는 제 1 지연을 보상함으로써, 제 1 레코딩된 오디오 입력 신호(is1)를 수정하는 것에 의해 제 1 수정된 오디오 신호를 생성하도록 적응되는 전파 보상기를 포함한다.
도 13은 일 실시예에 따른 장치 및 방법의 입력들과 출력들을 나타낸다. 2개 또는 그보다 많은 실제 공간 마이크로폰들(111, 112, …, 11N)로부터의 정보가 장치에 공급되고/방법에 의해 처리된다. 이 정보는 실제 공간 마이크로폰들에 의해 픽업된 오디오 신호들뿐만 아니라 실제 공간 마이크로폰들로부터의 방향 정보, 예를 들어 도착 방향(DOA) 추정치들 또한 포함한다. 오디오 신호들 및 도착 방향 추정치들과 같은 방향 정보는 시간-주파수 도메인으로 표현될 수 있다. 예를 들어, 2D 기하학적 구조 재구성이 요구되고, 신호들의 표현을 위해 종래의 단시간 푸리에 변환(STFT: short time Fourier transformation) 도메인이 선택된다면, DOA는 k 및 n, 즉 주파수 및 시간 인덱스들에 따른 방위각들로서 표현될 수 있다.
실시예들에서, 공간에서의 사운드 이벤트 로컬라이징뿐만 아니라, 가상 마이크로폰의 위치 묘사 또한 공통 좌표 시스템에서 실제 및 가상 공간 마이크로폰들의 위치들 및 방향들을 기초로 수행될 수 있다. 이 정보는 도 13의 입력들(121 … 12N) 및 입력(104)으로 표현될 수 있다. 입력(104)은 다음에 논의되는 바와 같이, 가상 공간 마이크로폰의 특징, 예를 들어 그 위치 및 픽업 패턴을 추가로 명시할 수 있다. 가상 공간 마이크로폰이 다수의 가상 센서들을 포함한다면, 이들의 위치들 및 대응하는 서로 다른 픽업 패턴들이 고려될 수 있다.
장치 또는 대응하는 방법의 출력은, 요구되는 경우, 하나 또는 그보다 많은 사운드 신호들(105)일 수 있으며, 이들은 104로 명시된 바와 같이 정의되어 배치된 공간 마이크로폰에 의해 픽업되었을 수도 있다. 더욱이, 장치(또는 그보다는 방법)는 가상 공간 마이크로폰을 이용함으로써 추정될 수 있는 공간 사이드 정보(106)를 대응하는 출력으로서 제공할 수 있다.
도 14는 2개의 메인 처리 유닛들인 사운드 이벤트 위치 추정기(201)와 정보 계산 모듈(202)을 포함하는 일 실시예에 따른 장치를 나타낸다. 사운드 이벤트 위치 추정기(201)는 입력들(111 … 11N)로 구성된 DOA들을 토대로 그리고 DOA들이 계산된 실제 공간 마이크로폰들의 위치 및 방향의 인식을 기초로 기하학적 재구성을 실행할 수 있다. 사운드 이벤트 위치 추정기의 출력(205)은 각각의 시간 및 주파수 빈에 대해 사운드 이벤트들이 발생하는 음원들의 (2D 혹은 3D에서의) 위치 추정치들을 포함한다. 제 2 처리 블록(202)은 정보 계산 모듈이다. 도 14의 실시예에 따르면, 제 2 처리 블록(202)은 가상 마이크로폰 신호 및 공간 사이드 정보를 계산한다. 따라서 이는 또한 가상 마이크로폰 신호 및 사이드 정보 계산 블록(202)으로도 지칭된다. 가상 마이크로폰 신호 및 사이드 정보 계산 블록(202)은 111 … 11N으로 구성된 오디오 신호들을 처리하여 가상 마이크로폰 오디오 신호(105)를 출력하는데 사운드 이벤트들의 위치들(205)을 사용한다. 필요하다면, 블록(202)은 가상 공간 마이크로폰에 대응하는 공간 사이드 정보(106)를 또한 계산할 수 있다. 아래 실시예들은 블록들(201, 202)이 어떻게 동작할 수 있는지의 가능성들을 나타낸다.
다음에, 일 실시예에 따른 사운드 이벤트 위치 추정기의 위치 추정이 더 상세히 설명된다.
문제의 차원수(2D 또는 3D) 그리고 공간 마이크로폰들의 수에 따라, 위치 추정을 위한 여러 가지 해법들이 가능하다.
2D의 2개의 공간 마이크로폰들이 존재한다면, (가장 단순한 가능한 경우) 단순한 삼각 측량이 가능하다. 도 15는 실제 공간 마이크로폰들이 3개의 마이크로폰들 각각의 균일한 선형 어레이(ULA: Uniform Linear Array)들로서 도시되는 예시적인 시나리오를 보여준다. 시간-주파수 빈(k, n)에 대해 방위각들 al(k, n) 및 a2(k, n)으로 표현되는 DOA가 계산된다. 이는 시간-주파수 도메인으로 변환된 압력 신호들에 아래 문헌의 ESPRIT:
[13] R. Roy, A. Paulraj, and T. Kailath, "Direction-of-arrival estimation by subspace rotation methods - ESPRIT," in IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), Stanford, CA, USA, April 1986,
또는 아래 문헌을 참조하여,
[14] R. Schmidt, "Multiple emitter location and signal parameter estimation," IEEE Transactions on Antennas and Propagation, vol. 34, no. 3, pp. 276-280, 1986
(root) MUSIC과 같은 적절한 DOA 추정기를 사용함으로써 달성된다.
도 15에서는, 2개의 실제 공간 마이크로폰들, 여기서는 2개의 실제 공간 마이크로폰 어레이들(410, 420)이 예시된다. 2개의 추정된 DOA들인 a1(k, n) 및 a2(k, n)는 2개의 선들로 표현되는데, 제 1 선(430)은 DOA a1(k, n)을 나타내고 제 2 선(440)은 DOA a2(k, n)을 나타낸다. 각각의 어레이의 위치 및 방향을 인지하여 단순한 기하학적 고려사항들을 통해 삼각 측량이 가능하다.
2개의 선들(430, 440)이 정확히 평행할 때 삼각 측량은 실패한다. 그러나 실제 애플리케이션들에서, 이는 아주 가능성이 없다. 그러나 반드시 삼각 측량 결과들이, 고려되는 공간에서의 사운드 이벤트에 대한 물리적 또는 실현 가능한 위치에 대응하는 것은 아니다. 예를 들어, 사운드 이벤트의 추정된 정보는 가정된 공간에서 너무 멀리 떨어져 있거나 심지어는 그 바깥에 있을 수도 있어, 아마 DOA들이, 사용되는 모델로 물리적으로 해석될 수 있는 임의의 사운드 이벤트에 대응하지 않음을 나타낼 수도 있다. 이러한 결과들은 센서 잡음 또는 너무 강한 룸(room) 잔향에 의해 야기될 수 있다. 따라서 일 실시예에 따라, 이러한 원치 않는 결과들은 정보 계산 모듈(202)이 이들을 적절히 처리할 수 있도록 표시된다.
도 16은 3D 공간에서 사운드 이벤트의 위치가 추정되는 시나리오를 도시한다. 적절한 공간 마이크로폰들, 예를 들어 평면 또는 3D 마이크로폰 어레이가 이용된다. 도 16에서는, 제 1 공간 마이크로폰(510), 예를 들어 제 1 3D 마이크로폰 어레이 및 제 2 공간 마이크로폰(520), 예를 들어 제 1 3D 마이크로폰 어레이가 예시된다. 3D 공간에서의 DOA는 예를 들어, 방위각 및 고도로 표현될 수 있다. DOA들을 표현하기 위해 단위 벡터들(530, 540)이 이용될 수 있다. DOA들에 따라 2개의 선들(550, 560)이 투사된다. 3D에서는, 매우 신뢰성 있는 추정치들이 있더라도, DOA들에 따라 투사되는 2개의 선들(550, 560)이 교차하지 않을 수도 있다. 그러나 예를 들어, 2개의 선들을 접속하는 가장 작은 세그먼트의 중점을 선택함으로써 여전히 삼각 측량이 실행될 수 있다.
2D의 경우와 마찬가지로, 삼각 측량이 실패할 수도 있고 또는 방향들의 특정 결합들에 대해 실행 불가능한 결과들을 산출할 수도 있는데, 이는 다음에 또한, 예를 들어 도 14의 정보 계산 모듈(202)에 표시될 수 있다.
2개보다 더 많은 공간 마이크로폰들이 존재한다면, 여러 가지 해법들이 가능하다. 예를 들어, 실제 공간 마이크로폰들의 모든 쌍에 대해 위에서 설명한 삼각 측량이 실행될 수 있다(N = 3이라면, 2에 대해 1, 3에 대해 1, 그리고 3에 대해 2). 다음에, (x와 y, 그리고 3D가 고려된다면, z를 따라) 결과적인 위치들이 평균될 수 있다.
대안으로, 더 복잡한 개념들이 사용될 수도 있다. 예를 들어, 확률적 접근 방식들이 아래 문헌에서 설명되는 바와 같이 적용될 수 있다:
[15] J. Michael Steele, "Optimal Triangulation of Random Samples in the Plane", The Annals of Probability, Vol. 10, No.3 (Aug., 1982), pp. 548-553.
일 실시예에 따르면, 음장이 시간-주파수 도메인에서 분석될 수 있는데, 예를 들어 단시간 푸리에 변환(STFT)을 통해 얻어질 수 있으며, 여기서 k와 n은 각각 주파수 인덱스(k) 및 시간 인덱스(n)를 나타낸다. 특정 k와 n에 대한 임의의 위치(pv)에서의 복소 압력 Pv(k, n)이 예를 들어, 아래 식을 이용함으로써 협대혁 등방점형 소스에 의해 발산되는 단일 구면파로서 모델링되고:
Figure 112014062357079-pct00002
(1)
여기서 PIPLS(k, n)은 IPLS의 위치 pIPLS(k, n)에서 IPLS에 의해 발산되는 신호이다. 복소 인자 γ(k, pIPLS, pv)는 pIPLS(k, n)으로부터 pv로의 전파를 나타내는데, 예를 들어 이는 적절한 위상 및 크기 수정들을 도입한다. 여기서, 각각의 시간-주파수 빈에서, 단 하나의 IPLS만이 액티브하다는 가정이 적용될 수 있다. 그렇기는 하지만, 서로 다른 위치들에 위치하는 다수의 협대혁 IPLS들은 또한 단일 시간 인스턴스에서 액티브할 수 있다.
각각의 IPLS는 직접음 또는 별개의 룸 반사를 모델링한다. IPLS의 위치 pIPLS(k, n)은 이상적으로는 각각, 룸 내부에 위치하는 실제 음원, 또는 외부에 위치하는 미러 이미지 음원에 대응할 수 있다. 따라서 위치 pIPLS(k, n)은 또한 사운드 이벤트의 위치를 나타낼 수도 있다.
"실제 음원들"이라는 용어는 레코딩 환경에 물리적으로 존재하는 실제 음원들, 예컨대 대화자들이나 악기들을 나타낸다는 점에 주목한다. 이와는 반대로, "음원들" 또는 "사운드 이벤트들" 또는 "IPLS"로, 특정 시간 인스턴트들에서 또는 특정 시간-주파수 빈들에서 액티브한 유효 음원들을 언급하며, 여기서 음원들은 예를 들어, 실제 음원들 또는 미러 이미지 소스들을 나타낼 수 있다.
도 33a - 도 33b는 음원들을 로컬라이징하는 마이크로폰 어레이들을 나타낸다. 로컬라이징된 음원들은 이들의 특성에 따라 서로 다른 물리적 해석들을 가질 수 있다. 마이크로폰 어레이들이 직접음을 수신할 때, 이들은 진짜 음원(예를 들어, 대화자들)의 위치를 로컬라이징하는 것이 가능할 수 있다. 마이크로폰 어레이들이 반사들을 수신할 때, 이들은 미러 이미지 소스의 위치를 로컬라이징할 수 있다. 미러 이미지 소스들 또한 음원들이다.
도 33a는 2개의 마이크로폰 어레이들(151, 152)이 실제 음원(물리적으로 존재하는 음원)(153)으로부터의 직접음을 수신하는 시나리오를 나타낸다.
도 33b는 2개의 마이크로폰 어레이들(161, 162)이 반사된 사운드를 수신하는 시나리오를 나타내며, 여기서 사운드는 벽에 의해 반사되었다. 반사 때문에, 마이크로폰 어레이들(161, 162)은 사운드가 나오는 것으로 나타나는 위치를, 스피커(163)의 위치와는 다른 미러 이미지 소스(165)의 위치에 로컬라이징한다.
도 33a의 실제 음원(153)뿐 아니라, 미러 이미지 소스(165) 모두 음원들이다.
도 33c는 2개의 마이크로폰 어레이들(171, 172)이 음원을 로컬라이징할 수 없는 확산음을 수신하는 시나리오를 나타낸다.
한편, 소스 신호들이 W-독립적 직교성(WDO: W-disjoint orthogonality) 조건을 만족시킨다는, 즉 시간-주파수 중첩이 충분히 작다는 점을 고려하면, 이 단일파 모델은 다소 잔향이 있는 환경들에 대해서만 정확하다. 이는 보통은 음성 신호들에 대해서만 사실이며, 예를 들어 아래 문헌을 참조한다:
[12] S. Rickard and Z. Yilmaz, "On the approximate W-disjoint orthogonality of speech," in Acoustics, Speech and Signal Processing, 2002. ICASSP 2002. IEEE International Conference on, April 2002, vol. 1.
그러나 모델은 또한 다른 환경들에 대해 양호한 추정치를 제공하며, 따라서 그러한 환경들에도 또한 적용 가능하다.
다음에, 일 실시예에 따른 위치들 pIPLS(k, n)의 추정이 설명된다. 특정 시간-주파수 빈에서의 액티브 IPLS의 위치 pIPLS(k, n), 그리고 이에 따른 시간-주파수 빈에서의 사운드 이벤트의 추정은 적어도 2개의 서로 다른 관측점들에서 측정된 사운드의 도착 방향(DOA)을 기초로 삼각 측량을 통해 추정된다.
도 17은 현재 시간-주파수 슬롯 (k, n)의 IPLS가 미지의 위치 pIPLS(k, n)에 위치하는 기하학적 구조를 나타낸다. 요구되는 DOA 정보를 결정하기 위해, 2개의 실제 공간 마이크로폰들, 여기서는 알려진 기하학적 구조, 위치 및 방향을 갖는 2개의 마이크로폰 어레이들이 이용되며, 이들은 각각 위치들(610, 620)에 배치된다. 벡터들(p1, p2)은 각각 위치들(610, 620)을 지적한다. 어레이 방향들은 단위 벡터들(c1, c2)로 정의된다. 예컨대, DirAC 분석([2], [3] 참조)에 의해 제공되는 것과 같은 DOA 추정 알고리즘을 사용하여 각각의 (k, n)에 대한 위치들(610, 620)에서 사운드의 DOA가 결정된다. 이것을 이용함으로써, (둘 다 도 17에 도시되지 않은) 마이크로폰 어레이들의 시점에 관한 제 1 시점 단위 벡터
Figure 112014062357079-pct00003
및 제 2 시점 단위 벡터
Figure 112014062357079-pct00004
이 DirAC 분석의 출력으로서 제공될 수 있다. 예를 들어, 2D로 동작할 때, 제 1 시점 단위 벡터는 다음과 같은 결과로 돌아간다:
Figure 112014062357079-pct00005
(2)
여기서, φ1(k, n)은 도 17에 도시된 바와 같이, 제 1 마이크로폰 어레이에서 추정된 DOA의 방위각을 나타낸다. 다음 식들을 적용함으로써 원점에서 전체 좌표 시스템에 관한 대응하는 DOA 단위 벡터들 e1(k, n) 및 e2(k, n)이 계산될 수 있으며:
Figure 112014062357079-pct00006
(3)
여기서 R 은 좌표 변환 행렬들이며, 2D에서 동작하고
Figure 112014062357079-pct00007
일 때, 예를 들어 다음과 같다:
Figure 112014062357079-pct00008
(4)
삼각 측량을 실행하기 위해, 방향 벡터들 d1(k, n) 및 d2(k, n)은 다음과 같이 계산될 수 있으며:
Figure 112014062357079-pct00009
(5)
여기서 d1(k, n) = ∥d1(k, n)∥ 그리고 d2(k, n) = ∥d2(k, n)∥은 IPLS와 2개의 마이크로폰 어레이들 간의 알려지지 않은 거리들이다. d1(k, n)에 대해 다음 식이 풀릴 수 있다:
Figure 112014062357079-pct00010
(6)
마지막으로, IPLS의 위치 pIPLS(k, n)은 다음으로 주어진다:
Figure 112014062357079-pct00011
(7)
다른 실시예에서, d2(k, n)에 대해 식(6)이 풀릴 수 있고, d2(k, n)을 이용하여 pIPLS(k, n)이 비슷하게 계산된다.
e1(k, n)과 e2(k, n)이 평행하지 않다면, 식(6)은 2D로 동작할 때 항상 해를 제공한다. 그러나 2개보다 더 많은 마이크로폰 어레이들을 사용할 때 또는 3D로 동작할 때는, 방향 벡터들( d )이 교차하지 않으면, 해가 얻어질 수 없다. 일 실시예에 따르면, 이 경우에 모든 방향 벡터들( d )에 가장 가까운 점이 계산되어 결과가 IPLS의 위치로서 사용될 수 있다.
일 실시예에서, 모든 관측점들(p1, p2, … )은, IPLS에 의해 발산되는 사운드가 동일한 시간 블록(n)에 속하도록 위치되어야 한다. 이 요건은 단순히, 관측점들 중 임의의 2개의 관측점들 간의 거리 Δ가 아래 값보다 더 작을 때 충족될 수 있는데:
Figure 112014062357079-pct00012
(8)
여기서 nFFT는 STFT 윈도우 길이이고, 0 ≤ R < 1은 연속적인 시간 프레임들 간의 중첩을 명시하며, fs는 샘플링 주파수이다. 예를 들어, 50% 중첩(R = 0.5)을 갖는 48㎑에서의 1024-점 STFT의 경우, 상기 요건을 충족시키기 위한 어레이들 간의 최대 간격은 Δ = 3.65m이다.
다음에, 일 실시예에 따른 정보 계산 모듈(202), 예를 들어 가상 마이크로폰 신호 및 사이드 정보 계산 모듈이 더 상세히 설명된다.
도 18은 일 실시예에 따른 정보 계산 모듈(202)의 도식적인 개요를 나타낸다. 정보 계산 유닛은 전파 보상기(500), 결합기(510) 및 스펙트럼 가중 유닛(520)을 포함한다. 정보 계산 모듈(202)은 사운드 이벤트 위치 추정기에 의해 추정된 음원 위치 추정치들(ssp)을 수신하며, 실제 공간 마이크로폰들 중 하나 또는 그보다 많은 공간 마이크로폰, 실제 공간 마이크로폰들 중 하나 또는 그보다 많은 공간 마이크로폰의 위치들(posRealMic), 그리고 가상 마이크로폰의 가상 위치(posVmic)에 의해 하나 또는 그보다 많은 오디오 입력 신호들이 레코딩된다. 이는 가상 마이크로폰의 오디오 신호를 나타내는 오디오 출력 신호(os)를 출력한다.
도 19는 다른 실시예에 따른 정보 계산 모듈을 나타낸다. 도 19의 정보 계산 모듈은 전파 보상기(500), 결합기(510) 및 스펙트럼 가중 유닛(520)을 포함한다. 전파 보상기(500)는 전파 파라미터 계산 모듈(501) 및 전파 보상 모듈(504)을 포함한다. 결합기(510)는 결합 계수 계산 모듈(502) 및 결합 모듈(505)을 포함한다. 스펙트럼 가중 유닛(520)은 스펙트럼 가중치 계산 유닛(503), 스펙트럼 가중 적용 모듈(506) 및 공간 사이드 정보 계산 모듈(507)을 포함한다.
가상 마이크로폰의 오디오 신호를 계산하기 위해, 기하학적 정보, 예를 들어 실제 공간 마이크로폰들의 위치 및 방향(121 … 12N), 가상 공간 마이크로폰의 위치, 방향 및 특징들(104), 및 사운드 이벤트들의 위치 추정치들(205)이 정보 계산 모듈(202)에, 특히 전파 보상기(500)의 전파 파라미터 계산 모듈(501)에, 결합기(510)의 결합 계수 계산 모듈(502)에 그리고 스펙트럼 가중 유닛(520)의 스펙트럼 가중치 계산 유닛(503)에 공급된다. 전파 파라미터 계산 모듈(501), 결합 계수 계산 모듈(502) 및 스펙트럼 가중치 계산 유닛(503)은 전파 보상 모듈(504), 결합 모듈(505) 및 스펙트럼 가중 적용 모듈(506)에서 오디오 신호들(111 … 11N)의 수정에 사용되는 파라미터들을 계산한다.
정보 계산 모듈(202)에서, 오디오 신호들(111 … 11N)은 처음에는, 사운드 이벤트 위치들과 실제 공간 마이크로폰들 간의 서로 다른 전파 길이들에 의해 주어지는 영향들을 보상하도록 수정될 수 있다. 다음에, 예컨대, 신호대 잡음비(SNR: signal-to-noise ratio)를 개선하도록 신호들이 결합될 수 있다. 마지막으로, 다음에는 가상 마이크로폰의 지향성 픽업 패턴뿐 아니라, 임의의 거리 의존 이득 함수도 고려하도록 결과적인 신호가 스펙트럼 가중될 수 있다. 이러한 세 단계들은 아래 더 상세히 논의된다.
이제, 전파 보상이 더 상세히 설명된다. 도 20의 상단 부분에는, 2개의 실제 공간 마이크로폰들(제 1 마이크로폰 어레이(910) 및 제 2 마이크로폰 어레이(920)), 시간-주파수 빈(k, n)에 대한 로컬라이징된 사운드 이벤트(930)의 위치, 및 가상 공간 마이크로폰(940)의 위치가 예시된다.
도 20의 하단 부분은 시간 축을 도시한다. 사운드 이벤트가 시간 t0에 발산된 다음, 실제 및 가상 공간 마이크로폰들로 전파된다고 가정된다. 전파 길이가 더 멀수록, 진폭이 더 약하고 도착 시간 지연이 더 길도록, 도착 시간 지연들뿐만 아니라 진폭도 거리에 따라 변화한다.
2개의 실제 어레이들에서의 신호들은 이들 간의 상대적 지연(Dt12)이 작은 경우에만 비교할만하다. 그렇지 않으면, 2개의 신호들 중 하나는 상대적 지연(Dt12)을 보상하도록 시간상 재정렬될 필요가 있고, 가능하게는 서로 다른 감쇄들을 보상하도록 스케일링될 필요가 있다.
가상 마이크로폰에서의 도착과 실제 마이크로폰 어레이들에서의(실제 공간 마이크로폰들 중 하나에서의) 도착 간의 지연 보상은 사운드 이벤트로부터의 로컬라이징과 독립적으로 지연을 변화시켜, 이를 대부분의 애플리케이션들에 불필요하게 한다.
도 19로 돌아가면, 전파 파라미터 계산 모듈(501)은 각각의 실제 공간 마이크로폰에 대해 그리고 각각의 사운드 이벤트에 대해 수정된 지연들을 계산하도록 적응된다. 원한다면, 이는 또한 서로 다른 진폭 감쇄들을 보상하기 위해 고려될 이득 계수들을 계산한다.
전파 보상 모듈(504)은 이 정보를 사용하여 그에 따라 오디오 신호들을 수정하도록 구성된다. 신호들이 (필터 뱅크의 시간 윈도우에 비해) 소량의 시간만큼 시프트되어야 한다면, 간단한 위상 회전으로 충분하다. 지연들이 더 크다면, 더 복잡한 구현들이 필요하다.
전파 보상 모듈(504)의 출력은 원래의 시간-주파수 도메인으로 표현되는 수정된 오디오 신호들이다.
다음에, 일 실시예에 따른 가상 마이크로폰에 대한 전파 보상의 특별한 추정이, 그 중에서도 제 1 실제 공간 마이크로폰의 위치(610)와 제 2 실제 공간 마이크로폰의 위치(620)를 나타내는 도 17과 관련하여 설명될 것이다.
이제 설명되는 실시예에서, 적어도 제 1 레코딩된 오디오 입력 신호, 예를 들어 실제 공간 마이크로폰들(예를 들어, 마이크로폰 어레이들) 중 적어도 하나의 공간 마이크로폰의 압력 신호, 예를 들어 제 1 실제 공간 마이크로폰의 압력 신호가 이용 가능하다고 가정된다. 고려되는 마이크로폰을 기준 마이크로폰으로서, 그 위치를 기준 위치 pref로 그리고 그 압력 신호를 기준 압력 신호 Pref(k, n)로서 언급할 것이다. 그러나 전파 보상은 단 하나의 압력 신호에 관해 수행될 뿐만 아니다, 복수의 또는 모든 실제 공간 마이크로폰들의 압력 신호들에 대해서도 수행될 수 있다.
IPLS에 의해 발산되는 압력 신호 pIPLS(k, n)과 pref에 위치하는 기준 마이크로폰의 기준 압력 신호 Pref(k, n) 간의 관계는 식(9)으로 표현될 수 있다:
Figure 112014062357079-pct00013
(9)
일반적으로, 복소 인자 γ(k, pa, pb)는 pa에서의 그 원점으로부터 pb로의 구면파의 전파에 의해 전해진 위상 회전 및 진폭 감쇄를 나타낸다. 그러나 실제 테스트들은, γ에서 진폭 감쇄만을 고려하는 것이 위상 회전을 또한 고려하는 것에 비해 상당히 더 적은 아티팩트들을 갖는 가상 마이크로폰 신호의 타당한 것 같은 인상들로 이어진다고 지적하였다.
공간의 특정 점에서 측정될 수 있는 사운드 에너지는 음원으로부터의, 도 6에서는 음원의 위치 pIPLS로부터의 거리(r)에 강력히 의존한다. 많은 상황들에서, 이러한 의존성은 잘 알려진 물리적 원리들, 예를 들어, 점원(point source)의 원거리장(far-field)에서의 음압의 1/r 감쇄를 사용하여 충분한 정확도로 모델링될 수 있다. 음원으로부터 기준 마이크로폰, 예를 들어 제 1 실제 마이크로폰의 거리가 알려지면, 그리고 음원으로부터의 가상 마이크로폰의 거리 또한 알려지면, 가상 마이크로폰의 위치에서의 사운드 에너지가 기준 마이크로폰, 예를 들어 제 1 실제 공간 마이크로폰의 신호 및 에너지로부터 추정될 수 있다. 이는, 기준 압력 신호에 적절한 이득들을 적용함으로써 가상 마이크로폰의 출력 신호가 얻어질 수 있음을 의미한다.
제 1 실제 공간 마이크로폰이 기준 마이크로폰이라고 가정하면, pref = p1이다. 도 17에서, 가상 마이크로폰은 pv에 위치한다. 도 17의 기하학적 구조는 상세히 알려져 있기 때문에, 가상 마이크로폰과 IPLS 간의 거리 s(k, n) = ∥s(k, n)∥뿐만 아니라, 기준 마이크로폰(도 17에서는 제 1 실제 공간 마이크로폰)과 IPLS 간의 거리 d1(k, n) = ∥d1(k, n)∥이 쉽게 결정될 수 있는데, 즉
Figure 112014062357079-pct00014
(10)
식(1)과 식(9)을 결합함으로써 가상 마이크로폰의 위치에서의 음압 Pv(k, n)이 계산되며, 이는 다음으로 이어진다:
Figure 112014062357079-pct00015
(11)
앞서 언급한 바와 같이, 일부 실시예들에서, 인자들(γ)은 전파로 인한 진폭 감쇄만을 고려할 수 있다. 예컨대, 음압이 1/r에 따라 감소한다고 가정하면, 다음과 같다:
Figure 112014062357079-pct00016
(12)
식(1)의 모델이 유지되면, 예를 들어 직접음만 존재하면, 식(12)은 크기 정보를 정확히 재구성할 수 있다. 그러나 순수한 발산 음장들의 경우, 예를 들어 모델 가정들이 충족되지 않을 때, 가상 마이크로폰을 센서 어레이들의 위치들로부터 멀리 이동시키면, 제시된 방법은 신호의 암시적 탈잔향을 산출한다. 사실, 앞서 논의한 바와 같이, 발산 음장들에서는 대부분의 IPLS가 2개의 센서 어레이들 근처에서 로컬라이징된다고 예상한다. 따라서 가상 마이크로폰을 이러한 위치들로부터 멀리 이동시키면, 도 17의 거리 s = ∥s∥를 증가시킬 가능성이 있다. 따라서 식(11)에 따라 가중치를 적용하면, 기준 압력의 크기가 감소된다. 대응하게, 가상 마이크로폰을 실제 음원에 가깝게 이동시키면, 직접음에 대응하는 시간-주파수 빈들이 증폭되어, 전체 오디오 신호가 덜 발산한다고 인식될 것이다. 식(12)에서 룰을 조정함으로써, 직접음 증폭 및 확산음 억제를 마음대로 제어할 수 있다.
제 1 실제 공간 마이크로폰의 레코딩된 오디오 입력 신호(예를 들어, 압력 신호)에 대한 전파 보상을 수행함으로써, 제 1 수정된 오디오 신호가 얻어진다.
실시예들에서, 제 2 실제 공간 마이크로폰의 레코딩된 제 2 오디오 입력 신호(제 2 압력 신호)에 대한 전파 보상을 수행함으로써, 제 2 수정된 오디오 신호가 얻어질 수 있다.
다른 실시예들에서, 추가 실제 공간 마이크로폰들의 레코딩된 추가 오디오 입력 신호들(추가 압력 신호들)에 대한 전파 보상을 수행함으로써, 추가 오디오 신호들이 얻어질 수 있다.
이제, 일 실시예에 따른 도 19의 블록들(502, 505)의 결합이 더 상세히 설명된다. 2개 또는 그보다 많은 수정된 오디오 신호들을 얻기 위해 복수의 서로 다른 실제 공간 마이크로폰들로부터의 2개 또는 그보다 많은 오디오 신호들이 서로 다른 전파 경로들을 보상하도록 수정되었다고 가정된다. 서로 다른 실제 공간 마이크로폰들로부터의 오디오 신호들이 서로 다른 전파 경로들을 보상하도록 수정되었다면, 이들은 결합되어 오디오 품질을 개선할 수 있다. 이렇게 함으로써, 예를 들어, SNR이 증가될 수 있거나 잔향이 감소될 수 있다.
결합에 대한 가능한 해법들은 다음을 포함한다:
- 예를 들어, SNR, 또는 가상 마이크로폰까지의 거리, 또는 실제 공간 마이크로폰들에 의해 추정된 확산을 고려한 가중 평균. 종래의 해법들, 예를 들어 최대비 결합(MRC: Maximum Ratio Combining) 또는 동등 이득 결합(EQC: Equal Gain Combining)이 이용될 수도 있고, 혹은
- 결합 신호를 얻기 위한 수정된 오디오 신호들 중 일부 또는 전부의 선형 결합. 수정된 오디오 신호들이 선형 결합에서 가중되어 결합 신호를 얻을 수도 있고, 혹은
- 선택, 예를 들어, SNR 또는 거리 또는 확산에 의존하여, 예를 들어, 단 하나의 신호가 사용된다.
모듈(502)의 작업은, 적용 가능하다면, 모듈(505)에서 실행되는 결합을 위한 파라미터들을 계산하는 것이다.
이제, 실시예들에 따른 스펙트럼 가중이 더 상세히 설명된다. 이를 위해, 도 19의 블록들(503, 506)이 참조된다. 이 마지막 단계에서는, 입력 오디오 신호들의 전파 보상으로부터 또는 결합으로부터 발생한 오디오 신호가, 입력(104)으로 명시된 바와 같은 가상 공간 마이크로폰의 공간 특징들에 따라 그리고/또는 (205로 주어진) 재구성된 기하학적 구조에 따라 시간-주파수 도메인에서 가중된다.
각각의 시간-주파수 빈에 대해, 기하학적 재구성은 도 21에 도시된 바와 같이, 가상 마이크로폰에 대한 DOA를 쉽게 얻을 수 있게 한다. 더욱이, 가상 마이크로폰과 사운드 이벤트의 위치 간의 거리가 또한 쉽게 계산될 수 있다.
다음에, 원하는 가상 마이크로폰의 타입을 고려하여 시간-주파수 빈에 대한 가중치가 계산된다.
지향성 마이크로폰들의 경우, 미리 정해진 픽업 패턴에 따라 스펙트럼 가중치들이 계산될 수 있다. 예를 들어, 일 실시예에 따르면, 카디오이드(cardioid) 마이크로폰은 함수 g(theta)에 의해 정의된 픽업 패턴을 가질 수 있으며,
g(theta) = 0.5 + 0.5 cos(theta),
여기서 theta는 가상 공간 마이크로폰의 보는 방향과 가상 마이크로폰의 시점으로부터의 사운드의 DOA 간의 각이다.
다른 가능성은 정교한(비물리적) 감쇄 함수들이다. 특정 애플리케이션들에서는, 자유장 전파를 특성화하는 인자보다 더 큰 인자를 갖는 가상 마이크로폰에서 멀리 떨어진 사운드 이벤트들을 억제하는 것이 바람직할 수도 있다. 이를 위해, 일부 실시예들은 가상 마이크로폰과 사운드 이벤트 간의 거리에 의존하는 추가 가중 함수를 도입한다. 일 실시예에서, 가상 마이크로폰으로부터의 특정 거리(예를 들어, 미터) 내의 사운드 이벤트들만이 픽업되어야 한다.
가상 마이크로폰 지향성에 관하여, 가상 마이크로폰에 대해 임의의 지향성 패턴들이 적용될 수 있다. 이렇게 하면, 예컨대 복합 사운드 장면으로부터 소스를 분리할 수 있다.
가상 마이크로폰의 위치(pv)에서 사운드의 DOA가 계산될 수 있는데, 즉
Figure 112014062357079-pct00017
(13)
여기서 cv는 가상 마이크로폰의 방향을 기술하는 단위 벡터이며, 가상 마이크로폰에 대한 임의의 지향성들이 실현될 수 있다. 예를 들어, Pv(k, n)이 결합 신호 또는 전파 보상된 수정된 오디오 신호를 나타낸다고 가정하면, 다음 식은:
Figure 112014062357079-pct00018
(14)
카디오이드 지향성을 갖는 가상 마이크로폰의 출력을 계산한다. 이런 식으로 잠재적으로 생성될 수 있는 지향성 패턴들은 위치 추정의 정확도에 의존한다.
실시예들에서, 실제 공간 마이크로폰들 외에도 하나 또는 그보다 많은 실제 비-공간 마이크로폰들, 예를 들어, 전방향성 마이크로폰이나 카디오이드와 같은 지향성 마이크로폰이 사운드 장면에 배치되어, 도 8에서 가상 마이크로폰 신호들(105)의 사운드 품질을 더 개선한다. 이러한 마이크로폰들은 임의의 기하학적 정보를 수집하는데 사용되는 것이 아니라, 그보다는 더 명확한 오디오 신호를 제공하기 위해서만 사용된다. 이러한 마이크로폰들은 공간 마이크로폰들보다 음원들에 더 가깝게 배치될 수 있다. 이 경우에, 일 실시예에 따르면, 실제 공간 마이크로폰들의 오디오 신호들 대신, 실제 비-공간 마이크로폰들의 오디오 신호들 및 이들의 위치들이 단순히, 처리를 위해 도 19의 전파 보상 모듈(504)에 공급된다. 다음에, 하나 또는 그보다 많은 비-공간 마이크로폰들의 위치에 관하여 비-공간 마이크로폰들의 하나 또는 그보다 많은 레코딩된 오디오 신호들에 대해 전파 보상이 수행된다. 이것에 의해, 추가 비-공간 마이크로폰들을 사용하여 실시예가 실현된다.
추가 실시예에서, 가상 마이크로폰의 공간 사이드 정보의 계산이 실현된다. 마이크로폰의 공간 사이드 정보(106)를 계산하기 위해, 도 19의 정보 계산 모듈(202)은 음원들의 위치들(205) 및 가상 마이크로폰의 위치, 방향 및 특징들(104)을 입력으로서 수신하도록 적응된 공간 사이드 정보 계산 모듈(507)을 포함한다. 특정 실시예들에서, 계산될 필요가 있는 사이드 정보(106)에 따르면, 가상 마이크로폰의 오디오 신호(105)가 또한 공간 사이드 정보 계산 모듈(507)에 대한 입력으로서 고려될 수 있다.
공간 사이드 정보 계산 모듈(507)의 출력은 가상 마이크로폰의 사이드 정보(106)이다. 이 사이드 정보는 예컨대, 가상 마이크로폰의 시점으로부터의 각각의 시간-주파수 빈(k, n)에 대한 사운드의 확산 또는 DOA일 수 있다. 다른 가능한 사이드 정보는 예컨대, 가상 마이크로폰의 위치에서 측정되었을 액티브 사운드 강도 벡터 Ia(k, n)일 수 있다. 이러한 파라미터들이 어떻게 유도될 수 있는지가 이제 설명될 것이다.
일 실시예에 따르면, 가상 공간 마이크로폰에 대한 DOA 추정이 실현된다. 정보 계산 모듈(120)은 도 22로 예시된 바와 같이 가상 마이크로폰의 위치 벡터를 기초로 그리고 사운드 이벤트의 위치 벡터를 기초로, 가상 마이크로폰에서의 도착 방향을 공간 사이드 정보로서 추정하도록 적응된다.
도 22는 가상 마이크로폰의 관점에서 사운드의 DOC를 유도하기 위한 가능한 방법을 도시한다. 도 19의 블록(205)에 의해 제공되는 사운드 이벤트의 위치는 각각의 시간-주파수 빈(k, n)에 대해 사운드 이벤트의 위치 벡터인 위치 벡터 r(k, n)으로 기술될 수 있다. 마찬가지로, 도 19의 입력(104)으로서 제공되는 가상 마이크로폰의 위치는 가상 마이크로폰의 위치 벡터인 위치 벡터 s(k, n)로 기술될 수 있다. 가상 마이크로폰의 보는 방향은 벡터 v(k, n)으로 기술될 수 있다. 가상 마이크로폰에 대한 DOA는 a(k, n)로 주어진다. 이는 v와 사운드 전파 경로 h(k, n) 간의 각을 나타낸다. h(k, n)은 다음 식을 이용함으로써 계산될 수 있다:
Figure 112014062357079-pct00019
이제 각각의 (k, n)에 대해, 예컨대 h(k, n)과 v(k, n)의 내적의 정의를 통해 원하는 DOA a(k, n)이 계산될 수 있는데, 즉
Figure 112014062357079-pct00020
다른 실시예에서, 정보 계산 모듈(120)은 도 22에 예시된 바와 같이 가상 마이크로폰의 위치 벡터를 기초로 그리고 사운드 이벤트의 위치 벡터를 기초로, 가상 마이크로폰에서의 액티브 사운드 강도를 공간 사이드 정보로서 추정하도록 적응될 수 있다.
위에 정의된 DOA a(k, n)로부터, 가상 마이크로폰의 위치에서의 액티브 사운드 강도 Ia(k, n)을 유도할 수 있다. 이를 위해, 도 19의 가상 마이크로폰 오디오 신호(105)는 전방향성 마이크로폰의 출력에 대응한다고 가정되는데, 예를 들어 가상 마이크로폰은 전방향성 마이크로폰이라고 가정한다. 더욱이, 도 22에서 보는 방향 v는 좌표 시스템의 x-축과 평행하다고 가정된다. 원하는 액티브 사운드 강도 벡터 Ia(k, n)이 가상 마이크로폰의 위치를 통하는 에너지의 알짜 흐름을 기술하기 때문에, 예를 들어 다음 식에 따라 Ia(k, n)이 계산될 수 있으며:
Figure 112014062357079-pct00021
여기서 []T는 전치 벡터를 나타내고, rho는 공기 밀도이며, Pv(k, n)은 가상 공간 마이크로폰에 의해 측정되는 음압, 예를 들어 도 19에서 블록(506)의 출력(105)이다.
액티브 강도 벡터가 일반 좌표 시스템으로 표현되어, 그러나 여전히 가상 마이크로폰의 위치에서 계산된다면, 다음 식이 적용될 수 있다:
Figure 112014062357079-pct00022
사운드의 확산은 주어진 시간-주파수 슬롯에서 음장이 얼마나 발산하는지를 표현한다(예를 들어, [2] 참조). 확산은 ψ 값으로 표현되며, 여기서 0 ≤ ψ ≤ 1이다. 1의 확산은 음장의 총 음장 에너지가 완전히 확산함을 나타낸다. 이 정보는 예를 들어, 공간 사운드의 재생에 있어 중요하다. 종래에는, 마이크로폰 어레이가 배치된 공간의 특정 점에서 확산이 계산된다.
일 실시예에 따라, 확산은 사운드 장면 내 임의의 위치에 마음대로 배치될 수 있는 가상 마이크로폰(VM)에 대해 생성된 사이드 정보에 대한 추가 파라미터로서 계산될 수 있다. 이것에 의해, 가상 마이크로폰의 가상 위치에서의 오디오 신호 외에 확산을 또한 계산하는 장치는, 사운드 장면 내 임의의 점에 대한 DirAC 스트림, 즉 오디오 신호, 도착 방향 및 확산을 생성하는 것이 가능하기 때문에, 가상 DirAC 프론트엔드로서 확인될 수 있다. DirAC 스트림은 임의의 멀티 라우드 스피커 셋업에 관해 추가 처리, 저장, 전송 및 재생될 수 있다. 이 경우에, 청취자는, 자신이 마치 가상 마이크로폰에 의해 지정된 위치에 있고 가상 마이크로폰의 방향에 의해 결정된 방향에서 보고 있는 것처럼 사운드 장면을 경험한다.
도 23은 가상 마이크로폰에서의 확산을 계산하기 위한 확산 계산 유닛(801)을 포함하는 일 실시예에 따른 정보 계산 블록을 나타낸다. 정보 계산 블록(202)은 도 14의 입력들 외에도, 실제 공간 마이크로폰들에서의 확산을 또한 포함하는 입력들(111 내지 11N)을 수신하도록 적응된다. ψ( SM1 ) 내지 ψ( SMN )이 이러한 값들을 나타낸다고 한다. 이러한 추가 입력들은 정보 계산 모듈(202)에 공급된다. 확산 계산 유닛(801)의 출력(103)은 가상 마이크로폰의 위치에서 계산된 확산 파라미터이다.
일 실시예의 확산 계산 유닛(801)은 더 세부사항들을 설명하는 도 24에 예시된다. 일 실시예에 따르면, N개의 공간 마이크로폰들 각각에서의 직접음 및 확산음의 에너지가 추정된다. 다음에, IPLS의 위치들에 대한 정보 그리고 공간 및 가상 마이크로폰들의 위치들에 대한 정보를 사용하여, 가상 마이크로폰의 위치에서 이러한 에너지들의 N개의 추정치들이 얻어진다. 마지막으로, 추정치들이 결합되어 추정 정확도를 개선할 수 있고, 가상 마이크로폰에서의 확산 파라미터가 쉽게 계산될 수 있다.
Figure 112014062357079-pct00023
내지
Figure 112014062357079-pct00024
그리고
Figure 112014062357079-pct00025
내지
Figure 112014062357079-pct00026
이 에너지 분석 유닛(810)에 의해 계산된 N개의 공간 마이크로폰들에 대한 직접음 및 확산음의 에너지들의 추정치들을 나타낸다고 한다. P i는 제 i 공간 마이크로폰에 대한 복소 압력 신호이고 ψi는 확산이라면, 에너지들은 예를 들어, 다음 식들에 따라 계산될 수 있다:
Figure 112014062357079-pct00027
확산음의 에너지는 모든 위치들에서 동일해야 하며, 따라서 가상 마이크로폰에서의 확산음 에너지의 추정치
Figure 112014062357079-pct00028
은 예를 들어, 다음 식에 따라, 예를 들어 확산 결합 유닛(820)에서 단순히
Figure 112014062357079-pct00029
내지
Figure 112014062357079-pct00030
을 평균함으로써 계산될 수 있다:
Figure 112014062357079-pct00031
추정기들의 편차들을 고려함으로써, 예컨대 SNR을 고려함으로써 추정치들
Figure 112014062357079-pct00032
내지
Figure 112014062357079-pct00033
의 더 효과적인 결합이 실행될 수 있다.
직접음의 에너지는 전파로 인한 소스까지의 거리에 의존한다. 따라서
Figure 112014062357079-pct00034
내지
Figure 112014062357079-pct00035
은 이것을 고려하도록 수정될 수 있다. 이는 예를 들어, 직접음 전파 조정 유닛(830)에 의해 실행될 수 있다. 예를 들어, 직접음장의 에너지가 제곱된 거리에 걸쳐 1로 감쇄한다고 가정된다면, 제 i 공간 마이크로폰에 대한 가상 마이크로폰에서의 직접음에 대한 추정치가 다음 식에 따라 계산될 수 있다:
Figure 112014062357079-pct00036
확산 결합 유닛(820)과 마찬가지로, 서로 다른 공간 마이크로폰들에서 얻어진 직접음 에너지의 추정치들은 예를 들어, 직접음 결합 유닛(840)에 의해 결합될 수 있다. 결과는
Figure 112014062357079-pct00037
, 예를 들어 가상 마이크로폰에서의 직접음 에너지에 대한 추정치이다. 가상 마이크로폰에서의 확산 ψ(VM)은 예를 들어, 다음 식에 따라, 예를 들어 확산 하위 계산기(850)에 의해 계산될 수 있다:
Figure 112014062357079-pct00038
앞서 언급한 바와 같이, 어떤 경우들에는, 예를 들어 잘못된 도착 방향 추정의 경우, 사운드 이벤트 위치 추정기에 의해 실행되는 사운드 이벤트 위치 추정이 실패한다. 도 25는 이러한 시나리오를 나타낸다. 이러한 경우들에는, 서로 다른 공간 마이크로폰에서 추정된 그리고 입력들(111 내지 11N)로서 수신되는 확산 파라미터들과 관계없이, 공간적 코히어런트 재생이 가능하지 않기 때문에, 가상 마이크로폰에 대한 확산(103)이 1(즉, 완전히 확산)로 설정될 수 있다.
추가로, N개의 공간 마이크로폰들에서의 DOA 추정치들의 신뢰도가 고려될 수 있다. 이는 예를 들어, DOA 추정기 또는 SNR의 편차와 관련하여 표현될 수 있다. 이러한 정보는 DOA 추정치들이 신뢰성 없는 경우에 VM 확산(103)이 인공적으로 증가될 수 있도록 확산 하위 계산기(850)에 의해 고려될 수 있다. 사실, 그 결과, 위치 추정치들(205) 또한 신뢰성이 없을 것이다.
도 2a는 일 실시예에 따라 하나 또는 그보다 많은 음원들에 관련된 오디오 데이터를 포함하는 오디오 데이터 스트림을 기초로, 적어도 하나의 오디오 출력 신호를 생성하기 위한 장치(150)를 나타낸다.
장치(150)는 오디오 데이터를 포함하는 오디오 데이터 스트림을 수신하기 위한 수신기(160)를 포함한다. 오디오 데이터는 하나 또는 그보다 많은 음원들 중 각각의 음원에 대한 하나 또는 그보다 많은 압력 값들을 포함한다. 더욱이, 오디오 데이터는 음원들 중 각각의 음원에 대해 음원들 중 한 음원의 위치를 나타내는 하나 또는 그보다 많은 위치 값들을 포함한다. 더욱이, 장치는 오디오 데이터 스트림의 오디오 데이터의 하나 또는 그보다 많은 압력 값들 중 적어도 하나를 기초로 그리고 오디오 데이터 스트림의 오디오 데이터의 하나 또는 그보다 많은 위치 값들 중 적어도 하나를 기초로 적어도 하나의 오디오 출력 신호를 생성하기 위한 합성 모듈(170)을 포함한다. 오디오 데이터는 복수의 시간-주파수 빈들 중 하나의 시간-주파수 빈에 대해 정의된다. 음원들 중 각각의 음원에 대해, 적어도 하나의 압력 값은 오디오 데이터로 구성되며, 여기서 적어도 하나의 압력 값은 예를 들어, 음원으로부터 발생하는 발산 음파에 관련된 압력 값일 수 있다. 압력 값은 오디오 신호의 값, 예를 들어 가상 마이크로폰의 오디오 출력 신호를 생성하기 위한 장치에 의해 생성된 오디오 출력 신호의 압력 값일 수 있으며, 여기서 그 가상 마이크로폰은 음원의 위치에 배치된다.
따라서 도 2a는 언급된 오디오 데이터 스트림을 수신하거나 처리하기 위해 이용될 수 있는 장치(150)를 나타내는데, 즉 장치(150)는 수신기/합성 측에서 이용될 수 있다. 오디오 데이터 스트림은 복수의 음원들 중 각각의 음원들에 대한 하나 또는 그보다 많은 압력 값들 및 하나 또는 그보다 많은 위치 값들을 포함하는 오디오 데이터를 포함하는데, 즉 압력 값들 및 위치 값들의 각각의 값은 레코딩된 오디오 장면의 하나 또는 그보다 많은 음원들 중 특정 음원들에 관련된다. 이는 위치 값들이 레코딩 마이크로폰들 대신 음원들의 위치들을 나타냄을 의미한다. 압력 값에 관하여, 이는 오디오 데이터 스트림이 음원들 중 각각의 음원에 대한 하나 또는 그보다 많은 압력 값을 포함함을 의미하는데, 즉 압력 값들은 실제 공간 마이크로폰의 레코딩과 관련되는 대신에 음원과 관련되는 오디오 신호를 나타낸다.
일 실시예에 따라, 수신기(160)는 오디오 데이터를 포함하는 오디오 데이터 스트림 수신하도록 적응될 수 있으며, 여기서 오디오 데이터는 더욱이, 음원들 중 각각의 음원에 대한 하나 또는 그보다 많은 확산 값들을 포함한다. 합성 모듈(170)은 하나 또는 그보다 많은 확산 값들 중 적어도 하나를 기초로 적어도 하나의 오디오 출력 신호를 생성하도록 적응될 수 있다.
도 2b는 일 실시예에 따라 하나 또는 그보다 많은 음원들과 관련된 음원 데이터를 포함하는 오디오 데이터 스트림을 생성하기 위한 장치(200)를 나타낸다. 오디오 데이터 스트림을 생성하기 위한 장치(200)는 적어도 하나의 공간 마이크로폰에 의해 레코딩된 적어도 하나의 오디오 입력 신호를 기초로 그리고 적어도 2개의 공간 마이크로폰에 의해 제공된 오디오 사이드 정보를 기초로 음원 데이터를 결정하기 위한 결정기(210)를 포함한다. 더욱이, 장치(200)는 오디오 데이터 스트림이 음원 데이터를 포함하도록 오디오 데이터 스트림을 생성하기 위한 데이터 스트림 생성기(220)를 포함한다. 음원 데이터는 음원들 중 각각의 음원에 대한 하나 또는 그보다 많은 압력 값들을 포함한다. 더욱이, 음원 데이터는 음원들 중 각각의 음원에 대한 음원 위치를 나타내는 하나 또는 그보다 많은 위치 값들을 더 포함한다. 더욱이, 음원 데이터는 복수의 시간-주파수 빈들 중 하나의 시간-주파수 빈에 대해 정의된다.
다음에, 장치(200)에 의해 생성된 오디오 데이터 스트림이 전송될 수 있다. 이와 같이 장치(200)는 분석/송신기 측에서 이용될 수 있다. 오디오 데이터 스트림은 복수의 음원들 중 각각의 음원들에 대한 하나 또는 그보다 많은 압력 값들 및 하나 또는 그보다 많은 위치 값들을 포함하는 오디오 데이터를 포함하는데, 즉 압력 값들 및 위치 값들의 각각의 값은 레코딩된 오디오 장면의 하나 또는 그보다 많은 음원들 중 특정 음원들에 관련된다. 이는 위치 값들에 관하여, 위치 값들이 레코딩 마이크로폰들 대신 음원들의 위치들을 나타냄을 의미한다.
추가 실시예에서, 결정기(210)는 적어도 하나의 공간 마이크로폰에 의한 확산 정보를 기초로 음원 데이터를 결정하도록 적응될 수 있다. 데이터 스트림 생성기(220)는, 오디오 데이터 스트림이 음원 데이터를 포함하게 오디오 데이터 스트림을 생성하도록 적응될 수 있다. 음원 데이터는 더욱이, 음원들 중 각각의 음원에 대한 하나 또는 그보다 많은 확산 값들을 포함한다.
도 3a는 일 실시예에 따른 오디오 데이터 스트림을 나타낸다. 오디오 데이터 스트림은 하나의 시간-주파수 빈에서 액티브한 2개의 음원들과 관련된 오디오 데이터를 포함한다. 특히, 도 3a는 시간-주파수 빈(k, n)에 대해 전송되는 오디오 데이터를 나타내며, 여기서 k는 주파수 인덱스를 나타내고 n은 시간 인덱스를 나타낸다. 오디오 데이터는 제 1 음원의 압력 값(P1), 위치 값(Q1) 및 확산 값(ψ1)을 포함한다. 위치 값(Q1)은 제 1 음원의 위치를 나타내는 3개의 좌표 값들(X1, Y1, Z1)을 포함한다. 더욱이, 오디오 데이터는 제 2 음원의 압력 값(P2), 위치 값(Q2) 및 확산 값(ψ2)을 포함한다. 위치 값(Q2)은 제 2 음원의 위치를 나타내는 3개의 좌표 값들(X2, Y2, Z2)을 포함한다.
도 3b는 다른 실시예에 따른 오디오 스트림을 나타낸다. 또한, 오디오 데이터는 제 1 음원의 압력 값(P1), 위치 값(Q1) 및 확산 값(ψ1)을 포함한다. 위치 값(Q1)은 제 1 음원의 위치를 나타내는 3개의 좌표 값들(X1, Y1, Z1)을 포함한다. 더욱이, 오디오 데이터는 제 2 음원의 압력 값(P2), 위치 값(Q2) 및 확산 값(ψ2)을 포함한다. 위치 값(Q2)은 제 2 음원의 위치를 나타내는 3개의 좌표 값들(X2, Y2, Z2)을 포함한다.
도 3c는 오디오 데이터 스트림의 다른 예시를 제공한다. 오디오 데이터 스트림은 기하학 기반 공간 오디오 코딩(GAC: geometry-based spatial and audio coding) 정보를 제공하기 때문에, 이는 또한 "기하학 기반 공간 오디오 코딩 스트림" 또는 "GAC 스트림"으로도 지칭된다. 오디오 데이터 스트림은 하나 또는 그보다 많은 음원들, 예를 들어 하나 또는 그보다 많은 등방점형의 소스(IPLS)에 관련된 정보를 포함한다. 위에서 이미 설명한 바와 같이, GAC 스트림은 다음의 신호들을 포함할 수 있으며, 여기서 k 및 n은 고려되는 시간-주파수 빈의 주파수 인덱스 및 시간 인덱스를 나타낸다:
Figure 112014062357079-pct00039
P(k, n): 음원에서의, 예를 들어 IPLS에서의 복소 압력. 이 신호는 가능하게는 직접음(IPLS 자체로부터 발생하는 사운드) 및 확산음을 포함한다.
Figure 112014062357079-pct00040
Q(k, n): 음원의, 예를 들어 IPLS의 위치(예를 들어, 3D에서 데카르트 좌표들): 위치는 예를 들어, 데카르트 좌표들 X(k, n), Y(k, n), Z(k, n)을 포함할 수 있다.
Figure 112014062357079-pct00041
IPLS에서의 확산: ψ(k, n). 이 파라미터는 P(k, n)으로 구성된 확산음에 대한 직접음의 전력비에 관련된다. P(k, n) = Pdir(k, n) + Pdiff(k, n)이라면, 확산을 표현하기 위한 하나의 확률은 ψ(k, n) = |Pdiff(k, n)|2/|P(k, n)|2이다. |P(k, n)|2이 알려져 있다면, 다른 대등한 표현들, 예를 들어 직접음 대 확산음 비(DDR: Direct to Diffuse Ratio) Γ=|Pdir(k, n)|2/|Pdiff(k, n)|2이 가능하다.
이미 언급한 바와 같이, k 및 n은 각각 주파수 인덱스 및 시간 인덱스를 나타낸다. 원한다면 그리고 분석이 이를 가능하게 한다면, 주어진 시간-주파수 슬롯에서 하나보다 더 많은 IPLS가 표현될 수 있다. 이는 도 3c에서 M개의 다수 계층들로 도시되어, 제 i 계층에 대한(즉, 제 i IPLS에 대한) 압력 신호가 Pi(k, n)으로 표기될 수 있다. 편의상, IPLS의 위치는 벡터 Qi(k, n) = [Xi(k, n), Yi(k, n), Zi(k, n)]T로 표현될 수 있다. 최신 기술과는 다르게, GAC 스트림의 모든 파라미터들은 하나 또는 그보다 많은 음원에 관하여, 예를 들어 IPLS에 관하여 표현되어, 레코딩 정보로부터의 독립성을 달성한다. 도 3a과 3b에서는 물론, 도 3c에서도, 도면의 모든 수량들은 시간-주파수 도메인에서 고려되며; 단순성의 이유들로 (k, n) 표기는 무시되었으며, 예를 들어, Pi는 Pi(k, n)을 의미하며, 예를 들어 Pi = Pi(k, n)이다.
다음에는, 일 실시예에 따라 오디오 데이터 스트림을 생성하기 위한 장치가 더 상세히 설명된다. 도 2b의 장치와 같이, 도 4의 장치는 결정기(210)와 유사할 수도 있는 결정기(210)와 데이터 스트림 생성기(220)를 포함한다. 결정기는 오디오 입력 데이터를 분석하여 데이터 스트림 생성기가 어느 음원 데이터를 기초로 오디오 데이터 스트림을 생성하는지를 결정하기 때문에, 결정기와 데이터 스트림 생성기는 함께 "분석 모듈"로 지칭될 수도 있다. (도 4의 분석 모듈(410) 참조).
분석 모듈(410)은 N개의 공간 마이크로폰들의 레코딩들로부터 GAC 스트림을 계산한다. 원하는 계층들의 수(M)(예를 들어, 특정 시간-주파수 빈에 대한 오디오 데이터 스트림으로 정보가 구성될 음원들의 수), 공간 마이크로폰들의 타입 및 개수(N)에 따라, 분석을 위한 서로 다른 방법들이 가능하다. 몇 개의 예들이 다음에 주어진다.
첫 번째 예로서, 시간-주파수 슬롯당 하나의 음원, 예를 들어 하나의 IPLS에 대한 파라미터 추정이 고려된다. M = 1인 경우, 가상 공간 마이크로폰이 음원의 위치에, 예를 들어 IPLS의 위치에 배치될 수 있다는 점에서, 가상 마이크로폰의 오디오 출력 신호를 생성하기 위한 장치에 관해 앞서 설명한 개념들로 GAC 스트림이 쉽게 얻어질 수 있다. 이는 압력 신호들이 대응하는 위치 추정치들 그리고 가능하게는 확산과 함께, IPLS의 위치에서 계산될 수 있게 한다. 이러한 3개의 파라미터들은 GAC 스트림으로 함께 그룹화되며, 전송 또는 저장되기 전에 도 8의 모듈(102)에 의해 추가 조작될 수 있다.
예를 들어, 결정기는 가상 마이크로폰의 오디오 출력 신호를 생성하기 위한 장치의 사운드 이벤트 위치 추정에 대해 제안된 개념들을 이용함으로써 음원의 위치를 결정할 수 있다. 더욱이, 결정기는 오디오 출력 신호를 생성하기 위한 장치를 포함할 수 있고, 결정된 음원의 위치를 가상 마이크로폰의 위치로서 사용하여 음원의 위치에서 압력 값들(예를 들어, 생성될 오디오 출력 신호의 값들) 및 확산을 계산할 수 있다.
특히, 예를 들어, 도 4의 결정기(210)는 압력 신호들, 대응하는 위치 추정치들, 및 대응하는 확산을 결정하도록 구성되는 한편, 데이터 스트림 생성기(220)는 계산된 압력 신호들, 위치 추정치들 및 확산을 기초로 오디오 데이터 스트림을 생성하도록 구성된다.
다른 예로서, 시간-주파수 슬롯당 2개의 음원들, 예를 들어 2개의 IPLS에 대한 파라미터 추정이 고려된다. 분석 모듈(410)이 시간-주파수 빈당 2개의 음원들을 추정해야 한다면, 최신 기술의 추정기들을 기반으로 한 다음의 개념이 사용될 수 있다.
도 5는 2개의 음원들 및 2개의 균일한 선형 마이크로폰 어레이들로 구성된 사운드 장면을 나타낸다. 아래 문헌의 ESPRIT를 참조한다:
[26] R. Roy and T. Kailath. ESPRIT-estimation of signal parameters via rotational invariance techniques. Acoustics, Speech and Signal Processing, IEEE Transactions on, 37(7):984-995, July 1989.
각각의 어레이에서 각각의 시간-주파수 빈에 대한 2개의 DOA 추정치들을 얻기 위해 각각의 어레이에서 개별적으로 ESPRIT([26])가 이용될 수 있다. 페어링(pairing) 모호성으로 인해, 이는 소스들의 위치에 대한 2개의 가능한 해법들로 이어진다. 도 5로부터 알 수 있듯이, 2개의 가능한 해법들이 (1, 2) 및 (1', 2')로 주어진다. 이러한 모호성을 해결하기 위해, 다음의 해법이 적용될 수 있다. 추정된 소스 위치들의 방향을 향하도록 한 빔 형성기를 사용하고 적절한 인자를 적용하여 전파를 보상함으로써(예를 들어, 파(wave)가 겪게 되는 감쇄의 역을 곱함으로써) 각각의 소스에서 발산되는 신호가 추정된다. 이는 가능한 해법들 각각에 대해 각각의 어레이에서의 각각의 소스에 대해 실행될 수 있다. 다음에, 소스들(i, j)의 각각의 쌍에 대한 추정 에러를 다음과 같이 정의할 수 있으며:
Figure 112014062357079-pct00042
(1)
여기서 (i, j) ∈ {(1, 2), (1', 2')}(도 5 참조) 그리고 Pi ,l은 음원 i로부터의 어레이 r에 의해 확인되는 보상된 신호 전력을 나타낸다. 에러는 진짜 음원 쌍에 대해서는 최소이다. 일단 페어링 문제가 해결되고 정확한 DOA 추정치들이 계산되면, 이들은 대응하는 압력 신호들 및 확산 추정치들과 함께 GAC 스트림으로 그룹화된다. 압력 신호들 및 확산 추정치들은 하나의 음원에 대한 파라미터 추정에 관해 이미 설명된 동일한 방법을 사용하여 얻어질 수 있다.
도 6a는 일 실시예에 따라 오디오 데이터 스트림을 기초로 적어도 하나의 오디오 출력 신호를 생성하기 위한 장치(600)를 나타낸다. 장치(600)는 수신기(610)와 합성 모듈(620)을 포함한다. 수신기(610)는 음원들 중 적어도 한 음원과 관련된 오디오 데이터의 압력 값들 중 적어도 하나, 오디오 데이터의 위치 값들 중 적어도 하나 또는 오디오 데이터의 확산 값들 중 적어도 하나를 수정함으로써 수신된 오디오 데이터 스트림의 오디오 데이터를 수정하기 위한 수정 모듈(630)을 포함한다.
도 6b는 일 실시예에 따라 하나 또는 그보다 많은 음원들과 관련된 음원 데이터를 포함하는 오디오 데이터 스트림을 생성하기 위한 장치(660)를 나타낸다. 오디오 데이터 스트림을 생성하기 위한 장치는 결정기(670), 데이터 스트림 생성기(680) 그리고 더욱이, 음원들 중 적어도 한 음원과 관련된 오디오 데이터의 압력 값들 중 적어도 하나, 오디오 데이터의 위치 값들 중 적어도 하나 또는 오디오 데이터의 확산 값들 중 적어도 하나를 수정함으로써 데이터 스트림 생성기에 의해 생성된 오디오 데이터 스트림을 수정하기 위한 수정 모듈(690)을 포함한다.
도 6a의 수정 모듈(610)은 수신기/합성 측에 사용되는 한편, 도 6b의 수정 모듈(660)은 송신기/분석 측에 이용된다.
수정 모듈들(610, 660)에 의해 수행되는 오디오 데이터 스트림의 수정들은 또한 사운드 장면의 수정들로서 여겨질 수 있다. 따라서 수정 모듈들(610, 660)은 또한 사운드 장면 조작 모듈들로 지칭될 수도 있다.
GAC 스트림에 의해 제공되는 음장 표현은 오디오 데이터 스트림의 서로 다른 종류들의 수정들, 즉 결과적으로는 사운드 장면의 조작들을 가능하게 한다. 이와 관련한 몇 가지 예들은 다음과 같다:
1. 사운드 장면에서 공간/볼륨들의 임의의 섹션들의 확대(예를 들어 청취자에게 더 넓게 나타나게 하도록 점 같은 음원의 확대);
2. 사운드 장면에서 공간/볼륨의 어떤 다른 임의의 섹션들로 공간/볼륨의 선택된 섹션의 변형(변형된 공간/볼륨은 예를 들어, 새로운 위치로 이동될 필요가 있는 소스를 포함한다);
3. 사운드 장면의 선택된 영역들이 강화되거나 부분적으로/완전히 억제되는 위치 기반 필터링
다음에, 오디오 데이터 스트림, 예를 들어 GAC 스트림의 계층이 특정 시간-주파수 빈에 관한 음원들 중 하나의 모든 오디오 데이터를 포함한다고 가정된다.
도 7은 일 실시예에 따른 수정 모듈을 도시한다. 도 7의 수정 유닛은 디멀티플렉서(401), 조작 프로세서(420) 및 멀티플렉서(405)를 포함한다.
디멀티플렉서(401)는 M-계층 GAC 스트림의 서로 다른 계층들을 분리하여 M개의 단일 계층 GAC 스트림들을 형성하도록 구성된다. 더욱이, 조작 프로세서(420)는 GAC 스트림들 각각에 개별적으로 적용되는 유닛들(402, 403, 404)을 포함한다. 더욱이, 멀티플렉서(405)는 조작된 단일 계층 GAC 스트림들로부터 결과적인 M-계층 GAC 스트림을 형성하도록 구성된다.
GAC 스트림으로부터의 위치 데이터 및 실제 소스들(예를 들어, 대화자들)의 위치에 관한 인식을 기초로, 매 시간-주파수 빈에 대해 특정한 실제 소스와 에너지가 연관될 수 있다. 그 다음에, 압력 값들(P)이 그에 따라 가중되어 각각의 실제 소스(예를 들어, 대화자)의 음량을 수정한다. 이는 연역적 정보 또는 실제 음원들(예를 들어, 대화자들)의 위치의 추정치를 필요로 한다.
일부 실시예들에서, 실제 소스들의 위치에 관한 인식이 입수된다면, GAC 스트림으로부터의 위치 데이터를 기초로, 매 시간-주파수 빈에 대해 특정한 실제 소스와 에너지가 연관될 수 있다.
도 6a의 적어도 하나의 오디오 출력 신호를 생성하기 위한 장치(600)의 수정 모듈(630)에서, 즉 수신기/합성 측에서 그리고/또는 도 6b의 오디오 데이터 스트림을 생성하기 위한 장치(660)의 수정 모듈(690)에서, 즉 송신기/분석 측에서 오디오 데이터 스트림, 예를 들어 GAC 스트림의 조작이 일어날 수 있다.
예를 들어, 오디오 데이터 스트림, 즉 GAC 스트림은 전송 전에, 또는 전송 이후 합성 전에 수정될 수 있다.
수신기/합성 측에서의 도 6a의 수정 모듈(630)과는 달리, 송신기/분석 측에서의 도 6b의 수정 모듈(690)은 입력들(111 내지 11N(레코딩된 신호들) 및 121 내지 12N(공간 마이크로폰들의 상대적 위치 및 방향))으로부터의 추가 정보를, 이 정보가 송신기 측에서 이용 가능할 때 활용할 수 있다. 이 정보를 사용하여, 대안적인 실시예에 따른 수정 유닛이 실현될 수 있으며, 이는 도 8에 도시된다.
도 9는 시스템의 도식적인 개요를 나타냄으로써 일 실시예를 도시하며, 여기서 GAC 스트림은 송신기/분석 측에서 생성되며, 여기서는 선택적으로, GAC 스트림이 송신기/분석 측에서 수정 모듈(102)에 의해 수정될 수도 있고, 여기서 GAC 스트림이 선택적으로, 수신기/합성 측에서 수정 모듈(103)에 의해 수정될 수도 있으며, 여기서 GAC 스트림은 복수의 오디오 출력 신호들(191 … 19L)을 생성하는데 사용된다.
송신기/분석 측에서는, 유닛(101)에서 입력들(111 내지 11N), 즉 N ≥ 2개의 공간 마이크로폰들로 레코딩된 신호들로부터, 그리고 입력들(121 내지 12N), 즉 공간 마이크로폰들의 상대적 위치 및 방향으로부터 음장 표현(예를 들어, GAC 스트림)이 계산된다.
유닛(101)의 출력은 앞서 언급한 음장 표현이며, 이는 다음에는 기하학 기반 공간 오디오 코딩(GAC) 스트림으로 표시된다. 아래 문헌에서의 제안과 마찬가지로:
[20] Giovanni Del Galdo, Oliver Thiergart, Tobias Weller, and E. A. P. Habets. Generating virtual microphone signals using geometrical information gathered by distributed arrays. In Third Joint Workshop on Hands-free Speech Communication and Microphone Arrays (HSCMA '11), Edinburgh, United Kingdom, May 2011.
그리고 구성 가능한 가상 위치에서 가상 마이크로폰의 오디오 출력 신호를 생성하기 위한 장치에 대해 설명한 바와 같이, 단시간 푸리에 변환(STFT)에 의해 제공되는 것과 같은 시간-주파수 표현에서의 특정 슬롯들에서 액티브한 음원들, 예를 들어 등방점형의 음원들(IPLS)에 의해 복합 사운드 장면이 모델링된다.
GAC 스트림은 조작 유닛으로도 또한 지칭될 수 있는 선택적인 수정 모듈(102)에서 추가 처리될 수 있다. 수정 모듈(102)은 다수의 애플리케이션들에 대해 가능하다. 다음에, GAC 스트림은 전송 또는 저장될 수 있다. GAC 스트림의 파라미터 특성은 매우 효과적이다. 합성/수신기 측에서는, 하나 또는 그보다 많은 선택적인 수정 모듈들(조작 유닛들)(103)이 이용될 수 있다. 결과적인 GAC 스트림은 라우드 스피커 신호들을 생성하는 합성 유닛(104)으로 들어간다. 레코딩으로부터 표현의 독립성을 고려하면, 재생 측에서의 최종 사용자가 잠재적으로 사운드 장면을 조작하고 사운드 장면 내에서 자유롭게 청취 위치 및 방향을 결정할 수 있다.
도 9의 수정 모듈들(102 및/또는 103)에서, 모듈(102)에서 전송 전에 또는 전송 이후 합성 전에(103) GAC 스트림을 그에 따라 수정함으로써 오디오 데이터 스트림, 예를 들어 GAC 스트림의 수정/조작이 일어날 수 있다. 수신기/합성 측에서의 수정 모듈(130)과는 달리, 송신기/분석 측에서의 수정 모듈(102)은 입력들(111 내지 11N(공간 마이크로폰들에 의해 제공되는 오디오 데이터) 및 121 내지 12N(공간 마이크로폰들의 상대적 위치 및 방향))으로부터의 추가 정보를, 이 정보가 송신기 측에서 이용 가능할 때 활용할 수 있다. 도 8은 이 정보를 이용하는 수정 모듈의 대안적인 실시예를 나타낸다.
GAC 스트림의 조작에 대한 서로 다른 개념들의 예들이 도 7과 도 8을 참조하여 다음에 설명된다. 동일한 기준 신호들을 갖는 유닛들은 동일한 기능을 갖는다.
1. 볼륨 확대
장면의 특정 에너지가 볼륨(V) 내에 위치한다고 가정된다. 볼륨(V)은 환경의 미리 정해진 영역을 나타낼 수 있다. Θ은 대응하는 음원들, 예를 들어 IPLS가 볼륨(V) 내에서 로컬라이징되는 시간-주파수 빈들(k, n)의 세트를 나타낸다.
다른 볼륨(V')으로의 볼륨(V) 확대가 요구된다면, 이는 도 7과 도 8의 유닛들(404)의 출력들(431 내지 43M)이 아래와 같이 되도록, (k, n) ∈ Θ(결정 유닛들(403)에서 평가됨)일 때마다 GAC 스트림의 위치 데이터에 랜덤 항을 추가하고 Q(k, n) = [X(k, n), Y(k, n), Z(k, n)]T(단순성을 위해 인덱스 계층은 누락됨)를 치환함으로써 달성될 수 있으며:
Figure 112014062357079-pct00043
(2)
여기서 Φx, Φy 및 Φz은 원래의 볼륨(V)에 대한 새로운 볼륨(V')의 기하학적 구조에 그 범위가 좌우되는 랜덤 변수들이다. 이 개념은 예를 들어, 음원이 더 넓게 인지되게 하는데 이용될 수 있다. 이 예에서, 원래의 볼륨(V)은 아주 극미하게 작은데, 즉 음원, 예를 들어 IPLS는 모든 (k, n) ∈ Θ에 대해 동일한 점 Q(k, n) = [X(k, n), Y(k, n), Z(k, n)]T에서 로컬라이징되어야 한다. 이러한 메커니즘은 위치 파라미터 Q(k, n)의 디더링(dithering) 형태로서 확인될 수 있다.
일 실시예에 따르면, 음원들 중 각각의 음원의 위치 값들 중 각각의 위치 값은 적어도 2개의 좌표값들을 포함하며, 수정 모듈은 좌표값들이 음원이 환경의 미리 정해진 영역 내의 위치에 위치한다고 나타낼 때, 좌표값들에 적어도 하나의 난수를 더함으로써, 좌표값들을 수정하도록 적응된다.
2. 볼륨 변환
볼륨 확대 외에도, GAC 스트림으로부터의 위치 데이터는 음장 내에서 공간/볼륨들의 섹션들을 재배치하도록 수정될 수 있다. 이 경우에도, 조작될 데이터는 로컬라이징된 에너지의 공간 좌표들을 포함한다.
V는 또한 재배치될 볼륨을 나타내고, Θ은 볼륨(V)에서 에너지가 로컬라이징되는 모든 시간-주파수 빈들(k, n)의 세트를 나타낸다. 또한, 볼륨(V)은 환경의 미리 정해진 영역을 나타낼 수 있다.
모든 시간-주파수 빈들(k, n) ∈ Θ에 대해, 유닛들(404)의 출력들(431 내지 43M)에서 Q(k, n)이 f(Q(k, n))으로 대체되도록 GAC 스트림을 수정함으로써 볼륨 재배치가 달성될 수 있으며, 여기서 f는 수행될 볼륨 조작을 기술하는 공간 좌표들(X, Y, Z)의 함수이다. 함수(f)는 회전, 평행이동, 또는 임의의 다른 복잡한 비선형 맵핑과 같은 간단한 선형 변환을 나타낼 수 있다. 이 기술은 예를 들어, Θ가 볼륨(V)에서 음원들이 로컬라이징된 시간-주파수 빈들의 세트에 확실히 대응하게 함으로써 사운드 장면 내에서 음원들을 위치 간에 이동시키는데 사용될 수 있다. 기술은 장면 미러링, 장면 회전, 장면 확대 및/또는 압축 등과 같은 전체 사운드 장면의 다양한 다른 복잡한 조작들을 가능하게 한다. 예를 들어, 볼륨(V)에 대해 적절한 선형 맵핑을 적용함으로써, 볼륨 확대의 상보적 효과, 즉 볼륨 수축이 달성될 수 있다. 이는 예를 들어, (k, n) ∈ Θ에 대한 Q(k, n)을 f(Q(k, n)) ∈ V'에 맵핑함으로써 이루어질 수 있으며, 여기서 V' ⊂ V이고 V'은 V보다 상당히 더 작은 볼륨을 포함한다.
일 실시예에 따르면, 수정 모듈은 좌표값들이 환경의 미리 정해진 영역 내의 위치에 음원이 존재한다고 나타낼 때, 좌표값들에 결정론적 함수를 적용함으로써 좌표값들을 수정하도록 적응된다.
3. 위치 기반 필터링
기하학 기반 필터링(또는 위치 기반 필터링) 아이디어는 공간/볼륨들의 섹션들을 강화하거나 사운드 장면으로부터 공간/볼륨들의 섹션들을 완전히/부분적으로 삭제하기 위한 방법을 제공한다. 그러나 볼륨 확대 및 변환 기술들에 비해, 이 경우에는 적절한 스칼라 가중치들을 적용함으로써 GAC 스트림으로부터의 압력 데이터만이 수정된다.
기하학 기반 필터링에서는, 도 8에 도시된 바와 같이, 송신기 측(102)은 입력들(111 내지 11N, 121 내지 12N)을 사용하여 적절한 필터 가중치들의 계산을 보조한다는 점에서 송신기 측(102)과 수신기 측 수정 모듈(103) 간의 구분이 이루어질 수 있다. 공간/볼륨(V)의 선택된 섹션으로부터 발생하는 에너지를 억제/강화하는 것이 목표라고 가정하면, 기하학 기반 필터링이 다음과 같이 적용될 수 있다:
모든 (k, n) ∈ Θ에 대해, 402의 출력들에서 GAC 스트림의 복소 압력 P(k, n)이 ηP(k, n)으로 수정될 수 있으며, 여기서 η는 예를 들어, 유닛(402)에 의해 계산되는 실제 가중 인자이다. 일부 실시예들에서, 모듈(402)은 확산에도 또한 의존하는 가중 인자를 계산하도록 적응될 수 있다.
기하학 기반 필터링의 개념은 신호 강화 및 소스 분리와 같은 복수의 애플리케이션들에 사용될 수 있다. 애플리케이션들 및 요구되는 연역적 정보 중 일부는 다음을 포함한다:
Figure 112014062357079-pct00044
탈잔향(Dereverberation). 룸 기하학적 구조를 인지함으로써, 공간 필터가 다중 경로 전파에 의해 야기될 수 있는 룸 룸 경계들 밖에서 로컬라이징된 에너지를 억제하는데 사용될 수 있다. 이 애플리케이션은 예를 들어, 회의실들 및 자동차들에서의 핸즈프리 통신에 흥미가 있을 수 있다. 더딘 잔향을 억제하기 위해, 높은 확산의 경우에는 필터에 가까운 것으로 충분한 반면, 이른 반사들을 억제하기 위해서는 위치 의존 필터가 더 효과적이라는 점에 주목한다. 이 경우에, 이미 언급한 바와 같이, 룸의 기하학적 구조가 연역적으로 알려질 필요가 있다.
Figure 112014062357079-pct00045
배경 잡음 억제. 배경 잡음을 억제하기 위해서도 역시 비슷한 개념이 사용될 수 있다. 소스들이 위치할 수 있는 잠재적 영역(예를 들어, 회의실들에서 참가자들의 의자나 자동차 시트들)이 알려져 있다면, 이러한 영역들 외부에 위치하는 에너지가 배경 잡음에 연관되고, 따라서 공간 필터에 의해 억제된다. 이 애플리케이션은 소스들의 대략적 위치에 대한, GAC 스트림들에서 이용 가능한 데이터를 기초로 한 추정치 또는 연역적 정보를 필요로 한다.
Figure 112014062357079-pct00046
점형(point-like) 간섭원의 억제. 간섭원이 공간에서 확산보다는 명확히 로컬라이징된다면, 간섭원의 위치에 로컬라이징된 에너지를 감쇄시키도록 위치 기반 필터링이 적용될 수 있다. 이는 간섭원의 위치에 관한 추정치 또는 연역적 정보를 필요로 한다.
Figure 112014062357079-pct00047
에코 제어. 이 경우에 억제될 간섭원들은 라우드 스피커 신호들이다. 이를 위해, 점형 간섭원들에 대한 경우와 마찬가지로, 라우드 스피커들의 위치에 정확히 또는 그에 가까운 주변에서 로컬라이징된 에너지가 억제된다. 이는 라우드 스피커 위치들의 추정치 또는 연역적 정보를 필요로 한다.
Figure 112014062357079-pct00048
강화된 음성 검출. 기하학 기반 필터링 발명과 연관된 신호 강화 기술들이 종래의 음성 활동 검출 시스템에서, 예를 들어 자동차들에서 전처리 단계로서 구현될 수 있다. 시스템 성능을 개선하기 위한 부가물들로서 탈잔향 또는 잡음 억제가 사용될 수 있다.
Figure 112014062357079-pct00049
감시. 특정 영역들로부터의 에너지만 보존하고 나머지는 억제하는 것이 감시 애플리케이션들에서 일반적으로 사용되는 기술이다. 이는 관심 있는 영역의 기하학적 구조 및 위치에 관한 연역적 정보를 필요로 한다.
Figure 112014062357079-pct00050
소스 분리. 다수의 동시 액티브 소스들을 가진 환경에서는, 소스 분리를 위해 기하학 기반 공간 필터링이 적용될 수 있다. 소스의 위치 중심에 적절히 설계된 공간 필터를 배치하는 것은 다른 동시 액티브 소스들의 억제/감쇄를 야기한다. 이러한 혁신은 예를 들어, SAOC의 프론트엔드로서 사용될 수도 있다. 소스 위치들의 연역적 정보 또는 추정치가 요구된다.
Figure 112014062357079-pct00051
위치 의존 자동 이득 제어(AGC: Automatic Gain Control). 예를 들어, 원격 회의 애플리케이션들에서 서로 다른 대화자들의 음량을 균등하게 하기 위해 위치 의존 가중치들이 사용될 수도 있다.
다음에, 실시예들에 따른 합성 모듈들이 설명된다. 일 실시예에 따르면, 합성 모듈은 오디오 데이터 스트림의 오디오 데이터의 적어도 하나의 압력 값을 기초로 그리고 오디오 데이터 스트림의 오디오 데이터의 적어도 하나의 위치 값을 기초로 적어도 하나의 오디오 출력 신호를 생성하도록 적응될 수 있다. 적어도 하나의 압력 값은 압력 신호, 예를 들어 오디오 신호의 압력 값일 수 있다.
GAC 합성 배후의 동작 원리들은 아래 특허에서 제공되는 공간 사운드의 인지에 대한 가정들이 동기가 될 수 있다:
[27] WO2004077884: Tapio Lokki, Juha Merimaa, and Ville Pulkki. Method for reproducing natural or modified spatial impression in multichannel listening, 2006.
특히, 각각의 시간-주파수 빈에 대한 하나의 도착 방향의 비확산음을 정확히 재생함으로써, 사운드 장면의 공간 이미지를 정확히 인지하는데 필요한 공간 단서들이 얻어질 수 있다. 따라서 도 10a에 도시된 합성은 2개의 스테이지들로 나뉜다.
첫 번째 스테이지는 사운드 장면 내에서 청취자의 위치 및 방향을 고려하며, 각각의 시간-주파수 빈에 대해 M개의 IPLS 중 어느 것이 우세한지를 결정한다. 그 결과, 그에 대한 압력 신호 Pdir 및 도착 방향 θ이 계산될 수 있다. 나머지 소스들과 확산음이 제 2 압력 신호 Pdiff로 수집된다.
두 번째 스테이지는 [27]에서 설명된 DirAC 합성의 두 번째 절반과 동일하다. 점형 소스를 생성하는 패닝(panning) 메커니즘에 의해 비확산음이 재생되는 반면, 상관 해제된 이후 모든 라우드 스피커들로부터의 확산음이 재생된다.
도 10a는 GAC 스트림의 합성을 나타내는 일 실시예에 따른 합성 모듈을 도시한다.
첫 번째 스테이지의 합성 유닛(501)은 서로 다르게 재생될 필요가 있는 압력 신호들(Pdir, Pdiff)을 계산한다. 사실, Pdir은 공간상 코히어런트하게 재생되어야 하는 사운드를 포함하는 한편, Pdiff는 확산음을 포함한다. 첫 번째 스테이지의 합성 유닛(501)의 세 번째 출력은 원하는 청취 위치의 시점으로부터의 도착 방향(DOA) θ(505), 즉 도착 방향 정보이다. 도착 방향(DOA)은 2D 공간이라면 방위각으로서, 또는 3D에서는 방위각과 고도각 쌍으로 표현될 수 있다는 점에 주목한다. 동등하게, DOA로 지적된 단위 노름(norm) 벡터가 사용될 수도 있다. DOA는 (원하는 청취 위치에 대해) 어느 방향으로부터 신호 Pdir이 발생해야 하는지를 명시한다. 첫 번째 스테이지의 합성 유닛(501)은 GAC 스트림을 입력, 즉 음장의 파라미터 표현으로서 취하고, 입력(141)으로 명시된 청취자 위치 및 방향을 기초로 앞서 언급한 신호들을 계산한다. 사실, 최종 사용자는 GAC 스트림으로 기술된 사운드 장면 내에서 청취 위치 및 방향을 자유롭게 결정할 수 있다.
두 번째 스테이지의 합성 유닛(502)은 라우드 스피커 셋업(131)의 인식을 기초로 L개의 라우드 스피커 신호들(511 내지 51L)을 계산한다. 유닛(502)은 [27]에서 설명된 DirAC 합성의 두 번째 절반과 동일하다는 점을 상기한다.
도 10b는 일 실시예에 따른 제 1 합성 스테이지 유닛을 도시한다. 블록에 제공되는 입력은 M개의 계층들로 구성된 GAC 스트림이다. 첫 번째 단계에서, 유닛(601)은 하나의 계층 각각의 M개의 계층들을 M개의 병렬 GAC 스트림으로 디멀티플렉싱한다.
제 i GAC 스트림은 압력 신호 Pi, 확산 ψi 및 위치 벡터 Qi = [Xi, Yi, Zi]T를 포함한다. 압력 신호 Pi는 하나 또는 그보다 많은 압력 값들을 포함한다. 위치 벡터는 위치 값이다. 이제, 이러한 값들을 기초로 적어도 하나의 오디오 출력 신호가 생성된다.
확산 ψi로부터 유도된 적절한 인자를 적용함으로써 직접음 및 확산음(Pdir ,i, Pdiff,i)에 대한 압력 신호가 Pi로부터 얻어진다. 직접음을 포함하는 압력 신호들이 전파 보상 블록(602)에 들어가며, 전파 보상 블록(602)은 음원 위치, 예를 들어 IPLS 위치로부터 청취자의 위치까지의 신호 전파에 대응하는 지연들을 계산한다. 이것 외에도, 블록은 또한 서로 다른 크기의 감쇄들을 보상하기 위해 요구되는 이득 계수들을 계산한다. 다른 실시예들에서는, 서로 다른 크기의 감쇄들만이 보상되는 한편, 지연들은 보상되지 않는다.
Figure 112014062357079-pct00052
로 표시된 보상된 압력 신호들이 블록(603)에 들어가며, 블록(603)은 다음과 같이 가장 강한 입력의 인덱스 imax를 출력한다:
Figure 112014062357079-pct00053
(3)
이 메커니즘 배후의 주요 아이디어는 연구중인 시간-주파수 빈에서 액티브한 M개의 IPLS 중에서 (청취자 위치에 대해) 가장 강한 IPLS만이 코히어런트하게(즉, 직접음으로서) 재생될 것이라는 점이다. 블록들(604, 605)은 이들의 입력들 중에서 imax로 정의된 입력을 선택한다. 블록(607)은 청취자의 위치 및 방향(입력(141))에 대한 제 imax IPLS의 도착 방향을 계산한다. 블록(604)의 출력은 블록(501)의 출력, 즉 블록(502)에 의해 직접음으로서 재생될 사운드 신호 Pdir에 대응한다. 확산음, 즉 출력(504) Pdiff는 M개의 브랜치들에서의 모든 확산음뿐만 아니라, imax번째를 제외한, 즉 ∀j ≠ imax인 모든 직접음 신호들의 합을 포함한다.
도 10c는 제 2 합성 스테이지 유닛(502)을 나타낸다. 이미 언급한 바와 같이, 이 스테이지는 [27]에서 제안된 합성 모듈의 두 번째 절반과 동일하다. 비확산음 Pdir(503)이 예를 들어, 패닝에 의해 점형 소스로서 재생되며, 이들의 이득들이 도착 방향(505)을 기초로 블록(701)에서 계산된다. 다른 한편으로는, 확산음 Pdiff가 L개의 개별 역상관기들(711 내지 71L)을 통과한다. L개의 라우드 스피커 신호들 각각에 대해, 역 필터 뱅크(703)를 통과하기 전에 직접음 및 확산음 경로들이 추가된다.
도 11은 대안적인 실시예에 따른 합성 모듈을 나타낸다. 도면 내의 모든 수량들은 시간-주파수 도메인에서 고려되며; 단순성의 이유들로 (k, n) 표기는 무시되었으며, 예를 들어, Pi = Pi(k, n)이다. 특별히 복잡한 사운드 장면들, 예를 들어 동시에 액티브한 다수의 소스들의 경우에 재생의 오디오 품질을 개선하기 위해, 합성 모듈, 예를 들어 합성 모듈(104)은 예를 들어, 도 11에 도시된 것과 같이 실현될 수 있다. 코히어런트하게 재생될 가장 우세한 IPLS를 선택하는 대신에, 도 11의 합성은 M개의 계층들 각각의 완전한 합성을 실행한다. 제 i 계층으로부터의 L개의 라우드 스피커 신호들은 블록(502)의 출력이며 191i 내지 19Li로 표기된다. 제 1 합성 스테이지 유닛(501)의 출력에서의 제 h 라우드 스피커 신호(19h)는 19h1 내지 19hM의 합이다. 도 10b와는 달리, 블록(607)에서의 DOA 추정 단계는 M개의 계층들 각각에 대해 실행될 필요가 있다는 점에 주목한다.
도 26은 일 실시예에 따라 가상 마이크로폰 데이터 스트림을 생성하기 위한 장치(950)를 나타낸다. 가상 마이크로폰 데이터 스트림을 생성하기 위한 장치(950)는 앞서 설명한 실시예들 중 하나에 따라, 예를 들어 도 12에 따라 가상 마이크로폰의 오디오 출력 신호를 생성하기 위한 장치(960), 및 앞서 설명한 실시예들 중 하나에 따라, 예를 들어 도 2b에 따라 오디오 데이터 스트림을 생성하기 위한 장치(970)를 포함하며, 여기서 오디오 데이터 스트림을 생성하기 위한 장치(970)에 의해 생성된 오디오 데이터 스트림은 가상 마이크로폰 데이터 스트림이다.
예를 들어, 도 26의 가상 마이크로폰의 오디오 출력 신호를 생성하기 위한 장치(960)는 도 12에서와 같이 사운드 이벤트 위치 추정기 및 정보 계산 모듈을 포함한다. 사운드 이벤트 위치 추정기는 환경에서 음원의 위치를 나타내는 음원 위치를 추정하도록 적응되며, 여기서 사운드 이벤트 위치 추정기는 환경에서 제 1 실제 마이크로폰 위치에 위치하는 제 1 실제 공간 마이크로폰에 의해 제공되는 제 1 방향 정보를 기초로, 그리고 환경에서 제 2 실제 마이크로폰 위치에 위치하는 제 2 실제 공간 마이크로폰에 의해 제공되는 제 2 방향 정보를 기초로 음원 위치를 추정하도록 적응된다. 정보 계산 모듈은 레코딩된 오디오 입력 신호를 기초로, 제 1 실제 마이크로폰 위치를 기초로 그리고 계산된 마이크로폰 위치를 기초로 오디오 출력 신호를 생성하도록 적응된다.
가상 마이크로폰의 오디오 출력 신호를 생성하기 위한 장치(960)는 오디오 데이터 스트림을 생성하기 위한 장치(970)에 오디오 출력 신호를 제공하도록 배치된다. 오디오 데이터 스트림을 생성하기 위한 장치(970)는 결정기, 예를 들어 도 2b에 관해 설명한 결정기(210)를 포함한다. 오디오 데이터 스트림을 생성하기 위한 장치(970)의 결정기는 가상 마이크로폰의 오디오 출력 신호를 생성하기 위한 장치(960)에 의해 제공되는 오디오 출력 신호를 기초로 음원 데이터를 결정한다.
도 27은 앞서 설명한 실시예들 중 하나에 따라 오디오 데이터 스트림을 기초로 적어도 하나의 오디오 출력 신호를 생성하기 위한 장치(980), 예를 들어 제 1 항의 장치를 나타내며, 이는 가상 마이크로폰 데이터 스트림을 생성하기 위한 장치(950), 예를 들어 도 26의 장치(950)에 의해 제공되는 오디오 데이터 스트림인 가상 마이크로폰 데이터 스트림을 기초로 오디오 출력 신호를 생성하도록 구성된다.
가상 마이크로폰 데이터 스트림을 생성하기 위한 장치(980)는 생성된 가상 마이크로폰 신호를, 오디오 데이터 스트림을 기초로 적어도 하나의 오디오 출력 신호를 생성하기 위한 장치(980)에 공급한다. 가상 마이크로폰 데이터 스트림은 오디오 데이터 스트림이라는 점이 주목되어야 한다. 오디오 데이터 스트림을 기초로 적어도 하나의 오디오 출력 신호를 생성하기 위한 장치(980)는 예를 들어, 도 2a의 장치에 관해 설명한 바와 같이 오디오 데이터 스트림인 가상 마이크로폰 데이터 스트림을 기초로 오디오 출력 신호를 생성한다.
도 1은 일 실시예에 따라, 병합된 오디오 데이터 스트림을 생성하기 위한 장치를 나타낸다.
일 실시예에서, 장치는 복수의 단일 계층 오디오 데이터 스트림들을 획득하기 위한 디멀티플렉서(180)를 포함하며, 여기서 디멀티플렉서(180)는 하나 또는 그보다 많은 입력 오디오 데이터 스트림들을 수신하도록 적응되고, 여기서 각각의 입력 오디오 데이터 스트림은 하나 또는 그보다 많은 계층들을 포함하며, 여기서는 단일 계층 오디오 데이터 스트림들 중 2개 또는 그보다 많은 단일 계층 오디오 데이터 스트림을 획득하기 위해, 디멀티플렉서(180)가 하나 또는 그보다 많은 계층들을 갖는 입력 오디오 데이터 스트림들 각각을, 정확히 하나의 계층을 갖는 2개 또는 그보다 많은 디멀티플렉싱된 오디오 데이터 스트림들로 디멀티플렉싱하여, 하나 또는 그보다 많은 디멀티플렉싱된 오디오 데이터 스트림들이 함께 입력 오디오 데이터 스트림의 하나 또는 그보다 많은 계층들을 포함하도록 적응된다.
추가 실시예에서, 장치는 복수의 단일 계층 오디오 데이터 스트림들을 획득하기 위한 디멀티플렉서(180)를 포함하며, 여기서 디멀티플렉서(180)는 2개 또는 그보다 많은 입력 오디오 데이터 스트림들을 수신하도록 적응되고, 여기서 각각의 입력 오디오 데이터 스트림은 하나 또는 그보다 많은 계층들을 포함하며, 여기서는 단일 계층 오디오 데이터 스트림들 중 2개 또는 그보다 많은 단일 계층 오디오 데이터 스트림을 획득하기 위해, 디멀티플렉서(180)가 2개 또는 그보다 많은 계층들을 갖는 입력 오디오 데이터 스트림들 중 각각의 입력 오디오 데이터 스트림을, 정확히 하나의 계층을 갖는 2개 또는 그보다 많은 디멀티플렉싱된 오디오 데이터 스트림들로 디멀티플렉싱하여, 2개 또는 그보다 많은 디멀티플렉싱된 오디오 데이터 스트림들이 함께 입력 오디오 데이터 스트림의 2개 또는 그보다 많은 계층들을 포함하도록 적응된다.
더욱이, 장치는 복수의 단일 계층 오디오 데이터 스트림들을 기초로, 하나 또는 그보다 많은 계층들을 갖는 병합된 오디오 데이터 스트림을 생성하기 위한 병합 모듈(190)을 포함한다. 입력 오디오 데이터 스트림들의, 디멀티플렉싱된 오디오 데이터 스트림들의, 단일 계층 데이터 스트림들의 그리고 병합된 오디오 데이터 스트림의 각각의 계층은 압력 신호의 압력 값, 위치 값 그리고 확산 값을 오디오 데이터로서 포함한다, 오디오 데이터는 복수의 시간-주파수 빈들 중 하나의 시간-주파수 빈에 대해 정의된다.
일 실시예에서, 장치는 정확히 하나의 계층을 갖는 하나 또는 그보다 많은 수신된 입력 오디오 데이터 스트림들을, 이들을 디멀티플렉서에 공급하지 않고 병합 모듈에 공급하도록 적응될 수 있으며, 점선(195)을 참조한다.
일부 실시예들에서, 디멀티플렉서(180)는 디멀티플렉싱된 오디오 데이터 스트림들로 표현된 서로 다른 사운드 장면들의 볼륨들(예를 들어, 음량)을 균등하게 하기 위해, 디멀티플렉싱된 오디오 데이터 스트림들의 압력 값들을 수정하도록 적응된다. 예를 들어, 2개의 서로 다른 레코딩 환경들로부터 2개의 오디오 데이터 스트림들이 발생하고, 처음에는 (예를 들어, 마이크로폰들에서 멀리 떨어진 소스들로 인해, 또는 단순히 열악한 감도를 갖는 또는 낮은 이득의 전치 증폭기들을 갖는 마이크로폰들로 인해) 낮은 볼륨으로 특성화된다면, 제 1 오디오 데이터 스트림의 압력 값들에 스칼라를 곱함으로써 제 1 오디오 데이터 스트림의 볼륨을 증가시키는 것이 가능하다. 비슷하게, 제 2 오디오 데이터 스트림의 볼륨을 비슷한 방식으로 감소시키는 것이 가능하다.
도 28은 다른 실시예에 따라 병합된 오디오 데이터 스트림을 생성하기 위한 장치의 입력들과 출력들을 도시한다. 다수의 M개의 오디오 데이터 스트림들, 예를 들어 M개의 GAC 스트림들 그리고 선택적으로는 주입될 인공 음원의 압력 신호 p(t) 및 위치 q(t)가 도 28의 장치에 입력된다. 다른 실시예에서는, 2개 또는 그보다 많은 인공 음원들(합성 음원들)이 장치에 입력된다. 출력에서는, 오디오 출력 스트림, 예를 들어 수정된 사운드 장면을 나타내는 GAC 스트림이 리턴된다.
비슷하게, 오디오 출력 스트림, 예를 들어 GAC 스트림은 모노 음원으로부터 직접(즉, 어떠한 병합도 없이) 생성될 수 있다.
장치에 대한 제 1 종류의 입력(1111, 1112, … , 111M)은 오디오 데이터 스트림들, 예를 들어 M개의 GAC 스트림들이며, 여기서 제 i 스트림은 Li개의 계층들을 포함하고, i ∈ {1, 2, …, M}이다. 제 i 오디오 데이터 스트림의 각각의 계층은 복소 압력 신호 Pi의 하나 또는 그보다 많은 압력 값들, 소스의 위치 Qi = [Xi, Yi, Zi]T 및 시간-주파수 도메인에서의 확산 ψi를 포함한다. 2차원 표현이 사용된다면, 소스의 위치는 Qi = [Xi, Yi]T로서 정의될 수 있다. 모든 수량들은 시간 및 주파수 인덱스들(k, n)에 의존한다는 점이 주목되어야 한다. 그러나 식들에서 시간 및 주파수에 대한 의존성은 식들을 계속 더 읽기 쉽게 하도록 그리고 단순성을 위해 명시적으로 언급되지는 않는다.
입력(1120)은 사운드 장면에 삽입될 인공 음원의 압력 및 위치에 대해 시간 도메인에서 표현되는 선택적 정보이다. 도 28의 장치의 1140의 출력은 오디오 데이터 스트림, 예를 들어 LO개의 계층들을 갖는 GAC 스트림이다.
도 29는 다른 실시예에 따라 병합된 오디오 데이터 스트림을 생성하기 위한 장치를 나타낸다. 도 29에서, 도 1의 디멀티플렉서는 복수의 디멀티플렉싱 유닛들을 포함한다. 도 29의 장치는 디멀티플렉싱 유닛들(DEMUX)(1201), (오디오 스트림, 예를 들어 GAC 스트림, 인공 소스에 대한 생성을 실현하는) 인공 소스 생성기(1202) 및 병합 모듈(1203)을 포함한다.
디멀티플렉싱 유닛들(1201) 중 하나와 관련하여, Li개의 계층들을 포함하는 제 i GAC 스트림(111i)에 대한 디멀티플렉싱 유닛은 Li개의 개별 단일 계층 GAC 스트림들을 출력한다. 인공 소스 생성기(1202)는 인공 음원에 대한 단일 계층 GAC 스트림을 생성한다.
병합을 실행하는 병합 모듈(1203)은 N개의 단일 계층 GAC 스트림들을 수신하며, 여기서 N은 다음과 같다:
Figure 112014062357079-pct00054
(1)
도 30은 일 실시예에 따른 병합 모듈(1203)을 도시한다. N개의 단일 계층 오디오 데이터 스트림들, 예를 들어 N개의 단일 계층 GAC 스트림들(1211 내지 121N)이 병합되어, 오디오 데이터 스트림, 예를 들어 사운드 장면들의 결합에 대응하는 LO개의 계층들을 갖는 하나의 GAC 스트림(1140)을 야기하며, 여기서 LO ≤ N이다.
병합은 그 중에서도, 다음의 개념을 기반으로 한다: 각각의 시간-주파수 빈에 대해, 액티브한 N개의 IPLS가 있으며, 이들 각각은 N개의 GAC 스트림들 중 하나로 기술된다. 예를 들어, 전력 및 확산을 고려하면, LO개의 가장 중요한 소스들이 식별된다. 처음 LO - 1개의 소스들은 단순히, 병합된 오디오 데이터 스트림, 예를 들어 출력 GAC 스트림의 처음 LO - 1개의 계층들에 재할당되는 반면, 나머지 모든 소스들은 마지막 계층, 즉 LO번째 계층에 추가된다.
도 30의 장치는 비용 함수 모듈(1401)을 포함한다. 비용 함수 모듈(1401)은 N개의 압력 신호들 및 N개의 확산 파라미터들을 분석한다. 비용 함수 모듈(1401)은 각각의 시간-주파수 빈에 대해 가장 중요한 음원들을 결정하도록 구성된다. 예를 들어, i = [1, N]인 제 i 스트림에 대한 비용 함수 fi는, 높은 전력 및 낮은 확산을 갖는 음원, 예를 들어 IPLS가 비용 함수의 높은 값들을 야기하도록, 예를 들어 다음과 같이 정의될 수 있다:
Figure 112014062357079-pct00055
(2)
비용 함수 fi는 비용 값을 계산한다.
비용 함수 모듈(1401)의 출력은 가장 높은 fi를 갖는 IPLS의 인덱스들을 포함하는 LO × 1 크기의 벡터 r이다. 더욱이, 인덱스들은 가장 중요한 IPLS에서부터 가장 덜 중요한 IPLS로 분류된다. 이 정보는 위치 믹싱 유닛(1403), 압력 병합 유닛(1404) 및 확산 병합 유닛(1405)으로 전달되며, 여기서 각각의 시간-주파수 빈에 대한 결과적인 GAC 스트림의 파라미터들이 그에 따라 계산된다. 파라미터들을 어떻게 계산할지에 관한 실시예들이 아래 상세히 설명된다.
도 30의 장치는 사운드 장면 적응 모듈(1402)을 더 포함한다. 사운드 장면 적응 모듈(1402)은 병합 단계에 대한 추가 제어를 가능하게 하며, 여기서는 실제 병합 전에 GAC 위치 정보가 조작된다. 이런 식으로, 여러 가지 병합 방식들, 예를 들어 개별 장면들에서 이벤트들의 완전한 중첩에 의한 병합, 사운드 장면들을 나란히 배치하는 병합, 중첩량에 대해 특정한 제약들을 갖는 병합 등이 달성될 수 있다.
도 31a, 도 31b 그리고 도 31c는 가능한 사운드 장면 시나리오들을 도시한다. 도 31a는 각각 하나의 대화자와 함께 2개의 사운드 장면들을 도시한다. 벡터들은 로컬 좌표 시스템을 나타낸다. 병합 이후에, 사운드 장면 적응 모듈(1402)에 의해 실행되는 어떠한 수정도 없으면, 도 31a의 하단에 도시된 사운드 장면이 달성될 것이다. 이는 바람직하지 않을 수도 있다. 하나 또는 그보다 많은 사운드 장면들의 좌표 시스템을 조작함으로써, 병합된 사운드 장면을 마음대로 구성하는 것이 가능하다. 도 31b에서는, 일례로, 회전이 도입되어, 병합된 사운드 장면들에서 대화자들이 분리된다. 위치들(Q1 내지 QN)에 적용되는 (도 31c에 도시된 것과 같은 평행이동들) 또는 비선형 변환들이 또한 가능하다.
위치 믹싱 유닛(1403), 압력 병합 유닛(1404) 및 확산 병합 유닛(1405)은 N개의 파라미터 스트림들을 입력으로서 수신하도록 적응되고 결과적인 LO개의 GAC 스트림들의 파라미터들을 계산하도록 적응된다.
파라미터들 각각은 다음의 방식으로 얻어질 수 있다:
a. 위치 믹싱 유닛(1403)은 출력 GAC 스트림의 결과적인 위치를 결정하도록 적응된다. 출력 스트림 Qi'에서 제 i 소스의 위치는 비용 함수 모듈(1401)에 의해 제공되는 벡터 r로 표시되는 i번째 가장 중요한 비확산 입력 소스에 대응하며:
Figure 112014062357079-pct00056
(3)
여기서 rir의 제 i 엘리먼트를 나타낸다.
벡터 r로 표시되는 LO번째 가장 중요한 비확산 입력 소스들을 결정함으로써, 위치 믹싱 유닛(1403)은 하나 또는 그보다 많은 단일 계층 오디오 데이터 스트림들을 포함하는 그룹을 결정하며, 여기서 그룹의 단일 계층 오디오 데이터 스트림들 각각에 대한 비용 값은 그룹에 포함되지 않은 임의의 단일 계층 오디오 데이터 스트림들보다 더 클 수도 있다. 위치 믹싱 유닛(1403)은 그룹의 단일 계층 오디오 데이터 스트림들 각각에 대한 개개의 위치 값이 병합된 오디오 데이터 스트림의 계층들 중 한 계층의 위치 값이 되게, 병합된 오디오 데이터 스트림의 하나 또는 그보다 많은 계층들의 하나 또는 그보다 많은 위치 값들을 선택/생성하도록 적응된다.
b. 스트림들 각각에 대한 결과적인 압력이 압력 병합 유닛(1404)에 의해 계산된다. 마지막(제 LO) GAC 스트림 외에 모든 압력 신호는 입력 벡터 r에 따른 대응하는 압력 신호와 같다. 제 LO GAC 스트림의 압력은 N - LO+1개의 나머지 압력 신호들 각각의 압력들의 선형 결합으로서 주어지며, 예를 들어 다음과 같다:
Figure 112014062357079-pct00057
(4)
벡터 r로 표시되는 LO - 1번째 가장 중요한 비확산 입력 소스들을 결정함으로써, 압력 병합 유닛은 복수의 단일 계층 오디오 데이터 스트림들 중 하나 또는 그보다 많은 단일 계층 오디오 데이터 스트림들을 포함하는 제 1 그룹을 결정하고 복수의 단일 계층 오디오 데이터 스트림들 중 하나 또는 그보다 많은 다른 단일 계층 오디오 데이터 스트림들을 포함하는 2 그룹(벡터 r의 나머지 입력 소스들)을 결정하도록 적응되며, 여기서 제 1 그룹의 단일 계층 오디오 데이터 스트림들 각각의 비용 값은 제 2 그룹의 단일 계층 오디오 데이터 스트림들 각각의 비용 값보다 더 크다. 압력 병합 유닛은, 제 1 그룹의 단일 계층 오디오 데이터 스트림들 각각의 개개의 압력 값이 병합된 오디오 데이터 스트림의 계층들 중 한 계층의 압력 값이 되게, 그리고 제 2 그룹의 단일 계층 오디오 데이터 스트림들의 압력 값들의 결합이 병합된 오디오 데이터 스트림의 계층들 중 한 계층의 압력 값이 되게, 병합된 오디오 데이터 스트림의 하나 또는 그보다 많은 계층들의 하나 또는 그보다 많은 압력 값들을 생성하도록 적응된다.
c. 결과적인 GAC 스트림의 확산이 확산 병합 유닛(1405)에 의해 계산된다. 다른 파라미터들과 마찬가지로, 확산은 입력 스트림들에서부터 마지막 제 LO GAC 스트림을 제외한 모든 스트림으로 복사된다.
Figure 112014062357079-pct00058
제 LO 확산 파라미터는 예를 들어, 단 하나의 위치
Figure 112014062357079-pct00059
가 할당될 때, 압력 신호
Figure 112014062357079-pct00060
가 코히어런트하게 렌더링되지 않을 더 많은 IPLS로부터의 직접음을 포함한다는 점을 고려하여 계산될 수 있다. 따라서 직접음에 대응하는 에너지의 양은 단지 다음과 같다:
Figure 112014062357079-pct00061
그 결과, 다음 식에 의해 확산이 얻어질 수 있다:
Figure 112014062357079-pct00062
(5)
벡터 r로 표시되는 LO - 1번째 가장 중요한 비확산 입력 소스들을 결정함으로써, 확산 병합 유닛은 복수의 단일 계층 오디오 데이터 스트림들 중 하나 또는 그보다 많은 단일 계층 오디오 데이터 스트림들을 포함하는 제 1 그룹을 결정하고 복수의 단일 계층 오디오 데이터 스트림들 중 하나 또는 그보다 많은 다른 단일 계층 오디오 데이터 스트림들을 포함하는 제 2 그룹(벡터 r의 나머지 입력 소스들)을 결정하도록 적응되며, 여기서 제 1 그룹의 단일 계층 오디오 데이터 스트림들 각각의 비용 값은 제 2 그룹의 단일 계층 오디오 데이터 스트림들 각각의 비용 값보다 더 크다. 확산 병합 유닛은, 제 1 그룹의 단일 계층 오디오 데이터 스트림들 각각의 개개의 확산 값이 병합된 오디오 데이터 스트림의 계층들 중 한 계층의 확산 값이 되게, 그리고 제 2 그룹의 단일 계층 오디오 데이터 스트림들의 확산 값들의 결합이 병합된 오디오 데이터 스트림의 계층들 중 한 계층의 확산 값이 되게, 병합된 오디오 데이터 스트림의 하나 또는 그보다 많은 계층들의 하나 또는 그보다 많은 압력 값들을 생성하도록 적응된다.
마지막으로, 결과적인 LO개의 단일 계층 GAC 스트림들이 블록(1406)에서 멀티플렉싱되어 LO개의 계층들의 최종 GAC 스트림(출력(1140))을 형성한다.
다음에, 도 32a와 도 32b와 관련하여 실시예들에 따른 인공 소스 생성기들이 더 상세히 설명된다.
인공 소스 생성기는 선택적 모듈이며 사운드 장면에 삽입될 인공 음원의 시간 도메인으로 표현된 위치 및 압력 신호를 입력(1120)으로서 사용한다. 다음에, 인공 소스 생성기는 인공 소스의 GAC 스트림을 출력(121N)으로서 리턴한다.
시간상 소스의 위치에 관한 정보가 첫 번째 처리 블록(1301)에 주어진다. 음원이 움직이고 있지 않다면, 블록(1301)은 단순히 위치를 출력(21N)의 모든 시간-주파수 빈들 Q(k, n)에 복사한다. 움직이는 소스의 경우, q(t)에서의 정보가 적절한 시간 블록(n)에 대응하는 모든 주파수 빈들(k)에 복사된다. 다음에, 블록(1301)의 출력이 GAC 스트림으로서 직접 블록(1203)으로 전달된다. 주입된 소스(1120)의 압력 신호 p(t)는:
a. GAC 스트림 P(k, n)의 압력 신호에 직접 전달될 수도 있고(도 32a 참조)
b. 처음에는 잔향된 다음에 GAC 스트림 P(k, n)의 압력 신호로 변환될 수도 있다(도 32b 참조).
도 32a에 예시된 실시예 a)에 따르면, 신호가 블록(1302) 내의 분석 필터 뱅크를 사용하여 주파수 도메인으로 변환된 다음, 삽입된 소스에 대응하는 GAC 스트림의 파라미터로서 전달된다. 압력 신호 p(t)가 드라이하지 않다면, 신호는 선택적인 블록(1303)을 통과할 수 있으며, 이 경우 잡음 및/또는 앰비언스(ambience)가 검출된다. 다음에, 잡음 및 앰비언스에 관한 정보가 블록(1304)에 전달되며, 블록(1304)은 확산 추정치를 계산한다. 블록(1303)은 아래 문헌에서 설명된 것과 같은 이러한 목적들의 최신 기술 알고리즘을 구현할 수 있다:
[30] C. Uhle and C. Paul: A supervised learning approach to ambience extraction from mono recordings for blind upmixing in Proc. of the 11th Int. Conference on Digital Audio Effects (DAFx-08), Espoo, Finland, September 1-4, 2008.
그 다음, 잡음 및 앰비언스에 관한 정보가 블록(1304)에 전달되며, 블록(1304)은 확산 추정치를 계산한다. 이는 p(t)로 구성된 앰비언스 및 잡음이 합성시 코히어런트하게 재생되는 것을 피하는데 특히 유용하다. 따라서 전에 설명한 메커니즘은, 신호의 직접 부분에 낮은 확산 값이 할당되는 반면, 신호의 잡음 및 앰비언스 부분들은 높은 확산과 연관되는 것을 보장한다. 블록(1303, 1304)의 신호 경로 방식에 대한 대안으로, 121N에서의 확산 파라미터는 단순히 일정 값으로 설정될 수 있다.
도 32b에 예시된 실시예 b), 어떤 의미에서는 반대의 상황이 커버된다. p(t)가 드라이 신호라고 가정하면, 잔향을 부가하여 p(t) 사운드를 보다 자연스럽게 하는 것, 즉 합성 음원 사운드를 마치 이것이 방에서 레코딩된 것처럼 만드는 것이 바람직할 수도 있다. 이는 블록(1305)에 의해 달성된다. 잔향 및 원음 신호들 모두 분석 필터 뱅크(1302)로 수행되는 변환을 겪은 다음, 전력비 분석 블록(1306)으로 전달된다. 블록(1306)은 예를 들어, 직접음 대 잔향 비(DRR: Direct to Reverberation Ratio)를 계산함으로써 특정 시간-주파수 빈에 얼마나 많은 잔향 그리고 얼마나 많은 직접음이 존재하는지에 관한 정보를 계산한다. 다음에, 이 정보는 블록(1304)에 전달되어, 확산이 계산된다.
높은 DRR의 경우, 확산 파라미터는 낮은 값들로 설정되는 반면, (예를 들어, 더딘 잔향의 끝에서) 잔향이 우세한 경우에는 확산이 높은 값들로 설정된다.
다음에, 어떤 특수한 경우들이 설명된다.
1. M개의 단일 계층 GAC 스트림들이 LO = 1개의 GAC 스트림으로 병합될 필요가 있다면, 단순화된 실시예가 이용될 수 있다. 결과적인 GAC 스트림은 아래에 의해 특성화될 수 있다:
- 압력: 압력은 M개의 모든 압력 신호들의 합이 될 것이고,
- 위치: 위치는 가장 강한 음원들, 예를 들어 가장 강한 IPLS의 위치가 될 것이며,
- 확산: 확산은 식(5)에 따라 계산될 것이다.
2. 출력에서의 계층들의 수가 입력에서의 계층들의 총 개수와 같다면, 즉 LO = N이라면, 출력 스트림은 입력 스트림들의 연속으로 보일 수 있다.
일부 양상들이 장치와 관련하여 설명되었지만, 이러한 양상들은 또한 대응하는 방법의 설명을 나타낸다는 점이 명백하며, 여기서 블록 또는 디바이스는 방법 단계 또는 방법 단계의 특징에 대응한다. 비슷하게, 방법 단계와 관련하여 설명된 양상들은 또한 대응하는 장치의 대응하는 유닛이나 항목 또는 특징의 설명을 나타낸다.
발명의 분해된 신호는 디지털 저장 매체 상에 저장될 수 있고 또는 무선 전송 매체나 인터넷과 같은 유선 전송 매체와 같은 전송 매체를 통해 전송될 수 있다.
특정 구현 요건들에 따라, 본 발명의 실시예들은 하드웨어로 또는 소프트웨어로 구현될 수 있다. 구현은 각각의 방법이 수행되도록 프로그램 가능한 컴퓨터 시스템과 협력하는(또는 협력할 수 있는) 전기적으로 판독 가능한 제어 신호들이 저장된 디지털 저장 매체, 예를 들어 플로피 디스크, DVD, CD, ROM, PROM, EPROM, EEPROM 또는 플래시 메모리를 사용하여 수행될 수 있다.
본 발명에 따른 일부 실시예들은 본 명세서에서 설명된 방법들 중 하나가 수행되도록, 프로그램 가능한 컴퓨터 시스템과 협력할 수 있는 전기적으로 판독 가능한 제어 신호들을 갖는 비-일시적 데이터 반송파를 포함한다.
일반적으로, 본 발명의 실시예들은 컴퓨터 프로그램 물건이 컴퓨터 상에서 실행될 때, 방법들 중 하나를 수행하도록 동작하는 프로그램 코드를 갖는 컴퓨터 프로그램 물건으로서 구현될 수 있다. 프로그램 코드는 예를 들어, 기계 판독 가능 반송파 상에 저장될 수 있다.
다른 실시예들은 기계 판독 가능 반송파 상에 저장된, 본 명세서에서 설명된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함한다.
따라서 다시 말하면, 발명의 방법의 실시예는 프로그램 코드가 컴퓨터 상에서 실행될 때, 본 명세서에서 설명된 방법들 중 하나를 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.
따라서 발명의 방법들의 추가 실시예는 본 명세서에서 설명된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함하며, 그 위에 레코딩된 데이터 반송파(또는 디지털 저장 매체, 또는 컴퓨터 판독 가능 매체)이다.
따라서 발명의 방법의 추가 실시예는 본 명세서에서 설명된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 나타내는 신호들의 시퀀스 또는 데이터 스트림이다. 신호들의 시퀀스나 데이터 스트림은 예를 들어, 데이터 통신 접속을 통해, 예를 들어 인터넷을 통해 전송되도록 구성될 수 있다.
추가 실시예는 본 명세서에서 설명된 방법들 중 하나를 수행하도록 구성되거나 적응된 처리 수단, 예를 들어 컴퓨터 또는 프로그램 가능한 로직 디바이스를 포함한다.
추가 실시예는 본 명세서에서 설명된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램이 설치된 컴퓨터를 포함한다.
일부 실시예들에서, 프로그램 가능한 로직 디바이스(예를 들어, 필드 프로그램 가능한 게이트 어레이)가 본 명세서에서 설명된 방법들의 기능들 중 일부 또는 전부를 수행하는데 사용될 수도 있다. 일부 실시예들에서, 필드 프로그램 가능한 게이트 어레이는 본 명세서에서 설명된 방법들 중 하나를 수행하기 위해 마이크로프로세서와 협력할 수 있다. 일반적으로, 방법들은 임의의 하드웨어 장치에 의해 바람직하게 수행된다.
위에서 설명한 실시예들은 단지 본 발명의 원리들에 대한 예시일 뿐이다. 본 명세서에서 설명된 배치들 및 세부사항들의 수정들 및 변형들이 해당 기술분야에서 통상의 지식을 가진 다른 자들에게 명백할 것이라고 이해된다. 따라서 이는 본 명세서의 실시예들의 개시 및 설명에 의해 제시된 특정 세부사항들에 의해서가 아니라 임박한 특허 청구항들의 범위에 의해서만 한정되려는 의도이다.
문헌:
[1] Michael A. Gerzon. Ambisonics in multichannel broadcasting and video. J. Audio Eng. Soc, 33(11):859-871, 1985.
[2] V. Pulkki, "Directional audio coding in spatial sound reproduction and stereo upmixing," in Proceedings of the AES 28th International Conference, pp. 251-258, Pitea, Sweden, June 30 - July 2, 2006.
[3] V. Pulkki, "Spatial sound reproduction with directional audio coding," J. Audio Eng. Soc., vol. 55, no. 6, pp. 503-516, June 2007.
[4] C. Faller: "Microphone Front-Ends for Spatial Audio Coders", in Proceedings of the AES 125th International Convention, San Francisco, Oct. 2008.
[5] M. Kallinger, H. Ochsenfeld, G. Del Galdo, F. Kuch, D. Mahne, R. Schultz-Amling. and O. Thiergart, "A spatial filtering approach for directional audio coding," in Audio Engineering Society Convention 126, Munich, Germany, May 2009.
[6] R. Schultz-Amling, F. Kuch, O. Thiergart, and M. Kallinger, "Acoustical zooming based on a parametric sound field representation," in Audio Engineering Society Convention 128, London UK, May 2010.
[7] J. Herre, C. Falch, D. Mahne, G. Del Galdo, M. Kallinger, and O. Thiergart, "Interactive teleconferencing combining spatial audio object coding and DirAC technology," in Audio Engineering Society Convention 128, London UK, May 2010.
[8] E. G. Williams, Fourier Acoustics: Sound Radiation and Nearfield Acoustical Holography, Academic Press, 1999.
[9] A. Kuntz and R. Rabenstein, "Limitations in the extrapolation of wave fields from circular measurements," in 15th European Signal Processing Conference (EUSIPCO 2007), 2007.
[10] A. Walther and C. Faller, "Linear simulation of spaced microphone arrays using b-format recordings," in Audio Engiineering Society Convention 128, London UK, May 2010.
[11] US61/287,596: An Apparatus and a Method for Converting a First Parametric Spatial Audio Signal into a Second Parametric Spatial Audio Signal.
[12] S. Rickard and Z. Yilmaz, "On the approximate W-disjoint orthogonality of speech," in Acoustics, Speech and Signal Processing, 2002. ICASSP 2002. IEEE International Conference on, April 2002, vol. 1.
[13] R. Roy, A. Paulraj, and T. Kailath, "Direction-of-arrival estimation by subspace rotation methods - ESPRIT," in IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), Stanford, CA, USA, April 1986.
[14] R. Schmidt, "Multiple emitter location and signal parameter estimation," IEEE Transactions on Antennas and Propagation, vol. 34, no. 3, pp. 276-280, 1986.
[15] J. Michael Steele, "Optimal Triangulation of Random Samples in the Plane", The Annals of Probability, Vol. 10, No.3 (Aug., 1982), pp. 548-553.
[16] F. J. Fahy, Sound Intensity, Essex: Elsevier Science Publishers Ltd., 1989.
[17] R. Schultz-Amling, F. Kuch, M. Kallinger, G. Del Galdo, T. Ahonen and V. Pulkki, "Planar microphone array processing for the analysis and reproduction of spatial audio using directional audio coding," in Audio Engineering Society Convention 124, Amsterdam, The Netherlands, May 2008.
[18] M. Kallinger, F. Kuch, R. Schultz-Amling, G. Del Galdo, T. Ahonen and V. Pulkki, "Enhanced direction estimation using microphone arrays for directional audio coding;" in Hands-Free Speech Communication and Microphone Arrays, 2008. HSCMA 2008, May 2008, pp. 45-48.
[19] R. K. Furness, "Ambisonics - An overview," in AES 8th International Conference, April 1990, pp. 181-189.
[20] Giovanni Del Galdo, Oliver Thiergart, TobiasWeller, and E. A. P. Habets. Generating virtual microphone signals using geometrical information gathered by distributed arrays. In Third Joint Workshop on Hands-free Speech Communication and Microphone Arrays (HSCMA '11), Edinburgh, United Kingdom, May 2011.
[21] Jurgen Herre, Cornelia Falch, Dirk Mahne, Giovanni Del Galdo, Markus Kallinger, and Oliver Thiergart. Interactive teleconferencing combining spatial audio object coding and DirAC technology. In Audio Engineering Society Convention 128, 5 2010.
[22] G. Del Galdo, F.Kuech, M. Kallinger, and R. Schultz-Amling. Efficient merging of multiple audio streams for spatial sound reproduction in directional audio coding. In International Conference on Acoustics, Speech, and Signal Processing (ICASSP 2009), 2009.
[23] US 20110216908: Apparatus for Merging Spatial Audio Streams.
[24] Emmanuel Gallo and Nicolas Tsingos. Extracting and re-rendering structured auditory scenes from field recordings. In AES 30th International Conference on Intelligent Audio Environments, 2007.
[25] Jeroen Breebaart, Jonas Engdegard, Cornelia Falch, Oliver Hellmuth, Johannes Hilpert, Andreas Hoelzer, Jeroesn Koppens, Werner Oomen, Barbara Resch, Erik Schuijers, and Leonid Terentiev. Spatial audio object coding (saoc) - the upcoming mpeg standard on parametric object based audio coding. In Audio Engineering Society Convention 124, 5 2008.
[26] R. Roy and T. Kailath. ESPRIT-estimation of signal parameters via rotational invariance techniques. Acoustics, Speech and Signal Processing, IEEE Transactions on, 37(7):984-995, July 1989.
[27] Tapio Lokki, Juha Merimaa, and Ville Pulkki. Method for reproducing natural or modified spatial impression in multichannel listening, 2006.
[28] Svein Merge. Device and method for converting spatial audio signal. US patent application, Appl. No. 10/547,151.
[29] Ville Pulkki. Spatial sound reproduction with directional audio coding. J. Audio Eng. Soc, 55(6):503-516, June 2007.
[30] C. Uhle and C. Paul: A supervised learning approach to ambience extraction from mono recordings for blind upmixing in Proc. of the 11th Int. Conference on Digital Audio Effects (DAFx-08), Espoo, Finland, September 1-4, 2008.

Claims (18)

  1. 병합된 오디오 데이터 스트림을 생성하기 위한 장치로서,
    복수의 단일 계층 오디오 데이터 스트림들을 획득하기 위한 디멀티플렉서(180) ― 상기 디멀티플렉서(180)는 하나 또는 그보다 많은 입력 오디오 데이터 스트림들을 수신하도록 구성되고, 각각의 입력 오디오 데이터 스트림은 하나 또는 그보다 많은 계층들을 포함하며, 상기 단일 계층 오디오 데이터 스트림들 중 2개 또는 그보다 많은 단일 계층 오디오 데이터 스트림을 획득하기 위해, 상기 디멀티플렉서(180)는 하나 또는 그보다 많은 계층들을 갖는 상기 입력 오디오 데이터 스트림들 각각을, 정확히 하나의 계층을 갖는 2개 또는 그보다 많은 디멀티플렉싱된 오디오 데이터 스트림들로 디멀티플렉싱하도록 구성되며, 상기 2개 또는 그보다 많은 디멀티플렉싱된 오디오 데이터 스트림들은 상기 입력 오디오 데이터 스트림의 하나 또는 그보다 많은 계층들을 함께 포함함 ―; 및
    상기 복수의 단일 계층 오디오 데이터 스트림들을 기초로, 하나 또는 그보다 많은 계층들을 갖는 상기 병합된 오디오 데이터 스트림을 생성하기 위한 병합 모듈(190)을 포함하며,
    상기 단일 계층 오디오 데이터 스트림들의 그리고 상기 병합된 오디오 데이터 스트림의, 상기 디멀티플렉싱된 오디오 데이터 스트림들의, 상기 입력 오디오 데이터 스트림들의, 각각의 계층은 음압 신호(sound pressure signal)의 음압 값(sound pressure value), 위치 값 그리고 확산 값을 오디오 데이터로서 포함하는,
    병합된 오디오 데이터 스트림을 생성하기 위한 장치.
  2. 제 1 항에 있어서,
    상기 디멀티플렉서(180)는 상기 입력 오디오 데이터 스트림들 중 2개 또는 그보다 많은 입력 오디오 데이터 스트림을 수신하도록 구성되고,
    상기 단일 계층 오디오 데이터 스트림들 중 상기 2개 또는 그보다 많은 단일 계층 오디오 데이터 스트림을 획득하기 위해, 상기 디멀티플렉서(180)는 상기 입력 오디오 데이터 스트림들 중 2개 또는 그보다 많은 계층들을 갖는 각각의 입력 오디오 데이터 스트림을, 정확히 하나의 계층을 갖는 2개 또는 그보다 많은 디멀티플렉싱된 오디오 데이터 스트림들로 디멀티플렉싱하도록 구성되며, 상기 2개 또는 그보다 많은 디멀티플렉싱된 오디오 데이터 스트림들은 상기 입력 오디오 데이터 스트림의 2개 또는 그보다 많은 계층들을 함께 포함하는,
    병합된 오디오 데이터 스트림을 생성하기 위한 장치.
  3. 제 1 항에 있어서,
    상기 오디오 데이터는 복수의 시간-주파수 빈(bin)들 중 하나의 시간-주파수 빈에 대해 정의되는,
    병합된 오디오 데이터 스트림을 생성하기 위한 장치.
  4. 제 1 항에 있어서,
    상기 병합 모듈(190)은 상기 단일 계층 오디오 데이터 스트림들 중 각각의 단일 계층 오디오 데이터 스트림에 비용 값을 할당하기 위한 비용 함수 모듈(1401)을 포함하고,
    상기 병합 모듈(190)은 상기 단일 계층 오디오 데이터 스트림들에 할당된 비용 값들을 기초로, 상기 병합된 오디오 데이터 스트림을 생성하도록 구성되는,
    병합된 오디오 데이터 스트림을 생성하기 위한 장치.
  5. 제 4 항에 있어서,
    상기 비용 함수 모듈(1401)은 상기 단일 계층 오디오 데이터 스트림의 음압 값들 또는 확산 값들 중 적어도 하나에 따라, 상기 단일 계층 오디오 데이터 스트림들 중 각각의 단일 계층 오디오 데이터 스트림에 상기 비용 값을 할당하도록 구성되는,
    병합된 오디오 데이터 스트림을 생성하기 위한 장치.
  6. 제 5 항에 있어서,
    상기 비용 함수 모듈(1401)은 식:
    Figure 112016065510525-pct00063

    을 적용함으로써, 단일 계층 오디오 데이터 스트림들의 그룹의 각각의 오디오 데이터 스트림에 상기 비용 값을 할당하도록 구성되며,
    여기서 Pi는 상기 단일 계층 오디오 데이터 스트림들의 그룹의 제 i 오디오 데이터 스트림의 계층의 음압 값이고 ψi는 확산 값인,
    병합된 오디오 데이터 스트림을 생성하기 위한 장치.
  7. 제 4 항에 있어서,
    상기 병합 모듈(190)은 압력 병합 유닛(1404)을 더 포함하며,
    상기 압력 병합 유닛(1404)은, 상기 복수의 단일 계층 오디오 데이터 스트림들 중 하나 또는 그보다 많은 단일 계층 오디오 데이터 스트림들을 포함하는 제 1 그룹을 결정하고 그리고 상기 복수의 단일 계층 오디오 데이터 스트림들 중 하나 또는 그보다 많은 다른 단일 계층 오디오 데이터 스트림들을 포함하는 제 2 그룹을 결정하도록 구성되며,
    상기 제 1 그룹의 단일 계층 오디오 데이터 스트림들 각각의 비용 값이 상기 제 2 그룹의 단일 계층 오디오 데이터 스트림들 각각의 비용 값보다 더 크거나, 혹은 상기 제 1 그룹의 단일 계층 오디오 데이터 스트림들 각각의 비용 값이 상기 제 2 그룹의 단일 계층 오디오 데이터 스트림들 각각의 비용 값보다 더 작으며,
    상기 압력 병합 유닛(1404)은, 상기 제 1 그룹의 단일 계층 오디오 데이터 스트림들 각각의 개개의 음압 값이 상기 병합된 오디오 데이터 스트림의 계층들 중 한 계층의 음압 값이 되게, 그리고 상기 제 2 그룹의 단일 계층 오디오 데이터 스트림들의 음압 값들의 결합이 상기 병합된 오디오 데이터 스트림의 계층들 중 한 계층의 음압 값이 되게, 상기 병합된 오디오 데이터 스트림의 하나 또는 그보다 많은 계층들의 하나 또는 그보다 많은 음압 값들을 생성하도록 구성되는,
    병합된 오디오 데이터 스트림을 생성하기 위한 장치.
  8. 제 4 항에 있어서,
    상기 병합 모듈(190)은 확산 병합 유닛(1405)을 더 포함하며,
    상기 확산 병합 유닛(1405)은, 상기 복수의 단일 계층 오디오 데이터 스트림들 중 하나 또는 그보다 많은 단일 계층 오디오 데이터 스트림들을 포함하는 제 3 그룹을 결정하고 그리고 상기 복수의 단일 계층 오디오 데이터 스트림들 중 하나 또는 그보다 많은 다른 단일 계층 오디오 데이터 스트림들을 포함하는 제 4 그룹을 결정하도록 구성되며,
    상기 제 3 그룹의 단일 계층 오디오 데이터 스트림들 각각의 비용 값이 상기 제 4 그룹의 단일 계층 오디오 데이터 스트림들 각각의 비용 값보다 더 크거나, 혹은 상기 제 3 그룹의 단일 계층 오디오 데이터 스트림들 각각의 비용 값이 상기 제 4 그룹의 단일 계층 오디오 데이터 스트림들 각각의 비용 값보다 더 작으며,
    상기 확산 병합 유닛(1405)은, 상기 제 3 그룹의 단일 계층 오디오 데이터 스트림들 각각의 개개의 확산 값이 상기 병합된 오디오 데이터 스트림의 계층들 중 한 계층의 확산 값이 되게, 그리고 상기 제 4 그룹의 단일 계층 오디오 데이터 스트림들의 확산 값들의 결합이 상기 병합된 오디오 데이터 스트림의 계층들 중 한 계층의 확산 값이 되게, 상기 병합된 오디오 데이터 스트림의 하나 또는 그보다 많은 계층들의 하나 또는 그보다 많은 확산 값들을 생성하도록 구성되는,
    병합된 오디오 데이터 스트림을 생성하기 위한 장치.
  9. 제 3 항에 있어서,
    상기 병합 모듈(190)은 위치 믹싱 유닛을 더 포함하며,
    상기 위치 믹싱 유닛(1403)은, 상기 복수의 단일 계층 오디오 데이터 스트림들 중 하나 또는 그보다 많은 단일 계층 오디오 데이터 스트림들을 포함하는 제 5 그룹을 결정하도록 구성되고,
    상기 제 5 그룹의 단일 계층 오디오 데이터 스트림들 각각의 비용 값이 상기 복수의 단일 계층 오디오 데이터 스트림들 중 상기 제 5 그룹에 포함되지 않는 임의의 단일 계층 오디오 데이터 스트림들의 비용 값보다 더 크거나, 혹은 상기 제 5 그룹의 단일 계층 오디오 데이터 스트림들 각각의 비용 값이 상기 복수의 단일 계층 오디오 데이터 스트림들 중 상기 제 5 그룹에 포함되지 않는 임의의 단일 계층 오디오 데이터 스트림들의 비용 값보다 더 작으며,
    상기 위치 값 유닛은, 상기 제 5 그룹의 단일 계층 오디오 데이터 스트림들 각각의 개개의 위치 값이 상기 병합된 오디오 데이터 스트림의 계층들 중 한 계층의 위치 값이 되게, 상기 병합된 오디오 데이터 스트림의 하나 또는 그보다 많은 계층들의 하나 또는 그보다 많은 위치 값들을 생성하도록 구성되는,
    병합된 오디오 데이터 스트림을 생성하기 위한 장치.
  10. 제 3 항에 있어서,
    상기 병합 모듈(190)은 상기 복수의 단일 계층 오디오 데이터 스트림들 중 하나 또는 그보다 많은 단일 계층 오디오 데이터 스트림들의 위치 값을 조작(manipulate)하기 위한 사운드 장면(scene) 적응 모듈(1402)을 더 포함하는,
    병합된 오디오 데이터 스트림을 생성하기 위한 장치.
  11. 제 10 항에 있어서,
    상기 사운드 장면 적응 모듈(1402)은, 상기 위치 값에 회전(rotation), 평행이동(translation) 또는 비선형 변환(non-linear transformation)을 적용하여 상기 복수의 단일 계층 오디오 데이터 스트림들 중 하나 또는 그보다 많은 단일 계층 오디오 데이터 스트림들의 위치 값을 조작하도록 구성되는,
    병합된 오디오 데이터 스트림을 생성하기 위한 장치.
  12. 제 1 항에 있어서,
    상기 디멀티플렉서(180)는, 상기 디멀티플렉싱된 오디오 데이터 스트림들 중 하나의 오디오 데이터 스트림의 음압 값들 중 하나의 크기를 스칼라값과 곱함으로써 상기 크기를 수정하도록 구성되는,
    병합된 오디오 데이터 스트림을 생성하기 위한 장치.
  13. 제 1 항에 있어서,
    상기 디멀티플렉서(180)는 복수의 디멀티플렉싱 유닛들(1201)을 포함하며,
    상기 디멀티플렉싱 유닛들(1201) 중 각각의 디멀티플렉싱 유닛은 상기 입력 오디오 데이터 스트림들 중 하나 또는 그보다 많은 입력 오디오 데이터 스트림을 디멀티플렉싱하도록 구성되는,
    병합된 오디오 데이터 스트림을 생성하기 위한 장치.
  14. 제 1 항에 있어서,
    상기 장치는 정확히 하나의 계층을 포함하는 인공 데이터 스트림을 생성하기 위한 인공 소스 생성기(1202)를 더 포함하며,
    상기 인공 소스 생성기(1202)는 시간 도메인으로 표현되는 압력 정보를 수신하도록 그리고 위치 정보를 수신하도록 구성되고,
    상기 인공 소스 생성기(1202)는 복수의 시간-주파수 빈들에 대한 위치 정보를 생성하기 위해 상기 압력 정보를 복제하도록 구성되며,
    상기 인공 소스 생성기(1202)는 상기 압력 정보를 기초로 확산 정보를 계산하도록 추가로 구성되는,
    병합된 오디오 데이터 스트림을 생성하기 위한 장치.
  15. 제 14 항에 있어서,
    상기 인공 소스 생성기(1202)는 시간 도메인으로 표현되는 상기 압력 정보를 시간-주파수 도메인으로 변환하도록 구성되는,
    병합된 오디오 데이터 스트림을 생성하기 위한 장치.
  16. 제 14 항에 있어서,
    상기 인공 소스 생성기(1202)는 상기 압력 정보에 잔향(reverberation)을 부가하도록 구성되는,
    병합된 오디오 데이터 스트림을 생성하기 위한 장치.
  17. 병합된 오디오 데이터 스트림을 생성하기 위한 방법으로서,
    복수의 단일 계층 오디오 데이터 스트림들을 획득하는 단계 ― 디멀티플렉서는 하나 또는 그보다 많은 입력 오디오 데이터 스트림들을 수신하도록 구성되고, 각각의 입력 오디오 데이터 스트림은 하나 또는 그보다 많은 계층들을 포함하며, 상기 단일 계층 오디오 데이터 스트림들 중 2개 또는 그보다 많은 단일 계층 오디오 데이터 스트림을 획득하기 위해, 상기 디멀티플렉서는 하나 또는 그보다 많은 계층들을 갖는 상기 입력 오디오 데이터 스트림들 각각을, 정확히 하나의 계층을 갖는 2개 또는 그보다 많은 디멀티플렉싱된 오디오 데이터 스트림들로 디멀티플렉싱하도록 구성되고, 상기 2개 또는 그보다 많은 디멀티플렉싱된 오디오 데이터 스트림들은 상기 입력 오디오 데이터 스트림의 하나 또는 그보다 많은 계층들을 함께 포함함 ―; 및
    상기 복수의 단일 계층 오디오 데이터 스트림들을 기초로, 하나 또는 그보다 많은 계층들을 갖는 상기 병합된 오디오 데이터 스트림을 생성하는 단계를 포함하며,
    상기 단일 계층 오디오 데이터 스트림들의 그리고 상기 병합된 오디오 데이터 스트림의, 상기 디멀티플렉싱된 오디오 데이터 스트림들의, 상기 입력 오디오 데이터 스트림들의, 각각의 계층은 음압 신호의 음압 값, 위치 값 그리고 확산 값을 오디오 데이터로서 포함하고,
    상기 오디오 데이터는 복수의 시간-주파수 빈들 중 하나의 시간-주파수 빈에 대해 정의되는,
    병합된 오디오 데이터 스트림을 생성하기 위한 방법.
  18. 컴퓨터 또는 신호 프로세서 상에서 실행될 때, 제 17 항의 방법을 구현하기 위한 컴퓨터 프로그램을 포함하는 컴퓨터-판독가능 매체.
KR1020147018321A 2011-12-02 2012-11-30 기하학 기반 공간 오디오 코딩 스트림들을 병합하기 위한 장치 및 방법 KR101666730B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP11191816.5 2011-12-02
EP11191816.5A EP2600343A1 (en) 2011-12-02 2011-12-02 Apparatus and method for merging geometry - based spatial audio coding streams
US13/445,585 US9484038B2 (en) 2011-12-02 2012-04-12 Apparatus and method for merging geometry-based spatial audio coding streams
US13/445,585 2012-04-12
PCT/EP2012/074097 WO2013079663A2 (en) 2011-12-02 2012-11-30 Apparatus and method for merging geometry-based spatial audio coding streams

Publications (2)

Publication Number Publication Date
KR20140097555A KR20140097555A (ko) 2014-08-06
KR101666730B1 true KR101666730B1 (ko) 2016-10-14

Family

ID=45047686

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020147018321A KR101666730B1 (ko) 2011-12-02 2012-11-30 기하학 기반 공간 오디오 코딩 스트림들을 병합하기 위한 장치 및 방법

Country Status (18)

Country Link
US (1) US9484038B2 (ko)
EP (2) EP2600343A1 (ko)
JP (1) JP6086923B2 (ko)
KR (1) KR101666730B1 (ko)
CN (1) CN104185869B9 (ko)
AR (1) AR089053A1 (ko)
AU (3) AU2012343819C1 (ko)
BR (1) BR112014013336B1 (ko)
CA (1) CA2857614C (ko)
HK (1) HK1202181A1 (ko)
IN (1) IN2014KN01069A (ko)
MX (1) MX342794B (ko)
MY (1) MY167160A (ko)
RU (1) RU2609102C2 (ko)
SG (1) SG11201402777QA (ko)
TW (1) TWI555412B (ko)
WO (1) WO2013079663A2 (ko)
ZA (1) ZA201404823B (ko)

Families Citing this family (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10152524B2 (en) * 2012-07-30 2018-12-11 Spatial Digital Systems, Inc. Wavefront muxing and demuxing for cloud data storage and transport
US10154361B2 (en) * 2011-12-22 2018-12-11 Nokia Technologies Oy Spatial audio processing apparatus
US9407992B2 (en) * 2012-12-14 2016-08-02 Conexant Systems, Inc. Estimation of reverberation decay related applications
CN108806704B (zh) 2013-04-19 2023-06-06 韩国电子通信研究院 多信道音频信号处理装置及方法
CN108810793B (zh) 2013-04-19 2020-12-15 韩国电子通信研究院 多信道音频信号处理装置及方法
US20140358565A1 (en) 2013-05-29 2014-12-04 Qualcomm Incorporated Compression of decomposed representations of a sound field
US9319819B2 (en) * 2013-07-25 2016-04-19 Etri Binaural rendering method and apparatus for decoding multi channel audio
EP3028476B1 (en) * 2013-07-30 2019-03-13 Dolby International AB Panning of audio objects to arbitrary speaker layouts
CN104683933A (zh) 2013-11-29 2015-06-03 杜比实验室特许公司 音频对象提取
US10042037B2 (en) * 2014-02-20 2018-08-07 Nestwave Sas System and method for estimating time of arrival (TOA)
EP2942981A1 (en) * 2014-05-05 2015-11-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. System, apparatus and method for consistent acoustic scene reproduction based on adaptive functions
ES2833424T3 (es) * 2014-05-13 2021-06-15 Fraunhofer Ges Forschung Aparato y método para panoramización de amplitud de atenuación de bordes
US9620137B2 (en) * 2014-05-16 2017-04-11 Qualcomm Incorporated Determining between scalar and vector quantization in higher order ambisonic coefficients
US10770087B2 (en) 2014-05-16 2020-09-08 Qualcomm Incorporated Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals
US9774974B2 (en) * 2014-09-24 2017-09-26 Electronics And Telecommunications Research Institute Audio metadata providing apparatus and method, and multichannel audio data playback apparatus and method to support dynamic format conversion
US9984693B2 (en) 2014-10-10 2018-05-29 Qualcomm Incorporated Signaling channels for scalable coding of higher order ambisonic audio data
US10140996B2 (en) 2014-10-10 2018-11-27 Qualcomm Incorporated Signaling layers for scalable coding of higher order ambisonic audio data
US10057707B2 (en) 2015-02-03 2018-08-21 Dolby Laboratories Licensing Corporation Optimized virtual scene layout for spatial meeting playback
EP3780589A1 (en) 2015-02-03 2021-02-17 Dolby Laboratories Licensing Corporation Post-conference playback system having higher perceived quality than originally heard in the conference
HK1255002A1 (zh) 2015-07-02 2019-08-02 杜比實驗室特許公司 根據立體聲記錄確定方位角和俯仰角
WO2017004584A1 (en) 2015-07-02 2017-01-05 Dolby Laboratories Licensing Corporation Determining azimuth and elevation angles from stereo recordings
US10277997B2 (en) 2015-08-07 2019-04-30 Dolby Laboratories Licensing Corporation Processing object-based audio signals
CN105117111B (zh) * 2015-09-23 2019-11-15 小米科技有限责任公司 虚拟现实交互画面的渲染方法和装置
TWI577194B (zh) * 2015-10-22 2017-04-01 山衛科技股份有限公司 環境音源辨識系統及其環境音源辨識之方法
US10206040B2 (en) * 2015-10-30 2019-02-12 Essential Products, Inc. Microphone array for generating virtual sound field
CA2987808C (en) 2016-01-22 2020-03-10 Guillaume Fuchs Apparatus and method for encoding or decoding an audio multi-channel signal using spectral-domain resampling
US10923132B2 (en) 2016-02-19 2021-02-16 Dolby Laboratories Licensing Corporation Diffusivity based sound processing method and apparatus
US9949052B2 (en) 2016-03-22 2018-04-17 Dolby Laboratories Licensing Corporation Adaptive panner of audio objects
US20170293461A1 (en) * 2016-04-07 2017-10-12 VideoStitch Inc. Graphical placement of immersive audio sources
GB2551780A (en) * 2016-06-30 2018-01-03 Nokia Technologies Oy An apparatus, method and computer program for obtaining audio signals
US10187740B2 (en) * 2016-09-23 2019-01-22 Apple Inc. Producing headphone driver signals in a digital audio signal processing binaural rendering environment
US10820097B2 (en) * 2016-09-29 2020-10-27 Dolby Laboratories Licensing Corporation Method, systems and apparatus for determining audio representation(s) of one or more audio sources
EP3542360A4 (en) * 2016-11-21 2020-04-29 Microsoft Technology Licensing, LLC METHOD AND DEVICE FOR AUTOMATIC SYNCHRONIZATION
KR20180090022A (ko) * 2017-02-02 2018-08-10 한국전자통신연구원 다중 전방향 카메라 및 마이크 기반 가상현실 제공 방법 및 가상 현실 제공 방법을 수행하는 음향 신호 처리 장치 및 영상 신호 처리 장치
GB2561595A (en) * 2017-04-20 2018-10-24 Nokia Technologies Oy Ambience generation for spatial audio mixing featuring use of original and extended signal
GB2563635A (en) 2017-06-21 2018-12-26 Nokia Technologies Oy Recording and rendering audio signals
SG11202000285QA (en) * 2017-07-14 2020-02-27 Fraunhofer Ges Forschung Concept for generating an enhanced sound-field description or a modified sound field description using a multi-layer description
KR102568365B1 (ko) * 2017-07-14 2023-08-18 프라운 호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 깊이-확장형 DirAC 기술 또는 기타 기술을 이용하여 증강된 음장 묘사 또는 수정된 음장 묘사를 생성하기 위한 개념
EP3652735A1 (en) * 2017-07-14 2020-05-20 Fraunhofer Gesellschaft zur Förderung der Angewand Concept for generating an enhanced sound field description or a modified sound field description using a multi-point sound field description
GB2566992A (en) 2017-09-29 2019-04-03 Nokia Technologies Oy Recording and rendering spatial audio signals
CA3219540A1 (en) 2017-10-04 2019-04-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus, method and computer program for encoding, decoding, scene processing and other procedures related to dirac based spatial audio coding
TWI690921B (zh) * 2018-08-24 2020-04-11 緯創資通股份有限公司 收音處理裝置及其收音處理方法
WO2021018378A1 (en) 2019-07-29 2021-02-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method or computer program for processing a sound field representation in a spatial transform domain
CN110853657B (zh) * 2019-11-18 2022-05-13 北京小米智能科技有限公司 空间划分方法、装置及存储介质
GB2590650A (en) * 2019-12-23 2021-07-07 Nokia Technologies Oy The merging of spatial audio parameters
US20240064485A1 (en) * 2020-11-30 2024-02-22 The Regents Of The University Of California Systems and methods for sound-enhanced meeting platforms
GB2602148A (en) * 2020-12-21 2022-06-22 Nokia Technologies Oy Audio rendering with spatial metadata interpolation and source position information
CN113708868B (zh) * 2021-08-27 2023-06-27 国网安徽省电力有限公司池州供电公司 一种多拾音设备的调度系统及其调度方法

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0905933A3 (de) * 1997-09-24 2004-03-24 STUDER Professional Audio AG Verfahren und Vorrichtung zum Mischen von Tonsignalen
AUPR989802A0 (en) * 2002-01-09 2002-01-31 Lake Technology Limited Interactive spatialized audiovisual system
FI118247B (fi) 2003-02-26 2007-08-31 Fraunhofer Ges Forschung Menetelmä luonnollisen tai modifioidun tilavaikutelman aikaansaamiseksi monikanavakuuntelussa
CA2533056C (en) * 2003-07-21 2012-04-17 Stefan Geyersberger Audio file format conversion
DK1509065T3 (da) * 2003-08-21 2006-08-07 Bernafon Ag Fremgangsmåde til behandling af audiosignaler
US7483519B2 (en) * 2003-12-23 2009-01-27 At&T Intellectual Property I, L.P. Caller controlled systems to suppress system to de-activate 911 indicator
US7392195B2 (en) * 2004-03-25 2008-06-24 Dts, Inc. Lossless multi-channel audio codec
BRPI0608753B1 (pt) 2005-03-30 2019-12-24 Koninl Philips Electronics Nv codificador de áudio, decodificador de áudio, método para codificar um sinal de áudio de multicanal, método para gerar um sinal de áudio de multicanal, sinal de áudio de multicanal codificado, e meio de armazenamento
KR20070108302A (ko) 2005-10-14 2007-11-09 삼성전자주식회사 오디오 데이터의 확장에 대한 스케러빌러티를 지원하는부호화 방법 및 장치, 그 복호화 방법 및 장치
DE102005057406A1 (de) * 2005-11-30 2007-06-06 Valenzuela, Carlos Alberto, Dr.-Ing. Verfahren zur Aufnahme einer Tonquelle mit zeitlich variabler Richtcharakteristik und zur Wiedergabe sowie System zur Durchführung des Verfahrens
WO2007136187A1 (en) 2006-05-19 2007-11-29 Electronics And Telecommunications Research Institute Object-based 3-dimensional audio service system using preset audio scenes
CA2656867C (en) * 2006-07-07 2013-01-08 Johannes Hilpert Apparatus and method for combining multiple parametrically coded audio sources
US20080232601A1 (en) * 2007-03-21 2008-09-25 Ville Pulkki Method and apparatus for enhancement of audio reconstruction
US8131542B2 (en) * 2007-06-08 2012-03-06 Honda Motor Co., Ltd. Sound source separation system which converges a separation matrix using a dynamic update amount based on a cost function
EP2144231A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme with common preprocessing
EP2154911A1 (en) * 2008-08-13 2010-02-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. An apparatus for determining a spatial output multi-channel audio signal
EP2154910A1 (en) 2008-08-13 2010-02-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus for merging spatial audio streams
JP5540492B2 (ja) 2008-10-29 2014-07-02 富士通株式会社 通信装置、効果音出力制御プログラム及び効果音出力制御方法
EP2285139B1 (en) 2009-06-25 2018-08-08 Harpex Ltd. Device and method for converting spatial audio signal
EP2346028A1 (en) * 2009-12-17 2011-07-20 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. An apparatus and a method for converting a first parametric spatial audio signal into a second parametric spatial audio signal
US8731923B2 (en) * 2010-08-20 2014-05-20 Adacel Systems, Inc. System and method for merging audio data streams for use in speech recognition applications

Also Published As

Publication number Publication date
BR112014013336A2 (pt) 2021-01-26
KR20140097555A (ko) 2014-08-06
BR112014013336B1 (pt) 2021-08-24
CN104185869B9 (zh) 2018-01-12
EP2786374C0 (en) 2024-05-01
EP2786374B1 (en) 2024-05-01
EP2786374A2 (en) 2014-10-08
US20130142341A1 (en) 2013-06-06
SG11201402777QA (en) 2014-06-27
RU2609102C2 (ru) 2017-01-30
MX2014006199A (es) 2014-12-08
CN104185869B (zh) 2017-10-17
AU2018200613A1 (en) 2018-02-08
ZA201404823B (en) 2015-11-25
CA2857614A1 (en) 2013-06-06
MY167160A (en) 2018-08-13
TWI555412B (zh) 2016-10-21
AR089053A1 (es) 2014-07-23
TW201334580A (zh) 2013-08-16
EP2600343A1 (en) 2013-06-05
WO2013079663A2 (en) 2013-06-06
US9484038B2 (en) 2016-11-01
AU2012343819B2 (en) 2016-05-12
RU2014126818A (ru) 2016-01-27
CA2857614C (en) 2019-09-24
AU2016202604A1 (en) 2016-05-19
IN2014KN01069A (ko) 2015-10-09
WO2013079663A3 (en) 2013-10-24
CN104185869A (zh) 2014-12-03
MX342794B (es) 2016-10-12
HK1202181A1 (en) 2015-09-18
JP6086923B2 (ja) 2017-03-01
JP2015502573A (ja) 2015-01-22
AU2012343819A1 (en) 2014-07-24
AU2012343819C1 (en) 2017-11-02

Similar Documents

Publication Publication Date Title
KR101666730B1 (ko) 기하학 기반 공간 오디오 코딩 스트림들을 병합하기 위한 장치 및 방법
KR101619578B1 (ko) 기하학 기반의 공간 오디오 코딩을 위한 장치 및 방법
BR112013013678B1 (pt) Aparelho e método para codificação de áudio espacial com base em geometria

Legal Events

Date Code Title Description
A201 Request for examination
AMND Amendment
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20191001

Year of fee payment: 4