KR20140045910A - 도달 방향 추정치로부터의 기하학적 정보 추출을 통한 사운드 수집 - Google Patents
도달 방향 추정치로부터의 기하학적 정보 추출을 통한 사운드 수집 Download PDFInfo
- Publication number
- KR20140045910A KR20140045910A KR1020137017057A KR20137017057A KR20140045910A KR 20140045910 A KR20140045910 A KR 20140045910A KR 1020137017057 A KR1020137017057 A KR 1020137017057A KR 20137017057 A KR20137017057 A KR 20137017057A KR 20140045910 A KR20140045910 A KR 20140045910A
- Authority
- KR
- South Korea
- Prior art keywords
- microphone
- sound
- virtual
- signal
- sound source
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/167—Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/20—Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/326—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only for microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2430/00—Signal processing covered by H04R, not provided for in its groups
- H04R2430/20—Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
- H04R2430/21—Direction finding using differential microphone array [DMA]
Abstract
어떤 환경에서 구성 가능한 가상 위치에서 가상 마이크로폰의 레코딩을 시뮬레이팅하기 위한 오디오 출력 신호를 생성하는 장치가 제공된다. 이 장치는 사운드 이벤트 위치 추정기 및 정보 계산 모듈(120)을 포함한다. 사운드 이벤트 위치 추정기(110)는 이 환경에서 사운드 파형을 발산하는 사운드 소스의 위치를 표시하는 사운드 소스 위치를 추정하는데, 사운드 이벤트 위치 추정기(110)는, 이 환경에서 제 1 실제 마이크로폰 위치에 위치되는 제 1 실제 공간 마이크로폰에 의해 제공되는 제 1 방향 정보와, 이 환경에서 제 2 실제 마이크로폰 위치에 위치되는 제 2 실제 공간 마이크로폰에 의해 제공되는 제 2 방향 정보에 기초하여, 사운드 소스 위치를 추정하도록 구성된다. 정보 계산 모듈(120)은, 제 1 레코딩된 오디오 입력 신호와, 제 1 실제 마이크로폰 위치와, 가상 마이크로폰의 가상 위치와, 사운드 소스 위치에 기초하여, 오디오 출력 신호를 생성하도록 구성된다.
Description
본 발명은 오디오 프로세싱에 관한 것으로, 특히, 도달 방향 추정치로부터의 기하학적 정보 추출을 통한 사운드 수집을 위한 장치 및 방법에 관한 것이다.
종래 공간 사운드 레코딩은 다수의 마이크로폰으로 사운드 필드를 캡처하여 수신측에서 듣는 이가 사운드 이미지를 레코딩 위치에서 처럼 감지하게 하는 것을 목표로 한다. 공간 사운드 레코딩을 위한 표준 방안은 통상적으로, 가령, AB 스테레오포니와 같은 이격된 전방향성 마이크로폰, 강도 스테레오포니에서의 같은 일치 방향성 마이크로폰, 또는 앰비소닉스에서의 B-포맷 마이크로폰과 같은 보다 정교한 마이크로폰을 사용한다.
[1] R. K. Furness의 1990년 4월, 제 8차 AES 국제회의, "Ambisonics - An overview", pp 181-189 참조.
사운드 재생을 위해, 이들 비파라메트릭(non-parametric) 방안은 원하는 오디오 재생 신호(가령, 라우드스피커로 송신될 신호)를 레코딩된 마이크로폰 신호로부터 직접 유도한다.
이와 달리, 파라메트릭(parametric) 공간 오디오 코더로서 지칭되는 사운드 필드의 파라메트릭 표현에 기초하는 방법이 적용될 수 있다. 이들 방법은 흔히 공간 사운드를 기술하는 공간 사이드 정보와 함께 하나 이상의 오디오 다운믹스 신호를 결정하기 위해 마이크로폰 어레이를 사용한다. DirAC(Directional Audio Coding) 또는 소위 SAM(spatial audio microphones) 방안이 그 예이다. DirAC에 관한 세부 사항은 다음 문헌에서 찾아 볼 수 있다.
[2] Pulkki, V.의 "Directional audio coding in spatial sound reproduction and stereo upmixing", pp 251-258, 스웨덴, 피테오, 제 28 차 AES 국제회의 2006년 6월 30일 - 7월 2일.
[3] V. Pulkki의 "Spatial sound reproduction with directional audio coding", 2007년 6월, J. Audio Eng. Soc, vol.55, no.6, pp 503-516.
공간 오디오 마이크로폰 방안에 관한 세부 사항에 관해 다음 문헌을 참조한다.
[4] C. Fallen의 "Microphone Front-Ends for Spatial Audio Coders", 2008년 10월, 샌프란시스코, 제 125차 AES 국제 회의 중.
DirAC에서, 가령, 공간 큐 정보(spatial cue information)는 사운드의 도달 방향(DOA) 및 시간-주파수 영역에서 계산되는 사운드 필드의 확산을 포함한다. 사운드 재생을 위해, 오디오 재생 신호는 파라메트릭 기술(description)에 기초하여 유도될 수 있다. 일부 애플리케이션에서, 공간 사운드 수집은 전체 사운드 신(sound scene)을 캡쳐하는 것을 목표로 한다. 다른 애플리케이션에서, 공간 사운드 수집은 어떤 원하는 성분만을 캡쳐하는 것을 목표로 한다. 접화 마이크로폰(close talking microphones)은 높은 신호 대 잡음 비(SNR) 및 낮은 잔향(reverberation)을 갖는 개별적인 사운드 소스를 레코딩하기 위해 사용되는 경우가 흔하며, XY 스테레오포니와 같은 보다 원거리의 구성은 전체 사운드 신의 공간 이미지를 캡쳐하기 위한 방식을 나타낸다. 빔형성을 사용하여 방향성의 관점에서 유연성을 달성할 수 있는데, 조종 가능한 픽 업 패턴을 실현하기 위해 마이크로폰 어레이가 사용될 수 있다. 방향성 오디오 코딩(DirAC)과 같은 전술한 방법([2], [3] 참조)을 사용하여 유연성이 보다 제공되고, 임의적 픽 업 패턴을 사용하여 공간 필터를 실현할 수 있는데, 이는 다음 문헌에 설명되어 있다.
[5] M. Kallinger, H. Ochsenfeld, G. Del Galdo, F. Kuch, D. Mahne, R. Schultz-Amling. 및 O. Thiergart의 "A spatial filtering approach for directional audio coding", 2009년 5월 독일 뮌헨, 오디오 엔지니어링 소사이어티 컨벤션 126.
사운드 신의 기타 신호 처리 조작은, 가령, 다음 문헌을 참조하자.
[6] R. Schultz-Amling, F. Kiich, O. Thiergart, 및 M. Kallinger의 "Acoustical zooming based on a parametric sound field representation", 2010년 5월, 영국 런던, 오디오 엔지니어링 소사이어티 컨벤션 128.
[7] J. Herre, C. Falch, D. Mahne, G. Del Galdo, M. Kallinger 및 O. Thiergart, "Interactive teleconferencing combining spatial audio object coding and DirAC technology", 2010년 5월 영국 런던, 오디오 엔지니어링 소사이어티 컨벤션 128.
전술한 모든 개념은 마이크로폰이 고정된 공지의 기하구조로 배열된다는 공통점을 갖는다. 마이크로폰 사이의 공간은 일치 마이크로포닉(coincident microphonics)을 위해 최대한 작은 것이 좋은데, 여기서는 다른 방법에 대해 수 센티미터인 것이 보통이다. 이하에서, 사운드 도달 방향을 검색할 수 있는 공간 사운드 레코딩을 위한 임의의 장치(가령, 방향성 마이크로폰의 조합 또는 마이크로폰 어레이 등)로서 공간 마이크로폰을 참조한다.
또한, 전술한 모든 방법은 단 하나의 포인트, 즉, 측정 위치에 대한 사운드 필드의 표현으로 제한된다는 공통점을 갖는다. 따라서, 요구되는 마이크로폰은, 가령, 소스에 근접한 매우 구체적이고 주의 깊게 선택된 위치에 배치되어야 하며, 공간적 이미지가 최적으로 캡쳐될 수 있는 위치에 배치되어야 한다.
그러나, 많은 애플리케이션에서 이는 가능하지 않으므로, 여러 마이크로폰을 사운드 소스로부터 멀리 배치하더라도 여전히 원하는 사운드를 캡쳐할 수 있는 것이 유리할 것이다.
측정된 공간 이외의 지점의 사운드 필드를 추정하기 위한 여러 필드 재구성 방법이 존재한다. 그 중 하나는 음향 홀로그래피인데, 이는 다음 문헌에 설명되어 있다.
[8] E. G. Williams의 "Fourier Acoustics: Sound Radiation and Nearfield Acoustical Holography", 1999년 Academic Press.
음향 홀로그래피는 전체 표면에 대한 사운드 압력 및 입자 속도가 알려지면 임의의 볼륨으로 임의의 지점에서 사운드 필드를 계산할 수 있다. 그러므로, 볼륨이 크면, 비실제적인 많은 수의 센서가 필요하다. 또한, 이 방법은 볼륨 내에 사운드 소스가 존재하지 않는다고 가정하여, 알고리즘이 우리의 필요에 대해 가능하게 않게 한다. 관련 파장 필드 외삽법([8] 참조)은 외측 영역에 볼륨의 표면에 대한 공지된 사운드 필드를 외삽하는 것을 목적으로 한다. 그러나, 외삽 거리가 길어지고 사운드 진행 방향에 수직한 방향을 향한 외삽인 경우에 외삽 정확도가 급속히 떨어진다. 다음을 참조하라
[9] A. untz and R. Rabenstein의 "Limitations in the extrapolation of wave fields from circular measurements", 2007년 제15차 유럽 신호 프로세싱 회의((EUSIPCO 2007).
[10] A. Walther 및 C. Faller의 "Linear simulation of spaced microphone arrays using b-format recordings", 2010년 5월 영국 런던, 오디오 엔지니어링 소사이어티 컨벤션 128.
위 문헌은 평면파 모델을 설명하는데, 여기서는 필드 외삽이 실제 사운드 소스로부터 멀리 있는 지점, 가령, 측정 포인트에 근접한 지점에서만 가능하다.
종래 방안의 주요한 단점은 공간 이미지가 항상 사용되는 공간 마이크로폰에 대해 레코딩된다는 점이다. 많은 애플리케이션에서, 원하는 지점, 가령, 사운드 소스에 근접한 지점에 공간 마이크로폰을 배치하는 것이 가능하지 않다. 이러한 경우, 공간 마이크로폰을 사운드 신으로부터 더 멀리 배치하고도 원하는 사운드를 캡쳐할 수 있다면 보다 유리할 것이다.
[11] US 61/287,596: An Apparatus and a Method for Converting a First Parametric Spatial Audio Signal into a Second Parametric Spatial Audio Signal
위 문헌은, 라우드스피커 또는 헤드폰으로 재생될 때 실제 레코딩 위치를 다른 위치로 가상으로 이동시키는 방법을 제안한다. 그러나, 이 방안은 모든 사운드 오브젝트가 레코딩을 위해 사용되는 실제 공간 마이크로폰으로 동일한 거리를 갖는다고 가정하는 간단한 사운드 신으로 제한된다. 또한, 이 방법은 하나의 공간 마이크로폰의 장점만을 취할 수 있다.
본 발명의 하나의 목적은 기하학적 정보의 추출을 통해 사운드 수집에 대한 개선된 개념을 제공한다. 본 발명의 이 목적은 청구항 제1항에 따른 장치, 청구항 제24항에 따른 방법 및 청구항 제25항에 따른 컴퓨터 프로그램에 의해 달성된다.
일 실시예에 따르면, 어떤 환경에서 구성 가능한 가상 위치에서 가상 마이크로폰의 레코딩을 시뮬레이팅하기 위한 오디오 출력 신호를 생성하는 장치가 제공된다. 이 장치는 사운드 이벤트 위치 추정기 및 정보 계산 모듈을 포함한다. 사운드 이벤트 위치 추정기는 이 환경에서 사운드 파형을 발산하는 사운드 소스의 위치를 표시하는 사운드 소스 위치를 추정하는데, 사운드 이벤트 위치 추정기는, 이 환경에서 제 1 실제 마이크로폰 위치에 위치되는 제 1 실제 공간 마이크로폰에 의해 제공되는 제 1 방향 정보와, 이 환경에서 제 2 실제 마이크로폰 위치에 위치되는 제 2 실제 공간 마이크로폰에 의해 제공되는 제 2 방향 정보에 기초하여, 사운드 소스 위치를 추정하도록 구성된다.
정보 계산 모듈은, 제 1 실제 공간 마이크로폰에 의해 레코딩되는 제 1 레코딩된 오디오 입력 신호와, 제 1 실제 마이크로폰 위치와, 가상 마이크로폰의 가상 위치에 기초하여, 오디오 출력 신호를 발생시키도록 구성된다.
일 실시예에서, 정보 계산 모듈은 전파 보상기를 포함하는데, 전파 보상기는, 사운드 소스와 제 1 실제 공간 마이크로폰 사이의 제 1 진폭 감쇠 및 사운드 소스와 가상 마이크로폰 사이의 제 2 진폭 감쇠에 기초하여, 제 1 레코딩된 오디오 입력 신호의 진폭 값, 크기 값 또는 위상 값을 조절함으로써, 제 1 레코딩된 오디오 입력 신호를 수정하여 제 1 수정된 오디오 신호를 생성하도록 구성되어, 오디오 출력 신호를 획득한다. 일 실시예에서, 제 1 진폭 감쇠는 사운드 소스에 의해 방출되는 사운드 파형의 진폭 감쇠일 수 있으며, 제 2 진폭 감쇠는 사운드 소스에 의해 방출되는 사운드 파형의 진폭 감쇠일 수 있다.
다른 실시예에 따르면, 정보 계산 모듈은 전파 보상기를 포함하는데, 이는 제 1 실제 공간 마이크로폰에서 사운드 소스에 의해 방출되는 사운드 파형의 도달과 가상 마이크로폰에서 상기 사운드 파형의 도달 사이의 제 1 지연을 보상하여 제 1 레코딩된 오디오 입력 신호를 수정하고, 제 1 레코딩된 오디오 입력 신호의 진폭 값, 크기 값 또는 위상 값을 조절함으로써 제 1 수정된 오디오 신호를 생성하도록 구성되어, 오디오 출력 신호를 획득한다.
일 실시예에 따르면, 2개 이상의 공간 마이크로폰을 사용하는 것으로 가정하는데, 이는 이하에서 실제 공간 마이크로폰이라고 지칭한다. 각 실제 공간 마이크로폰에 있어서, 사운드의 DOA는 시간-주파수 영역에서 추정될 수 있다. 실제 공간 마이크로폰에 의해 수집된 정보로부터, 상대적 위치 정보와 함께, 환경에서 뜻대로 가상적으로 배치되는 임의의 공간 마이크로폰의 출력 신호를 구성할 수 있다. 이 공간 마이크로폰은 이하에서 가상 공간 마이크로폰이라고 지칭한다.
DOA(Direction of Arrival)는 2D 공간의 경우에는 방위각으로서 표현되고 3D 공간에서는 방위각과 고도 각 쌍으로 표현된다는 것을 유의하자. 마찬가지로, DOA에서 포인팅되는 단위 놈 벡터(unit norm vector)가 사용될 수 있다.
실시예에서,공간적으로 선택적인 방식으로 사운드를 캡쳐하기 위한 수단, 가령, 특정 목표 위치로부터 유래하는 사운드가 마치 근접 "스폿 마이크로폰"이 이 위치에 설치된 것처럼 픽업될 수 있는 수단이 제공된다. 그러나, 이 스폿 마이크로폰을 실제로 설치하는 대신, 다른 멀리 떨어진 위치에 배치되는 2개 이상의 공간 마이크로폰을 사용하여 출력 신호가 시뮬레이팅될 수 있다.
"공간 마이크로폰"이라는 용어는 사운드의 도달 방향을 검색할 수 있는 공간 사운드의 수집을 위한 장치(가령, 방향성 마이크로폰의 조합 또는 마이크로폰 어레이 등)를 지칭한다.
"비공간 마이크로폰"이라는 용어는 단일 전방향성 또는 방향성 마이크로폰과 같은 사운드 도달 방향을 검색하도록 구성되지 않는 임의의 장치를 지칭한다.
"실제 공간 마이크로폰"이라는 용어는 물리적으로 존재하는 전술한 공간 마이크로폰을 지칭한다는 것을 유의하자.
가상 공간 마이크로폰과 관련하여, 가상 공간 마이크로폰은 임의의 원하는 마이크로폰 유형 또는 마이크로폰 조합을 나타낼 수 있음을 유의해야 하며, 가령, 단일 전방향성 마이크로폰, 방향성 마이크로폰, 공통 스테레오 마이크로폰에서 사용되는 한 쌍의 방향성 마이크로폰 및 마이크로폰 어레이를 나타낼 수 있다.
본 발명은, 2개 이상의 실제 공간 마이크로폰이 사용될 때 사운드 이벤트의 2D 또는 3D 공간에서의 위치를 추정하여 위치 파악이 이루어질 수 있다는 점에 근거한다. 사운드 이벤트의 결정된 위치를 사용함으로써, 공간에 임의로 배치되고 지향되는 가상 공간 마이크로폰에 의해 레코딩된 사운드 신호가 계산될 수 있고, 또한 가상 공간 마이크로폰의 시점으로부터의 도달 방향과 같은 대응 공간 사이드 정보가 계산될 수 있다.
이를 위해, 각 사운드 이벤트는, 점상(point like) 사운드 소스, 가령, 등방성 점상 사운드 소스를 나타내도록 가정될 수 있다. 이하에서, "실제 사운드 소스"라는 용어는, 말하는 이 또는 악기와 같이, 레코딩 환경에서 물리적으로 존재하는 실제 사운드 소스를 지칭한다. 이와 반대로, 이하에서 "사운드 소스" 또는 "사운드 이벤트"와 관련하여, 소정 시점 또는 소정 시간-주파수 빈에서 액티브인 유효 사운드 소스를 지칭하는데, 사운드 소스는, 가령, 실제 사운드 소스 또는 미러 이미지 소스를 나타낼 수 있다. 일 실시예에 따르면, 사운드 신은 사운드 이벤트 또는 점상 사운드 소스의 크기로서 모델링될 수 있다. 또한, 각 소스는 사전 정의된 시간-주파수 표현으로 특정 시간 및 주파수 슬롯 내에서만 액티브이도록 가정될 수 있다. 실제 공간 마이크로폰 사이의 거리는 전파 시간의 최종 시간적 차가 시간-주파수 표현의 시간적 해상도보다 짧을 수 있다. 후자의 가정은 소정 사운드 이벤트가 동일한 타임 슬롯 내에서 모든 공간 마이크로폰에 의해 픽업되는 것을 보장한다. 이는, 동일한 시간-주파수 슬롯을 위한 상이한 공간 마이크로폰에서 추정된 DOA가 실제로 동일한 사운드 이벤트에 대응한다는 것을 암시한다. 이 가정은, 심지어 수 ms의 시간 해상도로 넓은 실내(가령, 거실 또는 회의실)에서도 서로 수 미터를 두고 배치되는 실제 공간 마이크로폰을 사용하여 충족하기 어렵지 않다.
마이크로폰 어레이는 사운드 소스의 위치를 파악하기 위해 사용될 수 있다. 위치가 파악된 사운드 소스는 그 성격에 따라 상이한 물리적 해석을 가질 수 있다. 마이크로폰 어레이가 직접 사운드를 수신하면, 진정한 사운드 소스(가령, 말하는 이)의 위치를 파악할 수 있다. 마이크로폰 어레이가 반사를 수신하면, 미러 이미지 소스의 위치를 파악할 수 있다. 미러 이미지 소스도 사운드 소스이다.
임의의 위치에 배치되는 가상 마이크로폰의 사운드 신호를 추정할 수 있는 파라메트릭 방법(parametric method)이 제공된다. 전술한 방법과 반대로, 제안되는 방법은 사운드 필드를 직접적으로 재구성하는 것을 목표로 하지 않고, 이 위치에 물리적으로 배치되는 마이크로폰에 의해 픽업될 사운드와 유사하게 감지되는 사운드를 제공하는 것을 목적으로 한다. 이는, 점상 사운드 소스, 가령, 등방성 점상 사운드 소스(IPLS)에 기초하여 사운드 필드의 파라메트릭 모델을 사용하여 달성될 수 있다. 요구되는 기하학적 정보, 즉, 모든 IPLS의 순간 위치는, 2개 이상의 분산형 마이크로폰 어레이를 사용하여 추정되는 도달 방향의 삼각 측량을 수행하여 얻어질 수 있다. 이는, 상대적 위치 및 어레이 지향 정보를 획득함으로써 달성될 수 있다. 그럼에도 불구하고, 실제 사운드 소스(가령, 말하는 이)의 수 및 위치에 대한 연역적 지식이 필요치 않다. 제안되는 개념, 가령, 제안되는 장치 또는 방법의 파라메트릭 성질로 인해, 가상 마이크로폰은 임의의 방향성 패턴을 가질 뿐만 아니라, 가령, 거리에 따른 압력 감쇠에 대한 임의의 물리적 또는 비물리적 동작을 가질 수 있다. 제공되는 방안은 반향하는 환경에서의 측정에 기초하여 파라미터 추정 정확도를 연구함으로써 증명되었다.
공간 오디오에 관한 종래 레코딩 기술은, 얻어진 공간 이미지가 마이크로폰이 물리적으로 배치된 위치에 대해 항상 상대적인 경우로 국한되어 왔으나, 본 발명의 실시예는 많은 애플리케이션을 고려하여 사운드 신 외부에 마이크로폰을 배치하는 것이 바람직하고 임의의 관점으로부터 사운드를 캡쳐할 수 있다. 실시예에 따르면, 마이크로폰은 사운드 신에 물리적으로 배치된 경우, 픽업될 사운드와 유사하게 감지되는 신호를 계산함으로써 공간의 임의의 지점에서 가상 마이크로폰을 가상으로 배치하는 개념이 제공된다. 실시예, 점상 사운드 소스, 가령, 점상 등방성 사운드 소스에 기초하여 사운드 필드의 파라메트릭 모델을 사용하는 개념을 적용할 수 있다. 요구되는 기하학적 정보는 2개 이상의 분산형 마이크로폰 어레이에 의해 수집될 수 있다.
실시예에 따르면, 사운드 이벤트 위치 추정기는, 제 1 방향 정보로서 제 1 실제 마이크로폰 위치에서의 사운드 소스에 의해 방출되는 사운드 파형의 도달의 제 1 방향 및 제 2 방향 정보로서 제 2 실제 마이크로폰 위치에서의 사운드 파형의 도달의 제 2 방향에 기초하여 사운드 소스 위치를 추정하도록 구성될 수 있다.
다른 실시예에서, 정보 계산 모듈은 공간 사이드 정보를 계산하기 위한 공간 사이드 정보 계산 모듈을 포함할 수 있다. 정보 계산 모듈은, 가상 마이크로폰의 위치 벡터 및 사운드 이벤트의 위치 벡터에 기초하여, 공간 사이드 정보로서 가상 마이크로폰에서의 도달 방향 또는 액티브 사운드 강도를 추정하도록 구성될 수 있다.
다른 실시예에 따르면, 전파 보상기는, 제 1 실제 공간 마이크로폰에서의 사운드 소스에 의해 방출되는 사운드 파형의 도달과, 가상 마이크로폰에서 사운드 파형의 도달 사이의 제 1 지연을 보상하고, 시간-주파수 영역에서 표현되는 제 1 레코딩된 오디오 입력 신호의 크기를 조절함으로써, 시간-주파수 영역에서 제 1 수정된 오디오 신호를 생성하도록 구성될 수 있다.
일 실시예에서, 전파 추정기는 다음 식
을 적용하여 제 1 수정된 오디오 신호의 수정된 크기 값을 생성함으로써 전파 보상을 수행하도록 구성될 수 있는데, 여기서, d1(k,n)은 제 1 실제 공간 마이크로폰의 위치와 사운드 이벤트의 위치 사이의 거리이고,s(k,n)는 가상 마이크로폰의 가상 위치와 사운드 이벤트의 사운드 소스 사이의 거리이며,Pref(k,n)은 시간-주파수 영역으로 나타내는 제 1 레코딩된 오디오 입력 신호의 크기 값이며,Pv(k,n)는 수정된 크기 값이다.
다른 실시예에서, 정보 계산 모듈은 조합기를 더 포함할 수 있는데, 전파 보상기는 또한, 제 2 실제 공간 마이크로폰에서 사운드 소스에 의해 방출되는 사운드 파형의 도달과 가상 마이크로폰에서 사운드 파형의 도달 사이의 제 2 지연 또는 제 2 진폭 감쇠를 보상하고, 제 2 레코딩된 오디오 입력 신호의 진폭 값, 크기 값 또는 위상 값을 조절함으로써 제 2 수정된 오디오 신호를 획득하여, 제 2 실제 공간 마이크로폰에 의해 레코딩되는 제 2 레코딩된 오디오 입력 신호를 수정하도록 구성되고, 조합기는 제 1 수정된 오디오 신호와 제 2 수정된 오디오 신호를 조합하여 조합 신호를 생성하여, 오디오 출력 신호를 획득한다.
다른 실시예에 따르면, 전파 보상기는 또한, 가상 마이크로폰에서의 사운드 파형의 도달과 다른 실제 공간 마이크로폰 각각에서의 사운드 소스에 의해 방출되는 사운드 파형의 도달 사이의 지연을 보상함으로써, 하나 이상의 다른 실제 공간 마이크로폰에 의해 레코딩되는 하나 이상의 다른 레코딩된 오디도 입력 신호를 수정하도록 구성될 수 있다. 지연 또는 진폭 감쇠 각각은 다른 레코딩된 오디오 입력 신호 각각의 진폭 값, 크기 값 또는 위상 값을 조절함으로써 보상되어 복수의 제 3 수정된 오디오 신호를 획득할 수 있다. 조합기는, 제 1 수정된 오디오 신호, 제 2 수정된 오디오 신호 및 복수의 제 3 수정된 오디오 신호를 조합함으로써 조합 신호를 생성하여 오디오 출력 신호를 ?득하도록 구성될 수 있다.
다른 실시예에서,정보 계산 모듈은, 가상 마이크로폰의 가상 위치에서의 사운드 파형의 도달 방향 및 가상 마이크로폰의 가상 지향(orientation)에 의존하여 제 1 수정된 오디오 신호를 수정하여 오디오 출력 신호를 획득함으로써 가중된 오디오 신호를 생성하는 스펙트럼 가중 유닛을 포함할 수 있으며, 제 1 수정된 오디오 신호는 시간-주파수 영역에서 수정될 수 있다.
또한, 정보 계산 모듈은, 가상 마이크로폰의 가상 위치에서의 사운드 파형의 도달 방향 및 가상 마이크로폰의 가상 지향에 의존하여 조합 신호를 수정하여 오디오 출력 신호를 획득함으로써 가중된 오디오 신호를 생성하는 스펙트럼 가중 유닛을 포함할 수 있으며, 조합 신호는 시간-주파수 영역에서 수정될 수 있다.
다른 실시예에 따르면, 스펙트럼 가중 유닛은 가중된 오디오 신호에 대해 가중 인수
또는 가중 인수
일 실시예에서, 전파 보상기는 또한, 전방향성 마이크로폰에서의 사운드 소스에 의해 방출되는 사운드 파형의 도달과 가상 마이크로폰에서의 사운드 파형의 도달 사이의 제 3 지연 또는 제 3 진폭 감쇠를 보상함으로써 전방향성 마이크로폰에 의해 레코딩되는 제 3 레코딩된 오디오 입력 신호를 수정하고, 제 3 레코딩된 오디오 입력 신호의 진폭 값, 크기 값 또는 위상 값을 조절하여 오디오 출력 신호를 획득함으로써, 제 3 수정된 오디오 신호를 생성하도록 구성된다.
다른 실시예에서,사운드 이벤트 위치 추정기는 3차원 환경에서 사운드 소스 위치를 추정하도록 구성될 수 있다.
또한, 다른 실시예에 따르면, 정보 계산 모듈은, 가상 마이크로폰에서의 확산 사운드 에너지 또는 가상 마이크로폰에서의 직접 사운드 에너지를 추정하도록 구성되는 확산 계산 유닛을 더 포함할 수 있다.
다른 실시예에 따르면, 확산 계산 유닛은 다음 식을 적용하여 직접 사운드 에너지를 추정하도록 구성될 수 있는데,
여기서 "distance SMi - IPLS"는 i번째 실제 마이크로폰의 위치와 사운드 소스 위치 사이의 거리이고, "distance VM - IPLS"는 가상 위치와 사운드 소스 위치 사이의 거리이며, 은 i번째 공간 마이크로폰에서의 직접 에너지이다.
또한, 다른 실시예에 따르면, 확산 계산 유닛은 또한, 가상 마이크로폰에서의 확산 사운드 에너지 및 가상 마이크로폰에서의 직접 사운드 에너지를 추정하고 다음 식을 적용하여 가상 마이크로폰에서의 확산을 추정하도록 구성될 수 있다.
본 발명의 바람직한 실시예를 설명할 것이다.
도 1은 일 실시예에 따른 오디오 출력 신호를 발생시키는 장치를 도시하고 있다.
도 2는 일 실시예에 따른 오디오 출력 신호를 발생시키는 장치 및 방법의 입력 및 출력을 도시하고 있다.
도 3은 사운드 이벤트 위치 추정기 및 정보 계산 모듈을 포함하는, 일 실시예에 따른 장치의 기본 구조를 도시하고 있다.
도 4는 각각 3개의 마이크로폰인 균일한 선형 어레이로서 도시된 실제 공간 마이크로폰의 예시적인 시나리오를 도시하고 있다.
도 5는 3D 공간의 도달 방향을 추정하기 위한, 3D에서의 2개의 공간 마이크로폰을 도시하고 있다.
도 6은, 현재 시간-주파수 빈(k,n)의 등방성 점상 사운드 소스가 위치 pIPLS(k,n)에 위치되는 기하구조를 도시하고 있다.
도 7은 일 실시예에 따른 정보 계산 모듈을 도시하고 있다.
도 8은 다른 실시예에 따른 정보 계산 모듈을 도시하고 있다.
도 9는 2개의 실제 공간 마이크로폰, 위치 파악된 사운드 이벤트 및 가상 공간 마이크로폰의 위치 및 대응 지연 및 진폭 감쇠를 도시하고 있다.
도 10은 일 실시예에 따른 가상 마이크로폰에 대한 도달 방향을 구하는 방식을 도시하고 있다.
도 11은 일 실시예에 따른 가상 마이크로폰의 관점으로부터 사운드의 도달 방향을 유도하는 가능한 방식을 설명하고 있다.
도 12는 일 실시예에 따른 확산 계산 유닛을 더 포함하는 정보 계산 블록을 도시하고 있다.
도 13은 일 실시예에 따른 확산 계산 유닛을 도시하고 있다.
도 14는 사운드 이벤트 위치 추정이 가능하지 않은 시나리오를 도시하고 있다.
도 15a 내지 15c는 2개의 마이크로폰 어레이가 직접 사운드, 벽에 반사된 사운드 및 확산 사운드를 수신하는 시나리오를 도시하고 있다.
도 1은 일 실시예에 따른 오디오 출력 신호를 발생시키는 장치를 도시하고 있다.
도 2는 일 실시예에 따른 오디오 출력 신호를 발생시키는 장치 및 방법의 입력 및 출력을 도시하고 있다.
도 3은 사운드 이벤트 위치 추정기 및 정보 계산 모듈을 포함하는, 일 실시예에 따른 장치의 기본 구조를 도시하고 있다.
도 4는 각각 3개의 마이크로폰인 균일한 선형 어레이로서 도시된 실제 공간 마이크로폰의 예시적인 시나리오를 도시하고 있다.
도 5는 3D 공간의 도달 방향을 추정하기 위한, 3D에서의 2개의 공간 마이크로폰을 도시하고 있다.
도 6은, 현재 시간-주파수 빈(k,n)의 등방성 점상 사운드 소스가 위치 pIPLS(k,n)에 위치되는 기하구조를 도시하고 있다.
도 7은 일 실시예에 따른 정보 계산 모듈을 도시하고 있다.
도 8은 다른 실시예에 따른 정보 계산 모듈을 도시하고 있다.
도 9는 2개의 실제 공간 마이크로폰, 위치 파악된 사운드 이벤트 및 가상 공간 마이크로폰의 위치 및 대응 지연 및 진폭 감쇠를 도시하고 있다.
도 10은 일 실시예에 따른 가상 마이크로폰에 대한 도달 방향을 구하는 방식을 도시하고 있다.
도 11은 일 실시예에 따른 가상 마이크로폰의 관점으로부터 사운드의 도달 방향을 유도하는 가능한 방식을 설명하고 있다.
도 12는 일 실시예에 따른 확산 계산 유닛을 더 포함하는 정보 계산 블록을 도시하고 있다.
도 13은 일 실시예에 따른 확산 계산 유닛을 도시하고 있다.
도 14는 사운드 이벤트 위치 추정이 가능하지 않은 시나리오를 도시하고 있다.
도 15a 내지 15c는 2개의 마이크로폰 어레이가 직접 사운드, 벽에 반사된 사운드 및 확산 사운드를 수신하는 시나리오를 도시하고 있다.
도 1은 어떤 환경에서 구성 가능한 가상 위치에서 가상 마이크로폰(posVmic)의 레코딩을 시뮬레이팅하기 위한 오디오 출력 신호를 생성하는 장치를 도시하고 있다. 이 장치는 사운드 이벤트 위치 추정기(110) 및 정보 계산 모듈(120)을 포함한다. 사운드 이벤트 위치 추정기(110)는 제 1 실제 공간 마이크로폰으로부터 제 1 방향 정보(di1)을 수신하고, 제 2 실제 공간 마이크로폰으로부터 제 2 방향 정보(di2)를 수신한다. 사운드 이벤트 위치 추정기(110)는 이 환경에서 사운드 파형을 발산하는 사운드 소스의 위치를 표시하는 사운드 소스 위치(ssp)를 추정하는데, 사운드 이벤트 위치 추정기(110)는, 이 환경에서 제 1 실제 마이크로폰 위치에 위치되는 제 1 실제 공간 마이크로폰(pos1mic)에 의해 제공되는 제 1 방향 정보(di1)과, 이 환경에서 제 2 실제 마이크로폰 위치에 위치되는 제 2 실제 공간 마이크로폰에 의해 제공되는 제 2 방향 정보(di2)에 기초하여, 사운드 소스 위치(ssp)를 추정하도록 구성된다. 정보 계산 모듈(120)은, 제 1 실제 공간 마이크로폰에 의해 레코딩되는 제 1 레코딩된 오디오 입력 신호(is1)와, 제 1 실제 마이크로폰 위치(pos1mic)와, 가상 마이크로폰의 가상 위치(posVmic)에 기초하여, 오디오 출력 신호를 발생시키도록 구성된다. 정보 계산 모듈(120)은, 오디오 출력 신호를 획득하기 위해, 제 1 레코딩된 오디오 입력 신호의 진폭 값, 크기 값 또는 위상 값을 조절함으로써 제 1 실제 공간 마이크로폰에서 사운드 소스에 의해 방출되는 사운드 파형의 도달과 가상 마이크로폰에서 사운드 파형의 도달 사이의 제 1 지연 또는 진폭 감쇠를 보상하여 제 1 레코딩된 오디오 입력 신호(is1)를 수정함으로써 제 1 수정된 오디오 신호를 생성하도록 구성되는 전파 보상기를 포함한다.
도 2는 일 실시예에 따른 장치 및 방법의 입력 및 출력을 도시하고 있다. 둘 이상의 실제 공간 마이크로폰(111, 112, 11N)으로부터의 정보는 장치로 입력되거나 방법에 의해 처리된다. 이 정보는 실제 공간 마이크로폰에 의해 얻어진 오디오 신호뿐만 아니라 실제 공간 마이크로폰으로부터의 방향 정보, 가령, 도달 방향(DOA) 추정도 포함한다. 오디오 신호 및 도달 추정의 방향과 같은 방향 정보는 시간-주파수 영역으로 표현될 수 있다. 가령, 2D 기하학적 재구성을 원하고 신호의 표현을 위해 종래 STFT(short time Fourier transformation) 도메인이 선택되는 경우, DOA는 k 및 n, 즉, 주파수 및 시간 지수에 의존하는 방위각으로서 표현될 수 있다.
일 실시예에서, 가상 마이크로폰의 위치를 기술 및 공간의 사운드 이벤트 위치 파악은, 공통 좌표계의 실제 공간 마이크로폰 및 가상 마이크로폰의 위치 및 지향에 기초하여 수행될 수 있다. 이 정보는 도 2의 입력(121 ... 12N) 및 입력(104)로 표현될 수 있다. 입력(104)은 또한, 가상 공간 마이크로폰의 특징, 가령, 위치 및 픽업 패턴을 특정할 수 있는데, 이는 후술할 것이다. 가상 공간 마이크로폰이 다수의 가상 센서를 포함하는 경우, 그 위치 및 대응하는 상이한 픽업 패턴이 고려될 수 있다.
장치 또는 대응하는 방법의 출력은 필요한 경우에 하나 이상의 사운드 신호(105)일 수 있는데, 이는 104로 정의되고 배치되는 공간 마이크로폰에 의해 픽업되었을 수 있다. 또한, 장치(또는 방법)은 대응하는 공간 사이드 정보(106)를 출력으로서 제공할 수 있는데, 이는 가상 공간 마이크로폰을 사용함으로써 추정될 수 있다.
도 3은 일 실시예에 다른 장치를 도시하고 있는데, 이는 2개의 메인 프로세싱 유닛, 사운드 이벤트 위치 추정기(201) 및 정보 계산 모듈(202)을 포함한다. 사운드 이벤트 위치 추정기(201)는, 입력(111 ... 11N)에 포함되는 DOA에 기초하고, DOA가 계산된 실제 공간 마이크로폰의 위치 및 지향의 정보에 기초하여 기하학적 재구성을 실행할 수 있다. 사운드 이벤트 위치 추정기(205)의 출력은, 각 시간 및 주파수 빈(bin)에 대해 사운드 이벤트가 발생하는 사운드 소스의 위치 추정치(2D 또는 3D)를 포함한다. 제 2 프로세싱 블록(202)은 정보 계산 모듈이다. 도 3에 따르면, 제 2 프로세싱 블록(202)은 가상 마이크로폰 신호 및 공간 사이드 정보를 계산한다. 그러므로, 이는 가상 마이크로폰 신호 및 사이드 정보 계산 블록(202)이라고 한다. 가상 마이크로폰 신호 및 사이드 정보 계산 블록(202)은 사운드 이벤트 위치(205)를 사용하여 111 ... 11N에 포함된 오디오 신호를 처리하고 가상 마이크로폰 오디오 신호(105)를 출력한다. 필요한 경우, 블록(202)은 가상 공간 마이크로폰에 대응하는 공간 사이드 정보(106)를 계산할 수도 있다. 이하의 실시예는 블록(201 및 202)가 동작할 수 있는 가능성을 설명한다.
이하에서, 일 실시예에 따른 사운드 이벤트 위치 추정기의 위치 추정을 보다 상세히 설명한다.
문제의 차원수(2D 또는 3D) 및 공간 마이크로폰의 수에 의존하여, 위치 추정에 대한 여러 해결책이 가능하다.
2개의 2D 공간 마이크로폰이 존재하는 경우, (가장 간단한 경우에) 간단한 삼각 측량이 가능하다. 도 4는 각각 3개의 마이크로폰인 균일한 선형 어레이로서 도시된 실제 공간 마이크로폰의 예시적인 시나리오를 도시하고 있다. 방위각 a1(k, n) 및 a2(k,n)으로 표현되는 DOA는 시간-주파수 빈(k, n)에 대해 계산된다. 이는 ESPRIT와 같은 적합한 DOA 추정기를 사용하여 시간-주파수 영역으로 압력 신호를 변환한다.
[13] R. Roy, A. Paulraj, 및 T. ailath의 "Direction-of-arrival estimation by subspace rotation methods - ESPRIT", 1986년 4월 미국 캘리포니아 스탠포드, 음향, 스피치 및 신호 처리에 대한 IEEE 국제 회의(ICASSP).
또는 (root) MUSIC
[14] R. Schmidt의 "Multiple emitter location and signal parameter estimation", 1986년 IEEE 안테나 및 전파에 관한 트랜잭션(Transactions on Antennas and Propagation), vol.34, no.3, pp 276-280 참조.
도 4에서, 2개의 실제 공간 마이크로폰, 여기서 2개의 실제 공간 마이크로폰 어레이(410, 420)이 설명된다. 2개의 추정된 DOA a1(k,n) 및 a2(k,n)는 2개의 라인, DOA a1(k,n)을 나타내는 제 1 라인(430) 및 DOA a2(k,n)을 나타내는 제 2 라인(440)으로 표현된다. 이 삼각 측량은 각 어레이의 위치 및 지향을 아는 간단한 기하학적 고려사항을 통해 가능하다.
2개의 라인(430, 440)이 정확히 평행일 때에는 삼각 측량은 이루어지지 못한다. 그러나, 실제 적용함에 있어서 그럴 가능성은 매우 희박하다. 그러나, 고려되는 공간에서 모든 삼각 측량 결과가 사운드 이벤트에 대한 물리적 또는 가능한 위치에 대응하는 것은 아니다. 예를 들어, 사운드 이벤트의 추정된 위치는 너무 멀거나 심지어 가정되는 공간 외부일 수 있으며, 사용되는 모듈을 사용하여 물리적으로 해석될 수 있는 어떤 사운드 이벤트에도 DOA가 대응하지 않는다고 표시할 수 있다. 이러한 결과는, 센서 노이즈 또는 너무 강한 실내 잔향에 의해 야기될 수 있다. 그러므로, 일 실시예에 따르면, 이러한 원치 않는 결과는 정보 계산 모듈(202)이 이들을 올바르게 처리할 수 있도록 플래그된다.
도 5는 사운드 이벤트의 지점이 3D 공간에서 추정되는 시나리오를 도시하고 있다. 적합한 공간 마이크로폰, 가령, 평면 또는 3D 마이크로폰 어레이가 사용된다. 도 5에는, 제 1 공간 마이크로폰(510), 가령, 제1 3D 마이크로폰 어레이, 제 2 공간 마이크로폰(520), 가령, 제1 3D 마이크로폰 어레이가 도시되어 있다. 3D 공간의 DOA는, 가령, 방위각 및 고도로 표현될 수 있다. 단위 벡터(530, 540)를 사용하여 DOA를 나타낼 수 있다. 2개의 라인(550, 560)은 DOA에 따라 투영된다. 3D에서, 매우 신뢰할 수 있는 추정치일지라도, DOA에 따라 투영되는 2개의 라인(550, 560)은 교차하지 않을 수 있다. 그러나, 삼각 측량은, 가령, 2개의 라인을 잇는 최소 세그먼트의 중간 지점을 선택함으로써 여전히 수행될 수 있다.
2D 케이스와 유사하게, 삼각 측량은 방향의 소정 조합에 대해 이루어지지 못하거나 가능하지 않은 결과를 산출할 수 있는데, 이 역시 도 3의 정보 계산 모듈(202)에 플래그될 수 있다.
2개 이상의 마이크로폰이 존재하는 경우, 여러 해결책이 가능하다. 가령, 전술한 삼각 측량은 실제 공간 마이크로폰의 모든 쌍(N=3인 경우, 1과 2, 1과 3 및 2와 3)에 대해 수행될 수 있다. 그 후, (x 및 y, 3D인 경우에는 z를 따라) 최종 위치가 평균화될 수 있다.
이와 달리, 더 복잡한 개념이 사용될 수 있다. 가령, 확률론적 방안이 다음 문헌에 설명된 바와 같이 적용될 수 있다.
[15] J. Michael Steele의 "Optimal Triangulation of Random Samples in the Plane", The Annals of Probability, Vol.10, No.3 (1982년 8월), pp 548-553.
일 실시예에 따르면, 사운드 필드는, 가령, STFT(short-time Fourier transform)을 통해 얻어지는 시간-주파수 영역에서 분석될 수 있는데, 여기서 k 및 n은 각각 주파수 지수 k 및 시간 지수 n을 지칭한다. 소정 k 및 n에 대한 임의의 위치 pv에서의 복합 압력 Pv(k, n)은, 가령, 다음 식을 사용하여 협대역 등방성 점상 소스에 의해 발산되는 단일 구형파로서 모델링된다.
여기서, PIPLS(k,n)은 그 위치(pIPLS(k,n))에서 IPLS에 의해 발산되는 신호이다. 복합 인자 는, 가령, 적합한 위상 및 크기 수정을 도입하는 pIPLS(k,n)로부터 pv로의 전파를 표현한다. 여기서, 각 시간-주파수 빈에서 하나의 IPLS만이 액티브라고 가정할 수 있다. 그러나, 상이한 위치에 배치되는 다수의 협대역 IPLS가 동시에 액티브일 수도 있다.
각 IPLS는 직접 사운드를 모델링하거나 구분되는 실내 반사를 모델링한다. 이상적으로는, 그 위치(pIPLS(k,n))는 실내에 위치되는 실제 사운드 소스 또는 실외에 위치되는 미러 이미지 사운드 소스에 각각 대응될 수 있다. 그러므로, 위치(pIPLS(k,n))는 사운드 이벤트의 위치를 표시할 수도 있다.
"실제 사운드 소스"라는 용어는, 말하는 이 또는 악기와 같이, 레코딩 환경에서 물리적으로 존재하는 실제 사운드 소스를 지칭한다는 것을 유의하자. 이와 반대로, "사운드 소스", "사운드 이벤트" 또는 "IPLS"와 관련하여, 소정 시점 또는 소정 시간-주파수 빈에서 액티브인 유효 사운드 소스를 지칭하는데, 사운드 소스는, 가령, 실제 사운드 소스 또는 미러 이미지 소스를 나타낼 수 있다.
도 15a 및 15b는 사운드 소스의 위치를 파악하는 마이크로폰 어레이를 도시하고 있다. 위치가 파악된 사운드 소스는 그 성격에 따라 상이한 물리적 해석을 가질 수 있다. 마이크로폰 어레이가 직접 사운드를 수신하면, 진정한 사운드 소스(가령, 말하는 이)의 위치를 파악할 수 있다. 마이크로폰 어레이가 반사를 수신하면, 미러 이미지 소스의 위치를 파악할 수 있다. 미러 이미지 소스도 사운드 소스이다.
도 15a는, 2개의 마이크로폰 어레이(151, 152)가 실제 사운드 소스(153)(물리적으로 존재하는 사운드 소스)로부터 직접 사운드를 수신하는 시나리오를 도시하고 있다.
도 15b는 2개의 마이크로폰 어레이(161, 162)가 반사된 사운드를 수신하는 시나리오를 도시하고 있는데, 이 사운드는 벽에 의해 반사된다. 반사로 인해, 마이크로폰 어레이(161, 162)는 스피커(163)의 위치와는 상이한 미러 이미지 소스(165)의 위치에서 사운드가 온 것으로 보이는 위치를 파악한다.
도 15a의 실제 사운드 소스(153) 및 미러 이미지 소스(165) 모두가 사운드 소스이다.
도 15c는 2개의 마이크로폰 어레이(171, 172)가 확산된 사운드를 수신하지만 사운드 소스의 위치를 파악할 수 없는 시나리오를 도시하고 있다.
이 단일 파형 모델은 소스 신호가 WDO(W-disjoint orthogonality ) 상황, 즉, 시간-주파수 중첩이 충분히 작은 경우일 때, 약하게 반향하는 환경에서만 정확하다. 이는 보통 스피치 신호에 대해서만 참이며 다음 문헌을 참조하자.
[12] S. Rickard 및 Z. Yilmaz의 "On the approximate W-disjoint orthogonality of speech", 2002년 Acoustics, Speech and Signal Processing. ICASSP 2002. 2002년 4월 IEEE International Conference, vol.1
그러나, 이 모델은 다른 환경에 대해서도 우수한 추정을 제공하므로 이들 환경에 대해서도 적용 가능하다.
이하, 일 실시예에 따른 위치(pIPLS(k,n))의 추정을 설명한다. 소정 시간-주파수 빈의 액티브 IPLS의 위치(pIPLS(k,n)), 즉, 시간-주파수 빈의 사운드 이벤트의 추정치가 삼각 측량을 통해 추정되는데, 적어도 2개의 상이한 관측 지점에서 측정되는 사운드의 도달 방향(DOA)에 기초한다.
도 6은, 알려지지 않은 위치 pIPLS(k,n)에 현재 시간-주파수 슬롯(k,n)의 IPLS가 위치되는 기하구조를 도시하고 있다. 요구되는 DOA 정보를 결정하기 위해, 2개의 실제 공간 마이크로폰, 여기서는 2개의 마이크로폰 어레이는 알려진 기하구조, 위치 및 지향을 가지며, 각각 위치(610 및 620)에 배치된다. 벡터(p1 및 p2)는 각각 위치(610, 620)를 가리킨다. 어레이 지향은 단위 벡터(c1, c2)에 의해 정의된다. 사운드의 DOA는, 가령, DirAC 분석(참조 [2], [3])에 의해 제공되는 바와 같이, DOA 추정 알고리즘을 사용하여 각 (k,n)에 대해 위치(610, 620)에서 결정된다. 이로 인해, 마이크로폰 어레이의 관점에 대해 제 1 관점 단위 벡터 e1 POV(k,n) 및 제 2 관점 단위 벡터 e2 POV(k,n)(도 6에는 도시되지 않음)은 DirAC 분석의 출력으로서 제공될 수 있다. 가령, 2D 연산에서, 제 1 관점 단위 벡터는 다음을 얻는다.
여기서, φ1(k,n)는 제 1 마이크로폰 어레이에서 추정되는 DOA의 방위각을 나타내며, 이는 도 6에 도시되어 있다. 원점에서 전체 좌표계에 대해, 대응 DOA 단위 벡터 e1(k,n) 및 e2(k,n)은 다음 식을 적용하여 계산할 수 있다.
삼각 측량을 수행하기 위해, 방향 벡터 d1(k,n) 및 d2(k,n)는 다음과 같이 계산할 수 있다.
은 d1(k,n)에 대해 풀 수 있다. 최종적으로, IPLS의 위치 pIPLS(k,n)는 다음 식으로 주어진다.
다른 실시예에서, 식(6)은 d2(k,n)에 대해 풀 수 있고, pIPLS(k,n)는 유사하게 d2(k,n)을 사용하여 계산된다.
식(6)은 e1(k,n)과 e2(k,n)이 평행하지 않는 한 2D 연산에서 해(solution)를 항상 제공한다. 그러나, 2개 이상의 마이크로폰 어레이를 사용하거나 3D 연산인 경우, 방향 벡터 d가 교차하지 않으면 해를 구할 수 없다. 일 실시예에 따르면, 이 경우, 모든 방향 벡터 d에 가장 근접한 지점이 계산되고 그 결과가 IPLS의 위치로서 사용될 수 있다.
일 실시예에서, 모든 관측 지점(p1, p2,...)은 IPLS에 의해 방출되는 사운드가 동일한 시간 블록(n)에 떨어지도록 위치되어야 한다. 이 요구조건은 관측 지점의 어느 두 지점 사이의 거리(Δ)가 다음보다 작을 때 간단히 수행될 수 있다.
여기서, nFFT는 STFT 윈도우 길이이고, 0≤<R<1은 연속하는 시간 프레임 사이의 오버랩을 지정하며, fs는 샘플링 주파수이다. 가령, 가령, 50% 오버랩(R=0.5)을 갖는 48 kHz로 1024-포인트 STFT에 있어서, 전술한 요구조건을 수행하는 어레이들 사이의 최대 공간은 Δ=3.65m이다.
이하에서는, 일 실시예에 따른 정보 계산 모듈(202), 가령, 가상 마이크로폰 신호 및 사이드 정보 계산 모듈을 상세히 후술한다.
도 7은 일 실시예에 따른 정보 계산 모듈(202)의 개략적인 개요를 도시하고 있다. 정보 계산 유닛은 전파 보상기(500), 조합기(510) 및 스펙트럼 가중 유닛(520)을 포함한다. 정보 계산 모듈(202)은 사운드 이벤트 위치 추정기에 의해 추정되는 사운드 소스 위치 추정치(ssp)를 수신하고, 하나 이상의 오디오 입력 신호는 실제 공간 마이크로폰 중 하나 이상, 실제 공간 마이크로폰의 하나 이상의 위치(posRealMic), 및 가상 마이크로폰의 가상 위치(posVmic)에 의해 레코딩된다. 이는 가상 마이크로폰의 오디오 신호를 나타내는 오디오 출력 신호(os)를 출력한다.
도 8은 다른 실시예에 따른 정보 계산 모듈을 도시하고 있다. 도 8의 정보 계산 모듈은 전파 보상기(500), 조합기(510) 및 스펙트럼 가중 유닛(520)을 포함한다. 전파 보상기(500)는 전파 파라미터 계산 모듈(501) 및 전파 보상 모듈(504)을 포함한다. 조합기(510)는 조합 인자 계산 모듈(502) 및 조합 모듈(505)을 포함한다. 스펙트럼 가중 유닛(520)은 스펙트럼 가중치 계산 유닛(503), 스텍트럼 가중 적용 모듈(506) 및 공간 사이드 정보 계산 모듈(507)을 포함한다.
가상 마이크로폰의 오디오 신호를 계산하기 위해, 기하학적 정보, 가령, 실제 공간 마이크로폰(121 ... 12N)의 위치 및 지향, 가상 공간 마이크로폰(104)의 위치, 지향 및 특징, 및 사운드 이벤트(205)의 위치 추정치가 정보 계산 모듈(202)에 입력되는데, 특히 전파 보상기(500)의 전파 파라미터 계산 모듈(501), 조합기(510)의 조합 인자 계산 모듈(502) 및 공간 가중 유닛(520)의 스펙트럼 가중치 계산 유닛(503)으로 입력된다. 전파 파라미터 계산 모듈(501), 조합 인자 계산 모듈(502) 및 스펙트럼 가중치 조합 유닛(503)은 전파 보상 모듈(504), 조합 모듈(505) 및 스펙트럼 가중 적용 모듈(506)의 오디오 신호(111 ... 11N)의 수정에 사용되는 파라미터를 계산한다.
정보 계산 모듈(202)에서, 오디오 신호(111 ... 11N)은 사운드 이벤트 위치와 실제 공간 마이크로폰 사이의 상이한 전파 길이에 의해 주어지는 효과를 보상하도록 수정될 수 있다. 그 후, 신호가 조합되어, 가령, 신호 대 잡음 비(SNR)을 개선할 수 있다. 최종적으로, 임의의 거리 의존 이득 함수와 함께, 얻어진 신호는 가상 마이크로폰의 방향 픽업 패턴을 고려하여 스펙트럼적으로 가중될 수 있다. 이들 3개의 단계는 보다 상세히 후술할 것이다.
이제, 전파 보상을 상세히 설명한다. 도 9의 윗부분에는, 2개의 실제 공간 마이크로폰(제 1 마이크로폰 어레이(910) 및 제 2 마이크로폰 어레이(920)), 시간-주파수 빈(k,n)에 대한 위치 파악된 사운드 이벤트(930)의 위치 및 가상 공간 마이크로폰(940)의 위치가 도시되어 있다.
도 9의 아랫부분에는 시간축이 도시되어 있다. 사운드 이벤트는 시각(t0)에서 방출되며, 그 후 실제 공간 마이크로폰 및 가상 공간 마이크로폰으로 전파된다고 가정한다. 도달 시간 지연 및 진폭은 거리에 따라 변하여, 전파 거리가 길수록 진폭은 약해지고 도달 시간 지연은 길어진다.
2개의 실제 어레이에서의 신호는 이들 사이의 상대적 지연(Dt12)이 작은 경우에만 비교 가능하다. 그렇지 않으면, 2개의 신호 중 하나는 상대적 지연(Dt12)를 보상하기 위해, 그리고 가능하게는 상이한 감쇠를 보상하도록 스케일링되도록 시간적으로 재조정되어야 한다.
(실제 공간 마이크로폰 중 하나에서) 가상 마이크로폰에서의 도달과 실제 마이크로폰 어레이에서의 도달 사이의 지연의 보상은 사운드 이벤트의 위치 파악과는상관없이 지연을 변경하므로, 대부분의 애플리케이션에서는 불필요하다.
도 8을 다시 참조하면, 전파 파라미터 계산 모듈(501)은 각 실제 공간 마이크로폰 및 각 사운드 이벤트에 대해 지연이 교정되게 계산하도록 구성된다. 원하는 경우, 이는 상이한 진폭 감쇠를 보상하도록 이득 인자를 계산한다.
전파 보상 모듈(504)은 이 정보를 사용하여 오디오 신호를 이에 대응하게 수정하도록 구성된다. 신호가 (필터 뱅크의 타임 윈도우에 비해) 소량의 시간만큼 시프트되는 경우, 간단한 위상 회전만으로 충분하다. 지연이 클수록 더 정교한 구현이 필요하다.
전파 보상 모듈(504)의 출력은 본래 시간-주파수 영역으로 표현되는 수정된 오디오 신호이다.
이하에서, 일 실시예에 따른 가상 마이크로폰에 대한 전파 보상의 특정 추정을 도 6을 참조하여 설명하는데, 이는 특히 제 1 실제 공간 마이크로폰의 위치(610) 및 제 2 실제 공간 마이크로폰의 위치(620)를 도시하고 있다.
이제 설명할 실시예에서, 적어도 하나의 제 1 레코딩된 오디오 입력 신호, 가령, 실제 공간 마이크로폰 중 적어도 하나(가령, 마이크로폰 어레이)의 압력 신호가, 가령, 제 1 실제 공간 마이크로폰의 압력 신호로 이용 가능하다고 가정한다. 고려되는 마이크로폰을 기준 마이크로폰으로, 그 위치를 기준 위치(pref)로, 그 압력 신호를 기준 압력 신호(Pref(k,n))이라고 지칭할 것이다. 그러나, 전파 보상은 단 하나의 압력 신호에 대해 수행될 뿐만 아니라 복수의 실제 공간 마이크로폰 또는 실제 공간 마이크로폰 전부의 압력 신호에 대해 수행될 수 있다.
IPLS에 의해 방출되는 압력 신호(PIPLS(k,n))와 Pref에 위치되는 기준 마이크로폰의 기준 압력 신호(Pref(k,n)) 사이의 관계는 식(9)에 의해 표현될 수 있다.
일반적으로, 복합 인자 는 pa 내지 pb에서 그 원점으로부터 구형파의 전파에 의해 유도되는 위상 회전 및 진폭 감쇠를 표현한다. 그러나, 실제 테스트에서는 의 진폭 감쇠만을 고려하는 것은 위상 회전도 고려하는 것에 비해 현저히 적은 수의 아티팩트를 갖는 가상 마이크로폰의 그럴듯한 인상(plausible impressions)을 유도한다고 표시하였다.
공간의 소정 지점에서 측정될 수 있는 사운드 에너지는 사운드 소스, 도 6에서 사운드 소스의 위치(pIPLS)로부터의 거리(r)에 강하게 의존한다. 많은 상황에서, 이 의존성은, 잘 알려진 물리적 이론, 가령, 지점 소스의 먼 필드에서의 사운드 압력의 1/r 감쇠를 사용하여 충분한 정확도로 모델링될 수 있다. 사운드 소스로부터 기준 마이크로폰, 가령, 제 1 실제 마이크로폰의 거리가 알려진 경우, 또한 사운드 소스로부터 가상 마이크로폰의 거리가 알려진 경우, 가상 마이크로폰의 위치에서의 사운드 에너지는 기준 마이크로폰, 가령, 제 1 실제 공간 마이크로폰의 신호 및 에너지로부터 추정될 수 있다. 이는, 가상 마이크로폰의 출력 신호가 기준 압력 신호에 적합한 이득을 적용함으로써 얻어질 수 있다는 것을 의미한다.
제 1 실제 공간 마이크로폰을 기준 마이크로폰으로 가정하면, pref = p1이다. 도 6에서, 가상 마이크로폰은 pv에 위치된다. 도 6에 기하구조가 상세히 알려져 있으므로, 기준 마이크로폰(도 6에서는 제 1 실제 공간 마이크로폰)과 IPLS 사이의 거리 가 쉽게 결정될 수 있으며 가상 마이크로폰과 IPLS 사이의 거리 도 쉽게 결정될 수 있다.
가상 마이크로폰의 위치에서 사운드 압력 Pv(k,n)은 식 (1)과 (9)를 조합하여 계산되어, 다음을 얻는다.
식(1)의 모델이 유지되는 경우, 가령, 직접 사운드만이 존재하는 경우, 식(12)는 크기(magnitude) 정보를 정확하게 재구성할 수 있다. 그러나, 순수 확산 사운드 필드의 경우, 가령, 모델 가정이 충족되지 않는 경우,제공된 방법은 가상 마이크로폰이 센서 어레이의 위치로부터 멀리 이동할 때 신호의 암시적 탈반향(dereverberation)을 얻는다. 실제로, 전술한 바와 같이, 확산 사운드 필드에서, 2개의 센서 어레이 부근에 대부분의 IPLS가 위치되는 것으로 예상한다. 따라서, 가상 마이크로폰이 이들 위치로부터 멀어지면, 도 6에서 거리 를 증가시킬 것이다. 그러므로, 기준 압력의 크기는 식(11)에 따른 가중을 적용할 때 감소된다. 이에 상응하게, 가상 마이크로폰이 실제 사운드 소스에 가까이 이동하면, 직접 사운드에 대응하는 시간-주파수 빈은 전체 오디오 신호가 덜 확산되는 것으로 감지되게 증폭될 것이다. 식(12)의 규칙을 조절함으로써, 직접 사운드 증폭 및 확산 사운드 억제를 뜻대로 제어할 수 있다.
제 1 실제 공간 마이크로폰의 레코딩된 오디오 입력 신호(가령, 압력 신호)에 대해 전파 보상을 수행함으로써, 제 1 수정된 오디오 신호가 얻어진다.
실시예에서, 제 2 수정된 오디오 신호는 제 2 실제 공간 마이크로폰의 레코딩된 제 2 오디오 입력 신호(제 2 압력 신호)에 대한 전파 보상을 수행함으로써 얻어질 수 있다.
다른 실시예에서, 추가 실제 공간 마이크로폰의 레코딩된 추가 오디오 입력 신호(추가 압력 신호)에 대한 전파 보상을 수행함으로써 추가 오디오 신호가 얻어질 수 있다.
이제, 일 실시예에 따른 도 8의 블록(502 및 505)에서의 조합을 상세히 설명한다. 복수의 상이한 실제 공간 마이크로폰으로부터 2개 이상의 오디오 신호가 상이한 전파 경로를 보상하도록 수정되어 2개 이상의 수정된 오디오 신호를 얻는다고 가정한다. 일단 상이한 실제 공간 마이크로폰으로부터의 오디오 신호가 상이한 전파 경로를 보상하기 위해 수정되면, 이는 오디오 품질을 향상시키도록 조합될 수 있다. 이렇게 함으로써, 가령, SNR이 증가되거나 반향이 감소될 수 있다.
조합을 위한 가능한 해결책은 다음을 포함한다.
- 가령, SNR를 고려한 가중된 평균, 가상 마이크로폰까지의 거리, 또는 실제 공간 마이크로폰에 의해 추정된 확산. 통상적인 해결책, 가령, MRC(Maximum Ratio Combining) 또는 EQC(Equal Gain Combining)가 사용될 수 있다.
- 조합 신호를 얻기 위해 수정된 오디오 신호의 일부 또는 전부의 선형 조합. 수정된 오디오 신호는 조합 신호를 얻기 위해 선형 조합에서 가중될 수 있다.
- 가령, SNR 또는 거리 또는 확산에 의존하여, 선택, 가령, 단 하나의 신호가 사용된다.
모듈(502)의 태스크는, 적용 가능한 경우, 조합을 위한 파라미터를 계산하고, 이는 모듈(50)에서 수행된다.
이제, 실시예에 따른 스펙트럼 가중을 보다 상세히 설명한다. 이를 위해, 도 8의 블록(503 및 506)을 참조한다. 이 최종 단계에서, 조합 또는 입력 오디오 신호의 전파 보상으로부터 얻어진 오디오 신호는입력(104)에 의해 지정되는 대로 및/또는 (205에서 주어진) 재구성된 기하구조에 따라 가상 공간 마이크로폰의 공간 특성에 따라 시간-주파수 영역에서 가중된다.
각 시간-주파수 빈에 대해, 도 10에 도시된 바와 같이, 기하학적 구성은 가상 마이크로폰에 대한 DOA를 쉽게 획득할 수 있게 한다. 또한, 가상 마이크로폰과 사운드 이벤트의 위치 사이의 거리도 쉽게 계산될 수 있다.
그 후, 시간-주파수 빈에 대한 가중치는 원하는 가상 마이크로폰의 유형을 고려하여 계산된다.
방향성 마이크로폰의 경우, 스펙트럼 가중치는 사전 정의된 픽업 패턴에 따라 계산될 수 있다. 예를 들어, 실시예에 따르면, 카디오이드 마이크로폰은 함수 g(theta)에 의해 정의되는 픽업 패턴을 가질 수 있다.
g(theta) = 0.5 + 0.5 cos(theta),
여기서, theta는 가상 공간 마이크로폰의 보는 방향과 가상 마이크로폰의 시점으로부터의 사운드의 DOA 사이의 각이다.
다른 가능성으로는 예술적(비물리적) 감쇠 함수이다. 소정 애플리케이션에서,자유 필드 전파를 특징짓는 것보다 큰 인수로 가상 마이크로폰으로부터 먼 사운드 이벤트를 억제하는 것이 바람직할 수 있다. 이를 위해, 일부 실시예는 가상 마이크로폰과 사운드 이벤트 사이의 거리에 의존하는 추가 가중 함수를 도입한다. 일 실시예에서, 가상 마이크로폰으로부터 소정 거리 (가령, 수 미터) 내의 사운드 이벤트만이 픽업되어야 한다.
가상 마이크로폰 방향성에 대해, 임의의 방향성 패턴이 가상 마이크로폰에 대해 적용될 수 있다. 이렇게 함에 있어, 가령, 복합 사운드 신으로부터 소스를 분리할 수 있다.
사운드의 DOA가 가상 마이크로폰의 위치(pv)에서 계산될 수 있으므로, 즉,
여기서 cv는 가상 마이크로폰의 지향을 기술하는 단위 벡터이며, 가상 마이크로폰에 대한 임의의 방향성이 실현될 수 있다. 가령, Pv(k,n)이 조합 신호 또는 전파가 보상되고 수정된 오디오 신호를 표시한다고 가정하면, 다음 식은
카디오이드 방향성을 갖는 가상 마이크로폰의 출력을 계산한다. 이 방식으로 잠재적으로 생성될 수 있는 방향 패턴은 위치 추정의 정확도에 의존한다.
실시예에서, 하나 이상의 실제의 비공간 마이크로폰, 가령, 카디오이드와 같은 전방향성 마이크로폰 또는 방향성 마이크로폰이 실제 공간 마이크로폰에 추가하여 사운드 신에 배치되어, 도 8의 가상 마이크로폰 신호(105)의 사운드 품질을 더 개선시킨다. 이들 마이크로폰은 임의의 기하학적 정보를 수집하는 데에 사용되지 않고 대신 보다 선명한 오디오 신호를 제공하는 데에만 사용된다. 이들 마이크로폰은 공간 마이크로폰보다 사운드 소스에 근접하게 배치될 수 있다. 이 경우, 일 실시예에 따르면, 실제의 비공간적 마이크로폰의 오디오 신호 및 그 위치는, 실제 공간 마이크로폰의 오디오 신호 대신, 프로세싱을 위해 도 8의 전파 보상 모듈(504)에 간단히 입력된다. 전파 보상은, 하나 이상의 비공간적 마이크로폰의 위치에 대해, 비공간적 마이크로폰의 하나 이상의 레코딩된 오디오 신호에 대해 수행된다. 이에 의해, 일 실시예는 추가적인 비공간적 마이크로폰을 사용하여 실현된다.
다른 실시예에서, 가상 마이크로폰의 공간 사이드 정보의 계산이 실현된다. 마이크로폰의 공간 사이드 정보(106)를 계산하기 위해, 도 8의 정보 계산 모듈(202)은 공간 사이드 정보 계산 모듈(507)을 포함하는데, 이는, 사운드 소스의 위치(205)와, 가상 마이크로폰의 위치, 지향 및 특성(104)을 입력으로서 수신하도록 구성된다. 소정 실시예에서, 계산될 필요가 있는 사이드 정보(106)에 따라, 가상 마이크로폰(105)의 오디오 신호도 공간 사이드 정보 계산 모듈(507)에 대한 입력으로서 고려될 수 있다.
공간 사이드 정보 계산 모듈(507)의 출력은 가상 마이크로폰(106)의 사이드 정보이다. 예를 들어, 이 사이드 정보는 가상 마이크로폰의 시점으로부터 각 시간-주파수 빈(k,n)에 대한 사운드의 DOA 또는 확산일 수 있다. 다른 가능한 사이드 정보는, 가령, 가상 마이크로폰의 위치에서 측정된 액티브 사운드 강도 벡터 Ia(k,n)일 수 있다. 이들 파라메터를 어떻게 도출할 수 있는지를 설명할 것이다.
일 실시예에 따르면, 가상 공간 마이크로폰을 위한 DOA 추정이 실현된다. 정보 계산 모듈(120)은, 가상 마이크로폰의 위치 벡터 및 도 11에 도시된 바와 같은 사운드 이벤트의 위치 벡터에 기초하여, 공간 사이드 정보로서 가상 마이크로폰에서의 도달 방향을 추정하도록 구성된다.
도 11은 가상 마이크로폰의 시점으로부터 사운드의 도달 방향을 유도하는 가능한 방식을 도시하고 있다. 도 8의 블록(205)에 의해 제공되는 사운드 이벤트의 위치는 위치 벡터 r(k,n), 사운드 이벤트의 위치 벡터로 각 시간-주파수 빈(k,n)에 대해 설명될 수 있다. 유사하게, 도 8의 입력(104)으로 제공되는 가상 마이크로폰의 위치는 위치 벡터 s(k,n), 가상 마이크로폰의 위치 벡터로 설명될 수 있다. 가상 마이크로폰의 보는 방향은 벡터 v(k,n)에 의해 설명될 수 있다. 가상 마이크로폰에 대한 DOA는 a(k,n)으로 주어진다. 이는 v와 사운드 전파 경로 h(k,n) 사이의 각을 나타낸다. h(k,n)은 다음 식을 사용하여 계산될 수 있다.
이제 원하는 DOA a(k,n)는, 각 (k,n)에 대해 가령, h(k,n)와 v(k,n)의 내적의 정의를 통해 계산될 수 있다. 즉,
다른 실시예에서, 정보 계산 모듈(120)은, 가상 마이크로폰의 위치 벡터 및 도 11에 도시된 바와 같은 사운드 이벤트의 위치 벡터에 기초하여, 공간 사이드 정보로서 가상 마이크로폰에서의 액티브 사운드 강도를 추정하도록 구성될 수 있다.
위에서 정의된 DOA a(k,n)으로부터, 가상 마이크로폰의 위치에서 액티브 사운드 강도 Ia(k,n)를 유출할 수 있다. 이를 위해, 도 8의 가상 마이크로폰 오디오 신호(105)가 전방향성 마이크로폰의 출력에 대응한다고 가정하며, 가령, 가상 마이크로폰은 전방향성 마이크로폰으로 가정한다. 또한, 도 11의 보는 방향 v는 좌표계의 x축에 평행한 것으로 가정한다. 원하는 액티브 사운드 강도 벡터 Ia(k,n)는 가상 마이크로폰의 위치를 통해 순(net) 에너지 흐름을 기술하므로, 다음 식에 따라 Ia(k,n)를 계산할 수 있다.
여기서 [ ]T는 전치 벡터(transposed vector)를 나타내고, rho는 공기 밀도이며, Pv(k,n)는 가상 공간 마이크로폰, 가령, 도 8의 블록(506)의 출력에 의해 측정되는 사운드 압력이다.
액티브 강도 벡터가 전반적인 좌표계에서 계산되고 표현되지만 여전히 가상 마이크로폰의 위치인 경우, 다음의 식이 적용될 수 있다.
사운드의 확산은 주어진 시간-주파수 슬롯에서 사운드 필드를 어떻게 확산시키는지를 나타낸다(가령, [2] 참조). 확산은 값 ψ에 의해 표현되는데, 여기서 0 ≤ψ≤1이다. 1의 확산은 사운드 필드의 총 사운드 필드 에너지가 완전히 확산한다는 것을 의미한다. 이 정보는, 가령, 공간 사운드의 재생에서 중요하다. 통상적으로, 확산은 마이크로폰 어레이가 배치되는 공간의 특정 지점에서 계산된다.
일 실시예에 따르면, 확산은 가상 마이크로폰(VM)을 위해 생성되는 사이드 정보에 대한 추가 파라미터로서 계산될 수 있는데, 이는 사운드 신의 임의의 위치에서 뜻대로 배치될 것이다. 이에 의해, 가상 마이크로폰의 가상 위치에서의 오디오 신호 외에도 확산을 계산하는 장치는 가상 DirAC 프론트-엔드로서 보여질 수 있는데, 이는 사운드 신의 임의의 지점에 대한 DirAC 스트림, 즉, 오디오 신호, 도달 방향 및 확산을 생성할 수 있기 때문이다. DirAC 스트림은 임의의 멀티-라우드스피커 셋업에서 추가 프로세싱, 저장, 전송 및 재생될 수 있다. 이 경우, 듣는 이는 자신이 가상 마이크로폰에 의해 특정되는 위치에서 그 지향에 의해 결정되는 방향을 보는 것처럼 사운드 신을 체험하게 된다.
도 12는 가상 마이크로폰에서 확산을 계산하기 위한 확산 계산 유닛(801)을 포함하는 일 실시예에 따른 정보 계산 블록을 도시하고 있다. 정보 계산 블록(202)은 입력 111 내지 11N을 수신하도록 구성되는데, 이는 도 3의 입력에 추가하여 실제 공간 마이크로폰에서의 확산을 포함한다. ψ( SM1 ) 및 ψ( SMN ) 을 이들 값을 나타내게 하자. 이들 추가 입력은 정보 계산 모듈(202)에 입력된다. 확산 계산 유닛(801)의 출력(103)은 가상 마이크로폰의 위치에서 계산되는 확산 파라미터이다.
일 실시예의 확산 계산 유닛(801)은 도 13에 보다 상세히 도시되어 있다. 일 실시예에 따르면, N개의 공간 마이크로폰 각각에서의 직접 사운드 및 확산 사운드의 에너지가 추정된다. IPLS의 위치에 관한 정보 및 공간 및 가상 마이크로폰의 위치에 관한 정보를 사용하여, 가상 마이크로폰의 위치에서의 이들 에너지의 N개의 추정치가 획득된다. 최종적으로, 추정치는 추정 정확도를 개선하도록 조합될 수 있고, 가상 마이크로폰에서의 확산 파라미터가 쉽게 계산될 수 있다.
내지 및 내지 은, 에너지 분석 유닛(810)에 의해 계산되는 N개의 공간 마이크로폰에 대한 직접 사운드 및 확산 사운드의 에너지의 추정치를 나타낸다. Pi가 복합 압력 신호이고 ψi가 i번째 공간 마이크로폰에 대한 확산인 경우,예를 들어, 에너지는 다음 식에 따라 계산될 수 있다.
확산 사운드의 에너지는 모든 위치에서 같아야 하므로, 가상 마이크로폰에서의 확산 사운드 에너지 의 추정은, 가령, 다음 식에 따라 확산 조합 유닛(820)에서 간단히 내지 의 평균을 구하여 계산될 수 있다.
직접 사운드의 에너지는 전파로 인해 소스까지의 거리에 의존한다. 그러므로, 내지 이 이를 고려하여 수정될 수 있다. 이는, 가령, 직접 사운드 전파 조절 유닛(830)에 의해 수행될 수 있다. 예를 들어, 직접 사운드 필드의 에너지가 거리 제곱에 1씩 감쇠한다고 가정하면, i번째 공간 마이크로폰에 대한 가상 마이크로폰에서의 직접 사운드에 대한 추정치는 다음 식에 따라 계산될 수 있다.
확산 조합 유닛(820)과 유사하게, 상이한 공간 마이크로폰에서 얻어진 직접 사운드 에너지의 추정치는, 가령, 직접 사운드 조합 유닛(840)에 의해 조합될 수 있다. 이 결과 는, 가령, 가상 마이크로폰에서의 직접 사운드 에너지에 대한 추정치이다. 가상 마이크로폰에서의 확산 은, 가령, 다음 식에 따라 확산 서브-계산기(850)에 의해 계산될 수 있다.
전술한 바와 같이, 경우에 따라,사운드 이벤트 위치 추정기에 의해 수행되는 사운드 이벤트 위치 추정은, 가령, 잘못된 도달 방향 추정의 경우에 실패한다. 도 14는 이러한 시나리오를 도시하고 있다. 이들 경우에서,상이한 공간 마이크로폰에서 추정된 확산 파라미터와 무관하게 입력(111 내지 11N)으로 수신되는 대로, 가상 마이크로폰(103)에 대한 확산은 1(즉, 완전한 확산)로 설정될 수 있고, 공간적으로 코히어런트한 재생은 가능하지 않다.
또한, N개의 공간 마이크로폰에서의 DOA 추정치의 신뢰도가 고려될 수 있다. 이는, 가령, DOA 추정기 또는SNR의 변동과 관련하여 표현될 수 있다. 이러한 정보는 확산 서브-계산기(850)에 의해 고려될 수 있어서, VM 확산(103)은 DOA 추정치가 신뢰 가능하지 않는 경우에 인위적으로 증가될 수 있다. 실제로, 결과로서, 위치 추정(205)도 신뢰 가능하지 않을 것이다.
장치와 관련하여 일부 양태를 설명하였으나, 이들 양태는 대응하는 방법의 설명을 대표할 수도 있다는 것은 자명하며, 블록 또는 디바이스는 방법 단계 또는 방법 단계의 특징에 대응한다. 유사하게, 방법 단계와 관련하여 설명되는 양태는 또한 대응하는 블록 또는 아이템 또는 장치의 특징을 나타낸다.
본 발명의 분해된 신호는디지털 저장 매체에 저장될 수 있거나무선 전송 매체 또는 인터넷과 같은 유선 전송 매체 등의 전송 매체상에서 전송될 수 있다.
소정 구현 요구조건에 따라서, 본 발명의 실시예는 하드웨어 또는 소프트웨어로 구현될 수 있다. 구현은 디지털 저장 매체, 가령, 플로피 디스크, DVD, CD, ROM, PROM, EPROM, EEPROM 또는 FLASH 메모리를 사용하여 수행될 수 있으며, 전자적으로 판독 가능한 제어 신호를 저장하고 각 방법이 수행되도록 프로그래밍 가능한 컴퓨터 시스템과 함께 동작한다(또는 동작 가능하다).
본 발명에 따른 일부 실시예는 전자적으로 판독 가능한 제어 신호를 갖는 비일시적인 데이터 캐리어를 포함하는데, 프로그래밍 가능한 컴퓨터 시스템과 함께 동작할 수 있어서, 본 명세서에서 설명되는 방법 중 하나가 수행된다.
일반적으로, 본 발명의 실시예는 프로그램 코드를 갖는 컴퓨터 프로그램 제품으로서 구현될 수 있으며, 프로그래밍 코드는 컴퓨터 프로그램 제품이 컴퓨터 상에서 실행되면 방법 중 하나를 수행하도록 동작가능하다. 프로그램 코드는, 가령, 머신 판독 가능한 캐리어에 저장될 수 있다.
다른 실시예는 본 명세서에서 설명되는 방법 중 하나를 수행하고 머신 판독 가능한 캐리어에 저장되는 컴퓨터 프로그램을 포함한다.
다시 말해, 본 발명의 방법의 일 실시예는 컴퓨터 프로그램이 컴퓨터상에서 실행되면 본 명세서에서 설명되는 방법 중 하나를 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.
그러므로, 본 발명의 다른 실시예는 본 명세서에서 설명되는 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 저장하여 포함하는 데이터 캐리어(또는 디지털 저장 매체 또는 컴퓨터 판독 가능한 매체)이다.
그러므로, 본 발명의 방법의 다른 실시예는 본 명세서에서 설명되는 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 나타내는 데이터 스트림 또는 신호 시퀀스이다. 데이터 스트림 또는 신호 시퀀스는, 가령, 데이터 통신 접속, 가령, 인터넷을 통해 전송되도록 구성될 수 있다.
다른 실시예는 본 명세서에서 설명되는 방법 중 하나를 수행하기 위해 구성되거나 적응되는 프로세싱 수단, 가령, 컴퓨터, 또는 프로그래밍 가능한 로직 디바이스를 포함한다.
다른 실시예는 본 명세서에서 설명되는 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 갖는 컴퓨터를 포함한다.
일부 실시예에서, 프로그래밍 가능한 로직 디바이스(가령, FPGA(field programmable gate array))는 본 명세서에서 설명되는 방법의 기능 중 일부 또는 전부를 수행하도록 사용될 수 있다. 일부 실시예에서, FPGA는 본 명세서에서 설명되는 방법 중 하나를 수행하기 위해 마이크로프로세서와 함께 동작할 수 있다. 일반적으로, 이 방법은 임의의 하드웨어 장치에 의해 수행되는 것이 바람직하다.
전술한 실시예는 단지 본 발명의 원리를 예시하기 위한 것이다. 본 명세서에서 설명되는 배치 및 세부사항의 수정 및 변형은 다른 당업자에게 명백하다는 것을 이해해야 한다. 그러므로, 등록될 특허 청구항의 범위에 의해서만 제한되도록 의도되며, 본 명세서의 실시예의 설명에 의해 제공되는 특정 세부사항에 의해서는 제한되지 않는다.
문헌:
[1] R. K. Furness의 1990년 4월, 제 8차 AES 국제회의, "Ambisonics - An overview", pp 181-189.
[2] V. Pulkki의 "Directional audio coding in spatial sound reproduction and stereo upmixing", pp 251-258, 스웨덴, 피테오, 제 28 차 AES 국제회의 2006년 6월 30일 - 7월 2일.
[3] V. Pulkki의 "Spatial sound reproduction with directional audio coding", 2007년 6월, J. Audio Eng. Soc, vol.55, no.6, pp 503-516.
[4] C. Fallen의 "Microphone Front-Ends for Spatial Audio Coders", 2008년 10월, 샌프란시스코, 제 125차 AES 국제 회의 중.
[5] M. Kallinger, H. Ochsenfeld, G. Del Galdo, F. Kuch, D. Mahne, R. Schultz-Amling. 및 O. Thiergart의 "A spatial filtering approach for directional audio coding," 2009년 5월 독일 뮌헨, 오디오 엔지니어링 소사이어티 컨벤션 126.
[6] R. Schultz-Amling, F. Kuch, O. Thiergart, 및 M. Kallinger의 "Acoustical zooming based on a parametric sound field representation", 2010년 5월, 영국 런던, 오디오 엔지니어링 소사이어티 컨벤션 128.
[7] J. Herre, C. Falch, D. Mahne, G. Del Galdo, M. Kallinger 및 O. Thiergart, "Interactive teleconferencing combining spatial audio object coding and DirAC technology", 2010년 5월 영국 런던, 오디오 엔지니어링 소사이어티 컨벤션 128.
[8] E. G. Williams의 "Fourier Acoustics: Sound Radiation and Nearfield Acoustical Holography", 1999년 Academic Press.
[9] A. Kuntz and R. Rabenstein의 "Limitations in the extrapolation of wave fields from circular measurements", 2007년 제15차 유럽 신호 프로세싱 회의((EUSIPCO 2007).
[10]A. Walther 및 C. Faller의 "Linear simulation of spaced microphone arrays using b-format recordings", 2010년 5월 영국 런던, 오디오 엔지니어링 소사이어티 컨벤션 128.
[11] US61/287,596: An Apparatus and a Method for Converting a First Parametric Spatial Audio Signal into a Second Parametric Spatial Audio Signal
[12] S. Rickard 및 Z. Yilmaz의 "On the approximate W-disjoint orthogonality of speech", 2002년 Acoustics, Speech and Signal Processing. ICASSP 2002. 2002년 4월 IEEE International Conference, vol.1
[13] R. Roy, A. Paulraj, 및 T. Kailath의 "Direction-of-arrival estimation by subspace rotation methods - ESPRIT", 1986년 4월 미국 캘리포니아 스탠포드, 음향, 스피치 및 신호 처리에 대한 IEEE 국제 회의(ICASSP).
[14] R. Schmidt의 "Multiple emitter location and signal parameter estimation", 1986년 IEEE 안테나 및 전파에 관한 트랜잭션(Transactions on Antennas and Propagation), vol.34, no.3, pp 276-280.
[15] J. Michael Steele의 "Optimal Triangulation of Random Samples in the Plane", The Annals of Probability, Vol.10, No.3 (1982년 8월), pp 548-553.
[16] F.J.Fahy의 Sound Intensity, Essex: Elsevier Science Publishers Ltd., 1989년.
[17] R. Schultz-Amling, F. Kuch, M. Kallinger, G. Del Galdo, T. Ahonen 및 V. Pulkki의 "Planar microphone array processing for the analysis and reproduction of spatial audio using directional audio coding", 2008년 5월 네덜란드 암스테르담, 오디오 엔지니어링 소사이어티 컨벤션 124.
[18] M. Kallinger, F. Kuch, R. Schultz-Amling, G. Del Galdo, T. Ahonen 및 V. Pulkki의 "Enhanced direction estimation using microphone arrays for directional audio coding", 2008년 5월, Hands-Free Speech Communication and Microphone Arrays, 2008(HSCMA 2008), pp 45-48.
Claims (25)
- 환경에서 구성 가능한 가상 위치에서 가상 마이크로폰의 레코딩을 시뮬레이팅하기 위해 오디오 출력 신호를 생성하는 장치로서,
상기 환경에서 사운드 소스의 위치를 표시하는 사운드 소스 위치를 추정하는 사운드 이벤트 위치 추정기(110) - 상기 사운드 이벤트 위치 추정기(110)는, 상기 환경의 제 1 실제 마이크로폰 위치에 위치되는 제 1 실제 공간 마이크로폰에 의해 제공되는 제 1 방향 정보 및 상기 환경의 제 2 실제 마이크로폰 위치에 위치되는 제 2 실제 공간 마이크로폰에 의해 제공되는 제 2 방향 정보에 기초하여 상기 사운드 소스 위치를 추정하도록 구성됨 - 와,
제 1 레코딩된 오디오 입력 신호, 상기 제 1 실제 마이크로폰 위치, 상기 가상 마이크로폰의 상기 가상 위치 및 상기 사운드 소스 위치에 기초하여 상기 오디오 출력 신호를 생성하는 정보 계산 모듈(120)을 포함하는
장치.
- 제 1 항에 있어서,
상기 정보 계산 모듈(120)은 전파 보상기(500)를 포함하되,
상기 전파 보상기(500)는, 상기 오디오 출력 신호를 획득하기 위해, 상기 사운드 소스와 상기 제 1 실제 공간 마이크로폰 사이의 제 1 진폭 감쇠 및 상기 사운드 소스와 상기 가상 마이크로폰 사이의 제 2 진폭 감쇠에 기초하여, 상기 제 1 레코딩된 오디오 입력 신호의 진폭 값, 크기 값 또는 위상 값을 조절함으로써, 상기 제 1 레코딩된 오디오 입력 신호를 수정하여 제 1 수정된 오디오 신호를 생성하도록 구성되는
장치.
- 제 1 항에 있어서,
상기 정보 계산 모듈(120)은 전파 보상기(500)를 포함하되,
상기 전파 보상기(500)는, 상기 오디오 출력 신호를 획득하기 위해, 상기 제 1 레코딩된 오디오 입력 신호의 진폭 값, 크기 값 또는 위상 값을 조절함으로써 상기 제 1 실제 공간 마이크로폰에서 상기 사운드 소스에 의해 방출되는 사운드 파형의 도달과 상기 가상 마이크로폰에서 상기 사운드 파형의 도달 사이의 제 1 지연을 보상하여 상기 제 1 레코딩된 오디오 입력 신호를 수정함으로써 제 1 수정된 오디오 신호를 생성하도록 구성되는
장치.
- 제 2 항 또는 제 3항에 있어서,
상기 제 1 실제 공간 마이크로폰은 상기 제 1 레코딩된 오디오 입력 신호를 레코딩하도록 구성되는
장치.
- 제 2 항 또는 제 3항에 있어서,
제 3 마이크로폰은 상기 제 1 레코딩된 오디오 입력 신호를 레코딩하도록 구성되는
장치.
- 제 2 항 내지 제 5 항 중 어느 한 항에 있어서,
상기 사운드 이벤트 위치 추정기(110)는 상기 제 1 방향 정보로서 상기 제 1 실제 마이크로폰 위치에서의 상기 사운드 소스에 의해 방출되는 상기 사운드 파형의 도달의 제 1 방향 및 상기 제 2 방향 정보로서 상기 제 2 실제 마이크로폰 위치에서의 상기 사운드 파형의 도달의 제 2 방향에 기초하여 상기 사운드 소스 위치를 추정하도록 구성되는
장치.
- 제 2 항 내지 제 6 항 중 어느 한 항에 있어서,
상기 정보 계산 모듈(120)은 공간 사이드 정보를 계산하기 위해 공간 사이드 정보 계산 모듈(507)을 포함하는
장치.
- 제 7 항에 있어서,
상기 정보 계산 모듈(120)은, 상기 가상 마이크로폰의 위치 벡터 및 상기 사운드 이벤트의 위치 벡터에 기초하여, 공간 사이드 정보로서 상기 가상 마이크로폰에서의 도달 방향 또는 액티브 사운드 강도를 추정하도록 구성되는
장치.
- 제 2 항에 있어서,
상기 전파 보상기(500)는, 상기 사운드 소스와 상기 제 1 실제 공간 마이크로폰 사이의 제 1 진폭 감쇠 및 상기 사운드 소스와 상기 가상 마이크로폰 사이의 상기 제 2 진폭 감쇠에 기초하여, 시간-주파수 영역에서 표현되는 상기 제 1 레코딩된 오디오 입력 신호의 상기 크기 값을 조절함으로써, 시간-주파수 영역에서 상기 제 1 수정된 오디오 신호를 생성하도록 구성되는
장치.
- 제 3 항에 있어서,
상기 전파 보상기(500)는, 시간-주파수 영역에서 표현되는 상기 제 1 레코딩된 오디오 입력 신호의 상기 크기 값을 조절함으로써, 상기 제 1 실제 공간 마이크로폰에서의 상기 사운드 소스에 의해 방출되는 상기 사운드 파형의 도달과 상기 가상 마이크로폰에서 상기 사운드 파형의 상기 도달 사이의 상기 제 1 지연을 보상하여, 시간-주파수 영역에서 상기 제 1 수정된 오디오 신호를 생성하도록 구성되는
장치.
- 제 2 항 내지 제 10 항 중 어느 한 항에 있어서,
상기 전파 보상기(500)는 식
을 적용하여 상기 제 1 수정된 오디오 신호의 수정된 크기 값을 생성함으로써 전파 보상을 수행하도록 구성되되,
d1(k,n)은 상기 제 1 실제 공간 마이크로폰의 위치와 상기 사운드 이벤트의 위치 사이의 거리이고, s(k,n)는 상기 가상 마이크로폰의 가상 위치와 상기 사운드 이벤트의 사운드 소스 사이의 거리이며, Pref(k,n)은 시간-주파수 영역에서 나타내는 상기 제 1 레코딩된 오디오 입력 신호의 크기 값이며, Pv(k,n)는 상기 가상 마이크로폰의 신호에 대응하는 상기 수정된 크기 값인
장치.
- 제 2 항 내지 제 11 항 중 어느 한 항에 있어서,
상기 정보 계산 모듈(120)은 조합기(510)를 더 포함하고,
상기 전파 보상기(500)는 또한, 상기 제 2 레코딩된 오디오 입력 신호의 진폭 값, 크기 값 또는 위상 값을 조절함으로써, 상기 제 2 실제 공간 마이크로폰에서 상기 사운드 소스에 의해 방출되는 사운드 파형의 도달과 상기 가상 마이크로폰에서 상기 사운드 파형의 도달 사이의 제 2 지연 또는 제 2 진폭 감쇠를 보상함으로써, 상기 제 2 실제 공간 마이크로폰에 의해 레코딩되는 상기 제 2 레코딩된 오디오 입력 신호를 수정하여 제 2 수정된 오디오 신호를 획득하도록 구성되고,
상기 조합기(510)는 상기 오디오 출력 신호를 획득하기 위해 상기 제 1 수정된 오디오 신호와 상기 제 2 수정된 오디오 신호를 조합함으로써 조합 신호를 생성하는
장치.
- 제 12 항에 있어서,
상기 전파 보상기(500)는 또한, 상기 가상 마이크로폰에서의 상기 사운드 파형의 도달과, 추가적인 실제 공간 마이크로폰들 각각에서의 상기 사운드 소스에 의해 방출되는 상기 사운드 파형의 도달 사이의 지연 또는 진폭 감쇠를 보상함으로써, 하나 이상의 추가적인 실제 공간 마이크로폰에 의해 레코딩되는 하나 이상의 추가적인 레코딩된 오디오 입력 신호를 수정하도록 구성되고, 상기 전파 보상기(500)는 상기 추가적인 레코딩된 오디오 입력 신호 각각의 진폭 값, 크기 값 또는 위상 값을 조절함으로써 지연들 또는 진폭 감쇠들 각각을 보상하여 복수의 제 3 수정된 오디오 신호를 획득하도록 구성되고,
상기 조합기(510)는 상기 오디오 출력 신호를 획득하기 위해 상기 제 1 수정된 오디오 신호, 상기 제 2 수정된 오디오 신호 및 상기 복수의 제 3 수정된 오디오 신호를 조합함으로써 조합 신호를 생성하도록 구성되는
장치.
- 제 2 항 내지 제 11 항 중 어느 한 항에 있어서,
상기 정보 계산 모듈(120)은, 상기 오디오 출력 신호를 획득하기 위해, 상기 가상 마이크로폰의 상기 가상 위치에서의 상기 사운드 파형의 도달 방향 및 상기 가상 마이크로폰의 가상 지향(orientation)에 의존하여 상기 제 1 수정된 오디오 신호를 수정함으로써 가중된 오디오 신호를 생성하는 스펙트럼 가중 유닛(520)을 포함하되, 상기 제 1 수정된 오디오 신호는 시간-주파수 영역에서 수정되는
장치.
- 제 12 항 또는 제 13 항에 있어서,
상기 정보 계산 모듈(120)은, 상기 오디오 출력 신호를 획득하기 위해, 상기 가상 마이크로폰의 상기 가상 위치에서의 상기 사운드 파형의 도달 방향 및 상기 가상 마이크로폰의 가상 지향에 의존하여 상기 조합 신호를 수정함으로써 가중된 오디오 신호를 생성하는 스펙트럼 가중 유닛(520)을 포함하되, 상기 조합 신호는 시간-주파수 영역에서 수정되는
장치.
- 제 2 항 내지 제 16 항 중 어느 한 항에 있어서,
상기 전파 보상기(500)는 또한, 상기 오디오 출력 신호를 획득하기 위해, 제 4 마이크로폰에 의해 레코딩되는 제 3 레코딩된 오디오 입력 신호의 진폭 값, 크기 값 또는 위상 값을 조절함으로써, 상기 제 4 마이크로폰에서의 상기 사운드 소스에 의해 방출되는 상기 사운드 파형의 도달과 상기 가상 마이크로폰에서의 상기 사운드 파형의 도달 사이의 제 3 지연 또는 제 3 진폭 감쇠를 보상함으로써 상기 제 4 마이크로폰에 의해 레코딩되는 상기 제 3 레코딩된 오디오 입력 신호를 수정하여, 제 3 수정된 오디오 신호를 생성하도록 구성되는
장치.
- 제 1 항 내지 제 17 항 중 어느 한 항에 있어서,
상기 사운드 이벤트 위치 추정기(110)는 3차원 환경에서 사운드 소스 위치를 추정하도록 구성되는
장치.
- 제 1 항 내지 제 18 항 중 어느 한 항에 있어서,
상기 정보 계산 모듈(120)은, 상기 가상 마이크로폰에서의 확산 사운드 에너지 또는 상기 가상 마이크로폰에서의 직접 사운드 에너지를 추정하도록 구성되는 확산 계산 유닛(801)을 더 포함하는
장치.
- 제 19 항에 있어서,
상기 확산 계산 유닛(801)은 상기 제 1 실제 공간 마이크로폰 및 상기 제 2 실제 공간 마이크로폰에서의 확산 사운드 에너지에 기초하여 상기 가상 마이크로폰에서의 상기 확산 사운드 에너지를 추정하도록 구성되는
장치.
- 환경에서 구성 가능한 가상 위치에서 가상 마이크로폰의 레코딩을 시뮬레이팅하기 위해 오디오 출력 신호를 생성하는 방법으로서,
상기 환경의 제 1 실제 마이크로폰 위치에 위치되는 제 1 실제 공간 마이크로폰에 의해 제공되는 제 1 방향 정보 및 상기 환경의 제 2 실제 마이크로폰 위치에 위치되는 제 2 실제 공간 마이크로폰에 의해 제공되는 제 2 방향 정보에 기초하여, 상기 환경에서 사운드 소스의 위치를 표시하는 사운드 소스 위치를 추정하는 단계와,
제 1 레코딩된 오디오 입력 신호, 상기 제 1 실제 마이크로폰 위치, 상기 가상 마이크로폰의 상기 가상 위치 및 상기 사운드 소스 위치에 기초하여 상기 오디오 출력 신호를 생성하는 단계를 포함하는
방법.
- 컴퓨터 또는 신호 프로세서상에서 실행될 때 제 24 항의 방법을 구현하는
컴퓨터 프로그램.
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US41962310P | 2010-12-03 | 2010-12-03 | |
US61/419,623 | 2010-12-03 | ||
US42009910P | 2010-12-06 | 2010-12-06 | |
US61/420,099 | 2010-12-06 | ||
PCT/EP2011/071629 WO2012072798A1 (en) | 2010-12-03 | 2011-12-02 | Sound acquisition via the extraction of geometrical information from direction of arrival estimates |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20140045910A true KR20140045910A (ko) | 2014-04-17 |
KR101442446B1 KR101442446B1 (ko) | 2014-09-22 |
Family
ID=45406686
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020137017441A KR101619578B1 (ko) | 2010-12-03 | 2011-12-02 | 기하학 기반의 공간 오디오 코딩을 위한 장치 및 방법 |
KR1020137017057A KR101442446B1 (ko) | 2010-12-03 | 2011-12-02 | 도달 방향 추정치로부터의 기하학적 정보 추출을 통한 사운드 수집 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020137017441A KR101619578B1 (ko) | 2010-12-03 | 2011-12-02 | 기하학 기반의 공간 오디오 코딩을 위한 장치 및 방법 |
Country Status (16)
Country | Link |
---|---|
US (2) | US9396731B2 (ko) |
EP (2) | EP2647005B1 (ko) |
JP (2) | JP5878549B2 (ko) |
KR (2) | KR101619578B1 (ko) |
CN (2) | CN103460285B (ko) |
AR (2) | AR084091A1 (ko) |
AU (2) | AU2011334857B2 (ko) |
BR (1) | BR112013013681B1 (ko) |
CA (2) | CA2819502C (ko) |
ES (2) | ES2643163T3 (ko) |
HK (1) | HK1190490A1 (ko) |
MX (2) | MX2013006068A (ko) |
PL (1) | PL2647222T3 (ko) |
RU (2) | RU2570359C2 (ko) |
TW (2) | TWI530201B (ko) |
WO (2) | WO2012072798A1 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102154553B1 (ko) * | 2019-09-18 | 2020-09-10 | 한국표준과학연구원 | 지향성이 향상된 마이크로폰 어레이 및 이를 이용한 음장 취득 방법 |
Families Citing this family (100)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9558755B1 (en) | 2010-05-20 | 2017-01-31 | Knowles Electronics, Llc | Noise suppression assisted automatic speech recognition |
EP2600637A1 (en) * | 2011-12-02 | 2013-06-05 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for microphone positioning based on a spatial power density |
WO2013093565A1 (en) * | 2011-12-22 | 2013-06-27 | Nokia Corporation | Spatial audio processing apparatus |
JP2015509212A (ja) * | 2012-01-19 | 2015-03-26 | コーニンクレッカ フィリップス エヌ ヴェ | 空間オーディオ・レンダリング及び符号化 |
EP2893532B1 (en) * | 2012-09-03 | 2021-03-24 | Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. | Apparatus and method for providing an informed multichannel speech presence probability estimation |
EP2898506B1 (en) * | 2012-09-21 | 2018-01-17 | Dolby Laboratories Licensing Corporation | Layered approach to spatial audio coding |
US10175335B1 (en) | 2012-09-26 | 2019-01-08 | Foundation For Research And Technology-Hellas (Forth) | Direction of arrival (DOA) estimation apparatuses, methods, and systems |
US9549253B2 (en) * | 2012-09-26 | 2017-01-17 | Foundation for Research and Technology—Hellas (FORTH) Institute of Computer Science (ICS) | Sound source localization and isolation apparatuses, methods and systems |
US9955277B1 (en) | 2012-09-26 | 2018-04-24 | Foundation For Research And Technology-Hellas (F.O.R.T.H.) Institute Of Computer Science (I.C.S.) | Spatial sound characterization apparatuses, methods and systems |
US10149048B1 (en) | 2012-09-26 | 2018-12-04 | Foundation for Research and Technology—Hellas (F.O.R.T.H.) Institute of Computer Science (I.C.S.) | Direction of arrival estimation and sound source enhancement in the presence of a reflective surface apparatuses, methods, and systems |
US20160210957A1 (en) * | 2015-01-16 | 2016-07-21 | Foundation For Research And Technology - Hellas (Forth) | Foreground Signal Suppression Apparatuses, Methods, and Systems |
US10136239B1 (en) | 2012-09-26 | 2018-11-20 | Foundation For Research And Technology—Hellas (F.O.R.T.H.) | Capturing and reproducing spatial sound apparatuses, methods, and systems |
US9554203B1 (en) | 2012-09-26 | 2017-01-24 | Foundation for Research and Technolgy—Hellas (FORTH) Institute of Computer Science (ICS) | Sound source characterization apparatuses, methods and systems |
US9640194B1 (en) | 2012-10-04 | 2017-05-02 | Knowles Electronics, Llc | Noise suppression for speech processing based on machine-learning mask estimation |
FR2998438A1 (fr) * | 2012-11-16 | 2014-05-23 | France Telecom | Acquisition de donnees sonores spatialisees |
EP2747451A1 (en) | 2012-12-21 | 2014-06-25 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Filter and method for informed spatial filtering using multiple instantaneous direction-of-arrivial estimates |
CN104010265A (zh) | 2013-02-22 | 2014-08-27 | 杜比实验室特许公司 | 音频空间渲染设备及方法 |
CN104019885A (zh) | 2013-02-28 | 2014-09-03 | 杜比实验室特许公司 | 声场分析系统 |
WO2014151813A1 (en) | 2013-03-15 | 2014-09-25 | Dolby Laboratories Licensing Corporation | Normalization of soundfield orientations based on auditory scene analysis |
WO2014171791A1 (ko) | 2013-04-19 | 2014-10-23 | 한국전자통신연구원 | 다채널 오디오 신호 처리 장치 및 방법 |
US10075795B2 (en) | 2013-04-19 | 2018-09-11 | Electronics And Telecommunications Research Institute | Apparatus and method for processing multi-channel audio signal |
US20140355769A1 (en) | 2013-05-29 | 2014-12-04 | Qualcomm Incorporated | Energy preservation for decomposed representations of a sound field |
CN104240711B (zh) * | 2013-06-18 | 2019-10-11 | 杜比实验室特许公司 | 用于生成自适应音频内容的方法、系统和装置 |
CN104244164A (zh) | 2013-06-18 | 2014-12-24 | 杜比实验室特许公司 | 生成环绕立体声声场 |
EP2830050A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for enhanced spatial audio object coding |
EP2830052A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder, audio encoder, method for providing at least four audio channel signals on the basis of an encoded representation, method for providing an encoded representation on the basis of at least four audio channel signals and computer program using a bandwidth extension |
EP2830045A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Concept for audio encoding and decoding for audio channels and audio objects |
EP2830049A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for efficient object metadata coding |
US9319819B2 (en) | 2013-07-25 | 2016-04-19 | Etri | Binaural rendering method and apparatus for decoding multi channel audio |
JP6055576B2 (ja) | 2013-07-30 | 2016-12-27 | ドルビー・インターナショナル・アーベー | 任意のスピーカー・レイアウトへのオーディオ・オブジェクトのパン |
CN104637495B (zh) * | 2013-11-08 | 2019-03-26 | 宏达国际电子股份有限公司 | 电子装置以及音频信号处理方法 |
CN103618986B (zh) * | 2013-11-19 | 2015-09-30 | 深圳市新一代信息技术研究院有限公司 | 一种3d空间中音源声像体的提取方法及装置 |
EP3072315B1 (en) * | 2013-11-22 | 2021-11-03 | Apple Inc. | Handsfree beam pattern configuration |
RU2666248C2 (ru) | 2014-05-13 | 2018-09-06 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Устройство и способ для амплитудного панорамирования с затуханием фронтов |
US9620137B2 (en) * | 2014-05-16 | 2017-04-11 | Qualcomm Incorporated | Determining between scalar and vector quantization in higher order ambisonic coefficients |
US10770087B2 (en) | 2014-05-16 | 2020-09-08 | Qualcomm Incorporated | Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals |
WO2016033364A1 (en) * | 2014-08-28 | 2016-03-03 | Audience, Inc. | Multi-sourced noise suppression |
CN110636415B (zh) | 2014-08-29 | 2021-07-23 | 杜比实验室特许公司 | 用于处理音频的方法、系统和存储介质 |
CN104168534A (zh) * | 2014-09-01 | 2014-11-26 | 北京塞宾科技有限公司 | 一种全息音频装置及控制方法 |
US9774974B2 (en) * | 2014-09-24 | 2017-09-26 | Electronics And Telecommunications Research Institute | Audio metadata providing apparatus and method, and multichannel audio data playback apparatus and method to support dynamic format conversion |
CN104378570A (zh) * | 2014-09-28 | 2015-02-25 | 小米科技有限责任公司 | 录音方法及装置 |
JP6604331B2 (ja) * | 2014-10-10 | 2019-11-13 | ソニー株式会社 | 音声処理装置および方法、並びにプログラム |
WO2016123572A1 (en) * | 2015-01-30 | 2016-08-04 | Dts, Inc. | System and method for capturing, encoding, distributing, and decoding immersive audio |
TWI579835B (zh) * | 2015-03-19 | 2017-04-21 | 絡達科技股份有限公司 | 音效增益方法 |
EP3079074A1 (fr) * | 2015-04-10 | 2016-10-12 | B<>Com | Procédé de traitement de données pour l'estimation de paramètres de mixage de signaux audio, procédé de mixage, dispositifs, et programmes d'ordinateurs associés |
US9609436B2 (en) | 2015-05-22 | 2017-03-28 | Microsoft Technology Licensing, Llc | Systems and methods for audio creation and delivery |
US9530426B1 (en) | 2015-06-24 | 2016-12-27 | Microsoft Technology Licensing, Llc | Filtering sounds for conferencing applications |
US9601131B2 (en) * | 2015-06-25 | 2017-03-21 | Htc Corporation | Sound processing device and method |
US10375472B2 (en) | 2015-07-02 | 2019-08-06 | Dolby Laboratories Licensing Corporation | Determining azimuth and elevation angles from stereo recordings |
HK1255002A1 (zh) | 2015-07-02 | 2019-08-02 | 杜比實驗室特許公司 | 根據立體聲記錄確定方位角和俯仰角 |
GB2543275A (en) * | 2015-10-12 | 2017-04-19 | Nokia Technologies Oy | Distributed audio capture and mixing |
TWI577194B (zh) * | 2015-10-22 | 2017-04-01 | 山衛科技股份有限公司 | 環境音源辨識系統及其環境音源辨識之方法 |
WO2017073324A1 (ja) * | 2015-10-26 | 2017-05-04 | ソニー株式会社 | 信号処理装置、信号処理方法、並びにプログラム |
US10206040B2 (en) * | 2015-10-30 | 2019-02-12 | Essential Products, Inc. | Microphone array for generating virtual sound field |
EP3174316B1 (en) * | 2015-11-27 | 2020-02-26 | Nokia Technologies Oy | Intelligent audio rendering |
US11064291B2 (en) | 2015-12-04 | 2021-07-13 | Sennheiser Electronic Gmbh & Co. Kg | Microphone array system |
US9894434B2 (en) | 2015-12-04 | 2018-02-13 | Sennheiser Electronic Gmbh & Co. Kg | Conference system with a microphone array system and a method of speech acquisition in a conference system |
CN112218211B (zh) | 2016-03-15 | 2022-06-07 | 弗劳恩霍夫应用研究促进协会 | 用于生成声场描述的装置、方法或计算机程序 |
US9956910B2 (en) * | 2016-07-18 | 2018-05-01 | Toyota Motor Engineering & Manufacturing North America, Inc. | Audible notification systems and methods for autonomous vehicles |
GB2554446A (en) * | 2016-09-28 | 2018-04-04 | Nokia Technologies Oy | Spatial audio signal format generation from a microphone array using adaptive capture |
US9986357B2 (en) | 2016-09-28 | 2018-05-29 | Nokia Technologies Oy | Fitting background ambiance to sound objects |
WO2018064296A1 (en) | 2016-09-29 | 2018-04-05 | Dolby Laboratories Licensing Corporation | Method, systems and apparatus for determining audio representation(s) of one or more audio sources |
US9980078B2 (en) | 2016-10-14 | 2018-05-22 | Nokia Technologies Oy | Audio object modification in free-viewpoint rendering |
US10531220B2 (en) | 2016-12-05 | 2020-01-07 | Magic Leap, Inc. | Distributed audio capturing techniques for virtual reality (VR), augmented reality (AR), and mixed reality (MR) systems |
CN106708041B (zh) * | 2016-12-12 | 2020-12-29 | 西安Tcl软件开发有限公司 | 智能音箱、智能音箱定向移动方法及装置 |
US11096004B2 (en) | 2017-01-23 | 2021-08-17 | Nokia Technologies Oy | Spatial audio rendering point extension |
US10362393B2 (en) | 2017-02-08 | 2019-07-23 | Logitech Europe, S.A. | Direction detection device for acquiring and processing audible input |
US10229667B2 (en) | 2017-02-08 | 2019-03-12 | Logitech Europe S.A. | Multi-directional beamforming device for acquiring and processing audible input |
US10366700B2 (en) | 2017-02-08 | 2019-07-30 | Logitech Europe, S.A. | Device for acquiring and processing audible input |
US10366702B2 (en) | 2017-02-08 | 2019-07-30 | Logitech Europe, S.A. | Direction detection device for acquiring and processing audible input |
US10531219B2 (en) | 2017-03-20 | 2020-01-07 | Nokia Technologies Oy | Smooth rendering of overlapping audio-object interactions |
US10397724B2 (en) | 2017-03-27 | 2019-08-27 | Samsung Electronics Co., Ltd. | Modifying an apparent elevation of a sound source utilizing second-order filter sections |
US11074036B2 (en) | 2017-05-05 | 2021-07-27 | Nokia Technologies Oy | Metadata-free audio-object interactions |
US10165386B2 (en) | 2017-05-16 | 2018-12-25 | Nokia Technologies Oy | VR audio superzoom |
US10602296B2 (en) | 2017-06-09 | 2020-03-24 | Nokia Technologies Oy | Audio object adjustment for phase compensation in 6 degrees of freedom audio |
US10334360B2 (en) * | 2017-06-12 | 2019-06-25 | Revolabs, Inc | Method for accurately calculating the direction of arrival of sound at a microphone array |
GB2563606A (en) | 2017-06-20 | 2018-12-26 | Nokia Technologies Oy | Spatial audio processing |
GB201710085D0 (en) | 2017-06-23 | 2017-08-09 | Nokia Technologies Oy | Determination of targeted spatial audio parameters and associated spatial audio playback |
GB201710093D0 (en) * | 2017-06-23 | 2017-08-09 | Nokia Technologies Oy | Audio distance estimation for spatial audio processing |
KR102491818B1 (ko) | 2017-07-14 | 2023-01-26 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 다중-지점 음장 묘사를 이용하여 증강된 음장 묘사 또는 수정된 음장 묘사를 생성하기 위한 개념 |
AR112556A1 (es) | 2017-07-14 | 2019-11-13 | Fraunhofer Ges Forschung | Concepto para generar una descripción mejorada de campo de sonido o un campo de sonido modificado |
AR112504A1 (es) | 2017-07-14 | 2019-11-06 | Fraunhofer Ges Forschung | Concepto para generar una descripción mejorada de campo de sonido o un campo de sonido modificado utilizando una descripción multi-capa |
US10264354B1 (en) * | 2017-09-25 | 2019-04-16 | Cirrus Logic, Inc. | Spatial cues from broadside detection |
US11395087B2 (en) | 2017-09-29 | 2022-07-19 | Nokia Technologies Oy | Level-based audio-object interactions |
CN111201784B (zh) | 2017-10-17 | 2021-09-07 | 惠普发展公司,有限责任合伙企业 | 通信系统、用于通信的方法和视频会议系统 |
US10542368B2 (en) | 2018-03-27 | 2020-01-21 | Nokia Technologies Oy | Audio content modification for playback audio |
TWI690921B (zh) * | 2018-08-24 | 2020-04-11 | 緯創資通股份有限公司 | 收音處理裝置及其收音處理方法 |
US11017790B2 (en) * | 2018-11-30 | 2021-05-25 | International Business Machines Corporation | Avoiding speech collisions among participants during teleconferences |
ES2941268T3 (es) | 2018-12-07 | 2023-05-19 | Fraunhofer Ges Forschung | Aparato, método y programa informático para codificación, decodificación, procesamiento de escenas y otros procedimientos relacionados con codificación de audio espacial basada en dirac que utiliza compensación difusa |
EP3928315A4 (en) * | 2019-03-14 | 2022-11-30 | Boomcloud 360, Inc. | SPATIALLY SENSITIVE MULTIBAND COMPRESSION SYSTEM WITH PRIORITY |
EP3963902A4 (en) | 2019-09-24 | 2022-07-13 | Samsung Electronics Co., Ltd. | METHODS AND SYSTEMS FOR MIXED AUDIO SIGNAL RECORDING AND DIRECTIONAL AUDIO CONTENT REPRODUCTION |
TW202123220A (zh) | 2019-10-30 | 2021-06-16 | 美商杜拜研究特許公司 | 使用方向性元資料之多通道音頻編碼及解碼 |
CN113284504A (zh) | 2020-02-20 | 2021-08-20 | 北京三星通信技术研究有限公司 | 姿态检测方法、装置、电子设备及计算机可读存储介质 |
US11277689B2 (en) | 2020-02-24 | 2022-03-15 | Logitech Europe S.A. | Apparatus and method for optimizing sound quality of a generated audible signal |
US11425523B2 (en) * | 2020-04-10 | 2022-08-23 | Facebook Technologies, Llc | Systems and methods for audio adjustment |
CN112083379B (zh) * | 2020-09-09 | 2023-10-20 | 极米科技股份有限公司 | 基于声源定位的音频播放方法、装置、投影设备及介质 |
WO2022162878A1 (ja) * | 2021-01-29 | 2022-08-04 | 日本電信電話株式会社 | 信号処理装置、信号処理方法、信号処理プログラム、学習装置、学習方法及び学習プログラム |
CN116918350A (zh) * | 2021-04-25 | 2023-10-20 | 深圳市韶音科技有限公司 | 声学装置 |
US20230035531A1 (en) * | 2021-07-27 | 2023-02-02 | Qualcomm Incorporated | Audio event data processing |
DE202022105574U1 (de) | 2022-10-01 | 2022-10-20 | Veerendra Dakulagi | Ein System zur Klassifizierung mehrerer Signale für die Schätzung der Ankunftsrichtung |
Family Cites Families (71)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01109996A (ja) * | 1987-10-23 | 1989-04-26 | Sony Corp | マイクロホン装置 |
JPH04181898A (ja) * | 1990-11-15 | 1992-06-29 | Ricoh Co Ltd | マイクロホン |
JPH1063470A (ja) * | 1996-06-12 | 1998-03-06 | Nintendo Co Ltd | 画像表示に連動する音響発生装置 |
US6577738B2 (en) * | 1996-07-17 | 2003-06-10 | American Technology Corporation | Parametric virtual speaker and surround-sound system |
US6072878A (en) | 1997-09-24 | 2000-06-06 | Sonic Solutions | Multi-channel surround sound mastering and reproduction techniques that preserve spatial harmonics |
JP3344647B2 (ja) * | 1998-02-18 | 2002-11-11 | 富士通株式会社 | マイクロホンアレイ装置 |
JP3863323B2 (ja) | 1999-08-03 | 2006-12-27 | 富士通株式会社 | マイクロホンアレイ装置 |
CA2406926A1 (en) * | 2000-04-19 | 2001-11-01 | Sonic Solutions | Multi-channel surround sound mastering and reproduction techniques that preserve spatial harmonics in three dimensions |
KR100387238B1 (ko) * | 2000-04-21 | 2003-06-12 | 삼성전자주식회사 | 오디오 변조 기능을 갖는 오디오 재생 장치 및 방법, 그장치를 적용한 리믹싱 장치 및 방법 |
GB2364121B (en) | 2000-06-30 | 2004-11-24 | Mitel Corp | Method and apparatus for locating a talker |
JP4304845B2 (ja) * | 2000-08-03 | 2009-07-29 | ソニー株式会社 | 音声信号処理方法及び音声信号処理装置 |
EP1552724A4 (en) * | 2002-10-15 | 2010-10-20 | Korea Electronics Telecomm | METHOD FOR GENERATING AND USING A 3D AUDIOSCENCE WITH EXTENDED EFFICIENCY OF SOUND SOURCE |
KR100626661B1 (ko) * | 2002-10-15 | 2006-09-22 | 한국전자통신연구원 | 공간성이 확장된 음원을 갖는 3차원 음향 장면 처리 방법 |
EP1562403B1 (en) * | 2002-11-15 | 2012-06-13 | Sony Corporation | Audio signal processing method and processing device |
JP2004193877A (ja) * | 2002-12-10 | 2004-07-08 | Sony Corp | 音像定位信号処理装置および音像定位信号処理方法 |
AU2003285787A1 (en) | 2002-12-28 | 2004-07-22 | Samsung Electronics Co., Ltd. | Method and apparatus for mixing audio stream and information storage medium |
KR20040060718A (ko) | 2002-12-28 | 2004-07-06 | 삼성전자주식회사 | 오디오 스트림 믹싱 방법, 그 장치 및 그 정보저장매체 |
JP3639280B2 (ja) * | 2003-02-12 | 2005-04-20 | 任天堂株式会社 | ゲームメッセージ表示方法およびゲームプログラム |
FI118247B (fi) | 2003-02-26 | 2007-08-31 | Fraunhofer Ges Forschung | Menetelmä luonnollisen tai modifioidun tilavaikutelman aikaansaamiseksi monikanavakuuntelussa |
JP4133559B2 (ja) | 2003-05-02 | 2008-08-13 | 株式会社コナミデジタルエンタテインメント | 音声再生プログラム、音声再生方法及び音声再生装置 |
US20060104451A1 (en) * | 2003-08-07 | 2006-05-18 | Tymphany Corporation | Audio reproduction system |
MXPA06011397A (es) * | 2004-04-05 | 2006-12-20 | Koninkl Philips Electronics Nv | Metodo, dispositivo, aparato codificador, aparato decodificador y sistema de audio. |
GB2414369B (en) * | 2004-05-21 | 2007-08-01 | Hewlett Packard Development Co | Processing audio data |
KR100586893B1 (ko) | 2004-06-28 | 2006-06-08 | 삼성전자주식회사 | 시변 잡음 환경에서의 화자 위치 추정 시스템 및 방법 |
WO2006006935A1 (en) | 2004-07-08 | 2006-01-19 | Agency For Science, Technology And Research | Capturing sound from a target region |
US7617501B2 (en) | 2004-07-09 | 2009-11-10 | Quest Software, Inc. | Apparatus, system, and method for managing policies on a computer having a foreign operating system |
US7903824B2 (en) * | 2005-01-10 | 2011-03-08 | Agere Systems Inc. | Compact side information for parametric coding of spatial audio |
DE102005010057A1 (de) | 2005-03-04 | 2006-09-07 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Erzeugen eines codierten Stereo-Signals eines Audiostücks oder Audiodatenstroms |
WO2006105105A2 (en) | 2005-03-28 | 2006-10-05 | Sound Id | Personal sound system |
JP4273343B2 (ja) * | 2005-04-18 | 2009-06-03 | ソニー株式会社 | 再生装置および再生方法 |
US20070047742A1 (en) | 2005-08-26 | 2007-03-01 | Step Communications Corporation, A Nevada Corporation | Method and system for enhancing regional sensitivity noise discrimination |
WO2007046288A1 (ja) * | 2005-10-18 | 2007-04-26 | Pioneer Corporation | 定位制御装置、定位制御方法、定位制御プログラムおよびコンピュータに読み取り可能な記録媒体 |
US8705747B2 (en) | 2005-12-08 | 2014-04-22 | Electronics And Telecommunications Research Institute | Object-based 3-dimensional audio service system using preset audio scenes |
DE602007004451D1 (de) | 2006-02-21 | 2010-03-11 | Koninkl Philips Electronics Nv | Audiokodierung und audiodekodierung |
GB0604076D0 (en) * | 2006-03-01 | 2006-04-12 | Univ Lancaster | Method and apparatus for signal presentation |
WO2007099318A1 (en) | 2006-03-01 | 2007-09-07 | The University Of Lancaster | Method and apparatus for signal presentation |
US8374365B2 (en) * | 2006-05-17 | 2013-02-12 | Creative Technology Ltd | Spatial audio analysis and synthesis for binaural reproduction and format conversion |
EP2369836B1 (en) * | 2006-05-19 | 2014-04-23 | Electronics and Telecommunications Research Institute | Object-based 3-dimensional audio service system using preset audio scenes |
US20080004729A1 (en) * | 2006-06-30 | 2008-01-03 | Nokia Corporation | Direct encoding into a directional audio coding format |
JP4894386B2 (ja) * | 2006-07-21 | 2012-03-14 | ソニー株式会社 | 音声信号処理装置、音声信号処理方法および音声信号処理プログラム |
US8229754B1 (en) * | 2006-10-23 | 2012-07-24 | Adobe Systems Incorporated | Selecting features of displayed audio data across time |
EP2097895A4 (en) * | 2006-12-27 | 2013-11-13 | Korea Electronics Telecomm | DEVICE AND METHOD FOR ENCODING AND DECODING MULTI-OBJECT AUDIO SIGNAL WITH DIFFERENT CHANNELS WITH INFORMATION BIT RATE CONVERSION |
JP4449987B2 (ja) * | 2007-02-15 | 2010-04-14 | ソニー株式会社 | 音声処理装置、音声処理方法およびプログラム |
US9015051B2 (en) * | 2007-03-21 | 2015-04-21 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Reconstruction of audio channels with direction parameters indicating direction of origin |
JP4221035B2 (ja) * | 2007-03-30 | 2009-02-12 | 株式会社コナミデジタルエンタテインメント | ゲーム音出力装置、音像定位制御方法、および、プログラム |
KR101497644B1 (ko) | 2007-04-19 | 2015-03-02 | 에포스 디벨롭먼트 리미티드 | 음성 및 위치 국부화 |
FR2916078A1 (fr) * | 2007-05-10 | 2008-11-14 | France Telecom | Procede de codage et decodage audio, codeur audio, decodeur audio et programmes d'ordinateur associes |
US8180062B2 (en) * | 2007-05-30 | 2012-05-15 | Nokia Corporation | Spatial sound zooming |
US20080298610A1 (en) | 2007-05-30 | 2008-12-04 | Nokia Corporation | Parameter Space Re-Panning for Spatial Audio |
CN101884065B (zh) * | 2007-10-03 | 2013-07-10 | 创新科技有限公司 | 用于双耳再现和格式转换的空间音频分析和合成的方法 |
JP5294603B2 (ja) * | 2007-10-03 | 2013-09-18 | 日本電信電話株式会社 | 音響信号推定装置、音響信号合成装置、音響信号推定合成装置、音響信号推定方法、音響信号合成方法、音響信号推定合成方法、これらの方法を用いたプログラム、及び記録媒体 |
KR101415026B1 (ko) | 2007-11-19 | 2014-07-04 | 삼성전자주식회사 | 마이크로폰 어레이를 이용한 다채널 사운드 획득 방법 및장치 |
WO2009089353A1 (en) | 2008-01-10 | 2009-07-16 | Sound Id | Personal sound system for display of sound pressure level or other environmental condition |
JP5686358B2 (ja) * | 2008-03-07 | 2015-03-18 | 学校法人日本大学 | 音源距離計測装置及びそれを用いた音響情報分離装置 |
KR101461685B1 (ko) * | 2008-03-31 | 2014-11-19 | 한국전자통신연구원 | 다객체 오디오 신호의 부가정보 비트스트림 생성 방법 및 장치 |
JP2009246827A (ja) * | 2008-03-31 | 2009-10-22 | Nippon Hoso Kyokai <Nhk> | 音源及び仮想音源の位置特定装置、方法及びプログラム |
US8457328B2 (en) * | 2008-04-22 | 2013-06-04 | Nokia Corporation | Method, apparatus and computer program product for utilizing spatial information for audio signal enhancement in a distributed network environment |
EP2154910A1 (en) * | 2008-08-13 | 2010-02-17 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus for merging spatial audio streams |
ES2425814T3 (es) | 2008-08-13 | 2013-10-17 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Aparato para determinar una señal de audio espacial convertida |
US8023660B2 (en) * | 2008-09-11 | 2011-09-20 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus, method and computer program for providing a set of spatial cues on the basis of a microphone signal and apparatus for providing a two-channel audio signal and a set of spatial cues |
JP5520300B2 (ja) * | 2008-09-11 | 2014-06-11 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | マイクロホン信号に基づいて一組の空間手がかりを供給する装置、方法およびコンピュータ・プログラムと2チャンネルのオーディオ信号および一組の空間手がかりを供給する装置 |
EP2374123B1 (fr) * | 2008-12-15 | 2019-04-10 | Orange | Codage perfectionne de signaux audionumeriques multicanaux |
JP5309953B2 (ja) * | 2008-12-17 | 2013-10-09 | ヤマハ株式会社 | 収音装置 |
EP2205007B1 (en) * | 2008-12-30 | 2019-01-09 | Dolby International AB | Method and apparatus for three-dimensional acoustic field encoding and optimal reconstruction |
JP5620689B2 (ja) | 2009-02-13 | 2014-11-05 | 本田技研工業株式会社 | 残響抑圧装置及び残響抑圧方法 |
JP5197458B2 (ja) * | 2009-03-25 | 2013-05-15 | 株式会社東芝 | 受音信号処理装置、方法およびプログラム |
JP5314129B2 (ja) * | 2009-03-31 | 2013-10-16 | パナソニック株式会社 | 音響再生装置及び音響再生方法 |
KR20120006060A (ko) * | 2009-04-21 | 2012-01-17 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 오디오 신호 합성 |
EP2249334A1 (en) * | 2009-05-08 | 2010-11-10 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio format transcoder |
EP2346028A1 (en) | 2009-12-17 | 2011-07-20 | Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. | An apparatus and a method for converting a first parametric spatial audio signal into a second parametric spatial audio signal |
KR20120059827A (ko) * | 2010-12-01 | 2012-06-11 | 삼성전자주식회사 | 다중 음원 위치추적장치 및 그 위치추적방법 |
-
2011
- 2011-12-02 TW TW100144576A patent/TWI530201B/zh active
- 2011-12-02 TW TW100144577A patent/TWI489450B/zh active
- 2011-12-02 KR KR1020137017441A patent/KR101619578B1/ko active IP Right Grant
- 2011-12-02 CN CN201180066795.0A patent/CN103460285B/zh active Active
- 2011-12-02 PL PL11801647T patent/PL2647222T3/pl unknown
- 2011-12-02 ES ES11801648.4T patent/ES2643163T3/es active Active
- 2011-12-02 MX MX2013006068A patent/MX2013006068A/es active IP Right Grant
- 2011-12-02 BR BR112013013681-2A patent/BR112013013681B1/pt active IP Right Grant
- 2011-12-02 CA CA2819502A patent/CA2819502C/en active Active
- 2011-12-02 AR ARP110104509A patent/AR084091A1/es active IP Right Grant
- 2011-12-02 JP JP2013541377A patent/JP5878549B2/ja active Active
- 2011-12-02 WO PCT/EP2011/071629 patent/WO2012072798A1/en active Application Filing
- 2011-12-02 EP EP11801648.4A patent/EP2647005B1/en active Active
- 2011-12-02 AU AU2011334857A patent/AU2011334857B2/en active Active
- 2011-12-02 KR KR1020137017057A patent/KR101442446B1/ko active IP Right Grant
- 2011-12-02 ES ES11801647.6T patent/ES2525839T3/es active Active
- 2011-12-02 WO PCT/EP2011/071644 patent/WO2012072804A1/en active Application Filing
- 2011-12-02 CN CN201180066792.7A patent/CN103583054B/zh active Active
- 2011-12-02 EP EP11801647.6A patent/EP2647222B1/en active Active
- 2011-12-02 MX MX2013006150A patent/MX338525B/es active IP Right Grant
- 2011-12-02 AU AU2011334851A patent/AU2011334851B2/en active Active
- 2011-12-02 JP JP2013541374A patent/JP5728094B2/ja active Active
- 2011-12-02 RU RU2013130233/28A patent/RU2570359C2/ru active
- 2011-12-02 RU RU2013130226/08A patent/RU2556390C2/ru active
- 2011-12-02 CA CA2819394A patent/CA2819394C/en active Active
- 2011-12-05 AR ARP110104544A patent/AR084160A1/es active IP Right Grant
-
2013
- 2013-05-29 US US13/904,870 patent/US9396731B2/en active Active
- 2013-05-31 US US13/907,510 patent/US10109282B2/en active Active
-
2014
- 2014-04-09 HK HK14103418.2A patent/HK1190490A1/xx unknown
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102154553B1 (ko) * | 2019-09-18 | 2020-09-10 | 한국표준과학연구원 | 지향성이 향상된 마이크로폰 어레이 및 이를 이용한 음장 취득 방법 |
WO2021054611A1 (ko) * | 2019-09-18 | 2021-03-25 | 한국표준과학연구원 | 지향성이 향상된 마이크로폰 어레이 및 이를 이용한 음장 취득 방법 |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101442446B1 (ko) | 도달 방향 추정치로부터의 기하학적 정보 추출을 통한 사운드 수집 | |
KR101591220B1 (ko) | 공간적 전력 밀도에 기초하여 마이크 위치 결정을 위한 장치 및 방법 | |
JP6086923B2 (ja) | 幾何学配置に基づく空間オーディオ符号化ストリームを統合する装置および方法 | |
KR101510576B1 (ko) | 방향 정보를 도출하는 장치 및 방법과 컴퓨터 프로그램 제품 | |
KR101555416B1 (ko) | 음향 삼각 측량에 의한 공간 선택적 사운드 취득 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
N231 | Notification of change of applicant | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20170828 Year of fee payment: 4 |
|
FPAY | Annual fee payment |
Payment date: 20180830 Year of fee payment: 5 |
|
FPAY | Annual fee payment |
Payment date: 20190903 Year of fee payment: 6 |