KR20140045910A - 도달 방향 추정치로부터의 기하학적 정보 추출을 통한 사운드 수집 - Google Patents

도달 방향 추정치로부터의 기하학적 정보 추출을 통한 사운드 수집 Download PDF

Info

Publication number
KR20140045910A
KR20140045910A KR1020137017057A KR20137017057A KR20140045910A KR 20140045910 A KR20140045910 A KR 20140045910A KR 1020137017057 A KR1020137017057 A KR 1020137017057A KR 20137017057 A KR20137017057 A KR 20137017057A KR 20140045910 A KR20140045910 A KR 20140045910A
Authority
KR
South Korea
Prior art keywords
microphone
sound
virtual
signal
sound source
Prior art date
Application number
KR1020137017057A
Other languages
English (en)
Other versions
KR101442446B1 (ko
Inventor
위르겐 헤레
파비안 쿠츠
마르쿠스 캘링거
갈도 지오반니 델
올리버 티에르가르트
더크 만느
아킴 쿤츠
마이클 크라츠쉬머
알렉산드라 크라치운
Original Assignee
프라운호퍼-게젤샤프트 츄어 푀르더룽 데어 안게반텐 포르슝에.파우.
프리드리히-알렉산더-우니베르지테트 에를랑겐-뉘른베르크
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 프라운호퍼-게젤샤프트 츄어 푀르더룽 데어 안게반텐 포르슝에.파우., 프리드리히-알렉산더-우니베르지테트 에를랑겐-뉘른베르크 filed Critical 프라운호퍼-게젤샤프트 츄어 푀르더룽 데어 안게반텐 포르슝에.파우.
Publication of KR20140045910A publication Critical patent/KR20140045910A/ko
Application granted granted Critical
Publication of KR101442446B1 publication Critical patent/KR101442446B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/326Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only for microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
    • H04R2430/21Direction finding using differential microphone array [DMA]

Abstract

어떤 환경에서 구성 가능한 가상 위치에서 가상 마이크로폰의 레코딩을 시뮬레이팅하기 위한 오디오 출력 신호를 생성하는 장치가 제공된다. 이 장치는 사운드 이벤트 위치 추정기 및 정보 계산 모듈(120)을 포함한다. 사운드 이벤트 위치 추정기(110)는 이 환경에서 사운드 파형을 발산하는 사운드 소스의 위치를 표시하는 사운드 소스 위치를 추정하는데, 사운드 이벤트 위치 추정기(110)는, 이 환경에서 제 1 실제 마이크로폰 위치에 위치되는 제 1 실제 공간 마이크로폰에 의해 제공되는 제 1 방향 정보와, 이 환경에서 제 2 실제 마이크로폰 위치에 위치되는 제 2 실제 공간 마이크로폰에 의해 제공되는 제 2 방향 정보에 기초하여, 사운드 소스 위치를 추정하도록 구성된다. 정보 계산 모듈(120)은, 제 1 레코딩된 오디오 입력 신호와, 제 1 실제 마이크로폰 위치와, 가상 마이크로폰의 가상 위치와, 사운드 소스 위치에 기초하여, 오디오 출력 신호를 생성하도록 구성된다.

Description

도달 방향 추정치로부터의 기하학적 정보 추출을 통한 사운드 수집{SOUND ACQUISITION VIA THE EXTRACTION OF GEOMETRICAL INFORMATION FROM DIRECTION OF ARRIVAL ESTIMATES}
본 발명은 오디오 프로세싱에 관한 것으로, 특히, 도달 방향 추정치로부터의 기하학적 정보 추출을 통한 사운드 수집을 위한 장치 및 방법에 관한 것이다.
종래 공간 사운드 레코딩은 다수의 마이크로폰으로 사운드 필드를 캡처하여 수신측에서 듣는 이가 사운드 이미지를 레코딩 위치에서 처럼 감지하게 하는 것을 목표로 한다. 공간 사운드 레코딩을 위한 표준 방안은 통상적으로, 가령, AB 스테레오포니와 같은 이격된 전방향성 마이크로폰, 강도 스테레오포니에서의 같은 일치 방향성 마이크로폰, 또는 앰비소닉스에서의 B-포맷 마이크로폰과 같은 보다 정교한 마이크로폰을 사용한다.
[1] R. K. Furness의 1990년 4월, 제 8차 AES 국제회의, "Ambisonics - An overview", pp 181-189 참조.
사운드 재생을 위해, 이들 비파라메트릭(non-parametric) 방안은 원하는 오디오 재생 신호(가령, 라우드스피커로 송신될 신호)를 레코딩된 마이크로폰 신호로부터 직접 유도한다.
이와 달리, 파라메트릭(parametric) 공간 오디오 코더로서 지칭되는 사운드 필드의 파라메트릭 표현에 기초하는 방법이 적용될 수 있다. 이들 방법은 흔히 공간 사운드를 기술하는 공간 사이드 정보와 함께 하나 이상의 오디오 다운믹스 신호를 결정하기 위해 마이크로폰 어레이를 사용한다. DirAC(Directional Audio Coding) 또는 소위 SAM(spatial audio microphones) 방안이 그 예이다. DirAC에 관한 세부 사항은 다음 문헌에서 찾아 볼 수 있다.
[2] Pulkki, V.의 "Directional audio coding in spatial sound reproduction and stereo upmixing", pp 251-258, 스웨덴, 피테오, 제 28 차 AES 국제회의 2006년 6월 30일 - 7월 2일.
[3] V. Pulkki의 "Spatial sound reproduction with directional audio coding", 2007년 6월, J. Audio Eng. Soc, vol.55, no.6, pp 503-516.
공간 오디오 마이크로폰 방안에 관한 세부 사항에 관해 다음 문헌을 참조한다.
[4] C. Fallen의 "Microphone Front-Ends for Spatial Audio Coders", 2008년 10월, 샌프란시스코, 제 125차 AES 국제 회의 중.
DirAC에서, 가령, 공간 큐 정보(spatial cue information)는 사운드의 도달 방향(DOA) 및 시간-주파수 영역에서 계산되는 사운드 필드의 확산을 포함한다. 사운드 재생을 위해, 오디오 재생 신호는 파라메트릭 기술(description)에 기초하여 유도될 수 있다. 일부 애플리케이션에서, 공간 사운드 수집은 전체 사운드 신(sound scene)을 캡쳐하는 것을 목표로 한다. 다른 애플리케이션에서, 공간 사운드 수집은 어떤 원하는 성분만을 캡쳐하는 것을 목표로 한다. 접화 마이크로폰(close talking microphones)은 높은 신호 대 잡음 비(SNR) 및 낮은 잔향(reverberation)을 갖는 개별적인 사운드 소스를 레코딩하기 위해 사용되는 경우가 흔하며, XY 스테레오포니와 같은 보다 원거리의 구성은 전체 사운드 신의 공간 이미지를 캡쳐하기 위한 방식을 나타낸다. 빔형성을 사용하여 방향성의 관점에서 유연성을 달성할 수 있는데, 조종 가능한 픽 업 패턴을 실현하기 위해 마이크로폰 어레이가 사용될 수 있다. 방향성 오디오 코딩(DirAC)과 같은 전술한 방법([2], [3] 참조)을 사용하여 유연성이 보다 제공되고, 임의적 픽 업 패턴을 사용하여 공간 필터를 실현할 수 있는데, 이는 다음 문헌에 설명되어 있다.
[5] M. Kallinger, H. Ochsenfeld, G. Del Galdo, F. Kuch, D. Mahne, R. Schultz-Amling. 및 O. Thiergart의 "A spatial filtering approach for directional audio coding", 2009년 5월 독일 뮌헨, 오디오 엔지니어링 소사이어티 컨벤션 126.
사운드 신의 기타 신호 처리 조작은, 가령, 다음 문헌을 참조하자.
[6] R. Schultz-Amling, F. Kiich, O. Thiergart, 및 M. Kallinger의 "Acoustical zooming based on a parametric sound field representation", 2010년 5월, 영국 런던, 오디오 엔지니어링 소사이어티 컨벤션 128.
[7] J. Herre, C. Falch, D. Mahne, G. Del Galdo, M. Kallinger 및 O. Thiergart, "Interactive teleconferencing combining spatial audio object coding and DirAC technology", 2010년 5월 영국 런던, 오디오 엔지니어링 소사이어티 컨벤션 128.
전술한 모든 개념은 마이크로폰이 고정된 공지의 기하구조로 배열된다는 공통점을 갖는다. 마이크로폰 사이의 공간은 일치 마이크로포닉(coincident microphonics)을 위해 최대한 작은 것이 좋은데, 여기서는 다른 방법에 대해 수 센티미터인 것이 보통이다. 이하에서, 사운드 도달 방향을 검색할 수 있는 공간 사운드 레코딩을 위한 임의의 장치(가령, 방향성 마이크로폰의 조합 또는 마이크로폰 어레이 등)로서 공간 마이크로폰을 참조한다.
또한, 전술한 모든 방법은 단 하나의 포인트, 즉, 측정 위치에 대한 사운드 필드의 표현으로 제한된다는 공통점을 갖는다. 따라서, 요구되는 마이크로폰은, 가령, 소스에 근접한 매우 구체적이고 주의 깊게 선택된 위치에 배치되어야 하며, 공간적 이미지가 최적으로 캡쳐될 수 있는 위치에 배치되어야 한다.
그러나, 많은 애플리케이션에서 이는 가능하지 않으므로, 여러 마이크로폰을 사운드 소스로부터 멀리 배치하더라도 여전히 원하는 사운드를 캡쳐할 수 있는 것이 유리할 것이다.
측정된 공간 이외의 지점의 사운드 필드를 추정하기 위한 여러 필드 재구성 방법이 존재한다. 그 중 하나는 음향 홀로그래피인데, 이는 다음 문헌에 설명되어 있다.
[8] E. G. Williams의 "Fourier Acoustics: Sound Radiation and Nearfield Acoustical Holography", 1999년 Academic Press.
음향 홀로그래피는 전체 표면에 대한 사운드 압력 및 입자 속도가 알려지면 임의의 볼륨으로 임의의 지점에서 사운드 필드를 계산할 수 있다. 그러므로, 볼륨이 크면, 비실제적인 많은 수의 센서가 필요하다. 또한, 이 방법은 볼륨 내에 사운드 소스가 존재하지 않는다고 가정하여, 알고리즘이 우리의 필요에 대해 가능하게 않게 한다. 관련 파장 필드 외삽법([8] 참조)은 외측 영역에 볼륨의 표면에 대한 공지된 사운드 필드를 외삽하는 것을 목적으로 한다. 그러나, 외삽 거리가 길어지고 사운드 진행 방향에 수직한 방향을 향한 외삽인 경우에 외삽 정확도가 급속히 떨어진다. 다음을 참조하라
[9] A. untz and R. Rabenstein의 "Limitations in the extrapolation of wave fields from circular measurements", 2007년 제15차 유럽 신호 프로세싱 회의((EUSIPCO 2007).
[10] A. Walther 및 C. Faller의 "Linear simulation of spaced microphone arrays using b-format recordings", 2010년 5월 영국 런던, 오디오 엔지니어링 소사이어티 컨벤션 128.
위 문헌은 평면파 모델을 설명하는데, 여기서는 필드 외삽이 실제 사운드 소스로부터 멀리 있는 지점, 가령, 측정 포인트에 근접한 지점에서만 가능하다.
종래 방안의 주요한 단점은 공간 이미지가 항상 사용되는 공간 마이크로폰에 대해 레코딩된다는 점이다. 많은 애플리케이션에서, 원하는 지점, 가령, 사운드 소스에 근접한 지점에 공간 마이크로폰을 배치하는 것이 가능하지 않다. 이러한 경우, 공간 마이크로폰을 사운드 신으로부터 더 멀리 배치하고도 원하는 사운드를 캡쳐할 수 있다면 보다 유리할 것이다.
[11] US 61/287,596: An Apparatus and a Method for Converting a First Parametric Spatial Audio Signal into a Second Parametric Spatial Audio Signal
위 문헌은, 라우드스피커 또는 헤드폰으로 재생될 때 실제 레코딩 위치를 다른 위치로 가상으로 이동시키는 방법을 제안한다. 그러나, 이 방안은 모든 사운드 오브젝트가 레코딩을 위해 사용되는 실제 공간 마이크로폰으로 동일한 거리를 갖는다고 가정하는 간단한 사운드 신으로 제한된다. 또한, 이 방법은 하나의 공간 마이크로폰의 장점만을 취할 수 있다.
본 발명의 하나의 목적은 기하학적 정보의 추출을 통해 사운드 수집에 대한 개선된 개념을 제공한다. 본 발명의 이 목적은 청구항 제1항에 따른 장치, 청구항 제24항에 따른 방법 및 청구항 제25항에 따른 컴퓨터 프로그램에 의해 달성된다.
일 실시예에 따르면, 어떤 환경에서 구성 가능한 가상 위치에서 가상 마이크로폰의 레코딩을 시뮬레이팅하기 위한 오디오 출력 신호를 생성하는 장치가 제공된다. 이 장치는 사운드 이벤트 위치 추정기 및 정보 계산 모듈을 포함한다. 사운드 이벤트 위치 추정기는 이 환경에서 사운드 파형을 발산하는 사운드 소스의 위치를 표시하는 사운드 소스 위치를 추정하는데, 사운드 이벤트 위치 추정기는, 이 환경에서 제 1 실제 마이크로폰 위치에 위치되는 제 1 실제 공간 마이크로폰에 의해 제공되는 제 1 방향 정보와, 이 환경에서 제 2 실제 마이크로폰 위치에 위치되는 제 2 실제 공간 마이크로폰에 의해 제공되는 제 2 방향 정보에 기초하여, 사운드 소스 위치를 추정하도록 구성된다.
정보 계산 모듈은, 제 1 실제 공간 마이크로폰에 의해 레코딩되는 제 1 레코딩된 오디오 입력 신호와, 제 1 실제 마이크로폰 위치와, 가상 마이크로폰의 가상 위치에 기초하여, 오디오 출력 신호를 발생시키도록 구성된다.
일 실시예에서, 정보 계산 모듈은 전파 보상기를 포함하는데, 전파 보상기는, 사운드 소스와 제 1 실제 공간 마이크로폰 사이의 제 1 진폭 감쇠 및 사운드 소스와 가상 마이크로폰 사이의 제 2 진폭 감쇠에 기초하여, 제 1 레코딩된 오디오 입력 신호의 진폭 값, 크기 값 또는 위상 값을 조절함으로써, 제 1 레코딩된 오디오 입력 신호를 수정하여 제 1 수정된 오디오 신호를 생성하도록 구성되어, 오디오 출력 신호를 획득한다. 일 실시예에서, 제 1 진폭 감쇠는 사운드 소스에 의해 방출되는 사운드 파형의 진폭 감쇠일 수 있으며, 제 2 진폭 감쇠는 사운드 소스에 의해 방출되는 사운드 파형의 진폭 감쇠일 수 있다.
다른 실시예에 따르면, 정보 계산 모듈은 전파 보상기를 포함하는데, 이는 제 1 실제 공간 마이크로폰에서 사운드 소스에 의해 방출되는 사운드 파형의 도달과 가상 마이크로폰에서 상기 사운드 파형의 도달 사이의 제 1 지연을 보상하여 제 1 레코딩된 오디오 입력 신호를 수정하고, 제 1 레코딩된 오디오 입력 신호의 진폭 값, 크기 값 또는 위상 값을 조절함으로써 제 1 수정된 오디오 신호를 생성하도록 구성되어, 오디오 출력 신호를 획득한다.
일 실시예에 따르면, 2개 이상의 공간 마이크로폰을 사용하는 것으로 가정하는데, 이는 이하에서 실제 공간 마이크로폰이라고 지칭한다. 각 실제 공간 마이크로폰에 있어서, 사운드의 DOA는 시간-주파수 영역에서 추정될 수 있다. 실제 공간 마이크로폰에 의해 수집된 정보로부터, 상대적 위치 정보와 함께, 환경에서 뜻대로 가상적으로 배치되는 임의의 공간 마이크로폰의 출력 신호를 구성할 수 있다. 이 공간 마이크로폰은 이하에서 가상 공간 마이크로폰이라고 지칭한다.
DOA(Direction of Arrival)는 2D 공간의 경우에는 방위각으로서 표현되고 3D 공간에서는 방위각과 고도 각 쌍으로 표현된다는 것을 유의하자. 마찬가지로, DOA에서 포인팅되는 단위 놈 벡터(unit norm vector)가 사용될 수 있다.
실시예에서,공간적으로 선택적인 방식으로 사운드를 캡쳐하기 위한 수단, 가령, 특정 목표 위치로부터 유래하는 사운드가 마치 근접 "스폿 마이크로폰"이 이 위치에 설치된 것처럼 픽업될 수 있는 수단이 제공된다. 그러나, 이 스폿 마이크로폰을 실제로 설치하는 대신, 다른 멀리 떨어진 위치에 배치되는 2개 이상의 공간 마이크로폰을 사용하여 출력 신호가 시뮬레이팅될 수 있다.
"공간 마이크로폰"이라는 용어는 사운드의 도달 방향을 검색할 수 있는 공간 사운드의 수집을 위한 장치(가령, 방향성 마이크로폰의 조합 또는 마이크로폰 어레이 등)를 지칭한다.
"비공간 마이크로폰"이라는 용어는 단일 전방향성 또는 방향성 마이크로폰과 같은 사운드 도달 방향을 검색하도록 구성되지 않는 임의의 장치를 지칭한다.
"실제 공간 마이크로폰"이라는 용어는 물리적으로 존재하는 전술한 공간 마이크로폰을 지칭한다는 것을 유의하자.
가상 공간 마이크로폰과 관련하여, 가상 공간 마이크로폰은 임의의 원하는 마이크로폰 유형 또는 마이크로폰 조합을 나타낼 수 있음을 유의해야 하며, 가령, 단일 전방향성 마이크로폰, 방향성 마이크로폰, 공통 스테레오 마이크로폰에서 사용되는 한 쌍의 방향성 마이크로폰 및 마이크로폰 어레이를 나타낼 수 있다.
본 발명은, 2개 이상의 실제 공간 마이크로폰이 사용될 때 사운드 이벤트의 2D 또는 3D 공간에서의 위치를 추정하여 위치 파악이 이루어질 수 있다는 점에 근거한다. 사운드 이벤트의 결정된 위치를 사용함으로써, 공간에 임의로 배치되고 지향되는 가상 공간 마이크로폰에 의해 레코딩된 사운드 신호가 계산될 수 있고, 또한 가상 공간 마이크로폰의 시점으로부터의 도달 방향과 같은 대응 공간 사이드 정보가 계산될 수 있다.
이를 위해, 각 사운드 이벤트는, 점상(point like) 사운드 소스, 가령, 등방성 점상 사운드 소스를 나타내도록 가정될 수 있다. 이하에서, "실제 사운드 소스"라는 용어는, 말하는 이 또는 악기와 같이, 레코딩 환경에서 물리적으로 존재하는 실제 사운드 소스를 지칭한다. 이와 반대로, 이하에서 "사운드 소스" 또는 "사운드 이벤트"와 관련하여, 소정 시점 또는 소정 시간-주파수 빈에서 액티브인 유효 사운드 소스를 지칭하는데, 사운드 소스는, 가령, 실제 사운드 소스 또는 미러 이미지 소스를 나타낼 수 있다. 일 실시예에 따르면, 사운드 신은 사운드 이벤트 또는 점상 사운드 소스의 크기로서 모델링될 수 있다. 또한, 각 소스는 사전 정의된 시간-주파수 표현으로 특정 시간 및 주파수 슬롯 내에서만 액티브이도록 가정될 수 있다. 실제 공간 마이크로폰 사이의 거리는 전파 시간의 최종 시간적 차가 시간-주파수 표현의 시간적 해상도보다 짧을 수 있다. 후자의 가정은 소정 사운드 이벤트가 동일한 타임 슬롯 내에서 모든 공간 마이크로폰에 의해 픽업되는 것을 보장한다. 이는, 동일한 시간-주파수 슬롯을 위한 상이한 공간 마이크로폰에서 추정된 DOA가 실제로 동일한 사운드 이벤트에 대응한다는 것을 암시한다. 이 가정은, 심지어 수 ms의 시간 해상도로 넓은 실내(가령, 거실 또는 회의실)에서도 서로 수 미터를 두고 배치되는 실제 공간 마이크로폰을 사용하여 충족하기 어렵지 않다.
마이크로폰 어레이는 사운드 소스의 위치를 파악하기 위해 사용될 수 있다. 위치가 파악된 사운드 소스는 그 성격에 따라 상이한 물리적 해석을 가질 수 있다. 마이크로폰 어레이가 직접 사운드를 수신하면, 진정한 사운드 소스(가령, 말하는 이)의 위치를 파악할 수 있다. 마이크로폰 어레이가 반사를 수신하면, 미러 이미지 소스의 위치를 파악할 수 있다. 미러 이미지 소스도 사운드 소스이다.
임의의 위치에 배치되는 가상 마이크로폰의 사운드 신호를 추정할 수 있는 파라메트릭 방법(parametric method)이 제공된다. 전술한 방법과 반대로, 제안되는 방법은 사운드 필드를 직접적으로 재구성하는 것을 목표로 하지 않고, 이 위치에 물리적으로 배치되는 마이크로폰에 의해 픽업될 사운드와 유사하게 감지되는 사운드를 제공하는 것을 목적으로 한다. 이는, 점상 사운드 소스, 가령, 등방성 점상 사운드 소스(IPLS)에 기초하여 사운드 필드의 파라메트릭 모델을 사용하여 달성될 수 있다. 요구되는 기하학적 정보, 즉, 모든 IPLS의 순간 위치는, 2개 이상의 분산형 마이크로폰 어레이를 사용하여 추정되는 도달 방향의 삼각 측량을 수행하여 얻어질 수 있다. 이는, 상대적 위치 및 어레이 지향 정보를 획득함으로써 달성될 수 있다. 그럼에도 불구하고, 실제 사운드 소스(가령, 말하는 이)의 수 및 위치에 대한 연역적 지식이 필요치 않다. 제안되는 개념, 가령, 제안되는 장치 또는 방법의 파라메트릭 성질로 인해, 가상 마이크로폰은 임의의 방향성 패턴을 가질 뿐만 아니라, 가령, 거리에 따른 압력 감쇠에 대한 임의의 물리적 또는 비물리적 동작을 가질 수 있다. 제공되는 방안은 반향하는 환경에서의 측정에 기초하여 파라미터 추정 정확도를 연구함으로써 증명되었다.
공간 오디오에 관한 종래 레코딩 기술은, 얻어진 공간 이미지가 마이크로폰이 물리적으로 배치된 위치에 대해 항상 상대적인 경우로 국한되어 왔으나, 본 발명의 실시예는 많은 애플리케이션을 고려하여 사운드 신 외부에 마이크로폰을 배치하는 것이 바람직하고 임의의 관점으로부터 사운드를 캡쳐할 수 있다. 실시예에 따르면, 마이크로폰은 사운드 신에 물리적으로 배치된 경우, 픽업될 사운드와 유사하게 감지되는 신호를 계산함으로써 공간의 임의의 지점에서 가상 마이크로폰을 가상으로 배치하는 개념이 제공된다. 실시예, 점상 사운드 소스, 가령, 점상 등방성 사운드 소스에 기초하여 사운드 필드의 파라메트릭 모델을 사용하는 개념을 적용할 수 있다. 요구되는 기하학적 정보는 2개 이상의 분산형 마이크로폰 어레이에 의해 수집될 수 있다.
실시예에 따르면, 사운드 이벤트 위치 추정기는, 제 1 방향 정보로서 제 1 실제 마이크로폰 위치에서의 사운드 소스에 의해 방출되는 사운드 파형의 도달의 제 1 방향 및 제 2 방향 정보로서 제 2 실제 마이크로폰 위치에서의 사운드 파형의 도달의 제 2 방향에 기초하여 사운드 소스 위치를 추정하도록 구성될 수 있다.
다른 실시예에서, 정보 계산 모듈은 공간 사이드 정보를 계산하기 위한 공간 사이드 정보 계산 모듈을 포함할 수 있다. 정보 계산 모듈은, 가상 마이크로폰의 위치 벡터 및 사운드 이벤트의 위치 벡터에 기초하여, 공간 사이드 정보로서 가상 마이크로폰에서의 도달 방향 또는 액티브 사운드 강도를 추정하도록 구성될 수 있다.
다른 실시예에 따르면, 전파 보상기는, 제 1 실제 공간 마이크로폰에서의 사운드 소스에 의해 방출되는 사운드 파형의 도달과, 가상 마이크로폰에서 사운드 파형의 도달 사이의 제 1 지연을 보상하고, 시간-주파수 영역에서 표현되는 제 1 레코딩된 오디오 입력 신호의 크기를 조절함으로써, 시간-주파수 영역에서 제 1 수정된 오디오 신호를 생성하도록 구성될 수 있다.
일 실시예에서, 전파 추정기는 다음 식
Figure pct00001
을 적용하여 제 1 수정된 오디오 신호의 수정된 크기 값을 생성함으로써 전파 보상을 수행하도록 구성될 수 있는데, 여기서, d1(k,n)은 제 1 실제 공간 마이크로폰의 위치와 사운드 이벤트의 위치 사이의 거리이고,s(k,n)는 가상 마이크로폰의 가상 위치와 사운드 이벤트의 사운드 소스 사이의 거리이며,Pref(k,n)은 시간-주파수 영역으로 나타내는 제 1 레코딩된 오디오 입력 신호의 크기 값이며,Pv(k,n)는 수정된 크기 값이다.
다른 실시예에서, 정보 계산 모듈은 조합기를 더 포함할 수 있는데, 전파 보상기는 또한, 제 2 실제 공간 마이크로폰에서 사운드 소스에 의해 방출되는 사운드 파형의 도달과 가상 마이크로폰에서 사운드 파형의 도달 사이의 제 2 지연 또는 제 2 진폭 감쇠를 보상하고, 제 2 레코딩된 오디오 입력 신호의 진폭 값, 크기 값 또는 위상 값을 조절함으로써 제 2 수정된 오디오 신호를 획득하여, 제 2 실제 공간 마이크로폰에 의해 레코딩되는 제 2 레코딩된 오디오 입력 신호를 수정하도록 구성되고, 조합기는 제 1 수정된 오디오 신호와 제 2 수정된 오디오 신호를 조합하여 조합 신호를 생성하여, 오디오 출력 신호를 획득한다.
다른 실시예에 따르면, 전파 보상기는 또한, 가상 마이크로폰에서의 사운드 파형의 도달과 다른 실제 공간 마이크로폰 각각에서의 사운드 소스에 의해 방출되는 사운드 파형의 도달 사이의 지연을 보상함으로써, 하나 이상의 다른 실제 공간 마이크로폰에 의해 레코딩되는 하나 이상의 다른 레코딩된 오디도 입력 신호를 수정하도록 구성될 수 있다. 지연 또는 진폭 감쇠 각각은 다른 레코딩된 오디오 입력 신호 각각의 진폭 값, 크기 값 또는 위상 값을 조절함으로써 보상되어 복수의 제 3 수정된 오디오 신호를 획득할 수 있다. 조합기는, 제 1 수정된 오디오 신호, 제 2 수정된 오디오 신호 및 복수의 제 3 수정된 오디오 신호를 조합함으로써 조합 신호를 생성하여 오디오 출력 신호를 ?득하도록 구성될 수 있다.
다른 실시예에서,정보 계산 모듈은, 가상 마이크로폰의 가상 위치에서의 사운드 파형의 도달 방향 및 가상 마이크로폰의 가상 지향(orientation)에 의존하여 제 1 수정된 오디오 신호를 수정하여 오디오 출력 신호를 획득함으로써 가중된 오디오 신호를 생성하는 스펙트럼 가중 유닛을 포함할 수 있으며, 제 1 수정된 오디오 신호는 시간-주파수 영역에서 수정될 수 있다.
또한, 정보 계산 모듈은, 가상 마이크로폰의 가상 위치에서의 사운드 파형의 도달 방향 및 가상 마이크로폰의 가상 지향에 의존하여 조합 신호를 수정하여 오디오 출력 신호를 획득함으로써 가중된 오디오 신호를 생성하는 스펙트럼 가중 유닛을 포함할 수 있으며, 조합 신호는 시간-주파수 영역에서 수정될 수 있다.
다른 실시예에 따르면, 스펙트럼 가중 유닛은 가중된 오디오 신호에 대해 가중 인수
Figure pct00002
또는 가중 인수
Figure pct00003
을 적용하도록 구성될 수 있는데, 여기서
Figure pct00004
은 가상 마이크로폰의 가상 위치에서 사운드 소스에 의해 방출되는 사운드 파형의 도달 벡터의 방향을 표시한다.
일 실시예에서, 전파 보상기는 또한, 전방향성 마이크로폰에서의 사운드 소스에 의해 방출되는 사운드 파형의 도달과 가상 마이크로폰에서의 사운드 파형의 도달 사이의 제 3 지연 또는 제 3 진폭 감쇠를 보상함으로써 전방향성 마이크로폰에 의해 레코딩되는 제 3 레코딩된 오디오 입력 신호를 수정하고, 제 3 레코딩된 오디오 입력 신호의 진폭 값, 크기 값 또는 위상 값을 조절하여 오디오 출력 신호를 획득함으로써, 제 3 수정된 오디오 신호를 생성하도록 구성된다.
다른 실시예에서,사운드 이벤트 위치 추정기는 3차원 환경에서 사운드 소스 위치를 추정하도록 구성될 수 있다.
또한, 다른 실시예에 따르면, 정보 계산 모듈은, 가상 마이크로폰에서의 확산 사운드 에너지 또는 가상 마이크로폰에서의 직접 사운드 에너지를 추정하도록 구성되는 확산 계산 유닛을 더 포함할 수 있다.
다른 실시예에 따르면, 확산 계산 유닛은 다음 식을 적용하여 가상 마이크로폰에서 확산 사운드 에너지
Figure pct00005
를 추정하도록 구성될 수 있는데,
Figure pct00006
여기서 N은 제 1 및 제 2 실제 공간 마이크로폰을 포함하는 복수의 실제 공간 마이크로폰의 수이며,
Figure pct00007
은 i번째 실제 공간 마이크로폰에서 확산 사운드 에너지이다.
다른 실시예에 따르면, 확산 계산 유닛은 다음 식을 적용하여 직접 사운드 에너지를 추정하도록 구성될 수 있는데,
Figure pct00008
여기서 "distance SMi - IPLS"는 i번째 실제 마이크로폰의 위치와 사운드 소스 위치 사이의 거리이고, "distance VM - IPLS"는 가상 위치와 사운드 소스 위치 사이의 거리이며,
Figure pct00009
은 i번째 공간 마이크로폰에서의 직접 에너지이다.
또한, 다른 실시예에 따르면, 확산 계산 유닛은 또한, 가상 마이크로폰에서의 확산 사운드 에너지 및 가상 마이크로폰에서의 직접 사운드 에너지를 추정하고 다음 식을 적용하여 가상 마이크로폰에서의 확산을 추정하도록 구성될 수 있다.
Figure pct00010
여기서, ψ( VM )은 추정되는 가상 마이크로폰에서의 확산을 표시하고,
Figure pct00011
는 추정되는 확산 사운드 에너지를 표시하며,
Figure pct00012
은 추정되는 직접 사운드 에너지를 표시한다.
본 발명의 바람직한 실시예를 설명할 것이다.
도 1은 일 실시예에 따른 오디오 출력 신호를 발생시키는 장치를 도시하고 있다.
도 2는 일 실시예에 따른 오디오 출력 신호를 발생시키는 장치 및 방법의 입력 및 출력을 도시하고 있다.
도 3은 사운드 이벤트 위치 추정기 및 정보 계산 모듈을 포함하는, 일 실시예에 따른 장치의 기본 구조를 도시하고 있다.
도 4는 각각 3개의 마이크로폰인 균일한 선형 어레이로서 도시된 실제 공간 마이크로폰의 예시적인 시나리오를 도시하고 있다.
도 5는 3D 공간의 도달 방향을 추정하기 위한, 3D에서의 2개의 공간 마이크로폰을 도시하고 있다.
도 6은, 현재 시간-주파수 빈(k,n)의 등방성 점상 사운드 소스가 위치 pIPLS(k,n)에 위치되는 기하구조를 도시하고 있다.
도 7은 일 실시예에 따른 정보 계산 모듈을 도시하고 있다.
도 8은 다른 실시예에 따른 정보 계산 모듈을 도시하고 있다.
도 9는 2개의 실제 공간 마이크로폰, 위치 파악된 사운드 이벤트 및 가상 공간 마이크로폰의 위치 및 대응 지연 및 진폭 감쇠를 도시하고 있다.
도 10은 일 실시예에 따른 가상 마이크로폰에 대한 도달 방향을 구하는 방식을 도시하고 있다.
도 11은 일 실시예에 따른 가상 마이크로폰의 관점으로부터 사운드의 도달 방향을 유도하는 가능한 방식을 설명하고 있다.
도 12는 일 실시예에 따른 확산 계산 유닛을 더 포함하는 정보 계산 블록을 도시하고 있다.
도 13은 일 실시예에 따른 확산 계산 유닛을 도시하고 있다.
도 14는 사운드 이벤트 위치 추정이 가능하지 않은 시나리오를 도시하고 있다.
도 15a 내지 15c는 2개의 마이크로폰 어레이가 직접 사운드, 벽에 반사된 사운드 및 확산 사운드를 수신하는 시나리오를 도시하고 있다.
도 1은 어떤 환경에서 구성 가능한 가상 위치에서 가상 마이크로폰(posVmic)의 레코딩을 시뮬레이팅하기 위한 오디오 출력 신호를 생성하는 장치를 도시하고 있다. 이 장치는 사운드 이벤트 위치 추정기(110) 및 정보 계산 모듈(120)을 포함한다. 사운드 이벤트 위치 추정기(110)는 제 1 실제 공간 마이크로폰으로부터 제 1 방향 정보(di1)을 수신하고, 제 2 실제 공간 마이크로폰으로부터 제 2 방향 정보(di2)를 수신한다. 사운드 이벤트 위치 추정기(110)는 이 환경에서 사운드 파형을 발산하는 사운드 소스의 위치를 표시하는 사운드 소스 위치(ssp)를 추정하는데, 사운드 이벤트 위치 추정기(110)는, 이 환경에서 제 1 실제 마이크로폰 위치에 위치되는 제 1 실제 공간 마이크로폰(pos1mic)에 의해 제공되는 제 1 방향 정보(di1)과, 이 환경에서 제 2 실제 마이크로폰 위치에 위치되는 제 2 실제 공간 마이크로폰에 의해 제공되는 제 2 방향 정보(di2)에 기초하여, 사운드 소스 위치(ssp)를 추정하도록 구성된다. 정보 계산 모듈(120)은, 제 1 실제 공간 마이크로폰에 의해 레코딩되는 제 1 레코딩된 오디오 입력 신호(is1)와, 제 1 실제 마이크로폰 위치(pos1mic)와, 가상 마이크로폰의 가상 위치(posVmic)에 기초하여, 오디오 출력 신호를 발생시키도록 구성된다. 정보 계산 모듈(120)은, 오디오 출력 신호를 획득하기 위해, 제 1 레코딩된 오디오 입력 신호의 진폭 값, 크기 값 또는 위상 값을 조절함으로써 제 1 실제 공간 마이크로폰에서 사운드 소스에 의해 방출되는 사운드 파형의 도달과 가상 마이크로폰에서 사운드 파형의 도달 사이의 제 1 지연 또는 진폭 감쇠를 보상하여 제 1 레코딩된 오디오 입력 신호(is1)를 수정함으로써 제 1 수정된 오디오 신호를 생성하도록 구성되는 전파 보상기를 포함한다.
도 2는 일 실시예에 따른 장치 및 방법의 입력 및 출력을 도시하고 있다. 둘 이상의 실제 공간 마이크로폰(111, 112, 11N)으로부터의 정보는 장치로 입력되거나 방법에 의해 처리된다. 이 정보는 실제 공간 마이크로폰에 의해 얻어진 오디오 신호뿐만 아니라 실제 공간 마이크로폰으로부터의 방향 정보, 가령, 도달 방향(DOA) 추정도 포함한다. 오디오 신호 및 도달 추정의 방향과 같은 방향 정보는 시간-주파수 영역으로 표현될 수 있다. 가령, 2D 기하학적 재구성을 원하고 신호의 표현을 위해 종래 STFT(short time Fourier transformation) 도메인이 선택되는 경우, DOA는 k 및 n, 즉, 주파수 및 시간 지수에 의존하는 방위각으로서 표현될 수 있다.
일 실시예에서, 가상 마이크로폰의 위치를 기술 및 공간의 사운드 이벤트 위치 파악은, 공통 좌표계의 실제 공간 마이크로폰 및 가상 마이크로폰의 위치 및 지향에 기초하여 수행될 수 있다. 이 정보는 도 2의 입력(121 ... 12N) 및 입력(104)로 표현될 수 있다. 입력(104)은 또한, 가상 공간 마이크로폰의 특징, 가령, 위치 및 픽업 패턴을 특정할 수 있는데, 이는 후술할 것이다. 가상 공간 마이크로폰이 다수의 가상 센서를 포함하는 경우, 그 위치 및 대응하는 상이한 픽업 패턴이 고려될 수 있다.
장치 또는 대응하는 방법의 출력은 필요한 경우에 하나 이상의 사운드 신호(105)일 수 있는데, 이는 104로 정의되고 배치되는 공간 마이크로폰에 의해 픽업되었을 수 있다. 또한, 장치(또는 방법)은 대응하는 공간 사이드 정보(106)를 출력으로서 제공할 수 있는데, 이는 가상 공간 마이크로폰을 사용함으로써 추정될 수 있다.
도 3은 일 실시예에 다른 장치를 도시하고 있는데, 이는 2개의 메인 프로세싱 유닛, 사운드 이벤트 위치 추정기(201) 및 정보 계산 모듈(202)을 포함한다. 사운드 이벤트 위치 추정기(201)는, 입력(111 ... 11N)에 포함되는 DOA에 기초하고, DOA가 계산된 실제 공간 마이크로폰의 위치 및 지향의 정보에 기초하여 기하학적 재구성을 실행할 수 있다. 사운드 이벤트 위치 추정기(205)의 출력은, 각 시간 및 주파수 빈(bin)에 대해 사운드 이벤트가 발생하는 사운드 소스의 위치 추정치(2D 또는 3D)를 포함한다. 제 2 프로세싱 블록(202)은 정보 계산 모듈이다. 도 3에 따르면, 제 2 프로세싱 블록(202)은 가상 마이크로폰 신호 및 공간 사이드 정보를 계산한다. 그러므로, 이는 가상 마이크로폰 신호 및 사이드 정보 계산 블록(202)이라고 한다. 가상 마이크로폰 신호 및 사이드 정보 계산 블록(202)은 사운드 이벤트 위치(205)를 사용하여 111 ... 11N에 포함된 오디오 신호를 처리하고 가상 마이크로폰 오디오 신호(105)를 출력한다. 필요한 경우, 블록(202)은 가상 공간 마이크로폰에 대응하는 공간 사이드 정보(106)를 계산할 수도 있다. 이하의 실시예는 블록(201 및 202)가 동작할 수 있는 가능성을 설명한다.
이하에서, 일 실시예에 따른 사운드 이벤트 위치 추정기의 위치 추정을 보다 상세히 설명한다.
문제의 차원수(2D 또는 3D) 및 공간 마이크로폰의 수에 의존하여, 위치 추정에 대한 여러 해결책이 가능하다.
2개의 2D 공간 마이크로폰이 존재하는 경우, (가장 간단한 경우에) 간단한 삼각 측량이 가능하다. 도 4는 각각 3개의 마이크로폰인 균일한 선형 어레이로서 도시된 실제 공간 마이크로폰의 예시적인 시나리오를 도시하고 있다. 방위각 a1(k, n) 및 a2(k,n)으로 표현되는 DOA는 시간-주파수 빈(k, n)에 대해 계산된다. 이는 ESPRIT와 같은 적합한 DOA 추정기를 사용하여 시간-주파수 영역으로 압력 신호를 변환한다.
[13] R. Roy, A. Paulraj, 및 T. ailath의 "Direction-of-arrival estimation by subspace rotation methods - ESPRIT", 1986년 4월 미국 캘리포니아 스탠포드, 음향, 스피치 및 신호 처리에 대한 IEEE 국제 회의(ICASSP).
또는 (root) MUSIC
[14] R. Schmidt의 "Multiple emitter location and signal parameter estimation", 1986년 IEEE 안테나 및 전파에 관한 트랜잭션(Transactions on Antennas and Propagation), vol.34, no.3, pp 276-280 참조.
도 4에서, 2개의 실제 공간 마이크로폰, 여기서 2개의 실제 공간 마이크로폰 어레이(410, 420)이 설명된다. 2개의 추정된 DOA a1(k,n) 및 a2(k,n)는 2개의 라인, DOA a1(k,n)을 나타내는 제 1 라인(430) 및 DOA a2(k,n)을 나타내는 제 2 라인(440)으로 표현된다. 이 삼각 측량은 각 어레이의 위치 및 지향을 아는 간단한 기하학적 고려사항을 통해 가능하다.
2개의 라인(430, 440)이 정확히 평행일 때에는 삼각 측량은 이루어지지 못한다. 그러나, 실제 적용함에 있어서 그럴 가능성은 매우 희박하다. 그러나, 고려되는 공간에서 모든 삼각 측량 결과가 사운드 이벤트에 대한 물리적 또는 가능한 위치에 대응하는 것은 아니다. 예를 들어, 사운드 이벤트의 추정된 위치는 너무 멀거나 심지어 가정되는 공간 외부일 수 있으며, 사용되는 모듈을 사용하여 물리적으로 해석될 수 있는 어떤 사운드 이벤트에도 DOA가 대응하지 않는다고 표시할 수 있다. 이러한 결과는, 센서 노이즈 또는 너무 강한 실내 잔향에 의해 야기될 수 있다. 그러므로, 일 실시예에 따르면, 이러한 원치 않는 결과는 정보 계산 모듈(202)이 이들을 올바르게 처리할 수 있도록 플래그된다.
도 5는 사운드 이벤트의 지점이 3D 공간에서 추정되는 시나리오를 도시하고 있다. 적합한 공간 마이크로폰, 가령, 평면 또는 3D 마이크로폰 어레이가 사용된다. 도 5에는, 제 1 공간 마이크로폰(510), 가령, 제1 3D 마이크로폰 어레이, 제 2 공간 마이크로폰(520), 가령, 제1 3D 마이크로폰 어레이가 도시되어 있다. 3D 공간의 DOA는, 가령, 방위각 및 고도로 표현될 수 있다. 단위 벡터(530, 540)를 사용하여 DOA를 나타낼 수 있다. 2개의 라인(550, 560)은 DOA에 따라 투영된다. 3D에서, 매우 신뢰할 수 있는 추정치일지라도, DOA에 따라 투영되는 2개의 라인(550, 560)은 교차하지 않을 수 있다. 그러나, 삼각 측량은, 가령, 2개의 라인을 잇는 최소 세그먼트의 중간 지점을 선택함으로써 여전히 수행될 수 있다.
2D 케이스와 유사하게, 삼각 측량은 방향의 소정 조합에 대해 이루어지지 못하거나 가능하지 않은 결과를 산출할 수 있는데, 이 역시 도 3의 정보 계산 모듈(202)에 플래그될 수 있다.
2개 이상의 마이크로폰이 존재하는 경우, 여러 해결책이 가능하다. 가령, 전술한 삼각 측량은 실제 공간 마이크로폰의 모든 쌍(N=3인 경우, 1과 2, 1과 3 및 2와 3)에 대해 수행될 수 있다. 그 후, (x 및 y, 3D인 경우에는 z를 따라) 최종 위치가 평균화될 수 있다.
이와 달리, 더 복잡한 개념이 사용될 수 있다. 가령, 확률론적 방안이 다음 문헌에 설명된 바와 같이 적용될 수 있다.
[15] J. Michael Steele의 "Optimal Triangulation of Random Samples in the Plane", The Annals of Probability, Vol.10, No.3 (1982년 8월), pp 548-553.
일 실시예에 따르면, 사운드 필드는, 가령, STFT(short-time Fourier transform)을 통해 얻어지는 시간-주파수 영역에서 분석될 수 있는데, 여기서 k 및 n은 각각 주파수 지수 k 및 시간 지수 n을 지칭한다. 소정 k 및 n에 대한 임의의 위치 pv에서의 복합 압력 Pv(k, n)은, 가령, 다음 식을 사용하여 협대역 등방성 점상 소스에 의해 발산되는 단일 구형파로서 모델링된다.
Figure pct00013
여기서, PIPLS(k,n)은 그 위치(pIPLS(k,n))에서 IPLS에 의해 발산되는 신호이다. 복합 인자
Figure pct00014
는, 가령, 적합한 위상 및 크기 수정을 도입하는 pIPLS(k,n)로부터 pv로의 전파를 표현한다. 여기서, 각 시간-주파수 빈에서 하나의 IPLS만이 액티브라고 가정할 수 있다. 그러나, 상이한 위치에 배치되는 다수의 협대역 IPLS가 동시에 액티브일 수도 있다.
각 IPLS는 직접 사운드를 모델링하거나 구분되는 실내 반사를 모델링한다. 이상적으로는, 그 위치(pIPLS(k,n))는 실내에 위치되는 실제 사운드 소스 또는 실외에 위치되는 미러 이미지 사운드 소스에 각각 대응될 수 있다. 그러므로, 위치(pIPLS(k,n))는 사운드 이벤트의 위치를 표시할 수도 있다.
"실제 사운드 소스"라는 용어는, 말하는 이 또는 악기와 같이, 레코딩 환경에서 물리적으로 존재하는 실제 사운드 소스를 지칭한다는 것을 유의하자. 이와 반대로, "사운드 소스", "사운드 이벤트" 또는 "IPLS"와 관련하여, 소정 시점 또는 소정 시간-주파수 빈에서 액티브인 유효 사운드 소스를 지칭하는데, 사운드 소스는, 가령, 실제 사운드 소스 또는 미러 이미지 소스를 나타낼 수 있다.
도 15a 및 15b는 사운드 소스의 위치를 파악하는 마이크로폰 어레이를 도시하고 있다. 위치가 파악된 사운드 소스는 그 성격에 따라 상이한 물리적 해석을 가질 수 있다. 마이크로폰 어레이가 직접 사운드를 수신하면, 진정한 사운드 소스(가령, 말하는 이)의 위치를 파악할 수 있다. 마이크로폰 어레이가 반사를 수신하면, 미러 이미지 소스의 위치를 파악할 수 있다. 미러 이미지 소스도 사운드 소스이다.
도 15a는, 2개의 마이크로폰 어레이(151, 152)가 실제 사운드 소스(153)(물리적으로 존재하는 사운드 소스)로부터 직접 사운드를 수신하는 시나리오를 도시하고 있다.
도 15b는 2개의 마이크로폰 어레이(161, 162)가 반사된 사운드를 수신하는 시나리오를 도시하고 있는데, 이 사운드는 벽에 의해 반사된다. 반사로 인해, 마이크로폰 어레이(161, 162)는 스피커(163)의 위치와는 상이한 미러 이미지 소스(165)의 위치에서 사운드가 온 것으로 보이는 위치를 파악한다.
도 15a의 실제 사운드 소스(153) 및 미러 이미지 소스(165) 모두가 사운드 소스이다.
도 15c는 2개의 마이크로폰 어레이(171, 172)가 확산된 사운드를 수신하지만 사운드 소스의 위치를 파악할 수 없는 시나리오를 도시하고 있다.
이 단일 파형 모델은 소스 신호가 WDO(W-disjoint orthogonality ) 상황, 즉, 시간-주파수 중첩이 충분히 작은 경우일 때, 약하게 반향하는 환경에서만 정확하다. 이는 보통 스피치 신호에 대해서만 참이며 다음 문헌을 참조하자.
[12] S. Rickard 및 Z. Yilmaz의 "On the approximate W-disjoint orthogonality of speech", 2002년 Acoustics, Speech and Signal Processing. ICASSP 2002. 2002년 4월 IEEE International Conference, vol.1
그러나, 이 모델은 다른 환경에 대해서도 우수한 추정을 제공하므로 이들 환경에 대해서도 적용 가능하다.
이하, 일 실시예에 따른 위치(pIPLS(k,n))의 추정을 설명한다. 소정 시간-주파수 빈의 액티브 IPLS의 위치(pIPLS(k,n)), 즉, 시간-주파수 빈의 사운드 이벤트의 추정치가 삼각 측량을 통해 추정되는데, 적어도 2개의 상이한 관측 지점에서 측정되는 사운드의 도달 방향(DOA)에 기초한다.
도 6은, 알려지지 않은 위치 pIPLS(k,n)에 현재 시간-주파수 슬롯(k,n)의 IPLS가 위치되는 기하구조를 도시하고 있다. 요구되는 DOA 정보를 결정하기 위해, 2개의 실제 공간 마이크로폰, 여기서는 2개의 마이크로폰 어레이는 알려진 기하구조, 위치 및 지향을 가지며, 각각 위치(610 및 620)에 배치된다. 벡터(p1 및 p2)는 각각 위치(610, 620)를 가리킨다. 어레이 지향은 단위 벡터(c1, c2)에 의해 정의된다. 사운드의 DOA는, 가령, DirAC 분석(참조 [2], [3])에 의해 제공되는 바와 같이, DOA 추정 알고리즘을 사용하여 각 (k,n)에 대해 위치(610, 620)에서 결정된다. 이로 인해, 마이크로폰 어레이의 관점에 대해 제 1 관점 단위 벡터 e1 POV(k,n) 및 제 2 관점 단위 벡터 e2 POV(k,n)(도 6에는 도시되지 않음)은 DirAC 분석의 출력으로서 제공될 수 있다. 가령, 2D 연산에서, 제 1 관점 단위 벡터는 다음을 얻는다.
Figure pct00015
여기서, φ1(k,n)는 제 1 마이크로폰 어레이에서 추정되는 DOA의 방위각을 나타내며, 이는 도 6에 도시되어 있다. 원점에서 전체 좌표계에 대해, 대응 DOA 단위 벡터 e1(k,n) 및 e2(k,n)은 다음 식을 적용하여 계산할 수 있다.
Figure pct00016
여기서 R은 좌표 변환 매트릭인데, 2D 연산이고
Figure pct00017
일 때, 가령 다음과 같다.
Figure pct00018
삼각 측량을 수행하기 위해, 방향 벡터 d1(k,n) 및 d2(k,n)는 다음과 같이 계산할 수 있다.
Figure pct00019
여기서
Figure pct00020
Figure pct00021
은 IPLS와 2개의 마이크로폰 어레이 사이의 알려지지 않은 거리이다. 다음 식
Figure pct00022
은 d1(k,n)에 대해 풀 수 있다. 최종적으로, IPLS의 위치 pIPLS(k,n)는 다음 식으로 주어진다.
Figure pct00023
다른 실시예에서, 식(6)은 d2(k,n)에 대해 풀 수 있고, pIPLS(k,n)는 유사하게 d2(k,n)을 사용하여 계산된다.
식(6)은 e1(k,n)과 e2(k,n)이 평행하지 않는 한 2D 연산에서 해(solution)를 항상 제공한다. 그러나, 2개 이상의 마이크로폰 어레이를 사용하거나 3D 연산인 경우, 방향 벡터 d가 교차하지 않으면 해를 구할 수 없다. 일 실시예에 따르면, 이 경우, 모든 방향 벡터 d에 가장 근접한 지점이 계산되고 그 결과가 IPLS의 위치로서 사용될 수 있다.
일 실시예에서, 모든 관측 지점(p1, p2,...)은 IPLS에 의해 방출되는 사운드가 동일한 시간 블록(n)에 떨어지도록 위치되어야 한다. 이 요구조건은 관측 지점의 어느 두 지점 사이의 거리(Δ)가 다음보다 작을 때 간단히 수행될 수 있다.
Figure pct00024
여기서, nFFT는 STFT 윈도우 길이이고, 0≤<R<1은 연속하는 시간 프레임 사이의 오버랩을 지정하며, fs는 샘플링 주파수이다. 가령, 가령, 50% 오버랩(R=0.5)을 갖는 48 kHz로 1024-포인트 STFT에 있어서, 전술한 요구조건을 수행하는 어레이들 사이의 최대 공간은 Δ=3.65m이다.
이하에서는, 일 실시예에 따른 정보 계산 모듈(202), 가령, 가상 마이크로폰 신호 및 사이드 정보 계산 모듈을 상세히 후술한다.
도 7은 일 실시예에 따른 정보 계산 모듈(202)의 개략적인 개요를 도시하고 있다. 정보 계산 유닛은 전파 보상기(500), 조합기(510) 및 스펙트럼 가중 유닛(520)을 포함한다. 정보 계산 모듈(202)은 사운드 이벤트 위치 추정기에 의해 추정되는 사운드 소스 위치 추정치(ssp)를 수신하고, 하나 이상의 오디오 입력 신호는 실제 공간 마이크로폰 중 하나 이상, 실제 공간 마이크로폰의 하나 이상의 위치(posRealMic), 및 가상 마이크로폰의 가상 위치(posVmic)에 의해 레코딩된다. 이는 가상 마이크로폰의 오디오 신호를 나타내는 오디오 출력 신호(os)를 출력한다.
도 8은 다른 실시예에 따른 정보 계산 모듈을 도시하고 있다. 도 8의 정보 계산 모듈은 전파 보상기(500), 조합기(510) 및 스펙트럼 가중 유닛(520)을 포함한다. 전파 보상기(500)는 전파 파라미터 계산 모듈(501) 및 전파 보상 모듈(504)을 포함한다. 조합기(510)는 조합 인자 계산 모듈(502) 및 조합 모듈(505)을 포함한다. 스펙트럼 가중 유닛(520)은 스펙트럼 가중치 계산 유닛(503), 스텍트럼 가중 적용 모듈(506) 및 공간 사이드 정보 계산 모듈(507)을 포함한다.
가상 마이크로폰의 오디오 신호를 계산하기 위해, 기하학적 정보, 가령, 실제 공간 마이크로폰(121 ... 12N)의 위치 및 지향, 가상 공간 마이크로폰(104)의 위치, 지향 및 특징, 및 사운드 이벤트(205)의 위치 추정치가 정보 계산 모듈(202)에 입력되는데, 특히 전파 보상기(500)의 전파 파라미터 계산 모듈(501), 조합기(510)의 조합 인자 계산 모듈(502) 및 공간 가중 유닛(520)의 스펙트럼 가중치 계산 유닛(503)으로 입력된다. 전파 파라미터 계산 모듈(501), 조합 인자 계산 모듈(502) 및 스펙트럼 가중치 조합 유닛(503)은 전파 보상 모듈(504), 조합 모듈(505) 및 스펙트럼 가중 적용 모듈(506)의 오디오 신호(111 ... 11N)의 수정에 사용되는 파라미터를 계산한다.
정보 계산 모듈(202)에서, 오디오 신호(111 ... 11N)은 사운드 이벤트 위치와 실제 공간 마이크로폰 사이의 상이한 전파 길이에 의해 주어지는 효과를 보상하도록 수정될 수 있다. 그 후, 신호가 조합되어, 가령, 신호 대 잡음 비(SNR)을 개선할 수 있다. 최종적으로, 임의의 거리 의존 이득 함수와 함께, 얻어진 신호는 가상 마이크로폰의 방향 픽업 패턴을 고려하여 스펙트럼적으로 가중될 수 있다. 이들 3개의 단계는 보다 상세히 후술할 것이다.
이제, 전파 보상을 상세히 설명한다. 도 9의 윗부분에는, 2개의 실제 공간 마이크로폰(제 1 마이크로폰 어레이(910) 및 제 2 마이크로폰 어레이(920)), 시간-주파수 빈(k,n)에 대한 위치 파악된 사운드 이벤트(930)의 위치 및 가상 공간 마이크로폰(940)의 위치가 도시되어 있다.
도 9의 아랫부분에는 시간축이 도시되어 있다. 사운드 이벤트는 시각(t0)에서 방출되며, 그 후 실제 공간 마이크로폰 및 가상 공간 마이크로폰으로 전파된다고 가정한다. 도달 시간 지연 및 진폭은 거리에 따라 변하여, 전파 거리가 길수록 진폭은 약해지고 도달 시간 지연은 길어진다.
2개의 실제 어레이에서의 신호는 이들 사이의 상대적 지연(Dt12)이 작은 경우에만 비교 가능하다. 그렇지 않으면, 2개의 신호 중 하나는 상대적 지연(Dt12)를 보상하기 위해, 그리고 가능하게는 상이한 감쇠를 보상하도록 스케일링되도록 시간적으로 재조정되어야 한다.
(실제 공간 마이크로폰 중 하나에서) 가상 마이크로폰에서의 도달과 실제 마이크로폰 어레이에서의 도달 사이의 지연의 보상은 사운드 이벤트의 위치 파악과는상관없이 지연을 변경하므로, 대부분의 애플리케이션에서는 불필요하다.
도 8을 다시 참조하면, 전파 파라미터 계산 모듈(501)은 각 실제 공간 마이크로폰 및 각 사운드 이벤트에 대해 지연이 교정되게 계산하도록 구성된다. 원하는 경우, 이는 상이한 진폭 감쇠를 보상하도록 이득 인자를 계산한다.
전파 보상 모듈(504)은 이 정보를 사용하여 오디오 신호를 이에 대응하게 수정하도록 구성된다. 신호가 (필터 뱅크의 타임 윈도우에 비해) 소량의 시간만큼 시프트되는 경우, 간단한 위상 회전만으로 충분하다. 지연이 클수록 더 정교한 구현이 필요하다.
전파 보상 모듈(504)의 출력은 본래 시간-주파수 영역으로 표현되는 수정된 오디오 신호이다.
이하에서, 일 실시예에 따른 가상 마이크로폰에 대한 전파 보상의 특정 추정을 도 6을 참조하여 설명하는데, 이는 특히 제 1 실제 공간 마이크로폰의 위치(610) 및 제 2 실제 공간 마이크로폰의 위치(620)를 도시하고 있다.
이제 설명할 실시예에서, 적어도 하나의 제 1 레코딩된 오디오 입력 신호, 가령, 실제 공간 마이크로폰 중 적어도 하나(가령, 마이크로폰 어레이)의 압력 신호가, 가령, 제 1 실제 공간 마이크로폰의 압력 신호로 이용 가능하다고 가정한다. 고려되는 마이크로폰을 기준 마이크로폰으로, 그 위치를 기준 위치(pref)로, 그 압력 신호를 기준 압력 신호(Pref(k,n))이라고 지칭할 것이다. 그러나, 전파 보상은 단 하나의 압력 신호에 대해 수행될 뿐만 아니라 복수의 실제 공간 마이크로폰 또는 실제 공간 마이크로폰 전부의 압력 신호에 대해 수행될 수 있다.
IPLS에 의해 방출되는 압력 신호(PIPLS(k,n))와 Pref에 위치되는 기준 마이크로폰의 기준 압력 신호(Pref(k,n)) 사이의 관계는 식(9)에 의해 표현될 수 있다.
Figure pct00025
일반적으로, 복합 인자
Figure pct00026
는 pa 내지 pb에서 그 원점으로부터 구형파의 전파에 의해 유도되는 위상 회전 및 진폭 감쇠를 표현한다. 그러나, 실제 테스트에서는
Figure pct00027
의 진폭 감쇠만을 고려하는 것은 위상 회전도 고려하는 것에 비해 현저히 적은 수의 아티팩트를 갖는 가상 마이크로폰의 그럴듯한 인상(plausible impressions)을 유도한다고 표시하였다.
공간의 소정 지점에서 측정될 수 있는 사운드 에너지는 사운드 소스, 도 6에서 사운드 소스의 위치(pIPLS)로부터의 거리(r)에 강하게 의존한다. 많은 상황에서, 이 의존성은, 잘 알려진 물리적 이론, 가령, 지점 소스의 먼 필드에서의 사운드 압력의 1/r 감쇠를 사용하여 충분한 정확도로 모델링될 수 있다. 사운드 소스로부터 기준 마이크로폰, 가령, 제 1 실제 마이크로폰의 거리가 알려진 경우, 또한 사운드 소스로부터 가상 마이크로폰의 거리가 알려진 경우, 가상 마이크로폰의 위치에서의 사운드 에너지는 기준 마이크로폰, 가령, 제 1 실제 공간 마이크로폰의 신호 및 에너지로부터 추정될 수 있다. 이는, 가상 마이크로폰의 출력 신호가 기준 압력 신호에 적합한 이득을 적용함으로써 얻어질 수 있다는 것을 의미한다.
제 1 실제 공간 마이크로폰을 기준 마이크로폰으로 가정하면, pref = p1이다. 도 6에서, 가상 마이크로폰은 pv에 위치된다. 도 6에 기하구조가 상세히 알려져 있으므로, 기준 마이크로폰(도 6에서는 제 1 실제 공간 마이크로폰)과 IPLS 사이의 거리
Figure pct00028
가 쉽게 결정될 수 있으며 가상 마이크로폰과 IPLS 사이의 거리
Figure pct00029
도 쉽게 결정될 수 있다.
Figure pct00030
가상 마이크로폰의 위치에서 사운드 압력 Pv(k,n)은 식 (1)과 (9)를 조합하여 계산되어, 다음을 얻는다.
Figure pct00031
전술한 바와 같이, 일부 실시예에서, 인자
Figure pct00032
는 전파로 인한 진폭 감쇠만을 고려할 수 있다. 가령, 사운드 압력이 1/r로 감소된다고 가정하면, 다음과 같다.
Figure pct00033
식(1)의 모델이 유지되는 경우, 가령, 직접 사운드만이 존재하는 경우, 식(12)는 크기(magnitude) 정보를 정확하게 재구성할 수 있다. 그러나, 순수 확산 사운드 필드의 경우, 가령, 모델 가정이 충족되지 않는 경우,제공된 방법은 가상 마이크로폰이 센서 어레이의 위치로부터 멀리 이동할 때 신호의 암시적 탈반향(dereverberation)을 얻는다. 실제로, 전술한 바와 같이, 확산 사운드 필드에서, 2개의 센서 어레이 부근에 대부분의 IPLS가 위치되는 것으로 예상한다. 따라서, 가상 마이크로폰이 이들 위치로부터 멀어지면, 도 6에서 거리
Figure pct00034
를 증가시킬 것이다. 그러므로, 기준 압력의 크기는 식(11)에 따른 가중을 적용할 때 감소된다. 이에 상응하게, 가상 마이크로폰이 실제 사운드 소스에 가까이 이동하면, 직접 사운드에 대응하는 시간-주파수 빈은 전체 오디오 신호가 덜 확산되는 것으로 감지되게 증폭될 것이다. 식(12)의 규칙을 조절함으로써, 직접 사운드 증폭 및 확산 사운드 억제를 뜻대로 제어할 수 있다.
제 1 실제 공간 마이크로폰의 레코딩된 오디오 입력 신호(가령, 압력 신호)에 대해 전파 보상을 수행함으로써, 제 1 수정된 오디오 신호가 얻어진다.
실시예에서, 제 2 수정된 오디오 신호는 제 2 실제 공간 마이크로폰의 레코딩된 제 2 오디오 입력 신호(제 2 압력 신호)에 대한 전파 보상을 수행함으로써 얻어질 수 있다.
다른 실시예에서, 추가 실제 공간 마이크로폰의 레코딩된 추가 오디오 입력 신호(추가 압력 신호)에 대한 전파 보상을 수행함으로써 추가 오디오 신호가 얻어질 수 있다.
이제, 일 실시예에 따른 도 8의 블록(502 및 505)에서의 조합을 상세히 설명한다. 복수의 상이한 실제 공간 마이크로폰으로부터 2개 이상의 오디오 신호가 상이한 전파 경로를 보상하도록 수정되어 2개 이상의 수정된 오디오 신호를 얻는다고 가정한다. 일단 상이한 실제 공간 마이크로폰으로부터의 오디오 신호가 상이한 전파 경로를 보상하기 위해 수정되면, 이는 오디오 품질을 향상시키도록 조합될 수 있다. 이렇게 함으로써, 가령, SNR이 증가되거나 반향이 감소될 수 있다.
조합을 위한 가능한 해결책은 다음을 포함한다.
- 가령, SNR를 고려한 가중된 평균, 가상 마이크로폰까지의 거리, 또는 실제 공간 마이크로폰에 의해 추정된 확산. 통상적인 해결책, 가령, MRC(Maximum Ratio Combining) 또는 EQC(Equal Gain Combining)가 사용될 수 있다.
- 조합 신호를 얻기 위해 수정된 오디오 신호의 일부 또는 전부의 선형 조합. 수정된 오디오 신호는 조합 신호를 얻기 위해 선형 조합에서 가중될 수 있다.
- 가령, SNR 또는 거리 또는 확산에 의존하여, 선택, 가령, 단 하나의 신호가 사용된다.
모듈(502)의 태스크는, 적용 가능한 경우, 조합을 위한 파라미터를 계산하고, 이는 모듈(50)에서 수행된다.
이제, 실시예에 따른 스펙트럼 가중을 보다 상세히 설명한다. 이를 위해, 도 8의 블록(503 및 506)을 참조한다. 이 최종 단계에서, 조합 또는 입력 오디오 신호의 전파 보상으로부터 얻어진 오디오 신호는입력(104)에 의해 지정되는 대로 및/또는 (205에서 주어진) 재구성된 기하구조에 따라 가상 공간 마이크로폰의 공간 특성에 따라 시간-주파수 영역에서 가중된다.
각 시간-주파수 빈에 대해, 도 10에 도시된 바와 같이, 기하학적 구성은 가상 마이크로폰에 대한 DOA를 쉽게 획득할 수 있게 한다. 또한, 가상 마이크로폰과 사운드 이벤트의 위치 사이의 거리도 쉽게 계산될 수 있다.
그 후, 시간-주파수 빈에 대한 가중치는 원하는 가상 마이크로폰의 유형을 고려하여 계산된다.
방향성 마이크로폰의 경우, 스펙트럼 가중치는 사전 정의된 픽업 패턴에 따라 계산될 수 있다. 예를 들어, 실시예에 따르면, 카디오이드 마이크로폰은 함수 g(theta)에 의해 정의되는 픽업 패턴을 가질 수 있다.
g(theta) = 0.5 + 0.5 cos(theta),
여기서, theta는 가상 공간 마이크로폰의 보는 방향과 가상 마이크로폰의 시점으로부터의 사운드의 DOA 사이의 각이다.
다른 가능성으로는 예술적(비물리적) 감쇠 함수이다. 소정 애플리케이션에서,자유 필드 전파를 특징짓는 것보다 큰 인수로 가상 마이크로폰으로부터 먼 사운드 이벤트를 억제하는 것이 바람직할 수 있다. 이를 위해, 일부 실시예는 가상 마이크로폰과 사운드 이벤트 사이의 거리에 의존하는 추가 가중 함수를 도입한다. 일 실시예에서, 가상 마이크로폰으로부터 소정 거리 (가령, 수 미터) 내의 사운드 이벤트만이 픽업되어야 한다.
가상 마이크로폰 방향성에 대해, 임의의 방향성 패턴이 가상 마이크로폰에 대해 적용될 수 있다. 이렇게 함에 있어, 가령, 복합 사운드 신으로부터 소스를 분리할 수 있다.
사운드의 DOA가 가상 마이크로폰의 위치(pv)에서 계산될 수 있으므로, 즉,
Figure pct00035
여기서 cv는 가상 마이크로폰의 지향을 기술하는 단위 벡터이며, 가상 마이크로폰에 대한 임의의 방향성이 실현될 수 있다. 가령, Pv(k,n)이 조합 신호 또는 전파가 보상되고 수정된 오디오 신호를 표시한다고 가정하면, 다음 식은
Figure pct00036
카디오이드 방향성을 갖는 가상 마이크로폰의 출력을 계산한다. 이 방식으로 잠재적으로 생성될 수 있는 방향 패턴은 위치 추정의 정확도에 의존한다.
실시예에서, 하나 이상의 실제의 비공간 마이크로폰, 가령, 카디오이드와 같은 전방향성 마이크로폰 또는 방향성 마이크로폰이 실제 공간 마이크로폰에 추가하여 사운드 신에 배치되어, 도 8의 가상 마이크로폰 신호(105)의 사운드 품질을 더 개선시킨다. 이들 마이크로폰은 임의의 기하학적 정보를 수집하는 데에 사용되지 않고 대신 보다 선명한 오디오 신호를 제공하는 데에만 사용된다. 이들 마이크로폰은 공간 마이크로폰보다 사운드 소스에 근접하게 배치될 수 있다. 이 경우, 일 실시예에 따르면, 실제의 비공간적 마이크로폰의 오디오 신호 및 그 위치는, 실제 공간 마이크로폰의 오디오 신호 대신, 프로세싱을 위해 도 8의 전파 보상 모듈(504)에 간단히 입력된다. 전파 보상은, 하나 이상의 비공간적 마이크로폰의 위치에 대해, 비공간적 마이크로폰의 하나 이상의 레코딩된 오디오 신호에 대해 수행된다. 이에 의해, 일 실시예는 추가적인 비공간적 마이크로폰을 사용하여 실현된다.
다른 실시예에서, 가상 마이크로폰의 공간 사이드 정보의 계산이 실현된다. 마이크로폰의 공간 사이드 정보(106)를 계산하기 위해, 도 8의 정보 계산 모듈(202)은 공간 사이드 정보 계산 모듈(507)을 포함하는데, 이는, 사운드 소스의 위치(205)와, 가상 마이크로폰의 위치, 지향 및 특성(104)을 입력으로서 수신하도록 구성된다. 소정 실시예에서, 계산될 필요가 있는 사이드 정보(106)에 따라, 가상 마이크로폰(105)의 오디오 신호도 공간 사이드 정보 계산 모듈(507)에 대한 입력으로서 고려될 수 있다.
공간 사이드 정보 계산 모듈(507)의 출력은 가상 마이크로폰(106)의 사이드 정보이다. 예를 들어, 이 사이드 정보는 가상 마이크로폰의 시점으로부터 각 시간-주파수 빈(k,n)에 대한 사운드의 DOA 또는 확산일 수 있다. 다른 가능한 사이드 정보는, 가령, 가상 마이크로폰의 위치에서 측정된 액티브 사운드 강도 벡터 Ia(k,n)일 수 있다. 이들 파라메터를 어떻게 도출할 수 있는지를 설명할 것이다.
일 실시예에 따르면, 가상 공간 마이크로폰을 위한 DOA 추정이 실현된다. 정보 계산 모듈(120)은, 가상 마이크로폰의 위치 벡터 및 도 11에 도시된 바와 같은 사운드 이벤트의 위치 벡터에 기초하여, 공간 사이드 정보로서 가상 마이크로폰에서의 도달 방향을 추정하도록 구성된다.
도 11은 가상 마이크로폰의 시점으로부터 사운드의 도달 방향을 유도하는 가능한 방식을 도시하고 있다. 도 8의 블록(205)에 의해 제공되는 사운드 이벤트의 위치는 위치 벡터 r(k,n), 사운드 이벤트의 위치 벡터로 각 시간-주파수 빈(k,n)에 대해 설명될 수 있다. 유사하게, 도 8의 입력(104)으로 제공되는 가상 마이크로폰의 위치는 위치 벡터 s(k,n), 가상 마이크로폰의 위치 벡터로 설명될 수 있다. 가상 마이크로폰의 보는 방향은 벡터 v(k,n)에 의해 설명될 수 있다. 가상 마이크로폰에 대한 DOA는 a(k,n)으로 주어진다. 이는 v와 사운드 전파 경로 h(k,n) 사이의 각을 나타낸다. h(k,n)은 다음 식을 사용하여 계산될 수 있다.
Figure pct00037
이제 원하는 DOA a(k,n)는, 각 (k,n)에 대해 가령, h(k,n)와 v(k,n)의 내적의 정의를 통해 계산될 수 있다. 즉,
Figure pct00038
다른 실시예에서, 정보 계산 모듈(120)은, 가상 마이크로폰의 위치 벡터 및 도 11에 도시된 바와 같은 사운드 이벤트의 위치 벡터에 기초하여, 공간 사이드 정보로서 가상 마이크로폰에서의 액티브 사운드 강도를 추정하도록 구성될 수 있다.
위에서 정의된 DOA a(k,n)으로부터, 가상 마이크로폰의 위치에서 액티브 사운드 강도 Ia(k,n)를 유출할 수 있다. 이를 위해, 도 8의 가상 마이크로폰 오디오 신호(105)가 전방향성 마이크로폰의 출력에 대응한다고 가정하며, 가령, 가상 마이크로폰은 전방향성 마이크로폰으로 가정한다. 또한, 도 11의 보는 방향 v는 좌표계의 x축에 평행한 것으로 가정한다. 원하는 액티브 사운드 강도 벡터 Ia(k,n)는 가상 마이크로폰의 위치를 통해 순(net) 에너지 흐름을 기술하므로, 다음 식에 따라 Ia(k,n)를 계산할 수 있다.
Figure pct00039
여기서 [ ]T는 전치 벡터(transposed vector)를 나타내고, rho는 공기 밀도이며, Pv(k,n)는 가상 공간 마이크로폰, 가령, 도 8의 블록(506)의 출력에 의해 측정되는 사운드 압력이다.
액티브 강도 벡터가 전반적인 좌표계에서 계산되고 표현되지만 여전히 가상 마이크로폰의 위치인 경우, 다음의 식이 적용될 수 있다.
Figure pct00040
사운드의 확산은 주어진 시간-주파수 슬롯에서 사운드 필드를 어떻게 확산시키는지를 나타낸다(가령, [2] 참조). 확산은 값 ψ에 의해 표현되는데, 여기서 0 ≤ψ≤1이다. 1의 확산은 사운드 필드의 총 사운드 필드 에너지가 완전히 확산한다는 것을 의미한다. 이 정보는, 가령, 공간 사운드의 재생에서 중요하다. 통상적으로, 확산은 마이크로폰 어레이가 배치되는 공간의 특정 지점에서 계산된다.
일 실시예에 따르면, 확산은 가상 마이크로폰(VM)을 위해 생성되는 사이드 정보에 대한 추가 파라미터로서 계산될 수 있는데, 이는 사운드 신의 임의의 위치에서 뜻대로 배치될 것이다. 이에 의해, 가상 마이크로폰의 가상 위치에서의 오디오 신호 외에도 확산을 계산하는 장치는 가상 DirAC 프론트-엔드로서 보여질 수 있는데, 이는 사운드 신의 임의의 지점에 대한 DirAC 스트림, 즉, 오디오 신호, 도달 방향 및 확산을 생성할 수 있기 때문이다. DirAC 스트림은 임의의 멀티-라우드스피커 셋업에서 추가 프로세싱, 저장, 전송 및 재생될 수 있다. 이 경우, 듣는 이는 자신이 가상 마이크로폰에 의해 특정되는 위치에서 그 지향에 의해 결정되는 방향을 보는 것처럼 사운드 신을 체험하게 된다.
도 12는 가상 마이크로폰에서 확산을 계산하기 위한 확산 계산 유닛(801)을 포함하는 일 실시예에 따른 정보 계산 블록을 도시하고 있다. 정보 계산 블록(202)은 입력 111 내지 11N을 수신하도록 구성되는데, 이는 도 3의 입력에 추가하여 실제 공간 마이크로폰에서의 확산을 포함한다. ψ( SM1 ) 및 ψ( SMN ) 을 이들 값을 나타내게 하자. 이들 추가 입력은 정보 계산 모듈(202)에 입력된다. 확산 계산 유닛(801)의 출력(103)은 가상 마이크로폰의 위치에서 계산되는 확산 파라미터이다.
일 실시예의 확산 계산 유닛(801)은 도 13에 보다 상세히 도시되어 있다. 일 실시예에 따르면, N개의 공간 마이크로폰 각각에서의 직접 사운드 및 확산 사운드의 에너지가 추정된다. IPLS의 위치에 관한 정보 및 공간 및 가상 마이크로폰의 위치에 관한 정보를 사용하여, 가상 마이크로폰의 위치에서의 이들 에너지의 N개의 추정치가 획득된다. 최종적으로, 추정치는 추정 정확도를 개선하도록 조합될 수 있고, 가상 마이크로폰에서의 확산 파라미터가 쉽게 계산될 수 있다.
Figure pct00041
내지
Figure pct00042
Figure pct00043
내지
Figure pct00044
은, 에너지 분석 유닛(810)에 의해 계산되는 N개의 공간 마이크로폰에 대한 직접 사운드 및 확산 사운드의 에너지의 추정치를 나타낸다. Pi가 복합 압력 신호이고 ψi가 i번째 공간 마이크로폰에 대한 확산인 경우,예를 들어, 에너지는 다음 식에 따라 계산될 수 있다.
Figure pct00045
확산 사운드의 에너지는 모든 위치에서 같아야 하므로, 가상 마이크로폰에서의 확산 사운드 에너지
Figure pct00046
의 추정은, 가령, 다음 식에 따라 확산 조합 유닛(820)에서 간단히
Figure pct00047
내지
Figure pct00048
의 평균을 구하여 계산될 수 있다.
Figure pct00049
보다 효율적인 추정치
Figure pct00050
내지
Figure pct00051
의 조합은, 가령, SNR을 고려함으로써 추정기의 변동을 고려하여 수행될 수 있다.
직접 사운드의 에너지는 전파로 인해 소스까지의 거리에 의존한다. 그러므로,
Figure pct00052
내지
Figure pct00053
이 이를 고려하여 수정될 수 있다. 이는, 가령, 직접 사운드 전파 조절 유닛(830)에 의해 수행될 수 있다. 예를 들어, 직접 사운드 필드의 에너지가 거리 제곱에 1씩 감쇠한다고 가정하면, i번째 공간 마이크로폰에 대한 가상 마이크로폰에서의 직접 사운드에 대한 추정치는 다음 식에 따라 계산될 수 있다.
Figure pct00054
확산 조합 유닛(820)과 유사하게, 상이한 공간 마이크로폰에서 얻어진 직접 사운드 에너지의 추정치는, 가령, 직접 사운드 조합 유닛(840)에 의해 조합될 수 있다. 이 결과
Figure pct00055
는, 가령, 가상 마이크로폰에서의 직접 사운드 에너지에 대한 추정치이다. 가상 마이크로폰에서의 확산
Figure pct00056
은, 가령, 다음 식에 따라 확산 서브-계산기(850)에 의해 계산될 수 있다.
Figure pct00057
전술한 바와 같이, 경우에 따라,사운드 이벤트 위치 추정기에 의해 수행되는 사운드 이벤트 위치 추정은, 가령, 잘못된 도달 방향 추정의 경우에 실패한다. 도 14는 이러한 시나리오를 도시하고 있다. 이들 경우에서,상이한 공간 마이크로폰에서 추정된 확산 파라미터와 무관하게 입력(111 내지 11N)으로 수신되는 대로, 가상 마이크로폰(103)에 대한 확산은 1(즉, 완전한 확산)로 설정될 수 있고, 공간적으로 코히어런트한 재생은 가능하지 않다.
또한, N개의 공간 마이크로폰에서의 DOA 추정치의 신뢰도가 고려될 수 있다. 이는, 가령, DOA 추정기 또는SNR의 변동과 관련하여 표현될 수 있다. 이러한 정보는 확산 서브-계산기(850)에 의해 고려될 수 있어서, VM 확산(103)은 DOA 추정치가 신뢰 가능하지 않는 경우에 인위적으로 증가될 수 있다. 실제로, 결과로서, 위치 추정(205)도 신뢰 가능하지 않을 것이다.
장치와 관련하여 일부 양태를 설명하였으나, 이들 양태는 대응하는 방법의 설명을 대표할 수도 있다는 것은 자명하며, 블록 또는 디바이스는 방법 단계 또는 방법 단계의 특징에 대응한다. 유사하게, 방법 단계와 관련하여 설명되는 양태는 또한 대응하는 블록 또는 아이템 또는 장치의 특징을 나타낸다.
본 발명의 분해된 신호는디지털 저장 매체에 저장될 수 있거나무선 전송 매체 또는 인터넷과 같은 유선 전송 매체 등의 전송 매체상에서 전송될 수 있다.
소정 구현 요구조건에 따라서, 본 발명의 실시예는 하드웨어 또는 소프트웨어로 구현될 수 있다. 구현은 디지털 저장 매체, 가령, 플로피 디스크, DVD, CD, ROM, PROM, EPROM, EEPROM 또는 FLASH 메모리를 사용하여 수행될 수 있으며, 전자적으로 판독 가능한 제어 신호를 저장하고 각 방법이 수행되도록 프로그래밍 가능한 컴퓨터 시스템과 함께 동작한다(또는 동작 가능하다).
본 발명에 따른 일부 실시예는 전자적으로 판독 가능한 제어 신호를 갖는 비일시적인 데이터 캐리어를 포함하는데, 프로그래밍 가능한 컴퓨터 시스템과 함께 동작할 수 있어서, 본 명세서에서 설명되는 방법 중 하나가 수행된다.
일반적으로, 본 발명의 실시예는 프로그램 코드를 갖는 컴퓨터 프로그램 제품으로서 구현될 수 있으며, 프로그래밍 코드는 컴퓨터 프로그램 제품이 컴퓨터 상에서 실행되면 방법 중 하나를 수행하도록 동작가능하다. 프로그램 코드는, 가령, 머신 판독 가능한 캐리어에 저장될 수 있다.
다른 실시예는 본 명세서에서 설명되는 방법 중 하나를 수행하고 머신 판독 가능한 캐리어에 저장되는 컴퓨터 프로그램을 포함한다.
다시 말해, 본 발명의 방법의 일 실시예는 컴퓨터 프로그램이 컴퓨터상에서 실행되면 본 명세서에서 설명되는 방법 중 하나를 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.
그러므로, 본 발명의 다른 실시예는 본 명세서에서 설명되는 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 저장하여 포함하는 데이터 캐리어(또는 디지털 저장 매체 또는 컴퓨터 판독 가능한 매체)이다.
그러므로, 본 발명의 방법의 다른 실시예는 본 명세서에서 설명되는 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 나타내는 데이터 스트림 또는 신호 시퀀스이다. 데이터 스트림 또는 신호 시퀀스는, 가령, 데이터 통신 접속, 가령, 인터넷을 통해 전송되도록 구성될 수 있다.
다른 실시예는 본 명세서에서 설명되는 방법 중 하나를 수행하기 위해 구성되거나 적응되는 프로세싱 수단, 가령, 컴퓨터, 또는 프로그래밍 가능한 로직 디바이스를 포함한다.
다른 실시예는 본 명세서에서 설명되는 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 갖는 컴퓨터를 포함한다.
일부 실시예에서, 프로그래밍 가능한 로직 디바이스(가령, FPGA(field programmable gate array))는 본 명세서에서 설명되는 방법의 기능 중 일부 또는 전부를 수행하도록 사용될 수 있다. 일부 실시예에서, FPGA는 본 명세서에서 설명되는 방법 중 하나를 수행하기 위해 마이크로프로세서와 함께 동작할 수 있다. 일반적으로, 이 방법은 임의의 하드웨어 장치에 의해 수행되는 것이 바람직하다.
전술한 실시예는 단지 본 발명의 원리를 예시하기 위한 것이다. 본 명세서에서 설명되는 배치 및 세부사항의 수정 및 변형은 다른 당업자에게 명백하다는 것을 이해해야 한다. 그러므로, 등록될 특허 청구항의 범위에 의해서만 제한되도록 의도되며, 본 명세서의 실시예의 설명에 의해 제공되는 특정 세부사항에 의해서는 제한되지 않는다.
문헌:
[1] R. K. Furness의 1990년 4월, 제 8차 AES 국제회의, "Ambisonics - An overview", pp 181-189.
[2] V. Pulkki의 "Directional audio coding in spatial sound reproduction and stereo upmixing", pp 251-258, 스웨덴, 피테오, 제 28 차 AES 국제회의 2006년 6월 30일 - 7월 2일.
[3] V. Pulkki의 "Spatial sound reproduction with directional audio coding", 2007년 6월, J. Audio Eng. Soc, vol.55, no.6, pp 503-516.
[4] C. Fallen의 "Microphone Front-Ends for Spatial Audio Coders", 2008년 10월, 샌프란시스코, 제 125차 AES 국제 회의 중.
[5] M. Kallinger, H. Ochsenfeld, G. Del Galdo, F. Kuch, D. Mahne, R. Schultz-Amling. 및 O. Thiergart의 "A spatial filtering approach for directional audio coding," 2009년 5월 독일 뮌헨, 오디오 엔지니어링 소사이어티 컨벤션 126.
[6] R. Schultz-Amling, F. Kuch, O. Thiergart, 및 M. Kallinger의 "Acoustical zooming based on a parametric sound field representation", 2010년 5월, 영국 런던, 오디오 엔지니어링 소사이어티 컨벤션 128.
[7] J. Herre, C. Falch, D. Mahne, G. Del Galdo, M. Kallinger 및 O. Thiergart, "Interactive teleconferencing combining spatial audio object coding and DirAC technology", 2010년 5월 영국 런던, 오디오 엔지니어링 소사이어티 컨벤션 128.
[8] E. G. Williams의 "Fourier Acoustics: Sound Radiation and Nearfield Acoustical Holography", 1999년 Academic Press.
[9] A. Kuntz and R. Rabenstein의 "Limitations in the extrapolation of wave fields from circular measurements", 2007년 제15차 유럽 신호 프로세싱 회의((EUSIPCO 2007).
[10]A. Walther 및 C. Faller의 "Linear simulation of spaced microphone arrays using b-format recordings", 2010년 5월 영국 런던, 오디오 엔지니어링 소사이어티 컨벤션 128.
[11] US61/287,596: An Apparatus and a Method for Converting a First Parametric Spatial Audio Signal into a Second Parametric Spatial Audio Signal
[12] S. Rickard 및 Z. Yilmaz의 "On the approximate W-disjoint orthogonality of speech", 2002년 Acoustics, Speech and Signal Processing. ICASSP 2002. 2002년 4월 IEEE International Conference, vol.1
[13] R. Roy, A. Paulraj, 및 T. Kailath의 "Direction-of-arrival estimation by subspace rotation methods - ESPRIT", 1986년 4월 미국 캘리포니아 스탠포드, 음향, 스피치 및 신호 처리에 대한 IEEE 국제 회의(ICASSP).
[14] R. Schmidt의 "Multiple emitter location and signal parameter estimation", 1986년 IEEE 안테나 및 전파에 관한 트랜잭션(Transactions on Antennas and Propagation), vol.34, no.3, pp 276-280.
[15] J. Michael Steele의 "Optimal Triangulation of Random Samples in the Plane", The Annals of Probability, Vol.10, No.3 (1982년 8월), pp 548-553.
[16] F.J.Fahy의 Sound Intensity, Essex: Elsevier Science Publishers Ltd., 1989년.
[17] R. Schultz-Amling, F. Kuch, M. Kallinger, G. Del Galdo, T. Ahonen 및 V. Pulkki의 "Planar microphone array processing for the analysis and reproduction of spatial audio using directional audio coding", 2008년 5월 네덜란드 암스테르담, 오디오 엔지니어링 소사이어티 컨벤션 124.
[18] M. Kallinger, F. Kuch, R. Schultz-Amling, G. Del Galdo, T. Ahonen 및 V. Pulkki의 "Enhanced direction estimation using microphone arrays for directional audio coding", 2008년 5월, Hands-Free Speech Communication and Microphone Arrays, 2008(HSCMA 2008), pp 45-48.

Claims (25)

  1. 환경에서 구성 가능한 가상 위치에서 가상 마이크로폰의 레코딩을 시뮬레이팅하기 위해 오디오 출력 신호를 생성하는 장치로서,
    상기 환경에서 사운드 소스의 위치를 표시하는 사운드 소스 위치를 추정하는 사운드 이벤트 위치 추정기(110) - 상기 사운드 이벤트 위치 추정기(110)는, 상기 환경의 제 1 실제 마이크로폰 위치에 위치되는 제 1 실제 공간 마이크로폰에 의해 제공되는 제 1 방향 정보 및 상기 환경의 제 2 실제 마이크로폰 위치에 위치되는 제 2 실제 공간 마이크로폰에 의해 제공되는 제 2 방향 정보에 기초하여 상기 사운드 소스 위치를 추정하도록 구성됨 - 와,
    제 1 레코딩된 오디오 입력 신호, 상기 제 1 실제 마이크로폰 위치, 상기 가상 마이크로폰의 상기 가상 위치 및 상기 사운드 소스 위치에 기초하여 상기 오디오 출력 신호를 생성하는 정보 계산 모듈(120)을 포함하는
    장치.
  2. 제 1 항에 있어서,
    상기 정보 계산 모듈(120)은 전파 보상기(500)를 포함하되,
    상기 전파 보상기(500)는, 상기 오디오 출력 신호를 획득하기 위해, 상기 사운드 소스와 상기 제 1 실제 공간 마이크로폰 사이의 제 1 진폭 감쇠 및 상기 사운드 소스와 상기 가상 마이크로폰 사이의 제 2 진폭 감쇠에 기초하여, 상기 제 1 레코딩된 오디오 입력 신호의 진폭 값, 크기 값 또는 위상 값을 조절함으로써, 상기 제 1 레코딩된 오디오 입력 신호를 수정하여 제 1 수정된 오디오 신호를 생성하도록 구성되는
    장치.
  3. 제 1 항에 있어서,
    상기 정보 계산 모듈(120)은 전파 보상기(500)를 포함하되,
    상기 전파 보상기(500)는, 상기 오디오 출력 신호를 획득하기 위해, 상기 제 1 레코딩된 오디오 입력 신호의 진폭 값, 크기 값 또는 위상 값을 조절함으로써 상기 제 1 실제 공간 마이크로폰에서 상기 사운드 소스에 의해 방출되는 사운드 파형의 도달과 상기 가상 마이크로폰에서 상기 사운드 파형의 도달 사이의 제 1 지연을 보상하여 상기 제 1 레코딩된 오디오 입력 신호를 수정함으로써 제 1 수정된 오디오 신호를 생성하도록 구성되는
    장치.
  4. 제 2 항 또는 제 3항에 있어서,
    상기 제 1 실제 공간 마이크로폰은 상기 제 1 레코딩된 오디오 입력 신호를 레코딩하도록 구성되는
    장치.
  5. 제 2 항 또는 제 3항에 있어서,
    제 3 마이크로폰은 상기 제 1 레코딩된 오디오 입력 신호를 레코딩하도록 구성되는
    장치.
  6. 제 2 항 내지 제 5 항 중 어느 한 항에 있어서,
    상기 사운드 이벤트 위치 추정기(110)는 상기 제 1 방향 정보로서 상기 제 1 실제 마이크로폰 위치에서의 상기 사운드 소스에 의해 방출되는 상기 사운드 파형의 도달의 제 1 방향 및 상기 제 2 방향 정보로서 상기 제 2 실제 마이크로폰 위치에서의 상기 사운드 파형의 도달의 제 2 방향에 기초하여 상기 사운드 소스 위치를 추정하도록 구성되는
    장치.
  7. 제 2 항 내지 제 6 항 중 어느 한 항에 있어서,
    상기 정보 계산 모듈(120)은 공간 사이드 정보를 계산하기 위해 공간 사이드 정보 계산 모듈(507)을 포함하는
    장치.
  8. 제 7 항에 있어서,
    상기 정보 계산 모듈(120)은, 상기 가상 마이크로폰의 위치 벡터 및 상기 사운드 이벤트의 위치 벡터에 기초하여, 공간 사이드 정보로서 상기 가상 마이크로폰에서의 도달 방향 또는 액티브 사운드 강도를 추정하도록 구성되는
    장치.
  9. 제 2 항에 있어서,
    상기 전파 보상기(500)는, 상기 사운드 소스와 상기 제 1 실제 공간 마이크로폰 사이의 제 1 진폭 감쇠 및 상기 사운드 소스와 상기 가상 마이크로폰 사이의 상기 제 2 진폭 감쇠에 기초하여, 시간-주파수 영역에서 표현되는 상기 제 1 레코딩된 오디오 입력 신호의 상기 크기 값을 조절함으로써, 시간-주파수 영역에서 상기 제 1 수정된 오디오 신호를 생성하도록 구성되는
    장치.
  10. 제 3 항에 있어서,
    상기 전파 보상기(500)는, 시간-주파수 영역에서 표현되는 상기 제 1 레코딩된 오디오 입력 신호의 상기 크기 값을 조절함으로써, 상기 제 1 실제 공간 마이크로폰에서의 상기 사운드 소스에 의해 방출되는 상기 사운드 파형의 도달과 상기 가상 마이크로폰에서 상기 사운드 파형의 상기 도달 사이의 상기 제 1 지연을 보상하여, 시간-주파수 영역에서 상기 제 1 수정된 오디오 신호를 생성하도록 구성되는
    장치.
  11. 제 2 항 내지 제 10 항 중 어느 한 항에 있어서,
    상기 전파 보상기(500)는 식
    Figure pct00058

    을 적용하여 상기 제 1 수정된 오디오 신호의 수정된 크기 값을 생성함으로써 전파 보상을 수행하도록 구성되되,
    d1(k,n)은 상기 제 1 실제 공간 마이크로폰의 위치와 상기 사운드 이벤트의 위치 사이의 거리이고, s(k,n)는 상기 가상 마이크로폰의 가상 위치와 상기 사운드 이벤트의 사운드 소스 사이의 거리이며, Pref(k,n)은 시간-주파수 영역에서 나타내는 상기 제 1 레코딩된 오디오 입력 신호의 크기 값이며, Pv(k,n)는 상기 가상 마이크로폰의 신호에 대응하는 상기 수정된 크기 값인
    장치.
  12. 제 2 항 내지 제 11 항 중 어느 한 항에 있어서,
    상기 정보 계산 모듈(120)은 조합기(510)를 더 포함하고,
    상기 전파 보상기(500)는 또한, 상기 제 2 레코딩된 오디오 입력 신호의 진폭 값, 크기 값 또는 위상 값을 조절함으로써, 상기 제 2 실제 공간 마이크로폰에서 상기 사운드 소스에 의해 방출되는 사운드 파형의 도달과 상기 가상 마이크로폰에서 상기 사운드 파형의 도달 사이의 제 2 지연 또는 제 2 진폭 감쇠를 보상함으로써, 상기 제 2 실제 공간 마이크로폰에 의해 레코딩되는 상기 제 2 레코딩된 오디오 입력 신호를 수정하여 제 2 수정된 오디오 신호를 획득하도록 구성되고,
    상기 조합기(510)는 상기 오디오 출력 신호를 획득하기 위해 상기 제 1 수정된 오디오 신호와 상기 제 2 수정된 오디오 신호를 조합함으로써 조합 신호를 생성하는
    장치.
  13. 제 12 항에 있어서,
    상기 전파 보상기(500)는 또한, 상기 가상 마이크로폰에서의 상기 사운드 파형의 도달과, 추가적인 실제 공간 마이크로폰들 각각에서의 상기 사운드 소스에 의해 방출되는 상기 사운드 파형의 도달 사이의 지연 또는 진폭 감쇠를 보상함으로써, 하나 이상의 추가적인 실제 공간 마이크로폰에 의해 레코딩되는 하나 이상의 추가적인 레코딩된 오디오 입력 신호를 수정하도록 구성되고, 상기 전파 보상기(500)는 상기 추가적인 레코딩된 오디오 입력 신호 각각의 진폭 값, 크기 값 또는 위상 값을 조절함으로써 지연들 또는 진폭 감쇠들 각각을 보상하여 복수의 제 3 수정된 오디오 신호를 획득하도록 구성되고,
    상기 조합기(510)는 상기 오디오 출력 신호를 획득하기 위해 상기 제 1 수정된 오디오 신호, 상기 제 2 수정된 오디오 신호 및 상기 복수의 제 3 수정된 오디오 신호를 조합함으로써 조합 신호를 생성하도록 구성되는
    장치.
  14. 제 2 항 내지 제 11 항 중 어느 한 항에 있어서,
    상기 정보 계산 모듈(120)은, 상기 오디오 출력 신호를 획득하기 위해, 상기 가상 마이크로폰의 상기 가상 위치에서의 상기 사운드 파형의 도달 방향 및 상기 가상 마이크로폰의 가상 지향(orientation)에 의존하여 상기 제 1 수정된 오디오 신호를 수정함으로써 가중된 오디오 신호를 생성하는 스펙트럼 가중 유닛(520)을 포함하되, 상기 제 1 수정된 오디오 신호는 시간-주파수 영역에서 수정되는
    장치.
  15. 제 12 항 또는 제 13 항에 있어서,
    상기 정보 계산 모듈(120)은, 상기 오디오 출력 신호를 획득하기 위해, 상기 가상 마이크로폰의 상기 가상 위치에서의 상기 사운드 파형의 도달 방향 및 상기 가상 마이크로폰의 가상 지향에 의존하여 상기 조합 신호를 수정함으로써 가중된 오디오 신호를 생성하는 스펙트럼 가중 유닛(520)을 포함하되, 상기 조합 신호는 시간-주파수 영역에서 수정되는
    장치.
  16. 제 14 항 또는 제 15 항에 있어서,
    상기 스펙트럼 가중 유닛(520)은 상기 가중된 오디오 신호에 대해
    가중 인수
    Figure pct00059

    또는 가중 인수
    Figure pct00060

    을 적용하도록 구성되되,
    Figure pct00061
    은 상기 가상 마이크로폰의 상기 가상 위치에서 상기 사운드 소스에 의해 방출되는 상기 사운드 파형의 도달 벡터의 방향을 표시하는
    장치.
  17. 제 2 항 내지 제 16 항 중 어느 한 항에 있어서,
    상기 전파 보상기(500)는 또한, 상기 오디오 출력 신호를 획득하기 위해, 제 4 마이크로폰에 의해 레코딩되는 제 3 레코딩된 오디오 입력 신호의 진폭 값, 크기 값 또는 위상 값을 조절함으로써, 상기 제 4 마이크로폰에서의 상기 사운드 소스에 의해 방출되는 상기 사운드 파형의 도달과 상기 가상 마이크로폰에서의 상기 사운드 파형의 도달 사이의 제 3 지연 또는 제 3 진폭 감쇠를 보상함으로써 상기 제 4 마이크로폰에 의해 레코딩되는 상기 제 3 레코딩된 오디오 입력 신호를 수정하여, 제 3 수정된 오디오 신호를 생성하도록 구성되는
    장치.
  18. 제 1 항 내지 제 17 항 중 어느 한 항에 있어서,
    상기 사운드 이벤트 위치 추정기(110)는 3차원 환경에서 사운드 소스 위치를 추정하도록 구성되는
    장치.
  19. 제 1 항 내지 제 18 항 중 어느 한 항에 있어서,
    상기 정보 계산 모듈(120)은, 상기 가상 마이크로폰에서의 확산 사운드 에너지 또는 상기 가상 마이크로폰에서의 직접 사운드 에너지를 추정하도록 구성되는 확산 계산 유닛(801)을 더 포함하는
    장치.
  20. 제 19 항에 있어서,
    상기 확산 계산 유닛(801)은 상기 제 1 실제 공간 마이크로폰 및 상기 제 2 실제 공간 마이크로폰에서의 확산 사운드 에너지에 기초하여 상기 가상 마이크로폰에서의 상기 확산 사운드 에너지를 추정하도록 구성되는
    장치.
  21. 제 20 항에 있어서,
    상기 확산 계산 유닛(801)은 식
    Figure pct00062

    을 적용함으로써 상기 가상 마이크로폰에서 상기 확산 사운드 에너지
    Figure pct00063
    를 추정하도록 구성되되,
    N은 상기 제 1 실제 공간 마이크로폰 및 상기 제 2 실제 공간 마이크로폰을 포함하는 복수의 실제 공간 마이크로폰의 수이며,
    Figure pct00064
    은 i번째 실제 공간 마이크로폰에서의 확산 사운드 에너지인
    장치.
  22. 제 20 항 또는 제 21 항에 있어서,
    상기 확산 계산 유닛(801)은 식
    Figure pct00065

    을 적용함으로써 상기 직접 사운드 에너지를 추정하도록 구성되되,
    "distance SMi - IPLS"는 i번째 실제 마이크로폰의 위치와 상기 사운드 소스 위치 사이의 거리이고, "distance VM - IPLS"는 상기 가상 위치와 상기 사운드 소스 위치 사이의 거리이며,
    Figure pct00066
    은 상기 i번째 실제 공간 마이크로폰에서의 상기 직접 에너지인
    장치.
  23. 제 19 항 내지 제 22 항 중 어느 한 항에 있어서,
    상기 확산 계산 유닛(801)은 또한, 상기 가상 마이크로폰에서의 상기 확산 사운드 에너지 및 가상 마이크로폰에서의 상기 직접 사운드 에너지를 추정하고 식
    Figure pct00067

    을 적용함으로써 상기 가상 마이크로폰에서의 확산을 추정하도록 구성되되,
    ψ( VM )은 추정되는 상기 가상 마이크로폰에서의 확산을 표시하고,
    Figure pct00068
    는 추정되는 확산 사운드 에너지를 표시하며,
    Figure pct00069
    은 추정되는 직접 사운드 에너지를 표시하는
    장치.
  24. 환경에서 구성 가능한 가상 위치에서 가상 마이크로폰의 레코딩을 시뮬레이팅하기 위해 오디오 출력 신호를 생성하는 방법으로서,
    상기 환경의 제 1 실제 마이크로폰 위치에 위치되는 제 1 실제 공간 마이크로폰에 의해 제공되는 제 1 방향 정보 및 상기 환경의 제 2 실제 마이크로폰 위치에 위치되는 제 2 실제 공간 마이크로폰에 의해 제공되는 제 2 방향 정보에 기초하여, 상기 환경에서 사운드 소스의 위치를 표시하는 사운드 소스 위치를 추정하는 단계와,
    제 1 레코딩된 오디오 입력 신호, 상기 제 1 실제 마이크로폰 위치, 상기 가상 마이크로폰의 상기 가상 위치 및 상기 사운드 소스 위치에 기초하여 상기 오디오 출력 신호를 생성하는 단계를 포함하는
    방법.
  25. 컴퓨터 또는 신호 프로세서상에서 실행될 때 제 24 항의 방법을 구현하는
    컴퓨터 프로그램.
KR1020137017057A 2010-12-03 2011-12-02 도달 방향 추정치로부터의 기하학적 정보 추출을 통한 사운드 수집 KR101442446B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US41962310P 2010-12-03 2010-12-03
US61/419,623 2010-12-03
US42009910P 2010-12-06 2010-12-06
US61/420,099 2010-12-06
PCT/EP2011/071629 WO2012072798A1 (en) 2010-12-03 2011-12-02 Sound acquisition via the extraction of geometrical information from direction of arrival estimates

Publications (2)

Publication Number Publication Date
KR20140045910A true KR20140045910A (ko) 2014-04-17
KR101442446B1 KR101442446B1 (ko) 2014-09-22

Family

ID=45406686

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020137017441A KR101619578B1 (ko) 2010-12-03 2011-12-02 기하학 기반의 공간 오디오 코딩을 위한 장치 및 방법
KR1020137017057A KR101442446B1 (ko) 2010-12-03 2011-12-02 도달 방향 추정치로부터의 기하학적 정보 추출을 통한 사운드 수집

Family Applications Before (1)

Application Number Title Priority Date Filing Date
KR1020137017441A KR101619578B1 (ko) 2010-12-03 2011-12-02 기하학 기반의 공간 오디오 코딩을 위한 장치 및 방법

Country Status (16)

Country Link
US (2) US9396731B2 (ko)
EP (2) EP2647005B1 (ko)
JP (2) JP5878549B2 (ko)
KR (2) KR101619578B1 (ko)
CN (2) CN103460285B (ko)
AR (2) AR084091A1 (ko)
AU (2) AU2011334857B2 (ko)
BR (1) BR112013013681B1 (ko)
CA (2) CA2819502C (ko)
ES (2) ES2643163T3 (ko)
HK (1) HK1190490A1 (ko)
MX (2) MX2013006068A (ko)
PL (1) PL2647222T3 (ko)
RU (2) RU2570359C2 (ko)
TW (2) TWI530201B (ko)
WO (2) WO2012072798A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102154553B1 (ko) * 2019-09-18 2020-09-10 한국표준과학연구원 지향성이 향상된 마이크로폰 어레이 및 이를 이용한 음장 취득 방법

Families Citing this family (100)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9558755B1 (en) 2010-05-20 2017-01-31 Knowles Electronics, Llc Noise suppression assisted automatic speech recognition
EP2600637A1 (en) * 2011-12-02 2013-06-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for microphone positioning based on a spatial power density
WO2013093565A1 (en) * 2011-12-22 2013-06-27 Nokia Corporation Spatial audio processing apparatus
JP2015509212A (ja) * 2012-01-19 2015-03-26 コーニンクレッカ フィリップス エヌ ヴェ 空間オーディオ・レンダリング及び符号化
EP2893532B1 (en) * 2012-09-03 2021-03-24 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Apparatus and method for providing an informed multichannel speech presence probability estimation
EP2898506B1 (en) * 2012-09-21 2018-01-17 Dolby Laboratories Licensing Corporation Layered approach to spatial audio coding
US10175335B1 (en) 2012-09-26 2019-01-08 Foundation For Research And Technology-Hellas (Forth) Direction of arrival (DOA) estimation apparatuses, methods, and systems
US9549253B2 (en) * 2012-09-26 2017-01-17 Foundation for Research and Technology—Hellas (FORTH) Institute of Computer Science (ICS) Sound source localization and isolation apparatuses, methods and systems
US9955277B1 (en) 2012-09-26 2018-04-24 Foundation For Research And Technology-Hellas (F.O.R.T.H.) Institute Of Computer Science (I.C.S.) Spatial sound characterization apparatuses, methods and systems
US10149048B1 (en) 2012-09-26 2018-12-04 Foundation for Research and Technology—Hellas (F.O.R.T.H.) Institute of Computer Science (I.C.S.) Direction of arrival estimation and sound source enhancement in the presence of a reflective surface apparatuses, methods, and systems
US20160210957A1 (en) * 2015-01-16 2016-07-21 Foundation For Research And Technology - Hellas (Forth) Foreground Signal Suppression Apparatuses, Methods, and Systems
US10136239B1 (en) 2012-09-26 2018-11-20 Foundation For Research And Technology—Hellas (F.O.R.T.H.) Capturing and reproducing spatial sound apparatuses, methods, and systems
US9554203B1 (en) 2012-09-26 2017-01-24 Foundation for Research and Technolgy—Hellas (FORTH) Institute of Computer Science (ICS) Sound source characterization apparatuses, methods and systems
US9640194B1 (en) 2012-10-04 2017-05-02 Knowles Electronics, Llc Noise suppression for speech processing based on machine-learning mask estimation
FR2998438A1 (fr) * 2012-11-16 2014-05-23 France Telecom Acquisition de donnees sonores spatialisees
EP2747451A1 (en) 2012-12-21 2014-06-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Filter and method for informed spatial filtering using multiple instantaneous direction-of-arrivial estimates
CN104010265A (zh) 2013-02-22 2014-08-27 杜比实验室特许公司 音频空间渲染设备及方法
CN104019885A (zh) 2013-02-28 2014-09-03 杜比实验室特许公司 声场分析系统
WO2014151813A1 (en) 2013-03-15 2014-09-25 Dolby Laboratories Licensing Corporation Normalization of soundfield orientations based on auditory scene analysis
WO2014171791A1 (ko) 2013-04-19 2014-10-23 한국전자통신연구원 다채널 오디오 신호 처리 장치 및 방법
US10075795B2 (en) 2013-04-19 2018-09-11 Electronics And Telecommunications Research Institute Apparatus and method for processing multi-channel audio signal
US20140355769A1 (en) 2013-05-29 2014-12-04 Qualcomm Incorporated Energy preservation for decomposed representations of a sound field
CN104240711B (zh) * 2013-06-18 2019-10-11 杜比实验室特许公司 用于生成自适应音频内容的方法、系统和装置
CN104244164A (zh) 2013-06-18 2014-12-24 杜比实验室特许公司 生成环绕立体声声场
EP2830050A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for enhanced spatial audio object coding
EP2830052A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, audio encoder, method for providing at least four audio channel signals on the basis of an encoded representation, method for providing an encoded representation on the basis of at least four audio channel signals and computer program using a bandwidth extension
EP2830045A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for audio encoding and decoding for audio channels and audio objects
EP2830049A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for efficient object metadata coding
US9319819B2 (en) 2013-07-25 2016-04-19 Etri Binaural rendering method and apparatus for decoding multi channel audio
JP6055576B2 (ja) 2013-07-30 2016-12-27 ドルビー・インターナショナル・アーベー 任意のスピーカー・レイアウトへのオーディオ・オブジェクトのパン
CN104637495B (zh) * 2013-11-08 2019-03-26 宏达国际电子股份有限公司 电子装置以及音频信号处理方法
CN103618986B (zh) * 2013-11-19 2015-09-30 深圳市新一代信息技术研究院有限公司 一种3d空间中音源声像体的提取方法及装置
EP3072315B1 (en) * 2013-11-22 2021-11-03 Apple Inc. Handsfree beam pattern configuration
RU2666248C2 (ru) 2014-05-13 2018-09-06 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство и способ для амплитудного панорамирования с затуханием фронтов
US9620137B2 (en) * 2014-05-16 2017-04-11 Qualcomm Incorporated Determining between scalar and vector quantization in higher order ambisonic coefficients
US10770087B2 (en) 2014-05-16 2020-09-08 Qualcomm Incorporated Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals
WO2016033364A1 (en) * 2014-08-28 2016-03-03 Audience, Inc. Multi-sourced noise suppression
CN110636415B (zh) 2014-08-29 2021-07-23 杜比实验室特许公司 用于处理音频的方法、系统和存储介质
CN104168534A (zh) * 2014-09-01 2014-11-26 北京塞宾科技有限公司 一种全息音频装置及控制方法
US9774974B2 (en) * 2014-09-24 2017-09-26 Electronics And Telecommunications Research Institute Audio metadata providing apparatus and method, and multichannel audio data playback apparatus and method to support dynamic format conversion
CN104378570A (zh) * 2014-09-28 2015-02-25 小米科技有限责任公司 录音方法及装置
JP6604331B2 (ja) * 2014-10-10 2019-11-13 ソニー株式会社 音声処理装置および方法、並びにプログラム
WO2016123572A1 (en) * 2015-01-30 2016-08-04 Dts, Inc. System and method for capturing, encoding, distributing, and decoding immersive audio
TWI579835B (zh) * 2015-03-19 2017-04-21 絡達科技股份有限公司 音效增益方法
EP3079074A1 (fr) * 2015-04-10 2016-10-12 B<>Com Procédé de traitement de données pour l'estimation de paramètres de mixage de signaux audio, procédé de mixage, dispositifs, et programmes d'ordinateurs associés
US9609436B2 (en) 2015-05-22 2017-03-28 Microsoft Technology Licensing, Llc Systems and methods for audio creation and delivery
US9530426B1 (en) 2015-06-24 2016-12-27 Microsoft Technology Licensing, Llc Filtering sounds for conferencing applications
US9601131B2 (en) * 2015-06-25 2017-03-21 Htc Corporation Sound processing device and method
US10375472B2 (en) 2015-07-02 2019-08-06 Dolby Laboratories Licensing Corporation Determining azimuth and elevation angles from stereo recordings
HK1255002A1 (zh) 2015-07-02 2019-08-02 杜比實驗室特許公司 根據立體聲記錄確定方位角和俯仰角
GB2543275A (en) * 2015-10-12 2017-04-19 Nokia Technologies Oy Distributed audio capture and mixing
TWI577194B (zh) * 2015-10-22 2017-04-01 山衛科技股份有限公司 環境音源辨識系統及其環境音源辨識之方法
WO2017073324A1 (ja) * 2015-10-26 2017-05-04 ソニー株式会社 信号処理装置、信号処理方法、並びにプログラム
US10206040B2 (en) * 2015-10-30 2019-02-12 Essential Products, Inc. Microphone array for generating virtual sound field
EP3174316B1 (en) * 2015-11-27 2020-02-26 Nokia Technologies Oy Intelligent audio rendering
US11064291B2 (en) 2015-12-04 2021-07-13 Sennheiser Electronic Gmbh & Co. Kg Microphone array system
US9894434B2 (en) 2015-12-04 2018-02-13 Sennheiser Electronic Gmbh & Co. Kg Conference system with a microphone array system and a method of speech acquisition in a conference system
CN112218211B (zh) 2016-03-15 2022-06-07 弗劳恩霍夫应用研究促进协会 用于生成声场描述的装置、方法或计算机程序
US9956910B2 (en) * 2016-07-18 2018-05-01 Toyota Motor Engineering & Manufacturing North America, Inc. Audible notification systems and methods for autonomous vehicles
GB2554446A (en) * 2016-09-28 2018-04-04 Nokia Technologies Oy Spatial audio signal format generation from a microphone array using adaptive capture
US9986357B2 (en) 2016-09-28 2018-05-29 Nokia Technologies Oy Fitting background ambiance to sound objects
WO2018064296A1 (en) 2016-09-29 2018-04-05 Dolby Laboratories Licensing Corporation Method, systems and apparatus for determining audio representation(s) of one or more audio sources
US9980078B2 (en) 2016-10-14 2018-05-22 Nokia Technologies Oy Audio object modification in free-viewpoint rendering
US10531220B2 (en) 2016-12-05 2020-01-07 Magic Leap, Inc. Distributed audio capturing techniques for virtual reality (VR), augmented reality (AR), and mixed reality (MR) systems
CN106708041B (zh) * 2016-12-12 2020-12-29 西安Tcl软件开发有限公司 智能音箱、智能音箱定向移动方法及装置
US11096004B2 (en) 2017-01-23 2021-08-17 Nokia Technologies Oy Spatial audio rendering point extension
US10362393B2 (en) 2017-02-08 2019-07-23 Logitech Europe, S.A. Direction detection device for acquiring and processing audible input
US10229667B2 (en) 2017-02-08 2019-03-12 Logitech Europe S.A. Multi-directional beamforming device for acquiring and processing audible input
US10366700B2 (en) 2017-02-08 2019-07-30 Logitech Europe, S.A. Device for acquiring and processing audible input
US10366702B2 (en) 2017-02-08 2019-07-30 Logitech Europe, S.A. Direction detection device for acquiring and processing audible input
US10531219B2 (en) 2017-03-20 2020-01-07 Nokia Technologies Oy Smooth rendering of overlapping audio-object interactions
US10397724B2 (en) 2017-03-27 2019-08-27 Samsung Electronics Co., Ltd. Modifying an apparent elevation of a sound source utilizing second-order filter sections
US11074036B2 (en) 2017-05-05 2021-07-27 Nokia Technologies Oy Metadata-free audio-object interactions
US10165386B2 (en) 2017-05-16 2018-12-25 Nokia Technologies Oy VR audio superzoom
US10602296B2 (en) 2017-06-09 2020-03-24 Nokia Technologies Oy Audio object adjustment for phase compensation in 6 degrees of freedom audio
US10334360B2 (en) * 2017-06-12 2019-06-25 Revolabs, Inc Method for accurately calculating the direction of arrival of sound at a microphone array
GB2563606A (en) 2017-06-20 2018-12-26 Nokia Technologies Oy Spatial audio processing
GB201710085D0 (en) 2017-06-23 2017-08-09 Nokia Technologies Oy Determination of targeted spatial audio parameters and associated spatial audio playback
GB201710093D0 (en) * 2017-06-23 2017-08-09 Nokia Technologies Oy Audio distance estimation for spatial audio processing
KR102491818B1 (ko) 2017-07-14 2023-01-26 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 다중-지점 음장 묘사를 이용하여 증강된 음장 묘사 또는 수정된 음장 묘사를 생성하기 위한 개념
AR112556A1 (es) 2017-07-14 2019-11-13 Fraunhofer Ges Forschung Concepto para generar una descripción mejorada de campo de sonido o un campo de sonido modificado
AR112504A1 (es) 2017-07-14 2019-11-06 Fraunhofer Ges Forschung Concepto para generar una descripción mejorada de campo de sonido o un campo de sonido modificado utilizando una descripción multi-capa
US10264354B1 (en) * 2017-09-25 2019-04-16 Cirrus Logic, Inc. Spatial cues from broadside detection
US11395087B2 (en) 2017-09-29 2022-07-19 Nokia Technologies Oy Level-based audio-object interactions
CN111201784B (zh) 2017-10-17 2021-09-07 惠普发展公司,有限责任合伙企业 通信系统、用于通信的方法和视频会议系统
US10542368B2 (en) 2018-03-27 2020-01-21 Nokia Technologies Oy Audio content modification for playback audio
TWI690921B (zh) * 2018-08-24 2020-04-11 緯創資通股份有限公司 收音處理裝置及其收音處理方法
US11017790B2 (en) * 2018-11-30 2021-05-25 International Business Machines Corporation Avoiding speech collisions among participants during teleconferences
ES2941268T3 (es) 2018-12-07 2023-05-19 Fraunhofer Ges Forschung Aparato, método y programa informático para codificación, decodificación, procesamiento de escenas y otros procedimientos relacionados con codificación de audio espacial basada en dirac que utiliza compensación difusa
EP3928315A4 (en) * 2019-03-14 2022-11-30 Boomcloud 360, Inc. SPATIALLY SENSITIVE MULTIBAND COMPRESSION SYSTEM WITH PRIORITY
EP3963902A4 (en) 2019-09-24 2022-07-13 Samsung Electronics Co., Ltd. METHODS AND SYSTEMS FOR MIXED AUDIO SIGNAL RECORDING AND DIRECTIONAL AUDIO CONTENT REPRODUCTION
TW202123220A (zh) 2019-10-30 2021-06-16 美商杜拜研究特許公司 使用方向性元資料之多通道音頻編碼及解碼
CN113284504A (zh) 2020-02-20 2021-08-20 北京三星通信技术研究有限公司 姿态检测方法、装置、电子设备及计算机可读存储介质
US11277689B2 (en) 2020-02-24 2022-03-15 Logitech Europe S.A. Apparatus and method for optimizing sound quality of a generated audible signal
US11425523B2 (en) * 2020-04-10 2022-08-23 Facebook Technologies, Llc Systems and methods for audio adjustment
CN112083379B (zh) * 2020-09-09 2023-10-20 极米科技股份有限公司 基于声源定位的音频播放方法、装置、投影设备及介质
WO2022162878A1 (ja) * 2021-01-29 2022-08-04 日本電信電話株式会社 信号処理装置、信号処理方法、信号処理プログラム、学習装置、学習方法及び学習プログラム
CN116918350A (zh) * 2021-04-25 2023-10-20 深圳市韶音科技有限公司 声学装置
US20230035531A1 (en) * 2021-07-27 2023-02-02 Qualcomm Incorporated Audio event data processing
DE202022105574U1 (de) 2022-10-01 2022-10-20 Veerendra Dakulagi Ein System zur Klassifizierung mehrerer Signale für die Schätzung der Ankunftsrichtung

Family Cites Families (71)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01109996A (ja) * 1987-10-23 1989-04-26 Sony Corp マイクロホン装置
JPH04181898A (ja) * 1990-11-15 1992-06-29 Ricoh Co Ltd マイクロホン
JPH1063470A (ja) * 1996-06-12 1998-03-06 Nintendo Co Ltd 画像表示に連動する音響発生装置
US6577738B2 (en) * 1996-07-17 2003-06-10 American Technology Corporation Parametric virtual speaker and surround-sound system
US6072878A (en) 1997-09-24 2000-06-06 Sonic Solutions Multi-channel surround sound mastering and reproduction techniques that preserve spatial harmonics
JP3344647B2 (ja) * 1998-02-18 2002-11-11 富士通株式会社 マイクロホンアレイ装置
JP3863323B2 (ja) 1999-08-03 2006-12-27 富士通株式会社 マイクロホンアレイ装置
CA2406926A1 (en) * 2000-04-19 2001-11-01 Sonic Solutions Multi-channel surround sound mastering and reproduction techniques that preserve spatial harmonics in three dimensions
KR100387238B1 (ko) * 2000-04-21 2003-06-12 삼성전자주식회사 오디오 변조 기능을 갖는 오디오 재생 장치 및 방법, 그장치를 적용한 리믹싱 장치 및 방법
GB2364121B (en) 2000-06-30 2004-11-24 Mitel Corp Method and apparatus for locating a talker
JP4304845B2 (ja) * 2000-08-03 2009-07-29 ソニー株式会社 音声信号処理方法及び音声信号処理装置
EP1552724A4 (en) * 2002-10-15 2010-10-20 Korea Electronics Telecomm METHOD FOR GENERATING AND USING A 3D AUDIOSCENCE WITH EXTENDED EFFICIENCY OF SOUND SOURCE
KR100626661B1 (ko) * 2002-10-15 2006-09-22 한국전자통신연구원 공간성이 확장된 음원을 갖는 3차원 음향 장면 처리 방법
EP1562403B1 (en) * 2002-11-15 2012-06-13 Sony Corporation Audio signal processing method and processing device
JP2004193877A (ja) * 2002-12-10 2004-07-08 Sony Corp 音像定位信号処理装置および音像定位信号処理方法
AU2003285787A1 (en) 2002-12-28 2004-07-22 Samsung Electronics Co., Ltd. Method and apparatus for mixing audio stream and information storage medium
KR20040060718A (ko) 2002-12-28 2004-07-06 삼성전자주식회사 오디오 스트림 믹싱 방법, 그 장치 및 그 정보저장매체
JP3639280B2 (ja) * 2003-02-12 2005-04-20 任天堂株式会社 ゲームメッセージ表示方法およびゲームプログラム
FI118247B (fi) 2003-02-26 2007-08-31 Fraunhofer Ges Forschung Menetelmä luonnollisen tai modifioidun tilavaikutelman aikaansaamiseksi monikanavakuuntelussa
JP4133559B2 (ja) 2003-05-02 2008-08-13 株式会社コナミデジタルエンタテインメント 音声再生プログラム、音声再生方法及び音声再生装置
US20060104451A1 (en) * 2003-08-07 2006-05-18 Tymphany Corporation Audio reproduction system
MXPA06011397A (es) * 2004-04-05 2006-12-20 Koninkl Philips Electronics Nv Metodo, dispositivo, aparato codificador, aparato decodificador y sistema de audio.
GB2414369B (en) * 2004-05-21 2007-08-01 Hewlett Packard Development Co Processing audio data
KR100586893B1 (ko) 2004-06-28 2006-06-08 삼성전자주식회사 시변 잡음 환경에서의 화자 위치 추정 시스템 및 방법
WO2006006935A1 (en) 2004-07-08 2006-01-19 Agency For Science, Technology And Research Capturing sound from a target region
US7617501B2 (en) 2004-07-09 2009-11-10 Quest Software, Inc. Apparatus, system, and method for managing policies on a computer having a foreign operating system
US7903824B2 (en) * 2005-01-10 2011-03-08 Agere Systems Inc. Compact side information for parametric coding of spatial audio
DE102005010057A1 (de) 2005-03-04 2006-09-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines codierten Stereo-Signals eines Audiostücks oder Audiodatenstroms
WO2006105105A2 (en) 2005-03-28 2006-10-05 Sound Id Personal sound system
JP4273343B2 (ja) * 2005-04-18 2009-06-03 ソニー株式会社 再生装置および再生方法
US20070047742A1 (en) 2005-08-26 2007-03-01 Step Communications Corporation, A Nevada Corporation Method and system for enhancing regional sensitivity noise discrimination
WO2007046288A1 (ja) * 2005-10-18 2007-04-26 Pioneer Corporation 定位制御装置、定位制御方法、定位制御プログラムおよびコンピュータに読み取り可能な記録媒体
US8705747B2 (en) 2005-12-08 2014-04-22 Electronics And Telecommunications Research Institute Object-based 3-dimensional audio service system using preset audio scenes
DE602007004451D1 (de) 2006-02-21 2010-03-11 Koninkl Philips Electronics Nv Audiokodierung und audiodekodierung
GB0604076D0 (en) * 2006-03-01 2006-04-12 Univ Lancaster Method and apparatus for signal presentation
WO2007099318A1 (en) 2006-03-01 2007-09-07 The University Of Lancaster Method and apparatus for signal presentation
US8374365B2 (en) * 2006-05-17 2013-02-12 Creative Technology Ltd Spatial audio analysis and synthesis for binaural reproduction and format conversion
EP2369836B1 (en) * 2006-05-19 2014-04-23 Electronics and Telecommunications Research Institute Object-based 3-dimensional audio service system using preset audio scenes
US20080004729A1 (en) * 2006-06-30 2008-01-03 Nokia Corporation Direct encoding into a directional audio coding format
JP4894386B2 (ja) * 2006-07-21 2012-03-14 ソニー株式会社 音声信号処理装置、音声信号処理方法および音声信号処理プログラム
US8229754B1 (en) * 2006-10-23 2012-07-24 Adobe Systems Incorporated Selecting features of displayed audio data across time
EP2097895A4 (en) * 2006-12-27 2013-11-13 Korea Electronics Telecomm DEVICE AND METHOD FOR ENCODING AND DECODING MULTI-OBJECT AUDIO SIGNAL WITH DIFFERENT CHANNELS WITH INFORMATION BIT RATE CONVERSION
JP4449987B2 (ja) * 2007-02-15 2010-04-14 ソニー株式会社 音声処理装置、音声処理方法およびプログラム
US9015051B2 (en) * 2007-03-21 2015-04-21 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Reconstruction of audio channels with direction parameters indicating direction of origin
JP4221035B2 (ja) * 2007-03-30 2009-02-12 株式会社コナミデジタルエンタテインメント ゲーム音出力装置、音像定位制御方法、および、プログラム
KR101497644B1 (ko) 2007-04-19 2015-03-02 에포스 디벨롭먼트 리미티드 음성 및 위치 국부화
FR2916078A1 (fr) * 2007-05-10 2008-11-14 France Telecom Procede de codage et decodage audio, codeur audio, decodeur audio et programmes d'ordinateur associes
US8180062B2 (en) * 2007-05-30 2012-05-15 Nokia Corporation Spatial sound zooming
US20080298610A1 (en) 2007-05-30 2008-12-04 Nokia Corporation Parameter Space Re-Panning for Spatial Audio
CN101884065B (zh) * 2007-10-03 2013-07-10 创新科技有限公司 用于双耳再现和格式转换的空间音频分析和合成的方法
JP5294603B2 (ja) * 2007-10-03 2013-09-18 日本電信電話株式会社 音響信号推定装置、音響信号合成装置、音響信号推定合成装置、音響信号推定方法、音響信号合成方法、音響信号推定合成方法、これらの方法を用いたプログラム、及び記録媒体
KR101415026B1 (ko) 2007-11-19 2014-07-04 삼성전자주식회사 마이크로폰 어레이를 이용한 다채널 사운드 획득 방법 및장치
WO2009089353A1 (en) 2008-01-10 2009-07-16 Sound Id Personal sound system for display of sound pressure level or other environmental condition
JP5686358B2 (ja) * 2008-03-07 2015-03-18 学校法人日本大学 音源距離計測装置及びそれを用いた音響情報分離装置
KR101461685B1 (ko) * 2008-03-31 2014-11-19 한국전자통신연구원 다객체 오디오 신호의 부가정보 비트스트림 생성 방법 및 장치
JP2009246827A (ja) * 2008-03-31 2009-10-22 Nippon Hoso Kyokai <Nhk> 音源及び仮想音源の位置特定装置、方法及びプログラム
US8457328B2 (en) * 2008-04-22 2013-06-04 Nokia Corporation Method, apparatus and computer program product for utilizing spatial information for audio signal enhancement in a distributed network environment
EP2154910A1 (en) * 2008-08-13 2010-02-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus for merging spatial audio streams
ES2425814T3 (es) 2008-08-13 2013-10-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato para determinar una señal de audio espacial convertida
US8023660B2 (en) * 2008-09-11 2011-09-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus, method and computer program for providing a set of spatial cues on the basis of a microphone signal and apparatus for providing a two-channel audio signal and a set of spatial cues
JP5520300B2 (ja) * 2008-09-11 2014-06-11 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ マイクロホン信号に基づいて一組の空間手がかりを供給する装置、方法およびコンピュータ・プログラムと2チャンネルのオーディオ信号および一組の空間手がかりを供給する装置
EP2374123B1 (fr) * 2008-12-15 2019-04-10 Orange Codage perfectionne de signaux audionumeriques multicanaux
JP5309953B2 (ja) * 2008-12-17 2013-10-09 ヤマハ株式会社 収音装置
EP2205007B1 (en) * 2008-12-30 2019-01-09 Dolby International AB Method and apparatus for three-dimensional acoustic field encoding and optimal reconstruction
JP5620689B2 (ja) 2009-02-13 2014-11-05 本田技研工業株式会社 残響抑圧装置及び残響抑圧方法
JP5197458B2 (ja) * 2009-03-25 2013-05-15 株式会社東芝 受音信号処理装置、方法およびプログラム
JP5314129B2 (ja) * 2009-03-31 2013-10-16 パナソニック株式会社 音響再生装置及び音響再生方法
KR20120006060A (ko) * 2009-04-21 2012-01-17 코닌클리케 필립스 일렉트로닉스 엔.브이. 오디오 신호 합성
EP2249334A1 (en) * 2009-05-08 2010-11-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio format transcoder
EP2346028A1 (en) 2009-12-17 2011-07-20 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. An apparatus and a method for converting a first parametric spatial audio signal into a second parametric spatial audio signal
KR20120059827A (ko) * 2010-12-01 2012-06-11 삼성전자주식회사 다중 음원 위치추적장치 및 그 위치추적방법

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102154553B1 (ko) * 2019-09-18 2020-09-10 한국표준과학연구원 지향성이 향상된 마이크로폰 어레이 및 이를 이용한 음장 취득 방법
WO2021054611A1 (ko) * 2019-09-18 2021-03-25 한국표준과학연구원 지향성이 향상된 마이크로폰 어레이 및 이를 이용한 음장 취득 방법

Also Published As

Publication number Publication date
EP2647222A1 (en) 2013-10-09
MX338525B (es) 2016-04-20
CN103583054A (zh) 2014-02-12
AR084091A1 (es) 2013-04-17
AU2011334851B2 (en) 2015-01-22
JP5728094B2 (ja) 2015-06-03
EP2647005B1 (en) 2017-08-16
KR20130111602A (ko) 2013-10-10
MX2013006068A (es) 2013-12-02
CA2819502C (en) 2020-03-10
US20130259243A1 (en) 2013-10-03
RU2556390C2 (ru) 2015-07-10
JP2014502109A (ja) 2014-01-23
AU2011334857A1 (en) 2013-06-27
CA2819394A1 (en) 2012-06-07
TW201237849A (en) 2012-09-16
EP2647005A1 (en) 2013-10-09
JP5878549B2 (ja) 2016-03-08
KR101619578B1 (ko) 2016-05-18
CN103460285B (zh) 2018-01-12
ES2643163T3 (es) 2017-11-21
WO2012072804A1 (en) 2012-06-07
HK1190490A1 (en) 2014-11-21
RU2013130233A (ru) 2015-01-10
EP2647222B1 (en) 2014-10-29
WO2012072798A1 (en) 2012-06-07
CA2819394C (en) 2016-07-05
CN103460285A (zh) 2013-12-18
AU2011334857B2 (en) 2015-08-13
US20130268280A1 (en) 2013-10-10
US9396731B2 (en) 2016-07-19
TWI530201B (zh) 2016-04-11
CN103583054B (zh) 2016-08-10
TW201234873A (en) 2012-08-16
RU2570359C2 (ru) 2015-12-10
CA2819502A1 (en) 2012-06-07
KR101442446B1 (ko) 2014-09-22
ES2525839T3 (es) 2014-12-30
JP2014501945A (ja) 2014-01-23
MX2013006150A (es) 2014-03-12
TWI489450B (zh) 2015-06-21
BR112013013681A2 (pt) 2017-09-26
RU2013130226A (ru) 2015-01-10
AU2011334851A1 (en) 2013-06-27
BR112013013681B1 (pt) 2020-12-29
AR084160A1 (es) 2013-04-24
PL2647222T3 (pl) 2015-04-30
US10109282B2 (en) 2018-10-23

Similar Documents

Publication Publication Date Title
KR101442446B1 (ko) 도달 방향 추정치로부터의 기하학적 정보 추출을 통한 사운드 수집
KR101591220B1 (ko) 공간적 전력 밀도에 기초하여 마이크 위치 결정을 위한 장치 및 방법
JP6086923B2 (ja) 幾何学配置に基づく空間オーディオ符号化ストリームを統合する装置および方法
KR101510576B1 (ko) 방향 정보를 도출하는 장치 및 방법과 컴퓨터 프로그램 제품
KR101555416B1 (ko) 음향 삼각 측량에 의한 공간 선택적 사운드 취득 장치 및 방법

Legal Events

Date Code Title Description
A201 Request for examination
N231 Notification of change of applicant
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20170828

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20180830

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20190903

Year of fee payment: 6