KR20130116299A - 음향 삼각 측량에 의한 공간 선택적 사운드 취득 장치 및 방법 - Google Patents

음향 삼각 측량에 의한 공간 선택적 사운드 취득 장치 및 방법 Download PDF

Info

Publication number
KR20130116299A
KR20130116299A KR1020137016895A KR20137016895A KR20130116299A KR 20130116299 A KR20130116299 A KR 20130116299A KR 1020137016895 A KR1020137016895 A KR 1020137016895A KR 20137016895 A KR20137016895 A KR 20137016895A KR 20130116299 A KR20130116299 A KR 20130116299A
Authority
KR
South Korea
Prior art keywords
audio
signal
beam former
beamformer
output signal
Prior art date
Application number
KR1020137016895A
Other languages
English (en)
Other versions
KR101555416B1 (ko
Inventor
위르겐 헤어레
파비안 쾨흐
마르쿠스 캘링거
갈도 지오바니 델
베른하르트 그릴
Original Assignee
프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
프리드리히-알렉산더-우니베르지테트 에를랑겐-뉘른베르크
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베., 프리드리히-알렉산더-우니베르지테트 에를랑겐-뉘른베르크 filed Critical 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Publication of KR20130116299A publication Critical patent/KR20130116299A/ko
Application granted granted Critical
Publication of KR101555416B1 publication Critical patent/KR101555416B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/40Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
    • H04R2201/4012D or 3D arrays of transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
    • H04R2430/25Array processing for suppression of unwanted side-lobes in directivity characteristics, e.g. a blocking matrix

Landscapes

  • Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Stereophonic System (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Abstract

타겟 위치로부터 오디오 정보를 캡처하는 장치가 제공된다. 이러한 장치는 녹음 환경에서 배치되고, 제 1 녹음 특성을 가진 제 1 빔 형성기(110), 상기 녹음 환경에서 배치되고, 제 2 녹음 특성을 가진 제 2 빔 형성기(120) 및 신호 발생기(130)를 포함한다. 제 1 빔 형성기(110) 및 제 2 빔 형성기(120)가 제 1 및 2 녹음 특성에 대해 타겟 위치로 지향될 때 제 1 빔 형성기(110)는 제 1 빔 형성기의 오디오 신호를 녹음하기 위해 구성되고, 제 2 빔 형성기(120)는 제 2 빔 형성기의 오디오 신호를 녹음하기 위해 구성된다. 제 1 빔 형성기(110) 및 제 2 빔 형성기(120)는 제 1 빔 형성기(110) 및 타겟 위치를 통과하도록 정의되는 제 1 가상 직선, 및 제 2 빔 형성기(120) 및 타겟 위치를 통과하도록 정의되는 제 2 가상 직선이 서로에 대해 평행하지 않도록 배치된다. 신호 발생기(130)는 제 1 빔 형성기의 오디오 신호 및 제 2 빔 형성기의 오디오 신호에 기초하여 오디오 출력 신호를 발생시켜, 오디오 출력 신호가 제 1 및 2 빔 형성기의 오디오 신호에서의 타겟 위치로부터의 오디오 정보에 비해 타겟 위치로부터 상대적으로 더 많은 오디오 정보를 반영하도록 구성된다.

Description

음향 삼각 측량에 의한 공간 선택적 사운드 취득 장치 및 방법{APPARATUS AND METHOD FOR SPATIALLY SELECTIVE SOUND ACQUISITION BY ACOUSTIC TRIANGULATION}
본 발명은 오디오 처리에 관한 것으로서, 특히 타겟 위치에서 오디오 정보를 캡처하는 장치에 관한 것이다. 더욱이, 본 출원은 음향 삼각 측량에 의한 공간 선택적 사운드 취득에 관한 것이다.
공간 사운드 취득은 녹음실에 존재하는 전체 음장, 또는 가까이에서 응용에 관심이 있는 음장의 어떤 원하는 성분을 캡처하는 것을 목표로 한다. 일례로서, 한 방에서 여러 사람이 대화를 하는 상황에서, (공간적 특성을 포함하는) 전체 음장 또는 어떤 대화자가 생성하는 신호를 캡처하는데 관심이 있을 수 있다. 후자는 사운드를 분리하고, 증폭, 필터링 등과 같은 특정 처리를 사운드에 적용할 수 있다.
어떤 사운드 성분을 공간 선택적으로 캡처하는 다수의 방법이 알려져 있다. 이러한 방법은 종종 높은 지향성을 가진 마이크 또는 마이크 배열을 사용한다. 대부분의 방법은 마이크 또는 마이크 배열이 고정 알려진 기하학적 형상으로 배치되는 공통점이 있다. 마이크 사이의 간격은 일치하는 마이크 기술에 대해서는 가능한 작은 반면에, 그것은 일반적으로 다른 방법에 대해서는 몇 센티미터이다. 다음에는, 공간 사운드의 지향성 선택적 취득을 위한 어떤 장치(예를 들어, 지향성 마이크, 마이크 배열 등)를 빔 형성기로 나타낸다.
통상적으로, 사운드 캡처의 지향(공간) 선택성, 즉 공간 선택적 사운드 취득은 여러 가지 방식으로 달성될 수 있다:
한 가지 가능한 방식은 지향성 마이크(예를 들어, 카디오이드, 슈퍼 카디오이드, 또는 초지향성(shotgun) 마이크)를 채용하는 것이다. 여기에서 모든 마이크는 마이크에 대한 도래 방향(DOA)에 따라 사운드를 서로 다르게 캡처한다. 일부 마이크에서, 이러한 효과는 마이크가 거의 방향과 무관하게 사운드를 캡처할 때 작다. 이러한 마이크는 무지향성 마이크라 한다. 일반적으로, 이와 같은 마이크에서, 원형 진동판(circular diaphragm)은 작은 밀폐된 인클로저(airtight enclosure)에 부착되며, 예를 들어, 다음을 참조한다.
[EaOl] Eargle J. "The Microphone Book" Focal press 2001.
진동판이 인클로저에 부착되지 않고, 사운드가 각 측면에서 그것에 동일하게 도달할 경우, 지향성 패턴은 동일한 크기의 2개의 로브(lob)를 갖는다. 그것은 진동판의 전면 및 후면 모두에서 동일한 레벨을 갖지만, 극성이 반대인 사운드를 캡처한다. 이러한 마이크는 진동판의 평면에 평행한 방향에서 나오는 사운드를 캡처하지 못한다. 이러한 지향성 패턴은 다이폴 또는 피겨 오브 에잇(figure-of-eight)이라 한다. 무지향성 마이크의 인클로저가 밀폐되지 않지만, 음파가 인클로저를 통해 전파하고 진동판에 도달하도록 하는 특정 구성이 만들어지면, 지향성 패턴은 무지향성과 다이폴 사이의 어딘가에 있다([EaOl] 참조). 패턴은 2개의 로브를 가질 수 있지만, 로브는 서로 다른 크기를 가질 수 있다. 패턴은 또한 단일의 로브를 가질 수 있으며, 가장 중요한 예는 카디오이드 패턴인데, 여기서 지향성 함수 D는 D = 0.5(1 + cos(θ))로 표현될 수 있고, θ는 사운드의 도래 방향이다([EaOl] 참조). 이러한 함수는 최고 감도를 가진 각도에 대한 각도 θ에서 평면파의 캡처된 사운드 레벨의 상대적 크기를 정량화한다. 무지향성 마이크는 영차 마이크라 하고, 다이폴 및 카디오이드 패턴과 같이 이전에 언급된 다른 패턴은 1차 패턴으로 알려져 있다. 이러한 종류의 마이크는 이들의 지향성 패턴이 거의 전적으로 머신적 구성에 의해 결정되기 때문에 임의의 패턴 형상을 허용하지 않는다.
1차 패턴보다 마이크에 대해 더 좁은 지향성 패턴을 생성하는 데 사용될 수있는 일부 특정 음향 구조가 또한 존재한다. 예를 들면, 구멍을 가진 튜브가 무지향성 마이크에 부착되면, 매우 좁은 지향성 패턴을 가진 마이크가 생성될 수 있다. 이러한 마이크는 초지향성 또는 라이플(rifle) 마이크라 한다([EaOl 참조]). 이들은 일반적으로 정주파수 응답(flat frequency response)을 하지 않고, 이들의 지향성은 녹음 후에 제어될 수 없다.
지향성 특성을 가진 마이크를 구성하는 다른 방법은 무지향성 또는 지향성 마이크의 배열로 사운드를 녹음하고 나중에 신호 처리를 적용하는 것이며, 예를 들어 다음을 참조한다.
[BW01] M. Brandstein, D. Ward: "Microphone Arrays - Signal Processing Techniques and Applications", Springer Berlin, 2001, ISBN: 978-3-540-41953-2.
이를 위한 다양한 방법이 존재한다. 가장 단순한 형식에서, 사운드가 서로 가깝고 서로 차감되는 2개의 무지향성 마이크로 녹음될 때, 다이폴 특성을 가진 가상 마이크 신호가 형성된다. 예를 들어 다음을 참조한다.
[ElkOO] G. W. Elko: "Superdirectional microphone arrays" in S. G. Gay, J. Benesty (eds.): "Acoustic Signal Processing for Telecommunication", Chapter 10, Kluwer Academic Press, 2000, ISBN: 978-0792378143.
마이크 신호는 또한 서로 합산되기 전에 지연되거나 필터링될 수 있다. 빔 형성 시에, 좁은 빔에 상응하는 신호는 특별히 설계된 필터로 각 마이크 신호를 필터링하여 이를 합하여 형성된다. 이러한 "필터 및 합 빔 형성(filter-and-sum beamforming)"은 아래에 설명되어 있다.
[BS01 ]: J. Bitzer, K. U. Simmer: "Superdircctive microphone arrays" in M. Brandstein, D. Ward (eds.): "Microphone Arrays - Signal Processing Techniques and Applications", Chapter 2, Springer Berlin, 2001, ISBN: 978-3-540-41953-2.
이러한 기술은 신호 자체를 못보며, 예를 들어, 이런 기술은 사운드의 도래 방향을 인식하지 못한다. 대신에, "도래 방향"(DOA)의 평가는 자신의 작업이며, 예를 들어 다음을 참조한다.
[CBH06] J. Chen, J. Benesty, Y. Huang: "Time Delay Estimation in Room Acoustic Environments: An Overview", EUR AS IP Journal on Applied Signal Processing, Article ID 26503, Volume 2006 (2006) .
원칙적으로, 많은 서로 다른 방향 특성은 이러한 기술로 형성될 수 있다. 그러나, 공간적으로 매우 선택적인 임의의 감도 패턴을 형성하기 위해, 다수의 마이크가 필요하다. 일반적으로, 이러한 모든 기술은 관심있는 파장에 비해 작은 인접 마이크의 거리에 의존한다.
사운드 캡처 시에 지향적 선택성을 실현하기 위한 다른 방식은 파라메트릭 공간을 필터링하는 것이다. 예를 들어, 제한된 수의 마이크에 기초할 수 있고, 필터 및 합 구조([BS01] 참조)에서 시불변 필터를 소유하는 표준 빔 형성기 설계는 일반적으로 제한된 공간적 선택성만을 나타낸다. 공간적 선택성을 증가시키기 위해, (시불변) 스펙트럼 이득 함수를 입력 신호 스펙트럼에 적용하는 최근 파라 메트릭 공간 필터링 기술이 제안되었다. 이득 함수는 공간 사운드의 인간의 지각과 관련된 매개 변수에 기초하여 설계된다. 하나의 공간 필터링 접근 방식은 아래에 제시되고,
[DiFi2009] M. Kallinger, G. Del Galdo, F. Kiich, D. Mahne, and R. Schultz-Amling, "Spatial Filtering using Directional Audio Coding Parameters," in Proc. IEEE Int. Conf. on Acoustics, Speech, and Signal Processing (ICASSP), Apr. 2009,
이러한 접근 방식은 지향성 오디오 코딩(DirAC), 효율적인 공간 코딩 기술의 매개 변수 영역에서 구현된다. 지향성 오디오 코딩은 아래에 설명되어 있다.
[Pul06| Pulkki, V., "Directional audio coding in spatial sound reproduction and stereo upmixing," in Proceedings of The AES 28th International Conference, pp. 251-258, Pitea, Sweden, June 30 - July 2, 2006.
DirAC에서, 음장은 활성 강도 벡터뿐만 아니라 음압을 측정하는 한 위치에서 분석된다. 이러한 물리적 수량은 3개의 DirAC 매개 변수: 음압, 도래 방향(DOA) 및 사운드의 확산을 추출하는 데 사용된다. DirAC는 인간의 청각 시스템이 시간 및 주파수 타일(tile)당 한 방향만을 처리할 수 있다는 가정을 이용한다. 이러한 가정은 또한 MPEG 서라운드와 같은 다른 공간 오디오 코딩 기술에 의해 이용되며, 예를 들어 다음을 참조한다.
[Vil06] L. Villemoes, J. Herre, J. Breebaart, G. Hotho, S. Disch, H. Purnhagen, and K. Kjorling, "MPEG Surround: The Forthcoming ISO Standard for Spatial Audio Coding," in AES 28th International Conference, Pitea, Sweden, June 2006.
[DiFi2009]에서 설명된 바와 같이, 공간 필터링 접근 방식은 공간 선택성을 거의 자유롭게 선택할 수 있다.
추가의 기술은 비교할만한 공간 매개 변수를 이용한다. 이러한 기술은 아래에 설명되어 있다.
[Fal08] C. Fallen "Obtaining a Highly Directive Center Channel from Coincident Stereo Microphone Signals", Proc. 124th AES convention, Amsterdam, The Netherlands, 2008, Preprint 7380.
스펙트럼 이득 함수가 무지향성 마이크 신호에 적용되는 [DiFi2009]에서 설명된 기술과는 대조적으로, [Fal08]의 접근 방식은 2개의 카디오이드 마이크를 이용한다.
2개의 언급된 파라메트릭 공간 필터링 기술은 관심있는 파장에 비해 작은 마이크 간격에 의존한다. 이상적으로, [DiFi2009] 및 [Fal08]에서 설명된 기술은 일치하는 지향성 마이크에 기초한다.
사운드 캡처 시에 지향적 선택성을 실현하는 다른 방식은 마이크 신호 사이의 간섭성(coherence)에 따라 마이크 신호를 필터링하는 것이다.
[SBM01] K. U. Simmer, J. Bitzer, and C. Marro: "Post-Filtering Techniques" in M. Brandstein, D. Ward (eds.): "Microphone Arrays - Signal Processing Techniques and Applications", Chapter 3, Springer Berlin, 2001 , ISBN: 978-3-540-41953-2.
적어도 2개의 (반드시 지향성은 아닌) 마이크를 채용하는 시스템군이 설명되며, 이의 출력 신호의 처리는 신호의 간섭성에 기초로 한다. 기본 가정은 확산 배경 노이즈가 2개의 마이크 신호의 비간섭성 부분으로 나타내는 반면에, 소스 신호가 이러한 신호에 간섭성있게 나타난다는 것이다. 이러한 전제에 따라, 간섭성 부분은 소스 신호로 추출된다. [SBM01]에서 언급된 기술은 제한된 수의 마이크를 가진 ㅍ필터 및 합 빔 형성기가 확산 노이즈 신호를 거의 감소시킬 수 없다는 사실로 인해 개발되었다. 마이크의 위치에 대한 가정은 행해지지 않았으며, 마이크의 간격조차도 알려질 필요가 없다.
공간 선택적 사운드 취득을 위한 통상적인 접근 방식의 주요 한계는 녹음된 사운드가 항상 빔 형성기의 위치에 관계한다는 것이다. 그러나, 많은 응용에서, 빔 형성기를 원하는 위치에, 예를 들어 관심 음원에 대해 원하는 각도에 위치시키는 것이 가능(또는 실행 가능)하지 않다.
통상적인 빔 형성기는 예를 들어 마이크 배열을 채용할 수 있으며, 한 방향에서 사운드를 캡처하고 다른 방향에서 사운드를 거부하는 지향성 패턴("빔")을 형성할 수 있다. 결과적으로, 캡처하는 마이크 어레이에서의 거리에 관한 사운드 캡처의 영역을 제한할 가능성은 없다.
원하는 장소에서의 클로즈업 스팟(close-up spot) 마이크가 수행하는 방식과 마찬가지로 한 방향으로 발생하고 한 장소(스팟)에서 발생하는 것으로 제한되는 사운드를 선택적으로 캡처할 수 있는 캡처 장치를 갖는 것이 매우 바람직하다.
본 발명의 목적은 타겟 위치로부터 오디오 정보를 캡처하기 위한 향상된 개념을 제공하는 것이다. 본 발명의 목적은 청구항 1에 따라 오디오 정보를 캡처하는 장치, 청구항 14에 따라 오디오 정보를 캡처하는 방법 및 청구항 15에 따른 컴퓨터 프로그램에 의해 해결된다.
타겟 위치로부터 오디오 정보를 캡처하는 장치가 제공된다. 이러한 장치는 녹음 환경에서 배치되고, 제 1 녹음 특성을 가진 제 1 빔 형성기, 상기 녹음 환경에서 배치되고, 제 2 녹음 특성을 가진 제 2 빔 형성기 및 신호 발생기를 포함한다. 제 1 빔 형성기 및 제 2 빔 형성기가 제 1 및 2 녹음 특성에 대해 타겟 위치로 지향될 때 제 1 빔 형성기는 제 1 빔 형성기의 오디오 신호를 녹음하기 위해 구성되고, 제 2 빔 형성기는 제 2 빔 형성기의 오디오 신호를 녹음하기 위해 구성된다. 제 1 빔 형성기 및 제 2 빔 형성기는 제 1 빔 형성기 및 타겟 위치를 통과하도록 정의되는 제 1 가상 직선, 및 제 2 빔 형성기 및 타겟 위치를 통과하도록 정의되는 제 2 가상 직선이 서로에 대해 평행하지 않도록 배치된다. 신호 발생기는 제 1 빔 형성기의 오디오 신호 및 제 2 빔 형성기의 오디오 신호에 기초하여 오디오 출력 신호를 발생시켜, 오디오 출력 신호가 제 1 및 2 빔 형성기의 오디오 신호에서의 타겟 위치로부터의 오디오 정보에 비해 타겟 위치로부터 상대적으로 더 많은 오디오 정보를 반영하도록 구성된다. 3차원 환경에 따라, 바람직하게는, 제 1 가상 직선 및 제 2 가상 직선은 교차하고, 임의로 지향될 수 있는 평면을 정의한다.
이것에 의해, 공간 선택적 방식으로 사운드를 캡처하는, 즉 마치 클로즈업 "스팟 마이크"가 특정 타겟 위치에 설치된 것처럼 특정 타겟 위치에서 발생하는 사운드를 픽업하는 수단이 제공된다. 그러나, 이러한 스팟 마이크를 실제로 설치하는 대신에, 이의 출력 신호는 서로 다른 먼 위치에 배치된 2개의 빔 형성기를 사용하여 시뮬레이션될 수 있다.
이러한 2개의 빔 형성기는 서로 근접하게 배치되지 않지만, 이러한 빔 형성기의 각각이 독립적인 지향성 사운드 취득을 수행하도록 위치된다. 이들 "빔"은 원하는 스팟에서 중복되고, 그 다음에 이들의 개개의 출력은 최종 출력 신호를 형성하기 위해 조합된다. 다른 가능한 접근 방식과는 대조적으로, 2개의 개개의 출력의 조합은 공통 좌표계에서 2개의 빔 형성기의 위치에 대한 어떤 정보 또는 지식을 필요로 하지 않는다. 따라서, 가상 스팟 마이크 취득을 위한 전체 설정은 독립적으로 동작하는 2개의 빔 형성기, 및 개개의 출력 신호의 둘 다를 원격 "스팟 마이크"의 신호에 조합하는 신호 프로세서를 포함한다.
실시예에서, 장치는 제 1 및 2 빔 형성기, 예를 들어 2개의 공간 마이크 및 신호 발생기, 예를 들어, 조합 유닛, 예를 들어 "음향 교차점(acoustic intersection)"을 실현하기 위한 프로세서를 포함한다. 각 공간 마이크는 명확한 지향적 선택성을 가지며, 즉, 그것은 빔 내부의 위치에서 발생하는 사운드에 비해 빔 외부의 위치에서 발생하는 사운드를 감쇠시킨다. 공간 마이크는 서로 독립적으로 동작한다. 또한 본래 유연한 2개의 공간 마이크의 위치는 타겟 공간 위치가 두 빔의 기하학적 교차점에 위치되도록 선택된다. 바람직한 실시예에서, 2개의 공간 마이크는 타겟 위치에 대해 약 90 도의 각도를 형성한다. 조합 유닛, 예를 들어 프로세서는 2개의 공간 마이크의 기하학적 위치 또는 타겟 소스의 위치를 인식할 수 없다.
일 실시예에 따르면, 제 1 빔 형성기 및 제 2 빔 형성기는 제 1 가상 직선 및 제 2 가상 직선이 서로 교차하고, 타겟 위치에서 30도와 150도 사이의 교차 각도로 교차하도록 타겟 위치에 대해 배치된다. 추가의 실시예에서, 교차 각도는 60도와 120도 사이이다. 바람직한 실시예에서, 교차 각도는 약 90도이다.
실시예에서, 신호 발생기는 복수의 필터 계수를 갖는 적응 필터를 포함한다. 적응 필터는 제 1 빔 형성기의 오디오 신호를 수신하기 위해 배치된다. 이러한 필터는 필터링된 제 1 빔 형성기의 오디오 신호를 획득하기 위해 필터 계수에 따라 제 1 빔 형성기의 오디오 신호를 수정하도록 구성된다. 신호 발생기는 제 2 빔 형성기의 오디오 신호에 따라 필터의 필터 계수를 조정하도록 구성된다. 신호 발생기는 필터링된 제 1 빔 형성기의 오디오 신호와 제 2 빔 형성기의 제 2 오디오 신호 사이의 차이가 최소화되도록 필터 계수를 조정하기 위해 구성될 수 있다.
실시예에서, 신호 발생기는 제 1 및 2 빔 형성기의 오디오 신호에 따라 스펙트럼 영역에서 오디오 출력 신호를 생성하는 교차 계산기를 포함한다. 실시예에 따르면, 신호 발생기는 추가로 제 1 및 2 빔 형성기의 오디오 신호를 시간 영역에서 스펙트럼 영역으로 변환하는 분석 필터뱅크, 및 오디오 출력 신호를 스펙트럼 영역에서 시간 영역으로 변환하는 합성 필터뱅크를 포함할 수 있다. 교차 계산기는 스펙트럼 영역에 나타내는 제 1 빔 형성기의 오디오 신호 및 스펙트럼 영역에 나타내는 제 2 빔 형성기의 오디오 신호에 따라 스펙트럼 영역에서 오디오 출력 신호를 계산하기 위해 구성될 수 있다.
추가의 실시예에서, 교차 계산기는 제 1 및 2 빔 형성기의 오디오 신호의 상호 스펙트럼 밀도(cross-spectral density)와 제 1 또는 2 빔 형성기의 오디오 신호의 파워 스펙트럼 밀도에 따라 스펙트럼 영역에서 오디오 출력 신호를 계산하도록 구성된다.
일 실시예에 따르면, 교차 계산기는 다음의 식을 이용하여 스펙트럼 영역에서 오디오 출력 신호를 계산하도록 구성된다.
Figure pct00001
여기서, Y1(k, n)은 스펙트럼 영역의 오디오 출력 신호이고, S1(k, n)은 제 1 빔 형성기의 오디오 신호이고, C12(k, n)은 제 1 및 2 빔 형성기의 오디오 신호의 상호 스펙트럼 밀도이며, P1(k, n)은 제 1 빔 형성기의 오디오 신호의 파워 스펙트럼 밀도이며, 또는
교차 계산기는 다음의 식을 이용하여 스펙트럼 영역에서 오디오 출력 신호를 계산하도록 구성된다.
Figure pct00002
여기서, Y2(k, n)은 스펙트럼 영역의 오디오 출력 신호이고, S2(k, n)은 제 2 빔 형성기의 오디오 신호이고, C12(k, n)은 제 1 및 2 빔 형성기의 오디오 신호의 상호 스펙트럼 밀도이며, P2(k, n)은 제 2 빔 형성기의 오디오 신호의 파워 스펙트럼 밀도이다.
다른 실시예에서, 교차 계산기는 신호 Y1(k, n) 및 Y2(k, n)의 양자 모두를 계산하고, 두 신호 중 작은 신호를 오디오 출력 신호로 선택하도록 구성된다.
다른 실시예에서, 교차 계산기는 다음의 식을 이용하여 스펙트럼 영역에서 오디오 출력 신호를 계산하도록 구성된다.
Figure pct00003
여기서, Y3(k, n)은 스펙트럼 영역의 오디오 출력 신호이고, S1은 제 1 빔 형성기의 오디오 신호이고, C12(k, n)은 제 1 및 2 빔 형성기의 오디오 신호의 상호 스펙트럼 밀도이고, P1(k, n)은 제 1 빔 형성기의 오디오 신호의 파워 스펙트럼 밀도이며, P2(k, n)은 제 2 빔 형성기의 오디오 신호의 파워 스펙트럼 밀도이며, 또는
교차 계산기는 다음의 식을 이용하여 스펙트럼 영역에서 오디오 출력 신호를 계산하도록 구성된다.
Figure pct00004
여기서, Y4(k, n)은 스펙트럼 영역의 오디오 출력 신호이고, S2은 제 2 빔 형성기의 오디오 신호이고, C12(k, n)은 제 1 및 2 빔 형성기의 오디오 신호의 상호 스펙트럼 밀도이고, P1(k, n)은 제 1 빔 형성기의 오디오 신호의 파워 스펙트럼 밀도이며, P2(k, n)은 제 2 빔 형성기의 오디오 신호의 파워 스펙트럼 밀도이다.
다른 실시예에서, 교차 계산기는 신호 Y3(k, n) 및 Y4(k, n)의 양자 모두를 계산하고, 두 신호 중 작은 신호를 오디오 출력 신호로 선택하도록 구성될 수 있다.
본 발명의 다른 실시예에 따르면, 신호 발생기는 제 1 및 2 빔 형성기의 오디오 신호를 조합하여 조합된 신호를 획득하고, 조합된 신호를 이득 계수만큼 가중하여 오디오 출력 신호를 생성하도록 구성될 수 있다. 조합된 신호는 예를 들어 시간 영역, 부대역 영역 또는 고속 푸리에 변환 영역에서 가중될 수 있다.
추가의 실시예에서, 신호 발생기는 조합된 신호의 파워 스펙트럼 밀도 값이 각 고려된 시간-주파수 타일에 대한 제 1 및 2 빔 형성기의 오디오 신호의 파워 스펙트럼 밀도 값의 최소치와 동일하도록 조합된 신호를 생성하여 오디오 출력 신호를 생성하기 위해 구성된다.
본 발명의 바람직한 실시예는 첨부된 도면에 대해 설명될 것이다.
도 1은 실시예에 따라 타겟 위치에서 오디오 정보를 캡처하는 장치를 도시한다.
도 2는 2개의 빔 형성기 및 출력 신호를 계산하는 스테이지를 이용하는 실시예에 따른 장치를 도시한다.
도 3a는 빔 형성기와 타겟 위치로 지향되는 빔 형성기의 빔을 도시한다.
도 3b는 빔 형성기와 추가 상세 사항을 보여주는 빔 형성기의 빔을 도시한다.
도 4a는 실시예에 따라 타겟 위치에 대한 2개의 빔 형성기의 기하학적 설정을 도시한다.
도 4b는 도 4a의 2개의 빔 형성기 및 3개의 음원의 기하학적 설정을 도시한다.
도 4c는 도 4b의 2개의 빔 형성기 및 더욱 상세히 예시된 3개의 음원의 기하학적 설정을 도시한다.
도 5는 실시예에 따른 신호 발생기를 도시한다.
도 6은 다른 실시예에 따른 신호 발생기를 도시한다.
도 7은 실시예에 따라 상호 스펙트럼 밀도 및 파워 스펙트럼 밀도에 기초한 오디오 출력 신호의 생성을 예시한 흐름도이다.
도 1은 타겟 위치에서 오디오 정보를 캡처하는 장치를 도시한다. 이러한 장치는 녹음 환경에서 배치되고, 제 1 녹음 특성을 가진 제 1 빔 형성기(110)를 포함한다. 더욱이, 장치는 상기 녹음 환경에서 배치되고, 제 2 녹음 특성을 가진 제 2 빔 형성기(120)를 포함한다. 더욱이, 장치는 신호 발생기(130)를 포함한다. 제 1 빔 형성기(110)는 제 1 빔 형성기(110)가 제 1 녹음 특성에 대한 타겟 위치로 지향될 때 제 1 빔 형성기의 오디오 신호(s1)를 녹음하기 위해 구성된다. 제 1 빔 형성기(120)는 제 1 빔 형성기(120)가 제 2 녹음 특성에 대한 타겟 위치로 지향될 때 제 2 빔 형성기의 오디오 신호(s2)를 녹음하기 위해 구성된다. 제 1 빔 형성기(110) 및 제 2 빔 형성기(120)는 제 1 빔 형성기(110) 및 타겟 위치를 통과하도록 정의되는 제 1 가상 직선, 및 제 2 빔 형성기(120) 및 타겟 위치를 통과하도록 정의되는 제 2 가상 직선이 서로에 대해 평행하지 않도록 배치된다. 신호 발생기(130)는 제 1 빔 형성기의 오디오 신호(s1) 및 제 2 빔 형성기의 오디오 신호(s2)에 기초하여 오디오 출력 신호를 발생시켜, 오디오 출력 신호(s)가 제 1 및 2 빔 형성기의 오디오 신호(s1, s2)에서의 타겟 위치로부터의 오디오 정보에 비해 타겟 위치로부터 비교적 많은 오디오 정보를 반영하도록 구성된다.
도 2는 2개의 빔 형성기, 및 2개의 빔 형성기의 개개의 출력 신호의 공통 부분으로 출력 신호를 계산하는 스테이지를 이용하는 실시예에 따른 장치를 도시한다. 제각기 제 1 및 2 빔 형성기의 오디오 신호를 녹음하기 위한 제 1 빔 형성기(210) 및 제 2 빔 형성기(220)가 도시된다. 신호 발생기(230)는 일반적인 신호 부분("음향 교차점")을 계산한다.
도 3a는 빔 형성기(310)를 도시한다. 도 3a의 실시예의 빔 형성기(310)는 공간 사운드의 지향 선택적 취득을 위한 장치이다. 예를 들면, 빔 형성기(310)는 지향성 마이크 또는 마이크 배열일 수 있다. 다른 실시예에서, 빔 형성기는 복수의 지향성 마이크를 포함할 수 있다.
도 3a는 빔(315)을 둘러싸는 곡선(316)을 도시한다. 빔(315)을 정의하는 곡선(316) 상의 모든 지점은 곡선 상의 한 지점으로부터 발생하는 미리 정의된 음압 레벨이 곡선 상의 모든 지점에 대한 마이크의 동일한 신호 레벨 출력 곡선을 생성시키는 것을 특징으로 한다.
더욱이, 도 3a는 빔 형성기의 주요 축(320)을 도시한다. 빔 형성기(310)의 주요 축(320)은 주요 축(320) 상의 고려된 지점에서 발생하는 미리 정의된 음압 레벨을 가진 사운드가 빔 형성기로부터 고려된 지점과 동일한 거리를 가진 어떤 다른 지점에서 발생하는 미리 정의된 음압 레벨을 가진 사운드로부터 생성하는 빔 형성기의 제 2 신호 레벨 출력보다 크거나 같은 빔 형성기의 제 1 신호 레벨 출력을 생성시키는 것으로 정의된다.
도 3b는 이를 더욱 상세히 도시한다. 지점(325, 326 및 327)은 빔 형성기(310)로부터 동일한 거리(d)를 갖는다. 주요 축(320) 상의 지점(325)에서 발생하는 미리 정의된 음압 레벨을 가진 사운드는 빔 형성기(310)로부터 주요 축 상의 지점(325)과 동일한 거리(d)를 가진, 예를 들어 지점(326) 또는 지점(327)에서 발생하는 미리 정의된 음압 레벨을 가진 사운드로부터 생성하는 빔 형성기의 제 2 신호 레벨 출력보다 크거나 같은 빔 형성기의 제 1 신호 레벨 출력을 생성시킨다. 3차원의 경우에, 이것은 주요 축이 미리 정의된 음압 레벨이 가상 볼(virtual ball) 상의 어떤 다른 지점과 비교되는 지점에서 발생할 때에 빔 형성기의 가장 큰 신호 레벨 출력을 생성시키는 가상 볼의 중심에 위치된 빔 형성기를 가진 가상 볼 상의 지점을 나타내는 것을 의미한다.
다시 도 3a를 참조하면, 또한 타겟 위치(330)가 도시되어 있다. 타겟 위치(330)는 사용자가 빔 형성기(310)를 사용하여 녹음하려고 하는 사운드가 발생하는 위치일 수 있다. 이를 위해, 빔 형성기는 원하는 사운드를 녹음할 타겟 위치로 지향될 수 있다. 이러한 맥락에서, 빔 형성기(310)는 빔 형성기(310)의 주요 축(320)이 타겟 위치(330)를 통과할 때 타겟 위치(330)로 지향되는 것으로 간주된다. 때때로, 타겟 위치(330)는 타겟 지역일 수 있지만, 다른 예에서는 타겟 위치가 지점일 수 있다. 타겟 위치(330)가 지점인 경우, 주요 축(320)은 지점이 주요 축(320)에 위치될 때 타겟 위치(330)를 통과하는 것으로 간주된다. 도 3에서, 빔 형성기(310)의 주요 축(320)은 타겟 위치(330)를 통과하며, 따라서 빔 형성기(310)는 타겟 위치로 지향된다.
빔 형성기(310)는 사운드가 발생하는 방향에 따라 사운드를 녹음할 수 있는 빔 형성기의 능력을 나타내는 녹음 특성을 가지고 있다. 빔 형성기(310)의 녹음 특성은 공간의 주요 축(320)의 방향, 빔(315)의 방향, 형태 및 특성 등을 포함한다.
도 4a는 타겟 위치(430)에 대한 2개의 빔 형성기, 제 1 빔 형성기(410) 및 제 2 빔 형성기(420)의 기하학적 설정을 도시한다. 제 1 빔 형성기(410)의 제 1 빔(415) 및 제 2 빔 형성기(420)의 제 2 빔(425)이 도시된다. 더욱이, 도 4a는 제 1 빔 형성기(410)의 제 1 주요 축(418) 및 제 2 빔 형성기(420)의 제 2 주요 축(428)을 도시한다. 제 1 빔 형성기(410)는 제 1 주요 축(418)이 타겟 위치(430)를 통과할 때 타겟 위치(430)로 지향되도록 배치된다. 더욱이, 제 2 빔 형성기(420)는 또한 제 2 주요 축(428)이 타겟 위치(430)를 통과할 때 타겟 위치(430)로 지향된다.
제 1 빔 형성기(410)의 제 1 빔(415) 및 제 2 빔 형성기(420)의 제 2 빔(425)은 사운드를 출력하는 타겟 소스가 위치되는 타겟 위치(430)에서 교차한다. 제 1 빔 형성기(410)의 제 1 주요 축(418) 및 제 2 빔 형성기(420)의 제 2 주요 축(428)의 교차 각도는 α로 표시된다. 선택적으로, 교차 각도 α는 90도이다. 다른 실시예에서, 교차 각도는 30도와 150도 사이이다.
3차원 환경에서, 바람직하게는, 제 1 주요 축 및 제 2 가상 주요 축은 교차하고 임의로 지향될 수 있는 평면을 정의한다.
도 4b는 3개의 음원 srcl, src2. src3을 추가로 도시한 도 4a의 2개의 빔 형성기의 기하학적 설정을 도시한다. 빔 형성기(410 및 420)의 빔(415, 425)은 타겟 위치, 즉 타겟 소스 src3의 위치에서 교차한다. 그러나, 소스 src1 및 소스 src2는 2개의 빔(415, 425) 중 하나에만 위치된다. 제 1 및 2 빔 형성기(410 및 420)는 둘 다 지향적 선택성 사운드 취득을 위해 구성되고, 이들의 빔(415, 425)은 제각기 이들에 의해 취득되는 사운드를 나타내는 것이 주목되어야 한다. 따라서, 제 1 빔 형성기의 제 1 빔(415)은 제 1 빔 형성기(410)의 제 1 녹음 특성을 나타낸다. 제 2 빔 형성기의 제 2 빔(425)은 제 2 빔 형성기(420)의 제 2 녹음 특성을 나타낸다.
도 4b의 실시예에서. 소스 src1 및 src2는 원하는 소스 src3의 신호를 방해하는 원하지 않는 소스를 나타낸다. 그러나, 소스 src1 및 src2는 또한 2개의 빔 형성기에 의해 픽업되는 독립적인 주변 구성 요소로 간주될 수 있다. 이상적으로, 실시예에 따른 장치의 출력은 원하지 않는 소스 src1 및 src2를 완전히 억제하면서 src3만을 반환한다.
도 4b의 실시예에 따르면. 지향적 선택성 사운드 취득을 위한 둘 이상의 장치, 예를 들어 지향성 마이크, 마이크 배열 및 상응하는 빔 형성기는 "원격 스팟 마이크" 기능을 달성하기 위해 사용된다. 적절한 빔 형성기는 예를 들어 마이크 배열 또는 초지향성 마이크와 같은 높은 지향성 마이크일 수 있으며, 예를 들어 마이크 배열 또는 높은 지향성 마이크의 출력 신호는 빔 형성기의 오디오 신호로 사용될 수 있다. "원격 스팟 마이크" 기능은 스팟 주변의 제한된 지역에서 발생하는 사운드만을 픽업하는 데 사용된다.
도 4c는 이것을 더욱 상세히 도시한다. 실시예에 따르면, 제 1 빔 형성기(410)는 제 1 방향에서 사운드를 캡처한다. 제 1 빔 형성기(410)에서 아주 멀리 위치되는 제 2 빔 형성기(420)는 제 2 방향에서 사운드를 캡처한다.
제 1 및 2 빔 형성기(410 및 420)는 타겟 위치(430)로 지향되도록 배치된다. 바람직한 실시예에서, 빔 형성기(410, 420), 예를 들어 2개의 마이크 배열은 서로 멀리 떨어져 있고, 서로 다른 방향에서 타겟 스팟 쪽으로 향한다. 이것은 단일의 배열만이 사용되고, 여러 센서가 서로 가까이에 배치되는 기존의 마이크 배열 처리와 다르다. 제 1 빔 형성기(410)의 제 1 주요 축(418) 및 제 2 빔 형성기(420)의 제 2 주요 축(428)은 병렬로 배치되지 않고, 대신에 교차 각도 α로 교차하는 2개의 직선을 형성한다. 제 2 빔 형성기(420)는 교차 각도가 90도일 때 제 1 빔 형성기에 대해 최적으로 배치된다. 실시예에서, 교차 각도는 적어도 60도이다.
사운드 캡처를 위한 타겟 스팟 또는 타겟 지역은 두 빔(415, 425)의 교차점이다. 이러한 지역에서 신호는 "음향 교차점"이 계산되도록 2개의 빔 형성기(410, 420)의 출력 신호를 처리하여 유도된다. 이러한 교차점은 2개의 개개의 빔 형성기의 출력 신호 사이에서 공통/간섭성(common/coherent)인 신호 부분으로 간주될 수 있다.
이러한 개념은 빔 형성기의 개개의 지향성 및 빔 형성기의 출력 신호 사이의 간섭성의 둘 다를 이용한다. 이것은 단일의 배열만이 사용되고, 여러 센서가 서로 가까이에 배치되는 일반적인 마이크 배열 처리와 다르다.
이것에 의해, 방출된 사운드는 특정 타겟 위치에서 캡처/취득된다. 이것은 음원의 위치를 추정하기 위해 분산된 마이크를 사용하지만, 실시예에 따라 제안된 바와 같이 멀리 떨어진 마이크 배열의 출력을 고려하여 지역화된 음원의 녹음 향상을 목표로 하지 않는 접근 방식과는 대조적이다.
상당한 지향성 마이크를 사용하는 것 외에, 실시예에 따른 개념은 전통적인 빔 형성기 및 파라메트릭 공간 필터의 양자로 구현될 수 있다. 빔 형성기가 주파수 의존 진폭 및 위상 왜곡을 도입하면, 이것은 "음향 교차점"의 계산을 위해 알려지고 고려되어야 한다.
실시예에서, 장치, 예를 들어 신호 발생기는 "음향 교차점" 구성 요소를 계산한다. 신호가 빔 형성기의 오디오 신호(예를 들어 제 1 및 2 빔 형성기에 의해 녹음된 오디오 신호)의 둘 다에 존재하는 경우, 교차점을 계산하기 위한 이상적인 장치는 전체 출력을 제공하며, 신호가 2개의 빔 형성기의 오디오 신호 중 하나에만 존재하거나 어느 것에도 존재하지 않는 경우에는 제로 출력을 제공할 것이다. 또한 장치의 양호한 성능을 보장하는 양호한 억제 특성은, 예를 들어 하나의 빔 형성기의 오디오 신호에만 존재하는 신호의 전송 이득을 결정하여, 빔 형성기의 오디오 신호의 둘 다에 존재하는 신호에 대한 전송 이득에 관하여 설정하여 달성될 수 있다.
2개의 빔 형성기의 오디오 신호 s1 및 s2는 다음과 같은 식이 되도록 필터링, 지연 및/또는 스케일링 공통 타겟 신호 s 및 개개의 잡음/간섭 신호 n1 및 n2의 중첩으로 간주될 수 있다.
s1 = f1(s) + n1
s2 = f2(s) + n2
여기서, f1(s) 및 f2(s)는 두 신호에 제공되는 개개의 필터링, 지연 및/또는 스케일링 함수이다. 따라서, 태스크는 s1 = f1(s) + n1 및 s2 = f2(s) + n2로부터 s를 추정할 수 있다. 모호성을 피하기 위해, f2(s)는 일반성의 손실없이 ID(identity)로 설정될 수 있다.
"교차 성분"는 여러 방식으로 구현될 수 있다.
실시예에 따르면, 두 신호 사이의 공통 부분은 음향 에코 제거에는 일반적인 필터, 예를 들어 전형적인(classic) 적응 LMS(Least Mean Square) 필터를 이용하여 계산된다.
도 5는 실시예에 따라 공통 신호 s가 적응 필터(510)를 사용하여 신호 s1 및 s2로부터 계산되는 신호 발생기를 도시한다. 도 5의 신호 발생기는 제 1 빔 형성기의 오디오 신호 s1 및 제 2 빔 형성기의 오디오 신호 s2를 수신하고, 제 1 및 2 빔 형성기의 오디오 신호 s1 및 s2에 기초하여 오디오 출력 신호를 발생시킨다.
도 5의 신호 발생기는 적응 필터(510)를 포함한다. 음향 에코 제거에서 알려져 있는 바와 같이, 전형적인 최소 평균 제곱 오차 적응/ 최적화 처리 방식은 적응 필터(510)에 의해 실현된다. 적응 필터(510)는 제 1 빔 형성기의 오디오 신호 s1를 수신하고, 제 1 빔 형성기의 오디오 신호 s1를 필터링하여 필터링된 제 1 빔 형성기의 오디오 신호 s를 오디오 출력 신호로 생성시킨다. (s에 대한 다른 적절한 표기는
Figure pct00005
이지만, 더 나은 판독성을 위해, 시간 영역 오디오 출력 신호는 다음에서 "s"로 언급될 것이다). 제 1 빔 형성기의 오디오 신호 s1의 필터링은 적응 필터(510)의 조정 가능한 필터 계수에 기초하여 실시된다.
도 5의 신호 발생기는 필터링된 제 1 빔 형성기의 오디오 신호 s를 출력한다. 더욱이, 필터링된 빔 형성기의 오디오 출력 신호 s는 또한 차이 계산기(520)로 공급된다. 차이 계산기(520)는 또한 제 2 빔 형성기의 오디오 신호를 수신하고, 필터링 제 1 빔 형성기의 오디오 신호 s와 제 2 빔 형성기의 오디오 신호 s2 사이의 차이를 계산한다.
신호 발생기는 s1(=s) 및 s2 사이의 차가 최소화되도록 적응 필터(510)의 필터 계수를 조정하기 위해 구성된다. 따라서, 신호 s, 즉 s1의 필터링된 버전은 원하는 간섭성 출력 신호를 나타내는 것으로 간주될 수 있다. 따라서, 신호 s, 즉 s1의 필터링된 버전은 원하는 간섭성 출력 신호를 나타낸다.
다른 실시예에서, 두 신호 사이의 공통 부분은 두 신호 사이의 간섭성 미터법(coherence metric)에 기초하여 추출되며, 다음에 설명된 간섭성 미터법을 참조한다.
[Fa03] C. Faller and F. Baumgarte, "Binaural Cue Coding - Part II: Schemes and applications," IEEE Trans, on Speech and Audio Proc, vol. 11, no. 6, Nov. 2003.
또한 [Fa06] 및 [Her08]에 설명된 간섭성 미터법을 참조한다.
두 신호의 간섭성 부분은 시간 영역으로 나타낸 신호로부터 추출될 수 있지만, 또한 바람직하게는 스펙트럼 영역, 예를 들어 시간/주파수 영역으로 나타낸 신호로부터 추출될 수 있다.
도 6은 실시예에 따른 신호 발생기를 도시한다. 신호 발생기는 분석 필터뱅크(610)를 포함한다. 분석 필터뱅크(610)는 제 1 빔 형성기의 오디오 신호 s1(t) 및 제 2 빔 형성기의 오디오 신호 s2(t)를 수신한다. 제 1 및 2 빔 형성기의 오디오 신호 s1(t), s2(t)는 시간 영역으로 나타내며, t는 각각의 빔 형성기의 오디오 신호의 시간 샘플의 수를 명시한다. 분석 필터뱅크(610)는 제 1 및 2 빔 형성기의 오디오 신호 s1(t), s2(t)를 시간 영역에서 스펙트럼 영역으로, 예를 들어, 시간-주파수 영역으로 변환하여 제 1 S1(k, n) 및 제 2 S2(k, n) 스펙트럼 영역 빔 형성기의 오디오 신호를 획득하도록 구성된다. S1(k, n) 및 S2(k, n)에서, k는 주파수 인덱스를 명시하고, n은 각각의 빔 형성기의 오디오 신호의 시간 인덱스를 명시한다. 분석 필터뱅크는 단시간 푸리에 변환(STFT) 분석 필터뱅크, 다상 필터뱅크, 직교 미러 필터(QMF)와 같은 어떤 종류의 분석 필터뱅크뿐만 아니라 이산 푸리에 변환 (DFT), 이산 코사인 변환(DCT) 및 수정된 이산 코사인 변환(MDCT) 분석 필터뱅크와 같은 필터뱅크일 수 있다. 스펙트럼 영역의 제 1 및 2 빔 형성기의 오디오 신호 S1 및 S2를 획득함으로써, 빔 형성기의 오디오 신호 S1 및 S2의 특성은 각 시간 프레임 및 여러 주파수 대역 각각에 대해 분석될 수 있다.
더욱이, 신호 발생기는 스펙트럼 도메인에서의 오디오 출력 신호를 생성하는 교차 계산기(620)를 포함한다.
더욱이, 신호 발생기는 생성된 오디오 출력 신호를 스펙트럼 영역에서 시간 영역으로 변환하는 합성 필터뱅크(630)를 포함한다. 합성 필터뱅크(630)는 예를 들어 단시간 푸리에 변환(STFT) 합성 필터뱅크, 다상 합성 필터뱅크, 직교 미러 필터(QMF) 합성 필터뱅크뿐만 아니라 이산 푸리에 변환(DFT), 이산 코사인 변환(DCT) 및 수정된 이산 코사인 변환(MDCT) 합성 필터뱅크와 같은 합성 필터뱅크를 포함할 수 있다.
다음에는, 예를 들어 간섭성을 추출하여 오디오 출력 신호를 계산하는 가능한 방식이 설명된다. 도 6의 교차 계산기(620)는 이들 방식 중 하나 이상에 따라 스펙트럼 영역에서의 오디오 출력 신호를 계산하기 위해 구성될 수 있다.
추출된 바와 같이 간섭성은 스케일링 및 위상 시프트 동작을 보상하면서 공통의 간섭성 내용을 측정하며, 예를 들어 다음을 참조한다:
[Fa06] C. Faller, "Parametric Multichannel Audio Coding: Synthesis of Coherence Cues," IEEE Trans, on Speech and Audio Proc, vol. 14, no. 1 , Jan 2006;
[Her08] J. Herre, K. Kjorling, J. Breebaart, C. Faller, S. Disch, H. Purnhagen, J.Koppens, J. Hilpert, J. Roden. W. Oomcn, K. Linzmeier, K. S. Chong: "MPEG Surround -The ISO/MPEG Standard for Efficient and Compatible Multichannel Audio Coding", Journal of the AES, Vol. 56, No. 1 1 , November 2008, pp. 932-955
제 1 및 2 빔 형성기의 오디오 신호의 간섭성 신호 부분의 추정치를 생성할 수 있는 하나의 가능성은 교차 인수(cross-factor)를 두 신호 중 하나에 적용하는 것이다. 교차 인수는 시간 평균화될 수 있다. 여기서, 제 1 및 2 빔 형성기의 오디오 신호 사이의 상대적 지연은 실질적으로 필터뱅크 윈도우 크기보다 작도록 제한된다고 가정한다.
다음에는, 공통의 신호 부분을 추출하고, 간섭성 측정의 명시적 계산에 기초하여 상관 관계 기반의 접근 방식을 채용하여 스펙트럼 영역에서의 오디오 출력 신호를 계산하는 실시예가 상세히 설명된다.
신호 S1(k, n) 및 S2(k, n)는 빔 형성기의 오디오 신호의 스펙트럼 영역 표현을 나타내며, 여기서 k는 주파수 인덱스이고, n은 시간 인덱스이다. 특정 주파수 인덱스 k 및 특정 시간 인덱스 n에 의해 명시된 각각의 특정 시간-주파수 타일(k, n)의 경우, 신호 S1(k, n) 및 S2(k, n)의 각각에 대한 계수가 존재한다. 2개의 스펙트럼 영역 빔 형성기의 오디오 신호 S1(k, n), S2(k, n)로부터, 교차 성분 에너지가 계산된다. 이러한 교차 성분 에너지는 예를 들어 S1(k, n) 및 S2(k, n)의 상호 스펙트럼 밀도(CSD) C12(k, n)의 크기를 결정하여 계산될 수 있다:
Figure pct00006
여기서, 첨자 *는 공액 복소수를 나타내고, E{}는 수학적 기대치를 나타낸다. 실제로, 기대 연산자(expectation operator)는 채용된 필터뱅크의 시간/주파수 분해능에 따라 항
Figure pct00007
의 시간적 또는 주파수 평활화로 대체된다.
제 1 빔 형성기의 오디오 신호 S1(k, n)의 파워 스펙트럼 밀도(PSD) P1(k, n) 및 제 2 빔 형성기의 오디오 신호 S2(k, n)의 파워 스펙트럼 밀도 P2(k, n)는 아래의 식에 따라 계산될 수 있다:
Figure pct00008
다음에는, 2개의 빔 형성기의 오디오 신호로부터 음향 교차점 Y(k, n)의 계산의 실제 구현을 위한 실시예가 제공된다.
출력 신호를 획득하는 제 1 방식은 제 1 빔 형성기의 오디오 신호 S1(k, n)를 수정하는 것에 기초한다:
Figure pct00009
마찬가지로, 대안적인 출력 신호는 제 2 빔 형성기의 오디오 신호 S2(k, n)로부터 유도될 수 있다:
Figure pct00010
출력 신호를 결정하기 위해, 이득 함수 G1(k, n) 및 G2(k, n)의 최대값을 어떤 임계값, 예를 들어 1로 제한하는 것이 유용할 수 있다.
도 7은 실시예에 따라 상호 스펙트럼 밀도 및 파워 스펙트럼 밀도에 기초한 오디오 출력 신호의 생성을 예시한 흐름도이다.
단계(710)에서, 제 1 및 2 빔 형성기의 오디오 신호의 상호 스펙트럼 밀도 C12(k, n)가 계산된다. 예를 들면, 상술한 식
Figure pct00011
Figure pct00012
이 적용될 수 있다.
단계(720)에서. 제 1 빔 형성기 오디오 신호의 파워 스펙트럼 밀도 P1(k, n)가 계산된다. 대안적으로, 제 2 빔 형성기의 오디오 신호의 파워 스펙트럼 밀도가 또한 이용될 수 있다.
그 후, 단계(730)에서, 이득 함수 G1(k, n)는 단계(710)에서 계산된 상호 스펙트럼 밀도 및 단계(720)에서 계산된 파워 스펙트럼 밀도에 기초하여 계산된다.
마지막으로, 단계(740)에서, 제 1 빔 형성기의 오디오 신호 S1(k, n)는 원하는 오디오 출력 신호 Y1(k, n)를 획득하도록 수정된다. 제 2 빔 형성기의 오디오 신호의 파워 스펙트럼 밀도가 단계(720)에서 계산되었다면, 제 2 빔 형성기의 오디오 신호 S2(k, n)는 원하는 오디오 출력 신호를 획득하도록 수정될 수 있다.
두 구현이 2개의 빔에 대하여 활성 음원의 위치에 따라 작게 될 수 있는 분모(denominator)에서 단일의 에너지 항(single energy term)을 가지므로, 음향 교차점에 상응하는 사운드 에너지와 빔 형성기에 의해 픽업된 전체 또는 평균 사운드 에너지 사이의 비율을 나타내는 이득을 이용하는 것이 바람직하다. 출력 신호는 아래 식을 적용하여 획득될 수 있다.
Figure pct00013
, 또는
출력 신호는 아래 식을 적용하여 획득될 수 있다.
Figure pct00014
상술한 두 예에서, 이득 함수는 빔 형성기의 오디오 신호의 녹음된 사운드가 음향 교차점의 신호 성분을 포함하지 않는 경우에는 작은 값을 가질 것이다. 반면에, 빔 형성기의 오디오 신호가 원하는 음향 교차점에 상응하는 경우에는 1에 근접한 이득 값이 획득된다.
더욱이, (이용된 빔 형성기의 제한된 지향성에도 불구하고) 음향 교차점에 상응하는 오디오 출력 신호에 성분만이 확실히 나타나도록 하기 위해, 최종 출력 신호를 제각기 Y1 및 Y2 (또는 Y3 및 Y4) 중 작은 신호(에너지)로 계산하는 것이 바람직할 수 있다. 실시예에서, 두 신호 Y1, Y2 중 신호 Y1 또는 Y2는 작은 평균 에너지를 가진 작은 신호로 간주된다. 다른 실시예에서, 신호 Y3 또는 Y4는 작은 평균 에너지를 가진 두 신호 Y3, Y4 중 작은 신호로 간주된다.
또한, 이전의 실시예에 대해 설명된 것과는 달리, (파워만을 이용하는 것과는 반대로) 제 1 및 2 빔 형성기의 오디오 신호 S1 및 S2 둘 다를 후속하여 설명된 이득 함수 중 하나를 이용하여 가중되는 단일의 신호에 조합하여 이용하는 오디오 출력 신호를 계산하는 다른 방식이 존재한다. 예를 들면, 제 1 및 2 빔 형성기의 오디오 신호 S1 및 S2가 추가될 수 있고, 생성된 합 신호가 후속하여 상술한 이득 함수 중 하나를 이용하여 가중될 수 있다.
스펙트럼 영역의 오디오 출력 신호 S는 합성(역) 필터뱅크를 이용하여 시간/주파수 표현에서 시간 신호로 다시 변환될 수 있다.
다른 실시예에서, 두 신호 사이의 공통 부분은 예를 들어 (정규화된) 두 빔 형성기의 신호의 교차(예를 들어 최소) PSD(파워 스펙트럼 밀도)를 갖도록 조합된 신호(예를 들어 합 신호)의 크기 스펙트럼을 처리하여 추출된다. 입력 신호는 상술한 바와 같이 시간/주파수 선택 방식으로 분석될 수 있으며, 두 노이즈 신호가 드문 드문하고 흩어지는, 즉 동일한 시간/주파수 타일에 나타나지 않는다는 이상적인 가정이 행해진다. 이 경우에, 간단한 해결책은 어떤 적당한 재정규화/정렬 절차 후에 신호 중 하나의 파워 스펙트럼 밀도(PSD) 값을 다른 신호의 값으로 제한하는 것이다. 두 신호 사이의 상대적 지연이 필터뱅크 윈도우크기보다 실질적으로 작도록 제한된다고 가정할 수 있다.
일부 양태가 장치와 관련하여 설명되었지만, 이러한 양태는 또한 상응하는 방법에 대한 설명을 나타낸다는 것이 자명하며, 여기서, 블록 또는 장치는 방법 단계 또는 방법 단계의 특징에 상응한다. 마찬가지로, 방법 단계와 관련하여 설명된 양태는 또한 상응하는 장치의 상응하는 블록 또는 항목 또는 특징에 대한 설명을 나타낸다.
상술한 실시예에 따라 생성된 신호는 디지털 저장 매체 상에 저장될 수 있거나, 무선 전송 매체와 같은 전송 매체 또는 인터넷과 같은 유선 전송 매체 상에서 전송될 수 있다.
어떤 구현 요구 사항에 따라, 본 발명의 실시예는 하드웨어 또는 소프트웨어에서 구현될 수 있다. 이러한 구현은 디지털 저장 매체, 예를 들어, 플로피 디스크, DVD, CD, ROM, PROM, EPROM, EEPROM 또는 플래시 메모리를 이용하여 수행될 수 있으며, 이러한 디지털 저장 매체는 각각의 방법이 수행되도록 프로그램 가능한 컴퓨터 시스템과 협력하는 (또는 협력할 수 있는) 전자식 판독 가능한 제어 신호를 저장한다.
본 발명에 따른 일부 실시예는 여기에 설명된 방법 중 하나가 수행되도록 프로그램 가능한 컴퓨터 시스템과 협력할 수 있는 전자식 판독 가능한 제어 신호를 가진 비일시적인 데이터 캐리어를 포함한다.
일반적으로, 본 발명의 실시예는 프로그램 코드를 가진 컴퓨터 프로그램 제품으로서 구현될 수 있으며, 이러한 프로그램 코드는 컴퓨터 프로그램 제품이 컴퓨터 상에서 실행할 때에 방법 중 하나를 수행하기 위해 동작 가능하다. 프로그램 코드는 예를 들어 머신 판독 가능한 캐리어 상에 저장될 수 있다.
다른 실시예는 머신 판독 가능한 캐리어 상에 저장되는 여기에 설명된 방법 중 하나를 수행하는 컴퓨터 프로그램을 포함한다.
그래서, 다시 말하면, 본 발명의 방법의 실시예는 컴퓨터 프로그램이 컴퓨터 상에서 실행할 때에 여기에 설명된 방법 중 하나를 실행하기 위한 프로그램 코드를 가진 컴퓨터 프로그램이다.
그래서, 본 발명의 방법의 추가의 실시예는 여기에 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 기록한 데이터 캐리어(또는 디지털 저장 매체 또는 컴퓨터 판독 가능한 매체)이다.
그래서, 본 발명의 방법의 추가의 실시예는 여기에 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 나타내는 데이터 스트림 또는 신호의 시퀀스이다. 데이터 스트림 또는 신호의 시퀀스는 예를 들어 데이터 통신 접속, 예를 들어 인터넷을 통해 전송되도록 구성될 수 있다.
추가의 실시예는 여기에 설명된 방법 중 하나를 수행하기 위해 구성되거나 적응되는 처리 수단, 예를 들어 컴퓨터 또는 프로그램 가능한 논리 장치를 포함한다.
추가의 실시예는 여기에 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 설치한 컴퓨터를 포함한다.
일부 실시예에서, 프로그램 가능한 논리 장치(예를 들어, 필드 프로그램 가능한 게이트 어레이)는 여기에 설명된 방법의 기능 중 일부 또는 모두를 수행하는 데 이용될 수 있다. 일부 실시예에서, 필드 프로그램 가능한 게이트 어레이는 여기에 설명된 방법 중 하나를 실행하기 위해 마이크로프로세서와 협력할 수 있다. 일반적으로, 이러한 방법은 바람직하게는 어떤 하드웨어 장치에 의해 수행된다.
상술한 실시예는 단지 본 발명의 원리를 위해 예시한 것이다. 여기에 설명된 배치 및 상세 사항의 수정 및 변형은 당업자에게는 자명한 것으로 이해된다. 그래서, 여기에서 실시예의 설명을 통해 제시된 특정 상세 사항에 의해 제한되지 않고, 첨부한 특허청구범위에 의해서만 제한되는 것으로 의도된다.
참고 문헌
[BS01] J. Bitzer, K. U. Simmer: "Superdi recti ve microphone arrays" in M. Brandstein, D. Ward (eds.): "Microphone Arrays - Signal Processing Techniques and Applications", Chapter 2, Springer Berlin, 2001 , ISBN: 978-3-540-41953-2
[BW01] M. Brandstein, D. Ward: "Microphone Arrays - Signal Processing Techniques and Applications", Springer Berlin, 2001 , ISBN: 978-3-540-41953-2
[CBH06] J. Chen, J. Benesty, Y. Huang: "Time Delay Estimation in Room Acoustic Environments: An Overview", EURASIP Journal on Applied Signal Processing, Article ID 26503, Volume 2006 (2006)
[Pul06] Pulkki, V., "Directional audio coding in spatial sound reproduction and stereo upmixing," in Proceedings of The AES 28th International Conference, pp. 251 -258, Pitea, Sweden, June 30 - July 2, 2006.
[DiFi2009] M. Kallinger, G. Del Galdo, F. Kuch, D. Mahne, and R. Schultz-Amling, "Spatial Filtering using Directional Audio Coding Parameters," in Proc. IEEE Int. Conf. on Acoustics, Speech, and Signal Processing (ICASSP), Apr. 2009.
[EaOl] Eargle J. "The Microphone Book" Focal press 2001.
[ElkOO] G. W. Elko: "Superdi rectional microphone arrays" in S. G. Gay, J. Benesty (eds.): "Acoustic Signal Processing for Telecommunication", Chapter 10, Kluwer Academic Press, 2000, ISBN: 978-0792378143
[Fa03] C. Faller and F. Baumgartc, "Binaural Cue Coding - Part II: Schemes and applications," IEEE Trans, on Speech and Audio Proc, vol. 1 1, no. 6, Nov. 2003
[Fa06] C. Faller, "Parametric Multichannel Audio Coding: Synthesis of Coherence Cues," IEEE Trans, on Speech and Audio Proc, vol. 14, no. 1 , Jan 2006
[Fal08] C. Faller: "Obtaining a Highly Directive Center Channel from Coincident Stereo Microphone Signals", Proc. 124th AES convention, Amsterdam, The Netherlands, 2008, Preprint 7380.
[Her08] J. Herre, K. Kjorling, J. Breebaart, C. Faller, S. Disch, H. Purnhagen, J. Koppens, J. Hilpert, J. Roden. W. Oomen, K. Linzmeier, K. S. Chong: "MPEG Surround - The ISO/MPEG Standard for Efficient and Compatible Multichannel Audio Coding", Journal of the AES, Vol. 56, No. 11, November 2008, pp. 932-955
[SBM01] K. U. Simmer, J. Bitzer, and C. Marro: "Post-Filtering Techniques" in M. Brandstein, D. Ward (eds.): "Microphone Arrays - Signal Processing Techniques and Applications". Chapter 3, Springer Berlin, 2001 , ISBN: 978-3-540-41953-2
[Veen88] B. D. V. Veen and K. M. Buckley. "Beamforming: A versatile approach to spatial filtering". IEEE ASSP Magazine, pages 4-24, Apr. 1988.
[Vil06] L. Villemoes, J. Herre, J. Breebaart, G. Hotho, S. Disch, H. Purnhagen, and K. Kjorling, "MPEG Surround: The Forthcoming ISO Standard for Spatial Audio Coding," in AES 28th International Conference, Pitea, Sweden, June 2006.

Claims (15)

  1. 타겟 위치로부터 오디오 정보를 캡처하는 장치에 있어서,
    녹음 환경에서 배치되고, 제 1 녹음 특성을 가진 제 1 빔 형성기(110; 210; 410),
    상기 녹음 환경에서 배치되고, 제 2 녹음 특성을 가진 제 2 빔 형성기(120; 220; 420), 및
    신호 발생기(130; 230)를 포함하는데,
    상기 제 1 빔 형성기(110; 210; 410)가 상기 제 1 녹음 특성에 대해 상기 타겟 위치로 지향될 때 상기 제 1 빔 형성기(110; 210; 410)는 제 1 빔 형성기의 오디오 신호를 녹음하기 위해 구성되고,
    상기 제 2 빔 형성기(120; 220; 420)가 상기 제 2 녹음 특성에 대해 상기 타겟 위치로 지향될 때 상기 제 2 빔 형성기(120; 220; 420)는 제 2 빔 형성기의 오디오 신호를 녹음하기 위해 구성되고,
    상기 제 1 빔 형성기(110; 210; 410) 및 상기 제 2 빔 형성기(120; 220; 420)는 상기 제 1 빔 형성기(110; 210; 410) 및 상기 타겟 위치를 통과하도록 정의되는 제 1 가상 직선, 및 상기 제 2 빔 형성기(120; 220; 420) 및 상기 타겟 위치를 통과하도록 정의되는 제 2 가상 직선이 서로에 대해 평행하지 않도록 배치되며,
    상기 신호 발생기(130; 230)는 상기 제 1 빔 형성기의 오디오 신호 및 상기 제 2 빔 형성기의 오디오 신호에 기초하여 오디오 출력 신호를 발생시켜, 상기 오디오 출력 신호가 상기 제 1 및 2 빔 형성기의 오디오 신호에서의 상기 타겟 위치로부터의 오디오 정보에 비해 상기 타겟 위치로부터 상대적으로 더 많은 오디오 정보를 반영하도록 구성되는
    타겟 위치로부터 오디오 정보를 캡처하는 장치.
  2. 청구항 1에 있어서,
    상기 제 1 가상 직선 및 상기 제 2 가상 직선은 상기 타겟 위치에서 교차 각도로 교차하여 상기 교차 각도가 30도와 150도 사이에 있도록 배치되는
    타겟 위치로부터 오디오 정보를 캡처하는 장치.
  3. 청구항 2에 있어서,
    상기 제 1 가상 직선 및 상기 제 2 가상 직선은 상기 타겟 위치에서 교차하여 상기 교차 각도가 대략 90도이도록 배치되는
    타겟 위치로부터 오디오 정보를 캡처하는 장치.
  4. 청구항 1 내지 3 중 어느 한 항에 있어서,
    상기 신호 발생기(130; 230)는 복수의 필터 계수를 갖는 적응 필터(510)를 포함하는데, 상기 적응 필터(510)는 상기 제 1 빔 형성기의 오디오 신호를 수신하도록 배치되고, 상기 적응 필터(510)는 필터링된 제 1 빔 형성기의 오디오 신호를 오디오 출력 신호로서 획득하기 위해 상기 필터 계수에 따라 상기 제 1 빔 형성기의 오디오 신호를 수정하도록 구성되며, 상기 신호 발생기(130; 230)는 상기 필터링된 제 1 빔 형성기의 오디오 신호 및 제 2 빔 형성기의 오디오 신호에 따라 상기 적응 필터(510)의 상기 필터 계수를 조정하도록 구성되는
    타겟 위치로부터 오디오 정보를 캡처하는 장치.
  5. 청구항 4에 있어서,
    상기 신호 발생기(130; 230)는 상기 필터링된 제 1 빔 형성기의 오디오 신호 및 상기 제 2 빔 형성기의 오디오 신호 사이의 차가 최소화되도록 상기 필터 계수를 조정하도록 구성되는
    타겟 위치로부터 오디오 정보를 캡처하는 장치.
  6. 청구항 1 내지 3 중 어느 한 항에 있어서,
    상기 신호 발생기(130; 230)는 상기 제 1 및 2 빔 형성기의 오디오 신호에 기초하여 상기 스펙트럼 영역에서 상기 오디오 출력 신호를 생성하는 교차 계산기(620)를 포함하는
    타겟 위치로부터 오디오 정보를 캡처하는 장치.
  7. 청구항 6에 있어서,
    상기 신호 발생기(130; 230)는 추가로
    상기 제 1 및 2 빔 형성기의 오디오 신호를 시간 영역에서 스펙트럼 영역으로 변환하는 분석 필터뱅크(610), 및
    상기 오디오 출력 신호를 스펙트럼 영역에서 시간 영역으로 변환하는 합성 필터뱅크(630)를 포함하는데,
    상기 교차 계산기(620)는 상기 스펙트럼 영역에 나타내는 상기 제 1 빔 형성기의 오디오 신호 및 상기 스펙트럼 영역에 나타내는 상기 제 2 빔 형성기의 오디오 신호에 기초하여 상기 스펙트럼 영역에서 상기 오디오 출력 신호를 계산하도록 구성되고, 상기 계산은 별도로 여러 주파수 대역에서 실행되는
    타겟 위치로부터 오디오 정보를 캡처하는 장치.
  8. 청구항 6 또는 7에 있어서,
    상기 교차 계산기(620)는 상기 제 1 및 2 빔 형성기의 오디오 신호의 상호 스펙트럼 밀도와 상기 제 1 또는 2 빔 형성기의 오디오 신호의 파워 스펙트럼 밀도에 기초하여 상기 스펙트럼 영역에서 상기 오디오 출력 신호를 계산하도록 구성되는
    타겟 위치로부터 오디오 정보를 캡처하는 장치.
  9. 청구항 6 내지 8 중 어느 한 항에 있어서,
    상기 교차 계산기(620)는 다음의 식을 이용하여 상기 스펙트럼 영역에서 상기 오디오 출력 신호를 계산하도록 구성되며,
    Figure pct00015

    여기서, Y1(k, n)은 상기 스펙트럼 영역의 상기 오디오 출력 신호이고, S1(k, n)은 상기 제 1 빔 형성기의 오디오 신호이고, C12(k, n)은 상기 제 1 및 2 빔 형성기의 오디오 신호의 상호 스펙트럼 밀도이고, P1(k, n)은 상기 제 1 빔 형성기의 오디오 신호의 파워 스펙트럼 밀도이며, 또는
    상기 교차 계산기는 다음의 식을 이용하여 상기 스펙트럼 영역에서 상기 오디오 출력 신호를 계산하도록 구성되며,
    Figure pct00016

    여기서, Y2(k, n)은 상기 스펙트럼 영역의 오디오 출력 신호이고, S2(k, n)은 상기 제 2 빔 형성기의 오디오 신호이고, C12(k, n)은 상기 제 1 및 2 빔 형성기의 오디오 신호의 상호 스펙트럼 밀도이며, P2(k, n)은 상기 제 2 빔 형성기의 오디오 신호의 파워 스펙트럼 밀도인
    타겟 위치로부터 오디오 정보를 캡처하는 장치.
  10. 청구항 6 내지 8 중 어느 한 항에 있어서,
    상기 교차 계산기(620)는 다음의 식을 이용하여 상기 스펙트럼 영역에서 상기 오디오 출력 신호를 계산하도록 구성되며,
    Figure pct00017

    여기서, Y3(k, n)은 상기 스펙트럼 영역의 상기 오디오 출력 신호이고, S1은 상기 제 1 빔 형성기의 오디오 신호이고, C12(k, n)은 상기 제 1 및 2 빔 형성기의 오디오 신호의 상호 스펙트럼 밀도이고, P1(k, n)은 상기 제 1 빔 형성기의 오디오 신호의 파워 스펙트럼 밀도이며, P2(k, n)은 상기 제 2 빔 형성기의 오디오 신호의 파워 스펙트럼 밀도이며, 또는
    상기 교차 계산기는 다음의 식을 이용하여 상기 스펙트럼 영역에서 상기 오디오 출력 신호를 계산하도록 구성되며,
    Figure pct00018

    여기서, Y4(k, n)은 상기 스펙트럼 영역의 상기 오디오 출력 신호이고, S2은 상기 제 2 빔 형성기의 오디오 신호이고, C12(k, n)은 상기 제 1 및 2 빔 형성기의 오디오 신호의 상호 스펙트럼 밀도이고, P1(k, n)은 제 1 빔 형성기의 오디오 신호의 파워 스펙트럼 밀도이며, P2(k, n)은 제 2 빔 형성기의 오디오 신호의 파워 스펙트럼 밀도인
    타겟 위치로부터 오디오 정보를 캡처하는 장치.
  11. 청구항 9 또는 10에 있어서,
    상기 교차 계산기(620)는 다음의 식에 따라 제 1 중간 신호를 계산하도록 구성되고,
    Figure pct00019

    다음의 식에 따라 제 2 중간 신호를 계산하도록 구성되고,
    Figure pct00020

    상기 교차 계산기(620)는 상기 제 1 및 2 중간 신호 중 작은 것을 상기 오디오 출력 신호로서 선택하도록 구성되며, 또는
    상기 교차 계산기(620)는 다음의 식에 따라 제 3 중간 신호를 계산하도록 구성되고,
    Figure pct00021

    다음의 식에 따라 제 4 중간 신호를 계산하도록 구성되며,
    Figure pct00022

    상기 교차 계산기(620)는 상기 제 3 및 4 중간 신호 중 작은 것을 상기 오디오 출력 신호로서 선택하도록 구성되는
    타겟 위치로부터 오디오 정보를 캡처하는 장치.
  12. 청구항 1 내지 8 중 어느 한 항에 있어서,
    상기 신호 발생기(130; 230)는 상기 제 1 및 2 빔 형성기의 오디오 신호를 조합하여 조합된 신호를 획득하고, 상기 조합된 신호를 이득 계수만큼 가중하여 상기 오디오 출력 신호를 생성하도록 구성되는
    타겟 위치로부터 오디오 정보를 캡처하는 장치.
  13. 청구항 1 내지 3 중 어느 한 항에 있어서,
    상기 신호 발생기(130; 230)는 조합된 신호의 파워 스펙트럼 밀도 값이 각각의 고려된 시간-주파수 타일에 대한 상기 제 1 및 2 빔 형성기의 오디오 신호의 상기 파워 스펙트럼 밀도 값의 최소치와 동일하도록 조합된 신호를 생성하여 상기 오디오 출력 신호를 생성하기 위해 구성되는
    타겟 위치로부터 오디오 정보를 캡처하는 장치.
  14. 타겟 위치로부터 오디오 정보를 계산하는 방법에 있어서,
    녹음 환경에서 배치되고, 제 1 빔 형성기가 제 1 녹음 특성에 대해 상기 타겟 위치로 지향될 때 상기 제 1 녹음 특성을 가진 상기 제 1 빔 형성기에 의해 제 1 빔 형성기의 오디오 신호를 녹음하는 단계,
    녹음 환경에서 배치되고, 제 2 빔 형성기가 제 2 녹음 특성에 대해 상기 타겟 위치로 지향될 때 상기 제 2 녹음 특성을 가진 상기 제 2 빔 형성기에 의해 제 2 빔 형성기의 오디오 신호를 녹음하는 단계,
    오디오 출력 신호가 상기 제 1 및 2 빔 형성기의 오디오 신호에서의 상기 타겟 위치로부터의 오디오 정보에 비해 상기 타겟 위치로부터 상대적으로 더 많은 오디오 정보를 반영하도록 상기 제 1 빔 형성기의 오디오 신호 및 상기 제 2 빔 형성기의 오디오 신호에 기초하여 오디오 출력 신호를 발생시키는 단계를 포함하는데,
    상기 제 1 빔 형성기 및 상기 제 2 빔 형성기는 상기 제 1 빔 형성기 및 상기 타겟 위치를 통과하도록 정의되는 제 1 가상 직선, 및 상기 제 2 빔 형성기 및 상기 타겟 위치를 통과하도록 정의되는 제 2 가상 직선이 서로에 대해 평행하지 않도록 배치되는
    타겟 위치로부터 오디오 정보를 계산하는 방법.
  15. 컴퓨터 프로그램이 컴퓨터 또는 프로세서에 의해 실행될 때 청구항 14의 방법을 구현하는 컴퓨터 프로그램.
KR1020137016895A 2010-12-03 2011-12-02 음향 삼각 측량에 의한 공간 선택적 사운드 취득 장치 및 방법 KR101555416B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US41972010P 2010-12-03 2010-12-03
US61/419,720 2010-12-03
PCT/EP2011/071600 WO2012072787A1 (en) 2010-12-03 2011-12-02 Apparatus and method for spatially selective sound acquisition by acoustic triangulation

Publications (2)

Publication Number Publication Date
KR20130116299A true KR20130116299A (ko) 2013-10-23
KR101555416B1 KR101555416B1 (ko) 2015-09-23

Family

ID=45478269

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020137016895A KR101555416B1 (ko) 2010-12-03 2011-12-02 음향 삼각 측량에 의한 공간 선택적 사운드 취득 장치 및 방법

Country Status (14)

Country Link
US (1) US9143856B2 (ko)
EP (1) EP2647221B1 (ko)
JP (1) JP2014502108A (ko)
KR (1) KR101555416B1 (ko)
CN (1) CN103339961B (ko)
AR (1) AR084090A1 (ko)
AU (1) AU2011334840B2 (ko)
BR (1) BR112013013673B1 (ko)
CA (1) CA2819393C (ko)
ES (1) ES2779198T3 (ko)
MX (1) MX2013006069A (ko)
RU (1) RU2559520C2 (ko)
TW (1) TWI457011B (ko)
WO (1) WO2012072787A1 (ko)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014502108A (ja) * 2010-12-03 2014-01-23 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 音響三角測量方式による空間的に選択的な音の取得のための装置および方法
KR101812862B1 (ko) * 2013-04-08 2017-12-27 노키아 테크놀로지스 오와이 오디오 장치
JP6106571B2 (ja) * 2013-10-16 2017-04-05 日本電信電話株式会社 音源位置推定装置、方法及びプログラム
CN104715753B (zh) * 2013-12-12 2018-08-31 联想(北京)有限公司 一种数据处理的方法及电子设备
US9961456B2 (en) * 2014-06-23 2018-05-01 Gn Hearing A/S Omni-directional perception in a binaural hearing aid system
US9326060B2 (en) * 2014-08-04 2016-04-26 Apple Inc. Beamforming in varying sound pressure level
DE102015203600B4 (de) * 2014-08-22 2021-10-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. FIR-Filterkoeffizientenberechnung für Beamforming-Filter
WO2016114988A2 (en) * 2015-01-12 2016-07-21 Mh Acoustics, Llc Reverberation suppression using multiple beamformers
WO2017132958A1 (en) * 2016-02-04 2017-08-10 Zeng Xinxiao Methods, systems, and media for voice communication
RU2630161C1 (ru) * 2016-02-18 2017-09-05 Закрытое акционерное общество "Современные беспроводные технологии" Устройство подавления боковых лепестков при импульсном сжатии многофазных кодов Р3 и Р4 (варианты)
JP6260666B1 (ja) * 2016-09-30 2018-01-17 沖電気工業株式会社 収音装置、プログラム及び方法
JP2018170617A (ja) * 2017-03-29 2018-11-01 沖電気工業株式会社 収音装置、プログラム及び方法
JP6763332B2 (ja) * 2017-03-30 2020-09-30 沖電気工業株式会社 収音装置、プログラム及び方法
WO2018187859A1 (en) * 2017-04-11 2018-10-18 Systèmes De Contrôle Actif Soft Db Inc. A system and a method for noise discrimination
US10789949B2 (en) * 2017-06-20 2020-09-29 Bose Corporation Audio device with wakeup word detection
JP2019021966A (ja) * 2017-07-11 2019-02-07 オリンパス株式会社 収音装置および収音方法
CN108109617B (zh) * 2018-01-08 2020-12-15 深圳市声菲特科技技术有限公司 一种远距离拾音方法
WO2019222856A1 (en) * 2018-05-24 2019-11-28 Nureva Inc. Method, apparatus and computer-readable media to manage semi-constant (persistent) sound sources in microphone pickup/focus zones
JP7405758B2 (ja) * 2018-09-26 2023-12-26 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 音響オブジェクト抽出装置及び音響オブジェクト抽出方法
US11190871B2 (en) 2019-01-29 2021-11-30 Nureva, Inc. Method, apparatus and computer-readable media to create audio focus regions dissociated from the microphone system for the purpose of optimizing audio processing at precise spatial locations in a 3D space
US10832695B2 (en) * 2019-02-14 2020-11-10 Microsoft Technology Licensing, Llc Mobile audio beamforming using sensor fusion
DE102019205205B3 (de) * 2019-04-11 2020-09-03 BSH Hausgeräte GmbH Interaktionseinrichtung
US11380312B1 (en) * 2019-06-20 2022-07-05 Amazon Technologies, Inc. Residual echo suppression for keyword detection
US10735887B1 (en) * 2019-09-19 2020-08-04 Wave Sciences, LLC Spatial audio array processing system and method
EP4147458A4 (en) 2020-05-08 2024-04-03 Microsoft Technology Licensing, LLC SYSTEM AND METHOD FOR DATA AMPLIFICATION FOR MULTI-MICROPHONE SIGNAL PROCESSING
JP7380783B1 (ja) 2022-08-29 2023-11-15 沖電気工業株式会社 収音装置、収音プログラム、収音方法、判定装置、判定プログラム及び判定方法

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1124690A (ja) * 1997-07-01 1999-01-29 Sanyo Electric Co Ltd 話者音声抽出装置
JP3548706B2 (ja) * 2000-01-18 2004-07-28 日本電信電話株式会社 ゾーン別収音装置
US8098844B2 (en) * 2002-02-05 2012-01-17 Mh Acoustics, Llc Dual-microphone spatial noise suppression
CA2514682A1 (en) 2002-12-28 2004-07-15 Samsung Electronics Co., Ltd. Method and apparatus for mixing audio stream and information storage medium
JP4247037B2 (ja) * 2003-01-29 2009-04-02 株式会社東芝 音声信号処理方法と装置及びプログラム
DE10333395A1 (de) * 2003-07-16 2005-02-17 Alfred Kärcher Gmbh & Co. Kg Bodenreinigungssystem
WO2006006935A1 (en) * 2004-07-08 2006-01-19 Agency For Science, Technology And Research Capturing sound from a target region
US20070047742A1 (en) * 2005-08-26 2007-03-01 Step Communications Corporation, A Nevada Corporation Method and system for enhancing regional sensitivity noise discrimination
US8391523B2 (en) 2007-10-16 2013-03-05 Phonak Ag Method and system for wireless hearing assistance
JP5032960B2 (ja) * 2007-11-28 2012-09-26 パナソニック株式会社 音響入力装置
EP2146519B1 (en) 2008-07-16 2012-06-06 Nuance Communications, Inc. Beamforming pre-processing for speaker localization
ES2425814T3 (es) * 2008-08-13 2013-10-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato para determinar una señal de audio espacial convertida
MX2011002626A (es) * 2008-09-11 2011-04-07 Fraunhofer Ges Forschung Aparato, metodo y programa de computadora para proveer un conjunto de pistas espaciales en base a una señal de microfono y aparato para proveer una señal de audio de dos canales y un conjunto de pistas especiales.
JP2014502108A (ja) * 2010-12-03 2014-01-23 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 音響三角測量方式による空間的に選択的な音の取得のための装置および方法

Also Published As

Publication number Publication date
RU2013130227A (ru) 2015-01-10
EP2647221B1 (en) 2020-01-08
BR112013013673B1 (pt) 2021-03-30
WO2012072787A1 (en) 2012-06-07
AR084090A1 (es) 2013-04-17
EP2647221A1 (en) 2013-10-09
CN103339961B (zh) 2017-03-29
MX2013006069A (es) 2013-10-30
JP2014502108A (ja) 2014-01-23
CA2819393A1 (en) 2012-06-07
CA2819393C (en) 2017-04-18
AU2011334840A1 (en) 2013-07-04
KR101555416B1 (ko) 2015-09-23
US9143856B2 (en) 2015-09-22
RU2559520C2 (ru) 2015-08-10
CN103339961A (zh) 2013-10-02
US20130258813A1 (en) 2013-10-03
ES2779198T3 (es) 2020-08-14
BR112013013673A2 (pt) 2017-09-26
AU2011334840B2 (en) 2015-09-03
TW201234872A (en) 2012-08-16
TWI457011B (zh) 2014-10-11

Similar Documents

Publication Publication Date Title
KR101555416B1 (ko) 음향 삼각 측량에 의한 공간 선택적 사운드 취득 장치 및 방법
KR101442446B1 (ko) 도달 방향 추정치로부터의 기하학적 정보 추출을 통한 사운드 수집
US10834499B2 (en) Conference system with a microphone array system and a method of speech acquisition in a conference system
KR101591220B1 (ko) 공간적 전력 밀도에 기초하여 마이크 위치 결정을 위한 장치 및 방법
JP6086923B2 (ja) 幾何学配置に基づく空間オーディオ符号化ストリームを統合する装置および方法
US9521486B1 (en) Frequency based beamforming
Tashev et al. Cost function for sound source localization with arbitrary microphone arrays

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant