KR101591220B1 - 공간적 전력 밀도에 기초하여 마이크 위치 결정을 위한 장치 및 방법 - Google Patents

공간적 전력 밀도에 기초하여 마이크 위치 결정을 위한 장치 및 방법 Download PDF

Info

Publication number
KR101591220B1
KR101591220B1 KR1020147018347A KR20147018347A KR101591220B1 KR 101591220 B1 KR101591220 B1 KR 101591220B1 KR 1020147018347 A KR1020147018347 A KR 1020147018347A KR 20147018347 A KR20147018347 A KR 20147018347A KR 101591220 B1 KR101591220 B1 KR 101591220B1
Authority
KR
South Korea
Prior art keywords
microphone
spatial
essi
power density
center
Prior art date
Application number
KR1020147018347A
Other languages
English (en)
Other versions
KR20140099536A (ko
Inventor
지오바니 델 갈도
올리버 시에르가르트
파비안 쿠쉬
엠마누엘 해비츠
알렉산드라 크라쉰
Original Assignee
프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. filed Critical 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Publication of KR20140099536A publication Critical patent/KR20140099536A/ko
Application granted granted Critical
Publication of KR101591220B1 publication Critical patent/KR101591220B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11CSTATIC STORES
    • G11C2207/00Indexing scheme relating to arrangements for writing information into, or reading information out from, a digital store
    • G11C2207/16Solid state audio
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction

Landscapes

  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Abstract

마이크의 위치 결정을 위한 장치가 제공된다. 이러한 장치는 공간적 전력 밀도 결정기(10) 및 공간적 정보 추정기(20)를 포함한다. 공간적 전력 밀도 결정기(10)는 환경에 배치된 하나 이상의 음원의 하나 이상의 전력 값 및 하나 이상의 위치 값을 나타내는 음원 정보에 기초하여 환경에서의 복수의 위치에 대한 전력 값을 나타내는 공간적 전력 밀도를 결정하도록 구성된다. 공간적 정보 추정기(20)는 공간적 전력 밀도에 기초하여 음향 공간적 정보를 추정하도록 구성된다.

Description

공간적 전력 밀도에 기초하여 마이크 위치 결정을 위한 장치 및 방법{APPARATUS AND METHOD FOR MICROPHONE POSITIONING BASED ON A SPATIAL POWER DENSITY}
본 발명은 오디오 신호 처리에 관한 것으로써, 특히, 자동 마이크 위치 결정을 위한 장치 및 방법에 관한 것이다.
오디오 신호 처리는 점점 더 중요해지고 있다. 특히, 공간적 음(sound) 기록은 복수의 응용에 사용된다. 공간적 음 기록은 재생 측에서 청취자가 기록 위치에 있을 때 음 이미지를 인식하도록 여러 마이크의 도움으로 음장(sound field)을 캡처하는 것을 목표로 한다.
공간적 음 기록을 위한 표준 접근 방식은 일반적으로 B 형식의 마이크와 같이 지향성 마이크(예를 들어, 세기 입체 음향)와 일치하는 공간을 이룬 무지향성 마이크(예를 들어, AB 입체 음향), 또는 정교한 마이크를 포함하며, 예를 들어, Ambisonics에서 참조한다.
[1] Michael A. Gerzon. Ambisonics in multichannel broadcasting and video. J. Audio Eng. Soc, 33(11):859-871, 1985.
공간적 마이크, 예를 들어 지향성 마이크, 마이크 어레이 등은 공간적 음을 기록할 수 있다. 용어 "공간적 마이크"는 공간적 음의 지향성 선택적 수집을 위한 어떤 장치(예를 들어 지향성 마이크, 마이크 어레이 등)를 나타낸다.
음 재생을 위해, 기존의 비파라메트릭 접근 방식은 기록된 마이크 신호로부터 직접 원하는 오디오 재생 신호를 도출시킨다. 이러한 접근 방식의 가장 큰 단점은 기록된 공간적 이미지가 항상 이용된 공간적 마이크에 대한 것이다.
많은 응용에서, 예를 들어, 하나 이상의 음원 부근의 위치일 수 있는 원하는 위치에 공간적 마이크를 배치하는 것이 가능하지 않거나 실현 가능하지 않다. 이 경우에, 다수의 공간적 마이크를 활성 음원에서 더 멀리 배치하는 것이 더 유리할 수 있고, 여전히 원하는대로 음 장면(sound scene)을 픽업할 수 있을 수 있다.
일부 응용은 2 이상의 실제 공간적 마이크를 사용한다. 용어 "실제 공간적 마이크"는 물리적으로 존재하는 원하는 마이크 타입 또는 마이크의 조합(예를 들어, 지향성 마이크, 일반적인 스테레오 마이크에 사용되는 지향성 마이크의 쌍, 또한 마이크 어레이)을 나타낸다는 것이 주목되어야 한다.
각각의 실제 공간적 마이크에 대해, DOA(Direction Of Arrival)는 시간-주파수 영역에서 추정될 수 있다. 상대 위치의 지식과 함께, 실제 공간적 마이크에 의해 수집된 정보를 이용하여, 환경에서 가상으로 (마음대로) 임의의 위치에 배치되는 공간적 마이크의 출력 신호를 계산하는 것이 가능할 수 있다. 이러한 공간적 마이크는 다음에서 "가상 공간적 마이크"로 지칭된다.
이러한 응용에서, 하나 이상의 가상 마이크의 위치와 방향은 수동으로 입력될 필요가 있다. 그러나, 그것은 하나 이상의 가상 마이크의 최적의 위치 및/또는 방향이 자동으로 결정될 경우에 높이 평가될 수 있다.
그것은 장치 및 방법이 가상 마이크를 배치하는 위치, 물리적 마이크를 배치하거나 최적의 청취 위치를 결정하는 위치를 결정하는 데 이용할 수 있을 경우에 유리하다. 더욱이, 그것은 최적의 방향에 마이크를 배치하는 방법에 유리하다. 용어 "마이크 위치" 및 "위치 정보"는 마이크 또는 청취자의 적절한 위치를 결정하는 방법 뿐만 아니라 마이크 또는 청취자의 적절한 방향을 결정하는 방법에 관한 것이다.
본 발명의 목적은 마이크 위치에 대한 향상된 개념을 제공하기 위한 것이다. 본 발명의 목적은 제 1 항에 따른 장치, 제 10 항에 따른 방법 및 제 11 항에 따른 컴퓨터 프로그램에 의해 달성된다.
최적의 마이크 또는 청취 위치를 결정하기 위한 장치가 제공된다. 이러한 장치는 공간적 전력 밀도 결정기 및 공간적 정보 추정기를 포함한다. 공간적 전력 밀도 결정기는 환경에 배치된 하나 이상의 음원의 하나 이상의 전력 값 및 하나 이상의 위치 값을 나타내는 음원 정보에 기초하여 환경에서의 복수의 위치에 대한 전력 값을 나타내는 공간적 전력 밀도를 결정하도록 구성된다. 공간적 정보 추정기는 공간적 전력 밀도에 기초하여 음향 공간적 정보를 추정하도록 구성된다.
다음에서, 용어 "가상 마이크"는 일반적으로 어떤 타입의 마이크를 나타낸다. 특히, 용어 "가상 마이크"는 가상 공간적 또는 비공간적 마이크 뿐만 아니라 위치 정보가 결정되는 물리적 기존의 공간적 또는 비공간적 마이크 둘 다에 관한 것이다.
공간적 정보는 공간적 전력 밀도 결정기에 의해 결정된 공간적 전력 밀도에 기초하여 환경에서 최적의 가상 마이크 위치 또는 최적의 가상 마이크 방향을 결정하도록 구성된다. 공간적 전력 밀도는 음원 및 대응하는 위치 정보의 전력 값에 기초하여 공간적 전력 밀도 결정기에 의해 결정된다.
음 장면을 설명하기 위한 하나 이상의 마이크, 예를 들어, 하나 이상의 가상 마이크의 최적의 위치 및/또는 방향을 결정하는 자동 방법이 제공된다.
일부 실시예에서, 공간적 전력 밀도 결정기는 예를 들어 ESS 위치의 추정을 위한 신뢰도의 측정을 나타내는 유의성 메트릭(signficance metric)에 의해 제공된 선택적 정보를 이용하기 위해 구성될 수 있다.
예를 들면, 일부 실시예에서, 음의 확산도(diffuseness) Psi는 유의성 메트릭으로서 이용될 수 있다. 그 후, 용어(1-Psi)는 단순히 확산 음이 공간적 전력 밀도의 결정에서 직접 음보다 낮게 기여하도록 공간적 전력 밀도를 계산하는 동안 소스 전력 값과 곱해질 수 있다.
제안된 개념의 중요한 장점은 실내 조건과 무관하게 적용될 수 있고, 대화자 및/또는 물리적 음원의 수 또는 위치에 관한 어떤 사전 정보를 필요로 하지 않는다는 것이다. 이것에 의해, 시스템은 자립적(self-reliant)이고, 음 분석만을 이용하여 어떤 종류의 시나리오에 적응시킬 수 있다. 종래 기술에 따르면, 사전 정보는 하나 이상의 마이크의 최적의 위치 및/또는 방향을 결정하기 위해 이용할 수 있어야 한다. 이것은 응용을 제한하거나, 추정이 행해져야 하고, 정확성을 제한한다. 상술한 실시예를 채용함으로써, 이것은 필요하지 않다. 가상 마이크(또는 복수의 가상 마이크)의 위치는 세미블라인드(semi-blind) 장면 분석을 행하여, 타겟 응용의 요구 사항에 따라 변경함으로써 계산된다.
가상 마이크의 최적의 위치 및/또는 방향을 추정하기 위한 다른 방법과 달리, 제안된 방법은 고려된 기하학적 장면의 어떤 정보를 필요로 하지 않는다. 예를 들면, 활성 음원의 수(예를 들어, 회의 참가자의 수)에 대한 사전 정보는 필요하지 않거나, 활성 음원의 상대적인 위치(예를 들어, 회의실 내의 참가자의 배치)에 대한 어떤 정보도 필요치 않다. 음에 대한 정보는 "효과적인 음원"(ESS: effective sound source)으로 지칭되고, 음 장면을 나타내는 활성 음원의 속성으로부터만 도출된다. ESS는 하나 이상의 ESS가 어떤 시간 인스턴트(time instant) 또는 어떤 시간-주파수 빈(bin)에서 활성적인 공간적 음 장면을 모델링한다. 다음에서, 용어 "물리적인 소스"는 음 장면으로부터의 실제 소스, 예를 들어 대화자를 나타내는데 이용되는 반면에, 용어 효과적인 음원(ESS)(또한 "음원"이라고 함)은 하나의 시간 또는 시간-주파수 빈에서 활성적인 음 이벤트를 나타내는데 이용된다. 각 ESS는 위치 및 전력을 특징으로 한다. 이러한 정보는 가상 마이크의 최적의 위치 또는 방향을 결정할 수 있는 공간적 전력 밀도, 예를 들어 공간적 전력 밀도를 구축할 수 있다.
ESS의 파라미터는, 예를 들어, 구성 가능한 가상 위치에서 가상 마이크의 오디오 출력 신호를 생성하기 위한 장치에 대해 아래에 설명되는 개념을 이용함으로써 획득될 수 있다. 음 이벤트 위치 추정은 가상 마이크의 오디오 출력 신호를 생성하기 위한 장치에 대해 아래에 설명되며, 특히 도 15-17을 참조하여 설명된다. 여기에 설명되는 개념은 효과적인 음원의 위치를 결정하는데 이용될 수 있다. 전파 보상은 가상 마이크의 오디오 출력 신호를 생성하기 위한 장치에 대해 아래에 설명되며, 특히 도 17-20을 참조하여 설명된다. 여기에 설명되는 개념은 효과적인 음원의 전력을 결정하는데 이용될 수 있다.
일 실시예에 따르면, 공간적 정보 추정기는 환경에서 음 장면의 중심의 위치를 추정하기 위한 음 장면 중심 추정기를 포함할 수 있다. 공간적 정보 추정기는 음 장면의 중심의 위치에 기초하여 음향 공간적 정보로서 마이크의 위치를 계산하기 위한 마이크 위치 계산기를 더 포함할 수 있다.
다른 실시예에서, 마이크 위치 계산기는 마이크의 위치를 계산하도록 구성될 수 있으며, 여기서 마이크는 가상 공간적 마이크이다.
더욱이, 다른 실시예에 따르면, 음 장면 중심 추정기는 음 장면의 중심을 추정하기 위해 공간적 전력 밀도의 중력 중심을 계산하도록 구성될 수 있다.
추가의 실시예에서, 음 장면 중심 추정기는 공간적 전력 밀도에 기초하여 전력 지연 프로파일을 결정하고, 환경에서 복수의 위치의 각각에 대한 전력 지연 프로파일에 기초하여 평균 제곱근 지연(root mean squared delay)을 결정하도록 구성될 수 있다. 음 장면 중심 추정기는 복수의 위치의 평균 제곱근 지연의 최소 평균 제곱근 지연을 갖는 음 장면의 중심으로서 복수의 위치 중 하나의 위치를 결정하도록 구성될 수 있다.
다른 실시예에서, 음 장면 중심 추정기는 음 장면의 중심을 추정하기 위해 원 적분(circle integration)을 행하도록 구성될 수 있으며, 음 장면 중심 추정기는 예를 들어 다음의 식을 적용하여 원과 공간적 전력 밀도를 콘볼루션(convolve)함으로써 원 적분을 행하도록 구성될 수 있으며,
Figure 112014062415467-pct00001
Figure 112014062415467-pct00002
은 공간적 전력 밀도이고,
Figure 112014062415467-pct00003
은 환경이 2차원 환경일 때 환경의 복수의 위치의 각각에 대한 원 적분값을 결정하기 위해 원을 나타낸다.
대안적으로, 음 장면 중심 추정기는 예를 들어 다음의 식을 적용하여 구와 공간적 전력 밀도를 콘볼루션함으로써 원 적분을 행하도록 구성될 수 있으며,
Figure 112014062415467-pct00004
Г (x, y, z)는 공간적 전력 밀도이고,
Figure 112014062415467-pct00005
는 환경이 3차원 환경일 때 환경의 복수의 위치의 각각에 대한 원 적분값을 결정하기 위해 구를 나타낸다.
더욱이, 실시예에 따르면, 음 장면 중심 추정기는 음 장면의 중심을 추정하기 위해 환경의 복수의 위치의 각각의 원 적분 값의 최대 값을 결정하도록 구성될 수 있다.
추가의 실시예에서, 마이크 위치 계산기는 환경에서 음 장면의 중심을 통해 복수의 라인 중 가장 넓은 폭 라인을 결정하도록 구성될 수 있다. 음 장면의 중심을 통한 복수의 라인의 각각은 에너지 폭을 가질 수 있고, 가장 넓은 폭 라인은 최대 에너지 폭을 가지는 음 장면의 중심을 통한 복수의 라인 중의 라인일 수 있다.
일 실시예에 따르면, 복수의 라인 중 고려된 라인의 에너지 폭은 세그먼트를 제한하는 세그먼트의 제 1 점, 및 세그먼트를 제한하는 세그먼트의 다른 제 2 점이 둘 다 공간적 전력 밀도로 나타내고, 미리 정의된 전력 값보다 크거나 동일할 수 있는 전력 값을 갖도록 고려된 라인 상에 세그먼트의 최대 길이를 나타낼 수 있다. 마이크 위치 계산기는 음 장면의 중심 및 마이크의 위치를 통과하는 제 2 라인이 가장 넓은 폭 라인에 직교할 수 있도록 마이크의 위치를 결정하도록 구성될 수 있다.
일 실시예에서, 마이크의 위치 계산기는 특이값 분해(singular value decomposition)를 복수의 열을 갖는 매트릭스에 적용하도록 구성될 수 있다. 매트릭스의 열은 음 장면의 중심에 대해 환경에서 위치의 위치를 나타낼 수 있다. 더욱이, 매트릭스의 열은 미리 정의된 임계값보다 큰 공간적 전력 밀도로 나타낸 전력 값을 가진 위치의 위치만을 나타낼 수 있거나, 매트릭스의 열은 미리 정의된 임계값보다 크거나 동일한 공간적 전력 밀도로 나타낸 전력 값을 가진 위치의 위치만을 나타낼 수 있다.
다른 실시예에 따르면, 공간적 정보 추정기는 공간적 전력 밀도에 기초하여 마이크의 방향을 결정하기 위한 방향 결정기를 포함할 수 있다. 방향 결정기는 마이크가 음 장면의 중심을 향해 지향되도록 마이크의 방향을 결정하기 위해 구성될 수 있다. 방향 결정기는 다음 식을 적용하여 복수의 방향 φ의 각각에 대한 적분 값 f(φ)을 결정하도록 구성될 수 있으며,
Figure 112014062415467-pct00006
여기서, rmax는 마이크로부터의 최대 거리를 정의하고, 방향 결정기는 결정된 적분 값 f(φ)에 기초하여 마이크의 방향을 결정하도록 구성된다.
다른 실시예에서, 공간적 전력 밀도 결정기는 다음의 식을 적용하여 시간-주파수 빈 (k, n)에 대한 환경의 복수의 위치에 대한 공간적 전력 밀도를 결정하도록 구성될 수 있으며,
Figure 112014062415467-pct00007
이때 환경은 이차원 환경이며, 또는 다음의 식을 적용함으로써도 구성될 수 있으며,
Figure 112014062415467-pct00008
이때 환경은 3차원 환경이다.
k는 주파수 인덱스를 나타내고, n은 시간 인덱스를 나타내고, x, y, z는 복수의 위치 중 하나의 좌표를 나타내고, 전력 i(k, n)은 시간-주파수 빈 (k, n)에 대한 제 i 음원에서의 전력 값을 나타내고, xESSi, yESSi, zESSi는 제 i 음원의 좌표를 나타내고,
Figure 112014062415467-pct00009
는 각 효과적인 음원의 위치 추정치가 얼마나 신뢰성이 있는지의 지표(indicator)를 나타낼 수 있는 스칼라 값이며, g는 x, y, z, xESSi, yESSi, zESSi, k, n 및
Figure 112014062415467-pct00010
에 따른 함수이다.
본 발명의 실시예들은 첨부한 도면들을 참조하여 설명된다.
도 1은 실시예에 따른 마이크의 위치 결정을 위한 장치를 도시한다.
도 2는 다른 실시예에 따른 마이크의 위치 결정을 위한 장치를 도시한다.
도 3은 실시예에 따른 마이크의 위치 결정을 위한 장치의 입력 및 출력을 도시한다.
도 4a-4c는 마이크의 위치 결정을 위한 장치에 대한 복수의 응용 시나리오를 도시한다.
도 5는 실시예에 따른 공간적 전력 밀도 결정기(21)를 도시한다.
도 6a는 함수 g를 구성하기 위한 델타 함수를 도시한다.
도 6b는 함수 g를 구성하는 밀도 함수를 도시한다.
도 7은 실시예에 따른 공간적 정보 추정기를 도시한다.
도 8은 추가의 실시예에 따른 공간적 정보 추정기를 도시한다.
도 9는 더욱 상세 사항을 묘사한 다른 실시예에 따른 마이크의 위치/방향 계산기(44)를 도시한다.
도 10a-10c는 실시예에 따라 투사된(projected) 에너지 폭에 기초한 최적화 부분을 도시한다.
도 11은 공간적 정보 추정기가 방향 결정기를 더 포함하는 다른 실시예에 따른 공간적 정보 추정기를 도시한다.
도 12는 실시예에 따른 오디오 출력 신호를 생성하기 위한 장치를 도시한다.
도 13은 실시예에 따른 오디오 출력 신호를 생성하기 위한 장치 및 방법의 입력 및 출력을 도시한다.
도 14는 음 이벤트 위치 추정기 및 정보 계산 모듈을 포함하는 실시예에 따른 오디오 출력 신호를 생성하기 위한 장치의 기본 구조를 도시한다.
도 15는 실제 공간적 마이크가 3 마이크 각각의 Uniform Linear Array로 묘사되는 예시적인 시나리오를 도시한다.
도 16은 3D 공간에서의 도착 방향(direction of arrival)을 추정하기 위한 3D의 2개의 공간적 마이크를 도시한다.
도 17은 현재 시간-주파수 빈(k, n)의 등방성 점같은 음원이 위치 pIPLS(k, n)에 위치되는 기하학적 형상을 도시한다.
도 18은 실시예에 따른 정보 계산 모듈을 도시한다.
도 19는 다른 실시예에 따른 정보 계산 모듈을 도시한다.
도 20은 2개의 실제 공간적 마이크, 로컬화된 음 이벤트 및 가상 공간적 마이크의 위치를 도시한다.
도 21은 실시예에 따라 가상 마이크에 대해 도착 방향을 획득하는 방법을 도시한다.
도 22는 실시예에 따라 가상 마이크의 관점에서 음의 DOA를 도출하는 가능한 방법을 도시한다.
도 23은 실시예에 따른 확산 계산 유닛을 포함하는 정보 계산 블록을 도시한다.
도 24는 실시예에 따른 확산 계산 유닛을 도시한다,
도 25는 음 이벤트 위치 추정이 가능하지 않은 시나리오를 도시한다.
도 26은 2개의 실제 공간적 마이크, 로컬화된 음 이벤트 및 가상 마이크의 위치를 도시한다.
도 27a-27c는 2개의 마이크 어레이가 직접 음, 벽에 의해 반사되는 음 및 확산 음을 수신하는 시나리오를 도시한다.
도 1은 실시예에 따른 마이크의 위치 결정을 위한 장치를 도시한다. 장치는 공간적 전력 밀도 결정기(10) 및 공간적 정보 추정기(20)를 포함한다. 공간적 전력 밀도 결정기(10)는 환경에 위치된 하나 이상의 효과적인 음원(EES)의 하나 이상의 전력 값 및 하나 이상의 위치 값을 나타내는 음원 정보 ssi에 기초하여 환경의 복수의 위치에 대한 전력 값을 나타내는 공간적 전력 밀도 spd를 결정하도록 구성된다. 공간적 정보 추정기(20)는 공간적 전력 밀도에 기초하여 음향 공간적 정보 aspi를 추정하도록 구성된다.
도 2는 다른 실시예에 따른 마이크의 위치 결정을 위한 장치를 도시한다. 장치는 환경에 할당된 하나 이상의 효과적인 음원의 하나 이상의 코어(core) 값 및 위치 값을 나타내는 효과적인 음원 정보에 기초하여 또한 공간적 전력 분포로 지칭되고, 환경의 복수의 위치에 대한 전력 값을 나타내는 공간적 전력 밀도(SPD)를 결정하기 위한 공간적 전력 밀도 결정기(21)를 포함한다. 상기 장치는 공간적 전력 밀도에 기초하여 가상 마이크(VM)의 위치 및/또는 방향을 추정하기 위한 공간적 정보 추정기(22)를 더 포함한다.
도 3은 실시예에 따른 마이크의 위치 결정을 위한 장치의 입력 및 출력을 도시한다. 장치에 대한 입력(91, 92, ... 9N)은 전력, 예를 들어, 음장 압력 제곱 및 위치의 절대 값, 예를 들어, 2D 또는 3D 데카르트 좌표를 포함한다. 효과적인 음원(ESS)은 음 장면(음장)을 나타낸다.
효과적인 음원은, 예를 들어, 구성 가능한 가상 위치에서 가상 마이크의 오디오 출력 신호를 생성하기 위한 장치에 대해 아래에 설명되는 바와 같이 순시 점같은 음원(IPLS)과 동일할 수 있다.
출력에서, 하나 이상의 가상 마이크의 위치 및 위치는 반환된다. 다음에서, 용어 "물리적인 소스"는 음 장면으로부터의 실제 소스, 예를 들어 대화자를 나타내는데 이용되는 반면에, 구성 가능한 가상 위치에서 가상 마이크의 오디오 출력 신호를 생성하기 위한 장치에 대해 아래에 설명되는 IPLS에도 이용되는 바와 같이, 용어 효과적인 음원(ESS)(또한 "음원"이라고 함)은 하나의 시간 또는 시간-주파수 빈에서 활성적인 음 이벤트를 나타내는데 이용된다.
더욱이, 용어 "음원"는 물리적 소스 뿐만 아니라 효과적인 음원을 커버한다는 것이 주목되어야 한다.
도 2의 실시예에 따른 장치의 입력(91, 92, ..., 9N)은 구성 가능한 가상 위치에서 가상 마이크의 오디오 출력 신호를 생성하기 위한 장치에 대해 아래에 설명되고, 또한 다음과 같은 곳에 설명되는 바와 같이 시간 인스턴스 또는 시간-주파수 빈 내에 로컬화된 복수의 N 효과적인 음원의 위치 및 대응하는 전력에 대한 정보를 포함한다:
[20] Giovanni Del Galdo, Oliver Thiergart, Tobias Weller, and E. A. P. Habets. Generating virtual microphone signals using geometrical information gathered by distributed arrays. In Third Joint Workshop on Hands-free Speech Communication and Microphone Arrays (HSCMA ’11), Edinburgh, United Kingdom, May 2011.
예를 들면, 이러한 정보는 도 14에서 단시간(short-time) 푸리에 변환(STFT)이 적용될 때 1, 2, ..., N의 서로 다른 주파수 빈에 대해 아래에 고려된 구성 가능한 가상 위치에서 가상 마이크의 오디오 출력 신호를 생성하기 위한 장치의 정보 계산 모듈의 출력(106)으로 구성될 수 있다.
마이크의 위치 결정을 위한 장치에 대하여, 서로 다른 동작 모드는 어떤 시간 간격 동안에 활성화될 수 있고, 이러한 모드의 각각은 하나 이상의 가상 마이크의 위치 및 방향에 대한 다양한 시나리오를 나타낸다. 마이크의 위치 결정을 위한 장치는 복수의 응용 시나리오에 이용될 수 있다:
제 1 응용 시나리오에서, N 무지향성 가상 마이크는 음 장면 내부에 배치될 수 있다(도 4a 참조). 따라서, 이러한 응용 시나리오에서, 다수의 가상 마이크는 전체 음 장면을 커버한다.
제 2 응용 시나리오에서, 단일의 가상 마이크는 음 장면의 음향 중심에 위치된다. 예를 들면, 무지향성 가상 마이크, 카디오이드 가상 마이크, 또는 (B-형식 마이크와 같은) 가상 공간적 마이크는 모든 참가자가 최적으로 픽업되도록 배치된다(도 4b).
제 3 응용 시나리오에서, 하나의 공간적 마이크는 음 장면의 '외부'에 배치된다. 예를 들면, 가상 스테레오 마이크는 도 4c에 도시된 바와 같이 넓은 공간적 이미지가 획득되도록 배치된다.
제 4 응용 시나리오에서, 가상 마이크가 고정된 위치(미리 정해진 위치)에 위치되고, 예를 들어 가상 마이크의 위치 및 지향성이 미리 정의될 수 있고, 방향만이 자동으로 계산되는 동안 가상 마이크의 최적의 방향이 추정된다.
위의 응용의 모두는 시간적 적응성을 포함할 수 있다는 것이 주목되어야 한다. 예를 들면, 가상 스폿(spot) 마이크의 위치/방향은 대화자가 방으로 이동할 때 하나의 대화자를 뒤따른다.
도 2 및 3에서, 선택적인 정보는, 예를 들어, ESS 위치의 추정에 대한 신뢰성의 측정을 나타내는 유의성 메트릭(13)에 의해 제공된다. 예를 들면, 이러한 메트릭은 구성 가능한 가상 위치에서 가상 마이크의 오디오 출력 신호를 생성하기 위한 장치에 대해 아래에 설명되는 바와 같이 (설명된 바와 같이 둘 이상의 마이크 어레이를 이용할 때) 도착 방향 추정기의 분산(variances), 또는 다음과 같은 곳에서와 같이 계산된 확산 파라미터로부터 도출될 수 있다:
[21] Ville Pulkki. Spatial sound reproduction with directional audio coding. J. Audio Eng. Soc, 55(6):503?516, June 2007.
메트릭은 모든 입력(91, ..., 9N)(예를 들어, 모든 입력에 대한 메트릭의 상수 값이 이용 될 수 있다)에 대해 표현될 수 있거나, 각 입력(91, ..., 9N)에 대해 서로 다르게 정의될 수 있다. 도 2의 장치의 출력(15, 16)은 하나 이상의 가상 마이크의 위치 및/또는 방향을 포함할 수 있다. 응용에 따라, 복수의 가상 마이크에 대한 출력(위치 및 방향)이 생성될 수 있고, 이러한 출력의 각각은 특정 가상 마이크에 대응한다.
도 5는 실시예에 따른 공간적 전력 밀도 결정기(21)를 도시한다. 공간적 전력 밀도 결정기는 공간적 전력 밀도 주 처리 유닛(31) 및 공간적 전력 밀도 후 처리 유닛(32)을 포함한다. 공간적 전력 밀도 결정기(21)는 다음에서 각각의 시간-주파수 빈(k, n)에 대한 공간의 특정 지점, 예를 들어, (x, y, z)에서 로컬화된 전력을 표현하는
Figure 112014081112057-pct00011
로 나타낸 수정된 공간적 전력 밀도(SPD)를 결정(또는 오히려 계산)하도록 구성된다. SPD는 공간적 전력 밀도 결정기(21)에 입력되는 효과적인 음원(91, ..., 9N)의 위치에 있는 전력 값을 적분함으로써 생성된다.
시간-주파수 빈(k, n)에 대한 SPD의 계산은 아래의 식에 따라 수행될 수 있으며,
Figure 112014062415467-pct00012
(1)
여기서, (x, y, z)는 시스템의 좌표를 나타내고, xESSi, yESSi, zESSi는 효과적인 음원 i의 좌표이다. 유의성 메트릭(103 γi)은 각 효과적인 음원의 위치 추정이 얼마나 신뢰 가능한지의 지표를 나타낸다. 기본적으로, 유의성 메트릭은 1과 동일할 수 있다. 본 명세서에서, 전력 i 및 좌표 xESSi, yESSi, zESSi는 도 3에서 입력 9i에 대응한다는 것이 주목되어야 한다. 더욱이, 표기의 단순화를 위해, (k, n)의 확장이 다음에서는 기록되지 않는다는 것이 주목되어야 한다. 그러나, 다음의 식은 여전히 특정 고려된 시간-주파수 빈(k, n)에 의존한다.
(예를 들어 도 5에서) 공간적 전력 밀도 주 처리 유닛(31)에 의해 생성되는 SPD는 공간적 전력 밀도 주 처리 유닛(32)에 의해 더 처리되고(SPD 및 시간적 통합 모듈의 후 처리), 예를 들어 회귀 필터를 채용함으로써 시간적으로 적분될 수 있다. (잘못된 위치 추정에 의해 유발된) 음 장면 아웃라이어(outliers)에 대해 더 견고하도록 하기 위해, 어떤 종류의 후 처리 필터는 SPD에 적용될 수 있다. 이러한 후 처리 필터는, 예를 들어, 저역 통과 필터 또는 형태학(침식, 팽창) 필터일 수 있다.
하나 이상의 가상 마이크의 위치 및/또는 방향을 계산할 때, SPD에 의존하는 선택적인 파라미터가 이용될 수 있다. 이러한 파라미터는 예를 들어 가상 마이크(VM)을 배치하는 룸(room)의 금지 및/또는 선호된 영역을 나타낼 수 있거나, 일부 미리 정해진 규칙을 만족하는 특정 SPD 범위를 선택하는 SPD를 나타낼 수 있다.
식 (1)에서 알 수 있는 바와 같이, g는 기본적으로 1과 동일한 값을 갖는 공간 내의 유의성 메트릭 γ(또는 오히려 γi)의 함수이다. 그렇지 않으면, γ는 서로 다른 기여도(contributions)를 고려하는데 사용될 수 있다. 예를 들면, σ2가 위치 추정의 분산(variance)이면, γ는
Figure 112014062415467-pct00013
로 설정될 수 있다.
대안적으로, 마이크 어레이에서 계산된 평균 확산도가 이용되어 γ = 1 - Ψ를 생성할 수 있다.
이것에 의해, γ는 더 신뢰할 수 없는 추정치에 대해서는 감소하고, 더 신뢰할 수 있는 추정치에 대해서는 증가하도록 선택될 수 있다.
복수의 가능성이 함수 g를 구성하기 위해 존재한다. 특히 실제 유용한 두 예는 다음과 같다:
Figure 112014062415467-pct00014
제 1 함수에서, δ(x), δ(y) 및 δ(z)는 델타 함수를 나타낸다(델타 함수를 도시한 도 6a 참조). 제 2 함수에서,
Figure 112014062415467-pct00015
은 평균 벡터이고, Σγ은 가우스 분포 함수 g의 공분산 매트릭스이다(분포 함수를 도시한 도 6b 참조). 공분산 매트릭스는 다음 식을 이용하여 계산된다:
Figure 112014062415467-pct00016
(4)
이는 예를 들어 1D 케이스에 대한 생각을 갖는
Figure 112014062415467-pct00017
인 시나리오에 대한 γ의 선택에 의존한다:
Figure 112014062415467-pct00018
(5)
식 (3)에서 알 수 있는 바와 같이, 함수 g는 입력(91...9N)에 의해 주어진 효과적인 음원 위치 주변의 분포 함수로 나타낼 수 있으며, 여기서 예를 들어 유의성 메트릭은 가우스 분포의 분산의 역수이다. 음원의 위치의 추정치가 높은 신뢰성을 갖는다면, 부합하는 분포는 오히려 좁은 반면에, 더 신뢰할 수 없는 추정치는 높은 변수에 대응하며, 따라서, 넓은 분포에 대응하며, 예를 들어 1D 예를 예시하는 도 6b를 참조한다.
도 7은 실시예에 따른 공간적 정보 추정기(22)를 도시한다. 공간적 정보 추정기는 환경에서 음 장면의 중심의 위치를 추정하기 위한 음 장면 중심 추정기(41)를 포함한다. 더욱이, 공간적 정보 추정기는 음 장면의 중심의 위치에 기초하여 마이크의 위치를 음향 공간적 정보로서 계산하기 위한 마이크 위치 계산기(42)를 포함한다.
도 8은 추가의 실시예에 따른 공간적 정보 추정기(22)를 도시한다. 공간적 정보 추정기는 가상 마이크의 위치를 계산하도록 구성되고, 가상 마이크의 방향을 결정하도록 더 구성되는 가상 마이크 위치 계산기(44)를 포함한다. 따라서, 가상 마이크 위치 계산기(44)는 또한 마이크 위치/방향 계산기(44)로 지칭된다.
도 8의 공간적 정보 추정기(22)는 이전에 생성된 SPD(23)를 입력으로 사용한다. 그것은 타겟 응용에 따라 하나 이상의 가상 마이크의 위치(15) 및 방향(16)을 출력할 때 반환한다. 제 1 처리 블록, 음 장면 중심 추정기(41)는, 음 장면 중심의 추정치를 제공한다. 그 후, 블록(41)의 출력(43), 예를 들어 음 장면 중심의 위치는 제 2 처리 블록, 가상 마이크 위치/방향 계산기(44)에 대한 입력으로서 제공된다. 가상 마이크 위치/방향 계산기(44)는 타겟 응용에 따라 하나 이상의 가상 마이크의 최종 위치(15) 및 방향(16)의 실제 추정을 수행한다.
음 장면 중심 추정기(41)는 음 장면 중심의 추정치를 제공한다. 그 후, 음 장면 중심 추정기(41)의 출력은 (43), 예를 들어 음 장면 중심의 위치는 마이크 위치/방향 계산기(44)에 대한 입력으로서 제공된다. 마이크 위치/방향 계산기(44)는 타겟 응용을 특징짓는 동작 모드에 따라 하나 이상의 가상 마이크의 최종 위치(15) 및/또는 방향(16)의 실제 추정을 수행한다.
음 장면 중심 추정기의 실시예는 이제 더욱 상세히 설명된다. 음 장면의 중심을 획득하기 위해, 몇몇 가능한 개념이 존재한다.
제 1 실시예의 제 1 개념에 따르면, 음 장면의 중심은 SPD Г(x, y, z)의 중력의 중심을 계산함으로써 획득된다. Г(x, y, z)의 값은 공간의 점(x, y, z)에서 기존의 질량으로 해석될 수 있다.
제 2 실시예의 제 2 개념에 따르면, 채널의 최소 시간 분산으로 공간에서 위치가 발견될 수 있다. 이것은 평균 제곱근(RMS) 지연 확산을 고려함으로써 달성된다. 우선, 공간의 각 점 p = (x0, y0)에 대해, 전력 지연 프로파일(PDP) Ap(τ)은 예를 들어 다음을 이용하여 SPD Г(x, y, z)에 기초하여 계산되며,
Figure 112014062415467-pct00019
여기서,
Figure 112014062415467-pct00020
그 후, Ap(τ)로부터, RMS 지연은 다음 식을 이용하여 계산된다:
Figure 112014062415467-pct00021
여기서,
Figure 112014062415467-pct00022
은 Ap(τ)의 평균 지연을 나타낸다. 평균 지연
Figure 112014062415467-pct00023
이 최소인 위치는 음 장면의 중심을 나타낼 것이다.
음 장면 중심 추정에 대한 대안으로서 사용될 수 있는 제 3 실시예의 제 3 개념에 따르면, "원 적분(circle-integration)"이 제안된다. 예를 들면, 2D의 경우에, SPD Г(x, y)는 다음 식에 따라 원 C(r,o)로 콘볼루션된다:
Figure 112014062415467-pct00024
여기서, r은 원의 반경이며, O는 원의 중심을 정의한다. 반경 r은 일정할 수 있거나, 점(x,y)에서의 전력 값에 따라 변할 수 있다. 예를 들면, 점(x,y)에서의 높은 전력은 큰 반경에 대응할 수 있는 반면에, 낮은 전력은 작은 반경에 대응할 수 있다. 전력에 대한 추가적인 종속성이 또한 가능할 수 있다. 이러한 일례는 함수 g(x, y)를 구성하기 위해 이변량(bivariate) 가우스 함수를 이용하기 전에 원을 이변량 가우스 함수로 콘벌루션하는 것이다. 이러한 실시예에 따르면, 이변량 가우스 함수의 공분산 매트릭스는 위치(x, y)에서의 전력에 종속하게 되며, 즉, 높은 전력은 낮은 분산에 대응하는 반면에, 낮은 전력은 높은 분산에 대응한다.
g(x, y)가 계산되면, 음 장면의 중심은 다음 식에 따라 결정될 수 있다:
Figure 112014062415467-pct00025
추가의 실시예에서, 이러한 개념은 유사하게 구형으로 Г(x, y, z)의 3D 콘벌루션을 채용함으로써 3D로 연장된다.
도 9는 더욱 상세 사항을 묘사한 다른 실시예에 따른 마이크 위치/방향 계산기(44)를 도시한다. 음 장면(43)의 중심은 SPD(23)와 함께 마이크 위치/방향 계산기(44)에 대한 입력으로 주어진다. 마이크 위치/방향 계산기(44)에서, 음 장면(43)의 중심에 대한 정보는, 타겟 응용이 필요로 하는 동작에 따라, 출력에 복사될 수 있고, 예를 들어 음 장면의 음향 중심에 위치된 하나의 가상 마이크를 가진 시나리오에 관련된 도 4b의 응용 시나리오가 적용 가능할 때 가상 마이크의 위치로서 직접 이용될 수 있다. 대안적으로, 음 장면(43)의 중심에 대한 정보는 마이크 위치/방향 계산기(44) 내부의 수정 파라미터로서 이용될 수 있다.
마이크 위치, 예를 들어,
투사된 에너지 폭에 기초한 최적화,
주성분 분석에 기초한 최적화를 계산하기 위해 여러 개념이 적용될 수 있다.
예시적인 목적을 위해, 마이크의 위치는 보조(side) 장면 외부의 하나의 공간적 마이크의 시나리오에 관한 도 4c의 응용 시나리오에 따라 계산된다는 것이 추정될 수 있다. 그러나, 어떤 다른 응용 시나리오에 대해서도 설명이 동일하게 적용 가능하다.
이전에 열거된 실시예에 따라 가상 마이크의 위치를 추정하기 위한 개념은 이제 다음에서 보다 상세히 설명될 것이다.
투사된 에너지 폭에 기초한 최적화는 음 장면의 중심을 통과하는 동일하게 이격된 M 라인의 세트를 정의한다. 예를 들어, 2D 시나리오에서, 이러한 라인의 각각에 대해, SPD Г(x, y)는 이들에 직교하여 투사된되고 요약된다.
도 10a-10c는 투사된 에너지 폭에 기초한 최적화를 예시한다. 도 10a에서, 투사된 전력 함수 Pproj는 ℓ1,... ℓi,... ℓM 라인의 각각에 대해 계산된다. 그 후, 함수의 대응하는 폭은 계산되고, 도 10b를 참조한다. 예를 들면, 폭은 거리 세그먼트의 최좌측 및 최우측 포인트가 사전 정의된 전력 레벨, 예를 들어, -3 dB보다 높은 전력 레벨에 대응하는 거리에 상당하는 -3 dB 폭으로 정의될 수 있다. 후속하여, 가장 넓은 폭을 갖는 라인은 식별되고, 가상 마이크는 그것에 직교하는 방향에 배치된다. 다음 섹션에서 설명되는 바와 같이, 가상 마이크의 방향은 그것이 음 장면의 중심을 가리키도록 설정될 수 있다. 이러한 접근 방식으로, 두 가능한 가상 마이크(VM)의 위치는 VM이 긍정적 또는 부정적인 직교 방향 중 하나에 위치될 수 있기 때문에 획득된다.
VM이, 예를 들어, 가상 마이크의 개방 각도(opening angle)와 함께 기하학적 고려 사항에 기초하여 계산될 수 있다. 이것은 도 10c에 의해 예시된다. VM이 배치되는 거리는 타겟 응용에 특정한 동작 모드에 따라 변한다. 이것은 도 10c의 폭 i이 삼각형의 한 측면을 나타내고, 중력 COG의 중심이 이러한 측면의 중간 지점이도록 삼각형을 구성하는 것을 의미한다. COG에 직교 라인을 취하고, 그것을 VM 개방 각도 α의 이등분선으로 정의함으로써, 삼각형의 제 3 정점이 발견된다. 그 후, 이등분선의 길이는 VM 위치와 음 장면의 중심 사이의 거리를 제공한다.
다른 실시예에 따르면, 투사된 에너지에 기초하여 설명된 최적화 개념은 3D로 확장될 수 있다. 이 경우에, (방위각 및 앙각 방향에서) 동일하게 이격된 M2 평면은 M 라인 대신에 정의된다. 그 후, 폭은 투사된 에너지의 가장 큰 부분을 포함하는 원의 직경에 대응한다. 최종 위치는 가장 큰 원 직경의 평면에 대한 법선에 VM을 배치함으로써 획득된다. 실시예에 따르면, 음 장면의 중심에서 VM 위치까지의 거리는 2D 경우에서와 마찬가지로 다시 계산될 수 있으며, 이는 기하학적 고려 사항 및 동작 모드에 의해 특정된 개방 각도를 이용한다.
다른 실시예에 따르면, 주성분 분석에 기초한 최적화가 채용된다. 처리와 같은 주성분 분석에 기초한 최적화는 직접 SPD로부터 이용 가능한 정보를 이용한다. 우선, SPD Г(x, y, z)는 양자화되고, 임계값 선택 필터는 양자화된 데이터 세트에 적용된다. 이것에 의해, 어떤 임계값보다 작은 에너지 레벨을 가진 모든 포인트는 삭제된다. 그 후, 잔여 포인트
Figure 112014062415467-pct00026
는 평균 중심(mean-centered)이 이루어져(즉, 평균 중심 포인트는 제 i 효과적인 소스의 좌표 마이너스 음 장면 중심의 좌표를 나타내), 다음과 같이 데이터 매트릭스 H에서 재구성된다:
Figure 112014062415467-pct00027
여기서, N은 임계화 후 포인트의 수를 정의한다. 그 후, 특이값 분해(SVD)는 다음의 곱으로 계수 분해되도록 H에 적용된다:
Figure 112014062415467-pct00028
U의 제 1 열은 데이터 세트의 가장 높은 가변성을 갖는 주 성분을 나타낸다. U의 제 2 열은 제 1 열에 직교하고, VM을 배치하고자 하는 방향을 나타낸다. 폭은 내재적으로 매트릭스 Σ에서의 제 1 특이값에 의해 주어진다. 폭 뿐만 아니라 방향을 알면, 도 10a-10c과 관련하여 상술한 바와 같이 투사된 에너지 폭에 기초하여 최적화 방법에서 설명된 바와 같이 VM의 위치 및 방향을 계산할 수 있다.
다른 실시예에서, 이러한 방법은 단지 식 및 고려 사항으로부터 z 축 성분을 무시/제거할 필요가 있을 때 간단한 2D 문제에 적용된다.
도 4a의 응용 시나리오(전체 음 장면을 커버하는 복수의 가상 마이크)와 같은 다른 응용의 경우, 반복적 최적화 방식과 같은 서로 다른 개념이 채용될 수 있다. 제 1 단계에서, SPD의 최대값을 가진 위치가 식별된다. 이것에 의해, 전체 N 가상 마이크의 제 1 VM의 위치가 지정된다. 이것에 뒤따라, (어떤 거리까지) 이러한 위치를 둘러싸는 모든 에너지는 SPD로부터 제거된다. N 가상 마이크의 모든 위치가 발견될 때까지 이전의 단계는 반복된다. N이 정의되지 않은 경우에, 최대값이 SPD가 어떤 임계값보다 작아질 때까지 반복은 수행된다.
도 11은 공간적 정보 추정기(22)가 방향 결정기(45)를 포함하는 다른 실시예를 도시한다. 방향 결정기(45)는 공간적 전력 밀도(23)에 기초하여 마이크의 (적절한) 방향(16)을 결정하도록 구성된다.
다음에는 방향 추정에 대하여 설명된다. 최적화는 가상 마이크가 음 장면의 중심을 향해 지향되는 것으로 추정되기 때문에 투사된 에너지 폭 뿐만 아니라 주성분 분석 계산 시에는 암시적으로 가상 마이크(15)의 방향에 기초하여 접근한다.
그러나, 일부 다른 응용 시나리오의 경우, 예를 들어, 가상 마이크의 최적 방향이 추정되고, 가상 마이크가 고정된 위치에 배치되는 응용 시나리오에서 방향을 명시적으로 계산하는데 적절할 수 있다. 이 경우에, 방향은 가상 마이크가 음 장면에서 대부분의 에너지를 픽업하도록 결정되어야 한다.
실시예에 따르면, 가상 마이크의 방향을 결정하기 위해, 먼저, 가능한 방향
Figure 112014062415467-pct00029
이 샘플링되고, 이러한 방향의 각각에 대한 에너지를 통해 적분이 수행된다.
Figure 112014062415467-pct00030
의 다음의 함수가 획득된다:
Figure 112014062415467-pct00031
여기서, rmax은 VM으로부터의 최대 거리로 정의되고, VM의 픽업 패턴을 제어한다. 그 후, VM의 최종 방향
Figure 112014062415467-pct00032
은 다음과 같이 계산된다:
Figure 112014062415467-pct00033
여기서,
Figure 112014062415467-pct00034
은 VM의 입력 특성에 기초한 가중 함수이다. 예를 들어,
Figure 112014062415467-pct00035
은 방향
Figure 112014062415467-pct00036
에서 오는 에너지가 어떤 보는 방향
Figure 112014062415467-pct00037
및 VM의 특정 픽업 패턴이 주어질 경우에 스케일링되는 방법을 정의하는 함수일 수 있다.
다음에는, 환경에서 구성 가능한 가상 위치에 가상 마이크의 기록을 시뮬레이트하도록 오디오 출력 신호를 생성하기 위한 장치가 설명된다. 상술한 실시예 중 하나에 따라 마이크의 위치 결정을 위한 장치는 오디오 출력 신호를 생성하기 위한 장치에 대한 가상 위치를 결정하는데 채용될 수 있다.
도 12는 환경에서 구성 가능한 가상 위치 posVmic에 가상 마이크의 기록을 시뮬레이트하도록 오디오 출력 신호를 생성하기 위한 장치를 도시한다. 장치는 음 이벤트 위치 추정기(110) 및 정보 계산 모듈(120)을 포함한다. 음 이벤트 위치 추정기(110)는 제 1 실제 공간적 마이크로부터 제 1 방향 정보 di1를 수신하고, 제 2 실제 공간적 마이크로부터 제 2 방향 정보 di2를 수신한다. 음 이벤트 위치 추정기(110)는 환경에서 음원의 위치를 나타내는 음원 위치 ssp를 추정하도록 구성되고, 음원은 음파를 방출하며, 음 이벤트 위치 추정기(110)는 환경에서 제 1 실제 마이크 위치 pos1mic에 위치되는 제 1 실제 공간적 마이크에 의해 제공된 제 1 방향 정보 di1, 및 환경에서 제 2 실제 마이크 위치에 위치되는 제 2 실제 공간적 마이크에 의해 제공된 제 2 방향 정보 di2에 기초하여 음원 위치 ssp를 추정하도록 구성된다. 정보 계산 모듈(120)은 제 1 실제 공간적 마이크에 의해 기록되는 제 1 기록된 오디오 입력 신호 is1, 제 1 실제 마이크 위치 pos1mic, 및 가상 마이크의 가상 위치 posVmic에 기초하여 오디오 출력 신호를 생성하도록 구성된다. 정보 계산 모듈(120)은, 오디오 출력 신호를 획득하기 위해 진폭 값, 크기 값 또는 제 1 기록된 오디오 입력 신호 is1의 위상 값을 조정함으로써 제 1 실제 공간적 마이크에서 음원에 의해 방출되는 음파의 도착과 가상 마이크에서의 음파의 도착 사이의 제 1 지연 또는 진폭 감쇄를 보상하여 제 1 기록된 오디오 입력 신호 is1을 수정함으로써 제 1 수정된 오디오 신호를 생성하도록 구성되는 전파 보상기를 포함한다.
도 13은 실시예에 따른 장치 및 방법의 입력 및 출력을 도시한다. 둘 이상의 실제 공간적 마이크(111, 112, ..., 11N)로부터의 정보는 장치에 공급되고 방법에 의해 처리된다. 이러한 정보는 실제 공간적 마이크에 의해 픽업된 오디오 신호 뿐만 아니라 실제 공간적 마이크로부터의 방향 정보, 예를 들어 도착의 방향(DOA) 추정치를 포함한다. 오디오 신호와 도착의 방향 추정치와 같은 방향 정보는 시간-주파수 영역에 표현될 수 있다. 예를 들어, 2D 기하학적 재구성이 바람직하고, 전통적인 STFT(단시간 푸리에 변환) 영역이 신호의 표현을 위해 선택되는 경우, DOA는 k 및 n, 즉 주파수 및 시간 인덱스에 의존하는 방위각으로 표현될 수 있다.
실시예들에서, 공간의 음 이벤트 로컬화 뿐만 아니라 가상 마이크의 위치를 나타내는 것은 공통 좌표계에서 실제 및 가상 공간적 마이크의 위치 및 방향에 기초하여 수행될 수 있다. 이러한 정보는 도 13에서 입력(121 ... 12N) 및 입력(104)으로 나타낼 수 있다. 입력(104)은 추가적으로 다음에 논의되는 바와 같이 가상 공간적 마이크의 특성, 예를 들어 이의 위치 및 픽업 패턴을 특정할 수 있다. 가상 공간적 마이크가 다수의 가상 센서를 포함하면, 이의 위치 및 대응하는 여러 픽업 패턴이 고려될 수 있다.
장치 또는 대응하는 방법의 출력은, 원하는 경우, 104에 의해 특정된 바와 같이 정의되고 배치되는 공간적 마이크에 의해 픽업되었을 수 있는 하나 이상의 음 신호(105)일 수 있다. 더욱이, 장치(또는 오히려 방법)는 가상 공간적 마이크를 채용함으로써 추정될 수 있는 공간적 보조 정보(106)에 대응하는 출력으로 제공할 수 있다.
도 14는 두 메인 처리 유닛, 음 이벤트 위치 추정기(201) 및 정보 계산 모듈(202)을 포함하는 실시예에 따른 장치를 도시한다. 음 이벤트 위치 추정기(201)는 입력(111 ... 11N)에 포함되는 DOA, 및 실제 공간적 마이크의 위치 및 방향에 대한 지식에 기초하여 기하학적 재구성을 실행할 수 있으며, 여기서 DOA가 계산된다. 음 이벤트 위치 추정기(205)의 출력은 음 이벤트가 각각의 시간 및 주파수 빈에 대해 발생하는 음원의 위치 추정치(2D 또는 3D에서)를 포함한다. 제 2 처리 블록(202)은 정보 계산 모듈이다. 도 14의 실시예에 따르면. 제 2 처리 블록(202)은 가상 마이크 신호 및 공간 보조 정보를 계산한다. 그래서, 그것은 또한 가상 마이크 신호 및 보조 정보 계산 블록(202)으로 지칭된다. 가상 마이크 신호 및 보조 정보 계산 블록(202)은 음 이벤트의 위치(205)를 이용하여 가상 마이크 오디오 신호(105)를 출력하도록 111 ... 11N에 포함되는 오디오 신호를 처리한다. 블록(202)은, 필요하다면, 또한 가상 공간적 마이크에 대응하는 공간적 보조 정보(106)를 계산할 수 있다. 아래의 실시예는 블록(201 및 202)이 동작할 수 있는 방법의 가능성을 예시한다.
다음에는, 실시예에 따른 음 이벤트 위치 추정기의 위치 추정이 더욱 상세히 설명된다.
문제(2D 또는 3D)의 차원수 및 공간적 마이크의 수에 따라, 위치 추정을 위한 여러 솔루션이 가능하다.
2D에서 2개의 공간적 마이크가 존재하는 경우, (가장 단순한 경우) 간단한 삼각 측량이 가능하다. 도 15는 실제 공간적 마이크가 3 마이크 각각의 ULA(Uniform Linear Array)로 도시되는 예시적인 시나리오를 도시한다. 방위각 al(k, n) 및 a2(k, n)으로 표현된 DOA는 시간-주파수 빈(k, n)에 대해 계산된다. 이것은 ESPRIT와 같은 적절한 DOA 추정기,
[13] R. Roy, A. Paulraj, and T. Kailath, "Direction-of-arrival estimation by subspace rotation methods - ESPRIT," in IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), Stanford, CA, USA, April 1986,
또는 (root) MUSIC 참조
[14] R. Schmidt, “Multiple emitter location and signal parameter estimation,” IEEE Transactions on Antennas and Propagation, vol. 34, no. 3, pp. 276-280, 1986
를 시간-주파수 영역으로 변환된 압력 신호에 사용함으로써 달성된다.
도 15에서, 2개의 실제 공간적 마이크, 본 명세서에서는 2개의 실제 공간적 마이크 어레이(410, 420)가 도시된다. 2개의 추정된 DOA al(k, n) 및 a2(k, n)는 두 라인으로 나타내며, 제 1 라인(430)은 DOA al(k, n)을 나타내고, 제 2 라인(440)은 DOA a2(k, n)를 나타낸다. 삼각 측량은 각 어레이의 위치 및 방향을 아는 간단한 기하학적 고려 사항을 통해 가능하다.
두 라인(430, 440)이 정확히 평행할 때 삼각 측량은 실패한다. 그러나, 실제 응용에서, 이것은 아주 가능성이 없다. 그러나, 모든 삼각 측량 결과가 고려된 공간에서 음 이벤트에 대한 물리적 또는 실현 가능한 위치에 대응하지 않는다. 예를 들면, 음 이벤트의 추정된 위치는 너무 멀리 떨어져 있거나 심지어 추정된 공간 외부에 있을 수 있으며, 이는 아마 DOA가 물리적으로 이용된 모델로 해석될 수 있는 어떤 음 이벤트에 대응하지 않는다는 것을 나타낸다. 이러한 결과는 센서 잡음 또는 너무 강한 실내 잔향으로 인해 유발될 수 있다. 따라서, 실시예에 따르면, 이러한 원하지 않는 결과는 정보 계산 모듈(202)이 적절하게 이를 처리할 수 있도록 플래그된다.
도 16은 음 이벤트의 위치가 3D 공간에서 추정되는 시나리오를 도시한다. 적절한 공간적 마이크, 예를 들어, 평면 또는 3D 마이크 어레이가 채용된다. 도 16에서, 제 1 공간적 마이크(510), 예를 들어, 제 1 3D 마이크 어레이, 및 제 2 공간적 마이크(520), 예를 들어 , 제 2 3D 마이크 어레이가 도시된다. 3D 공간에서의 DOA는, 예를 들어, 방위각 및 앙각으로 표현될 수 있다. 단위 벡터(530, 540)는 DOA를 표현하는데 이용될 수 있다. 두 라인(550, 560)은 DOA에 따라 투사된다. 3D에서, 심지어 매우 신뢰할 수 있는 예측으로, DOA에 따라 투사되는 두 라인(550, 560)은 교차하지 않을 수 있다. 그러나, 삼각 측량은, 예를 들어, 두 라인을 연결하는 가장 작은 세그먼트의 중간 지점을 선택함으로써 여전히 실행될 수 있다.
2D 경우와 마찬가지로, 삼각 측량은 실패할 수 있거나, 방향의 어떤 조합을 위한 실현 불가능한 결과를 산출할 수 있으며, 이는 또한 예를 들어 도 14의 정보 계산 모듈(202)로 플래그될 수 있다.
셋 이상의 공간적 마이크가 존재하면, 여러 솔루션이 가능하다. 예를 들면, 상술한 삼각 측량은 실제 공간적 마이크의 모든 쌍에 대해 실행될 수 있다(if N = 3, 1 with 2, 1 with 3, and 2 with 3). 그 후, 생성된 위치는 평균화될 수 있다(x 및 y, 및 3D가 고려되는 경우에는 z를 따라).
대안적으로, 더욱 복잡한 개념이 사용될 수 있다. 예를 들면, 확률적 접근 방식이 아래에 기재되어 있는 바와 같이 적용될 수 있다:
[15] J. Michael Steele, "Optimal Triangulation of Random Samples in the Plane", The Annals of Probability, Vol. 10, No.3 (Aug., 1982), pp. 548-553.
실시예에 따르면, 음장은, 예를 들어, 단시간 푸리에 변환(STFT)을 통해 획득되는 시간-주파수 영역에서 분석될 수 있으며, 여기서 k 및 n은 제각기 주파수 인덱스 k 및 시간 인덱스 n을 나타낸다. 어떤 k 및 n에 대한 임의의 위치 pv에서 복잡한 압력 Pv(k, n)는, 예를 들어 다음의 식을 사용함으로써 협대역 등방성 점 형상 소스(narrow-band isotropic point-like source)에 의해 방출된 단일 구면파로 모델화된다:
Figure 112014062415467-pct00038
(1)
여기서, PIPLS(k, n)은 위치 pIPLS(k, n)에서 IPLS에 의해 방출되는 신호이다. 복소 계수 γ(k, pIPLS, pv)은 pIPLS(k, n)에서 pv으로의 전파를 표현하며, 예를 들어, 그것은 적절한 위상 및 크기 수정을 도입한다. 여기서, 각각의 시간-주파수 빈에서는 하나의 IPLS만이 활성적이다는 가정이 적용될 수 있다. 그럼에도 불구하고, 서로 다른 위치에 위치된 다수의 협대역 IPLS는 또한 단일 시간 인스턴스에서 활성적일 수 있다.
각 IPLS는 직접 음 또는 별개의 실내 반사(distinct room reflection)를 모델링한다. 이의 위치 pIPLS(k, n)는 이상적으로 제각기 실내에 위치된 실제 음원 또는 외부에 위치된 미러 이미지 음원에 대응할 수 있다. 따라서, 위치 pIPLS(k, n)는 또한 음 이벤트의 위치를 나타낼 수 있다.
용어 "실제 음원"은 대화자 또는 악기와 같이 물리적으로 기록 환경에 존재하는 실제의 음원를 나타낸다는 것을 주목한다. 이와는 반대로, "음원" 또는 "음 이벤트" 또는 "IPLS"로, 어떤 시간 인스턴트 또는 어떤 시간-주파수 빈에서 활성적인 효과적인 음원을 나타내며, 여기서 음원은 예를 들어 실제 음원 또는 미러 이미지 소스를 나타낼 수 있다.
도 27a-27b는 음원을 로컬화하는 마이크 어레이를 도시한다. 로컬화된 음원은 자신의 특성에 따라 서로 다른 물리적 해석을 가질 수 있다. 마이크 어레이가 직접 음을 수신하면, 이들은 진정한 음원(예를 들어, 대화자)의 위치를 로컬화할 수 있다. 마이크 어레이가 반사를 수신하면, 이들은 미러 이미지 소스의 위치를 로컬화할 수 있다. 미러 이미지 소스는 또한 음원이다.
도 27a는 2개의 마이크 어레이(151 및 152)가 실제의 음원(물리적으로 존재하는 음원)(153)으로부터 직접 음을 수신하는 시나리오를 도시한다.
도 27b는 2개의 마이크 어레이(161, 162)가 반사된 음을 수신하는 시나리오를 도시하며,여기서 음은 벽에 의해 반사되었다. 이러한 반사 때문에, 마이크 어레이(161, 162)는 음이 스피커(163)의 위치와 다른 미러 이미지 소스(165)의 위치에서 나타나는 위치를 로컬화한다.
도 27a의 실제 음원(153) 뿐만 아니라 미러 이미지 소스(165)는 둘 다 음원이다.
도 27c는 2개의 마이크 어레이(171, 172)가 확산 음을 수신하고, 음원을 로컬화할 수 없는 시나리오를 도시한다.
소스 신호가 W-분리형 직교성(W-disjoint orthogonality)(WDO) 조건을 충족하는 것을 고려하면 약간의 잔향 환경에 대해서만 이러한 단일 파 모델이 정확하지만, 시간-주파수 중첩은 충분히 작다. 이것은 음성 신호에 대해 일반적으로 사실이며, 예를 들어 다음을 참조한다.
[12] S. Rickard and Z. Yilmaz, "On the approximate W-disjoint orthogonality of speech," in Acoustics, Speech and Signal Processing, 2002. ICASSP 2002. IEEE International Conference on, April 2002, vol. 1.
그러나, 모델은 또한 다른 환경에 대한 양호한 추정치를 제공하며, 따라서 이러한 환경에도 적용 가능하다.
다음에는, 실시예에 따른 위치 pIPLS(k, n)의 추정이 설명된다. 어떤 시간-주파수 빈에서의 활성적 IPLS의 위치 pIPLS(k, n) 및 따라서 시간-주파수 빈에서의 음 이벤트의 추정은 2 이상의 서로 다른 관찰 지점에서 측정된 음의 도착의 방향(DOA)에 기초하여 삼각 측량을 통해 추정된다.
도 17은 현재 시간-주파수 슬롯 (k, n)의 IPLS가 알려지지 않은 위치 pIPLS(k, n)에 위치되는 기하학적 형상(geometry)을 도시한다. 필요한 DOA 정보를 결정하기 위해, 제각기 위치(610 및 620)에 배치되는 알려진 기하학적 형상, 위치 및 방향을 가진 두 실제 공간적 마이크, 여기서 두 마이크 어레이가 사용된다. 벡터 p1 및 p2는 제각기 위치(610, 620)를 나타낸다. 어레이 방향은 단위 벡터 c1 및 c2에 의해 정의된다. 예를 들어 DirAC 분석에 의해 제공되는 바와 같이([2], [3] 참조) 음의 DOA는 DOA 추정 알고리즘을 이용하여 각 (k, n)에 대한 위치(610 및 620)에서 결정된다. 이에 의해, 마이크 어레이의 관점(point of view)에 대하여 제 1 관점 단위 벡터
Figure 112014062415467-pct00039
및 제 2 관점 단위 벡터
Figure 112014062415467-pct00040
(둘 다 도 17에 도시되지 않음)는 DirAC 분석의 출력으로 제공될 수 있다. 예를 들면, 2D에서 동작하면, 제 1 관점 단위 벡터는 다음으로 생성한다:
Figure 112014062415467-pct00041
(2)
여기서, φ1(k, n)은 도 17에 도시된 바와 같이 제 1 마이크 어레이에서 추정된 DOA의 방위각을 나타낸다. 원점에서 글로벌 좌표계에 대하여 대응하는 DOA 단위 벡터 e1(k, n) 및 e2(k, n)는 다음 식을 적용함으로써 계산될 수 있다:
Figure 112014062415467-pct00042
(3)
여기서 R은 좌표 변환 매트릭스이며, 예를 들어,
Figure 112014062415467-pct00043
(4)
이때 2D에서 동작하고,
Figure 112014062415467-pct00044
. 삼각 측량을 실행하기 위해, 방향 벡터 d1(k, n) 및 d2(k, n)는 다음과 같이 계산될 수 있다:
Figure 112014062415467-pct00045
(5)
여기서
Figure 112014062415467-pct00046
Figure 112014062415467-pct00047
는 IPLS와 두 마이크 어레이 사이의 알려지지 않은 거리이다. 다음의 식
Figure 112014062415467-pct00048
(6)
은 d1(k, n)에 대해 해결될 수 있다. 마지막으로, IPLS의 위치 pIPLS(k, N)은 다음 식에 의해 주어진다:
Figure 112014062415467-pct00049
(7)
다른 실시예에서, 식 (6)은 d2(k, n)에 대해 해결될 수 있고, pIPLS(k, n)은 유사하게 d2(k, n)를 사용하여 계산된다.
e1(k, n) 및 e2(k, n)가 평행하지 않으면 식 (6)은 항상 2D에서 동작할 때 솔루션을 제공한다. 그러나, 셋 이상의 마이크 어레이를 이용할 때 또는 3D에서 동작할 때, 솔루션은 방향 벡터가 교차하지 않을 때에는 획득될 수 없다. 실시예에 따르면, 이 경우에, 모든 방향 벡터 d에 가장 가까운 지점이 계산되고, 결과는 IPLS의 위치로서 사용될 수 있다.
일 실시예에서, 모든 관측 지점 p1, p2, ...은 IPLS에 의해 방출된 음이 동일한 시간적 블록 n에 속하도록 위치되어야 한다. 이러한 요구 사항은 어떤 두 관측 지점 사이의 거리 Δ가 다음의 것보다 작을 때 간단히 충족될 수 있다:
Figure 112014062415467-pct00050
(8)
여기서, nFFT는 STFT 윈도우 길이이고, 0 ≤ R <1은 연속 시간 프레임 사이의 중복을 특정하고, fs는 샘플링 주파수이다. 예를 들면, 50 %의 중복 (R = 0.5)을 갖는 48 kHz에서의 1024 지점 STFT에 대해, 위의 요구 사항을 충족하기 위한 어레이 사이의 최대 간격은 Δ = 3.65 m이다.
다음에는, 실시예에 따라 정보 계산 모듈(202), 예를 들어 가상 마이크 신호 및 보조 정보 계산 모듈이 더욱 상세하게 설명된다.
도 18은 실시예에 따른 정보 계산 모듈(202)의 개략도를 도시한다. 정보 계산 유닛은 전파 보상기(500), 조합기(510) 및 스펙트럼 가중 유닛(520)을 포함한다. 정보 계산 모듈(202)은 음 이벤트 위치 추정기에 의해 추정되는 음원 위치 추정치를 수신하고, 하나 이상의 오디오 입력 신호는 실제 공간적 마이크, 실제 공간적 마이크 중 하나 이상의 위치 posRealMic, 및 가상 마이크의 가상 위치 posVmic 중 하나 이상에 의해 기록된다. 그것은 가상 마이크의 오디오 신호를 나타내는 오디오 출력 신호 os를 출력한다.
도 19는 다른 실시예에 따른 정보 계산 모듈을 도시한다. 도 19의 정보 계산 모듈은 전파 보상기(500), 조합기(510) 및 스펙트럼 가중 유닛(520)을 포함한다. 전파 보상기(500)는 전파 파라미터 계산 모듈(501) 및 전파 보상 모듈(504)을 포함한다. 조합기(510)는 조합 계수 계산 모듈(502) 및 조합 모듈(505)을 포함한다. 스펙트럼 가중 유닛(520)은 스펙트럼 가중치 계산 유닛(503), 스펙트럼 가중 응용 모듈(506) 및 공간적 보조 정보 계산 모듈(507)을 포함한다.
가상 마이크의 오디오 신호를 계산하기 위해, 기하학적 정보, 예를 들어 실제 공간적 마이크(121 ... 12N)의 위치 및 방향, 가상 공간적 마이크(104)의 위치, 방향 및 특성, 및 음 이벤트(205)의 위치 추정치는 정보 계산 모듈(202), 특히 전파 보상기(500)의 전파 파라미터 계산 모듈(501), 조합기(510)의 조합 계수 계산 모듈(502) 및 스펙트럼 가중 유닛(520)의 스펙트럼 가중치 계산 유닛(503)으로 공급된다. 전파 파라미터 계산 모듈(501), 조합 계수 계산 모듈(502) 및 스펙트럼 가중치 계산 유닛(503)은 전파 보상 모듈(504), 조합 모듈(505) 및 스펙트럼 가중 응용 모듈(506)에서 오디오 신호(111 ... 11N)의 수정에 이용된 파라미터를 계산한다.
정보 계산 모듈(202)에서, 오디오 신호(111 ... 11N)는 우선 음 이벤트 위치와 실제 공간적 마이크 사이에서 서로 다른 전파 길이에 의해 주어진 효과를 보상하기 위해 수정될 수 있다. 그 후, 신호는 예를 들어 신호 대 잡음비(SNR)를 개선하기 위해 조합될 수 있다. 마지막으로, 그 후, 생성된 신호는 어떤 거리 종속 이득 함수뿐만 아니라 가상 마이크의 지향성 픽업 패턴을 고려하도록 스펙트럼 가중될 수 있다.
전파 보상은 이제 더욱 상세하게 설명된다. 도 20의 상부에서, 2개의 실제 공간적 마이크(제 1 마이크 어레이(910) 및 제 2 마이크 어레이(920)), 시간-주파수 빈(k, n)에 대한 로컬화된 음 이벤트(930)의 위치, 및 가상 공간적 마이크(940)의 위치가 도시된다.
도 20의 하부는 시간 축을 나타낸다. 음 이벤트는 시간 t0에서 방출되어, 실제 및 가상 공간적 마이크로 전파하는 것으로 추정된다. 도착 시간 지연 뿐만 아니라 진폭은 거리에 따라 변화하기 때문에, 전파 길이가 멀수록 진폭은 약하고, 도착 시간 지연은 더 길어진다.
두 실제 어레이에서의 신호는 이들 사이의 상대적인 지연 Dt12이 작은 경우에만 비교 가능하다. 그렇지 않으면, 두 신호 중 하나는 상대적인 지연 Dt12을 보상하기 위해 시간적으로 재정렬되어, 아마 서로 다른 감쇠(decay)를 보상하기 위해 스케일링될 필요가 있다.
가상 마이크에서의 도착과 (실제 공간적 마이크 중 하나에서) 실제 마이크 어레이에서의 도착 사이의 지연을 보상하는 것은 음 이벤트의 로컬화와 무관한 지연을 변경하여, 그것을 대부분의 응용에 필요치 않게 한다.
도 19를 참조하면, 전파 파라미터 계산 모듈(501)은 각각의 실제 공간적 마이크 및 각각의 음 이벤트에 대해 정정될 지연을 계산하도록 구성된다. 원한다면, 그것은 또한 서로 다른 진폭 감쇠를 보상하기 위해 고려될 이득 계수를 계산한다.
전파 보상 모듈(504)은 이러한 정보를 이용하여 이에 따라 오디오 신호를 수정하도록 구성된다. 이러한 신호가 (필터 뱅크의 시간 윈도우와 비교하는) 소량의 시간만큼 시프트되어야 할 경우, 간단한 위상 회전은 충분하다. 지연이 큰 경우, 더 복잡한 구현이 필요하다.
전파 보상 모듈(504)의 출력은 원래 시간-주파수 영역에서 표현되는 수정된 오디오 신호이다.
다음에는, 실시예에 따른 가상 마이크에 대한 전파 보상의 특정 추정은 특히 제 1 실제 공간적 마이크의 위치(610) 및 제 2 실제 공간적 마이크의 위치(620)를 도시하는 도 17을 참조로 설명될 것이다.
이제 설명되는 실시예에서는, 적어도 제 1 기록된 오디오 입력 신호, 예를 들어 실제 공간적 마이크(예를 들어 마이크 어레이) 중 적어도 하나의 압력 신호는, 예를 들어, 제 1 실제 공간적 마이크의 압력 신호를 이용 가능한 것으로 추정된다. 고려된 마이크를 기준 마이크로 지칭하고, 이의 위치를 기준 위치 pref로 지칭하며, 이의 압력 신호를 기준 압력 신호 Pref(k, n)로 지칭할 것이다. 그러나, 전파 보상은 하나의 압력 신호에 대하여 행해질 수 있을 뿐만 아니라, 복수 또는 모두의 실제 공간적 마이크의 압력 신호에 대하여서도 행해질 수 있다.
IPLS에 의해 방출된 압력 신호 PIPLS(k, n)와 pref에 위치된 기준 마이크의 기준 압력 신호 Pref(k, n) 사이의 관계는 다음 식 (9)에 의해 표현될 수 있다:
Figure 112014062415467-pct00051
(9)
일반적으로, 복소 계수
Figure 112014062415467-pct00052
는 pa의 원점에서 pb로의 구면파의 전파에 의해 도입된 위상 회전 및 진폭 감쇠를 표현한다. 그러나, 실제 테스트는 γ의 진폭 감쇠만을 고려하는 것이 또한 위상 회전을 고려하는 것에 비해 훨씬 적은 아티팩트(artifact)를 가진 가상 마이크 신호의 그럴듯한 임프레션(plausible impression)에 이르게 하는 것으로 나타났다.
공간의 어떤 지점에서 측정될 수 있는 음 에너지는 음원, 도 6에서는 음원의 위치 pIPLS로부터 거리 r에 상당히 의존한다. 많은 상황에서, 이러한 종속성은 잘 알려진 물리적 원리, 예를 들어, 점원(point source)의 원거리장(far-field)에서 음압의 1/r 감쇠를 이용하여 충분한 정확도로 모델링될 수 있다. 기준 마이크, 예를 들어, 음원으로부터의 제 1 실제 마이크의 거리가 알려지고, 또한 음원으로부터의 가상 마이크의 거리가 알려지면, 가상 마이크의 위치에서의 음 에너지는 기준 마이크, 예를 들어 제 1 실제 공간적 마이크의 신호 및 에너지로부터 추정될 수 있다. 이것은 가상 마이크의 출력 신호가 적절한 이득을 기준 압력 신호에 적용함으로써 획득될 수 있다는 것을 의미한다.
제 1 실제 공간적 마이크가 기준 마이크라고 가정하면, pref = p1. 도 17에서, 가상 마이크는 pv에 위치된다. 도 17에서 기하학적 형상이 상세하게 알려져 있으므로, 기준 마이크(도 17에서는 제 1 실제 공간적 마이크)와 IPLS 사이의 거리
Figure 112014062415467-pct00053
가 쉽게 결정될 수 있을 뿐만 아니라, 가상 마이크와 IPLS 사이의 거리
Figure 112014062415467-pct00054
, 즉
Figure 112014062415467-pct00055
(10)
가상 마이크의 위치에서의 음압 Pv(k, n)은 식 (1) 및 (9)을 조합함으로써 계산되어 다음으로 이어진다:
Figure 112014062415467-pct00056
(11)
상술한 바와 같이, 일부 실시예에서, 계수 γ는 단지 전파로 인해 진폭 감쇠를 고려할 수 있다. 예를 들어 음압이 1/r로 감소한다고 가정하면, 다음과 같다:
Figure 112014062415467-pct00057
(12)
식(1)에서 모델이 보유할 때, 예를 들어 직접 음만이 존재할 때, 식 (12)은 크기 정보를 정확하게 재구성할 수 있다. 그러나, 순수 확산 음장의 경우, 예를 들어 모델 가정이 만족되지 않을 때, 제시된 방법은 센서 어레이의 위치로부터 가상 마이크를 멀리 이동할 때 신호의 암시적인 반향 제거(dereverberation)를 산출한다. 사실상, 상술한 바와 같이, 확산 음장에서는 대부분의 IPLS이 2개의 센서 어레이 근처에 로컬화되는 것으로 기대한다. 따라서, 이러한 위치로부터 가상 마이크를 멀리 이동할 때에는 도 17에서 거리
Figure 112014062415467-pct00058
가 증가할 가능성이 높다. 그래서, 기준 압력의 크기는 식 (11)에 따라 가중을 적용할 때 감소된다. 이에 따라, 가상 마이크를 실제 음원 근처로 이동할 때, 직접 음에 대응하는 시간-주파수 빈은 전체 오디오 신호가 덜 확산적인 것으로 인식되도록 증폭될 것이다. 식 (12)에서 규칙을 조정함으로써, 직접 음 증폭 및 확산 음 억제를 마음대로 제어할 수 있다.
제 1 실제 공간적 마이크의 기록된 오디오 입력 신호(예를 들어 압력 신호)에 대한 전파 보상을 행함으로써, 제 1 수정된 오디오 신호가 획득된다.
실시예에서, 제 2 수정된 오디오 신호는 제 2 실제 공간적 마이크의 기록된 제 2 오디오 입력 신호(제 2 압력 신호)에 대한 전파 보상을 행함으로써 획득될 수 있다.
다른 실시예에서, 추가의 오디오 신호는 추가의 실제 공간적 마이크의 기록된 추가의 오디오 입력 신호(추가의 압력 신호)에 대한 전파 보상을 행함으로써 획득될 수 있다.
이제, 일 실시예에 따라 도 19의 블록(502 및 505)에서 조합하는 것이 더욱 상세히 설명된다. 복수의 서로 다른 실제 공간적 마이크로부터의 둘 이상의 오디오 신호는 둘 이상의 수정된 오디오 신호를 획득하기 위해 서로 다른 전파 경로를 보상하도록 수정된 것으로 추정된다. 서로 다른 실제 공간적 마이크로부터의 오디오 신호가 서로 다른 전파 경로를 보상하도록 수정되면, 이들은 오디오 품질을 개선하기 위해 조합될 수 있다. 이렇게 함으로써, 예를 들어, SNR은 증가될 수 있거나 ㅂ반향은 감소될 수 있다.
조합에 대한 가능한 솔루션은 다음의 것을 포함한다:
- 가중 평균하는 것, 예를 들어, SNR, 또는 가상 마이크까지의 거리, 또는 실제 공간적 마이크에 의해 추정된 확산성을 고려하는 것. 전통적인 솔루션, 예를 들어, MRC(Maximum Ratio Combining ) 또는 EQC(Equal Gain Combining)이 채용될 수 있거나,
- 조합 신호를 획득하기 위해 수정된 오디오 신호의 일부 또는 전부의 선형 조합. 수정된 오디오 신호는 조합 신호를 획득하기 위해 선형 조합에서 가중될 수 있거나,
- 선택, 예를 들어, 하나의 신호만이 예를 들어 SNR 또는 거리 또는 확산도에 따라 사용된다.
적용 가능하다면, 모듈(502)의 태스크는 모듈(505)에서 실행되는 조합을 위한 파라미터를 계산하는 것이다.
이제, 실시예에 따른 스펙트럼 가중은 더 상세하게 설명된다. 이 경우에, 도 19의 블록(503 및 506)에 대한 참조가 행해진다. 이러한 마지막 단계에서, 입력 오디오 신호의 조합 또는 전파 보상으로부터 생성된 오디오 신호는 입력(104)에 의해 특정된 바와 같은 가상 공간적 마이크의 공간적 특성 및/또는 (205로 주어진) 재구성된 기하학적 형상에 따라 시간-주파수 영역에서 가중된다.
도 21에 도시된 바와 같이, 각각의 시간-주파수 빈에 대해, 기하학적 재구성은 가상 마이크에 대해 DOA를 쉽게 획득하도록 한다. 더욱이, 가상 마이크와 음 이벤트의 위치 사이의 거리는 또한 용이하게 계산될 수 있다.
그 후, 시간-주파수 빈에 대한 가중치는 원하는 가상 마이크의 타입을 고려하여 계산된다.
지향성 마이크의 경우에, 스펙트럼 가중치는 사전 정의된 픽업 패턴에 따라 계산될 수 있다. 예를 들어, 실시예에 따르면, 카디오이드(cardioid) 마이크는 함수 g(세타)에 의해 정의된 픽업 패턴을 가질 수 있다.
g(세타) = 0.5 + 0.5 cos(세타)
여기서, 세타는 가상 공간적 마이크의 시야(look) 방향과 가상 마이크의 관점으로부터의 음의 DOA 사이의 각도이다.
다른 가능성은 예술적(artistic)(비물리적) 감쇠 함수이다. 어떤 응용에서는 하나의 특징적인 자유 음장 전파(characterizing free-field propagation) 보다 큰 인자를 가진 가상 마이크로부터 음 이벤트를 더 멀리 억제하는 것이 바람직할 수 있다. 이를 위해, 일부 실시예는 가상 마이크와 음 이벤트 사이의 거리에 의존하는 추가적인 가중 함수를 도입한다. 실시예에서, 가상 마이크로부터 어떤 거리(예를 들어 미터) 내의 음 이벤트만이 픽업되어야 한다.
가상 마이크의 지향성에 관하여, 임의의 지향성 패턴은 가상 마이크를 위해 적용될 수 있다. 그렇게 행할 시에, 예를 들어 복잡한 음 장면으로부터 소스가 분리될 수 있다.
음의 DOA가 가상 마이크의 위치 pv에서 계산될 수 있으므로, 즉
Figure 112014062415467-pct00059
(13)
여기서, cv는 가상 마이크의 방향을 나타내는 단위 벡터이고, 가상 마이크에 대한 임의의 지향성이 실현될 수 있다. 예를 들면, Pv(k, n)가 조합 신호 또는 전파 보상 수정된 오디오 신호를 나타낸다고 가정하면, 다음의 식은 카디오이드 지향성을 가진 가상 마이크의 출력을 계산한다.
Figure 112014062415467-pct00060
(14)
잠재적으로 이런 식으로 생성될 수 있는 지향성 패턴은 위치 추정의 정확도에 의존한다.
실시예에서, 하나 이상의 실제 비공간적 마이크, 예를 들어, 무지향성 마이크 또는 카디오이드와 같은 지향성 마이크는 도 8에서의 가상 마이크 신호(105)의 음질을 더 향상시키기 위해 실제 공간적 마이크 이외에 음 장면에 배치된다. 이러한 마이크는 어떠한 기하학적 정보를 수집하는 데 사용되지 않고, 오히려 클리너(cleaner) 오디오 신호를 제공하는데만 사용된다. 이러한 마이크는 공간적 마이크보다 음원에 더 가깝게 배치될 수 있다. 이 경우, 실시예에 따르면, 실제 비공간적 마이크의 오디오 신호 및 이의 위치는 실제 공간적 마이크의 오디오 신호 대신에 단순히 처리를 위해 도 19의 전파 보상 모듈(504)에 공급된다. 그 후, 전파 보상은 하나 이상의 비공간적 마이크의 위치에 대하여 비공간적 마이크의 하나 이상의 기록된 오디오 신호에 대해 수행된다. 이것에 의해, 실시예는 추가적인 비공간적 마이크를 사용하여 실현된다.
추가의 실시예에서, 가상 마이크의 공간적 보조 정보의 계산이 실현된다. 마이크의 공간적 보조 정보(106)를 계산하기 위해, 도 19의 정보 계산 모듈(202)은 입력으로서 음원의 위치(205)와 가상 마이크의 위치, 방향 및 특성(104)을 수신하도록 구성되는 공간적 보조 정보 계산 모듈(507)을 포함한다. 어떤 실시예에서, 계산될 필요가 있는 보조 정보(106)에 따르면, 가상 마이크(105)의 오디오 신호는 또한 입력으로서 공간적 보조 정보 계산 모듈(507)에 대한 입력으로 고려될 수 있다.
공간적 보조 정보 계산 모듈(507)의 출력은 가상 마이크(106)의 보조 정보이다. 이러한 보조 정보는, 예를 들어, 가상 마이크의 관점으로부터 각 시간-주파수 빈(k, n)에 대한 DOA 또는 음의 확산도일 수 있다. 다른 가능한 보조 정보는, 예를 들어, 가상 마이크의 위치에서 측정된 활성적인 음 세기 벡터 Ia(k, n)일 수 있다. 이러한 파라미터가 도출될 수 있는 방법이 이제 설명될 것이다.
일 실시예에 따르면, 가상 공간적 마이크에 대한 DOA 추정이 실현된다. 도 22에 의해 도시된 바와 같이, 정보 계산 모듈(120)은 가상 마이크의 위치 벡터 및 음 이벤트의 위치 벡터에 기초하여 공간적 보조 정보로서 가상 마이크에서의 도착의 방향을 추정하도록 구성된다.
도 22는 가상 마이크의 관점으로부터 음의 DOA를 도출하는 가능한 방법을 도시한다. 도 19에서 블록(205)에 의해 제공되는 음 이벤트의 위치는 각 시간-주파수 빈(k, n)에 대해 위치 벡터 r(k, n), 음 이벤트의 위치 벡터로 나타낼 수 있다. 마찬가지로, 도 19에서 입력(104)으로서 제공된 가상 마이크의 위치는 위치 벡터 s(k, n), 가상 마이크의 위치 벡터로 나타낼 수 있다. 가상 마이크의 시야 방향은 벡터 v(k, n)에 의해 나타낼 수 있다. 가상 마이크에 대한 DOA는 a(k, n)에 의해 주어진다. 그것은 v와 음 전파 경로 h(k, n) 사이의 각도를 나타내고, h(k, n)는 다음의 식을 사용함으로써 계산될 수 있다:
Figure 112014062415467-pct00061
원하는 DOA a(k, n)는 이제 예를 들어 h(k, n) 및 v(k,n)의 내적(dot product)의 정의를 통해 각 (k, n)에 대해 계산될 수 있다:
Figure 112014062415467-pct00062
다른 실시예에서, 도 22에 의해 도시된 바와 같이, 정보 계산 모듈(120)은 가상 마이크의 위치 벡터 및 음 이벤트의 위치 벡터에 기초하여 공간적 보조 정보로서 가상 마이크에서의 활성적 음 세기를 추정하도록 구성될 수 있다.
위에 정의된 DOA a(k, n)로부터, 가상 마이크의 위치에서 활성적 음 세기 Ia(k, n)를 도출할 수 있다. 이를 위해, 도 19에서 가상 마이크 오디오 신호(105)는 무지향성 마이크의 출력에 대응하는 것으로 추정되며, 예를 들어 가상 마이크는 무지향성 마이크인 것으로 추정된다. 더욱이, 도 22에서 시야 방향 v는 좌표계의 x-축에 평행한 것으로 추정된다. 원하는 활성적 음 세기 벡터 Ia(k, n)는 가상 마이크의 위치를 통해 에너지의 순 흐름을 나타내므로, 예를 들어 다음의 식에 따라 Ia(k, n)이 계산될 수 있다:
Figure 112014062415467-pct00063
여기서 []T는 전치 벡터(transposed vector)를 나타내고, rho는 공기 밀도이며, Pv(k, n)는 가상 공간적 마이크에 의해 측정된 음압, 예를 들어, 도 19의 블록(506)의 출력(105)이다.
활성적 세기 벡터가 일반적인 좌표계로 표현되지만 가상 마이크의 위치에서 여전히 계산되는 경우, 다음의 식이 적용될 수 있다:
Figure 112014062415467-pct00064
음의 확산도는 음장이 주어진 시간-주파수 슬롯에 얼마나 확산하는지를 나타낸다(예를 들어, [2] 참조). 확산도는 값 ψ으로 나타내며, 여기서 0 ≤ ψ ≤ 1. 1의 확산도는 음장의 총 음장 에너지가 완전히 확산된다는 것을 나타낸다. 이러한 정보는 예를 들어 공간적 음의 재생 시에 중요하다. 전통적으로, 확산도는 마이크 어레이가 배치되는 공간의 특정 지점에서 계산된다.
일 실시예에 따르면, 확산도는 음 장면의 임의의 위치에 자유로이 배치될 수 있는 가상 마이크(VM)에 생성된 보조 정보에 대한 추가적인 파라미터로 계산될 수 있다. 이것에 의해, 또한 가상 마이크의 가상 위치에서의 오디오 신호 외에 확산도를 계산하는 장치는 DirAC 스트림, 즉 음 장면의 임의의 지점에 대해 오디오 신호, 도착의 방향 및 확산도를 생성할 수 있을 때 가상 DirAC 프론트 엔드(front-end)로 보여질 수 있다. DirAC 스트림은 임의의 멀티 스피커 셋업 시에 더 처리되고, 저장되고, 전송되고, 재생될 수 있다. 이 경우에, 청취자는 자신이 가상 마이크에 의해 특정된 위치에 있고, 이의 방향에 의해 결정된 방향을 보는 것처럼 음 장면을 경험한다.
도 23은 가상 마이크에서 확산도를 계산하기 위한 확산도 계산 유닛(801)을 포함하는 실시예에 따른 정보 계산 블록을 도시한다. 정보 계산 블록(202)은 도 14의 입력 이외에 실제 공간적 마이크에서의 확산도를 포함하는 입력(111 내지 11N)을 수신하도록 구성된다. ψ(SM1) 내지 ψ(SMN)이 이러한 값을 나타낸다고 하자. 이러한 추가적인 입력은 정보 계산 모듈(202)에 공급된다. 확산도 계산 유닛(801)의 출력(103)은 가상 마이크의 위치에서 계산된 확산도 파라미터이다.
실시예의 확산도 계산 유닛(801)은 더욱 상세 사항을 도시한 도 24에 예시된다. 실시예에 따르면, N 공간적 마이크의 각각에서의 직접 및 확산 음의 에너지가 추정된다. 그 후, IPLS의 위치에 대한 정보와, 공간적 및 가상 마이크의 위치에 대한 정보를 이용하여, 가상 마이크의 위치에서의 이러한 에너지의 N 추정치가 획득된다. 마지막으로, 추정치는 추정 정확도를 향상시키도록 조합될 수 있고, 가상 마이크에서의 확산도 파라미터는 쉽게 계산될 수 있다.
Figure 112014062415467-pct00065
내지
Figure 112014062415467-pct00066
Figure 112014062415467-pct00067
내지
Figure 112014062415467-pct00068
는 에너지 분석 유닛(810)에 의해 계산된 N 공간적 마이크에 대한 직접 및 확산 음의 에너지의 추정치를 나타낸다고 하자. Pi가 복소 압력 신호이고, ψi가 제 i 공간적 마이크에 대한 확산도이면, 에너지는 예를 들어 다음의 식에 따라 계산될 수 있다:
Figure 112014062415467-pct00069
확산 음의 에너지는 모든 위치에서 동일해야 하며, 따라서, 가상 마이크에서의 확산 음 에너지
Figure 112014062415467-pct00070
의 추정치는 예를 들어 다음의 식에 따라 예를 들어 확산도 조합 유닛(820)에서
Figure 112014062415467-pct00071
내지
Figure 112014062415467-pct00072
를 평균함으로써 간단하게 계산될 수 있다:
Figure 112014062415467-pct00073
추정치
Figure 112014062415467-pct00074
내지
Figure 112014062415467-pct00075
의 더욱 효과적인 조합은 추정기의 분산을 고려함으로써, 예를 들어, SNR을 고려함으로써 실행될 수 있다.
직접 음의 에너지는 전파로 인해 소스까지의 거리에 의존한다. 따라서,
Figure 112014062415467-pct00076
내지
Figure 112014062415467-pct00077
은 이것을 고려하도록 수정될 수 있다. 이것은 예를 들어 직접 음 전파 조정 유닛(830)에 의해 실행될 수 있다. 예를 들면, 직접 음장의 에너지가 제곱된 거리에 걸쳐 1로 감쇠되는 것으로 추정되면, 제 i 공간적 마이크에 대한 가상 마이크에서의 직접 음에 대한 추정치는 다음의 식에 따라 계산될 수 있다:
Figure 112014062415467-pct00078
확산도 조합 유닛(820)과 마찬가지로, 서로 다른 공간적 마이크에서 획득된 직접 음 에너지의 추정치는 예를 들어 직접 음 조합 유닛(840)에 의해 조합될 수 있다. 그 결과는
Figure 112014062415467-pct00079
, 예를 들어, 가상 마이크에서의 직접 음의 에너지에 대한 추정치이다. 가상 마이크에서의 확산도 ψ(VM)는 에서의 확산도는 다음의 식에 따라 예를 들어 확산도 서브 계산기(850)에 의해 계산될 수 있다:
Figure 112014062415467-pct00080
상술한 바와 같이, 어떤 경우에, 음 이벤트 위치 추정기에 의해 실행되는 음 이벤트 위치 추정은 예를 들어 잘못된 도착의 방향 추정의 경우에는 실패한다. 도 25는 이러한 시나리오를 예시한다. 이러한 경우에, 서로 다른 공간적 마이크에서 추정된 확산도 파라미터와 관계없이, 입력(111 내지 11N)으로 수신되는 바와 같이, 가상 마이크(103)에 대한 확산도는 공간적으로 코히런트 재생이 가능하지 않을 때 1(즉, 완전 확산)로 설정될 수 있다.
추가적으로, N 공간적 마이크에서의 DOA 추정치의 신뢰성이 고려될 수 있다. 이것은 예를 들어 DOA 추정기 또는 SNR의 분산 측면에서 표현될 수 있다. 이러한 정보는 VM 확산도(103)가 DOA 추정치가 신뢰할 수 없는 경우에 인위적으로 증가될 수 있도록 확산도 서브 계산기(850)에 의해 고려될 수 있다. 사실상, 결과적으로, 위치 추정치(205)는 또한 신뢰할 수 없을 것이다.
도 26은 실시예에 따른 가상 출력 신호를 생성하기 위한 장치(991)를 도시한다. 가상 출력 신호를 생성하기 위한 장치(991)는 상술한 실시예 중 하나에 따라 마이크의 위치 결정을 위한 장치(992)를 포함하며, 이러한 장치(992)는 마이크 위치 계산기(993)를 포함한다. 더욱이, 가상 출력 신호를 생성하기 위한 장치는 상술한 실시예 중 하나에 따라 오디오 출력 신호를 생성하기 위한 장치(994)를 포함한다. 오디오 출력 신호를 생성하기 위한 장치(994)에 의해 생성된 출력 신호는 가상 출력 신호 vos이다. 마이크의 위치 결정을 위한 장치(992)의 마이크 위치 계산기(993)는 마이크의 위치를 계산된 마이크 위치 cmp로서 계산하도록 구성된다. 오디오 출력 신호를 생성하기 위한 장치(994)는 마이크의 위치 결정을 위한 장치(992)에 의해 계산되는 계산된 마이크 위치에서 가상 마이크의 기록을 시뮬레이트하도록 구성된다. 이것에 의해, 마이크의 위치 결정을 위한 장치(992)는 오디오 출력 신호를 생성하기 위한 장치(994)에 대한 가상 마이크의 가상 위치를 계산한다.
일부 양태가 장치와 관련하여 설명되었지만, 이러한 양태는 또한 대응하는 방법에 대한 설명을 나타낸다는 것이 자명하며, 여기서, 블록 또는 장치는 방법 단계 또는 방법 단계의 특징에 대응한다. 마찬가지로, 방법 단계와 관련하여 설명된 양태는 또한 대응하는 장치의 대응하는 블록 또는 항목 또는 특징에 대한 설명을 나타낸다.
본 발명의 분해된 신호는 디지털 저장 매체에 저장될 수 있거나 무선 전송 매체와 같은 전송 매체 또는 인터넷과 같은 유선 전송 매체로 전송될 수 있다.
어떤 구현 요구 사항에 따라, 본 발명의 실시예는 하드웨어 또는 소프트웨어에서 구현될 수 있다. 이러한 구현은 디지털 저장 매체, 예를 들어, 플로피 디스크, DVD, CD, ROM, PROM, EPROM, EEPROM 또는 플래시 메모리를 이용하여 수행될 수 있으며, 이러한 디지털 저장 매체는 각각의 방법이 수행되도록 프로그램 가능한 컴퓨터 시스템과 협력하는 (또는 협력할 수 있는) 전자식 판독 가능한 제어 신호를 저장한다.
본 발명에 따른 일부 실시예는 본 명세서에 설명된 방법 중 하나가 수행되도록 프로그램 가능한 컴퓨터 시스템과 협력할 수 있는 전자식 판독 가능한 제어 신호를 가진 비일시적인 데이터 캐리어를 포함한다.
일반적으로, 본 발명의 실시예는 프로그램 코드를 가진 컴퓨터 프로그램 제품으로서 구현될 수 있으며, 이러한 프로그램 코드는 컴퓨터 프로그램 제품이 컴퓨터 상에서 실행할 때에 방법 중 하나를 수행하기 위해 동작 가능하다. 프로그램 코드는 예를 들어 머신 판독 가능한 캐리어 상에 저장될 수 있다.
다른 실시예는 본 명세서에서 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함하며, 이러한 컴퓨터 프로그램은 머신 판독 가능한 캐리어 상에 저장된다.
그래서, 다시 말하면, 본 발명의 방법의 실시예는 컴퓨터 프로그램이 컴퓨터 상에서 실행할 때에 본 명세서에서 설명된 방법 중 하나를 실행하기 위한 프로그램 코드를 가진 컴퓨터 프로그램이다.
그래서, 본 발명의 방법의 추가의 실시예는 본 명세서에서 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 기록한 데이터 캐리어(또는 디지털 저장 매체 또는 컴퓨터 판독 가능한 매체)이다.
그래서, 본 발명의 방법의 추가의 실시예는 본 명세서에서 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 나타내는 데이터 스트림 또는 신호의 시퀀스이다. 데이터 스트림 또는 신호의 시퀀스는 예를 들어 데이터 통신 연결, 예를 들어 인터넷을 통해 전송되도록 구성될 수 있다.
추가의 실시예는 본 명세서에서 설명된 방법 중 하나를 수행하도록 구성되거나 적응되는 처리 수단, 예를 들어 컴퓨터 또는 프로그램 가능한 논리 장치를 포함한다.
추가의 실시예는 본 명세서에서 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 설치한 컴퓨터를 포함한다.
일부 실시예에서, 프로그램 가능한 논리 장치(예를 들어, 필드 프로그램 가능한 게이트 어레이)는 본 명세서에서 설명된 방법의 기능 중 일부 또는 모두를 수행하는데 이용될 수 있다. 일부 실시예에서, 필드 프로그램 가능한 게이트 어레이는 본 명세서에서 설명된 방법 중 하나를 수행하기 위해 마이크로프로세서와 협력할 수 있다. 일반적으로, 이러한 방법은 바람직하게는 어떤 하드웨어 장치에 의해 수행된다.
상술한 실시예는 단지 본 발명의 원리를 위해 예시한 것이다. 본 명세서에서 설명된 배치 및 상세 사항의 수정 및 변형은 당업자에게는 자명한 것으로 이해된다. 그래서, 본 명세서에서 실시예의 설명을 통해 제시된 특정 상세 사항에 의해 제한되지 않고, 첨부한 특허청구범위에 의해서만 제한되는 것으로 의도된다.
[참고 자료]
[1] Michael A. Gerzon. Ambisonics in multichannel broadcasting and video. J. Audio Eng. Soc, 33(11): 859-871, 1985.
[2] V. Pulkki, "Directional audio coding in spatial sound reproduction and stereo upmixing," in Proceedings of the AES 28th International Conference, pp. 251-258, Pitea, Sweden, June 30 - July 2, 2006.
[3] V. Pulkki, "Spatial sound reproduction with directional audio coding," J. Audio Eng. Soc., vol. 55, no. 6, pp. 503-516, June 2007.
[4] C. Faller: “Microphone Front-Ends for Spatial Audio Coders”, in Proceedings of the AES 125th International Convention, San Francisco, Oct. 2008.
[5] M. Kallinger, H. Ochsenfeld, G. Del Galdo, F. Kuch, D. Mahne, R. Schultz-Amling. and O. Thiergart, "A spatial filtering approach for directional audio coding," in Audio Engineering Society Convention 126, Munich, Germany, May 2009.
[6] R. Schultz-Amling, F. Kuch, O. Thiergart, and M. Kallinger, "Acoustical zooming based on a parametric sound field representation," in Audio Engineering Society Convention 128, London UK, May 2010.
[7] J. Herre, C. Falch, D. Mahne, G. Del Galdo, M. Kallinger, and O. Thiergart, "Interactive teleconferencing combining spatial audio object coding and DirAC technology," in Audio Engineering Society Convention 128, London UK, May 2010.
[8] E. G. Williams, Fourier Acoustics: Sound Radiation and Nearfield Acoustical Holography, Academic Press, 1999.
[9] A. Kuntz and R. Rabenstein, "Limitations in the extrapolation of wave fields from circular measurements," in 15th European Signal Processing Conference (EUSIPCO 2007), 2007.
[10] A. Walther and C. Faller, "Linear simulation of spaced microphone arrays using b-format recordings," in Audio Engiineering Society Convention 128, London UK, May 2010.
[11] US61/287,596: An Apparatus and a Method for Converting a First Parametric Spatial Audio Signal into a Second Parametric Spatial Audio Signal.
[12] S. Rickard and Z. Yilmaz, "On the approximate W-disjoint orthogonality of speech," in Acoustics, Speech and Signal Processing, 2002. ICASSP 2002. IEEE International Conference on, April 2002, vol. 1.
[13] R. Roy, A. Paulraj, and T. Kailath, "Direction-of-arrival estimation by subspace rotation methods - ESPRIT," in IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), Stanford, CA, USA, April 1986.
[14] R. Schmidt, “Multiple emitter location and signal parameter estimation,” IEEE Transactions on Antennas and Propagation, vol. 34, no. 3, pp. 276-280, 1986.
[15] J. Michael Steele, "Optimal Triangulation of Random Samples in the Plane", The Annals of Probability, Vol. 10, No.3 (Aug., 1982), pp. 548-553.
[16] F. J. Fahy, Sound Intensity, Essex: Elsevier Science Publishers Ltd., 1989.
[17] R. Schultz-Amling, F. Kuch, M. Kallinger, G. Del Galdo, T. Ahonen and V. Pulkki, "Planar microphone array processing for the analysis and reproduction of spatial audio using directional audio coding," in Audio Engineering Society Convention 124, Amsterdam, The Netherlands, May 2008.
[18] M. Kallinger, F. Kuch, R. Schultz-Amling, G. Del Galdo, T. Ahonen and V. Pulkki, "Enhanced direction estimation using microphone arrays for directional audio coding;” in Hands-Free Speech Communication and Microphone Arrays, 2008. HSCMA 2008, May 2008, pp. 45-48.
[19] R. K. Furness, “Ambisonics - An overview,” in AES 8th International Conference, April 1990, pp. 181-189.
[20] Giovanni Del Galdo, Oliver Thiergart, TobiasWeller, and E. A. P. Habets. Generating virtual microphone signals using geometrical information gathered by distributed arrays. In Third Joint Workshop on Hands-free Speech Communication and Microphone Arrays (HSCMA ’11), Edinburgh, United Kingdom, May 2011.
[21] Ville Pulkki. Spatial sound reproduction with directional audio coding. J. Audio Eng. Soc, 55(6):503-516, June 2007.

Claims (18)

  1. 마이크의 위치 결정을 위한 장치로서,
    환경 내에 배치된 하나 이상의 음원들의 하나 이상의 전력 값들 및 하나 이상의 위치 값들을 나타내는 음원 정보에 기초하여 환경 내의 복수의 위치들에 대한 전력 값들을 나타내는 공간적 전력 밀도를 결정하기 위한 공간적 전력 밀도 결정기(10; 21), 및
    상기 공간적 전력 밀도에 기초하여 마이크의 위치를 추정하기 위한 공간적 정보 추정기(20; 22)를 포함하는데,
    상기 공간적 정보 추정기(20; 22)는 상기 환경 내에서 음 장면(sound scene)의 중심의 위치를 추정하기 위한 음 장면 중심 추정기(41)를 포함하고,
    상기 공간적 정보 추정기(20; 22)는 상기 음 장면의 중심의 위치에 기초하여 상기 마이크의 위치를 결정하기 위한 마이크 위치 계산기(42; 44)를 더 포함하고,
    상기 공간적 정보 추정기(20; 22)는 상기 마이크의 방향을 결정하기 위한 방향 결정기(45)를 포함하고,
    상기 방향 결정기(45)는 상기 공간적 전력 밀도에 기초하여 상기 마이크의 방향을 결정하도록 구성되고,
    상기 공간적 전력 밀도 결정기(10; 21)는 다음의 식을 적용하여 시간-주파수 빈(bin) (k, n)에 대한 상기 환경 내의 복수의 위치들에 대한 전력 값들 Γ(x,y,k,n)을 계산함으로써 상기 공간적 전력 밀도를 결정하도록 구성되거나,
    Figure 112014081112057-pct00127

    ― k는 주파수 인덱스를 나타내고, n은 시간 인덱스를 나타내고, N은 음원들의 수를 나타내고, x, y는 복수의 위치들 중 하나의 좌표들을 나타내고, Poweri(k, n)은 시간-주파수 빈 (k, n)에 대한 제 i 음원에서의 전력 값을 나타내고, xESSi, yESSi는 제 i 음원의 좌표들을 나타내고,
    Figure 112014081112057-pct00128
    는 스칼라 값이며, g는 환경이 이차원 환경일 때 x, y, xESSi, yESSi, k, n 및
    Figure 112014081112057-pct00129
    에 따른 함수임 ―, 또는
    상기 공간적 전력 밀도 결정기(10; 21)는 다음의 식을 적용하여 시간-주파수 빈 (k, n)에 대한 상기 환경 내의 복수의 위치들에 대한 전력값들 Γ(x,y,z,k,n)을 계산함으로써 상기 공간적 전력 밀도를 결정하도록 구성되는,
    Figure 112014081112057-pct00130

    ― k는 주파수 인덱스를 나타내고, n은 시간 인덱스를 나타내고, N은 음원들의 수를 나타내고, x, y, z는 복수의 위치들 중 하나의 좌표들을 나타내고, Poweri(k, n)은 시간-주파수 빈 (k, n)에 대한 제 i 음원에서의 전력 값을 나타내고, xESSi, yESSi, zESSi는 제 i 음원의 좌표들을 나타내고,
    Figure 112014081112057-pct00131
    는 스칼라 값이며, g는 환경이 3차원 환경일 때 x, y, z, xESSi, yESSi, zESSi, k, n 및
    Figure 112014081112057-pct00132
    에 따른 함수임 ―,
    마이크의 위치 결정을 위한 장치.
  2. 제 1 항에 있어서,
    상기 방향 결정기(45)는, 상기 마이크가 상기 음 장면의 중심을 향해 지향되는, 상기 마이크의 방향을 결정하도록 구성되는,
    마이크의 위치 결정을 위한 장치.
  3. 제 1 항에 있어서,
    상기 마이크 위치 계산기(42; 44)는 상기 마이크의 위치를 계산하도록 구성되며, 상기 마이크는 가상 공간적 마이크인,
    마이크의 위치 결정을 위한 장치.
  4. 제 1 항에 있어서,
    상기 음 장면 중심 추정기(41)는 상기 음 장면의 중심을 추정하기 위해 상기 공간적 전력 밀도의 중력 중심을 계산하도록 구성되는,
    마이크의 위치 결정을 위한 장치.
  5. 제 1 항에 있어서,
    상기 음 장면 중심 추정기(41)는 상기 공간적 전력 밀도에 기초하여 전력 지연 프로파일을 결정하고, 상기 환경 내의 복수의 위치들의 각각에 대한 상기 전력 지연 프로파일에 기초하여 평균 제곱근 지연을 결정하도록 구성되고,
    상기 음 장면 중심 추정기(41)는 상기 복수의 위치들의 상기 평균 제곱근 지연들의 최소 평균 제곱근 지연을 갖는 상기 음 장면의 중심으로서 상기 복수의 위치들 중 하나의 위치를 결정하도록 구성되는,
    마이크의 위치 결정을 위한 장치.
  6. 제 1 항에 있어서,
    상기 마이크 위치 계산기(42; 44)는 상기 환경 내의 상기 음 장면의 중심을 통해 복수의 라인들 중 가장 넓은 폭 라인을 결정하도록 구성되고,
    상기 음 장면의 중심을 통한 복수의 라인들의 각각은 에너지 폭과 관련되고, 상기 가장 넓은 폭 라인은 최대 에너지 폭을 가지는 상기 음 장면의 중심을 통한 상기 복수의 라인들 중의 라인으로 정의되며,
    상기 마이크 위치 계산기(42; 44)는 상기 음 장면의 중심 및 상기 마이크의 위치를 통과하는 제 2 라인이 상기 가장 넓은 폭 라인에 직교하도록 상기 마이크의 위치를 결정하도록 구성되는,
    마이크의 위치 결정을 위한 장치.
  7. 제 6 항에 있어서,
    상기 복수의 라인들 중에서 고려되는 라인의 에너지 폭은 상기 고려되는 라인의 세그먼트의 최대폭을 나타내는 ― 상기 세그먼트를 제한하는 세그먼트의 제 1 점 및 상기 세그먼트를 제한하는 세그먼트의 상이한 제 2 점 둘 다는 상기 공간적 전력 밀도에 의해 표시되면서 미리 정의된 전력 값보다 크거나 동일한 전력 값을 가짐 ―,
    마이크의 위치 결정을 위한 장치.
  8. 제 1 항에 있어서,
    상기 마이크 위치 계산기(42; 44)는 특이값 분해(singular value decomposition)를 복수의 열들을 갖는 매트릭스에 적용하도록 구성되고,
    상기 매트릭스의 열들은 상기 음 장면의 중심에 대해 상기 환경 내에서의 위치들 중 위치들을 나타내며,
    상기 매트릭스의 열들은 미리 정의된 임계값보다 큰 상기 공간적 전력 밀도로 표시되는 전력 값들을 가진 위치들 중 위치들만을 나타내거나, 상기 매트릭스의 열들은 미리 정의된 임계값보다 크거나 동일한 상기 공간적 전력 밀도로 표시되는 전력 값들을 가진 위치들 중 위치들만을 나타내는,
    마이크의 위치 결정을 위한 장치.
  9. 가상 출력 신호를 생성하기 위한 장치(991)에 있어서,
    제 1 항 따른 마이크의 위치 결정을 위한 장치(992) ― 상기 마이크의 위치 결정을 위한 장치의 마이크 위치 계산기(993)가 계산된 마이크 위치로서 마이크의 위치를 계산하도록 구성됨 ― , 및
    상기 계산된 마이크 위치에서 가상 마이크의 기록을 시뮬레이트하도록 가상 출력 신호로서 오디오 출력 신호를 생성하기 위한 장치(994)를 포함하며,
    상기 오디오 출력 신호를 생성하기 위한 장치는:
    환경 내에서 음파를 방출하는 음원의 위치를 나타내는 음원 위치를 추정하기 위한 음 이벤트 위치 추정기(110) ― 상기 음 이벤트 위치 추정기(110)는 상기 환경 내에서 제 1 실제 마이크 위치에 위치되는 제 1 실제 공간적 마이크에 의해 제공된 제 1 방향 정보에 기초하면서, 상기 환경 내에서 제 2 실제 마이크 위치에 위치되는 제 2 실제 공간적 마이크에 의해 제공된 제 2 방향 정보에 기초하여, 상기 음원 위치를 추정하도록 구성됨 ―; 및
    상기 제 1 실제 마이크 위치에 기초하면서 상기 계산된 마이크 위치에 기초하여, 상기 제 1 실제 공간적 마이크에 의해 기록되는 제 1 기록된 오디오 입력 신호에 기초하는 상기 오디오 출력 신호를 생성하기 위한 정보 계산 모듈(120)을 포함하는
    가상 출력 신호를 생성하기 위한 장치.
  10. 마이크 위치 결정을 위한 방법으로서,
    환경 내에 배치된 하나 이상의 음원들의 하나 이상의 전력 값들 및 하나 이상의 위치 값들을 나타내는 음원 정보에 기초하여 환경 내의 복수의 위치들에 대한 전력 값들을 나타내는 공간적 전력 밀도를 결정하는 단계, 및
    상기 공간적 전력 밀도에 기초하여 마이크의 위치를 추정하는 단계를 포함하고,
    상기 공간적 전력 밀도에 기초하여 마이크의 위치를 추정하는 단계는 상기 환경 내에서 음 장면(sound scene)의 중심의 위치를 추정하는 것, 그리고, 상기 음 장면의 중심의 위치에 기초하여 상기 마이크의 위치를 결정하는 것에 의해 수행되고,
    상기 공간적 전력 밀도에 기초하여 마이크의 위치를 추정하는 단계는 상기 마이크의 방향을 결정하는 단계를 포함하고, 상기 마이크의 방향을 결정하는 것은 상기 공간적 전력 밀도에 기초하여 상기 마이크의 방향을 결정하는 것에 의해 수행되고,
    상기 공간적 전력 밀도를 결정하는 단계는, 다음의 식을 적용하여 시간-주파수 빈(bin) (k, n)에 대한 상기 환경 내의 복수의 위치들에 대한 전력값들 Γ(x,y,k,n)을 계산함으로써 상기 공간적 전력 밀도를 결정하는 단계를 포함하거나,
    Figure 112014081112057-pct00133

    ― k는 주파수 인덱스를 나타내고, n은 시간 인덱스를 나타내고, N은 음원들의 수를 나타내고, x, y는 복수의 위치들 중 하나의 좌표들을 나타내고, Poweri(k, n)은 시간-주파수 빈 (k, n)에 대한 제 i 음원에서의 전력 값을 나타내고, xESSi, yESSi는 제 i 음원의 좌표들을 나타내고,
    Figure 112014081112057-pct00134
    는 스칼라 값이며, g는 환경이 이차원 환경일 때 x, y, xESSi, yESSi, k, n 및
    Figure 112014081112057-pct00135
    에 따른 함수임 ― ,또는
    상기 공간적 전력 밀도를 결정하는 단계는, 다음의 식을 적용하여 시간-주파수 빈 (k, n)에 대한 상기 환경 내의 복수의 위치들에 대한 전력값들 Γ(x,y,z,k,n)을 계산함으로써 상기 공간적 전력 밀도를 결정하는 단계를 포함하는,
    Figure 112014081112057-pct00136

    ― k는 주파수 인덱스를 나타내고, n은 시간 인덱스를 나타내고, N은 음원들의 수를 나타내고, x, y, z는 복수의 위치들 중 하나의 좌표들을 나타내고, Poweri(k, n)은 시간-주파수 빈 (k, n)에 대한 제 i 음원에서의 전력 값을 나타내고, xESSi, yESSi, zESSi는 제 i 음원의 좌표들을 나타내고,
    Figure 112014081112057-pct00137
    는 스칼라 값이며, g는 환경이 3차원 환경일 때 x, y, z, xESSi, yESSi, zESSi, k, n 및
    Figure 112014081112057-pct00138
    에 따른 함수임 ― ,
    마이크 위치 결정을 위한 방법.
  11. 컴퓨터 판독가능한 매체로서, 상기 컴퓨터 판독가능한 매체는 컴퓨터 또는 프로세서 상에서 실행될 때 제 10 항에 따른 방법을 구현하기 위한 컴퓨터 프로그램을 저장하는, 컴퓨터 판독가능한 매체.
  12. 삭제
  13. 삭제
  14. 삭제
  15. 삭제
  16. 삭제
  17. 삭제
  18. 삭제
KR1020147018347A 2011-12-02 2012-11-29 공간적 전력 밀도에 기초하여 마이크 위치 결정을 위한 장치 및 방법 KR101591220B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP11191828.0 2011-12-02
EP11191828.0A EP2600637A1 (en) 2011-12-02 2011-12-02 Apparatus and method for microphone positioning based on a spatial power density
US13/445,560 US10284947B2 (en) 2011-12-02 2012-04-12 Apparatus and method for microphone positioning based on a spatial power density
US13/445,560 2012-04-12
PCT/EP2012/073906 WO2013079568A1 (en) 2011-12-02 2012-11-29 Apparatus and method for microphone positioning based on a spatial power density

Publications (2)

Publication Number Publication Date
KR20140099536A KR20140099536A (ko) 2014-08-12
KR101591220B1 true KR101591220B1 (ko) 2016-02-03

Family

ID=45218364

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020147018347A KR101591220B1 (ko) 2011-12-02 2012-11-29 공간적 전력 밀도에 기초하여 마이크 위치 결정을 위한 장치 및 방법

Country Status (21)

Country Link
US (1) US10284947B2 (ko)
EP (2) EP2600637A1 (ko)
JP (1) JP5814476B2 (ko)
KR (1) KR101591220B1 (ko)
CN (1) CN104094613B (ko)
AR (1) AR089052A1 (ko)
AU (1) AU2012343907B2 (ko)
BR (1) BR112014013335B1 (ko)
CA (1) CA2857611C (ko)
ES (1) ES2573802T3 (ko)
HK (1) HK1202746A1 (ko)
IN (1) IN2014KN01144A (ko)
MX (1) MX338524B (ko)
MY (1) MY167624A (ko)
PL (1) PL2786593T3 (ko)
PT (1) PT2786593E (ko)
RU (1) RU2589469C2 (ko)
SG (1) SG11201402782VA (ko)
TW (1) TWI558228B (ko)
WO (1) WO2013079568A1 (ko)
ZA (1) ZA201404822B (ko)

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014020921A1 (ja) * 2012-07-31 2014-02-06 独立行政法人科学技術振興機構 物体配置推定装置
GB2521649B (en) * 2013-12-27 2018-12-12 Nokia Technologies Oy Method, apparatus, computer program code and storage medium for processing audio signals
US9042563B1 (en) * 2014-04-11 2015-05-26 John Beaty System and method to localize sound and provide real-time world coordinates with communication
CN104123950B (zh) * 2014-07-17 2015-11-25 努比亚技术有限公司 一种录音方法及装置
US9774974B2 (en) * 2014-09-24 2017-09-26 Electronics And Telecommunications Research Institute Audio metadata providing apparatus and method, and multichannel audio data playback apparatus and method to support dynamic format conversion
CN104794894B (zh) * 2015-01-29 2018-02-27 青岛智能产业技术研究院 一种汽车鸣笛噪声监视装置、系统及方法
US9794721B2 (en) * 2015-01-30 2017-10-17 Dts, Inc. System and method for capturing, encoding, distributing, and decoding immersive audio
EP3070876A1 (en) 2015-03-17 2016-09-21 Telefonica Digital España, S.L.U. Method and system for improving teleconference services
EP3079074A1 (fr) * 2015-04-10 2016-10-12 B<>Com Procédé de traitement de données pour l'estimation de paramètres de mixage de signaux audio, procédé de mixage, dispositifs, et programmes d'ordinateurs associés
CN104811886B (zh) * 2015-04-10 2018-04-17 西安电子科技大学 基于相位差测量的麦克风阵列测向方法
CN104898091B (zh) * 2015-05-29 2017-07-25 复旦大学 基于迭代优化算法的麦克风阵列自校准声源定位系统
US9530426B1 (en) * 2015-06-24 2016-12-27 Microsoft Technology Licensing, Llc Filtering sounds for conferencing applications
US10063987B2 (en) 2016-05-31 2018-08-28 Nureva Inc. Method, apparatus, and computer-readable media for focussing sound signals in a shared 3D space
GB201615538D0 (en) * 2016-09-13 2016-10-26 Nokia Technologies Oy A method , apparatus and computer program for processing audio signals
US9986357B2 (en) 2016-09-28 2018-05-29 Nokia Technologies Oy Fitting background ambiance to sound objects
IT201700040732A1 (it) * 2017-04-12 2018-10-12 Inst Rundfunktechnik Gmbh Verfahren und vorrichtung zum mischen von n informationssignalen
JP2019021966A (ja) * 2017-07-11 2019-02-07 オリンパス株式会社 収音装置および収音方法
SG11202000330XA (en) 2017-07-14 2020-02-27 Fraunhofer Ges Forschung Concept for generating an enhanced sound field description or a modified sound field description using a multi-point sound field description
EP3652737A1 (en) 2017-07-14 2020-05-20 Fraunhofer Gesellschaft zur Förderung der Angewand Concept for generating an enhanced sound-field description or a modified sound field description using a depth-extended dirac technique or other techniques
SG11202000285QA (en) 2017-07-14 2020-02-27 Fraunhofer Ges Forschung Concept for generating an enhanced sound-field description or a modified sound field description using a multi-layer description
PL422711A1 (pl) * 2017-08-31 2019-03-11 Adrian Połaniecki Sposób i urządzenie do detekcji, lokalizowania i identyfikacji pojazdów wytwarzających sygnały akustyczne, a także optyczne, zwłaszcza pojazdów uprzywilejowanych emitujących sygnały akustyczne i/lub świetlne
WO2019149337A1 (en) 2018-01-30 2019-08-08 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatuses for converting an object position of an audio object, audio stream provider, audio content production system, audio playback apparatus, methods and computer programs
GB2572368A (en) * 2018-03-27 2019-10-02 Nokia Technologies Oy Spatial audio capture
WO2019222856A1 (en) * 2018-05-24 2019-11-28 Nureva Inc. Method, apparatus and computer-readable media to manage semi-constant (persistent) sound sources in microphone pickup/focus zones
JP7001566B2 (ja) * 2018-09-04 2022-02-04 本田技研工業株式会社 音響処理装置、音響処理方法、およびプログラム
US11994605B2 (en) 2019-04-24 2024-05-28 Panasonic Intellectual Property Corporation Of America Direction of arrival estimation device, system, and direction of arrival estimation method
CN110223715B (zh) * 2019-05-07 2021-05-25 华南理工大学 一种基于声音事件检测的独居老人家中活动估计方法
CN116978387A (zh) * 2019-07-02 2023-10-31 杜比国际公司 用于离散指向性数据的表示、编码和解码的方法、设备和系统
CN110364161A (zh) * 2019-08-22 2019-10-22 北京小米智能科技有限公司 响应语音信号的方法、电子设备、介质及系统
US11276388B2 (en) * 2020-03-31 2022-03-15 Nuvoton Technology Corporation Beamforming system based on delay distribution model using high frequency phase difference
CN113949967A (zh) * 2020-07-16 2022-01-18 华为技术有限公司 一种会议语音增强的方法、装置和系统
US11483649B2 (en) * 2020-08-21 2022-10-25 Waymo Llc External microphone arrays for sound source localization
GB2602148A (en) * 2020-12-21 2022-06-22 Nokia Technologies Oy Audio rendering with spatial metadata interpolation and source position information
JPWO2022162878A1 (ko) * 2021-01-29 2022-08-04
WO2022260646A1 (en) * 2021-06-07 2022-12-15 Hewlett-Packard Development Company, L.P. Microphone directional beamforming adjustments
CN117268796B (zh) * 2023-11-16 2024-01-26 天津大学 车辆故障声学事件检测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090129609A1 (en) 2007-11-19 2009-05-21 Samsung Electronics Co., Ltd. Method and apparatus for acquiring multi-channel sound by using microphone array
US20140247953A1 (en) 2007-11-21 2014-09-04 Nuance Communications, Inc. Speaker localization
US20150049583A1 (en) 2012-03-23 2015-02-19 Dolby Laboratories Licensing Corporation Conferencing Device Self Test

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3467758A (en) * 1964-03-12 1969-09-16 Baldwin Co D H Multiple speaker sound output system for reducing intermodulation distortion
JP2687613B2 (ja) * 1989-08-25 1997-12-08 ソニー株式会社 マイクロホン装置
FR2682251B1 (fr) 1991-10-02 1997-04-25 Prescom Sarl Procede et systeme de prise de son, et appareil de prise et de restitution de son.
JP3522954B2 (ja) 1996-03-15 2004-04-26 株式会社東芝 マイクロホンアレイ入力型音声認識装置及び方法
JP3344647B2 (ja) * 1998-02-18 2002-11-11 富士通株式会社 マイクロホンアレイ装置
DE60203379T2 (de) * 2001-01-30 2006-01-26 Thomson Licensing S.A., Boulogne Signalverarbeitungstechnik zur geometrischen quellentrennung
US7146315B2 (en) * 2002-08-30 2006-12-05 Siemens Corporate Research, Inc. Multichannel voice detection in adverse environments
EP1606970A1 (en) * 2003-03-21 2005-12-21 Technische Universiteit Delft Circular microphone array for multi channel audio recording
US7362792B2 (en) * 2004-01-12 2008-04-22 Telefonaktiebolaget Lm Ericsson (Publ) Method of and apparatus for computation of unbiased power delay profile
US7522736B2 (en) * 2004-05-07 2009-04-21 Fuji Xerox Co., Ltd. Systems and methods for microphone localization
GB2414369B (en) * 2004-05-21 2007-08-01 Hewlett Packard Development Co Processing audio data
JP4675381B2 (ja) * 2005-07-26 2011-04-20 本田技研工業株式会社 音源特性推定装置
EP1971183A1 (en) 2005-11-15 2008-09-17 Yamaha Corporation Teleconference device and sound emission/collection device
US7565288B2 (en) 2005-12-22 2009-07-21 Microsoft Corporation Spatial noise suppression for a microphone array
CN101779476B (zh) 2007-06-13 2015-02-25 爱利富卡姆公司 全向性双麦克风阵列
JP5686358B2 (ja) 2008-03-07 2015-03-18 学校法人日本大学 音源距離計測装置及びそれを用いた音響情報分離装置
JP5206151B2 (ja) 2008-06-25 2013-06-12 沖電気工業株式会社 音声入力ロボット、遠隔会議支援システム、遠隔会議支援方法
US8923529B2 (en) * 2008-08-29 2014-12-30 Biamp Systems Corporation Microphone array system and method for sound acquisition
CN102308597B (zh) * 2009-02-03 2014-09-17 方头技术有限公司 会议传声系统
GB2476747B (en) * 2009-02-04 2011-12-21 Richard Furse Sound system
EP2249334A1 (en) 2009-05-08 2010-11-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio format transcoder
US8124864B2 (en) 2009-12-04 2012-02-28 Roland Corporation User interface apparatus for displaying vocal or instrumental unit signals in an input musical tone signal
JP5639362B2 (ja) 2010-01-29 2014-12-10 ローランド株式会社 ユーザインターフェイス装置
EP2375779A3 (en) 2010-03-31 2012-01-18 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Apparatus and method for measuring a plurality of loudspeakers and microphone array
KR20120059827A (ko) * 2010-12-01 2012-06-11 삼성전자주식회사 다중 음원 위치추적장치 및 그 위치추적방법
RU2570359C2 (ru) * 2010-12-03 2015-12-10 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Прием звука посредством выделения геометрической информации из оценок направления его поступления
EP2469741A1 (en) * 2010-12-21 2012-06-27 Thomson Licensing Method and apparatus for encoding and decoding successive frames of an ambisonics representation of a 2- or 3-dimensional sound field
US10229697B2 (en) * 2013-03-12 2019-03-12 Google Technology Holdings LLC Apparatus and method for beamforming to obtain voice and noise signals

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090129609A1 (en) 2007-11-19 2009-05-21 Samsung Electronics Co., Ltd. Method and apparatus for acquiring multi-channel sound by using microphone array
US20140247953A1 (en) 2007-11-21 2014-09-04 Nuance Communications, Inc. Speaker localization
US20150049583A1 (en) 2012-03-23 2015-02-19 Dolby Laboratories Licensing Corporation Conferencing Device Self Test

Also Published As

Publication number Publication date
WO2013079568A1 (en) 2013-06-06
BR112014013335B1 (pt) 2021-11-23
EP2786593A1 (en) 2014-10-08
ZA201404822B (en) 2015-12-23
US10284947B2 (en) 2019-05-07
CA2857611C (en) 2017-04-25
TW201330648A (zh) 2013-07-16
BR112014013335A2 (pt) 2021-01-26
EP2786593B1 (en) 2016-04-27
RU2589469C2 (ru) 2016-07-10
JP5814476B2 (ja) 2015-11-17
MX2014006499A (es) 2014-08-18
RU2014126819A (ru) 2016-02-10
ES2573802T3 (es) 2016-06-10
CN104094613B (zh) 2017-06-09
CA2857611A1 (en) 2013-06-06
PL2786593T3 (pl) 2016-10-31
MY167624A (en) 2018-09-20
EP2600637A1 (en) 2013-06-05
KR20140099536A (ko) 2014-08-12
AU2012343907A1 (en) 2014-07-17
JP2015502716A (ja) 2015-01-22
PT2786593E (pt) 2016-06-24
CN104094613A (zh) 2014-10-08
AR089052A1 (es) 2014-07-23
AU2012343907B2 (en) 2015-12-10
SG11201402782VA (en) 2014-06-27
MX338524B (es) 2016-04-20
TWI558228B (zh) 2016-11-11
HK1202746A1 (zh) 2015-10-02
US20130142342A1 (en) 2013-06-06
IN2014KN01144A (ko) 2015-10-16

Similar Documents

Publication Publication Date Title
KR101591220B1 (ko) 공간적 전력 밀도에 기초하여 마이크 위치 결정을 위한 장치 및 방법
TWI530201B (zh) 經由自抵達方向估值提取幾何資訊之聲音擷取技術
US10334357B2 (en) Machine learning based sound field analysis
JP6086923B2 (ja) 幾何学配置に基づく空間オーディオ符号化ストリームを統合する装置および方法
KR101510576B1 (ko) 방향 정보를 도출하는 장치 및 방법과 컴퓨터 프로그램 제품

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20200120

Year of fee payment: 5