KR101688354B1 - 신호 소스 분리 - Google Patents

신호 소스 분리 Download PDF

Info

Publication number
KR101688354B1
KR101688354B1 KR1020157018339A KR20157018339A KR101688354B1 KR 101688354 B1 KR101688354 B1 KR 101688354B1 KR 1020157018339 A KR1020157018339 A KR 1020157018339A KR 20157018339 A KR20157018339 A KR 20157018339A KR 101688354 B1 KR101688354 B1 KR 101688354B1
Authority
KR
South Korea
Prior art keywords
signal
microphone
signals
acoustic
components
Prior art date
Application number
KR1020157018339A
Other languages
English (en)
Other versions
KR20150093801A (ko
Inventor
데이비드 윈게이트
노아 스테인
Original Assignee
아나로그 디바이시즈 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 아나로그 디바이시즈 인코포레이티드 filed Critical 아나로그 디바이시즈 인코포레이티드
Publication of KR20150093801A publication Critical patent/KR20150093801A/ko
Application granted granted Critical
Publication of KR101688354B1 publication Critical patent/KR101688354B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/003Mems transducers or their use
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
    • H04R2430/21Direction finding using differential microphone array [DMA]

Abstract

일 측면에서, 요망되는 소스로부터 신호가 분리되는 다수 신호들을 획득하기 위해, 밀접하게 이격된 요소들을 가진 마이크로폰이 사용된다. 신호 분리 접근법은 관심 소스로부터 신호에 대한 및/또는 간섭 신호들에 대한 구조 정보뿐만 아니라, 도달 방향 정보, 혹은 획득된 신호들 간에 위상, 지연, 및 진폭과 같은 변동으로부터 결정된 다른 정보의 조합을 사용한다. 정보의 이 조합을 통해, 요소들은 통상의 빔포밍 접근법에 대해 효과적이었을 것보다 더 밀접하게 이격될 수 있다. 일부 예에서, 모든 마이크로폰 요소들은 단일의 마이크로-전기-기계 시스템 (MEMS)에 통합된다.

Description

신호 소스 분리{SIGNAL SOURCE SEPARATION}
관련출원에 대한 상호참조
이 출원은 각각을 참조로 본원에 포함시키는 다음 출원에 대한 우선권을 주장한다:
ㆍ 2013년 2월 13일에 출원된 "SIGNAL SOURCE SEPARATION" 명칭의 미국 가 출원번호 61/764,290;
ㆍ 2013년 3월 15일에 출원된 "SIGNAL SOURCE SEPARATION" 명칭의 미국 가 출원번호 61/788,521;
ㆍ 2013년 9월 24일에 출원된 "TIME-FREQUENCY DIRECTIONAL FACTORIZATION FOR SOURCE SEPARATION" 명칭의 미국 가 출원번호 61/881,678;
ㆍ 2013년 9월 24일에 출원된 "SOURCE SEPARATION USING DIRECTION OF ARRIVAL HISTOGRAMS" 명칭의 미국 가 출원번호 61/881,709;
ㆍ 2013년 12월 23일에 출원된 "SMOOTHING TIME-FREQUENCY SOURCE SEPARATION MASKS" 명칭의 미국 가 출원번호 61/919,851; 및
ㆍ 2013년 12월 23일에 출원된 "SIGNAL SOURCE SEPARATION" 명칭의 미국 출원 14/138,587.
이 출원은 또한, 참조로 본원에 포함시키는 2013년 9월 17일에 출원된 "SIGNAL SOURCE USING A CIRCULAR MODEL" 명칭의 국제 출원번호 PCT/US2013/060044에 관계되지만, 그러나 이의 출원일의 혜택을 주장하지는 않는다.
이 발명은 소스 신호들을 분리하는 것에 관한 것으로, 특히 다수-마이크로폰 시스템에서 다수의 오디오 소스들을 분리하는 것에 관한 것이다.
오디오 신호들이 다수 마이크로폰에 의해 수신되는 환경에는 다수의 소리 소스들이 있을 수 있다. 소스들을 국부화, 분리, 및/또는 추적하는 것은 다수의 응용들에서 유용할 수 있다. 예를 들어, 다수-마이크로폰 보청기에서, 다수의 소스 중 하나는 보청기의 사용자에게 제공되는 신호를 가진 요망되는 소스로서 선택될 수 있다. 요망되는 소스가 마이크로폰 신호들에서 더 잘 분리될수록, 요망되는 신호의 사용자의 인지는 더 나아져, 바라건대 더 큰 명료성, 더 낮은 피로, 등을 제공한다.
다수의 마이크로폰 신호를 사용하여 관심 소스로부터 신호를 분리하는 한 일반적인 접근법은 빔포밍이며, 이는 마이크로폰 시스템에 방향 감도를 제공하기 위해 한 파장 혹은 그 이상 정도의 거리만큼 이격된 다수의 마이크로폰들을 사용한다. 그러나, 빔포밍 접근법은 예를 들면, 마이크로폰의 부적당한 격리에 의해 제한될 수 있다.
일단의 획득된 신호들로부터 소스 분리를 위해 양귀의(마이크로폰간을 포함하는) 위상 차이(IPD)가 사용되어졌다. DUET(Degenerate Unmixing Estimation Technique)로 단지 IPD 및 양귀 레벨 차이(interaural level differences)(ILD)를 사용하여 블라인드 소스 분리가 가능함을 보였다. DUET는 분리될 소스들이 W-디스조인트 직교성을 나타내는 조건에 의존한다. 이러한 직교성은 혼합 단-시간 푸리에 변환(STFT)의 각 시간-주파수 빈에 에너지가 단일 소스에 의해 지배되는 것으로 가정됨을 의미한다. 혼합 STFT은 j번째 소스에 할당된 빈들만이 이를 재건하기 위해 사용되게 디스조인트 세트들로 분할될 수 있다. 이론적으로, 소스들이 W-디스조인트 직교인 한, 완벽한 분리가 달성될 수 있다. 스피치 신호들이 근사적으로만 직교할지라도 실제로는 양호한 분리가 달성될 수 있다.
단일의 획득된 신호(즉, 단일의 마이크로폰으로부터), 예를 들면 오디오 신호로부터 소스 분리는 신호의 시간 대 주파수 표현을 분해(decompose)함으로써 요망되는 신호의 구조를 사용하여 해결되어졌다. 한 이러한 접근법은 신호의 시간 대 주파수 행렬 표현(예를 들면, 에너지 분포)의 음이 아닌 엔트리들의 음의 아닌 행렬 인수분해를 사용한다. 이러한 분석의 한 산물은 관심 소스 신호(즉, 요망되는 소스로부터의 신호)를 근사화하는 신호를 추출하기 위해 사용될 수 있는 시간 대 주파수 마스크(예를 들면, 2진 마스크)일 수 있다. 유사한 접근법은 소스의 신호의 주파수 분포를 한 세트의 프로토타입적 스펙트럼 특징들(예를 들면, 주파수에 대한 에너지의 분포)의 혼합으로서 모델링하는 혼합 모델을 사용하여 요망되는 소스의 모델링에 기초하여 개발되어졌다.
일부 기술들에서, 소스의 신호의 "명료한" 예는 열화된(예를 들면, 노이즈성) 신호에서 소스의 신호를 식별하는데 사용되어질 특징들(예를 들면, 프로토타입적 스펙트럼 특징들의 추정)을 결정하기 위해 사용된다. 일부 기술들에서, "비감독" 접근법은 열화된 신호 자체로부터 프로토타입적 특징들을 추정하거나, 혹은 "반-감독" 접근법에서는 열화된 신호로부터 사전에 결정된 프로토타입을 적응시킨다.
2 이상의 소스가 있는 단일의 획득된 신호로부터 소스들을 분리하는 접근법은 유사한 분해 기술들을 사용하였다. 일부 이러한 접근법에서, 각 소스는 상이한 한 세트의 프로토타입적 스펙트럼 특징들에 연관된다. 그러면, 다수-소스 신호는 어느 시간/주파수 성분들이 관심 소스에 연관되는지를 결정하기 위해 분석되고, 신호의 이 부분은 요망되는 신호로서 추출된다.
단일의 획득된 신호로부터 단일의 소스의 분리에서와 같이, 프로토타입적 스펙트럼 특징들을 사용하여 다수-소스 분리를 위한 일부 접근법은 예를 들면 파라미터적 확률적 모델을 신호들 중 하나 이상에 피팅(fit)하기 위해서, 신호의 비감독 분석(예를 들면, 예상-최대화(EM) 알고리즘, 혹은 다수 소스에 대해 조인트 은닉 마코프 모델 훈련을 포함한 변체들을 사용하여)을 이용한다.
시간-주파수 마스크를 형성하는 그외 다른 접근법은 또한, 오디오를 업믹싱하고, "오디오 장면 분석" 및/또는 요망되는 소스의 특징들의 사전 지식을 사용하여 요망되는 소스의 선택을 위해 사용되어졌다.
요약
일 측면에서, 일반적으로, 요망되는 소스로부터 신호가 분리되는 다수 신호들을 획득하기 위해, 밀접하게 이격된 요소들을 가진 마이크로폰이 사용된다. 예를 들면, 요망되는 소스로부터 신호는 배경 노이즈로부터 혹은 특정한 간섭 소스들로부터의 신호들로부터 분리된다. 신호 분리 접근법은 관심 소스로부터 신호에 대한 및/또는 간섭 신호들에 대한 구조 정보뿐만 아니라, 도달 방향 정보, 혹은 획득된 신호들 간에 위상, 지연, 및 진폭과 같은 변동으로부터 결정된 다른 정보의 조합을 사용한다. 정보의 이 조합을 통해, 요소들은 통상의 빔포밍 접근법에 대해 효과적이었을 것보다 더 밀접하게 이격될 수 있다. 일부 예에서, 모든 마이크로폰 요소들은 단일의 마이크로-전기-기계 시스템(MEMS)에 통합된다.
또 다른 측면에서, 일반적으로, 어쿠스틱 신호에서 소스에 따라 신호 분리를 위한 오디오 신호 분리 시스템은 마이크로-전기-기계 시스템(MEMS) 마이크로폰 유닛을 포함한다. 마이크로폰 유닛은 다수의 어쿠스틱 포트를 포함한다. 각 어쿠스틱 포트는 마이크로폰 유닛에 관한 공간적 위치에 어쿠스틱 환경을 감지하기 위한 것이다. 적어도 일부 예에서, 공간적 위치들 간에 최소 간격은 3 밀리미터 미만이다. 마이크로폰 유닛은 또한 다수의 마이크로폰 요소들을 포함하고, 각각은 상기 어쿠스틱 포트의 공간적 위치에 어쿠스틱 환경에 기초하여 신호를 획득하기 위해 다수의 어쿠스틱의 어쿠스틱 포트에 결합된다. 마이크로폰 유닛은 대표적인 획득된 신호 및 마이크로폰 요소들에 의해 획득된 신호들 간에 변동을 나타내는 하나 이상의 마이크로폰 신호들을 함께 제공하게 구성된 마이크로폰 요소들에 결합된 회로를 더 포함한다.
측면은 다음 특징들 중 하나 이상을 포함할 수 있다.
하나 이상의 마이크로폰 신호들은 다수의 마이크로폰 신호들을 포함하고, 각 마이크로폰 신호는 상이한 마이크로폰 요소에 대응한다.
마이크로폰 유닛은 다수의 아날로그 인터페이스들을 더 포함하고, 각 아날로그 인터페이스는 다수의 마이크로폰 신호들의 한 아날로그 마이크로폰 신호를 제공하게 구성된다.
하나 이상의 마이크로폰 신호는 마이크로폰 유닛의 회로에 형성된 디지털 신호를 포함한다.
하나 이상의 획득된 신호들 간에 변동은 다수의 스펙트럼 성분들 각각에 대해 획득된 신호들 간에 상대적 위상 변동 및 상대적 지연 변동 중 적어도 하나를 나타낸다. 일부 예에서, 스펙트럼 성분들은 서로 구별되는 주파수들 또는 주파수 범위들을 나타낸다. 다른 예에서, 스펙트럼 성분들은 켑스트럼 분해 혹은 웨이브렛 변환에 기초할 수 있다.
마이크로폰 요소들의 공간적 위치들은 공면 위치이다. 일부 예에서, 공면 위치는 위치들의 규칙적인 격자를 포함한다.
MEM 마이크로폰 유닛은 다수의 표면을 갖는 패키지를 가지며, 어쿠스틱 포트는 패키지의 다수의 면 상에 있다.
신호 분리 시스템은 다수의 MEMS 마이크로폰 유닛을 갖는다.
신호 분리 시스템은 마이크로폰 유닛으로부터 하나 이상의 마이크로폰 신호를 처리하고 획득된 신호들 간에 변동 및 하나 이상의 소스의 신호 구조로부터 결정된 정보를 사용하여 대표적인 획득된 신호로부터 상기 신호의 대응하는 하나 이상의 소스들에 따라 분리된 하나 이상의 신호들을 출력하게 구성된 마이크로폰 유닛에 결합된 오디오 프로세서를 갖는다.
오디오 프로세서를 구현하는 적어도 일부 회로는 마이크로폰 유닛의 MEMS 과 통합된다.
마이크로폰 유닛 및 오디오 프로세서는 함께 키트를 형성하고, 각각은 오디오 신호 분리 시스템의 동작에서 서로 통신하게 구성된 통합된 장치로서 구현된다.
하나 이상의 소스들의 신호 구조는 음성 신호 구조를 포함한다. 일부 예에서, 이 음성 신호 구조는 개인에 특정하며, 혹은 대안적으로, 구조는 한 부류의 개인들 혹은 특정하고하이브리드의 구조의 하이브리드에 일반적이다.
오디오 프로세서는 획득된 신호들 간에 특징적 변동을 나타내는 데이터를 계산하고 대표적인 획득된 신호의 성분들을 특징적 변동에 따라 선택함으로써 신호들을 처리하게 구성된다.
신호의 선택된 성분들은 상기 성분들의 시간 및 주파수에 의해 특징화된다.
오디오 프로세서는 시간 및 주파수에 의해 인덱스된 값들을 갖는 마스크를 계산하게 구성된다. 성분들을 선택하는 것은 오디오 프로세서에 의해 출력되는 신호들 중 적어도 하나를 형성하기 위해 마스크 값들을 대표적인 획득된 신호와 조합하는 것을 포함한다.
획득된 신호들 간에 특징적 변동을 나타내는 데이터는 도달 방향 정보를 포함한다.
오디오 프로세서는 상기 소스의 신호 구조를 사용하여 하나 이상의 소스들 중 적어도 하나에 연관된 성분들을 식별하게 구성된 모듈을 포함한다.
성분들을 식별하게 구성된 모듈은 확률적 추론 접근법을 구현한다. 일부 예에서, 확률적 추론 접근법은 빌리프 전파 접근법을 포함한다.
성분들을 식별하게 구성된 모듈은 오디오 프로세서로부터 출력된 신호를 형성하기 위한 성분들을 선택하기 위해 마이크로폰들로부터 신호들의 다수의 성분들의 도달 방향 추정들을 조합하게 구성된다.
성분들을 식별하게 구성된 모듈은 도달 방향 추정들에 연관된 신뢰 값들을 사용하게 구성된다.
성분들을 식별하게 구성된 모듈은 신호들의 요망되는 성분들을 식별함에 있어 사용을 위해 외부 정보를 받아들이기 위한 입력을 포함한다. 일부 예에서, 외부 정보는 사용자에 의해 제공된 정보를 포함한다. 예를 들면, 사용자는 음성 신호가 획득되고 있는 화자, 분리된 음성 신호를 수신하고 있는 원단 사용자, 혹은 이외 어떤 다른 사람일 수 있다.
오디오 프로세서는 강화된 신호를 형성하기 위해 시간 및 주파수에 의해 특징화된 식별된 성분들에 따라 마이크로폰들로부터 신호들 중 하나 이상을 처리하기 위한 신호 재건 모듈을 포함한다. 일부 예에서, 신호 재건 모듈은 제어가능한 필터 뱅크를 포함한다.
또 다른 측면에서, 일반적으로, 마이크로-전기-기계 시스템(MEMS) 마이크로폰 유닛은 복수의 독립적인 마이크로폰 요소들을 3 밀리미터 미만의 포트들 사이의 최소 간격을 가진 대응하는 복수의 포트들과 함께 포함하고, 각 마이크로폰 요소는 마이크로폰 유닛으로부터 제공된 개별적으로 액세스할 수 있는 신호를 발생한다.
측면들은 다음 특징들 중 하나 이상을 포함할 수 있다.
각 마이크로폰 요소는 대응하는 어쿠스틱 포트에 연관된다.
마이크로폰 요소들 중 적어도 일부는 유닛 내에 백볼륨을 공유한다.
MEMS 마이크로폰 유닛은 유닛의 어쿠스틱 포트들에서 수신된 어쿠스틱 신호들을 나타내는 전기 신호들을 제공하기 위해 마이크로폰 요소들에 결합된 신호 처리 회로를 더 포함한다.
또 다른 측면에서, 일반적으로, 다수-마이크로폰 시스템은 모노리식 장치 상에 한 세트의 밀접하게 이격된(예를 들면, 스퀘어 배열로 1.5-2.0 mm 간격) 마이크로폰들, 예를 들면, 공통의 혹은 파티션된 백볼륨과 함께, 단일 기판 상에 4개의 MEMS 마이크로폰을 사용한다. 밀접한 간격 때문에, 위상 차이 및/또는 도달 방향 추정들은 노이즈성일 수 있다. 이들 추정은 덜 "노이즈성"(예를 들면, 부가성 노이즈 신호 혹은 모델링되지 않은 영향에 기인한) 추정 -이로부터 시간-주파수 마스크가 건조된다-을 제공하기 위해 확률적 추론(예를 들면, 빌리프 전파(B.P.) 혹은 반복적 알고리즘)을 사용하여 처리된다.
B.P.은 이산 변수들(예를 들면, 한 세트의 섹터에의 도달 방향을 양자화)을 사용하여 구현될 수 있다. 이산 팩터 그래프는 예를 들면, 참조로 본원에 포함시키는 US2012/0317065A1 "PROGRAMMABLE PROBABILITY PROCESSING"에 기술된 바와 같은 하드웨어 가속기를 사용하여 구현될 수 있다.
팩터 그래프는 도달 방향 추정들과 함께, 추정되는 소스 특징들(예를 들면, 피치, 스펙트럼, 등)에 관계된 은닉 (레이턴트) 변수들을 포함한, 다양한 측면들을 포함할 수 있다. 팩터 그래프는 시간 및 주파수에 걸쳐 변수들을 포함하고, 그럼으로써 도달 방향 추정들을 개선하며, 이에 따라 이것은 음악적 노이즈와 같은 아티팩트를 감소시킬 수 있는, 마스크의 품질을 개선한다.
팩터 그래프/B.P. 계산은 다수의 마이크로폰 입력들을 처리하는 동일 신호 처리 칩 상에 호스트될 수 있고, 그럼으로써 저 파워 구현을 제공할 수 있다. 저 파워는 트리거 단어에 대한 모니터링과 같은, 배터리로 동작되는 "오픈 마이크로폰" 응용을 가능하게 할 수 있다.
일부 구현예에서, B.P. 계산은 시간 영역 필터뱅크(예를 들면, 미트라 노치 필터로 구현되는)을 제어하는 도달 방향 값의 예측성 추정을 제공하며, 그럼으로써 신호 경로 상에 낮은 레이턴시(스피커폰과 같은 응용에 바람직한)를 제공한다.
응용은 스마트폰을 위한 스피커폰 모드, 보청기, 자동차 음성 제어, 가전제품(예를 들면, 텔레비전, 마이크로웨이브) 제어 및 이외 다른 통신 혹은 자동화된 스피치 처리(예를 들면, 스피치 인식) 작업들을 위한 신호 처리를 포함한다.
하나 이상의 측면들의 잇점들은 다음을 포함할 수 있다.
접근법은 매우 밀접하게 이격된 마이크로폰, 및 통상적인 빔포밍 접근법엔 적합하지 않은 다른 배열을 이용할 수 있다.
기계 학습 및 확률적 그래픽적 모델링 기술은 고 수행(예를 고 수준의 신호 강화, 출력 신호 상에 스피치 인식 정확성, 가상 어시스턴트 명료성, 등)을 제공할 수 있다.
접근법은 자동 스피치 인식의 오류율을 감소시키며, 이동전화(스마트폰) 상에 스피커폰 모드에서 명료성을 개선하며, 콜 모드에서 명료성을 개선하며, 및/또는 구두 웨이크업에 오디오 입력을 개선할 수 있다. 접근법은 또한 장치 환경 인식을 위한 지능형 센서 처리를 가능하게 할 수 있다. 접근법은 특히 윈드 노이즈에 의해 야기되는 신호 열화에 맞출 수 있다.
일부 스피치 인식이 장치로부터 원격으로 수행되는 클라이언트-서버 스피치 인식 아키텍처에서, 접근법은 낮은 레이턴시(즉 핸드셋에선 더 많으나, 클라우드에선 덜한)을 가진 자동 스피치 인식을 개선할 수 있다.
접근법은 예를 들면, 소프트웨어로서, 알고리즘 통합을 가능하게 하는 융통성있는 아키텍처를 갖는 매우 낮은 파워의 오디오 프로세서로서 구현될 수 있다. 프로세서는 진보된 알고리즘을 위한 통합된 하드웨어 가속기, 예를 들면, 확률적 추론 엔진, 저 파워 FFT, 저 레이턴시 필터뱅크, 및 멜 주파수 켑스트럼 계수(MFCC) 계산 모듈을 포함할 수 있다.
마이크로폰의 밀접한 간격은 매우 작은 패키지, 예를 들면, 5 x 6 x 3mm에 통합할 수 있게 한다.
발명의 다른 특징 및 잇점은 다음 설명으로부터, 그리고 청구항들로부터 명백해진다.
도 1은 소스 분리 시스템의 블록도이다.
도 2a는 스마트폰 응용도이다.
도 2b는 자동차 응용도이다.
도 3은 도달 방향 계산의 블록도이다.
도 4a-도 4c는 오디오 처리 시스템를 도시한 것이다.
도 5는 흐름도이다.
일반적으로, 본원에 기술되는 다수의 실시예는 오디오 신호를 수신하고(예를 들면, 어쿠스틱 신호를 획득하는), 예를 들면, 추출된 오디오 신호를 통신 시스템(예를 들면, 전화 네트워크)을 통해 통신하거나, 기계-기반의 분석(예를 들면, 자동 스피치 인식 및 자연 언어 이해)을 사용하여 처리할 목적을 위해서, 한 특정 소스로부터 신호를 분리(예를 들면, 추출, 식별)하기 위해 신호들을 처리하는 문제에 대한 것이다. 도 2a-도 2b를 참조하면, 이들 접근법의 응용은 다수의 요소(112)를 가진(선택적으로 하나 이상의 추가의 다수-요소 마이크로폰(110A)을 포함하는) 마이크로폰(110)을 사용하여 사용자의 음성 신호의 획득 및 처리를 위해 스마트폰(210)과 같은 개인용 계산 장치에서, 혹은 운전자의 음성 신호를 처리하는 차량(250)에서, 발견될 수 있다. 이하 더 기술되는 바와 같이, 마이크로폰(들)은 신호를 아날로그-디지털 변환기(132)에 보내고, 이어 신호는 신호 처리 유닛(120)을 구현하며, 프로세서(212)를 사용하여 구현될 수 있거나 일부 실시예에서 적어도 부분적으로 전용 회로 혹은 원격 서버(220)에 구현될 수 있는 추론 프로세서(140)을 이용하는, 프로세서(212)를 사용하여 처리된다. 일반적으로, 관심 소스로부터 요망되는 신호는 획득된 마이크로폰 신호들 내 다른 간섭 신호가 혼입된다. 간섭 신호의 예는 다른 화자 및/또는 차량 윈드 혹은 도로 노이즈와 같은 환경 노이즈로부터 음성 신호를 포함한다. 일반적으로, 본원에 기술된 신호 분리를 위한 접근법은 여러 실시예에서, 신호 강화, 소스 분리, 노이즈 감소, 비선형 빔포밍, 및/또는 수신된 혹은 획득된 어쿠스틱 신호에 대한 그외 다른 수정을 포함 혹은 구현하는 것으로 이해되어야 한다.
요망되는 소스로부터의 신호를 간섭 신호로부터 분리하기 위해 사용될 수 있는 정보는 관심 소스로부터 신호에 대한 및/또는 간섭 신호들에 대한 예상된 구조적 정보 뿐만 아니라, 도달 방향 정보를 포함한다. 도달 방향 정보는 소스와 다수의 물리적으로 이격된 어쿠스틱 센서들(예를 들면, 마이크로폰 요소들) 각각 사이에 신호 전파 시간에서의 차이들에 관계된 상대적 위상 또은 지연 정보를 포함한다.
이하 용어에 관하여, "마이크로폰"이라는 용어는, 일반적으로, 예를 들면, 예로서, 어쿠스틱 포트들을 통해 어쿠스틱 환경에 결합되는 움직이는 마이크로-기계 다이아프램을 갖는 요소를 가진, 마이크로-전기-기계 시스템(MEMS)으로서 만들어진, 마이크로폰의 실제 실시예를 지칭할 뿐만 아니라, 한 점에서 소리를 측정하는 이상화된 어쿠스틱 센서를 지칭하기 위해 사용된다. 물론, 그외 다른 마이크로폰 기술(예를 들면, 광학-기반의 어쿠스틱 센서)이 사용될 수도 있다.
단순화한 예로서, 2개의 마이크로폰이 거리(d)만큼 이격된다면, 90도에 소스로부터 이들 사이의 라인에 직접 도달하는 신호는 상대적 위상 또는 지연없이 수신될 것이며, 반면 θ = 45도에 먼 소스로부터 도달하는 신호는 l=d sinθ의 경로 차이를 가지며, 그러면, 전파 시간에서의 차이는 l/c이 되고, c는 소리의 속도(20도 온도에서 343m/s)이다. 따라서, d=3mm만큼 이격된 마이크로폰들 및 θ=45도의 입사각에 대한 상대적 지연은 약 (d sin θ)/c = 6 ms이며, 파장 λ에 대해선 φ = 2πl/λ = (2nd/λ) sinθ의 위상 차이에 대응한다. 예를 들어, d=3mm의 이격, 및 λ=343mm의 파장(예를 들어, 1000 Hz 신호의 파장)에 있어서, 위상 차이는 φ=0.038 라디안, 또는 φ=2.2도이다. 시변 입력 신호에서 이러한 작은 지연 혹은 위상 차이의 추정은 상대적으로 큰 오류(추정 노이즈)를 갖는 시간 및 주파수에서의 로컬 추정을 초래할 수 있음이 인식될 것이다. 더 크게 이격된 경우, 지연 및 상대적 위상은 증가하는데, 마이크로폰 요소들이 d=3mm가 아니라 d=30mm만큼 이격되었다면 위에 예에서 위상 차이는 φ= 2.2도가 아니라 φ=22도가 될 것임에 유의한다. 그러나, 이하 논의된 바와 같이, 마이크로폰 요소들을 밀접하게 이격시킴으로써 더 큰 위상 차이를 능가할 수 있어 더 쉽게 추정될 수 있는 잇점이 있다. 또한, 더 높은 주파수(예를 들면, 초음파)에서, 45도 입사각에서 100kHz 신호는 약 φ=220도의 위상 차이를 가지며, 이는 d=3mm 센서 이격에서도 더 쉽게 추정될 수 있음에 유의한다.
도달 방향이 2개의 자유도(예를 들면, 어지무스 각도 및 엘리베이션 각도)를 갖는다면, 도달 방향(개념적으로 마이크로폰의 평면의 양측에 하나씩, 2개의 이미지들 중 하나 내에)을 결정하기 위해 3개의 마이크로폰이 필요하다.
실제로, 다수의 마이크로폰에 수신되는 신호의 상대적 위상은 위에 기술된 유형의 이상화된 모델에 반드시 따르는 것은 아님이 이해될 것이다. 그러므로, 본원에서 도달 방향 정보라는 용어가 사용될 때, 위에 소개된 단순화한 모델에 따르지 않을지라도, 소스 위치에서 다수의 마이크로폰 요소들로의 신호 경로들 간에 변동을 나타내는 정보를 포함하는 것으로 넓게 이해되어야 한다. 예를 들면, 적어도 일 실시예에 관련하여 이하 논의되는 바와 같이, 도달 방향 정보는 마이크로폰에 관한 한 특정 위치에 한 특정 소스의 시그내처인 상대적 위상의 패턴이 단순화한 신호 전파 모델에 따르지 않을지라도, 이 패턴을 포함할 수 있다. 예를 들면, 소스에서 마이크로폰들로의 어쿠스틱 경로들은 어쿠스틱 포트의 형상, 장치의 면 상에 포트들의 함몰(예를 들면, 스마트폰의 페이스플레이트), 장치의 바디에 의한 폐색(예를 들면, 장치 뒤에 소스), 소스의 거리, 반사(예를 들면, 실내 벽들로부터) 및 어쿠스틱 전파의 당업자가 인식하는 그외 다른 팩터들에 의해 영향을 받을 수 있다.
신호 분리를 위한 정보의 또 다른 소스는 관심 신호의 구조 및/또는 간섭 소스들의 구조에서 온다. 구조는 소스의 소리 생성 측면들의 이해에 기초하여 알려질 수 있고 및/또는 예를 들면 시스템의 동작 동안 실험적으로 결정될 수도 있다. 스피치 소스의 구조의 예는 이를테면 발음된 스피치 동안 주기 여기(period excitation(에 기인한 하모닉 스펙트럼 구조의 존재, 마찰음 및 파열음 동안 광대역 노이즈-유사 여기, 및 예를 들면, 특징적 포만트(즉, 공진) 피크들을 갖고, 특정 스피치-유사 특징들을 가진 스펙트럼 엔벨로프와 같은 측면들을 포함할 수 있다. 스피치 소스는 또한 예를 들면, 스피치의 구체적 포네틱 내용에 기초한 시간-구조(즉, 발성된 특정 단어들의 어쿠스틱-포네틱 구조)를 가질 수도 있고, 혹은 더 일반적으로, 발성된 언어의 카덴스 및 특징적 타이밍 및 어쿠스틱-포네틱 구조를 포함한 더 조악한 특질을 가질 수도 있다. 비-스피치 소리 소스는 기지의 구조를 가질 수도 있다. 자동차 예에서, 도로 노이즈는 속도와 같은 운전 조건의 함수일 수 있는, 특징적인 스펙트럼 형상을 가질 수 있고, 혹은 폭풍우 동안 윈드쉴드 와이퍼는 특징적인 주기적 특질을 가질 수 있다. 실험적으로 추론될 수 있는 구조는 화자(예를 들면, 관심 화자 혹은 간섭 화자의 피치 혹은 전체 스펙트럼 분포)의 특정한 스펙트럼 특징들, 혹은 간섭 노이즈 소스(예를 들면, 실내 공조기)의 스펙트럼 특징을 포함할 수 있다.
이하 다수의 실시예는 비교적 밀접하게 이격된 마이크로폰들(예를 들면, d≤3mm)을 이용한다. 이 밀접한 이격은 시간 및 주파수의 함수로서 도달 방향의 비교적 신뢰할 수 없는 추정들을 야기할 수 있다. 이러한 도달 방향 정보는 단독으로는 이의 도달 방향에 기초하여 요망되는 신호의 분리엔 적절하지 않을 수 있다. 신호들의 구조 정보 또한 단독으로는 이의 구조 혹은 간섭 신호들의 구조에 기초하여 요망되는 신호의 분리엔 적합하지 않을 수 있다.
다수의 실시예는 소스 분리를 위해 도달 방향 정보 및 소리 구조 정보를 합동으로 이용한다. 방향 정보나 구조 정보가 단독으로는 양호한 소스 분리에 적절하지 않을 수 있을지라도, 이들의 시너지는 매우 효과적인 소스 분리 접근법을 제공한다. 이 조합된 접근법의 잇점은 넓게 이격된(예를 들면, 30mm) 마이크로폰들이 반드시 요구되는 것은 아니며 따라서 다수의 밀접하게 이격된(예를 들면, 1.5mm, 2mm, 3mm 간격) 통합된 마이크로폰 요소들을 가진 통합된 장치가 사용될 수 있다는 것이다. 예로서, 스마트폰 응용에서, 통합된 밀접하게 이격된 마이크로폰 요소들의 사용은 다수의 마이크로폰 및 이들의 어쿠스틱 포트들을 위한, 스마트폰의 페이스플레이스 내, 예를 들면, 장치의 맨 구석에, 대응하는 개구에 대한 필요성을 피하게 할 수 있고, 혹은 차량 응용에서는 헤드라이너 혹은 백미러 상에 단일의 마이크로폰 위치가 사용될 수 있다. 마이크로폰 위치들(즉, 각각이 다수의 마이크로폰 요소들을 갖는 마이크로폰 장치들의 위치들)의 수를 줄이는 것은 상호연결 회로의 복잡성을 감소시킬 수 있고, 마이크로폰 요소들와 매칭되는 기계 간에 예측가능한 기하학적 관계와, 시스템 내에 다수의 이격된 마이크로폰들이 개별적으로 장착될 때 달성하기 어려울 수 있는 전기적 특징들을 제공할 수 있다.
도 1을 참조하면, 오디오 처리 시스템(100)의 구현은 위에 소개된 바와 같은 기술들의 조합을 이용한다. 특히, 시스템은 다수의 매우 밀접하게 이격된(예를 들면, 밀리미터 범위로) 지점들에 어쿠스틱 신호들을 감지하는 다수-요소 마이크로폰(110)을 이용한다. 개요적으로, 각 마이크로폰 요소(112a-112d)는 각 요소가 상이한 위치(선택적으로 포트의 물리적 구조에 기초하여 서로 다른 방향 특징들 뿐만 아니라 혹은 이들 대신에)에 어쿠스틱 필드를 감지하게 어쿠스틱 포트(111a-111d)를 통해 어쿠스틱 필드를 감지한다. 도 1의 개요도에서, 마이크로폰 요소들은 선형 어레이로 도시되었는데, 그러나 물론 요소들의 그외 다른 평면 혹은 3차원 배열이 유용하다.
시스템은 또한, 요망되는 어쿠스틱 소스로부터의 신호를 다른 간섭 신호들로부터 분리하기 위해서, 예를 들면 시간 및 주파수에 따라, 마이크로폰 요소들 중 하나 이상에서 수신된 신호들의 성분들을 식별하는, 예를 들면 빌리프 전파를 사용하는, 추론 시스템(136)을 이용한다. 이하 논의에서, 밀적하게 이격된 마이크로폰들로부터 다수의 신호들을 받아들이고 신호들을 분리하는 접근법이 함께 기술되는데, 그러나 이들은 예를 들면, 요망되는 성분들의 시간-주파수 지도를 결정하기 위한 상이한 접근법으로 더 넒게 이격된 추론 성분을 사용하거나, 다수의 밀접하게 이격된 요소들을 가진 마이크로폰을 사용하여, 서로 독립적으로 사용될 수 있음에 유의한다. 또한, 구현예는 출력 신호 경로로 어쿠스틱 내 야기된 지연을 제한시킴으로써 사람 대 사람 통신 시스템(예를 들면, 전화)에서 사용하기에 적합할 수 있는 강화된 요망되는 신호를 발생하는 맥락에서 기술된다. 그외 다른 구현들에서, 접근법은 레이턴시가 문제가되 될만큼 크지 않을 수 있는 사람 대 기계 통신 시스템에서 사용된다. 예를 들면, 신호는 자동 스피치 인식 혹은 이해 시스템에 제공될 수 있다.
도 1을 참조하면, 일 구현예에서, 4개의 병렬 오디오 신호들은 MEMS 다수-마이크로폰 유닛(110)에 의해 획득되고, 아날로그 신호들(예를 들면, 개별적 와이어들 혹은 섬유들 상에, 혹은 한 공통의 혹은 섬유 상에 멀티플렉스된 전기 혹은 광학 신호들) x1(t),...,x4(t)(113a-113d)로서 신호 처리 유닛(120)에 보내진다. 획득된 오디오 신호들은 하나 이상의 다른 소스들(도시되지 않음)로부터 나오는 성분들 뿐만 아니라, 소스 S(105)로부터 나오는 성분들을 포함한다. 이하 예시되는 예에서, 신호 처리 유닛(120)은 소스 S로부터 나오는 신호를 다른 신호들로부터 최상으로 분리하려고 시도하는 단일의 신호를 출력한다. 일반적으로, 신호 처리 유닛은 요망되는 소스 S로부터 나오는 것으로 추정되는 획득된 오디오의 성분들의 시간 및 주파수의 함수로서 선택(예를 들면, 2진 혹은 가중된)을 나타내는 출력 마스크(137)를 이용한다. 이어 이 마스크는 요망되는 신호를 형성하기 위해 출력 재건 요소(138)에 의해 사용된다.
제 1 스테이지로서, 신호 처리 유닛(120)은 아날로그-디지털 변환기를 포함한다. 다른 구현예에서, 생 오디오 신호들 각각은 신호 처리 유닛에 보내지기에 앞서 마이크로폰 내에서 디지털화될 수 있고(예를 들면, 다수 비트 수로, 혹은 2진 ΣΔ 스트림으로 변환된다), 이 경우에 입력 인터페이스는 디지털이고 완전한 아날로그-디지털 변환은 신호 처리 유닛에서 필요하지 않음이 이해될 것이다. 다른 구현예에서, 마이크로폰 요소는 예를 들면, 다수의 칩 모듈로서 일부 혹은 모든 신호 처리 유닛과 함께 집적되거나, 혹은 잠재적으로 공통의 반도체 웨이퍼 상에 집적될 수 있다.
디지털화된 오디오 신호는 아날로그-디지털 변환기로부터, 시간 및 주파수의 함수로서 소스 방향 혹은 위치의 추정을 일반적으로 결정하는 방향 추정 모듈(134)에 전달된다. 도 3을 참조하면, 방향 추정 모듈은 k 입력 신호들 x1(t),..., x4(t)을 취하며, 일련의 분석 프레임들에서 입력 신호들 각각에 대해 독립적으로 단-시간 푸리에 변환(STFT) 분석(232)을 수행한다. 예를 들면 프레임은 16 kHz의 샘플링 레이트의 1024 샘플들에 대응하여, 30ms 듀레이션이다. 예를 들면, 분석에서 레이턴시를 감소시키기 위해 더 짧은 프레임들이 사용되는 다른 분석이 사용될 수도 있을 것이다. 분석의 출력은 k번째 마이크로폰, n번째 프레임 및 i번째 주파수 성분에 대응하는 한 세트의 복소수량들(Xk,n,i)이다. 예를 들면, 시간-영역 처리에 기초하여, 도달 방향 추정들을 결정하기 위해 다른 형태의 신호 처리가 사용될 수 있고, 따라서 단-시간 푸리에 분석은 필수적인 혹은 기본적인 것으로 간주되지 않을 것이다.
푸리에 분석(232)의 복소수 출력들은 위상 계산(234)에 적용된다. 각 마이크로폰-프레임-주파수(k, n, i) 조합에 대해서, 위상 φk,i =
Figure 112015066192509-pct00001
Xk,i는 복소수량으로부터 계산된다(여기 및 다음에서는 첨자 n을 생략한다). 일부 대안예에서, 크기들 |Xk i|는 또한 계속된 모듈들에 의한 사용을 위해 계산된다.
일부 예에서, 4개의 마이크로폰 φk,i =
Figure 112015066192509-pct00002
Xk,i의 위상은 연속하거나 유한하게 양자화된 량으로서 나타낸 도달 θi (cont)의 방향의 최상의 추정을 얻기 위해 각각의 주파수에 대해 독립적으로 처리된다. 이 예에서, 도달 방향은 예를 들면, 평면 내 도달 방향에 대응하여 하나의 자유도를 갖고 추정된다. 다른 예에서, 방향은 다수의 각도들로 표현될 수 있고(예를 들면, 수평/어지무스 및 수직/엘리베이션 각도, 혹은 직교좌표에서 벡터로서), 방향 뿐만 아니라 범위를 나타낼 수 있다. 3 이상의 오디오 신호들 및 단일의 각도 표현으로서는, 마이크로폰 요소의 설계 특징들에 관련하여 이하 더욱 기술되는 바와 같이, 입력 신호들의 위상들은 방향 추정에 과도하게 제한을 가할 수 있고, 도달 방향의 최상의 피팅(선택적으로 피팅 정도 또한 나타내는)는 예를 들면 최소 제곱 추정으로서 사용될 수 있음에 유의한다. 일부 예에서, 방향 계산은 또한 예를 들면 평균(mean) 및 표준편차에 의해 파라미터화된 파라미터화된 분포 Pi(θ)로서, 혹은 양자화된 도달 방향들에 대해 외재적 분포로서 나타낸, 도달 방향의 확실성의 측정(예를 들면, 정량적 피팅 정도)을 제공한다. 일부 예에서, 도달 방향 추정은 도달 방향을 추정하는 프로세스에서 내재적으로 혹은 외재적으로 추정될 수 있는, 소리의 미지의 속도를 묵인한다.
특정한 도달 방향 계산 접근법의 예는 다음과 같다. 마이크로폰들의 기하구조는 선험적으로 알려지고, 따라서 신호 각 마이크로폰의 위상에 대한 선형 식은
Figure 112015066192509-pct00003
Figure 112015066192509-pct00004
0k로서 표현될 수 있고,
Figure 112015066192509-pct00005
는 k번째 마이크로폰의 3차원 위치이고,
Figure 112015066192509-pct00006
는 도달 방향으로 3차원 벡터이고, δ0는 모든 마이크로폰들에 공통되는 고정된 지연이고, δk = φki는 주파수ωi의 주파수 성분에 대해 k번째 마이크로폰에서 관찰되는 지연이다. 다수의 마이크로폰의 식들은 행렬 식 Ax = b로서 표현될 수 있고 A는 마이크로폰들의 위치들에 따르는 K x 4 행렬(K는 마이크로폰 개수)이고, x는 도달 방향(유닛 요소로 증가된
Figure 112015066192509-pct00007
를 갖는 4-차원 벡터)을 나타내며, b는 관찰된 K 위상들을 나타내는 벡터이다. 이 식은 4개의 비-공면 마이크로폰들이 있을 때 유일하게 해결될 수 있다. 상이한 수의 마이크로폰들이 있거나 이 독립성이 만족되지 않는다면, 시스템은 최소 제급에 의해 해결될 수 있다. 고정된 기하구조에 있어서, A의 의사역행렬 P는 한번 계산되고(예를 들면, 마이크로폰 상에 포트들의 물리적 배열의 특성으로서), Pb로서 도달 방향 x의 추정을 구현하는 계산 모듈에 하드코딩될 수 있다.
어떤 실시예에 남아있는 한 문제는 위상들이 반드시 고유한 량들은 아니라는 것이다. 그보다는, 각각은 단지 2π배까지 결정된다. 따라서 이들 중 어느 것에 임의의 2π배를 더하여, 무한히 많은 서로 다른 방법들로 위상들을 언랩(unwrap)하고 이어 위에 유형의 계산을 행할 수 있다. 다수의 실시예에서 이 문제를 단순화하기 위해서, 파장 미만으로 이격하여 마이크로폰들이 밀접하게 이격된다는 사실은 위상 언랩을 처리해야 함을 피하기 위해 활용된다. 이에 따라, 2개의 언랩된 위상들 중 어느 것 간에 차이는 2π 이상(혹은 중간 상황에서, 몇 2π배)일 수 없다. 이것은 파에 의해 처음 히트된 마이크로폰들에 대응하여 각 마이크로폰들에 대해 하나씩, 언랩의 가능한 수를 무한히 많은 것에서 유산한 수로 줄인다. 단위 원 둘레에 위상들을 표시한다면, 이것은 한 특정한 마이크로폰이 먼저 히트되고 이어 원을 이동하여 또 다른 것이 다음에 히트되도록 또 다른 마이크로폰의 위상 값이 되며, 등등을 행한다는 사실을 활용하는 것에 대응한다.
대안적으로, 모든 가능한 언랩에 대응하는 방향들이 계산되고 가장 정확한 것이 유지되는데, 그러나 가장 자주 사용할 이들 언랩들 중 어느 것을 고르기 위한 간단한 휴리스틱이 상당히 효과적이다. 휴리스틱은 모든 마이크로폰들이 연달아(즉, 이들은 훨씬 파장 미만으로 이격되어 있다)으로 히트되어질 것으로 가정하는 것이며, 따라서 임의의 2개의 위상들 사이의 단위 원의 가장 긴 원호가 언랩을 위한 토대로서 먼저 발견됨을 발견한다. 이 방법은 가장 큰 언랩된 위상 값과 가장 작은 언랩된 위상 값 간에 차이를 최소화한다.
일부 구현예에서, "SOURCE SEPARATION USING A CIRCULAR MODEL" 명칭의 국제 출원번호 PCT/US2013/060044에 기술된 접근법은 언랩을 외재적으로 요구함이 없이, 오히려 원형의 위상 모델을 사용하여 도달 방향을 해결하기 위해 사용된다. 이들 접근법 중 일부는 다수 쌍들의 마이크로폰들 간에 상대적 위상이 주파수의 함수로서 선형(모듈로 2π) 패턴에 따르는 선형-원형 위상 특징에 각 소스가 연관된다는 관찰을 활용한다. 일부 예에서, 각 소스에 기인하는 주파수/위상 샘플들을 식별하기 위해 수정된 RANSAC(랜덤 샘플 콘센서스) 접근법이 사용된다. 일부 예에서, 수정된 RANSAC 접근법과 조합하여, 혹은 다른 접근법을 사용하여, 랩 변수 표현은 위상의 확률 밀도를 나타내기 위해 사용되며, 그럼으로써 소스들 간에 지연을 추정하는 것에 확률적 기술을 적용함에 있어 위상을 "언랩"할 필요성을 피하게 한다.
이 절차의 과정에서 계산된 방향에서 신뢰도를 결정하기 위해 몇개의 보조 값들이 계산될 수 있다. 가장 간단한 것은 가장 긴 원호의 길이인데, 이것이 길다면(2π의 큰 부분), 마이크로폰들이 연달아 히트되었고 휴리스틱이 정확하게 언랩되었다는 가정을 확신할 수 있다. 이것이 짧다면 수행을 개선하기 위해 알고리즘의 나머지에 더 낮은 신뢰값이 제공된다. 즉, 상당수 빈들이 "나는 빈이 동쪽에서 왔을 것이라고 확신한다"라고 말하고, 근처에 몇몇 빈들이 "북쪽에서 왔을 수도 있지만, 나는 모른다"라고 말한다면 어느 것을 무시할지를 안다.
또 다른 보조 값은 추정된 방향 벡터의 크기이다(위에서
Figure 112015066192509-pct00008
). 이론은 이것이 소리 속도에 역반비례할 것으로 예측한다. 이것으로부터 노이즈에 기인하여 얼마간에 일탈을 예상하지만, 한 주어진 빈에 대해 너무 많은 일탈은 단일의 평면파에 대한 가정이 어긋났다는 힌트이며, 따라서 이 경우에 어느 방향으로든 확신하지 않을 것이다.
위에 소개된 바와 같이, 일부 대안적 예에서, 크기들 |Xk,i|은 또한, 방향 추정 및/또는 추정의 확실성 또는 분포를 결정할 때 절대 혹은 상대적 크기들을 사용할 수 있는 방향 계산에 제공된다. 일예로서, 주파수에 고-에너지(등가적으로 고 진폭) 신호로부터 결정된 방향은 에너지가 매우 낮은 경우보다 더 신뢰성이 있을 수 있다. 일부 예에서, 도달 추정들의 방향의 신뢰도 추정들은 또한, 예를 들면, 한 세트의 위상 차이들 및 절대 크기의 피팅 정도에 혹은 마이크로폰들 간에 한 세트의 크기 차이들에 기초하여, 계산된다.
일부 구현예에서, 도달 방향 추정들은 예를 들면 단일의 각도 각도 추정의 경우에, 16개의 균일한 섹터, θi=quantize(θi (cowf)) 중 하나로 양자화된다. 2차원 방향 추정의 경우에, 2개의 각도는 개별적으로 양자화될 수 있고, 혹은 방향들의 조인트 (벡터) 양자화가 사용될 수도 있다. 일부 구현예에서, 양자화된 추정은 입력 신호들의 위상들로부터 직접 결정된다. 일부 예에서, 도달 방향 추정자의 출력은 단순히 양자화된 방향 추정이 아니라, 이산 분포 Pri(θ)이다(즉, 포스테리어 분포는 신뢰도 추정을 제공한다. 예를 들면, 작은 절대 크기에서, 도달 방향에 대한 분포는 크기가 큰 경우보다 더 넓을 수 있다(예를 들면, 더 큰 엔트로피). 또 다른 예로서, 상대적 크기 정보가 위상 정보와 모순된다면, 분포는 더 넓을 수 있다. 또 다른 예로서, 낮은 주파수 영역은 본질적으로, 오디오 신호 전파의 물리 때문에 더 넓은 분포를 갖는다.
다시 도 1을 참조하면, 생 방향 추정(135)(예를 들면, 시간 대 주파수 격자 상에)은 소스 추론 모듈(136)에 보내진다. 이 모듈에의 입력들은 근본적으로, 각 주파수 성분에 대해 그리고 각 분석 프레임에 대해 독립적으로 계산됨에 유의한다. 일반적으로, 추론 모듈은 요망되는 신호를 재건할 적합한 출력 마스크(137)를 결정하기 위해서 시간 및 주파수에 걸쳐 분포되는 정보를 사용한다.
소스 추론 모듈(136)의 구현의 한 유형은 확률적 추론을 이용하며, 더 특히, 확률적 추론에 대한 빌리프 전파 접근법을 이용한다. 이 확률적 추론은 입력 노드들이 이전 프레임들 n = n0-W,..., n0-1(혹은 일괄 처리를 수행하는 실시예에서 미래의 프레임들을 포함하는)에 대해서만이 아니라, 현재의 프레임 n = n0 및 한 세트의 주파수 성분들 i에 대한 도달 방향 추정들 θn,i에 대응하는 팩터 그래프로서 표현될 수 있다. 일부 구현예에서, (n,i) 시간-주파수 위치가 요망되는 소스에 대응하는지 여부를 나타내는 은닉 (레이턴트) 변수들 Sn,i의 시계열이 존재한다. 예를 들면, S는 1이 요망되는 소스를 나타내고 0이 요망되는 소스이 없음을 나타내는 2진 변수이다. 다른 예에서, 상당수의 요망되는 및/또는 요망되지 않는(예를 들면, 간섭) 소스들은 이 인디케이터 변수에 표현된다.
팩터 그래프의 일예는 한 세트의 다른 인디케이터들 {Sm,j;|m-n|≤1, |i-j|≤1}를 가진 팩터 커플링 Sn,i을 도입한다. 이 팩터 그래프는 예를 들면, 서로 구별되는 소스들에 연관된 시간-주파수 공간의 영역들을 생성하는 경향이 있게 함으로써 "스무딩"을 제공한다. 또 다른 은닉 변수는 요망되는 소스를 특징화한다. 예를 들면, 추정된 (이산화된) 도달 방향 θS은 팩터 그래프에 표현된다.
더 많은 복소수 은닉 변수들은 또한 팩터 그래프에 표현될 수 있다. 예들은 보이싱 피치 변수, 온셋 인디케이터(예를 들면, 일 범위의 주파수 빈들 걸쳐 나타나는 온셋을 모델링하기 위해 사용되는), 스피치 활동 인디케이터(예를 들면, 대화에서 말차례를 모델링하기 위해 사용되는), 소스의 스펙트럼 형상 특징들(예를 들면, 장기 애버리지로서, 혹은 스피치 동안 스펙트럼 형상 변화들의 동적 행동을 모델링한 결과로서 얻어지는)을 포함한다.
일부 구현예에서, 외부 정보는 신호 처리 유닛(120)의 소스 추론(136) 모듈에 제공된다. 일 예로서, 도달 방향에 대한 제약은, 예를 들면, 장치에 관하여 360도의 도시된 범위를 제시하고, 이 범위 내에서 추정된 도달 방향이 허용되는 혹은 이 범위로부터 도달 방향이 배제되는, 이 범위의 한 섹터(혹은 다수의 섹터), 혹은 이 범위의 크기(예를 들면, 포커스)를 선택할 수 있게 하는 그래픽적 인터페이스를 사용하여 마이크로폰을 수용하는 장치의 사용자에 의해 제공된다. 예를 들면, 원격의 당사자와의 핸드-프리 통신의 목적을 위한 오디오 입력의 경우에, 오디오를 획득하는 장치에 사용자는 배제할 방향이 간섭의 소스이기 때문에 이를 선택할 수 있다. 일부 응용에서, 어떤 방향들은 요망되는 간섭 소스들의 방향들 및/또는 소스가 허용되지 않는 방향들을 나타내기 위해 선험적으로 알려진다. 예를 들면, 마이크로폰이 고정된 위치에 있는 자동차 응용에서, 윈드쉴드의 방향은 배제될 노이즈 소스가 되게 선험적으로 알려질 수 있고, 운전자와 승객의 머리 높이에 위치는 요망되는 소스들이 있을만한 위치들에 있는 것으로 알려진다. 마이크로폰 및 신호 처리 유닛이 입력 방향을 제약 혹은 바이어스하는 입력을 제공하는 로컬 사용자보다는, 두-당사자 통신(예를 들면, 전화 통신)를 위해 사용되는 일부 예에서, 원격의 사용자는 획득된 및 처리된 오디오 신호의 이들의 인지에 기초하여 정보를 제공한다.
일부 구현예에서, 소스의 움직임 (및/또는 소스에 혹은 고정된 기준 프레임에 대한 마이크로폰들의 놓인 방위) 또한 빌리프 전파 처리에서 추론된다. 일부 예에서, 다른 입력들, 예를 들면, 마이크로폰 요소의 놓인 방위에 변경들에 관계된 관성 측정 또한 이러한 추적에서 사용된다. 관성(예를 들면, 가속도, 중력) 센서는 또한 마이크로폰과 동일한 칩 상에 집적될 수 있고, 그럼으로써 단일의 집적된 장치로부터 어쿠스틱 신호 및 관성 신호 둘 다를 제공한다.
일부 예에서, 소스 추론 모듈(136)은 별도의 집적된 회로("칩") 내 호스트될 수 있는, 혹은 통신 링크(예를 들면, 광역 데이터 네트워크 혹은 전기통신 네트워크)에 의해 결합된 별도의 컴퓨터에 있을 수 있는 외부 추론 프로세서(140)와 상호작용한다. 예를 들면, 외부 추론 프로세서는 스피치 인식을 수행하고 있을 수 있고 요망되는 화자의 스피치 특징들에 관계된 정보는 다른 신호들로부터 요망되는 화자의 신호를 더 잘 선택하기 위해 추론 프로세스에 피드백될 수 있다. 일부 경우에, 이들 스피치 특징들은 피치 범위, 애버리지 스펙트럼 형상, 포만트 범위, 등과 같은, 장기 애버리지 특징들이다. 이외 다른 경우에, 외부 추론 프로세서는 요망되는 화자로부터 예상된 스피치 특징들의 단기 예측에 기초하여 시변 정보를 제공할 수 있다. 내부 소스 추론 모듈(136) 및 외부 추론 프로세서(140)가 통신할 수 있는 한 방법은 조합된 빌리브 전파 접근법에서 메시지를 상호교환함에 의한다.
팩터 그래프의 일 구현예는 참조로 본원에 포함시키는 "PROGRAMMABLE PROBABILITY PROCESSING" 미국 특허 공개 2012/0317065 A1에 기술된 바와 같은 "GP5" 하드웨어 가속기를 이용한다.
위에 기술된 접근법의 구현예는 동일 집적 회로에 구현되는 확률적 추론(혹은 적어도 일부 - 일부 "고-레벨" 처리가 칩 밖에서 행해지는 분할 구현이 있을 수 있다) 뿐만 아니라, 오디오 신호 처리 및 분석(예를 들면, FFT 가속도, 마스크에 대한 시간 영역 필터링), 일반적인 제어를 호스트할 수 있다. 동일 칩 상에 집적은 별도의 프로세서를 사용하는 것보다 적은 파워 소비를 제공할 수 있다.
이하 기술된 확률적 추론 후에, 결과는 2진이거나, 입력 신호들 xi(t) 중 하나를 필터링하기 위해 사용되는 값들 Mn,i을 가진 단편적 마스크, 혹은 신호들의 일부 선형 조합(예를 들면, 합, 혹은 선택적으로 지연된 합)이다. 일부 구현예에서, 마스크 값은 미트라 노치 필터의 이득을 조절하기 위해 사용된다. 일부 구현예에서, PCT 공개 WO2012/024507, "CHARGE SHARING ANALOG COMPUTATION CIRCUITRY AND APPLICATIONS"에 기술된 바와 같은 전하 공유를 사용하는 신호 처리 접근법은 출력 필터링 및/또는 입력 신호 처리를 구현하기 위해 사용될 수 있다.
도 4a-도 4b를 참조하면, 마이크로폰 유닛(110)의 예는 4개의 MEMS 요소들(112a-112d)을 사용하며, 각각은 1.5mm-2mm 스퀘어 구성으로 배열된 4개의 포트들(111a-111d) 중 하나를 통해 결합되고, 요소들은 공통 백볼륨(114)을 공유한다. 선택적으로, 각 요소는 개개의 파티션된 백볼륨을 갖는다. 마이크로폰 유닛(110)이 이 실시예에서 별도의 패키지인 오디오 프로세서(120)에 연결된 것으로서 도시되었다. 오디오 프로세서의 모듈들의 블록도가 도 4c에 도시되었다. 이들은 프로세서 코어(510), 신호 처리 회로(520)(예를 들면, SFTF 계산을 수행하기 위해), 및 확률 프로세서(530)(예를 들면, 빌리프 전파를 수행하기 위해)을 포함한다. 도 4a-도 4b는 개략적 단순화이며 MEMS 요소들의 많은 특정한 물리적 구성 및 구조가 사용될 수 있음이 이해될 것이다. 더 일반적으로, 마이크로폰은, 다수의 포트들 각각이 하나 이상의 포트들에 결합되는 다수의 요소들, 마이크로폰 유닛 패키지의 다수의 서로 다른 면들 상에 포트들, 및 포트들(예를 들면, 포트들 간에 특정한 결합을 갖거나 하나 이상의 공통 백볼륨들을 사용한다) 간에 가능한 결합을 갖는다. 이러한 더 복잡한 배열들은 물리적 방향, 주파수, 및/또는 노이즈 상쇄 특징들을 추가의 처리를 위해 적합한 입력들 제공하는 것과 조합할 수 있다.
소스 추론 성분(136)(도 1 참조)에서 사용되는 소스 분리 접근법의 일 실시예에서, 입력은 시간 대 주파수 분포 P(f, n)를 포함한다. 이 분포의 값들은 음이 아니고, 이 예에서, 분포는 한 세트의 이산 주파수 값들 f∈[1,F] 및 시간 값들 n∈[1,N]에 걸친 것이다. (일반적으로, 이하 설명에서, 정수 인덱스 n은 예를 들면, 30ms의 시간 분석 윈도우 혹은 프레임을 나타낸다. 연속한 입력 신호의 듀레이션, 인덱스 t는 예를 들면 초로 측정되는 기저의 시간 베이스에서 시점을 나타낸다). 이 예에서, P(f,n)의 값은 Σf,n P(f,n) = 1이 되도록 정규화된, 주파수 f 및 시간 n에서 신호의 비례하는 에너지가 되게 설정된다. 분포 P(f,n)은 다른 형태들, 예를 들면, 스펙트럼 크기, 스펙트럼 크기 혹은 에너지의 파워/루트, 혹은 로그 스펙트럼 에너지를 취할 수 있고, 스펙트럼 표현은 프리엠퍼시스를 탑재할 수 있음에 유의한다.
스펙트럼 정보 외에도, 도달 방향 정보는 예를 들면 도달 방향 추정들 D(f,n)과 동일한 한 세트의 인덱스들 상에서 입수할 수 있다. 이 실시예에서, 위에 소개된 바와 같이, 이들 도달 방향 추정들은 이산화된 값들, 예를 들면 D (예를 들면, 20) 이산(즉, "빈된") 도달 방향들에 대해 d∈[1,D]이다. 이하 논의되는 바와 같이, 다른 실시예에서 이들 방향 추정들은 반드시 이산화되는 것은 아니며, 이러한 마이크로폰간 정보로부터 도출된 방향 추정이 아니라, 마이크로폰간 정보(예를 들면, 위상 혹은 지연)을 나타낼 수 있다. 스펙트럼 및 방향 정보는 d=D(f,n)인 인덱스들에 대해서만 비-제로인 조인트 분포 P(f,n,d)에 조합된다.
일반적으로, 분리 접근법은 s∈[1,S]에 의해 인덱스되는 다수의 소스가 있다고 가정한다. 각 소스는 z∈[1,Z]에 의해 인덱스되는, 한 세트의 이산 스펙트럼 프로토타입에 연관되는데, 예를 들어 Z=50은 각 소스가 50 스펙트럼 프로토타입에 배타적으로 연관됨에 대응한다. 각 프로토타입은 모든 스펙트럼 프로토타입에 대해 Σfq(f|z,s)=1이 되게(즉, 쌍들 (z,s)∈[1,Z] x [1,S]에 의해 인덱스된) 음이 아닌 값들을 갖는 분포 q(f|z,s)에 연관된다. 각 소스는 프로토타입 인덱스 z와는 무관한 것으로 가정되는 방향 값들, q{d|s)의 연관된 분포를 갖는다.
이들 가정이 주어졌을 때, 전체 분포는 다음으로서 형성된다.
Figure 112015066192509-pct00009
q(s)는 소스 s의 단편적 기여도이며, q(z|s)는 소스 s에 대한 프로토타입 z의 분포이며, q{n|z,s)는 프로토타입 z 및 소스 s의 시간적 분포이다.
위에 합에서 개개의 분포들은 미리 알려지지 않는 것에 유의한다. 이산 분포들의 경우에, S+ZS+FZS+NZS+DS = S(1+D+Z(1+F+N)) 미지의 값들이 존재한다. 이들 분포들의 추정은 Q(f,n,d)이 관찰된 (실험적) 분포 P(f,n,d)와 일치하게 형성될 수 있다. 이 일치를 발견하는 한 접근법은 다음을 최대화하기 위해 개개의 분포의 최적 선택(전형적으로 로컬 최적)에 도달하려고 시도하는 반복적 알고리즘을 사용하는 것이다.
Figure 112015066192509-pct00010
이 최대화를 위한 한 반복적 접근법은 예상-최대화 알고리즘이며, 이것은 수렴 정도의 최대 반복 횟수와 같은, 정지 조건이 될 때까지 반복될 수 있다.
실험적 분포 P(f,t,d)은 희박이기 때문에(d의 대부분의 값들에 대해 분포는 제로임을 상기한다), 반복적 계산은 최적화될 수 있음에 유의한다.
반복의 종료 후에, 각 시간/주파수 요소에 각 소스의 기여도는 다음으로서 발견된다:
Figure 112015066192509-pct00011
이 마스크는 0.0과 1.0 사이의 량으로서 사용될 수 있고, 혹은 2진 마스크를 형성하기 위해 임계화될 수 있다.
다수의 대안들이 위에 기술된 접근법에 포함될 수 있다. 예를 들면, 방향의 특정한 추정을 사용하기보다는, 다수의 마이크로폰의 상대적 위상들의 처리는 P(f,n,d)=P(f,n)P(d|f,n)이 되게, 가능한 방향 빈들의 분포 P(d|f,n)을 얻을 수 있다. 이러한 분포를 사용하는 것은 도달 방향 추정의 비확실성의 주파수-의존성을 나타내는 방법을 제공할 수 있다.
이외 다른 분해는 유사한 기술을 효과적으로 이용할 수 있다. 예를 들면, 형태
Q(f,n,d) = q(d|s)q(f|z,s)q(n,z,s)
이고 여기에서 분포들 각각은 구속되지 않는다.
분포의 대안적 인수분해는 또한 시간적 다이나믹스를 이용할 수 있다. 위에서, 시간에 걸친 한 특정한 소스의 기여도는 q(q|s)=Σzq(n|z,s)q(z|s)이거나, 혹은 시간에 걸친 한 특정한 스펙트럼 프로토타입 q(n|z)은 비교적 구속되지 않음 유의한다. 일부 예에서, 시간적 구조는 예를 들면, 은닉 마코프 모델을 사용하여 포함될 수 있다. 예를 들면, 한 특정한 소스의 기여도의 진전은 은닉 마코프 체인 X = x1,..., xN,에 의해 지배될 수 있고, 각 상태 xn에서 분포 q(z|xn)에 의해 특징화될 수 있다. 또한, 시간적 변동 q(n|X)는 은닉 상태 시퀀스에 의존하는 동적 모델에 따를 수 있다. 이러한 HMM 접근법을 사용하여, 분포 q(n,z,s)은 소스 s가 프레임 n에서 이의 스펙트럼 프로토타입 z을 발현하고 있을 확률로서 결정될 수 있다. 소스들에 대한 마코프 체인의 파라미터는 예상-최대화(혹은 유사한 바움-웰치) 알고리즘을 사용하여 추정될 수 있다.
위에 소개된 바와 같이, 시간 및 주파수의 함수로서 제공된 방향 정보는 반드시 D 빈들 중 하나로 이산화되는 것은 아니다. 한 이러한 예에서, D(f,n)는 실수 값의 추정, 예를 들면, 0.0 내지 π 사이의 라디안 값 혹은 0.0도 내지 180.0도 사이의 어떤 각도값이다. 이러한 예에서, 모델 q(d|s)은 또한 연속한데, 예를 들면, 파라미터적 분포로서, 예를 들면, 가우시안 분포로서 표현된다. 또한, 일부 예에서, 도달 방향의 분포 추정은 예를 들면, P{d|f,n)로서 얻어지는데, 이는 (f,n) 주파수-시간 빈에 신호의 도달 방향 d의 추정의 연속한 값의 분포이다. 이러한 경우에, P(f,n,d)은 곱 P(f,n)P(d|f,n)으로 대체되고, 접근법은 한 세트의 이산 빈된 방향들에 대한 합이 아니라, 연속한 범위에 걸친 적분을 효과적으로 탑재하게 수정된다.
일부 예에서, 각 (f,n) 성분에 대한 생 지연들(혹은 대안적으로 위상 차이들) δk은 예를 들면 벡터 D(f,n)=[δ21,...,δK1](즉, 미지의 전체 위상을 감안하기 위한 K-1 차원 벡터)로서 직접 사용된다. 일부 예에서, 이들 벡터들은 D 빈들을 형성하기 위해 클러스터되거나 벡터 양자화되고 위에 기술된 바와 같이 처리된다. 다른 예에서, 연속한 다차원적 분포들은 위에 기술된 바와 같은 연속한 방향 추정들을 처리하는 것과 유사한 방식으로 형성되고 처리된다.
위에 기술된 바와 같이, 다수의 소스 S가 주어졌을 때, 비감독 접근법은 신호의 시간 간격에 대해 사용될 수 있다. 일부 예에서, 이러한 분석은 연속한 시간 간격들에 대해 행해질 수 있고, 혹은 과거의 윈도우로부터 파라미터 추정들이 예를 들면 후속되는, 아마도 겹치는 윈도우들에 대한 초기 추정들로서 유지되는 "슬라이딩 윈도우" 방식으로 행해질 수 있다. 일부 예에서, 하나 이상의 소스에 대한 모델 파라미터를 추정하기 위해 단일 소스(즉, "명료한") 신호들이 사용되고, 이들 추정들은 위에 기술된 반복적 접근법에 대한 추정들을 초기화하기 위해 사용된다.
일부 예에서, 소스들의 수 혹은 특정한 인덱스 값들(즉, s)에 소스들의 연관은 다른 접근법에 기초한다. 예를 들면, 다수의 개별적 방향 클러스터들을 식별하고(예를 들면, K-평균 클러스러링에 의한) 그럼으로써 고려될 소스의 수를 결정하기 위해 방향 정보에 대해 클러스터링 접근법이 사용될 수 있다. 일부 예에서, 소스 인덱스 값들을 할당할 각 소스에 대해, 예를 들면 중앙 방향 내 소스를 소스 s=1로서 연관시키기 위해 전체 방향 추정이 사용될 수 있다.
소스 추론 성분(136)에서 사용되는 소스 분리 접근법의 또 다른 실시예에서, 획득된 어쿠스틱 신호는 예를 들면, 시간 윈도우에 걸친 획득된 신호들 중 하나 이상에 기초하여 시간 대 주파수 분포 P(f,n)을 계산함으로써 처리된다. 이 분포의 값들은 음이 아니며, 이 예에서, 분포는 한 세트의 이산 주파수 값들 f∈[1,F] 및 시간 값들 n∈[1,N]에 대한 것이다. 일부 구현예에서, P(f,n0)의 값은 STFT를 위한 n0번째 분석 윈도우(프레임)에 대응하는 입력 신호의 시간 t0의 부근에 이산 주파수 f에서 단(short) 시간 푸리에 변환을 사용하여 결정된다.
스펙트럼 정보 외에도, 획득된 신호들의 처리는 또한 신호들의 다수의 성분들 각각에 대해 각 시간 프레임에서 방향 특징들을 결정하는 것을 포함한다. 신호들의 성분들 -이에 걸쳐 방향 특징들이 계산된다- 의 일예는, 다른 분해들이 사용될 수 있음이 이해될지라도, 개별적 스펙트럼 성분들이다. 이 예에서, 각 (f,n) 쌍에 대해 방향 정보가 결정되며, D(f,n)으로서 인덱스들 상에 도달 방향 추정들은 이산화된(예를 들면, 양자화된) 값들, 예를 들면 D (예를 들면, 20) 이산(즉, "빈된") 도달 방향들에 대해 d∈[1,D]으로서 결정된다.
획득된 신호들의 각 시간 프레임에 대해, 시간 프레임 n에서 서로 상이한 주파수 성분들이 나오는 방향들을 나타내는 방향 히스토그램 P(d|n)이 형성된다. 이산화된 방향들을 사용하는 이 실시예에서, 이 방향 히스토그램은 D 방향들 각각에 대한 수, 예를 들면, 이 방향이 표기된 상기 프레임 내 주파수 빈들의 총 수로(즉, D(f,n)=d인 빈들의 수 f)로 구성된다. 방향에 대응하는 빈들을 카운트하는 대신에, 이들 빈의 총 STFT 크기들(예를 들면,
Figure 112015066192509-pct00012
), 혹은 이들 크기의 제곱들, 혹은 고-에너지 빈들의 영향을 더 무겁게 가중하는 유사한 접근법을 사용하여 더 나은 수행을 달성할 수 있다. 다른 예에서, 획득된 신호들의 처리는 연속한-값의(혹은 미세하게 양자화된) 방향 추정 D(f,n) 혹은 파라미터적 혹은 비-파라미터적 분포 P(d|f,n)을 제공하며, 히스토그램이나 연속 분포 P(d|f,n)이 방향 추정들로부터 계산된다. 이하 접근법에서, P{d|f,n)이 히스토그램(즉, d의 이산 값들에 대한 값들)을 형성하는 경우가 상세히 기술되는데, 그러나, 접근법은 연속 경우에도 해결하게 개조될 수 있음에 이해될 것이다.
결과적인 방향 히스토그램은 각 시간 프레임에서 각 방향으로부터 신호 세기의 측정으로서 해석될 수 있다. 노이즈에 기인한 변동들 외에도, 일부 소스들이 턴 온 및 오프할 때(예를 들면, 한 사람이 말을 중단하였을 때, 이 사람 뒤에 또 다른 노이즈 소스가 없다면, 이 사람의 전반적인 방향으로부터 거의 내지는 어떠한 에너지도 나오지 않을 것이며, 본원에서는 처리하지는 않을 경우이다) 이들 히스토그램이 시간에 걸쳐 변할 것으로 예상할 것이다.
이 정보를 사용하는 한 방법은 시간에 걸쳐 모든 이들 히스토그램을 합산 혹은 애버리지하는 것일 될 것이다(예를 들면,
Figure 112015066192509-pct00013
로서). 그러면, 결과적인 종합된 히스토그램에서 피크들은 소스들에 대응한다. 이들은 피크-발견 알고리즘으로 검출될 수 있고, 소스들 간 경계들은 예를 들면 피크들 사이에 중간-점들을 취함으로써 확정될 수 있다.
또 다른 접근법은 시간에 걸친 모든 방향 히스토그램들의 수집을 고려하고 어느 방향들이 함께 가중이 증가 혹은 감소하는 경향이 있는지를 분석하는 것이다. 이를 행하는 한 방법은 이들 히스토그램의 샘플 공분산 혹은 상관 행렬을 계산하는 것이다. 방향 추정의 분포의 상관 혹은 공분산은 서로 다른 소스들에 연관된 개별적 분포들을 식별하기 위해 사용된다. 한 이러한 접근법은 예를 들면, 다음으로서 계산되는 방향 히스토그램의 공분산을 이용한다.
Figure 112015066192509-pct00014
여기에서
Figure 112015066192509-pct00015
이며, 이것은
Figure 112015066192509-pct00016
으로서 행혈 형태로 표현될 수 있고, 여기에서 P(n) 및
Figure 112015066192509-pct00017
는 D-차원 컬럼 벡터이다.
공분산 행렬 Q 혹은 상관 행렬에 다양한 분석이 수행될 수 있다. 예를 들면, Q의 주 성분들(즉, 가장 큰 아이젠값들에 연관된 아이젠벡터들)은 서로 다른 소스들에 대해 프로토타입적 방향 분포를 나타내는 것으로 생각될 수 있다.
이러한 패턴들을 검출하는 다른 방법은 동일 측에 채용될 수 있다. 예를 들면, 모든 시간에 걸쳐 애버리지된, 시간에서 다수 쌍들의 방향들 및 나중에 몇개의(예를 들면 5- 단지 1 후에 거의 변화가 없는 경향이 있는) 프레임들의 조인트 (아마도 가중된)을 계산하는 것은 유사한 결과를 달성할 수 있다.
상관 또는 공분산 행렬을 사용하는 또 다른 방법은 다수 쌍들의 방향(d1 및 d2) 간에 쌍으로 "유사성"을 형성하는 것이다. 공분산 행렬을 방향들 간에 유사성들의 행렬로서 간주하고, 함께 상관하는 방향들을 그룹화하기 위해 친화성 전파 혹은 k-메도이드와 같은 클러스터링 방법을 적용한다. 이어 결과적인 클러스터는 개개의 소스에 대응하게 취해진다.
이러한 방법에서 환경에서 한 세트의 이산 소스들은 식별되고, 각각에 대한 방향 프로파일이 결정된다. 이들 프로파일은 위에 기술된 마스킹 방법을 사용하여 각 소스에 의해 발현된 소리를 재건하기 위해 사용될 수 있다. 이들은 또한 어느 소스들을 통과시키고 차단시킬지를 수동적으로 선택할 수 있게 하거나 어느 소스들이 자동으로 차단되고 있는지에 관한 시각적 피드백을 할 수 있게, 마이크로폰 어레이에 관한 각 소스의 위치의 그래픽적 도시를 사용자에게 제시하기 위해 사용될 수 있다.
대안적 실시예는 다음 대안적 특징들 중 하나 이상을 이용할 수 있다.
위에 논의는 이산화된 방향 추정들을 이용함에 유의한다. 그러나, 등가적인 접근법은 각 시간-주파수 성분에 방향 분포에 기초할 수 있고 이들은 이어 총합된다. 유사하게, 방향을 특징화하는 량이 반드시 방향 추정인 것은 아니다. 예를 들면, 생 마이크로폰간 지연은 각 시간-주파수 성분에 직접 사용될 수 있고, 방향 분포는 각 프레임에 여러 주파수 성분들에 대한 이들 마이크로폰간 지연의 분포를 특징화할 수 있다. 마이크로폰간 지연은 이산화될 수도 있고(예를 들면, 클러스터링 혹은 벡터 양자화에 의해) 혹은 연속한 변수들로서 취급될 수도 있다.
모든 시간에 걸쳐, 샘플 공분산 행렬을 계산하는 대신에, 진행하는 가중된 샘플 평균을 추적하고(예를 들면, 애버리지화 혹은 저역통과 필터로) 이것을 사용하여 공분산 행렬의 진행하는 추정을 추적할 수 있다. 이것은 계산이 실시간 혹은 스트리밍 모드에서 행해져, 결과가 모든 데이터가 수집되어진 후에 단지 일괄 모드에서가 아니라 데이터가 들어올 때 적용될 수 있다는 잇점을 갖는다.
이 방법은 먼 과거로부터 수집된 데이터를 "망각"할 것이며, 이것이 이동하는 소스들을 추적할 수 있음을 의미한다. 각 시간 단계에서 공분산(혹은 동등한) 행렬은 별로 변하지 않을 것이며, 따라서 소스들로 방향들의 그룹화는 별로 변하지 않을 것이다. 그러므로 클러스터링 알고리즘에의 반복적인 호출에 대해서, 이전의 호출로부터 출력은 웜 스타트(클러스터링 알고리즘은 반복되는 경향이 있다)를 위해 사용될 수 있어, 첫 번째 후에 모든 호출들의 실행 시간을 감소시킨다. 또한, 소스들은 STFT 프레임의 길이에 관하여 서서히 이동할 것이기 때문에, 클러스터링은 모든 프레임만큼 자주 재계산될 필요가 없다.
친화성 전파와 같은 일부 클러스터링 방법은 가용한 사이드 정보를 감안하기 위해 간단한 수정을 인정한다. 예를 들면, 방법을 적은 수의 클러스터들을 발견하는 쪽으로, 혹은 공간적으로 인접한 방향들의 클러스터들만을 발견하는 쪽으로 바이어스할 수 있다. 이렇게 하여 수행은 개선될 수 있고 혹은 같은 수준의 수행이 더 적은 데이터로 달성될 수 있다.
소스에 대한 결과적인 방향 분포는 다수의 목적을 위해 사용될 수 있다. 한 사용은 예를 들면, 클러스터링 접근법(예를 들면, 클러스터들의 친화성, 아이젠값 크기들, 등)에서 결정된 량들 및 이들 량들에 대한 임계를 사용함으로써, 다수의 소스를 간단하게 결정하는 것이다. 또 다른 사용은 위에 기술된 바와 같이, 인수분해 접근법에서 사용되는 고정된 방향 분포로서이다. 방향 분포를 고정된 것으로서 사용하기보다는, 위에 언급된 포함된 응용에서 기술된 반복적 접근법에서 초기 추정으로서 사용될 수 있다.
또 다른 실시예에서, 위에 기술된 하나 이상의 접근법에 의해 결정되는 한 세트의 시간-주파수 위치들에 대한 입력 마스크 값들. 이들 마스크 값들은 로컬 오류 혹은 바이어스를 가질 수 있다. 이러한 오류 혹은 바이어스는 마스크된 신호로부터 건조된 출력 신호가 오디오 아티팩트와 같은 바람직하지 못한 특징들을 갖는다는 잠재적 결과를 갖는다.
또한, 위에 소개된 바와 같이, 마스크 값을 "스무딩" 혹은 아니면 처리하기 위한 한 일반적 부류의 접근법들은 입력 마스크 값들을 맞지만 알려지지 않은(즉, 실제로 요망되는) 출력 마스크 값들의 "노이즈성" 관찰로서 효과적으로 취급하는 2진 마코프 랜덤 필드를 이용한다. 이하 기술된 다수의 기술은 2진 마스크의 경우를 해결하는데, 그러나 기술이 비-2진(예를 들면, 연속한 혹은 다수-값) 마스크의 경우에, 직접 적용될 수 있거나 아니면 개조될 수 있음이 이해될 것이다. 많은 상황에서, 깁스 알고리즘 혹은 관계된 접근법을 사용하는 순차적 업데이트는 계산적으로 무모할 수 있다. 가용한 병렬 업데이트 절차는 마코프 랜덤 필드의 인근 구조가 현재 병렬 업데이트 절차를 가능하게 할 수 있도록 위치들의 파티셔닝을 허락하지 않기 때문에 가능하지 않을 수 있다. 예를 들면, 시간-주파수 격자 내 8 이웃들 상에 각 값을 조절하는(condition) 모델은 정확한 병렬 업데이트의 부-세트의 위치들로의 파티션을 할 수 없다.
병렬로 업데이트되는 많은 위치들에 대해 조건부 독립이라는 가정이 어긋날 수 있음을 인식하여, 깁스-유사 알고리즘에 대한 병렬 업데이트가 부-세트의 다수의 업데이트 위치들의 선택에 기초하는 또 다른 접근법이 본원에서 개시된다. 이것이 샘플링되는 분포가 MRF에 대응하는 정밀하게 분포가 아님을 의미할 수 있을지라도, 실제로 이 접근법은 유용한 결과를 제공한다.
그러므로 본원에서 제시되는 절차는 한 시퀀스의 업데이트 사이클로 반복한다. 각 업데이트 사이클에서, 한 부-세트의 위치들(즉, 마스크의 시간-주파수 성분)은 결정론적 패턴에 따라, 혹은 전체 한 세트의 위치들을 형성하는 일부 예에서, 랜덤하게 선택된다(예를 들면, 절반과 같이, 랜덤한 부분을 선택한다).
기저의 MRF가 균질인 상황에서 병렬로 업데이트할 때, 고정된 커널에 따른 위치-불변 콘볼루션은 모든 위치들에 값들을 계산하기 위해 사용되고, 이어 업데이트되는 위치들에 한 부-세트의 값들은 통상의 깁스 업데이트에서 사용된다(예를 들면, 랜덤 값을 고르고 적어도 일부 예에서 각 업데이트 위치에서 비교한다). 일부 예에서, 콘볼루션은 변환 영역(예를 들면, 푸리에 변환 영역)에서 구현된다. 변환 영역 및/또는 고정된 콘볼루션 접근법의 사용은 또한 예를 들면, 계산 규칙성이 종국에는 사용되지 않는 값들의 계산보다 나은 이익을 제공하기 때문에, 업데이트의 적합한 패턴(예를 들면, 체크보드 패턴)이 선택되는 정확한 상황에서도 적용될 수 있다.
절차의 요약이 도 5의 흐름도에 도시되었다. 단계들의 특정한 순서는 일부 구현예들에서 변경될 수 있고, 단계들은 접근법의 필수적 측면들을 변경함이 없이 서로 다른 수학적 공식을 사용함에 있어 구현될 수 있음에 유의한다. 먼저, 다수의 신호, 예를 들면 오디오 신호가 다수의 센서(예를 들면, 마이크로폰)에서 획득된다(단계 612). 적어도 일부 구현예에서, 연속한 분석 프레임 (n) 및 주파수 (f)에서 상대적 위상 정보가 분석 단계에서 결정된다(단계 614). 이 분석에 기초하여, -1.0(즉, "아마도 오프"를 나타내는 수치 량)과 +1.0(즉, "아마도 온"을 나타내는 수치 량) 사이에 한 값이 생 (혹은 입력) 마스크 M(f,n)로서 각 시간-주파수 위치에 대해 결정된다(단계 616). 물론 다른 응용에서, 입력 마스크는 위상 또는 도달 방향 정보에 따른 것이 아닌 다른 방법들로 결정된다. 이 절차의 출력은 생 마스크와 같게 되게 초기화되는 스무딩된 마스크 S(f,n)를 결정하는 것이다(단계 618). 추가의 단계들의 한 시퀀스의 반복이 수행되고 예를 들면 소정 횟수의 반복(예를 들면, 50 반복) 후에 종료한다. 각 반복은 필터링된 마스크를 형성하기 위해 로컬 커널에 현재의 스무딩된 마스크의 콘볼루션으로 시작한다(단계 622). 일부 예에서, 이 커널은 다음의 가중들을 갖고, 시간 및 주파수에서 플러스 및 마이너스 한 샘플 확장한다:
Figure 112015066192509-pct00018
0.0 내지 1.0 범위 내 값들을 가진 필터링된 마스크 F(f,n)은 예를 들면, α=2.0에 대해 시그모이드 1/(1+exp(-x))(단계 124)를 통해, 필터링된 마스크 + 원래의 생 마스크의 α배를 통과시킴으로써 형성된다. (f,n) 위치들의 한 부-세트의 부분 h, 예를 들면 h=0.5는 결정론적 패턴에 따라 랜덤하게 혹은 대안적으로 선택된다(단계 626). 반복적으로 혹은 병렬로, 이들 랜덤 위치에 스무딩된 마스크 S는 업데이트하기 위해 선택된 위치 (f,n)이 확률 F(f,n)를 갖고 +1.0에 그리고 확률 (1-F(f,n))을 갖고 -1.0에 설정되게 확률적으로 업데이트된다(단계 628). 반복 테스트(단계 632)의 끝은 단계 122-128의 반복이 예를 들면 소정 횟수의 반복으로 계속되게 한다.
추가의 계산(도 5의 흐름도엔 도시되지 않음)은 스무딩된 필터링된 마스크 SF(f,n)를 결정하기 위해 선택적으로 수행된다. 이 마스크는 범위 0.0 내지 1.0.내 량들을 가진 마스크를 얻기 위해서, 반복의 트레일링 범위에 걸쳐 계산된 필터링된 마스크의 애버리지, 예를 들면, 50 반복 중 마지막 40에 대해 계산한 애버리지에 적용되는, 시그모이드 함수로서 계산된다.
출력 마스크를 형성하기 위한 입력 마스크를 스무딩하기 위해 위에 기술된 접근법은 오디오 신호의 시간 및 성분(예를 들면, 주파수) 인덱스된 성분의 선택보다 훨씬 더 넓은 범위의 응용에 적용될 수 있음이 이해될 것이다. 예를 들면, 동일 접근법은 이미지 처리를 위한 공간적 마스크를 스무딩하기 위해 사용될 수 있고, 신호 처리의 영역 밖에서 사용될 수 있다.
일부 구현예에서, 위에 기술된 절차는 예를 들면, 시간 간격의 신호들(예를 들면, 몇초, 분, 혹은 그 이상)을 수집하고, 기술된 바와 같은 각 소스에 대한 스펙트럼 성분을 추정함으로써, 일괄 모드에서 구현될 수 있다. 이러한 구현은 신호 획득과 강화된 소스-분리된 신호의 입수가능성 간에 지연인 "오프-라인" 분석에 적합할 수 있다. 다른 구현예에서, 신호가 획득되고 예를 들면, 슬라이딩 래깅 윈도우를 사용하여 낮은 지연을 가진 소스 분리 마스크를 건조하기 위해 사용되는 스트리밍 모드가 사용된다.
요망되는 시간-주파수 성분의 선택 후에(즉, 2진 혹은 연속한-값의 출력 마스크를 형성함으로써), 강화된 신호는 예를 들면, 오디오 제시(예를 들면, 음성 통신 링크를 통한 전송)에 대해 혹은 자동화된 처리(예를 들면, 자동화된 스피치 인식 시스템을 사용하여)에 대해 시간 영역에서 형성될 수 있다. 일부 예에서, 강화된 시간 영역 신호는 외재적으로 형성될 필요가 없고, 자동화된 처리는 소스 분리 단계들을 위해 사용되는 시간-주파수 분석에 직접 작동할 수 있다.
위에 기술된 접근법은 다양한 사용자측 응용에 적용될 수 있다. 예를 들면, 다수-요소 마이크로폰(혹은 다수의 이러한 마이크로폰)은 핸드-프리 및/또는 스피커폰 모드를 지원하기 위해 개인용 통신 혹은 계산장치(예를 들면, "스마트폰", 아이-글래스 기반의 개인용, 보석-기반의 혹은 시계-기반의 컴퓨터 등)에 통합된다. 이러한 응용에서, 강화된 오디오 품질은 사용자가 말하고 있는 방향에 주력하고 및/또는 배경 노이즈의 영향을 감소시킴으로써 달성될 수 있다. 이러한 응용에서, 말하는 동안 장치를 유지 혹은 착용하기 위해 사용자에 의해 사용되는 전형적인 방위 때문에, 도달 방향 및/또는 간섭 소스의 이전 모델이 사용될 수 있다. 이러한 마이크로폰은 또한 스피치 이해 시스템에의 입력을 강화시킴으로써 사람-기계 통신을 개선할 수 있다. 또 다른 예는 사람-사람 및/또는 사람-기계 통신을 위해 자동차에서 오디오 캡처이다. 유사하게, 소비자 장치 상에(예를 들면, 텔레비전 세트 상에, 혹은 마이크로웨이브 오븐 상에) 마이크로폰은 음성 제어를 위해 강화된 오디오 입력을 제공할 수 있다. 이외 다른 응용은 예를 들면, 한 귀에 단일의 마이크로폰을 가지며 강화된 신호를 사용자에게 제공하는 보청기를 포함한다.
간섭 신호로부터 요망되는 스피치 신호를 분리하는 일부 예에서, 간섭 신호들의 적어도 일부의 위치 및/또는 구조가 알려진다. 예를 들면, 화자가 타이핑하고 있는 동안 컴퓨터에 핸드-프리 스피치 입력에서, 키보드 소리의 알려진 구조 뿐만 아니라, 마이크로폰에 관한 키보드의 위치를 사용하여 바람직하지 못한 키보드 신호로부터 요망되는 음성 신호를 분리하는 것이 가능할 수 있다. 사용자 가 사진을 찍고 있는 동안 사용자의 설명을 기록하는 카메라에서 카메라(예를 들면, 셔터) 노이즈의 영향을 완화하기 위해 유사한 접근법이 사용될 수 있다.
다수-요소 마이크로폰은 소리 구조 및 도달 방향의 조합에 의해 신호의 분리가 사용될 수 있는 다른 응용 분야에서 유용할 수 있다. 예를 들면, 기계(예를 들면, 차량 엔진, 공장 기계)의 어쿠스틱 감지는 베어링 실패의 소리 시그내처에 의해서만이 아니라, 이 시그내처를 가진 소리의 도달 방향에 의해 이러한 실패와 같은, 결함을 정확히 찾아낼 수도 있다. 일부 경우에, 기계 부품 및 이들의 가능한 실패(즉, 노이즈 유발) 모드의 방향에 관한 사전 정보는 결함 혹은 실패 검출 프로세스를 강화하기 위해 사용된다. 관계된 응용에서, 전형적으로 조용한 환경은 이들의 방향 및 구조에 기초하여 예를 들면, 보안 시스템에서, 어쿠스틱 이벤트에 대해 모니터될 수 있다. 예를 들면, 실내-기반의 어쿠스틱 센서는 실내에 창문의 방향으로부터 유리 파손을 검출하기 위해서, 그러나 서로 다른 방향들로부터 및/또는 상이한 구조를 가진 그외 다른 노이즈들을 무시하게 구성될 수 있다.
방향 어쿠스틱 감지는 가청 어쿠스틱 범위 밖에서도 유용하다. 예를 들어 초음파 센서는 근본적으로 위에 기술된 다수의 요소 마이크로폰과 같은 구조를 가질 수 있다. 일부 예에서, 장치 부근에 초음파 비콘은 기지의 신호를 발현한다. 상이한 기준 위치로부터 다수의 비콘의 전파 시간을 사용하여 삼각측량을 할 수 있는 것 외에도, 다수의 요소 초음파 센서는 또한 개개의 비콘에 대한 방향 또는 도달 정보를 결정할 수 있다. 이 도달 방향 정보는 통상의 초음파 추적을 사용하여 입수할 수 있는 것을 넘어 장치의 위치(혹은 선택적으로 방위) 추정을 개선하기 위해 사용될 수 있다. 또한, 초음파 신호를 발현하고 이어 수신된 에코를 처리하는 범위-발견 장치는 모두가 다수의 이격된 센서들을 요구함이 없이, 다른 간섭 에코들로부터 요망되는 에코를 분리하기 위해, 혹은 범위 지도를 방향의 함수로서 건조하기 위해, 에코의 도달 방향을 이용할 수 있다. 물론 이들 국부화 및 범위 발견 기술은 또한 가청 주파수 범위 내 신호에 사용될 수 있다.
위에 기술된 마이크로폰 유닛 상에 밀접하게 이격된 포트의 공면 장방형 배열은 단지 일 예임이 이해될 것이다. 일부 경우에 포트들은 공면(예를 들면, 한 면 상에 구축된 구조를 갖고, 유닛 상에 다수의 면들 상에, 등)이지 않으며, 반드시 장방향 배열 상에 배열되는 것은 아니다.
위에 기술된 어떤 모듈은 프로세서(예를 들면, 마이크로프로세서, 제어기, 추론 프로세서, 등)을 제어하기 위한 명령들을 포함하는 로직 회로 및/또는 소프트웨어(비-일시적 기계 판독가능의 매체 상에 저장된)에 구현될 수 있다. 일부 구현예에서, 컴퓨터 액세스가능 저장 매체는 시스템을 대표하는 데이터베이스를 포함한다. 일반적으로 말하여, 컴퓨터 액세스가능 저장 매체는 명령 및/또는 데이터를 컴퓨터에 제공하기 위해 사용 동안 컴퓨터에 의해 액세스가능한 임의의 비-일시적 저장 매체를 포함할 수 있다. 예를 들면, 컴퓨터 액세스가능 저장 매체는 자기 혹은 광학 디스크 및 반도체 메모리와 같은 저장 매체를 포함할 수 있다. 일반적으로, 시스템을 대표하는 데이터베이스는 프로그램에 의해 판독되고 시스템을 포함하는 하드웨어를 제조하기 위해, 직접적으로 혹은 간접적으로, 사용될 수 있는 데이터베이스 혹은 다른 데이터 구조일 수 있다. 데이터베이스는 마스크에 적용될 기하학적 형상을 포함할 수 있고, 이것은 이어 MEMS 장치 및/또는 시스템에 대응하는 반도체 회로 혹은 회로들을 제작하기 위해 다양한 MEMS 및/또는 반도체 제조 단계들에서 사용될 수 있다.
위에 설명은 첨부된 청구항의 범위에 의해 정의도는 발명의 범위를 예시하는 것이고 제한하려는 것은 아님이 이해되어야 한다. 다른 실시예는 다음 청구항의 범위 내에 있다.

Claims (36)

  1. 어쿠스틱 신호에서 소스에 따라 신호 분리를 위한 오디오 신호 분리 시스템으로서,
    복수의 어쿠스틱 포트들을 포함하는 마이크로-전기-기계 시스템(MEMS) 마이크로폰 유닛 - 각 포트는 상기 마이크로폰 유닛에 관하여 공간적 위치에서의 어쿠스틱 환경을 감지하기 위한 것임 -,
    복수의 마이크로폰 요소들 - 상기 복수의 마이크로폰 요소들 각각은 어쿠스틱 포트의 상기 공간적 위치에서의 어쿠스틱 환경에 기초하여 신호를 획득하기 위해서 상기 복수의 어쿠스틱 포트들의 상기 어쿠스틱 포트에 결합됨 -, 및
    신호 처리 유닛
    을 포함하고,
    상기 신호 처리 유닛은,
    상기 획득된 신호가 s∈[1,S]에 의해 인덱스되는 서로 구별되는 S개의 어쿠스틱 소스들에 의해 생성되고, 하나 이상의 소스의 각 어쿠스틱 소스가 z∈[1,Z]에 의해 인덱스되는 프로토타입 주파수 분포의 부-세트와 연관된다는 가정하에, 근사(approximation)가 구성 부분들로 분해될 수 있도록 상기 획득된 신호의 근사를 형성하고 상기 근사는 은닉 다수-소스 구조를 가짐 -,
    상기 근사의 모델의 성분들이 상기 획득된 신호에 매칭되도록 조절하는 것을 복수회 반복 수행하고,
    제1 어쿠스틱 소스에 대응하는 상기 구성 부분들을 사용하여, 상기 획득된 신호로부터 상기 제1 어쿠스틱 소스로부터의 기여를 분리함으로써, 상기 획득된 신호를 처리하도록 구성되는, 오디오 신호 분리 시스템.
  2. 제1항에 있어서, 하나 이상의 마이크로폰 신호들은 복수의 마이크로폰 신호들을 포함하고, 각 마이크로폰 신호는 상기 복수의 마이크로폰 요소들의 상이한 마이크로폰 요소에 대응하는, 오디오 신호 분리 시스템.
  3. 제2항에 있어서, 상기 마이크로폰 유닛은 복수의 아날로그 인터페이스들을 더 포함하고, 각 아날로그 인터페이스는 상기 복수의 마이크로폰 신호들의 한 아날로그 마이크로폰 신호를 제공하게 구성된, 오디오 신호 분리 시스템.
  4. 제1항에 있어서, 하나 이상의 마이크로폰 신호들은 디지털 신호를 포함하는, 오디오 신호 분리 시스템.
  5. 제1항에 있어서, 상기 하나 이상의 획득된 신호들 간에 변동은 복수의 스펙트럼 성분들 각각에 대해 상기 획득된 신호들 간에 상대적 위상 변동 및 상대적 지연 변동 중 적어도 하나를 나타내는, 오디오 신호 분리 시스템.
  6. 제1항에 있어서, 상기 마이크로폰 요소들의 상기 공간적 위치들은 공면 위치들인, 오디오 신호 분리 시스템.
  7. 제6항에 있어서, 상기 공면 위치들은 위치들의 규칙적인 격자를 포함하는, 오디오 신호 분리 시스템.
  8. 제1항에 있어서, 상기 MEMS 마이크로폰 유닛은 다수의 표면들을 갖는 패키지를 가지며, 어쿠스틱 포트들은 상기 패키지의 다수의 상기 면들 상에 있는, 오디오 신호 분리 시스템.
  9. 제1항에 있어서, 복수의 MEMS 마이크로폰 유닛들을 포함하는, 오디오 신호 분리 시스템.
  10. 제1항에 있어서, 상기 마이크로폰 유닛으로부터 하나 이상의 마이크로폰 신호들을 처리하고 상기 획득된 신호들 간에 변동 및 상기 하나 이상의 소스들의 신호 구조로부터 결정된 정보를 사용하여 상기 획득된 신호로부터 상기 신호들 중 대응하는 하나 이상의 소스들에 따라 분리된 하나 이상의 신호들을 출력하게 구성된 상기 마이크로폰 유닛에 결합된 오디오 프로세서를 더 포함하는, 오디오 신호 분리 시스템.
  11. 제10항에 있어서, 상기 오디오 프로세서를 구현하는 적어도 일부 회로는 상기 마이크로폰 유닛의 상기 MEMS에 통합되는, 오디오 신호 분리 시스템.
  12. 제10항에 있어서, 상기 마이크로폰 유닛 및 상기 오디오 프로세서는 함께 키트를 형성하고, 각각은 상기 오디오 신호 시스템의 동작에서 서로 통신하게 구성된 통합된 장치로서 구현되는, 오디오 신호 분리 시스템.
  13. 제10항에 있어서, 상기 하나 이상의 소스들의 상기 신호 구조는 음성 신호 구조를 포함하는, 오디오 신호 분리 시스템.
  14. 제10항에 있어서, 상기 오디오 프로세서는 상기 획득된 신호들 간에 특징적 변동을 나타내는 데이터를 계산하고 상기 획득된 신호의 성분들을 상기 특징적 변동에 따라 선택함으로써 상기 신호들을 처리하게 구성된, 오디오 신호 분리 시스템.
  15. 제14항에 있어서, 상기 신호의 상기 선택된 성분들은 상기 성분들의 시간 및 주파수에 의해 특징화되는, 오디오 신호 분리 시스템.
  16. 제14항에 있어서, 상기 오디오 프로세서는 시간 및 주파수에 의해 인덱스된 값들을 갖는 마스크를 계산하게 구성되고, 상기 성분들을 선택하는 것은 상기 오디오 프로세서에 의해 출력되는 상기 신호들 중 적어도 하나를 형성하기 위해 상기 마스크 값들을 상기 획득된 신호와 조합하는 것을 포함하는, 오디오 신호 분리 시스템.
  17. 제14항에 있어서, 상기 획득된 신호들 간에 특징적 변동을 나타내는 데이터는 도달 방향 정보를 포함하는, 오디오 신호 분리 시스템.
  18. 제10항에 있어서, 상기 오디오 프로세서는 상기 소스의 신호 구조를 사용하여 상기 하나 이상의 소스들 중 적어도 하나에 연관된 성분들을 식별하게 구성된 모듈을 포함하는, 오디오 신호 분리 시스템.
  19. 제18항에 있어서, 상기 성분들을 식별하게 구성된 상기 모듈은 확률적 추론 접근법을 구현하는, 오디오 신호 분리 시스템.
  20. 제19항에 있어서, 상기 확률적 추론 접근법은 빌리프 전파 접근법을 포함하는, 오디오 신호 분리 시스템.
  21. 제18항에 있어서, 상기 성분들을 식별하게 구성된 상기 모듈은 상기 오디오 프로세서로부터 출력된 상기 신호를 형성하기 위한 상기 성분들을 선택하기 위해 상기 마이크로폰들로부터 상기 신호들의 다수의 성분들의 도달 방향 추정들을 조합하게 구성된, 오디오 신호 분리 시스템.
  22. 제21항에 있어서, 상기 성분들을 식별하게 구성된 상기 모듈은 상기 도달 방향 추정들에 연관된 신뢰 값들을 사용하여 더욱 구성된, 오디오 신호 분리 시스템.
  23. 제18항에 있어서, 상기 성분들을 식별하게 구성된 상기 모듈은 상기 신호들의 요망되는 성분들을 식별하는데 사용을 위해 외부 정보를 받아들이기 위한 입력을 포함하는, 오디오 신호 분리 시스템.
  24. 제23항에 있어서, 상기 외부 정보는 사용자가 제공한 정보를 포함하는, 오디오 신호 분리 시스템.
  25. 제10항에 있어서, 상기 오디오 프로세서는 강화된 신호를 형성하기 위해 시간 및 주파수에 의해 특징화된 식별된 성분들에 따라 상기 마이크로폰들로부터 상기 신호들 중 하나 이상을 처리하기 위한 신호 재건 모듈을 포함하는, 오디오 신호 분리 시스템.
  26. 제25항에 있어서, 상기 신호 재건 모듈은 제어가능한 필터 뱅크를 포함하는, 오디오 신호 분리 시스템.
  27. 제1항에 있어서, 상기 신호 분리는 노이즈 감소를 포함하는, 오디오 신호 분리 시스템.
  28. 제1항에 있어서,
    상기 복수의 어쿠스틱 포트들의 공간적 위치들의 각 쌍 사이의 간격은 3 밀리미터 미만인, 오디오 신호 분리 시스템.
  29. 제1항에 있어서,
    상기 근사는 상기 획득된 신호로부터 결정된 도달 정보의 방향을 포함하는, 오디오 신호 분리 시스템.
  30. 제1항에 있어서,
    상기 신호 처리 유닛은,
    상기 획득된 신호로부터 시간 의존적(time-dependent) 스펙트럼 특성들을 계산하고 - 상기 스펙트럼 특성들은 복수의 성분들을 포함하고, 각 성분은 주파수(f)와 시간(n) 값들의 각각의 쌍과 연관됨 -,
    상기 획득된 신호로부터 도달 방향(DOA; direction of arrival) 추정들(estimates)을 계산하고 - 상기 스펙트럼 특성들의 각각의 계산된 성분은 DOA 추정들(d) 중 하나에 대응함 -,
    주파수(f), 시간(n) 및 방향(d)에 의해 인덱스되는 분포 P(f,n,d)를 표현하는 데이터 구조를 형성하기 위하여, 상기 계산된 스펙트럼 특성들과 상기 계산된 DOA 추정들을 결합함으로써 상기 획득된 신호를 처리하게끔 더 구성되고,
    상기 획득된 신호의 상기 근사는 상기 분포 P(f,n,d)의 근사 Q(f,n,d)를 포함하는, 오디오 신호 분리 시스템.
  31. 제30항에 있어서,
    상기 근사의 모델의 성분들이 상기 획득된 신호에 매칭되도록 조절하는 것을 복수회 반복 수행하는 것은, 상기 근사 Q(f,n,d)의 모델의 성분들이 상기 분포 P(f,n,d)에 의해 표현되는 상기 획득된 신호에 매칭되도록 조절하는 것을 복수회 반복 수행하는 것을 포함하는, 오디오 신호 분리 시스템.
  32. 어쿠스틱 신호에서 소스에 따라 오디오 신호를 분리하는 방법으로서,
    복수의 어쿠스틱 포트들을 사용하여 마이크로폰 유닛에 관하여 공간적 위치에 어쿠스틱 환경을 감지하는 단계;
    어쿠스틱 포트의 상기 공간적 위치에 어쿠스틱 환경에 기초하여 신호를 획득하기 위해서 상기 복수의 어쿠스틱 포트들의 상기 어쿠스틱 포트에 복수의 마이크로폰 요소들을 결합하는 단계;
    상기 획득된 신호가 s∈[1,S]에 의해 인덱스되는 서로 구별되는 S개의 어쿠스틱 소스들에 의해 생성되고, 하나 이상의 소스의 각 어쿠스틱 소스가 z∈[1,Z]에 의해 인덱스되는 프로토타입 주파수 분포의 부-세트와 연관된다는 가정하에, 근사(approximation)가 구성 부분들로 분해될 수 있도록 상기 획득된 신호의 근사를 형성하는 단계 - 상기 근사는 은닉 다수-소스 구조를 가짐 -;
    상기 근사의 모델의 성분들이 상기 획득된 신호에 매칭되도록 조절하는 것을 복수회 반복 수행하는 단계;
    제1 어쿠스틱 소스에 대응하는 상기 구성 부분들을 사용하여 상기 획득된 신호로부터 상기 제1 어쿠스틱 소스로부터의 기여를 분리하는 단계
    를 포함하는 방법.
  33. 제32항에 있어서, 상기 복수의 어쿠스틱 포트들의 공간적 위치들의 각 쌍 사이의 간격은 3 밀리미터 미만인, 방법.
  34. 제32항에 있어서,
    상기 근사는 상기 획득된 신호로부터 결정된 도달 정보의 방향을 포함하는, 방법.
  35. 제32항에 있어서,
    상기 획득된 신호로부터 시간 의존적(time-dependent) 스펙트럼 특성들을 계산하는 단계 - 상기 스펙트럼 특성들은 복수의 성분들을 포함하고, 각 성분은 주파수(f)와 시간(n) 값들의 각각의 쌍과 연관됨 -;
    상기 획득된 신호로부터 도달 방향(DOA; direction of arrival) 추정들(estimates)을 계산하는 단계 - 상기 스펙트럼 특성들의 각각의 계산된 성분은 DOA 추정들(d) 중 하나에 대응함 -;
    주파수(f), 시간(n) 및 방향(d)에 의해 인덱스되는 분포 P(f,n,d)를 표현하는 데이터 구조를 형성하기 위하여, 상기 계산된 스펙트럼 특성들과 상기 계산된 DOA 추정들을 결합하는 단계
    를 포함하고,
    상기 획득된 신호의 상기 근사는 상기 분포 P(f,n,d)의 근사 Q(f,n,d)를 포함하는, 방법.
  36. 제35항에 있어서,
    상기 근사의 모델의 성분들이 상기 획득된 신호에 매칭되도록 조절하는 것을 복수회 반복 수행하는 단계는, 상기 근사 Q(f,n,d)의 모델의 성분들이 상기 분포 P(f,n,d)에 의해 표현되는 상기 획득된 신호에 매칭되도록 조절하는 것을 복수회 반복 수행하는 단계를 포함하는, 방법.
KR1020157018339A 2013-02-13 2014-02-13 신호 소스 분리 KR101688354B1 (ko)

Applications Claiming Priority (13)

Application Number Priority Date Filing Date Title
US201361764290P 2013-02-13 2013-02-13
US61/764,290 2013-02-13
US201361788521P 2013-03-15 2013-03-15
US61/788,521 2013-03-15
US201361881678P 2013-09-24 2013-09-24
US201361881709P 2013-09-24 2013-09-24
US61/881,678 2013-09-24
US61/881,709 2013-09-24
US201361919851P 2013-12-23 2013-12-23
US14/138,587 2013-12-23
US61/919,851 2013-12-23
US14/138,587 US9460732B2 (en) 2013-02-13 2013-12-23 Signal source separation
PCT/US2014/016159 WO2014127080A1 (en) 2013-02-13 2014-02-13 Signal source separation

Publications (2)

Publication Number Publication Date
KR20150093801A KR20150093801A (ko) 2015-08-18
KR101688354B1 true KR101688354B1 (ko) 2016-12-20

Family

ID=51297444

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020157018339A KR101688354B1 (ko) 2013-02-13 2014-02-13 신호 소스 분리

Country Status (5)

Country Link
US (1) US9460732B2 (ko)
EP (1) EP2956938A1 (ko)
KR (1) KR101688354B1 (ko)
CN (1) CN104995679A (ko)
WO (1) WO2014127080A1 (ko)

Families Citing this family (71)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7922321B2 (en) 2003-10-09 2011-04-12 Ipventure, Inc. Eyewear supporting after-market electrical components
US8109629B2 (en) 2003-10-09 2012-02-07 Ipventure, Inc. Eyewear supporting electrical components and apparatus therefor
US7500746B1 (en) 2004-04-15 2009-03-10 Ip Venture, Inc. Eyewear with radiation detection system
US11630331B2 (en) 2003-10-09 2023-04-18 Ingeniospec, Llc Eyewear with touch-sensitive input surface
US11513371B2 (en) 2003-10-09 2022-11-29 Ingeniospec, Llc Eyewear with printed circuit board supporting messages
US11644693B2 (en) 2004-07-28 2023-05-09 Ingeniospec, Llc Wearable audio system supporting enhanced hearing support
US11829518B1 (en) 2004-07-28 2023-11-28 Ingeniospec, Llc Head-worn device with connection region
US11852901B2 (en) 2004-10-12 2023-12-26 Ingeniospec, Llc Wireless headset supporting messages and hearing enhancement
US11733549B2 (en) 2005-10-11 2023-08-22 Ingeniospec, Llc Eyewear having removable temples that support electrical components
US9460732B2 (en) 2013-02-13 2016-10-04 Analog Devices, Inc. Signal source separation
EP3050056B1 (en) 2013-09-24 2018-09-05 Analog Devices, Inc. Time-frequency directional processing of audio signals
US9420368B2 (en) * 2013-09-24 2016-08-16 Analog Devices, Inc. Time-frequency directional processing of audio signals
US9532125B2 (en) * 2014-06-06 2016-12-27 Cirrus Logic, Inc. Noise cancellation microphones with shared back volume
GB2526945B (en) * 2014-06-06 2017-04-05 Cirrus Logic Inc Noise cancellation microphones with shared back volume
US9631996B2 (en) 2014-07-03 2017-04-25 Infineon Technologies Ag Motion detection using pressure sensing
US9782672B2 (en) 2014-09-12 2017-10-10 Voyetra Turtle Beach, Inc. Gaming headset with enhanced off-screen awareness
WO2016100460A1 (en) * 2014-12-18 2016-06-23 Analog Devices, Inc. Systems and methods for source localization and separation
US9945884B2 (en) 2015-01-30 2018-04-17 Infineon Technologies Ag System and method for a wind speed meter
CN105989851B (zh) 2015-02-15 2021-05-07 杜比实验室特许公司 音频源分离
US10499164B2 (en) * 2015-03-18 2019-12-03 Lenovo (Singapore) Pte. Ltd. Presentation of audio based on source
US9877114B2 (en) * 2015-04-13 2018-01-23 DSCG Solutions, Inc. Audio detection system and methods
CN106297820A (zh) 2015-05-14 2017-01-04 杜比实验室特许公司 具有基于迭代加权的源方向确定的音频源分离
WO2017017569A1 (en) * 2015-07-26 2017-02-02 Vocalzoom Systems Ltd. Enhanced automatic speech recognition
US10014003B2 (en) * 2015-10-12 2018-07-03 Gwangju Institute Of Science And Technology Sound detection method for recognizing hazard situation
US10032464B2 (en) 2015-11-24 2018-07-24 Droneshield, Llc Drone detection and classification with compensation for background clutter sources
CN107924685B (zh) * 2015-12-21 2021-06-29 华为技术有限公司 信号处理装置和方法
US10412490B2 (en) 2016-02-25 2019-09-10 Dolby Laboratories Licensing Corporation Multitalker optimised beamforming system and method
US20170270406A1 (en) * 2016-03-18 2017-09-21 Qualcomm Incorporated Cloud-based processing using local device provided sensor data and labels
JP6818445B2 (ja) * 2016-06-27 2021-01-20 キヤノン株式会社 音データ処理装置および音データ処理方法
EP3293733A1 (en) * 2016-09-09 2018-03-14 Thomson Licensing Method for encoding signals, method for separating signals in a mixture, corresponding computer program products, devices and bitstream
CN106504762B (zh) * 2016-11-04 2023-04-14 中南民族大学 鸟类群落数量估计系统及其方法
JP6374466B2 (ja) * 2016-11-11 2018-08-15 ファナック株式会社 センサインタフェース装置、測定情報通信システム、測定情報通信方法、及び測定情報通信プログラム
US9881634B1 (en) * 2016-12-01 2018-01-30 Arm Limited Multi-microphone speech processing system
US10770091B2 (en) * 2016-12-28 2020-09-08 Google Llc Blind source separation using similarity measure
CN110088635B (zh) * 2017-01-18 2022-09-20 赫尔实验室有限公司 用于去噪和盲源分离的认知信号处理器、方法与介质
JP6472824B2 (ja) * 2017-03-21 2019-02-20 株式会社東芝 信号処理装置、信号処理方法および音声の対応づけ提示装置
CN107221326B (zh) * 2017-05-16 2021-05-28 百度在线网络技术(北京)有限公司 基于人工智能的语音唤醒方法、装置和计算机设备
DE102018117558A1 (de) * 2017-07-31 2019-01-31 Harman Becker Automotive Systems Gmbh Adaptives nachfiltern
GB2567013B (en) * 2017-10-02 2021-12-01 Icp London Ltd Sound processing system
US10535361B2 (en) * 2017-10-19 2020-01-14 Kardome Technology Ltd. Speech enhancement using clustering of cues
CN107785027B (zh) * 2017-10-31 2020-02-14 维沃移动通信有限公司 一种音频处理方法及电子设备
US10171906B1 (en) * 2017-11-01 2019-01-01 Sennheiser Electronic Gmbh & Co. Kg Configurable microphone array and method for configuring a microphone array
US11209306B2 (en) * 2017-11-02 2021-12-28 Fluke Corporation Portable acoustic imaging tool with scanning and analysis capability
CN109767774A (zh) * 2017-11-08 2019-05-17 阿里巴巴集团控股有限公司 一种交互方法和设备
WO2019106221A1 (en) * 2017-11-28 2019-06-06 Nokia Technologies Oy Processing of spatial audio parameters
CN108198569B (zh) * 2017-12-28 2021-07-16 北京搜狗科技发展有限公司 一种音频处理方法、装置、设备及可读存储介质
WO2019183824A1 (en) * 2018-03-28 2019-10-03 Wong King Bong Detector, system and method for detecting vehicle lock status
US10777048B2 (en) * 2018-04-12 2020-09-15 Ipventure, Inc. Methods and apparatus regarding electronic eyewear applicable for seniors
CN110398338B (zh) * 2018-04-24 2021-03-19 广州汽车集团股份有限公司 在风洞试验中获得风噪语音清晰度贡献量的方法及系统
CN109146847B (zh) * 2018-07-18 2022-04-05 浙江大学 一种基于半监督学习的晶圆图批量分析方法
EP3824649A4 (en) 2018-07-19 2022-04-20 Cochlear Limited POLLUTION-PROOF MICROPHONE ARRANGEMENT
JP7177631B2 (ja) * 2018-08-24 2022-11-24 本田技研工業株式会社 音響シーン再構成装置、音響シーン再構成方法、およびプログラム
US11482239B2 (en) * 2018-09-17 2022-10-25 Aselsan Elektronik Sanayi Ve Ticaret Anonim Sirketi Joint source localization and separation method for acoustic sources
TWI700004B (zh) * 2018-11-05 2020-07-21 塞席爾商元鼎音訊股份有限公司 減少干擾音影響之方法及聲音播放裝置
US20220022000A1 (en) * 2018-11-13 2022-01-20 Dolby Laboratories Licensing Corporation Audio processing in immersive audio services
US20200184994A1 (en) * 2018-12-07 2020-06-11 Nuance Communications, Inc. System and method for acoustic localization of multiple sources using spatial pre-filtering
CN109741759B (zh) * 2018-12-21 2020-07-31 南京理工大学 一种面向特定鸟类物种的声学自动检测方法
WO2020172790A1 (en) * 2019-02-26 2020-09-03 Harman International Industries, Incorporated Method and system for voice separation based on degenerate unmixing estimation technique
JP7245669B2 (ja) * 2019-02-27 2023-03-24 本田技研工業株式会社 音源分離装置、音源分離方法、およびプログラム
CN113557568A (zh) * 2019-03-07 2021-10-26 哈曼国际工业有限公司 用于语音分离的方法和系统
CN109765212B (zh) * 2019-03-11 2021-06-08 广西科技大学 拉曼光谱中不同步褪色荧光的消除方法
CN110118702A (zh) * 2019-04-23 2019-08-13 瑞声声学科技(深圳)有限公司 一种玻璃破碎检测装置及方法
CN110095225A (zh) * 2019-04-23 2019-08-06 瑞声声学科技(深圳)有限公司 一种玻璃破碎检测装置及方法
CN110261816B (zh) * 2019-07-10 2020-12-15 苏州思必驰信息科技有限公司 语音波达方向估计方法及装置
US11631325B2 (en) * 2019-08-26 2023-04-18 GM Global Technology Operations LLC Methods and systems for traffic light state monitoring and traffic light to lane assignment
US20230088989A1 (en) * 2020-02-21 2023-03-23 Harman International Industries, Incorporated Method and system to improve voice separation by eliminating overlap
EP3885311A1 (en) * 2020-03-27 2021-09-29 ams International AG Apparatus for sound detection, sound localization and beam forming and method of producing such apparatus
TWI778437B (zh) * 2020-10-23 2022-09-21 財團法人資訊工業策進會 用於音頻裝置的瑕疵檢測裝置及瑕疵檢測方法
CN112565119B (zh) * 2020-11-30 2022-09-27 西北工业大学 一种基于时变混合信号盲分离的宽带doa估计方法
CN115810364B (zh) * 2023-02-07 2023-04-28 海纳科德(湖北)科技有限公司 混音环境中的端到端目标声信号提取方法及系统
CN117574113B (zh) * 2024-01-15 2024-03-15 北京建筑大学 一种基于球坐标欠定盲源分离的轴承故障监测方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009005071A (ja) * 2007-06-21 2009-01-08 Funai Electric Advanced Applied Technology Research Institute Inc 音声入出力装置及び通話装置

Family Cites Families (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9026906D0 (en) 1990-12-11 1991-01-30 B & W Loudspeakers Compensating filters
US7092539B2 (en) * 2000-11-28 2006-08-15 University Of Florida Research Foundation, Inc. MEMS based acoustic array
US6937648B2 (en) 2001-04-03 2005-08-30 Yitran Communications Ltd Equalizer for communication over noisy channels
US6688169B2 (en) * 2001-06-15 2004-02-10 Textron Systems Corporation Systems and methods for sensing an acoustic signal using microelectromechanical systems technology
US6889189B2 (en) 2003-09-26 2005-05-03 Matsushita Electric Industrial Co., Ltd. Speech recognizer performance in car and home applications utilizing novel multiple microphone configurations
US7415392B2 (en) 2004-03-12 2008-08-19 Mitsubishi Electric Research Laboratories, Inc. System for separating multiple sound sources from monophonic input with non-negative matrix factor deconvolution
US7296045B2 (en) 2004-06-10 2007-11-13 Hasan Sehitoglu Matrix-valued methods and apparatus for signal processing
JP4449871B2 (ja) 2005-01-26 2010-04-14 ソニー株式会社 音声信号分離装置及び方法
JP2006337851A (ja) 2005-06-03 2006-12-14 Sony Corp 音声信号分離装置及び方法
KR100959983B1 (ko) 2005-08-11 2010-05-27 아사히 가세이 가부시키가이샤 음원 분리 장치, 음성 인식 장치, 휴대 전화기, 음원 분리방법, 및, 프로그램
WO2007024909A1 (en) 2005-08-23 2007-03-01 Analog Devices, Inc. Multi-microphone system
US7656942B2 (en) 2006-07-20 2010-02-02 Hewlett-Packard Development Company, L.P. Denoising signals containing impulse noise
US8005238B2 (en) * 2007-03-22 2011-08-23 Microsoft Corporation Robust adaptive beamforming with enhanced noise suppression
JP4950733B2 (ja) * 2007-03-30 2012-06-13 株式会社メガチップス 信号処理装置
CN101296531B (zh) * 2007-04-29 2012-08-08 歌尔声学股份有限公司 硅电容麦克风阵列
US8005237B2 (en) * 2007-05-17 2011-08-23 Microsoft Corp. Sensor array beamformer post-processor
US8180062B2 (en) 2007-05-30 2012-05-15 Nokia Corporation Spatial sound zooming
EP2007167A3 (en) * 2007-06-21 2013-01-23 Funai Electric Advanced Applied Technology Research Institute Inc. Voice input-output device and communication device
GB0720473D0 (en) 2007-10-19 2007-11-28 Univ Surrey Accoustic source separation
US8144896B2 (en) 2008-02-22 2012-03-27 Microsoft Corporation Speech separation with microphone arrays
JP5294300B2 (ja) 2008-03-05 2013-09-18 国立大学法人 東京大学 音信号の分離方法
US8796790B2 (en) 2008-06-25 2014-08-05 MCube Inc. Method and structure of monolithetically integrated micromachined microphone using IC foundry-compatiable processes
US8796746B2 (en) 2008-07-08 2014-08-05 MCube Inc. Method and structure of monolithically integrated pressure sensor using IC foundry-compatible processes
US20100138010A1 (en) 2008-11-28 2010-06-03 Audionamix Automatic gathering strategy for unsupervised source separation algorithms
JP2010187363A (ja) * 2009-01-16 2010-08-26 Sanyo Electric Co Ltd 音響信号処理装置及び再生装置
JP5229053B2 (ja) 2009-03-30 2013-07-03 ソニー株式会社 信号処理装置、および信号処理方法、並びにプログラム
US8340943B2 (en) 2009-08-28 2012-12-25 Electronics And Telecommunications Research Institute Method and system for separating musical sound source
CA2774415C (en) 2009-10-05 2017-09-05 Harman International Industries, Incorporated System for spatial extraction of audio signals
JP5423370B2 (ja) * 2009-12-10 2014-02-19 船井電機株式会社 音源探査装置
JP5691181B2 (ja) * 2010-01-27 2015-04-01 船井電機株式会社 マイクロホンユニット、及び、それを備えた音声入力装置
KR101670313B1 (ko) 2010-01-28 2016-10-28 삼성전자주식회사 음원 분리를 위해 자동적으로 문턱치를 선택하는 신호 분리 시스템 및 방법
US8611565B2 (en) * 2010-04-14 2013-12-17 The United States Of America As Represented By The Secretary Of The Army Microscale implementation of a bio-inspired acoustic localization device
US8583428B2 (en) * 2010-06-15 2013-11-12 Microsoft Corporation Sound source separation using spatial filtering and regularization phases
US8639499B2 (en) 2010-07-28 2014-01-28 Motorola Solutions, Inc. Formant aided noise cancellation using multiple microphones
JP2012234150A (ja) 2011-04-18 2012-11-29 Sony Corp 音信号処理装置、および音信号処理方法、並びにプログラム
JP5799619B2 (ja) 2011-06-24 2015-10-28 船井電機株式会社 マイクロホンユニット
CN103891307B (zh) * 2011-10-19 2018-04-24 索诺瓦公司 微音器组件以及相应的系统和方法
US9354295B2 (en) 2012-04-13 2016-05-31 Qualcomm Incorporated Systems, methods, and apparatus for estimating direction of arrival
US8884150B2 (en) * 2012-08-03 2014-11-11 The Penn State Research Foundation Microphone array transducer for acoustical musical instrument
EP2731359B1 (en) 2012-11-13 2015-10-14 Sony Corporation Audio processing device, method and program
US9460732B2 (en) 2013-02-13 2016-10-04 Analog Devices, Inc. Signal source separation
JP2014219467A (ja) 2013-05-02 2014-11-20 ソニー株式会社 音信号処理装置、および音信号処理方法、並びにプログラム
EP3050056B1 (en) 2013-09-24 2018-09-05 Analog Devices, Inc. Time-frequency directional processing of audio signals
WO2015157013A1 (en) 2014-04-11 2015-10-15 Analog Devices, Inc. Apparatus, systems and methods for providing blind source separation services

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009005071A (ja) * 2007-06-21 2009-01-08 Funai Electric Advanced Applied Technology Research Institute Inc 音声入出力装置及び通話装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Marcos Turqueti et al., ‘MEMS acoustic array embedded in an FPGA based data acquisition and signal processing system’, IEEE Internatinal midwest symposium on circuits and systems, August 2010.*

Also Published As

Publication number Publication date
US9460732B2 (en) 2016-10-04
US20140226838A1 (en) 2014-08-14
KR20150093801A (ko) 2015-08-18
CN104995679A (zh) 2015-10-21
WO2014127080A1 (en) 2014-08-21
EP2956938A1 (en) 2015-12-23

Similar Documents

Publication Publication Date Title
KR101688354B1 (ko) 신호 소스 분리
US20160071526A1 (en) Acoustic source tracking and selection
WO2020108614A1 (zh) 音频识别方法、定位目标音频的方法、装置和设备
US9420368B2 (en) Time-frequency directional processing of audio signals
JP6129316B2 (ja) 情報に基づく多チャネル音声存在確率推定を提供するための装置および方法
CN112349297B (zh) 一种基于麦克风阵列的抑郁症检测方法
CN113113034A (zh) 用于平面麦克风阵列的多源跟踪和语音活动检测
US20170140771A1 (en) Information processing apparatus, information processing method, and computer program product
JP2019503107A (ja) 音響信号を向上させるための音響信号処理装置および方法
JP2008079256A (ja) 音響信号処理装置、音響信号処理方法及びプログラム
KR101720514B1 (ko) Dcica를 이용한 dnn 기반 특징향상을 수행하는 음성인식장치 및 방법
Traa et al. Multichannel source separation and tracking with RANSAC and directional statistics
US20220201421A1 (en) Spatial audio array processing system and method
KR20210137146A (ko) 큐의 클러스터링을 사용한 음성 증강
Martín-Doñas et al. Dual-channel DNN-based speech enhancement for smartphones
WO2015048070A1 (en) Time-frequency directional processing of audio signals
Madhu et al. Acoustic source localization with microphone arrays
EP2745293B1 (en) Signal noise attenuation
Bologni et al. Acoustic reflectors localization from stereo recordings using neural networks
Paikrao et al. Consumer Personalized Gesture Recognition in UAV Based Industry 5.0 Applications
Kim et al. Sound source separation algorithm using phase difference and angle distribution modeling near the target.
Lim et al. Speaker localization in noisy environments using steered response voice power
Hu et al. Robust speaker's location detection in a vehicle environment using GMM models
Casebeer et al. Communication-cost aware microphone selection for neural speech enhancement with ad-hoc microphone arrays
Salvati et al. Time Delay Estimation for Speaker Localization Using CNN-Based Parametrized GCC-PHAT Features.

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right