KR20100105700A - 멀티-마이크로폰 기반 스피치 향상을 위한 시스템들, 방법들, 및 장치 - Google Patents

멀티-마이크로폰 기반 스피치 향상을 위한 시스템들, 방법들, 및 장치 Download PDF

Info

Publication number
KR20100105700A
KR20100105700A KR1020107015904A KR20107015904A KR20100105700A KR 20100105700 A KR20100105700 A KR 20100105700A KR 1020107015904 A KR1020107015904 A KR 1020107015904A KR 20107015904 A KR20107015904 A KR 20107015904A KR 20100105700 A KR20100105700 A KR 20100105700A
Authority
KR
South Korea
Prior art keywords
signal
input signal
spatial processing
channel
processor
Prior art date
Application number
KR1020107015904A
Other languages
English (en)
Other versions
KR101172180B1 (ko
Inventor
궉-레웅 찬
제레미 토만
에릭 비써
현진 박
Original Assignee
콸콤 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 콸콤 인코포레이티드 filed Critical 콸콤 인코포레이티드
Publication of KR20100105700A publication Critical patent/KR20100105700A/ko
Application granted granted Critical
Publication of KR101172180B1 publication Critical patent/KR101172180B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02165Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Telephone Function (AREA)

Abstract

복수의 공간 분리 필터들 중에서 선택된 필터에 의해 생성되는 신호의 출력을 포함하는 M-채널 입력 신호를 프로세싱하기 위한 시스템들, 방법들 및 장치가 설명된다. 잡음 환경으로부터 음향 신호를 분리하기 위한 애플리케이션들이 설명되며, 멀티-마이크로폰 핸드헬드 디바이스 상에서 구현될 수 있는 구성들 역시 기재된다.

Description

멀티-마이크로폰 기반 스피치 향상을 위한 시스템들, 방법들, 및 장치{SYSTEMS, METHODS, AND APPARATUS FOR MULTI-MICROPHONE BASED SPEECH ENHANCEMENT}
본 발명은 스피치 프로세싱에 관한 것이다.
본 특허출원은, 출원번호가 61/015,084이고 발명의 명칭이 "SYSTEM AND METHOD FOR MULTI-MICROPHONE BASED SPEECH ENHANCEMENT IN HANDSETS"이고 출원일이 2007년 12월 19일인 가출원; 출원번호가 61/016,792이고 발명의 명칭이 "SYSTEM AND METHOD FOR MULTI-MICROPHONE BASED SPEECH ENHANCEMENT IN HANDSETS"이고 출원일이 2007년 12월 26일인 가출원; 출원번호가 61/077,147이고 발명의 명칭이 "SYSTEM AND METHOD FOR MULTI-MICROPHONE BASED SPEECH ENHANCEMENT IN HANDSETS,"이고 출원일이 2008년 6월 30일인 가출원; 및 출원번호가 61/079,359이고 발명의 명칭이 "SYSTEMS, METHODS, AND APPARATUS FOR MULTI-MICROPHONE BASED SPEECH ENHANCEMENT,"이고 출원일이 2008년 7월 9일인 가출원의 우선권을 청구하며, 이들 출원들은 본 발명의 양수인에게 양도된다.
정보 신호는 회피할 수 없이 시끄러운 환경에서 캡쳐될 수 있다. 결과적으로, 원하는 정보 소스로부터의 신호 및 하나 이상의 간섭 소스들로부터의 신호들을 포함하는 몇몇 소스 신호들의 중첩들 및 선형 결합들과 정보 신호를 구별하는 것이 바람직할 수 있다. 이러한 문제는 음성 통신들에 대한 다양한 음향 애플리케이션들(예를 들어, 텔레포니)을 발생시킬 수 있다.
이러한 믹스처(mixture)로부터 신호를 분리하는 한가지 방식은 믹싱 환경의 역(inverse)에 근접한 언믹싱(unmixing) 행렬을 형성하는 것이다. 그러나, 현실적인 캡쳐 환경들은 종종 시간 지연들, 다중경로들, 반사, 위상 차들, 에코들, 및/또는 잔향(reverberation)과 같은 영향들을 포함한다. 이러한 영향들은 종래의 선형 모델링 방법들에 문제점들을 야기할 수 있으며 또한 주파수-종속적일 수 있는 소스 신호들의 컨볼루션 믹스처(convolutive mixture)들을 생성한다. 이러한 믹스처들로부터 하나 이상의 원하는 신호들을 분리하기 하기 위한 신호 프로세싱 방법들을 개발하는 것이 바람직하다.
한 사람이 음성 통신 채널을 이용하여 다른 사람과 통신하기를 원할 수 있다. 상기 채널은, 예를 들어, 모바일 무선 핸드셋 또는 헤드셋, 워키-토키, 양방향 라디오, 자동차-키트 또는 다른 통신 디바이스에 의해 제공될 수 있다. 상기 사람이 얘기할 때, 통신 디바이스 상의 마이크로폰들은 그 사람의 사운드를 수신하여 그것을 전자 신호로 변환한다. 상기 마이크로폰들은 또한 다양한 잡음 소스들로부터 사운드 신호들을 수신할 수 있으며, 따라서, 상기 전자 신호들 역시 잡음 컴포넌트를 포함할 수 있다. 상기 마이크로폰들이 사람의 입에서 다소 떨어져서 위치될 수 있고, 상기 환경은 많은 제어불가능한 잡음 소스들을 포함할 수 있으므로, 상기 잡음 컴포넌트는 상기 신호의 중요 컴포넌트일 수 있다. 이러한 중요 잡음은 불만족스러운 통신 경험을 야기할 수 있고 그리고/또는 상기 통신 디바이스가 비효율적인 방식으로 동작하게 할 수 있다.
음향 환경은 종종 시끄러워서 원하는 정보 신호를 신뢰성 있게 검출하고 이에 반응하는 것을 어렵게 한다. 일 특정 예에서, 스피치 신호는 잡음 환경에서 생성되고, 스피치 프로세싱 방법들이 상기 환경적 잡음으로부터 상기 스피치 신호를 분리하기 위해 사용된다. 잡음이 실제 환경들에서 거의 항상 존재하므로, 이러한 스피치 신호 프로세싱은 일상적인 통신의 많은 부분에 있어서 중요하다. 잡음은 관심있는 스피치 신호를 간섭하거나 저하시키는 모든 신호들의 조합으로서 정의될 수 있다. 실제로는 단일 포인트 잡음 소스들을 포함하는 다수의 잡음 소스들이 많은데, 이는 종종 다중 사운드들을 넘어서 잔향을 야기한다. 원하는 스피치 신호가 배경 잡음으로부터 분리되고 격리되지 않는 한, 신뢰성 있게 효율적으로 그것을 사용하는 것이 어려울 수 있다. 배경 잡음은 일반적인 환경에 의해 생성되는 다수의 잡음 신호들, 및 다른 사람들의 배경 대화들에 의해 생성되는 신호들 및 신호 각각으로부터 생성된 반사들 및 잔향을 포함할 수 있다. 통신이 잡음 환경들에서 발생하는 애플리케이션들에 대해, 원하는 스피치 신호들을 배경 잡음으로부터 분리하는 것이 바람직할 수 있다.
배경 잡음 신호들로부터 원하는 사운드 신호들을 분리하기 위한 기존의 방법들은 단순한 필터링 프로세스들을 포함한다. 이러한 방법들은 단순하며 사운드 신호들의 실시간 프로세싱을 위해 충분히 빠르지만, 이들은 상이한 사운드 환경들에 쉽게 적응될 수 없으며 원하는 스피치 신호의 상당한 저하를 초래할 수 있다. 예를 들어, 상기 프로세스는 과-포함적(over-inclusive)인 잡음 특성들의 미리 결정된 가정들의 세트에 따라 컴포넌트들을 제거할 수 있어서, 원하는 스피치 신호 부분들이 잡음으로서 분류되어 제거된다. 대안적으로, 상기 프로세스는 과소-포함적인 잡음 특성들의 미리 결정된 가정들의 세트에 따라 컴포넌트들을 제거할 수 있어서, 음악 또는 대화와 같은 배경 잡음 부분들이 원하는 신호로서 분류되어 필터링된 출력 스피치 신호 내에 유지된다.
PDA들 및 셀폰들과 같은 핸드셋들은 셀룰러 또는 인터넷 네트워크에 모바일 액세스를 위한 플랫폼들로서 서빙하는, 선택의 모바일 스피치 통신 디바이스로서 급속하게 병합되고 있다. 조용한 사무실 또는 가정 환경들에서 데스크톱 컴퓨터들, 랩톱 컴퓨터들, 및 오피스 전화들 상에서 이전에 수행되었던 더 많은 기능들이 자동차, 거리, 또는 카페와 같은 일상적인 상황들에서 수행된다. 이러한 경향은 음성 통신의 상당량이, 사람들이 모이는 경향이 있는 곳에서 통상적으로 당면하게 되는 일종의 잡음 컨텐츠와 함께 사용자들이 다른 사람들에 의해 둘러싸인 환경에서 발생하는 것을 의미한다. (예를 들어, 경쟁 발화자(talker)들, 음악, 배블(babble), 공항 잡음을 포함하는) 이러한 종류의 잡음의 서명은 통상적으로 비고정적이며 사용자 고유의 주파수 서명에 근접하므로, 이러한 잡음은 종래의 단일 마이크로폰 또는 고정된 빔형성 타입 방법들을 사용하여 모델링하기 어려울 수 있다. 또한 이러한 잡음은 전화 통화들에서 사용자들을 방해하거나 짜증나게 하기 쉽다. 또한, 많은 표준 자동화된 비즈니스 거래들(예를 들어, 계좌 잔고 또는 주식 시세 체크)은 음성 인식 기반 데이터 조회를 사용할 수 있으며, 이들 시스템들의 정확도는 잡음 간섭에 의해 현저하게 방해받을 수 있다. 따라서, 다수의 마이크로폰 기반 향상된 신호 프로세싱은 예를 들어, 잡음 환경들에서의 핸드셋 사용을 지원하기 위해 바람직할 수 있다.
일반적인 구성에 따라, 공간적으로 필터링된 출력 신호를 생성하기 위해 스피치 컴포넌트 및 잡음 컴포넌트를 포함하는 M-채널 입력 신호를 생성하기 위한 방법 ― M은 1보다 더 큰 정수임 ― 은 제 1 공간 프로세싱 필터를 상기 입력 신호에 적용하는 단계 및 제 2 공간 프로세싱 필터를 상기 입력 신호에 적용하는 단계를 포함한다. 이 방법은, 제 1 시간에서, 상기 제 1 공간 프로세싱 필터가 상기 제 2 공간 프로세싱 필터보다 더 양호하게 상기 스피치 및 잡음 컴포넌트들을 분리하기 시작하는 단계, 및 상기 제 1 시간에서의 결정에 응답하여, 상기 출력 신호로서 제 1 공간적으로 프로세싱된 신호에 기초하는 신호를 생성하는 단계를 포함한다. 이 방법은, 상기 제 1 시간에 후속하는 제 2 시간에서, 상기 제 2 공간 프로세싱 필터가 상기 제 1 공간 프로세싱 필터보다 더 양호하게 상기 스피치 및 잡음 컴포넌트들을 분리하기 시작한다는 것을 결정하는 단계, 및 상기 제 2 시간에서의 결정에 응답하여, 상기 출력 신호로서 제 2의 공간적으로 프로세싱된 신호에 기초하는 신호를 생성하는 단계를 포함한다. 이러한 방법에 있어서, 상기 제 1 및 제 2의 공간적으로 프로세싱된 신호들은 상기 입력 신호에 기초한다.
또한 상기 방법의 예들이 설명된다. 한가지 이러한 예에서, 공간적으로 필터링된 출력 신호를 생성하기 위해 스피치(speech) 컴포넌트 및 잡음 컴포넌트를 포함하는 M-채널 입력 신호를 프로세싱하는 방법 ― M은 1보다 더 큰 정수임 ― 은 상기 입력 신호에 제 1 공간 프로세싱 필터를 적용하는 단계 및 상기 입력 신호에 제 2 공간 프로세싱 필터를 적용하는 단계를 포함한다. 이 방법은 제 1 시간에서, 상기 제 1 공간 프로세싱 필터가 상기 제 2 공간 프로세싱 필터보다 더 양호하게 상기 스피치 및 잡음 컴포넌트들을 분리하기 시작함을 결정하는 단계, 및 상기 제 1 시간에서의 결정에 응답하여, 제 1의 공간적으로 프로세싱된 신호에 기초하는 신호를 출력 신호로서 생성하는 단계를 포함한다. 이러한 방법은 상기 제 1 시간에 후속하는 제 2 시간에서, 상기 제 2 공간 프로세싱 필터가 상기 제 1 공간 프로세싱 필터보다 더 양호하게 상기 스피치 및 잡음 컴포넌트들을 분리하기 시작함을 결정하는 단계, 및 상기 제 2 시간에서의 결정에 응답하여, 제 2의 공간적으로 프로세싱된 신호에 기초하는 신호를 출력 신호로서 생성하는 단계를 포함한다.
또다른 일반적인 구성에 따라, 공간적으로 필터링된 출력 신호를 생성하기 위해 스피치 컴포넌트와 잡음 컴포넌트를 포함하는 M-채널 입력 신호를 프로세싱하기 위한 장치는 ― M은 1보다 더 큰 정수임 ― 상기 입력 신호에 제 1 공간 프로세싱 동작을 수행하기 위한 수단 및 상기 입력 신호에 제 2 공간 프로세싱 동작을 수행하기 위한 수단을 포함한다. 상기 장치는 제 1 시간에서, 상기 제 1 공간 프로세싱 동작을 수행하기 위한 수단이 상기 제 2 공간 프로세싱 동작을 수행하기 위한 수단보다 더 양호하게 상기 스피치 및 잡음 컴포넌트들을 분리하기 시작한다는 것을 결정하기 위한 수단 및 상기 제 1 시간에서 결정하기 위한 수단으로부터의 표시에 응답하여, 상기 출력 신호로서 제 1의 공간적으로 프로세싱된 신호에 기초하는 신호를 생성하기 위한 수단을 포함한다. 상기 장치는 상기 제 1 시간에 후속하는 제 2 시간에서, 상기 제 2 공간 프로세싱 동작을 수행하기 위한 수단이 상기 제 1 공간 프로세싱 동작을 수행하기 위한 수단보다 더 양호하게 상기 스피치 및 잡음 컴포넌트들을 분리하기 시작한다는 것을 결정하기 위한 수단 및 상기 제 2 시간에서 결정하기 위한 수단으로부터의 표시에 응답하여, 상기 출력 신호로서 제 2의 공간적으로 프로세싱된 신호에 기초하는 신호를 생성하기 위한 수단을 포함한다. 이 장치에서 상기 제 1 및 제 2의 공간적으로 프로세싱된 신호들은 상기 입력 신호에 기초한다.
또다른 일반적인 구성에 따라, 공간적으로 필터링된 출력 신호를 생성하기 위해 스피치 컴포넌트 및 잡음 컴포넌트를 포함하는 M-채널 입력 신호를 프로세싱하기 위한 장치 ― M은 1보다 큰 정수임 ― 는 상기 입력 신호를 필터링하도록 구성된 제 1 공간 프로세싱 필터 및 상기 입력 신호를 필터링하도록 구성된 제 2 공간 프로세싱 필터를 포함한다. 상기 장치는 제 1 시간에서, 상기 제 1 공간 프로세싱 필터가 상기 제 2 공간 프로세싱 필터보다 더 양호하게 상기 스피치 및 잡음 컴포넌트들을 분리하기 시작한다는 것을 표시하도록 구성된 상태 추정기를 포함한다. 상기 장치는 상기 제 1 시간에서의 표시에 응답하여, 상기 출력 신호로서 제 1의 공간적으로 프로세싱된 신호에 기초하는 신호를 생성하도록 구성된 트랜지션 제어 모듈을 포함한다. 이 장치에서, 상기 상태 추정기는, 상기 제 1 시간에 후속하는 제 2 시간에서, 상기 제 2 공간 프로세싱 필터가 상기 제 1 공간 프로세싱 필터보다 더 양호하게 상기 스피치 및 잡음 컴포넌트들을 분리하기 시작한다는 것을 표시하도록 구성되고, 상기 트랜지션 제어 모듈은, 상기 제 2 시간에서의 표시에 응답하여, 상기 출력 신호로서 상기 제 2의 공간적으로 프로세싱된 신호에 기초하는 신호를 생성하도록 구성된다. 이 장치에서, 상기 제 1 및 제 2의 공간적으로 프로세싱된 신호는 상기 입력 신호에 기초한다.
또다른 일반적인 구성에 따라, 프로세서에 의해 실행될 때 상기 프로세서로 하여금 공간적으로 필터링된 출력 신호를 생성하기 위해 스피치 컴포넌트와 잡음 컴포넌트를 포함하는 M-채널 입력 신호를 프로세싱하는 방법을 수행하게 하는 명령들을 포함하는 컴퓨터-판독가능한 매체 ― M은 1보다 더 큰 정수임 ― 는 프로세서에 의해 실행될 때 상기 프로세서로 하여금 상기 입력 신호에 제 1 공간 프로세싱 동작을 수행하게 하는 명령들, 및 프로세서에 의해 실행될 때 상기 프로세서로 하여금 상기 입력 신호에 제 2 공간 프로세싱 동작을 수행하게 하는 명령들을 포함한다. 상기 매체는 프로세서에 의해 실행될 때 상기 프로세서로 하여금, 제 1 시간에서, 상기 제 1 공간 프로세싱 동작이 상기 제 2 공간 프로세싱 동작보다 더 양호하게 상기 스피치 및 잡음 컴포넌트들을 분리하기 시작한다는 것을 표시하게 하는 명령들, 및 프로세서에 의해 실행될 때 상기 프로세서로 하여금 상기 제 1 시간에서의 표시에 응답하여, 상기 출력 신호로서 제 1의 공간적으로 프로세싱된 신호에 기초하는 신호를 생성하게 하는 명령들을 포함한다. 상기 매체는 프로세서에 의해 실행될 때 상기 프로세서로 하여금 상기 제 1 시간에 후속하는 제 2 시간에서, 상기 제 2 공간 프로세싱 동작이 상기 제 1 공간 프로세싱 동작보다 더 양호하게 상기 스피치 및 잡음 컴포넌트들을 분리하기 시작한다는 것을 표시하게 하는 명령들, 및 프로세서에 의해 실행될 때 상기 프로세서로 하여금, 상기 제 2 시간에서의 표시에 응답하여, 상기 출력 신호로서 제 2의 공간적으로 프로세싱된 신호에 기초하는 신호를 생성하게 하는 명령들을 포함한다. 이 예에서, 상기 제 1 및 제 2의 공간적으로 프로세싱된 신호들은 상기 입력 신호에 기초한다.
도 1A는 장치(A100)의 구현예를 포함하는 핸드셋(H100)의 동작 구성을 예시한다.
도 1B는 핸드셋(H100)의 또다른 동작 구성을 예시한다.
도 2는 핸드셋(H100)의 가능한 배향들의 범위를 도시한다.
도 3A 및 3B는 도 1A에 도시된 바와 같은 핸드셋(H100)의 동작 구성을 위한 2개의 상이한 동작 배향들을 예시한다.
도 4A 및 4B는 도 1B에 도시된 바와 같은 핸드셋(H100)의 동작 구성을 위한 2개의 상이한 동작 배향들을 예시한다.
도 5는 핸드셋(H100)의 3개의 상이한 배향 상태들에 대응하는 영역들을 예시한다.
도 6A-C는 핸드셋(H100)에 대한 소스 발신(origin) 영역들의 추가적인 예들을 도시한다.
도 7A는 핸드셋(H100)의 구현예(110)를 예시한다.
도 7B는 핸드셋(H110)의 2개의 추가적인 뷰들을 도시한다.
도 8은 일반적인 구성에 따른 장치(A200)의 블록도를 도시한다.
도 9는 헤드셋(63)의 2개의 상이한 배향 상태들을 도시한다.
도 10은 장치(A200)의 2-채널 구현예(A210)의 블록도를 도시한다.
도 11은 필터 뱅크(120)의 2-채널 구현예(130)를 포함하는 장치(A210)의 구현예(A220)의 블록도를 도시한다.
도 12는 스위칭 메커니즘(350)의 구현예(352)의 블록도를 도시한다.
도 13은 스위칭 메커니즘(352 및 360)의 구현예(362)의 블록도를 도시한다.
도 14A-D는 상태 추정기(400)의 4개의 상이한 구현예들(402, 404, 406 및 408)을 각각 도시한다.
도 15는 장치(A220)의 구현예(A222)의 블록도를 도시한다.
도 16은 상태 추정기(412)의 구현예(414)의 예를 도시한다.
도 17은 장치(A210)의 구현예(A214)의 블록도를 도시한다.
도 18은 장치(A222)의 구현예(A224)의 블록도를 도시한다.
도 19는 장치(A210)의 구현예(A216)의 블록도를 도시한다.
도 20은 트랜지션 제어 모듈(500)의 구현예(520)의 블록도를 도시한다.
도 21은 트랜지션 제어 모듈(500)의 구현예(550)의 블록도를 도시한다.
도 22는 믹서들(70a-70m) 중 j번째 믹서의 구현예(72j)의 블록도를 도시한다.
도 23은 믹서 뱅크(700)의 2-채널 구현예(710)의 블록도를 도시한다.
도 24는 장치(A210)의 구현예(A218)의 블록도를 도시한다.
도 25는 장치(A220)의 구현예(A228)의 블록도를 도시한다.
도 26은 장치(A228)의 구현예(A229)의 블록도를 도시한다.
도 27은 장치(A210)의 구현예(A210A)의 블록도를 도시한다.
도 28은 장치(A220)의 구현예(A224A)의 블록도를 도시한다.
도 29는 장치(A220)의 구현예(A232)의 블록도를 도시한다.
도 30은 장치(A220)의 구현예(A234)의 블록도를 도시한다.
도 31은 장치(A220)의 구현예(A236)의 블록도를 도시한다.
도 32A 및 32B는 표시자 함수값의 추정된 상태(S50)로의 2개의 상이한 매핑들을 도시한다.
도 33A-C는 장치(A200)의 구현예들(A310, A320, 및 A330)의 블록도들을 각각 도시한다.
도 34는 감쇠 방식의 일 예를 예시한다.
도 35A는 장치(A210)의 구현예(A210B)의 블록도를 도시한다.
도 35B는 에코 캔슬러(canceller)(EC10)의 구현예(EC12)의 블록도를 도시한다.
도 35C는 에코 캔슬러(EC20)의 구현예(EC22)의 블록도를 도시한다.
도 36은 디자인 및 사용 프로시저에 대한 플로우차트를 도시한다.
도 37은 방법(M10)에 대한 플로우차트를 도시한다.
도 38은 트레이닝 데이터를 레코딩하기 위해 구성된 음향 무향(anechoic) 챔버의 예를 도시한다.
도 39는 핸즈-프리 자동차 키트(83)의 예를 도시한다.
도 40은 도 37의 자동차 키트의 애플리케이션의 예를 도시한다.
도 41은 마이크로폰들의 선형 어레이를 구비한 기록 도구(예를 들어, 펜) 또는 스타일러스(79)의 예를 도시한다.
도 42는 설계 단계(phase) 동안 2-포인트 소스 잡음 필드로 배치되는 핸드셋을 도시한다.
도 43A는 한 쌍의 피드백 필터들(C110 및 C120)을 포함하는 적응형 필터 구조(FS10)의 블록도를 도시한다.
도 43B는 직접 필터들(D110 및 D120)을 포함하는 필터 구조(FS10)의 구현예(FS20)의 블록도를 도시한다.
도 44는 일반적인 구성에 따른 장치(A100)의 블록도를 도시한다.
도 45는 장치(A100)의 구현예(A110)의 블록도를 도시한다.
도 46은 장치(A100)의 구현예(A120)의 블록도를 도시한다.
도 47은 방법(M100)에 대한 플로우차트를 도시한다.
도 48은 장치(F100)에 대한 블록도를 도시한다.
도 49는 장치(A100 또는 A200)의 구현예를 포함하는 통신 디바이스(C100)의 블록도를 도시한다.
본 발명은 잡음 환경으로부터 음향 신호를 분리하기 위한 시스템들, 방법들 및 장치들에 관한 것이다. 이러한 구성들은 음향 신호들의 믹스처로부터 음향신호를 분리하는 것을 포함할 수 있다. 상기 분리 동작은 음향 신호들의 입력 믹스처 내에서 이로부터 원하는 컴포넌트를 격리시키기 위해 고정된 필터링 스테이지(즉, 고정된 계수값들로 구성된 필터들을 가지는 프로세싱 스테이지)를 사용함으로써 수행될 수 있다. 멀티-마이크로폰 핸드헬드 통신 디바이스 상에서 구현될 수 있는 구성들 역시 기술된다. 이러한 구성은, 간섭 소스들, 음향 에코, 및/또는 공간적으로 분산된 배경 잡음을 포함할 수 있는, 통신 디바이스가 당면하는 잡음 환경들을 처리하기에 적합할 수 있다.
본 발명은 또한 통신 디바이스의 마이크로폰들의 어레이를 사용하여 레코딩되는 트레이닝 데이터를 프로세싱하기 위해 하나 이상의 블라인드-소스 분리(BSS), 빔형성, 및/또는 결합된 BSS/빔형성 방법들을 사용함으로써 필터 계수값들의 세트(또는 필터 계수 값들의 다수의 세트들)을 생성하기 위한 시스템들, 방법들, 및 장치를 설명한다. 트레이닝 데이터는 (예를 들어, 통신 디바이스의 하나 이상의 라우드 스피커들로부터의) 음향 에코 및 상기 어레이에 대한 다양한 사용자 및 잡음 소스 위치들에 기초할 수 있다. 마이크로폰들의 어레이, 또는 동일한 구성을 가지는 마이크로폰들의 또다른 어레이는 이후 전술된 바와 같이 분리될 음향 신호들의 입력 믹스처를 획득하는데 사용될 수 있다.
본 발명은 또한 생성된 필터 계수값들의 세트 또는 세트들이 고정된 필터링 스테이지(또는 "필터 뱅크")에 제공되는 시스템들, 방법들 및 장치들을 설명한다. 이러한 구성은 사용자에 대한 통신 디바이스의 현재 식별된 배향에 기초하는 고정된 필터링 스테이지 내의 생성된 필터 계수값들의 세트들 중에서(그리고 가능하게는 후속하는 프로세싱 스테이지들에 대한 다른 파라미터 세트들 중에서) 선택하는 스위칭 동작을 포함할 수 있다.
본 발명은 또한 전술된 바와 같은 고정된 필터링 스테이지의 출력에 기초하는 공간적으로 프로세싱된(또는 "분리된") 신호가 또다른 분리된 신호를 생성하기 위해 적응형(또는 부분적 적응형) BSS, 빔형성, 또는 결합된 BSS/빔형성 필터링 스테이지를 사용하여 필터링되는 시스템들, 방법들, 및 장치를 설명한다. 이들 분리된 신호들 각각은 둘 이상의 출력 채널을 포함할 수 있어서, 상기 출력 채널들 중 적어도 하나는 분산된 배경 잡음을 가지는 원하는 신호를 포함하고 적어도 하나의 다른 출력 채널은 간섭 소스 신호들 및 분산된 배경 잡음을 포함한다. 본 발명은 또한 또다른 출력 채널에 의해 제공되는 잡음 레퍼런스에 기초하여, 원하는 신호를 전달하는 출력 채널 내의 잡음을 감소시키는 사후 프로세싱 스테이지(예를 들어, 잡음 감소 필터)를 포함하는 시스템들, 방법들 및 장치를 설명한다.
본 발명은 또한 스위칭 동작에 의해 하나 이상의 분리 또는 잡음 감소 스테이지들 동안 파라미터들의 조정(tuning), 초기 조건들 및 필터 세트들의 선택, 에코 캔슬(echo cancellation), 및/또는 고정된 필터 계수값들의 세트들 간의 트랜지션 핸들링을 포함하도록 구현될 수 있는 구성들을 기재한다. 시스템 파라미터들의 튜닝은 전체 잡음 감소 및 에코 캔슬 성능을 최적화하기 위해 베이스밴드 칩 또는 칩셋의 속성 또는 세팅들 및/또는 네트워크 영향들에 의존할 수 있다.
상황에 의해 명시적으로 제한되지 않는 한, 용어 "신호"는 여기서, 와이어, 버스, 또는 다른 전송 매체 상에서 표현되는 바와 같은 메모리 위치(또는 메모리 위치들의 세트)의 상태를 포함하여, 그것의 일반적인 의미들 중 임의의 것을 표시하도록 사용된다. 상황에 의해 명시적으로 제한되지 않는 한, 용어 "발생시키는(generating)"은 여기서, 컴퓨팅 또는 생성하는(producing)과 같은 그것의 일반적인 의미들 중 임의의 것을 표시하도록 사용된다. 상황에 의해 명시적으로 제한되지 않는 한, 용어 "계산하는"은 여기서, 컴퓨팅, 평가, 및/또는 일련의 값들 중에서의 선택과 같은 그것의 일반적인 의미들 중 임의의 것을 표시하도록 사용된다. 상황에 의해 명시적으로 제한되지 않는 한, "획득하는"은 여기서, 계산하는, 유도하는, (예를 들어, 외부 디바이스로부터) 수신하는, 및/또는 (예를 들어, 저장 엘리먼트들의 어레이로부터) 리트리브(retrieve)하는 것과 같은 그것의 일반적인 의미들 중 임의의 것을 표시하도록 사용된다. 용어 "포함하는(comprising)"은 본 발명의 설명 및 청구항들에서 사용되는데 이는 다른 엘리먼트들 또는 동작들을 배제하지 않는다. ("A는 B에 기초한다"에서와 같이) 용어 "기초하는"은 (i) " 적어도 기초하는"(예를 들어, "A는 적어도 B에 기초한다") 및, 특정 상황에서 적절한 경우, (ii) "와 같은"(예를 들어, "A는 B와 같다)의 경우들을 포함하여, 그것의 일반적인 의미들 중 임의의 것을 표시하도록 사용된다. 유사하게, 용어 "응답하여"는 "적어도 응답하여"를 포함하여, 그것의 일반적인 의미들 중 임의의 것을 표시하도록 사용된다.
표시되지 않는 한, 특정한 특징들을 가지는 장치의 동작에 대한 임의의 기술 역시 유사한 특징들을 가지는 방법들을 기술하도록(혹은 그 역이 되도록) 명시적으로 의도되며, 특정 구성에 따른 장치의 동작에 대한 임의의 기재 역시 유사 구성에 따른 방법을 기술하도록(혹은 그 역이 되도록) 명시적으로 의도된다. 용어 "구성"은 특정 상황에 의해 표시되는 바와 같은 방법, 장치, 또는 시스템과 관련하여 사용될 수 있다. 상기 용어들 "방법", "프로세서", "프로시저" 및 "기법"은 특정 상황에 의해 표시되지 않는 한 포괄적으로 그리고 상호교환가능하게 사용된다. 상기 용어들 "장치" 및 "디바이스" 역시 특정 상황에 의해서 표시되지 않는 한 포괄적으로 그리고 상호교환가능하게 사용된다. 상기 용어들 "엘리먼트" 및 "모듈"은 통상적으로 더 큰 구성의 일부분을 표시하도록 사용된다. 문서의 일부분의 참조로써의 임의의 포함 역시 상기 일부분 내에서 참조되는 용어들 또는 변수들의 정의들을 포함하는 것으로 이해되어야 하며, 여기서 이러한 정의들은 상기 문서 및 포함된 부분 내에서 참조되는 임의의 도면들의 어느 곳에서든 나타난다.
둘 이상의 마이크로폰들을 가지는 휴대용 음성 통신을 위한 디바이스를 생산하는 것이 바람직할 수 있다. 다수의 마이크로폰들에 의해 캡쳐되는 신호들은 공간 프로세싱 동작들을 지원하는데 사용될 수 있으며, 이는 차례로, 더 큰 잡음 제거와 같은 증가된 지각적 품질을 제공하기 위해 사용될 수 있다. 이러한 디바이스의 예들은 전화 핸드셋(예를 들어, 셀룰러 전화 핸드셋) 및 유선 또는 무선 헤드셋(예를 들어, 블루투스 헤드셋)을 포함한다.
도 1A는 제 1 동작 구성에서 2-마이크로폰 핸드셋(H100)(예를 들어, 클램쉘(clamshell) 타입 셀룰러 전화 핸드셋)을 도시한다. 핸드셋(H100)은 제 1(primary) 마이크로폰(MC10) 및 제 2(secondary) 마이크로폰(MC20)을 포함한다. 이 예에서, 핸드셋(H100)은 또한 제 1 스피커(SP10) 및 제 2 스피커(SP20)를 포함한다.
핸드셋(H100)이 제 1 동작 구성 상태인 경우, 제 1 스피커(SP10)는 활성이며 제 2 스피커(SP20)는 디스에이블되거나 뮤트(mute)될 수 있다. 제 1 마이크로폰(MC10) 및 제 2 마이크로폰(MC20)이 스피치 향상 및/또는 잡음 감소를 위한 공간 프로세싱 기법들을 지원하기 위해 모두 이 구성에서 활성으로 유지되는 것이 바람직할 수 있다. 도 2는 이러한 동작 구성을 위한 가능한 배향들의 범위 내에서의 2가지를 도시한다. 이러한 배향들의 범위에서, 핸드셋(H100)은 제 1 스피커(SP10)가 사용자의 귀에 가깝도록 그리고 제 1 마이크로폰(MC10)이 사용자의 입에 가깝도록 사용자의 머리에 고정된다. 도 2에 도시된 바와 같이, 제 1 마이크로폰(MC10)과 사용자의 입 사이의 거리는 달라질 수 있다. 도 2는 또한 파-엔드(far-end) 신호에 응답하여 제 1 스피커(SP10)에 의해 생성될 수 있는 에코, 및 지향적 및/또는 확산적일 수 있는 잡음과 같은 가능한 간섭 사운드 신호들을 예시한다. 도 3A 및 3B는 사용자가 핸드셋(H100)의 이러한 동작 구성을 사용할 수 있는(예를 들어, 스피커폰 또는 푸시-투-토크 모드인) 2개의 다른 가능한 배향들을 도시한다. 스피커폰 또는 푸시-투-토크 모드가 상기 핸드셋(H100)의 동작 구성에서 활성인 경우, 제 2 스피커(SP20)가 활성이 되는 것이 바람직하며, 가능하게는 제 1 스피커(SP10)가 디스에이블되거나 뮤트되는 것이 바람직할 수 있다.
도 1B는 핸드셋(H100)에 대한 제 2 동작 구성을 도시한다. 이 구성에서, 제 1 마이크로폰(MC10)은 막히며(occlude), 제 2 스피커(SP20)가 활성이며, 제 1 스피커(SP10)는 디스에이블되거나 뮤트될 수 있다. 다시, (예를 들어, 공간 프로세싱 기법들을 지원하기 위해) 제 1 마이크로폰(MC10) 및 제 2 마이크로폰(MC20) 모두가 이러한 구성에서 활성으로 유지되는 것이 바람직할 수 있다. 도 4A 및 4B는 사용자가 핸드셋(H100)의 이러한 동작 구성을 사용할 수 있는 2개의 상이한 가능한 동작 배향들을 도시한다. 핸드셋(H100)은 그것의 상태(또는 상태들)가 디바이스의 현재 동작 구성을 표시하는 하나 이상의 스위치들을 포함할 수 있다.
위의 도면들에서 도시된 바와 같이, 셀룰러 전화 핸드셋은 다양한 상이한 가능한 위치상의 사용들을 지원할 수 있으며, 각각은 디바이스의 마이크로폰들과 사용자의 입 사이의 상이한 공간 관계와 연관된다. 예를 들어, 핸드셋(H100)이 풀-듀플렉스 스피커폰 모드 및/또는 하프-듀플렉스 푸시-투-토크(PTT) 모드와 같은 특징들을 지원하는 것이 바람직할 수 있는데, 상기 모드들은 도 2에 도시된 종래의 전화 동작 모드보다 더 넓은 위치상의 변경 범위를 포함하도록 기대될 수 있다. 이들 위치상의 변경들에 응답하여 공간 프로세싱 필터를 적응시키는 것의 문제점은 실시간으로 필터 컨버전스(convergence)를 획득하기에는 너무 복잡할 수 있다는 것이다. 또한, 시간에 대해 몇 가지 상이한 방향들로부터 도달할 수 있는 스피치 및 잡음 신호들을 적절하게 분리하는 것의 문제점은 단일 공간 프로세싱 필터가 처리하기에는 너무 복잡할 수 있다는 것이다. 이러한 핸드셋이 둘 이상의 공간 프로세싱 필터를 구비하는 필터 뱅크를 포함하는 것이 바람직할 수 있다. 이러한 경우, 핸드셋이 원하는 사운드 소스(예를 들어, 사용자의 입)와 관련된 디바이스의 현재 배향에 따라 이러한 뱅크로부터 공간 프로세싱 필터를 선택하는 것이 바람직할 수 있다.
도 5는 원하는 사운드 소스(예를 들어, 사용자의 입)에 대해 핸드셋(H100)의 3개의 상이한 배향 상태들에 대응하는 영역들을 예시한다. 원하는 사운드(예를 들어, 사용자의 음성)가 영역 A1에서의 방향으로부터 도달하도록 핸드셋이 원하는 소스에 대해 배향되는 경우, 핸드셋이 영역 A1으로 지향적이고 다른 방향들로부터 오는 신호들을 감쇠시키려는 필터를 사용하는 것이 요구될 수 있다. 마찬가지로, 원하는 사운드가 영역 A2로부터 도달하도록 핸드셋이 원하는 소스에 대해 배향되는 경우, 핸드셋이 영역 A2로 지향하며 방향들로부터 오는 사운드들을 감쇠시키려는 상이한 필터를 사용하도록 요구될 수 있다. 원하는 사운드가 영역 A3로부터 도달하도록 핸드셋이 원하는 소스에 대해 배향되는 경우, 핸드셋이 처음 2개의 필터들 어느 것도 사용하지 않도록 요구될 수 있다. 예를 들어, 이는 핸드셋이 제 3 필터를 사용하는 경우 바람직할 수 있다. 대안적으로, 이러한 경우, 오직 하나의 마이크로폰만이 활성(예를 들어, 제 1 마이크로폰(MC10))이도록, 또는 현재 활성인 마이크로폰들이 단일 채널로 믹스 다운(mix down)되도록, 그리고 가능하게는 공간 프로세싱 동작들을 중지하도록, 핸드셋이 단일-채널 모드로 진입하는 것이 바람직할 수 있다.
도 5에 도시된 영역 경계들은 오직 시각적으로 예시적인 목적들을 위한 것이며, 이들은 다양한 배향 상태들과 연관된 영역들 간의 실제 경계들을 도시하도록 의도되지 않는다는 점에 유의한다. 도 6A-C는 하나의 공간 분리 필터가 또다른 공간 분리 필터보다 더 양호하게 수행하도록 기대될 수 있는 소스 발신 영역들의 3개의 추가적인 예들을 도시한다. 이들 3개 도면들은 필터들 중 둘 이상이 핸드셋으로부터 얼마간의 거리를 넘는 소스에 대해 균일하게 잘 동작하는 것을 예시한다(이러한 배향은 또한 "원음장(far-field) 시나리오"라고 지칭된다). 이 거리는 (핸드셋에 대해 통상적으로 1.5 내지 4.5 센티미터이며 헤드셋보다 훨씬 작을 수 있는) 디바이스의 마이크로폰들 간의 거리에 크게 의존할 수 있다. 도 6C는 2개의 2개 영역들이 오버랩하여, 2개의 대응하는 필터들이 오버랩 영역 내에 위치된 원하는 소스에 대해 균일하게 잘 수행하도록 기대될 수 있는 예를 도시한다.
통신 디바이스(예를 들어, 핸드셋(H100))의 마이크로폰들 각각은 전방향성, 양방향성, 또는 단방향성(예를 들어, 심장형(cardioid))인 응답을 가질 수 있다. 사용될 수 있는 다양한 타입들의 마이크로폰들은 압전 마이크로폰들, 동적 마이크로폰들, 및 일렉트릿(electret) 마이크로폰들을 포함한다. 또한 이러한 디바이스는 셋 이상의 마이크로폰들을 가지도록 구현될 수 있다. 예를 들어, 도 7A는 제 3 마이크로폰(MC30)을 포함하는 핸드셋(H100)의 구현예(H110)를 도시한다. 도 7B는 디바이스의 축을 따라 다양한 트랜스듀서들의 배치를 도시하는 핸드셋(H110)의 2개의 다른 뷰들을 도시한다.
도 8은 여기서 기술된 바와 같이 핸드셋(H100 또는 H110)과 같은 통신 디바이스 내에 구현될 수 있는 일반적인 구성에 따른 장치(A200)의 블록도를 도시한다. 장치(A200)는 M-채널 입력 신호(S10)를 수신하도록 구성되는 필터 뱅크(100)을 포함하며, 여기서 M은 1보다 더 큰 정수이며, M개 채널들 각각은 M개 마이크로폰들(예를 들어, 핸드셋(H100 또는 H110)의 마이크로폰들) 중 대응하는 마이크로폰의 출력에 기초한다. 마이크로폰 신호들은 통상적으로 샘플링되며, 사전-프로세싱(예를 들어, 에코 캔슬, 잡음 제거, 스펙트럼 성형 등을 위해 필터링)될 수 있으며, 심지어 (예를 들어, 여기서 설명되는 바와 같은 적응형 필터 또는 또다른 공간 분리 필터에 의해) 사전-분리될 수 있다. 스피치와 같은 음향 애플리케이션들에 대해, 통상적인 샘플링 레이트는 8kHz 내지 16 kHz의 범위를 가진다.
필터 뱅크(100)는 n개의 공간 분리 필터들(F10-1 내지 F10-n)(여기서, n은 1보다 더 큰 정수)을 포함하며, 이들 각각은 대응하는 공간적으로 프로세싱된 M-채널 신호를 생성하기 위해 M-채널 입력 신호(S40)를 필터링하도록 구성된다. 공간 분리 필터들(F10-1 내지 F10-n) 각각은 하나 이상의 지향성 간섭 소스들 및/또는 확산 잡음 컴포넌트와 같은, 신호의 하나 이상의 다른 컴포넌트들로부터 M-채널 입력 신호의 하나 이상의 지향성의 원하는 사운드 컴포넌트들을 분리하도록 구성된다. 도 8의 예에서, 필터(F10-1)는 필터링된 채널들(S2011 내지 S20m1)을 포함하는 M-채널 신호를 생성하고, 필터(F10-2)는 필터링된 채널들(S2012 내지 S20m2)을 포함하는 M-채널 신호를 생성하는 등의 식이다. 필터들(F10-1 내지 F10-n) 각각은 계수값들의 하나 이상의 행렬들에 의해 특성화되는데, 상기 계수값들의 하나 이상의 행렬들은 BSS, 빔형성, 또는 결합된 BSS/빔형성 방법(예를 들어, 여기서 설명되는 바와 같이 ICA, IVA 방법 또는 이들의 변형들)을 사용하여 계산될 수 있으며, 또한 여기서 설명되는 바와 같이 트레이닝될 수 있다. 일부 경우들에서, 계수값들의 행렬은 오직 계수값들의 벡터(즉, 1-차원 행렬)일 수 있다. 장치(A200)는 또한, 각각의 필터(F10-1 내지 F10-n)로부터 M-채널 필터링된 신호를 수신하고, 이들 필터들 중 어느 것이 하나 이상의 다른 컴포넌트들로부터 입력 신호(S10)의 적어도 하나의 원하는 컴포넌트를 현재 가장 최상으로 분리하는지 결정하고, M-채널 출력 신호(S40)를 생성하도록 구성된다.
M개 마이크로폰들을 가지도록 구현되는 이어피스 또는 다른 헤드셋은 상이한 동작 구성들을 가질 수 있으며 장치(A200)의 구현예를 포함할 수 있는 또다른 종류의 휴대용 통신 디바이스이다. 이러한 헤드셋은 유선 또는 무선일 수 있다. 예를 들어, 무선 헤드셋은 (예를 들어, Bluetooth Special Interest Group, Inc., Bellevue, WA 등에 의해 공표된 바와 같은 Bluetooth™ 프로토콜의 버전을 사용하여) 셀룰러 전화 핸드셋과 같은 전화 디바이스와의 통신을 통해 하프 또는 풀 듀플렉스 텔레포니를 지원하도록 구성될 수 있다. 도 9는 사용자의 귀(65)에서의 사용을 위해 장착된 헤드셋(63)의 상이한 동작 구성들의 범위(66)의 다이어그램을 도시한다. 헤드셋(63)은 사용자의 입(64)에 대한 사용 동안 상이하게 배향될 수 있는 제 1(예를 들어, 엔드파이어(endfire)) 및 제 2(예를 들어, 나란히 있는(broadside)) 마이크로폰들을 포함한다.
과도하게 복잡한 기재를 회피하기 위해, 기술된 구성들 중 일부 특징들은 여기서 장치(A200)의 2-채널 및/또는 2-필터 구현예의 상황에서 설명되지만, 이러한 구현예의 상황에서 설명되는 임의의 특징이 M-채널 및/또는 n-필터 구현예로 일반화될 수 있으며 이러한 일반화가 명시적으로 참작되고 기술된다는 점이 이해될 것이다.
도 10은 장치(A200)의 2-채널(예를 들어, 스테레오) 구현예(A210)의 블록도를 도시한다. 장치(A210)는 n개 공간 분리 필터들(F14-1 내지 F14-n)을 포함하는 필터 뱅크(100)의 구현예(120)를 포함한다. 이들 공간 분리 필터들 각각은 2개의 필터링된 채널들(예를 들어, 스피치 채널 및 잡음 채널)에 대해 대응하는 공간적으로 프로세싱된 신호들을 생성하기 위해 2개 입력 채널들(S10-1 내지 S10-2)을 필터링하도록 배열되는 필터들(F10-1 내지 F10-n) 중 대응하는 하나의 2-채널 구현예이다. 필터들(F14-1 내지 F14-n) 각각은 입력 신호(S10)의 하나 이상의 잡음 컴포넌트들로부터 상기 신호의 지향성의 원하는 사운드 컴포넌트를 분리하도록 구성된다. 도 10의 예에서, 필터(F14-1)는 스피치 채널(S2011) 및 잡음 채널(S2021)을 포함하는 2-채널 신호를 생성하고, 필터 (F14-2)는 스피치 채널(S2012) 및 잡음 채널(S2022)을 포함하는 2-채널 신호를 생성하는 등의 식이다. 장치(A210)는 또한 필터들(F14-1 내지 F14-n) 각각으로부터 2개의 필터링된 채널들을 수신하고, 이들 필터들 중 어느 것이 입력 신호(S10)의 원하는 컴포넌트 및 잡음 컴포넌트를 현재 최상으로 분리하는지를 결정하고, 2개의 출력 채널들(S40-1 및 S40-2)의 선택된 세트를 생성하도록 구성되는 스위칭 메커니즘(350)의 구현예(360)를 포함한다.
도 11은 필터 뱅크(120)의 2-필터 구현예(130)를 포함하는 장치(A210)의 특정 구현예(A220)를 도시한다. 필터들(F14-1 및 F14-2)은 여기서 설명되는 바와 같이 트레이닝 및/또는 설계될 수 있다. 필터 뱅크(130)는 또한 필터들(F14-1 및 F 14-2)가 실질적으로 서로 동일한 계수값들을 상이한 순서로 가지도록 구현될 수 있다. (이러한 상황에서, 용어 "실질적으로"는 1퍼센트, 5퍼센트, 또는 10 퍼센트의 에러 내에 있음을 표시한다.) 한가지 이러한 예에서, 필터들(F14-1 및 F14-2)은 서로 실질적으로 동일한 계수값들을 상이한 순서로 가진다. (측정 예에서, 필터(F14-1)는 v개의 계수값들(a1 내지 av)의 벡터를 가지고, 필터(F14-2)는 역순서(av 내지 a1)로 실질적으로 동일한 값들의 v-엘리먼트 벡터를 가진다.) 또다른 이러한 예에서, 필터(F14-1)는 계수값들의 v개 열들(A1 내지 Av)의 행렬을 가지고(각각의 열은 입력 채널들 중 각각의 채널에 대한 필터링 동작을 나타냄), 필터(F14-2)는 실질적으로 동일한 열들을 상이한 순서로 가지는 v-열 행렬을 가진다. (특정 예에서, 필터(F14-1)의 계수값들의 행렬은 필터(14-2)의 계수값들의 행렬을 획득하기 위해 중심 수직축 주위로 플립된다.) 상기 경우들에서, 필터들(F14-1 및 F14-2)은 상이한(예를 들어, 거의 상보적인) 공간 분리 성능을 가지도록 기대될 수 있다. 예를 들어, 하나의 필터는 원하는 사운드 소스가 예컨대 도 5의 영역 A1과 같은 영역 내에 있는 경우 대응하는 스피치 채널로의 원하는 사운드의 더 양호한 분리를 수행할 수 있는 반면, 다른 필터는 원하는 사운드 소스가 예컨대 도 5의 영역 A2와 같은 반대편 영역에 있는 경우 대응하는 스피치 채널로의 원하는 사운드의 분리를 더 양호하게 수행할 수 있다. 대안적으로, 필터 뱅크(130)는 필터들(F14-1 및 F14-2)이 구조적으로 유사하도록 구현될 수 있으며, 필터(F14-2)의 계수값들 각각은 필터(F14-1)의 대응하는 계수값의 추가적인 역과 실질적으로 동일하다(즉, 1퍼센트, 5 퍼센트, 또는 10 퍼센트 내에서 동일한 크기 및 반대 방향을 가진다).
핸드셋 또는 헤드셋의 통상적인 사용은 오직 하나의 원하는 사운드 소스, 즉 사용자의 입을 수반한다. 이러한 경우, 오직 2-채널 공간 분리 필터들만을 포함하는 필터 뱅크(120)의 구현예의 사용이 적절할 수 있다. 오디오 및/또는 비디오 회의를 위한 통신 디바이스 내의 장치(A200)의 구현예의 포함 역시 명시적으로 참작되고 기술된다. 오디오 및/또는 비디오 회의용 디바이스에 대해, 상기 디바이스의 통상적인 사용은 다수의 원하는 사운드 소스들(예를 들어, 다양한 참여자들의 입들)을 수반할 수 있다. 이러한 경우, R-채널 공간 분리 필터들(여기서 R은 2보다 더 큼)을 포함하는 필터 뱅크(100)의 구현예의 사용이 더 적절할 수 있다. 일반적으로, 필터 뱅크(100)의 공간 분리 필터들이 각각의 지향성 사운드 소스를 위한 적어도 하나의 채널 및 확산 잡음을 위한 하나의 채널을 가지는 것이 바람직할 수 있다. 일부 경우들에서, 임의의 지향성 간섭 소스들을 위한 추가적인 채널들을 제공하는 것 역시 바람직할 수 있다.
도 12는 상태 추정기(400) 및 트랜지션 제어 모듈(500)을 포함하는 스위칭 메커니즘(350)의 구현예(352)의 블록도를 도시한다. 상태 추정기(400)로부터 추정된 배향 상태 표시(또는 "추정된 상태")에 응답하여, 트랜지션 제어 모듈(500)은 M개의 출력 채널들(S40-1 내지 S40-m)을 생성하기 위해 필터링된 채널들의 n개 세트들(S2011-S20m1 내지 S201n-S20mn)선택하도록 구성된다. 도 13은 상태 추정기(400)의 구현예(401) 및 트랜지션 제어 모듈(500)의 구현예(501)를 포함하는, 스위칭 메커니즘(352)의 특정 구현예(362)의 블록도를 도시하며, 여기서 M의 값은 2이다.
상태 추정기(400)는 하나 이상의 입력 채널들(S1O-1 내지 S10-m), 하나 이상의 필터링된 채널들(S2011-S20mn), 또는 입력 및 필터링된 채널들의 결합에 기초하여 추정된 상태 표시(S50)를 계산하도록 구현될 수 있다. 도 14A는 n개의 스피치 채널들(S2011-S201n) 및 n개의 잡음 채널들(S202a-S202n)을 수신하도록 배열되는 상태 추정기(401)의 구현예(402)를 도시한다. 일 예에서, 상태 추정기(402)는 1≤i≤n에 대해 표현 max[E(Si)-E(Ni)]에 따라 추정된 상태 표시(S50)를 계산하도록 구성되며, 여기서 E(Si)는 스피치 채널(S201i)의 에너지를 표시하고, E(Ni)는 잡음 채널(S202i)의 에너지를 표시한다. 또다른 예에서, 상태 추정기(402)는 표현 max[E(Si)-E(Ni)+Ci]에 따라 추정된 상태 표시(S50)를 계산하도록 추정되며, Ci는 필터(F10-i)와 연관된 선호도(preference) 상수를 표시한다. 통신 디바이스의 동작 구성 및/또는 동작 모드에서의 변경에 응답하여 선호도 상수들 Ci 중 하나 이상의 각각에 상이한 값을 할당하기 위한 상태 추정기(400)를 구성하는 것이 바람직할 수 있다.
상태 추정기(402)는 대응하는 채널에 의해 전달되는 신호의 연속하는 샘플들의 블록의 제곱된 샘플값들의 합으로서 상기 에너지 값들 E(Si) 및 E(Ni)의 각각의 인스턴스를 계산하도록 구성될 수 있다. 통상적인 프레임 길이들은 대략 5 또는 10밀리초 내지 대략 40 내지 50 밀리초의 범위를 가지며, 상기 프레임들은 오버랩되거나 넌오버랩(non-overlap)될 수 있다. 하나의 동작에 의해 프로세싱되는 프레임은 또한 상이한 동작에 의해 프로세싱되는 더 큰 프레임의 세그먼트(즉, "서브프레임")일 수 있다. 일 특정 예에서, 필터링된 채널들(S2011 내지 S202n)에 의해 전달되는 신호들은 10밀리초의 넌오버랩 프레임들의 시퀀스들로 분할되고, 상태 추정기(402)는 각각의 필터링된 채널들(S2011 및 S2012)의 각각의 프레임에 대한 에너지 값(E(Si))의 인스턴스를 계산하고 각각의 필터링된 채널들(S2021 및 S2022)의 각각의 프레임에 대한 에너지 값(E(Ni))의 인스턴스를 계산하도록 구성된다. 상태 추정기(402)의 또다른 예는 1≤i≤n에 대해 표현 min(corr(Si, Ni))(또는 min(corr(Si, Ni))+Ci)에 따라 추정된 상태 표시(S50)를 계산하도록 구성되며, 여기서, corr(A,B)는 A와 B의 상관을 표시한다. 이 경우, 상기 상관의 각각의 인스턴스는 전술된 바와 같이 대응하는 프레임에 대해 계산될 수 있다.
도 14B는 n개의 입력 채널들(S10-1 - S10-m) 및 n개의 잡음 채널들(S2021-S202n)을 수신하도록 구성되는 상태 추정기(401)의 구현예(404)를 도시한다. 일 예에서, 상태 추정기(404)는 1≤i≤n 및 1≤j≤n에 대해 표현 max[E(Ij)-E(Ni)](또는 max[E(Ij)-E(Ni)+Ci]에 따라 추정된 상태 표시(S50)를 계산하도록 구성되며, 여기서, E(Ij)는 입력 채널(S10-j)의 에너지를 표시한다. 또다른 예에서, 상태 추정기(404)는 1≤i≤n에 대해 표현 max[E(Ij)-E(Ni)](또는 max[E(Ij)-E(Ni)+Ci]에 따라 추정된 상태 표시(S50)를 계산하도록 구성되며, 여기서, E(I)는 입력 채널들(S10-1 내지 S10-m) 중 선택된 채널의 에너지를 표시한다. 이 경우, 채널 I는 원하는 스피치 신호를 전달하려는 입력 채널이다. 채널 I는 디바이스 내의 대응하는 마이크로폰의 물리적 위치에 기초하여 선택될 수 있다. 대안적으로, 채널 I는 입력 채널들 중 둘 이상(가능하게는 모두)의 신호-대-잡음비들의 비교에 기초하여 선택될 수 있다.
도 14C는 n개의 스피치 채널들(S2011-S201n)을 수신하도록 배열되는 상태 추정기(401)의 구현예(406)를 도시한다. 상태 추정기(406)는 스피치 측정(예를 들어, 스피치 특성들의 측정)의 가장 높은 값을 가지는 스피치 채널에 대응하는 상태를 선택하도록 구성된다. 일 예에서, 상태 추정기(406)는 스피치 채널들(S2011-S201n)의 상대적인 자기상관 특성들에 기초하여 추정된 상태 표시(S50)를 계산하도록 구성된다. 이 경우, 기대되는 휴먼 피치 래그(lag) 값들의 범위 내의 자기상관 피크를 가지는 신호를 현재 전달중인 채널이 오직 제로 래그에서만 자기상관 피크를 가지는 신호를 현재 전달중인 채널보다 선호될 수 있다. 또다른 예에서, 상태 추정기(406)는 스피치 채널들(S2011-S201n)의 상대적인 첨예도(kurtosis)(즉, 4차 모멘트) 특성들에 기초하여 추정된 상태 표시(S50)를 계산하도록 구성된다. 이 경우, 더 높은 첨예도를 가지는(즉, 보다 비-정규적인(non-Gaussian)) 신호를 현재 전달중인 채널이 더 낮은 첨예도를 가지는(즉, 보다 정규적인) 신호를 현재 전달중인 채널보다 더 선호될 수 있다.
도 14D는 n개의 입력 채널들(S10-1 - S-10-m)을 수신하도록 배열되는 상태 추정기(401)의 구현예(408)를 도시한다. 이 경우, 필터 세트들(F10-1 내지 F10-n) 각각은 상이한 범위의 도착 시간차(TDOA) 값들과 연관된다. 상태 추정기(408)는 (예를 들어, 입력 채널들의 상관, 입력/출력 상관, 및/또는 상대적으로 지연된 입력 합산 및 차에 기초하는 방법을 사용하여) 입력 채널들 간의 TDOA를 추정하고, 연관된 필터 세트에 대응하는 상태를 선택하도록 구성된다. 입력 신호들의 합산 및 차 측정들에 기초하여 지연 추정치들을 계산하기 전에 입력 채널들의 저역 통과 필터링을 수행하는 것이 바람직할 수 있는데, 왜냐하면 이러한 필터링이 지연 추정치들을 정규화 및/또는 안정화시키는 것을 보조할 수 있기 때문이다. 상태 추정기(408)는 상태 추정기(400)의 다른 구현예들보다 캘리브레이션 에러에 더 강건하며 그리고/또는 마이크로폰 이득들의 정확한 캘리브레이션에 덜 의존할 수 있다.
(예를 들어, 전술된 바와 같이) 추정된 상태 계산을 수행하기 위해 입력 파라미터 값들을 사용하기 이전에 이들을 평활화(smooth)하도록 상태 추정기(400)를 구성하는 것이 바람직할 수 있다. 일 특정 예에서, 상태 추정기(402)는 스피치 채널들(S2011-S201n) 및 잡음 채널들(S2021-S201n) 각각의 에너지들을 계산하고, 이후 Ec=αEp +(1-α)En과 같은 선형 표현에 따라 이들 에너지를 평활화하도록 구성되며, 여기서, Ec는 현재 평활화된 에너지값을 나타내고, Ep는 이전에 평활화된 에너지 값을 나타내고, En은 현재 계산된 에너지 값을 나타내고, α는 그 값이 고정되거나 (최대 평활화동안) 0.9와 같은 1 미만의 값과 제로 사이에서 적응되는 평활화 인자를 나타낸다. 이 예에서, 상기 평활화는 E(Si)와 E(Ni)를 획득하기 위해 계산된 에너지 값들에 적용된다. 다른 예들에서, 이러한 선형 평활화(및/또는 비선형 평활화 동작)는 상기 값들 E(Si), E(Ni), E(I) 및 E(Ij) 중 하나 이상을 획득하기 위해 도 14A-D를 참조하여 설명되는 바와 같이 계산된 에너지 값들에 적용될 수 있다. 대안적으로 그리고/또는 추가적으로, (예를 들어, 스피치, 잡음, 및/또는 입력 채널들 상에서 전송되는 바와 같은) 상태 추정기(400)에 제공되는 신호들 중 임의의 하나 또는 그 이상을 선택 및/또는 사전조정하는 것이 바람직할 수 있는데, 왜냐하면, 이러한 사전 프로세싱이 큰 잡음 소스들의 존재시 잘못된(erroneous) 상태 추정들을 회피하는 것을 보조할 수 있기 때문이다.
도 15는 (A) 2개의 필터들로부터의 채널들을 초래하도록 구성되는 상태 추정기(402)의 구현예(412) 및 (B) 트랜지션 제어 모듈(501)의 대응하는 구현예(510)를 가지는 스위칭 메커니즘(370)의 구현예(372)를 포함하는 장치(A220)의 구현예(A222)의 예를 도시한다. 도 16은 상태 추정기(412)의 구현예(414)의 예를 도시한다. 이 예에서, 분리 측정 계산기(550a)는 신호들(S2011 및 S2021) 간의 에너지 차를 계산하고, 분리 측정 계산기(550b)는 신호들(S2012 및 S2022) 간의 에너지 차를 계산하고, 비교기(560)는 채널들 간의 최대 분리(예를 들어, 최대 에너지 차)를 생성하는 필터에 대응하는 배향 상태를 표시하기 위해 상기 결과들을 비교한다. 개별 에너지 차를 계산할 시에, 분리 측정 계산기들(550a 및 550b) 중 어느 것이라도 전술된 바와 같이, 예컨대 표현 Ec= αEp + (1-α)En과 같은 표현에 따라 시간에 대해 상기 계산된 차를 평활화하도록 구성될 수 있다. 비교기(560)는 또한 비교하기 전에 상기 에너지 차들 중 하나 또는 이들 모두에 전술된 바와 같은 대응하는 필터 선호도 상수를 추가하도록 구성될 수 있다. 이들 원리들은 (예를 들어, 2보다 더 큰 M의 값들에 대해) 상태 측정기(402)의 다른 구현예들로 확장될 수 있으며, 상태 추정기들(404 및 406)이 유사한 방식으로 구현될 수 있다. 또한, 구현예들(402, 404, 406, 및 408)에 대해 설명된 기법들 중 둘 이상의 결합에 기초하여 추정된 상태(S50)를 생성하도록 구성될 수 있다는 점에 유의한다.
어떤 입력 채널도 원하는 스피치 컴포넌트를 포함하지 않는 구간들 동안(예를 들어, 잡음-온리 구간들 동안) 필터 출력들 간의 스위칭을 금지하거나 디스에이블하는 것이 바람직할 수 있다. 예를 들어, 원하는 사운드 컴포넌트가 활성인 경우에만 상태 추정기(400)가 추정된 배향 상태를 업데이트하는 것이 바람직할 수 있다. 상태 추정기(400)의 이러한 구현예는 통신 디바이스의 사용자가 말하고 있지 않는 구간들 동안이 아닌, 스피치 구간들 동안에만 상기 추정된 배향 상태를 업데이트하도록 구성될 수 있다.
도 17은 스위칭 메커니즘(360)의 구현예(364) 및 음성 액티비티 검출기(또는 "VAD")를 포함하는 장치(A210)의 구현예(A214)를 도시한다. 음성 액티비티 검출기(20)는 그것의 상태가 스피치 액티비티가 입력 채널(S10-1) 상에서 검출되는지의 여부를 표시하는 제어 신호(S70)를 생성하도록 구성되며, 스위칭 메커니즘(364)은 업데이트 제어 신호(S70)의 상태에 따라 제어된다. 스위칭 메커니즘(364)은 스피치가 검출되지 않는 구간들(예를 들어, 프레임들) 동안 추정된 상태(S50)의 업데이트들이 금지되도록 구성될 수 있다.
음성 액티비티 검출기(20)는 예를 들어, 프레임 에너지, 신호-대-잡음비(SNR), 주기성, 영-교차 레이트, 스피치 및/또는 레지듀얼(residual)의 자기상관, 및 제 1 반사계수와 같은 하나 이상의 인자들에 기초하여 (예를 들어, 바이너리 음성 검출 표시 신호의 상태를 제어하기 위해) 스피치 또는 잡음으로서 그것의 입력 신호의 프레임을 분류하도록 구성될 수 있다. 상기 분류는 이러한 인자의 값 또는 크기를 임계값과 비교하는 것 및/또는 이러한 인자에서의 변경의 크기를 임계값과 비교하는 것을 포함할 수 있다. 대안적으로 또는 추가적으로, 상기 분류는 하나의 주파수 대역 내에서, 에너지와 같은 상기 인자의 값 또는 크기, 또는 상기 인자의 변경의 크기를 또다른 주파수 대역 내의 유사 값과 비교하는 것을 포함할 수 있다. 음성 액티비티 검출기(20)는 바이너리-값 음성 검출 표시 신호로서 업데이트 제어 신호(S70)를 생성하도록 통상적으로 구성되지만, 연속적 및/또는 멀티-값 신호를 생성하는 구성들 역시 가능하다.
도 18은 스위칭 메커니즘(372)의 구현예(374) 및 VAD(20)를 포함하는 장치(220)의 구현예(A224)의 블록도를 도시한다. 이 예에서, 업데이트 제어 신호(S70)는 스피치 액티비티가 입력 채널(S10-1) 상에서 검출되는지의 여부에 따라 (예를 들어, 추정된 상태(S50)의 값에서의 변경들을 인에이블 또는 디스에이블하기 위해) 상태 추정기(412)의 구현예(416)를 제어하도록 배열된다. 도 19는 동일할 수 있지만 반드시 동일할 필요는 없는 VAD(20)의 인스턴스들(20-1 및 20-2)을 포함하는 장치(A210)의 구현예(A216)를 도시한다. 장치(A216)의 경우, 스위칭 메커니즘(360)의 구현예(366)의 상태 추정기는 스피치 액티비티가 입력 채널 어디에서나 검출되는 경우 인에이블되고 그 외에는 디스에이블된다.
통신 디바이스와 사용자의 입 간의 거리가 증가함에 따라, 스피치 프레임들과 넌-스피치 프레임들을 구별하기 위한 VAD(20)의 성능은 (예를 들어, SNR의 감소로 인해) 감소할 수 있다. 그러나, 앞서 주지된 바와 같이, 오직 스피치 구간들 동안에만 상기 추정된 배향 상태를 업데이트하도록 상태 추정기(400)를 제어하는 것이 바람직할 수 있다. 따라서, (예를 들어, 원음장 시나리오들에서 개선된 원하는 스피커 검출 액티비티를 제공하기 위해) 높은 신뢰도를 가지는 단일-채널 VAD를 사용하여 VAD(20)(또는 VAD들(20-1 및 20-2) 중 하나 또는 이들 모두)를 구현하는 것이 바람직할 수 있다. 예를 들어, 다수의 기준들(예를 들어, 에너지, 영교차 레이트 등) 및/또는 최근의 VAD 결정들의 메모리에 기초하여 음성 액티비티 검출을 수행하도록 이러한 검출기를 구현하는 것이 바람직할 수 있다. 장치(A212)의 또다른 구현예에서, VAD(20)의 인스턴스들(20-1 및 20-2)은 업데이트 제어 신호를 생성하는 듀얼-채널 VAD로 대체되며, 이는 위에서 주지된 바와 같이 바이너리 값일 수 있다.
상태 추정기(400)는 통신 디바이스의 현재 배향 상태를 추정하기 위해 둘 이상의 특징을 사용하도록 구성될 수 있다. 예를 들어, 상태 추정기(400)는 도 14A-D를 참조하여 위헤서 설명된 기준들 중 둘 이상의 결합을 사용하도록 구성될 수 있다. 상태 추정기(400)는 통신 디바이스의 현재 상태와 관련된 다른 정보, 예를 들어, (예를 들어, 통신 디바이스의 가속도계로부터의 정보에 기초하는) 위치 정보, (통신 디바이스의 하나 이상의 스위치들, 또는 상기 상태 또는 상태들에 의해 표시되는 바와 같은) 동작 구성, 및/또는 동작 모드(예를 들어, 푸시-투-토크, 스피커폰, 또는 비디오 재생 또는 레코딩과 같은 모드가 현재 선택되는지의 여부)를 사용하도록 구성될 수 있다. 예를 들어, 상태 추정기(400)는 어느 마이크로폰들이 현재 활성인지를 표시하는 (예를 들어, 현재 동작 구성에 기초하는) 정보를 사용하도록 구성될 수 있다.
또한, 장치(A200)는, 통신 디바이스의 일부 동작 구성들 또는 모드들에 대해, 공간 분리 필터들 중 대응하는 필터가, 상기 디바이스가 해당 구성 또는 모드인 동안, 계속되는 상태 추정이 불필요할만큼 충분한 분리를 제공한다고 가정되도록 구성될 수 있다. 예를 들어, 비디오 디스플레이 모드가 선택되면, (예를 들어, 사용자가 비디오 스크린을 대면하는 배향 상태에 관련한) 특정 대응값으로 추정된 상태 표시(S50)를 제한하는 것이 바람직할 수 있다. 입력 신호(S10)로부터의 정보에 기초하는 상태 추정의 프로세스가 필수적으로 일부 지연을 수반함에 따라, 통신 디바이스의 현재 상태에 관련한 상기 정보의 사용은, 예컨대, 하나 이상의 후속 프로세싱 스테이지들의 활성화 및/또는 하나 이상의 후속 프로세싱 스테이지들에 대한 파라미터 변경들과 같이, 상태 추정 프로세스를 가속화하고 그리고/또는 추정된 상태(S50)에서의 변경들에 응답하는 동작들에서의 지연들을 감소시키는 것을 보조할 수 있다.
통신 디바이스의 일부 동작 구성들 및/또는 동작 모드들은 특히 넓은 범위의 사용자-디바이스 배향들을 지원할 수 있다. 예를 들어, 푸시-투-토크 또는 스피커폰 모드와 같은 동작 모드에서 사용될 때, 통신 디바이스는 사용자의 입으로부터 비교적 먼 거리에 고정될 수 있다. 이들 배향들 중 일부에서, 사용자의 입은 각각의 마이크로폰으로부터 거의 같은 거리에 있을 수 있고, 현재 배향 상태의 신뢰성 있는 추정이 더 어려워질 수 있다. (상기 배향은, 예를 들어, 도 6C에 도시된 바와 같이, 상이한 배향 상태들과 연관된 영역들 간의 오버랩 영역에 대응할 수 있다.) 이러한 경우, 상기 배향의 작은 변경들은 추정된 상태(S50)의 불필요한 변경들을 야기할 수 있다.
(예를 들어, 히스테리시스 또는 관성을 포함시킴으로써) 불필요한 변경들을 금지하도록 상태 추정기(400)를 구성하는 것이 바람직할 수 있다. 예를 들어, 비교기(560)는 (A) 가장 큰 분리 측정치 및 (B) 현재 상태에 대응하는 분리 측정치 간의 거리가 임계치를 초과하는(대안적으로, 이보다 적지 않은) 경우에만 추정된 상태 표시(S50)를 업데이트하도록 구성될 수 있다.
도 20은 트랜지션 제어 모듈(500)의 구현예(520)의 블록도를 도시한다. 트랜지션 제어 모듈(520)은 M개의 선택기들(예를 들어, 디멀티플렉서들)의 세트를 포함한다. 1≤j≤M에 대해, 각각의 선택기 j 는 추정된 상태(S50)의 값에 따라 출력 채널(S40-j)로서 필터링된 채널들(S20j1 내지 S20jn) 중 하나를 출력한다.
트랜지션 제어 모듈(520)의 사용은 하나의 공간 분리 필터의 출력으로부터 또다른 공간 분리 필터의 출력으로의 출력 신호(S40)의 갑작스런 트랜지션을 초래할 수 있다. 통신 디바이스가 둘 이상의 배향 상태들 간의 공간 경계에 현재 가까운 상황에 대해, 트랜지션 제어 모듈(520)의 사용 역시 하나의 필터 출력으로부터 또다른 필터 출력으로의 빈번한 트랜지션들(또한 "지터"라고도 지칭됨)을 초래할 수 있다. 다양한 필터들의 출력들이 상당히 달라짐에 따라, 이들 트랜지션들은 출력 신호(S40)에서의 부적절한(objectionable) 결함들, 예를 들어, 원하는 스피치 신호의 일시적 감쇠 또는 다른 불연속성을 야기할 수 있다. 하나의 필터 출력으로부터 또다른 필터 출력으로의 변경들 간의 지연 기간(또한, "행오버(hangover)"라고도 지칭됨)을 적용함으로써 상기 결함들을 감소시키는 것이 바람직할 수 있다. 예를 들어, 동일한 목적지 상태가 지연 구간(예를 들어, 5 또는 10개의 연속적인 프레임들) 동안 일관적으로 표시되는 경우에만 추정된 상태 표시(S50)를 업데이트하도록 상태 추정기(400)를 구성하는 것이 바람직할 수 있다. 상태 추정기(400)의 이러한 구현예는 모든 상태 트랜지션들에 대해 동일한 지연 구간을 사용하거나, 특정 소스 및/또는 잠재적 목적지 상태들에 따라 상이한 지연 구간들을 사용하도록 구성될 수 있다.
출력 신호(S40)의 필터 출력들 간의 갑작스런 트랜지션들은 지각적으로 부적절할수 있으며, 트랜지션 제어 모듈(520)에 의해 제공되는 바와 같은 트랜지션보다 필터 출력들 간의 더 점진적인 트랜지션을 획득하는 것이 바람직할 수 있다. 이러한 경우, 스위칭 메커니즘(350)이 하나의 공간 분리 필터의 출력으로부터 또다른 공간 분리 필터의 출력으로 시간상 점진적으로 페이딩하는 것이 바람직할 수 있다. 예를 들어, 위에서 논의된 바와 같은 지연 구간의 적용에 추가하여, 또는 이에 대한 대안으로, 스위칭 메커니즘(350)은 몇몇 프레임들(예를 들어 10개의 20-밀리초 프레임들)의 병합 구간 동안 하나의 필터의 출력으로부터 또다른 필터의 출력으로의 선형 평활화를 수행하도록 구성될 수 있다.
도 21은 트랜지션 제어 모듈(500)의 구현예(550)의 블록도를 도시한다. 모듈(520)의 디멀티플렉서들의 어레이 대신, 트랜지션 제어 모듈(550)은 m 개의 믹서들(70a-70m)의 믹서 뱅크(700)를 포함한다. 트랜지션 제어 모듈(550)은 또한 트랜지션 제어 신호(S60)를 생성하도록 구성되는 행오버 로직(600)을 포함한다. 1≤j≤M에 대해, 각각의 믹서(70j)는 대응하는 출력 채널(S40-j)을 생성하기 위해 트랜지션 제어 신호(S60)에 따라, 필터링된 채널들(S20j1 내지 S20jn)을 믹싱하도록 구성된다.
도 22는 믹서(70j)의 구현예(72j)의 블록도를 도시한다(여기서, 1≤j≤M). 이 예에서, 트랜지션 제어 신호(S60)는 각각의 필터링된 채널들(S20j1 - S20jn)을 가중하도록 믹서(72j)에 의해 적용되는 n개 값들을 병렬로 포함하며, 합산기(60j)는 출력 채널(S40-j)을 생성하기 위해 상기 가중된 신호들의 합산을 계산한다.
도 23은 믹서 뱅크(700)의 2-채널 구현예(710)를 포함하는 트랜지션 제어 모듈(550)의 구현예(555)의 블록도를 도시한다. 한가지 이러한 예에서, 행오버 로직(600)의 2-채널 구현예(610)는 미리결정된 수의 프레임들(즉, 병합 구간)동안 0에서 1로 변하는 가중 인자 ω를 계산하고, 트랜지션 제어 신호(60)로서 (추정된 상태(S50)에 의해 결정된 순서로) ω 및 (1-ω)의 값들을 출력하도록 구성된다. 믹서 뱅크(710)의 믹서들(74a 및 74b)은 다음과 같은 표현 : ωFn + (1-ω)Fc에 따라 이들 가중 인자들을 적용하도록 각각 구성되며, 여기서, Fn은 믹서가 트랜지션하고 있는 필터링된 채널을 표시하고, Fc는 믹서를 트랜지션하고 있는 필터링된 채널을 표시한다.
추정된 상태(S50)의 상이한 트랜지션들을 위해 상이한 지연 및/또는 병합 구간들을 적용하도록 행오버 로직(600)을 구성하는 것이 바람직하다. 예를 들어, 추정된 상태(S50)의 일부 트랜지션들은 다른 것들보다 실제로 덜 발생할 수 있다. 상대적으로 덜 발생하는 상태 트랜지션의 일 예는, 사용자가 핸드셋을 완전히 전환(turn around)했음을(즉, 제 1 마이크로폰이 사용자의 입을 대향하고 있는 배향으로부터 제 1 마이크로폰들이 사용자의 입으로부터 멀어지는 배향으로) 표시하는 트랜지션이다. 덜 발생하는 트랜지션동안 더 긴 지연 및/또는 병합 기간을 사용하도록 행오버 로직(600)을 구성하는 것이 바람직할 수 있다. 이러한 구성은 추정된 상태 표시(S50)의 스퓨리어스 트랜지언트(spurious transient)들을 억압하는 것을 보조할 수 있다. 통신 디바이스의 현재 및/또는 이전 상태에 관한 다른 정보, 예컨대, 위치 정보, 동작 구성, 및/또는 여기서 논의된 바와 같은 동작 모드에 따라 지연 및/또는 병합 구간을 선택하는 것이 바람직할 수 있다.
도 24는 장치(A210)의 구현예(A218)의 블록도를 도시한다. 이 예에서, 스위칭 메커니즘(360)의 구현예(368)는 스피치 채널(S40-1) 및 잡음 채널(S40-2)을 생성하기 위해 n쌍의 입력 채널들 및 n쌍의 필터링된 채널들 중에서 선택하도록 구성된다. 일 예에서, 스위칭 메커니즘(368)은 듀얼-채널 모드 또는 단일-채널 모드에서 동작하도록 구성된다. 듀얼-채널 모드에서, 스위칭 메커니즘(368)은 스피치 채널(S40-1) 및 잡음 채널(S40-2)을 생성하기 위해 n쌍의 필터링된 채널 중에서 선택하도록 구성된다. 단일-채널 모드에서, 스위칭 메커니즘(368)은 스피치 채널(S40-1)을 생성하기 위해 입력 채널(S10-1)을 선택하도록 구성된다. 단일-채널 모드의 대안적인 구현예에서, 스위칭 메커니즘(368)은 스피치 채널(S40-1)을 생성하기 위해 2개의 입력 채널들 중에서 선택하도록 구성된다. 이러한 경우, 2개의 입력 채널들 중에서의 선택은 하나 이상의 기준, 예를 들어, 가장 높은 SNR, (예를 들어, 하나 이상의 통계적 메트릭들에 의해 표시되는 바와 같은) 가장 큰 스피치 확률(likelihood), 통신 디바이스의 현재 동작 구성, 및/또는 원하는 신호가 발신되는 것으로 결정되는 방향에 기초할 수 있다.
도 25는 스위칭 메커니즘(370)의 구현예(378)는 입력 채널들(예를 들어, 제 1 마이크로폰과 연관된 채널)들 중 하나를 수신하고, 단일-채널 모드일 때 스피치 신호(S40-1)로서 이 채널을 출력하도록 구성되는 장치(A220)의 관련된 구현예(A228)의 블록도를 도시한다. 스위칭 메커니즘은 추정된 배향 상태가 필터 뱅크 내의 n개의 필터들 중 임의의 필터에 대응하지 않을 경우 단일-채널 모드를 선택하도록 구성될 수 있다. 도 5에 도시된 바와 같이 필터 뱅크(120)의 2-필터 구현예(130) 및 3중(triple)의 가능한 배향 상태들에 대해, 예를 들면, 스위칭 메커니즘은 추정된 상태(S50)는 영역(A3)에 대응하는 경우 단일-채널 모드를 선택하도록 구성될 수 있다. 설계 관점에서, 단일-채널 모드는 필터 뱅크 내의 필터들 중 어느 것도 신뢰성 있는 공간 프로세싱 결과를 생성하도록(또는, 대안적으로 기대되는) 발견되지 않는 경우들을 포함할 수 있다. 예를 들어, 스위칭 메커니즘은 공간 분리 필터들 중 임의의 필터가 원하는 사운드 컴포넌트를 대응하는 필터링된 채널로 분리했음을 신뢰성 있게 결정할 수 없을 때, 단일-채널 모드를 선택하도록 구성될 수 있다. 한가지 이러한 예에서, 비교기(560)는 분리 측정치들 간의 차가 최소값을 초과하지 않는 경우 단일-채널 모드의 선택을 표시하도록 구성된다.
필터 뱅크(100)의 필터들 모두가 동일한 구조의 개별 인스턴스들을 사용하여 구현되는 경우에 대해, 이 구조의 또다른 인스턴스를 사용하여 단일-채널을 구현하기에 편리할 수 있다. 도 26은 장치(A228)의 이러한 구현예(A229)의 블록도를 도시한다. 이 예에서, 필터들(F14-1 및 F14-2)은 동일한 필터 구조의 상이한 인스턴스들을 사용하여 구현되며, 통과(pass-through) 필터(F14-3)는 임의의 공간 프로세싱 없이 입력 채널들(S10-1 및 S10-2)을 통과시키도록 구성되는 동일한 구조의 또다른 인스턴스를 사용하여 구현된다. 예를 들어, 필터 뱅크(100)의 필터들은 교차-필터 피드포워드(feedforward) 및/또는 피드백 구조를 사용하여 통상적으로 구현된다. 이러한 경우에서, 통과 필터는 교차 필터들 모두에 대한 계수값들이 제로인 이러한 구조를 사용하여 구현될 수 있다. 추가적인 예에서, 통과 필터(F14-3)는 오직 입력 채널(S10-1)만이 통과되도록 입력 채널(S10-2)을 블록화하도록 구현된다. 장치(A229)는 (예를 들어, 추정된 상태 표시(S50)에 기초하여) 다른 필터링된 채널들(S2011, S2012, S2021, 및 S2022)과 동일한 방식으로 통과 필터(F14-3)에 의해 생성되는 채널들로 그리고 채널들로부터 트랜지션하도록 구성된다.
상관되지 않은 잡음은 공간 프로세싱 시스템의 성능을 저하시킬 수 있다. 예를 들어, 상관되지 않은 잡음의 증폭은 백색 잡음 이득으로 인해 공간 프로세싱 필터에서 발생할 수 있다. 상관되지 않은 잡음은 마이크로폰들 또는 센서들 모두보다 더 적게(예를 들어, 이들 중 하나로) 특정되며, 바람, (예를 들어, 사용자의 손톱의) 스크래칭, 마이크로폰으로의 직접적인 불기 또는 숨쉬기, 및/또는 센서 또는 회로 잡음을 포함할 수 있다. 이러한 잡음은 특히 저주파수들에서 나타나기 쉽다. 상관되지 않은 잡음이 검출될 때 공간 분리 필터들을 턴오프하거나 바이패스시키기 위한(예를 들어, 단일-채널 모드로 가기 위한) 그리고/또는 고역통과 필터를 사용하여 영향받은 입력 채널(들)로부터 상관되지 않은 잡음을 제거하기 위한 장치(A200)를 구현하는 것이 바람직할 수 있다.
도 27은 입력 채널들 간에 상관되지 않은 잡음을 검출하도록 구성되는 상관되지 않은 잡음 검출기(30)를 포함하는 장치(A210)의 구현예(A210A)의 블록도를 도시한다. 상관되지 않은 잡음 검출기(30)는 출원번호가 12/201,528이고 출원일이 2008년 8월 29일이고, 발명의 명칭이 "SYSTEMS, METHODS, AND APPARATUS FOR DETECTION OF UNCORRELATED COMPONENT"인 미국 특허출원에 기술된 구성들 중 임의의 구성에 따라 구현될 수 있는데, 상기 특허출원은 이러한 검출에 대한 상관되지 않은 잡음 및/또는 응답의 검출의 기술로 제한되는 목적을 위해 참조로써 여기에 통합된다. 이 예에서, 장치(A210A)는 (예를 들어, 바이너리 값일 수 있는, 검출 표시(S80)를 통해) 상관되지 않은 잡음 검출기(30)가 상관되지 않은 잡음의 존재를 표시하는 경우 설명된 바와 같이 단일-채널 모드로 들어가도록 구성되는 스위칭 메커니즘(368)의 구현예(368A)를 포함한다. 단일-채널 모드의 사용에 대한 대안으로서(또는 여기에 추가하여), 장치(A210A)는 입력 채널들 중 하나 이상에서 조정가능한 고역통과 필터를 사용하여 상관되지 않은 잡음을 제거하도록 구성되며, 그 결과, 상기 필터는 상관되지 않은 잡음이 상기 채널 또는 채널들에서 검출될 때만 활성화된다.
음성 통신들(예를 들어, 텔레포니)을 위한 트랜시버 애플리케이션들에서, 용어 "니어-엔드(near-end)"는 (예를 들어, 마이크로폰들로부터) 오디오로서 수신되고 통신 디바이스에 의해 전송되는 신호를 표시하기 위해 사용되고, 용어 "파-엔드(far-end)"는 통신 디바이스에 의해 수신되고 (예를 들어, 디바이스의 하나 이상의 라우드스피커들을 통해) 오디오로서 재생되는 신호를 표시하기 위해 사용된다. 파-엔드 신호 액티비티에 응답하여 장치(A200)의 구현예의 동작을 수정하는 것이 바람직할 수 있다. 특히, 풀-듀플렉스 스피커폰 모드 동안 또는 헤드셋에서, 예를 들어, 디바이스의 라우드 스피커들에 의해 재생되는 바와 같은 파-엔드 신호 액티비티는 디바이스의 마이크로폰들에 의해 픽업되어 입력 신호(S10) 상에서 나타나고 결과적으로 배향 상태 추정기를 방해(distract)할 수 있다. 이러한 경우, 파-엔드 신호 액티비티의 기간들 동안 추정된 상태에 대한 업데이트들을 중지시키는 것이 바람직할 수 있다. 도 28은 (예를 통신 디바이스의 수신기 부분으로부터 수신되는) 파-엔드 오디오 신호(S15)에 대한 음성 액티비티 검출기(VAD)(20)의 인스턴스(70)를 포함하는 장치(A224)의 구현예(A224A)의 블록도를 도시한다. 핸드셋에 대해, VAD(70)는 풀-듀플렉스 스피커폰 모드 동안 그리고/또는 제 2 스피커(SP20)가 활성일 때 활성화될 수 있으며, 그것이 생성하는 업데이트 제어 신호는 VAD가 파-엔드 스피치 액티비티를 표시하는 경우 상태 표시기의 출력에 대한 변경들을 디스에이블하도록 스위칭 메커니즘을 제어하기 위해 사용될 수 있다. 도 28은 VAD(20) 및 VAD(70) 중 적어도 하나가 스피치 액티비티를 표시할 때 추정된 상태(S50)의 업데이트들을 중지시키도록 구성되는 스위칭 메커니즘(374)의 특정 구현예(374A)를 도시한다. 헤드셋에 대해, VAD(70)는 (예를 들어, 디바이스의 제 1 스피커가 뮤트되지 않는 한) 정상 동작 동안 활성화될 수 있다.
M개 채널들보다 더 적은 채널들을 가지는 신호를 프로세싱하기 위해 공간 분리 필터들(FlO-1 내지 F10-n) 중 하나 이상을 구성하는 것이 바람직할 수 있다. 예를 들어, 심지어 M이 2보다 더 큰 경우에 대해, 오직 한 쌍의 입력 채널들만을 프로세싱하도록 공간 분리 필터들 중 하나 이상(그리고 가능하게는 모두)을 구성하는 것이 바람직할 수 있다. 이러한 구성에 대한 한 가지 가능한 이유는 장치(A200)의 결과적인 구현예가 M개 마이크로폰들 중 하나 이상의 실패에 대해 허용가능하게 하기 위한 것일 것이다. 또다른 가능한 이유는, 통신 디바이스의 일부 동작 구성들에 있어서, 장치(A200)가 비활성화되거나 또는 M개 마이크로폰들 중 하나 이상을 무시하도록 구성될 수 있다는 점이다.
도 29 및 도 30은 M이 3이며 필터들(F14-1, F14-2, 및 F14-3) 각각이 한쌍의 입력 채널들을 프로세싱하도록 구성되는 장치(A200)의 2가지 구현예들을 도시한다. 도 29는 필터들(F14-1, F14-2, 및 F14-3) 각각이 3개의 입력 채널들(S1O-1, S10-2, 및 S10-3)의 상이한 쌍을 프로세싱하도록 구성되는 장치(A232)의 블록도를 도시한다. 도 30은 필터들(14-1 및 F14-2)들이 입력 채널들(S10-1 및 S10-2)을 프로세싱하도록 구성되고, 필터(F14-3)가 입력 채널들(S10-1 및 S10-3)을 프로세싱하도록 구성되는 장치(A234)의 블록도를 도시한다. 도 31은 필터들(F14-1 내지 F14-6) 각각이 한쌍의 입력 채널들을 프로세싱하도록 구성되는 장치(A200)의 구현예(A236)의 블록도를 도시한다.
장치(A234)에서, 스위칭 메커니즘(360)은 입력 채널(S10-3)에 대응하는 마이크로폰이 뮤트되거나 오류가 있는(faulty) 동작 구성을 위해 필터들(F14-1 및 F14-2) 중 하나를 선택하고 그외에는 필터들(F14-1 및 F14-3) 중 하나를 선택하도록 구성될 수 있다. (예를 들어, 현재 동작 구성에 기초하여, 또는 다른 입력 채널들과 연관된 마이크로폰의 실패에 응답하여) 입력 채널들(S10-1 내지 S10-3)의 특정 쌍이 장치(A236)에서 선택되는 경우, 스위칭 메커니즘(360)은 상기 입력 채널들의 쌍을 수신하는 필터들(F14-1 내지 F14-6)에 대응하는 오직 2개 상태들 중에서 선택하도록 구성될 수 있다.
통신 디바이스의 특정 동작 모드들에서, 셋 이상의 입력 채널들 중 한 쌍의 선택은 발견적 교수법(heuristic)에 적어도 부분적으로 기초하여 수행될 수 있다. 도 2에 도시된 바와 같은 종래의 전화 모드에서, 예를 들어, 전화는 통상적으로 제한된 가변성을 가지는 제한적인 방식으로 통상적으로 고정되므로, 한 쌍의 입력 채널들의 고정된 선택이 적절할 수 있다. 그러나, 도 3A 및 3 또는 도 4A 및 4B에 도시된 바와 같은 스피커폰 모드에서, 많은 고정 패턴들이 가능하므로, 한 쌍의 입력 채널들의 동적 선택은 모든 기대되는 사용 배향들에서 충분한 분리를 획득하기 위해 바람직할 수 있다.
통신 디바이스의 수명 동안, 마이크로폰 엘리먼트들 중 하나 이상이 손상될 수 있거나 또는 고장날(fail) 수 있다. 위에서 주지된 바와 같이, 장치(A200)가 상기 마이크로폰들 중 하나 이상의 고장에 대해 허용가능하게 되는 것이 바람직할 수 있다. 스위칭 메커니즘(360)은 다수의 상태 추정 방식들로 구성될 수 있으며, 각각은 입력 채널들의 상이한 서브세트에 대응한다. 예를 들어, 다양한 기대되는 오류 시나리오들 각각에 대해(예를 들어, 모든 가능한 오류 시나리오에 대해) 상태 추정 로직을 제공하는 것이 바람직할 수 있다.
표시자 함수의 값을 가능한 배향 상태들의 세트로 매핑시킴으로써 추정된 상태 표시(S50)를 생성하기 위한 상태 표시자(400)를 구현하는 것이 바람직할 수 있다. 장치(A200)의 2-필터 구현예(A220)에서, 예를 들어, 분리 측정치들을 단일 표시자로 압축하고 상기 표시자의 값을 가능한 배향 상태들의 세트 중 대응하는 하나로 매핑하는 것이 바람직할 수 있다. 한가지 이러한 방법은 각각의 필터에 대한 분리 측정치를 계산하는 단계, 표시자 함수를 평가하기 위해 2개의 측정치들을 사용하는 단계, 및 표시자 함수값을 가능한 상태들의 세트로 매핑하는 단계를 포함한다.
도 14A-14D를 참고하여 위에서 논의된 것들(예를 들어, 에너지 차, 상관, TDOA)을 포함하여, 임의의 분리 측정치가 사용될 수 있다. 일 예에서, 각각의 공간 분리 필터들(F14-1 및 F14-2)에 대한 분리 측정치들(z1 및 z2) 각각은 필터의 출력들의 에너지들 간의 차로서 계산되며, 여기서 각 채널에 대한 에너지는 20밀리초 프레임 동안 제곱된 샘플들의 합으로서 계산될 수 있는데, 즉, z1 = e11-e12, z2 = e21 - e22이고, 여기서 e11, e12, e21, e22는 대응하는 프레임동안, 채널들(S2011, S2021, S2012, 및 S2022)의 에너지들을 각각 나타낸다. 이후 표시자 함수는 2개의 측정치들 간의 차, 예를 들어, z1 - z2로서 계산될 수 있다.
표시자 함수의 평가 이전에, 대응하는 필터 입력 채널들 중 하나 이상에 따라 각각의 분리 측정치를 스케일링하는 것이 바람직할 수 있다. 예를 들어, 대응하는 프레임들에 대한 다음 표현들 |x1|, |x2|, |x1|+|x2|, |x1+x2|, |x1x2| 중 하나의 값들의 합과 같은 인자에 따라, 상기 측정치들 z1 및 z2 각각을 스케일링하는 것이 바람직할 수 있으며, x1, x2는 입력 채널들(S10-1 및 S10-2)의 값들을 각각 나타낸다.
분리 측정치들에 대해 상이한 스케일링 인자들을 사용하는 것이 바람직할 수 있다. 한 가지 이러한 예에서, 필터(F14-1)는 원하는 사운드가 채널(S10-1)에 대응하는 마이크로폰에서 더욱 많이 지향되는 배향 상태에 대응하고, 필터(F14-2)는 원하는 사운드가 채널(S10-2)에 대응하는 마이크로폰에서 더욱 많이 지향되는 배향 상태에 대응한다. 이러한 경우, 프레임 동안 |x1|의 합에 기초하는 인자에 따라 분리 측정치 z1을 스케일링하고, 프레임 동안 |x2|의 합에 기초하는 인자에 따라 분리 측정치 z2를 스케일링하는 것이 바람직할 수 있다. 이 예에서, 분리 측정치 z1
Figure pct00001
와 같은 표현에 따라 계산될 수 있으며, 분리 측정치 z2는
Figure pct00002
와 같은 표현에 따라 계산될 수 있다.
스케일링 인자가 한 방향에서 다른 방향에서보다 더 많이 분리 측정의 값에 영향을 미치는 것이 바람직할 수 있다. 최대 차에 기초하는 분리 측정의 경우, 예를 들어, 스케일링 인자가, 입력 볼륨이 낮을 때 분리 측정의 값을 지나치게 증가시키지 않고, 높은 입력 채널 볼륨에 응답하여 분리 채널의 값을 감소시키는 것이 바람직할 수 있다. (최소 차에 기초하는 분리 측정의 경우, 반대 효과가 요구될 수 있다.) 한가지 이러한 예에서, 분리 측정치들(z1 및 z2)은 다음과 같은 표현들 즉,
Figure pct00003
,
Figure pct00004
에 따라 계산되며, 여기서
Figure pct00005
,
Figure pct00006
, 및
Figure pct00007
는 임계값이다.
도 32A는 표시자 함수(예를 들어, z1 - z2)의 3개의 가능한 배향 상태들의 세트로의 매핑의 일 예를 도시한다. 상기 값이 제 1 임계(T1) 미만인 경우, (제 1 필터에 대응하는) 상태 1이 선택된다. 상기 값이 제 2 임계(T2)를 초과하는 경우, (제 2 필터에 대응하는) 상태 3이 선택된다. 상기 값이 상기 임계들 사이에 있는 경우, (어느 필터에도 대응되지 않는, 즉, 단일-채널 모드의) 상태 3이 선택된다. 통상적인 경우, 임계값들(T1 및 T2)은 반대 극성들을 가진다. 도 32B는 상이한 임계값들(T1A, T1B 및 T2A, T2B)이 어느 방향으로 트랜지션이 진행중인지에 따라 상태들 간의 트랜지션들을 제어하는데 사용되는 이러한 매핑의 또다른 예를 도시한다. 이러한 매핑은 배향에서의 작은 변경들로 인한 지터들을 감소시키기 위해 그리고/또는 오버랩 영역들에서의 불필요한 상태 트랜지션들을 감소시키기 위해 사용될 수 있다.
상기 논의된 바와 같은 표시자 함수 방식은 또한, 예를 들어, 이러한 방식으로 채널들의 각 쌍을 프로세싱하여 상기 쌍에 대한 선택된 상태를 획득하고, 이후 전체적으로 가장 많은 표들을 가지는 상태들을 선택함으로써, 상태(A200)의 3-채널(또는 M-채널) 구현예들로 확장될 수 있다.
주지된 바와 같이, 필터 뱅크(130)는 필터(F14-1)의 대응하는 계수 값 행렬에 대해 플립되도록 구현될 수 있다. 이러한 특정 케이스에서, 위에서 논의된 바와 같은 표시자 함수값은
Figure pct00008
과 같은 표현에 따라 계산될 수 있으며, 여기서,
Figure pct00009
은 위에서 표시된 값을 가진다.
도 33A는 추가적인 출력 신호(S42)를 생성하기 위해 출력 신호(S40)의 추가적인 공간 프로세싱(예를 들어, 스피치 및 잡음 컴포넌트들의 추가적 분리)을 수행하도록 구성되는 적응형 필터(450)와 장치(A210)를 결합시키는 장치(A200)의 구현예(A310)의 블록도를 도시한다. 복수의 적응형 필터들을 포함하도록 적응형 필터(450)를 구현하는 것이 바람직할 수 있으며, 따라서, 이들 컴포넌트 필터들 각각이 필터 뱅크(120) 내의 필터들 중 한 필터에 대응하며, 추정된 상태 표시(S50)에 따라 선택가능하다. 예를 들어, 이러한 적응형 필터(450)의 구현은 신호(S42)로서 컴포넌트 필터들 중 한 필터의 출력을 선택하고, 그리고/또는 추정된 상태 표시(S50)에 따라 신호(S42)를 획득하도록 병합 구간동안 상기 컴포넌트 필터들 중 둘 이상의 출력들을 믹싱하도록 구성되는 트랜지션 제어 모듈(500)과 유사한 선택 또는 믹싱 메커니즘을 포함할 수 있다.
적응형 필터(450)(또는 이들의 컴포넌트 필터들 중 하나 이상, 가능하게는 모두)는 여기서 설명된 바와 같이 하나 이상의 BSS, 빔형성, 및/또는 결합된 BSS/빔형성 방법들에 따라, 또는 특정 애플리케이션에 적합한 임의의 다른 방법에 따라 구성될 수 있다. 초기 조건들의 세트를 가지고 적응형 필터(450)를 구성하는 것이 바람직할 수 있다. 예를 들어, 상기 컴포넌트 필터들 중 적어도 하나가 넌-제로인 초기 상태를 가지는 것이 바람직할 수 있다. 이러한 상태는 트레이닝 신호들의 세트를 필터링하기 위해 필터 뱅크(120)의 대응하는 필터를 사용함으로써 획득되는 필터링된 신호 상의 컨버전스 상태로 상기 컴포넌트 필터를 트레이닝함으로써 계산될 수 있다. 통상적인 생성 애플리케이션에서, 컴포넌트 필터의 레퍼런스 인스턴스들 및 필터 뱅크(120)의 대응하는 필터의 레퍼런스 인스턴스들은 초기 상태(즉, 필터 계수들의 초기 값들의 세트)를 생성하기 위해 사용되는데, 이는 이후 적응형 필터(450)의 컴포넌트 필터로 저장된다. 초기 조건들의 생성은 또한, 출원번호가 12/197,924이고 출원일이 2008년 8월 25일이고, 발명의 명칭이 "SYSTEMS, METHODS, AND APPARATUS FOR SIGNAL SEPARATION"인 미국 특허출원의 ("For a configuration that includes"로 시작하고 "during online operation"로 끝나는) 문단[00130]-[00134]에 기술되는데, 상기 문단들은 필터 트레이닝의 기재에 제한할 목적으로 참조로써 여기에 포함된다. 트레이닝을 통한 필터 상태들의 생성은 또한 아래에 더 상세하게 설명된다.
장치(A200)는 공간적으로 프로세싱된 신호의 스펙트럼 프로세싱을 수행하기 위해 배열된 하나 이상의 스테이지들을 포함하도록 구현될 수 있다. 도 33B는 장치(A210)를 잡음 감소 필터(460)와 결합시키는 장치(A200)의 구현예(A320)의 블록도를 도시한다. 잡음 감소 필터(460)는 스피치 신호(S40-1)의 잡음을 감소시키고 대응하는 필터링된 스피치 신호(S45)를 생성하기 위해 잡음 레퍼런스로서 잡음 채널(S40-2)에 상기 신호를 적용하도록 구성된다. 잡음 감소 필터(460)는 Wiener 필터로서 구현될 수 있는데, 상기 Wiener 필터의 필터 계수값들은 분리된 채널들로부터의 신호 및 잡음 전력 정보에 기초한다. 이러한 경우, 잡음 레퍼런스(또는, 출력 채널(S40)이 셋 이상의 채널들을 가지는 보다 일반적인 경우에 대해서는, 하나 이상의 잡음 레퍼런스)에 기초하여 잡음 스펙트럼을 추정하도록 구성될 수 있다. 대안적으로, 잡음 감소 필터(460)는 상기 하나 이상의 잡음 레퍼런스들로부터의 스펙트럼에 기초하여, 스피치 신호에 대해 스펙트럼 감산 동작을 수행하도록 구성될 수 있다. 대안적으로, 잡음 제거 필터(460)는 Kalman 필터로서 구현될 수 있으며, 잡음 공분산은 하나 이상의 잡음 레퍼런스들에 기초한다.
비-스피치 구간들 동안만, 예컨대 스펙트럼 또는 공분산과 같은 잡음 특성들을 추정하도록 잡음 감소 필터(460)를 구성하는 것이 바람직할 수 있다. 이러한 경우, 잡음 감소 필터(460)는 음성 액티비티 검출(VAD) 동작을 포함하거나, 또는 장치 또는 디바이스 내에서 수행되는 이러한 동작의 결과를 사용하고, 스피치 구간들 동안 잡음 특성들의 추정을 디스에이블하도록 (대안적으로, 오직 잡음-온리 구간들 동안만 상기 추정을 인에이블시키도록) 구성될 수 있다. 도 33C는 적응형 필터(450) 및 잡음 감소 필터(460) 모두를 포함하는 장치(A310 및 A320)의 구현예(A330)의 블록도를 도시한다. 이 경우, 잡음 감소 필터(460)는 필터링된 스피치 신호(S45)를 생성하기 위해 스피치 신호(S42-1) 내의 잡음을 감소시키기 위해 잡음 레퍼런스로서 잡음 채널(S42- 2) 상의 신호를 적용하도록 배열된다.
장치(A200)의 구현예가 출력 신호(S40 또는 S45)에 대해 오디오 프로세싱 동작들을 추가적으로 수행하도록 배열되도록 상기 디바이스 내에 존재하게 하는 것이 바람직할 수 있다. 이 경우, 장치(A200) 및 상기 디바이스의 임의의 다른 잡음 감소 엘리먼트들, 예를 들어 (예컨대, 이동국 모뎀(MSM) 칩 또는 칩셋의 베이스밴드 부분 내에 포함될 수 있는) 단일-채널 잡음 감소 모듈의 구현예 간의 가능한 상호작용들을 고려하는 것이 바람직할 수 있다.
이러한 경우들에서 레지듀얼 배경 잡음의 양 및/또는 질을 조정하는 것이 바람직할 수 있다. 예를 들어, 장치(A200)의 멀티채널 필터들은 단일-채널 잡음 감소 모듈의 기대되는 잡음 입력 레벨에 대해 전체적으로 억압적(aggressive)일 수 있다. 출력 신호(S40)에 남아 있는 잡음의 진폭 및/또는 스펙트럼 서명에 따라, 단일-채널 잡음 감소 모듈은 더 많은 왜곡(예를 들어, 급속도로 달라지는 레지듀얼, 음악 잡음)을 인입할 수 있다. 이러한 경우들에서, 결합된 잡음 감소 방식의 출력에 응답하여 하나 이상의 파라미터 세팅들을 조정하고 그리고/또는 출력 신호(S40)에 일부 필터링된 컴포트 잡음(comfort noise)을 부가하는 것이 바람직할 수 있다.
단일-채널 잡음-감소 방법들은 통상적으로 잡음 감소 동작을 지원하기 위해 사용되는 레퍼런스 정보를 제공하기 위해 잡음 및 음성 데이터의 일부 확장된 기간의 획득을 요구한다. 이러한 획득 기간은 관측가능한 잡음 감소에서 지연들을 인입하기 쉽다. 상기 방법들의 비교시, 여기서 제시되는 멀티채널 방법들은 배경 잡음으로부터의 사용자의 분리로 인해 상대적으로 순간적인(instant) 잡음 감소를 제공할 수 있다. 따라서, 단일-채널 잡음 제거 모듈의 동적 특징들에 대해 멀티채널 프로세싱 스테이지들의 억압성 세팅들의 애플리케이션의 타이밍을 최적화하는 것이 바람직할 수 있다.
추정된 상태 표시(S50)에서의 변경들에 응답하여 후속적인 프로세싱 스테이지들에서 파라미터 변경들을 수행하는 것이 바람직할 수 있다. 또한, 장치(A200)가 특정 파라미터 변경 및/또는 추정된 배향 상태와 연관될 수 있는 핸드오버 로직 및/또는 타이밍 큐(cue)들의 변경들을 개시하는 것이 바람직할 수 있다. 예를 들어, 특정 확장된 추정 기간이 상태 추정 지식에서 충분한 신뢰도를 보장하도록 보조할 수 있으므로, 추정된 상태 표시(S50)에서의 변경 이후 일부 기간 동안 억압적 사후-프로세싱 스테이지를 지연시키는 것이 바람직할 수 있다.
배향 상태가 변경되면, 현재 잡음 레퍼런스는 후속적인 공간 및/또는 스펙트럼 프로세싱 동작들에 더 이상 적절하지 않을 수 있고, 상태 트랜지션들 동안 이들 스테이지들을 덜 억압적이도록 렌더링하는 것이 바람직할 수 있다. 예를 들어, 스위칭 메커니즘(350)이 트랜지션 단계(phase) 동안 현재 잡음 채널 출력을 감쇠시키는 것이 바람직할 수 있다. 행오버 로직(600)은 이러한 동작을 수행하도록 구현될 수 있다. 한가지 이러한 예에서, 행오버 로직(600)은 현재 및 이전의 추정된 상태들 간의 불일치를 검출하고, 상기 검출에 응답하여, 채널 출력(예를 들어, 장치(A210)의 채널(S40-2))을 감쇠시키도록 구성된다. 점진적이거나 또는 갑작스러울 수 있는 상기 감쇠는 (예를 들어, 55 또는 60 퍼센트 내지 80 또는 90 퍼센트의 범위 내의 양, 예컨대 75 또는 80 퍼센트만큼) 상당할 수 있다. 새로운 스피치 및 잡음 채널들로의 트랜지션(예를 들어, 둘 모두 일반 볼륨에서) 역시 (예를 들어, 트랜지션 제어 모듈(550)과 관련하여) 여기서 설명된 바와 같이 수행될 수 있다. 도 34는 채널 쌍(S2011 및 S2012)에서 채널 쌍(S2021 및 S2022)으로의 트랜지션 동안 이러한 감쇠 방식의 일 예에 대해 스피치 채널들(S2011, S2021) 및 잡음 채널들(S2012, S2022)에 대한 시간에 대한 상대적 이득 레벨들을 도시한다.
또한 추정된 상태 표시(S50)에 따라 하나 이상의 다운스트림 동작들을 제어하는 것이 바람직할 수 있다. 예를 들어, 추정된 상태 표시(S50)에 따라, (예를 들어, 도 33A 및 33C에 도시된 바와 같이) 다운스트림 적응형 필터에 초기 조건들의 대응하는 세트를 적용하는 것이 바람직할 수 있다. 이러한 경우, 위에서 설명된 바와 같이, 추정된 상태 표시(S50)에 따라 적응형 필터(450)의 컴포넌트 필터를 선택하고, 그것의 초기 상태로 상기 컴포넌트 필터를 리셋하는 것이 바람직할 수 있다. 초기 조건들의 하나의 세트로부터 또다른 세트로의, 또는 하나의 컴포넌트 필터로부터 또다른 컴포넌트 필터로의 트랜지션 동안 행오버 로직(600)과 관련하여 위에서 설명된 것과 유사한 방식으로 현재 잡음 채널 출력(예를 들어, S42-2)을 감쇠시키는 것이 바람직할 수 있다. 장치(A200)의 단일-채널 동작 동안, 다운스트림 적응형 공간 프로세싱 필터들(예를 들어, 도 33A-C에 도시된 바와 같은) 디바이스의 다른 공간 프로세싱 동작들을 디스에이블 시키는 것 역시 바람직할 수 있다.
특정 방향들에 대한 시스템 잡음 감소 동작의 일부 감도(sensitivity)가 (예를 들어, 통신 디바이스 상의 마이크로폰 배치로 인해) 당면될 수 있다. 특정 애플리케이션에 적합한 마이크로폰의 배열을 선택함으로써 그리고/또는 잡음 구간들의 선택적 마스킹을 사용함으로써 이러한 감도를 감소시키는 것이 바람직할 수 있다. 이러한 마스킹은 (예를 들어, 여기서 설명된 바와 같은 VAD를 사용하여) 잡음-온리 구간들을 선택적으록 감쇠시킴으로써, 또는 후속적인 단일-채널 잡음 감소 모듈이 레지듀얼 잡음 결함들을 제거하게 할 수 있도록 컴포트 잡음을 추가함으로써 달성될 수 있다.
도 35A는 파-엔드 오디오 신호(S15)에 기초하여 입력 신호(S10)로부터 에코들을 캔슬시키도록 구성되는 에코 캔슬러(EC10)를 포함하는 장치(A200)의 구현예(A210B)의 블록도를 도시한다. 이 예에서, 에코 캔슬러(EC10)는 필터 뱅크(120)에 의해 입력으로서 수신되는 에코-캔슬된 신호(S10a)를 생성한다. 장치(A200)는 또한 파-엔드 오디오 신호(S15)에 기초하여 출력 신호(S40)로부터 에코들을 캔슬하도록 구성되는 에코 캔슬러(EC10)의 인스턴스를 포함하도록 구성될 수도 있다. 어느 경우든, 스피커폰 모드인 통신 디바이스의 동작 동안 그리고/또는 PTT 모드인 통신 디바이스의 동작 동안 에코 캔슬러(EC10)를 디스에이블시키는 것이 바람직할 수 있다.
도 35B는 단일-채널 에코 캔슬러(EC20)의 2가지 인스턴스들(EC20a 및 EC20b)을 포함하는 에코 캔슬러(EC10)의 구현예(EC12)의 블록도를 도시한다. 이 예에서, 에코 캔슬러(EC20)의 각각의 인스턴스는 입력 채널들의 세트(O1, O2) 중 대응하는 하나를 생성하기 위해 입력 채널들의 세트(I1,I2) 중 하나를 프로세싱하도록 구성된다. 에코 캔슬러(EC20)의 다양한 인스턴스들은 각각 현재 알려져 있거나 개발될 에코 캔슬의 임의의 기법(예를 들어, 최소 평균 제곱 기법)에 따라 구성될 수 있다. 예를 들어, 에코 캔슬은 위에서 참조되는 미국 특허 출원 제 12/197,924호의 문단들 [00139]-[00141]("An apparatus"로 시작해서 "B500"로 끝남)에서 논의되는데, 상기 문단들은 여기서 장치의 다른 엘리먼트들의 설계, 구현예, 및/또는 이들과의 통합을 포함하지만 이에 제한되지 않는 에코 캔슬 이슈들의 기재로 제한할 목적으로 참조로써 여기에 포함된다.
도 35C는 파-엔드 신호(S15)를 필터링하도록 구성된 필터(CE10) 및 필터링된 파-엔드 신호를 프로세싱 중인 입력 채널과 결합시키도록 구성되는 가산기(CE20)를 포함하는 에코 캔슬러(EC20)의 구현예(EC22)의 블록도를 도시한다. 필터(CE10)의 필터 계수값들은 고정형 및/또는 적응형일 수 있다. 통신 디바이스가 파-엔드 오디오 신호를 재생하므로 상기 통신 디바이스의 레퍼런스 인스턴스에 의해 레코딩되는 멀티채널 신호들의 세트를 사용하여 (예를 들어, 아래에 더 상세하게 설명되는 바와 같이) 필터(CE10)의 레퍼런스 인스턴스를 트레이닝하는 것이 바람직할 수 있다.
통신 디바이스의 다른 엘리먼트들(예를 들어, 이동국 모뎀(MSM) 칩 또는 칩셋의 베이스밴드 부분)이 출력 신호(S40)에 대해 오디오 프로세싱 동작들을 추가적으로 수행하도록 배열되도록 장치(A210B)의 구현예가 상기 디바이스 내에 상주하는 것이 바람직할 수 있다. 장치(A200)의 구현예에 포함될 에코 캔슬러를 설계할 때, 이 에코 캔슬러와 통신 디바이스의 임의의 다른 에코 캔슬러(예를 들어, MSM 칩 또는 칩셋의 에코 캔슬 모듈) 간의 가능한 시너지 효과들을 고려하는 것이 바람직할 수 있다.
도 36은 여기에 설명된 바와 같은 장치(A200)(또는 아래에 설명되는 장치(A100))의 구현예를 포함하는 디바이스의 설계 및 사용동안 수반(follow)될 수 있는 프로시저의 흐름도를 도시한다. 설계 단계(phase)에서, 트레이닝 데이터는 고정된 필터 세트들(예를 들어, 필터 뱅크(100)의 필터들의 필터 계수값들)을 결정하는데 사용되고, 대응하는 사용자-핸드셋 상태는 (예를 들어 여기서 설명되는 바와 같은 스위칭 메커니즘에 의한) 현재 배향 상태의 온라인 추정 및 현재 상황에 적절한 고정된 필터 세트의 선택을 인에이블시키는 것을 특징으로 한다. 트레이닝 데이터는 통신 디바이스(예를 들어, 핸드셋 또는 헤드셋)의 레퍼런스 인스턴스를 사용하여 다양한 사용자-디바이스 음향 시나리오들에서 레코딩되는 잡음성의 스피치 샘플들의 세트이다. (무향 챔버 내에서 수행될 수 있는) 이러한 레코딩 이전에, (주파수에 따라 달라질 수 있는) 레퍼런스 디바이스의 M개 마이크로폰들의 이득들의 비가 원하는 범위 내에 있음을 보장하기 위해 캘리브레이션을 수행하는 것이 바람직할 수 있다. 고정된 필터 세트들이 레퍼런스 디바이스를 사용하여 결정되면, 이들은 여기서 설명되는 바와 같은 장치의 구현예를 포함하는 통신 디바이스의 생성 인스턴스들로 카피될 수 있다.
도 37은 필터 뱅크(100)의 공간 분리 필터들 중 하나 이상을 특성화하는 계수값들을 획득하기 위해 사용될 수 있는 설계 방법(M10)의 흐름도를 도시한다. 방법(M10)은 멀티채널 트레이닝 신호들의 세트를 레코딩하는 태스크(T10) 및 트레이닝 신호들을 서브세트들로 분할하는 태스크(T20)를 포함한다. 방법(M10)은 또한 태스크들(T30 및 T40)을 포함한다. 서브세트들 각각에 대해, 태스크(T30)는 컨버전스에 대해 대응하는 공간 분리 필터를 트레이닝한다. 태스크(T40)는 트레이닝된 필터들의 분리 성능을 평가한다. 태스크들(T20, T30, 및 T40)은 통상적으로, 개인용 컴퓨터 또는 워크스테이션을 사용하여, 통신 디바이스의 외부에서 수행된다. 방법(M10)의 태스크들 중 하나 이상은 수용가능한 결과가 태스크(T40)에서 획득될 때까지 반복될 수 있다. 방법(M10)의 다양한 태스크들은 아래에 더 상세하게 논의되며 이들 태스크들이 추가적인 설명은 출원 번호가 12/197,924이고, 출원일이 2008년 8월 25일이며, 발명의 명칭이 "SYSTEMS, METHODS, AND APPARATUS FOR SIGNAL SEPARATION"이며, 그 문서가 공간 분리 필터들의 설계, 트레이닝 및/또는 평가에 제한되는 목적으로 참조로써 여기에 통합된다.
태스크(T10)는 K-채널 트레이닝 신호들의 세트를 레코딩하기 위해 적어도 K개의 마이크로폰들의 어레이를 사용하며, 여기서 K는 M과 적어도 동일한 정수이다. 상기 트레이닝 신호들 각각은 스피치 및 잡음 컴포넌트들을 모두 포함하며, 각각의 트레이닝 신호들는 P개의 시나리오들 중 하나 하에서 레코딩되며, 여기서 P는 2일 수 있지만 일반적으로 1보다 더 큰 임의의 정수이다. 아래에 설명되는 바와 같이, P개 시나리오들 각각은 상이한 공간 특징(예를 들어, 상이한 핸드셋 또는 헤드셋 배향) 및/또는 상이한 스펙트럼 특징(예를 들어, 상이한 특징들을 가지는 사운드 소스들의 캡쳐)을 포함할 수 있다. 트레이닝 신호들의 세트는 통상적으로 각각의 시나리오에 대해 다수의 트레이닝 신호들을 포함하지만, 이러한 세트는 P개 시나리오들 중 상이한 시나리오 하에서 각각 레코딩되는 적어도 P개의 트레이닝 신호들을 포함한다.
K-채널 트레이닝 신호들의 세트 각각은 적어도 하나의 정보 소스 및 적어도 하나의 간섭 소스에 응답하여 K개 마이크로폰들의 어레이에 의해 생성되는 신호들에 기초한다. 예를 들어, 트레이닝 신호들 각각이 잡음성의 환경에서의 스피치 레코딩이 되는 것이 바람직할 수 있다. K개 채널들 각각은 K개 마이크로폰들 중 대응하는 마이크로폰의 출력에 기초한다. 마이크로폰 신호들은 통상적으로 샘플링되며, 사전-프로세싱(예를 들어, 에코 캔슬, 잡음 감소, 스펙트럼 성형 등을 위해 필터링)될 수 있으며, (예를 들어, 여기서 설명되는 바와 같이 또다른 공간 분리 필터 또는 적응형 필터에 의해) 심지어 사전-분리될 수 있다. 스피치와 같은 음향 애플리케이션들에 대해, 통상적인 샘플링 레이트들은 8 kHz 내지 16 kHz의 범위를 가진다.
여기서 설명되는 바와 같이 장치(A200)의 다른 엘리먼트들을 포함하는 동일한 통신 디바이스를 사용하여 태스크(T10)를 수행하는 것이 가능하다. 그러나, 보다 통상적으로는, 태스크(T10)는 통신 디바이스(예를 들어, 핸드셋 또는 헤드셋)의 레퍼런스 인스턴스를 사용하여 수행될 것이다. 이후, 방법(M10)에 의해 생성되는 통합된(converged) 필터 솔루션들의 결과 세트는 제조동안 동일한 또는 유사한 통신 디바이스의 다른 인스턴스들로(예를 들어, 각각의 상기 제조 인스턴스의 플래시 메모리로) 로딩될 것이다.
이러한 경우, 상기 통신 디바이스의 레퍼런스 인스턴스("레퍼런스 디바이스")는 K개 마이크로폰들의 어레이를 포함한다. 레퍼런스 디바이스의 마이크로폰들이 상기 통신 디바이스의 제조 인스턴스들("제조 디바이스들")과 동일한 음향 응답을 가지는 것이 바람직할 수 있다. 예를 들어, 레퍼런스 디바이스의 마이크로폰들이 제조 디바이스들과 동일한 모델 또는 모델들이고, 동일한 방식으로 동일한 위치들에 장착되는 것이 바람직할 수 있다. 더욱이, 그외의 경우에는 레퍼런스 디바이스가 제조 디바이스들과 동일한 음향 특성들을 가지는 것이 바람직할 수 있다. 또한, 레퍼런스 디바이스는, 제조 디바이스들이 서로간에 그러하듯, 상기 제조 디바이스들과 음향적으로 동일해지는 것이 바람직할 수 있다. 예를 들어, 레퍼런스 디바이스가 제조 디바이스들과 동일한 디바이스 모델이 되는 것이 바람직할 수 있다. 그러나, 실제 제조 환경에서, 레퍼런스 디바이스는 하나 이상의 작은(즉, 음향적으로 중요하지 않은) 양상들에서 제조 디바이스들과 다른 사전-제조 버전일 수 있다. 통상적인 경우, 레퍼런스 디바이스는 트레이닝 신호들을 레코딩만 하기 위해 사용되며, 따라서, 레퍼런스 디바이스 자체가 장치(A200)의 엘리먼트들을 포함하는 것이 필수적이지 않을 수 있다.
동일한 K개의 마이크로폰들이 트레이닝 신호들 모두를 레코딩하기 위해 사용될 수 있다. 대안적으로, 트레이닝 신호들 중 한 신호를 레코딩하는 데 사용되는 K개의 마이크로폰들의 세트가 트레닝 신호들 중 또다른 하나의 신호를 레코딩하는데 사용되는 K개의 마이크로폰들의 세트와 (상기 마이크로폰들 중 하나 이상에 있어서) 상이한 것이 바람직할 수 있다. 예를 들어, 상기 마이크로폰들 사이에서 일부 변경 정도에 대해 강건한 복수의 필터 계수값들을 생성하기 위해 상기 마이크로폰 어레이의 상이한 인스턴스들을 사용하는 것이 바람직할 수 있다. 한가지 이러한 경우에서, K-채널 트레이닝 신호들의 세트가 레퍼런스 디바이스의 적어도 2개의 상이한 인스턴스들을 사용하여 레코딩되는 신호들을 포함한다.
P개 시나리오들 각각은 적어도 하나의 정보 소스 및 적어도 하나의 간섭 소스를 포함한다. 통상적으로, 각각의 정보 소스는 스피치 신호 또는 음악 신호를 재생하는 라우드 스피커이고, 각각의 간섭 소스는 간섭 음향 신호, 예를 들어 또다른 스피치 신호 또는 통상적인 기대되는 환경으로부터의 주변 배경 사운드, 또는 잡음 신호를 재생하는 라우드 스피커이다. 사용될 수 있는 다양한 타입들의 라우드 스피커는 일렉트로다이나믹(예를 들어, 음성 코일) 스피커들, 압전 스피커들, 정전 스피커들, 리본 스피커들, 평면 자기 스피커들 등을 포함한다. 한가지 시나리오 또는 애플리케이션에서 정보 소스로서 작용(serve)하는 소스는 상이한 시나리오 또는 애플리케이션에서 간섭 소스로서 작용할 수 있다. P개 시나리오들 각각에서 K개 마이크로폰들로부터의 입력 데이터의 레코딩은 K-채널 테이프 레코더, K-채널 사운드 레코딩 또는 캡쳐 성능을 가지는 컴퓨터, 또는 K개 마이크로폰들의 출력을 (예를 들어, 샘플링 레졸루션 정도 내에서) 동시에 캡처 또는 레코딩할 수 있는 또다른 디바이스를 사용하여 수행될 수 있다.
음향 무향 챔버는 K-채널 트레이닝 신호들의 세트를 레코딩하기 위해 사용될 수 있다. 도 38은 트레이닝 데이터를 레코딩하기 위해 구성되는 음향 무향 챔버의 예를 도시한다. 이 예에서, HATS(Bruel & Kjaer, Naerum, Denmark에 의해 제조된 Head and Torso Simulator)는 간섭 소스들의 내향-포커스된(inward-focused) 어레이(즉, 4개의 라우드스피커들) 내에 위치된다. HATS 헤드는 대표적인 휴먼 헤드와 음향상으로 유사하며 스피치 신호를 생성하기 위해 입 안에 라우드 스피커를 포함한다. 간섭 소스들의 어레이는 도시된 바와 같이 HATS를 포함하는 확산 잡음 필드를 생성하도록 구동될 수 있다. 한가지 이러한 예에서, 라우드 스피커들의 어레이는 HATS 귀 레퍼런스 포인트 또는 입 레퍼런스 포인트에서 75 내지 78 dB의 음압 레벨로 잡음 신호들을 플레이백하도록 구성된다. 다른 경우들에서, 하나 이상의 이러한 간섭 소스들은 상이한 공간 분포를 가지는 잡음 필드(예를 들어, 지향성 잡음 필드)를 생성하도록 구동될 수 있다.
사용될 수 있는 잡음들의 타입들은 (예를 들어, Institute of Electrical and Electronics Engineers (IEEE), Piscataway, NJ에 의해 공표된 IEEE Standard 269-2001, "Draft Standard Methods for Measuring Transmission Performance of Analog and Digital Telephone Sets, Handsets and Headsets" 에 기술된 바와 같이) 백색 잡음, 핑크 잡음, 그레이 잡음, 및 Hoth 잡음을 포함한다. 사용될 수 있는 잡음 신호들의 다른 타입들은 브라운 잡음, 블루 잡음, 및 퍼플 잡음을 포함한다.
P개 시나리오들은 적어도 하나의 공간 및/또는 스펙트럼 특징의 견지에서 서로 상이하다. 소스들 및 마이크로폰들이 공간적 구성은 적어도 다음 방식들 중 임의의 하나 이상에서 하나의 시나리오로부터 또다른 시나리오로 변경될 수 있다 : 소스의 다른 소스(들)에 대한 배치 및/또는 배향, 마이크로폰의 다른 마이크로폰(들)에 대한 배치 및/또는 배향, 및 소스들에 대한 마이크로폰들의 배치 및/또는 배향. P개의 시나리오들 중 적어도 2개의 시나리오는 상이한 공간적 구성들로 배열된 마이크로폰들 및 소스들의 세트에 대응하며, 따라서, 상기 세트 사이의 마이크로폰들 또는 소스들 중 적어도 하나는 다른 시나리오 내에서 그것의 위치 또는 배향과는 상이한 하나의 시나리오 내에서의 위치 또는 배향을 가진다. 예를 들어, 상기 P개 시나리오들 중 적어도 2개의 시나리오는 사용자의 입과 같은 정보 소스에 대해, K개의 마이크로폰들을 가지는 핸드셋 또는 헤드셋과 같은 휴대용 통신 디바이스의 상이한 배향들과 관련될 수 있다. 시나리오마다 상이한 공간적 특징들은 하드웨어 제약들(예를 들어, 디바이스 상의 마이크로폰들의 위치들), 상기 디바이스의 계획된(projected) 사용 패턴들(예를 들어, 통상적인 예상되는 사용자 보유 포즈(pose)들) 및/또는 상이한 마이크로폰 위치들 및/또는 활성화들(예를 들어, 3개 이상의 마이크로폰들 중 상이한 쌍들의 활성화)을 포함할 수 있다.
시나리오마다 달라질 수 있는 스펙트럼 특징들은 적어도 다음을 포함한다: 적어도 하나의 소스 신호로부터의 스펙트럼 컨텐츠(예를 들어, 상이한 음성들로부터의 스피치, 상이한 컬러들의 잡음), 및 상기 마이크로폰들 중 하나 이상의 주파수 응답. 전술된 바와 같은 일 특정 예에서, 상기 시나리오들 중 적어도 2개는 상기 마이크로폰들 중 적어도 하나에 대해 상이하다(다시 말해, 하나의 시나리오에서 사용되는 마이크로폰들 중 적어도 하나가 또다른 마이크로폰으로 대체되거나, 또는 다른 시나리오에서 전혀 사용되지 않는다). 이러한 변경은 마이크로 폰의 주파수 및/또는 위상 응답에서의 변경들의 예상되는 범위에 걸쳐 강건하고 그리고/또는 마이크로폰의 고장에 대해 강건한 솔루션을 지원하기 위해 바람직할 수 있다.
또다른 특정 예에서, 상기 시나리오들 중 적어도 2개의 시나리오는 배경 잡음을 포함하며, 배경 잡음의 서명(즉, 주파수 및/또는 시간에 대한 잡음의 통계치들)에 대해 상이하다. 이러한 경우, 간섭 소스들은 P개 시나리오들 중 하나에서 한가지 컬러(예를 들어, 백색, 핑크, 또는 Hoth) 또는 타입(예를 들어, 거리 잡음, 배블 잡음 , 또는 자동차 잡음의 재생)의 잡음을 방출하고, P개 시나리오들 중 또다른 하나에서 또다른 컬러 또는 타입의 잡음(예를 들어, 하나의 시나리오에서 배블 잡음, 그리고 또다른 시나리오에서 거리 및/또는 자동차 잡음)을 방출하도록 구성될 수 있다.
P개 시나리오들 중 적어도 2개의 시나리오는 실질적으로 상이한 스펙트럼 컨텐츠를 가지는 신호를 생성하는 정보 소스들을 포함할 수 있다. 스피치 애플리케이션에서, 예를 들어, 2개의 상이한 시나리오들에서의 정보 신호들은 상이한 음성들, 예를 들어, 서로 10 퍼센트, 20퍼센트, 30 퍼센트보다 적지 않게, 또는 심지어 50 퍼센트만큼 서로 상이한 평균 피치들(즉, 시나리오의 길이에 대해)을 가지는 2개의 음성들일 수 있다. 시나리오마다 달라질 수 있는 또다른 특징은 다른 소스 또는 소스들의 출력 진폭에 대한 한 소스의 출력 진폭이다. 시나리오마다 달라질 수 있는 또다른 특징은 다른 마이크로폰 또는 마이크로폰들의 이득 감도에 대한 하나의 마이크로폰의 이득 감도이다.
아래에 설명되는 바와 같이, K-채널 트레이닝 신호들의 세트는 필터 계수값들의 통합된 세트들을 획득하기 위해 태스크(T30)에서 사용된다. 트레이닝 신호들 각각의 지속기간은 트레이닝 동작의 기대되는 컨버전스 레이트에 기초하여 선택될 수 있다. 예를 들어, 컨버전스를 향해 상당한 진보를 허용할 만큼 충분히 길지만 다른 트레이닝 신호들 역시 통합된 솔루션에 실질적으로 기여하게 할만큼 충분히 짧은 각각의 트레이닝 신호에 대한 지속기간을 선택하는 것이 바람직할 수 있다. 통상적인 애플리케이션에서, 트레이닝 신호들 각각은 대략 0.5 또는 1 내지 대략 5 또는 10초동안 지속한다. 통상적인 트레이닝 동작에 대해, 상기 트레이닝 신호들의 카피들이 트레이닝을 위해 사용될 사운드 파일을 획득하기 위해 랜덤 순서로 연접된다(concatenate). 트레이닝 파일들에 대한 통상적인 길이들은 10, 30, 45, 60, 75, 90, 100, 및 120 초를 포함한다.
근접음장 시나리오(예를 들어, 통신 디바이스가 사용자의 입에 가깝게 고정되는 경우)에서, 원음장 시나리오(예를 들어, 디바이스가 사용자의 입으로부터 더 멀리 고정되는 경우)와는 상이한 진폭 및 지연 관계들이 마이크로폰들 출력들 간에 존재할 수 있다. P개 시나리오들의 범위가 근접음장 및 원음장 시나리오들 모두를 포함하는 것이 바람직할 수 있다. 아래에 주지되는 바와 같이, 태스크(T30)는 상이한 필터들을 트레이닝하기 위해 근접음장 및 원음장 시나리오들로부터의 트레이닝 신호들을 사용하도록 구성될 수 있다.
P개 음향 시나리오들 각각에 대해, 정보 신호는 (ITU-T Recommendation P.50, International Telecommunication Union, Geneva, CH, March 1993에 기술된 바와 같은) 사용자 입의 인공적인 스피치 및/또는 (IEEE Recommended Practices for Speech Quality Measurements in IEEE Transactions on Audio and Electroacoustics, vol. 17, pp. 227- 46, 1969에 기술된 바와 같은) Harvard Sentences 중 하나 이상과 같은 음성 발성 표준화 어휘로부터 재생함으로써 K개 마이크로폰들에 제공될 수 있다. 한가지 이러한 예에서, 스피치는 89 dB의 음압 레벨로 HATS의 입 라우드 스피커로부터 재생된다. P개 시나리오들 중 적어도 2개의 시나리오는 이러한 정보 신호에 대해 서로 상이할 수 있다. 예를 들어, 상이한 시나리오들은 실질적으로 상이한 피치들을 가지는 음성들을 사용할 수 있다. 추가적으로 또는 대안적으로, P개 시나리오들 중 적어도 2개의 시나리오들은 (예를 들어, 상이한 마이크로폰들에 응답하여 변경들에 강건한 통합된 솔루션을 지원하기 위해) 레퍼런스 디바이스의 상이한 인스턴스들을 사용할 수 있다.
애플리케이션들의 하나의 특정 세트에서, K개 마이크로폰들은 셀룰러 전화 핸드셋과 같은 무선 통신들을 위한 휴대용 디바이스의 마이크로폰들이다. 도 1A 및 도 1B는 이러한 디바이스에 대한 2개의 상이한 동작 구성들을 도시하고, 도 2 내지 4B는 이들 구성들에 대한 다양한 상이한 배향 상태들을 도시한다. 둘 이상의 이러한 배향 상태들은 P개의 시나리오들 중 상이한 시나리오들에 사용될 수 있다. 예를 들어, K-채널 트레이닝 신호들 중 하나가 이들 2개 배향들 중 하나에서 마이크로폰들에 의해 생성되는 신호들에 기초하고, K-채널 트레이닝 신호들 중 또다른 신호가 이들 2개 배향들 중 다른 배향에서 마이크로폰들에 의해 생성되는 신호들에 기초하는 것이 바람직할 수 있다.
또한, 디바이스의 상이한 동작 구성들 각각에 대해 방법(M10)의 별도의 인스턴스들을 수행하는(예를 들어, 각각의 구성에 대해 통합된 필터 상태들의 별도의 세트를 획득하는) 것 역시 가능할 수 있다. 이러한 경우, 장치(A200)는 런타임에서 통합된 필터 상태들의 다양한 세트들 중에서(즉, 필터 뱅크(100)의 상이한 인스턴스들 중에서) 선택하도록 구성될 수 있다. 예를 들어, 장치(A200)는 상기 디바이스가 개방되는지 또는 폐쇄되는지의 여부를 표시하는 스위치의 상태에 대응하는 필터 상태들의 세트를 선택하도록 구성될 수 있다.
애플리케이션들의 또다른 특정 세트에서, K개의 마이크로폰들은 유선 또는 무선 이어피스 또는 다른 헤드셋의 마이크로폰들이다. 도 9는 여기서 설명되는 이러한 헤드셋의 일 예(63)를 도시한다. 이러한 헤드셋에 대한 트레이닝 시나리오들은 위에서 핸드셋 애플리케이션들에 대해 설명되는 바와 같이 정보 및/또는 잡음 소스들의 임의의 결합을 포함할 수 있다. P개 트레이닝 시나리오들 중 상이한 시나리오들에 의해 의해 모델링될 수 있는 또다른 차이는 헤드셋 장착 가변성(66)에 의해 도 9에 표시된 바와 같은, 귀에 대한 트랜스듀서 축의 가변 각이다. 이러한 변경은 실제로 사용자마다 발생할 수 있다. 이러한 변경은 심지어 디바이스를 착용하는 단일 기간 동안 동일한 사용자에 대한 것일 수도 있다. 이러한 변경은 트랜스듀서 어레이로부터 사용자의 입까지의 거리 및 방향을 변경시킴으로써 신호 분리 성능에 악영향을 줄 수 있음이 이해될 것이다. 이러한 경우, K-채널 트레이닝 신호들 중 하나가 헤드셋이 장착 각들의 기대되는 범위의 한 극값으로 또는 거의 상기 극값으로 귀(65)에 장착되는 시나리오에 기반하고, K-채널 트레이닝 신호들 중 또다른 신호가 헤드셋이 장착각들의 기대되는 범위의 다른 극값으로 또는 거의 상기 다른 극값으로 귀(65)에 장착되는 시나리오에 기초하는 것이 바람직할 수 있다. P개 시나리오들 중 다른 시나리오들은 이들 극값들 사이의 중간인 각들에 대응하는 하나 이상의 배향들을 포함할 수 있다.
애플리케이션들의 또다른 세트에서, K개 마이크로폰들은 핸즈프리 자동차 키트에 제공되는 마이크로폰들이다. 도 39는 라우드 스피커(85)가 마이크로폰 어레이(84)에 대해 나란하게 배치되는 이러한 통신 디바이스(83)의 일 예를 도시한다. 이러한 디바이스에 대한 P개의 음향 시나리오들은 위에서 핸드셋 애플리케이션에 대해 설명된 바와 같은 정보 및/또는 잡음 소스들의 임의의 결합을 포함할 수 있다. 예를 들어, P개 시나리오들 중 둘 이상은 도 40에서 도시된 바와 같이, 마이크로폰 어레이에 대해 원하는 스피커의 배치와 다를 수 있다. 상기 P개 시나리오들 중 하나 이상은 또한 라우드 스피커(85)로부터 간섭 신호를 재생하는 것을 포함할 수 있다. 상이한 시나리오들은 시간 및/또는 주파수 상에서 상이한 서명들(예를 들어, 실질적으로 상이한 피치의 주파수들)을 가지는 음성들 및/또는 음악과 같은, 라우드 스피커(85)로부터 재생되는 간섭 신호들을 포함할 수 있다. 이러한 경우, 방법(M10)이 원하는 스피치 신호로부터 간섭 신호를 분리하는 적어도 하나의 필터 상태를 생성하는 것이 바람직할 수 있다. 또한 P개 시나리오들 중 하나 이상은 위에서 설명된 바와 같이 예컨대 확산 또는 지향성 잡음 필드와 같은 간섭을 포함할 수도 있다.
애플리케이션들의 추가적인 세트에서, K개 마이크로폰들은 펜, 스타일러스, 또는 다른 드로잉 디바이스 내에 제공되는 마이크로폰들이다. 도 41은 마이크로폰들(80)이 팁으로부터 도달하며 팁과 드로잉 면(81) 간의 접촉에 의해 야기되는 스크래칭 잡음(82)에 대해 종형(endfire)으로 배치되는 이러한 디바이스(79)의 일 예를 도시한다. 이러한 통신 디바이스에 대한 P개 시나리오들은 위에서 애플리케이션들에 대해 설명된 바와 같이 정보 및/또는 간섭 소스들의 임의의 결합을 포함할 수 있다. 추가적으로 또는 대안적으로, 상이한 시나리오들은 (예를 들어, 시간 및/또는 주파수에서 상이한 서명들을 가지는) 스크래칭 잡음(82)의 상이한 인스턴스들을 도출(elicit)하기 위해 상이한 표면들에 대해 디바이스(79)의 팁을 드로잉하는 것을 포함할 수 있다. 위에서 논의된 바와 같은 핸드셋 또는 헤드셋 애플리케이션과 비교하여, 이러한 애플리케이션에서 방법(M10)이 정보 소스(예를 들어, 사용자의 음성)가 아닌 간섭 소스(즉, 스크래칭 잡음)을 분리하는 필터 상태들의 세트를 생성하는 것이 바람직할 수 있다. 이러한 경우, 분리된 간섭은 (예를 들어, 여기서 도시된 바와 같이 잡음 레퍼런스로서 적용되는) 이후의 프로세싱 스테이지에서의 원하는 신호로부터 제거될 수 있다.
방법(M10)에 의해 생성되는 통합된 필터 솔루션들의 세트의 공간 분리 특성들(예를 들어, 다양한 빔 패턴들의 형상들 및 배향들)은 트레이닝 신호들을 획득하기 위해 태스크(T10)에서 사용되는 마이크로폰들의 상대적 특성들에 대해 민감할 수 있다. 트레이닝 신호들의 세트를 레코딩하기 위해 디바이스를 사용하기 전에 적어도 서로에 대한 레퍼런스 디바이스의 K개 마이크로폰들의 이득들을 캘리브레이션하는 것이 바람직할 수 있다. 또한, 제조 동안 및/또는 이후에 적어도 서로에 대한 각각의 제조 디바이스의 마이크로폰들의 이득들을 캘리브레이션하는 것이 바람직할 수 있다.
개별 마이크로폰 엘리먼트가 음향상으로 잘 특성화될지라도, 엘리먼트가 통신 디바이스에 장착되는 방식 및 음향 품질 부분과 같은 인자들의 차이들은 유사한 마이크로폰 엘리먼트들로 하여금 실제 사용에서 상당히 상이한 주파수 및 이득 응답 패턴들을 가지게 할 수 있다. 따라서, 통신 디바이스에 인스톨된 이후 이러한 마이크로폰 어레이의 캘리브레이션을 수행하는 것이 바람직할 수 있다.
마이크로폰들의 어레이의 캘리브레이션이 특정 잡음 필드 내에서 수행될 수 있고, 통신 디바이스는 상기 잡음 필드 내에서 특정 방식으로 배향된다. 도 42는 마이크로폰들 둘 다(상기 마이크로폰들 각각은 전방향성 또는 단방향성일 수 있음) 동일한 SPL 레벨들로 균일하게 노출되는 2-포인트 소스 잡음 필드로 배치되는 2-마이크로폰 핸드셋의 예를 도시한다. 제조 디바이스(예를 들어, 핸드셋들)의 팩토리 캘리브레이션을 수행하기 위해 사용될 수 있는 다른 캘리브레이션 인클로저(enclosure)들 및 프로시저들의 예는 출원번호가 61/077,144이고, 출원일이 2008년 6월 30일이고 발명의 명칭이 "SYSTEMS, METHODS, AND APPARATUS FOR CALIBRATION OF MULTI-MICROPHONE DEVICES"이고 그 문서가 멀티-마이크로폰 디바이스들의 캘리브레이션으로 제한할 목적으로 여기에 포함되는 미국 특허출원에 기재된다. 레퍼런스 디바이스의 마이크로폰의 주파수 응답 및 이득들의 매칭은 제조동안 마이크로폰 감도 및/또는 음향공(acoustic cavity)에서의 진동들(fluctuation)에 대한 보정을 보조할 수 있으며, 또한 각각의 제조 디바이스의 마이크로폰들을 캘리브레이션하는 것이 바람직할 수 있다.
제조 디바이스의 마이크로폰들 및 레퍼런스 디바이스의 마이크로폰들이 동일한 프로시저를 사용하여 적절하게 캘리브레이션되는 것을 보장하는 것이 바람직할 수 있다. 대안적으로, 상이한 음향 캘리브레이션 프로시저는 제조동안 사용될 수 있다. 예를 들어, 실험(laboratory) 프로시저를 사용하여 룸-크기의 무향 챔버에서 레퍼런스 디바이스를 캘리브레이션하고, 팩토리 플로어에서 (예를 들어, 위에서 포함된 바와 같은 미국 특허 출원 제 61/077,144호에서 기재된 바와 같은) 휴대용 챔버에서 각각의 제조 디바이스를 캘리브레이션하는 것이 바람직할 수 있다. 제조동안 음향 캘리브레이션 프로시저를 수행하는 것이 실현가능하지 않은 경우에 대해, 자동 이득 매칭 프로시저를 수행하도록 제조 디바이스를 구성하는 것이 바람직할 수 있다. 이러한 프로시저들의 예들은 출원번호가 61/058,132이고 출원일이 2008년 6월 2일이고 발명의 명칭이 "SYSTEM AND METHOD FOR AUTOMATIC GAIN MATCHING OF A PAIR OF MICROPHONES"이고 그 문서가 마이크로폰 캘리브레이션의 구현들 및/또는 기법들의 기재에 제한하는 목적으로 참조로써 여기에 통합되는 미국 특허출원에 기재된다.
제조 디바이스의 마이크로폰들의 특성들은 시간에 따라 드리프트(drift)한다. 대안적으로 또는 추가적으로, 이러한 디바이스의 어레이 구성은 시간에 따라 기계적으로 변할 수 있다. 결과적으로, 일부 다른 이벤트(예를 들어, 사용자 선택) 시에 또는 주기적 기반으로 서비스 동안 하나 이상의 마이크로폰 주파수 특징들 및/또는 감도들(예를 들어, 마이크로폰 이득들 간의 비)을 매치시키도록 구성되는 통신 디바이스 내에 캘리브레이션 루틴을 포함하는 것이 바람직할 수 있다. 이러한 프로시저의 예들은, 위에서 통합된 바와 같이 미국 가출원특허 제61/058,132호에 기재된다.
P개 시나리오들 중 하나 이상은 지향성 간섭 소스를 제공하기 위해 (예를 들어, 인공적인 스피치 및/또는 음성 발성 표준화 어휘에 의해) 통신 디바이스의 하나 이상의 라우드 스피커들을 구동하는 것을 포함할 수 있다. 하나 이상의 이러한 시나리오들의 포함은 파-엔드 오디오 신호로부터의 간섭에 대한 결과적인 통합된 필터 솔루션들의 강건성의 지원을 보조할 수 있다. 이러한 경우 레퍼런스 디바이스의 라우드 스피커 또는 라우드 스피커들이 제조 디바이스들과 동일한 모델 또는 모델들이고, 동일한 방식으로 동일한 위치들에 장착되는 것이 바람직할 수 있다. 도 1A에 도시된 바와 같은 동작 구성에 대해, 이러한 시나리오는 제 1 스피커(SP10)를 구동시키는 것을 포함하지만, 도 1B에 도시된 바와 같은 동작 구성에 대해, 이러한 시나리오는 제 2 스피커(SP20)를 구동시키는 것을 포함할 수 있다. 시나리오는 예를 들어, 도 38에 도시된 바와 같은 간섭 소스들의 어레이에 의해 생성되는 확산 잡음 필드에 부가하여, 또는 이에 대안적으로, 이러한 간섭 소스를 포함할 수 있다.
대안적으로 또는 추가적으로, 방법(M10)의 인스턴스는 위에서 설명된 바와 같이 에코 캔슬러(EC10)에 대한 하나 이상의 통합된 필터 세트들을 획득하도록 수행될 수 있다. 에코 캔슬러가 필터 뱅크(100)의 업스트림인 경우에 대해, 에코 캔슬러의 트레이닝된 필터들은 필터 뱅크(100)에 대한 트레이닝 신호들의 레코딩동안 사용될 수 있다. 에코 캔슬러가 필터 뱅크(100)의 다운스트림인 경우에 대해, 필터 뱅크(100)의 트레이닝된 필터들은 에코 캔슬러에 대한 트레이닝 신호들의 레코딩동안 사용될 수 있다.
무향 챔버 내에 위치된 HATS가 태스크(T10)에서 트레이닝 신호들의 레코딩을 위해 적절한 테스트 디바이스로서 설명되지만, 임의의 다른 휴머노이드(humanoid) 시뮬레이터 또는 휴먼 스피커가 원하는 스피치 생성 소스를 위해 대체될 수 있다. 이러한 경우 (예를 들어, 원하는 범위의 오디오 주파수들에 대해 필터 계수 행렬들을 더 양호하게 조정하기 위해) 배경 잡음의 적어도 일부량을 사용하는 것이 바람직할 수 있다. 또한 제조 디바이스의 사용동안 그리고/또는 사용 이전에 상기 디바이스에 테스트를 수행하는 것이 가능하다. 예를 들어, 테스트는 기대되는 사용 환경에 기초하여 그리고/또는 마이크로폰들에서 입까지의 통상적인 거리와 같은 통신 디바이스의 사용자의 특징들에 기초하여 개인화(personalize)될 수 있다. 일련의 프리셋 "질문(question)들"은 예를 들어, 특정한 특징들, 특성(trait)들, 환경들, 사용들 등에 대해 상기 시스템을 조정하는 것을 보조할 수 있는, 사용자 응답을 위해 설계될 수 있다.
태스크(T20)는 트레이닝 신호들의 세트 각각을 분류하여 트레이닝 신호들의 Q개 서브세트들을 획득하는데, 여기서 Q는 태스크(T30)에서 트레이닝될 필터들의 개수와 동일한 정수이다. 상기 분류는 각각의 트레이닝 신호의 모든 K개 채널들에 기초하여 수행될 수 있거나, 또는 상기 분류는 각각의 트레이닝 신호의 K개 채널들 모두보다 더 적도록 제한될 수 있다. K가 M보다 더 큰 경우, 예를 들어, 상기 분류가 각각의 트레이닝 신호에 대한 M개 채널들의 동일한 세트(소위, 오직 트레이닝 신호들을 레코딩하기 위해 사용되었던 어레이의 M개 마이크로폰들의 특정 세트로부터 유래된(originate) 채널들만)로 제한되는 것이 바람직할 수 있다.
분류 기준은 선험적 지식 및/또는 발견적 교수법(heuristic)을 포함할 수 있다. 한가지 이러한 예에서, 태스크(T20)는 각각의 트레이닝 신호를 그것이 레코딩되었던 시나리오에 기초하여 특정 서브세트에 할당한다. 태스크(T20)가 근접음장 시나리오들로부터의 트레이닝 신호들을 원음장 시나리오들로부터의 트레이닝 신호들과는 상이한 하나 이상의 서브세트들로 분류하는 것이 바람직할 수 있다. 또다른 예에서, 태스크(T20)는 트레이닝 신호의 둘 이상의 채널들의 상대적인 에너지들에 기초하는 특정 서브세트에 트레이닝 신호를 할당한다.
대안적으로 또는 추가적으로, 분류 기준은 트레이닝 신호들을 공간적으로 프로세싱하기 위해 하나 이상의 공간 필터들을 사용함으로써 획득되는 결과들을 포함할 수 있다. 이러한 필터 또는 필터들은 태스크(T30)의 이전 반복에 의해 생성되는 대응하는 하나 이상의 통합된 필터 상태들에 따라 구성될 수 있다. 대안적으로 또는 추가적으로, 하나 이상의 이러한 필터들은 여기서 설명되는 빔형성 또는 결합된 BSS/빔형성 방법에 따라 구성될 수 있다. 예를 들어, 태스크(T20)는 Q개의 공간 분리 필터들 중 어느 것이 (예를 들어, 도 14A-D를 참조하여 위에서 논의된 바와 같은 기준에 따라) 상기 신호의 스피치 및 잡음 컴포넌트들의 최상의 분리를 생성하기 위해 발견되는지에 기초하여 각각의 트레이닝 신호를 분류하는 것이 바람직할 수 있다.
태스크(T20)가 트레이닝 신호들 모두를 Q개의 서브세트들로 분류할 수 없는 경우, Q의 값을 증가시키는 것이 바람직할 수 있다. 대안적으로, 분류 태스크(T20)의 또다른 반복을 수행하기 이전에, 트레이닝 신호들의 새로운 세트를 획득하고, 상기 분류 기준 중 하나 이상을 변경하고, 그리고/또는 각각의 트레이닝 신호의 M개 채널들의 상이한 세트를 선택하기 위해 상이한 마이크로폰 배치에 대해 레코딩 태스크(T10)를 반복하는 것이 바람직할 수 있다. 태스크(T20)는 레퍼런스 디바이스 내에서 수행될 수 있지만, 통상적으로는 개인용 컴퓨터 또는 워크 스테이션을 사용하여 통신 디바이스의 외부에서 수행될 수 있다.
태스크(T30)는 개별 소스 분리 알고리즘에 따라 대응하는 적응형 필터 구조를 트레이닝하기 위해(즉, 대응하는 통합된 필터 솔루션을 계산하기 위해) 상기 Q개의 트레이닝 서브세트들 각각을 사용한다. Q개의 필터 구조들 각각은 피드포워드 및/또는 피드백 계수들을 포함할 수 있으며, 유한-임펄스 응답(FIR) 또는 무한-임펄스-응답(IIR) 설계일 수 있다. 상기 필터 구조들의 예들은 여기에 통합된 바와 같은 미국 특허출원 제 12/197,924호에 기재된다. 태스크(T30)는 레퍼런스 디바이스 내에서 수행될 수 있지만 통상적으로는 개인용 컴퓨터 또는 워크스테이션을 사용하여 통신 디바이스의 외부에서 수행된다.
용어 "소스 분리 알고리즘들"은 블라인드(blind) 소스 분리 알고리즘, 예를 들어 독립적 컴포넌트 분석(ICA) 및 관련 방법들, 예를 들어, 독립적 벡터 분석(IVA)을 포함한다. 블라인드 소스 분리(BSS) 알고리즘들은 소스 신호들의 믹스처에만 기초하여 (하나 이상의 정보 소스들 또는 하나 이상의 간섭 소스들로부터의 신호들을 포함할 수 있는) 개별 소스 신호들을 분리하는 방법들이다. 용어 "블라인드"는 레퍼런스 신호 또는 관심있는 신호가 사용가능하지 않다는 사실을 지칭하며, 이러한 방법들은 공통적으로 정보 및/또는 간섭 신호들 중 하나 이상의 통계치들에 관한 가정들을 포함한다. 스피치 애플리케이션들에서, 예를 들어, 관심있는 스피치 신호는 공통적으로 수퍼가우시안 분포(예를 들어, 높은 첨예도(kurtosis))를 가진다고 가정된다.
통상적인 소스 분리 알고리즘은 (A) 신호 및 잡음 모두를 가지는 결합 채널 및 (B) 적어도 하나의 잡음-우세 채널을 포함하는 분리된 채널들의 세트를 생성하기 위해 믹스된 신호들의 세트를 프로세싱하도록 구성된다. 또한 상기 결합 채널은 입력 채널과 비교하여 증가된 신호-대-잡음비(SNR)를 가질 수 있다. 태스크(T30)가 결과적인 출력 신호에 있어서 상기 지향성 컴포넌트의 에너지가 출력 채널들 중 하나로 집중되도록 지향성 컴포넌트를 가지는 입력 신호를 필터링하도록 구성되는 통합된 필터 구조를 생성하는 것이 바람직하다.
BSS 알고리즘들의 클래스는 멀티바이브레이트 블라인드 디컨볼루션(multivariate blind deconvolution) 알고리즘들을 포함한다. 소스 분리 알고리즘들 역시, 예를 들어, 마이크로폰 어레이의 축에 대해 소스 신호들 중 하나 이상의 각각의 알려진 방향과 같은 다른 선험적 정보에 제약되는 BSS 알고리즘들의 변형물들, 예를 들어, ICA 및 IVA를 포함한다. 이러한 알고리즘들은 관측되는 신호들이 아닌 오직 지향성 정보에만 기초하여 고정된 비-적응형 솔루션들을 적용하는 빔형성기들과는 구별될 수 있다.
여기서 주지된 바와 같이, 필터 뱅크(100)의 공간 분리 필터들 및 적응형 필터(450) 각각은 BSS, 빔형성, 또는 결합된 BSS/빔형성 방법을 사용하여 구성될 수 있다. BSS 방법은 ICA, IVA, 제약된 ICA, 또는 제약된 IVA 중 적어도 하나의 구현예를 포함할 수 있다. 독립적인 컴포넌트 분석은 아마도 서로 독립적인 믹스된 소스 신호들(컴포넌트들)을 분리하기 위한 방식이다. 그 간략화된 형태로, 독립적인 컴포넌트 분리는 믹스된 신호들에 대한 가중치들의 행렬의 "언믹싱(unmixing)"을 연산하는데, 예를 들면, 분리된 신호들을 생성하기 위해, 행렬과 믹스된 신호들을 곱한다. 상기 가중치들에 초기값들이 할당되고, 이후 정보 리던던시를 최소화하기 위해 신호들의 조인트(joint) 엔트로피를 최대화하도록 조정된다. 이러한 가중-조정 및 엔트로피-증가 프로세스는 상기 신호들의 정보 리던던시가 최소값으로 감소할 때까지 반복된다. ICA와 같은 방법들은 잡음 소스들로부터 스피치 신호들의 분리를 위해 상대적으로 정확하고 플렉시블한 수단을 제공한다. 독립적인 벡터 분석("IVA")은 관련된 기법이며, 여기서, 소스 신호는 단일의 가변 소스 신호 대신 벡터 소스 신호이다. 이들 기법들이 각각의 신호의 소스에 대한 정보를 요구하지 않으므로, 이들은 "블라인드 소스 분리" 방법들이라 알려져 있다. 블라인드 소스 분리 문제점들은 다수의 독립 소스들로부터 오는 혼합된 신호들의 분리의 개념을 참조한다.
Q개의 공간 분리 필터들(예를 들어, 필터 뱅크(100) 또는 적응형 필터(450)) 각각은 대응하는 적응형 필터 구조에 기초하며, 이들의 계수값들은 소스 분리 알고리즘으로부터 유도된 학습 규칙을 이용하여 태스크(T30)에 의해 계산된다. 도 43A는 2개의 피드백 필터들(C110 및 C120)을 포함하는 적응형 필터 구조(FS10)의 2-채널 예의 블록도를 도시하고, 도 43B는 역시 2개의 직접 필터들(D110 및 D120)을 포함하는 필터 구조(FS10)의 구현예(FS20)의 블록도를 도시한다. 이러한 구조를 트레이닝하기 위해 태스크(T30)에 의해 사용되는 학습 규칙은 필터의 출력 채널들 간의 정보를 최대화하도록(예를 들어, 필터의 출력 채널들 중 적어도 하나에 의해 포함되는 정보량을 최대화하도록) 설계될 수 있다. 이러한 기준은 또한 출력 채널들의 통계상의 독립성을 최대화하거나, 출력 채널들 사이의 상호간의 정보를 최소화하거나, 또는 출력에서의 엔트로피를 최대화하는 것으로서 다시 언급될 수 있다. 사용될 수 있는 상이한 학습 규칙들의 특정 예들은 (인포맥스(infomax)라고도 알려진) 최대 정보, 최대 우도, 및 최대 비정규성(nongaussianity)(예를 들어, 최대 첨예도)를 포함한다. 이러한 적응형 구조들의 추가적인 예들, 및 ICA 또는 IVA 적응형 피드백 및 피드포워드 방식들에 기초하는 학습 규칙들은 2006년 3월 9일에 공개된 "System and Method for Speech Processing using Independent Component Analysis under Stability Constraints"라는 명칭의 미국 특허출원 제 2006/0053002 A1호; 출원일이 2006년 3월 1일인 "System and Method for Improved Signal Separation using a Blind Signal Source Process"라는 명칭의 미국 가출원 제 60/777,920호; 출원일이 2006년 3월 1일인 "System and Method for Generating a Separated Signal"라는 명칭의 미국 가출원 제 60/777,900호; 및 "Systems and Methods for Blind Source Signal Separation"라는 명칭의 국제 특허 공보 제 WO 2007/100330 A1호 (Kim et al)에 기재된다. 적응형 필터 구조들의 추가적인 설명, 및 상기 필터 구조들을 트레이닝하기 위해 태스크(T30)에서 사용될 수 있는 학습 규칙들은 위에서 참조로 통합된 미국 특허출원 제 12/197,924 호에서 찾을 수 있다.
Q개 필터들 중 하나 이상(가능하게는 전부)은 동일한 적응형 구조에 기초할 수 있으며, 각각의 이러한 필터는 상이한 학습 규칙에 따라 트레이닝된다. 대안적으로, Q개 필터들 모두는 상이한 필터 구조들에 기초할 수 있다. 도 43A에 도시된 바와 같은 피드백 구조(FS10)를 트레이닝하기 위해 사용될 수 있는 학습 규칙의 일 예는 다음과 같이 표현될 수 있다 :
Figure pct00010
여기서, t는 시간 샘플 인덱스를 나타내고,
Figure pct00011
는 시간 t에서 필터(C110)의 계수값들을 나타내고,
Figure pct00012
는 시간 t에서 필터(C120)의 계수값들을 나타내고, 심볼
Figure pct00013
은 시간-도메인 컨볼루션 연산을 나타내고,
Figure pct00014
는 출력값들
Figure pct00015
Figure pct00016
의 계산에 후속하는 필터(C110)의 k번째 계수값에서의 변화를 나타내고,
Figure pct00017
는 출력값들
Figure pct00018
Figure pct00019
의 계산에 후속하는 필터(C120)의 k번째 계수값에서의 변화를 나타낸다. 원하는 신호의 누적 밀도 함수에 근접한 비선형 제한된(bounded) 함수로서 활성화 함수 f를 구현하는 것이 바람직할 수 있다. 스피치 애플리케이션들에 대한 활성화 신호 f를 위해 사용될 수 있는 비선형 제한된 함수들의 예들은 쌍곡선 탄젠트 함수, s자(sigmoid) 함수, 및 사인 함수를 포함한다.
ICA 및 IVA 기법들은 매우 복잡한 시나리오들을 해결하기 위한 필터들의 적응을 허용하지만, 실시간으로 적응하도록 구성되는 신호 분리 프로세스들을 위해 이들 기법들을 구현하는 것이 항상 가능하거나 바람직하지는 않다. 먼저, 적응을 위해 요구되는 명령들의 수 및 컨버전스 시간은 일부 애플리케이션들에 대해 제한적일 수도 있다. 양호한 초기조건들의 형태로 선험적 트레이닝 지식을 포함하는 것은 컨버전스를 가속화할 수 있지만, 일부 애플리케이션들에서, 적응이 필수적이지 않거나, 음향 시나리오의 일부에 대해서만 필수적이다. 두번째로, IVA 학습 규칙들은 훨씬 더 느리게 통합될 수 있으며, 입력 채널들의 수가 클 경우 로컬 미니마(local minima)에서 정체(stuck)될 수 있다. 세번째로, IVA의 온라인 적응을 위한 계산 비용이 제한적일 수 있다. 마지막으로, 적응형 필터링은 프로세싱 방식의 다운스트림이 장착된 스피치 인식 시스템에 좋지 않거나 추가적인 잔향으로서 사용자들에 의해 인지될 수 있는 적응형 이득 변조 및 트랜지언트들과 연관될 수 있다.
선형 마이크로폰-어레이 프로세싱을 위해 사용될 수 있는 기법들의 또다른 클래스는 종종 "빔형성"이라 지칭된다. 빔형성 기법들은 특정 방향으로부터 도달하는 신호의 컴포넌트들을 향상시키기 위해 마이크로폰들의 공간 다이버시티로부터 야기되는 채널들 간의 시간차를 사용한다. 더 구체적으로, 상기 마이크로폰들 중 하나가 원하는 소스(예를 들어, 사용자의 입)에서 더 직접적으로 발생될 것이 가능한 반면, 다른 마이크로폰은 상대적으로 감쇠된 이 소스로부터의 신호를 생성할 수 있다. 이들 빔형성 기법들은 사운드 소스쪽으로 빔을 스티어링(steer)하고 다른 방향들에서는 널(null)로 두는 공간 필터링을 위한 방법들이다. 빔형성 기법들은 사운드 소스에 대해서는 어떠한 가정도 하지 않지만, 소스와 센서들 간의 기하학적 구조, 또는 사운드 신호 자체는 신호의 잔향을 없애고(dereverberating) 사운드 소스를 로컬화할 목적으로 알려진다. 필터 뱅크(100)의 필터들 중 하나 이상은 데이터-종속적 또는 데이터-독립적 빔형성기 설계(예를 들어, 수퍼지향성 빔형성기, 최소-제곱 빔형성기, 또는 통계적으로 최적의 빔형성기 설계)에 따라 구성될 수 있다. 데이터-독립적 빔형성기 설계에서, (예를 들어, 잡음 상관 행렬을 조정함으로써) 원하는 공간 영역을 커버하도록 빔 패턴을 성형하는 것이 바람직할 수 있다.
"Generalized Sidelobe Canceling" (GSC)이라 지칭되는 강건한 적응형 빔형성에서의 잘 교지된 기법은 Hoshuyama, O., Sugiyama, A., Hirano, A., A Robust Adaptive Beamformer for Microphone Arrays with a Blocking Matrix using Constrained Adaptive Filters, IEEE Transactions on Signal Processing, vol. 47, No. 10, pp. 2677-2684, October 1999에서 논의된다. 일반화된 부돌출부(sidelobe) 제거는 측정치들의 세트로부터 단일의 원하는 소스 신호를 필터링해내는 것을 목적으로 한다. GSC 원리의 더 완전한 설명은, 예를 들어, Griffiths, L. J., Jim, C. W.에서 찾을 수 있다. 선형 제약된 적응형 빔형성에 대한 대안적인 방식은 An alternative approach to linear constrained adaptive beamforming, IEEE Transactions on Antennas and Propagation, vol. 30, no. 1, pp. 27-34, Jan. 1982에서 찾을 수 있다.
Q개 트레이닝 서브세트들 각각에 대해, 태스크(T30)는 학습 규칙에 따라 개별 적응형 필터 구조를 컨버전스로 트레이닝한다. 트레이닝 서브세트의 신호들에 응답하여 필터 계수값들을 업데이트하는 것은 통합된 솔루션이 획득될 때까지 계속될 것이다. 이러한 동작 동안, 트레이닝 서브세트의 신호들 중 적어도 일부는, 가능하게는 상이한 순서로, 두번 이상 필터 구조에 입력으로서 제출될 수 있다. 예를 들어, 트레이닝 서브세트는 통합된 솔루션이 획득될 때까지 루프 내에서 반복될 수 있다. 컨버전스는 필터 계수값들에 기초하여 결정될 수 있다. 예를 들어, 필터 계수값들이 더 이상 변하지 않을 때, 또는 일부 시간 구간 동안의 필터 계수값들에서의 전체 변경이 임계값보다 작을 때(대안적으로, 더 크지 않을 때) 통합되었다고 결정될 수 있다. 컨버전스는 또한 상관 측정치들을 평가함으로써 모니터링될 수도 있다. 크로스 필터들을 포함하는 필터 구조에 대해, 컨버전스는 각각의 크로스 필터에 대해 독립적으로 결정될 수 있고, 따라서 하나의 크로스 필터에 대한 업데이트 동작은 또다른 크로스 필터에 대한 업데이트 동작이 계속되는 동안 종료될 수 있다. 대안적으로, 각각의 크로스 필터에 대한 업데이트는 크로스 필터들 모두가 통합될 때까지 계속될 수 있다.
필터가 태스크(T30)에서 로컬 미니마로 통합되어 대응하는 평가 세트 내의 신호들 중 하나 이상(가능하게는 전부)에 대해 태스크(T40)에서 필터의 실패를 초래할 것임이 가능하다. 이러한 경우, 태스크(T30)는 상이한 트레이닝 파라미터들(예를 들어, 상이한 학습 레이트, 상이한 기하학적 제약 등)을 사용하여 적어도 해당 필터에 대해 반복될 수 있다.
태스크(T40)는 각각의 필터의 분리 동작을 평가함으로써 태스크(T30)에서 생성된 Q개의 트레이닝된 필터들의 세트를 평가한다. 예를 들어, 태스크(T40)는 평가 신호들 중 하나 이상의 세트들에 대한 필터들의 응답들을 평가하도록 구성될 수 있다. 이러한 평가는 자동으로 그리고/또는 사람 감독에 의해 수행될 수 있다. 태스크(T40)는 통상적으로, 개인용 컴퓨터 또는 워크스테이션을 사용하여, 통신 디바이스 외부에서 수행된다.
태스크(T40)는 동일한 평가 신호들의 세트에 대한 각각의 필터의 응답들을 획득하도록 구성될 수 있다. 이러한 평가 신호들의 세트는 태스크(T30)에서 사용되는 트레이닝 세트와 동일할 수 있다. 한가지 이러한 예에서, 태스크(T40)는 트레이닝 신호들 각각에 대한 각각의 필터의 응답을 획득한다. 대안적으로, 평가 신호들의 세트는 트레이닝 세트의 신호들과 상이하지만 유사한(예를 들어, 동일한 마이크로폰들의 어레이의 적어도 일부 및 동일한 P개의 시나리오들 중 적어도 일부를 사용하여 레코딩되는) M-채널 신호들의 세트일 수 있다.
태스크(T40)의 상이한 구현예는 평가 신호들의 상이한 개별 세트들에 대한 Q개의 트레이닝 필터들 중 적어도 2개(가능하게는 전부)의 응답들을 획득하도록 구성된다. 각각의 필터에 대한 평가 세트는 태스크(T30)에서 사용되는 트레이닝 서브세트와 동일할 수 있다. 한 가지 이러한 예에서, 태스크(T40)는 개별 트레이닝 서브세트 내의 신호들 각각에 대한 각각의 필터의 응답을 획득한다. 대안적으로, 평가 신호들 각각의 세트는 대응하는 트레이닝 서브세트의 신호들과 상이하지만 유사한(예를 들어, 동일한 마이크로폰들의 어레이의 적어도 일부 및 동일한 시나리오들 중 적어도 하나 이상을 사용하여 레코딩된) M-채널 신호들의 세트일 수 있다.
태스크(T40)는 하나 이상의 메트릭들의 값들에 따라 필터 응답들을 평가하도록 구성될 수 있다. 각각의 필터 응답에 대해, 예를 들어, 태스크(T40)는 하나 이상의 메트릭들 각각에 대한 값들을 계산하고 상기 계산될 값들을 개별 임계값들과 비교하도록 구성될 수 있다.
필터를 평가하는데 사용될 수 있는 메트릭의 일 예는 (A) 평가 신호의 오리지널 정보 컴포넌트(예를 들어, HATS의 입 라우드 스피커로부터 재생되는 스피치 신호) 및 (B) 평가 신호에 대한 필터의 응답의 적어도 하나의 채널 간의 상관이다. 이러한 메트릭은 통합된 필터 구조가 간섭으로부터 정보를 얼마나 잘 분리하는지를 표시할 수 있다. 이러한 경우, 정보 컴포넌트가 필터 응답의 M개 채널들 중 하나와 실질적으로 상관되고 다른 채널들과는 거의 상관이 없을 때 분리가 표시된다.
필터를 평가하기 위해(예를 들어, 필터가 간섭으로부터 정보를 얼마나 잘 분리하는지를 표시하기 위해) 사용될 수 있는 메트릭들의 다른 예들은 분산, 정규성(Gaussianity)과 같은 통계적 특징들, 및/또는 첨예도와 같은 고차의 통계적 모멘트들(moment)을 포함한다. 스피치 신호들을 위해 사용될 수 있는 메트릭들의 추가적인 예들은 (시간 희소성(sparsity)이라고도 알려진) 시간에 대한 버스트성(burstiness) 및 영교차 레이트를 포함한다. 일반적으로, 스피치 신호들은 잡음 신호들보다 더 낮은 영교차 레이트 및 더 낮은 시간 희소성을 나타낸다. 필터를 평가하는데 사용될 수 있는 메트릭의 추가적인 예는 평가 신호의 레코딩동안 마이크로폰들의 어레이에 대한 정보 또는 간섭 소스의 실제 위치가 평가 신호에 대한 필터의 응답에 의해 표시된 바와 같은 빔 패턴(또는 널 빔 패턴)에 부합하는 정도이다. 태스크(T40)에서 사용되는 메트릭들이 장치(A200)의 대응하는 구현예에서 사용되는 분리 측정치들(예를 들어, 상태 추정기들(402, 404, 406, 408, 및 414)과 관련하여 위에서 논의된 분리 측정치들 중 하나 이상)을 포함하거나 이들로 제한되는 것이 바람직할 수 있다.
태스크(T40)는 각각의 계산된 메트릭 값을 대응하는 임계값과 비교하도록 구성될 수 있다. 이러한 경우, 필터는 각각의 메트릭에 대해 계산된 값이 개별 임계값을 초과하는(대안적으로, 적어도 이와 동일한) 경우 신호에 대한 적절한 분리 결과를 생성한다고 할 수 있다. 당업자는 다수의 메트릭들에 대한 이러한 비교 방식에 있어서, 하나의 메트릭에 대한 임계값은 하나 이상의 다른 메트릭들에 대한 계산된 값이 높은 경우 감소될 수 있다.
태스크(T40)는, 각각의 평가 신호에 대해, Q개의 트레이닝된 필터들 중 적어도 하나가 적절한 분리 결과를 생성하는 것을 검증하도록 구성될 수 있다. 예를 들어, 태스크(T40)는 Q개 트레이닝 필터들 각각이 개별 평가 세트 내의 각각의 신호에 대한 적절한 분리 결과를 제공함을 검증하도록 구성될 수 있다.
대안적으로, 태스크(T40)는, 평가 신호들의 세트 내의 각각의 신호에 대해, Q개 트레이닝 필터들 중 적절한 하나의 필터가 Q개 트레이닝 필터들 모두 중에서 최상의 분리 성능을 제공함을 검증하도록 구성될 수 있다. 예를 들어, 태스크(T40)는, Q개의 트레이닝 필터들 각각이, 평가 신호들의 개별 세트 내의 신호들 모두에 대해, Q개 트레이닝 필터들 모두 중에서 최상의 분리 성능을 제공함을 검증하도록 구성될 수 있다. 평가 신호들의 세트가 트레이닝 신호들의 세트와 동일한 경우에 대해, 태스크(T40)는, 각각의 평가 신호에 대해, 상기 신호를 사용하여 트레이닝되었던 필터가 최상의 분리 결과를 생성함을 검증하도록 구성될 수 있다.
또한 태스크(T40)는 필터 응답들을 분류하기 위해 상태 추정기(400)(예를 들어, 제조 디바이스들에서 사용될 상태 추정기(400)의 구현예)를 사용함으로써 필터 응답들을 평가하도록 구성될 수 있다. 한가지 이러한 예에서, 태스크(T40)는 트레이닝 신호들의 세트 각각에 대한 Q개의 트레이닝 필터들 각각의 응답을 획득한다. 이들 트레이닝 신호들 각각에 대해, 결과적인 Q개 필터 응답들이 상태 추정기(400)에 제공되는데, 이는 대응하는 배향을 표시한다. 태스크(T40)는 배향 상태들의 결과적인 세트가 태스크(T20)로부터의 대응하는 트레이닝 신호들의 분류들과 매치하는지의 여부(또는 얼마나 잘 매치하는지)를 결정한다.
태스크(T40)는 트레이닝 필터들의 수(Q)의 값을 변경시키도록 구성될 수 있다. 예를 들어, 태스크(T40)는 Q개의 트레이닝 필터들 중 둘 이상이 적절한 분리 결과를 생성하는 평가 신호들의 수(또는 비율)가 임계값을 초과하는(대안적으로, 적어도 이와 동일한) 경우 Q의 값을 감소시키도록 구성될 수 있다. 대안적으로 또는 추가적으로, 태스크(T40)는 부적절한 분리 성능이 발견되는 평가 신호들의 수(또는 부분)가 임계값을 초과하는(대안적으로, 적어도 이와 동일한) 경우 Q의 값을 증가시키도록 구성될 수 있다.
태스크(T40)가 평가 신호들 중 오직 일부에 대해서만 실패할 것이 가능하며, 태스크(T40)가 통과되는 복수의 평가 신호들에 대해 적절한 것으로서 대응하는 트레이닝 필터 또는 필터들을 유지시키는 것이 바람직할 수 있다. 이러한 경우, 다른 평가 신호들에 대한 솔루션을 획득하기 위해 방법(M10)을 반복하는 것이 바람직할 수 있다. 대안적으로, 태스크(T40)가 실패했던 신호들은 특수 경우들로서 무시될 수 있다.
태스크(T40)가 통합된 필터 솔루션들의 세트가 다른 성능 기준, 예를 들어 TIA-810-B와 같은 표준 문헌들에 특정된 것과 같은 송신 응답 공칭 음량(loudness) 커브(예를 들어, Telecommunications Industry Association, Arlington, VA에 의해 공표된 것과 같은 2006년 11월 버전)에 따른다는 것을 검증하는 것이 바람직할 수 있다.
방법(M10)은 통상적으로 반복적 설계 프로세스이며, 원하는 평가 결과가 태스크(T40)에서 획득될 때까지 태스크들(T1O, T20, T30, 및 T40) 중 하나 이상을 변경 및 반복하는 것이 바람직할 수 있다. 예를 들어, 방법(M10)의 반복은 태스크(T30)에서의 새로운 트레이닝 파라미터들의 사용, 태스크(T30)에서의 새로운 분할의 사용, 및/또는 태스크(T10)에서의 새로운 트레이닝 데이터의 레코딩을 포함할 수 있다.
레퍼런스 디바이스가 제조 디바이스들보다 더 많은 마이크로폰들을 가질 수 있다. 예를 들어, 레퍼런스 디바이스는 K개의 마이크로폰들의 어레이를 가질 수 있는 반면, 각각의 제조 디바이스는 M개의 마이크로폰들의 어레이를 가진다. 최소 개수의 고정된 필터 세트들이 최대 개수의 또는 적어도 가장 일반적인 사용자-디바이스 홀딩 패턴들로부터 트레이닝 신호들을 적절하게 분리할 수 있도록 마이크로폰 배치(또는 K-채널 마이크로폰 어레이의 서브세트)를 선택하는 것이 바람직할 수 있다. 한가지 이러한 예에서, 태스크(T40)는 태스크(T30)의 새로운 반복을 위한 M개 채널들의 서브세트를 선택한다.
원하는 평가 결과가 Q개의 트레이닝 필터들의 세트에 대해 태스크(T40)에서 획득되면, 상기 필터 상태들은 필터 뱅크(100)의 필터들의 고정된 상태들로서 제조 디바이스들로 로딩될 수 있다. 전술된 바와 같이, 각각의 제조 디바이스 내의 마이크로폰들의 이득 및/또는 주파수 응답들을 캘리브레이션하기 위한 프로시저, 예를 들어, 실험, 팩토리, 또는 자동(예를 들어, 자동 이득 매칭) 캘리브레이션 프로시저를 수행하는 것이 바람직할 수 있다.
또한 방법(M10)에서 생성된 Q개의 트레이닝 필터들은, 적응형 필터(450)의 하나 이상의 컴포넌트 필터들에 대한) 초기 조건들을 계산하기 위해, 트레이닝 신호들의 또다른 세트를 필터링하는데 사용될 수 있으며, 또한 레퍼런스 디바이스를 사용하여 레코딩될 수 있다. 적응형 필터에 대한 초기 조건들의 이러한 계산의 예들은 출원번호가 12/197,924이고 출원일이 2008년 8월 25일이며, 발명의 명칭이 "SYSTEMS, METHODS, AND APPARATUS FOR SIGNAL SEPARATION,"인 미국 특허출원의 문단들 [00129]-[00135]( "It may be desirable"로 시작해서 "cancellation in parallel"로 끝남)에 기재되며, 상기 문단들은 여기서 적응형 필터들의 설계, 트레이닝, 및/또는 구현의 설명으로 제한될 목적으로 여기에 참조로써 통합된다. 이러한 초기 조건들은 또한 (예를 들어, 필터 뱅크(100)의 트레이닝 필터들에 대한 것과 같이) 제조 동안 동일한 또는 유사한 디바이스의 다른 인스턴스들로 로딩될 수 있다. 유사하게, 방법(M10)의 인스턴스는 아래에 설명되는 필터 뱅크(200)의 필터들의 통합된 필터 상태들을 획득하기 위해 수행될 수 있다.
위에서 설명되는 장치(A200)의 구현예들은 상태 추정 및 출력 신호(S40)의 생성 모두를 위해 단일 필터 뱅크를 사용한다. 상태 추정 및 출력 생성을 위해 상이한 필터 뱅크들을 사용하는 것이 바람직할 수 있다. 예를 들어, 상태 추정 필터 뱅크에 대해 연속적으로 실행하는 덜 복잡한 필터들을 사용하고, 출력 생성 필터 뱅크에 대해 필요한 경우에만 실행하는 더 복잡한 필터를 사용하는 것이 바람직할 수 있다. 이러한 방식은 일부 애플리케이션들에서 더 낮은 전력 비용으로 그리고/또는 일부 성능 기준에 따라 더 나은 공간 프로세싱 성능을 제공할 수 있다. 또한 당업자는 이러한 필터들의 선택적 활성화 역시 상이한 시점들에서의 (예를 들어, 필터 계수 값들의 상이한 세트들을 로딩함으로써, 상이한 필터들과 동일한 필터 구조의 사용을 지원하기 위해 적용될 수 있음을 인지할 것이다.
도 44는 여기서 설명된 바와 같은 필터 뱅크(100)(각각의 필터(F10-1 내지 F10-n)는 n개의 M-채널 공간적으로 프로세싱된 신호들(S20-1 내지 S20-n) 중 대응하는 신호를 생성하도록 구성됨) 및 출력 생성 필터 뱅크(200)를 포함하는 일반적인 구성에 따른 장치(A100)의 블록도를 도시한다. (여기에 도시된 바와 같은 설계 프로시저 내의 필터 뱅크(100)의 필터들과 관련하여 획득될 수 있는) 필터 뱅크(200)의 필터들(F20-1 내지 F20-n) 각각은 입력 신호(S10)에 기초하는 M-채널 신호를 수신 및 프로세싱하고 M-채널의 공간적으로 프로세싱된 신호들(S30-1 내지 S30-n) 중 대응하는 신호를 생성하도록 배열된다. 스위칭 메커니즘(300)은 (예를 들어, 상태 추정기(400)를 참조하여 여기서 설명된 바와 같이) 어느 필터(F10-1 내지 F10-n)가 입력 신호(S10) 및 잡음 컴포넌트 중 원하는 컴포넌트를 현재 가장 잘 분리하는지를 결정하고 (예를 들어, 트랜지션 제어 모듈(500)을 참조하여 여기서 설명된 바와 같이) 신호들(S30-1 내지 S30-n) 중 적어도 대응하는 선택된 신호에 기초하여 출력 신호(S40)를 생성하도록 구성된다. 또한 스위칭 메커니즘(300)은, 예를 들어, 그 출력들이 출력 신호(S40)에 현재 기여하고 있는 필터들만이 현재 활성이도록 필터들(F20-1 내지 F20-n)의 개별적인 필터들을 선택적으로 활성화하도록 구성될 수 있다. 따라서, 임의의 한 시점에서, 필터 뱅크(200)는 신호들(S30-1 내지 S30-n) 중 n보다 적게(그리고 가능하게는 오직 1 내지 2개만) 출력중일 수 있다.
도 45는 필터 뱅크(100)의 2-필터 구현예(140) 및 필터 뱅크(200)의 2-필터 구현예(240)를 포함하여, 필터 뱅크(240)의 필터(26-1)가 필터뱅크(140)의 필터(F16-1)에 대응하고, 필터 뱅크(240)의 필터(26-2)가 필터뱅크(140)의 필터(F16-2)에 대응하는, 장치(A100)의 구현예(A110)의 블록도를 도시한다. 필터 뱅크(140)의 대응하는 필터의 더 긴 또는 더 복잡한 버전으로서 필터 뱅크(240)의 각각의 필터를 구현하는 것이 바람직하며, 이러한 대응하는 필터들의 (예를 들어, 도 5 및 6A-C의 다이어그램들에서 도시된 바와 같은) 공간 프로세싱 영역들이 적어도 근사하게 일치하는 것이 바람직할 수 있다.
또한 장치(A110)는 상태 추정기(400)의 구현예(420) 및 트랜지션 제어 모듈(500)의 2-필터 구현예(510)를 가지는 스위칭 메커니즘(300)의 구현예(305)를 포함한다. 이러한 특정한 예에서, 상태 추정기(420)는 오직 요구될 때만 필터를 인에이블시키도록 필터 뱅크(240)의 각각의 필터에 대해 제어 신호(S90)의 인스턴스들(S90-1 및 S90-2) 중 대응하는 인스턴스를 출력하도록 구성된다. 예를 들어, 상태 추정기(420)는 (A) 추정된 상태(S50)가 해당 필터에 대응하는 배향 상태를 표시하는 기간들 동안 및 (B) 트랜지션 제어 모듈(510)이 해당 필터의 출력으로 또는 상기 출력으로부터 떨어지게 트랜지션하도록 구성되는 병합 구간들 동안 대응하는 필터를 인에이블시키기 위해 (통상적으로 바이너리 값인) 제어 신호(S90)의 각각의 인스턴스를 생성하도록 구성될 수 있다. 따라서, 상태 추정기(420)는 현재 또는 이전의 추정된 상태들, 연관된 지연 및 병합 구간들, 및/또는 필터 뱅크(200)의 대응하는 필터의 길이와 같은 정보에 기초하여 각각의 제어 신호를 생성하도록 구성될 수 있다.
도 46은 필터 뱅크(100)의 2-필터 구현예(150) 및 필터 뱅크(200)의 2-필터 구현예(250)를 포함하여, 필터 뱅크(250)의 필터(F28-1)가 필터 뱅크(150)의 필터(F18-1)에 대응하고 필터 뱅크(250)의 필터(F28-2)가 필터 뱅크(150)의 필터(F18-2)에 대응하는 장치(A100)의 구현예(A120)의 블록도를 도시한다. 이 경우, 필터링은 2개의 스테이지들에서 수행되며, (즉, 필터 뱅크(250)의) 제 2 스테이지의 필터들은 (예를 들어, 위에서 설명된 바와 같이 해당 필터의 선택 및 해당 필터의 출력으로 또는 출력으로부터 떨어지게 트랜지션 동안) 요구될 때만 인에이블된다. 필터 뱅크들은 또한 필터 뱅크(150)의 필터들이 고정되고 필터 뱅크(250)의 필터들이 적응형이도록 구현될 수도 있다. 그러나, 각각의 2-스테이지 필터의 (예를 들어 도 5 및 6A-C의 다이어그램들에 도시된 바와 같은) 공간 프로세싱 영역이 필터 뱅크(100)의 필터들 중 대응하는 필터의 공간 프로세싱 영역과 적어도 근사하게 일치하도록 필터 뱅크(250)의 필터들을 구현하는 것이 바람직할 수 있다. 당업자는 장치(A200)의 구현의 사용이 기재되는 여기서의 임의의 상황에 대해, 장치(A100)의 유사한 구현의 대체가 수행될 수 있으며, 모든 이러한 결합들 및 배역들이 명시적으로 참작되고 여기서 기재된다는 점을 인지할 것이다.
도 47은 공간적으로 필터링된 출력 신호를 생성하기 위해 스피치 컴포넌트 및 잡음 컴포넌트를 포함하는 M-채널 입력 신호를 프로세싱하는 방법(M100)의 흐름도를 도시한다. 방법(M100)은 제 1 공간 프로세싱 필터를 입력 신호에 적용하는 태스크(T110), 및 제 2 공간 프로세싱 필터를 입력 신호에 적용하는 태스크(T120)를 포함한다. 방법(M100)은 또한 태스크들(T130 및 T140)을 포함한다. 제 1 시간에서, 태스크(T130)는 제 1 공간 프로세싱 필터가 제 2 공간 프로세싱 필터보다 스피치 및 잡음 컴포넌트들을 더 양호하게 분리한다고 결정한다. 이러한 결정에 응답하여, 태스크(T140)는 제 1의 공간적으로 프로세싱된 신호에 기초하는 신호를 공간적으로 필터링된 출력 신호로서 생성한다. 방법(M100)은 또한 태스크들(T150 및 T160)을 포함한다. 상기 제 1 시간에 후속하는 제 2 시간에서, 태스크(T150)는 제 2 공간 프로세싱 필터가 제 1 공간 프로세싱 필터보다 스피치 및 잡음 컴포넌트들을 더 양호하게 분리한다고 결정한다. 이러한 결정에 응답하여, 태스크(T160)는 제 2의 공간적으로 프로세싱된 신호에 기초하는 신호를 공간적으로 필터링된 출력 신호로서 생성한다. 이러한 방법에서, 제 1 및 제 2의 공간적으로 프로세싱된 신호들은 입력 신호에 기초한다.
전술된 장치(A100)는 방법(M100)의 구현예를 수행하기 위해 사용될 수 있다. 이러한 경우, 태스크들(T110 및 T120)에 적용되는 제 1 및 제 2의 공간 프로세싱 필터들은 필터 뱅크(100)의 2개의 상이한 필터들이다. 스위칭 메커니즘(300)은, 제 1의 공간적으로 프로세싱된 신호가 태스크(T110)에 적용되었던 필터 뱅크(100)의 필터에 대응하는 필터 뱅크(200)의 필터의 출력이 되도록 태스크들(T130 및 T140)을 수행하기 위해 사용될 수 있다. 또한 스위칭 메커니즘(300)은 제 2의 공간적으로 프로세싱된 신호가 태스크(T120)에 적용되었던 필터 뱅크(100)의 필터에 대응하는 필터 뱅크(200)의 필터의 출력이 되도록 태스크들(T150 및 T160)을 수행하기 위해 사용될 수 있다.
전술된 장치(A200)는 방법(M100)의 구현예를 수행하기 위해 사용될 수 있다. 이러한 경우, 태스크(T110)에 사용되는 필터 뱅크(100)의 필터 역시 태스크(T140)에서의 출력 신호가 기반하는 제 1의 공간적으로 프로세싱된 신호를 생성하며, 태스크(T120)에서 사용되는 필터 뱅크(100)의 필터 역시 태스크(T160)가 기초하는 제 2의 공간적으로 프로세싱된 신호를 생성한다.
도 48은 공간적으로 필터링된 출력 신호를 생성하기 위해 스피치 컴포넌트 및 잡음 컴포넌트를 포함하는 M-채널 입력 신호를 프로세싱하기 위한 장치(F100)의 블록도를 도시한다. 장치(F100)는 (예를 들어, 필터 뱅크(100) 및 태스크들(T110 및 T120)과 관련하여 전술된 바와 같이) 입력 신호에 대해 제 1 공간 프로세싱 동작을 수행하기 위한 수단(F110) 및 입력 신호에 대해 제 2 공간 프로세싱 동작을 수행하기 위한 수단(F120)을 포함한다. 장치(F100)는, 또한 (예를 들어, 상태 추정기(400) 및 태스크(T130)와 관련하여 전술된 바와 같이) 제 1 시간에서, 제 1 공간 프로세싱 동작을 수행하기 위한 수단이 제 2 공간 프로세싱 동작을 수행하기 위한 수단보다 더 양호하게 스피치 및 잡음 컴포넌트들을 분리한다는 것을 결정하기 위한 수단(F130), 및 (예를 들어, 트랜지션 제어 모듈(500) 및 태스크(T140)과 관련하여 전술된 바와 같이) 이러한 결정에 응답하여 제 1의 공간적으로 프로세싱된 신호를 출력 신호로서 생성하기 위한 수단(F140)을 포함한다. 장치(F100)는 또한 제 1 시간에 후속하는 제 2 시간에서, (예를 들어, 상태 추정기(400) 및 태스크(T150)에 관하여 전술된 바와 같이) 제 2 공간 프로세싱 동작을 수행하기 위한 수단이 제 1 공간 프로세싱 동작을 수행하기 위한 수단보다 더 양호하게 스피치 및 잡음 컴포넌트들을 분리한다는 것을 결정하기 위한 수단(F150), 및 (예를 들어, 트랜지션 제어 모듈(500) 및 태스크(T160)에 관하여 전술된 바와 같이) 이러한 결정에 응답하여 제 2의 공간적으로 프로세싱된 신호에 기초하는 신호를 출력 신호로서 생성하기 위한 수단(F160)을 포함한다.
도 49는 여기서 설명된 바와 같이 장치(A100 또는 A200)의 구현예를 포함할 수 있는 통신 디바이스(C100)의 일 예의 블록도를 도시한다. 디바이스(C100)는 안테나(C30)를 통해 무선-주파수(RF) 통신 신호를 수신하고, 라우드 스피커(SP10)를 통해 상기 RF 신호 내에서 인코딩된 오디오 신호를 디코딩 및 재생하도록 구성되는 칩 또는 칩셋(CS10)(예를 들어, 여기서 설명된 바와 같은 MSM 칩셋)을 포함한다. 또한 칩/칩셋(CS10)은 M개의 마이크로폰들의 어레이(MC1O 및 MC20의 2개가 도시됨)를 통해 M-채널 오디오 신호를 수신하고, 장치(A100 또는 A200)의 내부 구현을 사용하여 M-채널 신호를 공간적으로 프로세싱하고, 결과적인 오디오 신호를 인코딩하고, 안테나(C30)를 통해 인코딩된 오디오 신호를 기재하는 RF 통신 신호를 전송하도록 구성된다. 디바이스(C100)는 또한 안테나(C30)로의 경로에 다이플렉서(diplexer) 및 하나 이상의 전력 증폭기들을 포함할 수 있다. 칩/칩셋(CS10) 역시 키패드(C10)를 통해 사용자 입력을 수신하고 디스플레이(C20)를 통해 정보를 디스플레이하도록 구성된다. 이 예에서, 디바이스(C100)는 또한 글로벌 포지셔닝 시스템(GPS) 로케이션 서비스들 및/또는 무선(예를 들어, BluetoothTM) 헤드셋과 같은 외부 디바이스와의 단거리 통신을 지원하기 위해 하나 이상의 안테나들(C40)을 포함한다. 또다른 예에서, 이러한 통신 디바이스는 블루투스 헤드셋 그 자체이며, 키패드(C10), 디스플레이(C20) 및 안테나(C30)가 없다.
설명된 구성들의 이전의 제시는 당업자가 여기서 기재된 방법들 및 다른 구조들을 제작 또는 사용할 수 있도록 제공된다. 여기서 도시되고 설명된 흐름도들, 블록도들, 상태도들 및 다른 구조들은 단지 예들이며, 이들 구조들의 다른 변형물 등 역시 본 발명의 범위 내에 있다. 이들 구성들의 다양한 수정들이 가능하며, 여기서 제시된 포괄 원리들은 다른 구성들에도 적용될 수 있다. 따라서, 본 발명은 위에서 보여진 구성들에 제한되는 것으로 의도되는 것이 아니라, 오리지널 기재의 일부분을 형성하는, 출원된 첨부 청구항들을 포함하여, 여기서 임의의 방식으로 기재된 원리들 및 신규한 특징들에 부합하는 가장 넓은 범위에 따라야 한다.
여기서 개시되는 장치의 구현예의 다양한 엘리먼트는 의도되는 출원에 적절한 것으로 간주되는 하드웨어, 소프트웨어, 및/또는 펌웨어의 임의의 결합으로 구현될 수 있다. 예를 들어, 이러한 엘리먼트들은 예를 들어, 칩셋 내의 동일한 칩 또는 둘 이상의 칩들 상에 상주하는 전자 및/또는 광학 디바이스들로서 제작될 수 있다. 이러한 디바이스의 일 예는 트랜지스터들 또는 로직 게이트들과 같은 로직 엘리먼트들의 고정된 또는 프로그램가능한 어레이이며, 이들 엘리먼트들 중 임의의 엘리먼트는 하나 이상의 이러한 어레이들로서 구현될 수 있다. 이들 엘리먼트들 중 임의의 둘 이상 또는 심지어 모든 엘리먼트들은 동일한 어레이 또는 어레이들 내에 구현될 수 있다. 이러한 어레이 또는 어레이들은 하나 이상의 칩들 내에(예를 들어, 둘 이상의 칩들을 포함하는 칩셋 내에) 구현될 수 있다.
여기서 기재된 장치의 다양한 구현예들 중 하나 이상의 엘리먼트들 역시, 예를 들어, 마이크로프로세서들, 임베디드 프로세서들, IP 코어들, 디지털 신호 프로세서들, FPGA(field-programmable gate array)들, ASSP(application-specific standard product)들, 및 ASIC(application-specific integrated circuit)과 같은 로직 엘리먼트들의 하나 이상의 고정된 또는 프로그램 가능한 어레이들을 실행하도록 배열되는 명령들의 하나 이상의 세트들로서 완전히 또는 부분적으로 구현될 수 있다. 여기서 기재된 바와 같은 장치의 구현예의 다양한 엘리먼트들 중 임의의 엘리먼트 역시 하나 이상의 컴퓨터들(예를 들어, 명령들의 하나 이상의 세트들 또는 시퀀스들을 실행하도록 프로그래밍되는 하나 이상의 어레이들을 포함하는 머신들, "프로세서들"이라고도 지칭됨)로서 구현될 수 있으며, 이들 엘리먼트들 중 임의의 둘 이상 또는 모두는 동일한 컴퓨터 또는 컴퓨터들 내에서 구현될 수 있다.
당업자는 여기서 기재된 구성들과 관련하여 설명된 다양한 예시적인 논리 블록들, 모듈들, 회로들 및 동작들이 전자 하드웨어, 컴퓨터 소프트웨어, 또는 이들 모두의 결합으로 구현될 수 있음을 이해할 것이다. 이러한 논리 블록들, 모듈들, 회로들 및 동작들은 범용 프로세서, 디지털 신호 프로세서(DSP), ASIC 또는 ASSP, FPGA 또는 다른 프로그램가능한 로직 디바이스, 이산 게이트 또는 트랜지스터 로직, 이산 하드웨어 컴포넌트들, 또는 여기서 설명되는 기능들을 수행하도록 설계된 이들의 임의의 결합으로 구현되거나 또는 이들을 사용하여 수행될 수 있다. 범용 프로세서는 마이크로프로세서일 수 있지만, 대안적으로, 프로세서는 임의의 종래의 프로세서, 제어기, 마이크로제어기, 또는 상태 머신일 수 있다. 또한, 프로세서는 컴퓨팅 디바이스들의 결합, 예를 들어, DSP 및 마이크로프로세서의 결합, 복수의 마이크로프로세서들, DSP 코어와 연관된 하나 이상의 마이크로프로세서들, 또는 임의의 다른 이러한 구성으로서 구현될 수도 있다. 소프트웨어 모듈은 RAM (random-access memory), ROM (read-only memory), 플래시 RAM과 같은 비휘발성 RAM(NVRAM), 소거가능 프로그램가능 ROM(EPROM), 전기적 소거가능 프로그램가능 ROM (EEPROM), 레지스터들, 하드디스크, 이동식 디스크, CD-ROM, 또는 당해 기술분야에 알려진 임의의 다른 형태의 저장 매체에 상주할 수 있다. 예시적인 저장 매체는 프로세서가 저장 매체로부터 정보를 판독하고 저장 매체로 정보를 기록할 수 있도록 상기 프로세서에 커플링된다. 대안적으로, 저장 매체는 프로세서에 통합될 수 있다. 프로세서 및 저장 매체는 ASIC에 상주할 수 있다. ASIC은 사용자 단말에 상주할 수 있다. 대안적으로, 프로세서 및 저장 매체는 사용자 단말 내에 이산 컴포넌트들로서 상주할 수 있다.
(여기서 기재된 바와 같은 장치의 다양한 구현예들의 동작의 설명들에 의해) 여기서 기재된 다양한 방법들이 프로세서와 같은 로직 엘리먼트들의 어레이에 의해 수행될 수 있으며, 여기서 설명된 바와 같은 장치의 다양한 엘리먼트들이 이러한 어레이 상에서 실행되도록 설계된 모듈들로서 구현될 수 있다는 점을 유의한다. 여기서 사용되는 바와 같이, 용어 "모듈" 또는 "서브-모듈"은 임의의 방법, 장치, 디바이스, 유닛 또는 소프트웨어, 하드웨어 또는 펌웨어 형태로 컴퓨터 명령들(예를 들어, 논리 표현들)을 포함하는 컴퓨터-판독가능한 데이터 저장 매체를 지칭할 수 있다. 동일한 기능들을 수행하기 위해 다수의 모듈들 또는 시스템들이 다수의 모듈들 또는 시스템들이 하나의 모듈 또는 시스템으로 결합되고, 하나의 모듈 또는 시스템이 다수의 모듈들 또는 시스템들로 분리될 수 있다는 점이 이해되어야 한다. 소프트웨어 또는 다른 컴퓨터-실행가능한 명령들로 구현될 때, 프로세스의 엘리먼트들은 본질적으로, 예컨대 루틴들, 프로그램들, 객체들, 컴포넌트들, 데이터 구조들 등과 같은 관련 태스크들을 수행하기 위한 코드 세그먼트들이다. 용어 "소프트웨어"는 소스 코드, 어셈블리어 코드, 머신 코드, 바이너리 코드, 펌웨어 코드, 매크로코드, 마이크로코드, 또는 로직 엘리먼트들의 어레이에 의해 실행가능한 명령들의 임의의 하나 이상의 세트들 또는 시퀀스들, 또는 이러한 예들의 임의의 결합을 포함하는 것임이 이해되어야 한다. 프로그램 또는 코드 세그먼트들은 프로세서 판독가능 매체에 저장될 수 있거나 전송 매체 또는 통신 링크를 통해 반송파에 포함된 컴퓨터 데이터 신호에 의해 전송될 수 있다.
여기서 기재된 방법들, 방식들 및 기법들의 구현예들은 또한 로직 엘리먼트들의 어레이를 포함하는 머신(예를 들어, 프로세서, 마이크로프로세서, 마이크로제어기, 또는 다른 유한 상태 머신)에 의해 판독가능 및/또는 실행가능한 명령들의 하나 이상의 세트들로서 (예를 들어, 여기서 나열된 바와 같은 하나 이상의 컴퓨터-판독가능한 매체 내에) 실제로 구현될 수도 있다. 용어 "컴퓨터-판독가능한 매체"는 휘발성, 비휘발성, 이동식, 비-이동식 매체를 포함하여, 정보를 저장 또는 전달할 수 있는 임의의 매체를 포함할 수 있다. 컴퓨터-판독가능 매체의 예들은 전자 회로, 반도체 메모리 디바이스, ROM, 플래시 메모리, 소거가능 ROM (EROM), 플로피 디스켓 또는 다른 자기 저장소, CD-ROM/DVD 또는 다른 광학 저장소, 하드 디스크, 광섬유 매체, 무선 주파수(RF) 링크, 또는 원하는 정보를 저장하는데 사용될 수 있고 액세스될 수 있는 임의의 다른 매체를 포함한다. 컴퓨터 데이터 신호는 전자 네트워크 채널들, 광섬유들, 공기, 전자기, RF 링크 등과 같은 전송 매체를 통해 전파될 수 있는 임의의 신호를 포함할 수 있다. 코드 세그먼트들은 인터넷 또는 인트라넷과 같은 컴퓨터 네트워크들을 통해 다운로드될 수 있다. 어느 경우든, 본 발명의 범위는 이러한 실시예들에 제한되는 것으로서 해석되지 않아야 한다.
여기서 기재된 바와 같은 방법의 구현예의 통상적인 애플리케이션에서, 로직 엘리먼트들(예를 들어, 로직 게이트들)의 어레이는 상기 방법의 다양한 태스크들 중 하나, 둘 이상, 또는 모두를 수행하도록 구성된다. 상기 태스크들 중 하나 이상(가능하게는 모두)은 또한 로직 엘리먼트들의 어레이(예를 들어, 프로세서, 마이크로프로세서, 마이크로제어기 또는 다른 유한 상태 머신)를 포함하는 머신(예를 들어, 컴퓨터)에 의해 판독가능 및/또는 실행가능하며, 컴퓨터 프로그램 물건(예를 들어, 디스크들, 플래시 또는 다른 비휘발성 메모리 카드들, 반도체 메모리 칩들 등과 같은 하나 이상의 데이터 저장 매체)내에 포함되는, 코드(예를 들어, 명령들의 하나 이상의 세트들)로서 구현될 수 있다. 여기서 기재된 바와 같은 방법의 구현예의 태스크들은 또한 둘 이상의 이러한 어레이 또는 머신에 의해 수행될 수 있다. 이들 또는 다른 구현예들에서, 상기 태스크들은 셀룰러 전화 또는 이러한 통신 성능을 가지는 다른 디바이스와 같은 무선 통신용 디바이스 내에서 수행될 수 있다. 이러한 디바이스는 (예를 들어, VoIP와 같은 하나 이상의 프로토콜들을 사용하여) 회선-교환 및/또는 패킷-교환 네트워크들과 통신하도록 구성될 수 있다. 예를 들어, 이러한 디바이스는 인코딩된 프레임들을 수신하도록 구성된 RF 회로를 포함할 수 있다.
여기서 기재된 바와 같은 다양한 방법들이 핸드셋, 헤드셋, 또는 개인 휴대용 디지털 장비(PDA)와 같은 이동식 통신 디바이스에 의해 수행될 수 있으며, 여기서 설명된 다양한 장치가 이러한 디바이스와 함께 포함될 수 있다는 점이 명시적으로 기재된다. 통상적인 실시간(예를 들어, 온라인) 애플리케이션은 이러한 모바일 디바이스를 사용하여 수행되는 전화 통화이다.
하나 이상의 예시적인 실시예들에서, 설명되는 기능들은 하드웨어, 소프트웨어, 펌웨어, 또는 이들의 임의의 결합으로 구현될 수 있다. 소프트웨어로 구현되는 경우, 상기 기능들은 하나 이상의 명령들 또는 코드로서 컴퓨터-판독가능 매체 상에 저장될 수 있거나 또는 컴퓨터-판독가능 매체를 통해 전송될 수 있다. 용어 "컴퓨터-판독가능 매체"는 한 장소에서 또다른 장소로의 컴퓨터 프로그램의 이동을 용이하게 하는 임의의 매체를 포함하여, 컴퓨터 저장 매체 및 통신 매체 모두를 포함한다. 저장 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있다. 제한이 아니라, 예를 들어, 이러한 컴퓨터-판독가능 매체는 (동적 또는 정적 RAM, ROM, EEPROM 및/또는 플래시 RAM을 제한 없이 포함할 수 있는) 반도체 메모리, 또는 강유전성, 자기저항식, 오보닉(ovonic), 폴리머형, 또는 위상-변화 메모리; CD-ROM 또는 다른 광학 디스크 저장소, 자기 디스크 저장소 또는 다른 자기 저장 디바이스와 같은 저장 엘리먼트들의 어레이, 또는 명령들 또는 데이터 구조들의 형태로 원하는 프로그램 코드를 전달 또는 저장하기 위해 사용될 수 있으며 컴퓨터에 의해 액세스될 수 있는 임의의 다른 매체를 포함할 수 있다. 또한, 임의의 접속이 적절하게 컴퓨터-판독가능 매체라 지칭된다. 예를 들어, 소프트웨어가 동축 케이블, 광섬유 케이블, 트위스티드 페어, 디지털 가입자 회선(DSL), 또는 적외선, 라디오 및/또는 마이크로파와 같은 무선 기술을 사용하여 웹사이트, 서버, 또는 다른 원격 소스로부터 전송되는 경우, 상기 동축 케이블, 광섬유 케이블, 트위스티드 페어, 디지털 가입자 회선(DSL), 또는 적외선, 라디오 및/또는 마이크로파와 같은 무선 기술은 매체의 정의 내에 포함된다. 여기서 사용되는 바와 같이, disk 및 disc는 컴팩트 disc(CD), 레이저 disc, 광학 disc, 디지털 다목적 disc(DVD), 플로피 disk 및 Blu-ray DiscTM(Blu-Ray Disc Association, Universal City, CA)를 포함하는데, 여기서 disk들은 일반적으로 데이터를 자기적으로 재생하는 반면, disc들은 데이터를 레이저들을 이용하여 광학적으로 재생한다. 이들의 결합들 역시 컴퓨터-판독가능 매체의 범위 내에 포함되어야 한다.
여기서 설명되는 바와 같은 음향 신호 프로세싱은 특정 기능들을 제어하기 위해 스피치 입력을 수용하는 전자 디바이스로 통합될 수 있거나 또는 통신 디바이스들과 같이, 배경 잡음들로부터 원하는 잡음들을 분리하는 이점을 얻을 수 있다. 많은 애플리케이션들은 다수의 방향으로부터 발생하는 배경 잡음들로부터 원하는 사운드를 깨끗하게 분리하거나 증가시키는 이점을 얻을 수 있다. 이러한 애플리케이션들은 음성 인식 및 검출, 스피치 증가 및 분리, 음성-활성화 제어 등과 같은 성능들을 포함하는 전자 또는 계산 디바이스 내의 사람-머신 인터페이스들을 포함할 수 있다. 이러한 음향 신호 프로세싱 장치가 오직 제한된 프로세싱 성능들만을 제공하는 디바이스들에 적합해지도록 구현하는 것이 바람직할 수 있다.
여기서 설명된 모듈들, 엘리먼트들, 및 디바이스들의 다양한 구현예들의 엘리먼트들은 예를 들어, 칩셋 내의 동일한 칩 또는 둘 이상의 칩들 사이에 상주하는 전자 및/또는 광학 디바이스들로서 제조될 수 있다. 이러한 디바이스의 일 예는 트랜지스터들 또는 게이트들과 같은 로직 엘리먼트들의 고정되거나 프로그램가능한 어레이이다. 여기서 설명된 장치의 다양한 구현예들의 하나 이상의 엘리먼트들은 또한 예컨대 마이크로프로세서들, 임베디드 프로세서들, IP 코어들, 디지털 신호 프로세서들, FPGA들, ASSP들 및 ASIC들과 같은 로직 엘리먼트들의 하나 이상의 고정된 또는 프로그램 가능한 어레이들 상에서 실행되도록 배열되는 명령들의 하나 이상의 세트들로서 완전히 또는 부분적으로 구현될 수도 있다.
여기서 설명되는 장치의 구현예의 하나 이상의 엘리먼트들이, 장치가 포함되는 디바이스 또는 시스템의 또다른 동작과 관련한 태스크와 같은, 장치의 동작에 직접적으로 관련되지 않은 명령들의 다른 세트를 실행하거나 태스크들을 구현하기 위해 사용되도록 하는 것이 가능하다. 또한, 이러한 장치의 구현예의 하나 이상의 엘리먼트들이 공통적인 구조를 가지는 것이 가능하다(예를 들어, 상이한 시간들에서 상이한 엘리먼트들에 대응하는 코드의 일부분들을 실행하기 위해 사용되는 프로세서, 상이한 시간들에서 상이한 엘리먼트들에 대응하는 태스크들을 수행하기 위해 실행되는 명령들의 세트, 또는 상이한 시간들에서 상이한 엘리먼트들에 대한 동작들을 수행하는 전자 및/또는 광학 디바이스들의 배열). 예를 들어, VAD들 20-1, 20-2, 및/또는 70이 상이한 시간들에서 동일한 구조를 포함하도록 구현될 수 있다. 또다른 예에서, 필터 뱅크(100) 및/또는 필터 뱅크(200)의 구현예의 하나 이상의 공간 분리 필터들이 (예를 들어, 상이한 시간들에서 필터 계수값들의 상이한 세트들을 사용하여) 상이한 시점들에서 동일한 구조를 포함하도록 구현될 수 있다.

Claims (50)

  1. 공간적으로 필터링된 출력 신호를 생성하기 위해 스피치(speech) 컴포넌트 및 잡음 컴포넌트를 포함하는 M-채널 입력 신호를 프로세싱하는 방법으로서,
    상기 M은 1보다 큰 정수이며, 상기 방법은,
    상기 입력 신호에 제 1 공간 프로세싱 필터를 적용하는 단계;
    상기 입력 신호에 제 2 공간 프로세싱 필터를 적용하는 단계;
    제 1 시간에서, 상기 제 1 공간 프로세싱 필터가 상기 제 2 공간 프로세싱 필터보다 더 양호하게 상기 스피치 및 잡음 컴포넌트들을 분리하기 시작한다는 것을 결정하는 단계;
    상기 제 1 시간에서의 결정에 응답하여, 제 1의 공간적으로 프로세싱된 신호에 기초하는 신호를 상기 출력 신호로서 생성하는 단계;
    상기 제 1 시간에 후속하는 제 2 시간에서, 상기 제 2 공간 프로세싱 필터가 상기 제 1 공간 프로세싱 필터보다 더 양호하게 상기 스피치 및 잡음 컴포넌트들을 분리하기 시작한다는 것을 결정하는 단계; 및
    상기 제 2 시간에서의 결정에 응답하여, 제 2의 공간적으로 프로세싱된 신호에 기초하는 신호를 상기 출력 신호로서 생성하는 단계를 포함하고,
    상기 제 1 및 제 2의 공간적으로 프로세싱된 신호들은 상기 입력 신호에 기초하는,
    M-채널 입력 신호를 프로세싱하는 방법.
  2. 제1항에 있어서,
    상기 제 1 및 제 2 공간 프로세싱 필터들 중 적어도 하나의 복수의 계수 값들은 복수의 상이한 음향(acoustic) 시나리오들 하에서 레코딩되는 복수의 멀티채널 트레이닝 신호들에 기초하는,
    M-채널 입력 신호를 프로세싱하는 방법.
  3. 제1항에 있어서,
    상기 제 1 및 제 2 공간 프로세싱 필터들 중 적어도 하나의 복수의 계수 값들은 복수의 멀티채널 트레이닝 신호들에 기초하는 통합된(converged) 필터 상태로부터 획득되고,
    상기 복수의 멀티채널 트레이닝 신호들은 복수의 상이한 음향 시나리오들 하에서 레코딩되는,
    M-채널 입력 신호를 프로세싱하는 방법.
  4. 제1항에 있어서,
    상기 제 1 공간 프로세싱 필터의 복수의 계수 값들은 제 1의 복수의 상이한 음향 시나리오들 하에서 레코딩되는 복수의 멀티채널 트레이닝 신호들에 기초하고, 그리고
    상기 제 2 공간 프로세싱 필터의 복수의 계수 값들은 상기 제 1의 복수와는 상이한 제 2의 복수의 상이한 음향 시나리오들 하에서 레코딩되는 복수의 멀티채널 트레이닝 신호들에 기초하는,
    M-채널 입력 신호를 프로세싱하는 방법.
  5. 제1항에 있어서,
    상기 입력 신호에 제 1 공간 프로세싱 필터를 적용하는 단계는 제 1의 공간적으로 프로세싱된 신호를 생성하고, 그리고
    상기 입력 신호에 제 2 공간 프로세싱 필터를 적용하는 단계는 제 2의 공간적으로 프로세싱된 신호를 생성하는,
    M-채널 입력 신호를 프로세싱하는 방법.
  6. 제5항에 있어서,
    상기 제 1의 공간적으로 프로세싱된 신호에 기초하는 신호를 상기 출력 신호로서 생성하는 단계는 상기 제 1의 공간적으로 프로세싱된 신호를 상기 출력 신호로서 생성하는 단계를 포함하고, 그리고
    상기 제 2의 공간적으로 프로세싱된 신호에 기초하는 신호를 상기 출력 신호로서 생성하는 단계는 상기 제 2의 공간적으로 프로세싱된 신호를 상기 출력 신호로서 생성하는 단계를 포함하는,
    M-채널 입력 신호를 프로세싱하는 방법.
  7. 제1항에 있어서,
    상기 제 1 공간 프로세싱 필터는 계수 값들의 제 1 행렬에 의해 특성화되고, 상기 제 2 공간 프로세싱 필터는 계수값들의 제 2 행렬에 의해 특성화되며,
    상기 제 2 행렬은 중앙 수직축에 대한 상기 제 1 행렬의 플립(flip)의 결과와 적어도 실질적으로 동일한,
    M-채널 입력 신호를 프로세싱하는 방법.
  8. 제1항에 있어서,
    상기 방법은 상기 제 1 공간 프로세싱 필터가 상기 제 1 시간 직후의 제 1 지연 구간 동안 상기 제 2 공간 프로세싱 필터보다 더 양호하게 상기 스피치 및 잡음 컴포넌트들의 분리를 계속한다는 것을 결정하는 단계를 포함하고, 그리고
    상기 제 1의 공간적으로 프로세싱된 신호에 기초하는 신호를 출력 신호로서 생성하는 단계는 상기 제 1 지연 구간 이후에 시작되는,
    M-채널 입력 신호를 프로세싱하는 방법.
  9. 제8항에 있어서,
    상기 방법은 상기 제 2 공간 프로세싱 필터가 상기 제 2 시간 직후의 제 2 지연 구간 동안 상기 제 1 공간 프로세싱 필터보다 더 양호하게 상기 스피치 및 잡음 컴포넌트들의 분리를 계속한다는 것을 결정하는 단계를 포함하고, 그리고
    상기 제 2의 공간적으로 프로세싱된 신호에 기초하는 신호를 상기 출력 신호로서 생성하는 단계는 상기 제 2 지연 구간 이후에 발생하고,
    상기 제 2 지연 구간은 상기 제 1 지연 구간보다 더 긴,
    M-채널 입력 신호를 프로세싱하는 방법.
  10. 제1항에 있어서,
    상기 제 2의 공간적으로 프로세싱된 신호에 기초하는 신호를 상기 출력 신호로서 생성하는 단계는 제 1 병합(merge) 구간 동안, 상기 제 1의 공간적으로 프로세싱된 신호에 기초하는 신호로부터 상기 제 2의 공간적으로 프로세싱된 신호에 기초하는 신호로 상기 출력 신호를 트랜지션하는 단계를 포함하고, 그리고
    상기 트랜지션하는 단계는, 상기 제 1 병합 구간 동안, 상기 제 1 및 제 2의 공간적으로 프로세싱된 신호들 모두에 기초하는 신호를 상기 출력 신호로서 생성하는 단계를 포함하는,
    M-채널 입력 신호를 프로세싱하는 방법.
  11. 제1항에 있어서,
    상기 방법은,
    제 3 공간 프로세싱 필터를 상기 입력 신호에 적용하는 단계;
    상기 제 2 시간에 후속하는 제 3 시간에서, 상기 제 3 공간 프로세싱 필터가, 상기 제 1 공간 프로세싱 필터보다 더 양호하게 그리고 상기 제 2 공간 프로세싱 필터보다 더 양호하게, 상기 스피치 및 잡음 컴포넌트들을 분리하기 시작한다는 것을 결정하는 단계; 및
    상기 제 3 시간에서의 결정에 응답하여, 제 3의 공간적으로 프로세싱된 신호에 기초하는 신호를 상기 출력 신호로서 생성하는 단계를 포함하고,
    상기 제 3의 공간적으로 프로세싱된 신호는 상기 입력 신호에 기초하는,
    M-채널 입력 신호를 프로세싱하는 방법.
  12. 제 11항에 있어서,
    상기 제 2의 공간적으로 프로세싱된 신호에 기초하는 신호를 상기 출력 신호로서 생성하는 단계는, 제 1 병합 구간 동안, 상기 제 1의 공간적으로 프로세싱된 신호에 기초하는 신호로부터 상기 제 2의 공간적으로 프로세싱된 신호에 기초하는 신호로, 상기 출력 신호를 트랜지션하는 단계를 포함하고, 그리고
    상기 제 3의 공간적으로 프로세싱된 신호에 기초하는 신호를 상기 출력 신호로서 생성하는 단계는, 제 2 병합 구간동안, 상기 제 2의 공간적으로 프로세싱된 신호에 기초하는 신호로부터 상기 제 3의 공간적으로 프로세싱된 신호에 기초하는 신호로, 상기 출력 신호를 트랜지션하는 단계를 포함하고,
    상기 제 2 병합 구간은 상기 제 1 병합 구간보다 더 긴,
    M-채널 입력 신호를 프로세싱하는 방법.
  13. 제1항에 있어서,
    상기 입력 신호에 제 1 공간 프로세싱 필터를 적용하는 단계는 제 1 필터링된 신호를 생성하고,
    상기 입력 신호에 제 2 공간 프로세싱 필터를 적용하는 단계는 제 2 필터링된 신호를 생성하고,
    상기 제 1 시간에서 결정하는 단계는 상기 입력 신호의 채널과 상기 제 1 필터링된 신호의 채널 간의 에너지 차가 상기 입력 신호의 채널과 상기 제 2 필터링된 신호의 채널 간의 에너지 차보다 더 크다는 것을 검출하는 단계를 포함하는,
    M-채널 입력 신호를 프로세싱하는 방법.
  14. 제1항에 있어서,
    상기 입력 신호에 제 1 공간 프로세싱 필터를 적용하는 단계는 제 1 필터링된 신호를 생성하고,
    상기 입력 신호에 제 2 공간 프로세싱 필터를 적용하는 단계는 제 2 필터링된 신호를 생성하고, 그리고
    상기 제 1 시간에서 결정하는 단계는 상기 제 1 필터링된 신호의 2개 채널들 간의 상관값이 상기 제 2 필터링된 신호의 2개 채널들 간의 상관값보다 작다는 것을 검출하는 단계를 포함하는,
    M-채널 입력 신호를 프로세싱하는 방법.
  15. 제1항에 있어서,
    상기 입력 신호에 제 1 공간 프로세싱 필터를 적용하는 단계는 제 1 필터링된 신호를 생성하고,
    상기 입력 신호에 제 2 공간 프로세싱 필터를 적용하는 단계는 제 2 필터링된 신호를 생성하고, 그리고
    상기 제 1 시간에서 결정하는 단계는, 상기 제 1 필터링된 신호의 채널들 간의 에너지 차가 상기 제 2 필터링된 신호의 채널들 간의 에너지 차보다 더 크다는 것을 검출하는 단계를 포함하는,
    M-채널 입력 신호를 프로세싱하는 방법.
  16. 제1항에 있어서,
    상기 입력 신호에 제 1 공간 프로세싱 필터를 적용하는 단계는 제 1 필터링된 신호를 생성하고,
    상기 입력 신호에 제 2 공간 프로세싱 필터를 적용하는 단계는 제 2 필터링된 신호를 생성하고, 그리고
    상기 제 1 시간에서 결정하는 단계는, 상기 제 1 필터링된 신호의 채널에 대한 스피치 측정값이 상기 제 2 필터링된 신호의 채널에 대한 스피치 측정값보다 더 크다는 것을 검출하는 단계를 포함하는,
    M-채널 입력 신호를 프로세싱하는 방법.
  17. 제1항에 있어서,
    상기 입력 신호에 제 1 공간 프로세싱 필터를 적용하는 단계는 제 1 필터링된 신호를 생성하고,
    상기 입력 신호에 제 2 공간 프로세싱 필터를 적용하는 단계는 제 2 필터링된 신호를 생성하고, 그리고
    상기 제 1 시간에서 결정하는 단계는 상기 입력 신호의 2개 채널들 간의 도착 시간차를 계산하는 단계를 포함하는,
    M-채널 입력 신호를 프로세싱하는 방법.
  18. 제1항에 있어서,
    상기 방법은 상기 출력 신호의 적어도 하나의 채널에 기초하는 잡음 레퍼런스를 상기 출력 신호의 또다른 채널 내의 잡음을 감소시키기 위해 적용하는 단계를 포함하는,
    M-채널 입력 신호를 프로세싱하는 방법.
  19. 공간적으로 필터링된 출력 신호를 생성하기 위해 스피치 컴포넌트와 잡음 컴포넌트를 포함하는 M-채널 입력 신호를 프로세싱하기 위한 장치로서,
    M은 1보다 더 큰 정수이며, 상기 장치는,
    상기 입력 신호에 제 1 공간 프로세싱 동작을 수행하기 위한 수단;
    상기 입력 신호에 제 2 공간 프로세싱 동작을 수행하기 위한 수단;
    제 1 시간에서, 상기 제 1 공간 프로세싱 동작을 수행하기 위한 수단이 상기 제 2 공간 프로세싱 동작을 수행하기 위한 수단보다 더 양호하게 상기 스피치 및 잡음 컴포넌트들을 분리하기 시작한다는 것을 결정하기 위한 수단;
    상기 제 1 시간에서 결정하기 위한 수단으로부터의 표시에 응답하여, 상기 출력 신호로서 제 1의 공간적으로 프로세싱된 신호에 기초하는 신호를 생성하기 위한 수단;
    상기 제 1 시간에 후속하는 제 2 시간에서, 상기 제 2 공간 프로세싱 동작을 수행하기 위한 수단이 상기 제 1 공간 프로세싱 동작을 수행하기 위한 수단보다 더 양호하게 상기 스피치 및 잡음 컴포넌트들을 분리하기 시작한다는 것을 결정하기 위한 수단; 및
    상기 제 2 시간에서 결정하기 위한 수단으로부터의 표시에 응답하여, 상기 출력 신호로서 제 2의 공간적으로 프로세싱된 신호에 기초하는 신호를 생성하기 위한 수단을 포함하고,
    상기 제 1 및 제 2의 공간적으로 프로세싱된 신호들은 상기 입력 신호에 기초하는,
    M-채널 입력 신호를 프로세싱하기 위한 장치.
  20. 제 19항에 있어서,
    (A) 상기 제 1 공간 프로세싱 동작을 수행하기 위한 수단 및(B) 상기 제 2 공간 프로세싱 동작을 수행하기 위한 수단 중 적어도 하나의 복수의 계수 값들은 복수의 상이한 음향 시나리오들 하에서 레코딩된 복수의 멀티채널 트레이닝 신호들에 기초하는,
    M-채널 입력 신호를 프로세싱하기 위한 장치.
  21. 제 19항에 있어서,
    상기 입력 신호에 제 1 공간 프로세싱 동작을 수행하기 위한 수단은 상기 제 1의 공간적으로 프로세싱된 신호를 생성하도록 구성되고,
    상기 입력 신호에 제 2 공간 프로세싱 동작을 수행하기 위한 수단은 상기 제 2의 공간적으로 프로세싱된 신호를 생성하도록 구성되고,
    상기 출력 신호로서 제 1의 공간적으로 프로세싱된 신호에 기초하는 신호를 생성하기 위한 수단은 상기 출력 신호로서 상기 제 1의 공간적으로 프로세싱된 신호를 생성하도록 구성되고, 그리고
    상기 출력 신호로서 제 2의 공간적으로 프로세싱된 신호에 기초하는 신호를 생성하기 위한 수단은 상기 출력 신호로서 상기 제 2의 공간적으로 프로세싱된 신호를 생성하도록 구성되는,
    M-채널 입력 신호를 프로세싱하기 위한 장치.
  22. 제 19항에 있어서,
    상기 장치는, 상기 제 1 시간 직후의 제 1 지연 구간동안, 상기 제 1 공간 프로세싱 동작을 수행하기 위한 수단이 상기 제 2 공간 프로세싱 동작을 수행하기 위한 수단보다 더 양호하게 상기 스피치 및 잡음 컴포넌트들의 분리를 계속한다는 것을 결정하기 위한 수단을 포함하고, 그리고
    상기 출력 신호로서 제 1의 공간적으로 프로세싱된 신호에 기초하는 신호를 생성하기 위한 수단은, 상기 제 1 지연 구간 이후에 상기 신호를 생성하기 시작하도록 구성되는,
    M-채널 입력 신호를 프로세싱하기 위한 장치.
  23. 제 19항에 있어서,
    상기 출력 신호로서 제 2의 공간적으로 프로세싱된 신호에 기초하는 신호를 생성하기 위한 수단은, 제 1 병합 구간 동안, 상기 제 1의 공간적으로 프로세싱된 신호에 기초하는 신호로부터 상기 제 2의 공간적으로 프로세싱된 신호에 기초하는 신호로, 상기 출력 신호를 트랜지션하기 위한 수단을 포함하고,
    상기 트랜지션하기 위한 수단은, 상기 제 1 병합 구간 동안, 상기 출력 신호로서 상기 제 1 및 제 2의 공간적으로 프로세싱된 신호들 모두에 기초하는 신호를 생성하도록 구성되는,
    M-채널 입력 신호를 프로세싱하기 위한 장치.
  24. 제 19항에 있어서,
    상기 입력 신호에 제 1 공간 프로세싱 동작을 수행하기 위한 수단은 제 1 필터링된 신호를 생성하고,
    상기 입력 신호에 제 2 공간 프로세싱 동작을 수행하기 위한 수단은 제 2 필터링된 신호를 생성하고,
    상기 제 1 시간에서 결정하기 위한 수단은 상기 입력 신호의 채널 및 상기 제 1 필터링된 신호의 채널 간의 에너지 차가 상기 입력 신호의 채널 및 상기 제 2 필터링된 신호의 채널 간의 에너지 차보다 더 크다는 것을 검출하기 위한 수단을 포함하는,
    M-채널 입력 신호를 프로세싱하기 위한 장치.
  25. 제 19항에 있어서,
    상기 입력 신호에 제 1 공간 프로세싱 동작을 수행하기 위한 수단은 제 1 필터링된 신호를 생성하고,
    상기 입력 신호에 제 2 공간 프로세싱 동작을 수행하기 위한 수단은 제 2 필터링된 신호를 생성하고, 그리고
    상기 제 1 시간에서 결정하기 위한 수단은 상기 제 1 필터링된 신호의 2개 채널들 간의 상관값이 상기 제 2 필터링된 신호의 2개 채널들 간의 상관값보다 더작다는 것을 검출하기 위한 수단을 포함하는,
    M-채널 입력 신호를 프로세싱하기 위한 장치.
  26. 제 19항에 있어서,
    상기 입력 신호에 제 1 공간 프로세싱 동작을 수행하기 위한 수단은 제 1 필터링된 신호를 생성하고,
    상기 입력 신호에 제 2 공간 프로세싱 동작을 수행하기 위한 수단은 제 2 필터링된 신호를 생성하고,
    상기 제 1 시간에 결정하기 위한 수단은 상기 제 1 필터링된 신호의 채널들 간의 에너지 차가 상기 제 2 필터링된 신호의 채널들 간의 에너지 차보다 더 크다는 것을 검출하기 위한 수단을 포함하는,
    M-채널 입력 신호를 프로세싱하기 위한 장치.
  27. 제 19항에 있어서,
    상기 입력 신호에 제 1 공간 프로세싱 동작을 수행하기 위한 수단은 제 1 필터링된 신호를 생성하고,
    상기 입력 신호에 제 2 공간 프로세싱 동작을 수행하기 위한 수단은 제 2 필터링된 신호를 생성하고, 그리고
    상기 제 1 시간에서 결정하기 위한 수단은 상기 제 1 필터링된 신호의 채널에 대한 스피치 측정값이 상기 제 2 필터링된 신호의 채널에 대한 스피치 측정값보다 더 크다는 것을 검출하기 위한 수단을 포함하는,
    M-채널 입력 신호를 프로세싱하기 위한 장치.
  28. 제 19항에 있어서,
    상기 장치는 상기 입력 신호가 기초하는 M-채널 신호를 생성하도록 구성되는 마이크로폰들의 어레이를 포함하는,
    M-채널 입력 신호를 프로세싱하기 위한 장치.
  29. 제 19항에 있어서,
    상기 장치는 상기 출력 신호의 적어도 하나의 채널에 기초하는 잡음 레퍼런스를 상기 출력 신호의 또다른 채널 내의 잡음을 감소시키기 위해 적용하기 위한 수단을 포함하는,
    M-채널 입력 신호를 프로세싱하기 위한 장치.
  30. 공간적으로 필터링된 출력 신호를 생성하기 위해 스피치 컴포넌트 및 잡음 컴포넌트를 포함하는 M-채널 입력 신호를 프로세싱하기 위한 장치로서,
    M은 1보다 큰 정수이고, 상기 장치는,
    상기 입력 신호를 필터링하도록 구성된 제 1 공간 프로세싱 필터;
    상기 입력 신호를 필터링하도록 구성된 제 2 공간 프로세싱 필터;
    제 1 시간에서, 상기 제 1 공간 프로세싱 필터가 상기 제 2 공간 프로세싱 필터보다 더 양호하게 상기 스피치 및 잡음 컴포넌트들을 분리하기 시작한다는 것을 표시하도록 구성된 상태 추정기; 및
    상기 제 1 시간에서의 표시에 응답하여, 상기 출력 신호로서 제 1의 공간적으로 프로세싱된 신호에 기초하는 신호를 생성하도록 구성된 트랜지션 제어 모듈을 포함하고,
    상기 상태 추정기는, 상기 제 1 시간에 후속하는 제 2 시간에서, 상기 제 2 공간 프로세싱 필터가 상기 제 1 공간 프로세싱 필터보다 더 양호하게 상기 스피치 및 잡음 컴포넌트들을 분리하기 시작한다는 것을 표시하도록 구성되고,
    상기 트랜지션 제어 모듈은, 상기 제 2 시간에서의 표시에 응답하여, 상기 출력 신호로서 제 2의 공간적으로 프로세싱된 신호에 기초하는 신호를 생성하도록 구성되고, 그리고
    상기 제 1 및 제 2의 공간적으로 프로세싱된 신호는 상기 입력 신호에 기초하는,
    M-채널 입력 신호를 프로세싱하기 위한 장치.
  31. 제 30항에 있어서,
    상기 제 1 및 제 2 공간 프로세싱 필터들 중 적어도 하나의 복수의 계수 값들은 복수의 멀티채널 트레이닝 신호들에 기초하는 통합된 필터 상태로부터 획득되고,
    상기 복수의 멀티채널 트레이닝 신호들은 복수의 상이한 음향 시나리오들 하에서 레코딩되는,
    M-채널 입력 신호를 프로세싱하기 위한 장치.
  32. 제 30항에 있어서,
    상기 제 1 공간 프로세싱 필터는 상기 입력 신호에 응답하여 상기 제 1의 공간적으로 프로세싱된 신호를 생성하도록 구성되고, 상기 제 2 공간 프로세싱 필터는 상기 입력 신호에 응답하여 상기 제 2의 공간적으로 프로세싱된 신호를 생성하도록 구성되며,
    상기 트랜지션 제어 모듈은, 상기 출력 신호로서 상기 제 1의 공간적으로 프로세싱된 신호를 생성함으로써, 상기 출력 신호로서 상기 제 1의 공간적으로 프로세싱된 신호에 기초하는 신호를 생성하도록 구성되고,
    상기 트랜지션 제어 모듈은, 상기 출력 신호로서 상기 제 2의 공간적으로 프로세싱된 신호를 생성함으로써, 상기 출력 신호로서 상기 제 2의 공간적으로 프로세싱된 신호에 기초하는 신호를 생성하도록 구성되는,
    M-채널 입력 신호를 프로세싱하기 위한 장치.
  33. 제 30항에 있어서,
    상기 상태 추정기는 상기 제 1 공간 프로세싱 필터가 상기 제 1 시간 직후의 제 1 지연 구간 동안 상기 제 2 공간 프로세싱 필터보다 더 양호하게 상기 스피치 및 잡음 컴포넌트들을 분리하기 시작한다는 것을 결정하도록 구성되고,
    상기 트랜지션 제어 모듈은, 상기 제 1 지연 구간 동안 상기 출력 신호로서 상기 제 2의 공간적으로 프로세싱된 신호에 기초하는 신호를 생성하도록 구성되고,
    상기 트랜지션 제어 모듈은 상기 제 1 지연 구간 이후에 상기 출력 신호로서 상기 제 1의 공간적으로 프로세싱된 신호에 기초하는 신호를 생성하도록 구성되는,
    M-채널 입력 신호를 프로세싱하기 위한 장치.
  34. 제 30항에 있어서,
    상기 트랜지션 제어 모듈은, 제 1 병합 구간동안, 상기 제 1의 공간적으로 프로세싱된 신호에 기초하는 신호로부터 상기 제 2의 공간적으로 프로세싱된 신호에 기초하는 신호로 상기 출력 신호를 트랜지션함으로써, 상기 출력 신호로서 상기 제 2의 공간적으로 프로세싱된 신호에 기초하는 신호를 생성하도록 구성되고, 그리고
    상기 제 1 병합 구간동안, 상기 트랜지션 제어 모듈은 상기 출력 신호로서 상기 제 1 및 제 2의 공간적으로 프로세싱된 신호들 모두에 기초하는 신호를 생성하도록 구성되는,
    M-채널 입력 신호를 프로세싱하기 위한 장치.
  35. 제 30항에 있어서,
    상기 제 1 공간 프로세싱 필터는 상기 입력 신호에 응답하여 제 1 필터링된 신호를 생성하도록 구성되고,
    상기 제 2 공간 프로세싱 필터는 상기 입력 신호에 응답하여 제 2 필터링된 신호를 생성하도록 구성되고, 그리고
    상기 상태 추정기는, 상기 제 1 시간에서, 상기 입력 신호의 채널과 상기 제 1 필터링된 신호의 채널 간의 에너지 차가 상기 입력 신호의 채널과 상기 제 2 필터링된 신호의 채널 간의 에너지 차보다 더 크다는 것을 검출함으로써 상기 제 1 공간 프로세싱 필터가 상기 제 2 공간 프로세싱 필터보다 더 양호하게 상기 스피치 및 잡음 컴포넌트들을 분리하기 시작한다는 것을 결정하도록 구성되는,
    M-채널 입력 신호를 프로세싱하기 위한 장치.
  36. 제 30항에 있어서,
    상기 제 1 공간 프로세싱 필터는 상기 입력 신호에 응답하여 제 1 필터링된 신호를 생성하도록 구성되고, 상기 제 2 공간 프로세싱 필터는 상기 입력 신호에 응답하여 제 2 필터링된 신호를 생성하도록 구성되고,
    상기 상태 추정기는, 상기 제 1 시간에서, 상기 제 1 필터링된 신호의 2개 채널들 간의 상관 값이 상기 제 2 필터링된 신호의 2개 채널들 간의 상관 값보다 더 작다는 것을 검출함으로써 상기 제 1 공간 프로세싱 필터가 상기 제 2 공간 프로세싱 필터보다 더 양호하게 상기 스피치 및 잡음 컴포넌트들을 분리하기 시작한다는 것을 결정하도록 구성되는,
    M-채널 입력 신호를 프로세싱하기 위한 장치.
  37. 제 30항에 있어서,
    상기 제 1 공간 프로세싱 필터는 상기 입력 신호에 응답하여 제 1 필터링된 신호를 생성하도록 구성되고,
    상기 제 2 공간 프로세싱 필터는 상기 입력 신호에 응답하여 제 2 필터링된 신호를 생성하도록 구성되고,
    상기 상태 추정기는, 상기 제 1 시간에서, 상기 제 1 필터링된 신호의 채널들 간의 에너지 차가 상기 제 2 필터링된 신호의 채널들 간의 에너지 차보다 더 크다는 것을 검출함으로써, 상기 제 1 공간 프로세싱 필터가 상기 제 2 공간 프로세싱 필터보다 더 양호하게 상기 스피치 및 잡음 컴포넌트들을 분리하기 시작한다는 것을 결정하도록 구성되는,
    M-채널 입력 신호를 프로세싱하기 위한 장치.
  38. 제 30항에 있어서,
    상기 제 1 공간 프로세싱 필터는 상기 입력 신호에 응답하여 제 1 필터링된 신호를 생성하도록 구성되고,
    상기 제 2 공간 프로세싱 필터는 상기 입력 신호에 응답하여 제 2 필터링된 신호를 생성하도록 구성되고,
    상기 상태 추정기는, 상기 제 1 시간에서, 상기 상기 제 1 필터링된 신호의 채널에 대한 스피치 측정값이 상기 제 2 필터링된 신호의 채널에 대한 스피치 측정값보다 더 크다는 것을 검출함으로써, 상기 제 1 공간 프로세싱 필터가 상기 제 2 공간 프로세싱 필터보다 더 양호하게 상기 스피치 및 잡음 컴포넌트들을 분리하기 시작한다는 것을 결정하도록 구성되는,
    M-채널 입력 신호를 프로세싱하기 위한 장치.
  39. 제 30항에 있어서,
    상기 장치는 상기 입력 신호가 기초하는 M-채널 신호를 생성하도록 구성되는 마이크로폰들의 어레이를 포함하는,
    M-채널 입력 신호를 프로세싱하기 위한 장치.
  40. 제 30항에 있어서,
    상기 장치는 상기 출력 신호의 적어도 하나의 채널에 기초하는 잡음 레퍼런스를 상기 출력 신호의 또다른 채널 내의 잡음을 감소시키기 위해 적용하도록 구성되는 잡음 감소 필터를 포함하는,
    M-채널 입력 신호를 프로세싱하기 위한 장치.
  41. 프로세서에 의해 실행될 때 상기 프로세서로 하여금 공간적으로 필터링된 출력 신호를 생성하기 위해 스피치 컴포넌트와 잡음 컴포넌트를 포함하는 M-채널 입력 신호를 프로세싱하는 방법을 수행하게 하는 명령들을 포함하는 컴퓨터-판독가능한 매체로서,
    M은 1보다 더 큰 정수이며, 상기 명령들은 상기 프로세서에 의해 실행될 때 상기 프로세서로 하여금,
    상기 입력 신호에 제 1 공간 프로세싱 동작을 수행하게 하고;
    상기 입력 신호에 제 2 공간 프로세싱 동작을 수행하게 하고;
    제 1 시간에서, 상기 제 1 공간 프로세싱 동작이 상기 제 2 공간 프로세싱 동작보다 더 양호하게 상기 스피치 및 잡음 컴포넌트들을 분리하기 시작한다는 것을 표시하게 하고;
    상기 제 1 시간에서의 표시에 응답하여, 상기 출력 신호로서 제 1의 공간적으로 프로세싱된 신호에 기초하는 신호를 생성하게 하고;
    상기 제 1 시간에 후속하는 제 2 시간에서, 상기 제 2 공간 프로세싱 동작이 상기 제 1 공간 프로세싱 동작보다 더 양호하게 상기 스피치 및 잡음 컴포넌트들을 분리하기 시작한다는 것을 표시하게 하고; 그리고
    상기 제 2 시간에서의 표시에 응답하여, 상기 출력 신호로서 제 2의 공간적으로 프로세싱된 신호에 기초하는 신호를 생성하게 하는 명령들을 포함하고,
    상기 제 1 및 제 2의 공간적으로 프로세싱된 신호들은 상기 입력 신호에 기초하는,
    컴퓨터-판독가능한 매체.
  42. 제41항에 있어서,
    상기 제 1 및 제 2 공간 프로세싱 동작들 중 적어도 하나의 복수의 계수 값들은 복수의 멀티채널 트레이닝 신호들에 기초하는 통합된 필터 상태로부터 획득되고,
    상기 복수의 멀티채널 트레이닝 신호들은 복수의 상이한 음향 시나리오들 하에서 레코딩되는,
    컴퓨터-판독가능한 매체.
  43. 제41항에 있어서,
    프로세서에 의해 실행될 때 상기 프로세서로 하여금 상기 입력 신호에 상기 제 1 공간 프로세싱 동작을 수행하게 하는 상기 명령들은 상기 프로세서로 하여금 상기 제 1의 공간적으로 프로세싱된 신호를 생성하게 하고, 프로세서에 의해 실행될 때 상기 프로세서로 하여금 상기 입력 신호에 상기 제 2 공간 프로세싱 동작을 수행하게 하는 명령들은 상기 프로세서로 하여금 상기 제 2의 공간적으로 프로세싱된 신호를 생성하게 하고,
    프로세서에 의해 실행될 때 상기 프로세서로 하여금 상기 출력 신호로서 제 1의 공간적으로 프로세싱된 신호에 기초하는 신호를 생성하게 하는 상기 명령들은 상기 프로세서로 하여금 상기 출력 신호로서 상기 제 1의 공간적으로 프로세싱된 신호를 생성하게 하고, 그리고
    프로세서에 의해 실행될 때 상기 프로세서로 하여금 상기 출력 신호로서 제 2의 공간적으로 프로세싱된 신호에 기초하는 신호를 생성하게 하는 상기 명령들은 상기 프로세서로 하여금 상기 출력 신호로서 상기 제 2의 공간적으로 프로세싱된 신호를 생성하게 하는,
    컴퓨터-판독가능한 매체.
  44. 제41항에 있어서,
    상기 매체는, 프로세서에 의해 실행될 때 상기 프로세서로 하여금 상기 제 1 시간 직후의 제 1 지연 구간동안 상기 제 1 공간 프로세싱 동작이 상기 제 2 공간 프로세싱 동작보다 더 양호하게 상기 스피치 및 잡음 컴포넌트들의 분리를 계속한다는 것을 결정하게 하는 명령들을 포함하고, 그리고
    프로세서에 의해 실행될 때 상기 프로세서로 하여금 상기 출력 신호로서 제 1의 공간적으로 프로세싱된 신호에 기초하는 신호를 생성하게 하는 상기 명령들은 상기 프로세서로 하여금 상기 제 1 지연 구간 이후에 상기 신호를 생성하기 시작하게 하는,
    컴퓨터-판독가능한 매체.
  45. 제41항에 있어서,
    프로세서에 의해 실행될 때 상기 프로세서로 하여금 상기 출력 신호로서 제 2의 공간적으로 프로세싱된 신호에 기초하는 신호를 생성하게 하는 상기 명령들은, 프로세서에 의해 실행될 때 상기 프로세서로 하여금 제 1 병합 구간동안 상기 제 1의 공간적으로 프로세싱된 신호에 기초하는 신호로부터 상기 제 2의 공간적으로 프로세싱된 신호에 기초하는 신호로 상기 출력 신호를 트랜지션하게 하는 명령들을 포함하고, 그리고
    프로세서에 의해 실행될 때 상기 프로세서로 하여금 트랜지션하게 하는 상기 명령들은 프로세서에 의해 실행될 때 상기 프로세서로 하여금 상기 제 1 병합 구간동안 상기 출력 신호로서 상기 제 1 및 제 2의 공간적으로 프로세싱된 신호들 모두에 기초하는 신호를 생성하게 하는 명령들을 포함하는,
    컴퓨터-판독가능한 매체.
  46. 제41항에 있어서,
    프로세서에 의해 실행될 때 상기 프로세서로 하여금 상기 입력 신호에 제 1 공간 프로세싱 동작을 수행하게 하는 상기 명령들은 상기 프로세서로 하여금 제 1 필터링된 신호를 생성하게 하고,
    프로세서에 의해 실행될 때 상기 프로세서로 하여금 상기 입력 신호에 대해 제 2 공간 프로세싱 동작을 수행하게 하는 상기 명령들은 상기 프로세서로 하여금 제 2 필터링된 신호를 생성하게 하고,
    프로세서에 의해 실행될 때 상기 프로세서로 하여금 제 1 시간에서 표시하게 하는 상기 명령들은 프로세서에 의해 실행될 때 상기 프로세서로 하여금 상기 입력 신호의 채널과 상기 제 1 필터링된 신호의 채널 간의 에너지 차가 상기 입력 신호의 채널 및 상기 제 2 필터링된 신호의 채널 간의 에너지 차보다 더 크다는 것을 검출하게 하는 명령들을 포함하는,
    컴퓨터-판독가능한 매체.
  47. 제41항에 있어서,
    프로세서에 의해 실행될 때 상기 프로세서로 하여금 상기 입력 신호에 제 1 공간 프로세싱 동작을 수행하게 하는 상기 명령들은 상기 프로세서로 하여금 제 1 필터링된 신호를 생성하게 하고,
    프로세서에 의해 실행될 때 상기 프로세서로 하여금 상기 입력 신호에 제 2 공간 프로세싱 동작을 수행하게 하는 상기 명령들은 상기 프로세서로 하여금 제 2 필터링된 신호를 생성하게 하고,
    프로세서에 의해 실행될 때 상기 프로세서로 하여금 제 1 시간에서 표시하게 하는 상기 명령들은 프로세서에 의해 실행될 때 상기 프로세서로 하여금 상기 제 1 필터링된 신호의 2개 채널들 간의 상관값이 상기 제 2 필터링된 신호의 2개 채널들 간의 상관값보다 더 작다는 것을 검출하게 하는 명령들을 포함하는,
    컴퓨터-판독가능한 매체.
  48. 제41항에 있어서,
    프로세서에 의해 실행될 때 상기 프로세서로 하여금 상기 입력 신호에 제 1 공간 프로세싱 동작을 수행하게 하는 상기 명령들은 상기 프로세서로 하여금 제 1 필터링된 신호를 생성하게 하고,
    프로세서에 의해 실행될 때 상기 프로세서로 하여금 상기 입력 신호에 제 2 공간 프로세싱 동작을 수행하게 하는 상기 명령들은 상기 프로세서로 하여금 제 2 필터링된 신호를 생성하게 하고, 그리고
    프로세서에 의해 실행될 때 상기 프로세서로 하여금 제 1 시간에서 표시하게 하는 상기 명령들은 상기 제 1 필터링된 신호의 채널들 간의 에너지 차가 상기 제 2 필터링된 신호의 채널들 간의 에너지 차보다 더 크다는 것을 검출하게 하는 명령들을 포함하는,
    컴퓨터-판독가능한 매체.
  49. 제41항에 있어서,
    프로세서에 의해 실행될 때 상기 프로세서로 하여금 상기 입력 신호에 제 1 공간 프로세싱 동작을 수행하게 하는 상기 명령들은 상기 프로세서로 하여금 제 1 필터링된 신호를 생성하게 하고,
    프로세서에 의해 실행될 때 상기 프로세서로 하여금 상기 입력 신호에 제 2 공간 프로세싱 동작을 수행하게 하는 상기 명령들은 상기 프로세서로 하여금 제 2 필터링된 신호를 생성하게 하고,
    프로세서에 의해 실행될 때 상기 프로세서로 하여금 제 1 시간에서 표시하게 하는 상기 명령들은 프로세서에 의해 실행될 때 상기 프로세서로 하여금 상기 제 1 필터링된 신호의 채널의 스피치 측정값이 상기 제 2 필터링된 신호의 채널의 스피치 측정값보다 더 크다는 것을 검출하게 하는 명령들을 포함하는,
    컴퓨터-판독가능한 매체.
  50. 제41항에 있어서,
    상기 매체는 프로세서에 의해 실행될 때 상기 프로세서로 하여금 상기 출력 신호의 적어도 하나의 채널에 기초하는 잡음 레퍼런스를 상기 출력 신호의 또다른 채널 내의 잡음을 감소시키기 위해 적용하게 하는 명령들을 포함하는,
    컴퓨터-판독가능한 매체.
KR1020107015904A 2007-12-19 2008-12-18 멀티-마이크로폰 기반 스피치 향상을 위한 시스템들, 방법들, 및 장치 KR101172180B1 (ko)

Applications Claiming Priority (11)

Application Number Priority Date Filing Date Title
US1508407P 2007-12-19 2007-12-19
US61/015,084 2007-12-19
US1679207P 2007-12-26 2007-12-26
US61/016,792 2007-12-26
US7714708P 2008-06-30 2008-06-30
US61/077,147 2008-06-30
US7935908P 2008-07-09 2008-07-09
US61/079,359 2008-07-09
US12/334,246 2008-12-12
US12/334,246 US8175291B2 (en) 2007-12-19 2008-12-12 Systems, methods, and apparatus for multi-microphone based speech enhancement
PCT/US2008/087541 WO2009086017A1 (en) 2007-12-19 2008-12-18 Systems, methods, and apparatus for multi-microphone based speech enhancement

Publications (2)

Publication Number Publication Date
KR20100105700A true KR20100105700A (ko) 2010-09-29
KR101172180B1 KR101172180B1 (ko) 2012-08-07

Family

ID=40789657

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020107015904A KR101172180B1 (ko) 2007-12-19 2008-12-18 멀티-마이크로폰 기반 스피치 향상을 위한 시스템들, 방법들, 및 장치

Country Status (7)

Country Link
US (1) US8175291B2 (ko)
EP (1) EP2229678A1 (ko)
JP (1) JP5479364B2 (ko)
KR (1) KR101172180B1 (ko)
CN (1) CN101903948B (ko)
TW (1) TW200939210A (ko)
WO (1) WO2009086017A1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140120195A (ko) * 2013-04-02 2014-10-13 삼성전자주식회사 복수의 마이크로폰들을 구비하는 사용자 기기 및 그 동작 방법
KR20200103846A (ko) * 2018-01-23 2020-09-02 구글 엘엘씨 호출 구문 검출에서 노이즈 감소 기술의 선택적 적응 및 활용

Families Citing this family (194)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8280072B2 (en) 2003-03-27 2012-10-02 Aliphcom, Inc. Microphone array with rear venting
US8019091B2 (en) 2000-07-19 2011-09-13 Aliphcom, Inc. Voice activity detector (VAD) -based multiple-microphone acoustic noise suppression
US9066186B2 (en) 2003-01-30 2015-06-23 Aliphcom Light-based detection for acoustic applications
US9099094B2 (en) 2003-03-27 2015-08-04 Aliphcom Microphone array with rear venting
US7099821B2 (en) * 2003-09-12 2006-08-29 Softmax, Inc. Separation of target acoustic signals in a multi-transducer arrangement
US8543390B2 (en) * 2004-10-26 2013-09-24 Qnx Software Systems Limited Multi-channel periodic signal enhancement system
US9185487B2 (en) 2006-01-30 2015-11-10 Audience, Inc. System and method for providing noise suppression utilizing null processing noise subtraction
US8898056B2 (en) 2006-03-01 2014-11-25 Qualcomm Incorporated System and method for generating a separated signal by reordering frequency components
US8949120B1 (en) 2006-05-25 2015-02-03 Audience, Inc. Adaptive noise cancelation
KR20090123921A (ko) * 2007-02-26 2009-12-02 퀄컴 인코포레이티드 신호 분리를 위한 시스템, 방법 및 장치
US8160273B2 (en) * 2007-02-26 2012-04-17 Erik Visser Systems, methods, and apparatus for signal separation using data driven techniques
US8068620B2 (en) * 2007-03-01 2011-11-29 Canon Kabushiki Kaisha Audio processing apparatus
US20110035215A1 (en) * 2007-08-28 2011-02-10 Haim Sompolinsky Method, device and system for speech recognition
JP5642339B2 (ja) * 2008-03-11 2014-12-17 トヨタ自動車株式会社 信号分離装置及び信号分離方法
US8321214B2 (en) * 2008-06-02 2012-11-27 Qualcomm Incorporated Systems, methods, and apparatus for multichannel signal amplitude balancing
WO2009151578A2 (en) * 2008-06-09 2009-12-17 The Board Of Trustees Of The University Of Illinois Method and apparatus for blind signal recovery in noisy, reverberant environments
US20100057472A1 (en) * 2008-08-26 2010-03-04 Hanks Zeng Method and system for frequency compensation in an audio codec
KR101178801B1 (ko) * 2008-12-09 2012-08-31 한국전자통신연구원 음원분리 및 음원식별을 이용한 음성인식 장치 및 방법
JP5071346B2 (ja) * 2008-10-24 2012-11-14 ヤマハ株式会社 雑音抑圧装置及び雑音抑圧方法
JP5538425B2 (ja) * 2008-12-23 2014-07-02 コーニンクレッカ フィリップス エヌ ヴェ スピーチ取り込み及びスピーチレンダリング
US9064499B2 (en) * 2009-02-13 2015-06-23 Nec Corporation Method for processing multichannel acoustic signal, system therefor, and program
US8954323B2 (en) * 2009-02-13 2015-02-10 Nec Corporation Method for processing multichannel acoustic signal, system thereof, and program
FR2945169B1 (fr) * 2009-04-29 2011-06-03 Commissariat Energie Atomique Methode d'identification d'un signal ofdm
JP5293817B2 (ja) * 2009-06-19 2013-09-18 富士通株式会社 音声信号処理装置及び音声信号処理方法
FR2948484B1 (fr) * 2009-07-23 2011-07-29 Parrot Procede de filtrage des bruits lateraux non-stationnaires pour un dispositif audio multi-microphone, notamment un dispositif telephonique "mains libres" pour vehicule automobile
KR101587844B1 (ko) * 2009-08-26 2016-01-22 삼성전자주식회사 마이크로폰의 신호 보상 장치 및 그 방법
US20110058676A1 (en) 2009-09-07 2011-03-10 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for dereverberation of multichannel signal
US20110125497A1 (en) * 2009-11-20 2011-05-26 Takahiro Unno Method and System for Voice Activity Detection
WO2011063830A1 (en) * 2009-11-24 2011-06-03 Nokia Corporation An apparatus
WO2011063857A1 (en) 2009-11-30 2011-06-03 Nokia Corporation An apparatus
US9838784B2 (en) 2009-12-02 2017-12-05 Knowles Electronics, Llc Directional audio capture
US8718290B2 (en) * 2010-01-26 2014-05-06 Audience, Inc. Adaptive noise reduction using level cues
JP5489778B2 (ja) * 2010-02-25 2014-05-14 キヤノン株式会社 情報処理装置およびその処理方法
US9759917B2 (en) 2010-02-28 2017-09-12 Microsoft Technology Licensing, Llc AR glasses with event and sensor triggered AR eyepiece interface to external devices
US10180572B2 (en) 2010-02-28 2019-01-15 Microsoft Technology Licensing, Llc AR glasses with event and user action control of external applications
US20150309316A1 (en) 2011-04-06 2015-10-29 Microsoft Technology Licensing, Llc Ar glasses with predictive control of external device based on event input
US9223134B2 (en) 2010-02-28 2015-12-29 Microsoft Technology Licensing, Llc Optical imperfections in a light transmissive illumination system for see-through near-eye display glasses
US9366862B2 (en) 2010-02-28 2016-06-14 Microsoft Technology Licensing, Llc System and method for delivering content to a group of see-through near eye display eyepieces
US9285589B2 (en) 2010-02-28 2016-03-15 Microsoft Technology Licensing, Llc AR glasses with event and sensor triggered control of AR eyepiece applications
US9091851B2 (en) 2010-02-28 2015-07-28 Microsoft Technology Licensing, Llc Light control in head mounted displays
WO2011106798A1 (en) 2010-02-28 2011-09-01 Osterhout Group, Inc. Local advertising content on an interactive head-mounted eyepiece
US9128281B2 (en) 2010-09-14 2015-09-08 Microsoft Technology Licensing, Llc Eyepiece with uniformly illuminated reflective display
US9229227B2 (en) 2010-02-28 2016-01-05 Microsoft Technology Licensing, Llc See-through near-eye display glasses with a light transmissive wedge shaped illumination system
US20120249797A1 (en) 2010-02-28 2012-10-04 Osterhout Group, Inc. Head-worn adaptive display
US9341843B2 (en) 2010-02-28 2016-05-17 Microsoft Technology Licensing, Llc See-through near-eye display glasses with a small scale image source
US9182596B2 (en) 2010-02-28 2015-11-10 Microsoft Technology Licensing, Llc See-through near-eye display glasses with the optical assembly including absorptive polarizers or anti-reflective coatings to reduce stray light
US9097890B2 (en) 2010-02-28 2015-08-04 Microsoft Technology Licensing, Llc Grating in a light transmissive illumination system for see-through near-eye display glasses
US9134534B2 (en) 2010-02-28 2015-09-15 Microsoft Technology Licensing, Llc See-through near-eye display glasses including a modular image source
US9129295B2 (en) 2010-02-28 2015-09-08 Microsoft Technology Licensing, Llc See-through near-eye display glasses with a fast response photochromic film system for quick transition from dark to clear
US9097891B2 (en) 2010-02-28 2015-08-04 Microsoft Technology Licensing, Llc See-through near-eye display glasses including an auto-brightness control for the display brightness based on the brightness in the environment
US8538035B2 (en) 2010-04-29 2013-09-17 Audience, Inc. Multi-microphone robust noise suppression
US8473287B2 (en) 2010-04-19 2013-06-25 Audience, Inc. Method for jointly optimizing noise reduction and voice quality in a mono or multi-microphone system
US8958572B1 (en) * 2010-04-19 2015-02-17 Audience, Inc. Adaptive noise cancellation for multi-microphone systems
US8798290B1 (en) 2010-04-21 2014-08-05 Audience, Inc. Systems and methods for adaptive signal equalization
US9165567B2 (en) 2010-04-22 2015-10-20 Qualcomm Incorporated Systems, methods, and apparatus for speech feature detection
US8781137B1 (en) 2010-04-27 2014-07-15 Audience, Inc. Wind noise detection and suppression
US9378754B1 (en) * 2010-04-28 2016-06-28 Knowles Electronics, Llc Adaptive spatial classifier for multi-microphone systems
CN203242334U (zh) * 2010-05-03 2013-10-16 艾利佛卡姆公司 用于电子系统的风抑制/替换部件
US9558755B1 (en) * 2010-05-20 2017-01-31 Knowles Electronics, Llc Noise suppression assisted automatic speech recognition
US9053697B2 (en) 2010-06-01 2015-06-09 Qualcomm Incorporated Systems, methods, devices, apparatus, and computer program products for audio equalization
US8447596B2 (en) 2010-07-12 2013-05-21 Audience, Inc. Monaural noise suppression based on computational auditory scene analysis
JP5732937B2 (ja) 2010-09-08 2015-06-10 ヤマハ株式会社 サウンドマスキング装置
US9100734B2 (en) * 2010-10-22 2015-08-04 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for far-field multi-source tracking and separation
US9031256B2 (en) 2010-10-25 2015-05-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for orientation-sensitive recording control
US8898058B2 (en) * 2010-10-25 2014-11-25 Qualcomm Incorporated Systems, methods, and apparatus for voice activity detection
US8855341B2 (en) 2010-10-25 2014-10-07 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for head tracking based on recorded sound signals
US9552840B2 (en) * 2010-10-25 2017-01-24 Qualcomm Incorporated Three-dimensional sound capturing and reproducing with multi-microphones
US20120128168A1 (en) * 2010-11-18 2012-05-24 Texas Instruments Incorporated Method and apparatus for noise and echo cancellation for two microphone system subject to cross-talk
TWI412023B (zh) 2010-12-14 2013-10-11 Univ Nat Chiao Tung 可消除噪音且增進語音品質之麥克風陣列架構及其方法
US9596549B2 (en) 2011-01-05 2017-03-14 Koninklijke Philips N.V. Audio system and method of operation therefor
US8989402B2 (en) * 2011-01-19 2015-03-24 Broadcom Corporation Use of sensors for noise suppression in a mobile communication device
US9538286B2 (en) * 2011-02-10 2017-01-03 Dolby International Ab Spatial adaptation in multi-microphone sound capture
US8929564B2 (en) * 2011-03-03 2015-01-06 Microsoft Corporation Noise adaptive beamforming for microphone arrays
US8942382B2 (en) * 2011-03-22 2015-01-27 Mh Acoustics Llc Dynamic beamformer processing for acoustic echo cancellation in systems with high acoustic coupling
FR2976111B1 (fr) * 2011-06-01 2013-07-05 Parrot Equipement audio comprenant des moyens de debruitage d'un signal de parole par filtrage a delai fractionnaire, notamment pour un systeme de telephonie "mains libres"
US20130054233A1 (en) * 2011-08-24 2013-02-28 Texas Instruments Incorporated Method, System and Computer Program Product for Attenuating Noise Using Multiple Channels
US9666206B2 (en) * 2011-08-24 2017-05-30 Texas Instruments Incorporated Method, system and computer program product for attenuating noise in multiple time frames
TWI459381B (zh) * 2011-09-14 2014-11-01 Ind Tech Res Inst 語音增強方法
JP6179081B2 (ja) * 2011-09-15 2017-08-16 株式会社Jvcケンウッド ノイズ低減装置、音声入力装置、無線通信装置、およびノイズ低減方法
US9966088B2 (en) * 2011-09-23 2018-05-08 Adobe Systems Incorporated Online source separation
US8712769B2 (en) * 2011-12-19 2014-04-29 Continental Automotive Systems, Inc. Apparatus and method for noise removal by spectral smoothing
US9532157B2 (en) * 2011-12-23 2016-12-27 Nokia Technologies Oy Audio processing for mono signals
DE102012200745B4 (de) * 2012-01-19 2014-05-28 Siemens Medical Instruments Pte. Ltd. Verfahren und Hörvorrichtung zum Schätzen eines Bestandteils der eigenen Stimme
US9173025B2 (en) 2012-02-08 2015-10-27 Dolby Laboratories Licensing Corporation Combined suppression of noise, echo, and out-of-location signals
US8712076B2 (en) 2012-02-08 2014-04-29 Dolby Laboratories Licensing Corporation Post-processing including median filtering of noise suppression gains
CN104488025A (zh) * 2012-03-16 2015-04-01 纽昂斯通讯公司 用户专用的自动语音识别
CN102646418B (zh) * 2012-03-29 2014-07-23 北京华夏电通科技股份有限公司 一种远程音频交互的多路声学回音消除方法及系统
US9282405B2 (en) * 2012-04-24 2016-03-08 Polycom, Inc. Automatic microphone muting of undesired noises by microphone arrays
BR112014027968A2 (pt) * 2012-05-07 2017-06-27 Adaptive Spectrum & Signal Alignment Inc aparelho, sistemas e métodos para detecção e mitigação de ruído de impulso
US20130315402A1 (en) * 2012-05-24 2013-11-28 Qualcomm Incorporated Three-dimensional sound compression and over-the-air transmission during a call
US9881616B2 (en) 2012-06-06 2018-01-30 Qualcomm Incorporated Method and systems having improved speech recognition
US9640194B1 (en) 2012-10-04 2017-05-02 Knowles Electronics, Llc Noise suppression for speech processing based on machine-learning mask estimation
CN102969000B (zh) * 2012-12-04 2014-10-22 中国科学院自动化研究所 一种多通道语音增强方法
BR112015013907A2 (pt) * 2012-12-17 2017-07-11 Koninklijke Philips Nv aparelho eletrônico, método para gerar informações de classificação de áudio e informações de movimento da cabeça e mídia legível por computador não temporária
US20140184796A1 (en) * 2012-12-27 2014-07-03 Motorola Solutions, Inc. Method and apparatus for remotely controlling a microphone
US9692379B2 (en) * 2012-12-31 2017-06-27 Spreadtrum Communications (Shanghai) Co., Ltd. Adaptive audio capturing
CN104010265A (zh) 2013-02-22 2014-08-27 杜比实验室特许公司 音频空间渲染设备及方法
US20140278380A1 (en) * 2013-03-14 2014-09-18 Dolby Laboratories Licensing Corporation Spectral and Spatial Modification of Noise Captured During Teleconferencing
US9467777B2 (en) * 2013-03-15 2016-10-11 Cirrus Logic, Inc. Interface for a digital microphone array
EP2976893A4 (en) * 2013-03-20 2016-12-14 Nokia Technologies Oy SPACE AUDIO DEVICE
US20180317019A1 (en) 2013-05-23 2018-11-01 Knowles Electronics, Llc Acoustic activity detecting microphone
KR102282366B1 (ko) * 2013-06-03 2021-07-27 삼성전자주식회사 음성 향상 방법 및 그 장치
US9357080B2 (en) * 2013-06-04 2016-05-31 Broadcom Corporation Spatial quiescence protection for multi-channel acoustic echo cancellation
JP2015052466A (ja) * 2013-09-05 2015-03-19 株式会社デンソー 車両用装置及び音声切換制御プログラム
CN104424953B (zh) 2013-09-11 2019-11-01 华为技术有限公司 语音信号处理方法与装置
WO2015047308A1 (en) * 2013-09-27 2015-04-02 Nuance Communications, Inc. Methods and apparatus for robust speaker activity detection
US9392353B2 (en) * 2013-10-18 2016-07-12 Plantronics, Inc. Headset interview mode
US10536773B2 (en) 2013-10-30 2020-01-14 Cerence Operating Company Methods and apparatus for selective microphone signal combining
ITTO20130901A1 (it) 2013-11-05 2015-05-06 St Microelectronics Srl Interfaccia di espansione dell'intervallo dinamico di un segnale di ingresso, in particolare di un segnale audio di un trasduttore acustico a due strutture di rilevamento, e relativo metodo
GB2520029A (en) 2013-11-06 2015-05-13 Nokia Technologies Oy Detection of a microphone
JP6432597B2 (ja) * 2014-03-17 2018-12-05 日本電気株式会社 信号処理装置、信号処理方法、および信号処理プログラム
BR112016021565B1 (pt) 2014-03-21 2021-11-30 Huawei Technologies Co., Ltd Aparelho e método para estimar um tempo de mistura geral com base em uma pluralidade de pares de respostas impulsivas de sala, e decodificador de áudio
CN105096961B (zh) * 2014-05-06 2019-02-01 华为技术有限公司 语音分离方法和装置
US10149047B2 (en) * 2014-06-18 2018-12-04 Cirrus Logic Inc. Multi-aural MMSE analysis techniques for clarifying audio signals
US20150381333A1 (en) * 2014-06-26 2015-12-31 Harris Corporation Novel approach for enabling mixed mode behavior using microphone placement on radio terminal hardware
US10062374B2 (en) * 2014-07-18 2018-08-28 Nuance Communications, Inc. Methods and apparatus for training a transformation component
WO2016016387A1 (en) * 2014-07-31 2016-02-04 Koninklijke Kpn N.V. Noise suppression system and method
CN104134440B (zh) * 2014-07-31 2018-05-08 百度在线网络技术(北京)有限公司 用于便携式终端的语音检测方法和语音检测装置
US9799330B2 (en) 2014-08-28 2017-10-24 Knowles Electronics, Llc Multi-sourced noise suppression
US9978388B2 (en) 2014-09-12 2018-05-22 Knowles Electronics, Llc Systems and methods for restoration of speech components
WO2016112113A1 (en) 2015-01-07 2016-07-14 Knowles Electronics, Llc Utilizing digital microphones for low power keyword detection and noise suppression
CN107210824A (zh) 2015-01-30 2017-09-26 美商楼氏电子有限公司 麦克风的环境切换
CN104952459B (zh) * 2015-04-29 2018-05-15 大连理工大学 一种基于分布式一致性和mvdr波束形成的分布式语音增强方法
US9565493B2 (en) 2015-04-30 2017-02-07 Shure Acquisition Holdings, Inc. Array microphone system and method of assembling the same
US9554207B2 (en) 2015-04-30 2017-01-24 Shure Acquisition Holdings, Inc. Offset cartridge microphones
US9736578B2 (en) 2015-06-07 2017-08-15 Apple Inc. Microphone-based orientation sensors and related techniques
US9558731B2 (en) * 2015-06-15 2017-01-31 Blackberry Limited Headphones using multiplexed microphone signals to enable active noise cancellation
US9734845B1 (en) * 2015-06-26 2017-08-15 Amazon Technologies, Inc. Mitigating effects of electronic audio sources in expression detection
WO2017007848A1 (en) 2015-07-06 2017-01-12 Dolby Laboratories Licensing Corporation Estimation of reverberant energy component from active audio source
US10389393B2 (en) * 2015-08-31 2019-08-20 Sony Corporation Reception device, receiving method, and program
US9401158B1 (en) * 2015-09-14 2016-07-26 Knowles Electronics, Llc Microphone signal fusion
US10013996B2 (en) * 2015-09-18 2018-07-03 Qualcomm Incorporated Collaborative audio processing
US9875081B2 (en) 2015-09-21 2018-01-23 Amazon Technologies, Inc. Device selection for providing a response
US10186276B2 (en) * 2015-09-25 2019-01-22 Qualcomm Incorporated Adaptive noise suppression for super wideband music
US10152977B2 (en) * 2015-11-20 2018-12-11 Qualcomm Incorporated Encoding of multiple audio signals
CN105529034A (zh) * 2015-12-23 2016-04-27 北京奇虎科技有限公司 一种基于混响的语音识别方法和装置
US11234072B2 (en) 2016-02-18 2022-01-25 Dolby Laboratories Licensing Corporation Processing of microphone signals for spatial playback
CN105825865B (zh) * 2016-03-10 2019-09-27 福州瑞芯微电子股份有限公司 噪声环境下的回声消除方法及系统
CN105848061B (zh) * 2016-03-30 2021-04-13 联想(北京)有限公司 一种控制方法及电子设备
US10249305B2 (en) * 2016-05-19 2019-04-02 Microsoft Technology Licensing, Llc Permutation invariant training for talker-independent multi-talker speech separation
CN107564512B (zh) * 2016-06-30 2020-12-25 展讯通信(上海)有限公司 语音活动侦测方法及装置
US10045110B2 (en) * 2016-07-06 2018-08-07 Bragi GmbH Selective sound field environment processing system and method
CN106328156B (zh) * 2016-08-22 2020-02-18 华南理工大学 一种音视频信息融合的麦克风阵列语音增强系统及方法
CN106548783B (zh) * 2016-12-09 2020-07-14 西安Tcl软件开发有限公司 语音增强方法、装置及智能音箱、智能电视
CN106782591B (zh) * 2016-12-26 2021-02-19 惠州Tcl移动通信有限公司 一种在背景噪音下提高语音识别率的装置及其方法
WO2018121972A1 (en) * 2016-12-30 2018-07-05 Harman Becker Automotive Systems Gmbh Acoustic echo canceling
US10367948B2 (en) 2017-01-13 2019-07-30 Shure Acquisition Holdings, Inc. Post-mixing acoustic echo cancellation systems and methods
US10554822B1 (en) * 2017-02-28 2020-02-04 SoliCall Ltd. Noise removal in call centers
KR101811635B1 (ko) 2017-04-27 2018-01-25 경상대학교산학협력단 스테레오 채널 잡음 제거 장치 및 방법
CN110663258B (zh) * 2017-05-19 2021-08-03 铁三角有限公司 语音信号处理装置
CN107360496B (zh) * 2017-06-13 2023-05-12 东南大学 可根据环境自动调节音量的扬声器系统及调节方法
EP3422736B1 (en) 2017-06-30 2020-07-29 GN Audio A/S Pop noise reduction in headsets having multiple microphones
US10482904B1 (en) 2017-08-15 2019-11-19 Amazon Technologies, Inc. Context driven device arbitration
JP6345327B1 (ja) * 2017-09-07 2018-06-20 ヤフー株式会社 音声抽出装置、音声抽出方法および音声抽出プログラム
US20190090052A1 (en) * 2017-09-20 2019-03-21 Knowles Electronics, Llc Cost effective microphone array design for spatial filtering
CN107785029B (zh) * 2017-10-23 2021-01-29 科大讯飞股份有限公司 目标语音检测方法及装置
WO2019112468A1 (en) * 2017-12-08 2019-06-13 Huawei Technologies Co., Ltd. Multi-microphone noise reduction method, apparatus and terminal device
US10998617B2 (en) * 2018-01-05 2021-05-04 Byton Limited In-vehicle telematics blade array and methods for using the same
US10657981B1 (en) * 2018-01-19 2020-05-19 Amazon Technologies, Inc. Acoustic echo cancellation with loudspeaker canceling beamformer
US10755728B1 (en) * 2018-02-27 2020-08-25 Amazon Technologies, Inc. Multichannel noise cancellation using frequency domain spectrum masking
US10957337B2 (en) 2018-04-11 2021-03-23 Microsoft Technology Licensing, Llc Multi-microphone speech separation
CN108766456B (zh) * 2018-05-22 2020-01-07 出门问问信息科技有限公司 一种语音处理方法及装置
WO2019231632A1 (en) 2018-06-01 2019-12-05 Shure Acquisition Holdings, Inc. Pattern-forming microphone array
US11297423B2 (en) 2018-06-15 2022-04-05 Shure Acquisition Holdings, Inc. Endfire linear array microphone
CN108718402B (zh) * 2018-08-14 2021-04-13 四川易为智行科技有限公司 视频会议管理方法及装置
CN108986833A (zh) * 2018-08-21 2018-12-11 广州市保伦电子有限公司 基于麦克风阵列的拾音方法、系统、电子设备及存储介质
WO2020061353A1 (en) 2018-09-20 2020-03-26 Shure Acquisition Holdings, Inc. Adjustable lobe shape for array microphones
CN109410978B (zh) * 2018-11-06 2021-11-09 北京如布科技有限公司 一种语音信号分离方法、装置、电子设备及存储介质
US11195540B2 (en) * 2019-01-28 2021-12-07 Cirrus Logic, Inc. Methods and apparatus for an adaptive blocking matrix
CN109767783B (zh) * 2019-02-15 2021-02-02 深圳市汇顶科技股份有限公司 语音增强方法、装置、设备及存储介质
US11049509B2 (en) * 2019-03-06 2021-06-29 Plantronics, Inc. Voice signal enhancement for head-worn audio devices
US11955138B2 (en) * 2019-03-15 2024-04-09 Advanced Micro Devices, Inc. Detecting voice regions in a non-stationary noisy environment
US11558693B2 (en) 2019-03-21 2023-01-17 Shure Acquisition Holdings, Inc. Auto focus, auto focus within regions, and auto placement of beamformed microphone lobes with inhibition and voice activity detection functionality
CN113841419A (zh) 2019-03-21 2021-12-24 舒尔获得控股公司 天花板阵列麦克风的外壳及相关联设计特征
WO2020191380A1 (en) 2019-03-21 2020-09-24 Shure Acquisition Holdings,Inc. Auto focus, auto focus within regions, and auto placement of beamformed microphone lobes with inhibition functionality
TW202101422A (zh) 2019-05-23 2021-01-01 美商舒爾獲得控股公司 可操縱揚聲器陣列、系統及其方法
EP3977449A1 (en) 2019-05-31 2022-04-06 Shure Acquisition Holdings, Inc. Low latency automixer integrated with voice and noise activity detection
GB2585086A (en) * 2019-06-28 2020-12-30 Nokia Technologies Oy Pre-processing for automatic speech recognition
KR102226132B1 (ko) * 2019-07-23 2021-03-09 엘지전자 주식회사 헤드셋 및 그의 구동 방법
JP2022545113A (ja) 2019-08-23 2022-10-25 シュアー アクイジッション ホールディングス インコーポレイテッド 指向性が改善された一次元アレイマイクロホン
CN110992967A (zh) * 2019-12-27 2020-04-10 苏州思必驰信息科技有限公司 一种语音信号处理方法、装置、助听器及存储介质
US11552611B2 (en) 2020-02-07 2023-01-10 Shure Acquisition Holdings, Inc. System and method for automatic adjustment of reference gain
USD944776S1 (en) 2020-05-05 2022-03-01 Shure Acquisition Holdings, Inc. Audio device
KR20210142268A (ko) * 2020-05-18 2021-11-25 주식회사 엠피웨이브 강인음성인식을 위한 방향벡터 추정을 겸한 온라인 우도최대화를 이용한 빔포밍 방법 및 그 장치
US11706562B2 (en) 2020-05-29 2023-07-18 Shure Acquisition Holdings, Inc. Transducer steering and configuration systems and methods using a local positioning system
US11632782B2 (en) * 2020-06-29 2023-04-18 Qualcomm Incorporated Spatial filters in full duplex mode
CN113949976B (zh) * 2020-07-17 2022-11-15 通用微(深圳)科技有限公司 声音采集装置、声音处理设备及方法、装置、存储介质
CN113949978A (zh) * 2020-07-17 2022-01-18 通用微(深圳)科技有限公司 声音采集装置、声音处理设备及方法、装置、存储介质
CN116918351A (zh) 2021-01-28 2023-10-20 舒尔获得控股公司 混合音频波束成形系统
WO2023064750A1 (en) * 2021-10-12 2023-04-20 Qsc, Llc Multi-source audio processing systems and methods
CN114528525B (zh) * 2022-01-11 2023-03-28 西南交通大学 基于最大重加权峭度盲解卷积的机械故障诊断方法
CN114550734A (zh) * 2022-03-02 2022-05-27 上海又为智能科技有限公司 音频增强方法和装置、计算机存储介质
GB2622386A (en) * 2022-09-14 2024-03-20 Nokia Technologies Oy Apparatus, methods and computer programs for spatial processing audio scenes
CN116825076B (zh) * 2023-08-29 2023-11-07 荣耀终端有限公司 语音通话降噪方法、电子设备及可读存储介质

Family Cites Families (80)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4649505A (en) 1984-07-02 1987-03-10 General Electric Company Two-input crosstalk-resistant adaptive noise canceller
US4912767A (en) 1988-03-14 1990-03-27 International Business Machines Corporation Distributed noise cancellation system
US5327178A (en) 1991-06-17 1994-07-05 Mcmanigal Scott P Stereo speakers mounted on head
US5208786A (en) 1991-08-28 1993-05-04 Massachusetts Institute Of Technology Multi-channel signal separation
JPH05316587A (ja) 1992-05-08 1993-11-26 Sony Corp マイクロホン装置
US5251263A (en) 1992-05-22 1993-10-05 Andrea Electronics Corporation Adaptive noise cancellation and speech enhancement system and apparatus therefor
US5732143A (en) 1992-10-29 1998-03-24 Andrea Electronics Corp. Noise cancellation apparatus
US5383164A (en) 1993-06-10 1995-01-17 The Salk Institute For Biological Studies Adaptive system for broadband multisignal discrimination in a channel with reverberation
US5375174A (en) 1993-07-28 1994-12-20 Noise Cancellation Technologies, Inc. Remote siren headset
JP3146804B2 (ja) 1993-11-05 2001-03-19 松下電器産業株式会社 アレイマイクロホンおよびその感度補正装置
US5706402A (en) 1994-11-29 1998-01-06 The Salk Institute For Biological Studies Blind signal processing system employing information maximization to recover unknown signals through unsupervised minimization of output redundancy
US6002776A (en) 1995-09-18 1999-12-14 Interval Research Corporation Directional acoustic signal processor and method therefor
US5770841A (en) 1995-09-29 1998-06-23 United Parcel Service Of America, Inc. System and method for reading package information
US5675659A (en) 1995-12-12 1997-10-07 Motorola Methods and apparatus for blind separation of delayed and filtered sources
US6130949A (en) 1996-09-18 2000-10-10 Nippon Telegraph And Telephone Corporation Method and apparatus for separation of source, program recorded medium therefor, method and apparatus for detection of sound source zone, and program recorded medium therefor
CA2269027A1 (en) 1996-10-17 1998-04-23 Andrea Electronics Corporation Noise cancelling acoustical improvement to wireless telephone or cellular phone
US5999567A (en) 1996-10-31 1999-12-07 Motorola, Inc. Method for recovering a source signal from a composite signal and apparatus therefor
US7072476B2 (en) 1997-02-18 2006-07-04 Matech, Inc. Audio headset
FR2759824A1 (fr) 1997-02-18 1998-08-21 Philips Electronics Nv Systeme de separation de sources non stationnaires
US6496581B1 (en) * 1997-09-11 2002-12-17 Digisonix, Inc. Coupled acoustic echo cancellation system
US6167417A (en) 1998-04-08 2000-12-26 Sarnoff Corporation Convolutive blind source separation using a multiple decorrelation method
DE19822021C2 (de) 1998-05-15 2000-12-14 Siemens Audiologische Technik Hörgerät mit automatischem Mikrofonabgleich sowie Verfahren zum Betrieb eines Hörgerätes mit automatischem Mikrofonabgleich
US6654468B1 (en) 1998-08-25 2003-11-25 Knowles Electronics, Llc Apparatus and method for matching the response of microphones in magnitude and phase
DE19849739C2 (de) 1998-10-28 2001-05-31 Siemens Audiologische Technik Adaptives Verfahren zur Korrektur der Mikrofone eines Richtmikrofonsystems in einem Hörgerät sowie Hörgerät
US6898612B1 (en) 1998-11-12 2005-05-24 Sarnoff Corporation Method and system for on-line blind source separation
US6606506B1 (en) 1998-11-19 2003-08-12 Albert C. Jones Personal entertainment and communication device
US6343268B1 (en) 1998-12-01 2002-01-29 Siemens Corporation Research, Inc. Estimator of independent sources from degenerate mixtures
DE19859174C1 (de) * 1998-12-21 2000-05-04 Max Planck Gesellschaft Verfahren und Vorrichtung zur Verarbeitung rauschbehafteter Schallsignale
US6381570B2 (en) 1999-02-12 2002-04-30 Telogy Networks, Inc. Adaptive two-threshold method for discriminating noise from speech in a communication signal
CA2367579A1 (en) 1999-03-19 2000-09-28 Siemens Aktiengesellschaft Method and device for recording and processing audio signals in an environment filled with acoustic noise
US6526148B1 (en) 1999-05-18 2003-02-25 Siemens Corporate Research, Inc. Device and method for demixing signal mixtures using fast blind source separation technique based on delay and attenuation compensation, and for selecting channels for the demixed signals
US6424960B1 (en) 1999-10-14 2002-07-23 The Salk Institute For Biological Studies Unsupervised adaptation and classification of multiple classes and sources in blind signal separation
US6594367B1 (en) 1999-10-25 2003-07-15 Andrea Electronics Corporation Super directional beamforming design and implementation
US6549630B1 (en) 2000-02-04 2003-04-15 Plantronics, Inc. Signal expander with discrimination between close and distant acoustic source
JP2003527012A (ja) 2000-03-14 2003-09-09 オーディア テクノロジー インク 多重マイクロフォン方向システムにおける順応型マイクロフォン・マッチング
US20010038699A1 (en) 2000-03-20 2001-11-08 Audia Technology, Inc. Automatic directional processing control for multi-microphone system
US8903737B2 (en) 2000-04-25 2014-12-02 Accenture Global Service Limited Method and system for a wireless universal mobile product interface
US6879952B2 (en) 2000-04-26 2005-04-12 Microsoft Corporation Sound source separation using convolutional mixing and a priori sound source knowledge
US20030179888A1 (en) 2002-03-05 2003-09-25 Burnett Gregory C. Voice activity detection (VAD) devices and methods for use with noise suppression systems
US7027607B2 (en) 2000-09-22 2006-04-11 Gn Resound A/S Hearing aid with adaptive microphone matching
US7471798B2 (en) 2000-09-29 2008-12-30 Knowles Electronics, Llc Microphone array having a second order directional pattern
WO2002028140A2 (en) 2000-09-29 2002-04-04 Knowles Electronics, Llc Second order microphone array
JP4028680B2 (ja) 2000-11-01 2007-12-26 インターナショナル・ビジネス・マシーンズ・コーポレーション 観測データから原信号を復元する信号分離方法、信号処理装置、モバイル端末装置、および記憶媒体
US6462664B1 (en) * 2000-11-20 2002-10-08 Koninklijke Philips Electronics N.V. Baby monitor, system, and method and control of remote devices
US7206418B2 (en) 2001-02-12 2007-04-17 Fortemedia, Inc. Noise suppression for a wireless communication device
WO2002065735A2 (en) 2001-02-14 2002-08-22 Gentex Corporation Vehicle accessory microphone
AU2001258132A1 (en) 2001-05-23 2001-08-20 Phonak Ag Method of generating an electrical output signal and acoustical/electrical conversion system
US7123727B2 (en) 2001-07-18 2006-10-17 Agere Systems Inc. Adaptive close-talking differential microphone array
US8098844B2 (en) 2002-02-05 2012-01-17 Mh Acoustics, Llc Dual-microphone spatial noise suppression
WO2003107591A1 (en) 2002-06-14 2003-12-24 Nokia Corporation Enhanced error concealment for spatial audio
AU2003250464A1 (en) 2002-09-13 2004-04-30 Koninklijke Philips Electronics N.V. Calibrating a first and a second microphone
WO2004053839A1 (en) 2002-12-11 2004-06-24 Softmax, Inc. System and method for speech processing using independent component analysis under stability constraints
US7142682B2 (en) 2002-12-20 2006-11-28 Sonion Mems A/S Silicon-based transducer for use in hearing instruments and listening devices
KR100480789B1 (ko) 2003-01-17 2005-04-06 삼성전자주식회사 피드백 구조를 이용한 적응적 빔 형성방법 및 장치
EP1453348A1 (de) 2003-02-25 2004-09-01 AKG Acoustics GmbH Selbstkalibrierung von Arraymikrofonen
DE10310579B4 (de) 2003-03-11 2005-06-16 Siemens Audiologische Technik Gmbh Automatischer Mikrofonabgleich bei einem Richtmikrofonsystem mit wenigstens drei Mikrofonen
KR100486736B1 (ko) 2003-03-31 2005-05-03 삼성전자주식회사 두개의 센서를 이용한 목적원별 신호 분리방법 및 장치
US7203323B2 (en) 2003-07-25 2007-04-10 Microsoft Corporation System and process for calibrating a microphone array
US7424119B2 (en) 2003-08-29 2008-09-09 Audio-Technica, U.S., Inc. Voice matching system for audio transducers
US7099821B2 (en) 2003-09-12 2006-08-29 Softmax, Inc. Separation of target acoustic signals in a multi-transducer arrangement
US7515721B2 (en) 2004-02-09 2009-04-07 Microsoft Corporation Self-descriptive microphone array
KR100600313B1 (ko) 2004-02-26 2006-07-14 남승현 다중경로 다채널 혼합신호의 주파수 영역 블라인드 분리를 위한 방법 및 그 장치
US7415117B2 (en) 2004-03-02 2008-08-19 Microsoft Corporation System and method for beamforming using a microphone array
US7688985B2 (en) 2004-04-30 2010-03-30 Phonak Ag Automatic microphone matching
CN101023372B (zh) * 2004-09-23 2011-10-05 美商内数位科技公司 使用相关及非相关天线元件组合的盲信号分离
ATE405925T1 (de) 2004-09-23 2008-09-15 Harman Becker Automotive Sys Mehrkanalige adaptive sprachsignalverarbeitung mit rauschunterdrückung
US7190308B2 (en) 2004-09-23 2007-03-13 Interdigital Technology Corporation Blind signal separation using signal path selection
US7826624B2 (en) 2004-10-15 2010-11-02 Lifesize Communications, Inc. Speakerphone self calibration and beam forming
US7464029B2 (en) 2005-07-22 2008-12-09 Qualcomm Incorporated Robust separation of speech signals in a noisy environment
JP4701931B2 (ja) 2005-09-02 2011-06-15 日本電気株式会社 信号処理の方法及び装置並びにコンピュータプログラム
DE102005047047A1 (de) 2005-09-30 2007-04-12 Siemens Audiologische Technik Gmbh Mikrofonkalibrierung bei einem RGSC-Beamformer
US7813923B2 (en) 2005-10-14 2010-10-12 Microsoft Corporation Calibration based beamforming, non-linear adaptive filtering, and multi-sensor headset
JP2007156300A (ja) 2005-12-08 2007-06-21 Kobe Steel Ltd 音源分離装置、音源分離プログラム及び音源分離方法
JP4863713B2 (ja) * 2005-12-29 2012-01-25 富士通株式会社 雑音抑制装置、雑音抑制方法、及びコンピュータプログラム
CN1809105B (zh) 2006-01-13 2010-05-12 北京中星微电子有限公司 适用于小型移动通信设备的双麦克语音增强方法及系统
WO2007100330A1 (en) 2006-03-01 2007-09-07 The Regents Of The University Of California Systems and methods for blind source signal separation
US8898056B2 (en) 2006-03-01 2014-11-25 Qualcomm Incorporated System and method for generating a separated signal by reordering frequency components
US20070244698A1 (en) 2006-04-18 2007-10-18 Dugger Jeffery D Response-select null steering circuit
JP2007295085A (ja) * 2006-04-21 2007-11-08 Kobe Steel Ltd 音源分離装置及び音源分離方法
US20080175407A1 (en) 2007-01-23 2008-07-24 Fortemedia, Inc. System and method for calibrating phase and gain mismatches of an array microphone

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140120195A (ko) * 2013-04-02 2014-10-13 삼성전자주식회사 복수의 마이크로폰들을 구비하는 사용자 기기 및 그 동작 방법
KR20200103846A (ko) * 2018-01-23 2020-09-02 구글 엘엘씨 호출 구문 검출에서 노이즈 감소 기술의 선택적 적응 및 활용
KR20200142122A (ko) * 2018-01-23 2020-12-21 구글 엘엘씨 호출 구문 검출에서 노이즈 감소 기술의 선택적 적응 및 활용
US11417324B2 (en) 2018-01-23 2022-08-16 Google Llc Selective adaptation and utilization of noise reduction technique in invocation phrase detection
US11984117B2 (en) 2018-01-23 2024-05-14 Google Llc Selective adaptation and utilization of noise reduction technique in invocation phrase detection

Also Published As

Publication number Publication date
WO2009086017A1 (en) 2009-07-09
CN101903948B (zh) 2013-11-06
KR101172180B1 (ko) 2012-08-07
EP2229678A1 (en) 2010-09-22
CN101903948A (zh) 2010-12-01
TW200939210A (en) 2009-09-16
US8175291B2 (en) 2012-05-08
JP5479364B2 (ja) 2014-04-23
JP2011508533A (ja) 2011-03-10
US20090164212A1 (en) 2009-06-25

Similar Documents

Publication Publication Date Title
KR101172180B1 (ko) 멀티-마이크로폰 기반 스피치 향상을 위한 시스템들, 방법들, 및 장치
KR101228398B1 (ko) 향상된 명료도를 위한 시스템, 방법, 장치 및 컴퓨터 프로그램 제품
US8160273B2 (en) Systems, methods, and apparatus for signal separation using data driven techniques
KR101270854B1 (ko) 스펙트럼 콘트라스트 인핸스먼트를 위한 시스템, 방법, 장치, 및 컴퓨터 프로그램 제품
US8620672B2 (en) Systems, methods, apparatus, and computer-readable media for phase-based processing of multichannel signal
US7464029B2 (en) Robust separation of speech signals in a noisy environment
US8724829B2 (en) Systems, methods, apparatus, and computer-readable media for coherence detection
US7366662B2 (en) Separation of target acoustic signals in a multi-transducer arrangement
US20080208538A1 (en) Systems, methods, and apparatus for signal separation
EP3757993B1 (en) Pre-processing for automatic speech recognition

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
J201 Request for trial against refusal decision
AMND Amendment
B701 Decision to grant
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20160629

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20170629

Year of fee payment: 6

LAPS Lapse due to unpaid annual fee