KR20090123921A - 신호 분리를 위한 시스템, 방법 및 장치 - Google Patents

신호 분리를 위한 시스템, 방법 및 장치 Download PDF

Info

Publication number
KR20090123921A
KR20090123921A KR1020097020139A KR20097020139A KR20090123921A KR 20090123921 A KR20090123921 A KR 20090123921A KR 1020097020139 A KR1020097020139 A KR 1020097020139A KR 20097020139 A KR20097020139 A KR 20097020139A KR 20090123921 A KR20090123921 A KR 20090123921A
Authority
KR
South Korea
Prior art keywords
source
signal
channel
transducers
coefficient values
Prior art date
Application number
KR1020097020139A
Other languages
English (en)
Inventor
에릭 비제르
곽-렁 찬
현 진 박
Original Assignee
퀄컴 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 퀄컴 인코포레이티드 filed Critical 퀄컴 인코포레이티드
Publication of KR20090123921A publication Critical patent/KR20090123921A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating

Abstract

소스 분리를 위한 방법들, 장치들, 및 시스템들은 복수의 M채널 신호들 각각에 기초하는 수렴된 복수의 계수값들을 포함한다. 복수의 M채널 신호들 각각은 적어도 하나의 정보 소스 및 적어도 하나의 간섭 소스에 응답하여 M개의 트랜스듀서들에 의해 생성된 신호들에 기초한다. 일부 예에 있어서, 수렴된 복수의 계수값들은 M채널 신호를 필터링하여 정보 출력 신호 및 간섭 출력 신호를 생성하는데 이용된다.
소스 분리, 트레이닝 신호,

Description

신호 분리를 위한 시스템, 방법 및 장치{SYSTEMS, METHODS, AND APPARATUS FOR SIGNAL SEPARATION}
35 U.S.C.§119 하의 우선권 주장
본 특허출원은 "음향 신호들의 분리를 위한 시스템 및 방법 (SYSTEM AND METHOD FOR SEPARATION OF ACOUSTIC SIGNALS)" 의 명칭으로 2007년 2월 26일자로 출원된 가출원 제 60/891,677 호를 우선권 주장한다.
공동-계류 중인 특허출원에 대한 참조
본 특허출원은 다음의 공동-계류 중인 특허출원들에 관련된다.
"안정성 제약 하에서 독립 컴포넌트 분석을 이용하여 스피치 프로세싱하는 시스템 및 방법 (SYSTEM AND METHOD FOR SPEECH PROCESSING USING INDEPENDENT COMPONENT ANALYSIS UNDER STABILITY RESTRAINTS)" 의 명칭으로 2005년 6월 9일자로 출원된, Visser 등에 의한 미국특허출원 제 10/537,985 호; 및
"분리된 신호를 생성하는 시스템 및 방법 (SYSTEM AND METHOD FOR GENERATING A SEPARATED SIGNAL)" 의 명칭으로 2007년 2월 27일자로 출원된, Chan 등에 의한 국제특허출원 PCT/US2007/004966 호.
배경
기술분야
본 개시는 신호 프로세싱에 관한 것이다.
배경기술
정보 신호는, 불가피하게 노이즈있는 환경에서 포착될 수도 있다. 따라서, 정보 소스로부터의 신호 및 하나 이상의 간섭 소스들로부터의 신호들을 포함한 수개의 소스 신호들의 중첩 및 선형 조합 중으로부터 정보 신호를 구별하는 것이 바람직할 수도 있다. 그러한 문제는 음향 애플리케이션, 전자기 (예를 들어, 무선 주파수) 애플리케이션, 사이즈믹 (seismic) 애플리케이션, 및 이미징 애플리케이션과 같은 다양한 상이한 애플리케이션들에서 발생할 수도 있다.
그러한 혼합물로부터 신호를 분리하기 위한 일 접근법은, 혼합 환경의 역에 근사하는 분리 매트릭스 (unmixing matrix) 를 공식화하는 것이다. 하지만, 현실적인 포착 환경은 종종, 시간 지연, 다중경로, 반사, 위상차, 에코, 및/또는 잔향 (reverberation) 과 같은 영향들을 포함한다. 이러한 영향들은, 종래의 선형 모델링 방법들과의 문제를 야기할 수도 있고 또한 주파수 의존적일 수도 있는 소스 신호들의 컨볼루션식 혼합물 (convolutive mixture) 을 생성한다. 그러한 혼합물로부터 하나 이상의 원하는 신호들을 분리하는 신호 프로세싱 방법을 개발하는 것이 바람직하다.
개요
일 구성에 따른 신호 프로세싱 방법은 수렴된 소스 분리 필터 구조를 획득하기 위해, 복수의 M채널 트레이닝 신호들에 기초하여 소스 분리 필터 구조의 복수의 계수값들을 트레이닝하는 단계로서, M은 1보다 큰 정수인, 상기 트레이닝 단계; 및 수렴된 소스 분리 필터 구조가 복수의 M채널 트레이닝 신호들 각각을 적어도 정보 출력 신호 및 간섭 출력 신호로 충분히 분리하는지를 판정하는 단계를 포함한다. 이 방법에 있어서, 복수의 M채널 트레이닝 신호들 중 적어도 하나는 적어도 하나의 정보 소스 및 적어도 하나의 간섭 소스에 응답하여 M개의 트랜스듀서들에 의해 생성된 신호들에 기초하고 그 트랜스듀서들 및 소스들은 제 1 공간 구성으로 배열되며, 복수의 M채널 트레이닝 신호들 중 다른 하나는 적어도 하나의 정보 소스 및 적어도 하나의 간섭 소스에 응답하여 M개의 트랜스듀서들에 의해 생성된 신호들에 기초하고 그 트랜스듀서들 및 소스들은 제 1 공간 구성과는 상이한 제 2 공간 구성으로 배열된다.
다른 구성에 따른 신호 프로세싱 장치는 M개의 트랜스듀서들의 어레이로서, M은 1보다 큰 정수인, 상기 어레이; 및 트레이닝된 복수의 계수값들을 갖는 소스 분리 필터 구조를 포함한다. 이 장치에 있어서, 소스 분리 필터 구조는 M채널 신호를 실시간으로 필터링하여 실시간 정보 출력 신호를 획득하도록 구성되고, 트레이닝된 복수의 계수값들은 복수의 M채널 트레이닝 신호들에 기초하고, 복수의 M채널 트레이닝 신호들 중 하나는 적어도 하나의 정보 소스 및 적어도 하나의 간섭 소스에 응답하여 M개의 트랜스듀서들에 의해 생성된 신호들에 기초하고 그 트랜스듀서들 및 소스들은 제 1 공간 구성으로 배열되며, 복수의 M채널 트레이닝 신호들 중 다른 하나는 적어도 하나의 정보 소스 및 적어도 하나의 간섭 소스에 응답하여 M개의 트랜스듀서들에 의해 생성된 신호들에 기초하고 그 트랜스듀서들 및 소스들은 제 1 공간 구성과는 상이한 제 2 공간 구성으로 배열된다.
일 구성에 따른 컴퓨터-판독가능 매체는, 프로세서에 의해 실행될 경우, 그 프로세서로 하여금, 수렴된 소스 분리 필터 구조를 획득하기 위해, 복수의 M채널 트레이닝 신호들에 기초하여 소스 분리 필터 구조의 복수의 계수값들을 트레이닝하게 하고, 수렴된 소스 분리 필터 구조가 복수의 M채널 트레이닝 신호들 각각을 적어도 정보 출력 신호 및 간섭 출력 신호로 충분히 분리하는지를 판정하게 하는 명령들을 포함하며, 여기서, M은 1보다 큰 정수이다. 이 매체에 있어서, 복수의 M채널 트레이닝 신호들 중 적어도 하나는 적어도 하나의 정보 소스 및 적어도 하나의 간섭 소스에 응답하여 M개의 트랜스듀서들에 의해 생성된 신호들에 기초하고 그 트랜스듀서들 및 소스들은 제 1 공간 구성으로 배열되며, 복수의 M채널 트레이닝 신호들 중 다른 하나는 적어도 하나의 정보 소스 및 적어도 하나의 간섭 소스에 응답하여 M개의 트랜스듀서들에 의해 생성된 신호들에 기초하고 그 트랜스듀서들 및 소스들은 제 1 공간 구성과는 상이한 제 2 공간 구성으로 배열된다.
일 구성에 따른 신호 프로세싱 장치는 M개의 트랜스듀서들의 어레이로서, M은 1보다 큰 정수인, 상기 어레이; 및 트레이닝된 복수의 계수값들에 따라 소스 분리 필터링 동작을 수행하는 수단을 포함한다. 이 장치에 있어서, 소스 분리 필터링 동작을 수행하는 수단은 M채널 신호를 실시간으로 필터링하여 실시간 정보 출력 신호를 획득하도록 구성되고, 트레이닝된 복수의 계수값들은 복수의 M채널 트레이닝 신호들에 기초하고, 복수의 M채널 트레이닝 신호들 중 하나는 적어도 하나의 정보 소스 및 적어도 하나의 간섭 소스에 응답하여 M개의 트랜스듀서들에 의해 생성된 신호들에 기초하고 그 트랜스듀서들 및 소스들은 제 1 공간 구성으로 배열되며, 복수의 M채널 트레이닝 신호들 중 다른 하나는 적어도 하나의 정보 소스 및 적 어도 하나의 간섭 소스에 응답하여 M개의 트랜스듀서들에 의해 생성된 신호들에 기초하고 그 트랜스듀서들 및 소스들은 제 1 공간 구성과는 상이한 제 2 공간 구성으로 배열된다.
일 구성에 따른 신호 프로세싱 방법은 수렴된 소스 분리 필터 구조를 획득하기 위해, 복수의 M채널 트레이닝 신호들에 기초하여 소스 분리 필터 구조의 복수의 계수값들을 트레이닝하는 단계로서, M은 1보다 큰 정수인, 상기 트레이닝 단계; 및 수렴된 소스 분리 필터 구조가 복수의 M채널 트레이닝 신호들 각각을 적어도 정보 출력 신호 및 간섭 출력 신호로 충분히 분리하는지를 판정하는 단계를 포함한다. 이 방법에 있어서, 복수의 M채널 트레이닝 신호들 각각은 적어도 하나의 정보 소스 및 적어도 하나의 간섭 소스에 응답하여 M개의 트랜스듀서들에 의해 생성된 신호들에 기초하고, 복수의 M채널 트레이닝 신호들 중 적어도 2개는 (A) 적어도 하나의 정보 소스의 공간 특성, (B) 적어도 하나의 간섭 소스의 공간 특성, (C) 적어도 하나의 정보 소스의 스펙트럼 특성, 및 (D) 적어도 하나의 간섭 소스의 스펙트럼 특성 중 적어도 하나에 대해 상이하며, 소스 분리 필터 구조의 복수의 계수값들을 트레이닝하는 상기 단계는 독립 벡터 분석 알고리즘 및 제한된 독립 벡터 분석 알고리즘 중 적어도 하나에 따라 복수의 계수값들을 업데이트하는 단계를 포함한다.
다른 구성에 따른 신호 프로세싱 장치는 M개의 트랜스듀서들의 어레이로서, M은 1보다 큰 정수인, 상기 어레이; 및 트레이닝된 복수의 계수값들을 갖는 소스 분리 필터 구조를 포함한다. 이 장치에 있어서, 소스 분리 필터 구조는 M채널 신호를 실시간으로 필터링하여 실시간 정보 출력 신호를 획득하도록 구성되고, 트 레이닝된 복수의 계수값들은 복수의 M채널 트레이닝 신호들에 기초하고, 복수의 M채널 트레이닝 신호들 각각은 적어도 하나의 정보 소스 및 적어도 하나의 간섭 소스에 응답하여 M개의 트랜스듀서들에 의해 생성된 신호들에 기초하고, 복수의 M채널 트레이닝 신호들 중 적어도 2개는 (A) 적어도 하나의 정보 소스의 공간 특성, (B) 적어도 하나의 간섭 소스의 공간 특성, (C) 적어도 하나의 정보 소스의 스펙트럼 특성, 및 (D) 적어도 하나의 간섭 소스의 스펙트럼 특성 중 적어도 하나에 대해 상이하며, 트레이닝된 복수의 계수값들은 독립 벡터 분석 알고리즘 및 제한된 독립 벡터 분석 알고리즘 중 적어도 하나에 따라 복수의 계수값들을 업데이트하는 것에 기초한다.
도면의 간단한 설명
도 1a 는 개시된 일반 구성에 따른 수렴된 필터 구조를 생성하기 위한 방법 (M100) 의 흐름도를 도시한 것이다.
도 1b 는 방법 (M200) 의 일 구현 (M200) 의 흐름도를 도시한 것이다.
도 2 는 트레이닝 데이터의 레코딩을 위해 구성된 음향 무반향 (anechoic) 챔버의 일 예를 도시한 것이다.
도 3a 및 도 3b 는 2개의 상이한 동작 구성에 있어서의 이동 사용자 단말기의 일 예를 도시한 것이다.
도 4a 및 도 4b 는 2개의 상이한 트레이닝 시나리오에 있어서 도 3a 및 도 3b 의 이동 사용자 단말기를 도시한 것이다.
도 5a 및 도 5b 는 2개의 또 다른 상이한 트레이닝 시나리오에 있어서 도 3a 및 도 3b 의 이동 사용자 단말기를 도시한 것이다.
도 6 은 헤드셋의 일 예를 도시한 것이다.
도 7 은 마이크로폰들의 선형 어레이를 갖는 기입 기구 (예를 들어, 펜) 또는 스타일러스의 일 예를 도시한 것이다.
도 8 은 핸즈프리 차량 키트의 일 예를 도시한 것이다.
도 9 는 도 8 의 차량 키트의 애플리케이션의 일 예를 도시한 것이다.
도 10a 는 피드백 필터 구조를 포함하는 소스 분리기 (F10) 의 일 구현 (F100) 의 블록도를 도시한 것이다.
도 10b 는 소스 분리기 (F100) 의 일 구현 (F110) 의 블록도를 도시한 것이다.
도 11 은 3채널 입력 신호를 프로세싱하도록 구성되는 소스 분리기 (F100) 의 일 구현 (F120) 의 블록도를 도시한 것이다.
도 12 는 크로스 필터들 (C110 및 C120) 의 구현들 (C112 및 C122) 을 포함하는 소스 분리기 (F100) 의 일 구현 (F102) 의 블록도를 도시한 것이다.
도 13 은 스케일링 팩터들을 포함하는 소스 분리기 (F100) 의 일 구현 (F104) 의 블록도를 도시한 것이다.
도 14 는 피드포워드 필터 구조를 포함하는 소스 분리기 (F10) 의 일 구현 (F200) 의 블록도를 도시한 것이다.
도 15a 는 TSS (F200) 의 일 구현 (F210) 의 블록도를 도시한 것이다.
도 15b 는 TSS (F200) 의 일 구현 (F220) 의 블록도를 도시한 것이다.
도 16 은 헤드셋 애플리케이션에 대한 수렴된 솔루션의 플롯의 일 예를 도시한 것이다.
도 17 은 기입 디바이스 애플리케이션에 대한 수렴된 솔루션의 플롯의 일 예를 도시한 것이다.
도 18a 는 캐스케이드 구성으로 배열된 소스 분리기 (F10) 의 2개의 인스턴스들 (F10a 및 F10b) 을 포함하는 장치 (A100) 의 블록도를 도시한 것이다.
도 18b 는 스위치 (S100) 를 포함하는 장치 (A100) 의 일 구현 (A110) 의 블록도를 도시한 것이다.
도 19a 는 일반 구성에 따른 장치 (A200) 의 블록도를 도시한 것이다.
도 19b 는 일반 구성에 따른 장치 (A300) 의 블록도를 도시한 것이다.
도 20a 는 스위치 (S100) 를 포함하는 장치 (A300) 의 일 구현 (A310) 의 블록도를 도시한 것이다.
도 20b 는 장치 (A300) 의 일 구현 (A320) 의 블록도를 도시한 것이다.
도 21a 는 장치 (A300) 및 장치 (A100) 의 일 구현 (A330) 의 블록도를 도시한 것이다.
도 21b 는 장치 (A300) 의 일 구현 (A340) 의 블록도를 도시한 것이다.
도 22a 는 일반 구성에 따른 장치 (A400) 의 블록도를 도시한 것이다.
도 22b 는 장치 (A400) 의 일 구현 (A410) 의 블록도를 도시한 것이다.
도 23a 는 일반 구성에 따른 장치 (A500) 의 블록도를 도시한 것이다.
도 23b 는 장치 (A500) 의 일 구현 (A510) 의 블록도를 도시한 것이다.
도 24a 는 에코 소거기 (B502) 의 블록도를 도시한 것이다.
도 24b 는 에코 소거기 (B502) 의 일 구현 (B504) 의 블록도를 도시한 것이다.
상세한 설명
본 명세서에서 개시된 시스템, 방법, 및 장치는 음향 신호들 (예를 들어, 스피치, 사운드, 초음파, 소나), 생리학적 신호들 또는 다른 의학적 신호들 (예를 들어, 심전계, 전자 뇌파계, 자기 뇌파계), 및 이미징 신호들 및/또는 레인징 신호들 (예를 들어, 자기 공명, 레이더, 사이즈믹) 을 포함한 다수의 상이한 타입의 신호들을 프로세싱하도록 적응될 수도 있다. 그러한 시스템, 방법, 및 장치에 대한 애플리케이션들은 스피치 특성 추출, 스피치 인식, 및 스피치 프로세싱에 있어서의 이용을 포함한다.
다음 설명에 있어서, 심볼 i 는 2가지 상이한 방식으로 사용된다. 인수 (factor) 로서 사용될 경우, 심볼 i 는 -1 의 허수 제곱근을 나타낸다. 또한, 심볼 i 는 매트릭스의 컬럼 또는 벡터의 엘리먼트와 같이 인덱스를 나타내는데 사용된다. 이들 양자의 사용은 당업계에서 일반적이며, 당업자는, 심볼 i 의 각각의 예가 나타나는 컨텍스트로부터 2가지 중 어떠한 하나가 의도되는지를 인식할 것이다.
다음 설명에 있어서, 매트릭스 X 에 적용되는 바와 같은 표기 diag(X) 는 대각선이 X 의 대각선과 동일하고 다른 값들이 제로인 매트릭스를 나타낸다.
그 컨텍스트에 의해 명백하게 한정되지 않는다면, 용어 "신호" 는 와이어, 버스, 또는 다른 송신 매체 상에서 표현되는 바와 같은 메모리 위치 (또는 메모리 위치들의 세트) 의 상태를 포함하여 임의의 그 통상적인 의미들을 나타내도록 본 명세서에서 사용된다. 그 컨텍스트에 의해 명백하게 한정되지 않는다면, 용어 "발생" 은 연산 또는 그렇지 않으면 생성과 같은 임의의 그 통상적인 의미들을 나타내도록 본 명세서에서 사용된다. 그 컨텍스트에 의해 명백하게 한정되지 않는다면, 용어 "계산" 은 값들의 세트로부터의 연산, 평가, 및/또는 선택과 같은 임의의 그 통상적인 의미들을 나타내도록 본 명세서에서 사용된다. 그 컨텍스트에 의해 명백하게 한정되지 않는다면, 용어 "획득" 은 (예를 들어, 외부 디바이스로부터의) 계산, 유도, 수신, 및/또는 (예를 들어, 저장 엘리먼트들의 어레이로부터의) 취출과 같은 임의의 그 통상적인 의미들을 나타내도록 사용된다. 용어 "구비하는" 이 본 설명 및 특허청구범위에서 사용될 경우, 다른 엘리먼트들 또는 동작들을 배제하지는 않는다. 용어 ("A 는 B 에 기초한다" 에서와 같이) "기초하는" 은 (i) "적어도 기초하는" (예를 들어, "A 는 적어도 B 에 기초한다"), 및 특정 컨텍스트에서 적절하다면, (ii) "동일한" (예를 들어, "A 는 B 와 동일하다") 경우들을 포함하여 임의의 그 통상적인 의미들을 나타내도록 사용된다.
다른 방법으로 나타내지 않는다면, 특정한 특성을 갖는 장치의 동작의 임의의 개시는 또한 유사한 특성을 갖는 방법을 개시하도록 명백히 의도되며 (그 역도 성립), 특정한 구성에 따른 장치의 동작의 임의의 개시는 또한 유사한 구성에 따른 방법을 개시하도록 명백히 의도된다 (그 역도 성립).
도 1a 는 개시된 일반 구성에 따른 수렴된 필터 구조를 생성하기 위한 방법 (M100) 의 흐름도를 도시한 것이다. 복수의 M채널 신호들 (여기서, M 은 1보다 큼) 에 기초하여, 태스크 (T110) 는 소스 분리 필터 구조의 복수의 필터 계수값들을 트레이닝하여 수렴된 소스 분리 필터 구조를 획득한다. 태스크 (T120) 는 수렴된 필터 구조가 복수의 M채널 신호들 각각을 적어도 정보 출력 신호 및 간섭 출력 신호로 충분히 분리하는지를 판정한다.
당업자는, 복수의 계수값들을 트레이닝하는 것이 적응 알고리즘에 기초하여 복수의 계수값들을 업데이트하는 것을 포함할 수도 있음을 인식한다. 적응 알고리즘의 예는 소스 분리 알고리즘이다. 일련의 P개의 M채널 신호들이 포착된 후, 각각의 (제 1 및 제 2 의) 복수의 계수값들이 "업데이트"된다. 제 3 의 복수의 계수값들이 태스크 (T130) 에 있어서의 판정에 기초하여 "학습 (learn)" 또는 "적응" 또는 "수렴" (종종, 이들 용어들은 동의어로 사용됨) 될 수도 있다. 통상의 애플리케이션에 있어서, 태스크들 (T110, T120, 및 T130; 그리고 가능하게는 하나 이상의 유사한 태스크들) 은 오프라인에서 연속적으로 실행되어 수렴된 복수의 계수값들을 획득하고, 태스크 (T140) 는 오프라인에서, 또는 온라인에서, 또는 오프라인 및 온라인 양자에서 수행되어, 수렴된 복수의 계수값들에 기초하여 신호를 필터링할 수도 있다.
방법 (M100) 에 있어서, M채널 트레이닝 신호들은 적어도 하나의 정보 소스 및 적어도 하나의 간섭 소스에 응답하여 적어도 M개의 트랜스듀서들에 의해 각각 포착된다. 트랜스듀서 신호들은 통상적으로 샘플링되고, 사전-프로세싱 (pre-process; 예를 들어, 에코 소거, 노이즈 감소, 스펙트럼 셰이핑 등을 위해 필터링 됨) 될 수도 있으며, 심지어 (예를 들어, 본 명세서에서 설명되는 바와 같은 적응 필터 또는 다른 소스 분리기에 의해) 사전-분리될 수도 있다. 스피치와 같은 음향 애플리케이션에 있어서, 통상의 샘플링 레이트는 8kHz 내지 16kHz 의 범위이다.
M개의 채널들 각각은 M개의 트랜스듀서들 중 대응하는 트랜스듀서의 출력에 기초한다. 특정 애플리케이션에 의존하여, M개의 트랜스듀서들은 음향 신호들, 전자기 신호들, 진동, 또는 다른 현상을 감지하도록 설계될 수도 있다. 예를 들어, 안테나는 전자기파를 감지하기 위해 사용될 수도 있으며, 마이크로폰은 음향파를 감지하기 위해 사용될 수도 있다. 트랜스듀서는 전방향성, 양방향성, 또는 단방향성 (예를 들어, 심장형) 인 응답을 가질 수도 있다. 음향 애플리케이션에 있어서, 이용될 수도 있는 다양한 타입의 트랜스듀서들은 압전식 마이크로폰, 동적 마이크로폰, 및 일렉트릿 (electret) 마이크로폰을 포함한다.
복수의 P개의 M채널 트레이닝 신호들은, 각각, P개의 시나리오들 중 상이한 대응하는 시나리오 하에서 포착된 (예를 들어, 레코드된) 입력 데이터에 기초하며, 여기서, P 는 2 와 동일할 수도 있지만 일반적으로 1보다 큰 정수이다. 일 시나리오는 상이한 공간 특성 (예를 들어, 상이한 핸드셋 또는 헤드셋 배향) 및/또는 상이한 스펙트럼 특성 (예를 들어, 상이한 특성들을 가질 수도 있는 사운드 소스들의 포착) 을 포함할 수도 있다. 예를 들어, 사운드 소스들은 노이즈와 유사 (스트리트 (street) 노이즈, 누화 (babble) 노이즈, 주변 노이즈 등) 할 수도 있거나, 또는 음성 또는 음악 기구를 포함할 수도 있다. 사운드 소스로부터의 음파 는 벽 또는 인근 물체에서 바운드하거나 반사하여 상이한 사운드들을 생성할 수도 있다. 당업자는, 용어 "사운드 소스" 가 또한 오리지널 사운드 소스의 표시뿐 아니라 오리지널 사운드 소스 이외의 상이한 사운드들을 나타내는데 이용될 수도 있음을 이해한다. 애플리케이션에 의존하여, 사운드 소스는 정보 소스 또는 간섭 소스로서 지정될 수도 있다.
도 4a, 도 4b, 도 5a 및 도 5b 는 P개의 시나리오들 중 일 시나리오에서 이용될 수도 있는 핸드셋의 상이한 예시적인 배향을 도시한 것이다. 상이한 헤드셋 배향을 포착하기 위한 N개의 상이한 배향들이 존재할 수도 있으며, 여기서, N 은 2 와 동일할 수도 있지만 일반적으로 1보다 큰 정수이다. 도 6 은 P개의 시나리오들 중 일 시나리오에서 이용될 수도 있는 헤드셋의 예시적인 배향을 도시한 것이다. 헤드셋 가변도를 변경함으로써, H개의 상이한 배향이 상이한 헤드셋 배향을 포착하는데 이용될 수도 있다. 헤드셋 또는 핸드셋은 적어도 M개의 트랜스듀서를 가질 수도 있다.
방법 (M100) 의 복수의 M채널 트레이닝 신호들은 상이한 각각의 시나리오에 대해 상이한 배향 (즉, H 또는 N) 에서 신호들 (즉, 다양한 사운드 소스들) 의 별개의 시간 간격의 입력을 나타낼 수도 있다.
도 1b 는 방법 (M100) 의 일 구현 (M200) 의 흐름도를 도시한 것이다. 방법 (M200) 은 수렴된 필터 구조의 트레이닝된 복수의 계수값들에 기초하여, M채널 신호를 실시간으로 필터링하는 태스크 (T130) 를 포함한다.
통상적인 경우, M채널 신호는, 본 명세서에서 M채널 혼합 신호로서 표시되는 M채널 (부분 또는 전체) 혼합 신호를 나타낸다. 비교적 조용한 환경에 있어서의 통상의 스피치인 경우에서도, M채널 신호는 혼합 신호로서 취급될 수도 있음을 유의해야 한다. 그 경우, 예를 들어, 오직 미소한 (예를 들어, 간섭 소스의) 주변 노이즈만이 존재하고 사람이 (예를 들어, 정보 소스에 대해) 말하고 있다면, 부분 혼합은 매우 낮다고 할 수도 있다.
동일한 M개의 트랜스듀서들은, 일련의 M채널 신호들 모두가 기초하는 신호들을 포착하는데 이용될 수도 있다. 대안적으로, 그 일련의 M채널 신호들 중 하나의 신호가 기초하는 신호를 포착하는데 이용된 M개의 트랜스듀서들의 세트가 그 일련의 M채널 신호들 중 다른 신호가 기초하는 신호를 포착하는데 이용된 M개의 트랜스듀서들의 세트와는 (그 트랜스듀서들 중 하나 이상에서) 상이한 것이 바람직할 수도 있다. 예를 들어, 트랜스듀서들 중에서 어느 정도의 변동에 강인한 복수의 계수값들을 생성하기 위해 트랜스듀서들의 상이한 세트를 이용하는 것이 바람직할 수도 있다.
P개의 시나리오들 각각은 적어도 하나의 정보 소스 및 적어도 하나의 간섭 소스를 포함한다. 통상적으로, 각각의 정보 소스는 특정 애플리케이션에 적절한 신호를 재생하는 트랜스듀서이고 각각의 간섭 소스는 특정 애플리케이션에서 기대될 수도 있는 타입의 간섭을 재생하는 트랜스듀서이도록, 이들 소스들 각각은 트랜스듀서이다. 음향 애플리케이션에 있어서, 예를 들어, 각각의 정보 소스는 스피치 신호 또는 음악 신호를 재생하는 확성기일 수도 있고, 각각의 간섭 소스는 통상의 기대된 환경으로부터의 다른 스피치 신호 또는 주변 배경 사운드와 같은 간 섭성 음향 신호 또는 노이즈 신호를 재생하는 확성기일 수도 있다. 음향 애플리케이션에 있어서, P개의 시나리오들 각각에서 M개의 트랜스듀서로부터의 입력 데이터의 레코딩 또는 포착은 M채널 테이프 레코더, M채널 사운드 레코딩 또는 포착 능력을 갖는 컴퓨터, 또는 M개의 트랜스듀서의 출력을 (예를 들어, 샘플링 해상도의 순서 내에서) 동시에 레코딩 또는 포착할 수 있는 다른 디바이스를 이용하여 수행될 수도 있다.
도 2 는 트레이닝 데이터의 레코딩을 위해 구성된 음향 무반향 챔버의 일 예를 도시한 것이다. 음향 무반향 챔버는 일련의 M채널 신호들이 기초하는 트레이닝용 신호들을 포착하는데 이용될 수도 있다. 이 예에 있어서, HATS (Head and Torso Simulator, 덴마크 나에럼 소재의 Bruel & Kjaer 에 의해 제조) 가 간섭 소스들의 내향-포커싱 (inward-focused) 어레이 (즉, 4개의 확성기들) 내에 위치된다. 그 경우, 간섭 소스들의 어레이는, 도시된 바와 같이 HATS 를 둘러싸는 확산 노이즈 필드 (diffuse noise field) 를 생성하도록 강제될 수도 있다. 다른 경우, 하나 이상의 그러한 간섭 소스들은 상이한 공간 분포를 갖는 노이즈 필드 (예를 들어, 지향성 노이즈 필드) 를 생성하도록 강제될 수도 있다.
사용될 수도 있는 노이즈 신호들의 타입은 화이트 노이즈, 핑크 노이즈, 그레이 노이즈, 및 (예를 들어, 뉴저지 피스카타웨이 소재의 IEEE (Institute of Electrical and Electronics Engineers) 에 의해 공포된 바와 같은 IEEE 표준 269-2001 "Draft Standard Methods for Measuring Transmission Performance of Analog and Digital Telephone Sets, Handsets and Headsets" 에 설명된 바와 같은) Hoth 노이즈를 포함한다. 특별히 비-음향 애플리케이션에 사용될 수도 있는 다른 타입의 노이즈 신호들은 브라운 (brown) 노이즈, 블루 노이즈, 및 퍼플 노이즈를 포함한다.
P개의 시나리오들은 적어도 하나의 공간 및/또는 스펙트럼 특성의 관점에서 서로 상이하다. 소스들 및 레코딩 트랜스듀서들의 공간 구성은 다음의 방식들, 즉, 다른 소스 또는 소스들에 대한 일 소스의 배치 및/또는 배향, 다른 레코딩 트랜스듀서 또는 트랜스듀서들에 대한 일 레코딩 트랜스듀서의 배치 및/또는 배향, 레코딩 트랜스듀서들에 대한 소스들의 배치 및/또는 배향, 및 소스들에 대한 레코딩 트랜스듀서들의 배치 및/또는 배향 중 임의의 하나 이상의 방식으로 시나리오에 따라 변할 수도 있다. 예를 들어, 복수의 P개의 시나리오들 중 적어도 2개는 트랜스듀서들 및 소스들의 상이한 공간 구성에 대응하여, 그 트랜스듀서들 및 소스들 중 적어도 하나가 다른 시나리오에서의 위치 또는 배향과는 상이한 일 시나리오에서의 위치 또는 배향을 가질 수도 있다.
시나리오에 따라 변할 수도 있는 스펙트럼 특성은 적어도 하나의 소스 신호 (예를 들어, 상이한 음성으로부터의 스피치, 상이한 컬러의 노이즈) 의 스펙트럼 컨텐츠, 및 하나 이상의 레코딩 트랜스듀서들의 주파수 응답을 포함한다. 상기 기술된 바와 같은 하나의 특정 예에 있어서, 시나리오들 중 적어도 2개는 레코딩 트랜스듀서들 중 적어도 하나에 대해 상이하다. 그러한 변동은 트랜스듀서 주파수 및/또는 위상 응답에 있어서의 변경의 기대된 범위에 걸쳐 강인한 솔루션을 지원하기에 바람직할 수도 있다.
다른 특정 예에 있어서, 시나리오들 중 적어도 2개는 배경 노이즈를 포함하며, 배경 노이즈의 시그너처 (즉, 주파수 및/또는 시간에 대한 노이즈의 통계) 에 대해 상이하다. 그러한 경우, 간섭 소스들은 P개의 시나리오들 중 일 시나리오에서 일 컬러 (예를 들어, 화이트, 핑크 또는 Hoth) 또는 타입 (예를 들어, 스트리트 노이즈, 누화 노이즈 또는 차량 노이즈의 재생물) 의 노이즈를 방출하고, P개의 시나리오들 중 다른 시나리오에서 다른 컬러 또는 타입의 노이즈를 방출하도록 구성될 수도 있다.
P개의 시나리오들 중 적어도 2개는 실질적으로 상이한 스펙트럼 컨텐츠를 갖는 신호들을 생성하는 정보 소스들을 포함할 수도 있다. 스피치 애플리케이션에 있어서, 예를 들어, 2개의 상이한 시나리오들에 있어서의 정보 신호들은 10%, 20%, 30%, 또는 심지어 50% 이상 만큼 상이한 평균 피치 (즉, 그 시나리오의 길이에 걸쳐) 를 갖는 음성일 수도 있다. 시나리오에 따라 변할 수도 있는 다른 특성은 다른 소스 또는 소스들에 대한 일 소스의 출력 진폭이다. 시나리오에 따라 변할 수도 있는 다른 특성은 다른 레코딩 트랜스듀서 또는 트랜스듀서들에 대한 일 레코딩 트랜스듀서의 이득 감도이다.
이하 설명되는 바와 같이, P개의 M채널 트레이닝 신호들은 수렴된 복수의 계수값들을 획득하는데 사용된다. P개의 트레이닝 신호들 각각의 지속기간은 트레이닝 동작의 기대된 수렴 레이트에 기초하여 선택될 수도 있다. 예를 들어, 수렴을 향한 현저한 진행을 허용하기에 충분하게 길지만 다른 M채널 트레이닝 신호들이 또한 수렴된 솔루션에 실질적으로 기여하게 하기에 충분히 짧은 각 트레이닝 신호의 지속기간을 선택하는 것이 바람직할 수도 있다. 통상적인 음향 애플리케이션에 있어서, P개의 M채널 트레이닝 신호들 각각은 약 0.5 또는 1초 내지 약 5 또는 10 초간 지속된다. 통상적인 트레이닝 동작에 있어서, M채널 트레이닝 신호들의 사본은 랜덤 순서로 연접되어, 트레이닝에 사용될 사운드 파일을 획득한다.
애플리케이션들의 하나의 특정 세트에 있어서, M개의 트랜스듀서들은 셀룰러 전화 핸드셋과 같은 무선 통신용 휴대형 디바이스의 마이크로폰들이다. 도 3a 및 도 3b 는 하나의 그러한 디바이스 (50) 의 2개의 상이한 동작 구성을 도시한 것이다. 이 특정 예에 있어서, M 은 3과 같다 (주 마이크로폰 (53) 및 2개의 보조 마이크로폰 (54)). 도 3a 에 도시된 핸즈프리 동작 구성에 있어서, 원단 (far-end) 신호가 스피커 (51) 에 의해 재생되고, 도 4a 및 도 4b 는 사용자의 입에 대한 디바이스의 2개의 상이한 가능한 배향을 도시한 것이다. M채널 트레이닝 신호들 중 일 신호가 이들 2개의 구성 중 하나에 있어서의 마이크로폰들에 의해 생성된 신호들에 기초하고 또한 M채널 트레이닝 신호들 중 다른 신호가 이들 2개의 구성 중 다른 하나에 있어서의 마이크로폰들에 의해 생성된 신호들에 기초하는 것이 바람직할 수도 있다.
도 3b 에 도시된 통상의 동작 구성에 있어서, 원단 신호는 수신기 (52) 에 의해 재생되고, 도 5a 및 도 5b 는 사용자의 입에 대한 디바이스의 2개의 상이한 가능한 배향을 도시한 것이다. M채널 트레이닝 신호들 중 일 신호가 이들 2개의 구성 중 하나에 있어서의 마이크로폰들에 의해 생성된 신호들에 기초하고 또한 M채널 트레이닝 신호들 중 다른 신호가 이들 2개의 구성 중 다른 하나에 있어서의 마이크로폰들에 의해 생성된 신호들에 기초하는 것이 바람직할 수도 있다.
일 예에 있어서, 방법 (M100) 은 도 3a 의 핸즈프리 동작 구성에 대한 트레이닝된 복수의 계수값들, 및 도 3b 의 통상의 동작 구성에 대한 다른 트레이닝된 복수의 계수값들을 생성하도록 구현된다. 방법 (M100) 의 그러한 구현은 태스크 (T110) 의 일 인스턴스를 실행하여 트레이닝된 복수의 계수값들 중 하나를 생성하고, 태스크 (T110) 의 다른 인스턴스를 실행하여 다른 트레이닝된 복수의 계수값들을 생성하도록 구성될 수도 있다. 그 경우, 방법 (M200) 의 태스크 (T130) 는 (예를 들어, 디바이스가 개방 또는 폐쇄인지를 나타내는 스위치의 상태에 따라) 2개의 트레이닝된 복수의 계수값들 중에서 런타임으로 선택하도록 구성될 수도 있다. 대안적으로, 방법 (M100) 은 도 4a, 도 4b, 도 5a 및 도 5b 에 도시된 4개의 배향들 각각에 따라 복수의 계수값들을 연속적으로 업데이트함으로써 단일의 트레이닝된 복수의 계수값들을 생성하도록 구현될 수도 있다.
이러한 스피치 애플리케이션에 있어서의 P개의 트레이닝 시나리오들 각각에 있어서, 정보 신호는 (IEEE Transactions on Audio and Electroacoustics, vol.17, pp.227-46, 1969 의 스피치 품질 측정에 대한 IEEE 권고 프랙티스 (IEEE Recommended Practices for Speech Quality Measurements) 에 설명된 바와 같은) 하나 이상의 하버드 문장 (Harvard Sentence) 과 같은 음성 발화 표준화 어휘를 사용자의 입으로부터 재생함으로써 M개의 트랜스듀서들에 제공될 수도 있다. 하나의 그러한 예에 있어서, 스피치는 HATS 의 입 확성기로부터 89 dB 의 사운드 압력 레벨로 재생된다. P개의 트레이닝 시나리오들 중 적어도 2개는 이 정보 신 호에 대해 서로 상이할 수도 있다. 예를 들어, 상이한 시나리오들이 실질적으로 상이한 피치를 갖는 음성을 사용할 수도 있다. 부가적으로 또는 대안적으로, P개의 트레이닝 시나리오들 중 적어도 2개는 (예를 들어, 상이한 마이크로폰들의 응답에 있어서의 변동을 포착하기 위해) 핸드셋 디바이스의 상이한 인스턴스들을 이용할 수도 있다.
일 시나리오는 (예를 들어, 음성 발화 표준화 어휘에 의해) 핸드셋의 스피커를 구동시켜 지향성 간섭 소스를 제공하는 것을 포함한다. 도 3a 의 핸즈프리 동작 구성에 있어서, 그러한 시나리오는 구동 스피커 (51) 를 포함할 수도 있지만, 도 3b 의 통상의 동작 구성에 있어서, 그러한 시나리오는 구동 수신기 (52) 를 포함할 수도 있다. 일 시나리오는, 예를 들어, 도 2 에 도시된 바와 같은 간섭 소스들의 어레이에 의해 생성된 확산 노이즈 필드에 부가하여 또는 그 확산 노이즈 필드에 대안적으로 그러한 간섭 소스를 포함할 수도 있다. 하나의 그러한 예에 있어서, 확성기들의 어레이는 노이즈 신호들을 HATS 귀 레퍼런스 포인트 또는 입 레퍼런스 포인트에서 75 내지 78 dB 의 사운드 압력 레벨로 플레이백 (play back) 하도록 구성된다.
애플리케이션들의 다른 특정 세트에 있어서, M개의 트랜스듀서들은 유선 또는 무선 이어피스 (earpiece) 또는 다른 헤드셋의 마이크로폰들이다. 예를 들어, 그러한 디바이스는 (예를 들어, 워싱턴주 Bellevue 소재의 Bluetooth Special Interest Group, Inc.에 의해 공포된 바와 같은 Bluetooth™ 프로토콜의 버전을 사용하여) 셀룰러 전화 핸드셋과 같은 전화 디바이스와의 통신을 통해 하프 또는 풀- 듀플렉스 전화를 지원하도록 구성될 수도 있다. 도 6 은 사용자의 귀 (65) 에 착용되도록 구성된 그러한 헤드셋의 일 예 (63) 를 도시한 것이다. 헤드셋 (63) 은 사용자의 입 (64) 에 대해 엔드파이어 (endfire) 구성으로 배열된 2개의 마이크로폰 (67) 을 가진다.
그러한 헤드셋에 대한 트레이닝 시나리오들은 상기 핸드셋 애플리케이션에 대해 설명된 바와 같이 정보 소스 및/또는 간섭 소스의 임의의 조합을 포함할 수도 있다. P개의 트레이닝 시나리오들 중 상이한 시나리오들에 의해 모델링될 수도 있는 다른 차이는, 헤드셋 마운팅 가변도 (66) 에 의해 도 6 에 나타낸 바와 같이, 귀에 대한 트랜스듀서 축의 가변 각이다. 그러한 변동은 실제로 사용자에 따라 발생할 수도 있다. 그러한 변동은 디바이스를 착용하는 단일 주기 동안 동일한 사용자에 대해 균등할 수도 있다. 그러한 변동은 트랜스듀서 어레이로부터 사용자의 입까지의 방향 및 거리를 변경함으로써 신호 분리 성능에 악영향을 줄 수도 있음을 이해할 것이다. 그 경우, 복수의 M채널 트레이닝 신호들 중 일 신호는 헤드셋이 마운팅 각의 기대된 범위의 일 극단에서 또는 그 근방에서 귀 (65) 에 마운팅되는 시나리오에 기초하고, M채널 트레이닝 신호들 중 다른 신호는 헤드셋이 마운팅 각의 기대된 범위의 다른 극단에서 또는 그 근방에서 귀 (65) 에 마운팅되는 시나리오에 기초하는 것이 바람직할 수도 있다.
애플리케이션들의 또 다른 세트에 있어서, M개의 트랜스듀서들은 펜, 스타일러스, 또는 다른 기입 디바이스 내에 제공된 마이크로폰들이다. 도 7 은, 팁으로부터 도달하고 팁과 기입 표면 (81) 간의 접촉에 의해 야기되는 스크래칭 노이즈 (82) 에 대해 마이크로폰들 (80) 이 엔드파이어 구성으로 배치되는 그러한 디바이스의 일 예를 도시한 것이다. 그러한 디바이스에 대한 트레이닝 시나리오들은 상기 핸드셋 애플리케이션을 참조하여 설명된 바와 같이 정보 소스 및/또는 간섭 소스의 임의의 조합을 포함할 수도 있다. 부가적으로 또는 대안적으로, 상이한 시나리오들은 상이한 표면들에 걸쳐 디바이스 (79) 의 팁으로 기입하여 (예를 들어, 시간 및/또는 주파수에 있어서 상이한 시그너처들을 갖는) 스크래칭 노이즈 (82) 의 다른 인스턴스들을 도출하는 것을 포함할 수도 있다. 상기 기술된 핸드셋 및 헤드셋 애플리케이션들을 비교할 때, 그러한 애플리케이션에 있어서, 방법 (M100) 은 정보 소스 (즉, 사용자의 음성) 보다는 간섭 소스 (즉, 스크래칭 노이즈) 를 분리하기 위해 복수의 계수값들을 트레이닝하는 것이 바람직할 수도 있다. 그 경우, 분리된 간섭은 이하 설명되는 바와 같은 후속 프로세싱 스테이지에 있어서 원하는 신호로부터 제거될 수도 있다.
애플리케이션들의 또 다른 세트에 있어서, M개의 트랜스듀서들은 핸즈프리 차량 키트에 제공된 마이크로폰들이다. 도 8 은 확성기 (85) 가 트랜스듀서 어레이 (84) 에 넓은측면으로 배치되는 그러한 디바이스 (83) 의 일 예를 도시한 것이다. 그러한 디바이스에 대한 트레이닝 시나리오들은 상기 핸드셋 애플리케이션을 참조하여 설명된 바와 같이 정보 소스 및/또는 간섭 소스의 임의의 조합을 포함할 수도 있다. 특정 예에 있어서, 방법 (M100) 의 2개의 인스턴스들은 2개의 상이한 트레이닝된 복수의 계수값들을 생성하도록 수행된다. 도 9 에 도시된 바와 같이, 제 1 인스턴스는 마이크로폰 어레이에 대해 원하는 스피커의 배치에 있 어서 상이한 트레이닝 시나리오들을 포함한다. 이 인스턴스에 대한 시나리오들은 또한 상기 설명된 바와 같은 확산 또는 지향성 노이즈 필드와 같은 간섭을 포함할 수도 있다.
제 2 인스턴스는, 간섭 신호가 확성기 (85) 로부터 재생되는 트레이닝 시나리오들을 포함한다. 상이한 시나리오들은 시간 및/또는 주파수에 있어서 상이한 시그너처들 (예를 들어, 실질적으로 상이한 피치 주파수들) 을 갖는 음악 및/또는 음성과 같은, 확성기 (85) 로부터 재생된 간섭 신호들을 포함할 수도 있다. 이 인스턴스에 대한 시나리오들은 또한 상기 설명된 바와 같은 확산 또는 지향성 노이즈 필드와 같은 간섭을 포함할 수도 있다. 방법 (M100) 의 이 인스턴스가 대응하는 복수의 계수값들을 트레이닝하여 간섭 소스 (즉, 확성기 (85)) 로부터 간섭 신호를 분리하는 것이 바람직할 수도 있다. 도 18a 에 도시된 바와 같이, 2개의 트레이닝된 복수의 계수값들은 캐스케이드 구성으로 배열되는, 이하 설명되는 바와 같은 소스 분리기 (F10) 의 각각의 인스턴스들 (F10a, F10b) 을 구성하는데 사용될 수도 있으며, 여기서, 지연부 (D10) 는 소스 분리기 (F10a) 의 프로세싱 지연을 보상하기 위해 제공된다.
HATS 가 이들 모든 설계 단계들에 있어서 선택한 테스트 디바이스로서 설명되어 있지만, 임의의 다른 휴머노이드 시뮬레이션 (시뮬레이터) 또는 휴먼 스피커가 원하는 스피치 생성 소스 대신 대체될 수 있다. 적어도 소량의 배경 노이즈를 사용하여 모든 주파수에 걸쳐 분리 매트릭스들을 더 잘 조정하는 것이 바람직하다. 대안적으로, 사용 전 또는 사용 중에 사용자에 의해 테스팅이 수행될 수도 있다. 예를 들어, 그 테스팅은 트랜스듀서들의 입까지의 거리와 같은 사용자의 특성에 기초하여 또는 환경에 기초하여 개인화될 수 있다. 일련의 미리 설정된 "현안 (questions)" 이 특정한 특성, 특징, 환경, 이용 등에 대해 시스템을 조정하도록 사용자, 예를 들어, 종단 사용자에 대해 설계될 수 있다.
상기 설명된 바와 같은 절차는, 특정 애플리케이션에 대해 고정된 빔 및 널 빔형성기들을 동시에 설계하기 위해, 간섭 소스 신호들과 함께 HATS 로부터의 원하는 스피커 신호를 플레이백함으로써 하나의 테스팅 및 학습 스테이지로 결합될 수도 있다.
바람직한 실시형태들에 있어서, (예를 들어, 실시간 고정된 필터 설계로서 구현될) 트레이닝되는 수렴된 필터 솔루션들은 주파수 및 공간 선택도에 대해 셀프 노이즈를 트레이드-오프할 것이다. 상기 설명된 바와 같은 스피치 애플리케이션에 있어서, 다양한 원하는 스피커 방향들은 일 출력 채널에 대응하는 다소 넓은 널 및 다른 출력 채널에 대응하는 넓은 빔을 안내할 수도 있다. 획득된 필터들의 빔패턴 및 화이트 노이즈 이득은 원하는 스피커 방향 및 노이즈 주파수 컨텐츠의 공간 가변도뿐 아니라 마이크로폰 이득 및 위상 특성에 적응될 수 있다. 요구된다면, 마이크로폰 주파수 응답은 트레이닝 데이터가 레코딩되기 전에 등화될 수 있다. 일 예에 있어서, 특정 환경에 대한 조용한 배경 및 노이즈있는 배경에 있어서 특정 플레이백 음량 (loudness) 을 갖는 데이터를 레코딩함으로써, 수렴된 필터 솔루션들은 특정 마이크로폰 이득 및 위상 특성을 모델링하고, 디바이스의 공간 및 스펙트럼 특성의 범위에 적응되었을 것이다. 디바이스는 이러한 방식 으로 모델링되는 특정 노이즈 특성 및 공명 모드들을 가질 수도 있다. 학습된 필터는 통상 특정 데이터에 적응되기 때문에 데이터 의존적이며, 결과적인 빔 패턴 및 화이트 노이즈 이득은 학습 레이트, 다양한 트레이닝 데이터, 및 센서의 수를 변경함으로써 반복적인 방식으로 분석 및 셰이핑 (shape) 되어야 한다. 대안적으로, 넓은 빔패턴은 표준 데이터-독립형 및 가능하게는 주파수-불변형 빔형성기 설계 (슈퍼디렉티브 빔형성기, 최소-제곱 빔형성기, 통계적으로 최적의 빔형성기 등) 로부터 획득될 수 있다. 이들 데이터 의존형 또는 데이터 독립형 설계들의 임의의 조합은 특정 애플리케이션에 대해 적절할 수도 있다. 데이터 독립형 빔형성기의 경우, 빔패턴은 예를 들어 노이즈 상관 매트릭스를 튜닝함으로써 셰이핑될 수 있다.
비록 사전-프로세싱 설계들 중 일부가 오프라인에서 설계되는 학습된 필터들을 이용하지만, 마이크로폰 특성은 시간에 따라 드리프트할 수도 있을 뿐 아니라 그 어레이 구성은 기계적으로 변하고 있을 수도 있다. 이러한 이유로, 온라인 교정 루틴은 마이크로폰 주파수 특성 및 감도를 주기적으로 매칭시키는 것이 필요할 수도 있다. 예를 들어, 마이크로폰의 이득을 재교정하여 M채널 트레이닝 신호들의 레벨을 매칭하는 것이 바람직할 수도 있다.
태스크 (T110) 는 소스 분리 알고리즘에 따라 소스 분리 필터 구조의 복수의 필터 계수값들을 연속적으로 업데이트하도록 구성된다. 그러한 필터 구조의 다양한 예들이 이하 설명된다. 통상적인 소스 분리 알고리즘은 혼합된 신호들의 세트를 프로세싱하여, 신호 및 노이즈 양자를 갖는 조합 채널 및 적어도 하나의 노 이즈 지배적 채널을 포함하는 분리된 채널들의 세트를 생성하도록 구성된다. 조합 채널은 또한 입력 채널과 비교할 때 증가된 신호대 노이즈비 (SNR) 를 가질 수도 있다.
태스크 (T120) 는 수렴된 필터 구조가 복수의 M채널 신호들 각각에 대한 간섭으로부터 정보를 충분히 분리하는지를 판정한다. 그러한 동작은 자동으로 또는 휴먼 지시에 의해 수행될 수도 있다. 그러한 판정 동작의 일 예는, 대응하는 M채널 트레이닝 신호를 트레이닝된 복수의 계수값들로 필터링함으로써 생성된 결과와 정보 소스로부터의 기지의 신호를 상관하는 것에 기초한 메트릭을 이용한다. 기지의 신호는, 일 채널에서 워드 또는 일련의 세그먼트들과 실질적으로 상관되고 다른 모든 채널들에서는 거의 상관되지 않는 출력을, 필터링될 경우에 생성하는 워드 또는 일련의 세그먼트들을 가질 수도 있다. 그 경우, 충분한 분리는 상관 결과와 임계값 간의 관계에 따라 판정될 수도 있다.
그러한 판정 동작의 다른 예는 M채널 트레이닝 신호를 트레이닝된 복수의 계수값들로 필터링하고 각각의 그 결과를 대응하는 임계값과 비교함으로써 생성된 적어도 하나의 메트릭을 계산한다. 그러한 메트릭은 분산, 정규성 (Gaussianity), 및/또는 첨도 (kurtosis) 와 같은 고차 통계적 모멘트와 같은 통계적 특성들을 포함할 수도 있다. 스피치 신호에 있어서, 그러한 특성들은 또한 제로 크로싱 레이트 및/또는 시간에 대한 버스티니스 (burstiness) (또한, 시간 희박성 (time sparsity) 으로서도 공지됨) 를 포함할 수도 있다. 일반적으로, 스피치 신호들은 노이즈 신호들보다 더 낮은 제로 크로싱 레이트 및 더 낮은 시간 희 박성을 나타낸다.
태스크 (T120) 가 트레이닝 신호들 중 하나 이상 (가능하게는, 모두) 에 대해 실패하도록 태스크 (T110) 가 로컬 최소값으로 수렴하는 것이 가능하다. 태스크 (T120) 가 실패한다면, 태스크 (T100) 는 이하 설명되는 바와 같이 상이한 트레이닝 파라미터들 (예를 들어, 학습 레이트, 기하학적 제약) 을 이용하여 반복될 수도 있다. 태스크 (T120) 가 M채널 트레이닝 신호들 중 오직 일부에 대해서만 실패할 수도 있으며, 그 경우, 태스크 (T120) 가 통과되는 복수의 트레이닝 신호들에 대해 적절한 바와 같은 수렴된 솔루션 (즉, 트레이닝된 복수의 계수값들) 을 유지하는 것이 바람직할 수도 있다. 그 경우, 다른 트레이닝 신호들에 대한 솔루션을 획득하기 위해 방법 (M100) 을 반복하는 것이 바람직할 수도 있으며, 또는 대안적으로, 태스크 (T120) 가 실패한 신호들은 특별 케이스로서 무시될 수도 있다.
용어 "소스 분리 알고리즘" 은 독립 컴포넌트 분석 (ICA) 과 같은 블라인드 소스 분리 알고리즘, 및 독립 벡터 분석 (IVA) 과 같은 관련 방법들을 포함한다. 블라인드 소스 분리 (BSS) 알고리즘은 오직 소스 신호들의 혼합에만 기초하여 개별 소스 신호들 (하나 이상의 정보 소스들 및 하나 이상의 간섭 소스들로부터의 신호들을 포함할 수도 있음) 을 분리하는 방법이다. 용어 "블라인드" 는 레퍼런스 신호 또는 관심있는 신호가 이용가능하지 않다는 사실을 말하며, 일반적으로, 그러한 방법들은 정보 신호들 및/또는 간섭 신호들 중 하나 이상의 통계에 관한 가정을 포함한다. 스피치 애플리케이션에 있어서, 예를 들어, 관심있는 스피치 신호는 일반적으로 수퍼가우시안 (supergaussian) 분포 (예를 들어, 고 첨도) 를 갖는다고 가정된다.
BSS 알고리즘들의 클래스는 다변량 (multivariate) 블라인드 디컨볼루션 알고리즘을 포함한다. 소스 분리 알고리즘은 또한, 예를 들어, 레코딩 트랜스듀서들의 어레이의 축에 대한 하나 이상의 소스 신호들 각각의 기지의 방향과 같은 다른 선험적 정보에 따라 제약되는 ICA 및 IVA 와 같은 블라인드 소스 분리 알고리즘의 변형물을 포함한다. 그러한 알고리즘들은 지향성 정보에만 기초하고 관측된 신호들에 기초하지 않는 고정된 비-적응적 솔루션들을 적용하는 빔형성기들과는 구별될 수도 있다.
일단 방법 (M100) 이 트레이닝된 복수의 계수값들을 생성하였다면, 그 계수값들은, 그 계수값들이 고정될 수도 있거나 적응가능하게 남겨질 수도 있는 런타임 필터 (예를 들어, 본 명세서에서 설명되는 바와 같은 소스 분리기 (F100)) 에서 사용될 수도 있다. 방법 (M100) 은, 다수의 가변도를 포함할 수도 있는 환경에 있어서 바람직한 솔루션으로 수렴시키는데 이용될 수도 있다.
트레이닝된 복수의 계수값들의 계산은 시간 도메인에서 또는 주파수 도메인에서 수행될 수도 있다. 또한, 그 계수값들은 주파수 도메인에서 계산되고, 시간 도메인 신호에의 적용을 위해 시간 도메인 계수들로 변환될 수도 있다.
일련의 M채널 입력 신호들에 응답하여 계수값들을 업데이트하는 것은 소스 분리기에 대한 수렴된 솔루션이 획득될 때까지 계속할 수도 있다. 이 동작 동안, 일련의 M채널 입력 신호들 중 적어도 일부는 가능하게는 상이한 순서로 반복될 수도 있다. 예를 들어, 일련의 M채널 입력 신호들은 수렴된 솔루션이 획득될 때까지 루프에서 반복될 수도 있다. 수렴은 컴포넌트 필터들의 계수값들에 기초하여 결정될 수도 있다. 예를 들어, 필터는 필터 계수값들이 더 이상 변하지 않을 때 또는 몇몇 시간 간격에 걸친 필터 계수값들에 있어서의 총 변경이 임계값보다 작을 (대안적으로, 크지 않을) 때 수렴되었다고 판정될 수도 있다. 수렴은 각각의 크로스 필터에 대해 독립적으로 결정될 수도 있어서, 일 크로스 필터에 대한 업데이팅 동작이 종료할 수도 있는 동안에 다른 크로스 필터에 대한 업데이팅 동작은 계속된다. 대안적으로, 각각의 크로스 필터의 업데이팅은 모든 크로스 필터들이 수렴될 때까지 계속될 수도 있다.
소스 분리기 (F100) 의 각각의 필터는 하나 이상의 계수값들의 세트를 가진다. 예를 들어, 필터는 하나의, 수개의, 수십개의, 수백개의, 또는 수천개의 필터 계수들을 가질 수도 있다. 예를 들어, 시간에 걸쳐 희박하게 분포된 계수들을 갖는 크로스 필터들을 구현하여 긴 주기의 시간 지연을 포착하는 것이 바람직할 수도 있다. 계수값들의 세트들 중 적어도 하나는 입력 데이터에 기초한다.
방법 (M100) 은 소스 분리 알고리즘의 학습 규칙에 따라 필터 계수값들을 업데이트하도록 구성된다. 이 학습 규칙은 출력 채널들 간의 정보를 최대화하도록 설계될 수도 있다. 그러한 기준은 또한 출력 채널들의 통계적 독립성을 최대화하거나 또는 출력 채널들 중에서 상호 정보를 최소화하거나 또는 출력에서 엔트로피를 최대화할 때에 재기술 (restate) 될 수도 있다. 사용될 수도 있는 상이한 학습 규칙들의 특정 예들은 최대 정보 (또한, infomax 로서 공지됨), 최대 가능성, 및 최대 비정규성 (예를 들어, 최대 첨도) 을 포함한다. 소스 분리 학습 규칙이 확률적 기울기 상승 (stochastic gradient ascent) 규칙에 기초하는 것이 일반적이다. 공지된 ICA 알고리즘의 예들은 Infomax, FastICA
Figure 112009059125409-PCT00001
, 및 JADE (
Figure 112009059125409-PCT00002
에 설명된 조인트 근사 대각화 알고리즘) 를 포함한다.
소스 분리 필터 구조에 사용될 수도 있는 필터 구조는 피드백 구조, 피드포워드 구조, FIR 구조, IIR 구조, 및 상기의 다이렉트 형태, 캐스케이드 형태, 병렬 형태, 또는 격자 형태를 포함한다. 도 10a 는 그러한 필터를 2채널 애플리케이션에 구현하는데 사용될 수도 있는 피드백 필터 구조의 블록도를 도시한 것이다. 2개의 크로스 필터들 (C110 및 C120) 을 포함하는 이러한 구조는 또한 무한 임펄스 응답 (IIR) 필터의 일 예이다. 도 9b 는 다이렉트 필터들 (D110 및 D120) 을 포함하는 이러한 구조의 변형예의 블록도를 도시한 것이다.
도 9a 에 도시된 바와 같이 2개의 입력 채널들 (x1, x2) 및 2개의 출력 채널들 (y1, y2) 을 갖는 피드백 필터 구조의 적응 동작은 다음의 식, 즉,
Figure 112009059125409-PCT00003
을 사용하여 기술될 수도 있으며, 여기서, t 는 시간 샘플 인덱스를 나타내고, h12(t) 는 시간 t 에서의 필터 (C110) 의 계수값을 나타내고, h21(t) 는 시간 t 에서의 필터 (C120) 의 계수값을 나타내고, 심볼
Figure 112009059125409-PCT00004
은 시간 도메인 컨볼루션 연산을 나타내고, △h12k 는 출력값들 (y1(t) 및 y2(t)) 의 계산에 후속하는 필터 (C110) 의 k번째 계수값에 있어서의 변화를 나타내며, △h21k 는 출력값들 (y1(t) 및 y2(t)) 의 계산에 후속하는 필터 (C120) 의 k번째 계수값에 있어서의 변화를 나타낸다.
원하는 신호의 누적 밀도 함수에 근사하는 비선형 유계 함수로서 활성화 함수 f 를 구현하는 것이 바람직할 수도 있다. 특히, 스피치 신호들과 같은 포지티브의 첨도 신호들에 있어서, 이러한 특성을 만족하는 비선형 유계 함수의 일 예는 하이퍼볼릭 탄젠트 함수 (통상, tanh 로서 나타냄) 이다. x 의 부호 (sign) 에 의존하여 최대값 또는 최소값에 신속하게 근접하는 함수 f(x) 를 사용하는 것이 바람직할 수도 있다. 활성화 함수 f 에 사용될 수도 있는 비선형 유계 함수의 다른 예들은 시그모이드 함수, 부호 함수, 및 심플 함수를 포함한다. 이들 예시적인 함수들은 다음과 같이 표현될 수도 있다.
Figure 112009059125409-PCT00005
필터들 (C110 및 C120) 의 계수값들은 매 샘플마다 또는 다른 시간 간격에서 업데이트될 수도 있으며, 필터들 (C110 및 C120) 의 계수값들은 동일한 레이트 또는 상이한 레이트로 업데이트될 수도 있다. 상이한 계수값들을 상이한 레이트로 업데이트하는 것이 바람직할 수도 있다. 예를 들어, 저차 계수값들을 고차 계수값들보다 더 빈번히 업데이트하는 것이 바람직할 수도 있다. 트레이닝에 사용될 수도 있는 다른 구조는, 미국특허출원 제 11/187,504 호 (Visser 등) 의 도 12 및 단락번호 [0087]-[0091] 에 설명된 바와 같은 학습 및 출력 스테이지들을 포함한다.
도 12a 는 크로스 필터들 (C110, C120) 의 로직 구현들 (C112, C122) 을 포함하는 소스 분리기 (F100) 의 일 구현 (F102) 의 블록도를 도시한 것이다. 도 12b 는 업데이트 로직 블록들 (U110a, U100b) 을 포함하는 소스 분리기 (F100) 의 다른 구현 (F104) 을 도시한 것이다. 이 예는 또한, 각각의 업데이트 로직 블록들과 통신하도록 구성되는 필터들 (C112 및 C122) 의 구현들 (C114 및 C124) 을 각각 포함한다. 도 12c 는 업데이트 로직을 포함하는 소스 분리기 (F100) 의 다른 구현 (F106) 의 블록도를 도시한 것이다. 이 예는 판독 및 기입 포트들이 제공되는 필터들 (C110 및 C120) 의 구현들 (C116 및 C126) 을 각각 포함한다. 그러한 업데이트 로직은 균등한 결과를 달성하기 위해 다수의 상이한 방법들로 구현될 수도 있음을 유의한다. 도 12b 및 도 12c 에 도시된 구현들은 (예를 들어, 설계 스테이지 동안) 트레이닝된 복수의 계수값들을 획득하는데 이용될 수도 있으며, 또한, 후속적인 실시간 애플리케이션에서 이용될 수도 있는 것이 요구된다. 대조적으로, 도 12a 에 도시된 구현 (F102) 에는 실시간 이용을 위한 트레이닝된 복수의 계수값들 (예를 들어, 분리기 (F104 또는 F106) 를 사용하여 획득된 바와 같은 복수의 계수값들) 이 로딩될 수도 있다. 그러한 로딩은 제조 동안, 후속 업데이트 동안 등에서 수행될 수도 있다.
도 10a 및 도 10b 에 도시된 피드백 구조는 3 이상의 채널들로 확장될 수도 있다. 예를 들어, 도 11 은 도 10a 의 구조의 3 채널로의 확장을 도시한 것이다. 일반적으로, 풀 M채널 피드백 구조는 M*(M-1)개 크로스 필터들을 포함할 것이고, 식 (1)-(4) 는 각각의 입력 채널 (xm) 및 출력 채널 (yj) 에 대해 hjm(t) 및 △hjmk 의 관점에서 유사하게 일반화될 수도 있음을 이해할 것이다.
비록 IIR 설계가 통상, 대응하는 FIR 설계에 비해 계산상 더 간단하지만, IIR 필터가 (예를 들어, 유한 입력에 응답하여 무한 출력을 생성하기 위해) 실제로 비안정적이 될 가능성이 있다. 넌-스테이셔너리 (nonstationary) 스피치 신호 들과 조우될 수도 있는 입력 이득에 있어서의 증가는 필터 계수값들의 지수적 증가를 안내할 수 있고 불안정성을 야기할 수 있다. 일반적으로, 스피치 신호들이 제로 평균을 갖는 희박 분포를 나타내기 때문에, 활성화 함수 f 의 출력은 시간적으로 빈번히 공진할 수도 있으며, 불안정성에 기여할 수도 있다. 부가적으로, 큰 학습 파라미터 값이 신속한 수렴을 지원하기 위해 요구될 수도 있지만, 큰 입력 이득이 시스템을 더 불안정하게 하는 경향이 있을 수도 있기 때문에, 고유한 트레이드-오프가 안정성과 수렴 레이트 사이에 존재할 수도 있다.
IIR 필터 구현의 안정성을 보장하는 것이 바람직하다. 도 13 에 도시된 바와 같은 그러한 일 접근법은 착신 입력 신호의 하나 이상의 특성에 기초하여 스케일링 팩터들 (S110 및 S120) 을 적응시킴으로써 입력 채널들을 적당히 스케일링하는 것이다. 예를 들어, 입력 신호의 레벨이 너무 높다면, 입력 진폭을 저감시키기 위해 스케일링 팩터들 (S110 및 S120) 이 감소될 수도 있도록, 그 입력 신호의 레벨에 따라 감쇠를 수행하는 것이 바람직할 수도 있다. 하지만, 입력 레벨들을 감소시키는 것은 또한 SNR 을 감소시킬 수도 있고, 이는 차례로, 감소된 분리 성능을 안내할 수도 있으며, 안정성을 보장하는데 필요한 정도로만 입력 채널들을 감쇠시키는 것이 바람직할 수도 있다.
통상적인 구현에 있어서, 스케일링 팩터들 (S110 및 S120) 은 서로 동일하며 1보다 크지 않은 값들을 가진다. 또한, 스케일링 팩터 (S130) 가 스케일링 팩터 (S110) 의 역수이고, 스케일링 팩터 (S140) 가 스케일링 팩터 (S120) 의 역수인 것이 통상적일 수도 있지만, 이들 기준 중 임의의 하나 이상에 대한 예외가 가능하 다. 예를 들어, 대응하는 트랜스듀서들의 상이한 이득 특성을 설명하기 위해 스케일링 팩터들 (S110 및 S120) 에 대해 상이한 값들을 사용하는 것이 바람직할 수도 있다. 그 경우, 스케일링 팩터들 각각은 현재의 채널 레벨에 관련되는 적응 부분 및 (예를 들어, 교정 동작 중에 결정되는) 트랜스듀서 특성에 관련되는 고정 부분의 조합 (예를 들어, 합) 일 수도 있으며, 디바이스의 존속기간 동안에 종종 업데이트될 수도 있다.
피드백 구조의 크로스 필터들을 안정화시킬 다른 접근법은 필터 계수값에 있어서 단기 변동을 (예를 들어, 매 샘플마다) 설명하고 이에 의해 관련 잔향을 회피하기 위한 업데이트 로직을 구현하는 것이다. 상기 설명된 스케일링 접근법과 함께 또는 그 대신 사용될 수도 있는 그러한 접근법은 시간 도메인 평활화로서 간주될 수도 있다. 부가적으로 또는 대안적으로, 필터 평활화는 인접 주파수 빈에 걸쳐 수렴된 분리 필터의 코히어런스 (coherence) 를 강제하기 위해 주파수 도메인에서 수행될 수도 있다. 그러한 동작은 K탭 필터를 더 긴 길이 L 로 제로 패딩하고, 증가된 시간 서포트를 갖는 이 필터를 (예를 들어, 푸리에 변환을 통해) 주파수 도메인으로 변환하고, 그 후, 필터를 시간 도메인으로 리턴시키기 위해 역변환을 수행함으로써 편리하게 구현될 수도 있다. 필터가 장방형 시간 도메인 윈도우로 효과적으로 윈도윙되었기 때문에, 그 필터는 주파수 도메인에서 sinc 함수에 의해 대응하여 평활화된다. 그러한 주파수 도메인 평활화는 일정한 시간 간격으로 달성되어, 코히어런트 솔루션에 대한 적응된 필터 계수들을 주기적으로 재초기화할 수도 있다. 다른 안정성 특성들은 다중의 필터 스테이지들을 이용 하여 크로스 필터들을 구현하는 것, 및/또는 필터 적응성 범위 및/또는 레이트를 제한하는 것을 포함할 수도 있다.
수렴된 솔루션이 하나 이상의 성능 기준을 만족한다는 것을 입증하는 것이 바람직할 수도 있다. 사용될 수도 있는 하나의 성능 기준은, 수렴된 솔루션의 강인성을 특징으로 하는 화이트 노이즈 이득이다. 화이트 노이즈 이득 (또는 WNG(ω)) 은 (A) 트랜스듀서들에 대한 정규화된 화이트 노이즈에 응답한 출력 전력, 또는 균등적으로, (B) 트랜스듀서 노이즈 감도에 대한 신호 이득의 비율로서 정의될 수도 있다.
사용될 수도 있는 다른 성능 기준은, 일련의 M채널 신호들에 있어서 하나 이상의 소스들 각각에 대한 빔 패턴 (또는 널 빔 패턴) 이 수렴된 필터에 의해 생성된 바와 같은 M채널 출력 신호로부터 계산될 때의 대응하는 빔 패턴과 부합하는 정도이다. 이 기준은, 실제 빔 패턴이 알려지지 않고/않거나 일련의 M채널 입력 신호들이 사전에 분리된 경우에 대해서는 적용하지 않을 수도 있다. 일단 수렴된 필터 솔루션들 (h12(t) 및 h21(t) (예를 들어, hmj(t))) 이 획득되었다면, 출력들 (y1(t) 및 y2(t) (예를 들어, yj(t))) 에 대응하는 공간 빔 패턴 및 스펙트럼 빔 패턴이 계산될 수도 있다. 기지의 빔 패턴 등과의 부합에 따라 수렴된 솔루션들을 평가한다. 만약 그 성능 테스트가 실패한다면, 상이한 트레이닝 데이터, 상이한 학습 레이트 등을 이용하여 그 적응을 반복하는 것이 바람직할 수도 있다.
피드백 구조와 관련된 빔 패턴을 결정하기 위해, 시간 도메인 임펄스 응답 함수들 (x1 로부터 y1 로의 w11(t), x1 로부터 y2 로의 w21(t), x2 로부터 y1 로의 w12(t), 및 x2 로부터 y2 로의 w22(t)) 은 x1 에 있어서의 t=0 및 후속하여 x2 에 있어서의 t=0 에서의 임펄스 입력을 전제로 하여 시스템의 식 (1) 및 식 (2) 에 대한 반복적 응답을 연산함으로써 시뮬레이션될 수도 있다. 대안적으로, 명시적인 분석적 전달 함수식들이 식 (1) 을 식 (2) 로 대체함으로써 w11(t), w12(t), w21(t), 및 w22(t) 에 대해 공식화될 수도 있다. 결과적인 식의 IIR 형태 A(z)/B(z) 에 대한 다항식 제산을 수행하여 FIR 형태 A(z)/B(z) = V(z) =
Figure 112009059125409-PCT00006
를 획득하는 것이 바람직할 수도 있다.
일단 각각의 입력 채널 m 로부터 각각의 출력 채널 j 로의 시간 도메인 임펄스 전달 함수들 (wjm(t)) 이 어느 하나의 방법에 의해 획득된다면, 그 시간 도메인 임펄스 전달 함수들은 주파수 도메인으로 변환되어, 주파수 도메인 전달 함수 (Wjm(i*ω)) 를 생성할 수도 있다. 그 후, 식
Figure 112009059125409-PCT00007
의 크기 플롯을 연산함으로써, 각각의 출력 채널 j 에 대한 빔 패턴이 주파수 도메인 전달 함수 (Wjm(i*ω)) 로부터 획득될 수도 있다. 이 식에 있어서, D(ω) 는 주파수 ω 에 대한 지향성 매트릭스를 나타내어,
Figure 112009059125409-PCT00008
이며, 여기서, pos(i) 는 M개의 트랜스듀서들의 어레이에 있어서 i번째 트랜스듀서의 공간 좌표를 나타내고, c 는 매체에 있어서 사운드의 전파 속도 (예를 들어, 공기에 있어서 340m/s) 이며, θj 는 트랜스듀서 어레이의 축에 대한 j번째 소스의 입사 도달각을 나타낸다 (값들 θj 가 선험적으로 알려지지 않은 경우, 이 값들은 예를 들어, 이하 설명되는 절차를 이용하여 추정될 수도 있음).
다른 접근법은 도 14, 도 15a, 및 도 15b 에 도시된 바와 같은 피드포워드 필터 구조를 이용하여 구현될 수도 있다. 도 14 는 다이렉트 필터들 (D210 및 D220) 을 포함하는 피드포워드 필터 구조의 블록도를 도시한 것이다.
피드포워드 구조는, 필터 계수값들이 주파수 도메인에서 직접 연산되는 주파수 도메인 ICA 또는 복소 ICA 로 지칭되는 다른 접근법을 구현하는데 이용될 수도 있다 (입력 채널들에 대해 FFT 또는 다른 변환을 수행함). 이 기술은, 분리된 출력 벡터들 이 상호 독립적이 되도록, 각각의 주파수 빈 ω 에 대해 M×M 분리 매트릭스 (unmixing matrix) W(ω) 를 계산하도록 설계된다. 분리 매트릭스 W(ω) 는 다음과 같이 표현될 수도 있는 규칙에 따라 업데이트된다.
Figure 112009059125409-PCT00010
여기서, W l (ω) 은 주파수 빈 ω 및 윈도우 l 에 대한 분리 매트릭스를 나타내고, Y(ω,l) 은 주파수 빈 ω 및 윈도우 l 에 대한 필터 출력을 나타내고, W l +r(ω) 은 주파수 빈 ω 및 윈도우 (l+r) 에 대한 분리 매트릭스를 나타내고, r 은 1보다 작지 않은 정수값을 갖는 업데이트 레이트 파라미터이고, μ는 학습 레이트 파라미터이고, I 는 아이덴터티 매트릭스이고, Φ 는 활성화 함수를 나타내고, 윗첨자 H 는 공액 전치 연산을 나타내며, 괄호 <> 는 시간 l = 1, …, L 에 있어서의 평균화 연산을 나타낸다. 일 예에 있어서, 활성화 함수
Figure 112009059125409-PCT00011
Figure 112009059125409-PCT00012
과 동일하다.
통상적으로, 복소 ICA 솔루션들은 스케일링 모호성으로 손해를 본다. 만약 소스들이 스테이셔너리하고 그 소스들의 분산이 모든 주파수 빈에 있어서 알려졌다면, 스케일링 문제는 그 분산을 기지의 값들로 조정함으로써 해결될 수도 있다. 하지만, 자연적인 신호 소스들은 동적이고, 일반적으로, 넌-스테이셔너리하고, 미지의 분산을 가진다. 소스 분산을 조정하는 것대신, 스케일링 문제는 학습된 분리 필터 매트릭스를 조정함으로써 해결될 수도 있다. 최소 왜곡 원리에 의해 획득되는 하나의 주지의 솔루션은 다음과 같은 식, 즉,
Figure 112009059125409-PCT00013
에 따라 학습된 분리 매트릭스를 스케일링한다.
일부 복소 ICA 구현에 의한 다른 문제는 동일한 소스에 관련되는 주파수 빈 중에서의 코히어런트의 손실이다. 이 손실은, 정보 소스로부터의 에너지를 주로 포함하는 주파수 빈이 간섭 출력 채널에 잘못 할당되고/되거나 그 역도 또한 성립하는 주파수 치환 (frequency permutation) 문제를 안내할 수도 있다. 이러 한 문제에 대한 수개의 솔루션들이 사용될 수도 있다.
사용될 수도 있는 치환 문제에 대한 하나의 응답은, 주파수 빈 중에서 기대된 의존성을 모델링하는 소스 프라이어 (source prior) 를 사용하는 복소 ICA 의 변형물인 독립 벡터 분석 (IVA) 이다. 이 방법에 있어서, 활성화 함수 Φ 는 다음과 같은 다변량 활성화 함수이다.
Figure 112009059125409-PCT00014
여기서, p 는 1보다 크거나 같은 정수값 (예를 들어, 1, 2, 또는 3) 을 가진다. 이 함수에 있어서, 분모의 항은 모든 주파수 빈에 걸친 분리된 소스 스펙트럼과 관련된다.
다변량 활성화 함수의 사용은 개별 주파수 빈 필터 가중치들 간의 명시적인 의존성을 필터 학습 프로세스에 도입함으로써 치환 문제를 회피하는데 도움이 될 수도 있다. 하지만, 실제 애플리케이션에 있어서, 필터 가중치들의 그러한 연결된 적응성은 수렴 레이트가 초기 필터 조건들 (시간 도메인 알고리즘에서 관측된 것과 유사) 에 더 의존되게 할 수도 있다. 기하학적 제약과 같은 제약들을 포함하는 것이 바람직할 수도 있다.
기하학적 제약을 포함하기 위한 하나의 접근법은 (상기 식 (5) 에서와 같은) 지향성 매트릭스 D(ω) 에 기초한 정규화 항 J(ω), 즉,
Figure 112009059125409-PCT00015
을 가산하는 것이며, 여기서,
Figure 112009059125409-PCT00016
(ω) 는 주파수 ω 에 대한 튜닝 파라미터이고, C(ω) 는, 원하는 빔 패턴의 선택을 설정하고 각각의 출력 채널 j 에 대한 간섭 방향에 널을 위치시키는 diag(W(ω)*D(ω)) 과 동일한 M×M 대각 매트릭스이다. 파라미터
Figure 112009059125409-PCT00017
(ω) 는 상이한 주파수들에 대해 상이한 값들을 포함하여, 그 제약이 상이한 주파수들에 대해 다소 강하게 적용되게 할 수도 있다.
정규화 항 (7) 은 다음과 같은 식, 즉,
Figure 112009059125409-PCT00018
을 갖는 분리 매트릭스 업데이트 방정식에 대한 제약으로서 표현될 수도 있다.
그러한 제약은, 다음의 식에서와 같이, 그러한 항에 필터 학습 규칙 (예를 들어, 식 (6)) 을 가산함으로써 구현될 수도 있다.
Figure 112009059125409-PCT00019
또한, 매트릭스들 (C(ω) 및 D(ω)) 중 하나 또는 그 양자를 주기적으로 및/또는 어떤 이벤트 시에 업데이트하는 것이 바람직할 수도 있다.
소스 도달방향 (DOA) 값들 θj 는 다음의 방식으로 추정될 수도 있다. 분리 매트릭스 W 의 역을 이용함으로써, 소스들의 DOA 는,
Figure 112009059125409-PCT00020
과 같이 추정될 수 있음을 알 수 있으며, 여기서, θj, mn(ω) 는 트랜스듀서 쌍 (m 및 n) 에 대한 소스 j 의 DOA 이고, pm 및 pn 은 각각 트랜스듀서들 (m 및 n) 의 위치이며, c 는 매체에 있어서 사운드의 전파 속도이다. 수개의 트랜스듀서 쌍들이 사용될 경우, 특정 소스 j 에 대한 DOA θest .j 는 선택된 서브-대역들에 있어서 모든 트랜스듀서 쌍 및 주파수에 걸쳐 상기 식을 θest .j(ω) 의 히스토그램에 플롯함으로써 연산될 수 있다 (예를 들어, "SYSTEM AND METHOD FOR GENERATING A SEPARATED SIGNAL" 의 명칭인 국제특허공개 WO 2007/103037 (Chan 등) 의 도 6 내지 도 9 및 페이지 16-20 참조). 그 후, 평균 θest .j 은 결과적인 히스토그램 (θj, N(θj)) 의 무게 중심 또는 최대값이며,
Figure 112009059125409-PCT00021
여기서, N(θj) 는 각 θj 에서의 DOA 추정치의 개수이다. 그러한 히스토그램들로부터의 신뢰할만한 DOA 추정치들은, 평균 소스 방향이 다수의 반복 이후에 나타날 때 후속 학습 스테이지들에서만 이용가능하게 될 수도 있다.
상기는, 소스들의 수 R 가 M 보다 크지 않은 경우에 이용될 수도 있다. 디멘젼 감소는 R > M 인 경우에 수행될 수도 있다. 그러한 디멘젼 감소 동작은, 예를 들어, 국제특허출원 PCT/US2007/004966 호 (Chan 등) 의 pp.17-18 에 설명되어 있다.
빔형성 기술들이 채용될 수도 있고 일반적으로 스피치가 광대역 신호이기 때문에, 중요한 주파수 범위에 대해 우수한 성능이 획득된다는 것이 보장될 수도 있다. 식 (10) 에 있어서의 추정치들은, D2/λ 의 약 2배 내지 4배 초과의 트랜스듀서 어레이로부터의 소스 거리들에 대해 일반적으로 유효한 원거리장 (far-field) 모델에 기초하며, 여기서, D 는 최대 어레이 디멘젼이고, λ 는 고려되는 최단 파장이다. 원거리장 모델 기반 식 (10) 이 무효하다면, 빔 패턴에 대한 근거리장 정정을 행하는 것이 바람직할 수도 있다. 또한, 2 이상의 트랜스듀서들 간의 거리는 충분히 작도록 선택 (예를 들어, 최고 주파수의 파장의 절반 미만) 되어 공간 앨리어싱 (aliasing) 이 회피되게 할 수도 있다. 그 경우, 샤프한 빔들을 광대역 입력 신호의 매우 낮은 주파수들에 강제하는 것은 가능하지 않을 수도 있다.
주파수 치환 문제에 대한 솔루션들의 다른 클래스는 치환 테이블을 이용한다. 그러한 솔루션은 글로벌 상관 비용 함수에 따라 (예를 들어, 선형, 보텀-업 (bottom-up), 또는 톱-다운 재정렬 동작에 따라) 주파수 빈을 출력 채널 중에 재할당하는 것을 포함할 수도 있다. 수개의 그러한 솔루션들은 상기 인용된 국제특허공개 WO 2007/103037 (Chan 등) 에 설명되어 있다. 그러한 재할당은 인터-빈 위상 불연속성의 검출을 포함할 수도 있으며, 이는 (예를 들어, Chan 등의 WO 2007/103037 에 설명된 바와 같이) 가능성있는 주파수 오류할당을 나타내도록 취해질 수도 있다.
M채널 입력을 수신하도록 구성된 신호 프로세싱 시스템 (예를 들어, M개의 마이크로폰으로부터의 입력들을 프로세싱하도록 구성된 스피치 프로세싱 시스템) 에 있어서, 소스 분리기 (F10) 는 입력 채널들 중 주 입력 채널을 복구 (replace) 하도록 구성될 수도 있다. 복구될 입력 채널 (예를 들어, 최고 SNR, 최소 지연, 최고 VAD 결과, 및/또는 가장 우수한 스피치 인식 결과를 갖는 채널; 주 스피커와 같은 정보 소스에 가장 근접하다고 가정된 트랜스듀서의 채널, 등) 은 휴리스틱 (heuristic) 으로 선택될 수도 있다. 그 경우, 다른 채널들은 적응 필터와 같은 후속 프로세싱 스테이지로 바이패스될 수도 있다. 도 18b 는 그러한 휴리스틱에 따라 그러한 선택을 수행하도록 구성된 스위치 (S100; 예를 들어, 크로스바 스위치) 를 포함하는 장치 (A100) 의 일 구현 (A110) 의 블록도를 도시한 것이다. 또한, 그러한 스위치는, (예를 들어, 도 20a 의 예에 있어서 도시된 바와 같이) 본 명세서에서 설명된 바와 같은 후속 프로세싱 스테이지들을 포함하는 임의의 다른 구성들에 부가될 수도 있다.
본 명세서에 설명된 M채널 적응 필터 구조들의 어레이에 따라 구성된 적응 필터 (B200) 와 소스 분리기 (F10) 의 하나 이상의 구현들 (예를 들어, 피드백 구조 (F100) 및/또는 피드포워드 구조 (F200)) 을 결합하는 것이 바람직할 수도 있다. 예를 들어, 비선형 유계 함수가 오직 근사치일 경우, 부가적인 프로세싱을 수행하여 피드백 ICA 에 있어서의 분리를 개선하는 것이 바람직할 수도 있다. 적응 필터 (B200) 는, 예를 들어, 본 명세서에서 설명된 ICA, IVA, 제한된 ICA, 또는 제한된 IVA 방법들 중 임의의 방법에 따라 구성될 수도 있다. 그 경우, 적 응 필터 (B200) 는 (예를 들어, M채널 입력 신호를 사전-프로세싱하기 위해) 소스 분리기 (F10) 에 선행하거나 또는 (예를 들어, 소스 분리기 (F10) 의 출력에 대한 추가적인 분리를 수행하기 위해) 소스 분리기 (F10) 에 후속하도록 배열될 수도 있다. 또한, 적응 필터 (B200) 는 도 13 을 참조하여 상기 설명된 바와 같은 스케일링 팩터들을 포함할 수도 있다.
장치 (A200 또는 A300) 와 같이, 소스 분리기 (F10) 와 적응 필터 (B200) 의 구현들을 포함하는 구성에 있어서, 적응 필터 (B200) 의 초기 조건들 (예를 들어, 런타임의 시작에서의 필터 계수값들 및/또는 필터 이력) 이 소스 분리기 (F10) 의 수렴된 솔루션에 기초하는 것이 바람직할 수도 있다. 그러한 초기 조건들은, 예를 들어, 소스 분리기 (F10) 의 수렴된 솔루션을 획득하고, 수렴된 구조 (F10) 를 이용하여 M채널 트레이닝 데이터를 필터링하고, 그 필터링된 신호를 적응 필터 (B200) 에 제공하고, 적응 필터 (B200) 를 솔루션에 수렴하게 하며, 사용될 이 솔루션을 초기 조건들로서 저장함으로써 계산될 수도 있다. 그러한 초기 조건들은 적응 필터 (B200) 의 적응성에 대한 소프트 제약을 제공할 수도 있다. 초기 조건들은 (예를 들어, 설계 단계 동안에) 적응 필터 (B200) 의 일 인스턴스를 이용하여 계산되고, 그 후, (예를 들어, 제조 단계 동안에) 적응 필터 (B200) 의 하나 이상의 다른 인스턴스들에 초기 조건들로서 로딩된다는 것을 이해할 것이다.
도 19a 는 정보 신호 및 적어도 하나의 간섭 레퍼런스를 출력하도록 구성된 적응 필터 (B200) 의 일 구현 (B202) 을 포함하는 장치 (A200) 의 블록도를 도시한 것이다. 도 19b, 도 20a, 도 20b, 및 도 21a 는 소스 분리기 (F10) 및 적응 필 터 (B200) 의 인스턴스들을 포함하는 부가적인 구성들을 도시한 것이다. 이들 예에 있어서, 입력 채널 (I1f) 은 주 신호 (예를 들어, 정보 또는 조합 신호) 를 나타내고, 입력 채널들 (I2f, I3f) 은 보조 채널들 (예를 들어, 간섭 레퍼런스들) 을 나타낸다. 이들 예에 있어서, 지연 엘리먼트들 (B300, B300a, 및 B300b) 은 (예를 들어, 후속 스테이지의 입력 채널들을 동기시키기 위해) 대응하는 소스 분리기의 프로세싱 지연을 보상하도록 제공된다. 그러한 구조는, 예를 들어, 적응 필터 (B200) 가 신호 블록킹 및 간섭 소거를 동시에 수행하도록 구성될 수도 있기 때문에 일반화된 사이드로브 소거와는 상이하다.
도 19b 에 도시된 바와 같은 장치 (A300) 는 또한 M개의 트랜스듀서들 (예를 들어, 마이크로폰들) 의 어레이 (R100) 를 포함한다. 본 명세서에 설명된 임의의 다른 장치가 또한 그러한 어레이일 수도 있음을 특별히 유의한다. 어레이 (R100) 는 또한, 특정 애플리케이션에 적당한 디지털 M채널 신호를 생성하기 위해 당업계에 공지된 바와 같은 관련 샘플링 구조, 아날로그 프로세싱 구조, 및/또는 디지털 프로세싱 구조를 포함하고, 또는 그렇지 않으면, 그러한 구조가 상기 장치 내에 포함될 수도 있다.
도 21b 는 장치 (A300) 의 일 구현 (A340) 의 블록도를 도시한 것이다. 장치 (A340) 는 정보 출력 신호 및 간섭 레퍼런스를 생성하도록 구성된 적응 필터 (B200) 의 일 구현 (B202) 및 감소된 노이즈 레벨을 갖는 출력을 생성하도록 구성된 노이즈 감소 필터 (B400) 를 포함한다. 그러한 구성에 있어서, 적응 필터 (B200) 의 간섭 지배적 출력 채널들 중 하나 이상은 간섭 레퍼런스로서 노이즈 감 소 필터 (B400) 에 의해 사용될 수도 있다. 노이즈 감소 필터 (B400) 는 분리된 채널들로부터의 신호 및 노이즈 전력 정보에 기초하여 위너 필터로서 구현될 수도 있다. 그 경우, 노이즈 감소 필터 (B400) 는 하나 이상의 간섭 레퍼런스들에 기초하여 노이즈 스펙트럼을 추정하도록 구성될 수도 있다. 대안적으로, 노이즈 감소 필터 (B400) 는 하나 이상의 간섭 레퍼런스들로부터의 스펙트럼에 기초하여 정보 신호에 대한 스펙트럼 감산 동작을 수행하도록 구현될 수도 있다. 대안적으로, 노이즈 감소 필터 (B400) 는, 하나 이상의 간섭 레퍼런스들에 기초하는 노이즈 공분산을 갖는 칼만 필터로서 구현될 수도 있다. 임의의 이들 경우에 있어서, 노이즈 감소 필터 (B400) 는 노이즈 활성도 검출 (VAD) 동작을 포함하거나, 또는 그렇지 않으면, 장치 내에서 수행되는 그러한 동작의 결과를 이용하거나, 오직 비-스피치 간격 동안만의 스펙트럼 및/또는 공분산과 같은 노이즈 특성을 추정하도록 구성될 수도 있다.
적응 필터 (B200) 의 구현 (B202) 및 노이즈 감소 필터 (B400) 는 장치 (A200, A410, 및 A510) 과 같이 본 명세서에서 설명된 다른 구성들의 구현에 포함될 수도 있음을 특별히 유의한다. 임의의 이들 구현들에 있어서, 예를 들어, 미국특허 제 7,099,821 호 (Visser 등) 의 도 7 및 컬럼 20 의 상단에 설명된 바와 같이 노이즈 감소 필터 (B400) 의 출력을 적응 필터 (B202) 에 피드백시키는 것이 바람직할 수도 있다.
본 명세서에 개시된 바와 같은 장치는 또한 에코 소거 동작을 포함하도록 확장될 수도 있다. 도 22a 는 소스 분리기 (F10) 의 일 인스턴스 및 에코 소거기 (B500) 의 2개의 인스턴스들 (B500a, B500b) 을 포함하는 장치 (A400) 의 일 예를 도시한 것이다. 이 예에 있어서, 에코 소거기 (B500a, B500b) 는 원단 신호 (S10; 이는 2 이상의 채널을 포함할 수도 있음) 를 수신하고, 소스 분리기 (F10) 로의 입력부의 각각의 채널로부터 이 신호를 제거하도록 구성된다. 도 22b 는 장치 (A300) 의 일 인스턴스를 포함하는 장치 (A400) 의 일 구현 (A410) 을 도시한 것이다.
도 23a 는, 에코 소거기들 (B500a, B500b) 이 소스 분리기 (F10) 의 출력부의 각각의 채널로부터 원단 신호 (S10) 를 제거하도록 구성되는 장치 (A500) 의 일 예를 도시한 것이다. 도 23b 는 장치 (A300) 의 일 인스턴스를 포함하는 장치 (A500) 의 일 구현 (A510) 을 도시한 것이다.
에코 소거기 (B500) 는, 원하는 신호와 필터링된 신호 간의 에러에 기초하여 필터가 적응되는 LMS (최소 평균 제곱) 기술에 기초할 수도 있다. 대안적으로, 에코 소거기 (B500) 는 LMS 에 기초하지 않고 본 명세서에서 설명된 바와 같이 상호 정보를 최소화하는 기술 (예를 들어, ICA) 에 기초할 수도 있다. 그 경우, 에코 소거기 (B500) 의 계수들의 값을 변경하기 위한 유도된 적응성 규칙은 상이할 수도 있다. 에코 소거기의 구현은 다음의 단계들, 즉, (1) 시스템은 적어도 하나의 에코 레퍼런스 신호 (예를 들어, 원단 신호 (S10)) 가 알려진다고 가정함; (2) 필터링 및 적응을 위한 수학적 모델은, 함수 f 가 에코 레퍼런스 신호가 아닌 분리 모듈의 출력에 적용된다는 것을 제외하면 1 내지 4 에 있어서의 식들과 유사함; (3) f 의 함수 형태는 선형으로부터 비선형까지의 범위에 걸칠 수 있음; 그리 고 (4) 애플리케이션의 특정 지식에 대한 선험적 지식은 f 의 파라미터 형태로 통합될 수 있음을 포함할 수도 있다. 그 후, 공지된 방법들 및 알고리즘들이 에코 소거 프로세스를 완료하는데 이용될 수도 있음을 인식할 것이다. 도 24a 는 크로스 필터 (C110) 의 일 인스턴스 (CE10) 를 포함하는 에코 소거기 (B500) 의 그러한 구현 (B502) 의 블록도를 도시한 것이다. 그 경우, 필터 (CE10) 는 통상적으로 소스 분리기 (F100) 의 크로스 필터들보다 더 길다. 도 24b 에 도시된 바와 같이, 도 13 을 참조하여 상기 설명된 바와 같은 스케일링 팩터들이 또한 에코 소거기 (B500) 의 적응적 구현의 안정성을 증가시키는데 사용될 수도 있다. 사용될 수도 있는 다른 에코 소거기 구현 방법들은 에코 소거기 (B500) 의 기술적 특성을 개선시키기 위해 변환 도메인 적응 필터링 (TDAF) 기술들의 이용 및 켑스트럴 프로세싱을 포함한다.
본 명세서에서 설명된 다양한 방법들은 프로세서와 같은 로직 엘리먼트들의 어레이에 의해 수행될 수도 있고 본 명세서에서 설명된 바와 같은 장치의 다양한 엘리먼트들은 그러한 어레이 상에서 실행하도록 설계된 모듈들로서 구현될 수도 있음을 유의한다. 본 명세서에서 사용될 때, 용어 "모듈" 또는 "서브-모듈" 은 임의의 방법, 장치, 디바이스, 유닛, 또는 컴퓨터 명령들을 소프트웨어, 하드웨어 또는 펌웨어 형태로 포함하는 컴퓨터-판독가능 데이터 저장 매체를 지칭할 수 있다. 다수의 모듈들 또는 시스템들이 하나의 모듈 또는 시스템으로 결합될 수 있고 하나의 모듈 또는 시스템이 다수의 모듈들 또는 시스템들로 분리되어 동일한 기능들을 수행할 수 있음을 이해해야 한다. 소프트웨어 또는 다른 컴퓨터-실행 가능 명령들로 구현될 경우, 프로세스의 엘리먼트들은, 본질적으로, 루틴들, 프로그램들, 오브젝트들, 컴포넌트들, 데이터 구조들 등에 있어서와 같이 관련 태스크들을 수행하기 위한 코드 세그먼트들이다. 프로그램 또는 코드 세그먼트들은 프로세서 판독가능 매체에 저장될 수 있거나, 송신 매체 또는 통신 링크를 통해 반송파에 수록된 컴퓨터 데이터 신호에 의해 송신될 수 있다. 용어 "프로세서 판독가능 매체" 는 휘발성, 비휘발성, 착탈형 및 비-착탈형 매체를 포함하여, 정보를 저장 또는 전송할 수 있는 임의의 매체를 포함할 수도 있다. 프로세서 판독가능 매체의 예들은 전자 회로, 반도체 메모리 디바이스, ROM, 플래시 메모리, 소거가능 ROM (EROM), 플로피 디스켓 또는 다른 자기 저장부, CD-ROM/DVD 또는 다른 광학 저장부, 하드 디스크, 광섬유 매체, 무선 주파수 (RF) 링크, 또는 원하는 정보를 저장하는데 이용될 수 있고 액세스될 수 있는 임의의 다른 매체를 포함한다. 컴퓨터 데이터 신호는 전자 네트워크 채널, 광섬유, 에어, 전자기, RF 링크 등과 같은 송신 매체를 통해 전파할 수 있는 임의의 신호를 포함할 수도 있다. 코드 세그먼트들은 인터넷 또는 인트라넷과 같은 컴퓨터 네트워크들을 통해 다운로드될 수도 있다. 어떠한 경우라도, 본 개시의 범위는 그러한 실시형태들에 의해 한정되는 것으로서 해석되지 않아야 한다.
본 명세서에서 설명된 다양한 방법들은 핸드셋, 헤드셋, 또는 휴대용 디지털 보조기 (PDA) 와 같은 휴대용 통신 디바이스에 의해 수행될 수도 있고 본 명세서에서 설명된 다양한 장치들은 그러한 디바이스에 포함될 수도 있음을 특별히 개시한다. 통상적인 실시간 (예를 들어, 온라인) 애플리케이션은 그러한 이동 디바이 스를 이용하여 수행되는 전화 통화이다.
하나 이상의 예시적인 실시형태들에 있어서, 설명된 기능들은 하드웨어, 소프트웨어, 펌웨어, 또는 이들의 임의의 조합으로 구현될 수도 있다. 소프트웨어로 구현된다면, 그 기능들은 하나 이상의 명령들 또는 코드로서 컴퓨터-판독가능 매체 상에 저장되거나 컴퓨터-판독가능 매체를 통해 전송될 수도 있다. 컴퓨터-판독가능 매체는, 일 장소로부터 다른 장소로의 컴퓨터 프로그램의 전송을 용이하게 하는 임의의 매체를 포함하는 컴퓨터 저장 매체 및 통신 매체 양자를 포함한다. 저장 매체는, 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수도 있다. 한정이 아닌 예로써, 그러한 컴퓨터-판독가능 매체는 RAM, ROM, EEPROM, CD-ROM 또는 다른 광학 디스크 저장부, 자기 디스크 저장부 또는 다른 자기 저장 디바이스들, 또는 원하는 프로그램 코드를 명령 또는 데이터 구조의 형태로 반송 또는 저장하는데 이용될 수 있고 컴퓨터에 의해 액세스될 수 있는 임의의 다른 매체를 포함할 수 있다. 또한, 임의의 커넥션이 컴퓨터-판독가능 매체로 적절히 명명된다. 예를 들어, 동축 케이블, 광섬유 케이블, 꼬임쌍선, 디지털 가입자 라인 (DSL), 또는 적외선, 무선, 및 마이크로파와 같은 무선 기술들을 이용하여 웹사이트, 서버, 또는 다른 원격 소스로부터 소프트웨어가 송신된다면, 동축 케이블, 광섬유 케이블, 꼬임쌍선, DSL, 또는 적외선, 무선, 및 마이크로파와 같은 무선 기술들은 매체의 정의에 포함된다. 본 명세서에서 사용되는 바와 같은 디스크 (disk) 및 디스크 (disc) 는 컴팩트 디스크 (CD), 레이저 디스크, 광학 디스크, DVD (digital versatile disc), 플로피 디스크 및 Blu-ray Disc™ (캘리포니아주 유니버셜 시티 소재의 Blu-Ray Disc 협회) 를 포함하며, 여기서, 디스크 (disk) 는 통상적으로 데이터를 자기적으로 재생하지만 디스크 (disc) 는 데이터를 레이저로 광학적으로 재생한다. 상기의 조합들은 또한 컴퓨터-판독가능 매체의 범위 내에 포함되어야 한다.
본 명세서에 설명된 바와 같은 스피치 분리 시스템은, 특정 기능들을 제어하기 위해 스피치 입력을 수용하거나 또는 그렇지 않으면 통신 디바이스들과 같이 배경 노이즈들로부터 원하는 노이즈들의 분리를 요구하는 전자 디바이스에 통합될 수도 있다. 다수의 애플리케이션들이 다수의 방향으로부터 발신하는 배경 사운드들로부터 원하는 선명한 사운드를 강화 또는 분리할 것을 요구한다. 그러한 애플리케이션들은, 음성 인식 및 검출, 스피치 강화 및 분리, 음성 활성화된 제어 등과 같은 능력들을 통합하는 전자 또는 연산 디바이스들에 휴먼-머신 인터페이스를 포함할 수도 있다. 오직 제한된 프로세싱 능력만을 제공하는 디바이스들에 적절한 그러한 스피치 분리 시스템을 구현하는 것이 바람직할 수도 있다.

Claims (58)

  1. 복수의 M채널 트레이닝 신호들에 기초하여, 수렴된 소스 분리 필터 구조를 획득하기 위해 소스 분리 필터 구조의 복수의 계수값들을 트레이닝하는 단계로서, 상기 M 은 1보다 큰 정수인, 상기 소스 분리 필터 구조의 복수의 계수값들을 트레이닝하는 단계; 및
    상기 수렴된 소스 분리 필터 구조가 상기 복수의 M채널 트레이닝 신호들 각각을 적어도 정보 출력 신호 및 간섭 출력 신호로 충분히 분리하는지를 판정하는 단계를 포함하고,
    상기 복수의 M채널 트레이닝 신호들 중 적어도 하나는 적어도 하나의 정보 소스 및 적어도 하나의 간섭 소스에 응답하여 M개의 트랜스듀서들에 의해 생성된 신호들에 기초하고, 그 트랜스듀서들 및 소스들은 제 1 공간 구성으로 배열되며,
    상기 복수의 M채널 트레이닝 신호들 중 다른 하나는 적어도 하나의 정보 소스 및 적어도 하나의 간섭 소스에 응답하여 M개의 트랜스듀서들에 의해 생성된 신호들에 기초하고, 그 트랜스듀서들 및 소스들은 상기 제 1 공간 구성과는 상이한 제 2 공간 구성으로 배열되는, 신호 프로세싱 방법.
  2. 제 1 항에 있어서,
    상기 복수의 계수값들을 트레이닝하는 단계는, 상기 복수의 M채널 트레이닝 신호들 각각에 기초하여 상기 소스 분리 필터 구조의 복수의 계수값들을 업데이트 하는 단계를 포함하는, 신호 프로세싱 방법.
  3. 제 1 항에 있어서,
    상기 판정하는 단계는, 상기 적어도 하나의 정보 소스로부터의 정보를 상기 수렴된 소스 분리 필터 구조의 출력과 비교하는 단계를 포함하는, 신호 프로세싱 방법.
  4. 제 1 항에 있어서,
    상기 복수의 M채널 트레이닝 신호들 중 적어도 하나는 제 1 스펙트럼 시그너처를 갖는 간섭 소스로부터의 간섭을 포함하고,
    상기 복수의 M채널 트레이닝 신호들 중 다른 하나는 상기 제 1 스펙트럼 시그너처와는 상이한 제 2 스펙트럼 시그너처를 갖는 간섭 소스로부터의 간섭을 포함하는, 신호 프로세싱 방법.
  5. 제 1 항에 있어서,
    상기 복수의 M채널 트레이닝 신호들 중 적어도 하나는 제 1 스펙트럼 시그너처를 갖는 정보 소스로부터의 정보를 포함하고,
    상기 복수의 M채널 트레이닝 신호들 중 다른 하나는 상기 제 1 스펙트럼 시그너처와는 상이한 제 2 스펙트럼 시그너처를 갖는 정보 소스로부터의 정보를 포함하는, 신호 프로세싱 방법.
  6. 제 1 항에 있어서,
    상기 제 1 공간 구성 내에서, 상기 M개의 트랜스듀서들은 상기 적어도 하나의 정보 소스에 대해 제 1 공간 배향으로 배향되는 어레이에 배치되고,
    상기 제 2 공간 구성 내에서, 상기 M개의 트랜스듀서들은 상기 적어도 하나의 정보 소스에 대해 제 2 공간 배향으로 배향되는 어레이에 배치되며,
    상기 제 2 공간 배향은 상기 제 1 공간 배향과는 상이한, 신호 프로세싱 방법.
  7. 제 1 항에 있어서,
    상기 소스 분리 필터 구조의 복수의 계수값들을 트레이닝하는 단계는 비선형 유계 함수에 기초하여 상기 복수의 계수값들에 대한 업데이트를 계산하는 단계를 포함하는, 신호 프로세싱 방법.
  8. 제 1 항에 있어서,
    상기 신호 프로세싱 방법은,
    상기 수렴된 소스 분리 필터 구조의 트레이닝된 복수의 계수값들에 기초하여, 대응하는 빔 패턴을 계산하는 단계; 및
    상기 제 1 공간 구성 및 상기 제 2 공간 구성 중 적어도 하나의 구성으로의 트랜스듀서들 및 소스들의 상대적인 배치에 기초한 정보와 상기 계산된 빔 패턴을 비교하는 단계를 포함하는, 신호 프로세싱 방법.
  9. 제 1 항에 있어서,
    상기 신호 프로세싱 방법은, 상기 수렴된 소스 분리 필터 구조의 트레이닝된 복수의 계수값들에 기초하여, 실시간 정보 출력 신호를 획득하기 위해 M채널 신호를 실시간으로 필터링하는 단계를 포함하는, 신호 프로세싱 방법.
  10. 제 9 항에 있어서,
    상기 제 1 공간 구성 내에서, 상기 M개의 트랜스듀서들은 서로에 대해 제 3 공간 구성으로 배열되고,
    상기 M채널 신호는, 서로에 대해 상기 제 3 공간 구성으로 배열되는 M개의 트랜스듀서들의 어레이에 의해 생성된 신호들에 기초하는, 신호 프로세싱 방법.
  11. 제 9 항에 있어서,
    상기 M채널 신호를 필터링하는 단계는 (A) 정보 출력 채널 및 (B) 간섭 출력 채널 중 일 채널의 주파수 빈을 상기 2 채널 중 다른 채널에 재할당하는 단계를 포함하는, 신호 프로세싱 방법.
  12. 제 9 항에 있어서,
    상기 신호 프로세싱 방법은,
    상기 수렴된 소스 분리 필터 구조의 트레이닝된 복수의 계수값들에 기초하여, 적응 필터에 대한 초기 조건들을 생성하는 단계;
    상기 초기 조건들에 따라 상기 적응 필터를 초기화하는 단계; 및
    상기 초기화에 후속하여, 상기 실시간 정보 출력 신호에 기초한 신호를 필터링하기 위해 상기 적응 필터를 이용하는 단계를 포함하고,
    상기 초기 조건들은 (A) 상기 적응 필터의 초기의 복수의 탭 가중치들 및 (B) 상기 적응 필터의 초기 이력 중 적어도 하나를 포함하는, 신호 프로세싱 방법.
  13. 제 12 항에 있어서,
    상기 적응 필터를 이용하는 단계는, 상기 실시간 정보 출력 신호의 특성에 기초하여, 상기 실시간 정보 출력 신호에 기초한 신호를 감쇠시키는 단계를 포함하는, 신호 프로세싱 방법.
  14. 제 9 항에 있어서,
    상기 신호 프로세싱 방법은, (A) 상기 M채널 신호 및 (B) 상기 실시간 정보 출력 신호에 기초한 신호 중 적어도 하나에 대해 에코 소거 동작을 수행하는 단계를 포함하는, 신호 프로세싱 방법.
  15. 제 1 항에 있어서,
    상기 실시간 정보 출력 신호에 기초한 신호를 필터링하기 위해 상기 적응 필 터를 이용하는 단계는 간섭 레퍼런스 신호를 생성하기 위해 상기 적응 필터를 이용하는 단계를 포함하고,
    상기 신호 프로세싱 방법은, 상기 간섭 레퍼런스 신호에 기초하여, 상기 실시간 정보 출력 신호에 기초한 신호에 대해 노이즈 감소 동작을 수행하는 단계를 포함하는, 신호 프로세싱 방법.
  16. M개의 트랜스듀서들의 어레이로서, 상기 M 은 1보다 큰 정수인, 상기 어레이; 및
    트레이닝된 복수의 계수값들을 갖는 소스 분리 필터 구조를 포함하고,
    상기 소스 분리 필터 구조는 M채널 신호를 실시간으로 필터링하여 실시간 정보 출력 신호를 획득하도록 구성되고,
    상기 트레이닝된 복수의 계수값들은 복수의 M채널 트레이닝 신호들에 기초하고,
    상기 복수의 M채널 트레이닝 신호들 중 하나는 적어도 하나의 정보 소스 및 적어도 하나의 간섭 소스에 응답하여 M개의 트랜스듀서들에 의해 생성된 신호들에 기초하고, 그 트랜스듀서들 및 소스들은 제 1 공간 구성으로 배열되며,
    상기 복수의 M채널 트레이닝 신호들 중 다른 하나는 적어도 하나의 정보 소스 및 적어도 하나의 간섭 소스에 응답하여 M개의 트랜스듀서들에 의해 생성된 신호들에 기초하고, 그 트랜스듀서들 및 소스들은 상기 제 1 공간 구성과는 상이한 제 2 공간 구성으로 배열되는, 신호 프로세싱 장치.
  17. 제 16 항에 있어서,
    상기 신호 프로세싱 장치는 상기 어레이 및 상기 소스 분리 필터 구조를 포함하는 이동 사용자 단말기를 포함하는, 신호 프로세싱 장치.
  18. 제 16 항에 있어서,
    상기 신호 프로세싱 장치는 상기 어레이 및 상기 소스 분리 필터 구조를 포함하는 무선 헤드셋을 포함하는, 신호 프로세싱 장치.
  19. 제 16 항에 있어서,
    상기 어레이의 M개의 트랜스듀서들은 서로에 대해 제 3 공간 구성으로 배열되고,
    상기 제 1 공간 구성 내에서, 상기 M개의 트랜스듀서들은 서로에 대해 상기 제 3 공간 구성으로 배열되는, 신호 프로세싱 장치.
  20. 제 16 항에 있어서,
    상기 제 1 공간 구성 내에서, 상기 M개의 트랜스듀서들은 상기 적어도 하나의 정보 소스에 대해 제 1 공간 배향으로 배향되는 어레이에 배치되고,
    상기 제 2 공간 구성 내에서, 상기 M개의 트랜스듀서들은 상기 적어도 하나의 정보 소스에 대해 제 2 공간 배향으로 배향되는 어레이에 배치되며,
    상기 제 2 공간 배향은 상기 제 1 공간 배향과는 상이한, 신호 프로세싱 장치.
  21. 제 16 항에 있어서,
    상기 트레이닝된 복수의 계수값들은 비선형 유계 함수에 기초하여 복수의 계수값들로부터 계산되는, 신호 프로세싱 장치.
  22. 제 16 항에 있어서,
    상기 소스 분리 필터 구조는, (A) 정보 출력 채널 및 (B) 간섭 출력 채널 중 일 채널의 주파수 빈을 상기 2 채널 중 다른 채널에 재할당함으로써 상기 M채널 신호를 필터링하도록 구성되는, 신호 프로세싱 장치.
  23. 제 16 항에 있어서,
    상기 신호 프로세싱 장치는 상기 실시간 정보 출력 신호에 기초한 신호를 필터링하도록 배열된 적응 필터를 포함하고,
    상기 적응 필터는 수렴된 상기 소스 분리 필터 구조의 트레이닝된 복수의 계수값들에 기초하는 초기 조건들에 따라 초기화되고,
    상기 초기 조건들은 (A) 상기 적응 필터의 초기의 복수의 탭 가중치들 및 (B) 상기 적응 필터의 초기 이력 중 적어도 하나를 포함하는, 신호 프로세싱 장치.
  24. 제 23 항에 있어서,
    상기 적응 필터는, 상기 실시간 정보 출력 신호의 특성에 기초하여, 상기 실시간 정보 출력 신호에 기초한 신호에 대해 스케일링 동작을 수행하도록 구성되는, 신호 프로세싱 장치.
  25. 제 23 항에 있어서,
    상기 적응 필터는 간섭 레퍼런스 신호를 생성하도록 구성되고,
    상기 신호 프로세싱 장치는, 상기 간섭 레퍼런스 신호에 기초하여, 상기 실시간 정보 출력 신호에 기초한 신호에 대해 노이즈 감소 동작을 수행하도록 구성된 노이즈 감소 필터를 포함하는, 신호 프로세싱 장치.
  26. 제 16 항에 있어서,
    상기 신호 프로세싱 장치는 (A) 상기 M채널 신호 및 (B) 상기 실시간 정보 출력 신호에 기초한 신호 중 적어도 하나에 대해 에코 소거 동작을 수행하도록 구성된 에코 소거기를 포함하는, 신호 프로세싱 장치.
  27. 프로세서에 의해 실행될 경우, 상기 프로세서로 하여금,
    복수의 M채널 트레이닝 신호들에 기초하여, 수렴된 소스 분리 필터 구조를 획득하기 위해 소스 분리 필터 구조의 복수의 계수값들을 트레이닝하게 하는 명령들로서, 상기 M 은 1보다 큰 정수인, 상기 소스 분리 필터 구조의 복수의 계수값들 을 트레이닝하게 하는 명령들; 및
    상기 수렴된 소스 분리 필터 구조가 상기 복수의 M채널 트레이닝 신호들 각각을 적어도 정보 출력 신호 및 간섭 출력 신호로 충분히 분리하는지를 판정하게 하는 명령들을 포함하고,
    상기 복수의 M채널 트레이닝 신호들 중 적어도 하나는 적어도 하나의 정보 소스 및 적어도 하나의 간섭 소스에 응답하여 M개의 트랜스듀서들에 의해 생성된 신호들에 기초하고, 그 트랜스듀서들 및 소스들은 제 1 공간 구성으로 배열되며,
    상기 복수의 M채널 트레이닝 신호들 중 다른 하나는 적어도 하나의 정보 소스 및 적어도 하나의 간섭 소스에 응답하여 M개의 트랜스듀서들에 의해 생성된 신호들에 기초하고, 그 트랜스듀서들 및 소스들은 상기 제 1 공간 구성과는 상이한 제 2 공간 구성으로 배열되는, 컴퓨터-판독가능 매체.
  28. 제 27 항에 있어서,
    프로세서에 의해 실행될 경우 상기 프로세서로 하여금 복수의 계수값들을 트레이닝하게 하는 상기 명령들은, 프로세서에 의해 실행될 경우 상기 프로세서로 하여금 상기 복수의 M채널 트레이닝 신호들 각각에 기초하여 상기 소스 분리 필터 구조의 복수의 계수값들을 업데이트하게 하는 명령들을 포함하는, 컴퓨터-판독가능 매체.
  29. 제 27 항에 있어서,
    프로세서에 의해 실행될 경우 상기 프로세서로 하여금 판정하게 하는 상기 명령들은, 프로세서에 의해 실행될 경우 상기 프로세서로 하여금 상기 적어도 하나의 정보 소스로부터의 정보를 상기 수렴된 소스 분리 필터 구조의 출력과 비교하게 하는 명령들을 포함하는, 컴퓨터-판독가능 매체.
  30. 제 27 항에 있어서,
    상기 복수의 M채널 트레이닝 신호들 중 적어도 하나는 제 1 스펙트럼 시그너처를 갖는 간섭 소스로부터의 간섭을 포함하고,
    상기 복수의 M채널 트레이닝 신호들 중 다른 하나는 상기 제 1 스펙트럼 시그너처와는 상이한 제 2 스펙트럼 시그너처를 갖는 간섭 소스로부터의 간섭을 포함하는, 컴퓨터-판독가능 매체.
  31. 제 27 항에 있어서,
    상기 복수의 M채널 트레이닝 신호들 중 적어도 하나는 제 1 스펙트럼 시그너처를 갖는 정보 소스로부터의 정보를 포함하고,
    상기 복수의 M채널 트레이닝 신호들 중 다른 하나는 상기 제 1 스펙트럼 시그너처와는 상이한 제 2 스펙트럼 시그너처를 갖는 정보 소스로부터의 정보를 포함하는, 컴퓨터-판독가능 매체.
  32. 제 27 항에 있어서,
    상기 제 1 공간 구성 내에서, 상기 M개의 트랜스듀서들은 상기 적어도 하나의 정보 소스에 대해 제 1 공간 배향으로 배향되는 어레이에 배치되고,
    상기 제 2 공간 구성 내에서, 상기 M개의 트랜스듀서들은 상기 적어도 하나의 정보 소스에 대해 제 2 공간 배향으로 배향되는 어레이에 배치되며,
    상기 제 2 공간 배향은 상기 제 1 공간 배향과는 상이한, 컴퓨터-판독가능 매체.
  33. 제 27 항에 있어서,
    프로세서에 의해 실행될 경우 상기 프로세서로 하여금 소스 분리 필터 구조의 복수의 계수값들을 트레이닝하게 하는 상기 명령들은, 프로세서에 의해 실행될 경우 상기 프로세서로 하여금 비선형 유계 함수에 기초하여 상기 복수의 계수값들에 대한 업데이트를 계산하게 하는 명령들을 포함하는, 컴퓨터-판독가능 매체.
  34. 제 27 항에 있어서,
    상기 컴퓨터-판독가능 매체는, 프로세서에 의해 실행될 경우 상기 프로세서로 하여금,
    상기 수렴된 소스 분리 필터 구조의 트레이닝된 복수의 계수값들에 기초하여, 대응하는 빔 패턴을 계산하게 하는 명령들; 및
    상기 제 1 공간 구성 및 상기 제 2 공간 구성 중 적어도 하나의 구성으로의 트랜스듀서들 및 소스들의 상대적인 배치에 기초한 정보와 상기 계산된 빔 패턴을 비교하게 하는 명령들을 포함하는, 컴퓨터-판독가능 매체.
  35. 제 27 항에 있어서,
    상기 컴퓨터-판독가능 매체는, 프로세서에 의해 실행될 경우 상기 프로세서로 하여금 상기 수렴된 소스 분리 필터 구조의 트레이닝된 복수의 계수값들에 기초하여, 실시간 정보 출력 신호를 획득하기 위해 M채널 신호를 실시간으로 필터링하게 하는 명령들을 포함하는, 컴퓨터-판독가능 매체.
  36. 제 35 항에 있어서,
    상기 제 1 공간 구성 내에서, 상기 M개의 트랜스듀서들은 서로에 대해 제 3 공간 구성으로 배열되고,
    상기 M채널 신호는, 서로에 대해 상기 제 3 공간 구성으로 배열되는 M개의 트랜스듀서들의 어레이에 의해 생성된 신호들에 기초하는, 컴퓨터-판독가능 매체.
  37. 제 35 항에 있어서,
    프로세서에 의해 실행될 경우 상기 프로세서로 하여금 M채널 신호를 필터링하게 하는 상기 명령들은, 프로세서에 의해 실행될 경우 상기 프로세서로 하여금 (A) 정보 출력 채널 및 (B) 간섭 출력 채널 중 일 채널의 주파수 빈을 상기 2 채널 중 다른 채널에 재할당하게 하는 명령들을 포함하는, 컴퓨터-판독가능 매체.
  38. 제 35 항에 있어서,
    상기 컴퓨터-판독가능 매체는, 프로세서에 의해 실행될 경우 상기 프로세서로 하여금,
    상기 수렴된 소스 분리 필터 구조의 트레이닝된 복수의 계수값들에 기초하여, 적응 필터에 대한 초기 조건들을 생성하게 하는 명령들;
    상기 초기 조건들에 따라 상기 적응 필터를 초기화하게 하는 명령들; 및
    상기 초기화에 후속하여, 상기 실시간 정보 출력 신호에 기초한 신호를 필터링하기 위해 상기 적응 필터를 이용하게 하는 명령들을 포함하고,
    상기 초기 조건들은 (A) 상기 적응 필터의 초기의 복수의 탭 가중치들 및 (B) 상기 적응 필터의 초기 이력 중 적어도 하나를 포함하는, 컴퓨터-판독가능 매체.
  39. 제 38 항에 있어서,
    프로세서에 의해 실행될 경우 상기 프로세서로 하여금 적응 필터를 이용하게 하는 상기 명령들은, 프로세서에 의해 실행될 경우 상기 프로세서로 하여금 상기 실시간 정보 출력 신호의 특성에 기초하여, 상기 실시간 정보 출력 신호에 기초한 신호를 감쇠시키게 하는 명령들을 포함하는, 컴퓨터-판독가능 매체.
  40. 제 35 항에 있어서,
    상기 컴퓨터-판독가능 매체는, 프로세서에 의해 실행될 경우 상기 프로세서 로 하여금 (A) 상기 M채널 신호 및 (B) 상기 실시간 정보 출력 신호에 기초한 신호 중 적어도 하나에 대해 에코 소거 동작을 수행하게 하는 명령들을 포함하는, 컴퓨터-판독가능 매체.
  41. 제 27 항에 있어서,
    프로세서에 의해 실행될 경우 상기 프로세서로 하여금 상기 실시간 정보 출력 신호에 기초한 신호를 필터링하기 위해 상기 적응 필터를 이용하게 하는 상기 명령들은, 프로세서에 의해 실행될 경우 상기 프로세서로 하여금 간섭 레퍼런스 신호를 생성하기 위해 상기 적응 필터를 이용하게 하는 명령들을 포함하고,
    상기 컴퓨터-판독가능 매체는, 프로세서에 의해 실행될 경우 상기 프로세서로 하여금, 상기 간섭 레퍼런스 신호에 기초하여, 상기 실시간 정보 출력 신호에 기초한 신호에 대해 노이즈 감소 동작을 수행하게 하는 명령들을 포함하는, 컴퓨터-판독가능 매체.
  42. M개의 트랜스듀서들의 어레이로서, 상기 M 은 1보다 큰 정수인, 상기 어레이; 및
    트레이닝된 복수의 계수값들에 따라 소스 분리 필터링 동작을 수행하는 수단을 포함하고,
    상기 소스 분리 필터링 동작을 수행하는 수단은 M채널 신호를 실시간으로 필터링하여 실시간 정보 출력 신호를 획득하도록 구성되고,
    상기 트레이닝된 복수의 계수값들은 복수의 M채널 트레이닝 신호들에 기초하고,
    상기 복수의 M채널 트레이닝 신호들 중 하나는 적어도 하나의 정보 소스 및 적어도 하나의 간섭 소스에 응답하여 M개의 트랜스듀서들에 의해 생성된 신호들에 기초하고, 그 트랜스듀서들 및 소스들은 제 1 공간 구성으로 배열되며,
    상기 복수의 M채널 트레이닝 신호들 중 다른 하나는 적어도 하나의 정보 소스 및 적어도 하나의 간섭 소스에 응답하여 M개의 트랜스듀서들에 의해 생성된 신호들에 기초하고, 그 트랜스듀서들 및 소스들은 상기 제 1 공간 구성과는 상이한 제 2 공간 구성으로 배열되는, 신호 프로세싱 장치.
  43. 제 42 항에 있어서,
    상기 신호 프로세싱 장치는 상기 어레이 및 상기 소스 분리 필터링 동작을 수행하는 수단을 포함하는 이동 사용자 단말기를 포함하는, 신호 프로세싱 장치.
  44. 제 42 항에 있어서,
    상기 신호 프로세싱 장치는 상기 어레이 및 상기 소스 분리 필터링 동작을 수행하는 수단을 포함하는 무선 헤드셋을 포함하는, 신호 프로세싱 장치.
  45. 제 42 항에 있어서,
    상기 어레이의 M개의 트랜스듀서들은 서로에 대해 제 3 공간 구성으로 배열 되고,
    상기 제 1 공간 구성 내에서, 상기 M개의 트랜스듀서들은 서로에 대해 상기 제 3 공간 구성으로 배열되는, 신호 프로세싱 장치.
  46. 제 42 항에 있어서,
    상기 제 1 공간 구성 내에서, 상기 M개의 트랜스듀서들은 상기 적어도 하나의 정보 소스에 대해 제 1 공간 배향으로 배향되는 어레이에 배치되고,
    상기 제 2 공간 구성 내에서, 상기 M개의 트랜스듀서들은 상기 적어도 하나의 정보 소스에 대해 제 2 공간 배향으로 배향되는 어레이에 배치되며,
    상기 제 2 공간 배향은 상기 제 1 공간 배향과는 상이한, 신호 프로세싱 장치.
  47. 제 42 항에 있어서,
    상기 트레이닝된 복수의 계수값들은 비선형 유계 함수에 기초하여 복수의 계수값들로부터 계산되는, 신호 프로세싱 장치.
  48. 제 42 항에 있어서,
    상기 소스 분리 필터링 동작을 수행하는 수단은, (A) 정보 출력 채널 및 (B) 간섭 출력 채널 중 일 채널의 주파수 빈을 상기 2 채널 중 다른 채널에 재할당함으로써 상기 M채널 신호를 필터링하도록 구성되는, 신호 프로세싱 장치.
  49. 제 42 항에 있어서,
    상기 신호 프로세싱 장치는 상기 실시간 정보 출력 신호에 기초한 신호를 필터링하도록 배열된 적응적 필터링 수단을 포함하고,
    상기 적응적 필터링 수단은 수렴된 소스 분리 필터 구조의 트레이닝된 복수의 계수값들에 기초하는 초기 조건들에 따라 초기화되고,
    상기 초기 조건들은 (A) 적응 필터의 초기의 복수의 탭 가중치들 및 (B) 상기 적응 필터의 초기 이력 중 적어도 하나를 포함하는, 신호 프로세싱 장치.
  50. 제 49 항에 있어서,
    상기 적응적 필터링 수단은, 상기 실시간 정보 출력 신호의 특성에 기초하여, 상기 실시간 정보 출력 신호에 기초한 신호에 대해 스케일링 동작을 수행하도록 구성되는, 신호 프로세싱 장치.
  51. 제 49 항에 있어서,
    상기 적응적 필터링 수단은 간섭 레퍼런스 신호를 생성하도록 구성되고,
    상기 신호 프로세싱 장치는, 상기 간섭 레퍼런스 신호에 기초하여, 상기 실시간 정보 출력 신호에 기초한 신호에 대해 노이즈 감소 동작을 수행하도록 구성된 노이즈 감소 수단을 포함하는, 신호 프로세싱 장치.
  52. 제 42 항에 있어서,
    상기 신호 프로세싱 장치는 (A) 상기 M채널 신호 및 (B) 상기 실시간 정보 출력 신호에 기초한 신호 중 적어도 하나에 대해 에코 소거 동작을 수행하도록 구성된 에코 소거 수단을 포함하는, 신호 프로세싱 장치.
  53. 복수의 M채널 트레이닝 신호들에 기초하여, 수렴된 소스 분리 필터 구조를 획득하기 위해 소스 분리 필터 구조의 복수의 계수값들을 트레이닝하는 단계로서, 상기 M 은 1보다 큰 정수인, 상기 소스 분리 필터 구조의 복수의 계수값들을 트레이닝하는 단계; 및
    상기 수렴된 소스 분리 필터 구조가 상기 복수의 M채널 트레이닝 신호들 각각을 적어도 정보 출력 신호 및 간섭 출력 신호로 충분히 분리하는지를 판정하는 단계를 포함하고,
    상기 복수의 M채널 트레이닝 신호들 각각은 적어도 하나의 정보 소스 및 적어도 하나의 간섭 소스에 응답하여 M개의 트랜스듀서들에 의해 생성된 신호들에 기초하고,
    상기 복수의 M채널 트레이닝 신호들 중 적어도 2개는 (A) 상기 적어도 하나의 정보 소스의 공간 특성, (B) 상기 적어도 하나의 간섭 소스의 공간 특성, (C) 상기 적어도 하나의 정보 소스의 스펙트럼 특성, 및 (D) 상기 적어도 하나의 간섭 소스의 스펙트럼 특성 중 적어도 하나에 대해 상이하며,
    상기 소스 분리 필터 구조의 복수의 계수값들을 트레이닝하는 단계는 독립 벡터 분석 알고리즘 및 제한된 독립 벡터 분석 알고리즘 중 적어도 하나에 따라 상기 복수의 계수값들을 업데이트하는 단계를 포함하는, 신호 프로세싱 방법.
  54. 제 53 항에 있어서,
    상기 신호 프로세싱 방법은, 상기 수렴된 소스 분리 필터 구조의 트레이닝된 복수의 계수값들에 기초하여, 실시간 정보 출력 신호를 획득하기 위해 M채널 신호를 실시간으로 필터링하는 단계를 포함하는, 신호 프로세싱 방법.
  55. 제 54 항에 있어서,
    상기 신호 프로세싱 방법은,
    상기 수렴된 소스 분리 필터 구조의 트레이닝된 복수의 계수값들에 기초하여, 적응 필터에 대한 초기 조건들을 생성하는 단계;
    상기 초기 조건들에 따라 상기 적응 필터를 초기화하는 단계; 및
    상기 초기화에 후속하여, 상기 실시간 정보 출력 신호에 기초한 신호를 필터링하기 위해 상기 적응 필터를 이용하는 단계를 포함하고,
    상기 초기 조건들은 (A) 상기 적응 필터의 초기의 복수의 탭 가중치들 및 (B) 상기 적응 필터의 초기 이력 중 적어도 하나를 포함하는, 신호 프로세싱 방법.
  56. M개의 트랜스듀서들의 어레이로서, 상기 M 은 1보다 큰 정수인, 상기 어레이; 및
    트레이닝된 복수의 계수값들을 갖는 소스 분리 필터 구조를 포함하고,
    상기 소스 분리 필터 구조는 M채널 신호를 실시간으로 필터링하여 실시간 정보 출력 신호를 획득하도록 구성되고,
    상기 트레이닝된 복수의 계수값들은 복수의 M채널 트레이닝 신호들에 기초하고,
    상기 복수의 M채널 트레이닝 신호들 각각은 적어도 하나의 정보 소스 및 적어도 하나의 간섭 소스에 응답하여 M개의 트랜스듀서들에 의해 생성된 신호들에 기초하고,
    상기 복수의 M채널 트레이닝 신호들 중 적어도 2개는 (A) 상기 적어도 하나의 정보 소스의 공간 특성, (B) 상기 적어도 하나의 간섭 소스의 공간 특성, (C) 상기 적어도 하나의 정보 소스의 스펙트럼 특성, 및 (D) 상기 적어도 하나의 간섭 소스의 스펙트럼 특성 중 적어도 하나에 대해 상이하며,
    상기 트레이닝된 복수의 계수값들은 독립 벡터 분석 알고리즘 및 제한된 독립 벡터 분석 알고리즘 중 적어도 하나에 따라 복수의 계수값들을 업데이트하는 것에 기초하는, 신호 프로세싱 장치.
  57. 제 9 항에 있어서,
    상기 신호 프로세싱 방법은,
    복수의 트랜스듀서들을 이용하여 M채널 포착 신호를 포착하는 단계로서, 상기 M채널 신호는 상기 M채널 포착 신호에 기초하는, 상기 포착하는 단계; 및
    상기 M채널 신호를 실시간으로 필터링하는 단계에 후속하여, 상기 복수의 트랜스듀서들 중 적어도 하나의 트랜스듀서의 이득을 재교정하는 단계를 포함하는, 신호 프로세싱 방법.
  58. 제 9 항에 있어서,
    상기 신호 프로세싱 방법은, 상기 M채널 신호를 실시간으로 필터링하는 단계에 후속하여 그리고 복수의 M채널 트레이닝 신호들에 기초하여, 소스 분리 필터 구조의 복수의 계수값들을 트레이닝하여 제 2 의 수렴된 소스 분리 필터 구조를 획득하는 단계를 포함하는, 신호 프로세싱 방법.
KR1020097020139A 2007-02-26 2008-02-26 신호 분리를 위한 시스템, 방법 및 장치 KR20090123921A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US89167707P 2007-02-26 2007-02-26
US60/891,677 2007-02-26

Publications (1)

Publication Number Publication Date
KR20090123921A true KR20090123921A (ko) 2009-12-02

Family

ID=39345147

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020097020139A KR20090123921A (ko) 2007-02-26 2008-02-26 신호 분리를 위한 시스템, 방법 및 장치

Country Status (7)

Country Link
US (1) US20080208538A1 (ko)
EP (1) EP2115743A1 (ko)
JP (2) JP2010519602A (ko)
KR (1) KR20090123921A (ko)
CN (1) CN101622669B (ko)
TW (1) TW200849219A (ko)
WO (1) WO2008106474A1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190060628A (ko) * 2017-11-24 2019-06-03 한국전자통신연구원 심리음향 기반 가중된 오류 함수를 이용한 오디오 신호 부호화 방법 및 장치, 그리고 오디오 신호 복호화 방법 및 장치
KR20210078384A (ko) * 2019-12-17 2021-06-28 베이징 시아오미 인텔리전트 테크놀로지 컴퍼니 리미티드 오디오 신호 처리 방법, 장치, 단말기 및 저장 매체

Families Citing this family (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7099821B2 (en) * 2003-09-12 2006-08-29 Softmax, Inc. Separation of target acoustic signals in a multi-transducer arrangement
WO2007103037A2 (en) 2006-03-01 2007-09-13 Softmax, Inc. System and method for generating a separated signal
CN101039534B (zh) * 2006-03-15 2012-06-20 鸿富锦精密工业(深圳)有限公司 声音检测设备和自动传送装置
US8898036B2 (en) 2007-08-06 2014-11-25 Rosemount Inc. Process variable transmitter with acceleration sensor
US8254588B2 (en) 2007-11-13 2012-08-28 Stmicroelectronics Asia Pacific Pte., Ltd. System and method for providing step size control for subband affine projection filters for echo cancellation applications
US8554551B2 (en) * 2008-01-28 2013-10-08 Qualcomm Incorporated Systems, methods, and apparatus for context replacement by audio level
US8321214B2 (en) * 2008-06-02 2012-11-27 Qualcomm Incorporated Systems, methods, and apparatus for multichannel signal amplitude balancing
WO2009151578A2 (en) * 2008-06-09 2009-12-17 The Board Of Trustees Of The University Of Illinois Method and apparatus for blind signal recovery in noisy, reverberant environments
KR101233271B1 (ko) * 2008-12-12 2013-02-14 신호준 신호 분리 방법, 상기 신호 분리 방법을 이용한 통신 시스템 및 음성인식시스템
US8208649B2 (en) * 2009-04-28 2012-06-26 Hewlett-Packard Development Company, L.P. Methods and systems for robust approximations of impulse responses in multichannel audio-communication systems
JP5375400B2 (ja) * 2009-07-22 2013-12-25 ソニー株式会社 音声処理装置、音声処理方法およびプログラム
US20110096915A1 (en) * 2009-10-23 2011-04-28 Broadcom Corporation Audio spatialization for conference calls with multiple and moving talkers
US9031221B2 (en) * 2009-12-22 2015-05-12 Cyara Solutions Pty Ltd System and method for automated voice quality testing
WO2011129725A1 (en) 2010-04-12 2011-10-20 Telefonaktiebolaget L M Ericsson (Publ) Method and arrangement for noise cancellation in a speech encoder
WO2012107561A1 (en) * 2011-02-10 2012-08-16 Dolby International Ab Spatial adaptation in multi-microphone sound capture
US9207670B2 (en) 2011-03-21 2015-12-08 Rosemount Inc. Degrading sensor detection implemented within a transmitter
CN102890936A (zh) * 2011-07-19 2013-01-23 联想(北京)有限公司 一种音频处理方法、终端设备及系统
KR20130014895A (ko) * 2011-08-01 2013-02-12 한국전자통신연구원 음원 분리 기준 결정 장치와 방법 및 음원 분리 장치와 방법
US11665482B2 (en) 2011-12-23 2023-05-30 Shenzhen Shokz Co., Ltd. Bone conduction speaker and compound vibration device thereof
US9146301B2 (en) * 2012-01-25 2015-09-29 Fuji Xerox Co., Ltd. Localization using modulated ambient sounds
US9282405B2 (en) 2012-04-24 2016-03-08 Polycom, Inc. Automatic microphone muting of undesired noises by microphone arrays
US20130315402A1 (en) * 2012-05-24 2013-11-28 Qualcomm Incorporated Three-dimensional sound compression and over-the-air transmission during a call
US9052240B2 (en) 2012-06-29 2015-06-09 Rosemount Inc. Industrial process temperature transmitter with sensor stress diagnostics
US9602122B2 (en) * 2012-09-28 2017-03-21 Rosemount Inc. Process variable measurement noise diagnostic
EP2830063A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for decoding an encoded audio signal
TWI503687B (zh) * 2013-08-08 2015-10-11 Univ Asia 適應性線性時變濾波方法
WO2015044915A1 (en) * 2013-09-26 2015-04-02 Universidade Do Porto Acoustic feedback cancellation based on cesptral analysis
US9324338B2 (en) * 2013-10-22 2016-04-26 Mitsubishi Electric Research Laboratories, Inc. Denoising noisy speech signals using probabilistic model
CN103903632A (zh) * 2014-04-02 2014-07-02 重庆邮电大学 一种多声源环境下的基于听觉中枢系统的语音分离方法
CN104064195A (zh) * 2014-06-30 2014-09-24 电子科技大学 一种噪声环境下的多维盲分离方法
US9762742B2 (en) 2014-07-24 2017-09-12 Conexant Systems, Llc Robust acoustic echo cancellation for loosely paired devices based on semi-blind multichannel demixing
CN104700119B (zh) * 2015-03-24 2018-02-13 北京机械设备研究所 一种基于卷积盲源分离的脑电信号独立分量提取方法
US9191494B1 (en) * 2015-04-06 2015-11-17 Captioncall, Llc Device, system, and method for performing echo cancellation in different modes of a communication device
US10410641B2 (en) 2016-04-08 2019-09-10 Dolby Laboratories Licensing Corporation Audio source separation
TWI622043B (zh) * 2016-06-03 2018-04-21 瑞昱半導體股份有限公司 聲源分離方法與裝置
US10593351B2 (en) * 2017-05-03 2020-03-17 Ajit Arun Zadgaonkar System and method for estimating hormone level and physiological conditions by analysing speech samples
FR3067511A1 (fr) * 2017-06-09 2018-12-14 Orange Traitement de donnees sonores pour une separation de sources sonores dans un signal multicanal
JP6345327B1 (ja) * 2017-09-07 2018-06-20 ヤフー株式会社 音声抽出装置、音声抽出方法および音声抽出プログラム
US10657981B1 (en) * 2018-01-19 2020-05-19 Amazon Technologies, Inc. Acoustic echo cancellation with loudspeaker canceling beamformer
CN110875045A (zh) * 2018-09-03 2020-03-10 阿里巴巴集团控股有限公司 一种语音识别方法、智能设备和智能电视
EP3834200A4 (en) 2018-09-12 2021-08-25 Shenzhen Voxtech Co., Ltd. SIGNAL PROCESSING DEVICE INCLUDING MULTIPLE ELECTROACOUSTIC TRANSDUCERS
CN109036455B (zh) * 2018-09-17 2020-11-06 中科上声(苏州)电子有限公司 直达声与背景声提取方法、扬声器系统及其声重放方法
CN109444841B (zh) * 2018-12-26 2020-08-04 清华大学 基于修正切换函数的平滑变结构滤波方法及系统
CN110111808B (zh) * 2019-04-30 2021-06-15 华为技术有限公司 音频信号处理方法及相关产品
TWI744036B (zh) * 2020-10-14 2021-10-21 緯創資通股份有限公司 聲音辨識模型訓練方法及系統與電腦可讀取媒體
CN112489675A (zh) * 2020-11-13 2021-03-12 北京云从科技有限公司 一种多通道盲源分离方法、装置、机器可读介质及设备
US11320471B1 (en) * 2021-06-09 2022-05-03 University Of Sharjah Method of measuring impedance using Gaussian white noise excitation

Family Cites Families (75)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4649505A (en) * 1984-07-02 1987-03-10 General Electric Company Two-input crosstalk-resistant adaptive noise canceller
US4912767A (en) * 1988-03-14 1990-03-27 International Business Machines Corporation Distributed noise cancellation system
JPH03269498A (ja) * 1990-03-19 1991-12-02 Ricoh Co Ltd 雑音除去方式
US5327178A (en) * 1991-06-17 1994-07-05 Mcmanigal Scott P Stereo speakers mounted on head
US5208786A (en) * 1991-08-28 1993-05-04 Massachusetts Institute Of Technology Multi-channel signal separation
JPH05316587A (ja) * 1992-05-08 1993-11-26 Sony Corp マイクロホン装置
US5251263A (en) * 1992-05-22 1993-10-05 Andrea Electronics Corporation Adaptive noise cancellation and speech enhancement system and apparatus therefor
US5732143A (en) * 1992-10-29 1998-03-24 Andrea Electronics Corp. Noise cancellation apparatus
US5383164A (en) * 1993-06-10 1995-01-17 The Salk Institute For Biological Studies Adaptive system for broadband multisignal discrimination in a channel with reverberation
US5375174A (en) * 1993-07-28 1994-12-20 Noise Cancellation Technologies, Inc. Remote siren headset
US5706402A (en) * 1994-11-29 1998-01-06 The Salk Institute For Biological Studies Blind signal processing system employing information maximization to recover unknown signals through unsupervised minimization of output redundancy
US6002776A (en) * 1995-09-18 1999-12-14 Interval Research Corporation Directional acoustic signal processor and method therefor
US5770841A (en) * 1995-09-29 1998-06-23 United Parcel Service Of America, Inc. System and method for reading package information
US5675659A (en) * 1995-12-12 1997-10-07 Motorola Methods and apparatus for blind separation of delayed and filtered sources
US6130949A (en) * 1996-09-18 2000-10-10 Nippon Telegraph And Telephone Corporation Method and apparatus for separation of source, program recorded medium therefor, method and apparatus for detection of sound source zone, and program recorded medium therefor
WO1998017046A1 (en) * 1996-10-17 1998-04-23 Andrea Electronics Corporation Noise cancelling acoustical improvement to wireless telephone or cellular phone
JPH10124084A (ja) * 1996-10-18 1998-05-15 Oki Electric Ind Co Ltd 音声処理装置
US5999567A (en) * 1996-10-31 1999-12-07 Motorola, Inc. Method for recovering a source signal from a composite signal and apparatus therefor
US7072476B2 (en) * 1997-02-18 2006-07-04 Matech, Inc. Audio headset
FR2759824A1 (fr) * 1997-02-18 1998-08-21 Philips Electronics Nv Systeme de separation de sources non stationnaires
US6167417A (en) * 1998-04-08 2000-12-26 Sarnoff Corporation Convolutive blind source separation using a multiple decorrelation method
DE19822021C2 (de) * 1998-05-15 2000-12-14 Siemens Audiologische Technik Hörgerät mit automatischem Mikrofonabgleich sowie Verfahren zum Betrieb eines Hörgerätes mit automatischem Mikrofonabgleich
US6654468B1 (en) * 1998-08-25 2003-11-25 Knowles Electronics, Llc Apparatus and method for matching the response of microphones in magnitude and phase
US6898612B1 (en) * 1998-11-12 2005-05-24 Sarnoff Corporation Method and system for on-line blind source separation
US6606506B1 (en) * 1998-11-19 2003-08-12 Albert C. Jones Personal entertainment and communication device
US6381570B2 (en) * 1999-02-12 2002-04-30 Telogy Networks, Inc. Adaptive two-threshold method for discriminating noise from speech in a communication signal
JP2002540696A (ja) * 1999-03-19 2002-11-26 シーメンス アクチエンゲゼルシヤフト ノイズ音響に満ちた環境でのオーディオ信号の受信と処理のための方法
JP3688934B2 (ja) * 1999-04-16 2005-08-31 アルパイン株式会社 マイクロホンシステム
US6526148B1 (en) * 1999-05-18 2003-02-25 Siemens Corporate Research, Inc. Device and method for demixing signal mixtures using fast blind source separation technique based on delay and attenuation compensation, and for selecting channels for the demixed signals
JP2001022380A (ja) * 1999-07-07 2001-01-26 Alpine Electronics Inc ノイズ/オーディオ音キャンセル装置
US6424960B1 (en) * 1999-10-14 2002-07-23 The Salk Institute For Biological Studies Unsupervised adaptation and classification of multiple classes and sources in blind signal separation
US6594367B1 (en) * 1999-10-25 2003-07-15 Andrea Electronics Corporation Super directional beamforming design and implementation
US6549630B1 (en) * 2000-02-04 2003-04-15 Plantronics, Inc. Signal expander with discrimination between close and distant acoustic source
CN1418448A (zh) * 2000-03-14 2003-05-14 奥迪亚科技股份责任有限公司 多麦克风定向系统的适应性麦克风匹配
US20010038699A1 (en) * 2000-03-20 2001-11-08 Audia Technology, Inc. Automatic directional processing control for multi-microphone system
US8903737B2 (en) * 2000-04-25 2014-12-02 Accenture Global Service Limited Method and system for a wireless universal mobile product interface
US6879952B2 (en) * 2000-04-26 2005-04-12 Microsoft Corporation Sound source separation using convolutional mixing and a priori sound source knowledge
US20030179888A1 (en) * 2002-03-05 2003-09-25 Burnett Gregory C. Voice activity detection (VAD) devices and methods for use with noise suppression systems
US7027607B2 (en) * 2000-09-22 2006-04-11 Gn Resound A/S Hearing aid with adaptive microphone matching
EP1356706A2 (en) * 2000-09-29 2003-10-29 Knowles Electronics, LLC Second order microphone array
US7471798B2 (en) * 2000-09-29 2008-12-30 Knowles Electronics, Llc Microphone array having a second order directional pattern
JP4028680B2 (ja) * 2000-11-01 2007-12-26 インターナショナル・ビジネス・マシーンズ・コーポレーション 観測データから原信号を復元する信号分離方法、信号処理装置、モバイル端末装置、および記憶媒体
US20040053839A1 (en) * 2000-12-21 2004-03-18 Andrea Leblanc Method of protecting cells against apoptosis and assays to identify agents which modulate apoptosis
US7206418B2 (en) * 2001-02-12 2007-04-17 Fortemedia, Inc. Noise suppression for a wireless communication device
CA2436484C (en) * 2001-02-14 2008-01-22 Gentex Corporation Vehicle accessory microphone
DE60113732T2 (de) * 2001-05-23 2006-06-29 Phonak Ag Verfahren zur erzeugung eines elektrischen ausgangssignals und akustisch/elektrisches wandlungssystem
US7123727B2 (en) * 2001-07-18 2006-10-17 Agere Systems Inc. Adaptive close-talking differential microphone array
US8098844B2 (en) * 2002-02-05 2012-01-17 Mh Acoustics, Llc Dual-microphone spatial noise suppression
AU2002309146A1 (en) * 2002-06-14 2003-12-31 Nokia Corporation Enhanced error concealment for spatial audio
CN1682566A (zh) * 2002-09-13 2005-10-12 皇家飞利浦电子股份有限公司 校准第一麦克风和第二麦克风
KR20050115857A (ko) * 2002-12-11 2005-12-08 소프트맥스 인코퍼레이티드 안정성 강제하에서 독립 성분 분석을 사용하여 음향을처리하는 시스템 및 방법
US7142682B2 (en) * 2002-12-20 2006-11-28 Sonion Mems A/S Silicon-based transducer for use in hearing instruments and listening devices
EP1453348A1 (de) * 2003-02-25 2004-09-01 AKG Acoustics GmbH Selbstkalibrierung von Arraymikrofonen
DE10310579B4 (de) * 2003-03-11 2005-06-16 Siemens Audiologische Technik Gmbh Automatischer Mikrofonabgleich bei einem Richtmikrofonsystem mit wenigstens drei Mikrofonen
KR100486736B1 (ko) * 2003-03-31 2005-05-03 삼성전자주식회사 두개의 센서를 이용한 목적원별 신호 분리방법 및 장치
DE10316716A1 (de) * 2003-04-11 2004-10-28 Epcos Ag Bauelement mit einer piezoelektrischen Funktionsschicht
US7203323B2 (en) * 2003-07-25 2007-04-10 Microsoft Corporation System and process for calibrating a microphone array
US7424119B2 (en) * 2003-08-29 2008-09-09 Audio-Technica, U.S., Inc. Voice matching system for audio transducers
US7099821B2 (en) * 2003-09-12 2006-08-29 Softmax, Inc. Separation of target acoustic signals in a multi-transducer arrangement
US7019463B2 (en) * 2003-10-21 2006-03-28 Raymond Kesterson Daytime running light module and system
US7515721B2 (en) * 2004-02-09 2009-04-07 Microsoft Corporation Self-descriptive microphone array
US7415117B2 (en) * 2004-03-02 2008-08-19 Microsoft Corporation System and method for beamforming using a microphone array
US7688985B2 (en) * 2004-04-30 2010-03-30 Phonak Ag Automatic microphone matching
DE602004015987D1 (de) * 2004-09-23 2008-10-02 Harman Becker Automotive Sys Mehrkanalige adaptive Sprachsignalverarbeitung mit Rauschunterdrückung
US7826624B2 (en) * 2004-10-15 2010-11-02 Lifesize Communications, Inc. Speakerphone self calibration and beam forming
US7464029B2 (en) * 2005-07-22 2008-12-09 Qualcomm Incorporated Robust separation of speech signals in a noisy environment
JP4701931B2 (ja) * 2005-09-02 2011-06-15 日本電気株式会社 信号処理の方法及び装置並びにコンピュータプログラム
DE102005047047A1 (de) * 2005-09-30 2007-04-12 Siemens Audiologische Technik Gmbh Mikrofonkalibrierung bei einem RGSC-Beamformer
US7813923B2 (en) * 2005-10-14 2010-10-12 Microsoft Corporation Calibration based beamforming, non-linear adaptive filtering, and multi-sensor headset
US8702687B2 (en) * 2005-11-03 2014-04-22 Luxon, Inc. Surgical laser systems for soft and hard tissue and methods of use thereof
CN1809105B (zh) * 2006-01-13 2010-05-12 北京中星微电子有限公司 适用于小型移动通信设备的双麦克语音增强方法及系统
US20070244698A1 (en) * 2006-04-18 2007-10-18 Dugger Jeffery D Response-select null steering circuit
JP2008057926A (ja) * 2006-09-01 2008-03-13 Sanyo Electric Co Ltd タンクユニット
US20080175407A1 (en) * 2007-01-23 2008-07-24 Fortemedia, Inc. System and method for calibrating phase and gain mismatches of an array microphone
US8175291B2 (en) * 2007-12-19 2012-05-08 Qualcomm Incorporated Systems, methods, and apparatus for multi-microphone based speech enhancement

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190060628A (ko) * 2017-11-24 2019-06-03 한국전자통신연구원 심리음향 기반 가중된 오류 함수를 이용한 오디오 신호 부호화 방법 및 장치, 그리고 오디오 신호 복호화 방법 및 장치
KR20210078384A (ko) * 2019-12-17 2021-06-28 베이징 시아오미 인텔리전트 테크놀로지 컴퍼니 리미티드 오디오 신호 처리 방법, 장치, 단말기 및 저장 매체
US11206483B2 (en) 2019-12-17 2021-12-21 Beijing Xiaomi Intelligent Technology Co., Ltd. Audio signal processing method and device, terminal and storage medium

Also Published As

Publication number Publication date
TW200849219A (en) 2008-12-16
JP2013117728A (ja) 2013-06-13
WO2008106474A1 (en) 2008-09-04
CN101622669B (zh) 2013-03-13
US20080208538A1 (en) 2008-08-28
JP2010519602A (ja) 2010-06-03
EP2115743A1 (en) 2009-11-11
JP5587396B2 (ja) 2014-09-10
CN101622669A (zh) 2010-01-06

Similar Documents

Publication Publication Date Title
JP5587396B2 (ja) 信号分離のためのシステム、方法、および装置
US8160273B2 (en) Systems, methods, and apparatus for signal separation using data driven techniques
US8175291B2 (en) Systems, methods, and apparatus for multi-microphone based speech enhancement
US7366662B2 (en) Separation of target acoustic signals in a multi-transducer arrangement
JP5456778B2 (ja) 了解度の向上のためのシステム、方法、装置、およびコンピュータ可読記録媒体
JP5323995B2 (ja) マルチチャネル信号の残響除去のためのシステム、方法、装置、およびコンピュータ可読媒体
Seltzer Microphone array processing for robust speech recognition
JP5738020B2 (ja) 音声認識装置及び音声認識方法
KR100486736B1 (ko) 두개의 센서를 이용한 목적원별 신호 분리방법 및 장치
US8666737B2 (en) Noise power estimation system, noise power estimating method, speech recognition system and speech recognizing method
WO2022256577A1 (en) A method of speech enhancement and a mobile computing device implementing the method
Maas et al. A two-channel acoustic front-end for robust automatic speech recognition in noisy and reverberant environments
Seltzer Bridging the gap: Towards a unified framework for hands-free speech recognition using microphone arrays
Yoshioka et al. Noise model transfer: Novel approach to robustness against nonstationary noise
Bartolewska et al. Frame-based Maximum a Posteriori Estimation of Second-Order Statistics for Multichannel Speech Enhancement in Presence of Noise
Ko et al. Datasets for Detection and Localization of Speech Buried in Drone Noise
Milano et al. Sector-Based Interference Cancellation for Robust Keyword Spotting Applications Using an Informed MPDR Beamformer
Mizumachi et al. Passive hybrid subtractive beamformer for near-field sound sources

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application
J201 Request for trial against refusal decision
J301 Trial decision

Free format text: TRIAL DECISION FOR APPEAL AGAINST DECISION TO DECLINE REFUSAL REQUESTED 20120228

Effective date: 20130723