KR20120027510A - 멀티채널 신호의 위상 기반 프로세싱을 위한 시스템들, 방법들, 장치들, 및 컴퓨터 판독가능한 매체 - Google Patents

멀티채널 신호의 위상 기반 프로세싱을 위한 시스템들, 방법들, 장치들, 및 컴퓨터 판독가능한 매체 Download PDF

Info

Publication number
KR20120027510A
KR20120027510A KR1020127000692A KR20127000692A KR20120027510A KR 20120027510 A KR20120027510 A KR 20120027510A KR 1020127000692 A KR1020127000692 A KR 1020127000692A KR 20127000692 A KR20127000692 A KR 20127000692A KR 20120027510 A KR20120027510 A KR 20120027510A
Authority
KR
South Korea
Prior art keywords
channel
multichannel signal
amplitude
calculated
level
Prior art date
Application number
KR1020127000692A
Other languages
English (en)
Other versions
KR101275442B1 (ko
Inventor
에릭 피써
어난 류
Original Assignee
퀄컴 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 퀄컴 인코포레이티드 filed Critical 퀄컴 인코포레이티드
Publication of KR20120027510A publication Critical patent/KR20120027510A/ko
Application granted granted Critical
Publication of KR101275442B1 publication Critical patent/KR101275442B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2205/00Details of stereophonic arrangements covered by H04R5/00 but not provided for in any of its subgroups
    • H04R2205/022Plurality of transducers corresponding to a plurality of sound channels in each earpiece of headphones or in a single enclosure
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R29/00Monitoring arrangements; Testing arrangements
    • H04R29/004Monitoring arrangements; Testing arrangements for microphones
    • H04R29/005Microphone arrays
    • H04R29/006Microphone matching

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Abstract

멀티채널 신호의 위상 기반 프로세싱, 및 근접 검출을 포함하는 애플리케이션들이 개시된다.

Description

멀티채널 신호의 위상 기반 프로세싱을 위한 시스템들, 방법들, 장치들, 및 컴퓨터 판독가능한 매체{SYSTEMS, METHODS, APPARATUS, AND COMPUTER-READABLE MEDIA FOR PHASE-BASED PROCESSING OF MULTICHANNEL SIGNAL}
35 U.S.C.§119하의 우선권 주장
본 특허 출원은 2009년 6월 9일 출원되고, 본 출원의 양수인에게 양도된 "Systems, methods, apparatus, and computer-readable media for coherence detection" 이란 명칭의 미국 가특허 출원 번호 61/185,518 호에 대한 우선권을 주장한다. 본 특허 출원은 또한, 2009년 9월 8일 출원되고, 본 출원의 양수인에게 양도된 "Systems, methods, apparatus, and computer-readable media for coherence detection" 이란 명칭의 미국 가특허 출원 번호 61/240,318 호에 대한 우선권을 주장한다.
본 특허 출원은 또한, 대리인 사건 번호 091561P1 이고, 2009년 7월 20일 출원되고, 본 출원의 양수인에게 양도된 "Systems, methods, apparatus, and computer-readable media for phase-based processing of multichannel signal" 이란 명칭의 미국 가특허 출원 번호 61/227,037 호에 대한 우선권을 주장한다. 본 특허 출원은 또한, 2009년 9월 8일 출원되고, 본 출원의 양수인에게 양도된 "Systems, methods, apparatus, and computer-readable media for phase-based processing of multichannel signal" 이란 명칭의 미국 가특허 출원 번호 61/240,320 호에 대한 우선권을 주장한다.
본 개시물은 신호 프로세싱에 관한 것이다.
조용한 사무실 또는 집 환경들에서 이전에 수행되었던 다수의 활동들이, 현재는 자동차, 거리, 또는 카페와 같은 음향적으로 변화하는 상황들에서 수행되고 있다. 예를 들어, 사람이 음성 통신 채널을 사용하여 다른 사람과 통신하기를 원할 수도 있다. 이 채널은 예를 들어, 모바일 무선 핸드셋 또는 헤드셋, 워키토키, 양방향 라디오, 카-키트, 또는 다른 통신 디바이스에 의해 제공될 수도 있다. 그 결과, 사람들이 모이는 경향이 있는 곳에서 통상적으로 마주치는 잡음 내용의 종류로, 사용자들이 다른 사람들에 의해 둘러싸인 환경에서 모바일 디바이스들 (예를 들어, 스마트폰들, 핸드셋들, 및/또는 헤드셋들) 을 사용하여 상당한 양의 음성 통신이 발생하고 있다. 이러한 잡음은 전화 대화의 원단에서 사용자를 산만하게 하고 귀찮게 하는 경향이 있다. 또한, 다수의 표준 자동화 비즈니스 트랜잭션들 (예를 들어, 잔고 또는 주가 확인들) 은 음성 인식 기반 데이터 문의를 이용하고, 이들 시스템들의 정확성은 간섭 잡음에 의해 상당히 방해될 수도 있다.
잡음이 있는 환경들에서 통신이 발생하는 애플리케이션들에 대해, 원하는 스피치 신호를 배경 잡음으로부터 분리하는 것이 바람직할 수도 있다. 잡음은 원하는 신호와 간섭하거나 그렇지 않으면 그 원하는 신호를 열화시키는 모든 신호들의 조합으로서 정의될 수도 있다. 배경 잡음은 다른 사람들의 배경 대화 (background conversation) 와 같은 음향 환경내에서 생성된 다수의 잡음 신호들 뿐만 아니라 원하는 신호 및/또는 임의의 다른 신호들로부터 생성된 반향음 및 잔향음을 포함할 수도 있다. 원하는 스피치 신호가 배경 잡음으로부터 분리되지 않으면, 그 신호의 신뢰가능하고 효율적 사용이 어려울 수도 있다. 하나의 특정한 예에서, 스피치 신호는 잡음이 있는 환경에서 생성되고, 스피치 프로세싱 방법이 스피치 신호를 환경적 잡음으로부터 분리하기 위해 사용된다.
모바일 환경에서 직면하는 잡음은, 경쟁하는 대화자, 음악, 웅성거림, 거리 잡음, 및/또는 공항 잡음과 같은 다양한 다른 성분들을 포함할 수도 있다. 이러한 잡음의 시그너처가 통상적으로 비정상적이고, 사용자의 자신의 주파수 시그너처에 근접하기 때문에, 잡음은 종래의 단일 마이크로폰 또는 고정된 빔형성 타입 방법들을 사용하여 모델링하는 것이 어려울 수도 있다. 단일 마이크로폰 잡음 감소 기법들은 통상적으로, 최적의 성능을 달성하기 위해 상당한 파라미터 튜닝을 요구한다. 예를 들어, 적합한 잡음 레퍼런스가 이러한 경우에서 직접적으로 이용가능하지 않을 수도 있고, 잡음 레퍼런스를 간접적으로 유도하는 것이 필요할 수도 있다. 따라서, 다중의 마이크로폰 기반 어드밴스드 신호 프로세싱이 잡음이 있는 환경들에서 음성 통신을 위해 모바일 디바이스들의 사용을 지원하기 위해 바람직할 수도 있다.
일반 구성에 따라 멀티채널 신호를 프로세싱하는 방법은, 멀티채널 신호의 복수의 상이한 주파수 성분 각각에 대해, 멀티채널 신호의 제 1 채널에서의 주파수 성분의 위상과 멀티채널 신호의 제 2 채널에서의 주파수 성분의 위상 사이의 차이를 계산하여 복수의 계산된 위상차를 획득하는 단계를 포함한다. 이러한 방법은 제 1 채널의 레벨 및 제 2 채널의 대응하는 레벨을 계산하는 단계를 포함한다. 이러한 방법은 제 1 채널의 계산된 레벨, 제 2 채널의 계산된 레벨, 및 복수의 계산된 위상차 중 적어도 하나에 기초하여 이득 팩터의 업데이트된 값을 계산하는 단계, 및 업데이트된 값에 따라, 제 1 채널의 대응하는 진폭에 대한 제 2 채널의 진폭을 변경함으로써 프로세싱된 멀티채널 신호를 발생시키는 단계를 포함한다. 이들 작용 각각을 수행하는 수단을 포함하는 장치가 또한 여기에 개시된다. 이러한 방법을 수행하는 머신 실행가능한 명령들을 저장하는 유형의 특징들을 갖는 컴퓨터 판독가능한 매체가 또한 여기에 개시된다.
일반 구성에 따라 멀티채널 신호를 프로세싱하는 장치는, 멀티채널 신호의 복수의 상이한 주파수 성분 각각에 대해, 멀티채널 신호의 제 1 채널에서의 주파수 성분의 위상과 멀티채널 신호의 제 2 채널에서의 주파수 성분의 위상 사이의 차이를 계산함으로써 복수의 계산된 위상차를 획득하도록 구성된 제 1 계산기를 포함한다. 이러한 장치는, 제 1 채널의 레벨 및 제 2 채널의 대응하는 레벨을 계산하도록 구성된 제 2 계산기, 및 제 1 채널의 계산된 레벨, 제 2 채널의 계산된 레벨, 및 복수의 계산된 위상차 중 적어도 하나에 기초하여, 이득 팩터의 업데이트된 값을 계산하도록 구성된 제 3 계산기를 포함한다. 이러한 장치는, 업데이트된 값에 따라, 제 1 채널의 대응하는 진폭에 대한 제 2 채널의 진폭을 변경함으로써 프로세싱된 멀티채널 신호를 발생시키도록 구성된 이득 제어 엘리먼트를 포함한다.
도 1 은 사용중인 헤드셋 (D100) 의 측면도를 도시한다.
도 2 는 사용자의 귀에 장착된 헤드셋 (D100) 의 평면도를 도시한다.
도 3a 는 사용중인 핸드셋 (D300) 의 측면도를 도시한다.
도 3b 는 마이크로폰 어레이에 관한 브로드사이드 (broadside) 및 엔드파이어 (endfire) 의 예들을 도시한다.
도 4a 는 일반 구성에 따라 멀티채널 신호를 프로세싱하는 방법 (M100) 에 대한 플로우차트를 도시한다.
도 4b 는 태스크 (T100) 의 구현 (T102) 의 플로우차트를 도시한다.
도 4c 는 태스크 (T110) 의 구현 (T112) 의 플로우차트를 도시한다.
도 5a 는 태스크 (T300) 의 구현 (T302) 의 플로우차트를 도시한다.
도 5b 는 태스크 (T300) 의 대안의 구현 (T304) 의 플로우차트를 도시한다.
도 5c 는 방법 (M100) 의 구현 (M200) 의 플로우차트를 도시한다.
도 6a 는 도달 방향을 추정하는 접근방식을 예시하는 지리적 근사화의 예를 도시한다.
도 6b 는 2사분면 및 3사분면 값들에 대해 도 6a 의 근사화를 사용하는 예를 도시한다.
도 7 은 구형 파면을 가정하는 모델의 예를 도시한다.
도 8a 는 통과대역과 정지대역 사이에서 상대적으로 갑작스런 천이들을 갖는 마스킹 함수의 예를 도시한다.
도 8b 는 마스킹 함수에 대한 선형 롤오프의 예를 도시한다.
도 8c 는 마스킹 함수에 대한 비선형 롤오프의 예를 도시한다.
도 9a 내지 도 9c 는 상이한 파라미터 값들에 대한 비선형 함수의 예들을 도시한다.
도 10 은 마스킹 함수의 지향성 패턴의 순방향 및 역방향 로브들을 도시한다.
도 11a 는 방법 (M100) 의 구현 (M110) 의 플로우차트를 도시한다.
도 11b 는 태스크 (T360) 의 구현 (T362) 의 플로우차트를 도시한다.
도 11c 는 태스크 (T360) 의 구현 (T364) 의 플로우차트를 도시한다.
도 12a 는 방법 (M100) 의 구현 (M120) 의 플로우차트를 도시한다.
도 12b 는 방법 (M100) 의 구현 (M130) 의 플로우차트를 도시한다.
도 13a 는 방법 (M100) 의 구현 (M140) 의 플로우차트를 도시한다.
도 13b 는 방법 (M100) 의 구현 (M150) 의 플로우차트를 도시한다.
도 14a 는 3개의 상이한 임계값들에 대응하는 근접 검출 영역들의 경계들의 예를 도시한다.
도 14b 는 화자 커버리지의 콘을 획득하기 위해 근접 버블과 허용된 방향의 범위 교차의 예를 도시한다.
도 15 및 도 16 은 도 14b 에 도시된 바와 같은 소스 선택 영역 경계의 평면도 및 측면도를 도시한다.
도 17a 는 방법 (M100) 의 구현 (M160) 의 플로우차트를 도시한다.
도 17b 는 방법 (M100) 의 구현 (M170) 의 플로우차트를 도시한다.
도 18 은 방법 (M170) 의 구현 (M180) 의 플로우차트를 도시한다.
도 19a 는 일반 구성에 따른 방법 (M300) 의 플로우차트를 도시한다.
도 19b 는 방법 (M300) 의 구현 (M310) 의 플로우차트를 도시한다.
도 20a 는 방법 (M310) 의 구현 (M320) 의 플로우차트를 도시한다.
도 20b 는 일반 구성에 따른 장치 (G100) 의 블록도를 도시한다.
도 21a 는 일반 구성에 따른 장치 (A100) 의 블록도를 도시한다.
도 21b 는 장치 (A110) 의 블록도를 도시한다.
도 22 는 장치 (A120) 의 블록도를 도시한다.
도 23a 는 어레이 (R100) 의 구현 (R200) 의 블록도를 도시한다.
도 23b 는 어레이 (R200) 의 구현 (R210) 의 블록도를 도시한다.
도 24a 는 일반 구성에 따른 디바이스 (D10) 의 블록도를 도시한다.
도 24b 는 디바이스 (D10) 의 구현 (D20) 의 블록도를 도시한다.
도 25a 내지 도 25d 는 멀티-마이크로폰 무선 헤드셋 (D100) 의 다양한 도면들 도시한다.
도 26a 내지 도 26d 는 멀티-마이크로폰 무선 헤드셋 (D200) 의 다양한 도면을 도시한다.
도 27a 는 멀티-마이크로폰 통신 핸드셋 (D300) 의 (중심축을 따른) 단면도를 도시한다.
도 27b 는 디바이스 (D300) 의 구현 (D310) 의 단면도를 도시한다.
도 28a 는 멀티-마이크로폰 미디어 플레이어 (D400) 의 도면을 도시한다.
도 29a 는 멀티-마이크로폰 핸즈프리 카 키트 (D500) 의 도면을 도시한다.
도 30 은 디바이스 (D10) 의 멀티-마이크로폰 휴대용 오디오 감지 구현 (D600) 의 도면을 도시한다.
현실적 세계는 잔향음을 발생시키는 다중의 사운드들로 종종 벗어나는 단일 포인트 잡음원들을 포함하는 다중의 잡음원들이 많이 존재한다. 배경 음향 잡음은 일반 환경에 의해 생성된 다수의 잡음 신호들 및 다른 사람들의 배경 대화들에 의해 생성된 간섭 신호들, 뿐만 아니라 원하는 다른 사운드 신호 및/또는 임의의 다른 신호들로부터 생성된 반향음들 및 잔향음을 포함할 수도 있다.
환경적 잡음은 근접단 스피치 신호와 같은 감지된 오디오 신호의 명료도에 영향을 미칠 수도 있다. 배경 잡음으로부터 원하는 오디오 신호를 구별하기 위해 신호 프로세싱을 사용하는 것이 바람직할 수도 있다. 예를 들어, 잡음이 있는 환경에서 통신이 발생할 수도 있는 애플리케이션들에 대해, 배경 잡음으로부터 스피치 신호를 구별하고 그것의 명료도를 강화시키기 위해 스피치 프로세싱 방법을 사용하는 것이 바람직할 수도 있다. 이러한 프로세싱은, 잡음이 현실적 세계 조건에서 거의 항상 존재하기 때문에 일상적인 통신의 다수의 영역들에서 중요할 수도 있다.
음향 신호들을 수신하도록 구성된 2개 이상의 마이크로폰들의 어레이 (R100) 를 갖는 휴대용 오디오 감지 디바이스를 제작하는 것이 바람직할 수도 있다. 이러한 어레이를 포함하도록 구현될 수도 있고 오디오 레코딩 및/또는 음성 통신 애플리케이션을 위해 사용될 수도 있는 휴대용 오디오 감지 디바이스의 예들은, 전화 핸드셋 (예를 들어, 셀룰러 전화 핸드셋 또는 스마트폰); 유선 또는 무선 헤드셋 (예를 들어, 블루투스 헤드셋); 핸드헬드 오디오 및/또는 비디오 리코더; 오디오 및/또는 비디오 컨텐츠를 레코딩하도록 구성된 개인 미디어 플레이어; 휴대 보조 단말기 (PDA) 또는 다른 핸드헬드 컴퓨팅 디바이스; 및 노트북 컴퓨터, 랩탑 컴퓨터, 넷북 컴퓨터, 또는 다른 휴대용 컴퓨팅 디바이스를 포함한다.
정상 사용 동안, 휴대용 오디오 감지 디바이스는 원하는 사운드 소스에 대해 표준 배향의 임의의 범위에서 동작할 수도 있다. 예를 들어, 상이한 사용자가 디바이스를 상이하게 착용하거나 홀딩할 수도 있고, 동일한 사용자가 동일한 사용 주기 (예를 들어, 단일 전화 호 동안) 이더라도, 상이한 시간에 디바이스를 상이하게 착용하거나 홀딩할 수도 있다. 도 1 은 사용자의 입에 대한 디바이스의 표준 배향의 범위에서 2개의 예들을 포함하는 사중 중인 헤드셋 (D100) 의 측면도를 도시한다. 헤드셋 (D100) 은 디바이스의 통상의 사용 동안 더욱 직접적으로 사용자의 음성을 수신하도록 포지셔닝된 프라이머리 마이크로폰 (MC10), 및 디바이스의 통상의 사용 동안 덜 직접적으로 사용자의 음성을 수신하도록 포지셔닝된 세컨더리 마이크로폰 (MC20) 을 포함하는 어레이 (R100) 의 예를 갖는다. 도 2 는 사용자의 입에 대해 표준 배향에서 사용자의 귀에 장착된 헤드셋 (D100) 의 평면도를 도시한다. 도 3a 는 사용자의 입에 대해 디바이스의 표준 배향의 범위에서 2개의 예들을 포함하는 사용중인 핸드셋 (D300) 의 측면도를 도시한다.
문맥에 의해 명백하게 한정되지 않으면, 용어 "신호" 는 유선, 버스, 또는 다른 송신 매체상에 표현된 바와 같이 메모리 위치 (또는 메모리 위치들의 세트) 의 상태를 포함하는, 임의의 보통의 의미를 나타내도록 여기에서 사용된다. 문맥에 의해 명백하게 한정되지 않으면, 용어 "생성하는" 은 컴퓨팅하는 또는 다르게는 발생시키는 과 같은 임의의 보통의 의미를 나타내도록 여기에서 사용된다. 문맥에 의해 명백하게 한정되지 않으면, 용어 "계산하는" 은 복수의 값으로부터 컴퓨팅하는, 평가하는, 평활화하는 및/또는 선택하는 과 같은 임의의 보통의 의미를 나타내도록 여기에서 사용된다. 문맥에 의해 명백하게 한정되지 않으면, 용어 "획득하는" 은 계산하는, 유도하는, (예를 들어, 외부 디바이스로부터) 수신하는 및/또는 (저장 엘리먼트들의 어레이로부터) 검색하는 과 같은 임의의 보통의 의미를 나타내도록 사용된다. 문맥에 의해 명백하게 한정되지 않으면, 용어 "선택하는" 은 2개 이상의 세트 중 적어도 하나 및 모두 보다는 몇몇을 식별하는, 표시하는, 적용하는, 및/또는 사용하는 과 같은 임의의 보통의 의미를 나타내도록 사용된다. 용어 "포함하는" 이 본 설명 및 청구범위에서 사용되는 경우에, 이것은 다른 엘리먼트들 또는 동작들을 배제하지 않는다. 용어 "기초하는" ("A 가 B 에 기초하는" 에서와 같이) 은 경우들 (ⅰ) "로부터 유도된" (예를 들어, "B 는 A 의 프리커서이다"), (ⅱ) "적어도 기초하는" (예를 들어, "A 는 적어도 B 에 기초한다"), 및 특정한 문맥에서 적합하면, (ⅲ) "와 동일하다" (예를 들어, "A 는 B 와 동일하다") 를 포함하는 임의의 보통의 의미를 나타내도록 사용된다. 유사하게는, 용어 "에 응답하는" 은 "적어도 응답하는" 을 포함하는 임의의 보통의 의미를 나타내도록 사용된다.
멀티-마이크로폰 오디오 감지 디바이스의 마이크로폰의 "위치" 에 대한 레퍼런스는, 문맥에 의해 다르게 표시되지 않으면, 마이크로폰의 음향 감지면의 중심의 위치를 나타낸다. 용어 "채널" 은 특정한 문맥에 따라, 가끔은 신호 경로를 나타내고, 다른 경우에는 이러한 경우에 의해 반송된 신호를 나타내기 위해 사용된다. 다르게 나타내지 않으면, 용어 "시리즈" 는 2개 이상의 아이템들의 시퀀스를 나타내기 위해 사용된다. 용어 "로그" 는 다른 기수들로의 이러한 연산의 확장이 본 개시물의 범위 이내에 있지만 기수-10 로그를 나타내기 위해 사용된다. 용어 "주파수 성분" 은 신호의 서브대역 (예를 들어, 바크 (bark) 스케일 서브대역) 또는 (예를 들어, 고속 퓨리에 변환에 의해 발생된 바와 같은) 신호의 주파수 도메인 표현의 샘플 (또는 "빈") 과 같은 신호의 주파수 대역들 또는 주파수들의 세트 중에서 하나를 나타내기 위해 사용된다.
다르게 나타내지 않으면, 특정한 특징을 갖는 장치의 동작의 임의의 개시물이 유사한 특징을 갖는 방법을 개시하도록 또한 명백하게 의도되고 (그 반대의 경우도 마찬가지), 특정한 구성에 따른 장치의 동작의 임의의 개시물이 유사한 구성에 따른 방법을 개시하도록 또한 명백하게 의도된다 (그 반대의 경우도 마찬가지). 용어 "구성" 은 특정한 문맥에 의해 나타낸 바와 같이 방법, 장치, 및/또는 시스템에 대한 레퍼런스에서 사용될 수도 있다. 용어 "방법", "프로세스", "절차", 및 "기법" 은 특정한 문맥에 의해 다르게 나타내지 않으면 일반적으로 및 상호교환가능하게 사용된다. 용어 "장치" 및 "디바이스"는 특정한 문맥에 의해 다르게 나타내지 않으면 일반적으로 및 상호교환가능하게 또한 사용된다. 용어 "엘리먼트" 및 모듈" 은 더 큰 구성의 일부를 나타내기 위해 통상적으로 사용된다. 문맥에 의해 명백하게 한정되지 않으면, 용어 "시스템" 은 "공통 목적을 서빙하도록 상호작용하는 엘리먼트들의 그룹" 을 포함하는 임의의 보통의 의미를 나타내도록 여기에서 사용된다. 문서의 일부의 레퍼런스에 의한 임의의 통합이 또한, 그 일부내에서 참조되는 용어들 또는 변수들의 정의들을 통합하는 것으로 이해되어야 하고, 여기서, 이러한 정의들은 통합된 부분에서 참조되는 임의의 도면들 뿐만 아니라 문서에서 어디에서나 나타난다.
근거리장은 사운드 수신기 (예를 들어, 마이크로폰 어레이) 로부터 1 파장 보다 작게 이격된 공간의 영역으로서 정의될 수도 있다. 이러한 정의하에서, 영역의 경계에 대한 거리는 주파수와 반비례하여 변화한다. 예를 들어, 2백, 7백, 및 2천 헤르츠의 주파수들에서, 1-파장 경계에 대한 거리는 각각 약 170, 49, 및 17 센티미터이다. 대신에, 근거리장/원거리장 경계가 마이크로폰 어레이로부터 특정한 거리 (예를 들어, 어레이의 마이크로폰 또는 어레이의 중심으로부터 50 센티미터, 또는 어레이의 마이크로폰 또는 어레이의 중심으로부터 1 미터 또는 1.5 미터) 에 있는 것으로 고려하는 것이 유용할 수도 있다.
마이크로폰 어레이는 각 채널이 음향 환경에 대한 마이크로폰들 중 대응하는 하나의 응답에 기초하는 멀티채널 신호를 발생시킨다. 상이한 소스들로부터 수신되는 신호의 성분들 사이를 구별하기 위해 멀티채널 신호에 대해 공간 선택 프로세싱 (SSP) 동작을 수행하는 것이 바람직할 수도 있다. 예를 들어, 지향성 사운드의 원하는 소스 (예를 들어, 사용자의 입) 로부터의 사운드 성분들과 확산 배경 잡음 및/또는 지향성 간섭 잡음의 하나 이상의 소스들 (예를 들어, 경쟁하는 화자) 로부터의 사운드 성분들 사이를 구별하는 것이 바람직할 수도 있다. SSP 동작의 예들은 빔형성 접근법 (예를 들어, GSC (generalized sidelobe cancellation), MVDR (minimum variance distortionless response), 및/또는 LCMV (linearly constrained minimum variance) 빔포머들), 블라인드 소스 분리 (BSS) 및 다른 적응형 러닝 접근법들, 및 이득 기반 근접 검출을 포함한다. SSP 동작의 통상의 애플리케이션들은 휴대용 오디오 감지 디바이스들에 대한 멀티-마이크로폰 잡음 감소 방식들을 포함한다.
SSP 동작과 같은, 어레이 (R100) 에 의해 발생된 멀티채널 신호에 대한 동작의 성능은, 어레이 채널들의 응답 특성이 서로 얼마나 잘 정합되는지에 의존할 수도 있다. 예를 들어, 각각의 마이크로폰들의 응답 특성들에서의 차이, 각각의 프로세싱 스테이지들의 이득 레벨들에서의 차이, 및/또는 채널들의 회로 잡음 레벨들에서의 차이로 인해 채널들의 레벨들이 상이한 것이 가능하다. 이러한 경우에서, 결과적인 멀티채널 신호는, 채널 응답 특성들 상의 부정합 ("채널 응답 불균형" 이라 또한 칭함) 이 보상되지 않을 수도 있으면 음향 환경의 정확한 표현을 제공하지 못할 수도 있다.
이러한 보상없이, 이러한 신호에 기초하는 SSP 동작은 에러 결과를 제공할 수도 있다. 채널들 사이의 이득 차이들이 지향성 사운드 소스의 상대적 근접을 나타내기 위해 사용되는 동작에 대해, 채널들의 응답들 사이의 불균형은 근접 표시의 정확도를 감소시키는 경향이 있다. 다른 예에서, 낮은 주파수들 (예를 들어, 대략 100 Hz 내지 1 kHz) 에서 1 또는 2 데시벨 만큼 작은 채널들 사이의 진폭 응답 편차들은 저주파수 지향성을 현저하게 감소시킬 수도 있다. 어레이 (R100) 의 채널들의 응답들 중의 불균형의 영향은, 2개 보다 많은 마이크로폰들을 갖는 어레이 (R100) 의 구현으로부터 멀티채널 신호를 프로세싱하는 애플리케이션들에 대해 특히 해로울 수도 있다.
정확한 채널 교정이 헤드셋 애플리케이션들에 대해 특히 중요할 수도 있다. 예를 들어, 근거리장 소스들로부터 도달하는 사운드 성분들과 원거리장 소스들로부터 도달하는 사운드 성분들 사이를 구별하도록 휴대용 오디오 감지 디바이스를 구성하는 것이 바람직할 수도 있다. 이러한 구별은 멀티채널 신호의 2개의 채널들의 이득 레벨들 사이의 차이 (즉, "채널간 이득 레벨 차이") 에 기초하여 수행될 수도 있는데, 그 이유는, 이러한 차이가 어레이의 엔드파이어 방향에 (즉, 대응하는 마이크로폰들의 중심들을 통과하는 선 근처에) 위치된 근거리장 소스들로부터의 사운드 성분들에 대해 더 높은 것으로 예상될 수 있기 때문이다.
마이크로폰들 사이의 거리가 감소할 때, 근거리장 신호에 대한 채널간 이득 레벨 차이가 또한 감소한다. 핸드헬드 애플리케이션들에 대해, 근거리장 신호들에 대한 채널간 이득 레벨 차이는 통상적으로, 원거리장 신호들에 대한 채널간 이득 레벨 차이로부터 약 6 데시벨이다. 그러나, 헤드셋 애플리케이션들에 대해, 통상의 근거리장 사운드 성분에 대한 채널간 이득 레벨 차이는 통상의 원거리장 사운드 성분에 대한 채널간 이득 레벨 차이의 3 데시벨 (또는 더 작음) 이내일 수도 있다. 이러한 경우에서, 단지 수 데시벨의 채널 응답 불균형은 이러한 성분들 사이를 구별하는 능력을 심각하게 방해할 수도 있고, 3 데시벨 이상의 불균형은 이것을 파괴할 수도 있다.
어레이 채널들의 응답들 사이의 불균형이 마이크로폰들 자체의 응답들 사이의 차이로부터 발생할 수도 있다. 변동들이 어레이 (R100) 의 마이크로폰들의 제조 동안 발생할 수도 있어서, 대량 생산되고 외관상 동일한 마이크로폰들의 배치 (batch) 중에서도, 감도가 하나의 마이크로폰 마다 현저하게 변화할 수도 있다. 휴대용 대형 시장 오디오 감지 디바이스들에서 사용하기 위한 마이크로폰들이 예를 들어, ±3 데시벨의 감도 공차에서 제조될 수도 있어서, 어레이 (R100) 의 구현에서 이러한 2개의 마이크로폰들의 감도는 6 데시벨 만큼 많이 상이할 수도 있다.
채널 응답 불균형의 문제점은 그 응답들이 (예를 들어, 소팅 (sorting) 및 비닝 (binning) 프로세스를 통해) 이미 정합된 마이크로폰들을 사용함으로써 휴대용 오디오 감지 디바이스의 제조 동안 다루어질 수도 있다. 다르게는 또는 추가로, 채널 교정 절차가 공장과 같은 연구소 및/또는 생산 설비에서 어레이 (R100) 의 마이크로폰들 (또는 어레이를 포함하는 디바이스) 에 대해 수행될 수도 있다. 이러한 절차는 하나 이상의 이득 팩터들을 계산하고, 이러한 팩터들을 대응하는 채널들에 적용하여 균형 멀티채널 신호를 발생시킴으로써 불균형을 보상할 수도 있다. 서비스 이전에 수행될 수도 있는 교정 절차들의 예들이, 2009년 5월 28이 출원된 " SYSTEMS, METHODS, AND APPARATUS FOR MULTICHANNEL SIGNAL BALANCING" 이란 명칭의 미국 특허 출원 제 12/473,930 호, 및 2008년 12월 12일 출원된 "SYSTEMS, METHODS, AND APPARATUS FOR MULTI-MICROPHONE BASED SPEECH ENHANCEMENT" 라는 명칭의 미국 특허 출원 제 12/334,246 호에 기재되어 있다. 이러한 정합 또는 교정 동작들은 디바이스를 제조하는 비용을 증가시킬 수도 있지만, 이들은 또한 (예를 들어, 에이징으로 인해) 디바이스의 서비스 수명 동안 발생하는 채널 응답 불균형에 대해 비효과적일 수도 있다.
다르게는 또는 추가로, 채널 교정은 (예를 들어, 미국 특허 출원 제 12/473,930 호에 기재되어 있는 바와 같이) 서비스중에 수행될 수도 있다. 이러한 절차는 시간을 통해 발생하는 응답 불균형을 정정하고/하거나 초기 응답 불균형을 정정하기 위해 사용될 수도 있다. 초기 응답 불균형은 예를 들어, 마이크로폰 부정합 및/또는 잘못된 교정 절차 (예를 들어, 마이크로폰이 절차 동안 터치되거나 커버됨) 로 인한 것일 수도 있다. 변동하는 채널 레벨로 사용자를 산만하게 하는 것을 회피하기 위해, 이러한 절차에 대해, 시간을 통해 점진적으로 변화하는 보상을 적용하는 것이 바람직할 수도 있다. 그러나, 초기 응답 불균형이 큰 경우들에 대해, 이러한 점진적 보상은 멀티채널 신호에 대한 SSP 동작이 불량하게 수행될 수도 있는 시간 동안, 긴 수렴 주기 (예를 들어, 1 분으로부터 10 분 이상까지) 를 야기할 수도 있어서, 불만족스러운 사용자 경험을 야기한다.
멀티채널 신호의 시간-주파수 포인트들을 분류하기 위해 위상 분석이 사용될 수도 있다. 예를 들어, 신호의 채널들의 추정된 위상들 사이의 복수의 상이한 주파수 각각에서의 차이에 기초하여 멀티채널 신호의 시간-주파수 포인트들을 분류하도록 시스템, 방법, 또는 장치를 구성하는 것이 바람직할 수도 있다. 이러한 구성을 "위상 기반" 으로 여기서 칭한다.
특정한 위상차 특성을 나타내는 시간-주파수 포인트들을 식별하기 위해 위상 기반 방식을 사용하는 것이 바람직할 수도 있다. 예를 들어, 위상 기반 방식은, 감지된 멀티채널 신호의 특정한 주파수 성분이 어레이 축에 관한 허용가능한 각도들의 범위 이내로부터 또는 이러한 범위 외부로부터 발생하는지를 결정하기 위해 마이크로폰간 거리 및 채널간 위상차들에 관한 정보를 적용하도록 구성될 수도 있다. 이러한 결정은 (예를 들어, 허용가능한 범위 이내로부터 발생한 사운드가 선택되고 그 범위 외부에서 발생한 사운드가 거부되도록) 상이한 방향들로부터 도달한 사운드 성분들 사이를 구별하고/하거나 근거리장 및 원거리장 소스들로부터 도달한 사운드 성분들 사이를 구별하기 위해 사용될 수도 있다.
통상의 애플리케이션에서, 이러한 시스템, 방법, 또는 장치는 멀티채널 신호의 적어도 일부를 통해 (예를 들어, 특정한 주파수들의 범위를 통해 및/또는 특정한 시간 간격을 통해) 각 시간-주파수 포인트에 대해 마이크로폰 쌍에 관한 도달 방향을 계산하기 위해 사용된다. 지향성 마스킹 함수가 다른 도달 방향들을 갖는 포인트들로부터 원하는 범위내에서 도달 방향들을 갖는 포인트들을 구별하기 위해 이들 결과에 적용될 수도 있다. 지향성 마스킹 동작으로부터의 결과들은 마스크 외부의 도달 방향들을 갖는 시간-주파수 포인트들을 폐기하거나 감쇠시킴으로써 원치않은 방향들로부터 사운드 성분들을 감쇠하기 위해 사용될 수도 있다.
상기 언급한 바와 같이, 다수의 멀티-마이크로폰 공간 프로세싱 동작들은 마이크로폰 채널들의 상대적 이득 응답들에 본질적으로 의존하여, 이러한 공간 프로세싱 동작들을 가능하게 하기 위해 채널 이득 응답의 교정이 필요할 수도 있다. 제조 동안 이러한 교정을 수행하는 것은 통상적으로 시간 소모적이고/이거나 그렇지 않으면 많은 비용이 든다. 그러나, 위상 기반 방식이 입력 채널들 중에서 이득 불균형에 의해 상대적으로 영향을 받지 않도록 구현될 수도 있어서, 대응하는 채널들의 이득 응답들이 서로에 정합되는 정도는 계산된 위상차들의 정확도 및 이들에 기초한 후속 동작들 (예를 들어, 지향성 마스킹) 에 대한 제한하는 팩터가 아니다.
여기에 설명된 바와 같이 ("채널 밸런싱 동작" 이라 또한 칭하는) 채널 교정 동작을 지원하기 위해 이러한 방식의 분류 결과들을 사용함으로써 위상 기반 방식의 채널 불균형에 대해 강건성 (robustness) 을 활용하는 것이 바람직할 수도 있다. 예를 들어, 채널 밸런싱을 위해 유용할 수도 있는 레코딩된 멀티채널 신호의 시간 간격들 및/또는 주파수 성분들을 식별하기 위해 위상 기반 방식을 사용하는 것이 바람직할 수도 있다. 이러한 방식은, 각 채널에서 비교적 동일한 응답을 발생시킬 것으로 기대된다는 것을 그 도달 방향들이 나타내는 시간-주파수 포인트들을 선택하도록 구성될 수도 있다.
도 3b 에 도시된 바와 같이 2-마이크로폰 어레이에 관한 소스 방향들의 범위에 관하여, 채널 교정을 위해 브로드사이드 방향들 (즉, 어레이 축에 직교하는 방향들) 로부터 도달하는 사운드 성분들만을 사용하는 것이 바람직할 수도 있다. 이러한 조건은 예를 들어, 근거리장 소스가 활성이 아니고, 사운드 소스가 분포될 때 (예를 들어, 배경 잡음) 발견될 수도 있다. 또한, 교정을 위해 원거리장 엔드파이어 소스들로부터 발생하는 사운드 성분들을 사용하는 것이 수용가능할 수도 있고, 이것은 이러한 성분들이 (예를 들어, 분산으로 인해) 무시가능한 채널간 이득 레벨 차이를 일으키는 것으로 기대될 수도 있기 때문이다. 그러나, 어레이의 엔드파이어 방향 (즉, 어레이 축 근처의 방향) 으로부터 도달하는 근거리장 사운드 성분들은, 채널 불균형 보다는 소스 위치 정보를 표현하는 채널들 사이의 이득 차이를 갖는 것으로 기대된다. 그 결과, 교정을 위해 이러한 성분들을 사용하는 것은, 부정확한 결과를 발생시킬 수도 있고, 브로드사이드 방향들로부터 도달하는 사운드 성분들로부터 이러한 성분들을 구별하기 위해 지향성 마스킹 동작을 사용하는 것이 바람직할 수도 있다.
이러한 위상 기반 분류 방식은 실행 시간에서 (예를 들어, 연속적 또는 간헐적이든, 디바이스의 사용 동안) 교정 동작을 지원하기 위해 사용될 수도 있다. 이러한 방식에서, 채널 이득 응답 불균형에 자체 면역이 된 빠르고 정확한 채널 교정 동작이 달성될 수도 있다. 다르게는, 선택된 시간-주파수 포인트들로부터의 정보가 나중에 채널 교정 동작을 지원하기 위해 일부 시간 기간을 통해 누적될 수도 있다.
도 4a 는 태스크들 (T100, T200, T300, 및 T400) 을 포함하는 일반 구성에 따라 멀티채널 신호를 프로세싱하는 방법 (M100) 의 플로우차트를 도시한다. 태스크 (T100) 는 신호의 복수의 상이한 주파수 성분 각각에 대한 멀티채널 신호의 채널들 (예를 들어, 마이크로폰 채널들) 사이의 위상차를 계산한다. 태스크 (T200) 는 멀티채널 신호의 제 1 채널의 레벨 및 멀티채널 신호의 제 2 채널의 대응하는 레벨을 계산한다. 계산된 레벨들 및 계산된 위상차들 중 적어도 하나에 기초하여, 태스크 (T300) 는 이득 팩터값을 업데이트한다. 업데이트된 이득 팩터값에 기초하여, 태스크 (T400) 는 제 1 채널의 대응하는 진폭에 대한 제 2 채널의 진폭을 변경하여 프로세싱된 (예를 들어, 밸런싱된) 멀티채널 신호를 발생시킨다. 방법 (M100) 은 또한, SSP 동작들과 같은 (예를 들어, 여기에 더욱 상세히 설명된 바와 같은) 멀티채널 신호에 대한 추가 동작들을 지원하기 위해 사용될 수도 있다.
방법 (M100) 은 멀티채널 신호를 세그먼트들의 시리즈로서 프로세싱하도록 구성될 수도 있다. 통상의 세그먼트 길이는 약 5 또는 10 밀리초로부터 약 40 또는 50 밀리초까지의 범위이고, 세그먼트들은 오버랩 (예를 들어, 인접 세그먼트들과 25% 또는 50% 만큼 오버랩한다) 하거나 오버랩하지 않을 수도 있다. 하나의 특정한 예에서, 멀티채널 신호는 각각이 10 밀리초의 길이를 갖는 일련의 오버랩하지 않는 세그먼트들 또는 "프레임들" 로 분할된다. 태스크 (T100) 는 세그먼트들 각각에 대한 위상차들의 세트 (예를 들어, 벡터) 를 계산하도록 구성될 수도 있다. 방법 (M100) 의 일부 구현들에서, 태스크 (T200) 는 각 채널의 세그먼트들 각각에 대한 레벨을 계산하도록 구성되고, 태스크 (T300) 는 세그먼트들 중 적어도 일부에 대한 이득 팩터값을 업데이트하도록 구성된다. 방법 (M100) 의 다른 구현에서, 태스크 (T200) 는 각 채널의 세그먼트들 각각에 대한 서브대역 레벨들의 세트를 계산하도록 구성되고, 태스크 (T300) 는 서브대역 이득 팩터값들의 세트 중 하나 이상을 업데이트하도록 구성된다. 방법 (M100) 에 의해 프로세싱될 때의 세그먼트는 또한, 상이한 동작에 의해 프로세싱될 때의 더 큰 세그먼트의 세그먼트 (즉, "서브프레임") 일 수도 있고, 그 반대의 경우도 마찬가지이다.
도 4b 는 태스크 (T100) 의 일 구현 (T102) 의 플로우차트를 도시한다. 각 마이크로폰 채널에 대해, 태스크 (T102) 는 상이한 주파수 성분들 각각에 대한 채널의 위상을 추정하는 서브태스크 (T110) 의 각각의 경우를 포함한다. 도 4c 는 서브태스크들 (T1121 및 T1122) 을 포함하는 태스크 (T110) 의 일 구현 (T112) 의 플로우차트를 도시한다. 태스크 (T1121) 는 고속 퓨리에 변환 (FFT) 또는 이산 코사인 변환 (DCT) 과 같은, 채널의 주파수 변환을 계산한다. 태스크 (T1121) 는 통상적으로, 각 세그먼트에 대한 채널의 주파수 변환을 계산하도록 구성된다. 예를 들어, 각 세그먼트의 128-포인트 또는 256-포인트 FFT 를 수행하도록 태스크 (T1121) 를 구성하는 것이 바람직할 수도 있다. 태스크 (T1121) 의 대안의 구현은, 서브대역 필터들의 뱅크를 사용하여 채널의 다양한 주파수 성분들을 분리하도록 구성된다.
태스크 (T1122) 는 상이한 주파수 성분들 (또는 "빈"이라 칭함) 각각에 대한 마이크로폰 채널의 위상을 계산 (예를 들어, 추정) 한다. 예를 들어, 검사될 각 주파수 성분에 대해, 태스크 (1122) 는 FFT 계수의 실수항에 대한 대응하는 FFT 계수의 허수항의 비율의 역 탄젠트 (또한, 아크탄젠트라 칭함) 로서 위상을 추정하도록 구성될 수도 있다.
태스크 (T102) 는 또한 각 채널에 대한 추정된 위상들에 기초하여, 상이한 주파수 성분들 각각에 대한 위상차 (
Figure pct00001
) 를 계산하는 서브태스크 (T120) 를 포함한다. 태스크 (T120) 는 다른 채널에서의 주파수 선분에 대한 추정된 위상으로부터 일 채널에서의 주파수 성분에 대한 추정된 위상을 감산함으로써 위상차를 계산하도록 구성될 수도 있다. 예를 들어, 태스크 (T120) 는 다른 (예를 들어, 세컨더리) 채널에서의 주파수 성분에 대한 추정된 위상으로부터 프라이머리 채널에서의 주파수 성분에 대한 추정된 위상을 감산함으로써 위상차를 계산하도록 구성될 수도 있다. 이러한 경우에서, 프라이머리 채널은 디바이스의 통상의 사용 동안 가장 직접적으로 사용자의 음성을 수신하는 것으로 기대되는 마이크로폰에 대응하는 채널과 같이, 가장 높은 신호 대 잡음비를 갖는 것으로 기대되는 채널일 수도 있다.
광대역 범위의 주파수들을 통해 멀티채널 신호의 채널들 사이의 위상차를 추정하도록 방법 (M100) (또는 이러한 방법을 수행하도록 구성된 시스템 또는 장치) 을 구성하는 것이 바람직할 수도 있다. 이러한 광대역 범위는 예를 들어, 제로, 50, 100, 또는 200 Hz 의 저주파수 경계로부터 3, 3.5, 또는 4 kHz (또는 7 또는 8 kHz 이상까지와 같이 더 높은) 의 고주파수 경계로 연장할 수도 있다. 그러나, 태스크 (T100) 에 대해, 신호의 전체 대역폭에 걸쳐 위상차들을 계산하는 것은 불필요할 수도 있다. 예를 들어, 이러한 광대역 범위에서의 다수의 대역들에 대해, 위상 추정은 비실용적이거나 불필요할 수도 있다. 매우 낮은 주파수들에서 수신 파형의 위상 관계들의 실질적인 평가는 통상적으로, 트랜스듀서들 사이에서 대응하게 큰 공간들을 요구한다. 그 결과, 마이크로폰들 사이의 최대 이용가능한 공간이 저주파수 경계를 확립할 수도 있다. 한편, 마이크로폰들 사이의 거리는 공간 에일리어싱을 회피하기 위해 최소 파장의 1/2을 초과하지 않아야 한다. 8 킬로헤르츠 샘플링 레이트는 예를 들어, 제로로부터 4 킬로헤르츠까지의 대역폭을 제공한다. 4 kH 신호의 파장은 약 8.5 센티미터이고, 따라서, 이러한 경우에서, 인접 마이크로폰들 사이의 공간은 약 4 센티미터를 초과하지 않아야 한다. 마이크로폰 채널은 공간 에일리어싱을 일으킬 수도 있는 주파수들을 제거하기 위해 저역통과 필터링될 수도 있다.
따라서, 태스크 (T1121) 에 의해 발생된 전체 보다 적은 주파수 성분들 (예를 들어, 태스크 (T1121) 에 의해 수행된 FFT 의 전체 보다 적은 주파수 샘플들) 에 대한 위상 추정치를 계산하도록 태스크 (T1122) 를 구성하는 것이 바람직할 수도 있다. 예를 들어, 태스크 (T1122) 는 약 50, 100, 200 또는 300 Hz 로부터 약 500 또는 1000 Hz 까지의 범위의 주파수에 대한 위상 추정치들을 계산하도록 구성될 수도 있다 (이들 8개 조합 각각은 명시적으로 고려되고 개시된다). 이러한 범위가 교정을 위해 특히 유용한 성분들을 포함하고, 교정을 위해 덜 유용한 성분들을 배제한다는 것이 기대될 수도 있다.
채널 교정 이외의 목적을 위해 사용되는 위상 추정치를 또한 계산하도록 태스크 (T100) 를 구성하는 것이 바람직할 수도 있다. 예를 들어, 태스크 (T100) 는 (예를 들어, 아래 더욱 상세히 설명되는 바와 같은) 사용자의 음성을 트랙킹 및/또는 강화하기 위해 사용되는 위상 추정치들을 또한 계산하도록 구성될 수도 있다. 하나의 이러한 예에서, 태스크 (T1122) 는 또한, 사용자의 음성의 대부분의 에너지를 포함하는 것으로 기대될 수도 있는 700 Hz 내지 2000 Hz 의 주파수 범위에 대한 위상 추정치들을 계산하도록 구성된다. 4 킬로헤르츠 대역폭 신호의 128 포인트 FFT 에 대해, 700 내지 2000 Hz 의 범위는 열번째 샘플로부터 32 번째 샘플까지의 23개의 주파수 샘플들에 대략 대응한다. 다른 예들에서, 태스크 (T1122) 는 약 50, 100, 200, 300, 또는 500 Hz 의 하한으로부터 약 700, 1000, 1200, 1500, 또는 2000 Hz 의 상한까지 연장하는 주파수 범위를 통해 위상 추정치들을 계산하도록 구성된다 (이들 하한 및 상한의 25개 조합 각각은 명시적으로 고려되고 개시된다).
레벨 계산 태스크 (T200) 는 멀티채널 신호의 대응하는 세그먼트에서 제 1 및 제 2 채널들 각각에 대한 레벨을 계산하도록 구성된다. 다르게는, 태스크 (T200) 는 멀티채널 신호의 대응하는 세그먼트의 서브대역들의 세트 각각에서 제 1 및 제 2 채널들 각각에 대한 레벨을 계산하도록 구성될 수도 있다. 이러한 경우에서, 태스크 (T200) 는 동일한 폭 (예를 들어, 500, 1000, 또는 1200 Hz 의 균일 폭) 을 갖는 서브대역들의 세트 각각에 대한 레벨들을 계산하도록 구성될 수도 있다. 다르게는, 태스크 (T200) 는 서브대역들 중 적어도 2개 (가능하면 모두) 가 상이한 대역폭들을 갖는 서브대역들의 세트 (예를 들어, 신호 스펙트럼의 Bark 및 Mel 스케일 분할에 따른 폭들과 같이 비균일 폭들을 갖는 서브대역들의 세트) 각각에 대한 레벨들을 계산하도록 구성될 수도 있다.
태스크 (T200) 는 대응하는 시간 주기를 통해 (예를 들어, 대응하는 세그먼트를 통해) 채널에서의 서브대역의 진폭 또는 크기 (또한, "절대 진폭" 또는 "정정된 진폭"으로 칭함) 의 측정치로서 시간 도메인에서의 선택된 서브대역의 각 채널에 대한 레벨 (L) 을 계산하도록 구성될 수도 있다. 진폭 또는 크기의 측정치들의 예들은, 총 크기, 평균 크기, 평균 제곱근 (RMS) 진폭, 중간 크기, 및 피크 크기를 포함한다. 디지털 도메인에서, 이러한 측정치는,
Figure pct00002
중 하나와 같은 표현식에 따라, n 개의 샘플값들 (
Figure pct00003
) 의 블록 (또는 "프레임") 을 통해 계산될 수도 있다.
태스크 (T200) 는 또한 이러한 표현식에 따라, 주파수 도메인 (예를 들어, 퓨리에 변환 도메인) 또는 다른 변환 도메인 (예를 들어, 이산 코사인 변환 (DCT) 도메인) 에서의 선택된 서브대역의 각 채널에 대한 레벨 (L) 을 계산하도록 구성될 수도 있다. 태스크 (T200) 는 또한, (예를 들어, 합산 대신에 적분을 사용하는) 유사한 표현식에 따라 아날로그 도메인에서의 레벨들을 계산하도록 구성될 수도 있다.
다르게는, 태스크 (T200) 는 대응하는 시간 주기를 통해 (예를 들어, 대응하는 세그먼트를 통해) 서브대역의 에너지의 측정치로서 시간 도메인에서의 선택된 서브대역의 각 채널에 대한 레벨 (L) 을 계산하도록 구성될 수도 있다. 에너지의 측정치들의 예들은, 총 에너지 및 평균 에너지를 포함한다. 디지털 도메인에서, 이들 측정치들은,
Figure pct00004
와 같은 표현들식에 따라 n 개의 샘플값들 (
Figure pct00005
) 의 블록을 통해 계산될 수도 있다.
태스크 (T200) 는 또한, 이러한 표현식에 따라, 주파수 도메인 (예를 들어, 퓨리에 변환 도메인) 또는 다른 변환 도메인 (예를 들어, 이산 코사인 변환 (DCT) 도메인) 에서의 선택된 서브대역의 각 채널에 대한 레벨 (L) 을 계산하도록 구성될 수도 있다. 태스크 (T200) 는 또한, (예를 들어, 합산 대신에 적분을 사용하는) 유사한 표현식에 따라 아날로그 도메인에서의 레벨들을 계산하도록 구성될 수도 있다. 다른 대안에서, 태스크 (T200) 는 대응하는 시간 주기를 통해 (예를 들어, 대응하는 세그먼트를 통해) 서브대역의 전력 스펙트럼 밀도 (PSD) 로서 선택된 서브대역의 각 채널에 대한 레벨을 계산하도록 구성된다.
다르게는, 태스크 (T200) 는 채널에서의 세그먼트의 진폭, 크기, 또는 에너지의 측정치로서 시간 도메인, 주파수 도메인, 또는 다른 변환 도메인에서 멀티채널 신호의 선택된 세그먼트의 각 채널 (i) 에 대한 레벨 (Li) 을 계산하도록 유사한 방식으로 구성될 수도 있다. 예를 들어, 태스크 (T200) 는 세그먼트의 채널에 대한 레벨 (L) 을, 그 채널에서 세그먼트의 시간 도메인 샘플값들의 제곱의 합, 또는 그 채널에서 세그먼트의 주파수 도메인 샘플값들의 제곱의 합, 또는 그 채널에서 세그먼트의 PSD 로서 계산하도록 구성될 수도 있다. 태스크 (T300) 에 의해 프로세싱될 때의 세그먼트는 상이한 동작에 의해 프로세싱될 때의 더 큰 세그먼트의 세그먼트 (즉, "서브프레임") 일 수도 있고, 그 반대도 마찬가지이다.
레벨값들을 계산하기 이전에 오디오 신호 채널들에 대한 하나 이상의 스펙트럼 정형 동작들을 수행하도록 태스크 (T200) 를 구성하는 것이 바람직할 수도 있다. 이러한 동작들은 아날로그/디지털 도메인들에서 수행될 수도 있다. 예를 들어, 대응하는 레벨값 또는 값들을 계산하기 이전에 각각의 채널로부터의 신호에 저역통과 필터 (예를 들어, 200, 500, 또는 1000 Hz 의 컷오프 주파수를 가짐) 또는 대역통과 필터 (예를 들어, 200 Hz 내지 1 kHz 의 통과대역을 가짐) 를 적용하도록 태스크 (T200) 를 구성하는 것이 바람직할 수도 있다.
팩터 이득 업데이팅 태스크 (T300) 는 계산된 레벨들에 기초하여 적어도 하나의 이득 팩터 각각에 대한 값을 업데이트하도록 구성된다. 예를 들어, 태스크 (T200) 에 의해 계산된 바와 같은 대응하는 선택된 주파수 성분에서 각 채널의 레벨들 사이의 관측된 불균형에 기초하여 이득 팩터값들 각각을 업데이트하도록 태스크 (T300) 를 구성하는 것이 바람직할 수도 있다.
태스크 (T300) 의 이러한 구현은 선형 레벨값들의 함수로서 (예를 들어, L1/L2 와 같은 표현식에 따른 비율로서, 여기서, L1 및 L2 는 제 1 및 제 2 채널들 각각의 레벨들을 나타낸다) 관측된 불균형을 계산하도록 구성될 수도 있다. 다르게는, 태스크 (T300) 의 이러한 구현은 로그 도메인에서 레벨 값들의 함수로서 (예를 들어, L2 - L1 과 같은 표현식에 따른 차이로서) 관측된 불균형을 계산하도록 구성될 수도 있다.
태스크 (T300) 는 대응하는 주파수 성분에 대한 업데이트된 이득 팩터값으로서 관측된 불균형을 사용하도록 구성될 수도 있다. 다르게는, 태스크 (T300) 는 이득 팩터의 대응하는 이전의 값을 업데이트하기 위해 관측된 불균형을 사용하도록 구성될 수도 있다. 이러한 경우에서, 태스크 (T300) 는,
Figure pct00006
와 같은 표현식에 따라 업데이트된 값을 계산하도록 구성될 수도 있고, 여기서,
Figure pct00007
는 주파수 성분 (i) 에 대한 세그먼트 (n) 에 대응하는 이득 팩터값을 나타내고,
Figure pct00008
은 주파수 성분 (i) 에 대한 이전의 세그먼트 (n-1) 에 대응하는 이득 팩터값을 나타내고,
Figure pct00009
은 세그먼트 (n) 에서 주파수 성분 (i) 에 대해 계산된 관측된 불균형을 나타내고,
Figure pct00010
는 0.3, 0.5, 또는 0.7 과 같은, 0.1 (최대 평활화) 로부터 1 (평활화 없음) 까지의 범위의 값을 갖는 일시적 평활화 팩터를 나타낸다. 각 주파수 성분에 대해 동일한 값의 평활화 팩터 (
Figure pct00011
) 를 사용하는 것이 태스크 (T300) 의 이러한 구현에 있어서 통상적이지만, 반드시는 아니다. 관측된 불균형의 계산 이전에 관측된 레벨들의 값들을 일시적으로 평활화하고/하거나 업데이트된 이득 팩터값들의 계산 이전에 관측된 채널 불균형의 값들을 일시적으로 평활화하도록 태스크 (T300) 를 구성하는 것이 또한 가능하다.
아래에서 더욱 상세히 설명하는 바와 같이, 이득 팩터 업데이팅 태스크 (T300) 는 태스크 (T100) 에서 계산된 복수의 위상차로부터의 정보 (예를 들어, 멀티채널 신호의 음향적으로 밸런싱된 부분들의 식별) 에 기초하여 적어도 하나의 이득 팩터 각각에 대한 값을 업데이트하도록 또한 구성된다. 멀티채널 신호의 임의의 특정한 세그먼트에서, T300 은 전체 보다 적은 이득 팩터값들의 세트를 업데이트할 수도 있다. 예를 들어, 주파수 성분으로 하여금 교정 동작 동안 음향적으로 불균형을 유지하게 하는 소스의 존재는, 그 주파수 성분에 대한 새로운 이득 팩터값 및 관측된 불균형을 계산하는 것으로부터 태스크 (T300) 를 방해할 수도 있다. 그 결과, 관측된 레벨들의 값들, 관측된 불균형들, 및/또는 이득 팩터들을 주파수를 통해 평활화하도록 태스크 (T300) 를 구성하는 것이 바람직할 수도 있다. 예를 들어, 태스크 (T300) 는 선택된 주파수 성분들의 관측된 레벨들의 (또는 관측된 불균형 또는 이득 팩터들의) 평균값을 계산하고, 이러한 계산된 평균값을 선택되지 않은 주파수 성분들에 할당하도록 구성될 수도 있다. 다른 예에서, 태스크 (T300) 는,
Figure pct00012
와 같은 표현식에 따라 선택되지 않은 주파수 성분들 (i) 에 대응하는 이득 팩터값들을 업데이트하도록 구성되고, 여기서,
Figure pct00013
는 주파수 성분 (i) 에 대한 세그먼트 (n) 에 대응하는 이득 팩터값을 나타내고,
Figure pct00014
은 주파수 성분 (i) 에 대한 이전의 세그먼트 (n-1) 에 대응하는 이득 팩터값을 나타내고,
Figure pct00015
는 이웃하는 주파수 성분 (i-1) 에 대한 세그먼트 (n) 에 대응하는 이득 팩터값을 나타내고,
Figure pct00016
는 제로 (업데이트 없음) 로부터 1 (평활화 없음) 까지의 범위의 값을 갖는 주파수 평활화 팩터이다. 다른 예에서, 표현식 (9) 는
Figure pct00017
대신에 가장 근접한 선택된 주파수 성분에 대한 이득 팩터값을 사용하도록 변경된다. 태스크 (T300) 는 일시적 평활화 이전, 이후, 또는 동시에 주파수를 통해 평활화를 수행하도록 구성될 수도 있다.
태스크 (T400) 는 태스크 (T300) 에서 업데이트된 적어도 하나의 이득 팩터값들에 기초하여, 멀티채널 신호의 다른 채널의 대응하는 응답 특성에 대해 멀티채널 신호의 채널의 응답 특성 (예를 들어, 이득 응답) 을 변경함으로써 프로세싱된 멀티채널 신호 ("밸런싱된" 또는 "교정된" 신호로 또한 칭함) 를 발생시킨다. 태스크 (T400) 는 제 1 채널에서의 주파수 성분의 진폭에 대해 제 2 채널에서의 대응하는 주파수 성분의 진폭을 변화시키기 위해 서브대역 이득 팩터값들의 세트 각각을 사용함으로써 프로세싱된 멀티채널 신호를 발생시키도록 구성될 수도 있다. 태스크 (T400) 는 예를 들어, 적은 응답 채널로부터의 신호를 증폭하도록 구성될 수도 있다. 다르게는, 태스크 (T400) 는 세컨더리 마이크로폰에 대응하는 채널에서의 주파수 성분들의 진폭을 제어하도록 (예를 들어, 증폭하거나 감쇠하도록) 구성될 수도 있다. 상기 언급한 바와 같이, 멀티채널 신호의 임의의 특정한 세그먼트에서, 전체 보다 적은 이득 팩터값들의 세트가 업데이트되는 것이 가능하다.
태스크 (T400) 는 단일 이득 팩터를 신호의 각 세그먼트에 적용함으로써, 또는 그렇지 않으면, 이득 팩터값을 하나 보다 많은 주파수 성분에 적용함으로써 프로세싱된 멀티채널 신호를 발생시키도록 구성될 수도 있다. 예를 들어, 태스크 (T400) 는 프라이머리 마이크로폰 채널의 대응하는 진폭에 대한 세컨더리 마이크로폰 채널의 진폭을 변경하기 위해 (예를 들어, 프라이머리 마이크로폰 채널에 대한 세컨더리 마이크로폰 채널을 증폭하거나 감쇠하기 위해) 업데이트된 이득 팩터값을 적용하도록 구성될 수도 있다.
태스크 (T400) 는 선형 도메인에서 채널 응답 밸런싱을 수행하도록 구성될 수도 있다. 예를 들어, 태스크 (T400) 는 채널에서의 세그먼트의 시간 도메인 샘플들의 값들 각각을 그 세그먼트에 대응하는 이득 팩터의 값으로 승산함으로써 세그먼트의 제 2 채널의 진폭을 제어하도록 구성될 수도 있다. 서브대역 이득 팩터에 대해, 태스크 (T400) 는 이득 팩터의 값으로 진폭을 승산하거나, 이득 팩터를 시간 도메인에서의 대응하는 서브대역에 적용하기 위해 서브대역 필터를 사용함으로써 제 2 채널에서의 대응하는 주파수 성분의 진폭을 제어하도록 구성될 수도 있다.
다르게는, 태스크 (T400) 는 로그 도메인에서 채널 응답 밸런싱을 수행하도록 구성될 수도 있다. 예를 들어, 태스크 (T400) 는 세그먼트의 지속기간을 통해 채널에 적용되는 로그 이득 제어값에 이득 팩터의 대응하는 값을 가산함으로써 세그먼트의 제 2 채널의 진폭을 제어하도록 구성될 수도 있다. 서브대역 이득 팩터에 대해, 태스크 (T400) 는 대응하는 이득 팩터의 값을 진폭에 가산함으로써 제 2 채널에서의 주파수 성분의 진폭을 제어하도록 구성될 수도 있다. 이러한 경우들에서, 태스크 (T400) 는 (예를 들어,
Figure pct00018
과 같은 표현식에 따라, 여기서,
Figure pct00019
는 선형값이고,
Figure pct00020
는 대응하는 로그값이다) 진폭 및 이득 팩터값들을 로그값들 (예를 들어, 데시벨 단위) 수신하고/하거나 선형 진폭 또는 이득 팩터값들을 로그값들로 변환하도록 구성될 수도 있다.
태스크 (T400) 는 채널 또는 채널들의 다른 진폭 제어 (예를 들어, 자동 이동 제어 (AGC) 또는 자동 체적 제어 (AVC) 모듈, 사용자 동작 체적 제어 등) 와 조합될 수도 있거나, 그 다른 진폭 제어의 업스트림 또는 다운스트림에서 수행될 수도 있다.
2개 보다 많은 마이크로폰의 어레이에 대해, 각 채널의 응답이 적어도 하나의 다른 채널의 응답과 밸런싱되도록 채널들의 2개 이상의 쌍들 각각에 대해 방법 (M100) 의 각각의 경우를 수행하는 것이 바람직할 수도 있다. 예를 들어, 방법 (M110) 의 (예를 들어, 방법 (M110) 의) 일 경우는 채널들의 하나의 쌍 (제 1 및 제 2 채널들) 에 기초하여 코히어런시 (coherency) 측정치를 계산하기 위해 실행될 수도 있고, 방법 (M100) 의 다른 경우는 채널들의 다른 쌍 (예들 들어, 제 1 채널 및 제 3 채널, 또는 제 3 및 제 4 채널들) 에 기초하여 코히어런시 측정치를 계산하기 위해 실행된다. 그러나, 채널들의 쌍에 대해 공통의 동작이 수행되지 않는 경우들에 대해, 그 쌍의 밸런싱은 생략될 수도 있다.
이득 팩터 업데이팅 태스크 (T300) 는 각 채널에서 동일한 레벨을 갖는 것으로 기대되는 멀티채널 신호의 주파수 성분들 및/또는 세그먼트들 (예를 들어, 여기에서 "음향적으로 밸런싱된 부분들" 이라 또한 칭하는 각각의 마이크로폰 채널들에 의한 동일한 응답을 초래하는 것으로 기대되는 주파수 성분들 및/또는 세그먼트들) 을 나타내고, 이들 부분들로부터의 정보에 기초하여 하나 이상의 이득 팩터값들을 계산하기 위해 계산된 위상차들로부터의 정보를 사용하는 것을 포함할 수도 있다. 어레이 (R100) 의 브로드사이드 방향들에서 소스들로부터 수신되는 사운드 성분들이 마이크로폰들 (MC10 및 MC20) 에 의해 동일한 응답들을 초래할 것으로 기대될 수도 있다. 반대로, 어레이 (R100) 의 엔드파이어 방향들 중 어느 하나에서 근거리장 소스들로부터 수신된 사운드 성분들이 하나의 마이크로폰으로 하여금 다른 마이크로폰 보다 높은 출력 레벨을 갖게 한다 (즉, "음향적으로 불균형" 된다) 는 것이 기대될 수도 있다. 따라서, 멀티채널 신호의 대응하는 주파수 성분이 음향적으로 밸런싱되거나 음향적으로 불균형되는지를 결정하기 위해 태스크 (T100) 에서 계산된 위상차를 사용하도록 태스크 (T300) 를 구성하는 것이 바람직할 수도 있다.
태스크 (T300) 는 대응하는 주파수 성분들 각각에 대한 마스크 스코어를 획득하기 위해 태스크 (T100) 에 의해 계산된 위상차들에 대해 지향성 마스킹 동작을 수행하도록 구성될 수도 있다. 제한된 주파수 범위를 통한 태스크 (T100) 에 의한 위상 추정에 관한 상기 논의에 따르면, 태스크 (T300) 는 전체 보다 적은 신호의 주파수 성분들 (예를 들어, 태스크 (T1121) 에 의해 수행된 FFT 의 전체 보다 적은 주파수 샘플들) 에 대한 마스크 스코어들을 획득하도록 구성될 수도 있다.
도 5a 는 서브태스크들 (T310, T320, 및 T340) 을 포함하는 태스크 (T300) 의 일 구현 (T302) 의 흐름도를 도시한다. 태스크 (T100) 로부터의 복수의 계산된 위상차들 각각에 대해, 태스크 (T310) 는 대응하는 방향 지시자를 계산한다. 태스크 (T320) 는 방향 지시자들을 레이팅하기 위해 (예를 들어, 방향 지시자들의 값들을 진폭 또는 크기 스케일의 값들로 변환하거나 매핑하기 위해) 지향성 마스킹 함수를 사용한다. 태스크 (T320) 에 의해 발생된 레이팅들에 기초하여, 태스크 (T340) 는 (예를 들어, 상기 표현식 (8) 또는 (9) 에 따라) 업데이트된 이득 팩터값들을 계산한다. 예를 들어, 태스크 (T340) 는 주파수 성분들이 음향적으로 밸런싱된다는 것을 그 레이팅들이 나타내는 신호의 주파수 성분들을 선택하고, 그 성분에 대한 채널들 사이의 관측된 불균형에 기초하는 이들 성분들 각각에 대한 업데이트된 이득 팩터값을 계산하도록 구성될 수도 있다.
태스크 (T310) 는 멀티채널 신호의 대응하는 주파수 성분 (
Figure pct00021
) 의 도달 방향 (
Figure pct00022
) 으로서 방향 지시자들 각각을 계산하도록 구성될 수도 있다. 예를 들어, 태스크 (T310) 는 양의 역 코사인 (또한 아크코사인이라 칭함) (
Figure pct00023
) 으로서 도달 방향 (
Figure pct00024
) 을 추정하도록 구성될 수도 있고, 여기서, c 는 사운드의 속도 (대략 340 m/sec) 를 나타내고, d 는 마이크로폰들 사이의 거리를 나타내고,
Figure pct00025
는 2개의 마이크로폰들에 대한 대응하는 위상 추정치들 사이의 라디안에서의 차이를 나타내고,
Figure pct00026
는 위상 추정치들이 대응하는 주파수 성분 (예를 들어, 대응하는 FFT 샘플들의 주파수, 또는 대응하는 서브대역들의 중심 또는 에지 주파수) 을 나타낸다. 다르게는, 태스크 (T310) 는 양의 역 코사인 (
Figure pct00027
) 으로서 도달각 (
Figure pct00028
) 을 추정하도록 구성될 수도 있고, 여기서,
Figure pct00029
는 주파수 성분 (
Figure pct00030
) 의 파장을 나타낸다.
도 6a 는 2개의 마이크로폰 어레이 (MC10, MC20) 중 마이크로폰 (MC20) 에 관하여 도달 방향 (
Figure pct00031
) 을 추정하는 접근방식을 예시하는 지리적 근사화의 예를 도시한다. 이러한 예에서,
Figure pct00032
의 값은, 레퍼런스 엔드파이어 방향 (즉, 마이크로폰 (MC10) 으로부터의 방향) 으로부터 마이크로폰 (MC20) 에 도달하는 신호를 나타내고,
Figure pct00033
의 값은 다른 엔드파이어 방향으로부터 도달하는 신호를 나타내며,
Figure pct00034
의 값은 브로드사이드 방향으로부터 도달하는 신호를 나타낸다. 다른 예에서, 태스크 (T130) 는 상이한 레퍼런스 포지션 (예를 들어, 마이크로폰들 사이의 중간의 포인트와 같은 마이크로폰 (MC10) 또는 일부 다른 포인트) 및/또는 상이한 레퍼런스 방향 (예를 들어, 다른 엔드파이어 방향, 브로드사이드 방향 등) 에 관하여
Figure pct00035
를 평가하도록 구성될 수도 있다.
도 6a 에 도시된 지리적 근사화는, 거리 (s) 가 거리 (L) 와 동일하다는 것을 가정하고, 여기서 s 는 사운드 소스와 마이크로폰 (MC20) 사이의 라인상의 마이크로폰 (MC10) 의 포지션의 정투영과 마이크로폰 (MC20) 의 포지션 사이의 거리이고, L 은 사운드 소스에 대한 각 마이크로폰의 거리들 사이의 실제 차이이다. 에러 (s - L) 는, 마이크로폰 (MC20) 에 관한 도달 방향 (
Figure pct00036
) 이 제로에 접근할 때 작아진다. 이러한 에러는 또한, 사운드 소스와 마이크로폰 어레이 사이의 상대적 거리가 증가할 때 작아진다.
도 6a 에 예시된 방식은
Figure pct00037
의 1사분면 및 4사분면 값들 (즉, 제로로부터
Figure pct00038
및 제로로부터
Figure pct00039
까지) 에 대해 사용될 수도 있다. 도 6b 는
Figure pct00040
의 2사분면 및 3사분면 값들 (즉,
Figure pct00041
로부터
Figure pct00042
까지) 에 대해 동일한 근사화를 사용하는 예를 도시한다. 이러한 경우에서, 역 코사인이 각도 (
Figure pct00043
) 를 평가하기 위해 상술한 바와 같이 계산될 수도 있고, 이것은 그 후, 도달 방향 (
Figure pct00044
) 을 산출하기 위해
Figure pct00045
라디안으로부터 감산된다. 현역 엔지니어는 또한, 도달 방향 (
Figure pct00046
) 이 도 단위로 표현될 수도 있거나 임의의 다른 단위들이 라디안 대신에 특정한 애플리케이션에 적합하다는 것을 이해할 것이다.
(예를 들어, 어레이의 브로드사이드 방향에서)
Figure pct00047
에 근접한 도달 방향들을 갖는 주파수 성분들을 선택하도록 태스크 (T300) 를 구성하는 것이 바람직할 수도 있다. 그 결과, 한편으로는,
Figure pct00048
의 1사분면 및 4사분면 값들 사이, 및 다른 한편으로는
Figure pct00049
의 2사분면 및 3사분면 값들 사이의 구별이 교정 목적을 위해 중요하지 않게 된다.
대안의 구현에서, 태스크 (T310) 는 멀티채널 신호의 대응하는 주파수 성분 (
Figure pct00050
) 의 도달 시간 지연 (
Figure pct00051
) (예를 들어, 초 단위) 으로서 방향 지시자들 각각을 계산하도록 구성된다. 태스크 (T310) 는
Figure pct00052
또는
Figure pct00053
와 같은 표현식을 사용하여, 마이크로폰 (MC10) 을 참조하여 마이크로폰 (MC20) 에서 도달 시간 지연 (
Figure pct00054
) 을 추정하도록 구성될 수도 있다. 이들 예들에서,
Figure pct00055
의 값은 브로드사이드 방향으로부터 도달하는 신호를 나타내고,
Figure pct00056
의 큰 양의 값은 레퍼런스 엔드파이어 방향으로부터 도달하는 신호를 나타내며,
Figure pct00057
의 큰 음의 값은 다른 엔드파이어 방향으로부터 도달하는 신호를 나타낸다. 값들 (
Figure pct00058
) 을 계산하는데 있어서, 샘플링 주기들 (예를 들어, 8 kHz 의 샘플링 레이트에 대해 125 마이크로초의 단위) 또는 1 초의 몇 분의 1 (예를 들어, 10-3, 10-4, 10-5 또는 10-6 초) 과 같은, 특정한 애플리케이션에 대해 적합한 것으로 여겨지는 시간 단위를 사용하는 것이 바람직할 수도 있다. 태스크 (T310) 가 또한, 시간 도메인에서 각 채널의 주파수 성분들 (
Figure pct00059
) 을 크로스 상관시킴으로써 도달 시간 지연 (
Figure pct00060
) 을 계산하도록 구성될 수도 있다는 것에 유의한다.
동일한 포인트 소스로부터 직접적으로 도달하는 사운드 성분들에 대해,
Figure pct00061
는 모든 주파수들에 대한 상수 (k) 와 이상적으로 동일하고, 여기서, k 의 값은 도달 방향 (
Figure pct00062
) 및 도달 시간 지연 (
Figure pct00063
) 과 관련된다. 다른 대안의 구현에서, 태스크 (T310) 는 추정된 위상차 (
Figure pct00064
) 와 주파수 (
Figure pct00065
) 사이의 비율 (
Figure pct00066
) 로서 방향 지시자들 각각을 계산하도록 구성된다 (예를 들어,
Figure pct00067
, 또는
Figure pct00068
).
표현식
Figure pct00069
또는
Figure pct00070
이 원거리장 모델 (즉, 평면 파면을 가정하는 모델) 에 따라 방향 지시자 (
Figure pct00071
) 를 계산하지만, 표현식들
Figure pct00072
Figure pct00073
은 근거리장 모델 (즉, 도 7 에 예시된 바와 같이, 구형 파면을 가정하는 모델) 에 따라 방향 지시자들 (
Figure pct00074
Figure pct00075
) 을 계산한다는 것에 유의한다. 근거리장 모델에 기초하는 방향 지시자가 더욱 정확하고/하거나 계산하기 더 용이한 결과를 제공할 수도 있지만, 원거리장 모델에 기초하는 방향 지시자는 방법 (M100) 의 일부 구성들에 바람직할 수도 있는 방향 지시자 값과 위상차 사이에 비선형 매핑을 제공한다.
태스크 (T302) 는 또한 태스크 (T310) 에 의해 발생된 방향 지시자들을 레이팅하는 서브태스크 (T320) 를 포함한다. 태스크 (T320) 는 검사될 각 주파수 성분에 대해 방향 지시자의 값을 진폭, 크기, 또는 통과/실패 스케일 ("마스크 스코어" 라 또한 칭함) 에 대한 대응하는 값으로 변환하거나 매핑함으로써 방향 지시자들을 레이팅하도록 구성될 수도 있다. 예를 들어, 태스크 (T320) 는 표시된 방향이 마스킹 함수의 통과대역내에 있는지 (및/또는 얼마나 양호하게 그 통과대역내에 있는지) 를 나타내는 마스크 스코어에 각 방향 지시자의 값을 매핑하기 위해 지향성 마스킹 함수를 사용하도록 구성될 수도 있다. (이러한 문맥에서, 용어 "통과대역" 은 마스킹 함수에 의해 통과되는 도달 방향들의 범위를 칭한다.) 다양한 주파수 성분들에 대한 마스크 스코어들의 세트는 벡터로서 고려될 수도 있다. 태스크 (T320) 는 다양한 방향 지시자들을 직렬로 및/또는 병렬로 레이팅하도록 구성될 수도 있다.
마스킹 함수의 통과대역은 원하는 신호 방향을 포함하도록 선택될 수도 있다. 마스킹 함수의 공간 선택성은 통과대역의 폭을 변화시킴으로써 제어될 수도 있다. 예를 들어, 수렴 레이트와 교정 정확도 사이의 트레이드오프에 따라 통과대역 폭을 선택하는 것이 바람직할 수도 있다. 더 넓은 통과대역이 더 많은 주파수 성분들이 교정 동작에 기여하게 함으로써 더 빠른 수렴을 허용할 수도 있지만, 이것은 어레이의 브로드사이드로부터 더 먼 (따라서, 마이크로폰들에 상이하게 영향을 미치는 것으로 기대될 수도 있는) 방향들로부터 도달하는 성분들을 허용함으로써 덜 정확한 것으로 또한 기대된다. 일 예에서, 태스크 (T300) (예를 들어, 후술하는 바와 같은 태스크 (T320), 또는 태스크 (T330)) 는 어레이의 브로드사이드 축의 15도내의 방향들로부터 도달하는 성분들 (즉, 75 내지 105 도, 또는 등가적으로는, 5π/12 내지 7π/12 라디안의 범위에서 도달 방향들을 갖는 성분들) 을 선택하도록 구성된다.
도 8a 는 통과대역과 정지대역 사이의 상대적으로 급격한 천이를 갖는 마스킹 함수 (또한 "브릭웰 (brickwell)" 프로파일이라 칭함) 및 도달 방향
Figure pct00076
에 중심을 둔 통과대역의 예를 도시한다. 하나의 이러한 경우에서, 태스크 (T320) 는 방향 지시자가 함수의 통과대역 내의 방향을 나타낼 때 제 1 값 (예를 들어, 1) 을 갖는 2진값 마스크 스코어, 및 방향 지시자가 함수의 통과대역 외부의 방향을 나타낼 때 제 2 값 (예를 들어, 0) 을 갖는 마스크 스코어를 할당하도록 구성된다. (예를 들어, 교정 정확도에 악영향을 미칠 수도 있는 원하는 지향성 신호의 존재를 나타내는, SNR 이 높을 때 더욱 협소한 통과대역을 사용하기 위해) 신호 대 잡음비 (SNR), 잡음 플로어 등과 같은 하나 이상의 팩터들에 의존하여 정지대역과 통과대역 사이의 천이의 위치를 변화시키는 것이 바람직할 수도 있다.
다르게는, 통과대역과 정지대역 사이에서 덜 갑작스런 천이들 (예를 들어, 2진값이 아닌 마스크 스코어를 산출하는, 더욱 점진적인 롤오프) 을 갖는 마스킹 함수를 사용하도록 태스크 (T320) 를 구성하는 것이 바람직할 수도 있다. 도 8b 는 도달 방향
Figure pct00077
에 중심을 둔 통과대역을 갖는 마스킹 함수에 대한 선형 롤오프의 예를 도시하고, 도 8c 는 도달 방향
Figure pct00078
에 중심을 둔 통과대역을 갖는 마스킹 함수의 비선형 롤오프의 예를 도시한다. (예를 들어, 교정 정확도에 악영향을 미칠 수도 있는 원하는 지향성 신호의 존재를 나타내는, SNR 이 높을 때 더욱 급격한 롤오프를 사용하기 위해) SNR, 잡음 플로어 등과 같은 하나 이상의 팩터들에 의존하여 정지대역과 통과대역 사이의 천이의 위치 및 첨예도 (sharpness) 를 변화시키는 것이 바람직할 수도 있다. 물론, (예를 들어, 도 8a 내지 도 8c 에 도시된 바와 같은) 마스킹 함수는 방향 (
Figure pct00079
) 보다는 시간 지연 (
Figure pct00080
) 또는 비율 (r) 에 관하여 또한 표현될 수도 있다. 예를 들어, 도달 방향 (
Figure pct00081
) 은 제로의 시간 지연 (
Figure pct00082
) 또는 비율 (
Figure pct00083
) 에 대응한다.
비선형 마스킹 함수의 하나의 예가
Figure pct00084
으로서 표현될 수도 있고, 여기서,
Figure pct00085
는 타겟 도달 방향을 나타내고,
Figure pct00086
는 라디안 단위의 마스크의 원하는 폭을 나타내고,
Figure pct00087
는 첨예도 파라미터를 나타낸다. 도 9a 내지 도 9c 는
Figure pct00088
Figure pct00089
각각과 동일한
Figure pct00090
에 대한 이러한 함수의 예들을 도시한다. 물론, 이러한 함수는 방향 (
Figure pct00091
) 보다는 시간 지연 (
Figure pct00092
) 또는 비율 (r) 에 관하여 또한 표현될 수도 있다. (예를 들어, SNR 이 높을 때 더욱 협소한 마스크 및/또는 더욱 급격한 롤오프를 사용하기 위해) SNR, 잡음 플로어 등과 같은 하나 이상의 팩터들에 의존하여 마스크의 폭 및/또는 첨예도를 변화시키는 것이 바람직할 수도 있다.
도 5b 는 태스크 (T300) 의 대안의 구현 (T304) 의 플로우차트를 도시한다. 복수의 방향 지시자 각각을 레이팅하기 위해 동일한 마스킹 함수를 사용하는 대신에, 태스크 (T304) 는 대응하는 지향성 마스킹 함수 (mi) 를 사용하여 각 위상차 (
Figure pct00093
) 를 레이팅하는 방향 지시자들로서 계산된 위상차들을 사용하는 서브태스크 (T330) 를 포함한다. 예를 들어,
Figure pct00094
로부터
Figure pct00095
까지의 범위의 방향들로부터 도달하는 사운드 성분들을 선택하는 것이 소망되는 경우에 대해, 각 마스킹 함수 (mi) 는
Figure pct00096
로부터
Figure pct00097
까지의 범위인 통과대역을 갖도록 구성될 수도 있고, 여기서,
Figure pct00098
(등가적으로,
Figure pct00099
) 및
Figure pct00100
(등가적으로,
Figure pct00101
) 이다.
Figure pct00102
로부터
Figure pct00103
까지의 도달 시간 지연의 범위에 대응하는 방향들로부터 도달하는 사운드 성분들을 선택하는 것이 소망되는 경우에 대해, 각 마스킹 함수 (mi) 는
Figure pct00104
로부터
Figure pct00105
까지의 범위인 통과대역을 갖도록 구성될 수도 있고, 여기서,
Figure pct00106
(등가적으로,
Figure pct00107
) 및
Figure pct00108
(등가적으로,
Figure pct00109
) 이다.
Figure pct00110
로부터
Figure pct00111
까지의 주파수에 대한 위상차의 비율의 범위에 대응하는 방향들로부터 도달하는 사운드 성분들을 선택하는 것이 소망되는 경우에 대해, 각 마스킹 함수 (mi) 는
Figure pct00112
로부터
Figure pct00113
까지의 범위인 통과대역을 갖도록 구성될 수도 있고, 여기서,
Figure pct00114
Figure pct00115
이다. 태스크 (T320) 를 참조하여 상기 논의한 바와 같이, 각 마스킹 함수의 프로파일은 SNR, 잡음 플로어 등과 같은 하나 이상의 팩터들에 따라 선택될 수도 있다.
일시적으로 평활화된 값들로서 주파수 성분들 중 하나 이상 (가능하면 모두) 각각에 대한 마스크 스코어들을 발생시키도록 태스크 (T300) 를 구성하는 것이 바람직할 수도 있다. 태스크 (T300) 의 이러한 구현은 가장 최근의 m 개의 프레임들을 통해 주파수 성분에 대한 마스크 스코어들의 평균값으로서 이러한 값을 계산하도록 구성될 수도 있고, 여기서, m 개의 가능한 값들은 5, 10, 20, 및 50 을 포함한다. 더욱 일반적으로, 태스크 (T300) 의 이러한 구현은 유한 또는 무한 임펄스 응답 (FIR 또는 IIR) 필터와 같은 일시적 평활화 함수를 사용하여 평활화된 값을 계산하도록 구성될 수도 있다. 하나의 이러한 예에서, 태스크 (T300) 는
Figure pct00116
와 같은 표현식에 따라 프레임 n 의 주파수 성분 (i) 에 대한 마스크 스코어의 평활화된 값 (
Figure pct00117
) 을 계산하도록 구성되고, 여기서,
Figure pct00118
는 이전의 프레임에 대한 주파수 성분 (i) 에 대한 마스크 스코어의 평활화된 값을 나타내고,
Figure pct00119
은 주파수 성분 (i) 에 대한 마스크 스코어의 현재값을 나타내고,
Figure pct00120
는 그 값이 제로 (평활화 없음) 로부터 1 (업데이트 없음) 까지의 범위로부터 선택될 수도 있는 평활화 팩터이다. 이러한 1차 IIR 필터를 "리키 적분기 (leaky integrator)" 로 또한 칭할 수도 있다.
평활화 팩터 (
Figure pct00121
) 의 통상의 값들은 0.99, 0.09, 0.95, 0.9 및 0.8 을 포함한다. 프레임의 각 주파수 성분에 대해
Figure pct00122
의 동일한 값을 사용하는 것이 태스크 (T300) 에 대해 통상적이지만 반드시는 아니다. 초기 수렴 주기 (예를 들어, 오디오 감지 회로의 파워 온 또는 다른 활동 직후) 동안, 다음의 정상 상태 동작 동안 보다 더 짧은 간격을 통해 평활화된 값을 계산하거나, 평활화 팩터들 중 하나 이상 (가능하면 모두) 에 대해 더 작은 값을 사용하는 것이 태스크 (T300) 에 대해 바람직할 수도 있다.
태스크 (T340) 는 신호의 음향적으로 밸런싱된 부분들을 선택하기 위해 복수의 마스크 스코어로부터의 정보를 사용하도록 구성될 수도 있다. 태스크 (T340) 는 음향 밸런스의 직접 지시자들로서 2진값 마스크 스코어들을 취하도록 구성될 수도 있다. 예를 들어, 그 통과대역이 어레이 (R100) 의 브로드사이드 방향에 있는 마스크에 대해, 태스크 (T340) 는 1 의 마스크 스코어들을 갖는 주파수 성분들을 선택하도록 구성될 수도 있고, (도 3b 에 도시되어 있는 바와 같이) 그 통과대역들이 어레이 (R100) 의 엔드파이어 방향들에 있는 마스크에 대해서는, 태스크 (T340) 는 제로의 마스크 스코어들을 갖는 주파수 성분들을 선택하도록 구성될 수도 있다.
2진값이 아닌 마스크 스코어의 경우에 대해, 태스크 (T340) 는 마스크 스코어를 임계값에 비교하도록 구성될 수도 있다. 예를 들어, 그 통과대역이 어레이 (R100) 의 브로드사이드 방향에 있는 마스크에 대해, 그 마스크 스코어가 임계값 보다 크면 (다르게는, 작지 않으면) 음향적으로 밸런싱된 부분으로서 주파수 성분을 식별하는 것이 태스크 (T340) 에 대해 바람직할 수도 있다. 유사하게는, 그 통과대역들이 어레이 (R100) 의 엔드파이어 방향들에 있는 마스크에 대해, 그 마스크 스코어가 임계값 보다 작으면 (다르게는, 크지 않으면) 음향적으로 밸런싱된 부분으로서 주파수 성분을 식별하는 것이 태스크 (T340) 에 대해 바람직할 수도 있다.
태스크 (T340) 의 이러한 구현은 모든 주파수 성분들에 대해 동일한 임계값을 사용하도록 구성될 수도 있다. 다르게는, 태스크 (T340) 는 주파수 성분들 중 2개 이상 (가능하면 모두) 각각에 대해 상이한 임계값들을 사용하도록 구성될 수도 있다. 태스크 (T340) 는 고정된 임계값 (또는 값들) 을 사용하도록 구성될 수도 있거나, 다르게는, 신호의 특성 (예를 들어, 프레임 에너지) 및/또는 마스크의 특성 (예를 들어, 통과대역 폭) 에 기초하여 시간을 통해 하나의 세그먼트로부터 다른 세그먼트로 임계값 (또는 값들) 을 적응시키도록 구성될 수도 있다.
도 5c 는 태스크 (T200) 의 구현 (T205); 태스크 (T300) (예를 들어, 태스크 (T302) 또는 태스크 (T304)) 의 구현 (T305); 및 태스크 (T400) 의 구현 (T405) 의 플로우차트를 도시한다. 태스크 (T205) 는 (적어도) 2개의 서브대역들 각각에서 각 채널에 대한 레벨을 계산하도록 구성된다. 태스크 (T305) 는 서브대역들 각각에 대한 이득 팩터값을 업데이트하도록 구성되고, 태스크 (T405) 는 대응하는 서브대역에서의 제 1 채널의 진폭에 대한 대응하는 서브대역에서의 제 2 채널의 진폭을 변경하기 위해 각 업데이트된 이득 팩터값을 적용하도록 구성된다.
신호가 이상적인 포인트 소스로부터의 잔향음없이 수신될 때, 모든 주파수 성분들은 동일한 도달 방향을 가져야 한다 (예를 들어, 비율 (
Figure pct00123
) 의 값은 모든 주파수들에 걸쳐 일정해야 한다). 신호의 상이한 주파수 성분들이 동일한 도달 방향을 갖는 정도를 "지향적 코히어런스 (coherence)" 로 또한 칭한다. 마이크로폰 어레이가 원거리장 소스 (예를 들어, 배경 잡음 소스) 로부터 발생하는 사운드를 수신할 때, 결과적인 멀티채널 신호는 통상적으로, 근거리장 소스 (예를 들어, 사용자의 음성) 로부터 발생하는 수신된 사운드에 대한 것 보다 덜 지향적으로 코히어런트일 것이다. 예를 들어, 상이한 주파수 성분들 각각에서 마이크로폰 채널들 사이의 위상차들은 통상적으로, 근거리장 소스로부터 발생하는 수신된 사운드에 대한 것 보다 원거리장 소스로부터 발생하는 수신된 사운드에 대한 주파수와 덜 상관될 것이다.
멀티채널 신호의 부분 (예를 들어, 세그먼트 또는 서브대역) 이 음향적으로 밸런싱되거나 음향적으로 밸런싱되지 않는지를 나타내기 위해, 지향성 코히어런스 뿐만 아니라 도달 방향을 사용하도록 태스크 (T300) 를 구성하는 것이 바람직할 수도 있다. 예를 들어, 이들 부분들에서의 주파수 성분들이 지향적으로 코히어런트한 정도에 기초하여 멀티채널 신호의 음향적으로 밸런싱된 부분들을 선택하도록 태스크 (T300) 를 구성하는 것이 바람직할 수도 있다. 지향적 코히어런스의 사용은 예를 들어, 어레이의 엔드파이어 방향에 위치된 지향적 간섭성 소스 (예를 들어, 근거리장 소스) 에 의한 활동을 포함하는 세그먼트들 또는 서브대역들의 거부를 인에이블링함으로써 채널 교정 동작의 증가된 정확도 및/또는 신뢰도를 지원할 수도 있다.
도 10 은 2개 마이크로폰 어레이 (R100) 로부터의 멀티채널 신호에 태스크 (T300) 의 구현에 의해 적용될 수 있는 바와 같은 마스킹 함수의 지향성 패턴의 순방향 및 역방향 로브들을 도시한다. 어레이 (R100) 의 브로드사이드 방향들에서의 근거리장 소스들 또는 임의의 방향에서의 원거리장 소스들과 같은 이러한 패턴 외부에 위치된 소스들로부터 수신된 사운드 성분들이 음향적으로 밸런싱된다 (즉, 마이크로폰들 (MC10 및 MC20) 에 의해 동일한 응답들을 야기한다) 것이 기대될 수도 있다. 유사하게는, 이러한 패턴의 순방향 또는 역방향 로브들내의 소스들 (즉, 어레이 (R100) 의 엔드파이어 방향들 중 어느 하나에서의 근거리장 소스들) 로부터 수신된 사운드 성분들이 음향적으로 밸런싱되지 않는다 (즉, 하나의 마이크로폰으로 하여금 다른 마이크로폰 보다 높은 출력 레벨을 갖게 한다) 는 것이 기대될 수도 있다. 따라서, 이러한 마스킹 함수 패턴의 어느 로브내에서도 소스들을 갖지 않는 세그먼트들 또는 서브대역들 (예를 들어, 지향적으로 코히어런트가 아니거나 브로드사이드 방향에서만 코히어런트인 세그먼트들 또는 서브대역들) 을 선택하도록 태스크 (T300) 의 대응하는 구현을 구성하는 것이 바람직할 수도 있다.
상기 언급한 바와 같이, 태스크 (T300) 는 멀티채널 신호의 음향적으로 밸런싱된 부분들을 식별하기 위해 태스크 (T100) 에 의해 계산된 위상차들로부터의 정보를 사용하도록 구성될 수도 있다. 태스크 (T300) 는 서브대역들 또는 세그먼트들이 어레이의 브로드사이드 방향에서 지향적으로 코히어런트이다 (또는, 다르게는, 엔드파이어 방향에서는 지향적으로 코히어런트가 아니다) 는 것을 그 마스크 스코어들이 나타내는 신호의 서브대역들 또는 세그먼트들로서 음향적으로 밸런싱된 부분들을 식별하도록 구현될 수도 있어서, 대응하는 이득 팩터값의 업데이팅은 이러한 식별된 서브대역들 또는 세그먼트들에 대해서만 수행된다.
도 11a 는 태스크 (T300) 의 구현 (T306) 을 포함하는 방법 (M100) 의 구현 (M110) 의 플로우차트를 도시한다. 태스크 (T306) 는 태스크 (T100) 에 의해 계산된 위상차들로부터의 정보에 기초하여, 코히어런시 측정의 값을 계산하는 서브태스크 (T360) 를 포함한다. 도 11b 는 상술한 바와 같은 서브태스크들 (T312 및 T322) 및 서브태스크 (T350) 의 경우를 포함하는 태스크 (T360) 의 구현 (T362) 의 플로우차트를 도시한다. 도 11c 는 상술한 바와 같은 서브태스크 (T332) 및 서브태스크 (T350) 의 경우를 포함하는 태스크 (T360) 의 구현 (T364) 의 플로우차트를 도시한다.
태스크 (T350) 는 서브대역에 대한 코히어런시 측정치를 획득하기 위해 각 서브대역에서의 주파수 성분들의 마스크 스코어들을 조합하도록 구성될 수도 있다. 하나의 이러한 예에서, 태스크 (T350) 는 특정한 상태를 갖는 마스크 스코어들의 수에 기초하여 코히어런시 측정치를 계산하도록 구성된다. 다른 예에서, 태스크 (T350) 는 마스크 스코어들의 합으로서 코히어런시 측정치를 계산하도록 구성된다. 추가 예에서, 태스크 (T350) 는 마스크 스코어들의 평균으로서 코히어런시 측정치를 계산하도록 구성된다. 임의의 이들 경우들에서, 태스크 (T350) 는 마스크 스코어들 각각을 동일하게 가중하도록 (예를 들어, 각 마스크 스코어를 1씩 가중하도록) 또는 하나 이상의 마스크 스코어들을 서로 상이하게 가중하도록 (예를 들어, 중간 주파수 성분에 대응하는 마스크 스코어 보다 덜 심하게 저주파수 또는 고주파수 성분에 대응하는 마스크 스코어를 가중하도록) 구성될 수도 있다.
(예를 들어, 도 8a 내지 도 8c 및 도 9a 내지 도 9c 에 도시되어 있는 바와 같이) 그 통과대역이 어레이 (R100) 의 브로드사이드에 있는 마스크에 대해, 태스크 (T350) 는 예를 들어, 마스크 스코어들의 합 또는 평균이 임계값 보다 작지 않으면 (다르게는 크면), 또는 적어도 (다르게는, 보다 많은) 최소 소의 서브대역에서의 주파수 성분들이 1 의 마스크 스코어를 가지면, 제 1 상태 (예를 들어, 하이 또는 "1") 를 갖고, 그렇지 않으면 제 2 상태 (예를 들어, 로우 또는 "0") 를 갖는 코히어런시 표시를 발생시키도록 구성될 수도 있다. 그 통과대역이 어레이 (R100) 의 엔드파이어 방향에 있는 마스크에 대해, 태스크 (T350) 는 예를 들어, 마스크 스코어들의 합 또는 평균이 임계값 보다 크지 않으면 (다르게는, 작으면), 또는 많아야 (다르게는, 보다 작은) 최대 수의 서브대역에서의 주파수 성분들이 1 의 마스크 스코어를 가지면, 제 1 상태를 갖고, 그렇지 않으면 제 2 상태를 갖는 코히어런시 측정치를 발생시키도록 구성될 수도 있다.
태스크 (T350) 는 각 서브대역에 대해 동일한 임계값을 사용하거나 서브대역들 중 2개 이상 (가능하면 모두) 각각에 대해 상이한 임계값을 사용하도록 구성될 수도 있다. 각 임계값은 발견적으로 결정될 수도 있으며, 통과대역 폭, 신호의 하나 이상의 특성 (예를 들어, SNR, 잡음 플로어) 등과 같은 하나 이상의 팩터들에 의존하여 시간을 통해 임계값을 변화시키는 것이 바람직할 수도 있다 (동일한 원리들이 이전의 단락에서 언급한 최대 및 최소 수들에 적용된다).
다르게는, 태스크 (T350) 는 멀티채널 신호의 일련의 세그먼트들 각각에 대한 대응하는 지향적 코히어런시 측정치를 발생시키도록 구성될 수도 있다. 이러한 경우에서, 태스크 (T350) 는 (예를 들어, 상술한 바와 같이, 특정한 상태를 갖는 마스크 스코어들의 수, 또는 마스크 스코어들의 합 또는 평균에 기초하여) 세그먼트에 대한 코히어런시 측정치를 획득하기 위해 각 세그먼트에서의 주파수 성분들 중 2개 이상 (가능하면 모두) 의 마스크 스코어들을 조합하도록 구성될 수도 있다. 태스크 (T350) 의 이러한 구현은 상술한 바와 같이 하나 이상의 팩터들에 의존하여 시간을 통해 임계값을 변화시키거나, 각 세그먼트에 대해 동일한 임계값을 사용하도록 구성될 수도 있다 (예를 들어, 동일한 원리들이 최대 또는 최소 수의 마스크 스코어들에 적용된다).
세그먼트의 모든 주파수 성분들의 마스크 스코어들에 기초하여 각 세그먼트에 대한 코히어런시 측정치를 계산하도록 태스크 (T350) 를 구성하는 것이 바람직할 수도 있다. 다르게는, 한정된 주파수 범위에 걸친 주파수 성분들의 마스크 스코어들에 기초하여 각 세그먼트에 대한 코히어런시 측정치를 계산하도록 태스크 (T350) 를 구성하는 것이 바람직할 수도 있다. 예를 들어, 태스크 (T350) 는 약 50, 100, 200, 또는 300 Hz 로부터 약 500 또는 1000 Hz 까지의 주파수 범위에 걸친 주파수 성분들의 마스크 스코어들에 기초하여 코히어런시 측정치를 계산하도록 구성될 수도 있다 (이들 8개의 조합 각각은 명백히 고려되고 개시된다). 예를 들어, 채널들의 응답 특성들 사이의 차이들이 이러한 주파수 범위에 걸친 채널들의 이득 응답들에서의 차이에 의해 충분하게 특징화된다는 것이 결정될 수도 있다.
태스크 (T340) 는 태스크 (T360) 에 의해 식별된 음향적으로 밸런싱된 부분들로부터의 정보에 기초하여 적어도 하나의 이득 팩터 각각에 대한 업데이트된 값을 계산하도록 구성될 수도 있다. 예를 들어, 멀티채널 신호가 (예를 들어, 대응하는 코히어런시 표시의 상태에 의해 표시될 때 태스크 (T360) 에서의 서브대역 또는 세그먼트의 선택에 응답하여) 대응하는 세그먼트 또는 서브대역에서 지향적으로 코히어런트이다는 표시에 응답하여 업데이트된 이득 팩터값을 계산하도록 태스크 (T340) 를 구성하는 것이 바람직할 수도 있다.
태스크 (T400) 는 제 1 채널의 진폭에 대한 제 2 채널의 진폭을 제어하기 위해 태스크 (T300) 에 의해 발생된 업데이트된 이득 팩터값을 사용하도록 구성될 수도 있다. 여기에 설명한 바와 같이, 음향적으로 밸런싱된 세그먼트의 관측된 레벨 불균형에 기초하여 이득 팩터값을 업데이트하도록 태스크 (T300) 를 구성하는 것이 바람직할 수도 있다. 이득 팩터값을 억제하는 것이 태스크 (T300) 에 대해 바람직할 수도 있고, 음향적으로 밸런싱되지 않은 다음의 세그먼트들에 대해, 가장 최근에 업데이트된 이득 팩터값을 계속 적용하는 것이 태스크 (T400) 에 대해 바람직할 수도 있다. 도 12a 는 태스크 (T400) 의 이러한 구현 (T420) 을 포함하는 방법 (M100) 의 구현 (M120) 의 플로우차트를 도시한다. 태스크 (T420) 는 멀티채널 신호의 일련의 연속 세그먼트들 각각 (예를 들어, 일련의 음향적으로 밸런싱되지 않은 세그먼트들 각각) 에서, 제 1 채널의 진폭에 대한 제 2 채널의 진폭을 변경하기 위해 업데이트된 이득 팩터값을 사용하도록 구성된다. 이러한 시리즈는 태스크 (T300) 가 이득 팩터값을 다시 업데이트하도록 다른 음향적으로 밸런싱된 세그먼트가 식별될 때까지 계속될 수도 있다. (이 단락에 설명된 원리들은 여기에 설명된 바와 같은 서브대역 이득 팩터값들의 업데이팅 및 적용에 또한 적용될 수도 있다)
방법 (M100) 의 구현들은 또한, 교정 의존형일 수도 있는 공간 선택 프로세싱 동작 (예를 들어, 오디오 감지 디바이스와 특정한 사운드 소스 사이의 거리를 결정하고, 잡음을 감소시키고, 특정한 방향으로부터 도달하는 신호 성분들을 강화하고/하거나 다른 환경적 사운드들로부터 하나 이상의 사운드 성분들을 분리하는 하나 이상의 동작들) 과 같은 멀티채널 신호 및/또는 프로세싱된 멀티채널 신호에 대한 다양한 추가 동작들을 지원하도록 구성될 수도 있다. 예를 들어, 밸런싱된 멀티채널 신호 (예를 들어, 프로세싱된 멀티채널 신호) 에 대한 애플리케이션들의 범위는 비정상 분산 및/또는 지향성 잡음; 근거리장의 원하는 화자에 의해 발생된 사운드의 탈반향; 마이크로폰 채널들 사이에서 상관되지 않은 잡음 (예를 들어, 바람 및/또는 센서 잡음) 의 제거; 원치않은 방향으로부터의 사운드의 억제; 임의의 방향으로부터의 원거리장 신호들의 억제; (예를 들어, 원거리장 소스들로부터의 간섭의 상당한 제거를 위한) 직접 경로 - 잔향 신호 강도; 근거리장 소스와 원거리장 소스 사이의 구별을 통한 비정상 잡음의 감소; 및 이득 기반 접근방식들로는 통상적으로 달성불가능한 중지 동안 뿐만 아니라 근거리장의 원하는 소스 활동 동안 정면 간섭자 (frontal interferer) 로부터의 사운드의 감소를 포함한다.
도 12b 는 프로세싱된 멀티채널 신호에 대해 음성 활동 검출 (VAD) 동작을 수행하는 태스크 (T500) 를 포함하는 방법 (M100) 의 구현 (M130) 의 플로우차트를 도시한다. 도 13a 는 프로세싱된 멀티채널 신호로부터의 정보에 기초하여 잡음 추정치를 업데이트하고, 음성 활동 검출 동작을 포함할 수도 있는 태스크 (T600) 를 포함하는 방법 (M100) 의 구현 (M140) 의 플로우차트를 도시한다.
(예를 들어, 더 양호한 잡음 감소를 위해) 근거리장 소스와 원거리장 소스 사이를 구별하는 신호 프로세싱 방식을 구현하는 것이 바람직할 수도 있다. 이러한 방식의 하나의 진폭 또는 이득 기반 예는, 소스가 근거리장 또는 원거리장인지를 결정하기 위해 2개의 마이크로폰들 사이에서 압력 기울기장 (pressure gradient field) 을 사용한다. 이러한 기법이 근거리장 묵음 동안 원거리장 소스로부터의 잡음을 감소시키는데 유용할 수도 있지만, 소스들 양자가 활성일 때 근거리장 신호와 원거리장 신호 사이의 구별을 지원하지 않을 수도 있다.
특정한 각도 범위내에서 일관된 픽업을 제공하는 것이 바람직할 수도 있다. 예를 들어, 특정한 범위 (예를 들어, 마이크로폰 어레이의 축에 관하여, 60도 범위) 내에서 모든 근거리장 신호들을 수용하고, 나머지 (예를 들어, 70도 이상의 소스들로부터의 신호) 는 모두 감쇠시키는 것이 바람직할 수도 있다. 빔형성 및 BSS 로, 각 감쇠는 통상적으로, 이러한 범위에 걸쳐 일관된 픽업을 방지한다. 이러한 방법들은 또한, 포스트-프로세싱 동작이 재수렴되기 이전에, 디바이스의 배향의 변화 (예를 들어, 회전) 이후 음성 거부를 발생시킬 수도 있다. 여기에 설명된 바와 같은 방법 (M100) 의 구현들은, 원하는 화자에 대한 방향이 허용가능한 방향들의 범위내에 여전히 있는 동안은, 디바이스의 갑작스런 회전에 강건한 잡음 감소 방법들을 획득하기 위해 사용될 수도 있어서, 수렴 지연들로 인한 음성 변동 및/또는 이전의 잡음 레퍼런스로 인한 음성 감쇠를 회피할 수도 있다.
밸런싱된 멀티채널 신호로부터의 위상 차이들과 위상 기반 지향성 정보를 조합함으로써, 조정가능한 공간 영역이 신호들의 존재가 모니터링될 수 있는 마이크로폰 어레이 주위에서 선택될 수도 있다. 이득 기반 및/또는 지향성 경계들은 상이한 서브태스크들에 대해 좁거나 넓은 픽업 영역들을 정의하도록 설정될 수도 있다. 예를 들어, 더 좁은 경계가 원하는 음성 활동을 검출하도록 설정될 수 있는 반면에, 선택된 영역에 대한 더 넓은 경계가 잡음 감소와 같은 목적을 위해 사용될 수도 있다. 위상 상관 및 이득차 평가들의 정확도는 SNR 의 감소에 따라 감소하는 경향이 있고, 거짓 경보 레이트들에 따라 임계값들 및/또는 결정들을 조정하는 것이 바람직할 수도 있다.
프로세싱된 멀티채널 신호가 음성 활동 검출 (VAD) 동작을 지원하기 위해 오직 사용되는 애플리케이션에 대해, 이득 교정을 위해 감소된 정확도 레벨에서 동작하는 것이 수용가능할 수도 있어서, 효율적이고 정확한 잡음 감소 동작이 감소된 잡음 감소 수렴 시간을 가지고 더욱 빠르게 수행될 수도 있다.
사운드 소스와 마이크로폰 쌍 사이의 상대적 거리가 증가할 때, 상이한 주파수 성분들의 도달 방향들 사이의 코히어런스가 (잔향음의 증가로 인해) 감소하는 것으로 기대될 수도 있다. 따라서, 태스크 (T360) 에서 계산된 코히어런시 측정치는 또한 근접 측정치로서 어느 정도 작용할 수도 있다. 도달 방향에만 기초하는 프로세싱 동작들과 달리, 예를 들어, 여기에 설명한 바와 같이 코히어런시 측정치의 값에 기초하는 시간 및/또는 주파수 의존 진폭 제어가 경쟁하는 화자의 스피치와 같은 간섭으로부터의 다른 원하는 근거리장 소스 또는 사용자의 스피치를 동일한 방향에서 원거리장 소스로부터 구별하는데 효율적일 수도 있다. 지향적 코히어런시가 거리에 따라 감소하는 레이트는 하나의 환경으로부터 다른 환경으로 변화할 수도 있다. 예를 들어, 자동차의 실내는 통상적으로 매우 반향하여서, 광범위의 주파수들을 통한 지향적 코히어런시는 소스로부터 오직 약 50 센티미터의 범위내에서 시간을 통해 신뢰가능하게 안정한 레벨에서 유지될 수도 있다. 이러한 경우에서, 뒤자리 승객으로부터의 사운드는, 그 화자가 지향성 마스킹 함수의 통과대역내에 위치되더라도 비코히어런트 (incoherent) 로서 거부될 수도 있다. 검출가능한 코히어런스의 범위는 또한, (예를 들어, 근처의 천장으로부터의 반향으로 인해) 키가 큰 화자에 대한 이러한 환경에서 또한 감소될 수도 있다.
프로세싱된 멀티채널 신호는 BSS, 다달 지연, 또는 다른 지향적 SSP 와 같은 다른 공간 선택 프로세싱 (SSP) 동작들, 또는 근접 검출과 같은 거리 SSP 를 지원하기 위해 사용될 수도 있다. 근접 검출은 채널들 사이의 이득차에 기초할 수도 있다. 시간 도메인, 또는 주파수 도메인에서 (예를 들어, 한정된 주파수 범위를 통해 및/또는 다중의 피치 주파수에서 코히어런스의 측정치로서) 이득차를 계산하는 것이 바람직할 수도 있다.
휴대용 오디오 감지 디바이스들에 대한 멀티-마이크로폰 잡음 감소 방식들은 빔형성 접근방식 및 블라인드 소스 분리 (BSS) 접근방식을 포함한다. 이러한 접근방식들은 통상적으로, 원하는 사운드와 동일한 방향으로부터 도달하는 잡음 (예를 들어, 근거리장 화자의 음성) 을 억제에 대한 불능으로부터 손상을 받는다. 특히, 헤드셋들 및 중간거리장 또는 원거리장 핸드헬드 애플리케이션들 (예를 들어, 핸드셋 또는 스마트폰의 브라우즈-토크 (browse-talk) 및 스피커폰 모드들) 에서, 마이크로폰 어레이에 의해 레코딩된 멀티채널 신호는 간섭하는 잡음 소스들로부터의 사운드 및/또는 원하는 근거리자 토커의 스피치의 상당한 반향을 포함할 수도 있다. 특히, 헤드셋들에 대해, 사용자의 입에 대한 큰 거리는 마이크로폰 어레이가, 지향적 정보만을 사용하여 상당히 억제하는 것이 어려울 수도 있는 정면 방향으로부터의 대량의 잡음을 픽업하게 할 수도 있다.
통상의 BSS 또는 일반화된 사이드로브 소거 (GSC) 타입 기법은, 원하는 음성을 하나의 마이크로폰 채널로 먼저 분리한 후, 분리된 음성에 대해 포스트 프로세싱 동작을 수행함으로써 잡음 감소를 수행한다. 이러한 절차는 음향 시나리오가 변화하는 경우에서 긴 수렴 시간을 초래할 수도 있다. 예를 들어, 블라인드 소스 분리, GSC, 또는 유사한 적응형 학습 규칙들에 기초한 잡음 감소 방식들이 디바이스-사용자 홀딩 패턴들 (예를 들어, 디바이스와 사용자의 입 사이의 배향) 에서의 변화들 및/또는 환경적 잡음 (예를 들어, 지나가는 차량, 확성 발표) 의 소리크기 및/또는 스펙트럼 시그너처에서의 급속한 변화들 동안 긴 수렴 시간을 나타낼 수도 있다. 반향 환경 (예를 들어, 차의 실내) 에서, 적응형 학습 방식이 문제가 있는 수렴을 가질 수도 있다. 수렴하기 위한 이러한 방식의 실패는 원하는 신호 성분을 거부하게 할 수도 있다. 음성 통신 애플리케이션들에서, 이러한 거부는 음성 왜곡을 증가시킬 수도 있다.
디바이스-사용자 홀딩 패턴들에서의 변화들에 대한 이러한 방식들의 강건성을 증가시키고/시키거나 수렴 시간을 증가시키기 위해, 디바이스 주위의 공간 픽업 영역을 한정하여 더욱 빠른 초기 잡음 제거 응답을 제공하는 것이 바람직할 수도 있다. 이러한 방법은 (예를 들어, 마이크로폰 어레이의 축과 같은 디바이스의 레퍼런스 방향에 관하여) 특정한 각도 방향들을 차별함으로써 한정된 공간 픽업 영역을 정의하기 위해 마이크로폰들 사이의 위상 및 이득 관계들 활용하도록 구성될 수도 있다. 베이스라인 초기 잡음 감소를 항상 나타내는 원하는 화자 방향에서 오디오 디바이스 주위에 선택 영역을 가짐으로써, 오디오 디바이스에 관한 원하는 사용자의 공간 변화들 뿐만 아니라 환경적 잡음에 대한 급속한 변화들에 대한 높은 정도의 강건성이 달성될 수 있다.
밸런싱된 채널들 사이의 이득차들은 더 양호한 정면 잡음 억제 (예를 들어, 사용자의 정면에서 간섭하는 화자의 억제) 와 같은 더욱 적극적인 근거리장/원거리장 구별을 지원할 수도 있는 근접 검출을 위해 사용될 수도 있다. 마이크로폰들 사이의 거리에 의존하여, 밸런싱된 마이크로폰 채널들 사이의 이득차는 통상적으로, 소스가 50 센티미터 또는 1 미터 이내에 있는 경우에만 발생할 것이다.
도 13b 는 방법 (M100) 의 구현 (M150) 의 플로우차트를 도시한다. 방법 (M150) 은 프로세싱된 멀티채널 신호에 대한 근접 검출 동작을 수행하는 태스크 (T700) 를 포함한다. 예를 들어, 태스크 (T700) 는, 프로세싱된 멀티채널 신호의 채널들의 레벨들 사이의 차이가 임계값 보다 클 때 (다르게는, (A) 교정되지 않은 채널들의 레벨차 및 (B) 태스크 (T300) 의 이득 팩터값의 합이 임계값 보다 클 때), 세그먼트가 원하는 소스로부터이다는 것을 검출하기 위해 (예를 들어, 음성 활성의 검출을 나타내기 위해) 구성될 수도 있다. 임계값은 발견적으로 결정될 수도 있고, (예를 들어, SNR 이 낮을 때 더 높은 임계값을 사용하기 위해) 신호 대 잡음비, 잡음 플로어 등과 같은 하나 이상의 팩터들에 의존하여 상이한 임계값들을 사용하는 것이 바람직할 수도 있다. 도 14a 는 3개의 상이한 임계값들에 대응하는 근접 검출 영역들의 경계들의 예를 도시하고, 이 영역은 임계값이 증가할 때 더 작게 증대한다.
허용된 검출들의 범위 (예를 들어, ± 45 도) 를 근거리장/원거리장 근접 버블과 조합하여 화자 커버리지의 콘을 획득하고, 이러한 구역 외부의 소스들로부터 비정상 잡음을 감쇠시키는 것이 바람직할 수도 있다. 이러한 방법은 원거리장 소스들이 허용가능한 방향들의 범위내에 있을 때에도 원거리장 소스들로부터 사운드를 감쇠시키기 위해 사용될 수도 있다. 예를 들어, 근거리장/원거리장 구별자의 적극적 튜닝을 지원하기 위해 양호한 마이크로폰 교정을 제공하는 것이 바람직할 수도 있다. 도 14b 는 화자 커버리지의 이러한 콘을 획득하기 위한 허용된 방향들의 범위 (예를 들어, 도 10 에 도시된 바와 같은 순방향 로브) 와 (도 14a 에 도시된 바와 같은) 근접 버블과의 교차 (볼드로 도시됨) 의 예를 도시한다. 이러한 경우에서, 태스크 (T100) 에서의 복수의 위상차 계산은 원하는 범위에서의 소스들로부터 발생하는 세그먼트들을 식별하기 위해 (예를 들어, 태스크들 (T312, T322, 및 T332) 을 참조하여 상기 논의한 바와 같은) 마스킹 함수 및/또는 (태스크 (T360) 를 참조하여 상기 논의한 바와 같은) 코히어런시 측정치를 사용하여 허용된 방향들의 범위를 적용하기 위해 사용될 수도 있다. 이러한 마스킹 함수의 방향 및 프로파일은 원하는 애플리케이션 (예를 들어, 음성 활동 검출을 위한 더 첨예한 프로파일, 또는 잡음 성분들의 감쇠를 위한 더 평활한 프로파일) 에 따라 선택될 수도 있다.
상기 논의한 바와 같이, 도 2 는 사용자의 입에 대한 표준 배향의 사용자의 귀에 장착된 헤드셋의 평면도를 도시한다. 도 15 및 도 16 은 이러한 애플리케이션에 적용되는 도 14b 에 도시된 바와 같은 소스 선택 영역 경계의 평면도 및 측면도를 도시한다.
음성 활동 검출 (VAD) 을 위해 근접 검출 동작 (예를 들어, 태스크 (T700)) 의 결과를 사용하는 것이 바람직할 수도 있다. 하나의 이러한 예에서, 비-2진의 개선된 VAD 측정치가 (예를 들어, 잡음 주파수 성분들 및/또는 세그먼트들을 감쇠시키기 위해) 채널들 중 하나 이상에 대한 이득 제어로서 적용된다. 도 17a 는 밸런싱된 멀티채널 신호에 대해 이러한 이득 제어 동작을 수행하는 태스크 (T800) 를 포함하는 방법 (M100) 의 구현 (M160) 의 플로우차트를 도시한다. 다른 이러한 예에서, 2진의 개선된 VAD 는 (예를 들어, VAD 동작에 의해 잡음으로서 분류된 주파수 성분들 또는 세그먼트들을 사용하는) 잡음 감소 동작에 대한 잡음 추정치를 계산 (예를 들어, 업데이트) 하기 위해 적용된다. 도 17b 는 근접 검출 동작의 결과에 기초하여 잡음 추정치를 계산 (예를 들어, 업데이트) 하는 태스크 (T810) 를 포함하는 방법 (M100) 의 구현 (M170) 의 플로우차트를 도시한다. 도 18 은 방법 (M170) 의 구현 (M180) 의 플로우차트를 도시한다. 방법 (M180) 은 업데이트된 잡음 추정치에 기초하는 멀티채널 신호의 적어도 하나의 채널에 대해 잡음 감소 동작 (예를 들어, 스펙트럼 감산 또는 위너 필터링 동작) 을 수행하는 태스크 (T820) 를 포함한다.
(도 14b 및/또는 도 15 및 도 16 에 도시된 바와 같은 버블을 정의하는) 근접 검출 동작 및 지향적 코히어런스 검출 동작으로부터의 결과들은 개선된 멀티-채널 음성 활동 검출 (VAD) 동작을 획득하도록 조합될 수도 있다. 조합된 VAD 동작은 비음성 프레임들의 신속한 거부를 위해 및/또는 프라이머리 마이크로폰 채널상에서 동작하도록 잡음 감소 방식을 구축하기 위해 사용될 수도 있다. 이러한 방법은 교정, VAD 에 대한 방향 및 근접 정보의 조합, 및 VAD 동작의 결과에 기초한 잡음 감소 동작의 수행을 포함할 수도 있다. 예를 들어, 근접 검출 태스크 (T700) 대신에 방법들 (M160, M170 또는 M180) 에서 이러한 조합된 VAD 동작을 사용하는 것이 바람직할 수도 있다.
통상의 환경에서의 음향 잡음은 웅성거림 잡음, 공항 잡음, 거리 잡음, 경쟁하는 화자의 음성들, 및/또는 간섭 소스들 (예를 들어, TV 세트 또는 라디오) 로부터의 사운드들을 포함할 수도 있다. 그 결과, 이러한 잡음은 통상적으로 비정상이고, 사용자 자신의 음성의 스펙트럼에 근접한 평균 스펙트럼을 가질 수도 있다. 단일 마이크로폰 신호로부터 계산될 때의 잡음 전력 레퍼런스 신호는 일반적으로, 오직 근사 정상 잡음 추정치이다. 또한, 이러한 계산은 일반적으로, 잡음 전력 추정 지연을 수반하여, 서브대역 이득의 대응하는 조정이 상당한 지연 이후에 오직 수행될 수 있다. 환경적 잡음의 신뢰가능하고 동시발생한 추정치를 획득하는 것이 바람직할 수도 있다.
잡음 추정치들의 예들은, 단일 채널 VAD 에 기초한 단일 채널 장기간 추정치, 및 멀티채널 BSS 필터에 의해 발생될 때의 잡음 레퍼런스를 포함한다. 태스크 (T810) 는 프라이머리 마이크로폰 채널의 성분들 및/또는 세그먼트들을 분류하기 위해 근접 검출 동작으로부터의 (듀얼-채널) 정보를 사용함으로써 단일 채널 잡음 레퍼런스를 계산하도록 구성될 수도 있다. 이러한 잡음 추정치는 장기간 추정치를 요구하지 않기 때문에, 다른 접근방식들 보다 매우 더 빠르게 이용가능할 수도 있다. 이러한 단일 채널 잡음 레퍼런스는 또한, 통상적으로 비정상 잡음의 제거를 지원할 수 없는 장기간 추정치 기반 접근방식과 다르게, 비정상 잡음을 캡처할 수 있다. 이러한 방법은 빠르고, 정확하고, 비정상인 잡음 레퍼런스를 제공할 수도 있다. 예를 들어, 이러한 방법은 도 14b 에 도시된 바와 같이 순방향 콘내에 있지 않은 임의의 프레임들에 대한 잡음 레퍼런스를 업데이트하도록 구성될 수도 있다. 잡음 레퍼런스는 (예를 들어, 가능하면 각 주파수 성분에 대해 1도 평활기 (smoother) 를 사용하여) 평활화될 수도 있다. 근접 검출의 사용은 이러한 방법을 사용하는 디바이스로 하여금, 지향성 마스킹 함수의 순방향 로브로 통과하는 차의 잡음의 사운드와 같은 근처의 트랜션트들을 거부하게 할 수도 있다.
수렴을 위해 멀티채널 BSS 방식을 대기하기 보다는 오히려, 프라이머리 채널로부터 직접적으로 잡음 레퍼런스를 취하도록 태스크 (T810) 를 구성하는 것이 바람직할 수도 있다. 이러한 잡음 레퍼런스는 조합된 위상 이득 VAD 를 사용하거나, 또는 단지 위상 VAD 를 사용하여 구성될 수도 있다. 이러한 접근방식은 또한, 화자와 전화기 사이의 새로운 공간 구성에 수렴하는 동안, 또는 헤드셋이 준최적 공간 구성에서 사용되고 있을 때 음성을 감쇠시키는 BSS 방식의 문제점을 회피하는 것을 도울 수도 있다.
상술된 바와 같은 VAD 표시는 잡음 레퍼런스 신호의 계산을 지원하도록 사용될 수도 있다. 예를 들어, 프레임이 잡음이다는 것을 VAD 표시가 나타낼 때, 프레임은 잡음 레퍼런스 신호 (예를 들어, 프라이머리 마이크로폰 채널의 잡음 성분의 스펙트럼 프로파일) 을 업데이트하기 위해 사용될 수도 있다. 이러한 업데이팅은 예를 들어, 주파수 성분값들을 일시적으로 평활화함으로써 (예를 들어, 현재의 잡음 추정치의 대응하는 성분의 값으로 각 성분의 이전의 값을 업데이트함으로써) 주파수 도메인에서 수행될 수도 있다. 하나의 예에서, 위너 필터가 프라이머리 마이크로폰 채널에 대한 잡음 감소 동작을 수행하기 위해 잡음 레퍼런스 신호를 사용한다. 다른 예에서, 스펙트럼 감산 동작은 (예를 들어, 프라이머리 마이크로폰 채널로부터 잡음 스펙트럼을 감산함으로써) 프라이머리 마이크로폰 채널에 대한 잡음 감소 동작을 수행하기 위해 잡음 레퍼런스 신호를 사용한다. 프레임이 잡음이 아니다는 것을 VAD 표시가 나타낼 때, 프레임은 프라이머리 마이크로폰 채널의 신호 성분의 스펙트럼 프로파일을 업데이트하기 위해 사용될 수도 있고, 이 프로파일은 또한 잡음 감소 동작을 수행하기 위해 위너 필터에 의해 사용될 수도 있다. 결과적인 동작은 듀얼 채널 VAD 동작을 사용하는 준-단일-채널 잡음 감소 알고리즘인 것으로 고려될 수도 있다.
여기에 설명된 바와 같이 근접 검출이, 채널 교정이 요구되지 않는 (예를 들어, 마이크로폰 채널들이 이미 밸런싱된) 상황들에 또한 적용될 수도 있다는 것에 명백히 유의한다. 도 19a 는 여기에 설명된 바와 같은 코히어런시 측정 및 근접 검출 (예를 들어, 도 14b 에 도시된 바와 같은 버블) 에 기초한 VAD 동작 (T900) 및 여기에 설명된 바와 같은 태스크들 (T100 및 T360) 의 경우들을 포함하는 일반 구성에 따른 방법 (M300) 의 플로우차트를 도시한다. 도 19b 는 (예를 들어, 태스크 (T810) 를 참조하여 설명된 바와 같은) 잡음 추정치 계산 태스크 (T910) 를 포함하는 방법 (M300) 의 구현 (M310) 의 플로우차트를 도시하고, 도 20a 는 (예를 들어, 태스크 (T820) 를 참조하여 설명된 바와 같이) 잡음 감소 태스크 (T920) 를 포함하는 방법 (M310) 의 구현 (M320) 의 플로우차트를 도시한다.
도 20b 는 일반 구성에 따른 장치 (G100) 의 블록도를 도시한다. 장치 (G100) 는 (예를 들어, 태스크 (T100) 를 참조하여 여기에 설명된 바와 같이) 복수의 위상차를 획득하는 수단 (F100) 을 포함한다. 장치 (G100) 는 또한, (예를 들어, 태스크 (T200) 를 참조하여 여기에 설명된 바와 같이) 멀티채널 신호의 제 1 및 제 2 채널들의 레벨들을 계산하는 수단 (F200) 을 포함한다. 장치 (G100) 는 또한, (예를 들어, 태스크 (T300) 를 참조하여 여기에 설명된 바와 같이) 이득 팩터값을 업데이트하는 수단 (F300) 을 포함한다. 장치 (G100) 는 또한, (예를 들어, 태스크 (T400) 를 참조하여 여기에 설명된 바와 같이) 업데이트된 이득 팩터값에 기초하여, 제 1 채널에 대한 제 2 채널의 진폭을 변경하는 수단 (F400) 을 포함한다.
도 21a 는 일반 구성에 따른 장치 (A100) 의 블록도를 도시한다. 장치 (A100) 는 (예를 들어, 태스크 (T100) 를 참조하여 여기에 설명된 바와 같이) 멀티채널 신호의 채널들 (S10-1 및 S10-2) 로부터의 복수의 위상차를 획득하도록 구성된 위상차 계산기 (100) 를 포함한다. 장치 (A100) 는 또한, (예를 들어, 태스크 (T200) 를 참조하여 여기에 설명된 바와 같이) 멀티채널 신호의 제 1 및 제 2 채널들의 레벨들을 계산하도록 구성된 레벨 계산기 (200) 를 포함한다. 장치 (A100) 는 또한, (예를 들어, 태스크 (T300) 를 참조하여 여기에 설명된 바와 같이) 이득 팩터값을 업데이트하도록 구성된 이득 팩터 계산기 (300) 를 포함한다. 장치 (A100) 는 또한, (예를 들어, 태스크 (T400) 를 참조하여 여기에 설명된 바와 같이) 업데이트된 이득 팩터값에 기초하여 제 1 채널에 대한 제 2 채널의 진폭을 변경함으로써 프로세싱된 멀티채널 신호를 발생시키도록 구성된 이득 제어 엘리먼트 (400) 를 포함한다.
도 21b 는 장치 (A100); 주파수 도메인에서 신호들 (S10-1 및 S10-2) 각각을 발생시키도록 구성된 FFT 모듈들 (TM10a 및 TM10b); 및 프로세싱된 멀티채널 신호에 대해 (예를 들어, 여기에 설명된 바와 같이) 공간 선택 프로세싱 동작을 수행하도록 구성된 공간 선택 프로세싱 모듈 (SS100) 을 포함하는 장치 (A110) 의 블록도를 도시한다. 도 22 는 장치 (A100) 및 FFT 모듈들 (TM10a 및 TM10b) 을 포함하는 장치 (A120) 의 블록도를 도시한다. 장치 (A120) 는 또한, (예를 들어, 태스크 (T700) 를 참조하여 여기에 설명된 바와 같이) 프로세싱된 멀티채널 신호에 대해 근접 검출 동작 (예를 들어, 음성 활동 검출 동작) 을 수행하도록 구성된 근접 검출 모듈 (700) (예를 들어, 음성 활동 검출기), (예를 들어, 태스크 (T810) 를 참조하여 여기에 설명된 바와 같이) 잡음 추정치를 업데이트하도록 구성된 잡음 레퍼런스 계산기 (810), (예를 들어, 태스크 (T820) 를 참조하여 여기에 설명된 바와 같이) 프로세싱된 멀티채널 신호의 적어도 하나의 채널에 대해 잡음 감소 동작을 수행하도록 구성된 잡음 감소 모듈 (820), 및 잡음 감소된 신호를 시간 도메인으로 변환하도록 구성된 역 FFT 모듈 (IM10) 을 포함한다. 근접 검출 모듈 (700) 에 부가하여 또는 근접 검출 모듈에 대한 대안으로, 장치 (A110) 는 프로세싱된 멀티채널 신호의 지향성 프로세싱 (예를 들어, 도 14b 에 도시된 바와 같은 순방향 로브에 기초한 음성 활동 검출) 을 위한 모듈을 포함할 수도 있다.
몇몇 멀티채널 신호 프로세싱 동작들은 멀티채널 출력의 각 채널을 발생시키기 위해 멀티채널 신호의 하나 보다 많은 채널로부터의 정보를 사용한다. 이러한 동작들의 예들은 빔형성 및 블라인드 소스 분리 (BBS) 동작들을 포함한다. 동작이 각 출력 채널에서 잔류 에코를 변화시키는 경향이 있기 때문에, 이러한 기법과 에코 소거를 통합하는 것은 어려울 수도 있다. 여기에 설명된 바와 같이, 방법 (M100) 은 계산된 위상차들로부터의 정보를 사용하여 멀티채널 신호의 하나 이상의 채널들 각각 (예를 들어, 프라이머리 채널) 에 대해 단일 채널 시간 및/또는 주파수 의존형 진폭 제어 (예를 들어, 잡음 감소 동작) 을 수행하도록 구현될 수도 있다. 이러한 단일 채널 동작은, 잔류 에코가 실질적으로 변화되지 않고 유지되도록 구현될 수도 있다. 그 결과, 이러한 잡음 감소 동작을 포함하는 방법 (M100) 의 구현과 에코 소거 동작의 통합은, 2개 이상의 마이크로폰 채널들에 대해 동작하는 잡음 감소 동작과 에코 소거 동작의 통합 보다 쉬워질 수도 있다.
잔류 배경 잡음을 화이트닝하는 것이 바람직할 수도 있다. 예를 들어, 잡음만 있는 간격들을 식별하고, 이러한 간격들 동안 신호 스펙트럼을 잡음 스펙트럼 프로파일 (예를 들어, 준-화이트 또는 핑크 스펙트럼 프로파일) 로 압신하거나 감소시키기 위해 VAD 동작 (예를 들어, 여기에 설명된 바와 같은 지향성 및/또는 근접 기반 VAD 동작) 을 사용하는 것이 바람직할 수도 있다. 이러한 잡음 화이트닝이 잔류 정상 잡음 플로어를 생성할 수도 있고/있거나 배경에 놓이거나 배경으로 물러나는 잡음의 인지에 도달할 수도 있다. 화이트닝이 적용되지 않는 간격들 (예를 들어, 스피치 간격들) 과 하이트닝이 적용되는 간격들 (예를 들어, 잡음 간격들) 사이의 천이를 처리하기 위해 일시적 평활화 방식과 같은 평활화 방식을 포함하는 것이 바람직할 수도 있다. 이러한 평활화는 간격들 사이에서 평활한 천이를 지원하는 것을 도울 수도 있다.
마이크로폰들 (예를 들어, MC10 및 MC20) 이 사운드 이외의 복사 또는 방출에 민감한 트랜스듀서들로서 더욱 일반적으로 구현될 수도 있는 것에 명백히 유의한다. 하나의 이러한 예에서, 마이크로폰 쌍은 초음파 트랜스듀서들 (예를 들어, 15, 20, 25, 30, 40, 또는 50 킬로헤르츠 이상 보다 큰 음향 주파수들에 민감한 트랜스듀서들) 의 쌍으로서 구현된다.
(예를 들어, 도 14b 에 도시된 바와 같은 순방향 로브를 식별하는) 지향성 신호 프로세싱 애플리케이션들에 대해, 스피치 신호 (또는 다른 원하는 신호) 가 지향적으로 코히어런트인 것으로 기대될 수도 있는 특정 주파수 성분들, 또는 특정 주파수 범위를 타겟으로 하는 것이 바람직할 수도 있다. (예를 들어, 자동차들과 같은 소스들로부터의) 지향성 잡음 및/또는 분산 잡음과 같은 배경 잡음은 동일한 범위에 걸쳐 지향적으로 코히어런트하지 않을 것이라는 것이 기대될 수도 있다. 스피치는 4 내지 8 킬로헤르츠의 범위에서 낮은 전력을 갖는 경향이 있어서, 4 킬로헤르츠 보다 크지 않은 주파수들을 참조하여 지향적 코히어런스를 결정하는 것이 바람직할 수도 있다. 예를 들어, 약 700 헤르츠 내지 약 2 킬로헤르츠의 범위에 걸쳐 지향적 코히어런시를 결정하는 것이 바람직할 수도 있다.
상기 언급한 바와 같이, 한정된 주파수 범위에 걸쳐 주파수 성분들의 위상차들에 기초하여 코히어런시 측정치를 계산하도록 태스크 (T360) 를 구성하는 것이 바람직할 수도 있다. 추가로 또는 다르게는, 피치 주파수의 배수에서 주파수 성분들에 기초하여 코히어런시 측정치를 계산하도록 태스크 (T360) 및/또는 다른 지향성 프로세싱 태스크 (특히, 도 14b 에 도시된 바와 같은 순방향 로브를 정의하는 것과 같은 스피치 애플리케이션들에 대해) 를 구성하는 것이 바람직할 수도 있다.
유성 스피치 (예를 들어, 모음) 의 에너지 스펙트럼은 피치 주파수의 고조파에서 로컬 피크들을 갖는 경향이 있다. 한편, 배경 잡음의 에너지 스펙트럼은 상대적으로 비구조화인 경향이 있다. 그 결과, 피치 주파수의 고조파에서의 입력 채널들의 성분들은 다른 성분들 보다 높은 신호 대 잡음비 (SNR) 를 갖는 것으로 기대될 수도 있다. 방법 (M100) 의 스피치 프로세싱 애플리케이션 (예를 들어, 음성 활동 검출 애플리케이션) 에 대한 지향성 프로세싱 태스크에 대해, 추정된 피치 주파수의 배수들에 대응하는 위상차들만 고려하도록 태스크를 구성하는 것 (예를 들어, 순방향 로브 식별 태스크를 구성하는 것) 이 바람직할 수도 있다.
통상의 피치 주파수들은 남성 화자에 대해 약 70 내지 100 Hz 로부터 여성 화자에 대해 약 150 내지 200 Hz 까지의 범위이다. 현재의 피치 주파수는 (예를 들어, 프라이머리 마이크로폰 채널에서) 인접 피치 피크들 사이의 거리로서 피치 주기를 계산함으로써 추정될 수도 있다. 입력 채널의 샘플은 (예를 들어, 샘플 에너지와 프레임 평균 에너지 사이의 비율에 기초하여) 그것의 에너지의 측정치 및/또는 샘플의 이웃이 알려진 피치 피크의 유사한 이웃과 얼마나 잘 상관되는지의 측정치에 기초하는 피치 피크로서 식별될 수도 있다. 피치 추정 절차가 예를 들어, www-dot-3gpp-dot-org 에서 온라인으로 입수가능한 EVRC (Enhanced Variable Rate Codec) 문헌 C.S0014-C 의 섹션 4.6.3 (pp. 4-44 내지 4-49) 에 기재되어 있다. (예를 들어, 피치 주기 또는 "피치 래그" 의 추정치의 형태의) 피치 주파수의 현재의 추정치는 통상적으로, 스피치 인코딩 및/또는 디코딩을 포함하는 애플리케이션들 (예를 들어, 코드 여기 선형 예측 (CELP) 및 프로토타입 파형 보간 (PWI) 와 같은 피치 추정을 포함하는 코덱들을 사용하는 음성 통신들) 에서 이미 이용가능하다.
피치 주파수의 배수들에 대응하는 위상차들만을 고려함으로써, 고려될 위상차들의 수는 현저하게 감소될 수도 있다. 또한, 이들 선택된 위상차들이 계산되는 주파수 계수들이 고려된 주파수 범위내의 다른 주파수 계수들에 대해 높은 SNR들을 갖는다는 것이 기대될 수도 있다. 더욱 일반적 경우에서, 다른 신호 특성들이 또한 고려될 수도 있다. 예를 들어, 계산된 위상차들의 적어도 25, 50, 또는 75 퍼센트가 추정된 피치 주파수의 배수들에 대응하도록 지향성 프로세싱 태스크를 구성하는 것이 바람직할 수도 있다. 동일한 원리가 다른 원하는 고조파 신호에 또한 적용될 수도 있다.
상기 언급한 바와 같이, 음향 신호들을 수신하도록 구성된 2개 이상의 마이크로폰들의 어레이 (R100) 를 갖는 휴대용 오디오 감지 디바이스를 제조하는 것이 바람직할 수도 있다. 이러한 어레이를 포함하도록 구현될 수도 있고, 오디오 레코딩 및/또는 음성 통신 애플리케이션들에 사용될 수도 있는 휴대용 오디오 감지 디바이스의 예들이, 전화 핸드셋 (예를 들어, 셀룰러 전화 핸드셋); 유선 또는 무선 헤드셋 (예를 들어, 블루투스 헤드셋); 핸드헬드 오디오 및/또는 비디오 리코더; 오디오 및/또는 비디오 컨텐츠를 레코딩하도록 구성된 개인 미디어 플레이어; 휴대 보조 단말기 (PDA) 또는 다른 핸드헬드 컴퓨팅 디바이스; 및 노트북 컴퓨터, 랩탑 컴퓨터, 넷북 컴퓨터, 또는 다른 휴대용 컴퓨팅 디바이스를 포함한다.
어레이 (R100) 의 각 마이크로폰은 전방향성, 양방향성, 또는 단방향성 (예를 들어, 카디오이드 (cardioid)) 인 응답을 가질 수도 있다. 어레이 (R100) 에서 사용될 수도 있는 다양한 타입의 마이크로폰들은 압전 마이크로폰들, 동적 마이크로폰들, 및 일렉트릿 마이크로폰들을 (제한없이) 포함한다. 핸드셋 또는 헤드셋과 같은 휴대용 음성 통신용 디바이스에서, 어레이 (R100) 의 인접 마이크로폰들 사이의 중심 대 중심 간격은 통상적으로, 더 큰 간격 (예를 들어, 10 또는 15 cm 까지) 이 핸드셋과 같은 디바이스에서 또한 가능하지만, 약 1.5 cm 내지 약 4.5 cm 의 범위에 있다. 청취 보조를 위해, 어레이 (R100) 의 인접 마이크로폰들 사이의 중심 대 중심 간격은 약 4 또는 5 mm 만큼 작을 수도 있다. 어레이 (R100) 의 마이크로폰들은 라인을 따라 배열될 수도 있거나, 다르게는, 그들의 중심은 2차원 (예를 들어, 삼각형) 또는 3차원 형상의 정점들에 있다.
멀티-마이크로폰 오디오 감지 디바이스 (예를 들어, 여기에 설명된 바와 같은 디바이스 (D100, D200, D300, D400, D500, 또는 D600)) 의 동작 동안, 어레이 (R100) 는 각 채널이 음향 환경에 대한 마이크로폰들 중 대응하는 하나의 응답에 기초하는 멀티채널 신호를 발생시킨다. 하나의 마이크로폰이 다른 마이크로폰 보다 더욱 직접적으로 특정한 사운드를 수신할 수도 있어서, 대응하는 채널들은 단일 마이크로폰을 사용하여 캡처될 수 있는 것 보다 음향 환경의 더욱 완벽한 표현을 일괄적으로 제공하도록 서로 상이하다.
멀티채널 신호 (S10) 를 발생시키기 위해 마이크로폰들에 의해 발생된 신호들에 대해 하나 이상의 프로세싱 동작들을 수행하는 것이 어레이 (R100) 에 대해 바람직할 수도 있다. 도 23a 는 임피던스 정합, 아날로그-디지털 변환, 이득 제어, 및/또는 아날로그 및/또는 디지털 도메인들에서의 필터링을 (제한없이) 포함할 수도 있는 하나 이상의 이러한 동작들을 수행하도록 구성된 오디오 프리프로세싱 스테이지 (AP10) 을 포함하는 어레이 (R100) 의 구현 (R200) 의 블록도를 도시한다.
도 23b 는 어레이 (R200) 의 구현 (R210) 의 블록도를 도시한다. 어레이 (R210) 는 아날로그 프리프로세싱 스테이지들 (P10a 및 P10b) 을 포함하는 오디오 프리프로세싱 스테이지 (AP10) 의 구현 (AP20) 을 포함한다. 일 예에서, 스테이지들 (P10a 및 P10b) 는 대응하는 마이크로폰 신호에 대해 (예를 들어, 50, 100, 또는 200 Hz 의 컷오프 주파수로) 고역 필터링 동작을 수행하도록 각각 구성된다.
디지털 신호로서, 즉, 샘플들의 시퀀스로서 멀티채널 신호를 발생시키는 것이 어레이 (R100) 에 대해 바람직할 수도 있다. 어레이 (R210) 는 예를 들어, 대응하는 아날로그 채널을 샘플링하도록 각각 배열되는 아날로그-디지털 변환기들 (ADC들) (C10a 및 C10b) 을 포함한다. 음향 애플리케이션들에 대한 통상의 샘플링 레이트들은, 약 44 kHz 만큼 높은 샘플링 레이트들이 또한 사용될 수도 있지만, 8 kHz, 12 kHz, 16 kHz, 및 약 8 내지 약 16 kHz 의 범위에 있는 다른 주파수들을 포함한다. 이러한 특정한 예에서, 어레이 (R210) 는 또한, 대응하는 디지털화된 채널에 대해 하나 이상의 프리프로세싱 동작들 (예를 들어, 에코 소거, 잡음 감소, 및/또는 스펙트럼 정형) 을 수행하도록 각각 구성되는 디지털 프리프로세싱 스테이지들 (P20a 및 P20b) 을 포함한다.
어레이 (R100) 의 마이크로폰들이 사운드 이외에 복사 또는 방출에 민감한 트랜스듀서들로서 더욱 일반적으로 구현될 수도 있다는 것에 명백히 유의한다. 하나의 이러한 예에서, 어레이 (R100) 의 마이크로폰들은 초음파 트랜스듀서들 (예를 들어, 15, 20, 25, 30, 40, 또는 50 킬로헤르츠 이상 보다 큰 음향 주파수에 민감한 트랜스듀서들) 로서 구현된다.
도 24a 는 일반 구성에 따른 디바이스 (D10) 의 블록도를 도시한다. 디바이스 (D10) 는 여기에 개시된 마이크로폰 어레이 (R100) 의 임의의 구현의 경우를 포함하고, 여기에 개시된 임의의 오디오 감지 디바이스들은 디바이스 (D10) 의 일 경우로서 구현될 수도 있다. 디바이스 (D10) 는 또한, 코히어런시 측정치의 값을 계산하기 위해 어레이 (R100) 에 의해 발생되는 바와 같은 멀티채널 신호를 프로세싱하도록 구성되는 장치 (A10) 의 구현의 경우를 포함한다. 예를 들어, 장치 (A10) 는 여기에 개시된 방법 (M100) 의 임의의 구현의 경우에 따라 멀티채널 오디오 신호를 프로세싱하도록 구성될 수도 있다. 장치 (A10) 는 하드웨어 및/또는 소프트웨어 (예를 들어, 펌웨어) 에서 구현될 수도 있다. 예를 들어, 장치 (A10) 는 프로세싱된 멀티채널 신호에 대해 상술한 바와 같이 공간 프로세싱 동작 (예를 들어, 오디오 감지 디바이스와 특정한 사운드 소스 사이의 거리를 결정하고, 잡음을 감소시키고, 특정한 방향으로부터 도달하는 신호 성분들을 강화하고/하거나 다른 환경적 사운드들로부터 하나 이상의 사운드 컴포넌트들을 분리하는 하나 이상의 동작들) 을 수행하도록 또한 구성되는 디바이스 (D10) 의 프로세서상에서 구현될 수도 있다. 상술한 바와 같은 장치 (A10) 는 장치 (A10) 의 경우로서 구현될 수도 있다.
도 24b 는 디바이스 (D10) 의 구현인 통신 디바이스 (D20) 의 블록도를 도시한다. 디바이스 (D20) 는 장치 (A10) 를 포함하는 칩 또는 칩세트 (CS10) (예를 들어, 이동국 모뎀 (MSM) 칩세트) 를 포함한다. 칩/칩세트 (CS10) 는 장치 (A10) 의 전부 또는 일부를 (예를 들어, 명령들로서) 실행하도록 구성될 수도 있는 하나 이상의 프로세서들을 포함할 수도 있다. 칩/칩세트 (CS10) 는 또한 어레이 (R100) 의 프로세싱 엘리먼트들 (예를 들어, 오디오 프리프로세싱 스테이지 (AP10) 의 엘리먼트들) 을 포함할 수도 있다. 칩/칩세트 (CS10) 는 무선 주파수 (RF) 통신 신호를 수신하고 RF 신호내에서 인코딩된 오디오 신호를 디코딩 및 재생하도록 구성되는 수신기, 및 장치 (A10) 에 의해 발생된 프로세싱된 신호에 기초하여 오디오 신호를 인코딩하고 인코딩된 오디오 신호를 설명하는 RF 통신 신호를 송신하도록 구성되는 송신기를 포함한다. 예를 들어, 칩/칩세트 (CS10) 의 하나 이상의 프로세서들은 멀티채널 신호의 하나 이상의 채널에 대해 상술한 바와 같은 잡음 감소 동작을 수행하도록 구성될 수도 있어서, 인코딩된 오디오 신호가 잡음 감소된 신호에 기초한다.
디바이스 (D20) 는 안테나 (C30) 를 통해 RF 통신 신호들을 수신 및 송신하도록 구성된다. 디바이스 (D20) 는 또한, 안테나 (C30) 에 대한 경로에서 다이플렉서 및 하나 이상의 전력 증폭기들을 포함할 수도 있다. 칩/칩세트 (CS10) 는 또한, 키패드 (C10) 를 통해 사용자 입력을 수신하고 디스플레이 (C20) 를 통해 정보를 디스플레이하도록 구성될 수도 있다. 이러한 예에서, 디바이스 (D20) 는 또한, 글로벌 포지셔닝 시스템 (GPS) 위치 서비스들 및/또는 무선 (예를 들어, Bluetooth™) 헤드셋과 같은 외부 디바이스와의 단거리 통신을 지원하기 위한 하나 이상의 안테나들 (C40) 을 포함한다. 다른 예에서, 이러한 통신 디바이스 자체는, 블루투스 헤드셋이고, 키패드 (C10), 디스플레이 (C20), 및 안테나 (C30) 가 부족하다.
여기에 설명된 바와 같은 장치 (A10) 의 구현들은 헤드셋들 및 핸드셋들을 포함하는 다양한 오디오 감지 디바이스들에서 구현될 수도 있다. 핸드셋 구현의 일 예가 마이크로폰들 사이에 6.5 센티미터 간격을 갖는 어레이 (R100) 의 프론트-페이싱 (front-facing) 듀얼 마이크로폰 구현을 포함한다. 듀얼 마이크로폰 마스킹 접근방식의 구현은 스펙트로그램들에서 마이크로폰 쌍들의 위상 관계들을 직접적으로 분석하고, 원치않은 방향들로부터의 시간-주파수 포인트들을 마스킹하는 것을 포함할 수도 있다.
도 25a 내지 도 25d 는, 디바이스 (D10) 의 멀티-마이크로폰 휴대용 오디오 감지 구현 (D100) 의 다양한 도면들을 도시한다. 디바이스 (D100) 는 어레이 (R100) 의 2-마이크로폰 구현을 운반하는 하우징 (Z10) 및 하우징으로부터 연장하는 이어폰 (Z20) 을 포함하는 무선 헤드셋이다. 이러한 디바이스는 (예를 들어, Bluetooth Special Interest Group, Inc., Bellevue, WA 에 의해 보급된 바와 같은 Bluetooth™ 프로토콜의 버전을 사용하는) 셀룰러 전화 핸드셋과 같은 전화 디바이스와의 통신을 통해 하프 또는 풀 듀플렉스 전화통신을 지원하도록 구성될 수도 있다. 일반적으로, 헤드셋의 하우징은 도 25a, 도 25b, 및 도 25d 에 도시된 바와 같이 직사각형 또는 그렇지 않으면 가늘고 길 수도 있거나 (예를 들어, 미니붐 (miniboom), 더욱 둥글거나 심지어 원형일 수도 있다. 하우징은 또한 배터리 및 프로세서 및/또는 다른 프로세싱 회로 (예를 들어, 인쇄 회로 기판 및 그 위에 탑재된 컴포넌트들) 을 인클로징할 수도 있고, 전기적 포트 (예를 들어, 미니-USB (Universal Serial Bus) 또는 배터리 충전용의 다른 포트) 및 하나 이상의 버튼 스위치들 및/또는 LED들과 같은 사용자 인터페이스 특징부를 포함할 수도 있다. 통상적으로, 장축에 따른 하우징의 길이는 1 내지 3 인치의 범위에 있다.
통상적으로, 어레이 (R100) 의 각 마이크로폰은 음향 포트로서 작용하는 하우징에서의 하나 이상의 작은 홀들의 뒤에 디바이스내에 탑재된다. 도 25b 내지 도 25d 는 디바이스 (D100) 의 어레이의 프라이머리 마이크로폰에 대한 음향 포트 (Z40) 및 디바이스 (D100) 의 어레이의 세컨더리 마이크로폰에 대한 음향 포트 (Z50) 의 위치들을 도시한다.
헤드셋은 또한, 헤드셋으로부터 통상적으로 탈착가능한 이어 훅 (ear hook) (Z30) 과 같은 고정 디바이스를 포함할 수도 있다. 외부 이어 훅은 예를 들어, 사용자가 어느 귀상에서 사용하기 위해 헤드셋을 구성하게 하도록 리버서블 (reversible) 할 수도 있다. 다르게는, 헤드셋의 이어폰은 상이한 사용자들이 특정한 사용자의 귀 도관의 외부 부분에 대한 양호한 피팅을 위한 상이한 사이즈 (예를 들어, 직경) 의 이어피스 (earpiece) 를 사용하게 하기 위한 착탈식 이어피스를 포함할 수도 있는 내부 고정 디바이스 (예를 들어, 이어플러그 (earplug)) 로서 설계될 수도 있다.
도 26a 내지 도 26d 는 무선 헤드셋의 다른 예인 디바이스(D10) 의 멀티-마이크로폰 휴대용 오디오 감지 구현 (D200) 의 다양한 도면들을 도시한다. 디바이스 (D200) 는 이어플러그로서 구성될 수도 있는 둥근 타원형의 하우징 (Z12) 및 이어폰 (Z22) 을 포함한다. 도 26a 내지 도 26d 는 또한, 디바이스 (D200) 의 어레이의 프라이머리 마이크로폰에 대한 음향 포트 (Z42) 및 세컨더리 마이크로폰에 대한 음향 포트 (Z52) 의 위치들을 도시한다. 세컨더리 마이크로폰 포트 (Z52) 가 (예를 들어, 사용자 인터페이스 버튼에 의해) 적어도 부분적으로 막아지는 것이 가능하다.
도 27a 는 통신 핸드셋인 디바이스 (D10) 의 멀티-마이크로폰 휴대용 오디오 감지 구현 (D300) 의 (중심축을 따른) 단면도를 도시한다. 디바이스 (D300) 는 프라이머리 마이크로폰 (MC10) 및 세컨더리 마이크로폰 (MC20) 을 갖는 어레이 (R100) 의 구현을 포함한다. 이러한 예에서, 디바이스 (D300) 는 또한 프라이머리 라우드스피커 (SP10) 및 세컨더리 라우드스피커 (SP20) 를 포함한다. 이러한 디바이스는 하나 이상의 인코딩 및 디코딩 방식 ("코덱" 이라 또한 칭함) 을 통해 음성 통신 데이터를 무선으로 송시 및 수신하도록 구성될 수도 있다. 이러한 코덱들의 예들이, "Enhanced Variable Rate Codec, Speech Service Options 3, 68, and 70 for Wideband Spread Spectrum Digital Systems" 라는 명칭의 3세대 파트너쉽 프로젝트 2 (3GPP2) 문헌 C.S0014-C, v1.0, 2007년 2월 (www-dot-3gpp-dot-org 에서 온라인으로 입수가능)에 기재된 바와 같은 Ehanced Variable Rate Codec; "Selectable Mode Vocoder (SMV) Service Option for Wideband Spread Spectrum Communication Systems" 라는 명칭의 3GPP2 문헌 C.S0030-0, v3.0, 2004년 1월 (www-dot-3gpp-dot-org에서 온라인으로 입수가능) 에 기재된 바와 같은 the Selectable Mode Vocoder speech codec; 문헌 ETSI TS 126 092 V6.0.0 (European Telecommunications Standards Institute (ETSI), Sophia Antipolis Cedex, FR, 2004년 12월) 에 기재된 바와 같은 the Adaptive Multi Rate (AMR) speech codec; 및 문헌 ETSI TS 126 192 V6.0.0 (ETSI, 2004년 12월) 에 기재된 바와 같은 the AMR Wideband speech codec 을 포함한다. 도 3a 의 예에서, 핸드셋 (D300) 은 크램셀형 셀룰러 전화 핸드셋 ("플립" 핸드셋으로 또한 칭함) 이다. 이러한 멀티-마이크로폰 통신 핸드셋의 다른 구성이 바(bar)형 및 슬라이더형 전화 핸드셋들을 포함한다. 도 27b 는 제 3 마이크로폰 (MC30) 을 포함하는 어레이 (R100) 의 3-마이크로폰 구현을 포함하는 디바이스 (D300) 의 구현 (D310) 의 단면도를 도시한다.
도 28a 는 미디어 플레이어인 디바이스 (D10) 의 멀티-마이크로폰 휴대용 오디오 감지 구현 (D400) 의 도면을 도시한다. 이러한 디바이스는 표준 압축 포맷 (예를 들어, 동영상 전문가 그룹 (MPEG)-1 오디오 계층 3 (MP3), MPEG-4 파트 14 (MP4), 윈도우 미디어 오디오/비디오 (WMA/WMV) 의 버전 (마이크로소프트사, Redmond, WA), 어드밴스드 오디오 코딩 (AAC), 국제 전기통신 협회 (ITU)-T H.264 등) 에 따라 인코딩된 파일 또는 스트림과 같은 압축된 오디오 또는 시청각 정보의 재생을 위해 구성될 수도 있다. 디바이스 (D400) 는 디바이스의 정면에 배치된 디스플레이 스크린 (SC10) 및 라우드스피커 (SP10) 를 포함하고, 어레이 (R100) 의 마이크로폰들 (MC10 및 MC20) 은 디바이스의 동일면 (예를 들어, 이러한 예에서와 같이 상면의 반대측, 또는 정면의 반대측) 에 배치된다. 도 28b 는 마이크로폰들 (MC10 및 MC20) 이 디바이스의 대향면들에 배치되는 디바이스 (D400) 의 다른 구현 (D410) 을 도시하고, 도 28c 는 마이크로폰들 (MC10 및 MC20) 이 디바이스의 인접면들에 배치되는 디바이스 (D400) 의 다른 구현 (D420) 을 도시한다. 미디어 플레이어는 또한, 장축이 의도하는 사용 동안 수평이도록 설계될 수도 있다.
도 29 는 핸즈프리 카 키트인 디바이스 (D10) 의 멀티-마이크로폰 휴대용 오디오 감지 구현 (D500) 의 도면을 도시한다. 이러한 디바이스는 대시보드, 바람막이, 백미러, 바이저, 또는 차량의 다른 내부 표면에 또는 그 상에 설치되거나 착탈가능하게 고정되도록 구성될 수도 있다. 디바이스 (D500) 는 라우드스피커 (85) 및 어레이 (R100) 의 구현을 포함한다. 이러한 특정한 예에서, 디바이스 (D500) 는 선형 어레이에 배열된 4개의 마이크로폰들로서 어레이 (R100) 의 구현 (R102) 을 포함한다. 이러한 디바이스는 상기 리스트된 예들과 같은 하나 이상의 코덱들을 통해 음성 통신 데이터를 무선으로 송신 및 수신하도록 구성될 수도 있다. 대안으로, 또는 추가적으로, 이러한 디바이스는 셀룰러 전화 핸드셋 (예를 들어, 상술한 바와 같은 Bluetooth™ 프로토콜의 버전을 사용하는) 셀룰러 전화 핸드셋과 같은 전화 디바이스와의 통신을 통해 하프 또는 풀 듀플렉스 전화통신방식을 지원하도록 구성될 수도 있다.
도 30은 핸드헬드 애플리케이션용의 디바이스 (D10) 의 멀티-마이크로폰 휴대용 오디오 감지 구현 (D600) 의 도면을 도시한다. 디바이스 (D600) 는 터치스크린 디스플레이 (T10), 3개의 프런트 마이크로폰 (MC10 내지 MC30), 백 마이크로폰 (MC40), 2개의 라우드스피커들 (SP10 및 SP20), 좌측 사용자 인터페이스 제어 (예를 들어, 선택용) (U110), 및 우측 사용자 인터페이스 제어 (예를 들어, 내비게이션용) (U120) 를 포함한다. 사용자 인터페이스 제어들 각각은 푸쉬버튼들, 트랙볼들, 클릭-휠들, 터치패드들, 조이스틱들 및/또는 다른 포인팅 디바이스들 등 중 하나 이상을 사용하여 구현될 수도 있다. 브라우즈-토크 모드 또는 게임 플레이 모드에서 사용될 수도 있는 디바이스 (D800) 의 통상의 사이즈는 약 15 센티미터 × 약 20 센티미터이다. 여기에 개시된 시스템들, 방법들, 및 장치들의 적용가능성이 도 25a 내지 도 30 에 도시된 특정한 예들에 한정되지 않는다는 것이 명백하게 개시된다. 이러한 시스템들, 방법들, 및 장치들이 적용될 수도 있는 휴대용 오디오 감지 디바이스들의 다른 예들은 보청기를 포함한다.
여기에 개시된 방법들 및 장치들은 임의의 송수신 및/또는 오디오 감지 애플리케이션, 특히, 이러한 애플리케이션들의 모바일 또는 그렇지 않으면 휴대용 인스턴스들에 일반적으로 적용될 수도 있다. 예를 들어, 여기에 개시된 구성들의 범위는 코드 분할 다중 액세스 (CDMA) 공중 인터페이스를 이용하도록 구성된 무선 전화 통신 시스템에 상주하는 통신 디바이스들을 포함한다. 그럼에도 불구하고, 여기에 설명된 바와 같은 특징들을 갖는 방법 및 장치가 유선 및/또는 무선을 통한 VoIP (Voice ove IP) (예를 들어, CDMA, TDMA, FDMA, 및/또는 TD-SCDMA) 송신 채널들을 이용하는 시스템들과 같은, 당업자에게 알려진 광범위한 기술들을 이용하는 임의의 다양한 통신 시스템들에 상주할 수도 있다는 것이 당업자에 의해 이해될 것이다.
여기에 개시된 통신 디바이스들이 패킷 스위칭 (예를 들어, VoIP 와 같은 프로토콜들에 따른 오디오 송신물을 반송하도록 배열된 유선 및/또는 무선 네트워크들) 및/또는 회로 스위칭인 네트워크들에서 사용하기 위해 구성될 수도 있다는 것이 명백하게 고려되고 그에 의해 개시된다. 또한, 여기에 개시된 통신 디바이스들이 협대역 코딩 시스템들 (예를 들어, 약 4 또는 5 킬로헤르츠의 오디오 주파수 범위를 인코딩하는 시스템들) 에서 사용하기 위해 및/또는 전체 대역 광역 코딩 시스템들 및 스플릿 대역 광역 코딩 시스템들을 포함하는 광역 코딩 시스템들 (예를 들어, 5 킬로헤르츠 보다 큰 오디오 주파수들을 인코딩하는 시스템들) 에서 사용하기 위해 구성될 수도 있다는 것이 명백하게 고려되고 그에 의해 개시된다.
여기에 설명된 구성들의 프리젠테이션은 당업자가 여기에 개시된 방법들 및 다른 구조들을 제조하거나 사용할 수 있게 하기 위해 제공된다. 여기에 도시되고 설명된 플로우차트들, 블록도들, 및 다른 구조들은 단지 예들이며, 이들 구조들의 다른 변동물들이 또한 본 개시물의 범위내에 있다. 이들 구성들에 대한 다양한 변경물들이 가능하고, 여기에 제공된 일반 원리들은 다른 구성들에 또한 적용될 수도 있다. 따라서, 본 개시물은 상기 나타낸 구성들에 한정되는 것으로 의도되지 않고, 오히려, 원래의 개시물의 일부를 형성하는 출원시의 첨부된 청구범위에 포함되는, 여기에서 임의의 방식으로 개시된 원리들 및 신규한 특징들과 부합하는 최광의 범위를 부여하는 것으로 의도된다.
당업자는, 정보 및 신호들이 임의의 다양한 다른 기술들 및 기법들을 사용하여 표현될 수도 있다는 것을 이해할 것이다. 예를 들어, 상기 설명 전반적으로 참조될 수도 있는 데이터, 명령들, 커맨드들, 정보, 신호들, 비트들, 및 심볼들은 전압, 전류, 전자기파, 자기장 또는 자기입자, 광학장 또는 광입자, 또는 이들의 조합에 의해 표현될 수도 있다.
여기에 개시된 바와 같은 구성의 구현에 대한 중요한 설계 요건들은, 특히, 압축된 오디오 또는 시청각 정보의 재생 (예를 들어, 여기에 식별된 예들 중 하나와 같은 압축 포맷에 따라 인코딩된 파일 또는 스트림) 과 같은 계산 집약형 애플리케이션들 또는 광역 통신 (예를 들어, 12, 16, 또는 44 kHz 와 같은 8 킬로헤르츠 보다 높은 샘플링 레이트들에서의 음성 통신) 용의 애플리케이션들에 대해, (통상적으로 초 당 수백만의 명령들 또는 MIPS 로 측정된) 프로세싱 지연 및/또는 계산 복잡도를 최소화하는 것을 포함할 수도 있다.
멀티-마이크로폰 프로세싱 시스템의 목적은, 전체 잡음 감소에서 10 내지 12 dB 을 달성하고, 원하는 화자의 이동 동안 음성 레벨 및 컬러를 보존하고, 잡음이 스피치의 적극적인 잡음 제거 탈반향 대신에 배경으로 이동되었다는 인지를 획득하고/하거나 더욱 적극적인 잡음 감소를 위해 포스트-프로세싱의 옵션을 가능하게 하는 것을 포함할 수도 있다.
여기에 개시된 ANC 장치의 구현의 다양한 엘리먼트들은 의도하는 애플리케이션에 대해 적합한 것으로 여겨지는 하드웨어, 소프트웨어, 및/또는 펌웨어의 임의의 조합에서 구현될 수도 있다. 예를 들어, 이러한 엘리먼트들은 예를 들어, 동일한 칩상에서 또는 칩세트의 2개 이상의 칩들 중에 상주하는 전자 및/또는 광 디바이스들로서 제조될 수도 있다. 이러한 디바이스의 하나의 예가, 트랜지스터들 또는 로직 게이트들과 같은 로직 엘리먼트들의 고정 또는 프로그램가능한 어레이이고, 임의의 이들 엘리먼트들은 하나 이상의 이러한 어레이로서 구현될 수도 있다. 이들 어레이 중 임의의 2개 이상, 또는 심지어 모두는 동일한 어레이 또는 어레이들내에서 구현될 수도 있다. 이러한 어레이 또는 어레이들은 하나 이상의 칩내에서 (예를 들어, 2개 이상의 이상들을 포함하는 칩세트내에서) 구현될 수도 있다.
여기에 개시된 ANC 장치의 다양한 구현들의 하나 이상의 엘리먼트들은 또한, 마이크로프로세서들, 내장형 프로세서들, IP 코어들, 디지털 신호 프로세서들, FPGA (필드 프로그램가능한 게이트 어레이), ASSP (애플리케이션 특정 표준 제품), 및 ASIC (응용 주문형 집적 회로) 와 같은 로직 엘리먼트들의 하나 이상의 고정 또는 프로그램가능한 어레이들을 실행하도록 배열된 명령들의 하나 이상의 세트들로서 전체적으로 또는 부분적으로 구현될 수도 있다. 여기에 개시된 바와 같은 장치의 구현의 임의의 다양한 엘리먼트들은 또한, 하나 이상의 컴퓨터 (예를 들어, 명령들의 하나 이상의 세트들 또는 시퀀스들을 실행하도록 프로그램된 하나 이상의 어레이들을 포함하는 머신들, "프로세서"로 또한 칭함) 로서 구현될 수도 있고, 이들 엘리먼트들 중 임의의 2개 이상 또는 심지어 모두는 동일한 이러한 컴퓨터 또는 컴퓨터들내에서 구현될 수도 있다.
여기에 개시된 바와 같이 프로세싱하는 프로세서 또는 수단은 예를 들어, 동일한 칩상에 또는 칩세트에서 2개 이상의 칩들 중에 상주하는 하나 이상의 전자 및/또는 광 디바이스들로서 제조될 수도 있다. 이러한 디바이스의 하나의 예가 트랜지스터들 또는 로직 게이트들과 같은 로직 엘리먼트들의 고정 또는 프로그램가능한 어레이이고, 임의의 이들 엘리먼트들은 하나 이상의 이러한 어레이로서 구현될 수도 있다. 이러한 어레이 또는 어레이들은 하나 이상의 칩들내에서 (예를 들어, 2개 이상의 칩들을 포함하는 칩세트내에서) 구현될 수도 있다. 이러한 어레이들의 예들은, 마이크로프로세서들, 내장형 프로세서들, IP 코어들, DSP들, FPGA들, ASSP들 및 ASIC들과 같은 로직 엘리먼트들의 고정 또는 프로그램가능한 어레이들을 포함한다. 여기에 개시된 바와 같은 프로세서 또는 수단은 또한, 하나 이상의 컴퓨터 (예를 들어, 명령들의 하나 이상의 세트들 또는 시퀀스들을 실행하도록 프로그램된 하나 이상의 어레이들을 포함하는 머신들) 또는 다른 프로세서들로서 구현될 수도 있다. 여기에 설명된 바와 같은 프로세서가, 프로세서가 내장되는 디바이스 또는 시스템 (예를 들어, 오디오 감지 디바이스) 의 다른 동작에 관한 태스크와 같은, 코히어런시 검출 절차에 직접적으로 관련되지 않은 명령들의 다른 세트들을 실행하거나 태스크들을 수행하도록 사용되는 것이 가능하다. 또한, 여기에 개시된 바와 같은 방법의 일부가, 오디오 감지 디바이스의 프로세서에 의해 수행되고, 방법의 다른 일부가 하나 이상이 다른 프로세서들의 제어하에서 수행되는 것이 가능하다.
당업자는, 여기에 개시된 구성들과 관련하여 설명된 다양한 예시적인 모듈들, 논리 블록들, 회로들, 및 테스트들이 전자 하드웨어, 컴퓨터 소프트웨어, 또는 양자의 조합으로서 구현될 수도 있다는 것을 이해할 것이다. 이러한 모듈들, 논리 블록들, 회로들, 및 동작들은 범용 프로세서, 디지털 신호 프로세서 (DSP), ASIC 또는 ASSP, FPGA 또는 다른 프로그램가능한 로직 디바이스, 개별 게이트 또는 트랜지스터 로직, 개별 하드웨어 컴포넌트, 또는 여기에 개시된 바와 같은 구성을 발생시키도록 설계된 이들의 임의의 조합으로 구현되거나 수행될 수도 있다. 예를 들어, 이러한 구성은 하드웨어 유선 회로, 응용 주문형 집적 회로로 제조된 회로 구성, 또는 비휘발성 저장에 로딩된 펌웨어 프로그램 또는 머신 판독가능한 코드로서 데이터 저장 매체로부터 또는 데이터 저장 매체에 로딩된 소프트웨어 프로그램으로서 적어도 부분적으로 구현될 수도 있고, 이러한 코드는 범용 프로세서 또는 다른 디지털 신호 프로세싱 유닛과 같은 로직 엘리먼트들의 어레이에 의해 실행가능한 명령들이다. 범용 프로세서는 마이크로프로세서일 수도 있지만, 다르게는, 프로세서는 임의의 종래의 프로세서, 제어기, 마이크로제어기, 또는 상태 머신일 수도 있다. 프로세서는 또한, 컴퓨팅 디바이스들의 조합, 예를 들어, DSP 와 마이크로프로세서의 조합, 복수의 마이크로프로세서, DSP 코어와 연결된 하나 이상의 마이크로프로세서, 또는 임의의 다른 이러한 구성으로서 구현될 수도 있다. 소프트웨어 모듈은 랜덤 액세스 메모리 (RAM), 판독 전용 메모리 (ROM), 플래시 RAM 과 같은 비휘발성 RAM (NVRAM), 소거가능한 프로그램가능 ROM (EPROM), 전기적으로 소거가능한 프로그램가능 ROM (EEPROM), 레지스터, 하드 디스크, 착탈식 디스크, CD-ROM, 또는 당업계에 알려진 임의의 다른 형태의 저장 매체에 상주할 수도 있다. 예시적인 저장 매체가 프로세서에 커플링되어서, 프로세서는 저장매체로부터 정보를 판독할 수 있고, 저장 매체에 정보를 기입할 수 있다. 대안으로는 저장 매체는 프로세서와 일체형일 수도 있다. 프로세서 및 저장 매체는 ASIC 에 상주할 수도 있다. ASIC 는 사용자 단말기에 상주할 수도 있다. 대안으로는, 프로세서 및 저장 매체는 사용자 단말기에서 개별 컴포넌트들로서 상주할 수도 있다.
여기에 개시된 다양한 방법들이 프로세서와 같은 로직 엘리먼트들의 어레이에 의해 수행될 수도 있고, 여기에 설명된 바와 같은 장치의 다양한 엘리먼트들이 이러한 어레이를 실행하도록 설계된 모듈들로서 구현될 수도 있다는 것에 유의한다. 여기에서 사용되는 바와 같이, 용어 "모듈" 또는 "서브-모듈" 은 소프트웨어, 하드웨어 또는 펌웨어 형태로 컴퓨터 명령들 (예를 들어, 논리적 표현들) 을 포함하는 임의의 방법, 장치, 디바이스, 유닛 또는 컴퓨터 판독가능한 데이터 저장 매체를 칭할 수 있다. 다중의 모듈들 또는 시스템들이 하나의 모듈 또는 시스템으로 결합될 수 있고, 하나의 모듈 또는 시스템이 동일한 기능들을 수행하기 위해 다중의 모듈들 또는 시스템들로 분리될 수 있다는 것을 이해해야 한다. 소프트웨어 또는 다른 컴퓨터 실행가능한 명령들에서 구현될 때, 프로세스의 엘리먼트들은 본질적으로, 예를 들어, 루틴들, 프로그램들, 오브젝트들, 컴포넌트들, 데이터 구조들 등으로 관련 태스크들을 수행하기 위한 코드 세그먼트들이다. 용어 "소프트웨어" 는 소스 코드, 어셈블리 언어 코드, 머신 코드, 2진 코드, 펌웨어, 매크로코드, 마이크로코드, 로직 엘리먼트들의 어레이에 의해 실행가능한 명령들의 임의의 하나 이상의 세트들 또는 시퀀스들, 및 이러한 예들이 임의의 조합을 포함하는 것으로 이해되어야 한다. 프로그램 또는 코드 세그먼트들은 프로세서 판독가능한 매체에 저장될 수 있거나, 송신 매체 또는 통신 링크를 통해 반송파에 포함된 컴퓨터 데이터 신호에 의해 송신될 수 있다.
여기에 개시된 방법들, 방식들, 및 기법들의 구현들은 또한, 로직 엘리먼트들의 어레이 (예를 들어, 프로세서, 마이크로프로세서, 마이크로제어기, 또는 다른 유한 상태 머신) 를 포함하는 머신에 의해 판독가능하고/하거나 실행가능한 명령들의 하나 이상의 세트들로서 (예를 들어, 여기에 리스트된 바와 같은 하나 이상의 컴퓨터 판독가능한 매체에) 유형으로 포함될 수도 있다. 용어 "컴퓨터 판독가능한 매체" 는 휘발성, 비휘발성, 착탈식 및 비착탈식 매체를 포함하는, 정보를 저장 또는 전송할 수 있는 임의의 매체를 포함할 수도 있다. 컴퓨터 판독가능한 매체의 예들은, 전자 회로, 반도체 메모리 디바이스, ROM, 플래시 메모리, 소거가능한 ROM (EROM), 플로피 디스켓 또는 다른 자기 저장부, CD-ROM/DVD 또는 다른 광 저장부, 하드 디스크, 광섬유 매체, 무선 주파수 (RF) 링크, 또는 원하는 정보를 저장하기 위해 사용될 수 있고 액세스될 수 있는 임의의 다른 매체를 포함한다. 컴퓨터 데이터 신호는 전자 네트워크 채널들, 광 섬유들, 공중, 전자기, RF 링크들 등과 같은 송신 매체를 통해 전파할 수 있는 임의의 신호를 포함할 수도 있다. 코드 세그먼트들은 인터넷 또는 인트라넷과 같은 컴퓨터 네트워크들을 통해 다운로딩될 수도 있다. 어느 경우에서나, 본 개시물의 범위는 이러한 실시형태들에 의해 한정되는 것으로서 해석되어서는 안된다.
여기에 설명된 방법들의 태스크들 각각은, 하드웨어, 프로세서에 의해 실행된 소프트웨어 모듈에서, 또는 이 둘의 조합에서 구현될 수도 있다. 여기에 개시된 바와 같은 방법의 구현의 통상의 애플리케이션에서, 로직 엘리먼트들 (예를 들어, 로직 게이트들) 의 어레이는 방법의 다양한 태스크들 중 하나, 2개 이상, 또는 심지어 모두를 수행하도록 구성된다. 태스크들 중 하나 이상 (가능하면 모두) 은 또한, 로직 엘리먼트들의 어레이 (예를 들어, 프로세서, 마이크로프로세서, 마이크로제어기, 또는 다른 유한 상태 머신) 을 포함하는 머신 (예를 들어, 컴퓨터) 에 의해 판독가능하고/하거나 실행가능한, 컴퓨터 프로그램 제품 (예를 들어, 디스크들, 플래시 또는 다른 비휘발성 메모리 카드들, 반도체 메모리 칩들 등과 같은 하나 이상의 데이터 저장 매체) 에 포함된 코드 (예를 들어, 명령들의 하나 이상의 세트들) 로서 구현될 수도 있다. 여기에 개시된 바와 같은 방법의 구현의 태스크들은 또한 2개 이상의 이러한 어레이 또는 머신에 의해 수행될 수도 있다. 이들 또는 다른 구현들에서, 태스크들은 셀룰러 전화 또는 이러한 통신 능력을 갖는 다른 디바이스와 같은 무선 통신용 디바이스내에서 수행될 수도 있다. 이러한 디바이스는 (예를 들어, VoIP 와 같은 하나 이상의 프로토콜을 사용하여) 회로 스위칭 및/또는 패킷 스위칭 네트워크들과 통신하도록 구성될 수도 있다. 예를 들어, 이러한 디바이스는 인코딩된 프레임들을 수신 및/또는 송신하도록 구성된 RF 회로를 포함할 수도 있다.
여기에 개시된 다양한 방법들이 핸드셋, 헤드셋, 또는 휴대 정보 단말기 (PDA) 와 같은 휴대용 통신 디바이스에 의해 수행될 수도 있고, 여기에 설명된 장치들이 이러한 디바이스내에 포함될 수도 있다는 것이 명백하게 개시된다. 통상의 실시간 (예를 들어, 온라인) 애플리케이션이 이러한 모바일 디바이스를 사용하여 실시된 전화 대화이다.
하나 이상의 예시적인 실시형태들에서, 여기에 설명된 동작들은 하드웨어, 소프트웨어, 펌웨어, 또는 이들의 임의의 조합에서 구현될 수도 있다. 소프트웨어에서 구현되면, 이러한 동작들은 하나 이상의 명령들 또는 코드로서 컴퓨터 판독가능한 매체상에 저장될 수도 있거나 그를 통해 송신될 수도 있다. 용어 "컴퓨터 판독가능한 매체" 는 일 장소로부터 다른 장소로의 컴퓨터 프로그램의 전송을 용이하게 하는 임의의 매체를 포함하는, 컴퓨터 저장 매체 및 통신 매체 양자를 포함한다. 저장 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 이용가능한 매체일 수도 있다. 제한하지 않는 예로서, 이러한 컴퓨터 판독가능한 매체는 (동적 또는 정적 RAM, ROM, EEPROM, 및/또는 플래시 RAM 을 제한없이 포함할 수도 있는) 반도체 메모리, 강유전체, 자기저항, 오보닉, 중합체, 또는 상변화 메모리, CD-ROM 또는 다른 광 디스크 저장 디바이스, 자기 디스크 저장 디바이스 또는 다른 자기 저장 디바이스, 또는 컴퓨터에 의해 액세스될 수 있는 유형의 구조들에, 명령들 또는 데이터 구조들의 형태로 원하는 프로그램 코드를 저장하기 위해 사용될 수 있는 임의의 다른 매체와 같은 저장 엘리먼트들의 어레이를 포함할 수도 있다. 또한, 임의의 문맥이 컴퓨터 판독가능한 매체로 적절하게 칭해진다. 예를 들어, 소프트웨어가 동축 케이블, 광섬유 케이블, 트위스트드 페어, 디지털 가입자 라인 (DSL), 또는 적외선, 라디오 및 마이크로파와 같은 무선 기술을 사용하여 웹사이트, 서버, 또는 다른 원격 소스로부터 송신되면, 동축 케이블, 광섬유 케이블, 트위스트드 페어, DSL, 또는 적외선, 라디오 및 마이크로파와 같은 무선 기술은 매체의 정의에 포함된다. 여기에 사용되는 바와 같은, 디스크 (disk) 및 디스크 (disc) 는 컴팩트 디스크 (CD), 레이저 디스크, 광 디스크, 디브이디 (DVD), 플로피 디스크 및 Blu-ray Disc™ (Blu-Ray Disc Association, Universal City, CA), 여기서, 디스크 (disk) 는 일반적으로 데이터를 자기적으로 재생하는 반면에, 디스크 (disc) 는 데이터를 레이저로 광학적으로 재생한다. 상기의 조합들이 또한, 컴퓨터 판독가능한 매체의 범위내에 포함되어야 한다.
여기에 설명된 바와 같은 음향 신호 프로세싱 장치는 특정한 동작들을 제어하기 위해 스피치 입력을 수용하는 전자 디바이스에 통합될 수도 있거나, 그렇지 않으면, 통신 디바이스들과 같이 배경 잡음들로부터의 원하는 잡음들의 분리로부터 이익을 얻을 수도 있다. 다수의 애플리케이션들이 다중의 방향들로부터 발생하는 배경 사운드들로부터 깨끗한 원하는 사운드를 강화하거나 분리하는 것으로부터 이익을 얻을 수도 있다. 이러한 애플리케이션들은 음성 인식 및 검출, 스피치 강화, 및 분리, 음성 여기 제어 등과 같은 능력들을 포함하는 전자 또는 컴퓨팅 디바이스들에 인간-머신 인터페이스들을 포함할 수도 있다. 제한된 프로세싱 능력들만을 제공하는 디바이스들에서 적합하도록 이러한 음향 신호 프로세싱 장치를 구현하는 것이 바람직할 수도 있다.
여기에 설명된 모듈들, 엘리먼트들 및 디바이스들의 다양한 구현들의 엘리먼트들은 예를 들어, 동일한 칩상에 또는 칩세트에서 2개 이상의 칩 중에 상주하는 전자 및/또는 광 디바이스들로서 제조될 수도 있다. 이러한 디바이스의 하나의 예가 트랜지스터들 또는 게이트들과 같은 로직 엘리먼트들의 고정 또는 프로그램가능한 어레이이다. 여기에 설명된 장치의 다양한 구현들의 하나 이상의 엘리먼트들은 또한, 마이크로프로세서, 내장형 프로세서들, IP 코어들, 디지털 신호 프로세서들, FPGA들, ASSP들, 및 ASIC들과 같은 로직 엘리먼트들의 하나 이상의 고정 또는 프로그램가능한 어레이들상에서 실행하도록 배열된 명령들의 하나 이상의 세트들로서 전체적으로 또는 부분적으로 구현될 수도 있다.
여기에 설명된 바와 같은 장치의 구현의 하나 이상의 엘리먼트들에 대해, 장치가 포함되는 디바이스 또는 시스템의 다른 동작에 관한 태스크와 같은, 장치의 동작과 직접적으로 관련되지 않은 태스크들을 수행하거나 명령들의 다른 세트들을 실행하기 위해 사용되는 것이 가능하다. 또한, 이러한 장치들의 구현의 하나 이상의 엘리먼트들에 대해, 공통의 구조 (예를 들어, 상이한 엘리먼트들에 대응하는 코드의 부분들을 상이한 횟수 실행하기 위해 사용된 프로세서, 상이한 엘리먼트들에 대응하는 태스크들을 상이한 횟수 수행하기 위해 실행된 명령들의 세트, 또는 상이한 엘리먼트들에 대한 동작을 상이한 횟수 수행하는 전자 및/또는 광 디바이스들의 장치) 를 갖는 것이 가능하다.

Claims (31)

  1. 멀티채널 신호를 프로세싱하는 방법으로서,
    상기 멀티채널 신호의 복수의 상이한 주파수 성분 각각에 대해, 상기 멀티채널 신호의 제 1 채널에서의 상기 주파수 성분의 위상과 상기 멀티채널 신호의 제 2 채널에서의 상기 주파수 성분의 위상 사이의 차이를 계산하여, 복수의 계산된 위상차를 획득하는 단계;
    상기 제 1 채널의 레벨 및 상기 제 2 채널의 대응하는 레벨을 계산하는 단계;
    상기 제 1 채널의 상기 계산된 레벨, 상기 제 2 채널의 상기 계산된 레벨, 및 상기 복수의 계산된 위상차 중 적어도 하나에 기초하여, 이득 팩터의 업데이트된 값을 계산하는 단계; 및
    상기 업데이트된 값에 따라, 상기 제 1 채널의 대응하는 진폭에 대한 상기 제 2 채널의 진폭을 변경함으로써 프로세싱된 멀티채널 신호를 발생시키는 단계를 포함하는, 멀티채널 신호를 프로세싱하는 방법.
  2. 제 1 항에 있어서,
    상기 제 1 채널의 상기 계산된 레벨은 제 1 주파수 서브대역에서의 상기 제 1 채널의 계산된 에너지이고, 상기 제 2 채널의 상기 계산된 레벨은 상기 제 1 주파수 서브대역에서의 상기 제 2 채널의 계산된 에너지이고,
    상기 제 1 채널의 상기 진폭은 상기 제 1 주파수 서브대역에서의 상기 제 1 채널의 진폭이고, 상기 제 2 채널의 상기 대응하는 진폭은 상기 제 1 주파수 서브대역에서의 상기 제 2 채널의 진폭이고,
    상기 방법은,
    상기 제 1 주파수 서브대역과는 상이한 제 2 주파수 서브대역에서의 상기 제 1 채널의 에너지를 계산하는 단계;
    상기 제 2 주파수 서브대역에서의 상기 제 2 채널의 에너지를 계산하는 단계; 및
    상기 제 2 주파수 서브대역에서의 상기 제 1 채널의 상기 계산된 에너지, 상기 제 2 주파수 서브대역에서의 상기 제 2 채널의 상기 계산된 에너지, 및 상기 복수의 계산된 위상차 중 적어도 하나에 기초하여, 제 2 이득 팩터의 업데이트된 값을 계산하는 단계를 포함하고,
    상기 프로세싱된 멀티채널 신호를 발생시키는 단계는, 상기 제 2 이득 팩터의 상기 업데이트된 값에 따라, 상기 제 2 주파수 서브대역에서의 상기 제 1 채널의 진폭에 대한 상기 제 2 주파수 서브대역에서의 상기 제 2 채널의 진폭을 변경함으로써 상기 프로세싱된 멀티채널 신호를 발생시키는 단계를 포함하는, 멀티채널 신호를 프로세싱하는 방법.
  3. 제 1 항 또는 제 2 항에 있어서,
    상기 방법은 상기 복수의 계산된 위상차로부터의 정보에 기초하여, 적어도 상기 복수의 상이한 주파수 성분의 도달 방향들 중에서 코히어런시 (coherency) 의 정도를 나타내는 코히어런시 측정의 값을 계산하는 단계를 포함하고,
    상기 이득 팩터의 업데이트된 값을 계산하는 단계는 상기 코히어런시 측정의 상기 계산된 값에 기초하는, 멀티채널 신호를 프로세싱하는 방법.
  4. 제 3 항에 있어서,
    상기 제 2 채널의 대응하는 진폭에 대한 상기 제 1 채널의 진폭을 변경하는 것은, 상기 코히어런시 측정의 상기 값을 임계값에 비교한 결과에 응답하여 수행되는, 멀티채널 신호를 프로세싱하는 방법.
  5. 제 1 항 내지 제 4 항 중 어느 한 항에 있어서,
    상기 방법은 상기 멀티채널 신호의 추정된 피치 주파수에 기초하여 상기 복수의 상이한 주파수 성분을 선택하는 단계를 포함하는, 멀티채널 신호를 프로세싱하는 방법.
  6. 제 1 항 내지 제 5 항 중 어느 한 항에 있어서,
    상기 이득 팩터의 업데이트된 값은, 상기 제 1 채널의 상기 계산된 레벨과 상기 제 2 채널의 상기 계산된 레벨 사이의 비율에 기초하는, 멀티채널 신호를 프로세싱하는 방법.
  7. 제 1 항 내지 제 6 항 중 어느 한 항에 있어서,
    상기 업데이트된 값에 따라, 상기 제 1 채널의 대응하는 진폭에 대한 상기 제 2 채널의 진폭을 변경함으로써 프로세싱된 멀티채널 신호를 발생시키는 단계는, 상기 제 1 채널 및 상기 제 2 채널의 상기 계산된 레벨들 사이의 불균형을 감소시키는 단계를 포함하는, 멀티채널 신호를 프로세싱하는 방법.
  8. 제 1 항 내지 제 7 항 중 어느 한 항에 있어서,
    상기 프로세싱된 멀티채널 신호를 발생시키는 단계는, 상기 업데이트된 값에 따라, 상기 멀티채널 신호의 복수의 연속 세그먼트 각각에서 상기 제 1 채널의 대응하는 진폭에 대한 상기 제 2 채널의 진폭을 변경하는 단계를 포함하는, 멀티채널 신호를 프로세싱하는 방법.
  9. 제 1 항 내지 제 8 항 중 어느 한 항에 있어서,
    상기 방법은, 상기 프로세싱된 멀티채널 신호의 제 1 채널의 레벨과 상기 프로세싱된 멀티채널 신호의 제 2 채널의 레벨 사이의 관계에 기초하여, 음성 활동의 존재를 표시하는 단계를 포함하는, 멀티채널 신호를 프로세싱하는 방법.
  10. 제 3 항 또는 제 4 항에 있어서,
    상기 방법은, 상기 프로세싱된 멀티채널 신호의 제 1 채널의 레벨과 상기 프로세싱된 멀티채널 신호의 제 2 채널의 레벨 사이의 관계에 기초하고, 상기 코히어런시 측정의 상기 값을 임계값에 비교한 결과에 응답하여, 상기 멀티채널 신호의 상기 제 1 채널 및 상기 제 2 채널 중 적어도 하나로부터의 음향 정보에 따라 잡음 추정치를 업데이트하는 단계를 포함하는, 멀티채널 신호를 프로세싱하는 방법.
  11. 프로세서에 의해 판독될 때, 상기 프로세서로 하여금, 제 1 항 내지 제 10 항 중 어느 한 항에 기재된 방법을 수행하게 하는 유형의 특징들을 포함하는, 컴퓨터 판독가능한 매체.
  12. 멀티채널 신호를 프로세싱하는 장치로서,
    상기 멀티채널 신호의 복수의 상이한 주파수 성분 각각에 대해, 상기 멀티채널 신호의 제 1 채널에서의 상기 주파수 성분의 위상과 상기 멀티채널 신호의 제 2 채널에서의 상기 주파수 성분의 위상 사이의 차이를 계산함으로써, 복수의 계산된 위상차를 획득하도록 구성된 제 1 계산기;
    상기 제 1 채널의 레벨 및 상기 제 2 채널의 대응하는 레벨을 계산하도록 구성된 제 2 계산기;
    상기 제 1 채널의 상기 계산된 레벨, 상기 제 2 채널의 상기 계산된 레벨, 및 상기 복수의 계산된 위상차 중 적어도 하나에 기초하여, 이득 팩터의 업데이트된 값을 계산하도록 구성된 제 3 계산기; 및
    상기 업데이트된 값에 따라, 상기 제 1 채널의 대응하는 진폭에 대한 상기 제 2 채널의 진폭을 변경함으로써 프로세싱된 멀티채널 신호를 발생시키도록 구성된 이득 제어 엘리먼트를 포함하는, 멀티채널 신호를 프로세싱하는 장치.
  13. 제 12 항에 있어서,
    상기 제 1 채널의 상기 계산된 레벨은 제 1 주파수 서브대역에서의 상기 제 1 채널의 계산된 에너지이고, 상기 제 2 채널의 상기 계산된 레벨은 상기 제 1 주파수 서브대역에서의 상기 제 2 채널의 계산된 에너지이고,
    상기 제 1 채널의 상기 진폭은 상기 제 1 주파수 서브대역에서의 상기 제 1 채널의 진폭이고, 상기 제 2 채널의 상기 대응하는 진폭은 상기 제 1 주파수 서브대역에서의 상기 제 2 채널의 진폭이고,
    상기 제 2 계산기는, 상기 제 1 주파수 서브대역과는 상이한 제 2 주파수 서브대역에서의 상기 제 1 채널의 에너지를 계산하고, 상기 제 2 주파수 서브대역에서의 상기 제 2 채널의 에너지를 계산하도록 구성되고,
    상기 제 3 계산기는, 상기 제 2 주파수 서브대역에서의 상기 제 1 채널의 상기 계산된 에너지, 상기 제 2 주파수 서브대역에서의 상기 제 2 채널의 상기 계산된 에너지, 및 상기 복수의 계산된 위상차 중 적어도 하나에 기초하여, 제 2 이득 팩터의 업데이트된 값을 계산하도록 구성되며,
    상기 이득 제어 엘리먼트는, 상기 제 2 이득 팩터의 상기 업데이트된 값에 따라, 상기 제 2 주파수 서브대역에서의 상기 제 1 채널의 진폭에 대한 상기 제 2 주파수 서브대역에서의 상기 제 2 채널의 진폭을 변경함으로써 상기 프로세싱된 멀티채널 신호를 발생시키도록 구성되는, 멀티채널 신호를 프로세싱하는 장치.
  14. 제 12 항 또는 제 13 항에 있어서,
    상기 제 3 계산기는, 상기 복수의 계산된 위상차로부터의 정보에 기초하여, 적어도 상기 복수의 상이한 주파수 성분의 도달 방향들 중에서 코히어런시의 정도를 나타내는 코히어런시 측정의 값을 계산하도록 구성되고,
    상기 제 3 계산기는, 상기 코히어런시 측정의 상기 계산된 값에 기초하여 상기 이득 팩터의 업데이트된 값을 계산하도록 구성되는, 멀티채널 신호를 프로세싱하는 장치.
  15. 제 14 항에 있어서,
    상기 제 3 계산기는 상기 코히어런시 측정의 상기 값을 임계값에 비교하도록 구성되고,
    상기 이득 제어 엘리먼트는 상기 코히어런시 측정의 상기 값을 임계값에 비교한 결과에 응답하여 상기 제 2 채널의 대응하는 진폭에 대한 상기 제 1 채널의 진폭을 변경하도록 구성되는, 멀티채널 신호를 프로세싱하는 장치.
  16. 제 12 항 내지 제 15 항 중 어느 한 항에 있어서,
    상기 위상차 계산기는, 상기 멀티채널 신호의 추정된 피치 주파수에 기초하여 상기 복수의 상이한 주파수 성분을 선택하도록 구성되는, 멀티채널 신호를 프로세싱하는 장치.
  17. 제 12 항 내지 제 16 항 중 어느 한 항에 있어서,
    상기 이득 팩터의 업데이트된 값은, 상기 제 1 채널의 상기 계산된 레벨과 상기 제 2 채널의 상기 계산된 레벨 사이의 비율에 기초하는, 멀티채널 신호를 프로세싱하는 장치.
  18. 제 12 항 내지 제 17 항 중 어느 한 항에 있어서,
    상기 이득 제어 엘리먼트는, 상기 업데이트된 값에 따라, 상기 제 1 채널의 대응하는 진폭에 대한 상기 제 2 채널의 진폭을 변경함으로써, 상기 제 1 채널 및 상기 제 2 채널의 상기 계산된 레벨들 사이의 불균형을 감소시키도록 구성되는, 멀티채널 신호를 프로세싱하는 장치.
  19. 제 12 항 내지 제 18 항 중 어느 한 항에 있어서,
    상기 이득 제어 엘리먼트는, 상기 업데이트된 값에 따라, 상기 멀티채널 신호의 복수의 연속 세그먼트 각각에서 상기 제 1 채널의 대응하는 진폭에 대한 상기 제 2 채널의 진폭을 변경함으로써 상기 프로세싱된 멀티채널 신호를 발생시키도록 구성되는, 멀티채널 신호를 프로세싱하는 장치.
  20. 제 12 항 내지 제 19 항 중 어느 한 항에 있어서,
    상기 장치는, 상기 프로세싱된 멀티채널 신호의 제 1 채널의 레벨과 상기 프로세싱된 멀티채널 신호의 제 2 채널의 레벨 사이의 관계에 기초하여, 음성 활동의 존재를 표시하도록 구성된 음성 활동 검출기를 포함하는, 멀티채널 신호를 프로세싱하는 장치.
  21. 제 14 항 또는 제 15 항 중 어느 한 항에 있어서,
    상기 방법은, 상기 프로세싱된 멀티채널 신호의 제 1 채널의 레벨과 상기 프로세싱된 멀티채널 신호의 제 2 채널의 레벨 사이의 관계에 기초하고, 상기 코히어런시 측정의 상기 값을 임계값에 비교한 결과에 응답하여, 상기 멀티채널 신호의 상기 제 1 채널 및 상기 제 2 채널 중 적어도 하나로부터의 음향 정보에 따라 잡음 추정치를 업데이트하는 것을 포함하는, 멀티채널 신호를 프로세싱하는 장치.
  22. 멀티채널 신호를 프로세싱하는 장치로서,
    상기 멀티채널 신호의 복수의 상이한 주파수 성분 각각에 대해, 상기 멀티채널 신호의 제 1 채널에서의 상기 주파수 성분의 위상과 상기 멀티채널 신호의 제 2 채널에서의 상기 주파수 성분의 위상 사이의 차이를 계산하여, 복수의 계산된 위상차를 획득하는 수단;
    상기 제 1 채널의 레벨 및 상기 제 2 채널의 대응하는 레벨을 계산하는 수단;
    상기 제 1 채널의 상기 계산된 레벨, 상기 제 2 채널의 상기 계산된 레벨, 및 상기 복수의 계산된 위상차 중 적어도 하나에 기초하여, 이득 팩터의 업데이트된 값을 계산하는 수단; 및
    상기 업데이트된 값에 따라, 상기 제 1 채널의 대응하는 진폭에 대한 상기 제 2 채널의 진폭을 변경함으로써 프로세싱된 멀티채널 신호를 발생시키는 수단을 포함하는, 멀티채널 신호를 프로세싱하는 장치.
  23. 제 22 항에 있어서,
    상기 제 1 채널의 상기 계산된 레벨은 제 1 주파수 서브대역에서의 상기 제 1 채널의 계산된 에너지이고, 상기 제 2 채널의 상기 계산된 레벨은 상기 제 1 주파수 서브대역에서의 상기 제 2 채널의 계산된 에너지이고,
    상기 제 1 채널의 상기 진폭은 상기 제 1 주파수 서브대역에서의 상기 제 1 채널의 진폭이고, 상기 제 2 채널의 상기 대응하는 진폭은 상기 제 1 주파수 서브대역에서의 상기 제 2 채널의 진폭이고,
    상기 장치는,
    상기 제 1 주파수 서브대역과는 상이한 제 2 주파수 서브대역에서의 상기 제 1 채널의 에너지를 계산하는 수단;
    상기 제 2 주파수 서브대역에서의 상기 제 2 채널의 에너지를 계산하는 수단; 및
    상기 제 2 주파수 서브대역에서의 상기 제 1 채널의 상기 계산된 에너지, 상기 제 2 주파수 서브대역에서의 상기 제 2 채널의 상기 계산된 에너지, 및 상기 복수의 계산된 위상차 중 적어도 하나에 기초하여, 제 2 이득 팩터의 업데이트된 값을 계산하는 수단을 포함하고,
    상기 프로세싱된 멀티채널 신호를 발생시키는 수단은, 상기 제 2 이득 팩터의 상기 업데이트된 값에 따라, 상기 제 2 주파수 서브대역에서의 상기 제 1 채널의 진폭에 대한 상기 제 2 주파수 서브대역에서의 상기 제 2 채널의 진폭을 변경함으로써 상기 프로세싱된 멀티채널 신호를 발생시키는 수단을 포함하는, 멀티채널 신호를 프로세싱하는 장치.
  24. 제 22 항 또는 제 23 항에 있어서,
    상기 장치는 상기 복수의 계산된 위상차로부터의 정보에 기초하여, 적어도 상기 복수의 상이한 주파수 성분의 도달 방향들 중에서 코히어런시의 정도를 나타내는 코히어런시 측정의 값을 계산하는 수단을 포함하고,
    상기 이득 팩터의 업데이트된 값을 계산하는 수단은 상기 코히어런시 측정의 상기 계산된 값에 기초하여 상기 이득 팩터의 상기 업데이트된 값을 계산하도록 구성되는, 멀티채널 신호를 프로세싱하는 장치.
  25. 제 24 항에 있어서,
    상기 제 2 채널의 대응하는 진폭에 대한 상기 제 1 채널의 진폭을 변경하는 수단은, 상기 코히어런시 측정의 상기 값을 임계값에 비교하는 수단의 출력에 응답하여 이러한 변경을 수행하도록 구성되는, 멀티채널 신호를 프로세싱하는 장치.
  26. 제 22 항 내지 제 25 항 중 어느 한 항에 있어서,
    상기 장치는, 상기 멀티채널 신호의 추정된 피치 주파수에 기초하여 상기 복수의 상이한 주파수 성분을 선택하는 수단을 포함하는, 멀티채널 신호를 프로세싱하는 장치.
  27. 제 22 항 내지 제 26 항 중 어느 한 항에 있어서,
    상기 이득 팩터의 업데이트된 값은, 상기 제 1 채널의 상기 계산된 레벨과 상기 제 2 채널의 상기 계산된 레벨 사이의 비율에 기초하는, 멀티채널 신호를 프로세싱하는 장치.
  28. 제 22 항 내지 제 27 항 중 어느 한 항에 있어서,
    상기 업데이트된 값에 따라, 상기 제 1 채널의 대응하는 진폭에 대한 상기 제 2 채널의 진폭을 변경함으로써 상기 프로세싱된 멀티채널 신호를 발생시키는 수단은, 상기 제 1 채널 및 상기 제 2 채널의 상기 계산된 레벨들 사이의 불균형을 감소시키도록 구성되는, 멀티채널 신호를 프로세싱하는 장치.
  29. 제 22 항 내지 제 28 항 중 어느 한 항에 있어서,
    상기 프로세싱된 멀티채널 신호를 발생시키는 수단은, 상기 업데이트된 값에 따라, 상기 멀티채널 신호의 복수의 연속 세그먼트 각각에서 상기 제 1 채널의 대응하는 진폭에 대한 상기 제 2 채널의 진폭을 변경하는 수단을 포함하는, 멀티채널 신호를 프로세싱하는 장치.
  30. 제 22 항 내지 제 29 항 중 어느 한 항에 있어서,
    상기 장치는, 상기 프로세싱된 멀티채널 신호의 제 1 채널의 레벨과 상기 프로세싱된 멀티채널 신호의 제 2 채널의 레벨 사이의 관계에 기초하여, 음성 활동의 존재를 표시하는 수단을 포함하는, 멀티채널 신호를 프로세싱하는 장치.
  31. 제 24 항 또는 제 25 항에 있어서,
    상기 장치는, 상기 프로세싱된 멀티채널 신호의 제 1 채널의 레벨과 상기 프로세싱된 멀티채널 신호의 제 2 채널의 레벨 사이의 관계에 기초하고, 상기 코히어런시 측정의 상기 값을 임계값에 비교한 결과에 응답하여, 상기 멀티채널 신호의 상기 제 1 채널 및 상기 제 2 채널 중 적어도 하나로부터의 음향 정보에 따라 잡음 추정치를 업데이트하는 수단을 포함하는, 멀티채널 신호를 프로세싱하는 장치.
KR1020127000692A 2009-06-09 2010-06-09 멀티채널 신호의 위상 기반 프로세싱을 위한 시스템들, 방법들, 장치들, 및 컴퓨터 판독가능한 매체 KR101275442B1 (ko)

Applications Claiming Priority (11)

Application Number Priority Date Filing Date Title
US18551809P 2009-06-09 2009-06-09
US61/185,518 2009-06-09
US22703709P 2009-07-20 2009-07-20
US61/227,037 2009-07-20
US24031809P 2009-09-08 2009-09-08
US24032009P 2009-09-08 2009-09-08
US61/240,320 2009-09-08
US61/240,318 2009-09-08
US12/796,566 US8620672B2 (en) 2009-06-09 2010-06-08 Systems, methods, apparatus, and computer-readable media for phase-based processing of multichannel signal
US12/796,566 2010-06-08
PCT/US2010/037973 WO2010144577A1 (en) 2009-06-09 2010-06-09 Systems, methods, apparatus, and computer-readable media for phase-based processing of multichannel signal

Publications (2)

Publication Number Publication Date
KR20120027510A true KR20120027510A (ko) 2012-03-21
KR101275442B1 KR101275442B1 (ko) 2013-06-17

Family

ID=42342569

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020127000692A KR101275442B1 (ko) 2009-06-09 2010-06-09 멀티채널 신호의 위상 기반 프로세싱을 위한 시스템들, 방법들, 장치들, 및 컴퓨터 판독가능한 매체

Country Status (7)

Country Link
US (1) US8620672B2 (ko)
EP (1) EP2441273A1 (ko)
JP (1) JP5410603B2 (ko)
KR (1) KR101275442B1 (ko)
CN (1) CN102461203B (ko)
TW (1) TW201132138A (ko)
WO (1) WO2010144577A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101434026B1 (ko) * 2012-09-11 2014-08-26 제주대학교 산학협력단 3차원 측정 장치 및 방법

Families Citing this family (81)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009012491A2 (en) * 2007-07-19 2009-01-22 Personics Holdings Inc. Device and method for remote acoustic porting and magnetic acoustic connection
CN103137139B (zh) * 2008-06-30 2014-12-10 杜比实验室特许公司 多麦克风语音活动检测器
US8724829B2 (en) 2008-10-24 2014-05-13 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for coherence detection
JP5493611B2 (ja) * 2009-09-09 2014-05-14 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
US8897455B2 (en) 2010-02-18 2014-11-25 Qualcomm Incorporated Microphone array subset selection for robust noise reduction
US9165567B2 (en) 2010-04-22 2015-10-20 Qualcomm Incorporated Systems, methods, and apparatus for speech feature detection
US20110288860A1 (en) 2010-05-20 2011-11-24 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for processing of speech signals using head-mounted microphone pair
US9053697B2 (en) 2010-06-01 2015-06-09 Qualcomm Incorporated Systems, methods, devices, apparatus, and computer program products for audio equalization
EP2395506B1 (en) * 2010-06-09 2012-08-22 Siemens Medical Instruments Pte. Ltd. Method and acoustic signal processing system for interference and noise suppression in binaural microphone configurations
US9025782B2 (en) 2010-07-26 2015-05-05 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for multi-microphone location-selective processing
US9082416B2 (en) * 2010-09-16 2015-07-14 Qualcomm Incorporated Estimating a pitch lag
US8898058B2 (en) 2010-10-25 2014-11-25 Qualcomm Incorporated Systems, methods, and apparatus for voice activity detection
US8525868B2 (en) 2011-01-13 2013-09-03 Qualcomm Incorporated Variable beamforming with a mobile platform
WO2012107561A1 (en) * 2011-02-10 2012-08-16 Dolby International Ab Spatial adaptation in multi-microphone sound capture
US8553817B1 (en) * 2011-03-01 2013-10-08 The United States Of America As Represented By The Secretary Of The Navy Method and apparatus for shipboard co-site in-band desired signal extraction
US9354310B2 (en) 2011-03-03 2016-05-31 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for source localization using audible sound and ultrasound
JP5668553B2 (ja) * 2011-03-18 2015-02-12 富士通株式会社 音声誤検出判別装置、音声誤検出判別方法、およびプログラム
GB2491173A (en) * 2011-05-26 2012-11-28 Skype Setting gain applied to an audio signal based on direction of arrival (DOA) information
US8817917B2 (en) * 2011-06-21 2014-08-26 Ibiquity Digital Corporation Method and apparatus for implementing signal quality metrics and antenna diversity switching control
GB2493327B (en) 2011-07-05 2018-06-06 Skype Processing audio signals
US9031259B2 (en) * 2011-09-15 2015-05-12 JVC Kenwood Corporation Noise reduction apparatus, audio input apparatus, wireless communication apparatus, and noise reduction method
GB2495131A (en) 2011-09-30 2013-04-03 Skype A mobile device includes a received-signal beamformer that adapts to motion of the mobile device
GB2495278A (en) 2011-09-30 2013-04-10 Skype Processing received signals from a range of receiving angles to reduce interference
GB2495128B (en) 2011-09-30 2018-04-04 Skype Processing signals
GB2495129B (en) 2011-09-30 2017-07-19 Skype Processing signals
GB2495130B (en) 2011-09-30 2018-10-24 Skype Processing audio signals
GB2495472B (en) 2011-09-30 2019-07-03 Skype Processing audio signals
GB2496660B (en) 2011-11-18 2014-06-04 Skype Processing audio signals
GB201120392D0 (en) 2011-11-25 2012-01-11 Skype Ltd Processing signals
GB2497343B (en) 2011-12-08 2014-11-26 Skype Processing audio signals
US9648421B2 (en) * 2011-12-14 2017-05-09 Harris Corporation Systems and methods for matching gain levels of transducers
PT2795613T (pt) 2011-12-21 2018-01-16 Huawei Tech Co Ltd Deteção e codificação de diferencial de altura de som muito curto
CN102404273B (zh) * 2011-12-29 2015-04-15 电子科技大学 一种基于新的压扩变换的ofdm信号传输方法
US9173025B2 (en) 2012-02-08 2015-10-27 Dolby Laboratories Licensing Corporation Combined suppression of noise, echo, and out-of-location signals
US8712076B2 (en) 2012-02-08 2014-04-29 Dolby Laboratories Licensing Corporation Post-processing including median filtering of noise suppression gains
US20130275873A1 (en) 2012-04-13 2013-10-17 Qualcomm Incorporated Systems and methods for displaying a user interface
US20130282372A1 (en) * 2012-04-23 2013-10-24 Qualcomm Incorporated Systems and methods for audio signal processing
EP2842384A4 (en) * 2012-04-26 2015-12-16 Propagation Res Associates Inc METHOD AND SYSTEM FOR USING ORTHOGONAL SPATIAL PROJECTIONS TO MITIGATE PARASITING
CN103426441B (zh) 2012-05-18 2016-03-02 华为技术有限公司 检测基音周期的正确性的方法和装置
JP6028502B2 (ja) 2012-10-03 2016-11-16 沖電気工業株式会社 音声信号処理装置、方法及びプログラム
US9368117B2 (en) * 2012-11-14 2016-06-14 Qualcomm Incorporated Device and system having smart directional conferencing
JP6107151B2 (ja) * 2013-01-15 2017-04-05 富士通株式会社 雑音抑圧装置、方法、及びプログラム
JP6020258B2 (ja) * 2013-02-28 2016-11-02 富士通株式会社 マイク感度差補正装置、方法、プログラム、及び雑音抑圧装置
US9984675B2 (en) 2013-05-24 2018-05-29 Google Technology Holdings LLC Voice controlled audio recording system with adjustable beamforming
US9269350B2 (en) 2013-05-24 2016-02-23 Google Technology Holdings LLC Voice controlled audio recording or transmission apparatus with keyword filtering
JP6314475B2 (ja) * 2013-12-25 2018-04-25 沖電気工業株式会社 音声信号処理装置及びプログラム
EP2933935A1 (en) * 2014-04-14 2015-10-21 Alcatel Lucent A method of modulating light in a telecommunication network
US10540979B2 (en) 2014-04-17 2020-01-21 Qualcomm Incorporated User interface for secure access to a device using speaker verification
JP6547451B2 (ja) * 2015-06-26 2019-07-24 富士通株式会社 雑音抑圧装置、雑音抑圧方法、及び雑音抑圧プログラム
US10242689B2 (en) * 2015-09-17 2019-03-26 Intel IP Corporation Position-robust multiple microphone noise estimation techniques
EP3157268B1 (en) * 2015-10-12 2021-06-30 Oticon A/s A hearing device and a hearing system configured to localize a sound source
CN108337926A (zh) * 2015-11-25 2018-07-27 索尼公司 声音收集装置
CN105578350A (zh) * 2015-12-29 2016-05-11 太仓美宅姬娱乐传媒有限公司 一种处理图像声音的方法
US9747887B2 (en) * 2016-01-12 2017-08-29 Bose Corporation Systems and methods of active noise reduction in headphones
CN105590630B (zh) * 2016-02-18 2019-06-07 深圳永顺智信息科技有限公司 基于指定带宽的定向噪音抑制方法
US11463833B2 (en) * 2016-05-26 2022-10-04 Telefonaktiebolaget Lm Ericsson (Publ) Method and apparatus for voice or sound activity detection for spatial audio
US10217467B2 (en) 2016-06-20 2019-02-26 Qualcomm Incorporated Encoding and decoding of interchannel phase differences between audio signals
TWI608365B (zh) * 2016-09-23 2017-12-11 財團法人工業技術研究院 擾動源追溯方法
FR3056813B1 (fr) * 2016-09-29 2019-11-08 Dolphin Integration Circuit audio et procede de detection d'activite
CN108022595A (zh) * 2016-10-28 2018-05-11 电信科学技术研究院 一种语音信号降噪方法和用户终端
US20180160226A1 (en) * 2016-12-05 2018-06-07 Semiconductor Components Industries, Llc Reducing or eliminating transducer reverberation
US10389885B2 (en) * 2017-02-01 2019-08-20 Cisco Technology, Inc. Full-duplex adaptive echo cancellation in a conference endpoint
CN107301869B (zh) * 2017-08-17 2021-01-29 珠海全志科技股份有限公司 麦克风阵列拾音方法、处理器及其存储介质
US10339949B1 (en) 2017-12-19 2019-07-02 Apple Inc. Multi-channel speech enhancement
US10657981B1 (en) * 2018-01-19 2020-05-19 Amazon Technologies, Inc. Acoustic echo cancellation with loudspeaker canceling beamformer
US20210027758A1 (en) * 2018-04-09 2021-01-28 Sony Corporation Signal processing apparatus, signal processing method, and signal processing program
EP3811360A4 (en) 2018-06-21 2021-11-24 Magic Leap, Inc. PORTABLE SYSTEM VOICE PROCESSING
CN116437280A (zh) * 2018-08-22 2023-07-14 深圳市汇顶科技股份有限公司 评估麦克风阵列一致性的方法、设备、装置和系统
FR3088730B1 (fr) * 2018-11-15 2022-03-11 Thales Sa Procédé de création d'au moins une voie de réception virtuelle par l'utilisation d'une antenne radar et système radar
JP2022051974A (ja) * 2019-02-12 2022-04-04 ソニーグループ株式会社 情報処理装置および方法、並びにプログラム
WO2020180719A1 (en) 2019-03-01 2020-09-10 Magic Leap, Inc. Determining input for speech processing engine
US11070907B2 (en) * 2019-04-25 2021-07-20 Khaled Shami Signal matching method and device
US11328740B2 (en) 2019-08-07 2022-05-10 Magic Leap, Inc. Voice onset detection
CN111174899B (zh) * 2019-11-27 2022-06-07 中国船舶重工集团有限公司第七一0研究所 水雷自导头声学接收系统在空气中的测试装置及测试方法
US11503563B2 (en) 2020-02-04 2022-11-15 Alibaba Group Holding Limited Distance estimation using signals of different frequencies
WO2021173667A1 (en) * 2020-02-28 2021-09-02 Bose Corporation Asymmetric microphone position for beamforming on wearables
US11917384B2 (en) 2020-03-27 2024-02-27 Magic Leap, Inc. Method of waking a device using spoken voice commands
US11138990B1 (en) * 2020-04-29 2021-10-05 Bose Corporation Voice activity detection
US11287506B2 (en) * 2020-06-05 2022-03-29 National Technology & Engineering Solutions Of Sandia, Llc Directional infrasound sensing
CN115412406B (zh) * 2021-05-27 2023-08-01 大唐移动通信设备有限公司 通道校准方法、装置及处理器可读存储介质
US11689836B2 (en) 2021-05-28 2023-06-27 Plantronics, Inc. Earloop microphone

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IT8453463V0 (it) * 1984-06-06 1984-06-06 Carrozzerie Patavium A Zanin S Attrezzo fluidodinamico portatile per l intestatura a smusso di tubi di grande diametro particolarmente tubi per oleodotti gasdotti e simili
KR100230231B1 (ko) 1994-05-31 1999-11-15 윤종용 다채널 오디오 마스킹처리장치
JP3797751B2 (ja) * 1996-11-27 2006-07-19 富士通株式会社 マイクロホンシステム
US6654468B1 (en) * 1998-08-25 2003-11-25 Knowles Electronics, Llc Apparatus and method for matching the response of microphones in magnitude and phase
JP2002540696A (ja) * 1999-03-19 2002-11-26 シーメンス アクチエンゲゼルシヤフト ノイズ音響に満ちた環境でのオーディオ信号の受信と処理のための方法
EP1198974B1 (en) * 1999-08-03 2003-06-04 Widex A/S Hearing aid with adaptive matching of microphones
JP3599653B2 (ja) 2000-09-06 2004-12-08 日本電信電話株式会社 収音装置、収音・音源分離装置及び収音方法、収音・音源分離方法並びに収音プログラム、収音・音源分離プログラムを記録した記録媒体
US7006636B2 (en) 2002-05-24 2006-02-28 Agere Systems Inc. Coherence-based audio coding and synthesis
JP3716918B2 (ja) 2001-09-06 2005-11-16 日本電信電話株式会社 収音装置、方法及びプログラム、記録媒体
US7171008B2 (en) 2002-02-05 2007-01-30 Mh Acoustics, Llc Reducing noise in audio systems
US7203323B2 (en) * 2003-07-25 2007-04-10 Microsoft Corporation System and process for calibrating a microphone array
JP3949150B2 (ja) 2003-09-02 2007-07-25 日本電信電話株式会社 信号分離方法、信号分離装置、信号分離プログラム及び記録媒体
JP2006100869A (ja) * 2004-09-28 2006-04-13 Sony Corp 音声信号処理装置および音声信号処理方法
KR100657912B1 (ko) 2004-11-18 2006-12-14 삼성전자주식회사 잡음 제거 방법 및 장치
JP4247195B2 (ja) 2005-03-23 2009-04-02 株式会社東芝 音響信号処理装置、音響信号処理方法、音響信号処理プログラム、及び音響信号処理プログラムを記録した記録媒体
JP4896449B2 (ja) 2005-06-29 2012-03-14 株式会社東芝 音響信号処理方法、装置及びプログラム
JP4701931B2 (ja) 2005-09-02 2011-06-15 日本電気株式会社 信号処理の方法及び装置並びにコンピュータプログラム
US8345890B2 (en) 2006-01-05 2013-01-01 Audience, Inc. System and method for utilizing inter-microphone level differences for speech enhancement
JP5098176B2 (ja) 2006-01-10 2012-12-12 カシオ計算機株式会社 音源方向判定方法及び装置
JP2008079256A (ja) 2006-09-25 2008-04-03 Toshiba Corp 音響信号処理装置、音響信号処理方法及びプログラム
US8041043B2 (en) 2007-01-12 2011-10-18 Fraunhofer-Gessellschaft Zur Foerderung Angewandten Forschung E.V. Processing microphone generated signals to generate surround sound
US8005238B2 (en) 2007-03-22 2011-08-23 Microsoft Corporation Robust adaptive beamforming with enhanced noise suppression
GB2453118B (en) 2007-09-25 2011-09-21 Motorola Inc Method and apparatus for generating and audio signal from multiple microphones
US8954324B2 (en) 2007-09-28 2015-02-10 Qualcomm Incorporated Multiple microphone voice activity detector
US8724829B2 (en) 2008-10-24 2014-05-13 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for coherence detection

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101434026B1 (ko) * 2012-09-11 2014-08-26 제주대학교 산학협력단 3차원 측정 장치 및 방법

Also Published As

Publication number Publication date
TW201132138A (en) 2011-09-16
EP2441273A1 (en) 2012-04-18
CN102461203A (zh) 2012-05-16
US8620672B2 (en) 2013-12-31
WO2010144577A1 (en) 2010-12-16
CN102461203B (zh) 2014-10-29
JP2012529868A (ja) 2012-11-22
KR101275442B1 (ko) 2013-06-17
US20100323652A1 (en) 2010-12-23
JP5410603B2 (ja) 2014-02-05

Similar Documents

Publication Publication Date Title
KR101275442B1 (ko) 멀티채널 신호의 위상 기반 프로세싱을 위한 시스템들, 방법들, 장치들, 및 컴퓨터 판독가능한 매체
KR101470262B1 (ko) 다중-마이크로폰 위치 선택적 프로세싱을 위한 시스템들, 방법들, 장치, 및 컴퓨터 판독가능 매체
JP5329655B2 (ja) マルチチャネル信号のバランスをとるためのシステム、方法及び装置
JP5038550B1 (ja) ロバストな雑音低減のためのマイクロフォンアレイサブセット選択
JP5307248B2 (ja) コヒーレンス検出のためのシステム、方法、装置、およびコンピュータ可読媒体
US9165567B2 (en) Systems, methods, and apparatus for speech feature detection
EP2572353B1 (en) Methods, apparatus, and computer-readable media for processing of speech signals using head-mounted microphone pair
US20090299742A1 (en) Systems, methods, apparatus, and computer program products for spectral contrast enhancement

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20160330

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20170330

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20180329

Year of fee payment: 6