KR20130055650A

KR20130055650A - 다중-마이크로폰 위치 선택적 프로세싱을 위한 시스템들, 방법들, 장치, 및 컴퓨터 판독가능 매체

Info

Publication number: KR20130055650A
Application number: KR1020137004725A
Authority: KR
Inventors: 에릭 비제르; 이안 어난 리우
Original assignee: 퀄컴 인코포레이티드
Priority date: 2010-07-26
Filing date: 2011-07-26
Publication date: 2013-05-28
Also published as: KR101470262B1; EP2599329B1; CN103026733A; EP2599329A2; JP2013535915A; WO2012018641A3; WO2012018641A2; CN103026733B; US9025782B2; US20120020485A1

Abstract

다중-마이크로폰 시스템은 음향 신호의 위치 선택적 프로세싱을 수행하고, 여기서, 소스 위치는 사용자 머리의 정중시상면의 반대측들에서의 마이크로폰 쌍들에 대한 도달 방향들에 의해 표시된다.

Description

다중-마이크로폰 위치 선택적 프로세싱을 위한 시스템들, 방법들, 장치, 및 컴퓨터 판독가능 매체{SYSTEMS, METHODS, APPARATUS, AND COMPUTER-READABLE MEDIA FOR MULTI-MICROPHONE LOCATION-SELECTIVE PROCESSING}

35 U.S.C.§119 하의 우선권 주장

본 특허출원은 "SYSTEMS, METHODS, APPARATUS, AND COMPUTER-READABLE MEDIA FOR MULTI-MICROPHONE RANGE-SELECTIVE PROCESSING" 의 명칭으로 2010년 7월 26일자로 출원된 가출원 제61/367,730호를 우선권 주장한다.

본 개시는 신호 프로세싱에 관한 것이다.

조용한 사무실 또는 가정 환경들에서 이전에 수행되었던 다수의 활동들이 오늘날, 차량, 거리, 또는 카페와 같은 음향적으로 가변인 상황들에서 수행되고 있다. 예를 들어, 사람은 음성 통신 채널을 이용하여 다른 사람과 통신하길 원할 수도 있다. 예를 들어, 모바일 무선 핸드셋 또는 헤드셋, 워키토키, 양방향 라디오, 차량 키트, 또는 다른 통신 디바이스에 의해 채널이 제공될 수도 있다. 결과적으로, 사람들이 모이려는 경향이 있는 곳에서 통상적으로 조우되는 잡음 컨텐츠의 종류로, 사용자들이 다른 사람들에 의해 둘러싸이는 환경들에서 휴대용 오디오 감지 디바이스들 (예를 들어, 스마트폰들, 핸드셋들, 및/또는 헤드셋들) 을 이용하여, 상당한 양의 음성 통신이 발생하고 있다. 그러한 잡음은 전화 통화의 원단에서의 사용자를 산만하게 하거나 성가시게 하는 경향이 있다. 더욱이, 다수의 표준 자동화된 비즈니스 거래들 (예를 들어, 계정 잔액 또는 주식 시세 체크들) 은 음성 인식 기반 데이터 문의를 채용하고, 이들 시스템들의 정확도는 간섭성 잡음에 의해 현저히 방해될 수도 있다.

잡음있는 환경들에서 통신이 발생하는 어플리케이션에 있어서, 백그라운드 잡음으로부터 원하는 스피치 신호를 분리하는 것이 바람직할 수도 있다. 잡음은 원하는 신호를 간섭하거나 그렇지 않으면 저하시키는 모든 신호들의 결합으로서 정의될 수도 있다. 백그라운드 잡음은, 다른 사람들의 백그라운드 대화뿐 아니라 원하는 신호 및/또는 임의의 다른 신호들로부터 발생된 반사물들 및 잔향과 같이, 음향 환경 내에서 발생되는 다수의 잡음 신호들을 포함할 수도 있다. 원하는 스피치 신호가 백그라운드 잡음으로부터 분리되지 않으면, 그 원하는 스피치 신호를 신뢰성있고 효율적으로 이용하기는 어려울 수도 있다. 하나의 특정 예에 있어서, 스피치 신호는 잡음있는 환경에서 발생되고, 스피치 프로세싱 방법들은 환경적 잡음으로부터 스피치 신호를 분리하기 위해 사용된다.

모바일 환경에서 조우되는 잡음은 경쟁적인 화자들, 음악, 잡담, 거리 잡음, 및/또는 공항 잡음과 같은 다양한 상이한 컴포넌트들을 포함할 수도 있다. 그러한 잡음의 시그너처는 통상적으로 넌-스테이셔너리이고 사용자 자신의 주파수 시그너처에 가깝기 때문에, 잡음은 종래의 단일 마이크로폰 또는 고정된 빔형성 타입 방법들을 이용하여 모델링하기 어려울 수도 있다. 단일 마이크로폰 잡음 감소 기술들은 통상적으로, 최적의 성능을 달성하도록 동조된 중요한 파라미터를 요구한다. 예를 들어, 적절한 잡음 레퍼런스는 그러한 경우들에서 직접 이용가능하지 않을 수도 있고, 잡음 레퍼런스를 간접적으로 유도하는 것이 필요할 수도 있다. 따라서, 잡음있는 환경들에서의 음성 통신을 위해 모바일 디바이스들의 사용을 지원하도록, 다중-마이크로폰 기반의 진보한 신호 프로세싱이 바람직할 수도 있다.

일반적인 구성에 따른 오디오 신호 프로세싱의 방법은 제 1 쌍의 마이크로폰들에 의해 수신된 제 1 사운드 컴포넌트의, 제 1 쌍의 마이크로폰들에 대한 제 1 도달 방향 표시를 계산하는 단계, 및 제 2 쌍의 마이크로폰들에 의해 수신된 제 2 사운드 컴포넌트의, 제 2 쌍의 마이크로폰들에 대한 제 2 도달 방향 표시를 계산하는 단계를 포함한다. 이 방법은 또한, 제 1 및 제 2 방향 표시들에 기초하여, 출력 신호를 생성하기 위해 오디오 신호의 이득을 제어하는 단계를 포함한다. 이 방법에 있어서, 제 1 쌍의 마이크로폰들은 사용자 머리의 정중시상면 (midsagittal plane) 의 제 1 측에 위치되고, 제 2 쌍의 마이크로폰들은 제 1 측에 반대편인 정중시상면의 제 2 측에 위치되며, 제 1 쌍은 제 2 쌍으로부터 적어도 10 센티미터만큼 분리된다. 유형의 특징들을 판독하는 머신으로 하여금 그러한 방법을 수행하게 하는 유형의 특징들을 갖는 컴퓨터 판독가능 저장 매체 (예를 들어, 비-일시적 매체) 가 또한 개시된다.

일반적인 구성에 따른 오디오 신호 프로세싱을 위한 장치는 제 1 쌍의 마이크로폰들에 의해 수신된 제 1 사운드 컴포넌트의, 제 1 쌍의 마이크로폰들에 대한 제 1 도달 방향 표시를 계산하는 수단, 및 제 2 쌍의 마이크로폰들에 의해 수신된 제 2 사운드 컴포넌트의, 제 2 쌍의 마이크로폰들에 대한 제 2 도달 방향 표시를 계산하는 수단을 포함한다. 이 장치는 또한, 제 1 및 제 2 방향 표시들에 기초하여, 오디오 신호의 이득을 제어하는 수단을 포함한다. 이 장치에 있어서, 제 1 쌍의 마이크로폰들은 사용자 머리의 정중시상면의 제 1 측에 위치되고, 제 2 쌍의 마이크로폰들은 제 1 측에 반대편인 정중시상면의 제 2 측에 위치되며, 제 1 쌍은 제 2 쌍으로부터 적어도 10 센티미터만큼 분리된다.

일반적인 구성에 따른 오디오 신호 프로세싱을 위한 장치는, 사용자 머리의 정중시상면의 제 1 측에서 장치의 사용 동안 위치되도록 구성된 제 1 쌍의 마이크로폰들, 및 제 1 측에 반대편인 정중시상면의 제 2 측에서 장치의 사용 동안 위치되도록 구성된 제 2 쌍의 마이크로폰들을 포함한다. 이 장치에 있어서, 제 1 쌍은 장치의 사용 동안 제 2 쌍으로부터 적어도 10 센티미터만큼 분리되도록 구성된다. 이 장치는 또한, 제 1 쌍의 마이크로폰들에 의해 수신된 제 1 사운드 컴포넌트의, 제 1 쌍의 마이크로폰들에 대한 제 1 도달 방향 표시를 계산하도록 구성된 제 1 방향 표시 계산기, 및 제 2 쌍의 마이크로폰들에 의해 수신된 제 2 사운드 컴포넌트의, 제 2 쌍의 마이크로폰들에 대한 제 2 도달 방향 표시를 계산하도록 구성된 제 2 방향 표시 계산기를 포함한다. 이 장치는 또한, 제 1 및 제 2 방향 표시들에 기초하여, 오디오 신호의 이득을 제어하도록 구성된 이득 제어 모듈을 포함한다.

도 1 및 도 2 는 음성 통신용 헤드셋 (D100) 의 통상적인 사용 케이스의 상면도들을 도시한 것이다.
도 3a 는 일반적인 구성에 따른 시스템 (S100) 의 블록 다이어그램을 도시한 것이다.
도 3b 는 시스템 (S100) 의 사용 동안 마이크로폰들 (ML10, ML20, MR10, 및 MR20) 의 상대적인 배치들의 일 예를 도시한 것이다.
도 4a 는 이어컵 (ECR10) 의 수평 단면도를 도시한 것이다.
도 4b 는 이어컵 (ECR20) 의 수평 단면도를 도시한 것이다.
도 4c 는 이어컵 (ECR10) 의 일 구현 (ECR12) 의 수평 단면도를 도시한 것이다.
도 5a 및 도 5b 는 헤드폰들의 쌍으로서의 시스템 (S100) 의 일 구현의 통상적인 사용 케이스의 상면도 및 정면도를 각각 도시한 것이다.
도 6a 는 사용자 머리의 관상면에 있어서, 사용자 머리의 정중시상면에 수직인 라인에 대한 다양한 각도 범위들의 예들을 도시한 것이다.
도 6b 는 정중시상면 및 관상면에 수직인 횡단면에 있어서, 사용자 머리의 정중시상면에 수직인 라인에 대한 다양한 각도 범위들의 예들을 도시한 것이다.
도 7a 는 마이크로폰 쌍들 (ML10, ML20 및 MR10, MR20) 에 대한 배치들의 예들을 도시한 것이다.
도 7b 는 마이크로폰 쌍들 (ML10, ML20 및 MR10, MR20) 에 대한 배치들의 예들을 도시한 것이다.
도 8a 는 어레이 (R100R) 의 일 구현 (R200R) 의 블록 다이어그램을 도시한 것이다.
도 8b 는 어레이 (R200R) 의 일 구현 (R210R) 의 블록 다이어그램을 도시한 것이다.
도 9a 는 장치 (A100) 의 일 구현 (A110) 의 블록 다이어그램을 도시한 것이다.
도 9b 는 장치 (A110) 의 일 구현 (A120) 의 블록 다이어그램을 도시한 것이다.
도 10a 및 도 10b 는 방향 계산기 (DC10R) 가 마이크로폰 쌍 (MR10 및 MR20) 에 대한 소스의 도달 방향 (DOA) 을 나타내는 예들을 도시한 것이다.
도 10c 는 비대칭 어레이에 대한 빔 패턴의 일 예를 도시한 것이다.
도 11a 는 방향 표시 계산기 (DC10R) 의 일 구현 (DC20R)의 일 예의 블록 다이어그램을 도시한 것이다.
도 11b 는 방향 표시 계산기 (DC10R) 의 일 구현 (DC30R)의 블록 다이어그램을 도시한 것이다.
도 12 및 도 13 은 빔 형성자 빔 패턴들의 예들을 도시한 것이다.
도 14 는 DOA 추정의 배면-투사 방법들을 예시한 것이다.
도 15a 및 도 15b 는 계산기 (DC12R) 의 구현들의 섹터 기반 어플리케이션들의 상면도를 도시한 것이다.
도 16a 내지 도 16d 는 방향성 마스킹 함수들의 개별적인 예들을 도시한 것이다.
도 17 은 3개의 방향성 마스킹 함수들의 2개의 상이한 세트들의 예들을 도시한 것이다.
도 18 은 도 17 에 도시된 바와 같은 3개의 방향성 마스킹 함수들의 세트를 동일한 다중채널 오디오 신호에 적용한 결과들에 대한 크기 대 시간의 플롯들을 도시한 것이다.
도 19 는 마이크로폰 쌍 (MR10, MR20) 의 통상적인 사용 케이스의 일 예를 도시한 것이다.
도 20a 내지 도 20c 는 잡음 감소 모드에 있어서 시스템 동작의 원리들을 예시한 상면도들을 도시한 것이다.
도 21a 내지 도 21c 는 잡음 감소 모드에 있어서 시스템 동작의 원리들을 예시한 상면도들을 도시한 것이다.
도 22a 내지 도 22c 는 잡음 감소 모드에 있어서 시스템 동작의 원리들을 예시한 상면도들을 도시한 것이다.
도 23a 내지 도 23c 는 잡음 감소 모드에 있어서 시스템 동작의 원리들을 예시한 상면도들을 도시한 것이다.
도 24a 는 장치 (A120) 의 일 구현 (A130) 의 블록 다이어그램을 도시한 것이다.
도 24b 및 도 24c 그리고 도 26b 내지 도 26d 는 마이크로폰 (MC10) 에 대한 배치들의 부가적인 예들을 도시한 것이다.
도 25a 는 시뮬레이터 상에 장착된 시스템 (S100) 의 일 구현의 정면도를 도시한 것이다.
도 25b 및 도 26a 는 시뮬레이터의 좌측면도에 있어서, 각각, 마이크로폰 배치들 및 배향들의 예들을 도시한 것이다.
도 27 은 장치 (A110) 의 일 구현 (A140) 의 블록 다이어그램을 도시한 것이다.
도 28 은 장치 (A110) 의 일 구현 (A210) 의 블록 다이어그램을 도시한 것이다.
도 29a 내지 도 29c 는 보청기 모드에 있어서 시스템 동작의 원리들을 예시한 상면도들을 도시한 것이다.
도 30a 내지 도 30c 는 보청기 모드에 있어서 시스템 동작의 원리들을 예시한 상면도들을 도시한 것이다.
도 31a 내지 도 31c 는 보청기 모드에 있어서 시스템 동작의 원리들을 예시한 상면도들을 도시한 것이다.
도 32 는 테스팅 배열의 일 예를 도시한 것이다.
도 33 은 보청기 모드에 있어서 그러한 테스트의 결과를 도시한 것이다.
도 34 는 장치 (A210) 의 일 구현 (A220) 의 블록 다이어그램을 도시한 것이다.
도 35 는 장치 (A110 및 A210) 의 일 구현 (A300) 의 블록 다이어그램을 도시한 것이다.
도 36a 는 일반적인 구성에 따른 방법 (N100) 의 플로우차트를 도시한 것이다.
도 36b 는 일반적인 구성에 따른 방법 (N200) 의 플로우차트를 도시한 것이다.
도 37 은 일반적인 구성에 따른 방법 (N300) 의 플로우차트를 도시한 것이다.
도 38a 는 일반적인 구성에 따른 방법 (M100) 의 플로우차트를 도시한 것이다.
도 38b 는 일반적인 구성에 따른 장치 (MF100) 의 블록 다이어그램을 도시한 것이다.
도 39 는 시스템 (S100) 의 일 구현을 포함하는 통신 디바이스 (D10) 의 블록 다이어그램을 도시한 것이다.

휴대용 감지 디바이스에 의해 감지된 음향 신호는 상이한 소스들 (예를 들어, 사용자의 입과 같은 원하는 사운드 소스, 및 하나 이상의 간섭성 소스들) 로부터 수신된 컴포넌트들을 포함할 수도 있다. 수신 신호에서의 이들 컴포넌트들을 시간에 있어서 및/또는 주파수에 있어서 분리하는 것이 바람직할 수도 있다. 예를 들어, 산만한 백그라운드 잡음으로부터 및 다른 방향성 소스들로부터 사용자의 음성을 구별하는 것이 바람직할 수도 있다.

도 1 및 도 2 는, 2개의 마이크로폰 어레이 (MC10 및 MC20) 를 포함하고 사용자의 귀에 착용되는 음성 통신용 헤드셋 (D100; 예를 들어, 블루투스™ 헤드셋) 의 통상적인 사용 케이스의 상면도들을 도시한 것이다. 일반적으로, 그러한 어레이는, 상이한 도달 방향들을 갖는 신호 컴포넌트들 간의 구별을 지원하기 위해 사용될 수도 있다. 하지만, 도달 방향 표시는, 멀리 떨어져 있지만 동일 방향인 소스로부터 수신된 간섭성 사운드들을 구별하는데 충분하지 않을 수도 있다. 대안적으로 또는 부가적으로, 디바이스와 소스 (예를 들어, 사용자의 입과 같은 원하는 소스, 또는 다른 화자와 같은 간섭성 소스) 간의 거리에 따라 신호 컴포넌트들을 구별하는 것이 바람직할 수도 있다.

불행히도, 휴대용 오디오 감지 디바이스의 치수들은 통상적으로 너무 작아서, 효과적인 음향 레인징을 지원하기에 충분히 큰 마이크로폰 간격을 허용할 수 없다. 더욱이, 마이크로폰 어레이로부터 범위 정보를 획득하는 방법들은 통상적으로, 마이크로폰들 간의 이득 차이들을 측정하는 것에 의존하고, 신뢰가능한 이득 차이 측정치들을 포착하는 것은 통상적으로, 서로에 대한 마이크로폰들의 이득 응답들의 교정을 수행하고 유지할 것을 요구한다.

4개 마이크로폰 헤드셋 기반 범위 선택형 음향 이미징 시스템이 설명된다. 제안된 시스템은 2개의 브로드사이드 장착식 마이크로폰 어레이들 (예를 들어, 쌍) 을 포함하고, 도달 방향 (DOA) 에 의해 및 범위에 의해 제한되는 사용자의 입 주위의 영역을 정의하기 위해 각각의 어레이로부터 방향성 정보를 사용한다. 도달 방향을 표시하기 위해 위상차들이 사용될 경우, 그러한 시스템은 서로에 대한 마이크로폰 이득들의 교정을 요구하지 않고도 범위에 따라 신호 컴포넌트들을 분리하도록 구성될 수도 있다. 그러한 시스템에 대한 어플리케이션들의 예들은 백그라운드 잡음으로부터 사용자의 음성을 추출하는 것, 및/또는 사용자의 전방, 후방, 및/또는 어느 하나의 측면에서 상이한 공간 영역들을 이미징하는 것을 포함한다.

그 문맥에 의해 명확하게 제한되지 않으면, 용어 "신호" 는 와이어, 버스, 또는 다른 송신 매체 상에서 표현되는 바와 같은 메모리 위치 (또는 메모리 위치들의 세트) 의 상태를 포함하여, 임의의 그 통상의 의미를 나타내도록 본 명세서에서 사용된다. 그 문맥에 의해 명확하게 제한되지 않으면, 용어 "발생하는" 은 산출하는 또는 그렇지 않으면 생성하는과 같이 임의의 그 통상의 의미를 나타내도록 본 명세서에서 사용된다. 그 문맥에 의해 명확하게 제한되지 않으면, 용어 "계산하는" 은 산출하는, 평가하는, 평활화하는, 및/또는 복수의 값들로부터 선택하는과 같이 임의의 그 통상의 의미를 나타내도록 본 명세서에서 사용된다. 그 문맥에 의해 명확하게 제한되지 않으면, 용어 "획득하는" 은 계산하는, 유도하는, (예를 들어, 외부 디바이스로부터) 수신하는, 및/또는 (예를 들어, 저장 엘리먼트들의 어레이로부터) 취출하는과 같이 임의의 그 통상의 의미를 나타내도록 사용된다. 그 문맥에 의해 명확하게 제한되지 않으면, 용어 "선택하는" 은 식별하는, 나타내는, 적용하는, 및/또는 2개 이상의 세트 중 적어도 하나 및 그 전부보다는 적게 이용하는과 같이 임의의 그 통상의 의미를 나타내도록 사용된다. 용어 "포함하는" 이 본 설명 및 청구항들에서 사용되는 경우, 그것은 다른 엘리먼트들 또는 동작들을 배제하지 않는다. 용어 ("A 는 B 에 기초한다"에서와 같이) "~에 기초하는" 은 케이스 (i) "~로부터 유도된" (예를 들어, "B 는 A 의 전구체이다"), 케이스 (ii) "적어도 ~에 기초하는" (예를 들어, "A 는 적어도 B 에 기초한다"), 및 특정 문맥에서 적당하면, 케이스 (iii) "~와 동일한" (예를 들어, "A 는 B 와 동일하다") 을 포함하여, 임의의 그 통상의 의미를 나타내도록 사용된다. 유사하게, 용어 "~에 응답하여" 는 "적어도 ~에 응답하여" 를 포함하여, 임의의 그 통상의 의미를 나타내도록 사용된다.

다중-마이크로폰 오디오 감지 디바이스의 마이크로폰의 "위치"에 대한 참조는, 문맥에 의해 달리 표시되지 않으면, 마이크로폰의 음향적으로 민감한 면의 중심의 위치를 나타낸다. 용어 "채널" 은 특정 문맥에 따라, 때때로, 신호 경로를 나타내기 위해, 그리고 다른 때에는, 그러한 경로에 의해 반송되는 신호를 나타내기 위해 사용된다. 달리 표시되지 않으면, 용어 "시리즈" 는 2개 이상의 아이템들의 시퀀스를 나타내도록 사용된다. 용어 "로그 (logarithm)" 는 밑이 10인 로그를 나타내도록 사용되지만, 그러한 동작의 다른 밑으로의 확장들은 본 개시의 범위 내에 있다. 용어 "주파수 컴포넌트" 는 신호 또는 신호의 하위대역 (예를 들어, 바크 스케일 또는 멜 스케일 하위대역) 의 (예를 들어, 고속 푸리에 변환에 의해 생성된 바와 같은) 주파수 도메인 표현의 샘플과 같이 신호의 주파수들 또는 주파수 대역들의 세트 중 하나를 나타내도록 사용된다.

달리 표시되지 않으면, 특정한 특징을 갖는 장치의 동작의 임의의 개시는 또한 유사한 특징을 갖는 방법을 개시하도록 명확하게 의도되고 (그 역도 성립), 특정 구성에 따른 장치의 동작의 임의의 개시는 또한 유사한 구성에 따른 방법을 개시하도록 명확하게 의도된다 (그 역도 성립). 용어 "구성" 은 그 특정 문맥에 의해 나타낸 바와 같은 방법, 장치, 및/또는 시스템을 참조하여 사용될 수도 있다. 용어 "방법", "프로세스", "절차", 및 "기술" 은, 특정 문맥에 의해 달리 표시되지 않으면, 일반적이고 상호대체가능하게 사용된다. 용어 "장치" 및 "디바이스" 는 또한, 특정 문맥에 의해 달리 표시되지 않으면, 일반적이고 상호대체가능하게 사용된다. 용어 "엘리먼트" 및 "모듈" 은 통상적으로, 더 큰 구성의 일부를 나타내도록 사용된다. 그 문맥에 의해 명확하게 제한되지 않으면, 용어 "시스템" 은 "공통의 목적을 제공하도록 상호작용하는 엘리먼트들의 그룹" 을 포함하여 임의의 그 통상의 의미를 나타내도록 본 명세서에서 사용된다. 문서의 일부의 참조에 의한 임의의 통합은 또한, 그 일부 내에서 참조되는 용어 또는 변수의 정의들을 통합하도록 이해되어야 하며, 여기서, 그러한 정의들은 그 문서의 다른 곳뿐 아니라 통합된 부분에서 참조된 임의의 도면들에서 나타난다.

용어 "코더", "코덱", 및 "코딩 시스템" 은 (가능하게는, 인지적 가중 및/또는 다른 필터링 동작과 같은 하나 이상의 프리-프로세싱 동작들 이후) 오디오 신호의 프레임들을 수신 및 인코딩하도록 구성된 적어도 하나의 인코더, 및 그 프레임들의 디코딩된 표현들을 생성하도록 구성된 대응하는 디코더를 포함하는 시스템을 나타내도록 상호대체가능하게 사용된다. 그러한 인코더 및 디코더는 통상적으로, 통신 링크의 대향 단자들에 배치된다. 전이중 통신을 지원하기 위해, 인코더 및 디코더 양자의 인스턴스들은 통상적으로, 그러한 링크의 각각의 단부에 배치된다.

이 설명에 있어서, 용어 "감지된 오디오 신호" 는 하나 이상의 마이크로폰들을 통해 수신된 신호를 나타내고, 용어 "재생된 오디오 신호" 는, 다른 디바이스로의 유선 또는 무선 접속을 통해 수신되고/되거나 저장부로부터 취출된 정보로부터 재생된 신호를 나타낸다. 통신 또는 플레이백 디바이스와 같은 오디오 재생 디바이스는 재생된 오디오 신호를 그 디바이스의 하나 이상의 확성기들로 출력하도록 구성될 수도 있다. 대안적으로, 그러한 디바이스는 재생된 오디오 신호를, 와이어를 통해 또는 무선으로 디바이스에 커플링되는 이어피스, 다른 헤드셋, 또는 외부 확성기로 출력하도록 구성될 수도 있다. 전화와 같은 음성 통신용 트랜시버 어플리케이션들을 참조하면, 감지된 오디오 신호는 트랜시버에 의해 송신될 근접단 신호이고, 재생된 오디오 신호는 (예를 들어, 무선 통신 링크를 통해) 트랜시버에 의해 수신되는 원단 신호이다. 기록된 음악, 비디오, 또는 스피치 (예를 들어, MP3 인코딩된 음악 파일들, 영화들, 비디오 클립들, 오디오북들, 팝캐스트들) 의 플레이백, 또는 그러한 컨텐츠의 스트리밍과 같은 모바일 오디오 재생 어플리케이션들을 참조하면, 재생된 오디오 신호는 플레이백되고 스트리밍되는 오디오 신호이다.

도 3a 는 마이크로폰 어레이의 좌측 인스턴스 (R100L) 및 우측 인스턴스 (R100R) 를 포함하는 일반적인 구성에 따른 시스템 (S100) 의 블록 다이어그램을 도시한 것이다. 시스템 (S100) 은 또한, 좌측 마이크로폰 어레이 (R100L) 에 의해 생성된 다중채널 신호 (SL10, SL20) 로부터의 정보 및 우측 마이크로폰 어레이 (R100R) 에 의해 생성된 다중채널 신호 (SR10, SR20) 로부터의 정보에 기초하여 입력 오디오 신호 (SI10) 를 프로세싱하여, 오디오 출력 신호 (SO10) 를 생성하도록 구성된 장치 (A100) 를 포함한다.

시스템 (S100) 은 장치 (A100) 가 와이어들 또는 다른 도전성 경로들을 통해 마이크로폰들 (ML10, ML20, MR10, 및 MR20) 각각에 커플링되도록 구현될 수도 있다. 대안적으로, 시스템 (S100) 은 장치 (A100) 가 마이크로폰 쌍들 중 하나 (예를 들어, 이 마이크로폰 쌍과 동일한 이어컵 내에 위치됨) 에 도전성으로 커플링되고 다른 마이크로폰 쌍에 무선으로 커플링되도록 구현될 수도 있다. 대안적으로, 시스템 (S100) 은 장치 (A100) 가 마이크로폰들 (ML10, ML20, MR10, 및 MR20) 에 무선으로 커플링되도록 (예를 들어, 장치 (A100) 가 핸드셋, 스마트폰, 또는 랩탑이나 태블릿 컴퓨터와 같은 휴대용 오디오 감지 디바이스 내에 구현되도록) 구현될 수도 있다.

마이크로폰들 (ML10, ML20, MR10, 및 MR20) 각각은 전방향성, 양방향성, 또는 단방향성 (예를 들어, 카디오이드) 인 응답을 가질 수도 있다. 마이크로폰들 (ML10, ML20, MR10, 및 MR20) 각각을 위해 사용될 수도 있는 다양한 타입들의 마이크로폰들은 압전 마이크로폰들, 다이나믹 마이크로폰들, 및 일렉트릿 마이크로폰들을 (제한없이) 포함한다.

도 3b 는 시스템 (S100) 의 사용 동안 마이크로폰들의 상대적인 배치들의 일 예를 도시한 것이다. 이 예에 있어서, 좌측 마이크로폰 어레이의 마이크로폰들 (ML10 및 ML20) 은 사용자 머리의 좌측에 위치되고, 우측 마이크로폰 어레이의 마이크로폰들 (MR10 및 MR20) 은 사용자 머리의 우측에 위치된다. 도 3b 에 도시된 바와 같이, 마이크로폰 어레이들의 축들이 사용자의 정면 방향에 대해 브로드사이드이도록 마이크로폰 어레이들을 배향시키는 것이 바람직할 수도 있다. 각각의 마이크로폰 어레이는, 통상적으로 사용자의 각각의 귀에 착용되지만, 각각의 어레이의 하나 이상의 마이크로폰들이 사용자의 어깨에서와 같은 다른 위치에 착용되는 것이 또한 가능하다. 예를 들어, 각각의 마이크로폰 어레이는 사용자의 각각의 어깨 상에 착용되도록 구성될 수도 있다.

각각의 마이크로폰 어레이의 마이크로폰들 사이의 (예를 들어, ML10 과 ML20 사이, 및 MR10 과 MR20 사이의) 간격은 약 2 센티미터로부터 약 4 센티미터까지의 (또는 심지어 5 또는 6 센티미터 까지의) 범위인 것이 바람직할 수도 있다. 디바이스 사용 동안 좌측 및 우측 마이크로폰 어레이들 사이의 간격은 두 귀 사이 거리 (즉, 사용자의 이도의 개구들 사이의 공간에 있어서 직선을 따른 거리) 와 적어도 동일한 것이 바람직할 수도 있다. 예를 들어, 각각의 어레이의 내부 마이크로폰들 사이의 (즉, 마이크로폰들 (ML10 과 MR10) 사이의) 거리는 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 또는 22 센티미터 이상인 것이 바람직할 수도 있다. 그러한 마이크로폰 배치들은 도달 방향의 원하는 범위에 걸쳐 잡음 감소 성능의 만족스러운 레벨을 제공할 수도 있다.

시스템 (S100) 은 사용자 머리에 걸쳐 착용될 밴드에 의해 조인된 이어컵들의 쌍과 같은 헤드폰들의 쌍을 포함하도록 구현될 수도 있다. 도 4a 는 (예를 들어, 무선으로 수신된 신호로부터 또는 코드를 통해 플레이백 또는 스트리밍 디바이스로의) 음향 신호를 사용자 귀에 생성하도록 배열되는 마이크로폰들 (MR10 및 MR20) 및 확성기 (LSR10) 를 포함하는 이어컵의 우측 인스턴스 (ECR10) 의 수평 단면도를 도시한 것이다. 확성기로부터 이어컵의 구조를 통해 기계적 진동들을 수신하는 것으로부터 마이크로폰들을 격리하는 것이 바람직할 수도 있다. 이어컵 (ECR10) 은 수프라-오럴형 (즉, 사용 동안 사용자의 귀 상부에 있지만 귀를 다 에워싸지는 않는 것) 이거나 귀덮개식 (즉, 사용 동안 사용자의 귀를 다 에워싸는 것) 이도록 구성될 수도 있다. 이어컵 (ECR10) 의 다른 구현에 있어서, 외부 마이크로폰 (MR20) 이, 사용자의 머리로부터 이격된 이어컵으로부터 연장하는 받침대 또는 다른 돌출부 상에 장착될 수도 있다.

시스템 (S100) 은 사용자의 귀 각각에 대한 그러한 이어컵의 인스턴스를 포함하도록 구현될 수도 있다. 예를 들어, 도 5a 및 도 5b 는 이어컵 (ECR10) 의 좌측 인스턴스 (ECL10) 및 밴드 (BD10) 를 또한 포함하는 헤드폰들의 쌍으로서 시스템 (S100) 의 일 구현의 통상적인 사용 케이스의 상면도 및 정면도를 각각 도시한 것이다. 도 4b 는 마이크로폰들 (MR10 및 MR20) 이 이어컵 하우징의 곡면부를 따라 배치되는 이어컵 (ECR20) 의 수평 단면도를 도시한 것이다. 이 특정 예에 있어서, 마이크로폰들은 (도 5a 및 도 5b 에 도시된 바와 같이) 사용자 머리의 정중시상면으로부터 이격되게 약간 상이한 방향들로 배향된다. 이어컵 (ECR20) 은 또한, 하나 (예를 들어, MR10) 또는 양자의 마이크로폰들이 (예를 들어, 도 4a 에서와 같이) 사용자 머리의 정중시상면에 평행인 방향으로 사용 동안 배향하도록, 또는 양자의 마이크로폰들이 이 평면을 향하거나 이 평면으로부터 이격된 동일한 작은 각 (예를 들어, 45도 이하) 으로 사용 동안 배향되도록 구현될 수도 있다. (본 명세서에서 설명된 다양한 우측 이어컵들의 좌측 인스턴스들이 유사하게 구성됨을 이해할 것이다).

도 4c 는 환경적 사운드를 수신하도록 지향된 제 3 마이크로폰 (MR30) 을 포함하는 이어컵 (ECR10) 의 일 구현 (ECR12) 의 수평 단면도를 도시한 것이다. 어레이들 (R100L 및 R100R) 중 하나 또는 그 양자가 2개 초과의 마이크로폰들을 포함하는 것이 또한 가능하다.

마이크로폰 쌍 (ML10, ML20) 의 축 (즉, 그 쌍의 각각의 마이크로폰의 민감한 면들의 중심들을 통과하는 라인) 이 시스템의 사용 동안 사용자 머리의 정중시상면에 일반적으로 수직인 것이 바람직할 수도 있다. 유사하게, 마이크로폰 쌍 (MR10, MR20) 의 축이 시스템의 사용 동안 사용자 머리의 정중시상면에 일반적으로 수직인 것이 바람직할 수도 있다. 예를 들어, 마이크로폰 쌍 (ML10, ML20) 의 축 및 마이크로폰 쌍 (MR10, MR20) 의 축 각각이 시스템의 사용 동안 사용자 머리의 정중시상면에 수직으로부터 15도, 20도, 25도, 30도, 또는 45도 이하가 되도록 시스템 (S100) 을 구성하는 것이 바람직할 수도 있다. 도 6a 는 사용자 머리의 관상면에 있어서의 다양한 그러한 범위들의 예들을 도시한 것이고, 도 6b 는 정중시상면 및 관상면들에 수직인 횡단면에 있어서의 동일한 범위들의 예들을 도시한 것이다.

허용가능한 각도들의 그러한 범위의 플러스 및 마이너스 한계들이 동일할 필요는 없음을 유의한다. 예를 들어, 시스템 (S100) 은 마이크로폰 쌍 (ML10, ML20) 의 축 및 마이크로폰 쌍 (MR10, MR20) 의 축 각각이 시스템의 사용 동안 사용자 머리의 정중시상면에 수직으로부터, 사용자 머리의 관상면에서 플러스 15도 이하 및 마이너스 30도 이하이도록 구현될 수도 있다. 대안적으로 또는 부가적으로, 시스템 (S100) 은 마이크로폰 쌍 (ML10, ML20) 의 축 및 마이크로폰 쌍 (MR10, MR20) 의 축 각각이 시스템의 사용 동안 사용자 머리의 정중시상면에 수직으로부터, 사용자 머리의 횡단면에서 플러스 30도 이하 및 마이너스 15도 이하이도록 구현될 수도 있다.

도 7a 는 이어컵 (ECR10) 상의 마이크로폰 쌍 (MR10, MR20) 에 대한 배치들의 3개의 예들 (여기서, 각각의 배치는 점선 타원으로 나타냄), 및 이어컵 (ECL10) 상의 마이크로폰 쌍 (ML10, ML20) 에 대한 배치들의 대응하는 예들을 도시한 것이다. 이들 마이크로폰 쌍들 각각은 또한, 상기 언급된 임의의 간격 제약 및 직교성 제약에 따라, 사용 동안 사용자의 신체의 또다른 부분 상에 착용될 수도 있다. 도 7a 는 마이크로폰 쌍 (MR10, MR20) 에 대한 그러한 대안적인 배치들의 2개의 예들(즉, 사용자의 어깨에 및 사용자의 가슴의 상위부 상에의 배치), 및 마이크로폰 쌍 (ML10, ML20) 에 대한 배치들의 대응하는 예들을 도시한 것이다. 그러한 경우, 각각의 마이크로폰 쌍은 사용자의 의복에 (예를 들어, Velcro^R 또는 유사한 착탈가능 패스너를 이용하여) 부착될 수도 있다. 도 7b 는, 각각의 쌍의 축이 사용자 머리의 정중시상면에 수직으로부터 사용자 머리의 관상면에 있어서 약간의 네거티브 기울기를 갖는 도 7a 에 도시된 배치의 예들을 도시한다.

마이크로폰들 (ML10, ML20, MR10, 및 MR20) 이 상기 언급된 임의의 간격 제약 및 직교성 제약에 따라 장착될 수도 있는 시스템 (S100) 의 다른 구현들은 헬멧 상과 같은 원형 배열을 포함한다. 예를 들어, 내부 마이크로폰들 (ML10, MR10) 은 그러한 헬멧의 바이저 상에 장착될 수도 있다.

본 명세서에서 설명된 바와 같은 다중-마이크로폰 오디오 감지 디바이스의 동작 동안, 마이크로폰 어레이 (R100) 의 각 인스턴스는, 각각의 채널이 음향 환경에 대한 마이크로폰들 중 대응하는 마이크로폰의 응답에 기초하는 다중채널 신호를 생성한다. 단일 마이크로폰을 사용해서 포착될 수 있는 것보다 음향 환경의 더 완전한 표현을 집합적으로 제공하기 위해 대응하는 채널들이 서로 상이하도록, 하나의 마이크로폰은 특정 사운드를 다른 마이크로폰보다 더 직접적으로 수신할 수도 있다.

어레이는, 마이크로폰들에 의해 생성된 신호들에 대한 하나 이상의 프로세싱 동작들을 수행하여 대응하는 다중채널 신호를 생성하는 것이 바람직할 수도 있다. 예를 들어, 도 8a 는, 각각의 채널이 음향 신호에 대한 대응하는 마이크로폰의 응답에 기초하는 다중채널 신호를 생성하기 위해 임피던스 매칭, 아날로그-디지털 변환, 이득 제어, 및/또는 아날로그 및/또는 디지털 도메인들에서의 필터링을 (제한 없이) 포함할 수도 있는 하나 이상의 그러한 동작들을 수행하도록 구성된 오디오 전처리 스테이지 (AP10) 를 포함하는 어레이 (R100R) 의 일 구현 (R200R) 의 블록 다이어그램을 도시한 것이다. 어레이 (R100L) 가 유사하게 구현될 수도 있다.

도 8b 는 어레이 (R200R) 의 일 구현 (R210R) 의 블록 다이어그램을 도시한 것이다. 어레이 (R210R) 는, 아날로그 전처리 스테이지들 (P10a 및 P10b) 를 포함하는 오디오 전처리 스테이지 (AP10) 의 일 구현 (AP20) 을 포함한다. 일 예에 있어서, 스테이지들 (P10a 및 P10b) 는 대응하는 마이크로폰 신호에 대한 (예를 들어, 50, 100, 또는 200Hz 의 컷오프 주파수로) 고역통과 필터링 동작을 수행하도록 각각 구성된다. 어레이 (R100L) 가 유사하게 구현될 수도 있다.

어레이들 (R100L 및 R100R) 각각이 대응하는 다중채널 신호를 디지털 신호로서, 즉, 샘플들의 시퀀스로서 생성하는 것이 바람직할 수도 있다. 어레이 (R210R) 는 예를 들어, 대응하는 아날로그 채널을 샘플링하도록 각각 배열되는 아날로그-디지털 변환기들 (ADCs; C10a 및 C10b) 을 포함한다. 음향 어플리케이션들에 대한 통상의 샘플링 레이트들은, 약 44.1, 48, 또는 192 kHz 와 같이 높은 샘플링 레이트들이 또한 사용될 수도 있지만, 8kHz, 12kHz, 16kHz, 및 약 8kHz 로부터 약 16kHz 까지의 범위의 다른 주파수들을 포함한다. 이러한 특정 예에 있어서, 어레이 (R210R) 는 또한, 대응하는 디지털화된 채널에 대한 하나 이상의 전처리 동작들 (예를 들어, 에코 소거, 잡음 감소, 및/또는 스펙트럼 셰이핑) 을 수행하여 다중채널 신호 (MCS10R) 의 대응하는 채널들 (SR10, SR20) 을 생성하도록 각각 구성되는 디지털 전처리 스테이지들 (P20a 및 P20b) 을 포함한다. 어레이 (R100L) 가 유사하게 구현될 수도 있다.

도 9a 는, 방향 표시 계산기의 인스턴스들 (DC10L 및 DC10R) 을 포함하는 장치 (A100) 의 일 구현 (A110) 의 블록 다이어그램을 도시한 것이다. 계산기 (DC10L) 는 좌측 마이크로폰 어레이 (R100L) 에 의해 생성된 다중채널 신호 (좌측 채널들 (SL10 및 SL20) 을 포함) 에 대한 방향 표시 (DI10L) 를 계산하고, 계산기 (DC10R) 는 우측 마이크로폰 어레이 (R100R) 에 의해 생성된 다중채널 신호 (우측 채널들 (SR10 및 SR20) 을 포함) 에 대한 방향 표시 (DI10R) 를 계산한다.

방향 표시들 (DI10L 및 DI10R) 각각은 대응하는 어레이에 대한 대응하는 다중채널 신호의 사운드 컴포넌트의 도달 방향 (DOA) 을 나타낸다. 계산기들 (DC10L 및 DC10R) 의 특정 구현에 의존하여, 방향 표시자는 내부 마이크로폰의 위치에 대한, 외부 마이크로폰의 위치에 대한, 또는 그 위치들 사이에 있는 대응하는 어레이 축 상의 다른 레퍼런스 포인트 (예를 들어, 마이크로폰 위치들 사이의 중점) 에 대한 DOA 를 나타낼 수도 있다. 방향 표시들의 예들은 이득 차이 또는 비율, 도달 시간차, 위상차, 및 위상차와 주파수 간의 비율을 포함한다. 장치 (A110) 는 또한, 방향 표시들 (DI10L 및 DI10R) 의 값들에 따라 입력 오디오 신호 (SI10) 의 이득을 제어하도록 구성된 이득 제어 모듈 (GC10) 을 포함한다.

방향 표시 계산기들 (DC10L 및 DC10R) 각각은 대응하는 다중채널 신호를 세그먼트들의 시리즈로서 프로세싱하도록 구성될 수도 있다. 예를 들어, 방향 표시 계산기들 (DC10L 및 DC10R) 각각은 대응하는 다중채널 신호의 세그먼트들의 시리즈 각각에 대한 방향 표시자를 계산하도록 구성될 수도 있다. 통상의 세그먼트 길이들은 약 5 또는 10 밀리초로부터 약 40 또는 50 밀리초까지 레인징하고, 세그먼트들은 중첩형 (예를 들어, 인접 세그먼트들이 25% 또는 50%만큼 중첩함) 또는 비중첩형일 수도 있다. 하나의 특정 예에 있어서, 다중채널 신호는 비중첩 세그먼트들 또는 "프레임들"의 시리즈로 분할되고, 각각은 10 밀리초의 길이를 갖는다. 다른 특정 예에 있어서, 각각의 프레임은 20 밀리초의 길이를 가진다. DOA 추정 동작에 의해 프로세싱된 세그먼트는 또한, 다른 오디오 프로세싱 동작에 의해 프로세싱됨에 따라 더 큰 세그먼트의 세그먼트 (즉, "서브프레임") 일 수도 있고, 그 역도 성립한다.

계산기들 (DC10L 및 DC10R) 은 수개의 상이한 DOA 추정 기술들 중 임의의 하나 이상을 수행하여 방향 표시들을 생성하도록 구성될 수도 있다. 소스 DOA 의 추정치들을 유사한 공간적 분해능으로 생성하도록 기대될 수도 있는 DOA 추정을 위한 기술들은 이득 차이 기반 방법들 및 위상차 기반 방법들을 포함한다. (예를 들어, 다중채널 신호의 채널들 간의 래그를 계산하고 그 래그를 도달 시간차로서 이용하여 DOA 를 결정하는) 크로스-상관 기반 방법들이 또한 일부 경우에 있어서 유용할 수도 있다.

본 명세서에서 설명된 바와 같이, 방향 계산기들 (DC10L 및 DC10R) 은 시간 도메인에서 또는 주파수 도메인 (예를 들어, FFT, DCT, 또는 MDCT 도메인과 같은 변환 도메인) 에서 대응하는 다중채널 신호에 대한 DOA 추정을 수행하도록 구현될 수도 있다. 도 9b 는, 각각이 고속 푸리에 변환 (FFT) 또는 변형된 이산 코사인 변환 (MDCT) 과 같은 대응하는 채널의 주파수 변환을 계산하도록 구성되는 변환 모듈의 4개의 인스턴스들 (XM10L, XM20L, XM10R, 및 XM20R) 을 포함하는 장치 (A110) 의 일 구현 (A120) 의 블록 다이어그램을 도시한 것이다. 장치 (A120) 는 또한, 변환 도메인에 있어서 대응하는 채널들에 대해 수신 및 동작하도록 구성되는, 각각, 방향 표시 계산기들 (DC10L 및 DC10R) 의 구현들 (DC12L 및 DC12R) 을 포함한다.

이득 차이 기반 방법은, 다중채널 신호의 채널들에 기초하는 신호들의 이득들 간의 차이에 기초하여 DOA 를 추정한다. 예를 들어, 계산기들 (DC10L 및 DC10R) 의 그러한 구현들은 다중채널 신호의 상이한 채널들의 이득들 간의 차이 (예를 들어, 크기 또는 에너지에서의 차이) 에 기초하여 DOA 를 추정하도록 구성될 수도 있다. 다중채널 신호의 세그먼트의 이득의 측정치들은 시간 도메인에서 또는 주파수 도메인 (예를 들어, FFT, DCT, 또는 MDCT 도메인과 같은 변환 도메인) 에서 계산될 수도 있다. 그러한 이득 측정치들의 예들은 다음을 제한없이 포함한다: 즉, 총 크기 (예를 들어, 샘플 값들의 절대값들의 합), 평균 크기 (예를 들어, 샘플 당), RMS 진폭, 메디안 크기, 피크 크기, 피크 에너지, 총 에너지 (예를 들어, 샘플 값들의 제곱의 합), 및 평균 에너지 (예를 들어, 샘플 당). 이득 차이 기술로 정확한 결과들을 획득하기 위해, 2개의 마이크로폰 채널들의 응답들이 서로에 대해 교정되는 것이 바람직할 수도 있다. 이득 측정치의 계산이 다중채널 신호의 오디오-주파수 컴포넌트에 제한되도록 다중채널 신호에 저역통과 필터를 적용하는 것이 바람직할 수도 있다.

방향 계산기들 (DC10L 및 DC10R) 은 이득들 간의 차이를, 로그 도메인 (예를 들어, 데시벨 단위의 값들) 에서의 각각의 채널에 대한 대응하는 이득 측정값들 간의 차이로서, 또는 등가적으로, 선형 도메인에서의 이득 측정값들 간의 비율로서 계산하도록 구현될 수도 있다. 교정된 마이크로폰 쌍에 있어서, 제로의 이득 차이는 소스가 각각의 마이크로폰으로부터 등거리임 (즉, 그 쌍의 브로드사이드 방향으로 위치됨) 을 나타내도록 취해질 수도 있고, 큰 포지티브 값을 갖는 이득 차이는 소스가 하나의 마이크로폰에 더 근접함 (즉, 그 쌍의 하나의 엔드파이어 방향으로 위치됨) 을 나타내도록 취해질 수도 있으며, 큰 네거티브 값을 갖는 이득 차이는 소스가 다른 마이크로폰에 더 근접함 (즉, 그 쌍의 다른 엔드파이어 방향으로 위치됨) 을 나타내도록 취해질 수도 있다.

도 10a 는, 세그먼트 (n) 에 대한 이득 차이 (GD[n]) 와 이득 차이 임계값 (T_L) 간의 관계의 상태에 따라 3개의 공간 섹터들 (즉, 엔드파이어 섹터 1, 브로드사이드 섹터 2, 및 엔드파이어 섹터 3) 중 하나를 선택함으로써, 방향 계산기 (DC1OR) 가 마이크로폰 쌍 (MR10 및 MR20) 에 대한 소스의 DOA 를 추정하는 예를 도시한 것이다. 도 10b 는 이득 차이 (GD[n]) 와 제 1 이득 차이 임계값 (T_L1) 간의 관계의 상태 및 이득 차이 (GD[n]) 와 제 2 이득 차이 임계값 (T_L2) 간의 관계의 상태에 따라 5개의 공간 섹터들 중 하나를 선택함으로써, 방향 계산기 (DC1OR) 가 마이크로폰 쌍 (MR10 및 MR20) 에 대한 소스의 DOA 를 추정하는 예를 도시한 것이다.

다른 예에 있어서, 방향 계산기들 (DC10L 및 DC10R) 은, 다중채널 신호로부터 (예를 들어, 다중채널 신호의 오디오-주파수 컴포넌트로부터) 생성된 빔들 사이의 이득에서의 차이에 기초한 이득 차이 기반 방법을 사용하여 소스의 DOA 를 추정하도록 구현된다. 계산기들 (DC10L 및 DC10R) 의 그러한 구현들은 원하는 방향 범위 (예를 들어, 10도 증분, 30도 증분, 또는 45도 증분에서의 180도) 에 걸친 대응하는 빔 세트를 생성하기 위해 고정된 필터들의 세트를 사용하도록 구성될 수도 있다. 일 예에 있어서, 그러한 접근법은 고정된 필터들 각각을 다중채널 신호에 적용하고, 최고의 출력 에너지를 나타내는 빔의 관측 방향으로서 (예를 들어, 각각의 세그먼트에 대해) DOA 를 추정한다.

도 11a 는, 각각의 빔들 (B10a, B10b, 및 B10n) 을 생성하기 위해 다중채널 신호 (S10) 를 필터링하도록 배열된 고정된 필터들 (BF10a, BF10b, 및 BF10n) 을 포함하는 방향 표시 계산기 (DC10R) 의 그러한 구현 (DC20R) 의 일 예의 블록 다이어그램을 도시한 것이다. 계산기 (DC20R) 는 또한, 가장 큰 에너지를 갖는 빔에 따라 방향 표시 (DI10R) 를 생성하도록 구성된 비교기 (CM10) 를 포함한다. 고정된 필터들을 생성하기 위해 사용될 수도 있는 빔형성 접근법들의 예들은 일반화된 사이드로브 소거 (GSC), 최소 분산 무왜곡 응답 (MVDR), 및 선형적으로 제약된 최소 분산 (LCMV) 빔형성기들을 포함한다. 고정된 필터들을 생성하기 위해 사용될 수도 있는 빔 생성 접근법들의 다른 예들은, 간섭성 포인트 소스들을 향해 널 빔들을 스티어링함으로써 동작하는 독립 컴포넌트 분석 (ICA) 및 독립 벡터 분석 (IVA) 과 같은 블라인드 소스 분리 (BSS) 방법들을 포함한다.

도 12 및 도 13 은, 각각, 1500 Hz 및 2300 Hz 에서 3개의 마이크로폰들의 어레이에 대한 빔형성기 빔 패턴들 (점선) 및 4개의 마이크로폰들의 어레이에 대한 빔형성기 빔 패턴들 (실선) 의 예들을 도시한 것이다. 이들 도면들에 있어서, 좌상부 플롯 (A) 은 약 60 도의 관측 방향을 갖는 빔형성기에 대한 패턴을 나타내고, 저부 중앙 플롯 (B) 은 약 90 도의 관측 방향을 갖는 빔형성기에 대한 패턴을 나타내고, 우상부 플롯 (C) 은 약 120 도의 관측 방향을 갖는 빔형성기에 대한 패턴을 나타낸다. (예를 들어, 약 3.5cm 의 인접 마이크로폰들 간의 간격을 갖는) 선형 어레이에 배열된 3개 또는 4개의 마이크로폰들의 빔형성은 약 10 내지 20 도의 공간 대역폭 구별을 획득하는데 사용될 수도 있다. 도 10c 는 비대칭 어레이에 대한 빔 패턴의 예를 도시한 것이다.

추가 예에 있어서, 방향 계산기들 (DC10L 및 DC10R) 은, 다중채널 출력을 생성하기 위해 (예를 들어, 상기 설명된 바와 같은 빔형성 또는 BSS 방법을 이용하여) 다중채널 신호로부터 생성된 빔들의 채널들 사이의 이득에서의 차이에 기초한 이득 차이 기반 방법을 사용하여 소스의 DOA 를 추정하도록 구현된다. 예를 들어, 고정된 필터는, 특정 방향 또는 소스 (예를 들어, 관측 방향) 로부터 도달하는 에너지를 하나의 출력 채널에 집중하고/하거나 다른 방향 또는 소스로부터 도달하는 에너지를 다른 출력 채널에 집중함으로써 그러한 빔을 생성하도록 구성될 수도 있다. 그러한 경우, 이득 차이 기반 방법은, 그 출력 채널들 사이의 에너지에서의 가장 큰 차이를 갖는 빔의 관측 방향으로서 DOA 를 추정하도록 구현될 수도 있다.

도 11b 는 (예를 들어, 각각의 관측 방향에 대응하는) 신호 채널들 (B20as, B20bs, 및 B20ns) 및 잡음 채널들 (B20an, B20bn, 및 B20nn) 을 갖는 각각의 빔들을 생성하기 위해 다중채널 신호 (S10) 를 필터링하도록 배열되는 고정된 필터들 (BF20a, BF20b, 및 BF20n) 을 포함하는 방향 표시 계산기 (DC10R) 의 일 구현 (DC30R) 의 블록 다이어그램을 도시한 것이다. 계산기 (DC30R) 은 또한, 각각의 빔에 대한 신호대 잡음비 (SNR) 를 계산하도록 배열된 계산기들 (CL20a, CL20b, 및 CL20n), 및 가장 큰 SNR 을 갖는 빔에 따라 방향 표시 (DI10R) 을 생성하도록 구성된 비교기 (CM20) 를 포함한다.

방향 표시 계산기들 (DC10L 및 DC10R) 은 또한, BSS 유니믹싱 매트릭스 (W) 및 마이크로폰 간격을 직접 이용함으로써 DOA 추정치를 획득하도록 구현될 수도 있다. 그러한 기술은, 분리된 소스 신호들의 배면-투사를 이용하고, 유니믹싱 매트릭스 (W) 의 인버스 (예를 들어, 무어-펜로즈 의사-인버스) 다음에 배면-투사된 데이터에 대한 단일 소스 DOA 추정을 이용함으로써 (예를 들어, 각각의 소스-마이크로폰 쌍에 대한) 소스 DOA 를 추정하는 것을 포함할 수도 있다. 그러한 DOA 추정 방법은 통상적으로, 마이크로폰 이득 응답 교정에서의 에러들에 강인하다. BSS 유니믹싱 매트릭스 (W) 는 m개의 마이크로폰 신호들 (X₁ 내지 X_M) 에 적용되고, 배면-투사될 소스 신호 (Y_j) 는 매트릭스 (W) 의 출력들 중으로부터 선택된다. 각각의 소스-마이크로폰 쌍에 대한 DOA 는 GCC-PHAT 또는 SRP-PHAT 와 같은 기술을 이용하여 배면-투사된 신호들로부터 산출될 수도 있다. 최대 가능도 및/또는 다중 신호 분류 (MUSIC) 알고리즘이 또한, 소스 국부화를 위해 배면-투사된 신호들에 적용될 수도 있다. 상기 설명된 배면-투사 방법들은 도 14 에 도시되어 있다.

대안적으로, 방향 계산기들 (DC10L 및 DC10R) 은, 다중채널 신호의 상이한 채널들의 위상들 간의 차이에 기초하는 위상차 기반 방법을 이용하여 소스의 DOA 를 추정하도록 구현될 수도 있다. 그러한 방법들은, 크로스 파워 스펙트럼 밀도 벡터의 각각의 엘리먼트를 그 크기에 의해 정규화함으로써 계산될 수도 있는 (예를 들어, 다중채널 신호의 오디오-주파수 컴포넌트의) 다중채널 신호의 크로스 파워 스펙트럼 위상 (CPSP) 에 기초하는 기술들을 포함한다. 그러한 기술들의 예들은 GCC-PHAT (generalized cross-correlation with phase transform) 및 SRP-PHAT (steered response power-phase transform) 을 포함하고, 이들은 통상적으로 추정된 DOA 를 도달 시간차의 형태로 생성한다. 방향 표시 계산기들 (DC10L 및 DC10R) 의 위상차 기반 구현들의 하나의 잠재적인 이점은 통상적으로, 마이크로폰들의 이득 응답들 간의 불일치에 강인하다는 점이다.

다른 위상차 기반 방법들은, 검사될 복수의 주파수 컴포넌트들 각각에 대한 각각의 채널에서의 위상을 추정하는 것을 포함한다. 일 예에 있어서, 방향 표시 계산기들 (DC12L 및 DC12R) 은 주파수 컴포넌트의 FFT 계수의 실수항에 대한 주파수 컴포넌트의 FFT 계수의 허수항의 비율의 인버스 탄젠트 (또한 아크탄젠트라고도 지칭됨) 로서 주파수 컴포넌트의 위상을 추정하도록 구성된다. 1차 채널에서의 그 주파수 컴포넌트에 대한 추정된 위상을 다른 (예를 들어, 2차) 채널에서의 그 주파수 컴포넌트에 대한 추정된 위상으로부터 감산함으로써 검사될 각각의 주파수 컴포넌트에 대한 위상차 (

) 를 계산하도록 그러한 계산기를 구성하는 것이 바람직할 수도 있다. 그러한 경우, 1차 채널은, 디바이스의 통상의 사용 동안 사용자의 음성을 가장 직접적으로 수신하도록 기대되는 마이크로폰에 대응하는 채널과 같이, 최고의 신호대 잡음비를 갖도록 기대된 채널일 수도 있다.

DOA 추정 방법은 신호의 전체 대역폭에 걸친 위상차들을 고려하는 것이 불필요할 수도 있다. 광대역 범위 (예를 들어, 0 내지 8000 Hz) 에서의 다수의 대역들에 있어서, 예를 들어, 위상 추정은 비실용적이거나 불필요할 수도 있다. 매우 낮은 주파수들에서의 수신 파형의 위상 관계들의 실제 평가는 통상적으로, 트랜스듀서들 사이의 대응하여 큰 간격들을 요구한다. 따라서, 마이크로폰들 간의 최대 가용 간격은 저 주파수 한계를 확립할 수도 있다. 한편, 마이크로폰들 간의 거리는 공간적 에일리어싱을 회피하기 위해 최소 파장의 절반을 초과하지 않을 것이다. 예를 들어, 8 킬로헤르쯔 샘플링 레이트는 0 내지 4 킬로헤르쯔의 대역폭을 제공한다. 4kHz 신호의 파장이 약 8.5 센티미터이어서, 이 경우, 인접 마이크로폰들 간의 간격은 약 4 센티미터를 초과하지 않을 것이다. 마이크로폰 채널들은, 공간적 에일리어싱을 야기할 수도 있는 주파수들을 제거하기 위해 저역통과 필터링될 수도 있다.

스피치 신호의 기대된 주파수 범위와 같이 다중채널 신호의 제한된 오디오-주파수 범위에 걸쳐 DOA 추정을 수행하는 것이 바람직할 수도 있다. 하나의 그러한 예에 있어서, 방향 표시 계산기들 (DC12L 및 DC12R) 은, 사용자의 음성의 대부분의 에너지를 포함하도록 기대될 수도 있는 700 Hz 내지 2000 Hz 의 주파수 범위에 대한 위상차들을 계산하도록 구성된다. 4 킬로헤르쯔 대역폭 신호의 128 포인트 FFT 에 있어서, 700 내지 2000 Hz 의 범위는 10번째 샘플 내지 32번째 샘플의 23개 주파수 샘플들에 대략 대응한다. 추가의 예들에 있어서, 그러한 계산기는 약 50, 100, 200, 300, 또는 500 Hz 의 하한으로부터 약 700, 1000, 1200, 1500, 또는 2000 Hz 의 상한까지 (이들 하한 및 상한의 25개의 조합들 각각이 명확하게 고려되고 개시됨) 연장하는 주파수 범위에 걸친 위상차들을 계산하도록 구성된다.

음성화된 스피치 (예를 들어, 모음) 의 에너지 스펙트럼은 피치 주파수의 고조파에서 로컬 피크들을 갖는 경향이 있다. 한편, 백그라운드 잡음의 에너지 스펙트럼은 상대적으로 구조화되지 않은 경향이 있다. 따라서, 피치 주파수의 고조파에서의 입력 채널들의 컴포넌트들은 다른 컴포넌트들보다 더 높은 신호대 잡음비 (SNR) 를 갖도록 기대될 수도 있다. 추정된 피치 주파수의 배수들에 대응하는 위상차들을 지지하도록 방향 표시 계산기들 (DC12L 및 DC12R) 을 구성하는 것이 바람직할 수도 있다. 예를 들어, 계산된 위상차들의 적어도 25, 50, 또는 75 퍼센트 (가능하게는 모두) 가 추정된 피치 주파수의 배수들에 대응하거나, 또는 다른 것보다 그러한 컴포넌트들에 더 중하게 대응하는 방향 표시자들을 가중하는 것이 바람직할 수도 있다. 통상의 피치 주파수들은 남성 화자를 위한 약 70 내지 100 Hz 로부터 여성 화자를 위한 약 150 내지 200 Hz 까지 레인징하고, 피치 주파수의 현재 추정치 (예를 들어, 피치 주기 또는 "피치 래그" 의 추정치의 형태임) 는 통상적으로, 스피치 인코딩 및/또는 디코딩을 포함하는 어플리케이션들 (예를 들어, 코드 여기식 선형 예측 (CELP) 및 프로토타입 파형 보간 (PWI) 과 같이 피치 추정을 포함하는 코덱들을 이용한 음성 통신) 에서 이미 이용가능할 것이다. 동일한 원리가 다른 원하는 고조파 신호들에도 적용될 수도 있다. 역으로, 톤 신호들 (예를 들어, 알람, 전화 벨소리, 및 다른 전자적 알람) 과 같은 공지된 간섭자들에 대응하는 주파수 컴포넌트들을 무시하도록 방향 표시 계산기들 (DC12L 및 DC12R) 을 구성하는 것이 바람직할 수도 있다.

방향 표시 계산기들 (DC12L 및 DC12R) 은, 복수의 계산된 위상차들 각각에 대해, DOA 의 대응하는 표시를 계산하도록 구현될 수도 있다. 일 예에 있어서, 각각의 주파수 컴포넌트의 DOA (θ_i) 의 표시는 추정된 위상차 (

) 및 주파수 (f_i) 간의 비율 (r_i) (예를 들어,

) 로서 계산된다. 대안적으로, DOA (θ_i) 의 표시는 양

의 인버스 코사인 (또한 아크 코사인이라고도 지칭됨) 으로서 계산될 수도 있으며, 여기서, c 는 사운드의 속도 (대략 340 m/sec) 를 나타내고, d 는 마이크로폰들 간의 거리를 나타내고,

는 2개의 마이크로폰들에 대한 대응하는 위상 추정치들 간의 라디안 단위의 차이를 나타내며, f_i 는 위상 추정치들이 대응하는 주파수 컴포넌트 (예를 들어, 대응하는 FFT 샘플들의 주파수, 또는 대응하는 하위대역들의 중심 또는 에지 주파수) 이다. 대안적으로, 도달 방향 (θ_i) 의 표시는 양

의 인버스 코사인으로 계산될 수도 있으며, 여기서, λ_i 는 주파수 컴포넌트 (f_i) 의 파장을 나타낸다.

다른 예에 있어서, 방향 표시 계산기들 (DC12L 및 DC12R) 은, 복수의 계산된 위상차들 각각에 대해, 다중채널 신호의 대응하는 주파수 컴포넌트 (f_i) 의 도달 시간 지연 (τ_i; 예를 들어, 초 단위) 으로서 DOA 의 표시를 계산하도록 구현된다. 예를 들어, 그러한 방법은

또는

와 같은 식을 이용하여, 1차 마이크로폰에 관한 2차 마이크로폰에서의 도달 시간 지연 (τ_i) 을 추정하도록 구성될 수도 있다. 이러한 예들에 있어서, τ_i = 0 의 값은 브로드사이드 방향으로부터 도달하는 신호를 나타내고, τ_i 의 큰 포지티브 값은 레퍼런스 엔드파이어 방향으로부터 도달하는 신호를 나타내며, τ_i 의 큰 네거티브 값은 다른 엔드파이어 방향으로부터 도달하는 신호를 나타낸다. 값 τ_i 를 계산함에 있어서, 샘플링 주기들 (예를 들어, 8 kHz 의 샘플링 레이트에 대한 125 마이크로초의 단위들) 또는 초의 분수들 (예를 들어, 10^-3, 10^-4, 10^-5, 또는 10^-6 sec) 과 같이, 특정 어플리케이션에 대해 적절하게 간주되는 시간 단위를 사용하는 것이 바람직할 수도 있다. 시간 도메인에 있어서 각각의 채널의 주파수 컴포넌트들 (f_i) 을 크로스-상관시킴으로써 도달 시간 지연 (τ_i) 이 또한 계산될 수도 있음을 유의한다.

방향 표시 계산기들 (DC12L 및 DC12R) 은 프레임 (또는 하위대역) 의 DOA 를 대응하는 주파수 컴포넌트들의 DOA 표시자들의 평균 (예를 들어, 평균, 메디안, 또는 최빈수) 으로서 표시함으로써 위상차 기반 방법을 수행하도록 구현될 수도 있다. 대안적으로, 그러한 계산기들은 DOA 커버리지의 원하는 범위를 복수의 빈들로 (예를 들어, 0 내지 180 도의 범위에 대해 3, 4, 5, 6, 7, 8, 9, 10, 11, 또는 12개의 빈들의 고정된 방식으로) 분할하고 또한 값들이 각각의 빈 (즉, 빈 모집단) 내에 있는 대응하는 주파수 컴포넌트들의 DOA 표시자들의 수를 결정함으로써 프레임 (또는 하위대역) 의 DOA 를 표시하도록 구현될 수도 있다. 빈들이 동일하지 않은 대역폭들을 갖는 경우, 그러한 계산기는 대응하는 대역폭에 의해 각각의 빈 모집단을 정규화함으로써 빈 모집단 값들을 계산하는 것이 바람직할 수도 있다. 원하는 소스의 DOA 는 최고의 모집단 값을 갖는 빈에 대응하는 방향으로서, 또는 현재의 모집단 값이 가장 큰 콘트라스트를 갖는 빈 (예를 들어, 그 빈에 대한 모집단 값의 장기간 시간 평균으로부터의 가장 큰 상대적 크기만큼 상이함) 에 대응하는 방향으로서 표시될 수도 있다.

계산기들 (DC12L 및 DC12R) 의 유사한 구현들은 방향성 마스킹 함수들의 세트를 이용하여 DOA 커버리지의 원하는 범위를 복수의 공간 섹터들 (예를 들어, 0 내지 180 도의 범위에 대해 3, 4, 5, 6, 7, 8, 9, 10, 11, 또는 12개의 섹터들) 로 분할한다. 인접한 섹터들에 대한 방향성 마스킹 함수들은 중첩하거나 중첩하지 않을 수도 있으며, 방향성 마스킹 함수의 프로파일은 선형이거나 비선형일 수도 있다. 방향성 마스킹 함수는, 저지대역과 통과대역 간의 천이 또는 천이들의 선예도 (sharpness) 가 하나 이상의 팩터들 (예를 들어, 신호대 잡음비 (SNR), 잡음 플로어 등) 의 값들에 따라 동작 동안 선택가능하고/하거나 가변이도록 구현될 수도 있다. 예를 들어, 계산기는 SNR 이 낮을 경우에 더 좁은 통과대역을 사용하는 것이 바람직할 수도 있다.

섹터들은 서로 동일한 각도 폭 (예를 들어, 도 또는 라디안 단위) 을 가질 수도 있거나, 또는 섹터들 중 2 이상 (가능하게는, 그 모두) 은 서로 상이한 폭들을 가질 수도 있다. 도 15a 는, 3개의 중첩하는 섹터들의 세트가 마이크로폰 (MR10) 의 위치에 대한 위상차 기반 DOA 표시를 위해 마이크로폰들 (MR10 및 MR20) 에 대응하는 채널 쌍에 적용되는 계산기 (DC12R) 의 그러한 구현의 어플리케이션의 상면도를 도시한 것이다. 도 15b 는 5개의 섹터들의 세트 (여기서, 각각의 섹터에서의 화살표는 섹터 중심에서의 DOA 를 나타냄) 가 마이크로폰 쌍 (MR10, MR20) 의 축의 중점에 대한 위상차 기반 DOA 표시를 위해 마이크로폰들 (MR10 및 MR20) 에 대응하는 채널 쌍에 적용되는 계산기 (DC12R) 의 그러한 구현의 어플리케이션의 상면도를 도시한 것이다.

도 16a 내지 도 16d 는 방향성 마스킹 함수들의 개별적인 예들을 도시한 것이고, 도 17 은 3개의 방향성 마스킹 함수들의 2개의 상이한 세트들 (선형 대 곡선형 프로파일) 의 예들을 도시한 것이다. 이러한 예들에 있어서, 각각의 세그먼트에 대한 마스킹 함수의 출력은, 검사되고 있는 주파수 컴포넌트들의 대응하는 위상차들에 대한 통과 값들의 합에 기초한다. 예를 들어, 계산기들 (DC12L 및 DC12R) 의 그러한 구현들은 마스킹 함수에 대한 최대 가능한 값에 대해 그 합을 정규화함으로써 출력을 계산하도록 구성될 수도 있다. 물론, 마스킹 함수의 응답은 또한, 방향 (θ) 보다는 시간 지연 (τ) 또는 비율 (r) 의 관점에서 표현될 수도 있다.

마이크로폰 어레이는 상이한 방향들로부터 상이한 양의 주위 잡음을 수신할 것임이 기대될 수도 있다. 도 18 은 도 17 에 도시된 바와 같은 3개의 방향성 마스킹 함수들의 세트를 동일한 다중채널 오디오 신호에 적용하는 결과들에 대한 크기 대 시간 (프레임 단위) 의 플롯들을 도시한 것이다. 이 신호에 대한 다양한 마스킹 함수들의 평균 응답들은 상당히 상이함을 알 수도 있다. 마스킹 함수 출력이 대응하는 검출 임계값 초과 (대안적으로는, 이상) 가 아니면, 그 섹터에 대응하는 DOA 가 세그먼트에 대한 DOA 의 표시로서 선택되지 않도록, 각각의 검출 임계값을 각각의 마스킹 함수의 출력에 적용하기 위해 그러한 마스킹 함수들을 사용하는 계산기들 (DC12L 및 DC12R) 의 구현들을 구성하는 것이 바람직할 수도 있다.

다중채널 신호의 "방향성 코히어런스" 는, 그 신호의 다양한 주파수 컴포넌트들이 동일한 방향으로부터 도달하는 정도로서 정의된다. 이상적으로 방향성 코히어런트한 채널 쌍에 있어서,

의 값은 모든 주파수들에 대해 상수 k 와 동일하며, 여기서, k 의 값은 도달 방향 (θ) 및 도달 시간 지연 (τ) 과 관련된다. 방향 계산기 (DC12L 및 DC12R) 의 구현들은, 예를 들어, (예컨대, 방향성 마스킹 함수를 이용하여) 특정 방향과 얼마나 잘 일치하는지에 따라 각각의 주파수 컴포넌트에 대한 추정된 도달 방향을 평가한 후 다양한 주파수 컴포넌트들에 대한 평가 결과들을 결합하여 신호에 대한 코히어런시 측정치를 획득함으로써, 다중채널 신호의 방향성 코히어런스를 정량화하도록 구성될 수도 있다. 따라서, 방향 계산기 (DC12L 또는 DC12R) 의 대응하는 구현에 의해 계산되는 바와 같이, 공간 섹터의 마스킹 함수 출력은 또한, 그 섹터 내 다중채널 신호의 방향성 코히어런스의 측정치이다. 방향성 코히어런스의 측정치의 계산 및 어플리케이션은 또한, 예를 들어, 국제특허공개공보 WO2010/048620 A1 및 WO2010/144577 A1 (Visser 등) 에서 설명된다.

각각의 섹터에 대한 코히어런시 측정치를 시간적으로 평활화된 값으로서 생성하기 위해 방향 계산기들 (DC12L 및 DC12R) 을 구현하는 것이 바람직할 수도 있다. 하나의 그러한 예에 있어서, 방향 계산기는 코히어런시 측정치를 가장 최근의 m개의 프레임들에 걸친 평균값으로서 생성하도록 구성되며, 여기서, m 의 가능한 값들은 4, 5, 8, 10, 16, 및 20 을 포함한다. 또다른 그러한 예에 있어서, 방향 계산기는

와 같은 식 (또한, 1차 IIR 필터 또는 순환 필터로서도 공지됨) 에 따라 프레임 n 에 대한 평활화된 코히어런시 측정치 (z(n)) 를 계산하도록 구성되며, 여기서, z(n-1) 은 이전 프레임에 대한 평활화된 코히어런시 측정치를 나타내고, c(n) 은 코히어런시 측정치의 현재의 평활화되지 않은 값을 나타내며, β 는 그 값이 제로 (평활화 없음) 로부터 1 (업데이트 없음) 까지의 범위로부터 선택될 수도 있는 평활화 팩터이다. 평활화 팩터 (β) 에 대한 통상의 값들은 0.1, 0.2, 0.25, 0.3, 0.4, 및 0.5 를 포함한다. 방향 계산기들 (DC12L 및 DC12R) 의 그러한 구현들이 상이한 섹터들에 대응하는 코히어런시 측정치들을 평활화하기 위해 동일한 β 값을 사용하는 것은 통상적이지만 필수적인 것은 아니다.

코히어런시 측정치의 콘트라스트는 코히어런시 측정치의 현재값과 시간에 걸친 코히어런시 측정치의 평균값 (예를 들어, 가장 최근의 10, 20, 50, 또는 100개 프레임들에 대한 평균, 최빈수 또는 메디안) 간의 관계 (예를 들어, 차이 또는 비율) 의 값으로서 표현될 수도 있다. 방향 계산기들 (DC12L 및 DC12R) 의 구현들은

와 같은 식에 따라 또는 누설 적분자와 같은 시간적 평활화 함수를 이용하여 각각의 섹터에 대한 코히어런시 측정치의 평균값을 계산하도록 구성될 수도 있으며, 여기서, v(n) 은 현재 프레임에 대한 평균값을 나타내고, v(n-1) 은 이전 프레임에 대한 평균값을 나타내고, c(n) 은 코히어런시 측정치의 현재값을 나타내며, α 는 그 값이 제로 (평활화 없음) 로부터 1 (업데이트 없음) 까지의 범위로부터 선택될 수도 있는 평활화 팩터이다. 평활화 팩터 (α) 에 대한 통상의 값들은 0.01, 0.02, 0.05, 및 0.1 을 포함한다.

방향 계산기들 (DC12L 및 DC12R) 의 구현들은 섹터 기반 DOA 추정 방법을 이용하여 신호의 DOA 를, 코히어런시 측정치가 가장 큰 섹터와 연관된 DOA 로서 추정하도록 구성될 수도 있다. 대안적으로, 그러한 방향 계산기는 신호의 DOA 를, 그 코히어런시 측정치가 현재 가장 큰 콘트라스트를 갖는 (예를 들어, 그 섹터에 대한 코히어런시 측정치의 장기간 시간 평균으로부터 가장 큰 상대적 크기만큼 상이한 현재 값을 갖는) 섹터와 연관된 DOA 로서 추정하도록 구성될 수도 있다. 위상차 기반 DOA 추정의 부가적인 설명은, 예를 들어, 미국공개특허공보 제2011/0038489호 (2011년 2월 17일자 공개) 및 미국특허출원 제13/029,582호 (2011년 2월 17일자 출원) 에서 발견할 수도 있다.

이득 차이 기반 접근법들 및 위상차 기반 접근법들 양자에 있어서, 다중채널 신호의 제한된 오디오-주파수 범위에 걸쳐 DOA 표시를 수행하도록 방향 계산기들 (DC10L 및 DC10R) 을 구현하는 것이 바람직할 수도 있다. 예를 들어, 그러한 방향 계산기는, 저 주파수들에서의 잔향 및/또는 고 주파수들에서의 원하는 신호의 감쇄로 인한 문제들을 회피하도록 (예를 들어, 100, 200, 300, 또는 500 Hz 로부터 800, 100, 1200, 1500, 또는 2000 Hz 까지의) 중간 주파수 범위에 걸쳐 DOA 추정을 수행하는 것이 바람직할 수도 있다.

마이크로폰 쌍에 대한 DOA 의 표시자는 통상적으로 부호에 있어서 모호하다. 예를 들어, 도달 시간 지연 또는 위상차는, 마이크로폰 쌍 뒤에 위치된 소스에 대한 것과 마이크로폰 쌍의 앞에 위치된 소스에 대한 것이 동일할 것이다. 도 19 는, 엔드파이어 섹터들 1 및 3 의 원추들이 어레이 축 주위로 대칭이고 또한 섹터 2 가 이들 콘들 간의 공간을 점유하는 마이크로폰 쌍 (MR10, MR20) 의 통상의 사용 케이스의 일 예를 도시한 것이다. 따라서, 마이크로폰들이 전방향성인 경우, 특정된 방향 범위들에 대응하는 픽업 원추 (pickup cone) 들은 마이크로폰 쌍의 전방 또는 후방에 대해 모호할 수도 있다.

방향 표시 계산기들 (DC10L 및 DC10R) 각각은 또한, 다중채널 신호의 프레임들의 시리즈 각각의 복수의 주파수 컴포넌트들 (예를 들어, 하위대역들 또는 주파수 빈들) 각각에 대해, 본 명세서에서 설명된 바와 같은 방향 표시를 생성하도록 구성될 수도 있다. 일 예에 있어서, 장치 (A100) 는 프레임의 수개의 주파수 컴포넌트들 (예를 들어, 하위대역들 또는 FFT 빈들) 각각에 대한 이득 차이를 계산하도록 구성된다. 장치 (A100) 의 그러한 구현은 변환 도메인에서 동작하거나 하위대역 필터 뱅크들을 포함하여, 시간 도메인에 있어서 입력 채널들의 하위대역들을 생성하도록 구성될 수도 있다.

잡음 감소 모드에서 동작하도록 장치 (A100) 를 구성하는 것이 바람직할 수도 있다. 이 모드에 있어서, 입력 신호 (SI10) 는 마이크로폰 채널들 (SL10, SL20, SR10, 및 SR20) 중 적어도 하나에 기초하고/하거나 사용자의 음성을 수신하도록 배치된 다른 마이크로폰에 의해 생성된 신호에 기초한다. 그러한 동작은 원거리장 잡음에 대해 구별하고 사용자의 입으로부터의 근거리장 신호에 집중하도록 적용될 수도 있다.

잡음 감소 모드에서의 동작에 있어서, 입력 신호 (SI10) 는, 사용자의 입에 더 근접하게 배치되고/되거나 사용자의 음성을 더 직접적으로 수신하는 다른 마이크로폰 (MC10) (예를 들어, 받침대 장착식 또는 코드 장착식 마이크로폰) 에 의해 생성된 신호를 포함할 수도 있다. 마이크로폰 (MC10) 은, 장치 (A100) 의 사용 동안, 마이크로폰 신호 (MC30) 로부터의 신호에서의 사용자 음성의 SNR 이 마이크로폰 채널들 (SL10, SL20, SR10, 및 SR20) 중 임의의 채널에서의 사용자 음성의 SNR 보다 더 크도록 장치 (A100) 내에 배열된다. 대안적으로 또는 부가적으로, 음성 마이크로폰 (MC10) 은, 사용 동안, 사용자 음성의 중앙 출구 포인트를 향해 더 직접적으로 배향되도록, 중앙 출구 포인트에 더 근접하도록, 및/또는 잡음 레퍼런스 마이크로폰들 (ML10 및 MR10) 중 어느 하나가 있는 것보다 중앙 출구 포인트에 더 근접한 관상면에 있도록 배열될 수도 있다.

도 25a 는 머리 및 몸통 시뮬레이터, 즉 "HATS" (Bruel and Kjaer, DK) 상에 장착된 시스템 (S100) 의 일 구현의 정면도를 도시한 것이다. 도 25b 는 HATS 의 좌측면도를 도시한 것이다. 사용자 음성의 중앙 출구 포인트는 도 25a 및 도 25b 에서 십자선에 의해 표시되고, 스피치 동안 사용자의 윗입술과 아랫입술의 외부면들이 만나는 사용자 머리의 정중시상면 내의 위치로서 정의된다. 정중관상면 (midcoronal plane) 과 중앙 출구 포인트 간의 거리는 통상적으로, 7, 8, 또는 9 센티미터로부터 10, 11, 12, 13, 또는 14 센티미터까지의 범위 (예를 들어, 80 내지 130mm) 이다 (본 명세서에서, 일 포인트와 일 평면 간의 거리들은 그 평면에 수직인 라인을 따라 측정된다고 가정됨). 장치 (A100) 의 사용 동안, 음성 마이크로폰 (MC10) 은 통상적으로, 중앙 출구 포인트의 30 센티미터 내에 위치된다.

장치 (A100) 의 사용 동안 음성 마이크로폰 (MC10) 에 대한 포지션들의 수개의 상이한 예들이 도 25a 에 라벨링된 원들에 의해 도시되어 있다. 포지션 (A) 에 있어서, 음성 마이크로폰 (MC10) 은 모자 또는 헬멧의 바이저에 장착된다. 포지션 (B) 에 있어서, 음성 마이크로폰 (MC10) 은 한쌍의 안경, 고글, 보안경, 또는 다른 안경류의 브릿지에 장착된다. 포지션 (CL 또는 CR) 에 있어서, 음성 마이크로폰 (MC10) 은 한쌍의 안경, 고글, 보안경, 또는 다른 안경류의 좌측 또는 우측 안경다리에 장착된다. 포지션 (DL 또는 DR) 에 있어서, 음성 마이크로폰 (MC10) 은 마이크로폰들 (ML10 및 MR10) 의 대응하는 마이크로폰을 포함하는 헤드셋 하우징의 전방부에 장착된다. 포지션 (EL 또는 ER) 에 있어서, 음성 마이크로폰 (MC10) 은 사용자 귀에 착용된 후크로부터 사용자 입을 향해 연장되는 받침대 상에 장착된다. 포지션 (FL, FR, GL, 또는 GR) 에 있어서, 음성 마이크로폰 (MC10) 은 음성 마이크로폰 (MC10) 및 잡음 레퍼런스 마이크로폰들 (ML10 및 MR10) 중 대응하는 마이크로폰을 통신 디바이스에 전기적으로 접속시키는 코드 상에 장착된다.

도 25b 의 측면도는 포지션들 (A, B, CL, DL, EL, FL, 및 GL) 모두가 (예를 들어, 포지션 (FL) 에 대해 도시된 바와 같이) 마이크로폰 (ML20) 이 있는 것보다 중앙 출구 포인트에 더 근접한 관상면들 (즉, 도시된 바와 같은 정중관상면에 평행인 평면들) 에 있는 것을 도시한 것이다. 도 26a 의 측면도는 이들 포지션들 각각에서 마이크로폰 (MC10) 의 인스턴스의 배향의 일 예를 도시한 것이고, 포지션들 (A, B, DL, EL, FL, 및 GL) 에서의 인스턴스들 각각은 (도면의 평면에 수직으로 배향되는) 마이크로폰 (ML10) 보다 중앙 출구 포인트를 향해 더 직접적으로 배향되는 것을 도시한 것이다.

도 24b 및 도 24c 그리고 도 26b 내지 도 26d 는 본 명세서에서 설명된 바와 같은 시스템 (S100) 의 일 구현 내에서 사용될 수도 있는 마이크로폰 (MC10) 에 대한 배치들의 부가적인 예들을 도시한 것이다. 도 24b 는 안경다리 또는 대응하는 단부 피스 상에 장착된 음성 마이크로폰 (MC10) 을 갖는 안경 (예를 들어, 맞춤 안경, 선글라스, 또는 보안경) 을 도시한 것이다. 도 24c 는, 음성 마이크로폰 (MC10) 이 사용자의 입에 장착되고 잡음 레퍼런스 쌍 (ML10, MR10) 의 각각의 마이크로폰이 사용자 머리의 대응하는 측면에 장착되는 헬멧을 도시한 것이다. 도 26b 내지 도 26d 는 고글 (예를 들어, 스키 고글) 의 예들을 도시한 것이고, 이들 예시들 각각은 음성 마이크로폰 (MC10) 에 대한 상이한 대응하는 위치를 나타낸다. 본 명세서에 설명된 바와 같은 시스템 (S100) 의 일 구현의 사용 동안 음성 마이크로폰 (MC10) 에 대한 배치들의 부가적인 예들은 다음의 것: 즉, 캡 또는 모자의 바이저 또는 챙; 라펠, 가슴 주머니, 또는 어깨를 포함하지만 이에 한정되지 않는다.

도 20a 내지 도 20c 는 잡음 감소 모드에 있어서 장치 (A100) 의 동작의 일 예를 예시한 상면도들을 도시한 것이다. 이러한 예들에 있어서, 마이크로폰들 (ML10, ML20, MR10, 및 MR20) 각각은, 단방향성 (예를 들어, 카디오이드) 이고 사용자의 정면 방향을 향해 배향된 응답을 가진다. 이 모드에 있어서, 이득 제어 모듈 (GC10) 은, 프레임에 대한 DOA 가 전방 픽업 원추 (LN10) 내에 있음을 방향 표시 (DI10L) 가 나타내고 프레임에 대한 DOA 가 전방 픽업 원추 (RN10) 에 있음을 방향 표시 (DI10R) 가 나타내면 입력 신호 (SI10) 를 통과하도록 구성된다. 이 경우, 음성 활성도가 표시되도록, 소스가 이들 원추들의 교차부 (I10) 에 위치되는 것으로 가정된다. 그렇지 않고 프레임에 대한 DOA 가 원추 (LN10) 내에 있지 않음을 방향 표시 (DI10L) 가 나타내거나 또는 프레임에 대한 DOA 가 원추 (RN10) 내에 있지 않음을 방향 표시 (DI10R) 가 나타낸다면, 소스는 (예를 들어, 음성 활성도의 부족을 나타내는) 교차부 (I10) 의 외부에 있는 것으로 가정되고, 그러한 경우, 이득 제어 모듈 (GC10) 은 입력 신호 (SI10) 를 감쇄하도록 구성된다. 도 21a 내지 도 21c 는, 소스가 엔드파이어 픽업 원추들 (LN12 및 RN12) 의 교차부 (I12) 에 위치되는지 여부를 방향 표시들 (DI10L 및 DI10R) 이 나타내는 유사한 예를 예시한 상면도들을 도시한 것이다.

잡음 감소 모드에서의 동작에 있어서, 장치 (A100) 가 사용자의 음성의 중앙 출구 포인트로부터 적어도 임계 거리 (예를 들어, 적어도 25, 30, 50, 75, 또는 100 센티미터) 에 위치된 소스로부터의 사운드로부터 사용자의 음성을 구별할 수 있도록 픽업 원추들을 구성하는 것이 바람직할 수도 있다. 예를 들어, 픽업 원추들의 교차부가 사용자의 음성의 중앙 출구 포인트로부터의 임계 거리보다 정중시상면을 따라 더 멀지 않게 연장하도록 픽업 원추들을 선택하는 것이 바람직할 수도 있다.

도 22a 내지 도 22c 는, 마이크로폰들 (ML10, ML20, MR10, 및 MR20) 각각이 전방향성인 응답을 갖는 유사한 예를 예시한 상면도들을 도시한 것이다. 이 예에 있어서, 이득 제어 모듈 (GC10) 은, 프레임에 대한 DOA 가 전방 픽업 원추 (LN10) 또는 후방 픽업 원추 (LN20) 내에 있다고 방향 표시 (DI10L) 가 나타내고 프레임에 대한 DOA 가 전방 픽업 원추 (RN10) 또는 후방 픽업 원추 (RN20) 내에 있다고 방향 표시 (DI10R) 가 나타내면 입력 신호 (SI10) 을 통과하도록 구성된다. 이 경우, 음성 활성도가 표시되도록, 소스가 이들 원추들의 교차부 (I20) 에 위치되는 것으로 가정된다. 그렇지 않고 프레임에 대한 DOA 가 원추들 (LN10 및 LN20) 중 어느 하나 내에 있지 않음을 방향 표시 (DI10L) 가 나타내거나 또는 프레임에 대한 DOA 가 원추들 (RN10 및 RN20) 중 어느 하나 내에 있지 않음을 방향 표시 (DI10R) 가 나타낸다면, 소스는 (예를 들어, 음성 활성도의 부족을 나타내는) 교차부 (I20) 의 외부에 있는 것으로 가정되고, 그러한 경우, 이득 제어 모듈 (GC10) 은 입력 신호 (SI10) 를 감쇄하도록 구성된다. 도 23a 내지 도 23c 는, 소스가 엔드파이어 픽업 원추들 (LN15 및 RN15) 의 교차부 (I15) 에 위치되는지 여부를 방향 표시들 (DI10L 및 DI10R) 이 나타내는 유사한 예를 예시한 상면도들을 도시한 것이다.

상기 논의된 바와 같이, 방향 표시 계산기들 (DC10L 및 DC10R) 각각은 (예를 들어, 도 10a, 도 10b, 도 15a, 도 15b, 및 도 19 를 참조하여 본 명세서에서 설명된 바와 같이) 도달 방향을 포함하는 공간 섹터를 식별하도록 구현될 수도 있다. 그러한 경우, 계산기들 (DC10L 및 DC10R) 각각은, 섹터가 대응하는 픽업 원추 내에 있는지 여부를 나타내는 값 (예를 들어, 0 또는 1 의 값) 에 섹터 표시를 매핑함으로써 대응하는 방향 표시를 생성하도록 구현될 수도 있다. 도 10b 에 도시된 바와 같은 방식에 있어서, 예를 들어, 방향 표시 계산기 (DC10R) 는 섹터 5 의 표시를 방향 표시 (DI10R) 에 대한 1 의 값에 매핑하는 것에 의해 방향 표시 (DI10R) 를 생성하고 또한 임의의 다른 섹터의 표시를 방향 표시 (DI10R) 에 대한 제로의 값에 매핑하도록 구현될 수도 있다.

대안적으로, 상기 논의된 바와 같이, 방향 표시 계산기들 (DC10L 및 DC10R) 각각은 추정된 도달 방향을 나타내는 값 (예를 들어, 마이크로폰 축에 대한 각, 도달 시간차, 또는 위상차와 주파수의 비율) 을 계산하도록 구현될 수도 있다. 그러한 경우, 계산기들 (DC10L 및 DC10R) 각각은, 대응하는 DOA 가 대응하는 픽업 원추 내에 있는지 여부를 나타내는 대응하는 방향 표시 (DI10L 또는 DI10R) 의 값 (예를 들어, 제로 또는 1 의 값) 에 대한 각각의 매핑을, 계산된 DOA 값에 적용함으로써 대응하는 방향 표시를 생성하도록 구현될 수도 있다. 그러한 매핑은 예를 들어 하나 이상의 임계값들로서 구현될 수도 있다 (예를 들어, 임계값 미만의 DOA 들을 나타내는 값들을 1 의 방향 표시에 매핑하고 임계값 이상의 DOA 들을 나타내는 값들을 제로의 방향 표시에 매핑하는 것 또는 그 역도 성립함).

(예를 들어, 교차부 경계에 근접한 소스에 대한 출력 신호 (SO10) 에서 지터를 회피하기 위해) 이득 제어 엘리먼트 (GC10) 에 의해 계산된 이득 팩터에 대한 행오버 또는 다른 시간적 평활화 동작을 구현하는 것이 바람직할 수도 있다. 예를 들어, 이득 제어 엘리먼트 (GC10) 는, 새로운 상태가 연속적인 프레임들의 임계 수 (예를 들어, 5, 10, 또는 20) 에 대해 표시될 때까지 이득 팩터의 상태를 변경하는 것을 억제하도록 구성될 수도 있다.

이득 제어 모듈 (GC10) 은 출력 신호 (SO10) 를 생성하기 위해, 소스가 픽업 원추들에 의해 정의된 교차부 내에 있음을 방향 표시가 나타내는지 여부에 따라, 입력 신호 (SI10) 의 바이너리 제어 (즉, 게이팅) 를 수행하도록 구현될 수도 있다. 그러한 경우, 이득 팩터는 이득 제어 엘리먼트 (GC10) 로 하여금 입력 신호 (SI10) 을 그에 따라 통과 또는 감쇄하게 하는 음성 활성도 검출 신호로서 고려될 수도 있다. 대안적으로, 이득 제어 모듈 (GC10) 은 2개 초과의 가능한 값들을 갖는 입력 신호 (SI10) 에 이득 팩터를 적용함으로써 출력 신호 (SO10) 를 생성하도록 구현될 수도 있다. 예를 들어, 계산기들 (DC10L 및 DC10R) 은, 섹터가 픽업 원추 내에 있으면 제 1 값 (예를 들어, 1) 을, 섹터가 픽업 원추 외부에 있으면 제 2 값 (예를 들어, 제로) 을, 및 섹터가 픽업 원추 내에 부분적으로 있으면 (예를 들어, 도 10b 의 섹터 4) 제 3 의 중간 값 (예를 들어, 1/2) 을 나타내는 픽업 원추로의 섹터 수의 매핑에 따라 방향 표시들 (DI10L 및 DI10R) 을 생성하도록 구성될 수도 있다. 추정된 DOA 값의 픽업 원추로의 매핑은 유사하게 구현될 수도 있으며, 그러한 매핑은 임의의 수의 중간 값들을 갖도록 구현될 수도 있음을 이해할 것이다. 이러한 경우들에 있어서, 이득 제어 모듈 (GC10) 은 방향 표시들을 조합함 (예를 들어, 가산하거나 승산함) 으로써 이득 팩터를 계산하도록 구현될 수도 있다. 이득 팩터 값들의 허용가능한 범위는 선형 용어 (예를 들어, 0 으로부터 1 까지) 또는 로그 용어 (예를 들어, -20 으로부터 0 dB 까지) 로 표현될 수도 있다. 비-바이너리 값인 경우들에 있어서, 이득 팩터에 대한 시간적 평활화 동작이, 예를 들어, 유한 또는 무한 임펄스 응답 (FIR 또는 IIR) 필터로서 구현될 수도 있다.

상기 언급된 바와 같이, 방향 표시 계산기들 (DC10L 및 DC10R) 각각은 프레임의 각각의 하위대역에 대한 대응하는 방향 표시를 생성하도록 구현될 수도 있다. 그러한 경우들에 있어서, 이득 제어 모듈 (GC10) 은 각각의 방향 표시 계산기로부터의 하위대역-레벨 방향 표시들을 결합하여, (예를 들어, 그 방향 계산기로부터의 하위대역 방향 표시들의 합, 평균, 또는 가중 평균으로서) 대응하는 프레임-레벨 방향 표시를 획득하도록 구현될 수도 있다. 대안적으로, 이득 제어 모듈 (GC10) 은 본 명세서에서 설명된 바와 같은 조합의 다중 인스턴스들을 수행하여 각각의 하위대역에 대한 대응하는 이득 팩터를 생성하도록 구현될 수도 있다. 그러한 경우, 유사하게, 이득 제어 엘리먼트 (GC10) 는 하위대역-레벨 소스 위치 판정치들을 조합 (예를 들어, 가산 또는 승산하는 것) 하여 대응하는 프레임-레벨 이득 팩터값을 획득하거나 또는 각각의 하위대역-레벨 소스 위치 판정치를 대응하는 하위대역-레벨 이득 팩터값에 매핑하도록 구현될 수도 있다. 이득 제어 엘리먼트 (GC10) 는 (예를 들어, 하위대역 필터 뱅크를 이용하여) 시간 도메인에서 또는 주파수 도메인에서 입력 신호 (SI10) 의 대응하는 하위대역들에 이득 팩터들을 적용하도록 구성될 수도 있다.

(예를 들어, 무선 통신 링크를 통한 송신을 위해) 출력 신호 (SO10) 로부터의 오디오-주파수 정보를 인코딩하는 것이 바람직할 수도 있다. 도 24a 는, 분석 모듈 (AM10) 을 포함하는 장치 (A110) 의 일 구현 (A130) 의 블록 다이어그램을 도시한 것이다. 분석 모듈 (AM10) 은 출력 신호 (SO10) (또는 SO10 에 기초한 오디오 신호) 에 대한 선형 예측 코딩 (LPC) 분석 동작을 수행하여, 프레임의 스펙트럼 엔벨로프를 기술하는 LPC 필터 계수들의 세트를 생성하도록 구성된다. 그러한 경우, 장치 (A130) 는, 본 명세서에서 언급된 다양한 코덱들 (예를 들어, EVRC, SMV, AMR-WB) 중 하나 이상과 호환하는 프레임들로 오디오-주파수 정보를 인코딩하도록 구성될 수도 있다. 장치 (A120) 가 유사하게 구현될 수도 있다.

(예를 들어, 잡음 감소를 위해) 출력 신호 (SO10) 의 후처리를 포함하도록 장치 (A100) 를 구현하는 것이 바람직할 수도 있다. 도 27 은, 후처리된 출력 신호 (SP10) 를 생성하도록 구성된 장치 (A120) 의 일 구현 (A140) 의 블록 다이어그램을 도시한 것이다 (입력 신호 (SI10) 를 변환 도메인으로 변환하기 위한 변환 모듈들 (XM10L, 20L, 10R, 20R) 및 대응하는 모듈은 도시되지 않음). 장치 (A140) 는, 픽업 원추 교차부 내로부터 도달하는 채널 (SR20)(및/또는 채널(SL20)) 의 프레임들을 차단하고 픽업 원추 교차부 외부의 방향들로부터 도달하는 프레임들을 통과시킴으로써 잡음 추정치 (NE10) 를 생성하기 위해 방향 표시들을 적용하도록 구성된 이득 제어 엘리먼트 (GC10) 의 제 2 인스턴스 (GC10b) 를 포함한다. 장치 (A140) 는 또한, 후처리된 출력 신호 (SP10) 를 생성하기 위해, 잡음 추정치 (NE10) 로부터의 정보에 기초하여, 출력 신호 (SO10)(예를 들어, 원하는 스피치 신호의 추정치) 의 후처리를 수행하도록 구성된 후처리 모듈 (PP10) 을 포함한다. 그러한 후처리는 출력 신호 (SO10) 의 위너 필터링, 또는 출력 신호 (SO10) 로부터의 잡음 추정치 (NE10) 의 스펙트럼 감산을 포함할 수도 있다. 도 27 에 도시된 바와 같이, 장치 (A140) 는 주파수 도메인에서 후처리 동작을 수행하고 결과적인 신호를 역변환 모듈 (IM10) 을 통해 시간 도메인으로 변환하여 후처리된 출력 신호 (SP10) 를 획득하도록 구성될 수도 있다.

상기 설명된 바와 같은 잡음 감소 모드에 부가적으로 또는 이에 대안적으로, 장치 (A100) 는 보청기 모드에서 동작하도록 구현될 수도 있다. 보청기 모드에 있어서, 시스템 (S100) 은, 사용자 입으로부터의 신호 및 간섭성 사운드 신호들을 포함할 수도 있는 근거리장 영역을 억제하면서 동시에 원거리장 방향들에 집중함으로써, 피드백 제어 및 원거리장 빔형성을 수행하도록 이용될 수도 있다. 보청기 모드는 단방향성 및/또는 전방향성 마이크로폰들을 사용하여 구현될 수도 있다.

보청기 모드에서의 동작에 있어서, 시스템 (S100) 은 사용자 귀들 중 하나 또는 그 양자에서 출력 신호 (SO10) 를 재생하도록 구성된 하나 이상의 확성기들 (LS10) 을 포함하도록 구현될 수도 있다. 시스템 (S100) 은 장치 (A100) 가 와이어들 또는 다른 도전성 경로들을 통해 하나 이상의 그러한 확성기들 (LS10) 에 커플링되도록 구현될 수도 있다. 대안적으로 또는 부가적으로, 시스템 (S100) 은 장치 (A100) 가 하나 이상의 그러한 확성기들 (LS10) 에 무선으로 커플링되도록 구현될 수도 있다.

도 28 은 보청기 모드 동작에 대한 장치 (A110) 의 일 구현 (A210) 의 블록 다이어그램을 도시한 것이다. 이 모드에 있어서, 이득 제어 모듈 (GC10) 은, 픽업 원추 교차부로부터 도달하는 채널 (SR20)(및/또는 채널 (SL20)) 의 프레임들을 감쇄하도록 구성된다. 장치 (A210) 는 또한, 출력 신호 (SO10) 에 기초하는 음향 신호를 생성하기 위해, 사용자의 귀에 착용될 수도 있고 사용자의 대응하는 고막에 지향되는 확성기 (LS10) 를 구동시키도록 구성된 오디오 출력 스테이지 (AO10) 를 포함한다.

도 29a 내지 도 29c 는 보청기 모드에 있어서 장치 (A210) 의 일 구현의 동작의 원리들을 예시한 상면도들을 도시한 것이다. 이러한 예들에 있어서, 마이크로폰들 (ML10, ML20, MR10, 및 MR20) 각각은 단방향성이고 사용자의 정면 방향을 향해 배향된다. 그러한 구현에 있어서, 방향 계산기 (DC10L) 는, 어레이 (R100L) 에 의해 수신된 신호의 사운드 컴포넌트의 DOA 가 제 1 특정 영역 (픽업 원추 (LF10) 로서 도 29a 에 나타낸 공간 영역) 내에 있는지 여부를 나타내도록 구성되고, 방향 계산기 (DC10R) 는, 어레이 (R100R) 에 의해 수신된 신호의 사운드 컴포넌트의 DOA 가 제 2 특정 영역 (픽업 원추 (RF10) 로서 도 29b 에 나타낸 공간 영역) 내에 있는지 여부를 나타내도록 구성된다.

일 예에 있어서, 이득 제어 엘리먼트 (GC10) 는 픽업 원추들 (LF10 및 RF10) 중 어느 하나 내의 방향으로부터 수신된 음향 정보를 출력 신호 (OS10) 로서 통과시키도록 구성된다 (예를 들어, "OR" 케이스). 다른 예에 있어서, 이득 제어 엘리먼트 (GC10) 는, 방향 표시자 (DI10L) 가 픽업 원추 (LF10) 내의 도달 방향을 나타내고 방향 표시자 (DI10R) 가 픽업 원추 (RF10) 내의 도달 방향을 나타내는 경우에만 (예를 들어, "AND" 케이스) 마이크로폰들 중 적어도 하나에 의해 수신된 음향 정보를 출력 신호 (OS10) 로서 통과시키도록 구성된다.

도 30a 내지 도 30c 는, 마이크로폰들이 전방향성인 유사한 경우에 대한 보청기 모드에 있어서 시스템의 동작의 원리들을 예시한 상면도들을 도시한 것이다. 시스템은 또한, 사용자의 입으로부터의 근거리장 신호의 억제를 유지하면서 사용자로 하여금 보청기 모드에 있어서 상이한 관측 방향들 중에서 수동으로 선택하게 하도록 구성될 수도 있다. 예를 들어, 도 31a 내지 도 31c 는 전방향성 마이크로폰들을 사용하여 보청기 모드에 있어서 시스템의 동작의 원리들을 예시한 상면도들을 도시한 것이며, 여기서는, 도 30a 내지 도 30c 에 도시된 전후 방향들 대신에 측면 관측 방향들이 사용된다.

보청기 모드에 있어서, 장치 (A100) 는 각각의 마이크로폰 어레이에 대한 독립적인 동작을 위해 구성될 수도 있다. 예를 들어, 보청기 모드에 있어서 장치 (A100) 의 동작은, 외측의 엔드파이어 방향으로부터의 신호들의 선택이 각 측면에 대해 독립적이도록 구성될 수도 있다. 대안적으로, 보청기 모드에 있어서 장치 (A100) 의 동작은 (예를 들어, 다중채널 신호들 양자에서 발견된 사운드 컴포넌트들을 차단하고/하거나 다중채널 신호들 중 오직 하나의 선택된 방향성 범위 내에 존재하는 방향성 사운드 컴포넌트들을 통과시킴으로써) 분산된 잡음을 감쇄시키도록 구성될 수도 있다.

도 32 는, 원거리장 신호들을 간섭하는 확성기 출력을 에워싸면서 입 확성기로부터의 근거리장 시뮬레이션된 스피치 신호를 출력하는 머리 및 몸통 시뮬레이터 (HATS) 상에 장치 (A100) 의 일 구현이 배치되는 테스팅 배열의 일 예를 도시한 것이다. 도 33 은 보청기 모드에 있어서 그러한 테스트의 결과를 도시한 것이다. 마이크로폰들 중 적어도 하나에 의해 기록된 바와 같은 신호의 프로세싱된 신호 (즉, 출력 신호 (OS10)) 와의 비교는, 원하는 방향으로부터 도달하는 원거리장 신호가 보존되었지만 다른 방향들로부터의 근거리장 신호 및 원거리장 신호들은 억제되었음을 나타낸다.

장치 (A100) 의 보청기 모드 구현을, 원단 통신 신호와 같은 재생된 오디오 신호 또는 표준 압축 포맷 (예를 들어, 동화상 전문가 그룹 (MPEG)-1 오디오 계층 3 (MP3), MPEG-4 파트 14 (MP4), 윈도우즈 미디어 오디오/비디오 (WMA/WMV) (워싱턴주 레드몬드 소재의 마이크로소프트사) 의 버전, 어드밴스드 오디오 코딩 (AAC), 국제 통신 연합 (ITU)-T H.264 등) 에 따라 인코딩된 파일 또는 스트림과 같은 다른 압축된 오디오 또는 시청각 정보의 플레이백과 결합하도록 시스템 (S100) 을 구현하는 것이 바람직할 수도 있다. 도 34 는, 출력 신호 (SO10) 를 그러한 재생된 오디오 신호 (RAS10) 와 믹싱하고 믹싱된 신호로 확성기 (LS10) 를 구동하도록 구성된 오디오 출력 스테이지 (AO10) 의 일 구현 (AO20) 을 포함하는 장치 (A210) 의 일 구현 (A220) 의 블록 다이어그램을 도시한 것이다.

본 명세서에서 설명된 바와 같이 잡음 감소 모드 및 보청기 모드 중 어느 하나 또는 그 양자에 있어서 장치 (A100) 의 동작을 지원하도록 시스템 (S100) 을 구현하는 것이 바람직할 수도 있다. 도 35 는 장치 (A110 및 A210) 의 그러한 구현 (A300) 의 블록 다이어그램을 도시한 것이다. 장치 (A300) 는 제 1 출력 신호 (SO10a) 를 생성하기 위해 잡음 감소 모드에 있어서 제 1 입력 신호 (SI10a) 에 대해 동작하도록 구성된 이득 제어 모듈 (GC10) 의 제 1 인스턴스 (GC10a), 및 제 2 출력 신호 (SO10b) 를 생성하기 위해 보청기 모드에 있어서 제 2 입력 신호 (SI10b) 에 대해 동작하도록 구성된 이득 제어 모듈 (GC10) 의 제 2 인스턴스 (GC10b) 를 포함한다. 장치 (A300) 는 또한, 본 명세서에서 설명된 바와 같은 장치 (A120, A130, 및/또는 A140) 의 특징들 및/또는 장치 (A220) 의 특징들을 포함하도록 구현될 수도 있다.

도 36a 는 태스크들 (V100 및 V200) 을 포함하는 일반적인 구성에 따른 방법 (N100) 의 플로우차트를 도시한 것이다. 태스크 (V100) 는 제 1 마이크로폰 쌍에 의해 수신된 신호의 채널들 간의 적어도 하나의 위상차, 및 제 2 마이크로폰 쌍에 의해 수신된 신호의 채널들 간의 적어도 하나의 위상차를 측정한다. 태스크 (V200) 는 위상차들이 원하는 원추 교차 관계를 만족시키지 않으면 수신된 신호를 감쇄하고 그렇지 않으면 수신된 신호를 통과시킴으로써 잡음 감소 모드를 수행한다.

도 36b 는 태스크들 (V100 및 V300) 을 포함하는 일반적인 구성에 따른 방법 (N200) 의 플로우차트를 도시한 것이다. 태스크 (V300) 는 위상차들이 원하는 원추 교차 관계를 만족시키면 수신된 신호를 감쇄하고, 위상차 중 어느 하나가 원거리장 정의를 만족시키면 수신된 신호를 통과시키고, 그렇지 않으면 수신된 신호를 감쇄함으로써 보청기 모드를 수행한다.

도 37 은 태스크들 (V100, V200, 및 V300) 을 포함하는 일반적인 구성에 따른 방법 (N300) 의 플로우차트를 도시한 것이다. 이 경우, 태스크들 (V200 및 V300) 중 하나는, 예를 들어, 사용자 선택 또는 디바이스의 동작 모드 (예를 들어, 사용자가 현재 전화 호출에 관여되는지 여부) 에 따라 수행된다.

도 38a 는 태스크들 (T100, T200, 및 T300) 을 포함하는 일반적인 구성에 따른 방법 (M100) 의 플로우차트를 도시한 것이다. 태스크 (T100) 는 (예를 들어, 방향 표시 계산기 (DC10L) 에 대해 본 명세서에서 설명된 바와 같이) 제 1 쌍의 마이크로폰들에 의해 수신된 제 1 사운드 컴포넌트의, 제 1 쌍의 마이크로폰들에 대한 제 1 도달 방향 표시를 계산한다. 태스크 (T200) 는 (예를 들어, 방향 표시 계산기 (DC10R) 에 대해 본 명세서에서 설명된 바와 같이) 제 2 쌍의 마이크로폰들에 의해 수신된 제 2 사운드 컴포넌트의, 제 2 쌍의 마이크로폰들에 대한 제 2 도달 방향 표시를 계산한다. 태스크 (T300) 는 (예를 들어, 이득 제어 엘리먼트 (GC10) 에 대해 본 명세서에서 설명된 바와 같이) 출력 신호를 생성하기 위해, 제 1 및 제 2 방향 표시들에 기초하여, 오디오 신호의 이득을 제어한다.

도 38b 는 일반적인 구성에 따른 장치 (MF100) 의 블록 다이어그램을 도시한 것이다. 장치 (MF100) 는 (예를 들어, 방향 표시 계산기 (DC10L) 에 대해 본 명세서에서 설명된 바와 같이) 제 1 쌍의 마이크로폰들에 의해 수신된 제 1 사운드 컴포넌트의, 제 1 쌍의 마이크로폰들에 대한 제 1 도달 방향 표시를 계산하는 수단 (F100) 을 포함한다. 장치 (MF100) 는 또한, (예를 들어, 방향 표시 계산기 (DC10R) 에 대해 본 명세서에서 설명된 바와 같이) 제 2 쌍의 마이크로폰들에 의해 수신된 제 2 사운드 컴포넌트의, 제 2 쌍의 마이크로폰들에 대한 제 2 도달 방향 표시를 계산하는 수단 (F200) 을 포함한다. 장치 (MF100) 는 또한, (예를 들어, 이득 제어 엘리먼트 (GC10) 에 대해 본 명세서에서 설명된 바와 같이) 출력 신호를 생성하기 위해, 제 1 및 제 2 방향 표시들에 기초하여, 오디오 신호의 이득을 제어하는 수단 (F300) 을 포함한다.

도 39 는 시스템 (S100) 으로서 구현될 수도 있는 통신 디바이스 (D10) 의 블록 다이어그램을 도시한 것이다. 대안적으로, 디바이스 (D10; 예를 들어, 셀룰러 전화 핸드셋, 스마트폰, 또는 랩탑 또는 태블릿 컴퓨터) 는, 헤드폰들의 쌍과 같이 상이한 디바이스에 위치된 마이크로폰들 및 확성기를 갖는 시스템 (S100) 의 일부로서 구현될 수도 있다. 디바이스 (D10) 는 장치 (A100) 를 포함하는 칩 또는 칩셋 (CS10; 예를 들어, 이동국 모뎀 (MSM) 칩셋) 을 포함한다. 칩/칩셋 (CS10) 은, (예를 들어, 명령들로서) 장치 (A100) 의 소프트웨어 및/또는 펌웨어 부분에 구성될 수도 있는 하나 이상의 프로세서들을 포함할 수도 있다. 칩/칩셋 (CS10) 은 또한, 어레이들 (R100L 및 R100R) 의 프로세싱 엘리먼트들 (예를 들어, 오디오 전처리 스테이지 (AP10) 의 엘리먼트들) 을 포함할 수도 있다. 칩/칩셋 (CS10) 은 무선 주파수 (RF) 통신 신호를 수신하고 RF 신호 내에서 인코딩된 오디오 신호를 디코딩 및 재생하도록 구성된 수신기, 및 장치 (A100) 에 의해 생성되는 프로세싱된 신호에 기초하는 오디오 신호 (예를 들어, 출력 신호 (SO10)) 를 인코딩하고 인코딩된 오디오 신호를 기술하는 RF 통신 신호를 송신하도록 구성된 송신기를 포함한다.

그러한 디바이스는 하나 이상의 인코딩 및 디코딩 방식들 (또한 "코덱들" 로도 지칭됨) 을 통해 음성 통신 데이터를 무선으로 송신 및 수신하도록 구성될 수도 있다. 그러한 코덱들의 예들은 2007년 2월 "Enhanced Variable Rate Codec, Speech Service Options 3, 68, and 70 for Wideband Spread Spectrum Digital Systems" 의 명칭인 제 3 세대 파트너쉽 프로젝트 2 (3GPP2) 문헌 C.S0014-C, v1.0 (www-dot-3gpp-dot-org 에서 온라인 입수가능) 에 기술된 바와 같은 인핸스드 가변 레이트 코덱; 2004년 1월 "Selectable Mode Vocoder (SMV) Service Option for Wideband Spread Spectrum Communication Systems" 의 명칭인 3GPP2 문헌 C.S0030-0, v3.0 (www-dot-3gpp-dot-org 에서 온라인 입수가능) 에 기술된 바와 같은 선택가능 모드 보코더 스피치 코덱; 문헌 ETSI TS 126 092 V6.0.0 (2004년 12월, 프랑스, 소피아 안티폴리스 세덱스, 유럽 통신 표준 협회 (ETSI)) 에 기술된 바와 같은 적응형 다중 레이트 (AMR) 스피치 코덱; 및 문헌 ETSI TS 126 192 V6.0.0 (2004년 12월, ETSI) 에 기술된 바와 같은 AMR 광대역 스피치 코덱을 포함한다. 예를 들어, 칩 또는 칩셋 (CS10) 은 하나 이상의 그러한 코덱들과 호환될 인코딩된 오디오 신호를 생성하도록 구성될 수도 있다.

디바이스 (D10) 는 안테나 (C30) 를 통해 RF 통신 신호들을 수신 및 송신하도록 구성된다. 디바이스 (D10) 는 또한, 안테나 (C30) 로의 경로에 있어서 다이플렉서 및 하나 이상의 전력 증폭기들을 포함할 수도 있다. 칩/칩셋 (CS10) 은 또한, 키패드 (C10) 를 통해 사용자 입력을 수신하고 디스플레이 (C20) 를 통해 정보를 디스플레이하도록 구성된다. 이 예에 있어서, 디바이스 (D10) 는 또한 하나 이상의 안테나들 (C40) 을 포함하여, 무선 (예를 들어, 블루투스™) 헤드셋과 같은 외부 디바이스와의 글로벌 포지셔닝 시스템 (GPS) 위치 서비스들 및/또는 단거리 통신을 지원한다. 다른 예에 있어서, 그러한 통신 디바이스는 블루투스 헤드셋 자체이고, 키패드 (C10), 디스플레이 (C20), 및 안테나 (C30) 는 없다.

본 명세서에 개시된 방법들 및 장치는, 임의의 송수신 및/또는 오디오 감지 어플리케이션들에, 특히, 그러한 어플리케이션들의 모바일 또는 그렇지 않으면 휴대용 인스턴스들에 일반적으로 적용될 수도 있다. 예를 들어, 본 명세서에 개시된 구성들의 범위는 코드분할 다중 액세스 (CDMA) 공중 경유 인터페이스를 채용하도록 구성된 무선 전화 통신 시스템에 상주하는 통신 디바이스들을 포함한다. 그럼에도 불구하고, 본 명세서에서 설명된 바와 같은 특징들을 갖는 방법 및 장치는 유선 및/또는 무선 (예를 들어, CDMA, TDMA, FDMA, 및/또는 TD-SCDMA) 송신 채널들을 통한 VoIP (Voice over IP) 를 채용하는 시스템과 같이 당업자에게 공지된 다양한 범위의 기술들을 채용하는 임의의 다양한 통신 시스템들에 상주할 수도 있음을 당업자는 이해할 것이다.

본 명세서에 개시된 통신 디바이스들은 패킷-스위칭 (예를 들어, VoIP 와 같은 프로토콜들에 따라 오디오 송신물들을 반송하도록 배열된 유선 및/또는 무선 네트워크들) 및/또는 서킷-스위칭되는 네트워크들에서의 사용을 위해 적응될 수도 있음이 명확하게 고려되고 이에 의해 개시된다. 또한, 본 명세서에 개시된 통신 디바이스들은 협대역 코딩 시스템들 (예를 들어, 약 4 또는 5 킬로헤르쯔의 오디오 주파수 범위를 인코딩하는 시스템들) 에서의 사용을 위해, 및/또는 전체-대역 광대역 코딩 시스템들 및 분할-대역 광대역 코딩 시스템들을 포함하는 광대역 코딩 시스템들 (예를 들어, 5 킬로헤르쯔 초과의 오디오 주파수들을 인코딩하는 시스템들) 에서의 사용을 위해 적응될 수도 있음이 명확하게 고려되고 이에 의해 개시된다.

설명된 구성들의 제시는 당업자로 하여금 본 명세서에 개시된 방법들 및 다른 구조들을 제조 또는 이용할 수 있게 하도록 제공된다. 본 명세서에서 도시되고 설명된 플로우차트들, 블록 다이어그램들, 및 다른 구조들은 단지 예들일 뿐, 이들 구조들의 다른 변형은 또한 본 개시의 범위 내에 있다. 이들 구성들에 대한 다양한 변형들이 가능하고, 본 명세서에서 제시된 일반 원리들은 다른 구성들에도 적용될 수도 있다. 따라서, 본 개시는 상기 도시된 구성들로 제한되도록 의도되지 않고, 오리지널 개시의 일부분을 형성하는 제출된 첨부 청구항들을 포함한 본 명세서에 임의의 방식으로 개시된 원리들 및 새로운 특징들과 부합하는 최광의 범위를 부여받도록 의도된다.

당업자는 임의의 다양한 서로 다른 기술들 및 기법들을 이용하여 정보 및 신호들이 표현될 수도 있음을 이해할 것이다. 예를 들어, 상기 설명 전반에 걸쳐 참조될 수도 있는 데이터, 명령들, 커맨드(command)들, 정보, 신호들, 비트들, 및 심볼들은 전압, 전류, 전자기파, 자계 또는 자성 입자, 광계 또는 광자, 또는 이들의 임의의 조합에 의해 표현될 수도 있다.

본 명세서에 개시된 바와 같은 구성의 구현을 위한 중요한 설계 요건들은, 특히, 압축된 오디오 또는 시청각 정보 (예를 들어, 본 명세서에서 식별된 예들 중 하나와 같이, 압축 포맷에 따라 인코딩된 파일 또는 스트림) 의 플레이백과 같은 계산 집약형 어플리케이션들, 또는 광대역 통신 (예를 들어, 12, 16, 44.1, 48, 또는 192 kHz 와 같이 8 킬로헤르쯔 초과의 샘플링 레이트들에서의 음성 통신) 을 위한 어플리케이션들에 대해, 프로세싱 지연 및/또는 계산 복잡도 (통상적으로, 초당 수백만의 명령들, 즉, MIPS 로 측정됨) 를 최소화하는 것을 포함할 수도 있다.

다중-마이크로폰 프로세싱 시스템의 목적들은 전체 잡음 감소에 있어서 10 내지 12 dB 를 달성하는 것, 원하는 화자의 움직임 동안 음성 레벨 및 음색을 보존하는 것, 잡음이 공격적인 잡음 제거 대신에 백그라운드로 이동되었다는 지각을 획득하는 것, 스피치의 잔향제거, 및/또는 더 공격적인 잡음 감소를 위한 후처리의 옵션을 가능케 하는 것을 포함할 수도 있다.

본 명세서에서 개시된 바와 같은 장치 (예를 들어, 장치 (A100, A110, A120, A130, A140, A210, A220, A300, 및 MF100)) 는, 의도된 어플리케이션에 적절한 것으로 간주되는 소프트웨어와 및/또는 펌웨어와 하드웨어의 임의의 조합으로 구현될 수도 있다. 예를 들어, 그러한 장치의 엘리먼트들은, 예를 들어, 칩셋 내의 2 이상의 칩들 사이에 또는 동일한 칩 상에 상주하는 전자 디바이스 및/또는 광학 디바이스로서 제조될 수도 있다. 그러한 디바이스의 일 예는 트랜지스터들 또는 로직 게이트들과 같은 로직 엘리먼트들의 고정된 또는 프로그래머블 어레이이고, 임의의 이들 엘리먼트들은 하나 이상의 그러한 어레이들로서 구현될 수도 있다. 이들 엘리먼트들 중 임의의 2 이상 또는 심지어 그 모두는 동일한 어레이 또는 어레이들 내에서 구현될 수도 있다. 그러한 어레이 또는 어레이들은 하나 이상의 칩들 내에서 (예를 들어, 2 이상의 칩들을 포함하는 칩셋 내에서) 구현될 수도 있다.

본 명세서에 개시된 장치의 다양한 구현들의 하나 이상의 엘리먼트들 (예를 들어, 장치들 (A100, A110, A120, A130, A140, A210, A220, A300, 및 MF100)) 은 마이크로프로세서들, 임베디드 프로세서들, IP 코어들, 디지털 신호 프로세서들, FPGA들 (field-programmable gate arrays), ASSP들 (application-specific standard products), 및 ASIC들 (application-specific integrated circuits) 과 같은 로직 엘리먼트들의 하나 이상의 고정된 또는 프로그래머블 어레이들 상에서 실행하도록 배열된 명령들의 하나 이상의 세트들로서 전부 또는 부분적으로 구현될 수도 있다. 본 명세서에 개시된 바와 같은 장치의 일 구현의 임의의 다양한 엘리먼트들은 또한, 하나 이상의 컴퓨터들 (예를 들어, 명령들의 하나 이상의 세트들 또는 시퀀스들을 실행하도록 프로그래밍된 하나 이상의 어레이들을 포함하는 머신들, 또는 "프로세서들" 로서도 지칭됨), 및 그러한 동일한 컴퓨터 또는 컴퓨터들 내에서 구현될 수도 있는 이들 엘리먼트들의 임의의 2개 이상 또는 심지어 그 모두로서 구현될 수도 있다.

본 명세서에 개시된 바와 같은 프로세싱을 위한 프로세서 또는 다른 수단은, 예를 들어, 칩셋 내의 동일한 칩 상에 또는 2 이상의 칩들 사이에 상주하는 하나 이상의 전자 및/또는 광학 디바이스들로서 제조될 수도 있다. 그러한 디바이스의 일 예는 트랜지스터들 또는 로직 게이트들과 같은 로직 엘리먼트들의 고정된 또는 프로그래머블 어레이이고, 임의의 이들 엘리먼트들은 하나 이상의 그러한 어레이들로서 구현될 수도 있다. 그러한 어레이 또는 어레이들은 하나 이상의 칩들 내에서 (예를 들어, 2 이상의 칩들을 포함하는 칩셋 내에서) 구현될 수도 있다. 그러한 어레이들의 예들은 마이크로프로세서들, 임베디드 프로세서들, IP 코어들, DSP들, FPGA들, ASSP들, 및 ASIC들과 같은 로직 엘리먼트들의 고정된 또는 프로그래머블 어레이들을 포함한다. 본 명세서에 개시된 바와 같은 프로세싱을 위한 프로세서 또는 다른 수단은 또한, 하나 이상의 컴퓨터들 (예를 들어, 명령들의 하나 이상의 세트들 또는 시퀀스들을 실행하도록 프로그래밍된 하나 이상의 어레이들을 포함하는 머신들) 또는 다른 프로세서들로서 구현될 수도 있다. 본 명세서에서 설명된 프로세서는, 프로세서가 임베딩된 디바이스 또는 시스템 (예를 들어, 오디오 감지 디바이스) 의 다른 동작에 관한 태스크와 같은 방법 (M100) 의 일 구현의 절차에 직접 관련되지 않은 태스크들을 수행하거나 명령들의 다른 세트들을 실행하는데 이용되는 것이 가능하다. 또한, 본 명세서에 개시된 바와 같은 방법의 일부는 오디오 감지 디바이스의 프로세서에 의해 수행되고 그 방법의 또다른 일부는 하나 이상의 다른 프로세서들의 제어 하에서 수행되는 것이 가능하다.

당업자는, 본 명세서에 개시된 구성들과 관련하여 설명된 다양한 예시적인 모듈들, 논리 블록들, 회로들, 및 테스트들과 다른 동작들이 전자 하드웨어, 컴퓨터 소프트웨어, 또는 이들 양자의 조합으로서 구현될 수도 있음을 인식할 것이다. 그러한 모듈들, 논리 블록들, 회로들, 및 동작들은 범용 프로세서, 디지털 신호 프로세서 (DSP), ASIC 또는 ASSP, FPGA 또는 다른 프로그래머블 로직 디바이스, 별개의 게이트 또는 트랜지스터 로직, 별개의 하드웨어 컴포넌트들, 또는 본 명세서에 개시된 바와 같은 구성을 생성하도록 설계되는 이들의 임의의 조합으로 구현 또는 수행될 수도 있다. 예를 들어, 그러한 구성은 하드-와이어드 회로로서, 주문형 집적회로로 제조된 회로 구성으로서, 또는 머신 판독가능 코드로서 데이터 저장 매체로부터 또는 데이터 저장 매체로 로딩된 소프트웨어 프로그램이나 비휘발성 저장부로 로딩된 펌웨어 프로그램으로서 적어도 부분적으로 구현될 수도 있으며, 그러한 코드는 범용 프로세서 또는 다른 디지털 신호 프로세싱 유닛과 같은 로직 엘리먼트들의 어레이에 의해 실행가능한 명령들이다. 범용 프로세서는 마이크로프로세서일 수도 있지만, 대안적으로, 그 프로세서는 임의의 종래의 프로세서, 제어기, 마이크로 제어기, 또는 상태 머신일 수도 있다. 또한, 프로세서는 컴퓨팅 디바이스들의 조합, 예를 들어, DSP 와 마이크로프로세서의 조합, 복수의 마이크로프로세서들, DSP 코어와 결합된 하나 이상의 마이크로프로세서들, 또는 임의의 기타 다른 구성물로서 구현될 수도 있다. 소프트웨어 모듈은 RAM (random-access memory), ROM (read-only memory), 플래시 RAM 과 같은 비휘발성 RAM (NVRAM), 소거가능 프로그래머블 ROM (EPROM), 전기적으로 소거가능 프로그래머블 ROM (EEPROM), 레지스터들, 하드 디스크, 착탈가능 디스크, 또는 CD-ROM 과 같은 비-일시적 저장 매체에; 또는 당업계에 공지된 임의의 다른 형태의 저장 매체에 상주할 수도 있다. 예시적인 저장 매체는 프로세서에 커플링되고, 그러한 프로세서는 저장 매체로부터 정보를 판독하고 저장 매체에 정보를 기입할 수 있다. 대안적으로, 저장 매체는 프로세서에 통합될 수도 있다. 프로세서 및 저장 매체는 ASIC 에 상주할 수도 있다. ASIC 는 사용자 단말기에 상주할 수도 있다. 대안적으로, 프로세서 및 저장 매체는 사용자 단말기에 별개의 컴포넌트들로서 상주할 수도 있다.

본 명세서에 개시된 다양한 방법들 (예를 들어, 본 명세서에서 설명된 다양한 장치의 동작에 대하여 개시된 방법들 (N100, N200, N300, 및 M100) 및 다른 방법들) 은 프로세서와 같은 로직 엘리먼트들의 어레이에 의해 수행될 수도 있고 본 명세서에서 설명된 바와 같은 장치의 다양한 엘리먼트들은 그러한 어레이 상에서 실행하도록 설계된 모듈들로서 구현될 수도 있음을 유의한다. 본 명세서에서 사용된 바와 같이, 용어 "모듈" 또는 "하위-모듈" 은 임의의 방법, 장치, 디바이스, 유닛, 또는 컴퓨터 명령들 (예를 들어, 논리식들) 을 소프트웨어, 하드웨어 또는 펌웨어 형태로 포함하는 컴퓨터 판독가능 데이터 저장 매체를 지칭할 수 있다. 다중의 모듈들 또는 시스템들이 하나의 모듈 또는 시스템으로 결합될 수 있고 또한 하나의 모듈 또는 시스템이 동일한 기능들을 수행하기 위해 다중의 모듈들 또는 시스템들로 분리될 수 있음을 이해해야 한다. 소프트웨어 또는 다른 컴퓨터 실행가능 명령들로 구현될 경우, 프로세스의 엘리먼트들은 본질적으로, 루틴들, 프로그램들, 오브젝트들, 컴포넌트들, 데이터 구조들 등을 갖는 것과 같은 관련 태스크들을 수행하기 위한 코드 세그먼트들이다. 용어 "소프트웨어" 는 소스 코드, 어셈블리 언어 코드, 머신 코드, 바이너리 코드, 펌웨어, 매크로코드, 마이크로코드, 로직 엘리먼트들의 어레이에 의해 실행가능한 명령들의 임의의 하나 이상의 세트들 또는 시퀀스들, 및 그러한 예들의 임의의 조합을 포함하도록 이해되어야 한다. 프로그램 또는 코드 세그먼트들은 프로세서 판독가능 매체에 저장되거나, 송신 매체 또는 통신 링크를 통해 캐리어파로 구현된 컴퓨터 데이터 신호에 의해 송신될 수 있다.

본 명세서에 개시된 방법들, 방식들, 및 기술들의 구현들은 또한, 로직 엘리먼트들 (예를 들어, 프로세서, 마이크로프로세서, 마이크로 제어기, 또는 다른 유한 상태 머신) 의 어레이를 포함하는 머신에 의해 실행가능한 명령들의 하나 이상의 세트들로서 (예를 들어, 본 명세서에 리스트된 바와 같은 하나 이상의 컴퓨터 판독가능 저장 매체의 유형의 컴퓨터 판독가능 특징들로) 명백히 구현될 수도 있다. 용어 "컴퓨터 판독가능 매체" 는 휘발성, 비휘발성, 착탈가능형, 및 비-착탈가능형 저장 매체를 포함하여, 정보를 저장 또는 전송할 수 있는 임의의 매체를 포함할 수도 있다. 컴퓨터 판독가능 매체의 예들은 전자 회로, 반도체 메모리 디바이스, ROM, 플래시 메모리, 소거가능 ROM (EROM), 플로피 디스켓 또는 다른 자기 저장부, CD-ROM/DVD 또는 다른 광학 저장부, 원하는 정보를 저장하는데 이용될 수 있는 하드 디스크 또는 임의의 다른 매체, 광섬유 매체, 무선 주파수 (RF) 링크, 또는 원하는 정보를 수록하는데 이용될 수 있고 액세스될 수 있는 임의의 다른 매체를 포함한다. 컴퓨터 데이터 신호는 전자 네트워크 채널들, 광섬유들, 에러, 전자기, RF 링크들 등과 같은 송신 매체를 통해 전파될 수 있는 임의의 신호를 포함할 수도 있다. 코드 세그먼트들은 인터넷 또는 인트라넷과 같은 컴퓨터 네트워크들을 통해 다운로드될 수도 있다. 어떤 경우라도, 본 개시의 범위는 그러한 실시형태들에 의해 제한되는 것으로서 해석되지 않아야 한다.

본 명세서에서 설명된 방법들의 태스크들 각각은 하드웨어에서 직접, 프로세서에 의해 실행되는 소프트웨어 모듈에서, 또는 이 둘의 조합에서 구현될 수도 있다. 본 명세서에 개시된 바와 같은 방법의 일 구현의 통상의 어플리케이션에 있어서, 로직 엘리먼트들 (예를 들어, 로직 게이트들) 의 어레이는 그 방법의 다양한 태스크들 중 하나, 하나 초과, 또는 심지어 그 모두를 수행하도록 구성된다. 그 태스크들 중 하나 이상 (가능하게는, 그 모두) 은 또한, 로직 엘리먼트들 (예를 들어, 프로세서, 마이크로프로세서, 마이크로 제어기, 또는 다른 유한 상태 머신) 의 어레이를 포함하는 머신 (예를 들어, 컴퓨터) 에 의해 판독가능하고/하거나 실행가능한 컴퓨터 프로그램 제품 (예를 들어, 디스크들, 플래시 또는 다른 비휘발성 메모리 카드들, 반도체 메모리 칩들 등과 같은 하나 이상의 데이터 저장 매체) 에 수록된 코드 (예를 들어, 명령들의 하나 이상의 세트들) 로서 구현될 수도 있다. 본 명세서에 개시된 바와 같은 방법의 일 구현의 태스크들은 또한 하나 초과의 그러한 어레이 또는 머신에 의해 수행될 수도 있다. 이들 또는 다른 구현들에 있어서, 그 태스크들은 셀룰러 전화기 또는 그러한 통신 능력을 갖는 다른 디바이스와 같은 무선 통신용 디바이스 내에서 수행될 수도 있다. 그러한 디바이스는 (예를 들어, VoIP 와 같은 하나 이상의 프로토콜들을 이용하여) 서킷-스위칭 및/또는 패킷-스위칭 네트워크들과 통신하도록 구성될 수도 있다. 예를 들어, 그러한 디바이스는 인코딩된 프레임들을 수신 및/또는 송신하도록 구성된 RF 회로를 포함할 수도 있다.

본 명세서에 개시된 다양한 방법들은 핸드셋, 헤드셋, 스마트폰, 또는 태블릿 컴퓨터와 같은 휴대용 통신 디바이스에 의해 수행될 수도 있고 또한 본 명세서에서 설명된 다양한 장치는 그러한 디바이스 내에 포함될 수도 있음이 명확하게 개시된다. 통상의 실시간 (예를 들어, 온라인) 어플리케이션은 그러한 모바일 디바이스를 이용하여 수행된 전화 통화이다.

하나 이상의 예시적인 실시형태들에 있어서, 본 명세서에서 설명된 동작들은 하드웨어, 소프트웨어, 펌웨어, 또는 이들의 임의의 조합으로 구현될 수도 있다. 소프트웨어로 구현된다면, 그러한 동작들은 하나 이상의 명령들 또는 코드로서 컴퓨터 판독가능 매체 상에 저장되거나 송신될 수도 있다. 용어 "컴퓨터 판독가능 매체" 는 컴퓨터 판독가능 저장 매체 및 통신 (예를 들어, 송신) 매체 양자를 포함한다. 한정이 아닌 예로써, 컴퓨터 판독가능 저장 매체는 반도체 메모리 (동적 또는 정적 RAM, ROM, EEPROM, 및/또는 플래시 RAM 을 제한없이 포함할 수도 있음), 또는 강유전성, 자기저항성, 오보닉, 중합성 또는 상변화 메모리; CD-ROM 또는 다른 광학 디스크 저장부; 및/또는 자기 디스크 저장부 또는 다른 자기 저장 디바이스들과 같은 저장 엘리먼트들의 어레이를 포함할 수 있다. 그러한 저장 매체는, 컴퓨터에 의해 액세스될 수 있는 명령들 또는 데이터 구조들의 형태로 정보를 저장할 수도 있다. 통신 매체는, 컴퓨터 프로그램의 일 장소로부터 다른 장소로의 전송을 용이하게 하는 임의의 매체를 포함하여, 원하는 프로그램 코드를 명령들 또는 데이터 구조들의 형태로 반송하는데 이용될 수 있고 컴퓨터에 의해 액세스될 수 있는 임의의 매체를 포함할 수 있다. 또한, 임의의 접속체가 컴퓨터 판독가능 매체로 적절히 명명된다. 예를 들어, 동축 케이블, 광섬유 케이블, 꼬임쌍선, 디지털 가입자 라인 (DSL), 또는 적외선, 무선, 및 마이크로파와 같은 무선 기술들을 이용하여 웹사이트, 서버, 또는 다른 원격 소스로부터 소프트웨어가 송신된다면, 동축 케이블, 광섬유 케이블, 꼬임쌍선, DSL, 또는 적외선, 무선, 및 마이크로파와 같은 무선 기술은 매체의 정의에 포함된다. 본 명세서에서 사용되는 바와 같은 디스크 (disk) 및 디스크 (disc) 는 컴팩트 디스크 (CD), 레이저 디스크, 광학 디스크, 디지털 다기능 디스크 (DVD), 플로피 디스크 및 블루레이 디스크™ (캐나다, 유니버설 시티, 블루레이 디스크 협회) 를 포함하며, 여기서, 디스크 (disk) 는 통상적으로 데이터를 자기적으로 재생하지만 디스크 (disc) 는 데이터를 레이저로 광학적으로 재생한다. 상기의 조합들이 또한 컴퓨터 판독가능 매체의 범위 내에 포함되어야 한다.

본 명세서에 설명된 바와 같은 음향 신호 프로세싱 장치는 특정 동작들을 제어하기 위해 스피치 입력을 수용하는 전자 디바이스에 통합될 수도 있거나, 그렇지 않으면, 통신 디바이스들과 같이 백그라운드 잡음들로부터 원하는 잡음들의 분리로 이익을 얻을 수도 있다. 다수의 어플리케이션들은 다중의 방향들로부터 발신하는 백그라운드 사운드들로부터 분명한 소망의 사운드를 강화시키거나 분리하는 것으로 이익을 얻을 수도 있다. 그러한 어플리케이션들은, 음성 인식 및 검출, 스피치 강화 및 분리, 음성 활성화된 제어 등과 같은 능력들을 통합하는 전자 또는 컴퓨팅 디바이스들에 휴먼-머신 인터페이스들을 포함할 수도 있다. 그러한 음향 신호 프로세싱 장치를, 오직 제한된 프로세싱 능력들만을 제공하는 디바이스들에 적당하게 구현하는 것이 바람직할 수도 있다.

본 명세서에서 설명된 모듈들, 엘리먼트들, 및 디바이스들의 다양한 구현들의 엘리먼트들은 예를 들어, 칩셋 내 동일한 칩 상에 또는 2 이상의 칩들 사이에 상주하는 전자 및/또는 광학 디바이스들로서 제조될 수도 있다. 그러한 디바이스의 일 예는 트랜지스터들 또는 게이트들과 같은 로직 엘리먼트들의 고정된 또는 프로그래머블 어레이이다. 본 명세서에서 설명된 장치의 다양한 구현들의 하나 이상의 엘리먼트들은 또한, 마이크로프로세서들, 임베디드 프로세서들, IP 코어들, 디지털 신호 프로세서들, FPGA들, ASSP들, 및 ASIC들과 같은 로직 엘리먼트들의 하나 이상의 고정된 또는 프로그래머블 어레이들 상에서 실행하도록 배열된 명령들의 하나 이상의 세트들로서 전부 또는 부분적으로 구현될 수도 있다.

본 명세서에서 설명된 바와 같은 장치의 일 구현의 하나 이상의 엘리먼트들은, 그 장치가 임베딩된 디바이스 또는 시스템의 다른 동작에 관한 태스크와 같이 장치의 동작에 직접 관련되지 않은 태스크들을 수행하거나 명령들의 다른 세트들을 실행하는데 이용되는 것이 가능하다. 또한, 그러한 장치의 일 구현의 하나 이상의 엘리먼트들은 공통인 구조를 갖는 것이 가능하다 (예를 들어, 상이한 엘리먼트들에 대응하는 코드의 부분들을 상이한 횟수로 실행하도록 이용되는 프로세서, 상이한 엘리먼트들에 대응하는 태스크들을 상이한 횟수로 수행하도록 실행되는 명령들의 세트, 또는 상이한 엘리먼트들에 대한 동작들을 상이한 횟수로 수행하는 전자 및/또는 광학 디바이스들의 배열).

Claims

오디오 신호 프로세싱 방법으로서,
제 1 쌍의 마이크로폰들에 의해 수신된 제 1 사운드 컴포넌트의, 상기 제 1 쌍의 마이크로폰들에 대한 제 1 도달 방향 표시를 계산하는 단계;
제 2 쌍의 마이크로폰들에 의해 수신된 제 2 사운드 컴포넌트의, 상기 제 1 쌍과는 분리된 상기 제 2 쌍의 마이크로폰들에 대한 제 2 도달 방향 표시를 계산하는 단계; 및
상기 제 1 도달 방향 표시 및 상기 제 2 도달 방향 표시에 기초하여, 출력 신호를 생성하기 위해 오디오 신호의 이득을 제어하는 단계를 포함하고,
상기 제 1 쌍의 마이크로폰들은 사용자의 머리의 정중시상면 (midsagittal plane) 의 제 1 측에 위치되고,
상기 제 2 쌍의 마이크로폰들은 상기 제 1 측에 반대편인 정중시상면의 제 2 측에 위치되는, 오디오 신호 프로세싱 방법.
제 1 항에 있어서,
상기 오디오 신호는 상기 제 1 쌍 및 상기 제 2 쌍 중 적어도 하나의 마이크로폰에 의해 생성된 신호로부터의 오디오-주파수 에너지를 포함하는, 오디오 신호 프로세싱 방법.
제 1 항에 있어서,
상기 오디오 신호는 음성 마이크로폰에 의해 생성된 신호로부터의 오디오-주파수 에너지를 포함하고,
상기 음성 마이크로폰은, 상기 제 1 쌍 및 상기 제 2 쌍의 마이크로폰들 각각의 적어도 하나의 마이크로폰보다 상기 사용자의 음성의 중앙 출구 포인트에 더 근접한 사용자 머리의 관상면에 위치되는, 오디오 신호 프로세싱 방법.
제 1 항에 있어서,
상기 오디오 신호 프로세싱 방법은, 상기 출력 신호의 오디오-주파수 에너지에 기초하여, 복수의 선형 예측 코딩 필터 계수들을 계산하는 단계를 포함하는, 오디오 신호 프로세싱 방법.
제 1 항에 있어서,
상기 제 1 도달 방향 표시를 계산하는 단계는, 상기 제 1 쌍의 마이크로폰들에 의해 생성된 신호들에 기초하는 다중채널 신호의 복수의 상이한 주파수 컴포넌트들 중 각각에 대해, 상기 다중채널 신호의 제 1 채널에서의 주파수 컴포넌트의 위상과 상기 다중채널 신호의 제 2 채널에서의 주파수 컴포넌트의 위상 간의 차이를 계산하는 단계를 포함하는, 오디오 신호 프로세싱 방법.
제 1 항에 있어서,
상기 제 1 쌍의 마이크로폰들의 위치들은 제 1 축을 따르고,
상기 제 2 쌍의 마이크로폰들의 위치들은 제 2 축을 따르며,
상기 제 1 축 및 상기 제 2 축 중 각각은, 상기 정중시상면에 수직인 라인에 대한 평행으로부터 45도 이하인, 오디오 신호 프로세싱 방법.
제 6 항에 있어서,
상기 제 1 축 및 상기 제 2 축 중 각각은, 상기 정중시상면에 수직인 라인에 대한 평행으로부터 30도 이하인, 오디오 신호 프로세싱 방법.
제 6 항에 있어서,
상기 제 1 축 및 상기 제 2 축 중 각각은, 상기 정중시상면에 수직인 라인에 대한 평행으로부터 20도 이하인, 오디오 신호 프로세싱 방법.
제 1 항 내지 제 8 항 중 어느 한 항에 있어서,
상기 이득을 제어하는 단계는, 상기 제 1 도달 방향 표시 및 상기 제 2 도달 방향 표시 양자가 상기 정중시상면을 교차하는 도달 방향들을 나타내는 것을 판정하는 단계를 포함하는, 오디오 신호 프로세싱 방법.
제 1 항 내지 제 8 항 중 어느 한 항에 있어서,
상기 이득을 제어하는 단계는, 상기 제 1 도달 방향 표시 및 상기 제 2 도달 방향 표시 양자가 상기 정중시상면을 교차하는 도달 방향들을 나타내지 않으면, 상기 오디오 신호를 감쇄하는 단계를 포함하는, 오디오 신호 프로세싱 방법.
제 1 항 내지 제 8 항 중 어느 한 항에 있어서,
상기 이득을 제어하는 단계는, 상기 정중시상면으로부터 이격된 대응하는 도달 방향을 나타내는 상기 제 1 도달 방향 표시 및 상기 제 2 도달 방향 표시 중 적어도 하나에 응답하여 상기 오디오 신호를 감쇄하는 단계를 포함하는, 오디오 신호 프로세싱 방법.
제 11 항에 있어서,
상기 오디오 신호 프로세싱 방법은, 상기 정중시상면을 교차하는 대응하는 도달 방향을 나타내는 상기 제 1 도달 방향 표시 및 상기 제 2 도달 방향 표시 양자에 응답하여 제 2 오디오 신호를 감쇄하는 단계를 포함하고,
상기 제 2 오디오 신호는 상기 제 1 쌍 및 상기 제 2 쌍 중 적어도 하나의 마이크로폰에 의해 생성된 신호로부터의 오디오-주파수 에너지를 포함하는, 오디오 신호 프로세싱 방법.
제 1 항 내지 제 8 항 중 어느 한 항에 있어서,
상기 이득을 제어하는 단계는, 상기 정중시상면을 교차하는 대응하는 도달 방향을 나타내는 상기 제 1 도달 방향 표시 및 상기 제 2 도달 방향 표시 양자에 응답하여 상기 오디오 신호를 감쇄하는 단계를 포함하는, 오디오 신호 프로세싱 방법.
제 13 항에 있어서,
상기 오디오 신호 프로세싱 방법은,
상기 출력 신호에 기초하는 신호와 재생된 오디오 신호를 믹싱하여 믹싱된 신호를 생성하는 단계; 및
상기 사용자의 귀에 착용되고 상기 사용자의 대응하는 고막에 지향되는 확성기를 구동하여, 상기 믹싱된 신호에 기초하는 음향 신호를 생성하는 단계를 포함하는, 오디오 신호 프로세싱 방법.
제 1 항 내지 제 8 항 중 어느 한 항에 있어서,
상기 오디오 신호 프로세싱 방법은, 상기 사용자의 귀에 착용되고 상기 사용자의 대응하는 고막에 지향되는 확성기를 구동하여, 상기 출력 신호에 기초하는 음향 신호를 생성하는 단계를 포함하는, 오디오 신호 프로세싱 방법.
제 1 항 내지 제 8 항 중 어느 한 항에 있어서,
상기 제 1 쌍은 상기 제 2 쌍으로부터 적어도 10 센티미터만큼 분리되는, 오디오 신호 프로세싱 방법.
오디오 신호 프로세싱 장치로서,
제 1 쌍의 마이크로폰들에 의해 수신된 제 1 사운드 컴포넌트의, 상기 제 1 쌍의 마이크로폰들에 대한 제 1 도달 방향 표시를 계산하는 수단;
제 2 쌍의 마이크로폰들에 의해 수신된 제 2 사운드 컴포넌트의, 상기 제 1 쌍과는 분리된 상기 제 2 쌍의 마이크로폰들에 대한 제 2 도달 방향 표시를 계산하는 수단; 및
상기 제 1 도달 방향 표시 및 상기 제 2 도달 방향 표시에 기초하여, 오디오 신호의 이득을 제어하는 수단을 포함하고,
상기 제 1 쌍의 마이크로폰들은 사용자의 머리의 정중시상면의 제 1 측에 위치되고,
상기 제 2 쌍의 마이크로폰들은 상기 제 1 측에 반대편인 정중시상면의 제 2 측에 위치되는, 오디오 신호 프로세싱 장치.
제 17 항에 있어서,
상기 오디오 신호는 상기 제 1 쌍 및 상기 제 2 쌍 중 적어도 하나의 마이크로폰에 의해 생성된 신호로부터의 오디오-주파수 에너지를 포함하는, 오디오 신호 프로세싱 장치.
제 17 항에 있어서,
상기 오디오 신호는 음성 마이크로폰에 의해 생성된 신호로부터의 오디오-주파수 에너지를 포함하고,
상기 음성 마이크로폰은, 상기 제 1 쌍 및 상기 제 2 쌍의 마이크로폰들 각각의 적어도 하나의 마이크로폰보다 상기 사용자의 음성의 중앙 출구 포인트에 더 근접한 사용자 머리의 관상면에 위치되는, 오디오 신호 프로세싱 장치.
제 17 항에 있어서,
상기 오디오 신호 프로세싱 장치는, 상기 출력 신호의 오디오-주파수 에너지에 기초하여, 복수의 선형 예측 코딩 필터 계수들을 계산하는 수단을 포함하는, 오디오 신호 프로세싱 장치.
제 17 항에 있어서,
상기 제 1 도달 방향 표시를 계산하는 수단은, 상기 제 1 쌍의 마이크로폰들에 의해 생성된 신호들에 기초하는 다중채널 신호의 복수의 상이한 주파수 컴포넌트들 중 각각에 대해, 상기 다중채널 신호의 제 1 채널에서의 주파수 컴포넌트의 위상과 상기 다중채널 신호의 제 2 채널에서의 주파수 컴포넌트의 위상 간의 차이를 계산하는 수단을 포함하는, 오디오 신호 프로세싱 장치.
제 17 항에 있어서,
상기 제 1 쌍의 마이크로폰들의 위치들은 제 1 축을 따르고,
상기 제 2 쌍의 마이크로폰들의 위치들은 제 2 축을 따르며,
상기 제 1 축 및 상기 제 2 축 중 각각은, 상기 정중시상면에 수직인 라인에 대한 평행으로부터 45도 이하인, 오디오 신호 프로세싱 장치.
제 22 항에 있어서,
상기 제 1 축 및 상기 제 2 축 중 각각은, 상기 정중시상면에 수직인 라인에 대한 평행으로부터 30도 이하인, 오디오 신호 프로세싱 장치.
제 22 항에 있어서,
상기 제 1 축 및 상기 제 2 축 중 각각은, 상기 정중시상면에 수직인 라인에 대한 평행으로부터 20도 이하인, 오디오 신호 프로세싱 장치.
제 17 항 내지 제 24 항 중 어느 한 항에 있어서,
상기 이득을 제어하는 수단은, 상기 제 1 도달 방향 표시 및 상기 제 2 도달 방향 표시 양자가 상기 정중시상면을 교차하는 도달 방향들을 나타내는 것을 판정하는 수단을 포함하는, 오디오 신호 프로세싱 장치.
제 17 항 내지 제 24 항 중 어느 한 항에 있어서,
상기 이득을 제어하는 수단은, 상기 제 1 도달 방향 표시 및 상기 제 2 도달 방향 표시 양자가 상기 정중시상면을 교차하는 도달 방향들을 나타내지 않으면, 상기 오디오 신호를 감쇄하는 수단을 포함하는, 오디오 신호 프로세싱 장치.
제 17 항 내지 제 24 항 중 어느 한 항에 있어서,
상기 이득을 제어하는 수단은, 상기 정중시상면으로부터 이격된 대응하는 도달 방향을 나타내는 상기 제 1 도달 방향 표시 및 상기 제 2 도달 방향 표시 중 적어도 하나에 응답하여 상기 오디오 신호를 감쇄하는 수단을 포함하는, 오디오 신호 프로세싱 장치.
제 27 항에 있어서,
상기 오디오 신호 프로세싱 장치는, 상기 정중시상면을 교차하는 대응하는 도달 방향을 나타내는 상기 제 1 도달 방향 표시 및 상기 제 2 도달 방향 표시 양자에 응답하여 제 2 오디오 신호를 감쇄하는 수단을 포함하고,
상기 제 2 오디오 신호는 상기 제 1 쌍 및 상기 제 2 쌍 중 적어도 하나의 마이크로폰에 의해 생성된 신호로부터의 오디오-주파수 에너지를 포함하는, 오디오 신호 프로세싱 장치.
제 17 항 내지 제 24 항 중 어느 한 항에 있어서,
상기 이득을 제어하는 수단은, 상기 정중시상면을 교차하는 대응하는 도달 방향을 나타내는 상기 제 1 도달 방향 표시 및 상기 제 2 도달 방향 표시 양자에 응답하여 상기 오디오 신호를 감쇄하는 수단을 포함하는, 오디오 신호 프로세싱 장치.
제 29 항에 있어서,
상기 오디오 신호 프로세싱 장치는,
상기 출력 신호에 기초하는 신호와 재생된 오디오 신호를 믹싱하여 믹싱된 신호를 생성하는 수단; 및
상기 사용자의 귀에 착용되고 상기 사용자의 대응하는 고막에 지향되는 확성기를 구동하여, 상기 믹싱된 신호에 기초하는 음향 신호를 생성하는 수단을 포함하는, 오디오 신호 프로세싱 장치.
제 17 항 내지 제 24 항 중 어느 한 항에 있어서,
상기 오디오 신호 프로세싱 장치는, 상기 사용자의 귀에 착용되고 상기 사용자의 대응하는 고막에 지향되는 확성기를 구동하여, 상기 출력 신호에 기초하는 음향 신호를 생성하는 수단을 포함하는, 오디오 신호 프로세싱 장치.
제 17 항 내지 제 24 항 중 어느 한 항에 있어서,
상기 제 1 쌍은 상기 제 2 쌍으로부터 적어도 10 센티미터만큼 분리되는, 오디오 신호 프로세싱 장치.
오디오 신호 프로세싱 장치로서,
상기 오디오 신호 프로세싱 장치의 사용 동안, 사용자의 머리의 정중시상면의 제 1 측에 위치되도록 구성된 제 1 쌍의 마이크로폰들;
상기 오디오 신호 프로세싱 장치의 사용 동안, 상기 제 1 측에 반대편인 정중시상면의 제 2 측에 위치되도록 구성되고 상기 제 1 쌍과는 분리된 제 2 쌍의 마이크로폰들;
상기 제 1 쌍의 마이크로폰들에 의해 수신된 제 1 사운드 컴포넌트의, 상기 제 1 쌍의 마이크로폰들에 대한 제 1 도달 방향 표시를 계산하도록 구성된 제 1 방향 표시 계산기;
상기 제 2 쌍의 마이크로폰들에 의해 수신된 제 2 사운드 컴포넌트의, 상기 제 2 쌍의 마이크로폰들에 대한 제 2 도달 방향 표시를 계산하도록 구성된 제 2 방향 표시 계산기; 및
상기 제 1 도달 방향 표시 및 상기 제 2 도달 방향 표시에 기초하여, 오디오 신호의 이득을 제어하도록 구성된 이득 제어 모듈을 포함하는, 오디오 신호 프로세싱 장치.
제 33 항에 있어서,
상기 오디오 신호는 상기 제 1 쌍 및 상기 제 2 쌍 중 적어도 하나의 마이크로폰에 의해 생성된 신호로부터의 오디오-주파수 에너지를 포함하는, 오디오 신호 프로세싱 장치.
제 33 항에 있어서,
상기 오디오 신호는 음성 마이크로폰에 의해 생성된 신호로부터의 오디오-주파수 에너지를 포함하고,
상기 음성 마이크로폰은, 상기 제 1 쌍 및 상기 제 2 쌍의 마이크로폰들 각각의 적어도 하나의 마이크로폰보다 상기 사용자의 음성의 중앙 출구 포인트에 더 근접한 사용자 머리의 관상면에 위치되는, 오디오 신호 프로세싱 장치.
제 33 항에 있어서,
상기 오디오 신호 프로세싱 장치는, 상기 출력 신호의 오디오-주파수 에너지에 기초하여, 복수의 선형 예측 코딩 필터 계수들을 계산하도록 구성된 분석 모듈을 포함하는, 오디오 신호 프로세싱 장치.
제 33 항에 있어서,
상기 제 1 방향 표시 계산기는, 상기 제 1 쌍의 마이크로폰들에 의해 생성된 신호들에 기초하는 다중채널 신호의 복수의 상이한 주파수 컴포넌트들 중 각각에 대해, 상기 다중채널 신호의 제 1 채널에서의 주파수 컴포넌트의 위상과 상기 다중채널 신호의 제 2 채널에서의 주파수 컴포넌트의 위상 간의 차이를 계산하도록 구성되는, 오디오 신호 프로세싱 장치.
제 33 항에 있어서,
상기 제 1 쌍의 마이크로폰들의 위치들은 제 1 축을 따르고,
상기 제 2 쌍의 마이크로폰들의 위치들은 제 2 축을 따르며,
상기 제 1 축 및 상기 제 2 축 중 각각은, 상기 정중시상면에 수직인 라인에 대한 평행으로부터 45도 이하인, 오디오 신호 프로세싱 장치.
제 38 항에 있어서,
상기 제 1 축 및 상기 제 2 축 중 각각은, 상기 정중시상면에 수직인 라인에 대한 평행으로부터 30도 이하인, 오디오 신호 프로세싱 장치.
제 38 항에 있어서,
상기 제 1 축 및 상기 제 2 축 중 각각은, 상기 정중시상면에 수직인 라인에 대한 평행으로부터 20도 이하인, 오디오 신호 프로세싱 장치.
제 33 항 내지 제 40 항 중 어느 한 항에 있어서,
상기 이득 제어 모듈은, 상기 제 1 도달 방향 표시 및 상기 제 2 도달 방향 표시 양자가 상기 정중시상면을 교차하는 도달 방향들을 나타내는 것을 판정하도록 구성되는, 오디오 신호 프로세싱 장치.
제 33 항 내지 제 40 항 중 어느 한 항에 있어서,
상기 이득 제어 모듈은, 상기 제 1 도달 방향 표시 및 상기 제 2 도달 방향 표시 양자가 상기 정중시상면을 교차하는 도달 방향들을 나타내지 않으면, 상기 오디오 신호를 감쇄하도록 구성되는, 오디오 신호 프로세싱 장치.
제 33 항 내지 제 40 항 중 어느 한 항에 있어서,
상기 이득 제어 모듈은, 상기 정중시상면으로부터 이격된 대응하는 도달 방향을 나타내는 상기 제 1 도달 방향 표시 및 상기 제 2 도달 방향 표시 중 적어도 하나에 응답하여 상기 오디오 신호를 감쇄하도록 구성되는, 오디오 신호 프로세싱 장치.
제 43 항에 있어서,
상기 오디오 신호 프로세싱 장치는, 상기 정중시상면을 교차하는 대응하는 도달 방향을 나타내는 상기 제 1 도달 방향 표시 및 상기 제 2 도달 방향 표시 양자에 응답하여 제 2 오디오 신호를 감쇄하도록 구성된 제 2 이득 제어 모듈을 포함하고,
상기 제 2 오디오 신호는 상기 제 1 쌍 및 상기 제 2 쌍 중 적어도 하나의 마이크로폰에 의해 생성된 신호로부터의 오디오-주파수 에너지를 포함하는, 오디오 신호 프로세싱 장치.
제 33 항 내지 제 40 항 중 어느 한 항에 있어서,
상기 이득 제어 모듈은, 상기 정중시상면을 교차하는 대응하는 도달 방향을 나타내는 상기 제 1 도달 방향 표시 및 상기 제 2 도달 방향 표시 양자에 응답하여 상기 오디오 신호를 감쇄하도록 구성되는, 오디오 신호 프로세싱 장치.
제 45 항에 있어서,
상기 오디오 신호 프로세싱 장치는,
상기 출력 신호에 기초하는 신호와 재생된 오디오 신호를 믹싱하여 믹싱된 신호를 생성하도록 구성된 믹서; 및
상기 사용자의 귀에 착용되고 상기 사용자의 대응하는 고막에 지향되는 확성기를 구동하여, 상기 믹싱된 신호에 기초하는 음향 신호를 생성하도록 구성된 오디오 출력 스테이지를 포함하는, 오디오 신호 프로세싱 장치.
제 33 항 내지 제 40 항 중 어느 한 항에 있어서,
상기 오디오 신호 프로세싱 장치는, 상기 사용자의 귀에 착용되고 상기 사용자의 대응하는 고막에 지향되는 확성기를 구동하여, 상기 출력 신호에 기초하는 음향 신호를 생성하도록 구성된 오디오 출력 스테이지를 포함하는, 오디오 신호 프로세싱 장치.
제 33 항 내지 제 40 항 중 어느 한 항에 있어서,
상기 오디오 신호 프로세싱 장치의 사용 동안, 상기 제 1 쌍은 상기 제 2 쌍으로부터 적어도 10 센티미터만큼 분리되도록 구성되는, 오디오 신호 프로세싱 장치.
머신에 의해 판독될 경우, 상기 머신으로 하여금 제 1 항 내지 제 16 항 중 어느 한 항에 기재된 방법을 수행하게 하는 유형의 특징들을 갖는 컴퓨터 판독가능 저장 매체.