KR20130043124A

KR20130043124A - 오디오 등화를 위한 시스템들, 방법들, 디바이스들, 장치, 및 컴퓨터 프로그램 제품들

Info

Publication number: KR20130043124A
Application number: KR1020127034400A
Authority: KR
Inventors: 현진 박; 에릭 비제르; 종원 신; ?룽 챈; 사미르 굽타; 안드레 구스타보 스체비우; 렌 리; 제레미 피 토맨
Original assignee: 퀄컴 인코포레이티드
Priority date: 2010-06-01
Filing date: 2011-06-01
Publication date: 2013-04-29
Also published as: US9053697B2; WO2011153283A1; CN102947878B; KR101463324B1; CN102947878A; EP2577657B1; EP2577657A1; JP2013532308A; US20110293103A1

Abstract

잡음방지 신호를 생성하고 재생되는 오디오 신호 (예컨대, 원단 전화 신호) 를 등화시키는 방법들 및 장치로서 신호 생성과 등화가 모두다 음향 에러 신호로부터의 정보에 기초하는 방법들 및 장치가 개시된다.

Description

오디오 등화를 위한 시스템들, 방법들, 디바이스들, 장치, 및 컴퓨터 프로그램 제품들{SYSTEMS, METHODS, DEVICES, APPARATUS, AND COMPUTER PROGRAM PRODUCTS FOR AUDIO EQUALIZATION}

35 U.S.C. §119 우선권 주장

본 특허 출원은 2010년 6월 1일자로 출원된 발명 명칭이 "SYSTEMS, METHODS, APPARATUS, AND COMPUTER PROGRAM PRODUCTS FOR NOISE ESTIMATION AND AUDIO EQUALIZATION"이고 본원의 양수인에게 양도된 가출원 제61/350,436호를 우선권 주장한다.

함께 계류중인 특허 출원들에 대한 참조

본 특허 출원은 다음의 함께 계속중인 미국 특허 출원들에 관계가 있다:

Visser 등에 의해 2008년 11월 24일자로 출원된 발명의 명칭이 "SYSTEMS, METHODS, APPARATUS, AND COMPUTER PROGRAM PRODUCTS FOR ENHANCED INTELLIGIBILITY"이고 본원의 양수인에게 양도된 미국 특허출원 제12/277,283호; 및

Lee 등에 의해 2010년 4월 22일자로 출원된 발명의 명칭이 "SYSTEMS, METHODS, APPARATUS, AND COMPUTER-READABLE MEDIA FOR AUTOMATIC CONTROL OF ACTIVE NOISE CANCELLATION"이고 본원의 양수인에게 양도된 미국 특허출원 제12/765,554호.

분야

이 개시물은 능동 잡음 제거에 관한 것이다.

능동 잡음 제거 (active noise cancellation, ANC, 능동 잡음 감소라고도 불리움) 는 "역위상 (antiphase)" 또는 "잡음방지 (anti-noise)" 파형이라고도 불리는 잡음 파의 역 형상인 (예컨대, 동일한 레벨 및 반전된 위상을 가지는) 파형을 발생시킴으로써 주변의 음향 잡음을 능동적으로 감소시키는 기술이다. ANC 시스템은 일반적으로 하나 이상의 마이크로폰들을 사용하여 외부 잡음 기준 신호를 수집하며, 이 잡음 기준 신호로부터 잡음 방지 파형을 발생하고, 하나 이상의 라우드스피커들을 통해 잡음 방지 파형을 재생한다. 잡음 방지 파형은 원래의 잡음 파와 파괴 간섭을 일으켜 사용자의 귀에 도달하는 잡음의 레벨을 낮춘다.

ANC 시스템은 사용자의 귀를 둘러싸는 셸 (shell) 또는 사용자의 외이도(ear canal)에 삽입되는 이어버드 (earbud) 를 구비할 수도 있다. ANC를 수행하는 디바이스들은 통상 사용자의 귀를 봉입하거나 (예컨대, 귀 폐쇄형 (closed-ear) 헤드폰) 또는 사용자의 외이도 내에 끼워맞춤되는 이어버드 (예컨대, 무선 헤드셋, 이를테면 Bluetooth^TM 헤드셋) 를 구비한다. 통신 애플리케이션들을 위한 헤드폰들에서, 이 기기는 마이크로폰 및 라우드스피커를 포함할 수도 있으며, 여기서 마이크로폰은 사용자의 음성을 전송을 위해 캡처하는데 사용되고 라우드스피커는 수신된 신호를 재생하는데 사용된다. 이러한 경우에서, 마이크로폰은 붐 (boom) 상에 탑재될 수 있고 그리고/또는 라우드스피커는 이어컵 (earcup) 또는 귀마개 (earplug) 에 탑재될 수도 있다.

능동 잡음 제거 기법들은 또한 사운드 재생 기기들, 이를테면 헤드폰들과 개인용 통신 기기들, 이를테면 셀룰러 전화기들에 적용되어, 주변 환경으로부터 음향 잡음을 감소시킬 수도 있다. 이러한 응용들에서, ANC 기법의 사용은 음악과 원단 (far-end) 음성들과 같은 유용한 사운드 신호들을 전달하는 동안 귀에 도달하는 배경 잡음의 레벨을 (예컨대, 20 데시벨까지만큼) 감소시킬 수도 있다.

전반적인 구성에 따른 재생되는 오디오 신호를 처리하는 방법은, 잡음 추정치로부터의 정보에 기초하여, 등화된 오디오 신호를 생성하기 위해 재생되는 오디오 신호의 적어도 하나의 다른 주파수 서브밴드의 진폭에 비하여 재생되는 오디오 신호의 적어도 하나의 주파수 서브밴드의 진폭을 부스팅하는 단계를 포함한다. 이 방법은 또한 등화된 오디오 신호에 기초하는 음향 신호를 생성하기 위하여 사용자의 외이도로 향하는 라우드스피커를 사용하는 단계를 포함한다. 이 방법에서, 잡음 추정치는 사용자의 외이도로 향하는 에러 마이크로폰에 의해 생성된 음향 에러 신호로부터의 정보에 기초한다. 프로세서에 의해 판독되는 경우 프로세서로 하여금 이러한 방법을 수행하도록 하는 유형의 특징들을 포함하는 컴퓨터-판독가능 매체들이 또한 본원에서 개시된다.

전반적인 구성에 따른 재생되는 오디오 신호를 처리하는 장치는, 음향 에러 신호로부터의 정보에 기초하여 잡음 추정치를 생성하도록 구성된 수단, 및 등화된 오디오 신호를 생성하기 위해, 잡음 추정치로부터의 정보에 기초하여, 재생되는 오디오 신호의 적어도 하나의 다른 주파수 서브밴드의 진폭에 비하여 재생되는 오디오 신호의 적어도 하나의 주파수 서브밴드의 진폭을 부스팅하는 수단을 포함한다. 이 장치는 또한 등화된 오디오 신호에 기초하는 음향 신호를 생성하기 위해 장치의 사용 동안 사용자의 외이도로 향하는 라우드스피커를 구비한다. 이 장치에서, 음향 에러 신호는 장치의 사용 동안 사용자의 외이도로 향하는 에러 마이크로폰에 의해 생성된다.

전반적인 구성에 따른 재생되는 오디오 신호를 처리하는 장치는, 음향 에러 신호로부터의 정보에 기초하여 잡음 추정치를 생성하도록 구성된 에코 제거기, 및 등화된 오디오 신호를 생성하기 위해, 잡음 추정치로부터의 정보에 기초하여, 재생되는 오디오 신호의 적어도 하나의 다른 주파수 서브밴드의 진폭에 비하여 재생되는 오디오 신호의 적어도 하나의 주파수 서브밴드의 진폭을 부스팅하도록 구성된 서브밴드 필터 어레이를 구비한다. 이 장치는 또한 등화된 오디오 신호에 기초하는 음향 신호를 생성하기 위해 장치의 사용 동안 사용자의 외이도로 향하는 라우드스피커를 구비한다. 이 장치에서, 음향 에러 신호는 장치의 사용 동안 사용자의 외이도로 향하는 에러 마이크로폰에 의해 생성된다.

도 1a는 전반적인 구성에 따른 디바이스 (D100) 의 블록도를 도시한다.
도 1b는 전반적인 구성에 따른 장치 (A100) 의 블록도를 도시한다.
도 1c는 오디오 입력 스테이지 (AI10) 의 블록도를 도시한다.
도 2a는 오디오 입력 스테이지 (AI10) 의 구현예 (AI20) 의 블록도를 도시한다.
도 2b는 오디오 입력 스테이지 (AI20) 의 구현예 (AI30) 의 블록도를 도시한다.
도 2c는 디바이스 (D100) 내에 구비될 수도 있는 선택기 (SEL10) 를 도시한다.
도 3a는 ANC 모듈 (NC10) 의 구현예 (NC20) 의 블록도를 도시한다.
도 3b는 ANC 모듈 (NC20) 및 에코 제거기 (EC20) 를 구비하는 배치구성의 블록도를 도시한다.
도 3c는 장치 (A100) 내에 구비될 수도 있는 선택기 (SEL20) 를 도시한다.
도 4는 등화기 (EQ10) 의 구현예 (EQ20) 의 블록도를 도시한다.
도 5a는 서브밴드 필터 어레이 (FA100) 의 구현예 (FA120) 의 블록도를 도시한다.
도 5b는 바이쿼드 (biquad) 필터용 전치 직접 형 (transposed direct form) II 구조를 예시한다.
도 6은 바이쿼드 필터의 하나의 예에 대한 크기 및 위상 응답 선도들을 도시한다.
도 7은 7 바이쿼드 필터들의 세트의 각각에 대한 크기 및 위상 응답들을 도시한다.
도 8은 바이쿼드 필터들의 3-스테이지 캐스케이드의 일 예를 도시한다.
도 9a는 디바이스 (D100) 의 구현예 (D110) 의 블록도를 도시한다.
도 9b는 장치 (A100) 의 구현예 (A110) 의 블록도를 도시한다.
도 10a는 잡음 억제 모듈 (NS10) 의 구현예 (NS20) 의 블록도를 도시한다.
도 10b는 잡음 억제 모듈 (NS20) 의 구현예 (NS30) 의 블록도를 도시한다.
도 10c는 장치 (A110) 의 구현예 (A120) 의 블록도를 도시한다.
도 11a는 장치 (A110) 내에 구비될 수도 있는 선택기 (SEL30) 를 도시한다.
도 11b는 잡음 억제 모듈 (NS20) 의 구현예 (NS50) 의 블록도를 도시한다.
도 11c는 잡음 기준 점 (NRP1) 에서부터 이어 기준 점 (ERP) 까지의 기본 음향 경로 (P1) 의 다이어그램을 도시한다.
도 11d는 잡음 억제 모듈들 (NS30 및 NS50) 의 구현예 (NS60) 의 블록도를 도시한다.
도 12a는 잡음 전력 대 주파수의 선도를 도시한다.
도 12b는 장치 (A100) 의 구현예 (A130) 의 블록도를 도시한다.
도 13a는 장치 (A130) 의 구현예 (A140) 의 블록도를 도시한다.
도 13b는 장치 (A120 및 A130) 의 구현예 (A150) 의 블록도를 도시한다.
도 14a는 디바이스 (D100) 의 멀티채널 구현예 (D200) 의 블록도를 도시한다.
도 14b는 오디오 입력 스테이지 (AI30) 의 다수의 인스턴스들 (AI30v-1, AI30v-2) 의 배치구성을 도시한다.
도 15a는 잡음 억제 모듈 NS30의 멀티채널 구현예 (NS130) 의 블록도를 도시한다.
도 15b는 잡음 억제 모듈 (NS50) 의 구현예 (NS150) 의 블록도를 도시한다.
도 15c는 잡음 억제 모듈 (NS150) 의 구현예 (NS155) 의 블록도를 도시한다.
도 16a는 잡음 억제 모듈들 (NS60, NS130, 및 NS155) 의 구현예 (NS160) 의 블록도를 도시한다.
도 16b는 전반적인 구성에 따른 디바이스 (D300) 의 블록도를 도시한다.
도 17a는 전반적인 구성에 따른 장치 (A300) 의 블록도를 도시한다.
도 17b는 ANC 모듈들 (NC20 및 NC50) 의 구현예 (NC60) 의 블록도를 도시한다.
도 18a는 ANC 모듈 (NC60) 및 에코 제거기 (EC20) 를 구비하는 배치구성의 블록도를 도시한다.
도 18b는 잡음 기준 점 (NRP2) 에서부터 이어 기준 점 (ERP) 까지의 기본 음향 경로 (P2) 의 다이어그램을 도시한다.
도 18c는 장치 (A300) 의 구현예 (A360) 의 블록도를 도시한다.
도 19a는 장치 (A360) 의 구현예 (A370) 의 블록도를 도시한다.
도 19b는 장치 (A370) 의 구현예 (A380) 의 블록도를 도시한다.
도 20은 디바이스 (D100) 의 구현예 (D400) 의 블록도를 도시한다.
도 21a는 장치 (A400) 의 구현예 (A430) 의 블록도를 도시한다.
도 21b는 장치 (A430) 내에 구비될 수도 있는 선택기 (SEL40) 를 도시한다.
도 22는 장치 (A400) 의 구현예 (A410) 의 블록도를 도시한다.
도 23은 장치 (A410) 의 구현예 (A470) 의 블록도를 도시한다.
도 24는 장치 (A410) 의 구현예 (A480) 의 블록도를 도시한다.
도 25는 장치 (A480) 의 구현예 (A485) 의 블록도를 도시한다.
도 26은 장치 (A380) 의 구현예 (A385) 의 블록도를 도시한다.
도 27은 장치 (A120 및 A140) 의 구현예 (A540) 의 블록도를 도시한다.
도 28은 장치 (A130 및 A430) 의 구현예 (A435) 의 블록도를 도시한다.
도 29는 장치 (A140) 의 구현예 (A545) 의 블록도를 도시한다.
도 30은 장치 (A120) 의 구현예 (A520) 의 블록도를 도시한다.
도 31a는 전반적인 구성에 따른 장치 (D700) 의 블록도를 도시한다.
도 31b는 장치 (A700) 의 구현예 (A710) 의 블록도를 도시한다.
도 32a는 장치 (A710) 의 구현예 (A720) 의 블록도를 도시한다.
도 32b는 장치 (A700) 의 구현예 (A730) 의 블록도를 도시한다.
도 33은 장치 (A730) 의 구현예 (A740) 의 블록도를 도시한다.
도 34는 디바이스 (D400) 의 멀티채널 구현예 (D800) 의 블록도를 도시한다.
도 35는 장치 (A410 및 A800) 의 구현예 (A810) 의 블록도를 도시한다.
도 36은 핸드셋 (H100) 의 정면, 배면, 및 측면 도들을 도시한다.
도 37은 핸드셋 (H200) 의 정면, 배면, 및 측면 도들을 도시한다.
도 38a 내지 38d는 헤드셋 (H300) 의 각종 뷰들을 도시한다.
도 39는 사용자의 우측 귀에서 착용된 사용중인 헤드셋 (H300) 의 일 예의 평면도를 도시한다.
도 40a는 잡음 기준 마이크로폰 (MR10) 에 대한 여러 후보 로케이션들을 도시한다.
도 40b는 이어컵 (EP10) 의 단면도를 도시한다.
도 41a는 사용 중인 한 쌍의 이어버드들의 일 예를 도시한다.
도 41b는 이어버드 (EB10) 의 정면도를 도시한다.
도 41c는 이어버드 (EB10) 의 구현예 (EB12) 의 측면도를 도시한다.
도 42a는 전반적인 구성에 따른 방법 (M100) 의 흐름도를 도시한다.
도 42b는 전반적인 구성에 따른 장치 (MF100) 의 블록도를 도시한다.
도 43a는 전반적인 구성에 따른 방법 (M300) 의 흐름도를 도시한다.
도 43b는 전반적인 구성에 따른 장치 (MF300) 의 블록도를 도시한다.

문맥에서 명확히 제한되지 않는 한, 용어 "신호"는 본원에서는 와이어, 버스, 또는 다른 전송 매체 상에서 표현되는 바와 같은 메모리 위치 (또는 메모리 위치들의 집합) 의 상태를 포함하여 그것의 통상적인 의미들 중의 임의의 것을 나타내기 위하여 사용된다. 문맥에서 명확히 제한되지 않는 한, 용어 "발생하는"은 본원에서는 컴퓨팅하거나 그렇지 않으면 생성하는 것과 같은 그것의 통상적인 의미들 중의 임의의 것을 나타내기 위하여 사용된다. 문맥에서 명시적으로 제한되지 않는 한, "계산하는 (calculating)"이란 용어는 본원에서 복수의 값들로부터 컴퓨팅하는, 평가하는, 추정하는 (estimating), 및/또는 선택하는 것과 같은 그것의 일반적인 의미들 중의 임의의 것을 나타내기 위하여 이용된다. 문맥에서 명확히 제한되지 않는 한, "획득하는 (obtaining)"이란 용어는 계산하는, 유도하는, 수신하는 (예, 외부 디바이스로부터), 및/또는 검색하는 (예, 저장 요소들의 어레이로부터) 것과 같은 그것의 통상적인 의미들 중의 임의의 것을 나타내기 위하여 사용된다. 문맥에서 명확히 제한되지 않는 한, 용어 "선택하는"은 그것의 보통의 의미들 중의 임의의 것, 이를테면 둘 이상으로 된 세트의 적어도 하나, 및 전부 보다는 적은 것을 식별하는, 나타내는, 적용하는, 및/또는 이용하는 것을 나타내기 위해 이용된다. 용어 "포함하는"은 본원의 상세한 설명 및 청구범위에서 사용되는 경우, 그것은 다른 요소들 또는 동작들을 배제하지는 않는다. 용어 "에 기초하여"는 ("A가 B에 기초한다"에서처럼) 경우 (i) "로부터 유래하는" (예컨대, "B는 A의 선행물 (precursor) 이다"), 경우 (ii) "최소한 ~에 기초하여" (예컨대, "A는 최소한 B에 기초한다") 및, 특정한 문맥에서 적당하면, 경우 (iii) "와 동일한" (예컨대, "A는 B와 같다" 또는 "A는 B와 동일하다") 을 포함하여 그것의 통상적인 의미들 중의 임의의 것을 나타내는데 사용된다. 용어 "로부터의 정보에 기초하는" (이를테면 "A는 B로부터의 정보에 기초하는") 은 경우들 (i) "에 기초하여 (based on)" (예컨대, "A는 B에 기초한다") 및 "중 적어도 일 부분에 기초하는" (예컨대, "A는 B 중 적어도 일 부분에 기초한다") 을 포함하여 그것의 일반적인 의미들 중의 임의의 것을 나타내는데 이용된다. 마찬가지로, 용어 "에 응답하여"는 "최소한 ~에 응답하여"를 포함하여 그것의 통상적인 의미들 중의 임의의 것을 나타내는데 사용된다.

멀티-마이크로폰 오디오 감지 디바이스의 마이크로폰의 "로케이션"에 대한 언급은 문맥에서 달리 나타내어지지 않으면, 마이크로폰의 음향학적으로 민감한 페이스 (face) 의 중심의 위치를 나타낸다. 용어 "채널"은 특정 문맥에 따라, 가끔은 신호 경로를 나타내기 위해 그리고 평소에는 이러한 경로에 의해 운반되는 신호를 나타내기 위해 이용된다. 달리 나타내어지지 않는 한, 용어 "시리즈 (series)"는 둘 이상의 항목들의 시퀀스를 나타내는데 이용된다. 용어 "로그 (logarithm)"는 밑이 10인 로그를 나타내는데 이용되지만, 이러한 연산의 다른 밑들로의 확장은 이 개시물의 범위 내에 있다. 용어 "주파수 성분"은 신호의 주파수들 또는 주파수 대역들의 세트 중에서 하나의 주파수 또는 주파수 대역, 이를테면 신호의 (예컨대, 고속 푸리에 변환에 의해 생성된 바와 같은) 주파수 도메인 표현의 샘플 (또는 "빈 (bin)") 또는 그 신호의 서브밴드 (예컨대, 바크 스케일 (Bark scale) 또는 멜 (Mel) 스케일 서브밴드) 를 나타내는데 이용된다.

달리 지시되지 않는 한, 특정한 특징부를 갖는 장치의 동작의 임의의 개시내용은 명확히 유사한 특징을 갖는 방법을 개시하도록 의도되어 있고 (반대의 경우도 마찬가지이다), 특정 구성에 따른 장치의 동작의 임의의 개시내용은 명확히 유사한 구성에 따른 방법을 개시하도록 의도되어 있다 (반대의 경우도 마찬가지이다). 용어 "구성"은 그것의 특정 문맥에 의해 지시되는 바와 같은 방법, 장치, 및/또는 시스템에 관련하여 이용될 수도 있다. 용어 "방법", "프로세스", "절차", 및 "기법"은 특정 문맥에 의해 달리 지시되지 않는 한 일반적이고 교환 가능하게 사용된다. 용어 "장치" 및 "디바이스" 또한 특정 문맥에 의해 달리 지시되지 않는 한 일반적이고 교환적으로 사용된다. 용어 "엘리멘트 (element)" 및 "모듈"은 더 큰 구성의 일부를 나타내는데 통상 사용된다. 문맥에서 명확히 제한되지 않는 한, 용어 "시스템"은 본원에서는 "공동의 목적에 이바지하기 위해 상호작용하는 엘리멘트들의 그룹"을 포함하여, 그것의 통상적인 의미들 중의 임의의 것을 나타내는데 이용된다. 문서의 일 부분의 참조에 의한 임의의 통합은 그 일 부분 내에서 참조되는 용어들 및 변수들의 정의들을 통합하고 그러한 정의들은 그 문서의 다른 데서 뿐만 아니라 통합된 부분에서 참조되는 임의의 도면들에서 나타난다고 이해되어야 한다.

용어 "코더", "코덱" 및 "코딩 시스템"은 오디오 신호의 프레임들을 수신하고 (아마도 하나 이상의 전처리 동작들, 이를테면 개념적 가중 및/또는 다른 필터링 동작 후에) 인코딩하도록 구성된 적어도 하나의 인코더 및 그 프레임들의 디코딩된 표현들을 생성하도록 구성되는 대응하는 디코더를 구비하는 시스템을 나타내기 위해 교환적으로 이용된다. 이러한 인코더 및 디코더는 통상 통신 링크의 대향 단말들에 전개배치된다 (deployed). 전-이중 (full-duplex) 통신을 지원하기 위하여, 인코더 및 디코더의 양쪽 모두의 인스턴스들이 통상 이러한 링크의 각 말단에 전개배치된다.

이 설명에서, 용어 "감지된 오디오 신호"는 하나 이상의 마이크로폰들을 통해 수신되는 신호를 나타내고, 용어 "재생되는 오디오 신호"는 스토리지로부터 취출되고 및/또는 다른 디바이스에 대한 유선 또는 무선 접속을 통해 수신되는 정보로부터 재생되는 신호를 나타낸다. 오디오 재생 디바이스, 이를테면 통신 또는 플레이백 디바이스는, 재생되는 오디오 신호를 디바이스의 하나 이상의 라우드스피커들에 출력하도록 구성될 수도 있다. 대안으로, 이러한 디바이스는 재생되는 오디오 신호를 유선을 통해 또는 무선으로 디바이스에 연결되는 이어피스, 다른 헤드셋, 또는 외부 라우드스피커에 출력하도록 구성될 수도 있다. 트랜시버 애플리케이션들에 관하여, 음성 통신들, 이를테면 전화통화의 경우, 감지된 오디오 신호는 트랜시버에 의해 송신될 근단 신호이고, 재생되는 오디오 신호는 트랜시버에 의해 (예컨대, 무선 통신들의 링크를 통해) 수신되는 원단 신호이다. 모바일 오디오 재생 애플리케이션들, 이를테면 기록된 음악, 비디오, 또는 스피치 (예컨대, MP3-인코딩된 음악 파일들, 영화들, 비디오 클립들, 오디오북들, 팟캐스트들) 의 플레이백 또는 이러한 콘텐츠의 스트리밍에 관하여, 재생되는 오디오 신호는 플래이 백되거나 또는 스트리밍되는 오디오 신호이다.

음성 통신들을 위한 헤드셋 (예컨대, Bluetooth^TM 헤드셋) 은 사용자의 귀들 중 하나에서 원단 오디오 신호를 재생하기 위한 라우드스피커 및 사용자의 음성을 수신하기 위한 기본 마이크로폰을 통상 포함한다. 라우드스피커는 사용자의 귀에 통상 착용되고, 마이크로폰은 사용자의 음성을 수신하는 이용 동안에 배치될 헤드셋 내에 허용되는 높은 SNR로 배치구성된다. 마이크로폰은, 예를 들어, 사용자의 귀에 착용된 하우징 내에서, 이러한 하우징에서부터 사용자의 입 쪽으로 연장하는 붐 또는 다른 돌출부 상에, 또는 셀룰러 전화기에 및 그것으로부터 오디오 신호들을 운반하는 전선 (cord) 상에 통상 위치된다. 헤드셋은 또한 기본 마이크로폰 신호에서의 SNR을 개선하는데 이용될 수도 있는 하나 이상의 부가적인 보조 마이크로폰들을 사용자의 귀에 구비할 수도 있다. 헤드셋 및 셀룰러 전화기 (예컨대, 핸드셋) 사이의 오디오 정보 (및 아마도 제어 정보, 이를테면 전화기 후크 스테이터스) 의 통신은 유선 또는 무선인 링크를 통해 수행될 수도 있다.

소망의 오디오 신호의 재생에 연계하여 ANC를 이용하는 것이 바람직할 수도 있다. 예를 들어, 음악을 청취하는데 이용되는 이어폰 또는 헤드폰들, 또는 전화 통화 동안 원단 스피커의 음성을 재생하는데 이용되는 무선 헤드셋 (예컨대, Bluetooth^TM 또는 다른 통신들 헤드셋) 은, 또한 ANC를 수행하도록 구성될 수도 있다. 이러한 디바이스는 재생되는 오디오 신호 (예컨대, 음악 신호 또는 수신된 전화 호) 를, 결과적인 오디오 신호를 사용자의 귀 쪽으로 향하게 하도록 배치구성되는 라우드스피커 상류에서 잡음방지 신호와 믹싱하도록 구성될 수도 있다.

주변 소음은 ANC 동작에도 불구하고 재생되는 오디오 신호의 이해도에 영향을 줄 수도 있다. 하나의 이러한 예에서, ANC 동작은 낮은 주파수들에서보다 높은 주파수들에서 덜 효과적일 수도 있어서, 높은 주파수들에서의 주변 소음은 재생되는 오디오 신호의 이해도에 여전히 영향을 줄 수도 있다. 다른 이러한 예에서, ANC 동작의 이득은 (예컨대, 안정성을 보장하기 위해) 제한될 수도 있다. 추가의 이러한 예에서, 사용자의 귀들 중의 오직 하나에만 오디오 재생 및 ANC (예컨대, 무선 헤드셋, 이를테면 Bluetooth^TM 헤드셋) 를 행하는 디바이스를 사용하여, 사용자의 다른 귀에 의해 들리는 주변 소음은 재생되는 오디오 신호의 이해도에 영향을 줄 수도 있도록 하는 것이 바람직할 수도 있다. 이들 및 다른 경우들에서, ANC 동작을 수행하는 것에 더하여, 이해도를 끌어올리기 위해 재생되는 오디오 신호의 스펙트럼을 수정하는 것이 바람직할 수도 있다.

도 1a는 전반적인 구성에 따른 디바이스 (D10) 의 블록도를 도시한다. 디바이스 (D100) 는 디바이스 (D100) 의 사용 동안 사용자의 귀의 외이도로 향하도록 그리고 감지된 음향학적 에러에 응답하여 에러 마이크로폰 신호 (SME10) 를 생성하도록 구성되는 에러 마이크로폰 (ME10) 을 구비한다. 디바이스 (D100) 는 또한, 에러 마이크로폰 신호 (SME10) 로부터의 정보에 기초하고 에러 마이크로폰 (ME10) 에 의해 감지된 음향학적 에러를 서술하는 음향 에러 신호 (SAE10) (또한 "잔차" 또는 "잔차 에러" 신호라고 불리움) 를 생성하도록 구성되는 오디오 입력 스테이지 (AI10) 의 인스턴스 (AI10e) 를 구비한다. 디바이스 (D100) 는 또한, 재생되는 오디오 신호 (SRA10) 로부터의 정보 및 음향 에러 신호 (SAE10) 로부터의 정보에 기초하여 오디오 출력 신호 (SAO10) 를 생성하도록 구성되는 장치 (A100) 를 구비한다.

디바이스 (D100) 는 또한, 오디오 출력 신호 (SAO10) 에 기초하여 라우드스피커 구동 신호 (SO10) 를 생성하도록 구성되는 오디오 출력 스테이지 (AO10), 및 디바이스 (D100) 의 사용 동안 사용자의 귀로 향하도록 그리고 라우드스피커 구동 신호 (SO10) 에 응답하여 음향 신호를 생성하도록 구성되는 라우드스피커 (LS10) 를 구비한다. 오디오 출력 스테이지 (AO10) 는 오디오 출력 신호 (SAO10) 에 대한 하나 이상의 후처리 동작들 (예컨대, 필터링, 증폭, 아날로그로부터 디지털로의 변환, 임피던스 매칭 등) 을 수행하여 라우드스피커 구동 신호 (SO10) 를 생성하도록 구성될 수도 있다.

디바이스 (D100) 는 에러 마이크로폰 (ME10) 과 라우드스피커 (LS10) 가 디바이스 (D100) 의 사용 동안에 사용자의 머리에 또는 사용자의 귀에 (예컨대, 헤드셋으로서, 이를테면 음성 통신들을 위한 무선 헤드셋으로서) 착용되도록 구현될 수도 있다. 대안으로, 디바이스 (D100) 는 에러 마이크로폰 (ME10) 및 라우드스피커 (LS10) 가 디바이스 (D100) 의 사용 동안에 사용자의 귀에 (예컨대, 전화기 핸드셋, 이를테면 셀룰러 전화기 핸드셋으로서) 유지되도록 구현될 수도 있다. 도 36, 37, 38a, 40b, 및 41b는 에러 마이크로폰 (ME10) 및 라우드스피커 (LS10) 의 배치들의 여러 예들을 도시한다.

도 1b는 음향 에러 신호 (SAE10) 로부터의 정보에 기초하여 잡음방지 신호 (SAN10) 를 생성하도록 구성되는 ANC 모듈 (NC10) 을 구비하는 장치 (A100) 의 블록도를 도시한다. 장치 (A100) 는 또한, 잡음 추정치 (SNE10) 가 음향 에러 신호 (SAE10) 로부터의 정보에 기초하는, 잡음 추정치 (SNE10) 에 따라 재생되는 오디오 신호 (SRA10) 에 대한 등화 동작을 수행하여 등화된 오디오 신호 (SEQ10) 를 생성하도록 구성되는 등화기 (EQ10) 를 구비한다. 장치 (A100) 는 또한 잡음방지 신호 (SAN10) 및 등화된 오디오 신호 (SEQ10) 를 조합하여 (예컨대, 믹싱하여) 오디오 출력 신호 (SAO10) 를 생성하도록 구성되는 믹서 (MX10) 를 구비한다.

오디오 입력 스테이지 (AI10e) 는 에러 마이크로폰 신호 (SME10) 에 대한 하나 이상의 전처리 동작들을 수행하여 음향 에러 신호 (SAE10) 를 획득하도록 통상 구성될 것이다. 전형적인 경우에서, 예를 들어, 에러 마이크로폰 (ME10) 은 아날로그 신호들을 생성하도록 구성될 것인 반면, 장치 (A100) 는 디지털 신호들에 대해 동작하도록 구성될 수도 있어서, 전처리 동작들은 아날로그-디지털 변환을 포함할 것이다. 오디오 입력 스테이지 (AI10e) 에 의해 아날로그 및/또는 디지털 도메인에서 마이크로폰 채널에 대해 수행될 수도 있는 다른 전처리 동작들의 예들은 대역통과 필터링 (예컨대, 저역통과 필터링) 을 포함한다.

오디오 입력 스테이지 (AI10e) 는 마이크로폰 입력 신호 (SMI10) 에 대한 하나 이상의 전처리 동작들을 수행하여 대응하는 마이크로폰 출력 신호 (SMO10) 를 생성하도록 구성되는, 도 1c의 블록도에서 보인 바와 같은, 전반적인 구성에 따른 오디오 입력 스테이지 (AI10) 의 인스턴스로서 실현될 수도 있다. 이러한 전처리 동작들은 아날로그 및/또는 디지털 도메인들에서의 임피던스 매칭, 아날로그-디지털 변환, 이득 제어, 및/또는 필터링을 (제한 없이) 포함할 수도 있다.

오디오 입력 스테이지 (AI10e) 는 아날로그 전처리 스테이지 (P10) 를 구비하는 도 1c의 블록도에서 보인 바와 같은, 오디오 입력 스테이지 (AI10) 의 구현예 (AI20) 의 인스턴스로서 실현될 수도 있다. 하나의 예에서, 스테이지 (P10) 는 마이크로폰 입력 신호 (SM110) (예컨대, 에러 마이프로폰 신호 (SME10) 에 대해 고역통과 필터링 동작 (예컨대, 50, 100, 또는 200 Hz의 차단 주파수를 가짐) 을 수행하도록 구성된다.

오디오 입력 스테이지 (AI10) 가 디지털 신호로서, 다시 말해서, 샘플들의 시퀀스로서 마이크로폰 출력 신호 (SMO10) 를 생성하도록 하는 것이 바람직할 수도 있다. 오디오 입력 스테이지 (AI20) 는, 예를 들어, 전처리된 아날로그 신호를 샘플링하도록 배치구성되는 아날로그-디지털 변환기 (ADC, C10) 를 구비한다. 음향 애플리케이션들을 위한 전형적인 샘플링 레이트들은 약 8 내지 약 16 kHz의 범위에서의 8 kHz, 12 kHz, 16 kHz, 및 다른 주파수들을 포함하지만, 약 44.1, 48 또는 192 kHz 정도로 높은 샘플링 레이트들이 또한 이용될 수도 있다.

오디오 입력 스테이지 (AI10e) 는 도 1c의 블록도에서 보인 바와 같은 오디오 입력 스테이지 (AI20) 의 구현예 (AI30) 의 인스턴스로서 실현될 수도 있다. 오디오 입력 스테이지 (AI30) 는 하나 이상의 전처리 동작들 (예컨대, 이득 제어, 스펙트럼 성형, 잡음 감소, 및/또는 에코 제거) 을 대응하는 디지털화된 채널에 대해 수행하도록 구성되는 디지털 전처리 스테이지 (P20) 를 구비한다.

디바이스 (D100) 는 재생되는 오디오 신호 (SRA10) 를 오디오 재생 디바이스, 이를테면 통신들 또는 플레이백 디바이스로부터, 유선을 통해 또는 무선으로 수신하도록 구성될 수도 있다. 재생되는 오디오 신호 (SRA10) 의 예들은 원단 또는 다운링크 오디오 신호, 이를테면 수신된 전화 호, 및 미리 기록된 오디오 신호, 이를테면 저장 매체로부터 재생되는 신호 (예컨대, 오디오 또는 멀티미디어 파일로부터 디코딩된 신호) 를 포함한다.

디바이스 (D100) 는 원단 스피치 신호 및 디코딩된 오디오 중에서 선택하여 및/또는 그 신호들을 믹싱하여 재생되는 오디오 신호 (SRA10) 를 생성하도록 구성될 수도 있다. 예를 들어, 디바이스 (D100) 는 스피치 디코더 (SD10) 로부터의 원단 스피치 신호 (SFS10) 및 오디오 소스 (AS10) 로부터의 디코딩된 오디오 신호 (SDA10) 중에서 (예컨대, 사용자에 의한 스위치 작동에 따라) 선택함으로써 재생되는 오디오 신호 (SRA10) 를 생성하도록 구성되는 도 2c에 보인 바와 같은 선택기 (SEL10) 를 구비할 수도 있다. 디바이스 (D100) 내에 포함될 수도 있는 오디오 소스 (AS10) 는, 압축된 오디오 또는 시청각 (audiovisual) 정보, 이를테면 표준 압축 포맷 (예컨대, 동화상 전문가 그룹 (MPEG) -1 오디오 레이어 3 (MP3), MPEG-4 파트 14 (MP4), 윈도즈 미디어 오디오/비디오 (WMA/WMV) 의 버전 (워싱턴 주, 레드먼드 시, Microsoft Corp.), 고급 오디오 코딩 (AAC), 국제 전기통신 연합 (ITU) -T H.264 등) 에 따라 인코딩된 파일 또는 스트림의 플레이백을 위해 구성될 수도 있다.

장치 (A100) 는 등화기 (EQ10) 상류에서 재생되는 오디오 신호 (SRA10) 의 동적 범위를 압축하도록 배치구성되는 자동 이득 제어 (AGC) 모듈을 구비하도록 구성될 수도 있다. 이러한 모듈은 (예컨대, 서브밴드 이득 계수들의 상부 및/또는 하부 경계들을 제어하기 위해) 헤드룸 정의 및/또는 마스터 볼륨 설정을 제공하도록 구성될 수도 있다. 대안으로 또는 부가적으로, 장치 (A100) 는 등화기 (EQ10) 의 음향 출력 레벨을 제한하도록 (예컨대, 등화된 오디오 신호 (SEQ10) 의 레벨을 제한하도록) 구성되고 배열되는 피크 리미터 (limiter) 를 구비하도록 구성될 수도 있다.

장치 (A100) 는 또한 잡음방지 신호 (SAN10) 및 등화된 오디오 신호 (SEQ10) 를 조합하여 (예컨대, 믹싱하여) 오디오 출력 신호 (SAO10) 를 생성하도록 구성되는 믹서 (MX10) 를 구비한다. 믹서 (MX10) 는 또한 잡음방지 신호 (SAN10), 등화된 오디오 신호 (SEQ10), 또는 두 신호들의 믹싱물을 디지털 형태로부터 아날로그 형태로 변환함으로써 및/또는 이러한 신호에 대한 임의의 다른 소망의 오디오 프로세싱 동작 (예컨대, 이러한 신호의 필터링, 증폭, 이득 계수 인가, 및/또는 레벨 제어) 을 수행함으로써 오디오 출력 신호 (SAO10) 를 생성하도록 구성될 수도 있다.

장치 (A100) 는 에러 마이크로폰 신호 (SME10) 로부터의 정보에 기초하여 (예컨대, 임의의 소망의 디지털 및/또는 아날로그 ANC 기법에 따라) 잡음방지 신호 (SAN10) 를 생성하도록 구성되는 ANC 모듈 (NC10) 을 구비한다. 음향 에러 신호로부터의 정보에 기초하는 ANC 방법은 또한 피드백 ANC 방법으로서 알려져 있다.

입력 신호 (예컨대, 음향 에러 신호 (SAE10)) 의 위상을 반전시켜 잡음방지 신호 (SA10) 를 생성하도록 통상 구성되고 고정식 또는 적응적일 수도 있는 ANC 필터 (FC10) 로서 ANC 모듈 (NC10) 을 구현하는 것이 바람직할 수도 있다. 음향 잡음과는 진폭이 일치하고 위상이 반대인 잡음방지 신호 (SAN10) 를 생성하기 위해 ANC 필터 (FC10) 를 구성하는 것이 통상 바람직하다. 시간 지연, 이득 증폭, 및 등화 또는 저역통과 필터링과 같은 신호 프로세싱 동작들이 최적의 잡음 제거를 달성하기 위해 수행될 수도 있다. 신호를 고역통과 필터링하기 위해 (예컨대, 높은 진폭, 낮은 주파수의 음향 신호들을 감쇠시키기 위해) ANC 필터 (FC10) 를 구성하는 것이 바람직할 수도 있다. 부가적으로 또는 대안으로, 신호를 저역통과 필터링하기 위해 (예컨대, ANC 효과가 고 주파수들에서 빈번하게 줄어들게 하도록) ANC 필터를 구성하는 것이 바람직할 수도 있다. 음향 잡음이 마이크로폰에서부터 액추에이터 (즉, 라우드스피커 (LS10)) 로 이동할 때까지는 잡음방지 신호 (SAN10) 가 이용가능해야 하기 때문에, ANC 필터 (FC10) 에 의해 초래된 프로세싱 지연은 매우 짧은 시간 (통상 약 30 내지 60 밀리초) 을 초과하지 않아야 한다.

잡음방지 신호 (SA10) 를 생성하기 위해 음향 에러 신호 (SAE10) 에 대해 ANC 필터 (FC10) 에 의해 수행될 수도 있는 ANC 동작들의 예들은, 위상반전 필터링 동작, 최소평균제곱 (LMS) 필터링 동작, LMS의 변화 또는 도함수 (예컨대, 미국 특허출원공개 제2006/0069566호 (Nadjar et al.) 등에서 기재된 바와 같은 filtered-x LMS), 출력 백색화 (output-whitening) 피드백 ANC 방법, 및 디지털 가상 지구 (earth) 알고리즘 (예컨대, 미국특허 제5,105,377호 (Ziegler) 에 기재된 바와 같음) 을 포함한다. ANC 필터 (FC10) 는 ANC 동작을 시간 도메인에서 및/또는 변환 도메인 (예컨대, 푸리에 변환 또는 다른 주파수 도메인) 에서 수행하도록 구성될 수도 있다.

ANC 필터 (FC10) 는 또한 (예컨대, 에러 신호를 적분, 에러 신호를 저역통과 필터링, 주파수 응답을 등화, 이득을 증폭 또는 감쇠, 그리고/또는 지연을 매칭 또는 최소화하기 위해) 음향 에러 신호 (SAE10) 에 대해 다른 프로세싱 동작들을 수행하여 잡음방지 신호 (SAN10) 를 생성하도록 구성될 수도 있다. ANC 필터 (FC10) 는 펄스 밀도 변조 (pulse-density-modulation, PDM) 또는 다른 높은 샘플링 레이트 도메인에서 잡음방지 신호 (SAN10) 를 생성하도록 그리고/또는 2011년 1월 13일자로 공개된 미국 특허출원공개 제2011/0007907호 (Park et al.) 에 기재된 바와 같이, 음향 에러 신호 (SAE10) 의 샘플링 레이트보다 낮은 레이트에서 그것의 필터 계수들을 적응시키도록 구성될 수도 있다.

ANC 필터 (FC10) 는 시간 경과에 대해 고정인 필터 상태, 또는 대안적으로, 시간 경과에 적응적인 필터 상태를 가지도록 구성될 수도 있다. 적응적 ANC 필터링 동작은 동작 조건들의 기대 범위에 걸쳐 고정식 ANC 필터링 동작보다 양호한 성능을 통상 달성할 수 있다. 고정식 ANC 접근법에 비해, 예를 들어, 적응적 ANC 접근법은 주변 소음 및/또는 음향 경로에서의 변화들에 응답함으로써 양호한 잡은 제거 결과들을 통상 달성할 수 있다. 이러한 변화들은 음향학적 누설을 증가시키거나 또는 감소시킴으로써 음향학적 부하를 변화시킬 수도 있는, 디바이스의 사용 동안에 귀에 대한 디바이스 (D100) (예컨대, 셀룰러 전화기 핸드셋) 의 움직임을 포함할 수도 있다.

에러 마이크로폰 (ME10) 이 라우드스피커 (LS10) 에 의해 생성된 음향 장 내에 배치되는 것이 바람직할 수도 있다. 예를 들어, 디바이스 (D100) 는 에러 마이크로폰 (ME10) 이 사용자의 외이도의 입구를 봉지하는 챔버 내에서 사운드를 감지하도록 위치되고 이 챔버 내에서 라우드스피커 (LS10) 가 구동되도록 피드백 ANC 디바이스로서 구성될 수도 있다. 에러 마이크로폰 (ME10) 이 헤드폰의 이어컵 또는 이어버드의 고막 지향 부분 (eardrum-directed portion) 내에 라우드스피커 (LS10) 와 함께 배치되도록 하는 것이 바람직할 수도 있다. 에러 마이크로폰 (ME10) 이 환경 소음으로부터 음향학적으로 분리되게 하는 것이 바람직할 수도 있다.

외이도에서의 음향 신호에서는 라우드스피커 (LS10) 에 의해 재생되는 것인 소망의 오디오 신호 (예컨대, 원단 또는 디코딩된 오디오 콘텐츠) 가 지배적이 될 것이다. ANC 모듈 (NC10) 이 라우드스피커 (LS10) 로부터 에러 마이크로폰 (ME10) 으로의 음향학적 커플링을 제거하기 위해 에코 제거기를 구비하도록 하는 것이 바람직할 수도 있다. 도 3a는 에코 제거기 (EC10) 를 구비하는 ANC 모듈 (NC10) 의 구현예 (NC20) 의 블록도를 도시한다. 에코 제거기 (EC10) 는, 에코 기준 신호 (SER10) (예컨대, 등화된 오디오 신호 (SEQ10)) 에 따라, 음향 에러 신호 (SAE10) 에 대한 에코 제거 동작을 수행하여, 에코 없앤 (echo-cleaned) 잡음 신호 (SEC10) 를 생성하도록 구성된다. 에코 제거기 (EC10) 는 고정식 필터 (예컨대, IIR 필터) 로서 실현될 수도 있다. 대안으로, 에코 제거기 (EC10) 는 적응적 필터 (예컨대, 음향학적 부하/경로/누설에서의 변화들에 적응적인 FIR 필터) 로서 구현될 수도 있다.

장치 (A100) 가 적응적일 수도 있고 그리고/또는 ANC 동작에 적합할 것보다 더 적극적으로 튜닝될 수도 있는 다른 에코 제거기를 구비하도록 하는 것이 바람직할 수도 있다. 도 3b는 에코 기준 신호 (SER10) (예컨대, 등화된 오디오 신호 (SEQ10)) 에 따라, 음향 에러 신호 (SAE10) 에 대한 에코 제거 동작을 수행하여, 등화기 (EQ10) 에 의해 잡음 추정치 (SNE10) 로서 수신될 수도 있는 제 2 에코 없앤 신호 (SEC20) 를 생성하도록 구성 및 배치되는 그런 에코 제거기 (EC20) 를 구비하는 배치구성의 블록도를 도시한다.

장치 (A100) 는 또한 잡음 추정치 (SNE10) 로부터의 정보에 기초하여 재생되는 오디오 신호 (SRA10) 의 스펙트럼을 수정하여, 등화된 오디오 신호 (SEQ10) 를 생성하도록 구성되는 등화기 (EQ10) 를 구비한다. 등화기 (EQ10) 는 잡음 추정치 (SNE10) 로부터의 정보에 기초하여, 신호 (SRA10) 의 적어도 하나의 서브밴드를 신호 (SR10) 의 다른 서브밴드에 대하여 부스팅 (또는 감쇠) 함으로써 신호 (SRA10) 를 등화시키도록 구성될 수도 있다. 재생되는 오디오 신호 (SRA10) 가 이용가능하기까지 (예컨대, 사용자가 전화 통화를 개시 또는 수신하거나, 또는 미디어 콘텐츠 또는 음성 인식 시스템 제공 신호 (SRA10) 에 액세스하기까지) 등화기 (EQ10) 는 인액티브 (inactive) 로 유지되는 것이 바람직할 수도 있다.

등화기 (EQ10) 는 잡음 추정치 (SNE10) 를 잡음방지 신호 (SAN10), 에코 없앤 잡음 신호 (SEC10), 및 에코 없앤 잡음 신호 (SEC20) 중 임의의 것으로서 수신하도록 구성될 수도 있다. 장치 (A100) 는 둘 이상의 이러한 잡음 추정치들 중에서 (예컨대, 에코 제거기 (EC10) 의 성능의 측정치의 현재 값 및/또는 에코 제거기 (EC20) 의 성능의 측정치의 현재 값에 기초하는) 실행 시간 (run-time) 선택을 지원하기 위해 도 3c에 보인 바와 같은 선택기 (SEL20) (예컨대, 멀티플렉서) 를 구비하도록 구성될 수도 있다.

도 4는 제 1 서브밴드 신호 발생기 (SG100a) 및 제 2 서브밴드 신호 발생기 (SG100b) 를 구비하는 등화기 (EQ10) 의 구현예 (EQ20) 의 블록도를 도시한다. 제 1 서브밴드 신호 발생기 (SG100a) 는 재생되는 오디오 신호 (SR10) 로부터의 정보에 기초하여 제 1 서브밴드 신호들의 세트를 생성하도록 구성되고, 제 2 서브밴드 신호 발생기 (SG100b) 는 잡음 추정치 (N10) 로부터의 정보에 기초하여 제 2 서브밴드 신호들의 세트를 생성하도록 구성된다. 등화기 (EQ20) 는 또한 제 1 서브밴드 전력 추정치 계산기 (EC100a) 및 제 2 서브밴드 전력 추정치 계산기 (EC100a) 를 구비한다. 제 1 서브밴드 전력 추정치 계산기 (EC100a) 는 제 1 서브밴드 전력 추정치들의 세트의 각각의 제 1 서브밴드 전력 추정치를 제 1 서브밴드 신호들 중의 대응하는 하나로부터의 정보에 기초하여 생성하도록 구성되고, 제 2 서브밴드 전력 추정치 계산기 (EC100b) 는 제 2 서브밴드 전력 추정치들의 세트의 각각의 제 2 서브밴드 전력 추정치를 제 2 서브밴드 신호들 중의 대응하는 하나로부터의 정보에 기초하여 생성하도록 구성된다. 등화기 (EQ20) 는 또한, 서브밴드들의 각각에 대한 이득 계수를 대응하는 제 1 서브밴드 파워 추정치 및 대응하는 제 2 서브밴드 파워 추정치 사이의 관계에 기초하여 계산하도록 구성되는 서브밴드 이득 계수 계산기 (GC100), 및 재생되는 오디오 신호 (SR10) 를 서브밴드 이득 계수들에 따라 필터링하여 등화된 오디오 신호 (SQ10) 를 생성하도록 구성되는 서브밴드 필터 어레이 (FA100) 를 구비한다. 등화기 (EQ10) 의 구현예 및 동작의 추가의 예들은, 예를 들어, 2010년 1월 21일자로 공개되고 발명의 명칭이 "SYSTEMS, METHODS, APPARATUS, AND COMPUTER PROGRAM PRODUCTS FOR ENHANCED INTELLIGIBILITY"인 미국 특허출원공개 제2010/0017205호에서 찾아볼 수도 있다.

서브밴드 신호 발생기들 (SG100a 및 SG100b) 중 어느 하나 또는 양쪽 모두는 소망의 서브밴드 분할 체계에 따라 주파수-도메인 입력 신호의 빈들을 q개의 서브밴드들로 그룹화함으로써 q개 서브밴드 신호들의 세트를 생성하도록 구성될 수도 있다. 대안으로, 서브밴드 신호 발생기들 (SG100a 및 SG100b) 중 어느 하나 또는 양쪽 모두는 소망의 서브밴드 분할 체계에 따라 시간 도메인 입력 신호를 (예컨대, 서브밴드 필터 뱅크를 사용하여) 필터링하여 q개 서브밴드 신호들의 세트를 생성하도록 구성될 수도 있다. 서브밴드 분할 체계는 균일할 수도 있어서, 각각의 빈은 (예컨대, 약 10 퍼센트 내의) 실질적으로 동일한 폭을 가진다. 대안으로, 서브밴드 분할 체계는 불균일할 수도, 이를테면 선험적 체계 (예컨대, 바크 스케일에 기초한 체계) 또는 로그 체계 (예컨대, 멜 스케일에 기초한 체계) 일 수도 있다. 하나의 예에서, 7개 바크 스케일 서브밴드들의 세트의 에지들은 주파수 20, 300, 630, 1080, 1720, 2700, 4400, 및 7700 Hz에 대응한다. 서브밴드들의 이러한 배치구성은 16 kHz의 샘플링 레이트를 가지는 광대역 스피치 프로세싱 시스템에서 이용될 수도 있다. 이러한 분할 체계의 다른 예들에서, 더 낮은 서브밴드가 6-서브밴드 배치구성을 획득하기 위해 생략되고 그리고/또는 고주파수 제한이 7700 Hz에서 8000 Hz로 증가된다. 서브밴드 분할 체계의 다른 예는 4-대역 준 바크 (quasi-Bark) 체계 300-510 Hz, 510-920 Hz, 920-1480 Hz, 및 1480-4000 Hz이다. 서브밴드들의 이러한 배치구성은 8 kHz의 샘플링 레이트를 가지는 협대역 스피치 프로세싱 시스템에서 이용될 수도 있다.

서브밴드 전력 추정치 계산기들 (EC100a 및 EC100b) 의 각각은 서브밴드 신호들의 개별 세트를 수신하도록 그리고 서브밴드 전력 추정치들의 대응하는 세트를 (통상 재생되는 오디오 신호 (SR10) 및 잡음 추정치 (N10) 의 각각의 프레임에 대해) 생성하도록 구성된다. 서브밴드 전력 추정치 계산기들 (EC100a 및 EC100b) 중 어느 하나 또는 양쪽 모두는 각각의 서브밴드 파워 추정치를 그 프레임에 대한 대응하는 서브밴드 신호의 값들의 제곱들의 합으로서 계산하도록 구성될 수도 있다. 대안으로, 서브밴드 전력 추정치 계산기들 (EC100a 및 EC100b) 중 어느 하나 또는 양쪽 모두는 각각의 서브밴드 파워 추정치를 그 프레임에 대한 대응하는 서브밴드 신호의 값들의 크기들의 합으로서 계산하도록 구성될 수도 있다.

각각의 프레임에 대해 전체 대응하는 신호에 대한 전력 추정치를 (예컨대, 제곱들 또는 크기들의 합으로서) 계산하고, 이 전력 추정치를 이용하여 그 프레임에 대한 서브밴드 전력 추정치들을 정규화하도록 서브밴드 전력 추정치 계산기들 (EC100a 및 EC100b) 중 어느 하나 또는 양쪽 모두를 구현하는 것이 바람직할 수도 있다. 이러한 정규화는 각각의 서브밴드 합을 신호 합에 의해 나누거나, 또는 각각의 서브밴드 합에서 신호 합을 뺄셈함으로써 수행될 수도 있다. (나누는 경우, 영으로 나눔을 피하기 위해 작은 값을 신호 합에 더하는 것이 바람직할 수도 있다.) 대안으로 또는 부가적으로, 서브밴드 전력 추정치들의 시간 평활화 (temporal smoothing) 동작을 수행하기 위해 서브밴드 전력 추정치 계산기들 (EC100a 및 EC100b) 의 양쪽 모두 중의 어느 하나를 구현하는 것이 바람직할 수도 있다.

서브밴드 이득 계수 계산기 (GC100) 는 재생되는 오디오 신호 (SRA10) 의 각각의 프레임에 대한 이득 계수들의 세트를 대응하는 제 1 및 제 2 서브밴드 파워 추정치에 기초하여 계산하도록 구성된다. 예를 들어, 서브밴드 이득 계수 계산기 (GC100) 는 각각의 이득 계수를 잡음 서브밴드 파워 추정치 대 대응하는 신호 서브밴드 파워 추정치의 비율로서 계산하도록 구성될 수도 있다. 이런 경우, 영으로 나눔을 피하기 위해 작은 값을 신호 서브밴드 파워 추정치에 더하는 것이 바람직할 수도 있다.

서브밴드 이득 계수 계산기 (GC100) 는 또한 전력 비율들 중의 하나 이상 (아마도 모두) 중의 각각에 대해 시간 평활화 동작을 수행하도록 구성될 수도 있다. 이 시간 평활화 동작은 잡음의 정도가 증가하는 경우에 이득 계수 값들이 더 빠르게 변하는 것을 허용하고 그리고/또는 잡음의 정도가 감소하는 경우에 이득 계수 값들에서의 급격한 변화들을 억제하도록 구성되는 것이 바람직할 수도 있다. 이러한 구성은 큰 소음은 그 소음이 끝이 난 후에도 소망의 사운드를 계속해서 마스킹한다는 음향심리학적 일시적 마스킹 효과에 대응하는 것을 도울 수도 있다. 따라서, 평활화 계수의 값을 (예컨대, 이득 계수의 현재 값이 이전의 값 미만인 경우에 더 큰 평활화를 그리고 이득 계수의 현재 값이 이전의 값보다 큰 경우에 적은 평활화를 수행하기 위해) 현재 및 이전 이득 계수 값들 사이의 관계에 따라 가변시키는 것이 바람직할 수도 있다.

대안으로 또는 부가적으로, 서브밴드 이득 계수 계산기 (GC100) 는 상부 경계 및/또는 하부 경계를 서브밴드 이득 계수들 중 하나 이상 (아마도 모두) 에 적용하도록 구성될 수도 있다. 이들 경계들 중의 각각의 값들은 고정될 수도 있다. 대안으로, 이들 경계들 중 어느 하나 또는 양쪽 모두의 값들은, 예를 들어, 등화기 (EQ10) 를 위한 소망의 헤드룸 및/또는 등화된 오디오 신호 (SEQ10) 의 현재 볼륨 (예컨대, 볼륨 제어 신호의 현재 사용자 제어된 값) 에 따라 적응될 수도 있다. 대안으로 또는 부가적으로, 이들 경계들 중 어느 하나 또는 양쪽 모두의 값들은 재생되는 오디오 신호 (SRA10) 로부터의 정보, 이를테면 재생되는 오디오 신호 (SRA10) 의 현재 레벨에 기초할 수도 있다.

서브밴드들의 겹침의 결과로서 생길 수도 있는 과도한 부스팅을 보상하기 위해 등화기 (EQ10) 를 구성하는 것이 바람직할 수도 있다. 예를 들어, 서브밴드 이득 계수 계산기 (GC100) 는 (예컨대 fs가 재생되는 오디오 신호 (SRA10) 의 샘플링 주파수를 나타내는 주파수 fs/4를 서브밴드가 차지하는) 중간 주파수 서브밴드 이득 계수들 중 하나 이상의 값을 감소시키도록 구성될 수도 있다. 서브밴드 이득 계수 계산기 (GC100) 의 이러한 구현예는 서브밴드 이득 계수의 현재 값에 1 미만의 값을 갖는 스케일 팩터로 곱함으로써 감소를 수행하도록 구성될 수도 있다. 서브밴드 이득 계수 계산기 (GC100) 의 이러한 구현예는 (예컨대, 대응하는 서브밴드와 하나 이상의 인접한 서브밴드들의 겹침의 정도에 기초하여) 스케일링 다운하기 위해 각각의 서브밴드 이득 계수에 대해 동일한 스케일 팩터를 이용하도록 또는, 대안으로, 스케일링 다운하기 위해 각각의 서브밴드 이득 계수에 대해 상이한 스케일 팩터들을 이용하도록 구성될 수도 있다.

부가적으로 또는 대안으로, 고주파수 서브밴드들 중 하나 이상의 부스팅의 정도를 증가시키도록 등화기 (EQ10) 를 구성하는 것이 바람직할 수도 있다. 예를 들어, 재생되는 오디오 신호 (SRA10) 의 하나 이상의 고주파수 서브밴드들 (예컨대, 최고 서브밴드) 의 증폭이 중간 주파수 서브밴드 (예컨대, 재생되는 오디오 신호 (SRA10) 의 샘플링 주파수를 나타내는 fs에 대해 주파수 fs/4를 차지하는 서브밴드) 의 증폭보다 낮지 않은 것을 보장하기 위해 서브밴드 이득 계수 계산기 (GC100) 를 구성하는 것이 바람직할 수도 있다. 하나의 이러한 예에서, 서브밴드 이득 계수 계산기 (GC100) 는 중간 주파수 서브밴드에 대한 서브밴드 이득 계수의 현재 값에 1보다 큰 스케일 팩터를 곱함으로써 고주파수 서브밴드에 대한 서브밴드 이득 계수의 현재 값을 계산하도록 구성된다. 다른 이러한 예에서, 서브밴드 이득 계수 계산기 (GC100) 는 고주파수 서브밴드에 대한 서브밴드 이득 계수의 현재 값을, (A) 그 서브밴드에 대한 전력 비율로부터 계산되는 현재 이득 계수 값 및 (B) 중간 주파수 서브밴드에 대한 서브밴드 이득 계수의 현재 값에 1보다 큰 스케일 팩터를 곱함으로써 획득된 값 중 최대로서 산출하도록 구성된다.

서브밴드 필터 어레이 (FA100) 는 서브밴드 이득 계수들의 각각을 재생되는 오디오 신호 (SRA10) 의 대응하는 서브밴드에 적용하여 등화된 오디오 신호 (SEQ10) 를 생성하도록 구성된다. 서브밴드 필터 어레이 (FA100) 는, 서브밴드 이득 계수들 중 개별 하나를 재생되는 오디오 신호 (SRA10) 의 대응하는 서브밴드에 적용하도록 각각의 대역통과 필터가 구성되는 대역통과 필터들의 어레이를 구비하도록 구현될 수도 있다. 이러한 어레이의 필터들은 병렬로 및/또는 직렬로 배열될 수도 있다. 도 5a는 재생되는 오디오 신호 (SRA10) 를 서브밴드 이득 계수들에 따라 직렬로 (즉, 캐스케이드로, 각각의 필터 (F30-k) 가 2≤k≤q에 대해 필터 ((F30)-(k-1)) 의 출력을 필터링하도록 배치구성되게 하기 위함) 필터링함으로써, 대역통과 필터들 (F30-1 내지 F30-q) 이 서브밴드 이득 계수들 (G(1) 내지 G(q)) 의 각각을 재생되는 오디오 신호 (SRA10) 의 대응하는 서브밴드에 적용하도록 배치구성되는 서브밴드 필터 어레이 (FA100) 의 구현예 (FA120) 의 블록도를 도시한다.

필터들 (F30-1 내지 F30-q) 의 각각은 유한 임펄스 응답 (FIR) 또는 무한 임펄스 응답 (IIR) 을 가지도록 구현될 수도 있다. 예를 들어, 필터들 (F30-1 내지 F30-q) 중 하나 이상 (아마도 모두) 의 각각은 2차 IIR 섹션 또는 "바이쿼드"로서 구현될 수도 있다. 바이쿼드의 전달 함수는 다음 수학식처럼 표현될 수도 있다

(1)

전치 직접 형 II를, 특히 등화기 (EQ10) 의 부동 소수점 구현예들에 대해 이용하여 각각의 바이쿼드를 구현하는 것이 바람직할 수도 있다. 도 5b는 필터들 (F30-1 내지 F30-q) 중 하나 (F30-i) 의 바이쿼드 구현예에 대한 전치 직접 형 II 구조를 예시한다. 도 6은 필터들 (F30-1 내지 F30-q) 중 하나의 바이쿼드 구현예의 하나의 예에 대한 크기 및 위상 응답 선도들을 도시한다.

서브밴드 필터 어레이 (FA120) 는 바이쿼드들의 캐스케이드로서 구현될 수도 있다. 이러한 구현예는 또한 바이쿼드 IIR 필터 캐스케이드, 2차 IIR 섹션들 또는 필터들의 캐스케이드, 또는 캐스케이드식의 서브밴드 IIR 바이쿼드들의 시리즈라고 지칭될 수도 있다. 전치 직접 형 II를, 특히 등화기 (EQ10) 의 부동 소수점 구현예들에 대해 이용하여 각각의 바이쿼드를 구현하는 것이 바람직할 수도 있다.

필터들 (F30-1 내지 F30-q) 의 통과대역들은 균일 서브밴드들의 세트 (예컨대, 필터 통과대역들이 같은 폭을 가지도록 함) 보다 비균일 서브밴드들의 세트 (예컨대, 필터 통과대역들 중 둘 이상이 상이한 폭을 가지도록 함) 로의 재생되는 오디오 신호 (SRA10) 의 대역폭의 분할을 나타내는 것이 바람직할 수도 있다. 서브밴드 필터 어레이 (FA120) 는 제 1 서브밴드 신호 발생기 (SG100a) 의 시간 도메인 구현예의 서브밴드 필터 뱅크 및/또는 제 2 서브밴드 신호 발생기 (SG100b) 의 시간 도메인 구현예의 서브밴드 필터 뱅크와 동일한 서브밴드 분할 체계를 적용하는 것이 바람직할 수도 있다. 서브밴드 필터 어레이 (FA120) 는 심지어 이러한 서브밴드 필터 뱅크 또는 뱅크들과 동일한 성분 필터들을 (예컨대, 상이한 시간들에서 그리고 상이한 이득 계수 값들로) 사용하여 구현될 수도 있지만, 서브밴드 신호 발생기들 (SG100a 및 SG100b) 의 구현예들에서는 서브밴드 필터 어레이 (FA120) 에서와 같은 직렬로 보다는 병렬로 (즉, 개별적으로) 입력 신호에 필터들이 통상 적용된다는 점에 주의한다. 도 7은 위에서 설명된 바와 같은 바크 스케일 서브밴드 분할 체계에 대해 서브밴드 필터 어레이 (FA120) 의 구현예에서의 7개 바이쿼드들의 세트의 각각의 바이쿼드에 대한 크기 및 위상 응답들을 도시한다.

서브밴드 이득 계수들 (G(1) 내지 G(q)) 의 각각은 필터들 (F30-1 내지 F30-q) 중 대응하는 하나의 필터의 하나 이상의 필터 계수 값들을 이 필터들이 서브밴드 필터 어레이 (FA120) 로 구성되는 경우에 업데이트하는데 이용될 수도 있다. 이런 경우, 필터들 (F30-1 내지 F30-q) 중 하나 이상 (아마도 모두) 의 각각을 그것의 주파수 특성들 (예컨대, 그것의 통과대역의 중심 주파수 및 폭) 이 고정되고 그것의 이득이 가변적이도록 구성하는 것이 바람직할 수도 있다. 이러한 기법은 피드포워드 계수들 (예컨대, 위의 바이쿼드 수학식 (1) 에서 계수들 (b₀, b₁, 및 b₂) 중 하나 이상의 피드포워드 계수들의 값들만을 가변시킴으로써 FIR 또는 IIR 필터에 대해 구현될 수도 있다. 하나의 예에서, 필터들 (F30-1 내지 F30-q) 중 하나 (F30-i) 의 바이쿼드 구현예의 이득은 다음의 전달 함수를 획득하기 위해 오프셋 (g) 를 피드포워드 계수 (b0) 에 더하고 동일한 오프셋 (g) 을 피드포워드 계수 (b2) 로부터 감산함으로써 가변된다:

(2)

이 예에서, a₁ 및 a₂의 값들은 소망의 대역을 정의하기 위해 선택되며, a₂ 및 b₂의 값들은 동일하고, b₀는 1과 동일하다. 오프셋 (g) 은 대응하는 이득 계수 G(i) 로부터 g=(1-a₂(i))(G(i)-1)c와 같은 수학식에 따라 계산될 수도 있으며, 여기서 c는 소망의 이득이 대역의 중심에서 달성되도록 튜닝될 수도 있는 1 미만의 값을 갖는 정규화 팩터이다. 도 8은 오프셋 (g) 이 제 2 스테이지에 적용되고 있는 바이쿼드들의 3-스테이지 캐스케이드의 그런 일 예를 도시한다.

한 서브밴드의 다른 서브밴드에 대한 소망의 부스트를 달성하는데 불충분한 헤드룸이 이용가능한 일이 일어날 수도 있다. 이런 경우, 서브밴드들 사이의 소망의 이득 관계는 다른 서브밴드들에 음의 방향으로 소망의 부스트들을 적용함으로써 (즉, 다른 서브밴드들을 감쇠시킴으로써) 획득될 수도 있다.

재생되는 오디오 신호 (SRA10) 의 하나 이상의 서브밴드들을 부스팅 없이 통과시키도록 등화기 (EQ10) 를 구성하는 것이 바람직할 수도 있다. 예를 들어, 저주파수 서브밴드의 부스팅은 다른 서브밴드들의 머플링 (muffling) 으로 이어질 수도 있고, 등화기 (EQ10) 는 재생되는 오디오 신호 (SRA10) 의 하나 이상의 저주파수 서브밴드들 (예컨대, 300 Hz 미만의 주파수들을 포함하는 서브밴드) 을 부스팅 없이 통과시키는 것이 바람직할 수도 있다.

재생되는 오디오 신호 (SRA10) 가 인액티브인 간격들 동안, 등화기 (EQ10) 를 바이패스하거나 또는 그렇지 않으면 재생되는 오디오 신호 (SRA10) 의 등화를 중지 또는 억제하는 것이 바람직할 수도 있다. 하나의 이러한 예에서, 장치 (A100) 는 (예컨대, 재생되는 오디오 신호 (SRA10) 가 인액티브인 경우에 서브밴드 이득 계수 값들이 소멸 (decay) 되는 것을 허용함으로써) 등화기 (EQ10) 를 제어하도록 구성되는 재생되는 오디오 신호 (SRA10) 에 대한 (임의의 이러한 기법, 이를테면 스펙트럼 틸트 (spectral tilt) 및/또는 프레임 에너지 대 시간 평균 에너지의 비율에 따른) 음성 액티비티 검출 동작을 포함하도록 구성된다.

도 9a는 디바이스 (D100) 의 구현예 (D110) 의 블록도를 도시한다. 디바이스 (D110) 는 디바이스 (D100) 의 사용 동안 근단 스피치 신호 (예컨대, 사용자의 음성) 를 감지하게끔 향하게 되도록 그리고 감지된 근단 스피치 신호에 응답하여 근단 마이크로폰 신호 (SME10) 를 생성하도록 구성되는 적어도 하나의 음성 마이크로폰 (MV10) 을 구비한다. 도 36, 37, 38c, 38d, 39, 40b, 41a, 및 41c는 음성 마이크로폰 (MV10) 의 배치들의 여러 예들을 도시한다. 디바이스 (D110) 는 또한 근단 마이크로폰 신호 (SMV10) 로부터의 정보에 기초하여 근단 신호 (SNV10) 를 생성하도록 배치구성되는 오디오 스테이지 (AI10) 의 (예컨대, 오디오 스테이지 (AI20 또는 AI30) 의) 인스턴스 (AI10v) 를 구비한다.

도 9b는 장치 (A100) 의 구현예 (A110) 의 블록도를 도시한다. 장치 (A110) 는 등화된 오디오 신호 (SEQ10) 를 에코 기준 (SER10) 으로서 수신하도록 배치구성되는 ANC 모듈 (NC20) 의 인스턴스를 구비한다. 장치 (A110) 는 또한 근단 신호 (SNV10) 로부터의 정보에 기초하여 잡음 억제된 신호를 생성하도록 구성되는 잡음 억제 모듈 (NS10) 을 구비한다. 장치 (A110) 는 또한 음향 에러 신호 (SAE10) 로부터의 정보에 기초하는 입력 신호에 대한 피드백 제거 동작을 근단 신호 (SNV10) 로부터의 정보에 기초하는 근단 스피치 추정치 (SSE10) 에 따라 수행함으로써 피드백 제거된 잡음 신호를 생성하도록 구성되고 배열되는 피드백 제거기 (CF10) 를 구비한다. 이 예에서, 피드백 제거기 (CF10) 는 에코 없앤 신호 (SEC10 또는 SEC20) 를 그것의 입력 신호로서 수신하도록 배치구성되고, 등화기 (EQ10) 는 피드백 제거된 잡음 신호를 잡음 추정치 (SNE10) 로서 수신하도록 배치구성된다.

도 10a는 잡음 억제 모듈 (NS10) 의 구현예 (NS20) 의 블록도를 도시한다. 이 예에서, 잡음 억제 모듈 (NS20) 은 근단 신호 (SNV10) 로부터의 정보에 기초하는 입력 신호에 대한 잡음 억제 동작을 수행함으로써 잡음 억제된 신호 (SNP10) 를 생성하도록 구성되는 잡음 억제 필터 (FN10) 로서 구현된다. 하나의 예에서, 잡음 억제 필터 (FN10) 는 그것의 입력 신호의 스피치 프레임들을 그것의 입력 신호의 잡음 프레임들로부터 구별하도록 그리고 스피치 프레임들만을 포함하는 잡음 억제된 신호 (SNP10) 를 생성하도록 구성된다. 잡음 억제 필터 (FN10) 의 이러한 구현예는 프레임 에너지, 신호 대 잡음 비 (SNR), 주기성, 스피치 및/또는 잔차 (예컨대, 선형 예측 코딩 잔차) 의 자기상관, 제로 통과 레이트, 및/또는 제 1 반사 계수와 같은 하나 이상의 팩터들에 기초하여, 스피치 신호 (S40) 의 프레임을 액티브 (예컨대, 스피치) 또는 인액티브 (예컨대, 배경 잡음 또는 침묵 (silence)) 로서 분류하도록 구성되는 음성 액티비티 검출기 (VAD) 를 구비할 수도 있다.

이러한 분류는 이러한 팩터의 값 또는 크기를 임계 값과 비교하는 것 및/또는 이러한 팩터에서의 변화의 크기를 임계 값과 비교하는 것을 포함할 수도 있다. 대안으로 또는 부가적으로, 이러한 분류는 하나의 주파수 대역에서의, 이러한 팩터, 이를테면 에너지의 값 또는 크기, 또는 이러한 팩터에서의 변화의 크기를 다른 주파수 대역에서의 유사한 값과 비교하는 것을 포함할 수도 있다. 다수의 기준들 (예컨대, 에너지, 제로 교차 레이트 등) 및/또는 최근의 VAD 결정들의 메모리에 기초하여 음성 액티비티 검출을 수행하기 위해 이러한 VAD 기법을 구현하는 것이 바람직할 수도 있다. 이러한 음성 액티비티 검출 동작의 하나의 예는, 예를 들어, 2007년 1월의 "Enhanced Variable Rate Codec, Speech Service Options 3, 68, and 70 for Wideband Spread Spectrum Digital Systems"이라는 명칭의 3GPP2 문서 C.S0014-D, v1.0의 섹션 4.7 (페이지 4-49 내지 4-57) (www-dot-3gpp-dot-org에서 온라인으로 입수가능함) 에 기재된 바와 같이 신호의 고대역 및 저대역 에너지들을 개별 임계값들에 대해 비교하는 것을 포함한다.

라우드스피커 (LS10) 에서부터 근단 음성 마이크로폰으로의 음향학적 커플링을 제거하기 위해 근단 신호 (SNV10) 에 대한 에코 제거기를 포함하도록 잡음 억제 모듈 (NS20) 을 구성하는 것이 바람직할 수도 있다. 이러한 작업은, 예를 들어 등화기 (EQ10) 에 대해 양의 피드백을 피하는 것을 도울 수도 있다. 도 10b는 에코 제거기 (EC30) 를 구비하는 잡음 억제 모듈 NS20의 이러한 구현예 (NS30) 의 블록도를 도시한다. 에코 제거기 (EC30) 는 에코 기준 신호 (SER20) 로부터의 정보에 따라, 근단 신호 (SNV10) 로부터의 정보에 기초하는 입력 신호에 대한 에코 제거 동작을 수행함으로써 에코 없앤 근단 신호 (SCN10) 를 생성하도록 구성되고 배열된다. 에코 제거기 (EC30) 는 통상 적응적 FIR 필터로서 구현된다. 이 구현예에서, 잡음 억제 필터 (FN10) 는 에코 없앤 근단 신호 (SCN10) 를 그것의 입력 신호로서 수신하도록 배치구성된다.

도 10c는 장치 (A110) 의 구현예 (A120) 의 블록도를 도시한다. 장치 (A120) 에서, 잡음 억제 모듈 (NS10) 은 등화된 오디오 신호 (SEQ10) 를 에코 기준 신호 (SER20) 로서 수신하도록 구성되는 잡음 억제 모듈 (NS30) 의 인스턴스로서 구현된다.

피드백 제거기 (CF10) 는 그것의 입력 신호로부터 근단 스피치 추정치를 제거하여 잡음 추정치를 획득하도록 구성된다. 피드백 제거기 (CF10) 는 에코 제거기 구조 (예컨대, LMS 기반 적응 필터, 이를테면 FIR 필터) 로서 구현되고 통상 적응적이다. 피드백 제거기 (CF10) 는 또한 역상관 (decorrelation) 동작을 수행하도록 구성될 수도 있다.

피드백 제거기 (CF10) 는 제어 신호로서, 근단 신호 (SNV10), 에코 없앤 근단 신호 (SCN10), 및 잡음 억제된 신호 (SNP10) 중 임의의 것일 수도 있는 근단 스피치 추정치 (SSE10) 를 수신하도록 배치구성된다. 장치 (A110) (예컨대, 장치 (A120)) 는 둘 이상의 이러한 근단 스피치 신호들 사이의 (예컨대, 에코 제거기 (EC30) 의 성능의 측정치의 현재 값에 기초하여) 실행 시간 선택을 지원하기 위해 도 11a에 보인 바와 같은 멀티플렉서를 구비하도록 구성될 수도 있다.

통신들 애플리케이션에서, 사용자 자신의 음성의 사운드를 사용자의 귀에서 플레이되는 수신된 신호에 믹싱하는 것이 바람직할 수도 있다. 음성 통신들 디바이스, 이를테면 헤드셋 또는 전화기에서 마이크로폰 입력 신호를 라우드스피커 출력에 믹싱하는 기법은, "측음 (sidetone)"이라고 불리운다. 사용자가 그녀 자신의 음성을 듣는 것을 허용함으로써, 측음은 통상 사용자 편의를 개선하고 통신의 효율성을 향상시킨다. 믹서 (MX10) 는, 예를 들어, 사용자의 스피치의 (예컨대, 근단 스피치 추정치 (SSE10) 의) 일부 가청량 (audible amount) 을 오디오 출력 신호 (SAO10) 속에 믹싱하도록 구성될 수도 있다.

잡음 추정치 (SNE10) 는 근단 마이크로폰 신호 (SMV10) 의 잡음 성분으로부터의 정보에 기초하게 되는 것이 바람직할 수도 있다. 도 11b는 근단 신호 (SNV10) 로부터의 정보에 기초하여 근단 잡음 추정치 (SNN10) 를 생성하도록 구성되는 잡음 억제 필터 (FN10) 의 구현예 (FN50) 를 구비하는 잡음 억제 모듈 (NS20) 의 구현예 (NS50) 의 블록도를 도시한다.

잡음 억제 필터 (FN50) 는 근단 잡음 추정치 (SNN10) (예컨대, 근단 신호 (SNV10) 의 잡음 성분의 스펙트럼 프로파일) 를 잡음 프레임들로부터의 정보에 기초하여 업데이트하도록 구성될 수도 있다. 예를 들어, 잡음 억제 필터 (FN50) 는 주파수 도메인, 이를테면 변환 도메인 (예컨대, FFT 도메인) 또는 서브밴드 도메인에서 잡음 프레임들의 시간 평균으로서 잡음 추정치 (SNN10) 를 계산하도록 구성될 수도 있다. 이러한 업데이팅은 주파수 성분 값들을 시간적으로 평활화함으로써 주파수 도메인에서 수행될 수도 있다. 예를 들어, 잡음 억제 필터 (FN50) 는 잡음 추정치의 각각의 성분의 이전의 값을 현재 잡음 세그먼트의 대응하는 성분의 값으로 업데이트하기 위해 1차 IIR 필터를 이용하도록 구성될 수도 있다.

대안으로 또는 부가적으로, 잡음 억제 필터 (FN50) 는 최소 통계 기법들을 적용하고 시간에 대해 근단 신호 (SNV10) 의 스펙트럼의 최소들 (예컨대, 최소 전력 레벨들) 을 추적함으로써 근단 잡음 추정치 (SNN10) 를 생성하도록 구성될 수도 있다.

잡음 억제 필터 (FN50) 는 또한 스피치 프레임들에 대한 잡음 감소 동작을 수행하여 잡음 억제된 신호 (SNP10) 를 생성하도록 구성된 잡음 감소 모듈을 구비할 수도 있다. 잡음 감소 모듈의 하나의 이러한 예는 주파수 도메인에서 잡음 억제된 신호 (SNP10) 를 생성하기 위해 스피치 프레임들로부터 잡음 추정치 (SNN10) 를 감산하는 것에 의해 스펙트럼 감산 동작을 수행하도록 구성될 수도 있다. 잡음 감소 모듈의 다른 이러한 예는 잡음 억제된 신호 (SNP10) 를 생성하기 위해 잡음 추정치 (SNN10) 를 이용하여 스피치 프레임들에 대한 위너 (Wiener) 필터링 동작을 수행하도록 구성된다.

잡음 억제 필터 (FN50) 내에서 이용될 수도 있는 후처리 동작들 (예컨대, 잔차 잡음 억제, 잡음 추정 조합) 의 추가의 예들은 미국 특허출원 제61/406,382호 (Shin et al., 2010년 10월 25일 출원) 에 기재되어 있다. 도 11d는 잡음 억제 모듈들 (NS30 및 NS50) 의 구현예 (NS60) 의 블록도를 도시한다.

본원에서 설명된 바와 같은 ANC 디바이스 (예컨대, 디바이스 (D100)) 의 사용 동안, 이 디바이스는 라우드스피커 (LS10) 가 사용자의 외이도의 전방에 위치되고 그 외이도의 입구로 향하도록 착용 또는 유지된다. 결과적으로, 디바이스 자체는 주변 소음의 일부가 사용자의 고막에 도달하는 것을 차단할 것이 예상될 수도 있다. 이 잡음 차단 효과는 또한 "수동적 잡음 제거"라고 불리운다.

근단 잡음 추정치에 기초하는 재생되는 오디오 신호 (SRA10) 에 대한 등화 동작을 수행하도록 등화기 (EQ10) 를 배치구성하는 것이 바람직할 수도 있다. 근단 잡음 추정치는 외부 마이크로폰 신호, 이를테면 근단 마이크로폰 신호 (SMV10) 로부터의 정보에 기초할 수도 있다. 그러나, 수동적 및/또는 능동 잡음 제거의 결과로서, 이러한 근단 잡음 추정치의 스펙트럼은 동일한 자극에 응답하여 사용자가 경험하는 실제 잡음의 스펙트럼과는 다를 것임이 예상될 수도 있다. 이러한 차이들은 등화 동작의 효과를 감소시킬 것이 예상될 수도 있다.

도 12a는 세 개의 상이한 곡선들 (A, B, 및 C) 의 예들을 보여주는 디바이스 (D100) 의 사용 동안의 임의로 선택된 시간 간격에 대한 잡음 전력 대 주파수의 선도를 도시한다. 곡선 A는 근단 마이크로폰 (SMV10) 에 의해 감지되는 바와 같은 (예컨대, 근단 잡음 추정치 (SNN10) 에 의해 나타낸 바와 같은) 추정된 잡음 전력 스펙트럼을 보여준다. 곡선 B는 수동적 잡음 제거의 결과로서 곡선 A에 대해 감소되는 사용자의 외이도의 입구에 위치된 이어 기준 점 (ERP) 에서의 실제 잡음 전력 스펙트럼을 보여준다. 곡선 C는 곡선 B에 대해 추가로 감소되는 액티브 잡음 제거의 존재 시의 이어 기준 점 (ERP) 에서의 실제 잡음 전력 스펙트럼을 보여준다. 예를 들어, 1 kHz에서의 외부 잡음 전력 레벨이 10 dB임을 곡선 A가 나타내고 1 kHz에서의 에러 신호 잡음 전력 레벨이 4 dB임을 곡선 B가 나타낸다면, ERP의 1 kHz에서의 잡음 전력은 (예컨대, 막힘 (blockage) 때문에) 6 dB만큼 감소된다고 가정될 수도 있다.

에러 마이크로폰 신호 (SME10) 로부터의 정보는 이어피스의 커플링 영역 (예컨대, 라우드스피커 (LS10) 가 그것의 음향 신호를 사용자의 외이도로 전달하는 로케이션, 또는 이어피스가 사용자의 외이도와 만나는 영역) 에서 수신된 신호의 스펙트럼을 실시간으로 모니터링하는데 이용될 수 있다. 이 신호는 (예컨대, ANC 액티비티 상태에 의존하여 곡선 B 또는 C에 대해) 사용자의 외이도의 입구에 위치된 이어 기준 점 (ERP) 에서 음장 (sound field) 에 가까운 근사치를 제공한다고 가정될 수도 있다. 이러한 정보는 잡음 전력 스펙트럼을 직접 (예컨대, 장치 (A110 및 A120) 에 관해 본원에서 설명된 바와 같이) 추정하는데 이용될 수도 있다. 이러한 정보는 또한 근단 잡음 추정치의 스펙트럼을 이어 기준 점 (ERP) 에서의 모니터링된 스펙트럼에 따라 간접적으로 수정하는데 이용될 수도 있다. 예를 들어, 도 12a에서의 곡선들 (B 및 C) 을 추정하기 위해 모니터링된 스펙트럼을 이용하면, ANC 모듈 (NC20) 이 인액티브인 경우에 곡선들 (A 및 B) 사이, 또는 ANC 모듈 (NC20) 이 액티브인 경우에 곡선들 (A 및 C) 사이의 거리에 따라 근단 잡음 추정치 (SNN10) 를 조절하여, 등화를 위한 더 정확한 근단 잡음 추정치를 획득하도록 하는 것이 바람직할 수도 있다.

곡선들 (A 및 B) 사이의 차이 및 곡선들 (A 및 C) 사이의 차이가 생기게 하는 기본 음향 경로 (P1) 는 음성 마이크로폰 (MV10) 의 감지 표면에 위치되는 잡음 기준 경로 (NRP1) 로부터 이어 기준 점 (ERP) 까지의 경로로서 도 11c에 그려져 있다. 기본 음향 경로 (P1) 의 추정치를 잡음 추정치 (SNN10) 에 적용함으로써 근단 잡음 추정치 (SNN10) 로부터 잡음 추정치 (SNE10) 를 획득하도록 장치 (A100) 의 구현예를 구성하는 것이 바람직할 수도 있다. 이어 기준 점 (ERP) 에서 실제 잡음 전력 레벨들을 더 정확히 나타내는 근단 잡음 추정치를 생성하기 위한 그런 보상이 예상될 수도 있다.

기본 음향 경로 (P1) 를 선형 전달 함수로서 모델링하는 것이 바람직할 수도 있다. 이 전달 함수의 고정된 상태는 디바이스 (D100) 의 시뮬레이션된 사용 동안에 (예컨대, 그것이 시뮬레이션된 사용자, 이를테면 DK, Bruel and Kjaer의 HATS (Head and Torso Simulator) 의 귀에 유지되는 동안) 음향 잡음 신호의 존재 시에 마이크로폰들 (MV10 및 ME10) 의 응답들을 비교함으로써 오프라인으로 추정될 수도 있다. 이러한 오프라인 프로시저는 또한 전달 함수의 적응적 구현예를 위한 전달 함수의 초기 상태를 획득하는데 이용될 수도 있다. 기본 음향 경로 (P1) 는 또한 비선형 전달 함수로서 모델링될 수도 있다.

사용자에 의한 디바이스 (D100) 의 사용 동안에 근단 잡음 추정치 (SNN10) 를 수정하기 위해 에러 마이크로폰 신호 (SME10) 로부터의 정보를 이용하는 것이 바람직할 수도 있다. 기본 음향 경로 (P1) 는, 예를 들어, 디바이스의 (특히 사용자의 귀에 유지된 핸드셋에 대한) 움직임으로부터 결과적으로 생길 수도 있는 음향학적 부하 및 누설에서의 변화들로 인해, 사용 동안에 변할 수도 있다. 전달 함수의 추정은 수신 경로의 인지된 주파수 응답에 상당한 영향을 미칠 수 있는 음향학적 부하에서의 이러한 변화에 대처하기 위해, 적응적 보상을 이용하여 수행될 수도 있다.

도 12b는 근단 잡음 추정치 (SNN10) 를 생성하도록 구성되는 잡음 억제 모듈 (NS50 (또는 NS60)) 의 인스턴스를 구비하는 장치 (A100) 의 구현예 (A130) 의 블록도를 도시한다. 장치 (A130) 는 또한 잡음 추정치 입력을 필터링하여 필터링된 잡음 추정치 출력을 생성하도록 구성되는 전달 함수 (XF10) 를 구비한다. 전달 함수 (XF10) 는 음향 에러 신호 (SAE10) 로부터의 정보에 기초하여 제어 신호에 따라 필터링 동작을 수행하도록 구성되는 적응적 필터로서 구현된다. 이 예에서, 전달 함수 (XF10) 는 에코 없앤 잡음 신호 (SEC10 또는 SEC20) 로부터의 정보에 따라, 근단 신호 (SNV10) 로부터의 정보 (예컨대, 근단 잡음 추정치 (SNN10)) 에 기초하는 입력 신호를 필터링하여, 필터링된 잡음 추정치를 생성하도록 배치구성되고, 등화기 (EQ10) 는 필터링된 잡음 추정치를 잡음 추정치 (SNE10) 로서 수신하도록 배치구성된다.

재생되는 오디오 신호 (SRA10) 가 액티브인 경우의 간격들 동안에 음향 에러 신호 (SAE10) 로부터 기본 음향 경로 (P1) 에 관한 정확한 정보를 획득하는 것이 어려울 수도 있다. 결과적으로, 이들 간격들 동안에 전달 함수 (XF10) 를 적응시키지 못하게 하는 것이 (예컨대, 그것의 필터 계수들을 업데이트하지 못하게 하는 것이) 바람직할 수도 있다. 도 13a는 잡음 억제 모듈 (NS50 (또는 NS60)) 의 인스턴스, 전달 함수 (XF10) 의 구현예 (XF20), 및 액티비티 검출기 (AD10) 를 구비하는 장치 (A130) 의 구현예 (A140) 의 블록도를 도시한다.

액티비티 검출기 (AD10) 는 상태가 모니터링된 신호 입력에 대한 오디오 액티비티의 레벨을 나타내는 액티비티 검출 신호 (SAD10) 를 생성하도록 구성된다. 하나의 예에서, 액티비티 검출 신호 (SAD10) 는 모니터링된 신호의 현재 프레임의 에너지가 임계 값 미만이면 (다르게는, 크지 않으면) 제 1 상태 (예컨대, 온 (on), 1, 하이 (high), 인에이블 (enable)) 를 그리고 그렇지 않으면 제 2 상태 (예컨대, 오프 (off), 0, 로우, 디스에이블) 을 가진다. 임계 값은 (예컨대, 모니터링된 신호의 시간 평균된 에너지에 기초하여) 고정된 값 또는 적응 값일 수도 있다.

도 13a의 일 예에서, 액티비티 검출기 (AD10) 는 재생되는 오디오 신호 (SRA10) 를 모니터링하도록 배치구성된다. 대안적인 예에서, 액티비티 검출기 (AD10) 는 액티비티 검출 신호 (SAD10) 의 상태가 등화된 오디오 신호 (SEQ10) 에 대한 오디오 액티비티의 레벨을 나타내도록 장치 (A140) 내에 배치구성된다. 전달 함수 (XF20) 는 액티비티 검출 신호 (SAD10) 의 상태에 응답하여 적응을 인에이블 또는 금지시키도록 구성될 수도 있다.

도 13b는 잡음 억제 모듈 (NS60 (또는 NS50)) 및 전달 함수 (XF10) 의 인스턴스들을 구비하는 장치 (A120 및 A130) 의 구현예 (A150) 의 블록도를 도시한다. 장치 (A150) 는 또한 전달 함수 (XF10) 의 인스턴스가 장치 (A140) 를 참조하여 본원에서 설명되는 바와 같이 구성되고 배열되는 전달 함수 (XF20) 의 인스턴스 및 액티비티 검출기 (AD10) 의 인스턴스로 대체되도록 장치 (A140) 의 구현예로서 구현될 수도 있다.

전형적인 환경에서의 음향 잡음은 다중누화 (babble) 잡음, 공항 소음, 거리 소음, 싸우는 화자들의 음성들, 및/또는 간섭성 소스들 (예컨대, TV 세트 또는 라디오) 로부터의 사운드들을 포함할 수도 있다. 결과적으로, 이러한 잡음은 통상 비정상성 (nonstationary) 이고 사용자 자신의 음성의 스펙트럼에 가까운 평균 스펙트럼을 가질 수도 있다. 그러나, 하나의 음성 마이크로폰만으로부터의 정보에 기초하는 근단 잡음 추정치는, 보통 근사적인 정적 잡음 추정치이다. 더구나, 단일 채널 잡음 추정치의 컴퓨테이션은 일반적으로 잡음 전력 추정 지연을 수반하여서, 잡음 추정치에 대한 대응하는 이득 조절은 상당한 지연 후에만 수행될 수 있다. 환경 소음의 신뢰성 있고 동시 발생하는 추정치를 획득하는 것이 바람직할 수도 있다.

각각의 채널이 둘 이상의 마이크로폰들의 어레이 중의 대응하는 하나의 마이크로폰에 의해 생성된 신호에 기초하는 멀티채널 신호 (예컨대, 듀얼-채널 또는 스테레오 신호) 는, 음성 액티비티 검출에 이용될 수도 있는 소스 방향 및/또는 근접도에 관한 정보를 통상 포함한다. 이러한 멀티채널 VAD 동작은 예를 들어, 특정 방향성 범위 (예컨대, 소망의 사운드 소스, 이를테면 사용자의 입의 방향) 로부터 도착하는 방향성 사운드를 포함하는 세그먼트들을 다른 방향들로부터 도착하는 분산된 사운드 또는 방향성 사운드를 포함하는 세그먼트들로부터 구별함으로써 도착방향 (direction of arrival; DOA) 에 기초될 수도 있다.

도 14a는 음성 마이크로폰 (MV10) 의 기본 및 보조 인스턴스들 (MV10-1 및 MV10-2) 을 각각 구비하는 디바이스 (D110) 의 멀티채널 구현예 (D200) 의 블록도를 도시한다. 디바이스 (D200) 는, 기본 음성 마이크로폰 (MV10-1) 이, 디바이스의 전형적인 사용 동안, 보조 음성 마이크로폰 (MV10-2) 보다 높은 신호 대 잡음 비를 가지는 신호를 생성하도록 (예를 들어, 사용자의 입에 더 가깝게 되고 그리고/또는 사용자의 입에 더 직접적으로 향하게 되도록) 배치되게끔 구성된다. 오디오 입력 스테이지들 (AI10v-1 및 AI10v-2) 은 본원에서 설명되는 바와 같은 오디오 스테이지 (AI20 또는 (도 14b에서 보인 바와 같은) AI30) 의 인스턴스들로서 구현될 수도 있다.

음성 마이크로폰 (MV10) 의 각각의 인스턴스는 전방향 (omnidirectional), 양방향, 또는 단방향 (예컨대, 카디오이드 (cardioid)) 인 응답을 가질 수도 있다. 음성 마이크로폰 (MV10) 의 각각의 인스턴스를 위해 이용될 수도 있는 마이크로폰들의 다양한 유형들은 (제한 없이) 압전 마이크로폰들, 다이나믹 마이크로폰들, 및 일렉트릿 (electret) 마이크로폰들을 포함한다.

음성 마이크로폰 또는 마이크로폰들 (MV10) 을 (예컨대, 음향학적 커플링을 감소시키기 위해) 라우드스피커 (LS10) 로부터 가능한 한 멀리 위치시키는 것이 바람직할 수도 있다. 또한, 음성 마이크로폰 또는 마이크로폰들 (MV10) 중의 적어도 하나를 외부 잡음에 노출되도록 위치시키는 것이 바람직할 수도 있다. 에러 마이크로폰 (ME10) 을 외이도에 가능한 한 가까이, 어쩌면 심지어 외이도 내에 위치시키는 것이 바람직할 수도 있다.

휴대용 음성 통신들을 위한 디바이스, 이를테면 핸드셋 또는 헤드셋에서, 음성 마이크로폰 (MV10) 의 인접한 인스턴스들 사이의 중심간 스페이싱은 통상 약 1.5 cm 내지 약 4.5 cm의 범위에 있지만, 더 큰 스페이싱 (예컨대, 10 또는 15 cm까지) 이 또한 핸드셋과 같은 디바이스에서 가능하다. 보청기에서, 음성 마이크로폰 (MV10) 의 인접한 인스턴스들 사이의 중심간 스페이싱은 약 4 또는 5 mm 정도로 작을 수도 있다. 음성 마이크로폰 (MV10) 의 각종 인스턴스들은 라인을 따라 또는, 번갈아 배열될 수도 있어서, 그것들의 중심들은 2차원 (예컨대, 삼각형) 또는 3차원 형상의 정점들에 놓인다.

본원에서 설명되는 바와 같은 멀티-마이크로폰 적응적 등화 디바이스 (예컨대, 디바이스 D200) 의 동작 동안, 음성 마이크로폰 (MV10) 의 인스턴스들은, 각각의 채널이 음향 환경에 대한 마이크로폰들 중의 대응하는 하나의 마이크로폰의 응답에 기초하는 멀티채널 신호를 생성한다. 하나의 마이크로폰은 특정 사운드를 다른 마이크로폰보다 더 직접적으로 수신할 수도 있어서, 대응하는 채널들은 단일 마이크로폰을 이용하여 캡처될 수 있는 것보다 음향 환경의 더 완전한 표현을 총체적으로 제공하도록 서로 상이하다.

장치 (A200) 는 잡음 억제 모듈 (NS10) 이 공간 선택적 프로세싱 필터 (FN20) 로서 구현되는 장치 (A110 또는 A120) 의 인스턴스로서 구현될 수도 있다. 필터 (FN20) 는 입력 멀티채널 신호 (예컨대, 신호들 (SNV10-1 및 SNV10-2)) 에 대한 공간 선택적 프로세싱 동작 (예컨대, 방향 선택적 프로세싱 동작) 을 수행하여 잡음 억제된 신호 (SNP10) 를 생성하도록 구성된다. 이러한 공간 선택적 프로세싱 동작의 예들은 (예컨대, 본원에서 설명된 바와 같이) 빔포밍, 블라인드 소스 분리 (blind source separation, BSS), 위상 차이 기반 프로세싱, 및 이득 차이 기반 프로세싱을 포함한다. 도 15a는 잡음 억제 필터 (FN10) 가 공간 선택적 프로세싱 필터 (FN20) 로서 구현되는 잡음 억제 모듈 (NS30) 의 멀티채널 구현예 (NS130) 의 블록도를 도시한다.

공간 선택적 프로세싱 필터 (FN20) 는 각각의 입력 신호를 세그먼트들의 시리즈로서 처리하도록 구성될 수도 있다. 전형적인 세그먼트 길이들은 약 5 또는 10 밀리초부터 약 40 또는 50 밀리초까지의 범위에 있고, 세그먼트들은 겹치거나 (예컨대, 25% 또는 50%만큼 인접한 세그먼트들과 겹치거나) 또는 겹치지 않을 수도 있다. 하나의 특정한 예에서, 각각의 입력 신호는, 각각이 10 밀리초의 길이를 갖는 비겹침 (nonoverlapping) 세그먼트들 또는 "프레임들"의 시리즈로 나누어진다. 장치 (A200) 의 다른 엘리멘트 또는 동작 (예컨대, ANC 모듈 (NC10) 및/또는 등화기 (EQ10)) 은 또한 동일한 세그먼트 길이를 이용하여 또는 a 다른 세그먼트 길이를 이용하여, 그것의 입력 신호를 세그먼트들의 시리즈로서 처리하도록 구성될 수도 있다. 세그먼트의 에너지는 시간 도메인에서 그것의 샘플들의 값들의 제곱들의 합으로서 계산될 수도 있다.

공간 선택적 프로세싱 필터 (FN20) 는 필터 계수 값들의 하나 이상의 매트릭스들에 의해 특징화되는 고정식 필터를 구비하도록 구현될 수도 있다. 이들 필터 계수 값들은 빔포밍, 블라인드 소스 분리 (BSS), 또는 조합된 BSS/빔포밍 방법을 이용하여 획득될 수도 있다. 공간 선택적 프로세싱 필터 (FN20) 는 또한 하나를 초과하는 스테이지를 구비하도록 구현될 수도 있다. 이들 스테이지들의 각각은 계수 값들이 소스 분리 알고리즘으로부터 유도된 학습 규칙을 이용하여 계산될 수도 있는 대응하는 적응적 필터 구조에 기초할 수도 있다. 필터 구조는 피드포워드 및/또는 피드백 계수들을 포함할 수도 있고 유한 임펄스 응답 (FIR) 또는 무한 임펄스 응답 (IIR) 디자인일 수도 있다. 예를 들어, 필터 (FN20) 는 고정식 필터 스테이지 (예컨대, 계수들이 실행 시간 전에 고정되는 훈련식 (trained) 필터 스테이지) 와 이것을 뒤따르는 적응적 필터 스테이지를 구비하도록 구현될 수도 있다. 이런 경우, 고정식 필터 스테이지를 이용하여 적응적 필터 스테이지에 대한 초기 컨디션들을 발생하는 것이 바람직할 수도 있다. 필터 (FN20) 에 대한 입력들의 적응적 스케일링을 (예컨대, IIR 고정식 또는 적응적 필터 뱅크의 안정성을 보장하기 위해) 수행하도록 하는 것이 또한 바람직할 수도 있다. 고정식 필터 스테이지들 중 적절한 하나가 동작 동안에 (예컨대, 각종 고정식 필터 스테이지들의 상대적 분리 성능에 따라) 선택될 수도 있도록 배치되는, 다수의 고정식 필터 스테이지들을 구비하도록 공간 선택적 프로세싱 필터 (FN20) 를 구현하는 것이 바람직할 수도 있다.

용어 "빔포밍 (beamformin)"은 마이크로폰 어레이로부터 수신되는 멀티채널 신호의 방향성 프로세싱을 위해 이용될 수도 있는 기법들의 클래스를 지칭한다. 빔포밍 기법들은 특정 방향으로부터 도착하는 신호의 성분을 향상시키기 위해 마이크로폰들의 공간적 다양성으로부터 생기게 되는 채널들 사이의 시간 차이를 이용한다. 더 상세하게는, 마이크로폰들 중 하나는 소망의 소스 (예컨대, 사용자의 입) 로 더 직접적으로 향하게 될 것인 반면, 다른 마이크로폰은 이 소스로부터 상대적으로 감쇠되는 신호를 발생할 수도 있을 가능성이 높다. 이들 빔포밍 기법들은 빔을 사운드 소스 쪽으로 조향 (steer) 시켜, 다른 방향들에서는 다른 방향들로는 아무것도 없도록 하는 공간적 필터링을 위한 방법들이다. 빔포밍 기법들은 사운드 소스에 대해 가정하지 않지만 소스 및 센서들 사이의 기하학적 구조, 또는 사운드 신호 자체는 신호를 탈반향 (dereverberating) 하거나 또는 사운드 소스를 로컬라이징하는 목적으로 알려져 있다고 가정한다. 빔포밍 필터의 필터 계수 값들은 데이터 의존적 또는 데이터 독립적 빔포머 디자인 (예컨대, 초방향성 (superdirective) 빔포머, 최소 제곱 빔포머, 또는 통계적으로 최적의 빔포머 디자인) 에 따라 계산될 수도 있다. 빔포밍 접근법들의 예들은 일반화 사이드로브 제거 (generalized sidelobe cancellation, GSC), 최소 분산 무왜 (distortionless) 응답 (minimum variance distortionless response, MVDR), 및/또는 선형 구속 최소 분산 (linearly constrained minimum variance, LCMV) 빔포머들을 포함한다.

블라인드 소스 분리 알고리즘들은 (하나 이상의 정보 소스들 및 하나 이상의 간섭 소스들로부터의 신호들을 포함할 수도 있는) 개개의 소스 신호들을 소스 신호들의 믹싱물들에만 기초하여 분리하는 방법들이다. BSS 알고리즘들의 범위는, 가중치들의 "언믹싱 (un-mixing)" 매트릭스를 믹싱된 신호들에 (예를 들어, 매트릭스와 믹싱된 신호들을 곱함으로써) 적용하여 분리된 신호들을 생성하는 독립적 성분 분석 (independent component analysis, ICA); 필터 계수 값들이 주파수 도메인에서 직접 컴퓨팅되는 주파수-도메인 ICA 또는 복합 (complex) ICA; 주파수 빈들 사이의 예상된 의존성들을 모델링하는 것에 앞서 소스를 이용하는 복합 ICA의 변형인 독립적 벡터 분석 (independent vector analysis, IVA); 및 예를 들어, 마이크로폰 어레이의 축에 대한 음향 소스들의 하나 이상 중의 각각의 음향 소스의 알려진 방향과 같이, 다른 선험적 정보에 따라 구속되는 구속형 (constrained) ICA 및 구속형 IVA와 같은 변종 (variant) 들을 포함한다.

이러한 적응적 필터 구조들의 추가의 예들과, 이러한 필터 구조들을 훈련시키는데 이용될 수도 있는 ICA 또는 IVA 적응적 부궤한 및 피드포워드 체계에 기초하는 학습 규칙들은, 2009년 1월 22일자로 출원된 발명 명칭이 "SYSTEMS, METHODS, AND APPARATUS FOR SIGNAL SEPARATION"인 미국 특허출원공개 제2009/0022336호 및 2009년 6월 25일자로 출원된 발명 명칭이 "SYSTEMS, METHODS, AND APPARATUS FOR MULTI-MICROPHONE BASED SPEECH ENHANCEMENT"인 미국 특허출원공개 제2009/0164212호에서 찾아볼 수도 있다.

도 15b는 잡음 억제 모듈 (NS50) 의 구현예 (NS150) 의 블록도를 도시한다. 모듈 (NS150) 은 근단 신호들 (SNV10-1 및 SNV10-2) 로부터의 정보에 기초하여 근단 잡음 추정치 (SNN10) 를 생성하도록 구성되는 공간 선택적 프로세싱 필터 (FN20) 구현예 (FN30) 를 구비한다. 필터 (FN30) 는 사용자의 음성의 성분들을 감쇠시킴으로써 잡음 추정치 (SNN10) 를 생성하도록 구성될 수도 있다. 예를 들어, 필터 (FN30) 는 방향성 소스 성분 (예컨대, 사용자의 음성) 을 신호들 (SNV10-1 및 SNV10-2) 중의 하나 이상의 다른 성분들, 이를테면 방향성 간섭 성분 및/또는 확산 소음 성분으로부터 분리하는 방향 선택적 동작을 수행하도록 구성될 수도 있다. 이런 경우, 필터 (FN30) 는 신호들 (SNV10-1 및 SNV10-2) 의 각각이 가지는 것보다 적은 방향성 소스 성분의 에너지를 잡음 추정치 (SNN10) 가 포함하기 위해서 (다시 말해서, 신호들 (SNV10-1 및 SNV10-2) 중 어느 하나가 가지는 것보다 적은 방향성 소스 성분의 에너지를 잡음 추정치 (SNN10) 가 포함하기 위해서) 방향성 소스 성분의 에너지를 제거하도록 구성될 수도 있다. 필터 (FN50) 의 단일 채널 구현예에 의해 생성된 잡음 추정치에서보다 오히려 근단 사용자의 스피치가 제거되는 근단 잡음 추정치 (SSN10) 의 인스턴스를 생성하는 필터 (FN30) 가 예상될 수도 있다.

공간 선택적 프로세싱 필터 (FN20) 가 두 개를 초과하는 입력 채널들을 처리하는 경우에 대해, 채널들의 상이한 쌍들에 대한 공간 선택적 프로세싱 동작들을 수행하고 이들 동작들의 결과들을 조합하여 잡음 억제된 신호 (SNP10) 및/또는 잡음 추정치 (SNN10) 를 생성하도록 필터를 구성하는 것이 바람직할 수도 있다.

공간 선택적 프로세싱 필터 (FN30) 의 빔포머 구현예는 널 (null) 빔포머로서 포함하도록 통상 구현될 것이라서, 방향성 소스 (예컨대, 사용자의 음성) 로부터의 에너지는 근단 잡음 추정치 (SNN10) 를 생성하도록 감쇠될 것이다. 하나 이상의 데이터 의존적 또는 데이터 독립적 디자인 기법들 (MVDR, IVA, 등) 을 이용하여 공간 선택적 프로세싱 필터 (FN30) 의 이러한 구현예에 대해 복수의 고정식 널 빔들을 생성하는 것이 바람직할 수도 있다. 예를 들어, (예컨대, 미국 특허출원공개 제2009/0164212호에 개시된 바와 같이) 실행 시간에 이들 널 빔들 중에서의 선택을 위해, 오프라인 컴퓨팅된 널 빔들을 룩업 테이블에 저장하는 것이 바람직할 수도 있다. 하나의 이러한 예는 각각의 필터에 대한 65개의 복소수 계수들과, 각각의 빔을 발생하는 세 개의 필터들을 구비한다.

필터 (FN30) 는 멀티채널 음성 액티비티 검출 (VAD) 동작을 수행하여 기본 근단 신호 (SNV10-1 또는 SCN10-1) 의 성분들 및/또는 세그먼트들을 분류함으로써 개선된 단일 채널 잡음 추정치 (또한 "준 (quasi) 단일 채널" 잡음 추정치라고도 불리움) 를 계산하도록 구성될 수도 있다. 이러한 잡음 추정은 다른 접근법들보다 더 빠르게 이용가능할 수도 있는데, 그것이 장기간 추정을 필요로 하지 않아서이다. 이 단일채널 잡음 추정은 또한 비정상 잡음의 제거를 통상 지원할 수 없는 장기간 추정 기반 접근법과는 달리, 비정상성 (nonstationary) 잡음을 캡처할 수 있다. 이러한 방법은 신속, 정확한, 및 비정상성 잡음 기준을 제공할 수도 있다. 필터 (FN30) 는 현재 잡음 세그먼트를 (예컨대, 아마도 각각의 주파수 성분에 대해 1차 평활화기 (smoother) 를 이용하여) 잡음 추정치의 이전의 상태로 평활화함으로써 잡음 추정치를 생성하도록 구성될 수도 있다.

필터 (FN20) 는 DOA 기반 VAD 동작을 수행하도록 구성될 수도 있다. 이러한 동작의 하나의 클래스는, 소망의 주파수 범위에서의 세그먼트의 각각의 주파수 성분에 대해, 입력 멀티채널 신호의 2개의 채널들 중의 각각에서의 주파수 성분 사이의 위상 차이에 기초한다. 위상 차이 및 주파수 사이의 관계는 그 주파수 성분의 도착 방향 (direction of arrival, DOA) 을 나타내는데 이용될 수도 있고, 이러한 VAD 동작은 넓은 주파수 범위, 이를테면 500-2000 Hz에 대해 위상 차이 및 주파수 사이의 관계가 일치하는 경우 (즉, 위상 차이 및 주파수의 상관관계가 선형적인 경우) 음성 검출을 나타내도록 구성될 수도 있다. 아래에서 더 상세히 설명되는 바와 같이, 포인트 소스의 존재는 다수의 주파수들에 걸친 방향 표시자의 일관성에 의해 나타내어진다. DOA 기반 VAD 동작들의 다른 클래스는 (예컨대, 시간 도메인에서 채널들을 상호 상관시킴으로써 결정되는 바와 같이) 각각의 채널에서의 신호의 인스턴스 사이의 시간 지연에 기초한다.

멀티채널 VAD 동작의 다른 예는 입력 멀티채널 신호의 채널들의 레벨들 (또한 이득들이라고도 불리움) 사이의 차이에 기초한다. 이득 기반 VAD 동작은, 예를 들어, 2개의 채널들의 에너지들의 비율이 (신호가 니어 필드 소스로부터 및 마이크로폰 어레이의 축 방향들 중의 소망의 하나로부터 도착함을 나타내는) 임계 값을 초과하는 경우 음성 검출을 나타내도록 구성될 수도 있다. 이러한 검출기는 주파수 도메인에서의 (예컨대, 하나 이상의 특정한 주파수 범위들에 대해) 또는 시간 도메인에서의 신호에 대해 동작하도록 구성될 수도 있다.

위상 기반 VAD 동작의 하나의 예에서, 필터 (FN20) 는 테스트 하의 범위 내의 각각의 주파수 성분에서의 방향성 마스킹 기능을 그 주파수에서의 위상 차이가 특정 범위 내에 있는 도착 방향 (또는 도착 시간 지연) 에 대응하는지의 여부를 결정하기 위해 적용하도록 구성되고, 코히어런시 측정치는 주파수 범위에 걸친 이러한 마스킹의 결과들에 따라 (예컨대, 세그먼트의 여러 주파수 성분들에 대한 마스크 스코어들의 합으로서) 계산된다. 이러한 접근법은 각각의 주파수에서의 위상 차이를 (예컨대, 단일 방향성 마스킹 기능이 모든 주파수들에서 이용될 수도 있도록) 주파수에 독립적인 방향 지시자, 이를테면 도착 방향 또는 도착 시간 차이로 변환하는 것을 포함할 수도 있다. 대안으로, 이러한 접근법은 다른 개별 마스킹 기능을 각각의 주파수에서 관측된 위상 차이에 적용하는 것을 포함할 수도 있다.

이 예에서, 필터 (F20) 는 코히어런시 측정치의 값을 이용하여 세그먼트를 음성 또는 잡음으로서 분류한다. 방향성 마스킹 기능은 코히어런시 측정치의 하이 (high) 값이 음성 세그먼트를 나타내도록 하기 위해, 사용자의 음성의 예상되는 도착 방향을 포함하도록 선택될 수도 있다. 대안으로, 방향성 마스킹 기능은, 코히어런시 측정치의 하이 값이 잡음 세그먼트를 나타내도록 하기 위해, 사용자의 음성의 예상되는 도착 방향을 제외하도록 선택될 수도 있다 (또한 "보완 마스크"라고 불리움). 어느 경우에나, 필터 (F20) 는 그것의 코히어런시 측정치의 값을 고정일 수도 있거나 또는 시간 경과에 대해 적응적일 수도 있는 임계 값과 비교함으로써, 세그먼트에 대한 이진 VAD 표시를 획득하도록 구성될 수도 있다.

필터 (FN30) 는 잡음으로서 분류되는 기본 입력 신호 (예컨대, 신호 (SNV10-1 또는 SCN10-1)) 의 각각의 세그먼트로 근단 잡음 추정치 (SNN10) 를 평활화함으로써 그 근단 잡음 추정치를 업데이트하도록 구성될 수도 있다. 대안으로, 필터 (FN30) 는 잡음으로서 분류되는 기분 입력 신호의 주파수 성분들에 기초하여 근단 잡음 추정치 (SNN10) 를 업데이트하도록 구성될 수도 있다. 근단 잡음 추정치 (SNN10) 가 세그먼트-레벨에 기초하든지 또는 성분-레벨 분류 결과들에 기초하든지 간에, 잡음 추정치 (SNN10) 에서의 변동을 그것의 주파수 성분들을 시간적으로 평활화함으로써 감소시키는 것이 바람직할 수도 있다.

위상 기반 VAD 동작의 다른 예에서, 필터 (FN20) 는 테스트 하의 주파수 범위에서의 개개의 주파수 성분들의 도착 방향들 (또는 지연 시간들) 의 분포의 형상 (예컨대, 개개의 DOA들이 얼마나 단단히 서로 그룹화되는지) 에 기초하여 코히어런시 측정치를 계산하도록 구성된다. 이러한 측정치는 히스토그램을 이용하여 계산될 수도 있다. 어느 경우에나, 사용자의 음성의 피치의 현재 추정치의 배수들인 주파수들에만 기초하여 코히어런시 측정치를 계산하도록 필터 (FN20) 를 구성하는 것이 바람직할 수도 있다.

검사되는 각각의 주파수 성분에 대해, 예를 들어, 위상 기반 검출기는 대응하는 고속 푸리에 변환 (FFT) 계수의 허수 항 (term) 대 그 FFT 계수의 실수 항의 비율의 역 탄젠트 (또한 아크탄젠트라고도 불리움) 로서 위상을 추정하도록 구성될 수도 있다.

주파수들의 광대역 범위에 걸쳐 각각의 쌍의 채널들 사이의 방향성 코히어런스를 결정하도록 필터 (FN20) 의 위상 기반 VAD 동작을 구성하는 것이 바람직할 수도 있다. 이러한 광대역 범위는, 예를 들어, 0, 50, 100, 또는 200 Hz의 저주파수 경계부터 3, 3.5, 또는 4 kHz (또는 더 높은, 이를테면 7 또는 8 kHz 또는 이상까지) 의 고주파수 경계까지 연장할 수도 있다. 그러나, 검출기가 신호의 전체 대역폭에 걸쳐 위상 차이들을 계산하는 것이 불필요할 수도 있다. 이러한 광대역 범위에서의 많은 대역들에 대해, 예를 들어, 위상 추정은 비현실적이거나 또는 불필요할 수도 있다. 매우 낮은 주파수들에서의 수신된 파형의 위상 관계들의 실제적인 평가는 트랜스듀서들 사이의 대응하는 큰 스페이싱들을 통상 요구한다. 결과적으로, 마이크로폰들 사이의 최대 이용가능 스페이싱 (spacing) 은 저주파수 경계를 확립할 수도 있다. 한편, 마이크로폰들 사이의 거리는 공간적 앨리어싱을 피하기 위하여 최소 파장의 절반을 초과하지 않아야 한다. 예를 들어, 8 킬로헤르츠 샘플링 레이트는, 0 내지 4 킬로헤르츠의 대역폭을 제공한다. 4 kHz 신호의 파장은 약 8.5 센티미터이며, 그래서 이 경우, 인접한 마이크로폰들 사이의 스페이싱은 약 4 센티미터를 초과하지 않아야 한다. 마이크로폰 채널들은 공간적 앨리어싱을 야기할 수도 있는 주파수들을 제거하기 위하여 저역통과 필터링될 수도 있다.

스피치 신호 (또는 다른 소망의 신호) 가 방향적으로 코히어런트일 것이 예상될 수도 있는 특정 주파수 성분들, 또는 특정 주파수 범위를 겨냥하는 것이 바람직할 수도 있다. 배경 잡음, 이를테면 (예컨대, 자동차들과 같은 소스들로부터의) 방향성 잡음 및/또는 확산된 소음 (diffuse noise) 이 동일한 범위에 대해 방향적으로 코히어런트하게 되지 않을 것임이 예상될 수도 있다. 스피치는 4 내지 8 킬로헤르츠의 범위에서 낮은 파워를 가지는 경향이 있고, 그래서 적어도 이 범위에 대해 위상 추정을 포기하는 것이 바람직할 수도 있다. 예를 들어, 약 700 헤르츠 내지 약 2 킬로헤르츠의 범위에 걸쳐 위상 추정을 수행하고 방향성 코히어런시를 결정하는 것이 바람직할 수도 있다.

따라서, 주파수 성분들의 전부보다 적은 수의 주파수 성분들에 대해 (예컨대, FFT의 주파수 샘플들의 전부보다 적은 수의 주파수 샘플들에 대해) 위상 추정치들을 계산하도록 필터 (FN20) 를 구성하는 것이 바람직할 수도 있다. 하나의 예에서, 검출기는 700 Hz 내지 2000 Hz의 주파수 범위에 대해 위상 추정치들을 계산한다. 4 킬로헤르츠 대역폭 신호의 128-포인트 FFT에 대해, 700 내지 2000 Hz의 범위는 10번째 샘플부터 32번째 샘플까지의 23개의 주파수 샘플들에 대략 대응한다. 신호의 현재 피치 추정치의 배수들에 대응하는 주파수 성분들에 대한 위상 차이들만을 고려하도록 검출기를 구성하는 것이 또한 바람직할 수도 있다.

필터 (FN20) 의 위상 기반 VAD 동작은 계산된 위상 차이들로부터의 정보에 기초하여, 채널 쌍의 방향성 코히어런스를 평가하도록 구성될 수도 있다. 멀티채널 신호의 "방향성 코히어런스"는 그 신호의 여러 주파수 성분들이 동일한 방향으로부터 도착하는 정도로서 정의된다. 이상적 방향성의 코히어런트 채널 쌍에 대해,

의 값은 모든 주파수들에 대해 상수 k와 동일하며, 여기서 k의 값은 도착 방향 (θ) 및 도착 시간 지연 (τ) 에 관련된다. 멀티채널 신호의 방향성 코히어런스는, 예를 들어, 각각의 주파수 성분에 대한 추정된 도착 방향 (이것은 또한 위상 차이 및 주파수의 비율에 의해 또는 도착 시간 지연에 의해 나타내어질 수도 있음) 을 (예컨대, 방향성 마스킹 기능에 의해 나타내어진 바와 같이) 특정 방향과 얼마나 잘 일치하는지에 따라 순위화 (rating) 하고, 여러 주파수 성분들에 대한 순위화 결과들을 조합하여 그 신호에 대한 코히어런시 측정치를 획득함으로써 정량화될 수도 있다.

코히어런시 측정치를 시간 평활화된 값으로서 생성하는 필터 (FN20) 를 구성하 (여, 예컨대, 시간 평활화 함수를 이용하여 코히어런시 측정치를 계산하) 는 것이 바람직할 수도 있다. 코히어런시 측정치의 콘트라스트는 코히어런시 측정치의 현재 값 및 시간에 대한 코히어런시 측정치의 평균 (average) 값 (예컨대, 가장 최근의 10, 20, 50, 또는 100 프레임들에 대한 평균 (mean), 모드 (mode), 또는 미디언 (median)) 사이의 관계의 값 (예컨대, 차이 또는 비율) 으로서 표현될 수도 있다. 코히어런시 측정치의 평균 값은 시간 평활화 기능을 이용하여 계산될 수도 있다. 방향성 코히어런스의 측정치의 계산 및 애플리케이션을 포함하는, 위상 기반 VAD 기법들은 또한 예컨대, 미국 특허출원공개번호 2010/0323652 A1 및 2011/038489 A1 (Visser et al.) 에 기재되어 있다.

이득 기반 VAD 기법은 각각의 채널에 대한 이득 측정치의 대응하는 값들 사이의 차이들에 기초하여 입력 멀티채널 신호의 세그먼트에서의 음성 액티비티의 존재 또는 부재를 나타내도록 구성될 수도 있다. 이러한 이득 측정치의 예들 (이는 시간 도메인에서 또는 주파수 도메인에서 계산될 수도 있음) 은 전체 크기, 평균 크기, RMS 진폭, 미디언 크기, 피크 크기, 총 에너지, 및 평균 에너지를 포함한다. 필터 (FN20) 의 이러한 구현예를 이득 측정치들에 대한 그리고/또는 계산된 차이들에 대한 시간 평활화 동작을 수행하기 위해 구성하는 것이 바람직할 수도 있다. 이득 기반 VAD 기법은 (예컨대, 소망의 주파수 범위에 대한) 세그먼트-레벨 결과를 또는, 대안적으로, 각각의 세그먼트의 복수의 서브밴드들의 각각에 대한 결과들을 생성하도록 구성될 수도 있다.

이득 기반 VAD 기법은 채널들의 이득들 사이의 차이가 임계 값보다 큰 경우에 (예컨대, 음성 액티비티의 검출을 나타내기 위해) 세그먼트가 소망의 소스로부터 마이크로폰 어레이의 엔드파이어 (endfire) 방향에서 오는 것임을 검출하도록 구성될 수도 있다. 대안으로, 이득 기반 VAD 기법은 채널들의 이득들 사이의 차이가 임계 값 미만인 경우에 (예컨대, 음성 액티비티의 검출을 나타내기 위해) 세그먼트가 마이크로폰 어레이의 옆 (broadside) 방향에서 소망의 소스로부터 온 것임을 검출하도록 구성될 수도 있다. 임계 값은 휴리스틱하게 (heuristically) 결정될 수도 있고, (예컨대, SNR이 낮은 경우에 더 높은 임계 값을 이용하기 위해) 신호 대 잡음 비 (SNR), 잡음 플로어 (floor) 등과 같은 하나 이상의 팩터들에 의존하여 상이한 임계 값들을 이용하는 것이 바람직할 수도 있다. 이득 기반 VAD 기법들은 또한, 예컨대, 미국 특허출원공개번호 2010/0323652 A1 (Visser et al.) 에 기재되어 있다.

채널들 사이의 이득 차이들은 근접도 검출을 위해 이용될 수도 있으며, 이는 니어 필드/파 필드 구별을, 이를테면 양호한 정면 (frontal) 잡음 억제 (예컨대, 사용자 전면의 간섭성 스피커의 억제) 를 더욱 적극적으로 지원할 수도 있다. 마이크로폰들 사이의 거리에 의존하여, 밸런싱된 마이크로폰 채널들 사이의 이득 차이는 소스가 50 센티미터 또는 1 미터 내에 있을 경우에만 통상 발생할 것이다.

공간 선택적 프로세싱 필터 (FN20) 는 이득 기반 근접도 선택적 동작을 수행함으로써 잡음 추정치 (SNN10) 를 생성하도록 구성될 수도 있다. 이러한 동작은 입력 멀티채널 신호의 두 개의 채널들의 에너지의 비율이 (마이크로폰 어레이의 특정 축 방향에서 니어 필드 소스로부터 도착함을 나타내는) 근접 임계 값을 초과하는 경우에 그 입력 멀티채널 신호의 세그먼트가 음성임을 나타내도록, 그리고 그렇지 않으면 그 세그먼트가 잡음임을 나타내도록 구성될 수도 있다. 이런 경우, 근접 임계 값은 마이크로폰 쌍 (MV10-1, MV10-2) 에 대한 소망의 니어 필드/파 필드 경계 반경에 기초하여 선택될 수도 있다. 필터 (FN20) 의 이러한 구현예는 주파수 도메인에서의 (예컨대, 하나 이상의 특정한 주파수 범위들에 대해) 또는 시간 도메인에서의 신호에 대해 동작하도록 구성될 수도 있다. 주파수 도메인에서, 주파수 성분의 에너지는 대응하는 주파수 샘플의 제곱된 크기로서 계산될 수도 있다.

도 15c는 잡음 감소 모듈 (NR10) 을 포함하는 잡음 억제 모듈 (NS150) 의 구현예 (NS155) 의 블록도를 도시한다. 잡음 감소 모듈 (NR10) 은 근단 잡음 추정치 (SNN10) 로부터의 정보에 따라, 잡음 억제된 신호 (SNP10) 에 대한 잡음 감소 동작을 수행하여, 잡음 감소된 신호 (SRS10) 를 생성하도록 구성된다. 하나의 이러한 예에서, 잡음 감소 모듈 (NR10) 은 주파수 도메인에서 잡음 억제된 신호 (SNP10) 로부터 잡음 추정치 (SNN10) 를 감산함으로써 스펙트럼 감산 동작을 수행하여 잡음 감소된 신호 (SRS10) 를 생성하도록 구성된다. 다른 이러한 예에서, 잡음 감소 모듈 (NR10) 은 잡음 감소된 신호 (SRS10) 를 생성하기 위해 잡음 추정치 (SNN10) 를 이용하여 잡음 억제된 신호 (SNP10) 에 대한 위너 (Wiener) 필터링 동작을 수행하도록 구성된다. 이러한 경우들에서, 피드백 제거기 (CF10) 의 대응하는 인스턴스는 잡음 감소된 신호 (SRS10) 를 근단 스피치 추정치 (SSE10) 로서 수신하도록 구성될 수도 있다. 도 16a는 잡음 억제 모듈들 (NS60, NS130, 및 NS155) 의 유사한 구현예 (NS160) 의 블록도를 도시한다.

도 16b는 다른 전반적인 구성에 따른 디바이스 (D300) 의 블록도를 도시한다. 디바이스 (D300) 는 본원에서 설명된 바와 같은 라우드스피커 (LS10), 오디오 출력 스테이지 (AO10), 에러 마이크로폰 (ME10), 및 오디오 입력 스테이지 (AI10e) 의 인스턴스들을 구비한다. 디바이스 (D300) 는 또한 디바이스 (D300) 의 사용 동안 주변 소음을 픽업하도록 배치되는 잡음 기준 마이크로폰 (MR10) 와 잡음 기준 신호 (SNR10) 를 생성하도록 구성되는 오디오 입력 스테이지 (AI10) (예컨대, AI20 또는 AI30) 의 인스턴스 (AI10r) 를 구비한다. 마이크로폰 (MR10) 은 통상 귀에 착용되고, 일반적으로 ERP의 3 센티미터 이내에서 사용자의 귀로부터 멀어지게 향하지만 에러 마이크로폰 (ME10) 보다 ERP로부터 더 멀리 있다. 도 36, 37, 38b-38d, 39, 40a, 40b, 및 41a 내지 41c는 잡음 기준 마이크로폰 (MR10) 의 배치들의 여러 예들을 도시한다.

도 17a는 전반적인 구성에 따른 장치 (A300) 의 인스턴스가 디바이스 (D300) 내에 포함되는 그 장치의 블록도를 도시한다. 장치 (A300) 는 에러 신호 (SAE10) 로부터의 정보 및 잡음 기준 신호 (SNR10) 로부터의 정보에 기초하여 (예컨대, 임의의 소망의 디지털 및/또는 아날로그 ANC 기법에 따라) 잡음방지 신호 (SAN10) 의 구현예 (SAN20) 를 생성하도록 구성되는 ANC 모듈 (NC10) 의 구현예 (NC50) 를 구비한다. 이 경우, 등화기 (EQ10) 는 음향 에러 신호 (SAE10) 로부터의 정보 및/또는 잡음 기준 신호 (SNR10) 로부터의 정보에 기초하는 잡음 추정치 (SNE20) 를 수신하도록 배치구성된다.

도 17b는 에코 제거기 (EC10) 와 ANC 필터 (FC10) 의 구현예 (FC20) 를 구비하는 ANC 모듈들 (NC20 및 NC50) 의 구현예 (NC60) 의 블록도를 도시한다. ANC 필터 (FC20) 는 잡음 기준 신호 (SNR10) 의 위상을 반전시켜 잡음방지 신호 (SAN20) 를 생성하도록 통상 구성되고, 또한 ANC 동작의 주파수 응답을 등화시키도록 그리고/또는 ANC 동작의 지연을 매칭 또는 최소화하도록 구성될 수도 있다. 외부 잡음 추정치로부터의 정보 (예컨대, 잡음 기준 신호 (SNR10)) 에 기초하는 ANC 방법은 또한 피드포워드 (ANC) 방법으로서 알려져 있다. ANC 필터 (FC20) 는 필터링된 참조 ("filtered-X") LMS, 필터링된 에러 ("filtered-E") LMS, 필터링된 U (filtered-U) LMS, 및 그 변형들 (예컨대, 서브밴드 LMS, 스텝 사이즈 정규화된 LMS 등) 을 클래스가 포함하는 최소 평균 제곱 (LMS) 알고리즘의 구현예에 따라 잡음방지 신호 (SAN20) 를 생성하도록 통상 구성된다. ANC 필터 (FC20) 는, 예를 들어, 피드포워드 또는 하이브리드 (ANC) 필터로서 구현될 수도 있다. ANC 필터 (FC20) 는 시간 경과에 대해 고정인 필터 상태, 또는 대안적으로, 시간 경과에 적응적인 필터 상태를 가지도록 구성될 수도있다.

장치 (A300) 는 도 18a에 보인 바와 같이, ANC 모듈 (NC60) 에 연계하여 위에서 설명된 바와 같은 에코 제거기 (EC20) 를 구비하는 것이 바람직할 수도 있다. 잡음 기준 신호 (SNR10) 에 대한 에코 제거 동작을 포함하도록 장치 (A300) 를 구성하는 것이 또한 가능하다. 그러나, 이러한 동작은 허용가능 ANC 성능에 대해 통상 불필요한데, 잡음 기준 마이크로폰 (MR10) 이 통상 에러 마이크로폰 (ME10) 보다 훨씬 적은 에코를 감지하고 잡음 기준 신호 (SNR10) 에 대한 에코는 통상 전송 경로에서의 에코에 비해 적은 가청 효과를 가져서이다.

등화기 (EQ10) 는 잡음 추정치 (SNE20) 를 잡음방지 신호 (SAN20), 에코 없앤 잡음 신호 (SEC10), 및 에코 없앤 잡음 신호 (SEC20) 중의 임의의 것으로서 수신하도록 배치구성될 수도 있다. 예를 들어, 장치 (A300) 는 둘 이상의 이러한 잡음 추정치들 중에서 (예컨대, 에코 제거기 (EC10) 의 성능의 측정치의 현재 값 및/또는 에코 제거기 (EC20) 의 성능의 측정치의 현재 값에 기초하는) 실행 시간 (run-time) 선택을 지원하기 위해 도 3c에 보인 바와 같은 멀티플렉서를 구비하도록 구성될 수도 있다.

수동적 및/또는 능동 잡음 제거의 결과로서, 잡음 기준 신호 (SNR10) 로부터의 정보에 기초하는 근단 잡음 추정치는 동일한 자극에 응답하여 사용자가 경험하는 실제 잡음과는 다를 것이 예상될 수도 있다. 도 18b는 잡음 기준 마이크로폰 (MR10) 의 감지 표면에 위치되는 잡음 기준 점 (NRP2) 으로부터 이어 기준 점 (ERP) 까지의 기본 음향 경로 (P2) 의 다이어그램을 도시한다. 기본 음향 경로 (P2) 의 추정치를 잡음 기준 신호 (SNR10) 에 적용함으로써 잡음 기준 신호 (SNR10) 로부터 잡음 추정치 (SNE20) 를 획득하도록 장치 (A300) 의 구현예를 구성하는 것이 바람직할 수도 있다. 이러한 변형예는 이어 기준 점 (ERP) 에서 실제 잡음 전력 레벨들을 더 정확히 나타내는 잡음 추정치를 생성할 것이 예상될 수도 있다.

도 18c는 전달 함수 (XF50) 를 포함하는 장치 (A300) 의 구현예 (A360) 의 블록도를 도시한다. 전달 함수 (XF50) 는 고정된 보상을 적용하도록 구성될 수도 있고, 이 경우 수동적 차단뿐만 아니라 능동 잡음 제거의 효과를 고려하는 것이 바람직할 수도 있다. 장치 (A360) 는 또한 잡음방지 신호 (SAN20) 를 생성하도록 구성되는 ANC 모듈 (NC50) 의 구현예 (이 예에서, NC60) 를 구비한다. 잡음 추정치 (SNE20) 그것은 잡음 기준 신호 (SNR10) 로부터의 정보에 기초한다.

기본 음향 경로 (P2) 를 선형 전달 함수로서 모델링하는 것이 바람직할 수도 있다. 이 전달 함수의 고정된 상태는 디바이스 (D100) 의 시뮬레이션된 사용 동안에 (예컨대, 그것이 시뮬레이션된 사용자, 이를테면 DK, Bruel and Kjaer의 HATS (Head and Torso Simulator) 의 귀에 유지되는 동안) 음향 잡음 신호의 존재 시에 마이크로폰들 (MR10 및 ME10) 의 응답들을 비교함으로써 오프라인으로 추정될 수도 있다. 이러한 오프라인 프로시저는 또한 전달 함수의 적응적 구현예를 위한 전달 함수의 초기 상태를 획득하는데 이용될 수도 있다. 기본 음향 경로 (P2) 는 또한 비선형 전달 함수로서 모델링될 수도 있다.

전달 함수 (XF50) 는 또한 (예컨대, 디바이스의 사용 동안에 음향학적 부하 변동에 대처하기 위해) 적응적 보상을 적용하도록 구성될 수도 있다. 음향학적 부하 변동은 수신 경로의 인지되는 주파수 응답에 상당한 영향을 미칠 수 있다. 도 19a는 전달 함수 (XF50) 의 적응적 구현예 (XF60) 를 구비하는 장치 (A360) 의 구현예 (A370) 의 블록도를 도시한다. 도 19b는 본원에서 설명된 바와 같은 액티비티 검출기 (AD10) 의 인스턴스 및 적응적 전달 함수 (XF60) 의 제어가능 구현예 (XF70) 를 구비하는 장치 (A370) 의 구현예 (A380) 의 블록도를 도시한다.

도 20은 음성 마이크로폰 채널 및 잡음 기준 마이크로폰 채널 양쪽 모두를 구비하는 디바이스 (D300) 의 구현예 (D400) 의 블록도를 도시한다. 디바이스 (D400) 는 아래에서 설명되는 바와 같은 장치 (A300) 의 구현예 (A400) 를 구비한다.

도 21a는 장치 (A130) 와 유사한 장치 (A400) 의 구현예 (A430) 의 블록도를 도시한다. 장치 (A430) 는 ANC 모듈 (NC60 (또는 NC50)) 의 인스턴스 및 잡음 억제 모듈 (NS60 (또는 (NS50)) 의 인스턴스를 구비한다. 장치 (A430) 는 또한 감지된 잡음 신호 (SN10) 를 제어 신호로서 수신하도록 그리고 근단 잡음 추정치 (SNN10) 를 제어 신호로부터의 정보에 기초하여 필터링하여 필터링된 잡음 추정치 출력을 생성하도록 배치구성되는 전달 함수 (XF10) 의 인스턴스를 구비한다. 감지된 잡음 신호 (SN10) 는 잡음방지 신호 (SAN20), 잡음 기준 신호 (SNR10), 에코 없앤 잡음 신호 (SEC10), 및 에코 없앤 잡음 신호 (SEC20) 중 임의의 것일 수도 있다. 장치 (A430) 이들 신호들 중 둘 이상 중에서 감지된 잡음 신호 (SN10) 의 (예컨대, 에코 제거기 (EC10) 의 성능의 측정치의 현재 값 및/또는 에코 제거기 (EC20) 의 성능의 측정치의 현재 값에 기초한) 실행 시간 선택을 지원하기 위해 선택기 (예컨대, 도 21b에 보인 바와 같은 멀티플렉서 (SEL40)) 를 구비하도록 구성될 수도 있다.

도 22는 장치 (A110) 와 유사한 장치 (A400) 의 구현예 (A410) 의 블록도를 도시한다. 장치 (A410) 는 잡음 억제 모듈 (NS30 (또는 NS20)) 의 인스턴스와 감지된 잡음 신호 (SN10) 로부터 잡음 추정치 (SNE20) 을 생성하도록 배치구성되는 피드백 제거기 (CF10) 의 인스턴스를 구비한다. 장치 (A430) 를 참조하여 여기서 논의되는 바와 같이, 감지된 잡음 신호 (SN10) 는 음향 에러 신호 (SAE10) 로부터의 정보 및/또는 잡음 기준 신호 (SNR10) 로부터의 정보에 기초한다. 예를 들어, 감지된 잡음 신호 (SN10) 는 잡음방지 신호 (SAN10), 잡음 기준 신호 (SNR10), 에코 없앤 잡음 신호 (SEC10), 및 에코 없앤 잡음 신호 (SEC20) 중 임의의 것일 수도 있고, 장치 (A410) 는 이들 신호들의 둘 이상 중에서 감지된 잡음 신호 (SN10) 의 실행 시간 선택을 위한 (예컨대, 도 21b에서 보여지고 본원에서 논의된 바와 같은) 멀티플렉서를 구비하도록 구성될 수도 있다.

장치 (A110) 를 참조하여 여기서 논의되는 바와 같이, 피드백 제거기 (CF10) 는 제어 신호로서, 근단 신호 (SNV10), 에코 없앤 근단 신호 (SCN10), 및 잡음 억제된 신호 (SNP10) 중 임의의 것일 수도 있는 근단 스피치 추정치 (SSE10) 를 수신하도록 배치구성된다. 장치 (A410) 는 둘 이상의 이러한 근단 스피치 신호들 사이의 (예컨대, 에코 제거기 (EC30) 의 성능의 측정치의 현재 값에 기초하여) 실행 시간 선택을 지원하기 위해 도 11a에 보인 바와 같은 멀티플렉서를 구비하도록 구성될 수도 있다.

도 23은 장치 (A410) 의 구현예 (A470) 의 블록도를 도시한다. 장치 (A470) 는 잡음 억제 모듈 (NS30 (또는 NS20)) 의 인스턴스와 잡음 기준 신호 (SNR10) 로부터 피드백 제거된 잡음 기준 신호 (SRC10) 를 생성하도록 구성되는 피드백 제거기 (CF10) 의 인스턴스를 구비한다. 장치 (A470) 는 또한 피드백 제거된 잡음 기준 신호 (SRC10) 를 필터링하여 잡음 추정치 (SNE10) 를 생성하도록 배치구성되는 적응적 전달 함수 (XF60) 의 인스턴스를 구비한다. 장치 (A470) 는 또한 제어가능한 적응적 전달 함수 (XF60) 의 구현예 (XF70) 와 함께 구현될 수도 있고 (예컨대, 장치 (A380) 를 참조하여 본원에서 설명되는 바와 같이 구성되고 배열되는) 액티비티 검출기 (AD10) 의 인스턴스를 구비하도록 구현될 수도 있다.

도 24는 장치 (A410) 의 구현예 (A480) 의 블록도를 도시한다. 장치 (A480) 는 잡음 억제 모듈 (NS30 (또는 NS20)) 의 인스턴스와 피드백 제거기 (CF10) 의 상류에 배치구성되어 잡음 기준 신호 (SNR10) 를 필터링하여 필터링된 잡음 기준 신호 (SRF10) 를 생성하는 전달 함수 (XF50) 의 인스턴스를 구비한다. 도 25는 전달 함수 (XF50) 가 적응적 전달 함수 (XF60) 의 인스턴스로서 구현되는 장치 (A480) 의 구현예 (A485) 의 블록도를 도시한다.

둘 이상의 잡음 추정치들 중에서 실행 시간 선택을 지원하도록, 또는 그렇지 않으면 둘 이상의 잡음 추정치들을 조합하여 등화기 (EQ10) 에 의해 적용되는 잡음 추정치를 획득하도록 장치 (A100 또는 A300) 를 구현하는 것이 바람직할 수도 있다. 예를 들어, 이러한 장치는 단일 음성 마이크로폰으로부터의 정보에 기초하는 잡음 추정치, 둘 이상의 음성 마이크로폰들로부터의 정보에 기초하는 잡음 추정치, 및 음향 에러 신호 (SAE10) 및/또는 잡음 기준 신호 (SNR10) 로부터의 정보에 기초하는 잡음 추정치를 조합하도록 구성될 수도 있다.

도 26은 잡음 추정 결합기 (CN10) 를 구비한 장치 (A380) 의 구현예 (A385) 의 블록도를 도시한다. 잡음 추정치 결합기 (CN10) 는 에러 마이크로폰 신호 (SME10) 로부터의 정보에 기초한 잡음 추정치 및 외부 마이크로폰 신호로부터의 정보에 기초한 잡음 추정치 중에서 선택하도록 (예컨대, 선택기로서) 구성된다.

장치 (A385) 는 또한 재생되는 오디오 신호 (SRA10) 를 모니터링하도록 구성되는 액티비티 검출기 (AD10) 의 인스턴스를 구비한다. 대안적인 예에서, 액티비티 검출기 (AD10) 는 액티비티 검출 신호 (SAD10) 의 상태가 등화된 오디오 신호 (SEQ10) 에 대한 오디오 액티비티의 레벨을 나타내도록 장치 (A385) 내에 배치구성된다.

장치 (A385) 에서, 잡음 추정치 결합기 (CN10) 는 액티비티 검출 신호 (SAD10) 의 상태에 응답하여 잡음 추정치 입력들 중에서 선택하도록 배치구성된다. 예를 들어, 신호 (SRA10 또는 SEQ10) 의 레벨이 너무 높은 경우에 음향 에러 신호 (SAE10) 로부터의 정보에 기초하는 잡음 추정치의 이용을 피하도록 하는 것이 바람직할 수도 있다. 이런 경우, 잡음 추정치 결합기 (CN10) 는 원단 신호가 액티브가 아닌 경우에 음향 에러 신호 (SAE10) (예컨대, 에코 없앤 잡음 신호 (SEC10 (또는 SEC20)) 로부터의 정보에 기초하는 잡음 추정치를 잡음 추정치 (SNE20) 로서 선택하도록 그리고 원단 신호가 액티브인 경우에 외부 마이크로폰 신호 (예컨대, 잡음 기준 신호 (SNR10)) 로부터의 정보에 기초하는 잡음 추정치를 잡음 추정치 (SNE20) 로서 선택하도록 구성될 수도 있다.

도 27은 잡음 억제 모듈 (NS60 (또는 NS50)) 의 인스턴스, ANC 모듈 (NC20 (또는 NC60)) 의 인스턴스, 및 액티비티 검출기 (AD10) 의 인스턴스를 구비하는 장치 (A120 및 A140) 의 구현예 (A540) 의 블록도를 도시한다. 장치 (A540) 는 또한 장치 (A120) 를 참조하여 본원에서 설명된 바와 같이, 에코 없앤 잡음 신호 (SEC10 또는 SEC20) 로부터의 정보에 기초하여 피드백 제거된 잡음 신호 (SCC10) 를 생성하도록 배치구성되는 피드백 제거기 (CF10) 의 인스턴스를 구비한다. 장치 (A540) 는 또한 장치 (A140) 를 참조하여 본원에서 설명된 바와 같이, 근단 잡음 추정치 (SNN10) 로부터의 정보에 기초하여 필터링된 잡음 추정치 (SFE10) 를 생성하도록 배치구성되는 전달 함수 (XF20) 의 인스턴스를 구비한다. 이 경우, 잡음 추정치 결합기 (CN10) 는 원단 신호가 액티브되는 경우에 외부 마이크로폰 신호로부터의 정보에 기초하는 잡음 추정치 (예컨대, 필터링된 잡음 추정치 (SFE10)) 를 잡음 추정치 (SNE10) 로서 선택하도록 배치구성된다.

도 27의 예에서, 액티비티 검출기 (AD10) 는 재생되는 오디오 신호 (SRA10) 를 모니터링하도록 배치구성된다. 대안적인 예에서, 액티비티 검출기 (AD10) 는 액티비티 검출 신호 (SAD10) 의 상태가 등화된 오디오 신호 (SEQ10) 에 대한 오디오 액티비티의 레벨을 나타내도록 장치 (A540) 내에 배치구성된다.

결합기 (CN10) 가 디폴트로 잡음 신호 (SCC10) 를 선택하도록 장치 (A540) 를 동작시키는 것이 바람직할 수도 있는데, 이는 이 신호가 ERP에서 잡음 스펙트럼의 더 정확한 추정치를 제공할 것이 예상되어서이다. 그러나, 원단 액티비티 동안, 이 잡음 추정치는 등화기 (EQ10) 의 효과를 방해하거나 또는 심지어 원하지 않는 피드백을 발생시킬 수도 있는 원단 스피치가 우세할 수도 있다는 것이 예상될 수도 있다. 결과적으로, 원단 침묵 기간들 동안에만 결합기 (CN10) 가 잡음 신호 (SCC10) 를 선택하도록 장치 (A540) 를 동작시키는 것이 바람직할 수도 있다. 원단 침묵 기간들 동안에만 전달 함수 (XF20) 가 (예컨대, 잡음 추정치 (SNN10) 를 잡음 신호 (SEC10 또는 SEC20) 에 적응적으로 매칭시키기 위해) 업데이트되도록 장치 (A540) 를 동작시키는 것이 또한 바람직할 수도 있다. 남은 시간 프레임들에서 (즉, 원단 액티비티 동안), 결합기 (CN10) 가 잡음 추정치 (SFE10) 를 선택하도록 장치 (A540) 를 동작시키는 것이 바람직할 수도 있다. 원단 스피치의 대부분은 에코 제거기 (EC30) 에 의해 추정치 (SFE10) 로부터 제거되었다고 예상될 수도 있다.

도 28은 적절한 전달 함수를 선택된 잡음 추정치에 적용하도록 구성되는 장치 (A130 및 A430) 의 구현예 (A435) 의 블록도를 도시한다. 이 경우, 잡음 추정치 결합기 (CN10) 는 잡음 기준 신호 (SNR10) 로부터의 정보에 기초하는 잡음 추정치 및 근단 마이크로폰 신호 (SNV10) 로부터의 정보에 기초하는 잡음 추정치 중에서 선택하도록 배치구성된다. 장치 (A435) 는 또한 선택된 잡음 추정치를 적응적 전달 함수들 (XF10 및 XF60) 중 적절한 하나로 향하게 하도록 구성되는 선택기 (SEL20) 를 구비한다. 장치 (A435) 의 다른 예들에서, 전달 함수 (XF20) 는 본원에서 설명된 바와 같은 전달 함수 (XF20) 의 인스턴스로서 구현되고 그리고/또는 전달 함수 (XF60) 는 본원에서 설명된 바와 같은 전달 함수 (XF50 또는 XF70) 의 인스턴스로서 구현된다.

액티비티 검출기 (AD10) 는 전달 함수 적응의 제어를 위해 그리고 잡음 추정치 선택을 위해 액티비티 검출 신호 (SAD10) 의 상이한 인스턴스들을 생성하도록 구성될 수도 있다는 것이 명시적으로 지적된다. 예를 들어, 이러한 상이한 인스턴스들은 모니터링된 신호의 레벨을 상이한 대응하는 임계치들과 (예컨대, 외부 잡음 추정치를 선택하기 위한 임계 값이 적응을 디스에이블하기 위한 임계 값보다 높거나, 또는 반대의 경우가 되도록 하여) 비교함으로써 획득될 수도 있다.

잡음 추정 경로에서의 불충분한 에코 제거는 등화기 (EQ10) 의 차선의 성능을 이끌어 낼 수도 있다. 등화기 (EQ10) 에 의해 적용되는 잡음 추정치가 오디오 출력 신호 (SAO10) 로부터의 제거되지 않은 음향 에코를 포함한다면, 양의 피드백 루프는 등화된 오디오 신호 (SEQ10) 및 등화기 (EQ10) 에서의 서브밴드 이득 계수 계산 경로 사이에 만들어질 수도 있다. 이 피드백 루프에서, 오디오 출력 신호 (SAO10) 에 기초하는 음향 신호에서의 등화된 오디오 신호 (SEQ10) 의 레벨이 (예컨대, 라우드스피커 (LS10) 에 의해 재생되므로) 높을수록, 등화기 (EQ10) 가 서브밴드 이득 계수들을 더 많이 증가시키려 할 것이다.

음향 에러 신호 (SAE10) 및/또는 잡음 기준 신호 (SNR10) 로부터의 정보에 기초하는 잡음 추정치가 (예컨대, 불충분한 에코 제거로 인하여) 신뢰할 수 없게 되었다고 결정하도록 장치 (A100 또는 A300) 를 구현하는 것이 바람직할 수도 있다. 이러한 방법은 시간 경과에 대한 잡음 추정치 전력의 상승을 신뢰할 수 없음 (unreliability) 의 표시로서 검출하도록 구성될 수도 있다. 이런 경우, 하나 이상의 음성 마이크로폰들로부터의 정보에 기초하는 잡음 추정치 (예컨대, 근단 잡음 추정치 (SNN10)) 의 전력은 기준으로서 이용될 수도 있는데, 이는 근단 전송 경로에서의 에코 제거의 실패가 근단 잡음 추정치의 전력을 이러한 방식으로 증가시키도록 할 것이 예상되지 않을 것이기 때문이다.

도 29는 잡음 억제 모듈 (NS60 (또는 NS50)) 의 인스턴스와 고장 검출기 (FD10) 를 구비하는 장치 (A140) 의 이러한 구현예 (A545) 의 블록도를 도시한다. 고장 검출기 (FD10) 는 모니터링된 잡음 추정치의 신뢰도의 측정치의 값을 상태가 나타내는 고장 검출 신호 (SFD10) 를 생성하도록 구성된다. 예를 들어, 고장 검출기 (FD10) 는 모니터링된 잡음 추정치의 전력 레벨의 시간에 대한 변화 (dM) (예컨대, 인접한 프레임들 사이의 차이) 및 근단 잡음 추정치의 전력 레벨의 시간에 대한 변화 (dN) 사이의 관계의 상태에 기초하여 고장 검출 신호 (SFD10) 를 생성하도록 구성될 수도 있다. dN에서의 대응하는 증가의 부재 시의 dM에서의 증가는, 모니터링된 잡음 추정치가 현재 신뢰할 수 없다는 것을 나타낸다고 예상될 수도 있다. 이 경우, 잡음 추정치 결합기 (CN10) 는 모니터링된 잡음 추정치가 현재 신뢰할 수 없다는 고장 검출 신호 (SFD10) 에 의한 표시에 응답하여 다른 잡음 추정치를 선택하도록 조정구성된다. 잡음 추정치의 세그먼트 동안의 전력 레벨은, 예를 들어, 세그먼트의 제곱된 샘플들의 합으로서 계산될 수도 있다.

하나의 예에서, 고장 검출 신호 (SFD10) 는 dM 대 dN의 비율 (또는 데시벨 또는 다른 로그 도메인에서의 dM 및 dN 사이의 차이) 가 임계 값을 초과하는 경우 (대안으로, 임계 값 이상인 경우) 제 1 상태 (예컨대, 온, 1, 하이, 외부 선택 (select external)) 를, 그리고 그렇지 않으면 제 2 상태 (예컨대, 오프, 0, 로우, 내부 선택 (select internal)) 를 가진다. 임계 값은 (예컨대, 근단 잡은 추정치의 시간 평균된 에너지에 기초하여) 고정된 값 또는 적응 값일 수도 있다.

과도적인 것보다 안정된 경향에 응답하도록 고장 검출기 (FD10) 를 구성하는 것이 바람직할 수도 있다. 예를 들어, dM 및 dN을 그것들 사이의 관계 (예컨대, 위에서 설명된 바와 같은 비율 또는 차이) 를 평가하기 전에 시간적으로 평활화하도록 고장 검출기 (FD10) 를 구성하는 것이 바람직할 수도 있다. 부가하여 또는 대안으로, 임계 값을 적용하기 전에 관계의 계산된 값을 시간적으로 평활화하도록 고장 검출기 (FD10) 를 구성하는 것이 바람직할 수도 있다. 어느 경우에나, 이러한 시간 평활화 동작의 예들은 평균화, 저역통과 필터링, 및 1차 IIR 필터 또는 "리키 적분기 (leaky integrator)"를 포함한다.

잡음 억제 필터 (FN10 (또는 FN30)) 를 튜닝하여 잡음 억제에 적합한 근단 잡음 추정치 (SNN10) 를 생성하는 것은 등화에 덜 적합한 잡음 추정치에 이르게 할 수도 있다. 디바이스 (A100 또는 A300)) 의 사용 동안의 일부 시간들에서 (예컨대, 공간 선택적 프로세싱 필터 (FN30) 가 전송 경로에 필요하지 않은 경우에 전력을 절약하기 위해) 잡음 억제 필터 (FN10) 를 비활성화시키는 것이 바람직할 수도 있다. 에코 제거기 (EC10 및/또는 EC20) 의 고장의 경우에 백업 근단 잡음 추정치를 제공하는 것이 바람직할 수도 있다.

이러한 경우들에 대해, 신호 (SNV10) 로부터의 정보에 기초하여 다른 근단 잡음 추정치를 계산하도록 구성되는 잡음 추정 모듈을 구비하도록 장치 (A100 또는 A300) 를 구성하는 것이 바람직할 수도 있다. 도 30은 장치 (A120) 의 구현예 (A520) 의 블록도를 도시한다. 장치 (A520) 는 근단 신호 (SNV10) 또는 에코 없앤 근단 신호 (SCN10) 로부터의 정보에 기초하여 근단 잡음 추정치 (SNN20) 를 계산하도록 구성되는 근단 잡음 추정기 (NE10) 를 구비한다. 하나의 예에서, 잡음 추정기 (NE10) 는 근단 신호 (SNV10) 또는 에코 없앤 근단 신호 (SCN10) 의 잡음 프레임들을 주파수 도메인, 이를테면 변환 도메인 (예컨대, FFT 도메인) 또는 서브밴드 도메인에서 시간 평균화함으로써 근단 잡음 추정치 (SNN20) 를 계산하도록 구성된다. 장치 (A140) 에 비교하여, 장치 (A520) 는 잡음 추정치 (SNN10) 대신 근단 잡음 추정치 (SNN20) 를 이용한다. 다른 예에서, 근단 잡음 추정치 (SNN20) 는 재생되는 오디오 신호 (SRA10) 의 등화를 지원하기 위해 (예컨대, 전달 함수 (XF20), 잡음 추정치 결합기 (CN10), 및/또는 등화기 (EQ10) 의 상류에서) 잡음 추정치 (SNN10) 와 결합되어 (예컨대, 평균되어) 근단 잡음 추정치를 획득한다.

도 31a는 에러 마이크로폰 (ME10) 을 구비하지 않는 전반적인 구성에 따른 장치 (D700) 의 블록도를 도시한다. 도 31b는 에러 신호 (SAE10) 없이는 장치 (A410) 와 유사한 장치 (A700) 의 구현예 (A710) 의 블록도를 도시한다. 장치 (A710) 는 잡음 억제 모듈 (NS30 (또는 NS20)) 의 인스턴스와 잡음 기준 신호 (SNR10) 로부터의 정보에 기초하여 잡음방지 신호 (SAN20) 를 생성하도록 구성되는 ANC 모듈 (NC80) 을 구비한다.

도 32a는 잡음 억제 모듈 (NS30 (또는 NS20)) 의 인스턴스를 구비하고 에러 신호 (SAE10) 없이는 장치 (A480) 와 유사한 장치 (A710) 의 구현예 (A720) 의 블록도를 도시한다. 도 32b는 잡음 억제 모듈 (NS60 (또는 NS50)) 의 인스턴스와, 잡음 기준 점 (NRP1) 에서부터 잡음 기준 점 (NRP2) 까지의 기본 음향 경로 (P3) 의 모델에 따라 근단 잡음 추정치 (SNN100) 를 보상하여 잡음 추정치 (SNE30) 를 생성하는 전달 함수 (XF90) 를 구비하는 장치 (A700) 의 구현예 (A730) 의 블록도를 도시한다. 기본 음향 경로 (P3) 를 선형 전달 함수로서 모델링하는 것이 바람직할 수도 있다. 이 전달 함수의 고정된 상태는 디바이스 (D700) 의 시뮬레이션된 사용 동안에 (예컨대, 그것이 시뮬레이션된 사용자, 이를테면 DK, Bruel and Kjaer의 HATS (Head and Torso Simulator) 의 귀에 유지되는 동안) 음향 잡음 신호의 존재 시에 마이크로폰들 (MV10 및 MR10) 의 응답들을 비교함으로써 오프라인으로 추정될 수도 있다. 이러한 오프라인 프로시저는 또한 전달 함수의 적응적 구현예를 위한 전달 함수의 초기 상태를 획득하는데 이용될 수도 있다. 기본 음향 경로 (P3) 는 또한 비선형 전달 함수로서 모델링될 수도 있다.

도 33은 잡음 기준 신호 (SNR10) 로부터 근단 스피치 추정치 (SSE10) 를 제거하여 피드백 제거된 잡음 기준 신호 (SRC10) 를 생성하도록 배치구성되는 피드백 제거기 (CF10) 의 인스턴스를 구비하는 장치 (A730) 의 구현예 (A740) 의 블록도를 도시한다. 장치 (A740) 는 또한 전달 함수 (XF90) 가 장치 (A140) 에 관하여 본원에서 설명된 바와 같이 배치구성되는 액티비티 검출기 (AD10) 의 인스턴스로부터의 제어 입력을 수신하도록 그리고 제어 입력의 상태에 따라 (예컨대, 신호 (SRA10 또는 SEQ10) 에 응답하여) 적응을 인에이블 또는 디스에이블하도록 구성되게끔 구현될 수도 있다.

장치 (A700) 는 근단 잡음 추정치 (SNN10) 및 이어 기준 점 (ERP) 에서의 잡음 신호의 합성된 추정치 중에서 선택하도록 배치구성되는 잡음 추정치 결합기 (CN10) 의 인스턴스를 구비하도록 구현될 수도 있다. 대안으로, 장치 (A700) 는 근단 잡음 추정치 (SNN10), 잡음 기준 신호 (SNR10), 또는 피드백 제거된 잡음 기준 신호 (SRC10) 를 이어 기준 점 (ERP) 에서의 잡음 신호의 스펙트럼의 예측에 따라 필터링함으로써 잡음 추정치 (SNE30) 를 계산하도록 구현될 수도 있다.

보조 경로에 대한 보상을 포함하기 위해 본원에서 설명된 바와 같은 적응적 등화 장치 (예컨대, 장치 (A100, A300 또는 A700)) 를 구현하는 것이 바람직할 수도 있다. 이러한 보상은 적응적 역 (Iinverse) 필터를 사용하여 수행될 수도 있다. 하나의 예에서, 장치는 ERP에서 모니터링된 (예컨대, 음향 에러 신호 (SAE10) 로부터의) 전력 스펙트럼 밀도 (PSD) 를 수신 경로에서의 디지털 신호 프로세서의 출력단에 인가되는 (예컨대, 오디오 출력 신호 (SAO10) 로부터의) PSD와 비교하도록 구성된다. 적응적 필터는 음향학적 부하의 변동에 의해 야기될 수도 있는 주파수 응답의 임의의 편이에 대해 등화된 오디오 신호 (SEQ10) 또는 오디오 출력 신호 (SAO10) 를 정정하도록 구성될 수도 있다.

일반적으로, 본원에서 설명된 바와 같은 디바이스 (D100, D300, D400, 또는 D700) 의 임의의 구현예는 음성 마이크로폰 (MV10) 의 다수의 인스턴스들을 구비하도록 구성될 수도 있고, 모든 이러한 구현예들은 명시적으로 의도되고 이로써 개시된다. 예를 들어, 도 34는 장치 (A800) 를 구비하는 디바이스 (D400) 의 멀티채널 구현예 (D800) 의 블록도를 도시하고, 도 35는 장치 (A410) 의 멀티채널 구현예인 장치 (A800) 의 구현예 (A810) 의 블록도를 도시한다. 동일한 마이크로폰이 잡음 기준 마이크로폰 (MR10) 및 보조 음성 마이크로폰 (MV10-2) 둘 다로서 쓰일 수 있도록 디바이스 (D800) (또는 디바이스 (D700) 의 멀티채널 구현예) 가 구성되는 것이 가능하다.

멀티채널 근단 신호로부터의 정보에 기초한 근단 잡음 추정치 및 에러 마이크로폰 신호 (SME10) 로부터의 정보에 기초한 잡음 추정치의 조합은 등화 목적을 위한 강건한 비정상성 (nonstationary) 잡음 추정치를 내어놓을 것이 예상될 수도 있다. 핸드셋이 통상 하나의 귀에만 유지되어서, 다른 귀는 배경 잡음에 노출된다는 것을 명심해야 한다. 이러한 애플리케이션들에서, 하나의 귀에서의 에러 마이크로폰 신호로부터의 정보에 기초한 잡음 추정치는 그것만으로 충분하지 않을 수도 있고, 이러한 잡음 추정치를 하나 이상의 음성 마이크로폰 및/또는 잡음 기준 마이크로폰 신호들로부터의 정보에 기초하는 잡음 추정치와 결합하도록 (예컨대 믹싱하도록) 잡음 추정치 결합기 (CN10) 를 구성하는 것이 바람직할 수도 있다.

본원에서 설명되는 여러 전달 함수들의 각각은 시간 도메인 계수들의 세트 또는 주파수 도메인 (예컨대, 서브밴드 또는 변환 도메인) 팩터들의 세트로서 구현될 수도 있다. 그런 전달 함수들의 적응적 구현예는 하나 이상의 이러한 계수들 또는 팩터들의 값들을 변경함으로써 또는 이러한 계수들 또는 팩터들의 복수의 고정식 세트들을 선택함으로써 수행될 수도 있다. 전달 함수 (예컨대, XF10, XF60, XF70) 의 적응적 구현예를 구비하는 본원에서 설명된 바와 같은 임의의 구현예는 또한 (예컨대, 신호 (SRA10 및/또는 SEQ10) 를 모니터링하여) 적응을 인에이블 또는 디스에이블시키기 위해 본원에서 설명된 바와 같이 배치구성되는 액티비티 검출기 (AD10) 의 인스턴스를 구비하도록 구현될 수도 있다는 것에 특별히 주의한다. 잡음 추정치 결합기 (CN10) 의 인스턴스를 구비하는 본원에서 설명된 바와 같은 임의의 구현예에서, 결합기는 세 개 또는 이상의 잡음 추정치들 (예컨대, 에러 신호 (SAE10) 로부터의 정보에 기초하는 잡음 추정치, 근단 잡음 추정치 (SNN10), 및 근단 잡음 추정치 (SNN20)) 중에서 선택하도록 그리고/또는 그렇지 않으면 결합하도록 구성될 수도 있다는 것에 또한 특별히 주의한다.

본원에서 설명된 바와 같은 장치 (A100, A200, A300, A400, 또는 A700) 의 구현예의 프로세싱 엘리멘트들 (즉, 트랜스듀서들이 아닌 엘리멘트들) 은 하드웨어로 그리고/또는 하드웨어를 소프트웨어 및/또는 펌웨어와 조합하여 구현될 수도 있다. 예를 들어, 이들 프로세싱 엘리멘트들의 하나 이상 (아마도 모두) 는 또한 신호 (SNV10) 로부터의 스피치 정보 (예컨대, 근단 스피치 추정치 (SSE10)) 에 기초하여 하나 이상의 다른 동작들 (예컨대, 보코딩) 을 수행하도록 구성되는 프로세서 상에 구현될 수도 있다.

본원에서 설명된 바와 같은 적응적 등화 디바이스 (예컨대, 디바이스 (D100, D200, D300, D400, 또는 D700)) 는 본원에서 설명된 바와 같은 대응하는 장치 (A100, A200, A300, A400, 또는 A700) 의 구현예를 구비하는 칩 또는 칩셋을 포함할 수도 있다. 이 칩 또는 칩셋 (예컨대, 이동국 모뎀 (MSM) 칩셋) 은 장치의 전체 또는 부분을 (예컨대, 명령들로서) 실행하도록 구성될 수도 있는 하나 이상의 프로세서들을 포함할 수도 있다. 이 칩 또는 칩셋은 또한 디바이스의 다른 프로세싱 엘리멘트들 (예컨대, 오디오 입력 스테이지 (AI10) 의 엘리멘트들 및/또는 오디오 출력 스테이지 (AO10) 의 엘리멘트들) 을 구비할 수도 있다.

이러한 칩 또는 칩셋은 또한 무선 주파수 (RF) 통신 신호를 무선 통신 채널을 통해 수신하도록 그리고 RF 신호 내에서 인코딩된 오디오 신호 (예컨대, 재생되는 오디오 신호 (SRA (10)) 를 디코딩하도록 구성되는 수신기, 및 신호 (SNV10) 로부터의 스피치 정보 (예컨대, 근단 (near-end) 스피치 추정치 (SSE10)) 에 기초하는 오디오 신호를 인코딩하도록 그리고 인코딩된 오디오 신호를 서술하는 RF 통신 신호를 송신하도록 구성되는 송신기를 구비할 수도 있다.

이러한 디바이스는 하나 이상의 인코딩 및 디코딩 체계들 (schemes) (또한 "코덱들"이라 불리움) 을 통해 음성 통신 데이터를 무선으로 송신하고 수신하도록 구성될 수도 있다. 이러한 코덱들의 예들로는 2007년 2월의 명칭이 "Enhanced Variable Rate Codec, Speech Service Options 3, 68, and 70 for Wideband Spread Spectrum Digital Systems"인 3세대 파트너십 프로젝트 2 (3GPP2) 문서 C.S0014-C, v1.0 (www-dot-3gpp-dot-org에서 온라인으로 입수가능) 에 기재된 바와 같은 개선 변속 코덱; 2004년 1월의 명칭이 "Selectable Mode Vocoder (SMV) Service Option for Wideband Spread Spectrum Communication Systems"인 3GPP2 문서 C.S0030-0, v3.0 (www-dot-3gpp-dot-org에서 온라인으로 입수가능) 에 기재된 바와 같은 선택가능 모드 보코더 스피치 코덱; ETSI TS 126 092 V6.0.0 (유럽전기통신표준협회 (ETSI), 프랑스, 소피아 안티폴리스 세덱스, 2004년 12월) 에 기재된 바와 같은 적응적 멀티 레이트 (AMR) 스피치 코덱; 및 문서 ETSI TS 126 192 V6.0.0 (ETSI, 2004년 12월) 에 기재된 바와 같은 AMR 광대역 스피치 코덱이 있다. 이런 경우, 칩 또는 칩셋 (CS10) 은 Bluetooth^TM 및/또는 이동국 모뎀 (MSM) 칩셋일 수도 있다.

본원에서 설명된 바와 같은 디바이스들 (D100, D200, D300, D400, 및 D700) 의 구현예들은 헤드셋들, 헤드셋들, 이어버드들, 및 이어컵들을 포함하여 다양한 통신들 디바이스들에서 실시될 수도 있다. 도 36은 정면에서 선형 어레이로 배열된 세 개의 음성 마이크로폰들 (MV10-1, MV10-2, 및 MV10-3), 정면의 상단 코너에 위치된 에러 마이크로폰 (ME10), 및 배면에 위치된 잡음 기준 마이크로폰 (MR10) 을 가지는 핸드셋 (H100) 의 정면, 배면, 및 측면 도들을 도시한다. 라우드스피커 (LS10) 는 에러 마이크로폰 (ME10) 근처의 정면 상단 중앙에 배치된다. 도 37은 음성 마이크로폰들의 다른 배치구성을 갖는 핸드셋 (H200) 의 정면, 배면, 및 측면 도들을 도시한다. 이 예에서, 음성 마이크로폰들 (MV10-1 및 MV10-3) 은 정면에 위치되고, 음성 마이크로폰 (MV10-2) 은 배면에 위치된다. 이러한 핸드셋들의 마이크로폰들 사이의 최대 거리는 통상 약 10 또는 12 센티미터이다.

추가의 예에서, 본원에서 설명된 바와 같은 적응적 등화 장치 (예컨대, 장치 (A100, A200, A300, 또는 A400)) 의 구현예의 프로세싱 엘리멘트들을 구비하는 통신 핸드셋 (예컨대, 셀룰러 전화기 핸드셋) 은, 에러 마이크로폰 (ME10) 을 구비하는 헤드셋으로부터의 음향 에러 신호 (SAE10) 를 수신하도록 그리고 오디오 출력 신호 (SAO10) 를 (예컨대, 워싱턴 주, 벨레뷰 시의 Bluetooth Special Interest Group, Inc.에 의해 보급되는 바와 같은 Bluetooth^TM 프로토콜의 버전을 이용하여) 유선 및/또는 무선 통신들의 링크를 통해 헤드셋에 출력하도록 구성된다. 디바이스 (D700) 는 헤드셋으로부터 잡음 기준 신호 (SNR10) 를 수신하고 오디오 출력 신호 (SAO10) 를 헤드셋에 출력하는 핸드셋에 의해 비슷하게 구현될 수도 있다.

하나 이상의 마이크로폰을 갖는 이어피스 또는 다른 헤드셋은 본원에서 설명되는 바와 같은 등화 디바이스의 구현예 (예컨대, 디바이스 D100, D200, D300, D400, 또는 D700) 를 포함할 수도 있는 한 종류의 휴대용 통신 디바이스이다. 이러한 헤드셋은 유선 또는 무선일 수 있다. 예를 들어, 무선 헤드셋은 셀룰러 전화기 핸드셋과 같은 전화 디바이스와의 (예컨대, 위에서 설명된 바와 같은 Bluetooth^TM 프로토콜의 한 버전을 이용한) 통신을 통해 반 이중 또는 전 이중 (full duplex) 전화통화를 지원하도록 구성될 수도 있다.

도 38a 내지 38d는 본원에서 설명되는 바와 같은 등화 디바이스의 구현예를 구비할 수도 있는 다중-마이크로폰 휴대용 오디오 감지 디바이스 (H300) 의 각종 뷰들을 도시한다. 디바이스 (H300) 는 음성 마이크로폰 (MV10) 및 잡음 기준 마이크로폰 (MR10) 을 담고 있는 하우징 (Z10), 에러 마이크로폰 (ME10) 및 라우드스피커 (LS10) 를 구비하고 하우징으로부터 연장하는 이어폰 (Z20) 을 구비하는 무선 헤드셋이다. 일반적으로, 헤드셋의 하우징은 직사각형일 수도 있거나 또는 그렇지 않으면 도 38a, 38b, 및 38d에 보인 바와 같이 기다랗게 (예컨대, 미니붐 같은 형상으로) 될 수 있거나 또는 더 둥글게 되거나 또는 심지어 원형일 수도 있다. 하우징은 또한 배터리 및 프로세서 그리고/또는 다른 프로세싱 회로 (예컨대, 인쇄 회로 기판 및 그 위에 탑재된 부품들) 를 에워쌀 수도 있고, 전기 포트 (예, 미니 유니버셜 직렬 버스 (USB) 또는 다른 배터리 충전용 포트) 및 하나 이상의 버튼 스위치들 및/또는 LED들과 같은 사용자 인터페이스 특징부들을 구비할 수 있다. 통상 하우징의 장축을 따르는 하우징의 길이는 1 내지 3 인치의 범위에 있다.

디바이스 (H300) 의 에러 마이크로폰 (ME10) 은 입구에서 (예컨대, the 사용자의 외이도 아래에서) 사용자의 외이도로 향하고 있다. 통상 디바이스 (H300) 의 음성 마이크로폰 (MV10) 및 잡음 기준 마이크로폰 (MR10) 의 각각은 디바이스 내에서 음향 포트로서 역할을 하는 하우징 내의 하나 이상의 작은 홀들 뒤에 탑재된다. 도 38b 내지 38d는 음성 마이크로폰 (MV10) 을 위한 음향 포트 (Z40) 및 잡음 기준 마이크로폰 (MR10) 을 위한 (및/또는 보조 음성 마이크로폰을 위한) 음향 포트 (Z50) 의 두 개의 예들 (Z50A, Z50B) 의 로케이션들을 도시한다. 이 예에서, 마이크로폰들 (MV10 및 MR10) 은 외부 주변 사운드를 수신하도록 사용자의 귀에서 먼 쪽을 향하게 된다. 도 39는 사용자의 입에 대한 표준 배향으로 사용자의 귀에 장착되는 헤드셋 (H300) 의 평면도를 도시한다. 도 40a는 잡음 기준 마이크로폰 (MR10) (및/또는 보조 음성 마이크로폰) 이 헤드셋 (H300) 내에 배치될 수도 있는 여러 후보 로케이션들을 도시한다.

헤드셋은 또한 헤드셋으로부터 통상 착탈가능한 고정용 (securing) 디바이스, 이를테면 이어 후크 (Z30) 를 구비할 수도 있다. 외부 이어 후크는 원상태로 되돌릴 수도 있어, 예를 들어, 사용자가 어느 귀에 대해 사용하더라도 헤드셋을 구성할 수 있게 한다. 대안으로 또는 부가적으로, 헤드셋의 이어폰은 특정 사용자의 외이도 (ear canal) 의 외부 부분에 대한 양호한 끼워맞춤을 위한 상이한 사이즈 (예컨대, 직경) 의 이어피스를 상이한 사용자들이 사용하는 것을 허용하는 착탈식 이어피스를 포함할 수도 있는 내부 고정용 디바이스 (예컨대, 이어플러그) 로서 디자인될 수도 있다. 도 38a에 도시된 바와 같이, 헤드셋의 이어폰은 또한 에러 마이크로폰 (ME10) 을 구비할 수도 있다.

본원에서 설명된 바와 같은 등화 디바이스 (예컨대, 디바이스 (D100, D200, D300, D400, 또는 D700)) 는 사용자의 머리에 착용되도록 밴드에 의해 통상 연결되는 하나 또는 한 쌍의 이어컵들을 구비하도록 구현될 수도 있다. 도 40b는 (예컨대, 무선으로 또는 전선을 통해 수신되는 신호로부터) 사용자의 귀에 대한 음향 신호를 생성하도록 배치구성되는 라우드스피커 (LS10) 를 구비하는 이어컵 (EP10) 의 단면도를 도시한다. 이어컵 (EP10) 은 슈퍼라 아우라형 (supra-aural) 이 되도록 (즉, 사용자의 귀를 에워싸지 않고 사용자의 귀에 얹혀 있도록) 또는 서컴아우랄형 (circumaural) (즉, 사용자의 귀를 에워싸도록) 구성될 수도 있다.

이어컵 (EP10) 은 사용자의 귀에 대해 라우드스피커 구동 신호 (SO10) 를 재생하도록 배치구성되는 라우드스피커 (LS10) 와 입구에서 사용자의 외이도를 향하게 되고 음향 에러 신호를 (예컨대, 이어컵 하우징에서의 음향 포트를 통해) 감지하도록 배치구성되는 에러 마이크로폰 (ME10) 을 구비한다. 이러한 경우에 라우드스피커 (LS10) 로부터 이어컵의 재료를 통한 기계적 진동들의 수신으로부터 마이크로폰 (ME10) 을 분리하도록 하는 것이 바람직할 수 있다.

이 예에서, 이어컵 (EP10) 은 또한 음성 마이크로폰 (MC10) 을 구비한다. 이러한 이어컵의 다른 구현들에서, 음성 마이크로폰 (MV10) 은 이어컵 (EP10) 의 인스턴스의 왼쪽 또는 오른쪽으로 연장하는 붐 또는 다른 돌출부 상에 장착될 수도 있다. 이 예에서, 이어컵 (EP10) 은 또한 이어컵 하우징에서의 음향 포트를 통해 환경 소음 신호를 수신하도록 배치구성된 잡음 기준 마이크로폰 (MR10) 을 구비한다. 잡음 기준 마이크로폰 (MR10) 이 또한 보조 음성 마이크로폰 (MV10-2) 으로서 역할을 하도록 이어컵 (EP10) 을 구성하는 것이 바람직할 수도 있다.

이어컵들에 대한 대체예로서, 본원에서 설명된 바와 같은 등화 디바이스 (예컨대, 디바이스 (D100, D200, D300, D400, 또는 D700)) 는 하나 또는 한 쌍의 이어버드들을 구비하도록 구현될 수도 있다. 도 41a는 사용자의 귀에서 이어버드에 장착된 잡음 기준 마이크로폰 (MR10) 및 이어버드를 휴대용 미디어 플레이어 (MP100) 에 접속시키는 전선 (CD10) 에 장착된 음성 마이크로폰 (MV10) 과 함께, 사용 중인 한 쌍의 이어버드들의 일 예를 도시한다. 도 41b는 라우드스피커 (LS10), 입구에서 사용자의 외이도로 향하고 있는 에러 마이크로폰 (ME10), 및 사용자의 외이도로부터 멀어지게 향하고 있는 잡음 기준 마이크로폰 (MR10) 을 구비하는 이어버드 (EB10) 의 일 예의의 정면도를 도시한다. 사용 동안, 이어버드 (EB10) 는 (예컨대, 전선 (CD10) 을 통해 수신된 신호로부터) 라우드스피커 (LS10) 에 의해 생성된 음향 신호를 사용자의 외이도로 향하게 하도록 사용자의 귀에 착용된다. 음향 신호를 사용자의 외이도로 향하게 하는 이어버드 (EB10) 의 일 부분은 탄성 재료, 이를테면 엘라스토머 (예컨대, 실리콘 고무) 에 의해 만들어지거나 또는 그것으로 덮여서, 편안히 착용되어 사용자의 외이도에 대한 밀봉물을 형성하도록 하는 것이 바람직할 수도 있다. 라우드스피커 (LS10) 로부터 이어버드 (earbud) 의 구조를 통한 기계적 진동들의 수신으로부터 마이크로폰 (ME10) 을 분리시키도록 하는 것이 바람직할 수도 있다.

도 41c는 마이크로폰 (MV10) 이 사용 동안 사용자의 입 쪽으로 향하도록 이어버드에서의 전선 (CD10) 의 변형 교정 (strain-relief) 부분 내에 마이크로폰 (MV10) 이 장착되는 이어버드 (EB10) 의 구현예 (EB12) 의 측면도를 도시한다. 다른 예에서, 마이크로폰 (MV10) 은 마이크로폰 (MR10) 으로부터 약 3 내지 4 센티미터의 거리에서의 전선 (CD10) 의 반 강성 (semi-rigid) 케이블 부분에 장착된다. 반 강성 케이블은 플렉시블 및 경량이지만 사용 중에 사용자의 입 쪽으로 향하는 마이크로폰 (MV10) 을 유지시키기에 충분히 뻣뻣하도록 구성될 수도 있다.

추가의 예에서, 본원에서 설명된 바와 같은 적응적 등화 장치 (예컨대, 장치 (A100, A200, A300, 또는 A400)) 의 구현예의 처리 엘리멘트들을 구비하는 통신 핸드셋 (예컨대, 셀룰러 전화기 핸드셋) 은, 에러 마이크로폰 (ME10) 을 구비하는 이어컵 또는 이어버드로부터 음향 에러 신호 (SAE10) 를 수신하도록 그리고 오디오 출력 신호 (SAO10) 를 (예컨대, Bluetooth^TM 프로토콜의 버전을 이용하여) 유선 및/또는 무선 통신들의 링크를 통해 이어컵 또는 이어버드에 출력하도록 구성된다. 디바이스 (D700) 는 이어컵 또는 이어버드로부터 잡음 기준 신호 (SNR10) 를 수신하고 오디오 출력 신호 (SAO10) 를 이어컵 또는 이어버드로 출력하는 핸드셋에 의해 비슷하게 구현될 수도 있다.

등화 디바이스, 이를테면 이어컵 또는 헤드셋은, 모노포닉 오디오 신호를 생성하도록 구현될 수도 있다. 대안으로, 이러한 디바이스는 사용자의 귀들의 각각에서 입체음향 신호의 개별 채널을 (예컨대, 스테레오 이어폰들 또는 스테레오 헤드셋처럼) 생성하도록 구현될 수도 있다. 이 경우, 각 귀에서의 하우징은 라우드스피커 (LS10) 의 개별 인스턴스를 담고 있다. 양쪽 귀들에 대해 동일한 근단 잡음 추정치 (SNN10) 를 이용하는 것이 충분할 수도 있지만, 각각의 귀에 대해 내부 잡음 추정치의 다른 인스턴스 (예컨대, 에코 없앤 잡음 신호 (SEC10 또는 SEC20)) 를 제공하는 것이 바람직할 수도 있다. 예를 들어, 각각의 귀에 대한 에러 마이크로폰 (ME10) 의 개별 인스턴스 및/또는 잡음 기준 신호 (SNR10) 를 생성하기 위해 그 귀에 하나 이상의 마이크로폰들을 구비하는 것이 바람직할 수도 있고, 잡음방지 신호 (SAN10) 의 대응하는 인스턴스를 생성하기 위해 각각의 귀에 대한 ANC 모듈 (NC10, NC20, 또는 NC80) 의 개별 인스턴스를 구비하는 것이 또한 바람직할 수도 있다. 재생되는 오디오 신호 (SRA10) 가 입체음향인 경우에 대해, 등화기 (EQ10) 는 등화 잡음 추정치 (예컨대, 신호 (SNE10, SNE20, 또는 SNE30)) 에 따라 각각의 채널을 따로따로 처리하도록 구현될 수도 있다.

본원에서 개시된 시스템들, 방법들, 디바이스들, 및 장치의 적용가능성은 본원에서 개시되고 도 36 내지 도 41c에 보여진 특정한 예들을 포함하지만 그것들로 제한되지는 않는다.

도 42a는 태스크들 (T100 및 T200) 을 포함하는 전반적인 구성에 따른 재생되는 오디오 신호를 처리하는 방법 (M100) 의 흐름도를 도시한다. 방법 (M100) 은 오디오 신호들을 처리하도록 구성되는 디바이스, 이를테면 본원에서 설명되는 디바이스 (D100, D200, D300, 및 D400) 의 구현예들 중의 임의의 것 내에서 수행될 수도 있다. 태스크 (T100) 는 (예컨대, 등화기 (EQ10) 를 참조하여 본원에서 설명된 바와 같이) 잡음 추정치로부터의 정보에 기초하여, 등화된 오디오 신호를 생성하기 위해 재생되는 오디오 신호의 적어도 하나의 다른 주파수 서브밴드의 진폭에 비하여 재생되는 오디오 신호의 적어도 하나의 주파수 서브밴드의 진폭을 부스팅한다. 태스크 (T200) 는 등화된 오디오 신호에 기초하는 음향 신호를 생성하기 위하여 사용자의 외이도로 향하는 라우드스피커를 사용한다. 이 방법에서, 잡음 추정치는 사용자의 외이도로 향하는 에러 마이크로폰에 의해 생성된 음향 에러 신호로부터의 정보에 기초한다.

도 42b는 전반적인 구성에 따른 재생되는 오디오 신호를 처리하는 장치 (MF100) 의 블록도를 도시한다. 장치 (MF100) 는 오디오 신호들을 처리하도록 구성되는 디바이스, 이를테면 본원에서 설명되는 디바이스 (D100, D200, D300, 및 D400) 의 구현예들 중의 임의의 것 내에서 구비될 수도 있다. 장치 (MF100) 는 음향 에러 신호로부터의 정보에 기초하여 잡음 추정치를 생성하는 수단 (F200) 을 구비한다. 이 장치에서, 음향 에러 신호 그것은 사용자의 외이도로 향하는 에러 마이크로폰에 의해 생성된다. 장치 (MF100) 는 또한 (예컨대, 등화기 (EQ10) 를 참조하여 본원에서 설명된 바와 같이) 잡음 추정치로부터의 정보에 기초하여, 등화된 오디오 신호를 생성하기 위해 재생되는 오디오 신호의 적어도 하나의 다른 주파수 서브밴드의 진폭에 비하여 재생되는 오디오 신호의 적어도 하나의 주파수 서브밴드의 진폭을 부스팅하는 수단 (F100) 을 구비한다. 장치 (MF100) 는 또한 등화된 오디오 신호에 기초하는 음향 신호를 생성하기 위하여 사용자의 외이도로 향하게 되는 라우드스피커를 구비한다.

도 43a는 태스크들 (T100, T200, T300, 및 T400) 을 포함하는 전반적인 구성에 따른 재생되는 오디오 신호를 처리하는 방법 (M300) 의 흐름도를 도시한다. 방법 (M300) 은 오디오 신호들을 처리하도록 구성되는 디바이스, 이를테면 본원에서 설명되는 디바이스 (D300, D400, 및 D700) 의 구현예들 중의 임의의 것 내에서 수행될 수도 있다. 태스크 (T300) 는 (예컨대, 잡음 억제 모듈 (NS10) 을 참조하여 본원에서 설명된 바와 같이) 디바이스의 사용자의 입에서 방출되는 근단 스피치 신호의 추정치를 계산한다. 태스크 (T400) 는 (예컨대, 피드백 제거기 (CF10) 를 참조하여 본원에서 설명된 바와 같이) 잡음 추정치를 생성하기 위해, 근단 스피치 추정치로부터의 정보에 기초하여, 사용자의 머리의 옆 쪽에 위치되는 제 1 마이크로폰에 의해 생성된 신호로부터의 정보에 대한 피드백 제거 동작을 수행한다.

도 43b는 전반적인 구성에 따른 재생되는 오디오 신호를 처리하는 장치 (MF300) 의 블록도를 도시한다. 장치 (MF300) 는 오디오 신호들을 처리하도록 구성되는 디바이스, 이를테면 본원에서 설명되는 디바이스 (D300, D400, 및 D700) 의 구현예들 중의 임의의 것 내에 구비될 수도 있다. 장치 (MF300) 는 (예컨대, 잡음 억제 모듈 (NS10) 을 참조하여 본원에서 설명된 바와 같이) 디바이스의 사용자의 입에서 방출되는 근단 스피치 신호의 추정치를 계산하는 수단 (F300) 을 구비한다. 장치 (MF300) 는 또한 (예컨대, 피드백 제거기 (CF10) 를 참조하여 본원에서 설명된 바와 같이) 잡음 추정치를 생성하기 위해, 근단 스피치 추정치로부터의 정보에 기초하여, 사용자의 머리의 옆 쪽에 위치되는 제 1 마이크로폰에 의해 생성된 신호로부터의 정보에 대한 피드백 제거 동작을 수행하는 수단 (F300) 을 구비한다.

본원에서 개시된 방법들 및 장치는 일반적으로 임의의 송수신 및/또는 오디오 감지 애플리케이션, 특히 이러한 애플리케이션들의 모바일 또는 그렇지 않으면 휴대용 인스턴스들에 적용될 수도 있다. 예를 들어, 본원에서 개시된 구성들의 범위는 오버-더-에어 인터페이스를 통한 코드분할 다중접속 (CDMA) 을 채용하도록 구성된 무선 전화통화 통신 시스템에 상주하는 통신 디바이스들을 포함한다. 그럼에도 불구하고, 본원에서 설명되는 바와 같은 특징들을 갖는 방법 및 장치가, 이 기술분야의 숙련된 자들에게 알려진 넓은 범위의 기술들을 채용하는 다양한 통신 시스템들, 이를테면 유선 및/또는 무선 (예컨대, CDMA, TDMA, FDMA, 및/또는 TD-SCDMA) 전송 채널들을 통한 VoIP를 채용하는 시스템들 중의 임의의 것에 존재할 수도 있다는 것이 당업자들에 의해 이해될 것이다.

본원에서 개시된 통신 디바이스들은 패킷 교환식 (packet-switched) (예를 들어, VoIP와 같은 프로토콜들에 따라 오디오 전송물들을 운반하도록 배치구성된 유선 및/또는 무선 네트워크들) 및/또는 회선 교환식 (circuit-switched) 인 네트워크들에서의 이용에 적응될 수도 있다는 것을 명백히 밝혀두고 이로써 개시한다. 본원에서 개시된 통신 디바이스들은, 전체 대역 광대역 코딩 시스템들 및 분할 대역 (split-band) 광대역 코딩 시스템들을 포함하여, 협대역 코딩 시스템들 (예컨대, 약 4 또는 5 킬로헤르츠의 오디오 주파수 범위를 인코딩하는 시스템들) 에서의 사용을 위해 및/또는 광대역 코딩 시스템들 (예컨대, 5 킬로헤르츠보다 큰 오디오 주파수들을 인코딩하는 시스템들) 에서의 이용을 위해 적응될 수도 있다는 것을 또한 명백히 밝혀두고 이로써 개시한다.

본원에서 설명되는 구성들의 표현은 이 기술분야의 숙련된 사람이 본원에 개시된 방법들 및 다른 구조들을 사용할 수 있게끔 제공된다. 본원에서 보여주고 설명된 흐름도들, 블록도들, 및 기타 구조들은 예들일 뿐이고, 이러한 구조들의 다른 개조예들 또한 이 개시물의 범위 내에 있다. 이 구성들의 각종 변형예들이 가능하고, 본원에서 제시된 일반 원리들은 다른 구성들에도 적용될 수 있다. 따라서, 본 개시물은 위에서 보인 구성들로 제한하는 의도는 아니며 그보다는 원래의 개시물의 일부를 형성하는 제시된 바와 같은 첨부의 청구항들을 포함하여 본원에서 어떤 형태로든 개시되는 원리들 및 신규한 특징들과 일치되는 가장 넓은 범위를 부여한다.

이 기술분야의 숙련된 자들은 정보 및 신호들이 각종 상이한 기술들 및 기법들 중의 임의의 것을 이용하여 표현될 수 있다는 것을 이해할 것이다. 예를 들어, 전술된 상세한 설명 전체에 걸쳐 참조될 수 있는 데이터, 명령어들, 명령들, 정보, 신호들, 비트들, 및 심벌들은 전압들, 전류들, 전자기파들, 자기 장들 또는 입자들, 광학적 장들 또는 입자들, 또는 이들의 조합에 의하여 표현될 수 있다.

본원에서 개시된 바와 같은 구성의 구현예를 위한 중요한 설계 요건들은, 특히 컴퓨테이션 집약적인 (computation-intensive) 애플리케이션들, 이를테면 압축된 오디오 또는 시청각 정보 (예컨대, 본원에서 확인된 예들 중의 하나와 같이 압축 포맷에 따라 인코딩된 파일 또는 스트림) 의 플레이백 또는 광대역 통신들 (예컨대 8 킬로헤르츠보다 높은 샘플링 레이트들, 이를테면 12, 16, 44.1, 48, 또는 192 kHz에서의 음성 통신들) 을 위한 애플리케이션들에 대해, 프로세싱 지연 및/또는 컴퓨테이션 복잡도 (통상 초당 일백만 개의 명령어들 또는 MIPS로 측정됨) 를 최소화하는 것을 포함할 수 있다.

본원에서 설명되는 바와 같은 멀티-마이크로폰 처리 시스템의 목표들은, 10 내지 12 dB의 전체 잡음 감소를 달성하는 것, 소망의 스피커의 작동 동안 음성 레벨 및 컬러를 보존하는 것, 공격적 잡음 제거, 스피치의 탈반향 (dereverberation) 대신 백그라운드로 잡음이 이동되었다는 인지를 획득하는 것, 및/또는 더 공격적인 잡음 감소를 위해 선택사양적인 포스트프로세싱 (예컨대, 잡음 추정치에 기초한 스펙트럼 마스킹 및/또는 다른 스펙트럼 변경 동작, 이를테면 스펙트럼 감산 또는 위너 필터링) 을 가능하게 하는 것을 포함할 수도 있다.

본원에서 개시된 바와 같은 적응적 등화 장치 (예컨대, 장치 A100, A200, A300, A400, A700, 또는 MF100, 또는 MF300) 의 다양한 프로세싱 엘리멘트들은, 의도된 애플리케이션에 적합한 것으로 여겨지는 하드웨어, 소프트웨어 및/또는 펌웨어의 임의의 조합으로 실시될 수도 있다. 예를 들어, 이러한 엘리멘트들은 예를 들어 동일한 칩 상에 또는 칩셋의 둘 이상의 칩들 중에 존재하는 전자적 및/또는 광학적 디바이스들로서 제작될 수도 있다. 이러한 디바이스의 한 예는 트랜지스터들 또는 로직 게이트들과 같은 논리 소자들의 고정식 또는 프로그램가능 어레이이고, 이들 요소들의 어느 것이라도 하나 이상의 이러한 어레이들로서 구현될 수 있다. 임의의 두 개 이상의, 또는 심지어 모든 이러한 요소들은 동일한 어레이 또는 어레이들 내에 구현될 수 있다. 이러한 어레이 또는 어레이들은 하나 이상의 칩들 내에 (예를 들어, 둘 이상의 칩들을 구비한 칩셋 내에) 구현될 수 있다.

본원에서 개시된 장치 (예컨대, 장치 A100, A200, A300, A400, A700, 또는 MF100, 또는 MF300) 의 각종 구현예들의 하나 이상의 엘리멘트들은 또한, 논리 소자들의 하나 이상의 고정식 또는 프로그램가능 어레이들, 이를테면 마이크로프로세서들, 임베디드 프로세서들, IP 코어들, 디지털 신호 프로세서들, FPGA들 (field-programmable gate arrays), ASSP들 (application-specific standard products), 및 ASIC들 (application-specific integrated circuits) 상에서 실행하도록 배치구성된 명령들의 하나 이상의 세트들로서 전체로 또는 부분적으로 구현될 수도 있다. 본원에서 개시된 바와 같은 장치의 구현예의 각종 요소들 중의 어느 것이라도 하나 이상의 컴퓨터들 (명령들의 하나 이상의 세트들 또는 시퀀스들을 실행하도록 프로그램된 하나 이상의 어레이들을 포함하는 머신들이며, 예컨대, "프로세서들"이라고도 불리움) 로서 구현될 수도 있고, 이러한 요소들의 임의의 둘 이상의, 또는 심지어 전부는 동일한 그러한 컴퓨터 또는 컴퓨터들 내에 구현될 수도 있다.

본원에서 개시된 바와 같은 처리를 위한 프로세서 또는 다른 수단은 예를 들어 칩셋의 동일한 칩 상에 또는 둘 이상의 칩들 상에 존재하는 전자적 및/또는 광학적 디바이스들로서 제작될 수도 있다. 이러한 디바이스의 한 예는 트랜지스터들 또는 로직 게이트들과 같은 논리 소자들의 고정식 또는 프로그램가능 어레이이고, 이들 요소들의 어느 것이라도 하나 이상의 이러한 어레이들로서 구현될 수 있다. 이러한 어레이 또는 어레이들은 하나 이상의 칩들 내에 (예를 들어, 둘 이상의 칩들을 구비한 칩셋 내에) 구현될 수 있다. 이러한 어레이들의 예들은 로직 엘리멘트들의 고정식 또는 프로그램가능 어레이들, 이를테면 마이크로프로세서들, 내장형 프로세서들, IP 코어들, DSP들, FPGA들, ASSP들, 및 ASIC들을 포함한다. 본원에서 개시된 바와 같은 처리를 위한 프로세서 또는 다른 수단은 또한 하나 이상의 컴퓨터들 (예컨대, 명령들의 하나 이상의 세트들 또는 시퀀스들을 실행하도록 프로그램된 하나 이상의 어레이들을 포함하는 머신들) 또는 다른 프로세서들로서 실시될 수도 있다. 본원에서 설명되는 바와 같은 프로세서는, 프로세서가 내장되는 디바이스 또는 시스템 (예컨대, 오디오 통신 디바이스) 의 다른 동작에 관련한 태스크와 같이, 방법 (M100 또는 M300) (또는 본원에서 설명된 장치 또는 디바이스의 동작에 관하여 개시된 바와 같은 다른 방법) 의 구현예의 프로시저에 직접 관련되지 않은 명령들의 다른 세트들을 실행하거나 또는 태스크들을 수행하는데 이용되는 것이 가능하다. 본원에서 개시된 바와 같은 방법의 부분 (예컨대, 잡음방지 신호를 생성하는 것) 이 오디오 감지 디바이스의 프로세서에 의해 수행되는 것과 이 방법의 다른 부분 (예컨대, 재생되는 오디오 신호를 등화시키는 것) 이 하나 이상의 다른 프로세서들의 제어 하에서 수행되는 것이 또한 가능하다.

숙련된 자들은 본원에서 개시된 구성들과 관련하여 설명된 각종 예시적인 모듈들, 논리적 블록들, 회로들, 및 테스트들과 다른 동작들이 전자 하드웨어, 컴퓨터 소프트웨어, 또는 이것 둘의 조합들로 구현될 수도 있음을 이해할 것이다. 이러한 모듈들, 논리 블록들, 회로들, 및 동작들은 본원에서 개시된 구성을 생성하도록 설계된 범용 프로세서, 디지털 신호 프로세서 (DSP), ASIC 또는 ASSP, FPGA 또는 기타 프로그램가능 로직 디바이스, 개별 게이트 또는 트랜지스터 로직, 개별 하드웨어 부품들, 또는 그것들의 임의의 조합으로 구현되거나 수행될 수도 있다. 예를 들어, 이러한 구성은 적어도 부분적으로는 하드 와이어드 (hard-wired) 회로로서, 주문형 집적회로로 제작된 회로 구성으로서, 또는 비휘발성 스토리지에 로딩된 펌웨어 프로그램 또는 데이터 저장 매체로부터 또는 그 속으로 범용 프로세서 또는 기타의 디지털 신호 처리 유닛과 같은 논리 소자들의 어레이에 의해 실행가능한 명령어들인 기계 판독가능 코드로서 로딩된 소프트웨어 프로그램으로서 구현될 수 있다. 범용 프로세서는 마이크로프로세서일 수도 있지만, 대안적으로는, 이 프로세서는 임의의 기존 프로세서, 제어기, 마이크로제어기, 또는 상태 머신일 수도 있다. 또한, 프로세서는 컴퓨팅 디바이스들의 조합, 예를 들어 DSP 및 마이크로프로세서의 조합, 복수 개의 마이크로프로세서들, DSP 코어와 협력하는 하나 이상의 마이크로프로세서들, 또는 임의의 다른 이러한 구성으로도 구현될 수도 있다. 소프트웨어 모듈은 RAM (random-access memory), ROM (read-only memory), 비휘발성 RAM (NVRAM) 이를테면 플래시 RAM, 소거가능 프로그램가능 ROM (EPROM), 전기적 소거가능 프로그램가능 ROM (EEPROM), 레지스터들, 하드디스크, 착탈실 디스크, 또는 CD-ROM에, 또는 이 기술분야에서 공지된 임의의 다른 형태의 저장 매체에 존재할 수도 있다. 예시적인 저장 매체는 프로세서와 결합되어 프로세서는 저장 매체로부터 정보를 읽을 수 있고 그 저장 매체에 정보를 쓸 수 있다. 대체예에서, 저장 매체는 프로세서에 통합될 수도 있다. 프로세서 및 저장 매체는 ASIC 내에 존재할 수도 있다. ASIC은 사용자 단말 내에 존재할 수도 있다. 대체예에서, 프로세서와 저장 매체는 사용자 단말에 개별 컴포넌트들로서 존재할 수 있다.

본원에서 개시된 각종 방법들 (예컨대, 방법 M100 및 M300, 그리고 본원에서 설명된 각종 장치 및 디바이스들의 동작에 관해 개시된 다른 방법들) 이 프로세서와 같은 논리 소자들의 어레이에 의해 수행될 수도 있다는 것과, 본원에서 설명된 바와 같은 장치의 각종 엘리멘트들은 이러한 어레이 상에서 실행하도록 디자인된 모듈들로서 부분적으로는 구현될 수도 있다는 것에 주의한다. 본원에서 사용된 바와 같이, "모듈" 또는 "서브-모듈"이란 용어는 컴퓨터 명령어들 (예, 논리 표현들) 을 소프트웨어, 하드웨어 또는 펌웨어 형태로 구비하는 임의의 방법, 장치, 디바이스, 유닛 또는 컴퓨터 판독가능 데이터 저장 매체를 말하는 것이라고 할 수 있다. 다수의 모듈들 또는 시스템들이 하나의 모듈 또는 시스템으로 조합될 수 있고 하나의 모듈 또는 시스템이 동일한 기능들을 수행하는 다수의 모듈들 또는 시스템들로 분리될 수 있다는 것이 이해된다. 소프트웨어 또는 다른 컴퓨터 실행가능 명령어들로 구현될 경우, 프로세스의 엘리멘트들은 본질적으로 이를테면 루틴들, 프로그램들, 오브젝트들, 컴포넌트들, 데이터 구조들 등으로써 관련된 태스크들을 수행하는 코드 세그먼트들이다. 용어 "소프트웨어"는 소스 코드, 어셈블리 언어 코드, 기계 코드, 이진 코드, 펌웨어, 매크로코드, 마이크로코드, 논리 소자들의 어레이에 의해 실행가능한 명령들의 임의의 하나 이상의 세트들 또는 시퀀스들, 및 이러한 예들의 임의의 조합을 포함하는 것으로 이해되어야 한다. 프로그램 또는 코드 세그먼트들은 프로세서 판독가능 저장 매체에 저장될 수도 있거나 또는 전송 매체 또는 통신 링크를 통해 반송파에 포함된 컴퓨터 데이터 신호에 의해 송신될 수 있다.

본원에서 개시된 방법들, 체계들, 및 기법들의 구현예들은 논리 소자들의 어레이를 구비한 머신 (예컨대, 프로세서, 마이크로프로세서, 마이크로제어기, 또는 기타의 유한 상태 기계) 에 의해 실행가능한 명령들의 하나 이상의 세트들로서 (예를 들어, 본원에서 열거된 바와 같은 하나 이상의 컴퓨터 판독가능 저장 매체들의 유형의 컴퓨터 판독가능 특징부들에) 유형적으로 (tangibly) 구현될 수도 있다. 용어 "컴퓨터 판독가능 매체"는 휘발성, 비휘발성, 착탈식 및 비착탈식 저장 매체들을 포함하여, 정보를 저장하거나 이전할 수 있는 임의의 매체를 포함할 수도 있다. 컴퓨터 판독가능 매체의 예들은 전자 회로, 반도체 메모리 디바이스, ROM, 플래시 메모리, 소거가능 ROM (EROM), 플로피 디스켓 또는 다른 마그네틱 스토리지, CD-ROM/DVD 또는 다른 광 스토리지, 하드 디스크 또는 소망의 정보를 저장하는데 이용될 수 있는 임의의 다른 매체, 광섬유 매체, 무선 주파수 (RF) 링크, 또는 소망의 정보를 운반하는데 사용될 수 있고 액세스될 수 있는 임의의 다른 매체를 포함한다. 컴퓨터 데이터 신호는 전자 네트워크 채널들, 광 섬유들, 대기, 전자기, RF 링크들 등과 같은 전송 매체를 통해 전파할 수 있는 어떤 신호라도 포함할 수 있다. 코드 세그먼트들은 인터넷 또는 인트라넷과 같은 컴퓨터 네트워크들을 통해 다운로드될 수 있다. 어느 경우에나, 본 개시물의 범위는 이러한 실시예들에 의해 제한되는 것으로 생각되지 않아야 한다.

본원에서 설명된 방법들의 태스크들의 각각은 하드웨어로, 프로세서에 의해 실행되는 소프트웨어 모듈로, 또는 이 둘의 조합으로 직접 구현될 수 있다. 본원에서 개시된 바와 같은 방법들의 구현물의 전형적인 응용에서는, 논리 소자들 (예, 로직 게이트들) 의 어레이가 그 방법의 하나, 둘 이상, 또는 심지어 전체의 각종 태스크들을 수행하도록 구성된다. 태스크들 증의 하나 이상 (어쩌면 전부) 은 논리 소자들의 어레이 (예컨대, 프로세서, 마이크로프로세서, 마이크로제어기, 또는 다른 유한 상태 기계) 를 포함하여 기계 (예, 컴퓨터) 에 의해 판독가능한 및/또는 실행가능한 컴퓨터 프로그램 제품 (예컨대, 디스크들, 플래시 또는 다른 비휘발성 메모리 카드들, 반도체 메모리 칩들 등과 같은 하나 이상의 데이터 저장 매체들) 에 내장되는 코드 (예컨대, 하나 이상의 세트들의 명령어들) 로서 구현될 수도 있다. 본원에서 개시된 방법의 구현물의 태스크들은 하나를 넘는 이러한 어레이 또는 기계에 의해 수행될 수도 있다. 이러한 또는 다른 구현물들에서, 태스크들은 셀룰러 전화기 또는 그러한 통신 능력을 갖는 다른 디바이스와 같은 무선 통신용 디바이스 내에서 수행될 수도 있다. 이러한 디바이스는 (예컨대, VoIP와 같은 하나 이상의 프로토콜들을 이용하는) 회선교환 및/또는 패킷교환 네트워크들과 통신하도록 구성될 수도 있다. 예를 들어, 이러한 디바이스는 인코딩된 프레임들을 수신하고 및/또는 전송하도록 구성된 RF 회로를 구비할 수도 있다.

본원에서 개시된 각종 방법들은 핸드셋, 헤드셋, 또는 개인휴대 정보단말 (PDA) 과 같은 휴대용 통신 디바이스에 의해 수행될 수도 있다는 것과, 본원에서 개시된 각종 장치는 이러한 디바이스 내에 포함될 수도 있다는 것을 명백히 밝혀둔다. 전형적인 실시간 (예컨대, 온라인) 응용은 이러한 모바일 디바이스를 이용하여 행해지는 전화 대화이다.

하나 이상의 예시적인 실시예들에서, 본원에서 설명되는 동작들은 하드웨어, 소프트웨어, 펌웨어, 또는 그것들의 임의의 조합으로 구현될 수 있다. 소프트웨어로 구현된다면, 이러한 동작들은 컴퓨터 판독가능 매체를 통해 하나 이상의 명령들 또는 코드로서 저장되거나 전송될 수 있다. 용어 "컴퓨터-판독가능 매체들"은 컴퓨터 판독가능 저장 매체들 및 통신 (예컨대, 전송) 매체들 양쪽 모두를 포함한다. 비제한적인 예로서, 컴퓨터 판독가능 저장 매체들은, 저장 엘리멘트들의 어레이, 이를테면 반도체 메모리 (이는 다이나믹 또는 스태틱 (RAM), ROM, EEPROM, 및/또는 플래시 RAM을 비제한적으로 포함할 수도 있음), 또는 강유전성, 자기저항성, 오보닉 (ovonic), 고분자성 또는 상 변화 메모리; CD-ROM 또는 다른 광 디스크 스토리지; 및/또는 자기 디스크 스토리지 또는 다른 자기 저장 디바이스들을 포함할 수 있다. 이러한 저장 매체들은 컴퓨터에 의해 액세스될 수 있는 명령들 또는 데이터 구조들의 형태로 정보를 저장할 수도 있다. 통신 매체들은, 하나의 장소에서 또 다른 장소로 컴퓨터 프로그램의 이전을 용이하게 하는 임의의 매체를 포함하여, 명령들 또는 데이터 구조들의 형태로 소망의 프로그램 코드를 운반하는데 이용될 수 있고 컴퓨터에 의해 액세스될 수 있는 임의의 매체를 포함할 수 있다. 또한, 어떤 관련된 것이라도 사실상 컴퓨터 판독가능 매체라고 한다. 예를 들어, 소프트웨어가 웹사이트, 서버, 또는 다른 다른 원격 자원으로부터 동축 케이블, 섬유광 케이블, 연선, 디지털 가입자 회선 (DSL), 또는 무선 기술 이를테면 적외선, 라디오, 및/또는 마이크로파를 이용하여 전송된다면, 동축 케이블, 섬유광 케이블, 연선, DSL, 또는 적외선, 라디오, 및/또는 마이크로파와 같은 무선 기술은 매체의 정의에 포함된다. 본원에서 사용되는 바와 같은 디스크 (Disk 및 disc) 는, 콤팩트 디스크 (CD), 레이저 디스크, 광 디스크, 디지털 다용도 디스크 (DVD), 플로피 디스크 및 블루레이 디스크TM (캘리포니아 주, 유니버셜 시, 블루레이 디스크 협회) 를 포함하는데, disk들은 보통 데이터를 자기적으로 재생하지만, disc들은 레이저를 이용 광적으로 데이터를 재생한다. 상기한 것들의 조합들도 컴퓨터 판독가능 매체들의 범위 내에 포함되어야 한다.

본원에서 설명되는 바와 같은 음향 신호 처리 장치는 일정한 동작들을 제어하기 위해 스피치 입력을 받는 전자 디바이스 속에 통합될 수 있거나, 또는 통신 디바이스들과 같이, 배경 잡음들로부터의 소망의 잡음들의 분리하는 것으로 이익을 얻을 수 있다. 많은 응용들은 다수의 방향들로부터 생기는 배경 사운드로부터 소망의 사운드를 완전히 개선시키거나 분리하는 것으로 이익을 얻을 수 있다. 이러한 응용들은 휴먼-머신 인터페이스들을 음성 인식 및 검출, 스피치 개선 및 분리, 음성기동 (voice-activated) 제어 등과 같은 능력들을 통합하는 전자 또는 컴퓨팅 디바이스들에 구비할 수 있다. 이러한 음향 신호 처리 장치를 제한된 처리 능력들만을 제공하는 디바이스들에 적합하게 되도록 구현하는 것이 바람직할 수 있다.

본원에서 설명되는 모듈들, 엘리멘트들, 및 디바이스들의 각종 구현예들의 엘리멘트들은 전자 및/또는 광 디바이스들로서 예를 들어, 동일한 칩 상에 또는 칩셋 내의 둘 이상의 칩들 중에 제조될 수 있다. 이러한 디바이스의 한 예는 트랜지스터들 또는 게이트들과 같은 논리 소자들의 고정식 또는 프로그램가능 어레이이다. 본원에서 설명되는 장치의 각종 구현예들의 하나 이상의 엘리멘트들은 마이크로프로세서들, 내장형 프로세서들, IP 코어들, 디지털 신호 프로세서들, FPGA들, ASSP들, 및 ASIC들과 같은, 논리 소자들의 하나 이상의 고정식 또는 프로그램가능 어레이들 상에서 실행되도록 배치구성된 하나 이상의 세트들의 명령어들로서 부분적으로 또는 통째로 구현될 수도 있다.

본원에서 설명되는 바와 같은 장치의 구현예의 하나 이상의 엘리멘트들은 이 장치가 내장되는 디바이스 또는 시스템의 다른 동작에 관련한 태스크와 같이, 장치의 동작에 직접적으로 관련되지는 않은 다른 세트들의 명령어들을 실행하거나 태스크들을 수행하는 것이 가능하다. 이러한 장치의 구현예의 하나 이상의 엘리멘트들은 공통의 구조 (예컨대, 상이한 엘리멘트들에 대응하는 코드의 부분들을 상이한 시간들에 실행하는데 사용되는 프로세서, 상이한 엘리멘트들에 대응하는 태스크들을 상이한 시간들에 수행하게끔 실행되는 한 세트의 명령어들, 또는 상이한 엘리멘트들을 위한 동작들을 상이한 시간들에 수행하는 전자 및/또는 광 디바이스들의 배치구성) 를 가지는 것도 가능하다.

Claims

재생되는 오디오 신호를 처리하는 방법으로서,
오디오 신호들을 처리하도록 구성된 디바이스 내에서
잡음 추정치로부터의 정보에 기초하여, 등화된 오디오 신호를 생성하기 위해, 상기 재생되는 오디오 신호의 적어도 하나의 주파수 서브밴드의 진폭을 상기 재생되는 오디오 신호의 적어도 하나의 다른 주파수 서브밴드의 진폭에 비하여 부스팅하는 액트; 및
상기 등화된 오디오 신호에 기초하는 음향 신호를 생성하기 위해 사용자의 외이도 (ear canal) 로 향하는 라우드스피커를 사용하는 액트의 각각을 수행하는 단계를 포함하며,
상기 잡음 추정치는 상기 사용자의 상기 외이도로 향하는 에러 마이크로폰에 의해 생성된 음향 에러 신호로부터의 정보에 기초하는, 재생되는 오디오 신호를 처리하는 방법.
제 1 항에 있어서,
상기 방법은 상기 잡음 추정치를 생성하기 위해 감지된 잡음 신호에 전달 함수를 적용하는 단계를 포함하며, 상기 전달 함수는 상기 음향 에러 신호로부터의 상기 정보에 기초하는, 재생되는 오디오 신호를 처리하는 방법.
제 2 항에 있어서,
상기 감지된 잡음 신호는 상기 사용자의 머리의 옆 쪽에 위치되고 상기 머리로부터 멀어지게 향하는 잡음 기준 마이크로폰에 의해 생성된 신호에 기초하는, 재생되는 오디오 신호를 처리하는 방법.
제 2 항에 있어서,
상기 감지된 잡음 신호는 상기 음향 에러 마이크로폰보다 상기 사용자의 입에 더 가까이 위치된 음성 마이크로폰에 의해 생성된 신호에 기초하는, 재생되는 오디오 신호를 처리하는 방법.
제 2 항에 있어서,
상기 방법은,
상기 재생되는 오디오 신호에 대한 액티비티 검출 동작을 수행하는 단계; 및
상기 액티비티 검출 동작을 수행하는 단계의 결과에 기초하여, 상기 전달 함수를 업데이트하는 단계를 포함하는, 재생되는 오디오 신호를 처리하는 방법.
제 1 항 내지 제 5 항 중 어느 한 항에 있어서,
상기 방법은 상기 음향 에러 신호에 기초하는 신호에 대한 에코 제거 동작을 수행하는 단계를 포함하며,
상기 에코 제거 동작은 상기 등화된 오디오 신호에 기초하는 에코 기준 신호에 기초하고,
상기 잡음 기준 신호는 상기 에코 제거 동작의 결과에 기초하는, 재생되는 오디오 신호를 처리하는 방법.
제 1 항 내지 제 6 항 중 어느 한 항에 있어서,
상기 방법은,
상기 사용자의 입에서 방출된 근단 스피치 신호 (near-end speech signal) 의 추정치를 계산하는 단계; 및
상기 근단 스피치 신호의 추정치로부터의 정보에 기초하여, 상기 음향 에러 신호에 기초하는 신호에 대한 피드백 제거 동작을 수행하는 단계를 포함하며,
상기 잡음 추정치는 상기 피드백 제거 동작의 결과에 기초하는, 재생되는 오디오 신호를 처리하는 방법.
제 1 항 내지 제 7 항 중 어느 한 항에 있어서,
상기 방법은 (A) 상기 사용자의 머리의 옆 쪽에 위치되고 상기 머리로부터 멀어지게 향하는 잡음 기준 마이크로폰에 의해 생성된 신호에 기초하는 제 1 감지된 잡음 신호의 시간에 대한 전력의 변화와 (B) 상기 음향 에러 마이크로폰보다 상기 사용자의 입에 더 가까이 위치된 음성 마이크로폰에 의해 생성된 신호에 기초하는 제 2 감지된 잡음 신호의 시간에 대한 전력의 변화를 비교하는 단계를 포함하며,
상기 잡음 기준 신호는 상기 비교하는 단계의 결과에 기초하는, 재생되는 오디오 신호를 처리하는 방법.
제 1 항 내지 제 8 항 중 어느 한 항에 있어서,
상기 방법은 상기 음향 에러 신호로부터의 정보에 기초하는 잡음방지 신호를 생성하는 단계를 포함하고,
상기 등화된 오디오 신호에 기초하는 상기 음향 신호는 또한 상기 잡음방지 신호에 기초하는, 재생되는 오디오 신호를 처리하는 방법.
제 1 항 내지 제 9 항 중 어느 한 항에 있어서,
상기 방법은,
제 1 복수의 시간 도메인 서브밴드 신호들을 획득하기 위해 상기 재생되는 오디오 신호를 필터링하는 단계;
제 2 복수의 시간 도메인 서브밴드 신호들을 획득하기 위해 잡음 추정치를 필터링하는 단계;
상기 제 1 복수의 시간 도메인 서브밴드 신호들로부터의 정보에 기초하여, 복수의 신호 서브밴드 전력 추정치들을 계산하는 단계;
상기 제 2 복수의 시간 도메인 서브밴드 신호들로부터의 정보에 기초하여, 복수의 잡음 서브밴드 전력 추정치들을 계산하는 단계; 및
상기 복수의 신호 서브밴드 전력 추정치들로부터의 정보 및 상기 잡음 서브밴드 전력 추정치들로부터의 정보에 기초하여, 복수의 서브밴드 이득들을 계산하는 단계를 포함하고,
상기 부스팅하는 액트는 상기 계산된 복수의 서브밴드 이득들에 기초하는, 재생되는 오디오 신호를 처리하는 방법.
제 10 항에 있어서,
상기 등화된 오디오 신호를 생성하기 위해, 상기 재생되는 오디오 신호의 적어도 하나의 주파수 서브밴드의 진폭을 상기 재생되는 오디오 신호의 적어도 하나의 다른 주파수 서브밴드의 진폭에 비하여 부스팅하는 액트는, 필터 스테이지들의 캐스케이드를 이용하여 상기 재생되는 오디오 신호를 필터링하는 단계를 포함하며,
상기 필터링하는 단계는,
상기 재생되는 오디오 신호의 제 1 주파수 서브밴드의 진폭을 부스팅하기 위하여, 상기 캐스케이드의 대응하는 필터 스테이지에 상기 복수의 서브밴드 이득들 중 제 1 서브밴드 이득을 적용하는 단계; 및
상기 재생되는 오디오 신호의 제 2 주파수 서브밴드의 진폭을 부스팅하기 위하여, 상기 캐스케이드의 대응하는 필터 스테이지에 상기 복수의 서브밴드 이득들 중 제 2 서브밴드 이득을 적용하는 단계를 포함하며,
상기 제 2 서브밴드 이득은 상기 제 1 서브밴드 이득과는 다른 값을 가지는,재생되는 오디오 신호를 처리하는 방법.
재생되는 오디오 신호를 처리하는 방법으로서,
오디오 신호들을 처리하도록 구성되는 디바이스 내에서,
상기 디바이스의 사용자의 입에서 방출되는 근단 스피치 신호의 추정치를 계산하는 액트;
상기 근단 스피치 신호의 추정치로부터의 정보에 기초하여, 잡음 추정치를 생성하기 위해 상기 사용자의 머리의 옆 쪽에 위치된 제 1 마이크로폰에 의해 생성된 신호로부터의 정보에 대한 피드백 제거 동작을 수행하는 액트;
상기 잡음 추정치로부터의 정보에 기초하여, 등화된 오디오 신호를 생성하기 위해 상기 재생되는 오디오 신호의 적어도 하나의 주파수 서브밴드의 진폭을 상기 재생되는 오디오 신호의 적어도 하나의 다른 주파수 서브밴드의 진폭에 비하여 부스팅하는 액트; 및
상기 등화된 오디오 신호에 기초하는 음향 신호를 생성하기 위하여 상기 사용자의 외이도로 향하는 라우드스피커를 사용하는 액트의 각각을 수행하는 단계를 포함하는, 재생되는 오디오 신호를 처리하는 방법.
제 12 항에 있어서,
상기 제 1 마이크로폰은 상기 사용자의 상기 외이도로 향하는, 재생되는 오디오 신호를 처리하는 방법.
제 13 항에 있어서,
상기 방법은 상기 제 1 마이크로폰에 의해 생성된 상기 신호에 기초하는 신호에 대한 에코 제거 동작을 수행하는 단계를 포함하며,
상기 에코 제거 동작은 상기 등화된 오디오 신호에 기초하는 에코 기준 신호에 기초하고,
상기 잡음 기준 신호는 상기 에코 제거 동작의 결과에 기초하는, 재생되는 오디오 신호를 처리하는 방법.
제 12 항 내지 제 14 항 중 어느 한 항에 있어서,
상기 제 1 마이크로폰은 상기 사용자의 상기 머리로부터 멀어지게 향하는, 재생되는 오디오 신호를 처리하는 방법.
제 12 항 내지 제 15 항 중 어느 한 항에 있어서,
상기 잡음 추정치는 감지된 잡음 신호에 전달 함수를 적용한 결과에 기초하며,
상기 전달 함수는 상기 사용자의 상기 외이도로 향하는 마이크로폰에 의해 생성된 신호로부터의 정보에 기초하는, 재생되는 오디오 신호를 처리하는 방법.
제 16 항에 있어서,
상기 감지된 잡음 신호는 상기 사용자의 상기 머리의 상기 옆 쪽에 위치되고 상기 머리로부터 멀어지게 향하는 잡음 기준 마이크로폰에 의해 생성된 신호에 기초하는, 재생되는 오디오 신호를 처리하는 방법.
제 16 항에 있어서,
상기 감지된 잡음 신호는 상기 제 1 마이크로폰보다 상기 사용자의 입에 더 가까이 위치된 음성 마이크로폰에 의해 생성된 신호에 기초하는, 재생되는 오디오 신호를 처리하는 방법.
제 16 항에 있어서,
상기 방법은,
상기 재생되는 오디오 신호에 대한 액티비티 검출 동작을 수행하는 단계; 및
상기 액티비티 검출 동작을 수행하는 단계의 결과에 기초하여, 상기 전달 함수를 업데이트하는 단계를 포함하는, 재생되는 오디오 신호를 처리하는 방법.
제 12 항 내지 제 19 항 중 어느 한 항에 있어서,
상기 방법은 (A) 상기 사용자의 상기 머리의 상기 옆 쪽에 위치되고 상기 머리로부터 멀어지게 향하는 잡음 기준 마이크로폰에 의해 생성된 신호에 기초하는 제 1 감지된 잡음 신호의 시간에 대한 전력의 변화와 (B) 상기 제 1 마이크로폰보다 상기 사용자의 입에 더 가까이 위치된 음성 마이크로폰에 의해 생성된 신호에 기초하는 제 2 감지된 잡음 신호의 시간에 대한 전력의 변화를 비교하는 단계를 포함하며,
상기 잡음 추정치는 상기 비교하는 단계의 결과에 기초하는, 재생되는 오디오 신호를 처리하는 방법.
제 12 항 내지 제 20 항 중 어느 한 항에 있어서,
상기 방법은 상기 제 1 마이크로폰에 의해 생성된 상기 신호로부터의 정보에 기초하는 잡음방지 신호를 생성하는 단계를 포함하고,
상기 등화된 오디오 신호에 기초하는 상기 음향 신호는 또한 상기 잡음방지 신호에 기초하는, 재생되는 오디오 신호를 처리하는 방법.
제 12 항 내지 제 21 항 중 어느 한 항에 있어서,
상기 방법은,
제 1 복수의 시간 도메인 서브밴드 신호들을 획득하기 위해 상기 재생되는 오디오 신호를 필터링하는 단계;
제 2 복수의 시간 도메인 서브밴드 신호들을 획득하기 위해 잡음 추정치를 필터링하는 단계;
상기 제 1 복수의 시간 도메인 서브밴드 신호들로부터의 정보에 기초하여, 복수의 신호 서브밴드 전력 추정치들을 계산하는 단계;
상기 제 2 복수의 시간 도메인 서브밴드 신호들로부터의 정보에 기초하여, 복수의 잡음 서브밴드 전력 추정치들을 계산하는 단계; 및
상기 복수의 신호 서브밴드 전력 추정치들로부터의 정보 및 상기 잡음 서브밴드 전력 추정치들로부터의 정보에 기초하여, 복수의 서브밴드 이득들을 계산하는 단계를 포함하며,
상기 부스팅하는 액트는 상기 계산된 복수의 서브밴드 이득들에 기초하는, 재생되는 오디오 신호를 처리하는 방법.
제 22 항에 있어서,
상기 등화된 오디오 신호를 생성하기 위해, 상기 재생되는 오디오 신호의 적어도 하나의 주파수 서브밴드의 진폭을 상기 재생되는 오디오 신호의 적어도 하나의 다른 주파수 서브밴드의 진폭에 비하여 부스팅하는 액트는, 필터 스테이지들의 캐스케이드를 이용하여 상기 재생되는 오디오 신호를 필터링하는 단계를 포함하며,
상기 필터링하는 단계는,
상기 재생되는 오디오 신호의 제 1 주파수 서브밴드의 진폭을 부스팅하기 위하여, 상기 캐스케이드의 대응하는 필터 스테이지에 상기 복수의 서브밴드 이득들 중 제 1 서브밴드 이득을 적용하는 단계; 및
상기 재생되는 오디오 신호의 제 2 주파수 서브밴드의 진폭을 부스팅하기 위하여, 상기 캐스케이드의 대응하는 필터 스테이지에 상기 복수의 서브밴드 이득들 중 제 2 서브밴드 이득을 적용하는 단계를 포함하며,
상기 제 2 서브밴드 이득은 상기 제 1 서브밴드 이득과는 다른 값을 가지는, 재생되는 오디오 신호를 처리하는 방법.
재생되는 오디오 신호를 처리하는 장치로서,
음향 에러 신호로부터의 정보에 기초하여 잡음 추정치를 생성하는 수단;
상기 잡음 추정치로부터의 정보에 기초하여, 등화된 오디오 신호를 생성하기 위해 상기 재생되는 오디오 신호의 적어도 하나의 주파수 서브밴드의 진폭을 상기 재생되는 오디오 신호의 적어도 하나의 다른 주파수 서브밴드의 진폭에 비하여 부스팅하는 수단; 및
상기 등화된 오디오 신호에 기초하는 음향 신호를 생성하기 위하여 상기 장치의 사용 동안 상기 사용자의 외이도로 향하는 라우드스피커를 포함하며,
상기 음향 에러 신호는 상기 장치의 상기 사용 동안 상기 사용자의 상기 외이도로 향하는 에러 마이크로폰에 의해 생성되는, 재생되는 오디오 신호를 처리하는 장치.
제 24 항에 있어서,
상기 장치는 상기 잡음 추정치를 생성하기 위해 감지된 잡음 신호에 전달 함수를 적용하는 수단을 포함하며, 상기 전달 함수는 상기 음향 에러 신호로부터의 상기 정보에 기초하는, 재생되는 오디오 신호를 처리하는 장치.
제 25 항에 있어서,
상기 감지된 잡음 신호는 상기 장치의 상기 사용 동안 상기 사용자의 머리의 옆 쪽에 위치되고 상기 머리로부터 멀어지게 향하는 잡음 기준 마이크로폰에 의해 생성된 신호에 기초하는, 재생되는 오디오 신호를 처리하는 장치.
제 25 항에 있어서,
상기 감지된 잡음 신호는 상기 장치의 상기 사용 동안 상기 음향 에러 마이크로폰보다 상기 사용자의 입에 더 가까이 위치된 음성 마이크로폰에 의해 생성된 신호에 기초하는, 재생되는 오디오 신호를 처리하는 장치.
제 25 항에 있어서,
상기 장치는
상기 재생되는 오디오 신호에 대한 액티비티 검출 동작을 수행하는 수단; 및
상기 액티비티 검출 동작을 수행한 것의 결과에 기초하여 상기 전달 함수를 업데이트하는 수단을 포함하는, 재생되는 오디오 신호를 처리하는 장치.
제 24 항 내지 제 28 항 중 어느 한 항에 있어서,
상기 장치는 상기 음향 에러 신호에 기초하는 신호에 대한 에코 제거 동작을 수행하는 수단을 포함하며,
상기 에코 제거 동작은 상기 등화된 오디오 신호에 기초하는 에코 기준 신호에 기초하고,
상기 잡음 기준 신호는 상기 에코 제거 동작의 결과에 기초하는, 재생되는 오디오 신호를 처리하는 장치.
제 24 항 내지 제 29 항 중 어느 한 항에 있어서,
상기 장치는,
상기 사용자의 입에서 방출된 근단 스피치 신호의 추정치를 계산하는 수단; 및
상기 근단 스피치 신호의 추정치로부터의 정보에 기초하여, 상기 음향 에러 신호에 기초하는 신호에 대한 피드백 제거 동작을 수행하는 수단을 포함하며,
상기 잡음 추정치는 상기 피드백 제거 동작의 결과에 기초하는, 재생되는 오디오 신호를 처리하는 장치.
제 24 항 내지 제 30 항 중 어느 한 항에 있어서,
상기 장치는 상기 장치의 상기 사용 동안 (A) 상기 사용자의 머리의 옆 쪽에 위치되고 상기 머리로부터 멀어지게 향하는 잡음 기준 마이크로폰에 의해 생성된 신호에 기초하는 제 1 감지된 잡음 신호의 시간에 대한 전력의 변화와 (B) 상기 음향 에러 마이크로폰보다 상기 사용자의 입에 더 가까이 위치된 음성 마이크로폰에 의해 생성된 신호에 기초하는 제 2 감지된 잡음 신호의 시간에 대한 전력의 변화를 비교하는 수단을 포함하며,
상기 잡음 추정치는 상기 비교한 것의 결과에 기초하는, 재생되는 오디오 신호를 처리하는 장치.
제 24 항 내지 제 31 항 중 어느 한 항에 있어서,
상기 장치는 상기 음향 에러 신호로부터의 정보에 기초하는 잡음방지 신호를 생성하는 수단을 포함하고,
상기 등화된 오디오 신호에 기초하는 상기 음향 신호는 또한 상기 잡음방지 신호에 기초하는, 재생되는 오디오 신호를 처리하는 장치.
제 24 항 내지 제 32 항 중 어느 한 항에 있어서,
상기 장치는
제 1 복수의 시간 도메인 서브밴드 신호들을 획득하기 위해 상기 재생되는 오디오 신호를 필터링하는 수단;
제 2 복수의 시간 도메인 서브밴드 신호들을 획득하기 위해 잡음 추정치를 필터링하는 수단;
상기 제 1 복수의 시간 도메인 서브밴드 신호들로부터의 정보에 기초하여 복수의 신호 서브밴드 전력 추정치들을 계산하는 수단;
상기 제 2 복수의 시간 도메인 서브밴드 신호들로부터의 정보에 기초하여 복수의 잡음 서브밴드 전력 추정치들을 계산하는 수단; 및
상기 복수의 신호 서브밴드 전력 추정치들로부터의 정보 및 상기 잡음 서브밴드 전력 추정치들로부터의 정보에 기초하여 복수의 서브밴드 이득들을 계산하는 수단을 포함하고,
상기 부스팅하는 것은 상기 계산된 복수의 서브밴드 이득들에 기초하는, 재생되는 오디오 신호를 처리하는 장치.
제 33 항에 있어서,
상기 재생되는 오디오 신호의 적어도 하나의 주파수 서브밴드의 진폭을 상기 재생되는 오디오 신호의 적어도 하나의 다른 주파수 서브밴드의 진폭에 비하여 부스팅하는 수단은, 필터 스테이지들의 캐스케이드를 이용하여 상기 재생되는 오디오 신호를 필터링하는 수단을 포함하며, 상기 필터링하는 수단은,
상기 재생되는 오디오 신호의 제 1 주파수 서브밴드의 진폭을 부스팅하기 위하여, 상기 캐스케이드의 대응하는 필터 스테이지에 상기 복수의 서브밴드 이득들 중 제 1 서브밴드 이득을 적용하는 수단; 및
상기 재생되는 오디오 신호의 제 2 주파수 서브밴드의 진폭을 부스팅하기 위하여, 상기 캐스케이드의 대응하는 필터 스테이지에 상기 복수의 서브밴드 이득들 중 제 2 서브밴드 이득을 적용하는 수단을 포함하며,
상기 제 2 서브밴드 이득은 상기 제 1 서브밴드 이득과는 다른 값을 가지는, 재생되는 오디오 신호를 처리하는 장치.
재생되는 오디오 신호를 처리하는 장치로서,
음향 에러 신호로부터의 정보에 기초하는 잡음 추정치를 생성하도록 구성된 에코 제거기;
상기 잡음 추정치로부터의 정보에 기초하여, 등화된 오디오 신호를 생성하기 위해 상기 재생되는 오디오 신호의 적어도 하나의 주파수 서브밴드의 진폭을 상기 재생되는 오디오 신호의 적어도 하나의 다른 주파수 서브밴드의 진폭에 비하여 부스팅하도록 구성된 서브밴드 필터 어레이; 및
상기 등화된 오디오 신호에 기초하는 음향 신호를 생성하기 위하여 상기 장치의 사용 동안 상기 사용자의 외이도로 향하는 라우드스피커를 포함하며,
상기 음향 에러 신호는 상기 장치의 상기 사용 동안 상기 사용자의 상기 외이도로 향하는 에러 마이크로폰에 의해 생성되는, 재생되는 오디오 신호를 처리하는 장치.
제 35 항에 있어서,
상기 장치는 상기 잡음 추정치를 생성하기 위해 감지된 잡음 신호에 전달 함수를 적용하도록 구성된 필터를 포함하며, 상기 전달 함수는 상기 음향 에러 신호로부터의 상기 정보에 기초하는, 재생되는 오디오 신호를 처리하는 장치.
제 36 항에 있어서,
상기 감지된 잡음 신호는 상기 장치의 사용 동안 상기 사용자의 머리의 옆 쪽에 위치되고 상기 머리로부터 멀어지게 향하는 잡음 기준 마이크로폰에 의해 생성된 신호에 기초하는, 재생되는 오디오 신호를 처리하는 장치.
제 36 항에 있어서,
상기 감지된 잡음 신호는 상기 장치의 사용 동안 상기 음향 에러 마이크로폰보다 상기 사용자의 입에 더 가까이 위치된 음성 마이크로폰에 의해 생성된 신호에 기초하는, 재생되는 오디오 신호를 처리하는 장치.
제 36 항에 있어서,
상기 장치는 상기 재생되는 오디오 신호에 대한 액티비티 검출 동작을 수행하도록 구성된 액티비티 검출기를 구비하며,
상기 필터는 상기 액티비티 검출 동작의 수행의 결과에 기초하여 상기 전달 함수를 업데이트하도록 구성되는, 재생되는 오디오 신호를 처리하는 장치.
제 35 항 내지 제 39 항 중 어느 한 항에 있어서,
상기 장치는 상기 음향 에러 신호에 기초하는 신호에 대한 에코 제거 동작을 수행하도록 구성되는 에코 제거기를 포함하며,
상기 에코 제거 동작은 상기 등화된 오디오 신호에 기초하는 에코 기준 신호에 기초하고,
상기 잡음 기준 신호는 상기 에코 제거 동작의 결과에 기초하는, 재생되는 오디오 신호를 처리하는 장치.
제 35 항 내지 제 40 항 중 어느 한 항에 있어서,
상기 장치는,
상기 사용자의 입에서 방출된 근단 스피치 신호의 추정치를 계산하도록 구성된 잡음 억제 모듈; 및
상기 근단 스피치 신호의 추정치로부터의 정보에 기초하여, 상기 음향 에러 신호에 기초하는 신호에 대한 피드백 제거 동작을 수행하도록 구성된 피드백 제거기를 포함하며,
상기 잡음 추정치는 상기 피드백 제거 동작의 결과에 기초하는, 재생되는 오디오 신호를 처리하는 장치.
제 35 항 내지 제 41 항 중 어느 한 항에 있어서,
상기 장치는 (A) 상기 사용자의 머리의 옆 쪽에 위치되고 상기 머리로부터 멀어지게 향하는 잡음 기준 마이크로폰에 의해 생성된 신호에 기초하는 제 1 감지된 잡음 신호의 시간에 대한 전력의 변화와 (B) 상기 음향 에러 마이크로폰보다 상기 사용자의 입에 더 가까이 위치된 음성 마이크로폰에 의해 생성된 신호에 기초하는 제 2 감지된 잡음 신호의 시간에 대한 전력의 변화를 비교하도록 구성된 고장 검출기를 포함하며,
상기 잡음 추정치는 상기 비교한 것의 결과에 기초하는, 재생되는 오디오 신호를 처리하는 장치.
제 35 항 내지 제 42 항 중 어느 한 항에 있어서,
상기 장치는 상기 음향 에러 신호로부터의 정보에 기초하는 잡음방지 신호를 생성하도록 구성된 능동 잡음 제거 모듈을 포함하고,
상기 등화된 오디오 신호에 기초하는 상기 음향 신호는 또한 상기 잡음방지 신호에 기초하는, 재생되는 오디오 신호를 처리하는 장치.
제 35 항 내지 제 43 항 중 어느 한 항에 있어서,
상기 장치는
제 1 복수의 시간 도메인 서브밴드 신호들을 획득하기 위해 상기 재생되는 오디오 신호를 필터링하도록 구성된 제 1 서브밴드 신호 발생기;
제 2 복수의 시간 도메인 서브밴드 신호들을 획득하기 위해 잡음 추정치를 필터링하도록 구성된 제 2 서브밴드 신호 발생기;
상기 제 1 복수의 시간 도메인 서브밴드 신호들로부터의 정보에 기초하여 복수의 신호 서브밴드 전력 추정치들을 계산하도록 구성된 제 1 서브밴드 전력 추정치 계산기;
상기 제 2 복수의 시간 도메인 서브밴드 신호들로부터의 정보에 기초하여 복수의 잡음 서브밴드 전력 추정치들을 계산하도록 구성된 제 2 서브밴드 전력 추정치 계산기; 및
상기 복수의 신호 서브밴드 전력 추정치들로부터의 정보 및 상기 잡음 서브밴드 전력 추정치들로부터의 정보에 기초하여 복수의 서브밴드 이득들을 계산하도록 구성된 서브밴드 이득 계수 계산기를 포함하며,
상기 부스팅하는 것은 상기 계산된 복수의 서브밴드 이득들에 기초하는, 재생되는 오디오 신호를 처리하는 장치.
제 44 항에 있어서,
상기 서브밴드 필터 어레이는 필터 스테이지들의 캐스케이드를 이용하여 상기 재생되는 오디오 신호를 필터링하도록 구성되며,
상기 서브밴드 필터 어레이는 상기 재생되는 오디오 신호의 제 1 주파수 서브밴드의 진폭을 부스팅하기 위해 상기 캐스케이드의 대응하는 필터 스테이지에 상기 복수의 서브밴드 이득들 중 제 1 서브밴드 이득을을 적용하도록 구성되고,
상기 서브밴드 필터 어레이는 상기 재생되는 오디오 신호의 제 2 주파수 서브밴드의 진폭을 부스팅하기 위하여 상기 캐스케이드의 대응하는 필터 스테이지에 상기 복수의 서브밴드 이득들 중 제 2 서브밴드 이득을 적용하도록 구성되며,
상기 제 2 서브밴드 이득은 상기 제 1 서브밴드 이득과는 다른 값을 가지는, 재생되는 오디오 신호를 처리하는 장치.
유형의 특징 (feature) 들을 갖는 비일시적 컴퓨터 판독가능 저장 매체로서,
상기 특징들을 판독하는 머신으로 하여금,
잡음 추정치로부터의 정보에 기초하여, 등화된 오디오 신호를 생성하기 위해 재생되는 오디오 신호의 적어도 하나의 주파수 서브밴드의 진폭을 상기 재생되는 오디오 신호의 적어도 하나의 다른 주파수 서브밴드의 진폭에 비하여 부스팅하며; 그리고
상기 등화된 오디오 신호에 기초하는 음향 신호를 생성하기 위하여 사용자의 외이도로 향하는 라우드스피커를 구동하도록 하는 유형의 특징들을 가지며,
상기 잡음 추정치는 상기 사용자의 상기 외이도로 향하는 에러 마이크로폰에 의해 생성된 음향 에러 신호로부터의 정보에 기초하는, 비일시적 컴퓨터 판독가능 저장 매체.
제 46 항에 있어서,
상기 유형의 특징들은 상기 특징들을 판독하는 머신으로 하여금,
상기 잡음 추정치를 생성하기 위해, 감지된 잡음 신호에 전달 함수를 적용하도록 하며,
상기 전달 함수는 상기 음향 에러 신호로부터의 상기 정보에 기초하는, 비일시적 컴퓨터 판독가능 저장 매체.
제 47 항에 있어서,
상기 유형의 특징들은 상기 특징들을 판독하는 머신으로 하여금,
상기 재생되는 오디오 신호에 대한 액티비티 검출 동작을 수행하며,
상기 액티비티 검출 동작을 수행한 것의 결과에 기초하여 상기 전달 함수를 업데이트하도록 하는, 비일시적 컴퓨터 판독가능 저장 매체.
제 46 항 내지 제 48 항 중 어느 한 항에 있어서,
상기 유형의 특징들은 상기 특징들을 판독하는 머신으로 하여금,
(A) 상기 사용자의 머리의 옆 쪽에 위치되고 상기 머리로부터 멀어지게 향하는 잡음 기준 마이크로폰에 의해 생성된 신호에 기초하는 제 1 감지된 잡음 신호의 시간에 대한 전력의 변화와 (B) 상기 음향 에러 마이크로폰보다 상기 사용자의 입에 더 가까이 위치된 음성 마이크로폰에 의해 생성된 신호에 기초하는 제 2 감지된 잡음 신호의 시간에 대한 전력의 변화를 비교하도록 하며,
상기 잡음 기준 신호는 상기 비교한 것의 결과에 기초하는, 비일시적 컴퓨터 판독가능 저장 매체.
제 46 항 내지 제 49 항 중 어느 한 항에 있어서,
상기 유형의 특징들은 상기 특징들을 판독하는 머신으로 하여금 상기 음향 에러 신호로부터의 정보에 기초하는 잡음방지 신호를 생성하도록 하고,
상기 등화된 오디오 신호에 기초하는 상기 음향 신호는 또한 상기 잡음방지 신호에 기초하는, 비일시적 컴퓨터 판독가능 저장 매체.
프로세서에 의해 판독되는 경우 상기 프로세서로 하여금 제 1 항 내지 제 11 항 중 어느 한 항에 기재된 방법을 수행하도록 하는 유형의 특징부들을 포함하는 컴퓨터 판독가능 매체.
프로세서에 의해 판독되는 경우 상기 프로세서로 하여금 제 12 항 내지 제 23 항 중 어느 한 항에 기재된 방법을 수행하도록 하는 유형의 특징부들을 포함하는 컴퓨터 판독가능 매체.