KR20130124573A

KR20130124573A - 공간 선택적 오디오 증강을 위한 시스템들, 방법들, 장치들, 및 컴퓨터 판독가능 매체들

Info

Publication number: KR20130124573A
Application number: KR1020137024671A
Authority: KR
Inventors: 현진 박; ?룽 챈; 렌 리
Original assignee: 퀄컴 인코포레이티드
Priority date: 2011-02-23
Filing date: 2012-02-22
Publication date: 2013-11-14
Also published as: JP6009619B2; US9037458B2; EP2679022A1; KR101606966B1; US20120215519A1; WO2012161781A1; EP2679022B1; JP2014511612A; ES2898717T3; CN103392349B; CN103392349A; JP2015173502A

Abstract

멀티채널 오디오 신호의 공간 선택적 증강이 설명된다.

Description

공간 선택적 오디오 증강을 위한 시스템들, 방법들, 장치들, 및 컴퓨터 판독가능 매체들{SYSTEMS, METHODS, APPARATUS, AND COMPUTER-READABLE MEDIA FOR SPATIALLY SELECTIVE AUDIO AUGMENTATION}

35 U.S.C. §119 하의 우선권 주장

본 특허 출원은 2011년 2월 23일자로 출원되고 본 출원의 양수인에게 양도된 발명의 명칭이 "AUDIO AUGMENTED REALITY USING ANC HEADSET" 인 가출원 제61/445,974호에 대해 우선권을 주장한다.

본 개시물은 오디오 신호 프로세싱에 관한 것이다.

용어 "증강 현실 (augmented reality)" (또는 AR) 은 컴퓨터-발생된 센서 입력에 의한 지각된 환경의 증강을 지칭한다. 그에 반해서, 용어 "가상 현실" 은 실제 환경을 시뮬레팅된 환경으로 대체하는 것을 지칭한다.

현실의 시각적 증강은 널리 입증되어 왔다. 비디오 애플리케이션에서는, 환경의 오리지널 엘리먼트를 대응하는 증강된 엘리먼트로, 그 오리지널 엘리먼트를 숨기기 위한 불투명한 오버레이로서 증강된 엘리먼트를 단순히 적용함으로써 대체하는 것이 비교적 용이하다. 시각적 증강 현실의 한가지 예는, 현재 풋볼 게임 방송의 공통 특징인 황색 컴퓨터-발생된 "퍼스트 다운 (first down)" 라인이다.

일반적인 구성에 따른 멀티채널 신호를 프로세싱하는 방법은, 잡음방지 신호를 생성하기 위해 멀티채널 신호의 제 1 오디오 입력 채널에 대해 능동 잡음 제거 (active noise cancellation) 동작을 수행하는 단계를 포함한다. 이 방법은 또한, 소스 컴포넌트를 획득하기 위해 멀티채널 신호를 프로세싱하는 단계를 포함하며, 여기서 프로세싱하는 단계는 소스 컴포넌트를 백그라운드 컴포넌트로부터 분리하기 위해 멀티채널 신호에 대해 공간 선택적 프로세싱 동작을 수행하는 단계를 포함한다. 이 방법은 또한, 타겟 컴포넌트를 생성하기 위해 획득된 소스 컴포넌트를 프로세싱하는 단계, 및 오디오 출력 신호를 생성하기 위해 잡음방지 신호와 타겟 컴포넌트에 기초하는 증강된 신호를 결합하는 단계를 포함한다. 유형의 특징들을 갖는 컴퓨터 판독가능 저장 매체 (예를 들어, 비일시적 매체) 로서, 유형의 특징들은, 그 유형의 특징들을 판독하는 머신으로 하여금, 이러한 방법을 수행하도록 하는, 상기 컴퓨터 판독가능 매체가 또한 개시된다.

일반적인 구성에 따른 멀티채널 신호를 프로세싱하는 장치는, 잡음방지 신호를 생성하기 위해 멀티채널 신호의 제 1 오디오 입력 채널에 대해 능동 잡음 제거 동작을 수행하는 수단을 포함한다. 이 장치는 또한, 소스 컴포넌트를 획득하기 위해 멀티채널 신호를 프로세싱하는 수단을 포함하며, 여기서 프로세싱하는 것은 소스 컴포넌트를 백그라운드 컴포넌트로부터 분리하기 위해 멀티채널 신호에 대해 공간 선택적 프로세싱 동작을 수행하는 것을 포함한다. 이 장치는 또한, 타겟 컴포넌트를 생성하기 위해 획득된 소스 컴포넌트를 프로세싱하는 수단, 및 오디오 출력 신호를 생성하기 위해 잡음방지 신호와 타겟 컴포넌트에 기초하는 증강된 신호를 결합하는 수단을 포함한다.

다른 일반적인 구성에 따른 멀티채널 신호를 프로세싱하는 장치는, 잡음방지 신호를 생성하기 위해 멀티채널 신호의 제 1 오디오 입력 채널에 대해 능동 잡음 제거 동작을 수행하도록 구성된 능동 잡음 제거 필터를 포함한다. 이 장치는 또한, 소스 컴포넌트를 획득하기 위해 멀티채널 신호를 프로세싱하도록 구성된 증강 현실 프로세싱 모듈을 포함한다. 증강 현실 프로세싱 모듈은 소스 컴포넌트를 백그라운드 컴포넌트로부터 분리하기 위해 멀티채널 신호에 대해 공간 선택적 프로세싱 동작을 수행하도록 구성된 공간 선택적 필터, 및 (A) 타겟 컴포넌트를 생성하기 위해 획득된 소스 컴포넌트를 프로세싱하고 (B) 타겟 컴포넌트에 기초하는 증강된 신호를 출력하도록 구성된 증강 모듈을 포함한다. 이 장치는 또한, 오디오 출력 신호를 생성하기 위해 잡음방지 신호와 증강된 신호를 결합하도록 구성된 오디오 출력 스테이지를 포함한다.

도 1 의 A 는 일반적인 구성에 따른 방법 (M100) 의 플로우차트를 도시한다.
도 1 의 B 는 사용자의 오른쪽 귀에 착용되는 헤드셋 (HS10) 의 사용의 상부도를 도시한다.
도 2a 내지 도 2d 는 무선 헤드셋 (HS10) 의 다양한 도면들을 도시한다.
도 3a 내지 도 3d 는 멀티-마이크로폰 휴대용 오디오 감지 디바이스 (HS20) 의 다양한 도면들을 도시한다.
도 4a 내지 도 5c 는 이어컵들의 각각 우측 구현들 (ECR10, ECR20, ECR30, ECR40, ECR50 및 ECR60) 의 수평 단면도들을 도시한다.
도 6a 및 도 6b 는 헤드폰들의 쌍의 통상의 사용 케이스의 상부도 및 전면도를 각각 도시한다.
도 7a 는 일반적인 구성에 따른 장치 (A100) 의 블록도를 도시한다.
도 7b 는 헤드 장착 ANC 디바이스와 프로세싱 디바이스 (PD10) 간의 장치 (A100) 의 엘리먼트들의 분할의 하나의 예를 도시한다.
도 8a 는 오디오 전처리 스테이지 (AP10) 를 포함하는 어레인지먼트의 블록도를 도시한다.
도 8b 및 도 8c 는 오디오 전처리 스테이지 (AP10) 의 일 구현 (AP20) 을 포함하는 어레인지먼트들의 블록도들을 도시한다.
도 9a 는 이어버드 (EB10) 의 좌측 예를 도시한다.
도 9b 는 장치 (A100) 의 일 구현 (A200) 의 블록도를 도시한다.
도 10a 는 이어버드 (EB20) 의 좌측 예의 측면도를 도시한다.
도 10b 는 이어버드 (EB30) 의 일 예의 전면도를 도시한다.
도 10c 는 마이크로폰들 (ML10 및 MR10) 을 캐리하는 이어버드들의 사용 케이스를 도시한다.
도 11 은 장치 (A200) 의 일 구현 (A210) 의 블록도를 도시한다.
도 12a 내지 도 12e 는 여기에 설명한 바와 같이 마이크로폰들 및/또는 확성기를 캐리하는데 사용될 수도 있는 디바이스들의 추가적인 예들을 도시한다.
도 13a 는 모듈 (AR10) 의 일 구현 (AR20) 의 블록도를 도시한다.
도 13b 는 증강 모듈 (AM10) 의 일 구현 (AM20) 의 블록도를 도시한다.
도 13c 는 SSP 모듈 (SM10) 의 일 구현 (SM20) 의 블록도를 도시한다.
도 14a 는 3 개의 공간 섹터들 중에서 원하는 섹터를 선택하는 일 예를 도시한다.
도 14b 는 5 개의 공간 섹터들 중에서 원하는 섹터를 선택하는 일 예를 도시한다.
도 14c 는 장치 (A210) 의 일 구현 (A200) 의 블록도를 도시한다.
도 15 는 다중 선택가능한 공간 섹터들의 일 예의 상부도를 도시한다.
도 16a 및 도 16b 는 제안된 방식이 "바이오닉 이어 (bionic ear)" 애플리케이션을 지원하는데 이용되는 일 예를 도시한다.
도 17a 는 아무것도 착용하지 않은 귀 (bare ear) 를 가진 사용자 A 에 대한 지각된 사운드 이득의 공간 패턴의 일 예를 도시한다.
도 17b 는 사용자 A 에 대한 지각된 사운드 이득의 공간 패턴의 일 예를 도시한다.
도 18a 는 분리된 소스 컴포넌트에 대한 지각된 오디오 이득의 공간 패턴의 일 예를 도시한다.
도 18b 는 타겟 컴포넌트에 대한 지각된 오디오 이득의 공간 패턴의 일 예를 도시한다.
도 19 는 사용자 A 에 대한 지각된 사운드 이득의 공간 패턴의 일 예를 도시한다.
도 20a 및 도 20b 는 제안된 방식이 라이브 스피치의 번역을 지원하는데 이용되는 일 예를 도시한다.
도 21 내지 도 24 는 사운드 이득의 공간 패턴들의 예들을 도시한다.
도 25a 는 증강 현실 프로세싱 모듈 (AR10) 의 일 구현 (AR30) 의 블록도를 도시한다.
도 25b 는 증강 모듈 (AM20 및 AM30) 의 일 구현 (AM40) 의 블록도를 도시한다.
도 26a 는 증강 모듈 (AR20) 의 일 구현 (AR100) 의 블록도를 도시한다.
도 26b 는 일반적인 구성에 따른 장치 (MF100) 의 블록도를 도시한다.
도 27a 는 일반적인 ANC 시스템의 블록도를 도시한다.
도 27b 및 도 27c 는 각각 헤드셋들 (HS10 및 HS20) 의 구현들 (HS15 및 HS25) 의 예들을 도시한다.
도 28a 내지 도 28c 는 각각 이어버드 (EB30) 및 이어컵들 (ECR20 및 ECR20) 의 구현들 (EB32, ECR15 및 ECR25) 을 도시한다.

현실의 오디오 증강은, 그것이 오디오 환경을 효과적으로 제어하기 어렵기 때문에 추구되고 있지 않다. 예를 들어, 인입 사운드 엘리먼트는 비디오 엘리먼트와 같이 단순 오버레이로 제거될 수 없고, 자연적 사운드들의 사용자의 귀에의 도달을 선택적으로 통과 및 차단시키기 어렵다.

종래의 보청기가 사용자의 환경적 사운드들을 듣는 능력을 강화시키는데 사용될 수도 있다. 그러나, 보청기는 환경적 사운드들을 증폭시킬 수도 있지만, 그 보청기는 환경적 사운드들을 차단하지 않아, 이러한 디바이스는 오디오 현실을 증강시키기는데 충분한 제어를 제공하지 않는다. 수동 헤드셋들이 환경적 사운드들을 차단하는데 사용되었지만, 그들의 차단 능력은 제한된다.

능동 잡음 제거 (active noise cancellation; ANC) 헤드셋들이 사전 녹음된 미디어 또는 원격 통신을 들으면서 환경적 사운드를 제거하는데 사용될 수도 있다. 여기에 설명된 시스템들, 방법들, 및 장치는 환경적 사운드들의 선택적 제어 및 증강을 제공하기 위해 멀티-마이크로폰 (예를 들어, 스테레오포닉) 능동 잡음 제거 (ANC) 헤드셋과 함께 사용될 수도 있다. 오디오-증강 현실 및 ANC 헤드셋들 및 모바일 디바이스들을 통한 그 효과적인 구현의 다양한 사용 케이스들이 개시된다.

그 문맥에 의해 명확히 제한되지 않는다면, 용어 "신호" 는 여기에 와이어, 버스, 또는 다른 송신 매체 상에서 표현된 바와 같은 메모리 로케이션 (또는 메모리 로케이션들의 세트) 의 상태를 포함하는, 그 통상의 의미들 중 임의의 의미를 나타내는데 사용된다. 그 문맥에 의해 명확히 제한되지 않는다면, 용어 "발생시키는 것" 은 여기에 컴퓨팅하는 것 또는 그렇지 않으면 생성하는 것과 같은 그 통상의 의미들 중 임의의 의미를 나타내는데 사용된다. 그 문맥에 의해 명확히 제한되지 않는다면, 용어 "계산하는 것" 은 여기에 복수의 값들로부터 컴퓨팅하는 것, 평가하는 것, 추정하는 것 및/또는 선택하는 것과 같은 그 통상의 의미들 중 임의의 의미를 나타내는데 사용된다. 그 문맥에 의해 명확히 제한되지 않는다면, 용어 "획득하는 것" 은 (예를 들어, 외부 디바이스로부터) 계산하는 것, 유도하는 것, 수신하는 것, 및/또는 (예를 들어, 저장 엘리먼트들의 어레이로부터) 취출하는 것과 같은 그 통상의 의미들 중 임의의 의미를 나타내는데 사용된다. 그 문맥에 의해 명확히 제한되지 않는다면, 용어 "선택하는 것" 은 2 개 이상의 세트 중 적어도 하나, 및 모두 보다 적은 것을 식별하는 것, 나타내는 것, 적용하는 것, 및/또는 사용하는 것과 같은 그 통상의 의미들 중 임의의 의미를 나타내는데 사용된다. 용어 "포함하는 것" 이 본 설명 및 청구항들에서 사용되지만, 그것이 다른 엘리먼트들 또는 동작들을 배제하지는 않는다. 용어 ("A 가 B 에 기초한다" 에서와 같이) "~ 에 기초하는" 은 경우들 (i) "~ 로부터 유도된" (예를 들어, "B 는 A 의 전조 (precursor) 이다"), (ii) "적어도 ~ 에 기초하는" (예를 들어, "A 는 적어도 B 에 기초한다"), 및 특정 문맥에서 적절하다면, (iii) "~ 와 동일한" (예를 들어, "A 는 B 와 동일하다") 를 포함하는, 그 통상의 의미들 중 임의의 의미를 나타내는데 사용된다. 유사하게, 용어 "~ 에 응답하여" 는 "적어도 ~ 에 응답하여" 를 포함하는, 그 통상의 의미들 중 임의의 의미를 나타내는데 사용된다.

멀티-마이크로폰 오디오 감지 디바이스의 마이크로폰의 "로케이션" 에 대한 참조는 문맥에 의해 다르게 나타내지 않는다면, 마이크로폰의 음향적으로 민감한 면 (acoustically sensitive face) 의 중심의 로케이션을 나타낸다. 용어 "채널" 은 특정 문맥에 따라, 가끔은 신호 경로를 나타내고, 다른 때에는 이러한 경로에 의해 반송되는 신호를 나타내는데 사용된다. 다르게 나타내지 않는다면, 용어 "시리즈" 는 2 개 이상의 아이템들의 시퀀스를 나타내는데 사용된다. 용어 "로그 (logarithm)" 는 밑이 10 인 로그를 나타내는데 사용되지만, 이러한 동작의 다른 밑으로의 확장들은 본 개시물의 범위 내에 있다. 용어 "주파수 컴포넌트" 는 신호 또는 신호의 서브대역 (예를 들어, 바크 스케일 또는 멜 스케일 서브대역) 의 (예를 들어, 고속 푸리에 변환에 의해 생성된 바와 같은) 주파수 도메인 표현의 샘플과 같이, 신호의 주파수들 또는 주파수 대역들의 세트 중에서 하나를 나타내는데 사용된다.

다르게 나타내지 않는다면, 특정 특징을 갖는 장치의 동작의 임의의 개시물은 또한 유사한 특징을 갖는 방법을 개시하는 것으로 명확히 의도되며 (그 역도 또한 마찬가지이다), 특정 구성에 따른 장치의 동작의 임의의 개시물은 또한 유사한 구성에 따른 방법을 개시하는 것으로 명확히 의도된다 (그 역도 또한 마찬가지이다). 용어 "구성" 은 그 특정 문맥에 의해 나타낸 바와 같이, 방법, 장치 및/또는 시스템을 참조하여 사용될 수도 있다. 용어들 "방법", "프로세스", "절차" 및 "기법" 은 특정 문맥에 의해 다르게 나타내지 않는다면 일반적으로 그리고 상호교환가능하게 사용된다. 용어들 "장치" 및 "디바이스" 는 또한 특정 문맥에 의해 다르게 나타내지 않는다면 일반적으로 그리고 상호교환가능하게 사용된다. 용어들 "엘리먼트" 및 "모듈" 은 통상 더 큰 구성의 부분을 나타내는데 사용된다. 그 문맥에 의해 명확히 제한되지 않는다면, 용어 "시스템" 은 여기서 "공통 목적을 서비스하도록 상호작용하는 엘리먼트들의 그룹" 을 포함하는, 그 통상의 의미들 중 임의의 의미를 나타내는데 사용된다. 문서의 부분의 참조에 의한 임의의 통합은 또한 그 부분 내에서 참조되는 용어들 또는 변수들의 정의들을 통합하는 것으로 이해되어야 하며, 여기서 이러한 정의들은 그 문서의 다른 곳뿐만 아니라 통합된 부분에서 참조된 임의의 도면들에서 나타난다.

방출된 음장 (sound field) 의 근거리장 (near-field) 및 원거리장 (far-field) 영역들에서, 파면들은 각각 구형 및 평면인 것으로 가정될 수도 있다. 근거리장은 사운드 수신기 (예를 들어, 마이크로폰 어레이) 로부터 1 파장 미만 떨어진 공간의 영역으로서 정의될 수도 있다. 이 정의 하에서, 그 영역의 경계에 대한 거리는 주파수에 따라 역변한다. 예를 들어, 2 백, 수 백, 및 2 천 헤르쯔의 주파수들에서, 1-파장 경계에 대한 거리는 각각 약 170, 49, 및 17 센티미터이다. 그 대신 근거리장/원거리장 경계가 마이크로폰 어레이로부터 특정 거리 (예를 들어, 어레이의 마이크로폰으로부터 또는 어레이의 중심으로부터 50 센티미터, 또는 어레이의 마이크로폰으로부터 또는 어레이의 중심으로부터 1 미터 또는 1.5 미터) 에 있는 것으로 간주하는 것이 유용할 수도 있다.

능동 잡음 제거 (ANC, 능동 잡음 감소 (active noise reduction) 라고도 불림) 는 "역위상 (antiphase)" 또는 "잡음방지 (anti-noise)" 파형이라고도 불리는, 잡음 파의 인버스 형태 (예를 들어, 동일한 레벨 및 반전된 위상 (inverted phase) 을 가짐) 인 파형을 발생시킴으로써 대기 중의 음향 잡음을 능동적으로 감소시키는 기술이다. ANC 시스템은 일반적으로 하나 이상의 마이크로폰들을 사용하여 외부 잡음 참조 신호를 선정하고, 그 잡음 참조 신호로부터 잡음방지 파형을 발생시키며, 잡음방지 파형을 하나 이상의 확성기들을 통하여 재생한다. 이 잡음방지 파형은 사용자의 귀에 도달하는 잡음의 레벨을 감소시키기 위해 오리지널 잡음 파를 파괴적으로 간섭한다.

ANC 헤드셋은 여기에 설명한 바와 같이, 환경적 사운드들의 사용자의 귀로의 통과를 제어하고 사용자의 환경적 청취 능력을 향상시키는 효과적인 메커니즘으로서 사용될 수도 있다. 제안된 방식에서의 ANC 헤드셋의 사용은 종래의 증강 현실 기법들로 이용가능한 것보다 실제 오디오 신호의 가상 오디오로의 보다 효과적인 대체를 제공할 수도 있다.

ANC 헤드셋은 통상 사용자의 귀에 가깝게 포지셔닝되는 하나 이상의 참조 마이크로폰들을 포함하여 환경적 사운드들을 캡처한다. 이러한 마이크로폰 또는 마이크로폰들은 또한 증강 현실 애플리케이션들에 대한 오디오 신호들을 캡처하기 위해 위치되는 것이 바람직하며, 공간-다이버시티-기반 선택적 신호 프로세싱 및 증강을 위해 환경적 사운드의 선택적 캡처 및 프로세싱을 제공하는데 사용될 수도 있다.

도 1 의 A 는 태스크들 (T100, T200, T300, 및 T400) 을 포함하는 일반적인 구성에 따른 멀티채널 신호를 프로세싱하는 방법 (M100) 의 플로우차트를 도시한다. 태스크 (T100) 는 잡음방지 신호를 생성하기 위해 멀티채널 신호의 제 1 오디오 입력 채널에 대해 ANC 동작을 수행한다. 태스크 (T200) 는 멀티채널 신호의 소스 컴포넌트를 획득하기 위해, 제 1 오디오 입력 채널 및 제 2 오디오 입력 채널을 포함하는 멀티채널 신호를 프로세싱한다. 태스크 (T200) 는 소스 컴포넌트를 멀티채널 신호의 백그라운드 컴포넌트로부터 분리하기 위해 멀티채널 신호에 대해 공간 선택적 프로세싱 (spatially selective processing; SSP) 동작을 수행하는 것을 포함한다. 태스크 (T300) 는 타겟 컴포넌트를 생성하기 위해 획득된 소스 컴포넌트를 프로세싱한다. 태스크 (T300) 는 통상 획득된 소스 컴포넌트의 지각가능성을 증가시키는 것을 포함한다. 태스크 (T400) 는 오디오 출력 신호를 생성하기 위해 잡음방지 신호와 타겟 컴포넌트에 기초하는 증강된 신호를 결합한다.

2 개 이상의 마이크로폰들을 갖는 이어피스 또는 다른 헤드셋은 방법 (M100) 의 일 구현을 수행하도록 구성될 수도 있는 일 종류의 휴대용 오디오 감지 디바이스 (예를 들어, 통신 디바이스) 이다. 이러한 헤드셋은 유선이거나 무선일 수도 있다. 예를 들어, 무선 헤드셋은 (예를 들어, 워싱턴, 벨뷰 소재의 Bluetooth Special Interest Group, Inc. 에 의해 보급된 바와 같은 Bluetooth^TM 프로토콜의 일 버전을 이용하여) 셀룰러 전화 핸드셋과 같은 전화 디바이스와의 통신을 통해 반이중 (half-duplex) 또는 전이중 (full-duplex) 텔레포니를 지원하도록 구성될 수도 있다.

도 2a 내지 도 2d 는 방법 (M100) 의 일 구현을 수행하도록 구성될 수도 있는 무선 헤드셋 (HS10) 의 다양한 도면들을 도시한다. 헤드셋 (HS10) 은 2-마이크로폰 어레이를 캐리하는 하우징 (Z10) 및 그 하우징으로부터 연장되는 이어폰 (Z20) 을 포함한다. 일반적으로, 헤드셋의 하우징은 (예를 들어, 미니붐과 같이 형상화된) 도 2a, 도 2b, 및 도 2d 에 도시한 바와 같이 직사각형이거나 또는 그렇지 않으면 가늘고 긴 형상일 수도 있고, 또는 보다 둥근 형상이거나 또는 심지어 원형일 수도 있다. 하우징은 또한 배터리 및 프로세서 및/또는 다른 프로세싱 회로 (예를 들어, 인쇄 회로 기판 및 그 위에 장착된 컴포넌트들) 를 동봉하고 있을 수도 있고, 전기 포트 (예를 들어, 미니-범용 직렬 버스 (USB) 또는 배터리 충전을 위한 다른 포트) 및 하나 이상의 버튼 스위치들 및/또는 LED들과 같은 사용자 인터페이스 특징들을 포함할 수도 있다. 통상, 하우징의 그 장축을 따른 길이는 1 인치에서 3 인치까지의 범위 내에 있다.

방법 (M100) 의 이러한 구현에서, 제 1 오디오 입력 채널은 헤드셋의 1 차 마이크로폰에 의해 생성된 신호에 기초하고, 제 1 오디오 입력 채널은 헤드셋의 2 차 마이크로폰에 의해 생성된 신호에 기초한다. 통상 각각의 마이크로폰은 음향 포트로서 서비스하는 하우징 내의 하나 이상의 소형 홀들 이면의 헤드셋 내에 장착된다. 도 2b 내지 도 2d 는 디바이스 (HS10) 의 1 차 마이크로폰에 대한 음향 포트 (Z50) 및 디바이스 (HS10) 의 2 차 마이크로폰에 대한 음향 포트 (Z40) 의 로케이션들을 도시한다. 이어폰 (Z20) 은 사운드를 오디오 출력 신호에 기초하는 음향 신호를 생성하는 헤드셋의 확성기로부터 사용자의 이도 (ear canal) 로 안내한다.

헤드셋은 또한 이어후크 (Z30) 와 같은 고정 디바이스 (securing device) 를 포함할 수도 있으며, 이는 통상 헤드셋으로부터 착탈가능하다. 외부 이어후크는 예를 들어, 사용자가 어느 한쪽 귀에의 사용을 위한 헤드셋을 구성하는 것을 허용하기 위해 겸용 (reversible) 일 수도 있다. 대안적으로, 헤드셋의 이어폰은 특정 사용자의 이도의 외부 부분에의 더 나은 적합성 (fit) 을 위해 상이한 사이즈 (예를 들어, 직경) 의 이어피스를 상이한 사용자들이 사용하는 것을 허용하기 위해 착탈가능 이어피스를 포함할 수도 있는 내부 고정 디바이스 (예를 들어, 이어플러그) 로서 설계될 수도 있다. 도 1 의 B 는 사용자의 오른쪽 귀에 착용되는 헤드셋 (HS10) 의 사용의 상부도를 도시한다.

도 3a 내지 도 3d 는 방법 (M100) 의 일 구현을 수행하도록 구성될 수도 있는 무선 헤드셋의 다른 예인 멀티-마이크로폰 휴대용 오디오 감지 디바이스 (HS20) 의 다양한 도면들을 도시한다. 디바이스 (HS20) 는 둥근 타원형의 하우징 (Z12) 및 이어플러그로서 구성될 수도 있는 이어폰 (Z22) 을 포함한다. 도 3a 내지 도 3d 는 또한, 1 차 마이크로폰에 대한 음향 포트 (Z52) 및 디바이스 (HS20) 의 2 차 마이크로폰에 대한 음향 포트 (Z42) 의 로케이션들을 도시한다. 1 차 마이크로폰 포트 (Z52) 는 (예를 들어, 사용자 인터페이스 버튼에 의해) 적어도 부분적으로 막힐 수도 있는 것이 가능하다.

2 개 이상의 마이크로폰들을 갖는 이어컵, 또는 각각 적어도 하나의 마이크로폰을 갖는 (사용자의 머리에 착용될 밴드에 의해 통상 결합되는) 이어컵들의 쌍은 방법 (M100) 의 일 구현을 수행하도록 구성될 수도 있는 다른 종류의 휴대용 통신 디바이스이다. 도 4a 내지 도 5c 는 사용자의 귀에 오디오 출력 신호에 기초한 음향 신호를 생성하도록 배열되는 확성기 (RLS10) 를 포함하는 이러한 이어컵들 (헤드폰들이라고도 불림) 의 각각 우측 구현들 (ECR10, ECR20, ECR30, ECR40, ECR50 및 ECR60) 의 수평 단면도들을 도시한다. 이러한 이어컵들은 수프라-오럴 (supra-aural) 인 것으로 (즉, 사용 중에 사용자의 귀를 밀폐시키지 않고 귀 위에 놓여있도록) 구성되거나 또는 서큐머럴 (circumaural) 인 것으로 (즉, 사용 중에 사용자의 귀를 밀폐시키도록) 구성될 수도 있다. 이들 예들은 또한 이어컵 하우징 내의 음향 포트를 통해 환경적 음향 신호들을 수신하고 대응하는 입력 오디오 신호들이 기초하는 신호들을 생성하도록 배열되는 하나 이상의 마이크로폰들 (MR10, MR20, MR30) 을 포함한다. 이이컵의 구조를 통하여 확성기 (RLS10) 로부터의 기계적 진동을 수신하는 것으로부터 마이크로폰들을 보호하는 것이 바람직할 수도 있다.

여기에 설명된 다양한 우측 이어컵들의 좌측 인스턴스들이 유사하게 구성되는 것이 이해될 것이다. 도 6a 및 도 6b 는 헤드폰들의 쌍의 통상의 사용 케이스의 상부도 및 전면도를 각각 도시한다. 이 예는 이어컵 (ECR40) 의 일 구현 (ECR42), 대응하는 좌측 이어컵 (ECL42), 및 2 개의 이어컵들을 결합하는 밴드 (BD10) 를 포함한다.

도 7a 는 ANC 필터 (AF10), 증강 현실 (AR) 프로세싱 모듈 (AR10), 및 오디오 출력 스테이지 (AO10) 를 포함하는 일반적인 구성에 따른 장치 (A100) 의 블록도를 도시한다. 장치 (A100) 는 방법 (M100) 의 일 구현을 수행하는데 사용될 수도 있다. 예를 들어, ANC 필터 (AF10) 는 태스크 (T100) 를 수행하는데 사용될 수도 있고, AR 프로세싱 모듈 (AR10) 은 태스크들 (T200 및 T300) 을 수행하는데 사용될 수도 있으며, 오디오 출력 스테이지 (AO10) 는 태스크 (T400) 를 수행하는데 사용될 수도 있다.

여기에 설명한 바와 같이 멀티-마이크로폰 오디오 감지 디바이스의 동작 동안, 2 개 이상의 마이크로폰들의 어레이는 각각의 채널이 음향 환경에 대한 마이크로폰들 중 대응하는 하나의 응답에 기초하는 멀티채널 신호를 생성한다. 하나의 마이크로폰은 다른 마이크로폰보다 더 직접적으로 특정 사운드를 수신할 수도 있어, 대응하는 채널들이 서로 달라 단일의 마이크로폰을 이용하여 캡처될 수 있는 것보다 더 완전한 음향 환경의 표현을 집합적으로 제공하도록 한다.

오디오 감지 디바이스는 대응하는 멀티채널 신호를 생성하기 위해 마이크로폰들에 의해 생성된 신호들에 대해 하나 이상의 프로세싱 동작들을 수행하는 것이 바람직할 수도 있다. 예를 들어, 이러한 디바이스는 오디오 전처리 스테이지 (AP10) 를 포함하는 도 8a 에 도시한 바와 같은 어레인지먼트를 포함할 수도 있다. 오디오 전처리 스테이지 (AP10) 는 하나 이상의 이러한 동작들을 수행하도록 구성되며, 하나 이상의 이러한 동작들은 각각의 채널 (SI10 및 SI20) 이 음향 신호에 대한 대응하는 마이크로폰의 응답에 기초하도록 하는 멀티채널 신호 (MSC10) 를 생성하기 위해 마이크로폰들에 의해 생성된 신호들에 대한, 아날로그 및/또는 디지털 도메인들에서의 임피던스 매칭, 아날로그-투-디지털 컨버전, 이득 제어, 및/또는 필터링을 (제한 없이) 포함할 수도 있다.

도 8b 는 아날로그 전처리 스테이지들 (P10a 및 P10b) 을 포함하는 오디오 전처리 스테이지 (AP10) 의 일 구현 (AP20) 을 포함하는 그러한 어레인지먼트의 블록도를 도시한다. 하나의 예에서, 스테이지들 (P10a 및 P10b) 은 각각 마이크로폰들 (MR10 및 MR20) 로부터의 대응하는 신호들에 대해 (예를 들어, 50, 100, 또는 200Hz 의 컷오프 주파수로) 고역통과 필터링 동작을 수행하도록 구성된다.

전처리 스테이지는 대응하는 멀티채널 신호를 디지털 신호로서, 즉 샘플들의 시퀀스로서 생성하는 것이 바람직할 수도 있다. 예를 들어, 오디오 전처리 스테이지 (AP20) 는 대응하는 아날로그 채널을 샘플링하도록 각각 배열되는 아날로그-투-디지털 컨버터 (ADC) 들 (C10a 및 C10b) 을 포함한다. 음향 애플리케이션들에 대한 통상의 샘플링 레이트들은 8kHz, 12kHz, 16kHz 및 약 8 내지 약 16kHz 범위의 다른 주파수들을 포함하지만, 약 32, 44.1, 48 또는 192kHz 만큼 높은 샘플링 레이트들이 또한 사용될 수도 있다. 이 특정 예에서, 오디오 전처리 스테이지 (AP20) 는 또한 멀티채널 신호 (MCS10) 의 대응하는 채널들 (SI10, SI20) 을 생성하기 위해 대응하는 디지털화된 채널에 대해 하나 이상의 전처리 동작들 (예를 들어, 에코 제거, 잡음 감소 및/또는 스펙트럼 셰이핑) 을 수행하도록 각각 구성되는 디지털 전처리 스테이지들 (P20a 및 P20b) 을 포함한다. 도 8c 는 오디오 전처리 스테이지 (AP20) 가 대응하는 마이크로폰들 (ML10 및 MR10) 에 의해 생성된 신호들에 기초하여 오디오 입력 채널들 (SI10 및 SI20) 을 생성하도록 배열되는 일 예를 도시한다.

ANC 디바이스가 충분히 큰 경우에 (예를 들어, 헤드폰), 그 디바이스 내에 장치 (A100) 가 구현될 수도 있다. 다른 경우에는, 헤드 장착 ANC 디바이스 내에 장치 (A100) 의 일부 엘리먼트들을 구현하고 휴대용 프로세싱 디바이스 (PD10) 내에 장치 (A100) 의 다른 엘리먼트들을 구현하는 것이 바람직할 수도 있다. 이러한 프로세싱 디바이스의 예들은, 셀룰러 전화 핸드셋, 스마트폰, 또는 다른 모바일 통신 디바이스; 휴대 정보 단말기 (PDA) 또는 다른 핸드헬드 컴퓨팅 디바이스; 및 노트북 컴퓨터, 랩톱 컴퓨터, 넷북 컴퓨터, 태블릿 컴퓨터, 또는 다른 휴대용 컴퓨팅 디바이스를 제한 없이 포함한다. 도 7b 는 헤드 장착 ANC 디바이스 (예를 들어, 여기에 설명한 바와 같은 헤드셋, 이어컵, 또는 이어버드) 와 프로세싱 디바이스 (PD10) 간의 장치 (A100) 의 엘리먼트들의 이러한 분할의 하나의 예를 도시한다. 이 예에서, 장치 (A100) 의 부분 (A102A) (즉, ANC 필터 (AF10) 및 오디오 출력 스테이지 (AO10)) 은 ANC 디바이스 내에 구현되고, 장치 (A100) 의 부분 (A102B) (즉, AR 프로세싱 모듈 (AR10)) 은 PD10 내에 구현된다. 장치 (A100) 의 이 구현 및 다른 구현에서, AR 프로세싱 모듈 (AR10) 은 통상 디지털 도메인에서 구현되는 한편, ANC 필터 (AF10) 는 아날로그 도메인 또는 디지털 도메인에서 ANC 필터링을 수행하도록 구현될 수도 있으며, 마찬가지로 오디오 출력 스테이지 (A010) 는 아날로그 도메인 또는 디지털 도메인에서 출력 신호 (SO10) 를 생성하기 위해 신호들 (SG10 및 SA10) 을 결합하도록 구현될 수도 있다.

휴대용 프로세싱 디바이스 (PD10) 와 ANC 디바이스 간의 신호 (SG10) 와 채널들 (SI10 및 SI20) 의 통신은 유선 및/또는 무선 송신 채널을 통해 일어날 수도 있다. 이러한 통신 링크를 지원하는데 사용될 수도 있는 무선 방법들의 예들은 블루투스 (예를 들어, 워싱턴, 커클랜드 소재의 Bluetooth SIG, Inc. 의 [클래식 블루투스, 블루투스 고속, 및 블루투스 저에너지 프로토콜들을 포함하는] 블루투스 코어 사양 버전 4.0 에서 기술한 바와 같은 헤드셋 또는 다른 프로파일), 피넛 (Peanut) (캘리포니아, 샌디에고 소재의 퀄컴 인코포레이티드), 및 지그비 (ZigBee) (예를 들어, 캘리포니아, 샌 라몬 소재의 ZigBee Alliance 의 지그비 2007 사양 및/또는 지그비 RF4CE 사양에서 기술한 바와 같음) 와 같이 (예를 들어, 수 인치에서 수 피트까지의) 단거리 통신을 위한 저전력 무선 사양들을 포함한다. 이러한 디바이스들 간에 사용될 수도 있는 다른 무선 송신 채널들은 적외선 및 초음파와 같은 비무선 (non-radio) 채널들을 포함한다.

다른 예에서, 마이크로폰들 및 확성기는 하나 이상의 이어버드들 내에 구현된다. 도 9a 는 코디드 구현에서 확성기 (LLS10) 및 마이크로폰들 (ML10 및 ML20) 을 포함하는 이어버드 (EB10) 의 좌측 예를 도시한다. 이 예에서, 마이크로폰 (ML20) 은 마이크로폰 (ML10) 으로부터 약 3 내지 4 센티미터 떨어져 코드 (CD10) 의 반강성 케이블 부분 (CB10) 상에 장착된다. 반강성 케이블 (CB10) 은 마이크로폰 (ML20) 이 사용 중에 (예를 들어, 마이크로폰 (ML10) 에 대해) 비교적 일정한 방향으로 계속 배향되게 하기에 충분한 가요성 및 경량에 강성을 더한 것으로 것으로 구성될 수도 있다. 도 10a 는 마이크로폰 (ML20) 이 사용 중에 (예를 들어, 마이크로폰 (ML10) 에 대해) 비교적 일정한 포워드 방향으로 향하게 되도록 마이크로폰 (ML20) 이 이어버드에서 코드 (CD20) 의 스트레인-릴리프 부분 내에 장착되는 다른 이어버드 (EB20) 의 좌측 예의 측면도를 도시한다.

다른 예에서, 마이크로폰들 (ML10 및 MR10) 은 이어버드들의 쌍의 각각 내에 구현된다. 도 10b 는 좌측 확성기 (LLS10) 및 좌측 마이크로폰 (ML10) 을 포함하는 이어버드 (EB30) 의 일 예의 전면도를 도시한다. 사용 중에, 이어버드 (EB30) 는 (예를 들어, 코드 (CD30) 를 통해 수신된 오디오 출력 신호 (SO10) 의 인스턴스로부터) 좌측 확성기 (LLS10) 에 의해 생성된 음향 신호를 사용자의 이도 안으로 향하게 하기 위해 사용자의 왼쪽 귀에 착용된다. 사용자의 이도와의 밀봉을 형성하기 위해 편안하게 착용될 수도 있도록, 음향 신호를 사용자의 이도 안으로 향하게 하는 이어버드 (예를 들어, EB10, EB20, EB30) 의 부분은 탄성중합체 (예를 들어, 실리콘 고무) 와 같은 완충재 (resilient material) 로 이루어지거나 또는 그것에 의해 커버되는 것이 바람직할 수도 있다.

증강 현실 애플리케이션이 사용자의 귀를 통하여 신호를 통과시키는 경우에, ANC 헤드셋은 또한 (예를 들어, 바이노럴 큐 (binaural cue) 관점에서) 가장 높은-충실도 사운드들을 전달할 수도 있다. 도 9b 는 제 2 ANC 필터 (AF20) 및 제 2 오디오 출력 스테이지 (AO20) 를 포함하는 장치 (A100) 의 일 구현 (A200) 의 블록도를 도시한다. ANC 필터 (AF10) 의 제 2 인스턴스 (AF20) 는 제 2 오디오 입력 채널 (SI20) 에 기초하는 제 2 잡음방지 신호 (SA20) 를 생성하도록 구성되고, 오디오 출력 스테이지 (AO10) 의 제 2 인스턴스 (AO20) 는 제 2 오디오 출력 신호 (SO20) 를 생성하기 위해 증강된 신호 (SG10) 를 잡음방지 신호 (SA20) 와 결합하도록 구성된다.

장치 (A200) 를 포함하는 디바이스는 통상, 제 1 오디오 입력 신호 (SI10) 를 제공하고 오디오 출력 신호 (SO10) 에 의해 구동되도록 (예를 들어, 여기에 설명한 바와 같이 헤드셋, 이어컵 또는 이어버드 내에) 사용자의 한쪽 귀에 착용되는 마이크로폰 및 확성기를 각각 포함하고, 제 2 오디오 입력 신호 (SI20) 를 제공하고 오디오 출력 신호 (SO20) 에 의해 구동되도록 (예를 들어, 여기에 설명한 바와 같이 다른 헤드셋, 이어컵, 또는 이어버드 내에) 사용자의 다른 쪽 귀에 착용되는 다른 마이크로폰 및 확성기를 각각 포함하도록 구성된다. 예를 들어, 장치 (A200) 는 여기에 설명한 바와 같이 헤드셋들, 이어컵들 (예를 들어, 헤드폰들), 또는 이어버드들의 쌍 중 하나 또는 양자 내에 및/또는 휴대용 프로세싱 디바이스 (PD10) 의 인스턴스 내에 구현될 수도 있다. 장치 (A200) 가 무선 헤드셋들의 쌍에 구현되는 경우에, 이러한 헤드셋들은 각각의 오디오 입력 및 출력 신호들을 디바이스 (PD10) 와, 및/또는 여기에 설명된 임의의 무선 채널들을 이용하여 서로 전달하도록 구성될 수도 있다.

장치 (A100) 는 적어도 2 개의 마이크로폰들로부터 오디오 입력 신호들을 수신하도록 구현되지만, 2 개 보다 더 많은 마이크로폰들이 사용된다면 더 나은 성능 (예를 들어, 증가된 방향적 선택성) 이 예상될 수도 있다. 도 11 은 AR 프로세싱 모듈 (AR10) 의 일 구현 (AR12) 을 포함하는 장치 (A200) 의 일 구현 (A210) 의 블록도를 도시한다. 이 예에서, 모듈 (AR12) 은 소스 컴포넌트를 백그라운드 컴포넌트로부터 분리하기 위해 오디오 입력 채널들 (SI10, SI20, 및 SI30) 에 대해 공간 선택적 프로세싱 동작을 수행하도록 구성된다. 오디오 입력 채널 (SI3O) 은 헤드 장착 마이크로폰 배치들의 다양한 예들을 참조하여 여기에 설명한 바와 같이 추가적인 마이크로폰 (ML20, MR20 또는 MC10) 에 의해 생성된 신호에 기초할 수도 있다. AR 프로세싱 모듈 (AR10) 은 4 개, 5 개 또는 임의적으로 더 큰 수의 오디오 입력 채널들을 프로세싱하는 그러한 방식으로 유사하게 확장될 수도 있다는 것이 이해될 것이다.

도 10c 는 마이크로폰들 (ML10, MR10) 및 대응하는 좌측 및 우측 확성기들 (미도시) 을 캐리하는 이어버드들이 코드 (CD40) 를 통해 휴대용 미디어 플레이어 (PD20) 인 휴대용 프로세싱 디바이스 (PD10) 의 일 구현으로 오디오 입력 신호들 (SI10, SI20, SI30) 을 전달하고, 그로부터 오디오 출력 신호들 (SO10, SO20) 을 전달하도록 구현되는 사용 케이스를 도시한다. 이 경우, 제 3 오디오 입력 신호 (SI30) 는 코드 장착 마이크로폰 (ML20) 에 의해 생성된 신호에 기초한다.

도 12a 내지 도 12e 는 여기에 설명한 바와 같이 마이크로폰들 및/또는 확성기를 캐리하는데 사용될 수도 있는 디바이스들의 추가적인 예들을 도시한다. 도 12a 는 안경다리 상에 장착된 바이노럴 쌍 (binaural pair) (ML10, MR10) 의 각각의 마이크로폰 및 안경다리 또는 대응하는 단부 피스 상에 장착된 다른 마이크로폰 (MR20) 을 갖는 안경 (예를 들어, 맞춤 안경, 선글라스, 또는 보안경) 을 도시한다. 도 12b 는 마이크로폰 (MC10) 이 사용자의 얼굴 전면에 (예를 들어, 사용자의 입에) 장착되고 바이노럴 쌍 (ML10, MR10) 의 각각의 마이크로폰이 사용자의 머리의 대응하는 측면에 장착되는 헬멧을 도시한다. 도 12c 내지 도 12e 는 바이노럴 쌍 (ML10, MR10) 의 각각의 마이크로폰이 사용자의 머리의 대응하는 측면에 장착되는 고글 (예를 들어, 스키 고글) 의 예들을 도시하며, 여기서 이들 예들 각각은 추가적인 마이크로폰 (MC10) 에 대해 상이한 대응하는 로케이션을 도시한다. 여기에 설명한 바와 같이 장치 (A100) 의 일 구현에 사용하기 위한 마이크로폰들에 대한 배치들의 추가적인 예들은 모자 (cap 또는 hat) 의 챙 (visor 또는 brim); 옷깃, 가슴 주머니, 또는 어깨를 포함하지만 이들에 제한되지는 않는다.

능동 잡음 제거 필터 (AF10) 는 제 1 입력 오디오 채널 (SI10) 을 수신하고 대응하는 잡음방지 신호 (SA10) 를 생성하기 위해 능동 잡음 제거 동작을 수행하도록 구성된다. 통상, 음향 잡음의 진폭과 매칭되고 음향 잡음의 위상과 반대가 되는 잡음방지 신호 (SA10) 를 발생시키도록 ANC 필터 (AF10) 를 구성하는 것이 바람직하다. 필터 (AF10) 는 또한 최적의 잡음 제거를 달성하기 위해 신호 프로세싱 동작들 (예를 들어, 시간 지연 매칭 또는 최소화, 이득 증폭 및/또는 주파수 응답 등화) 을 수행할 수도 있다. 신호를 고역통과 필터링 (예를 들어, 고진폭, 저주파수 음향 신호들을 감쇄) 하도록 ANC 필터 (AF10) 를 구성하는 것이 바람직할 수도 있다. 추가적으로 또는 대안적으로, (예를 들어, ANC 효과가 고주파수에서 주파수에 따라 줄어들도록) 신호를 저역통과 필터링하도록 ANC 필터 (AF10) 를 구성하는 것이 바람직할 수도 있다. 잡음방지 신호 (SA10) 는 음향 잡음이 마이크로폰으로부터 확성기로 이동할 때까지는 이용가능해야 하기 때문에, ANC 필터 (AF10) 에 의해 야기된 프로세싱 지연은 매우 짧은 시간 (통상 약 30 내지 60 마이크로초) 을 초과하지 않아야 한다.

필터 (AF10) 는 아날로그 도메인에서 및/또는 디지털 도메인에서, 그리고 시간 도메인에서 및/또는 변환 도메인 (예를 들어, 푸리에 변환 또는 다른 주파수 도메인) 에서 ANC 동작을 수행하도록 구성될 수도 있다. 잡음방지 신호 (SA10) 를 생성하기 위해 ANC 필터 (AF10) 에 의해 수행될 수도 있는 ANC 동작들의 예들은 위상-반전 (phase-inverting) 필터링 동작, 최소 제곱 평균 (least mean squares; LMS) 필터링 동작 (예를 들어, 미국 특허출원공보 제2006/0069566호 (Nadjar 등) 에서 기술한 바와 같은, 필터링된-참조 ("필터링된-x") LMS 등) 및 (예를 들어, 미국 특허 제5,105,377호 (Ziegler) 에서 기술한 바와 같은) 디지털 가상 지구 알고리즘 (digital virtual earth algorithm) 을 포함한다. ANC 필터 (AF10) 에 의해 수행될 수도 있는 LMS 필터링 동작들의 다른 예들은 필터링된-에러 ("필터링된-E") LMS, 필터링된-U LMS, 및 다른 변형들 (예를 들어, 서브대역 LMS, 스텝-사이즈-정규화된 LMS 등) 을 포함한다.

디지털 도메인에서 매우 낮은 레이턴시 (예를 들어, 10 마이크로초 정도) 를 획득하기 위해, 펄스 밀도 변조 (pulse density modulation; PDM) 도메인에서 ANC 필터링을 수행하고, 이 PDM 필터의 계수들을 펄스-코드 변조 (pulse-code modulation; PCM) 도메인에서 실행하는 알고리즘을 이용하여 적응시키도록 ANC 필터 (AF10) 를 구현하는 것이 바람직할 수도 있다. 이러한 경우에, PDM 도메인은 낮은 해상도 (예를 들어, 1, 2 또는 4 비트의 비트 폭) 및 매우 높은 샘플링 레이트 (예를 들어, 100kHz, 1MHz 또는 심지어 10MHz 정도) 를 갖고, PCM 도메인은 더 높은 해상도 (예를 들어, 8, 10, 12 또는 16 비트 또는 그 이상의 비트 폭) 및 더 낮은 클록 레이트 (1 또는 10kHz, 이를 테면, 8, 12, 16, 32, 44.1 또는 48kHz 정도) 를 갖는다. PDM 필터링은 필드 프로그램가능 게이트 어레이 (field-programmable gate array; FPGA), 주문형 집적 회로 (application-specific integrated circuit; ASIC), 또는 특정 용도 표준 제품 (application-specific standard product; ASSP) 과 같이, 디지털 하드웨어에 의해 수행될 수도 있다. PCM 적응은 소프트웨어 (예를 들어, DSP 와 같이 프로세서에 의한 실행을 위한 명령들) 를 이용하여 PCM 도메인에서 적응적 ANC 알고리즘의 구현을 이용하여 수행될 수도 있다. 이러한 ANC 필터 (AF10) 의 구현의 예들은 예를 들어, 2011년 1월 13일자로 공개된 발명의 명칭이 "SYSTEMS, METHODS, APPARATUS, AND COMPUTER-READABLE MEDIA FOR ADAPTIVE ACTIVE NOISE CANCELLATION" 인 미국 특허출원공보 제2011/0007907호에 기술되어 있다 (ANC 필터 (AF20) 는 여기에 설명한 바와 같이 ANC 필터 (AF10) 의 제 2 인스턴스로서 유사하게 구현될 수도 있다는 것에 주목하게 된다).

증강 현실 프로세싱 모듈 (AR10) 은 증강된 신호 (SG10) 를 생성하기 위해 제 1 오디오 입력 채널 (SI10) 및 제 2 오디오 입력 채널 (SI20) 을 포함하는 멀티채널 신호를 프로세싱하도록 구성된다. 도 13a 는 공간 선택적 프로세싱 (spatially selective processing; SSP) 모듈 (SM10) 및 증강 모듈 (AM10) 을 포함하는 모듈 (AR10) 의 일 구현 (AR20) 의 블록도를 도시한다.

공간 선택적 프로세싱 (SSP) 모듈 (SM10) 은 멀티채널 신호의 소스 컴포넌트 (SC10) 를 백그라운드 컴포넌트로부터 분리하기 위해 멀티채널 신호에 대해 SSP 동작을 수행하도록 구성된 SSP 필터를 포함하도록 구성된다. 이러한 SSP 동작은 예를 들어, 오디오 입력 채널들 간의 위상 차이들 및/또는 이득 차이들에 기초할 수도 있다. 예를 들어, 마이크로폰 어레이의 축에 가까운 근처 소스들로부터의 사운드들은 이득 차이에 기초하여 백그라운드 컴포넌트 (예를 들어, 거리 소스들로부터의 사운드들 및 확산 사운드들) 와 구별될 수도 있다. 하나의 예에서, SSP 필터는 임계값을 충족하는 (대안적으로, 초과하는) 채널들 간의 이득 차이를 갖는 프레임들이 다른 프레임들로부터 분리되도록 하는 근접성 (proximity) 에 기초하여 소스 컴포넌트를 분리하도록 구현된다. 이러한 경우에, 각각의 채널에 대한 프레임의 이득은 샘플 당 총 에너지 (예를 들어, 제곱 합 샘플들) 또는 평균 에너지로서 시간 도메인에서, 또는 예를 들어, 제곱 합 매그니튜드들에 기초하여 주파수 도메인에서 계산될 수도 있다.

채널들 간의 이득 차이는 또한 (즉, 마이크로폰 어레이의 축에 대해) 원하는 범위의 방향들로부터 도달하는 신호들을 백그라운드 컴포넌트 (예를 들어, 다른 방향들로부터 도달하는 사운드들) 로부터 분리하는데 사용될 수도 있다. 도 14a 는 SSP 필터가 3 개의 공간 섹터들 (즉, 엔드파이어 섹터 1, 브로드사이드 섹터 2 및 엔드파이어 섹터 3) 중에서 원하는 섹터로부터 도달하는 신호들을 다른 신호들로부터 분리하기 위해 멀티채널 신호의 프레임 n 에 대한 이득 차이 (GD[n]) 와 이득 차이 임계값 (T_L) 간의 관계의 상태를 이용하는 일 예를 도시한다. 도 14b 는 5 개의 공간 섹터들 중에서 원하는 섹터로부터 도달하는 신호들을 선택하기 위해, 이득 차이 (GD[n]) 와 제 1 이득 차이 임계값 (T_L1) 간의 관계의 상태, 및 이득 차이 (GD[n]) 와 제 2 이득 차이 임계값 (T_L2) 간의 관계의 상태를 이용하는 일 예를 도시한다. 도 15 는 무선 헤드셋 (HS10) 및 단일의 마이크로폰 헤드셋 (HS30) 을 포함하는 일 구현에서 다중 선택가능한 공간 섹터들의 다른 예의 상부도를 도시한다.

채널들 간의 위상 차이가 또한 원하는 범위의 방향들로부터 도달하는 신호들을 백그라운드 컴포넌트 (예를 들어, 다른 방향들로부터 도달하는 사운드들) 로부터 분리하는데 사용될 수도 있다. 이러한 경우에, 멀티채널 신호에서의 위상 차이가 원하는 범위 내에 있는 도달 방향을 나타내는 그 주파수 빈들만을 통과시킴으로써 오디오 입력 채널들 중 하나 이상으로부터 공간 분리된 소스 컴포넌트를 생성하도록 SSP 필터를 구성하는 것이 바람직할 수도 있다.

멀티채널 신호의 "방향적 코히어런스 (directional coherence)" 는 신호의 다양한 주파수 컴포넌트들이 동일한 방향으로부터 도달하는 디그리 (degree) 로서 정의된다. 이상적인 방향적 코히어런스 채널 쌍의 경우, 주파수에 대한 위상 차이의 비율의 값은 모든 주파수들에 대해 상수 k 와 동일하며, 여기서 k 의 값은 도달 방향 θ 및 도달 시간 지연 τ 과 관련된다. 다른 예에서, SSP 필터는 원하는 범위의 방향들 내에 충분히 방향적 코히어런스인 프레임들을 통과시키도록 구성된다.

SSP 모듈 (SM10) 내의 SSP 필터에 의해 수행될 수도 있는 방향 선택적 SSP 동작들의 다른 예들은 빔포밍 및 블라인드 소스 분리 (blind source separation; BSS) 를 포함한다. 대응하는 방향들에서 컴포넌트들을 선택하기 위해 하나 이상의 필터들을 발생시키는데 사용될 수도 있는 빔포밍 접근법들의 예들은 GSC (generalized sidelobe cancellation), MVDR (minimum variance distortionless response), 및 LCMV (linearly constrained minimum variance) 빔포머들을 포함한다. BSS 방법들의 예들은 ICA (independent component analysis) 및 IVA (independent vector analysis) 를 포함하며, 이들은 널 빔들을 간섭 포인트 소스들을 향하여 스티어링함으로써 동작한다.

SSP 필터는 고정된 방향에서 공간 선택적 프로세싱 동작을 적용 (예를 들어, 사용자의 포워드 방향으로부터 도달하는 신호들을 다른 방향들로부터 도달하는 신호들을 포함하는 백그라운드 컴포넌트로부터 분리) 하도록 구성될 수도 있다. 대안적으로, 원하는 도달 방향은 예를 들어, 디바이스 (PD10) 의 사용자 인터페이스 (예를 들어, 터치스크린 디스플레이) 를 통해 사용자에 의해 선택되거나 또는 그렇지 않으면 표시될 수도 있다. 이러한 경우에, 디바이스의 헤드 장착 부분은, SSP 필터가 사용자의 머리가 돌아가는 것처럼 (지구의 중력장 및 자기장과 같은 고정된 외부 참조에 대해) 선택된 방향을 유지하도록 적응시키도록 구성될 수도 있도록, 사용자의 머리의 회전을 추적하도록 구성된 하나 이상의 자력계들, 자이로스코프들, 및/또는 가속도계들을 포함하는 것이 바람직할 수도 있다. 이러한 적응은 예를 들어, 상이한 이득 차이 임계값 관계를 선택하고, 주파수에 대한 위상 차이의 상이한 비율을 선택하며, 또는 상이한 대응하는 방향들로 배향된 빔포밍 필터들의 세트 중에서 상이한 것을 선택함으로써 상이한 공간 섹터를 선택하는 것을 포함할 수도 있다.

SSP 필터에 의해 수행한 바와 같이 공간 도메인에서의 소스 컴포넌트의 분리에 더하여, 하나 이상의 다른 도메인들에서도 소스 컴포넌트를 분리하도록 SSP 모듈 (SM10) 을 구현하는 것이 바람직할 수도 있다. 도 13c 는 여기에 설명한 바와 같은 SSP 필터 (SF10) 및 도메인 선택적 필터 (DF10) 를 포함하는 SSP 모듈 (SM10) 의 일 구현 (SM20) 의 블록도를 도시한다. 필터 (DF10) 는 SSP 필터 (SF10) 에 의해 생성된 공간 분리된 소스 컴포넌트를, 그것을 하나 이상의 추가적인 도메인들에서 분리하기 위하여 프로세싱하도록 구성된다. 하나의 예에서, 필터 (DF10) 는 스피치-액티브 프레임들을 (예를 들어, 시간 도메인에서) 스피치-인액티브 프레임들로부터 분리하기 위해 공간 분리된 소스 컴포넌트에 대해 보이스 활동 검출 (voice activity detection; VAD) 동작을 수행하도록 구현된다.

이러한 VAD 동작은 프레임 에너지, 신호-대-잡음비, 주기성, 스피치 및/또는 잔여물 (residual) (예를 들어, 선형 예측 코딩 잔여물) 의 자기 상관, 제로 크로싱 레이트, 및/또는 제 1 반사 계수와 같은 하나 이상의 팩터들에 기초할 수도 있다. 이러한 분류는 이러한 팩터의 값 또는 매그니튜드를 임계값과 비교하는 것 및/또는 이러한 팩터의 변화의 매그니튜드를 임계값과 비교하는 것을 포함할 수도 있다. 대안적으로 또는 추가적으로, 이러한 분류는 하나의 주파수 대역에서의 에너지와 같은 이러한 팩터의 값 또는 매그니튜드, 또는 이러한 팩터의 변화의 매그니튜드를 다른 주파수 대역에서의 유사한 값과 비교하는 것을 포함할 수도 있다. 다중 기준 (예를 들어, 에너지, 제로-크로싱 레이트 등) 및/또는 최근 VAD 결정들의 메모리에 기초하여 보이스 활동 검출을 수행하도록 필터 (DF10) 를 구현하는 것이 바람직하다. 필터 (DF10) 에 의해 수행될 수도 있는 보이스 활동 검출 동작의 하나의 예는 예를 들어, 2007년 1월, "Enhanced Variable Rate Codec, Speech Service Options 3, 68 and 70 for Wideband Spread Spectrum Digital Systems" 의 명칭인 3GPP2 문헌 C.S0014-C, v1.0 의 섹션 4.7 (페이지 4-49 내지 4-57) (www-dot-3gpp-dot-org 에서 온라인 입수가능) 에서 기술한 바와 같이 공간 분리된 소스 컴포넌트의 고대역 및 저대역 에너지들을 각각의 임계값들과 비교하는 것을 포함한다.

추가적으로 또는 대안적으로, 필터 (DF10) 는 LPC 및/또는 시간 도메인에서 스피치 콘텐츠의 분리를 지원하기 위해 공간 분리된 소스 컴포넌트에 대해 선형 예측 코딩 (LPC) 분석 동작을 수행하도록 구현될 수도 있다. 하나의 이러한 예에서, 필터 (DF10) 는 예를 들어, 포먼트 구조 (formant structure) (예를 들어, 너무 좁지 않고/않거나 너무 넓지 않은 대역폭) 및/또는 스펙트럼 틸트에 기초하여 다른 콘텐츠로부터 스피치 프레임들을 분리하도록 구현된다. 다른 예에서, 필터 (DF10) 는 LPC 잔여물로부터 피치 주파수 추정치를 계산하고 표시된 피치 주파수 범위에 기초하여 다른 콘텐츠로부터 특정 스피치 프레임들을 분리하도록 (예를 들어, 남성 화자로부터의 스피치만을 선택하거나, 여성 화자로부터의 스피치만을 선택하거나, 또는 유아로부터의 울음 또는 다른 발성 (vocalization) 들만을 선택하도록) 구현될 수도 있다. 이러한 선택은 사용자에 의해 (예를 들어, 디바이스 (PD10) 의 사용자 인터페이스를 통해) 표시될 수도 있다. 피치 추정 절차는 예를 들어, www-dot-3gpp-dot-org 에서 온라인 입수가능한 EVRC (Enhanced Variable Rate Codec) 문헌 C.S0014-C 의 섹션 4.6.3 (페이지 4-44 내지 4-49) 에서 기술된다. 이러한 LPC 분석은 또한 특정인으로부터의 스피치 프레임들을 다른 스피치 콘텐츠로부터 분리하는데 사용될 수도 있다.

추가적으로 또는 대안적으로, 필터 (DF10) 는 표시된 음성 언어 (spoken language) 에서 스피치 콘텐츠만 (예를 들어, 영어만, 또는 한국어만) 을 분리하기 위해 공간 분리된 소스 컴포넌트를 프로세싱함으로써 소스 컴포넌트 (SC10) 를 생성하도록 구현될 수도 있다. 선택될 언어는 사용자에 의해 (예를 들어, 디바이스 (PD10) 의 사용자 인터페이스를 통해) 표시될 수도 있다. 예를 들어, 필터 (DF10) 는 표시된 언어에 콘텐츠를 포함할 가능성이 있는 분리된 소스 컴포넌트의 프레임들을 식별하기 위해 HMM (hidden Markov model) 프로세싱을 이용하도록 구현될 수도 있다.

증강 모듈 (AM10) 은 타겟 컴포넌트를 생성하고 타겟 컴포넌트에 기초하는 증강된 신호 (SG10) 를 생성하기 위해 소스 컴포넌트 (SC10) 에 대해 증강 동작을 수행하도록 구성된다. 도 13b 는 증강된 신호 (SG10) 로서 타겟 컴포넌트 (TC10) 를 출력하도록 구성되는 증강 모듈 (AM10) 의 일 구현 (AM20) 의 블록도를 도시한다. 증강 모듈 (AM20) 은 소스 컴포넌트 (SC10) 의 지각가능성을 증가시킴으로써 타겟 컴포넌트 (TC10) 를 생성하기 위해 소스 컴포넌트 (SC10) 를 프로세싱하도록 구성되는 소스 프로세싱 모듈 (PM10) 을 포함한다.

소스 컴포넌트 (SC10) 의 지각가능성을 증가시키기 위해 소스 프로세싱 모듈 (PM10) 에 의해 수행될 수도 있는 동작들의 예들은 증폭, 등화, 잔향제거, 잡음 감소, 스피치 속도 변경 및 스피치 피치 시프팅을 제한 없이 포함한다. 이러한 동작들은 사용자에 의해, 예를 들어, 디바이스 (PD10) 의 사용자 인터페이스 (예를 들어, 터치스크린 디스플레이) 를 통해 선택 및/또는 구성될 수도 있다.

소스 프로세싱 모듈 (PM10) 은 추정된 실내 전달 함수 (room transfer function) 를 이용하여 컴포넌트를 인버스 필터링함으로써 소스 컴포넌트 (SC10) 를 잔향제거하도록 구현될 수도 있다. 소스 컴포넌트 (SC10) 를 화이트닝하지 않고 이러한 인버스 필터링을 수행하는 것이 바람직할 수도 있다. 하나의 예에서, 소스 컴포넌트 (SC10) 가 공간적으로 분리되는 백그라운드 컴포넌트는 반전된 실내 전달 함수를 추정하는데 사용된다.

소스 프로세싱 모듈 (PM10) 은 사용자의 선호도에 따라 소스 컴포넌트 (SC10) 를 등화하고 및/또는 사용자의 난청을 보완 (예를 들어, 고주파수들을 부스팅) 하도록 구현될 수도 있다. 다른 예에서, 소스 프로세싱 모듈 (PM10) 은 소스 컴포넌트 (SC10) 의 저주파수 컨텐츠를 고조파로 확장함으로써 PBE (psychoacoustic bass enhancement) 동작을 수행하도록 구현된다. 이러한 동작은 저주파수 콘텐츠의 지각가능성 및/또는 방향성을 강화할 수도 있다.

소스 프로세싱 모듈 (PM10) 은 소스 컴포넌트 (SC10) 에 대해 잡음 감소 동작을 수행하도록 구현될 수도 있다. 이러한 동작은 예를 들어, 넌-스피치 간격 동안의 소스 컴포넌트 (SC10) 의 레벨 및/또는 소스 컴포넌트 (SC10) 로부터의 잡음 추정치의 스펙트럼 차감을 감소시키는 것을 포함할 수도 있으며, 여기서 잡음 추정치는 넌-스피치 간격들에 대한 시간 평균으로서 및/또는 넌-스피치 방향으로부터 도달하는 컴포넌트 (예를 들어, 소스 컴포넌트 (SC10) 가 공간적으로 분리되는 백그라운드 컴포넌트) 의 스펙트럼에 기초하여 주파수 도메인에서 계산된다.

소스 프로세싱 모듈 (PM10) 은 소스 컴포넌트 (SC10) 에 대해 스피치 속도 변경 동작을 수행하도록 구현될 수도 있다. 시간 단위로 스피치 신호를 팽창 또는 압축함으로써 수행되는 이러한 동작은 통상 스피치 콘텐츠의 속도를 슬로잉하는데 사용되고, 통상 잔여물로부터 포먼트 구조를 분리하기 위한 LPC 분석 동작을 포함하며, 이는 피치 정보를 제공한다. 소스 프로세싱 모듈 (PM10) 은 각각의 프레임의 길이를 확장하고, 피치 주기들을 유성 스피치 세그먼트들에 삽입하고 유사하게 무성 스피치 세그먼트들을 (예를 들어, 랜덤 여기 신호를 이용하여) 확장하며, LPC 합성 동작을 수행하여 원하는 속도에서 스피치 콘텐츠를 재생함으로써 이러한 슬로잉을 수행하도록 구현될 수도 있다. 이러한 슬로잉은 또한 사일런스 주기들을 시간-연장된 스피치 콘텐츠로 대체하는 것을 포함할 수도 있다. 이러한 스피치 속도 변경 동작은 속도 변경 팩터 (예를 들어, 0.7, 0.75, 0.8, 0.9, 1.1, 1.2, 1.25, 1.3 등) 를 선택함으로써 사용자에 의해 구성될 수도 있다.

소스 프로세싱 모듈 (PM10) 은 스피치 콘텐츠의 피치 주파수를 변경하기 위해 소스 컴포넌트 (SC10) 에 대해 스피치 피치 시프팅 동작을 수행하도록 구현될 수도 있다. 소스 프로세싱 모듈 (PM10) 은 피치 정보를 추출하기 위해 LPC 분석 동작을 수행하고, 프레임의 길이를 변경하지 않고 잔여 신호를 압축 또는 팽창하며, LPC 합성 동작을 수행하여 원하는 피치에 따라 스피치 콘텐츠를 재생함으로써 이러한 동작을 수행하도록 구현될 수도 있다. 이러한 스피치 속도 변경 동작은 원하는 피치 범위 또는 피치 변경 팩터 (예를 들어, 0.5, 0.7 또는 0.8 내지 1.2, 1.4, 1.5, 1.7 또는 2 의 범위) 를 선택함으로써 사용자에 의해 구성될 수도 있다.

증강 모듈 (AM10) (또는 AM20) 은 증강된 신호 (SG10) 의 동적 범위를 압축하도록 배열되는 자동 이득 제어 (automatic gain control; AGC) 모듈을 포함하도록 구성될 수도 있다. 이러한 모듈은 헤드룸 정의 및/또는 마스터 볼륨 설정을 제공하도록 구성될 수도 있다. 대안적으로 또는 추가적으로, 증강 모듈 (AM10) (또는 AM20) 은 증강된 신호 (SG10) 의 레벨을 제한하도록 배열되는 피크 제한기를 포함하도록 구성될 수도 있다.

오디오 출력 스테이지 (AO10) 는 오디오 출력 신호 (SO10) 를 생성하기 위해 잡음방지 신호 (SA10) 와 증강된 신호 (SG10) 를 결합하도록 구성된다. 예를 들어, 오디오 출력 스테이지 (AO10) 는 잡음방지 신호 (SA10) 를 증강된 신호 (SG10) 와 믹싱함으로써 오디오 출력 신호 (SO10) 를 생성하도록 구성되는 믹서로서 구현될 수도 있다. 오디오 출력 스테이지 (SO10) 는 또한 잡음방지 신호 (SA10), 증강된 신호 (SG10), 또는 2 개의 신호들의 혼합물을 디지털 형태로부터 아날로그 형태로 컨버팅함으로써 및/또는 이러한 신호에 대해 임의의 다른 원하는 오디오 프로세싱 동작 (예를 들어, 이러한 신호의 레벨을 필터링, 이러한 신호의 레벨을 증폭, 이러한 신호의 레벨에 이득 팩터를 적용, 및/또는 이러한 신호의 레벨을 제어) 을 수행함으로써 오디오 출력 신호 (SO10) 를 생성하도록 구성될 수도 있다. 오디오 출력 스테이지 (AO10) 는 또한 확성기에 대한 임피던스 매칭, 확성기로 이어지는 오디오-주파수 송신 경로, 및/또는 오디오 출력 신호 (SO10) 를 수신 또는 전달하도록 배열되는 다른 전기, 광, 또는 자기 인터페이스 (예를 들어, 오디오 출력 잭, 또는 무선 송신 회로에 대한 인터페이스) 를 제공하도록 구성될 수도 있다.

바이노럴 오디오 출력을 생성하기 위해 증강된 신호 (SG10) 에 대해 SSP 동작을 수행하도록 AR 프로세싱 모듈 (AR10) 을 구현 (예를 들어, 증강 모듈 (AM10 또는 AM20) 을 구현) 하는 것이 바람직할 수도 있다. 예를 들어, 소스 컴포넌트의 오리지널 방향과 비슷한 지각된 도달 방향을 제공하기 위해 스테레오 신호로서 증강된 신호 (SG10) 를 생성하는 것이 바람직할 수도 있다. 이러한 구성은 (예를 들어, 시각적으로 지각된 바와 같이) 실제 환경에 대응하는 바이노럴 큐를 생성함으로써 사용자의 증강 현실 경험을 강화할 수도 있다. 도 14c 는 AR 프로세싱 모듈 (AR12) 의 이러한 구현 (AR14) 을 포함하는 장치 (A210) 의 일 구현 (A220) 의 블록도를 도시한다. 이러한 경우에, AR 프로세싱 모듈 (AR14) 은 멀티채널 입력 신호로부터 (예를 들어, 여기에 설명한 바와 같이) 획득된 유사한 방향적 정보에 기초하여, 채널들 (SG10a 및 SG10b) 의 스테레오 쌍으로서 증강된 신호 (SG10) 를 생성하기 위해 빔포밍 또는 이득 차이 (예를 들어, 밸런스 제어) 동작을 수행하는 증강 모듈 (AM10) (또는 AM20) 의 일 구현을 포함할 수도 있다.

방법 (M100) 의 일 구현에 대한 사용 케이스들은 멀티채널 신호의 소스 컴포넌트의 지각가능성을 증가시키기 위해 많은 값비싼 애플리케이션들을 포함할 수도 있다. 한가지 이러한 애플리케이션은 구어적으로 "바이오닉 이어" 로 지칭될 수도 있는 방향 선택적 증폭이다. 다른 이러한 애플리케이션은 수신된 스피치 신호의 예를 들어, 번역, 슬로잉, 등화 및/또는 증폭된 버전으로의 라이브 대체이다. 분리된 소스 컴포넌트의 지각가능성을 증가시킴으로써 증강된 신호를 생성하기 위한 캡처된 환경적 사운드들의 (즉, 헤드셋에 의한 또는 헤드셋이 커플링되는 프로세싱 디바이스에 의한) 프로세싱은 : 소스들 또는 도달 방향에 의해 캡처된 사운드들을 분리하는 동작; 하나 이상의 기준 (예를 들어, 방향, 거리, 스피치 인식, 사운드 분류) 에 따라 관심 소스들을 식별하는 동작; 분리된 스트림을 강화, 변환, 차단, 통과 또는 그렇지 않으면 변경하는 동작; 및/또는 선택된 스트림에 대해 유용한 신호 프로세싱 (예를 들어, 개인화된 등화, 슬로잉 스피치, 피치 시프팅 및/또는 언어 번역) 을 적용하는 동작 중 하나 이상을 포함할 수도 있다. 이러한 프로세싱은 또한 프로세싱된 사운드들을 믹싱하고 결과의 증강된 신호를 사용자의 귀에 플레이하는 것을 포함할 수도 있다.

"바이오닉 이어" 애플리케이션에서, 장치 (A100) 의 사용자는 환경으로부터의 특정 사운드들이 더 지각가능해지는 한편 다른 사운드들은 차단되고/되거나 훨씬 덜 지각가능하게 된다는 것을 지각한다. 도 16a 및 도 16b 는 방법 (M100) 의 일 구현이 "바이오닉 이어" 애플리케이션을 지원하도록 수행되는 일 예를 도시한다. 도 16a 는, 실제 환경에서 이러한 예로 일어나는 것을 도시한다 : "할머니 여기로 와주실 수 있어요?" 화자 B 가 묻고, 사용자 A 는 다른 방향들로부터 도달하는 사운드들의 간섭으로 인해 화자 B 의 스피치를 들을 수 없거나 이해할 수 없다.

도 16b 는 사용자 A 가 증강 현실로 동일한 시나리오에서 듣는 것 : 다른 음들이 감쇄되는 상태로 증폭된 버전의 화자 B 의 요청을 도시한다. 이 예에서, ANC 필터 (AF10) 는 환경적 사운드들을 차단하고, AR 프로세싱 모듈 (AR10) 은 하나 이상의 특정 소스들 또는 방향들로부터의 사운드들을 분리하기 위해 멀티-마이크로폰 공간 선택적 프로세싱을 수행한다. 이러한 기법은 특정 소스 (화자 B) 로부터의 사운드들을 사용자 A 의 귀로 증폭시키지만, 일반적인 환경적 사운드들이 사용자 A 의 귀로 통과되는 것을 차단함으로써 도 19 에 도시한 바와 같은 공간 오디오 이득 패턴을 획득하는데 사용될 수도 있다. 그 결과는, 사용자 A 가 ANC 디바이스의 확성기를 통하여 프로세싱 및 플레이되는, 특정 소스 (또는 방향) 로부터의 사운드들을 제외한 적은 환경적 사운드를 듣는 것이다. 이러한 "바이오닉 이어" 애플리케이션에 대한 다른 사용 케이스들은 주변 잡음을 억제하면서 실시간으로 선생님 또는 강사의 보이스를 증폭시키는 것을 포함한다.

도 17a 는 아무것도 착용하지 않은 귀 (bare ear) 를 가진 사용자 A 에 대한 지각된 사운드 이득의 공간 패턴의 일 예를 도시한다. 이 예에서, 이득 1 은 정상 청력 상태와 등가이다. 도 17b 는 여기에 설명한 바와 같이 ANC 디바이스의 바이노럴 구현 (예를 들어, 장치 (A200) 의 일 구현에 따른 헤드셋들, 헤드폰들, 또는 이어버드들의 쌍) 을 이용한 사용자 A 에 대한 지각된 사운드 이득의 공간 패턴의 일 예를 도시한다. 이 도면은 ANC 필터들 (AF10 및 AF20) 을 이용하여 생성한 바와 같은 공간 오디오 이득 패턴의 일 예를 도시하며, 여기서 주변 환경의 지각된 이득은 사용자의 귀에서 감소된다.

도 18a 는 태스크 (T200) 의 멀티-마이크로폰 신호 프로세싱 동작의 방향 선택적 구현에 의해 생성한 바와 같은 분리된 소스 컴포넌트에 대한 지각된 오디오 이득의 공간 패턴의 일 예를 도시한다. 이 예에서, 사용자의 정면 방향으로부터 도달하는 사운드는 정상 이득에 의해 통과되는 한편, 다른 방향들로부터 도달하는 사운드들은 차단된다. 도 18b 는 사운드 컴포넌트를 증폭시킴으로써 생성되는 타겟 컴포넌트에 대한 지각된 오디오 이득의 공간 패턴의 일 예를 도시한다.

이 "바이오닉 이어" 예에서, ANC 참조 마이크로폰을 포함하는 마이크로폰 어레이는 환경적 사운드 X (= 화자 B 의 스피치 Y + 다른 방향 및 확산 환경적 사운드 Z) 를 선정하고, 오디오 입력 신호들 (SI10 및 SI20) 을 생성한다. AR 프로세싱 모듈 (AR10) 은 스피치 컴포넌트 Y (즉, 소스 컴포넌트 (SC10)) 를 다른 사운드 컴포넌트 Z 로부터 분리하기 위해 멀티-마이크로폰 공간 선택적 프로세싱을 수행한다. AR 프로세싱 모듈 (AR10) 은 또한 타겟 스피치 신호 Y' 를 생성하기 위해 스피치 신호 Y 를 프로세싱한다. 이 경우에, 이러한 프로세싱은 스피치 컴포넌트 Y 를 증폭시키는 것을 포함하며, 또한 컴포넌트 Y 를 등화시키는 것, 컴포넌트 Y 를 잔향제거하여 근거리를 시뮬레이팅하는 것, 및/또는 컴포넌트 Y 의 스피치 콘텐츠를 (예를 들어, 25% 또는 50% 만큼) 슬로잉 다운하는 것을 포함할 수도 있다. 공간 선택적 프로세싱은 스케일링된 컴포넌트 (Z') (= aZ, 여기서 a<<1) 를 생성하기 위해 나머지 사운드 컴포넌트 Z 의 레벨을 감소시키고, AR 모듈 (AR10) 은 ANC 헤드셋으로의 증강된 신호 X' (= Y' + Z') 를 발생시킨다. ANC 헤드셋은, 귀로부터 환경적 사운드 X 를 차단하기 위해 잡음방지 신호를 발생시키고, 오디오 출력 스테이지 (AO10) 는 증강된 신호 X' 를 사용자의 귀에 플레이한다.

선택된 소스 컴포넌트는 컴포넌트의 지각가능성을 증가시키기 위해 (예를 들어, 도 18b 에 예시한 바와 같이) 증폭 및/또는 그렇지 않으면 프로세싱 (예를 들어, 여기에 설명한 바와 같이 등화, 슬로잉, 피치-시프팅, 및/또는 잔향제거) 될 수도 있다.

도 20a 및 도 20b 는 방법 (M100) 의 일 구현이 라이브 스피치의 하나의 음성 언어로부터 다른 음성 언어로의 번역을 지원하도록 수행되는 일 예를 도시한다. 도 20a 는 현실에서 일어난 것을 도시하며 (예를 들어,

화자 B 가 물었다), 도 20b 는 사용자 A 가 증강 현실로 들은 것을 도시한다 (예를 들어, "스페인어 할 줄 아세요?").

도 20a 및 도 20b 에 도시한 바와 같은 예는 화자 B 의 오리지널 스피치가 ANC 디바이스에 의해 억제되지만, 다른 환경적 사운드들이 사용자의 귀로 (예를 들어, 멀티-마이크로폰 기반 사이드-톤 믹싱에 의해) 통과되도록 구현될 수도 있다. 이 경우, 사용자 A 는 화자 B 로부터의 스피치를 제외하고는, 주변 환경의 기존의 사운드들을 듣는다. 프로세싱 디바이스 (PD10) 는 (예를 들어, 추정된 도달 방향에 기초하여) 화자 B 의 스피치를 선택적으로 분리하기 위해 (예를 들어, 채널들 간의 위상 차이들 및/또는 채널들 간의 이득 차이들에 기초하여) 여기에 설명한 바와 같이 멀티-마이크로폰 SSP 기법을 수행하도록 구성될 수도 있다. 프로세싱 디바이스 (PD10) 는 또한 스피치 정보를 추출 (예를 들어, 인식) 및 번역하고, 동시에 발생하는 번역 결과를 (예를 들어, 텍스트-투-스피치 (TTS) 를 통하여) 합성하도록 구성될 수도 있다. 합성된 TTS 사운드들은 그 후 ANC 디바이스로 (옵션으로는 방향적 큐잉으로) 믹싱된다.

증강 모듈 (AM10) (예를 들어, 소스 프로세싱 모듈 (PM10)) 은 스피치 콘텐츠를 인식하기 위해 스피치-투-텍스트 동작을 (예를 들어, HMM (hidden Markov model) 프로세싱을 이용하여) 수행하도록 프로세싱 소스 컴포넌트 (SC10) 에 의해 동시 발생하는 스피치 번역을 수행하고, 소스 언어로부터의 인식된 텍스트를 타겟 언어로 번역하며, 텍스트-투-스피치 동작을 수행하여 타겟 컴포넌트 (TC10) 를 생성하도록 구현될 수도 있다. 증강 모듈 (AM10) 은 사용자-선택된 보이스 또는 피치에서 (예를 들어, 낮은-피치된 보이스에서 중간-피치된 보이스로) 번역된 타겟 컴포넌트를 생성하거나, 또는 오리지널 화자의 보이스의 하나 이상의 특성들 (예를 들어, 피치 주파수) 을 추출 및 적용하도록 구현될 수도 있다. 번역되는 특정 소스 언어를 나타내는 아이콘 (예를 들어, 대응하는 국기) 을 디스플레이하도록 디바이스 (PD10) 를 구성하는 것이 바람직할 수도 있다. 유사한 예에서, 사용자 A 는 슬로잉 다운, 피치-시프팅 및/또는 등화된 화자 B 의 스피치의 동시 발생하는 버전을 들을 수 있다.

도 18a 는 멀티-마이크로폰 신호 프로세싱을 위한 오디오 이득의 공간 패턴의 일 예를 도시한다. 이 예에서, 사용자의 정면 방향으로부터 도달하는 사운드는 정상 이득으로 통과되는 한편, 다른 방향들로부터 도달하는 사운드들은 차단된다. 도 21 은 특정 소스 (화자 B) 로부터의 사운드들을 사용자 A 의 귀에 통과하지만 사용자 A 의 귀에 일반적인 환경적 사운드들이 통과되는 것을 차단하는 공간 오디오 이득 패턴을 획득하기 위한 도 18a 의 예의 애플리케이션을 도시한다.

이 동시 발생하는 번역 예에서, ANC 참조 마이크로폰을 포함하는 마이크로폰 어레이는 환경적 사운드 X (= 화자 B 의 스피치 Y + 모든 다른 환경적 사운드 Z) 를 선정하고, 오디오 입력 신호들 (SI10 및 SI20) 을 생성한다. AR 프로세싱 모듈 (AR10) 은 스피치 컴포넌트 Y (즉, 소스 컴포넌트 (SC10)) 를 다른 사운드 컴포넌트 Z 로부터 분리하기 위해 멀티-마이크로폰 공간 선택적 프로세싱을 수행한다. AR 프로세싱 모듈 (AR10) 은 또한 타겟 스피치 신호 Y' 를 생성하기 위해 스피치 신호 Y 를 타겟 언어로 (예를 들어, 텍스트-투-스피치 또는 "TTS" 를 통하여) 번역하고, ANC 헤드셋으로의 증강된 신호 X' (= Y' + Z) 를 발생시킨다. 대안적으로 또는 추가적으로, AR 프로세싱 모듈 (AR10) 은 Y' 를 발생시키기 위해 신호 Y 를 50% 만큼 슬로잉 다운하고/하거나 그렇지 않으면 타겟 컴포넌트를 생성하기 위해 여기에 설명한 바와 같이 추가적인 지각가능성-증가 프로세싱 (예를 들어, 피치-시프팅, 잔향제거) 을 수행하도록 구성될 수도 있다. ANC 헤드셋은 귀로부터 환경적 사운드 X 를 차단하기 위해 잡음방지 신호를 발생시키고, 오디오 출력 스테이지 (AO10) 는 증강된 신호 X' 를 귀에 플레이한다.

상기 언급한 바와 같이, 오디오 증강은 타겟 컴포넌트와 함께 다른 환경적 사운드들 (예를 들어, 백그라운드 컴포넌트) 을 사용자의 귀로 통과시키는 것을 포함할 수도 있다. 증강된 신호를 발생시키기 위해 여러 신호 프로세싱 기법들을 개별적으로 환경적 사운드들의 다중 소스들에 적용하는 것이 바람직할 수도 있다. 하나의 이러한 예에서, 사용자 A 는 도로 가까이에 있는 보도 위의 화자 B 와 말하고 있다. 이 경우, 사용자 A 는 보이스 증폭 서비스 (즉, "바이오닉 이어") 로 화자 B 가 말하는 것을 듣길 원하지만, 또한 여전히 보도 환경의 사운드들을 듣길 원한다. 동시에, 사용자 A 는 자동차들에 의해 발생된 시끄러운 도로변 잡음을 듣길 원하지 않는다. 여기에 설명한 바와 같이 ANC-헤드셋-기반 증강 현실 방식은 여기에 설명한 바와 같이 이러한 사용자 경험을 제공할 수 있다.

도 22 는 멀티-마이크로폰 신호 프로세싱을 위한 오디오 이득의 공간 패턴의 일 예를 도시한다. 이 예에서, 사용자의 정면 방향으로 도달하는 사운드는 차단되는 한편 다른 방향들로부터 도달하는 사운드들은 정상 이득으로 통과된다. 도 23 은 사용자 A 의 귀에 환경적 사운드들을 통과시키지만 사용자 A 의 귀에 특정 소스 (화자 B) 로부터의 사운드를 통과시키는 것을 차단하는 공간 오디오 이득 패턴을 획득하기 위한 도 22 의 예의 애플리케이션을 도시한다. 상기 라이브 번역 예를 참조하여 설명한 바와 같이, 화자 B 로부터의 미싱 스피치는 (예를 들어, TTS 를 통해) 스피치 정보의 번역된 버전으로 대체될 수 있다.

도 24 에 예시한 바와 같은 결합된 시나리오의 일 예에서, 제 1 범위의 방향들로부터 도달하는 사운드는 (예를 들어, TTS 를 통해) 언어 번역으로 대체되고, 제 2 범위의 방향들로부터 도달하는 사운드는 차단되며 (예를 들어, 도로 잡음), 제 3 범위의 방향들로부터 도달하는 사운드는 통과된다 (예를 들어, 보도 사운드들). ANC 디바이스는 환경적 사운드들 (예를 들어, 보도 사운드들) 을 사용자 A 의 귀에 통과시키지만, 공간 선택적 프로세싱은 특정 소스 (화자 B) 및 특정 잡음 방향으로부터의 사운드가 사용자 A 의 귀에 들어가는 것을 차단한다. 증강된 프로세싱은 화자 B 로부터의 스피치의 증폭된 (및 가능하다면 슬로잉된) 버전을 사용자 A 의 귀에 주입한다. 사용자 A 는 도로로부터의 차 잡음이 거의 없이, 보도 사운드들 및 화자 B 로부터의 프로세싱된 사운드들을 듣는다.

이 공간적으로 다양한 예에서, ANC 참조 마이크로폰을 포함하는 마이크로폰 어레이는 환경적 사운드 X (= 화자 B 의 스피치 Y + 보도 사운드 Z + 도로 잡음 W) 를 선정하고, 오디오 입력 신호들 (SI10 및 SI20) 을 생성한다. AR 프로세싱 모듈 (AR10) 은 스피치 컴포넌트 Y 를 사용자 B (즉, 소스 컴포넌트 (SC10)) 로부터 분리하고, 보도 사운드들 Z 를 방향 C 로부터 분리하며, 도로 잡음 W 를 방향 D 로부터 분리하기 위해 멀티-마이크로폰 공간 선택적 프로세싱을 수행한다. AR 프로세싱 모듈 (AR10) 은 타겟 스피치 신호 Y' 를 생성하기 위해 스피치 신호 Y 를 프로세싱 (예를 들어, 증폭, 등화, 잔향제거 및/또는 슬로잉) 하고, 보도 사운드 컴포넌트 Z 를 통과시키며, ANC 디바이스로의 증강된 신호 X' (= Y' + Z) 를 발생시킨다. ANC 디바이스는 귀로부터 환경적 사운드 X 를 차단하기 위해 잡음방지 신호를 발생시키며, 오디오 출력 스테이지 (AO10) 는 증강된 신호 X' 를 귀에 플레이한다.

도 25a 는 SSP 필터 (SF10) 의 일 구현 (SF20) 및 증강 모듈 (AM10) 의 일 구현 (AM30) 을 포함하는 증강 현실 프로세싱 모듈 (AR10) 의 일 구현 (AR30) 의 블록도를 도시한다. 필터 (SF20) 는 소스 컴포넌트 (SC10) 를 백그라운드 컴포넌트 (BC10) 로부터 분리하기 위해 멀티채널 신호에 대해 SSP 동작을 수행하도록 구성된다. 필터 (SF20) 는 멀티채널 신호와 공간 분리된 소스 컴포넌트 간의 차이로서 (예를 들어, 비-선택된 주파수 빈들 또는 프레임들로서) 백그라운드 컴포넌트 (BC10) 를 생성하도록 구성될 수도 있다. 대안적으로, 필터 (SF20) 는 백그라운드 컴포넌트 (BC10) 를 소스 컴포넌트 (SC10) 로부터, 그리고 가능하다면 다른 사운드로부터 분리하기 위해 멀티채널 신호에 대해 SSP 동작을 수행하도록 구현될 수도 있다. 이 경우, 필터 (SF20) 는 여기에 설명된 SSP 동작들 중 임의의 것을 이용하여 (예를 들어, 이득 및/또는 위상 차이들, 빔포밍, BSS 에 기초하여) 백그라운드 컴포넌트 (BC10) 를 생성하도록 구현될 수도 있다.

예를 들어, 필터 (SF20) 는 소스 컴포넌트의 방향이 아닌 다른 방향으로 와이드 빔을 갖는 빔포밍 필터를 적용함으로써 멀티채널 신호로부터 백그라운드 컴포넌트 (BC10) 를 생성하도록 구현될 수도 있다. 다른 예에서, 필터 (SF20) 는 제외될 소스들의 방향으로 (예를 들어, 소스 컴포넌트의 방향으로 및/또는 잡음 소스의 방향으로 (예를 들어, 상기 논의된 예에서는 도로 잡음 W 의 소스의 방향 D 에서와 같음)) 널 빔들을 갖는 하나 이상의 빔포밍 필터들을 적용함으로써 멀티채널 신호로부터 백그라운드 컴포넌트 (BC10) 를 생성하도록 구현된다. 증강 모듈 (AM30) 은 타겟 컴포넌트 (TC10) 에 기초하고 분리된 백그라운드 컴포넌트 (BC10) 에 기초하는 증강된 신호 (SG10) 의 일 구현 (SG20) 을 생성하도록 구성된다.

도 25b 는 증강된 신호 (SG20) 를 생성하기 위해 타겟 컴포넌트 (TC10) 를 분리된 백그라운드 컴포넌트 (BC10) 와 믹싱 (예를 들어, 가산) 하도록 구성된 믹서 (MX10) 를 포함하는 증강 모듈 (AM20 및 AM30) 의 일 구현 (AM40) 의 블록도를 도시한다.

사이렌, 차 경적, 알람, 또는 경고, 경보 또는 주의를 끄는 것으로 의도되는 다른 사운드와 같은 경고 사운드들을 검출 및 통과시키도록 AR 프로세싱 모듈 (AR10) 을 구현하는 것이 바람직할 수도 있다. 이러한 사운드들은 통상 스피치 및 잡음 컴포넌트들과 같이, 다른 사운드 신호들과 비교하여 좁은 대역폭들을 갖는 토널 (tonal) 컴포넌트들이다. 도 26a 는 경고 사운드 검출기 (WD10) 를 포함하는 AR 프로세싱 모듈 (AR10) 의 일 구현 (AR100) 의 블록도를 도시한다. 경고 사운드 검출기 (WD10) 는 (예를 들어, 약 500 또는 1000 헤르쯔에서 약 2 또는 3 킬로헤르쯔까지의) 특정 주파수 범위 내에만 보이는 사운드를 검출하도록 구성되고, (예를 들어, 약 50, 100 또는 200 헤르쯔보다 크지 않은) 좁은 대역폭을 갖고, 샤프 어택 (sharp attack) 프로파일을 가지며 (예를 들어, 일 프레임에서 다른 프레임까지 약 50, 75 또는 100% 이상의 에너지의 증가를 가지며) 및/또는 임계값보다 높은 피치 주파수를 갖는다 (예를 들어, 아기 울음 소리). 경고 사운드 검출기 (WD10) 는 시간 도메인, LPC 도메인에서, 및/또는 변환 도메인 (예를 들어, 푸리에 또는 다른 주파수 도메인) 에서 이러한 검출을 수행하고, 대응하는 경고 표시 (SW10) 를 생성하도록 구성될 수도 있다. 다른 예에서, 경고 사운드 검출기 (WD10) 는 도플러 효과 검출에 의해 접근하는 차량의 사운드를 검출하도록 구성된다.

AR 프로세싱 모듈 (AR100) 은 또한 경고 표시 (SW10) 에 응답하여 소스 컴포넌트 (SC10) 의 증강을 제거하도록 구성되는 증강 모듈 (AM10) 의 일 구현 (AM100) 을 포함한다. AR 프로세싱 모듈 (AR100) 은 또한 경고 표시 (SW10) 에 응답하여 ANC 동작을 오버라이드하고 및/또는 사용자에게 추가적인 오디오 표시를 제공 (예를 들어, 알람 사운드를 발생) 하도록 구성될 수도 있다.

경고 사운드 검출기 (WD10) 에 의해 수행된 검출은 (예를 들어, 하나의 오디오 입력 채널에 대해, 개별적으로 2 개 이상의 오디오 입력 채널들에 대해, 및/또는 하나보다 많은 오디오 입력 채널의 합에 대해) 비-방향적일 수도 있다. 대안적으로, 검출기 (WD10) 는 검출된 경고 사운드의 선택 및/또는 증강 (예를 들어, 증폭) 을 위한 증강 모듈 (AM100) 에 경고 사운드의 방향을 표시하도록 구현될 수도 있다. 바이노럴 구현에서, 이러한 증강은 사용자에게 경고 사운드의 도달 방향을 표시하기 위해 방향적 큐잉을 포함할 수도 있다. 이러한 경우에, 낮은 주파수들의 방향성을 강화하기 위해 경고 사운드에 대해 ANC 동작을 오버라이드하고/하거나 PBE 동작을 수행하는 것이 바람직하지 않을 수도 있다.

방법 (M100) 및/또는 장치 (A100) 에 대한 추가적인 강화들은 기입 환경의 오디오 번역 (예를 들어, 사인들의 다른 언어로의 오디오 번역) 을 포함할 수도 있다. 추가적인 애플리케이션들은 시각장애인 사용자를 위한 내비게이션 에이드로서, 물리적 장애물들을 표시하기 위해 피치의 변화를 생성하도록 구성된 가상 사운드 케인 (virtual sound cane) 을 포함한다.

도 26b 는 일반적인 구성에 따른 장치 (MF100) 의 블록도를 도시한다. 장치 (MF100) 는 (예를 들어, 태스크 (T100) 및/또는 ANC 필터 (AF10) 의 구현들을 참조하여 여기에 설명한 바와 같이) 잡음방지 신호를 생성하기 위해 제 1 오디오 입력 채널에 대해 능동 잡음 제거 동작을 수행하는 수단 (F100) 을 포함한다. 장치 (MF100) 는 또한 (예를 들어, 태스크 (T200) 및/또는 SSP 모듈 (SM10) 의 구현들을 참조하여 여기에 설명한 바와 같이) 백그라운드 컴포넌트로부터 소스 컴포넌트를 분리하기 위해 멀티채널 신호에 대해 공간 선택적 프로세싱 동작을 수행하는 수단을 포함하는, 소스 컴포넌트를 획득하기 위해 멀티채널 신호를 프로세싱하는 수단 (F200) 을 포함한다. 장치 (MF100) 는 또한 (예를 들어, 태스크 (T300) 및/또는 증강 모듈 (AM10) 의 구현들을 참조하여 여기에 설명한 바와 같이) 타겟 컴포넌트를 생성하기 위해 획득된 소스 컴포넌트를 프로세싱하는 수단 (F300) 을 포함한다. 장치 (MF100) 는 또한 (예를 들어, 태스크 (T400) 및/또는 오디오 출력 스테이지 (AO10) 의 구현들을 참조하여 여기에 설명한 바와 같이) 오디오 출력 신호를 생성하기 위해 잡음방지 신호와 타겟 컴포넌트에 기초하는 증강된 신호를 결합하는 수단 (F400) 을 포함한다.

도 27a 는 일반적인 ANC 시스템의 블록도를 도시한다. 적응적 필터 W(z) 는 제거될 외부 잡음을 검출하는 참조 마이크로폰 (예를 들어, 마이크로폰 (ML10 또는 MR10)) 으로부터, (예를 들어, 이도 내에 있고, 이도로 향하게 되며, 및/또는 확성기에 의해 방출된 음장 내에 있는) 참조 마이크로폰보다 사용자의 이도에 더 가까운 에러 마이크로폰으로의 1 차 경로 전달 함수 P(z) 를 추정하는데 사용되며, 사용자의 귀에서 음향 에러를 검출한다. 또한, 필터 W(z) 에 의해 발생된 잡음방지 신호로부터 필터 W(z) 를 적응시키는데 사용된 에러 신호로의 전기 및 음향 경로를 포함하는 2 차 경로 전달 함수 S(z) 를 추정하는 것이 바람직할 수도 있다. 예를 들어, 필터링된-X LMS 알고리즘은 에러 신호에 기초하여, 그리고 S(z) 의 추정치에 의해 필터링되는 참조 신호의 버전에 기초하여 필터 W(z) 를 적응시킨다. 추가적으로 또는 대안적으로, 잡음방지 신호로부터 참조 마이크로폰으로의 피드백 경로 전달 함수 F(z) 를 고려하는 것이 바람직할 수도 있다. 태스크 (T100) 및/또는 ANC 필터 (AF10) 는 이들 ANC 원리들 중 임의의 원리에 따라 구현될 수도 있다. 예를 들어, 도 27b 및 도 27c 는 각각이 ANC 에러 마이크로폰 (ME10) 의 인스턴스를 포함하는 각각 헤드셋들 (HS10 및 HS20) 의 구현들 (HS15 및 HS25) 의 예들을 도시하며, 도 28a 내지 도 28c 는 각각 이어버드 (EB30) 및 이어컵들 (ECR20 및 ECR20) 의 유사한 구현들 (EB32, ECR15 및 ECR25) 을 도시한다.

도 27a 로부터, 증강된 신호 (SG10) 의 잡음방지 신호 (SA10) 와의 믹싱은 증강된 신호 (SG10) 로 하여금 참조 신호 (예를 들어, 오디오 입력 채널) 로 음향적으로 피드백하도록 하고/하거나 에러 신호로 음향적으로 피드 포워드하도록 할 수도 있다는 것이 이해될 수도 있다. 결과적으로, ANC 필터 적응에 대한 증강된 신호 (SG10) 의 효과를 감소시키기 위해 증강된 신호 (SG10) 의 반전된 버전을 참조 신호와 에러 신호 중 하나 또는 양자로 믹싱하는 것이 바람직할 수도 있다.

여기에 개시된 방법들 및 장치는 임의의 트랜시빙 및/또는 오디오 감지 애플리케이션에, 특히 이러한 애플리케이션들의 모바일 또는 그렇지 않다면 휴대용 인스턴스들에 일반적으로 적용될 수도 있다. 예를 들어, 여기에 개시된 구성들의 범위는 코드 분할 다중 액세스 (CDMA) 공중 경유 (over-the-air) 인터페이스를 채용하도록 구성된 무선 전화 통신 시스템에 상주하는 통신 디바이스들을 포함한다. 그럼에도 불구하고, 여기에 설명한 바와 같은 특징들을 갖는 방법 및 장치는 유선 및/또는 무선 (예를 들어, CDMA, TDMA, FDMA 및/또는 TD-SCDMA) 송신 채널들을 통한 VoIP (Voice over IP) 를 채용하는 시스템들과 같이, 당업자에게 알려진 다양한 범위의 기술들을 채용하는 다양한 통신 시스템들 중 임의의 것에 상주할 수도 있다는 것을 이해할 것이다.

여기에 개시된 통신 디바이스들은 패킷-스위칭 (예를 들어, VoIP 와 같은 프로토콜들에 따라 오디오 송신들을 반송하도록 배열된 유선 및/또는 무선 네트워크들) 및/또는 회로-스위칭되는 네트워크들에서의 사용을 위해 적응될 수도 있다는 것이 명확히 고려되고 이에 의해 개시된다. 또한, 여기에 개시된 통신 디바이스들은 협대역 코딩 시스템들 (예를 들어, 약 4 또는 5 킬로헤르쯔의 오디오 주파수 범위를 인코딩하는 시스템들) 에서의 사용을 위해, 및/또는 전체-대역 광대역 코딩 시스템들 및 분할-대역 광대역 코딩 시스템들을 포함하는, 광대역 코딩 시스템들 (예를 들어, 5 킬로헤르쯔 초과의 오디오 주파수들을 인코딩하는 시스템들) 에서의 사용을 위해 적응될 수도 있다는 것이 명확히 고려되고 이에 의해 개시된다.

설명된 구성들의 전술한 제시는 당업자로 하여금 여기에 개시된 방법들 및 다른 구조들을 제조 또는 이용할 수 있게 하도록 제공된다. 여기에 도시 및 설명된 플로우차트들, 블록도들, 및 다른 구조들은 단지 예들일 뿐이며, 이들 구조들의 다른 변형들이 또한 본 개시물의 범위 내에 있다. 이들 구성들에 대한 다양한 변경들이 가능하며, 여기에 제시된 일반적인 원리들은 다른 구성들에도 적용될 수도 있다. 따라서, 본 개시물은 상기 도시된 구성들에 제한되는 것으로 의도되지 않고, 오히려 오리지널 개시물의 일부를 형성하는 제출된 첨부 청구항들에 포함하는, 여기에 임의의 방식으로 개시된 원리들 및 신규한 특징들에 부합하는 최광의 범위를 따르게 될 것이다.

당업자는 다양한 상이한 기술들 및 기법들 중 임의의 것을 이용하여 정보 및 신호들이 표현될 수도 있음을 이해할 것이다. 예를 들어, 상기 설명 전반에 걸쳐 참조될 수도 있는 데이터, 명령들, 커맨드들, 정보, 신호들, 비트들, 및 심볼들은 전압, 전류, 전자기파, 자기장 또는 자기 입자, 광학장 또는 광학 입자, 또는 이들의 임의의 조합에 의해 표현될 수도 있다.

여기에 개시한 바와 같은 구성의 구현을 위한 중요한 설계 요건들은, 특히, 8 킬로헤르쯔보다 높은 샘플링 레이트들 (예를 들어, 12, 16, 32, 44.1, 48 또는 192kHz) 에서의 보이스 통신들을 위한 애플리케이션들과 같은 계산 집약형 애플리케이션들의 경우, 프로세싱 지연 및/또는 계산 복잡도 (통상적으로, 초당 수백만의 명령들 또는 MIPS 로 측정됨) 를 최소화하는 것을 포함할 수도 있다.

여기에 설명한 바와 같은 멀티-마이크로폰 프로세싱 시스템의 목적들은 전체 잡음 감소에 있어서 10 내지 12dB 를 달성하는 것, 원하는 화자의 움직임 동안 보이스 레벨 및 컬러를 보존하는 것, 잡음이 공격적인 잡음 제거 대신에 백그라운드로 이동되었다는 지각을 획득하는 것, 스피치의 잔향제거 및/또는 더 공격적인 잡음 감소를 위한 후처리 (예를 들어, 마스킹 및/또는 잡음 감소) 의 옵션을 가능하게 하는 것을 포함할 수도 있다.

여기에 개시한 바와 같은 장치 (예를 들어, 장치 (A100, A200, MF100)) 는 의도된 애플리케이션에 적합한 것으로 간주되는 소프트웨어와 및/또는 펌웨어와 하드웨어의 임의의 조합으로 구현될 수도 있다. 예를 들어, 이러한 장치의 엘리먼트들은, 예를 들어, 칩셋 내의 동일한 칩 상에 또는 2 개 이상의 칩들 사이에 상주하는 전자 디바이스 및/또는 광학 디바이스로서 제조될 수도 있다. 이러한 디바이스의 하나의 예는 트랜지스터들 또는 로직 게이트들과 같은 로직 엘리먼트들의 고정된 또는 프로그램가능 어레이이고, 이러한 엘리먼트들 중 임의의 엘리먼트는 하나 이상의 이러한 어레이들로서 구현될 수도 있다. 이들 엘리먼트들 중 임의의 2 개 이상, 또는 심지어 그 모두는 동일한 어레이 또는 어레이들 내에서 구현될 수도 있다. 이러한 어레이 또는 어레이들은 하나 이상의 칩들 내에서 (예를 들어, 2 개 이상의 칩들을 포함하는 칩셋 내에서) 구현될 수도 있다.

여기에 개시된 장치의 다양한 구현들의 하나 이상의 엘리먼트들 (예를 들어, 장치 (A100, A200, MF100)) 은 또한 마이크로프로세서들, 임베디드 프로세서들, IP 코어들, 디지털 신호 프로세서들, FPGA (field-programmable gate array) 들, ASSP (application-specific standard product) 들, 및 ASIC (application-specific integrated circuit) 들과 같은 로직 엘리먼트들의 하나 이상의 고정된 또는 프로그램가능 어레이들 상에서 실행하도록 배열된 명령들의 하나 이상의 세트들로서 완전히 또는 부분적으로 구현될 수도 있다. 여기에 개시한 바와 같은 장치의 일 구현의 다양한 엘리먼트들 중 임의의 엘리먼트는 또한 하나 이상의 컴퓨터들 (예를 들어, 명령들의 하나 이상의 세트들 또는 시퀀스들을 실행하도록 프로그램된 하나 이상의 어레이들을 포함하는 머신들, "프로세서들" 이라고도 불림) 로서 구현될 수도 있고, 이들 엘리먼트들 중 임의의 2 개 이상, 또는 심지어 그 모두는 이러한 동일한 컴퓨터 또는 컴퓨터들 내에서 구현될 수도 있다.

여기에 개시한 바와 같은 프로세서 또는 프로세싱을 위한 다른 수단은, 예를 들어, 칩셋 내의 동일한 칩 상에 또는 2 개 이상의 칩들 사이에 상주하는 하나 이상의 전자 디바이스 및/또는 광학 디바이스로서 제조될 수도 있다. 이러한 디바이스의 하나의 예는 트랜지스터들 또는 로직 게이트들과 같은 로직 엘리먼트들의 고정된 또는 프로그램가능 어레이이며, 이들 엘리먼트들 중 임의의 엘리먼트는 하나 이상의 이러한 어레이들로서 구현될 수도 있다. 이러한 어레이 또는 어레이들은 하나 이상의 칩들 내에서 (예를 들어, 2 개 이상의 칩들을 포함하는 칩셋들 내에서) 구현될 수도 있다. 이러한 어레이들의 예들은 마이크로프로세서들, 임베디드 프로세서들, IP 코어들, DSP들, FPGA들, ASSP들 및 ASIC들과 같은 로직 엘리먼트들의 고정된 또는 프로그램가능 어레이들을 포함한다. 여기에 개시한 바와 같은 프로세서 또는 프로세싱을 위한 다른 수단은 또한, 하나 이상의 컴퓨터들 (예를 들어, 명령들의 하나 이상의 세트들 또는 시퀀스들을 실행하도록 프로그램된 하나 이상의 어레이들을 포함하는 머신들) 또는 다른 프로세서들로서 구현될 수도 있다. 여기에 설명한 바와 같은 프로세서는, 프로세서가 임베딩되는 디바이스 또는 시스템 (예를 들어, 오디오 감지 디바이스) 의 다른 동작에 관한 태스크와 같은 공간 선택적 오디오 증강에 직접 관련되지 않은 태스크들을 수행하거나 또는 명령들의 다른 세트들을 실행하는데 이용되는 것이 가능하다. 또한, 여기에 개시한 바와 같은 방법의 일부는 오디오 감지 디바이스의 프로세서에 의해 수행되고, 그 방법의 또 다른 일부는 하나 이상의 다른 프로세서들의 제어 하에서 수행되는 것이 가능하다.

당업자는, 여기에 개시된 구성들과 관련하여 설명된 다양한 예시적인 모듈들, 논리 블록들, 회로들, 및 테스트들 및 다른 동작들이 전자 하드웨어, 컴퓨터 소프트웨어, 또는 양자의 조합들로서 구현될 수도 있다는 것을 알 것이다. 이러한 모듈들, 논리 블록들, 회로들, 및 동작들은 여기에 개시한 바와 같은 구성을 생성하도록 설계된 범용 프로세서, 디지털 신호 프로세서 (DSP), ASIC 또는 ASSP, FPGA 또는 다른 프로그램가능 로직 디바이스, 별개의 게이트 또는 트랜지스터 로직, 별개의 하드웨어 컴포넌트들, 또는 이들의 임의의 조합으로 구현 또는 수행될 수도 있다. 예를 들어, 이러한 구성은 하드-와이어드 회로로서, 주문형 집적 회로로 제조된 회로 구성으로서, 또는 머신 판독가능 코드로서 데이터 저장 매체로부터 또는 데이터 저장 매체로 로딩된 소프트웨어 프로그램이나 비휘발성 저장부로 로딩된 펌웨어 프로그램으로서 적어도 부분적으로 구현될 수도 있으며, 이러한 코드는 범용 프로세서 또는 다른 디지털 신호 프로세싱 유닛과 같은 로직 엘리먼트들의 어레이에 의해 실행가능한 명령들이다. 범용 프로세서는 마이크로프로세서일 수도 있지만, 대안적으로, 프로세서는 임의의 종래의 프로세서, 제어기, 마이크로제어기, 또는 상태 머신일 수도 있다. 또한, 프로세서는 컴퓨팅 디바이스들의 조합, 예를 들어, DSP 와 마이크로프로세서의 조합, 복수의 마이크로프로세서들, DSP 코어와 결합된 하나 이상의 마이크로프로세서들, 또는 임의의 다른 이러한 구성으로서 구현될 수도 있다. 소프트웨어 모듈은 RAM (random-access memory), ROM (read-only memory), 플래시 RAM 과 같은 비휘발성 RAM (NVRAM), 소거가능한 프로그램가능 ROM (EPROM), 전기적으로 소거가능한 프로그램가능 ROM (EEPROM), 레지스터들, 하드 디스크, 착탈식 디스크, 또는 CD-ROM 과 같은 비일시적 저장 매체에; 또는 당업자에게 알려진 임의의 다른 형태의 저장 매체에 상주할 수도 있다. 예시적인 저장 매체는 프로세서에 커플링되어, 프로세서가 저장 매체로부터 정보를 판독하고 저장 매체에 정보를 기입할 수 있도록 한다. 대안적으로, 저장 매체는 프로세서와 일체형일 수도 있다. 프로세서 및 저장 매체는 ASIC 에 상주할 수도 있다. ASIC 은 사용자 단말기에 상주할 수도 있다. 대안적으로, 프로세서 및 저장 매체는 사용자 단말기 내에 별개의 컴포넌트들로서 상주할 수도 있다.

여기에 개시된 다양한 방법들 (예를 들어, 여기에 개시된 다양한 장치의 동작의 설명에 의하여 개시된 방법 (M100) 및 다른 방법들) 은 프로세서와 같은 로직 엘리먼트들의 어레이에 의해 수행될 수도 있고, 여기에 설명한 바와 같은 장치의 다양한 엘리먼트들은 이러한 어레이 상에서 실행하도록 설계된 모듈들로서 부분적으로 구현될 수도 있다는 것에 주목한다. 여기에 사용한 바와 같이, 용어 "모듈" 또는 "서브-모듈" 은 컴퓨터 명령들 (예를 들어, 논리식들) 을 소프트웨어, 하드웨어 또는 펌웨어 형태로 포함하는 임의의 방법, 장치, 디바이스, 유닛 또는 컴퓨터 판독가능 데이터 저장 매체를 지칭할 수 있다. 다중 모듈들 또는 시스템들이 하나의 모듈 또는 시스템으로 결합될 수 있고 하나의 모듈 또는 시스템이 동일한 기능들을 수행하기 위해 다중 모듈들 또는 시스템들로 분리될 수 있음을 이해할 것이다. 소프트웨어 또는 다른 컴퓨터 실행가능 명령들로 구현될 경우, 프로세스의 엘리먼트들은 본질적으로, 루틴들, 프로그램들, 오브젝트들, 컴포넌트들, 데이터 구조들 등과 같은 관련 태스크들을 수행하기 위한 코드 세그먼트들이다. 용어 "소프트웨어" 는 소스 코드, 어셈블리 언어 코드, 머신 코드, 바이너리 코드, 펌웨어, 매크로코드, 마이크로코드, 로직 엘리먼트들의 어레이에 의해 실행가능한 명령들의 임의의 하나 이상의 세트들 또는 시퀀스들, 및 이러한 예들의 임의의 조합을 포함하는 것으로 이해되어야 한다. 프로그램 또는 코드 세그먼트들은 프로세서 판독가능 저장 매체에 저장되거나, 또는 송신 매체 또는 통신 링크를 통해 반송파로 구현된 컴퓨터 데이터 신호에 의해 송신될 수 있다.

여기에 개시된 방법들, 방식들, 및 기법들의 구현들은 또한, 로직 엘리먼트들 (예를 들어, 프로세서, 마이크로프로세서, 마이크로제어기, 또는 다른 유한 상태 머신) 의 어레이를 포함하는 머신에 의해 판독가능 및/또는 실행가능한 명령들의 하나 이상의 세트들로서 (예를 들어, 여기에 리스트된 바와 같은 하나 이상의 컴퓨터 판독가능 저장 매체의 유형의 컴퓨터 판독가능 특징들로) 유형으로 구현될 수도 있다. 용어 "컴퓨터 판독가능 매체" 는 휘발성, 비휘발성, 착탈식, 비착탈식 저장 매체를 포함하여, 정보를 저장 또는 전송할 수 있는 임의의 매체를 포함할 수도 있다. 컴퓨터 판독가능 매체의 예들은 전자 회로, 반도체 메모리 디바이스, ROM, 플래시 메모리, 소거가능한 ROM (EROM), 플로피 디스켓 또는 다른 자기 저장부, CD-ROM/DVD 또는 다른 광학 저장부, 하드 디스크, 광섬유 매체, 무선 주파수 (RF) 링크, 또는 원하는 정보를 저장하는데 이용될 수 있고 액세스될 수 있는 임의의 다른 매체를 포함한다. 컴퓨터 데이터 신호는 전자 네트워크 채널들, 광섬유들, 대기 (air), 전자기, RF 링크들 등과 같은 송신 매체를 통해 전파될 수 있는 임의의 신호를 포함할 수도 있다. 코드 세그먼트들은 인터넷 또는 인트라넷과 같은 컴퓨터 네트워크들을 통해 다운로드될 수도 있다. 어떤 경우라도, 본 개시물의 범위는 이러한 실시형태들에 의해 제한되는 것으로서 해석되지 않아야 한다.

여기에 개시된 방법들 (예를 들어, 여기에 설명된 다양한 장치의 동작의 설명에 의하여 개시된 방법 (M100) 및 다른 방법들) 의 태스크들 각각은 하드웨어에서 직접, 프로세서에 의해 실행된 소프트웨어 모듈에서, 또는 이 둘의 조합에서 구현될 수도 있다. 여기에 개시한 바와 같은 방법의 일 구현의 통상의 애플리케이션에 있어서, 로직 엘리먼트들 (예를 들어, 로직 게이트들) 의 어레이는 방법의 다양한 태스크들 중 하나, 하나 초과, 또는 심지어 그 모두를 수행하도록 구성된다. 태스크들 중 하나 이상 (가능하다면, 그 모두) 은 또한 로직 엘리먼트들 (예를 들어, 프로세서, 마이크로프로세서, 마이크로제어기, 또는 다른 유한 상태 머신) 의 어레이를 포함하는 머신 (예를 들어, 컴퓨터) 에 의해 판독가능 및/또는 실행가능한 컴퓨터 프로그램 제품 (예를 들어, 디스크들, 플래시 또는 다른 비휘발성 메모리 카드들, 반도체 메모리 칩들 등과 같은 하나 이상의 데이터 저장 매체) 에 수록된 코드 (예를 들어, 명령들의 하나 이상의 세트들) 로서 구현될 수도 있다. 여기에 개시한 바와 같은 방법의 일 구현의 태스크들은 또한 하나보다 많은 이러한 어레이 또는 머신에 의해 수행될 수도 있다. 이들 또는 다른 구현들에서, 그 태스크들은 셀룰러 전화기 또는 이러한 통신 능력을 갖는 다른 디바이스와 같은 무선 통신용 디바이스 내에서 수행될 수도 있다. 이러한 디바이스는 (예를 들어, VoIP 와 같은 하나 이상의 프로토콜들을 이용하여) 회로-스위칭 및/또는 패킷-스위칭된 네트워크들과 통신하도록 구성될 수도 있다. 예를 들어, 이러한 디바이스는 인코딩된 프레임들을 수신 및/또는 송신하도록 구성된 RF 회로를 포함할 수도 있다.

여기에 개시된 다양한 방법들은 휴대용 통신 디바이스 (예를 들어, 핸드셋, 헤드셋, 또는 휴대 정보 단말기 (PDA)) 에 의해 수행될 수도 있고, 여기에 설명된 다양한 장치는 이러한 디바이스 내에 포함될 수도 있다는 것이 명확히 개시된다. 통상의 실시간 (예를 들어, 온라인) 애플리케이션은 이러한 모바일 디바이스를 이용하여 수행된 전화 통화이다.

하나 이상의 예시적인 실시형태들에서, 여기에 설명된 동작들은 하드웨어, 소프트웨어, 펌웨어, 또는 이들의 임의의 조합으로 구현될 수도 있다. 소프트웨어로 구현된다면, 이러한 동작들은 하나 이상의 명령들 또는 코드로서 컴퓨터 판독가능 매체 상에 저장 또는 송신될 수도 있다. 용어 "컴퓨터 판독가능 매체" 는 컴퓨터 판독가능 저장 매체와 통신 (예를 들어, 송신) 매체 양자를 포함한다. 제한이 아닌 일 예로, 컴퓨터 판독가능 저장 매체는 반도체 메모리 (동적 또는 정적 RAM, ROM, EEPROM, 및/또는 플래시 RAM 을 제한 없이 포함할 수도 있음), 또는 강자성, 자기저항성, 오보닉, 중합성 또는 상변화 메모리; CD-ROM 또는 다른 광학 디스크 저장부; 및/또는 자기 디스크 저장부 또는 다른 자기 저장 디바이스들과 같은 저장 엘리먼트들의 어레이를 포함할 수 있다. 이러한 저장 매체는 컴퓨터에 의해 액세스될 수 있는 명령들 또는 데이터 구조들의 형태로 정보를 저장할 수도 있다. 통신 매체는 컴퓨터 프로그램의 일 장소로부터 다른 장소로의 전송을 용이하게 하는 임의의 매체를 포함하여, 원하는 프로그램 코드를 명령들 또는 데이터 구조들의 형태로 반송하는데 이용될 수 있고 컴퓨터에 의해 액세스될 수 있는 임의의 매체를 포함할 수 있다. 또한, 임의의 접속이 적절히 컴퓨터 판독가능 매체라 불리게 된다. 예를 들어, 소프트웨어가 동축 케이블, 광섬유 케이블, 트위스티드 페어, 디지털 가입자 회선 (DSL), 또는 적외선, 무선 및/또는 마이크로파와 같은 무선 기술을 이용하여 웹사이트, 서버 또는 다른 원격 소스로부터 송신된다면, 매체의 정의에는, 동축 케이블, 광섬유 케이블, 트위스티드 페어, DSL, 또는 적외선, 무선 및/또는 마이크로파와 같은 무선 기술이 포함된다. 디스크 (disk) 및 디스크 (disc) 는 여기에 사용한 바와 같이, 콤팩트 디스크 (CD), 레이저 디스크, 광학 디스크, 디지털 다기능 디스크 (DVD), 플로피 디스크 및 블루레이 디스크^TM (캐나다, 유니버설 시티 소재의 블루레이 디스크 협회) 를 포함하며, 여기서 디스크 (disk) 들은 보통 데이터를 자기적으로 재생시키는 한편, 디스크 (disc) 들은 레이저를 이용하여 데이터를 광학적으로 재생시킨다. 상기의 조합이 또한 컴퓨터 판독가능 매체의 범위 내에 포함되어야 한다.

여기에 설명한 바와 같은 음향 신호 프로세싱 장치 (예를 들어, 장치 (A100, MF100)) 는 소정의 동작들을 제어하기 위하여 스피치 입력을 수용하는 전자 디바이스에 통합될 수도 있거나, 또는 그렇지 않으면, 통신 디바이스들과 같은 백그라운드 잡음들로부터 원하는 잡음들의 분리로부터 이익을 얻을 수도 있다. 다수의 애플리케이션들은 다중 방향들로부터 발신하는 백그라운드 사운드들로부터 분명한 원하는 사운드를 강화 또는 분리시키는 것으로부터 이익을 얻을 수도 있다. 이러한 애플리케이션들은, 보이스 인식 및 검출, 스피치 강화 및 분리, 보이스 활성화된 제어 등과 같은 능력들을 통합하는 전자 디바이스 또는 컴퓨팅 디바이스들에 휴먼-머신 인터페이스들을 포함할 수도 있다. 이러한 음향 신호 프로세싱 장치를, 제한된 프로세싱 능력들을 단지 제공하는 디바이스들에 적합하도록 구현하는 것이 바람직할 수도 있다.

여기에 설명된 모듈들, 엘리먼트들, 및 디바이스들의 다양한 구현들의 엘리먼트들은 예를 들어, 칩셋 내의 동일한 칩 상에 또는 2 개 이상의 칩들 사이에 상주하는 전자 디바이스 및/또는 광학 디바이스로서 제조될 수도 있다. 이러한 디바이스의 하나의 예는 트랜지스터들 또는 게이트들과 같은 로직 엘리먼트들의 고정된 또는 프로그램가능 어레이이다. 여기에 설명된 장치의 다양한 구현들의 하나 이상의 엘리먼트들은 또한 마이크로프로세서들, 임베디드 프로세서들, IP 코어들, 디지털 신호 프로세서들, FPGA들, ASSP들, 및 ASIC들과 같은 로직 엘리먼트들의 하나 이상의 고정된 또는 프로그램가능 어레이들 상에서 실행하도록 배열된 명령들의 하나 이상의 세트들로서 완전히 또는 부분적으로 구현될 수도 있다.

여기에 설명한 바와 같은 장치의 일 구현의 하나 이상의 엘리먼트들은, 그 장치가 임베딩되는 디바이스 또는 시스템의 다른 동작에 관한 태스크와 같은 장치의 동작에 직접 관련되지 않은 태스크들을 수행하거나 또는 명령들의 다른 세트들을 실행하는데 이용되는 것이 가능하다. 또한, 이러한 장치의 일 구현의 하나 이상의 엘리먼트들은 공통의 구조를 갖는 것이 가능하다 (예를 들어, 상이한 엘리먼트들에 대응하는 코드의 부분들을 상이한 횟수로 실행하는데 이용되는 프로세서, 상이한 엘리먼트들에 대응하는 태스크들을 상이한 횟수로 수행하도록 실행된 명령들의 세트, 또는 상이한 엘리먼트들에 대한 동작들을 상이한 횟수로 수행하는 전자 디바이스 및/또는 광학 디바이스의 어레인지먼트).

Claims

제 1 오디오 입력 채널 및 제 2 오디오 입력 채널을 포함하는 멀티채널 신호를 프로세싱하는 방법으로서,
잡음방지 신호를 생성하기 위해 상기 제 1 오디오 입력 채널에 대해 능동 잡음 제거 동작을 수행하는 단계;
소스 컴포넌트를 획득하기 위해 상기 멀티채널 신호를 프로세싱하는 단계로서, 상기 프로세싱하는 단계는, 상기 멀티채널 신호에 대해 공간 선택적 프로세싱 동작을 수행하여 백그라운드 컴포넌트로부터 상기 소스 컴포넌트를 분리하는 단계를 포함하는, 상기 멀티채널 신호를 프로세싱하는 단계;
타겟 컴포넌트를 생성하기 위해 획득된 상기 소스 컴포넌트를 프로세싱하는 단계; 및
오디오 출력 신호를 생성하기 위해 상기 잡음방지 신호와 상기 타겟 컴포넌트에 기초하는 증강된 신호를 결합하는 단계를 포함하는, 멀티채널 신호를 프로세싱하는 방법.
제 1 항에 있어서,
상기 방법은, 상기 증강된 신호를 생성하기 위해 상기 타겟 컴포넌트와 분리된 상기 백그라운드 컴포넌트를 결합하는 단계를 포함하는, 멀티채널 신호를 프로세싱하는 방법.
제 1 항 또는 제 2 항에 있어서,
상기 공간 선택적 프로세싱 동작은 상기 소스 컴포넌트를 생성하기 위해 소스 방향으로 빔을 적용하는 것을 포함하는, 멀티채널 신호를 프로세싱하는 방법.
제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
상기 공간 선택적 프로세싱 동작은 상기 백그라운드 컴포넌트를 생성하기 위해 상기 소스 방향으로 널 빔을 적용하는 것을 포함하는, 멀티채널 신호를 프로세싱하는 방법.
제 4 항에 있어서,
상기 공간 선택적 프로세싱 동작은 상기 백그라운드 컴포넌트를 생성하기 위해 잡음 소스의 방향으로 제 2 널 빔을 적용하는 것을 포함하는, 멀티채널 신호를 프로세싱하는 방법.
제 1 항 내지 제 5 항 중 어느 한 항에 있어서,
상기 공간 선택적 프로세싱 동작은 (A) 상기 제 1 오디오 입력 채널과 상기 제 2 오디오 입력 채널 간의 위상 차이들 및 (B) 상기 제 1 오디오 입력 채널과 상기 제 2 오디오 입력 채널 간의 이득 차이들 중에서 적어도 하나에 기초하는, 멀티채널 신호를 프로세싱하는 방법.
제 1 항 내지 제 6 항 중 어느 한 항에 있어서,
획득된 상기 소스 컴포넌트를 프로세싱하는 단계는, 분리된 상기 소스 컴포넌트를 증폭시키는 것, 분리된 상기 소스 컴포넌트의 동적 범위를 압축시키는 것, 분리된 상기 소스 컴포넌트를 잔향제거하는 것, 및 분리된 상기 소스 컴포넌트의 주파수 스펙트럼을 변경하는 것 중에서 적어도 하나에 의해 획득된 상기 소스 컴포넌트의 지각가능성을 증가시키는 단계를 포함하는, 멀티채널 신호를 프로세싱하는 방법.
제 1 항 내지 제 7 항 중 어느 한 항에 있어서,
상기 지각가능성을 증가시키는 단계는, 분리된 상기 소스 컴포넌트의 스피치 콘텐츠의 지각가능성을 증가시키는 단계를 포함하는, 멀티채널 신호를 프로세싱하는 방법.
제 8 항에 있어서,
상기 스피치 콘텐츠의 지각가능성을 증가시키는 단계는, (A) 상기 스피치 콘텐츠의 속도를 가변시키는 것 및 (B) 상기 스피치 콘텐츠를 제 1 음성 언어 (spoken language) 로부터 상기 제 1 음성 언어와는 상이한 제 2 음성 언어로 번역하는 것 중에서 적어도 하나를 포함하는, 멀티채널 신호를 프로세싱하는 방법.
제 8 항에 있어서,
상기 스피치 콘텐츠의 지각가능성을 증가시키는 단계는, 분리된 상기 소스 컴포넌트보다 더 큰 수의 피치 주기들을 갖도록 상기 타겟 컴포넌트를 생성하는 단계를 포함하는, 멀티채널 신호를 프로세싱하는 방법.
제 1 항 내지 제 10 항 중 어느 한 항에 있어서,
상기 방법은, 상기 오디오 출력 신호에 기초하는 음향 신호를 생성하기 위해 확성기를 구동하는 단계를 포함하며, 상기 확성기는 사용자의 귀에 착용되도록 배치되고 상기 사용자의 이도 (ear canal) 로 향하게 되며,
상기 능동 잡음 제거 동작은 에러 마이크로폰에 의해 생성되는 신호에 기초하며, 상기 에러 마이크로폰은 상기 이도로 향하게 되도록 배치되는, 멀티채널 신호를 프로세싱하는 방법.
제 1 항 내지 제 10 항 중 어느 한 항에 있어서,
상기 멀티채널 신호에 대해 공간 선택적 프로세싱 동작을 수행하여 백그라운드 컴포넌트로부터 상기 소스 컴포넌트를 분리하는 단계는, 상기 백그라운드 컴포넌트로부터 상기 사용자와는 다른 사람의 보이스 (voice) 를 분리하는 단계를 포함하는, 멀티채널 신호를 프로세싱하는 방법.
제 1 오디오 입력 채널 및 제 2 오디오 입력 채널을 포함하는 멀티채널 신호를 프로세싱하는 장치로서,
잡음방지 신호를 생성하기 위해 상기 제 1 오디오 입력 채널에 대해 능동 잡음 제거 동작을 수행하는 수단;
소스 컴포넌트를 획득하기 위해 상기 멀티채널 신호를 프로세싱하는 수단으로서, 상기 프로세싱하는 수단은, 상기 멀티채널 신호에 대해 공간 선택적 프로세싱 동작을 수행하여 백그라운드 컴포넌트로부터 상기 소스 컴포넌트를 분리하는 수단을 포함하는, 상기 멀티채널 신호를 프로세싱하는 수단;
타겟 컴포넌트를 생성하기 위해 획득된 상기 소스 컴포넌트를 프로세싱하는 수단; 및
오디오 출력 신호를 생성하기 위해 상기 잡음방지 신호와 상기 타겟 컴포넌트에 기초하는 증강된 신호를 결합하는 수단을 포함하는, 멀티채널 신호를 프로세싱하는 장치.
제 13 항에 있어서,
상기 장치는, 상기 증강된 신호를 생성하기 위해 상기 타겟 컴포넌트와 분리된 상기 백그라운드 컴포넌트를 결합하는 수단을 포함하는, 멀티채널 신호를 프로세싱하는 장치.
제 13 항 또는 제 14 항에 있어서,
상기 공간 선택적 프로세싱 동작은 상기 소스 컴포넌트를 생성하기 위해 소스 방향으로 빔을 적용하는 것을 포함하는, 멀티채널 신호를 프로세싱하는 장치.
제 13 항 내지 제 15 항 중 어느 한 항에 있어서,
상기 공간 선택적 프로세싱 동작은 상기 백그라운드 컴포넌트를 생성하기 위해 상기 소스 방향으로 널 빔을 적용하는 것을 포함하는, 멀티채널 신호를 프로세싱하는 장치.
제 16 항에 있어서,
상기 공간 선택적 프로세싱 동작은 상기 백그라운드 컴포넌트를 생성하기 위해 잡음 소스의 방향으로 제 2 널 빔을 적용하는 것을 포함하는, 멀티채널 신호를 프로세싱하는 장치.
제 13 항 내지 제 17 항 중 어느 한 항에 있어서,
상기 공간 선택적 프로세싱 동작은 (A) 상기 제 1 오디오 입력 채널과 상기 제 2 오디오 입력 채널 간의 위상 차이들 및 (B) 상기 제 1 오디오 입력 채널과 상기 제 2 오디오 입력 채널 간의 이득 차이들 중에서 적어도 하나에 기초하는, 멀티채널 신호를 프로세싱하는 장치.
제 13 항 내지 제 18 항 중 어느 한 항에 있어서,
획득된 상기 소스 컴포넌트를 프로세싱하는 수단은, 분리된 상기 소스 컴포넌트를 증폭시키는 것, 분리된 상기 소스 컴포넌트의 동적 범위를 압축시키는 것, 분리된 상기 소스 컴포넌트를 잔향제거하는 것, 및 분리된 상기 소스 컴포넌트의 주파수 스펙트럼을 변경하는 것 중에서 적어도 하나에 의해 획득된 상기 소스 컴포넌트의 지각가능성을 증가시키는 수단을 포함하는, 멀티채널 신호를 프로세싱하는 장치.
제 13 항 내지 제 19 항 중 어느 한 항에 있어서,
상기 지각가능성을 증가시키는 것은, 분리된 상기 소스 컴포넌트의 스피치 콘텐츠의 지각가능성을 증가시키는 것을 포함하는, 멀티채널 신호를 프로세싱하는 장치.
제 20 항에 있어서,
상기 스피치 콘텐츠의 지각가능성을 증가시키는 것은, (A) 상기 스피치 콘텐츠의 속도를 가변시키는 것 및 (B) 상기 스피치 콘텐츠를 제 1 음성 언어 (spoken language) 로부터 상기 제 1 음성 언어와는 상이한 제 2 음성 언어로 번역하는 것 중에서 적어도 하나를 포함하는, 멀티채널 신호를 프로세싱하는 장치.
제 20 항에 있어서,
상기 스피치 콘텐츠의 지각가능성을 증가시키는 것은, 분리된 상기 소스 컴포넌트보다 더 큰 수의 피치 주기들을 갖도록 상기 타겟 컴포넌트를 생성하는 것을 포함하는, 멀티채널 신호를 프로세싱하는 장치.
제 13 항 내지 제 22 항 중 어느 한 항에 있어서,
상기 장치는, 상기 오디오 출력 신호에 기초하는 음향 신호를 생성하기 위해 확성기를 구동하는 수단을 포함하며, 상기 확성기는 사용자의 귀에 착용되도록 배치되고 상기 사용자의 이도 (ear canal) 로 향하게 되며,
상기 능동 잡음 제거 동작은 에러 마이크로폰에 의해 생성되는 신호에 기초하며, 상기 에러 마이크로폰은 상기 이도로 향하게 되도록 배치되는, 멀티채널 신호를 프로세싱하는 장치.
제 13 항 내지 제 22 항 중 어느 한 항에 있어서,
상기 멀티채널 신호에 대해 공간 선택적 프로세싱 동작을 수행하여 백그라운드 컴포넌트로부터 상기 소스 컴포넌트를 분리하는 것은, 상기 백그라운드 컴포넌트로부터 상기 사용자와는 다른 사람의 보이스 (voice) 를 분리하는 것을 포함하는, 멀티채널 신호를 프로세싱하는 장치.
제 1 오디오 입력 채널 및 제 2 오디오 입력 채널을 포함하는 멀티채널 신호를 프로세싱하는 장치로서,
잡음방지 신호를 생성하기 위해 상기 제 1 오디오 입력 채널에 대해 능동 잡음 제거 동작을 수행하도록 구성된 능동 잡음 제거 필터;
소스 컴포넌트를 획득하기 위해 상기 멀티채널 신호를 프로세싱하도록 구성된 증강 현실 프로세싱 모듈로서, 상기 증강 현실 프로세싱 모듈은 :
상기 멀티채널 신호에 대해 공간 선택적 프로세싱 동작을 수행하여 백그라운드 컴포넌트로부터 상기 소스 컴포넌트를 분리하도록 구성된 공간 선택적 필터; 및
(A) 타겟 컴포넌트를 생성하기 위해 획득된 상기 소스 컴포넌트를 프로세싱하고 (B) 상기 타겟 컴포넌트에 기초하는 증강된 신호를 출력하도록 구성된 증강 모듈을 포함하는, 상기 증강 현실 프로세싱 모듈; 및
오디오 출력 신호를 생성하기 위해 상기 잡음방지 신호와 상기 증강된 신호를 결합하도록 구성된 오디오 출력 스테이지를 포함하는, 멀티채널 신호를 프로세싱하는 장치.
제 25 항에 있어서,
상기 증강 모듈은, 상기 증강된 신호를 생성하기 위해 상기 타겟 컴포넌트와 분리된 상기 백그라운드 컴포넌트를 결합하도록 구성되는, 멀티채널 신호를 프로세싱하는 장치.
제 25 항 또는 제 26 항에 있어서,
상기 공간 선택적 프로세싱 동작은 상기 소스 컴포넌트를 생성하기 위해 소스 방향으로 빔을 적용하는 것을 포함하는, 멀티채널 신호를 프로세싱하는 장치.
제 25 항 내지 제 27 항 중 어느 한 항에 있어서,
상기 공간 선택적 프로세싱 동작은 상기 백그라운드 컴포넌트를 생성하기 위해 상기 소스 방향으로 널 빔을 적용하는 것을 포함하는, 멀티채널 신호를 프로세싱하는 장치.
제 28 항에 있어서,
상기 공간 선택적 프로세싱 동작은 상기 백그라운드 컴포넌트를 생성하기 위해 잡음 소스의 방향으로 제 2 널 빔을 적용하는 것을 포함하는, 멀티채널 신호를 프로세싱하는 장치.
제 25 항 내지 제 29 항 중 어느 한 항에 있어서,
상기 공간 선택적 프로세싱 동작은 (A) 상기 제 1 오디오 입력 채널과 상기 제 2 오디오 입력 채널 간의 위상 차이들 및 (B) 상기 제 1 오디오 입력 채널과 상기 제 2 오디오 입력 채널 간의 이득 차이들 중에서 적어도 하나에 기초하는, 멀티채널 신호를 프로세싱하는 장치.
제 25 항 내지 제 30 항 중 어느 한 항에 있어서,
상기 증강 모듈은, 분리된 상기 소스 컴포넌트를 증폭시키는 것, 분리된 상기 소스 컴포넌트의 동적 범위를 압축시키는 것, 분리된 상기 소스 컴포넌트를 잔향제거하는 것, 및 분리된 상기 소스 컴포넌트의 주파수 스펙트럼을 변경하는 것 중에서 적어도 하나에 의해 획득된 상기 소스 컴포넌트의 지각가능성을 증가시키도록 구성되는, 멀티채널 신호를 프로세싱하는 장치.
제 25 항 내지 제 31 항 중 어느 한 항에 있어서,
상기 증강 모듈은 분리된 상기 소스 컴포넌트의 스피치 콘텐츠의 지각가능성을 증가시키도록 구성되는, 멀티채널 신호를 프로세싱하는 장치.
제 32 항에 있어서,
상기 스피치 콘텐츠의 지각가능성을 증가시키는 것은, (A) 상기 스피치 콘텐츠의 속도를 가변시키는 것 및 (B) 상기 스피치 콘텐츠를 제 1 음성 언어 (spoken language) 로부터 상기 제 1 음성 언어와는 상이한 제 2 음성 언어로 번역하는 것 중에서 적어도 하나를 포함하는, 멀티채널 신호를 프로세싱하는 장치.
제 32 항에 있어서,
상기 스피치 콘텐츠의 지각가능성을 증가시키는 것은, 분리된 상기 소스 컴포넌트보다 더 큰 수의 피치 주기들을 갖도록 상기 타겟 컴포넌트를 생성하는 것을 포함하는, 멀티채널 신호를 프로세싱하는 장치.
제 25 항 내지 제 34 항 중 어느 한 항에 있어서,
상기 오디오 출력 스테이지는 상기 오디오 출력 신호에 기초하는 음향 신호를 생성하기 위해 확성기를 구동하도록 구성되며, 상기 확성기는 사용자의 귀에 착용되도록 배치되고 상기 사용자의 이도 (ear canal) 로 향하게 되며,
상기 능동 잡음 제거 동작은 에러 마이크로폰에 의해 생성되는 신호에 기초하며, 상기 에러 마이크로폰은 상기 이도로 향하게 되도록 배치되는, 멀티채널 신호를 프로세싱하는 장치.
제 25 항 내지 제 34 항 중 어느 한 항에 있어서,
상기 멀티채널 신호에 대해 공간 선택적 프로세싱 동작을 수행하여 백그라운드 컴포넌트로부터 상기 소스 컴포넌트를 분리하는 것은, 상기 백그라운드 컴포넌트로부터 상기 사용자와는 다른 사람의 보이스 (voice) 를 분리하는 것을 포함하는, 멀티채널 신호를 프로세싱하는 장치.
유형의 특징들을 갖는 컴퓨터 판독가능 저장 매체로서,
상기 유형의 특징들은, 상기 유형의 특징들을 판독하는 머신으로 하여금, 제 1 항 내지 제 12 항 중 어느 한 항에 기재된 멀티채널 신호를 프로세싱하는 방법을 수행하도록 하는, 컴퓨터 판독가능 저장 매체.