KR101228398B1

KR101228398B1 - 향상된 명료도를 위한 시스템, 방법, 장치 및 컴퓨터 프로그램 제품

Info

Publication number: KR101228398B1
Application number: KR1020117003877A
Authority: KR
Inventors: 에릭 피셔; 제레미 토만
Original assignee: 퀄컴 인코포레이티드
Priority date: 2008-07-18
Filing date: 2009-07-17
Publication date: 2013-01-31
Also published as: JP2011528806A; KR20110043699A; CN102057427A; CN102057427B; US8538749B2; JP5456778B2; US20100017205A1; JP2014003647A; WO2010009414A1; EP2319040A1; TW201015541A

Abstract

여기에 설명된 기술들은 재생된 오디오 신호 (예를 들어, 원단 스피치 신호) 의 명료도를 개선시키기 위한 등화 기술들의 사용을 포함한다.

Description

향상된 명료도를 위한 시스템, 방법, 장치 및 컴퓨터 프로그램 제품{SYSTEMS, METHODS, APPARATUS AND COMPUTER PROGRAM PRODUCTS FOR ENHANCED INTELLIGIBILITY}

35 U.S.C. §119 하의 우선권 주장

본 특허출원은, 발명의 명칭이 "SYSTEMS, METHODS, APPARATUS, AND COMPUTER PROGRAM PRODUCTS FOR ENHANCED INTELLIGIBILITY" 로서 2008년 7월 18일자로 출원된 대리인 참조번호 081737P1 의 가출원 제 61/081,987호, 및 발명의 명칭이 "SYSTEMS, METHODS, APPARATUS, AND COMPUTER PROGRAM PRODUCTS FOR ENHANCED INTELLIGIBILITY" 로서 2008년 9월 3일자로 출원된 대리인 참조번호 081737P2 의 가출원 제 61/093,969호에 대한 우선권을 주장하며, 그들은 본 발명의 양수인에게 양도되어 있고 여기에 참조로서 명백히 포함된다.

본 발명은 스피치 프로세싱에 관한 것이다.

음향 환경은 종종 잡음이 있으며, 이는 원하는 정보 신호를 청취하기 어렵게 한다. 잡음은 관심있는 신호와 간섭하는 또는 관심있는 신호를 열화시키는 모든 신호들의 결합으로서 정의될 수도 있다. 그러한 잡음은, 전화 대화에서의 원단 (far-end) 신호와 같은 원하는 재생된 오디오 신호를 마스킹하는 경향이 있다. 예를 들어, 사람은 음성 통신 채널을 사용하여 또 다른 사람과 통신하기를 원할 수도 있다. 예를 들어, 이동 무선 핸드셋 또는 헤드셋, 워키-토키, 양방향 라디오, 자동차-키트, 또는 다른 통신 디바이스에 의해 채널이 제공될 수도 있다. 음향 환경은, 통신 디바이스에 의해 재생되는 원단 신호와 경쟁하는 많은 제어가능하지 않은 잡음 소스들을 가질 수도 있다. 그러한 잡음은 불만족스러운 통신 경험을 초래할 수도 있다. 원단 신호가 배경 잡음과 구별되지 않으면, 원단 신호의 신뢰가능하고 효율적인 사용이 어려울 수도 있다.

일반적인 구성 (configuration) 에 따라 재생된 오디오 신호를 프로세싱하는 방법은, 그 재생된 오디오 신호를 필터링하여 제 1 복수의 시간-도메인 서브대역 신호들을 획득하는 단계, 및 제 1 복수의 시간-도메인 서브대역 신호들로부터의 정보에 기초하여 복수의 제 1 서브대역 전력 추정치들을 계산하는 단계를 포함한다. 이러한 방법은, 소스 신호 및 잡음 기준을 생성하기 위해 멀티채널 감지된 오디오 신호에 대해 공간 선택적 프로세싱 동작을 수행하는 단계, 그 잡음 기준을 필터링하여 제 2 복수의 시간-도메인 서브대역 신호들을 획득하는 단계, 및 제 2 복수의 시간-도메인 서브대역 신호들로부터의 정보에 기초하여 복수의 제 2 서브대역 전력 추정치들을 계산하는 단계를 포함한다. 이러한 방법은, 복수의 제 1 서브대역 전력 추정치들로부터의 정보 및 복수의 제 2 서브대역 전력 추정치들로부터의 정보에 기초하여, 재생된 오디오 신호의 적어도 하나의 주파수 서브대역을 재생된 오디오 신호의 적어도 하나의 다른 주파수 서브대역에 대해 부스팅시키는 단계를 포함한다.

일반적인 구성에 따라 재생된 오디오 신호를 프로세싱하는 방법은, 소스 신호 및 잡음 기준을 생성하기 위해 멀티채널 감지된 오디오 신호에 대해 공간 선택적 프로세싱 동작을 수행하는 단계, 및 재생된 오디오 신호의 복수의 서브대역들 각각에 대해 제 1 서브대역 전력 추정치를 계산하는 단계를 포함한다. 이러한 방법은, 잡음 기준의 복수의 서브대역들 각각에 대해 제 1 잡음 서브대역 전력 추정치를 계산하는 단계, 및 멀티채널 감지된 오디오 신호로부터의 정보에 기초하는, 제 2 잡음 기준의 복수의 서브대역들 각각에 대해 제 2 잡음 서브대역 전력 추정치를 계산하는 단계를 포함한다. 이러한 방법은, 재생된 오디오 신호의 복수의 서브대역들 각각에 대해, 대응하는 제 1 및 제 2 잡음 서브대역 전력 추정치들에 기초하는 제 2 서브대역 전력 추정치를 계산하는 단계를 포함한다. 이러한 방법은, 복수의 제 1 서브대역 전력 추정치들로부터의 정보 및 복수의 제 2 서브대역 전력 추정치들로부터의 정보에 기초하여, 재생된 오디오 신호의 적어도 하나의 주파수 서브대역을 재생된 오디오 신호의 적어도 하나의 다른 주파수 서브대역에 대해 부스팅시키는 단계를 포함한다.

일반적인 구성에 따라 재생된 오디오 신호를 프로세싱하기 위한 장치는, 재생된 오디오 신호를 필터링하여 제 1 복수의 시간-도메인 서브대역 신호들을 획득하도록 구성된 제 1 서브대역 신호 생성기, 및 제 1 복수의 시간-도메인 서브대역 신호들로부터의 정보에 기초하여 복수의 제 1 서브대역 전력 추정치들을 계산하도록 구성된 제 1 서브대역 전력 추정치 계산기를 포함한다. 이러한 장치는, 소스 신호 및 잡음 기준을 생성하기 위해 멀티채널 감지된 오디오 신호에 대해 공간 선택적 프로세싱 동작을 수행하도록 구성된 공간 선택적 프로세싱 필터, 및 잡음 기준을 필터링하여 제 2 복수의 시간-도메인 서브대역 신호들을 획득하도록 구성된 제 2 서브대역 신호 생성기를 포함한다. 이러한 장치는, 제 2 복수의 시간-도메인 서브대역 신호들로부터의 정보에 기초하여 복수의 제 2 서브대역 전력 추정치들을 계산하도록 구성된 제 2 서브대역 전력 추정치 계산기, 및 복수의 제 1 서브대역 전력 추정치들로부터의 정보 및 복수의 제 2 서브대역 전력 추정치들로부터의 정보에 기초하여, 재생된 오디오 신호의 적어도 하나의 주파수 서브대역을 재생된 오디오 신호의 적어도 하나의 다른 주파수 서브대역에 대해 부스팅시키도록 구성된 서브대역 필터 어레이를 포함한다.

일반적인 구성에 따른 컴퓨터-판독가능 매체는, 프로세서에 의해 실행될 경우 그 프로세서로 하여금 재생된 오디오 신호를 프로세싱하는 방법을 수행하게 하는 명령들을 포함한다. 이들 명령들은, 프로세서에 의해 실행될 경우 그 프로세서로 하여금, 재생된 오디오 신호를 필터링하여 제 1 복수의 시간-도메인 서브대역 신호들을 획득하게 하고 제 1 복수의 시간-도메인 서브대역 신호들로부터의 정보에 기초하여 복수의 제 1 서브대역 전력 추정치들을 계산하게 하는 명령들을 포함한다. 또한, 그 명령들은, 프로세서에 의해 실행될 경우 그 프로세서로 하여금, 소스 신호 및 잡음 기준을 생성하기 위해 멀티채널 감지된 오디오 신호에 대해 공간 선택적 프로세싱 동작을 수행하게 하고, 잡음 기준을 필터링하여 제 2 복수의 시간-도메인 서브대역 신호들을 획득하게 하는 명령들을 포함한다. 또한, 그 명령들은, 프로세서에 의해 실행될 경우 그 프로세서로 하여금, 제 2 복수의 시간-도메인 서브대역 신호들로부터의 정보에 기초하여 복수의 제 2 서브대역 전력 추정치들을 계산하게 하고, 복수의 제 1 서브대역 전력 추정치들로부터의 정보 및 복수의 제 2 서브대역 전력 추정치들로부터의 정보에 기초하여, 재생된 오디오 신호의 적어도 하나의 주파수 서브대역을 재생된 오디오 신호의 적어도 하나의 다른 주파수 서브대역에 대해 부스팅시키게 하는 명령들을 포함한다.

일반적인 구성에 따라 재생된 오디오 신호를 프로세싱하기 위한 장치는, 소스 신호 및 잡음 기준을 생성하기 위해 멀티채널 감지된 오디오 신호에 대해 지향성 프로세싱 동작을 수행하는 수단을 포함한다. 또한, 이러한 장치는, 등화된 오디오 신호를 생성하기 위해 재생된 오디오 신호를 등화시키는 수단을 포함한다. 이러한 장치에서, 등화시키는 수단은, 잡음 기준으로부터의 정보에 기초하여 재생된 오디오 신호의 적어도 하나의 주파수 서브대역을 재생된 오디오 신호의 적어도 하나의 다른 주파수 서브대역에 대해 부스팅시키도록 구성된다.

도 1은 아티큘레이션 인덱스 플롯이다.
도 2는 통상적인 협대역 전화통신 애플리케이션에서의 재생 스피치 신호에 대한 전력 스펙트럼을 도시한다.
도 3은 통상적인 스피치 전력 스펙트럼 및 통상적인 잡음 전력 스펙트럼의 일 예를 도시한다.
도 4a는 도 3의 예에 대한 자동 볼륨 제어의 적용을 도시한다.
도 4b는 도 3의 예에 대한 서브대역 등화의 적용을 도시한다.
도 5는 일반적인 구성에 따른 장치 (A100) 의 블록도를 도시한다.
도 6a는 제 1 동작 구성에서의 2-마이크로폰 핸드셋 (H100) 의 다이어그램을 도시한다.
도 6b는 핸드셋 (H100) 에 대한 제 2 동작 구성을 도시한다.
도 7a는 3개의 마이크로폰들을 포함하는 핸드셋 (H100) 의 일 구현 (H110) 의 다이어그램을 도시한다.
도 7b는 핸드셋 (H110) 의 2개의 다른 뷰들을 도시한다.
도 8은 헤드셋의 상이한 동작 구성들의 일 범위의 다이어그램을 도시한다.
도 9는 핸드-프리 자동차 키트의 다이어그램을 도시한다.
도 10a 내지 10c는 미디어 재생 디바이스들의 예들을 도시한다.
도 11은 공간 선택적 프로세싱 (SSP) 필터 (SS10) 의 일 예에 대한 빔 패턴을 도시한다.
도 12a는 SSP 필터 (SS10) 의 일 구현 (SS20) 의 블록도를 도시한다.
도 12b는 장치 (A100) 의 일 구현 (A105) 의 블록도를 도시한다.
도 12c는 SSP 필터 (SS10) 의 일 구현 (SS110) 의 블록도를 도시한다.
도 12d는 SSP 필터 (SS20 및 SS110) 의 일 구현 (SS120) 의 블록도를 도시한다.
도 13은 장치 (A100) 의 일 구현 (A110) 의 블록도를 도시한다.
도 14는 오디오 프리프로세서 (AP10) 의 일 구현 (AP20) 의 블록도를 도시한다.
도 15a는 에코 소거기 (EC10) 의 일 구현 (EC12) 의 블록도를 도시한다.
도 15b는 에코 소거기 (EC20a) 의 일 구현 (EC22a) 의 블록도를 도시한다.
도 16a는 장치의 일 인스턴스 (A110) 를 포함하는 통신 디바이스 (D100) 의 블록도를 도시한다.
도 16b는 통신 디바이스 (D100) 의 일 구현 (D200) 의 블록도를 도시한다.
도 17은 등화기 (EQ10) 의 일 구현 (EQ20) 의 블록도를 도시한다.
도 18a는 서브대역 신호 생성기 (SG200) 의 블록도를 도시한다.
도 18b는 서브대역 신호 생성기 (SG300) 의 블록도를 도시한다.
도 18c는 서브대역 전력 추정치 계산기 (EC110) 의 블록도를 도시한다.
도 18d는 서브대역 전력 추정치 계산기 (EC120) 의 블록도를 도시한다.
도 19는 7개의 바크 스케일 (Bark scale) 서브대역들의 세트의 에지들을 나타내는 도트들의 행을 포함한다.
도 20은 서브대역 필터 어레이 (SG30) 의 일 구현 (SG32) 의 블록도를 도시한다.
도 21a는 일반적인 무한 임펄스 응답 (IIR) 필터 구현에 대한 전치 직접형 II (transposed direct form II) 를 도시한다.
도 21b는 IIR 필터의 바이쿼드 (biquad) 구현에 대한 전치 직접형 II 구조를 도시한다.
도 22는 IIR 필터의 바이쿼드 구현의 일 예에 대한 크기 및 위상 응답 플롯들을 도시한다.
도 23은 일련의 7개의 바이쿼드들에 대한 크기 및 위상 응답들을 도시한다.
도 24a는 서브대역 이득 팩터 계산기 (GC100) 의 일 구현 (GC200) 의 블록도를 도시한다.
도 24b는 서브대역 이득 팩터 계산기 (GC100) 의 일 구현 (GC300) 의 블록도를 도시한다.
도 25a는 의사코드 리스팅을 도시한다.
도 25b는 도 25a의 의사코드 리스팅의 변형을 도시한다.
도 26a 및 26b는, 각각, 도 25a 및 25b의 의사코드 리스팅들의 변형들을 도시한다.
도 27은, 병렬로 배열된 대역통과 필터들의 세트를 포함하는 서브대역 필터 어레이 (FA100) 의 일 구현 (FA110) 의 블록도를 도시한다.
도 28a는, 대역통과 필터들이 직렬로 배열된 서브대역 필터 어레이 (FA100) 의 일 구현 (FA120) 의 블록도를 도시한다.
도 28b는 IIR 필터의 바이쿼드 구현의 또 다른 예를 도시한다.
도 29는 장치 (A100) 의 일 구현 (A120) 의 블록도를 도시한다.
도 30a 및 30b는, 각각, 도 26a 및 26b의 의사코드 리스팅들의 변형들을 도시한다.
도 31a 및 31b는, 각각, 도 26a 및 26b의 의사코드 리스팅들의 다른 변형들을 도시한다.
도 32는 장치 (A100) 의 일 구현 (A130) 의 블록도를 도시한다.
도 33은 피크 제한기 (L10) 를 포함하는 등화기 (EQ20) 의 일 구현 (EQ40) 의 블록도를 도시한다.
도 34는 장치 (A100) 의 일 구현 (A140) 의 블록도를 도시한다.
도 35a는 피크 제한 동작의 일 예를 설명하는 의사코드 리스팅을 도시한다.
도 35b는 도 35a의 의사코드 리스팅의 또 다른 버전을 도시한다.
도 36은 분리도 평가기 (EV10) 를 포함하는 장치 (A100) 의 일 구현 (A200) 의 블록도를 도시한다.
도 37은 장치 (A200) 의 일 구현 (A210) 의 블록도를 도시한다.
도 38은 등화기 (EQ100) (및 등화기 (EQ20) 의) 일 구현 (EQ110) 의 블록도를 도시한다.
도 39는 등화기 (EQ100) (및 등화기 (EQ20) 의) 일 구현 (EQ120) 의 블록도를 도시한다.
도 40은 등화기 (EQ100) (및 등화기 (EQ20) 의) 일 구현 (EQ130) 의 블록도를 도시한다.
도 41a는 서브대역 신호 생성기 (EC210) 의 블록도를 도시한다.
도 41b는 서브대역 신호 생성기 (EC220) 의 블록도를 도시한다.
도 42는 등화기 (EQ130) 의 일 구현 (EQ140) 의 블록도를 도시한다.
도 43a는 등화기 (EQ20) 의 일 구현 (EQ50) 의 블록도를 도시한다.
도 43b는 등화기 (EQ20) 의 일 구현 (EQ240) 의 블록도를 도시한다.
도 43c는 장치 (A100) 의 일 구현 (A250) 의 블록도를 도시한다.
도 43d는 등화기 (EQ240) 의 일 구현 (EQ250) 의 블록도를 도시한다.
도 44는 음성 활성도 검출기 (V20) 를 포함하는 장치 (A200) 의 일 구현 (A220) 을 도시한다.
도 45는 장치 (A100) 의 일 구현 (A300) 의 블록도를 도시한다.
도 46은 장치 (A300) 의 일 구현 (A310) 의 블록도를 도시한다.
도 47은 장치 (A310) 의 일 구현 (A320) 의 블록도를 도시한다.
도 48은 장치 (A310) 의 일 구현 (A330) 의 블록도를 도시한다.
도 49는 장치 (A100) 의 일 구현 (A400) 의 블록도를 도시한다.
도 50은 설계 방법 (M10) 의 흐름도를 도시한다.
도 51은 트레이닝 데이터의 레코딩을 위해 구성된 음향 무반향 (anechoic) 챔버의 일 예를 도시한다.
도 52a는 적응적 필터 구조 (FS10) 의 2-채널 예의 블록도를 도시한다.
도 52b는 필터 구조 (FS10) 의 일 구현 (FS20) 의 블록도를 도시한다.
도 53은 무선 전화 시스템을 도시한다.
도 54는 패킷-스위칭 데이터 통신들을 지원하도록 구성된 무선 전화 시스템을 도시한다.
도 55는 일 구성에 따른 방법 (M110) 의 흐름도를 도시한다.
도 56은 일 구성에 따른 방법 (M120) 의 흐름도를 도시한다.
도 57은 일 구성에 따른 방법 (M210) 의 흐름도를 도시한다.
도 58은 일 구성에 따른 방법 (M220) 의 흐름도를 도시한다.
도 59a는 일반적인 구성에 따른 방법 (M300) 의 흐름도를 도시한다.
도 59b는 태스크 (T820) 의 일 구현 (T822) 의 흐름도를 도시한다.
도 60a는 태스크 (T840) 의 일 구현 (T842) 의 흐름도를 도시한다.
도 60b는 태스크 (T840) 의 일 구현 (T844) 의 흐름도를 도시한다.
도 60c는 태스크 (T820) 의 일 구현 (T824) 의 흐름도를 도시한다.
도 60d는 방법 (M300) 의 일 구현 (M310) 의 흐름도를 도시한다.
도 61은 일 구성에 따른 방법 (M400) 의 흐름도를 도시한다.
도 62a는 일반적인 구성에 따른 장치 (F100) 의 블록도를 도시한다.
도 62b는 수단 (F120) 의 일 구현 (F122) 의 블록도를 도시한다.
도 63a는 일반적인 구성에 따른 방법 (V100) 의 흐름도를 도시한다.
도 63b는 일반적인 구성에 따른 장치 (W100) 의 블록도를 도시한다.
도 64a는 일반적인 구성에 따른 방법 (V200) 의 흐름도를 도시한다.
도 64b는 일반적인 구성에 따른 장치 (W200) 의 블록도를 도시한다.

이들 도면에서, 동일한 라벨의 사용은, 콘텍스트가 그와 다르게 나타내지 않는다면, 동일한 구조의 예를 나타낸다.

PDA 및 셀 전화기와 같은 핸드셋들은 최상의 이동 스피치 통신 디바이스들로서 급속히 반전하고 있으며, 셀룰러 및 인터넷 네트워크에 대한 모바일 액세스를 위한 플랫폼으로서 기능한다. 조용한 사무실 또는 가정 환경에서 데스크탑 컴퓨터, 랩탑 컴퓨터, 및 오피스 전화기 상에서 이전에 수행되었던 기능들이 더욱 더 자동차, 거리, 카페, 또는 공항과 같은 상황들에서 매일 수행되고 있다. 이러한 트렌드는, 사용자들이 다른 사람들에 의해 둘러싸인 환경에서 음성 통신의 상당한 양이 발생하고 있다는 것을 의미하며, 그 종류의 잡음 콘텐츠는 사람들이 모이는 경향이 있는 곳에서 통상적으로 직면된다. 그러한 환경에서 음성 통신들 및/또는 오디오 재생을 위해 사용될 수도 있는 다른 디바이스들은, 유선 및/또는 무선 헤드셋들, 오디오 또는 시청각 미디어 재생 디바이스들 (예를 들어, MP3 또는 MP4 플레이어), 및 유사한 휴대용 또는 이동 기기들을 포함한다.

여기에 설명된 바와 같은 시스템들, 방법들, 및 장치는, 특히 잡음있는 환경에서, 수신되거나 재생된 오디오 신호의 증가된 명료도를 지원하는데 사용될 수도 있다. 그러한 기술들은 임의의 트랜시빙 및/또는 오디오 재생 애플리케이션, 특히 그러한 애플리케이션들의 모바일 또는 휴대용 인스턴스들에서 일반적으로 적용될 수도 있다. 예를 들어, 여기에 개시된 구성들의 범위는, 코드-분할 다중-액세스 (CDMA) 공중-경유 인터페이스를 이용하도록 구성된 무선 전화 통신 시스템에 상주하는 통신 디바이스들을 포함한다. 그럼에도, 여기에 설명된 바와 같은 특성들을 갖는 방법 및 장치가, 유선 및/또는 무선 (예를 들어, CDMA, TDMA, FDMA, 및/또는 TD-SCDMA) 송신 채널들을 통해 보이스 오버 IP (VoIP) 를 이용하는 시스템들과 같이, 당업계에 알려진 광범위한 기술들을 이용하는 임의의 다양한 통신 시스템들에 상주할 수도 있음을 당업자는 이해할 것이다.

여기에 개시된 통신 디바이스들이 패킷-스위칭된 (예를 들어, VoIP와 같은 프로토콜들에 따라 오디오 송신을 운반하도록 배열된 유선 및/또는 무선 네트워크) 및/또는 회로-스위칭된 네크워크들에서의 사용을 위해 적응될 수도 있다는 것이 명백히 고려되고 여기에 개시된다. 또한, 여기에 개시된 통신 디바이스들이 협대역 코딩 시스템 (예를 들어, 약 4 또는 5 킬로헤르츠의 오디오 주파수 범위를 인코딩하는 시스템들) 에서의 사용, 및/또는 전체-대역 (whole-band) 광대역 코딩 시스템들 및 대역-분할 (split-band) 광대역 코딩 시스템들을 포함하는 광대역 코딩 시스템 (예를 들어, 5 킬로헤르츠보다 큰 오디오 주파수들을 인코딩하는 시스템들) 에서의 사용을 위해 적응될 수도 있다는 것이 명백히 고려되고 여기에 개시된다.

콘텍스트에 의해 명백히 제한되지 않는다면, "신호" 라는 용어는, 와이어, 버스, 또는 다른 송신 매체 상에서 표현되는 바와 같이 메모리 위치 (또는 메모리 위치들의 세트) 의 상태를 포함하는 본래의 의미들 중 임의의 의미를 나타내도록 여기에서 사용된다. 콘텍스트에 의해 명백히 제한되지 않는다면, "생성하는" 이라는 용어는, 컴퓨팅 또는 제조와 같은 본래의 의미들 중 임의의 의미를 나타내도록 여기에서 사용된다. 콘텍스트에 의해 명백히 제한되지 않는다면, "계산하는" 이라는 용어는, 컴퓨팅, 평가, 평활화, 및/또는 복수의 값들로부터 선택과 같은 본래의 의미들 중 임의의 의미를 나타내도록 여기에서 사용된다. 콘텍스트에 의해 명백히 제한되지 않는다면, "획득하는" 이라는 용어는, 계산, 유도, (예를 들어, 외부 디바이스로부터의) 수신, 및/또는 (예를 들어, 저장 엘리먼트들의 어레이로부터의) 검색과 같은 본래의 의미들 중 임의의 의미를 나타내도록 사용된다. "포함하는" 이라는 용어가 본 발명의 설명 및 청구항들에서 사용될 경우, 그것은 다른 엘리먼트들 또는 동작들을 배제하지는 않는다. ("A는 B에 기초한다" 에서와 같이) "기초하는" 이라는 용어는, (i) "적어도 기초하는" (예를 들어, "A는 적어도 B에 기초한다") 및 특정한 콘텍스트에서 적절하다면 (ii) "동일한" (예를 들어, "A는 B와 동일하다) 의 경우들을 포함하는 본래의 의미들 중 임의의 의미를 나타내도록 사용된다. 유사하게, "에 응답하여" 라는 용어는, "에 적어도 응답하여" 를 포함하는 본래의 의미들 중 임의의 의미를 나타내도록 사용된다.

달리 표시되지 않는다면, 특정한 특성을 갖는 장치의 동작의 임의의 개시는 유사한 특성을 갖는 방법을 개시하도록 또한 명백히 의도되며 (및 그 역도 가능함), 특정한 구성에 따른 장치의 동작의 임의의 개시는 유사한 구성에 따른 방법을 개시하도록 또한 명백히 의도된다 (및 그 역도 가능함). "구성" 이라는 용어는 특정한 콘텍스트에 의해 표시된 바와 같이 방법, 장치, 및/또는 시스템에 관해 사용될 수도 있다. "방법", "프로세스", "절차", 및 "기술" 이라는 용어는, 특정한 콘텍스트에 의해 달리 표시되지 않는다면 일반적으로 및 상호교환가능하게 사용된다. 또한, "장치" 및 "디바이스" 라는 용어는, 특정한 콘텍스트에 의해 달리 표시되지 않는다면 일반적으로 및 상호교환가능하게 사용된다. 통상적으로, "엘리먼트" 및 "모듈" 이라는 용어는, 더 큰 구성의 일부를 나타내도록 사용된다. 또한, 문헌의 일부의 참조에 의한 임의의 포함은, 그 일부 내에서 참조되는 용어들 또는 변수들의 정의들 뿐만 아니라 포함된 부분에서 참조되는 임의의 도면들을 포함하는 것으로 이해되어야 하며, 여기서, 그러한 정의는 그 문헌의 임의의 곳에서 나타난다.

"코더", "코덱", 및 "코딩 시스템" 이라는 용어들은, (가급적, 지각적인 가중 및/또는 다른 필터링 동작과 같은 하나 이상의 프리-프로세싱 동작들 이후) 오디오 신호의 프레임들을 수신 및 인코딩하도록 구성된 적어도 하나의 인코더 및 프레임들의 디코딩된 표현들을 생성하도록 구성된 대응하는 디코더를 포함하는 시스템을 나타내도록 상호교환가능하게 사용된다. 통상적으로, 그러한 인코더 및 디코더는 통신 링크의 대향 단자들에 배치된다. 풀-듀플렉스 통신을 지원하기 위해, 인코더 및 디코더 양자의 인스턴스들은 그러한 링크의 각각의 말단에 통상적으로 배치된다.

이러한 설명에서, "감지된 오디오 신호" 라는 용어는 하나 이상의 마이크로폰들을 통해 수신된 신호를 나타내고, "재생된 오디오 신호" 라는 용어는, 저장부로부터 검색되고/되거나 또 다른 디바이스에 대한 유선 또는 무선 접속을 통해 수신되는 정보로부터 재생되는 신호를 나타낸다. 통신 또는 재생 디바이스와 같은 오디오 재생 디바이스는, 재생된 오디오 신호를 그 디바이스의 하나 이상의 라우드스피커들에 출력하도록 구성될 수도 있다. 대안적으로, 그러한 디바이스는, 유선을 통해 또는 무선으로 그 디바이스에 커플링된 외부 라우드스피커, 다른 헤드셋, 또는 이어피스에 재생된 오디오 신호를 출력하도록 구성될 수도 있다. 전화통신과 같은 음성 통신을 위한 트랜시버 애플리케이션들에 관하여, 감지된 오디오 신호는 트랜시버에 의해 송신될 근단 신호이고, 재생된 오디오 신호는 (예를 들어, 무선 통신 링크를 통해) 트랜시버에 의해 수신되는 원단 신호이다. 레코딩된 뮤직 또는 스피치 (예를 들어, MP3, 오디오북, 팟캐스트) 의 재생 또는 그러한 콘텐츠의 스트리밍과 같은 모바일 오디오 재생 애플리케이션들에 관하여, 재생된 오디오 신호는 재생되거나 스트리밍될 오디오 신호이다.

재생된 스피치 신호의 명료도는 신호의 스펙트럼 특징과 관련하여 변할 수도 있다. 예를 들어, 도 1의 아티큘레이션 인덱스 플롯은, 스피치 명료도에 대한 상대적인 기여도가 오디오 주파수에 따라 어떻게 변하는지를 도시한다. 이러한 플롯은, 1kHz 와 4kHz 사이의 주파수 컴포넌트들이 명료도에 특히 중요하다는 것을 나타내며, 상대적인 중요도는 약 2kHz 에서 피크한다.

도 2는, 통상적인 협대역 전화통신 애플리케이션에서 재생 스피치 신호에 대한 전력 스펙트럼을 도시한다. 이러한 다이어그램은, 주파수가 500Hz 이상으로 증가함에 따라 그러한 신호의 에너지가 급속하게 감소된다는 것을 나타낸다. 그러나, 도 1에 도시된 바와 같이, 최대 4kHz의 주파수들은 스피치 명료도에 매우 중요할 수도 있다. 따라서, 500Hz 와 4000Hz 사이의 주파수 대역에서 에너지들을 인공적으로 부스팅시키는 것은, 그러한 전화통신 애플리케이션에서 재생 스피치 신호의 명료도를 개선시키도록 기대될 수도 있다.

일반적으로, 4kHz 이상의 오디오 주파수들은 1kHz 내지 4kHz 대역만큼 명료도에 중요하지는 않으므로, 통상적인 대역-제한 통신 채널을 통해 협대역 신호를 송신하는 것은 명료한 대화를 행하는데 일반적으로 충분하다. 그러나, 통신 채널이 광대역 신호의 송신을 지원하는 경우에 대해 개인용 스피치 특색들의 증가된 명료함 및 더 양호한 통신이 기대될 수도 있다. 음성 전화통신 콘텍스트에서, "협대역" 이라는 용어는 약 0 내지 500Hz (예를 들어, 0, 50, 100, 또는 200Hz) 로부터 약 3 내지 5kHz (예를 들어, 3500, 4000, 또는 4500Hz) 까지의 주파수 범위를 지칭하고, "광대역" 이라는 용어는 약 0 내지 500Hz (예를 들어, 0, 50, 100, 또는 200Hz) 로부터 약 7 내지 8kHz (예를 들어, 7000, 7500, 또는 8000Hz) 까지의 주파수 범위를 지칭한다.

스피치 신호의 선택된 부분들을 부스팅시킴으로써 스피치 명료도를 증가시키는 것이 바람직할 수도 있다. 청취 보조 애플리케이션들에서, 예를 들어, 재생된 오디오 신호에서 특정한 주파수 서브대역들을 부스팅시킴으로써 그들 서브대역들에서 알려진 청취 손실을 보상하기 위해 동적 범위 압축 기술들이 사용될 수도 있다.

실제 세상은 단일 포인트 잡음 소스들을 포함하는 다수의 잡음 소스들이 많이 존재하며, 종종, 잔향 (reverberation) 을 초래하는 다수의 사운드들로 벗어난다. 배경 음향 잡음은, 일반적인 환경에 의해 생성된 다수의 잡음 신호들 및 다른 사람들의 배경 대화에 의해 생성되는 간섭 신호들 뿐만 아니라, 신호들 각각으로부터 생성된 반사들 및 잔향들을 포함할 수도 있다.

환경 잡음은, 원단 스피치 신호와 같은 재생된 오디오 신호의 명료도에 영향을 줄 수도 있다. 통신이 잡음있는 환경에서 발생하는 애플리케이션들에 대하여, 배경 잡음으로부터 스피치 신호를 구별하고 그의 명료도를 향상시키기 위한 스피치 프로세싱 방법을 사용하는 것이 바람직할 수도 있다. 잡음이 실제 세상 조건에서 거의 항상 존재하므로, 그러한 프로세싱은 일상 생활의 통신의 많은 영역에서 중요할 수도 있다.

자동 이득 제어 (AGC, 또한 자동 볼륨 제어 또는 AVC로 지칭됨) 는, 잡음있는 환경에서 재생될 오디오 신호의 명료도를 증가시키는데 사용될 수도 있는 프로세싱 방법이다. 자동 이득 제어 기술은, 제한된 진폭 대역으로 신호의 동적 범위를 압축시키는데 사용될 수도 있으며, 그에 의해, 저전력을 갖는 신호의 세그먼트들을 부스팅시키고 고전력을 갖는 세그먼트들에서 에너지를 감소시킨다. 도 3은, 자연적인 스피치 전력 롤-오프 (roll-off) 는 전력이 주파수에 따라 감소되게 하는 통상적인 스피치 전력 스펙트럼, 및 전력이 스피치 주파수들의 적어도 일 범위에 걸쳐 일반적으로 일정한 통상적인 잡음 전력 스펙트럼의 일 예를 도시한다. 그러한 경우, 스피치 신호의 고주파수 컴포넌트들은 잡음 신호의 대응하는 컴포넌트들보다 적은 에너지를 가질 수도 있으며, 이는 고주파수 스피치 대역들의 마스킹을 초래한다. 도 4a는 그러한 일 예에 대한 AVC의 적용을 도시한다. 통상적으로, AVC 모듈은 이러한 도면에 도시된 바와 같이, 스피치 신호의 모든 주파수 대역들을 분별없이 부스팅시키도록 구현된다. 그러한 접근법은 고주파수 전력에서의 적절한 부스트를 위해 큰 동적 범위의 증폭된 신호를 요구할 수도 있다.

통상적으로, 고주파수 대역에서의 스피치 전력이 저주파수 대역에서의 스피치 전력보다 일반적으로 훨씬 더 작으므로, 배경 잡음은 저주파수 콘텐츠보다 훨씬 더 신속하게 고주파수 스피치 콘텐츠를 압도한다. 따라서, 신호의 전체 볼륨을 간단히 부스팅시키는 것은, 명료도에 현저히 기여하지 않을 수도 있는 1kHz 미만의 저주파수 콘텐츠를 부스팅시킬 필요가 없을 것이다. 대신, 재생된 오디오 신호에 대한 잡음 마스킹 영향들을 보상하기 위해 오디오 주파수 서브대역 전력을 조정하는 것이 바람직할 수도 있다. 예를 들어, 고주파수에 대한 스피치 전력의 고유한 롤-오프를 보상하기 위해, 잡음-대-스피치 서브대역 전력의 비율에 반비례로 스피치 전력을 부스팅시키며 고주파수 서브대역들에서는 불균형하게 이를 행하는 것이 바람직할 수도 있다.

환경 잡음에 의해 좌우되는 주파수 서브대역들에서 낮은 음성 전력을 보상하는 것이 바람직할 수도 있다. 도 4b에 도시된 바와 같이, 예를 들어, (예를 들어, 스피치-대-잡음 비율에 따라) 스피치 신호의 상이한 서브대역들에 상이한 이득 부스트들을 적용함으로써 명료도를 부스팅시키기 위해, 선택된 서브대역들에 작동하는 것이 바람직할 수도 있다. 도 4a에 도시된 AVC 예와는 대조적으로, 그러한 등화는 더 명확하고 더 명료한 신호를 제공하면서 저-주파수 컴포넌트들의 불필요한 부스트를 회피하도록 기대될 수도 있다.

그러한 방식으로 스피치 전력을 선택적으로 부스팅시키기 위해, 환경 잡음 레벨의 신뢰가능한 동시 추정 (contemporaneous estimate) 를 획득하는 것이 바람직할 수도 있다. 그러나, 실제 애플리케이션들에서, 종래의 단일 마이크로폰 또는 고정된 빔포밍 타입 방법들을 사용하여, 감지된 오디오 신호로부터 환경 잡음을 모델링하는 것이 어려울 수도 있다. 도 3이 주파수에 관해 일정한 잡음 레벨을 제안하지만, 통상적으로, 통신 디바이스 또는 미디어 재생 디바이스의 실제 애플리케이션에서의 환경 잡음 레벨은 시간 및 주파수 양자에 걸쳐 현저하고 급속하게 변한다.

통상적인 환경에서의 음향 잡음은, 배블 (babble) 잡음, 공항 잡음, 거리 잡음, 다투는 사람들의 음성들, 및/또는 간섭 소스들 (예를 들어, TV 세트 또는 라디오) 로부터의 사운드들을 포함할 수도 있다. 따라서, 그러한 잡음은 통상적으로 비고정형이며, 사용자 자신의 음성의 스펙트럼과 근접한 평균 스펙트럼을 가질 수도 있다. 일반적으로, 단일 마이크로폰 신호로부터 계산되는 바와 같은 잡음 전력 기준 신호는, 단지 대략적으로 고정형인 잡음 추정치이다. 또한, 그러한 계산은 일반적으로 잡음 전력 추정 지연을 수반하므로, 서브대역 이득들의 대응하는 조정들만이 상당한 지연 이후 수행될 수 있다. 환경 잡음의 신뢰가능한 동시 추정을 획득하는 것이 바람직할 수도 있다.

도 5는 공간 선택적 프로세싱 필터 (SS10) 및 등화기 (EQ10) 를 포함하는 일반적인 구성에 따라 오디오 신호들 (A100) 을 프로세싱하도록 구성된 장치의 블록도를 도시한다. 공간 선택적 프로세싱 (SSP) 필터 (SS10) 는, 소스 신호 (S20) 및 잡음 기준 (S30) 을 생성하기 위해 M-채널 감지된 오디오 신호 (S10) (여기서, M은 1보다 큼) 에 대해 공간 선택적 프로세싱 동작을 수행하도록 구성된다. 등화기 (EQ10) 는, 등화된 오디오 신호 (S50) 를 생성하기 위해 잡음 기준 (S30) 으로부터의 정보에 기초하여 재생된 오디오 신호 (S40) 의 스펙트럼 특성들을 동적으로 수정하도록 구성된다. 예를 들어, 등화기 (EQ10) 는, 등화된 오디오 신호 (S50) 를 생성하도록 재생된 오디오 신호 (S40) 의 적어도 하나의 주파수 서브대역을 재생된 오디오 신호 (S40) 의 적어도 하나의 다른 주파수 서브대역에 대해 부스팅시키 위해 잡음 기준 (S30) 으로부터의 정보를 사용하도록 구성될 수도 있다.

장치 (A100) 의 통상적인 애플리케이션에서, 감지된 오디오 신호 (S10) 의 각각의 채널은, M개의 마이크로폰들의 어레이 중 대응하는 하나로부터의 신호에 기초한다. 그러한 마이크로폰들의 어레이를 갖는 장치 (A100) 의 일 구현을 포함하도록 구현될 수도 있는 오디오 재생 디바이스들의 예들은, 통신 디바이스들 및 오디오 또는 시청각 재생 디바이스들을 포함한다. 그러한 통신 디바이스들의 예들은, 전화 핸드셋들 (예를 들어, 셀룰러 전화 핸드셋들), 유선 및/또는 무선 헤드셋들 (예를 들어, 블루투스 헤드셋들), 및 핸드-프리 자동차 키트들을 제한없이 포함한다. 그러한 오디오 또는 시청각 재생 디바이스들의 예들은, 스트리밍 또는 프리리코딩된 오디오 또는 시청각 콘텐츠를 재생하도록 구성된 미디어 플레이어들을 제한없이 포함한다.

M개의 마이크로폰들의 어레이는, 2개의 마이크로폰들 (MC10 및 MC20) (예를 들어, 스테레오 어레이) 또는 3개 이상의 마이크로폰들을 갖도록 구현될 수도 있다. 어레이의 각각의 마이크로폰은 무지향성, 양방향 지향성, 또는 단일지향성 (예를 들어, 카디오이드) 응답을 가질 수도 있다. 사용될 수도 있는 마이크로폰들의 다양한 타입들은, 압전식 마이크로폰들, 동적 마이크로폰들, 및 일렉트릿 마이크로폰들을 (제한없이) 포함한다.

장치 (A100) 의 일 구현을 포함하도록 구성될 수도 있는 오디오 재생 디바이스의 몇몇 예들은 도 6a 내지 10c에 도시되어 있다. 도 6a는 제 1 동작 구성에서의 2-마이크로폰 핸드셋 (H100) (예를 들어, 클램셀-타입 셀룰러 전화 핸드셋) 의 다이어그램을 도시한다. 핸드셋 (H100) 은 1차 마이크로폰 (MC10) 및 2차 마이크로폰 (MC20) 을 포함한다. 이러한 예에서, 핸드셋 (H100) 은 1차 라우드스피커 (SP10) 및 2차 라우드스피커 (SP20) 를 또한 포함한다. 핸드셋 (H100) 이 제 1 동작 구성에 있을 경우, 1차 라우드스피커 (SP10) 는 활성이고 2차 라우드스피커 (SP20) 는 디스에이블되거나 뮤트될 수도 있다. 1차 마이크로폰 (MC10) 및 2차 마이크로폰 (MC20) 양자가 스피치 향상 및/또는 잡음 감소를 위해 공간 선택적 프로세싱 기술들을 지원하도록 이러한 구성에서 활성으로 유지되는 것이 바람직할 수도 있다.

도 6b는 핸드셋 (H100) 에 대한 제 2 동작 구성을 도시한다. 이러한 구성에서, 1차 마이크로폰 (MC10) 은 차단되고, 2차 라우드스피커 (SP20) 는 활성이며, 1차 라우드스피커 (SP10) 는 디스에이블되거나 뮤트될 수도 있다. 또한, 1차 마이크로폰 (MC10) 및 2차 마이크로폰 (MC20) 양자가 (예를 들어, 공간 선택적 프로세싱 기술들을 지원하기 위해) 이러한 구성에서 활성으로 유지되는 것이 바람직할 수도 있다. 핸드셋 (H100) 은, 상태 (또는 상태들) 이 디바이스의 현재 동작 구성을 나타내는 하나 이상의 스위치들 또는 유사한 액츄에이터들을 포함할 수도 있다.

장치 (A100) 는 3개 이상의 채널들을 갖는 감지된 오디오 신호 (S10) 의 일 인스턴스를 수신하도록 구성될 수도 있다. 예를 들어, 도 7a는 제 3 마이크로폰 (MC30) 을 포함하는 핸드셋 (H100) 의 일 구현 (H110) 의 다이어그램을 도시한다. 도 7b는, 디바이스의 축에 따른 다양한 트랜스듀서들의 배치를 도시한 핸드셋 (H110) 의 2개의 다른 뷰들을 도시한다.

M개의 마이크로폰들을 갖는 이어피스 또는 다른 헤드셋은, 장치 (A100) 의 일 구현을 포함할 수도 있는 또 다른 종류의 휴대용 통신 디바이스이다. 그러한 헤드셋은 유선 또는 무선일 수도 있다. 예를 들어, 무선 헤드셋은, (예를 들어, Bluetooth Special Interest Group, Inc., Bellevue, WA 에 의해 공표된 바와 같은 Bluetooth^TM 프로토콜의 일 버전을 사용하여) 셀룰러 전화 핸드셋과 같은 전화기 디바이스와의 통신을 통해 하프-듀플렉스 또는 풀-듀플렉스 전화통신을 지원하도록 구성될 수도 있다. 도 8은 사용자의 귀 (65) 상에서의 사용을 위해 탑재된 바와 같은 그러한 헤드셋 (63) 의 상이한 동작 구성의 범위 (66) 의 다이어그램을 도시한다. 헤드셋 (63) 은, 사용자의 입 (64) 에 관한 사용 동안 상이하게 배향될 수도 있는 1차 (예를 들어, 엔드파이어 (endfire)) 및 2차 (예를 들어, 브로드사이드 (broadside)) 마이크로폰들의 어레이 (67) 를 포함한다. 또한, 그러한 헤드셋은 통상적으로, 원단 신호를 재생하기 위해 헤드셋의 이어플러그에 배치될 수도 있는 라우드스피커 (미도시) 를 포함한다. 또 다른 예에서, 장치 (A100) 의 일 구현을 포함하는 핸드셋은, 유선 및/또는 무선 통신 링크를 통해 (예를 들어, Bluetooth^TM 프로토콜을 사용하여), M개의 마이크로폰들을 갖는 헤드셋으로부터 감지된 오디오 신호 (S10) 를 수신하고, 등화된 오디오 신호 (S50) 를 헤드셋에 출력하도록 구성된다.

M개의 마이크로폰들을 갖는 핸드-프리 자동차 키트는, 장치 (A100) 의 일 구현을 포함할 수도 있는 또 다른 종류의 이동 통신 디바이스이다. 도 9는, M개의 마이크로폰들 (84) 이 선형 어레이로 배열되는 그러한 디바이스 (83) 의 일 예의 다이어그램을 도시한다 (이러한 특정한 예에서, M은 4와 동일하다). 그러한 디바이스의 음향 환경은, 윈드 (wind) 잡음, 롤링 잡음, 및/또는 엔진 잡음을 포함할 수도 있다. 장치 (A100) 의 일 구현을 포함할 수도 있는 통신 디바이스들의 다른 예들은 오디오 또는 시청각 회의를 위한 통신 디바이스들을 포함한다. 그러한 회의 디바이스의 통상적인 사용은 다수의 원하는 사운드 소스들 (예를 들어, 다양한 참가자들의 입들) 과 관련될 수도 있다. 그러한 경우, 마이크로폰들의 어레이가 3개 이상의 마이크로폰들을 포함하는 것이 바람직할 수도 있다.

M개의 마이크로폰들을 갖는 미디어 재생 디바이스는, 장치 (A100) 의 일 구현을 포함할 수도 있는 일 종류의 오디오 또는 시청각 재생 디바이스이다. 그러한 디바이스는, 표준 압축 포맷 (예를 들어, MPEG (Moving Pictures Experts Group)-1 오디오 계층 3 (MP3), MPEG-4 파트 14 (MP4), 일 버전의 윈도우 미디어 오디오/비디오(WMA/WMV)(Microsoft Corp., Redmond, WA), 진보된 오디오 코딩 (AAC), 국제 정보통신 연합 (ITU)-T H.264 등) 에 따라 인코딩된 파일 또는 스트림과 같이, 압축된 오디오 또는 시청각 정보의 재생을 위해 구성될 수도 있다. 도 10a는 디바이스의 전면에 배치된 디스플레이 스크린 (SC10) 및 라우드스피커 (SP10) 를 포함하는 그러한 디바이스의 일 예를 도시한다. 이러한 예에서, 마이크로폰들 (MC10 및 MC20) 은 디바이스의 동일한 면에 (예를 들어, 상면의 대향측 상에) 배치된다. 도 10b는 마이크로폰들이 디바이스의 대향면들에 배치된 그러한 디바이스의 일 예를 도시한다. 도 10c는 마이크로폰들이 디바이스의 인접한 면들에 배치된 그러한 디바이스의 일 예를 도시한다. 또한, 도 10a 내지 10c에 도시된 바와 같은 미디어 재생 디바이스는, 더 긴 축이 의도된 사용동안 수평이 되도록 설계될 수도 있다.

공간 선택적 프로세싱 필터 (SS10) 는, 소스 신호 (S20) 및 잡음 기준 (S30) 을 생성하도록, 감지된 오디오 신호 (S10) 에 대해 공간 선택적 프로세싱 동작을 수행하도록 구성된다. 예를 들어, SSP 필터 (SS10) 는, 지향성 간섭 컴포넌트 및/또는 발산 잡음 컴포넌트와 같은 신호의 하나 이상의 다른 컴포넌트들로부터 감지된 오디오 신호 (S10) (예를 들어, 사용자의 음성) 의 지향성의 원하는 컴포넌트를 분리시키도록 구성될 수도 있다. 그러한 경우, 소스 신호 (S20) 가 감지된 오디오 채널 (S10) 의 각각의 채널이 포함하는 것보다 지향성의 원하는 컴포넌트의 더 많은 에너지를 포함하도록 (즉, 소스 신호 (S20) 가 감지된 오디오 채널 (S10) 의 임의의 개별 채널이 포함하는 것보다 지향성의 원하는 컴포넌트의 더 많은 에너지를 포함하도록), SSP 필터 (SS10) 는 지향성의 원하는 컴포넌트의 에너지를 집중시키도록 구성될 수도 있다. 도 11은, 마이크로폰 어레이의 축에 관한 필터 응답의 지향성을 예시하는 SSP 필터 (SS10) 의 그러한 일 예에 대한 빔 패턴을 도시한다. 공간 선택적 프로세싱 필터 (SS10) 는 환경 잡음의 신뢰가능한 동시 추정 (또한, 단일-마이크로폰 잡음 감소 시스템과 비교하여 감소된 지연으로 인해, "순시" 잡음 추정으로 지칭됨) 을 제공하는데 사용될 수도 있다.

통상적으로, 공간 선택적 프로세싱 필터 (SS10) 는, 필터 계수값들의 하나 이상의 매트릭스들을 특징으로 하는 고정 필터 (FF10) 를 포함하도록 구현된다. 이들 필터 계수값들은 빔포밍, 블라인드 소스 분리 (BSS), 또는 더 상세히 후술될 바와 같은 결합된 BSS/빔포밍 방법을 사용하여 획득될 수도 있다. 또한, 공간 선택적 프로세싱 필터 (SS10) 는 2개 이상의 스테이지를 포함하도록 구현될 수도 있다. 도 12a는, 고정 필터 스테이지 (FF10) 및 적응적 필터 스테이지 (AF10) 를 포함하는 SSP 필터 (SS10) 의 그러한 일 구현 (SS20) 의 블록도를 도시한다. 이러한 예에서, 고정 필터 스테이지 (FF10) 는, 감지된 오디오 신호 (S10) 의 채널들 (S10-1 및 S10-2) 을 필터링하여 필터링된 채널들 (S15-1 및 S15-2) 를 생성하도록 배열되고, 적응적 필터 스테이지 (AF10) 는, 채널들 (S15-1 및 S15-2) 을 필터링하여 소스 신호 (S20) 및 잡음 기준 (S30) 을 생성하도록 배열된다. 그러한 경우에서, 더 상세히 후술될 바와 같이, 고정 필터 스테이지 (FF10) 를 사용하여 적응적 필터 스테이지 (AF10) 에 대한 초기 조건들을 생성하는 것이 바람직할 수도 있다. 또한, (예를 들어, IIR 고정 또는 적응적 필터 뱅크의 안정성을 보장하기 위해) SSP 필터 (SS10) 로의 입력들의 적응적 스케일링을 수행하는 것이 바람직할 수도 있다.

(예를 들어, 다양한 고정 필터 스테이지들의 상대적인 분리도 성능에 따라) 동작 동안 고정 필터 스테이지들 중 적절한 스테이지가 선택될 수도 있도록 배열되는 다수의 고정 필터 스테이지들을 포함하도록 SSP 필터 (SS10) 를 구현하는 것이 바람직할 수도 있다. 예를 들어, 그러한 구조는, 발명의 명칭이 "SYSTEMS, METHODS, AND APPARATUS FOR MULTI-MICROPHONE BASED SPEECH ENHANCEMENT" 로서 2008년 XXX월 XX일자로 출원된 대리인 참조 번호 제 080426호의 미국 특허출원 제 12/XXX,XXX호에 개시되어 있다.

소스 신호 (S20) 에서 잡음을 추가적으로 감소시키기 위해 잡음 기준 (S30) 을 적용하도록 구성된 잡음 감소 스테이지를 갖는 SSP 필터 (SS10 또는 SS20) 를 따르는 것이 바람직할 수도 있다. 도 12b는 그러한 잡음 감소 스테이지 (NR10) 를 포함하는 장치 (A100) 의 일 구현 (A105) 의 블록도를 도시한다. 잡음 감소 스테이지 (NR10) 는, 필터 계수값들이 소스 신호 (S20) 및 잡음 기준 (S3) 으로부터의 신호 및 잡음 전력 정보에 기초하는 위너 필터 (Wiener filter) 로서 구현될 수도 있다. 그러한 경우, 잡음 감소 스테이지 (NR10) 는, 잡음 기준 (S30) 으로부터의 정보에 기초하여 잡음 스펙트럼을 추정하도록 구성될 수도 있다. 대안적으로, 잡음 감소 스테이지 (NR10) 는, 잡음 기준 (S30) 으로부터의 스펙트럼에 기초하여 소스 신호 (S20) 에 대해 스펙트럼 감산 동작을 수행하도록 구현될 수도 있다. 대안적으로, 잡음 감소 스테이지 (NR10) 는, 잡음 기준 (S30) 으로부터의 정보에 기초하는 잡음 공분산을 갖는 칼만 필터로서 구현될 수도 있다.

지향성 프로세싱 동작을 수행하도록 구성되는 것의 대안으로, 또는 지향성 프로세싱 동작을 수행하도록 구성되는 것 이외에, SSP 필터 (SS10) 는 거리 프로세싱 동작을 수행하도록 구성될 수도 있다. 도 12c 및 12d는, 각각, 그러한 동작을 수행하도록 구성된 거리 프로세싱 모듈 (DS10) 을 포함하는 SSP 필터 (SS10) 의 구현들 (SS110 및 SS120) 의 블록도들을 도시한다. 거리 프로세싱 모듈 (DS10) 은, 거리 프로세싱 동작의 결과로서, 마이크로폰 어레이에 대한 멀티채널 감지된 오디오 신호 (S10) 의 컴포넌트의 소스의 거리를 나타내는 거리 표시 신호 (DI10) 를 생성하도록 구성된다. 통상적으로, 거리 프로세싱 모듈 (DS10) 은, 2개의 상태들이 각각 근접장 소스 및 원격장 소스를 나타내는 바이너리-값 표시 신호로서 거리 표시 신호 (DI10) 를 생성하도록 구성되지만, 연속적이고/이거나 멀티-값 신호를 생성하는 구성들이 또한 가능하다.

일 예에서, 거리 프로세싱 모듈 (DS10) 은, 거리 표시 신호 (DI10) 의 상태가 마이크로폰 신호들의 전력 그라디언트들 사이의 유사도에 기초하도록 구성된다. 거리 프로세싱 모듈 (DS10) 의 그러한 일 구현은, (A) 마이크로폰 신호들의 전력 그라디언트들 사이의 차이와 (B) 임계값 사이의 관계에 따라 거리 표시 신호 (DI10) 를 생성하도록 구성될 수도 있다. 하나의 그러한 관계는,

와 같이 표현될 수도 있으며, 여기서, θ는 거리 표시 신호 (DI10) 의 현재 상태를 나타내고, ▽_p는 1차 마이크로폰 신호 (예를 들어, 마이크로폰 신호 (DM10-1)) 의 전력 그라디언트의 현재값을 나타내고, ▽_s는 2차 마이크로폰 신호 (예를 들어, 마이크로폰 신호 (DM10-2)) 의 전력 그라디언트의 현재값을 나타내고, T_d는 임계값을 나타내며, 이는 (예를 들어, 마이크로폰 신호들 중 하나 이상의 현재 레벨에 기초하여) 고정 또는 적응적일 수도 있다. 이러한 특정 예에서, 거리 표시 신호 (DI10) 의 상태 1은 원격장 소스를 나타내고, 상태 0은 근접장 소스를 나타내지만, 물론 (즉, 상태 1이 근접장 소스를 나타내고, 상태 0이 원격장 소스를 나타내도록) 역 구현이 원한다면 사용될 수도 있다.

연속하는 프레임들에 걸친 대응하는 마이크로폰 신호의 에너지들 사이의 차이로서 전력 그라디언트의 값을 계산하도록 거리 프로세싱 모듈 (DS10) 을 구현하는 것이 바람직할 수도 있다. 하나의 그러한 예에서, 거리 프로세싱 모듈 (DS10) 은, 대응하는 마이크로폰 신호의 현재 프레임의 값들의 제곱의 합과 마이크로폰 신호의 이전 프레임의 값들의 제곱의 합 사이의 차이로서 전력 그라디언트들 ▽_p 및 ▽_s 의 각각에 대한 현재값들을 계산하도록 구성된다. 또 다른 그러한 예에서, 거리 프로세싱 모듈 (DS10) 은, 대응하는 마이크로폰 신호의 현재 프레임의 값들의 크기의 합산과 마이크로폰 신호의 이전 프레임의 값들의 크기의 합 사이의 차이로서 전력 그라디언트 ▽_p 및 ▽_s 의 각각에 대한 현재값들을 계산하도록 구성된다.

부가적으로 또는 대안적으로, 거리 프로세싱 모듈 (DS10) 은, 거리 표시 신호 (DI10) 의 상태가 1차 마이크로폰 신호에 대한 위상과 2차 마이크로폰 신호에 대한 위상 사이의 주파수들의 일 범위에 걸친 상관의 정도에 기초하도록 구성될 수도 있다. 거리 프로세싱 모듈 (DS10) 의 그러한 일 구현은, (A) 마이크로폰 신호들의 위상 벡터들 사이의 상관과 (B) 임계값 사이의 관계에 따라 거리 표시 신호 (DI10) 를 생성하도록 구성될 수도 있다. 하나의 그러한 관계는,

와 같이 표현될 수도 있으며, 여기서, μ는 거리 표시 신호 (DI10) 의 현재 상태를 나타내고,

는 1차 마이크로폰 신호 (예를 들어, 마이크로폰 신호 (DM10-1)) 에 대한 현재 위상 벡터를 나타내고,

는 2차 마이크로폰 신호 (예를 들어, 마이크로폰 신호 (DM10-2)) 에 대한 현재 위상 벡터를 나타내고, T_c는 임계값을 나타내며, 이는 (예를 들어, 마이크로폰 신호들 중 하나 이상의 현재 레벨에 기초하여) 고정 또는 적응적일 수도 있다. 위상 벡터의 각각의 엘리먼트가 대응하는 주파수에서 또는 대응하는 주파수 서브대역에 걸쳐 대응하는 마이크로폰 신호의 현재 위상을 나타내도록 위상 벡터들을 계산하기 위해 거리 프로세싱 모듈 (DS10) 을 구현하는 것이 바람직할 수도 있다. 이러한 특정 예에서, 거리 표시 신호 (DI10) 의 상태 1은 원격장 소스를 나타내고, 상태 0은 근접장 소스를 나타내지만, 물론, 역 구현이 원한다면 사용될 수도 있다.

거리 표시 신호 (DI10) 의 상태가 상술된 바와 같이 전력 그라디언트 및 위상 상관 기준 양자에 기초하도록 거리 프로세싱 모듈 (DS10) 을 구성하는 것이 바람직할 수도 있다. 그러한 경우, 거리 프로세싱 모듈 (DS10) 은, θ 및 μ (예를 들어, 논리 OR 또는 논리 AND) 의 현재값들의 조합으로서 거리 표시 신호 (DI10) 의 상태를 계산하도록 구성될 수도 있다. 대안적으로, 거리 프로세싱 모듈 (DI10) 은 이들 기준 (즉, 전력 그라디언트 유사도 또는 위상 상관도) 중 하나에 따라 거리 표시 신호 (DI10) 의 상태를 계산하도록 구성될 수도 있으므로, 대응하는 임계값은 다른 기준의 현재값에 기초한다.

상술된 바와 같이, 2개 이상의 마이크로폰 신호들에 대해 하나 이상의 프리프로세싱 동작들을 수행함으로써, 감지된 오디오 신호 (S10) 를 획득하는 것이 바람직할 수도 있다. 통상적으로, 마이크로폰 신호들은 샘플링되고, 프리프로세싱 (예를 들어, 에코 소거, 잡음 감소, 스펙트럼 쉐이핑 등을 위해 필터링) 될 수도 있으며, 감지된 오디오 신호 (S10) 를 획득하도록 (예를 들어, 여기에 설명된 바와 같은 또 다른 SSP 필터 또는 적응적 필터에 의해) 심지어 미리-분리될 수도 있다. 스피치와 같은 음향 애플리케이션들에 대해, 통상적인 샘플링 레이트는 8kHz 로부터 16kHz 까지의 범위에 존재한다.

도 13은, 감지된 오디오 신호 (S10) 의 M개의 채널들 (S10-1 내지 S10-M) 을 생성하기 위해 M개의 아날로그 마이크로폰 신호들 (SM10-1 내지 SM10-M) 을 디지털화하도록 구성된 오디오 프리프로세서 (AP10) 를 포함하는 장치 (A100) 의 일 구현 (A110) 의 블록도를 도시한다. 이러한 특정한 예에서, 오디오 프리프로세서 (AP10) 는, 감지된 오디오 신호 (S10) 의 채널들 (S10-1, S10-2) 의 쌍을 생성하기 위해 아날로그 마이크로폰 신호들 (SM10-1, SM10-2) 의 쌍을 디지털화하도록 구성된다. 또한, 오디오 프리프로세서 (AP10) 는, 아날로그 및/또는 디지털 도메인에서 마이크로폰 신호들에 대해 스펙트럼 쉐이핑 및/또는 에코 소거와 같은 다른 프리프로세싱 동작들을 수행하도록 구성될 수도 있다. 예를 들어, 오디오 프리프로세서 (AP10) 는, 아날로그 및 디지털 도메인 중 어느 하나에서 마이크로폰 신호들 중 하나 이상의 각각에 하나 이상의 이득 팩터들을 적용하도록 구성될 수도 있다. 이들 이득 팩터들의 값들은, 마이크로폰들이 주파수 응답 및/또는 이득의 관점에서 서로 매칭되도록 선택되거나 계산될 수도 있다. 이들 이득 팩터들을 평가하도록 수행될 수도 있는 교정 절차들이 더 상세히 후술된다.

도 14는, 제 1 및 제 2 아날로그-디지털 변환기 (ADC) (C10a 및 C10b) 를 포함하는 오디오 프리프로세서 (AP10) 의 일 구현 (AP20) 의 블록도를 도시한다. 제 1 ADC (C10a) 는 마이크로폰 신호 (DM10-1) 를 획득하기 위해 마이크로폰 신호 (SM10-1) 를 디지털화하도록 구성되고, 제 2 ADC (C10b) 는 마이크로폰 신호 (DM10-2) 를 획득하기 위해 마이크로폰 신호 (SM10-2) 를 디지털화하도록 구성된다. ADC들 (C10a 및 C10b) 에 의해 적용될 수도 있는 통상적인 샘플링 레이트들은 8kHz 및 16kHz 를 포함한다. 이러한 예에서, 오디오 프리프로세서 (AP20) 는, 각각, 마이크로폰 신호들 (SM10-1 및 SM10-2) 에 대해 아날로그 스펙트럼 쉐이핑 동작들을 수행하도록 구성된 고역 통과 필터들 (F10a 및 F10b) 을 또한 포함한다.

또한, 오디오 프리프로세서 (AP20) 는, 등화된 오디오 신호 (S50) 로부터의 정보에 기초하여 마이크로폰 신호들로부터 에코들을 소거시키도록 구성된 에코 소거기 (EC10) 를 포함한다. 에코 소거기 (EC10) 는 시간-도메인 버퍼로부터 등화된 오디오 신호 (S50) 를 수신하도록 배열될 수도 있다. 그러한 일 예에서, 시간-도메인 버퍼는 10밀리초의 길이 (예를 들어, 8kHz 의 샘플링 레이트에서는 80개의 샘플들 또는 16kHz 의 샘플링 레이트에서는 160개의 샘플들) 를 갖는다. 스피커폰 모드 및/또는 푸쉬-투-토크 (PTT) 모드와 같은 특정한 모드들에서 장치 (A110) 를 포함하는 통신 디바이스의 동작 동안, (예를 들어, 변경되지 않은 마이크로폰 신호들을 통과하도록 에코 소거기 (EC10) 를 구성하기) 에코 소거 동작을 일시중지시키는 것이 바람직할 수도 있다.

도 15a는 단일-채널 에코 소거기의 2개의 인스턴스들 (EC20a 및 EC20b) 을 포함하는 에코 소거기 (EC10) 의 일 구현 (EC12) 의 블록도를 도시한다. 이러한 예에서, 단일-채널 에코 소거기의 에코 인스턴스는, 감지된 오디오 신호 (S10) 의 대응하는 채널 (S10-1, S10-2) 을 생성하기 위해 마이크로폰 신호들 (DM10-1, DM10-2) 중 대응하는 하나를 프로세싱하도록 구성된다. 단일-채널 에코 소거기의 다양한 인스턴스들은, 현재 알려져 있거나 여전히 개발되고 있는 에코 소거의 임의의 기술 (예를 들어, 최소 평균 제곱 기술 및/또는 적응적 상관 기술) 에 따라 구성될 수도 있다. 예를 들어, 에코 소거기는 상기 참조된 미국 특허출원 제 12/197,924호의 문단 [00139]-[00141] 에서 개시되며, 그 파라미터는, 설계, 구현, 및/또는 장치의 다른 엘리먼트들과의 통합을 포함하지만 이에 제한되지 않는 에코 소거 이슈들의 개시물로 제한되는 목적을 위해 여기에 참조로서 포함된다.

도 15b는, 등화된 오디오 신호 (S50) 를 필터링하도록 배열된 필터 (CE10) 및 프로세싱될 마이크로폰 신호와 그 필터링된 신호를 결합하도록 구성된 가산기 (CE20) 를 포함하는 에코 소거기 (EC20a) 의 일 구현 (EC22a) 의 블록도를 도시한다. 필터 (CE10) 의 필터 계수값들은 고정될 수도 있다. 대안적으로, 필터 (CE10) 의 필터 계수값들의 적어도 하나 (및 가능하다면 모두) 는 장치 (A110) 의 동작 동안 적응될 수도 있다. 더 상세히 후술될 바와 같이, 오디오 신호를 재생함에 따라 통신 디바이스의 기준 인스턴스에 의해 레코딩되는 멀티채널 신호들의 세트를 사용하여 필터 (CE10) 의 기준 인스턴스를 트레이닝하는 것이 바람직할 수도 있다.

에코 소거기 (EC20b) 는, 감지된 오디오 채널 (S40-2) 을 생성하기 위해 마이크로폰 신호 (DM10-2) 를 프로세싱하도록 구성되는 에코 소거기의 또 다른 인스턴스 (EC22a) 로서 구현될 수도 있다. 대안적으로, 에코 소거기들 (EC20a 및 EC20b) 은, 상이한 시간들에서 각각의 마이크로폰 신호들 각각을 프로세싱하도록 구성되는 단일-채널 에코 소거기 (예를 들어, 에코 소거기 (EC22a)) 의 동일한 인스턴스로서 구현될 수도 있다.

장치 (A100) 의 일 구현은 트랜시버 (예를 들어, 셀룰러 전화기 또는 무선 헤드셋) 내에 포함될 수도 있다. 도 16a는 장치의 일 인스턴스 (A110) 를 포함하는 그러한 통신 디바이스 (D100) 의 블록도를 도시한다. 디바이스 (D100) 는, 무선-주파수 (RF) 통신 신호를 수신하며, 이러한 예에서는 재생된 오디오 신호 (S40) 로서 장치 (A110) 에 의해 수신된 오디오 입력 신호 (S100) 로서 RF 신호 내에서 인코딩된 오디오 신호를 디코딩 및 재생하도록 구성되는, 장치 (A110) 에 커플링된 수신기 (R10) 를 포함한다. 또한, 디바이스 (D100) 는, 소스 신호 (S20) 를 인코딩하고, 인코딩된 오디오 신호를 설명하는 RF 통신 신호를 송신하도록 구성되는, 장치 (A110) 에 커플링된 송신기 (X10) 를 포함한다. 또한, 디바이스 (D110) 는, (예를 들어, 등화된 오디오 신호 (S50) 를 아날로그 신호로 변환하기 위해) 등화된 오디오 신호 (S50) 를 프로세싱하고 그 프로세싱된 오디오 신호를 라우드스피커 (SP10) 에 출력하도록 구성된 오디오 출력 스테이지 (O10) 를 포함한다. 이러한 예에서, 오디오 출력 스테이지 (O10) 는 볼륨 제어 신호 (VS10) 의 레벨에 따라 그 프로세싱된 오디오 신호의 볼륨을 제어하도록 구성되며, 그 레벨은 사용자 제어하에서 변할 수도 있다.

통신 디바이스의 다른 엘리먼트들 (예를 들어, 이동국 모뎀 (MSM) 칩 또는 칩셋의 기저대역 부분) 이 감지된 오디오 신호 (S10) 에 대해 추가적인 오디오 프로세싱 동작들을 수행하기 위해 배열되도록, 장치 (A110) 의 일 구현이 그 통신 디바이스 내에 상주하는 것이 바람직할 수도 있다. 장치 (A110) 의 일 구현 내에 포함될 에코 소거기 (예를 들어, 에코 소거기 (EC10)) 를 설계할 시에, 이러한 에코 소거기와 통신 디바이스의 임의의 다른 에코 소거기 (예를 들어, MSM 칩 또는 칩셋의 에코 소거 모듈) 사이의 가능한 시너지 효과들을 고려하는 것이 바람직할 수도 있다.

도 16b는 통신 디바이스 (D100) 의 일 구현 (D200) 의 블록도를 도시한다. 디바이스 (D200) 는, 수신기 (R10) 및 송신기 (X10) 의 엘리먼트들을 포함하고 하나 이상의 프로세서들을 포함할 수도 있는 칩 또는 칩셋 (CS10) (예를 들어, MSM 칩셋) 을 포함한다. 디바이스 (D200) 는 안테나 (C30) 를 통해 RF 통신 신호들을 수신 및 송신하도록 구성된다. 또한, 디바이스 (D200) 는 안테나 (C30) 로의 경로에서 다이플렉서 및 하나 이상의 전력 증폭기들을 포함할 수도 있다. 또한, 칩/칩셋 (CS10) 은 키패드 (C10) 를 통해 사용자 입력을 수신하고 디스플레이 (C20) 를 통해 정보를 디스플레이하도록 구성된다. 이러한 예에서, 디바이스 (D200) 는, 글로벌 포지셔닝 시스템 (GPS) 위치 서비스들 및/또는 무선 (예를 들어, Bluetooth^TM) 헤드셋과 같은 외부 디바이스를 이용하는 단거리 통신들을 지원하기 위해 하나 이상의 안테나들 (C40) 을 또한 포함한다. 또 다른 예에서, 그러한 통신 디바이스는 그 자체가 블루투스 헤드셋이며, 키패드 (C10), 디스플레이 (C20), 및 안테나 (C30) 가 없다.

등화기 (EQ10) 는 시간-도메인 버퍼로부터 잡음 기준 (S30) 을 수신하도록 배열될 수도 있다. 대안적으로 또는 부가적으로, 등화기 (EQ10) 는 시간-도메인 버퍼로부터 재생된 오디오 신호 (S40) 를 수신하도록 배열될 수도 있다. 일 예에서, 각각의 시간-도메인 버퍼는 10밀리초의 길이 (예를 들어, 8kHz 의 샘플링 레이트에서는 80개의 샘플들 또는 16kHz 의 샘플링 레이트에서는 160개의 샘플들) 를 갖는다.

도 17은, 제 1 서브대역 신호 생성기 (SG100a) 및 제 2 서브대역 신호 생성기 (SG100b) 를 포함하는 등화기 (EQ10) 의 일 구현 (EQ20) 의 블록도를 도시한다. 제 1 서브대역 신호 생성기 (SG100a) 는 재생된 오디오 신호 (S40) 로부터의 정보에 기초하여 제 1 서브대역 신호들의 세트를 생성하도록 구성되고, 제 2 서브대역 신호 생성기 (SG100b) 는 잡음 기준 (S30) 으로부터의 정보에 기초하여 제 2 서브대역 신호들의 세트를 생성하도록 구성된다. 또한, 등화기 (EQ20) 는, 제 1 서브대역 전력 추정치 계산기 (EC100a) 및 제 2 서브대역 전력 추정치 계산기 (EC100b) 를 포함한다. 제 1 서브대역 전력 추정치 계산기 (EC100a) 는 각각이 제 1 서브대역 신호들 중 대응하는 신호로부터의 정보에 기초하여 제 1 서브대역 전력 추정치들의 세트를 생성하도록 구성되고, 제 2 서브대역 전력 추정치 계산기 (EC100b) 는 각각이 제 2 서브대역 신호들 중 대응하는 신호로부터의 정보에 기초하여 제 2 서브대역 전력 추정치들의 세트를 생성하도록 구성된다. 또한, 등화기 (EQ20) 는, 대응하는 제 1 서브대역 전력 추정치와 대응하는 제 2 서브대역 전력 추정치 사이의 관계에 기초하여, 서브대역들 각각에 대한 이득 팩터를 계산하도록 구성된 서브대역 이득 팩터 계산기 (GC100), 및 등화된 오디오 신호 (S50) 를 생성하기 위해 서브대역 이득 팩터들에 따라 재생된 오디오 신호 (S40) 를 필터링하도록 구성된 서브대역 필터 어레이 (FA100) 를 포함한다.

등화기 (EQ20) (및 여기에 개시된 바와 같은 등화기 (EQ10 또는 EQ20) 의 다른 구현들 중 임의의 구현) 을 적용할 시에, (예를 들어, 오디오 프리프로세서 (AP20) 및 에코 소거기 (EC10) 를 참조하여 상술된 바와 같이) 에코 소거 동작을 경험한 마이크로폰 신호들로부터 잡음 기준 (S30) 을 획득하는 것이 바람직할 수도 있다는 것이 명시적으로 반복된다. 음향 에코가 잡음 기준 (S30) (또는 아래에 개시되는 바와 같은 등화기 (EQ10) 의 추가적인 구현에 의해 사용될 수도 있는 다른 잡음 기준들 중 임의의 기준) 에 남아있으면, 포지티브 피드백 루프가 등화된 오디오 신호 (S50) 와 서브대역 이득 팩터 계산 경로 사이에서 생성될 수도 있으므로, 오디오 신호 (S50) 가 원단 라우드스피커를 더 크게 구동시킴에 따라 등화기 (EQ10) 가 서브대역 이득 팩터들을 더 많이 증가시키는 경향이 있을 것이다.

제 1 서브대역 신호 생성기 (SG100a) 및 제 2 서브대역 신호 생성기 (SG100b) 중 어느 하나 또는 그 양자는, 도 18a에 도시된 바와 같은 서브대역 신호 생성기의 일 인스턴스 (SG200) 로서 구현될 수도 있다. 서브대역 신호 생성기 (SG200) 는, 오디오 신호 A (즉, 적절한 바와 같이, 재생된 오디오 신호 (S40) 또는 잡음 기준 (S30)) 로부터의 정보에 기초하여 q개의 서브대역 신호들 S(i) 의 세트를 생성하도록 구성되며, 여기서, 1≤i≤q 이고, q는 원하는 수의 서브대역이다. 서브대역 신호 생성기 (SG200) 는, 변환된 신호 T를 생성하기 위하여 시간-도메인 오디오 신호 A에 대해 변환 동작을 수행하도록 구성된 변환 모듈 (SG10) 을 포함한다. 변환 모듈 (SG10) 은, 주파수-도메인 변환된 신호를 생성하기 위하여 (예를 들어, 고속 푸리에 변환 또는 FFT를 통해) 오디오 신호 A에 대해 주파수 도메인 변환 동작을 수행하도록 구성될 수도 있다. 변환 모듈 (SG10) 의 다른 구현들은, 오디오 신호 A에 대해 웨이블릿 변환 동작 또는 이산 코사인 변환 (DCT) 동작과 같은 상이한 변환 동작을 수행하도록 구성될 수도 있다. 변환 동작은, 원하는 균일한 레졸루션 (예를 들어, 32-포인트, 64-포인트, 128-포인트, 256-포인트, 또는 512-포인트 FFT 동작) 에 따라 수행될 수도 있다.

또한, 서브대역 신호 생성기 (SG200) 는, 원하는 서브대역 분할 방식에 따라 q개의 빈들의 세트로 변환된 신호 T를 분할함으로써, 그 q개의 빈들의 세트로서 서브대역 신호들 S(i) 의 세트를 생성하도록 구성된 비닝 (binning) 모듈 (SG20) 을 포함한다. 비닝 모듈 (SG20) 은 균일한 서브대역 분할 방식을 적용하도록 구성될 수도 있다. 균일한 서브대역 분할 방식에서, 각각의 빈은 실질적으로 동일한 (예를 들어, 약 10퍼센트 내의) 폭을 갖는다. 대안적으로, 사람의 청취가 주파수 도메인에서 비균일한 레졸루션에 작용한다는 것을 음향 심리학 연구들이 증명한 바와 같이, 비닝 모듈 (SG20) 이 비균일한 서브대역 분할 방식을 적용하는 것이 바람직할 수도 있다. 비균일한 서브대역 분할 방식들의 예들은, 바크 스케일에 기초한 방식과 같은 초월형 (transcendental) 방식, 또는 멜 (Mel) 스케일에 기초한 방식과 같은 로그 방식을 포함한다. 도 19의 도트들의 행은, 주파수들 20, 300, 630, 1080, 1720, 2700, 4400, 및 7700Hz 에 대응하는 7개의 바크 스케일 서브대역들의 세트의 에지들을 나타낸다. 서브대역들의 그러한 배열은, 16kHz 의 샘플링 레이트를 갖는 광대역 스피치 프로세싱 시스템에서 사용될 수도 있다. 그러한 분할 방식의 다른 예들에서, 6-서브대역 배열을 획득하기 위해 더 낮은 서브대역이 생략되고/되거나 고주파수 제한이 7700Hz 로부터 8000Hz 로 증가된다. 비닝 모듈 (SG20) 은 통상적으로 변환된 신호 T를 비중첩 빈들의 세트로 분할하도록 구현되지만, 비닝 모듈 (SG20) 은 빈들 중 하나 이상 (가급적 모두) 이 적어도 하나의 이웃한 빈을 중첩하도록 또한 구현될 수도 있다.

대안적으로 또는 부가적으로, 제 1 서브대역 신호 생성기 (SG100a) 및 제 2 서브대역 신호 생성기 (SG100b) 중 어느 하나 또는 그 양자는, 도 18b에 도시된 바와 같은 서브대역 신호 생성기의 일 인스턴스 (SG300) 로서 구현될 수도 있다. 서브대역 신호 생성기 (SG300) 는, 오디오 신호 A (즉, 적절한 바와 같이, 재생된 오디오 신호 (S40) 또는 잡음 기준 (S30)) 로부터의 정보에 기초하여 q개의 서브대역 신호들 S(i) 의 세트를 생성하도록 구성되며, 여기서, 1≤i≤q 이고, q는 원하는 수의 서브대역이다. 이러한 경우, 서브대역 신호 생성기 (SG300) 는, 오디오 신호 A의 다른 서브대역들에 대해 오디오 신호 A의 대응하는 서브대역의 이득을 변경시킴으로써 (즉, 통과대역을 부스팅시키고/시키거나 차단대역을 감쇠시킴으로써) 서브대역들 S(1) 내지 S(q) 의 각각을 생성하도록 구성되는 서브대역 필터 어레이 (SG30) 를 포함한다.

서브대역 필터 어레이 (SG30) 는, 상이한 서브대역 신호들을 병렬로 생성하도록 구성된 2개 이상의 컴포넌트 필터들을 포함하도록 구현될 수도 있다. 도 20은, 오디오 신호 A의 서브대역 분해를 수행하도록 병렬로 배열된 q개의 대역통과 필터들 (F10-1 내지 F10-q) 의 어레이를 포함하는 서브대역 필터 어레이 (SG30) 의 그러한 일 구현 (SG32) 의 블록도를 도시한다. 필터들 (F10-1 내지 F10-q) 의 각각은, q개의 서브대역 신호들 S(1) 내지 S(q) 중 대응하는 하나를 생성하기 위해 오디오 신호 A를 필터링하도록 구성된다.

필터들 (F10-1 내지 F10-q) 의 각각은 유한 임펄스 응답 (FIR) 또는 무한 임펄스 응답 (IIR) 을 갖도록 구현될 수도 있다. 예를 들어, 필터들 (F10-1 내지 F10-q) 중 하나 이상의 각각은 2차 IIR 섹션 또는 "바이쿼드" 로서 구현될 수도 있다. 바이쿼드의 전달 함수는 다음과 같이 표현될 수도 있다.

(1)

특히, 등화기 (EQ10) 의 플로팅-포인트 구현에 대해, 전치 직접형 II를 사용하여 각각의 바이쿼드를 구현하는 것이 바람직할 수도 있다. 도 21a는 필터들 (F10-1 내지 F10-q) 중 하나의 일반적인 IIR 필터 구현에 대한 전치 직접형 II를 도시하고, 도 21b는 필터들 (F10-1 내지 F10-q) 중 하나의 필터 (F10-i) 의 바이쿼드 구현에 대한 전치 직접형 II를 도시한다. 도 22는 필터들 (F10-1 내지 F10-q) 중 하나의 바이쿼드 구현의 일 예에 대한 크기 및 위상 응답 플롯을 도시한다.

필터들 (F10-1 내지 F10-q) 이 (예를 들어, 필터 통과대역들이 동일한 폭을 갖도록 하는) 균일한 서브대역 분해보다는 (예를 들어, 필터 대역통과들 중 2개 이상이 상이한 폭들을 갖게 하는) 오디오 신호 A의 비균일한 서브대역 분해를 수행하는 것이 바람직할 수도 있다. 상술된 바와 같이, 비균일한 서브대역 분할 방식들의 예들은, 바크 스케일에 기초한 방식과 같은 초월형 방식, 또는 멜 스케일에 기초한 방식과 같은 로그 방식을 포함한다. 하나의 그러한 분할 방식은 도 19의 도트들에 의해 도시되며, 이는 주파수들 20, 300, 630, 1080, 1720, 2700, 4400, 및 7700Hz 에 대응하고, 폭들이 주파수에 따라 증가하는 7개의 바크 스케일 서브대역들의 세트의 에지들을 나타낸다. 서브대역들의 그러한 배열은 광대역 스피치 프로세싱 시스템 (예를 들어, 16kHz 의 샘플링 레이트를 갖는 디바이스) 에서 사용될 수도 있다. 그러한 분할 방식의 다른 예들에서, 6-서브대역 방식을 획득하기 위해 최저의 서브대역이 생략되고/되거나 최고의 서브대역의 상한은 7700Hz 로부터 8000Hz 로 증가된다.

협대혁 스피치 프로세싱 시스템 (예를 들어, 8kHz 의 샘플링 레이트를 갖는 디바이스) 에서, 더 적은 서브대역들의 배열을 사용하는 것이 바람직할 수도 있다. 그러한 서브대역 분할 방식의 일 예는, 4-대역 준-바크 방식 300Hz 내지 510Hz, 510Hz 내지 920Hz, 920Hz 내지 1480Hz, 및 1480Hz 내지 4000Hz 이다. (예를 들어, 이러한 예에서와 같이) 넓은 고주파수 대역의 사용은, 낮은 서브대역 에너지 추정 때문에 및/또는 바이쿼드를 갖는 최고의 서브대역을 모델링하는데의 어려움을 처리할 수 있기 때문에 바람직할 수도 있다.

필터들 (F10-1 내지 F10-q) 의 각각은, 대응하는 서브대역에 걸쳐 이득 부스트 (즉, 신호 크기에서의 증가) 및/또는 다른 서브대역들에 걸쳐 감쇠 (즉, 신호 크기에서의 감소) 를 제공하도록 구성된다. 필터들의 각각은, 거의 동일한 양 (예를 들어, 3dB 또는 6dB) 만큼 그 각각의 통과대역을 부스팅시키도록 구성될 수도 있다. 대안적으로, 필터들의 각각은, 거의 동일한 양 (예를 들어, 3dB 또는 6dB) 만큼 그 각각의 차단대역을 감쇠시키도록 구성될 수도 있다. 도 23은, 필터들 (F10-1 내지 F10-q) 의 세트를 구현하는데 사용될 수도 있는 일련의 7개의 바이쿼드들에 대한 크기 및 위상 응답들을 도시하며, 여기서, q는 7과 동일하다. 이러한 예에서, 각각의 필터는 거의 동일한 양만큼 그 각각의 서브대역을 부스팅시키도록 구성된다. 대안적으로, 필터들 (F10-1 내지 F10-q) 중 하나 이상을 구성하여 그 필터들 중 다른 필터보다 더 큰 부스트 (또는 감쇠) 를 제공하는 것이 바람직할 수도 있다. 예를 들어, 그 각각의 서브대역에 동일한 이득 부스트 (또는 다른 서브대역들에 감쇠) 를 제공하기 위해, 제 1 서브대역 신호 생성기 (SG100a) 및 제 2 서브대역 신호 생성기 (SG100b) 중 하나에서 서브대역 필터 어레이 (SG30) 의 필터들 (F10-1 내지 F10-q) 의 각각을 구성하고, 예를 들어, 원하는 음향 심리학 가중 함수에 따라 서로 상이한 이득 부스트들 (또는 감쇠) 을 제공하기 위해, 제 1 서브대역 신호 생성기 (SG100a) 및 제 2 서브대역 신호 생성기 (SG100b) 중 다른 것에서 서브대역 필터 어레이 (SG30) 의 필터들 (F10-1 내지 F10-q) 중 적어도 몇몇을 구성하는 것이 바람직할 수도 있다.

도 20은, 필터들 (F10-1 내지 F10-q) 이 서브대역 신호들 S(1) 내지 S(q) 을 병렬로 생성하는 배열을 도시한다. 당업자는, 이들 필터들 중 하나 이상의 각각이 서브대역 신호들 중 2개 이상을 직렬로 생성하도록 또한 구현될 수도 있음을 이해할 것이다. 예를 들어, 서브대역 필터 어레이 (SG30) 는, 서브대역 신호들 S(1) 내지 S(q) 중 하나를 생성하기 위해 오디오 신호 A를 필터링하도록 필터 계수값들의 제 1 세트로 일 시간에 구성되고, 서브대역 신호들 S(1) 내지 S(q) 중 상이한 하나를 생성하기 위해 오디오 신호 A를 필터링하도록 필터 계수값들의 제 2 세트로 후속 시간에 구성되는 필터 구조 (예를 들어, 바이쿼드) 를 포함하도록 구현될 수도 있다. 그러한 경우, 서브대역 필터 어레이 (SG30) 는 q개의 대역통과 필터들보다 더 적은 필터를 사용하여 구현될 수도 있다. 예를 들어, 필터 계수값들의 q개의 세트들 중 각각의 세트에 따라 q개의 서브대역 신호들 S(1) 내지 S(q) 의 각각을 생성하도록 그러한 방식으로 직렬로 재구성된 단일 필터 구조를 갖는 서브대역 필터 어레이 (SG30) 를 구현하는 것이 가능하다.

제 1 서브대역 전력 추정치 계산기 (EC100a) 및 제 2 서브대역 전력 추정치 계산기 (EC100b) 의 각각은, 도 18c에 도시된 바와 같이 서브대역 전력 추정치 계산기의 일 인스턴스 (EC110) 로서 구현될 수도 있다. 서브대역 전력 추정치 계산기 (EC110) 는, 서브대역 신호들 S(i) 의 세트를 수신하고 q개의 서브대역 전력 추정치들 E(i) 의 대응하는 세트를 생성하도록 구성된 합산기 (EC10) 를 포함하며, 여기서, 1≤i≤q 이다. 통상적으로, 합산기 (EC10) 는, 오디오 신호 A의 연속하는 샘플들 (또한, "프레임" 으로 지칭됨) 의 각각의 블록에 대해 q개의 서브대역 전력 추정치들을 계산하도록 구성된다. 통상적인 프레임 길이는 약 5 또는 10밀리초로부터 약 40 또는 50밀리초까지의 범위이고, 프레임들은 중첩하거나 중첩하지 않을 수도 있다. 하나의 동작에 의해 프로세싱되는 바와 같은 프레임은, 상이한 동작에 의해 프로세싱되는 바와 같은 더 큰 프레임의 세그먼트 (즉, "서브프레임") 일 수도 있다. 특정한 일 예에서, 오디오 신호 A는 10밀리초 비중첩 프레임들의 시퀀스들로 분할되며, 합산기 (EC10) 는 오디오 신호 A의 각각의 프레임에 대해 q개의 서브대역 전력 추정치들의 세트를 계산하도록 구성된다.

일 예에서, 합산기 (EC10) 는, 서브대역 신호들 S(i) 의 대응하는 신호의 값들의 제곱의 합으로서 서브대역 전력 추정치들 E(i) 의 각각을 계산하도록 구성된다. 합산기 (EC10) 의 그러한 일 구현은,

(2)

와 같은 수학식에 따라 오디오 신호 A의 각각이 프레임에 대해 q개의 서브대역 전력 추정치들의 세트를 계산하도록 구성될 수도 있으며, 여기서, E(i,k) 는 서브대역 i 및 프레임 k에 대한 서브대역 전력 추정치를 나타내고, S(i,j) 는 i번째 서브대역 신호의 j번째 샘플을 나타낸다.

또 다른 예에서, 합산기 (EC10) 는 서브대역 신호들 S(i) 의 대응하는 신호의 값들의 크기의 합으로서 서브대역 전력 추정치들 E(i) 의 각각을 계산하도록 구성된다. 합산기 (EC10) 의 그러한 일 구현은, 다음과 같은 수학식에 따라 오디오 신호의 각각의 프레임에 대해 q개의 서브대역 전력 추정치들의 세트를 계산하도록 구성될 수도 있다.

(3)

오디오 신호 A의 대응하는 합에 의해 각각의 서브대역 합을 정규화시키도록 합산기 (EC10) 를 구현하는 것이 바람직할 수도 있다. 그러한 일 예에서, 합산기 (EC10) 는, 오디오 신호 A의 값들의 제곱의 합으로 나눠진 서브대역 신호들 S(i) 중 대응하는 신호의 값들의 제곱의 합으로서 서브대역 전력 추정치들 E(i) 의 각각의 하나를 계산하도록 구성된다. 합산기 (EC10) 의 그러한 일 구현은,

(4a)

와 같은 수학식에 따라 오디오 신호의 각각의 프레임에 대해 q개의 서브대역 전력 추정치들의 세트를 계산하도록 구성될 수도 있으며, 여기서, A(j) 는 오디오 신호 A의 j번째 샘플을 나타낸다. 또 다른 그러한 예에서, 합산기 (EC10) 는, 오디오 신호 A의 값들의 크기의 합에 의해 나눠진, 서브대역 신호들 S(i) 의 대응하는 신호의 값들의 크기의 합산으로서 각각의 서브대역 전력 추정치를 계산하도록 구성된다. 합산기 (EC10) 의 그러한 일 구현은, 다음과 같은 수학식에 따라 오디오 신호의 각각의 프레임에 대해 q개의 서브대역 전력 추정치들의 세트를 계산하도록 구성될 수도 있다.

(4b)

대안적으로, 서브대역 신호들 S(i) 의 세트가 비닝 모듈 (SG20) 의 일 구현에 의해 생성되는 경우에 대해, 합산기 (EC10) 가 서브대역 신호들 S(i) 의 대응하는 신호에서의 샘플들의 총 수에 의해 각각의 서브대역 합을 정규화하는 것이 바람직할 수도 있다. (예를 들어, 상기 수학식들 (4a 및 4b) 에서와 같이) 분할 동작이 각각의 서브대역 합을 정규화하는데 사용되는 경우들에 대하여, 제로에 의해 나눠지는 가능성을 회피하기 위해 작은 양의 값 ρ을 분모에 가산하는 것이 바람직할 수도 있다. 값 ρ는 모든 서브대역들에 대해 동일할 수도 있거나, 상이한 값의 ρ가 (예를 들어, 튜닝 및/또는 가중의 목적을 위해) 서브대역들 중 2개 이상 (가급적 모두) 의 각각에 대해 사용될 수도 있다. ρ의 값 (또는 값들) 은 고정일 수도 있거나, (예를 들어, 프레임에 따라) 시간에 걸쳐 적응될 수도 있다.

대안적으로, 오디오 신호 A의 대응하는 합을 감산함으로써 각각의 서브대역 합을 정규화하도록 합산기 (EC10) 를 구현하는 것이 바람직할 수도 있다. 그러한 일 예에서, 합산기 (EC10) 는, 서브대역 신호들 S(i) 의 대응하는 신호의 값들의 제곱의 합과 오디오 신호 A의 값들의 제곱의 합 사이의 차이로서 서브대역 전력 추정치들 E(i) 의 각각의 추정치를 계산하도록 구성된다. 합산기 (EC10) 의 그러한 일 구현은, 다음과 같은 수학식에 따라 오디오 신호의 각각의 프레임에 대해 q개의 서브대역 전력 추정치들의 세트를 계산하도록 구성될 수도 있다.

(5a)

또 다른 그러한 예에서, 합산기 (EC10) 는, 서브대역 신호들 S(i) 의 대응하는 신호의 값들의 크기의 합과 오디오 신호 A의 값들의 크기의 합 사이의 차이로서 서브대역 전력 추정치들 E(i) 의 각각의 추정치를 계산하도록 구성된다. 합산기 (EC10) 의 그러한 일 구현은, 다음과 같은 수학식에 따라 오디오 신호의 각각의 프레임에 대해 q개의 서브대역 전력 추정치들의 세트를 계산하도록 구성될 수도 있다.

(5b)

예를 들어, 등화기 (EQ20) 의 일 구현이 서브대역 필터 어레이 (SG30) 의 구현, 및 수학식 (5b) 에 따라 q개의 서브대역 전력 추정치들의 세트를 계산하도록 구성된 합산기 (EC10) 의 일 구현을 부스팅시키는 것을 포함하는 것이 바람직할 수도 있다.

제 1 서브대역 전력 추정치 계산기 (EC100a) 및 제 2 서브대역 전력 추정치 계산기 (EC100b) 중 어느 하나 또는 그 양자는 서브대역 전력 추정치들에 대해 시간적 평활화 동작을 수행하도록 구성될 수도 있다. 예를 들어, 제 1 서브대역 전력 추정치 계산기 (EC100a) 및 제 2 서브대역 전력 추정치 계산기 (EC100b) 중 어느 하나 또는 그 양자는, 도 18d에 도시된 바와 같은 서브대역 전력 추정치 계산기의 일 인스턴스 (EC120) 로서 구현될 수도 있다. 서브대역 전력 추정치 계산기 (EC120) 는, 서브대역 전력 추정치들 E(i) 을 생성하기 위하여 시간에 걸쳐 합산기 (EC10) 에 의해 계산된 합들을 평활화하도록 구성된 평활화기 (EC20) 를 포함한다. 평활화기 (EC20) 는, 합들의 연속 평균 (running average) 들로서 서브대역 전력 추정치들 E(i) 을 컴퓨팅하도록 구성될 수도 있다. 평활화기 (EC20) 의 그러한 일 구현은, 1≤i≤q 에 대해,

(6)

(7)

(8)

와 같은 수학식들 중 하나와 같은 선형 평활화 수학식에 따라 오디오 신호 A의 각각의 프레임에 대해 q개의 서브대역 전력 추정치들 E(i) 의 세트를 계산하도록 구성될 수도 있으며, 여기서, 평활화 팩터

는 제로 (평활화 없음) 와 0.9 (최대 평활화) 사이의 값 (예를 들어, 0.3, 0.5, 또는 0.7) 이다. 평활화기 (EC20) 가 모든 q개의 서브대역들에 대해 동일한 값의 평활화 팩터

를 사용하는 것이 바람직할 수도 있다. 대안적으로, 평활화기 (EC20) 가 q개의 서브대역들 중 2개 이상 (가급적 모두) 의 각각에 대해 상이한 값의 평활화 팩터

를 사용하는 것이 바람직할 수도 있다. 평활화 팩터

의 값 (또는 값들) 은 고정일 수도 있거나 (예를 들어, 프레임에 따라) 시간에 걸쳐 적응될 수도 있다.

서브대역 전력 추정치 계산기 (EC120) 의 특정한 일 예는, 상기 수학식 (3) 에 따라 q개의 서브대역 합들을 계산하고, 상기 수학식 (7) 에 따라 q개의 대응하는 서브대역 전력 추정치들을 계산하도록 구성된다. 서브대역 전력 추정치 계산기 (EC120) 의 특정한 또 다른 예는, 상기 수학식 (5b) 에 따라 q개의 서브대역 합들을 계산하고, 상기 수학식 (7) 에 따라 q개의 대응하는 서브대역 전력 추정치들을 계산하도록 구성된다. 그러나, 수학식들 (6) 내지 (8) 중 하나와 수학식들 (2) 내지 (5b) 중 하나와의 18개의 가능한 조합들 모두가 여기에 명백히 개별적으로 개시됨을 유의한다. 평활화기 (EC20) 의 대안적인 구현은, 합산기 (EC10) 에 의해 계산된 합들에 대해 비선형 평활화 동작을 수행하도록 구성될 수도 있다.

서브대역 이득 팩터 계산기 (GC100) 는, 대응하는 제 1 서브대역 전력 추정치 및 대응하는 제 2 서브대역 전력 추정치에 기초하여, q개의 서브대역들의 각각에 대해 일 세트의 이득 팩터들 G(i) 중 대응하는 하나를 계산하도록 구성되며, 여기서, 1≤i≤q 이다. 도 24a는, 대응하는 신호와 잡음 서브대역 전력 추정치들의 비율로서 각각의 이득 팩터 G(i) 를 계산하도록 구성된 서브대역 이득 팩터 계산기 (GC100) 의 일 구현 (GC200) 의 블록도를 도시한다. 서브대역 이득 팩터 계산기 (GC200) 는,

(9)

와 같은 수학식에 따라 오디오 신호의 각각의 프레임에 대해 일 세트의 q개의 전력 비율들 각각을 계산하도록 구성될 수도 있는 비율 계산기 (GC10) 를 포함하며, 여기서, E_N(i,k) 는 서브대역 i 및 프레임 k에 대해 제 2 서브대역 전력 추정치 계산기 (EC100b) 에 의해 생성된 바와 같은 (즉, 잡음 기준 (S20) 에 기초한) 서브대역 전력 추정치를 나타내고, E_A(i,k) 는 서브대역 i 및 프레임 k에 대해 제 1 서브대역 전력 추정치 계산기 (EC100a) 에 의해 생성된 바와 같은 (즉, 재생된 오디오 신호 (S10) 에 기초한) 서브대역 전력 추정치를 나타낸다.

또 다른 예에서, 비율 계산기 (GC10) 는,

(10)

와 같은 수학식에 따라 오디오 신호의 각각의 프레임에 대해 서브대역 전력 추정치들의 일 세트의 q개의 비율들 중 적어도 하나 (및 가급적 모두) 를 계산하도록 구성되며, 여기서, ε는 작은 양의 값 (즉, E_A(i,k) 의 기대값보다 작은 값) 을 갖는 튜닝 파라미터이다. 비율 계산기 (GC10) 의 그러한 일 구현이 모든 서브대역들에 대해 동일한 값의 튜닝 파라미터 ε를 사용하는 것이 바람직할 수도 있다. 대안적으로, 비율 계산기 (GC10) 의 그러한 일 구현이 서브대역들 중 2개 이상 (가급적 모두) 의 각각에 대해 상이한 값의 튜닝 파라미터들 ε를 사용하는 것이 바람직할 수도 있다. 튜닝 파라미터 ε의 값 (또는 값들) 은 고정일 수도 있거나 (예를 들어, 프레임에 따라) 시간에 걸쳐 적응될 수도 있다.

또한, 서브대역 이득 팩터 계산기 (GC100) 는, q개의 전력 비율들 중 하나 이상 (가급적 모두) 의 각각에 대해 평활화 동작을 수행하도록 구성될 수도 있다. 도 24b는, 비율 계산기 (GC10) 에 의해 생성된 q개의 전력 비율들 중 하나 이상 (가급적 모두) 의 각각에 대해 시간 평활화 동작을 수행하도록 구성된 평활화기 (GC20) 를 포함하는 서브대역 이득 팩터 계산기 (GC100) 의 그러한 일 구현 (GC300) 의 블록도를 도시한다. 하나의 그러한 예에서, 평활화기 (GC20) 는,

(11)

와 같은 수학식에 따라 q개의 전력 비율들 각각에 대해 선형 평활화 동작을 수행하도록 구성되며, 여기서, β는 평활화 팩터이다.

평활화기 (GC20) 가 서브대역 이득 팩터의 현재값과 이전값 사이의 관계에 의존하여, 평활화 팩터 β의 2개 이상의 값들 중에서 하나를 선택하는 것이 바람직할 수도 있다. 예를 들어, 평활화기 (GC20) 는, 이득 팩터값들로 하여금 잡음의 정도가 증가할 경우 더 신속하게 변경하게 함으로써 및/또는 잡음의 정도가 감소할 경우 이득 팩터값들에서의 신속한 변화를 억제함으로써, 차동 시간 평활화 동작을 수행하는 것이 바람직할 수도 있다. 그러한 일 구성은, 소리가 큰 잡음이 종료된 이후에도 그 잡음이 원하는 사운드를 계속 마스킹하는 음향 심리학 시간적 마스킹 효과에 대항하도록 보조할 수도 있다. 따라서, 평활화 팩터 β의 값은, 이득 팩터의 현재값이 이전값보다 클 경우 평활화 팩터 β의 값과 비교하여, 이득 팩터의 현재값이 이전값보다 작을 경우 더 크게되는 것이 바람직할 수도 있다. 하나의 그러한 예에서, 평활화기 (GC20) 는,

(12)

와 같은 수학식에 따라 q개의 전력 비율들의 각각에 대해 선형 평활화 동작을 수행하도록 구성되며, 여기서, β_att는 평활화 팩터 β에 대한 어택값 (attack value) 을 나타내고, β_dec는 평활화 팩터 β에 대한 감쇄값을 나타내고, β_att＜β_dec 이다. 평활화기 (EC20) 의 또 다른 구현은, 다음과 같은 수학식들 중 하나와 같은 선형 평활화 수학식에 따라 q개의 전력 비율들 각각에 대해 선형 평활화 동작을 수행하도록 구성된다.

(13)

(14)

도 25a는, 상기 수학식들 (10) 및 (13) 에 따라 그러한 평활화의 일 예를 설명하는 의사코드 리스팅을 도시하며, 프레임 k에서 각각의 서브대역 i에 대해 수행될 수도 있다. 이러한 리스팅에서, 서브대역 이득 팩터의 현재값은 잡음 전력 대 오디오 전력의 비율로 초기화된다. 이러한 비율이 서브대역 이득 팩터의 이전값보다 작으면, 서브대역 이득 팩터의 현재값은, 1보다 작은 스케일 팩터 beta_dec 만큼 이전값을 스케일링 다운시킴으로써 계산된다. 그렇지 않으면, 서브대역 이득 팩터의 현재값은, 제로 (평활화 없음) 와 1 (업데이트가 없는 최대 평활화) 사이의 값을 갖는 평균 팩터 beta_att 를 사용하여, 서브대역 이득 팩터의 이전값과 그 비율의 평균으로서 계산된다.

평활화기 (GC20) 의 또 다른 구현은, 잡음의 정도가 감소할 경우 q개의 이득 팩터들 중 하나 이상 (가급적 모두) 에 대한 업데이트들을 지연시키도록 구성될 수도 있다. 도 25b는, 그러한 차동 시간 평활화 동작을 구현하는데 사용될 수도 있는 도 25a의 의사코드 리스팅의 변형을 도시한다. 이러한 리스팅은, 값 hangover_max(i) 에 의해 특정되는 간격에 따라 비율 감쇄 프로파일 동안 업데이트들을 지연시키는 행오버 (hangover) 로직을 포함한다. 동일한 값의 hangover_max 가 각각의 서브대역에 대해 사용될 수도 있거나, 상이한 값들의 hangover_max 가 상이한 서브대역들에 대해 사용될 수도 있다.

상술된 바와 같은 서브대역 이득 팩터 계산기 (GC100) 의 일 구현은, 서브대역 이득 팩터들 중 하나 이상 (가급적 모두) 에 상한 및/또는 하한을 적용하도록 또한 구성될 수도 있다. 도 26a 및 26b는, 각각, 서브대역 이득 팩터값들 각각에 그러한 상한 UB 및 하한 LB를 적용하는데 사용될 수도 있는 도 25a 및 25b의 의사코드 리스팅들의 변형들을 도시한다. 이들 한계들 각각의 값들은 고정될 수도 있다. 대안적으로, 이들 한계들 중 어느 하나 또는 그 양자의 값들은, 예를 들어, 등화기 (EQ10) 에 대한 원하는 헤드룸 및/또는 등화된 오디오 신호 (S50) 의 현재 볼륨 (예를 들어, 볼륨 제어 신호 (VS10) 의 현재값) 에 따라 적응될 수도 있다. 대안적으로 또는 부가적으로, 이들 한계들 중 어느 하나 또는 그 양자의 값들은, 재생된 오디오 신호 (S40) 의 현재 레벨과 같은 재생된 오디오 신호 (S40) 로부터의 정보에 기초할 수도 있다.

서브대역들의 중첩으로부터 초래될 수도 있는 과도한 부스팅을 보상하도록 등화기 (EQ10) 를 구성하는 것이 바람직할 수도 있다. 예를 들어, 서브대역 이득 팩터 계산기 (GC100) 는, 중간-주파수 서브대역 (예를 들어, 주파수 fs/4 를 포함하는 서브대역으로서, fs는 재생된 오디오 신호 (S40) 의 샘플링 주파수를 나타냄) 이득 팩터들 중 하나 이상의 값을 감소시키도록 구성될 수도 있다. 서브대역 이득 팩터 계산기 (GC100) 의 그러한 일 구현은, 1보다 작은 값을 갖는 스케일 팩터와 서브대역 이득 팩터의 현재값을 승산함으로써 감소를 수행하도록 구성될 수도 있다. 서브대역 이득 팩터 계산기 (GC100) 의 그러한 일 구현은, (예를 들어, 하나 이상의 인접한 서브대역들을 갖는 대응하는 서브대역의 중첩 정도에 기초하여) 스케일링 다운되도록 각각의 서브대역 이득 팩터에 대해 동일한 스케일 팩터를 사용하거나, 대안적으로는, 스케일링 다운되도록 각각의 서브대역 이득에 대해 상이한 스케일 팩터들을 사용하도록 구성될 수도 있다.

부가적으로 또는 대안적으로, 고주파수 서브대역들 중 하나 이상의 부스팅의 정도를 증가시키도록 등화기 (EQ10) 를 구성하는 것이 바람직할 수도 있다. 예를 들어, 재생된 오디오 신호 (S40) 의 하나 이상의 고주파수 서브대역들 (예를 들어, 최고의 서브대역) 의 증폭이 중간-주파수 서브대역 (주파수 fs/4 를 포함하는 서브대역으로서, fs는 재생된 오디오 신호 (S40) 의 샘플링 주파수를 나타냄) 의 중복보다 더 작지 않다는 것을 보장하도록 서브대역 이득 팩터 계산기 (GC100) 를 구성하는 것이 바람직할 수도 있다. 하나의 그러한 예에서, 서브대역 이득 팩터 계산기 (GC100) 는, 1보다 큰 스케일 팩터와 중간-주파수 서브대역에 대한 서브대역 이득 팩터의 현재값을 승산함으로써, 고주파수 서브대역에 대해 서브대역 이득 팩터의 현재값을 계산하도록 구성된다. 또 다른 그러한 예에서, 서브대역 이득 팩터 계산기 (GC100) 는, (A) 상기 개시된 기술들 중 임의의 기술에 따라 그 서브대역에 대한 전력 비율로부터 계산된 현재 이득 팩터값, 및 (B) 1보다 큰 스케일 팩터와 중간-주파수 서브대역에 대한 서브대역 이득 팩터의 현재값을 승산함으로써 획득된 값 중 최대값으로서, 고주파수 서브대역에 대한 서브대역 이득 팩터의 현재값을 계산하도록 구성된다.

서브대역 필터 어레이 (FA100) 는, 등화된 오디오 신호 (S50) 를 생성하기 위해 재생된 오디오 신호 (S40) 의 대응하는 서브대역에 서브대역 이득 팩터들의 각각을 적용하도록 구성된다. 서브대역 필터 어레이 (FA100) 는, 각각이 재생된 오디오 신호 (S40) 의 대응하는 서브대역에 서브대역 이득 팩터들의 각각을 적용하도록 구성된 대역통과 필터들의 어레이를 포함하도록 구현될 수도 있다. 그러한 어레이의 필터들은 병렬로 및/또는 직렬로 배열될 수도 있다. 도 27은, 병렬로 배열된 q개의 대역통과 필터들 (F20-1 내지 F20-q) 의 세트를 포함하는 서브대역 필터 어레이 (FA100) 의 일 구현 (FA110) 의 블록도를 도시한다. 이러한 경우, 필터들 (F20-1 내지 F20-q) 의 각각은, 대응하는 대역통과 신호를 생성하기 위해 이득 팩터에 따라 재생된 오디오 신호 (S40) 를 필터링함으로써, 재생된 오디오 신호 (S40) 의 대응하는 서브대역에 (서브대역 이득 팩터 계산기 (GC100) 에 의해 계산된 바와 같이) q개의 서브대역 이득 팩터들 G(1) 내지 G(q) 중 대응하는 하나를 적용하도록 배열된다. 또한, 서브대역 필터 어레이 (FA110) 는, 등화된 오디오 신호 (S50) 를 생성하기 위해 q개의 대역통과 신호들을 믹싱하도록 결합기 (MX10) 를 포함한다. 도 28a는 서브대역 필터 어레이 (FA100) 의 또 다른 구현 (FA120) 의 블록도를 도시하며, 그 구현에서, 대역통과 필터들 (F20-1 내지 F20-q) 은, 직렬인 (즉, 2≤k≤q 에 대해, 각각의 필터 (F20-k) 가 필터 F20-(k-1) 의 출력을 필터링하기 위해 배열되도록 캐스캐이드인) 서브대역 이득 팩터들에 따라 재생된 오디오 신호 (S40) 를 필터링함으로써 재생된 오디오 신호 (S40) 의 대응하는 서브대역에 서브대역 팩터들 G(1) 내지 G(q) 의 각각을 적용하도록 배열된다.

필터들 (F20-1 내지 F20-q) 의 각각은 유한 임펄스 응답 (FIR) 또는 무한 임펄스 응답 (IIR) 을 갖도록 구현될 수도 있다. 예를 들어, 필터들 (F20-1 내지 F20-q) 중 하나 이상 (가급적 모두) 의 각각은 바이쿼드로서 구현될 수도 있다. 예를 들어, 서브대역 필터 어레이 (FA120) 는 바이쿼드들의 캐스캐이드로서 구현될 수도 있다. 또한, 그러한 일 구현은, 바이쿼드 IIR 필터 캐스캐이드, 2차 IIR 섹션들 또는 필터들의 캐스캐이드, 또는 캐스캐이드인 일련의 서브대역 IIR 바이쿼드들로서 지칭될 수도 있다. 특히, 등화기 (EQ10) 의 플로팅-포인트 구현들에 대해 전치 직접형 II를 사용하여 각각의 바이쿼드를 구현하는 것이 바람직할 수도 있다.

필터들 (F20-1 내지 F20-q) 의 통과대역들이 (예를 들어, 필터 통과대역들이 동일한 폭을 갖도록 하는) 균일한 서브대역들의 세트보다는 (예를 들어, 필터 통과대역들 중 2개 이상이 상이한 폭들을 갖도록 하는) 비균일한 서브대역들의 세트로의 재생된 오디오 신호 (S40) 의 대역폭 분할을 나타내는 것이 바람직할 수도 있다. 상술된 바와 같이, 비균일 서브대역 분할 방식들의 예들은, 바크 스케일에 기초한 방식과 같은 초월형 방식, 또는 멜 스케일에 기초한 방식과 같은 로그 방식을 포함한다. 필터들 (F20-1 내지 F20-q) 은, 예를 들어, 도 19의 도트들에 의해 도시된 바와 같이 바크 스케일 분할 방식에 따라 구성될 수도 있다. 서브대역들의 그러한 배열은 광대역 스피치 프로세싱 시스템 (예를 들어, 16kHz 의 샘플링 레이트를 갖는 디바이스) 에서 사용될 수도 있다. 그러한 분할 방식의 다른 예들에서, 6-서브대역 방식을 획득하기 위해 최저의 서브대역이 생략되고/되거나 최고의 서브대역의 상한은 7700Hz 로부터 8000Hz 로 증가된다.

협대역 스피치 프로세싱 시스템 (예를 들어, 8kHz 의 샘플링 레이트를 갖는 디바이스) 에서, 6 또는 7개보다 더 적은 서브대역을 갖는 분할 방식에 따라 필터들 (F20-1 내지 F20-q) 의 통과대역들을 설계하는 것이 바람직할 수도 있다. 그러한 서브대역 분할 방식의 일 예는, 4-대역 준-바크 방식 300Hz 내지 510Hz, 510Hz 내지 920Hz, 920Hz 내지 1480Hz, 및 1480Hz 내지 4000Hz 이다. (예를 들어, 이러한 예에서와 같이) 넓은 고주파수 대역의 사용은, 낮은 서브대역 에너지 추정 때문에 및/또는 바이쿼드를 갖는 최고의 서브대역을 모델링하는데의 어려움을 처리할 수 있기 때문에 바람직할 수도 있다.

서브대역 이득 팩터들 G(1) 내지 G(q) 의 각각은, 필터들 (F20-1 내지 F20-q) 중 대응하는 하나의 하나 이상의 필터 계수값들을 업데이트하는데 사용될 수도 있다. 그러한 경우, 주파수 특성 (예를 들어, 중앙 주파수 및 그의 통과대역의 폭) 이 고정되고 이득이 가변하도록 필터들 (F20-1 내지 F20-q) 중 하나 이상 (가급적 모두) 의 각각을 구성하는 것이 바람직할 수도 있다. 그러한 기술은, 공통적인 팩터 (예를 들어, 서브대역 이득 팩터들 G(1) 내지 G(q) 중 대응하는 하나의 현재값) 에 의해 피드포워드 계수들 (예를 들어, 상기 바이쿼드 수학식 (1) 에서의 계수들 b₀, b₁, 및 b₂) 의 값들만을 변경시킴으로써 FIR 또는 IIR 필터에 대해 구현될 수도 있다. 예를 들어, 필터들 (F20-1 내지 F20-q) 중 하나의 필터 (F20-i) 의 바이쿼드 구현에서 피드포워드 계수들의 각각의 값들은, 다음의 전달 함수를 획득하기 위해 서브대역 팩터들 G(1) 내지 G(q) 중 대응하는 하나 G(i) 의 현재값에 따라 변할 수도 있다.

(15)

도 28b는 필터들 (F20-1 내지 F20-q) 중 하나의 필터 (F20-i) 의 바이쿼드 구현의 또 다른 예를 도시하며, 여기서, 필터 이득은 대응하는 서브대역 이득 팩터 G(i) 의 현재값에 따라 변경된다.

서브대역 필터 어레이 (FA100) 가, 제 1 서브대역 신호 생성기 (SG100a) 의 서브대역 필터 어레이 (SG30) 의 일 구현 및/또는 제 2 서브대역 신호 생성기 (SG100b) 의 서브대역 필터 어레이 (SG30) 의 일 구현과 동일한 서브대역 분할 방식을 적용하는 것이 바람직할 수도 있다. 예를 들어, 서브대역 필터 어레이 (FA100) 가 그러한 필터 또는 필터들 (예를 들어, 바이쿼드들의 세트) 의 설계와 동일한 설계를 갖는 필터들의 세트를 사용하는 것이 바람직할 수도 있으며, 고정값들이 서브대역 필터 어레이 또는 어레이들의 이득 팩터들에 대해 사용된다. 심지어, 서브대역 필터 어레이 (FA100) 는, (예를 들어, 상이한 시간에서, 상이한 이득 팩터 값들에 관해, 및 가급적 어레이 (FA120) 의 캐스코드에서와 같이 상이하게 배열된 컴포넌트 필터들에 관해) 그러한 서브대역 필터 어레이 또는 어레이들과 동일한 컴포넌트 필터들을 사용하여 구현될 수도 있다.

부스팅없이 재생된 오디오 신호 (S40) 의 하나 이상의 서브대역들을 통과시키도록 등화기 (EQ10) 를 구성하는 것이 바람직할 수도 있다. 예를 들어, 저주파수 서브대역의 부스팅은 다른 서브대역들의 머플링 (muffling) 을 초래할 수도 있으며, 등화기 (EQ10) 가 부스팅없이 재생된 오디오 신호 (S40) 의 하나 이상의 저주파수 서브대역들 (예를 들어, 300Hz 미만의 주파수들을 포함하는 서브대역) 을 통과시키는 것이 바람직할 수도 있다.

안정성 및/또는 양자화 잡음 고려사항들에 따라 서브대역 필터 어레이 (FA100) 를 설계하는 것이 바람직할 수도 있다. 상술된 바와 같이, 예를 들어, 서브대역 필터 어레이 (FA120) 는 2차 섹션들의 캐스케이드로서 구현될 수도 있다. 그러한 섹션을 구현하기 위한 전치 직접형 II 바이쿼드 구조의 사용은, 라운드-오프 (round-off) 잡음을 최소화시키고/시키거나 섹션 내의 강인한 계수/주파수 민감도들을 획득하는 것을 보조할 수도 있다. 등화기 (EQ10) 는, 오버플로우 조건들을 회피하는 것을 보조할 수도 있는 필터 입력 및/또는 계수값들의 스케일링을 수행하도록 구성될 수도 있다. 등화기 (EQ10) 는, 필터 입력과 출력 사이에 큰 불일치가 있는 경우, 서브대역 필터 어레이 (FA100) 의 하나 이상의 IIR 필터들의 이력을 리셋하는 온전성 체크 (sanity check) 동작을 수행하도록 구성될 수도 있다. 다수의 실험들 및 온라인 테스팅은, 등화기 (EQ10) 가 양자화 잡음 보상을 위한 임의의 모듈들 없이 구현될 수도 있다는 결론을 유도하지만, 하나 이상의 그러한 모듈들 (예를 들어, 서브대역 필터 어레이 (FA100) 의 하나 이상의 필터들 각각의 출력에 대해 디더링 (dithering) 동작을 수행하도록 구성된 모듈) 이 또한 포함될 수도 있다.

재생된 오디오 신호 (S40) 가 비활성인 간격 동안, 등화기 (EQ10) 를 바이패스하거나, 재생된 오디오 신호 (S40) 의 등화를 일시정지시키거나 억제하도록 장치 (A100) 를 구성하는 것이 바람직하다. 장치 (A100) 의 그러한 일 구현은, 프레임 에너지, 신호-대-잡음비, 주기성, 스피치 및/또는 잔류물들 (예를 들어, 선형 예측 코딩 잔류물) 의 자기상관, 제로 크로싱 레이트, 및/또는 제 1 반사율에 기초하여, 활성 (예를 들어, 스피치) 또는 비활성 (예를 들어, 잡음) 으로서 재생된 오디오 신호 (S40) 의 프레임을 분류하도록 구성된 음성 활성도 검출기 (VAD) 를 포함할 수도 있다. 그러한 분류는, 그러한 팩터의 값 또는 크기를 임계값과 비교하는 것 및/또는 그러한 팩터에서의 변경 크기를 임계값과 비교하는 것을 포함할 수도 있다.

도 29는 그러한 VAD (V10) 를 포함하는 장치 (A100) 의 일 구현 (A120) 의 블록도를 도시한다. 음성 활성도 검출기 (V10) 는 업데이트 제어 신호 (S70) 를 생성하도록 구성되며, 그 신호의 상태는 스피치 활성도가 재생된 오디오 신호 (S40) 상에서 검출되는지를 나타낸다. 또한, 장치 (A120) 는 업데이트 제어 신호 (S70) 의 상태에 따라 제어되는 등화기 (EQ10) (예를 들어, 등화기 (EQ20)) 의 일 구현 (EQ30) 을 포함한다. 예를 들어, 등화기 (EQ30) 는, 스피치가 검출되지 않을 경우, 서브대역 이득 팩터값들의 업데이트가 재생된 오디오 신호 (S40) 의 간격 (예를 들어, 프레임) 동안 억제되도록 구성될 수도 있다. 등화기 (EQ30) 의 그러한 일 구현은, 재생된 오디오 신호 (S40) 의 현재 프레임이 비활성이라는 것을 VAD (V10) 가 나타낼 경우, (예를 들어, 하한값에 서브대역 이득 팩터들의 값들을 셋팅하거나 서브대역 이득 팩터들의 값들로 하여금 하한값으로 감쇄되게 하기 위해) 서브대역 이득 팩터들의 업데이트들을 일시중지시키도록 구성된 서브대역 이득 팩터 계산기 (GC100) 의 일 구현을 포함할 수도 있다.

음성 활성도 검출기 (V10) 는, 프레임 에너지, 신호-대-잡음비 (SNR), 주기성, 제로-크로싱 레이트, 스피치 및/또는 잔류물의 자기상관, 및 제 1 반사율과 같은 하나 이상의 팩터들에 기초하여, (예를 들어, 업데이트 제어 신호 (S70) 의 바이너리 상태를 제어하기 위해) 활성 또는 비활성으로서 재생된 오디오 신호 (S40) 의 프레임을 분류하도록 구성될 수도 있다. 그러한 분류는, 그러한 팩터의 값 또는 크기를 임계값과 비교하는 것 및/또는 그러한 팩터에서의 변경 크기를 임계값과 비교하는 것을 포함할 수도 있다. 대안적으로 또는 부가적으로, 그러한 분류는, 일 주파수 대역에서의 에너지와 같은 그러한 팩터의 값 또는 크기, 또는 그러한 팩터에서의 변경 크기를 또 다른 주파수 대역에서의 같은 값과 비교하는 것을 포함할 수도 있다. 다수의 기준 (예를 들어, 에너지, 제로-크로싱 레이트 등) 및/또는 최근의 VAD 결정들의 메모리에 기초하여 음성 활성도 검출을 수행하도록 VAD (V10) 를 구현하는 것이 바람직할 수도 있다. VAD (V10) 에 의해 수행될 수도 있는 음성 활성도 검출 동작의 일 예는, 예를 들어, (온라인 www-dot-3gpp-dot-org 에서 입수가능한) 명칭이 "Enhanced Variable Rate Codec, Speech Service Options 3, 68, and 70 for Wideband Spread Spectrum Digital Systems" 인 2007년 1월자 3GPP2 문헌 C.S0014-C, v1.0 의 섹션 4.7 (pp 4-49 내지 4-57) 에 설명된 바와 같이, 재생된 오디오 신호 (S40) 의 고대역 및 저대역 에너지들을 각각의 임계값들과 비교하는 것을 포함한다. 통상적으로, 음성 활성도 검출기 (V10) 는, 바이너리-값 음성 검출 표시 신호로서 업데이트 제어 신호 (S70) 를 생성하도록 구성되지만, 연속하는 및/또는 멀티-값 신호를 생성하는 구현들이 또한 가능하다.

도 30a 및 30b는, 각각, 도 26a 및 26b의 의사코드 리스팅들의 변형들을 도시하며, 여기서, 재생된 오디오 신호 (S40) 의 현재 프레임이 활성일 경우 가변 VAD (예를 들어, 업데이트 제어 신호 (S70)) 의 상태는 1이고, 그렇지 않으면 0이다. 서브대역 이득 팩터 계산기 (GC100) 의 대응하는 구현에 의해 수행될 수도 있는 이들 예들에서, 서브대역 i 및 프레임 k에 대한 서브대역 이득 팩터의 현재값은 가장 최근의 값으로 초기화된다. 도 31a 및 31b는, 각각, 도 26a 및 26b의 의사코드 리스팅들의 다른 변형들을 도시하며, 여기서, 음성 활성도가 검출되지 않을 경우 (즉, 비활성 프레임들에 대해), 서브대역 이득 팩터의 값은 하한값으로 감쇄되도록 허용된다.

재생된 오디오 신호 (S40) 의 레벨을 제어하도록 장치 (A100) 를 구성하는 것이 바람직할 수도 있다. 예를 들어, 등화기 (EQ10) 에 의한 서브대역 부스팅을 수용하는데 충분한 헤드룸을 제공하기 위해 재생된 오디오 신호 (S40) 의 레벨을 제어하도록 장치 (A100) 를 구성하는 것이 바람직할 수도 있다. 부가적으로 또는 대안적으로, 재생된 오디오 신호 (S40) 에 관한 정보 (예를 들어, 재생된 오디오 신호 (S40) 의 현재 레벨) 에 기초하여, 서브대역 이득 팩터 계산기 (GC100) 를 참조하여 상기 개시된 바와 같이, 상한 UB 및 하한 LB 중 어느 하나 또는 그 양자에 대한 값들을 결정하도록 장치 (A100) 를 구성하는 것이 바람직할 수도 있다.

도 32는 장치 (A100) 의 일 구현 (A130) 의 블록도를 도시하며, 여기서, 등화기 (EQ10) 는 자동 이득 제어 (AGC) 모듈 (G10) 을 통해 재생된 오디오 신호 (S40) 를 수신하도록 배열된다. 자동 이득 제어 모듈 (S100) 은, 재생된 오디오 신호 (S40) 를 획득하기 위해, 알려지거나 개발될 임의의 AGC 기술에 따라 오디오 입력 신호 (S100) 의 동적 범위를 제한된 진폭 대역으로 압축시키도록 구성될 수도 있다. 자동 이득 제어 모듈 (G10) 은, 예를 들어, 낮은 전력을 갖는 입력 신호의 세그먼트들 (예를 들어, 프레임들) 을 부스팅시키고 높은 전력을 갖는 입력 신호의 세그먼트들에서 에너지를 감소시킴으로써 그러한 동적 압축을 수행하도록 구성될 수도 있다. 장치 (A130) 는 디코딩 스테이지로부터 오디오 입력 신호 (S100) 를 수신하도록 배열될 수도 있다. 예를 들어, 상술된 바와 같은 통신 디바이스 (D100) 는, 또한 (즉, AGC 모듈 (G10) 을 포함하는) 장치 (A130) 의 일 구현인 장치 (A110) 의 일 구현을 포함하도록 구성될 수도 있다.

자동 이득 제어 모듈 (G10) 은 헤드룸 정의 및/또는 마스터 볼륨 셋팅을 제공하도록 구성될 수도 있다. 예를 들어, AGC 모듈 (G10) 은, 등화기 (EQ10) 에 대해 상기 개시된 바와 같이 상한 UB 및 하한 LB에 대한 값들을 제공하도록 구성될 수도 있다. 압축 임계값 및/또는 볼륨 셋팅과 같은 AGC 모듈 (G10) 의 동작 파라미터들은 등화기 (EQ10) 의 유효한 헤드룸을 제한할 수도 있다. 감지된 오디오 신호 (S10) 상의 잡음의 부재시에, 장치 (A100) 의 총 효과가 실질적으로 무이득 증폭이도록 (예를 들어, 존재한다면 등화기 (EQ10) 및/또는 AGC 모듈 (G10) 를 튜닝하기 위해) 장치 (A100) 를 튜닝하는 것이 바람직할 수도 있다 (예를 들어, 재생된 오디오 신호 (S40) 와 등화된 오디오 신호 (S50) 사이의 레벨들에서의 차이가 약 플러스 또는 마이너스 5, 10, 또는 20퍼센트 미만이다).

시간-도메인 동적 압축은, 예를 들어, 시간에 걸쳐 신호에서의 변화의 지각도를 증가시킴으로써 신호 명료도를 증가시킬 수도 있다. 그러한 신호 변경의 하나의 특정한 예는 시간에 걸친 명료하게 정의된 포르만트 (formant) 괘적의 존재와 관련되며, 이는 신호의 명료도에 상당히 기여할 수도 있다. 통상적으로, 포르만트 궤적들의 시작 및 종료 포인트들은 자음, 특히 폐쇄 자음 (stop consonant) (예를 들어, [k], [t], [p] 등) 에 의해 마킹된다. 통상적으로, 이들 마킹 자음들은, 스피치의 모음 콘텐츠 및 다른 음성 부분들과 비교하여 낮은 에너지를 갖는다. 마킹 자음의 에너지를 부스팅하는 것은, 청취자로 하여금 스피치 개시 및 오프셋들을 더 명료하게 따르게 함으로써 명료도를 증가시킬 수도 있다. 명료도에서의 그러한 증가는, (예를 들어, 등화기 (EQ10) 를 참조하여 여기에 설명된 바와 같이) 주파수 서브대역 전력 조정을 통해 획득될 수도 있는 것과는 상이하다. 따라서, (예를 들어, 장치 (A130) 의 일 구현에서) 이들 2개의 효과들 사이의 시너지들을 활용하는 것은 전체 스피치 명료도에서의 상당한 증가를 허용할 수도 있다.

등화된 오디오 신호 (S50) 의 레벨을 추가적으로 제어하도록 장치 (A100) 를 구성하는 것이 바람직할 수도 있다. 예를 들어, 장치 (A100) 는, 등화된 오디오 신호 (S50) 의 레벨을 제어하도록 배열되는 (AGC 모듈 (G10) 이외에 또는 그에 대안적으로) AGC 모듈을 포함하도록 구성될 수도 있다. 도 33은 등화기의 음향 출력 레벨을 제한하도록 배열된 피크 제한기 (L10) 를 포함하는 등화기 (EQ20) 의 일 구현 (EQ40) 의 블록도를 도시한다. 피크 제한기 (L10) 는 가변-이득 레벨 압축기로서 구현될 수도 있다. 예를 들어, 피크 제한기 (L10) 는, 등화기 (EQ40) 가 결합된 등화/압축 효과를 달성하도록 높은 피크값들을 임계값들로 압축하도록 구성될 수도 있다. 도 34는 등화기 (EQ40) 뿐만 아니라 AGC 모듈 (G10) 을 포함하는 장치 (A100) 의 일 구현 (A140) 의 블록도를 도시한다.

도 35a의 의사코드 리스팅은 피크 제한기 (L10) 에 의해 수행될 수도 있는 피크 제한 동작의 일 예를 설명한다. 입력 신호 sig 의 각각의 샘플 k에 대해 (예를 들어, 등화된 오디오 신호 (S50) 의 각각의 샘플 k에 대해), 이러한 동작은 샘플 크기와 소프트 피크 제한 peak_lim 사이의 차이 pkdiff 를 계산한다. peak_lim 의 값은 고정일 수도 있거나 시간에 걸쳐 적응될 수도 있다. 예를 들어, peak_lim 의 값은, 상한 UB 및/또는 하한 LB의 값과 같은 AGC 모듈 (G10) 로부터의 정보, 재생된 오디오 신호 (S40) 의 현재 레벨에 관한 정보 등에 기초할 수도 있다.

pkdiff 의 값이 적어도 제로이면, 샘플 크기는 피크 제한 peak_lim 을 초과하지 않는다. 이러한 경우, 차동 이득 값 diffgain 은 1로 셋팅된다. 그렇지 않으면, 샘플 크기는 피크 제한 peak_lim 보다 더 크며, diffgain 은 초과 크기에 비례하여 1 미만의 값으로 셋팅된다.

또한, 피크 제한 동작은 이득값의 평활화를 포함할 수도 있다. 그러한 평활화는 이득이 시간에 걸쳐 증가 또는 감소하고 있는지에 따라 상이할 수도 있다. 예를 들어, 도 35a에 도시된 바와 같이, diffgain 의 값이 피크 이득 파라미터 g_pk 의 이전값을 초과하면, g_pk 의 값은, g_pk 의 이전값, diffgain 의 현재값, 및 어택 이득 평활화 파라미터 gamma_att 를 사용하여 업데이트된다. 그렇지 않으면, g_pk 의 값은 g_pk 의 이전값, diffgain 의 현재값, 및 감쇄 이득 평활화 파라미터 gamma_dec 를 사용하여 업데이트된다. 값들 gamma_att 및 gamma_dec 는 약 제로 (평활화 없음) 내지 0.999 (최대 평활화) 의 범위로부터 선택된다. 그 후, 입력 신호 sig 의 대응하는 샘플 k는 g_pk 의 평활화된 값에 의해 승산되어, 피크-제한된 샘플을 획득한다.

도 35b는 차동 이득값 diffgain 을 계산하기 위해 상이한 수학식을 사용하는 도 35a의 의사코드 리스팅의 변형을 도시한다. 이들 예들에 대한 대안으로서, 피크 제한기 (L10) 는 도 35a 및 35b 에서 설명된 바와 같은 피크 제한 동작의 다른 예를 수행하도록 구성될 수도 있으며, 여기서, pkdiff 의 값은 덜 빈번하게 업데이트된다 (예를 들어, pkdiff 의 값은 신호 sig 의 수개의 샘플들의 절대값들의 평균과 peak_lim 사이의 차이로서 계산된다).

상술된 바와 같이, 통신 디바이스는 장치 (A100) 의 일 구현을 포함하도록 구성될 수도 있다. 그러한 디바이스의 동작 동안 몇몇 시간에서, 장치 (A100) 가 잡음 기준 (S30) 이외의 기준으로부터의 정보에 따라 재생된 오디오 신호 (S40) 를 등화시키는 것이 바람직할 수도 있다. 예를 들어, 몇몇 환경들 또는 배향들에서, SSP 필터 (SS10) 의 지향성 프로세싱 동작이 신뢰가능하지 않은 결과를 생성할 수도 있다. 푸쉬-투-토크 (PTT) 모드 또는 스피커폰 모드와 같은 디바이스의 몇몇 동작 모드들에서, 감지된 오디오 채널의 공간 선택적 프로세싱은 불필요하거나 바람직하지 않을 수도 있다. 그러한 경우, 장치 (A100) 가 공간 선택적 ("멀티채널") 모드보다는 비-공간 (또는 "단일-채널") 모드에서 동작하는 것이 바람직할 수도 있다.

장치 (A100) 의 일 구현은, 모드 선택 신호의 현재 상태에 따라 단일-채널 모드 또는 멀티채널 모드에서 동작하도록 구성될 수도 있다. 장치 (A100) 의 그러한 일 구현은, 감지된 오디오 신호 (S10), 소스 신호 (S20), 및 잡음 기준 (S30) 중 적어도 하나의 품질에 기초하여 모드 선택 신호 (예를 들어, 바이너리 플래그) 를 생성하도록 구성된 분리도 평가기를 포함할 수도 있다. 모드 선택 신호의 상태를 결정하도록 그러한 분리도 평가기에 의해 사용된 기준은, 대응하는 임계값에 대한 후속하는 파라미터들 중 하나 이상의 현재값 사이의 관계; 소스 신호 (S20) 의 에너지와 잡음 기준 (S30) 의 에너지 사이의 차이 또는 비율; 잡음 기준 (S20) 의 에너지와 감지된 오디오 신호 (S10) 의 하나 이상의 채널들의 에너지 사이의 차이 또는 비율; 소스 신호 (S20) 와 잡음 기준 (S30) 사이의 상관도; 소스 신호 (S20) 의 하나 이상의 통계 메트릭들 (예를 들어, 첨도 (kurtosis), 자기상관도) 에 의해 표시된 바와 같이 소스 신호 (20) 가 스피치를 운반할 가능도를 포함할 수도 있다. 그러한 경우, 신호의 에너지의 현재값은 신호의 연속하는 샘플들의 블록 (예를 들어, 프레임) 의 제곱된 샘플 값들의 합으로서 계산될 수도 있다.

도 36은, 소스 신호 (S20) 및 잡음 기준 (S30) 으로부터의 정보에 기초하여 (예를 들어, 소스 신호 (S20) 의 에너지와 잡음 기준 (S30) 의 에너지 사이의 차이 또는 비율에 기초하여), 모드 선택 신호 (S80) 를 생성하도록 구성된 분리도 평가기 (EV10) 를 포함하는 장치 (A100) 의 그러한 일 구현 (A200) 의 블록도를 도시한다. 그러한 분리도 평가기는, SSP 필터 (SS10) 가 원하는 사운드 컴포넌트 (예를 들어, 사용자의 음성) 를 충분히 분리시켰다고 결정할 경우 멀티채널 모드를 나타내는 제 1 상태를 갖기 위해, 및 그렇지 않으면 단일-채널 모드를 나타내는 제 2 상태를 갖기 위해 모드 선택 신호 (S80) 를 생성하도록 구성될 수도 있다. 하나의 그러한 예에서, 분리도 평가기 (EV10) 는, 소스 신호 (S20) 의 현재 에너지와 잡음 기준 (S30) 의 현재 에너지 사이의 차이가 대응하는 임계값을 초과한다고 (대안적으로는, 이하라고) 결정할 경우 충분한 분리도를 나타내도록 구성된다. 또 다른 그러한 예에서, 분리도 평가기 (EV10) 는, 소스 신호 (S20) 의 현재 프레임과 잡음 기준 (S30) 의 현재 프레임 사이의 상관도가 대응하는 임계값 미만이라고 (대안적으로는, 초과하지 않는다고) 결정할 경우 충분한 분리도를 나타내도록 구성된다.

또한, 장치 (A200) 는 등화기 (EQ10) 의 일 구현 (EQ100) 을 포함한다. 등화기 (EQ100) 는, 모드 선택 신호 (S80) 가 제 1 상태를 가질 경우 (예를 들어, 상기 개시된 등화기 (EQ10) 의 구현들 중 임의의 구현에 따라) 멀티채널 모드에서 동작하고, 모드 선택 신호 (S80) 가 제 2 상태를 가질 경우 단일-채널 모드에서 동작하도록 구성된다. 단일-채널 모드에서, 등화기 (EQ100) 는, 미분리된 감지된 오디오 신호 (S90) 로부터의 서브대역 전력 추정치들의 세트에 기초하여 서브대역 이득 팩터값들 G(10) 내지 G(q) 를 계산하도록 구성된다. 등화기 (EQ100) 는 시간-도메인 버퍼로부터 미분리된 감지된 오디오 신호 (S90) 를 수신하도록 배열될 수도 있다. 하나의 그러한 예에서, 시간-도메인 버퍼는 10밀리초의 길이 (예를 들어, 8kHz 의 샘플링 레이트에서는 80개의 샘플들 또는 16kHz 의 샘플링 레이트에서는 160개의 샘플들) 를 갖는다.

장치 (A200) 는, 미분리된 감지된 오디오 신호 (S90) 가 감지된 오디오 채널들 (S10-1 및 S10-2) 중 하나이도록 구현될 수도 있다. 도 37은 장치 (A200) 의 그러한 일 구현 (A210) 의 블록도를 도시하며, 여기서, 미분리된 감지된 오디오 신호 (S90) 는 감지된 오디오 채널 (S10-1) 이다. 이러한 경우들에서, 장치 (A200) 가 오디오 프리프로세서 (AP20) 와 같이, 마이크로폰 신호들에 대해 에코 소거 동작을 수행하도록 구성된 에코 소거기 또는 다른 오디오 프리프로세싱 스테이지를 통해 감지된 오디오 채널 (S10) 을 수신하는 것이 바람직할 수도 있다. 장치 (A200) 의 더 일반적인 구현에서, 상술된 바와 같이, 미분리된 감지된 오디오 신호 (S90) 는, 마이크로폰 신호들 (SM10-1 및 SM10-2) 중 어느 하나 또는 마이크로폰 신호들 (DM10-1 및 DM10-2) 와 같은 미분리된 마이크로폰 신호이다.

장치 (A200) 는, 미분리된 감지된 오디오 신호 (S90) 가 통신 디바이스의 1차 마이크로폰 (예를 들어, 일반적으로 사용자의 음성을 가장 직접적으로 수신하는 마이크로폰) 에 대응하는 감지된 오디오 채널들 (S10-1 및 S10-2) 중 특정한 하나이도록 구현될 수도 있다. 대안적으로, 장치 (A200) 는, 미분리된 감지된 오디오 신호 (S90) 가 통신 디바이스의 2차 마이크로폰 (예를 들어, 일반적으로 사용자의 음성을 단지 간접적으로 수신하는 마이크로폰) 에 대응하는 감지된 오디오 채널들 (S10-1 및 S10-2) 중 특정한 하나이도록 구현될 수도 있다. 대안적으로, 장치 (A200) 는, 감지된 오디오 채널들 (S10-1 및 S10-2) 을 단일 채널로 믹싱 다운시킴으로써, 미분리된 감지된 오디오 신호 (S90) 를 획득하도록 구현될 수도 있다. 또 다른 대안에서, 장치 (A200) 는, 최고의 신호-대-잡음비, (예를 들어, 하나 이상의 통계 메트릭들에 의해 나타낸 바와 같은) 최대의 스피치 가능도, 통신 디바이스의 현재 동작 구성, 및/또는 원하는 소스 신호가 발신하기로 결정된 방향과 같은 하나 이상의 기준에 따라, 감지된 오디오 채널들 (S10-1 및 S10-2) 중에서 미분리된 감지된 오디오 신호 (S90) 를 선택하도록 구현될 수도 있다 (장치 (A200) 의 더 일반적인 구현에서, 이러한 문단에서 설명된 원리들은, 상술된 바와 같은 마이크로폰 신호들 (SM10-1 및 SM10-2) 또는 마이크로폰 신호들 (DM10-1 및 DM10-2) 와 같은 2개 이상의 마이크로폰 신호들의 세트로부터 미분리된 감지된 오디오 신호 (S90) 를 획득하는데 사용될 수도 있다). 상술된 바와 같이, (예를 들어, 오디오 프리프로세서 (AP20) 및 에코 소거기 (EC10) 를 참조하여 상술된 바와 같이) 에코 소거 동작을 경험한 하나 이상의 마이크로폰 신호들로부터 미분리된 감지된 오디오 신호 (S90) 를 획득하는 것이 바람직할 수도 있다.

등화기 (EQ100) 는, 모드 선택 신호 (S80) 의 상태에 따라 잡음 기준 (S30) 및 미분리된 감지된 오디오 신호 (S90) 중 하나에 기초하여 제 2 서브대역 신호들의 세트를 생성하도록 구성될 수도 있다. 도 38은, 모드 선택 신호 (S80) 의 현재 상태에 따라, 잡음 기준 (S30) 및 미분리된 감지된 오디오 신호 (S90) 중 하나를 선택하도록 구성된 선택기 (SL10) (예를 들어, 디멀티플렉서) 를 포함하는 등화기 (EQ100) (및 등화기 (EQ20)) 의 그러한 일 구현 (EQ110) 의 블록도를 도시한다.

대안적으로, 등화기 (EQ100) 는, 제 2 서브대역 전력 추정치들의 세트를 생성하기 위해, 모드 선택 신호 (S80) 의 상태에 따라 서브대역 신호들의 상이한 세트들 중에서 선택하도록 구성될 수도 있다. 도 39는, 제 3 서브대역 신호 생성기 (SG100c) 및 선택기 (SL20) 를 포함하는 등화기 (EQ100) (및 등화기 (EQ20)) 의 그러한 일 구현 (EQ120) 의 블록도를 도시한다. 서브대역 신호 생성기 (SG200) 의 일 인스턴스 또는 서브대역 신호 생성기 (SG300) 의 일 인스턴스로서 구현될 수도 있는 제 2 서브대역 신호 생성기 (SG100c) 는, 미분리된 감지된 오디오 신호 (S90) 에 기초한 서브대역 신호들의 세트를 생성하도록 구성된다. 선택기 (SL20) (예를 들어, 디멀티플렉서) 는, 제 2 서브대역 신호 생성기 (SG100b) 및 제 3 서브대역 신호 생성기 (SG100c) 에 의해 생성된 서브대역 신호들의 세트들 중에서 하나를 모드 선택 신호 (S80) 의 현재 상태에 따라 선택하고, 서브대역 신호들의 선택된 세트를 서브대역 신호들의 제 2 세트로서 제 2 서브대역 전력 추정치 계산기 (EC100b) 에 제공하도록 구성된다.

또 다른 대안에서, 등화기 (EQ100) 는, 서브대역 이득 팩터들의 세트를 생성하기 위해 모드 선택 신호 (S80) 의 상태에 따라 잡음 서브대역 전력 추정치들의 상이한 세트들 중에서 선택하도록 구성된다. 도 40은, 제 3 서브대역 신호 생성기 (SG100c) 및 제 2 서브대역 전력 추정치 계산기 (NP100) 를 포함하는 등화기 (EQ100) (및 등화기 (EQ20)) 의 그러한 일 구현 (EQ130) 의 블록도를 도시한다. 계산기 (NP100) 는 제 1 잡음 서브대역 전력 추정치 계산기 (NC100b), 제 2 잡음 서브대역 전력 추정치 계산기 (NC100c), 및 선택기 (SL30) 를 포함한다. 상술된 바와 같이, 제 1 잡음 서브대역 전력 추정치 계산기 (NC100b) 는, 제 2 서브대역 신호 생성기 (SG100b) 에 의해 생성된 서브대역 신호들의 세트에 기초한 잡음 서브대역 전력 추정치들의 제 1 세트를 생성하도록 구성된다. 상술된 바와 같이, 제 2 잡음 서브대역 전력 추정치 계산기 (NC100c) 는, 제 3 서브대역 신호 생성기 (SG100c) 에 의해 생성된 서브대역 신호들의 세트에 기초한 잡음 서브대역 전력 추정치들의 제 2 세트를 생성하도록 구성된다. 예를 들어, 등화기 (EQ130) 는, 잡음 기준들의 각각에 대한 서브대역 전력 추정치들을 병렬로 평가하도록 구성될 수도 있다. 선택기 (SL30) (예를 들어, 디멀티플렉서) 는, 제 1 잡음 서브대역 전력 추정치 계산기 (NC100b) 및 제 2 잡음 서브대역 전력 추정치 계산기 (NC100c) 에 의해 생성된 잡음 서브대역 전력 추정치들의 세트들 중 하나를 모드 선택 신호 (S80) 의 현재 상태에 따라 선택하고, 그 선택된 세트의 잡음 서브대역 전력 추정치들을 서브대역 전력 추정치들의 제 2 세트로서 서브대역 이득 팩터 계산기 (GC100) 에 제공하도록 구성된다.

제 1 잡음 서브대역 전력 추정치 계산기 (NC100b) 는, 서브대역 전력 추정치 계산기 (EC110) 의 일 인스턴스 또는 서브대역 전력 추정치 계산기 (EC120) 의 일 인스턴스로서 구현될 수도 있다. 또한, 제 2 잡음 서브대역 전력 추정치 계산기 (NC100c) 는, 서브대역 전력 추정치 계산기 (EC110) 의 일 인스턴스 또는 서브대역 전력 추정치 계산기 (EC120) 의 일 인스턴스로서 구현될 수도 있다. 또한, 제 2 잡음 서브대역 전력 추정치 계산기 (NC100c) 는, 미분리된 감지된 오디오 신호 (S90) 에 대한 현재 서브대역 전력 추정치들의 최소값을 식별하고, 미분리된 감지된 오디오 신호 (S90) 에 대한 다른 현재 서브대역 전력 추정치들을 이러한 최소값으로 대체하도록 또한 구성될 수도 있다. 예를 들어, 제 2 잡음 서브대역 전력 추정치 계산기 (NC100c) 는, 도 41a에 도시된 바와 같은 서브대역 신호 생성기 (EC210) 의 일 인스턴스로서 구현될 수도 있다. 서브대역 신호 생성기 (EC210) 는, 1≤i≤q 에 대해,

와 같은 수학식에 따라 최소의 서브대역 전력 추정치를 식별 및 적용하도록 구성된 최소화기 (MZ10) 를 포함하는 상술된 바와 같은 서브대역 신호 생성기 (EC110) 의 일 구현이다. 대안적으로, 제 2 잡음 서브대역 전력 추정치 계산기 (NC100c) 는, 도 41b에 도시된 바와 같은 서브대역 신호 생성기 (EC220) 의 일 인스턴스로서 구현될 수도 있다. 서브대역 신호 생성기 (EC220) 는, 최소화기 (MZ10) 의 일 인스턴스를 포함하는 상술된 바와 같은 서브대역 신호 생성기 (EC120) 의 일 구현이다.

멀티채널 모드에서 동작할 경우, 미분리된 감지된 오디오 신호 (S90) 로부터의 서브대역 전력 추정치들 뿐만 아니라 잡음 기준 (S30) 으로부터의 서브대역 전력 추정치들에 기초하여 서브대역 이득 팩터값들을 계산하도록 등화기 (EQ130) 를 구성하는 것이 바람직할 수도 있다. 도 42는 등화기 (EQ130) 의 그러한 일 구현 (EQ140) 의 블록도를 도시한다. 등화기 (EQ140) 는, 최대화기 (MAX10) 를 포함하는 제 2 서브대역 전력 추정치 계산기 (NP10) 의 일 구현 (NP110) 을 포함한다. 최대화기 (MAX10) 는, 1≤i≤q 에 대해,

와 같은 수학식에 따라 서브대역 전력 추정치들의 세트를 계산하도록 구성되며, 여기서, E_b(i,k) 는 서브대역 i 및 프레임 k에 대하여 제 1 잡음 서브대역 전력 추정치 계산기 (EC100b) 에 의해 계산된 서브대역 전력 추정치를 나타내고, E_c(i,k) 는 서브대역 i 및 프레임 k에 대하여 제 2 잡음 서브대역 전력 추정치 계산기 (EC100c) 에 의해 계산된 서브대역 전력 추정치를 나타낸다.

장치 (A100) 의 일 구현이 단일-채널 및 멀티채널 잡음 기준들로부터의 잡음 서브대역 전력 정보를 결합시키는 모드에서 동작하는 것이 바람직할 수도 있다. 멀티채널 잡음 기준이 비고정형 잡음에 대한 동적 응답을 지원할 수도 있을 경우, 장치의 결과적인 동작은 예를 들어, 사용자의 위치에서의 변화들에 매우 반응할 수도 있다. 단일-채널 잡음 기준은, 더 안정적이지만 비고정형 잡음을 보상하기 위한 능력은 부족한 응답을 제공할 수도 있다. 도 43a는, 잡음 기준 (S30) 으로부터의 정보 및 미분리된 감지된 오디오 신호 (S90) 로부터의 정보에 기초하여 재생된 오디오 신호 (S40) 를 등화시키도록 구성된 등화기 (EQ20) 의 일 구현 (EQ50) 의 블록도를 도시한다. 등화기 (EQ50) 는, 상술된 바와 같이 구성된 최대화기 (MAX10) 의 일 인스턴스를 포함하는 제 2 서브대역 전력 추정치 계산기 (NP100) 의 일 구현 (NP200) 을 포함한다.

또한, 계산기 (NP200) 는 단일-채널 및 멀티채널 잡음 서브대역 전력 추정치들의 이득들의 독립적인 조작을 허용하도록 구현될 수도 있다. 예를 들어, 스케일링된 서브대역 전력 추정 값들이 최대화기 (MAX10) 에 의해 수행되는 최대화 동작에서 사용되도록, 제 1 서브대역 전력 추정치 계산기 (NC100b) 또는 제 2 서브대역 전력 추정치 계산기 (NC100c) 에 의해 생성된 잡음 서브대역 전력 추정치들 중 하나 이상 (가급적 모두) 의 각각을 스케일링하기 위해 이득 팩터 (또는 일 세트의 이득 팩터들 중 대응하는 하나를 적용하도록 계산기 (NP200) 를 구현하는 것이 바람직할 수도 있다.

장치 (A100) 의 일 구현을 포함하는 디바이스의 동작 동안 몇몇 시간에서, 그 장치가 잡음 기준 (S30) 이외의 기준으로부터의 정보에 따라 재생된 오디오 신호 (S40) 를 등화시키는 것이 바람직할 수도 있다. 원하는 사운드 컴포넌트 (예를 들어, 사용자의 음성) 및 (예를 들어, 간섭 스피커, 공용 어드레스 시스템, 텔레비전 또는 라디오로부터의) 지향성 잡음 컴포넌트가 동일한 방향으로부터 마이크로폰 어레이에 도달하는 상황에 대해, 예를 들어, 지향성 프로세싱 동작은 이들 컴포넌트들의 부적합한 분리도를 제공할 수도 있다. 예를 들어, 지향성 프로세싱 동작이 지향성 잡음 컴포넌트를 소스 신호로 분리시킬 수도 있으므로, 결과적인 잡음 기준은 재생된 오디오 신호의 원하는 등화를 지원하는데 부적합할 수도 있다.

여기에 개시된 바와 같은 지향성 프로세싱 동작 및 거리 프로세싱 동작 양자의 결과들을 적용하도록 장치 (A100) 를 구현하는 것이 바람직할 수도 있다. 예를 들어, 그러한 일 구현은, 근접장의 원하는 사운드 컴포넌트 (예를 들어, 사용자의 음성) 및 (예를 들어, 간섭 스피커, 공용 어드레스 시스템, 텔레비전 또는 라디오로부터의) 원격장의 지향성 잡음 컴포넌트가 동일한 방향으로부터 마이크로폰 어레이에 도달하는 경우에 대해 개선된 등화 성능을 제공할 수도 있다.

잡음 기준 (S30) 으로부터의 정보 및 소스 신호 (S20) 로부터의 정보에 기초한 잡음 서브대역 전력 추정치들에 따라, 재생된 오디오 신호 (S40) 의 적어도 하나의 서브대역을 재생된 오디오 신호 (S40) 의 또 다른 서브대역에 대해 부스팅시키도록 장치 (A100) 를 구현하는 것이 바람직할 수도 있다. 도 43b는 제 2 잡음 기준으로서 소스 신호 (S20) 를 프로세싱하도록 구성된 등화기 (EQ20) 의 그러한 일 구현 (EQ240) 의 블록도를 도시한다. 등화기 (EQ240) 는, 여기에 개시된 바와 같이 구성되는 최대화기 (MAX10) 의 일 인스턴스를 포함하는 제 2 서브대역 전력 추정치 계산기 (NP100) 의 일 구현 (NP120) 을 포함한다. 이러한 구현에서, 선택기 (SL30) 는 여기에 개시된 바와 같은 SSP 필터 (SS10) 의 일 구현에 의해 생성된 바와 같은 거리 표시 신호 (DI10) 를 수신하도록 배열된다. 선택기 (SL30) 는, 거리 표시 신호 (DI10) 의 현재 상태가 원격장 신호를 나타낼 경우 최대화기 (MAX10) 의 출력을 선택하고, 그렇지 않으면 제 1 잡음 서브대역 전력 추정치 계산기 (EC100b) 의 출력을 선택하도록 배열된다.

(등화기가 미분리된 감지된 오디오 신호 (S90) 대신 소스 신호 (S20) 를 제 2 잡음 기준으로서 수신하도록 구성하기 위해, 여기에 개시된 바와 같은 등화기 (EQ100) 의 일 구현의 일 인스턴스를 포함하도록 장치 (A100) 가 또한 구현될 수도 있다는 것이 명백히 개시된다).

도 43c는, 여기에 개시된 바와 같은 SSP 필터 (SS110) 및 등화기 (EQ240) 를 포함하는 장치 (A100) 의 일 구현 (A250) 의 블록도를 도시한다. 도 43d는, (예를 들어, 등화기 (EQ50) 를 참조하여 여기에 개시된 바와 같은) 단일-채널 및 멀티채널 잡음 기준들로부터의 잡음 서브대역 전력 정보와 (예를 들어, 등화기 (EQ240) 를 참조하여 여기에 개시된 바와 같은) 원격장 비고정형 잡음의 보상에 대한 지원을 결합시키는 등화기 (EQ240) 의 일 구현 (EQ250) 의 블록도를 도시한다. 이러한 예에서, 제 2 서브대역 전력 추정치들은 3개의 상이한 잡음 추정치들, 즉, (5개의 프레임들을 초과하는 것과 같이, 매우 평활화되고/되거나 장기간에 걸쳐 평활화될 수도 있는) 미분리된 감지된 오디오 신호 (S90) 로부터의 고정형 잡음의 추정치, (평활화되지 않거나 단지 최소한으로만 평활화되는) 소스 신호 (S20) 로부터의 원격장 비고정형 잡음의 추정치, 및 방향-기반일 수도 있는 잡음 기준 (S30) 에 기초한다. (예를 들어, 도 43d에 도시된 바와 같이) 여기에 개시된 잡음 기준으로서의 미분리된 감지된 오디오 신호 (S90) 의 임의의 애플리케이션에서, 소스 신호 (S20) 로부터의 평활화된 잡음 추정치 (예를 들어, 매우 평활화된 추정치 및/또는 수 개의 프레임들에 걸쳐 평활화되는 장기간 추정치) 가 대신 사용될 수도 있다.

미분리된 감지된 오디오 신호 (S90) (대안적으로는, 감지된 오디오 신호 (S10)) 가 비활성인 간격 동안에만 단일-채널 서브대역 잡음 전력 추정치들을 업데이트하도록 등화기 (EQ100) (또는 등화기 (EQ50) 또는 등화기 (EQ240)) 를 구성하는 것이 바람직할 수도 있다. 장치 (A100) 의 그러한 일 구현은, 프레임 에너지, 신호-대-잡음비, 주기성, 스피치 및/또는 잔류물 (예를 들어, 선형 예측 코딩 잔류물) 의 자기상관, 제로 크로싱 레이트, 및/또는 제 1 반사율과 같은 하나 이상의 팩터들에 기초하여, 활성 (예를 들어, 스피치) 또는 비활성 (예를 들어, 잡음) 으로서 미분리된 감지된 오디오 신호 (S90) (또는 감지된 오디오 신호 (S10)) 의 프레임을 분류하도록 구성된 음성 활성도 검출기 (VAD) 를 포함할 수도 있다. 그러한 분류는, 그러한 팩터의 값 또는 크기를 임계값과 비교하는 것 및/또는 그러한 팩터에서의 변화 크기를 임계값과 비교하는 것을 포함할 수도 있다. 다수의 기준 (예를 들어, 에너지, 제로-크로싱 레이트 등) 및/또는 최근의 VAD 판정들의 메모리에 기초하여 음성 활성도 검출을 수행하도록 이러한 VAD를 구현하는 것이 바람직할 수도 있다.

도 44는, 그러한 음성 활성도 검출기 (또는 "VAD") (V20) 를 포함하는 장치 (A200) 의 그러한 일 구현 (A220) 을 도시한다. 상술된 바와 같은 VAD (V10) 의 일 인스턴스로서 구현될 수도 있는 음성 활성도 검출기 (V20) 는 업데이트 제어 신호 (UC10) 를 생성하도록 구성되며, 그 신호의 상태는 스피치 활성도가 감지된 오디오 채널 (S10-1) 상에서 검출되는지를 나타낸다. 장치 (A220) 가 도 38에 도시된 바와 같은 등화기 (EQ100) 의 일 구현 (EQ110) 을 포함하는 경우에 대해, 업데이트 제어 신호 (UC10) 는, 스피치가 감지된 오디오 채널 (S10-1) 상에서 검출되고 단일-채널 모드가 선택될 경우 간격 (예를 들어, 프레임) 동안, 제 2 서브대역 신호 생성기 (SG100b) 가 그의 출력을 업데이트하는 것을 방지하도록 적용될 수도 있다. 장치 (A220) 가 도 38에 도시된 바와 같은 등화기 (EQ100) 의 일 구현 (EQ110) 또는 도 39에 도시된 바와 같은 등화기 (EQ100) 의 일 구현 (EQ120) 을 포함하는 경우에 대해, 업데이트 제어 신호 (UC10) 는, 스피치가 감지된 오디오 채널 (S10-1) 상에서 검출되고 단일-채널 모드가 선택될 경우, 간격 (예를 들어, 프레임) 동안 제 2 서브대역 전력 추정치 생성기 (EC100b) 가 그의 출력을 업데이트하는 것을 방지하도록 적용될 수도 있다.

장치 (A220) 가 도 39에 도시된 바와 같은 등화기 (EQ100) 의 일 구현 (EQ120) 을 포함하는 경우에 대해, 업데이트 제어 신호 (UC10) 는, 스피치가 감지된 오디오 채널 (S10-1) 상에서 검출될 경우, 간격 (예를 들어, 프레임) 동안 제 3 서브대역 신호 생성기 (SG100c) 가 그의 출력을 업데이트하는 것을 방지하도록 적용될 수도 있다. 장치 (A220) 가, 도 40에 도시된 바와 같은 등화기 (EQ100) 의 일 구현 (EQ130) 또는 도 41에 도시된 바와 같은 등화기 (EQ100) 의 일 구현 (EQ140) 을 포함하는 경우에 대해, 또는 장치 (A100) 가 도 43에 도시된 바와 같은 등화기 (EQ100) 의 일 구현 (EQ40) 을 포함하는 경우에 대해, 업데이트 제어 신호 (UC10) 는 스피치가 감지된 오디오 채널 (S10-1) 상에서 검출될 경우 간격 (예를 들어, 프레임) 동안, 제 3 서브대역 신호 생성기 (SG100c) 가 그의 출력을 업데이트하는 것을 방지하고/하거나, 제 3 서브대역 전력 추정치 생성기 (EC100c) 가 그의 출력을 업데이트하는 것을 방지하도록 적용될 수도 있다.

도 45는, 모드 선택 신호의 현재 상태에 따라 단일-채널 모드 또는 멀티채널 모드에서 동작하도록 구성된 장치 (A100) 의 일 대안적인 구현 (A300) 의 블록도를 도시한다. 장치 (A200) 와 유사하게, 장치 (A100) 의 장치 (A300) 는 모드 선택 신호 (S80) 를 생성하도록 구성된 분리도 평가기 (예를 들어, 분리도 평가기 (EV10)) 를 포함한다. 이러한 경우, 장치 (A300) 는 재생된 오디오 신호 (S40) 에 대해 AGC 또는 AVC 동작을 수행하도록 구성된 자동 볼륨 제어 (AVC) 모듈 (VC10) 을 또한 포함하며, 모드 선택 신호 (S80) 는, 모드 선택 신호 (S80) 의 대응하는 상태에 따라 각각의 프레임에 대해 AVC 모듈 (VC10) 및 등화기 (EQ10) 중 하나를 선택하기 위해 선택기들 (SL40; 예를 들어, 멀티플렉서 및 SL50; 예를 들어, 디멀티플렉서) 을 제어하도록 적용된다. 도 46은, 여기에 설명된 바와 같은 등화기 (EQ30) 의 일 구현 (EQ60) 및 AGC 모듈 (G10) 및 VAD (V10) 의 인스턴스들을 또한 포함하는 장치 (A300) 의 일 구현 (A310) 의 블록도를 도시한다. 이러한 예에서, 또한, 등화기 (EQ60) 는, 등화기의 음향 출력 레벨을 제한하도록 배열된 피크 제한기 (L10) 의 일 인스턴스를 포함하는 상술된 바와 같은 등화기 (EQ40) 의 일 구현이다 (당업자는, 장치 (A300) 의 이러한 및 다른 개시된 구성들이 등화기들 (EQ50 또는 EQ240) 와 같이 여기에 개시된 바와 같은 등화기 (EQ10) 의 대안적인 구현들을 사용하여 또한 구현될 수도 있음을 이해할 것이다).

AGC 또는 AVC 동작은, 단일 마이크로폰으로부터 통상적으로 획득되는 고정형 잡음 추정치에 기초하여 오디오 신호의 레벨을 제어한다. 그러한 추정치는, 여기에 설명된 바와 같은 미분리된 감지된 오디오 신호 (S90) (대안적으로는, 감지된 오디오 신호 (S10)) 의 일 인스턴스로부터 계산될 수도 있다. 예를 들어, 미분리된 감지된 오디오 신호의 전력 추정치와 같은 파라미터 값 (예를 들어, 현재 프레임의 에너지, 또는 절대값들의 합) 에 따라 재생된 오디오 신호 (S40) 의 레벨을 제어하도록 AVC 모듈 (VC10) 을 구성하는 것이 바람직할 수도 있다. 다른 전력 추정치들을 참조하여 상술된 바와 같이, 미분리된 감지된 오디오 신호가 음성 활성도를 현재 포함하고 있지 않은 경우에만 그러한 파라미터 값에 대해 시간 평활화 동작을 수행하고/하거나 파라미터 값을 업데이트하도록 AVC 모듈 (VC10) 을 구성하는 것이 바람직할 수도 있다. 도 47은, AVC 모듈 (VC10) 의 일 구현 (VC20) 이 감지된 오디오 채널 (S10-1) 로부터의 정보 (예를 들어, 신호 (S10-1) 의 현재 전력 추정치) 에 따라, 재생된 오디오 신호 (S40) 의 볼륨을 제어하도록 구성되는, 장치 (A310) 의 일 구현 (A320) 의 블록도를 도시한다. 도 48은, AVC 모듈 (VC10) 의 일 구현 (VC30) 이, 마이크로폰 신호 (SM10-1) 로부터의 정보 (예를 들어, 신호 (SM10-1) 의 현재 전력 추정치) 에 따라 재생된 오디오 신호 (S40) 의 볼륨을 제어하도록 구성된 장치 (A310) 의 일 구현 (A330) 의 블록도를 도시한다.

도 49는 장치 (A100) 의 또 다른 구현 (A400) 의 블록도를 도시한다. 장치 (A400) 는, 여기에 설명된 바와 같은 등화기 (EQ100) 의 일 구현을 포함하며, 장치 (A200) 와 유사하다. 그러나, 이러한 경우, 모드 선택 신호 (S80) 는 미상관된 잡음 검출기 (UC10) 에 의해 생성된다. 어레이의 일 마이크로폰에 영향을 주지만 다른 마이크로폰에는 영향을 주지 않는 잡음인 미상관된 잡음은, 윈드 잡음, 호흡 소리, 스크래칭 등을 포함할 수도 있다. 미상관된 잡음은, 허용된다면 시스템이 그러한 잡음을 실제로 증폭시킬 수도 있으므로, SSP 필터 (SS10) 와 같은 멀티-마이크로폰 신호 분리 시스템에서 바람직하지 않은 결과를 초래할 수도 있다. 미상관된 잡음을 검출하기 위한 기술들은, 마이크로폰 신호들 (약 200Hz 로부터 약 800 또는 1000Hz 까지의 각각의 마이크로폰 신호에서의 대역과 같은 그 마이크로폰 신호들 또는 그의 일부) 의 상호-상관을 추정하는 것을 포함한다. 그러한 상호-상관 추정은, 마이크로폰들 사이의 원격장 응답을 등화시키기 위해 2차 마이크로폰 신호의 통과대역을 이득-조정하는 것, 그 이득-조정된 신호를 1차 마이크로폰 신호의 통과대역으로부터 감산하는 것, 및 (차이 신호 및/또는 1차 마이크로폰 통과대역의 시간에 걸친 에너지에 기초하여 적응될 수도 있는) 임계값에 차이 신호의 에너지를 비교하는 것을 포함할 수도 있다. 미상관 잡음 검출기 (UC10) 는, 그러한 기술 및/또는 임의의 다른 적절한 기술에 따라 구현될 수도 있다. 또한, 멀티플-마이크로폰 디바이스에서의 미상관 잡음의 검출은, 발명의 명칭이 "SYSTEMS, METHODS, AND APPARATUS FOR DETECTION OF UNCORRELATED COMPONENT" 로서 2008년 8월 29일자로 출원된 미국 특허출원 제 12/201,528호에서 설명되며, 그 문헌은 설계, 구현, 및/또는 미상관 잡음 검출기 (UC10) 의 통합의 개시물로 제한되는 목적을 위해 여기에 참조로서 포함된다.

도 50은, SSP 필터 (SS10) 의 하나 이상의 지향성 프로세싱 스테이지들을 특성화하는 계수값들을 획득하는데 사용될 수도 있는 설계 방법 (M10) 의 흐름도를 도시한다. 방법 (M10) 은, 멀티채널 트레이닝 신호들의 세트를 레코딩하는 태스크 (T10), 수렴하도록 SSP 필터 (SS10) 의 구조를 트레이닝하는 태스크 (T20), 및 트레이닝된 필터의 분리도 성능을 평가하는 태스크 (T30) 를 포함한다. 통상적으로, 태스크들 (T20 및 T30) 은, 개인용 컴퓨터 또는 워크스테이션을 사용하여 오디오 재생 디바이스 외부에서 수행된다. 방법 (M10) 의 태스크들 중 하나 이상은, 수용가능한 결과가 태스크 (T30) 에서 획득될 때까지 반복될 수도 있다. 방법 (M10) 의 다양한 태스크들은 더 상세히 후술되며, 이들 태스크들의 부가적인 설명은, 발명의 명칭이 "SYSTEMS, METHODS, AND APPARATUS FOR SIGNAL SEPARATION" 으로서 2008년 8월 25일자로 출원된 미국 특허출원 제 12/197,924호에서 발견되며, 그 문헌은, SSP 필터 (SS10) 의 하나 이상의 지향성 프로세싱 스테이지들의 설계, 구현, 트레이닝, 및/또는 평가로 제한되는 목적을 위해 여기에 참조로서 포함된다.

태스크 (T10) 는, M개의 채널들 각각이 M개의 마이크로폰들 중 대응하는 것의 출력에 기초하도록 M-채널 트레이닝 신호들의 세트를 레코딩하도록 적어도 M개의 마이크로폰들의 어레이를 사용한다. 트레이닝 신호들의 각각은 적어도 하나의 정보 소스 및 적어도 하나의 간섭 소스에 응답하여 이러한 어레이에 의해 생성된 신호들에 기초하므로, 각각의 트레이닝 신호는 스피치 및 잡음 컴포넌트들 양자를 포함한다. 예를 들어, 트레이닝 신호들 각각이 잡음있는 환경에서의 스피치의 레코딩인 것이 바람직할 수도 있다. 마이크로폰 신호들은 통상적으로 샘플링되고, 프리프로세싱 (예를 들어, 에코 소거, 잡음 감소, 스펙트럼 쉐이핑 등을 위해 필터링) 될 수도 있고, 심지어, (예를 들어, 여기에 설명된 바와 같은 또 다른 공간 분리 필터 또는 적응적 필터에 의해) 미리-분리될 수도 있다. 스피치와 같은 음향 애플리케이션들에 대해, 통상적인 샘플링 레이트들은 8kHz 로부터 16kHz 까지의 범위에 있다.

그 세트의 M-채널 트레이닝 신호들의 각각은 P개의 시나리오들 중 하나의 시나리오 하에서 레코딩되며, 여기서, P는 2와 동일할 수도 있지만 일반적으로는 1보다 큰 임의의 정수이다. 후술될 바와 같이, P개의 시나리오들의 각각은 상이한 공간 특성 (예를 들어, 상이한 핸드셋 또는 헤드셋 배향) 및/또는 상이한 스펙트럼 특성 (예를 들어, 상이한 특징들을 가질 수도 있는 사운드 소스들의 캡쳐) 을 포함할 수도 있다. 트레이닝 신호들의 세트는, P개의 시나리오들 중 상이한 시나리오 하에서 각각 레코딩된 적어도 P개의 트레이닝 신호들을 포함하지만, 그러한 세트는 통상적으로 각각의 시나리오에 대한 다수의 트레이닝 신호들을 포함할 것이다.

여기에 설명된 바와 같은 장치 (A100) 의 다른 엘리먼트들을 포함하는 동일한 오디오 재생 디바이스를 사용하여 태스크 (T10) 를 수행하는 것이 가능하다. 그러나 더 통상적으로, 태스크 (T10) 는 오디오 재생 디바이스 (예를 들어, 핸드셋 또는 헤드셋) 의 기준 인스턴스를 사용하여 수행될 것이다. 그 후, 방법 (M10) 에 의해 생성되는 수렴된 필터 솔루션들의 결과적인 세트는, 재생 동안 동일한 또는 유사한 오디오 재생 디바이스의 다른 인스턴스들로 카피될 것이다 (예를 들어, 각각의 그러한 재생 인스턴스의 플래시 메모리로 로딩될 것이다).

그러한 경우, 오디오 재생 디바이스의 기준 인스턴스 ("기준 디바이스") 는 M개의 마이크로폰들의 어레이를 포함한다. 기준 디바이스의 마이크로폰들이 오디오 재생 디바이스의 재생 인스턴스들 ("재생 디바이스들") 의 음향 응답과 동일한 음향 응답을 갖는 것이 바람직할 수도 있다. 예를 들어, 기준 디바이스의 마이크로폰들이 동일한 모델 또는 모델들이고, 재생 디바이스들의 방식 및 위치들과 동일한 방식 및 동일한 위치들에 탑재되는 것이 바람직할 수도 있다. 또한, 그렇지 않으면 기준 디바이스가 재생 디바이스들과 동일한 음향 특징을 갖는 것이 바람직할 수도 있다. 심지어, 그들 서로에 대한 것과 같이 기준 디바이스가 재생 디바이스들과 음향적으로 동일한 것이 바람직할 수도 있다. 예를 들어, 기준 디바이스가 재생 디바이스들과 동일한 디바이스 모델인 것이 바람직할 수도 있다. 그러나 실제 제조 환경에서, 기준 디바이스는 하나 이상의 중요하지 않은 (즉, 음향적으로 중요하지 않은) 양태들에서 재생 디바이스들과는 상이한 사전-제조 버전일 수도 있다. 통상적인 경우, 기준 디바이스는 트레이닝 신호들을 레코딩하기 위해서만 사용되므로, 기준 디바이스 그 자체가 장치 (A100) 의 엘리먼트들을 포함하는 것은 필요하지 않을 수도 있다.

동일한 M개의 마이크로폰들은 모든 트레이닝 신호들을 레코딩하는데 사용될 수도 있다. 대안적으로, 트레이닝 신호들 중 하나의 신호를 레코딩하는데 사용되는 M개의 마이크로폰들의 세트가 트레이닝 신호들 중 다른 신호를 레코딩하는데 사용되는 M개의 마이크로폰들의 세트와는 (마이크로폰들 중 하나 이상에서) 상이한 것이 바람직할 수도 있다. 예를 들어, 마이크로폰들 사이의 몇몇 변화도에 강인한 복수의 필터 계수값들을 생성하기 위해 마이크로폰 어레이의 상이한 인스턴스들을 사용하는 것이 바람직할 수도 있다. 하나의 그러한 경우, M-채널 트레이닝 신호들의 세트는, 기준 디바이스의 적어도 2개의 상이한 인스턴스들을 사용하여 레코딩된 신호들을 포함한다.

P개의 시나리오들 각각은 적어도 하나의 정보 소스 및 적어도 하나의 간섭 소스를 포함한다. 통상적으로, 각각의 정보 소스는 스피치 신호 또는 음악 신호를 재생하는 라우드스피커이고, 각각의 간섭 소스는 또 다른 스피치 신호 또는 통상적인 기대된 환경으로부터의 주변 배경 사운드와 같은 간섭 음향 신호, 또는 잡음 신호를 재생하는 라우드스피커이다. 사용될 수도 있는 다양한 타입의 라우드스피커는 일렉트로다이내믹 (예를 들어, 음성 코일) 스피커들, 압전식 스피커들, 정전식 스피커들, 리본 스피커들, 평면식 자성 스피커들 등을 포함한다. 하나의 시나리오 또는 애플리케이션에서 정보 소스로서 기능하는 소스는, 상이한 시나리오 또는 애플리케이션에서 간섭 소스로서 기능할 수도 있다. P개의 시나리오들 각각에서 M개의 마이크로폰들로부터의 입력 데이터의 레코딩은, M-채널 테이프 레코더, M-채널 사운드 레코딩 또는 캡쳐 능력을 갖는 컴퓨터, 또는 M개의 마이크로폰들의 출력을 (예를 들어, 샘플링 레졸루션의 순서 내에서) 동시에 캡쳐하거나 레코딩할 수 있는 또 다른 디바이스를 사용하여 수행될 수도 있다.

음향 무반향 챔버가 M-채널 트레이닝 신호들의 세트를 레코딩하기 위해 사용될 수도 있다. 도 51은 트레이닝 데이터의 레코딩을 위해 구성된 음향 무반향 챔버의 일 예를 도시한다. 이러한 예에서, 헤드 및 토르소 시뮬레이터 (HATS, Bruel & Kjaer, Naerum, Denmark 에 의해 제조된 바와 같음) 는 간섭 소스들 (즉, 4개의 라우드스피커들) 의 내부-포커싱된 어레이 내에 위치된다. HATS 헤드는 대표적인 인간의 헤드와 음향적으로 유사하며, 스피치 신호를 재생하기 위해 입 내에 라우드스피커를 포함한다. 간섭 소스들의 어레이는, 도시된 바와 같이 HATS를 둘러싸는 발산 잡음 필드를 생성하도록 구동될 수도 있다. 하나의 그러한 예에서, 라우드스피커들의 어레이는, HATS 귀 기준 포인트 또는 입 기준 포인트에서 75dB 내지 78dB 의 사운드 압력 레벨로 잡음 신호들을 재생하도록 구성된다. 다른 경우, 하나 이상의 그러한 간섭 소스들은, 공간 분포를 갖는 잡음 필드 (예를 들어, 지향성 잡음 필드) 를 생성하도록 구동될 수도 있다.

사용될 수도 있는 잡음 신호들의 타입은, 화이트 잡음, 핑크 잡음, 그레이 잡음, 및 (예를 들어, Institute of Electrical and Electronics Engineers (IEEE), Piscataway, NJ 에 의해 공표된 바와 같은 IEEE Standard 269-2001, "Draft Standard Methods for Measuring Transmission Performance of Analog and Digital Telephone Sets, Handsets and Headsets" 에 설명된 바와 같은) 후드 (Hoth) 잡음을 포함한다. 사용될 수도 있는 다른 타입의 잡음 신호들은 브라운 잡음, 블루 잡음, 및 퍼플 잡음을 포함한다.

P개의 시나리오들은 적어도 하나의 공간 및/또는 스펙트럼 특성의 관점에서 서로 상이하다. 소스들 및 마이크로폰들의 공간 구성은 적어도 다음의 방식들, 즉, 다른 소스 또는 소스들에 대한 일 소스의 배치 및/또는 배향, 다른 마이크로폰 또는 마이크로폰들에 대한 일 마이크로폰의 배치 및/또는 배향, 마이크로폰들에 대한 소스들의 배치 및/또는 배향, 및 소스들에 대한 마이크로폰들의 배치 및/또는 배향 중 임의의 하나 이상에서 시나리오마다 변할 수도 있다. P개의 시나리오들 중 적어도 2개는 상이한 공간 구성들로 배열된 마이크로폰들 및 소스들의 세트에 대응할 수도 있으므로, 그 세트 중에서 적어도 하나의 마이크로폰들 및 소스들은 일 시나리오에서의 그의 위치 또는 배향과는 상이한 다른 시나리오에서의 위치 또는 배향을 갖는다. 예를 들어, P개의 시나리오들 중 적어도 2개는, 사용자의 입과 같은 정보 소스에 대해, M개의 마이크로폰들의 어레이를 갖는 핸드셋 또는 헤드셋과 같은 휴대용 통신 디바이스의 상이한 배향들에 관련될 수도 있다. 시나리오마다 상이한 공간 특성들은, 하드웨어 제한 (예를 들어, 디바이스 상의 마이크로폰들의 위치들), 디바이스의 투영된 사용 패턴들 (예를 들어, 통상적인 기대된 사용자 보유 포즈들), 및/또는 상이한 마이크로폰 위치들 및/또는 활성도들 (예를 들어, 3개 이상의 마이크로폰들 사이의 상이한 쌍들을 활성화시키는 것) 을 포함할 수도 있다.

시나리오마다 변할 수도 있는 스펙트럼 특성들은 적어도 다음들, 즉, 적어도 하나의 소스 신호의 스펙트럼 콘텐츠 (예를 들어, 상이한 음성으로부터의 스피치, 상이한 컬러들의 잡음), 및 마이크로폰들 중 하나 이상의 주파수 응답을 포함한다. 상술된 바와 같은 하나의 특정한 예에서, 시나리오들 중 적어도 2개는 마이크로폰들 중 적어도 하나와 상이하다 (즉, 일 시나리오에서 사용된 마이크로폰들 중 적어도 하나는 또 다른 마이크로폰으로 대체되거나 다른 시나리오에서 결코 사용되지 않는다). 그러한 변경은, 마이크로폰의 주파수 및/또는 위상 응답에서의 기대된 범위의 변경들에 대해 강인하고/하거나 마이크로폰의 고장에 강인한 솔루션을 지원하는데 바람직할 수도 있다.

또 다른 특정한 예에서, 시나리오들 중 적어도 2개는 배경 잡음을 포함하며, 배경 잡음의 서명 (즉, 주파수 및/또는 시간에 걸친 잡음의 통계) 과 상이하다. 그러한 경우, 간섭 소스들은, P개의 시나리오들 중 하나의 시나리오에서 하나의 컬러 (예를 들어, 화이트, 핑크, 또는 후드) 또는 타입 (예를 들어, 거리 잡음, 배블 잡음, 또는 자동차 잡음) 의 잡음을 방출하고, P개의 시나리오들 중 또 다른 시나리오에서 또 다른 컬러 또는 타입의 잡음을 방출하도록 구성될 수도 있다 (예를 들어, 일 시나리오에서는 배블 잡음, 및 또 다른 시나리오에서는 거리 및/또는 자동차 잡음).

P개의 시나리오들 중 적어도 2개는, 실질적으로 상이한 스펙트럼 콘텐츠를 갖는 신호들을 생성하는 정보 소스들을 포함할 수도 있다. 예를 들어, 스피치 애플리케이션에서, 2개의 상이한 시나리오들에서의 정보 신호들은, 10퍼센트, 20퍼센트, 30퍼센트, 또는 심지어 50퍼센트 이하 만큼 서로 상이한 (즉, 시나리오의 길이에 걸쳐) 평균 피치들을 갖는 2개의 음성들과 같이 상이한 음성들일 수도 있다. 시나리오에 따라 변할 수도 있는 또 다른 특성은, 다른 소스 또는 소스들의 출력 진폭에 대한 일 소스의 출력 진폭이다. 시나리오마다 변할 수도 있는 또 다른 특성은, 다른 마이크로폰 또는 마이크로폰들의 어레이의 이득 민감도에 대한 일 마이크로폰의 이득 민감도이다.

후술될 바와 같이, M-채널 트레이닝 신호들의 세트는, 필터 계수값들의 수렴된 세트를 획득하기 위해 태스크 (T20) 에서 사용된다. 트레이닝 신호들의 각각의 지속기간은, 트레이닝 동작의 기대된 수렴 레이트에 기초하여 선택될 수도 있다. 예를 들어, 수렴을 향한 상당한 진행을 허용하는데 충분히 길지만 다른 트레이닝 신호들로 하여금 수렴된 솔루션에 실질적으로 또한 기여하게 하는데는 충분히 짧은 각각의 트레이닝 신호에 대한 지속기간을 선택하는 것이 바람직할 수도 있다. 통상적인 애플리케이션에서, 트레이닝 신호들의 각각은 약 1/2 또는 1로부터 약 5 또는 10초까지 지속한다. 통상적인 트레이닝 동작에 대해, 트레이닝 신호들의 카피들은, 트레이닝을 위해 사용될 사운드 파일을 획득하도록 랜덤한 순서로 연접된다. 트레이닝 파일에 대한 통상적인 길이는 10, 30, 45, 60, 75, 90, 100, 및 120초를 포함한다.

근접장 시나리오에서 (예를 들어, 통신 디바이스가 사용자의 입 근방에서 보유될 경우), 상이한 진폭 및 지연 관계가 원격장 시나리오에서 (예를 들어, 그 디바이스가 사용자의 입으로부터 더 이격되어 보유될 경우) 보다는 마이크로폰 출력들 사이에서 존재할 수도 있다. P개의 시나리오들의 범위가 근접장 및 원격장 시나리오들 양자를 포함하는 것이 바람직할 수도 있다. 대안적으로, P개의 시나리오들의 범위가 근접장 시나리오만을 포함하는 것이 바람직할 수도 있다. 그러한 경우, 대응하는 제조 디바이스는, 동작 동안 감지된 오디오 신호 (S10) 의 불충분한 분리도가 검출될 경우, 등화를 일시중지하거나 등화기 (EQ100) 를 참조하여 여기에 설명된 바와 같이 단일-채널 등화 모드를 사용하도록 구성될 수도 있다.

P개의 음향 시나리오들의 각각에 대해, 정보 신호는, (ITU-T Recommendation P.50, International Telecommunication Union, Geneva, CH, March 1993 에 설명된 바와 같은) HATS의 입 인공 스피치 및/또는 (IEEE Recommended Practices for Speech Quality Measurements in IEEE Transactions on Audio and Electroacoustics, vol.17, pp. 227-46, 1969 에 설명된 바와 같은) 하버드 문장들 중 하나 이상과 같은 음성 발음 표준화된 사전으로부터 재생함으로써 M개의 마이크로폰들에 제공될 수도 있다. 하나의 그러한 예에서, 스피치는 89dB의 사운드 압력 레벨에서 HATS의 입 라우드스피커로부터 재생된다. P개의 시나리오들 중 적어도 2개는 이러한 정보 신호에 대해 서로 상이할 수도 있다. 예를 들어, 상이한 시나리오들은 실질적으로 상이한 피치들을 갖는 음성들을 사용할 수도 있다. 부가적으로 또는 대안적으로, P개의 시나리오들 중 적어도 2개는 (예를 들어, 상이한 마이크로폰의 응답에서의 변화들에 강인한 수렴된 솔루션을 지원하기 위해) 기준 디바이스의 상이한 인스턴스들을 사용할 수도 있다.

하나의 특정한 세트의 애플리케이션들에서, M개의 마이크로폰들은 셀룰러 전화기 핸드셋과 같은 무선 통신을 위한 휴대용 디바이스의 마이크로폰들이다. 도 6a 및 6b는 그러한 디바이스에 대한 2개의 상이한 동작 구성들을 도시하며, (예를 들어, 각각의 구성에 대한 별개의 수렴된 필터 상태를 획득하기 위해) 그 디바이스의 각각의 동작 구성에 대해 방법 (M10) 의 별개의 인스턴스들을 수행하는 것이 가능하다. 그러한 경우, 장치 (A100) 는 런타임에서 다양한 수렴된 필터 상태들 중에서 (즉, SSP 필터 (SS10) 의 지향성 프로세싱 스테이지에 대한 필터 계수값들의 상이한 세트들 또는 SSP 필터 (SS10) 의 지향성 프로세싱 스테이지의 상이한 인스턴스들 중에서) 선택하도록 구성될 수도 있다. 예를 들어, 장치 (A100) 는, 디바이스가 오픈 또는 클로우즈 (close) 되는지를 나타내는 스위치의 상태에 대응하는 필터 또는 필터 상태를 선택하도록 구성될 수도 있다.

또 다른 특정한 세트의 애플리케이션들에서, M개의 마이크로폰들은 유선 또는 무선 이어피스 또는 다른 헤드셋의 마이크로폰들이다. 도 8은 여기에 설명된 바와 같은 그러한 헤드셋의 일 예 (63) 를 도시한다. 그러한 헤드셋에 대한 트레이닝 시나리오들은, 상기 핸드셋 애플리케이션들을 참조하여 설명된 바와 같이, 정보 및/또는 간섭 소스들의 임의의 결합을 포함할 수도 있다. P개의 트레이닝 시나리오들 중 상이한 시나리오들에 의해 모델링될 수도 있는 또 다른 차이는, 헤드셋 탑재 가변성 (66) 에 의해 도 8에 표시된 바와 같이 귀에 대한 트랜스듀서 축의 가변각이다. 실제로, 그러한 변화는 사용자에 따라 발생할 수도 있다. 심지어, 그러한 변화는, 디바이스를 착용한 단일 주기에 걸쳐 동일한 사용자에 관해서도 발생할 수도 있다. 그러한 변화가, 트랜스듀서 어레이로부터 사용자의 입까지의 방향 및 거리를 변경시킴으로써 신호 분리도 성능에 악영향을 줄 수도 있음을 이해할 것이다. 그러한 경우, 복수의 M-채널 트레이닝 신호들 중 하나가, 헤드셋이 기대된 범위의 탑재 각도들 중 일 극단에서의 각도 또는 그 근방에서 귀 (65) 에 탑재되는 시나리오에 기초하는 것이 바람직할 수도 있고, M-채널 트레이닝 신호들 중 다른 신호가, 헤드셋이 기대된 범위의 탑재 각도들 중 다른 극단에서의 각도 또는 그 근방에서 귀 (65) 에 탑재되는 시나리오에 기초하는 것이 바람직할 수도 있다. P개의 시나리오들 중 다른 것들은, 이들 극단들 사이의 중간인 각도에 대응하는 하나 이상의 배향들을 포함할 수도 있다.

또 다른 세트의 애플리케이션들에서, M개의 마이크로폰들은 핸드-프리 자동차 키트에서 제공되는 마이크로폰이다. 도 9는 라우드스피커 (85) 가 마이크로폰 어레이 (84) 의 넓은 측면에 배치되는 그러한 통신 디바이스 (83) 의 일 예를 도시한다. 그러한 디바이스에 대한 P개의 음향 시나리오들은, 상기 핸드셋 애플리케이션들을 참조하여 설명된 바와 같이 정보 및/또는 간섭 소스들의 임의의 결합을 포함할 수도 있다. 예를 들어, P개의 시나리오들 중 2개 이상은 마이크로폰 어레이에 대한 원하는 사운드 소스의 위치에서 상이할 수도 있다. 또한, P개의 시나리오들 중 하나 이상은 라우드스피커 (85) 로부터 간섭 신호를 재생하는 것을 포함할 수도 있다. 상이한 시나리오들은, 시간 및/또는 주파수 (예를 들어, 실질적으로 상이한 피치 주파수들) 에서 상이한 서명들을 갖는 음악 및/또는 음성들과 같이 라우드스피커 (85) 로부터 재생된 간섭 신호들을 포함할 수도 있다. 그러한 경우, 방법 (M10) 이 원하는 스피치 신호로부터 간섭 신호를 분리시키는 필터 상태를 생성하는 것이 바람직할 수도 있다. 또한, P개의 시나리오들 중 하나 이상은 상술된 바와 같은 발산 또는 지향성 잡음 필드와 같은 간섭을 포함할 수도 있다.

방법 (M10) 에 의해 생성되는 수렴된 필터 솔루션의 공간 분리 특징 (예를 들어, 대응하는 빔 패턴의 형상 및 배향) 은, 트레이닝 신호들을 획득하기 위해 태스크 (T10) 에서 사용되는 마이크로폰들의 상대적인 특징들에 민감할 수도 있다. 트레이닝 신호들의 세트를 레코딩하기 위해 디바이스를 사용하기 전에 서로에 대해 기준 디바이스의 M개의 마이크로폰들의 적어도 이득들을 교정하는 것이 바람직할 수도 있다. 그러한 교정은, 마이크로폰들의 이득들의 결과적인 비율이 원하는 범위 내에 있도록 마이크로폰들 중 하나 이상의 출력에 적용될 가중 팩터를 계산 또는 선택하는 것을 포함할 수도 있다. 또한, 제조 이전 및/또는 이후, 서로에 대해 각각의 제조 디바이스의 마이크로폰들의 적어도 이득들을 교정하는 것이 바람직할 수도 있다.

개별 마이크로폰 엘리먼트가 음향적으로 매우 양호하게 특성화되더라도, 그 엘리먼트가 오디오 재생 디바이스에 탑재되는 방식 및 음향부의 품질들과 같은 팩터들에서의 차이들은 유사한 마이크로폰 엘리먼트들로 하여금, 실제 사용에서 상당히 상이한 주파수 및 이득 응답 패턴들을 갖게 할 수도 있다. 따라서, 오디오 재생 디바이스에 인스톨된 이후 마이크로폰 어레이의 그러한 교정을 수행하는 것이 바람직할 수도 있다.

마이크로폰들의 어레이의 교정은 특수한 잡음 필드 내에서 수행될 수도 있으며, 오디오 재생 디바이스는 그 잡음 필드 내에서 특정한 방식으로 배향된다. 예를 들어, 핸드셋과 같은 2-마이크로폰 오디오 재생 디바이스는, 양자의 마이크로폰들 (이들 각각은 무지향성 또는 단일지향성일 수도 있음) 이 동일한 SPL 레벨들로 동등하게 노출되도록 2-포인트-소스 잡음 필드에 배치될 수도 있다. 제조 디바이스들 (예를 들어, 핸드셋들) 의 공장 교정을 수행하는데 사용될 수도 있는 다른 교정 인클로저 (enclosure) 및 절차의 예들은, 발명의 명칭이 "SYSTEMS, METHODS, AND APPARATUS FOR CALIBRATION OF MULTI-MICROPHONE DEVICES" 로서 2008년 6월 30일자로 출원된 미국 특허출원 제 61/077,144호에 설명되어 있다. 기준 디바이스의 마이크로폰들의 주파수 응답 및 이득들의 매칭은, 제조 동안 음향 캐비티 및/또는 마이크로폰 민감도에서의 변동들을 정정하는 것을 보조할 수도 있으며, 또한, 각각의 제조 디바이스의 마이크로폰들을 교정하는 것이 바람직할 수도 있다.

제조 디바이스의 마이크로폰들 및 기준 디바이스의 마이크로폰들이 동일한 절차를 사용하여 적절히 교정되는 것을 보장하는 것이 바람직할 수도 있다. 대안적으로, 상이한 음향 교정 절차가 제조 동안 사용될 수도 있다. 예를 들어, 실험실 절차를 사용하여 룸-사이즈 무반향 챔버에서 기준 디바이스를 교정하고, 공장 플로어 상의 (예를 들어, 미국 특허출원 제 61/077,144호에서 설명된 바와 같은) 휴대용 챔버에서 각각의 제조 디바이스를 교정하는 것이 바람직할 수도 있다. 제조 동안 음향 교정 절차를 수행하는 것이 용이하지 않은 경우에 대해, 자동 이득 매칭 절차를 수행하도록 제조 디바이스를 구성하는 것이 바람직할 수도 있다. 그러한 절차의 예들은, 발명의 명칭이 "SYSTEMS AND METHOD FOR AUTOMATIC GAIN MATCHING OF A PAIR OF MICROPHONES" 로서 2008년 6월 2일자로 출원된 미국 가특허출원 제 61/058,132호에 설명되어 있다.

제조 디바이스의 마이크로폰들의 특징들은 시간에 걸쳐 드리프트할 수도 있다. 대안적으로 또는 부가적으로, 그러한 디바이스의 어레이 구성은 시간에 걸쳐 기계적으로 변할 수도 있다. 따라서, 주기적인 서비스 동안 또는 몇몇 다른 이벤트 시에 (예를 들어, 파워-업 시에, 사용자 선택 시에 등) 하나 이상의 마이크로폰 주파수 특성들 및/또는 민감도들 (예를 들어, 마이크로폰 이득들 사이의 비율) 을 매칭하도록 구성된 오디오 재생 디바이스 내의 교정 루틴을 포함하는 것이 바람직할 수도 있다. 그러한 절차의 예들은 미국 가특허출원 제 61/058,132호에 설명되어 있다.

P개의 시나리오들 중 하나 이상은, 지향성 간섭 소스를 제공하기 위해 (예를 들어, 인공적인 스피치 및/또는 음성 발음 표준화된 사전에 의해) 오디오 재생 디바이스의 하나 이상의 라우드스피커들을 구동시키는 것을 포함할 수도 있다. 하나 이상의 그러한 시나리오들을 포함하는 것은, 재생된 오디오 신호로부터의 간섭에 대한 결과적인 수렴된 필터 솔루션의 강인성을 지원하는 것을 보조할 수도 있다. 그러한 경우에서, 기준 디바이스의 라우드스피커 또는 라우드스피커들이 동일한 모델 또는 모델들이며, 제조 디바이스들의 것들과 동일한 방식 및 동일한 위치들에 탑재되는 것이 바람직할 수도 있다. 도 6a에 도시된 바와 같은 동작 구성에 대해, 그러한 시나리오는 1차 스피커 (SP10) 를 구동시키는 것을 포함할 수도 있지만, 도 6b에 도시된 바와 같은 동작 구성에 대해, 그러한 시나리오는 2차 스피커 (SP20) 를 구동시키는 것을 포함할 수도 있다. 시나리오는, 예를 들어, 도 51에 도시된 바와 같은 간섭 소스들의 어레이에 의해 생성된 발산 잡음 필드 이외에 또는 그에 대안적인 그러한 간섭 소스를 포함할 수도 있다.

대안적으로 또는 부가적으로, 방법 (M10) 의 일 인스턴스는, 상술된 바와 같은 에코 소거기 (EC10) 에 대한 하나 이상의 수렴된 필터 세트들을 획득하도록 수행될 수도 있다. 그 후, 에코 소거기의 트레이닝된 필터들은, SSP 필터 (SS10) 에 대한 트레이닝 신호들의 레코딩 동안 마이크로폰 신호들에 대해 에코 소거를 수행하는데 사용될 수도 있다.

무반향 챔버 내에 위치된 HATS가 태스크 (T10) 에서 트레이닝 신호들을 레코딩하기 위한 적절한 테스트 디바이스로서 설명되지만, 임의의 다른 휴머노이드 (humanoid) 시뮬레이터 또는 화자가 원하는 스피치 생성 소스에 대해 대체될 수 있다. 그러한 경우, (예를 들어, 원하는 범위의 오디오 주파수들에 걸쳐 결과적인 매트릭스의 트레이닝된 필터 계수값들을 더 양호하게 컨디셔닝하기 위해) 배경 잡음의 적어도 몇몇 양을 사용하는 것이 바람직할 수도 있다. 또한, 제조 디바이스를 사용하기 전 및/또는 제조 디바이스의 사용 동안 그 제조 디바이스에 대해 테스팅을 수행하는 것이 가능하다. 예를 들어, 그 테스팅은, 입으로의 마이크로폰들의 통상적인 거리와 같이 오디오 재생 디바이스의 사용자의 특성들에 기초하여 및/또는 기대된 사용 환경에 기초하여 개인화될 수 있다. 일련의 미리 셋팅된 "질문" 은, 예를 들어, 특정한 특성들, 트레이스들, 환경들, 사용들 등에 대해 시스템을 컨디셔닝하는 것을 보조할 수도 있는 사용자 응답에 대해 설계될 수 있다.

태스크 (T20) 는, 소스 분리 알고리즘에 따라 SSP 필터 (SS10) 의 구조를 트레이닝하도록 (즉, 대응하는 수렴된 필터 솔루션을 계산하도록) 트레이닝 신호들의 세트를 사용한다. 태스크 (T20) 는, 개인용 컴퓨터 또는 워크스테이션을 사용하여, 기준 디바이스 내에서 수행될 수도 있지만, 통상적으로 오디오 재생 디바이스 외부에서 수행된다. 결과적인 출력 신호에서, 지향성 컴포넌트의 에너지가 출력 채널들 중 하나 (예를 들어, 소스 신호 (S20)) 로 집중하도록, 태스크 (T20) 가 지향성 컴포넌트를 갖는 멀티채널 입력 신호 (예를 들어, 감지된 오디오 신호 (S10)) 를 필터링하도록 구성되는 수렴된 필터 구조를 생성하는 것이 바람직할 수도 있다. 이러한 출력 채널은, 멀티채널 입력 신호의 채널들 중 임의의 채널과 비교하여, 증가된 신호-대-잡음비 (SNR) 을 가질 수도 있다.

"소스 분리 알고리즘" 이라는 용어는, 소스 신호들의 혼합물들만에 기초하여 (하나 이상의 정보 소스들 및 하나 이상의 간섭 소스들로부터의 신호들을 포함할 수도 있는) 개별 소스 신호들을 분리시키는 방법인 블라인드 소스 분리 (BSS) 알고리즘을 포함한다. 블라인드 소스 분리 알고리즘은, 다수의 독립적인 소스들로부터 도래하는 믹싱된 신호들을 분리시키는데 사용될 수도 있다. 이들 기술들이 각각의 신호의 소스에 관한 정보를 요구하지 않기 때문에, 그들은 "블라인드 소스 분리" 방법들로서 알려져 있다. "블라인드" 라는 용어는 기준 신호 또는 관심있는 신호가 이용가능하지 않는다는 사실을 지칭하며, 일반적으로, 그러한 방법들은 정보 및/또는 간섭 신호들 중 하나 이상의 통계에 관한 가정들을 포함한다. 예를 들어, 스피치 애플리케이션들에서, 관심있는 스피치 신호는 일반적으로 슈퍼가우시안 분포 (예를 들어, 높은 첨도) 를 갖는 것으로 가정된다. 또한, BSS 알고리즘들의 클래스는 다변수 블라인드 디콘볼루션 알고리즘을 포함한다.

BSS 방법은 독립 컴포넌트 분석의 구현을 포함할 수도 있다. 독립 컴포넌트 분석 (ICA) 은, 아마도 서로 독립적인 믹싱된 소스 신호들 (컴포넌트들) 을 분리시키기 위한 기술이다. 그의 간략화된 형태에서, 독립 컴포넌트 분석은, 분리된 신호들을 생성하기 위해 가중치들의 "믹싱되지 않은" 매트릭스를 믹싱된 신호들에 (예를 들어, 그 매트릭스를 그 믹싱된 신호들과 승산함으로써) 적용한다. 그 후, 가중치들은, 정보 리던던시를 최소화하기 위해 신호들의 조인트 엔트로피를 최대화하도록 조정된 초기값들을 할당받을 수도 있다. 가중치-조정 및 엔트로피-증가 프로세스는, 신호들의 정보 리던던시가 최소값으로 감소될 때까지 반복된다. ICA와 같은 방법들은, 잡음 소스들로부터의 스피치 신호들의 분리를 위한 비교적 정확하고 유연한 수단을 제공한다. 독립 벡터 분석 ("IVA") 은, 소스 신호가 단일 가변 소스 신호 대신 벡터 소스 신호인 관련 BSS 기술이다.

또한, 소스 분리 알고리즘들의 클래스는 제한된 ICA 및 제한된 IVA와 같은 BSS 알고리즘들의 변형들을 포함하며, 그들은, 예를 들어, 마이크로폰 어레이의 축에 관한 소스 신호들 중 하나 이상의 각각의 알려진 방향과 같은 다른 사전 정보에 따라 제한된다. 그러한 알고리즘들은, 관측된 신호들이 아니라 지향성 정보에만 기초하여, 고정된 비-적응적 솔루션들을 적용하는 빔포머들로부터 구별될 수도 있다.

도 11b를 참조하여 상술된 바와 같이, SSP 필터 (SS10) 는 하나 이상의 스테이지들 (예를 들어, 고정 필터 스테이지 (FF10), 적응적 필터 스테이지 (AF10)) 을 포함할 수도 있다. 이들 스테이지들의 각각은 대응하는 적응적 필터 구조에 기초할 수도 있으며, 그의 계수값들은 소스 분리 알고리즘으로부터 유도된 학습 법칙을 사용하여 태스크 (T20) 에 의해 계산된다. 필터 구조는 피드포워드 및/또는 피드백 계수들을 포함할 수도 있으며, 유한-임펄스-응답 (FIR) 또는 무한-임펄스-응답 (IIR) 설계일 수도 있다. 그러한 필터 구조들의 예들은, 상기 포함된 바와 같은 미국 특허출원 제 12/197,924호에 설명되어 있다.

도 52a는 2개의 피드백 필터들 (C110 및 C120) 을 포함하는 적응적 필터 구조 (FS10) 의 2-채널 예의 블록도를 도시하고, 도 52b는 2개의 다이렉트 필터들 (D110 및 D120) 을 또한 포함하는 필터 구조 (FS10) 의 일 구현 (FS20) 의 블록도를 도시한다. 공간 선택적 프로세싱 필터 (SS10) 는, 예를 들어, 입력 채널들 (I1, I2) 이 각각 감지된 오디오 채널들 (S10-1, S10-2) 에 대응하고, 출력 채널들 (O1, O2) 이 각각 소스 신호 (S20) 및 잡음 기준 (S30) 에 대응하기 위해 그러한 구조를 포함하도록 구현될 수도 있다. 그러한 구조를 트레이닝하도록 태스크 (T20) 에 의해 사용된 학습 법칙은, (예를 들어, 필터의 출력 채널들 중 적어도 하나에 의해 포함되는 정보의 양을 최대화하기 위해) 필터의 출력 채널들 사이의 정보를 최대화시키도록 설계될 수도 있다. 또한, 그러한 기준은, 출력 채널들의 통계 독립성을 최대화하는 것, 또는 출력 채널들 사이의 상호 정보를 최소화하는 것, 또는 출력에서 엔트로피를 최대화하는 것으로서 재진술될 수도 있다. 사용될 수도 있는 상이한 학습 법칙들의 특정한 예들은 (또한, 인포맥스로서 알려진) 최대값 정보, 최대 가능도, 및 최대 비정규성 (예를 들어, 최대 첨도) 를 포함한다. 그러한 적응적 구조들, 및 ICA 또는 IVA 적응적 피드백 및 피드포워드 방식에 기초한 학습 법칙들의 추가적인 예들은, 발명의 명칭이 "System and Method for Speech Processing using Independent Component Analysis under Stability Constraints" 로서 2006년 3월 9일자로 공개된 미국 공개특허출원 번호 제 2006/0053002 A1; 발명의 명칭이 "System and Method for Improved Signal Separation using a Blind Signal Source Process" 로서 2006년 3월 1일자로 출원된 미국 가출원 제 60/777,920호; 발명의 명칭이 "System and Method for Generating a Separated Signal" 로서 2006년 3월 1일자로 출원된 미국 가출원 제 60/777,900호; 및 발명의 명칭이 "System and Methods for Blind Source Signal Separation" 인 국제 특허 공개 번호 WO2007/100330 A1 (Kim킴 등) 에 설명되어 있다. 적응적 필터 구조들, 및 그러한 필터 구조들을 트레이닝하는데 태스크 (T20) 에서 사용될 수도 있는 학습 법칙들의 부가적인 설명은, 상기 참조로서 포함된 바와 같은 미국 특허출원 제 12/197,924호에서 발견될 수도 있다.

도 52a에 도시된 바와 같은 피드백 구조 (FS10) 를 트레이닝하는데 사용될 수도 있는 학습 법칙의 일 예는,

와 같이 표현될 수도 있으며, 여기서, t는 시간 샘플 인덱스를 나타내고, h₁₂(t) 는 시간 t에서의 필터 (C110) 의 계수값들을 나타내고, h₂₁(t) 는 시간 t에서의 필터 (C120) 의 계수값들을 나타내고, 심볼 ⓧ 는 시간-도메인 콘볼루션 연산을 나타내고, △h_12k 는 출력값들 y₁(t) 및 y₂(t) 의 계산에 후속하는 필터 (C110) 의 k번째 계수값에서의 변화를 나타내며, △h_21k 는 출력값들 y₁(t) 및 y₂(t) 의 계산에 후속하는 필터 (C120) 의 k번째 계수값에서의 변화를 나타낸다. 원하는 신호의 누산 밀도 함수를 근사하는 비선형 한계 함수로서 활성도 함수 f를 구현하는 것이 바람직할 수도 있다. 스피치 애플리케이션들에 대해 활성 신호 f에 사용될 수도 있는 비선형 한계 함수들의 예들은, 쌍곡선 탄젠트 함수, 시그모이드 (sigmoid) 함수, 및 부호 함수를 포함한다.

여기에 나타낸 바와 같이, SSP 필터 (SS10) 의 지향성 프로세싱 스테이지의 필터 계수값들은 BSS, 빔포밍, 또는 결합된 BSS/빔포밍 방법을 사용하여 계산될 수도 있다. ICA 및 IVA 기술들이 매우 복잡한 시나리오들을 풀기 위해 필터들의 적응을 허용하지만, 실제 시간에서 적응하도록 구성된 신호 분리 프로세스들에 대해 이들 기술들을 구현하는 것이 항상 가능하거나 바람직하지는 않다. 먼저, 적응을 위해 요구되는 수렴 시간 및 명령들의 수는 몇몇 애플리케이션들에 대해서는 상당할 수도 있다. 양호한 초기 조건들의 형태인 사전 트레이닝 정보의 포함이 수렴을 가속시킬 수도 있지만, 몇몇 애플리케이션들에서, 적응이 필요하지 않거나 음향 시나리오의 일부에 대해서만 필요하다. 둘째로, IVA 학습 법칙들은, 입력 채널들의 수가 크면, 훨씬 더 느리게 수렴할 수 있고 극값들에서 고착되게 될 수 있다. 셋째로, IVA의 온라인 적응에 대한 계산 비용이 상당할 수도 있다. 마지막으로, 적응적 필터링은, 프로세싱 방식의 다운스트림에 탑재된 스피치 인식 시스템에 부가적인 잔향 또는 불리한 것으로서 사용자에 의해 지각될 수도 있는 트랜션트 (transient) 및 적응적 이득 변조와 관련될 수도 있다.

선형 마이크로폰 어레이로부터 수신된 신호들의 지향성 프로세싱에 사용될 수도 있는 기술들의 또 다른 클래스는, 종종 "빔포밍" 으로서 지칭된다. 빔포밍 기술들은, 특정한 방향으로부터 도달하는 신호의 컴포넌트들을 향상시키기 위해, 마이크로폰들의 공간 다이버시티로부터 초래하는 채널들 사이의 시간 차이를 사용한다. 더 상세하게, 마이크로폰들 중 하나가 원하는 소스 (예를 들어, 사용자의 입) 에 더 직접적으로 배향될 것이지만, 다른 마이크로폰은 비교적 감쇠되는 이러한 소스로부터 신호를 생성할 수도 있다. 이들 빔포밍 기술들은, 사운드 소스로 빔을 향하게 하는 공간 필터링을 위한 방법들이며, 다른 방향들에는 널 (null) 을 넣는다. 빔포밍 기술들은 사운드 소스에 대한 가정을 행해지지 않지만, 소스와 센서들 사이의 지오메트리 또는 사운드 신호 그 자체가 신호의 잔향을 제거하거나 사운드 소스를 국부화하는 목적을 위해 알려져 있다고 가정한다. SSP 필터 (SS10) 의 필터 계수값들은, 데이터-의존 또는 데이터-독립 빔포머 설계 (예를 들어, 슈퍼디렉티브 (superdirective) 빔포머, 최소-제곱 빔포머, 또는 통계적으로 최적의 빔포머 설계) 에 따라 계산될 수도 있다. 데이터-독립 빔포머 설계의 경우에서, (예를 들어, 잡음 상관 매트릭스를 튜닝함으로써) 원하는 공간 영역을 커버링하기 위해 빔 패턴을 형성하는 것이 바람직할 수도 있다.

"Generalized Sidelobe Canceling" (GSC) 로서 지칭되는 강인한 적응적 빔포밍에서 매우 양호하게 연구된 기술은, 1999년 10월자 Hoshuyama, O., Sugiyama, A., Hirano, A., 의 A Robust Adaptive Beamformer for Microphone Arrays with a Blocking Matrix using Constrained Adaptive Filters, IEEE Transactions on Signal Processing, vol.47, No. 10, pp.2677-2684 에 설명되어 있다. 일반화된 사이드로브 소거는 측정치들의 세트로부터 단일의 원하는 소스 신호를 필터링하는 것을 목적으로 한다. GSC 원리의 더 완전한 설명은, 예를 들어, 1982년 1월자 Griffiths, L.J., Jim, C.W 의 An alternative approach to linear constrained adaptive beamforming, IEEE Transactions on Antennas and Propagation, vol.30, no. 1, pp.27-34 에서 발견될 수도 있다.

태스크 (T20) 는 학습 법칙에 따라 수렴하도록 적응적 필터 구조를 트레이닝한다. 트레이닝 신호들의 세트에 응답한 필터 계수값들의 업데이트는, 수렴된 솔루션이 획득될 때까지 계속될 수도 있다. 이러한 동작 동안, 트레이닝 신호들 중 적어도 몇몇은 2회 이상 가급적 상이한 순서로 필터 구조에 입력으로서 제공될 수도 있다. 예를 들어, 트레이닝 신호들의 세트는 수렴된 솔루션이 획득될 때까지 루프에서 반복될 수도 있다. 수렴은 필터 계수값들에 기초하여 결정될 수도 있다. 예를 들어, 필터 계수값들이 더 이상 변하지 않을 경우, 또는 몇몇 시간 간격에 걸친 필터 계수값들에서의 총 변화가 임계값 보다 작을 (대안적으로는, 크지 않을) 경우, 필터가 수렴한다고 결정될 수도 있다. 또한, 수렴은 상관 측정치들을 평가함으로써 모니터링될 수도 있다. 크로스 필터들을 포함하는 필터 구조에 대하여, 각각의 크로스 필터에 독립적으로 수렴이 결정될 수도 있으므로, 하나의 크로스 필터에 대한 업데이트 동작은 종료할 수도 있지만, 또 다른 크로스 필터에 대한 업데이트 동작은 계속된다. 대안적으로, 각각의 크로스 필터의 업데이트는 모든 크로스 필터들이 수렴할 때까지 계속될 수도 있다.

태스크 (T30) 는, 그의 분리도 성능을 평가함으로써 태스크 (T20) 에서 생성된 트레이닝된 필터를 평가한다. 예를 들어, 태스크 (T30) 는 평가 신호들의 세트에 대한 그 트레이닝된 필터의 응답을 평가하도록 구성될 수도 있다. 이러한 세트의 평가 신호들은 태스크 (T20) 에서 사용된 트레이닝 세트와 동일할 수도 있다. 대안적으로, 그 세트의 평가 신호들은, (예를 들어, 마이크로폰들의 동일한 어레이의 적어도 일부 및 동일한 P개의 시나리오들의 적어도 몇몇을 사용하여 레코딩되는) 트레이닝 세트의 신호들과 상이하지만 유사한 M-채널 신호들의 세트일 수도 있다. 그러한 평가는 자동적으로 및/또는 사람의 감독에 의해 수행될 수도 있다. 통상적으로, 태스크 (T30) 는 개인용 컴퓨터 또는 워크스테이션을 사용하여 오디오 재생 디바이스 외부에서 수행된다.

태스크 (T30) 는 하나 이상의 메트릭들의 값들에 따라 필터 응답을 평가하도록 구성될 수도 있다. 예를 들어, 태스크 (T30) 는 하나 이상의 메트릭들 각각에 대한 값들을 계산하고, 그 계산된 값들을 각각의 임계값과 비교하도록 구성될 수도 있다. 필터 응답을 평가하는데 사용될 수도 있는 메트릭의 일 예는, (A) 평가 신호의 본래의 정보 컴포넌트 (예를 들어, 평가 신호의 레코딩 동안 HATS의 입 라우드스피커로부터 생성되었던 스피치 신호) 와 (B) 그 평가 신호에 대한 필터의 응답의 적어도 하나의 채널 사이의 상관도이다. 그러한 메트릭은, 수렴된 필터 구조가 간섭으로부터 얼마나 양호하게 정보를 분리시키는지를 나타낼 수도 있다. 이러한 경우에서, 정보 컴포넌트가 필터 응답의 M개의 채널들 중 하나와 실질적으로 상관되고 다른 채널들과는 거의 상관되지 않을 경우 분리도가 표시된다.

(예를 들어, 필터가 간섭으로부터 얼마나 양호하게 정보를 분리시키는지를 나타내기 위해) 필터 응답을 평가하는데 사용될 수도 있는 메트릭들의 다른 예들은, 분산, 정규성, 및/또는 첨도와 같은 고차 통계 모멘트들과 같은 통계 특성들을 포함한다. 스피치 신호들에 대해 사용될 수도 있는 메트릭들의 부가적인 예들은, 제로 크로싱 레이트 및 시간에 걸친 버스티니스 (burstiness) (또한 시간 성김성 (sparsity) 으로 알려짐) 를 포함한다. 일반적으로, 스피치 신호들은 잡음 신호들보다 더 낮은 제로 크로싱 레이트 및 더 낮은 시간 성김성을 나타낸다. 필터 응답을 평가하는데 사용될 수도 있는 메트릭의 추가적인 예는, 평가 신호의 레코딩 동안 마이크로폰들의 어레이에 관한 정보 또는 간섭 소스의 실제 위치가, 그 평가 신호에 대한 필터의 응답에 의해 표시되는 바와 같은 빔 패턴과 부합되는 정도이다. (예를 들어, 분리도 평가기 (EV10) 와 같은 분리도 평가기를 참조하여 상술된 바와 같이) 태스크 (T30) 에서 사용된 메트릭들이 장치 (A200) 의 대응하는 구현에서 사용되는 분리 측정치를 포함하거나 그에 제한되는 것이 바람직할 수도 있다.

태스크 (T30) 는 각각의 계산된 메트릭 값을 대응하는 임계값과 비교하도록 구성될 수도 있다. 그러한 경우, 각각의 메트릭에 대한 계산된 값이 각각의 임계값 이상이면 (대안적으로는, 적어도 동일하면) 신호에 대한 적절한 분리 결과를 필터가 생성한다고 할 수도 있다. 당업자는, 다수의 메트릭들에 대한 그러한 비교 방식에서, 하나의 메트릭에 대한 임계값이, 하나 이상의 다른 메트릭들에 대한 계산된 값이 높을 경우 감소될 수도 있다는 것을 인식할 것이다.

또한, 수렴된 필터 솔루션들의 세트가 TIA-810-B (예를 들어, Telecommunications Industry Association, Arlington, VA 에 의해 공표된 바와 같은 2006년 11월자 버전) 와 같은 표준 문헌에서 특정된 바와 같은 전송 응답 공칭 라우드니스 (loudness) 커브와 같은 다른 성능 기준과 부합한다는 것을 태스크 (T30) 가 검증하는 것이 바람직할 수도 있다.

필터가 평가 신호들 중 하나 이상을 적절히 분리시키기를 실패하더라도 수렴된 필터 솔루션을 전달하도록 태스크 (T30) 를 구성하는 것이 바람직할 수도 있다. 예를 들어, 상술된 바와 같은 장치 (A200) 의 일 구현에서, 단일-채널 모드는, 감지된 오디오 신호 (S10) 의 적절한 분리가 달성되지 않은 상황들에 대해 사용될 수도 있으므로, 태스크 (T30) 에서 작은 퍼센트 (예를 들어, 최대 2, 5, 10, 또는 20 퍼센트) 의 평가 신호들의 세트를 분리시는 것의 실패가 수용가능할 수도 있다.

트레이닝된 필터가 태스크 (T20) 에서 극소값에 수렴하는 것이 가능하며, 이는 평가 태스크 (T30) 에서 실패를 초래한다. 그러한 경우, 태스크 (T20) 는 상이한 트레이닝 파라미터들 (예를 들어, 상이한 학습 레이트, 상이한 지오메트릭 제한 등) 을 사용하여 반복될 수도 있다. 방법 (M10) 은 통상적으로 반복 설계 프로세스이며, 원하는 평가 결과가 태스크 (T30) 에서 획득될 때까지 태스크들 (T10 및 T20) 중 하나 이상을 변경 및 반복하는 것이 바람직할 수도 있다. 예를 들어, 방법 (M10) 의 반복은, 태스크 (T20) 에서 새로운 트레이닝 파라미터 값들 (예를 들어, 초기 가중값들, 수렴 레이트 등) 을 사용하는 것 및/또는 태스크 (T10) 에서 새로운 트레이닝 데이터를 레코딩하는 것을 포함할 수도 있다.

일단 원하는 평가 결과가 SSP 필터 (SS10) 의 고정 필터 스테이지 (예를 들어, 고정 필터 스테이지 (FF10)) 에 대해 태스크 (T30) 에서 획득되었다면, 대응하는 필터 상태가 SSP 필터 (SS10) 의 고정 상태 (예를 들어, 고정된 세트의 필터 계수값들) 로서 제조 디바이스들로 로딩될 수도 있다. 상술된 바와 같이, 실험실, 공장, 또는 자동 (예를 들어, 자동 이득 매칭) 교정 절차와 같이 각각의 제조 디바이스에서 마이크로폰들의 이득 및/또는 주파수 응답들을 교정하기 위한 절차를 수행하는 것이 또한 바람직할 수도 있다.

방법 (M10) 의 일 인스턴스에서 생성된 트레이닝된 고정 필터는, 적응적 필터 스테이지 (예를 들어, SSP 필터 (SS10) 의 적응적 필터 스테이지 (AF10)) 에 대한 초기 조건들을 계산하기 위해, 트레이닝 신호들의 또 다른 세트를 필터링하도록 방법 (M10) 의 또 다른 인스턴스에서 사용될 수도 있고, 또한, 기준 디바이스를 사용하여 레코딩될 수도 있다. 적응적 필터에 대한 초기 조건들의 그러한 계산의 예들은, 발명의 명칭이 "SYSTEMS, METHODS, AND APPARATUS FOR SIGNAL SEPARATION" 으로서 2008년 8월 25일자로 출원된 미국 특허출원 제 12/197,924호, 예를 들어, 문단 [00129]-[00135] ("It may be desirable" 로 시작하고 "cancellation in parallel" 로 종료됨) 에 설명되어 있으며, 그 문단들은 적응적 필터 스테이지들의 설계, 트레이닝, 및/또는 구현의 설명에 제한되는 목적을 위해 여기에 참조로서 포함된다. 또한, 그러한 초기 조건들은, (예를 들어, 트레이닝된 고정 필터 스테이지들에 관해) 제조 동안 동일한 또는 유사한 디바이스의 다른 인스턴스들에 로딩될 수도 있다.

도 53에 도시된 바와 같이, 무선 전화 시스템 (예를 들어, CDMA, TDMA, FDMA, 및/또는 TD-SCDMA 시스템) 은 일반적으로, 복수의 기지국들 (12) 및 하나 이상의 기지국 제어기들 (BSC) (14) 을 포함하는 무선 액세스 네트워크와 무선으로 통신하도록 구성된 복수의 이동 가입자 유닛들 (10) 을 포함한다. 또한, 그러한 시스템은 일반적으로, BSC (14) 에 커플링되고, 종래의 공중 스위칭 전화 네트워크 (PSTN) (18) 와 무선 액세스 네트워크를 인터페이싱하도록 구성된 이동 스위칭 센터 (MSC) (16) 를 포함한다. 이러한 인터페이스를 지원하기 위해, MSC는 네트워크들 사이의 변환 유닛으로서 기능하는 미디어 게이트웨이를 포함하거나 미디어게이트웨이와 통신할 수도 있다. 미디어 게이트웨이는, 상이한 송신 및/또는 코딩 기술들과 같은 상이한 포맷들 사이에서 변환하도록 (예를 들어, 시간-다중-멀티플렉싱된 (TDM) 음성과 VoIP 사이에서 변환하도록) 구성되며, 또한, 에코 소거, 듀얼-시간 멀티주파수 (DTMF), 및 톤 전송과 같은 미디어 스트리밍 기능들을 수행하도록 구성될 수도 있다. BSC (14) 는 백홀 라인들을 통해 기지국 (12) 에 커플링된다. 백홀 라인들은, 예를 들어, E1/T1, ATM, IP, PPP, 프레임 지연, HDSL, ADSL, 또는 xDSL 을 포함하는 수 개의 알려진 인터페이스들 중 임의의 인터페이스를 지원하도록 구성될 수도 있다. 기지국 (12), BSC (14), MSC (16) 및 존재한다면 미디어 게이트웨이의 집합은 또한 "인트라구조" 로서 지칭된다.

유리하게, 각각의 기지국 (12) 은 적어도 하나의 섹터 (미도시) 를 포함하며, 각각의 섹터는 무지향성 안테나 또는 기지국 (12) 로부터 방사상으로 이격된 특정한 방향으로 포인팅된 안테나를 포함한다. 대안적으로, 각각의 섹터는 다이버시티 수신을 위한 2개 이상의 안테나들을 포함할 수도 있다. 각각의 기지국 (12) 은 복수의 주파수 할당들을 지원하도록 유리하게 설계될 수도 있다. 섹터 및 주파수 할당의 교점은 CDMA 채널로서 지칭될 수도 있다. 또한, 기지국 (12) 은 기지국 트랜시버 서브시스템 (BTS) (12) 로서 알려져 있을 수도 있다. 대안적으로, "기지국" 은 BSC (14) 및 하나 이상의 BTS (12) 를 집합적으로 지칭하기 위해 산업계에서 사용될 수도 있다. 또한, BTS (12) 는 "셀 사이트" (12) 로 표시될 수도 있다. 대안적으로, 소정의 BTS (12) 의 개별 섹터들은 셀 사이트로서 지칭될 수도 있다. 통상적으로, 이동 가입자 유닛 (10) 의 클래스는, 셀룰러 및/또는 PCS (Personal Communications Service) 전화기, 개인 휴대 정보 단말기 (PDA), 및/또는 이동 전화 능력을 갖춘 다른 통신 디바이스들과 같이 여기에 설명된 바와 같은 통신 디바이스들을 포함한다. 그러한 유닛 (10) 은, 내부 스피커 및 마이크로폰들의 어레이, 스피커 및 마이크로폰들의 어레이를 포함하는 테더링된 핸드셋 또는 헤드셋 (예를 들어, USB 핸드셋), 또는 스피커 및 마이크로폰들의 어레이를 포함하는 무선 헤드셋 (예를 들어, Bluetooth Special Interest Group, Bellevue, WA 에 의해 공표된 바와 같은 블루투스 프로토콜의 일 버전을 사용하여 오디오 정보를 그 유닛에 전달하는 헤드셋) 을 포함할 수도 있다. 그러한 시스템은, IS-95 표준의 하나 이상의 버전들 (예를 들어, Telecommunications Industry Alliance, Arlington, VA에 의해 공개된 바와 같은, IS-95, IS-95A, IS-95B, cdma2000) 에 따라 사용하기 위해 구성될 수도 있다.

다음으로, 셀룰러 전화 시스템의 통상적인 동작이 설명된다. 기지국 (12) 은 이동 가입자 유닛 (10) 의 세트들로부터 역방향 링크 신호들의 세트들을 수신한다. 이동 가입자 유닛 (10) 은 전화 호들 또는 다른 통신들을 수행하고 있다. 소정의 기지국 (12) 에 의해 수신된 각각의 역방향 링크 신호는 그 기지국 (12) 내에서 프로세싱되며, 결과적인 데이터는 BSC (14) 에 포워딩된다. BSC (14) 는, 기지국들 (12) 사이의 소프트 핸드오프들의 조정을 포함하는 호 리소스 할당 및 이동도 관리 기능을 제공한다. 또한, BSC (14) 는, PSTN (18) 과의 인터페이싱을 위해 부가적인 라우팅 서비스들을 제공하는 MSC (16) 에 수신 데이터를 라우팅한다. 유사하게, PSTN (18) 은 MSC (16) 과 인터페이싱하고, MSC (16) 은 BSC들 (14) 과 인터페이싱하며, 그 BSC는 차례로 이동 가입자 유닛 (10) 의 세트들로 순방향 링크 신호들의 세트들을 송신하기 위해 기지국 (12) 을 제어한다.

또한, 도 53에 도시된 바와 같은 셀룰러 전화통신 시스템의 엘리먼트들은 패킷-스위칭 데이터 통신을 지원하도록 구성될 수도 있다. 도 54에 도시된 바와 같이, 패킷 데이터 트래픽은 일반적으로, 패킷 데이터 네트워크에 접속된 게이트웨이 라우터에 커플링된 패킷 데이터 서빙 노드 (PDSN) (22) 를 사용하여 이동 가입자 유닛 (10) 과 외부 패킷 데이터 네트워크 (24) (예를 들어, 인터넷과 같은 공중 네트워크) 사이에서 라우팅된다. 차례로, PDSN (22) 은, 각각이 하나 이상의 BSC (14) 를 서빙하고 패킷 데이터 네트워크와 무선 액세스 네트워크 사이의 링크로서 기능하는 하나 이상의 패킷 제어 기능부 (PCF) (20) 에 데이터를 라우팅한다. 또한, 패킷 데이터 네트워크 (24) 는, 로컬 영역 네트워크 (LAN), 캠퍼스 영역 네트워크 (CAN), 도시권 네트워크 (MAN), 광역 네트워크 (WAN), 링 네트워크, 스타 네트워크, 토큰 링 네트워크 등을 포함하도록 구현될 수도 있다. 네트워크 (24) 에 접속된 사용자 단말기는, PDA, 랩탑 컴퓨터, 개인용 컴퓨터, 게임 디바이스 (그러한 디바이스의 예들은, XBOX 및 XBOX 360 (Microsoft Corp., Redmond, WA), 플레이스테이션 3 및 플레이스테이션 포터블 (Sony Corp., Tokyo, JP), 및 Wii 및 DS (Nintendo, Kyoto, JP)), 및/또는 오디오 프로세싱 능력을 갖고 VoIP와 같은 하나 이상의 프로토콜들을 사용하여 전화 호 또는 다른 통신을 지원하도록 구성될 수도 있는 임의의 디바이스와 같이, 여기에 설명된 바와 같은 오디오 재생 디바이스들의 클래스 내의 디바이스일 수도 있다. 그러한 단말기는 내부 스피커 및 마이크로폰들의 어레이, 스피커 및 마이크로폰들의 어레이를 포함하는 테더링된 핸드셋 (예를 들어, USB 핸드셋), 또는 스피커 및 마이크로폰들의 어레이를 포함하는 무선 헤드셋 (예를 들어, Bluetooth Special Interest Group, Bellevue, WA 에 의해 공표된 바와 같은 블루투스 프로토콜의 일 버전을 사용하여 오디오 정보를 단말기에 전달하는 헤드셋) 을 포함할 수도 있다. 그러한 시스템은, PSTN에 결코 진입하지 않으면서, (예를 들어, VoIP와 같은 하나 이상의 프로토콜들을 통해) 상이한 무선 액세스 네트워크들 상의 이동 가입자 유닛들 사이, 이동 가입자 유닛과 비-이동성 사용자 단말기 사이, 또는 2개의 비-이동성 사용자 단말기들 사이에서 패킷 데이터 트래픽으로서 전화 호 또는 다른 통신을 운반하도록 구성될 수도 있다. 이동 가입자 유닛 (10) 또는 다른 사용자 단말기는, "액세스 단말기" 로서 또한 지칭될 수도 있다.

도 55는, 태스크들 (T100, T110, T120, T130, T140, T150, T160, T170, T180, T210, T220, 및 T230) 을 포함하는 일 구성에 따라 재생된 오디오 신호를 프로세싱하는 방법 (M110) 의 흐름도를 도시한다. 태스크 (T100) 는 (예를 들어, SSP 필터 (SS10) 를 참조하여 여기에 설명된 바와 같이) 멀티채널 감지된 오디오 신호로부터 잡음 기준을 획득한다. 태스크 (T110) 는 (예를 들어, 변환 모듈 (SG10) 을 참조하여 여기에 설명된 바와 같이) 잡음 기준에 대해 주파수 변환을 수행한다. 태스크 (T120) 는 (예를 들어, 비닝 모듈 (SG20) 을 참조하여 상술된 바와 같이) 태스크 (T110) 에 의해 생성된 균일한 레졸루션 변환된 신호의 값들을 비균일한 서브대역들로 그룹화한다. 잡음 기준의 서브대역들 각각에 대해, 태스크 (T130) 는 (예를 들어, 서브대역 전력 추정치 계산기 (EC120) 를 참조하여 상술된 바와 같이) 시간에서의 평활화된 전력 추정치를 업데이트한다.

태스크 (T210) 는 (예를 들어, 변환 모듈 (SG10) 을 참조하여 여기에 설명된 바와 같이) 재생된 오디오 신호 (S40) 에 대해 주파수 변환을 수행한다. 태스크 (T220) 는 (예를 들어, 비닝 모듈 (SG20) 을 참조하여 상술된 바와 같이) 태스크 (T210) 에 의해 생성된 균일한 레졸루션 변환된 신호의 값들을 비균일한 서브대역들로 그룹화한다. 재생된 오디오 신호의 서브대역들 각각에 대해, 태스크 (T230) 는 (예를 들어, 서브대역 전력 추정치 계산기 (EC120) 를 참조하여 상술된 바와 같이) 시간에서의 평활화된 전력 추정치를 업데이트한다.

재생된 오디오 신호의 서브대역 각각에 대해, 태스크 (T140) 는 (예를 들어, 비율 계산기 (GC10) 를 참조하여 상술된 바와 같이) 서브대역 전력 비율을 계산한다. 태스크 (T150) 는, 시간에서의 평활화된 전력 비율들 및 행오버 로직으로부터의 이득 팩터값들을 업데이트하고, 태스크 (T160) 는 (예를 들어, 평활화기 (GC20) 를 참조하여 상술된 바와 같이) 헤드룸 및 볼륨에 의해 정의된 하한 및 상한에 대해 서브대역 이득들을 체크한다. 태스크 (T170) 는 서브대역 바이쿼드 필터 계수들을 업데이트하고, 태스크 (T180) 는 (예를 들어, 서브대역 필터 어레이 (FA100) 를 참조하여 상술된 바와 같이) 업데이트된 바이쿼드 캐스캐이드를 사용하여 재생된 오디오 신호 (S40) 를 필터링한다. 재생된 오디오 신호가 현재 음성 활성도를 포함한다는 표시에 응답하여 방법 (M110) 을 수행하는 것이 바람직할 수도 있다.

도 56은, 태스크들 (T140, T150, T160, T170, T180, T210, T220, T230, T310, T320, 및 T330) 을 포함하는 일 구성에 따라 재생된 오디오 신호를 프로세싱하는 방법 (M120) 의 흐름도를 도시한다. 태스크 (T310) 는 (예를 들어, 변환 모듈 (SG10), 등화기 (EQ100), 및 미분리된 감지된 오디오 신호 (S90) 를 참조하여 여기에 설명된 바와 같이) 미분리된 감지된 오디오 신호에 대해 주파수 변환을 수행한다. 태스크 (T320) 는, (예를 들어, 비닝 모듈 (SG20) 을 참조하여 상술된 바와 같이) 태스크 (T310) 에 의해 생성된 균일한 레졸루션 변환된 신호의 값들을 비균일한 서브대역들로 그룹화한다. 미분리된 감지된 오디오 신호의 서브대역들 각각에 대해, 태스크 (T330) 는, 미분리된 감지된 오디오 신호가 음성 활성도를 현재 포함하지 않는다면, (예를 들어, 서브대역 전력 추정치 계산기 (EC120) 를 참조하여 상술된 바와 같이) 시간에서의 평활화된 전력 추정치를 업데이트한다. 재생된 오디오 신호가 음성 활성도를 현재 포함한다는 표시에 응답하여 방법 (M120) 을 수행하는 것이 바람직할 수도 있다.

도 57은, 태스크들 (T140, T150, T160, T170, T180, T410, T420, T430, T510, 및 T530) 을 포함하는 일 구성에 따라 재생된 오디오 신호를 프로세싱하는 방법 (M210) 의 흐름도를 도시한다. 태스크 (T410) 는 (예를 들어, 서브대역 필터 어레이 (SG30), 등화기 (EQ100), 및 미분리된 감지된 오디오 신호 (S90) 를 참조하여 여기에 설명된 바와 같이) 현재 프레임 서브대역 전력 추정치들을 획득하도록 바이쿼드 서브대역 필터들을 통해 미분리된 감지된 오디오 신호를 프로세싱한다. 태스크 (T420) 는 (예를 들어, 최소화기 (MZ10) 를 참조하여 여기에 설명된 바와 같이) 최소의 현재 프레임 서브대역 전력 추정치를 식별하고, 모든 다른 현재 프레임 서브대역 전력 추정치들을 그 값으로 대체한다. 미분리된 감지된 오디오 신호의 서브대역들 각각에 대해, 태스크 (T430) 는 (예를 들어, 서브대역 전력 추정치 계산기 (EC120) 를 참조하여 상술된 바와 같이) 시간에서의 평활화된 전력 추정치를 업데이트한다. 태스크 (T510) 는 (예를 들어, 서브대역 필터 어레이 (SG30) 및 등화기 (EQ100) 를 참조하여 여기에 설명된 바와 같이) 현재 프레임 서브대역 전력 추정치들을 획득하도록 바이쿼드 서브대역 필터들을 통해 재생된 오디오 신호를 프로세싱한다. 재생된 오디오 신호의 서브대역들 각각에 대해, 태스크 (T530) 는 (예를 들어, 서브대역 전력 추정치 계산기 (EC120) 를 참조하여 상술된 바와 같이) 시간에서의 평활화된 전력 추정치를 업데이트한다. 재생된 오디오 신호가 음성 활성도를 현재 포함한다는 표시에 응답하여 방법 (M210) 을 수행하는 것이 바람직할 수도 있다.

도 58은, 태스크들 (T140, T150, T160, T170, T180, T410, T420, T430, T510, T530, T610, T630, 및 T640) 을 포함하는 일 구성에 따라 재생된 오디오 신호를 프로세싱하는 방법 (M220) 의 흐름도를 도시한다. 태스크 (T610) 는 (예를 들어, 잡음 기준 (S30), 서브대역 필터 어레이 (SG30), 및 등화기 (EQ100) 를 참조하여 여기에 설명된 바와 같이) 현재 프레임 서브대역 전력 추정치들을 획득하도록 바이쿼드 서브대역 필터들을 통해 멀티채널 감지된 오디오 신호로부터 잡음 기준을 프로세싱한다. 잡음 기준의 서브대역들 각각에 대해, 태스크 (T630) 는 (예를 들어, 서브대역 전력 추정치 계산기 (EC120) 를 참조하여 상술된 바와 같이) 시간에서의 평활화된 전력 추정치를 업데이트한다. 태스크들 (T430 및 T630) 에 의해 생성된 서브대역 전력 추정치들에 대해, 태스크 (T640) 는 (예를 들어, 최대화기 (MAX10) 를 참조하여 상술된 바와 같이) 각각의 서브대역에서 최대 전력 추정치를 취한다. 재생된 오디오 신호가 음성 활성도를 현재 포함한다는 표시에 응답하여 방법 (M220) 을 수행하는 것이 바람직할 수도 있다.

도 59a는 태스크들 (T810, T820, 및 T830) 을 포함하는 일반적인 구성에 따라 재생된 오디오 신호를 프로세싱하는 방법 (M300) 의 흐름도를 도시하며, 오디오 신호들을 프로세싱하도록 구성된 디바이스 (예를 들어, 여기에 개시된 통신 및/또는 오디오 재생 디바이스의 다수의 예들 중 하나) 에 의해 수행될 수도 있다. 태스크 (T810) 는 (예를 들어, SSP 필터 (SS10) 를 참조하여 상술된 바와 같이) 소스 신호 및 잡음 기준을 생성하도록 멀티채널 감지된 오디오 신호에 대해 지향성 프로세싱 동작을 수행한다. 태스크 (T820) 는 (예를 들어, 등화기 (EQ10) 를 참조하여 상술된 바와 같이) 등화된 오디오 신호를 생성하도록 재생된 오디오 신호를 등화시킨다. 태스크 (T820) 는, 잡음 기준으로부터의 정보에 기초하여, 재생된 오디오 신호의 적어도 하나의 주파수 서브대역을 재생된 오디오 신호의 적어도 하나의 다른 주파수 서브대역에 대해 부스팅시키는 태스크 (T830) 를 포함한다.

도 59b는, 태스크들 (T840, T850, T860) 및 태스크 (T830) 의 일 구현 (T832) 을 포함하는 태스크 (T820) 의 일 구현 (T822) 의 흐름도를 도시한다. 재생된 오디오 신호의 복수의 서브대역들 각각에 대해, 태스크 (T840) 는 (예를 들어, 제 1 서브대역 전력 추정치 생성기 (EC100a) 를 참조하여 상술된 바와 같이) 제 1 서브대역 전력 추정치를 계산한다. 잡음 기준의 복수의 서브대역들 각각에 대해, 태스크 (T850) 는 (예를 들어, 제 2 서브대역 전력 추정치 생성기 (EC100b) 를 참조하여 상술된 바와 같이) 제 2 서브대역 전력 추정치를 계산한다. 재생된 오디오 신호의 복수의 서브대역들 각각에 대해, 태스크 (T860) 는 (예를 들어, 서브대역 이득 팩터 계산기 (GC100) 를 참조하여 상술된 바와 같이) 대응하는 제 1 및 제 2 전력 추정치들의 비율을 계산한다. 재생된 오디오 신호의 복수의 서브대역들 각각에 대해, 태스크 (T832) 는 (예를 들어, 서브대역 필터 어레이 (FA100) 를 참조하여 상술된 바와 같이) 대응하는 계산된 비율에 기초하여 이득 팩터를 서브대역에 적용한다.

도 60a는 태스크들 (T870, T872, 및 T874) 을 포함하는 태스크 (T840) 의 일 구현 (T842) 의 흐름도를 도시한다. 태스크 (T870) 는 (예를 들어, 변환 모듈 (SG10) 을 참조하여 상술된 바와 같이) 변환된 신호를 획득하도록 재생된 오디오 신호에 대해 주파수 변환을 수행한다. 태스크 (T872) 는 (예를 들어, 비닝 모듈 (SG20) 을 참조하여 상술된 바와 같이) 복수의 빈들을 획득하도록 그 변환된 신호에 서브대역 분할 방식을 적용한다. 복수의 빈들 각각에 대해, 태스크 (T874) 은 (예를 들어, 합산기 (EC10) 를 참조하여 상술된 바와 같이) 빈에 걸친 합을 계산한다. 태스크 (T842) 는, 복수의 제 1 서브대역 전력 추정치들의 각각이 태스크 (T874) 에 의해 계산된 합들 중 대응하는 합에 기초하도록 구성된다.

도 60b는 태스크 (T880) 를 포함하는 태스크 (T840) 의 일 구현 (T844) 의 흐름도를 도시한다. 재생된 오디오 신호의 복수의 서브대역들 각각에 대해, 태스크 (T880) 는 (예를 들어, 서브대역 필터 어레이 (SG30) 를 참조하여 상술된 바와 같이) 부스팅된 서브대역 신호를 획득하도록 서브대역의 이득을 재생된 오디오 신호의 다른 서브대역들에 대해 부스팅시킨다. 태스크 (T844) 는, 복수의 제 1 서브대역 전력 추정치들의 각각이 부스팅된 서브대역 신호들 중 대응하는 신호로부터의 정보에 기초하도록 구성된다.

도 60c는, 필터 스테이지들의 캐스캐이드를 사용하여 재생된 오디오 신호를 필터링하는 태스크 (T820) 의 일 구현 (T824) 의 흐름도를 도시한다. 태스크 (T824) 는 태스크 (T830) 의 일 구현 (T834) 을 포함한다. 재생된 오디오 신호의 복수의 서브대역들 각각에 대해, 태스크 (T834) 는, 이득 팩터를 캐스캐이드의 대응하는 필터 스테이지에 적용함으로써 서브대역에 그 이득 팩터를 적용한다.

도 60d는, 태스크들 (T805, T810, 및 T820) 을 포함하는 일반적인 구성에 따라 재생된 오디오 신호를 프로세싱하는 방법 (M310) 의 흐름도를 도시한다. 태스크 (T805) 는, (예를 들어, 에코 소거기 (EC10) 를 참조하여 상술된 바와 같이) 멀티채널 감지된 오디오 신호를 획득하기 위해, 등화된 오디오 신호로부터의 정보에 기초하여 복수의 마이크로폰 신호들에 대해 에코 소거 동작을 수행한다.

도 61은 태스크들 (T810, T820, 및 T910) 을 포함하는 일 구성에 따라 재생된 오디오 신호를 프로세싱하는 방법 (M400) 의 흐름도를 도시한다. 소스 신호 및 잡음 기준 중 적어도 하나로부터의 정보에 기초하여, 방법 (M400) 은 (예를 들어, 장치 (A200) 를 참조하여 상술된 바와 같이) 제 1 모드 또는 제 2 모드에서 동작한다. 제 1 모드에서의 동작은 제 1 시간 주기 동안 발생하고, 제 2 모드에서의 동작은 제 1 시간 주기와는 별개인 제 2 시간 주기 동안 발생한다. 제 1 모드에서, 태스크 (T820) 가 수행된다. 제 2 모드에서, 태스크 (T910) 가 수행된다. 태스크 (T910) 는 (예를 들어, 등화기 (EQ100) 를 참조하여 상술된 바와 같이) 미분리된 감지된 오디오 신호로부터의 정보에 기초하여 재생된 오디오 신호를 등화시킨다. 태스크 (T910) 는 태스크들 (T912, T914, 및 T916) 을 포함한다. 재생된 오디오 신호의 복수의 서브대역들 각각에 대해, 태스크 (T912) 는 제 1 서브대역 전력 추정치를 계산한다. 미분리된 감지된 오디오 신호의 복수의 서브대역들 각각에 대해, 태스크 (T914) 는 제 2 서브대역 전력 추정치를 계산한다. 재생된 오디오 신호의 복수의 서브대역들 각각에 대해, 태스크 (T916) 는 대응하는 이득 팩터를 서브대역에 적용하며, 여기서, 그 이득 팩터는, (A) 대응하는 제 1 서브대역 전력 추정치 및 (B) 복수의 제 2 서브대역 전력 추정치들 중 최소값에 기초한다.

도 62a는 일반적인 구성에 따라 재생된 오디오 신호를 프로세싱하기 위한 장치 (F100) 의 블록도를 도시한다. 장치 (F100) 는, (예를 들어, SSP 필터 (SS10) 를 참조하여 상술된 바와 같이) 소스 신호 및 잡음 기준을 생성하도록 멀티채널 감지된 오디오 신호에 대해 지향성 프로세싱 동작을 수행하는 수단 (F110) 을 포함한다. 또한, 장치 (F100) 는 (예를 들어, 등화기 (EQ10) 를 참조하여 상술된 바와 같이) 등화된 오디오 신호를 생성하도록 재생된 오디오 신호를 등화시키는 수단 (F120) 을 포함한다. 수단 (F120) 은, 잡음 기준으로부터의 정보에 기초하여, 재생된 오디오 신호의 적어도 하나의 주파수 서브대역을 재생된 오디오 신호의 적어도 하나의 다른 주파수 서브대역에 대해 부스팅시키도록 구성된다. 장치 (F100), 수단 (F110), 및 수단 (F120) 의 다수의 구현들이 (예를 들어, 여기에 개시된 다양한 엘리먼트들 및 동작들에 의해) 여기에 명시적으로 도시되어 있다.

도 62b는 등화시키는 수단 (F120) 의 일 구현 (F122) 의 블록도를 도시한다. 수단 (F122) 은, (예를 들어, 제 1 서브대역 전력 추정치 생성기 (EC100a) 를 참조하여 상술된 바와 같이) 재생된 오디오 신호의 복수의 서브대역들 각각에 대해 제 1 서브대역 전력 추정치를 계산하는 수단 (F140), 및 (예를 들어, 제 2 서브대역 전력 추정치 생성기 (EC100b) 를 참조하여 상술된 바와 같이) 잡음 기준의 복수의 서브대역들 각각에 대해 제 2 서브대역 전력 추정치를 계산하는 수단 (F150) 을 포함한다. 또한, 수단 (F122) 은, (예를 들어, 서브대역 이득 팩터 계산기 (GC100) 를 참조하여 상술된 바와 같이) 재생된 오디오 신호의 복수의 서브대역들 각각에 대해 대응하는 제 1 및 제 2 전력 추정치들의 비율에 기초하여 서브대역 이득 팩터를 계산하는 수단 (F160), 및 (예를 들어, 서브대역 필터 어레이 (FA100) 를 참조하여 상술된 바와 같이) 재생된 오디오 신호의 복수의 서브대역들 각각에 대응하는 이득 팩터를 적용하는 수단 (F130) 을 포함한다.

도 63a는 태스크들 (V110, V120, V140, V210, V220, 및 V230) 을 포함하는 일반적인 구성에 따라 재생된 오디오 신호를 프로세싱하는 방법 (V100) 의 흐름도를 도시하며, 오디오 신호들을 프로세싱하도록 구성된 디바이스 (예를 들어, 여기에 개시된 통신 및/또는 오디오 재생 디바이스들의 다수의 예들 중 하나) 에 의해 수행될 수도 있다. 태스크 (V110) 는 (예를 들어, 신호 생성기 (SG100a) 및 전력 추정치 계산기 (EC100a) 를 참조하여 상술된 바와 같이) 제 1 복수의 시간-도메인 서브대역 신호들을 획득하도록 재생된 오디오 신호를 필터링하고, 태스크 (V120) 는 복수의 제 1 서브대역 전력 추정치들을 계산한다. 태스크 (V210) 는 (예를 들어, SSP 필터 (SS10) 를 참조하여 상술된 바와 같이) 소스 신호 및 잡음 기준을 생성하도록 멀티채널 감지된 오디오 신호에 대해 공간 선택적 프로세싱 동작을 수행한다. 태스크 (V220) 는 (예를 들어, 신호 발생기 (SG100b) 및 전력 추정치 계산기 (EC100b 또는 NP100) 를 참조하여 상술된 바와 같이) 제 2 복수의 시간-도메인 서브대역 신호들을 획득하도록 잡음 기준을 필터링하고, 태스크 (V230) 는 복수의 제 2 서브대역 전력 추정치들을 계산한다. 태스크 (V140) 는 (예를 들어, 서브대역 필터 어레이 (FA100) 를 참조하여 상술된 바와 같이) 재생된 오디오 신호의 적어도 하나의 서브대역을 적어도 하나의 다른 서브대역에 대해 부스팅시킨다.

도 63b는, 오디오 신호들을 프로세싱하도록 구성된 디바이스 (예를 들어, 여기에 개시된 통신 및/또는 오디오 재생 디바이스들의 다수의 예들 중 하나) 내에 포함될 수도 있는 일반적인 구성에 따라 재생된 오디오 신호를 프로세싱하기 위한 장치 (W100) 의 블록도를 도시한다. 장치 (W100) 는, (예를 들어, 신호 발생기 (SG100a) 및 전력 추정치 계산기 (EC100a) 를 참조하여 상술된 바와 같이) 제 1 복수의 시간-도메인 서브대역 신호들을 획득하도록 재생된 오디오 신호를 필터링하는 수단 (V110), 및 복수의 제 1 서브대역 전력 추정치들을 계산하는 수단 (V120) 을 포함한다. 장치 (W100) 는, (예를 들어, SSP 필터 (SS10) 를 참조하여 상술된 바와 같이) 소스 신호 및 잡음 기준을 생성하도록 멀티채널 감지된 오디오 신호에 대해 공간 선택적 프로세싱 동작을 수행하는 수단 (W210) 을 포함한다. 장치 (W100) 는, (예를 들어, 신호 발생기 (SG100b) 및 전력 추정치 계산기 (EC100b 또는 NP100) 를 참조하여 상술된 바와 같이) 제 2 복수의 시간-도메인 서브대역 신호들을 획득하도록 잡음 기준을 필터링하는 수단 (W220), 및 복수의 제 2 서브대역 전력 추정치들을 계산하는 수단 (W230) 을 포함한다. 장치 (W100) 는 (예를 들어, 서브대역 필터 어레이 (FA100) 를 참조하여 상술된 바와 같이) 재생된 오디오 신호의 적어도 하나의 서브대역을 적어도 하나의 다른 서브대역에 대해 부스팅시키는 수단 (W140) 을 포함한다.

도 64a는, 태스크들 (V310, V320, V330, V340, V420, 및 V520) 을 포함하는 일반적인 구성에 따라 재생된 오디오 신호를 프로세싱하는 방법 (V200) 의 흐름도를 도시하며, 오디오 신호들을 프로세싱하도록 구성된 디바이스 (예를 들어, 여기에 개시된 통신 및/또는 오디오 재생 디바이스들의 다수의 예들 중 하나) 에 의해 수행될 수도 있다. 태스크 (V310) 는 (예를 들어, SSP 필터 (SS10) 를 참조하여 상술된 바와 같이) 소스 신호 및 잡음 기준을 생성하도록 멀티채널 감지된 오디오 신호에 대해 공간 선택적 프로세싱 동작을 수행한다. 태스크 (V320) 는 (예를 들어, 전력 추정치 계산기 (NC100b) 를 참조하여 상술된 바와 같이) 복수의 제 1 잡음 서브대역 전력 추정치들을 계산한다. 멀티채널 감지된 오디오 신호로부터의 정보에 기초한 제 2 잡음 기준의 복수의 서브대역들 각각에 대해, 태스크 (V320) 는 (예를 들어, 전력 추정치 계산기 (NC100c) 를 참조하여 상술된 바와 같이) 대응하는 제 2 잡음 서브대역 전력 추정치를 계산한다. 태스크 (V520) 는 (예를 들어, 전력 추정치 계산기 (EC100a) 를 참조하여 상술된 바와 같이) 복수의 제 1 서브대역 전력 추정치들을 계산한다. 태스크 (V330) 는 (예를 들어, 전력 추정치 계산기 (NP100) 를 참조하여 상술된 바와 같이) 제 1 및 제 2 잡음 서브대역 전력 추정치들의 최대값에 기초하여 복수의 제 2 서브대역 전력 추정치들을 계산한다. 태스크 (V340) 는 (예를 들어, 서브대역 필터 어레이 (FA100) 를 참조하여 상술된 바와 같이) 재생된 오디오 신호의 적어도 하나의 서브대역을 적어도 하나의 다른 서브대역에 대해 부스팅시킨다.

도 64b는, 오디오 신호들을 프로세싱하도록 구성된 디바이스 (예를 들어, 여기에 개시된 통신 및/또는 오디오 재생 디바이스들의 다수의 예들 중 하나) 내에 포함될 수도 있는 일반적인 구성에 따라 재생된 오디오 신호를 프로세싱하기 위한 장치 (W100) 의 블록도를 도시한다. 장치 (W100) 는, (예를 들어, SSP 필터 (SS10) 를 참조하여 상술된 바와 같이) 소스 신호 및 잡음 기준을 생성하도록 멀티채널 감지된 오디오 신호에 대해 공간 선택적 프로세싱 동작을 수행하는 수단 (W310), 및 (예를 들어, 전력 추정치 계산기 (NC100b) 를 참조하여 상술된 바와 같이) 복수의 제 1 잡음 서브대역 전력 추정치들을 계산하는 수단 (W320) 을 포함한다. 장치 (W100) 는, (예를 들어, 전력 추정치 계산기 (NC100c) 를 참조하여 상술된 바와 같이) 멀티채널 감지된 오디오 신호로부터의 정보에 기초한 제 2 잡음 기준의 복수의 서브대역들 각각에 대해 대응하는 제 2 잡음 서브대역 전력 추정치를 계산하는 수단 (W320) 을 포함한다. 장치 (W100) 는 (예를 들어, 전력 추정치 계산기 (EC100a) 를 참조하여 상술된 바와 같이) 복수의 제 1 서브대역 전력 추정치들을 계산하는 수단 (W520) 을 포함한다. 장치 (W100) 는 (예를 들어, 전력 추정치 계산기 (NP100) 를 참조하여 상술된 바와 같이) 제 1 및 제 2 잡음 서브대역 전력 추정치들의 최대값들에 기초하여 복수의 제 2 서브대역 전력 추정치들을 계산하는 수단 (W330) 을 포함한다. 장치 (W100) 는 (예를 들어, 서브대역 필터 어레이 (FA100) 를 참조하여 상술된 바와 같이) 재생된 오디오 신호의 적어도 하나의 서브대역을 적어도 하나의 다른 서브대역에 대해 부스팅시키는 수단 (W340) 을 포함한다.

설명된 구성들의 이전의 제공은, 당업자가 여기에 개시된 방법들 및 다른 구조들을 수행 또는 사용할 수 있도록 제공된다. 여기에 도시되고 설명된 흐름도들, 블록도들, 상태도들, 및 다른 구조들은 단지 예시일 뿐이며, 이들 구조들의 다른 변형들 또한 본 발명의 범위내에 있다. 이들 구성들에 대한 다양한 변형들이 가능하며, 여기에 제공된 일반적인 원리들은 다른 구성들에 또한 적용될 수도 있다. 따라서, 본 발명은 상기 설명된 구성들로 제한하도록 의도되는 것이 아니라, 대신 본 발명의 일부를 형성하는 출원한 바대로의 첨부된 청구항 내에 포함되는 여기에 임의의 방식으로 개시된 원리들 및 신규한 특성들에 부합하는 최광의 범위를 허여하려는 것이다.

여기에 설명된 바와 같은 통신 디바이스들의 송신기들 및/또는 수신기들로 사용될 수도 있거나 그들에 의한 사용을 위해 적응될 수도 있는 코덱들의 예는, (온라인의 www-dot-3gpp-dot-org 에서 입수가능한) 2007년 2월자의 명칭이 "Enhanced Variable Rate Codec, Speech Service Options 3, 68, and 70 for Wideband Spread Spectrum Digital System" 인 3세대 파트너쉽 프로젝트 2 (3GPP2) 문헌 C.S0014-C, v1.0에 설명된 바와 같은 향상된 가변 레이트 코덱; (온라인의 www-dot-3gpp-dot-org 에서 입수가능한) 2004년 1월자의 "Selectable Mode Vocoder (SMV) Service Option for Wideband Spread Spectrum Communication Systems" 인 3GPP2 문헌 C.S0030-0, v3.0에 설명된 바와 같은 선택가능한 모드 보코더 스피치 코덱; 문헌 ETSI TS 126 092 V6.0.0 (European Telecommunications Standards Institute (ETSI), Sophia Antipolis Cedex, FR, December 2004) 에 설명된 바와 같은 적응적 멀티 레이트 (AMR) 스피치 코덱; 및 문헌 ETSI TS 126 192 V6.0.0 (ETSI, December 2004) 에 설명된 바와 같은 AMR 광대역 스피치 코덱을 포함한다.

당업자는, 정보 및 신호들이 임의의 다양한 서로 다른 기술들 및 기법들을 사용하여 표현될 수도 있음을 이해할 것이다. 예를 들어, 상기 설명 전반에 걸쳐 참조될 수도 있는 데이터, 명령들, 커맨드들, 정보, 신호들, 비트들, 및 심볼들은 전압, 전류, 전자기파, 자기장 또는 자기 입자, 광학 필드 또는 광학 입자, 또는 이들의 임의의 조합에 의해 표현될 수도 있다.

여기에 개시된 바와 같은 일 구성의 구현에 대한 중요한 설계 요건들은, 특히, 압축된 오디오 또는 시청각 정보 (예를 들어, 여기에 식별된 예들 중 하나와 같이 압축 포맷에 따라 인코딩된 파일 또는 스트림) 의 재생과 같은 계산-집약적 애플리케이션들 또는 (예를 들어, 광대역 통신을 위해) 더 높은 샘플링 레이트들에서의 음성 통신에 대한 애플리케이션에 대해 (통상적으로, 초당 수 백만의 명령들 (MIPS) 에서 측정되는) 프로세싱 지연 및/또는 계산 복잡도를 감소시키는 것을 포함할 수도 있다.

여기에 개시된 바와 같은 장치의 일 구현의 다양한 엘리먼트들은, 의도된 애플리케이션에 적합하다고 고려되는 하드웨어, 소프트웨어, 및/또는 펌웨어의 임의의 조합으로 구현될 수도 있다. 예를 들어, 그러한 엘리먼트들은, 예를 들어, 동일한 칩 상에 또는 칩셋 내의 2개 이상의 칩들 사이에 상주하는 전자 및/또는 광학 디바이스들로서 제조될 수도 있다. 그러한 디바이스의 일 예는, 트랜지스터들 또는 로직 게이트들과 같은 로직 엘리먼트들의 고정 또는 프로그래밍가능한 어레이이며, 이들 엘리먼트들 중 임의의 엘리먼트는 하나 이상의 그러한 어레이들로서 구현될 수도 있다. 이들 엘리먼트들 중 임의의 2개 이상 또는 심지어 전부가 동일한 어레이 또는 어레이들 내에 구현될 수도 있다. 그러한 어레이 또는 어레이들은 하나 이상의 칩들 내에 (예를 들어, 2개 이상의 칩들을 포함하는 칩셋 내에) 구현될 수도 있다.

또한, 여기에 개시된 장치의 다양한 구현들의 하나 이상의 엘리먼트들은, 마이크로프로세서들, 임베디드 프로세서들, IP 코어들, 디지털 신호 프로세서들, FPGA (필드-프로그래밍가능 게이트 어레이), ASSP (주문형 표준 제품), 및 ASIC (주문형 집적 회로) 와 같은 로직 엘리먼트들의 하나 이상의 고정 또는 프로그래밍가능 어레이들 상에서 실행하도록 배열되는 명령들의 하나 이상의 세트들로서 전체로 또는 일부로 구현될 수도 있다. 또한, 여기에 개시된 바와 같은 장치의 일 구현의 다양한 엘리먼트들 중 임의의 엘리먼트는, 하나 이상의 컴퓨터들 (예를 들어, 명령들의 하나 이상의 세트들 또는 시퀀스들을 실행시키도록 프로그래밍된 하나 이상의 어레이들을 포함하고, 또한 "프로세서" 로서 지칭되는 머신들) 로서 구현될 수도 있으며, 이들 엘리먼트들 중 임의의 2개 이상 또는 심지어 모두는 동일한 그러한 컴퓨터 또는 컴퓨터들 내에 구현될 수도 있다.

당업자는, 여기에 개시된 구성들과 관련하여 설명된 다양한 예시적인 모듈들, 논리 블록들, 회로들, 및 동작들이 전자 하드웨어, 컴퓨터 소프트웨어, 또는 이들의 조합들로서 구현될 수도 있음을 인식할 것이다. 그러한 모듈들, 논리 블록들, 회로들, 및 동작들은, 범용 프로세서, 디지털 신호 프로세서 (DSP), ASIC 또는 ASSP, FPGA 또는 다른 프로그래밍가능 로직 디바이스, 이산 게이트 또는 트랜지스터 로직, 이산 하드웨어 컴포넌트들, 또는 여기에 개시된 바와 같은 구성을 생성하도록 설계된 이들의 임의의 조합으로 구현되거나 수행될 수도 있다. 예를 들어, 그러한 구성은, 하드-와이어된 회로, 주문형 집적 회로 내에 제작된 회로 구성, 또는 비-휘발성 저장부에 로딩된 펌웨어 프로그램 또는 머신-판독가능 코드로서 데이터 저장 매체로부터 또는 데이터 저장 매체로 로딩된 소프트웨어 프로그램으로서 적어도 부분적으로 구현될 수도 있으며, 그러한 코드는, 범용 프로세서 또는 다른 디지털 신호 프로세싱 유닛과 같은 로직 엘리먼트들의 어레이에 의해 실행가능한 명령들이다. 범용 프로세서는 마이크로프로세서일 수도 있지만, 대안적으로, 그 프로세서는 종래의 프로세서, 제어기, 마이크로제어기, 또는 상태 머신일 수도 있다. 또한, 프로세서는 컴퓨팅 디바이스들의 결합, 예를 들어, DSP와 마이크로프로세서의 결합, 복수의 마이크로프로세서들, DSP 코어와 결합된 하나 이상의 마이크로프로세서들, 또는 임의의 다른 그러한 구성으로서 구현될 수도 있다. 소프트웨어 모듈은, RAM (랜덤-액세스 메모리), ROM (판독-전용 메모리), 플래시 RAM과 같은 비휘발성 RAM (NVRAM), 소거가능한 프로그래밍가능 ROM (EPROM), 전기적으로 소거가능한 프로그래밍가능 ROM (EEPROM), 레지스터들, 하드 디스크, 착탈형 디스크, CD-ROM, 또는 당업계에 알려진 임의의 다른 형태의 저장 매체에 상주할 수도 있다. 예시적인 저장 매체는 프로세서에 커플링되어, 프로세서가 저장 매체로부터 정보를 판독할 수 있고, 저장 매체에 정보를 기입할 수 있게 한다. 대안적으로, 저장 매체는 프로세서와 통합될 수도 있다. 프로세서 및 저장 매체는 ASIC에 상주할 수도 있다. ASIC는 사용자 단말기에 상주할 수도 있다. 대안적으로, 프로세서 및 저장 매체는 사용자 단말기 내에 별개의 컴포넌트들로서 상주할 수도 있다.

여기에 개시된 다양한 방법들 (예를 들어, 여기에 개시된 바와 같은 장치의 다양한 구현들의 동작의 설명들에 의해 여기에 명백히 개시되는 방법들 (M110, M120, M210, M220, M300, 및 M400) 뿐만 아니라 그러한 방법들 및 부가적인 방법들의 다수의 구현들) 이 프로세서와 같은 로직 엘리먼트들의 어레이에 의해 수행될 수도 있으며, 여기에 설명된 바와 같은 장치의 다양한 엘리먼트들이 그러한 어레이 상에서 실행하도록 설계된 모듈로서 구현될 수도 있음을 유의한다. 여기에 사용된 바와 같이, "모듈" 또는 "서브-모듈" 이라는 용어는, 소프트웨어, 하드웨어 또는 펌웨어 형태로 컴퓨터 명령들 (예를 들어, 논리 표현들) 을 포함하는 임의의 방법, 장치, 디바이스, 유닛 또는 컴퓨터-판독가능 데이터 저장 매체를 지칭할 수 있다. 다수의 모듈들 또는 시스템들이 하나의 모듈 또는 시스템으로 결합될 수 있고, 하나의 모듈 또는 시스템이 동일한 기능들을 수행하기 위해 다수의 모듈들 또는 시스템들로 분리될 수 있음을 이해할 것이다. 소프트웨어 또는 다른 컴퓨터-실행가능 명령들로 구현될 경우, 프로세스의 엘리먼트들은 본질적으로, 예를 들어, 루틴들, 프로그램들, 오브젝트들, 컴포넌트들, 데이터 구조들 등으로 관련 태스크들을 수행하기 위한 코드 세그먼트들이다. "소프트웨어" 라는 용어는, 소스 코드, 어셈블리 언어 코드, 머신 코드, 바이너리 코드, 펌웨어, 매크로코드, 마이크로코드, 로직 엘리먼트들의 어레이에 의해 실행가능한 명령들의 임의의 하나 이상의 세트들 또는 시퀀스들, 및 그러한 예들의 임의의 조합을 포함하도록 이해되어야 한다. 프로그램 또는 코드 세그먼트들은, 프로세서 판독가능 매체 내에 저장될 수 있거나, 송신 매체 또는 통신 링크를 통해 캐리어파로 구현되는 컴퓨터 데이터 신호에 의해 송신될 수 있다.

또한, 여기에 개시된 방법들, 방식들, 및 기술들의 구현들은, 로직 엘리먼트들의 어레이를 포함하는 머신 (예를 들어, 프로세서, 마이크로프로세서, 마이크로제어기, 또는 다른 유한 상태 머신) 에 의해 판독가능하고/하거나 실행가능한 명령들의 하나 이상의 세트들로서 (예를 들어, 여기에 리스팅된 바와 같은 하나 이상의 컴퓨터-판독가능 매체 내에) 명백히 구현될 수도 있다. "컴퓨터-판독가능 매체" 라는 용어는, 휘발성, 비휘발성, 착탈형 및 비-착탈형 매체를 포함하는, 정보를 저장 또는 전달할 수 있는 임의의 매체를 포함할 수도 있다. 컴퓨터-판독가능 매체의 예들은, 전자 회로, 반도체 메모리 디바이스, ROM, 플래시 메모리, 소거가능한 ROM (EROM), 플로피 디스켓 또는 다른 자성 저장부, CD-ROM/DVD 또는 다른 광 저장부, 하드 디스크, 광섬유 매체, 무선 주파수 (RF) 링크, 또는 원하는 정보를 저장하는데 사용될 수 있고 액세스될 수 있는 임의의 다른 매체를 포함한다. 컴퓨터 데이터 신호는, 전자 네트워크 채널, 광섬유, 공중, 전자기, RF 링크 등과 같은 송신 매체를 통해 전파할 수 있는 임의의 신호를 포함할 수도 있다. 코드 세그먼트들은 인터넷 또는 인트라넷과 같은 컴퓨터 네트워크들을 통해 다운로딩될 수도 있다. 임의의 경우에서, 본 발명의 범위는 그러한 실시형태들에 의해 제한되는 것으로 해석되지는 않아야 한다.

여기에 설명된 방법들의 태스크들의 각각은, 하드웨어에 직접, 프로세서에 의해 실행되는 소프트웨어 모듈로, 또는 이들의 조합으로 구현될 수도 있다. 여기에 개시된 바와 같은 방법의 일 구현의 통상적인 애플리케이션에서, 로직 엘리먼트들 (예를 들어, 로직 게이트들) 의 어레이는 그 방법의 다양한 태스크들 중 하나, 2개 이상, 또는 심지어 모두를 수행하도록 구성된다. 또한, 태스크들 중 하나 이상 (가급적 모두) 은, 로직 엘리먼트들 (예를 들어, 프로세서, 마이크로프로세서, 마이크로제어기, 또는 다른 유한 상태 머신) 의 어레이를 포함하는 머신 (예를 들어, 컴퓨터) 에 의해 판독가능하고/하거나 실행가능한 컴퓨터 프로그램 제품 (예를 들어, 디스크, 플래시 또는 다른 비휘발성 메모리 카드, 반도체 메모리 칩 등) 에 수록되는 코드 (예를 들어, 명령들의 하나 이상의 세트들) 로서 구현될 수도 있다. 또한, 여기에 개시된 바와 같은 방법의 일 구현의 태스크들은 2개 이상의 그러한 어레이 또는 머신에 의해 수행될 수도 있다. 이들 또는 다른 구현들에서, 태스크들은 셀룰러 전화기 또는 그러한 통신 능력을 갖는 다른 디바이스와 같은 무선 통신을 위한 디바이스 내에서 수행될 수도 있다. 그러한 디바이스는, (예를 들어, VoIP와 같은 하나 이상의 프로토콜들을 사용하여) 회로-스위칭 및/또는 패킷-스위칭 네트워크들과 통신하도록 구성될 수도 있다. 예를 들어, 그러한 디바이스는 인코딩된 프레임들을 수신 및/또는 송신하도록 구성된 RF 회로를 포함할 수도 있다.

여기에 개시된 다양한 방법들이 핸드셋, 헤드셋, 또는 개인 휴대 정보 단말기 (PDA) 와 같은 휴대용 통신 디바이스들에 의해 수행될 수도 있고, 여기에 설명된 다양한 장치가 그러한 디바이스에 포함될 수도 있음이 명백히 개시된다. 통상적인 실시간 (예를 들어, 온라인) 애플리케이션은 그러한 이동 디바이스를 사용하여 수행되는 전화 대화이다.

하나 이상의 예시적인 실시형태들에서, 여기에 설명된 동작들은 하드웨어, 소프트웨어, 펌웨어, 또는 이들의 임의의 조합으로 구현될 수도 있다. 소프트웨어로 구현되면, 그러한 동작들은 하나 이상의 명령들 또는 코드로서 컴퓨터-판독가능 매체 상에 저장되거나 송신될 수도 있다. "컴퓨터-판독가능 매체" 라는 용어는, 일 장소로부터 다른 장소로의 컴퓨터 프로그램의 전달을 용이하게 하는 임의의 매체를 포함하는 통신 매체 및 컴퓨터 저장 매체 양자를 포함한다. 저장 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 이용가능한 매체일 수도 있다. 제한이 아닌 예로서, 그러한 컴퓨터-판독가능 매체는, (동적 또는 정적 RAM, ROM, EEPROM, 및/또는 플래시 RAM을 제한없이 포함할 수도 있는) 반도체 메모리, 또는 강유전체, 자기저항, 오브닉 (ovonic), 폴리머, 또는 위상-변화 메모리; CD-ROM 또는 다른 광 디스크 저장부, 자성 디스크 저장부 또는 다른 자성 저장부 디바이스들, 또는 명령들 또는 데이터 구조들의 형태로 원하는 프로그램 코드를 운반 또는 저장하는데 사용될 수 있고 컴퓨터에 의해 액세스될 수 있는 임의의 다른 매체와 같은 저장 엘리먼트들의 어레이를 포함할 수 있다. 또한, 임의의 접속이 컴퓨터-판독가능 매체로 적절히 명칭된다. 예를 들어, 소프트웨어가 동축 케이블, 광섬유 케이블, 꼬인 쌍, 디지털 가입자 라인 (DSL), 또는 적외선, 무선, 및/또는 마이크로파와 같은 무선 기술을 사용하여 웹사이트, 서버, 또는 다른 원격 소스로부터 송신되면, 동축 케이블, 광섬유 케이블, 꼬인 쌍, DSL, 또는 적외선, 무선, 및/또는 마이크로파와 같은 무선 기술은 매체의 정의내에 포함된다. 여기에 사용된 바와 같이, 디스크 (disk) 및 디스크 (disc) 는 컴팩 디스크 (CD), 레이저 디스크, 광 디스크, DVD (digital versatile disc), 플로피 디스크 및 블루-레이 디스크TM (Blu-Ray Disc Association, Universal City, CA) 를 포함하며, 여기서, 디스크들은 일반적으로 데이터를 자기적으로 재생하지만, 디스크들은 레이저들을 이용하여 광학적으로 데이터를 재생한다. 또한, 상기의 조합들은 컴퓨터-판독가능 매체의 범위 내에 포함되어야 한다.

통신 디바이스들과 같이, 여기에 설명된 바와 같은 음향 신호 프로세싱 장치는, 특정한 동작들을 제어하기 위해 스피치 입력을 수용하는 전자 디바이스 내에 포함될 수도 있거나, 배경 잡음들로부터 원하는 잡음들의 분리로부터 이익을 얻을 수도 있다. 많은 애플리케이션들은, 다수의 방향들로부터 발신하는 배경 사운드들로부터 명확한 원하는 사운드를 향상시키거나 분리시키는 것으로부터 이익을 얻을 수도 있다. 그러한 애플리케이션들은, 음성 인식 및 검출, 스피치 향상 및 분리, 음성-활성화 제어 등과 같은 기능들을 포함하는 전자 또는 컴퓨팅 디바이스들에서 휴먼-머신 인터페이스를 포함할 수도 있다. 제한된 프로세싱 능력들만을 제공하는 디바이스들에 적절하게 그러한 음향 신호 프로세싱 장치를 구현하는 것이 바람직할 수도 있다.

여기에 설명된 모듈들, 엘리먼트들, 및 디바이스들의 다양한 구현들의 엘리먼트들은, 예를 들어, 동일한 칩 또는 칩셋 내의 2개 이상의 칩들 사이에 상주하는 전자 및/또는 광학 디바이스들로서 제조될 수도 있다. 그러한 디바이스의 일 예는, 트랜지스터 또는 게이트와 같은 로직 엘리먼트들의 고정 또는 프로그래밍가능한 어레이이다. 또한, 여기에 설명된 장치의 다양한 구현들의 하나 이상의 엘리먼트들은, 마이크로프로세서, 임베디드 프로세서, IP 코어, 디지털 신호 프로세서, FPGA, ASSP, 및 ASIC와 같은 로직 엘리먼트들의 하나 이상의 고정 또는 프로그래밍가능한 어레이들 상에서 실행하도록 배열된 명령들의 하나 이상의 세트들로서 전체로 또는 일부로 구현될 수도 있다.

여기에 설명된 바와 같은 장치의 일 구현의 하나 이상의 엘리먼트들이, 장치가 임베디드된 디바이스 또는 시스템의 다른 동작에 관한 태스크와 같이, 장치의 동작에 직접 관련되지 않은 태스크들을 수행하거나 명령들의 다른 세트들을 실행하는데 사용되는 것이 가능하다. 또한, 그러한 장치의 일 구현의 하나 이상의 엘리먼트들이 공통적인 구조 (예를 들어, 상이한 시간들에서 상이한 엘리먼트들에 대응하는 코드의 일부를 실행하는데 사용된 프로세서, 상이한 시간들에서 상이한 엘리먼트들에 대응하는 태스크들을 수행하도록 실행되는 명령들의 세트, 또는 상이한 시간들에서 상이한 엘리먼트들에 대한 동작들을 수행하는 전자 및/또는 광학 디바이스들의 배열) 를 갖는 것이 가능하다. 예를 들어, 대부분의 서브대역 신호 생성기들 (SG100a, SG100b, 및 SG100c) 중 2개는 상이한 시간들에서 동일한 구조를 포함하도록 구현될 수도 있다. 또 다른 예에서, 대부분의 서브대역 전력 추정치 계산기들 (EC100a, EC100b, 및 EC100c) 중 2개는 상이한 시간들에서 동일한 구조를 포함하도록 구현될 수도 있다. 또 다른 예에서, 서브대역 필터 어레이 (FA100) 및 서브대역 필터 어레이 (SG30) 의 하나 이상의 구현들은, (예를 들어, 상이한 시간들에서 상이한 세트들의 필터 계수값들을 사용하여) 상이한 시간들에서 동일한 구조를 포함하도록 구현될 수도 있다.

또한, 장치 (A100) 및/또는 등화기 (EQ10) 의 특정한 구현을 참조하여 여기에 설명된 다양한 엘리먼트들이 다른 개시된 구현들에 관해 설명된 방식으로 또한 사용될 수도 있다는 것이 명백히 고려되고 여기에 개시된다. 예를 들어, (예를 들어, 장치 (A140) 를 참조하여 설명된 바와 같은) AGC 모듈 (G10), (장치 (A110) 를 참조하여 설명된 바와 같은) 오디오 프리프로세서 (AP10), (오디오 프리프로세서 (AP20) 를 참조하여 설명된 바와 같은) 에코 소거기 (EC10), (장치 (A105) 를 참조하여 설명된 바와 같은) 잡음 감소 스테이지 (NR10), 및 (장치 (A120) 를 참조하여 설명된 바와 같은) 음성 활성도 검출기 (V10) 중 하나 이상은 장치 (A100) 의 다른 개시된 구현들에 포함될 수도 있다. 유사하게, (등화기 (EQ40) 를 참조하여 설명된 바와 같은) 피크 제한기 (L10) 는 등화기 (EQ10) 의 다른 개시된 구현들에 포함될 수도 있다. 감지된 오디오 신호 (S10) 의 2-채널 (예를 들어, 스테레오) 인스턴스들에 대한 애플리케이션들이 주로 상술되었지만, (예를 들어, 3개 이상의 마이크로폰들의 어레이로부터의) 3개 이상의 채널들을 갖는 감지된 오디오 신호 (S10) 의 인스턴스들로의 여기에 개시된 원리들의 확장은 또한 명백히 고려되고 여기에 개시된다.

Claims

재생된 오디오 신호를 프로세싱하는 방법으로서,
제 1 복수의 시간-도메인 서브대역 신호들을 획득하기 위해 상기 재생된 오디오 신호를 필터링하는 단계;
상기 제 1 복수의 시간-도메인 서브대역 신호들로부터의 정보에 기초하여, 복수의 제 1 서브대역 전력 추정치들을 계산하는 단계;
소스 신호 및 잡음 기준을 생성하기 위해 멀티채널 감지된 오디오 신호에 대해 공간 선택적 프로세싱 동작을 수행하는 단계;
제 2 복수의 시간-도메인 서브대역 신호들을 획득하기 위해 상기 잡음 기준을 필터링하는 단계;
상기 제 2 복수의 시간-도메인 서브대역 신호들로부터의 정보에 기초하여, 복수의 제 2 서브대역 전력 추정치들을 계산하는 단계; 및
상기 복수의 제 1 서브대역 전력 추정치들로부터의 정보 및 상기 복수의 제 2 서브대역 전력 추정치들로부터의 정보에 기초하여, 상기 재생된 오디오 신호의 적어도 하나의 주파수 서브대역을 상기 재생된 오디오 신호의 적어도 하나의 다른 주파수 서브대역에 대해 부스팅시키는 단계
의 각각을, 오디오 신호들을 프로세싱하도록 구성된 디바이스 내에서 수행하는 단계를 포함하는, 재생된 오디오 신호 프로세싱 방법.
제 1 항에 있어서,
상기 재생된 오디오 신호 프로세싱 방법은, 제 3 복수의 시간-도메인 서브대역 신호들을 획득하기 위해 상기 멀티채널 감지된 오디오 신호로부터의 정보에 기초하는 제 2 잡음 기준을 필터링하는 단계를 포함하며,
상기 복수의 제 2 서브대역 전력 추정치들을 계산하는 단계는, 상기 제 3 복수의 시간-도메인 서브대역 신호들로부터의 정보에 기초하는, 재생된 오디오 신호 프로세싱 방법.
제 2 항에 있어서,
상기 제 2 잡음 기준은 미분리된 감지된 오디오 신호인, 재생된 오디오 신호 프로세싱 방법.
제 3 항에 있어서,
상기 복수의 제 2 서브대역 전력 추정치들을 계산하는 단계는,
상기 제 2 복수의 시간-도메인 서브대역 신호들로부터의 정보에 기초하여, 복수의 제 1 잡음 서브대역 전력 추정치들을 계산하는 단계;
상기 제 3 복수의 시간-도메인 서브대역 신호들로부터의 정보에 기초하여, 복수의 제 2 잡음 서브대역 전력 추정치들을 계산하는 단계; 및
상기 계산된 복수의 제 2 잡음 서브대역 전력 추정치들 중 최소값을 식별하는 단계를 포함하며,
상기 복수의 제 2 서브대역 전력 추정치들 중 적어도 2개의 값들은 상기 식별된 최소값에 기초하는, 재생된 오디오 신호 프로세싱 방법.
제 2 항에 있어서,
상기 제 2 잡음 기준은 상기 소스 신호에 기초하는, 재생된 오디오 신호 프로세싱 방법.
제 2 항에 있어서,
상기 복수의 제 2 서브대역 전력 추정치들을 계산하는 단계는,
상기 제 2 복수의 시간-도메인 서브대역 신호들로부터의 정보에 기초하여, 복수의 제 1 잡음 서브대역 전력 추정치들을 계산하는 단계; 및
상기 제 3 복수의 시간-도메인 서브대역 신호들로부터의 정보에 기초하여, 복수의 제 2 잡음 서브대역 전력 추정치들을 계산하는 단계를 포함하며,
상기 복수의 제 2 서브대역 전력 추정치들의 각각은, (A) 상기 복수의 제 1 잡음 서브대역 전력 추정치들 중 대응하는 제 1 잡음 서브대역 전력 추정치 및 (B) 상기 복수의 제 2 잡음 서브대역 전력 추정치들 중 대응하는 제 2 잡음 서브대역 전력 추정치 중 최대값에 기초하는, 재생된 오디오 신호 프로세싱 방법.
제 1 항에 있어서,
상기 공간 선택적 프로세싱 동작을 수행하는 단계는, 상기 멀티채널 감지된 오디오 신호의 지향성 컴포넌트의 에너지를 상기 소스 신호로 집중시키는 단계를 포함하는, 재생된 오디오 신호 프로세싱 방법.
제 1 항에 있어서,
상기 멀티채널 감지된 오디오 신호는 지향성 컴포넌트 및 잡음 컴포넌트를 포함하며,
상기 공간 선택적 프로세싱 동작을 수행하는 단계는, 상기 소스 신호가 상기 멀티채널 감지된 오디오 신호의 각각의 채널이 포함하는 것보다 더 많은 상기 지향성 컴포넌트의 에너지를 포함하도록, 상기 잡음 컴포넌트의 에너지로부터 상기 지향성 컴포넌트의 에너지를 분리시키는 단계를 포함하는, 재생된 오디오 신호 프로세싱 방법.
제 1 항에 있어서,
상기 제 1 복수의 시간-도메인 서브대역 신호들을 획득하기 위해 상기 재생된 오디오 신호를 필터링하는 단계는, 상기 제 1 복수의 시간-도메인 서브대역 신호들의 각각을, 상기 재생된 오디오 신호의 대응하는 서브대역의 상기 재생된 오디오 신호의 다른 서브대역들에 대한 이득을 부스팅시킴으로써 획득하는 단계를 포함하는, 재생된 오디오 신호 프로세싱 방법.
제 1 항에 있어서,
상기 재생된 오디오 신호 프로세싱 방법은, 상기 복수의 제 1 서브대역 전력 추정치들의 각각에 대해, 상기 제 1 서브대역 전력 추정치와, 상기 복수의 제 2 서브대역 전력 추정치들 중 대응하는 제 2 서브대역 전력 추정치의 비율을 계산하는 단계를 포함하며,
상기 재생된 오디오 신호의 적어도 하나의 주파수 서브대역을 상기 재생된 오디오 신호의 적어도 하나의 다른 주파수 서브대역에 대해 부스팅시키는 단계는, 상기 복수의 제 1 서브대역 전력 추정치들의 각각에 대해, 대응하는 상기 계산된 비율에 기초한 이득 팩터를 상기 재생된 오디오 신호의 대응하는 주파수 서브대역에 적용하는 단계를 포함하는, 재생된 오디오 신호 프로세싱 방법.
제 10 항에 있어서,
상기 재생된 오디오 신호의 적어도 하나의 주파수 서브대역을 상기 재생된 오디오 신호의 적어도 하나의 다른 주파수 서브대역에 대해 부스팅시키는 단계는, 필터 스테이지들의 캐스캐이드를 사용하여 상기 재생된 오디오 신호를 필터링하는 단계를 포함하며,
상기 복수의 제 1 서브대역 전력 추정치들의 각각에 대해, 상기 이득 팩터를 상기 재생된 오디오 신호의 대응하는 주파수 서브대역에 적용하는 단계는, 상기 이득 팩터를 상기 캐스캐이드의 대응하는 필터 스테이지에 적용하는 단계를 포함하는, 재생된 오디오 신호 프로세싱 방법.
제 10 항에 있어서,
상기 복수의 제 1 서브대역 전력 추정치들 중 적어도 하나에 대해, 대응하는 상기 이득 팩터의 현재값은, 상기 재생된 오디오 신호의 현재 레벨에 기초한 적어도 하나의 한계 (bound) 에 의해 제한되는, 재생된 오디오 신호 프로세싱 방법.
제 10 항에 있어서,
상기 재생된 오디오 신호 프로세싱 방법은, 상기 복수의 제 1 서브대역 전력 추정치들 중 적어도 하나에 대해, 시간에 걸친 대응하는 상기 비율의 값에서의 변화에 따라, 시간에 걸쳐 대응하는 상기 이득 팩터의 값을 평활화하는 단계를 포함하는, 재생된 오디오 신호 프로세싱 방법.
제 1 항에 있어서,
상기 재생된 오디오 신호 프로세싱 방법은, 상기 멀티채널 감지된 오디오 신호를 획득하기 위해 복수의 마이크로폰 신호들에 대해 에코 소거 동작을 수행하는 단계를 포함하며,
상기 에코 소거 동작을 수행하는 단계는, 상기 재생된 오디오 신호의 적어도 하나의 주파수 서브대역을 상기 재생된 오디오 신호의 적어도 하나의 다른 주파수 서브대역에 대해 부스팅시키는 단계로부터 초래하는 오디오 신호로부터의 정보에 기초하는, 재생된 오디오 신호 프로세싱 방법.
재생된 오디오 신호를 프로세싱하는 방법으로서,
소스 신호 및 잡음 기준을 생성하기 위해 멀티채널 감지된 오디오 신호에 대해 공간 선택적 프로세싱 동작을 수행하는 단계;
상기 재생된 오디오 신호의 복수의 서브대역들의 각각에 대해, 제 1 서브대역 전력 추정치를 계산하는 단계;
상기 잡음 기준의 복수의 서브대역들 각각에 대해, 제 1 잡음 서브대역 전력 추정치를 계산하는 단계;
상기 멀티채널 감지된 오디오 신호로부터의 정보에 기초한 제 2 잡음 기준의 복수의 서브대역들 각각에 대해, 제 2 잡음 서브대역 전력 추정치를 계산하는 단계;
상기 재생된 오디오 신호의 복수의 서브대역들 각각에 대해, 대응하는 제 1 잡음 서브대역 전력 추정치 및 대응하는 제 2 잡음 서브대역 전력 추정치 중 최대값에 기초한 제 2 서브대역 전력 추정치를 계산하는 단계; 및
복수의 상기 제 1 서브대역 전력 추정치들로부터의 정보 및 복수의 상기 제 2 서브대역 전력 추정치들로부터의 정보에 기초하여, 상기 재생된 오디오 신호의 적어도 하나의 주파수 서브대역을 상기 재생된 오디오 신호의 적어도 하나의 다른 주파수 서브대역에 대해 부스팅시키는 단계,
의 각각을, 오디오 신호들을 프로세싱하도록 구성된 디바이스 내에서 수행하는 단계를 포함하는, 재생된 오디오 신호 프로세싱 방법.
제 15 항에 있어서,
상기 제 2 잡음 기준은 미분리된 감지된 오디오 신호인, 재생된 오디오 신호 프로세싱 방법.
제 15 항에 있어서,
상기 제 2 잡음 기준은 상기 소스 신호에 기초하는, 재생된 오디오 신호 프로세싱 방법.
재생된 오디오 신호를 프로세싱하기 위한 장치로서,
제 1 복수의 시간-도메인 서브대역 신호들을 획득하기 위해 상기 재생된 오디오 신호를 필터링하도록 구성된 제 1 서브대역 신호 생성기;
상기 제 1 복수의 시간-도메인 서브대역 신호들로부터의 정보에 기초하여, 복수의 제 1 서브대역 전력 추정치들을 계산하도록 구성된 제 1 서브대역 전력 추정치 계산기;
소스 신호 및 잡음 기준을 생성하기 위해 멀티채널 감지된 오디오 신호에 대해 공간 선택적 프로세싱 동작을 수행하도록 구성된 공간 선택적 프로세싱 필터;
제 2 복수의 시간-도메인 서브대역 신호들을 획득하기 위해 상기 잡음 기준을 필터링하도록 구성된 제 2 서브대역 신호 생성기;
상기 제 2 복수의 시간-도메인 서브대역 신호들로부터의 정보에 기초하여, 복수의 제 2 서브대역 전력 추정치들을 계산하도록 구성된 제 2 서브대역 전력 추정치 계산기; 및
상기 복수의 제 1 서브대역 전력 추정치들로부터의 정보 및 상기 복수의 제 2 서브대역 전력 추정치들로부터의 정보에 기초하여, 상기 재생된 오디오 신호의 적어도 하나의 주파수 서브대역을 상기 재생된 오디오 신호의 적어도 하나의 다른 주파수 서브대역에 대해 부스팅시키도록 구성된 서브대역 필터 어레이를 포함하는, 재생된 오디오 신호를 프로세싱하기 위한 장치.
제 18 항에 있어서,
상기 재생된 오디오 신호를 프로세싱하기 위한 장치는, 제 3 복수의 시간-도메인 서브대역 신호들을 획득하기 위해 상기 멀티채널 감지된 오디오 신호로부터의 정보에 기초하는 제 2 잡음 기준을 필터링하도록 구성된 제 3 서브대역 신호 생성기를 포함하며,
상기 제 2 서브대역 전력 추정치 계산기는, 상기 제 3 복수의 시간-도메인 서브대역 신호들로부터의 정보에 기초하여, 상기 복수의 제 2 서브대역 전력 추정치들을 계산하도록 구성되는, 재생된 오디오 신호를 프로세싱하기 위한 장치.
제 19 항에 있어서,
상기 제 2 잡음 기준은 미분리된 감지된 오디오 신호인, 재생된 오디오 신호를 프로세싱하기 위한 장치.
제 19 항에 있어서,
상기 제 2 잡음 기준은 상기 소스 신호에 기초하는, 재생된 오디오 신호를 프로세싱하기 위한 장치.
제 19 항에 있어서,
상기 제 2 서브대역 전력 추정치 계산기는, (A) 상기 제 2 복수의 시간-도메인 서브대역 신호들로부터의 정보에 기초하여, 복수의 제 1 잡음 서브대역 전력 추정치들, 및 (B) 상기 제 3 복수의 시간-도메인 서브대역 신호들로부터의 정보에 기초하여, 복수의 제 2 잡음 서브대역 전력 추정치들을 계산하도록 구성되며,
상기 제 2 서브대역 전력 추정치 계산기는, 상기 복수의 제 2 서브대역 전력 추정치들의 각각을, (A) 상기 복수의 제 1 잡음 서브대역 전력 추정치들 중 대응하는 제 1 잡음 서브대역 전력 추정치 및 (B) 상기 복수의 제 2 잡음 서브대역 전력 추정치들 중 대응하는 제 2 잡음 서브대역 전력 추정치 중 최대값에 기초하여 계산하도록 구성되는, 재생된 오디오 신호를 프로세싱하기 위한 장치.
제 18 항에 있어서,
상기 멀티채널 감지된 오디오 신호는, 지향성 컴포넌트 및 잡음 컴포넌트를 포함하며,
상기 공간 선택적 프로세싱 필터는, 상기 소스 신호가 상기 멀티채널 감지된 오디오 신호의 각각의 채널이 포함하는 것보다 더 많은 상기 지향성 컴포넌트의 에너지를 포함하도록, 상기 잡음 컴포넌트의 에너지로부터 상기 지향성 컴포넌트의 에너지를 분리시키도록 구성되는, 재생된 오디오 신호를 프로세싱하기 위한 장치.
제 18 항에 있어서,
상기 제 1 서브대역 신호 생성기는, 상기 제 1 복수의 시간-도메인 서브대역 신호들의 각각을, 상기 재생된 오디오 신호의 대응하는 서브대역의 상기 재생된 오디오 신호의 다른 서브대역들에 대한 이득을 부스팅시킴으로써 획득하도록 구성되는, 재생된 오디오 신호를 프로세싱하기 위한 장치.
제 18 항에 있어서,
상기 재생된 오디오 신호를 프로세싱하기 위한 장치는, 상기 복수의 제 1 서브대역 전력 추정치들의 각각에 대해, 상기 제 1 서브대역 전력 추정치와, 상기 복수의 제 2 서브대역 전력 추정치들 중 대응하는 제 2 서브대역 전력 추정치의 비율을 계산하도록 구성된 서브대역 이득 팩터 계산기를 포함하며,
상기 서브대역 필터 어레이는, 상기 복수의 제 1 서브대역 전력 추정치들의 각각에 대해, 대응하는 상기 계산된 비율에 기초한 이득 팩터를 상기 재생된 오디오 신호의 대응하는 주파수 서브대역에 적용하도록 구성되는, 재생된 오디오 신호를 프로세싱하기 위한 장치.
제 25 항에 있어서,
상기 서브대역 필터 어레이는 필터 스테이지들의 캐스캐이드를 포함하며,
상기 서브대역 필터 어레이는, 복수의 상기 이득 팩터들의 각각을 상기 캐스캐이드의 대응하는 필터 스테이지에 적용하도록 구성되는, 재생된 오디오 신호를 프로세싱하기 위한 장치.
제 25 항에 있어서,
상기 서브대역 이득 팩터 계산기는, 상기 복수의 제 1 서브대역 전력 추정치들 중 적어도 하나에 대해, 상기 재생된 오디오 신호의 현재 레벨에 기초한 적어도 하나의 한계에 의해 대응하는 상기 이득 팩터의 현재값을 제한하도록 구성되는, 재생된 오디오 신호를 프로세싱하기 위한 장치.
제 25 항에 있어서,
상기 제 1 서브대역 이득 팩터 계산기는, 상기 복수의 제 1 서브대역 전력 추정치들 중 적어도 하나에 대해, 시간에 걸친 대응하는 상기 비율의 값에서의 변화에 따라, 시간에 걸쳐 대응하는 상기 이득 팩터의 값을 평활화하도록 구성되는, 재생된 오디오 신호를 프로세싱하기 위한 장치.
프로세서에 의해 실행될 경우, 그 프로세서로 하여금 재생된 오디오 신호를 프로세싱하는 방법을 수행하게 하는 명령들을 포함한 컴퓨터-판독가능 매체로서,
상기 명령들은 프로세서에 의해 실행될 경우 그 프로세서로 하여금,
제 1 복수의 시간-도메인 서브대역 신호들을 획득하기 위해 상기 재생된 오디오 신호를 필터링하게 하는 명령들;
상기 제 1 복수의 시간-도메인 서브대역 신호들로부터의 정보에 기초하여, 복수의 제 1 서브대역 전력 추정치들을 계산하게 하는 명령들;
소스 신호 및 잡음 기준을 생성하기 위해 멀티채널 감지된 오디오 신호에 대해 공간 선택적 프로세싱 동작을 수행하게 하는 명령들;
제 2 복수의 시간-도메인 서브대역 신호들을 획득하기 위해 상기 잡음 기준을 필터링하게 하는 명령들;
상기 제 2 복수의 시간-도메인 서브대역 신호들로부터의 정보에 기초하여, 복수의 제 2 서브대역 전력 추정치들을 계산하게 하는 명령들; 및
상기 복수의 제 1 서브대역 전력 추정치들로부터의 정보 및 상기 복수의 제 2 서브대역 전력 추정치들로부터의 정보에 기초하여, 상기 재생된 오디오 신호의 적어도 하나의 주파수 서브대역을 상기 재생된 오디오 신호의 적어도 하나의 다른 주파수 서브대역에 대해 부스팅시키게 하는 명령들,
을 포함하는, 컴퓨터-판독가능 매체.
제 29 항에 있어서,
상기 컴퓨터-판독가능 매체는, 프로세서에 의해 실행될 경우 그 프로세서로 하여금, 제 3 복수의 시간-도메인 서브대역 신호들을 획득하기 위해 상기 멀티채널 감지된 오디오 신호로부터의 정보에 기초하는 제 2 잡음 기준을 필터링하게 하는 명령들을 포함하며,
프로세서에 의해 실행될 경우 그 프로세서로 하여금 복수의 제 2 서브대역 전력 추정치들을 계산하게 하는 상기 명령들은, 그 프로세서에 의해 실행될 경우 그 프로세서로 하여금, 상기 제 3 복수의 시간-도메인 서브대역 신호들로부터의 정보에 기초하여 상기 복수의 제 2 서브대역 전력 추정치들을 계산하게 하는, 컴퓨터-판독가능 매체.
제 30 항에 있어서,
상기 제 2 잡음 기준은 미분리된 감지된 오디오 신호인, 컴퓨터-판독가능 매체.
제 30 항에 있어서,
상기 제 2 잡음 기준은 상기 소스 신호에 기초하는, 컴퓨터-판독가능 매체.
제 30 항에 있어서,
프로세서에 의해 실행될 경우 그 프로세서로 하여금 복수의 제 2 서브대역 전력 추정치들을 계산하게 하는 상기 명령들은, 프로세서에 의해 실행될 경우 그 프로세서로 하여금,
상기 제 2 복수의 시간-도메인 서브대역 신호들로부터의 정보에 기초하여, 복수의 제 1 잡음 서브대역 전력 추정치들을 계산하게 하고,
상기 제 3 복수의 시간-도메인 서브대역 신호들로부터의 정보에 기초하여, 복수의 제 2 잡음 서브대역 전력 추정치들을 계산하게 하는 명령들을 포함하며,
프로세서에 의해 실행될 경우 그 프로세서로 하여금 복수의 제 2 서브대역 전력 추정치들을 계산하게 하는 상기 명령들은, 그 프로세서에 의해 실행될 경우 그 프로세서로 하여금, 상기 복수의 제 2 서브대역 전력 추정치들의 각각을, (A) 상기 복수의 제 1 잡음 서브대역 전력 추정치들 중 대응하는 제 1 잡음 서브대역 전력 추정치 및 (B) 상기 복수의 제 2 잡음 서브대역 전력 추정치들 중 대응하는 제 2 잡음 서브대역 전력 추정치 중 최대값에 기초하여 계산하게 하는, 컴퓨터-판독가능 매체.
제 29 항에 있어서,
상기 멀티채널 감지된 오디오 신호는 지향성 컴포넌트 및 잡음 컴포넌트를 포함하며,
프로세서에 의해 실행될 경우 그 프로세서로 하여금 공간 선택적 프로세싱 동작을 수행하게 하는 상기 명령들은, 프로세서에 의해 실행될 경우 그 프로세서로 하여금,
상기 소스 신호가 상기 멀티채널 감지된 오디오 신호의 각각의 채널이 포함하는 것보다 더 많은 상기 지향성 컴포넌트의 에너지를 포함하도록, 상기 잡음 컴포넌트의 에너지로부터 상기 지향성 컴포넌트의 에너지를 분리시키게 하는 명령들을 포함하는, 컴퓨터-판독가능 매체.
제 29 항에 있어서,
프로세서에 의해 실행될 경우 그 프로세서로 하여금, 제 1 복수의 시간-도메인 서브대역 신호들을 획득하기 위해 상기 재생된 오디오 신호를 필터링하게 하는 상기 명령들은,
프로세서에 의해 실행될 경우 그 프로세서로 하여금, 상기 제 1 복수의 시간-도메인 서브대역 신호들의 각각을, 상기 재생된 오디오 신호의 대응하는 서브대역의 상기 재생된 오디오 신호의 다른 서브대역들에 대한 이득을 부스팅시킴으로써 획득하게 하는 명령들을 포함하는, 컴퓨터-판독가능 매체.
제 29 항에 있어서,
상기 컴퓨터-판독가능 매체는, 프로세서에 의해 실행될 경우 그 프로세서로 하여금, 상기 복수의 제 1 서브대역 전력 추정치들의 각각에 대해, (A) 상기 제 1 서브대역 전력 추정치와 (B) 상기 복수의 제 2 서브대역 전력 추정치들 중 대응하는 제 2 서브대역 전력 추정치의 비율을 계산하게 하는 명령들을 포함하며,
프로세서에 의해 실행될 경우 그 프로세서로 하여금, 상기 재생된 오디오 신호의 적어도 하나의 주파수 서브대역을 상기 재생된 오디오 신호의 적어도 하나의 다른 주파수 서브대역에 대해 부스팅시키게 하는 상기 명령들은, 프로세서에 의해 실행될 경우 그 프로세서로 하여금, 상기 복수의 제 1 서브대역 전력 추정치들의 각각에 대해, 대응하는 계산된 비율에 기초한 이득 팩터를 상기 재생된 오디오 신호의 대응하는 주파수 서브대역에 적용하게 하는 명령들을 포함하는, 컴퓨터-판독가능 매체.
제 36 항에 있어서,
프로세서에 의해 실행될 경우 그 프로세서로 하여금, 상기 재생된 오디오 신호의 적어도 하나의 주파수 서브대역을 상기 재생된 오디오 신호의 적어도 하나의 다른 주파수 서브대역에 대해 부스팅시키게 하는 상기 명령들은, 프로세서에 의해 실행될 경우 그 프로세서로 하여금, 필터 스테이지들의 캐스캐이드를 사용하여 상기 재생된 오디오 신호를 필터링하게 하는 명령들을 포함하며,
프로세서에 의해 실행될 경우 그 프로세서로 하여금, 상기 복수의 제 1 서브대역 전력 추정치들의 각각에 대해, 상기 이득 팩터를 상기 재생된 오디오 신호의 대응하는 주파수 서브대역에 적용하게 하는 상기 명령들은, 프로세서에 의해 실행될 경우 그 프로세서로 하여금, 상기 이득 팩터를 상기 캐스캐이드의 대응하는 필터 스테이지에 적용하게 하는 명령들을 포함하는, 컴퓨터-판독가능 매체.
제 36 항에 있어서,
프로세서에 의해 실행될 경우 그 프로세서로 하여금, 이득 팩터를 계산하게 하는 상기 명령들은, 프로세서에 의해 실행될 경우 그 프로세서로 하여금,
상기 복수의 제 1 서브대역 전력 추정치들 중 적어도 하나에 대해, 대응하는 상기 이득 팩터의 현재값을 상기 재생된 오디오 신호의 현재 레벨에 기초한 적어도 하나의 한계에 의해 제한하게 하는 명령들을 포함하는, 컴퓨터-판독가능 매체.
제 36 항에 있어서,
프로세서에 의해 실행될 경우 그 프로세서로 하여금, 이득 팩터를 계산하게 하는 상기 명령들은, 프로세서에 의해 실행될 경우 그 프로세서로 하여금, 상기 복수의 제 1 서브대역 전력 추정치들 중 적어도 하나에 대해, 시간에 걸친 대응하는 상기 비율의 값에서의 변화에 따라, 시간에 걸쳐 대응하는 이득 팩터의 값을 평활화하게 하는 명령들을 포함하는, 컴퓨터-판독가능 매체.
재생된 오디오 신호를 프로세싱하기 위한 장치로서,
제 1 복수의 시간-도메인 서브대역 신호들을 획득하기 위해 상기 재생된 오디오 신호를 필터링하는 수단;
상기 제 1 복수의 시간-도메인 서브대역 신호들로부터의 정보에 기초하여, 복수의 제 1 서브대역 전력 추정치들을 계산하는 수단;
소스 신호 및 잡음 기준을 생성하기 위해 멀티채널 감지된 오디오 신호에 대해 공간 선택적 프로세싱 동작을 수행하는 수단;
제 2 복수의 시간-도메인 서브대역 신호들을 획득하기 위해 상기 잡음 기준을 필터링하는 수단;
상기 제 2 복수의 시간-도메인 서브대역 신호들로부터의 정보에 기초하여, 복수의 제 2 서브대역 전력 추정치들을 계산하는 수단; 및
상기 복수의 제 1 서브대역 전력 추정치들로부터의 정보 및 상기 복수의 제 2 서브대역 전력 추정치들로부터의 정보에 기초하여, 상기 재생된 오디오 신호의 적어도 하나의 주파수 서브대역을 상기 재생된 오디오 신호의 적어도 하나의 다른 주파수 서브대역에 대해 부스팅시키는 수단을 포함하는, 재생된 오디오 신호를 프로세싱하기 위한 장치.
제 40 항에 있어서,
재생된 오디오 신호를 프로세싱하기 위한 장치는, 제 3 복수의 시간-도메인 서브대역 신호들을 획득하기 위해 상기 멀티채널 감지된 오디오 신호로부터의 정보에 기초하는 제 2 잡음 기준을 필터링하는 수단을 포함하며,
상기 복수의 제 2 서브대역 전력 추정치들을 계산하는 수단은, 상기 제 3 복수의 시간-도메인 서브대역 신호들로부터의 정보에 기초하여, 상기 복수의 제 2 서브대역 전력 추정치들을 계산하도록 구성되는, 재생된 오디오 신호를 프로세싱하기 위한 장치.
제 41 항에 있어서,
상기 제 2 잡음 기준은 미분리된 감지된 오디오 신호인, 재생된 오디오 신호를 프로세싱하기 위한 장치.
제 41 항에 있어서,
상기 제 2 잡음 기준은 상기 소스 신호에 기초하는, 재생된 오디오 신호를 프로세싱하기 위한 장치.
제 41 항에 있어서,
상기 복수의 제 2 서브대역 전력 추정치들을 계산하는 수단은, (A) 상기 제 2 복수의 시간-도메인 서브대역 신호들로부터의 정보에 기초하여 복수의 제 1 잡음 서브대역 전력 추정치들, 및 (B) 상기 제 3 복수의 시간-도메인 서브대역 신호들로부터의 정보에 기초하여, 복수의 제 2 잡음 서브대역 전력 추정치들을 계산하도록 구성되며,
상기 복수의 제 2 서브대역 전력 추정치들을 계산하는 수단은, 상기 복수의 제 2 서브대역 전력 추정치들의 각각을, (A) 상기 복수의 제 1 잡음 서브대역 전력 추정치들 중 대응하는 제 1 잡음 서브대역 전력 추정치 및 (B) 상기 복수의 제 2 잡음 서브대역 전력 추정치들 중 대응하는 제 2 잡음 서브대역 전력 추정치 중 최대값에 기초하여 계산하도록 구성되는, 재생된 오디오 신호를 프로세싱하기 위한 장치.
제 40 항에 있어서,
상기 멀티채널 감지된 오디오 신호는 지향성 컴포넌트 및 잡음 컴포넌트를 포함하며,
상기 공간 선택적 프로세싱 동작을 수행하는 수단은, 상기 소스 신호가 상기 멀티채널 감지된 오디오 신호의 각각의 채널이 포함하는 것보다 더 많은 상기 지향성 컴포넌트의 에너지를 포함하도록, 상기 잡음 컴포넌트의 에너지로부터 상기 지향성 컴포넌트의 에너지를 분리시키도록 구성되는, 재생된 오디오 신호를 프로세싱하기 위한 장치.
제 40 항에 있어서,
상기 재생된 오디오 신호를 필터링하는 수단은, 상기 제 1 복수의 시간-도메인 서브대역 신호들의 각각을, 상기 재생된 오디오 신호의 대응하는 서브대역의 상기 재생된 오디오 신호의 다른 서브대역들에 대한 이득을 부스팅시킴으로써 획득하도록 구성되는, 재생된 오디오 신호를 프로세싱하기 위한 장치.
제 40 항에 있어서,
상기 재생된 오디오 신호를 프로세싱하기 위한 장치는, 상기 복수의 제 1 서브대역 전력 추정치들의 각각에 대해, (A) 상기 제 1 서브대역 전력 추정치와, (B) 상기 복수의 제 2 서브대역 전력 추정치들 중 대응하는 제 2 서브대역 전력 추정치의 비율에 기초하여 이득 팩터를 계산하는 수단을 포함하며,
상기 부스팅시키는 수단은, 상기 복수의 제 1 서브대역 전력 추정치들의 각각에 대해, 대응하는 상기 계산된 비율에 기초한 이득 팩터를 상기 재생된 오디오 신호의 대응하는 주파수 서브대역에 적용하도록 구성되는, 재생된 오디오 신호를 프로세싱하기 위한 장치.
제 47 항에 있어서,
상기 부스팅시키는 수단은 필터 스테이지들의 캐스캐이드를 포함하며,
상기 부스팅시키는 수단은, 복수의 상기 이득 팩터들의 각각을 상기 캐스캐이드의 대응하는 필터 스테이지에 적용하도록 구성되는, 재생된 오디오 신호를 프로세싱하기 위한 장치.
제 47 항에 있어서,
상기 이득 팩터를 계산하는 수단은, 상기 복수의 제 1 서브대역 전력 추정치들 중 적어도 하나에 대해, 대응하는 상기 이득 팩터의 현재값을 상기 재생된 오디오 신호의 현재 레벨에 기초한 적어도 하나의 한계에 의해 제한하도록 구성되는, 재생된 오디오 신호를 프로세싱하기 위한 장치.
제 47 항에 있어서,
상기 이득 팩터를 계산하는 수단은, 상기 복수의 제 1 서브대역 전력 추정치들 중 적어도 하나에 대해, 시간에 걸친 대응하는 상기 비율의 값에서의 변화에 따라, 시간에 걸쳐 대응하는 상기 이득 팩터의 값을 평활화하도록 구성되는, 재생된 오디오 신호를 프로세싱하기 위한 장치.