KR20110025667A

KR20110025667A - 스펙트럼 콘트라스트 인핸스먼트를 위한 시스템, 방법, 장치, 및 컴퓨터 프로그램 제품

Info

Publication number: KR20110025667A
Application number: KR1020107029470A
Authority: KR
Inventors: 제레미 토맨; 흥 천 린; 에리크 비셔
Original assignee: 퀄컴 인코포레이티드
Priority date: 2008-05-29
Filing date: 2009-05-29
Publication date: 2011-03-10
Also published as: JP2011522294A; WO2009148960A2; JP5628152B2; KR101270854B1; EP2297730A2; CN103247295B; US20090299742A1; US8831936B2; TW201013640A; CN103247295A; WO2009148960A3; CN102047326A

Abstract

멀티채널 감지된 오디오 신호로부터 공간 선택적 프로세싱 필터에 의해 도출되는 노이즈 레퍼런스로부터의 정보에 기초하는, 스피치 신호들의 스펙트럼 콘트라스트 인핸스먼트에 대한 시스템들, 방법들, 및 장치들이 개시된다.

Description

스펙트럼 콘트라스트 인핸스먼트를 위한 시스템, 방법, 장치, 및 컴퓨터 프로그램 제품{SYSTEMS, METHODS, APPARATUS, AND COMPUTER PROGRAM PRODUCTS FOR SPECTRAL CONTRAST ENHANCEMENT}

35 U.S.C.§120 하의 우선권의 주장

본 특허 출원은, 본원의 양수인에게 양도된, 2008년 5월 29일자로 출원된 발명의 명칭이 "SYSTEMS, METHODS, APPARATUS, AND COMPUTER PROGRAM PRODUCTS FOR IMPROVED SPECTRAL CONTRAST ENHANCEMENT OF SPEECH AUDIO IN A DUAL-MICROPHONE AUDIO DEVICE" 인, 관리 번호 080442P1 의 미국 가출원 제 61/057,187 호에 대해 우선권을 주장한다.

공동 계류중인 특허 출원들에 대한 참조

본 특허 출원은, 2008년 11월 24일자로 출원된 발명의 명칭이 "SYSTEMS, METHODS, APPARATUS, AND COMPUTER PROGRAM PRODUCTS FOR ENHANCED INTELLIGIBILITY" 인 Visser 등에 의한, 관리 번호 081737 의 공동 계류중인 미국 특허 출원 제 12/277,283 호에 관련된다.

배경

분야

본 개시는 스피치 프로세싱에 관한 것이다.

배경

조용한 사무실 또는 가정 환경들에서 이전에 수행되었던 다수의 활동들이, 오늘날에는, 자동차, 길거리, 또는 카페와 같은 음향적으로 가변적인 상황들에서 수행되고 있다. 예컨대, 어떤 사람이 음성 통신 채널을 사용하여 다른 사람과 통신하기를 원할 수도 있다. 예컨대, 채널은 모바일 무선 핸드셋 또는 헤드셋, 워키토키, 양방향 무전기, 카킷 (car-kit), 또는 다른 통신 디바이스에 의해 제공될 수도 있다. 결국, 사람들이 모이는 경향이 있는 곳에서 통상적으로 마주치게 되는 종류의 노이즈 컨텐츠와 함께 다른 사람들에 의해 사람들이 둘러싸이는 환경들에서 모바일 디바이스들 (예컨대, 핸드셋들 및/또는 헤드셋들) 을 사용하여 음성 통신의 상당한 양이 발생한다. 그러한 노이즈는 전화 대화의 반대쪽의 사용자를 주의가 산만하게 하거나 또는 짜증나게 하는 경향이 있다. 또한, 다수의 표준 자동화된 비지니스 트랜잭션들 (예컨대, 계정 잔액 또는 주식 동향 체크들) 은 데이터 질의에 기초한 음성 인식을 채용하고, 이들 시스템들의 정확성은 간섭 노이즈에 의해 상당히 저해될 수도 있다.

노이즈 환경들에서 통신이 발생하는 애플리케이션들에 대해, 배경 노이즈로부터 원하는 스피치 신호를 분리시키는 것이 바람직할 수도 있다. 노이즈는 원하는 신호와 간섭하거나 또는 그렇지 않으면 원하는 신호를 저하시키는 모든 신호들의 조합으로서 정의될 수도 있다. 배경 노이즈는, 다른 사람들의 배경 대화들과 같은, 음향 환경 내에서 생성되는 다수의 노이즈 신호들, 뿐만 아니라 그 신호들의 각각으로부터 생성되는 반향들 및 잔향을 포함할 수도 있다. 배경 노이즈로부터 원하는 스피치 신호가 분리되지 않는 한, 원하는 스피치 신호를 신뢰성 있고 효율적이게 사용하는 것은 어려울 수도 있다.

또한, 노이즈 음향 환경은, 전화 대화에서의 반대편 신호와 같은 원하는 재현된 오디오 신호를 마스크하거나 또는 그렇지 않으면 청취하기 어렵게 하는 경향이 있을 수도 있다. 음향 환경은, 통신 디바이스에 의해 재현되고 있는 반대편 신호와 경쟁하는 다수의 제어가능하지 않은 노이즈 소스들을 가질 수도 있다. 그러한 노이즈는 성공적이지 않은 통신 경험을 야기할 수도 있다. 배경 노이즈로부터 반대편 신호가 구별되지 않는 한, 반대편 신호를 신뢰성 있고 효율적이게 사용하는 것은 어려울 수도 있다.

개요

일반적인 구성에 따른 스피치 신호를 프로세싱하는 방법은, 오디오 신호들을 프로세싱하도록 구성된 디바이스를 사용하여, 소스 신호 및 노이즈 레퍼런스를 산출하기 위해, 멀티채널 감지된 오디오 신호에 대해 공간 선택적 프로세싱 동작을 수행하는 단계; 및 프로세싱된 스피치 신호를 산출하기 위해, 스피치 신호에 대해 스펙트럼 콘트라스트 인핸스먼트 동작을 수행하는 단계를 포함한다. 이 방법에서, 스펙트럼 콘트라스트 인핸스먼트 동작을 수행하는 단계는, 노이즈 레퍼런스로부터의 정보에 기초하여, 복수의 노이즈 부대역 전력 추정치들을 계산하는 단계; 스피치 신호로부터의 정보에 기초하여, 인핸스먼트 벡터를 생성하는 단계; 및 복수의 노이즈 부대역 전력 추정치들, 스피치 신호로부터의 정보, 및 인핸스먼트 벡터로부터의 정보에 기초하여, 프로세싱된 스피치 신호를 산출하는 단계를 포함한다. 이 방법에서, 프로세싱된 스피치 신호의 복수의 주파수 부대역들의 각각은 스피치 신호의 대응하는 주파수 부대역에 기초한다.

일반적인 구성에 따라 스피치 신호를 프로세싱하기 위한 장치는, 소스 신호 및 노이즈 레퍼런스를 산출하기 위해, 멀티채널 감지된 오디오 신호에 대해 공간 선택적인 프로세싱 동작을 수행하는 수단, 및 프로세싱된 스피치 신호를 산출하기 위해, 스피치 신호에 대해 스펙트럼 콘트라스트 인핸스먼트 동작을 수행하는 수단을 포함한다. 스피치 신호에 대해 스펙트럼 콘트라스트 인핸스먼트 동작을 수행하는 수단은, 노이즈 레퍼런스로부터의 정보에 기초하여, 복수의 노이즈 부대역 전력 추정치들을 계산하는 수단; 스피치 신호로부터의 정보에 기초하여, 인핸스먼트 벡터를 생성하는 수단; 및 복수의 노이즈 부대역 전력 추정치들, 스피치 신호로부터의 정보, 및 인핸스먼트 벡터로부터의 정보에 기초하여, 프로세싱된 스피치 신호를 산출하는 수단을 포함한다. 이 장치에서, 프로세싱된 스피치 신호의 복수의 주파수 부대역들의 각각은 스피치 신호의 대응하는 주파수 부대역에 기초한다.

다른 일반적인 구성에 따라 스피치 신호를 프로세싱하기 위한 장치는, 소스 신호 및 노이즈 레퍼런스를 산출하기 위해, 멀티채널 감지된 오디오 신호에 대해 공간 선택적 프로세싱 동작을 수행하도록 구성된 공간 선택적 프로세싱 필터, 및 프로세싱된 스피치 신호를 산출하기 위해, 스피치 신호에 대해 스펙트럼 콘트라스트 인핸스먼트 동작을 수행하도록 구성된 스펙트럼 콘트라스트 인핸서를 포함한다. 이 장치에서, 스펙트럼 콘트라스트 인핸서는, 노이즈 레퍼런스로부터의 정보에 기초하여, 복수의 노이즈 부대역 전력 추정치들을 계산하도록 구성된 전력 추정치 계산기, 및 스피치 신호로부터의 정보에 기초하여, 인핸스먼트 벡터를 생성하도록 구성된 인핸스먼트 벡터 생성기를 포함한다. 이 장치에서, 스펙트럼 콘트라스트 인핸서는, 복수의 노이즈 부대역 전력 추정치들, 스피치 신호로부터의 정보, 인핸스먼트 벡터로부터의 정보에 기초하여, 프로세싱된 스피치 신호를 산출하도록 구성된다. 이 장치에서, 프로세싱된 스피치 신호의 복수의 주파수 부대역들의 각각은 스피치 신호의 대응하는 주파수 부대역에 기초한다.

일반적인 구성에 따른 컴퓨터-판독가능 매체는, 적어도 하나의 프로세서에 의해 실행되는 경우에, 그 적어도 하나의 프로세서로 하여금, 멀티채널 오디오 신호를 프로세싱하는 방법을 수행하게 하는 명령들을 포함한다. 이들 명령들은, 프로세서에 의해 실행되는 경우에, 그 프로세서로 하여금, 소스 신호 및 노이즈 레퍼런스를 산출하기 위해, 멀티채널 감지된 오디오 신호에 대해 공간 선택적 프로세싱 동작을 수행하게 하는 명령들; 및 프로세서에 의해 실행되는 경우에, 그 프로세서로 하여금, 프로세싱된 스피치 신호를 산출하기 위해, 스피치 신호에 대해 스펙트럼 콘트라스트 인핸스먼트 동작을 수행하게 하는 명령들을 포함한다. 스펙트럼 콘트라스트 인핸스먼트 동작을 수행하기 위한 명령들은, 노이즈 레퍼런스로부터의 정보에 기초하여, 복수의 노이즈 부대역 전력 추정치들을 계산하기 위한 명령들; 스피치 신호로부터의 정보에 기초하여, 인핸스먼트 벡터를 생성하기 위한 명령들; 및 복수의 노이즈 부대역 전력 추정치들, 스피치 신호로부터의 정보, 및 인핸스먼트 벡터로부터의 정보에 기초하여, 프로세싱된 스피치 신호를 산출하기 위한 명령들을 포함한다. 이 방법에서, 프로세싱된 스피치 신호의 복수의 주파수 부대역들의 각각은 스피치 신호의 대응하는 주파수 부대역에 기초한다.

일반적인 구성에 따라 스피치 신호를 프로세싱하는 방법은, 오디오 신호들을 프로세싱하도록 구성된 디바이스를 사용하여, 스피치 신호의 스펙트럼을 평활화하여, 제 1 평활화된 신호를 획득하는 단계; 제 1 평활화된 신호를 평활화하여, 제 2 평활화된 신호를 획득하는 단계; 및 제 1 및 제 2 평활화된 신호들의 비율에 기초하는 콘트라스트-증대된 스피치 신호를 산출하는 단계를 포함한다. 그러한 방법을 수행하도록 구성된 장치 뿐만 아니라, 적어도 하나의 프로세서에 의해 실행되는 경우에, 그 적어도 하나의 프로세서로 하여금, 그러한 방법을 수행하게 하는 명령들을 갖는 컴퓨터-판독가능 매체도 또한 개시된다.

도면의 간단한 설명

도 1은 조음 지수 (articulation index) 플롯을 도시한다.

도 2는 전형적인 협대역 전화 애플리케이션에서의 재현된 스피치 신호에 대한 전력 스펙트럼을 도시한다.

도 3은 전형적인 스피치 전력 스펙트럼 및 전형적인 노이즈 전력 스펙트럼의 일례를 도시한다.

도 4a는 도 3의 예에 대한 자동 볼륨 제어의 애플리케이션을 예시한다.

도 4b는 도 3의 예에 대한 부대역 등화의 애플리케이션을 예시한다.

도 5는 일반적인 구성에 따른 장치 (A100) 의 블록도를 도시한다.

도 6a는 장치 (A100) 의 구현 (A110) 의 블록도를 도시한다.

도 6b는 장치 (A100) (및 장치 (A110)) 의 구현 (A120) 의 블록도를 도시한다.

도 7은 공간 선택적인 프로세싱 (SSP) 필터 (SS10) 의 일례에 대한 빔 패턴을 도시한다.

도 8a는 SSP 필터 (SS10) 의 구현 (SS20) 의 블록도를 도시한다.

도 8b는 장치 (A100) 의 구현 (A130) 의 블록도를 도시한다.

도 9a는 장치 (A130) 의 구현 (A132) 의 블록도를 도시한다.

도 9b는 장치 (A132) 의 구현 (A134) 의 블록도를 도시한다.

도 10a는 장치 (A130) (및 장치 (A110)) 의 구현 (A140) 의 블록도를 도시한다.

도 10b는 장치 (A140) (및 장치 (A120)) 의 구현 (A150) 의 블록도를 도시한다.

도 11a는 SSP 필터 (SS10) 의 구현 (SS110) 의 블록도를 도시한다.

도 11b는 SSP 필터 (SS20 및 SS110) 의 구현 (SS120) 의 블록도를 도시한다.

도 12는 인핸서 (EN10) 의 구현 (EN100) 의 블록도를 도시한다.

도 13은 스피치 신호의 프레임의 크기 스펙트럼을 도시한다.

도 14는 도 13의 스펙트럼에 대응하는 인핸스먼트 벡터 (EV10) 의 프레임을 도시한다.

도 15 내지 도 18은 스피치 신호의 크기 스펙트럼, 크기 스펙트럼의 평활화된 버전, 크기 스펙트럼의 이중 평활화된 버전, 및 이중 평활화된 스펙트럼에 대한 평활화된 스펙트럼의 비율의 예들을 각각 도시한다.

도 19a는 인핸스먼트 벡터 생성기 (VG100) 의 구현 (VG110) 의 블록도를 도시한다.

도 19b는 인핸스먼트 벡터 생성기 (VG100) 의 구현 (VG120) 의 블록도를 도시한다.

도 20은 도 13의 크기 스펙트럼으로부터 산출된 평활화된 신호의 일례를 도시한다.

도 21은 도 20의 평활화된 신호로부터 산출된 평활화된 신호의 일례를 도시한다.

도 22는 스피치 신호 (S40) 의 프레임에 대한 인핸스먼트 벡터의 일례를 도시한다.

도 23a는 동적 범위 제어 동작들에 대한 전달 함수들의 예들을 도시한다.

도 23b는 삼각형 파형에 대한 동적 범위 압축 동작의 애플리케이션을 도시한다.

도 24a는 동적 범위 압축 동작에 대한 전달 함수의 일례를 도시한다.

도 24b는 삼각형 파형에 대한 동적 범위 압축 동작의 애플리케이션을 도시한다.

도 25는 적응적 등화 동작의 일례를 도시한다.

도 26a는 부대역 신호 생성기 (SG200) 의 블록도를 도시한다.

도 26b는 부대역 신호 생성기 (SG300) 의 블록도를 도시한다.

도 26c는 부대역 신호 생성기 (SG400) 의 블록도를 도시한다.

도 26d는 부대역 전력 추정치 계산기 (EC110) 의 블록도를 도시한다.

도 26e는 부대역 전력 추정치 계산기 (EC120) 의 블록도를 도시한다.

도 27은 7 개의 바크 (Bark) 스케일 부대역들의 세트의 에지들을 표시하는 도트들의 로우를 포함한다.

도 28은 부대역 필터 어레이 (SG10) 의 구현 (SG12) 의 블록도를 도시한다.

도 29a는 일반적인 무한 임펄스 응답 (IIR) 에 대한 전치 직접형 (transposed direct form) II 를 예시한다.

도 29b는 IIR 필터의 바이쿼드 (biquad) 구현에 대한 이전된 직접형 II 구조를 예시한다.

도 30은 IIR 필터의 바이쿼드 구현의 일례에 대한 크기 및 위상 응답 플롯들을 도시한다.

도 31은 7 개의 바이쿼드들의 시리즈에 대한 크기 및 위상 응답들을 도시한다.

도 32는 인핸서 (EN10) 의 구현 (EN110) 의 블록도를 도시한다.

도 33a는 믹싱 계수 계산기 (FC200) 의 구현 (FC250) 의 블록도를 도시한다.

도 33b는 믹싱 계수 계산기 (FC250) 의 구현 (FC260) 의 블록도를 도시한다.

도 33c는 이득 계수 계산기 (FC300) 의 구현 (FC310) 의 블록도를 도시한다.

도 33d는 이득 계수 계산기 (FC300) 의 구현 (FC320) 의 블록도를 도시한다.

도 34a는 의사코드 리스팅을 도시한다.

도 34b는 도 34a의 의사코드 리스팅의 변형을 도시한다.

도 35a 및 도 35b는 도 34a 및 도 34b의 의사코드 리스팅들의 변형들을 각각 도시한다.

도 36a는 이득 제어 엘리먼트 (CE110) 의 구현 (CE115) 의 블록도를 도시한다.

도 36b는 병렬로 배열된 대역통과 필터들의 세트를 포함하는 부대역 필터 어레이 (FA100) 의 구현 (FA110) 의 블록도를 도시한다.

도 37a는 대역통과 필터들이 직렬로 배열된 부대역 필터 어레이 (FA100) 의 구현 (FA120) 의 블록도를 도시한다.

도 37b는 IIR 필터의 바이쿼드 구현의 다른 예를 도시한다.

도 38은 인핸서 (EN10) 의 구현 (EN120) 의 블록도를 도시한다.

도 39는 이득 제어 엘리먼트 (CE120) 의 구현 (CE130) 의 블록도를 도시한다.

도 40a는 장치 (A100) 의 구현 (A160) 의 블록도를 도시한다.

도 40b는 장치 (A140) (및 장치 (A165)) 의 구현 (A165) 의 블록도를 도시한다.

도 41은 도 35a의 의사코드 리스팅의 변형을 도시한다.

도 42는 도 35a의 의사코드 리스팅의 다른 변형을 도시한다.

도 43a는 장치 (A100) 의 구현 (A170) 의 블록도를 도시한다.

도 43b는 장치 (A170) 의 구현 (A180) 의 블록도를 도시한다.

도 44는 피크 제한기 (L10) 를 포함하는 인핸서 (EN110) 의 구현 (EN160) 의 블록도를 도시한다.

도 45a는 피크 제한 동작의 일례를 설명하는 의사코드 리스팅을 도시한다.

도 45b는 도 45a의 의사코드 리스팅의 다른 버전을 도시한다.

도 46은 분리 평가기 (EV10) 를 포함하는 장치 (A100) 의 구현 (A200) 의 블록도를 도시한다.

도 47은 장치 (A200) 의 구현 (A210) 의 블록도를 도시한다.

도 48은 인핸서 (EN200) 및 (인핸서 (EN110)) 의 구현 (EN300) 의 블록도를 도시한다.

도 49는 인핸서 (EN300) 의 구현 (EN310) 의 블록도를 도시한다.

도 50은 인핸서 (EN300) (및 인핸서 (EN310)) 의 구현 (EN320) 의 블록도를 도시한다.

도 51a는 부대역 신호 생성기 (EC210) 의 블록도를 도시한다.

도 51b는 부대역 신호 생성기 (EC210) 의 구현 (EC220) 의 블록도를 도시한다.

도 52는 인핸서 (EN320) 의 구현 (EN330) 의 블록도를 도시한다.

도 53은 인핸서 (EN110) 의 구현 (EN400) 의 블록도를 도시한다.

도 54는 인핸서 (EN110) 의 구현 (EN450) 의 블록도를 도시한다.

도 55는 장치 (A100) 의 구현 (A250) 의 블록도를 도시한다.

도 56은 인핸서 (EN450) (및 인핸서 (EN400)) 의 구현 (EN460) 의 블록도를 도시한다.

도 57은 음성 활동 검출기 (V20) 를 포함하는 장치 (A210) 의 구현 (A230) 을 도시한다.

도 58a는 인핸서 (EN400) 의 구현 (EN55) 의 블록도를 도시한다.

도 58b는 전력 추정치 계산기 (EC120) 의 구현 (EC125) 의 블록도를 도시한다.

도 59는 장치 (A100) 의 구현 (A300) 의 블록도를 도시한다.

도 60은 장치 (A300) 의 구현 (A310) 의 블록도를 도시한다.

도 61은 장치 (A310) 의 구현 (A320) 의 블록도를 도시한다.

도 62는 장치 (A100) 의 구현 (A400) 의 블록도를 도시한다.

도 63은 장치 (A100) 의 구현 (A500) 의 블록도를 도시한다.

도 64a는 오디오 프리프로세서 (AP10) 의 구현 (AP20) 의 블록도를 도시한다.

도 64b는 오디오 프리프로세서 (AP20) 의 구현 (AP30) 의 블록도를 도시한다.

도 65는 장치 (A310) 의 구현 (A330) 의 블록도를 도시한다.

도 66a는 에코 제거기 (EC10) 의 구현 (EC12) 의 블록도를 도시한다.

도 66b는 에코 제거기 (EC20a) 의 구현 (EC22a) 의 블록도를 도시한다.

도 66c는 장치 (A110) 의 구현 (A600) 의 블록도를 도시한다.

도 67a는 제 1 동작 구성에서의 2-마이크로폰 핸드셋 (H100) 의 도면을 도시한다.

도 67b는 핸드셋 (H100) 의 제 2 동작 구성을 도시한다.

도 68a는 3 개의 마이크로폰들을 포함하는 핸드셋 (H100) 의 구현 (H110) 의 도면을 도시한다.

도 68b는 핸드셋 (H110) 의 2 개의 다른 뷰들을 도시한다.

도 69a 내지 도 69d는 멀티-마이크로폰 오디오 감지 디바이스 (D300) 의 저면 뷰, 상면 뷰, 전면 뷰, 및 측면 뷰를 각각 도시한다.

도 70a는 해드셋의 상이한 동작 구성들의 범위의 도면을 도시한다.

도 70b는 핸즈-프리 카킷의 도면을 도시한다.

도 71a 내지 도 71d는 멀티-마이크로폰 오디오 감지 디바이스 (D350) 의 저면 뷰, 상면 뷰, 전면 뷰, 및 측면 뷰를 각각 도시한다.

도 72a 내지 도 72c는 매체 재생 디바이스들의 예들을 도시한다.

도 73a는 통신 디바이스 (D100) 의 블록도를 도시한다.

도 73b는 통신 디바이스 (D100) 의 구현 (D200) 의 블록도를 도시한다.

도 74a는 보코더 (VC10) 의 블록도를 도시한다.

도 74b는 인코더 (ENC100) 의 구현 (ENC110) 의 블록도를 도시한다.

도 75a는 설계 방법 (M10) 의 플로우차트를 도시한다.

도 75b는 트레이닝 데이터의 레코딩을 위해 구성된 음향 무향 (anechoic) 챔버의 일례를 도시한다.

도 76a는 적응적 필터 구조 (FS10) 의 2-채널 예의 블록도를 도시한다.

도 76b는 필터 구조 (FS10) 의 구현 (FS20) 의 블록도를 도시한다.

도 77은 무선 전화 시스템을 예시한다.

도 78은 패킷-교환 데이터 통신들을 지원하도록 구성된 무선 전화 시스템을 예시한다.

도 79a는 일반적인 구성에 따른 방법 (M100) 의 플로우차트를 도시한다.

도 79b는 방법 (M100) 의 구현 (M110) 의 플로우차트를 도시한다.

도 80a는 방법 (M100) 의 구현 (M120) 의 플로우차트를 도시한다.

도 80b는 태스크 (T130) 의 구현 (T230) 의 플로우차트를 도시한다.

도 81a는 태스크 (T140) 의 구현 (T240) 의 플로우차트를 도시한다.

도 81b는 태스크 (T240) 의 구현 (T340) 의 플로우차트를 도시한다.

도 81c는 방법 (M110) 의 구현 (M130) 의 플로우차트를 도시한다.

도 82a는 방법 (M100) 의 구현 (M140) 의 플로우차를 도시한다.

도 82b는 일반적인 구성에 따른 방법 (M200) 의 플로우차트를 도시한다.

도 83a는 일반적인 구성에 따른 장치 (F100) 의 블록도를 도시한다.

도 83b는 장치 (F100) 의 구현 (F110) 의 블록도를 도시한다.

도 84a는 장치 (F100) 의 구현 (F120) 의 블록도를 도시한다.

도 84b는 수단 (G130) 의 구현 (G230) 의 블록도를 도시한다.

도 85a는 수단 (G140) 의 구현 (G240) 의 블록도를 도시한다.

도 85b는 수단 (G240) 의 구현 (G340) 의 블록도를 도시한다.

도 85c는 장치 (F110) 의 구현 (F130) 의 블록도를 도시한다.

도 86a는 장치 (F100) 의 구현 (F140) 의 블록도를 도시한다.

도 86b는 일반적인 구성에 따른 장치 (F200) 의 블록도를 도시한다.

이들 도면들에서, 동일한 라벨의 사용들은, 컨텍스트가 다르게 지시하지 않는 한, 동일한 구조의 예들을 표시한다.

상세한 설명

모바일 환경에서 스피치 신호에 영향을 미치는 노이즈는, 경쟁하는 화자들, 음악, 배블 (babble), 길거리의 노이즈, 및/또는 공항의 노이즈와 같은 다양한 상이한 컴포넌트들을 포함할 수도 있다. 그러한 노이즈가 통상적으로 비정적이고 스피치 신호의 주파수 시그너처에 근접하므로, 노이즈는 종래의 단일의 마이크로폰 또는 고정된 빔포밍 (beamforming) 타입 방법들을 사용하여 모델링하기에는 어려울 수도 있다. 통상적으로, 단일의 마이크로폰 노이즈 감소 기술들은 최적의 성능을 달성하기 위해 상당한 파라미터 튜닝을 요구한다. 예컨대, 그러한 경우들에서 적합한 노이즈 레퍼런스는 직접적으로 이용가능하지 않을 수도 있고, 노이즈 레퍼런스를 간접적으로 도출할 필요가 있을 수도 있다. 따라서, 다수의 마이크로폰 기반 진보된 신호 프로세싱이 노이즈 환경들에서 음성 통신들에 대한 모바일 디바이스들의 사용을 지원하는 것이 바람직할 수도 있다. 일 특정한 예에서, 노이즈 환경에서 스피치 신호가 감지되고, 환경 노이즈 (또한, "배경 노이즈" 또는 "주변 노이즈" 라 호칭됨) 로부터 스피치 신호를 분리시키기 위해 스피치 프로세싱 방법들이 사용된다. 다른 특정한 예에서, 노이즈 환경에서 스피치 신호가 재현되고, 환경 노이즈로부터 스피치 신호를 분리시키기 위해 스피치 프로세싱 방법들이 사용된다. 실세계 컨디션들에서 거의 항상 노이즈가 존재하므로, 일상의 통신의 다수의 영역들에서 스피치 신호 프로세싱은 중요하다.

여기서 설명되는 시스템들, 방법들, 및 장치는, 특히 노이즈 환경에서, 감지된 스피치 신호 및/또는 재현된 스피치 신호의 증가된 명료도 (intelligibility) 를 지원하기 위해 사용될 수도 있다. 일반적으로, 그러한 기술들은, 임의의 레코딩, 오디오 감지, 송수신, 및/또는 오디오 재현 애플리케이션, 특히 그러한 애플리케이션들의 모바일 또는 다른 휴대용 예들에서 적용될 수도 있다. 예컨대, 여기서 개시되는 구성들의 범위는 코드-분할-다중-접속 (CDMA) 오버-더-에어 (over-the-air) 인터페이스를 채용하도록 구성된 무선 전화 통신 시스템에서 상주하는 통신 디바이스들을 포함한다. 그럼에도 불구하고, 여기서 설명되는 바와 같은 특징들을 갖는 방법 및 장치가 유선 및/또는 무선 (예컨대, CDMA, TDMA, FDMA, TD-SCDMA, 또는 OFDM) 송신 채널들을 통한 보이스 오버 IP (VoIP) 를 채용하는 다양한 통신 시스템들 중 임의의 시스템에서 상주할 수도 있다는 것이 당업자에 의해 이해될 것이다.

컨텍스트에 의해 명백하게 한정되지 않는 한, 여기서 "신호" 라는 용어는, 와이어, 버스, 또는 다른 송신 매체 상에서 표현되는 바와 같은 메모리 위치 (또는 메모리 위치들의 세트) 의 상태를 포함하는 그 용어의 평범한 의미들 중 임의의 의미를 나타내기 위해 사용된다. 컨텍스트에 의해 명백하게 한정되지 않는 한, 여기서 "생성하는" 이라는 용어는, 연산 또는 다르게는 산출과 같은 그 용어의 평범한 의미들 중 임의의 의미를 나타내기 위해 사용된다. 컨텍스트에 의해 명백하게 한정되지 않는 한, "계산하는" 이라는 용어는, 연산, 평가, 평활화, 및/또는 복수의 값들로부터의 선택과 같은 그 용어의 평범한 의미들 중 임의의 의미를 나타내기 위해 사용된다. 컨텍스트에 의해 명백하게 한정되지 않는 한, "획득하는" 이라는 용어는, 계산, 도출, (예컨대, 외부 디바이스로부터의) 수신, 및/또는 (예컨대, 저장 엘리먼트들의 어레이로부터의) 검색과 같은 그 용어의 평범한 의미들 중 임의의 의미를 나타내기 위해 사용된다. 본 설명 및 청구의 범위에서 "포함하는" 이라는 용어가 사용되는 경우에, 이는 다른 엘리먼트들 또는 동작들을 배제하지 않는다. ("A 가 B 에 기초한다" 에서와 같은 "기초하는" 이라는 용어는, (i) (예컨대, "B 가 A 의 전구체이다" 와 같은) "로부터 도출된", (ii) (예컨대, "A 가 적어도 B 에 기초한다" 와 같은) "적어도 기초하는", 및 특정한 컨텍스트에서 적절한 경우에, (iii) (예컨대, "A 가 B 와 동등하다" 와 같은) "동등하다" 의 경우들을 포함하는 그 평범한 의미들 중 임의의 의미를 나타내기 위해 사용된다. 유사하게, "응답하여" 라는 용어는, "적어도 응답하여" 를 포함하는 그 평범한 의미들 중 임의의 의미를 나타내기 위해 사용된다.

다르게 나타내지 않는 한, 특정한 특징을 갖는 장치의 동작의 임의의 개시는 유사한 특징을 갖는 방법을 개시하도록 명백하게 의도되고 (그 반대도 마찬가지), 특정한 구성에 따른 장치의 동작의 임의의 개시는 또한 유사한 구성에 따른 방법을 개시하도록 명백하게 의도된다 (그 반대도 마찬가지). "구성" 이라는 용어는 그 특정한 컨텍스트에 의해 나타내는 바와 같이 방법, 장치, 및/또는 시스템에 관련하여 사용될 수도 있다. "방법", "프로세스", "절차", 및 "기술" 이라는 용어들은 특정한 컨텍스트에 의해 다르게 나타내지 않는 한 일반적으로 그리고 교환가능하게 사용된다. "장치" 및 "디바이스" 라는 용어들은 특정한 컨텍스트에 의해 다르게 나타내지 않는 한 일반적으로 그리고 교환가능하게 또한 사용된다. 통상적으로, "엘리먼트" 및 "모듈" 이라는 용어들은 더 큰 구성의 일부를 나타내기 위해 사용된다. 그 컨텍스트에 의해 명백하게 제한되지 않는 한, 여기서 "시스템" 이라는 용어는 "공통 목적을 기능하기 위해 상호작용하는 엘리먼트들의 그룹" 을 포함하는 그 평범한 의미들 중 임의의 것을 나타내기 위해 사용된다. 문헌의 일부의 참조에 의한 임의의 통합은 그 부분 내에서 참조되는 용어들 또는 변수들의 정의들을 통합하는 것으로 이해될 것이고, 그러한 정의들은 문헌의 다른 곳뿐만 아니라 통합된 부분에서 참조된 임의의 도면들에서 나타난다.

"코더", "코덱", 및 "코딩 시스템" 이라는 용어들은, (가능하게는, 지각 가중화 및/또는 다른 필터링 동작과 같은 하나 이상의 프리-프로세싱 동작들 이후에) 오디오 신호의 프레임들을 수신 및 인코딩하도록 구성된 적어도 하나의 인코더, 및 인코딩된 프레임들을 수신하고 프레임들의 대응하는 디코딩된 표현들을 산출하도록 구성된 대응하는 디코더를 포함하는 시스템을 나타내기 위해 교환가능하게 사용된다. 통상적으로, 그러한 인코더 및 디코더는 통신 링크의 대향하는 단말기들에서 배치된다. 풀-듀플렉스 통신을 지원하기 위해, 통상적으로, 인코더 및 디코더의 인스턴스들은 그러한 링크의 각각의 엔드에서 배치된다.

이 설명에서, "감지된 오디오 신호" 라는 용어는 하나 이상의 마이크로폰들을 통해 수신된 신호를 나타낸다. 통신 또는 레코딩 디바이스와 같은 오디오 감지 디바이스는, 감지된 오디오 신호에 기초하여 신호를 저장하고/하거나, 유선 또는 무선으로 오디오 전송 디바이스에 커플링된 하나 이상의 다른 디바이스들에 그러한 신호를 출력하도록 구성될 수도 있다.

이 설명에서, "재현된 오디오 신호" 라는 용어는, 저장소로부터 검색되고/되거나 다른 디바이스로의 유선 또는 무선 접속을 통해 수신된 정보로부터 재현된 신호를 나타낸다. 통신 또는 재생 디바이스와 같은 오디오 재현 디바이스는 재현된 오디오 신호를 디바이스의 하나 이상의 라우드스피커들에 출력하도록 구성될 수도 있다. 다르게는, 그러한 디바이스는, 유선 또는 무선으로 디바이스에 커플링된 이어피스, 다른 헤드셋, 또는 외부 라우드스피커에 재현된 오디오 신호를 출력하도록 구성될 수도 있다. 전화와 같은 음성 통신에 대한 송수신기 애플리케이션들을 참조하면, 감지된 오디오 신호는 송수신기에 의해 송신될 근단 (near-end) 신호이고, 재현된 오디오 신호는 (예컨대, 유선 및/또는 무선 통신 링크를 통해) 송수신기에 의해 수신된 원단 (far-end) 신호이다. 레코딩된 뮤직 또는 스피치 (예컨대, MP3들, 오디오북들, 포드캐스트들) 의 재생 또는 그러한 컨텐츠의 스트리밍과 같은 이동 오디오 재현 애플리케이션들을 참조하면, 재현된 오디오 신호는 재생 또는 스트리밍되는 오디오 신호이다.

스피치 신호의 명료도는 신호의 스펙트럼 특성들에 관련하여 변할 수도 있다. 예컨대, 도 1의 조음 지수 플롯은 스피치 명료도에 대한 상대적인 기여가 오디오 주파수에 따라 어떻게 변하는지를 도시한다. 이 플롯은 1 ㎑ 와 4 ㎑ 사이의 주파수 컴포넌트들이 명료도에 대해 특히 중요하며, 2 ㎑ 근방에서 상대적인 중요도가 절정에 달하는 것을 예시한다.

도 2는 전화 애플리케이션의 통상적인 협대역 채널을 통해 송신되고/되거나 수신되는 바와 같은 스피치 신호에 대한 전력 스펙트럼을 도시한다. 이 도면은 주파수가 500 ㎐ 위로 증가함에 따라 그러한 신호의 에너지가 급격하게 감소하는 것을 예시한다. 그러나, 도 1에서 도시된 바와 같이, 4 ㎑ 까지의 주파수들은 스피치 명료도에 대해 매우 중요할 수도 있다. 따라서, 그러한 전화 애플리케이션에서 스피치 신호의 명료도를 개선하기 위해, 500 ㎐ 와 4000 ㎐ 사이의 주파수 대역들에서의 인공적으로 부스트 (boost) 시킨 에너지들이 예상될 수도 있다.

일반적으로 4 ㎑ 위의 오디오 주파수들은 1 ㎑ 내지 4 ㎑ 대역 만큼 명료도에 대해 중요하지 않으므로, 통상적인 대역-제한된 통신 채널을 통해 협대역 신호를 송신하는 것은 일반적으로 명료한 대화를 하기에 충분하다. 그러나, 통신 채널이 광대역 신호의 송신을 지원하는 경우들에 대해, 개인적인 스피치 특성들의 증가된 명확성 및 더 우수한 통신이 예상될 수도 있다. 음성 전화 컨텍스트에서, "협대역" 이라는 용어는 약 0-500 ㎐ (예컨대, 0, 50, 100, 또는 200 ㎐) 로부터 약 3-5 ㎑ (예컨대, 3500, 4000, 또는 4500 ㎐) 까지의 주파수 범위를 지칭하며, "광대역" 이라는 용어는 약 0-500 ㎐ (예컨대, 0, 50, 100, 또는 200 ㎐) 로부터 약 7-8 ㎑ (예컨대, 7000, 7500, 또는 8000 ㎐) 까지의 주파수 범위를 지칭한다.

스피치 신호의 선택된 부분들을 부스트시킴으로써 스피치 명료도를 증가시키는 것이 바람직할 수도 있다. 보청기 애플리케이션들에서, 예컨대, 재현되는 오디오 신호에서 특정한 주파수 부대역들을 부스트시킴으로써 특정한 주파수 부대역들에서의 알려져 있는 청각 손실에 대해 보상하기 위해 동적 범위 압축 기술들이 사용될 수도 있다.

실세계에는 종종 다수의 사운드들로 벗어나서 잔향을 발생시키는, 단일의 포인트 노이즈 소스들을 포함하는, 다수의 노이즈 소스들이 많다. 배경 음향 노이즈는, 일반적인 환경에 의해 생성되는 다수의 노이즈 신호들, 및 다른 사람들의 배경 대화들에 의해 생성되는 간섭 신호들, 뿐만 아니라 신호들의 각각으로부터 생성되는 반향들 및 잔향을 포함할 수도 있다.

환경 노이즈는, 근단 스피치 신호와 같은 감지된 오디오 신호 및/또는 원단 스피치 신호와 같은 재현된 오디오 신호의 명료도에 영향을 미칠 수도 있다. 노이즈 환경들에서 통신이 발생하는 애플리케이션들에 대해, 배경 노이즈로부터 스피치 신호를 구별하고 그 스피치 신호의 명료도를 증대시키기 위한 스피치 프로세싱 방법을 사용하는 것이 바람직할 수도 있다. 실세계 컨디션들에서 노이즈는 거의 항상 존재하므로, 그러한 프로세싱은 일상의 통신의 다수의 영역들에서 중요할 수도 있다.

자동 이득 제어 (AGC, 또한 자동 볼륨 제어 또는 AVC 라고도 또한 호칭됨) 는 노이즈 환경에서 감지되거나 또는 재현되는 오디오 신호의 명료도를 증가시키기 위해 사용될 수도 있는 프로세싱 방법이다. 자동 이득 기술은 신호의 동적 범위를 제한된 진폭 대역으로 압축하고, 그에 의해, 저 전력을 갖는 신호의 세그먼트들을 부스트시키고 고 전력을 갖는 세그먼트들에서의 에너지를 감소시키기 위해 사용될 수도 있다. 도 3은, 자연 (natural) 스피치 전력 롤-오프 (roll-off) 가 전력으로 하여금 주파수에 따라 감소하게 하는 통상적인 스피치 전력 스펙트럼, 및 적어도 스피치 주파수들의 범위에 걸쳐 전력이 일반적으로 일정한 통상적인 노이즈 전력 스펙트럼의 예를 도시한다. 그러한 경우에서, 스피치 신호의 고-주파수 컴포넌트들은 노이즈 신호의 대응하는 컴포넌트들보다 더 적은 에너지를 가져서, 고-주파수 스피치 대역들의 마스킹을 발생시킬 수도 있다. 도 4a는 그러한 예에 대한 AVC 의 적용을 예시한다. 본 도면에서 도시되는 바와 같이, 통상적으로, AVC 모듈은 스피치 신호의 모든 주파수 대역들을 구별 없이 부스트시키도록 구현된다. 그러한 접근법은 고-주파수 전력에서의 소규모의 부스트에 대해 증폭된 신호의 큰 동적 범위를 요구할 수도 있다.

일반적으로 고 주파수 대역들에서의 스피치 전력이 저 주파수 대역들에서보다 훨씬 더 작으므로, 통상적으로 배경 노이즈는 저 주파수 컨텐츠보다 고 주파수 스피치 컨텐츠를 훨씬 더 신속하게 드로우닝 (drown) 한다. 따라서, 신호의 전체 볼륨을 단순히 부스트시키는 것은 명료도에 상당히 기여하지 않을 수도 있는 1 ㎑ 아래의 저 주파수 컨텐츠를 불필요하게 부스트시킬 것이다. 대신에, 오디오 주파수 부대역 전력을 조정하여 스피치 신호에 대한 노이즈 마스킹 효과들을 보상하는 것이 바람직할 수도 있다. 예컨대, 노이즈-스피치 부대역 전력의 비율에 반비례하게 스피치 전력을 부스트시키고 고 주파수 부대역들에서 불균형하게 그렇게 행하여, 고 주파수들을 향하는 스피치 전력의 고유의 롤-오프를 보상하는 것이 바람직할 수도 있다.

환경 노이즈에 의해 지배되는 주파수 부대역들에서 저 음성 전력을 보상하는 것이 바람직할 수도 있다. 도 4b에서 도시된 바와 같이, 예컨대, (예컨대, 스피치-노이즈 비율에 따라) 스피치 신호의 상이한 부대역들에 상이한 이득 부스트들을 적용함으로써 명료도를 부스트시키도록 선택된 부대역들에 대해 작용하는 것이 바람직할 수도 있다. 도 4a에서 도시된 AVC 예와 다르게, 그러한 등화는 저-주파수 컴포넌트들의 불필요한 부스트를 회피하면서 더 명확하고 더 명료한 신호를 제공하리라 예상될 수도 있다.

그러한 방식으로 스피치 전력을 선택적으로 부스트시키기 위해, 환경 노이즈 레벨의 신뢰성 있고 동시에 발생하는 (contemporaneous) 추정치를 획득하는 것이 바람직할 수도 있다. 특정한 애플리케이션들에서, 그러나, 종래의 단일의 마이크로폰 또는 고정된 빔포밍 타입 방법들을 사용하여, 감지된 오디오 신호로부터 환경 노이즈를 모델링하는 것은 어려울 수도 있다. 도 3이 주파수에 따라 일정한 노이즈 레벨을 제안하지만, 통상적으로, 통신 디바이스 또는 미디어 재생 디바이스의 실제의 애플리케이션은 시간 및 주파수 양자에 걸쳐 상당히 그리고 급격하게 변한다.

통상적인 환경에서의 음향 노이즈는 배블 노이즈, 공항 노이즈, 길거리 노이즈, 경쟁하는 화자들의 음성들, 및/또는 간섭 소스들 (예컨대, TV 세트 또는 라디오) 로부터의 사운드들을 포함할 수도 있다. 결국, 그러한 노이즈는 통상적으로 비정적이고 사용자의 자신의 음성의 평균 스펙트럼에 근접한 평균 스펙트럼을 가질 수도 있다. 일반적으로, 단일의 마이크로폰 신호로부터 연산된 바와 같은 노이즈 전력 레퍼런스 신호는 근사 정적 노이즈 추정치일 뿐이다. 또한, 그러한 연산은 일반적으로 노이즈 전력 추정 지연을 수반하여, 부대역 이득들의 대응하는 조정들이 상당한 지연 이후에만 수행될 수 있게 한다. 환경 노이즈의 신뢰성 있고 동시에 발생하는 추정치를 획득하는 것이 바람직할 수도 있다.

도 5는 공간 선택적인 프로세싱 필터 (SS10) 및 스펙트럼 콘트라스트 인핸서 (EN10) 를 포함하는 일반적인 구성에 따라 오디오 신호들 (A100) 을 프로세싱하도록 구성된 장치의 블록도를 도시한다. 공간 선택적인 프로세싱 (SSP) 필터 (SS10) 는 M-채널 감지된 오디오 신호 (S10) (M 은 1 보다 더 큰 정수) 에 대해 공간 선택적인 프로세싱 동작을 수행하여 소스 신호 (S20) 및 노이즈 레퍼런스 (S30) 를 산출하도록 구성된다. 인핸서 (EN10) 는 노이즈 레퍼런스 (S30) 로부터의 정보에 기초하여 스피치 신호 (S40) 의 스펙트럼 특성들을 동적으로 변경하여 프로세싱된 스피치 신호 (S50) 를 산출하도록 구성된다. 예컨대, 인핸서 (EN10) 는 노이즈 레퍼런스 (S30) 로부터의 정보를 사용하여 스피치 신호 (S40) 의 적어도 하나의 다른 주파수 부대역에 관련된 스피치 신호 (S40) 의 적어도 하나의 주파수 부대역을 부스트 및/또는 감쇠시켜서 프로세싱된 스피치 신호 (S50) 를 산출하도록 구성될 수도 있다.

장치 (A100) 는 스피치 신호 (S40) 가 재현된 오디오 신호 (예컨대, 원단 신호) 이도록 구현될 수도 있다. 다르게는, 장치 (A100) 는 스피치 신호 (S40) 가 감지된 오디오 신호 (예컨대, 근단 신호) 이도록 구현될 수도 있다. 예컨대, 장치 (A100) 는 스피치 신호 (S40) 가 멀티채널 감지된 오디오 신호 (S10) 에 기초하도록 구현될 수도 있다. 도 6a는 인핸서 (EN10) 가 소스 신호 (S20) 를 스피치 신호 (S40) 로서 수신하도록 배열된 장치 (A100) 의 그러한 구현 (A110) 의 블록도를 도시한다. 도 6b는 인핸서 (EN10) 의 2 개의 예들 (EN10a 및 EN10b) 을 포함하는 장치 (A100) (및 장치 (A110)) 의 다른 구현 (A120) 의 블록도를 도시한다. 이 예에서, 인핸서 (EN10a) 는 스피치 신호 (S40) (예컨대, 원단 신호) 를 프로세싱하여 프로세싱된 스피치 신호 (S50a) 를 산출하도록 배열되며, 인핸서 (EN10a) 는 소스 신호 (S20) (예컨대, 근단 신호) 를 프로세싱하여 프로세싱된 스피치 신호 (S50b) 를 산출하도록 배열된다.

장치 (A100) 의 통상적인 애플리케이션에서, 감지된 오디오 신호 (S10) 의 각각의 채널은 M 개의 마이크로폰들의 어레이 중 대응하는 하나로부터의 신호에 기초하며, M 은 1 보다 더 큰 값을 갖는 정수이다. 마이크로폰들의 그러한 어레이를 갖는 장치 (A100) 의 구현을 포함하도록 구현될 수도 있는 오디오 감지 디바이스들의 예들은 보청기들, 통신 디바이스들, 레코딩 디바이스들, 및 오디오 또는 시청각 재생 디바이스들을 포함한다. 그러한 통신 디바이스들의 예들은 전화 세트들 (예컨대, 코드 또는 코드리스 전화기들, 셀룰러 전화 핸드셋들, USB (Universal Serial Bus) 핸드셋들), 유선 및/또는 무선 헤드셋들 (예컨대, 블루투스 헤드셋들), 및 핸즈-프리 카킷들을 이에 한정되지 않게 포함한다. 그러한 레코딩 디바이스들의 예들은 핸드헬드 오디오 및/또는 비디오 레코더들 및 디지털 카메라들을 이에 한정되지 않게 포함한다. 그러한 오디오 또는 시청각 디바이스들의 예들은 스트리밍 또는 프리레코딩된 오디오 또는 시청각 컨텐츠를 재현하도록 구성된 미디어 플레이어들을 이에 한정되지 않게 포함한다. 마이크로폰들의 그러한 어레이를 갖는 장치 (A100) 의 구현을 포함하도록 구현될 수도 있고, 통신, 레코딩, 및/또는 오디오 또는 시청각 재생 동작들을 수행하도록 구성될 수도 있는 오디오 감지 디바이스들의 다른 예들은 개인용 정보 단말 (PDA) 들 및 다른 핸드헬드 연산 디바이스들; 네트북 컴퓨터들, 노트북 컴퓨터들, 랩톱 컴퓨터들, 및 다른 휴대용 연산 디바이스들; 및 데스크톱 컴퓨터들 및 워크스테이션들을 포함한다.

M 개의 마이크로폰들의 어레이는 음향 신호들을 수신하도록 구성된 2 개의 마이크로폰들 (예컨대, 스테레오 어레이), 또는 2 개보다 더 많은 마이크로폰들을 갖도록 구현될 수도 있다. 어레이의 각각의 마이크로폰은 전방향성, 양방향성, 또는 단방향성 (예컨대, 카디오이드) 인 응답을 가질 수도 있다. 사용될 수도 있는 마이크로폰들의 다양한 타입들은 압전 마이크로폰들, 동적 마이크로폰들, 및 일렉트리트 (electret) 마이크로폰들을 (한정되지 않게) 포함한다. 핸드셋 또는 헤드셋과 같은 휴대용 음성 통신을 위한 디바이스에서, 통상적으로, 그러한 어레이의 인접한 마이크로폰들 사이의 중심-중심 간격은 약 1.5 ㎝ 에서 약 4.5 ㎝ 까지의 범위 내에 있지만, 핸드셋과 같은 디바이스에서는 (예컨대, 10 ㎝ 또는 15 ㎝ 까지의) 더 큰 간격이 또한 가능하다. 보청기에서, 그러한 어레이의 인접한 마이크로폰들 사이의 중심-중심 간격은 약 4 또는 5 ㎜ 만큼 작을 수도 있다. 그러한 어레이의 마이크로폰들은 라인을 따라 배열될 수도 있거나, 또는 다르게는, 그 마이크로폰들의 중심들이 2-차원 (예컨대, 삼각형) 또는 3-차원 형상의 꼭짓점들에 놓이도록 배열될 수도 있다.

어레이의 마이크로폰들에 의해 산출된 신호들에 대해 하나 이상의 프리프로세싱 동작들을 수행함으로써, 감지된 오디오 신호 (S10) 를 획득하는 것이 바람직할 수도 있다. 그러한 프리프로세싱 동작들은 감지된 오디오 신호 (S10) 를 획득하기 위해, 샘플링, (예컨대, 에코 제거, 노이즈 감소, 스펙트럼 형상화 등에 대한) 필터링, 및 가능하게는 (예컨대, 여기서 설명되는 바와 같은 다른 SSP 필터 또는 적응적 필터에 의한) 프리-분리를 포함할 수도 있다. 스피치와 같은 음향 애플리케이션들에 대해, 통상적인 샘플링 레이트들은 8 ㎑ 에서 16 ㎑ 까지의 범위를 갖는다. 다른 통상적인 프리프로세싱 동작들은 아날로그 및/또는 디지털 도메인들에서의 임피던스 매칭, 이득 제어, 및 필터링을 포함한다.

공간 선택적인 프로세싱 (SSP) 필터 (SS10) 는 감지된 오디오 신호 (S10) 에 대해 공간 선택적인 프로세싱 동작을 수행하여 소스 신호 (S20) 및 노이즈 레퍼런스 (S30) 를 산출하도록 구성된다. 그러한 동작은 오디오 감지 디바이스와 특정한 사운드 소스 사이의 거리를 결정하여, 노이즈를 감소시키고/시키거나 특정한 방향으로부터 도달하는 신호 컴포넌트들을 증대시키고/시키거나 다른 환경 사운드들로부터 하나 이상의 사운드 컴포넌트들을 분리시키도록 설계될 수도 있다. 그러한 공간 프로세싱 동작들의 예들은 2008년 8월 25일자로 출원된 발명의 명칭이 "SYSTEMS, METHODS, AND APPARATUS FOR SIGNAL SEPARATION" 인 미국 특허 출원 제 12/197,924 호, 및 2008년 11월 24일자로 출원된 발명의 명칭이 "SYSTEMS, METHODS, APPARATUS, AND COMPUTER PROGRAM PRODUCTS FOR ENHANCED INTELLIGIBILITY" 인 미국 특허 출원 제 12/277,283 호에서 설명되며, 빔포밍 및 블라인드 (blind) 소스 분리 동작들을 (한정되지 않게) 포함한다. 노이즈 컴포넌트들의 예들은 길거리 노이즈, 차량 노이즈 및/또는 배블 노이즈와 같은 확산 (diffuse) 환경 노이즈, 및 간섭 스피커 및/또는 텔레비전, 라디오 또는 확성 장치 (public address system) 와 같은 다른 포인트 소스로부터의 사운드와 같은 방향성 노이즈를 (한정되지 않게) 포함한다.

공간 선택적인 프로세싱 필터 (SS10) 는, 방향성 간섭 컴포넌트 및/또는 확산 노이즈 컴포넌트와 같은, 신호의 하나 이상의 다른 컴포넌트들로부터 감지된 오디오 신호 (S10) 의 방향성 원하는 컴포넌트 (예컨대, 사용자의 음성) 를 분리시키도록 구성될 수도 있다. 그러한 경우에서, SSP 필터 (SS10) 는, 감지된 오디오 채널 (S10) 의 각각의 채널이 포함하는 것보다 더 많이 소스 신호 (S20) 가 방향성 원하는 컴포넌트의 에너지를 포함하도록 (즉, 소스 신호 (S20) 가 감지된 오디오 채널 (S10) 의 임의의 개별적인 채널이 포함하는 것보다 더 많이 소스 신호 (S20) 가 방향성 원하는 컴포넌트의 에너지를 포함하도록), 방향성 원하는 컴포넌트의 에너지를 집중시키도록 구성될 수도 있다. 도 7은 마이크로폰 어레이의 축에 대하여 필터 응답의 방향성을 보이는 SSP 필터 (SS10) 의 그러한 예에 대한 빔 패턴을 도시한다.

공간 선택적인 프로세싱 필터 (SS10) 는 환경 노이즈의 신뢰성 있고 동시에 발생하는 추정치를 제공하기 위해 사용될 수도 있다. 몇몇 노이즈 추정 방법들에서, 노이즈 레퍼런스는 입력 신호의 비활성 프레임들 (예컨대, 배경 노이즈 또는 침묵만을 포함하는 프레임들) 을 평균함으로써 추정된다. 그러한 방법들은 환경 노이즈에서의 변화들에 느리게 반응할 수도 있고, 통상적으로 비정적 노이즈 (예컨대, 임펄스 노이즈) 를 모델링하는데 효과적이지 않다. 공간 선택적인 프로세싱 필터 (SS10) 는 입력 신호의 활성 프레임들로부터 노이즈 컴포넌트들을 분리시켜서 노이즈 레퍼런스 (S30) 를 제공하도록 구성될 수도 있다. SSP 필터 (SS10) 에 의해 그러한 노이즈 레퍼런스의 프레임으로 분리된 노이즈는 소스 신호 (S20) 의 대응하는 프레임 내의 정보 컨텐츠와 본질적으로 동시에 발생할 수도 있고, 그러한 노이즈 레퍼런스는 또한 "순시 (instantaneous)" 노이즈 추정치라 호칭된다.

통상적으로, 공간 선택적인 프로세싱 필터 (SS10) 는 필터 계수 값들의 하나 이상의 매트릭스들에 의해 특성화되는 고정된 필터 (FF10) 를 포함하도록 구현된다. 이들 필터 계수 값들은 빔포밍, 블라인드 소스 분리 (BSS), 또는 이하 더 상세히 설명되는 바와 같은 조합된 BSS/빔포밍 방법을 사용하여 획득될 수도 있다. 또한, 공간 선택적인 프로세싱 필터 (SS10) 는 1 개보다 더 많은 스테이지를 포함하도록 구성될 수도 있다. 도 8a는 고정된 필터 스테이지 (FF10) 및 적응적 필터 스테이지 (AF10) 를 포함하는 SSP 필터 (SS10) 의 그러한 구현 (SS20) 의 블록도를 도시한다. 이 예에서, 고정된 필터 스테이지 (FF10) 는 감지된 오디오 신호 (S10) 의 필터 채널들 (S10-1 및 S10-2) 을 필터링하여 필터링된 신호 (S15) 의 채널들 (S15-1 및 S15-2) 을 산출하도록 배열되며, 적응적 필터 스테이지 (AF10) 는 채널들 (S15-1 및 S15-2) 을 필터링하여 소스 신호 (S20) 및 노이즈 레퍼런스 (S30) 를 산출하도록 배열된다. 그러한 경우에서, 이하 더 상세히 설명되는 바와 같이, 고정된 필터 스테이지 (FF10) 를 사용하여 적응적 필터 스테이지 (AF10) 에 대한 초기 컨디션들을 생성하는 것이 바람직할 수도 있다. 또한, (예컨대, IIR 고정된 또는 적응적 필터 뱅크의 안정성을 보장하기 위해) SSP 필터 (SS10) 로의 입력들의 적응적 스케일링을 수행하는 것이 바람직할 수도 있다.

SSP 필터 (SS20) 의 다른 구현에서, 적응적 필터 (AF10) 는 필터링된 채널 (S15-1) 및 감지된 오디오 채널 (S10-2) 을 입력들로서 수신하도록 배열된다. 그러한 경우에서, 고정된 필터 (FF10) 의 예상된 프로세싱 지연을 매칭하는 지연 엘리먼트를 통해 적응적 필터 (AF10) 가 감지된 오디오 채널 (S10-2) 을 수신하는 것이 바람직할 수도 있다.

(예컨대, 다양한 고정된 필터 스테이지들의 상대적인 분리 성능에 따라) 고정된 필터 스테이지들 중 적절한 하나가 동작 동안에 선택될 수도 있도록 배열된 다수의 고정된 필터 스테이지들을 포함하도록 SSP 필터 (SS10) 를 구현하는 것이 바람직할 수도 있다. 그러한 구조는 예컨대, 2008년 12월 12일자로 출원된 발명의 명칭이 "SYSTEMS, METHODS, AND APPARATUS FOR MULTI-MICROPHONE BASED SPEECH ENHANCEMENT" 인, 관리 번호 080426 의, 미국 특허 출원 제 12/334,246 호에서 개시된다.

공간 선택적인 프로세싱 필터 (SS10) 는 감지된 오디오 신호 (S10) 를 시간 도메인에서 프로세싱하고, 소스 신호 (S20) 및 노이즈 레퍼런스 (S30) 를 시간-도메인 신호들로서 산출하도록 구성될 수도 있다. 다르게는, SSP 필터 (SS10) 는 감지된 오디오 신호 (S10) 를 주파수 도메인 (또는 다른 변환 도메인) 에서 수신하거나, 또는 감지된 오디오 신호 (S10) 를 그러한 도메인으로 컨버팅하고, 감지된 오디오 신호 (S10) 를 그 도메인에서 프로세싱하도록 구성될 수도 있다.

노이즈 레퍼런스 (S30) 를 적용하여 소스 신호 (S20) 에서 노이즈를 더 감소시키도록 구성된 노이즈 감소 스테이지가 SSP 필터 (SS10 또는 SS20) 에 뒤따르는 것이 바람직할 수도 있다. 도 8b는 그러한 노이즈 감소 스테이지 (NR10) 를 포함하는 장치 (A100) 의 구현 (A130) 의 블록도를 도시한다. 노이즈 감소 스테이지 (NR10) 는, 필터 계수 값들이 소스 신호 (S20) 및 노이즈 레퍼런스 (S30) 로부터의 신호 및 노이즈 전력 정보에 기초하는 위이너 (Wiener) 필터로서 구현될 수도 있다. 그러한 경우에서, 노이즈 감소 스테이지 (NR10) 는 노이즈 레퍼런스 (S30) 로부터의 정보에 기초하여 노이즈 스펙트럼을 추정하도록 구성될 수도 있다. 다르게는, 노이즈 감소 스테이지 (NR10) 는 노이즈 레퍼런스 (S30) 의 스펙트럼에 기초하여 소스 신호 (S20) 에 대해 스펙트럼 차감 동작을 수행하도록 구현될 수도 있다. 다르게는, 노이즈 감소 스테이지 (NR10) 는, 노이즈 공분산이 노이즈 레퍼런스 (S30) 로부터의 정보에 기초하는 칼만 (Kalman) 필터로서 구현될 수도 있다.

노이즈 감소 스테이지 (NR10) 는 소스 신호 (S20) 및 노이즈 레퍼런스 (S30) 를 주파수 도메인 (또는 다른 변환 도메인) 에서 프로세싱하도록 구성될 수도 있다. 도 9a는 노이즈 감소 스테이지 (NR10) 의 그러한 구현 (NR20) 을 포함하는 장치 (A130) 의 구현 (A132) 의 블록도를 도시한다. 또한, 장치 (A132) 는 소스 신호 (S20) 및 노이즈 레퍼런스 (S30) 를 변환 도메인으로 변환하도록 구성된 변환 모듈 (TR10) 을 포함한다. 통상적인 예에서, 변환 모듈 (TR10) 은 소스 신호 (S20) 및 노이즈 레퍼런스 (S30) 의 각각에 대해 128-포인트, 256-포인트, 또는 512-포인트 FFT 와 같은 고속 푸리에 변환 (FFT) 을 수행하여 각각의 주파수-도메인 신호들을 산출하도록 구성된다. 도 9b는, (예컨대, 노이즈 감소 스테이지 (NR20) 의 출력에 대해 역 FFT 를 수행함으로써) 노이즈 감소 스테이지 (NR20) 의 출력을 시간 도메인으로 변환하도록 배열된 역 변환 모듈 (TR20) 을 또한 포함하는 장치 (A132) 의 구현 (A134) 의 블록도를 도시한다.

노이즈 감소 스테이지 (NR20) 는, 노이즈 레퍼런스 (S30) 의 대응하는 빈들의 값들에 따라 소스 신호 (S20) 의 주파수-도메인 빈들을 가중화함으로써 노이즈-감소된 스피치 신호 (S45) 를 계산하도록 구성될 수도 있다. 그러한 경우에서, 노이즈 감소 스테이지 (NR20) 는, B_i = w_iA_i 와 같은 표현에 따라 노이즈-감소된 스피치 신호 (S45) 를 산출하도록 구성될 수도 있으며, B_i 는 노이즈-감소된 스피치 신호 (S45) 의 i 번째 빈을 표시하고, A_i 는 소스 신호 (S20) 의 i 번째 빈을 표시하며, w_i 는 프레임에 대한 가중치 벡터의 i 번째 엘리먼트를 표시한다. 각각의 빈은 대응하는 주파수-도메인 신호의 하나의 값만을 포함할 수도 있거나, 또는 노이즈 감소 스테이지 (NR20) 는 (예컨대, 비닝 모듈 (SG30) 을 참조하여 이하 설명되는 바와 같이) 원하는 부대역 분할 기법에 따라 각각의 주파수-도메인 신호의 값들을 빈들로 그룹화하도록 구성될 수도 있다.

노이즈 감소 스테이지 (NR20) 의 그러한 구현은, 가중치들이 노이즈 레퍼런스 (S30) 가 낮은 값을 갖는 빈들에 대해 더 높고 (예컨대, 1 에 더 근접하고), 노이즈 레퍼런스 (S30) 가 높은 값을 갖는 빈들에 대해 더 낮도록 (예컨대, 0 에 더 근접하도록) 가중치들 (w_i) 을 계산하도록 구성될 수도 있다. 노이즈 감소 스테이지 (NR20) 의 하나의 그러한 예는, 빈 (N_i) 내의 값들의 합 (다르게는, 평균) 이 임계값 (T_i) 미만인 경우에 (다르게는, 이하인 경우에) w_i = 1 이고 그렇지 않은 경우에 w_i = 0 인 것과 같은 표현에 따라 가중치들 (w_i) 의 각각을 계산함으로써, 소스 신호 (S20) 의 빈들을 차단하거나 또는 통과시키도록 구성된다. 이 예에서, N_i 는 노이즈 레퍼런스 (S30) 의 i 번째 빈을 표시한다. 임계값들 (T_i) 이 서로 동일하도록, 또는 임계값들 (T_i) 중 적어도 2 개가 서로 상이하도록 노이즈 감소 스테이지 (NR20) 의 그러한 구현을 구성하는 것이 바람직할 수도 있다. 다른 예에서, 노이즈 감소 스테이지 (NR20) 는 주파수 도메인에서 소스 신호로부터 노이즈 레퍼런스 (S30) 를 차감함으로써 (즉, 소스 신호 (S20) 의 스펙트럼으로부터 노이즈 레퍼런스 (S30) 의 스펙트럼을 차감함으로써) 노이즈-감소된 스피치 신호 (S45) 를 계산하도록 구성된다.

이하 더 상세히 설명되는 바와 같이, 인핸서 (EN10) 는 주파수 도메인 또는 다른 변환 도메인에서 하나 이상의 신호들에 대해 동작들을 수행하도록 구성될 수도 있다. 도 10a는 노이즈 감소 스테이지 (NR20) 의 예를 포함하는 장치 (A100) 의 구현 (A140) 의 블록도를 도시한다. 이 예에서, 인핸서 (EN10) 는 노이즈-감소된 스피치 신호 (S45) 를 스피치 신호 (S40) 로서 수신하도록 배열되며, 인핸서 (EN10) 는 또한 노이즈 레퍼런스 (S30) 및 노이즈-감소된 스피치 신호 (S45) 를 변환-도메인 신호들로서 수신하도록 배열된다. 또한, 장치 (A140) 는 변환 도메인으로부터 시간 도메인으로 프로세싱된 스피치 신호 (S50) 를 변환하도록 배열된 역 변환 모듈 (TR20) 의 예를 포함한다.

스피치 신호 (S40) 가 고 샘플링 레이트 (예컨대, 44.1 ㎑ 또는 10 킬로헤르츠를 상회하는 다른 샘플링 레이트) 를 갖는 경우에 대해, 인핸서 (EN10) 가 시간 도메인에서 신호 (S40) 를 프로세싱함으로써 대응하는 프로세싱된 스피치 신호 (S50) 를 산출하는 것이 바람직할 수도 있다. 예컨대, 그러한 신호에 대해 변환 동작을 수행하는 연산 비용을 회피하는 것이 바람직할 수도 있다. 미디어 파일 또는 파일스트림으로부터 재현되는 신호는 그러한 샘플링 레이트를 가질 수도 있다.

도 10b는 장치 (A140) 의 구현 (A150) 의 블록도를 도시한다. 장치 (A150) 는 (예컨대, 상기 장치 (A140) 를 참조하여 설명된 바와 같이) 변환 도메인에서 노이즈 레퍼런스 (S30) 및 노이즈-감소된 스피치 신호 (S45) 를 프로세싱하여 제 1 프로세싱된 스피치 신호 (S50a) 를 산출하도록 구성된 인핸서 (EN10) 의 예 (EN10a) 를 포함한다. 또한, 장치 (A150) 는 시간 도메인에서 노이즈 레퍼런스 (S30) 및 스피치 신호 (S40) (예컨대, 원단 또는 다른 재현된 신호) 를 프로세싱하여 제 2 프로세싱된 스피치 신호 (S50b) 를 산출하도록 구성된 인핸서 (EN10) 의 예 (EN10b) 를 포함한다.

방향성 프로세싱 동작을 수행하도록 구성되는 것과 다르게, 또는 방향성 프로세싱 동작을 수행하도록 구성되는 것에 추가하여, SSP 필터 (SS10) 는 거리 프로세싱 동작을 수행하도록 구성될 수도 있다. 도 11a 및 도 11b는 그러한 동작을 수행하도록 구성된 거리 프로세싱 모듈 (DS10) 을 포함하는 SSP 필터 (SS10) 의 구현들 (SS110 및 SS120) 의 블록도들을 각각 도시한다. 거리 프로세싱 모듈 (DS10) 은, 마이크로폰 어레이에 대한 멀티채널 감지된 오디오 신호 (S10) 의 컴포넌트의 소스의 거리를 표시하는 거리 표시 신호 (DI10) 를 거리 프로세싱 동작의 결과로서 산출하도록 구성된다. 통상적으로, 거리 프로세싱 모듈 (DS10) 은, 2 개의 상태들이 근접-필드 소스 및 원격-필드 소스를 각각 표시하는 이진-값의 표시 신호로서 거리 표시 신호 (DI10) 를 산출하도록 구성되지만, 연속적인 및/또는 멀티-값의 신호를 산출하는 구성들도 또한 가능하다.

일례에서, 거리 프로세싱 모듈 (DS10) 은, 거리 표시 신호 (DI10) 의 상태가 마이크로폰 신호들의 전력 경사도들 사이의 유사성의 정도에 기초하도록 구성된다. 거리 프로세싱 모듈 (DS10) 의 그러한 구현은 (A) 마이크로폰 신호들의 전력 경사도들 사이의 차이와 (B) 임계값 사이의 관계에 따라 거리 표시 신호 (DI10) 를 산출하도록 구성될 수도 있다. 일 그러한 관계는 다음과 같이 표현될 수도 있다.

는 거리 표시 신호 (DI10) 의 현재의 상태를 나타내고,

는 감지된 오디오 신호 (S10) 의 1차 채널 (예컨대, 가장 직접적으로 사용자의 음성과 같은 원하는 소스로부터 사운드를 일반적으로 수신하는 마이크로폰에 대응하는 채널) 의 전력 경사도의 현재의 값을 나타내고,

는 감지된 오디오 신호 (S10) 의 2차 채널 (예컨대, 1차 채널의 마이크로폰보다 덜 직접적으로 원하는 소스로부터 사운드를 일반적으로 수신하는 마이크로폰에 대응하는 채널) 의 전력 경사도의 현재의 값을 나타내며, T_d 는 고정될 수도 있거나 또는 (예컨대, 하나 이상의 마이크로폰 신호들의 현재의 레벨에 기초하여) 적응적일 수도 있는 임계값을 나타낸다. 이 특정한 예에서, 거리 표시 신호 (DI10) 의 상태 1 은 원격-필드 소스를 표시하고, 상태 0 은 근접-필드 소스를 표시하지만, 당연히, 원하는 경우에 반대의 구현이 사용될 수도 있다 (즉, 상태 1 이 근접-필드 소스를 표시하고, 상태 0 이 원격-필드 소스를 표시한다).

연속하는 프레임들에 걸쳐 감지된 오디오 신호 (S10) 의 대응하는 채널의 에너지들 사이의 차이로서 전력 경사도의 값을 계산하도록 거리 프로세싱 모듈 (DS10) 을 구현하는 것이 바람직할 수도 있다. 일 그러한 예에서, 거리 프로세싱 모듈 (DS10) 은, 채널의 현재의 프레임의 값들의 제곱들의 합과 채널의 이전의 프레임의 값들의 제곱들의 합 사이의 차이로서 전력 경사도들 (

및

) 의 각각에 대한 현재의 값들을 계산하도록 구성된다. 다른 그러한 예에서, 거리 프로세싱 모듈 (DS10) 은, 대응하는 채널의 현재의 프레임의 값들의 크기들의 합과 채널의 이전의 프레임의 값들의 크기들의 합 사이의 차이로서 전력 경사도들 (

및

) 의 각각에 대한 현재의 값들을 계산하도록 구성된다.

또한 또는 다르게는, 거리 프로세싱 모듈 (DS10) 은, 거리 표시 신호 (DI10) 의 상태가, 감지된 오디오 신호 (S10) 의 1차 채널에 대한 위상과 2차 채널에 대한 위상 사이의, 주파수들의 범위에 걸친, 정정의 정도에 기초하도록 구성될 수도 있다. 거리 프로세싱 모듈 (DS10) 의 그러한 구현은, (A) 채널들의 위상 벡터들 사이의 정정과 (B) 임계값 사이의 관계에 따라 거리 표시 신호 (DI10) 를 산출하도록 구성될 수도 있다. 일 그러한 관계는 다음과 같이 표현될 수도 있다.

μ 는 거리 표시 신호 (DI10) 의 현재의 상태를 나타내고,

는 감지된 오디오 신호 (S10) 의 1차 채널에 대한 현재의 위상 벡터를 나타내고,

는 감지된 오디오 신호 (S10) 의 2차 채널에 대한 현재의 위상 벡터를 나타내며, Tc 는 고정될 수도 있거나 또는 (하나 이상의 채널들의 현재의 레벨에 기초하여) 적응적일 수도 있는 임계값을 나타낸다. 위상 벡터의 각각의 엘리먼트가, 대응하는 주파수에서의 또는 대응하는 주파수 부대역에 걸친 대응하는 채널의 현재의 위상 각을 나타내도록 위상 벡터들을 계산하도록 거리 프로세싱 모듈 (DS10) 을 구현하는 것이 바람직할 수도 있다. 특정한 예에서, 거리 표시 신호 (DI10) 의 상태 1 은 원격-필드 소스를 표시하고, 상태 0 은 근접-필드 소스를 표시하지만, 당연히, 원하는 경우에 반대의 구현도 사용될 수도 있다. 거리 표시 신호 (DI10) 가 원격-필드 소스를 표시하는 경우에 노이즈 감소 스테이지 (NR10) 에 의해 수행되는 노이즈 감소가 최대화되도록, 거리 표시 신호 (DI10) 는 노이즈 감소 스테이지 (NR10) 에 제어 신호로서 적용될 수도 있다.

상술된 바와 같이, 거리 표시 신호 (DI10) 의 상태가 전력 경사도 및 위상 정정 기준의 양자에 기초하도록 거리 프로세싱 모듈 (DS10) 을 구성하는 것이 바람직할 수도 있다. 그러한 경우에서, 거리 프로세싱 모듈 (DS10) 은

와 μ 의 현재의 값들의 조합 (예컨대, 논리 OR 또는 논리 AND) 으로서 거리 표시 신호 (DI10) 의 상태를 계산하도록 구성될 수도 있다. 다르게는, 거리 프로세싱 모듈 (DS10) 은, 대응하는 임계의 값이 다른 기준의 현재의 값에 기초하도록, 이들 기준 중 하나 (즉, 전력 경사도 유사성 또는 위상 정정) 에 따라 거리 표시 신호 (DI10) 의 상태를 계산하도록 구성될 수도 있다.

SSP 필터 (SS10) 의 다른 구현은 감지된 오디오 신호 (S10) 에 대해 위상 상관 마스킹 동작을 수행하여 소스 신호 (S20) 및 노이즈 레퍼런스 (S30) 를 산출하도록 구성된다. SSSP 필터 (SS10) 의 그러한 구현의 일례는 상이한 주파수들에서의 감지된 오디오 신호 (S10) 의 상이한 채널들 사이의 상대적인 위상 각들을 결정하도록 구성된다. 주파수들의 대부분에서의 위상 각들이 실질적으로 동일한 (예컨대, 5, 10, 또는 20 퍼센트 이내) 경우에, 필터는 이들 주파수들을 소스 신호 (S20) 로서 통과시키고, 다른 주파수들에서의 컴포넌트들 (즉, 다른 위상 각들을 갖는 컴포넌트들) 을 노이즈 레퍼런스 (S30) 로서 분리시킨다.

인핸서 (EN10) 는 시간-도메인 버퍼로부터 노이즈 레퍼런스 (S30) 를 수신하도록 배열될 수도 있다. 다르게는 또는 또한, 인핸서 (EN10) 는 시간-도메인 버퍼로부터 제 1 스피치 신호 (S40) 를 수신하도록 배열될 수도 있다. 일례에서, 각각의 시간-도메인 버퍼는 10 밀리초 (예컨대, 8 ㎑ 의 샘플링 레이트에서의 8 개의 샘플들, 또는 16 ㎑ 의 샘플링 레이트에서의 160 개의 샘플들) 의 길이를 갖는다.

인핸서 (EN10) 는 스피치 신호 (S40) 에 대해 스펙트럼 콘트라스트 인핸스먼트 동작을 수행하여 프로세싱된 스피치 신호 (S50) 를 산출하도록 구성된다. 스펙트럼 콘트라스트는 신호 스펙트럼에서의 인접한 피크들과 밸리들 사이의 차이 (예컨대, 데시벨 단위) 로서 정의될 수도 있으며, 인핸서 (EN10) 는 스피치 신호 (S40) 의 에너지 스펙트럼 또는 크기 스펙트럼에서의 피크들과 밸리들 사이의 차이를 증가시킴으로써 프로세싱된 스피치 신호 (S50) 를 산출하도록 구성될 수도 있다. 스피치 신호의 스펙트럼 피크들은 또한 "포먼트 (formant)" 라 호칭된다. 스펙트럼 콘트라스트 인핸스먼트 동작은, 노이즈 레퍼런스 (S30) 로부터의 정보에 기초하여 복수의 노이즈 부대역 전력 추정치들을 계산하는 것, 스피치 신호로부터의 정보에 기초하여 인핸스먼트 벡터 (EV10) 를 생성하는 것, 및 복수의 노이즈 부대역 전력 추정치들, 스피치 신호 (S40) 로부터의 정보, 및 인핸스먼트 벡터 (EV10) 로부터의 정보에 기초하여 프로세싱된 스피치 신호 (S50) 를 산출하는 것을 포함한다.

일례에서, 인핸서 (EN10) 는 (예컨대, 여기서 설명되는 기술들 중 임의의 기술에 따라) 스피치 신호 (S40) 에 기초하여 콘트라스트-증대된 신호 (SC10) 를 생성하여, 노이즈 레퍼런스 (S30) 의 각각의 프레임에 대한 전력 추정치를 계산하고, 대응하는 노이즈 전력 추정치에 따라 콘트라스트-증대된 신호 (SC10) 와 스피치 신호 (S30) 의 대응하는 프레임들을 믹싱함으로써 프로세싱된 스피치 신호 (S50) 를 산출하도록 구성된다. 예컨대, 인핸서 (EN10) 의 그러한 구현은, 대응하는 노이즈 전력 추정치가 높은 경우에 콘트라스트-증대된 신호 (SC10) 의 대응하는 프레임을 비례하여 더 많이 사용하고, 대응하는 노이즈 전력 추정치가 낮은 경우에 스피치 신호 (S40) 의 대응하는 프레임을 비례하여 더 많이 사용하여, 프로세싱된 스피치 신호 (S50) 의 프레임을 산출하도록 구성될 수도 있다. 인핸서 (EN10) 의 그러한 구현은,

와 같은 표현에 따라 프로세싱된 스피치 신호 (S50) 의 프레임 (PSS(n)) 을 산출하도록 구성될 수도 있으며, CES(n) 및 SS(n) 은 콘트라스트-증대된 신호 (SC10) 및 스피치 신호 (S40) 의 대응하는 프레임들을 각각 표시하고,

는 대응하는 노이즈 전력 추정치에 기초하는 0 에서 1 까지의 범위 내의 값을 갖는 노이즈 레벨 표시를 표시한다.

도 12는 스펙트럼 콘트라스트 인핸서 (EN10) 의 구현 (EN100) 의 블록도를 도시한다. 인핸서 (EN100) 는 콘트라스트-증대된 스피치 신호 (SC10) 에 기초하는 프로세싱된 스피치 신호 (S50) 를 산출하도록 구성된다. 또한, 인핸서 (EN100) 는 프로세싱된 스피치 신호 (S50) 의 복수의 주파수 부대역들의 각각이 스피치 신호 (S40) 의 대응하는 주파수 부대역에 기초하도록, 프로세싱된 스피치 신호 (S50) 를 산출하도록 구성된다.

인핸서 (EN100) 는, 스피치 신호 (S40) 에 기초하는 인핸스먼트 벡터 (EV10) 를 생성하도록 구성된 인핸스먼트 벡터 생성기 (VG100); 인핸스먼트 벡터 (EV10) 로부터의 정보에 기초하여 인핸스먼트 부대역 신호들의 세트를 산출하도록 구성된 인핸스먼트 부대역 신호 생성기 (EG100); 및 인핸스먼트 부대역 신호들 중 대응하는 하나로부터의 정보에 각각 기초하여 인핸스먼트 부대역 전력 추정치들의 세트를 산출하도록 구성된 인핸스먼트 부대역 전력 추정치 생성기 (EP100) 를 포함한다. 또한, 인핸서 (EN100) 는, 복수의 이득 계수 값들의 각각이 인핸스먼트 벡터 (EV10) 의 대응하는 주파수 부대역으로부터의 정보에 기초하도록 복수의 이득 계수 값들을 계산하도록 구성된 부대역 이득 계수 계산기 (FC100), 스피치 신호 (S40) 로부터의 정보에 기초하여 스피치 부대역 신호들의 세트를 산출하도록 구성된 스피치 부대역 신호 생성기 (SG100), 및 인핸스먼트 벡터 (EV10) 로부터의 정보 (예컨대, 복수의 이득 계수 값들) 및 스피치 부대역 신호들에 기초하여 콘트라스트-증대된 신호 (SC10) 를 산출하도록 구성된 이득 제어 엘리먼트 (CE100) 를 포함한다.

인핸서 (EN100) 는, 노이즈 레퍼런스 (S30) 로부터의 정보에 기초하여 노이즈 부대역 신호들의 세트를 산출하도록 구성된 노이즈 부대역 신호 생성기 (NG100); 및 노이즈 부대역 신호들 중 대응하는 하나로부터의 정보에 각각 기초하여 노이즈 부대역 전력 추정치들의 세트를 산출하도록 구성된 노이즈 부대역 전력 추정치 계산기 (NP100) 를 포함한다. 또한, 인핸서 (EN100) 는, 대응하는 노이즈 부대역 전력 추정치로부터의 정보에 기초하여 부대역들의 각각에 대한 믹싱 계수를 계산하도록 구성된 부대역 믹싱 계수 계산기 (FC200), 및 믹싱 계수들, 스피치 신호 (S40), 및 콘트라스트-증대된 신호 (SC10) 로부터의 정보에 기초하여 프로세싱된 스피치 신호 (S50) 를 산출하도록 구성된 믹서 (X100) 를 포함한다.

인핸서 (EN100) 를 적용하는데 있어서, (오디오 프리프로세서 (AP20) 및 에코 제거기 (EC10) 를 참조하여 이하 설명되는 바와 같은) 에코 제거 동작을 경험한 마이크로폰 신호들로부터 노이즈 레퍼런스 (S30) 를 획득하는 것이 바람직할 수도 있다는 것이 명백하게 주의된다. 그러한 동작은 스피치 신호 (S40) 가 재현된 오디오 신호인 경우에 대해 특히 바람직할 수도 있다. 노이즈 레퍼런스 (S30) (또는, 이하 개시되는 바와 같은 인핸서 (EN10) 의 다른 구현들에 의해 사용될 수도 있는 다른 노이즈 레퍼런스들 중 임의의 노이즈 레퍼런스) 에서 음향 에코가 잔존하는 경우에, 프로세싱된 스피치 신호 (S50) 와 부대역 이득 계수 연산 경로 사이에 포지티브 피드백 루프가 생성될 수도 있다. 예컨대, 그러한 루프는, 프로세싱된 스피치 신호 (S50) 가 원단 라우드스피커를 더 크게 구동시킬수록 인핸서가 이득 계수들을 증가시키려는 경향이 더 커지는 효과를 가질 수도 있다.

일례에서, 인핸스먼트 벡터 생성기 (VG100) 는, 스피치 신호 (S40) 의 전력 스펙트럼 또는 크기 스펙트럼을 1 보다 더 큰 전력 M (예컨대, 1.2, 1.5, 1.7, 1.9, 또는 2 와 같은 1.2 에서 2.5 까지의 범위 내의 값) 으로 상승시킴으로써 인핸스먼트 벡터 (EV10) 를 생성하도록 구성된다. 인핸스먼트 벡터 생성기 (VG100) 는,

와 같은 표현에 따라 로그 스펙트럼 값들에 대해 그러한 동작을 수행하도록 구성될 수도 있으며, x_i 는 데시벨 단위의 스피치 신호 (S40) 의 스펙트럼의 값들을 나타내며, y_i 는 데시벨 단위의 인핸스먼트 벡터 (EV10) 의 대응하는 값들을 나타낸다. 또한, 인핸스먼트 벡터 생성기 (VG100) 는 전력-상승 동작의 결과를 정규화하고/하거나 오리지널 크기 또는 전력 스펙트럼과 전력-상승 동작의 결과 사이의 비율로서 인핸스먼트 벡터 (EV10) 를 산출하도록 구성될 수도 있다.

다른 예에서, 인핸스먼트 벡터 생성기 (VG100) 는 스피치 신호 (S40) 의 스펙트럼의 2차 도함수를 평활화함으로써 인핸스먼트 벡터 (EV10) 를 생성하도록 구성된다. 인핸스먼트 벡터 생성기 (VG100) 의 그러한 구현은

와 같은 표현에 따라 제 2 차이로서 이산 항들로 2차 도함수를 계산하도록 구성될 수도 있으며, 스펙트럼 값들 (x_i) 은 선형 또는 로그 (예컨대, 데시벨 단위) 일 수도 있다. 제 2 차이 (D2(x_i)) 의 값은 스펙트럼 피크들에서 0 미만이고, 스펙트럼 밸리들에서 0 보다 더 크고, 이 값의 네거티브로서 제 2 차이를 계산하여 스펙트럼 피크들에서 0 보다 더 크고 스펙트럼 밸리들에서 0 미만인 결과를 획득하도록 인핸스먼트 벡터 생성기 (VG100) 를 구성하는 것이 바람직할 수도 있다.

인핸스먼트 벡터 생성기 (VG100) 는, 가중화된 평균 필터 (예컨대, 삼각 필터) 와 같은 평활화 필터를 적용함으로써 스펙트럼 제 2 차이를 평활화하도록 구성될 수도 있다. 평활화 필터의 길이는 스펙트럼 피크들의 추정된 대역폭에 기초할 수도 있다. 예컨대, 평활화 필터가 추정된 피크 대역폭의 2 배 미만의 주기들을 갖는 주파수들을 감쇠시키는 것이 바람직할 수도 있다. 통상적인 평활화 필터 길이들은 3, 5, 7, 9, 11, 13, 및 15 개의 탭들을 포함한다. 인핸스먼트 벡터 생성기 (VG100) 의 그러한 구현은 차이 및 평활화 계산들을 시리즈로 또는 하나의 동작으로서 수행하도록 구성될 수도 있다. 도 13은 스피치 신호 (S40) 의 프레임의 크기 스펙트럼의 예를 도시하고, 도 14는 15-탭 삼각 필터에 의해 평활화된 제 2 스펙트럼 차이로서 계산된 인핸스먼트 벡터 (EV10) 의 대응하는 프레임의 예를 도시한다.

유사한 예에서, 인핸스먼트 벡터 생성기 (VG100) 는 다음과 같은 표현에 따라 구현될 수도 있는 DoG (difference-of-Gaussians) 필터로 스피치 신호 (S40) 의 스펙트럼을 컨볼빙 (convolve) 함으로써 인핸스먼트 벡터 (EV10) 를 생성하도록 구성된다.

및

는 각각의 가우시안 분포들의 표준 편차들을 나타내고, μ 는 스펙트럼 평균 (spectral mean) 을 나타낸다. "맥시칸 햇 (Mexican hat)" 웨이블렛 필터와 같은, DoG 필터와 유사한 형상을 갖는 다른 필터가 또한 사용될 수도 있다. 다른 예에서, 인핸스먼트 벡터 생성기 (VG100) 는 데시벨의 스피치 신호 (S40) 의 평활화된 스펙트럼의 지수의 제 2 차이로서 인핸스먼트 벡터 (EV10) 를 생성하도록 구성된다.

다른 예에서, 인핸스먼트 벡터 생성기 (VG100) 는 스피치 신호 (S40) 의 평활화된 스펙트럼들의 비율을 계산함으로써 인핸스먼트 벡터 (EV10) 를 생성하도록 구성된다. 인핸스먼트 벡터 생성기 (VG100) 의 그러한 구현은, 스피치 신호 (S40) 의 스펙트럼을 평활화함으로써 제 1 평활화된 신호를 계산하여, 제 1 평활화된 신호를 평활화함으로써 제 2 평활화된 신호를 계산하고, 제 1 및 제 2 평활화된 신호들 사이의 비율로서 인핸스먼트 벡터 (EV10) 를 계산하도록 구성될 수도 있다. 도 15 내지 도 18은 스피치 신호 (S40) 의 크기 스펙트럼, 크기 스펙트럼의 평활화된 버전, 크기 스펙트럼의 이중 평활화된 버전, 및 이중 평활화된 스펙트럼에 대한 평활화된 스펙트럼의 비율의 예들을 각각 도시한다.

도 19a는 제 1 스펙트럼 평활화기 (SM10), 제 2 스펙트럼 평활화기 (SM20), 및 비율 계산기 (RC10) 를 포함하는 인핸스먼트 벡터 생성기 (VG100) 의 구현 (VG110) 의 블록도를 도시한다. 스펙트럼 평활화기 (SM10) 는 스피치 신호 (S40) 의 스펙트럼을 평활화하여 제 1 평활화된 신호 (MS10) 를 산출하도록 구성된다. 스펙트럼 평활화기 (SM10) 는 가중화된 평균 필터 (예컨대, 삼각 필터) 와 같은 평활화 필터로서 구현될 수도 있다. 평활화 필터의 길이는 스펙트럼 피크들의 추정된 대역폭에 기초할 수도 있다. 예컨대, 평활화 필터가 추정된 피크 대역폭의 2 배 미만의 주기들을 갖는 주파수들을 감쇠시키는 것이 바람직할 수도 있다. 통상적인 평활화 필터 길이들은 3, 5, 7, 9, 11, 13, 및 15 개의 탭들을 포함한다.

스펙트럼 평활화기 (SM20) 는 제 1 평활화된 신호 (MS10) 를 평활화하여 제 2 평활화된 신호 (MS20) 를 산출하도록 구성된다. 통상적으로, 스펙트럼 평활화기 (SM20) 는 스펙트럼 평활화기 (SM10) 와 동일한 평활화 동작을 수행하도록 구성된다. 그러나, 스펙트럼 평활화기들 (SM10 및 SM20) 가 (예컨대, 상이한 필터 형상들 및/또는 길이들을 사용하기 위해) 상이한 평활화 동작들을 수행하는 것이 가능하다. 스펙트럼 평활화기들 (SM10 및 SM20) 은 상이한 시간들에서 동일한 구조 (예컨대, 시간에 걸쳐 상이한 태스크들의 시퀀스를 수행하도록 구성된 계산 회로 또는 프로세서) 로서 또는 상이한 구조들 (예컨대, 상이한 회로들 또는 소프트웨어 모듈들) 로서 구현될 수도 있다. 비율 계산기 (RC10) 는 신호들 (MS10 및 MS20) (즉, 신호들 (MS10 및 MS20) 의 대응하는 값들 사이의 비율들의 시리즈) 사이의 비율을 계산하여 인핸스먼트 벡터 (EV10) 의 인스턴스 (EV12) 를 산출하도록 구성된다. 일례에서, 비율 계산기 (RC10) 는 2 개의 로그 값들의 차이로서 각각의 비율 값을 계산하도록 구성된다.

도 20은 스펙트럼 평활화기 (MS10) 의 15-탭 삼각 필터 구현에 의해 도 13의 크기 스펙트럼으로부터 산출된 바와 같은 평활화된 신호 (MS10) 의 예를 도시한다. 도 21은 스펙트럼 평활화기 (MS20) 의 15-탭 삼각 필터 구현에 의해 도 20의 평활화된 신호 (MS10) 로부터 산출된 바와 같은 평활화된 신호 (MS20) 의 예를 도시하고, 도 22는 도 21의 평활화된 신호 (MS20) 에 대한 도 20의 평활화된 신호 (MS10) 의 비율인 인핸스먼트 벡터 (EV12) 의 프레임의 예를 도시한다.

상술된 바와 같이, 인핸스먼트 벡터 생성기 (VG100) 는 스펙트럼 신호로서 (즉, 주파수 도메인에서) 스피치 신호 (S40) 를 프로세싱하도록 구성될 수도 있다. 스피치 신호 (S40) 의 주파수-도메인 인스턴스가 다르게 이용가능하지 않은 장치 (A100) 의 구현에 대해, 인핸스먼트 벡터 생성기 (VG100) 의 그러한 구현은 스피치 신호 (S40) 의 시간-도메인 인스턴스에 대해 변환 동작 (예컨대, FFT) 를 수행하도록 배열된 변환 모듈 (TR10) 의 인스턴스를 포함할 수도 있다. 그러한 경우에서, 인핸스먼트 부대역 신호 생성기 (EG100) 는 주파수 도메인에서 인핸스먼트 벡터 (EV10) 를 프로세싱하도록 구성될 수도 있거나, 또는 인핸스먼트 벡터 생성기 (VG100) 는 또한, 인핸스먼트 벡터 (EV10) 에 대해 역 변환 동작 (예컨대, 역 FFT) 을 수행하도록 배열된 역 변호나 모듈 (TR20) 의 인스턴스를 포함할 수도 있다.

선형 예측 분석은, 스피치 신호의 프레임 동안의 스피커의 성도 (vocal tract) 의 공진들을 모델링하는 전극 필터의 파라미터들을 계산하기 위해 사용될 수도 있다. 인핸스먼트 벡터 생성기 (VG100) 의 다른 예는 스피치 신호 (S40) 의 선형 예측 분석의 결과들에 기초하여 인핸스먼트 벡터 (EV10) 를 생성하도록 구성된다. 인핸스먼트 벡터 생성기 (VG100) 의 그러한 구현은, (프레임에 대해, 필터 계수들 또는 반향 계수들과 같은 선형 예측 코딩 (LPC) 계수들의 세트로부터 결정되는 바와 같은) 대응하는 전극 필터의 폴들에 기초하여 스피치 신호 (S40) 의 각각의 유성 프레임의 하나 이상 (예컨대, 2, 3, 4, 또는 5) 의 포먼트들을 트래킹하도록 구성될 수도 있다. 인핸스먼트 벡터 생성기 (VG100) 의 그러한 구현은, 포먼트들의 중심 주파수들에서의 스피치 신호 (S40) 에 대역통과 필터들을 적용함으로써, 또는 그렇지 않으면, 포먼트들의 중심 주파수들을 포함하는 (예컨대, 여기서 논의되는 바와 같은 균일한 또는 불균일한 부대역 분할 기법을 사용하여 정의되는 바와 같은) 스피치 신호 (S40) 의 부대역들을 부스트시킴으로써, 인핸스먼트 벡터 (EV10) 를 산출하도록 구성될 수도 있다.

또한, 인핸스먼트 벡터 생성기 (VG100) 는, 상술된 바와 같은 인핸스먼트 벡터 생성 동작의 스피치 신호 (S40) 업스트림에 대해 하나 이상의 프리프로세싱 동작들을 수행하도록 구성된 프리-인핸스먼트 프로세싱 모듈 (PM10) 을 포함하도록 구현될 수도 있다. 도 19b는 인핸스먼트 벡터 생성기 (VG110) 의 그러한 구현 (VG120) 의 블록도를 도시한다. 일례에서, 프리-인핸스먼트 프로세싱 모듈 (PM10) 은 스피치 신호 (S40) 에 대해 동적 범위 제어 동작 (예컨대, 압축 및/또는 확장) 을 수행하도록 구성된다. 동적 범위 압축 동작 (또한 "소프트 제한" 동작이라 호칭됨) 은, 임계값을 초과하는 입력 레벨들을, 1 보다 더 큰 입력-출력 비율에 따라 더 적은 양만큼 임계값을 초과하는 출력 값들로 매핑한다. 도 23a에서의 일점쇄선은 고정된 입력-출력 비율에 대한 그러한 전달 함수의 예를 도시하고, 도 23a에서의 실선은 입력 레벨에 따라 증가하는 입력-출력 비율에 대한 그러한 전달 함수의 예를 도시한다. 도 23b는 감각 파형에 대한 도 23a의 실선에 따른 동적 범위 압축 동작의 적용을 도시하며, 점선은 입력 파형을 표시하고, 실선은 압축된 파형을 표시한다.

도 24a는 입력 레벨에 따라 증가하고 저 주파수들에서 1 미만인 입력-출력 비율에 따라 임계값 아래의 입력 레벨들을 더 높은 출력 레벨들로 매핑하는 동적 범위 압축 동작에 대한 전달 함수의 예를 도시한다. 도 24b는 삼각 파형에 대한 그러한 동작의 적용을 도시하며, 점선은 입력 파형을 표시하고, 실선은 압축된 파형을 표시한다.

도 23b 및 도 24b의 예들에서 도시된 바와 같이, 프리-인핸스먼트 프로세싱 모듈 (PM10) 은 (예컨대, FFT 동작의 업스트림과 같은) 시간 도메인에서 스피치 신호 (S40) 에 대해 동적 범위 제어 동작을 수행하도록 구성될 수도 있다. 다르게는, 프리-인핸스먼트 프로세싱 모듈 (PM10) 은 스피치 신호 (S40) 의 스펙트럼에 대해 (즉, 주파수 도메인에서) 동적 범위 제어 동작을 수행하도록 구성될 수도 있다.

다르게는 또한 또는, 프리-인핸스먼트 프로세싱 모듈 (PM10) 은 인핸스먼트 벡터 생성 동작의 업스트림에서 스피치 신호 (S40) 에 대해 적응적 등화 동작을 수행하도록 구성될 수도 있다. 이 경우에서, 프리-인핸스먼트 프로세싱 모듈 (PM10) 은 스피치 신호 (S40) 의 스펙트럼에 노이즈 레퍼런스 (S30) 의 스펙트럼을 부가하도록 구성된다. 도 25는 실선이 등화 이전의 스피치 신호 (S40) 의 프레임의 스펙트럼을 표시하고, 점선이 노이즈 레퍼런스 (S30) 의 대응하는 프레임의 스펙트럼을 표시하며, 파선이 등화 이후의 스피치 신호 (S40) 의 스펙트럼을 표시하는 그러한 동작의 예를 도시한다. 이 예에서, 등화 이전에, 스피치 신호 (S40) 의 고 주파수 컴포넌트들은 노이즈에 의해 묻히고, 명료도를 증가시키리라 예상될 수도 있는, 등화 동작이 이들 컴포넌트들을 적응적으로 부스트시키는 것이 관측될 수도 있다. 여기서 설명되는 바와 같이, 프리-인핸스먼트 프로세싱 모듈 (PM10) 은 스피치 신호 (S40) 의 주파수 부대역들의 세트의 각각에 대해, 또는 풀 FFT 분해능에서 그러한 적응적 등화 동작을 수행하도록 구성될 수도 있다.

SSP 필터 (SS10) 가 이미 스피치 신호로부터 노이즈를 분리시키도록 동작하므로, 장치 (A110) 가 소스 신호 (S20) 에 대해 적응적 등화 동작을 수행하는 것이 불필요할 수도 있다는 것이 명백하게 주의된다. 그러나, 그러한 동작은, 그러한 장치에서 소스 신호 (S20) 와 노이즈 레퍼런스 (S30) 사이의 분리가 (예컨대, 분리 평가기 (EV10) 를 참조하여 이하 설명되는 바와 같이) 부적절한 프레임들에 대해 유용하게 될 수도 있다.

도 25의 예에서 도시된 바와 같이, 스피치 신호들은, 신호 전력이 더 높은 주파수들에서 롤 오프하면서 하향의 스펙트럼 틸트 (tilt) 를 가지려는 경향을 갖는다. 노이즈 레퍼런스 (S30) 의 스펙트럼이 스피치 신호 (S40) 의 스펙트럼보다 더 편평하려는 경향을 갖기 때문에, 적응적 등화 동작은 이 하향의 스펙트럼 틸트를 감소시키려는 경향을 갖는다.

틸트-감소된 신호를 획득하기 위해 프리-인핸스먼트 프로세싱 모듈 (PM10) 에 의해 스피치 신호 (S40) 에 대해 수행될 수도 있는 틸트-감소 프리프로세싱 동작의 다른 예는 프리-앰퍼시스이다. 통상적인 구현에서, 프리-인핸스먼트 프로세싱 모듈 (PM10) 은, 1 - αz^- ¹ 의 형태의 1차 고역통과 필터를 적용함으로써 스피치 신호 (S40) 에 대해 프리-앰퍼시스를 수행하도록 구성되며, α 는 0.9 에서 1.0 의 범위 내의 값을 갖는다. 통상적으로, 그러한 필터는 옥타브 당 약 6 dB 만큼 고-주파수 컴포넌트들을 부스트시키도록 구성된다. 또한, 틸트-감소 동작은 스펙트럼 피크들의 크기들 사이의 차이를 감소시킬 수도 있다. 예컨대, 그러한 동작은, 저-주파수 제 1 포먼트의 진폭에 대하여 더 높은 주파수 제 2 및 제 3 포먼트들의 진폭들을 증가시킴으로써 스피치 신호를 등화시킬 수도 있다. 틸트-감소 동작의 다른 예는 스피치 신호 (S40) 의 스펙트럼에 이득 계수를 적용하며, 이득 계수의 값은 주파수에 따라 증가하고 노이즈 레퍼런스 (S30) 에 의존하지 않는다.

인핸서 (EN10a) 가, 스피치 신호 (S40) 로부터의 정보에 기초하여 제 1 인핸스먼트 벡터 (EV10a) 를 생성하도록 배열된 인핸스먼트 벡터 생성기 (VG100) 의 구현 (VG100a) 을 포함하고, 인핸서 (EN10b) 가, 소스 신호 (S20) 로부터의 정보에 기초하여 제 2 인핸스먼트 벡터 (VG10b) 를 생성하도록 배열된 인핸스먼트 벡터 생성기 (VG100) 의 구현 (VG100b) 을 포함하도록, 장치 (A120) 를 구현하는 것이 바람직할 수도 있다. 그러한 경우에서, 생성기 (VG100a) 는 생성기 (VG100b) 와 상이한 인핸스먼트 벡터 생성 동작을 수행하도록 구성될 수도 있다. 일례에서, 생성기 (VG100a) 는 선형 예측 계수들의 세트로부터 스피치 신호 (S40) 의 하나 이상의 포먼트들을 트래킹함으로써 인핸스먼트 벡터 (VG10a) 를 생성하도록 구성되며, 생성기 (VG100b) 는 소스 신호 (S20) 의 평활화된 스펙트럼들의 비율을 계산함으로써 인핸스먼트 벡터 (VG10b) 를 생성하도록 구성된다.

노이즈 부대역 신호 생성기 (NG100), 스피치 부대역 신호 생성기 (SG100), 및 인핸스먼트 부대역 신호 생성기 (EG100) 중 임의의 것 또는 전부는 도 26a에서 도시된 바와 같은 부대역 신호 생성기 (SG200) 의 각각의 인스턴스들로서 구현될 수도 있다. 부대역 신호 생성기 (SG200) 는 신호 (A) (즉, 적절하게 노이즈 레퍼런스 (S30), 스피치 신호 (S40), 또는 인핸스먼트 벡터 (EV10)) 로부터의 정보에 기초하여 q 개의 부대역 신호들 (S(i)) 의 세트를 산출하도록 구성되며, 1 ≤ i ≤ q 이고, q 는 (예컨대, 4, 7, 8, 12, 16, 24 와 같은) 부대역들의 원하는 수이다. 이 경우에서, 부대역 신호 생성기 (SG200) 는, (통과대역을 부스트시키고/시키거나 저지대역을 감쇠시킴으로써) 신호 (A) 의 다른 부대역들에 대하여 신호 (A) 의 대응하는 부대역에 상이한 이득을 적용함으로써, 부대역 신호들 (S(1) 내지 S(q)) 의 각각을 산출하도록 구성된 부대역 필터 어레이 (SG10) 를 포함한다.

부대역 필터 어레이 (SG10) 는 상이한 부대역 신호들을 병렬로 산출하도록 구성된 2 개 이상의 컴포넌트 필터들을 포함하도록 구현될 수도 있다. 도 28은 신호 (A) 의 부대역 분해 (decomposition) 를 수행하기 위해 병렬로 배열된 q 개의 대역통과 필터들 (F10-1 내지 F10-q) 의 어레이를 포함하는 부대역 필터 어레이 (SG10) 의 그러한 구현 (SG12) 의 블록도를 도시한다. 필터들 (F10-1 내지 F10-q) 의 각각은 신호 (A) 를 필터링하여 q 개의 부대역 신호들 (S(1) 내지 S(q)) 중 대응하는 하나를 산출하도록 구성된다.

필터들 (F10-1 내지 F10-q) 의 각각은 유한 임펄스 응답 (FIR) 또는 무한 임펄스 응답 (IIR) 을 갖도록 구현될 수도 있다. 일례에서, 부대역 필터 어레이 (SG12) 는 웨이블렛 또는 다상 분석 필터 뱅크로서 구현된다. 다른 예에서, 필터들 (F10-1 내지 F10-q) 중 하나 이상의 각각 (가능하게는 모두) 은 2차 IIR 섹션 또는 "바이쿼드 (biquad)" 로서 구현된다. 바이쿼드의 전달 함수는 다음과 같이 표현될 수도 있다.

특히 인핸서 (EN10) 의 부동 소수점 구현들에 대해, 전치 직접형 (transposed direct form) II 를 사용하여 각각의 바이쿼드를 구현하는 것이 바람직할 수도 있다. 도 29a는 필터들 (F10-1 내지 F10-q) 중 하나의 일반적인 IIR 필터 구현에 대한 전치 직접형 II 를 예시하고, 도 29b는 필터들 (10-1 내지 10-q) 중 하나 (F10-i) 의 바이쿼드 구현에 대한 전치 직접형 II 를 예시한다. 도 30은 필터들 (F10-1 내지 F10-q) 중 하나의 바이쿼드 구현의 일례에 대한 크기 및 위상 응답 플롯들을 도시한다.

필터들 (F10-1 내지 F10-q) 이 (예컨대, 필터 통과대역들이 동일한 폭들을 갖도록) 균일한 부대역 분해가 아닌 신호 (A) 의 (예컨대, 2 개 이상의 필터 통과대역들이 상이한 폭들을 갖도록) 불균일한 부대역 분해를 수행하는 것이 바람직할 수도 있다. 상술된 바와 같이, 불균일한 부대역 분할 기법들의 예들은, 바크 (Bark) 스케일에 기초한 기법과 같은 초월 (transcendental) 기법들, 또는 멜 (Mel) 스케일에 기초한 기법과 같은 로그 기법들을 포함한다. 일 그러한 분할 기법은 도 27 에서 주파수들 20, 300, 630, 1080, 1720, 2700, 4400, 및 7700 ㎐ 에 대응하고 폭들이 주파수에 따라 증가하는 7 개의 바크 스케일 부대역들의 세트의 에지들을 표시하는 점들에 의해 예시된다. 부대역들의 그러한 배열은 광대역 스피치 프로세싱 시스템 (예컨대, 16 ㎑ 의 샘플링 레이트를 갖는 디바이스) 에서 사용될 수도 있다. 그러한 분할 기법의 다른 예들에서, 6-부대역 기법을 획득하기 위해 최저 부대역이 제외되고/되거나 최고 부대역의 상한은 7700 ㎐ 에서 8000 ㎐ 까지 증가된다.

협대역 스피치 프로세싱 시스템 (예컨대, 8 ㎑ 의 샘플링 레이트를 갖는 디바이스) 에서, 더 적은 부대역들의 배열을 사용하는 것이 바람직할 수도 있다. 그러한 부대역 분할 기법의 일례는 4-대역 쿼지-바크 기법 300-510 ㎐, 510-920 ㎐, 920-1480 ㎐, 및 1480-4000 ㎐ 이다. (예컨대 이 예에서와 같은) 고-주파수 광대역의 사용은, 저 부대역 에너지 추정 때문에 바람직할 수도 있고/있거나 바이쿼드로 최고 부대역을 모델링하는데 있어서의 어려움을 처리하는 것이 바람직할 수도 있다.

필터들 (F10-1 내지 F10-q) 의 각각은 대응하는 부대역에 걸친 이득 부스트 (즉, 신호 크기에서의 증가) 및/또는 다른 부대역들에 걸친 감쇠 (즉, 신호 크기에서의 감소) 를 제공하도록 구성된다. 필터들의 각각은 약 동일한 양 만큼 (예컨대, 3 dB 만큼, 또는 6 dB 만큼) 필터들의 각각의 통과대역을 부스트시키도록 구성될 수도 있다. 다르게는, 필터들의 각각은 약 동일한 양 만큼 (예컨대, 3 dB 만큼, 또는 6dB 만큼) 필터들의 각각의 저지대역을 감쇠시키도록 구성될 수도 있다. 도 31은 필터들 (F10-1 내지 F10-q) 의 세트를 구현하기 위해 사용될 수도 있는 7 개의 바이쿼드들의 시리즈에 대한 크기 및 위상 응답들을 도시하며, q 는 7 과 동일하다. 이 예에서, 각각의 필터는 약 동일한 양 만큼 그것의 각각의 부대역을 부스트시키도록 구성된다. 각각의 필터가 동일한 피크 응답을 갖고 필터들의 대역폭들이 주파수에 따라 증가하도록 필터들 (F10-1 내지 F10-q) 을 구성하는 것이 바람직할 수도 있다.

다르게는, 필터들 (F10-1 내지 F10-q) 중 다른 것보다 더 큰 부스트 (또는 감쇠) 를 제공하도록 필터들 (F10-1 내지 F10-q) 중 하나 이상을 구성하는 것이 바람직할 수도 있다. 예컨대, 노이즈 부대역 신호 생성기 (NG100), 스피치 부대역 신호 생성기 (SG100), 및 인핸스먼트 부대역 신호 생성기 (EG100) 사이에서 부대역 필터 어레이 (SG10) 의 필터들 (F10-1 내지 F10-q) 의 각각을 하나로 구성하여, 그것의 각각의 부대역에 동일한 이득 부스트 (또는 다른 부대역들에 감쇠) 를 제공하며, 노이즈 부대역 신호 생성기 (NG100), 스피치 부대역 신호 생성기 (SG100), 및 인핸스먼트 부대역 신호 생성기 (EG100) 사이에서 부대역 필터 어레이 (SG10) 의 필터들 (F10-1 내지 F10-q) 중 적어도 일부를 다른 하나로 구성하여, 예컨대 원하는 음향심리 가중화 함수에 따라 서로 상이한 이득 부스트들 (또는 감쇠들) 을 제공하는 것이 바람직할 수도 있다.

도 28은 필터들 (F10-1 내지 F10-q) 이 병렬로 부대역 신호들 (S(1) 내지 S(q)) 을 산출하는 배열을 도시한다. 당업자는, 이들 필터들 중 하나 이상의 각각이 또한 2 개 이상의 부대역 신호들을 시리즈로 산출하도록 구현될 수도 있다는 것을 이해할 것이다. 예컨대, 부대역 필터 어레이 (SG10) 는, 신호 (A) 를 필터링하여 부대역 신호들 (S(1) 내지 S(q)) 중 하나를 산출하도록 필터 계수 값들의 제 1 세트로 일 시간에서 구성되고, 신호 (A) 를 필터링하여 부대역 신호들 (S(1) 내지 S(q)) 중 다른 하나를 산출하도록 필터 계수 값들의 제 2 세트로 후속 시간에서 구성되는 필터 구조 (예컨대, 바이쿼드) 를 포함하도록 구현될 수도 있다. 그러한 경우에서, 부대역 필터 어레이 (SG10) 는 q 개의 대역통과 필터들보다 더 적게 사용하여 구현될 수도 있다. 예컨대, 필터 계수 값들의 q 개의 세트들의 각각에 따라 q 개의 부대역 신호들 (S(1) 내지 S(q)) 의 각각을 산출하도록 직렬로 재구성된 단일의 필터 구조로 부대역 필터 어레이 (SG10) 를 구현하는 것이 가능하다.

다르게는 또는 또한, 노이즈 부대역 신호 생성기 (NG100), 스피치 부대역 신호 생성기 (SG100), 및 인핸스먼트 부대역 신호 생성기 (EG100) 중 임의의 것 또는 모두는 도 26b에서 도시된 바와 같은 부대역 신호 생성기 (SG300) 의 인스턴스로서 구현될 수도 있다. 부대역 신호 생성기 (SG300) 는 신호 (A) (즉, 적절하게 노이즈 레퍼런스 (S30), 스피치 신호 (S40), 또는 인핸스먼트 벡터 (EV10)) 로부터의 정보에 기초하여 q 개의 부대역 신호들 (S(i)) 의 세트를 산출하도록 구성되며, 1 ≤ i ≤ q 이며, q 는 부대역들의 원하는 수이다. 부대역 신호 생성기 (SG300) 는 신호 (A) 에 대해 변환 동작을 수행하여 변환된 신호 (T) 를 산출하도록 구성된 변환 모듈 (G20) 을 포함한다. 변환 모듈 (SG20) 은 (고속 푸리에 변환 또는 FFT 를 통해) 신호 (A) 에 대해 주파수 도메인 변환 동작을 수행하여 주파수-도메인 변환된 신호를 산출하도록 구성될 수도 있다. 변환 모듈 (SG20) 의 다른 구현들은 웨이블렛 변환 동작 또는 이산 코사인 변환 (DCT) 동작과 같은 상이한 변환 동작을 신호 (A) 에 대해 수행하도록 구성될 수도 있다. 변환 동작은 원하는 균일한 분해능 (예컨대, 32-, 64-, 128-, 256-, 또는 512-포인트 FFT 동작) 에 따라 수행될 수도 있다.

또한, 부대역 신호 생성기 (SG300) 는, 원하는 부대역 분할 기법에 따라, 변환된 신호 (T) 를 빈들의 세트로 분할함으로써, q 개의 빈들의 세트로서 부대역 신호들 (S(i)) 의 세트를 산출하도록 구성된 비닝 모듈 (SG30) 을 포함한다. 비닝 모듈 (SG30) 은 균일한 부대역 분할 기법을 적용하도록 구성될 수도 있다. 균일한 부대역 분할 기법에서, 각각의 빈은 실질적으로 동일한 폭 (예컨대, 약 10 퍼센트 이내) 을 갖는다. 다르게는, 음향심리 연구들이 주파수 도메인에서의 불균일한 분해능에 대해 인간 청각이 동작하는 것을 보여주므로, 비닝 모듈 (SG30) 이 불균일한 부대역 분할 기법을 적용하는 것이 바람직할 수도 있다. 불균일한 부대역 분할 기법들의 예들은 바크 스케일에 기초한 기법과 같은 초월 기법들 또는 멜 스케일에 기초한 기법과 같은 로그 기법을 포함한다. 도 27에서의 점들의 행은 주파수들 20, 300, 630, 1080, 1720, 2700, 4400, 및 7700 ㎐ 에 대응하는 7 개의 바크 스케일 부대역들의 세트의 에지들을 표시한다. 부대역들의 그러한 배열은 16 ㎑ 의 샘플링 레이트를 갖는 광대역 스피치 프로세싱 시스템에서 사용될 수도 있다. 그러한 분할 기법의 다른 예들에서, 6-부대역 배열을 획득하기 위해 더 낮은 부대역이 제외되고/되거나 고-주파수 한계가 7700 ㎐ 에서 8000 ㎐ 까지 증가된다. 통상적으로, 비닝 모듈 (SG30) 은 변환된 신호 (T) 를 비중첩하는 빈들의 세트로 분할하도록 구현되지만, 비닝 모듈 (SG30) 은 또한, 빈들 중 하나 이상 (가능하게는 모두) 이 적어도 하나의 이웃하는 빈을 중첩하도록 구현될 수도 있다.

상기 부대역 신호 생성기들 (SG200 및 SG300) 의 논의들은 신호 생성기가 신호 (A) 를 시간-도메인 신호로서 수신한다고 가정한다. 다르게는, 노이즈 부대역 신호 생성기 (NG100), 스피치 부대역 신호 생성기 (SG100), 및 인핸스먼트 부대역 신호 생성기 (EG100) 중 임의의 것 또는 모두는 도 26c에서 도시된 바와 같은 부대역 신호 생성기 (SG400) 의 인스턴스로서 구현될 수도 있다. 부대역 신호 생성기 (SG400) 는 신호 (A) (즉, 노이즈 레퍼런스 (S30), 스피치 신호 (S40), 또는 인핸스먼트 벡터 (EV10)) 를 변환-도메인 신호로서 수신하고, 신호 (A) 로부터의 정보에 기초하여 q 개의 부대역 신호들 (S(i)) 의 세트를 산출하도록 구성된다. 예컨대, 부대역 신호 생성기 (SG400) 는 주파수-도메인 신호로서 또는 웨이블렛 변환, DCT, 또는 다른 변환 도메인에서의 신호로서 신호 (A) 를 수신하도록 구성될 수도 있다. 이 예에서, 상술된 바와 같이, 부대역 신호 생성기 (SG400) 는 비닝 모듈 (SG30) 의 인스턴스로서 구현된다.

노이즈 부대역 전력 추정치 계산기 (NP100) 및 인핸스먼트 부대역 전력 추정치 계산기 (EP100) 중 어느 하나 또는 양자 모두는 도 26d에서 도시된 바와 같은 부대역 전력 추정치 계산기 (EC110) 의 인스턴스로서 구현될 수도 있다. 부대역 전력 추정치 계산기 (EC110) 는, 부대역 신호들 (S(i)) 의 세트를 수신하고 q 개의 부대역 전력 추정치들 (E(i)) 의 대응하는 세트를 산출하도록 구성된 합산기 (EC(10)) 를 포함하며, 1 ≤ i ≤ q 이다. 통상적으로, 합산기 (EC10) 는 신호 (A) (즉, 적절하게 노이즈 레퍼런스 (S30) 또는 인핸스먼트 벡터 (EV10)) 의 연속 샘플들 (또한, "프레임" 이라 호칭됨) 의 각각의 블록에 대한 q 개의 부대역 전력 추정치들의 세트를 계산하도록 구성된다. 통상적인 프레임 길이들은 약 5 또는 10 밀리초에서 약 40 또는 50 밀리초까지의 범위를 갖고, 프레임들은 중첩하거나 또는 비중첩할 수도 있다. 또한, 하나의 동작에 의해 프로세싱되는 바와 같은 프레임은 상이한 동작에 의해 프로세싱되는 바와 같은 더 큰 프레임의 세그먼트 (즉 "서브프레임") 일 수도 있다. 일 특정한 예에서, 신호 (A) 는 10-밀리초 비중첩 프레임들의 시퀀스들로 분할되고, 합산기 (EC10) 는 신호 (A) 의 각각의 프레임에 대한 q 개의 부대역 전력 추정치들의 세트를 계산하도록 구성된다.

일례에서, 합산기 (EC10) 는 부대역 신호들 (S(i)) 중 대응하는 하나의 값들의 제곱들의 합으로서 부대역 전력 추정치들 (E(i)) 의 각각을 계산하도록 구성된다. 합산기 (EC10) 의 그러한 구현은 다음과 같은 표현에 따라, 신호 (A) 의 각각의 프레임에 대한 q 개의 부대역 전력 추정치들의 세트를 계산하도록 구성될 수도 있다.

E(i,k) 는 부대역 (i) 및 프레임 (k) 에 대한 부대역 전력 추정치를 나타내며, S(i,j) 는 i 번째 부대역 신호의 j 번째 샘플을 나타낸다.

다른 예에서, 합산기 (EC10) 는 부대역 신호들 (S(i)) 중 대응하는 하나의 값들의 크기들의 합으로서 부대역 전력 추정치들 (E(i)) 의 각각을 계산하도록 구성된다. 합산기 (EC10) 의 그러한 구현은 다음과 같은 표현에 따라 신호 (A) 의 각각의 프레임에 대한 q 개의 부대역 전력 추정치들의 세트를 계산하도록 구성될 수도 있다.

신호 (A) 의 대응하는 합에 의해 각각의 부대역 합을 정규화하도록 합산기 (EC10) 를 구현하는 것이 바람직할 수도 있다. 일 그러한 예에서, 합산기 (EC10) 는, 신호 (A) 의 값들의 제곱들의 합에 의해 제산된, 부대역 신호들 (S(i)) 중 대응하는 하나의 값들의 제곱들의 합으로서 부대역 전력 추정치들 (E(i)) 의 각각을 계산하도록 구성된다. 합산기 (EC(10)) 의 그러한 구현은 다음과 같은 표현에 따라 신호 (A) 의 각각의 프레임에 대한 q 개의 부대역 전력 추정치들의 세트를 계산하도록 구성될 수도 있다.

A(j) 는 신호 (A) 의 j 번째 샘플을 나타낸다. 다른 그러한 예에서, 합산기 (EC10) 는, 신호 (A) 의 값들의 크기들의 합에 의해 제산된, 부대역 신호들 (S(i)) 중 대응하는 하나의 값들의 크기들의 합으로서 각각의 부대역 전력 추정치를 계산하도록 구성된다. 합산기 (EC10) 의 그러한 구현은 다음과 같은 표현에 따라 오디오 신호의 각각의 프레임에 대한 q 개의 부대역 전력 추정치들의 세트를 계산하도록 구성될 수도 있다.

다르게는, 비닝 모듈 (SG30) 의 구현에 의해 부대역 신호들 (S(i)) 의 세트가 산출되는 경우에 대해, 합산기 (EC10) 가 부대역 신호들 (S(i)) 중 대응하는 하나에서의 샘플들의 총 수에 의해 각각의 부대역 합을 정규화하는 것이 바람직할 수도 있다. (예컨대, 상기 표현들 (4a) 및 (4b) 에서와 같이) 각각의 부대역 합을 정규화하기 위해 분할 동작이 사용되는 경우들에 대해, 0 으로 제산하는 가능성을 회피하기 위해, 작은 0 이 아닌 값 (

) (예컨대, 포지티브) 을 분모에 부가하는 것이 바람직할 수도 있다. 값 (

) 은 모든 부대역들에 대해 동일할 수도 있거나, 또는

의 상이한 값이 (예컨대, 튜닝 및/또는 가중화 목적들을 위해) 부대역들 중 2 개 이상 (가능하게는 모두) 의 각각에 대해 사용될 수도 있다.

의 값 (또는 값들) 은 고정될 수도 있거나 또는 시간에 걸쳐 (예컨대, 하나의 프레임으로부터 다음 프레임으로) 적응될 수도 있다.

다르게는, 신호 (A) 의 대응하는 합을 감산함으로써 각각의 부대역 합을 정규화하도록 합산기 (EC10) 를 구현하는 것이 바람직할 수도 있다. 일 그러한 예에서, 합산기 (EC10) 는, 부대역 신호들 (S(i)) 중 대응하는 하나의 값들의 제곱들의 합과 신호 (A) 의 값들의 제곱들의 합 사이의 차이로서 부대역 전력 추정치들 (E(i)) 의 각각을 계산하도록 구성된다. 합산기 (EC10) 의 그러한 구현은 다음과 같은 표현에 따라 신호 (A) 의 각각의 프레임에 대한 q 개의 부대역 전력 추정치들의 세트를 계산하도록 구성될 수도 있다.

다른 그러한 예에서, 합산기 (EC10) 는 신호 (A) 의 값들의 크기들의 합과 부대역 신호들 (S(i)) 중 대응하는 하나의 값들의 크기들의 합 사이의 차이로서 부대역 전력 추정치들 (E(i)) 의 각각을 계산하도록 구성된다. 합산기 (EC10) 의 그러한 구현은 다음과 같은 표현에 따라 신호 (A) 의 각각의 프레임에 대한 q 개의 부대역 전력 추정치들의 세트를 계산하도록 구성될 수도 있다.

예컨대, 부대역 필터 어레이 (SG10) 의 부스팅 구현으로서 노이즈 부대역 신호 생성기 (NG100) 를 구현하고, 표현 (5b) 에 따라 q 개의 부대역 전력 추정치들의 세트를 계산하도록 구성된 합산기 (EC10) 의 구현으로서 노이즈 부대역 전력 추정치 계산기 (NP100) 를 구현하는 것이 바람직할 수도 있다. 다르게는 또는 또한, 부대역 필터 어레이 (SG10) 의 부스팅 구현으로서 인핸스먼트 부대역 신호 생성기 (EG100) 를 구현하고, 표현 (5b) 에 따라 q 개의 부대역 전력 추정치들의 세트를 계산하도록 구성된 합산기 (EC10) 의 구현으로서 인핸스먼트 부대역 전력 추정치 계산기 (EP100) 를 구현하는 것이 바람직할 수도 있다.

노이즈 부대역 전력 추정치 계산기 (NP100) 와 인핸스먼트 부대역 전력 추정치 계산기 (EP100) 중 어느 하나 또는 양자 모두는 부대역 전력 추정치들에 대해 시간적 평활화 동작을 수행하도록 구성될 수도 있다. 예컨대, 노이즈 부대역 전력 추정치 계산기 (NP100) 와 인핸스먼트 부대역 전력 추정치 계산기 (EP100) 중 어느 하나 또는 양자 모두는 도 26e에서 도시된 바와 같은 부대역 전력 추정치 계산기 (EC120) 의 인스턴스로서 구현될 수도 있다. 부대역 전력 추정치 계산기 (EC120)는, 합산기 (EC10) 에 의해 시간에 걸쳐 계산된 합들을 평활화하여 부대역 전력 추정치들 (E(i)) 을 산출하도록 구성된 평활화기 (EC20) 를 포함한다. 평활화기 (EC20) 는 부대역 전력 추정치들 (E(i)) 을 합들의 러닝 (running) 평균들로서 연산하도록 구성될 수도 있다. 평활화기 (EC20) 의 그러한 구현은 다음 중 하나와 같은 선형 평활화 표현에 따라 신호 (A) 의 각각의 프레임에 대한 q 개의 부대역 전력 추정치들 (E(i)) 의 세트를 계산하도록 구성될 수도 있다.

1 ≤ i ≤ q 이며, 평활화 계수 (α) 는 0 (평활화되지 않음) 에서 1 (최대 평활화, 업데이트하지 않음) (예컨대, 0.3, 0.5, 0.7, 0.9, 0.99, 또는 0.999) 까지의 범위 내의 값이다. 평활화기 (EC20) 가 q 개의 부대역들의 모두에 대한 평활화 계수 (α) 의 동일한 값을 사용하는 것이 바람직할 수도 있다. 다르게는, 평활화기 (EC20) 가 q 개의 부대역들 중 2 개 이상 (가능하게는 모두) 의 각각에 대한 평활화 계수 (α) 의 상이한 값을 사용하는 것이 바람직할 수도 있다. 평활화 계수 (α) 의 값 (또는 값들) 은 고정될 수도 있거나 또는 시간에 걸쳐 (하나의 프레임으로부터 다음 프레임으로) 적응될 수도 있다.

부대역 전력 추정치 계산기 (EC120) 의 일 특정한 예는, 상기 표현 (3) 에 따라 q 개의 부대역 합들을 계산하고, 상기 표현 (7) 에 따라 q 개의 대응하는 부대역 전력 추정치들을 계산하도록 구성된다. 부대역 전력 추정치 계산기 (EC120) 의 다른 특정한 예는, 상기 표현 (5b) 에 따라 q 개의 부대역 합들을 계산하고, 상기 표현 (7) 에 따라 q 개의 대응하는 부대역 전력 추정치들을 계산하도록 구성된다. 그러나, 표현들 (6) 내지 (8) 중 하나와 표현들 (2) 내지 (5b) 중 하나의 18 개의 가능한 조합들의 모두는 여기서 개별적으로 명백하게 개시된다. 평활화기 (EC20) 의 다른 구현은 합산기 (EC10) 에 의해 계산된 합들에 대해 비선형 평활화 동작을 수행하도록 구성될 수도 있다.

상술된 부대역 전력 추정치 계산기 (EC110) 의 구현들이 시간-도메인 신호들로서 또는 변환 도메인에서의 신호들 (예컨대, 주파수-도메인 신호들) 로서 부대역 신호들 (S(i)) 의 세트를 수신하도록 배열될 수도 있다는 것이 명백하게 주의된다.

이득 제어 엘리먼트 (CE100) 는 스피치 신호 (S40) 의 대응하는 부대역에 복수의 부대역 이득 계수들의 각각을 적용하여 콘트라스트-증대된 스피치 신호 (SC10) 를 산출하도록 구성된다. 인핸서 (EN10) 는, 이득 제어 엘리먼트 (CE100) 가 복수의 이득 계수들로서 인핸스먼트 부대역 전력 추정치들을 수신하도록 배열되도록 구현될 수도 있다. 다르게는, 이득 제어 엘리먼트 (CE100) 는 (예컨대, 도 12에서 도시된 바와 같은) 부대역 이득 계수 계산기 (FC100) 로부터 복수의 이득 계수들을 수신하도록 구성될 수도 있다.

부대역 이득 계수 계산기 (FC100) 는, 대응하는 인핸스먼트 부대역 전력 추정치로부터의 정보에 기초하여, q 개의 부대역들의 각각에 대한 이득 계수들 (G(i)) 중 대응하는 하나를 계산하도록 구성되며, 1 ≤ i ≤ q 이다. 계산기 (FC100) 는, (예컨대,

및/또는

와 같은 표현에 따라) 상한 (UL) 및/또는 하한 (LL) 을 대응하는 인핸스먼트 부대역 전력 추정치 (E(i)) 에 적용함으로써, 부대역 이득 계수들 중 하나 이상 (가능하게는 모두) 의 각각을 계산하도록 구성될 수도 있다. 또한 또는 다르게는, 계산기 (FC100) 는 대응하는 인핸스먼트 부대역 전력 추정치를 정규화함으로써, 부대역 이득 계수들 중 하나 이상 (가능하게는 모두) 의 각각을 계산하도록 구성될 수도 있다. 예컨대, 계산기 (FC100) 의 그러한 구현은 다음과 같은 표현에 따라 각각의 부대역 이득 계수 (G(i)) 를 계산하도록 구성될 수도 있다.

또한 또는 다르게는, 계산기 (FC100) 는 각각의 부대역 이득 계수에 대해 시간적 평활화 동작을 수행하도록 구성될 수도 있다.

부대역들의 중첩으로부터 발생할 수도 있는 과도한 부스팅을 보상하도록 인핸서 (EN10) 를 구성하는 것이 바람직할 수도 있다. 예컨대, 이득 계수 계산기 (FC100) 는 중간-주파수 이득 계수들 (예컨대, 주파수 fs/4 를 포함하는 부대역, fs 는 스피치 신호 (S40) 의 샘플링 주파수를 나타낸다) 중 하나 이상의 값을 감소시키도록 구성될 수도 있다. 이득 계수 계산기 (FC100) 의 그러한 구현은 이득 계수의 현재의 값을 1 미만의 값을 갖는 스케일 계수와 승산함으로써 감소를 수행하도록 구성될 수도 있다. 이득 계수 계산기 (FC100) 의 그러한 구현은, (예컨대, 하나 이상의 인접한 부대역들을 갖는 대응하는 부대역의 중첩의 정도에 기초하여) 스케일 다운될 각각의 이득 계수에 대해 동일한 스케일 계수를 사용하거나, 또는 다르게는, 스케일 다운될 각각의 이득 계수에 대해 상이한 스케일 계수들을 사용하도록 구성될 수도 있다.

또한 또는 다르게는, 고-주파수 부대역들 중 하나 이상의 부스팅의 정도를 증가시키도록 인핸서 (EN10) 를 구성하는 것이 바람직할 수도 있다. 예컨대, 스피치 신호 (S40) 의 하나 이상의 고-주파수 부대역들 (예컨대, 최고 부대역) 의 증폭이 중간-주파수 부대역 (예컨대, 주파수 fs/4 를 포함하는 부대역, fs 는 스피치 신호 (S40) 의 샘플링 주파수를 나타낸다) 의 증폭보다 더 낮지 않은 것을 보장하도록 이득 계수 계산기 (FC100) 를 구성하는 것이 바람직할 수도 있다. 이득 계수 계산기 (FC100) 는, 중간-주파수 부대역에 대한 이득 계수의 현재의 값을 1 보다 더 큰 스케일 계수와 승산함으로써, 고-주파수 부대역에 대한 이득 계수의 현재의 값을 계산하도록 구성될 수도 있다. 다른 예에서, 이득 계수 계산기 (FC100) 는, (A) 여기서 개시되는 기술들 중 임의의 기술에 따라 그 부대역에 대한 노이즈 전력 추정치에 기초하여 계산된 현재의 이득 계수 값, 및 (B) 중간-주파수 부대역에 대한 이득 계수의 현재의 값을 1 보다 더 큰 스케일 계수와 승산함으로써 획득된 값의 최대치로서 고-주파수 부대역에 대한 이득 계수의 현재의 값을 계산하도록 구성된다. 다르게는 또는 또한, 이득 계수 계산기 (FC100) 는 하나 이상의 고-주파수 부대역들에 대한 이득 계수들을 계산하는데 있어서의 상부 경계 (UB) 에 대해 더 높은 값을 사용하도록 구성될 수도 있다.

이득 제어 엘리먼트 (CE100) 는 스피치 신호 (S40) 의 대응하는 부대역에 이득 계수들의 각각을 적용하여 (예컨대, 이득 계수들의 벡터로서 스피치 신호 (S40) 에 이득 계수들을 적용하여) 콘트라스트-증대된 스피치 신호 (SC10) 를 산출하도록 구성된다. 이득 제어 엘리먼트 (CE100) 는, 예컨대 스피치 신호 (S40) 의 프레임의 주파수-도메인 부대역들의 각각을 대응하는 이득 계수 (G(i)) 와 승산함으로써, 콘트라스트-증대된 스피치 신호 (SC10) 의 주파수-도메인 버전을 산출하도록 구성될 수도 있다. 이득 제어 엘리먼트 (CE100) 의 다른 예들은 중첩-합산 (overlap-add) 또는 중첩-보류 (overlap-save) 방법을 사용하여 (예컨대, 합성 필터 뱅크의 각각의 필터들에 이득 계수들을 적용함으로써) 스피치 신호 (S40) 의 대응하는 부대역들에 이득 계수들을 적용하도록 구성된다.

이득 제어 엘리먼트 (CE100) 는 콘트라스트-증대된 스피치 신호 (SC10) 의 시간-도메인 버전을 산출하도록 구성될 수도 있다. 예컨대, 이득 제어 엘리먼트 (CE100) 는, 부대역 이득 제어 엘리먼트들의 각각이 부대역 신호들 (S(1) 내지 S(q)) 의 각각에 이득 계수들 (G(1) 내지 G(q)) 의 각각을 적용하도록 배열되는 부대역 이득 제어 엘리먼트들 (G20-1 내지 G20-q) (예컨대, 승산기들 또는 증폭기들) 의 어레이를 포함할 수도 있다.

부대역 믹싱 계수 계산기 (FC200) 는, 대응하는 노이즈 부대역 전력 추정치로부터의 정보에 기초하여, q 개의 부대역들의 각각에 대한 믹싱 계수들 (M(i)) 의 세트의 대응하는 하나를 계산하도록 구성되며, 1 ≤ i ≤ q 이다. 도 33a는 대응하는 부대역에 대한 노이즈 레벨 (

) 의 표시로서 각각의 믹싱 계수 (M(i)) 를 계산하도록 구성된 믹싱 계수 계산기 (FC200) 의 구현 (FC250) 의 블록도를 도시한다. 믹싱 계수 계산기 (FC250) 는, 각각의 노이즈 레벨 표시가 노이즈 레퍼런스 (S30) 의 대응하는 부대역에서의 상대적인 노이즈 레벨을 표시하도록, 노이즈 부대역 전력 추정치들의 대응하는 세트에 기초하여, 스피치 신호의 각각의 프레임 (k) 에 대한 노이즈 레벨 표시들 (

) 의 세트를 계산하도록 구성된 노이즈 레벨 표시 계산기 (NL10) 를 포함한다. 노이즈 레벨 표시 계산기 (NL10) 는 0 내지 1 과 같은 일부 범위에 걸친 값을 갖도록 노이즈 레벨 표시들의 각각을 계산하도록 구성될 수도 있다. 예컨대, 노이즈 레벨 표시 계산기 (NL10) 는 다음과 같은 표현에 따라 q 개의 노이즈 레벨 표시들의 세트의 각각을 계산하도록 구성될 수도 있다.

EN(i,k) 는 부대역 (i) 및 프레임 (k) 에 대한 노이즈 부대역 전력 추정치 계산기 (NP10) 에 의해 (즉, 노이즈 레퍼런스 (S20) 에 기초하여) 산출된 바와 같은 부대역 전력 추정치를 나타내고;

는 부대역 (i) 및 프레임 (k) 에 대한 노이즈 레벨 표시를 나타내며;

및

는

에 대한 최소 및 최대 값들을 각각 나타낸다.

노이즈 레벨 표시 계산기 (NL10) 의 그러한 구현은, q 개의 부대역들의 모두에 대한

및

의 동일한 값들을 사용하도록 구성될 수도 있거나, 또는 다르게는, 하나의 부대역에 대한

및/또는

의 다른 부대역과 상이한 값을 사용하도록 구성될 수도 있다. 이들 경계들의 각각의 값들은 고정될 수도 있다. 다르게는, 이들 경계들 중 어느 하나 또는 양자 모두의 값들은, 예컨대 프로세싱된 스피치 신호 (S50) 의 현재의 볼륨 (예컨대, 오디오 출력 스테이지 (O10) 를 참조하여 이하 설명되는 바와 같은 볼륨 제어 신호 (VS10) 의 현재의 값) 및/또는 인핸서 (EN10) 에 대한 원하는 헤드룸에 따라 적응될 수도 있다. 다르게는 또는 또한, 이들 경계들 중 어느 하나 또는 양자 모두의 값들은 스피치 신호 (S40) 의 현재의 레벨과 같은 스피치 신호 (S40) 로부터의 정보에 기초할 수도 있다. 다른 예에서, 노이즈 레벨 표시 계산기 (NL10) 는 다음과 같은 표현에 따라 부대역 전력 추정치들을 정규화함으로써 q 개의 노이즈 레벨 표시들의 세트의 각각을 계산하도록 구성된다.

또한, 믹싱 계수 계산기 (FC200) 는 믹싱 계수들 (M(i)) 중 하나 이상 (가능하게는 모두) 의 각각에 대해 평활화 동작을 수행하도록 구성될 수도 있다. 도 33b는, 노이즈 레벨 표시 계산기 (NL10) 에 의해 산출된 q 개의 노이즈 레벨 표시들 중 하나 이상 (가능하게는 모두) 의 각각에 대해 시간적 평활화 동작을 수행하도록 구성된 평활화기 (GC20) 를 포함하는 믹싱 계수 계산기 (FC250) 의 그러한 구현 (FC260) 의 블록도를 도시한다. 일례에서, 평활화기 (GC20) 는 다음과 같은 표현에 따라 q 개의 노이즈 레벨 표시들의 각각에 대해 선형 평활화 동작을 수행하도록 구성되며,

β 는 평활화 계수이다. 이 예에서, 평활화 계수 (β) 는 0 에서 (평활화되지 않음) 1 (최대 평활화, 업데이트하지 않음) (예컨대, 0.3, 0.5, 0.7, 0.9, 0.99, 또는 0.999) 까지의 범위 내의 값을 갖는다.

평활화기 (GC20) 가 믹싱 계수의 현재의 및 이전의 값들 사이의 관계에 따라 평활화 계수 (β) 의 2 개 이상의 값들 중에서 하나를 선택하는 것이 바람직할 수도 있다. 예컨대, 믹싱 계수 값들로 하여금 노이즈의 정도가 증가하고 있는 경우에 더 신속하게 변화하게 허용하고/하거나, 노이즈의 정도가 감소하고 있는 경우에 믹싱 계수 값들에서의 급격한 변화들을 억제함으로써, 미분 (differential) 시간적 평활화 동작을 평활화기 (GC29) 가 수행하는 것이 바람직할 수도 있다. 그러한 구성은, 라우드 노이즈가 그 노이즈가 종료한 이후에도 원하는 사운드를 마스킹하는 것을 계속하는 음향심리 시간적 마스킹 효과에 대항하는 것을 원조할 수도 있다. 따라서, 노이즈 레벨 표시의 현재의 값이 이전의 값보다 더 큰 경우의 평활화 계수 (β) 의 값과 비교하여, 노이즈 레벨 표시의 현재의 값이 이전의 값 미만인 경우에 평활화 계수 (β) 의 값이 더 크게 되는 것이 바람직할 수도 있다. 일 그러한 예에서, 평활화기 (GC20) 는 다음과 같은 표현에 따라 q 개의 노이즈 레벨 표시들의 각각에 대해 선형 평활화 동작을 수행하도록 구성되며,

1 ≤ i ≤ q 이고, β_att 는 평활화 계수 (β) 에 대한 어택 (attack) 값을 나타내고, β_dec 는 평활화 계수 (β) 에 대한 감쇄 값을 나타내며, β_att < β_dec 이다. 평활화기 (EC20) 의 다른 구현은 다음 중 하나와 같은 선형 평활화 표현에 따라 q 개의 노이즈 레벨 표시들의 각각에 대해 선형 평활화 동작을 수행하도록 구성된다.

평활화기 (GC20) 의 다른 구현은, 노이즈의 정도가 감소하고 있는 경우에 q 개의 믹싱 계수들 중 하나 이상 (가능하게는 모두) 에 대한 업데이트들을 지연시키도록 구성될 수도 있다. 예컨대, 평활화기 (CG20) 는, 예컨대 1 또는 2 에서 5, 6, 또는 8 까지의 범위 내에 있을 수도 있는 값 (hangover_max(i)) 에 의해 특정된 간격에 따라, 비율 감쇄 프로파일 동안에 업데이트들을 지연시키는 행오버 (hangover) 로직을 포함하도록 구현될 수도 있다. hangover_max 의 동일한 값이 각각의 부대역에 대해 사용될 수도 있고, hangover_max 의 상이한 값들이 상이한 부대역들에 대해 사용될 수도 있다.

믹서 (X100) 는 믹싱 계수들, 스피치 신호 (S40), 및 콘트라스트-증대된 신호 (SC10) 로부터의 정보에 기초하여 프로세싱된 스피치 신호 (S50) 를 산출하도록 구성된다. 예컨대, 인핸서 (EN100) 는,

와 같은 표현에 따라, 스피치 신호 (S40) 의 대응하는 주파수-도메인 부대역들과 콘트라스트-증대된 신호 (SC10) 를 믹싱함으로써, 프로세싱된 스피치 신호 (S50) 의 주파수-도메인 버전을 산출하도록 구성된 믹서 (X100) 의 구현을 포함할 수도 있으며, 1 ≤ i ≤ q 이고, P(i,k) 는 P(k) 의 부대역 (i) 을 표시하고, C(i,k) 는 콘트라스트-증대된 신호 (SC10) 의 부대역 (i) 및 프레임 (k) 을 표시하며, S(i,k) 는 스피치 신호 (S40) 의 부대역 (i) 및 프레임 (k) 을 표시한다. 다르게는, 인핸서 (EN100) 는,

과 같은 표현에 따라, 스피치 신호 (S40) 의 대응하는 시간-도메인 부대역들과 콘트라스트-증대된 신호 (SC10) 를 믹싱함으로써, 프로세싱된 스피치 신호 (S50) 의 시간-도메인 버전을 산출하도록 구성되며,

, 1 ≤ i ≤ q 이고, P(k) 는 프로세싱된 스피치 신호 (S50) 의 프레임 (k) 을 표시하고, P(i,k) 는 P(k) 의 부대역 (i) 을 표시하고, C(i,k) 는 콘트라스트-증대된 신호 (SC10) 의 부대역 (i) 및 프레임 (k) 을 표시하며, S(i,k) 는 스피치 신호 (S40) 의 부대역 (i) 및 프레임 (k) 을 표시한다.

고정된 또는 적응적 주파수 프로파일과 같은 부가적인 정보에 기초하여 프로세싱된 스피치 신호 (S50) 를 산출하도록 믹서 (X100) 를 구성하는 것이 바람직할 수도 있다. 예컨대, 마이크로폰 또는 스피커의 주파수 응답을 보상하기 위해 그러한 주파수 프로파일을 적용하는 것이 바람직할 수도 있다. 다르게는, 사용자-선택된 등화 프로파일을 설명하는 주파수 프로파일을 적용하는 것이 바람직할 수도 있다. 그러한 경우들에서, 믹서 (X100) 는

와 같은 표현에 따라, 프로세싱된 스피치 신호 (S50) 를 산출하도록 구성될 수도 있으며, 값들 (w_i) 은 원하는 주파수 가중화 프로파일을 정의한다.

도 32는 스펙트럼 콘트라스트 인핸서 (EN10) 의 구현 (EN110) 의 블록도를 도시한다. 인핸서 (EN110) 는, 스피치 신호 (S40) 로부터의 정보에 기초하여 스피치 부대역 신호들의 세트를 산출하도록 구성된 스피치 부대역 신호 생성기 (SG100) 를 포함한다. 위에서 주의된 바와 같이, 스피치 부대역 신호 생성기 (SG100) 는, 예컨대, 도 26a에서 도시된 바와 같은 부대역 신호 생성기 (SG200), 도 26b에서 도시된 바와 같은 부대역 신호 생성기 (SG300), 또는 도 26c에서 도시된 바와 같은 부대역 신호 생성기 (SG400) 의 인스턴스로서 구현될 수도 있다.

또한, 인핸서 (EN110) 는, 스피치 부대역 신호들 중 대응하는 하나로부터의 정보에 각각 기초하여 스피치 부대역 전력 추정치들의 세트를 산출하도록 구성된 스피치 부대역 전력 추정치 계산기 (SP100) 를 포함한다. 스피치 부대역 전력 추정치 계산기 (SP100) 는 도 26d에서 도시된 바와 같은 부대역 전력 추정치 계산기 (EC110) 의 인스턴스로서 구현될 수도 있다. 예컨대, 부대역 필터 어레이 (SG10) 의 부스팅 구현으로서 스피치 부대역 신호 생성기 (SG100) 를 구현하고, 표현 (5b) 에 따라 q 개의 부대역 전력 추정치들의 세트를 계산하도록 구성된 합산기 (EC10) 의 구현으로서 스피치 부대역 전력 추정치 계산기 (SP100) 를 구현하는 것이 바람직할 수도 있다. 또한 또는 다르게는, 스피치 부대역 전력 추정치 계산기 (SP100) 는 부대역 전력 추정치들에 대해 시간적 평활화 동작을 수행하도록 구성될 수도 있다. 예컨대, 스피치 부대역 전력 추정치 계산기 (SP100) 는 도 26e에서 도시된 바와 같은 부대역 전력 추정치 계산기 (EC120) 의 인스턴스로서 구현될 수도 있다.

또한, 인핸서 (EN110) 는, 대응하는 노이즈 부대역 전력 추정치 및 대응하는 인핸스먼트 부대역 전력 추정치로부터의 정보에 기초하여 스피치 부대역 신호들의 각각에 대한 이득 계수를 계산하도록 구성된 부대역 이득 계수 계산기 (FC100) (및 부대역 믹싱 계수 계산기 (FC200)) 의 구현 (FC300), 및 스피치 신호 (S40) 의 대응하는 부대역에 이득 계수들의 각각을 적용하여 프로세싱된 스피치 신호 (S50) 를 산출하도록 구성된 이득 제어 엘리먼트 (CE110) 를 포함한다. 적어도, 스펙트럼 콘트라스트 인핸스먼트가 인에이블 (enable) 되고 인핸스먼트 벡터 (EV10) 가 이득 계수 값들 중 적어도 하나에 기여하는 경우들에서, 프로세싱된 스피치 신호 (S50) 가 콘트라스트-증대된 스피치 신호라 지칭될 수도 있다는 것이 명백하게 주의된다.

이득 계수 계산기 (FC300) 는, 대응하는 노이즈 부대역 전력 추정치 및 대응하는 인핸스먼트 부대역 전력 추정치에 기초하여, q 개의 부대역들의 각각에 대한 이득 계수들 (G(i)) 의 세트 중 대응하는 하나를 계산하도록 구성되며, 1 ≤ i ≤ q 이다. 도 33c는, 대응하는 노이즈 부대역 전력 추정치를 사용하여 이득 계수에 대한 대응하는 인핸스먼트 부대역 전력 추정치의 기여를 가중화함으로써, 각각의 이득 계수 (G(i)) 를 계산하도록 구성된 이득 계수 계산기 (FC300) 의 구현 (FC310) 의 블록도를 도시한다.

이득 계수 계산기 (FC310) 는 믹싱 계수 계산기 (FC200) 를 참조하여 상술된 바와 같이 노이즈 레벨 표시 계산기 (NL10) 의 인스턴스를 포함한다. 또한, 이득 계수 계산기 (FC310) 는, 블렌딩 (blend) 된 부대역 전력 추정치와 대응하는 스피치 부대역 전력 추정치 (E_S(i,k)) 사이의 비율로서 스피치 신호의 각각의 프레임에 대한 q 개의 전력 비율들의 세트의 각각을 계산하도록 구성된 비율 계산기 (GC10) 를 포함한다. 예컨대, 이득 계수 계산기 (FC310) 는 다음과 같은 표현에 따라 스피치 신호의 각각의 프레임에 대한 q 개의 전력 비율들의 세트의 각각을 계산하도록 구성될 수도 있으며,

E_S(i,k) 는 부대역 (i) 및 프레임 (k) 에 대한 스피치 부대역 전력 추정치 계산기 (SP100) 에 의해 (즉, 스피치 신호 (S40) 에 기초하여) 산출된 바와 같은 부대역 전력 추정치를 나타내며, E_E(i,k) 는 부대역 (i) 및 프레임 (k) 에 대한 인핸스먼트 부대역 전력 추정치 계산기 (EP100) 에 의해 (즉, 인핸스먼트 벡터 (EV10) 에 기초하여) 산출된 바와 같은 부대역 전력 추정치를 나타낸다. 표현 (14) 의 분자는, 스피치 부대역 전력 추정치 및 대응하는 인핸스먼트 부대역 전력 추정치의 상대적인 기여들이 대응하는 노이즈 레벨 표시에 따라 가중화되는 블렌딩 (blend) 된 부대역 전력 추정치를 나타낸다.

다른 예에서, 비율 계산기 (GC10) 는 다음과 같은 표현에 따라 스피치 신호 (S40) 의 각각의 프레임에 대한 부대역 전력 추정치들의 q 개의 비율들의 세트 중 적어도 하나 (및 가능하게는 모두) 를 계산하도록 구성되며,

ε 은 작은 포지티브 값 (즉, E_S(i,k) 의 예상된 값 미만의 값) 을 갖는 튜닝 파라미터이다. 비율 계산기 (GC10) 의 그러한 구현이 모든 부대역들에 대한 튜닝 파라미터 (ε) 의 작은 값을 사용하는 것이 바람직할 수도 있다. 다르게는, 비율 계산기 (GC10) 의 그러한 구현이 부대역들 중 2 개 이상 (가능하게는 모두) 의 각각에 대한 튜닝 파라미터 (ε) 의 상이한 값을 사용하는 것이 바람직할 수도 있다. 튜닝 파라미터 (ε) 의 값 (또는 값들) 은 고정될 수도 있거나 또는 시간에 걸쳐 (예컨대, 하나의 프레임으로부터 다른 프레임으로) 적응될 수도 있다. 튜닝 파라미터 (ε) 의 사용은 비율 계산기 (GC10) 에서의 디바이드-바이-제로 (divide-by-zero) 에러의 가능성을 회피하는 것을 원조할 수도 있다.

또한, 이득 계수 계산기 (FC310) 는 q 개의 전력 비율들 중 하나 이상 (가능하게는 모두) 의 각각에 대해 평활화 동작을 수행하도록 구성될 수도 있다. 도 33d는, 비율 계산기 (GC10) 에 의해 산출된 q 개의 전력 비율들 중 하나 이상 (가능하게는 모두) 의 각각에 대해 시간적 평활화 동작을 수행하도록 배열된 평활화기 (GC20) 의 인스턴스 (GC25) 를 포함하는 이득 계수 계산기 (FC310) 의 그러한 구현 (FC320) 의 블록도를 도시한다. 일 그러한 예에서, 평활화기 (GC25) 는 다음과 같은 표현에 따라 q 개의 전력 비율들의 각각에 대해 선형 평활화 동작을 수행하도록 구성되며,

β 는 평활화 계수이다. 이 예에서, 평활화 계수 (β) 는 0 (평활화되지 않음) 에서 1 (최대 평활화, 업데이트하지 않음) (예컨대, 0.3, 0.5, 0.7, 0.9, 0.99, 또는 0.999) 의 범위 내의 값을 갖는다.

평활화기 (GC25) 가 이득 계수의 현재의 및 이전의 값들 사이의 관계에 따라 평활화 계수 (β) 중 2 개 이상의 값들 중에서 하나를 선택하는 것이 바람직할 수도 있다. 따라서, 이득 계수의 현재의 값이 이전의 값보다 더 큰 경우의 평활화 계수 (β) 의 값과 비교하여, 이득 계수의 현재의 값이 이전의 값 미만인 경우에 평활화 계수 (β) 의 값이 더 크게 되는 것이 바람직할 수도 있다. 일 그러한 예에서, 평활화기 (GC25) 는 다음과 같은 표현에 따라 q 개의 전력 비율들의 각각에 대해 선형 평활화 동작을 수행하도록 구성된다.

1 ≤ i ≤ q 이고, β_att 는 평활화 계수 (β) 에 대한 어택 값을 나타내고, β_dec 는 평활화 계수 (β) 에 대한 감쇄 값을 나타내며, β_att < β_dec 이다. 평활화기 (EC25) 의 다른 구현은 다음 중 하나와 같은 선형 평활화 표현에 따라 q 개의 전력 비율들의 각각에 대해 선형 평활화 동작을 수행하도록 구성된다.

다르게는 또는 또한, 표현들 (17) 내지 (19) 는 (예컨대, 표현

의 값에 따라) 노이즈 레벨 표시들 사이의 관계에 기초하여 β 의 값들 중에서 선택하도록 구현될 수도 있다.

도 34a는, 프레임 (k) 에서의 각각의 부대역 (i) 에 대해 수행될 수도 있는 상기 표현들 (15) 및 (18) 에 따른 그러한 평활화의 일례를 설명하는 의사코드 리스팅을 도시한다. 이 리스팅에서, 노이즈 레벨 표시의 현재의 값이 계산되고, 이득 계수의 현재의 값이 오리지널 스피치 부대역 전력에 대한 블렌딩된 부대역 전력의 비율로 초기화된다. 이 비율이 이득 계수의 이전의 값 미만인 경우에, 이득 계수의 현재의 값은 1 미만인 값을 갖는 스케일 계수 (beta_dec) 만큼 이전의 값을 스케일 다운시킴으로써 계산된다. 그렇지 않은 경우에, 이득 계수의 현재의 값은, 0 (평활화되지 않음) 에서 1 (최대 평활화, 업데이트하지 않음) (예컨대, 0.3, 0.5, 0.7, 0.9, 0.99, 또는 0.999) 까지의 범위 내의 값을 갖는 평균 계수 (beta_att) 를 사용하여, 이득 계수의 이전의 값과 비율의 평균으로서 계산된다.

평활화기 (GC25) 의 다른 구현은, 노이즈의 정도가 감소하고 있는 경우에 q 개의 이득 계수들 중 하나 이상 (가능하게는 모두) 에 대한 업데이트들을 지연시키도록 구성될 수도 있다. 도 34b는 그러한 상이한 시간적 평활화 동작을 구현하기 위해 사용될 수도 있는 도 34a의 의사코드 리스팅의 변형을 도시한다. 이 리스팅은, 예컨대 1 또는 2 에서 5, 6, 또는 8 까지의 범위 내에 있을 수도 있는 값 (hangover_max(i)) 에 의해 특정된 간격에 따라 비율 감쇄 프로파일 동안에 업데이트들을 지연시키는 행오버 로직을 포함한다. hangover_max 의 동일한 값이 각각의 부대역에 대해 사용될 수도 있거나, 또는 hangover_max 의 상이한 값들이 상이한 부대역들에 대해 사용될 수도 있다.

여기서 설명되는 바와 같은 이득 계수 계산기 (FC100 또는 FC300) 의 구현은 이득 계수들 중 하나 이상 (가능하게는 모두) 에 상부 경계 및/또는 하부 경계를 적용하도록 또한 구성될 수도 있다. 도 35a 및 도 35b는, 이득 계수 값들의 각각에 그러한 상부 경계 (UB) 및 하부 경계 (LB) 를 적용하기 위해 사용될 수도 있는, 도 34a 및 도 34b의 의사코드 리스팅들의 변형들을 각각 도시한다. 이들 경계들의 각각의 값들은 고정될 수도 있다. 다르게는, 이들 경계들 중 어느 하나 또는 양자 모두의 값들은, 예컨대, 프로세싱된 스피치 신호 (S50) 의 현재의 볼륨 (예컨대, 볼륨 제어 신호 (VS10) 의 현재의 값) 및/또는 인핸서 (EN10) 에 대한 원하는 헤드룸에 따라 적응될 수도 있다. 다르게는 또는 또한, 이들 경계들 중 어느 하나 또는 양자 모두의 값들은 스피치 신호 (S40) 의 현재의 레벨과 같은, 스피치 신호 (S40) 로부터의 정보에 기초할 수도 있다.

이득 제어 엘리먼트 (CE110) 는 스피치 신호 (S40) 의 대응하는 부대역에 이득 계수들의 각각을 적용하여 (예컨대, 이득 계수들의 벡터로서 스피치 신호 (S40) 에 이득 계수들을 적용하여) 프로세싱된 스피치 신호 (S50) 를 산출하도록 구성된다. 이득 제어 엘리먼트 (CE110) 는, 예컨대, 스피치 신호 (S40) 의 프레임의 주파수-도메인 부대역들의 각각을 대응하는 이득 계수 (G(i)) 와 승산함으로써, 프로세싱된 스피치 신호 (S50) 의 주파수-도메인 버전을 산출하도록 구성될 수도 있다. 이득 제어 엘리먼트 (CE110) 의 다른 예들은 중첩-합산 또는 중첩-보류 방법을 사용하여, (예컨대, 합성 필터 뱅크의 각각의 필터들에 이득 계수들을 적용함으로써) 스피치 신호 (S40) 의 대응하는 부대역들에 이득 계수들을 적용하도록 구성된다.

이득 제어 엘리먼트 (CE110) 는 프로세싱된 스피치 신호 (S50) 의 시간-도메인 버전을 산출하도록 구성될 수도 있다. 도 36a는, 스피치 신호 (S40) 의 대응하는 시간-도메인 부대역에 이득 계수들의 각각을 적용하도록 각각 구성된 대역통과 필터들의 어레이를 갖는 부대역 필터 어레이 (FA100) 를 포함하는 이득 제어 엘리먼트 (CE110) 의 그러한 구현 (CE115) 의 블록도를 도시한다. 그러한 어레이의 필터들은 병렬 및/또는 직렬로 배열될 수도 있다. 일례에서, 어레이 (FA100) 는 웨이블렛 또는 다상 합성 필터 뱅크로서 구현된다. 또한, 이득 제어 엘리먼트 (CE110) 의 시간-도메인 구현을 포함하고, 주파수-도메인 신호로서 스피치 신호 (S40) 를 수신하도록 구성된 인핸서 (EN110) 의 구현은, 이득 제어 엘리먼트 (CE110) 에 스피치 신호 (S40) 의 시간-도메인 버전을 제공하도록 배열된 역 변환 모듈 (TR20) 의 인스턴스를 포함할 수도 있다.

도 36b는 병렬로 배열된 q 개의 대역통과 필터들 (F20-1 내지 F20-q) 의 세트를 포함하는 부대역 필터 어레이 (FA100) 의 구현 (FA110) 의 블록도를 도시한다. 이 경우에서, 필터들 (F20-1 내지 F20-q) 의 각각은, 이득 계수에 따라 부대역을 필터링하여 대응하는 대역통과 신호를 산출함으로써, 스피치 신호 (S40) 의 대응하는 부대역에 q 개의 이득 계수들 (G(1) 내지 G(q)) 중 대응하는 하나를 적용하도록 배열된다. 또한, 부대역 필터 어레이 (FA110) 는 q 개의 대역통과 신호들을 믹싱하여 프로세싱된 스피치 신호 (S50) 를 산출하도록 구성된 결합기 (MX10) 를 포함한다.

도 37a는, 대역통과 필터들 (F20-1 내지 F20-q) 이, 직렬로 (즉, 각각의 필터 (F20-k) 가 필터 (F20-(k-1)) (2 ≤ k ≤ q) 의 출력을 필터링하도록 배열되도록, 캐스케이드로) 이득 계수들에 따라 스피치 신호 (S40) 를 필터링함으로써 스피치 신호 (S40) 의 대응하는 부대역에 이득 계수들 (G(1) 내지 G(q)) 의 각각을 적용하도록 배열된 부대역 필터 어레이 (FA100) 의 다른 구현 (FA120) 의 블록도를 도시한다.

필터들 (F20-1 내지 F20-q) 의 각각은 유한 임펄스 응답 (FIR) 또는 무한 임펄스 응답 (IIR) 을 갖도록 구현될 수도 있다. 예컨대, 필터들 (F20-1 내지 F20-q) 중 하나 이상 (가능하게는 모두) 의 각각은 바이쿼드로서 구현될 수도 있다. 예컨대, 부대역 필터 어레이 (FA120) 는 바이쿼드들의 캐스케이드로서 구현될 수도 있다. 또한, 그러한 구현은 바이쿼드 IIR 필터 캐스케이드, 2차 IIR 섹션들 또는 필터들의 캐스케이드, 또는 캐스케이드의 부대역 IIR 바이쿼드들의 시리즈라 지칭될 수도 있다. 특히 인핸서 (EN10) 의 부동-소수점 구현들에 대해, 전치 집적형 II 를 사용하여 각각의 바이쿼드를 구현하는 것이 바람직할 수도 있다.

필터들 (F20-1 내지 F20-q) 의 통과대역들이 (예컨대, 필터 통과대역들이 동일한 폭들을 갖도록) 균일한 부대역들의 세트보다는 (예컨대, 필터 통과대역들의 2 개 이상이 상이한 폭들을 갖도록) 불균일한 부대역들의 세트로의 스피치 신호 (S40) 의 대역폭의 분할을 나타내는 것이 바람직할 수도 있다. 상술된 바와 같이, 불균일한 부대역 분할 기법들의 예들은, 바크 스케일에 기초한 기법과 같은 초월 기법들, 또는 멜 스케일에 기초한 기법과 같은 로그 기법들을 포함한다. 필터들 (F20-1 내지 F20-q) 은 예컨대, 도 27에서의 점들에 의해 예시된 바와 같은 바크 스케일 분할 기법에 따라 구성될 수도 있다. 부대역들의 그러한 배열은 광대역 스피치 프로세싱 시스템 (예컨대, 16 ㎑ 의 샘플링 레이트를 갖는 디바이스) 에서 사용될 수도 있다. 그러한 분할 기법의 다른 예들에서, 6-부대역 기법을 획득하기 위해 최저 부대역이 제외되고/되거나 최고 부대역의 상한이 7700 ㎐ 에서 8000 ㎐ 까지 증가된다.

협대역 스피치 프로세싱 시스템 (예컨대, 8 ㎑ 의 샘플링 레이트를 갖는 디바이스) 에서, 6 개 또는 7 개보다 더 적은 부대역들을 갖는 분할 기법에 따라 필터들 (F20-1 내지 F20-q) 의 통과대역들을 설계하는 것이 바람직할 수도 있다. 그러한 부대역 분할 기법의 일례는 4-대역 쿼지-바크 기법 300-510 ㎐, 510-920 ㎐, 920-1480 ㎐, 및 1480-4000 ㎐ 이다. (예컨대 이 예에서와 같은) 고-주파수 광대역의 사용은, 저 부대역 에너지 추정 때문에 바람직할 수도 있고/있거나 바이쿼드로 최고 부대역을 모델링하는데 있어서의 어려움을 처리하는 것이 바람직할 수도 있다.

이득 계수들 (G(1) 내지 G(q)) 의 각각은 필터들 (F20-1 내지 F20-q) 중 대응하는 하나의 하나 이상의 필터 계수 값들을 업데이트하기 위해 사용될 수도 있다. 그러한 경우에서, 필터들 (F20-1 내지 F20-q) 중 하나 이상 (가능하게는 모두) 의 각각을, 그것의 주파수 특성들 (예컨대, 그것의 통과대역의 중심 주파수 및 폭) 이 고정되고 그것의 이득이 가변하도록 구성하는 것이 바람직할 수도 있다. 그러한 기술은, 공통 계수 (예컨대, 이득 계수들 (G(1) 내지 G(q)) 중 대응하는 하나의 현재의 값) 에 의해 피드포워드 계수들 (예컨대, 상기 바이쿼드 표현 (1) 에서의 계수들 (b₀, b₁, 및 b₂) 의 값들만을 변화시킴으로써 FIR 또는 IIR 필터에 대해 구현될 수도 있다. 예컨대, 필터들 (F20-1 내지 F20-q) 중 하나 (F20-i) 의 바이쿼드 구현에서의 피드포워드 계수들의 각각의 값들은 다음의 전달 함수를 획득하기 위해 이득 계수들 (G(1) 내지 G(q)) 중 대응하는 하나 (G(i)) 의 현재의 값에 따라 변화될 수도 있다.

도 37b는 필터 이득이 대응하는 이득 계수 (G(i)) 의 현재의 값에 따라 변화되는 필터들 (F20-1 내지 F20-q) 중 하나 (F20-i) 의 바이쿼드 구현의 다른 예를 도시한다.

부대역 필터 어레이 (FA100) 를, 모든 이득 계수들 (G(1) 내지 G(q)) 이 1 과 동일한 경우에, 관심 있는 주파수 범위 (예컨대, 50, 100, 또는 200 ㎐ 에서 3000, 3500, 4000, 7000, 7500, 또는 8000 ㎐ 까지) 에 걸친 그것의 유효 전달 함수가 실질적으로 일정하도록 구현하는 것이 바람직할 수도 있다. 예컨대, 모든 이득 계수들 (G(1) 내지 G(q)) 이 1 과 동일한 경우에, 부대역 필터 어레이 (FA100) 의 유효 전달 함수가 5, 10, 또는 20 퍼센트 내에서 (예컨대, 0.25, 0.5, 또는 1 데시벨 내에서) 일정한 것이 바람직할 수도 있다. 일 특정한 예에서, 모든 이득 계수들 (G(1) 내지 G(q)) 이 1 과 동일한 경우에, 부대역 필터 어레이 (FA100) 의 유효 전달 함수는 실질적으로 1 과 동일하다.

부대역 필터 어레이 (FA100) 가 스피치 부대역 신호 생성기 (SG100) 의 부대역 필터 어레이 (SG10) 의 구현 및/또는 인핸스먼트 부대역 신호 생성기 (EG100) 의 부대역 필터 어레이 (SG10) 의 구현과 동일한 부대역 분할 기법을 적용하는 것이 바람직할 수도 있다. 예컨대, 부대역 필터 어레이 (FA100) 가, 부대역 필터 어레이 또는 어레이들 (SG10) 의 이득 계수들에 대해 고정된 값들이 사용되면서, 그러한 필터 또는 필터들 (예컨대, 바이쿼드들의 세트) 의 설계와 동일한 설계를 갖는 필터들의 세트를 사용하는 것이 바람직할 수도 있다. 부대역 필터 어레이 (FA100) 는 부대역 필터 어레이 또는 어레이들과 같은 동일한 컴포넌트 필터들을 사용하여 (예컨대, 상이한 시간들에서, 상이한 이득 계수 값들로, 그리고 가능하게는, 어레이 (FA120) 의 캐스케이드에서와 같이 상이하게 배열된 컴포넌트 필터들로) 구현될 수도 있다.

안정성 및/또는 양자화 노이즈 고려사항들에 따라 부대역 필터 어레이 (FA100) 를 설계하는 것이 바람직할 수도 있다. 상기 주의된 바와 같이, 예컨대, 부대역 필터 어레이 (FA120) 는 2차 섹션들의 캐스케이드로서 구현될 수도 있다. 그러한 섹션을 구현하기 위한 전치 직접형 II 바이쿼드의 사용은, 섹션 내의 로버스트 계수/주파수 민감도들을 획득하고/하거나 라운드-오프 노이즈를 최소화하는 것을 원조할 수도 있다. 인핸서 (EN10) 는, 오버플로우 컨디션들을 회피하는 것을 원조할 수도 있는 계수 값들 및/또는 필터 입력의 스케일링을 수행하도록 구성될 수도 있다. 필터 입력과 출력 사이의 큰 불일치 (discrepancy) 의 경우에서, 인핸서 (EN10) 는 부대역 필터 어레이 (FA100) 의 하나 이상의 IIR 필터들의 히스토리를 리셋하는 새너티 (sanity) 체크 동작을 수행하도록 구성될 수도 있다. 수치 실험들 및 온라인 테스팅은, 인핸서 (EN10) 가 양자화 노이즈 보상에 대한 임의의 모듈들 없이 구현될 수도 있다는 결론에 도달하였지만, 하나 이상의 그러한 모듈들 (예컨대, 부대역 필터 어레이 (FA100) 의 하나 이상의 필터들의 각각의 출력에 대해 디더링 (dithering) 동작을 수행하도록 구성된 모듈) 이 포함될 수도 있다.

상술된 바와 같이, 부대역 필터 어레이 (FA100) 는 스피치 신호 (S40) 의 각각의 부대역들을 부스트시키는데 적합한 컴포넌트 필터들 (예컨대, 바이쿼드들) 을 사용하여 구현될 수도 있다. 그러나, 또한, 몇몇 경우들에서, 스피치 신호 (S40) 의 하나 이상의 부대역들을 스피치 신호 (S40) 의 다른 부대역들에 대하여 감쇠시키는 것이 바람직할 수도 있다. 예컨대, 하나 이상의 스펙트럼 피크들을 증폭하고 또한 하나 이상의 스펙트럼 밸리들을 감쇠시키는 것이 바람직할 수도 있다. 그러한 감쇠는, 프레임의 가장 큰 원하는 감쇠에 따라 부대역 필터 어레이 (FA100) 의 업스트림에서 스피치 신호 (S40) 를 감쇠시키고, 감쇠에 대해 보상하기 위해 그에 따라 다른 부대역들에 대한 프레임의 이득 계수들의 값들을 증가시킴으로써 수행될 수도 있다. 예컨대, 2 데시벨 만큼의 부대역 (i) 의 감쇠는, 부대역 필터 어레이 (FA100) 의 업스트림에서 2 데시벨 만큼 스피치 신호 (S40) 를 감쇠시키고, 부스팅 없이 어레이 (FA100) 를 통해 부대역 (i) 을 통과시키며, 2 데시벨 만큼 다른 부대역들에 대한 이득 계수들의 값들을 증가시킴으로써 달성될 수도 있다. 부대역 필터 어레이 (FA100) 의 업스트림에서 스피치 신호 (S40) 에 감쇠를 적용하는 것에 대한 대안으로서, 그러한 감쇠는 부대역 필터 어레이 (FA100) 의 다운스트림에서 프로세싱된 스피치 신호 (S50) 에 적용될 수도 있다.

도 38은 스펙트럼 콘트라스트 인핸서 (EN10) 의 구현 (EN120) 의 블록도를 도시한다. 인핸서 (EN110) 와 비교하여, 인핸서 (EN120) 는, 스피치 부대역 신호 생성기 (SG100) 에 의해 스피치 신호 (S40) 로부터 산출된 q 개의 부대역 신호들 (S(i)) 의 세트를 프로세싱하도록 구성된 이득 제어 엘리먼트 (CE100) 의 구현 (CE120) 을 포함한다. 예컨대, 도 39는, 부대역 이득 제어 엘리먼트들 (G20-1 내지 G20-q) 의 어레이 및 결합기 (MX10) 의 인스턴스를 포함하는 이득 제어 엘리먼트 (CE120) 의 구현 (CE130) 의 블록도를 도시한다. (예컨대 승산기들 또는 증폭기들로서 구현될 수도 있는) q 개의 부대역 이득 제어 엘리먼트 (G20-1 내지 G20-q) 의 각각은 부대역 신호들 (S(1) 내지 S(q)) 의 각각에 이득 계수들 (G(1) 내지 G(q)) 의 각각을 적용하도록 배열된다. 결합기 (MX10) 는 이득-제어된 부대역 신호들을 결합하여 (예컨대, 믹싱하여), 프로세싱된 스피치 신호 (S50) 를 산출하도록 배열된다.

인핸서 (EN100, EN110, 또는 EN120) 가 변환-도메인 신호 (예컨대, 주파수-도메인 신호) 로서 스피치 신호 (S40) 를 수신하는 경우에 대해, 대응하는 이득 제어 엘리먼트 (CE100, CE110, 또는 CE120) 는 변환 도메인에서의 각각의 부대역들에 이득 계수들을 적용하도록 구성될 수도 있다. 예컨대, 이득 제어 엘리먼트 (CE100, CE110, 또는 CE120) 의 그러한 구현은, 각각의 부대역을 이득 계수들 중 대응하는 하나와 승산하거나, 또는 로그 값들을 사용하여 (예컨대, 데시벨의 부대역 값들 및 이득 계수를 가산하여) 유사한 동작을 수행하도록 구성될 수도 있다. 인핸서 (EN100, EN110, 또는 EN120) 의 다른 구현은 변환 도메인으로부터 이득 제어 엘리먼트의 시간 도메인 업스트림으로 스피치 신호 (S40) 를 컨버팅하도록 구성될 수도 있다.

부스팅 없이 스피치 신호 (S40) 의 하나 이상의 부대역들을 통과시키도록 인핸서 (EN10) 를 구성하는 것이 바람직할 수도 있다. 예컨대, 저-주파수 부대역의 부스팅은 다른 부대역들의 머플링 (muffling) 을 야기할 수도 있으며, 인핸서 (EN10) 가 부스팅 없이 스피치 신호 (S40) 의 하나 이상의 저-주파수 부대역들 (예컨대, 300 ㎐ 미만의 주파수들을 포함하는 부대역) 을 통과시키는 것이 바람직할 수도 있다.

예컨대, 인핸서 (EN100, EN110, 또는 EN120) 의 그러한 구현은, 부스팅 없이 하나 이상의 부대역들을 통과시키도록 구성된 이득 제어 엘리먼트 (CE100, CE110, 또는 CE120) 의 구현을 포함할 수도 있다. 일 그러한 경우에서, 부대역 필터 어레이 (FA110) 는, 부대역 필터들 (F20-1 내지 F20-q) 중 하나 이상이 1 (예컨대, 0 dB) 의 이득 계수를 적용하도록 구현될 수도 있다. 다른 그러한 경우에서, 부대역 필터 어레이 (FA120) 는 필터들 (F20-1 내지 F20-q) 의 모두보다 더 적은 필터들의 캐스케이드로서 구현될 수도 있다. 다른 그러한 경우에서, 이득 제어 엘리먼트 (CE100 또는 CE120) 는, 이득 제어 엘리먼트들 (G20-1 내지 G20-q) 중 하나 이상이 1 (예컨대, 0 dB) 의 이득 계수를 적용하도록 구현될 수도 있거나, 또는 그렇지 않은 경우에, 그 레벨을 변경하지 않으면서 각각의 부대역 신호를 통과시키도록 구성된다.

배경 노이즈 또는 침묵만을 포함하는 스피치 신호 (S40) 의 부분들의 스펙트럼 콘트라스트를 증대시키는 것을 회피하는 것이 바람직할 수도 있다. 예컨대, 스피치 신호 (S40) 가 비활성인 간격들 동안에, 인핸서 (EN10) 를 우회하거나, 또는 스피치 신호 (S40) 의 스펙트럼 콘트라스트 인핸스먼트를 중지 (suspend) 하거나 또는 억제하도록 장치 (A100) 를 구성하는 것이 바람직할 수도 있다. 장치 (A100) 의 그러한 구현은, 프레임 에너지, 신호-대-노이즈 비, 주기성, 스피치 및/또는 잔여의 자동상관 (예컨대, 선형 예측 코딩 잔여), 제로 크로싱 레이트, 및/또는 제 1 반향 계수와 같은 하나 이상의 인자들에 기초하여, 스피치 신호 (S40) 의 프레임을 활성 (예컨대, 스피치) 또는 비활성 (예컨대, 배경 노이즈 또는 침묵) 으로서 분류하도록 구성된 음성 활동 검출기 (VAD) 를 포함할 수도 있다. 그러한 분류는, 그러한 인자의 값 또는 크기를 임계값과 비교하고/하거나 그러한 인자에서의 변화의 크기를 임계값과 비교하는 것을 포함할 수도 있다.

도 40a는 그러한 VAD (V10) 를 포함하는 장치 (A100) 의 구현 (A160) 의 블록도를 도시한다. 음성 활동 검출기 (V10) 는, 상태가 스피치 신호 (S40) 상에서 검출된 스피치 활동을 표시하는 업데이트 제어 신호 (S70) 를 산출하도록 구성된다. 또한, 장치 (A160) 는 업데이트 제어 신호 (S70) 의 상태에 따라 제어되는 인핸서 (EN10) (예컨대, 인핸서 (EN110 또는 EN120)) 의 구현 (EN150) 을 포함한다. 인핸서 (EN10) 의 그러한 구현은, 스피치가 검출되지 않는 경우에, 스피치 신호 (S40) 의 간격들 동안에, 노이즈 레벨 표시들 (

) 의 업데이트들, 및/또는 이득 계수 값들의 업데이트들이 억제되도록 구성될 수도 있다. 예컨대, 인핸서 (EN150) 는, 스피치가 검출되지 않은 스피치 신호 (S40) 의 프레임들에 대한 이득 계수 값들의 이전의 값들을 이득 계수 계산기 (FC300) 가 출력하도록 구성될 수도 있다.

다른 예에서, VAD (V10) 가 스피치 신호 (S40) 의 현재의 프레임이 비활성이라고 표시하는 경우에, 인핸서 (EN150) 는, 이득 계수들의 값들을 중간 값으로 강제하거나, 또는 2 개 이상의 프레임들에 걸쳐 중간 값으로 감쇄하도록 이득 계수들의 값들을 강제하도록 구성된 이득 계수 계산기 (FC300) 의 구현을 포함한다. 다르게는 또한 또는, 인핸서 (EN150) 는, VAD (VA10) 가 스피치 신호 (S40) 의 현재의 프레임이 비활성이라고 표시하는 경우에, 노이즈 레벨 표시들 (

) 의 값들을 0 으로 세팅하거나, 또는 노이즈 레벨 표시들의 값들이 0 으로 감쇄하게 허용하도록 구성된 이득 계수 계산기 (FC300) 의 구현을 포함할 수도 있다.

음성 활동 검출기 (V10) 는, 프레임 에너지, 신호-대-노이즈 비 (SNR), 주기성, 제로-크로싱 레이트, 스피치 및/또는 잔여의 자동상관, 및 제 1 반향 계수에 기초하여, 스피치 신호 (S40) 의 프레임을 활성 또는 비활성으로서 분류하도록 (예컨대, 업데이트 제어 신호 (S70) 의 이진 상태를 제어하도록) 구성될 수도 있다. 그러한 분류는, 그러한 인자의 값 또는 크기를 임계값과 비교하고/하거나 그러한 인자에서의 변화의 크기를 임계값과 비교하는 것을 포함할 수도 있다. 다르게는 또는 또한, 그러한 분류는, 하나의 주파수 대역에서의, 에너지와 같은 그러한 인자의 값 또는 크기, 또는 그러한 인자에서의 변화의 크기를 다른 주파수 대역에서의 유사한 값과 비교하는 것을 포함할 수도 있다. 다수의 기준 (예컨대, 에너지, 제로-크로싱 레이트 등) 및/또는 최근 VAD 판정들의 메모리에 기초하여 음성 활동 검출을 수행하도록 VAD (V10) 를 구현하는 것이 바람직할 수도 있다. VAD (V10) 에 의해 수행될 수도 있는 음성 활동 검출 동작의 일례는, 예컨대, 2007년 1월의 명칭이 "Enhanced Variable Rate Codec, Speech Service Options 3, 68, and 70 for Wideband Spread Spectrum Digital Systems" 인 3GPP 문헌 C.S0014-C, v1.0 의 섹션 4.7 (pp. 4-49 내지 4-57) (www-dot-3gpp-dot-org 에서 온라인 입수가능) 에서 설명되는 바와 같은, 스피치 신호 (S40) 의 고역 및 저역 에너지들을 각각의 임계값들과 비교하는 것을 포함한다. 통상적으로, 음성 활동 검출기 (V10) 는 이진-값의 음성 검출 표시 신호로서 업데이트 제어 신호 (S70) 를 산출하도록 구성되지만, 연속적인 및/또는 멀티-값의 신호를 산출하는 구성들도 또한 가능하다.

장치 (A110) 는, 노이즈 감소 스테이지 (NR20) 의 입력과 출력 사이의 관계에 기초하여 (즉, 소스 신호 (S20) 와 노이즈-감소된 스피치 신호 (S45) 사이의 관계에 기초하여), 소스 신호 (S20) 의 프레임을 활성 또는 비활성으로서 분류하도록 구성된 음성 활동 검출기 (V10) 의 구현 (V15) 을 포함하도록 구성될 수도 있다. 그러한 관계의 값은 노이즈 감소 스테이지 (NR20) 의 이득을 표시하기 위해 고려될 수도 있다. 도 40b는 장치 (A140) (및 장치 (A160)) 의 그러한 구현 (A165) 의 블록도를 도시한다.

일례에서, VAD (V15) 는 스테이지 (NR20) 에 의해 통과된 주파수-도메인 빈들의 수에 기초하여, 프레임이 활성인지를 표시하도록 구성된다. 이 경우에서, 업데이트 제어 신호 (S70) 는, 통과된 빈들의 수가 임계값을 초과하는 (다르게는 이상인) 경우에 프레임이 활성이고, 그렇지 않은 경우에 비활성이라고 표시한다. 다른 예에서, VAD (V15) 는 스테이지 (NR20) 에 의해 차단된 주파수-도메인 빈들의 수에 기초하여, 프레임이 활성인지를 표시하도록 구성된다. 이 경우에서, 업데이트 제어 신호 (S70) 는, 차단된 빈들의 수가 임계값을 초과하는 (다르게는 이상인) 경우에 프레임이 비활성이고, 그렇지 않은 경우에 활성이라고 표시한다. 프레임이 활성인지 또는 비활성인지를 결정하는데 있어서, VAD (V15) 가 저-주파수 빈들 (예컨대, 1 킬로헤르츠, 1500 헤르츠, 또는 2 킬로헤르츠 이하의 주파수들에 대한 값들을 포함하는 빈들) 또는 중간-주파수 빈들 (예컨대, 200 헤르츠, 300 헤르츠, 또는 500 헤르츠 이상의 주파수들에 대한 값들을 포함하는 저-주파수 빈들) 과 같은, 스피치 에너지를 포함하리라 더 여겨지는 빈들만을 고려하는 것이 바람직할 수도 있다.

도 41은, 변수 VAD (예컨대, 업데이트 제어 신호 (S70)) 의 상태가 스피치 신호 (S40) 의 현재의 프레임이 활성인 경우에 1 이고 그렇지 않은 경우에 0 인 도 35a의 의사코드 리스팅의 변형을 도시한다. 이득 계수 계산기 (FC300) 의 대응하는 구현에 의해 수행될 수도 있는 이 예에서, 부대역 (i) 및 프레임 (k) 에 대한 부대역 이득 계수의 현재의 값이 더 최근의 값으로 초기화되며, 부대역 이득 계수의 값이 비활성 프레임들에 대해 업데이트되지 않는다. 도 42는, 음성 활동이 검출되지 않는 기간들 (즉, 비활성 프레임들) 동안에 부대역 이득 계수의 값이 1 로 감쇄하는 도 35a의 의사코드 리스팅의 다른 변형을 도시한다.

장치 (A100) 내의 다른 곳에 VAD (V10) 의 하나 이상의 인스턴스들을 적용하는 것이 바람직할 수도 있다. 예컨대, 다음의 신호들, 즉, 감지된 오디오 신호 (S10) 의 적어도 하나의 채널 (예컨대, 1차 채널), 필터링된 신호 (S15) 의 적어도 하나의 채널, 및 소스 신호 (S20) 중 하나 이상 상에서 스피치 활동을 검출하도록 VAD (V10) 의 인스턴스를 배열하는 것이 바람직할 수도 있다. 대응하는 결과는 SSP 필터 (SS20) 의 적응적 필터 (AF10) 의 동작을 제어하기 위해 사용될 수도 있다. 예컨대, 그러한 음성 활동 검출 동작의 결과가 현재의 프레임이 활성이라고 표시하는 경우에, 적응적 필터 (AF10) 의 트레이닝 (예컨대, 적응) 을 활성화하여, 적응적 필터 (AF10) 의 트레이닝 레이트를 증가시키고/시키거나 적응적 필터 (AF10) 의 깊이를 증가시키고/시키거나, 그렇지 않은 경우에, 트레이닝을 비활성화하고/하거나 그러한 값들을 감소시키도록, 장치 (A100) 를 구성하는 것이 바람직할 수도 있다.

장치 (A100) 가 스피치 신호 (S40) 의 레벨을 제어하는 것이 바람직할 수도 있다. 예컨대, 스피치 신호 (S40) 의 레벨을 제어하여 충분한 헤드룸을 제공함으로써 인핸서 (EN10) 에 의한 부대역 부스팅을 수용하도록 장치 (A100) 를 구성하는 것이 바람직할 수도 있다. 또한 또는 다르게는, 스피치 신호 (S40) 에 관한 정보 (예컨대, 스피치 신호 (S40) 의 현재의 레벨) 에 기초하여, 이득 계수 계산기 (FC300) 를 참조하여 상술된 바와 같이, 이득 계수 값 경계들 (UB 및 LB) 중 어느 하나 또는 양자 모두, 및/또는 노이즈 레벨 표시 경계들 (

및

) 중 어느 하나 또는 양자 모두에 대한 값들을 결정하도록 장치 (A100) 를 구성하는 것이 바람직할 수도 있다.

도 43a는, 인핸서 (EN10) 가 자동 이득 제어 (AGC) 모듈 (G10) 을 통해 스피치 신호 (S40) 를 수신하도록 배열된 장치 (A100) 의 구현 (A170) 의 블록도를 도시한다. 자동 이득 제어 모듈 (G10) 은, 알려져 있거나 또는 개발될 임의의 AGC 기술에 따라, 오디오 입력 신호 (S100) 의 동적 범위를 제한된 진폭 대역으로 압축하여, 스피치 신호 (S40) 를 획득하도록 구성될 수도 있다. 자동 이득 제어 모듈 (G10) 은, 예컨대 저 전력을 갖는 입력 신호의 세그먼트들 (예컨대, 프레임들) 을 부스트시키고, 고 전력을 갖는 입력 신호의 세그먼트들을 감쇠시킴으로써, 그러한 동적 범위 압축을 수행하도록 구성될 수도 있다. 스피치 신호 (S40) 가 재현된 오디오 신호 (예컨대, 원단 통신 신호, 스트리밍 오디오 신호, 또는 저장된 미디어 파일로부터 디코딩된 신호) 인 애플리케이션에 대해, 장치 (A170) 는 디코딩 스테이지로부터 오디오 입력 신호 (S100) 를 수신하도록 배열될 수도 있다. 이하 설명되는 바와 같은 통신 디바이스 (D100) 의 대응하는 인스턴스는, 또한 장치 (A170) 의 구현인 (즉, AGC 모듈 (G10) 을 포함하는) 장치 (A100) 의 구현을 포함하도록 구성될 수도 있다. (예컨대, 상술된 바와 같은 장치 (A110) 에서와 같이) 인핸서 (EN10) 가 스피치 신호 (S40) 으로서 소스 신호 (S20) 를 수신하도록 배열된 애플리케이션에 대해, 오디오 입력 신호 (S100) 는 감지된 오디오 신호 (S10) 에 기초할 수도 있다.

자동 이득 제어 모듈 (G10) 은 헤드룸 정의 및/또는 마스터 볼륨 세팅을 제공하도록 구성될 수도 있다. 예컨대, AGC 모듈 (G10) 은, 상술된 바와 같은 상부 경계 (UB) 및 하부 경계 (LB) 중 어느 하나 또는 양자 모두, 및/또는 상술된 바와 같은 노이즈 레벨 표시 경계들 (

및

) 중 어느 하나 또는 양자 모두에 대한 값들을 인핸서 (EN10) 에 제공하도록 구성될 수도 있다. 압축 임계 및/또는 볼륨 세팅과 같은 AGC 모듈의 동작 파라미터들은 인핸서 (EN10) 의 유효 헤드룸을 제한할 수도 있다. 감지된 오디오 신호 (S10) 상에서의 노이즈의 부재 시에, (예컨대, 스피치 신호 (S40) 와 프로세싱된 스피치 신호 (S50) 사이의 레벨들에서의 차이가 약 플러스 또는 마이너스 5, 10, 또는 20 퍼센트 미만이면서) 장치 (A100) 의 총 효과가 실질적으로 이득 증폭이 아니도록, 장치 (A100) 를 튜닝하는 것 (예컨대, 존재하는 경우에 AGC 모듈 (G10) 및/또는 인핸서 (EN10) 를 튜닝하는 것) 이 바람직할 수도 있다.

시간-도메인 동적 범위 압축은, 예컨대, 시간에 걸친 신호에서의 변화의 지각성 (perceptibility) 을 증가시킴으로써 신호 명료도를 증가시킬 수도 있다. 그러한 신호 변화의 일 특정한 예는, 신호의 명료도에 상당히 기여할 수도 있는, 시간에 걸친 명확하게 정의된 포먼트 궤적 (formant trajectories) 의 존재를 수반한다. 통상적으로, 포먼트 궤적의 시작 및 종료 포인트들은 자음들, 특히 폐쇄 자음 (stop consonant) 들 (예컨대, [k], [t], [p] 등) 에 의해 마킹된다. 통상적으로, 이들 마킹 자음들은 스피치의 모음 컨텐츠 및 다른 유성 부분들과 비교하여 저 에너지들을 갖는다. 마킹 자음의 에너지를 부스트시키는 것은, 청자로 하여금 스피치 온셋 및 오프셋들을 더 명확하게 따라가게 허용함으로써 명료도를 증가시킬 수도 있다. 명료도에서의 그러한 증가는, (예컨대, 인핸서 (EN10) 를 참조하여 여기서 설명된 바와 같은) 주파수 부대역 전력 조정을 통해 얻을 수도 있는 것과 상이하다. 따라서, (예컨대, 상술된 바와 같은 콘트라스트-증대된 신호 생성기 (EG110) 의 구현 (EG120) 및/또는 장치 (A170) 의 구현에서의) 이들 2 개의 효과들 사이의 시너지들을 활용하는 것은 전체 스피치 명료도에서 상당한 증가를 허용할 수도 있다.

프로세싱된 스피치 신호 (S50) 의 레벨을 더 제어하도록 장치 (A100) 를 구성하는 것이 바람직할 수도 있다. 예컨대, 장치 (A100) 는, 프로세싱된 스피치 신호 (S50) 의 레벨을 제어하도록 배열된 AGC 모듈 (또한 또는 다르게는, AGC 모듈 (G10)) 을 포함하도록 구성될 수도 있다. 도 44는, 스펙트럼 콘트라스트 인핸서의 음향 출력 레벨을 제한하도록 배열된 피크 제한기 (L10) 를 포함하는 인핸서 (EN20) 의 구현 (EN160) 의 블록도를 도시한다. 피크 제한기 (L10) 는 가변-이득 오디오 레벨 압축기로서 구현될 수도 있다. 예컨대, 피크 제한기 (L10) 는, 인핸서 (EN160) 가 결합된 스펙트럼-콘트라스트-인핸스먼트/압축 효과를 달성하도록, 고 피크 값들을 임계값까지 압축하도록 구성될 수도 있다. 도 43b는 인핸서 (EN160) 뿐만 아니라 AGC 모듈 (G10) 을 포함하는 장치 (A100) 의 구현 (A180) 의 블록도를 도시한다.

도 45a의 의사코드 리스팅은 피크 제한기 (L10) 에 의해 수행될 수도 있는 피크 제한 동작의 일례를 설명한다. 입력 신호 (sig) 의 각각의 샘플 (k) 에 대해 (예컨대, 프로세싱된 스피치 신호 (S50) 의 각각의 샘플 (k) 에 대해), 이 동작은 샘플 크기와 소프트 피크 제한 (peak_lim) 사이의 차이 (pkdiff) 를 계산한다. peak_lim 의 값은 고정될 수도 있거나 또는 시간에 걸쳐 적응될 수도 있다. 예컨대, peak_lim 의 값은 AGC 모듈 (G10) 로부터의 정보에 기초할 수도 있다. 예컨대, 그러한 정보는, 상부 경계 (UB) 및/또는 하부 경계 (LB) 의 값, 노이즈 레벨 표시 경계 (

및

) 의 값, 스피치 신호 (S40) 의 현재의 레벨에 관한 정보 중 임의의 것을 포함할 수도 있다.

pkdiff 의 값이 적어도 0 인 경우에, 샘플 크기는 피크 제한 (peak_lim) 을 초과하지 않는다. 이 경우에서, 미분 이득 값 (diffgain) 은 1 로 세팅된다. 그렇지 않은 경우에, 샘플 크기는 피크 제한 (peak_lim) 보다 더 크고, diffgain 은 초과 크기에 비례하는 1 미만인 값으로 세팅된다.

또한, 피크 제한 동작은 미분 이득 값의 평활화를 포함할 수도 있다. 그러한 평활화는 이득이 시간에 걸쳐 증가하고 있는지 또는 감소하고 있는지에 따라 상이할 수도 있다. 도 45a에서 도시된 바와 같이, 예컨대, diffgain 의 값이 피크 이득 파라미터 (g_pk) 의 이전의 값을 초과하는 경우에, g_pk 의 값은 g_pk 의 이전의 값, diffgain 의 현재의 값, 및 어택 이득 평활화 파라미터 (gamma_att) 를 사용하여 업데이트된다. 그렇지 않은 경우에, g_pk 의 값은 g_pk 의 이전의 값, diffgain 의 현재의 값, 및 감쇄 이득 평활화 파라미터 (gamma_dec) 를 사용하여 업데이트된다. 값들 (gamma_att 및 gamma_dec) 은 약 0 (평활화되지 않음) 내지 약 0.999 (최대 평활화) 의 범위로부터 선택된다. 그 후, 입력 신호 (sig) 의 대응하는 샘플 (k) 은 피크-제한된 샘플을 획득하기 위해, g_pk 의 평활화된 값과 승산된다.

도 45b는 다른 표현을 사용하여 미분 이득 값 (diffgain) 을 계산하는 도 45a의 의사코드 리스팅의 변형을 도시한다. 이들 예들에 대한 대안으로서, 피크 제한기 (L10) 는, pkdiff 의 값이 덜 빈번하게 업데이트되는 (예컨대, 신호 (sig) 의 여러 샘플들의 절대값들의 평균과 peak_lim 사이의 차이로서 pkdiff 의 값이 계산되는), 도 45a 또는 도 45b에서 설명된 바와 같은 피크 제한 동작의 다른 예를 수행하도록 구성될 수도 있다.

여기서 주의된 바와 같이, 통신 디바이스는 장치 (A100) 의 구현을 포함하도록 구성될 수도 있다. 그러한 디바이스의 동작 동안의 몇몇 시간들에서, 장치 (A100) 가 노이즈 레퍼런스 (S30) 이외의 레퍼런스로부터의 정보에 따라, 스피치 신호 (S40) 의 스펙트럼 콘트라스트를 증대시키는 것이 바람직할 수도 있다. 몇몇 환경들 또는 배향들에서, 예컨대, SSP 필터 (SS10) 의 방향성 프로세싱 동작은 신뢰성 없는 결과를 산출할 수도 있다. 푸시-투-토크 (PTT) 모드 또는 스피커폰 모드와 같은, 디바이스의 몇몇 동작 모드들에서, 감지된 오디오 채널들의 공간 선택적 프로세싱은 불필요할 수도 있거나 또는 바람직하지 않을 수도 있다. 그러한 경우들에서, 장치 (A100) 가 공간 선택적 (또는 "멀티채널") 모드가 아니라 비-공간 (또는 "단일-채널") 모드에서 동작하는 것이 바람직할 수도 있다.

장치 (A100) 의 구현은 모드 선택 신호의 현재의 상태에 따라, 단일-채널 모드 또는 멀티채널 모드에서 동작하도록 구성될 수도 있다. 장치 (A100) 의 그러한 구현은, 감지된 오디오 신호 (S10), 소스 신호 (S20), 및 노이즈 레퍼런스 (S30) 중에서 적어도 하나의 품질에 기초하여, 모드 선택 신호 (예컨대, 이진 플래그) 를 산출하도록 구성된 분리 평가기를 포함할 수도 있다. 모드 선택 신호의 상태를 결정하기 위해 그러한 분리 평가기에 의해 사용되는 기준은, 다음의 파라미터들, 즉, 소스 신호 (S20) 의 에너지와 노이즈 레퍼런스 (S30) 의 에너지 사이의 차이 또는 비율; 노이즈 레퍼런스 (S20) 의 에너지와 감지된 오디오 신호 (S10) 의 하나 이상의 채널들의 에너지 사이의 차이 또는 비율; 소스 신호 (S20) 와 노이즈 레퍼런스 (S30) 사이의 상관; 소스 신호 (S20) 의 하나 이상의 통계적인 매트릭스들 (예컨대, 쿨토시스 (kurtosis), 자동상관) 에 의해 표시되는 바와 같은, 소스 신호 (S20) 가 스피치를 반송하고 있을 가능성 중 하나 이상의 현재의 값과 대응하는 임계값 사이의 관계를 포함할 수도 있다. 그러한 경우들에서, 신호의 에너지의 현재의 값은 신호의 연속하는 샘플들 (예컨대, 현재의 프레임) 의 블록의 제곱된 샘플 값들의 합으로서 계산될 수도 있다.

장치 (A100) 의 그러한 구현 (A200) 은, 소스 신호 (S20) 및 노이즈 레퍼런스 (S30) 로부터의 정보에 기초하여 (예컨대, 소스 신호 (S20) 의 에너지와 노이즈 레퍼런스 (S30) 의 에너지 사이의 차이 또는 비율에 기초하여), 모드 선택 신호 (S80) 를 산출하도록 구성된 분리 평가기 (EV10) 를 포함할 수도 있다. 그러한 분리 평가기는, SSP 필터 (SS10) 가 원하는 사운드 컴포넌트 (예컨대, 사용자의 음성) 를 소스 신호 (S20) 로 충분히 분리하였다고 분리 평가기가 결정하는 경우에 제 1 상태를 갖고, 그렇지 않은 경우에, 제 2 상태를 갖도록, 모드 선택 신호 (S80) 를 산출하도록 구성될 수도 있다. 일 그러한 예에서, 분리 평가기 (V10) 는, 소스 신호 (S20) 의 현재의 에너지와 노이즈 레퍼런스 (S30) 의 현재의 에너지 사이의 차이가 대응하는 임계값을 초과한다고 (다르게는, 이상이라고) 결정하는 경우에 충분한 분리를 표시하도록 구성된다. 다른 그러한 예에서, 분리 평가기 (EV10) 는, 소스 신호 (S20) 의 현재의 프레임과 노이즈 레퍼런스 (S30) 의 현재의 프레임 사이의 상관이 대응하는 임계값 미만이라고 (다르게는, 이하라고) 분리 평가기 (EV10) 가 결정하는 경우에 충분한 분리를 표시하도록 구성된다.

분리 평가기 (EV10) 의 인스턴스를 포함하는 장치 (A100) 의 구현은, 모드 선택 신호 (S80) 가 제 2 상태를 갖는 경우에 인핸서 (EN10) 를 우회하도록 구성될 수도 있다. 예컨대, 그러한 배열은, 인핸서 (EN10) 가 스피치 신호로서 소스 신호 (S20) 를 수신하도록 구성된 장치 (A110) 의 구현에 대해 바람직할 수도 있다. 일례에서, 인핸서 (EN10) 를 우회하는 것은, 이득 제어 엘리먼트 (CE100, CE110, 또는 CE120) 가 변화 없이 스피치 신호 (S40) 를 통과시키도록, (예컨대, 인핸스먼트 벡터 (EV10) 로부터의 기여 없음, 또는 0 데시벨의 이득 계수를 표시하여) 프레임에 대한 이득 계수들을 중간 값으로 강제함으로써 수행된다. 그러한 강제는 돌발적으로 또는 점진적으로 (예컨대, 2 개 이상의 프레임들에 걸친 감쇄) 구현될 수도 있다.

도 46은 인핸서 (EN10) 의 구현 (EN200) 을 포함하는 장치 (A100) 의 다른 구현 (A200) 의 블록도를 도시한다. 인핸서 (EN200) 는, (예컨대, 상술된 인핸서 (EN10) 의 구현들 중 임의의 것에 따라) 모드 선택 신호 (S80) 가 제 1 상태를 갖는 경우에 멀티채널 모드에서 동작하고, 모드 선택 신호 (S80) 가 제 2 상태를 갖는 경우에 단일-채널 모드에서 동작하도록 구성된다. 단일-채널 모드에서, 인핸서 (EN200) 는 분리되지 않은 노이즈 레퍼런스 (S95) 로부터의 부대역 전력 추정치들의 세트에 기초하여, 이득 계수 값들 (G(1) 내지 G(q)) 를 계산하도록 구성된다. 분리되지 않은 노이즈 레퍼런스 (S95) 는 분리되지 않은 감지된 오디오 신호 (예컨대, 감지된 오디오 신호 (S10) 의 하나 이상의 채널들) 에 기초한다.

장치 (A200) 는, 분리되지 않은 노이즈 레퍼런스 (S95) 가 감지된 오디오 채널들 (S10-1 및 S10-2) 중 하나이도록 구현될 수도 있다. 도 47은, 분리되지 않은 노이즈 레퍼런스 (S95) 가 감지된 오디오 채널 (S10-1) 인 장치 (A200) 의 그러한 구현 (A210) 의 블록도를 도시한다. 특히 스피치 신호 (S40) 가 재현된 오디오 신호인 경우에 대해, 마이크로폰 신호들에 대해 에코 제거 동작을 수행하도록 구성된 (예컨대, 이하 설명되는 바와 같은 오디오 프리프로세서 (AP20) 의 인스턴스와 같은) 에코 제거기 또는 다른 오디오 프리프로세싱 스테이지를 통해 감지된 오디오 채널 (S10) 를 장치 (A200) 가 수신하는 것이 바람직할 수도 있다. 장치 (A200) 의 더 일반적인 구현에서, 분리되지 않은 노이즈 레퍼런스 (S95) 는 분리되지 않은 마이크로폰 신호 (예컨대, 이하 설명되는 바와 같은 아날로그 마이크로폰 신호들 (SM10-1 및 SM10-2) 중 어느 하나, 또는 이하 설명되는 바와 같은 디지털화된 마이크로폰 신호들 (DM10-1 및 DM10-2) 중 어느 하나) 이다.

장치 (A200) 는, 분리되지 않은 노이즈 레퍼런스 (S95) 가 통신 디바이스의 1차 마이크로폰 (예컨대, 일반적으로 사용자의 음성을 가장 직접적으로 수신하는 마이크로폰) 에 대응하는 감지된 오디오 채널들 (S10-1 및 S10-2) 중 특정한 하나이도록 구현될 수도 있다. 예컨대, 그러한 배열은 스피치 신호 (S40) 가 재현된 오디오 신호 (예컨대, 원단 통신 신호, 스트리밍 오디오 신호, 또는 저장된 미디어 파일로부터 디코딩된 신호) 인 애플리케이션에 대해 바람직할 수도 있다. 다르게는, 장치 (A200) 는, 분리되지 않은 노이즈 레퍼런스 (S95) 가 통신 디바이스의 2차 마이크로폰 (예컨대, 일반적으로 사용자의 음성을 간접적으로만 수신하는 마이크로폰) 에 대응하는 감지된 오디오 채널들 (S10-1 및 S10-2) 중 특정한 하나이도록 구현될 수도 있다. 예컨대, 그러한 배열은, 인핸서 (EN10) 가 스피치 신호 (S40) 로서 소스 신호 (S20) 를 수신하도록 배열되는 애플리케이션에 대해 바람직할 수도 있다.

다른 배열에서, 장치 (A200) 는 감지된 오디오 채널들 (S10-1 및 S10-2) 을 단일 채널로 다운 믹싱함으로써, 분리되지 않은 노이즈 레퍼런스 (S95) 를 획득하도록 구성될 수도 있다. 다르게는, 장치 (A200) 는, 최고 신호-대-노이즈 비, (예컨대, 하나 이상의 통계적인 매트릭스들에 의해 표시된 바와 같은) 가장 큰 스피치 가능성, 통신 디바이스의 현재의 동작 구성, 및/또는 원하는 소스 신호가 발신되기로 결정된 방향과 같은 하나 이상의 기준에 따라, 감지된 오디오 채널들 (S10-1 및 S10-2) 중에서 분리되지 않은 노이즈 레퍼런스 (S95) 를 선택하도록 구성될 수도 있다.

더 일반적으로, 장치 (A200) 는, 이하 설명되는 바와 같은 마이크로폰 신호들 (SM10-1 및 SM10-2), 또는 이하 설명되는 바와 같은 마이크로폰 신호들 (DM10-1 및 DM10-2) 과 같은 2 개 이상의 마이크로폰 신호들의 세트로부터 분리되지 않은 노이즈 레퍼런스 (S95) 를 획득하도록 구성될 수도 있다. (오디오 프리프로세서 (AP20) 및 에코 제거기 (EC10) 를 참조하여 이하 설명되는 바와 같은) 에코 제거 동작을 경험한 하나 이상의 마이크로폰 신호들로부터 분리되지 않은 노이즈 레퍼런스 (S95) 를 장치 (A200) 가 획득하는 것이 바람직할 수도 있다.

장치 (A200) 는 시간-도메인 버퍼로부터 분리되지 않은 노이즈 레퍼런스 (S95) 를 수신하도록 배열될 수도 있다. 일 그러한 예에서, 시간-도메인 버퍼는 10 밀리초 (예컨대, 8 ㎑ 의 샘플링 레이트에서의 8 개의 샘플들, 또는 16 ㎑ 의 샘플링 레이트에서의 160 개의 샘플들) 의 길이를 갖는다.

인핸서 (EN200) 는, 모드 선택 신호 (S80) 의 상태에 따라, 노이즈 레퍼런스 (S30) 및 분리되지 않은 노이즈 레퍼런스 (S95) 중의 하나에 기초하여, 제 2 부대역 신호들의 세트를 생성하도록 구성될 수도 있다. 도 48은, 모드 선택 신호 (S80) 의 현재의 상태에 따라, 노이즈 레퍼런스 (S30) 및 분리되지 않은 노이즈 레퍼런스 (S95) 중에서 하나를 선택하도록 구성된 선택기 (SL10) (예컨대, 디멀티플렉서) 를 포함하는 인핸서 (EN200) (및 인핸서 (EN110)) 의 그러한 구현 (EN300) 의 블록도를 도시한다. 또한, 인핸서 (EN300) 는, 모드 선택 신호 (S80) 의 상태에 따라, 경계들 (

및

) 중 어느 하나 또는 양자 모두, 및/또는 경계들 (UB 및 LB) 중 어느 하나 또는 양자 모두에 대해 상이한 값들 중에서 선택하도록 구성된 이득 계수 계산기 (FC300) 의 구현을 포함할 수도 있다.

인핸서 (EN200) 는, 모드 선택 신호 (S80) 의 상태에 따라, 부대역 신호들의 상이한 세트들 중에서 선택하여, 제 2 부대역 전력 추정치들의 세트를 생성하도록 구성될 수도 있다. 도 49는, 부대역 신호 생성기 (NG100) 의 제 1 인스턴스 (NG100a), 부대역 신호 생성기 (NG100) 의 제 2 인스턴스 (NG100b), 및 선택기 (SL20) 를 포함하는 인핸서 (EN300) 의 그러한 구현 (EN310) 의 블록도를 도시한다. 부대역 신호 생성기 (SG200) 의 인스턴스로서 또는 부대역 신호 생성기 (SG300) 의 인스턴스로서 구현될 수도 있는 제 2 부대역 신호 생성기 (NG100b) 는 분리되지 않은 노이즈 레퍼런스 (S95) 에 기초한 부대역 신호들의 세트를 생성하도록 구성된다. 선택기 (SL20) (예컨대, 디멀티플렉서) 는, 모드 선택 신호 (S80) 의 현재의 상태에 따라, 제 1 부대역 신호 생성기 (NG100a) 및 제 2 부대역 신호 생성기 (NG100b) 에 의해 생성된 부대역 신호들의 세트들 중에서 하나를 선택하고, 부대역 신호들의 선택된 세트를 노이즈 부대역 신호들의 세트로서 노이즈 부대역 전력 추정치 계산기 (NP100) 에 제공하도록 구성된다.

다른 대안에서, 인핸서 (EN200) 는, 모드 선택 신호 (S80) 의 상태에 따라, 노이즈 부대역 전력 추정치들의 상이한 세트들 중에서 선택하여, 부대역 이득 계수들의 세트를 생성하도록 구성된다. 도 50은, 노이즈 부대역 전력 추정치 계산기 (NP100) 의 제 1 인스턴스 (NP100a), 노이즈 부대역 전력 추정치 계산기 (NP100) 의 제 2 인스턴스 (NP100b), 및 선택기 (SL30) 를 포함하는 인핸서 (EN300) (및 인핸서 (EN310) 의 그러한 구현 (EN320) 의 블록도를 도시한다. 제 1 노이즈 부대역 전력 추정치 계산기 (NP100a) 는, 상술된 바와 같이 제 1 노이즈 부대역 신호 생성기 (NG100a) 에 의해 산출된 부대역 신호들의 세트에 기초한 노이즈 부대역 전력 추정치들의 제 1 세트를 생성하도록 구성된다. 제 2 노이즈 부대역 전력 추정치 계산기 (NP100b) 는, 상술된 바와 같이 제 2 노이즈 부대역 신호 생성기 (NG100b) 에 의해 산출된 부대역 신호들의 세트에 기초한 노이즈 부대역 전력 추정치들의 제 2 세트를 생성하도록 구성된다. 예컨대, 인핸서 (EN320) 는 노이즈 레퍼런스들의 각각에 대한 부대역 전력 추정치들을 병렬로 평가하도록 구성될 수도 있다. 선택기 (SL30) (예컨대, 디멀티플렉서) 는, 모드 선택 신호 (S80) 의 현재의 상태에 따라, 제 1 노이즈 부대역 전력 추정치 계산기 (NP100a) 및 제 2 노이즈 부대역 전력 추정치 계산기 (NP100b) 에 의해 생성된 노이즈 부대역 전력 추정치들의 세트들 중에서 하나를 선택하고, 노이즈 부대역 전력 추정치들의 선택된 세트를 이득 계수 계산기 (FC300) 에 제공하도록 구성된다.

제 1 노이즈 부대역 전력 추정치 계산기 (NP100a) 는 부대역 전력 추정치 계산기 (EC110) 의 인스턴스로서 또는 부대역 전력 추정치 계산기 (EC120) 의 인스턴스로서 구현될 수도 있다. 또한, 제 2 노이즈 부대역 전력 추정치 계산기 (NP100b) 는 부대역 전력 추정치 계산기 (EC110) 의 인스턴스로서 또는 부대역 전력 추정치 계산기 (EC120) 의 인스턴스로서 구현될 수도 있다. 또한, 제 2 노이즈 부대역 전력 추정치 계산기 (NP100b) 는, 분리되지 않은 노이즈 레퍼런스 (S95) 에 대한 현재의 부대역 전력 추정치들의 최소치를 식별하고, 분리되지 않은 노이즈 레퍼런스 (S95) 에 대한 다른 현재의 부대역 전력 추정치들을 그 최소치로 대체하도록 구성될 수도 있다. 예컨대, 제 2 노이즈 부대역 전력 추정치 계산기 (NP100b) 는 도 51a에서 도시된 바와 같은 부대역 신호 생성기 (EC210) 의 인스턴스로서 구현될 수도 있다. 부대역 신호 생성기 (EC210) 는, 다음과 같은 표현에 따라 최소의 부대역 전력 추정치를 식별 및 적용하도록 구성된 최소화기 (MZ10) 를 포함하는 상술된 바와 같은 부대역 신호 생성기 (EC110) 의 구현이며,

1 ≤ i ≤ q 이다. 다르게는, 제 2 노이즈 부대역 전력 추정치 계산기 (NP100b) 는 도 51b에서 도시된 바와 같은 부대역 신호 생성기 (EC220) 의 인스턴스로서 구현될 수도 있다. 부대역 신호 생성기 (EC220) 는 최소화기 (MZ10) 의 인스턴스를 포함하는 상술된 바와 같은 부대역 신호 생성기 (EC120) 의 구현이다.

멀티채널 모드에서 동작하는 경우에, 분리되지 않은 노이즈 레퍼런스 (S95) 로부터의 부대역 전력 추정치들 뿐만 아니라 노이즈 레퍼런스 (S30) 로부터의 부대역 전력 추정치들에 기초하는 부대역 이득 계수 값들을 계산하도록, 인핸서 (EN320) 를 구성하는 것이 바람직할 수도 있다. 도 52는 인핸서 (EN320) 의 그러한 구현 (EN330) 의 블록도를 도시한다. 인핸서 (EN330) 는 다음과 같은 표현에 따라 부대역 전력 추정치들의 세트를 계산하도록 구성된 최대화기 (MAX10) 를 포함하며,

1 ≤ i ≤ q 이고, E_b(i,k) 는 부대역 (i) 및 프레임 (k) 에 대해 제 1 노이즈 부대역 전력 추정치 계산기 (NP100a) 에 의해 계산된 부대역 전력 추정치를 나타내며, E_c(i,k) 는 부대역 (i) 및 프레임 (k) 에 대해 제 2 노이즈 부대역 전력 추정치 계산기 (NP100b) 에 의해 계산된 부대역 전력 추정치를 나타낸다.

장치 (A100) 의 구현이 단일-채널 및 멀티채널 노이즈 레퍼런스들로부터의 노이즈 부대역 전력 정보를 결합하는 모드에서 동작하는 것이 바람직할 수도 있다. 멀티채널 노이즈 레퍼런스가 비정적 노이즈에 대한 동적 응답을 지원할 수도 있으면서, 장치의 결과의 동작은, 예컨대 사용자의 위치에서의 변화들에 대해 과도하게 반응할 수도 있다. 단일-채널 노이즈 레퍼런스는 더 안정적이지만 비정적 노이즈를 보상하기 위한 능력이 부족한 응답을 제공할 수도 있다. 도 53은, 노이즈 레퍼런스 (S30) 로부터의 정보 및 분리되지 않은 노이즈 레퍼런스 (S95) 로부터의 정보에 기초하여, 스피치 신호 (S40) 의 스펙트럼 콘트라스트를 증대시키도록 구성된 인핸서 (EN110) 의 구현 (EN400) 의 블록도를 도시한다. 인핸서 (EN400) 는 상술된 바와 같이 구성된 최대화기 (MAX10) 의 인스턴스를 포함한다.

또한, 최대화기 (MAX10) 는 단일-채널 및 멀티채얼 노이즈 부대역 전력 추정치들의 이득들의 독립적인 조작을 허용하도록 구성될 수도 있다. 예컨대, 최대화 동작의 업스트림에서 스케일링이 발생하도록, 제 1 부대역 전력 추정치 계산기 (NP100a) 및/또는 제 2 부대역 전력 추정치 계산기 (NP100b) 에 의해 산출된 노이즈 부대역 전력 추정치들 중 하나 이상 (가능하게는 모두) 의 각각을 스케일링하기 위해 이득 계수 (또는, 이득 계수들의 세트 중 대응하는 하나) 를 적용하도록 최대화기 (MAX10) 를 구현하는 것이 바람직할 수도 있다.

장치 (A100) 의 구현을 포함하는 디바이스의 동작 동안의 몇몇 시간들에서, 장치가 노이즈 레퍼런스 (S30) 이외의 레퍼런스로부터의 정보에 따라, 스피치 신호 (S40) 의 스펙트럼 콘트라스트를 증대시키는 것이 바람직할 수도 있다. 예컨대, 원하는 사운드 컴포넌트 (예컨대, 사용자의 음성) 및 (예컨대, 간섭 스피커, 확성 장치, 텔레비전, 또는 라디오로부터의) 방향성 노이즈 컴포넌트가 동일한 방향으로부터 마이크로폰 어레이에 도달하는 상황에 대해, 방향성 프로세싱 동작은 이들 컴포넌트들의 부적절한 분리를 제공할 수도 있다. 그러한 경우에서, 방향성 프로세싱 동작은, 결과의 노이즈 레퍼런스 (S30) 가 스피치 신호의 원하는 인핸스먼트를 지원하는데 부적절할 수도 있도록, 방향성 노이즈 컴포넌트를 소스 신호 (S20) 로 분리시킬 수도 있다.

여기서 개시되는 바와 같이, 방향성 프로세싱 동작 및 거리 프로세싱 동작 양자 모두의 결과들을 적용하도록 장치 (A100) 를 구현하는 것이 바람직할 수도 있다. 예컨대, 그러한 구현은, 근접-필드 원하는 사운드 컴포넌트 (예컨대, 사용자의 음성) 및 (예컨대, 간섭 스피커, 확성 장치, 텔레비전, 또는 라디오로부터의) 원격-필드 방향성 노이즈 컴포넌트가 동일한 방향으로부터 마이크로폰 어레이에 도달하는 경우에 대해 개선된 스펙트럼 콘트라스트 인핸스먼트 성능을 제공할 수도 있다.

일례에서, SSP 필터 (SS110) 의 인스턴스를 포함하는 장치 (A100) 의 구현은, 거리 표시 신호 (DI10) 의 현재의 상태가 원격-필드 신호를 표시하는 경우에 (예컨대, 상술된 바와 같은) 인핸서 (EN10) 를 우회하도록 구성된다. 예컨대, 그러한 배열은, 인핸서 (EN10) 가 스피치 신호로서 소스 신호 (S20) 를 수신하도록 구성되는 장치 (A110) 의 구현에 대해 바람직할 수도 있다.

다르게는, 노이즈 레퍼런스 (S30) 로부터의 정보 및 소스 신호 (S20) 로부터의 정보에 기초하는 노이즈 부대역 전력 추정치들에 따라, 스피치 신호 (S40) 의 다른 부대역에 대하여 스피치 신호 (S40) 의 적어도 하나의 부대역을 부스트시키고/시키거나 감쇠시키도록, 장치 (A100) 를 구현하는 것이 바람직할 수도 있다. 도 54는 부가적인 노이즈 레퍼런스로서 소스 신호 (S20) 를 프로세싱하도록 구성된 인핸서 (EN20) 의 그러한 구현 (EN450) 의 블록도를 도시한다. 인핸서 (EN450) 는 노이즈 부대역 신호 생성기 (NG100) 의 제 3 인스턴스 (NG100c), 부대역 전력 추정치 계산기 (NP100) 의 제 3 인스턴스 (NP100c), 및 최대화기 (MAX10) 의 인스턴스 (MAX20) 를 포함한다. 제 3 노이즈 부대역 전력 추정치 계산기 (NP100c) 는, 소스 신호 (S20) 로부터의 제 3 노이즈 부대역 신호 생성기 (NG100c) 에 의해 산출된 부대역 신호들의 세트에 기초하는 노이즈 부대역 전력 추정치들의 제 3 세트를 생성하도록 배열되며, 최대화기 (MAX20) 는, 제 1 및 제 3 노이즈 부대역 전력 추정치들 중에서 최대 값들을 선택하도록 배열된다. 이 구현에서, 선택기 (SL40) 는, 여기서 개시되는 바와 같이 SSP 필터 (SS110) 의 구현에 의해 산출되는 바와 같은 거리 표시 신호 (DI10) 를 수신하도록 배열된다. 선택기 (SL30) 는, 거리 표시 신호 (DI10) 의 현재의 상태가 원격-필드 신호를 표시하는 경우에 최대화기 (MAX20) 의 출력을 선택하고, 그렇지 않은 경우에, 제 1 노이즈 부대역 전력 추정치 계산기 (NP100a) 의 출력을 선택하도록 배열된다.

또한, 장치는, 분리되지 않은 노이즈 레퍼런스 (S95) 대신에 제 2 노이즈 레퍼런스로서 소스 신호 (S20) 를 수신하도록 구성된 여기서 개시되는 바와 같은 인핸서 (EN200) 의 구현의 인스턴스를 포함하도록 구현될 수도 있다는 것이 명백하게 개시된다. 또한, 노이즈 레퍼런스로서 소스 신호 (S20) 를 수신하는 인핸서 (EN200) 의 구현들이, 감지된 스피치 신호들 (예컨대, 근단 신호들) 을 증대시키기보다 재현된 스피치 신호들 (예컨대, 원단 신호들) 을 증대시키는데 더 유용할 수도 있다는 것이 명백하게 주의된다.

도 55는 여기서 개시되는 바와 같이 인핸서 (EN450) 및 SSP 필터 (SS110) 를 포함하는 장치 (A100) 의 구현 (A250) 의 블록도를 도시한다. 도 56은, (예컨대, 인핸서 (EN450) 를 참조하여 여기서 개시되는 바와 같은) 원격-필드 비정적 노이즈의 보상에 대한 지원을 (예컨대, 인핸서 (EN400) 를 참조하여 여기서 개시되는 바와 같은) 단일-채널 및 멀티채널 노이즈 레퍼런스들 양자 모두로부터의 노이즈 부대역 전력 정보와 결합하는 인핸서 (EN450) (및 인핸서 (EN400)) 의 구현 (EN460) 의 블록도를 도시한다. 이 예에서, 이득 계수 계산기 (FC300) 는, 3 개의 상이한 노이즈 추정치들, 즉, (예컨대 5 개의 프레임들보다 더 많이 장기간에 걸쳐 강하게 평활화되고/되거나 평활화될 수도 있는) 분리되지 않은 노이즈 레퍼런스 (S95), (평활화되지 않거나 또는 최소로 평활화될 수도 있는) 소스 신호 (S20) 로부터의 원격-필드 비정적 노이즈의 추정치, 및 방향-기초할 수도 있는 노이즈 레퍼런스 (S30) 로부터의 정보에 기초하는 노이즈 부대역 전력 추정치들을 수신한다. (도 56에서 예시된 바와 같은) 분리되지 않은 노이즈 레퍼런스 (S95) 를 적용하는 것으로서 여기서 개시되는 인핸서 (EN200) 의 임의의 구현은, (예컨대, 여러 프레임들에 걸쳐 평활화된 장기간 추정치 및/또는 강하게 평활화된 추정치와 같은) 소스 신호 (S20) 로부터의 평활화된 노이즈 추정치를 대신에 적용하도록 또한 구현될 수도 있다는 것이 반복된다.

분리되지 않은 노이즈 레퍼런스 (S95) (또는 대응하는 분리되지 않은 감지된 오디오 신호) 가 비활성인 간격들 동안에만, 분리되지 않은 노이즈 레퍼런스 (S95) 에 기초하는 노이즈 부대역 전력 추정치들을 업데이트하도록 인핸서 (EN200) (또는 인핸서 (EN400) 또는 인핸서 (EN450)) 를 구성하는 것이 바람직할 수도 있다. 장치 (A100) 의 그러한 구현은, 프레임 에너지, 신호-대-노이즈 비, 주기성, 스피치 및/또는 잔여의 자동상관 (예컨대, 선형 예측 코딩 잔여), 제로 크로싱 레이트, 및/또는 제 1 반향 계수와 같은 하나 이상의 인자들에 기초하여, 분리되지 않은 노이즈 레퍼런스 (S95) 의 프레임, 또는 분리되지 않은 감지된 오디오 신호의 프레임을, 활성 (예컨대, 스피치) 또는 비활성 (예컨대, 배경 노이즈 또는 침묵) 으로서 분류하도록 구성된 음성 활동 검출기 (VAD) 를 포함할 수도 있다. 그러한 분류는, 그러한 인자의 값 또는 크기를 임계값과 비교하고/하거나 그러한 인자에서의 변화의 크기를 임계값과 비교하는 것을 포함할 수도 있다. 다수의 기준 (예컨대, 에너지, 제로-크로싱 레이트 등) 및/또는 최근의 VAD 판정들의 메모리에 기초하여 음성 활동 검출을 수행하도록 이 VAD 를 구현하는 것이 바람직할 수도 있다.

도 57은 그러한 음성 활동 검출기 (또는 "VAD") (V20) 를 포함하는 장치 (A200) 의 그러한 구현 (A230) 을 도시한다. 상술된 바와 같은 VAD (V10) 의 인스턴스로서 구현될 수도 있는 음성 활동 검출기 (V20) 는, 감지된 오디오 채널 (S10-1) 상에서 스피치 활동이 검출되는지를 상태가 표시하는 업데이트 제어 신호 (UC10) 를 산출하도록 구성된다. 장치 (A230) 가 도 48에서 도시된 바와 같은 인핸서 (EN200) 의 구현 (EN300) 을 포함하는 경우에 대해, 업데이터 제어 신호 (UC10) 는, 감지된 오디오 채널 (S10-1) 상에서 스피치가 검출되고 단일-채널 모드가 선택되는 경우에, 간격들 (예컨대, 프레임들) 동안에, 노이즈 부대역 신호 생성기 (NG100) 가 입력을 수용하고/하거나 그것의 출력을 업데이트하는 것을 방지하도록 적용될 수도 있다. 장치 (A230) 가 도 48에서 도시된 바와 같은 인핸서 (EN200) 의 구현 (EN300) 또는 도 49에서 도시된 바와 같은 인핸서 (EN200) 의 구현 (EN310) 을 포함하는 경우에 대해, 업데이트 제어 신호 (UC10) 는, 감지된 오디오 채널 (S10-1) 상에서 스피치가 검출되고 단일-채널 모드가 선택되는 경우에, 간격들 (예컨대, 프레임들) 동안에, 노이즈 부대역 전력 추정치 생성기 (NP100) 가 입력을 수용하고/하거나 그것의 출력을 업데이트하는 것을 방지하도록 적용될 수도 있다.

장치 (A230) 가 도 49에서 도시된 바와 같은 인핸서 (EN200) 의 구현 (EN310) 을 포함하는 경우에 대해, 업데이트 제어 신호 (UC10) 는, 감지된 오디오 채널 (S10-1) 상에서 스피치가 검출되는 경우에, 간격들 (예컨대, 프레임들) 동안에, 제 2 노이즈 부대역 신호 생성기 (NG100b) 가 입력을 수용하고/하거나 그것의 출력을 업데이트하는 것을 방지하도록 적용될 수도 있다. 장치 (A230) 가 인핸서 (EN200) 의 구현 (EN320) 또는 인핸서 (EN200) 의 구현 (EN330) 을 포함하는 경우에 대해, 또는, 장치 (A100) 가 인핸서 (EN200) 의 구현 (EN400) 을 포함하는 경우에 대해, 업데이트 제어 신호 (UC10) 는, 감지된 오디오 채널 (S10-1) 상에서 스피치가 검출되는 경우에, 간격들 (예컨대, 프레임들) 동안에, 제 2 노이즈 부대역 신호 생성기 (NG100b) 가 입력을 수용하고/하거나 그것의 출력을 업데이트하는 것을 방지하고/하거나, 제 2 노이즈 부대역 전력 추정치 생성기 (NP100b) 가 입력을 수용하고/하거나 그것의 출력을 업데이트하는 것을 방지하도록 적용될 수도 있다.

도 58a는 인핸서 (EN400) 의 그러한 구현 (EN55) 의 블록도를 도시한다. 인핸서 (EN55) 는, 업데이트 제어 신호 (UC10) 의 상태에 따라, 제 2 노이즈 부대역 전력 추정치들의 세트를 산출하는 노이즈 부대역 전력 추정치 계산기 (NP100b) 의 구현 (NP105) 을 포함한다. 예컨대, 노이즈 부대역 전력 추정치 계산기 (NP105) 는, 도 58b의 블록도에서 도시된 바와 같이 전력 추정치 계산기 (EC120) 의 구현 (EC125) 의 인스턴스로서 구현될 수도 있다. 전력 추정치 계산기 (EC125) 는, 다음과 같은 선형 평활화 표현에 따라, 합산기 (EC10) 에 의해 계산된 q 개의 합들의 각각에 대해 시간적 평활화 동작 (예컨대, 2 개 이상의 비활성 프레임들에 걸친 평균) 을 수행하도록 구성된 평활화기 (EC20) 의 구현 (EC25) 을 포함하며,

는 평활화 계수이다. 이 예에서, 평활화 계수 (

) 는 0 (평활화되지 않음) 에서 1 (최대 평활화, 업데이트하지 않음) (예컨대, 0.3, 0.5, 0.7, 0.9, 0.99, 또는 0.999) 까지의 범위 내의 값을 갖는다. 평활화기 (EC25) 는 모든 q 개의 부대역들에 대한 평활화 계수 (

) 의 동일한 값을 사용하는 것이 바람직할 수도 있다. 다르게는, q 개의 부대역들 중 2 개 이상 (가능하게는 모두) 의 각각에 대해 평활화 계수 (

) 의 상이한 값을 사용하는 것이 바람직할 수도 있다. 평활화 계수 (

) 의 값 (또는 값들) 은 고정될 수도 있거나 또는 시간에 걸쳐 (예컨대, 하나의 프레임에서 다음의 프레임으로) 적응될 수도 있다. 유사하게, (도 50에서 도시된 바와 같은) 인핸서 (EN320), (도 52에서 도시된 바와 같은) 인핸서 (EN330), (도 54에서 도시된 바와 같은) 인핸서 (EN450), 또는 (도 56에서 도시된 바와 같은) 인핸서 (EN460) 에서 제 2 노이즈 부대역 전력 추정치 계산기 (NP100b) 를 구현하기 위해, 노이즈 부대역 전력 추정치 계산기 (NP105) 의 인스턴스를 사용하는 것이 바람직할 수도 있다.

도 59는, 모드 선택 신호의 현재의 상태에 따라, 단일-채널 모드 또는 멀티채널 모드에서 동작하도록 구성된 장치 (A100) 의 다른 구현 (A300) 의 블록도를 도시한다. 장치 (A200) 와 같이, 장치 (A100) 의 장치 (A300) 은, 모드 선택 신호 (S80) 를 생성하도록 구성된 분리 평가기 (예컨대, 분리 평가기 (EV10)) 를 포함한다. 이 경우에서, 또한, 장치 (A300) 는, 스피치 신호 (S40) 에 대해 AGC 또는 AVC 동작을 수행하도록 구성된 자동 볼륨 제어 (AVC) 모듈 (VC10) 을 포함하고, 모드 선택 신호 (S80) 는, 모드 선택 신호 (S80) 의 대응하는 상태에 따라, 각각의 프레임에 대해 AVC 모듈 (VC10) 및 인핸서 (EN10) 중에서 하나를 선택하기 위해, 선택기 (SL40) (예컨대, 멀티플렉서) 및 선택기 (SL50) (예컨대, 디멀티플렉서) 를 제어하도록 적용된다. 도 60은, 인핸서 (EN150) 의 구현 (EN500), 및 여기서 설명되는 바와 같은 AGC 모듈 (G10) 및 VAD (V10) 의 인스턴스들을 또한 포함하는 장치 (A300) 의 구현 (A310) 의 블록도를 도시한다. 이 예에서, 또한, 인핸서 (EN500) 는, 등화기의 음향 출력 레벨을 제한하도록 배열된 피크 제한기 (L10) 의 인스턴스를 포함하는 상술된 바와 같은 인핸서 (EN160) 의 구현이다. (장치 (A300) 의 이러한 및 다른 개시된 구성들이 인핸서 (EN400 또는 EN450) 와 같은 여기서 개시되는 바와 같은 인핸서 (EN10) 의 다른 구현들을 사용하여 또한 구현될 수도 있다는 것을 당업자는 이해할 것이다).

AGC 또는 AVC 동작은, 통상적으로 단일의 마이크로폰으로부터 획득되는 정적 노이즈 추정치에 기초하여, 오디오 신호의 레벨을 제어한다. 그러한 추정치는 여기서 설명되는 바와 같은 분리되지 않은 노이즈 레퍼런스 (S95) 의 인스턴스로부터 (다르게는, 감지된 오디오 신호 (S10) 로부터) 계산될 수도 있다. 예컨대, AVC 모듈 (VC10) 이 (예컨대, 현재의 프레임의 에너지 또는 절대값들의 합과 같은) 분리되지 않은 노이즈 레퍼런스 (S95) 의 전력 추정치와 같은 파라미터의 값에 따라, 스피치 신호 (S40) 의 레벨을 제어하도록 AVC 모듈 (VC10) 을 구성하는 것이 바람직할 수도 있다. 다른 전력 추정치들을 참조하여 상술된 바와 같이, 그러한 파라미터 값에 대해 시간적 평활화 동작을 수행하고/하거나, 분리되지 않은 감지된 오디오 신호가 음성 활동을 현재 포함하지 않는 경우에만 파라미터 값을 업데이트하도록 AVC 모듈 (VC10) 을 구성하는 것이 바람직할 수도 있다. 도 61은, AVC 모듈 (VC10) 의 구현 (VC20) 이 감지된 오디오 채널 (S10-1) 로부터의 정보 (예컨대, 신호 (S10-1) 의 현재의 전력 추정치) 에 따라, 스피치 신호 (S40) 의 볼륨을 제어하도록 구성되는 장치 (A310) 의 구현 (A320) 의 블록도를 도시한다.

도 62는 장치 (A100) 의 다른 구현 (A400) 의 블록도를 도시한다. 장치 (A400) 는 장치 (A200) 와 유사한 여기서 설명되는 바와 같은 인핸서 (EN200) 의 구현을 포함한다. 이 경우에서, 그러나, 모드 선택 신호 (S80) 는 비상관된 노이즈 검출기 (UD10) 에 의해 생성된다. 어레이의 하나의 마이크로폰에 영향을 미치고 다른 마이크로폰에는 영향을 미치지 않는 노이즈인 비상관된 노이즈는, 윈드 노이즈, 브레스 사운드들, 스크래칭 등을 포함할 수도 있다. 비상관된 노이즈는, SSP 필터 (SS10) 와 같은 멀티-마이크로폰 신호 분리 시스템에서, 허가되는 경우에 그 시스템이 그러한 노이즈를 실제로 증폭할 수도 있으므로, 바람직하지 않은 결과를 야기할 수도 있다. 비상관된 노이즈를 검출하기 위한 기술들은, 마이크로폰 신호들 (또는 약 200 ㎐ 에서 약 800 또는 1000 ㎐ 까지의 각각의 마이크로폰 신호에서의 대역과 같은 그 부분들) 의 크로스-상관을 추정하는 것을 포함한다. 그러한 크로스-상관 추정은, 2차 마이크로폰 신호의 통과대역을 이득-조정하여 마이크로폰들 사이의 원격-필드 응답을 등화시키는 것, 1차 마이크로폰 신호의 통과대역으로부터 이득-조정된 신호를 차감하는 것, 및 차이 신호의 에너지를 (차이 신호 및/또는 1차 마이크로폰 통과대역의 시간에 걸친 에너지에 기초하여 적응적일 수도 있는) 임계값과 비교하는 것을 포함할 수도 있다. 비상관된 노이즈 검출기 (UD10) 는, 그러한 기술 및/또는 임의의 다른 적합한 기술에 따라 구현될 수도 있다. 또한, 다수-마이크로폰 디바이스에서의 비상관된 노이즈의 검출은, 2008년 8월 29일자로 출원된 발명의 명칭이 "SYSTEMS, METHODS, AND APPARATUS FOR DETECTION OF UNCORRELATED COMPONENT" 인 미국 특허 출원 제 12/201,528 호에서 논의되며, 그 문헌은, 비상관된 노이즈 검출기 (UD10) 의 설계 및 구현, 및 스피치 프로세싱 장치로의 그러한 검출기의 통합에 제한된 목적들을 위해 참조로 여기에 통합된다. 장치 (A400) 가 장치 (A110) 의 구현으로서 (즉, 인핸서 (EN200) 가 스피치 신호 (S40) 로서 소스 신호 (S20) 를 수신하도록 배열되도록) 구현될 수도 있다는 것이 명백하게 주의된다.

다른 예에서, 비상관된 노이즈 검출기 (UD10) 의 인스턴스를 포함하는 장치 (A100) 의 구현은, 모드 선택 신호 (S80) 가 제 2 상태를 갖는 경우에 (즉, 모드 선택 신호 (S80) 가 비상관된 노이즈가 검출된 것을 표시하는 경우에) (예컨대, 상술된 바와 같이) 인핸서 (EN10) 를 우회하도록 구성된다. 예컨대, 그러한 배열은, 인핸서 (EN10) 가 스피치 신호로서 소스 신호 (S20) 를 수신하도록 구성되는 장치 (A110) 의 구현에 대해 바람직할 수도 있다.

상기 주의된 바와 같이, 2 개 이상의 마이크로폰 신호들에 대해 하나 이상의 프리프로세싱 동작들을 수행함으로써, 감지된 오디오 신호 (S10) 를 획득하는 것이 바람직할 수도 있다. 도 63은, M 개의 아날로그 마이크로폰 신호들 (SM10-1 내지 SM10-M) 을 프리프로세싱하여, 감지된 오디오 신호 (S10) 의 M 개의 채널들 (S10-1 내지 S10-M) 을 산출하도록 구성된 오디오 프리프로세서 (AP10) 를 포함하는 장치 (A100) (가능하게는 장치 (A110 및/또는 A120) 의 구현) 의 구현 (A500) 의 블록도를 도시한다. 예컨대, 오디오 프리프로세서 (AP10) 는, 아날로그 마이크로폰 신호들 (SM10-1, SM10-2) 의 쌍을 디지털화하여, 감지된 오디오 신호 (S10) 의 채널들 (S10-1, S10-2) 의 쌍을 산출하도록 구성될 수도 있다. 장치 (A500) 가 장치 (A110) 의 구현으로서 (즉, 인핸서 (EN10) 가 스피치 신호 (S40) 로서 소스 신호 (S20) 를 수신하도록 배열되도록) 구현될 수도 있다는 것이 명백하게 주의된다.

또한, 오디오 프리프로세서 (AP10) 는, 스펙트럼 형상화 및/또는 에코 제거와 같이, 아날로그 및/또는 디지털 도메인들에서 마이크로폰 신호들에 대해 다른 프리프로세싱 동작들을 수행하도록 구성될 수도 있다. 예컨대, 오디오 프리프로세서 (AP10) 는, 아날로그 및 디지털 도메인들 중 어느 하나에서, 마이크로폰 신호들 중 하나 이상의 각각에 하나 이상의 이득 계수들을 적용하도록 구성될 수도 있다. 이들 이득 계수들의 값들은, 마이크로폰들이 주파수 응답 및/또는 이득에 관련하여 서로 매칭되도록 선택되거나 또는 그렇지 않은 경우에 계산될 수도 있다. 이들 이득 계수들을 평가하기 위해 수행될 수도 있는 교정 절차들이 이하 더 상세히 설명된다.

도 64a는, 제 1 및 제 2 아날로그-디지털 컨버터 (ADC) 들 (C10a 및 C10b) 을 포함하는 오디오 프리프로세서 (AP10) 의 구현 (AP20) 의 블록도를 도시한다. 제 1 ADC (C10a) 는 마이크로폰 (MC10) 으로부터의 신호 (SM10-1) 를 디지털화하여 디지털화된 마이크로폰 신호 (DM10-1) 를 획득하도록 구성되며, 제 2 ADC (C10b) 는 마이크로폰 (MC20) 으로부터의 신호 (SM10-2) 를 디지털화하여 디지털화된 마이크로폰 신호 (DM10-2) 를 획득하도록 구성된다. ADC들 (C10a 및 C10b) 에 의해 적용될 수도 있는 통상적인 샘플링 레이트들은 8 ㎑, 12 ㎑, 16 ㎑, 및 약 8 ㎑ 에서 약 16 ㎑ 까지의 범위 내의 다른 주파수들을 포함하지만, 약 44 ㎑ 만큼 높은 샘플링 레이트들이 또한 사용될 수도 있다. 이 예에서, 또한, 오디오 프리프로세서 (AP20) 는, 샘플링 이전에, 마이크로폰 신호들 (SM10-1 및 SM10-2) 에 대해 하나 이상의 아날로그 프리프로세싱 동작들을 각각 수행하도록 구성된 아날로그 프리프로세서들 (P10a 및 P10b) 쌍, 및 샘플링 이후에, 마이크로폰 신호들 (DM10-1 및 DM10-2) 에 대해 하나 이상의 디지털 프리프로세싱 동작들 (예컨대, 에코 제거, 노이즈 감소, 및/또는 스펙트럼 형상화) 을 각각 수행하도록 구성된 디지털 프리프로세서들 (P20a 및 P20b) 의 쌍을 포함한다.

도 65는 오디오 프리프로세서 (AP20) 의 인스턴스를 포함하는 장치 (A310) 의 구현 (A330) 의 블록도를 도시한다. 또한, 장치 (A330) 는, 마이크로폰 신호 (SM10-1) 로부터의 정보 (예컨대, 신호 (SM10-1) 의 현재의 전력 추정치) 에 따라, 스피치 신호 (S40) 의 볼륨을 제어하도록 구성된 AVC 모듈 (VC10) 의 구현 (VC30) 을 포함한다.

도 64b는 오디오 프리프로세서 (AP20) 의 구현 (AP30) 의 블록도를 도시한다. 이 예에서, 아날로그 프리프로세서들 (P10a 및 P10b) 의 각각은, 샘플링 이전에, 마이크로폰 신호들 (SM10-1 및 SM10-2) 에 대해 아날로그 스펙트럼 형상화 동작들을 수행하도록 구성된 고역통과 필터들 (F10a 및 F10b) 의 각각으로서 구현된다. 각각의 필터 (F10a 및 F10b) 는, 예컨대 50, 100, 또는 200 ㎐ 의 컷오프 주파수로 고역통과 필터링 동작을 수행하도록 구성될 수도 있다.

스피치 신호 (S40) 가 재현된 스피치 신호 (예컨대, 원단 신호) 인 경우에 대해, 대응하는 프로세싱된 스피치 신호 (S50) 는, 감지된 오디오 신호 (S10) 로부터 에코들을 제거하도록 (즉, 마이크로폰 신호들로부터 에코들을 제거하도록) 구성된 에코 제거기를 트레이닝하기 위해 사용될 수도 있다. 오디오 프리프로세서 (AP30) 의 예에서, 디지털 프리프로세서들 (P20a 및 P20b) 은, 프로세싱된 스피치 신호 (S50) 로부터의 정보에 기초하여, 감지된 오디오 신호 (S10) 로부터 에코들을 제거하도록 구성된 에코 제거기 (EC10) 로서 구현된다. 에코 제거기 (EC10) 는 시간-도메인 버퍼로부터 프로세싱된 스피치 신호 (S50) 를 수신하도록 배열될 수도 있다. 일 그러한 예에서, 시간-도메인 버퍼는 10 밀리초 (예컨대, 8 ㎑ 의 샘플링 레이트에서의 80 개의 샘플들, 또는 16 ㎑ 의 샘플링 레이트에서의 160 개의 샘플들) 의 길이를 갖는다. 스피커폰 모드 및/또는 푸시-투-토크 (PTT) 모드와 같은, 장치 (A110) 를 포함하는 통신 디바이스의 동작의 특정 모드들 동안에, 에코 제거 동작을 중지하는 것이 (예컨대, 변화되지 않게 마이크로폰 신호들을 통과시키도록 에코 제거기 (EC10) 를 구성하는 것이) 바람직할 수도 있다.

에코 제거기를 트레이닝하기 위해 프로세싱된 스피치 신호 (S50) 를 사용하는 것은 (예컨대, 에코 제거기와 인핸스먼트 제어 엘리먼트의 출력 사이에서 발생하는 프로세싱의 정도로 인해) 피드백 문제를 발생시킬 수도 있는 것이 가능하다. 그러한 경우에서, 인핸서 (EN10) 의 현재의 활동에 따라, 에코 제거기의 트레이닝 레이트를 제어하는 것이 바람직할 수도 있다. 예컨대, 이득 계수들의 현재의 값들의 측정치 (예컨대, 평균) 에 반비례하여 에코 제거기의 트레이닝 레이트를 제어하고/하거나, 이득 계수들의 연속 값들 사이의 차이들의 측정치 (예컨대, 평균) 에 반비례하여 에코 제거기의 트레이닝 레이트를 제어하는 것이 바람직할 수도 있다.

도 66a는 단일-채널 에코 제거기의 2 개의 인스턴스들 (EC20a 및 EC20b) 을 포함하는 에코 제거기 (EC10) 의 구현 (EC12) 의 블록도를 도시한다. 이 예에서, 단일-채널 에코 제거기의 각각의 인스턴스는, 마이크로폰 신호들 (DM10-1, DM10-2) 중 대응하는 하나를 프로세싱하여, 감지된 오디오 신호 (S10) 의 대응하는 채널 (S10-1, S10-2) 를 산출하도록 구성된다. 단일-채널 에코 제거기의 다양한 인스턴스들이, 현재 알려져 있거나 또는 개발될 에코 제거의 임의의 기술 (예컨대, 최소 평균 제곱 기술 및/또는 적응적 상관 기술) 에 따라 각각 구성될 수도 있다. 예컨대, 에코 제거는, 위에서 참조된 미국 특허 출원 제 12/197,924 호의 단락들 [00139]-[00141] ("An apparatus" 로 시작하고 "B500" 으로 끝난다) 에서 논의되며, 그 단락들은, 에코 제거기의 설계 및/또는 구현, 및/또는 스피치 프로세싱 장치의 다른 엘리먼트들과 에코 제거기의 통합을 이에 제한되지 않게 포함하는 에코 제거 이슈들의 개시에 제한되는 목적들을 위해 참조로 여기에 통합된다.

도 66b는, 프로세싱된 스피치 신호 (S50) 를 필터링하도록 배열된 필터 (CE10), 및 필터링된 신호를 프로세싱되고 있는 마이크로폰 신호와 결합하도록 배열된 가산기 (CE20) 를 포함하는 에코 제거기 (EC20a) 의 구현 (EC22a) 의 블록도를 도시한다. 필터 (CE10) 의 필터 계수 값들은 고정될 수도 있다. 다르게는, 필터 (CE10) 의 필터 계수 값들 중 적어도 하나 (및 가능하게는 모두) 는 (예컨대, 프로세싱된 스피치 신호 (S50) 에 기초하여) 장치 (A110) 의 동작 동안에 적응될 수도 있다. 이하 더 상세히 설명되는 바와 같이, 통신 디바이스의 레퍼런스 인스턴스에 의해 그것이 오디오 신호를 재현함에 따라 레코딩된 멀티채널 신호들의 세트를 사용하여, 필터 (CE10) 의 레퍼런스 인스턴스를 초기 상태로 트레이닝하고, 초기 상태를 필터 (CE10) 의 산출 인스턴스들로 카피하는 것이 바람직할 수도 있다.

에코 제거기 (EC20b) 는, 마이크로폰 신호 (DM10-2) 를 프로세싱하여, 감지된 오디오 채널 (S40-2) 를 산출하도록 구성된 에코 제거기 (EC22a) 의 다른 인스턴스로서 구현될 수도 있다. 다르게는, 에코 제거기들 (EC20a 및 EC20b) 은, 상이한 시간들에서 각각의 마이크로폰 신호들의 각각을 프로세싱하도록 구성된 단일-채널 에코 제거기 (예컨대, 에코 제거기 (EC22a)) 의 동일한 인스턴스로서 구현될 수도 있다.

또한, 에코 제거기 (EC10) 의 인스턴스를 포함하는 장치 (A110) 의 구현은, 프로세싱된 스피치 신호 (S50) 에 대해 음성 활동 검출 동작을 수행하도록 배열된 VAD (V10) 의 인스턴스를 포함하도록 구성될 수도 있다. 그러한 경우에서, 장치 (A110) 는 음성 활동 동작의 결과에 기초하여, 에코 제거기 (EC10) 의 동작을 제어하도록 구성될 수도 있다. 예컨대, 그러한 음성 활동 검출 동작의 결과가 현재의 프레임이 활성이라고 표시하는 경우에, 에코 제거기 (EC10) 의 트레이닝 (예컨대, 적응) 을 활성화하여, 에코 제거기 (EC10) 의 트레이닝 레이트를 증가시키고/시키거나 에코 제거기 (EC10) 의 하나 이상의 필터들 (예컨대, 필터 (CE10)) 의 깊이를 증가시키도록, 장치 (A110) 를 구성하는 것이 바람직할 수도 있다.

도 66c는 장치 (A110) 의 구현 (A600) 의 블록도를 도시한다. 장치 (A600) 는, 오디오 입력 신호 (S100) (예컨대, 원단 신호) 를 프로세싱하여, 등화된 오디오 신호 (ES10) 를 산출하도록 배열된 등화기 (EQ10) 를 포함한다. 등화기 (EQ10) 는, 노이즈 레퍼런스 (S30) 로부터의 정보에 기초하여, 오디오 입력 신호 (S100) 의 스펙트럼 특성들을 동적으로 변경하여, 등화된 오디오 신호 (ES10) 를 산출하도록 구성될 수도 있다. 예컨대, 등화기 (EQ10) 는, 노이즈 레퍼런스 (S30) 로부터의 정보를 사용하여, 오디오 입력 신호 (S100) 의 적어도 하나의 주파수 부대역을 오디오 입력 신호 (S100) 의 적어도 하나의 다른 주파수 부대역에 대하여 부스트시켜서, 등화된 오디오 신호 (ES10) 를 산출하도록 구성될 수도 있다. 등화기 (EQ10) 및 관련된 등화 방법들의 예들은, 예컨대 위에서 참조된 미국 특허 출원 제 12/277,283 호에서 개시된다. 여기서 개시되는 바와 같은 통신 디바이스 (D100) 는 장치 (A550) 대신에 장치 (A600) 의 인스턴스를 포함하도록 구현될 수도 있다.

장치 (A100) 의 구현 (예컨대, 장치 (A110) 의 구현) 을 포함하도록 구성될 수도 있는 오디오 감지 디바이스의 몇몇 예들이 도 67a 내지 도 72c에서 예시된다. 도 67a는 제 1 동작 구성에서의 2-마이크로폰 핸드셋 (H100) 의 중심축을 따른 단면도를 도시한다. 핸드셋 (H100) 은 1차 마이크로폰 (MC10) 및 2차 마이크로폰 (MC20) 을 갖는 어레이를 포함한다. 이 예에서, 핸드셋 (H100) 은 또한 1차 라우드스피커 (SP10) 및 2차 라우드스피커 (SP20) 를 포함한다. 핸드셋 (H100) 이 제 1 동작 구성에 있는 경우에, 1차 라우드스피커 (SP10) 는 활성이고, 2차 라우드스피커 (SP20) 는 디스에이블될 수도 있거나 또는 그렇지 않은 경우에 뮤트 (mute) 될 수도 있다. 1차 마이크로폰 (MC10) 및 2차 마이크로폰 (MC20) 양자 모두가, 스피치 인핸스먼트 및/또는 노이즈 감소에 대한 공간 선택적 프로세싱 기술들을 지원하기 위해 이 구성에서 활성으로 유지되는 것이 바람직할 수도 있다.

핸드셋 (H100) 은 하나 이상의 코덱들을 통해 무선으로 음성 통신 데이터를 송신 및 수신하도록 구성될 수도 있다. 여기서 설명되는 바와 같은 통신 디바이스드르이 송신기들 및/또는 수신기들과 사용될 수도 있거나 또는 이들과의 사용을 위해 적응될 수도 있는 코덱들의 예들은, 명칭이 "Enhanced Variable Rate Codec, Speech Service Options 3, 68, and 70 for Wideband Spread Spectrum Digital Systems" 인 2007년 2월의, 제 3 세대 파트너쉽 프로젝트 2 (3GPP2) 문헌 C.S0014-C, v1.0 (www-dot-3gpp-dot-org 에서 온라인 입수가능) 에서 설명되는 바와 같은, 증대된 가변 레이트 코덱 (EVRC); 명칭이 "Selectable Mode Vocoder (SMV) Service Option for Wideband Spread Spectrum Communication Systmes" 인 2004년 1월의, 3GPP2 문헌 C.S0030-0, v3.0 (www-dot-3gpp-dot-org 에서 온라인 입수가능) 에서 설명되는 바와 같은, 선택가능 모드 보코더 스피치 코덱; 문헌 ETSI TS 126 092 V6.0.0 (European Telecommunications Standards Institute (ETSI), Sophia Antipolis Cedex, FR, December 2004) 에서 설명되는 바와 같은 적응적 멀티 레이트 (AMR) 스피치 코덱; 및 문헌 ETSI TS 126 192 V6.0.0 (ETSI, December 2004) 에서 설명되는 바와 같은, AMR 광대역 스피치 코덱을 포함한다.

도 67b는 핸드셋 (H100) 의 제 2 동작 구성을 도시한다. 이 구성에서, 1차 마이크로폰 (MC10) 는 가려지고, 2차 라우드스피커 (SP20) 는 활성이며, 1차 라우드스피커 (SP10) 는 디스에이블될 수도 있거나 또는 그렇지 않은 경우에 뮤트될 수도 있다. 다시, 1차 마이크로폰 (MC10) 및 2차 마이크로폰 (MC20) 가 (예컨대, 공간 선택적 프로세싱 기술들을 지원하기 위해) 이 구성에서 활성으로 유지되는 것이 바람직할 수도 있다. 핸드셋 (H100) 은, 상태 (또는 상태들) 가 디바이스의 현재의 동작 구성을 표시하는 하나 이상의 스위치들 또는 유사한 작동기들을 포함할 수도 있다.

장치 (A100) 는 2 개보다 더 많은 채널들을 갖는 감지된 오디오 신호 (S10) 의 인스턴스를 수신하도록 구성될 수도 있다. 예컨대, 도 68a는, 어레이가 제 3 마이크로폰 (MC30) 을 포함하는 핸드셋 (H100) 의 구현 (H110) 의 단면도를 도시한다. 도 68b는 디바이스의 축을 따른 다양한 트랜스듀서들의 배치를 도시하는 핸드셋 (H110) 의 2 개의 다른 뷰들을 도시한다. 도 67a 및 도 68b는 클램셸 (clamshell)-타입 셀룰러 전화 핸드셋들의 예들을 도시한다. 장치 (a100) 의 구현을 갖는 셀룰러 전화 핸드셋의 다른 구성들은, 바-타입 및 슬라이더-타입 전화 핸드셋들 뿐만 아니라, 트랜스듀서들 중 하나 이상이 축으로부터 떨어져 배치되는 핸드셋들을 포함한다.

M 개의 마이크로폰들을 갖는 이어피스 또는 다른 핸드셋은 장치 (A100) 의 구현을 포함할 수도 있는 휴대용 통신 디바이스의 다른 종류이다. 그러한 핸드셋은 유선 또는 무선일 수도 있다. 도 69a 내지 도 69d는, 하우징으로부터 연장하는, 원단 신호를 재현하기 위한 이어피스 (Z20) (예컨대, 라우드스피커) 및 2-마이크로폰 어레이를 운반하는 하우징 (Z10) 을 포함하는 그러한 무선 헤드셋 (D300) 의 일례의 다양한 뷰들을 도시한다. 그러한 디바이스는, (예컨대, Bluetooth Special Interest Group, Inc. Bellevue, WA 에 의해 공포된 바와 같은 Blutooth^TM 프로토콜의 버전을 사용하여) 셀룰러 전화 핸드셋과 같은 전화 디바이스와 통신을 통해 하프 또는 풀-듀플렉스 전화를 지원하도록 구성될 수도 있다. 일반적으로, 헤드셋의 하우징은 직사각형일 수도 있거나, 또는 그렇지 않은 경우에 도 69a, 도 69b, 및 도 69d에서 도시된 바와 같이 가늘고 길 수도 있거나 (예컨대, 미니붐 (miniboom) 과 같은 형상), 또는 더 둥글거나 또는 원형일 수도 있다. 하우징은 장치 (A100) 의 구현을 실행하도록 구성된 프로세서 및/또는 다른 프로세싱 회로 (예컨대, 인쇄 회로 보드 및 그 위에 탑재된 컴포넌트들) 및 배터리를 포함할 수도 있다. 또한, 하우징은 전기 포트 (예컨대, 미니-유니버설 시리얼 버스 (USB) 또는 배터리 충전을 위한 다른 포트), 및 하나 이상의 버튼 스위치들 및/또는 LED들과 같은 사용자 인터페이스 피쳐들을 포함할 수도 있다. 통상적으로, 하우징의 주축을 따른 하우징의 길이는 1 에서 3 인치까지의 범위 내에 있다.

통상적으로, 어레이의 각각의 마이크로폰은, 음향 포트로서 기능하는, 하우징 내의 하나 이상의 작은 홀들 뒤의 디바이스 내에 탑재된다. 도 69b 내지 도 69d는, 어레이의 1차 마이크로폰에 대한 음향 포트 (Z40), 및 어레이의 2차 마이크로폰에 대한 음향 포트 (Z50) 의 위치들을 도시한다. 또한, 헤드셋은, 통상적으로 헤드셋으로부터 분리가능한 이어 후크 (Z30) 와 같은 고정 디바이스를 포함할 수도 있다. 예컨대, 외부 이어 후크는 사용자로 하여금 어느 하나의 귀에 대해서도 사용하기 위해 헤드셋을 구성하게 허용하도록 리버시블 (reversible) 할 수도 있다. 다르게는, 헤드셋의 이어폰은, 상이한 사용자들로 하여금 특정한 사용자의 귓구멍의 외부 부분에 대한 더 양호한 피트를 위해 상이한 사이즈 (예컨대, 직경) 의 이어피스를 사용하게 허용하도록 제거가능한 이어피스를 포함할 수도 있는 내부 고정 디바이스 (예컨대, 이어플러그) 로서 설계될 수도 있다.

도 70a는 사용자의 귀 (65) 상에서의 사용을 위해 탑재되는 바와 같은 헤드셋 (D300) 의 구현 (D310) 의 상이한 동작 구성들의 범위 (66) 의 도면을 도시한다. 헤드셋 (D310) 은, 사용자의 입 (64) 에 대한 사용 동안에 상이하게 배향될 수도 있는 엔드파이어 (endfire) 구성으로 배열된 1차 및 2차 마이크로폰들의 어레이 (67) 를 포함한다. 다른 예에서, 장치 (A100) 의 구현을 포함하는 핸드셋은, M 개의 마이크로폰들을 갖는 헤드셋으로부터 감지된 오디오 신호 (S10) 를 수신하고, (예컨대, Bluetooth^TM 프로토콜의 버전을 사용하여) 유선 및/또는 무선 통신 링크를 통해 헤드셋에 원단 프로세싱된 스피치 신호 (S50) 를 출력하도록 구성된다.

도 71a 내지 도 71d는 무선 헤드셋의 다른 예인 멀티-마이크로폰 휴대용 오디오 감지 디바이스 (D350) 의 다양한 뷰들을 도시한다. 헤드셋 (D350) 은, 이어플러그로서 구성될 수도 있는 이어폰 (Z22) 및 둥근 타원형 하우징 (Z12) 을 포함한다. 또한, 도 71a 내지 도 71d는 디바이스 (D350) 의 어레이의 2차 마이크로폰에 대한 음향 포트 (Z52) 및 1차 마이크로폰에 대한 음향 포트 (Z42) 의 위치들을 도시한다. 2차 마이크로폰 포트 (Z52) 가 (예컨대, 사용자 인터페이스 버튼에 의해) 적어도 부분적으로 가려질 수도 있는 것이 가능하다.

M 개의 마이크로폰들을 갖는 핸즈-프리 카킷은 장치 (A100) 의 구현을 포함할 수도 있는 이동 통신 디바이스의 다른 종류이다. 그러한 디바이스의 음향 환경은 윈드 노이즈, 롤링 노이즈, 및/또는 엔진 노이즈를 포함할 수도 있다. 그러한 디바이스는, 차량의 대시보드에 설치되거나, 또는 윈드실드, 차양판, 또는 다른 내부 표면에 제거가능하게 고정되도록 구성될 수도 있다. 도 70b는 라우드스피커 (85) 및 M-마이크로폰 어레이 (84) 를 포함하는 그러한 카킷 (83) 의 예의 도면을 도시한다. 이 특정한 예에서, M 은 4 와 동일하고, M 개의 마이크로폰들은 선형 어레이로 배열된다. 그러한 디바이스는, 위에서 리스팅된 예들과 같은 하나 이상의 코덱들을 통해 무선으로 음성 통신 데이터를 송신 및 수신하도록 구성될 수도 있다. 다르게는 또는 또한, 그러한 디바이스는, (예컨대, 상술된 바와 같은 Bluetooth^TM 프로토콜의 버전을 사용하여) 셀룰러 전화 핸드셋과 같은 전화 디바이스와 통신을 통해 하프 또는 풀-듀플렉스 전화를 지원하도록 구성될 수도 있다.

장치 (A100) 의 구현을 포함할 수도 있는 통신 디바이스들의 다른 예들은 오디오 또는 시청각 회의에 대한 통신 디바이스들을 포함한다. 그러한 회의 디바이스의 통상적인 사용은 다수의 원하는 스피치 소스들 (예컨대, 다양한 참가자들의 입들) 을 수반할 수도 있다. 그러한 경우에서, 마이크로폰들의 어레이가 2 개보다 더 많은 마이크로폰들을 포함하는 것이 바람직할 수도 있다.

M 개의 마이크로폰들을 갖는 미디어 재생 디바이스는 장치 (A100) 는 장치 (A100) 의 구현을 포함할 수도 있는 오디오 또는 시청각 재생 디바이스의 종류이다. 도 72a는, 표준 코덱 (예컨대, MPEG (Moving Pictures Experts Group)-1 오디오 레이어 3 (MP3), MPEG-4 파트 14 (MP4), 윈도우 미디어 오디오/비디오 (WMA/WMV) 의 버전 (Microsorf Corp., Redmond, WA), AAC (Advanced Audio Coding), ITU (International Telecommunication Union)-T H.264 등) 에 따라 인코딩된 파일 또는 스트림과 같은 압축된 오디오 또는 시청각 정보의 재생에 대해 구성될 수도 있는 그러한 디바이스 (D400) 의 도면을 도시한다. 디바이스 (D400) 는, 디바이스의 전면에 배치된 디스플레이 스크린 (DSC10) 및 라우드스피커 (SP10) 를 포함하고, 마이크로폰 어레이의 마이크로폰들 (MC10 및 MC20) 은 디바이스의 동일한 면 (예컨대, 이 예에서와 같이 상부면의 대향하는 측들, 또는 전면의 대향하는 측들) 에 배치된다. 도 72b는, 마이크로폰들 (MC10 및 MC20) 이 디바이스의 대향하는 면들에 배치되는 디바이스 (D400) 의 다른 구현 (D410) 을 도시하고, 도 72c는, 마이크로폰들 (MC10 및 MC20) 이 디바이스의 인접한 면들에 배치되는 디바이스 (D400) 의 다른 구현 (D420) 을 도시한다. 도 72a 내지 도 72c에서 도시된 바와 같은 미디어 재생 디바이스는 또한, 의도된 사용 동안에 더 긴 축이 수평이도록 설계될 수도 있다.

장치 (A100) 의 구현은 송수신기 (예컨대, 상술된 바와 같은 무선 헤드셋 또는 셀룰러 전화기) 내에 포함될 수도 있다. 도 73a는, 장치 (A120) 및 장치 (A500) 의 구현 (A550) 을 포함하는 그러한 통신 디바이스 (D100) 의 블록도를 도시한다. 디바이스 (D100) 는, 무선 주파수 (RF) 통신 신호를 수신하고, 이 예에서 장치 (A550) 에 의해 스피치 신호 (S40) 로서 수신되는 원단 오디오 입력 신호 (S100) 로서 RF 신호 내에 인코딩된 오디오 신호를 디코딩 및 재현하도록 구성된 장치 (A550) 에 커플링된 수신기 (R10) 를 포함한다. 또한, 디바이스 (D100) 는, 근단 프로세싱된 스피치 신호 (S50b) 를 인코딩하고, 인코딩된 오디오 신호를 설명하는 RF 통신 신호를 송신하도록 구성된 장치 (A550) 에 커플링된 송신기 (X10) 를 포함한다. 장치 (550) 의 근단 경로 (즉, 신호들 (SM10-1 및 SM10-2) 에서 프로세싱된 스피치 신호 (S50b) 까지) 는 디바이스 (D100) 의 "오디오 전단부" 라 지칭될 수도 있다. 또한, 디바이스 (D100) 는, 근단 프로세싱된 스피치 신호 (S50a) 를 (예컨대, 프로세싱된 스피치 신호 (S50a) 를 아날로그 신호로 컨버팅하기 위해) 프로세싱하고, 프로세싱된 오디오 신호를 라우드스피커 (SP10) 에 출력하도록 구성된 오디오 출력 스테이지 (O10) 를 포함한다. 이 예에서, 오디오 출력 스테이지 (O10) 는, 레벨이 제어 하에서 변화할 수도 있는 볼륨 제어 신호 (VS10) 의 레벨에 따라, 프로세싱된 오디오 신호의 볼륨을 제어하도록 구성된다.

(예컨대, 이동국 모뎀 (MSM) 칩 또는 칩셋의 기저대역 부분과 같은) 디바이스의 다른 엘리먼트들이 감지된 오디오 신호 (S10) 에 대해 다른 오디오 프로세싱 동작들을 수행하도록 배열되도록, 장치 (A100) (예컨대, A110 또는 A120) 의 구현이 통신 디바이스 내에 상주하는 것이 바람직할 수도 있다. 장치 (A110) 의 구현에 포함될 에코 제거기 (예컨대, 에코 제거기 (EC10)) 를 설계하는데 있어서, 이 에코 제거기와 (예컨대, MSM 칩 또는 칩셋의 에코 제거 모듈과 같은) 통신 디바이스의 임의의 다른 에코 제거기 사이의 가능한 시너지 효과들을 고려하는 것이 바람직할 수도 있다.

도 73b는 통신 디바이스 (D100) 의 구현 (D200) 의 블록도를 도시한다. 디바이스 (D200) 는, 장치 (A550) 의 인스턴스를 실행하도록 구성된 하나 이상의 프로세서들을 포함하는 칩 또는 칩셋 (CS10) (예컨대, MSM 칩셋) 을 포함한다. 또한, 칩 또는 칩셋 (CS10) 은 수신기 (R10) 및 송신기 (X10) 의 엘리먼트들을 포함하고, CS10 의 하나 이상의 프로세서들은 그러한 엘리먼트들 중 하나 이상 (예컨대, 무선으로 수신된 인코딩된 신호를 디코딩하여 오디오 입력 신호 (S100) 를 산출하고, 프로세싱된 스피치 신호 (S50b) 를 인코딩하도록 구성된 보코더 (VC10)) 을 실행하도록 구성될 수도 있다. 디바이스 (D200) 는 안테나 (C30) 를 통해 RF 통신 신호들을 수신 및 송신하도록 구성된다. 또한, 디바이스 (D200) 는 안테나 (C30) 로의 경로에서 하나 이상의 전력 증폭기들 및 디플렉스 (diplexer) 를 포함할 수도 있다. 또한, 칩/칩셋 (CS10) 은 키패드 (C10) 를 통해 사용자 입력을 수신하고, 디스플레이 (C20) 를 통해 정보를 디스플레이하도록 구성된다. 이 예에서, 디바이스 (D200) 는 또한, 글로벌 포지셔닝 시스템 (GPS) 위치 서비스들 및/또는 무선 헤드셋과 같은 외부 디바이스와의 단거리 통신들 (예컨대, Bluetooth^TM) 을 지원하기 위해 하나 이상의 안테나들 (C40) 을 포함한다. 다른 예에서, 그러한 통신 디바이스는 그 자체가 블루투스 헤드셋이고, 키패드 (C10), 디스플레이 (C20), 및 안테나 (C30) 가 없다.

도 74a는 보코더 (VC10) 의 블록도를 도시한다. 보코더 (VC10) 는, (예컨대, 여기서 식별된 것들과 같은 하나 이상의 코덱들에 따라) 프로세싱된 스피치 신호 (S50) 를 인코딩하여, 대응하는 근단 인코딩된 스피치 신호 (E10) 를 산출하도록 구성된 인코더 (ENC100) 를 포함한다. 또한, 보코더 (VC10) 는, (예컨대, 여기서 식별된 것들과 같은 하나 이상의 코덱들에 따라) 원단 인코딩된 스피치 신호 (E20) 를 디코딩하여 오디오 입력 신호 (S100) 를 산출하도록 구성된 디코더 (DEC100) 를 포함한다. 또한, 보코더 (VC10) 는, 신호 (E10) 의 인코딩된 프레임들을 아웃고잉 패킷들로 어셈블링하도록 구성된 패킷화기 (미도시), 및 인커밍 패킷들로부터 신호 (E20) 의 인코딩된 프레임들을 추출하도록 구성된 역패킷화기 (미도시) 를 포함할 수도 있다.

코덱은 상이한 타입의 프레임들을 인코딩하기 위해 상이한 코딩 기법들을 사용할 수도 있다. 도 74b는 활성 프레임 인코더 (ENC10) 및 비활성 프레임 인코더 (ENC20) 를 포함하는 인코더 (ENC100) 의 구현 (ENC110) 의 블록도를 도시한다. 활성 프레임 인코더 (ENC10) 는, 코드-여기된 선형 예측 (CELP), 프로토타입 파형 보간 (PWI), 또는 프로토타입 피치 주기 (PPP) 코딩 기법과 같은 유성 프레임들에 대한 코딩 기법에 따라 프레임들을 인코딩하도록 구성될 수도 있다. 비활성 프레임 인코더 (ENC20) 는, 노이즈-여기된 선형 예측 (NELP) 코딩 기법과 같은 무성 프레임들에 대한 코딩 기법, 또는 변형된 이산 코사인 변환 (MDCT) 코딩 기법과 같은 비-유성 프레임들에 대한 코딩 기법에 따라 프레임들을 인코딩하도록 구성될 수도 있다. 프레임 인코더들 (ENC10 및 ENC20) 은 (가능하게는, 비활성 프레임들에 대해서보다 스피치 및 비-스피치 프레임들에 대해 상위 오더와 같은 상이한 코딩 기법들에 대한 상이한 오더를 갖는 결과를 산출하도록 구성된) LPC 계수 값들의 계산기 및/또는 LPC 잔여 생성기와 같은 공통 구조를 공유할 수도 있다. 인코더 (ENC110) 는 (예컨대, 선택기들 (SEL1 및 SEL2) 을 통해) 각각의 프레임에 대해 프레임 인코더들 중 적절한 하나를 선택하는 코딩 기법 선택 신호 (CS10) 를 수신한다. 디코더 (DEC100) 는, 인코딩된 스피치 신호 (E20) 내의 정보 및/또는 대응하는 인커밍 RF 신호 내의 다른 정보에 의해 표시되는 바와 같은 그러한 코딩 기법들 중 2 개 이상 중 하나에 따라, 인코딩된 프레임들을 디코딩하도록 유사하게 구성될 수도 있다.

코딩 기법 선택 신호 (CS10) 가, 여기서 설명되는 바와 같은 VAD ((예컨대, 장치 (A160) 의) V10 또는 (예컨대, 장치 (A165) 의) V15) 의 출력과 같은, 음성 활동 검출 동작의 결과에 기초하는 것이 바람직할 수도 있다. 또한, 인코더 (ENC110) 의 소프트웨어 또는 펌웨어 구현이 코딩 기법 선택 신호 (CS10) 를 사용하여, 프레임 인코더들의 하나 또는 다른 인코더로 실행의 플로우를 안내할 수도 있고, 그러한 구현이 선택기 (SEL1) 및/또는 선택기 (SEL2) 에 대해 아날로그를 포함하지 않을 수도 있다는 것이 주의된다.

다르게는, 선형 예측 도메인에서 동작하도록 구성된 인핸서 (EN10) 의 인스턴스를 포함하도록 보코더 (VC10) 를 구현하는 것이 바람직할 수도 있다. 예컨대, 인핸서 (EN10) 의 그러한 구현은, 상술된 바와 같이 스피치 신호 (S40) 의 선형 예측 분석의 결과들에 기초하여, 인핸스먼트 벡터 (EV10) 를 생성하도록 구성된 인핸스먼트 벡터 생성기 (VG100) 의 구현을 포함할 수도 있으며, 분석은 보코더의 다른 엘리먼트 (예컨대, LPC 계수 값들의 계산기) 에 의해 수행된다. 그러한 경우에서, (예컨대, 오디오 프리프로세서 (AP10) 에서 노이즈 감소 스테이지 (NR10) 까지의) 여기서 설명되는 바와 같은 장치 (A100) 의 구현의 다른 엘리먼트들은 보코더의 업스트림에서 위치될 수도 있다.

도 75a는, SSP 필터 (SS10) 의 하나 이상의 방향성 프로세싱 스테이지들을 특성화하는 계수 값들을 획득하기 위해 사용될 수도 있는 설계 방법 (M10) 의 플로우차트를 도시한다. 방법 (M10) 은, 멀티채널 트레이닝 신호들의 세트를 레코딩하는 태스크 (T10), SSP 필터 (SS10) 의 구조를 수렴으로 트레이닝하는 태스크 (T20), 및 트레이닝된 필터의 분리 성능을 평가하는 태스크 (T30) 를 포함한다. 통상적으로, 태스크들 (T20 및 T30) 은 퍼스널 컴퓨터 또는 워크스테이션을 사용하여, 오디오 감지 디바이스 외부에서 수행된다. 방법 (M10) 의 태스크들 중 하나 이상은 태스크 (T30) 에서 수용가능한 결과가 획득될 때까지 반복될 수도 있다. 방법 (M10) 의 다양한 태스크들은 이하 더 상세히 논의되며, 이들 태스크들의 부가적인 설명은, 2008년 8월 25일자로 출원된 발명의 명칭이 "SYSTEMS, METHODS, AND APPARATUS FOR SIGNAL SEPARATION" 인 미국 특허 출원 제 12/197,924 호에서 발견되며, 그 문헌은 SSP 필터 (SS10) 의 하나 이상의 방향성 프로세싱 스테이지들의 설계, 구현, 트레이닝, 및/또는 평가에 제한된 목적들을 위해 참조로 여기에 통합된다.

태스크 (T10) 는, M 개의 채널들의 각각이 M 개의 마이크로폰들 중 대응하는 하나의 출력에 기초하도록, M-채널 트레이닝 신호들의 세트를 레코딩하기 위해 적어도 M 개의 마이크로폰들의 어레이를 사용한다. 트레이닝 신호들의 각각은, 각각의 트레이닝 신호가 스피치 및 노이즈 컴포넌트들 양자 모두를 포함하도록, 적어도 하나의 정보 소스 및 적어도 하나의 간섭 소스에 응답하여 이 어레이에 의해 산출되는 신호들에 기초한다. 예컨대, 트레이닝 신호들의 각각이 노이즈 환경에서의 스피치의 레코딩인 것이 바람직할 수도 있다. 통상적으로, 마이크로폰 신호들은 샘플링되고, 프리-프로세싱될 수도 있으며 (예컨대, 에코 제거, 노이즈 감소, 스펙트럼 형상화 등을 위해 필터링될 수도 있으며), (예컨대, 여기서 설명되는 바와 같은 다른 공간적 분리 필터 또는 적응적 필터에 의해) 프리-분리될 수도 있다. 스피치와 같은 음향 애플리케이션들에 대해, 통상적인 샘플링 레이트들은 8 ㎑ 에서 16 ㎑ 까지의 범위를 갖는다.

M-채널 트레이닝 신호들의 세트의 각각은 P 개의 시나리오들 중 하나 하에서 레코딩되며, P 는 2 와 동일할 수도 있지만, 일반적으로 1 보다 더 큰 임의의 정수이다. P 개의 시나리오들의 각각은, 상이한 공간적 피쳐 (예컨대, 상이한 핸드셋 또는 헤드셋 배향), 및/또는 상이한 스펙트럼 피쳐 (예컨대, 상이한 특징들을 가질 수도 있는 사운드 소스들의 캡쳐링) 를 포함할 수도 있다. 트레이닝 신호들의 세트는, P 개의 시나리오들 중 상이한 하나 하에서 각각 레코딩되는 적어도 P 개의 트레이닝 신호들을 포함하지만, 통상적으로, 그러한 세트는 각각의 시나리오에 대한 다수의 트레이닝 신호들을 포함한다.

여기서 설명되는 바와 같은 장치 (A100) 의 다른 엘리먼트들을 포함하는 동일한 오디오 감지 디바이스를 사용하여 태스크 (T10) 를 수행하는 것이 가능하다. 더 통상적으로, 그러나, 태스크 (T10) 는 오디오 감지 디바이스 (예컨대, 핸드셋 또는 헤드셋) 의 레퍼런스 인스턴스를 사용하여 수행될 것이다. 그 후, 방법 (M10) 에 의해 산출된 수렴된 필터 솔루션들의 결과의 세트는 생산 동안에 동일하거나 또는 유사한 오디오 감지 디바이스의 다른 인스턴스들로 카피될 것이다 (예컨대, 각각의 그러한 생산 인스턴스의 플래시 메모리로 로딩될 것이다).

M-채널 트레이닝 신호들의 세트를 레코딩하기 위해 음향 무향 챔버가 사용될 수도 있다. 도 75b는 트레이닝 데이터의 레코딩에 대해 구성된 음향 무향 챔버의 예를 도시한다. 이 예에서, 헤드 (Head) 및 토르소 (Torso) 시뮬레이터 (Broel & Kjaer, Naerum, Denmark 에 의해 제조된 바와 같은 HATS) 가 간섭 소스들 (즉, 4 개의 라우드스피커들) 의 인워드-포커싱된 (inward-focused) 어레이 내에 배치된다. HATS 헤드는 전형적인 인간의 헤드와 음향적으로 유사하고, 스피치 신호를 재현하기 위한 입에 라우드스피커를 포함한다. 간섭 소스들의 어레이는, 도시된 바와 같은 HATS 를 둘러싸는 확산 노이즈 필드를 생성하도록 구동될 수도 있다. 일 그러한 예에서, 라우드스피커들의 어레이는 HATS 귀 레퍼런스 포인트 또는 입 레퍼런스 포인트에서 75 내지 78 dB 의 음압 레벨의 노이즈 신호들을 재생하도록 구성된다. 다른 경우들에서, 하나 이상의 그러한 간섭 소스들이 상이한 공간적 분포를 갖는 노이즈 필드 (예컨대, 방향성 노이즈 필드) 를 생성하도록 구동될 수도 있다.

(예컨대, Institute of Electrical and Electronics Engineers (IEEE), Piscataway, NJ 에 의해 공표된, IEEE 표준 269-2001, "Draft Standard Methods for Measuring Transmission Performance of Analog and Digital Telephone Sets, Handsets and Headsets" 에서 설명되는 바와 같은) 화이트 노이즈, 핑크 노이즈, 그레이 노이즈, 및 호스 (Hoth) 노이즈를 포함하는 노이즈 신호들의 타입들이 사용될 수도 있다. 브라운 노이즈, 블루 노이즈, 및 퍼플 노이즈를 포함하는 다른 타입의 노이즈 신호들이 사용될 수도 있다.

어레이의 마이크로폰들의 제조 동안에 변화들이 발생할 수도 있어서, 대량-제조된 및 명백하게 동일한 마이크로폰들의 배치 중에서도 하나의 마이크로폰과 다른 마이크로폰에서 민감도가 상당히 변화할 수 있다. 예컨대, 휴대용 대량-생산 디바이스들에서의 사용을 위한 마이크로폰들은 플러스 또는 마이너스 3 데시벨의 민감도 허용범위에서 제조될 수도 있어서, 어레이에서의 2 개의 그러한 마이크로폰들의 민감도가 6 데시벨 만큼 상이할 수도 있다.

또한, 마이크로폰이 디바이스 상에 탑재되면, 마이크로폰의 유효 응답 특성들에서 변화들이 발생할 수도 있다. 통상적으로, 마이크로폰은 음향 포트 뒤의 디바이스 하우징 내에 탑재되고, 압력 및/또는 마찰 또는 접착에 의해 제자리에 고정될 수도 있다. 마이크로폰이 탑재된 캐비티의 공진들 및/또는 다른 음향 특성들, 마이크로폰과 탑재 개스킷 (gasket) 사이의 압력의 양 및/또는 균일성, 음향 포트의 사이즈 및 형상 등과 같은 다수의 인자들이 그러한 방식으로 탑재된 마이크로폰의 유효 응답 특성들에 영향을 미칠 수도 있다.

방법 (M10) 에 의해 산출된 수렴된 필터 솔루션의 공간 선택적 특성들 (예컨대, 대응하는 빔 패턴의 형상 및 배향) 은, 트레이닝 신호들을 획득하기 위해 태스크 (T10) 에서 사용된 마이크로폰들의 상대적인 특성들에 민감할 것이다. 트레이닝 신호들의 세트를 레코딩하기 위해 디바이스를 사용하기 이전에, 적어도 레퍼런스 디바이스의 M 개의 마이크로폰들의 이득들을 서로에 대해 교정하는 것이 바람직할 수도 있다. 그러한 교정은, 마이크로폰들의 이득들의 결과의 비율이 원하는 범위 내에 있도록, 마이크로폰들 중 하나 이상의 출력에 인가될 가중화 인자를 계산하거나 또는 선택하는 것을 포함할 수도 있다.

태스크 (T20) 는 소스 분리 알고리즘에 따라, SSP 필터 (SS10) 의 구조를 트레이닝하기 위해 (즉, 대응하는 수렴된 필터 솔루션을 계산하기 위해) 트레이닝 신호들의 세트를 사용한다. 태스크 (T20) 는 레퍼런스 디바이스 내에서 수행될 수도 있지만, 통상적으로, 퍼스널 컴퓨터 또는 워크스테이션을 사용하여, 오디오 감지 디바이스 외부에서 수행된다. 태스크 (T20) 가, 결과의 출력 신호, 즉 방향성 컴포넌트의 에너지가 출력 채널들 (예컨대, 소스 신호 (S20)) 중 하나로 집중되도록, 방향성 컴포넌트를 갖는 멀티채널 입력 신호 (예컨대, 감지된 오디오 신호 (S10)) 를 필터링하도록 구성된 수렴된 필터 구조를 산출하는 것이 바람직할 수도 있다. 이 출력 채널은 멀티채널 입력 신호의 채널들 중 임의의 것과 비교하여 증가된 신호-대-노이즈 비 (SNR) 를 가질 수도 있다.

"소스 분리 알고리즘" 이라는 용어는, 소스 신호들의 혼합물들에만 기초하여, (하나 이상의 정보 소스들 및 하나 이상의 간섭 소스들로부터의 신호들을 포함할 수도 있는) 개별적인 소스 신호들을 분리시키는 방법들인 블라인드 소스 분리 (BSS) 알고리즘들을 포함한다. 블라인드 소스 분리 알고리즘들은 다수의 독립적인 소스들로부터 유래하는 믹싱된 신호들을 분리시키기 위해 사용될 수도 있다. 이들 기술들이 각각의 신호의 소스에 대한 정보를 요구하지 않기 때문에, 이들 기술들은 "블라인드 소스 분리" 방법들이라 알려져 있다. "블라인드" 라는 용어는, 레퍼런스 신호 또는 관심 있는 신호가 이용가능하지 않은 사실을 지칭하고, 그러한 방법들은 정보 및/또는 간섭 신호들 중 하나 이상의 통계들에 관한 추정들을 일반적으로 포함한다. 예컨대, 스피치 애플리케이션들에서, 관심 있는 스피치 신호는 일반적으로 수퍼가우시안 분포 (예컨대, 고 쿨토시스) 를 갖는 것으로 추정된다. 또한, BSS 알고리즘들의 클래스는 다변수의 블라인드 디콘볼루션 알고리즘들을 포함한다.

BSS 방법은 독립적인 컴포넌트 분석의 구현을 포함할 수도 있다. 독립적인 컴포넌트 분석 (Independent component analysis; ICA) 은 추정적으로 서로 독립적인 믹싱된 소스 신호들 (컴포넌트들) 을 분리시키기 위한 기술이다. 독립적인 컴포넌트 분석의 간략화된 형태에서, 독립적인 컴포넌트 분석은, (예컨대, 매트릭스를 믹싱된 신호들과 승산함으로써) 믹싱된 신호들에 가중치들의 "비-믹싱 (un-mixing)" 매트릭스를 적용하여, 분리된 신호들을 산출한다. 가중치들에는, 정보 리던던시를 최소화하기 위해 신호들의 조인트 엔트로피를 최대화하도록 조정된 초기 값들이 할당될 수도 있다. 가중치-조정 및 엔트로피-증가 프로세스는, 신호들의 정보 리던던시가 최소로 감소될 때까지 반복된다. ICA 와 같은 방법들은 노이즈 소스들로부터의 스피치 신호들의 분리를 위한 비교적 정확하고 유연한 수단을 제공한다. 독립적인 벡터 분석 ("IVA (Independent vector analysis") 은, 소스 신호가 단일 가변 소스 신호 대신에 벡터 소스 신호인 관련된 BSS 기술이다.

또한, 소스 분리 알고리즘들의 클래스는, 예컨대 마이크로폰 어레이의 축에 대한 음향 소스들 중 하나 이상의 각각의 알려진 방향과 같은 다른 사전 정보에 따라 제약되는 제약된 ICA 및 제약된 IVA 와 같은 BSS 알고리즘들의 이형들을 포함한다. 그러한 알고리즘들은, 관측된 신호들이 아닌 방향성 정보에만 기초하여, 고정된, 비-적응적 솔루션들을 적용하는 빔포머들로부터 구별될 수도 있다.

도 8a를 참조하여 상술된 바와 같이, SSP 필터 (SS10) 는 하나 이상의 스테이지들 (예컨대, 고정된 필터 스테이지 (FF10), 적응적 필터 스테이지 (AF10)) 를 포함할 수도 있다. 이들 스테이지들의 각각은, 소스 분리 알고리즘으로부터 도출된 러닝 룰을 사용하여 태크스 (T20) 에 의해 계수 값들이 계산되는 대응하는 적응적 필터 구조에 기초할 수도 있다. 필터 구조는 피드포워드 및/또는 피드백 계수들을 포함할 수도 있고, 유한-임펄스-응답 (FIR) 또는 무한-임펄스-응답 (IIR) 설계일 수도 있다. 그러한 필터 구조들의 예들은 위에서 통합된 바와 같은 미국 특허 출원 제 12/197,924 호에서 설명된다.

도 76a는 2 개의 피드백 필터들 (C110 및 C120) 을 포함하는 적응적 필터 구조 (FS10) 의 2-채널 예의 블록도를 도시하고, 도 76b는 2 개의 직접 필터들 (D110 및 D120) 을 또한 포함하는 필터 구조 (FS10) 의 구현 (FS20) 의 블록도를 도시한다. 공간 선택적 프로세싱 필터 (SS10) 는, 예컨대 입력 채널들 (I1, I2) 이 감지된 오디오 채널들 (S10-1, S10-2) 각각에 대응하고, 출력 채널들 (O1, O2) 이 소스 신호 (S20) 및 노이즈 레퍼런스 (S30) 각각에 대응하도록 그러한 구조를 포함하도록 구현될 수도 있다. 그러한 구조를 트레이닝하기 위해 태스크 (T20) 에 의해 사용되는 러닝 룰은, 필터의 출력 채널들 사이의 정보를 최대화하도록 (예컨대, 필터의 출력 채널들의 적어도 하나에 의해 포함된 정보의 양을 최대화하도록) 설계될 수도 있다. 또한, 그러한 기준은, 출력 채널들의 통계적인 독립성을 최대화하거나, 또는 출력 채널들 사이의 상호 정보를 최소화하거나, 또는 출력에서의 엔트로피를 최대화하는 것으로서 재시작될 수도 있다. 사용될 수도 있는 상이한 러닝 룰들의 특정한 예들은, 최대 정보 (또는 인포맥스라 알려짐), 최대 가능성, 및 최대 비정규성 (nongaussianity) (예컨대, 최대 쿨토시스) 를 포함한다.

그러한 적응적 구조들, 및 ICA 또는 IVA 적응적 피드백 및 피드포워드 기법들에 기초한 러닝 룰들의 다른 예들은, 2006년 3월 9일자로 발행된 발명의 명칭이 "System and Method for Speech Processing using Independent Component Analysis under Stability Constraints" 인 미국 공개 공보 제 2006/0053002 A1; 2006년 3월 1일자로 출원된 발명의 명칭이 ""System and Method for Improved Signal Separation using a Blind Signal Source Process" 인 미국 가출원 제 60/777,920 호; 2006년 3월 1일자로 출원된 발명의 명칭이 "System and Method for Generating a Separated Signal" 인 미국 가출원 제 60/777,900 호; 및 발명의 명칭이 "Systems and Methods for Blind Source Signal Separation" 인 국제 공개 공보 제 WO2007/100330 A1 (Kim et al.) 에서 설명된다. 적응적 필터 구조들, 및 그러한 필터 구조들을 트레이닝하기 위해 태스크 (T20) 에서 사용될 수도 있는 러닝 룰들의 부가적인 설명은 위에서 참조로 통합된 바와 같은 미국 특허 출원 제 12/197,924 호에서 발견될 수도 있다. 예컨대, 필터 구조들 (FS10 및 FS20) 의 각각은 2 개의 피드백 필터들 대신에 2 개의 피드포워드 필터들을 사용하여 구현될 수도 있다.

도 76a에서 도시된 바와 같은 피드백 구조 (FS10) 를 트레이닝하기 위해 태스크 (T20) 에서 사용될 수도 있는 러닝 룰의 일례는 다음과 같이 표현될 수도 있으며,

t 는 시간 샘플 인덱스를 나타내고, h₁₂(t) 는 시간 t 에서 필터 (C110) 의 계수 값들을 나타내고, h₂₁(t) 는 시간 t 에서 필터 (C120) 의 계수 값들을 나타내고, 심볼

는 시간-도메인 콘볼루션 동작을 나타내고, ㅿh_12k 는 출력 값들 (y₁(t) 및 y₂(t)) 의 계산에 후속하는 필터 (C110) 의 k 번째 계수 값에서의 변화를 나타내며, ㅿh_21k 는 출력 값들 (y₁(t) 및 y₂(t)) 의 계산에 후속하는 필터 (C120) 의 k 번째 계수 값에서의 변화를 나타낸다. 원하는 신호의 누적 밀도 함수를 근사화하는 비선형 유계 함수로서 활성화 함수 (

) 를 구현하는 것이 바람직할 수도 있다. 스피치 애플리케이션들에 대한 활성화 신호 (

) 에 대해 사용될 수도 있는 비선형 유계 함수들의 예들은 쌍곡선 탄젠트 함수, 시그모이드 함수, 및 사인 함수를 포함한다.

선형 마이크로폰 어레이로부터 수신된 신호들의 방향성 프로세싱에 대해 사용될 수도 있는 기술들의 다른 클래스는 종종 "빔포밍" 이라 지칭된다. 빔포밍 기술들은, 마이크로폰들의 공간적 다이버시티로부터 발생하는 채널들 사이의 시간 차이를 사용하여, 특정한 방향으로부터 도달하는 신호의 컴포넌트를 증대시킨다. 더 구체적으로, 마이크로폰들 중 하나가 원하는 소스 (예컨대, 사용자의 입) 에 더 적집적으로 배향될 것이고, 반면에 다른 마이크로폰은 상대적으로 감쇠되는 이 소스로부터의 신호를 생성할 수도 있을 것이다. 이들 빔포밍 기술들은, 다른 방향들에 널 (null) 을 넣어서, 사운드 소스를 향해 빔을 스티어링 (steer) 하는 공간적 필터링을 위한 방법들이다. 빔포밍 기술들은 사운드 소스에 대해 추정을 행하지 않지만, 소스와 센서들 또는 사운드 신호 그 자체 사이의 지오메트리가 신호를 비잔향 (dereverberate) 시키거나 또는 사운드 소스를 로컬화는 목적에 대해 알려져 있다. SSP 필터 (SS10) 의 구조의 필터 계수 값들은, 데이터-의존성 또는 데이터-독립성 빔포머 설계 (예컨대, 수퍼디렉티브 빔포머 (superdirective beamformer), 리스트-스퀘어스 빔포머 (least-squares beamformer), 또는 통계 최적 빔포머 설계) 에 따라 계산될 수도 있다. 데이터-의존성 빔포머 설계의 경우에서, (예컨대, 노이즈 상관 매트릭스를 튜닝함으로써) 원하는 공간적 영역을 커버하도록 빔 패턴을 형상화하는 것이 바람직할 수도 있다.

태스크 (T30) 는 트레이닝된 필터의 분리 성능을 평가함으로써, 태스크 (T20) 에서 산출된 트레이닝된 필터를 평가한다. 예컨대, 태스크 (T30) 는 평가 신호들의 세트에 대한 트레이닝된 필터의 응답을 평가하도록 구성될 수도 있다. 평가 신호들의 이 세트는 태스크 (T20) 에서 사용된 트레이닝 세트와 동일할 수도 있다. 다르게는, 평가 신호들의 세트는 트레이닝 세트의 신호들과 상이하지만 유사한 (예컨대, 동일한 P 개의 시나리오들 중 적어도 일부 및 마이크로폰들의 동일한 어레이의 적어도 일부를 사용하여 레코딩된) M-채널 신호들의 세트일 수도 있다. 그러한 평가는 인간의 관리에 의해 및/또는 자동으로 수행될 수도 있다. 통상적으로, 태스크 (T30) 는 퍼스널 컴퓨터 또는 워크스테이션을 사용하여 오디오 감지 디바이스 외부에서 수행된다.

태스크 (T30) 는 하나 이상의 매트릭들의 값들에 따라 필터 응답을 평가하도록 구성될 수도 있다. 예컨대, 태스크 (T30) 는, 하나 이상의 매트릭들의 각각에 대한 값들을 계산하고, 계산된 값들을 각각의 임계값들과 비교하도록 구성될 수도 있다. 필터 응답을 평가하기 위해 사용될 수도 있는 매트릭의 일례는, (A) 평가 신호의 오리지널 정보 컴포넌트 (예컨대, 평가 신호의 레코딩 동안에 HATS 의 입 라우드스피커로부터 재현되었던 스피치 신호) 와 (B) 그 평가 신호에 대한 필터의 응답의 적어도 하나의 채널 사이의 상관이다. 그러한 매트릭은, 수렴된 필터 구조가 간섭으로부터 정보를 얼마나 양호하게 분리시키는지를 표시할 수도 있다. 이 경우에서, 정보 컴포넌트가 필터 응답의 M 개의 채널들 중 하나와 실질적으로 상관되고 다른 채널들과 작은 상관을 갖는 경우에 분리가 표시된다.

(예컨대, 필터가 간섭으로부터 정보를 얼마나 양호하게 분리시키는지를 표시하기 위해) 필터 응답을 평가하기 위해 사용될 수도 있는 매트릭들의 다른 예들은, 분산, 정규성, 및/또는 쿨토시스와 같은 상위-오더 통계적 모멘트들을 포함한다. 스피치 신호들에 대해 사용될 수도 있는 매트릭들의 부가적인 예들은 제로 크로싱 레이트 및 시간에 걸친 버스트율 (burstiness) (또한 시간 희소라 알려짐) 을 포함한다. 일반적으로, 스피치 신호들은 노이즈 신호들보다 더 낮은 제로 크로싱 레이트 및 더 낮은 시간 희소를 활용한다. 필터 응답을 평가하기 위해 사용될 수도 있는 매트릭의 다른 예는, 평가 신호의 레코딩 동안에, 마이크로폰들의 어레이에 대한 정보 또는 간섭 소스의 실제 위치가 그 평가 신호에 대한 필터의 응답에 의해 표시되는 바와 같은 빔 패턴 (또는 널 빔 패턴) 과 동의하는 정도이다. 태스크 (T30) 에서 사용되는 매트릭들이 (예컨대, 평가 분리기 (EV10) 와 같은 부리 평가기를 참조하여 상술된 바와 같은) 장치 (A200) 의 대응하는 구현에서 사용되는 분리 측정들을 포함하거나 또는 제한되는 것이 바람직할 수도 있다.

원하는 평가 결과가 SSP 필터 (SS10) 의 고정된 필터 스테이지 (예컨대, 고정된 필터 스테이지 (FF10) 에 대해 태스크 (T30) 에서 획득되면, 대응하는 필터 상태가 SSP 필터 (SS10) 의 고정된 상태 (예컨대, 필터 계수 값들의 고정된 세트) 로서 생산 디바이스들로 로딩될 수도 있다. 이하 설명되는 바와 같이, 실험실, 팩토리, 자동 (예컨대, 자동 이득 매칭) 교정 절차와 같은, 각각의 생산 디바이스에서의 마이크로폰들의 이득 및/또는 주파수 응답들을 교정하기 위한 절차를 수행하는 것이 또한 바람직할 수도 있다.

방법 (M10) 의 일 인스턴스에서 산출된 트레이닝된 고정된 필터는, 적응적 필터 스테이지 (예컨대, SSP 필터 (SS10) 의 적응적 필터 스테이지 (AF10)) 에 대한 초기 컨디션들을 계산하기 위해, 레퍼런스 디바이스를 사용하여 또한 레코딩된 트레이닝 신호들의 다른 세트를 필터링하기 위한 방법 (M10) 의 다른 인스턴스에서 사용될 수도 있다. 적응적 필터에 대한 초기 컨디션들의 그러한 계산의 예들은, 2008년 8월 25일자로 출원된 발명의 명칭이 "SYSTEMS, METHODS, AND APPARATUS FOR SIGNAL SEPARATION" 인 미국 특허 출원 제 12/197,924 호에서, 예컨대 단락들 [00129]-[00135] ("It may be desirable" 로 시작하고 "cancellation in parallel" 로 끝난다) 에서 설명되며, 그 단락들은 적응적 필터 스테이지들의 설계, 트레이닝, 및/또는 구현의 설명에 제한되는 목적들을 위해 참조로 여기에 통합된다. 또한, 그러한 초기 컨디션들은 (예컨대, 트레이닝된 고정된 필터 스테이지들에 대한) 절차 동안에 동일하거나 또는 유사한 디바이스의 다른 인스턴스들로 로딩될 수도 있다.

다르게는 또는 또한, 방법 (M10) 의 인스턴스는 상술된 바와 같은 에코 제거기 (EC10) 에 대한 하나 이상의 수렴된 필터 세트들을 획득하기 위해 수행될 수도 있다. 그 후, 에코 제거기의 트레이닝된 필터들은, SSP 필터 (SS10) 에 대한 트레이닝 신호들의 레코딩 동안에 마이크로폰 신호들에 대해 에코 제거를 수행하기 위해 사용될 수도 있다.

생산 디바이스에서, 마이크로폰 어레이에 의해 산출된 멀티채널 신호에 대한 동작의 성능 (예컨대, SSP 필터 (SS10) 를 참조하여 상술된 바와 같은 공간 선택적 프로세싱 동작) 은 어레이 채널들의 응답 특성들이 서로 얼마나 양호하게 매칭되는지에 의존할 수도 있다. 각각의 마이크로폰들의 응답 특성들에서의 차이, 각각의 프리프로세싱 스테이지들의 이득 레벨들에서의 차이, 및/또는 회로 노이즈 레벨들에서의 차이를 포함할 수도 있는 인자들로 인해 채널들의 레벨들이 상이한 것이 가능하다. 그러한 경우에서, 결과의 멀티채널 신호는, 마이크로폰 응답 특성들 사이의 차이가 보상될 수도 있지 않는 한, 음향 환경의 정확한 표현을 제공하지 않을 수도 있다. 그러한 보상이 없이, 그러한 신호에 기초한 공간적 프로세싱 동작은 오류의 결과를 제공할 수도 있다. 예컨대, 저 주파수들 (즉, 대략 100 ㎐ 내지 1 ㎑) 에서의 1 또는 2 데시벨 만큼 작은 채널들 사이의 진폭 응답 편차들은 저-주파수 방향성을 상당히 감소시킬 수도 있다. 마이크로폰 어레이의 채널들 사이의 불균형 (imbalance) 의 효과들은 2 개보다 더 많은 마이크로폰들을 갖는 어레이로부터의 멀티채널 신호를 프로세싱하는 애플리케이션들에 대해 특히 해로울 수도 있다.

결국, 생산 동안 및/또는 이후에, 적어도 각각의 생산 디바이스의 마이크로폰들의 이득들을 서로에 대해 교정하는 것이 바람직할 수도 있다. 예컨대, 어레이의 채널들의 유효 이득 특성들 사이의 차이와 같은 어레이의 채널들의 유효 응답 특성들 사이의 차이를 정량화하기 위해, 어셈블링된 멀티-마이크로폰 오디오 감지 디바이스에 대해 프리-전달 교정 동작 (즉, 사용자에게 전달하기 이전) 을 수행하는 것이 바람직할 수도 있다.

상술된 바와 같은 실험실 절차가 생산 디바이스에 대해 또한 수행될 수도 있으면서, 각각의 생산 디바이스에 대한 그러한 절차를 수행하는 것은 비현실적일 것이다. 생산 디바이스들 (예컨대, 핸드셋들) 의 팩토리 교정을 수행하기 위해 사용될 수도 있는 휴대용 챔버들 및 다른 교정 엔클로져들 및 절차들의 예들은, 2008년 6월 30일자로 출원된 발명의 명칭이 "SYSTEMS, METHODS, AND APPARATUS FOR CALIBRATION OF MULTI-MICROPHONE DEVICES" 인 미국 특허 출원 제 61/077,144 호에서 설명된다. 교정 절차는 각각의 마이크로폰 채널에 적용될 보상 인자 (예컨대, 이득 계수) 를 산출하도록 구성될 수도 있다. 예컨대, 오디오 프리프로세서 (AP10) 의 엘리먼트 (예컨대, 디지털 프리프로세서 (D20a 또는 D20b) 은 감지된 오디오 신호 (S10) 의 각각의 채널에 그러한 보상 인자를 적용하도록 구성될 수도 있다.

프리-전달 교정 절차는 대부분의 제조된 디바이스들에 대해 수행하기에 너무 시간-소모적이거나 또는 그렇지 않은 경우에 비현실적일 수도 있다. 예컨대, 대량-생산 디바이스의 각각의 인스턴스에 대해 그러한 동작을 수행하는 것은 경제적으로 실행불가능할 수도 있다. 또한, 프리-전달 동작 단독으로는 디바이스의 수명에 걸쳐 양호한 성능을 보장하기에 불충분할 수도 있다. 마이크로폰 민감도는, 에이징 (aging), 온도, 방사, 및 오염을 포함할 수도 있는 인자들로 인해, 시간에 걸쳐 드리프트 (drift) 하거나 또는 변화할 수도 있다. 그러나, 어레이의 다양한 채널들의 응답들 사이의 불균형에 대한 적절한 보상이 없이는, 공간 선택적 프로세싱 동작과 같은 멀티채널 동작에 대한 성능의 원하는 레벨은 달성하기 어렵거나 또는 불가능할 수도 있다.

결국, 주기 기초로 또는 몇몇 다른 이벤트 (예컨대, 파워-업, 사용자 선택시 등) 시의 서비스 동안에 하나 이상의 마이크로폰 주파수 특징들 및/또는 민감도들 (예컨대, 마이크로폰 이득들 사이의 비율) 을 매칭하도록 구성된 오디오 감지 디바이스 내의 교정 루틴을 포함하는 것이 바람직할 수도 있다. 그러한 자동 이득 매칭 절차의 예들은, 2009년 3월 XX일자로 출원된 발명의 명칭이 "SYSTEMS, METHODS, AND APPARATUS FOR MULTICHANNEL SIGNAL BALANCING" 인 관리 번호 081747 의 미국 특허 출원 번호 제 1X/XXX,XXX 호에서 설명되며, 그 문헌은 교정 방법들, 루틴들, 동작들, 디바이스들, 챔버들, 및 절차들의 개시에 제한되는 목적들을 위해 참조로 여기에 통합된다.

도 77에서 예시된 바와 같이, 일반적으로, 무선 전화 시스템 (예컨대, CDMA, TDMA, FDMA, 및/또는 TD-SCDMA 시스템) 은, 복수의 기지국들 (12) 및 하나 이상의 기지국 제어기 (BSC) 들 (14) 을 포함하는 무선 액세스 네트워크와 무선으로 통신하도록 구성된 복수의 이동 가입자 유닛들 (10) 을 포함한다. 또한, 그러한 시스템은 일반적으로, 종래의 공중 전화 교환망 (PSTN) (18) 과의 무선 액세스 네트워크를 인터페이스하도록 구성된, BSC들 (14) 에 커플링된, 이동 스위칭 센터 (MSC) (16) 를 포함한다. 이 인터페이스를 지원하기 위해, MSC 는, 네트워크들 사이의 번역 유닛으로서 액트하는 미디어 게이트웨이를 포함하거나 또는 그렇지 않은 경우에 미디어 게이트웨이와 통신할 수도 있다. 미디어 게이트웨이는, 상이한 송신 및/또는 코딩 기술들과 같은 상이한 포맷들 사이에서 컨버팅 (예컨대, 시분할 멀티플렉스된 (TDM) 음성과 VoIP 사이에서 컨버팅) 하도록 구성되고, 에코 제거, 이중-시간 멀티주파수 (DTMF), 및 톤 전송과 같은 미디어 스트리밍 기능들을 수행하도록 구성될 수도 있다. BSC들 (14) 은 백홀 라인들을 통해 기지국들 (12) 에 커플링된다. 백홀 라인들은, 예컨대 E1/T1, ATM, IP, PPP, 프레임 중계, HDSL, ADSL, 또는 xDSL 을 포함하는 여러 알려진 인터페이스들 중 임의의 것을 지원하도록 구성될 수도 있다. 기지국들 (12), BSC들 (14), MSC (16), 및 존재하는 경우에 미디어 게이트웨이들의 컬렉션은 "인프라스트럭쳐" 라 또한 지칭된다.

각각의 기지국 (12) 은 적어도 하나의 섹터 (미도시) 를 유리하게 포함하고, 각각의 섹터는 기지국 (12) 으로부터 특정한 방향으로 방사형으로 떨어져 포인팅된 안테나 또는 전방향성 안테나를 포함한다. 다르게는, 각각의 섹터는 다이버시티 수신을 위한 2 개 이상의 안테나들을 포함할 수도 있다. 각각의 기지국 (12) 은 복수의 주파수 할당들을 지원하도록 유리하게 설계될 수도 있다. 섹터 및 주파수 할당의 인터섹션은 CDMA 채널이라 지칭될 수도 있다. 또한, 기지국들 (12) 은 기지국 송수신기 서브시스템 (BTS) 들 (12) 이라 알려져 있을 수도 있다. 다르게는, "기지국" 은 산업분야에서 일괄적으로 BSC (14) 및 하나 이상의 BTS들 (12) 을 지칭하기 위해 사용될 수도 있다. 또한, BTS들 (12) 은 "셀 사이트들" (12) 이라 표시될 수도 있다. 다르게는, 소정의 BTS (12) 의 개별적인 섹터들이 셀 사이트들이라 지칭될 수도 있다. 통상적으로, 이동 가입자 유닛 (10) 의 클래스는, 셀룰러 및/또는 PCS (Personal Communications Service) 전화기들, 개인용 정보 단말 (PDA) 들, 및/또는 이동 전화 능력을 갖는 다른 통신 디바이스들과 같은 여기서 설명된 통신 디바이스들을 포함한다. 그러한 유닛 (10) 은, 내부 스피커 및 마이크로폰들의 어레이, 스피커 및 마이크로폰들의 어레이를 포함하는 테더링된 핸드셋 또는 헤드셋 (예컨대, USB 핸드셋), 또는 스피커 및 마이크로폰들의 어레이를 포함하는 무선 헤드셋 (예컨대, Bluetooth Special Interest Group, Bellevue, WA 에 의해 공포된 바와 같은 블루투스 프로토콜의 버전을 사용하여 유닛에 오디오 정보를 통신하는 헤드셋) 을 포함할 수도 있다. 그러한 시스템은 IS-95 표준의 하나 이상의 버전들 (예컨대, Telecommunications Industry Alliance, Arlington, VA 에 의해 발행된 IS-95, IS-95A, IS-95B, cdma2000) 에 따른 사용에 대해 구성될 수도 있다.

셀룰러 전화 시스템의 통상적인 동작이 이제 설명된다. 기지국들 (12) 은 이동 가입자 유닛들 (10) 의 세트들로부터 역방향 링크 신호들의 세트들을 수신한다. 이동 가입자 유닛들 (10) 은 전화 호들 또는 다른 통신들을 실시하고 있다. 소정의 기지국 (12) 에 의해 수신된 각각의 역방향 링크 신호는 기지국 (12) 내에서 프로세싱되고, 결과의 데이터는 BSC (14) 에 포워딩된다. BSC (14) 는, 기지국들 (12) 사이의 소프트 핸드오프들의 편성을 포함하는, 호 리소스 할당 및 이동 관리 기능을 제공한다. 또한, BSC (14) 는, PSTN (18) 와의 인터페이스에 대한 부가적인 라우팅 서비스들을 제공하는 MSC (16) 에 수신된 데이터를 라우팅한다. 유사하게, PSTN (18) 은 MSC (16) 와 인터페이스하고, MSC (16) 는 BSC들 (14) 과 인터페이스하며, BSC들 (14) 은 이동 가입자 유닛들 (10) 의 세트들에 순방향 링크 신호들의 세트들을 송신하기 위해 기지국들 (12) 을 제어한다.

또한, 도 77에서 도시된 바와 같은 셀룰러 전화 시스템의 엘리먼트들은 패킷-스위칭 데이터 통신들을 지원하도록 구성될 수도 있다. 도 78에서 도시된 바와 같이, 일반적으로, 패킷 데이터 트래픽은, 패킷 데이터 네트워크에 접속된 게이트웨이 라우터에 커플링된 패킷 데이터 서빙 노드 (PDSN) (22) 를 사용하여, 이동 가입자 유닛들 (10) 과 외부 패킷 데이터 네트워크 (24) (예컨대, 인터넷과 같은 공중 네트워크) 사이에서 라우팅된다. PDSN (22) 은, 하나 이상의 BSC들 (14) 을 각각 서빙하고 패킷 데이터 네트워크와 무선 액세스 네트워크 사이의 링크로서 액트하는 하나 이상의 패킷 제어 기능 (PCF) 들 (20) 에 데이터를 라우팅한다. 또한, 패킷 데이터 네트워크 (24) 는, 로컬 영역 네트워크 (LAN), 캠퍼스 영역 네트워크 (CAN), 도시 영역 네트워크 (MAN), 광역 네트워크 (WAN), 링 네트워크, 스타 네트워크, 토큰 링 네트워크 등을 포함하도록 구현될 수도 있다. 네트워크 (24) 에 접속된 사용자 단말기는, PDA, 랩톱 컴퓨터, 퍼스널 컴퓨터, 게임 디바이스 (그러한 디바이스의 예들은 XBOX 및 XBOX 360 (Microsoft Corp., Redmond, WA), 플레이스테이션 3 및 플레이스테이션 포터블 (Sony Corp., Tokyo, JP), 및 Wii 및 DS (Nintendo, Kyoto, JP) 를 포함한다), 및/또는 오디오 프로세싱 능력을 갖는 임의의 디바이스와 같은, 여기서 설명되는 바와 같은 오디오 감지 디바이스들의 클래스 내의 디바이스일 수도 있으며, VoIP 와 같은 하나 이상의 프로토콜들을 사용하여 전화 호 또는 다른 통신을 지원하도록 구성될 수도 있다. 그러한 단말기는, 내부 스피커 및 마이크로폰들의 어레이, 스피커 및 마이크로폰들의 어레이를 포함하는 테더링된 핸드셋 또는 헤드셋 (예컨대, USB 핸드셋), 또는 스피커 및 마이크로폰들의 어레이를 포함하는 무선 헤드셋 (예컨대, Bluetooth Special Interest Group, Bellevue, WA 에 의해 공포된 바와 같은 블루투스 프로토콜의 버전을 사용하여 유닛에 오디오 정보를 통신하는 헤드셋) 을 포함할 수도 있다. 그러한 시스템은, 상이한 무선 액세스 네트워크들 (예컨대, VoIP 와 같은 하나 이상의 프로토콜들을 통해) 상의 이동 가입자 유닛들 사이, 이동 가입자 유닛과 비-이동 사용자 단말기 사이, 또는 PSTN 에 진입하지 않는 2 개의 비-이동 사용자 단말기들 사이에서, 패킷 데이터 트래픽으로서 전화 호 또는 다른 통신을 반송하도록 구성될 수도 있다. 이동 가입자 유닛 (10) 또는 다른 사용자 단말기는 또한 "액세스 단말기" 라 지칭될 수도 있다.

도 79a는 오디오 신호들을 프로세싱하도록 구성된 디바이스 (예컨대, 통신 디바이스와 같은 여기서 식별된 오디오 감지 디바이스들의 어레이) 내에서 수행될 수도 있는 스피치 신호를 프로세싱하는 방법 (M100) 의 플로우차트를 도시한다. 방법 (M100) 은, (예컨대, SSP 필터 (SS10) 를 참조하여 여기서 설명되는 바와 같이) 멀티채널 감지된 오디오 신호에 대해 공간 선택적 프로세싱을 수행하여, 소스 신호 및 노이즈 레퍼런스를 산출하는 태스크 (T110) 를 포함한다. 예컨대, 태스크 (T110) 는 멀티채널 감지된 오디오 신호의 방향성 컴포넌트의 에너지를 소스 신호로 집중시키는 것을 포함할 수도 있다.

또한, 방법 (M100) 은, 스피치 신호에 대해 스펙트럼 콘트라스트 인핸스먼트 동작을 수행하여, 프로세싱된 스피치 신호를 산출하는 태스크를 포함한다. 이 태스크는 서브태스크들 (T120, T130, 및 T140) 을 포함한다. 태스크 (T120) 는, (예컨대, 노이즈 부대역 전력 추정치 계산기 (NP100) 를 참조하여 여기서 설명되는 바와 같이) 노이즈 레퍼런스로부터의 정보에 기초하여, 복수의 노이즈 부대역 전력 추정치들을 계산한다. 태스크 (T130) 는, (예컨대, 인핸스먼트 벡터 생성기 (VG100) 를 참조하여 여기서 설명되는 바와 같이) 스피치 신호로부터의 정보에 기초하여, 인핸스먼트 벡터를 생성한다. 태스크 (T140) 는, 프로세싱된 스피치 신호의 복수의 주파수 부대역들의 각각이 스피치 신호의 대응하는 주파수 부대역에 기초하도록, (예컨대, 이득 제어 엘리먼트 (CE100) 및 믹서 (X100), 또는 이득 계수 계산기 (FC300) 및 이득 제어 엘리먼트 (CE110 또는 CE120) 을 참조하여 여기서 설명되는 바와 같이) 복수의 노이즈 부대역 전력 추정치들, 스피치 신호로부터의 정보, 및 인핸스먼트 벡터로부터의 정보에 기초하여, 프로세싱된 스피치 신호를 산출한다. 방법 (M100) 및 태스크들 (T110, T120, T130, 및 T140) 의 다수의 구현들은 (여기서 개시된 다양한 장치, 엘리먼트들, 및 동작들로 인해) 여기서 명백하게 개시된다.

스피치 신호가 멀티채널 감지된 오디오 신호에 기초하도록 방법 (M100) 을 구현하는 것이 바람직할 수도 있다. 도 79b는, 태스크 (T130) 가 스피치 신호로서 소스 신호를 수신하도록 배열되는 방법 (M100) 의 그러한 구현 (M110) 의 플로우차트를 도시한다. 이 경우에서, 태스크 (T140) 는 또한, (예컨대, 장치 (A110) 를 참조하여 여기서 설명되는 바와 같이) 프로세싱된 스피치 신호의 복수의 주파수 부대역들의 각각이 소스 신호의 대응하는 주파수 부대역에 기초하도록 배열된다.

다르게는, 스피치 신호가 디코딩된 스피치 신호로부터의 정보에 기초하도록 방법 (M100) 을 구현하는 것이 바람직할 수도 있다. 예컨대, 그러한 디코딩된 스피치 신호는, 디바이스에 의해 무선으로 수신된 신호를 디코딩함으로써 획득될 수도 있다. 도 80a는 태스크 (T150) 를 포함하는 방법 (M100) 의 그러한 구현 (M120) 의 플로우차트를 도시한다. 태스크 (T150) 는, 디바이스에 의해 무선으로 수신된 인코딩된 스피치 신호를 디코딩하여, 스피치 신호를 산출한다. 예컨대, 태스크 (T150) 는 여기서 식별된 코덱들 (예컨대, EVRC, SMV, AMR) 중 하나 이상에 따라, 인코딩된 스피치 신호를 디코딩하도록 구성될 수도 있다.

도 80b는, 서브태스크들 (T232, T234, 및 T236) 을 포함하는 인핸스먼트 벡터 생성 태스크 (T130) 의 구현 (T230) 의 플로우차트를 도시한다. 태스크 (T232) 는 (예컨대, 스펙트럼 평활화기 (SM10) 를 참조하여 여기서 설명되는 바와 같이) 스피치 신호의 스펙트럼을 평활화하여, 제 1 평활화된 신호를 획득한다. 태스크 (T234) 는, (예컨대, 스펙트럼 평활화기 (SM20) 를 참조하여 여기서 설명되는 바와 같이) 제 1 평활화된 신호를 평활화하여, 제 2 평활화된 신호를 획득한다. 태스크 (T236) 는, (예컨대, 비율 계산기 (RC10) 를 참조하여 여기서 설명되는 바와 같이) 제 1 및 제 2 평활화된 신호들의 비율을 계산한다. 또한, 태스크 (T130) 또는 태스크 (T230) 는, (예컨대, 프리-인핸스먼트 프로세싱 모듈 (PM10) 을 참조하여 여기서 설명되는 바와 같이) 인핸스먼트 벡터가 이 서브태스크의 결과에 기초하도록, 스피치 신호의 스펙트럼 피크들의 크기들 사이의 차이를 감소시키는 서브태스크를 포함하도록 구성될 수도 있다.

도 81a는 서브태스크들 (T242, T244, 및 T246) 을 포함하는 생산 태스크 (T140) 의 구현 (T240) 의 플로우차트를 도시한다. 태스크 (T242) 는, (예컨대, 이득 계수 계산기 (FC300) 를 참조하여 여기서 설명되는 바와 같이) 복수의 이득 계수 값들 중 제 1 이득 계수 값이 복수의 이득 계수 값들 중 제 2 이득 계수 값과 상이하도록, 복수의 노이즈 부대역 전력 추정치들 및 인핸스먼트 벡터로부터의 정보에 기초하여, 복수의 이득 계수 값들을 계산한다. (예컨대, 이득 제어 엘리먼트 (CE110 및/또는 CE120) 를 참조하여 여기서 설명되는 바와 같이) 태스크 (T244) 는, 스피치 신호의 제 1 주파수 부대역에 제 1 이득 계수 값을 적용하여, 프로세싱된 스피치 신호의 제 1 부대역을 획득하고, 태스크 (T246) 는, 스피치 신호의 제 2 주파수 부대역에 제 2 이득 계수 값을 적용하여, 프로세싱된 스피치 신호의 제 2 부대역을 획득한다.

도 81b는, 태스크들 (T244 및 T246) 의 구현들 (T344 및 T346) 을 각각 포함하는 생산 태스크 (T240) 의 구현 (T340) 의 플로우차트를 도시한다. 태스크 (T340) 는, (예컨대, 부대역 필터 어레이 (FA120) 를 참조하여 여기서 설명되는 바와 같이) 필터 스테이지들의 캐스케이드를 사용함으로써, 프로세싱된 스피치 신호를 산출하여, 스피치 신호를 필터링한다. 태스크 (T344) 는 캐스케이드의 제 1 필터 스테이지에 제 1 이득 계수 값을 적용하고, 태스크 (T346) 는 캐스케이드의 제 2 필터 스테이지에 제 2 이득 계수 값을 적용한다.

도 81c는, 태스크들 (T160 및 T170) 을 포함하는 방법 (M110) 의 구현 (M130) 의 플로우차트를 도시한다. 노이즈 레퍼런스로부터의 정보에 기초하여, 태스크 (T160) 는, (예컨대, 노이즈 감소 스테이지 (NR10) 를 참조하여 여기서 설명되는 바와 같이) 소스 신호에 대해 노이즈 감소 동작을 수행하여, 스피치 신호를 획득한다. 일례에서, 태스크 (T160) 는 (예컨대, 노이즈 감소 스테이지 (NR20) 를 참조하여 여기서 설명되는 바와 같이) 소스 신호에 대해 스펙트럼 차감 동작을 수행하도록 구성된다. 태스크 (T170) 는, (예컨대, VAD (V15) 를 참조하여 여기서 설명되는 바와 같이) 소스 신호와 스피치 신호 사이의 관계에 기초하여, 음성 활동 검출 동작을 수행한다. 또한, 방법 (M130) 은, (예컨대, 인핸서 (EN150) 를 참조하여 여기서 설명되는 바와 같이) 음성 활동 검출 태스크 (T170) 의 결과에 기초하여, 프로세싱된 스피치 신호를 산출하는 태스크 (T140) 의 구현 (T142) 을 포함한다.

도 82a는, 태스크들 (T105 및 T180) 을 포함하는 방법 (M100) 의 구현 (M140) 의 플로우차트를 도시한다. 태스크 (T105) 는, (예컨대, 에코 제거기 (EC10) 를 참조하여 여기서 설명되는 바와 같이) 멀티채널 감지된 오디오 신호로부터 에코들을 제거하기 위해 에코 제거기를 사용한다. 태스크 (T180) 는, (오디오 프리프로세서 (AP30) 를 참조하여 여기서 설명되는 바와 같이) 프로세싱된 스피치 신호를 사용하여, 에코 제거기를 트레이닝한다.

도 82b는, 오디오 신호들을 프로세싱하도록 구성된 디바이스 (예컨대, 통신 디바이스와 같은 여기서 식별된 오디오 감지 디바이스들의 어레이) 내에서 수행될 수도 있는 스피치 신호를 프로세싱하는 방법 (M200) 의 플로우차트를 도시한다. 방법 (M200) 은 태스크들 (TM10, TM20, 및 TM30) 을 포함한다. 태스크 (TM10) 는, (예컨대, 스펙트럼 평활화기 (SM10) 및 태스크 (T232) 를 참조하여 여기서 설명되는 바와 같이) 스피치 신호의 스펙트럼을 평활화하여, 제 1 평활화된 신호를 획득한다. 태스크 (TM20) 는, (예컨대, 스펙트럼 평활화기 (SM20) 및 태스크 (T234) 를 참조하여 여기서 설명되는 바와 같이) 제 1 평활화된 신호를 평활화하여, 제 2 평활화된 신호를 획득한다. 태스크 (TM30) 는, (예컨대, 인핸스먼트 벡터 생성기 (VG110) 및 그러한 생성기를 포함하는 인핸서 (EN100, EN110, 및 EN120) 의 구현들을 참조하여 여기서 설명되는 바와 같이) 제 1 및 제 2 평활화된 신호들의 비율에 기초하는 콘트라스트-증대된 스피치 신호를 산출한다. 예컨대, 태스크 (TM30) 는, 각각의 부대역에 대한 이득이 제 1 및 제 2 평활화된 신호들의 비율의 대응하는 부대역으로부터의 정보에 기초하도록, 스피치 신호의 복수의 부대역들의 이득들을 제어함으로써, 콘트라스트-증대된 스피치 신호를 산출하도록 구성될 수도 있다.

또한, 방법 (M200) 은, (예컨대, 프리-인핸스먼트 프로세싱 모듈 (PM10) 을 참조하여 여기서 설명되는 바와 같이) 적응적 등화 동작을 수행하는 태스크, 및/또는 스피치 신호의 스펙트럼 피크들의 크기들 사이의 차이를 감소시키는 태스크를 포함하여, 스피치 신호의 등화된 스펙트럼을 획득하도록 구현될 수도 있다. 그러한 경우들에서, 태스크 (TM10) 는 등화된 스펙트럼을 평활화하여, 제 1 평활화된 신호를 획득하도록 배열될 수도 있다.

도 83a는 일반적인 구성에 따라 스피치 신호를 프로세싱하기 위한 장치 (F100) 의 블록도를 도시한다. 장치 (F100) 는, (SSP 필터 (SS10) 를 참조하여 여기서 설명되는 바와 같이) 멀티채널 감지된 오디오 신호에 대해 공간 선택적 프로세싱 동작을 수행하여, 소스 신호 및 노이즈 레퍼런스를 산출하는 수단 (G110) 을 포함한다. 예컨대, 수단 (G110) 은, 멀티채널 감지된 오디오 신호의 방향성 컴포넌트의 에너지를 소스 신호로 집중시키도록 구성될 수도 있다.

또한, 장치 (F100) 는, 스피치 신호에 대해 스펙트럼 콘트라스트 인핸스먼트 동작을 수행하여, 프로세싱된 스피치 신호를 산출하는 수단을 포함한다. 그러한 수단은, (예컨대, 노이즈 부대역 전력 추정치 계산기 (NP100) 를 참조하여 여기서 설명되는 바와 같이) 노이즈 레퍼런스로부터의 정보에 기초하여, 복수의 노이즈 부대역 전력 추정치들을 계산하는 수단 (G120) 을 포함한다. 스피치 신호에 대해 스펙트럼 콘트라스트 인핸스먼트 동작을 수행하는 수단은 또한, (예컨대, 인핸스먼트 벡터 새성기 (VG100) 를 참조하여 여기서 설명되는 바와 같이) 스피치 신호로부터의 정보에 기초하여, 인핸스먼트 벡터를 생성하는 수단 (G130) 을 포함한다. 스피치 신호에 대해 스펙트럼 콘트라스트 인핸스먼트 동작을 수행하는 수단은 또한, (예컨대, 이득 제어 엘리먼트 (CE100) 및 믹서 (X100), 또는 이득 계수 계산기 (FC300) 및 이득 제어 엘리먼트 (CE110 또는 CE120) 를 참조하여 여기서 설명되는 바와 같이), 프로세싱된 스피치 신호의 복수의 주파수 부대역들이 스피치 신호의 대응하는 주파수 부대역에 기초하도록, 복수의 노이즈 부대역 전력 추정치들, 스피치 신호로부터의 정보, 및 인핸스먼트 벡터로부터의 정보에 기초하여, 프로세싱된 스피치 신호를 산출하는 수단 (G140) 을 포함한다. 장치 (F100) 는, 오디오 신호들을 프로세싱하도록 구성된 디바이스 (예컨대, 통신 디바이스와 같은 여기서 식별된 오디오 감지 디바이스들 중 임의의 것) 내에서 구현될 수도 있으며, 장치 (F100), 수단 (G110), 수단 (G120), 수단 (G130), 및 수단 (G140) 의 다수의 구현들이 (예컨대, 여기서 개시된 다양한 장치, 엘리먼트들, 및 동작들로 인해) 여기서 명백하게 개시된다.

스피치 신호가 멀티채널 감지된 오디오 신호에 기초하도록 장치 (F100) 를 구현하는 것이 바람직할 수도 있다. 도 83b는, 수단 (G130) 이 스피치 신호로서 소스 신호를 수신하도록 배열되는 장치 (F100) 의 그러한 구현 (F110) 의 블록도를 도시한다. 이 경우에서, 수단 (G140) 은 또한, (예컨대, 장치 (A110) 를 참조하여 여기서 설명되는 바와 같이) 프로세싱된 스피치 신호의 복수의 주파수 부대역들의 각각이 소스 신호의 대응하는 주파수 부대역에 기초하도록 배열된다.

다르게는, 스피치 신호가 디코딩된 스피치 신호로부터의 정보에 기초하도록 장치 (F100) 를 구현하는 것이 바람직할 수도 있다. 예컨대, 그러한 디코딩된 스피치 신호는 디바이스에 의해 무선으로 수신된 신호를 디코딩함으로써 획득될 수도 있다. 도 84a는, 디바이스에 의해 무선으로 수신된 인코딩된 스피치 신호를 디코딩하여, 스피치 신호를 산출하는 수단 (G150) 을 포함하는 장치 (F100) 의 그러한 구현 (F120) 의 블록도를 도시한다. 예컨대, 수단 (G150) 은 여기서 식별된 코덱들 (예컨대, EVRC, SMV, AMR) 중 하나에 따라, 인코딩된 스피치 신호를 디코딩하도록 구성될 수도 있다.

도 84b는, (예컨대, 스펙트럼 평활화기 (SM10) 를 참조하여 여기서 설명되는 바와 같이) 스피치 신호의 스펙트럼을 평활화하여, 제 1 평활화된 신호를 획득하는 수단 (G232), (예컨대, 스펙트럼 평활화기 (SM20) 를 참조하여 여기서 설명되는 바와 같이) 제 1 평활화된 신호를 평활화하여, 제 2 평활화된 신호를 획득하는 수단 (G234), 및 (예컨대, 비율 계산기 (RC10) 를 참조하여 여기서 설명되는 바와 같이) 제 1 및 제 2 평활화된 신호들의 비율을 계산하는 수단 (G236) 을 포함하는 인핸스먼트 벡터를 생성하는 수단 (G130) 의 구현 (G230) 의 플로우차트를 도시한다. 또한, 수단 (G130) 또는 수단 (G230) 은, (예컨대, 프리-인핸스먼트 프로세싱 모듈 (PM10) 을 참조하여 여기서 설명되는 바와 같이) 인핸스먼트 벡터가 차이-감소 동작의 결과에 기초하도록, 스피치 신호의 스펙트럼 피크들의 크기들 사이의 차이를 감소시키는 수단을 포함하도록 구성될 수도 있다.

도 85a는, (예컨대, 이득 계수 계산기 (FC300) 를 참조하여 여기서 설명되는 바와 같이) 복수의 이득 계수 값들 중 제 1 이득 계수 값이 복수의 이득 계수 값들 중 제 2 이득 계수 값과 상이하도록, 복수의 노이즈 부대역 전력 추정치들 및 인핸스먼트 벡터로부터의 정보에 기초하여, 복수의 이득 계수 값들을 계산하는 수단 (G242) 을 포함하는 수단 (G140) 의 구현 (G240) 의 블록도를 도시한다. 수단 (G240) 은, (예컨대, 이득 제어 엘리먼트 (CE110 및/또는 CE120) 를 참조하여 여기서 설명되는 바와 같이) 스피치 신호의 제 1 주파수 부대역에 제 1 이득 계수 값을 적용하여, 프로세싱된 스피치 신호의 제 1 부대역을 획득하는 수단 (G244), 및 스피치 신호의 제 2 주파수 부대역에 제 2 이득 계수 값을 적용하여, 프로세싱된 스피치 신호의 제 2 부대역을 획득하는 수단 (G246) 을 포함한다.

도 85b는, (예컨대, 부대역 필터 어레이 (FA120) 를 참조하여 여기서 설명되는 바와 같이) 스피치 신호를 필터링하여 프로세싱된 스피치 신호를 산출하도록 배열된 필터 스테이지들의 캐스케이드를 포함하는 수단 (G240) 의 구현 (G340) 의 블록도를 도시한다. 수단 (G340) 은, 캐스케이드의 제 1 필터 스테이지에 제 1 이득 계수 값을 적용하는 수단 (G244) 의 구현 (G344), 및 캐스케이드의 제 2 필터 스테이지에 제 2 이득 계수 값을 적용하는 수단 (G246) 의 구현 (G346) 을 포함한다.

도 85c는, (예컨대, 노이즈 감소 스테이지 (NR10) 를 참조하여 여기서 설명되는 바와 같이) 노이즈 레퍼런스로부터의 정보에 기초하여, 소스 신호에 대해 노이즈 감소 동작을 수행하여, 스피치 신호를 획득하는 수단 (G160) 을 포함하는 장치 (F110) 의 구현 (F130) 의 플로우차트를 도시한다. 일례에서, 수단 (G160) 은, (노이즈 감소 스테이지 (NR20) 를 참조하여 여기서 설명되는 바와 같이) 소스 신호에 대해 스펙트럼 차감 동작을 수행하도록 구성된다. 또한, 장치 (F130) 는, (예컨대, VAD (V15) 를 참조하여 여기서 설명되는 바와 같이) 소스 신호와 스피치 신호 사이의 관계에 기초하여, 음성 활동 검출 동작을 수행하는 수단 (G170) 을 포함한다. 또한, 장치 (F130) 는, (예컨대, 인핸서 (EN150) 를 참조하여 여기서 설명되는 바와 같이) 음성 활동 검출 동작의 결과에 기초하여, 프로세싱된 스피치 신호를 산출하는 수단 (G140) 의 구현 (G142) 을 포함한다.

도 86a는, (에코 제거기 (EC10) 를 참조하여 여기서 설명되는 바와 같이) 멀티채널 감지된 오디오 신호로부터 에코들을 제거하는 수단 (G105) 을 포함하는 장치 (F100) 의 구현 (F140) 의 플로우차트를 도시한다. 수단 (G105) 은, (예컨대, 오디오 프리프로세서 (AP30) 를 참조하여 설명되는 바와 같이) 프로세싱된 스피치 신호에 의해 트레이닝되도록 구성 및 배열된다.

도 86b는 일반적인 구성에 따라 스피치 신호를 프로세싱하기 위한 장치 (F200) 의 블록도를 도시한다. 장치 (F200) 는, 오디오 신호들을 프로세싱하도록 구성된 디바이스 (예컨대, 통신 디바이스와 같은 여기서 식별된 오디오 감지 디바이스들의 임의의 것) 내에서 구현될 수도 있다. 장치 (F200) 는 상술된 바와 같이, 평활화하는 수단 (G232) 및 평활화하는 수단 (G234) 을 포함한다. 또한, 장치 (F200) 는, (예컨대, 인핸스먼트 벡터 생성기 (VG110) 및 그러한 생성기를 포함하는 인핸서 (EN100, EN110, 및 EN120) 의 구현들을 참조하여 여기서 설명되는 바와 같이) 제 1 및 제 2 평활화된 신호들의 비율에 기초하는 콘트라스트-증대된 스피치 신호를 산출하는 수단 (G144) 을 포함한다. 예컨대, 수단 (G144) 은, 각각의 부대역에 대한 이득이 제 1 및 제 2 평활화된 신호들의 비율의 대응하는 부대역으로부터의 정보에 기초하도록, 스피치 신호의 복수의 부대역들의 이득들을 제어함으로써, 콘트라스트-증대된 스피치 신호를 산출하도록 구성될 수도 있다.

또한, 장치 (F200) 는, (예컨대, 프리-인핸스먼트 프로세싱 모듈 (PM10) 을 참조하여 여기서 설명되는 바와 같이) 적응적 등화 동작을 수행하는 수단, 및/또는 스피치 신호의 스펙트럼 피크들의 크기들 사이의 차이를 감소시키는 수단을 포함하여, 스피치 신호의 등화된 스펙트럼을 획득할 수도 있다. 그러한 경우들에서, 수단 (G232) 은 등화된 스펙트럼을 평활화하여 제 1 평활화된 신호를 획득하도록 배열될 수도 있다.

설명된 구성들의 전술한 제시는 당업자로 하여금 여기서 개시된 방법들 및 다른 구조들을 만들거나 또는 사용할 수 있게 하기 위해 제공된다. 여기서 설명되고 도시된 플로우차트들, 블록도들, 상태도들, 및 다른 구조들은 예들일 뿐이고, 이들 구조들의 다양한 변화들이 또한 본 개시의 범위 내에 있다. 이들 구성들에 대한 다양한 변형들이 가능하고, 여기서 제시된 일반적인 원리들은 다른 구성들에도 마찬가지로 적용될 수도 있다. 따라서, 본 개시는 위에서 도시된 구성들에 제한되도록 의도되지 않고, 오리지널 개시의 일부를 형성하는 제출되는 첨부된 청구의 범위를 포함하는, 여기서 임의의 방식으로 개시된 원리들 및 신규한 특징들과 일치하는 최광의 범위가 부여되도록 의도된다.

여기서 개시된 통신 디바이스들이 패킷-스위칭 (예컨대, VoIP 와 같은 프로토콜들에 따라 오디오 송신들을 반송하도록 배열된 유선 및/또는 무선 네트워크들) 및/또는 회로-스위칭되는 네트워크들에서의 사용에 대해 적응될 수도 있다는 것이 명백하게 고려된다. 또한, 여기서 개시된 통신 디바이스들이 협대역 코딩 시스템들 (예컨대, 약 4 또는 5 킬로헤르츠의 오디오 주파수 범위를 인코딩하는 시스템들) 에서의 사용, 및/또는 전체-대역 광대역 코딩 시스템들 및 분할-대역 광대역 코딩 시스템들을 포함하는 광대역 코딩 시스템들 (예컨대, 5 킬로헤르츠보다 더 큰 오디오 주파수들을 인코딩하는 시스템들) 에서의 사용에 대해 적응될 수도 있다는 것이 명백하게 고려된다.

당업자는, 정보 및 신호들이 다양한 상이한 기술 체계들 및 기술들 중 임의의 것을 사용하여 표현될 수도 있다는 것을 이해할 것이다. 예컨대, 상기 설명 전반에 걸쳐 참조될 수도 있는 데이터, 명령들, 커맨드들, 정보, 신호들, 비트들, 및 심볼들은 전압들, 전류들, 전자기파들, 자기 필드들 또는 입자들, 광학 필드들 또는 입자들, 또는 이들의 임의의 조합에 의해 표현될 수도 있다.

여기서 개시되는 바와 같은 구성의 구현에 대한 중요한 설계 요구조건들은, 특히, 압축된 오디오 또는 시청각 정보 (예컨대, 여기서 식별된 예들 중 하나와 같은 압축 포맷에 따라 인코딩된 파일 또는 스트림) 와 같은 연산-집중 애플리케이션들, 또는 (예컨대, 광대역 통신들에 대한) 고 샘플링 레이트들에서의 음성 통신들에 대한 애플리케이션들에 대해 프로세싱 지연 및/또는 (통상적으로, 차동 백만개의 명령들 또는 MIPS 로 측정되는) 연산 복잡성을 최소화하는 것을 포함할 수도 있다.

여기서 개시되는 바와 같은 장치의 구현의 다양한 엘리먼트들 (예컨대, 장치 (A100, A110, A120, A130, A132, A134, A140, A150, A160, A165, A170, A180, A200, A210, A230, A250, A300, A310, A320, A330, A400, A500, A550, A600, F100, F110, F120, F130, F140, 및 F200) 의 다양한 엘리먼트들) 은 의도된 애플리케이션에 대해 적합하다고 간주되는 하드웨어, 소프트웨어, 및/또는 펌웨어의 임의의 조합으로 실시될 수도 있다. 예컨대, 그러한 엘리먼트들은, 예컨대, 동일한 칩 상 또는 칩셋 내의 2 개 이상의 칩들 사이에 상주하는 전자 및/또는 광학 디바이스들로서 제조될 수도 있다. 그러한 디바이스의 일례는, 트랜지스터들 또는 로직 게이트들과 같은 로직 엘리먼트들의 고정된 또는 프로그래밍 가능한 어레이이고, 이들 엘리먼트들의 임의의 것이 하나 이상의 그러한 어레이들로서 구현될 수도 있다. 임의의 2 개 이상, 또는 심지어 모든 이들 엘리먼트들은 동일한 어레이 또는 어레이들 내에서 구현될 수도 있다. 그러한 어레이 또는 어레이들은 하나 이상의 칩들 내에서 (예컨대, 2 개 이상의 칩들을 포함하는 칩셋 내에서) 구현될 수도 있다.

또한, (예컨대, 위에서 열거된) 여기서 개시된 장치의 다양한 구현들의 하나 이상의 엘리먼트들은, 마이크로프로세서들, 임베딩된 프로세서들, IP 코어들, 디지털 신호 프로세서들, FPGA (field-programmable gate array) 들, ASSP (application-specific standard product) 들, 및 ASIC (application-specific integrated circuit) 들과 같은 로직 엘리먼트들의 하나 이상의 고정된 또는 프로그래밍 가능한 어레이들 상에서 실행하도록 배열된 명령들의 하나 이상의 세트들로서 전부 또는 일부 구현될 수도 있다. 또한, 여기서 개시된 바와 같은 장치의 구현의 다양한 엘리먼트들 중 임의의 것은, 하나 이상의 컴퓨터들 (예컨대, 명령들의 하나 이상의 세트들 또는 시퀀스들을 실행하도록 프로그래밍된 하나 이상의 어레이들을 포함하는 머신들, 또한 "프로세서들" 이라 호칭됨) 로서 실시될 수도 있고, 임의의 2 개 이상 또는 심지어 모든 이들 엘리먼트들은 동일한 그러한 컴퓨터 또는 컴퓨터들 내에서 구현될 수도 있다.

여기서 개시된 바와 같은 프로세싱을 위한 프로세서 또는 다른 수단은, 예컨대, 동일한 칩 상 또는 칩셋 내의 2 개 이상의 칩들 사이에 상주하는 전자 및/또는 광학 디바이스들로서 제조될 수도 있다. 그러한 디바이스의 일례는, 트랜지스터들 또는 로직 게이트들과 같은 로직 엘리먼트들의 고정된 또는 프로그래밍 가능한 어레이이고, 이들 엘리먼트들의 임의의 것이 하나 이상의 그러한 어레이들로서 구현될 수도 있다. 그러한 어레이 또는 어레이들은 하나 이상의 칩들 내에서 (예컨대, 2 개 이상의 칩들을 포함하는 칩셋 내에서) 구현될 수도 있다. 그러한 어레이들의 예들은 마이크로프로세서들, 임베딩된 프로세서들, IP 코어들, DSP들, FPGA들, ASSP들, 및 ASIC들과 같은 로직 엘리먼트들의 고정된 또는 프로그래밍 가능한 어레이들을 포함한다. 또한, 여기서 개시된 바와 같은 프로세싱을 위한 프로세서 또는 다른 수단은 하나 이상의 컴퓨터들 (예컨대, 명령들의 하나 이상의 세트들 또는 시퀀스들을 실행하도록 프로그래밍된 하나 이상의 어레이들을 포함하는 머신들) 또는 다른 프로세서들로서 실시될 수도 있다. 프로세서가 임베딩된 디바이스 또는 시스템 (예컨대, 오디오 감지 디바이스) 의 다른 동작에 관한 태스크와 같은, 신호 균형 절차에 직접 관련되지 않는 태스크들을 수행하거나, 또는 명령들의 다른 세트들을 실행하기 위해 여기서 개시된 바와 같은 프로세서가 사용되는 것이 가능하다. 또한, 여기서 개시된 바와 같은 방법의 일부가 오디오 감지 디바이스의 프로세서에 의해 수행되는 것이 가능하고 (예컨대, 태스크들 (T110, T120, 및 T130; 또는 태스크들 (T110, T120, T130, 및 T242), 방법의 다른 부분이 하나 이상의 다른 프로세서들의 제어 하에서 수행되는 것이 가능하다 (예컨대, 디코딩 태스크 (T150) 및/또는 이득 제어 태스크들 (T244 및 T246)).

당업자는, 여기서 개시된 구성들과 관련하여 설명된 다양한 예시적인 모듈들, 로직 블록들, 회로들, 및 동작들이 전자 하드웨어, 컴퓨터 소프트웨어, 또는 이들의 조합으로서 구현될 수도 있다는 것을 인식할 것이다. 그러한 모듈들, 논리 블록들, 회로들, 및 동작들은, 범용 프로세서, 디지털 신호 프로세서 (DSP), ASIC 또는 ASSP, FPGA 또는 다른 프로그래밍 가능한 로직 디바이스, 이산 게이트 또는 트랜지스터 로직, 이산 하드웨어 컴포넌트들, 여기서 개시된 바와 같은 구성을 생산하도록 설계된 이들의 임의의 조합으로 구현되거나 또는 수행될 수도 있다. 예컨대, 그러한 구성은, 애플리케이션-특정 집적 회로로 제조된 회로 구성으로서 하드-와이어드 회로로서, 또는 비휘발성 저장소로 로딩된 펌웨어 프로그램 또는 머신-판독가능 코드로서 데이터 저장 매체로 또는 로부터 로딩된 소프트웨어 프로그램으로서 적어도 일부 구현될 수도 있으며, 그러한 코드는 범용 프로세서 또는 다른 디지털 신호 프로세싱 유닛과 같은 로직 엘리먼트들의 어레이에 의해 실행가능한 명령들이다. 범용 프로세서는 마이크로프로세서일 수도 있지만, 다르게는, 프로세서는 종래의 프로세서, 제어기, 마이크로제어기, 또는 상태 머신일 수도 있다. 또한, 프로세서는, 예컨대 DSP 와 마이크로프로세서의 조합, 복수의 마이크로프로세서들, DSP 코어와 협력하는 하나 이상의 마이크로프로세서들, 또는 임의의 다른 그러한 구성과 같은, 연산 디바이스들의 조합으로서 구현될 수도 있다. 소프트웨어 모듈은, RAM (random-access memory), ROM (read-only memory), 플래시 RAM 과 같은 비휘발성 RAM (NVRAM), 소거가능한 프로그래밍 가능 ROM (EPROM), 전기적으로 소거가능한 프로그래밍 가능 ROM (EEPROM), 레지스터들, 하드 디스크, 탈착식 디스크, CD-ROM, 당해 기술 분야에 알려져 있는 저장 매체의 임의의 다른 형태 내에 상주할 수도 있다. 예시적인 저장 매체는, 프로세서가 저장 매체로부터 정보를 판독하고 저장 매체에 정보를 기록할 수 있도록 프로세서에 커플링된다. 다르게는, 저장 매체는 프로세서에 통합될 수도 있다. 프로세서 및 저장 매체는 ASIC 내에 상주할 수도 있다. ASIC 는 사용자 단말기 내에 상주할 수도 있다. 다르게는, 프로세서 및 저장 매체는 사용자 단말기 내에 이산 컴포넌트들로서 상주할 수도 있다.

여기서 개시된 다양한 방법들 (예컨대, 여기서 개시된 바와 같은 장치의 다양한 구현들의 동작의 설명들로 인해 여기서 명백하게 개시되는, 방법들 (M100, M110, M120, M130, M140, 및 M200) 뿐만 아니라 그러한 방법들 및 부가적인 방법들의 다수의 구현들) 은 프로세서와 같은 로직 엘리먼트들의 어레이에 의해 수행될 수도 있고, 여기서 개시된 바와 같은 장치의 다양한 엘리먼트들은 그러한 어레이 상에서 실행하도록 설계된 모듈들로서 구현될 수도 있다는 것이 주의된다. "모듈" 또는 "서브-모듈" 이라는 용어는, 소프트웨어, 하드웨어, 또는 펌웨어 형태로 컴퓨터 명령들 (예컨대, 로직 표현들) 을 포함하는 임의의 방법, 장치, 디바이스, 유닛, 또는 컴퓨터-판독가능 데이터 저장 매체를 지칭할 수 있다. 다수의 모듈들 또는 시스템들이 하나의 모듈 또는 시스템으로 결합될 수 있고, 하나의 모듈 또는 시스템이 동일한 기능들을 수행하기 위한 다수의 모듈들 또는 시스템들로 분리될 수 있다는 것이 이해되어야 한다. 소프트웨어 또는 다른 컴퓨터-실행가능 명령들로 구현되는 경우에, 프로세스의 엘리먼트들은 본질적으로, 루틴들, 프로그램들, 오브젝트들, 컴포넌트들, 데이터 구조들 등과 같은 관련된 태스크들을 수행하기 위한 코드 세그먼트들이다. "소프트웨어" 라는 용어는, 소스 코드, 어셈블리 언어 코드, 머신 코드, 이진 코드, 펌웨어, 매크로코드, 마이크로코드, 로직 엘리먼트들의 에러에에 의해 실행가능한 명령들의 임의의 하나 이상의 세트들 또는 시퀀스들, 및 그러한 예들의 임의의 조합을 포함하도록 이해되어야 한다. 프로그램 또는 코드 세그먼트들은 소신 매체 또는 통신 링크를 통해 반송파로 실시되는 컴퓨터 데이터 신호에 의해 송신되거나 또는 프로세서 판독가능 매체 내에 저장될 수 있다.

또한, 여기서 개시된 방법들, 기법들, 및 기술들의 구현들은 로직 엘리먼트들 (예컨대, 프로세서, 마이크로프로세서, 마이크로제어기, 또는 다른 유한 상태 머신) 의 어레이를 포함하는 머신에 의해 판독가능 및/또는 실행가능한 명령들의 하나 이상의 세트들로서 유형으로 (예컨대, 여기서 리스팅된 하나 이상의 컴퓨터-판독가능 매체들로) 실시될 수도 있다. "컴퓨터-판독가능 매체" 라는 용어는 휘발성, 비휘발성, 탈착식 및 비-탈착식 매체들를 포함하는, 정보를 저장 또는 전달할 수 있는 임의의 매체를 포함할 수도 있다. 컴퓨터-판독가능 매체의 예들은, 전자 회로, 반도체 메모리 디바이스, ROM, 플래시 메모리, 소거가능한 ROM (EROM), 플로피 디스켓 또는 다른 자기 저장소, CD-ROM/DVD 또는 다른 광학 저장소, 하드 디스크, 광섬유 매체, 무선 주파수 (RF) 링크, 또는 원하는 정보를 저장하기 위해 사용될 수 있고 액세스될 수 있는 임의의 다른 매체를 포함한다. 컴퓨터 데이터 신호는, 전자 네트워크 채널들, 광섬유, 에어, 전자기, RF 링크들 등과 같은 송신 매체를 통해 전파할 수 있는 임의의 신호를 포함할 수도 있다. 코드 세그먼트들은 인터넷 또는 인트라넷과 같은 컴퓨터 네트워크들을 통해 다운로드될 수도 있다. 임의의 경우에서, 본 개시의 범위는 그러한 실시형태들에 의해 제한되는 것으로서 해석되서는 안된다.

여기서 개시된 방법들의 태스크들의 각각은 하드웨어로 직접, 프로세서에 의해 실행되는 소프트웨어 모듈, 또는 이들 둘의 조합으로 실시될 수도 있다. 여기서 개시된 바와 같은 방법의 구현의 통상적인 애플리케이션에서, 로직 엘리먼트 (예컨대, 로직 게이트들) 의 어레이는 방법의 다양한 태스크들 중 1 개, 1 개보다 더 많이, 또는 심지어 모두를 수행하도록 구성된다. 또한, 태스크들 중 하나 이상 (가능하게는 모두) 은, 로직 엘리먼트들 (예컨대, 프로세서, 마이크로프로세서, 마이크로제어기, 또는 다른 유한 상태 머신) 의 어레이를 포함하는 머신 (예컨대, 컴퓨터) 에 의해 판독가능하고/하거나 실행가능한 컴퓨터 프로그램 제품 (예컨대, 디스크들, 플래시 또는 다른 비휘발성 메모리 카드들, 반도체 메모리 칩들 등과 같은 하나 이상의 데이터 저장 매체) 으로 실시되는, 코드 (예컨대, 명령들의 하나 이상의 세트들) 로서 구현될 수도 있다. 또한, 여기서 개시된 바와 같은 방법의 구현의 태스크들은 1 개보다 더 많은 그러한 어레이 또는 머신에 의해 수행될 수도 있다. 이들 또는 다른 구현들에서, 태스크들은, 셀룰러 전화기 또는 그러한 통신 능력을 갖는 다른 디바이스와 같은 무선 통신을 위한 디바이스 내에서 수행될 수도 있다. 그러한 디바이스는 (예컨대, VoIP 와 같은 하나 이상의 프로토콜들을 사용하여) 회로-스위칭 및/또는 패킷-스위칭 네트워크들과 통신하도록 구성될 수도 있다. 예컨대, 그러한 디바이스는 인코딩된 프레임을 수신 및/또는 송신하도록 구성된 RF 회로를 포함할 수도 있다.

여기서 개시된 다양한 방법들이, 핸드셋, 헤드셋, 또는 개인용 정보 단말 (PDA) 과 같은 휴대용 통신 디바이스에 의해 수행될 수도 있고, 여기서 설명된 다양한 장치가 그러한 디바이스에 포함될 수도 있다는 것이 명백하게 개시된다. 통상적인 실시간 (예컨대, 온라인) 애플리케이션은 그러한 이동 디바이스를 사용하여 실시되는 전화 대화이다.

하나 이상의 예시적인 실시형태들에서, 여기서 설명된 동작들은 하드웨어, 소프트웨어, 펌웨어, 또는 이들의 임의의 조합으로 구현될 수도 있다. 소프트웨어로 구현되는 경우에, 그러한 동작들은 하나 이상의 명령들 또는 코드로서 컴퓨터-판독가능 매체를 통해 송신되거나, 또는 저장될 수도 있다. "컴퓨터-판독가능 매체" 라는 용어는, 하나의 장소에서 다른 장소로의 컴퓨터 프로그램의 전달을 용이하게 하는 임의의 매체를 포함하는 통신 매체 및 컴퓨터 저장 매체 양자 모두를 포함한다. 저장 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 이용가능한 매체일 수도 있다. 예로써 한정되지 않게, 그러한 컴퓨터-판독가능 매체는, (동적 또는 정적 RAM, ROM, EEPROM, 및/또는 플래시 RAM을 이에 제한되지 않게 포함할 수도 있는) 반도체 메모리, 또는 강유전, 자기저항, 오보닉, 폴리메트릭, 또는 상변화 메모리와 같은 저장 엘리먼트들의 어레이; CD-ROM 또는 다른 광학 디스크 저장소, 자기 디스크 저장소 또는 다른 자기 저장 디바이스들, 또는 컴퓨터에 의해 액세스될 수 있는 데이터 구조들 또는 명령들의 형태의 원하는 프로그램 코드를 운반 또는 저장하기 위해 사용될 수 있는 임의의 다른 매체를 포함할 수 있다. 또한, 임의의 접속이 컴퓨터-판독가능 매체라 적절하게 호칭된다. 예컨대, 동축 케이블, 광섬유 케이블, 꼬임 쌍, 디지털 가입자 라인 (DSL), 또는 적외선, 무선, 및/또는 마이크로파와 같은 무선 기술을 사용하여 웹싸이트, 서버, 또는 다른 원격 소스로부터 소프트웨어가 송신되는 경우에, 동축 케이블, 광섬유 케이블, 꼬임 쌍, DSL, 또는 적외선, 무선, 및/또는 마이크로파와 같은 무선 기술은 매체의 정의에 포함된다. 여기서 사용되는 바와 같이, 디스크 (disk) 및 디스크 (disc) 는, 콤팩트 디스크 (CD), 레이저 디스크, 광학 디스크, 디지털 다기능 디스크 (DVD), 플로피 디스크, 및 블루-레이 디스크TM (Blue-Ray Disc Associtaion, Universal City, CA) 를 포함하며, 디스크 (disk) 들은 일반적으로 자성으로 데이터를 재현하고, 디스크 (disc) 들은 레이저들로 광학덕으로 데이터를 재현한다. 상기의 조합들이 또한 컴퓨터-판독가능 매체의 범위 내에 포함되어야 한다.

여기서 설명되는 바와 같은 음향 신호 프로세싱 장치는, 특정 동작들을 제어하기 위해 스피치 입력을 수용하는 전자 디바이스로 통합될 수도 있거나, 또는 그렇지 않은 경우에, 통신 디바이스들과 같은, 배경 노이즈들로부터의 원하는 노이즈들의 분리로부터 이익을 얻을 수도 있다. 다수의 애플리케이션들은, 다수의 방향들로부터 발신하는 배경 사운드들로부터 명확한 원하는 사운드를 분리시키거나 또는 증대시키는 것으로부터 이익을 얻을 수도 있다. 그러한 애플리케이션들은, 음성 인식 및 검출, 스피치 인핸스먼트 및 분리, 음성-활성화된 제어 등과 같은 능력들을 포함하는 전자 또는 연산 디바이스들에서 인간-머신 인터페이스들을 포함할 수도 있다. 제한된 프로세싱 능력들만을 제공하는 디바이스들에 적합하도록 그러한 음향 신호 프로세싱 장치를 구현하는 것이 바람직할 수도 있다.

여기서 설명되는 모듈들, 엘리먼트들, 및 디바이스들의 다양한 구현들의 엘리먼트들은 예컨대, 동일한 칩 상 또는 칩셋 내의 2 개 이상의 칩들 사이에서 상주하는 전자 및/또는 광학 디바이스들로서 제조될 수도 있다. 그러한 디바이스의 일례는 트랜지스터들 또는 게이트들과 같은 로직 엘리먼트들의 고정된 또는 프로그래밍 가능한 어레이이다. 또한, 여기서 설명된 장치의 다양한 구현들의 하나 이상의 엘리먼트들은, 마이크로프로세서들, 임베딩된 프로세서들, IP 코어들, 디지털 신호 프로세서들, FPGA들, ASSP들, 및 ASIC들과 같은 로직 엘리먼트들의 하나 이상의 고정된 또는 프로그래밍 가능한 어레이들을 실행하도록 배열된 명령들의 하나 이상의 세트들로서 전부 또는 일부 구현될 수도 있다.

여기서 설명된 장치의 구현의 하나 이상의 엘리먼트들이, 장치가 임베딩된 디바이스 또는 시스템의 다른 동작에 관한 태스크와 같은, 장치의 동작에 직접적으로 관련되지 않는 태스크들을 수행하거나, 또는 명령들의 다른 세트들을 실행하기 위해 사용되는 것이 가능하다. 또한, 그러한 장치의 구현의 하나 이상의 엘리먼트들이 공통인 구조를 갖는 것이 가능하다 (예컨대, 상이한 시간들에서 상이한 엘리먼트들에 대응하는 코드의 부분들을 실행하기 위해 사용되는 프로세서, 상이한 시간들에서 상이한 엘리먼트들에 대응하는 태스크들을 수행하기 위해 실행되는 명령들의 세트, 상이한 시간들에서 상이한 엘리먼트들에 대한 동작들을 수행하는 전자 및/또는 광학 디바이스들의 배열). 예컨대, 부대역 신호 생성기들 (SG100, EG100, NG100a, NG100b, 및 NG100c) 중 2 개 이상이 상이한 시간들에서 동일한 구조를 포함하도록 구현될 수도 있다. 다른 예에서, 부대역 전력 추정치 계산기들 (SP100, EP100, NP100a, NP100b (또는 NP105), 및 NP100c) 중 2 개 이상이 상이한 시간들에서 동일한 구조를 포함하도록 구현될 수도 있다. 다른 예에서, 부대역 필터 어레이 (FA100) 및 부대역 필터 어레이 (SG10) 의 하나 이상의 구현들이 (예컨대, 상이한 시간들에서 필터 계수 값들의 상이한 세트들을 사용하여) 상이한 시간들에서 동일한 구조를 포함하도록 구현될 수도 있다.

또한, 장치 (A100) 및/또는 인핸서 (EN10) 의 특정한 구현을 참조하여 여기서 설명된 다양한 엘리먼트들이 다른 개시된 구현들로 설명된 방식으로 사용될 수도 있다는 것이 명백하게 고려된다. 예컨대, (장치 (A170) 를 참조하여 설명되는 바와 같은) AGC 모듈 (G10) 중 하나 이상, (장치 (A500) 를 참조하여 설명되는 바와 같은) 오디오 프리프로세서 (AP10), (오디오 프리프로세서 (AP30) 를 참조하여 설명되는 바와 같은) 에코 제거기 (EC10), (장치 (A130) 를 참조하여 설명되는 바와 같은) 노이즈 감소 스테이지 (NR10 또는 NR20), 및 (장치 (A160) 를 참조하여 설명되는 바와 같은) 음성 활동 검출기 (V10) 또는 (장치 (A165) 를 참조하여 설명되는 바와 같은) 음성 활동 검출기 (V15) 는, 장치 (A100) 의 다른 개시된 구현들에 포함될 수도 있다. 마찬가지로, (인핸서 (EN40) 를 참조하여 설명되는 바와 같은) 피크 제한기 (L10) 가 인핸서 (EN10) 의 다른 개시된 구현들에 포함될 수도 있다. 감지된 오디오 신호 (S10) 의 2-채널 (예컨대, 스테레오) 인스턴스들에 대한 애플리케이션들이 주로 설명되었지만, (예컨대, 3 개 이상의 마이크로폰들의 어레이로부터의) 3 개 이상의 채널들을 갖는 감지된 오디오 신호 (S10) 로의 여기서 개시된 원리들의 확장들이 또한 여기서 명백하게 고려되고 개시된다.

Claims

스피치 신호를 프로세싱하는 방법으로서, 상기 방법은,
오디오 신호들을 프로세싱하도록 구성된 디바이스 내에서,
소스 신호 및 노이즈 레퍼런스를 산출하기 위해, 멀티채널 감지된 오디오 신호에 대해 공간 선택적 프로세싱 동작을 수행하는 단계; 및
프로세싱된 스피치 신호를 산출하기 위해, 상기 스피치 신호에 대해 스펙트럼 콘트라스트 인핸스먼트 동작을 수행하는 단계
의 각각을 수행하는 단계를 포함하고,
상기 스펙트럼 콘트라스트 인핸스먼트 동작을 수행하는 단계는,
상기 노이즈 레퍼런스로부터의 정보에 기초하여, 복수의 노이즈 부대역 전력 추정치들을 계산하는 단계;
상기 스피치 신호로부터의 정보에 기초하여, 인핸스먼트 벡터를 생성하는 단계; 및
상기 복수의 노이즈 부대역 전력 추정치들, 상기 스피치 신호로부터의 정보, 및 상기 인핸스먼트 벡터로부터의 정보에 기초하여, 상기 프로세싱된 스피치 신호를 산출하는 단계를 포함하며,
상기 프로세싱된 스피치 신호의 복수의 주파수 부대역들의 각각은 상기 스피치 신호의 대응하는 주파수 부대역에 기초하는, 스피치 신호를 프로세싱하는 방법.
제 1 항에 있어서,
상기 공간 선택적 프로세싱 동작을 수행하는 단계는, 상기 멀티채널 감지된 오디오 신호의 방향성 컴포넌트의 에너지를 상기 소스 신호로 집중시키는 단계를 포함하는, 스피치 신호를 프로세싱하는 방법.
제 1 항에 있어서,
디바이스에 의해 무선으로 수신된 신호를 디코딩하여, 디코딩된 스피치 신호를 획득하는 단계를 포함하며,
상기 스피치 신호는 상기 디코딩된 스피치 신호로부터의 정보에 기초하는, 스피치 신호를 프로세싱하는 방법.
제 1 항에 있어서,
상기 스피치 신호는 상기 멀티채널 감지된 오디오 신호에 기초하는, 스피치 신호를 프로세싱하는 방법.
제 1 항에 있어서,
상기 공간 선택적 프로세싱 동작을 수행하는 단계는, 복수의 상이한 주파수들의 각각에서의 상기 멀티채널 감지된 오디오 신호의 채널들의 위상 각들 사이의 관계를 결정하는 단계를 포함하는, 스피치 신호를 프로세싱하는 방법.
제 1 항에 있어서,
상기 인핸스먼트 벡터를 생성하는 단계는, 상기 스피치 신호의 스펙트럼을 평활화하여 제 1 평활화된 신호를 획득하는 단계, 및 상기 제 1 평활화된 신호를 평활화하여 제 2 평활화된 신호를 획득하는 단계를 포함하며,
상기 인핸스먼트 벡터는 상기 제 1 평활화된 신호와 상기 제 2 평활화된 신호의 비율에 기초하는, 스피치 신호를 프로세싱하는 방법.
제 1 항에 있어서,
상기 인핸스먼트 벡터를 생성하는 단계는, 상기 스피치 신호의 스펙트럼 피크들의 크기들 사이의 차이를 감소시키는 단계를 포함하고,
상기 인핸스먼트 벡터는 상기 차이를 감소시키는 단계의 결과에 기초하는, 스피치 신호를 프로세싱하는 방법.
제 1 항에 있어서,
상기 프로세싱된 스피치 신호를 산출하는 단계는,
복수의 이득 계수 값들의 각각이 상기 인핸스먼트 벡터의 대응하는 주파수 부대역으로부터의 정보에 기초하도록, 상기 복수의 이득 계수 값들을 계산하는 단계;
상기 프로세싱된 스피치 신호의 제 1 부대역을 획득하기 위해, 상기 스피치 신호의 제 1 주파수 부대역에 상기 복수의 이득 계수 값들 중 제 1 이득 계수 값을 적용하는 단계; 및
상기 프로세싱된 스피치 신호의 제 2 부대역을 획득하기 위해, 상기 스피치 신호의 제 2 주파수 부대역에 상기 복수의 이득 계수 값들 중 제 2 이득 계수 값을 적용하는 단계를 포함하며,
상기 복수의 이득 계수 값들 중 상기 제 1 이득 계수 값은 상기 복수의 이득 계수 값들 중 상기 제 2 이득 계수 값과 상이한, 스피치 신호를 프로세싱하는 방법.
제 8 항에 있어서,
상기 복수의 이득 계수 값들의 각각은 상기 복수의 노이즈 부대역 전력 추정치들 중 대응하는 하나의 노이즈 부대역 전력 추정치에 기초하는, 스피치 신호를 프로세싱하는 방법.
제 8 항에 있어서,
상기 프로세싱된 스피치 신호를 산출하는 단계는, 필터 스테이지들의 캐스케이드를 사용하여 상기 스피치 신호를 필터링하는 단계를 포함하고,
상기 스피치 신호의 제 1 주파수 부대역에 상기 복수의 이득 계수 값들 중 제 1 이득 계수 값을 적용하는 단계는, 상기 캐스케이드의 제 1 필터 스테이지에 이득 계수 값을 적용하는 단계를 포함하며,
상기 스피치 신호의 제 2 주파수 부대역에 상기 복수의 이득 계수 값들 중 제 2 이득 계수 값을 적용하는 단계는, 상기 캐스케이드의 제 2 필터 스테이지에 이득 계수 값을 적용하는 단계를 포함하는, 스피치 신호를 프로세싱하는 방법.
제 1 항에 있어서,
에코 제거기를 사용하여, 상기 멀티채널 감지된 오디오 신호로부터 에코들을 제거하는 단계; 및
상기 프로세싱된 스피치 신호를 사용하여, 상기 에코 제거기를 트레이닝하는 단계를 포함하는, 스피치 신호를 프로세싱하는 방법.
제 1 항에 있어서,
상기 노이즈 레퍼런스로부터의 정보에 기초하여, 상기 소스 신호에 대해 노이즈 감소 동작을 수행하여, 상기 스피치 신호를 획득하는 단계; 및
상기 소스 신호와 상기 스피치 신호 사이의 관계에 기초하여, 음성 활동 검출 동작을 수행하는 단계를 포함하며,
상기 프로세싱된 스피치 신호를 산출하는 단계는, 상기 음성 활동 검출 동작의 결과에 기초하는, 스피치 신호를 프로세싱하는 방법.
스피치 신호를 프로세싱하는 장치로서, 상기 장치는,
소스 신호 및 노이즈 레퍼런스를 산출하기 위해, 멀티채널 감지된 오디오 신호에 대해 공간 선택적 프로세싱 동작을 수행하는 수단; 및
프로세싱된 스피치 신호를 산출하기 위해, 상기 스피치 신호에 대해 스펙트럼 콘트라스트 인핸스먼트 동작을 수행하는 수단을 포함하고,
상기 스펙트럼 콘트라스트 인핸스먼트 동작을 수행하는 수단은,
상기 노이즈 레퍼런스로부터의 정보에 기초하여, 복수의 노이즈 부대역 전력 추정치들을 계산하는 수단;
상기 스피치 신호로부터의 정보에 기초하여, 인핸스먼트 벡터를 생성하는 수단; 및
상기 복수의 노이즈 부대역 전력 추정치들, 상기 스피치 신호로부터의 정보, 및 상기 인핸스먼트 벡터로부터의 정보에 기초하여, 상기 프로세싱된 스피치 신호를 산출하는 수단을 포함하며,
상기 프로세싱된 스피치 신호의 복수의 주파수 부대역들의 각각은 상기 스피치 신호의 대응하는 주파수 부대역에 기초하는, 스피치 신호를 프로세싱하는 장치.
제 13 항에 있어서,
상기 공간 선택적 프로세싱 동작은, 상기 멀티채널 감지된 오디오 신호의 방향성 컴포넌트의 에너지를 상기 소스 신호로 집중시키는 것을 포함하는, 스피치 신호를 프로세싱하는 장치.
제 13 항에 있어서,
상기 스피치 신호를 프로세싱하는 장치에 의해 무선으로 수신된 신호를 디코딩하여, 디코딩된 스피치 신호를 획득하는 수단을 포함하며,
상기 스피치 신호는 상기 디코딩된 스피치 신호로부터의 정보에 기초하는, 스피치 신호를 프로세싱하는 장치.
제 13 항에 있어서,
상기 스피치 신호는 상기 멀티채널 감지된 오디오 신호에 기초하는, 스피치 신호를 프로세싱하는 장치.
제 13 항에 있어서,
상기 공간 선택적 프로세싱 동작을 수행하는 수단은, 복수의 상이한 주파수들의 각각에서의 상기 멀티채널 감지된 오디오 신호의 채널들의 위상 각들 사이의 관계를 결정하도록 구성되는, 스피치 신호를 프로세싱하는 장치.
제 13 항에 있어서,
상기 인핸스먼트 벡터를 생성하는 수단은, 상기 스피치 신호의 스펙트럼을 평활화하여 제 1 평활화된 신호를 획득하고, 상기 제 1 평활화된 신호를 평활화하여 제 2 평활화된 신호를 획득하도록 구성되고,
상기 인핸스먼트 벡터는 상기 제 1 평활화된 신호와 상기 제 2 평활화된 신호의 비율에 기초하는, 스피치 신호를 프로세싱하는 장치.
제 13 항에 있어서,
상기 인핸스먼트 벡터를 생성하는 수단은, 상기 스피치 신호의 스펙트럼 피크들의 크기들 사이의 차이를 감소시키는 동작을 수행하도록 구성되며,
상기 인핸스먼트 벡터는 상기 차이를 감소시키는 동작의 결과에 기초하는, 스피치 신호를 프로세싱하는 장치.
제 13 항에 있어서,
상기 프로세싱된 스피치 신호를 산출하는 수단은,
복수의 이득 계수 값들의 각각이 상기 인핸스먼트 벡터의 대응하는 주파수 부대역으로부터의 정보에 기초하도록, 상기 복수의 이득 계수 값들을 계산하는 수단;
상기 프로세싱된 스피치 신호의 제 1 부대역을 획득하기 위해, 상기 스피치 신호의 제 1 주파수 부대역에 상기 복수의 이득 계수 값들 중 제 1 이득 계수 값을 적용하는 수단; 및
상기 프로세싱된 스피치 신호의 제 2 부대역을 획득하기 위해, 상기 스피치 신호의 제 2 주파수 부대역에 상기 복수의 이득 계수 값들 중 제 2 이득 계수 값을 적용하는 수단을 포함하며,
상기 복수의 이득 계수 값들 중 상기 제 1 이득 계수 값은 상기 복수의 이득 계수 값들 중 상기 제 2 이득 계수 값과 상이한, 스피치 신호를 프로세싱하는 장치.
제 20 항에 있어서,
상기 복수의 이득 계수 값들의 각각은 상기 복수의 노이즈 부대역 전력 추정치들 중 대응하는 하나의 노이즈 부대역 전력 추정치에 기초하는, 스피치 신호를 프로세싱하는 장치.
제 20 항에 있어서,
상기 프로세싱된 스피치 신호를 산출하는 수단은, 상기 스피치 신호를 필터링하도록 배열된 필터 스테이지들의 캐스케이드를 포함하고,
상기 스피치 신호의 제 1 주파수 부대역에 상기 복수의 이득 계수 값들 중 제 1 이득 계수 값을 적용하는 수단은, 상기 캐스케이드의 제 1 필터 스테이지에 이득 계수 값을 적용하도록 구성되며,
상기 스피치 신호의 제 2 주파수 부대역에 상기 복수의 이득 계수 값들 중 제 2 이득 계수 값을 적용하는 수단은, 상기 캐스케이드의 제 2 필터 스테이지에 이득 계수 값을 적용하도록 구성되는, 스피치 신호를 프로세싱하는 장치.
제 13 항에 있어서,
상기 멀티채널 감지된 오디오 신호로부터 에코들을 제거하는 수단을 포함하며,
상기 에코들을 제거하는 수단은, 상기 프로세싱된 스피치 신호에 의해 트레이닝되도록 구성 및 배열되는, 스피치 신호를 프로세싱하는 장치.
제 13 항에 있어서,
상기 노이즈 레퍼런스로부터의 정보에 기초하여, 상기 소스 신호에 대해 노이즈 감소 동작을 수행하여, 상기 스피치 신호를 획득하는 수단; 및
상기 소스 신호와 상기 스피치 신호 사이의 관계에 기초하여, 음성 활동 검출 동작을 수행하는 수단을 포함하며,
상기 프로세싱된 스피치 신호를 산출하는 수단은, 상기 음성 활동 검출 동작의 결과에 기초하여, 상기 프로세싱된 스피치 신호를 산출하도록 구성되는, 스피치 신호를 프로세싱하는 장치.
스피치 신호를 프로세싱하는 장치로서, 상기 장치는,
소스 신호 및 노이즈 레퍼런스를 산출하기 위해, 멀티채널 감지된 오디오 신호에 대해 공간 선택적 프로세싱 동작을 수행하도록 구성된 공간 선택적 프로세싱 필터; 및
프로세싱된 스피치 신호를 산출하기 위해, 상기 스피치 신호에 대해 스펙트럼 콘트라스트 인핸스먼트 동작을 수행하도록 구성된 스펙트럼 콘트라스트 인핸서를 포함하고,
상기 스펙트럼 콘트라스트 인핸서는,
상기 노이즈 레퍼런스로부터의 정보에 기초하여, 복수의 노이즈 부대역 전력 추정치들을 계산하도록 구성된 전력 추정치 계산기; 및
상기 스피치 신호로부터의 정보에 기초하여, 인핸스먼트 벡터를 생성하도록 구성된 인핸스먼트 벡터 생성기를 포함하며,
상기 스펙트럼 콘트라스트 인핸서는, 상기 복수의 노이즈 부대역 전력 추정치들, 상기 스피치 신호로부터의 정보, 및 상기 인핸스먼트 벡터로부터의 정보에 기초하여, 상기 프로세싱된 스피치 신호를 산출하도록 구성되고,
상기 프로세싱된 스피치 신호의 복수의 주파수 부대역들의 각각은 상기 스피치 신호의 대응하는 주파수 부대역에 기초하는, 스피치 신호를 프로세싱하는 장치.
제 25 항에 있어서,
상기 공간 선택적 프로세싱 동작은, 상기 멀티채널 감지된 오디오 신호의 방향성 컴포넌트의 에너지를 상기 소스 신호로 집중시키는 것을 포함하는, 스피치 신호를 프로세싱하는 장치.
제 25 항에 있어서,
상기 스피치 신호를 프로세싱하는 장치에 의해 무선으로 수신된 신호를 디코딩하여, 디코딩된 스피치 신호를 획득하도록 구성된 디코더를 포함하며,
상기 스피치 신호는 상기 디코딩된 스피치 신호로부터의 정보에 기초하는, 스피치 신호를 프로세싱하는 장치.
제 25 항에 있어서,
상기 스피치 신호는 상기 멀티채널 감지된 오디오 신호에 기초하는, 스피치 신호를 프로세싱하는 장치.
제 25 항에 있어서,
상기 공간 선택적 프로세싱 동작은, 복수의 상이한 주파수들의 각각에서의 상기 멀티채널 감지된 오디오 신호의 채널들의 위상 각들 사이의 관계를 결정하는 것을 포함하는, 스피치 신호를 프로세싱하는 장치.
제 25 항에 있어서,
상기 인핸스먼트 벡터 생성기는, 상기 스피치 신호의 스펙트럼을 평활화하여 제 1 평활화된 신호를 획득하고, 상기 제 1 평활화된 신호를 평활화하여 제 2 평활화된 신호를 획득하도록 구성되며,
상기 인핸스먼트 벡터는 상기 제 1 평활화된 신호와 상기 제 2 평활화된 신호의 비율에 기초하는, 스피치 신호를 프로세싱하는 장치.
제 25 항에 있어서,
상기 인핸스먼트 벡터 생성기는, 상기 스피치 신호의 스펙트럼 피크들의 크기들 사이의 차이를 감소시키는 동작을 수행하도록 구성되며,
상기 인핸스먼트 벡터는 상기 차이를 감소시키는 동작의 결과에 기초하는, 스피치 신호를 프로세싱하는 장치.
제 25 항에 있어서,
상기 스펙트럼 콘트라스트 인핸서는,
복수의 이득 계수 값들의 각각이 상기 인핸스먼트 벡터의 대응하는 주파수 부대역으로부터의 정보에 기초하도록, 상기 복수의 이득 계수 값들을 계산하도록 구성된 이득 계수 계산기; 및
상기 스피치 신호의 제 1 주파수 부대역에 상기 복수의 이득 계수 값들 중 제 1 이득 계수 값을 적용하여, 상기 프로세싱된 스피치 신호의 제 1 부대역을 획득하도록 구성된 이득 제어 엘리먼트를 포함하고,
상기 이득 제어 엘리먼트는, 상기 스피치 신호의 제 2 주파수 부대역에 상기 복수의 이득 계수 값들 중 제 2 이득 계수 값을 적용하여, 상기 프로세싱된 스피치 신호의 제 2 부대역을 획득하도록 구성되며,
상기 복수의 이득 계수 값들 중 상기 제 1 이득 계수 값은 상기 복수의 이득 계수 값들 중 상기 제 2 이득 계수 값과 상이한, 스피치 신호를 프로세싱하는 장치.
제 32 항에 있어서,
상기 복수의 이득 계수 값들의 각각은 상기 복수의 노이즈 부대역 전력 추정치들 중 대응하는 하나의 노이즈 부대역 전력 추정치에 기초하는, 스피치 신호를 프로세싱하는 장치.
제 32 항에 있어서,
상기 이득 제어 엘리먼트는, 상기 스피치 신호를 필터링하도록 배열된 필터 스테이지들의 캐스케이드를 포함하고,
상기 이득 제어 엘리먼트는, 상기 캐스케이드의 제 1 필터 스테이지에 이득 계수 값을 적용함으로써, 상기 복수의 이득 계수 값들 중 상기 제 1 이득 계수 값을 상기 스피치 신호의 상기 제 1 주파수 부대역에 적용하도록 구성되며,
상기 이득 제어 엘리먼트는, 상기 캐스케이드의 제 2 필터 스테이지에 이득 계수 값을 적용함으로써, 상기 복수의 이득 계수 값들 중 상기 제 2 이득 계수 값을 상기 스피치 신호의 상기 제 2 주파수 부대역에 적용하도록 구성되는, 스피치 신호를 프로세싱하는 장치.
제 25 항에 있어서,
상기 멀티채널 감지된 오디오 신호로부터 에코들을 제거하도록 구성된 에코 제거기를 포함하며,
상기 에코 제거기는, 상기 프로세싱된 스피치 신호에 의해 트레이닝되도록 구성 및 배열되는, 스피치 신호를 프로세싱하는 장치.
제 25 항에 있어서,
상기 노이즈 레퍼런스로부터의 정보에 기초하여, 상기 소스 신호에 대해 노이즈 감소 동작을 수행하여, 상기 스피치 신호를 획득하도록 구성된 노이즈 감소 스테이지; 및
상기 소스 신호와 상기 스피치 신호 사이의 관계에 기초하여, 음성 활동 검출 동작을 수행하도록 구성된 음성 활동 검출기를 포함하며,
상기 스펙트럼 콘트라스트 인핸서는, 상기 음성 활동 검출 동작의 결과에 기초하여, 상기 프로세싱된 스피치 신호를 산출하도록 구성되는, 스피치 신호를 프로세싱하는 장치.
적어도 하나의 프로세서에 의해 실행되는 경우에, 그 적어도 하나의 프로세서로 하여금, 멀티채널 오디오 신호를 프로세싱하는 방법을 수행하게 하는 명령들을 포함하는 컴퓨터-판독가능 매체로서,
상기 명령들은,
프로세서에 의해 실행되는 경우에, 그 프로세서로 하여금, 소스 신호 및 노이즈 레퍼런스를 산출하기 위해, 멀티채널 감지된 오디오 신호에 대해 공간 선택적 프로세싱 동작을 수행하게 하는 명령들; 및
프로세서에 의해 실행되는 경우에, 그 프로세서로 하여금, 프로세싱된 스피치 신호를 산출하기 위해, 스피치 신호에 대해 스펙트럼 콘트라스트 인핸스먼트 동작을 수행하게 하는 명령들을 포함하고,
프로세서에 의해 실행되는 경우에, 그 프로세서로 하여금, 스펙트럼 콘트라스트 인핸스먼트 동작을 수행하게 하는 상기 명령들은,
프로세서에 의해 실행되는 경우에, 그 프로세서로 하여금, 상기 노이즈 레퍼런스로부터의 정보에 기초하여, 복수의 노이즈 부대역 전력 추정치들을 계산하게 하는 명령들;
프로세서에 의해 실행되는 경우에, 그 프로세서로 하여금, 상기 스피치 신호로부터의 정보에 기초하여, 인핸스먼트 벡터를 생성하게 하는 명령들; 및
프로세서에 의해 실행되는 경우에, 그 프로세서로 하여금, 상기 복수의 노이즈 부대역 전력 추정치들, 상기 스피치 신호로부터의 정보, 및 상기 인핸스먼트 벡터로부터의 정보에 기초하여, 프로세싱된 스피치 신호를 산출하게 하는 명령들을 포함하며,
상기 프로세싱된 스피치 신호의 복수의 주파수 부대역들의 각각은 상기 스피치 신호의 대응하는 주파수 부대역에 기초하는, 컴퓨터-판독가능 매체.
제 37 항에 있어서,
프로세서에 의해 실행되는 경우에, 그 프로세서로 하여금, 공간 선택적 프로세싱 동작을 수행하게 하는 상기 명령들은, 프로세서에 의해 실행되는 경우에, 그 프로세서로 하여금, 상기 멀티채널 감지된 오디오 신호의 방향성 컴포넌트의 에너지를 상기 소스 신호로 집중시키게 하는 명령들을 포함하는, 컴퓨터-판독가능 매체.
제 37 항에 있어서,
프로세서에 의해 실행되는 경우에, 그 프로세서로 하여금, 상기 컴퓨터-판독가능 매체를 포함하는 디바이스에 의해 무선으로 수신된 신호를 디코딩하여, 디코딩된 스피치 신호를 획득하게 하는 명령들을 포함하며,
상기 스피치 신호는 상기 디코딩된 스피치 신호로부터의 정보에 기초하는, 컴퓨터-판독가능 매체.
제 37 항에 있어서,
상기 스피치 신호는 상기 멀티채널 감지된 오디오 신호에 기초하는, 컴퓨터-판독가능 매체.
제 37 항에 있어서,
프로세서에 의해 실행되는 경우에, 그 프로세서로 하여금, 공간 선택적 프로세싱 동작을 수행하게 하는 상기 명령들은, 프로세서에 의해 실행되는 경우에, 그 프로세서로 하여금, 복수의 상이한 주파수들의 각각에서의 상기 멀티채널 감지된 오디오 신호의 채널들의 위상 각들 사이의 관계를 결정하게 하는 명령들을 포함하는, 컴퓨터-판독가능 매체.
제 37 항에 있어서,
프로세서에 의해 실행되는 경우에, 그 프로세서로 하여금, 인핸스먼트 벡터를 생성하게 하는 상기 명령들은, 프로세서에 의해 실행되는 경우에, 그 프로세서로 하여금, 상기 스피치 신호의 스펙트럼을 평활화하여 제 1 평활화된 신호를 획득하게 하는 명령들, 및 프로세서에 의해 실행되는 경우에, 그 프로세서로 하여금, 상기 제 1 평활화된 신호를 평활화하여 제 2 평활화된 신호를 획득하게 하는 명령들을 포함하고,
상기 인핸스먼트 벡터는 상기 제 1 평활화된 신호와 상기 제 2 평활화된 신호의 비율에 기초하는, 컴퓨터-판독가능 매체.
제 37 항에 있어서,
프로세서에 의해 실행되는 경우에, 그 프로세서로 하여금, 인핸스먼트 벡터를 생성하게 하는 상기 명령들은, 프로세서에 의해 실행되는 경우에, 그 프로세서로 하여금, 상기 스피치 신호의 스펙트럼 피크들의 크기들 사이의 차이를 감소시키게 하는 명령들을 포함하며,
상기 인핸스먼트 벡터는 상기 감소의 결과에 기초하는, 컴퓨터-판독가능 매체.
제 37 항에 있어서,
프로세서에 의해 실행되는 경우에, 그 프로세서로 하여금, 프로세싱된 스피치 신호를 산출하게 하는 상기 명령들은,
프로세서에 의해 실행되는 경우에, 그 프로세서로 하여금, 복수의 이득 계수 값들의 각각이 상기 인핸스먼트 벡터의 대응하는 주파수 부대역으로부터의 정보에 기초하도록, 상기 복수의 이득 계수 값들을 계산하게 하는 명령들;
프로세서에 의해 실행되는 경우에, 그 프로세서로 하여금, 상기 프로세싱된 스피치 신호의 제 1 부대역을 획득하기 위해, 상기 스피치 신호의 제 1 주파수 부대역에 상기 복수의 이득 계수 값들 중 제 1 이득 계수 값을 적용하게 하는 명령들; 및
프로세서에 의해 실행되는 경우에, 그 프로세서로 하여금, 상기 프로세싱된 스피치 신호의 제 2 부대역을 획득하기 위해, 상기 스피치 신호의 제 2 주파수 부대역에 상기 복수의 이득 계수 값들 중 제 2 이득 계수 값을 적용하게 하는 명령들을 포함하며,
상기 복수의 이득 계수 값들 중 상기 제 1 이득 계수 값은 상기 복수의 이득 계수 값들 중 상기 제 2 이득 계수 값과 상이한, 컴퓨터-판독가능 매체.
제 44 항에 있어서,
상기 복수의 이득 계수 값들의 각각은 상기 복수의 노이즈 부대역 전력 추정치들 중 대응하는 하나의 노이즈 부대역 전력 추정치에 기초하는, 컴퓨터-판독가능 매체.
제 44 항에 있어서,
프로세서에 의해 실행되는 경우에, 그 프로세서로 하여금, 프로세싱된 스피치 신호를 산출하게 하는 상기 명령들은, 프로세서에 의해 실행되는 경우에, 그 프로세서로 하여금, 필터 스테이지들의 캐스케이드를 사용하여 상기 스피치 신호를 필터링하게 하는 명령들을 포함하고,
프로세서에 의해 실행되는 경우에, 그 프로세서로 하여금, 상기 스피치 신호의 제 1 주파수 부대역에 상기 복수의 이득 계수 값들 중 제 1 이득 계수 값을 적용하게 하는 상기 명령들은, 프로세서에 의해 실행되는 경우에, 그 프로세서로 하여금, 상기 캐스케이드의 제 1 필터 스테이지에 이득 계수 값을 적용하게 하는 명령들을 포함하며,
프로세서에 의해 실행되는 경우에, 그 프로세서로 하여금, 상기 스피치 신호의 제 2 주파수 부대역에 상기 복수의 이득 계수 값들 중 제 2 이득 계수 값을 적용하게 하는 상기 명령들은, 프로세서에 의해 실행되는 경우에, 그 프로세서로 하여금, 상기 캐스케이드의 제 2 필터 스테이지에 이득 계수 값을 적용하게 하는 명령들을 포함하는, 컴퓨터-판독가능 매체.
제 37 항에 있어서,
프로세서에 의해 실행되는 경우에, 그 프로세서로 하여금, 상기 멀티채널 감지된 오디오 신호로부터 에코들을 제거하게 하는 명령들을 포함하며,
프로세서에 의해 실행되는 경우에, 그 프로세서로 하여금, 에코들을 제거하게 하는 상기 명령들은, 상기 프로세싱된 스피치 신호에 의해 트레이닝되도록 구성 및 배열되는, 컴퓨터-판독가능 매체.
제 37 항에 있어서,
프로세서에 의해 실행되는 경우에, 그 프로세서로 하여금, 상기 노이즈 레퍼런스로부터의 정보에 기초하여, 상기 소스 신호에 대해 노이즈 감소 동작을 수행하여, 상기 스피치 신호를 획득하게 하는 명령들; 및
프로세서에 의해 실행되는 경우에, 그 프로세서로 하여금, 상기 소스 신호와 상기 스피치 신호 사이의 관계에 기초하여, 음성 활동 검출 동작을 수행하게 하는 명령들을 포함하며,
프로세서에 의해 실행되는 경우에, 그 프로세서로 하여금, 프로세싱된 스피치 신호를 산출하게 하는 상기 명령들은, 상기 음성 활동 검출 동작의 결과에 기초하여, 상기 프로세싱된 스피치 신호를 산출하도록 구성되는, 컴퓨터-판독가능 매체.
오디오 신호들을 프로세싱하도록 구성된 디바이스 내에서,
스피치 신호의 스펙트럼을 평활화하여, 제 1 평활화된 신호를 획득하는 단계;
상기 제 1 평활화된 신호를 평활화하여, 제 2 평활화된 신호를 획득하는 단계; 및
상기 제 1 평활화된 신호와 상기 제 2 평활화된 신호의 비율에 기초하는 콘트라스트-증대된 스피치 신호를 산출하는 단계
의 각각을 수행하는 단계를 포함하는, 스피치 신호를 프로세싱하는 방법.
제 49 항에 있어서,
상기 콘트라스트-증대된 스피치 신호를 산출하는 단계는, 상기 스피치 신호의 복수의 부대역들의 각각의 부대역에 대해, 상기 제 1 평활화된 신호와 상기 제 2 평활화된 신호의 비율의 대응하는 부대역으로부터의 정보에 기초하여, 상기 부대역의 이득을 제어하는 단계를 포함하는, 스피치 신호를 프로세싱하는 방법.