KR20080059147A

KR20080059147A - 노이즈 환경에서 스피치 신호의 강건한 분리

Info

Publication number: KR20080059147A
Application number: KR1020087004251A
Authority: KR
Inventors: 에릭 비져; 제레미 토먼; 쿽룽 챈
Original assignee: 소프트맥스 인코퍼레이티드
Priority date: 2005-07-22
Filing date: 2006-07-21
Publication date: 2008-06-26
Also published as: EP1908059A2; EP1908059A4; WO2007014136A9; CN101278337A; WO2007014136A2; US20070021958A1; US7464029B2; WO2007014136A3; JP2009503568A

Abstract

노이즈가 있는 음향 환경으로부터 추출된 스피치 신호의 품질을 개선하는 방법이 제공된다. 한 측면에서, 신호 분리 프로세스는 음성 활동 감지기와 연관된다. 음성 활동 감지기는, 음성 활동의 현저히 강건하고 정확한 감지를 가능하게 하는 2-채널 감지기이다. 스피치가 감지되면, 음성 활동 감지기는 제어 신호를 생성한다. 제어 신호는 귀결되는 스피치 신호의 품질을 개선하기 위한 신호 분리 프로세스들 또는 포스트-프로세싱 연산들을 활성화, 조절, 또는 제어하기 위해 이용된다. 다른 측면에서, 신호 분리 프로세스는 학습 스테이지 및 출력 스테이지를 구비한다. 학습 스테이지는 현재의 음향 조건에 적극적으로 순응하고, 계수들을 출력 스테이지로 보낸다. 출력 스테이지는 보다 느리게 적응하고, 스피치-컨텐트 신호 및 노이즈 도미넌트 신호를 생성한다. 학습 스테이지가 불안정하게 되는 경우, 출력 스테이지가 계속 고품질의 스피치 신호를 출력하도록 학습 스테이지만이 리셋된다.

Description

노이즈 환경에서 스피치 신호의 강건한 분리 {ROBUST SEPARATION OF SPEECH SIGNALS IN A NOISY ENVIRONMENT}

본 발명은 노이즈가 있는 음향 환경으로부터 스피치 신호를 분리하는 프로세스들 및 방법들에 관계된 것이다. 보다 구체적으로는, 본 발명의 일 예는 노이즈가 있는 환경에서의 스피치 신호 분리를 위한 블라인드 신호 소스 프로세스를 제공한다.

본 출원은 "Robust Separation of Speech Signals in a Noisy Environment"로 명명되고 2005년 6월 22에 출원된 미국 특허 출원 번호 11/187,504호에 대한 우선권을 주장한다. 본 출원은 "Separation of Target Acoustic Signals in a Multi-Transducer Arrangement"로 명명되고, 2004년 6월 22일에 출원된 미국 특허 출원 번호 10/897,219호에 관련된다. 이는 "System and Method for Speech Processing Using Improved Independent Component Analysis"로 명명되고 2003년 12월 11에 출원된 함께 출원중인 특허 협력 조약 출원 번호 PCT/US03/39593호에 관련된다. 이는 미국 특허출원 번호 60/432,691호 및 60/502,253호에 대한 우선권을 주장한다. 이 모든 출원들은 이 문서에서 참조로 포함된다.

음향 환경은 일반적으로 노이즈가 많아서 원하는 정보 신호를 감지하고 그에 반응하는 것을 어렵게 한다. 예를 들어, 어떤 사람이 음성 통신 채널을 통하여 다른 사람과 통신하고 싶어한다고 하자. 그 채널은, 예를 들어, 이동 무선 핸드셋, 워키토키, 양방향 라디오 또는 다른 통신 디바이스에 의하여 제공될 수 있다. 이용 가능성을 증가시키기 위하여, 그 사람은 통신 장비와 연결된 헤드셋 또는 이어폰을 사용할 수 있다. 헤드셋 또는 이어폰은 종종 하나 또는 그 이상의 이어 스피커 및 마이크를 가진다. 전형적으로, 마이크는 발언을 픽업할 가능성을 향상 시키기 위하여 붐을 그 사람의 입을 향하여 붐(붐)을 연장한다. 그 사람이 발언하는 때에, 마이크는 그의 음성 신호를 수신하고 이를 전기 신호로 변환한다. 마이크는 또한 다양한 노이즈 소스로부터 음향 신호를 수신하고, 이 또한 그 전기 신호의 노이즈 성분으로 포함된다. 헤드셋은 마이크를 사람의 입으로부터 몇 인치 떨어지도록 위치시킬 수 있고, 환경은 제어 불가능한 많은 노이즈 소스를 가질 수 있으므로, 귀결되는 전기 신호는 상당한 노이즈 성분을 가질 수 있다. 그러한 상당한 노이즈는 만족스럽지 않은 통신 경험을 유발하고, 통신 디바이스가 비효율적으로 동작하게 하며, 그에 의하여 배터리 유출이 증가된다.

구체적인 예에서, 스피치 신호는 노이즈가 있는 환경에서 생성되고, 스피치 프로세싱 방법들은 환경적인 노이즈로부터 스피치 신호를 분리하기 위해 사용된다. 노이즈는 실상황 조건에서 거의 언제나 존재하기 때문에 그러한 스피치 신호 프로세싱은 일상 통신의 많은 영역에서 중요하다. 노이즈는 관심 대상 스피치 신호를 간섭하거나 그 질을 떨어뜨리는 모든 신호들의 조합으로서 정의된다. 실제 환경에는, 단일 점 노이즈 소스들을 포함하는 다수의 노이즈 소스들이 존재하고, 이들은 종종 다수의 소리를 넘나들어 반향이 된다. 배경 노이즈로부터 분리되고 격리되지 않는다면, 스피치 신호를 신뢰성 있고 효과적으로 이용하는 것은 어렵다. 배경 노이즈는 일반적인 환경, 다른 사람들의 대화 및 그 각각의 신호들로부터의 반사 및 반향에 의하여 생성되는 다양한 노이즈 신호들을 포함할 수 있다. 소란스러운 환경에서 사용자가 대화하는 통신에 있어서, 배경 노이즈로부터 사용자들의 스피치 신호들을 분리하는 것이 바람직하다.. 스피치 통신 매체들, 예를 들어 휴대폰, 스피커폰, 헤드셋, 무선 전화, 텔레 컨퍼런스, 시민 밴드 라디오, 워키 토키, 컴퓨터 전화, 컴퓨터 및 차량 음성 명령 어플리케이션 및 다른 핸즈-프리 어플리케이션, 인터컴 및 마이크 시스템 등은 원하는 스피치 신호들을 배경 노이즈로부터 분리하는 스피치 신호 프로세싱을 활용할 수 있다.

배경 노이즈 신호들로부터 소리 신호들을 분리하기 위해서, 단순한 필터링 프로세스들을 포함하는 많은 방법들이 만들어져 왔다. 종래 기술의 노이즈 필터들은 신호들을 화이트 노이즈 신호들과 같은 소정의 특징들로 식별하고, 그러한 신호들을 입력 신호들로부터 차감한다. 이러한 방법들, 단순하면서도 소리 신호들의 실시간 프로세싱에 충분할 만큼 빠른 반면에, 상이한 소리 환경에 쉽게 적응하지 못하고, 얻어져야할 스피치 신호의 중대한 품질저하로 귀결될 수 있다. 노이즈 특징들에 대한 소정의 가정들은 너무 포괄적일 수도 너무 포괄적이지 못할 수도 있다. 그 결과 이러한 방법들에 의하여 사람의 스피치의 일부가 "노이즈"로 간주될 수 있고, 그에 따라 출력 스피치 신호들에서 제거될 수 있다. 그 반면에 이러한 방법들에 의하여 음악 또는 대화와 같은 배경 노이즈의 일부가 노이즈가 아닌 것으로 판단되어 그에 따라 출력 스피치 신호들에 포함될 수 있다.

신호 프로세싱 어플리케이션에서, 일반적으로 하나 이상의 입력 신호들이 마이크와 같은 트랜스듀서 센서를 이용하여 획득될 수 있다. 센서에 의하여 제공되는 신호들은 많은 소스들로부터 혼합 결과이다. 일반적으로, 신호 소스들과 그 혼합 특징은 알려져 있지 않다. 소스와 무관한 일반적이고 통계적인 가정 외의 신호 소스들에 대한 지식없이, 이러한 신호 프로세싱 문제는 "블라인드 신호 분리(BSS, blind signal separation) 문제" 기술로 알려져 있다. 블라인드 분리 문제는 많은 유사한 형태로 마주치게 된다. 예를 들어, 사람은 "칵테일-파티(cocktail-party) 효과"로 불리우는 많은 음원들이 있는 환경에서라도 단일 음원에 집중할 수 있는 것으로 알려져 있다. 각 소스 신호들은 소스에서 마이크로의 전송 중에 시변화 하는 방법으로 지연되고 감쇄되고, 독립적으로 지연되고 감쇄된, 그 자신(잔향)의 다경로 버전을 포함하는, 다른 소스 신호들과 혼합된다. 이러한 모든 음향 신호들을 받는 사함은 다경로 신호들을 포함하는 방해 소스들을 필터링 또는 무시하면서 한 특정한 음원에 귀 기울일 수 있다.

물리적인 디바이스들 및 그러한 디바이스들의 컴퓨터 시뮬레이션 모두에서, 칵테일-파티 효과를 해결하기 위한 상당한 노력이 기울여져 왔다. 분석 이전의 단순한 제거에서부터 스피치 및 논-스피치 신호들 사이의 정확한 구별에 기반한 노이즈 스펙트럼의 적응형 제거를 위한 방안에 이르는 범위를 아우르는 다양한 노이즈 경감 기법들이 현재 채용되고 있다. 이러한 기법들의 설명은 미국 특허 제6,002,776호 (여기서 레퍼런스로 편입된)에서 일반적으로 묘사된다. 구체적으로, 미국 특허 제6,002,776호는, 둘 이상의 마이크가 동수 또는 그 이하의 별개 음원들을 포함하는 환경에 설치된 곳에서, 소스 신호들을 분리하기 위한 방안들을 묘사한다. 수신 정보의 방향을 이용하여, 제2 모듈에 의하여 채널들 간의 혼선이 제거되는 반면에 제1 모듈은 본래의 소스 신호들을 분리하려고 한다. 그러한 배치는, 명확히 정의된 수신 방향을 가지는 공간적으로 분리된 제한된 음원들을 분리하는 데 효과적이지만, 특정한 수신 방향이 판단될 수 없는, 공간적으로 분산된 노이즈 환경으로부터 스피치 신호를 분리하는 데는 실패한다.

독립 성분 분석(ICA, independent component analysis)과 같은 방법들은, 노이즈 소스들로부터의 스피치 신호들의 분리를 위한 상대적으로 정확하고 유연한 수단을 제공한다. ICA는, 가정적으로 각각 독립된, 혼합된 소스 신호들(성분들)을 분리하는 기법이다. 그 것의 단순화된 형태에서, 독립 성분 분석은 분리된 신호들을 생산하기 위해 혼합된 신호들에 대하여 웨이트 들의 "언-믹싱(un-mixing)" 매트릭스를 연산(예를 들어 혼합된 신호들에 그 매트릭스를 곱함으로써)한다. 웨이트들은 초기값으로 배정되고, 정보 리던던시(redundancy)를 최소화하기 위하여 신호들의 조인트 엔트로피를 최대화하도록 조절된다. 이러한 웨이트-조절 및 엔트로피-증가 프로세스는 신호들의 정보 리던던시(redundancy)가 최소값으로 줄어들 때까지 반복된다. 이 기법은 각 신호의 소스에 대한 정보를 요구하지 않으므로, "블라인드 신호 분리" 방법으로 알려져 있다. 블라인드 분리 문제는 복수의 독립된 소스들로부터의 혼합된 신호들을 분리하는 아이디어를 언급한다.

많은 인기있는 ICA 알고리즘들은, 불과 십년 전에 존재하였던 것들의 상당한 변경을 포함하여, 그들의 성능을 최적화하도록 개발되어 왔다. 예를 들어, A. J. Bell 및 TJ Sejnowski, Neural Computation 7:1129-1159 (1995)에 묘사된 기술 및 Bell, AJ. 미국 특허 제5,706,402호는 일반적으로 그 특허된 형태로 이용되지 않는다. 대신에, 그 성능을 최적화하기 위하여, 이 알고리즘은 다른 많은 사람들에 의해 재특성화를 거친다. 그러한 변화는 Amari, Cichocki, Yang (1996)에 의해 묘사된 "자연 기울기(natural gradient)"의 사용을 포함한다. 다른 인기있는 ICA 알고리즘들은, 큐뮬런트(cumulants)(Cardoso, 1992; Comon, 1994; Hyvaerinen 및 Oja, 1997)와 같은 보다 높은 차수의 통계 계산을 하는 방법들을 포함한다.

그러나, 많은 알려진 ICA 알고리즘들은 공간 구조 관련 반사들에 의한 에코(echo)를 본질적으로 포함하는, 실제 환경에서 기록된 신호들을 효과적으로 분리할 수 없다. 이제까지 언급된 방법들은 소스 신호들의 선형적 정적인 조합으로부터 귀결되는 신호들의 분리에 국한됨이 강조된다. 직접 경로 신호들 및 그들의 에코 대응부(echoinc counterpart)를 합침으로써 귀결되는 현상은 잔향(reverberation)으로 불리우고, 인공 스피치 개선 및 인식 시스템에서 주요한 이슈들을 부여한다. ICA 알고리즘들은 그들의 시간-지연되고 및 울림된 신호들을 분리할 수 있는 긴 필터들을 요구할 수 있으며, 그렇게 실시간 사용은 배제된다.

알려진 ICA 신호 분리 시스템들은, 필터 네트워크로 입력되는 혼합된 신호들의 다른 것들로부터 개별 신호를 분석하기 위하여, 신경 회로망으로 작동하는 필터들의 네트워크를 사용한다. 즉, ICA 네트워크는 피아노 음악과 사람의 발언을 포함하는 소리 신호를 수신하는데 사용되고, 2 포트 네트워크는 그 소리를 두 신호들로 분리한다: 한 신호는 주로 피아노 음악을 다른 신호는 주로 스피치를 가진다.

또 다른 선행 기법은 오디터리 신(auditory scene) 분석에 기초하여 소리를 분리하는 것이다. 이 분석에서, 활발한 이용은 소스들의 본성을 고려한 가정들로 구성된다. 소리는 작은 톤 및 버스트와 같은 작은 요소들로 분해 될 수 있다고 가정되고, 조화도 및 시간적인 연속성과 같은 속성에 따라 묶여질 수 있다고 가정된다. 오디터리 신 분석은 단일 마이크 또는 여러 마이크들부터의 정보를 이용하여 수행될 수 있다. 오디터리 신 분석 분야는 계산적 오디터리 신(computational auditory scene) 분석 또는 CASA로 이끄는 계산적 기계 학습 접근(computational machine learning approaches)의 이용가능성 덕분에 보다 많은 주목을 받아왔다. 인간 청각 프로세싱의 이해를 포함하는 것으로 인해 과학적으로 관심을 끌고 있음에도 불구, 그 모델 가정들 및 그 계산적인 기법들은 아직 실질적인 칵테일 파티 시나리오를 해결하는데 그 유아기에 머물러 있다.

소리를 분리하는 다른 기법들은 복잡하게 변화하는 원리에 기초하여 그 소스들, 디바이스들의 공간 분리를 활용함으로써 동작한다. 가장 단순한 디바이스들은 높은 감도가 높지만, 고정된 감도 패턴을 가지는 마이크들이다. 지향성 마이크는, 예를 들어, 특정한 방향에서 나오는 소리에 최대의 감도를 가지도록 디자인되고, 다라서 다른 것들에 비하여 하나의 음원을 증폭한다. 유사하게, 화자(話者)의 입 가까이에 설치되는 근접 마이크는 다른 원거리 소스들을 배척한다. 마이크-어레이 프로세싱 기법들이, 파악된 공간 분리를 이용함으로써, 소스들을 분리하기 위해 사용된다. 이러한 기법들은, 최소한 하나의 마이크는 원하는 신호만을 포함하고 있다는 가정들로 인해 경쟁하는 음원의 충분한 억제가 달성될 수 없기 때문에, 유용하지 않다. 그러한 가정은 음향 환경에서 유용하지 않다.

선형 마이크-어레이 프로세싱을 위한 널리 알려진 기법은 종종 "빔포밍(beamforming)"으로 불리운다. 이 방법에서, 마이크들 사이의 공간적 분리에 의한 신호들간의 시간 차이가 신호를 개선하기 위해 사용된다. 보다 구체적으로는, 다른 마이크들이 상대적으로 감쇄된 신호를 생성하는 데 비하여, 마이크들 중 하나는 스피치 소스 보다 직접적으로 "보고" 있을 것이다. 비록 유의미한 감쇄가 달성될 수 있지만, 빔포머는 그 어레이 보다 큰 주파수 성분의 상대적인 감쇄를 제공할 수 없다. 이러한 기법들은 음원을 향한 빔을 조정하고 따라서 다른 방향으로는 널(null)을 두기 위한 공간 필터링의 방법들이다. 빔포밍 기법들은 음원에 대한 가정을 하지 않지만, 신호에서 잔향을 배제하고 음원을 배치하기 위한 목적에서, 음원과 센서 사이의 배열 자체가 알려져 있다고 가정한다.

강건한 적응형 빔포밍에서 "일반화된 사이드로브 소거" (Generalized Sidelobe Canceling, GSC)로 불리우는 알려진 기법은 Hoshuyama, O., Sugiyama, A., Hirano, A., A Robust Adaptive Beamformer for microphone Arrays with a Blocking Matrix using Constrained Adaptive filters, IEEE Transactions on signal processing, vol 47, No 10, pp 2677-2684, October 1999에서 거론되었다. GSC는 The GSC principle/Griffiths, L.J., Jim, C.W., An alternative approach to linear constrained adaptive beamforming, IEEE Transaction Antennas and Propagation, vol 30, no 1, pp.27-34, Jan 1982에서 보다 상세히 설명된 것과 같이, 원하는 단일 소스 신호 z_i를 측정값 x의 세트로부터 걸러내는 것을 목표로 한다. 일반적으로, GSC는 신호-독립된 빔포머 c가 센서 신호들을 필터링하는 것으로 정하여, 이상적으로, 다른 방향은 억제되고 원하는 소스로부터의 직접 경로는 왜곡되지 않도록 한다. 대부분, 원하는 소스의 위치는 부가적인 배치방법 들에 의하여 미리 결정된다. 측면 경로, 적응형 블로킹 매트릭스 B는, B의 출력에서 노이즈 성분들 만이 나타나도록, 원하는 신호 z_i로부터 기원하는 모든 성분을 억제하는 것을 목표로 한다. 이로부터, 적응형 간섭 소거자 a는, 총 출력 파워 E(z_i*z_i)의 값을 최소화시킴으로써, c의 출력에서 잔존하는 노이즈 성분을 추출한다. 이와 같이 고정된 빔포머 c 및 간섭 소거자 a는 간섭 억제를 함께 수행한다. GSC가 원하는 화자가 한정된 추적 영역에 있을 것을 요하므로, 그 적용성은 공간적으로 경직된 시나리오들에 제한된다.

또 다른 알려진 테크닉은 소리 분리와 관계된 능동-소거 알고리즘들의 하나이다. 그러나, 이 기법은 "레퍼런스 신호(reference signal)" 즉, 소스들 중 하나만으로부터 추출된 신호를 요구한다. 능동 노이즈-소거 및 에코 소거 기법들은 이 기법의 확장하여 이용하고, 노이즈 축소는 노이즈만을 포함하는 알려진 신호를 필터링하고 이를 그 조합으로부터 차감함으로써, 그 조합에의 노이즈 기여에 관계되어 있다. 이 방법은 측정된 신호들 중의 하나가 하나의 소스만을 구성한다고 가정하며, 이는 많은 실제 환경에서 현실적이지 않다.

레퍼런스 신호를 요구하지 않는 능동 소거를 위한 기법들은 "블라인드(blind)"로 불리우고, 이 적용에 많은 관심을 받는다. 그들은 이제 그 기초가 되는, 원하지 않는 신호들이 마이크에 도달하는 음향 프로세스를 고려한, 가정들의 현실성의 정도에 따라서 분류된다. 블라인드 능동-소거 기법들의 한 유형은 "이득-기반"으로 불리우거나 또는 "즉시적인 조합"으로 알려져 있다: 그 것은 각 소스에 의하여 생성된 파형이 마이크에 의하여 동시에, 변하는 상대적인 이득을 가지고, 수신되는 것으로 간주한다. (이득에서의 차이를 생성하기 위해 방향성 마이크들이 가장 자주 사용된다.) 이렇게 이득-기반 시스템은, 시간 지연 또는 다른 필터링을 적용하지 않고 마이크 신호들에 상대적인 이득을 적용하고 차감함으로써, 마이크 신호들에서 원하지 않는 소스의 사본을 소거하려고 한다. 블라인드 능동 소거에 대한 다양한 이득-기반 방법들이 제안되어 왔다: Herault 및 Jutten (1986), Tong 등. (1991) 및 Molgedey 및 Schuster (1994)등을 참조하라. 이득-기반 또는 즉시적인 조합 가정은 마이크들이 간격을 두고 분리될 경우 위반된다. 이 방법의 단순한 확장은 다른 어떤 필터링없이 시간 지연 요소를 포함하는 것이고, 이는 무반향 조건에서 동작할 것이다. 그러나, 소스들로부터 마이크들로의 이 단순한 음향 전파 모델은 에코 및 잔향이 존재하는 경우 그 사용이 제한된다. 현재 알려진 대부분의 실질적인 능동-소거 기법들은 "컨벌루티브(convolutive)"하다: 각 소스로부터 각 마이크로의 음향 전파의 효과는 컨벌루티브 필터로 모델링된다. 이들 기술들은, 그들이 마이크간 분리, 에코 및 잔향을 명백하게 고려하므로, 이득-기반 및 지연-기반 기술들보다 보다 현실적이다. 그들은 이득 및 지연이 컨벌루티브 필터링의 특수한 예라는 점에서 또한 보다 일반적이다.

컨벌루티브 블라인드 소거 기법들은 Jutten et al. (1992), Van Compernolle 및 Van Gerven (1992), Platt 및 Faggin (1992), Bell 및 Sejnowski (1995), Torkkola (1996), Lee (1998) 및 by Parra et al. (2000)을 포함하는 많은 연구자들에 의하여 서술되었다. 마이크들의 어레이를 통한 다채널 관찰의 경우에 널리 사용되는 수학적인 모델, 멀티플 소스 모델은 다음과 같이 수식화된다.

x(t)는 관찰된 데이타, s(t)는 숨겨진 소스 신호, n(t)는 부가적인 센서 노이즈 신호이고, a(t)는 믹싱 필터이다. 파라미터 m은 소스들의 개수이고, L은 컨볼루션 차원이며 환경에 의존하고, t는 시간 인덱스를 나타낸다. 제1 합산은 환경에서의 소스들의 필터링에 기인하고, 제2 합산은 다른 소스들의 조합에 기인한다. ICA에 대한 대부분의 연구는, 그 안에서 제1 합산이 제거되고 그 작업이 믹싱 매트릭스를 인버팅하는 것으로 단순화되는, 즉시적인 조합 시나리오를 위한 알고리즘들에 집중되어 왔다.

a. 가벼운 변형은 잔향이 없다고 가정하는 때이다, 점 음원으로부터 기원하는 신호들은 진폭 및 지연을 제외하고는 동일한 것으로 보여질 수 있다. 앞서 설명된 방정식에 따른 문제는 멀티채널 블라인드 디컨벌루션 문제로 알려져 있다. 어댑티브 신호 프로세싱의 대표적인 연구는, 보다 높은 차원의 통계적인 정보가 센서 입력 신호들간의 상호 정보를 근사하기 위해 사용한 Yellin 및 Weinstein(1996)을 포함한다. 컨벌루티브 조합에 이르는 ICA 및 BSS 의 확장들은 Lambert (1996), Torkkola (1997), Lee et al. (1997) 및 Parra et al. (2000)의 연구를 포함한다.

멀티 채널 블라인드 디컨벌루션(deconvolution) 문제를 풀기 위한 ICA 및 BSS 기반 알고리즘들은 혼합된 소스들 분리를 해결할 그들의 잠재력 때문에 점점 인기를 끌게 되었다. 그러나, 실제 시나리오에의 적용가능성을 제한하는 그 알고리즘 안에서 만들어진 강력한 가정들이 있다. 가장 모순되는 가정들 중 하나는 최소한 소스들과 동수의 센서들이 각각 분리될 것을 요구하는 것이다. 수학적으로 이 가정들은 합당하다. 그러나, 실질적으로 말해서, 소스들의 수는 일반적으로 동적으로 변화하고 센서의 수는 고정될 것이 요구된다. 더불어, 많은 수의 센서를 보유하는 것은 많은 어플리케이션에서 현실적이지. 대부분의 알고리즘들에서, 적당한 정도의 추정 및 그에 따라 아주 다양한 소스 신호들의 분리를 보증하기 위해서 통계적인 소스 신호 모델이 적용된다. 소스 모델의 적응은 필터들의 적응에 수반하여 온라인으로 실행되어야 하기 때문에, 이 요구사항은 계산적으로 부담이 된다. 소스들 사이의 통계적인 독립성을 가정하는 것은 상당히 현실적이지만 그 상호 정보의 계산은 강도 높고 어렵다. 좋은 근사들이 실용적인 시스템을 위하여 요구된다. 게다가, 센서 노이즈는 일반적으로 고려되지 않았으며 이는 하이엔드 마이크들이 사용되는 경우에 합당한 가정이다. 그러나, 단순한 마이크들은 알고리즘들이 합리적인 성능을 얻기 위해 고려되어야 하는 센서 노이즈를 유발한다. 마지막으로, 대부분의 ICA 방정식들은 잠재적으로 그 소스 신호들을 본질적으로는, 비록 그들의 에코 및 반향이 있지만, 공간적으로 배치된 점 음원인 것으로 간주한다. 이 가정은, 많은 방향으로부터 음압 레벨에 필적하도록 발산하는 윈드 노이즈(wind noise)와 같은, 같이 널리 분산되거나 공간적으로 분포된 노이즈 소스에 대하여는 일반적으로 유효하지 않다. 이러한 유형의 노이즈 시나리오에 대해서는 ICA 접근에 의하여 획득 가능한 분리는 불충분하다.

배경 노이즈로부터 스피치 신호들을 실시간에 가깝게 분리할 수 있고, 상당한 컴퓨팅 파워를 요하지 않으면서도 여전히 상대적으로 정확한 결과를 도출하고 상이한 환경들에 유연하게 적응할 수 있는 단순화된 스피치 프로세싱 방법이 요구된다.

도 1은 본 발명에 따라서, 스피치 신호를 분리하는 프로세스의 블록 다이어그램이다.

도 2는 본 발명에 따라서, 스피치 신호를 분리하는 프로세스의 블록 다이어그램이다.

도 3은 본 발명에 따른 음성 감지 프로세스의 블록 다이어그램이다.

도 4는 본 발명에 따른 음성 감지 프로세스의 블록 다이어그램이다.

도 5는 본 발명에 따라서, 스피치 신호를 분리하는 프로세스의 블록 다이어그램이다.

도 6은 본 발명에 따라서, 스피치 신호를 분리하는 프로세스의 블록 다이어그램이다.

도 7은 본 발명에 따라서, 스피치 신호를 분리하는 프로세스의 블록 다이어그램이다.

도 8은 본 발명에 따른 무선 이어폰의 다이어그램이다.

도 9는 본 발명에 따른 분리 프로세스의 플로우 차트이다.

도 10은 본 발명에 따른 개선된 ICA 프로세싱 서브-모듈의 일 실시예의 블록 다이어그램이다.

도 11은 본 발명에 따른 개선된 ICA 스피치 분리 프로세스의 일 실시예의 블록 다이어그램이다.

도 12는 본 발명에 따라서, 신호 분리 프로세스의 리셋을 위한 프로세스의 블록 다이어그램이다.

도 13은 본 발명에 따라서, 입력 신호를 신호 분리 프로세스로 스케일링(스케일링 )하기 위한 프로세스의 블록 다이어그램이다.

도 14는 본 발명에 따라서, 윈드 노이즈를 관리하는 프로세스의 플로우 차트이다.

발명의 요약

본 발명은 소란스러운 음향 환경으로부터 추출된 스피치 신호의 품질을 개선하기 위한 강건한 방법을 제공한다. 한 측면에서, 신호 분리 프로세스는 음성 활동 감지기와 연관된다. 음성 활동 감지기는, 음성 활동의 현저히 강건하고 정확한 감지를 가능하게 하는 2-채널 감지기이다. 스피치가 감지되면, 음성 활동 감지기는 제어 신호를 생성한다. 제어 신호는 귀결되는 스피치 신호의 품질을 개선하기 위한 신호 분리 프로세스들 또는 포스트-프로세싱 연산(post processing operation)들을 활성화, 조절, 또는 제어하기 위해 이용된다. 다른 측면에서, 신호 분리 프로세스는 학습 스테이지 및 출력 스테이지를 구비한다. 학습 스테이지는 현재의 음향 조건에 적극적으로 순응하고, 계수들을 출력 스테이지로 보낸다. 출력 스테이지는 보다 느리게 적응하고, 스피치-컨텐트(speech content) 신호 및 노이즈 도미넌트(noise dominant) 신호를 생성한다. 학습 스테이지가 불안정하게 되는 경우, 출력 스테이지가 계속 고품질의 스피치 신호를 출력하도록 학습 스테이지만이 리셋된다.

또 다른 측면에서, 분리 프로세스는 별개의 마이크들에 의하여 생성된 두 개의 입력 신호들을 수신한다. 마이크들은 한 마이크가 스피치-도미넌트 신호를 다른 마이크가 노이즈-도미넌트 신호를 생성하도록 타겟 발언자와 소정의 관계를 가진다. 두 신호 모두는 신호 분리 프로세스로 수신되고, 신호 분리 프로세스로부터의 출력은 포스트-프로세싱 연산들의 집합에서 처리된다. 스케일링 모니터는 신호 분리 프로세스 또는 포스트 프로세싱 연산 중 하나 이상을 모니터링한다. 신호 분리 프로세스에서의 조절을 위해, 스케일링 모니터는 입력 신호들의 척도변환이나 증폭을 제어할 수 있다. 바람직하게는, 각 입력 신호는 독립적으로 스케일링 될 수 있다. 입력 신호들 중 하나 하나 또는 둘 모두의 스케일링으로써, 신호 분리 프로세스는, 보다 적은 포스트 프로세싱을 요하고 전체 스피치 신호 품질을 개선하면서, 보다 효율적으로 또는 적극적으로 운용될 수 있다.

또 다른 측면에서, 마이크들로부터의 신호들은 윈드 노이즈의 발생을 모니터 받는다. 윈드 노이즈가 한 마이크에서 감지되면, 그 마이크는 비활성화되거나 등한시되고, 시스템은 단일 채널 시스템으로 운용되도록 설정된다. 윈드 노이즈가 더 이상 존재하지 않는 경우, 마이크는 재활성화되고 시스템은 보통의 2채널 작동으로 복귀한다.

바람직한 실시예의 상세한 설명

도 1을 참조하면, 스피치 분리 프로세스(100)가 예시된다. 스피치 분리 프로세스(100)는 예상되는 화자(speaker, 話者)와 소정의 관계를 가지는 신호 입력(예로, 마이크들로부터의 사운드 신호, 102 및 104)세트를 가진다. 예를 들어, 신호 입력(102)은 화자(話者)의 입으로부터 가장 가까이 정렬된 마이크로부터 얻어질 수 있으며, 반면에 신호 입력(104)은 화자의 입으로부터 보다 먼 마이크로부터 얻어질 수 있다. 화자와의 관계를 미리 정의함으로써, 분리, 포스트 프로세싱, 및 음성 활동 감지 프로세스들이 보다 효율적으로 동작할 수 있다. 스피치 분리 프로세스(106)는 일반적으로 분리되어 있지만 상호 관계된 두 개의 프로세스들을 포함한다. 분리 프로세스(106)는, 예를 들어, 암묵 신호 분리(BSS) 또는 독립 성분 분석(ICA) 프로세스인 신호 분리 프로세스(108)를 포함한다. 작동 과정에서, 마이크들은 신호 분리 프로세스(108)로의 입력 신호쌍을 생성하고, 신호 분리 프로세스는 스피치 컨텐트(112) 및 노이즈 도미넌트(noise dominant) 신호(114)를 포함하는 신호를 생성한다. 포스트 프로세스 단계(110)는 이들 신호를 받아들이고 전송 서브시스템(123)에 의하여 전송(125)될 수 있는 출력 스피치 신호(121)를 생성하기 위해 노이즈를 축소시킨다.

안정성을 향상시키고 분리 효율을 증가시키며 전력 소모를 줄이기 위해서, 프로세스(100)은 선택된 신호 분리, 포스트 프로세싱 또는 전송 기능을 활성화하고 조절하고 제어하기 위해서 음성 활동 감지기(106)를 이용한다. 음성 활동 감지기는 현저히 강건하고 정확한 방법으로 음성 활동 감지기(VAD, voice activity detector)를 동작하게 하는 2 채널 감지기이다. VAD(106)는 두 입력 신호들(105)을 수신한다. 신호들 중 하나는 보다 강한 스피치 신호를 유치하기 위해 정되된다. 그러므로, VAD는 스피치가 존재하는 때를 판단하기 위한 단순하고 효율적인 수단을 가진다. 스피치를 감자하는 데 있어서, VAD(106)는 제어 신호(107)를 생성한다. 제어 신호는, 예를 들어, 스피치가 일어나고 있는 경우에 한하여 신호 분리 프로세스를 활성화하기 위해 사용될 수 있고, 그에 의하여 안정성이 증가하고 전력을 아낄 수 있다. 또 다른 예에서, 포스트 프로세스 단계(110)는 보다 정확하게 노이즈를 특성화하도록 제어될 수 있고, 그 특성화 프로세스는 스피치가 일어나지 않는 경우에 한할 수 있다. 보다 나은 노이즈의 특성화(characterization)로써, 노이즈 신호의 파편들은 스피치 신호로부터 보다 효율적으로 제거될 수 있다. 이하에서 더 설명될 바와 같이, 강건하고 정확한 VAD(106)는 보다 안정되고 효율적인 스피치 분리 프로세스를 제공한다.

도 2를 참조하면, 통신 프로세스(175)가 예시된다. 통신 프로세스(175)는 스피치 분리 프로세스(180)로 수신되는 제1 마이크 신호(178)를 생성하는 제1 마이크(177)를 가진다. 제2 마이크(175)는 스피치 분리 프로세스(180)로 또한 수신되는 제2 마이크 신호(182)를 생성한다. 한 구성에서, 음성 활동 감지기(185)는 제1 마이크 신호(178) 및 제2 마이크 신호(182)를 수신한다. 마이크 신호들이 필터링 될 수 있고 디지털화 될 수 있으며 또는 다르게 처리될 수 있음이 인식된다. 제1 마이크(177)는 마이크(179)보다 화자의 입에 더 가까이 위치한다. 이 미리 정의된 배열은 단순화된 스피치 신호 식별 및 개선된 음성 활동 감지를 가능하게 한다. 예를 들어, 2채널 음성 활동 감지기(185)는 도 3 또는 도 4를 참조하여 설명되는 프로세스와 유사한 프로세스를 작동시킨다. 일반적인 음성 활동 감지 회로 디자인은 잘 알려져 있으므로, 자세히 설명되지 않는다. 바람직하게는, 음성 활동 감지기(185)는 도 3 또는 도 4를 참조하여 설명되는 2채널 음성 활동 감지기이다. 이는 합리적인 신호대비잡음(SNR, signal to noise ratio)에 대해 VAD(185)가 현저히 강건하고 및 정확하다는 것을 의미하고, 따라서 통신 프로세스(175)의 핵심 제어 매커니즘으로 사용될 수 있다. 2채널 음성 활동 감지기(185)는 스피치를 감지하고, 제어신호(186)을 생성한다.

제어 신호(186)는 통신 프로세스(175)의 프로세스들을 활성화, 제어 및 조절하는 데 유용하게 사용될 수 있다. 예를 들어, 스피치 분리 프로세스(180)는 특정한 음향 특정한 음향 환경에 따라 적응되거나 학습될 수 있다. 스피치 분리 프로세스(180)는 특유한 마이크의 배치, 음향 환경, 특유한 사용자의 스피치에 적응될 수 있다. 스피치 분리 프로세스의 적응성을 향상시키기 위해, 학습 단계(188)가 음성 활동 제어 신호(186)에 대응하여 활성화 될 수 있다. 이런 방법으로, 스피치 분리 프로세스는 그 적응형 학습 프로세스들을 원하는 스피치가 일어날 법한 경우에만 적용할 수 있다. 또한, 노이즈만이 존재하거나 결여된 경우에 학습 프로세스를 비활성화함으로써 프로세싱 파워 및 배터리 파워가 보존될 수 있다.

설명의 편의를 위해, 스피치 분리 프로세스는 독립 성분 분석(ICA) 프로세스로서 묘사될 것이다. 일반적으로 ICA 원하는 화자가 말하지 않고 있지 않은 시간 구간에서는 그 주 분리 기능을 수행할 수 없고, 따라서 턴-오프(turn-off)된다. 이 "온(on)" 및 "오프(off)" 상태는, 입력 채널들 사이의 에너지 컨텐트 비교함 또는 특정 스펙트럼 시그너처(signature)와 같은 선행 지식과 원하는 화자를 비교함에 기초하는, 음성 활동 감지 모듈(185)에 의하여 감시되고 제어될 수 있다. 원하는 스피치가 존재하지 않는 경우에 ICA를 끔으로써 ICA 필터들은 부적절하게 적응되지 않고, 따라서 분리 성능 향상을 얻을 수 있을 경우에만 적응을 가능하게 할 수 있다. ICA 필터들의 적응을 제어하는 것은, ICA 프로세스가 원하는 화자의 긴 침묵 뒤라고 하여도 좋은 분리 품질을 획득하고 유지할 수 있도록 하고, ICA 스테이지가 해결할 수 없는 경청 상황에 대한 무익한 분리 시도로 인한 알고리즘 특이점을 회피하도록 한다. 다양한 ICA 알고리즘들 등방성 노이즈에 대하여 다른 정도의 강건함과 안정성을 보이지만 원화는 화자의 부재중 또는 노이즈의 부재중에 ICA 스테이지를 끄는 것은 그 방법론에 현저한 강건함으로 부여한다. 또한, 노이즈만 있는 경우에 ICA 프로세싱을 비활성화 함으로써, 프로세싱 파워 및 배터리 파워가 보존될 수 있다.

인피니티브 임펄스 반응 필터(infinitive impulse response filter, IIR filter)들이 ICA 구현의 일 예에 사용되었으므로, 결합된/ 학습 프로세스의 안정성은 이론상 언제나 보장될 수는 없다. IIR 필터 시스템의 매우 바람직한 효율은 동등한 성능을 가진 FIR 필터(finite impulse response filter)에 비교되면, 대등한 ICA FIR 필터들은 훨씬 길고 현저히 높은 MIPS 뿐만 아니라 현재 IIR 필터 구조에서 화이트닝 형 현상이 없을 것을 요구하지만, 여전히 매력적이고, 필터 히스토리의 초기 조건뿐만 아니라 ICA 필터들의 초기 조건의 리셋을 유발하면서, 폐 루프 시스템의 폴 위치와 관계된 안정성 확인의 세트가 포함된다. IIR 필터링 자체는 과거 필터 오차(수치적 불안정)의 누적으로 인해 바운드되지 않은 출력으로 귀결될 수 있으므로, 불안정을 점검하기 위해 유한 정확도 코딩(finite precision coding)에서 이용되는 기법들이 사용될 수 있다. ICA 필터링 스테이지로의 입력 및 출력 에너지에 대한 명확한 평가는 예외들을 감지하고, 필터들 및 필터링 히스토리를 감독 모듈에 의하여 제공되는 값으로 리셋하는 데 이용될 수 있다.

또 다른 예에서, 음성 활동 감지기 제어 신호(186)는 볼륨 조절(189)을 설정하기 위해 사용된다. 예를 들어, 스피치 신호(181)의 볼륨은 아무런 음성 활동이 감지 도지 않을 경우 충분히 축소될 수 있다. 활동이 감지되는 때에, 볼륨은 스피치 신호(181)에서 증가될 수 있다. 이 볼륨 조절은 또한 어떤 포스트 프로세싱 스테이지의 출력에 대해서도 이루어질 수 있다. 이는 보다 좋은 통신 신호를 제공할 뿐만 아니라 제한된 배터리 파워를 절약할 수 있도록 한다. 유사한 방법으로, 노이즈 평가 프로세스(190)는 음성 활동이 감지되지 않을 때 노이즈 축소 프로세스들이 언제 보다 적극적으로 작동할 것인지를 결정하도록 사용될 수 있다. 노이즈 평가 프로세스(190)는 이제 신호가 노이즈 뿐인 경우를 알고 있으므로, 보다 정확하게 노이즈 신호를 특성화 할 수 있다. 이러한 방법으로, 노이즈 프로세스들은 실제 노이즈 특성에 보다 좋게 조절될 수 있고 스피치가 없는 기간에서 보다 적극적으로 적용될 수 있다. 그러므로, 음성 활동이 감지될 때, 노이즈 축소 프로세스들은 스피치 신호의 손실 효과가 작도록 조절될 수 있다. 예를 들어, 몇 노이즈 축소 프로세스들은, 비록 그들이 노이즈를 감소시키는데 높은 효과가 있음에도, 스피치 신호에 바람직하지 않은 결과를 생성하는 것으로 알려져 있다. 이러한 노이즈 프로세스들은 스피치 신호가 없는 경우에 작동될 수 있으며, 스피치가 존재할법한 경우에는 사용되지 않거나 조절될 수 있다.

또 다른 예에서, 제어 신호(186)는 노이즈 축소 프로세스(192)를 조절하기 위해 사용될 수 있다. 예를 들어, 노이즈 축소 프로세스(192)는 스펙트럼 차감 프로세스일 수 있다. 보다 구체적으로는, 신호 분리 프로세스(180)는 노이즈 신호(196) 및 스피치 신호(181)를 생성한다. 스피치 신호(181)는 여전히 노이즈 성분을 가질 수 있고, 노이즈 신호(196)는 노이즈를 정확하게 묘사하므로, 스펙트럼 차감 프로세스(192)는 스피치 신호로부터 노이즈를 제거하기 위하여 이용될 수 있다. 그러나, 그러한 스펙트럼 차감은 또한 잔존하는 스피치 신호의 에너지 레벨을 낮추도록 동작할 수 있다. 따라서, 따라서, 제어 신호가 스피치가 존재한다고 표시하는 경우, 노이즈 축소 프로세스는 잔존하는 스피치 신호에 상대적으로 작은 증폭을 적용함으로써 스펙트럼 차감을 보상하도록 제어될 수 있다. 이 작은 레벨의 증폭은 보다 자연스럽고 조화로운 스피치 신호로 귀결된다. 또한, 노이즈 축소 프로세스(190)는 스펙트럼 차감이 얼마나 적극적으로 수행되었는지를 알 수 있으며, 따라서 증폭 레벨은 조절될 수 있다.

제어 신호(186)는 또한 자동 이득 제어(automatic gain control) 기능(194)을 제어하기 위해 사용될 수 있다. 자동 이득 제어는 스피치 신호(181)의 출력에 적용되고, 및 스피치 신호를 유용한 에너지 레벨로 유지하도록 사용될 수 있다. AGC는 스피치가 언제 존재하는 지를 알고 있으므로, AGC는 보다 정확하게 이득 제어를 스피치 신호에 적용할 수 있다. 출력 스피치 신호를 보다 정확하게 제어하고 정규화함으로써, 포스트 프로세싱 기능은 보다 쉽고 효과적으로 적용될 수 있다. 또한, 포스트 프로세싱 및 전송에서의 포화 리스크가 감소한다. 제어 신호(186)는 포스트 프로세싱(195) 기능을 포함하는 통신 시스템의 프로세스들을 제어하거나 조절하는데 사용될 수 있음이 이해될 것 이다.

예시적인 실시예에서, 자동 이득 제어는 완전히 적응형이거나, 고정된 이득 값을 가질 수 있다. 바람직하게는, 자동 이득 제어는 약 -30dB에서 30dB 범위에서 완전한 적응형 작동 모드를 지원할 수 있다. 기본 이득은 독립적으로 설정될 수 있고, 전형적으로 0dB일 수 있다. 적응형 이득 제어가 사용되면, 초기 이득 값은 이 기본 이득에 의하여 지정된다. 자동 이득 제어는 입력 신호(181)의 파워 레벨에 따라서 이득 팩터(gain factor)를 조절한다. 낮은 에너지 레벨을 가지는 입력 신호(181)는 편안한 소리 레벨로 증폭되고, 고 에너지 신호는 감쇄된다.

배율기는 입력 신호에 이득 팩터를 적용하여 출력을 생성할 수 있다. 처음에 기본 이득이, 일반적으로 0 dB, 입력 신호에 적용된다. 파워 평가자는 이득 적용된 신호의 단기 평균 파워를 계산한다. 입력 신호의 단기 평균 파워는 바람직하게는 매 8개의 샘플마다, 일반적으로 8 kHz 신호에 대하여 매 밀리 세컨드, 계산된다. 클리핑 로직은 소정의 클리핑 임계 값보다 큰 크기를 가지는 이득 적용 신호들을 식별하기 위해 단기 평균 파워를 분석한다. 클리핑 로직은 자동 이득 제어 우회 스위치를 제어하고, 그 것은 이득 적용 신호의 크기가 소정의 클리핑 임계 값보다 큰 경우에 입력 신호를 미디어 큐에 직접 연결한다. 자동 이득 제어 우회 스위치는, 이득 적용 신호의 크기가 소정의 클리핑 임계 값 이하로 떨어질 때까지 업 또는 우회 위치에 있다.

설명된 실시예에서, 자동 이득 제어는, 비록 오버 플로우나 클리핑이 감지되는 경우에는 상당히 빠르게 적응되겠지만, 느리게 적응되도록 설계된다. 자동 이득 제어 적응은, VAD가 음성이 비활성이라고 판단한 경우에, 배경 노이즈를 소거하기 위해서, 유지되거나 감쇄되어야 한다.

또 다른 예에서, 제어 신호(186)는 전송 서브시스템(191)을 활성화하고 비활성화 하기 위해 사용될 수 있다. 특히, 전송 서브시스템(191)이 무선 통신인 경우에, 무선 통신은 음성 활동이 감지되는 경우에만 활성화 또는 완전히 동작할 수 있다.이러한 방법으로, 전송 전력은 음성 활동이 감지되지 않는 동안 감소될 수 있다. 통신 시스템이 배터리에 의하여 구동되는 경우, 전송 전력을 절감하는 것은 헤드셋 시스템에 증가된 이용성을 부여한다. 일 예로, 전송 시스템(191)로부터 전송된 신호는 제어 모듈의 상응하는 블루투스 수신기에 의하여 수신될 블루투스 신호(193)일 수 있다.

무선 통신 헤드셋의 신호 분리 프로세스는 강건하고 정확한 음성 활동 감지기의 도움을 받을 수 있다. 현저히 강건하고 정확한 음성 활동 감지(VAD) 프로세스가 도 3에 예시된다. VAD 프로세스(200)는 블록(206)에서 보여진 바와 같이, 무선 헤드셋 마이크들 중 첫 번째 것이 제2 마이크보다 화자의 입에 가깝게 위치되어, 두 마이크를 가진다. 각 마이크는, 블록(207)에서와 같이, 개별적인 마이크 신호를 생성한다. 음성 활동 감지기는 블록(208)에서와 같이 마이크 신호들 각각에서의 에너지 레벨을 감시하고 측정된 에너지 레벨을 비교한다. 단순한 구현으로, 마이크 신호들은 신호들 사이에서의 에너지 레벨의 차이가 소정의 임계 값을 넘을 때를 위하여 감시된다. 이 임계 값은 정적일 수도, 음향 환경에 따라서 적응될 수 있다. 에너지 레벨의 크기를 비교함으로써, 음성 활동 감지기는 에너지 스파이크가 사용자 발언에 의하여 유발된 것인지를 정확하게 판단할 수 있다. 일반적으로, 비교 결과는 양자로 귀결된다:

(1) 블록(209)에서 보여진 바와 같이, 제2 마이크 신호보다 높은 에너지 레벨을 가진 제1 마이크 신호. 신호들의 에너지 레벨 차이는 소정의 임계 값을 넘는다. 제1 마이크가 화자에 보다 가까우므로, 블록(212)에서 보여진 바와 같이, 에너지 레벨의 이러한 관계는 타겟 사용자가 발언하고 있음을 표시한다; 제어 신호는 원하는 스피치 신호가 존재함을 표시하기 위해 사용될 수 있다.

(2) 블록(210)에서 보여진 바와 같이, 제1 마이크 신호보다 높은 에너지 레벨을 가지는 제2 마이크 신호. 신호들의 에너지 레벨 차이는 소정의 임계 값을 넘는다. 제1 마이크가 화자에 보다 가까우므로, 블록(212)에서 보여진 바와 같이, 에너지 레벨의 이러한 관계는 타겟 사용자가 발언하고 있지 않음을 표시한다; 제어 신호는 신호가 노이즈 뿐임을 표시하기 위해 사용될 수 있다.

하나의 마이크가 사용자의 입과 가깝기 때문에, 그 스피치 컨텐트는 그 마이크에서 보다 소리가 클 수 있고, 사용자의 스피치 활동은 두 개의 기록된 마이크 채널들 사이의 큰 에너지를 수반함으로써 추적될 수 있다. 또한 BSS/ ICA 스테이지가 다른 채널로부터 사용자의 스피치를 제거하므로, 채널들 사이의 에너지 차이는 BSS/ICA 출력 레벨보다도 커질 수 있다. BSS/ICA 프로세스로부터의 출력 신호들을 이용하는 VAD가 도 4에 도시된다. VAD 프로세스(250)는 두 개의 마이크들을 가지고, 블록(251)에서와 같이, 무선 헤드셋에 위치한 마이크들 중 첫 번째 것은 제2 마이크보다 화자의 입에 가깝도록 위치한다. 각 마이크는 개별적인 마이크 신호를 생성하고, 이는 신호 분리 프로세스에서 수신된다. 신호 분리 프로세스는, 블록(252)에서 보여지는 바와 같이, 노이즈-도미넌트 신호뿐만 아니라 스피치 컨텐트를 가지는 신호 역시 생성한다. 음성 활동 감지기는, 블록(252)에서 보여지는 바와 같이, 신호들의 각각에서의 에너지 레벨을 감시하고 그 측정된 에너지 레벨을 비교한다. 단순한 구현에서, 신호들은 신호들 사이의 에너지 레벨 차이가 소정의 임계 값을 넘어서는 경우에 대해 모니터된다. 이 임계 값은 정적일 수도 있으나 음향 환경에 따라 변경될 수 도 있다. 에너지 레벨들의 크기를 비교함으로써, 음성 활동 감지기는 정확하게 타겟 사용자의 발언에 의하여 에너지 스파이크가 유발되었는지 여부를 판단할 수 있다. 일반적으로, 비교 결과는 양자 중 하나로 귀결된다:

(1) 블록(254)에서 보여지는 바와 같이, 노이즈-도미넌트 신호보다 높은 에너지 레벨을 가지는 스피치-컨텐트 신호. 신호들의 에너지 레벨들 사이의 차이는 소정의 임계 값을 넘는다. 스피치-컨텐트 신호는 스피치 컨텐트를 가지는 것으로 미리 정의되었으므로, 이 에너지 레벨의 관계는, 블록(257)에서와 같이, 타겟 사용자가 발언하고 있음을 표시한다; 제어 신호는 원하는 스피치 신호가 존재함을 나타내도록 사용될 수 있다; 또는

(2) 블록(255)에서 보여지는 바와 같이, 스피치-컨텐트 신호보다 높은 에너지 레벨을 가지는 노이즈-도미넌트 신호. 신호들의 에너지 레벨들 사이의 차이는 소정의 임계 값을 넘는다. 스피치-컨텐트 신호는 스피치 컨텐트를 가지는 것으로 미리 정의되었으므로, 이 에너지 레벨의 관계는, 블록(258)에서와 같이, 타겟 사용자가 발언하고 있지 않음을 표시한다; 제어 신호는 신호가 노이즈 뿐임을 표시하기 위해 사용될 수 있다.

2채널 VAD의 또 다른 예로, 도 3 및 도 4를 참조하여 설명된 프로세스들이 둘 다 사용될 수 있다. 이 배열에서, VAD는 마이크 신호들(도 3)를 이용하여 비교를 할 수 있고, 신호 분리 프로세스(도 4)로부터의 출력을 이용하여 또 다른 비교를 수행할 수 있다. 마이크 녹음 레벨에서의 채널들의 에너지 차이와 ICA 스테이지 출력의 조합은 현재의 처리되는 프레임이 원하는 스피치를 포함하는 지 아닌지에 대한 강건한 판단을 제공하도록 이용될 수 있다.

2채널 음성 감지 프로세스는 알려진 단일 채널 감지기들에 비해 현저한 장점이 있다. 예를 들어, 확성기를 통한 음성은 단일 채널 감지기로 하여금 스피치가 존재하는 것으로 판단하게 할 수 있으나, 2채널 프로세스는 확성기가 타겟 화자로부터 멀리 떨어져 있음을 알 수 있고 따라서 채널들 사이의 에너지 차이에서 큰 상승을 보이지 않으므로 그 것이 노이즈라고 표시할 것이다. 에너지 측정 하나에 기초하는 신호 채널 VAD는 신뢰할 수 없으므로, 그 유용성은 크게 제한될 것이고 영교차율 또는 원하는 화자의 스피치 시간 및 주파수 모델과 같은 추가적인 기준에의 하여 보충될 필요가 있다. 그러나, 2채널 프로세스의 강건함 및 정확도는 VAD로 하여금 무선 헤드셋의 작동을 감독, 제어 및 조절하는 중심역할 담당하도록 할 수 있다.

VAD가 활성(active) 스피치를 포함하지 않는 디지털 음성 샘플을 감지하는 매커니즘은 다양한 방법으로 구현될 수 있다. 그러한 매커니즘 하나는 짧은 구간(일반적으로 약 10에서 30밀리 세컨드)의 디지털 음성 샘플에 대한 에너지 레벨을 감시하는 것을 수반한다. 채널들의 에너지 레벨 차이가 고정된 임계 값을 넘는 경우, 그 디지털 음성 샘플은 활성인 것으로 선언될 수 있으며, 그렇지 않으면 그들은 인액티브한 것으로 선언될 수 있다. VAD의 임계 값 레벨은 적응형일 수 있고 배경 노이즈 에너지는 추적될 수 있다. 이 역시 여러 방법으로 구현될 수 있다. 한 실시예에서, 현재 구간의 어네지가, 컴포트 노이즈(comfort noise) 추정자에 의해 평가된 배경 노이즈와 같은, 특정한 임계 값보다 출분히 큰 경우에는 디지털 음성 샘플들은 활성인 것으로 선언될 수 있으며, 그렇지 않으면 비활성인 것으로 선언된다.

적응형 임계 값 레벨을 이용하는 단일 채널 VAD에서, 영교차율(zero 크로스ing rate), 스펙트럼 틸트, 에너지 및 스펙트럼 다이나믹스와 같은 스피치 파라미터 가 측정되고 노이즈에 대한 값들과 비교된다. 음성에 대한 파라미터들이 노이즈의 파라미터와 현저히 차이를 보이는 경우, 그 것은 비록 디지털 음성 샘플의 에너지 레벨이 낮다 하더라도, 액티브 스피치를 표시하는 것이다. 본 실시예에서, 비교는 다른 널들 사이에서, 구체적으로는 음성 중심 채널(예로, 음성 + 노이즈 또는 다른 것)이 다른 채널에 대하여, 이루어 진다. 이 다른 채널은 분리된 노이즈 채널, 노이즈 중심 채널 (예로, 노이즈 + 음성) 또는 노이즈에 대하여 저장되거나 평가된 값일 수 있다.

디지털 음성 샘플의 에너지를 측정하는 것은 비활성 스피치를 감지하는 데 충분할 수 있다. 고정된 임계 값에 대한 디지털 음성 샘플의 스펙트럼 다이나믹스는 오디오 스텍트럼을 가지는 장기 음성 세그먼트와 장기 배경 노이즈를 구분하는 데유용할 수 있다. 스펙트럼 분석을 채용하는 VAD의 예시적인 구현에서, VAD는 디지털 음성 샘플의 구간에 기초하여, 배경 노이즈에 대한 장기 평가를 단기 평가와 비교하기 위해, Itakura 또는 Itakura-Saito 왜곡(distortion)을 이용하여 자동 대비를 수행한다. 추가적으로, 음성 인코더의 지원을 받는 경우, 배경 노이즈에 기반한 장기 LSP 평가와 디지털 음성 샘플의 구간에 기초한 단기 평가를 비교하기 위해 선 스펙트럼 쌍(LSPs)이 이용될 수 있다. 대안적으로, 스펙트럼이 또 다른 소프트웨어 모듈로부터 이용 가능한 경우에는 FFT 방법들이 사용될 수 있다.

바람직하게는, 활성 스피치를 가지는 디지털 음성 샘플의 활성 구간의 끝에 행오버(hangover)가 적용되어야 한다. 행오버는 조용한 끌림(tailing), 발음 되지 않은 소리 (/s/와 같은) 또는 낮은 신호대비잡음 변환 컨텐트가 활성으로 분류되도록, 짧은 비활성 세그먼트를 브릿지(bridge)한다. 행오버의 정도는 VAD의 작동 모드에 따라서 조절될 수 있다. 긴 활성 구간에 뒤이은 구간이 명확하게 비활성인 경우 (즉, 측정된 배경 노이즈와 비슷한 스펙트럼으로 매우 낮은 에너지) 행오버의 길이는 축소될 수 있다. 일반적으로, 활성 스피치 종료에 뒤이은 약 20에서 500 밀리 세컨드의 비활성 스피치는 행오버 때문에 활성 스피치로 선언될 것이다. 임계 값은, 약 -60 dBm 에서 -50 dBm사이의 기본값을 가지고, 약 -100 및 -30 dBm 사이에서 조절 가능할 수 있다. 임계 값은 음성 품질, 시스템 효율 및 대역폭 요구사항 또는 청각의 임계 값 레벨에 의존한다. 대안적으로, 임계 값은 적응형일 수 있으며, 어떤 고정된 값 또는 노이즈(예로, 다른 채널)의 값과 같거나 그 이상에 변하는 값일 수 있다.

예시적인 구현에서, VAD는 시스템에 음성 품질, 시스템 효율 및 대역폭 요구조건을 사이에서의 절충을 제공하도록 다양한 모드로 동작하게끔 구성될 수 있다. 한 모드에서 VAD는 언제나 비활성화 되고 모든 디지털 음성 샘플을 활성 스피치로 선언할 수 있다. 그러나, 전형적인 전화 통화는 60 퍼센트 만큼의 침묵 또는 비활성 컨텐트를 가진다. 따라서, 디지털 음성 샘플이 이러한 구간 동안 활성 VAD에 의하여 억제된다면, 고 대역폭 이득이 실현될 수 있다. 더구나, 에너지 절감, 감소된 프로세싱 요구사항, 개선된 음성 품질 또는 향상된 사용자 인터페이스와 같은 다수의 시스템 효율성이 VAD, 특히 적응형 VAD에 의하여 실현될 수 있다. 활성 VAD는 활성 스피치를 포함하는 디지털 음성 샘플을 감지하고 자 할 뿐 아니라, 고 품질 VAD는 또한, 노이즈 및 스피치 샘플 사이의 값 범위, 노이즈 또는 음성의 에너지를 포함하는 디지털 음성(노이즈) 샘플들(분리 또는 미분리)의 파라미터들을 감지하고 활용할 수 잇다. 이렇게, 활성 VAD, 특히 적응형 VAD는, 분리 및/또는 포스트-(프리-)프로세싱 단계들을 조절하는 것을 포함하여, 시스템 효율성을 높이는 추가적인 특징들을 가능하게 한다. 예를 들어, 디지털 음성 샘플을 활성 스피치로 식별하는 VAD는 분리 프로세스 또는 어떠한 프리-/포스트-프로세싱 단계를 켜고 끌 수 있으며, 또는 대안적으로는, 다르거나 조합된 분리 및/또는 프로세싱 기법들의 적용을 가능하게 한다. VAD가 활성 스피치를 식별하지 않는 경우, VAD는 또한, 배경 노이즈의 감쇄 또는 소거, 노이즈 파라미터들의 평가 또는 신호들 및/또는 하드웨어 파라미터들의 변조를 포함하는 다른 프로세스들을 조정할 수 있다.

도 5를 참조하면, 프로세스(325)는 작동하는 통신 헤드셋을 예시한다. 프로세스(325)는 제1 마이크 신호를 생성하는 제1 마이크(327) 및 제2 마이크 신호를 생성하는 제2 마이크(329)를 가진다. 비록 방법(325)이 두 개의 마이크와 함께 예시되지만, 2개 이상의 마이크들 및 마이크 신호들이 이용될 수 있음이 이해될 것이다. 마이크 신호들은 스피치 분리 프로세스(330)으로 수신된다. 스피치 분리 프로세스(330)는 예를 들어, 블라인드 신호 분리 프로세스일 수 있다. 보다 구체적인 예로서, 스피치 분리 프로세스(330)는 독립 성분 분석 프로세스일 수 있다. 미국 특허 출원 제10/897,219호 "Separation of Target Acoustic signals in a Multi-Transducer Arrangement"는 스피치 신호를 생성하기 위한 구체적인 프로세스들을 보다 자세히 설명하고 있으며, 이 문서에서 그 전체로서 포함되었다 할 것이다. 스피치 분리 프로세스(330) 깨끗한 스피치 신호(331)을 생성한다. 깨끗한 스피치 신호(331)는 전송 서브시스템(332)으로 수신된다. 전송 서브시스템(332)는 예를 들어, 블루투스 통신, IEEE 802.11 통신 또는 유선 연결일 수 있다. 나아가, 전송은 지역 통신 모듈로, 또는 광역 인프라를 위한 통신으로 수행될 수 있음이 이해된다. 이러한 방법으로, 전송된 신호(335)는 깨끗한 스피치 신호를 표시하는 정보를 가진다.

도 6을 참조하면, 통신 헤드셋을 작동시키는 프로세스(350)가 예시된다. 통신 프로세스(350)는 스피치 분리 프로세스(354)로 제1 마이크 신호를 제공하는 제1 마이크(351)를 가진다. 제2 마이크(352)는 스피치 분리 프로세스(354)로 제2 마이크 신호를 제공한다. 스피치 분리 프로세스(354)는 깨끗한 스피치 신호(355)를 생성하고, 그 신호는 전송 서브시스템(358)으로 수신된다. 전송 서브시스템(358)은, 예를 들어 블루투스 통신, IEEE 802.11 통신, 다른 무선 표준 또는 유선 연결일 수 있다. 전송 서브시스템은 전송 신호(362)를 제어 모듈 또는 다른 원격 통신으로 전송한다. 깨끗한 스피치 신호(355)는 또한 사이트-톤 프로세싱 모듈(356)로 수신된다. 사이트-톤 프로세싱 모듈(356)은 로컬 스피커(360)로 감쇄된 스피치 신호를 제공한다. 이러한 방법으로, 헤드셋의 이어피스는 사용자에게 보다 자연스러운 오디오 피드백을 제공한다. 사이트-톤 프로세싱 모듈(356)은 로컬 음향 조건에 반응하여, 스피커(360)로 보내지는 사이드 톤 신호의 볼륨을 조절할 수 있음이 이해된다. 예를 들어, 스피치 분리 프로세스(354)는 또한 노이즈 볼륨을 표시하는 신호를 출력한다. 소란스러운 환경에서, 사이트-톤 프로세싱 모듈(356)은 사용자에 대한 피드백으로서, 보다 높은 레벨의 깨끗한 스피치 신호를 출력하도록 조절될 수 있다. 다른 요소들이 사이드 톤 프로세싱 신호에 대한 감쇄 레벨을 설정하는 데 사용될 수 있음이 이해될 수 있다.

도 7을 참조하면, 통신 프로세스(400)가 예시된다. 통신 프로세스(400)는 제1 마이크 신호를 스피치 분리 프로세스(405)로 제공하는 제1 마이크(401)를 가진다. 제2 마이크(402)는 스피치 분리 프로세스(405)로 제2 마이크 신호를 제공한다. 스피치 분리 프로세스(405)는 상대적으로 깨끗한 스피치 신호(406)뿐만이 아니라 음향 노이즈(407)를 표시하는 신호도 생성한다. 2채널 음성 활동 감지기(410)는 스피치가 존재하는 지를 판단하는 스피치 분리 프로세스로부터 신호 쌍을 수신하고, 스피치가 존재하는 것으로 판단되는 경우에 제어 신호(411)을 생성한다. 음성 활동 감지기(410)는 도 3 또는 도 4를 참조하여 설명된 VAD 프로세스를 작동시킨다. 제어 신호(411)는 노이즈 평가 프로세스(413)를 황성화 시키고 조정하는 데 사용될 수 있다. 노이즈 평가 프로세스 (413)가 신호(407) 스피치를 포함하지 않을 것으로 알고 있는 경우, 노이즈 평가 프로세스(413)는 보다 정확하게 노이즈를 특성화한다. 이 음향 노이즈의 특징들에 대한 지식은, 보다 완전하고 정확하게 노이즈를 축소하기 위해 노이즈 축소 프로세스(415)에 사용된다. 스피치 분리 프로세스로부터 도출된 스피치 신호(406)는 노이즈 성분을 가질 수 있다. 추가적인 노이즈 축소 프로세스(415)는 스피치 신호의 품질을 더 향상시킬 수 있다. 이러한 방법으로, 전송 프로세스(418)에 의하여 수신된 신호는 낮은 노이즈 성분을 가지는 보다 좋은 품질을 가진다. 제어 신호(411)는, 노이즈 축소 프로세스, 전송 프로세스, 스피치 분리 프로세스의 활성화와 같은, 통신 프로세스(400)의 다른 측면을 제어하기 위해 이용될 수 있음이 이해된다. 노이즈 샘플(분리되거나 분리되지 않은)의 에너지는 출력 개선 음성의 에너지 또는 파 엔드 사용자의 스피치의 에너지를 조절하는데 사용될 수 있다. 더불어, VAD는 발명 프로세스의 이전, 도중, 이후에 신호들의 파라미터들을 조절할 수 있다.

일반적으로, 설명된 분리 프로세스는 최소 2개의 이격된 마이크들을 이용한다. 경우에 따라서, 마이크들이 화자의 음성에 상대적으로 똑바른 경로를 가지는 것이 바람직하다. 그러한 경로에서, 화자의 음성은 어떠한 물리적인 장애도 없이 각 마이크로 곧바로 나아간다. 다른 경우에는, 마이크들은 하나는 상대적으로 똑바른 경로에, 다른 하나는 화자로부터 떨어져서 배치될 수 있다. 구체적인 마이크 배치는 의도된 음향 환경, 물리적 제한 및 이용 가능한 프로세싱 파워에 따라서, 수행됨이 언급된다. 예를 들어, 분리 프로세스는 보다 강건한 분리를 요구하거나 배치 제한이 보다 많은 마이크들이 유용하도록 하는 어플리케이션에 대해 두 개 이상의 마이크를 가질 수 있다. 예를 들어, 어떤 어플리케이션에서 화자가 하나 이상의 마이크들로부터 가려지는 위치에 있는 경우가 가능하다. 이 경우, 최소 두 개의 마이크들이 화자의 음성에 똑바른 경로를 가지도록 추가적인 마이크들이 사용될 수 있다. 각 마이크는 스피치 소스 뿐 아니라 노이즈 소스들로부터도 음향 에너지를 수신하고, 스피치 성분 및 노이즈 성분 모두를 가지는 복합 마이크 신호를 생성한다. 각 마이크들이 다른 마이크로부터 이격되어 있으므로, 각 마이크는 서로 다른 복합 신호를 생성할 것이다. 예를 들어, 노이즈 및 스피치의 상대적인 컨텐트는 변화할 수 있으며, 각 음원의 타이밍과 지연 역시 그러하다.

각 마이크에서 생성된 복합 신호는 분리 프로세스에 의하여 수신된다. 분리 프로세스 수신된 복합 신호들을 처리하고 스피치 신호 및 노이즈를 표시하는 신호를 생성한다. 일 예로, 분리 프로세스는 그 두신호를 생성함에 있어서 독립 성분 분석(ICA) 프로세스를 이용할 수 있다. ICA 프로세스는 크로스 필터들, 바람직하게는 비선형 유계 함수의 인피니티브 임펄스 응답 필터들을 이용하여 수신된 복합 신호들을 필터링한다. 비선형 유계 함수들은 빠르게 계산될 수 있는 소정의 최대값 및 최소값을 가지는 비선형적인 함수들이다. 예를 들어, 부호 함수는 출력으로서, 입력에 기초하여 양수 값 또는 음수 값 중 하나를 리턴(return)한다. 반복되는 신호의 피드백을 따라서, 출력 신호의 2채널이 생성된다. 한 채널은 노이즈가 우세하여 대체적으로 노이즈 성분으로 구성되고, 다른 채널은 노이즈 및 스피치의 조합을 포함한다. 이 설명에 따라, 다른 ICA 필터 함수들 및 프로세스들이 사용될 수 있음이 이해된다. 대안적으로, 본 발명은 다른 소스 분리 기법들을 채용하는 것이 예상된다. 예를 들어, 분리 프로세스는 블라인드 신호 소스(BSS) 프로세스, 대체적으로 유사한 신호 분리를 수행하기 위해 음향 환경에 대한 앞선 지식을 일정 수준 이용하는 적응형 필터 프로세스를 이용할 수 있다.

도 8을 참조하면, 무선 헤드셋 시스템(450)이 예시된다. 무선 헤드셋 시스템(450)은 통합된 붐 마이크를 가지는 이어피스로 구성된다. 도 8에서, 무선 헤드셋 시스템(450)은 왼손 방향으로부터(451) 및 오른손 방향으로부터(452) 예시된다. 무선 헤드셋 또는 이어피스는 여기서 논의되는 통신 프로세스들을 이용하기 위한 많은 물리적인 장치들 중의 하나에 불과함이 언급된다. 예를 들어, 포터블 통신 디바이스들, 이동 송수화기, 헤드셋, 핸즈 프리 차량 키트, 헬멧 및 다른 다양한 디바이스들이 소란스러운 환경으로부터 스피치를 분리하는 보다 강건한 프로세스를 이용할 수 있다.

휴대폰 송수화기 및 헤드셋과 같은 모바일 어플리케이션에서, 원하는 화자의 이동에 대한 강건함은, 가장 많이 이용되는 디바이스/화자의 입 배치 범위에 대해 동일한 음성/노이즈 채널 출력 차수를 유도하는 마이크 구성의 선택 및/또는 적응을 통해, ICA 필터들의 지향성 패턴을 미세 조정함으로써 획득된다. 따라서, 마이크들은 하드웨어의 각 면에 대칭적으로가 아니라 모바일 디바이스의 분할선 상에 배치되는 것이 바람직하다. 이러한 방법으로, 모바일 디바이스가 사용되는 경우, 통신 디바이스의 위치와 상관없이, 동일한 마이크는 언제나 가장 효율적으로 대부분의 스피치를 수신하기 위해 위치된다. 예로, 디바이스의 위치에 관계없이, 주 마이크는 화자의 입에 가장 가까운 형태로 위치한다. 이 일관되고 미리 정의된 배치는 ICA 프로세스가 보다 나은 기본 값을 가질 수 있게 하고, 스피치 신호를 보다 쉽게 식별할 수 있게 한다.

도 9를 참조하면, 구체적인 분리 프로세스(500)가 예시된다. 프로세스(500)는 음향 정보 및 노이즈를 수신하기 위한 트랜스듀서를 위치 시키고, 블록(502, 504)에서 보여지는 추후의 프로세싱을 위한 복합 신호들을 생성한다. 복합 신호들은 블록(506)과 같이 채널들로 처리된다. 종종, 프로세스(506)는 적응형 필터 계수들을 채용하는 필터들의 집합을 포함한다. 예를 들어, 프로세스(506)는 ICA 프로세스를 이용하고, 그에 따라 프로세스(506)는 몇 개의 필터들을, 각 필터는 적응가능하고 조절가능한 필터 계수를 가지는, 가질 수 있다. 프로세스(506)가 작동함에 따라, 블록(521)에서와 같이, 계수들은 분리 성능을 향상 시키기 위해서 조절되고, 블록(523)에서와 같이 새로운 계수들이 적용되고 필터에서 사용된다. 이 계속적인 필터 계수의 적응은, 변화하는 음향 환경에서라도 프로세스(506)가 충분한 레벨의 분리를 제공할 수 있도록 한다.

프로세스(506)는 일반적으로 2채널을 생성하고, 그 것들은 블록(508)에서 식별된다. 구체적으로는, 하나의 채널은 노이즈-도미넌트 신호로 식별되는 반면에, 다른 채널은 노이즈 및 정보의 조합일 수 있는 스피치 신호로서 식별된다. 블록(515)에서와 같이, 노이즈-도미넌트 신호 또는 조합 신호는 신호 분리의 레벨을 감지하기 위해 측정될 수 있다. 예를 들어, 노이즈-도미넌트 신호는 스피치 성분의 레벨을 감지하기 위해 측정될 수 있다. 그리고 그 측정값에 반응하여, 마이크의 이득이 조절된다. 이 측정 및 조절은 프로세스(500)의 동작 중에 수행되거나 프로세스의 셋업 중에 수행될 수 있다. 이러한 방법으로, 프로세스를 위하여 프로세스의 디지인, 시험 쪼는 제조에서 바람직한 이득 팩터들이 선택되고 미리 정의될 수 있으며 이에 의하여, 프로세스(500)는 이러한 측정 및 설정을 동작 중에 하지 않을 수 있다. 또한, 이득의 적절한 설정은, 디자인, 시험 및 제조 단계에서 가장 효율적으로 사용되는 고속 디지털 오스실로스코프(oscilloscope)와 같은 정교한 전기 시험 장치의 사용으로 득을 볼 수 있다. 초기 이득 설정은 디자인, 시험 또는 제조 단계에서 이루어 질 수 있으며, 이득 설정의 추가적인 튜닝이 프로세스(500)의 동작 중에 이루어 질 수 있음이 이해된다. .

도 10은 ICA 또는 BSS 프로세싱 기능의 한 실시예(600)를 예시한다. 도 10 및 11을 참조하여 설명된 ICA 프로세스들은 도 8에서 예시된 헤드셋의 디자인에 특히 적합하다. 이 구성은 잘 정의되고 미리 정의된 마이크들의 위치를 갖고, 두 스피치 신호들이 화자의 입 앞에서 상대적으로 작은 "버블(bubble)"로부터 추출될 수 있도록 한다. 입력 신호들 X₁ 및 X₂는 채널들(610, 620)로부터 각각 수신된다. 일반적으로, 이러한 신호들의 각각은 최소 하나의 마이크로부터 얻어지지만, 다른 소스들이 이용될 수 있음이 언급된다. 크로스 필터들 W₁ 및 W₂이 분리된 신호 U₁의 채널(630) 및 분리된 신호 U₂의 채널(540)을 생성하기 위해 입력 신호들의 각각에 적용된다. 채널(630, 스피치 채널) 은 대체로 바람직한 신호들을 포함하고 채널(640, 노이즈 채널)은 대체로 노이즈 신호들을 포함한다. "스피치 채널" 및 "노이즈 채널"이라는 용어가 사용되더라도, "스피치" 및 "노이즈"라는 용어는 필요에 따라 교체될 수 있음이 이해되어야 한다. 또한, 이 방법은 둘 이상의 소스들로부터 혼합된 노이즈 신호들을 분리하기 위해서도 사용될 수 있다.

바람직하게는, 인피니티브 임펄스 응답(infinitive impulse response) 필터들이 본 프로세싱 프로세스에서 사용된다. 인피니티브 임펄스 응답 필터는 그 출력 신호가 최소한 그 입력 신호의 일부로서 피드백되는 필터이다. 유한 임펄스 응답 필터(finite impulse response filter)는 그 출력 신호가 입력으로서 피드백 되지 않는 필터이다. 크로스 필터들 W₂₁ 및 W₁₂는 시간 지연의 긴 구간을 획득하기 위하여, 시간에 걸쳐 분산된 계수들을 가진다. 대부분의 단순화된 형태에서, 크로스 필터들 W₂₁ 및 W₁₂는 필터당 하나만의 이득 팩터를 가진다. 예를 들어, 출력 신호와 피드백 신호 사이의 시간 지연에 대한 지연 이득 팩터 및 입력 신호를 증폭하기 위한 크기 이득 팩터이다. 다른 형태에서, 크로스 필터들은 수십 수백 수천의 필터 계수들을 가질 수 있다. 아래에서 설명되는 바와 같이, 출력 신호 U₁ 및 U₂는 포스트 프로세싱 서브-모듈(sub-module), 노이즈-제거 모듈 또는 스피치 특성 추출 모듈에 의하여 더 처리될 수 있다.

비록 ICA 학습규칙이 블라인드 신호 분리를 달성하기 위해 유도된 것이지만, 음향 환경에서 스피치 프로세싱으로의 그 실질적인 구현은 필터링에서의 불안정한 동작으로 유도될 수 있다. 이 시스템의 안정성을 보증하기 위해, W₁₂ 및 W₂₁의 적응 방식이 가장 먼저 안정되어야 한다. 이런 시스템에 대한 이득 마진은, 입력 이득의 증가는 정적이지 않은 스피치 신호들과 마주하여 불안정성을 유도하여 가중치 계수를 급속한게 증가시킬 수 있다는, 일반적인 의미에서 낮다. 스피치 신호들 일반적으로 영평균을 가지고 산재하므로, 부호 함수는 시간에 따라서 자주 진동하게 되고 불안정한 동작에 일조하게 된다. 결국, 큰 학습 파라미터는 빠른 수렴을 위해 바람직하고, 큰 입력 이득은 시스템을보다 불안정하게 만들기 때문에 안정성과 성능 사이에 고유한 절충이 있게 된다. 종래의 학습 규칙은 불안정을 유도할 뿐 아니라, 특히 안정성 한계에 접근하는 경우에, 비선형 부호 함수 때문에 진동하는 경향이 있어 필터링된 출력 신호 U₁(t) 및 U₂(t)의 잔향을 유도한다. 이러한 이슈를 해결하기 위해, W₁₂ 및 W₂₁에 대한 적응 규칙 은 안정화 되어야 한다. 필터 계수에 대한 학습 규칙이 안정되고, X로부터 U로의 시스템 전달 함수에 대한 폐 루프 폴이 단위 원안에 위치하는 경우, 분석적이고 실험에 의한 연구들은 시스템이 BIBO(유계입력 유계출력)로 안정하다고 한다. 전체 프로세싱의 최종적 상응 목표는 이렇듯 안정성 제약하에서 노이즈가 포함된 스피치 신호들을 블라인드 신호 분리하는 것이 될 것이다.

안정성을 담보하는 주된 방법은 입력을 적절하게 스케일링하는 것이다. 이 구조에서 스케일링 팩터 sc_fact는 들어오는 입력 신호 특징들에 기초하여 적응된다.. 예를 들어, 입력이 너무 높은 경우, 이는 sc_fact의 증가를 유도하고, 이렇게 입력 크기를 축소한다. 성능과 안정성 사이에 절충이 있다. 입력을 sc_fact로 스케일 다운(scale down)하는 것은 SNR을 낮추고, 분리 성능을 감소 시킨다. 입력은 이렇듯 안정성을 보증하는데 필요한 수준에서만 척도 변환 되어야 한다. 추가적인 안정화는, 모든 샘플에서 가중치 계수들의 단기 변동에 대비하는 필터 구조를 운용함으로써 획득될 수 있고, 이렇듯 잔향이 회피될 수 있다. 이 적응 규칙 필터는 시간 영역 평활화로 보일 수 있다. 그 이상의 필터 평활화는, 수렴된 분리 필터의 인접 주파수간 조화를 강화하기 위해, 주파수 영역에서 수행될 수 있다. 이는 K-tap 필터를 길이 L로 제로 트래핑(zero tapping)하고, 역변환에 의하여 수반되는 증가된 시간 지원으로 이 필터를 푸리에 변환함으로써 편리하게 수행될 수 있다. 필터는 효과적으로 사각형의 시간 영역 창을 내어 왔으므로, 이는 주파수 영역의 사인 함수에 의하여 평활화된다. 이 주파수 영역 평활화는, 주기적으로 적응된 필터 계수를 재초기화 하기 규칙적인 시간 간격으로 수행될 수 있다. .

다음의 수식은, 각 시간 샘플 t 및 시간 증가분 변수 k에 관하여, 이용될 수 있는 ICA 필터 구조의 한 예들이다.

함수 f(x)는 비선형 유계 함수이다, 즉 소정의 최소값 및 최대값을 가지는 비선형적인 함수이다. 바람직하게는, f(x)는 변수 x의 부호에 따라서, 최소값 또는 최대값으로 빠르게 근접하는 비선형 유계 함수이다. 예를 들어, 부호 함수가 단순한 유계함수의 하나로서 이용될 수 있다. 부호 함수f(x)는, x가 양수 인지 음수인지에 따라서, 1 또는 -1의 두 값을 갖는다. 비선형 유계 함수들의 예는 다음을 포함하지만 그에 한정되지는 않는다:

이러한 공식들은 필요한 계산을 위해 부동 소수점 정밀도가 이용가능한 것으로 가정한다. 비록, 부동 소수점 정밀도가 바람직하지만, 고정 소수점 연산 역시, 최소화된 계산 처리 능력을 가지는 디바이스에 적용되는 경우에 특히, 채용될 수 있다. 소수점 계산을 채용하기 위한 처리능력에도 불구하고, 최적 ICA 해법에의 수렴은 보다 어렵다. ICA 알고리즘은 간섭하는 소스는 소거되어 나간다는 원리에 기반한다. 고정 소수점 연산의 부정확함 때문에 거의 같은 수를 차감하거나 (또는 매우 차이가 큰 수가 더해지는) 경우에는, ICA 알고리즘은 최적화보다 낮은 수렴 속성을 보인다.

분리 성능에 영향을 줄 수 있는 또 다른 요소는 필터 계수 양자화 오차 효과이다. 제한된 필터 계수 해상도 때문에, 필터 계수들의 적응은 어떤 점에서 점진적이고 추가적인 분리 개선을 가져오고, 수렴 속성 판단에서 고려된다. 양자화 오차 효과는 여러 요소여 영향을 받지만 주로 필터 길이와 사용된 비트 해상도의 함수이다. 앞서 언급된 입력 스케일링 문제들 역시 수치적인 오버플로우가 방지되는 유한 정밀도 계산에서 필요하다. 필터링 프로세스에 관계된 컨벌루션은 잡재적으로는 이용가능한 해상도 범위보다 큰 숫자들로 합해질 수 있으므로, 스케일링 팩터는, 이러한 일들이 일어 나지 않도록, 필터 입력이 충분히 작다는 점을 확실히 하여야 한다.

본 프로세싱 기능은 최소 2개의, 마이크와 같은, 오디오 입력 채널채널로부터 입력 신호들을 수신한다. 오디오 입력 채널들이 숫자는 최소값인 2 채널을 넘어 증가할 수 있다. 입력 채널들의 수가 증가함에 따라, 스피치 분리 품질은 일반적으로 입력 채널들의 수가 신호 소스들의 수와 같아지는 지점에까지 개선될 수 있다. 예를 들어, 입력 오디오 신호들의 소스들이 한 발언자, 배경 발언자, 배경 음악 소스 및 도로 노이즈 및 윈드 노이즈에 의하여 생성되는 일반적인 배경 노이즈를 포함하는 경우에, 4채널 스피치 분리 시스템이 2채널 시스템 보다 일반적으로는 성능이 뛰어날 것이다. 물론, 많은 입력 채널들이 이용될수록, 많은 필터들 및 많은 컴퓨팅 파워가 요구된다. 대안적으로, 원하는 분리된 신호 및 노이즈에 대한 채널이 있는 한, 소스들의 총 수 보다 작은 수로 구현될 수 있다.

본 프로세싱 서브-모듈 및 프로세스는 입력 신호의 두 개 이상 채널을 분리하는 데 이용될 수 있다. 예를 들어, 휴대폰에 관하여, 한 채널은 대체적으로 원하는 스피치 신호를 포함할 수 있고, 또 다른 채널은 대체로 한 노이즈 소스로부터의 노이즈 신호를, 또 다른 채널은 또 다른 노이즈 소스로부터의 신호를 포함할 수 있다. 예를 들어, 다수-사용자 환경에서, 한 채널은 주로 한 타겟 사용자의 스피치를 포함하고, 반면에 또 다른 채널은 다른 타겟 사용자로부터의 스피치를 주로 포함한다. 제3 채널은 노이즈를 주로 포함하고 두 스피치 채널들의 추가 프로세스에 유용할 수 있다. 추가적인 스피치 또는 타겟 채널들이 유용할 수 있음이 언급될 것이다. .

비록 몇 적용예가 원하는 스피치 신호들의 한 소스를 포함하더라도, 다른 적용예에서는 원하는 스피치 신호들의 다수 소스들이 존재할 수 있다. 예를 들어, 텔레 컨퍼런스 어플리케이션 또는 오디오 감독 어플리케이션은, 다수의 발언자의 스피치 신호들을 배경 노이즈 및 다른 발언자의 것들로부터 분리하는 것을 요구할 수 있다. 본 프로세스는 스피치 신호의 한 소스를 배경 노이즈로부터 분리하는 데 뿐만 아니라, 한 발언자의 스피치 신호을 또 다른 발언자의 스피치 신호로부터 분리하는 과정에도 사용될 수 있다. 본 발명은 최소 하나의 마이크가 화자와 상대적으로 똑바른 경로를 가지고 있는 한, 다수의 소스들을 수용할 수 있다. 두 마이크 모두가 사용자의 사용자의 귀에 근접하여 위치하고 입으로의 다이렉트 음향 경로가 사용자의 뺨에 의하여 차단되는 헤드셋 어플리케이션에서와 같이 그러한 다이렉트 경로가 획득될 수 없는 경우에도, 사용자의 스피치 신호가 여전히 꽤 작은 지역(입 주위의 스피치 버블).에 한정되는 것이어서, 본 발명은 여전히 동작한다.

본 프로세스는 소리 신호들을 최소 두 개의 채널들로 분리한다. 예를 들어 한 채널은 노이즈 신호가 우세하고(노이즈- 도미넌트 채널) 한 채널은 스피치 및 노이즈 신호들에 대한 것이다(결합 채널). 도 11에서와 같이, 채널(730)은 결합 채널이고 채널(740)은 노이즈-도미넌트 채널이다. 노이즈- 도미넌트 채널이 여전히 낮은 레벨의 스피치 신호들을 포함하는 것이 가능하다. 예를 들어, 둘 이상의 상당한 음원이 있고 단 두개의 마이크가 있는 경우, 또는 두 개의 마이크가 가까이 설치 되었으나 음원들은 멀리 떨어져 있는 경우에는, 프로세싱 만으로는 언제나 충분히 노이즈를 분리할 수는 없다. 처리된 신호들은, 남아 있는 레벨의 배경 노이즈를 제거하고 스피치 신호들의 품질을 향상 시키기 위해, 따라서 추가적인 스피치 프로세싱을 필요로 할 수 있다. 이는 분리된 출력들을, 예를 들어, 노이즈-도미넌트 출력 채널을 이용하여 평가된 노이즈 스펙트럼(VAD는 일반적으로 제2 채널이 노이즈-도미넌트일 것을 요하지 않는다)이 부가된 Wiener 필터와 같은 단일 또는 다 채널 스피치 개선 알고리즘으로 보냄으로써 수행된다. Wiener 필터를 이용하여 평가된 노이즈 스펙트럼은 또한 음성 활동 감지기로 감지된 논-스피치 시간 간격을, 노이즈에 의해 질이 저하된 신호들에 대해 보다 나은 SNR을 획득하기 위해 사용할 수 있다. 더구나, 유계 함수들은 조인트 엔트로피 계산에의 단순화된 근사이고, 언제나 신호들의 정보 잉여를 언제나 완전하게 축소하지는 않을 수 있다. 따라서, 본 발명의 분리 프로세스를 이용하여 신호들이 분리된 후에, 스피치 신호들의 품질을 향상 시키기 위한 포스트 프로세싱이 수행될 수 있다..

노이즈-도미넌트 채널의 노이즈 신호들이 유사한 신호 시그너처(signature)를 가진다는 합리적인 가정에 기초하여, 그 시그너처가 노이즈-도미넌트 채널 신호들의 시그너처와 유사한 결합 채널의 노이즈 신호들은, 스피치 프로세싱 기능에서, 필터링되어야 한다. 예를 들어, 스펙트럼 차감 기법들이 그러한 처리에 사용될 수 있다. 노이즈 채널 신호들의 시그너처가 식별된다. 노이즈 특징들에 대한 소정의 가정에 기초하는 종래기술에 의한 노이즈 필터들에 비하여, 스피치 프로세싱은, 특정 환경의 노이즈 시그너처를 분석하여 그 환경을 대변하는 노이즈 신호들을 제가하기 때문에, 보다 유연하다. 따라서 노이즈 제거에서 지나치게 또는 부족하게 포괄적일 가능성이 낮다. Wiener 필터링 및 Kalman 필터링과 같은 다른 필터링 기법들은 또한 스피치 포스트-프로세싱을 수행하는데 사용될 수 있다. ICA 필터 결과는 진실한 결과의 제한된 사이클로 수렴할 것인바, 필터 계수는 보다 나은 분리 성능의 개선없이 계속 적응될 수 있다. 몇 계수들은 그들의 해상도 문제로 표류하는 것이 관찰되어 왔다. 따라서 원하는 화자 신호를 포함하는 ICA 출력의 포스트-프로세싱된 버전은 설명된 HR 피드백 구조를 통해 피드백되어, ICA 알고리즘을 불안정하게 하지 않으면서도 수렴 한계 사이클이 극복된다. 이 과정의 유익한 부산물은 수렴이 상당히 가속된다는 점이다.

프로세스 일반적으로 설명된 ICA에서, 어떤 특정한 특징들이 헤드셋 또는 이어폰 디바이스들에 이용 가능해 진다. 예를 들어, 일반적인 ICA 프로세스는 적응형 리셋 매커니즘을 제공하도록 조절된다. 신호 분리 프로세스(750)가 도 12에서 예시된다. 신호 분리 프로세스(750)는 제1 마이크로부터 제1 입력 신호(760)를 제2 마이크호주터 제2 입력 신호(762)를 수신한다. 앞서 언급된 바와 같이, ICA 프로세스는 작동중에 적응하는 필터를 가진다. 이러한 필터들이 적응함에 따라, 전체 프로세스는 불안정해 질 수 있고, 귀결되는 신호는 왜곡되거나 포화될 수 있다. 출력 신호가 포화되면, 필터들이 리셋될 필요가 있고, 이는 생성된 스피치 신호(770)에서 거슬리는 "팝(pop)"으로 귀결될 수 있다. 바람직한 배열에서, ICA 프로세스(750)는 학습 스테이지(752) 및 출력 스테이지(756)를 갖는다. 학습 스테이지(752)는 상대적으로 적극적인 ICA 필터 설정을 채용한지만, 그 출력은 출력 스테이지(756)을 "가르치는(teach)" 것에 사용된다. 출력 스테이지(756)는 평활화 기능을 제공하고 변화하는 조건들에 보다 느리게 적응한다. 출력 스테이지는 스피치 컨텐트(770)를 가지는 신호는 물론 노이즈-도미넌트 신호(773)를 생성한다. 이러한 방법으로, 학습 스테이지는 빠르게 적응할 수 있고 출력 스테이지에 변화기 일어나도록 지휘할 수 있다. 반면에, 출력 스테이지는 관성 또는 변화에 대한 저항을 보인다. ICA 리셋 프로세스(765)는 각 스테이지의 값은 물론 최종 출력 신호까지 감시한다. 학습 스테이지(752)가 적극적으로 운용되므로, 학습 스테이지 (752)는 출력 스테이지(756) 보다 자주 포화될 것이다. 포화 시에, 학습 스테이지 필터 계수(754)는 기본 조건으로 리셋되고, 학습 ICA(752)는 그의 필터 이력을 현재 샘플 값으로 대체한다. 그러나, 학습 ICA(752)의 출력이 어떠한 출력 신호에도 직접 연결되지는 않으므로, 도출되는 "순간 이상"은 어떠한 인지 가능하거나 들을 수 있는 왜곡을 발생시키지 않는다. 대신에, 변화는 출력 스테이지(756)로 보내지는 필터 계수가 달라지는 것으로 귀결된다. 그러나, 출력 스테이지(756)는 상대적으로 천천히 변화하므로, 그것 역시, 떠한 인지 가능하거나 들을 수 있는 왜곡을 발생시키지 않는다. 학습 스테이지(752)만을 리셋함으로써, ICA 프로세스(750)는 리셋에 의한 현저한 왜곡 없이 동작되게 되었다. 물론, 출력 스테이지(756)는 여전히 가끔씩 리셋되어야 할 수도 있지만, 그것은 일반적인 "팝"으로 귀결될 수 있다. 그러나 그 발생은 상대적으로 희귀하다.

나아가, 리셋 매커니즘은 얻어지는 오디오에서 최소의 왜곡 및 불연속 을 가지는 안정적인 분리 ICA로 필터링된 출력을 생성하도록 요구받는다. 포화 체크는 스테레오 버퍼 샘플의 배치에 대하여 ICA 필터링 후에 평가되므로, 버퍼는 현실적인 범위에서 작게 선택되어야 한다. ICA 스테이지에서의 리셋 버퍼는 버려지고 현재 샘플 구간에 대하여 ICA 필터링을 다시할 시간이 없기 때문이다. 지나간 필터 이력은, 두 ICA 필터 스테이지 모두에 대해, 현재 녹음된 입력 버퍼값으로 재초기화된다. 포스트 프로세싱 스테이지는 현재 녹음된 스피치+노이즈 신호 및 노이즈 채널 신호를 레퍼런스로 수신한다. ICA 버퍼 크기는 4밀리 세컨드로 축소될 수 있으므로, 이는 음성 출력에서 지각할 수 없는 불연속으로 귀결된다.

ICA 프로세스가 시작되거나 리셋되는 경우, 필터 값들(754, 758) 또는 탭들이 소정의 값으로 리셋된다. 헤드셋 또는 이어폰은 종종 제한된 범위의 작동 조건을 가지므로, 탭의 기본 값은 예상되는 작동 장치에 대응하도록 선택될 수 있다. 예를 들어, 각 마이크로부터 화자의 입까지의 거리는 작은 범위에 유지되고, 예상되는 화자의 음성 주파수 역시 상대적으로 작은 범위 안에 있다. 이러한 제약들과 실제 작동 값을 용하여, 매우 정확한 탭 값들의 집합이 결정될 수 있다. 기본 값을 신중이 선택함으로써, ICA가 예상되는 분리를 수행하는 시간이 축소된다. 가능한 결과 공간을 제약하기 위한, 필터 탭들의 범위에 대한 분명한 제약들이 포함될 수 있다. 이러한 제약들은 앞선 실험들에서 최적값으로의 수렴을 통해 얻어진 실험값 또는 방향성 고려로부터 유도될 수 있다. 또한, 기본값은 시간 및 환경적인 조건에 따라 적응될 수 있음이 언급된다.

또한, 통신 시스템이 하나 이상의 기본값 세트(777)을 가질 수 있음이 언급된다. 예를 들어, 한 기본값 세트(예로 "세트 1")가 매우 소란스러운 환경에서 사용될 수 있으며 또 다른 기본값 세트(예로 "세트 2")는 보다 조용한 환경에서 사용될 수 있다. 다른 예에서, 기본값(default value)의 다른 세트들이 다른 사용자들에 대하여 저장될 수 있다. 하나 이상의 기본값이 제공되는 경우, 감독 모듈(767)이 포함되어, 현재 동작 환경을 판단하고 어떤 이용 가능한 기본값 세트가 사용될 것인지를 판단한다. 리셋 모니터(765)로부터 리셋 명령이 수신되면, 감독 프로세스(767)는 예를 들어, 새 기본 값을 칩셋의 플래시 메모리에 저장함으로써, 선택된 기본값들을 ICA 프로세스 필터 계수로 정한다.

초기 조건의 세트(set)로부터 분리 최적화들 시작하는 어떠한 접근들도 수렴속도를 증가 시키는 경향이 있다. 주어진 어떠한 시나리오에 대해서도, 감독 모듈은 특정한 초기조건 세트가 적당할지를 결정하고 것을 구현한다.

공간 또는 디자인제한으로 인해 마이크가 이어 스피커에 가까이 위치하므로, 음향 에코 문제는 헤드셋에서 자연스럽게 제기된다. 예를 들어, 도 8에서, 마이크(461)는 이어 스피커(456)에 인접한다. 사용자로부터의 스피치가 이어 스피커로 플레이 되므로, 이 스피치는 또한 마이크에 의하여 픽업되고 사용자에게 반향될 수 있다. 이어 스피커의 볼륨 및 마이크의 위치에 따라 이 원하지 않는 에코는 시끄럽고 거슬릴 수 있다.

음향 에코(acoustic echo)는 간섭 노이즈로 간주되고 동일한 프로세싱 알고리즘에 의하여 제거될 수 있다. 하나의 크로스 필터에 부여된 필터 한 채널로부터 원하는 화자를 제거하고자 하는 의도를 반영하고, 그 결과 범위를 제약한다. 다른 크로스 필터는 외부 간섭 및 확성기로부터의 에코를 제거한다. 제2 크로스 필터 탭들에 대한 제약은 따라서 에코를 제거하기 위한 충분한 적응 유연성을 부여함으로써 판단된다. 이 크로스 필터에 대한 학습율 역시 변할 수 있으며 노이즈 억제를 위한 값과 다를 수 있다. 헤드셋 셋업에 의존하여, 마이크들에 대한 이어 스피커의 상대적인 위치는 고정될 수 있다. 이어 스피커 스피치를 제거하기 위해 필요한 제2 크로스 필터는 미리 학습되고 고정될 수 있다. 한편, 마이크의 전달 특성은 시간 또는 온도 변화와 같은 환경에 대해 표류할 수 있다. 마이크들의 위치는 사용자에 의하여 어느 정도 조절 가능하다. 이들 모두는 에코를 보다 잘 제거하기 위해 크로스 필터 계수의 조절을 요한다. 이러한 계수들은 ,적응 도중에, 고정되고 학습된 계수들의 세트 주변으로 제한될 수 있다.

수학식 1에서 수학식 4까지에서 묘사된 것과 같은 동일한 알고리즘이 에코를 제거하는 데 사용될 수 있다. 출력 U₁는 에코가 없는 니어 엔드 사용자 스피치가 될 것이고, U₂는 사용자 스피치가 제거된 노이즈 레퍼런스일 것이다.

종래에, 음향 에코는 NLMS(adaptive normalized least mean square) 알고리즘을 이용하고 파엔드(far end) 신호를 레퍼런스로 하여 마이크 신호로부터 제거된다. 니어 엔드(near end) 사용자의 침묵이 감지되고 마이크에 의하여 픽업된 신호는 에코 만을 포함하는 것으로 가정된다. NLMS 필터 입력으로서 파 엔드 신호를 필터 출력으로서 마이크 신호를 사용하여, 음향 에코의 선형 필터 모델을 세운다. 파 엔드 및 니어 엔드 사용자의 대화 신호가 모두 감지되는 경우, 학습된 필터는 동결되고 에코의 평가를 생성하기 위해 파 엔드 신호에 적용된다. 이 평가된 에코는 마이크 신호로부터 차감되고, 얻어진 신호는 에코가 제거된 상태로 보내진다.

위 방안의 단점은 니어 엔드 사용자의 침묵에 대한 좋은 감지를 요한다는 것이다. 이는 사용자가 소란스러운 환경에 있는 경우 획득되기 어려울 수 있다. 위 방안은 또한 이어 스피커, 마이크 픽업 경로로의 엔드 전기 신호에서 선형적인 프로세스를 가정한다. 이어 스피커는 거의, 전기 신호를 소리로 변화시킬 때 선형적인 디바이스가 아니다. 비-선형 효과는 스피커가 높은 볼륨에서 구동될 때 명백하다. 스피커는 포화되어 배음 또는 왜곡을 생성한다. 두 개의 마이크 셋업을 이용하-, 이어 스피커로 부터의 왜곡된 음향 신호는 두 마이크 모두에 의하여 픽업 될 것이다. 에코는 제2 크로스 필터 U₂에 의하여 평가되고, 제1 크로스-필터에 의하여 주 마이크로부터 제거된다. 이는 에코 프리 신호 U₁으로 귀결된다. 이 방안은 마이크 경로로의 파 엔드 신호를 비선형으로 모델링 할 필요를 제거한다. 학습 규칙(3-4)은 니어 엔드 사용자가 침묵하는 지에 관계없이 동작한다. 이는 더블 토크 감지기를 제거하고, 크로스-필터들은 대화들을 통해 갱신될 수 있다.

제2 마이크가 이용가능 하지 않은 경우에, 니어 엔드 마이크 신호 및 들어오는 파 엔드 신호는 입력 X₁ 및 X₂로서 사용될 수 있다. 이 특허에서 설명되는 알고리즘은 여전히 에코를 제거하는 데 사용될 수 있다. 유일한 변경은, 파 엔드 신호 X₂가 어떤 니어 엔드 스피치도 포함하지 않는 경우, 가중치 W_21k가 모두 0으로 설정되는 것이다. 학습규칙(4)는 그 결과 제거 되었다. 비록 비선형 문제가 이 단일 마이크 셋업에서 해결되지는 않겠지만, 크로스-필터는 여전히 대화들을 통해 갱신될 수 있고 더블 토크 감지기는 필요치 않다. 마이크들 또는 단일 마이크 구성에서, 종래의 에코 억제 방법들은 여전히 잔여 에코를 제거하기 위하여 적용될 수 있다. 이러한 방법들 음향 에코 억제 및 상보적 comb 필터링을 포함한다. 상보적 comb 필터링에서, 이어 스피커로의 신호는 먼저 comb 필터 밴드를 통과한다. 마이크는, 그 스탑 밴드가 제1 필터의 패스 밴드인 상보적 comb 필터에 커플링된다. 음향 에코 억제에서, 마이크 신호는 니어 엔드 사용자가 조용한 것으로 감지되는 경우 6dB 또는 그 이상으로 감쇄될 것이다.

도 13을 참조하면, 스피치 분리 시스템(800)이 예시된다. 스피치 분리 프로세스(808)은 마이크(802)보다 타겟 화자에 가까이 위치한 마이크(801)를 가진다. 이러한 방법으로, 마이크(801)는 보다 강한 스피치 신호를 생성하고, 마이크(802)는 보다 노이즈가 많은 신호를 가질 것이다. 통신 프로세스(800)은 예를 들어, BSS 또는 ICA 프로세스인 신호 분리 프로세스(808)를 가진다. 신호 분리 프로세스는 스피치 컨텐트(812)를 가지는 신호 및 노이즈-도미넌트 신호(814)를 생성한다. 통신 프로세스(800)는 스피치-컨텐트 신호(812)로부터 부가적인 노이즈가 제거되는 포스트-프로세싱 단계(810)를 가진다. 일 예로, 노이즈 시그너처는 스피치 신호(812)로부터 스펙트럼 상에서 노이즈를 제거하는 데 사용될 수 있다. 제거의 적극성은 과-포화-팩터(OSF)에 의하여 제어된다. 그러나, 스펙트럼 제거의 적극적인 적용은 달갑지 않거나 부자연스러운 출력 스피치 신호(821)로 귀결될 수 있다. 요구되는 스펙트럼 차감을 축소하기 위해, 통신 프로세스(800)은 ICA/BSS 프로세스의 입력에 스케일링(805 또는 806)을 적용할 수 있다. 음성+노이즈 및 노이즈-온리 채널들 사이의 각 주파수 빈에서 노이즈 시그너처 및 크기를 매칭시키기 위해, 좌측 및 우측 입력 채널들은 각각 서로에 대해 스케일링 될 수 있다. 그렇게, 음성+노이즈 채널에서 노이즈 모델이 획득된다. 프로세싱 스테이지에서 OSF(Over-Subtraction Factor )를 튜닝하는 대신에, 스케일링은 일반적으로 보다 좋은 음성 품질을 야기한다. ICA 스테이지는 등방성 노이즈의 방향성 성분을 가능한 많이 제거하도록 강제되기 때문이다. 구체적인 예로, 추가적인 노이즈 축소가 요구될 때, 마이크(802)로부터의 노이즈-도미넌트 신호는 보다 적극적으로 증폭(805)될 수 있다. 이러한 방법으로, ICA/ BSS 프로세스(808)은 추가적인 분리를 제공하고, 보다 덜한 포스트 프로세싱이 요구된다.

실제 마이크들은 주파수 및 감도 미스매치를 가지며, ICA 스테이지는 불완전한 각 채널에서 고/저 주파수의 불완전한 분리를 야기할 수 있다. 각 주파수 빈 또는 빈들에서 OSF의 개별 스케일링은 따라서 최상의 음성 품질을 얻기 위해 필요하다. 또한, 선택된 주파수 빈들은 인지를 향상 시키기 위해 강조되거나 등한시 될 수 있다.

마이크들(801, 802)로부터의 입력 레벨들은 또한, 바람직한 ICA/ BSS 학습 속도에 따라서 또는 포스트 프로세싱 방법들의 보다 효율적인 적용을 위해서 각각 조절될 수 있다. ICA/BSS 및 포스트 프로세싱 샘플 버퍼는 다양한 진폭 범위에 걸쳐 전개된다. ICA 학습 속도의 다운 스케일링은 고 입력 레벨에서 바람직하다. 예를 들어, 고 입력 레벨에서, ICA 필터 값은 빠르게 변할 수 있으며, 보다 빨리 포화되거나 불안정하게 될 수 있다. 입력 신호들의 스케일링 또는 감쇄에 의하여, 학습 속도는 적당하게 축소될 수 있다. 포스트 프로세싱 입력의 다운 스케일링은, 왜곡으로 귀결되는 스피치 및 노이즈 파워의 부정확한 평가 계산을 피하기 위해 또한 바람직하다. ICA 스테이지에서의 안정성 및 오버플로우(overflow) 문제를 회피하고, 포스트 프로세싱 스테이지(810)에서의 가능한 최대 동적 범위의 이익을 누리기 위해서, ICA/BSS(808) 및 포스트 프로세싱(810) 스테이지로의 입력 데이터에 대한 적응형 스케일링이 적용될 수 있다. 일 예로, 소리 품질은 DSP 입력/출력 해상도에 비하여 높은 중간 스테이지 출력 버퍼 해상도를 적절히 선택함으로써 전체적으로 향상될 수 있다.

독립적인 입력 스케일링은 또한 두 마이크들(801, 802)들간의 진폭 보정을 보조하기 위해서도 사용될 수 있다. 앞서 설명된 바와 같이, 두 마이크들(801, 802)가 적절히 매칭되는 것이 바람직하다. 비록, 어떤 보정은 동적으로 이루어질 수 있지만, 다른 보정 및 선택들은 제조 프로세스에서 수행된다. 주파수 및 전체 감도를 매칭시키기 위한 두 마이크의 ICA 및 포스트 프로세싱 스테이지에서의 튜닝을 최소화하도록 수행되어야 한다. 이는, 다른 마이크의 응답을 얻기 위해, 한 마이크의 주파수 응답을 도치(inversion)하는 것을 요구할 수 있다. 블라인드 채널 도치를 포함하여, 채널 도치를 획득하기 위해 알려진 모든 기법들이 이 목적을 위해 사용될 수 있다. 하드웨어 보정은 생산된 마이크들의 풀에서 마이크들을 적절하게 매칭시킴으로써 수행될 수 있다. 오프라인 또는 온라인 튜닝이 고려될 수 있다. 온라인 튜닝은 노이즈만 있는 시간 구간에서의 보정 설정을 조절하기 위해 VAD의 도움을 요구할 수 있다. 모든 주파수를 정정하기 위해 마이크 주파수 범위는 우선적으로 화이트 노이즈에 의하여 자극될 필요가 있다.

윈드 노이즈(wind noise)는 일반적으로 마이크의 트랜스듀서 멤브레인(transducer membrane)에 직접적으로 적용되는 공기의 외력에 의하여 유발된다. 고 감도 멤브레인은 크고 가끔은 포화된 전기 신호를 생성한다. 그 신호는 압도하고 종종 마이크 신호에서 스피치 컨텐트를 포함하는 유용한 정보를 압살한다. 나아가, 윈드 노이즈가 꽤 강하므로, 그 것은 신호 분리 프로세스 포스트 프로세싱 단계에서도 포화 및 안정성 문제를 야기한다. 또한, 전송된 어떠한 윈드 노이즈라도 청취자에게 달갑지 않고 편하지 않은 청취경험을 유발한다. 불행하게도, 윈드 노이즈는 헤드셋과 이어피스 디바이스들에 있어 꽤나 어려운 문제이다.

그러나, 무선 헤드셋의 2 마이크 배열은 바람을 감지하디 위한 보다 강건한 방법, 디자인 윈드 노이즈의 효과를 최소화하기 위한 마이크 배열 또는 디자인을 가능하게 한다. 2채널 윈드 노이즈 축소 프로세스(900)이 도 14를 참조하여 예시된다. 무선 헤드셋이 2개 마이크들을 가지므로, 헤드셋은 윈드 노이즈의 존재를 보다 정확하게 식별하는 프로세스(900)를 운용할 수 있다. 앞서 언급된 바와 같이, 2개의 마이크들은 블록(902)에서와 같이 그들의 포트들이 다른 방향을 향하도록 또는 다른 방향에서의 바람을 맞이하도록 실딩(shielding)될 수 있다. 그러한 배열에서, 바람의 몰아침은 바람을 대면하는 마이크에서 인상적인 에너지 레벨 증가를 유발하고, 반면에, 다른 마이크는 아주 작게 영향 받는다. 이렇게, 헤드셋이 하나의 마이크에서만 큰 에너지 스파이크를 감지하면, 헤드셋은 그 마이크가 바람에 노출되어 있다고 판단할 수 있다. 나아가, 그 스파이크가 윈드 노이즈 때문인지를 확인하기 위해서 다른 프로세스들이 마이크 신호에 적용될 수 있다. 예를 들어, 윈드 노이즈는 일반적으로 저-주파수 패턴을 가지며, 그러한 패턴이 하나 또는 두 채널 모두에서 감지되는 경우, 윈드 노이즈의 존재는 블록 904와 같이 표시될 수 있다. 대안적으로, 독특한 기계적 또는 공학적 디자인이 윈드 노이즈에 대하여 고려될 수 있다.

일단, 헤드셋이 마이크들 중 하나가 바람에 대면하고 있다고 알아낸 경우, 헤드셋은 바람의 효과를 최소화하기 위한 프로세스를 작동시킬 수 있다. 예를 들어, 프로세스는 바람에 노출된 마이크로부터의 신호를 차단할 수 있고, 블록(906)에서와 같이 다른 마이크의 신호만을 처리할 수 있다. 이 경우, 분리 프로세스는 또한 비활성화되고, 노이즈 축소 프로세스들은, 블록(906)에서와 같이, 보다 전통적인 단일 마이크 시스템으로서 동작한다. 블록(911)에서와 같이, 마이크가 더 이상 바람에 의하여 영향을 받지 않는다고 알려지면, 헤드셋은, 블록(911)에서와 같이, 보통의 2채널 동작으로 복귀할 수 있다. 몇몇 마이크 배치에서, 화자로부터 보다 먼 마이크는 제한된 레벨의 스피치 신호를 받아 들이므로 단일 마이크로서 동작하는 것이 불가능하다. 그러한 경우, 화자에 가장 가까운 마이크는, 비록 바람에 직면하고 있어도, 비활성화 되거나 등한시 될 수 없다.

이렇게, 마이크들을 다른 바람 방향을 대면하도록 배치 시킴으로써, 바람이 많은 조건은 하나의 마이크에서만 상당한 노이즈를 유발할 수 있다. 다른 마이크는 크게 영향 받지 않으므로, 다른 마이크가 바람의 공격을 받고 있는 동안 고품질 스피치 신호를 제공하기 위해 단독으로 사용될 수 있다. 이 프로세스를 이용하면, 무선 헤드셋은 바람이 있는 환경에서도 유용하게 사용될 수 있다. 또 다른 예로, 헤드셋은 그 외부에 기계적인 손잡이를 두어, 사용자가 듀얼 채널 모드에서 단일 채널 모드로 전환할 수 있게 한다. 개별적인 마이크들이 지향성인 경우, 단일 마이크 동작도 여전히 윈드 노이즈에 너무 민감할 수 있다. 그러나 개별 마이크들이 무지향성이라면, 비록 노이즈 억제는 저하되더라도, 윈드 노이즈 효과는 다소 경감될 것이다. 윈드 노이즈 및 음향 노이즈를 동시에 처리하는데 있어서 내재적인 신호 품질 트레이드-오프가 있다. 이 밸런싱은 소프트웨어에 이하여 제공될 수 있으며, 반면에 몇몇 결정들은 사용자 기호에 응답하여, 예를 들어 사용자로 하여금 싱글 또는 듀얼 채널 동작을 선택하도록 함으로써, 이루어진다. 어떤 장치에서는, 사용자는 또한 어떤 마이크가 단일 채널 입력으로서 사용될 지를 선택할 수 있다.

본 발명의 측면들은, 프로그래머블 로직 디바이스들 (PLDs), 필드 프로그래머블 게이트 어레이들(FPGAs), 프로그래머블 어레이 로직(PAL) 디바이스들, 전기적으로 프로그램 가능한 로직 및 메모리 디바이스들 및 표준 셀-기반 디바이스들과 특정용도 집적회로들(ASICs)까지도 포함하는, 다양한 회로들 중의 어느 것으로도 기능적으로 프로그램되어 구현될 수 있다. 본 발명의 측면들은 구현하는 다른 가능성은 다음을 포함한다: 메모리(EEPROM과 같은)를 가지는 마이크로 콘트롤러, 임베디드 마이크로프로세서, 펌웨어, 소프트웨어 등. 본 발명의 측면들이, 생산 중의 최소 한 스테이지에서 소프트웨어로 구현되는 경우(예로, 펌웨어 또는 PLD에 임베드), 그 소프트웨어는, 자기적으로- 또는 광학적으로 판독 가능한 디스크들(고정 또는 플로피)와 같은 컴퓨터 판독 가능한 매체의 어떠한 것에도 수록되거나, 캐리어 신호에 변조되거나, 전송될 수 있다.

게다가, 본 발명의 일 측면은 소프트웨어 기반회로 에뮬레이션을 가지는 마이크로프로세서, 이산 로직 (순차적 및 조합된), 커스텀 디바이스들, 퍼지 (뉴럴) 로직, 퀀텀 디바이스들 및 위 디바이스 유형의 어떠한 혼용(hybrid)에서도 구현될 수 있다. 물론 내재하는 디바이스 기술들은 다양한 구성 요소 유형으로, 예를 들어, 상보성 금속 산화막 반도체(CMOS)와 같은 금속 산화막 반도체 전계효과 트랜지스터(MOSFET) 기술, 에미터 결합 로직(ECL)과 같은 바이폴라 기술, 고분자 기술들 (예로, 실리콘-접합 폴리머 및 금속-접합 폴리머-금속 구조들) 및 혼합된 아날로그 및 디지털 등으로, 제공될 수 있다.

본 발명의 바람직한 그리고 대안적인 실시예가 개시되었으나, 앞서 설명된 기술의 다양한 변형 및 확장이 이 발명의 사상을 이용하여 구현될 수 있음이 언급된다. 그러한 모든 변형 및 확장들은 제출된 청구항의 범위 및 진의에 포함된 것으로 의도된다.

Claims

음성 활동 감지기를 이용하여 스피치 신호를 개선하는 방법으로서,

제1 신호를 수신하는 단계;

제2 신호를 수신하는 단계;

상기 제2 신호의 에너지 레벨과 상기 제1 신호의 에너지 레벨을 비교하는 단계;

상기 제1 신호의 에너지 레벨이 상기 제2 신호의 에너지 레벨보다 높으면, 음성 활동이 존재하는 것으로 판단하는 단계;

음성 활동이 존재하는 것으로 판단하는 것에 응답하는 제어 신호를 생성하는 단계; 및

상기 제어 신호를 사용하여 스피치 개선 프로세스를 제어하는 단계를 포함하는 방법.
제1항에 있어서,

상기 제1 신호는 제1 마이크에 의하여 생성되고, 상기 제2 신호는 제2 마이크에 의하여 생성되는 음성 활동 감지 방법.
제1항에 있어서,

상기 제1 신호는 신호 분리 프로세스에 의하여 생성된 스피치-컨텐트 신호이고,

상기 제2 신호는 상기 신호 분리 프로세스에 의하여 생성된 노이즈 도미넌트 신호인 음성 활동 감지 방법.
제1항에 있어서,

상기 판단 단계는, 상기 제1 신호 및 상기 제2 신호 사이의 에너지 레벨 차이가 임계 값을 넘는지를 판단하는 단계를 포함하는 음성 활동 감지 방법.
제4항에 있어서,

상기 임계 값은 동적으로 조절되는 음성 활동 감지 방법.
제1항에 있어서,

상기 비교 단계는 약 10 밀리 세컨드에서 약 30 밀리 세컨드의 길이를 가지는 신호 샘플들을 비교하는 단계를 포함하는 음성 활동 감지 방법.
제1항에 있어서,

상기 스피치 개선 프로세스는 신호 분리 프로세스이고,

상기 신호 분리 프로세스는 상기 제어 신호에 응답하여 활성화되는 것을 특징으로 하는 음성 활동 감지 방법.
제1항에 있어서,

상기 스피치 개선 프로세스는 포스트 프로세싱 연산이고, 상기 포스트 프로세싱 연산이고, 상기 포스트 프로세싱 연산은 상기 제어 신호에 응답하여 활성화되는 것을 특징으로 하는 음성 활동 감지 방법.
제1항에 있어서,

상기 스피치 개선 프로세스는 포스트 프로세싱 연산이고, 상기 포스트 프로세싱 연산은 상기 제어 신호에 응답하여 비활성화되는 음성 활동 감지 방법.
제1항에 있어서,

상기 스피치 개선 프로세스는 상기 제어 신호에 응답하여 활성화되는 신호 분리 프로세스를 위한 신호 분리 프로세스이고,

상기 신호 분리 프로세스를 위한 학습 프로세스는 상기 제어 신호에 응답하여 활성화 되는 음성 활동 감지 방법.
제1항에 있어서,

상기 스피치 개선 프로세스는 노이즈 평가 프로세스이고, 상기 노이즈 평가 프로세스는 상기 제어 신호에 응답하여 비활성화되는 음성 활동 감지 방법.
제1항에 있어서,

상기 스피치 개선 프로세스는 자동 이득 제어프로세스이고, 상기 자동 이득 제어 프로세스는 상기 제어 신호에 응답하여 활성화되는 음성 활동 감지 방법.
제1항에 있어서,

상기 스피치 개선 프로세스는 포스트 프로세싱 스펙트럼 차감 프로세스이고, 상기 포스트 프로세싱 스펙트럼 차감 프로세스로부터의 출력은 상기 신호에 응답하여 스케일되는 것을 특징으로 하는 음성 활동 감지 방법.
제1항에 있어서,

상기 스피치 개선 프로세스는 에코 소거 프로세스이고, 상기 에코 소거 프로세스는 상기 제어 신호가 존재 하지 않음에 상응하여, 파-엔드 신호 및 마이크 신호를 필터 입력으로서 사용하는 것을 특징으로 하는 음성 활동 감지 방법.
제1항에 있어서,

상기 스피치 개선 프로세스는 에코 소거 프로세스이고,

상기 에코 소거 프로세스는 상기 제어 신호에 응답하여 학습된 필터를 동결하고, 수신되는 파 엔드 신호에 적용하는 것을 특징으로 하는 스피치 신호 개선 방법.
제1 신호를 수신하는 단계;

제2 신호를 수신하는 단계;

상기 제1 신호 및 제2 신호를 비교하여 음성활동이 존재하는 지를 판단하는 단계;

음성 활동이 존재하는 지의 판단에 응답하여, 제어 신호를 생성하는 단계;

상기 제어 신호에 응답하여, 블라인드 신호 분리 프로세스를 활성화 하는 단계;

상기 제1 및 제2 신호를 상기 블라인드 신호 분리 프로세스로 수신하는 단계; 및

스피치 컨텐트를 가지는 신호를 생성하는 단계를 포함하는 신호 분리 프로세스.
제16항에 있어서,

상기 제어 신호가 없는 경우에 상기 블라인드 신호 분리 프로세스를 비활성화하는 단계를 더 포함하는 신호 분리 프로세스.
제16항에 있어서,

상기 블라인드 신호 분리 프로세스는 독립 성분 분석 프로세스인 것을 특징으로 하는 신호 분리 프로세스.
제1 신호를 생성하는 제1 마이크;

제2 신호를 생성하는 제2 마이크;

상기 제1 신호 및 제2 신호를 수신하고 티칭 계수의 셋을 생성하는 제1 학습 스테이지 - 상기 학습 스테이지는 현재 음향 조건에 그 계수들을 빠르게 적응시키도록 구성됨;

상기 학습 스테이지에 커플링되고 상기 티칭 계수를 수신하는 출력 스테이지를 포함하고, 상기 출력 스테이지는 상기 제1 신호 및 상기 제2 신호를 수신하고 스피치 컨텐츠 신호와 노이즈 도미넌트 신호를 생성하며 상기 출력 스테이지는 보다 느리게 그 계수를 적응시키는 구성되는, 신호 분리 방법.
제19항에 있어서,

상기 학습 스테이지의 불안정한 조건에 대해 모니터링하고, 불안정한 조건이 파악되면 리셋 신호를 생성하는 리셋 모니터를 더 포함하는 신호 분리 방법.
제20항에 있어서,

상기 학습 스테이지의 계수들은 상기 리셋 신호에 응답하여 리셋되고, 상기 출력 스테이지는 리셋되지 않는, 신호 분리 방법.
제20항에 있어서,

상기 학습 스테이지의 계수들은 상기 리셋 신호에 응답하여 기본(default) 계수의 세트로 리셋되는, 신호 분리 방법.
제22항에 있어서,

상기 계수는 복수 개의 기본 계수 셋들로부터 선택되고, 각 셋은 다른 예상되는 작동 환경에 따른 계수의 셋인, 신호 분리 방법.