KR100936093B1

KR100936093B1 - 전자 신호로부터의 잡음 제거 방법 및 장치

Info

Publication number: KR100936093B1
Application number: KR1020047007752A
Authority: KR
Inventors: 그레고리씨. 버넷
Original assignee: 앨리프컴
Priority date: 2001-11-21
Filing date: 2002-11-21
Publication date: 2010-01-11
Also published as: JP2005529379A; WO2004056298A1; KR20040077661A; EP1480589A1; AU2002359445A1; CN1589127A

Abstract

사람 스피치로부터 음향 잡음을 제거하는 방법 및 시스템이 기재된다. 음향 잡음은 잡음 종류, 진폭, 또는 방향에 상관없이 제거된다. 이 시스템은 마이크로폰과 음성 활동 검출(VAD) 소자 사이에 연결되는 프로세서를 포함한다. 이 프로세서는 트랜스퍼 함수들을 발생시키는 잡음제거 알고리즘을 실행한다. 프로세서는 마이크로폰으로부터의 음향 데이터와 VAD로부터의 데이터를 수신한다. VAD가 음성 활동을 표시할 때, 그리고 VAD가 음성 활동이 없음을 표시할 때, 프로세서는 여러 다양한 트랜스퍼 함수들을 발생시킨다. 트랜스퍼 함수는 잡음제거된 데이터 스트림을 발생시키는 데 사용된다.

Description

전자 신호로부터의 잡음 제거 방법 및 장치{METHOD AND APPARATUS FOR REMOVING NOISE FROM ELECTRONIC SIGNALS}

본 출원은 2001년 7월 12일자 미국특허출원 09/905,361 호의 연속분할출원(CIP)으로서 그 내용은 본원에서 참고로 인용된다. 본 특허출원은 2001년 11월 21일자 미국특허출원 60/332,202 호를 우선권주장한다.

본 발명은 음향 전송이나 녹음에서 필요치않은 음향 잡음을 제거하거나 억제하기 위한 수학적 방법 및 전자 시스템 분야에 관한 것이다.

전형적인 음향 장치에서는, 사람에게서 나는 소리가 녹음되거나 저장되고 또다른 위치의 수신기에 전송된다. 사용자 환경에서, 필요치않은 음향 잡음으로 대상 신호(사용자 음성)를 오염시키는 한 종류 이상의 잡음 소스가 존재할 수 있다. 이는 수신기가 (사람이든 기계이든) 사용자 음성을 이해하는 것을 힘들게하고 심지어는 불가능하게 한다. 이는 현재 셀룰러 전화와 PDA같은 휴대용 통신 장치의 보급이 확대되면서 특히 문제가 된다. 이러한 잡음 생성을 억제하는 방법들에는 여러 가지가 있으나, 이 방법들은 연산 시간이 오래 걸리거나 성가신 하드웨어들을 필요로하고, 대상 신호를 크게 왜곡시키거나, 유용한 성능이 결여되는 단점이 있다. 이 방법들 중 여러 가지가 ISBN 0-471-62692-9에 실린 Vaseghi의 "Advanced Digital Signal Processing and Noise Reduction" 와 같은 교재에 설명되어 있다.

도 1은 한 실시예의 잡음 제거 시스템의 블록도표.

도 2는 마이크로폰에 대한 직접 경로와 단일 잡음 소스를 가정한, 한 실시예의 잡음 제거 알고리즘의 블록도표.

도 3은 n개의 구분된 잡음 소스로 일반화된 한 실시예의 잡음 제거 알고리즘의 전면 단부의 블록도표.

도 4는 n개의 구분된 잡음 소스와 신호 반사가 존재하는 가장 일반화된 경우의 한 실시예의 잡음 제거 알고리즘의 전면 단부 블록도표.

도 5는 한 실시예의 잡음 제거 방법의 순서도.

도 6은 여러 수많은 화자와 안내방송을 포함하는 공항 터미널 잡음에서 영어를 사용하는 한 미국 여성에 대한 실시예의 잡음 억제 알고리즘의 결과를 보여주는 도면.

도 7 은 도 2, 3, 4의 실시예에서, 일방향 및 전방향 마이크로폰을 이용하는 잡음 제거를 위한 물리적 구현의 블록도표.

도 8 은 한 실시예에서, 두 개의 전방향 마이크로폰을 포함하는 잡음제거 마이크로폰 구조의 도면.

도 9 는 도 8의 실시예에서, 거리에 대해 요구되는 C의 플랏의 도면.

도 10 은 실시예에서, 두 개의 마이크로폰이 서로 다른 응답특성을 보이는 실시예에서 잡음 제거 알고리즘의 앞 종단부(front end)의 블록도표.

도 11A 는 보상전에 마이크로폰 간의(4cm의 거리에서) 주파수 응답(퍼센트)의 차이의 플랏을 도시한다.

도 11B 는 실시예에서, DFT 보상후 마이크로폰 간의 (4cm의 거리에서) 주파수 응답(퍼센트)의 차이의 플랏을 도시한다.

도 11C 는 다른 실시예에서, 시간 영역 필터 보상 후 마이크로폰 간의 (4cm의 거리에서) 주파수 응답(퍼센트)의 차이의 플랏을 도시한다.

도 1은 음성을 낼 때 생리적 정보로부터 도출되는 음성 발생시의 지식을 이용하는 한 실시예의 잡음 제거 시스템의 블록도표이다. 이 시스템은 한개 이상의 프로세서(30)에 신호들을 제공하는 센서(20)와 마이크로폰(10)을 포함한다. 프로세서는 잡음제거 서브시스템이나 알고리즘(40)을 포함한다.

도 2는 단일 잡음 소스와 마이크로폰에 대한 직접 경로를 가정한, 한 실시예의 잡음 제거 시스템/알고리즘의 블록도표이다. 잡음 제거 시스템 도표는 단일 신호 소스(100)와 단일 잡음 소스(101)를 가진, 한 실시예의 과정의 그래픽 표현이다. 이 알고리즘은 두개의 마이크로폰, 즉, "신호" 마이크로폰(MIC1, 102)과 "잡음" 마이크로폰(MIC2, 103)을 이용하지만, 이에 제한되지는 않는다. MIC1은 일부 잡음을 가진 신호를 대부분 캡처한다고 가정하고, MIC2는 일부 신호를 가진 잡음을 대부분 캡처한다고 가정한다. 이는 종래의 개선된 음향 시스템에서 보여주는 공통적 설정이다. 신호 소스(100)로부터 MIC1으로의 데이터는 s(n)으로 표시되고, 신호 소스(100)로부터 MIC2로의 데이터는 s₂(n)으로, 잡음 소스(101)로부터 MIC2로의 데이터는 n(n)으로 표시되고, 잡음 소스(101)로부터 MIC1으로의 데이터는 n₂(n)으로 표시된다. 마찬가지로, MIC1으로부터 잡음 제거 소자(105)로의 데이터는 m₁(n)으로 표시되고, MIC2로부터 잡음 제거 소자(105)로의 데이터는 m₂(n)으로 표시되며, 이때 s(n)은 소스(100)로부터 아날로그 신호의 구분된 샘플을 표시한다.

잡음 제거 소자는 음성 활동 검출(VAD) 소자(104)로부터 신호를 또한 수신한다. VAD 소자(104)는 생리적 정보를 이용하여 화자가 말하고 있는 시점을 결정할 수 있다. 여러 실시예에서, VAD 소자는 RF 소자, 일렉트로글로토그래프(electroglotto graph), 초음파 소자, 음향 인후 마이크로폰, 그리고 기류 검출기를 포함한다.

신호 소스(100)로부터 MIC1까지, 그리고 잡음 소스(101)로부터 MIC2까지의 트랜스퍼 함수는 단위값을 가진다고 가정한다. 신호 소스(100)로부터 MIC2로의 트랜스퍼 함수는 H2(z)로 표시되고 잡음 소스(101)로부터 MIC1으로의 트랜스퍼 함수는 H1(z)로 표시된다. 단위 트랜스퍼 함수를 가정하는 것이 이 알고리즘의 일반성을 해치지는 않는 데, 이는 신호, 잡음, 마이크로폰간 실제 관계가 단순한 비일 뿐이고, 이 비들이 간단하게 이러한 방식으로 재규정되기 때문이다.

종래 잡음 제거 시스템에서는 MIC2로부터의 정보가 MIC1으로부터의 잡음을 제거하려 시도하는 데 사용된다. 그러나, 비구술 가정(unspoken assumption)은 음성 활동 감지(VAD)가 절대로 완전하지 않다는 것이며, 따라서 잡음제거가 잡음과 함께 신호의 상당 부분을 제거하지 않도록 조심스럽게 실행되어야 하는 것이다. 그러나, VAD(104)가 완전하다고 가정되어 사용자에 의해 생성되는 음성이 전혀 없을 때 0과 같고 음성이 생성될 때 1과 같다면, 잡음 제거에 주목할만한 개선이 이루어질 수 있다.

도 2를 참고하여 마이크로폰에 대한 직접 경로와 단일 잡음 소스를 분석할 때, MIC1에 유입되는 총 음향 정보는 m₁(n)으로 표시된다. MIC2에 유입되는 총 음향 정보는 마찬가지로 m₂(n)으로 표시된다. z(디지털 주파수) 도메인에서, 이들은 M₁(z)와 M₂(z)로 표시된다. 그래서,

M₁(z) = S(z) + N₂(z)

M₂(z) = N(z) + S₂(z)

이고

N₂(z) = N(z)H₁(z)

S₂(z) = S(z)H₂(z)

이어서,

M₁(z) = S(z) + N(z)H₁(z)

M₂(z) = N(z) + S(z)H₂(z) 방정식1

이는 모든 두 마이크로폰 시스템에 대한 일반적인 경우이다. 실제 시스템에 서, MIC1으로 일부 잡음 누출이 항상 있을 것이고, MIC2로 일부 신호 누출이 있을 것이다. 방정식 1은 네 개의 미지 관계와 단 두개의 기지 관계를 가지며, 따라서 명백하게 풀릴 수 없다.

그러나, 방정식 1의 미지 관계 중 일부를 해결할 또다른 방식이 있다. 이 분석은 신호가 발생되지 않는 경우의 검사로 시작된다. 즉, VAD 소자로부터의 신호가 0과 같고 음성이 생성되지 않는 경우의 검사로 시작된다. 이 경우에, s(n) = S(z) = 0이고 방정식 1은

M_1n(z) = N(z)H₁(z)

M_2n(z) = N(z)

이때 M 변수에서의 첨자 n은 잡음만이 수신되고 있음을 의미한다.

이는 아래 방정식 2를 유도해낸다.

M_1n(z) = M_2n(z)H₁(z)

H₁(z) = M_1n(z)/M_2n(z) 방정식 2

잡음만이 수신되고 있음을 시스템이 확신할 때 가용 시스템 식별 알고리즘과 마이크로폰 출력 중 하나를 이용하여 H₁(z)가 계산될 수 있다. 이 계산은 적응방식으로 실행될 수 있어서, 시스템이 잡음 변화에 대응할 수 있다.

방정식 1의 미지값 중 하나에 대한 해법이 이제 가능하다. 또다른 미지값 H₂(z)는 VAD가 1과 같고 음성이 생성되고 있는 사례를 이용하여 결정될 수 있다. 이 경우가 발생하고 있으나 마이크로폰의 최근 히스토리가 낮은 수준의 잡음을 표시할 경우, n(s) = N(z)~0 라고 할 수 있다. 그러면 방정식 1은 아래와 같이 단순화된다.

M_1s(z) = S(z)

M_2s(z) = S(z)H₂(z)

이는 다시,

M_2s(z) = M_1s(z)H₂(z)

H₂(z) = M_2s(z)/M_1s(z)

이는 H₁(z) 연산의 역이다. 그러나, 여러 다른 입력들이 사용되고 있음에 주목하여야 한다. 지금은 신호만이 발생하고 있으나 예전에는 잡음만이 발생하였다. H₂(z)를 계산할 때, H₁(z)에 대해 계산한 값들이 일정하게 유지되고, 그 역도 마찬가지다. 따라서, H₁(z)와 H₂(z) 중 하나가 연산될 때 그중 다른 하나가 실질적으로 변하지 않는다고 가정한다.

H₁(z)와 H₂(z)를 계산한 후, 신호로부터 잡음을 제거하는 데 이들이 사용된다. 방정식 1은 아래와 같이 다시 쓰여질 경우,

S(z) = M₁(z) - N(z)H₁(z)

N(z) = M₂(z) - S(z)H₂(z)

S(z) = M₁(z) - [M₂(z)-S(z)H₂(z)]H₁(z)

S(z)[1-H₂(z)H₁(z)] = M₁(z) - M₂(z)H₁(z)

S(z)를 얻기 위해 N(z)에 아래와 같이 대입할 수 있다.

S(z) = [M₁(z)-M₂(z)H₁(z)]/[1-H₂(z)H₁(z)] 방정식 3

트랜스퍼 함수 H₁(z)와 H₂(z)가 충분한 정확도로 기술될 수 있다면, 잡음이 완전히 제거될 수 있고, 원 신호가 회복될 수 있다. 이는 잡음의 진폭/주파수 특성에 상관없이 사실이다. 유일한 가정이라면 VAD가 완벽하고, H₁(z)와 H₂(z)가 충분히 정확하며, 그리고 H₁(z)와 H₂(z) 중 하나가 계산 중일 때 나머지 하나가 실질적으로 변하지 않는다는 점이다. 실제로, 이 가정들은 합리적인 것으로 드러났다.

여기서 설명되는 잡음 제거 알고리즘은 어떠한 수의 잡음 소스도 포함하도록 쉽게 일반화된다. 도 3은 n개의 구분된 잡음 소스로 일반화된, 한 실시예의 잡음 제거 알고리즘의 전면 단부 블록도표이다. 이 구별된 잡음 소스들은 서로 반사나 에코를 일으킬 수 있으나, 이에 제한되지는 않는다. 여러 잡음 소스들이 도시되며, 각각의 잡음 소스들은 각각의 마이크로폰에 대한 트랜스퍼 함수나 경로를 지닌다. 앞서 이름붙여진 경로 H₂는 H₀로 다시 표시되어, MIC1으로의 잡음 소스 2의 경로 표시가 보다 편리하게 된다. 각 마이크로폰의 출력은, z 도메인으로 변환될 때, 다음과 같다.

M₁(z) = S(z) + N₁(z)H₁(z) + N₂(z)H₂(z) + ...N _n(z)H_n(z)

M₂(z) = S(z)H₀(z) + N₁(z)G₁(z) + N₂(z)G₂(z) + ...N_n(z)G_n(z)

어떤 신호도 없을 경우(VAD=0), (명료성을 위해 z를 억제)

M_1n = N₁H₁ + N₂H₂ + ... N_nHn 방정식 4

M_2n = N₁G₁ + N₂G2 + ... N_nG_n 방정식

이제는 새 트랜스퍼 함수가 앞서 H1(z)처럼 정의될 수 있다.

= M_1n/M_12n= (N₁H₁ + N₂H₂ + ... N _nHn)/(N₁G₁ + N₂G2 + ... N_nG_n)방정식 6

은 잡음 소스와 그 트랜스퍼 함수에 따라 좌우되고, 어떤 신호도 전송되지 않는 어떤 순간에도 계산될 수 있다. 다시 한번, 마이크로폰 입력의 n 첨자는 잡음만이 감지되는 것을 표시하며, s 첨자는 마이크로폰에 의해 신호만이 수신되고 있음을 표시한다.

어떤 잡음도 없다는 가정 하에서 방정식 4를 검증하면,

M_1s = S

M_2s = SH₀

H₀은 어떤 가용 트랜스퍼 함수 계산 알고리즘을 이용하여 앞서와 같이 풀릴 수 있다. 수학적으로,

H0 = M_2s/M_1s

방정식 6에서 정의된

을 이용하여 방정식 4를 다시 쓰면,

= (M₁-S)/(M₂-SH₀) 방정식 7

S에 대하여 해를 구하면,

S = (M₁-M₂

)/(1-H₀

) 방정식 8

이는 방정식 3과 같다. H₀가 H₂의 자리를 차지하고 있고

가 H₁의 자리를 차지하고 있다. 따라서, 잡음 제거 알고리즘은 잡음 소스의 다중 에코를 포함하여 어떤 숫자의 잡음 소스에 대해서도 수학적으로 여전히 유효하다. 또한, H₀와

이 매우 높은 정확도로 추정될 수 있고 신호로부터 마이크로폰까지의 단 한가지 경로의 앞서의 가정이 유지될 경우, 잡음이 완전히 제거될 수 있다.

가장 일반적인 경우는 다중 잡음 소스와 다중 신호 소스를 가지는 경우이다. 도 4는 n개의 구분된 잡음 소스와 신호 반사가 존재하는 가장 일반적 경우의 한 실시예의 잡음제거 알고리즘의 전면 단부의 블록도표이다. 여기서 반사된 신호는 두 마이크로폰에 들어간다. 이는 가장 일반적인 경우이다. 왜냐하면, 잡음 소스가 마이크로폰으로 반사해 들어가는 것은 간단한 추가적 잡음 소스로 정확하게 모델링될 수 있다. 명확성을 위해, 신호로부터 MIC2로의 직접 경로는 H₀(z)에서 H₀₀(z)로 변경되었으며, 마이크로폰 1과 2를 향하는 반사된 경로는 H₀₁(z)와 H₀₂(z)로 각각 표시된다.

마이크로폰으로의 입력은 아래와 같이 된다.

M₁(z) = S(z) + S(z)H₀₁(z) + N₁(z)H₁(z) + N₂(z)H ₂(z) +...N_n(z)H_n(z)

M₂(z) = S(z)H₀₀(z) + S(z)H₀₂(z) + N₁(z)G₁(z) + N₂(z)G₂(z) +...N_n(z)G_n(z)

... 방정식 9

VAD=0일 때, 입력은 아래와 같다.(다시 z를 억제)

M_1n = N₁H₁ + N₂H₂ +...N_nH_n

M_2n = N₁G₁ + N₂G₂ +...N_nG_n

이는 방정식 5와 같다. 따라서, 방정식 6에서의

계산은 예상한 바와 같이 변하지 않는다. 잡음이 없는 상황을 점검하면, 방정식 9는 아래와 같이 단순화된다.

M_1s = S + SH₀₁

M_2s = SH₀₀ + SH₀₂

이는 아래와 같이

의 정의를 이끈다.

= M_2s/M_1s = (H₀₀+H₀₂)/(1+H₀₁) 방정식 10

(방정식 7에서처럼)

에 대한 정의를 이용하여 방정식 9를 다시 쓰면,

= [M₁ - S(1+H₀₁)]/[M₂ - S(H₀₀+H₀₂)] 방정식 11

산술적 조작으로 인해,

S(1+H₀₁-

(H₀₀+H₀₂)) = M₁-M₂

S(1+H₀₁)[1-

(H₀₀+H₀₂)/(1+H₀₁)] = M₁ - M₂

S(1+H₀₁)[1-

] = M₁-M₂

따라서,

S(1+H₀₁) = M₁-M₂

/(1-

) 방정식 12

방정식 12는 H₀를

로 치환함으로서, 그리고 좌변에 (1+H₀₁)의 인수를 추가함으로서 방정식 8과 같다. 추가적인 인수는 S가 이 상황에서 직접 풀릴 수 없으나, 신호의 모든 에코를 추가한 신호에 대해 해(solution)가 발생할 수 있다. 이는 에코 억제로 다루기 위한 여러 기존 방법들이 있는 것과 같은 그러한 열악한 상황이 아니며, 에코들이 억제되지 않더라도, 음성의 해독능력에 어떤 상당한 수준까지 영향을 쉽게 미치지는 못한다. 보다 복잡한

의 계산은 잡음 소스로 작용하는 마이크로폰2의 신호 에코를 설명하는 데 필요하다.

도 5는 한 실시예의 잡음 제거 방법의 순서도이다. 동작시에, 음향 신호가 수신된다(단계 502). 게다가, 음성 활동에 연계된 생리적 정보가 수신된다(단계 504). 음향 신호를 나타내는 제 1 트랜스퍼 함수는 한개 이상의 지정 시간 주기동안 음향 신호에 음성 정보가 결여되어 있음을 바탕으로 계산된다(단계 506). 음향 신호를 나타내는 제 2 트랜스퍼 함수는 한개 이상의 명시된 시간 주기동안 음향 신호에 음성 정보가 존재하는 지를 결정함에 따라 계산된다(단계 508). 제 1 트랜스퍼 함수와 제 2 트랜스퍼 함수의 한가지 이상의 조합을 이용하여 음향 신호로부터 잡음이 제거되어, 잡음제거된 음향 데이터 스트림을 생성한다(단계510).

잡음 제거 알고리즘은 직접 경로를 가진 단일 잡음 소스의 가장 간단한 경우로부터 반사와 에코를 가진 다중 잡음 소스까지 설명된다. 이 알고리즘은 어떤 환경 조건하에서도 기능하는 것으로 나타난다. 잡음의 종류와 양은

과

에 대해 좋은 추정치가 만들어질 경우 중요하지 않고, 둘 중 나머지 하나가 계산될 때 하나가 변하지 않을 경우 중요하지 않다. 사용자 환경이 에코가 존재하는 경우라면, 잡음 소스로부터 올 경우 이들이 보상받을 수 있다. 신호 에코가 또한 존재할 경우, 클리닝된 신호에 영향을 미칠 것이고, 그러나, 대부분의 환경에서는 이 효과가 무시할만한 것이어야 할 것이다.

동작 시에, 한 실시예의 알고리즘은 다양한 잡음 종류, 진폭, 방위와의 관계에서 훌륭한 결과를 보여준다. 그러나, 수학적 개념에서 실제 환경으로 옮겨갈 때 항상 근사와 조절이 이루어져야 한다. 한가지 가정이 방정식 3에서 이루어지며, 이때 H₂(z)가 작다고 가정되고, 따라서 H₂(z)H₁(z) ~ 0. 그래서, 방정식 3은 아래와 같이 정리된다.

S(z) ~ M₁(z)-M₂(z)H₁(z)

이는 H₁(z)만 계산되면 된다는 것으로, 이에 따라 과정의 속도를 향상되고 연관된 연산 수가 크게 감소함을 의미한다. 마이크로폰을 적절히 선택함으로서, 이 근사가 쉽게 현실화된다.

또다른 근사는 한 실시예에서 사용되는 필터에 관련된다. 실제 H₁(z)는 극(poles)과 0(zeros)을 가지며, 안정성과 단순성을 위해 모든 0 한정 임펄스 응답(FIR; Finite Impulse Response) 필터가 사용된다. 충분한 탭(60개 주변)을 가질 경우 실제 H₁(z)에 대한 근사가 매우 좋다.

서브밴드 선택에 있어서는, 트랜스퍼 함수가 계산되어야 하는 주파수 범위가 넓을수록, 정확하게 계산하는 것이 어렵다. 따라서 음향 데이터는 16개의 서브밴드로 나누어지고, 이때 최저 주파수는 50Hz, 최고 주파수는 3700Hz가 된다. 잡음 제거 알고리즘이 그후 각각의 서브밴드에 적용되고, 16개의 잡음제거된 데이터 스트림이 재조합되어 잡음제거된 음향 데이터를 도출한다. 이는 매우 잘 동작하지만, 서브밴드의 어떤 다른 조합(가령, 4, 6, 8, 32로 균등하게 이격된 서브밴드들)도 사용될 수 있고 마찬가지로 잘 동작한다고 발견되었다.

잡음의 진폭은 사용되는 마이크로폰이 포화되지 않도록(즉, 선형 응답 범위 바깥에서 동작하도록) 한 실시예에서 제약되었다. 마이크로폰이 최적의 성능을 보장하기 위해 선형으로 동작한다는 것이 중요하다. 이 제한으로도, 매우 낮은 신호대 잡음비(SNR) 신호가 잡음제거될 수 있다(-10dB 미만).

H₁(z)는 최소 평균 제곱(LMS; Least Mean Square) 방식의 공통 적응식 트랜 스퍼 함수를 이용하여 매 10밀리초마다 계산된다. 프렌티스-홀(Prentice-Hall)에서 출판하고 ISBN 0-13-004029-0에 실린 위드로우(Widrow)와 스턴스(Stearns)의 저서 "Adaptive Signal Processing"(1985)에 이에 대한 설명이 실려있다.

한 실시예에 대한 VAD는 고주파(RF) 센서와 두 마이크로폰으로부터 얻어서, 음성 스피치와 비음성 스피치에 대해 매우 높은 정확도(>99%)를 보인다. 한 실시예의 VAD는 고주파(RF) 간섭계를 이용하여 사람 스피치 생성에 관련된 조직 운동을 감지하지만 이에 제한되지는 않는다. 따라서, 음향 잡음으로부터 완전히 자유롭고 어떤 음향 잡음 환경에서도 기능할 수 있다. RF 신호의 간단한 에너지 측정은 음성 스피치가 발생하고 있는 지를 결정하는 데 사용될 수 있다. 비음성 스피치는 RF 센서나 이와 유사한 보이싱 센서를 이용하여, 또는 이들의 조합을 통해 결정되는 음성 섹션에 유사한 방식으로, 기존의 음향-본위 방법을 이용하여 결정될 수 있다. 비-음성 스피치에는 한참 적은 에너지가 있기 때문에, 그 활동 정확도는 음성 스피치만큼 중요하지 않다.

음성 스피치와 비음성 스피치가 신뢰할만하게 감지되면서 한 실시예의 알고리즘이 구현될 수 있다. 또한, 잡음 제거 알고리즘이 VAD를 얻는 방식에 좌우되지 않으며, 음성 스피치에 대해 특히, 정확할 뿐임을 반복하는 것이 유용하다. 스피치가 감지되지 않고 스피치에서 트레이닝이 발생하면, 이어지는 잡음제거된 음향 데이터가 왜곡될 수 있다.

데이터가 네 개의 채널로 수집된다. 한 채널은 MIC1, 한 채널은 MIC2, 나머지 두 채널은 음성 스피치와 관련된 조직 운동을 감지한 고주파 센서에 대한 것이 다. 데이터는 40kHz에서 동시에 샘플링되었으며, 디지털방식으로 여파되어 8kHz로 줄어든다. 높은 샘플링 속도는 아날로그에서 디지털로 변환 과정에서 생길 수 있는 위신호(aliasing)를 감소시키기 위해 사용되었다. 데이터 캡처 및 저장을 위해 4-채널 National Instruments A/D 보드가 Labview와 함께 사용되었다. 데이터는 C프로그램으로 판독되며, 한번에 10밀리초씩 잡음제거된다.

도 6은 여러명의 화자(speakers)들과 안내방송을 포함한 공항 터미널 잡음 존재 하에서 미국영어를 사용하는 여성에 대한 한 실시예의 잡음 억제 알고리즘의 결과를 도시한다. 화자(speaker)는 평상의 공항 터미널 잡음 하에서 번호 406-5562를 말하고 있다. 음향 데이터는 한번에 10밀리초씩 잡음제거되었고, 잡음 제거 이전에 10밀리초의 데이터가 50~3700kHz로 사전에 여파되었다. 대략 17dB의 잡음 감소가 명백히 나타난다. 어떤 사후 여파(post filtering)도 이 샘플에 실행되지 않는다. 따라서, 모든 잡음 감소는 한 실시예의 알고리즘으로 인한 것이다. 알고리즘은 순간적으로 잡음에 대해 조절되며, 다른 화자들로 인한 매우 어려운 잡음을 제거할 수 있다는 것이 명백하다. 여러 다른 종류의 잡음이 검사되어 비슷한 결과를 도출하였으며, 거리의 잡음, 헬리콥터 소리, 음악, 사인파,등이 상기 잡음 종류에 포함된다. 또한, 잡음의 방위는 잡음 억제 성능을 크게 변화시키지 않으면서 변화할 수 있다. 마지막으로, 처리된 스피치의 왜곡은 매우 낮아서, 스피치 인지 엔진과 사람 수신기에 대해 양호한 성능을 보장한다.

한 실시예의 잡음 제거 알고리즘은 어떤 환경 조건 하에서도 기능하는 것으 로 나타났다. 잡음의 종류와 크기는

과

를 훌륭히 추정할 경우 중요하지 않다. 사용자 환경이 에코가 존재하는 경우라면, 잡음 소스로부터 유입될 경우 보상받을 수 있다. 신호 에코가 또한 존재할 경우, 처리된 신호에 영향을 미칠 것이지만, 대부분의 환경에서 그 영향은 무시할 수 있는 것이어야 할 것이다.

도 7은 도 2,3,4 하에서, 잡음에 대하여 일방향 마이크로폰 M2를, 스피치에 대하여 전방향 마이크로폰 M1을 사용하는 잡음제거의 물리적 구현의 블락 다이어그램이다. 위에서 언급한 바와 같이, 스피치에서 잡음 마이크로폰(MIC 2)까지의 경로는 영(0)으로 근사된다. 이러한 근사는 전방향 및 일방향 마이크로폰을 조심스럽게 배치함으로서 구현된다. 이는 잡음이 신호 위치 반대편을 향할 때 매우 잘 기능한다(20-40dB의 잡음 억제). 그러나, 잡음 소스가 화자(잡음 소스 N2)와 같은 편에 위치할 경우, 그 성능은 10-20dB의 잡음 억제에 그친다. 이러한 억제 기능 저하는 H2가 0에 근사된다는 사실을 보장하기 위해 취급되는 단계들로 귀속될 수 있다. 이 단계들은 잡음 마이크로폰(MIC2)에 대한 일방향 마이크로폰의 이용을 포함하였다. 그래서 잡음 데이터에 매우 미약한 신호가 존재한다. 일방향 마이크로폰이 특정 방향으로부터 들어오는 음향 정보를 소거함에 따라, 일방향 마이크로폰은 스피치와 같은 방향에서 수신되는 잡음 역시 소거한다. 이는 N2와 같이 한 위치의 잡음을 특성화하여 제거하는 적응성 알고리즘의 기능을 제한할 수 있다. 일방향 마이크로폰이 스피치 마이크로폰 M1에 사용되는 경우에도 동일한 효과가 나타난다.

그러나, 단일 마이크로폰 M₂가 다른 전방향 마이크로폰으로 대치되면, 상당 한 신호의 양이 M₂에 의해 캡처된다. 이는 앞서 가정한 H₂ 가 영이라는 것에 반대되며, 그리고 결과적으로 발성동안 상당한 신호의 양이 제거되며, 잡음제거와 신호제거의 결과가 도출된다. 이는 신호 왜곡이 계속 최소로 유지되어야 하는 경우에는 받아들일 수 없다. 왜곡을 감소하기 위해, 그 결과로 H₂ 에 대한 값이 계산된다. 그러나, H₂ 에 대한 값은 잡음이 있는 때에는 계산 될 수 없고, 또는 잡음은 스피치로서 잘못 분류되어 제거되지 않는다.

음향만의 마이크로폰 배열의 경우는 작은 2 개의 마이크로폰 배열이 문제의 해결책이 될 수 있음을 제시한다. 도 8은 한 실시예에서, 두 개의 전방향 마이크로폰을 포함하는 잡음제거 마이크로폰의 구조를 도시한다. (신호 소스를 향해) 동일한 방향으로 두 개가 일방향 마이크로폰을 이용하여서도 동일한 효과를 얻을 수 있다. 또하나의 실시예는 한 개의 일방향 마이크로폰과 한 개의 전방향 마이크로폰을 이용한다. 이러한 개념은 신호 소스 방향으로 음향 소스로부터 유사한 정보를 캡처하는 것이다. 신호 소스와 두 마이크로폰의 상대적 위치는 고정되어 있으며 공지되어 있다. 마이크로폰을 n개의 분리된 샘플에 대응하여 d 거리만큼 떨어지도록 배치하고, 배열의 축 상에 스피커를 배치함으로써, C_z ^-n 의 형태로 H₂ 는 고정될 수 있다. 이 때 C는 신호 데이터 M₁ 과 M₂의 신호 데이터 진폭 차이이다. 아래 설명에서, 영을 제외한 어떠한 정수도 사용됨에도 불구하고, n=1 이라 가정하였다. 인과관계를 위해, 양의 정수의 사용이 바람직하다. 구면 압력 소스의 높이가 1/r 로 변 함에 따라, 소스의 방향 특정만이 아니라, 이의 거리조차 허용된다. 요구되는 C는 다음에 의해 추정될 수 있다.

도 9는 도 8의 실시예에서, 요구되는 C에 대한 거리의 플랏이다. 점근선은 C=1.0에서 보여질 수 있으며, C는 대략 39cm에서 0.9에 도달한다. 약간 더 크게는, 대략 60cm에서 C는 0.94에 도달한다. 송수화기와 수화기에서 주로 마주치는 거리에서(4에서 12cm), C는 대략 0.5에서 0.75 사이이다. 이는 대략 60cm에 위치한 잡음소스에서 약 19%에서 44%의 차이이다. 그리고 대부분의 잡음 소스가 이보다 더 멀리 위치하는 것은 명백한 일이다. 따라서 이러한 구성을 이용하는 시스템은 잡음과 신호를 상당히 효율적으로, 심지어 그들이 유사한 방향을 지닌 때에도, 구별할 수 있다.

C의 서투른 잡음 제거 추정치에 대한 결과를 결정하기 위해, C=nC₀라고 가정하며, 이 때 C는 어림치이며 C₀가 C 의 실제 값이다. 위로부터 이러한 신호 정의를 이용하면,

H₂(z)는 매우 작다고 가정했으며, 따라서 신호는 대략 다음과 같아진다,

이는 스피치가 없을 경우 사실이다. 왜냐하면, 정의에 의해 H2 = 0이기 때문이다. 그러나, 스피치가 발생하고 있을 경우, H2는 0 이 아니며, Cz^-1이라고 설정되면,

이는 다음과 같이 다시 쓸 수 있다.

분모의 마지막 요소는 C 의 서투른 추정치에 따른 오류를 결정한다. 이 요소는 E로 명명되며, 다음과 같다.

z^-1H₁(z)는 단지 필터이기 때문에, 이의 크기는 항상 양이다. 따라서, E에 의해 계산된 신호 크기내의 변화는 (1-n)에 완전히 의존한다.

두가지 오류 가능성이 있다: C를 절하한 경우(n<1)와, C를 절상한 경우(n>1)이다. 첫 번째 경우, C는 실제보다 더 작게 평가되거나, 또는 신호는 추정치보다 더 가까워진다. 이 경우에 있어 (1-n)은 양수이고, 따라서 E는 양수이다. 이러한 경우 분모가 너무 크고, 신호의 크기는 너무 작다. 이는 신호-제거를 나타낸다. 두 번째 경우, 신호는 추정치보다 더 멀리 떨어져 있으며, E는 음수여서, 이는 S를 너무 크게 만든다. 이 경우 잡음제거는 불충분하다. 왜냐하면 매우 낮은 신호 왜곡이 바람직하기 때문에, 추정치는 C의 절상 추정을 향해 벗어날 것이다.

이런 결과는 신호와 똑같은 실선 각도(M₁으로부터의 방향)에 위치한 잡음이 신호 위치와 잡음 위치 간 C 의 변화에 따라 실질적으로 제거될 것이라는 점을 또한 보여준다. 따라서, 대략 입으로부터 4cm 떨어진 M_1d을 가진 송수화기를 사용할 때, 요구되는 C는 대략 0.5 이고, 대략 1미터에서의 잡음의 경우 C는 약 0.96이다. 따라서, 잡음에서, C=0.5의 추정치가 의미하는 것은 이 잡음에 대하여 C가 절하추정되었다는 것이며, 제거될 것이라는 것이다. 제거의 양은 (1-n)에 직접적으로 의존할 것이다. 이 알고리즘은 신호에 대한 방향 및 범위를 이용하여 잡음으로부터 신호를 분리시킨다.

발생하는 하나의 논의는 이 기술의 안정성을 포함한다. 구체적으로, 각각의 유성음 단편의 시작에서 1-H₁H₂ 의 역수를 계산하기 위한 필요성이 발생함에 따라, (1-H₁H₂)의 디컨볼루션(deconvolution)이 안정성의 문제를 제기한다. 이는 이 알고리즘 구현에 필요한 연산 시간이나 사이클당 명령 수를 감소시키는 데 도움이 된다. 왜냐하면, 모든 유성음 윈도의 역수를 연산할 필요가 없고 첫 번째 것만 연산하면 되기 때문이다. 그 이유는 H₂가 상수로 간주되기 때문이다. 그러나 이는, 거짓 양수를 만날 때마다 1-H₁H₂의 역수의 연산을 필요로하기 때문에 거짓 양수의 연산을 힘들게 할 것이다.

운이 좋게도, H₂의 선택은 디컨볼루션에 대한 필요성을 제거한다. 위의 설 명으로부터, 신호는 다음과 같이 쓸 수 있다.

이는 다음과 같이 다시 쓸 수 있다.

또는

그러나, H₂(z)는 Cz^-1의 형태이기 때문에, 시간 영역에서의 수열은 다음과 같다.

이것이 의미하는 것은 상기 현 신호 샘플이 상기 현 MIC 1 신호, 상기 현 MIC 2신호, 그리고 상기 이전 신호 샘플을 요구한다는 것이다. 이것이 의미하는 것은 어떠한 디컨볼루션도 필요로 되지 않으며, 이는 단지 이전과 같은 단순한 뺄셈에 이은 예전같은 컨볼루션만이 필요하다는 것이다. 요구되는 연산 증가도 최소일 것이다. 따라서 이는 실현하기에 용이하다.

이 실시예에서의 마이크로폰 응답내의 차이의 효과는, 도 2, 3, 4를 참고하여 기재된 구성을 검사함으로서 나타날 수 있으며, 이러한 구성에는 단지 이러한 시간 트랜스퍼 함수 A(z)와 B(z)만이 포함되며, 이는 MIC 1과 MIC 2의 주파수 응답 을 필터링 및 증폭 응답과 함께 표현한다. 도 10은 두 개의 마이크로폰이 서로 다른 응답 특성을 지니는 실시예에서, 잡음 제거 알고리즘의 전면 단부의 블록도표이다.

도 10은 단일 신호 소스(1000)와 단일 잡음 소스(1001)를 포함하는 한 실시예의 처리에 대한 그래픽 표현이다. 이 알고리즘은 두 개의 마이크로폰을 이용한다. 즉, 신호 마이크로폰 1(MIC1)과 잡음 마이크로폰 2(MIC2)를 포함하는 데, 이에 제한되지는 않는다. MIC1은 주로 신호를 일부 잡음과 함께 캡처한다고 가정되며, MIC2는 주로 잡음을 일부 신호와 함께 캡처한다고 가정된다. 신호 소스(1000)로부터 MIC1 으로의 데이터는 s(n)으로 표시되고, 이때, s(n)은 신호 소스(1000)로부터 아날로그 신호의 구분된 샘플이다. 신호 소스(1000)로부터 MIC2로의 데이터는 s₂(n)으로 표시된다. 잡음 소스(1001)로부터 MIC2로의 데이터는 n(n)으로 표시되고, 잡음 소스(1001)로부터 MIC1으로의 데이터는 n₂(n)으로 표시된다.

트랜스퍼 함수 A(z)는 MIC1의 주파수 응답을 그 필터링 및 증폭 응답과 함께 표현한다. 트랜스퍼 함수 B(z)는 MIC2의 주파수 응답을 필터링 및 증폭 응답과 함께 표현한다. 트랜스퍼 함수 A(z)의 출력은 m₁(n)으로 표현되고, 트랜스퍼 함수 B(z)의 출력은 m₂(n)으로 표시된다. 신호 m₁(n)과 m₂(n)은 잡음 제거 소자(1005)에 의해 수신되며, 신호에 대하여 동작하여 "클리닝된 스피치"를 출력한다.

이후, 용어 " MIC X의 주파수 응답" 은 그 마이크로폰에서의 데이터 기록 처리동안 발생하는 마이크로 폰의 결합 효과와 어떠한 증폭 또는 필터링 과정을 포함 한다. 신호와 잡음에 대해 풀 때( 명확성을 위해 z 를 억제한다)

이 때, 뒤의 것을 전의 것으로 대치하면,

이는 (MIC1과 MIC2간의) 주파수 응답의 차이가 영향을 지니는 것을 나타내는 것으로 보인다. 그러나, 측정되는 바에 주목하여야 한다. 이전에(마이크로폰의 주파수 응답을 고려하기 전에), H₁은 다음의 것을 이용하여 측정되었다.

이 때, n 첨자는 이 연산이 단지 잡음만을 포함하는 윈도우의 기간동안 구현된다는 것을 나타낸다. 그러나, 상기 식을 관찰할 때, 신호가 없을 때는 마이크로폰에서 아래와 같이 측정된다는 점에 주목하여야 한다.

따라서, H₁은 다음과 같이 계산되어야 한다.

그러나, B(z)와 A(z)는 H₁(z)를 계산할 때 고려되지 않는다.

따라서, 실제로 측정된 것은 각 마이크로폰에서의 신호들의 비인 것이다.

이때,

은 측정된 응답을 나타내며, H₁은 실제 응답이다. H₂ 의 계산도 유사하며. 그 결과는 다음과 같다.

위의 S에 관한 식에,

과

를 대입하면,

또는

이는, 마이크로폰의 주파수 응답이 포함되지 않을 때, 앞서의 경우와 같다. 여기서 S(z)A(z)가 S(z)를 대치하고, 그 값(

(z)와

(z))가 실제의 H₁(z) 와 H₂(z)를 대치한다. 따라서, 이 알고리즘은, 이론상, 마이크로폰에 독립적이며, 관련 필터와 증폭기 응답에도 독립적이다.

그러나 실제의 경우에는, H₂=C_z ^-1(이때 C는 상수)라고 가정되나, 실제로는

따라서 결과는

이는 알려지지 않은 B(z)와 A(z)에 의존적이다. 이는 만일 마이크로폰들의 주파수 응답이 실질적으로 서로 다른 경우 문제를 일으킬 수 있으며, 이는 흔한 경우로서, 특히 흔히 사용되는 저렴한 마이크로폰의 경우 더욱 문제가 된다. 이는 MIC1으로부터 수신되는 데이터에 대해 적절한 관계를 가지도록 MIC2로부터의 데이터가 보상되어야 한다는 것을 의미한다. 이는 실제 신호에 대하여 예상되는 방향 및 거리에 위치하는 소스로부터 MIC1 및 MIC2의 광대역 신호를 레코딩함으로써 구현될 수 있다. 각각의 마이크로폰 신호의 DFT(이산 푸리에 변환)가 이때 계산되고, 각각 주파수 빈(bin)에서의 변환의 크기도 계산된다. 각각의 주파수 빈에서의 MIC 2에 대한 DFT 의 크기는 MIC 1에 대한 DFT 의 크기와 C의 곱과 같도록 정해진다. 만일 이 M₁[n]에 대한 DFT 의 n번째 주파수 빈의 크기를 나타내면, M₂[n]과 곱할 요소는,

이 된다.

이전의 MIC 2 DFT 위상을 이용하여, 새로운 MIC 2 DFT 진폭에 역변환이 적용된다. 이런 방법으로, MIC 2 가 재합성되어,

스피치만이 발생하고 있을 때 위 관계가 성립된다. 이 변환은 F의 특성에 가능한 가깝게 에뮬레이팅하는 필터를 이용하여, 시간 도메인에서 또한 실행될 수 있다. (예를들어, 매트랩 함수 FFT2.M 은 적합한 FIR 필터를 설계하기 위해 F[n]의 계산된 값과 함께 사용될 수 있다)

도 11A는 보상 전, 마이크로폰간의(4cm 간격으로 떨어진) 주파수 응답 차이(퍼센트)의 플랏이다. 도 11B는 DFT 보상 후, 마이크로폰간의(4cm 간격으로 떨어진) 주파수 응답 차이(퍼센트)의 플랏이다. 도 11C는 시간 영역 필터 보상 후, 마이크로폰간의(4cm 간격으로 떨어진) 주파수 응답 차이(퍼센트)의 플랏이다. 이러한 플랏은 위에서 언급한 보상 방법의 효율성을 보여준다. 따라서, 두 개의 매우 저렴한 전방향/일방향 마이크로폰의 사용으로, 두 보상 방법이 마이크로폰간의 정확한 관계를 복원한다.

변환은 상대적인 증폭과 필터링 과정이 변화하지 않는 한, 상대적으로 일정하여야 한다. 따라서, 보상 과정은 단지 제조 단계에서 한번만 수행될 필요가 있다. 그러나, 만일 필요하다면,매우 적은 잡음과 강한 신호를 지니는 분위기에서 시스템이 사용될 때까지, H₂ =0 이라는 가정 하에서 이 알고리즘이 동작하도록 설정될 수 있다. 그후 보상 계수 F[n]은 이 시간부터 계산되고 사용될 수 있다. 잡음이 거 의 없을 때는 잡음 제거가 필요하지 않기 때문에, 이 계산은 잡음제거 알고리즘에 부적절한 부담을 주지 않는다. 상기 잡음제거 계수는 또한 잡음 환경이 최대 정확성에 유리할 때 언제든지 업데이트 될 수 있다.

여기서 보여지는 도면내에 묘사된 각각의 블록들과 단계들은 스스로 여기에 묘사될 필요없는 일련의 동작들을 포함할 수 있다. 관련 발명의 당업자들은 루틴, 알고리즘, 소스 코드, 마이크로코드, 프로그램 로직 어레이를 구현할 수 있을 것이고, 본원에서 기재된 상세한 설명과 도면을 바탕으로 발명을 구현할 수 있을 것이다. 여기서 설명되는 루틴은 아래 단락의 하나 이상의 것에 의해, 또는 아래 단락의 하나 이상의 조합에 의해 제공될 수 있다. 이는 관련 프로세서나 프로세서의 부분을 형성하는 비휘발성 메모리(보여지지 않음) 내에 저장되거나, 또는 디스크와 같은 이동가능한 미디어에 저장되거나, 또는 서버로부터 다운로드 되고 클라이언트 지역에 저장되거나, 또는 EEPROM 과 같은 반도체 칩, ASIC, 또는 DSP(디지털 신호 처리) 집적 회로 내에 배선되고 미리 프로그램 된다.

Claims

전기 신호로부터 잡음을 제거하기 위한 방법으로서, 이 방법은,

- 제 1 수신 소자(MIC1)에서 다수의 음향 신호를 수신하고,

- 제 2 수신 소자(MIC2)에서 다수의 음향 신호를 수신하며, 이때, 다수의 음향 신호는 한 개 이상의 잡음 소스에 의해 발생되는 한 개 이상의 잡음 신호와, 한 개 이상의 신호 소스에 의해 발생되는 한 개 이상의 음성 신호를 포함하며, 상기 한 개 이상의 신호 소스는 한명의 화자(또는 스피커)를 포함하고, 신호 소스, 제 1 수신 소자(MIC1) 및 제 2 수신 소자(MIC2)의 상대적 위치는 공지되어 있고 고정되어 있으며,

- 음성 활동이 존재하는 지 여부를 포함하여 화자(또는 스피커)의 음성 활동에 관련된 생리적 정보를 수신하고,

- 한 개 이상의 명시된 주기동안 다수의 음향 신호로부터 음성 활동이 결여되어 있다고 결정하면, 다수의 음향 잡음 신호를 나타내는 한 개 이상의 제 1 트랜스퍼 함수를 발생시키고,

- 상기 한 개 이상의 명시된 주기동안 다수의 음향 신호에 음성 정보가 존재한다고 결정하면, 다수의 음향 신호를 표현하는 한 개 이상의 제 2 트랜스퍼 함수를 발생시키며, 그리고

- 상기 한 개 이상의 제 1 트랜스퍼 함수와 상기 한 개 이상의 제 2 트랜스퍼 함수의 한가지 이상의 조합을 이용하여 다수의 음향 신호로부터 잡음을 제거하고, 그래서 한 개 이상의 잡음제거된 데이터 스트림을 생성하도록 하는

단계를 포함하는 것을 특징으로 하는 전기 신호의 잡음 제거 방법.
제 1 항에 있어서, 일방향 마이크로폰과 전방향 마이크로폰을 포함하는 그룹 중에서 선택된 한 개의 마이크로폰을 상기 제 1 수신 소자(MIC1)와 상기 제 2 수신 소자(MIC2)가 각각 포함하는 것을 특징으로 하는 전기 신호의 잡음 제거 방법.
제 1 항에 있어서, 다수의 음향 신호들이 구분된 시간 샘플들로 수신되고, 제 1 수신 소자(MIC1)와 제 2 수신 소자(MIC2)는 거리 d 만큼 이격되어 있으며, 이때, d는 n개의 구분된 시간 샘플들에 해당하는 것을 특징으로 하는 전기 신호의 잡음 제거 방법.
제 1 항에 있어서, 제 1 수신 소자(MIC1)의 신호 데이터 진폭과 제 2 수신 소자(MIC2)의 신호 데이터 진폭간 차이의 함수로 상기 한 개 이상의 제 2 트랜스퍼 함수가 고정되는 것을 특징으로 하는 전기 신호의 잡음 제거 방법.
제 1 항에 있어서, 다수의 음향 신호로부터 잡음을 제거하는 상기 단계는 제 1 수신 소자(MIC1)로부터 한 개 이상의 신호 소스에 대한 방향 및 범위를 이용하는 과정을 포함하는 것을 특징으로 하는 전기 신호의 잡음 제거 방법.
제 1 항에 있어서, 제 1 수신 소자(MIC1)와 제 2 수신 소자(MIC2)의 주파수 응답은 서로 상이하며, 상기 제 2 수신 소자(MIC2)로부터의 신호 데이터는, 상기 제 1 수신 소자(MIC1)로부터의 신호 데이터에 비례하도록 보상(compensation)되는 것을 특징으로 하는 전기 신호의 잡음 제거 방법.
제 6 항에 있어서,

제 2 수신 소자(MIC2)로부터의 신호 데이터를 보상하는 상기 단계는, 상기 한 개 이상의 신호 소스로부터 한 신호에 대해 예기되는 방향 및 위치에 놓인 한 소스로부터의 광대역 신호를 상기 제 1 수신 소자(MIC1)와 상기 제 2 수신 소자(MIC2)에서 레코딩하는 과정을 포함하는 것을 특징으로 하는 전기 신호의 잡음 제거 방법.
제 6 항에 있어서, 제 2 수신 소자(MIC2)로부터의 신호 데이터를 보상하는 상기 단계는 주파수 도메인 보상 과정을 포함하는 것을 특징으로 하는 전기 신호의 잡음 제거 방법.
제 8 항에 있어서, 상기 주파수 도메인 보상 과정은,

- 제 1 수신 소자(MIC1) 및 제 2 수신 소자(MIC2) 신호 각각으로부터 신호 데이터에 대한 주파수 변환을 연산하고,

- 각각의 주파수 빈(bin)에서 주파수 변환의 크기를 결정하며, 그리고

- 각각의 주파수에서 제 2 수신 소자(MIC2)로부터의 신호 데이터에 대한 주파수 변환의 크기를, 제 1 수신 소자(MIC1)로부터의 신호 데이터에 대한 주파수 변환의 크기와 비례하는 값으로 설정하는

단계를 포함하는 것을 특징으로 하는 전기 신호의 잡음 제거 방법.
제 6 항에 있어서, 제 2 수신 소자(MIC2)로부터의 신호 데이터를 보상하는 상기 단계는 시간 도메인 보상 과정을 포함하는 것을 특징으로 하는 전기 신호의 잡음 제거 방법.
제 6 항에 있어서, 상기 방법은,

- 한 개 이상의 제 2 트랜스퍼 함수를 0으로 최초 설정하고, 그리고

- 한 개 이상의 음성 신호에 비해 한 개 이상의 잡음 신호가 작을 경우마다 보상 계수를 연산하는

단계를 추가로 포함하는 것을 특징으로 하는 전기 신호의 잡음 제거 방법.
제 1 항에 있어서, 다수의 음향 신호는 한 개 이상의 잡음 신호의 한 개 이상의 반사와 한 개 이상의 음성 신호의 한 개 이상의 반사를 포함하는 것을 특징으로 하는 전기 신호의 잡음 제거 방법.
제 1 항에 있어서, 생리적 정보를 수신하는 상기 단계는, 음향 마이크로폰, RF 소자, 일렉트로글로토그래프(electroglottograph), 초음파 소자, 음향 인후 마이크로폰(acoustic throat microphones), 그리고 기류 검출기로 구성되는 그룹 중에서 선택된 한 개 이상의 검출기를 이용하여 사람 음성에 관련된 생리적 데이터를 수신하는 과정을 포함하는 것을 특징으로 하는 전기 신호의 잡음 제거 방법.
제 1 항에 있어서, 한 개 이상의 제 1 트랜스퍼 함수와 한 개 이상의 제 2 트랜스퍼 함수를 발생시키는 상기 단계는 적응성 기술과 반복적 기술을 포함하는 그룹 중에서 선택된 한 개 이상의 기술을 이용하는 과정을 포함하는 것을 특징으로 하는 전기 신호의 잡음 제거 방법.
음향 신호로부터 잡음을 제거하는 시스템으로서,

이 시스템은 한 개 이상의 수신기, 한 개 이상의 센서, 그리고 한 개 이상의 프로세서를 포함하고,

상기 한 개 이상의 수신기는 한 개의 신호 소스로부터 한 개 이상의 음향 신호를 수신하는 신호 수신기(MIC1)와, 한 개의 잡음 소스로부터 한 개 이상의 잡음 신호를 수신하는 잡음 수신기(MIC2)를 포함하며, 이때, 신호 소스, 신호 수신기(MIC1) 및 잡음 수신기(MIC2)의 상대적 위치는 고정되어 있고 공지되어 있으며,

상기 한 개 이상의 센서는 사람의 음성 활동에 관련된 생리적 정보를 수신하며,

상기 한 개 이상의 프로세서는 한 개 이상의 수신기와 한 개 이상의 센서 사이에 연결되어 다수의 트랜스퍼 함수들을 발생시키고,

한개 이상의 명시된 시간 주기동안 한 개 이상의 음향 신호로부터 음성 정보가 결여되어 있음을 결정함에 따라, 한 개 이상의 음향 신호를 나타내는 한 개 이상의 제 1 트랜스퍼 함수가 발생되며,

한 개 이상의 명시된 시간 주기 동안 한 개 이상의 음향 신호에 음성 정보가 존재한다고 결정될 경우, 한 개 이상의 음향 신호를 나타내는 한 개 이상의 제 2 트랜스퍼 함수가 발생되며,

상기 한 개 이상의 제 1 트랜스퍼 함수와 상기 한 개 이상의 제 2 트랜스퍼 함수의 한가지 이상의 조합을 이용하여 한 개 이상의 음향 신호로부터 잡음이 제거되는 것을 특징으로 하는 음향 신호의 잡음 제거 시스템.
제 15 항에 있어서, 상기 한 개 이상의 센서는 사람 스피치에 관련된 조직 운동을 검출하는 한 개 이상의 고주파(RF) 간섭계를 포함하는 것을 특징으로 하는 음향 신호의 잡음 제거 시스템.
제 15 항에 있어서, 상기 한개 이상의 센서는 음향 마이크로폰, 고주파 소자, 일렉트로글로토그래프(electroglottographs), 초음파 소자, 음향 인후 마이크로폰(acoustic throat microphones), 그리고 기류 검출기로 구성되는 그룹으로부터 선택된 한개 이상의 센서를 포함하는 것을 특징으로 하는 음향 신호의 잡음 제거 시스템.
제 15 항에 있어서, 상기 한 개 이상의 프로세서는,

- 한개 이상의 음향 신호의 음향 데이터를 다수의 서브밴드로 나누고,

- 한개 이상의 제 1 트랜스퍼 함수와 한개 이상의 제 2 트랜스퍼 함수의 한가지 이상의 조합을 이용하여 다수의 서브밴드 각각으로부터 잡음을 제거하며, 이때 잡음제거된 다수의 음향 데이터 스트림이 발생되며, 그리고

- 잡음제거된 한개 이상의 음향 데이터 스트림을 발생시키기 위해 잡음제거된 다수의 음향 데이터 스트림을 조합하는

것을 특징으로 하는 음향 신호의 잡음 제거 시스템.
제 15 항에 있어서, 상기 신호 수신기(MIC1)와 상기 잡음 수신기(MIC2)는 일방향 마이크로폰 및 전방향 마이크로폰을 포함하는 그룹 중에서 선택된 각각의 마이크로폰인 것을 특징으로 하는 음향 신호의 잡음 제거 시스템.
한 명 이상의 사용자와 한 개 이상의 전기 소자 사이에 연결되는 신호 처리 시스템으로서,

이 신호 처리 시스템은 제 1 수신 소자(MIC1), 제 2 수신 소자(MIC2), 그리고 한 개 이상의 잡음제거 서브시스템을 포함하고,

상기 제 1 수신 소자(MIC1)는 한 개의 신호 소스로부터 한 개 이상의 음향 신호를 수신하도록 배열되고, 상기 제 2 수신 소자(MIC2)는 한 개의 잡음 소스로부터 한 개 이상의 잡음 신호를 수신하도록 배열되며, 이때, 상기 신호 소스, 제 1 수신 소자(MIC1) 및 제 2 수신 소자(MIC2)의 상대적 위치는 고정되어 있고 공지되어 있으며,

상기 한 개 이상의 잡음 제거 서브시스템은 음향 신호로부터 잡음을 제거하고,

상기 잡음 제거 서브시스템은 한 개 이상의 프로세서와 한 개 이상의 센서를 포함하며,

상기 한 개 이상의 프로세서는 제 1 수신 소자(MIC1)와 제 2 수신 소자(MIC2) 사이에 연결되고, 그리고

상기 한 개 이상의 센서는 한 개 이상의 프로세서에 연결되며, 상기 한 개 이상의 센서는 사람의 음성 활동에 관련된 생리적 정보를 수신하도록 구성되고, 상기 한 개 이상의 프로세서는 다수의 트랜스퍼 함수를 발생시키며,

한개 이상의 명시된 시간 주기동안 한 개 이상의 음향 신호로부터 음성 정보가 결여되어 있음을 결정함에 따라, 한 개 이상의 음향 신호를 나타내는 한 개 이상의 제 1 트랜스퍼 함수가 발생되며,

한개 이상의 명시된 시간 주기동안 한 개 이상의 음향 신호에 음성 정보가 존재한다고 결정될 경우, 한 개 이상의 음향 신호를 나타내는 한 개 이상의 제 2 트랜스퍼 함수가 발생되며,

상기 한 개 이상의 제 1 트랜스퍼 함수와 상기 한 개 이상의 제 2 트랜스퍼 함수의 한가지 이상의 조합을 이용하여 한 개 이상의 음향 신호로부터 잡음이 제거되어, 잡음 제거된 한 개 이상의 데이터 스트림을 생성하도록 하는 것을 특징으로 하는 신호 처리 시스템.
제 20 항에 있어서, 제 1 수신 소자(MIC1)와 제 2 수신 소자(MIC2)는 일방향 마이크로폰과 전방향 마이크로폰들로 구성되는 그룹 중에서 선택된 각각의 마이크로폰인 것을 특징으로 하는 신호 처리 시스템.
제 20 항에 있어서, 상기 한 개 이상의 음향 신호는 구분된 시간 샘플들로 수신되며, 상기 제 1 수신 소자(MIC1)와 상기 제 2 수신 소자(MIC2)는 거리 d 만큼 이격되어 위치하며, 이때, 상기 d는 n개의 구분된 시간 샘플에 해당하는 것을 특징으로 하는 신호 처리 시스템.
제 20 항에 있어서, 제 1 수신 소자(MIC1)의 신호 데이터 진폭과 제 2 수신 소자(MIC2)의 신호 데이터 진폭간 차이의 함수로 한 개 이상의 제 2 트랜스퍼 함수가 고정되는 것을 특징으로 하는 신호 처리 시스템.
제 20 항에 있어서, 한 개 이상의 음향 신호로부터 잡음을 제거하는 것은 제 1 수신 소자(MIC1)로부터 한 개 이상의 신호 소스에 대한 방향 및 범위를 이용하는 것을 특징으로 하는 신호 처리 시스템.
제 20 항에 있어서,

제 1 수신 소자(MIC1)와 제 2 수신 소자(MIC2)의 주파수 응답은 서로 상이하며,

상기 제 2 수신 소자(MIC2)로부터의 신호 데이터는, 상기 제 1 수신 소자(MIC1)로부터의 신호 데이터에 비례하도록 보상(compensation)되는 것을 특징으로 하는 신호 처리 시스템.
제 25 항에 있어서, 제 2 수신 소자(MIC2)로부터의 신호 데이터를 보상하는 것은, 한 개 이상의 신호 소스로부터의 신호에 대해 기대되는 방향 및 거리에 위치하는 소스로부터의 광대역 신호를 상기 제 1 수신 소자(MIC1)와 상기 제 2 수신 소자(MIC2)에 레코딩하는 것을 특징으로 하는 신호 처리 시스템.
제 25 항에 있어서, 상기 제 2 수신 소자(MIC2)로부터의 신호 데이터를 보상하는 것은 주파수 도메인 보상을 포함하는 것을 특징으로 하는 신호 처리 시스템.
제 27 항에 있어서, 상기 주파수 보상은,

- 제 1 수신 소자(MIC1) 및 제 2 수신 소자(MIC2) 신호 각각으로부터 신호 데이터에 대한 주파수 변환을 연산하고,

- 각각의 주파수 빈(bin)에서 주파수 변환의 크기를 연산하며, 그리고

- 각각의 주파수에서 제 2 수신 소자(MIC2)로부터의 신호 데이터에 대한 주파수 변환의 크기를, 제 1 수신 소자(MIC1)로부터의 신호 데이터에 대한 주파수 변환의 크기에 비례하는 값으로 설정하는

것을 특징으로 하는 신호 처리 시스템.
제 25 항에 있어서, 제 2 수신 소자(MIC2)로부터 신호 데이터를 보상하는 것은 시간 도메인 보상을 포함하는 것을 특징으로 하는 신호 처리 시스템.
제 25 항에 있어서, 상기 보상은,

- 한 개 이상의 제 2 트랜스퍼 함수를 0으로 초기 설정하고, 그리고

- 한 개 이상의 잡음 신호가 한 개 이상의 음향 신호에 비해 작을 때마다 보상 계수를 연산하는

것을 특징으로 하는 신호 처리 시스템.
제 20 항에 있어서, 상기 한 개 이상의 음향 신호는 한 개 이상의 잡음 신호의 한 개 이상의 반사와 한 개 이상의 음향 신호의 한 개 이상의 반사를 포함하는 것을 특징으로 하는 신호 처리 시스템.
제 20 항에 있어서, 생리적 정보를 수신하는 것은,

음향 마이크로폰, RF 소자, 일렉트로글로토그래프(electroglottograph), 초음파 소자, 음향 인후 마이크로폰(acoustic throat microphones), 그리고 기류 검출기로 구성되는 그룹 중에서 선택된 한 개 이상의 검출기를 이용하여 사람 음성에 관련된 생리적 데이터를 수신하는 것을 특징으로 하는 신호 처리 시스템.
제 20 항에 있어서, 한 개 이상의 제 1 트랜스퍼 함수와 한 개 이상의 제 2 트랜스퍼 함수를 발생시키는 것은 적응성 기술과 반복적 기술을 포함하는 그룹 중에서 선택된 한가지 이상의 기술을 이용하는 것을 특징으로 하는 신호 처리 시스템.