KR100751921B1

KR100751921B1 - 멀티채널 음성신호의 잡음제거 방법 및 장치

Info

Publication number: KR100751921B1
Application number: KR1020050108226A
Authority: KR
Inventors: 고한석; 안성주
Original assignee: 고려대학교 산학협력단
Priority date: 2005-11-11
Filing date: 2005-11-11
Publication date: 2007-08-24
Also published as: KR20070050694A

Abstract

멀티채널 음성신호의 잡음제거 방법 및 장치가 개시된다. 그 잡음제거 방법은 (a) 음성신호로부터 환경에 따른 잡음 고유의 성분을 제거하는 단계; (b) 상기 잡음 고유성분이 제거된 음성신호로부터 음성과 잡음을 분리하는 단계; 및 (c) 상기 분리된 음성에 남아있는 잔여 잡음을 제거하는 후처리 단계를 포함함을 특징으로 한다.

본 발명에 의하면, 멀티채널 잡음 제거 시스템의 입력단에서 잡음을 제거함으로써 결과적으로 단일 채널 환경에서의 잡음처리 방법보다 향상된 성능을 얻을 수 있고, 전체 시스템의 성능을 향상시킬 수 있다.

Description

멀티채널 음성신호의 잡음제거 방법 및 장치{Method and apparatus for removing noise of multi-channel voice signal}

도 1은 종래의 GSC 잡음 제거 방법에 대한 개략도이다.

도 2는 본 발명에 의한 멀티채널 음성신호의 잡음제거 장치에 대한 일실시예의 구성을 블록도로 도시한 것이다.

도 3은 도 2의 음성&잡음 분리부(220)의 보다 상세한 구성을 블록도로 도시한 것이다.

도 4는 도 3의 시간지연보상부(300)의 보다 상세한 구성을 블록도로 도시한 것이다.

도 5는 eigen 필터링부(340)의 보다 세부적인 구성을 블록도로 도시한 것이다.

도 6은 본 발명에 의한 멀티채널 음성신호의 잡음제거 방법에 대한 일실시예를 흐름도로 도시한 것이다.

도 7은 도 6의 음성과 잡음의 분리(620단계) 과정에 대한 보다 세부적인 과정을 흐름도로 도시한 것이다.

본 발명은 음성인식에 관한 것으로서, 특히 멀티채널 음성신호의 잡음제거 방법 및 장치에 관한 것이다.

음성인식 또는 통신시스템은 잡음이 없거나 비교적 조용한 실험실 환경에서는 좋은 성능을 나타낸다. 그러나 이를 실용화하여 실제 현장에서 사용할 경우에는 여러 가지 잡음요인들에 의하여 인식성능이 현저히 저하된다. 즉, 음성인식 시스템은 배경잡음 및 간섭신호 등에 의해 그 성능의 저하가 현저하므로 실제 환경에서 만족할 만한 성능을 보이기 위해서는, 마이크에 입력되는 원치 않는 신호들에 의한 영향을 배제시키거나 완화시키는 음성 전처리 기술이 필수적이다. 이러한 음성 전처리 기술들은 과거 수십 년 동안 잡음 제거를 위해 많은 연구들이 진행 되어 왔었다. 특히, 음성신호 처리 분야의 경우 단일 마이크 기반의 전처리 알고리즘은 적은 계산량과 구현의 용이성으로 인해 주된 잡음제거 기법으로 다루어져 왔으며, 그 성능 또한 점차 향상되어 왔다. 그러나 이는 정확한 잡음 성분의 추정을 전제로 하기 때문에, 잡음성분에 대한 정보가 부족할 경우 안정적인(변화가 없는) 잡음에 한해서만 효과적인 성능을 얻을 수 있다는 단점을 지닌다. 따라서 여러 개의 마이크를 통해 음성신호 및 잡음에 대한 다양한 정보를 얻고, 이를 이용하여 잡음 제거 또는 음성신호를 강화하는 방법들이 개발되어 왔다. 그러나 여러 개의 마이크를 이용하여 잡음을 제거하는 방법들은 계산량과 처리속도 등이 증가하는 단점이 있다. 따라서 이에 대한 해결방법으로 두개의 마이크를 이용해서 잡음을 제거하는 기술이 적당하다고 할 수 있다.

기존의 멀티채널에서의 잡음처리 방법 중 Adaptive Noise Cancelling(ANC) 방법을 적용할 경우, 두 마이크 중 reference 마이크(두번째 마이크)의 입력에 잡음 신호만이 존재하여야 되는 가정이 있는데, 이 가정을 만족시키기가 어려움이 있고, 또한 두 개의 마이크가 완전히 분리되어 있지 않기 때문에 reference 마이크에도 우리가 원하는 음성신호가 많이 포함되어 있다는 것이다. 실제적으로 ANC 방법이 효과적으로 적용되기 위해서는 primary(첫번째) 마이크와 reference 마이크의 잡음이 크게 상관(correlation)되어 있어야 한다. 그리고 이를 만족하기 위해서는 두 마이크를 서로 가깝게 설치하여야 한다. 그러나 이렇게 할 경우 reference 마이크에도 desired 음성신호가 많이 존재하고(Cross-talk Interference라고 함), 여기에 ANC 방법을 적용할 경우 ANC는 잡음뿐만 아니라 desired 신호까지 제거해버려 성능하락의 주요 요인이 된다.

다음으로 가장 널리 알려져 있는 방법의 하나로서 GSC(Generalized Sidelobe Canceller)가 있다. 도 1은 종래의 GSC 잡음 제거 방법에 대한 개략도이다. 도 1에서 GSC는 혼음패턴 생성부(100), 순수 잡음 패턴 생성부(102), 적응 필터링부(104), 감산부(106)로 이루어진다. 혼음 패턴 생성부(100)는 두 입력의 합을 반으로 나눔으로써 원음성+잡음의 혼음을 생성하고, 순수 잡음 패턴 생성부(102)는 두 입력의 차로 음성 성분을 제거한 뒤 이를 반으로 나눔으로써 두 입력의 순수 잡음 차 성분을 생성하며, 적응 필터부(104)는 순수 잡음 패턴 생성부(102)에서 생성된 순수 잡음 패턴을 입력으로 하여 적응 필터링을 통해 혼음 패턴 내의 잡음 성분을 추정토록 한다. 감산부(106)는 이와 같이 추정되어진 잡음을 혼음에서 감산함으로 써 최종적으로 음성 성분을 출력한다.

그러나, 이러한 기존의 GSC 잡음 제거 방법을 그대로 적용할 경우, 실제 환경에서 두 마이크 간의 경로가 이상적으로 동일하지 않기 때문에 순수잡음 패턴 생성부(102)에서 잡음 성분에 음성의 누출 신호를 반드시 포함하게 된다. 이는 GSC의 적응 필터부(104)에서 정확한 잡음을 추정하는 것을 방해하고, 감산부(106)에서의 최종 감산 단계에서 원 음성 성분을 차감하게 되어 결국 전체적인 잡음제거 시스템의 성능을 저해하는 문제점을 지니고 있다.

따라서 이러한 reference 마이크에도 어쩔 수 없이 우리가 원하는 음성신호가 많이 존재하는 cross-talk interference가 존재하는데, 이를 해결하기 위한 방안으로 두 개의 마이크를 완전히 분리시키거나 reference 마이크에 잡음신호만을 얻을 수 없기 때문에, 이를 처리할 새로운 잡음처리 방법이 요구된다.

본 발명이 이루고자 하는 기술적 과제는 잡음성분이 제거된 보다 깨끗한 음성신호를 얻음으로써 음질 향상 및 음성인식 시스템의 성능 향상을 도모하기 위한, 멀티채널 음성신호의 잡음제거 방법 및 장치를 제공하는 것이다.

상술한 기술적 과제를 해결하기 위한 본 발명에 의한, 멀티채널 음성신호의 잡음제거 방법은, (a) 음성신호로부터 환경에 따른 잡음 고유의 성분을 제거하는 단계; (b) 상기 잡음 고유성분이 제거된 음성신호로부터 음성과 잡음을 분리하는 단계; 및 (c) 상기 분리된 음성에 남아있는 잔여 잡음을 제거하는 후처리 단계를 포함함을 특징으로 한다.

상기 (a)단계의 잡음고유 성분 제거는 잡음을 주파수 분석하여 고역통과 필터, 저역통과 필터 및 대역통과 필터 중 적어도 하나를 사용하여 잡음 고유성분을 제거함이 바람직하다.

상기 (b)단계는 (b1) 음원신호로부터 각각의 마이크에 도착하는데 걸리는 입력신호 x₁, x₂의 시간지연을 보정하여 채널에 포함된 음성신호성분 및 잡음성분을 각각 강화한 y₁, y₂를 생성하는 단계; (b2) 각 프레임마다 상기 y₁, y₂에 대해 데이터 행렬(data matrix) Y를 구하는 단계; 및 (b3) 상기 데이터 행렬 Y를 이용하여 eigen 필터 B(z)을 구하여 음성과 잡음을 분리하는 단계를 포함함이 바람직하다.

상기 (b1)단계는 입력 신호 x₁, x₂에 대해 크로스 상관(cross-correlation)을 수행하는 단계; 상기 크로스 상관된 정보를 이용하여 음원신호로부터 각각의 마이크에 도착하는데 걸리는 입력신호 x₁, x₂의 시간지연을 구하는 단계; 상기 입력신호 x₁, x₂를 시간지연된 값만큼 이동(shift)시켜 동기를 맞춘 신호 x‘₁, x’₂를 생성하는 단계; 및 상기 x‘₁, x’₂를 더한 값과 뺀 값의 반을 취하여 각각 y₁, y₂를 구하는 단계를 포함함이 바람직하다.

상기 (b3)단계는 상기 데이터 행렬 Y를 이용하여 eigen 필터 B(z)을 구하는 단계; 선택된 eigenvector의 성분을 이용하여 다항식(ploynomial)을 구성하고 상기 다항식의 근을 구하여 단위원(unit circle)의 안쪽으로 이동시켜 이동된 근을 이용하여 다항식을 구성하여 필터 A(z)를 생성하는 단계; 및 상기 eigen 필터 B(z)를 상기 필터 A(z)로 나누어 무한 임펄스 응답필터 H(z)( = B(z) / A(z))를 구하여 음성과 잡음을 분리하는 단계를 구비함이 바람직하다.

상기 (c)단계는 1채널 기반의 잡음추정을 이용하여 음성신호에 남아있는 잔여잡음을 제거함이 바람직하다. 상기 잔여 잡음 제거는 VAD(Voice activity detection)를 적용하여 음성신호 구간과 잡음구간을 찾는 단계; 및 잡음 구간의 잡음신호를 주기적으로 업데이트한 신호를 상기 (b)단계에서 생성된 신호에서 감산하는 단계로 이루어짐이 바람직하다. 상기 업데이트는 이전 잡음추정값과 현재 잡음값을 가중합(weighted sum)함에 의해 이루어짐이 바람직하다.

상술한 기술적 과제를 해결하기 위한 본 발명에 의한, 멀티채널 음성신호의 잡음제거 장치는, 음성신호로부터 환경에 따른 잡음 고유의 성분을 제거하는 고유잡음제거부; 상기 잡음 고유성분이 제거된 음성신호로부터 음성과 잡음을 분리하는 음성 잡음 분리부; 및 상기 분리된 음성에 남아있는 잔여 잡음을 제거하는 후처리부를 포함함이 바람직하다. 상기 고유잡음제거부의 잡음고유 성분 제거는 잡음을 주파수 분석하여 고역통과 필터, 저역통과 필터 및 대역통과 필터 중 적어도 하나를 사용하여 잡음 고유성분을 제거함이 바람직하다.

상기 음성 잡음 분리부는 음원신호로부터 각각의 마이크에 도착하는데 걸리는 입력신호 x₁, x₂의 시간지연을 보정하여 채널에 포함된 음성신호성분 및 잡음성분을 각각 강화한 y₁, y₂를 생성하는 시간지연보상부; 각 프레임마다 상기 y₁, y₂에 대해 데이터 행렬(data matrix) Y를 구하는 데이터행렬생성부; 및 상기 데이터 행렬 Y를 이용하여 eigen 필터 B(z)을 구하여 음성과 잡음을 분리하는 eigen필터링부를 포함함이 바람직하다.

상기 시간지연보상부는 입력 신호 x₁, x₂에 대해 크로스 상관(cross-correlation)을 수행하는 크로스 상관부; 상기 크로스 상관된 정보를 이용하여 음원신호로부터 각각의 마이크에 도착하는데 걸리는 입력신호 x₁, x₂의 시간지연을 구하는 시간지연획득부; 상기 입력신호 x₁, x₂를 시간지연된 값만큼 이동(shift)시켜 동기를 맞춘 신호 x‘₁, x’₂를 생성하는 동기화부; 및 상기 x‘₁, x’₂를 더한 값과 뺀 값의 반을 취하여 각각 y₁, y₂를 구하는 y₁ y₂생성부를 포함함이 바람직하다.

상기 eigen 필터링부는 상기 데이터 행렬 Y를 이용하여 eigen 필터 B(z)을 구하는 eigen 필터 생성부; 선택된 eigenvector의 성분을 이용하여 다항식(ploynomial)을 구성하고 상기 다항식의 근을 구하여 단위원(unit circle)의 안쪽으로 이동시켜 이동된 근을 이용하여 다항식을 구성하여 필터 A(z)를 생성하는 A(z) 생성부; 및 상기 eigen 필터 B(z)를 상기 필터 A(z)로 나누어 무한 임펄스 응답필터 H(z)( = B(z) / A(z))를 구하여 음성과 잡음을 분리하는 무한 임펄스 응답 필터링부를 구비함이 바람직하다.

상기 후처리부는 1채널 기반의 잡음추정을 이용하여 음성신호에 남아있는 잔여잡음을 제거함이 바람직하다. 상기 잔여 잡음 제거는 VAD(Voice activity detection)를 적용하여 음성신호 구간과 잡음구간을 찾아, 잡음 구간의 잡음신호를 주기적으로 업데이트한 신호를 상기 음성&잡음분리부에서 출력된 신호에서 감산함에 의해 이루어짐이 바람직하다. 상기 업데이트는 이전 잡음추정값과 현재 잡음값을 가중합(weighted sum)함에 의해 이루어짐이 바람직하다.

그리고 상기 기재된 발명을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.

이하, 첨부된 도면들을 참조하여 본 발명에 따른 멀티채널 음성신호의 잡음제거 방법 및 장치에 대해 상세히 설명한다. 도 2는 본 발명에 의한 멀티채널 음성신호의 잡음제거 장치에 대한 일실시예의 구성을 블록도로 도시한 것으로서, 고유잡음 제거부(200), 음성&잡음 분리부(220) 및 후처리부(240)를 포함하여 이루어진다.

고유잡음 제거부(200)는 음성신호로부터 환경에 따른 잡음 고유의 성분을 제거한다. 상기 잡음고유 성분은 잡음을 주파수 분석하여 고역통과 필터, 저역통과 필터 및 대역통과 필터 중 적어도 하나를 사용하여 잡음 고유성분을 제거할 수 있다.

음성&잡음 분리부(220) 즉, 음성 잡음 분리부는 상기 잡음 고유성분이 제거된 음성신호로부터 음성과 잡음을 분리한다. 도 3은 상기 음성&잡음 분리부(220)의 보다 상세한 구성을 블록도로 도시한 것으로서, 시간지연보상부(300), 데이터행렬생성부(320) 및 eigen 필터링부(340)를 구비한다.

시간지연보상부(300)는 음원신호로부터 각각의 마이크에 도착하는데 걸리는 입력신호 x₁, x₂의 시간지연을 보정하여 채널에 포함된 음성신호성분 및 잡음성분을 각각 강화한 y₁, y₂를 생성한다. 도 4는 상기 시간지연보상부(300)의 보다 상세한 구성을 블록도로 도시한 것으로서, 크로스 상관부(400), 시간지연 획득부(420), 동기화부(440) 및 y₁&y₂ 생성부(460)를 구비한다. 크로스 상관부(400)는 입력 신호 x₁, x₂에 대해 크로스 상관(cross-correlation)을 수행한다. 시간지연획득부(420)는 상기 크로스 상관된 정보를 이용하여 음원신호로부터 각각의 마이크에 도착하는데 걸리는 입력신호 x₁, x₂의 시간지연을 구한다. 동기화부(440)는 상기 입력신호 x₁, x₂를 시간지연된 값만큼 이동(shift)시켜 동기를 맞춘 신호 x‘₁, x’₂를 생성한다. y₁& y₂생성부(460) 즉, y₁ y₂생성부는 상기 x‘₁, x’₂를 더한 값과 뺀 값의 반을 취하여 각각 y₁, y₂를 구한다.

상기 데이터행렬생성부(320)는 각 프레임마다 상기 y₁, y₂ 에 대해 데이터 행렬(data matrix) Y를 구한다.

상기 eigen 필터링부(340)는 상기 데이터 행렬 Y를 이용하여 eigen 필터 B(z)을 구하여 음성과 잡음을 분리한다. 도 5는 상기 eigen 필터링부(340)의 보다 세부적인 구성을 블록도로 도시한 것으로서, eigen 필터 생성부(500), A(z) 생성부(520) 및 무한 임펄스 응답 필터링부(540)를 구비한다. 상기 eigen 필터 생성부(500)는 상기 데이터 행렬 Y를 이용하여 eigen 필터 B(z)을 구한다. 상기 A(z) 생성부(520)는 선택된 eigenvector의 성분을 이용하여 다항식(ploynomial)을 구성하 고 상기 다항식의 근을 구하여 단위원(unit circle)의 안쪽으로 이동시켜 이동된 근을 이용하여 다항식을 구성하여 필터 A(z)를 생성한다. 상기 무한 임펄스 응답 필터링부(540)는 상기 eigen 필터 B(z)를 상기 필터 A(z)로 나누어 무한 임펄스 응답필터 H(z)( = B(z) / A(z))를 구하여 음성과 잡음을 분리한다.

후처리부(240)는 상기 분리된 음성에 남아있는 잔여 잡음을 제거한다. 상기 후처리부(240)는 1채널 기반의 잡음추정을 이용하여 음성신호에 남아있는 잔여잡음을 제거함이 바람직하다. 상기 잔여 잡음 제거는 VAD(Voice activity detection)를 적용하여 음성신호 구간과 잡음구간을 찾아, 잡음 구간의 잡음신호를 주기적으로 업데이트한 신호를 상기 음성&잡음분리부에서 출력된 신호에서 감산함에 의해 이루어질 수 있다. 상기 업데이트는 이전 잡음추정값과 현재 잡음값을 가중합(weighted sum)함에 의해 이루어질 수 있다.

도 6은 본 발명에 의한 멀티채널 음성신호의 잡음제거 방법에 대한 일실시예를 흐름도로 도시한 것으로서, 도 6을 참조하여 본 발명에 의한 멀티채널 음성신호의 잡음제거 방법을 설명하기로 한다.

잡음 고유의 성분만을 제거(600단계)는 다음과 같은 과정을 가진다. 다양한 환경에 존재하는 여러 잡음들에는 그 각각의 잡음 특성을 나타낼 수 있는 고유한 성분들이 존재한다. 따라서 이러한 성분들의 특성을 구하기 위해 해당 잡음만이 존재하는 구간의 신호들을 이용하여 주파수 특성 분석을 수행한다. 이렇게 분석된 잡음 특성을 이용하여 1차적으로 해당 잡음 신호를 제거할 수 있는 필터를 구현하여 잡음을 제거할 수 있다.

특히 운행 중인 자동차 환경에서는 차량 환경에서 발생하는 잡음들이 저주파 부분에 매우 크게 존재하게 된다. 일반적으로 차량 운행 중에 발생하는 잡음은 바람 소리, 타이어 잡음, 엔진 소리 등으로부터 발생하는 저주파 성분들이 대부분을 차지한다. 즉, 차량 잡음은 주행 환경과 차량 상태에 따라서 일반적으로 100~800 Hz 사이에서 피크 파워를 가진다. 또한 1 kHz 아래에서는 잡음 스펙트럼 레벨이 6 dB/octave로 감소하고, 반면 1 kHz 이상에서는 스펙트럼 레벨이 12 dB/octave로 빠르게 감소한다. 그러나 음성의 스펙트럼의 파워는 잡음과 비슷한 형태로 나타나고 따라서 음성과 잡음을 완전하게 분리하는 것은 어렵다. 그러나 잡음 신호 성분들이 대부분 분포하고 있고 저주파 성분들을 줄임으로써 보다 깨끗한 음성 신호를 얻을 수 있다. 이러한 것을 고려하여 cutoff frequency가 200~300 Hz인 고역통과 필터(High-pass 필터)를 적용하여 성능향상을 도모할 수 있다. 다음 수학식 1은 간단한 고역통과 필터(cutoff frequency=240 Hz)의 예이다.

다음으로 음성과 잡음의 분리(620단계)는 두 입력 신호들을 이용하여 음성신호 성분만을 추출할 수 있도록 필터를 구현하며, 이는 다음과 같은 과정을 가진다. 도 7은 상기 음성과 잡음의 분리(620단계) 과정에 대한 보다 세부적인 과정을 흐름도로 도시한 것이다.

본 방법은 두 마이크의 입력신호에서 만약 음성신호와 잡음신호가 서로 독립 (independent)이라는 가정이 있을 경우에 음원분리(signal separation) 기법을 적용하여 두 신호를 분리해 낸다. 즉, 이러한 음원분리 기법의 원리를 이용하여 음성신호 성분만을 따로 추출할 수 있도록 필터를 구현하여 잡음이 제거된 음성신호만을 얻는다.

이 방법은 두 마이크로부터의 신호를 프레임(frame) 단위로 나누어서 처리 한다. 즉, 윈도우를 씌우고 중첩(overlap)을 하면서 이동(shift)시키면서 처리한다.

두 개의 채널로 입력되는 잡음이 섞인 음성신호는 서로 크게 상관(correlation)되어 있다. 따라서 이 두 채널의 신호로부터 크로스 상관(cross-correlation)을 구할 수 있다.(700단계) 이 정보를 이용하여 음원 신호로부터 각각의 마이크에 도착하는데 걸린 두 마이크 신호 사이의 delay를 구할 수 있다.(710단계) 먼저 두 채널(마이크) 각각의 신호가

일 경우, 크로스 상관(cross-correlation)은 다음과 같이 구할 수 있다.

그 다음 상기 cross-correlation의 값들 중에서 가장 큰 값을 가지는 지점을 구하여 두 신호가 얼마나 시간지연(delay) 되어 있는지 구한다. 이렇게 구한 시간지연된 값를 이용하여 각각의 신호가 시간지연된 값만큼 이동(shift)시킨

신호를 구한 후(720단계), 수학식 3과 같이 새로운 입력신호

신호를 재구성한다.(730단계)

그 다음 각 프레임마다 새로 구성한 입력 신호

에 대해서

라는 데이터 행렬(data matrix)을 구한다.(740단계)

여기서 p는

를 만족하는 값으로 정하고, k는 원하지 않는 신호의 개수이다. 또한 N은 한 프레임의 길이를 나타낸다.

이렇게 구한 data matrix를 이용하여 수학식 5와 같이 correlation matrices(

)를 구한다.

다음으로 Ratio matrix를 다음과 같은 관계식을 이용하여 구한다.

상기 Ratio matrix(

)에 대해서 eigenvalue decomposition 기법을 이용하여 eigenvalues와 eigenvectors를 구한다. 이렇게 구한 값들을 정렬하여 가장 작은 eigenvalues와 이에 해당하는 eigenvectors를 얻는다. 작은 eigenvalues에 해당하는 것들이 음성신호에 관련된 성분들이고, 큰 eigenvalues에 해당되는 것들은 잡음(noise)에 해당되는 성분들이 된다.

이렇게 얻은 eigenvetors를 이용하여 B(z) 라는 eigen 필터를 얻을 수 있다.(750단계)

여기서 eigen 필터 B(z) 의 주파수 응답특성(frequency response)를 좋게 하기 위해서 필터 A(z)를 구하여(760단계), 최종적으로 H(z) 라는 Infinite Impulse Response(IIR) 필터를 구성한다.(770단계)

A(z)를 구하는 방법은 선택된 eigenvector의 성분(element)을 이용하여 polynomial을 구성하고 이 polynomial의 근(roots)을 구하여 이 값을 unit circle의 안쪽으로 조금씩 이동시킨다. 그 다음 다시 이동된 root를 이용하여 polynomial을 구성하고 이것이 A(z)의 계수가 된다. 이렇게 함으로써 H(z)의주파수 응답특성은 정규화(normalize)된다. 즉, 위와 같은 방법으로 필터를 구성하여 다음 식과 같이 잡음음성신호의 각 프레임마다 필터링을 시켜주어 잡음이 제거된 원하는 음성신호를 얻는다.

여기서

는 콘볼루션(convolution) 연산을 의미한다.

잔여 잡음제거를 위하여 후처리 과정인 제 3단계(640)에서는 다음과 같은 과정을 가진다. 본 과정은 2단계까지 잡음이 제거된 신호를 얻었으나, 아직까지 남아있는 잔여 잡음을 제거하기 위한 과정이다. 이 부분은 1채널 기반의 잡음제거 방법인 스펙트럼 차감법(Spectral Subtraction)과 비슷한 과정으로 잔여잡음을 추정하여 빼 주는 방법이다. 이때 Voice activity detection(VAD) 방법을 적용하여 음성과 잡음 구간을 찾고 잡음에 해당되는 구간의 잡음 신호들로부터 잡음 신호를 주기적으로 업데이트해준다. 이렇게 구한 잡음 신호를 2단계를 통과한 신호에서 빼주는 방법으로 잔여잡음을 제거한다.

위와 같은 과정을 통해서 2 채널(2개의 마이크)을 이용한 잡음제거 방법은 잡음성분이 제거된 보다 깨끗한 음성신호를 얻을 수 있음으로써 음질 향상 및 음성인식 시스템의 성능 향상을 도모하는데 쓰일 수 있다.

표 1은 아무런 잡음제거 기법을 적용하지 않은 경우와, 1~2채널 잡음제거 기법을 적용한 경우의 입/출력 음성 대 잡음의 SNR(Signla-to-Noise Ratio)값과 음성인식률 결과를 비교한 것이다. 본 실험결과에서 사용한 데이터베이스는 80km의 고속주행에서의 자동차 잡음환경에서 수집된 Car01 DB이고, 발성 목록은 Navigation, 자동차 액세서리, 카오디오, 다이얼링 명령어 및 Route 가이드 단어들로 구성되었다.

해당 마이크의 위치는 channel 3과 channel 5 두 개를 사용하였다.

표 1의 실험 결과를 보면 기존 논문(Sungjoo Ahn and HANSEOK KO, “Background Noise Reduction via Dual-channel Scheme for Speech Recognition in Vehicular Environment”, IEEE Transactions on Consumer Electronics, Vol. 51, No. 1, pp. 22-27, Feb. 2005.)의 결과보다 더 좋은 성능을 보이는 것을 볼 수 있다. 기존 논문에서보다 후처리부(도 2의 240)가 추가되었고, SNR비와 음성인식률 모두 향상된 성능을 보이고 있다. 또한 2채널 GSC 기반 잡음 제거 방법에 본 발명에서 제안한 고유잡음제거부(도 2의 200)를 적용하였을 경우에도 성능이 크게 향상됨을 확인할 수 있다.

본 발명은 컴퓨터로 읽을 수 있는 기록 매체에 컴퓨터(정보 처리 기능을 갖는 장치를 모두 포함한다)가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 장치의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광데이터 저장장치 등이 있다.

본 발명은 도면에 도시된 실시예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.

본 발명에 의한 멀티채널 음성신호의 잡음제거 방법 및 장치에 의하면, 멀티 채널 잡음 제거 시스템의 입력단에서 잡음을 제거함으로써 결과적으로 단일 채널 환경에서의 잡음처리 방법보다 향상된 성능을 얻을 수 있고, 전체 시스템의 성능을 향상시킬 수 있다.

그리고 각 잡음 환경마다 원천적으로 존재하는 잡음 성분들을 제거함으로써 시스템의 성능하락을 막을 수 있고, 또한 2채널 환경에서도 다른 잡음처리 방법에 비해 우수한 성능을 보임으로써 음질향상 및 음성인식 시스템에 적용하기에 적합하다. 또한 본 발명과 같은 음성 전처리 기술은 사무실환경에서만 이루어지던 음성 인식 및 인터페이스 기술을 소음이 많은 환경에 적용할 수 있는 기반을 제공한다.

Claims

(a) 음성신호로부터 환경에 따른 잡음 고유의 성분을 제거하는 단계;

(b) 상기 잡음 고유성분이 제거된 음성신호로부터 음성과 잡음을 분리하는 단계; 및

(c) 1채널 기반의 잡음추정을 이용하여 상기 분리된 음성에 남아있는 잔여 잡음을 제거하는 후처리 단계를 포함하고,

상기 후처리 단계는

VAD(Voice activity detection)를 적용하여 음성신호 구간과 잡음구간을 찾는 단계; 및

잡음 구간의 잡음신호를 주기적으로 업데이트한 신호를 상기 (b)단계에서 생성된 신호에서 감산하는 단계를 포함함을 특징으로 하는 멀티채널 음성신호의 잡음제거 방법.
제1항에 있어서, 상기 (a)단계의 잡음고유 성분 제거는

잡음을 주파수 분석하여 고역통과 필터, 저역통과 필터 및 대역통과 필터 중 적어도 하나를 사용하여 잡음 고유성분을 제거함을 특징으로 하는 멀티채널 음성신호의 잡음제거 방법.
제1항에 있어서, 상기 (b)단계는

(b1) 음원신호로부터 각각의 마이크에 도착하는데 걸리는 입력신호 x₁, x₂의 시간지연을 보정하여 채널에 포함된 음성신호성분 및 잡음성분을 각각 강화한 y₁, y₂를 생성하는 단계;

(b2) 각 프레임마다 상기 y₁, y₂ 에 대해 데이터 행렬(data matrix) Y를 구하는 단계; 및

(b3) 상기 데이터 행렬 Y를 이용하여 eigen 필터 B(z)을 구하여 음성과 잡음을 분리하는 단계를 포함함을 특징으로 하는 멀티채널 음성신호의 잡음제거 방법.
제3항에 있어서, 상기 (b3)단계는

상기 데이터 행렬 Y를 이용하여 eigen 필터 B(z)을 구하는 단계;

선택된 eigenvector의 성분을 이용하여 다항식(ploynomial)을 구성하고 상기 다항식의 근을 구하여 단위원(unit circle)의 안쪽으로 이동시켜 이동된 근을 이용하여 다항식을 구성하여 필터 A(z)를 생성하는 단계; 및

상기 eigen 필터 B(z)를 상기 필터 A(z)로 나누어 무한 임펄스 응답필터 H(z)( = B(z) / A(z))를 구하여 음성과 잡음을 분리하는 단계를 구비함을 특징으로 하는 멀티채널 음성신호의 잡음제거 방법.
제3항에 있어서, 상기 (b1)단계는

입력 신호 x₁, x₂에 대해 크로스 상관(cross-correlation)을 수행하는 단계;

상기 크로스 상관된 정보를 이용하여 음원신호로부터 각각의 마이크에 도착하는데 걸리는 입력신호 x₁, x₂의 시간지연을 구하는 단계;

상기 입력신호 x₁, x₂를 시간지연된 값만큼 이동(shift)시켜 동기를 맞춘 신호 x‘₁, x’₂를 생성하는 단계; 및

상기 x‘₁, x’₂를 더한 값과 뺀 값의 반을 취하여 각각 y₁, y₂를 구하는 단계를 포함함을 특징으로 하는 멀티채널 음성신호의 잡음제거 방법.
삭제
삭제
제1항에 있어서, 상기 업데이트는

이전 잡음추정값과 현재 잡음값을 가중합(weighted sum)함에 의해 이루어짐을 특징으로 하는 멀티채널 음성신호의 잡음제거 방법.
음성신호로부터 환경에 따른 잡음 고유의 성분을 제거하는 고유잡음제거부;

상기 잡음 고유성분이 제거된 음성신호로부터 음성과 잡음을 분리하는 음성 잡음 분리부; 및

1채널 기반의 잡음추정을 이용하여 상기 분리된 음성에 남아있는 잔여 잡음을 제거하는 후처리부를 포함하고,

상기 후처리부는

VAD(Voice activity detection)를 적용하여 음성신호 구간과 잡음구간을 찾아, 잡음 구간의 잡음신호를 주기적으로 업데이트한 신호를 상기 음성 잡음분리부에서 출력된 신호에서 감산하는 것을 특징으로 하는 멀티채널 음성신호의 잡음제거 장치.
제9항에 있어서, 상기 고유잡음제거부의 잡음고유 성분 제거는

잡음을 주파수 분석하여 고역통과 필터, 저역통과 필터 및 대역통과 필터 중 적어도 하나를 사용하여 잡음 고유성분을 제거함을 특징으로 하는 멀티채널 음성신호의 잡음제거 장치.
제9항에 있어서, 상기 음성 잡음 분리부는

음원신호로부터 각각의 마이크에 도착하는데 걸리는 입력신호 x₁, x₂의 시간지연을 보정하여 채널에 포함된 음성신호성분 및 잡음성분을 각각 강화한 y₁, y₂를 생성하는 시간지연보상부;

각 프레임마다 상기 y₁, y₂에 대해 데이터 행렬(data matrix) Y를 구하는 데이터행렬생성부; 및

상기 데이터 행렬 Y를 이용하여 eigen 필터 B(z)을 구하여 음성과 잡음을 분리하는 eigen필터링부를 포함함을 특징으로 하는 멀티채널 음성신호의 잡음제거 장치.
제11항에 있어서, 상기 시간지연보상부는

입력 신호 x₁, x₂에 대해 크로스 상관(cross-correlation)을 수행하는 크로스 상관부;

상기 크로스 상관된 정보를 이용하여 음원신호로부터 각각의 마이크에 도착하는데 걸리는 입력신호 x₁, x₂의 시간지연을 구하는 시간지연획득부;

상기 입력신호 x₁, x₂를 시간지연된 값만큼 이동(shift)시켜 동기를 맞춘 신호 x‘₁, x’₂를 생성하는 동기화부; 및

상기 x‘₁, x’₂를 더한 값과 뺀 값의 반을 취하여 각각 y₁, y₂를 구하는 y₁ y₂생성부를 포함함을 특징으로 하는 멀티채널 음성신호의 잡음제거 장치.
제11항에 있어서, 상기 eigen 필터링부는

상기 데이터 행렬 Y를 이용하여 eigen 필터 B(z)을 구하는 eigen 필터 생성부;

선택된 eigenvector의 성분을 이용하여 다항식(ploynomial)을 구성하고 상기 다항식의 근을 구하여 단위원(unit circle)의 안쪽으로 이동시켜 이동된 근을 이용하여 다항식을 구성하여 필터 A(z)를 생성하는 A(z) 생성부; 및

상기 eigen 필터 B(z)를 상기 필터 A(z)로 나누어 무한 임펄스 응답필터 H(z)( = B(z) / A(z))를 구하여 음성과 잡음을 분리하는 무한 임펄스 응답 필터링부를 구비함을 특징으로 하는 멀티채널 음성신호의 잡음제거 장치.
삭제
삭제
제9항에 있어서, 상기 업데이트는

이전 잡음추정값과 현재 잡음값을 가중합(weighted sum)함에 의해 이루어짐을 특징으로 하는 멀티채널 음성신호의 잡음제거 장치.
제1항 내지 제5항 또는 제8항 중 어느 한 항에 기재된 발명을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.