KR100751927B1

KR100751927B1 - 멀티음성채널 음성신호의 적응적 잡음제거를 위한 전처리 방법 및 장치

Info

Publication number: KR100751927B1
Application number: KR1020050108238A
Authority: KR
Inventors: 고한석; 김기현
Original assignee: 고려대학교 산학협력단
Priority date: 2005-11-11
Filing date: 2005-11-11
Publication date: 2007-08-24
Also published as: KR20070050700A

Abstract

멀티음성채널 음성신호의 적응적 잡음제거를 위한 전처리 방법 및 장치가 개시된다. 그 전처리 장치는 멀티음성채널의 각 입력채널별로 매 프레임의 채널신호 평균이득(RMS) 값을 계산하는 평균이득 계산부; 상기 평균이득 계산부에서 계산된 평균이득을 이용하여 상기 입력채널 간의 상대적인 평균이득비를 계산하는 이득비추정부; 및 상기 이득비 추정부에서 계산된 평균이득비의 역을 이용하여 상기 입력채널별로 입력신호를 보정하는 이득비역보상부를 포함함을 특징으로 한다.

본 발명에 의하면, 전체 시스템의 잡음 제거 성능을 향상 할 수 있다. 또한 잡음 제거의 모든 과정이 시간 도메인에서 처리되도록 함으로써 매 샘플마다 잡음 추정 과정을 진행할 수 있으며, 실시간적용에 적합한 작은 계산량을 갖는다. 추가로 잘못된 이득 비 추정에 대한 제한을 둠으로써 기존 GSC의 성능을 저해하는 것을 방지한다.

Description

멀티음성채널 음성신호의 적응적 잡음제거를 위한 전처리 방법 및 장치{Preprocessing method and apparatus for adaptively removing noise of speech signal on multi speech channel}

도 1은 2채널 GSC 잡음 제거 장치의 구성에 대한 블록도를 도시한 것이다.

도 2는 본 발명에 의한 멀티음성채널 음성신호의 적응적 잡음제거를 위한 전처리 장치에 대한 바람직한 일실시예에 대한 구성을 블록도로 도시한 것이다.

도 3은 상기 이득비추정부(220)의 보다 세부적인 구성을 블록도로 도시한 것이다.

도 4는 본 발명에 의한 멀티음성채널 음성신호의 적응적 잡음제거를 위한 전처리 방법에 대한 바람직한 일실시예를 흐름도로 도시한 것이다.

본 발명은 음성신호의 잡음 제거에 관한 것으로 특히, 멀티음성채널 음성신호의 적응적 잡음제거를 위한 전처리 방법 및 장치에 관한 것이다.

음성인식 또는 통신시스템 등을 다루는데 있어 잡음은 시스템의 성능을 저하시키는 가장 주된 원인이다. 과거 수십년 동안 이러한 잡음 제거를 위해 많은 방 법들이 제안되어 왔다. 특히 음성신호 처리 분야의 경우, 단일 마이크 기반의 전처리 알고리즘은 적은 계산량과 구현의 용이성으로 인해 주된 잡음 제거 기법으로 다루어져 왔다. 이는 주로 비 발성 부분에서 일정 시간 동안 잡음의 주파수 분석을 통해 그 성분을 추정하고 추정된 잡음을 마이크 신호에서 적절한 방법으로 차감해 줌으로써 잡음을 제거한다. 그러나 이러한 방식은 잡음의 정확한 추정이 어려울 경우 오히려 음성 성분마저 감쇄시키기 때문에, 변화가 심하지 않은 규칙적인 잡음에 한해서만 효과적인 성능을 얻을 수 있다는 단점을 지닌다. 따라서 여러 개의 마이크를 통해 음성신호 및 잡음에 대한 입체적인 정보를 얻고, 이를 이용하여 잡음을 보다 강인하게 추정함으로써 잡음 제거 또는 음성 신호를 강화하는 방법들이 개발 되어 왔다.

이들 중 가장 널리 알려져 있는 방법의 하나로서 GSC(Generalized Sidelobe Canceller)가 있다. 도 1은 2채널 GSC 잡음 제거 장치의 구성에 대한 블록도를 도시한 것이다. 도 1을 참조하면, GSC는 혼음 패턴 생성부(100), 순수 잡음 패턴 생성부(102), 적응 필터링부(104) 및 감산부(106)로 이루어진다. 상기 혼음 패턴 생성부(100)는 두 마이크 입력(A/D 변환된 신호)의 합을 반으로 나눔으로써 원음성과잡음의 혼음을 생성한다. 상기 순수 잡음 패턴 생성부(102)는 두 입력의 차로 음성 성분을 제거한 뒤 이를 반으로 나눔으로써 두 입력의 순수 잡음 차 성분을 생성한다. 상기 적응필터부(104)는 순수잡음 패턴 생성부(102)에서 생성된 순수 잡음 패턴을 입력으로 하여 적응 필터링을 통해 혼음 패턴 내의 잡음 성분을 추정토록 한다. 상기 감산부(106)는 이와 같이 추정된 잡음을 혼음에서 감산함으로써 최종 적으로 음성 성분을 출력한다. 이와 같은 과정을 수식으로 표현하면 다음과 같다.

입력 1 : IN₁(m) = s(m) + n₁(m)

입력 2 : IN₂(m) = s(m) + n₂(m)

여기서, s는 A/D 변환된 원음성신호, n₁, n₂는 A/D 변환된 잡음신호, m은 샘플 인덱스를 나타낸다.

상기 두 입력이 모두 음성과 잡음 성분을 포함하는데 같은 시간에 두 마이크로 정확히 같은 음성이 들어간다면, 수학식 1을 사용할 수 있다. 이 때, 마이크 1과 마이크 2의 잡음은 서로 어느 정도의 상관 관계는 있으나 동일한 잡음이라 할 수 없으므로 서로 다른 기호로 표시한다.

상기 혼음 패턴 생성부(100)는 혼음 p를 생성하고, 상기 순수잡음 패턴 생성부(102)는 순수잡음 r를 생성한다. 이를 수식으로 표현하면 수학식 2와 같다.

여기서, p는 음성+잡음의 혼음신호, r은 잡음차성분(순수잡음)을 나타낸다.

상기 적응필터부(104)에서 적응 필터링의 적응 계수 는 다음과 같은 LMS (Least Mean Square) 알고리즘을 사용하여 구하는데, 이 때 각 잡음 n₁과 n₂는 서로 상관관계가 어느 정도 존재하되, 잡음과 음성간에는 상관 관계가 없다고 가정하므로 다음과 같은 수학식 3으로 정리할 수 있다.

여기서, W는 적응필터 계수,

는 W의 추정값,

는 Expectation, n_p는 p에서의 잡음성분을 나타낸다.

결국, r을 입력으로 하여 적응 필터계수를 컨볼루션 했을때 에 가장 가깝도록 를 추정하는 것이 여기서의 LMS알고리즘이다.

마지막으로 감산부(106)에서는 수학식 4와 같이 추정된 잡음을 이용하여 최종적으로 음성부분을 추출한다.

여기서

는 추정된 음성,

는 r과 W의 컨볼루션으로서 추정된 n_p을 나타낸다.

그러나, 이러한 기존의 GSC 잡음 제거 방법을 그대로 적용할 경우, 실제 환경에서 두 마이크 간의 경로가 이상적으로 동일하지 않기 때문에 순수잡음 패턴 생 성부(102)에서 잡음 성분에 음성의 누출 신호를 반드시 포함하게 된다.

수학식으로는 다음과 같이 입력 성분을 가정함으로써

여기서, a는 마이크 1에 대한 마이크 2의 이득비를 나타낸다.

수학식 6과 같이 성분에 음성 성분 s가 포함된다.

이는 GSC의 적응 필터부(104)에서 정확한 잡음을 추정하는 것을 방해 하고, 최종적으로 감산부(106)에서 원 음성 성분을 차감하게 되어 결국 전체적인 잡음제거 시스템의 성능을 저해하는 문제점을 지니고 있다.

이를 해결하기 위하여, GSC 등의 멀티채널 적응잡음 제거에서는 VAD(Voice Activity Detection)와 같이 음성이 포함된 구간의 정보를 부여함으로써 오로지 잡음 구간에서만 적응 필터링을 실행하는 방법이 제시되고 있다. 그러나 실제로 정확한 성능을 갖는 VAD의 설계가 매우 어렵기 때문에, 완전한 잡음 구간에서 적응 필터링을 수행한다는 것은 한계가 있다. 또한, 음성이 존재하는 구간에서 잡음이 지속적으로 변하는 경우, 이러한 잡음의 변화 추이를 적응 필터가 반영 하지 못하게 된다는 문제점이 있다.

본 발명이 이루고자 하는 기술적 과제는 GSC와 같은 멀티음성채널(2채널) 음성신호의 적응적 잡음 제거 방법에 있어 적응 필터의 입력으로 순수 잡음 패턴을 구성하기 위하여, 사전에 두 마이크 경로 간의 이득 비를 시간영역에서 추정하고 이를 이용하여 이득비를 실시간으로 역 보상함으로써 전체 시스템의 잡음제거 성능을 향상할 수 있는, 멀티음성채널 음성신호의 적응적 잡음제거를 위한 전처리 방법 및 장치를 제공하는 것이다.

상기 기술적 과제를 달성하기 위한 본 발명에 의한 멀티음성채널 음성신호의 적응적 잡음제거를 위한 전처리 장치는, 멀티음성채널의 각 입력채널별로 매 프레임의 채널신호 평균이득(RMS) 값을 계산하는 평균이득 계산부; 상기 평균이득 계산부에서 계산된 평균이득을 이용하여 상기 입력채널 간의 상대적인 평균이득비를 계산하는 이득비추정부; 및 상기 이득비 추정부에서 계산된 평균이득비의 역을 이용하여 상기 입력채널별로 입력신호를 보정하는 이득비역보상부를 포함함을 특징으로 한다. 상기 이득비추정부는 각 입력채널의 평균이득 값이 소정의 임계값보다 큰지를 비교하는 평균이득값 비교부; 상기 각 입력채널의 평균이득값이 소정의 임계값보다 작으면 이득비 역보상을 수행하지 않고 추정이득을 1로 설정하는 추정이득설정부; 및 상기 각 입력채널의 평균이득값이 소정의 임계값보다 크면 이득비 역보상을 위해 상기 입력채널간 상대적인 평균이득비를 계산하는 상대이득비계산부를 구비한다.

상기 기술적 과제를 달성하기 위한 본 발명에 의한 멀티음성채널 음성신호의 적응적 잡음제거를 위한 전처리 방법은, (a) 멀티음성채널의 각 입력채널별로 매 프레임의 채널신호 평균이득(RMS) 값을 계산하는 단계; (b) 상기 입력채널 간의 상대적인 평균이득비를 계산하는 단계; 및 (c) 상기 계산된 평균이득비의 역을 이용하여 상기 입력채널별로 입력신호를 보정하는 단계를 포함함을 특징으로 한다. 상기 (b)단계는 각 입력채널의 평균이득 값이 소정의 임계값보다 큰지를 비교하는 단계; 상기 각 입력채널의 평균이득값이 소정의 임계값보다 작으면 이득비 역보상을 수행하지 않고 추정이득을 1로 설정하는 단계; 및 상기 각 입력채널의 평균이득값이 소정의 임계값보다 크면 이득비 역보상을 위해 입력채널간 상대적인 평균이득비를 계산하는 단계를 포함한다. 상기 멀티음성채널은 2개의 입력채널로 이루어지는 것이 바람직하다.

그리고 상기 기재된 발명을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.

이하, 첨부된 도면을 참조하여 본 발명에 따른 멀티음성채널 음성신호의 적응적 잡음제거를 위한 전처리 방법 및 장치를 상세히 설명하기로 한다.

도 2는 본 발명에 의한 멀티음성채널 음성신호의 적응적 잡음제거를 위한 전처리 장치에 대한 바람직한 일실시예에 대한 구성을 블록도로 도시한 것으로서, 평균이득 계산부(200), 이득비추정부(220) 및 이득비역보상부(240)를 포함하여 이루어진다. 상기 실시예는 멀티음성채널의 입력채널을 2채널로 한 것이다.

상기 평균이득 계산부(200)는 멀티음성채널의 각 입력채널별로 매 프레임의 채널신호 평균이득(RMS) 값을 계산한다. 여기서, 각 입력채널의 입력은 마이크로부터 받아들여진 아날로그 신호를 샘플링 한 뒤 이산화 수치를 부여한 디지탈 신호로 변환한 데이터를 의미한다(A/D 변환). 이렇게 변환된 데이터는 매 일정 시 구간 (샘플 구간-하나의 프레임을 구성하는 단위)마다 처리되는데, 상기 평균이득 계산부(200)에서 각 입력채널 별로 데이터의 시 구간에 대한 평균 크기가 구해진다.

상기 이득비추정부(220)는 상기 평균이득 계산부에서 계산된 평균이득을 이용하여 상기 멀티음성채널의 입력채널 간의 상대적인 평균이득비를 계산한다. 상기 평균이득계산부(200)에서 하나의 시 구간에 대해 평균적인 마이크의 이득이 각각 구해지면, 이득비추정부(220)에서는 이를 이용하여 입력 1에 대한 입력 2의 이득 비 를 계산한다. 여기서 입력 1은 입력채널 1(미도시)의 신호를 의미하고, 입력 2는 입력채널 2(미도시)의 신호를 의미한다. 도 3은 상기 이득비추정부(220)의 보다 세부적인 구성을 블록도로 도시한 것으로서, 평균이득비교부(300), 추정이득설정부(320) 및 상대이득비계산부(340)를 구비한다. 상기 평균이득비교부(300)는 각 입력채널의 평균이득값이 소정의 임계값보다 큰지를 비교한다. 이때, 소정의 임계값은 본 발명이 속하는 기술분야의 통상의 지식을 가진자가 임의로 설정할 수 있는 이득값이다. 상기 추정이득설정부(320)는 상기 각 입력채널의 평균이득값이 소정의 임계값보다 작으면 이득비 역보상을 수행하지 않고 추정이득을 1로 설정한다. 상기 상대이득비계산부(340)는 상기 각 입력채널의 평균이득값이 소정의 임계값보다 크면 이득비 역보상을 위해 입력채널간 상대적인 평균이득비를 계산한다.

상기 이득비역보상부(240)는 상기 이득비추정부(220)에서 계산된 평균이득비의 역을 이용하여 입력채널별로 입력신호를 보정한다. 이득비추정부(220)에서 추정된 이득비는 이득비역보상부(240)에서 입력 2의 이득을 역으로 보상하여, 입력 1과 함께 2채널GSC잡음제거부(260)의 입력으로 전달된다.

이렇게 되면 상기 2채널GSC잡음제거부(260)에서는 변형된 두 입력을 통해 GSC 적응 필터링을 거처 잡음을 적응적으로 제거하여 원 음성에 가까운 신호를 출 력하게 된다. 여기서의 출력은 디지털 신호이며 이를 D/A 변환하여 시간 영역의 아날로그 신호를 얻음으로써 잡음이 제거된 음성 신호를 얻을 수 있다.

도 4는 본 발명에 의한 멀티음성채널 음성신호의 적응적 잡음제거를 위한 전처리 방법에 대한 바람직한 일실시예를 흐름도로 도시한 것으로서, 도 4를 참조하여 본 발명에 의한 멀티음성채널 음성신호의 적응적 잡음제거를 위한 전처리 방법 및 장치를 설명하기로 한다.

먼저, 개략적으로 설명하면, 마이크 입력 별로 일정한 시 구간 동안에 대해 평균이득을 계산한다. 이를 바탕으로 두 입력 간 이득비(마이크 1에 대한 마이크2의 이득비 )를 추정하고, 추정된 이득비를 이용하여 입력비의 역 보상을 실행한다. 입력비의 역보상이 이루어지면, 2채널 GSC를 이용하여 실제로 잡음을 적응적으로 제거한다. 한편, 입력 1은 입력채널 1의 신호를 의미하며, 입력 2는 입력채널 2의 신호를 의미한다.

도 4를 참조하면, 일정 시간 동안 입력을 받아 저장하는 단계(400), 입력 1과 입력 2의 신호의 RMS(Root Mean Sqaure)를 산출 하는 단계(405), 입력 2의 RMS를 정해진 임계값과 비교하는 단계(410), 산출된 입력 1의 RMS 대비 입력 2의 RMS비를 추정된 이득비로서 구하는 단계(415) 또는 이득비를 1로 하여 이득비 추정 단계를 하지 않는 것과 동일하게 적용하는 단계(420), 추정된 이득비를 이용하여 입력 2의 이득비를 역 보상 하는 단계(425), 입력 1과 이득비 역 보상된 입력 2를 2채널 잡음 제거부의 새로운 입력으로 부여하는 단계(430), 2채널 GSC 잡음 제거를 통해 깨끗한 음성 신호를 구하는 단계(435), 종료 여부를 결정하는 단계(440), 계속 해서 다음 시 구간으로 이동하는 단계(445)로 구성된다.

기본적으로 이러한 과정을 수행하기 위하여 각 마이크의 경로 간 차이의 주요 요인으로서 이득비를 가정하고, 입력 신호를 다음과 같이 정의한다.

입력 1 : IN₁(m) = s(m) + n₁(m)

입력 2 : IN₂(m) = a(i) s(m) + n₂(m)

여기서, s는 원음성신호, n₁, n₂는 잡음신호, a는 마이크간 이득비, m은 샘플 인덱스, i는 프레임 인덱스(시구간번호)를 나타낸다.

상기 입력 1과 입력 2의 이득비는 한 프레임 내에서 변하지 않는 것으로 가정하며, 두 입력 사이에 잡음은 서로 약간의 상관관계가 있을 뿐 실제로 음성과 같이 동일한 파형을 갖지 않으므로 다르게 놓을 수 있다.

400단계에서 시구간은 일반적으로 음성신호가 크게 변하지 않는 구간이라 할 수 있는 10ms 정도(1프레임 단위)에 해당하도록 샘플 개수를 정하여 입력 1과 입력 2 신호를 저장한다. 405단계에서는 각 입력의 RMS 비를 다음과 같이 산출한다.

410단계에서는 입력 1 및 2의 RMS 값을 일정 임계치와 비교하여 이보다 작은 경우 420단계를 수행하여 실제 추정 이득비의 계산 없이 1로 둔다.

415단계에서는 다음과 같이 하나의 프레임에 대하여 이득비를 추정한다.

여기서 추정된 이득비

는 410단계에서 입력의 RMS가 매우 작을 경우 (예: 0.01이하), 두 마이크간의 경로 차에 의해 발생하는 이득 비로 볼 수 없을 정도의 값이 되므로, 이득비 역보상을 수행하지 않는 것이 적합한데, 이와 같은 역할을 하는 것이 420단계에서 이득비를 1로 두는 것이다.

425단계에서는 다음과 같이 추정된 이득비를 이용하여 입력 2의 이득 비를 역 보상한다.

이 때, 추정된 이득 비

가 실제 마이크 간 이득 비

와 가까울수록 입력 2의 음성 성분은 입력 1의 음성 성분과 같게 되므로, 430 단계 또는 435 단계의 GSC에서 적응 필터의 입력에는 다음과 같이 누출 신호가 감소한 잡음 성분이 들어간다.

여기서 잡음 성분 n은 두 입력의 잡음 성분을 변형 및 합성한 새로운 잡음 성분이며, GSC 내부의 적응 필터는 이 n(m)을 입력으로 시간 도메인(m-space)에서 작용한다.

마지막으로 440단계에서 프로세스 지속 여부를 판단하여, 445단계로 진행해 다음 시구간의 입력을 받는다.

본 발명은 컴퓨터로 읽을 수 있는 기록 매체에 컴퓨터(정보 처리 기능을 갖는 장치를 모두 포함한다)가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 장치의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광데이터 저장장치 등이 있다.

본 발명은 도면에 도시된 실시예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 등록청구범위의 기술적 사상에 의해 정해져야 할 것이다.

상술한 바와 같이 본 발명에 따른 멀티음성채널 음성신호의 적응적 잡음제거를 위한 전처리 장치에 의하면, 전체 시스템의 잡음 제거 성능을 향상 할 수 있다. 또한 잡음 제거의 모든 과정이 시간 도메인에서 처리되도록 함으로써 매 샘플마다 잡음 추정 과정을 진행할 수 있으며, 실시간적용에 적합한 작은 계산량을 갖는다. 추가로 잘못된 이득비 추정에 대한 제한을 둠으로써 기존 GSC의 성능을 저해하는 것을 방지한다.

표 1은 종래의 GSC 방법 및 본 발명에 따라 이득비를 역 보상한 GSC 방법을 통해 잡음을 제거한 입/출력 음성 대 잡음의 SNR 향상 결과를 비교한 것이다.

이와 같이 본 발명에 의해, 2채널 GSC 적응 잡음 제거 시스템의 입력 부에 두 마이크 경로 간의 이득 비 추정 및 역 보상 단계를 추가함으로써 결과적으로 전체 시스템의 잡음 제거 성능을 향상 할 수 있다.

Claims

멀티음성채널의 각 입력채널별로 매 프레임의 채널신호 평균이득(RMS) 값을 계산하는 평균이득 계산부;

상기 평균이득 계산부에서 계산된 평균이득을 이용하여 상기 입력채널 간의 상대적인 평균이득비를 계산하는 이득비추정부; 및

상기 이득비 추정부에서 계산된 평균이득비의 역을 이용하여 상기 입력채널별로 입력신호를 보정하는 이득비역보상부를 포함함을 특징으로 하는 멀티음성채널 음성신호의 적응적 잡음제거를 위한 전처리 장치.
제1항에 있어서, 상기 이득비 추정부는

각 입력채널의 평균이득 값이 소정의 임계값보다 큰지를 비교하는 평균이득값 비교부;

상기 각 입력채널의 평균이득값이 소정의 임계값보다 작으면 이득비 역보상을 수행하지 않고 추정이득을 1로 설정하는 추정이득설정부; 및

상기 각 입력채널의 평균이득값이 소정의 임계값보다 크면 이득비 역보상을 위해 상기 입력채널간 상대적인 평균이득비를 계산하는 상대이득비계산부를 구비하는 멀티음성채널 음성신호의 적응적 잡음제거를 위한 전처리 장치.
제1항 또는 제2항에 있어서, 상기 멀티음성채널은

2개의 입력채널로 이루어지는 것을 특징으로 하는 멀티음성채널 음성신호의 적응적 잡음제거를 위한 전처리 장치.
(a) 멀티음성채널의 각 입력채널별로 매 프레임의 채널신호 평균이득(RMS) 값을 계산하는 단계;

(b) 상기 입력채널 간의 상대적인 평균이득비를 계산하는 단계; 및

(c) 상기 계산된 평균이득비의 역을 이용하여 상기 입력채널별로 입력신호를 보정하는 단계를 포함함을 특징으로 하는 멀티음성채널 음성신호의 적응적 잡음제거를 위한 전처리 방법.
제4항에 있어서, 상기 (b)단계는

각 입력채널의 평균이득 값이 소정의 임계값보다 큰지를 비교하는 단계;

상기 각 입력채널의 평균이득값이 소정의 임계값보다 작으면 이득비 역보상을 수행하지 않고 추정이득을 1로 설정하는 단계; 및

상기 각 입력채널의 평균이득값이 소정의 임계값보다 크면 이득비 역보상을 위해 입력채널간 상대적인 평균이득비를 계산하는 단계를 포함하는 멀티음성채널 음성신호의 적응적 잡음제거를 위한 전처리 방법.
제4항 또는 제5항에 있어서, 상기 멀티음성채널은

2개의 입력채널로 이루어지는 것을 특징으로 하는 멀티음성채널 음성신호의 적응적 잡음제거를 위한 전처리 방법.
제4항 내지 제5항 중 어느 한 항에 기재된 발명을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.