KR20080052803A

KR20080052803A - 잡음 모델을 이용한 순수 음성 추정 방법

Info

Publication number: KR20080052803A
Application number: KR1020060124450A
Authority: KR
Inventors: 정호영
Original assignee: 한국전자통신연구원
Priority date: 2006-12-08
Filing date: 2006-12-08
Publication date: 2008-06-12
Also published as: KR100857467B1

Abstract

본 발명은 잡음 음성을 수신하는 단계, 수신된 잡음 음성에서 잡음 구간을 추출하는 단계, 추출된 잡음 구간 및 미리 저장된 잡음 모델에 상응하여 잡음을 식별하는 단계 및 식별된 잡음 및 미리 저장된 음성 모델에 상응하여 순수 음성을 추정하는 단계를 포함하는 잡음 보상 기법에 의한 순수 음성 추정 방법을 제공한다.

음성 인식, 잡음 모델, 잡음 식별

Description

잡음 모델을 이용한 순수 음성 추정 방법{Method for estimating clean voice using noise model}

도 1은 본 발명에 따른 잡음 음성을 나타낸 도면.

도 2는 기존의 잡음 보상 기법에 의한 순수 음성 추정 방법을 나타낸 순서도.

도 3은 본 발명에 적용되는 IMM(Interacting Multiple Model) 방식을 개략적으로 설명한 도면.

도 4는 본 발명에 따른 잡음 모델을 이용한 순수 음성 추정 방법을 개략적으로 설명한 도면.

<도면의 주요 부분에 대한 부호의 설명>

101 : 순수 음성

103 : 선형 왜곡

105 : 가산 잡음

107 : 잡음 음성

본 발명은 잡음 모델을 이용한 순수 음성 추정 방법에 관한 것이다.

최근 음성인식 기술은 유, 무선 통신의 발달과 더불어 더욱 각광 받고 있는 기술로 자리 잡고 있다. 그러나 음성 인식이 상업적으로 널리 쓰이기 위해서는 여러 가지 기술적 문제가 해결되어야 한다. 그 중 가장 중요한 요소는 음성에 부가되는 간섭신호(interfering signal)의 영향을 줄이는 문제이다. 간섭신호는 실제 인식의 대상이 되는 음성에 부가될 수 있는 모든 종류의 신호로, 예를 들면, 주변잡음, 통신선로 왜곡, 음향반향(acoustic echo), 배경음악, 다른 사람의 말소리 등이 있다. 이러한 간섭신호는 인식 대상 음성에 부가되어 음성인식 성능을 크게 저하시키게 된다. 현재의 이동통신 체계에서는 이러한 간섭신호의 영향이 더욱 심각하며 간섭신호의 시간적, 장소적 변화가 매우 심하여 하나의 정형화된 기술만으로는 그 문제를 해결하기 어렵다. 따라서 다양한 간섭신호에 대처할 수 있는 기술의 개발이, 음성인식 서비스의 성패를 좌우하게 된다.

여러 간섭신호 중 가장 큰 영향을 미치는 부가 잡음의 영향을 줄이는 여러 기법들이 개발되었는데, 이러한 방식 기존의 방법은 일반적으로 묵음 구간에서의 잡음 신호를 추정한 후 잡음 음성으로부터 깨끗한 음성을 얻거나, 잡음 음성을 인식하기 위한 잡음음향 모델을 구성하여 음성 인식을 수행한다. 이런 방법은 잡음 추정이 정확할 때 좋은 결과를 주지만, 실시간으로 온라인 잡음 추정하는데 현재의 기술로는 한계가 있다.

본 발명은 잡음을 식별하는 방법을 적용하여, 시간에 따른 잡음 추정 및 잡음 음성으로부터 깨끗한 음성을 보상하는 단계에 식별 정보를 활용하여 성능을 향상시키는 것을 목적으로 한다.

상술한 목적들을 달성하기 위하여, 본 발명의 일 측면에 따르면, a. 잡음 음성을 수신하는 단계, b. 상기 수신된 잡음 음성에서 잡음 구간을 추출하는 단계, c. 상기 추출된 잡음 구간 및 미리 저장된 잡음 모델에 상응하여 잡음을 식별하는 단계 및 d. 상기 식별된 잡음 및 미리 저장된 음성 모델에 상응하여 순수 음성을 추정하는 단계를 포함하는 잡음 보상 기법에 의한 순수 음성 추정 방법을 제공할 수 있다.

바람직한 실시예에 있어서, 상기 잡음 음성은

로 추정되는 것을 특징으로 할 수 있다. 또한, 상기 잡음 음성은

로 선형화되는 것을 특징으로 할 수 있다. 또한, 상기 b 단계는 추출된 잡음 구간에서 잡음의 초기 평균, 분산 및 잡음 음성의 선형화 계수를 구하는 것을 특징으로 할 수 있다. 또한, 상기 잡음 모델 및 음성 모델은 GMM(Gaussian Mixture Model)에 기반한 선형 동적 모델인 것을 특징으로 할 수 있다. 또한, 상기 선형 동적 모델은

으로 표현되는 것을 특징으로 할 수 있다. 또한, 상기 잡음의 추정은 IMM(Interacting Multiple Model) 방식을 사용하는 것을 특징으로 할 수 있다. 또한, 상기 순수 음성 추정은 주파수의 잡음 특성에 따라

및

중 어느 하나의 수식에 의하는 것을 특징으로 할 수 있다.

본 발명의 다른 일 측면을 참조하면, 잡음 보상 기법에 의한 순수 음성을　추정하는 프로그램을 기록한 컴퓨터로 판독 가능한 기록 매체로서, 상기 프로그램은, 잡음 음성을 수신하는 단계, 상기 수신된 잡음 음성에서 잡음 구간을 추출하는 단계, 상기 추출된 잡음 구간 및 미리 저장된 잡음 모델에 상응하여 잡음을 식별하는 단계 및 상기 식별된 잡음 및 미리 저장된 음성 모델에 상응하여 순수 음성을 추정 하는 단계를 포함하는 것을 특징으로 하는 컴퓨터로 판독 가능한 기록 매체를 제공할 수 있다.

이어서, 첨부한 도면들을 참조하여 본 발명의 바람직한 실시예를 상세히 설명하기로 한다.

도 1은 본 발명에 따른 잡음 음성을 나타낸 도면이다.

도 1을 참조하면, 잡음 음성(107)은 순수 음성(101)이 선형 왜곡(103)을 거쳐 가산 잡음(105)이 추가되어 나타난다.

이러한 잡음 음성을 수식으로 표현하면

[수식 1]

로 나타낼 수 있다.

여기서 y값은 잡음 음성(107)을 나타내고, x 값은 순수 음성(101)을 나타내며 n값은 가산 잡음(105)을 나타낸다.

[수식 1]을 살펴보면 간단히 순수 음성(101)을 추출하기 위해서는 입력된 잡음 음성(107)에서 가산 잡음(105)함수인

를 빼면 된다는 것을 알 수 있다.

그러나 [수식 1]은 비선형 함수로서 이러한 값을 추정하거나, 해석적인 해를 구하는 것이 매우 어렵다. 따라서 [수식 1]을 선형화하는 방식이 필요하다.

[수식 2]

[수식 2]는 테일러급수에 기반한 여러 방식을 사용하여 [수식 1]을 선형 근사화한 것이다.

도 2는 기존의 잡음 보상 기법에 의한 순수 음성 추정 방법을 나타낸 순서도이다.

도 2를 참조하면, 우선 잡음이 포함된 잡음 음성을 수신한다(단계 201). 그 후 잡음 음성 중 잡음의 식별을 위해 잡음 구간을 추출한다(단계 203). 이렇게 잡음 구간을 추출하면 이러한 잡음 구간에서 잡음의 초기 평균값과 분산을 구할 수 있으며, [수식 2]의 선형화 계수 A, B, C의 값도 구할 수 있다.

그 후, 추출된 잡음을 이용하여 잡음을 추정(205)하는데, 이러한 잡음의 추정은 IMM(Interacting Multiple Model) 방식을 사용한다. 이러한 IMM(Interacting Multiple Model) 방식은 도 3에서 자세히 설명하겠지만, 간략히 설명하면 음성을 여러 클래스로 나누어 각 클래스에 Kalman 필터를 적용한 후 정합하는 방식이다.

이렇게 IMM(Interacting Multiple Model)방식을 적용하여 잡음을 추정한 후에는 미리 저장된 순수 음성 모델(211)과 추정된 잡음을 이용하여 잡음을 보상한다(단계 207). 그러면 입력된 잡음 음성 중 순수 음성만 추정된다(단계 209).

이러한 잡음 보상 단계는 잡음 추정 단계(단계 205)에서 갱신되는 잡음의 평 균 및 분산 값과 음성 모델(211)의 평균 및 분산값을 이용하여

[수식 3]

의 [수식 3]을 이용하여 보상할 수 있다.

여기서, x는 순수 음성, y는 잡음 음성, n은 부가 잡음, m은 혼합 개수, M은 음성 모델인 GMM에서 혼합 개수,

는 잡음 성분들에 대한 함수이다.

한 편, 순수 음성 모델(211)은 잡음이 없는 상황에서의 음성으로부터 특성을 추출한 것인데 이러한 순수 음성 모델(211)은 음성의 종류마다 시간에 따른 상관관계를 나타내기 위하여 GMM(Gaussian Mixture Model) 기반한 선형 동적 기법으로 구성된다. 즉, 임의의 시간에서 확률은 해당 시간의 파라미터에 한정되는 것이 아니라 이전 시간의 파라미터까지 포함되어 계산되게 된다.

이러한 GMM(Gaussian Mixture Model) 기반한 선형 동적 모델은

[수식 4]

로 표현된다.

[수식 4]에서

,

은 GMM(Gaussian Mixture Model) 모델의 평균과 분산값을 나타내며,

및

은 선형 동적 모델의 구동 계수를 나타내며 N은 가우시안 분포를 의미한다.

다만 이러한 방식을 사용하여 잡음을 추정할 경우에는 시간에 따른 잡음의 추정이 정확해야 한다. IMM(Interacting Multiple Model) 방식은 오직 잡음만 있는 구간에서는 잘 동작하지만, 음성과 잡음이 혼재하는 영역에서는 음성의 영향으로 잡음 성분이 상대적으로 작게 추정되는 문제가 있고, 이로 인해 잡음 보상 후에도 음성에 잡음이 남아있는 경우가 발생한다.

따라서 잡음의 특성별 분류와 이의 식별을 통해 잡음추정에 도움을 주기 위해 도면 4에서 잡음 모델을 이용한 순수 음성 추정 방법이 소개된다.

도 3은 본 발명에 적용되는 IMM(Interacting Multiple Model) 방식을 개략적 으로 설명한 도면이다.

도 3을 참조하면, 우선 잡음 음성 신호가 수신되면(단계 301), 수신된 신호를 로그 스펙트럼으로 변환한다(단계 303). 그 후 여러 개의 가우시안 모델로 로그 스펙트럼을 나타내는 상태모델로 음성 신호를 나눈다. 그리고 그렇게 나눈 상태에서 각각 칼만 필터(Kalman filter)를 통과시킨다(단계 305). 그 후, 이렇게 칼만 필터(Kalman filter)를 적용한 각 상태에서의 추정치들을 다시 정합한다(단계 307). 이후 정합에 의한 추정치를 계산하여 그 값을 다시 입력된 잡음 음성 신호에 되먹임한다(단계 309).

이러한 IMM(Interacting Multiple Model) 방식은 시간에 따라 변하는 잡음의 특성을 반영할 수 있다는 장점이 있다. 즉, IMM(Interacting Multiple Model) 방식은 매 시간 마다 서로 다른 추정치가 되먹임되는데, 이는 이전 시간의 추정치를 갱신하여 현재 시간의 추정치를 얻는 방식이다.

도 4는 본 발명에 따른 잡음 모델을 이용한 순수 음성 추정 방법을 개략적으로 설명한 도면이다.

도 4를 참조하면, 우선 잡음이 포함된 잡음 음성을 수신한다(단계 401). 그 후 잡음 음성 중 잡음의 식별을 위해 잡음 구간을 추출한다(단계 403). 이렇게 잡음 구간을 추출하면 이러한 잡음 구간에서 잡음의 초기 평균값과 분산을 구할 수 있으며, [수식 2]의 선형화 계수 A, B, C의 값도 구할 수 있다.

그 후, 추출된 잡음과 미리 저장된 잡음 모델(407)을 이용하여 잡음을 식별 (단계 405)한다. 잡음 모델은 잡음의 특성을 정적잡음, 동적잡음, 돌발잡음 등의 지식기반 분류와 데이터 거리척도기반 분류를 혼용하여 이진트리 형태로 구성할 수 있으며, 잡음구간에 대해 대략 10프레임정도의 길이에 대해 동적모델을 통해 잡음을 식별한다. 이러한 방식은, 잡음의 특성에 따라 미리 저장된 예상 가능한 여러 잡음 모델의 정적 특성 비교와 동시에 동적 변화도 반영할 수 있어, 기존의 방식에 비하여 더 정확한 잡음을 식별할 수 있다는 장점이 있다. 이렇게 정확하게 잡음을 식별할 경우에는 이후의 잡음 추정과정 및 잡음 보상 과정에서 순수 음성을 추정할 때에도 잡음이 없는 순수한 음성의 추정이 더 정확하게 이루어질 수 있다.

이러한 잡음 식별을 위한 잡음 모델은 음성 모델과 같이 GMM(Gaussian Mixture Model) 기반한 선형 동적 모델로 구성되어 진다.

따라서 잡음 모델의 선형 동적 모델의 수학식도 [수식 4]와 같은 형식으로 나타날 것이다.

그 후 식별된 잡음을 이용하여 잡음을 추정(단계 205)하는데, 이러한 잡음의 추정은 IMM(Interacting Multiple Model) 방식을 사용한다. 이러한 IMM(Interacting Multiple Model) 방식은 도 3에서 자세히 설명하였다. 이러한 IMM(Interacting Multiple Model) 방식을 이용한 잡음 추정에서 잡음의 식별 정보를 이용하므로 추정되는 잡음 또한 정확할 것이다.

그 후 IMM(Interacting Multiple Model)방식을 적용하여 잡음을 추정한 후에는 미리 저장된 순수 음성 모델(413)과 추정된 잡음을 이용하여 잡음을 보상한다(단계 411). 그러면 입력된 잡음 음성 중 순수 음성만 추정된다(단계 415).

위와 같이 잡음 모델을 이용하여 잡음 식별이 되면 잡음 추정 단계(단계 409)에서는 식별된 잡음의 사전 정보를 이용하여 잡음의 영향이 심한 주파수를 제외하고 IMM(Interacting Multiple Model)방식을 이용하여 잡음을 추정할 수 있다.

또한, 잡음 보상 단계(단계 411)에서도 사전 정보를 이용하여 잡음의 영향이 심한 주파수를 제외한 부분에서는 [수식 3]을 이용하여 순수 음성을 추정할 수 있으며, 잡음 영향이 심한 주파수에서는 최저값으로 대체하거나 인접 주파수대역과의 상관관계를 고려하여 보상할 수 있다. 이러한 추정 잡음의 보상은

[수식 5]

를 사용할 수 있다. 여기서

는 벡터 성분의 가중치이다.

본 발명은 상기 실시예에 한정되지 않으며, 많은 변형이 본 발명의 사상 내에서 당 분야에서 통상의 지식을 가진 자에 의하여 가능함은 물론이다.

본 발명에 의하여, 발명은 배경 잡음을 다양한 잡음 모델로부터 식별한 후 잡음별 특성을 이용해 잡음 추정을 더 정확하게 하는 동시에 잡음 보상을 위한 유용한 정보를 제공함으로써 음성 인식을 위한 배경 잡음 처리 성능을 향상시킬 수 있는 잡음 모델을 이용한 순수 음성 추정 방법을 제공할 수 있다.

Claims

a. 잡음 음성을 수신하는 단계;

b. 상기 수신된 잡음 음성에서 잡음 구간을 추출하는 단계;

c. 상기 추출된 잡음 구간 및 미리 저장된 잡음 모델에 상응하여 잡음을 식별하는 단계; 및

d. 상기 식별된 잡음 및 미리 저장된 음성 모델에 상응하여 순수 음성을 추정하는 단계

를 포함하는 잡음 보상 기법에 의한 순수 음성 추정 방법.
제1항에 있어서,

상기 잡음 음성은
로 추정하되,

상기 y는 잡음 음성, 상기 x는 순수 음성 및 상기 n은 부가 잡음을 나타내는 것

을 특징으로 하는 잡음 보상 기법에 의한 순수 음성 추정 방법.
제1항에 있어서,

상기 잡음 음성은
로 선형화하되,

상기 A, 상기 B 및 상기 C 는 선형화 계수이고 상기 y는 잡음 음성, 상기 x는 순수 음성 및 상기 n은 부가 잡음을 나타내는 것

을 특징으로 하는 잡음 보상 기법에 의한 순수 음성 추정 방법.
제1항에 있어서,

상기 b 단계는 추출된 잡음 구간에서 잡음의 초기 평균, 분산 및 잡음 음성의 선형화 계수를 구하는 것

을 특징으로 하는 잡음 보상 기법에 의한 순수 음성 추정 방법.
제1항에 있어서,

상기 잡음 모델 및 음성 모델은 GMM(Gaussian Mixture Model)에 기반한 선형 동적 모델인 것

을 특징으로 하는 잡음 보상 기법에 의한 순수 음성 추정 방법.
제5항에 있어서,

상기 선형 동적 모델은

으로 표현하되,

상기 y는 상기 잡음 음성, 상기 x는 상기 순수 음성, 상기 t는 단위 시간, 상기
은 GMM(Gaussian Mixture Model) 모델의 평균값, 상기
은 GMM(Gaussian Mixture Model) 모델의 분산값, 상기
및
상기 은 선형 동적 모델의 구동 계수, 상기 N은 가우시안 분포를 나타내는 것

을 특징으로 하는 잡음 보상 기법에 의한 순수 음성 추정 방법.
제1항에 있어서,

상기 잡음의 추정은 IMM(Interacting Multiple Model) 방식을 사용하는 것

을 특징으로 하는 잡음 보상 기법에 의한 순수 음성 추정 방법.
제1항에 있어서,

상기 순수 음성 추정은 주파수의 잡음 특성에 따라

　및

　
중 어느 하나의 수식에 의하되,

상기 x는 순수 음성, 상기 y는 잡음 음성, 상기 n은 부가 잡음, 상기 m은 혼합 개수, 상기 M은 음성 모델인 GMM(Gaussian Mixture Model) 모델의 혼합 개수, 상기
는 잡음 성분들에 대한 함수, 상기
는 벡터 성분의 가중치인 것

을 특징으로 하는 잡음 보상 기법에 의한 순수 음성 추정 방법.
잡음 보상 기법에 의한 순수 음성을　 추정하는 프로그램을 기록한 컴퓨터로 판독 가능한 기록 매체로서,

　상기 프로그램은,

잡음 음성을 수신하는 단계, 상기 수신된 잡음 음성에서 잡음 구간을 추출하는 단계, 상기 추출된 잡음 구간 및 미리 저장된 잡음 모델에 상응하여 잡음을 식별하는 단계 및 상기 식별된 잡음 및 미리 저장된 음성 모델에 상응하여 순수 음성을 추정하는 단계를 포함하는 것을 특징으로 하는 컴퓨터로 판독 가능한 기록 매 체.