KR20060067097A

KR20060067097A - 강인한 음성인식을 위한 채널 정규화 장치 및 그 방법

Info

Publication number: KR20060067097A
Application number: KR1020050037094A
Authority: KR
Inventors: 정호영
Original assignee: 한국전자통신연구원
Priority date: 2004-12-14
Filing date: 2005-05-03
Publication date: 2006-06-19
Also published as: KR100614932B1

Abstract

본 발명은 음성인식의 실제 적용에 있어 성능에 영향을 주는 채널변이를 해결하고자 하는 것이다. 이러한 본 발명의 장치는 멜(mel)-주파수 켑스트럼 계수(MFCC) 특징을 추출하여 시간에 따른 프레임열을 출력하는 특징추출부; 상기 출력된 멜-주파수 켑스트럼 계수(MFCC) 특징열의 평균값을 계산하는 특징 파라미터 평균계산부; 채널변이를 줄인 음성 데이터베이스로부터 코드북을 구성한 후, 채널왜곡된 입력음성의 멜-주파수 켑스트럼 계수(MFCC)값이 들어오면 각 프레임의 멜-주파수 켑스트럼 계수(MFCC)값과 상기 코드북 중심값과의 거리를 구해 프레임별 채널변이를 추정하는 프레임별 채널변이 추정부; 및 상기 특징 파라미터 평균계산부에서 얻어진 채널변이와 상기 프레임별 채널변이 추정부에서 얻어진 시간별 채널변이의 평균값을 스무싱(smoothing)한 후 스무싱된 평균값을 각 프레임의 멜-주파수 켑스트럼 계수(MFCC)에서 빼어 채널정규화된 멜-주파수 켑스트럼 계수(MFCC) 특징열을 출력하는 스무싱 기반 채널정규화부로 구성된다. 따라서 본 발명은 음성인식시스템의 안정적인 성능을 위해서 채널정규화 방법을 제시하고 있으며, 다양한 채널변이가 있는 환경, 특히 전화망 환경에서 인식성능 향상에 기여할 수 있다.

음성인식, 채널정규화, MFCC, 평균, 채널변이 추정

Description

강인한 음성인식을 위한 채널 정규화 장치 및 그 방법{CHANNEL NORMALIZATION APPARATUS AND METHOD FOR ROBUST SPEECH RECOGNITION}

도 1은 기존의 CMS(Cepstral Mean Subtraction) 방식에 기반한 채널정규화 구성을 도시한 블럭도,

도 2는 본 발명에 따른 채널정규화 장치의 제1 실시예의 구성을 도시한 블럭도,

도 3은 본 발명에 따른 채널정규화 장치의 제2 실시예의 구성을 도시한 블럭도,

도 4는 일반적인 음성인식 시스템을 도시한 개략도,

도 5는 도 4에 도시된 특징추출부의 예를 도시한 구성 블록도이다.

<도면의 주요부분에 대한 부호의 설명>

110: 특징추출부 120: 특징파라미터 평균계산부

130: 채널정규화부 210: 특징추출부

220: 프레임별 채널변이추정부 230: 특징파리미터 평균계산부

240: 스무싱기반 채널정규화부 310: 채널변이갱신부

320: 특징추출부 330: 프레임별 채널변이추정부

340: 특징파리미터 평균계산부 350: 스무싱기반 채널정규화부

본 발명은 음성인식기술에 관한 것으로, 더욱 상세하게는 다양한 마이크 특성, 통신시스템의 차이 등을 정규화함으로써 음성인식 성능을 향상시킬 수 있는 강인한 음성인식을 위한 채널 정규화 장치 및 그 방법에 관한 것이다.

일반적으로, 음성인식장치는 도 4에 도시된 바와 같이, 입력된 음성신호의 특징을 추출하는 특징추출부(10)와, 특징추출부(10)에서 추출된 특징 데이터에 의해서 음성을 인식하는 음성인식부(20)로 구성된다. 특징추출부(10)는 여러가지 방법으로 구현될 수 있으나 MFCC(Mel-Frequency Cepstrum Coefficient)나 PLPCC(Perceptual Linear Prediction Cepstrum Coefficient)가 주로 사용되고, 음성인식부(20)는 HMM(Hidden Markov Model), DTW(Dynamic Time Warping), 신경회로망 등이 많이 사용된다.

음성인식장치에서 멜-주파수 켑스트럼 계수(MFCC) 방법으로 음성특징을 추출하기 위한 특징추출부의 예는 도 5에 도시된 바와 같이, 음성신호의 주파수 스펙트럼 정보를 추출하는 스펙트럼 분석부(11)와, 스펙트럼 분석부(11)에 의해 구해진 스펙트럼으로부터 간략화된 스펙트럼의 포락선을 구하는 필터뱅크부(12), 간략화된 스펙트럼의 크기를 로그함수를 이용하여 함축시키는 로그 압축부(13), 로그 압축부 (13)의 출력을 이산 코사인 변환(DCT)하여 켑스트럼 계수를 구하는 이산 코사인 변환부(14)로 구성될 수 있다.

한편, 음성인식에 있어서 음성신호에는 마이크 종류, 전화망 종류, 통신시스템의 차이, 화자차이 등에 의해 채널 변이가 일어나는데, 이러한 채널 변이를 보상하는 방법으로서 켑스트럼 평균 차감법(CMS: Cepstral Mean Subtraction), 신호 편차 제거법(SBR: Signal Bias Removal), 켑스트럼 선형 변환법(ATC: Affine Transform of Cepstrum) 등이 알려져 있다. 즉, 음성인식 기술 중 채널변이를 처리하여 인식성능을 높이는 대부분의 방법은 계산량의 문제로 음성신호 자체에 대해서 적용하는 것이 아니라 특징추출 후 시간별 특징 파라미터에 대해 적용한다.

이때 널리 쓰이는 방법은 대표적 음성특징인 MFCC 영역에서 채널변이가 하나의 상수로 표현된다는 점에 기반해, 시간에 따른 MFCC 파라미터의 평균을 구한 후 각 MFCC 파라미터에서 빼는 CMS이다. 이 방법은 효과적이나 각 시간별로 보면 MFCC 값 자체를 채널변이로 취급하여 인식을 위한 음성성분까지 제거하는 문제점이 있다. 즉, 종래의 CMS 방식은 간단하면서 효과적이나, 전체 평균을 빼주는 방식으로 MFCC 파라미터값을 채널변이로 보는 문제가 있다. 예를 들어, sin(t) + a의 신호가 채널변이의 영향으로 sin(t)+a+b가 되었을 경우 CMS를 적용하면 평균 a+b를 제거하게 되어 sin(t)를 출력하게 되는 것이다.

본 발명은 상기와 같은 문제점을 해결하기 위하여 안출된 것으로, 본 발명의 목적은 각 시간별로 채널변이를 추정하고 이를 전체 시간에 대해 평균해서 각 발화에 대한 채널변이를 구하여 다양한 채널변이에 강인하게 대처할 수 있는 강인한 음성인식을 위한 채널 정규화 장치 및 그 방법을 제공하는 것이다.

본 발명의 다른 목적은 시간별 채널변이의 평균값이 짧은 발화에 대해서는 민감하게 작용할 수 있으므로 켑스트럼 평균 차감법(CMS)에 사용되는 멜-주파수 켑스트럼 계수(MFCC) 파라미터의 평균과 스무싱(smoothing)해서 발화당 채널변이를 제거할 수 있는 강인한 음성인식을 위한 채널 정규화 장치 및 그 방법을 제공하는 것이다.

상기와 같은 목적을 달성하기 위하여 본 발명의 장치는, 멜-주파수 켑스트럼 계수(MFCC) 특징을 추출하여 시간에 따른 프레임열을 출력하는 특징추출부; 상기 출력된 멜-주파수 켑스트럼 계수(MFCC) 특징열의 평균값을 계산하는 특징 파라미터 평균계산부; 채널변이를 줄인 음성 데이터베이스로부터 코드북을 구성한 후, 채널왜곡된 입력음성의 멜-주파수 켑스트럼 계수(MFCC)값이 들어오면 각 프레임의 멜-주파수 켑스트럼 계수(MFCC)값과 상기 코드북 중심값과의 거리를 구해 프레임별 채널변이를 추정하는 프레임별 채널변이 추정부; 및 상기 특징 파라미터 평균계산부에서 얻어진 채널변이와 상기 프레임별 채널변이 추정부에서 얻어진 시간별 채널변 이의 평균값을 스무싱(smoothing)한 후 스무싱된 평균값을 각 프레임의 멜-주파수 켑스트럼 계수(MFCC)에서 빼어 채널정규화된 멜-주파수 켑스트럼 계수(MFCC) 특징열을 출력하는 스무싱 기반 채널정규화부를 포함하는 것을 특징으로 한다.

상기와 같은 목적을 달성하기 위하여 본 발명의 방법은, 각 시간별 채널변이를 추정하기 위하여 채널변이를 줄인 음성을 대상으로 멜-주파수 켑스트럼 계수(MFCC) 특징을 추출한 후, 일정크기의 코드북을 구성하는 단계; 입력음성에 대한 각 프레임의 멜-주파수 켑스트럼 계수(MFCC)값과 상기 코드북 중심값과의 거리를 구해 프레임별 채널변이로 추정하는 추정하는 단계; 상기 입력음성에 대한 멜-주파수 켑스트럼 계수(MFCC) 특징열의 평균값을 계산하는 단계; 및 상기 평균값으로 얻어진 채널변이와 상기 시간별 채널변이의 추정으로 구한 평균값을 스무싱(smoothing)한 후 스무싱된 평균값을 각 프레임의 멜-주파수 켑스트럼 계수(MFCC)에서 빼어 채널정규화된 멜-주파수 켑스트럼 계수(MFCC) 특징열을 출력하는 단계를 구비한 것을 특징으로 한다.

이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 자세히 설명하기로 한다.

종래기술에서 설명한 바와 같이, 기존의 켑스트럼 평균 차감법(CMS)은 간단하면서 효과적이나, 전체 평균을 빼주는 방식으로 MFCC 파라미터값을 채널변이로 보는 문제가 있다. 예를 들어 sin(t) + a의 신호가 채널변이의 영향으로 sin(t)+a+b가 되었을 경우 CMS를 적용하면 평균 a+b를 제거하게 되어 sin(t)를 출 력하게 되는 것이다.

이것을 해결하기 위해 제안된 방법이 시간별로 채널변이를 추정하고, 이것의 평균을 구해 뺌으로써 채널정규화하는 것이다.

채널 정규화를 수행하는 절차는 먼저, 각 시간별 채널변이를 추정하기 위하여 채널변이를 줄인 음성을 대상으로 MFCC 특징을 추출한 후, 일정크기의 코드북을 구성하고, 입력음성의 각 시간별 MFCC와 코드북내의 각 중심값들과의 거리를 구한다.

다음으로 가장 가까운 거리에 있는 중심값이 현재 시간의 MFCC 특징을 대표한다고 가정한 후, 이때의 거리를 해당 시간의 채널변이로 추정하게 된다. 마지막으로 각 시간별로 구해진 채널변이를 전체 발화에 대해 평균내어 채널정규화에 적용한다.

본 발명은 채널 정규화 절차에서 기준이 되는 코드북을 기존의 방법처럼 벡터양자화방식을 이용하지 않고, PCA(Principle Component Analysis) 방식에 의해 구성하여, 다양한 채널변이에 강인하게 대처하는 방식이다. 또한 시간별 채널변이의 평균값이 짧은 발화에 대해서는 민감하게 작용할 수 있으므로 CMS에 사용되는 MFCC 파라미터의 평균과 스무싱(smoothing)해서 발화당 채널변이를 제거하는 것이다.

도 1은 현재 널리 쓰이고 있는 CMS 기반의 채널정규화 장치를 도시한 블럭도로서, CMS 기반의 채널정규화 장치는 특징추출부(110)와, 특징 파라미터 평균계산부(120), 채널정규화부(130)로 이루어진다.

도 1을 참조하면, 특징추출부(110)는 음성인식에 대표적인 MFCC 특징을 추출하여 시간에 따른 프레임열을 출력하고, 특징 파라미터 평균계산부(120)는 출력된 MFCC 특징열의 평균값을 계산한다. 그리고 채널정규화부(130)는 계산된 평균값을 각 프레임의 MFCC에서 빼어 채널정규화된 MFCC 특징열을 출력한다. 이 방식은 다음 수학식 1로 표현될 수 있다.

상기 수학식 1 및 수학식 2에서, “b”는 채널변이를 나타내는 상수값, “Ct”는 t프레임에서의 정규화 이전의 MFCC 파라미터이고, “T”는 입력발화에 대한 프레임의 수를 나타낸다. 그리고, “^Ct” 는 t 프레임에서의 채널정규화된 MFCC 파라미터를 의미한다. 결국, CMS방식은 매 프레임별 MFCC값이 프레임별 채널변이가 되어, 음성성분이 채널변이에 포함될 위험이 크다.

본 발명에서는 이런 채널변이 결정방식을 해결하기 위해 채널변이를 줄인 음성 DB로부터 코드북을 구성하고, 각 프레임의 MFCC값과 코드북 중심값과의 거리를 구해 프레임별 채널변이로 추정하는 방식을 이용한다. 채널변이를 줄인 음성신호에 대한 코드북이 기준이 되어, 채널왜곡된 입력음성이 들어오면 코드북 내의 가장 가까운 중심값으로 이동시키는 거리만큼이 채널변이 추정값이 되는 것이다. 이 방식 은 아래의 수학식 3으로 표현될 수 있다.

여기서, “bt”는 프레임 t에 대한 채널변이 추정을 나타내고, “D”는 MFCC 파라미터와 코드북내의 각 중심값(codeword)과의 거리, “codewordi” 는 코드북의 i번째 중심값을 나타낸다. 그리고 “b”는 전체 발화에 대한 채널변이 추정값이다. 따라서 CMS방식과는 달리 각 프레임 t에서 채널변이가 MFCC값 자체가 아니라 추정된 bt이며, 이것들의 평균을 빼는 것은 음성성분의 손실을 최소화할 수 있다.

위의 방식에서 한가지 중요한 것은 음성을 나타내는 기준 코드북의 구성 방법이다. 코드북은 채널변이된 입력음성의 변이정도를 예측하는 척도이므로 성능에 큰 영향을 줄 수 있다. 일반적 방법인 벡터양자화 기법은 코드북 생성에 사용된 DB에 의존성이 커서 다양한 채널변이에 대처하기가 어렵다. 벡터양자화는 전체 DB를 원하는 클러스터 수만큼 나누어 각 클러스터에서의 평균으로 중심값을 구하므로, 임의방향으로의 바이어스가 있을 수 있다.

본 발명에서는 이런 문제를 해결하기 위해 코드북 생성을 위한 전체 특징벡터를 이루는 여러 개의 축을 추출해서 중심값으로 사용한다. 일반적으로 MFCC특징은 13차 벡터로 이루어지며, 13차보다 적은 N개의 주요 축성분을 PCA방식을 이용해 추출하게 된다. 채널변이를 해결하기 위한 일반적인 N의 수는 8∼10이다.

본 발명에서 한가지 더 중요한 요소는 상기 수학식 4와 같은 발화 전체의 채널변이를 구하는 경우에 있어 수학식 1과의 스무싱(smoothing)을 하는 것이다. 수학식 4에 의한 채널특성 추출은 효과적이나 발화길이가 짧을 경우 너무 민감하게 작용하는 문제가 발생할 수 있으며, 이를 해결하기 위해 스무싱(smoothing) 기법을 적용한다. 이것은 다음의 수학식 5로 표현된다.

즉, CMS 방식에서 얻어진 채널변이와 시간별 채널변이의 평균값과의 스무싱(smoothing)을 하게된다.

도 2는 본 발명에서 제시한 채널정규화 장치를 도시한 블럭도로서, 본 발명의 채널 정규화장치는 특징추출부(210), 프레임별 채널변이 추정부(220), 특징파라미터 평균계산부(230), 스무싱(smoothing)기반 채널정규화부(240)로 구성된다.

특징추출부(210)과 특징 파리미터 평균계산부(230)는 도 1과 같은 작용을 하고, 프레임별 채널변이 추정부(220)는 수학식 3∼4를 수행하고, 스무싱(smoothing)기반 채널정규화부(240)는 수학식 5를 수행하게 된다.

한편, 도 2의 방식은 입력음성을 다 받은 후 처리하게 되어 시스템 구현에 있어 지연이 있게 된다. 이를 해결하기 위해 음성인식시스템이 사용되고 있는 환경에서 이전 발화로부터 지속적으로 채널변이를 갱신하여 현재 입력발화에 적용하고, 현재 발화로부터 얻은 채널변이는 다음 발화를 위해 채널변이 갱신에 사용한다.

도 3은 이와 같이 도 2의 방식을 실시간으로 처리하기 위한 채널정규화 장치를 도시한 블럭도로서, 다른 실시예의 채널 정규화 장치는 특징추출부(320)와, 프레임별 채널변이 추정부(330), 특징파라미터 평균 계산부(340), 스무싱기반 채널 정규화부(350), 채널변이 갱신부(310)로 구성된다.

도 3을 참조하면, 현재 입력된 음성은 채널변이갱신부(310)에서 제공하는 채널변이값을 이용해 정규화되는 동시에 도 2와 같은 방법에 의해 프레임별 채널변이추정부(320), 특징 파라미터 평균계산부(330), 스무싱(smoothing)기반 채널정규화부(340)를 거친 후, 다음 발화를 위해 채널변이갱신부(310)로 추정된 채널변이를 제공한다. 이러한 실시간 처리 가능한 채널정규화장치는 인터넷과 같은 온라인 음성인식시스템에서 효과적으로 사용될 수 있다.

이상에서 몇 가지 실시예를 들어 본 발명을 더욱 상세하게 설명하였으나, 본 발명은 반드시 이러한 실시예로 국한되는 것이 아니고 본 발명의 기술사상을 벗어나지 않는 범위 내에서 다양하게 변형실시될 수 있다.

이상에서 설명한 바와 같이, 본 발명은 음성인식시스템의 안정적인 성능을 위해서 채널정규화 방법을 제시하고 있으며, 다양한 채널변이가 있는 환경, 특히 전화망 환경에서 인식성능 향상에 기여할 수 있다.

Claims

멜-주파수 켑스트럼 계수(MFCC) 특징을 추출하여 시간에 따른 프레임열을 출력하는 특징추출부;

상기 출력된 멜-주파수 켑스트럼 계수(MFCC) 특징열의 평균값을 계산하는 특징 파라미터 평균계산부;

채널변이를 줄인 음성 데이터베이스로부터 코드북을 구성한 후, 채널왜곡된 입력음성의 멜-주파수 켑스트럼 계수(MFCC)값이 들어오면 각 프레임의 멜-주파수 켑스트럼 계수(MFCC)값과 상기 코드북 중심값과의 거리를 구해 프레임별 채널변이를 추정하는 프레임별 채널변이 추정부; 및

상기 특징 파라미터 평균계산부에서 얻어진 채널변이와 상기 프레임별 채널변이 추정부에서 얻어진 시간별 채널변이의 평균값을 스무싱(smoothing)한 후 스무싱된 평균값을 각 프레임의 멜-주파수 켑스트럼 계수(MFCC)에서 빼어 채널정규화된 멜-주파수 켑스트럼 계수(MFCC) 특징열을 출력하는 스무싱 기반 채널정규화부

를 포함하는 것을 특징으로 하는 강인한 음성인식을 위한 채널 정규화 장치.
제 1 항에 있어서, 상기 코드북은 피시에이(PCA:Principle Component Analysis) 기반으로 구성된 것을 특징으로 하는 강인한 음성인식을 위한 채널 정규화 장치.
제 2 항에 있어서, 상기 PCA 기반 코드북은

중심값 개수를 8∼10개로 설계하는 것을 특징으로 하는강인한 음성인식을 위한 채널 정규화 장치.
제 1 항에 있어서, 상기 채널 정규화 장치는

채널정규화의 실시간처리를 위해 이전 발화로부터 얻어진 채널추정값으로 현재 입력발화를 정규화하고, 현재발화의 추정값은 다음 발화를 위해 과거값과 함께 지속적으로 갱신하는 채널변이 갱신부를 더 구비한 것을 특징으로 하는 강인한 음성인식을 위한 채널 정규화 장치.
제 4 항에 있어서, 상기 실시간 채널정규화장치는

온라인 음성인식시스템에 적용되는 것을 특징으로 하는 강인한 음성인식을 위한 채널 정규화 장치.
제 1 항에 있어서, 상기 특징추출부는

음성신호의 주파수 스펙트럼 정보를 추출하는 스펙트럼 분석부와, 상기 스펙트럼 분석부에 의해 구해진 스펙트럼으로부터 간략화된 스펙트럼의 포락선을 구하는 필터뱅크부와, 상기 간략화된 스펙트럼의 크기를 로그함수를 이용하여 함축시키는 로그 압축부와, 상기 로그 압축부의 출력을 이산 코사인 변환(DCT)하여 켑스트 럼 계수를 구하는 이산 코사인 변환부로 구성된 것을 특징으로 하는 강인한 음성인식을 위한 채널 정규화 장치.
각 시간별 채널변이를 추정하기 위하여 채널변이를 줄인 음성을 대상으로 멜-주파수 켑스트럼 계수(MFCC) 특징을 추출한 후, 일정크기의 코드북을 구성하는 단계;

입력음성에 대한 각 프레임의 멜-주파수 켑스트럼 계수(MFCC)값과 상기 코드북 중심값과의 거리를 구해 프레임별 채널변이로 추정하는 추정하는 단계;

상기 입력음성에 대한 멜-주파수 켑스트럼 계수(MFCC) 특징열의 평균값을 계산하는 단계; 및

상기 평균값으로 얻어진 채널변이와 상기 시간별 채널변이의 추정으로 구한 평균값을 스무싱(smoothing)한 후 스무싱된 평균값을 각 프레임의 멜-주파수 켑스트럼 계수(MFCC)에서 빼어 채널정규화된 멜-주파수 켑스트럼 계수(MFCC) 특징열을 출력하는 단계

를 구비한 것을 특징으로 하는 강인한 음성인식을 위한 채널 정규화 방법.
제 7 항에 있어서, 상기 코드북은 피시에이(PCA: Principle Component Analysis) 기반으로 구성된 것을 특징으로 하는 강인한 음성인식을 위한 채널 정규화 방법.
제 8 항에 있어서, 상기 PCA기반 코드북은

중심값 개수를 8∼10개로 설계하는 것을 특징으로 하는 강인한 음성인식을 위한 채널 정규화 방법.
제 7 항에 있어서, 상기 채널 정규화 방법은

채널정규화의 실시간처리를 위해 이전 발화로부터 얻어진 채널추정값으로 현재 입력발화를 정규화하고, 현재발화의 추정값은 다음 발화를 위해 과거값과 함께 지속적으로 갱신하는 단계를 더 구비한 것을 특징으로 하는 강인한 음성인식을 위한 채널 정규화 방법.
제 7 항에 있어서, 상기 채널변이 추정 단계는

수학식

으로 채널변이를 추정하는 것을 특징으로 하는 강인한 음성인식을 위한 채널 정규화 방법.
제 7 항에 있어서, 상기 스무싱 단계는

수학식

으로 채널변이를 산출하는 것을 특징으로 하는 강인한 음성인식을 위한 채널 정규화 방법.