KR100563316B1

KR100563316B1 - 보완적 특징벡터를 이용한 화자특징벡터 생성방법 및 장치

Info

Publication number: KR100563316B1
Application number: KR1020040043158A
Authority: KR
Inventors: 윤성완; 김사무엘; 강홍구; 윤대희
Original assignee: 학교법인연세대학교
Priority date: 2004-06-11
Filing date: 2004-06-11
Publication date: 2006-03-27
Also published as: KR20050117887A

Abstract

본 발명의 목적을 달성하기 위한 보완적 특징벡터를 이용한 화자특징벡터 생성방법 및 장치에 관한 것으로서, 본 발명의 목적은 입력된 화자 음성신호에서 특징벡터를 추출하여 화자모델링 훈련 및 화자인식을 수행하는 화자인식시스템에 있어서, 상기 입력된 음성신호에 목적화자와 사칭화자에 따라 서로 다른 제한된 환경의 보완적 특징을 첨가하는 보완특징첨가수단과, 상기 보완특징첨가수단을 통해 보완적 특징이 첨가된 음성신호의 특징벡터를 추출하는 특징벡터생성수단을 포함하여 구성된 것을 특징으로 한다.

화자, 목적화자, 사칭화자, 음성, 인식, 특징, 벡터, 추출, 생성, 보완, 제한적 환경

Description

보완적 특징벡터를 이용한 화자특징벡터 생성방법 및 장치 {Method and Apparatus for Feature Vector Generation using a Supplementary Feature}

도 1은 본 발명의 실시예에 따른 화자인식시스템에서 보완적 특징벡터를 이용한 특징벡터 추출 생성 방법 및 시스템의 블록 구성도이고,

도 2는 본 발명의 실시예에 따른 목적화자 및 사칭화자의 특징벡터의 생성과 훈련과정을 보여준다.

도 3은 도 1에서 특징벡터 생성장치의 상세 블록 구조도이다.

<도면의 주요부분에 대한 부호의 설명>

101 : 화자특징벡터 생성장치 102 : 보완특징첨가부

103 : 특징벡터추출부 104 : 화자모델 훈련시스템

105 : 화자인식 시스템 201 : 윈도우설정부

202 : 주파수분석부 203 : 필터부

204 : 로그연산부 205 : DCT변환부

본 발명은 화자인식 시스템에 관한 것으로서, 보다 상세하게는 특정화자만을 식별하거나 높은 보안성이 요구되는 시스템에서 기존의 화자인식 시스템에 널리 사용되는 'MFCC'(Mel Frequency Cepstral Coefficient) 특징벡터와 함께 목적화자에게 사칭화자와는 차별화되는 특징벡터를 첨가하는 보완적 특징벡터를 이용한 화자특징벡터 생성방법 및 장치에 관한 것이다.

일반적으로 화자인식 시스템은 크게 화자 종속 특징벡터를 생성하는 전처리 부분과 화자 종속 모델을 생성해 내는 화자 모델링, 그리고 화자의 인식을 처리하는 화자 인식의 세 부분으로 나눌 수 있다. 종래의 전처리 부분에서 생성하는 MFCC는 고정구간의 음성에서 인간의 주파수 측면의 청각적 특성을 고려하여 특징벡터를 추출해 내는 방법을 사용하고 있다.

법정수사 분야 또는 높은 보안성이 필수적인 화자인식 시스템의 경우, 특정화자를 식별하는데에 높은 신뢰도가 요구된다. 기존의 MFCC 특징벡터를 이용한 화자인식은 전반적으로 좋은 성능을 보이지만, 목적화자에게만 연관성이 있는 특징벡터를 첨가하여 시스템의 성능을 더 높일 필요성이 있다.

화자모델을 생성해 내는 화자 모델링 부분에서는 'GMM' (Gaussian Mixture Modeling), 'HMM' (Hidden Markov Modeling), 그리고 신경망 (Neural Network) 등이 가장 많이 쓰이고 있는데, 이는 화자종속 특징벡터들의 분포와 변이 상태를 각각의 모델링 기법에 따라 파라미터로 나타낸 것이다.

화자인식부분은 화자 모델링의 훈련과정을 거친 화자모델을 가지고 인식을 요구하는 사용자의 음성에서 특징벡터를 추출하고 비교하여 화자의 정체를 밝혀내는 역할을 한다.

본 발명은 특정화자만을 식별하기 위한 인식시스템에 응용하기 위한 것으로, 그 목적은 기존의 MFCC 특징벡터에 보완 특징벡터를 특정화자에게만 추가하여 사칭자와의 차별성을 두어 높은 보안성이 요구되는 화자인식시스템을 제공함에 있다.

본 발명의 목적을 달성하기 위한 보완적 특징벡터를 이용한 화자특징벡터 생성장치는 입력된 화자 음성신호에서 특징벡터를 추출하여 화자모델링 훈련 및 화자인식을 수행하는 화자인식시스템에 있어서, 상기 입력된 음성신호에 목적화자와 사칭화자에 따라 서로 다른 제한된 환경의 보완적 특징을 첨가하는 보완특징첨가수단과, 상기 보완특징첨가수단을 통해 보완적 특징이 첨가된 음성신호의 특징벡터를 추출하는 특징벡터생성수단을 포함하여 구성된 것을 특징으로 한다.

본 발명의 목적을 달성하기 위한 보완적 특징벡터를 이용한 화자특징벡터 생성방법은 입력된 화자 음성신호에서 특징벡터를 추출하여 화자모델링 훈련 및 화자인식을 수행하는 화자인식방법에 있어서, 상기 화자모델링 훈련을 위해 입력된 음성신호가 목적화자이면 제한된 환경의 보완적 특징을 첨가하는 제 1 단계와, 상기 보완적 특징에 영향을 받은 목적화자의 특징벡터를 생성하는 제 2 단계와, 상기 목적화자의 특징벡터에 의하여 목적화자 모델을 생성하는 제 3 단계와, 상기 화자모델링 훈련을 위해 입력된 음성신호가 사칭화자이면 입력된 음성신호에서 특징벡터를 추출한 후 사칭화자 모델을 생성하는 제 4 단계를 포함하여 이루어진 것을 특징으로 한다.

이와 같이 이루어진 본 발명을 첨부된 도면을 참조하여 상세히 설명하면 다음과 같다.

도 1은 본 발명의 실시예에 따른 보완적 특징벡터를 이용한 화자특징벡터 생성장치의 블록 구성도로서, 화자특징벡터 생성장치(101)는 입력된 음성신호에 목적화자와 사칭화자에 따라 서로 다른 제한된 환경의 보완적 특징을 첨가하는 보완특징첨가부(102)와, 상기 보완특징첨가수단을 통해 보완적 특징이 첨가된 음성신호의 특징벡터를 추출하는 특징벡터추출부(103)와, 상기 특징벡터추출부(103)로부터 추출된 특징벡터를 이용하여 화자 모델링 훈련 음성으로 사용하는 화자모델 훈련시스템(104)과, 상기 특징벡터추출부(103)에서 추출된 특징벡터에 의하여 화자인식을 수행하는 화자인식시스템(105)으로 구성된다.

도 2는 상기 특징벡터추출부(103)의 상세 블록 구성도로서, 입력된 피치구간 음성신호에 윈도우(Window)를 설정하는 윈도우설정부(201)와, 상기 윈도우설정부(201)에 의해 설정된 윈도우의 음성분석구간에 대하여 주파수분석을 하는 주파수분석부(202)와, 상기 주파수분석부(202)로부터 출력된 주파수에 청각특성을 고려한 멜밴드필터뱅크(Mel Frequency filter Bank)를 통과시키는 필터부(203)와, 상기 필터부(203)를 통과한 주파수의 로그 연산(logarithm)하는 로그연산부(204)와, 상기 로그연산부(204)를 통해 산출된 값으로부터 이산여현변환(DCT : Discrete Cosine Transform)을 통해 특징벡터를 산출하는 DCT변환부(205)로 구성된다.

이와 같이 구성된 본 발명 실시예에 따른 작용을 첨부된 도 1 내지 도 3을 참조하여 보다 상세히 설명하면 다음과 같다.

도 1은 본 발명의 실시예에 따른 보완적 특징벡터를 이용한 화자특징벡터 생성장치의 블록 구성도로서, 화자특징백터생성장치(102)는 보완특징첨가부(102)와 특징벡터추출부(103)로 구성되며, 상기 보완특징첨가부(102)는 목적화자에게 사칭화자와 구별될 수 있게 하는 제한적인 조건을 제공한다.

예를 들면, 특정한 실내 음향환경 하에서 목적화자의 음성을 추출해서 음향환경의 임펄스 리스폰스(Response)의 영향이 특징벡터추출부(103)에서 생성되는 특징벡터에 포함되도록 하여 목적화자와 같은 환경을 제공받지 못한 사칭화자에의 특징벡터와 차별성을 둔다.

즉, 상기 보완특징첨가부(102)에서 제한적 환경인 특정한 실내 음향 환경 하에서 녹음된 목적화자의 음성신호가 실내 음향환경의 임펄스 리스폰스(impulse response)의 영향을 받기 때문에 MFCC를 연산하는 특징벡터추출부(103)에 이와 같은 영향이 반영된다.

이와 같이 산출된 특징벡터에는 실내음향환경이라는 보완적인 특징이 첨가되었기 때문에 특정화자에 종속적인 특징벡터를 생성하여 화자인식 시스템(105)의 성능을 향상시킬 수 있다.

도 2는 도 1에서 특징벡터추출부(103)의 상세 블록 구성도로서, 이에 도시된 바와 같이, 상기 윈도우설정부(201)에서는 상기 보완적특징첨가부(102)에서 보완적 특징이 첨가된 음성신호에 윈도우를 설정한다. 즉, 윈도우 설정은 음성분석 구간을 나누고 불연속성을 최소로 하기 위하여 해밍 윈도우(Hamming Window) 또는 해닝 윈 도우(Hanning Window)와 같은 윈도우 함수를 이용하여 필터링 한다.

상기 주파수분석부(202)는 상기 윈도우함수에 의해 필터링된 음성신호의 주파수를 DFT를 이용하여 분석한다.

상기 필터부(203)는 인간의 주파수 측면 청각특성을 이용하여 필터링한다. 즉, 멜필터뱅크 (Mel Filter Bank)라는 청각특성을 고려한 필터뱅크를 통과시키도록 한다.

상기 로그연산부(204)는 상기 필터부(203)를 통해 필터링된 신호를 로그연산한 후 DCT변환부(205)를 통하여 주파수 변환하여 출력하므로 특징벡터를 생성하게 된다.

도 3은 본 발명의 실시예에 따른 보완적 특징벡터를 이용한 화자특징벡터 생성과정의 흐름도로서, 이에 도시된 바와 같이 목적화자와 사칭화자에 따라 보완특징 벡터가 첨가되는 여부에 따라 화자모델 훈련과정이 달라지게 된다.

상기 입력된 음성신호가 상기 목적화자일 경우에는 상기 화자특징벡터생성장치(101)는 보완특징첨가부(102)에 의해 보완적 특징을 첨가한다.(S101∼S110)

즉, 목적화자의 경우 실내음향환경 등의 보완적 특징을 보완특징첨가부(102)에서 얻게 되고, 특징벡터추출부(103)에서 보완적 특징의 영향을 받은 특징벡터가 생성된다.(S112)

이어서, 화자모델훈련시스템에서 목적화자의 모델 훈련과정을 통해 목적화자 모델을 생성하게 된다.(S114)(S116)

여기서, 실제 화자인식을 위해서 로그확률값(Log Likelihood)은 식 1과 같이 계산된다.

여기서,

은 보완적 특징이 첨가된 특징벡터이고,

은 보완적 특징이 첨가된 특징벡터로 훈련된 화자모델이고, 그리고 lambda_BGM은 백그라운드 모델이다.

상기 입력된 음성신호가 사칭화자일 경우에는 보완적 특징이 첨가되지 않은 상태에서 특징벡터를 추출하고,(S120) 화자의 모델을 생성하기 때문에 화자인식에서 계산되는 로그확률값은 다음 수학식 2와 같다. (S122)(S124)

여기서

는 보완적 특징이 첨가되지 않은 사칭화자의 음성에서 추출한 특징벡터이다.

이상에서 본 발명에 따른 바람직한 실시예에 대해 설명하였으나, 보완적 특징첨가에 있어서 다양한 변형이 가능하며, 본 기술분야에서 통상의 지식을 가진자라면 본 발명의 특허청구범위를 벗어남이 없이 다양한 변형예 및 수정예를 실시할 수 있을 것으로 이해된다.

본 발명에 따른 보완적 특징이 첨가된 특정화자 인식시스템은 응용목적에 맞 게 인식하고자 하는 특정목적화자에게만 종속적인 보완적 특징을 첨가함으로써 보완적 특징을 제공받지 못한 사칭화자와 비교해 확연히 다른 특징벡터를 추출할 수 있는 효과가 있다.

또한, 실제 인식시스템에 적용하였을 경우, 제한적인 환경 등의 보완적 특징을 제공받은 목적화자와 사칭화자의 특징벡터를 이용해 계산한 로그확률값에서 많은 차이를 나타내기 때문에 높은 보안성이 요구되는 화자인식시스템에서 기존의 MFCC만을 이용한 경우보다 향상된 성능을 얻을 수 있는 효과가 있다.

Claims

입력된 화자 음성신호에서 특징벡터를 추출하여 화자모델링 훈련 및 화자인식을 수행하는 화자인식시스템에 있어서,

상기 입력된 음성신호에 목적화자와 사칭화자에 따라 서로 다른 제한된 환경의 보완적 특징을 첨가하는 보완특징첨가수단; 및

상기 보완특징첨가수단을 통해 보완적 특징이 첨가된 음성신호의 특징벡터를 추출하는 특징벡터추출수단;을 포함하여 구성된 것을 특징으로 하는 보완적 특징벡터를 이용한 화자특징벡터 생성장치.
제 1 항에 있어서,

상기 보완특징첨가수단에서 상기 목적화자의 제한적 환경은 특정한 실내 음향환경이 포함된 보완적 특징을 첨가하고, 상기 사칭화자는 실내 음향 환경을 제공하지 않는 것을 특징으로 하는 보완적 특징벡터를 이용한 화자특징벡터 생성장치.
제 1 항 또는 제 2 항에 있어서,

상기 특징벡터추출수단은 상기 보완특징첨가수단에서 첨가된 목적화자의 음향환경의 임펄스 리스폰스의 영향을 반영하여 추출하는 것을 특징으로 하는 보완적 특징벡터를 이용한 화자특징벡터 생성장치.
입력된 화자 음성신호에서 특징벡터를 추출하여 화자모델링 훈련 및 화자인식을 수행하는 화자인식방법에 있어서,

상기 화자모델링 훈련을 위해 입력된 음성신호가 목적화자이면 제한된 환경의 보완적 특징을 첨가하는 제 1 단계;

상기 보완적 특징에 영향을 받은 목적화자의 특징벡터를 생성하는 제 2 단계;

상기 목적화자의 특징벡터에 의하여 목적화자 모델을 생성하는 제 3 단계; 및

상기 화자모델링 훈련을 위해 입력된 음성신호가 사칭화자이면 입력된 음성신호에서 특징벡터를 추출한 후 사칭화자 모델을 생성하는 제 4 단계;를 포함하여 이루어진 것을 특징으로 하는 보완적 특징벡터를 이용한 화자특징벡터 생성방법.
제 4 항에 있어서,

상기 제 1 단계에서 첨가된 보완적 특징은 특정한 실내 음향환경이 포함하여 이루어진 것을 특징으로 하는 보완적 특징벡터를 이용한 화자특징벡터 생성방법.
제 4 항에 있어서,

상기 제 3 단계에서 목적화자 인식을 위한 로그확률값은 식

(여기서,
은 보완적 특징이 첨가된 특징벡터이고,
은 보완적 특징이 첨가된 특징벡터로 훈련된 화자모델이고, lambda_BGM은 백그라운드 모델이다.) 에 의하여 산출되는 것을 특징으로 하는 보완적 특징벡터를 이용한 화자특징벡터 생성방법.
제 4 항에 있어서,

상기 제 4 단계에서 사칭화자 인식을 위한 로그확률값은 식

(여기서,
는 보완적 특징이 첨가되지 않은 사칭화자의 음성에서 추출한 특징벡터이다.)에 의하여 산출되는 것을 특징으로 하는 보완적 특징벡터를 이용한 화자특징벡터 생성방법.