KR100526110B1

KR100526110B1 - 화자인식시스템의 화자 특징벡터 생성방법 및 시스템

Info

Publication number: KR100526110B1
Application number: KR10-2003-0082086A
Authority: KR
Inventors: 김사무엘; 강홍구; 윤대희
Original assignee: 학교법인연세대학교
Priority date: 2003-11-19
Filing date: 2003-11-19
Publication date: 2005-11-08
Also published as: KR20050048214A

Abstract

본 발명은 화자인식시스템의 화자 특징벡터 생성방법 및 시스템에 관한 것으로서, 입력된 화자 음성신호에서 특징벡터를 추출하여 화자모델링 훈련 및 화자인식을 수행하는 화자인식시스템에 있어서, 입력된 화자음성신호의 피치간격을 측정하고 소정의 피치구간 음성신호를 추출하는 피치구간 음성추출수단, 피치구간음성추출수단에서 추출된 음성신호의 특징벡터를 생성하는 특징벡터생성수단을 포함하여 이루어진 것을 특징으로 한다.

Description

화자인식시스템의 화자 특징벡터 생성방법 및 시스템 {Method and System for Pith Synchronous Feature Generation of Speaker Recognition System}

본 발명은 화자인식 시스템에 관한 것으로서, 보다 상세하게는 기존의 화자모델과 호환성을 유지하면서 피치구간 특징벡터를 사용하는 전처리기를 통해 주변환경 변화에 독립적이고 잡음에 강한 화자 종속적인 특징벡터를 생성하는 화자인식시스템의 화자 특징벡터 생성방법 및 시스템을 제공함에 있다.

일반적으로 화자인식 시스템은 크게 화자 종속 특징벡터를 생성하는 전처리부분과 화자 종속 모델을 생성해 내는 화자 모델링, 그리고 화자의 인식을 처리하는 화자 인식의 세 부분으로 나눌 수 있다. 종래의 전처리 부분에서 생성하는 'MFCC'(Mel Frequency Cepstral Coefficient)는 고정구간의 음성에서 인간의 주파수 측면의 청각적 특성을 고려하여 특징벡터를 추출해 내는 방법을 사용하고 있다.

가장 일반적인 고정구간 방법의 분석길이는 20ms~30ms 이고, 이때 50% 정도의 중첩된 구간을 사용한다.

고정구간의 음성에서 특징벡터를 추출하게 되면 화자모델을 생성할 때의 훈련 음성과 화자인식을 받는 과정중 인식 음성의 특징벡터 추출구간의 구분 시 성능저하를 초래할 수 있는 왜곡을 발생한다.

또한 화자의 건강 상태 및 감정 상태에 따라서 음성의 특성이 변하게 되어 성능저하를 초래하는 문제점이 있다.

화자모델을 생성해 내는 화자 모델링 부분에서는 'GMM'(Gaussian Mixture Modeling), 'HMM'(Hidden Markov Modeling), 그리고 신경망(Neural Network) 등이 가장 많이 쓰이고 있는데, 이는 화자종속 특징벡터들의 분포와 변이 상태를 각각의 모델링 기법에 따라 파라미터로 나타낸 것이다.

화자인식부분은 화자 모델링의 훈련과정을 거친 화자모델을 가지고 인식을 요구하는 사용자의 음성에서 특징벡터를 추출하고 비교하여 화자의 정체를 밝혀내는 역할을 한다.

본 발명은 상기한 종래기술의 제반 문제점을 해결하기 위한 것으로, 그 목적은 기존의 화자모델과 호환성을 유지하면서 피치구간 특징벡터를 사용하는 전처리기를 통해 주변환경 변화에 독립적이고 잡음에 강한 화자 종속적인 특징벡터를 생성하는 화자인식시스템의 화자 특징벡터 생성방법 및 시스템을 제공함에 있다.

본 발명의 목적을 달성하기 위한 본 발명에 따른 화자인식시스템의 화자 특징벡터 생성시스템은 입력된 화자 음성신호에서 특징벡터를 추출하여 화자모델링 훈련 및 화자인식을 수행하는 화자인식시스템에 있어서, 상기 입력된 화자음성신호의 피치간격을 측정하고 소정의 피치구간 음성신호를 추출하는 피치구간 음성추출수단과, 상기 피치구간음성추출수단에서 추출된 음성신호의 특징벡터를 생성하는 특징벡터생성수단을 포함하여 이루어진 것을 특징으로 한다.

여기서, 피치구간 음성추출수단은 상기 피치구간 음성추출수단은 입력된 음성신호의 피치를 측정하는 피치측정부와, 상기 피치측정부에서 측정된 피치에 의하여 상기 입력된 음성신호의 소정의 피치구간의 음성신호를 추출하는 피치구간 음성추출부로 구성된 것을 특징으로 한다.

또한, 상기 피치구간 음성추출부는 피치측정부에서 산출된 피치에서 기 설정되어 있는 음성추출 단위에서 피치구간의 음성이 시작되는 점의 후보를 선택하는 기준점후보 선택부와, 상기 기준점후보 선택부에서 선택된 기준점들의 불연속성을 최소화하는 상기 입력 음성신호의 주변 에너지 트랙을 검출하는 에너지트랙검출부와, 상기 에너지트랙검출부에서 검출된 에너지 트랙에서 에너지가 가장 작은 점을 기준으로 하여 상기 피치구간 음성신호를 추출하는 음성신호추출부를 포함하여 구성된 것을 특징으로 한다.

또한, 특징벡터 추출수단은 입력된 피치구간 음성신호에 윈도우를 설정하는 윈도우설정부와, 상기 윈도우가 설정된 소정의 음성분석구간에 대하여 주파수분석을 하는 주파수분석부와, 상기 주파수분석부로부터 출력된 주파수에 청각특성을 고려한 필터뱅크를 통과시키는 필터부와, 상기 필터부를 통과한 주파수의 로그연산(Logarithm)하는 로그연산부와, 상기 로그연산부를 통해 산출된 값으로부터 이산여현변환(Discrete Cosine Transform : 이하 'DCT'라 약칭함)을 통해 특징벡터를 산출하는 DCT변환부를 포함하여 이루어진 것을 특징으로 한다.

본 발명의 목적을 달성하기 위한 화자인식시스템의 화자 특징벡터 생성과정은 입력된 화자 음성신호에서 특징벡터를 추출하여 화자모델링 훈련 및 화자인식을 수행하는 화자인식방법에 있어서, 상기 입력된 화자음성신호의 피치간격을 산출한 후 소정의 피치구간의 음성신호 구간을 나누어 피치구간의 음성신호를 추출하는 피치구간 음성추출과정과, 상기 추출된 소정의 피치구간 음성신호에서 주파수 측면의 청각적 특성에 의한 특징벡터를 추출하는 특징벡터 추출과정을 포함하여 이루어진 것을 특징으로 한다.

이와 같이 이루어진 본 발명을 첨부된 도면을 참조하여 상세히 설명하면 다음과 같다.

도 1은 본 발명의 실시 예에 따른 화자인식시스템의 화자 특징벡터 생성시스템의 구성도로서, 화자특징벡터 생성시스템(101)은 입력된 화자 음성신호에서 피치간격을 측정하고 소정의 피치구간 음성신호를 추출하는 피치구간 음성추출장치(102)와, 상기 피치구간 음성추출장치(102)에서 추출된 음성신호의 특징벡터를 생성하는 특징벡터생성장치(103)와, 상기 특징벡터생성장치(103)로부터 생성된 특징벡터를 이용하여 화자 모델링 훈련 음성으로 사용하는 화자모델 훈련시스템(104)와, 상기 특징벡터생성장치(103)에서 추출된 특징벡터에 의하여 화자인식을 수행하는 화자인식시스템(105)으로 구성된다.

여기서, 상기 피치구간 음성추출장치(102)는 도 2에 도시된 바와 같이, 입력된 음성신호의 피치를 측정하는 피치측정부(201)와, 상기 피치측정부(201)에서 측정된 피치에 의하여 상기 입력된 음성신호의 소정의 피치구간의 음성신호를 추출하는 피치구간 음성추출부(202)로 구성된다.

상기 피치구간 음성추출부(202)는 도 3에 도시된 바와 같이, 상기 피치구간 음성추출부는 상기 피치측정부에서 산출된 피치에서 기 설정되어 있는 음성추출단위에서 피치구간의 음성이 시작되는 점의 후보를 선택하는 기준점후보 선택부(301)와, 상기 기준점후보 선택부(301)에서 선택된 기준점들의 불연속성을 최소화하는 상기 입력 음성신호의 주변 에너지 트랙을 검출하는 에너지트랙검출부(302)와, 상기 에너지트랙검출부(302)에서 검출된 에너지 트랙에서 에너지가 가장 작은 점을 기준으로 하여 상기 피치구간 음성신호를 추출하는 음성신호 추출부(303)로 구성된다.

또한, 상기 특징벡터생성장치(103)는 입력된 피치구간 음성신호에 윈도우(Window)를 설정하는 윈도우설정부(401)와, 상기 윈도우설정부(401)에 의해 설정된 윈도우의 음성분석구간에 대하여 주파수분석을 하는 주파수분석부(402)와, 상기 주파수분석부(402)로부터 출력된 주파수에 청각특성을 고려한 멜밴드필터뱅크(Mel Frequency filter Bank)를 통과시키는 필터부(403)와, 상기 필터부(403)를 통과한 주파수의 로그 연산하는 로그연산부(404)와, 상기 로그연산부(404)를 통해 산출된 값으로부터 DCT를 통해 특징벡터를 산출하는 DCT변환부(405)로 구성된다.

이와 같이 구성된 본 발명 실시예에 따른 작용을 첨부된 도 1 내지 도 4를 참조하여 보다 상세히 설명하면 다음과 같다.

먼저, 본 발명은 음성의 특징에 따라 특징벡터 추출구간을 유연하게 적용할 수 있는 방법을 적용하여 왜곡과 화자의 상태에 대한 종속성을 최소화하므로 화자 모델링 훈련 음성의 특징벡터와 인식 받기 위한 음성 사이의 왜곡이 적은 특징벡터를 추출하도록 한다.

도 1은 본 발명의 실시예에 따른 화자인식시스템의 화자 특징벡터 생성시스템의 전체 블록 구성도로서, 피치구간 음성추출장치(102)는 음성의 특징에 따라 특징벡터 추출구간을 유연하게 적용할 수 있도록 먼저, 유연한 특징벡터 추출구간의 구분을 위하여 음성의 피치를 추출하여 피치에 따라 음성의 구간을 나누고, 특징벡터 추출장치(103)에 의하여 상기 피치구간 음성추출장치(102)에서 추출된 음성신호의 특징벡터를 산출하게 된다.

이와 같은 산출된 특징벡터는 화자모델과 호환성을 유지하면서 피치구간 특징벡터를 사용하는 전처리기를 통해 주변환경 변화에 독립적이고 잡음에 강한 화자 종족적인 특징벡터를 생성하여 화자인식시스템(105)의 성능을 향상시킬 수 있다.

또한, 상기 본 발명에 의한 화자특징벡터 생성시스템(101)은 기존의 특징벡터를 생성하는 고정구간 방법에 비하여 화자모델훈련시스템(104)에 의한 화자 모델링 훈련음성의 특징벡터와 인식 받기 위한 음성사이의 왜곡이 적은 특징벡터를 생성하게 된다.

도 2는 도 1에서 피치구간 음성추출장치의 상세블록 구성도로서, 먼저, 입력된 음성신호에서 피치측정부(201)에 의해 피치를 추출한다.

상기 피치구간 음성추출부(202)는 상기 피치측정부(201)에서 측정된 피치간격을 이용하여 피치구간의 음성신호를 추출하게 된다.

보다 상세하게 피치 추출방법은 선형예측을 이용해 여기신호를 발생하여 여기신호의 자기상환함수를 산출하여 자기상관함수의 최대값을 가지는 구간을 연산하여 피치를 측정한다.

한 피치구간을 추출하는 과정의 한 예로서, 불연속성을 최소화하는 구간을 나누기 위하여 음성신호의 에너지가 작은 부분을 측정하여 그 점을 기준으로 하여 피치구간의 음성을 구분하고, 상기 특징벡터생성장치(103)에 의해서 주파수 측면의 청각적 특성을 이용한 화자 특징벡터를 추출하게 된다.

도 3은 도 2에서 피치구간 음성추출부의 상세 블록 구성도로서, 상기 기준점호부선택부(301)는 상기 피치측정부(201)에서 산출한 피치로 특징벡터 생성을 위한 구간의 기준점의 후보를 선택하게 된다.

즉, 기준점 후보의 선택은 이미 정해져 있는 음성 추출단위에서 피치구간의 음성이 시작되는 점의 후보를 검출하는 것이다.

상기 에너지트랙 검출부(302)는 상기 기준점후보 선택부(301)에서 기준점 후보를 선택한 후 불연속성을 최소한으로 하기 위하여 그 주변의 에너지 트랙을 구하여 에너지를 최소화하는 점을 기준 점으로 선택하여 상기 음성추출부(303)를 통해 피치구간의 음성을 추출하게 된다. 즉, 에너지트랙 검출은 선택된 기준점의 주변에서 에너지가 가장 작은 점을 시작점으로 선택하여 피치구간의 음성만큼 음성구간을 나누는 것이다.

도 4는 도 1에서 특징벡터생성장치(103)의 상세 블록 구성도로서, 상기 윈도우설정부(401)에서는 상기 음성추출부(303)에서 추출된 피치구간 음성신호에 윈도우를 설정한다.

즉, 윈도우 설정은 음성분석 구간을 나누고 불연속성을 최소로 하기 위하여 해밍 윈도우(Hamming Window) 또는 해닝 윈도우(Hanning Window)와 같은 윈도우 함수를 이용하여 필터링 한다.

상기 주파수분석부(402)는 상기 윈도우 윈도우함수에 의해 필터링된 음성신호의 주파수를 DFT를 이용하여 분석한다.

상기 필터부(403)는 인간의 주파수 측면 청각특성을 이용하여 필터링한다. 즉, 멜밴드필터뱅크(Mel Frequency filter Bank)라는 청각특성을 고려한 필터뱅크를 통과시키도록 한다.

상기 로그연산부(404)는 상기 필터부(403)을 통해 필터링된 신호를 로그연산한 후 DCT변환부(405)를 통하여 주파수 변환하여 출력하므로 특징벡터를 생성하게 된다.

한편, 특징벡터 추출구간은 상기 산출된 피치간격의 정수배를 사용하여 산출한다.

이상에서 본 발명에 따른 바람직한 실시예에 대해 설명하였으나, 화자인식 시스템의 전처리 부분에서 음성특징을 사용하여 유연한 구간의 특징벡터를 추출하기 위하여 방법에 있어서 다양한 변형이 가능하며, 본 기술분야에서 통상의 지식을 가진자라면 본 발명의 특허청구범위를 벗어남이 없이 다양한 변형예 및 수정예를 실시할 수 있을 것으로 이해된다.

이상에서 설명한 바와 같이, 본 발명에 따른 화자인식시스템의 화자 특징벡터 생성방법 및 시스템은 음성의 특징에 따라 특징벡터 추출구간을 유연하게 적용할 수 있는 방법을 적용하여 왜곡과 화자의 상태에 대한 종속성을 최소화하므로 화자 모델링 훈련 음성의 특징벡터와 인식 받기 위한 음성 사이의 왜곡이 적은 특징벡터를 추출할 수 있는 효과가 있다. 뿐만 아니라, 기존의 화자모델과 호환성을 유지하면서 주변환경 변화에 독립적이고 잡음에 강한 화자 종속적인 특징벡터를 생성할 수 있는 효과가 있으며, 기존의 화자인식 시스템의 구조를 변화시키지 않고 전처리 단계에서 간단히 추가함으로써, 기존의 고정구간에서 구한 MFCC 특징벡터의 한계를 극복할 수 있는 효과가 있다.

도 1은 본 발명에 따른 화자인식시스템의 화자 특징벡터 생성시스템의 블록 구성도이고,

도 2는 도 1에서 본 발명의 실시예에 따른 피치구간 음성추출장치의 블록 구성도이고,

도 3은 도 2에서 피치구간 음성추출부의 블록 구성도이고,

도 4는 도 1에서 특징벡터 생성장치의 상세 블록 구성도이다.

< 도면의 주요부분에 대한 부호의 설명 >

101 : 화자특징벡터 생성시스템 102 : 피치구간 음성추출장치

103 : 특징벡터 생성장치 104 : 화자모델 훈련시스템

105 : 화자인식 시스템 201 : 피치측정부

202 : 피치구간 음성추출부 301 : 기준점 후보선택부

302 : 에너지트랙검출부 303 : 음성추출부

401 : 윈도우설정부 402 : 주파수분석부

403 : 필터부 404 : 로그연산부

405 : DCT변환부

Claims

입력된 화자 음성신호에서 특징벡터를 추출하여 화자모델링 훈련 및 화자인식을 수행하는 화자인식시스템에 있어서,

상기 입력된 화자음성신호의 피치간격을 측정하고 소정의 피치구간 음성신호를 추출하는 피치구간 음성추출수단은, 상기 피치구간 음성추출수단은 입력된 음성신호의 피치를 측정하는 피치측정부: 및 상기 피치측정부에서 측정된 피치에 의하여 상기 입력된 음성신호의 소정의 피치구간의 음성신호를 추출하는 피치구간 음성추출부;로 구성되고; 상기 피치구간 음성추출부는 상기 피치측정부에서 산출된 피치에서 기 설정되어 있는 음성추출단위에서 피치구간의 음성이 시작되는 점의 후보를 선택하는 기준점후보 선택부; 상기 기준점후보 선택부에서 선택된 기준점들의 불연속성을 최소화하는 상기 입력 음성신호의 주변 에너지 트랙을 검출하는 에너지트랙검출부; 및 상기 에너지트랙검출부에서 검출된 에너지 트랙에서 에너지가 가장 작은 점을 기준으로 하여 상기 피치구간 음성신호를 추출하는 음성신호 추출부;로 구성되며,

상기 피치구간음성추출수단에서 추출된 음성신호의 특징벡터를 생성하는 특징벡터생성수단;을 포함하여 구성된 것을 특징으로 하는 화자인식시스템의 화자 특징벡터 생성시스템.
삭제
삭제
삭제
제 1 항에 있어서,

상기 특징벡터생성수단은 입력된 피치구간 음성신호에 윈도우를 설정하는 윈도우설정부;

상기 윈도우설정부에 의해 설정된 윈도우의 음성분석구간에 대하여 주파수분석을 하는 주파수분석부;

상기 주파수분석부로부터 출력된 주파수에 청각특성을 고려한 필터뱅크를 통과시키는 필터부;

상기 필터부를 통과한 주파수의 로그연산하는 로그연산부; 및

상기 로그연산부를 통해 산출된 값으로부터 이산여현변환(Discrete Cosine Transform)을 통해 특징벡터를 산출하는 DCT변환부;를 포함하여 구성된 것을 특징으로 하는 화자인식시스템의 화자 특징벡터 생성시스템.
제 5 항에 있어서,

상기 필터부의 필터뱅크는 멜밴드필터뱅크(Mel Frequency filter Bank)를 포함하여 구성된 것을 특징으로 하는 화자인식시스템의 화자 특징벡터 생성시스템.
입력된 화자 음성신호에서 특징벡터를 추출하여 화자모델링 훈련 및 화자인식을 수행하는 화자인식방법에 있어서,

상기 입력된 화자음성신호의 피치간격을 산출한 후 소정의 피치구간의 음성신호 구간을 나누어 피치구간의 음성신호를 추출하는 피치구간 음성추출과정은,

입력된 음성신호에서 피치를 검출하고, 상기 피치에서 기 설정된 음성추출단위에서 피치구간의 음성이 시작되는 점의 후보를 선택하고, 선택된 기준점들의 불연속성을 최소화하는 상기 입력 음성신호의 주변 에너지 트랙을 검출한 후 상기 에너지 트랙에서 에너지가 가장 작은 점을 기준으로 하여 상기 피치구간 음성신호를 추출하는 과정; 및

상기 추출된 소정의 피치구간 음성신호에서 주파수 측면의 청각적 특성에 의한 특징벡터를 추출하는 특징벡터 추출과정;을 포함하여 이루어진 것을 특징으로 하는 화자인식시스템의 화자 특징벡터 생성방법.
삭제
삭제
제 7 항에 있어서,

상기 특징벡터 추출과정은 입력된 피치구간 음성신호에 윈도우를 설정하고, 설정된 윈도우의 음성분석구간에 대하여 주파수분석을 한 후 청각특성을 고려한 필터뱅크를 통과시켜 로그연산을 하고, 로그연산을 통해 산출된 값을 DCT변환하여 특징벡터를 산출하는 것을 특징으로 하는 화자인식시스템의 화자 특징벡터 생성방법.