KR19980065481A

KR19980065481A - 운율 분석 결과에 근거한 음소 분리 방법

Info

Publication number: KR19980065481A
Application number: KR1019970000504A
Authority: KR
Inventors: 김수일
Original assignee: 김광호; 삼성전자 주식회사
Priority date: 1997-01-10
Filing date: 1997-01-10
Publication date: 1998-10-15

Abstract

음성 인식과 합성을 위한 음소 분리 방법에 관한 것이다.

본 발명에 따른 음소 분리 방법은 소정의 문장을 읽어서 발생된 음성 신호를 일정 길이의 프레임으로 자르고, 프레임 내에서의 영교차율, Log 에너지, MFCC(Mel-Frequency Cepstral Coefficients)의 전이값(transition measure) 등을 구하는 음성 신호 처리 과정; 상기 음성 신호 처리 과정에서 구한 log에너지 값을 이용하여 묵음 구간을 검출하는 묵음 검출 과정; 상기 문장을 운율 분석하여 묵음의 개수 및 위치, 음소의 길이 예측치, 각 음소의 유/무성화 여부 등을 분석하는 운율 분석 과정; 상기 묵음 검출 과정에 의해 구한 묵음 정보와 상기 운율 분석 과정에 의해 구한 묵음 정보를 대조하여 음성 신호로부터 구한 묵음 구간상의 오류를 수정하는 묵음 대조 과정; 상기 묵음 대조 과정의 결과로 위치가 결정된 묵음 사이에서 Log 에너지를 이용하여 무성자음의 구간을 정하고, MFCC의 전이값의 피크치에 의해 유성자음 및 모음의 위치를 결정하는 음소 위치 결정 과정을 포함함을 특징으로 한다.

본 발명에 따른 음소 분리 방법에 의하면 음소 분리/표기에 걸리는 시간과 작업량을 대폭적으로 감소시킬 수 있는 효과가 있다.

Description

운율 분석 결과에 근거한 음소 분리 방법

본 발명은 음성 인식과 합성을 위한 음소 분리 방법에 관한 것으로서 더욱 상세하게는 운율 분석 결과를 참조하여 보다 정확한 음소 분리가 가능하게 하는 방법에 관한 것이다.

음성 인식과 합성에서는 정확한 음소 단위 분리 및 음소 종류 표기가 되어있는 음성 데이터 베이스의 구축이 시스템의 성능을 크게 좌우한다.

음소 분리 방법은 주어진 언어 정보의 종류에 따라 음소열(phonetic transcription)이 주어진 경우와 문자열(orthographic transcription)이 주어진 경우로 나눌 수 있다. 음소열이 주어진 경우는 그대로 음성에서 해당 음소를 순서대로 찾으면 되지만 문자열이 주어진 경우는 음소열로 변환하는 과정이 필요하다.

문자열로 언어 정보가 주어진 음소 분리/표기에서는 발음 규칙에 따라 변환된 음소열과 입력된 음성을 대조(matching)하는 방법으로 DTW(Dynamic Time Warping) 또는 HMM(Hidden Markov Model) 등이 사용된다. 이중 DTW를 이용한 대조는 제한된 수의 참조 패턴만으로 다양한 음성의 변화를 반영하지 못하므로 높은 성능을 기대하기 어렵다. HMM을 이용한 대조를 할 경우는 음소마다 확률 모델을 만드는 것과 같은 부가적인 과정이 필요하다.

본 발명은 상기의 문제점을 해결하기 위하여 안출된 것으로서 음성 합성을 위하여 개발된 운율 분석기를 이용하여 문장의 운율을 분석하고 이 문장을 발음한 음성을 분석한 결과와 대조하여 음소의 종류 및 위치를 찾는 방법을 제공하는 것을 그 목적으로 한다.

도 1은 본 발명에 따른 음소 분리 방법을 보이는 흐름도이다.

도 2는 도 1에 도시된 음성 신호 처리 단계를 보다 상세히 보이는 흐름도이다.

상기의 목적을 달성하는 본 발명에 따른 음소 분리 방법은 운율 분석 결과에 근거하여 음소를 분리하는 방법에 있어서, 소정의 문장을 읽어서 발생된 음성 신호를 일정 길이의 프레임으로 자르고, 프레임 내에서의 영교차율, Log 에너지, MFCC(Mel-Frequency Cepstral Coefficients)의 전이값(transition measure) 등을 구하는 음성 신호 처리 과정; 상기 음성 신호 처리 과정에서 구한 log에너지 값을 이용하여 묵음 구간을 검출하는 묵음 검출 과정; 상기 문장을 운율 분석하여 묵음의 개수 및 위치, 음소의 길이 예측치, 각 음소의 유/무성화 여부 등을 분석하는 운율 분석 과정; 상기 묵음 검출 과정에 의해 구한 묵음 정보와 상기 운율 분석 과정에 의해 구한 묵음 정보를 대조하여 음성 신호로부터 구한 묵음 구간상의 오류를 수정하는 묵음 대조 과정; 상기 묵음 대조 과정의 결과로 위치가 결정된 묵음 사이에서 Log 에너지를 이용하여 무성자음의 구간을 정하고, MFCC의 전이값의 피크치에 의해 유성자음 및 모음의 위치를 결정하는 음소 위치 결정 과정을 포함함을 특징으로 한다. 이하 첨부된 도면을 참조하여 본 발명을 상세히 설명한다.

문서의 운율 분석 결과는 자연스러운 합성음을 생성하는 데 필수적인 것으로 각 음소의 길이 및 억양 정보를 제공하므로 음소 분리/표기를 위한 참조 정보로 활용할 수 있다.

100단계는 음성을 일정 길이의 프레임으로 잘라 프리엠퍼시스(preemphasis)와 해밍 윈도우 처리(Hamming Windowing)와 같은 전처리를 한 다음, 프레임 내에서의 영교차율, Log 에너지, MFCC(Mel-Frequency Cepstral Coefficients)의 전이값(transition measure) 등을 구한다.

음성을 발음하는 데 사용한 문장을 운율 분석기에 제시하여 문장 내에서 끊어 읽기가 필요한 위치와 각 음소의 예상되는 길이 등 운율 정보를 얻는다. 또한 위에서 사용한 문장을 발음한 음성을 정해진 프레임 길이마다 프리엠퍼시스, 해밍 윈도우 처리 등의 전처리를 한 다음, 영교차율, Log 에너지, MFCC 전이값 등의 음향 정보를 얻는다.

프리엠퍼시스는 샘플링되고(101단계), 프레임화된(102단계) 음성 신호에서 20㎳의 크기를 갖는 해밍 윈도우를 5㎳씩 옮겨가면서 입력 파형을 취한다. 그리고 아래와 같은 특성을 갖는 프리엠퍼시스 필터로 필터링 처리한다.(103단계)

본 발명에서는 μ=0.75를 사용하였다.

해밍 윈도우 처리 과정(104단계)에서 사용되는 해밍 함수는 다음과 같다.

105단계에서는 영교차율, Log 에너지, MFCC 전이값 등의 음향 정보를 얻는다.

프리엠퍼시스를 거친 음성 신호의 영교차율는 아래의 수학식으로 표현된다.

여기서, N은 한 프레임의 샘플수이고, w는 해밍 윈도우 함수를 나타낸다.

Log 에너지는 다음의 수학식에 의해 구해진다.

시간 t에서의 MFCC의 전이값은 다음의 수학식으로 구해진다.

는 i번째 cepstrum coefficient이고, p=14이고,는의 linear regression coefficient이고,이다.

120단계에서는 100단계에서 구한 에너지 값을 이용한 묵음 구간 검출을 통해 묵음 구간을 예측한다. 기존의 수작업에 의해 음소 표기를 한 음성 데이터 베이스로부터 묵음의 평균 에너지 값을 구하여 이 값을 문턱치로 정하고 문턱치보다 작으면 묵음으로 검출한다. 해당 프레임의 Log 에너지 값이 미리 정해진 문턱치(threshold)보다 작으면 묵음(silence) 구간으로 간주한다.

130단계에서는 음성을 발음하는 데 사용한 문장을 운율 분석한다. 여기서는 언어 정보 및 통계 데이터를 이용한 한국어 운율 생성 방법(김정수, 이혜정, 제13회 음성 통신 및 신호처리 워크숍, pp.227-231, 1996)에 따라 음성을 발음하는 데 사용한 문장을 운율 분석한다. 운율 분석의 결과는 묵음의 개수 및 위치, 음소의 길이 예측치, 각 음소의 유/무성화 여부 등이다.

140단계는 음성 신호 분석에 의해 구한 묵음 정보와 운율 분석에서 구한 묵음 정보를 대조하여 음성 신호에서 구한 묵음 구간 예측 오류를 수정한다.

음성 분석에서 얻은 묵음 구간의 개수와 운율 분석에서 예측한 묵음의 개수가 일치하도록 음운 규칙 및 경험적인 규칙을 적용한다. 이 과정을 통해 두 분석에서 구한 묵음 구간의 표기 위치를 정한다. 다음과 같은 두 경우로 나누어 처리한다.

1)운율 분석의 묵음 개수가 음성 분석의 묵음 개수보다 큰 경우, pitch 변화율이 큰 경우 강제로 묵음을 삽입한다는 특성을 이용한다. 즉, 운율 분석에서 강제적인 삽입이 일어나는 경우는 묵음에서 제외시킨다.

2)음성 분석의 묵음 개수가 운율 분석의 묵음 개수보다 큰 경우, ㅅ, ㅈ, ㅊ 과 같은 에너지가 작은 음소가 묵음으로 검출된 것이므로 이들의 영교차율이 실제 묵음보다 크다는 특성을 이용해 묵음에서 제외시킨다.

150단계는 140단계에서 위치가 결정된 묵음 사이에 각 음소들이 어디에 위치하는지 결정한다. 이때 대부분의 무성음은 에너지가 주변보다 작고 영교차율이 높다는 특성과 MFCC 전이값이 큰 곳을 음소 위치로 정한다. 미리 구해진 무성음의 평균적인 log에너지를 이용하여 무성자음의 구간을 먼저 정하고 그 다음 유성 자음 및 모음의 위치를 MFCC 전이값의 peak를 찾아 정한다.

160단계에서는 음소의 종류와 위치, 묵음의 위치를 각각 정해진 레이블과 함께 파일로서 저장한다.

상술한 바와 같은 본 발명에 따른 음소 분리 방법은 대용량의 음성 인식 시스템을 위한 학습용 데이터베이스를 구축할 경우 또는 음성 합성 시스템에 새로운 음색을 가진 합성 단위 데이터베이스를 추가하고자 할 경우 기존의 수작업에 의한 음소 분리/표기에 걸리는 시간과 작업량을 대폭적으로 감소시킬 수 있는 효과가 있다.

또한 음색 변환의 전처리 단계에서 음성을 음소 단위로 분리하는 데 이용할 수 있으므로 변환하려는 단위의 표기와 같은 수작업을 줄여주고 온라인(on-line) 음색변환 시스템을 구축할 수 있다.

또한 DTW에 의한 탐색을 이용한 음소 분리에서 필요한 참조 패턴의 저장이 필요 없다는 이점도 있다.

Claims

운율 분석 결과에 근거하여 음소를 분리하는 방법에 있어서,

소정의 문장을 읽어서 발생된 음성 신호를 일정 길이의 프레임으로 자르고, 프레임 내에서의 영교차율, Log 에너지, MFCC(Mel-Frequency Cepstral Coefficients)의 전이값(transition measure) 등을 구하는 음성 신호 처리 과정;

상기 음성 신호 처리 과정에서 구한 log에너지 값을 이용하여 묵음 구간을 검출하는 묵음 검출 과정;

상기 문장을 운율 분석하여 묵음의 개수 및 위치, 음소의 길이 예측치, 각 음소의 유/무성화 여부 등을 분석하는 운율 분석 과정;

상기 묵음 검출 과정에 의해 구한 묵음 정보와 상기 운율 분석 과정에 의해 구한 묵음 정보를 대조하여 음성 신호로부터 구한 묵음 구간상의 오류를 수정하는 묵음 대조 과정;

상기 묵음 대조 과정의 결과로 위치가 결정된 묵음 사이에서 Log 에너지를 이용하여 무성자음의 구간을 정하고, MFCC의 전이값의 피크치에 의해 유성자음 및 모음의 위치를 결정하는 음소 위치 결정 과정을 포함하는 음소 분리 방법.
제1항에 있어서, 상기 묵음 대조 과정은

상기 운율 분석 과정에 의한 묵음 개수가 상기 묵음 검출 과정에 의한 묵음 개수보다 크면 피치 변화율이 큰 곳에 강제로 묵음을 삽입하고,

상기 운율 분석 과정에 의한 묵음 개수가 상기 묵음 검출 과정에 의한 묵음 개수보다 작으면 영교차율이 실제 묵음보다 큰 곳의 묵음을 제외시키는 것을 특징으로 하는 음소 분리 방법.