KR100486457B1

KR100486457B1 - Ｃａｒｔ를 이용한 자연어 처리 방법

Info

Publication number: KR100486457B1
Application number: KR10-2002-0056453A
Authority: KR
Inventors: 권오일; 김태수
Original assignee: 주식회사 현대오토넷
Priority date: 2002-09-17
Filing date: 2002-09-17
Publication date: 2005-05-03
Anticipated expiration: 2022-09-17
Also published as: KR20040025969A

Abstract

본 발명은 음성 합성용 코퍼스 데이터베이스를 구축한 후 이를 이용하여 다양한 운율현상을 CART(Classification And Regression Trees)를 통해 통계적으로 모델링한 후 입력된 문장을 처리함으로써 자연스러운 운율 현상을 예측할 수 있도록 한 CART를 이용한 자연어 처리 방법에 관한 것이다.

본 발명에 따른 CART를 이용한 자연어 처리 방법은, 문자 형태의 정보에 대한 음성 합성시 필요한 코퍼스 데이터베이스(Corpus Database)를 구축하는 단계와, 상기 구축된 코퍼스 데이터베이스를 이용하여 운율현상을 CART를 통해 모델링하는 단계, 및 상기 모델링된 데이터를 바탕으로 미지의 문자 형태의 정보 입력시 자연스러운 운율현상을 예측하는 단계를 포함한다.

Description

ＣＡＲＴ를 이용한 자연어 처리 방법{Natural Language Processing Method Using Classification And Regression Trees}

본 발명은 자연어 처리 방법에 관한 것으로서, 보다 상세하게는 고품질의 음성합성기의 개발을 위해 억양이나 휴지, 음가의 길이 및 세기 등의 첨가되는 운율정보를 확률 통계적으로 분석하여 제어규칙을 생성할 수 있도록 한 CART를 이용한 자연어 처리 방법에 관한 것이다.

일반적으로 자연어 처리(Natural Language Processing) 기술은 그 사용 목적에 따라서 원시 언어(Source Language)를 분석하여 어휘의 의미, 구문관계 등을 밝혀내는 기술이다.

도 1은 일반적인 자연어 처리 방법의 흐름도로써, 문법적으로 하자가 없는 문장을 한 어절씩 어휘의 원형 복구와 최소한의 의미 단위로 나누어주는 형태소 분석 단계(S110)와, 각 어절의 문장에서의 문법적인 성분을 구분해 주는 구문 분석 단계(S120)와, 여러 개의 구문 구조에서 의미를 기준으로 가지치기하는 의미 분석 단계(S130), 및 의미 분석 단계에서도 해결이 안되는 것은 담화 분석 단계(S140)를 거쳐서 입력 문장을 처리한다.

이러한 자연어 처리 방법은 자동차용 네비게이션(Navigation)의 안내방송이나, FM DARC(DAta Radio Channel)의 문자데이터와 오토 PC(Auto PC)에서의 전자메일 등을 음성으로 변환시켜 보다 자연스러운 합성음의 운율과 음질을 제공하는 음성합성기의 개발에 광범위하게 활용된다.

그러나, 종래의 음성합성에서는 운율 처리가 단순한 띄어읽기에 불과하고, 음소 지속시간의 예측 부족으로 인해 자연스러운 합성음의 운율 및 음질을 제공하지 못하는 문제점이 있다.

이에, 본 발명의 목적은 음성 합성용 코퍼스 데이터베이스를 구축한 후 이를 이용하여 다양한 운율현상을 CART(Classification And Regression Trees)를 통해 통계적으로 모델링한 후 입력된 문장을 처리함으로써 자연스러운 운율 현상을 예측할 수 있도록 한 CART를 이용한 자연어 처리 방법을 제공하는데 있다.

상기와 같은 목적을 달성하기 위하여 본 발명에 따른 CART를 이용한 자연어 처리 방법은, 문자 형태의 정보에 대한 음성 합성시 필요한 코퍼스 데이터베이스(Corpus Database)를 구축하는 단계와, 상기 구축된 코퍼스 데이터베이스를 이용하여 운율현상을 CART를 통해 모델링하는 단계, 및 상기 모델링된 데이터를 바탕으로 미지의 문자 형태의 정보 입력시 자연스러운 운율현상을 예측하는 단계를 포함한다.

이하, 첨부된 도면을 참조하여 본 발명을 상세하게 설명하고자 한다.

도 2는 본 발명에 따른 CART를 이용한 자연어 처리 방법의 흐름도이다.

도 2를 참조하여 설명하면, 본 발명에 따른 자연어 처리 방법은, 음성 합성을 위해 모든 음소에 대한 발음 데이터베이스를 구축하고, 이를 연결시켜 연속된 음성을 생성하는데, 이때, 음성의 크기, 길이, 높낮이 등을 조절해 자연스러운 음성을 합성한다.

먼저, 문자정보 또는 기호를 인간의 음성으로 들려주는 음성 합성을 위한 자연어 처리 장치(도시되지 않음)는 문자 형태의 정보 또는 기호에 대한 음성 합성시 필요한 코퍼스 데이터베이스(Corpus Database)를 구축한다(S210).

이때, 코퍼스 기반 TTS(Corpus-Based Text To Speech) 기술을 사용함으로써 또다른 음성처리 기술인 제한 어휘 음성 합성 기술의 사용으로 인한 음성연결의 부자연스러움을 해결한다.

참고로, 상기 제한 어휘 음성 합성 기술은 제한된 어휘와 문장 형태에 대한 음성합성을 하는 기술로서, 필요한 음성조각을 미리 녹음하였다가 이를 연결시켜 연속된 음성을 만들어 내는 기술로 자동응답장치(ATS) 서비스에 주로 응용되는데, 기술적으로 매우 간단하지만 문장형태가 제한되고 음성연결 부위가 부자연스러운 단점이 있다. 이에 비해 TTS는 합성 대상 어휘에 제한이 없으며 일반적인 문자 형태의 정보를 음성으로 변환하는데, 이는 자연스러운 음성 합성을 위해 억양, 끊어 읽기 등을 실제 인간의 음성과 유사하게 구현한다.

따라서, 자연스러운 음성 합성을 위해 운율 경계강도 예측에 가장 합당한 문장 및 음소기간 예측에 가장 합당한 문장을 선별하여 코퍼스 음성 데이터베이스를 구축한다.

이때, 운율 경계강도 예측을 위해서는 언어학자들에 의해 엑센트구(AP), 억양구(IP)가 체크된 400문장을 코퍼스 음성 데이터베이스로 구축하고, 음소기간 예측을 위해서는 언어학자들에 의해 엑센트구(AP), 억양구(IP)가 체크된 65,000개의 음소, 즉 약 900문장을 코퍼스 음성 데이터베이스로 구축한다.

상기 코퍼스 데이터베이스의 구축이 완료되면(S210), 상기 구축된 코퍼스 데이터베이스를 이용하여 운율현상을 CART(Classification And Regression Trees) 방법을 통해 모델링한다(S220). 참고로, CART 방법은 1984년 세계적으로 잘 알려진 UC 버클리(Berkeley)와 스탠포드(Stanford)의 여러 통계학자들에 의해 소개된 결정트리(Decision-Tree) 절차이다.

이때, 상기 운율현상을 CART를 통해 모델링하는 경우, 결정트리기반 모델(Decision-tree Model)을 이용한 운율의 경계강도를 예측하고, 회귀트리 모델(Regression-tree Model)을 이용한 음운의 지속시간, 즉 음소기간을 예측한다.

상기 운율 경계강도(Phrase Break Index)는 문장의 끊어읽기 정도를 나타내는 파라미터(Parameter)로 발화된 음성을 청취할 때 사람이 느끼는 어절간의 운율적 이질감으로서 객관적인 판단에 의한 값이라기 보다는 심리음향적 파라미터이다.

자연스러운 음성 합성을 위해 필요한 운율 요소를 추출하는 과정인 운율 경계강도 예측 과정은, 상기 코퍼스 데이터베이스에 구축된 전문가에 의해 엑센트구(AP), 억양구(IP)가 체크된 400문장을 가지고 CART 방법을 이용해 예측한다.

또한, CART 방법에 의한 운율 경계강도 예측은 상기 데이터베이스의 400문장에서 관측된 어절의 수, 즉 4847개의 어절에 해당하는 특징 파라미터 요소로 아래 [표 1]의 파라미터(Parameter)들을 사용한다.

파라미터	해설
DPOS	해당 어절의 대표품사
DLPOS	해당 어절의 좌품사
DPLPOS	앞 어절의 좌품사
DPPLPOS	앞 앞 어절의 좌품사
DNLPOS	다음 어절의 좌품사
DNNLPOS	다음 다음 어절의 좌품사
DRPOS	해당 어절의 우품사
DPRPOS	앞 어절의 우품사
DPPRPOS	앞 앞 어절의 우품사
DNRPOS	다음 어절의 우품사
DNNRPOS	다음 다음 어절의 우품사
C_LOC	문장에서 해당 어절의 위치
C_LOCFRBEG	문장 앞에서부터의 어절위치
C_LOCFREND	문장 뒤에서부터의 어절위치

이때, 상기 운율 경계강도 예측을 위해 사용한 결정트리기반 모델링에서 스플라이팅 방법(Splitting Method)은 GINI 인덱스(Index) 방법을 선택하고, SE 룰(Standard Error Rule)은 최소비용(Minimal Cost) 트리를 선택한다. 또한, 자신의 데이터를 테스트(Test) 목적으로 같은 사이즈(Size)의 세그먼트들로 분리하고, 한번에 한 세그먼트식을 제공하는 V-fold Cross-Validation 방법을 사용하여 최적의 트리를 결정함으로써 운율 경계강도를 예측한다.

한편, 상기 음운(Phone)의 지속시간은 억양과 함께 합성음의 자연성을 결정하는 중요한 요소이며, 발성의 속도에도 영향을 받음으로 이를 제어하는 과정이 중요하다. 참고로, 단어를 만들어 내는데 참여하는 소리를 음운(Phone)이라 하는데, 음운은 발음하는 사람들에 따라 각기 약간의 차이를 가질 수 있을 뿐만 아니라, 발음되는 환경에 따라 각기 차이를 보일 수 있다. 따라서, 이러한 음운을 대표 소리로 추상화 시킨 것을 음소(Phoneme)라고 한다.

상기 음운의 지속시간, 즉 음소기간은 상기 코퍼스 데이터베이스에 구축된 전문가에 의해 엑센트구(AP), 억양구(IP)가 체크된 900문장을 이용하여 예측한다. 이때, 보통 운율 예측에 있어서 400문장 내지 1000문장 사이에 문장을 데이터베이스로 사용하는 경우가 많은데, 음소기간 예측시 수천 문장의 데이터베이스가 구축되었으나 데이터베이스 프로그램의 제한으로 65,000개의 음소, 즉 약 900문장 만을 가지고 예측한다.

또한, 상기 코퍼스 데이터베이스의 900문장은 다시 초성, 중성, 종성, AP 경계의 마지막 음소, IP 경계의 마지막 음소의 5가지 범주로 분리되어 구축된다.

상기 5가지 범주로 분리된 각 음소집합에 대한 음소의 종류에 따른 지속시간의 평균은 [표 2]에 도시된 바와 같다.

음소의 종류	평균 지속시간
초성	69.62msec
중성	74.59msec
종성	55.98msec
AP 마지막 음소	84.74msec
IP 마지막 음소	155.58msec

또한, 이때의 음소 지속시간 제어를 위해 사용된 파라미터는 아래 [표 3]과 같다.

파라미터	해설
DLPHONE	관측 음소의 앞 음소
DPHONE	관측음소
DRPHONE	관측 음소의 뒤 음소
DLOCEOJ	해당 어절내 음소 위치
DLOCAP	해당 엑센트구 내 음소 위치
DLOCIP	해당 억양구 내 음소 위치
DNUMEOJ	해당 어절의 음절 수
DAP	해당 어절의 악센트구 경계 여부
DIP	해당 어절의 억양구 경계 여부

이때, 상기 음소기간 예측을 위해 사용한 회귀트리 모델링에서 스플라이팅 방법(Splitting Method)은 GINI 인덱스(Index) 방법을 선택하고, SE 룰(Standard Error Rule)은 최소비용(Minimal Cost) 트리를 선택한다. 또한, V-fold Cross-Validation 방법을 사용하여 최적의 트리를 결정함으로써 음소기간을 예측한다.

상기 운율 경계강도 및 음소기간의 예측을 통한 운율현상의 모델링이 완료되면(S220), 상기 모델링된 데이터를 바탕으로 미지의 문자 형태의 정보 입력시 자연스러운 운율현상을 예측한다(S230).

따라서, 본 발명에 따른 CART를 이용한 자연어 처리 방법은, 음성 합성용 코퍼스 데이터베이스를 구축한 후 이를 이용하여 다양한 운율현상을 CART 방법을 통해 통계적으로 모델링한 후 입력된 문장을 처리함으로써 자연스러운 운율 현상을 예측할 수 있다.

이상에서 설명한 것은 본 발명에 따른 CART를 이용한 자연어 처리 방법에 대한 실험적인 방법을 통하여 최적의 운율예측을 위한 방법을 제시하는 것으로써, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변경 실시가 가능한 범위까지 본 발명의 기술적 정신이 있다고 할 것이다.

이상에서 살펴본 바와 같이, 본 발명에 따른 CART를 이용한 자연어 처리 방법은 억양, 휴지, 음가의 길이 및 세기 등의 운율정보를 CART 방법을 통해 통계적으로 모델링하여 제어규칙을 생성한 후 입력된 문장을 처리함으로써 사용자에게 종래의 음성 합성에서의 기계적이고 불안정한 음질의 제공 대신에 보다 자연스러운 음질을 제공할 수 있는 고품질의 음성합성기의 개발이 가능한 효과가 있다.

도 1은 일반적인 자연어 처리 방법의 흐름도.

도 2는 본 발명에 따른 CART를 이용한 자연어 처리 방법의 흐름도.

Claims

문자형태의 정보에 대한 음성 합성시 필요한 코퍼스 데이터베이스를 구축한 후 그 코퍼스 데이터베이스를 이용하여 운율현상을 CART를 통해 모델링하고, 상기의 모델링된 데이터를 바탕으로 미지의 문자형태의 정보 입력시 이를 자연스러운 운율현상으로 예측하는 통상적인 CART를 이용한 자연어 처리방법에 있어서,

상기 코퍼스 데이터베이스는 GINI인덱스를 선택한 스플라이팅 방법과 최소비용 트리를 선택한 SE룰로 운율경계강도 예측에 가장 합당한 엑센트구와 억양구가 체크된 400문장을 추출하여 구축된 데이터베이스와,

GINI 인덱스를 선택한 스플라이팅 방법과 최소비용 트리를 선택한 SE룰로 음소기간 예측에 가장 합당한 엑센트구와 억양구가 체크된 900문장을 추출한 후 이를 다시 초성, 중성, 종성, 엑센트구 경계의 마지막 음소 및 억양구 경계의 마지막 음소로 분리되어 구축된 데이터베이스로 구성하고,

상기 CART를 통해 모델링되는 운율현상의 예측은 결정트리기반 모델과 회귀트리 모델을 이용하여 운율의 경계강도와 음운의 지속시간을 예측하는 것을 특징으로 하는 CART를 이용한 자연어 처리 방법.
삭제
삭제
삭제
삭제