KR100486457B1 - Cart를 이용한 자연어 처리 방법 - Google Patents

Cart를 이용한 자연어 처리 방법 Download PDF

Info

Publication number
KR100486457B1
KR100486457B1 KR10-2002-0056453A KR20020056453A KR100486457B1 KR 100486457 B1 KR100486457 B1 KR 100486457B1 KR 20020056453 A KR20020056453 A KR 20020056453A KR 100486457 B1 KR100486457 B1 KR 100486457B1
Authority
KR
South Korea
Prior art keywords
rhyme
cart
language processing
natural language
processing method
Prior art date
Application number
KR10-2002-0056453A
Other languages
English (en)
Other versions
KR20040025969A (ko
Inventor
권오일
김태수
Original Assignee
주식회사 현대오토넷
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 현대오토넷 filed Critical 주식회사 현대오토넷
Priority to KR10-2002-0056453A priority Critical patent/KR100486457B1/ko
Publication of KR20040025969A publication Critical patent/KR20040025969A/ko
Application granted granted Critical
Publication of KR100486457B1 publication Critical patent/KR100486457B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 음성 합성용 코퍼스 데이터베이스를 구축한 후 이를 이용하여 다양한 운율현상을 CART(Classification And Regression Trees)를 통해 통계적으로 모델링한 후 입력된 문장을 처리함으로써 자연스러운 운율 현상을 예측할 수 있도록 한 CART를 이용한 자연어 처리 방법에 관한 것이다.
본 발명에 따른 CART를 이용한 자연어 처리 방법은, 문자 형태의 정보에 대한 음성 합성시 필요한 코퍼스 데이터베이스(Corpus Database)를 구축하는 단계와, 상기 구축된 코퍼스 데이터베이스를 이용하여 운율현상을 CART를 통해 모델링하는 단계, 및 상기 모델링된 데이터를 바탕으로 미지의 문자 형태의 정보 입력시 자연스러운 운율현상을 예측하는 단계를 포함한다.

Description

CART를 이용한 자연어 처리 방법{Natural Language Processing Method Using Classification And Regression Trees}
본 발명은 자연어 처리 방법에 관한 것으로서, 보다 상세하게는 고품질의 음성합성기의 개발을 위해 억양이나 휴지, 음가의 길이 및 세기 등의 첨가되는 운율정보를 확률 통계적으로 분석하여 제어규칙을 생성할 수 있도록 한 CART를 이용한 자연어 처리 방법에 관한 것이다.
일반적으로 자연어 처리(Natural Language Processing) 기술은 그 사용 목적에 따라서 원시 언어(Source Language)를 분석하여 어휘의 의미, 구문관계 등을 밝혀내는 기술이다.
도 1은 일반적인 자연어 처리 방법의 흐름도로써, 문법적으로 하자가 없는 문장을 한 어절씩 어휘의 원형 복구와 최소한의 의미 단위로 나누어주는 형태소 분석 단계(S110)와, 각 어절의 문장에서의 문법적인 성분을 구분해 주는 구문 분석 단계(S120)와, 여러 개의 구문 구조에서 의미를 기준으로 가지치기하는 의미 분석 단계(S130), 및 의미 분석 단계에서도 해결이 안되는 것은 담화 분석 단계(S140)를 거쳐서 입력 문장을 처리한다.
이러한 자연어 처리 방법은 자동차용 네비게이션(Navigation)의 안내방송이나, FM DARC(DAta Radio Channel)의 문자데이터와 오토 PC(Auto PC)에서의 전자메일 등을 음성으로 변환시켜 보다 자연스러운 합성음의 운율과 음질을 제공하는 음성합성기의 개발에 광범위하게 활용된다.
그러나, 종래의 음성합성에서는 운율 처리가 단순한 띄어읽기에 불과하고, 음소 지속시간의 예측 부족으로 인해 자연스러운 합성음의 운율 및 음질을 제공하지 못하는 문제점이 있다.
이에, 본 발명의 목적은 음성 합성용 코퍼스 데이터베이스를 구축한 후 이를 이용하여 다양한 운율현상을 CART(Classification And Regression Trees)를 통해 통계적으로 모델링한 후 입력된 문장을 처리함으로써 자연스러운 운율 현상을 예측할 수 있도록 한 CART를 이용한 자연어 처리 방법을 제공하는데 있다.
상기와 같은 목적을 달성하기 위하여 본 발명에 따른 CART를 이용한 자연어 처리 방법은, 문자 형태의 정보에 대한 음성 합성시 필요한 코퍼스 데이터베이스(Corpus Database)를 구축하는 단계와, 상기 구축된 코퍼스 데이터베이스를 이용하여 운율현상을 CART를 통해 모델링하는 단계, 및 상기 모델링된 데이터를 바탕으로 미지의 문자 형태의 정보 입력시 자연스러운 운율현상을 예측하는 단계를 포함한다.
이하, 첨부된 도면을 참조하여 본 발명을 상세하게 설명하고자 한다.
도 2는 본 발명에 따른 CART를 이용한 자연어 처리 방법의 흐름도이다.
도 2를 참조하여 설명하면, 본 발명에 따른 자연어 처리 방법은, 음성 합성을 위해 모든 음소에 대한 발음 데이터베이스를 구축하고, 이를 연결시켜 연속된 음성을 생성하는데, 이때, 음성의 크기, 길이, 높낮이 등을 조절해 자연스러운 음성을 합성한다.
먼저, 문자정보 또는 기호를 인간의 음성으로 들려주는 음성 합성을 위한 자연어 처리 장치(도시되지 않음)는 문자 형태의 정보 또는 기호에 대한 음성 합성시 필요한 코퍼스 데이터베이스(Corpus Database)를 구축한다(S210).
이때, 코퍼스 기반 TTS(Corpus-Based Text To Speech) 기술을 사용함으로써 또다른 음성처리 기술인 제한 어휘 음성 합성 기술의 사용으로 인한 음성연결의 부자연스러움을 해결한다.
참고로, 상기 제한 어휘 음성 합성 기술은 제한된 어휘와 문장 형태에 대한 음성합성을 하는 기술로서, 필요한 음성조각을 미리 녹음하였다가 이를 연결시켜 연속된 음성을 만들어 내는 기술로 자동응답장치(ATS) 서비스에 주로 응용되는데, 기술적으로 매우 간단하지만 문장형태가 제한되고 음성연결 부위가 부자연스러운 단점이 있다. 이에 비해 TTS는 합성 대상 어휘에 제한이 없으며 일반적인 문자 형태의 정보를 음성으로 변환하는데, 이는 자연스러운 음성 합성을 위해 억양, 끊어 읽기 등을 실제 인간의 음성과 유사하게 구현한다.
따라서, 자연스러운 음성 합성을 위해 운율 경계강도 예측에 가장 합당한 문장 및 음소기간 예측에 가장 합당한 문장을 선별하여 코퍼스 음성 데이터베이스를 구축한다.
이때, 운율 경계강도 예측을 위해서는 언어학자들에 의해 엑센트구(AP), 억양구(IP)가 체크된 400문장을 코퍼스 음성 데이터베이스로 구축하고, 음소기간 예측을 위해서는 언어학자들에 의해 엑센트구(AP), 억양구(IP)가 체크된 65,000개의 음소, 즉 약 900문장을 코퍼스 음성 데이터베이스로 구축한다.
상기 코퍼스 데이터베이스의 구축이 완료되면(S210), 상기 구축된 코퍼스 데이터베이스를 이용하여 운율현상을 CART(Classification And Regression Trees) 방법을 통해 모델링한다(S220). 참고로, CART 방법은 1984년 세계적으로 잘 알려진 UC 버클리(Berkeley)와 스탠포드(Stanford)의 여러 통계학자들에 의해 소개된 결정트리(Decision-Tree) 절차이다.
이때, 상기 운율현상을 CART를 통해 모델링하는 경우, 결정트리기반 모델(Decision-tree Model)을 이용한 운율의 경계강도를 예측하고, 회귀트리 모델(Regression-tree Model)을 이용한 음운의 지속시간, 즉 음소기간을 예측한다.
상기 운율 경계강도(Phrase Break Index)는 문장의 끊어읽기 정도를 나타내는 파라미터(Parameter)로 발화된 음성을 청취할 때 사람이 느끼는 어절간의 운율적 이질감으로서 객관적인 판단에 의한 값이라기 보다는 심리음향적 파라미터이다.
자연스러운 음성 합성을 위해 필요한 운율 요소를 추출하는 과정인 운율 경계강도 예측 과정은, 상기 코퍼스 데이터베이스에 구축된 전문가에 의해 엑센트구(AP), 억양구(IP)가 체크된 400문장을 가지고 CART 방법을 이용해 예측한다.
또한, CART 방법에 의한 운율 경계강도 예측은 상기 데이터베이스의 400문장에서 관측된 어절의 수, 즉 4847개의 어절에 해당하는 특징 파라미터 요소로 아래 [표 1]의 파라미터(Parameter)들을 사용한다.
파라미터 해설
DPOS 해당 어절의 대표품사
DLPOS 해당 어절의 좌품사
DPLPOS 앞 어절의 좌품사
DPPLPOS 앞 앞 어절의 좌품사
DNLPOS 다음 어절의 좌품사
DNNLPOS 다음 다음 어절의 좌품사
DRPOS 해당 어절의 우품사
DPRPOS 앞 어절의 우품사
DPPRPOS 앞 앞 어절의 우품사
DNRPOS 다음 어절의 우품사
DNNRPOS 다음 다음 어절의 우품사
C_LOC 문장에서 해당 어절의 위치
C_LOCFRBEG 문장 앞에서부터의 어절위치
C_LOCFREND 문장 뒤에서부터의 어절위치
이때, 상기 운율 경계강도 예측을 위해 사용한 결정트리기반 모델링에서 스플라이팅 방법(Splitting Method)은 GINI 인덱스(Index) 방법을 선택하고, SE 룰(Standard Error Rule)은 최소비용(Minimal Cost) 트리를 선택한다. 또한, 자신의 데이터를 테스트(Test) 목적으로 같은 사이즈(Size)의 세그먼트들로 분리하고, 한번에 한 세그먼트식을 제공하는 V-fold Cross-Validation 방법을 사용하여 최적의 트리를 결정함으로써 운율 경계강도를 예측한다.
한편, 상기 음운(Phone)의 지속시간은 억양과 함께 합성음의 자연성을 결정하는 중요한 요소이며, 발성의 속도에도 영향을 받음으로 이를 제어하는 과정이 중요하다. 참고로, 단어를 만들어 내는데 참여하는 소리를 음운(Phone)이라 하는데, 음운은 발음하는 사람들에 따라 각기 약간의 차이를 가질 수 있을 뿐만 아니라, 발음되는 환경에 따라 각기 차이를 보일 수 있다. 따라서, 이러한 음운을 대표 소리로 추상화 시킨 것을 음소(Phoneme)라고 한다.
상기 음운의 지속시간, 즉 음소기간은 상기 코퍼스 데이터베이스에 구축된 전문가에 의해 엑센트구(AP), 억양구(IP)가 체크된 900문장을 이용하여 예측한다. 이때, 보통 운율 예측에 있어서 400문장 내지 1000문장 사이에 문장을 데이터베이스로 사용하는 경우가 많은데, 음소기간 예측시 수천 문장의 데이터베이스가 구축되었으나 데이터베이스 프로그램의 제한으로 65,000개의 음소, 즉 약 900문장 만을 가지고 예측한다.
또한, 상기 코퍼스 데이터베이스의 900문장은 다시 초성, 중성, 종성, AP 경계의 마지막 음소, IP 경계의 마지막 음소의 5가지 범주로 분리되어 구축된다.
상기 5가지 범주로 분리된 각 음소집합에 대한 음소의 종류에 따른 지속시간의 평균은 [표 2]에 도시된 바와 같다.
음소의 종류 평균 지속시간
초성 69.62msec
중성 74.59msec
종성 55.98msec
AP 마지막 음소 84.74msec
IP 마지막 음소 155.58msec
또한, 이때의 음소 지속시간 제어를 위해 사용된 파라미터는 아래 [표 3]과 같다.
파라미터 해설
DLPHONE 관측 음소의 앞 음소
DPHONE 관측음소
DRPHONE 관측 음소의 뒤 음소
DLOCEOJ 해당 어절내 음소 위치
DLOCAP 해당 엑센트구 내 음소 위치
DLOCIP 해당 억양구 내 음소 위치
DNUMEOJ 해당 어절의 음절 수
DAP 해당 어절의 악센트구 경계 여부
DIP 해당 어절의 억양구 경계 여부
이때, 상기 음소기간 예측을 위해 사용한 회귀트리 모델링에서 스플라이팅 방법(Splitting Method)은 GINI 인덱스(Index) 방법을 선택하고, SE 룰(Standard Error Rule)은 최소비용(Minimal Cost) 트리를 선택한다. 또한, V-fold Cross-Validation 방법을 사용하여 최적의 트리를 결정함으로써 음소기간을 예측한다.
상기 운율 경계강도 및 음소기간의 예측을 통한 운율현상의 모델링이 완료되면(S220), 상기 모델링된 데이터를 바탕으로 미지의 문자 형태의 정보 입력시 자연스러운 운율현상을 예측한다(S230).
따라서, 본 발명에 따른 CART를 이용한 자연어 처리 방법은, 음성 합성용 코퍼스 데이터베이스를 구축한 후 이를 이용하여 다양한 운율현상을 CART 방법을 통해 통계적으로 모델링한 후 입력된 문장을 처리함으로써 자연스러운 운율 현상을 예측할 수 있다.
이상에서 설명한 것은 본 발명에 따른 CART를 이용한 자연어 처리 방법에 대한 실험적인 방법을 통하여 최적의 운율예측을 위한 방법을 제시하는 것으로써, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변경 실시가 가능한 범위까지 본 발명의 기술적 정신이 있다고 할 것이다.
이상에서 살펴본 바와 같이, 본 발명에 따른 CART를 이용한 자연어 처리 방법은 억양, 휴지, 음가의 길이 및 세기 등의 운율정보를 CART 방법을 통해 통계적으로 모델링하여 제어규칙을 생성한 후 입력된 문장을 처리함으로써 사용자에게 종래의 음성 합성에서의 기계적이고 불안정한 음질의 제공 대신에 보다 자연스러운 음질을 제공할 수 있는 고품질의 음성합성기의 개발이 가능한 효과가 있다.
도 1은 일반적인 자연어 처리 방법의 흐름도.
도 2는 본 발명에 따른 CART를 이용한 자연어 처리 방법의 흐름도.

Claims (5)

  1. 문자형태의 정보에 대한 음성 합성시 필요한 코퍼스 데이터베이스를 구축한 후 그 코퍼스 데이터베이스를 이용하여 운율현상을 CART를 통해 모델링하고, 상기의 모델링된 데이터를 바탕으로 미지의 문자형태의 정보 입력시 이를 자연스러운 운율현상으로 예측하는 통상적인 CART를 이용한 자연어 처리방법에 있어서,
    상기 코퍼스 데이터베이스는 GINI인덱스를 선택한 스플라이팅 방법과 최소비용 트리를 선택한 SE룰로 운율경계강도 예측에 가장 합당한 엑센트구와 억양구가 체크된 400문장을 추출하여 구축된 데이터베이스와,
    GINI 인덱스를 선택한 스플라이팅 방법과 최소비용 트리를 선택한 SE룰로 음소기간 예측에 가장 합당한 엑센트구와 억양구가 체크된 900문장을 추출한 후 이를 다시 초성, 중성, 종성, 엑센트구 경계의 마지막 음소 및 억양구 경계의 마지막 음소로 분리되어 구축된 데이터베이스로 구성하고,
    상기 CART를 통해 모델링되는 운율현상의 예측은 결정트리기반 모델과 회귀트리 모델을 이용하여 운율의 경계강도와 음운의 지속시간을 예측하는 것을 특징으로 하는 CART를 이용한 자연어 처리 방법.
  2. 삭제
  3. 삭제
  4. 삭제
  5. 삭제
KR10-2002-0056453A 2002-09-17 2002-09-17 Cart를 이용한 자연어 처리 방법 KR100486457B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR10-2002-0056453A KR100486457B1 (ko) 2002-09-17 2002-09-17 Cart를 이용한 자연어 처리 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR10-2002-0056453A KR100486457B1 (ko) 2002-09-17 2002-09-17 Cart를 이용한 자연어 처리 방법

Publications (2)

Publication Number Publication Date
KR20040025969A KR20040025969A (ko) 2004-03-27
KR100486457B1 true KR100486457B1 (ko) 2005-05-03

Family

ID=37328559

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2002-0056453A KR100486457B1 (ko) 2002-09-17 2002-09-17 Cart를 이용한 자연어 처리 방법

Country Status (1)

Country Link
KR (1) KR100486457B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230065647A (ko) 2021-11-05 2023-05-12 주식회사 유닛미 음소 기반 자연어 처리 방법

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100835374B1 (ko) * 2006-11-20 2008-06-04 한국전자통신연구원 정적 특성과 동적 특성이 반영된 끊어읽기 예측 방법 및이를 기반으로 하는 음성합성 방법 및 시스템

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000030366A (ko) * 2000-02-24 2000-06-05 신문옥 한국어 음성합성 시스템에서 음절의 공기소모량을 고려한끊어읽기 규칙
JP2001075585A (ja) * 1999-09-07 2001-03-23 Canon Inc 自然言語処理方法及び前記方法を用いた音声合成装置
KR20010054592A (ko) * 1999-12-07 2001-07-02 구자홍 음성 합성 시스템의 억양 모델링 장치 및 방법
US20020095289A1 (en) * 2000-12-04 2002-07-18 Min Chu Method and apparatus for identifying prosodic word boundaries
KR20030033628A (ko) * 2001-10-24 2003-05-01 한국전자통신연구원 판별 및 회귀 트리를 이용한 끊어읽기 강도 자동 레이블링방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001075585A (ja) * 1999-09-07 2001-03-23 Canon Inc 自然言語処理方法及び前記方法を用いた音声合成装置
KR20010054592A (ko) * 1999-12-07 2001-07-02 구자홍 음성 합성 시스템의 억양 모델링 장치 및 방법
KR20000030366A (ko) * 2000-02-24 2000-06-05 신문옥 한국어 음성합성 시스템에서 음절의 공기소모량을 고려한끊어읽기 규칙
US20020095289A1 (en) * 2000-12-04 2002-07-18 Min Chu Method and apparatus for identifying prosodic word boundaries
KR20030033628A (ko) * 2001-10-24 2003-05-01 한국전자통신연구원 판별 및 회귀 트리를 이용한 끊어읽기 강도 자동 레이블링방법

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230065647A (ko) 2021-11-05 2023-05-12 주식회사 유닛미 음소 기반 자연어 처리 방법

Also Published As

Publication number Publication date
KR20040025969A (ko) 2004-03-27

Similar Documents

Publication Publication Date Title
KR100811568B1 (ko) 대화형 음성 응답 시스템들에 의해 스피치 이해를 방지하기 위한 방법 및 장치
Qian et al. A cross-language state sharing and mapping approach to bilingual (Mandarin–English) TTS
Murthy et al. Building unit selection speech synthesis in Indian languages: An initiative by an Indian consortium
Ipsic et al. Croatian HMM-based speech synthesis
KR100373329B1 (ko) 음운환경과 묵음구간 길이를 이용한 텍스트/음성변환 장치 및그 방법
Phan et al. A study in vietnamese statistical parametric speech synthesis based on HMM
Teixeira A prosody model to TTS systems
Hoffmann et al. Evaluation of a multilingual TTS system with respect to the prosodic quality
KR100486457B1 (ko) Cart를 이용한 자연어 처리 방법
Phan et al. Improvement of naturalness for an HMM-based Vietnamese speech synthesis using the prosodic information
Cahyaningtyas et al. Synthesized speech quality of Indonesian natural text-to-speech by using HTS and CLUSTERGEN
Liang et al. An hmm-based bilingual (mandarin-english) tts
Sun et al. A method for generation of Mandarin F0 contours based on tone nucleus model and superpositional model
Maia et al. An HMM-based Brazilian Portuguese speech synthesizer and its characteristics
Valentini-Botinhao et al. Intelligibility of time-compressed synthetic speech: Compression method and speaking style
Khalil et al. Arabic speech synthesis based on HMM
Pitrelli et al. Expressive speech synthesis using American English ToBI: questions and contrastive emphasis
Houidhek et al. Statistical modelling of speech units in HMM-based speech synthesis for Arabic
JPH0580791A (ja) 音声規則合成装置および方法
Saito et al. Applying a hybrid intonation model to a seamless speech synthesizer.
Ng Survey of data-driven approaches to Speech Synthesis
Sun et al. Generation of fundamental frequency contours for Mandarin speech synthesis based on tone nucleus model.
Mixdorff et al. Duration modeling in a vietnamese text-to-speech system
KR0173340B1 (ko) 텍스트/음성변환기에서 억양패턴 정규화와 신경망 학습을 이용한 억양 생성 방법
Ojala Auditory quality evaluation of present Finnish text-to-speech systems

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130410

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20140326

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20160323

Year of fee payment: 12

LAPS Lapse due to unpaid annual fee