KR20050058949A - 한국어 운율구 추출방법 - Google Patents

한국어 운율구 추출방법 Download PDF

Info

Publication number
KR20050058949A
KR20050058949A KR1020030090980A KR20030090980A KR20050058949A KR 20050058949 A KR20050058949 A KR 20050058949A KR 1020030090980 A KR1020030090980 A KR 1020030090980A KR 20030090980 A KR20030090980 A KR 20030090980A KR 20050058949 A KR20050058949 A KR 20050058949A
Authority
KR
South Korea
Prior art keywords
rhyme
boundary
learning
model
korean
Prior art date
Application number
KR1020030090980A
Other languages
English (en)
Inventor
이상호
Original Assignee
엘지전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘지전자 주식회사 filed Critical 엘지전자 주식회사
Priority to KR1020030090980A priority Critical patent/KR20050058949A/ko
Publication of KR20050058949A publication Critical patent/KR20050058949A/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Algebra (AREA)
  • Mathematical Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Optimization (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 한국어 문서 음성 변환시스템에서 선형 회귀 모델과 결정 트리를 이용하여 한국어 운율구를 추출하는 기술에 관한 것이다. 이러한 본 발명은, 여러 종류의 운율 경계 각각의 학습 자료 내 발생 빈도수가 서로 다를 때, 학습시 각각의 빈도수들을 비슷하게 맞추어 최종적으로 예측기가 학습한 후, 실제로 운율을 생성할 때 정확률과 재현률이 비슷하게 되도록 하는 제1과정과; 객관적인 평가에서의 성능을 향상시키기 위해, 통계적 의사결정 모델과 선형 회귀 모델을 결합한 예측 모델을 이용하여 운율구 추출을 시행하는 제2과정에 의해 달성된다.

Description

한국어 운율구 추출방법{PROSODIC PHRASING METHOD FOR KOREAN TEXTS}
본 발명은 한국어 문서 음성 변환시스템에서 선형 회귀 모델과 결정 트리를 이용하여 한국어 운율구를 추출하는 기술에 관한 것으로, 특히 CART를 기반으로 예측기를 구현함에 있어서 정확률과 재현율에서 좀더 나은 성능을 발휘하는 운율구 추출기를 개발할 수 있도록 한 한국어 운율구 추출방법에 관한 것이다.
최근 들어, 한국어 문서 음성 변환 시스템에 관한 연구가 활발히 진행되어 이에 관련된 응용 제품이 많이 생산되고 있다. 한편, 문서 음성 변환시스템(TTS: Text To Speech)의 성능은 크게 명료도와 자연성으로 평가되는데, 명료도는 합성음의 내용을 얼마나 사람이 듣고 이해할 수 있는가에 관한 척도이며, 자연성은 합성음이 과연 인간이 발성한 것과 구분하지 못할 정도로 운율을 잘 표현하고 있는가에 대한 척도이다.
자연성에 직접적인 영향을 주는 운율은 크게 음의 경계, 음의 크기, 음의 높낮이, 음의 길이로 분류되는데, 이 중에서 음의 경계는 나머지 운율 요소의 처리보다 가장 먼저 처리되는 요소로, 이 운율 요소에 관한 TTS 시스템의 예측율이 전체 운율의 성능을 좌우하게 된다.
기존의 음의 경계 예측 방법(이하, "운율구 추출방법"이라 칭함)으로는 신경회로망을 이용하는 방법, 통계적 의사결정 모델(CART: Classification And Regression Tress)을 이용하는 방법, HMM(HMM: Hidden Markov Model)을 이용하는 방법, 규칙에 의한 방법 등이 있다.
상기 방법들 중에서 CART에 기반한 방법은 다른 방법에 비하여 다음의 장점들을 가진다.
첫째, 자동적으로 운율구 예측에 관한 규칙이 생성되므로, 운율 개발자가 생성된 규칙을 해석할 수 있으므로 그 규칙들을 수정하기에 용이하다. 둘째, 예측기의 정확률이 나머지 예측기에 비해 뒤떨어지지 않으면서 상대적으로 예측 속도가 빠르다. 셋째, 예측기를 저장하는데 필요한 예측 파라미터가 다른 예측기에 비해 상대적으로 낮다.
한편, 일반적으로 모든 예측 방법들의 평가 방법은 바로 운율구 추출의 정확률과 재현율을 기반으로 한다. 여기서, 정확률이란 운율구 추출기가 예측한 운율구 경계들의 정확률을 의미하는 것이고, 재현율이란 학습 자료에 표시된 운율구 경계 중 운율구 추출기가 예측한 정도를 말한다.
그런데, 종래의 한국어 운율구 추출 기술에 있어서 단순히 CART만을 이용하여 운율을 생성하는 경우, 재현율과 정확률이 기대치에 미치지 못하여 한국어 운율구 추출 성능을 저하시키는 요인으로 작용하였다.
따라서, 본 발명의 목적은 문서 음성 변환시스템의 성능 척도인 정확률과 재현률에 있어서, 좀 더 나은 성능을 발휘하는 운율 추출기를 개발함에 있다.
본 발명의 다른 목적은 모델 학습시 운율구 추출의 정확률과 재현률의 비중을 균등하게 하여 듣는 사람으로 하여금 합성음이 자연스럽게 느끼도록하는데 있다.
본 발명에 의한 한국어 운율구 추출방법은, 접어 경계, 단어 경계, 강세구 경계, 억양구 경계 각각의 학습 자료 내 발생 빈도수가 서로 다를 때, 학습시 각각의 빈도수들을 비슷하게 맞추어 최종적으로 예측기가 학습한 후, 실제로 운율을 생성할 때 정확률과 재현률이 비슷하게 되도록 하는 제1과정과; 객관적인 평가에서의 성능을 향상시키기 위해, 통계적 의사결정 모델(CART)과 선형 회귀 모델을 결합한 새로운 예측 모델을 이용하여 운율구 추출을 시행하는 제2과정을 포함하여 이루어지는 것으로, 이와 같이 이루어지는 본 발명의 운율구 추출 처리과정을 첨부한 도 1 내지 도 8을 참조하여 상세히 설명하면 다음과 같다.
본 발명에 의한 운율구 추출기의 실험을 위해 소설, 신문 기사 등에서 추출된 708문장(12857 어절)이 이용되었다. 상기 추출된 문장을 여성 아나운서가 발성하였으며 수집된 음성 자료에 대해 수동으로 성조 레이블링(tonal labeling)과 운율 경계를 표시하였다. 또한, 한국어 발화를 K-ToBI에 기반하여 성조 층(tone tier)과 경계 인덱스 층(break-index tier)을 구축하였다. 상기 성조들은 각 음절에 하나씩 레이블링되도록 성조를 수정하였으며, 경계 인덱스는 K-ToBI에서 사용된 네 개의 경계 값이 사용되었다.
각 어절의 경계는 접어 경계(clitic boundary), 단어 경계(word boundary), 강세구 경계(accentual phrase boundary), 억양구 경계(Intonational phrase boundary)로 분류되며, 각 0부터 3까지의 값을 가지게 된다. 본 발명에서는 각 경계를 문장 속에서 표현하기 위해 네 개의 경계들을 차례로 "^","!", "|","||"로 치환하여 사용한다. 또한, 본 발명에 적용된 모든 실험은 708문장 중 500 문장(9088 어절)으로 모델을 학습시키고 나머지 208 문장(3769 어절)에 대해 평가하였다. 도 1은 평가 자료에서 추출된 문장들을 경계 심볼과 함께 표시한 것들이다. 총 자료에서 발견된 경계들의 빈도는 접어 경계에서 IP 경계까지 148개, 1420개, 5839개, 5450개로, AP 경계와 IP 경계가 전체 경계들 중 약 87%를 이루고 있다.
본 발명에 의한 운율구 추출방법을 비교 분석하기 위한 기본 실험을 수행하였으며, 여기서 표준 결정 트리를 이용하였다. 또한, 운율구 예측에 사용되는 언어 정보는 기존 TTS 시스템의 언어 처리 모듈 결과를 이용하였다. 본 발명의 CART 학습에 사용된 특징 변수들은 ① 이전 어절의 좌품사와 우품사, ② 관측 어절의 좌품사와 우품사, ③ 다음 어절의 좌품사와 우품사, ④ 관측 어절에 있는 구두점 종류, ⑤ 다음 어절에 있는 구두점의 종류, ⑥ 문장 내 어절의 위치(총 다섯 종류로 첫 번째, 두 번째, 끝, 끝에서 두 번째, 나머지), ⑦ 이전 어절, 관측 어절, 다음 어절의 음절 개수들, ⑧ 이전 어절과 관측 어절의 음절 개수를 더한 값, ⑨ 관측 어절과 다음 어절의 음절 개수를 더한 값이다. CART 학습 결과 단말 노드의 개수는 37개이었으며, 학습 자료의 오류율은 31.07%이었다. 실험 자료에 대한 전체 오류율은 34.30%이었으며, 도 2에서 보는 바와 같이 평균 재현률/정확률은 56.9%/66.66%이었다. 도 3은 학습된 트리로 예측한 경계 인덱스와 함께 문장들을 표현한 것이다.
본 발명에 의한 자료 샘플링에 대해 설명한다. 도 3의 결과와 도 1의 결과를 비교해 보면, 우선 단어 경계의 빈도수가 매우 낮은 것을 알 수 있다. 실제 단어 경계는 587번 발생했으나, 예측 모델은 157번 예측하여서 나머지는 AP와 IP 경계를 예측했다. 그러므로 도 3의 경우 "하나인"과 "죽 훑은"의 앞 뒤에 모두 IP 경계가 발생할 정도로 IP 경계의 발생 빈도가 높은 것을 알 수 있다. 이러한 현상은 실제 합성음을 들어보면 청자로 하여금 합성음을 단조롭게 느끼게 한다. 즉, 청자로 하여금 합성음을 자연스럽게 느끼게 하기 위해서는 도 1과 같이 각 경계들이 다양하게 분포해야 한다는 점이다. 이런 점이 청자로 하여금 합성음에 역동성이 있다고 느끼게 해준다. 예측된 경계의 발생 빈도가 도 2에서와 같이 AP와 IP에 집중된 이유는 학습 자료에서 접어/단어 경계의 발생 빈도가 강세구/억양구 경계의 빈도보다 아주 낮기 때문이다. 다시 말해 CART를 포함한 대부분의 패턴 분류기는 학습 자료에서의 정확률을 최대화하므로, 결과적으로 강세구/억양구 경계를 더 많이 예측하게 된다.
따라서, 본 발명에서는 이러한 점에 착안하여 착습 자료의 강세구/억양구 경계에 해당되는 자료들을 모두 학습에 참여시키는 것이 아니라 이들 중에서 일부(예: 50%)만을 학습에 참여시켜 접어/단어 경계의 정확률이 향상되도록 하였다. 이렇게 샘플링된 학습 자료를 가지고 CART 트리를 학습시킨 후, 동일한 실험 자료에 대해 실험하였다. 그 결과, 실험 자료에 대한 전체 오류율은 35.84%로 상승되었지만 도 4에서 보는 바와 같이 평균 재현률/정확률은 61.60%/61.35%로 두 값이 서로 균형을 이루는 것을 알 수 있다. 도 5는 학습된 트리로 예측한 경계 인덱스와 함께 문장들을 표현한 것이다.
한편, 본 발명에서는 최종적으로 CART와 선형 회귀 모델을 서로 결합한 새로운 모델을 제안하였다. CART는 비모수적(nonparametric) 통계 모델이며 비선형적이다. 이에 비하여, 선형 회귀 모델은 모수적(parametric) 통계 모델이며 선형적이다. 즉, 패턴 분류기는 각각 패턴을 분류하는 방법이 서로 다른데, 본 발명에서는 상기 두 모델을 결합하여 좀 더 나은 성능이 발휘되도록 하였으며, 이 결합된 새로운 모델은 다음과 같다.
우선 단말 노드 개수가 T개인 크기가 작은 CART 트리를 학습시키고, 특징 벡터에 대한 출력 단말 노드를 구한다. 이 후 아래의 [수학식1]에서와 같이 선형 회귀 모델을 학습시킬 때 단말 노드를 표현하는 이진변수들을 함께 입력한다. 여기서, x는 특징 변수들의 이진 변수 형태이고, t는 학습된 트리의 단말 노드를 나타내는 변수이고, w는 각 변수에 대한 비중(weight) 값이다.
도 6은 본 실험에서 구축된 여덟 개의 단말 노드를 가지는 트리가 나타낸 것이다. 여기에 나타난 바와 같이 트리만으로도 패턴이 대분류되는 것을 알 수 있다. 도 6의 결정 트리를 이용하여 선형 회귀 모델을 학습시킨 결과 실험 자료의 전체 오류율은 32.74%로 낮아졌고 도 7에서 보이는 바와 같이 평균 재현율/인식률은 63.44%/64.23%로 균형을 이루게 된 것을 확인할 수 있었다. 도 3과 도 5를 비교해 보면 보다 안정적인 결과를 얻고 있는 것을 확인할 수 있으며, 도 8에는 선형 회귀 모델과 통계적 의사결정 모델을 결합한 모델에 의해 예측된 경계 인덱스와 문장을 나타낸 것이다.
이상에서 상세히 설명한 바와 같이 본 발명은 운율 경계들의 학습 자료 내 발생 빈도수가 서로 다른 경우 실제로 운율 생성 시 정확률과 재현률이 비슷하게 되도록 하고, 결정 트리와 선형 회귀 모델을 결합한 새로운 예측 모델을 이용하여 운율구 추출을 시행함으로써, 재현율과 정확률이 표준 CART에 비하여 향상되는 효과가 있다. 또한, 통상의 CART만을 이용하여 운율을 생성하는 것에 비하여 더 나은 운율을 얻을 수 있는 효과가 있다.
도 1은 본 발명에 대한 실험을 위해 평가 자료 중에서 추출한 문장의 예시도.
도 2는 본 발명에 대한 기본 실험 결과를 나타낸 표.
도 3은 본 발명에 의한 기본 트리가 예측한 결과를 나타낸 문장의 예시도.
도 4는 본 발명에서 샘플링된 자료로 학습된 트리의 성능을 나타낸 표.
도 5는 본 발명에 의해 샘플링된 자료로 학습된 트리가 예측한 결과를 나타낸 문장의 예시도.
도 6은 본 발명에 의한 단말 노드가 여덟 개인 결정 트리의 예시도.
도 7은 본 발명에 의한 선형 회귀 모델과 CART를 결합한 모델의 성능을 나타낸 표.
도 8은 본 발명에 의한 선형 회귀 모델과 CART를 결합한 모델이 예측한 결과를 나타낸 문장의 예시도.

Claims (4)

  1. 여러 종류의 운율 경계 각각의 학습 자료 내 발생 빈도수가 서로 다를 때, 학습시 각각의 빈도수들을 비슷하게 맞추어 최종적으로 예측기가 학습한 후, 실제로 운율을 생성할 때 정확률과 재현률이 비슷하게 되도록 하는 제1과정과; 객관적인 평가에서의 성능을 향상시키기 위해, 통계적 의사결정 모델과 선형 회귀 모델을 결합한 예측 모델을 이용하여 운율구 추출을 시행하는 제2과정을 포함하여 이루어지는 것을 특징으로 하는 한국어 운율구 추출방법.
  2. 제1항에 있어서, 여러 종류의 운율 경계는 접어 경계, 단어 경계, 강세구 경계, 억양구 경계를 포함하는 것을 특징으로 하는 한국어 운율구 추출방법.
  3. 제1항에 있어서, 제1과정은 학습 자료의 강세구/억양구 경계에 해당하는 자료들 중 50%만을 학습에 참여시키는 것을 특징으로 하는 한국어 운율구 추출방법.
  4. 제1항에 있어서, 제2과정은 단말 노드 개수가 T개인 크기가 작은 CART 트리를 학습시키고 특징 벡터에 대한 출력 단말 노드를 구하는 단계와; 아래의 [수학식1]에서와 같이 선형 회귀 모델을 학습시킬 때 단말 노드를 표현하는 이진변수들을 함께 입력하는 단계를 포함하여 이루어지는 것을 특징으로 하는 한국어 운율구 추출방법.
    [수학식 1]
    여기서, x는 특징 변수들의 이진 변수 형태이고, t는 학습된 트리의 단말 노드를 나타내는 변수이고, w는 각 변수에 대한 비중 값이다.
KR1020030090980A 2003-12-13 2003-12-13 한국어 운율구 추출방법 KR20050058949A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020030090980A KR20050058949A (ko) 2003-12-13 2003-12-13 한국어 운율구 추출방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020030090980A KR20050058949A (ko) 2003-12-13 2003-12-13 한국어 운율구 추출방법

Publications (1)

Publication Number Publication Date
KR20050058949A true KR20050058949A (ko) 2005-06-17

Family

ID=37252229

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020030090980A KR20050058949A (ko) 2003-12-13 2003-12-13 한국어 운율구 추출방법

Country Status (1)

Country Link
KR (1) KR20050058949A (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012057562A3 (ko) * 2010-10-28 2012-06-21 (주)엠씨에스로직 감성적 음성합성 장치 및 그 방법
CN110022130A (zh) * 2019-03-11 2019-07-16 江苏大学 一种光伏阵列故障检测设备和方法
KR102090240B1 (ko) 2018-11-29 2020-03-17 부산대학교 산학협력단 심층학습을 이용한 한국어 운율구 경계 예측 장치 및 방법

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012057562A3 (ko) * 2010-10-28 2012-06-21 (주)엠씨에스로직 감성적 음성합성 장치 및 그 방법
KR101160193B1 (ko) * 2010-10-28 2012-06-26 (주)엠씨에스로직 감성적 음성합성 장치 및 그 방법
KR102090240B1 (ko) 2018-11-29 2020-03-17 부산대학교 산학협력단 심층학습을 이용한 한국어 운율구 경계 예측 장치 및 방법
CN110022130A (zh) * 2019-03-11 2019-07-16 江苏大学 一种光伏阵列故障检测设备和方法

Similar Documents

Publication Publication Date Title
US6751592B1 (en) Speech synthesizing apparatus, and recording medium that stores text-to-speech conversion program and can be read mechanically
Liu et al. Mongolian text-to-speech system based on deep neural network
WO2012164835A1 (ja) 韻律生成装置、音声合成装置、韻律生成方法および韻律生成プログラム
Kayte et al. Di-phone-Based Concatenative Speech Synthesis Systems for Marathi Language
Panda et al. A waveform concatenation technique for text-to-speech synthesis
Maia et al. Towards the development of a brazilian portuguese text-to-speech system based on HMM.
Bettayeb et al. Speech synthesis system for the holy quran recitation.
Amrouche et al. Dnn-based arabic speech synthesis
Chomphan et al. Tone correctness improvement in speaker dependent HMM-based Thai speech synthesis
Kayte et al. A Marathi Hidden-Markov Model Based Speech Synthesis System
Dagba et al. A Text To Speech system for Fon language using Multisyn algorithm
Rebai et al. Arabic speech synthesis and diacritic recognition
Krishna et al. Duration modeling for Hindi text-to-speech synthesis system
KR101097186B1 (ko) 대화체 앞뒤 문장정보를 이용한 다국어 음성합성 시스템 및 방법
KR20050058949A (ko) 한국어 운율구 추출방법
KR100806287B1 (ko) 문말 억양 예측 방법 및 이를 기반으로 하는 음성합성 방법및 시스템
Chen et al. A Mandarin Text-to-Speech System
Sudhakar et al. Development of Concatenative Syllable-Based Text to Speech Synthesis System for Tamil
Al-Said et al. An Arabic text-to-speech system based on artificial neural networks
Mustafa et al. Prosodic Analysis And Modelling For Malay Emotional Speech Synthesis
Rapp Automatic labelling of German prosody.
Panda et al. A Context-based Numeral Reading Technique for Text to Speech Systems.
Kayte et al. Duration for Classification and Regression Treefor Marathi Text-to-Speech Synthesis System
Liu et al. Design and Implementation of Burmese Speech Synthesis System Based on HMM-DNN
Mao et al. Speech synthesis of Chinese Braille with limited training data

Legal Events

Date Code Title Description
WITN Withdrawal due to no request for examination