KR100720175B1 - 음성합성을 위한 끊어읽기 장치 및 방법 - Google Patents

음성합성을 위한 끊어읽기 장치 및 방법 Download PDF

Info

Publication number
KR100720175B1
KR100720175B1 KR1020050106861A KR20050106861A KR100720175B1 KR 100720175 B1 KR100720175 B1 KR 100720175B1 KR 1020050106861 A KR1020050106861 A KR 1020050106861A KR 20050106861 A KR20050106861 A KR 20050106861A KR 100720175 B1 KR100720175 B1 KR 100720175B1
Authority
KR
South Korea
Prior art keywords
speaker
speech
cut
text
model
Prior art date
Application number
KR1020050106861A
Other languages
English (en)
Other versions
KR20070049753A (ko
Inventor
김상훈
오승신
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020050106861A priority Critical patent/KR100720175B1/ko
Publication of KR20070049753A publication Critical patent/KR20070049753A/ko
Application granted granted Critical
Publication of KR100720175B1 publication Critical patent/KR100720175B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 코퍼스 기반 음성합성을 수행함에 있어 합성음의 자연성에 매우 중요한 문장내 구단위 끊어읽기(phrase break prediction)에 관한 것으로서, 기존 끊어읽기 규칙이 통계적으로 모델링되는 바, 대용량 텍스트에서 화자독립 끊어읽기 규칙이 추출되고, 이러한 끊어읽기 규칙은 발성화자의 화자종속적 끊어읽기 패턴과 다소 상이하여 합성음의 자연성을 저하시키는 요인이 되어 왔다. 이에 이러한 문제점을 해결하고자 통계적 끊어읽기 모델링을 적용하여 다수개(N-best)의 끊어읽기 결과를 출력하고, 다수개의 끊어 결과 중 화자의 끊어읽기 패턴과 유사한 끊어읽기를 선택하여 합성음질을 개선하고자 한다.
음성합성, 끊어읽기, 코퍼스 기반 음성합성, 화자독립 끊어읽기, 화자종속 끊어읽기

Description

음성합성을 위한 끊어읽기 장치 및 방법{apparatus and method of phrase break prediction for synthesizing text-to-speech system}
도 1 은 본 발명에 따른 음성합성을 위한 끊어읽기 장치를 나타낸 구성도.
도 2 는 본 발명에 따른 음성합성을 위한 끊어읽기 방법을 나타낸 흐름도.
*도면의 주요부분에 대한 부호의 설명
10 : 텍스트 전처리부 20 : 품사 태깅부
30 : 운율 생성부 40 : 합성단위 선정부
50 : 화자독립 끊어읽기 DB 60 : 화자종속 끊어읽기 DB
70 : 합성 DB
본 발명은 음성합성 시스템에 관한 것으로, 특히 다수개의 끊어읽기 결과 중 화자의 끊어읽기 패턴과 유사한 끊어읽기를 선택하여 합성음질을 개선한 끊어읽기 장치 및 방법에 관한 것이다.
사람은 문서를 낭독할 때, 기본적으로 문장구조를 파악하여 의미적 결합도에 따라 끊어읽기를 수행하지만, 이와 함께 자신이 들이마신 공기, 언어습관, 발화의 속도 등이 고려되면서 보다 자연스러운 끊어읽기를 수행하게 된다.
종래의 기술에 따른 끊어읽기의 방법으로는 “인접한 어절간의 규칙”(한국 특허공개번호 제1993-10711), “인접한 어절간의 관계”(한국 특허공개번호 제1995-15052), “인접한 어절간의 쉼 길이 테이블”(한국 특허공개번호 제1995-15053, 제1996-25313) 등이 있는 바, 인접한 어절간에 미리 준비된 데이터를 이용하고 있다. 또 다른 방법으로는 “어절과 어절사이의 휴지기 존재 확률과 어절개수 확률 분포”(한국 특허공개번호 제1994-26831), “신경회로망”(한국 특허공개번호 1995-4026) 등을 사용하는 방법들이 있다.
이와 같은 종래 기술들은 어절간에 미리 준비된 데이터를 사용하여 끊어읽기가 사용하는 점에서 비슷하다고 할 수 있다.
그러나, 이와 같이 미리 준비된 데이터를 이용하여 끊어읽기가 사용되는 방법의 문제점은 문장의 의미와 직접적인 관련이 있는 구문구조, 발화를 위해 들이마신 공기의 양, 언어습관 등을 반영하지 않으므로, 부자연스런 운율로 이어져 합성음의 자연성과 명료도를 떨어뜨린다는 것이다. 또한, 이들 방법들은 발화속도에 따라 달라지는 말마디/말토막 경계 등을 반영하지 않으므로, 발화속도와 관계없이 끊어읽는 위치가 항상 일정하여, 합성음을 기계음으로 느끼게 되는 문제점이 있다.
이를 해결하기 위한 종래의 기술로서 “음성합성을 위한 끊어읽기 방법 및 그 장치”(등록번호 0499116), “한국어 음성합성 시스템에서 음절의 공기소모량을 고려한 끊어읽기 규칙”(한국 특허공개번호 제2000-30366) 등을 사용하는 방법들이 있다.
이 종래의 방법은 문서해석 단계의 결과인 구문트리를 입력으로 하여 문장에 대한 끊어읽기를 수행함으로써 합성음의 자연성과 명료도를 향상시키는 방법 및 장치로서, 상기 끊어읽기 레벨 결정단계와 끊어읽기 레벨 보정 단계의 2단계를 포함하여 이루어진다. 상기 끊어읽기 레벨 결정 단계에서는 구문트리의 루트 노드에서 각 노드까지의 거리를 구문 깊이라고 할 때, 두 노드간의 구문 깊이 차이를 이용하여 끊어읽기 레벨을 결정한다. 끊어읽기 레벨 보정 단계에서는 사람이 발성하기 위해 들이마신 공기, 인접어절간의 규칙, 언어습관 및 문서형태 등을 고려하여 끊어읽기 레벨을 보정한다.
이와 같이, 구문분석 결과를 이용하므로 문장성분에 따른 끊어읽기가 가능하여 종래의 문제를 효과적으로 해결할 수 있게 된다.
그러나, 이와 같은 효과를 나타내는 종래의 방법에도 발성 화자의 끊어읽기 패턴을 반영하지 못하고, 통계적인 끊어읽기 규칙을 적용하고 있어서 부자연스러운 발성을 만들어 합성음의 자연성과 명료도를 높이는데는 아직까진 한계가 있다.
최근에는 보다 합성음의 자연성과 명료도를 높이기 위한 기술로서 코퍼스 기반 음성합성 시스템에서 사용되는 끊어읽기 규칙을 이용하고 있다. 즉, 상기 코퍼스 기반 음성합성 시스템은 대용량 텍스트 데이터베이스로부터 품사 N-gram, HMM(Hidden Marcov Model) 또는 CART(Classification and Regression Tree)를 이용하여 통계적 모델링을 하는 방식을 이용하는 끊어읽기 방법이다. 그러나, 이와 같은 끊어읽기 방법으로도 청취자에게 보다 자연스러운 합성음을 제공하는데는 아직까지 기대에 미치지 못하고 있다.
이와 같이 종래 기술에 따른 음성합성시 끊어읽기 방법들은 하나같이 화자독립 통계적 모델로부터 가장 최근(best)의 규칙을 선택하여 합성음 생성에 이용되고 있어서, 이 모든 규칙이 해당 화자의 발성패턴과 다를 경우, 합성단위 선정시 합성단위 불일치(mismatch) 및 운율 불일치를 일으키게 되고 이는 곧 합성음질을 저하시키는 요인이 된다.
따라서, 합성음질을 향상시키기 위해서는 끊어읽기의 규칙을 화자의 발성패턴과 일치시키는 것이 좋은데, 화자의 음성으로부터 끊어읽기 규칙을 모델링하기에는 데이터가 부족하여 화자의 발성패턴을 반영하기가 그렇게 용이하지가 않다.
이를 위해 종래에는 발성목록에 끊어읽기를 미리 표시하여 화자가 주어진 끊어 읽기대로 발성하도록 하여 화자의 발성패턴을 반영하도록 하는 방법을 제공하기도 하였다. 그러나 이는 화자로 하여금 부자연스러운 발성을 하게 만들어 합성음의 안정성 및 자연성을 더욱 저하시키는 원인이 되기도 한다.
따라서 본 발명은 상기와 같은 문제점을 해결하기 위해 안출한 것으로서, 화자독립 끊어읽기 규칙을 화자의 발성패턴과 최대한 일치시켜 합성음질을 개선할 수 있는 음성합성을 위한 끊어읽기 장치 및 방법을 제공하는데 그 목적이 있다.
본 발명의 다른 목적은 끊어읽기 레벨과 사용자가 정한 발화속도에 따라 얻어진 말마디 및 말토막 경계 정보를 운율요소 예측 및 파형합성 단계에 이용함으로써 합성음의 자연성과 명료도를 높일 수 있는 음성합성을 위한 끊어읽기 장치 및 방법을 제공하는데 있다.
상기와 같은 목적을 달성하기 위한 본 발명에 따른 음성합성을 위한 끊어읽기 장치의 특징은 음성합성 장치는 텍스트를 입력받아 숫자, 심볼 등을 한글 텍스트 및 음운기호로 변환하는 텍스트 전처리부와, 상기 변환된 텍스트를 형태소 품사 태깅을 수행하여 입력 텍스트의 문장 구조를 파악하는 형태소 품사 태깅부와, 상기 파악된 텍스트를 합성음이 자연스럽게 생성되도록 복수의 화자들의 억양, 지속시간, 에너지 및 인위적으로 생성된 끊어읽기 규칙들을 적용하고, 이를 독립된 화자의 발성패턴을 재반영하여 운율 파라미터를 생성하는 운율 생성부와, 상기 생성된 운율 파라미터를 이용해 음성 텍스트 정보가 기 저장된 합성 DB로부터 화자의 끊어읽기 패턴에 기반하는 합성단위를 선정 및 연결하여 합성음을 생성하는 합성단위 선정부를 포함하는 것을 특징으로 한다.
바람직하게 상기 운율 생성부는 텍스트 기반으로부터 복수의 화자의 발화패턴에 따른 통계적 모델을 저장하는 화자독립 끊어읽기 DB와, 텍스트 기반으로부터 독립된 하나의 화자 발성패턴에 따른 모델을 저장하는 화자종속 끊어읽기 모델을 저장하는 화자종속 끊어읽기 DB를 포함하는 것을 특징으로 한다.
상기와 같은 목적을 달성하기 위한 본 발명에 따른 음성합성을 위한 끊어읽기 방법의 특징은 텍스트 전처리 및 형태소 품사 태깅을 수행하여 문장의 끊어읽기에 필요한 특징을 추출하는 단계와, 상기 추출된 끊어읽기에 필요한 특징에 기반하여 기 저장된 화자독립 모델 데이터베이스(DB)로부터 운율요소가 예측되고 이를 통해 적어도 하나 이상의 제 1 끊어읽기 결과와 각 결과의 확률값을 산출하는 단계 와, 상기 제 1 끊어읽기 결과들 중 산출된 확률값 중 확률값이 높은 순으로 적어도 하나 이상의 제 2 끊어읽기 결과 모델을 추출하는 단계와, 상기 추출된 제 2 끊어읽기 결과 모델에 기 저장된 화자종속 모델 데이터베이스(DB)를 이용하여 화자 발성패턴이 적용된 끊어읽기 결과 모델을 재산정(rescoring)하는 단계를 포함하는 것을 특징으로 한다.
바람직하게 상기 재산정하여 얻은 확률값 중 가장 큰 확률값을 갖는 1개의 끊어읽기 결과 모델을 출력하는 단계를 더 포함하는 것을 특징으로 한다.
바람직하게 상기 끊어읽기에 필요한 특징은 문장의 품사, 문장 어절위치, 어절내 음절수, 이전 품사, 이후 품사 중 적어도 하나인 것을 특징으로 한다.
바람직하게 상기 화자독립 모델 데이터 베이스(DB)는 발화의 기본단위인 말마디, 말토막에 따라 복수의 화자들의 발화특성의 통계적 특성을 텍스트 기반의 끊어읽기 규칙들로 저장하는 것을 특징으로 한다.
바람직하게 상기 화자종속 끊어읽기 모델 DB는 발화의 기본단위인 말마디, 말토막에 따라 독립된 한명의 화자의 발화특성이 특성을 텍스트 기반의 끊어읽기 규칙들로 저장하는 것을 특징으로 한다.
바람직하게 상기 운율요소는 음소의 길이, 크기, 기본주파수 궤적 중 적어도 어느 하나인 것을 특징으로 한다.
바람직하게 상기 결과 모델, 산출 및 재산출되는 확률값은 품사 N-gram, HMM(Hidden Marcov Model) 또는 CART(Classification and Regression Tree) 등을 이용하여 모델링되는 통계적 모델을 통해 예측되는 것을 특징으로 한다.
본 발명의 다른 목적, 특성 및 이점들은 첨부한 도면을 참조한 실시예들의 상세한 설명을 통해 명백해질 것이다.
본 발명에 따른 음성합성을 위한 끊어읽기 장치 및 방법의 바람직한 실시예에 대하여 첨부한 도면을 참조하여 설명하면 다음과 같다.
도 1 은 본 발명에 따른 음성합성을 위한 끊어읽기 장치를 나타낸 구성도이다.
도 1과 같이, 음성합성 장치는 텍스트를 입력받아 숫자, 심볼 등을 한글로의 변환 및 음운기호로 변환하는 텍스트 전처리부(10)와, 상기 변환된 텍스트를 형태소 품사 태깅을 수행하여 입력 텍스트의 문장 구조를 파악하는 형태소 품사 태깅부(20)와, 상기 파악된 텍스트를 합성음이 자연스럽게 생성되도록 복수의 화자들의 억양, 지속시간, 에너지 및 인위적으로 생성된 끊어읽기 규칙들을 적용하고, 이를 독립된 화자의 발성패턴을 반영하여 운율 파라미터를 생성하는 운율 생성부(30)와, 상기 생성된 운율 파라미터를 이용해 음성 텍스트 정보가 기 저장된 합성 DB(70)로부터 화자의 끊어읽기 패턴에 기반하는 합성단위를 선정 및 연결하여 합성음을 생성하는 합성단위 선정부(40)로 구성된다.
이때, 상기 운율 생성부(30)는 대용량 텍스트 기반으로부터 복수의 화자의 발화패턴에 따른 통계적 모델을 저장하는 화자독립 끊어읽기 DB(50)와, 텍스트 기반으로부터 독립된 하나의 화자 발성패턴에 따른 모델을 저장하는 화자종속 끊어읽기 모델을 저장하는 화자종속 끊어읽기 DB(60)로 구성된다.
이와 같이 구성된 본 발명에 따른 음성합성을 위한 끊어읽기 장치의 동작을 첨부한 도면을 참조하여 상세히 설명하면 다음과 같다.
도 2 는 본 발명에 따른 음성합성을 위한 끊어읽기 방법을 나타낸 흐름도이다.
도 2를 참조하여 설명하면, 먼저 텍스트 전처리를 통해 텍스트를 입력받아 숫자, 심볼 등을 한글로의 변환 및 한글 텍스트를 음운기호로 변환한다(S10).
이어 상기 변환된 텍스트를 입력 텍스트의 문장 구조를 파악하는 형태소 품사 태깅(S20)을 수행하여 문장의 끊어읽기에 필요한 특징을 추출한다(S30). 이때, 상기 끊어읽기에 필요한 특징은 문장의 품사, 문장 어절위치, 어절내 음절수, 이전 품사, 이후 품사 등이다.
본 발명에서 상기 텍스트 전처리(S10) 및 품사 태깅(S20) 과정은 음성인식 시스템에서 일반적으로 사용되는 방법들이 사용되며, 일 실시예로 “음성합성을 위한 끊어읽기 방법 및 그 장치”(등록번호 0499116)에서 기재되어 있는 방법을 이용한다. 즉, 입력된 문서에 대하여 구문해석의 단위인 문장 및 형태소해석의 단위인 어절로 분리하고, 해석사전 데이터베이스를 이용하여 어절을 구성하는 형태소 및 형태소 범주를 결정한다. 이어 발음사전 데이터베이스를 이용하여 한글, 영어, 숫자, 기호 등의 문자를 음운기호로 변환한 후, 발화의 기본단위인 말마디, 말토막을 결정함으로서 끊어읽기에 필요한 특징을 추출하게 된다.
이렇게 추출된 끊어읽기에 필요한 특징들은 화자독립 모델 데이터 베이스(DB)(50)를 이용하여 음소의 길이, 크기, 기본주파수 궤적 등의 운율요소들을 예측한다(S40)(S50). 이때, 상기 화자독립 모델 DB(50)는 발화의 기본단위인 말마디, 말토막에 따라 복수의 화자들의 발화특성의 통계적 특성을 텍스트 기반의 끊어읽기 규칙들로 저장하고 있다.
즉, 상기 운율요소의 예측은 먼저 화자독립 모델 DB(50)를 통해 N 가지의 가능한 끊어읽기 결과 모델을 정의하고, 이 정의된 각 결과 모델의 확률값을 산출한다. 이때, 상기 결과 모델 및 산출되는 확률값은 품사 N-gram, HMM(Hidden Marcov Model) 또는 CART(Classification and Regression Tree) 등을 이용하여 모델링되는 화자독립 통계적 모델을 통해 예측된다.
그리고 상기 N 가지의 끊어읽기 결과 중 상기 산출된 확률값이 높은 순으로 해당되는 M 가지의 끊어읽기 결과 모델을 추출한다(S40). 이때, 상기 M은 N보다 크지 않은 수인 것이 바람직하다.
이렇게 추출된 M 가지의 끊어읽기 결과 모델을 상기와 동일한 방법을 통해 화자종속 끊어읽기 모델 DB(60)를 통해 가능한 끊어읽기 결과 모델을 정의하고, 이 정의된 각 결과 모델의 확률값을 산출하여 끊어읽기 모델을 재산정(rescoring)한다.(S50)
이때, 상기 화자종속 끊어읽기 모델 DB(60)는 상기 화자독립 끊어읽기 모델DB(50)와 같이 발화의 기본단위인 말마디, 말토막에 따라 음성 기반의 끊어읽기 규칙을 저장하고 있다. 단지 다른 점은 상기 화자독립 끊어읽기 모델 DB(50)는 복수의 화자들의 발화패턴을 통계적으로 정의한 모델들이 저장되어 있는데 반해, 상기 화자종속 끊어읽기 모델 DB(60)는 독립된 한명인 화자의 발상음으로 저장된 발화패턴을 정의한 모델들이 저장되어 있다.
즉, 상기 텍스트 기반의 화자독립 통계적 모델이 적용되어 추출된 끊어읽기 결과 모델을 다시 음성기반의 화자종속 끊어읽기 모델에 적용하여 N-best 확률값을 재산정(rescoring)하게 된다.
그리고 이렇게 재산정하여 얻은 확률값 중 가장 큰 확률값을 갖는 1개의 결과 모델이 화자 발성패턴과 유사한 끊어읽기 결과 모델로 출력된다.
이와 같은 상기 화자종속 끊어읽기 모델 DB(60)을 이용하여 모델을 재산정하여 추출하게 되므로 화자의 발성패턴과 매우 유사한 끊어읽기 모델을 추출할 수 있게 된다.
이처럼, 기존방법은 텍스트 기반 화자독립 끊어읽기 확률(P_SIi)에서 최대 확률값을 갖는 끊어읽기 출력 모델을 선택하나, 본 발명에서는 상기 화자독립 끊어읽기 확률에서 생성된 출력 모델을 다시 음성기반 화자종속 끊어읽기 확률(P_SDi)에서 한번 더 적용하여 끊어읽기 확률값을 재산정하여 끊어읽기 출력 모델을 선택한다.
이에 따라 본 발명에서 최종적으로 선택되는 모델은 화자 발성패턴에 최대한 일치되는 끊어읽기 결과 모델이 선택되게 된다.
이를 수식으로 나타내면 다음 수학식 1과 같이 나타낸다.
최적 끊어읽기 결과 = MAX(P_SIiㆍP_SDi) 1≤i≤N
여기서, P_SIi는 텍스트 기반 화자독립 끊어읽기 확률이고, P_SDi는 음성 기반 화자종속 끊어읽기 확률, i는 N개의 끊어읽기 결과를 가리키는 인덱스를 의미한다.
상기 수학식 1과 같은 수식에 의해 연속해서 출력되는 결과값을 이용하게 된다.
이상에서와 같이 상세한 설명과 도면을 통해 본 발명의 최적 실시예를 개시하였다. 용어들은 단지 본 발명을 설명하기 위한 목적에서 사용된 것이지 의미 한정이나 특허청구범위에 기재된 본 발명의 범위를 제한하기 위하여 사용된 것은 아니다. 그러므로 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 특히, 상기 유사도 측정방법은 여러 가지 방법으로 적용할 수 있다.
따라서 본 발명의 진정한 기술적 보호 범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.
이상에서 설명한 바와 같은 본 발명에 따른 음성합성을 위한 끊어읽기 장치 및 방법은 종래방법에 비해 끊어읽기 규칙을 독립된 화자 발성패턴에 유사하도록 적용하므로써 화자의 발성패턴과 텍스트 기반 통계적 끊어읽기 규칙간에 불일치(mismatch)를 최소화하여 합성음질을 개선하는 효과가 있다.

Claims (10)

  1. 삭제
  2. 음성합성 장치는 텍스트를 입력받아 숫자, 심볼 등을 한글 텍스트 및 음운기호로 변환하는 텍스트 전처리부와,
    상기 변환된 텍스트를 형태소 품사 태깅을 수행하여 입력 텍스트의 문장 구조를 파악하는 형태소 품사 태깅부와,
    상기 파악된 텍스트를 합성음이 자연스럽게 생성되도록 복수의 화자들의 억양, 지속시간, 에너지 및 인위적으로 생성된 끊어읽기 규칙들을 적용하고, 이를 독립된 화자의 발성패턴을 재반영하여 운율 파라미터를 생성하는 운율 생성부와,
    상기 생성된 운율 파라미터를 이용해 음성 텍스트 정보가 기 저장된 합성 DB로부터 화자의 끊어읽기 패턴에 기반하는 합성단위를 선정 및 연결하여 합성음을 생성하는 합성단위 선정부를 포함하되,
    상기 운율 생성부는 텍스트 기반으로부터 복수의 화자의 발화패턴에 따른 통계적 모델을 저장하는 화자독립 끊어읽기 DB와,
    텍스트 기반으로부터 독립된 하나의 화자 발성패턴에 따른 모델을 저장하는 화자종속 끊어읽기 모델을 저장하는 화자종속 끊어읽기 DB를 포함하는 것을 특징으로 하는 음성합성을 위한 끊어읽기 장치.
  3. 제 2 항에 있어서,
    상기 운율 파라미터는 다음 수식으로 생성되는 것을 특징으로 하는 음성합성을 위한 끊어읽기 장치.
    [수식]
    최적 끊어읽기 결과 = MAX(P_SIiㆍP_SDi) 1≤i≤N
    (P_SIi : 텍스트 기반 화자독립 끊어읽기 확률, P_SDi : 음성 기반 화자종속 끊어읽기 확률, i : N개의 끊어읽기 결과를 가리키는 인덱스)
  4. 텍스트 전처리 및 형태소 품사 태깅을 수행하여 문장의 끊어읽기에 필요한 특징을 추출하는 단계와,
    상기 추출된 끊어읽기에 필요한 특징에 기반하여 기 저장된 화자독립 모델 데이터 베이스(DB)로부터 운율요소가 예측되고 이를 통해 적어도 하나 이상의 제 1 끊어읽기 결과와 각 결과의 확률값을 산출하는 단계와,
    상기 제 1 끊어읽기 결과들 중 산출된 확률값 중 확률값이 높은 순으로 적어도 하나 이상의 제 2 끊어읽기 결과 모델을 추출하는 단계와,
    상기 추출된 제 2 끊어읽기 결과 모델에 기 저장된 화자종속 모델 데이터 베이스(DB)를 이용하여 화자 발성패턴이 적용된 끊어읽기 결과 모델을 재산정(rescoring)하는 단계를 포함하는 것을 특징으로 하는 음성합성을 위한 끊어읽기 방법.
  5. 제 4 항에 있어서,
    상기 재산정하여 얻은 확률값 중 가장 큰 확률값을 갖는 1개의 끊어읽기 결과 모델을 출력하는 단계를 더 포함하는 것을 특징으로 하는 음성합성을 위한 끊어읽기 방법.
  6. 제 4 항에 있어서,
    상기 끊어읽기에 필요한 특징은 문장의 품사, 문장 어절위치, 어절내 음절수, 이전 품사, 이후 품사 중 적어도 하나인 것을 특징으로 하는 음성합성을 위한 끊어읽기 방법.
  7. 제 4 항에 있어서,
    상기 화자독립 모델 데이터 베이스(DB)는 발화의 기본단위인 말마디, 말토막에 따라 복수의 화자들의 발화특성의 통계적 특성을 텍스트 기반의 끊어읽기 규칙들로 저장하는 것을 특징으로 하는 음성합성을 위한 끊어읽기 방법.
  8. 제 4 항에 있어서,
    상기 화자종속 끊어읽기 모델 DB는 발화의 기본단위인 말마디, 말토막에 따라 독립된 한명의 화자의 발화특성이 특성을 텍스트 기반의 끊어읽기 규칙들로 저장하는 것을 특징으로 하는 음성합성을 위한 끊어읽기 방법.
  9. 제 4 항에 있어서,
    상기 운율요소는 음소의 길이, 크기, 기본주파수 궤적 중 적어도 어느 하나인 것을 특징으로 하는 음성합성을 위한 끊어읽기 방법.
  10. 제 4 항에 있어서,
    상기 결과 모델, 산출 및 재산출되는 확률값은 품사 N-gram, HMM(Hidden Marcov Model) 또는 CART(Classification and Regression Tree) 등을 이용하여 모델링되는 통계적 모델을 통해 예측되는 것을 특징으로 하는 음성합성을 위한 끊어읽기 방법.
KR1020050106861A 2005-11-09 2005-11-09 음성합성을 위한 끊어읽기 장치 및 방법 KR100720175B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020050106861A KR100720175B1 (ko) 2005-11-09 2005-11-09 음성합성을 위한 끊어읽기 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020050106861A KR100720175B1 (ko) 2005-11-09 2005-11-09 음성합성을 위한 끊어읽기 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20070049753A KR20070049753A (ko) 2007-05-14
KR100720175B1 true KR100720175B1 (ko) 2007-05-18

Family

ID=38273582

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020050106861A KR100720175B1 (ko) 2005-11-09 2005-11-09 음성합성을 위한 끊어읽기 장치 및 방법

Country Status (1)

Country Link
KR (1) KR100720175B1 (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100835374B1 (ko) * 2006-11-20 2008-06-04 한국전자통신연구원 정적 특성과 동적 특성이 반영된 끊어읽기 예측 방법 및이를 기반으로 하는 음성합성 방법 및 시스템
CN104867490B (zh) * 2015-06-12 2017-03-22 百度在线网络技术(北京)有限公司 韵律结构预测方法和装置
US11393447B2 (en) 2019-06-18 2022-07-19 Lg Electronics Inc. Speech synthesizer using artificial intelligence, method of operating speech synthesizer and computer-readable recording medium
CN111833438B (zh) * 2020-07-10 2024-06-25 阳光电源股份有限公司 一种三维模型打断参考的方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR930010711A (ko) * 1991-11-26 1993-06-23 정용문 문서 음성변환장치를 위한 문장 끊어읽기 방법
KR950015052A (ko) * 1993-11-30 1995-06-16 김광호 문장변환장치 및 그 방법
KR20000030366A (ko) * 2000-02-24 2000-06-05 신문옥 한국어 음성합성 시스템에서 음절의 공기소모량을 고려한끊어읽기 규칙
KR20000055673A (ko) * 1999-02-09 2000-09-15 윤종용 음성합성을 위한 끊어읽기 방법 및 그 장치
KR20030033628A (ko) * 2001-10-24 2003-05-01 한국전자통신연구원 판별 및 회귀 트리를 이용한 끊어읽기 강도 자동 레이블링방법
KR20040055288A (ko) * 2002-12-20 2004-06-26 한국전자통신연구원 한국어 음성합성기의 운율모듈을 위한 어절의 태깅 방법

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR930010711A (ko) * 1991-11-26 1993-06-23 정용문 문서 음성변환장치를 위한 문장 끊어읽기 방법
KR950015052A (ko) * 1993-11-30 1995-06-16 김광호 문장변환장치 및 그 방법
KR20000055673A (ko) * 1999-02-09 2000-09-15 윤종용 음성합성을 위한 끊어읽기 방법 및 그 장치
KR20000030366A (ko) * 2000-02-24 2000-06-05 신문옥 한국어 음성합성 시스템에서 음절의 공기소모량을 고려한끊어읽기 규칙
KR20030033628A (ko) * 2001-10-24 2003-05-01 한국전자통신연구원 판별 및 회귀 트리를 이용한 끊어읽기 강도 자동 레이블링방법
KR20040055288A (ko) * 2002-12-20 2004-06-26 한국전자통신연구원 한국어 음성합성기의 운율모듈을 위한 어절의 태깅 방법

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
10-1993-10711
10-1995-15052
10-2000-30366
10-2003-33628
10-2004-55288

Also Published As

Publication number Publication date
KR20070049753A (ko) 2007-05-14

Similar Documents

Publication Publication Date Title
US6751592B1 (en) Speech synthesizing apparatus, and recording medium that stores text-to-speech conversion program and can be read mechanically
JP4302788B2 (ja) 音声合成用の基本周波数テンプレートを収容する韻律データベース
US8566099B2 (en) Tabulating triphone sequences by 5-phoneme contexts for speech synthesis
JP4176169B2 (ja) 言語合成のためのランタイムアコースティックユニット選択方法及び装置
KR100590553B1 (ko) 대화체 운율구조 생성방법 및 장치와 이를 적용한음성합성시스템
US7010489B1 (en) Method for guiding text-to-speech output timing using speech recognition markers
US20030028376A1 (en) Method for prosody generation by unit selection from an imitation speech database
JP3587048B2 (ja) 韻律制御方法及び音声合成装置
KR100932538B1 (ko) 음성 합성 방법 및 장치
GB2376394A (en) Speech synthesis apparatus and selection method
EP1668628A1 (en) Method for synthesizing speech
GB2380380A (en) Speech synthesis method and apparatus
JP2002318595A (ja) テキスト音声合成システムの韻律テンプレートマッチング
GB2380381A (en) Speech synthesis method and apparatus
Chou et al. A set of corpus-based text-to-speech synthesis technologies for Mandarin Chinese
KR20080045413A (ko) 정적 특성과 동적 특성이 반영된 끊어읽기 예측 방법 및이를 기반으로 하는 음성합성 방법 및 시스템
Maia et al. Towards the development of a brazilian portuguese text-to-speech system based on HMM.
KR100720175B1 (ko) 음성합성을 위한 끊어읽기 장치 및 방법
Stöber et al. Speech synthesis using multilevel selection and concatenation of units from large speech corpora
JP6330069B2 (ja) 統計的パラメトリック音声合成のためのマルチストリームスペクトル表現
KR20010018064A (ko) 음운환경과 묵음구간 길이를 이용한 텍스트/음성변환 장치 및그 방법
Vertanen Speech and speech recognition during dictation corrections.
JP3006240B2 (ja) 音声合成方法および装置
JPH0962286A (ja) 音声合成装置および音声合成方法
JP3397406B2 (ja) 音声合成装置及び音声合成方法

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
G170 Publication of correction
FPAY Annual fee payment

Payment date: 20110511

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee