KR20030079460A - 텍스트/음성 변환 장치 및 방법 - Google Patents
텍스트/음성 변환 장치 및 방법 Download PDFInfo
- Publication number
- KR20030079460A KR20030079460A KR1020020018503A KR20020018503A KR20030079460A KR 20030079460 A KR20030079460 A KR 20030079460A KR 1020020018503 A KR1020020018503 A KR 1020020018503A KR 20020018503 A KR20020018503 A KR 20020018503A KR 20030079460 A KR20030079460 A KR 20030079460A
- Authority
- KR
- South Korea
- Prior art keywords
- segment
- candidate
- segments
- information
- text
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 26
- 238000006243 chemical reaction Methods 0.000 title description 9
- 230000015572 biosynthetic process Effects 0.000 claims description 19
- 238000003786 synthesis reaction Methods 0.000 claims description 19
- 238000001514 detection method Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 8
- 238000004458 analytical method Methods 0.000 claims description 7
- 238000001228 spectrum Methods 0.000 claims description 3
- 230000033764 rhythmic process Effects 0.000 abstract description 6
- 238000003058 natural language processing Methods 0.000 abstract 1
- 238000007796 conventional method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000001020 rhythmical effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
본 발명은 문맥 정보를 토대로 입력된 텍스트 정보에 대한 불연속성을 최소화한 합성음을 생성할 수 있는 텍스트/음성 변환장치 및 방법이다.
본 발명에 따른 텍스트/음성 변환 장치는, 텍스트를 음성으로 변환하는 장치에 있어서, 텍스트에 대한 문맥 정보(형태소, 구문 구조)를 분석하여 합성단위간에 불연속이 인지되지 않거나 불연속이 소정 치 이하로 인지되는 부분을 세그먼트로 구분하고, 구분된 각 세그먼트에 대한 문맥 정보(형태소, 구문 구조)를 리스팅하는 언어 처리부; 사전에 예측된 세그먼트 단위의 운율 및 음운 정보를 저장하는 저장부; 언어 처리부로부터 전송되는 리스팅 정보를 토대로 저장부에서 각 세그먼트에 대한 후보 세그먼트를 검출하는 검출부; 검출부에서 검출된 후보 세그먼트를 이용하여 텍스트에 대응되는 합성음을 생성하는 합성 처리부를 포함한다.
따라서 생성되는 합성음에서의 불연속 구간을 최소화할 수 있다.
Description
본 발명은 텍스트/음성 변환 장치(이하 TTS(Text-To-Speech) 장치라고 함) 및 방법에 관한 것으로, 특히, 합성음의 불연속성을 최소화하기 위한 텍스트/음성 변환 장치 및 방법에 관한 것이다.
일반적으로 TTS 장치는 텍스트 정보에 대응되는 음성을 제공하는 것으로, 주로 컴퓨터 시스템에서 사용자에게 다양한 형태의 정보를 음성으로 제공하기 위해사용되고 있다. 이러한 TTS 장치는 주어진 텍스트로부터 고품질의 합성음을 제공할 수 있어야 한다. 고품질의 합성음이란 발음(음가 또는 음운)이 명료하고, 끊어 읽기, 음의 길이, 음의 높이, 음의 세기와 같은 운율적 요소들이 적절히 구현된 자연성이 높은 음을 말한다.
고품질의 합성음을 제공하기 위하여, 기존의 TTS 장치는 먼저 입력된 텍스트로부터 문장 부호를 포함한 순수 문장 텍스트만을 분리한다. 그리고 분리된 문장으로부터 언어 정보를 추정하고, 발음 변환 과정을 통해 문장을 음소 열로 변환한다. 그리고, 추정된 언어 정보와 음소 열을 토대로 끊어 읽기, 소리의 높낮이, 소리의 강약, 소리의 장단과 관련된 운율 파라미터 값을 계산하고, 계산된 운율 파라미터 값들과 음소 열 정보를 이용하여 합성 단위 데이터 베이스에서 적합한 음편을 선택하여 원하는 합성음을 생성한다.
그러나 기존의 TTS장치는 사전에 정의된 합성 단위로 연결하여 텍스트에 대한 합성음을 생성함으로써, 단위 연결부분에서 합성음의 불연속이 크게 인지될 가능성이 높다. 상기 불연속이 인지되는 구간은 쉼 구간이나 언어 해석적으로 분절되는 구간이며, 음절 유형과 음성학적 조합에 의해 결정되어지는 부분이다. 그러나, 기존의 TTS 장치에서의 합성 단위는 상술한 불연속이 인지되는 구간과 관계없이 음소 단위로 합성 가능한 조건을 고려하여 정의된 것이다. 따라서 정의된 합성 단위의 길이가 일정하든 일정하지 않든 관계없이 생성되는 합성음에서 상술한 불연속이 인지될 가능성이 높은 것이다.
본 발명은 상술한 문제를 해결하기 위한 것으로, 문맥 정보를 토대로 입력된 텍스트 정보에 대한 불연속성을 최소화한 합성음을 생성할 수 있는 텍스트/음성 변환장치 및 방법을 제공하는데 그 목적이 있다.
본 발명의 다른 목적은 문맥 정보를 토대로 합성 단위간에 불연속이 작게 인지되거나 인지되지 않는 부분(또는 형태소)은 세그먼트 단위로 분절하여 합성음을 생성함으로써, 합성음의 불연속 구간을 최소화할 수 있는 텍스트/음성 변환 장치 및 방법을 제공하는데 있다.
본 발명의 또 다른 목적은 문맥 정보를 토대로 사전에 구비된 세그먼테이션(presegmentation) 정보를 이용하여 입력된 텍스트 정보에 대한 운율 및 음운(또는 발음) 정보를 얻음으로써, 운율 생성 및 음운 선택이 용이한 텍스트/음성 변환 장치 및 방법을 제공하는데 있다.
상기 목적들을 달성하기 위하여 본 발명에 따른 텍스트/음성 변환 장치는, 텍스트를 음성으로 변환하는 장치에 있어서, 텍스트에 대한 문맥 정보를 분석하여합성 단위간에 불연속이 인지되지 않거나 불연속이 소정 치 이하로 인지되는 부분을 세그먼트로 구분하고, 구분된 각 세그먼트에 대한 문맥 정보를 리스팅하는 언어 처리부; 사전에 예측된 세그먼트 단위의 운율 및 음운 정보를 저장하는 저장부; 언어 처리부로부터 전송되는 리스팅 정보를 토대로 저장부에서 각 세그먼트에 대한 후보 세그먼트를 검출하는 검출부; 검출부에서 검출된 후보 세그먼트를 이용하여 텍스트에 대응되는 합성음을 생성하는 합성 처리부를 포함하는 것이 바람직하다.
상기 텍스트/음성 변환장치는, 검출부에서 후보 세그먼트가 검출되지 않은세그먼트는 합성음을 생성하기 위해 필요한 음운을 생성하고 운율을 예측하는 운율 처리부를 더 포함하는 것이 바람직하다.
상기 언어 처리부에서 리스팅되는 정보는 해당 세그먼트의 선행 세그먼트와 후행 세그먼트의 형태소 정보를 포함하는 문맥 정보와 해당 세그먼트의 형태소 정보를 포함하는 것이 바람직하다.
상기 텍스트/음성 변환장치는, 검출부에서 검출된 후보 세그먼트가 복수개이면, 해당 세그먼트의 후보 세그먼트와 해당 세그먼트의 선행 세그먼트의 후보 세그먼트와 해당 세그먼트의 후행 세그먼트의 후보 세그먼트간의 문맥정보를 토대로 해당 세그먼트의 후보 세그먼트들에 대한 우선 순위를 결정하여 최적의 후보 세그먼트를 결정하는 결정부를 더 포함하는 것이 바람직하다.
상기 결정부는 우선 순위를 토대로 결정된 최적의 후보 세그먼트가 복수개이면, 선행 세그먼트와 후행 세그먼트의 최적의 후보 세그먼트와 결정된 최적의 후보 세그먼트간의 음향 스펙트럼을 토대로 하나의 최적의 후보 세그먼트를 결정하는 것이 바람직하다.
상기 목적들을 달성하기 위하여 본 발명에 따른 텍스트/음성 변환 방법은, 텍스트를 음성으로 변환하는 방법에 있어서, 텍스트 정보가 입력되면 문맥 정보를 분석하여 합성 단위간에 불연속이 인지되지 않거나 불연속이 소정 치 이하로 인지되는 부분을 세그먼트로 구분하고, 구분된 각 세그먼트에 대한 문맥 정보를 리스팅하는 단계; 사전에 음운 및 운율을 예측하여 저장한 세그먼트 관련 정보에서 상기 리스팅 정보를 토대로 각 세그먼트별 후보 세그먼트를 검색하는 단계; 검색된 후보세그먼트를 이용하여 텍스트 정보에 대한 합성음을 생성하는 단계를 포함하는 것이 바람직하다.
상기 방법은, 검색단계에서 검색된 후보 세그먼트가 복수개이면, 해당 세그먼트의 후보 세그먼트와 해당 세그먼트의 선행 세그먼트의 후보 세그먼트와 해당 세그먼트의 후행 세그먼트의 후보 세그먼트간의 문맥정보를 토대로 해당 세그먼트의 후보 세그먼트들에 대한 우선 순위를 결정하여 최적의 후보 세그먼트를 결정하는 단계를 더 포함하는 것이 바람직하다.
도 1은 본 발명의 바람직한 실시 예인 텍스트/음성 변환 장치의 블록도이다.
도 2는 본 발명에 따른 장치의 동작을 설명하기 위한 한글 텍스트 일 예이다.
도 3은 본 발명에 따른 장치의 동작을 설명하기 위한 영문 텍스트 일 예이다.
도 4는 본 발명의 바람직한 실시 예에 따른 텍스트/음성 변환 방법에 대한 동작 흐름 도이다.
이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시 예를 설명하기로 한다.
도 1은 본 발명의 바람직한 실시 예인 텍스트/음성 변환 장치의 블록도로서, 텍스트(101), 언어 처리부(Natural Language Processing, NLP라고 약하기도 함)(102), 후보 세그먼트 검출부(103), 후보 세그먼트 데이터 베이스(DataBase, DB라고 약하기도 함)(104), 최적 후보 세그먼트 결정부(105), 합성 처리부(106) 및 운율 처리부(107)로 구성된다.
텍스트(101)는 음성으로 변환이 요구되는 정보로서, 종이 형태의 문서에 기록되어 있는 정보이거나 컴퓨터에서 사용되는 다양한 형태의 정보일 수 있다. 또한, 텍스트(101)는 한국어나 그 이외의 불연속 구간이 존재하는 다양한 언어로 표현된 정보일 수 있다. 상기 불연속 구간은 상술한 바와 같이 쉼 구간이나 언어 해석적으로 분절되는 구간이며, 음절 유형과 음성학적 조합에 의해 결정되어지는 부분이다.
언어 처리부(102)는 텍스트(101)의 문맥 정보를 분석하여 세그먼트 단위로 구분한다. 문맥 정보 분석 방식은 기존에 알려진 방식을 사용한다. 세그먼트는 합성 단위간에 불연속이 인지되지 않거나 불연속이 소정 치 이하로 인지되는 부분이다. 상기 소정 치는 실험적으로 구해지는 값으로서, 합성 단위간의 차(합성 단위간에 존재하는 빈 구간)가 하나의 형태소를 형성하기 위해 연결된 것으로 인정될 수 있는 값이다.
예를 들어 도 2에 도시된 바와 같이 "정확한 번호를 입력하세요."라는 문장이 텍스트(101) 정보로서 입력되면, 언어 처리부(102)에서 문맥 정보를 분석한 결과, "정"자와 "확"자와 "한"자간은 불연속이 인지되지 않거나 불연속이 소정 치 이하인 형태소로 인식되게 된다. 따라서, "정확한"을 하나의 세그먼트로 구분하게 된다. 또한, "번호를"도 하나의 세그먼트로 구분하고, "입력하세요"로 하나의 세그먼트로 구분하게 된다. 상기 세그먼트는 어절로 표현할 수도 있다.
이와 같이 문맥 정보 분석에 따라 텍스트(101)에 대한 세그먼트가 구분되면, 언어 처리부(102)는 구분된 각 세그먼트에 대한 문맥 정보를 토대로 각 세그먼트에 대한 정보를 리스팅(listing)한다. 각 세그먼트에 대한 리스팅 정보는 도 2의 (a)에 표현된 바와 같이 표 1에 정의된 바와 같은 의미를 갖는 기호를 이용하여 정의될 수 있다.
기호 | 의 미 | 기호 | 의 미 | 기호 | 의 미 |
ef | 종결어미 | ii | 감탄사 | mm | 관형사 |
ep | 선어말 어미 | jc | 조사 | pp | 용언 |
es | 연결어미 | jp | 서술격조사 | ss | 기호 |
et | 전성어미 | nc | 체언 | xp | 접두사 |
ff | 외국어 | md | 부사 | xs | 접미사 |
또한, 각 세그먼트의 리스팅 정보는 도 2의 (a)를 통해 알 수 있는 바와 같이 해당되는 세그먼트의 형태소에 대한 정보와 선행 세그먼트와 후행 세그먼트의 형태소에 대한 정보를 포함한다. 그리고 선행 세그먼트와 후행 세그먼트가 존재하지 않으면, 그에 대한 정보도 리스팅 정보에 포함시킨다. 즉, 도 2의 (a)에서 $=$는 선행 세그먼트가 존재하지 않는다는 것을 의미하는 것이고, $:$는 후행 세그먼트가 존재하지 않는다는 것을 의미한다. 따라서 도 2의 (a)에 기재되어 있는 정보를 통해 "정확한 번호를 입력하세요"의 각 세그먼트간의 관계를 파악할 수 있다.
만약 입력되는 텍스트(101)가 도 3에 제시되어 있는 바와 같이 "There were fifteen people present."와 같이 영어로 표현된 정보인 경우에, 텍스트(101)에 대한 문맥 정보 분석은 상술한 한글일 때와 같이 불연속이 인지되지 않거나 불연속이 소정치 이하로 인지되는 부분을 세그먼트로 구분한다. 그리고, 분석된 문맥 정보를 토대로 구분된 세그먼트에 대한 정보를 리스팅한다. 정보를 리스팅할 때, 상기 표 1에 정의되어 있는 기호를 이용할 수 있다. 따라서 상술한 텍스트에 대한 리스팅 정보는 도 3의 (a)에 기재된 바와 같이 정의될 수 있다.
이와 같이 입력된 텍스트(101)에 대한 각 세그먼트의 리스팅 정보가 얻어지면, 얻어진 리스팅 정보를 후보 세그먼트 검출부(103)로 전송하면서 해당되는 세그먼트에 대한 정보는 운율 처리부(107)로 전송한다.
후보 세그먼트 검출부(103)는 입력된 리스팅 정보를 토대로 각 세그먼트에 대한 후보 세그먼트를 후보 세그먼트 데이터 베이스(104)로부터 검출한다. 후보 세그먼트 데이터 베이스(104)는 사전에 예측된 세그먼트단위로 해당되는 음운 및 운율 정보를 저장한다. 따라서, 상술한 리스팅 정보를 토대로 후보 세그먼트 데이터 베이스(104)로부터 각 세그먼트에 대한 후보 세그먼트를 검출할 때, 해당되는 후보 세그먼트의 음운 및 운율 정보가 후보 세그먼트 검출부(103)로 제공한다. 이 때, 후보 세그먼트 검출부(103)는 후보 세그먼트가 전혀 검출되지 않는 세그먼트에 대해서는 운율 처리부(107)로 이를 통보한다. 예를 들어 후보 세그먼트 검출부(103)는 해당 세그먼트는 "NULL"이라는 의미를 갖는 정보를 운율 처리부(107)로 전송한다.
그러나, 후보 세그먼트가 복수개 검출되면, 소정의 기준치를 이용하여 검출되는 후보 세그먼트의 개수를 제한할 수 있다. 그리고 복수개의 후보 세그먼트가 검출되면, 선행 세그먼트와 후행 세그먼트에 대한 후보 세그먼트들에 대한 음운 및 운율 정보와 해당되는 후보 세그먼트의 음운 및 운율 정보를 토대로 한 문맥정보를 이용하여 해당되는 후보 세그먼트의 값(cost)을 계산한다.
이 값은 해당되는 후보 세그먼트의 우선순위에 해당된다. 상기 후보 세그먼트의 값을 계산하기 위하여, 후보 세그먼트 검출부(103)는 예를 들어, 현 세그먼트의 어절 정보(어휘와 어절 태그(tag)와 같은 정보), 선행 세그먼트의 어절 정보(선행 세그먼트의 어휘 및 태그, 선행 세그먼트의 마지막 음소 정보), 후행 세그먼트의 어절 정보(후행 세그먼트의 어휘 및 태그, 후행 세그먼트의 시작 음소 정보)를 각각 고려한다. 상기 태그는 어절의 대표 품사와 같은 정보이다. 즉, 상기 태그는 어절의 내용 어품사와 기능 어품사를 모두 고려한 값이다.
후보 세그먼트 검출부(103)는 상술한 고려 항목들을 토대로 해당되는 세그먼트의 값을 계산하는데, 각 고려 항목 단위로 해당되는 세그먼트의 리스팅 정보와 비교하여 근접할수록 0에 근사한 값을 갖도록 설정하고, 각 고려 항목에 대해 설정된 값의 총계를 해당되는 세그먼트의 값으로 결정한다. 그리고 결정된 세그먼트의 값과 사전에 설정한 임계값을 비교하여, 임계치 이하인 값을 갖는 후보 세그먼트만을 선택한다.
이러한 각 세그먼트의 값 결정에 따른 후보 세그먼트의 선택으로 도 2의 (b) 또는 도 3의 (b)에 도시된 바와 같이 후보 세그먼트 데이터 베이스(104)로부터 검색된 후보 세그먼트들중에서 적절한 후보 세그먼트를 선택하게 된다. 즉, 도 2의 (b)에서 "번호들"은 제 1 내지 제 5 후보 어절이 후보 세그먼트로서 검색되었으나, 상술한 값 결정에 따른 후보 세그먼트의 선택으로 제 3 후보 어절과 제 5 후보 어절이 남게 된다. 또, 도 3의 (b)에서 "There"은 제 1 내지 제 3 후보 어절이 후보 세그먼트로서 검색되었으나 상술한 값 결정에 따른 후보 세그먼트의 선택으로 제 1 및 제 2 후보 어절이 후보 세그먼트로서 남게 된다. 이와 같이 남겨진 후보 세그먼트들은 최적의 후보 세그먼트 결정부(105)로 전송된다.
최적 후보 세그먼트 결정부(105)는 후보 세그먼트 검출부(103)에서 선택된 후보 세그먼트에서 최적의 후보 세그먼트를 결정한다. 만약 후보 세그먼트검출부(103)에서 하나의 후보 세그먼트가 선택된 경우에, 최적의 후보 세그먼트 결정부(105)는 선택된 후보 세그먼트를 해당되는 세그먼트의 최적의 후보 세그먼트로 결정한다. 그러나 후보 세그먼트 검출부(103)에서 선택된 후보 세그먼트가 복수개인 경우에, 최적의 후보 세그먼트 결정부(105)는 선행 세그먼트와 후행 세그먼트의 선택된 후보 세그먼트들과 해당되는 후보 세그먼트간의 음향 스펙트럼을 토대로 최적의 후보 세그먼트를 결정한다. 결정된 후보 세그먼트는 합성 처리부(106)로 전송된다.
한편, 후보 세그먼트가 검출되지 않았다는 정보(NULL)가 후보 세그먼트 검출부(103)로부터 전송되면, 운율 처리부(107)는 종래와 같은 방법으로 현재 입력되는 세그먼트(또는 해당되는 세그먼트)에 대해 정해진 합성 단위로 음운을 생성하고 운율을 예측하여 합성 처리부(106)로 전송한다.
합성 처리부(106)는 최적의 후보 세그먼트 결정부(105)에서 결정된 후보 세그먼트의 음운 및 운율 정보와 운율 처리부(107)로부터 전송되는 음운 및 운율 정보를 토대로 입력된 텍스트에 대한 합성음을 생성한다. 입력된 운율 정보를 토대로 합성음을 생성하는 방식은 종래의 방식과 동일하게 이루어진다.
도 4는 본 발명의 바람직한 실시 예에 따른 텍스트/음성 변환 방법에 대한 동작 흐름도이다.
먼저, 제 401 단계에서 입력된 텍스트의 문맥 및 형태소를 분석한다. 분석 방식은 종래와 동일하게 이루어진다. 그 다음, 제 402 단계에서 상술한 텍스트에 대한 문맥 및 형태소 분석 결과를 토대로 입력된 텍스트를 세그먼트로 구분하고,상술한 문맥 및 형태소 분석 결과를 토대로 각 세그먼트(또는 어절)에 대한 정보를 도 1에서 설명한 바와 같이 리스팅 한다.
제 403 단계에서 상술한 각 세그먼트의 리스팅 정보를 토대로 사전에 예측된 세그먼트에 해당되는 세그먼트가 존재하는 지를 검색한다. 제 404 단계에서 적어도 하나의 세그먼트가 검색되면, 제 405 단계에서 검색된 세그먼트를 해당되는 세그먼트의 후보 세그먼트로서 선택한다. 이 때, 선택된 후보 세그먼트는 복수 개일 수 있다. 제 406 단계에서 선택된 후보 세그먼트의 운율 및 음운 정보를 데이터 베이스(104)로부터 가져온다. 그리고 제 407 단계에서 가져온 운율 및 음운 정보를 이용하여 적절한 후보 세그먼트를 결정한다. 이 때, 후보 세그먼트 결정은 도 1의 후보 세그먼트 검출부(103)에서 문맥 정보를 토대로 각 후보 세그먼트에 대한 값(cost)을 계산하여 얻어진 우선순위 정보로 결정하는 방식을 이용할 수 있다.
제 407 단계에서 결정된 적절한 후보 세그먼트에 대해 제 408 단계에서 최적의 후보 세그먼트를 결정한다. 최적의 후보 세그먼트 결정 방식은 도 1의 최적 후보 세그먼트 결정부(105)에서와 같은 방식으로 이루어진다. 그리고 제 409 단계에서 결정된 최적의 후보 세그먼트를 이용하여 합성음을 생성한다. 합성음 생성방식은 종래와 같은 방식을 사용한다.
한편, 제 404 단계에서 적어도 하나의 세그먼트도 검색되지 않으면, 제 410 단계에서 종래와 같은 방식으로 구분된 세그먼트에 대해 정해진 합성단위로 음운(발음)을 발생하고, 제 411 단계에서 종래와 같은 방식으로 운율을 추정한다. 그리고 제 409 단계에서 추정된 내용을 토대로 합성음을 생성한다.
상술한 바와 같이 본 발명은 문맥 정보를 토대로 합성 단위간에 불연속이 인지되지 않거나 불연속이 작게 인지되는 부분을 세그먼트 단위로 분절하여 합성음을 연결함으로써, 생성되는 합성음에서의 불연속 구간을 최소화할 수 있다.
사전에 구비한 세그먼테이션(presegmantation) 정보를 이용하여 입력된 텍스트 정보의 세그먼트 단위의 운율 및 음운 정보를 얻어 합성음을 생성함으로써, 운율 생성 및 음운 선택이 용이할 뿐 아니라 발음의 명료성을 보장할 수 있다.
그리고, 현행 세그먼트와 선행 세그먼트간 및 현행 세그먼트와 후행 세그먼트간의 관계를 고려하여 현행 세그먼트에 대한 후보 세그먼트에서 결정된 최적의 세그먼트로 합성음을 생성함으로써, 세그먼트간의 운율의 자연성을 증가시킨 합성음을 제공할 수 있다.
Claims (8)
- 텍스트를 음성으로 변환하는 장치에 있어서,상기 텍스트에 대한 문맥 정보를 분석하여 합성 단위간에 불연속이 인지되지 않거나 불연속이 소정 치 이하로 인지되는 부분을 세그먼트로 구분하고, 구분된 각 세그먼트에 대한 문맥 정보를 리스팅하는 언어 처리부;사전에 예측된 세그먼트 단위의 운율 및 음운 정보를 저장하는 저장부;상기 언어 처리부로부터 전송되는 리스팅 정보를 토대로 상기 저장부에서 상기 각 세그먼트에 대한 후보 세그먼트를 검출하는 검출부;상기 검출부에서 검출된 후보 세그먼트를 이용하여 상기 텍스트에 대응되는 합성음을 생성하는 합성 처리부를 포함하는 텍스트/음성 변환 장치.
- 제 1 항에 있어서, 상기 텍스트/음성 변환장치는,상기 검출부에서 상기 후보 세그먼트가 검출되지 않은 세그먼트는 상기 합성음을 생성하기 위해 필요한 음운을 생성하고 운율을 예측하는 운율 처리부를 더 포함하는 텍스트/음성 변환 장치.
- 제 1 항 또는 제 2 항에 있어서, 상기 언어 처리부에서 리스팅되는 정보는 상기 해당 세그먼트의 선행 세그먼트와 후행 세그먼트의 형태소 정보를 포함하는 문맥 정보와 해당 세그먼트의 형태소 정보를 포함하는 것을 특징으로 텍스트/음성 변환 장치.
- 제 1 항 또는 제 2 항에 있어서, 상기 텍스트/음성 변환장치는,상기 검출부에서 검출된 후보 세그먼트가 복수개이면, 해당 세그먼트의 후보 세그먼트와 상기 해당 세그먼트의 선행 세그먼트의 후보 세그먼트와 상기 해당 세그먼트의 후행 세그먼트의 후보 세그먼트간의 문맥정보를 토대로 상기 해당 세그먼트의 후보 세그먼트들에 대한 우선 순위를 결정하여 최적의 후보 세그먼트를 결정하는 결정부를 더 포함하는 텍스트/음성 변환 장치.
- 제 4 항에 있어서, 상기 결정부는 상기 우선 순위를 토대로 결정된 상기 최적의 후보 세그먼트가 복수개이면, 상기 선행 세그먼트와 후행 세그먼트의 최적의 후보 세그먼트와 상기 결정된 최적의 후보 세그먼트간의 음향 스펙트럼을 토대로 하나의 최적의 후보 세그먼트를 결정하는 것을 특징으로 하는 텍스트/음성 변환장치.
- 텍스트를 음성으로 변환하는 방법에 있어서,상기 텍스트 정보가 입력되면 문맥 정보를 분석하여 합성 단위간에 불연속이 인지되지 않거나 불연속이 소정 치 이하로 인지되는 부분을 세그먼트로 구분하고, 구분된 각 세그먼트에 대한 구문 분석정보를 리스팅하는 단계;사전에 음운 및 운율을 예측하여 저장한 세그먼트 관련 정보에서 상기 리스팅 정보를 토대로 각 세그먼트별 후보 세그먼트를 검색하는 단계;상기 검색된 후보 세그먼트를 이용하여 상기 텍스트 정보에 대한 합성음을 생성하는 단계를 포함하는 텍스트/음성 변환 방법.
- 제 6 항에 있어서, 상기 방법은 상기 검색단계에서 후보 세그먼트가 검색되지 않은 세그먼트는 합성음을 생성하기 위하여 필요한 음운을 발생하고 운율을 예측하는 단계를 더 포함하는 텍스트/음성 변환 방법.
- 제 6 항 또는 제 7 항에 있어서, 상기 방법은, 상기 검색단계에서 검색된 후보 세그먼트가 복수개이면, 해당 세그먼트의 후보 세그먼트와 상기 해당 세그먼트의 선행 세그먼트의 후보 세그먼트와 상기 해당 세그먼트의 후행 세그먼트의 후보 세그먼트간의 문맥정보를 토대로 상기 해당 세그먼트의 후보 세그먼트들에 대한 우선 순위를 결정하여 최적의 후보 세그먼트를 결정하는 단계를 더 포함하는 텍스트/음성 변환 방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020020018503A KR100883649B1 (ko) | 2002-04-04 | 2002-04-04 | 텍스트/음성 변환 장치 및 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020020018503A KR100883649B1 (ko) | 2002-04-04 | 2002-04-04 | 텍스트/음성 변환 장치 및 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20030079460A true KR20030079460A (ko) | 2003-10-10 |
KR100883649B1 KR100883649B1 (ko) | 2009-02-18 |
Family
ID=32377828
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020020018503A KR100883649B1 (ko) | 2002-04-04 | 2002-04-04 | 텍스트/음성 변환 장치 및 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR100883649B1 (ko) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100769033B1 (ko) * | 2003-09-29 | 2007-10-22 | 모토로라 인코포레이티드 | 스피치 합성 방법 |
WO2020235712A1 (ko) * | 2019-05-21 | 2020-11-26 | 엘지전자 주식회사 | 콘텐츠 기반의 스타일을 갖는 텍스트 또는 음성을 생성하는 인공 지능 장치 및 그 방법 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020101263A1 (en) | 2018-11-14 | 2020-05-22 | Samsung Electronics Co., Ltd. | Electronic apparatus and method for controlling thereof |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100259777B1 (ko) * | 1997-10-24 | 2000-06-15 | 정선종 | 텍스트/음성변환기에서의최적합성단위열선정방법 |
KR100292352B1 (ko) * | 1998-02-11 | 2001-07-12 | 윤종용 | 형태소 분석을 이용한 인식기의 편집방법 |
US6173263B1 (en) * | 1998-08-31 | 2001-01-09 | At&T Corp. | Method and system for performing concatenative speech synthesis using half-phonemes |
KR100373329B1 (ko) * | 1999-08-17 | 2003-02-25 | 한국전자통신연구원 | 음운환경과 묵음구간 길이를 이용한 텍스트/음성변환 장치 및그 방법 |
-
2002
- 2002-04-04 KR KR1020020018503A patent/KR100883649B1/ko not_active IP Right Cessation
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100769033B1 (ko) * | 2003-09-29 | 2007-10-22 | 모토로라 인코포레이티드 | 스피치 합성 방법 |
WO2020235712A1 (ko) * | 2019-05-21 | 2020-11-26 | 엘지전자 주식회사 | 콘텐츠 기반의 스타일을 갖는 텍스트 또는 음성을 생성하는 인공 지능 장치 및 그 방법 |
US11488576B2 (en) | 2019-05-21 | 2022-11-01 | Lg Electronics Inc. | Artificial intelligence apparatus for generating text or speech having content-based style and method for the same |
Also Published As
Publication number | Publication date |
---|---|
KR100883649B1 (ko) | 2009-02-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CA2614840C (en) | System, program, and control method for speech synthesis | |
Ananthakrishnan et al. | Automatic prosodic event detection using acoustic, lexical, and syntactic evidence | |
US8234118B2 (en) | Method and apparatus for generating dialog prosody structure, and speech synthesis method and system employing the same | |
US6490563B2 (en) | Proofreading with text to speech feedback | |
US7962341B2 (en) | Method and apparatus for labelling speech | |
Qian et al. | Automatic prosody prediction and detection with conditional random field (crf) models | |
US20080177543A1 (en) | Stochastic Syllable Accent Recognition | |
US20020120451A1 (en) | Apparatus and method for providing information by speech | |
US20090138266A1 (en) | Apparatus, method, and computer program product for recognizing speech | |
Lu et al. | Disfluency detection for spoken learner english | |
JP2002149643A (ja) | 日本語の表意文字の読み方を予測する方法 | |
JP2007018098A (ja) | テキスト分割処理装置及びコンピュータプログラム | |
Stöber et al. | Speech synthesis using multilevel selection and concatenation of units from large speech corpora | |
JP5343293B2 (ja) | 音声編集合成装置及び音声編集合成方法 | |
JP2002149180A (ja) | 音声合成装置および音声合成方法 | |
JP2010117528A (ja) | 声質変化判定装置、声質変化判定方法、声質変化判定プログラム | |
KR100883649B1 (ko) | 텍스트/음성 변환 장치 및 방법 | |
Sazhok et al. | Punctuation Restoration for Ukrainian Broadcast Speech Recognition System based on Bidirectional Recurrent Neural Network and Word Embeddings. | |
JP3706758B2 (ja) | 自然言語処理方法,自然言語処理用記録媒体および音声合成装置 | |
Tjalve et al. | Pronunciation variation modelling using accent features | |
JPH0693221B2 (ja) | 音声入力装置 | |
Harper et al. | Spoken language characterization | |
Ni et al. | From English pitch accent detection to Mandarin stress detection, where is the difference? | |
Lyes et al. | Building a pronunciation dictionary for the Kabyle language | |
JP2001343987A (ja) | 音声合成方法、および音声合成装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20130115 Year of fee payment: 5 |
|
FPAY | Annual fee payment |
Payment date: 20140124 Year of fee payment: 6 |
|
FPAY | Annual fee payment |
Payment date: 20150116 Year of fee payment: 7 |
|
LAPS | Lapse due to unpaid annual fee |