KR101201913B1 - 사용자의 후보 합성단위 선택에 의한 음성 합성 방법 및 시스템 - Google Patents

사용자의 후보 합성단위 선택에 의한 음성 합성 방법 및 시스템 Download PDF

Info

Publication number
KR101201913B1
KR101201913B1 KR1020100110205A KR20100110205A KR101201913B1 KR 101201913 B1 KR101201913 B1 KR 101201913B1 KR 1020100110205 A KR1020100110205 A KR 1020100110205A KR 20100110205 A KR20100110205 A KR 20100110205A KR 101201913 B1 KR101201913 B1 KR 101201913B1
Authority
KR
South Korea
Prior art keywords
synthesis
candidate
user
speech
synthesis unit
Prior art date
Application number
KR1020100110205A
Other languages
English (en)
Other versions
KR20120048823A (ko
Inventor
이종석
박기태
이준우
전원석
나덕수
김명
Original Assignee
주식회사 보이스웨어
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 보이스웨어 filed Critical 주식회사 보이스웨어
Priority to KR1020100110205A priority Critical patent/KR101201913B1/ko
Priority to JP2011068093A priority patent/JP5480188B2/ja
Publication of KR20120048823A publication Critical patent/KR20120048823A/ko
Application granted granted Critical
Publication of KR101201913B1 publication Critical patent/KR101201913B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules

Abstract

본 발명에 따른 사용자의 후보 합성단위 선택에 의한 음성 합성 방법은 입력문장을 발음표기로 변환하는 단계, 상기 변환된 발음표기를 이용하여 억양 및 지속시간의 운율 정보를 생성하는 단계 및 음성 데이터베이스로부터 최적의 합성단위를 선택하고, 상기 합성단위들을 연결하여 합성음을 생성하는 단계를 포함하여 구성되며, 상기 합성음을 생성하는 단계는 상기 발음표기 및 상기 운율 정보를 이용하여 음성 데이터베이스로부터 최적의 후보 합성단위들을 선택하고 상기 각 후보들에 대한 목표비용을 계산하는 단계, 각 합성단위의 경계지점에서 연결비용을 계산하는 단계, 상기 목표비용과 상기 연결비용을 합하여 전체 비용을 계산하고 누적된 전체 비용이 최소가 되는 경로를 검색하는 비터비 검색과정을 수행하는 단계, 음성파형을 생성하는 단계 및 사용자가 합성후보를 선택하는 단계에 의하여 합성음을 생성하는 것을 특징으로 한다.

Description

사용자의 후보 합성단위 선택에 의한 음성 합성 방법 및 시스템{Voice Synthesizing Method and System Based on User Directed Candidate-Unit Selection}
본 발명은 음성 합성 방법 및 시스템에 관한 것이고, 보다 구체적으로 본 발명은 음성합성기의 합성음 생성과정에 포함되었던 후보 합성단위들을 사용자가 직접 선택하여 합성음을 튜닝할 수 있도록 하고, 사용자의 합성단위 선택이 이루어질 때마다 합성기에서 사용자가 선택한 합성단위를 포함시켜 최적의 합성음을 생성하는 방법 및 시스템에 관한 것이다.
기술이 고도로 발달함에 따라 다양한 방법의 음성 합성 방법에 관한 기술들이 개발되어 왔다. 현재까지 제안된 가장 고음질의 합성음을 생성할 수 있는 방법은 코퍼스 기반 음성 합성 방법으로, 코퍼스 기반 음성 합성 방법은 음성을 합성단위(unit) 형태로 구성한 데이터베이스(DB)에서 합성에 필요한 단위를 선택하고 이것들을 적절히 연결하여 합성음을 생성함으로써 고음질의 합성음을 생성하는 방법이다. 하지만, 이러한 방법은 종종 임의의 텍스트 또는 새로이 출현되는 단어들에 대해서는 만족스러운 음질을 합성하지 못해 데이터베이스 추가나 합성음 튜닝 등에 대한 요구가 증가하고 있다.
이러한 코퍼스 기반 음성 합성 시스템에 대한 기본 시스템 구성도가 도1에 도시되어 있다. 도1을 참고로 살펴보면 코퍼스 기반 음성 합성 시스템은 크게 언어학적 처리부(120), 운율처리부(130) 및 음성신호처리부(140)로 구성된다. 문장이 입력되면 언어학적 처리부(120)의 텍스트 전처리모듈(121)이 숫자/약어/기호사전(161)을 사용하여 문장에 포함된 숫자, 기호 등을 텍스트(Text)로 전환하고, 문장분석모듈(122)이 품사사전(162)을 사용하여 문장을 분석하고, 발음표기변환모듈(123)이 발음사전(163)을 사용하여 발음표기로 변환한다. 상기 언어학적 처리부에서 입력문장의 전처리가 이루어지면, 운율처리부(130)는 언어학적 처리부에서 추출된 정보들을 이용하여 억양, 지속시간 등의 운율 정보를 생성한다. 또한 음성신호처리부(140)의 합성단위 선택모듈(141)은 언어학적 처리부에서 생성된 정보들을 이용하여 음성 DB(164)로부터 최적의 합성단위를 선택하고, 음성파형생성모듈(142)에서 합성단위들을 연결하여 합성음을 만들어 음성출력부(150)를 통해 합성음을 출력한다.
상기 음성합성 시스템과 같은 대용량 코퍼스를 기반으로 하는 연결합성 시스템에서는 하나의 합성단위에 대하여 다수개의 후보로부터 최적의 합성단위를 선택하는 '합성단위 선택 과정'이 합성음의 음질에 가장 큰 영향을 준다. 모든 합성 단위 후보에 대한 목표비용(target cost)과 각 후보 간의 연결비용(concatenation cost, join cost)을 구하여, 이 두 가지 값을 적절히 가중한(weighted) 전체 비용이 최소가 되도록 최적의 합성단위를 선택한다.
목표 비용은 각 합성 단위 후보가 실제 합성하고자하는 음소 종류 및 운율과 얼마나 유사한가를 나타내는 값으로, 입력 텍스트로부터 언어 처리부와 운율 생성부 등에서 구한 각 특징 별 목표치와 합성 단위 후보로부터 구한 특징과의 거리 값들에 대해 각 요소 별 가중치의 합으로 계산되고, 여기에 사용되는 특징으로는 일반적으로 발음(음소열), 음소 지속시간, 피치 값, 에너지 등이 사용된다. 연결비용은 연결되는 두 후보 합성단위 간의 경계지점에서의 특징별 거리 값들의 가중치의 합으로 계산되며, 특징으로는 스펙트럼, 피치, 에너지 등이 사용된다. 목표비용과 연결비용을 계산할 때, 최종 합성음질에 중요한 영향을 미치는, 특징 요소별 거리들의 가중치는 각 특징이 합성음질에 미치는 중요도에 따라 결정되어야 하는데 일반적으로 실험적인 방법이나 훈련에 의해 구해진다.
합성단위 선택 시에는 각 후보 합성단위들 간의 모든 가능한 연결 경로들에 대하여, 목표비용과 연결비용의 합을 적절히 가중하여 전체 비용을 계산하고, 비터비(Viterbi) 검색과 같은 동적 프로그래밍에 의해 이 비용이 최소화되는 경로를 찾도록 하여 최종 합성단위를 선택하게 된다.
이러한 과정을 통해 최종적으로 사용자에게 제공되는 합성음은 평균적으로 우수한 음질을 유지하지만 특정 문장이나 특수한 텍스트인 경우 만족스럽지 못한 경우가 있다. 그것은 목표비용이나 연결비용에 사용되는 특징들을 추출하는 과정에서 발생하는 오류나, 계산 속도를 빠르게 하기 위해 추출된 특징들을 양자화(Quantization)하여 사용함으로써 양자화 과정에서 발생하는 오차 때문이고, 또 중요한 요인은 특징들에 대한 가중치가 실험적인 방법 또는 훈련에 의해 결정되고, 합성기에서 텍스트를 분석한 후 생성하는 운율 정보도 훈련이나 규칙에 의해 결정됨으로써 (평균적으로는 적합하지만) 임의의 텍스트에서는 맞지 않는 경우가 발생하는 것이다.
코퍼스 기반 음성합성 방법에서 합성음의 음질을 향상시키기 위해서는 음성코퍼스를 보다 풍부하게 구성하여 합성단위 선택과정에서 사용되는 후보의 수를 크게 늘이는 방법과 합성단위 선택 알고리즘, 즉 가중치 결정과 비용계산에 사용되는 특징을 추가하는 방법이 있다. 하지만 상기 두 가지 방법 모두 비용과 시간이 많이 소요될 뿐만 아니라 만족스러운 결과를 보장할 수 없다. 그리고 일반적으로 수십 시간(10~40 시간)을 녹음하여 구성한 음성 코퍼스를 사용하는 합성기에서 임의의 텍스트를 합성하는 경우, 합성단위 선택과정의 후보 합성단위들을 분석해 보면 최종 합성음 생성에 사용된 합성단위보다 적합한 후보 합성단위가 존재하는 경우가 있어, 임의의 텍스트에서는 합성단위 선택 알고리즘을 통해서 자동으로 결정하는 것보다 직접적으로 특정 합성단위를 수동으로 고정선택하게 하는 방법이 우수한 합성음을 제공할 수 있다.
따라서 본 발명자는 사용자가 합성음을 청취하면서 만족스럽지 못한 합성음 부분의 합성단위를 원하는 합성단위로 교체 선택하여 이것을 포함한 합성음을 청취할 수 있도록 시스템을 구성한다면 제공된 제한적인 음성 코퍼스를 이용하여 만들 수 있는 최적의 합성음을 얻을 수 있을 것이라는 점에 착안하여 본 발명을 개발하기에 이르렀다.
본 발명의 목적은 사용자에게 우선적으로 합성기에서 합성음 생성에 사용된 후보 합성단위들을 제시하고, 그 것들 중 사용자가 임의의 합성단위를 선택하고 그 합성단위가 사용되었을 때의 합성음을 청취하면서 최종으로 원하는 합성단위를 선택하게 한 후, 합성기에서 사용자에 의해 선택된 합성단위 정보를 재입력 받아 합성단위 선택과정에서 그 합성단위를 고정하여 합성음을 생성하는 음성 합성 방법 및 장치를 제공하기 위한 것이다.
본 발명의 다른 목적은 사용자가 제시된 후보 합성단위들 중 원하는 합성단위를 선택할 때, 이를 용이하게 할 수 있도록 후보 합성단위들을 아이콘 형태의 GUI를 구성하여 선택된 합성단위가 사용되었을 경우의 합성음을 미리 청취하도록 하여 합성결과를 알 수 있는 음성 합성 방법 및 장치를 제공하기 위한 것이다.
본 발명의 또 다른 목적은 합성기의 합성단위 선택과정에서 사용하는 운율 특징 중 후보 합성단위가 가지는 음의 높낮이를 나타내는 피치와 발성 속도를 결정하는 음소 지속시간 정보를 이미지 형태로 제시하여 사용자가 변경하고자 하는 합성단위에 대한 정보를 쉽게 취득할 수 있는 음성 합성 방법 및 장치를 제공하기 위한 것이다.
본 발명의 또 다른 목적은 합성가능한 모든 합성단위를 사용자가 직접 선택할 수 있게 하는 방법과 일부 또는 단일 합성단위만 선택하고 나머지 합성단위는 합성기에서 합성단위 선택 알고리즘을 통해 자동으로 선택되도록 하는 방법을 동시에 제공함으로써 다양한 합성음을 얻고자하는 사용자의 요구를 충족시킬 수 있는 음성 합성 방법 및 장치를 제공하기 위한 것이다.
본 발명의 또 다른 목적은 합성기의 합성단위 선택 알고리즘으로 음질을 개선할 수 없는 경우, 일부 합성단위들이 필수적으로 합성음 생성에 사용될 수 있도록 하고 이들과 가장 자연스럽게 연결될 수 있는 나머지 합성단위들을 다시 자동으로 선택하여 보다 개선된 합성음을 생성할 수 있는 음성 합성 방법 및 장치를 제공하는 것이다.
본 발명의 상기 및 기타의 목적들은 하기 설명되는 본 발명에 의하여 모두 달성될 수 있다.
본 발명에 따른 사용자의 후보 합성단위 선택에 의한 음성 합성 방법은 입력문장을 발음표기로 변환하는 단계, 상기 변환된 발음표기를 이용하여 억양 및 지속시간의 운율 정보를 생성하는 단계 및 음성 데이터베이스로부터 최적의 합성단위를 선택하고, 상기 합성단위들을 연결하여 합성음을 생성하는 단계를 포함하여 구성되며, 상기 합성음을 생성하는 단계는 상기 발음표기 및 상기 운율 정보를 이용하여 음성 데이터베이스로부터 최적의 후보 합성단위들을 선택하고 상기 각 후보들에 대한 목표비용을 계산하는 단계, 각 합성단위의 경계지점에서 연결비용을 계산하는 단계, 상기 목표비용과 상기 연결비용을 합하여 전체 비용을 계산하고 누적된 전체 비용이 최소가 되는 경로를 검색하는 비터비 검색과정을 수행하는 단계, 음성파형을 생성하는 단계 및 합성기의 후보 합성단위들의 정보를 사용자에게 제시하는 인터페이스와 그것을 통해 사용자가 원하는 합성후보로 교체하거나 수정할 수 있도록 사용자에 의해 선택된 합성후보 정보를 입력 받아 비터비 검색을 재수행하고 음성파형 생성을 재수행하는 단계에 의하여 합성음을 생성하는 것을 특징으로 한다.
또한, 본 발명에 따른 사용자의 후보 합성단위 선택에 의한 음성 합성 시스템은 입력문장을 발음표기로 변환하는 언어학적 처리부, 상기 언어학적 처리부에서 변환된 정보를 이용하여 억양 및 지속시간의 운율 정보를 생성하는 운율 처리부, 및 상기 언어학적 처리부 및 운율 처리부로부터 생성된 정보를 토대로 음성 데이터베이스로부터 최적의 합성단위를 선택하고, 상기 합성단위들을 연결하여 합성음을 생성하는 음성신호 처리부를 포함하며, 상기 음성신호 처리부는 사용자 후보 합성단위 선택 인터페이스를 포함하여 사용자에 의하여 후보 합성단위에 대한 음소 지속시간 및 피치 데이터를 선택하도록 하는 것을 특징으로 한다.
본 발명은 사용자가 합성음에서 이상하거나 잘못되었다고 판단되는 부분이 존재하는 경우, 그 부분을 구성하는 합성단위들 중 이상하거나 잘못된 부분을 수정할 수 있는 합성단위를 직접 선택하는데, 선택된 합성단위가 사용되었을 때의 합성음을 미리 청취하면서 선택할 수 있게 하여 최종 합성음의 음질을 향상시키고 사용자의 취향에 맞는 합성음을 얻을 수 있는 음성합성 방법 및 장치를 제공한다.
본 발명은 음질열하를 발생시키는 합성음의 일부 합성단위를 사용자가 직접 교체 할 수 있게 하여 향상된 음질의 합성음 바로 얻을 수 있게 함으로써 합성기 제공자에게 튜닝을 요청하고 그 결과를 기다리는 불편함을 해소할 수 있다.
본 발명은 합성단위 선택과정의 사전선택과정에서 채택된 후보 합성단위들과 그것들의 피치와 지속시간 정보를 제공하여 사용자가 이러한 정보를 통해 보다 빠르고 정확한 합성단위 선택을 할 수 있게 한다.
본 발명은 사용자가 합성음의 일부 합성단위만을 교체하기를 원하는 경우 사용자가 선택한 합성단위를 고정하여 비터비 검색을 재실행하여 사용자가 선택한 합성단위와 최적으로 연결될 수 있는 합성단위들을 자동으로 재구성함으로써 보다 쉽게 최적의 합성음을 생성할 수 있다.
본 발명은 임의의 텍스트에 대해 하나의 합성음만을 제공하는 기존의 음성합성기와 달리 사용자가 직접 합성단위를 교체하면서 원하는 음의 높이와 지속시간을 갖는 여러 가지의 합성음을 얻을 수 있게 한다.
본 발명은 사용자가 합성단위 선택과정의 후보 합성단위를 쉽게 선택할 수 있게 아이콘 형태의 GUI를 구성함으로써 빠르고 쉽게 합성과정을 이해할 수 있게 하여 다양한 합성음을 생성할 수 있도록 한다.
제1도는 종래 기술에 따른 코퍼스 기반 음성 합성 시스템의 구성을 도식적으로 표현한 블록 다이어그램이다.
제2도는 본 발명에 따른 사용자의 후보 합성단위 선택에 의한 음성 합성 시스템에 대한 블록 다이어그램이다.
제3도는 본 발명에 따른 사용자의 후보 합성단위 선택에 의한 음성 합성 시스템에서 사용자의 후보 합성단위 선택 인터페이스와 합성기의 음성신호 처리부의 실행과정을 도시한 순서도이다.
제4도는 본 발명에 따른 사용자의 후보 합성단위 선택에 의한 음성 합성 방법에서 비터비(Viterbi) 검색과정의 일례를 도시한다.
제5a도는 본 발명에 따른 사용자의 후보 합성단위 선택 인터페이스에서 후보합성단위를 음소 지속시간으로 정렬한 경우를 도시한다.
제5b도는 본 발명에 따른 사용자의 후보 합성단위 선택 인터페이스에서 후보합성단위를 피치 데이터로 정렬한 경우를 도시한다.
제5c도는 본 발명에 따른 사용자의 후보 합성단위 선택 인터페스에서 후보 합성단위와 피치 윤곽선의 관계를 설명하는 설명도이다.
제6도는 본 발명에 따른 사용자의 후보 합성단위 선택 인터페이스에서 사용자의 후보합성단위 선택결과를 설명하는 설명도이다.
제7a도는 사용자가 1개의 합성후보만 선택한 경우의 사용자의 후보 합성단위 선택을 이용한 비터비 검색 과정을 설명하는 설명도이다.
제7b도는 사용자가 2개의 합성후보를 선택한 경우의 사용자의 후보 합성단위 선택을 이용한 비터비 검색 과정을 설명하는 설명도이다.
이하 첨부된 도면을 참조하여 본 발명의 바람직한 구체예를 상세히 설명한다.
이하 본 발명에서 사용되는 용어를 정의한다. 일반적으로 합성기에서 사용하는 '합성 단위'는 합성음을 생성할 때 음성파형들을 연결시키는 단위로 음운 환경의 변화를 고려하여 결정되고 반음소, 음소, 반음절, 음절, 단어 등이 될 수 있다.
도2는 본 발명에 따른 사용자의 후보 합성단위 선택에 의한 음성 합성 시스템에 대한 블록 다이어그램이다.
도2를 도1에 도시된 종래 기술에 따른 코퍼스 기반 음성 합성 시스템과 비교하면 본 발명에 따른 사용자의 후보 합성단위 선택에 의한 음성 합성 시스템은 기존의 언어학적 처리부와 운율 처리부를 그대로 사용하고 사용자가 선택한 후보 합성단위를 이용할 수 있도록 음성신호 처리부를 변경한다.
도3은 본 발명에 따른 사용자의 후보 합성단위 선택에 의한 음성 합성 시스템에서 사용자의 후보 합성단위 선택 인터페이스와 합성기의 음성신호 처리부의 실행과정을 도시한 순서도이다.
음성신호 처리부는 우선 언어학적 처리부와 운율 처리부에서 생성된 정보들을 이용하여 음성 DB에서 합성단위를 후보들을 검색하고 후보들에 대한 목표비용을 계산한다(S1).
목표 비용은 하기와 같은 식을 사용하여 계산한다:
Figure 112010072585079-pat00001
(식 1)
상기 식에서 Ct는 목표 비용, ti는 목표, ui는 DB의 합성 단위, p는 특징의 갯수, wt j는 각 특징별 가중치를 의미한다.
상기 식을 이용하여 목표비용을 계산하고 나면 상기 목표비용을 이용하여 합성단위 사전선택(Pre-Selection)을 수행한다(S2). 합성단위 사전선택은 후보의 수가 많을 경우 미리 정한 임의의 수로 후보를 제한하는 과정이다. 예를 들어, 합성 단위 최대 개수로 30을 사전 선택하면 합성 단위의 수는 30개로 제한된다.
합성 단위 사전선택을 수행하고 나면 각 합성단위 경계지점에서 선택된 후보 합성단위들 간의 연결비용을 계산한다(S3).
연결 비용은 하기와 같은 식을 사용하여 계산한다:
Figure 112010072585079-pat00002
(식2)
상기 식에서 cc(ui -1, ui)는 합성 단위 ui - 1와 합성 단위 ui를 연결하는 데에 필요한 연결 비용을, q는 특징의 갯수, wc j는 연결 비용에 대한 특징 별 가중치를 의미한다.
상기 식에 의하여 선택된 후보 합성단위들 간의 연결비용을 계산하고 나면 상기 계산한 값을 이용하여 비터비 검색과정을 수행한다(S4).
도4는 본 발명에 따른 사용자의 후보 합성단위 선택에 의한 음성 합성 방법에서 비터비 검색과정의 일례를 도시한다.
합성음을 구성할 최적의 합성단위 선택은 비터비 검색으로 결정되는데, 각 후보 합성단위들 간의 모든 가능한 연결 경로들에 대하여, 미리 계산된 목표비용과 연결비용의 합을 적절히 가중하여 전체 비용을 계산하고 마지막 단계에서 누적된 값이 최소가 되는 경로를 역으로 검색하여 이루어진다. 제4도에서 실선은 최종으로 선택된 합성단위의 경로이고, 점선은 연결 가능한 모든 경로를 나타낸다.
도3에서 사용자 후보 합성단위 선택 인터페이스에 전달할 '후보 합성단위 데이터'는 후보 합성단위 데이터의 DB에서의 ID(식별숫자)와 피치 및 음소 지속시간이고, '비터비 검색 결과'는 합성기의 비터비 검색과정을 통해 최적으로 선택된 후보 합성단위의 연결 경로이고, '합성음'은 상기의 후보 합성단위를 연결(S5)하여 만든 음성파형이다. 사용자의 후보 합성단위 선택이 이루어지기 위해서는 상기 합성기의 음성신호 처리부를 통과한 데이터를 인터페이스를 통해 도식화하여 정보를 전달(S6)한다. 상기 도식화의 과정에서는 후보 합성단위들에 대해서 사용자가 후보 합성단위에 대한 선택을 용이하게 할 수 있도록 후보 합성단위가 가지는 음의 높낮이를 나타내는 피치와 발성 속도를 결정하는 음소 지속시간 정보가 이미지 형태로 표시되는데, 피치는 그래프 이미지로 표시되고 지속시간은 서로 길이가 다른 이미지를 사용한다.
사용자는 전달된 정보를 통해 후보 합성단위들 중 하나를 선택할 수 있고(S7) 사용자가 선택한 후보 합성단위에 대한 연결비용을 다시 계산하고, 비터비 검색을 다시 수행하여(7a도와 7b도 참고) 그 결과를 인터렉티브하게 사용자 인터페이스에 전달하게 된다.
도5a 내지 5c는 본 발명에 따른 사용자의 후보 합성단위 선택 인터페이스를 설명한 설명도이다. 도5a와 도5b는 각각 동일한 후보 합성단위들을 음소 지속시간과 피치 데이터를 기준으로 정렬한 것이다. 합성기에서 사용하는 합성단위는 자음과 모음이 구분되는 음소이지만 사용자의 후보 합성단위 선택을 위한 인터페이스의 합성단위는 사용자의 이해를 돕고 선택의 편의를 위해 음절을 사용하였고, 피치와 음소 지속시간 데이터는 자음과 모음이 결합된 음절에서 추출하여 도식화하였다.
도5a 상단의 사각형은 피치데이터를 이용한 피치 윤곽선이고, ○는 각 음절에 해당하는 사용자가 선택할 수 있는 후보 합성단위이고, ●는 선택된 후보 합성단위이고, 실선은 선택된 후보 합성단위들의 연결 경로이고,
Figure 112010072585079-pat00003
는 합성단위의 음소 지속시간의 상대적 길이로 마우스를 합성단위(○) 위에 가져가면 나타나는데, 입력문장 '안녕하세요'의 '하'에 대한 음소 지속시간을 보면 위 합성단위의 것이 보다 짧고 아래의 합성단위들이 길어지도록 정렬된 것을 알 수 있다. 도5b는 피치로 정렬된 모양인데, 위의 합성단위 일수록 고음(높은 Hz)의 피치이고 아래의 합성단위는 보다 저음의 피치를 가진 합성단위이다. 도5c는 인터페이스 상단에 표시되는 각 합성 음절에 대한 피치 윤곽선으로 합성기의 비터비 검색과정에서 선택된 합성단위의 피치, 사용자가 선택한 합성단위의 피치와 마우스가 위치한 합성단위의 피치가 그려진다.
도6은 사용자의 후보 합성단위 선택 인터페이스에서 합성기의 비터비 검색 결과로 선택된 합성단위와 사용자가 선택한 합성단위가 서로 다른 경우를 나타낸 것으로, 실선이 사용자가 선택한 경로이고, 점선이 합성기의 비터비 검색 결과를 나타낸 경로이다. 사용자가 선택한 경로의 합성단위에는 사용자가 합성음에 반드시 포함되기를 원하는 고정 합성단위와 그것을 이용하여 합성기에서 재검색한 합성단위가 있다. 사용자가 합성기에서 선택된 합성단위 중 바꾸고 싶은 합성단위를 고정 선택하면 그 외의 합성단위들은 합성기에서 재검색하게 된다. 고정 합성단위를 선택하기 위해서는 마우스 오른쪽 버튼을 클릭하고 단순 선택하기 위해서는 왼쪽 버튼을 클릭한다.
도7a와 도7b는 사용자가 1개의 합성단위를 선택한 경우와 2개의 합성단위를 고정 선택하였을 경우, 합성기에서 이루어지는 비터비 검색 과정을 나타낸 것이다. 사용자가 임의의 음절에 해당하는 합성단위를 선택하였을 경우 선택된 합성단위만 비터비 검색에 사용되고 그 음절의 다른 합성단위는 비터비 검색에서 제외되므로, 사용자가 선택하는 합성단위의 수는 모든 음절의 수로 확장될 수 있다.
상기와 같이 본 발명에 따른 사용자의 후보 합성단위 선택에 의한 음성합성 방법은 사용자가 합성기에서 출력되는 합성음을 사용자의 기호에 맞게 재구성하거나, 음질 열화가 발생하는 부분을 직접 수정할 수 있게 함으로써 기존의 사용자와 개발자간의 튜닝과정에서 발생하는 불필요한 시간과 비용을 획기적으로 개선할 수 있다.
또한 사용자에게 합성기에 존재하는 다양한 운율을 가지는 후보 합성단위를 제시하여 사용하게 함으로써, 단일 합성음만을 생성하는 합성방법에 비해 음성 DB를 효율적으로 사용할 수 있고, 합성기에서 제공하는 운율정보를 통해 사용자의 목적에 따라 적절한 합성단위를 선택하게 할 수 있다.
또한 고정 합성단위를 이용한 비터비 검색 방법은 사용자의 합성단위 선택과 동시에 합성음을 청취할 수 있게 하여 사용자의 다양한 합성단위 변경을 자유롭게 하여 보다 원활한 합성음 튜닝을 수행할 수 있게 한다.
상기 본 발명의 바람직한 구체예를 설명되었으나, 본 발명의 단순한 변형 내지 변경은 이 분야의 통상의 지식을 가진 자에 의하여 용이하게 이용될 수 있으며, 이러한 변형이나 변경은 모두 본 발명의 영역에 포함되는 것으로 볼 수 있다.
110, 210 : 문장입력부 120, 220 : 언어학적 처리부
121, 221 : 텍스트 전처리 모듈 122, 222 : 문장분석 모듈
123, 223 : 발음표기변환모듈 130, 230 : 운율처리부
140, 240, 320 : 음성신호처리부 141, 241 : 합성단위선택 모듈
142, 242 : 음성파형생성 모듈 150, 250, 330 : 음성출력부
161, 261 : 숫자/약어/기호사전 162, 262 : 품사사전
163, 263 : 발음사전 164, 264 : 음성 데이터베이스
243 : 합성단위 사전선택 모듈 244 : 비터비 검색
270 : 사용자의 후보합성단위 선택 인터페이스

Claims (9)

  1. 입력문장을 발음표기로 변환하는 단계;
    상기 변환된 발음표기를 이용하여 억양 및 지속시간의 운율 정보를 생성하는 단계; 및
    음성 데이터베이스로부터 최적의 합성단위를 선택하고, 상기 합성단위들을 연결하여 합성음을 생성하는 단계;
    를 포함하여 구성되는 음성 합성 방법에 있어서 상기 합성음을 생성하는 단계는
    상기 발음표기 및 상기 운율 정보를 이용하여 음성 데이터베이스로부터 후보 합성단위들을 검색하고 상기 각 후보들에 대한 목표비용을 계산하는 단계(S1);
    상기 후보 합성단위들의 수가 미리 정한 임의의 수보다 많은 경우 상기 후보 합성단위들의 수를 상기 미리 정한 임의의 수로 제한하는 합성단위 사전 선택 단계(S2);
    각 합성단위의 경계지점에서 연결비용을 계산하는 단계(S3);
    상기 목표비용과 상기 연결비용을 합하여 전체 비용을 계산하고 누적된 전체 비용이 최소가 되는 경로를 검색하는 비터비 검색과정을 수행하는 단계(S4);
    음성파형을 생성하는 단계(S5);
    합성기에서 제공된 상기 각 후보 합성단위들을 아이콘 형태로 표시하고 합성기의 합성음을 구성하는 합성 후보의 정보를 도식화하여 표시하는 사용자의 후보 합성단위 선택 인터페이스(S6) 단계; 및
    사용자가 원하는 합성후보로 교체하거나 수정할 수 있도록 사용자에 의해 선택된 합성후보 정보를 입력 받아 비터비 검색을 재수행하고 음성파형 생성을 재수행하는 사용자의 합성후보 선택 단계(S7);
    를 포함하여 구성되는 사용자의 후보 합성단위 선택에 의한 음성 합성 방법.
  2. 제1항에 있어서, 합성단위 사전 선택 단계(S2)의 결과인 후보 합성단위들의 ID와 피치 및 지속시간 정보, 비터비 검색(S4) 결과인 합성단위들의 연결 정보와 음성파형 생성(S5) 결과인 합성음을 사용자 후보 합성단위 인터페이스(S6)에 전달하는 단계를 더 포함하는 것을 특징으로 하는 사용자의 후보 합성단위 선택에 의한 음성 합성 방법.
  3. 제2항에 있어서, 상기 사용자의 후보 합성단위 선택 인터페이스 단계(S6)는 상기 각 후보 합성단위들의 발음 정보를 음절단위의 텍스트로 표시하고, 피치 정보는 그래프 형태의 이미지로 표시하고, 지속시간 정보는 마우스를 상기 각 후보 합성단위들을 표시한 아이콘에 가져가면 각 후보 합성단위들의 상대적 지속시간의 길이에 해당하는 서로 다른 모양의 이미지로 표시하는 것을 특징으로 하는 사용자의 후보 합성단위 선택에 의한 음성 합성 방법.
  4. 제3항에 있어서, 상기 사용자의 후보 합성단위 선택 인터페이스 단계(S6)는 후보 합성단위가 가지는 음의 높낮이를 나타내는 피치와 발성 속도를 결정하는 음소 지속시간 정보로 후보 합성단위들을 정렬할 수 있게 하는 것을 특징으로 하는 사용자의 후보 합성단위 선택에 의한 음성 합성 방법.
  5. 제1항에 있어서, 상기 사용자의 합성후보 선택 단계(S7)는 사용자가 상기 각 후보 합성단위들을 임의로 선택하였을 때 선택된 후보 합성단위들을 포함하는 합성음을 미리 청취할 수 있게 제공하고 이것을 구현하기 위해 합성기의 비터비 검색(S5)에서 단일 합성단위 및 복수의 합성단위를 고정시켜 비터비 검색을 재수행하는 것을 특징으로 하는 사용자의 후보 합성단위 선택에 의한 음성 합성 방법.
  6. 입력문장을 발음표기로 변환하는 언어학적 처리부;
    상기 언어학적 처리부에서 변환된 정보를 이용하여 억양 및 지속시간의 운율 정보를 생성하는 운율 처리부; 및
    상기 언어학적 처리부 및 운율 처리부로부터 생성된 정보를 토대로 음성 데이터베이스로부터 최적의 합성단위를 선택하고, 상기 합성단위들을 연결하여 합성음을 생성하는 음성신호 처리부;
    를 포함하는 음성 합성 시스템에 있어서, 상기 음성신호 처리부는 합성기에서 제공되는 각 후보 합성단위들을 아이콘 형태로 표시하고 합성기의 합성음을 구성하는 합성 후보의 정보를 도식화하여 표시하고 사용자가 원하는 합성후보로 교체하거나 수정할 수 있도록 사용자에 의해 선택된 합성후보 정보를 입력 받아 비터비 검색을 재수행하고 음성파형 생성을 재수행하는 것을 특징으로 하는 사용자의 후보 합성단위 선택에 의한 음성 합성 시스템.
  7. 제6항에 있어서, 상기 음성 합성 시스템은 상기 각 후보 합성단위들의 발음 정보를 음절단위의 텍스트로 표시하고, 피치 정보는 그래프 형태의 이미지로 표시하고, 지속시간 정보는 마우스를 상기 각 후보 합성단위들을 표시한 아이콘에 가져가면 각 후보 합성단위들의 상대적 지속시간의 길이에 해당하는 서로 다른 모양의 이미지로 표시하는 것을 특징으로 하는 사용자의 후보 합성단위 선택에 의한 음성 합성 시스템.
  8. 제7항에 있어서, 상기 음성 합성 시스템은 후보 합성단위가 가지는 음의 높낮이를 나타내는 피치와 발성 속도를 결정하는 음소 지속시간 정보로 후보 합성단위들을 정렬할 수 있게 하는 것을 특징으로 하는 사용자의 후보 합성단위 선택에 의한 음성 합성 시스템.
  9. 제6항에 있어서, 상기 음성 합성 시스템은 사용자가 상기 각 후보 합성단위들을 임의로 선택하였을 때 선택된 후보 합성단위들을 포함하는 합성음을 미리 청취할 수 있게 제공하고 이것을 구현하기 위해 합성기의 비터비 검색에서 단일 합성단위 및 복수의 합성단위를 고정시켜 비터비 검색을 재수행하는 것을 특징으로 하는 사용자의 후보 합성단위 선택에 의한 음성 합성 시스템.
KR1020100110205A 2010-11-08 2010-11-08 사용자의 후보 합성단위 선택에 의한 음성 합성 방법 및 시스템 KR101201913B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020100110205A KR101201913B1 (ko) 2010-11-08 2010-11-08 사용자의 후보 합성단위 선택에 의한 음성 합성 방법 및 시스템
JP2011068093A JP5480188B2 (ja) 2010-11-08 2011-03-25 使用者の候補合成単位選択による音声合成方法およびシステム(VoiceSynthesizingMethodandSystemBasedonUserDirectedCandidate−UnitSelection)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020100110205A KR101201913B1 (ko) 2010-11-08 2010-11-08 사용자의 후보 합성단위 선택에 의한 음성 합성 방법 및 시스템

Publications (2)

Publication Number Publication Date
KR20120048823A KR20120048823A (ko) 2012-05-16
KR101201913B1 true KR101201913B1 (ko) 2012-11-15

Family

ID=46266922

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020100110205A KR101201913B1 (ko) 2010-11-08 2010-11-08 사용자의 후보 합성단위 선택에 의한 음성 합성 방법 및 시스템

Country Status (2)

Country Link
JP (1) JP5480188B2 (ko)
KR (1) KR101201913B1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6336749B2 (ja) * 2013-12-18 2018-06-06 株式会社日立超エル・エス・アイ・システムズ 音声合成システム及び音声合成方法
WO2017168544A1 (ja) * 2016-03-29 2017-10-05 三菱電機株式会社 韻律候補提示装置
KR102637341B1 (ko) * 2019-10-15 2024-02-16 삼성전자주식회사 음성 생성 방법 및 장치

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7912719B2 (en) * 2004-05-11 2011-03-22 Panasonic Corporation Speech synthesis device and speech synthesis method for changing a voice characteristic
JP4664194B2 (ja) * 2005-11-29 2011-04-06 パナソニック株式会社 声質制御装置および方法およびプログラム記憶媒体
ATE414975T1 (de) * 2006-03-17 2008-12-15 Svox Ag Text-zu-sprache-synthese
CN101490740B (zh) * 2006-06-05 2012-02-22 松下电器产业株式会社 声音合成装置

Also Published As

Publication number Publication date
JP2012103668A (ja) 2012-05-31
KR20120048823A (ko) 2012-05-16
JP5480188B2 (ja) 2014-04-23

Similar Documents

Publication Publication Date Title
JP4130190B2 (ja) 音声合成システム
EP2958105B1 (en) Method and apparatus for speech synthesis based on large corpus
US6684187B1 (en) Method and system for preselection of suitable units for concatenative speech
US7454343B2 (en) Speech synthesizer, speech synthesizing method, and program
US6505158B1 (en) Synthesis-based pre-selection of suitable units for concatenative speech
Chu et al. Selecting non-uniform units from a very large corpus for concatenative speech synthesizer
CN1841497B (zh) 语音合成系统和方法
JP5610197B2 (ja) 検索装置、検索方法、及び、プログラム
US20080027727A1 (en) Speech synthesis apparatus and method
JP2007249212A (ja) テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ
KR20120113717A (ko) 검색 장치, 검색 방법, 및 프로그램
CN105609097A (zh) 语音合成装置及其控制方法
CN104835493A (zh) 语音合成字典生成装置和语音合成字典生成方法
KR101201913B1 (ko) 사용자의 후보 합성단위 선택에 의한 음성 합성 방법 및 시스템
CN1787072B (zh) 基于韵律模型和参数选音的语音合成方法
Lee et al. A text-to-speech platform for variable length optimal unit searching using perception based cost functions
JP4533255B2 (ja) 音声合成装置、音声合成方法、音声合成プログラムおよびその記録媒体
JP2006313176A (ja) 音声合成装置
KR100259777B1 (ko) 텍스트/음성변환기에서의최적합성단위열선정방법
KR20100085433A (ko) 다중 목표운율 이용한 고음질 음성합성 방법
KR100811226B1 (ko) 악센트구 매칭 사전선택을 이용한 일본어음성합성방법 및시스템
JP4170819B2 (ja) 音声合成方法及びその装置並びにそのコンピュータプログラム及びそれを記憶した情報記憶媒体
JP5177135B2 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
JP4640063B2 (ja) 音声合成方法,音声合成装置,およびコンピュータプログラム
KR101227716B1 (ko) 음성 합성 장치, 음성 합성 방법 및 음성 합성 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20161019

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20171023

Year of fee payment: 6