KR100352748B1

KR100352748B1 - 온라인 학습형 음성합성 장치 및 그 방법

Info

Publication number: KR100352748B1
Application number: KR1020010000700A
Authority: KR
Inventors: 한민희
Original assignee: (주) 코아보이스
Priority date: 2001-01-05
Filing date: 2001-01-05
Publication date: 2002-09-16
Anticipated expiration: 2021-01-05
Also published as: KR20010044202A

Abstract

본 발명은 전자공학의 음성 합성 분야에서 씨에스에스(CSS: Corpus based Speech Synthesis, 다른 표현으로는 학습형 합성(Trainable Text-to-Speech), 히든마코프 모델 기반 합성(HMM(Hidden Markov Model)-based Synthesis)이라고도 함.) 방식의 단점인 합성 데이터베이스(database)의 크기에 대한 제약을 최소화하여 확장성을 용이하게 하고, 합성장치에 입력되는 문장을 온라인으로 학습하여 적용분야에 따른 사용어휘영역의 변화에 의한 합성음질 저하를 줄이기 위한 방법이다.

본 발명에서는 합성장치에 필요한 합성 데이터베이스를 합성단위 후보의 적합성과 사용빈도수 및 사용날짜에 의한 우선순위에 따라 메인(main) 및 보조 데이터베이스로 구분하고, 실제 합성 시에는 우선순위가 높으면서도 소용량인 메인 데이터베이스를 사용하도록 한다. 또한, 온라인으로 입력문장을 학습하여 보조 데이터베이스로부터 사용 어휘영역에 항상 최적화된 메인 데이터베이스를 유지할 수 있도록 함으로써 보다 자연스런 합성음을 생성할 수 있다.

본 발명은 차량 항법장치, 콜센터(Call center), 유엠에스(UMS: Unified Messaging System) 등에 사용되는 음성합성장치에 적용하여 고품질의 합성음을 생성할 수 있는 방법이다.

Description

온라인 학습형 음성합성 장치 및 그 방법{Online trainable speech synthesizer and its method }

본 발명은 음성합성에 관한 기술로서, 특히 씨에스에스 방식의 합성방법에서 합성 데이터베이스를 합성단위 후보의 적합성과 사용빈도수 및 사용날짜에 의한 우선순위에 따라 메인 및 보조 데이터베이스로 구분하고 실제 합성 시에는 메인 데이터베이스를 사용하며, 온라인으로 입력문장을 학습하여 보조 데이터베이스로부터 사용 어휘영역에 항상 최적화된 메인 데이터베이스를 유지시킴으로써 적은 양의 데이터베이스를 사용하면서도 양질의 합성음을 얻을 수 있는 음성합성 장치 및 그 방법에 관한 것이다.

[종래 기술]

음성합성 방법에는 합성 가능한 어휘의 범위에 따라 제한 어휘 합성과 무제한 어휘 합성 방식으로 분류된다.

무제한 어휘 합성 방식 중에는 파라미터(parameter) 방식인 포먼트(Formant), 선형예측계수(LPC: Linear Prediction Coefficient), 엘에스피(LSP: Line Spectrum Pair) 합성 방법 등이 연구되어 왔으며, 이 방법들에 의해 생성된 합성음질은 다소 열악하지만 음원과 성도 파라미터 등을 조절함으로써 다양한 합성음을 만들 수 있으며, 합성 장치의 크기가 매우 작기 때문에 최근에는 휴대용 단말기에 많이 이용되고 있다.

또한 고품질의 무제한 합성음을 생성하기 위해 음성인식장치에 기반한 학습기를 이용하여 대용량의 음성 데이터베이스로부터 자동으로 합성단위를 생성하여 합성 데이터베이스를 구축하고, 구축된 합성 데이터베이스로부터 음향특성의 연속성이 양호한 합성단위를 선택하여 연결하는 씨에스에스 방법이 연구되어 왔다. 도면 제 1, 2 도를 참조하여 종래 기술을 설명하면 입력된 문장에 대하여 구문 분석(100)을 수행하고 발음변환(101)을 수행하여 합성단위 열(200)을 생성한다. 생성된 합성단위 열(200)에 있어서 각각의 합성단위에 해당하는 합성단위 후보들(201)을 합성 데이터베이스(103)에서 가져와서 모두 나열한 다음, 순차적으로 연결 가능한 모든 경로에 대하여 각 합성단위 후보간 접합점에서의 음향특성에 대한 연속성을 측정한다. 연속성 측정을 완료한 후 이어서 접합점에서 연속성이 가장 양호한 경로를 순차적으로 역 추적하면 전체 경로상에서 누적된 연속성이 가장 양호한 하나의 경로(예를 들면, 도 2 에서 굵은 실선)를 선택할 수 있다. 이는 흔히 비터비 탐색(Viterbi search) 방법으로 알려져 있다. 선택된 합성단위 후보 열(202)을 차례대로 연결하면(105) 입력문장에 해당되는 합성음이 생성된다.

씨에스에스 방법은 "Donovan et al., Improvements in an HMM-Based Synthesizer, ESCA Eurospeech '95.4th European Conference on Speech Communication and Technology, Madrid, Sep. 1995, pp. 573-576." 의 논문에서 최초 공개되었고, "Xuedong Huang, A. Acero, J. Adcock, Hsiao-Wuen Hon, J. Goldsmith, Jingsong Liu, and M. Plumpe, "Whistler: A Trainable Text-to-Speech System, Proc. Fourth Int. Conf. Spoken Language, 1996. ICSLP 96, vol. 4, pp. 2387-23 90, Oct.3-6, 1996." , "Huang et al. Recent Improvements on Microsoft's Trainable Text-to-Speech System-Whistler, 1997 IEEE, pp. 959-962; ICASSP-97, Apr. 21-24." , "Campbell et al., Stress, Prominence, and Spectral Tilt, ESCA Workshop on Intonation: Theory, Models and Applications, AthensGreece, Sep. 18-20, 1997, pp. 67-70." 에 공개되어 있다. 종래 기술에서 "학습형(Trainable)" 이란 합성 데이터베이스를 자동으로 제작하는 단계에서 음성인식기에 기반한 학습기를 적용한 것에서 도입된 용어이다.

일반적으로 씨에스에스 방법에 의한 합성음은 입력문장을 합성하기 위해 선택된 합성단위 후보간 접합점에서 음향특성(스펙트럼, 운율특성 등)의 연속성이 양호할수록 자연스러우나, 연속성이 유지되지 않아서 불연속이 커지는 경우에는 합성음질이 저하된다. 따라서 합성 데이터베이스를 구축할 때 포함된 어휘를 합성할 경우에는 접합점에서의 연속성이 양호하여 매우 자연스런 합성음을 얻을 수 있으나, 합성 데이터베이스 구축시 포함되지 않은 어휘를 합성할 경우 합성음질이 크게 저하되는 단점이 있다. 이와 같은 단점을 해결하기 위해서는 다양한 어휘가 포함되도록 합성 데이터베이스를 확장하여 구축해야 하지만, 이러한 경우 합성 데이터베이스의 용량이 너무 커져서 합성장치를 운용하기 위한 하드웨어를 제작하기 어렵거나 많은 비용이 소요되고 처리속도가 크게 저하되는 단점이 있다.

또한 종래기술에 의한 음성합성장치의 경우, 합성장치 제작업체 만이 합성 데이터베이스를 재구성할 수 있으므로, 합성음질을 개선하기 위해서 사용자가 합성 데이터베이스를 변경하는 것은 매우 어렵다는 문제가 있었다.

본 발명은 상기 종래기술의 문제점을 해결하기 위한 것으로서, 종래 방법 보다 수십∼수백배 이상 큰 용량의 데이터베이스를 사용하는 효과를 내면서도 실제 합성장치가 사용하는 메모리는 종래 기술의 용량 보다 작거나 비슷하게 하기 위한것이다. 즉, 입력문장을 합성할 때 자주 사용되는 합성단위 후보인 경우에는 확장이 어렵지만 속도가 빠른 메모리(예를 들면, 반도체 메모리)에 위치 시키고, 현재는 사용되지 않지만 사용될 가능성이 있는 합성단위 후보인 경우에는 확장성이 용이하지만 속도가 느린 메모리(예를 들면, 하드디스크)에 위치시킴으로써 합성 데이터베이스의 확장성을 용이하게 하기 위한 것이다. 또한, 음성합성을 수행하면서 선택된 합성단위 후보의 적합성을 온라인으로 판정하여 보조 데이터베이스로부터 보다 적합한 합성단위 후보를 검색하여 메인 데이터베이스를 갱신하는 학습을 수행함으로써 입력문장의 사용 어휘영역 변화에 의한 합성음질의 저하를 최소화하여 고품질의 합성음을 생성할 수 있도록 하는 것이다.

도 1 은 종래의 씨에스에스 방법에 의한 음성합성장치의 구성도

도 2 는 종래의 씨에스에스 방법에서 최적 합성단위 후보 열 선택 방법에 대한 개념도

도 3 은 본 발명이 적용될 하드웨어 구성도

도 4 는 본 발명에서 초기 우선순위 사전 및 메인 데이터베이스 구축을 위한 구성도

도 5 는 본 발명에서 초기 우선순위 사전 및 메인 데이터베이스 구축을 위한 처리 흐름도

도 6 은 본 발명의 제 1 실시 예의 구성도

도 7 은 본 발명의 제 1 실시 예에 대한 처리의 흐름도

도 8 은 본 발명의 제 2 실시 예에 대한 구성도

도 9 는 본 발명의 제 2 실시 예에 대한 처리의 흐름도

본원에서 사용하고 있는 "온라인"이란 합성장치가 동작되는 도중에 합성단위의 적합성을 판정하여 보조 데이터베이스를 이용하여 메인 데이터베이스를 재구성할 수 있다는 의미에서 도입하였다. 그리고 "학습형"이란 합성장치가 생성한 합성음의 품질이 낮을 경우에 입력문장의 사용어휘에 보다 적합한 합성단위 후보를 보조 데이터베이스로부터 검색하여 메인 데이터베이스를 갱신하는 과정을 여러 차례 반복함으로써 점진적으로 합성음의 품질을 스스로 개선할 수 있다는 의미에서 도입한 용어이다.

본 발명은 종래의 씨에스에스 합성장치에서 고정된 하나의 합성 데이터베이스를 사용하던 것을 확장성이 용이하도록 메인 및 보조 데이터베이스로 분리하여 사용하도록 하기 위한 우선순위 사전 및 메인 데이터베이스 구축단계; 음성합성과동시에 입력문장의 사용어휘에 보다 적합한 합성단위 후보를 보조 데이터베이스로부터 검색하여 메인 데이터베이스를 점진적으로 갱신하는 온라인 학습 단계를 포함하는 것을 특징으로 한다.

본 발명에서 우선순위 사전 및 메인 데이터베이스를 구축단계는, 먼저 모든 어휘영역, 즉 정치, 경제, 사회, 문화, 과학, 스포츠, 일기예보, 증권정보(이하 "다양한 영역"이라 함) 등에서 사용되는 합성단위를 포함할 수 있을 정도의 충분한 크기로 보조 데이터베이스를 구축하는 단계; 이 보조 데이터베이스를 이용하여 일반적으로 사용되는 문장을 입력하여 음성합성을 수행하면서 선택된 합성단위 후보를 우선순위 사전에 등록하고 사용 빈도수를 기록하는 단계; 상기 과정을 여러 차례(예를 들면, 수만 문장 이상) 반복하여 공통으로 사용될 수 있는 일반적인 합성단위 후보를 우선순위 사전에 등록하는 단계; 하드웨어 환경에 의해 정해진 메인 데이터베이스의 용량에 따라 우선순위 사전에 등록된 후보 수를 사용빈도수가 높은 후보를 우선적으로 선택하여 후보수를 조절하는 단계; 후보 수를 조절한 다음 우선순위 사전에 등록된 후보 목록에 해당되는 합성단위 후보를 보조 데이터베이스로부터 취합하여 적정 용량의 메인 데이터베이스를 구축하는 단계를 포함한다.

본 발명에서 온라인 학습단계는, 입력문장을 합성하기 위해 선택된 합성단위 후보의 적합성을 판정하는 단계; 부적합한 경우 보다 적합한 합성단위 후보를 보조 데이터베이스에서 검색하여 우선순위 사전과 메인 데이터베이스의 동일 합성단위 내에서 최하위 우선순위를 갖는 후보와 교체하는 단계를 포함한다. 합성단위 후보의 적합성은 선택된 합성단위 후보간 접합점에서 음향특성의 연속성을 측정하여 판정한다. 이러한 구성에 의해, 메인 데이터베이스는 항상 입력 문장의 어휘영역에 최적화되어 보다 자연스런 합성음을 생성할 수 있다. 또한 종래 기술에 나타난 메인 데이터베이스 보다 적은 용량으로도 양질의 합성음을 얻을 수 있는 장점이 있다.

이하 첨부된 도면을 참조하여 본 발명을 상세히 설명하고자 한다.

도 3 은 본 발명이 적용될 수 있는 하드웨어 환경을 나타낸다. 본 발명은 공학에 관련된 연산이 가능한 운영체제와 하드웨어를 구비한 범용 컴퓨터나 이와 대등한 기능을 갖춘 장치(300)에 적용하여 디지털 음성신호를 생성한다. 디지털 음성신호는 디지털/아날로그 변환기(301)에 의해 아날로그 음성신호로 변환되어 스피커(302)를 통과하여 소리로 변환된다.

도 4 는 본 발명에 의한 합성장치를 최초로 구동하기 전에 보조 데이터베이스(402)로부터 우선순위 사전(405)과 메인 데이터베이스(403)를 구축하는 구성도이다. 우선순위 사전(405)은 메인 데이터베이스(403)에 포함된 합성단위 후보들의 목록과 후보들의 고유번호, 사용빈도수, 최근 사용날짜를 포함하고 있으며, 후보들의 우선순위는 최근에 많이 사용된 것이 높은 우선순위를 갖는다.

우선순위 사전(405)과 메인 데이터베이스(403)를 구축하기 위해서는 종래의 씨에스에스 합성 방법을 이용하여 음성합성을 수행하면서(400, 401, 407) 선택된 합성단위 후보를 우선순위 사전(405)에 등록하는 합성단위 후보 등록 수단(406), 선택된 합성단위 후보의 고유번호와 사용빈도수, 사용 날짜가 기록된 우선순위 사전(405), 우선순위 사전(405)에 등록된 최적 합성단위 후보를 보조데이터베이스(402)로부터 취합하여 메인 데이터베이스(403)를 구축하는 최적합성단위 후보 추출 수단(404)을 구비한 것을 특징으로 한다.

도 5 는 본 발명에 의한 합성장치를 최초로 구동하기 전에 보조 데이터베이스(507)로부터 우선순위 사전(508)과 메인 데이터베이스(509)를 구축하는 단계에 대한 처리의 흐름도이다. 다양한 영역의 문장을 입력하여 구문 분석 및 발음변환(500)을 수행하여 합성단위 열을 생성한다. 생성된 합성단위 열의 각 합성단위에 해당하는 후보들을 보조 데이터베이스(507)로부터 가져와서 나열하고, 가능한 모든 경로를 연결하여 합성단위 후보들 간의 접합점에서 음향특성의 연속성을 측정하고, 이와는 역 방향으로 누적 연속성이 가장 양호한 최적 경로를 선택한다(501). 이때 선택된 후보가 우선 순위사전(508)에 존재하면 사용빈도수를 증가시키고, 존재하지 않으면 고유번호와 사용날짜를 등록하고 빈도수는 1 이 된다(502). 이상의 과정을 충분히 반복(예를 들면, 수만 문장)하면 공통적으로 합성에 필요한 합성단위 후보들이 우선순위 사전(508)에 등록된다. 만일 합성에 필요하지만 우선 순위 사전(508)에 등록되지 않은 경우에는 보조 데이터베이스(507)에 있는 해당 합성단위에서 임의의 후보를 필요한 개수(예를 들면, 수십개) 만큼 등록한다.

상기과정에 의해 구축된 우선순위 사전(508)에는 각 합성단위 별로 후보들의 고유번호와 사용빈도수, 사용 날짜가 기록되어 있다. 메인 데이터베이스(509)는 우선순위 사전(508)의 목록에 해당하는 합성단위 후보들을 보조 데이터베이스(507)로부터 취합하여 구축되므로, 요구된 크기로 메인 데이터베이스(509)를 구축하기 위해서는 먼저 우선순위 사전(508)의 각 합성단위에서 최대 후보 수를 제한해야 한다.

우선순위 사전(508)의 합성단위 후보 수를 줄일 경우에는 메인 데이터베이스(509)의 용량과 후보수의 분포를 참조하여 합성단위 별로 최대 후보 수를 설정(504)하고, 우선순위가 높은 후보부터 선택한다. 메인 데이터베이스(509)의 용량에 따른 적정한 크기의 우선순위 사전(508)을 구축한 다음, 우선순위 사전(508)에 등록된 합성단위 후보의 고유번호에 해당되는 합성단위를 보조 데이터베이스(507)로부터 추출하여 모으면 최적 합성단위 후보들로 구성된 메인 데이터베이스(509)를 구축할 수 있다. 우선순위 사전(508)에서 특정한 합성단위 내에서 후보들에 대한 우선순위는 최근에 많이 사용된 것이 높다.

도 6 은 본 발명에 의한 음성합성 장치의 실시 예 1 이다. 본 발명에서 합성 방법은 종래 방법과 유사하지만 합성 데이터베이스를 메인 데이터베이스(602) 및 보조 데이터베이스(600)로 구분하고 메인 데이터베이스(602)에 대한 우선순위 사전(601)을 구비한 것을 특징으로 한다. 또한 온라인 학습을 위해, 음성합성 시에 선택된 합성단위 후보간 음향특성의 연결 적합성을 판정하는 연결 적합성 판정 수단(606); 연결이 부적합한 경우, 보다 적합한 합성단위 후보를 보조 데이터베이스로(600)부터 검색하여 우선순위 사전(601) 및 메인 데이터베이스(602)의 동일 합성단위 후보 중에서 최하위 우선순위의 후보와 교체하는 최적 후보 검색 수단(605)을 더 구비한 것을 특징으로 한다.

도 7은 본 발명에 의한 음성합성 장치의 제 1 실시 예에 대한 처리의 흐름도이다. 입력문장에 대하여 구문 분석 및 발음변환(700)을 수행하여 합성단위 열을 생성한다. 생성된 합성단위 열의 각 합성단위에 해당하는 후보들을 메인 데이터베이스(706)로부터 가져와서 나열하고, 연결 가능한 모든 경로 중에서 합성단위 후보간 접합점에서 음향특성의 누적 연속성이 가장 양호한 경로를 선택한다(701). 선택된 최적경로에 나열된 합성단위 후보들의 적합성을 판정하여 양질의 합성음을 생성할 수 있는지를 판정한다(703). 합성방법에 따라 합성단위 후보의 적합성 판정 방법이 각기 다를 수 있으나 일반적으로 합성단위를 연결할 때 후보간 접합점에서 음향특성의 연속성으로 판단할 수 있다. 음향특성으로는 음성신호의 스펙트럼, 운율 등이 사용된다. 적합성 판정에 사용되는 음향특성의 연속성 임계치는 합성방법에 따라서 자연스런 합성음을 생성한 문장의 경우들에 대한 연속성의 평균치를 참조하여 실험적으로 구할 수 있다. 합성단위 후보의 연결이 적절한 경우에는 우선순위 사전(707)에서 해당 합성단위 후보의 사용 빈도수 증가(708) 및 사용날짜 갱신을 하고, 부적합한 경우에는 보조 데이터베이스(709)에서 보다 적합한 후보를 재 검색한다(704). 검색된 후보가 앞서 선택된 합성단위 후보 보다 적합할 경우에는 우선순위 사전(707)과 메인 데이터베이스(706)의 동일 합성단위 후보들 중에서 우선순위가 가장 낮은 후보와 교체한다(705). 이상의 과정으로 재구성된 메인 데이터베이스(702)는 유사한 문장이 다시 입력될 경우 이전 보다 자연스런 합성음을 생성할 수 있다.

도 8 은 필요한 경우에만 학습을 수행할 수 있도록 한 본 발명의 제 2 실시 예이다. 제 1 실시 예와 다른 점은 학습을 수행하면 음성합성에 방해가 되거나 항상 학습할 필요가 없는 경우, 학습을 수행하기 적절한 시간(예를 들면, 야간)이나 합성음질이 저하되었다고 판단될 경우에 학습을 수행하기 위하여 입력문장을 임시로 저장하는 문장저장 수단(800); 예약된 시간이나 학습 지시에 의해 임시 저장된 문장을 이용하여 학습을 수행하도록 하는 학습예약 수단(801)을 더 구비한 것을 특징으로 한다.

도 9 는 본 발명의 제 2 실시 예에 대한 처리의 흐름도로서, 제 1 실시 예의 흐름도와 다른 점은 학습을 수행하면 음성합성에 방해가 되거나 항상 학습할 필요가 없는 경우, 학습을 수행하기 적절한 시간(예를 들면, 야간)이나 합성음질이 저하되어 학습이 필요한 경우에 학습을 수행하기 위하여 임시로 입력문장을 저장하는 문장저장 단계(900); 예약된 시간이나 학습지시에 의해 임시 저장된 문장을 이용하여 학습을 수행하는 학습예약 단계(901)를 더 구비한 것을 특징으로 한다.

상기와 같은 과정으로 이루어진 본 발명은 다음과 같은 효과를 가지고 있다.

첫째, 본 발명은 씨에스에스 방식의 음성 합성장치에서 합성 데이터베이스를 적합성과 사용빈도수 및 사용날짜에 의한 우선순위에 따라 최적화된 소용량의 메인 데이터베이스와 대용량의 보조 데이터베이스로 구분하여 사용하도록 함으로써, 합성장치는 항상 적은 용량의 메인 데이터베이스를 사용하면서 보조 데이터베이스를 손쉽게 확장하여 합성음질을 개선할 수 있는 장점이 있다.

둘째, 본 발명은 입력문장을 온라인으로 학습하여 보조 데이터베이스로부터 메인 데이터베이스를 입력문장의 사용 어휘영역에 최적화시킬 수 있으므로, 사용어휘영역 변화에 따른 합성음질의 저하를 최소화할 수 있는 장점이 있다.

Claims

다수의 합성단위 후보들을 이용하는 씨에스에스 방식의 음성합성 장치에 있어서,

보조 데이터베이스(600)로부터 구축되는 우선순위 사전(601)과 메인 데이터베이스(602);

메인 데이터베이스(602)를 이용하여 입력문장을 합성할 때 선택된 최적경로 상의 합성단위 후보가 자연스런 합성음을 생성하는데 적합한지를 음향특성의 연속성을 이용하여 판정하는(606) 수단;

상기 수단에 의해 판정된 결과에 의해 부적합한 경우 대용량의 보조 데이터베이스(600)로부터 보다 적합한 합성단위 후보를 검색하여 우선순위 사전(601) 및 메인 데이터베이스(602)의 해당 동일 합성단위 후보들 중에서 최하위 우선순위를 갖는 후보와 교체하는 수단(605)을 구비한 것이 특징인 온라인 학습형 음성합성 장치;
제 1 항에 의해 구성된 온라인 학습형 음성 합성 장치에서,

학습을 수행하면 음성합성에 방해가 되거나 항상 학습할 필요가 없는 경우에 있어서, 필요한 시기에 학습을 수행하기 위하여 임시로 입력문장을 저장하는 문장저장 수단(800);

예약된 시간이나 학습지시에 의해 임시 저장된 문장을 이용하여 학습을 수행하는 학습예약 수단(801)을 더 구비한 것이 특징인 온라인 학습형 음성합성 장치;
최초 합성장치를 구동하기 전에 보조 데이터베이스(507)로부터 우선순위 사전(508)과 메인 데이터베이스(509)를 구축하는 단계는,

다양한 분야의 어휘가 포함된 문장을 합성하면서 선택된 합성단위 후보의 고유번호, 사용빈도수, 사용날짜 등을 우선순위 사전(508)에 등록하는(502) 과정을 반복하여 우선순위 사전(508)을 구축하는 단계;

적정 용량의 메인 데이터베이스(509)를 구성할 수 있도록 우선순위 사전(508)의 합성단위 후보 수를 후보의 분포도에 비례하도록 제한하고 사용빈도수가 많은 것을 우선적으로 선택하여 조절하는 단계(504);

상기단계에 의해 구축된 우선순위 사전(508)의 합성단위 목록에 해당되는 합성단위 후보들을 취합하여 메인 데이터베이스(509)를 구축하는 단계(505)를 구비한 것이 특징인 온라인 학습형 음성합성 방법;
다수의 합성단위 후보들을 이용하는 씨에스에스 방식의 음성 합성 방법에 있어서,

메인 데이터베이스(706)를 이용하여 입력문장을 합성할 때 선택된 최적경로 상의 합성단위 후보가 자연스런 합성음을 생성하는데 적합한지를 음향특성의 연속성을 이용하여 판정하는 단계(703);

상기 단계에 의해 판정된 결과에 의해 부적합한 경우 대용량의 보조 데이터베이스(709)로부터 보다 적합한 합성단위 후보를 재 검색하여 우선순위 사전(707) 및 메인 데이터베이스(706)의 해당 동일 합성단위 후보들 중에서 최하위 우선순위를 갖는 후보와 교체하는 단계(705)를 구비한 것이 특징인 온라인 학습형 음성합성 방법;
제 4 항에 있어서,

학습을 수행하면 음성합성에 방해가 되거나 항상 학습할 필요가 없는 경우에 있어서, 필요한 시기에 학습을 수행하기 위하여 임시로 입력문장을 저장하는 문장저장 단계(900);

예약된 시간이나 학습지시에 의해 임시 저장된 문장을 이용하여 학습을 수행하는 학습예약 단계(901)를 더 구비한 것이 특징인 온라인 학습형 음성합성 방법;