KR20190002003A

KR20190002003A - 음성 합성 방법 및 장치

Info

Publication number: KR20190002003A
Application number: KR1020170082270A
Authority: KR
Inventors: 박정석; 최우혁; 차재욱
Original assignee: 주식회사 케이티
Priority date: 2017-06-29
Filing date: 2017-06-29
Publication date: 2019-01-08

Abstract

본 발명은 음성 합성 방법 및 장치에 관한 것으로, 음성 합성을 위해 수신된 텍스트데이터를 분석하는 단계, 상기 텍스트데이터 분석결과, 상기 텍스트데이터에 태그의 포함여부를 확인하는 단계, 상기 태그의 포함여부를 기반으로 상기 텍스트데이터를 음편결합 모델에 적용하는 단계, 상기 음편결합 모델의 적용결과가 기저장된 기준치 이하이면 상기 텍스트데이터에 음성발생 모델을 적용하는 단계 및 상기 음성발생 모델의 적용결과로 생성된 음성 합성 데이터를 출력하는 단계를 포함할 수 있고, 다른 실시 예로도 적용이 가능하다.

Description

음성 합성 방법 및 장치{Method and Apparatus for Synthesis of Speech}

본 발명은 음성 합성 방법 및 장치에 관한 것으로, 음성 합성이 요청된 텍스트데이터에 음편결합 모델 또는 음성발생 모델 중 어느 하나의 모델을 적용하여 음성 합성 데이터를 생성하는 음성 합성 방법 및 장치에 관한 것이다.

음성 합성 기술은 네비게이션, 운전 중 수신된 문자 메시지 읽어주기 등 각종 음성 안내, 교육 분야 등에서 널리 사용되고 있다. 음성 합성은 사람이 말하는 소리와 유사한 소리를 생성하는 기술로 흔히 TTS(text to speech) 시스템으로 많이 알려져 있다.

음성 합성 기술은 사용자에게 정보를 텍스트나 그림 같은 시각적 데이터가 아닌 음성 데이터로 전달한다. 음성 합성 기술은 시각 장애인이나 운전 중일 때처럼 사용자가 화면을 확인할 수 없는 경우에 텍스트 데이터를 음성 데이터로 제공함으로써, 매우 유용하게 사용된다. 최근에는, IoT(internet of things) 제품들의 개발 및 보급이 활발하게 이루어짐으로써 보다 자연스러운 음성 합성 데이터를 출력할 수 있는 기술 개발의 필요성이 요청되고 있다.

이러한 종래의 문제점을 해결하기 위한 본 발명의 다양한 실시 예들은 텍스트데이터에 음편결합 모델을 적용한 결과에 따라 음성발생 모델을 추가 적용할 수 있는 하이브리드 방식을 사용함으로써 선택적으로 음성 합성 모델을 결정하여 보다 자연스러운 음성 합성 데이터를 제공할 수 있는 음성 합성 방법 및 장치를 제공하는 것이다.

본 발명의 일 실시 예에 따른 음성 합성 방법은, 음성 합성을 위해 수신된 텍스트데이터를 분석하는 단계, 상기 텍스트데이터 분석결과, 상기 텍스트데이터에 태그의 포함여부를 확인하는 단계, 상기 태그의 포함여부를 기반으로 상기 텍스트데이터를 음편결합 모델에 적용하는 단계, 상기 음편결합 모델의 적용결과가 기저장된 기준치 이하이면 상기 텍스트데이터에 음성발생 모델을 적용하는 단계 및 상기 음성발생 모델의 적용결과로 생성된 음성 합성 데이터를 출력하는 단계를 포함하는 것을 특징으로 한다.

또한, 음편결합 모델의 적용결과가 상기 기준치를 초과하면 상기 음편결합 모델의 적용결과로 생성된 음성 합성 데이터를 출력하는 단계를 더 포함하는 것을 특징으로 한다.

또한, 텍스트데이터에 상기 태그의 포함여부를 확인하는 단계 이후에, 상기 태그가 포함된 상태이면, 상기 태그의 종류를 확인하는 단계 및 상기 태그의 종류에 따라 상기 텍스트데이터를 상기 음성발생 모델에 적용하는 단계를 더 포함하는 것을 특징으로 한다.

또한, 텍스트데이터를 음편결합 모델에 적용하는 단계는, 상기 텍스트데이터에 포함된 상기 태그가 특정 분야의 태그이면, 상기 텍스트데이터를 상기 음편결합 모델에 적용하는 단계인 것을 특징으로 한다.

또한, 음편결합 모델에 적용하는 단계는, 상기 특정 분야에 대응되는 음편결합 데이터베이스의 존재여부를 확인하는 단계, 상기 음편결합 데이터베이스가 존재하지 않으면, 음편결합 데이터베이스를 제공하는 서버로부터 상기 음편결합 데이터베이스를 수신하는 단계 및 상기 수신된 음편결합 데이터베이스에 상기 텍스트데이터를 적용하는 단계를 포함하는 것을 특징으로 한다.

또한, 태그의 종류를 확인하는 단계는, 상기 텍스트데이터에 포함된 태그가 감정 표현 태그 및 성대모사를 포함하는 부가 서비스 태그인지를 확인하는 단계인 것을 특징으로 한다.

또한, 기준치는, 상기 음편결합 모델의 적용결과인 음편과 음편결합 데이터베이스에 포함된 음편에 대한 유사도, 상기 음편결합 모델의 적용결과에 따른 단위 음편과 전후 음편과의 운율 차이와 음편결합 데이터베이스에 포함된 단위 음편과 전후 음편과의 운율 차이에 대한 유사도를 포함하는 것을 특징으로 한다.

아울러, 본 발명의 일 실시 예에 따른 음성 합성 장치는, 음성 합성을 위해 수신된 텍스트데이터를 분석결과에 따라 상기 텍스트데이터에 태그의 포함여부를 확인하고, 상기 태그의 포함여부를 기반으로 상기 텍스트데이터를 음편결합 모델에 적용하고, 상기 음편결합 모델의 적용결과가 기저장된 기준치 이하이면 상기 텍스트데이터에 음성발생 모델을 적용하여 음성 합성 데이터를 생성하는 제어부 및 상기 제어부의 제어에 의해 상기 음성 합성 데이터를 출력하는 스피커를 포함하는 것을 특징으로 한다.

또한, 제어부는, 상기 음편결합 모델의 적용결과가 상기 기준치를 초과하면 상기 음편결합 모델의 적용결과로 음성 합성 데이터를 생성하는 것을 특징으로 한다.

또한, 제어부는, 상기 텍스트데이터에 상기 태그가 포함된 상태이면 상기 태그의 종류를 확인하고, 상기 태그의 종류에 따라 상기 텍스트데이터를 상기 음성발생 모델에 적용하는 것을 특징으로 한다.

또한, 제어부는, 상기 텍스트데이터에 포함된 상기 태그가 특정 분야의 태그이면 상기 텍스트데이터를 상기 음편결합 모델에 적용하는 것을 특징으로 한다.

또한, 제어부는, 상기 특정 분야에 대응되는 음편결합 데이터베이스가 존재하지 않으면, 외부 서버로부터 상기 음편결합 데이터베이스를 수신하고, 상기 수신된 음편결합 데이터베이스에 상기 텍스트데이터를 적용하는 것을 특징으로 한다.

또한, 태그의 종류는, 감정 표현 태그 및 성대모사를 포함하는 부가 서비스 태그를 포함하는 것을 특징으로 한다.

또한, 기준치는, 상기 음편결합 모델의 적용결과인 음편과 음편결합 데이터베이스에 포함된 음편에 대한 유사도, 상기 음편결합 모델의 적용결과인 단위 음편과 전후 음편과의 운율 차이와 음편결합 데이터베이스에 포함된 단위 음편과 전후 음편과의 운율 차이에 대한 유사도인 것을 특징으로 한다.

상술한 바와 같이 본 발명의 음성 합성 방법 및 장치는, 텍스트데이터에 음편결합 모델을 적용한 결과에 따라 음성발생 모델을 추가 적용할 수 있는 하이브리드 방식을 사용함으로써, 텍스트데이터의 음성 합성 시 보다 자연스러운 음성 합성 데이터를 생성할 수 있는 효과가 있다.

도 1은 본 발명의 실시 예에 따른 음성 합성 장치의 주요 구성을 나타내는 블록도이다.
도 2는 본 발명의 실시 예에 따른 음성 합성 방법을 설명하기 위한 순서도이다.

이하, 본 발명에 따른 바람직한 실시 형태를 첨부된 도면을 참조하여 상세하게 설명한다. 첨부된 도면과 함께 이하에 개시될 상세한 설명은 본 발명의 예시적인 실시형태를 설명하고자 하는 것이며, 본 발명이 실시될 수 있는 유일한 실시형태를 나타내고자 하는 것이 아니다. 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략할 수 있고, 명세서 전체를 통하여 동일 또는 유사한 구성 요소에 대해서는 동일한 참조 부호를 사용할 수 있다.

본 발명의 일 실시 예에서, “또는”, “적어도 하나” 등의 표현은 함께 나열된 단어들 중 하나를 나타내거나, 또는 둘 이상의 조합을 나타낼 수 있다. 예를 들어, “A 또는 B”, “A 및 B 중 적어도 하나”는 A 또는 B 중 하나만을 포함할 수 있고, A와 B를 모두 포함할 수도 있다.

도 1은 본 발명의 실시 예에 따른 음성 합성 장치의 주요 구성을 나타내는 블록도이다.

도 1을 참조하면, 본 발명에 따른 음성 합성 장치(100)는 통신부(110), 입력부(120), 표시부(130), 오디오처리부(140), 메모리(150) 및 제어부(160)를 포함하고, 메모리(150)는 제1 DB(151) 및 제2 DB(152)를 포함한다.

통신부(110)는 음성 합성 장치(100)의 외부에 구비된 외부 장치(미도시)와의 통신을 수행한다. 외부 장치는 음성 합성 장치(100)에 음성 합성을 위한 텍스트데이터를 전송하기 위한 장치 및 음성 합성 장치(100)로 음편결합 데이터베이스를 제공할 수 있는 서버가 될 수 있다. 이를 위해, 통신부(110)는 유선 또는 무선 통신 중 적어도 하나를 수행할 수 있다. 통신부(110)는 WiFi(wireless fidelity), LTE(long term evolution), LTE-A(long term evolution-advanced), 블루투스(bluetooth), BLE(bluetooth low energy) 및 NFC(near field communication) 등의 무선 통신 및 USB(universal serial bus) Cable 등의 유선 통신을 수행할 수 있다.

입력부(120)는 음성 합성 장치(100)의 사용자 입력에 대응하여, 입력 데이터를 발생시킨다. 입력부(120)는 적어도 하나의 입력수단을 포함한다. 입력부(120)는 키패드(key pad), 돔 스위치(dome switch), 터치 패널(touch panel), 터치 키(touch key) 및 버튼(button)을 포함한다. 입력부(120)는 사용자 입력에 대응하여 음성 합성을 수행하기 위해 발생된 텍스트데이터를 제어부(160)로 제공할 수 있다.

표시부(130)는 음성 합성 장치(100)의 동작에 따른 출력 데이터를 출력한다. 이를 위해, 표시부(130)는 액정 디스플레이(LCD; liquid crystal display), 발광 다이오드(LED; light emitting diode) 디스플레이, 유기 발광 다이오드(OLED; organic LED) 디스플레이, 마이크로 전자기계 시스템(MEMS; micro electro mechanical systems) 디스플레이 및 전자 종이(electronic paper) 디스플레이를 포함한다. 표시부(130)는 입력부(120)와 결합되어 터치 스크린(touch screen)으로 구현될 수 있다.

오디오처리부(140)는 오디오 신호를 처리한다. 이때, 오디오처리부(140)는 마이크(MIC)와 스피커(SPK)를 포함한다. 오디오처리부(140)는 마이크에서 발생되는 오디오 신호를 제어부(160)로 전달한다. 오디오처리부(140)는 제어부(160)에서 출력되는 오디오 신호 예컨대, 음성 합성 데이터 등을 스피커를 통해 재생한다.

메모리(150)는 음성 합성 장치(100)의 동작 프로그램들을 저장한다. 메모리(150)는 음편결합 모델을 적용한 텍스트데이터를 음성발생 모델에 적용할 것인지를 결정하기 위한 기준치를 저장한다. 이를 위해, 메모리(150)는 제1 DB(151) 및 제2 DB(152)를 포함한다.

제1 DB(151)는 복수의 음편결합 데이터베이스를 저장한다. 제1 DB(151)는 텍스트데이터에 포함될 수 있는 적어도 하나의 특정 분야에 대한 태그와 관련된 음편결합 데이터베이스를 저장할 수 있다. 예컨대, 제1 DB(151)는 금융 분야, 스포츠 분야 각각에 대한 음편결합 데이터베이스를 저장할 수 있다. 음편결합 데이터베이스는 텍스트데이터에 음편결합 모델을 적용하기 위한 데이터베이스이며, 음편결합 모델은 코퍼스 기반의 모델일 수 있다.

제2 DB(152)는 텍스트데이터에 음성발생 모델을 적용하기 위한 음성발생 모델에 대한 알고리즘을 저장한다. 음성발생 모델은 은닉 마르코프 모델(HMM; hidden markov model)일 수 있으며, 코퍼스 방식에 딥러닝을 적용한 모델일 수 있다.

제어부(160)는 음성 합성을 위해 수신된 텍스트데이터를 분석하고, 분석결과에 따라 텍스트데이터에 태그의 포함여부를 확인한다. 제어부(160)는 태그의 포함여부를 기반으로 텍스트데이터를 음편결합 모델에 적용하고, 음편결합 모델의 적용결과가 기저장된 기준치 이하이면 텍스트데이터에 음성발생 모델을 적용한다. 제어부(160)는 음편결합 모델 또는 음성발생 모델 중 어느 하나의 모델을 적용하여 생성된 음성 합성 데이터를 출력한다.

보다 구체적으로, 제어부(160)는 음성 합성을 수행하고자 하는 텍스트데이터를 수신한다. 이때, 텍스트데이터는 입력부(120) 또는 휴대단말과 같은 외부 장치로부터 수신될 수 있다. 제어부(160)는 수신된 텍스트데이터를 분석한다. 이때, 제어부(160)는 텍스트데이터에 약어, 축약어, 숫자, 시간, 특수문자 등이 포함되어 있을 수 있으므로, 텍스트데이터를 음성으로 합성하기 이전에 정규화하는 과정을 수행한다. 제어부(160)는 정규화한 텍스트데이터를 정규 맞춤법에서 소리나는대로 변환할 수 있다. 제어부(160)는 구문 분석을 통해 텍스트데이터의 문법을 분석하여 단어의 품사를 구별하고, 의문문, 평서문 등에 따라 운율제어를 위한 정보를 분석한다.

제어부(160)는 텍스트데이터의 분석결과에 따라 텍스트데이터에 태그의 포함여부를 확인할 수 있다. 제어부(160)는 텍스트데이터에 태그가 포함되지 않았으면, 텍스트데이터에 음편결합 모델을 적용한다. 이때, 태그는 텍스트데이터에 괄호, 따옴표 등의 기호로 기재될 수 있다.

제어부(160)는 음편결합 모델에 적용하고 난 이후의 결과를 메모리(150)에 기저장된 기준치와 비교한다. 제어부(160)는 적용결과가 기준치 이하이면 텍스트데이터를 음성발생 모델에 추가로 적용하여 음성 합성 데이터를 생성한 후 출력한다. 또한, 제어부(160)는 적용결과가 기준치를 초과하면 음편결합 모델을 적용하여 음성 합성 데이터를 생성한 후 이를 출력한다. 이때, 기준치는, 텍스트데이터에 음편결합 모델을 적용하여 도출된 음편과 음편결합 데이터베이스에 포함된 음편에 대한 유사도, 텍스트데이터에 음편결합 모델을 적용하여 도출된 단위 음편과 단위 음편의 전후 음편과의 운율 차이와 음편결합 데이터베이스에 포함된 단위 음편과 단위 음편의 전후 음편과의 운율 차이에 대한 유사도를 의미한다. 보다 구체적으로, 텍스트데이터에 음편결합 모델을 적용하여 도출된 음편과 음편결합 데이터베이스에 포함된 음편에 대한 유사도가 기준치 이하이면, 음성 합성에 대한 명료성이 저하된다. 또한, 텍스트데이터에 음편결합 모델을 적용하여 도출된 단위 음편과 단위 음편의 전후 음편과의 운율 차이와 음편결합 데이터베이스에 포함된 단위 음편과 단위 음편의 전후 음편과의 운율 차이에 대한 유사도가 기준치 이하이면, 음성 합성이 자연스럽지 못하다. 따라서, 제어부(160)는 텍스트데이터에 음편결합 모델을 적용하여 도출된 적용결과가 임계치 이하이면 보다 자연스러운 음성 합성을 위해 텍스트데이터를 음성발생 모델에 적용한다.

제어부(160)는 텍스트데이터에 태그가 포함되어 있으면, 태그가 특정 분야에 관련된 태그인지 확인한다. 이때, 특정 분야는 금융 분야, 스포츠 분야 등 다양한 분야일 수 있다. 제어부(160)는 특정 분야에 관련된 태그가 아니면, 태그의 종류를 확인한 후, 텍스트데이터를 음성발생 모델에 적용한다. 이때, 태그의 종류는, 감정 표현 태그 및 성대모사를 포함하는 부가 서비스 태그 등일 수 있다. 제어부(160)는 텍스트데이터에 포함된 태그가 특정 분야에 관련된 태그이면, 제1 DB(151)에 특정 분야와 관련된 음편결합 데이터베이스가 존재하는지 확인한다. 제어부(160)는 제1 DB(151)에 특정 분야와 관련된 음편결합 데이터베이스가 있으면, 텍스트데이터를 음편결합 모델에 적용하여 음성 합성 데이터를 생성할 수 있다.

제어부(160)는 제1 DB(151)에 특정 분야와 관련된 음편결합 데이터베이스가 없으면, 서버에 접속할 수 있다. 제어부(160)는 서버로부터 특정 분야와 관련된 음편결합 데이터베이스를 수신하여 제1 DB(151)에 저장한다. 제어부(160)는 특정 분야와 관련된 음편결합 데이터베이스를 저장한 이후에, 텍스트데이터를 음편결합 모델에 적용하여 음성 합성 데이터를 생성할 수 있다.

도 2는 본 발명의 실시 예에 따른 음성 합성 방법을 설명하기 위한 순서도이다.

도 2를 참조하면, 201단계에서 제어부(160)는 입력부(120)를 통해 음성 합성 요청신호가 수신되면 203단계를 수행한다. 201단계에서 제어부(160)는 음성 합성 요청신호가 수신되지 않으면 요청신호를 대기한다. 203단계에서 제어부(160)는 음성 합성을 수행하고자 하는 텍스트데이터를 수신한다. 이때, 텍스트데이터는 입력부(120)를 통해 수신될 수 있고, 휴대단말과 같은 외부 장치로부터 수신될 수 있다.

205단계에서 제어부(160)는 텍스트데이터를 분석한다. 이때, 제어부(160)는 텍스트데이터에 약어, 축약어, 숫자, 시간, 특수문자 등이 포함되어 있을 수 있으므로, 텍스트데이터를 음성으로 합성하기 이전에 정규화하는 과정을 수행한다. 제어부(160)는 정규화한 텍스트데이터를 정규 맞춤법에서 소리가 나는대로 변환할 수 있다. 제어부(160)는 구문 분석을 통해 텍스트데이터의 문법을 분석하여 단어의 품사를 구별하고, 의문문, 평서문 등에 따라 운율제어를 위한 정보를 분석한다.

207단계에서 제어부(160)는 텍스트데이터의 분석결과에 따라 텍스트데이터에 태그의 포함여부를 확인할 수 있다. 207단계의 확인 결과, 텍스트데이터에 태그가 포함된 상태이면 제어부(160)는 209단계를 수행하고, 태그가 포함된 상태가 아니면 제어부(160)는 217단계를 수행한다. 이때, 태그는 텍스트데이터에 괄호, 따옴표 등의 기호로 기재될 수 있다.

209단계에서 제어부(160)는 텍스트데이터에 포함된 태그가 특정 분야에 관련된 태그인지 확인한다. 예컨대, 제어부(160)는 텍스트데이터에 포함된 태그가 금융 분야, 스포츠 분야 등과 같이 특정 분야에 관련된 태그인지 확인할 수 있다. 209단계의 확인결과, 텍스트데이터에 포함된 태그가 특정 분야에 관련된 태그이면 제어부(160)는 213단계를 수행하고, 특정 분야에 관련된 태그가 아니면 211단계를 수행한다. 211단계에서 제어부(160)는 텍스트데이터에 포함된 태그의 종류를 확인하고 221단계를 수행할 수 있다. 이때, 텍스트데이터에 포함된 태그 종류는 감정 표현 태그 및 성대모사를 포함하는 부가 서비스 태그 등일 수 있다. 221단계에서 제어부(160)는 텍스트데이터에 음성발생 모델을 적용하고 223단계를 수행한다.

213단계에서 제어부(160)는 확인된 특정 분야 태그와 관련된 음편결합 데이터베이스가 제1 DB(151)에 존재하는지 확인한다. 213단계의 확인결과, 제1 DB(151)에 특정 분야 태그와 관련된 음편결합 데이터베이스가 없으면 제어부(160)는 215단계를 수행한다. 215단계에서 제어부(160)는 서버에 접속하여 특정 분야 태그와 관련된 음편결합 데이터베이스를 다운로드하여 제1 DB(151)에 저장하고, 217단계를 수행한다. 213단계의 확인결과, 제1 DB(151)에 특정 분야 태그와 관련된 음편결합 데이터베이스가 있으면 제어부(160)는 217단계를 수행한다.

217단계에서 제어부(160)는 텍스트데이터를 음편결합 모델에 적용한다. 219단계에서 제어부(160)는 음편결합 모델에 적용한 적용결과가 기준치 이하이면 221단계를 수행하고, 기준치를 초과하면 223단계를 수행한다. 223단계에서 제어부(160)는 텍스트데이터를 음편결합 모델에 적용하여 음성 합성 데이터를 생성하고, 생성된 음성 합성 데이터를 출력한 후 225단계를 수행한다. 이때, 기준치는, 텍스트데이터에 음편결합 모델을 적용하여 도출된 음편과 음편결합 데이터베이스에 포함된 음편에 대한 유사도, 텍스트데이터에 음편결합 모델을 적용하여 도출된 단위 음편과 단위 음편의 전후 음편과의 운율 차이와 음편결합 데이터베이스에 포함된 단위 음편과 단위 음편의 전후 음편과의 운율 차이에 대한 유사도를 의미한다. 보다 구체적으로, 텍스트데이터에 음편결합 모델을 적용하여 도출된 음편과 음편결합 데이터베이스에 포함된 음편에 대한 유사도가 기준치 이하이면, 음성 합성에 대한 명료성이 저하된다. 또한, 텍스트데이터에 음편결합 모델을 적용하여 도출된 단위 음편과 단위 음편의 전후 음편과의 운율 차이와 음편결합 데이터베이스에 포함된 단위 음편과 단위 음편의 전후 음편과의 운율 차이에 대한 유사도가 기준치 이하이면, 음성 합성이 자연스럽지 못하다. 따라서, 제어부(160)는 텍스트데이터에 음편결합 모델을 적용하여 도출된 적용결과가 임계치 이하이면 보다 자연스러운 음성 합성을 위해 221단계를 수행한다.

221단계에서 제어부(160)는 텍스트데이터에 음성발생 모델을 적용하여 223단계를 수행한다. 223단계에서 제어부(160)는 텍스트데이터를 음성발생 모델에 적용한 결과에 따라 음성 합성 데이터를 생성하고, 생성된 음성 합성 데이터를 출력한 후 225단계를 수행한다.

225단계에서 제어부(160)는 입력부(120)를 통해 음성 합성 종료 신호가 수신되면 상기 프로세스를 종료하고, 음성 합성 종료 신호가 수신되지 않으면 203단계로 회귀하여 상기의 단계들을 재수행할 수 있다.

본 명세서와 도면에 개시된 본 발명의 실시 예들은 본 발명의 기술 내용을 쉽게 설명하고 본 발명의 이해를 돕기 위해 특정 예를 제시한 것일 뿐이며, 본 발명의 범위를 한정하고자 하는 것은 아니다. 따라서 본 발명의 범위는 여기에 개시된 실시 예들 이외에도 본 발명의 기술적 사상을 바탕으로 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

Claims

음성 합성을 위해 수신된 텍스트데이터를 분석하는 단계;
상기 텍스트데이터 분석결과, 상기 텍스트데이터에 태그의 포함여부를 확인하는 단계;
상기 태그의 포함여부를 기반으로 상기 텍스트데이터를 음편결합 모델에 적용하는 단계;
상기 음편결합 모델의 적용결과가 기저장된 기준치 이하이면 상기 텍스트데이터에 음성발생 모델을 적용하는 단계; 및
상기 음성발생 모델의 적용결과로 생성된 음성 합성 데이터를 출력하는 단계;
를 포함하는 것을 특징으로 하는 방법.
제1항에 있어서,
상기 음편결합 모델의 적용결과가 상기 기준치를 초과하면 상기 음편결합 모델의 적용결과로 생성된 음성 합성 데이터를 출력하는 단계;
를 더 포함하는 것을 특징으로 하는 방법.
제2항에 있어서,
상기 텍스트데이터에 상기 태그의 포함여부를 확인하는 단계 이후에,
상기 태그가 포함된 상태이면, 상기 태그의 종류를 확인하는 단계; 및
상기 태그의 종류에 따라 상기 텍스트데이터를 상기 음성발생 모델에 적용하는 단계;
를 더 포함하는 것을 특징으로 하는 방법.
제2항에 있어서,
상기 텍스트데이터를 음편결합 모델에 적용하는 단계는,
상기 텍스트데이터에 포함된 상기 태그가 특정 분야의 태그이면, 상기 텍스트데이터를 상기 음편결합 모델에 적용하는 단계인 것을 특징으로 하는 방법.
제4항에 있어서,
상기 음편결합 모델에 적용하는 단계는,
상기 특정 분야에 대응되는 음편결합 데이터베이스의 존재여부를 확인하는 단계;
상기 음편결합 데이터베이스가 존재하지 않으면, 음편결합 데이터베이스를 제공하는 서버로부터 상기 음편결합 데이터베이스를 수신하는 단계; 및
상기 수신된 음편결합 데이터베이스에 상기 텍스트데이터를 적용하는 단계;
를 포함하는 것을 특징으로 하는 방법.
제3항에 있어서,
상기 태그의 종류를 확인하는 단계는,
상기 텍스트데이터에 포함된 태그가 감정 표현 태그 및 성대모사를 포함하는 부가 서비스 태그인지를 확인하는 단계인 것을 특징으로 하는 방법.
제2항에 있어서,
상기 기준치는,
상기 음편결합 모델의 적용결과인 음편과 음편결합 데이터베이스에 포함된 음편에 대한 유사도, 상기 음편결합 모델의 적용결과에 따른 단위 음편과 전후 음편과의 운율 차이와 음편결합 데이터베이스에 포함된 단위 음편과 전후 음편과의 운율 차이에 대한 유사도를 포함하는 것을 특징으로 하는 방법.
음성 합성을 위해 수신된 텍스트데이터를 분석결과에 따라 상기 텍스트데이터에 태그의 포함여부를 확인하고, 상기 태그의 포함여부를 기반으로 상기 텍스트데이터를 음편결합 모델에 적용하고, 상기 음편결합 모델의 적용결과가 기저장된 기준치 이하이면 상기 텍스트데이터에 음성발생 모델을 적용하여 음성 합성 데이터를 생성하는 제어부; 및
상기 제어부의 제어에 의해 상기 음성 합성 데이터를 출력하는 스피커;
를 포함하는 것을 특징으로 하는 장치.
제8항에 있어서,
상기 제어부는,
상기 음편결합 모델의 적용결과가 상기 기준치를 초과하면 상기 음편결합 모델의 적용결과로 음성 합성 데이터를 생성하는 것을 특징으로 하는 장치.
제9항에 있어서,
상기 제어부는,
상기 텍스트데이터에 상기 태그가 포함된 상태이면 상기 태그의 종류를 확인하고, 상기 태그의 종류에 따라 상기 텍스트데이터를 상기 음성발생 모델에 적용하는 것을 특징으로 하는 장치.
제9항에 있어서,
상기 제어부는,
상기 텍스트데이터에 포함된 상기 태그가 특정 분야의 태그이면 상기 텍스트데이터를 상기 음편결합 모델에 적용하는 것을 특징으로 하는 장치.
제11항에 있어서,
상기 제어부는,
상기 특정 분야에 대응되는 음편결합 데이터베이스가 존재하지 않으면, 외부 서버로부터 상기 음편결합 데이터베이스를 수신하고, 상기 수신된 음편결합 데이터베이스에 상기 텍스트데이터를 적용하는 것을 특징으로 하는 장치.
제10항에 있어서,
상기 태그의 종류는,
감정 표현 태그 및 성대모사를 포함하는 부가 서비스 태그를 포함하는 것을 특징으로 하는 장치.
제9항에 있어서,
상기 기준치는,
상기 음편결합 모델의 적용결과인 음편과 음편결합 데이터베이스에 포함된 음편에 대한 유사도, 상기 음편결합 모델의 적용결과인 단위 음편과 전후 음편과의 운율 차이와 음편결합 데이터베이스에 포함된 단위 음편과 전후 음편과의 운율 차이에 대한 유사도인 것을 특징으로 하는 장치.