KR101880378B1

KR101880378B1 - 음성 합성 방법 및 장치

Info

Publication number: KR101880378B1
Application number: KR1020167028544A
Authority: KR
Inventors: 얀 시에; 슈린 리; 지에 바이
Original assignee: 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드
Priority date: 2015-07-15
Filing date: 2015-11-24
Publication date: 2018-07-19
Also published as: US10115389B2; US20170200445A1; JP6400129B2; JP2017527837A; CN104992704A; WO2017008426A1; KR20170021226A; CN104992704B

Abstract

본 발명은 음성 합성 방법 및 장치에 관한 것으로, 상기 음성 합성 방법은 텍스트를 처리하여 합성 대기 중인 텍스트를 획득하는 단계, 네트워크 연결이 존재할 때, 상기 합성 대기 중인 텍스트를 온라인 음성 합성 시스템으로 송신하여 음성 합성을 행하는 단계, 및 만약 상기 온라인 음성 합성 시스템에서 음성 합성을 행하는 과정에서, 상기 온라인 음성 합성 시스템에 고장이 발생하거나 또는 실제 사용과정에서 네트워크 연결이 중단되면, 상기 온라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트를 오프라인 음성 합성 시스템으로 송신하여 음성 합성을 행하는 단계를 포함한다. 본 발명은 온라인 음성 합성 및 오프라인 음성 합성의 우점을 결합하여 더욱 안정적이고 효과가 더욱 자연스러운 음성 합성 서비스를 제공할 수 있어, 사용자의 음성 합성 요구가 늘 순조롭게 완성되도록 확보할 수 있고 사용자가 음성 합성 서비스에 대한 선호도 및 사용자 체험 만족도를 향상시킬 수 있다.

Description

음성 합성 방법 및 장치{SPEECH SYNTHESIS METHOD AND DEVICE}

본원 출원은 바이두 온라인 네트웍 테크놀러지(베이징) 캄파니 리미티드가 2015년 07월 15일에 제출한 발명의 명칭이 "음성 합성 방법 및 장치"이고, 중국특허출원번호가 "201510417099.X"인 우선권을 요구한다.

본 발명은 음성처리 기술분야에 관한 것으로, 특히 음성 합성 방법 및 장치에 관한 것이다.

음성 합성 기술은 서비스의 제공방식에 의하여 클라우드단 엔진을 기반으로 하는 음성 합성(이하, "온라인 음성 합성”이라고 칭함) 및 로칼 엔진을 기반으로 하는 음성 합성(이하, "오프라인 음성 합성”이라고 칭함) 두가지로 구분할 수 있으며, 이 두가지 음성 합성 기술은 각자의 우점과 결점을 가지고 있다. 온라인 음성 합성은 고도의 자연성, 높은 실시간성 및 클라이언트 기기 자원을 점용하지 않는 등 우점을 구비하고 있지만, 그 결점도 아주 명확하다. 즉, 음성 합성을 사용하는 애플리케이션(Application, 이하 "앱(App)"이라고 칭함)은 일차적으로 긴 텍스트를 서버단으로 송신하지만, 서버단에서 합성하는 음성데이터는 이를 분리시켜 상기 앱을 설치한 클라이언트로 송신되는 것이다. 음성의 데이터량은 압축을 거친 후에도 상대적으로 크므로(예를 들면, 4kb/s), 네트워크 환경이 불안정적일 경우 온라인 음성 합성은 아주 느려지고 연관된 합성을 구현할 수 없게 된다. 오프라인 음성 합성은 네트워크에 대한 의지를 이탈할 수 있어 합성 서비스의 안정성을 확보할 수는 있지만, 합성의 효과는 온라인 합성에 비하여 좀 차하다.

상기와 같이, 기존기술에서 사용하는 음성 합성 기술의 제품은 모두 단독 온라인 음성 합성 또는 단독 오프라인 음성 합성을 기반으로 한 것으로, 온라인 음성 합성은 데이터 트래픽에 대한 소모가 비교적 크고 네트워크 에러가 발생할 시 사용자에게 에러가 발생하였음을 제시할 수 밖에 없으며, 오프라인 음성 합성의 효과는 자연스럽지 못하여 사용자의 체험 만족도가 떨어진다.

본 발명의 목적은 적어도 일정한 정도에서 관련 기술 중의 기술적 문제 중의 하나를 해결하기 위한 것이다.

이를 위하여, 본 발명의 첫번째 목적은 음성 합성 방법을 제공하는 것이다. 상기 방법은, 온라인 음성 합성 및 오프라인 음성 합성의 우점을 결합하여 더욱 안정적이고 효과가 더욱 자연스러운 음성 합성 서비스를 제공할 수 있어, 사용자의 음성 합성 요구가 늘 순조롭게 완성되도록 확보할 수 있고 사용자가 음성 합성 서비스에 대한 선호도 및 사용자 체험 만족도를 향상시킬 수 있다.

본 발명의 두번째 목적은 음성 합성 장치를 제공하는 것이다.

상기 목적을 실현하기 위하여, 본 발명의 제1 측면에 따른 실시예의 음성 합성 방법은, 텍스트를 처리하여 합성 대기 중인 텍스트를 획득하는 단계, 네트워크 연결이 존재할 때, 상기 합성 대기 중인 텍스트를 온라인 음성 합성 시스템으로 송신하여 음성 합성을 행하는 단계, 및 만약 상기 온라인 음성 합성 시스템에서 음성 합성을 행하는 과정에서 상기 온라인 음성 합성 시스템에 고장이 발생하거나 또는 실제 사용과정에서 네트워크 연결이 중단되면 상기 온라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트를 오프라인 음성 합성 시스템으로 송신하여 음성 합성을 행하는 단계를 포함한다.

본 발명의 실시예의 음성 합성 방법에서, 네트워크 연결이 존재할 때, 상기 합성 대기 중인 텍스트를 온라인 음성 합성 시스템으로 송신하여 음성 합성을 행하고, 만약 상기 온라인 음성 합성 시스템에서 음성 합성을 행하는 과정에서 온라인 음성 합성 시스템에 고장이 발생하거나 또는 실제 사용과정에서 네트워크 연결이 중단되면 온라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트를 오프라인 음성 합성 시스템으로 송신하여 음성 합성을 행하는 바, 이로써 온라인 음성 합성 및 오프라인 음성 합성의 우점을 결합하여 더욱 안정적이고 효과가 더욱 자연스러운 음성 합성 서비스를 제공할 수 있어, 사용자의 음성 합성 요구가 늘 순조롭게 완성되도록 확보할 수 있고 사용자가 음성 합성 서비스에 대한 선호도 및 사용자 체험 만족도를 향상시킬 수 있다.

상기 목적을 달성하기 위하여, 본 발명의 제2 측면에 따른 실시예의 음성 합성 장치는, 텍스트를 처리하여 합성 대기 중인 텍스트를 획득하기 위한 텍스트처리모듈, 및 네트워크 연결이 존재할 때, 상기 텍스트처리모듈에 의해 획득된 합성 대기 중인 텍스트를 온라인 음성 합성 시스템으로 송신하여 음성 합성을 행하고, 만약 상기 온라인 음성 합성 시스템에서 음성 합성을 행하는 과정에서 상기 온라인 음성 합성 시스템에 고장이 발생하거나 또는 실제 사용과정에서 네트워크 연결이 중단되면 상기 온라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트를 오프라인 음성 합성 시스템으로 송신하여 음성 합성을 행하기 위한 송신모듈을 포함한다.

본 발명의 실시예의 음성 합성 장치에서, 네트워크 연결이 존재할 때, 송신모듈은 상기 합성 대기 중인 텍스트를 온라인 음성 합성 시스템으로 송신하여 음성 합성을 행하고, 만약 상기 온라인 음성 합성 시스템에서 음성 합성을 행하는 과정에서 온라인 음성 합성 시스템에 고장이 발생하거나 또는 실제 사용과정에서 네트워크 연결이 중단되면 온라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트를 오프라인 음성 합성 시스템으로 송신하여 음성 합성을 행하는 바, 이로써 온라인 음성 합성 및 오프라인 음성 합성의 우점을 결합하여 더욱 안정적이고 효과가 더욱 자연스러운 음성 합성 서비스를 제공할 수 있어, 사용자의 음성 합성 요구가 늘 순조롭게 완성되도록 확보할 수 있고 사용자가 음성 합성 서비스에 대한 선호도 및 사용자 체험 만족도를 향상시킬 수 있다.

본 발명의 실시예는 전자기기를 더 제공하고, 상기 전자기기는, 하나 또는 복수개의 프로세서, 메모리, 및 하나 또는 복수개의 프로그램을 포함하되,

하나 또는 복수개의 프로그램은 상기 메모리 중에 저장되고, 상기 하나 또는 복수개의 프로세서에 의해 실행될 때, 텍스트를 처리하여 합성 대기 중인 텍스트를 획득하고, 네트워크 연결이 존재할 때, 상기 합성 대기 중인 텍스트를 온라인 음성 합성 시스템으로 송신하여 음성 합성을 행하며, 및 만약 상기 온라인 음성 합성 시스템에서 음성 합성을 행하는 과정에서 상기 온라인 음성 합성 시스템에 고장이 발생하거나 또는 실제 사용과정에서 네트워크 연결이 중단되면 상기 온라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트를 오프라인 음성 합성 시스템으로 송신하여 음성 합성을 행하는 것을 수행한다.

본 발명의 실시예는 비휘발성 컴퓨터 저장매체를 더 제공하고, 상기 컴퓨터 저장매체에 하나 또는 복수개의 모듈이 저장되어 있고, 상기 하나 또는 복수개의 모듈이 수행될 때,

텍스트를 처리하여 합성 대기 중인 텍스트를 획득하고, 네트워크 연결이 존재할 때, 상기 합성 대기 중인 텍스트를 온라인 음성 합성 시스템으로 송신하여 음성 합성을 행하며, 및 만약 상기 온라인 음성 합성 시스템에서 음성 합성을 행하는 과정에서 상기 온라인 음성 합성 시스템에 고장이 발생하거나 또는 실제 사용과정에서 네트워크 연결이 중단되면 상기 온라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트를 오프라인 음성 합성 시스템으로 송신하여 음성 합성을 행하는 조작을 실행한다.

본 발명의 추가적인 측면과 우점은 이하 설명에서 일부 제기되고 다른 일부는 이하 설명에서 더욱 명확해지거나 또는 본 발명의 실천을 통하여 이해될 것이다.

본 발명의 상기 및/또는 추가적인 측면과 우점은 이하 첨부된 도면을 결합하여 실시예에 대한 설명으로부터 더욱 명확해지고 용이하게 이해될 것이다.
도1은 본 발명에 따른 음성 합성 방법의 하나의 실시예의 흐름도이다.
도2는 본 발명에 따른 음성 합성 방법의 다른 하나의 실시예의 흐름도이다.
도3은 본 발명에 따른 음성 합성 방법의 또 다른 하나의 실시예의 흐름도이다.
도4는 본 발명에 따른 음성 합성 방법의 또 다른 하나의 실시예의 흐름도이다.
도5는 본 발명에 따른 음성 합성 장치의 하나의 실시예의 구조 모식도이다.
도6은 본 발명에 따른 음성 합성 장치의 다른 하나의 실시예의 구조 모식도이다.

이하 본 발명의 실시예를 상세하게 설명하도록 하고, 상기 실시예의 예시는 첨부된 도면에서 표시되도록 하며, 동일하거나 유사한 부호는 늘 동일하거나 유사한 모듈 또는 동일하거나 유사한 기능을 구비하는 모듈을 표시한다. 이하, 도면을 참고하여 설명하는 실시예는 예시적인 것으로, 단지 본 발명을 해석하기 위한 것일 뿐, 본 발명에 대한 한정으로 이해해서는 안된다. 반대로, 본 발명의 실시예는 첨부하는 특허청구범위의 사상과 의미 범위 내에 있는 모든 변화, 수정 및 등가물을 포함한다.

도1은 본 발명에 따른 음성 합성 방법의 하나의 실시예의 흐름도로서, 도1에 도시된 바와 같이, 상기 음성 합성 방법은 다음과 같은 단계를 포함할 수 있다.

단계 S101: 텍스트를 처리하여 합성 대기 중인 텍스트를 획득한다.

구체적으로, 텍스트를 처리하는 것은, 텍스트에 대하여 구절을 끊어 단어 나누기, 품사 주석, 디지털 부호 처리, 병음 주석 및 운율 중단 예측 처리를 행하는 것 일 수 있다.

“

(전방 사백미터에 빨간 신호등 위반 카메라가 있습니다)”를 예로 들면, 우선 구절을 끊어 단어 나누기, 품사 주석 및 디지털 부호 처리를 거쳐 "

(전방)/f

(사백)/m

(미터에)/q

(있습니다)/v

(빨간 신호등 위반)/v

(카메라가)/v"의 순서를 얻을 수 있다. 그 중, 슬래시 뒤의 부분은 품사의 약자이고, 병음 주석 시에 품사에 의하여 다음자 분석을 한다. 다음, 또 병음 주석하여 "qian(

)2 fang(

)1 si(

)4 bai(

)2 mi(

)3 you(

)3 chuang(

)3 hong(

)2 deng(

)1 pai(

)1 zhao(

)4"의 순서를 얻는다. 마지막으로, 운율 중단에 대하여 예측하는 바, 처리 후의 서열은 "

(전방)

(사백미터에) $

(있습니다)

(빨간 신호등 위반 카메라가)$"이다. 그 중 빈칸은 짧은 운율 중단을 대표하고, $부호는 긴 운율 중단을 대표한다.

단계 S102: 네트워크 연결이 존재할 때, 상기 합성 대기 중인 텍스트를 온라인 음성 합성 시스템으로 송신하여 음성 합성을 행한다.

본 실시예에서, 네트워크 연결이 존재할 때, 클라이언트는 상기 합성 대기 중인 텍스트를 온라인 음성 합성 시스템으로 송신하여 음성 합성을 행한다. 온라인 음성 합성 시스템은 파형 스플라이싱 합성 방식을 적용하여 이미 녹음한 음성 세그먼트를 일정한 규칙에 따라 구절로 스플라이싱한다. 이러한 합성 방법은 음질이 좋고 듣는 느낌이 자연스러우며 실제 사람이 발음하는 것과 더욱 유사한 우점을 가지고 있다. 음질이 좋고 듣는 느낌이 자연스러우며 실제 사람이 발음하는 것과 더욱 유사한 우점을 가지는 효과를 만족시키기 위하여 일반적으로 클라우드단의 음성베이스 모델은 아주 방대한 바(일반적으로 몇G에 달함) 로칼에 직접 응용될 수 없다.

단계 S103: 상기 온라인 음성 합성 시스템에서 음성 합성을 행하는 과정에서 상기 온라인 음성 합성 시스템에 고장이 발생하거나 또는 실제 사용과정에서 네트워크 연결이 중단되면 상기 온라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트를 오프라인 음성 합성 시스템으로 송신하여 음성 합성을 행한다.

본 실시예에서, 상기 온라인 음성 합성 시스템에서 음성 합성을 행하는 과정에서 상기 온라인 음성 합성 시스템에 고장이 발생하거나 또는 실제 사용과정에서 네트워크 연결이 중단되면 클라이언트는 온라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트를 오프라인 음성 합성 시스템으로 송신하여 음성 합성을 행한다. 오프라인 음성 합성 시스템은 일반적으로 파라미터 합성 방법을 사용하는 바, 우선 음성베이스로부터 음향학 파라미터를 추출한 후 음향학 파라미터와 보코더를 이용하여 음성을 재구축하는 것이 필요된다. 이러한 방법을 사용하면 저장이 필요한 음성베이스 데이터의 크기를 M바이트의 등급으로 줄일 수 있어, 오프라인 음성 합성이 휴대폰 등 이동 기기에서 사용할 수 있도록 한다. 그러나, 음향학 파라미터는 진실한 음성이 아니므로, 오프라인 음성 합성 시스템에서 합성된 음성의 자연성 및 음질은 온라인 음성 합성 시스템보다 못하다.

더 나아가서, 음성 합성이 완성 이후, 클라이언트는 온라인 음성 합성 시스템의 음성데이터와 오프라인 음성 합성 시스템의 음성데이터를 스플라이싱하여 완전한 음성 합성데이터를 획득한다.

상기 음성 합성 방법에서, 네트워크 연결이 존재할 때, 상기 합성 대기 중인 텍스트를 온라인 음성 합성 시스템으로 송신하여 음성 합성을 행하고, 만약 상기 온라인 음성 합성 시스템에서 음성 합성을 행하는 과정에서 온라인 음성 합성 시스템에 고장이 발생하거나 또는 실제 사용과정에서 네트워크 연결이 중단되면 온라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트를 오프라인 음성 합성 시스템으로 송신하여 음성 합성을 행하는 바, 이로써 온라인 음성 합성 및 오프라인 음성 합성의 우점을 결합하여, 더욱 안정적이고 효과가 더욱 자연스러운 음성 합성 서비스를 제공할 수 있어, 사용자의 음성 합성 요구가 늘 순조롭게 완성되도록 확보할 수 있고 사용자가 음성 합성 서비스에 대한 선호도 및 사용자 체험 만족도를 향상시킬 수 있다.

도2는 본 발명에 따른 음성 합성 방법의 다른 하나의 실시예의 흐름도로서, 도2에 도시된 바와 같이, 단계 S103 이 후 다음과 같은 단계를 더 포함할 수 있다.

단계 S201: 만약 오프라인 음성 합성 시스템의 음성 합성 과정에서, 상기 온라인 음성 합성 시스템의 고장이 해제되거나 또는 네트워크 연결이 회복되면 오프라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트를 계속하여 온라인 음성 합성 시스템으로 송신하여 음성 합성을 행한다.

다시 말하자면, 만약 상기 온라인 음성 합성 시스템에서 음성 합성을 행하는 과정에서 온라인 음성 합성 시스템에 고장이 발생하거나 또는 실제 사용과정에서 네트워크 연결이 중단되면 클라이언트는 온라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트를 오프라인 음성 합성 시스템으로 송신하여 음성 합성을 행한다. 이와 동시에, 클라이언트는 온라인 음성 합성 시스템의 고장이 해제되었는지 여부 또는 상기 클라이언트의 네트워크 연결이 회복되었는지 여부를 끊임없이 탐측한다. 일단 클라이언트에 의해 온라인 음성 합성 시스템의 고장이 해제되거나 또는 상기 클라이언트의 네트워크 연결이 회복된 것이 확인되면 클라이언트는 오프라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트를 계속하여 온라인 음성 합성 시스템으로 송신하여 음성 합성을 행한다. 다시 말하자면, 본 실시예에서, 클라이언트는 우선적으로 온라인 음성 합성 시스템을 적용하여 음성 합성을 행하여 더욱 좋은 음성 합성효과를 획득하고, 단지 온라인 음성 합성 시스템에 고장이 발생하거나 또는 클라이언트의 네트워크 연결이 중단될 때에야 비로소 온라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트를 오프라인 음성 합성 시스템으로 송신하여 음성 합성을 행한다.

단계 S202: 음성 합성이 완성된 후, 온라인 음성 합성 시스템의 음성데이터와 오프라인 음성 합성 시스템의 음성데이터를 스플라이싱하여 완전한 음성 합성데이터를 획득한다.

도3은 본 발명에 따른 음성 합성 방법의 또 다른 하나의 실시예의 흐름도로서, 도3에 도시된 바와 같이, 단계 S101 이후 그리고 단계 S103 이전에 다음과 같은 단계를 더 포함할 수 있다.

단계 S301: 네트워크 연결이 존재하지 않을 때, 상기 합성 대기 중인 텍스트를 오프라인 음성 합성 시스템으로 송신하여 음성 합성을 행한다.

단계 S302: 상기 네트워크 연결이 연통된 후, 오프라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트를 온라인 음성 합성 시스템으로 송신하여 음성 합성을 행한다.

본 실시예에서, 합성 대기 중인 텍스트를 획득한 후, 만약 네트워크 연결이 존재하지 않으면 클라이언트가 우선 상기 합성 대기 중인 텍스트를 오프라인 음성 합성 시스템으로 송신하여 음성 합성을 행하고, 다음 클라이언트가 네트워크 연결의 연통 여부를 계속하여 탐측하며, 네트워크 연결이 연통된 것이 탐측된 후 클라이언트가 오프라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트를 온라인 음성 합성 시스템으로 송신하여 음성 합성을 행한다.

도4는 본 발명에 따른 음성 합성 방법의 또 다른 하나의 실시예의 흐름도로서, 도4에 도시된 바와 같이, 단계 S102 이후 다음과 같은 단계를 더 포함할 수 있다.

단계 S401: 온라인 음성 합성 시스템에서 송신한 음성 합성이 이미 완성된 구절에 대응되는 음성데이터를 수신 및 저장한다. 그 중, 상기 음성 합성이 이미 완성된 구절에 대응되는 음성데이터는, 온라인 음성 합성 시스템이 상기 합성 대기 중인 텍스트에 대하여 구절을 끊고, 구절을 끊은 후 획득한 매 하나의 구절에 대하여 음성 합성을 행하여 획득된 것이다.

예를 들면, 합성 대기 중인 텍스트 t에 대하여, 네트워크 연결이 존재할 때, 클라이언트가 합성 대기 중인 텍스트 t를 온라인 음성 합성 시스템으로 송신하고, 온라인 음성 합성 시스템이 합성 대기 중인 텍스트 t를 수신한 후, 합성 대기 중인 텍스트 t에 대하여 구절을 끊고 [t1, t2, t3, ...]로 표기한 후 [t1, t2, t3, ...]에 대하여 음성 합성을 행하고, 얻은 음성데이터 [a1, a2, a3, ...]를 클라이언트로 송신한다.

본 실시예에서, 단계 S103은 다음과 같은 단계를 포함할 수 있다.

단계 S402: 온라인 음성 합성 시스템에 고장이 발생하거나 또는 네트워크 연결이 중단될 때 수신되는 음성 합성이 이미 완성된 구절에 대응되는 음성데이터에 의하여, 온라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트를 확정한다.

예를 들면, 만약 상기 온라인 음성 합성 시스템이 음성 합성을 행하는 과정에서, 온라인 음성 합성 시스템에 고장이 발생하거나 또는 클라이언트의 네트워크 연결이 중단되면, 클라이언트가 온라인 음성 합성 시스템에 고장이 발생하거나 또는 네트워크 연결이 중단될 때 수신되는 음성 합성이 이미 완성된 구절에 대응하는 음성데이터([a1, a2]로 가정함)에 의하여, t3에 대응되는 음성데이터를 획득할 때 에러가 발생되었음을 확정할 수 있다. 따라서, 온라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트는 t3 및 그 뒤의 텍스트임을 확정할 수 있다.

단계 S403: 상기 온라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트를 오프라인 음성 합성 시스템으로 송신하여 음성 합성을 행함으로써 상기 온라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트에 대응하는 음성데이터를 획득한다.

구체적으로, 온라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트가 t3 및 그 뒤의 텍스트임이 확정된 후, 클라이언트가 t3 및 그 뒤의 텍스트를 오프라인 음성 합성 시스템으로 포워드하고 음성 합성을 행하여 t3 및 그 뒤의 텍스트에 대응하는 음성데이터[a3', ...]를 얻는것이 필요된다.

본 실시예에서, 음성 합성이 완성된 후, 클라이언트가 온라인 음성 합성 시스템의 음성데이터와 오프라인 음성 합성 시스템의 음성데이터를 스플라이싱하여 완전한 음성 합성데이터 [a1, a2, a3', ...]를 획득할 수 있다.

상기 음성 합성 방법은 사용자의 음성 합성 체험을 개선할 수 있고, 네트워크 환경의 한정을 타파하여 각종 네트워크 환경에서 모두 사용자의 음성 합성 요구를 완성할 수 있는 동시에 단순한 오프라인 음성 합성보다 더욱 우수한 합성 효과를 얻을 수 있어 음성 합성 서비스가 더욱 안정적이고 신뢰적이도록 한다.

도5는 본 발명에 따른 음성 합성 장치의 하나의 실시예의 구조 모식도로서, 본 실시예 중의 음성 합성 장치는 클라이언트로 사용할 수 있거나 또는 클라이언트의 일부분으로 되어 본 발명의 도1에 도시된 실시예의 프로세스를 실현할 수 있다. 그 중, 상기 클라이언트는 스마트 이동단말에 설치될 수 있는 바, 상기 스마트 이동단말은 스마트폰 및/또는 태블릿PC 등일 수 있으나, 본 실시예는 스마트 이동단말의 형태에 대하여 한정하지 않는다.

도5에 도시된 바와 같이, 상기 음성 합성 장치는 텍스트처리모듈(51) 및 송신모듈(52)을 포함할 수 있다.

그 중, 텍스트처리모듈(51)은 텍스트를 처리하여 합성 대기 중인 텍스트를 획득하기 위한 것이다. 본 실시예에서, 텍스트처리모듈(51)은 구체적으로 텍스트에 대하여 구절을 끊어 단어 나누기, 품사 주석, 디지털 부호 처리, 병음 주석 및 운율 중단 예측 처리를 행하기 위한 것이다.

“

(전방)/f

(사백)/m

(미터에)/q

(있습니다)/v

(빨간 신호등 위반)/v

)2 fang(

)1 si(

)4 bai(

)2 mi(

)3 you(

)3 chuang(

)3 hong(

)2 deng(

)1 pai(

)1 zhao(

(전방)

(사백미터에) $

(있습니다)

송신모듈(52)은 네트워크 연결이 존재할 때, 상기 텍스트처리모듈(51)에 의해 획득된 합성 대기 중인 텍스트를 온라인 음성 합성 시스템으로 송신하여 음성 합성을 행하고, 만약 상기 온라인 음성 합성 시스템에서 음성 합성을 행하는 과정에서 상기 온라인 음성 합성 시스템에 고장이 발생하거나 또는 실제 사용과정에서 네트워크 연결이 중단되면 상기 온라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트를 오프라인 음성 합성 시스템으로 송신하여 음성 합성을 행하기 위한 것이다.

본 실시예에서, 네트워크 연결이 존재할 때, 송신모듈(52)은 상기 합성 대기 중인 텍스트를 온라인 음성 합성 시스템으로 송신하여 음성 합성을 행하고, 온라인 음성 합성 시스템은 파형 스플라이싱 합성 방식을 적용하여 이미 녹음한 음성 세그먼트를 일정한 규칙에 따라 구절로 스플라이싱한다. 이러한 합성 방법은 음질이 좋고 듣는 느낌이 자연스러우며 실제 사람이 발음하는 것과 더욱 유사한 우점을 가지고 있다. 음질이 좋고 듣는 느낌이 자연스러우며 실제 사람이 발음하는 것과 더욱 유사한 우점을 가지는 효과를 만족시키기 위하여 일반적으로 클라우드단의 음성베이스 모델은 아주 방대한 바(일반적으로 몇G에 달함) 로칼에 직접 응용할 수 없다.

만약 상기 온라인 음성 합성 시스템에서 음성 합성을 행하는 과정에서 온라인 음성 합성 시스템에 고장이 발생하거나 또는 실제 사용과정에서 네트워크 연결이 중단되면 송신모듈(52)은 온라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트를 오프라인 음성 합성 시스템으로 송신하여 음성 합성을 행한다. 오프라인 음성 합성 시스템은 일반적으로 파라미터 합성 방법을 사용하는 바, 우선 음성베이스로부터 음향학 파라미터를 추출한 후 음향학 파라미터와 보코더를 이용하여 음성을 재구축하는 것이 필요된다. 이러한 방법을 사용하면 저장이 필요한 음성베이스 데이터의 크기를 M바이트의 등급으로 줄일 수 있어, 오프라인 음성 합성이 휴대폰 등 이동 기기에서 사용할 수 있도록 한다. 그러나, 음향학 파라미터는 진실한 음성이 아니므로, 오프라인 음성 합성 시스템에서 합성된 음성의 자연성 및 음질은 온라인 음성 합성 시스템보다 못하다.

더 나아가서, 송신모듈(52)은 오프라인 음성 합성 시스템의 음성 합성 과정에서, 만약 온라인 음성 합성 시스템의 고장이 해제되거나 또는 상기 네트워크 연결이 회복되면 오프라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트를 계속하여 온라인 음성 합성 시스템으로 송신하여 음성 합성을 행하기 위한 것이다.

다시 말하자면, 만약 상기 온라인 음성 합성 시스템에서 음성 합성을 행하는 과정에서 온라인 음성 합성 시스템에 고장이 발생하거나 또는 실제 사용과정에서 네트워크 연결이 중단되면 송신모듈(52)은 온라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트를 오프라인 음성 합성 시스템으로 송신하여 음성 합성을 행한다. 이와 동시에, 클라이언트는 온라인 음성 합성 시스템의 고장이 해제되었는지 여부 또는 상기 클라이언트의 네트워크 연결이 회복되었는지 여부를 끊임없이 탐측한다. 일단 클라이언트에 의해 온라인 음성 합성 시스템의 고장이 해제되거나 또는 상기 클라이언트의 네트워크 연결이 회복된 것이 확인되면 송신모듈(52)은 오프라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트를 계속하여 온라인 음성 합성 시스템으로 송신하여 음성 합성을 행한다. 다시 말하자면, 본 실시예에서, 클라이언트는 우선적으로 온라인 음성 합성 시스템을 적용하여 음성 합성을 행하여 더욱 좋은 음성 합성효과를 획득하고, 단지 온라인 음성 합성 시스템에 고장이 발생하거나 또는 클라이언트의 네트워크 연결이 중단될 때에야 비로소 송신모듈(52)은 온라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트를 오프라인 음성 합성 시스템으로 송신하여 음성 합성을 행한다.

더 나아가서, 송신모듈(52)은 네트워크 연결이 존재하지 않을 때, 텍스트처리모듈(51)에 의해 획득된 합성 대기 중인 텍스트를 오프라인 음성 합성 시스템으로 송신하여 음성 합성을 행하고, 상기 네트워크 연결이 연통된 후, 오프라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트를 온라인 음성 합성 시스템으로 송신하여 음성 합성을 행하기 위한 것이다.

본 실시예에서, 텍스트처리모듈(51)에 의해 합성 대기 중인 텍스트를 획득한 후, 만약 네트워크 연결이 존재하지 않으면 송신모듈(52)은 우선 상기 합성 대기 중인 텍스트를 오프라인 음성 합성 시스템으로 송신하여 음성 합성을 행하고, 다음 클라이언트는 네트워크 연결의 연통 여부를 계속하여 탐측하며, 네트워크 연결이 연통된 것이 탐측된 후 송신모듈(52)은 오프라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트를 온라인 음성 합성 시스템으로 송신하여 음성 합성을 행한다. 그 후, 만약 상기 온라인 음성 합성 시스템에서 음성 합성을 행하는 과정에서 온라인 음성 합성 시스템에 고장이 발생하거나 또는 실제 사용과정에서 네트워크 연결이 중단되면 송신모듈(52)은 온라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트를 오프라인 음성 합성 시스템으로 송신하여 음성 합성을 행하고, 또한 온라인 음성 합성 시스템의 고장이 해제되거나 또는 상기 네트워크 연결이 회복되면 오프라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트를 계속하여 온라인 음성 합성 시스템으로 송신하여 음성 합성을 행한다.

상기 음성 합성 장치에서, 네트워크 연결이 존재할 때, 송신모듈(52)은 상기 합성 대기 중인 텍스트를 온라인 음성 합성 시스템으로 송신하여 음성 합성을 행하고, 만약 상기 온라인 음성 합성 시스템에서 음성 합성을 행하는 과정에서 상기 온라인 음성 합성 시스템에 고장이 발생하거나 또는 실제 사용과정에서 네트워크 연결이 중단되면 온라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트를 오프라인 음성 합성 시스템으로 송신하여 음성 합성을 행하는 바, 이로써 온라인 음성 합성 및 오프라인 음성 합성의 우점을 결합하여, 더욱 안정적이고 효과가 더욱 자연스러운 음성 합성 서비스를 제공할 수 있어, 사용자의 음성 합성 요구가 늘 순조롭게 완성되도록 확보할 수 있고 사용자가 음성 합성 서비스에 대한 선호도 및 사용자 체험 만족도를 향상시킬 수 있다.

도6은 본 발명에 따른 음성 합성 장치의 다른 하나의 실시예의 구조 모식도로서, 도5에 도시되는 음성 합성 장치에 비하여 다른 점이라면 도6에 도시된 음성 합성 장치는, 음성 합성이 완성된 후, 온라인 음성 합성 시스템의 음성데이터와 오프라인 음성 합성 시스템의 음성데이터를 스플라이싱하여 완전한 음성 합성데이터를 획득하기 위한 스플라이싱모듈(53)을 더 포함할 수 있다.

더 나아가서, 상기 음성 합성 장치는 수신모듈(54)과 저장모듈(55)을 더 포함할 수 있다.

그 중, 수신모듈(54)은 송신모듈(52)이 상기 합성 대기 중인 텍스트를 온라인 음성 합성 시스템으로 송신하여 음성 합성을 행한 후, 상기 온라인 음성 합성 시스템에서 송신한 음성 합성이 이미 완성된 구절에 대응되는 음성데이터를 수신하기 위한 것으로, 상기 음성 합성이 이미 완성된 구절에 대응되는 음성데이터는, 상기 온라인 음성 합성 시스템이 상기 합성 대기 중인 텍스트에 대하여 구절을 끊고 구절을 끊은 후 획득한 매 하나의 구절에 대하여 음성 합성을 행하여 획득된 것이다.

저장모듈(55)은 수신모듈(54)에 의해 수신된 음성 합성이 이미 완성된 구절에 대응되는 음성데이터를 저장하기 위한 것이다.

예를 들면, 합성 대기 중인 텍스트t에 대하여, 네트워크 연결이 존재할 때, 송신모듈(52)은 합성 대기 중인 텍스트 t를 온라인 음성 합성 시스템으로 송신하고, 온라인 음성 합성 시스템은 합성 대기 중인 텍스트 t를 수신한 후, 합성 대기 중인 텍스트 t에 대하여 구절을 끊고 [t1, t2, t3, ...]로 표기한 후 [t1, t2, t3, ...]에 대하여 음성 합성을 행하여, 얻은 음성데이터[a1, a2, a3, ...]를 클라이언트로 송신한다.

더 나아가서, 상기 음성 합성 장치는 확정모듈(56)을 더 포함할 수 있다.

확정모듈(56)은 온라인 음성 합성 시스템에 고장이 발생하거나 또는 상기 네트워크 연결이 중단될 때 수신되는 음성 합성이 이미 완성된 구절에 대응되는 음성데이터에 의하여, 온라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트를 확정하기 위한 것이다. 예를 들면, 만약 상기 온라인 음성 합성 시스템이 음성 합성을 행하는 과정에서, 온라인 음성 합성 시스템에 고장이 발생하거나 또는 클라이언트의 네트워크 연결이 중단되면, 확정모듈(56)은 온라인 음성 합성 시스템에 고장이 발생하거나 또는 네트워크 연결이 중단될 때 수신되는 음성 합성이 이미 완성된 구절에 대응되는 음성데이터([a1, a2]로 가정함)에 의하여, t3에 대응되는 음성데이터를 획득할 때 에러가 발생되었음을 확정할 수 있다. 따라서, 확정모듈(56)은 온라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트는 t3 및 그 뒤의 텍스트임을 확정할 수 있다.

이때, 송신모듈(52)은 진일보로 상기 온라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트를 오프라인 음성 합성 시스템으로 송신하여 음성 합성을 행함으로써 상기 온라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트에 대응하는 음성데이터를 획득하기 위한 것이다.

구체적으로, 확정모듈(56)은 온라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트가 t3 및 그 뒤의 텍스트임이 확정된 후, 송신모듈(52)은 t3 및 그 뒤의 텍스트를 오프라인 음성 합성 시스템으로 포워드하고 음성 합성을 행하여 t3 및 그 뒤의 텍스트에 대응하는 음성데이터[a3', ...]를 얻는 것이 필요된다.

본 실시예에서, 음성 합성이 완성된 후, 스플라이싱모듈(53)은 온라인 음성 합성 시스템의 음성데이터와 오프라인 음성 합성 시스템의 음성데이터를 스플라이싱하여 완전한 음성 합성데이터 [a1, a2, a3', ...]를 획득할 수 있다.

상기 음성 합성 장치는 사용자의 음성 합성 체험을 개선할 수 있고, 네트워크 환경의 한정을 타파하여 각종 네트워크 환경에서 모두 사용자의 음성 합성 요구를 완성할 수 있는 동시에 단순한 오프라인 음성 합성보다 더욱 우수한 합성 효과를 얻을 수 있어 음성 합성 서비스가 더욱 안정적이고 신뢰적이도록 한다.

본 발명의 실시예는 전자기기를 더 제공하고, 상기 전자기기는

하나 또는 복수개의 프로세서,

메모리, 및

하나 또는 복수개의 프로그램을 포함하되,

하나 또는 복수개의 프로그램은 상기 메모리 중에 저장되어 상기 하나 또는 복수개의 프로세서에 의해 실행될 때

텍스트를 처리하여 합성 대기 중인 텍스트를 획득하고,

네트워크 연결이 존재할 때, 상기 합성 대기 중인 텍스트를 온라인 음성 합성 시스템으로 송신하여 음성 합성을 행하며, 및

만약 상기 온라인 음성 합성 시스템에서 음성 합성을 행하는 과정에서 상기 온라인 음성 합성 시스템에 고장이 발생하거나 또는 실제 사용과정에서 네트워크 연결이 중단되면 상기 온라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트를 오프라인 음성 합성 시스템으로 송신하여 음성 합성을 행하는 것을 수행한다.

본 발명의 실시예는 비휘발성 컴퓨터 저장매체를 더 제공하고, 상기 컴퓨터 저장매체에 하나 또는 복수개의 모듈이 저장되어 있고, 상기 하나 또는 복수개의 모듈이 수행될 때

텍스트를 처리하여 합성 대기 중인 텍스트를 획득하고,

만약 상기 온라인 음성 합성 시스템에서 음성 합성을 행하는 과정에서 상기 온라인 음성 합성 시스템에 고장이 발생하거나 또는 실제 사용과정에서 네트워크 연결이 중단되면 상기 온라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트를 오프라인 음성 합성 시스템으로 송신하여 음성 합성을 행하는 조작을 실행한다.

설명해야 할 것은, 본 발명의 설명에서 용어 "제1", "제2" 등은 단지 목적을 설명하기 위한 것일 뿐, 상대적 중요성을 지시 또는 암시하기 위한 것으로 이해해서는 안된다. 이 외에, 본 발명의 설명에서 별도의 설명이 없는 한, "복수개"의 의미는 2개 또는 2개 이상이다.

흐름도에서 또는 여기서 기타 방식으로 설명되는 그 어떤 과정 또는 방법 설명은 하나의 또는 더 많은 특정 로직 기능 또는 과정의 단계를 실현하기 위한 수행 가능한 명령의 코드의 모듈, 단락 또는 부분을 포함함을 나타내는 것으로 이해할 수 있다. 아울러, 본 발명의 바람직한 실시 방식의 범위는 별도의 실현을 포함하고, 여기서 제시되거나 토론된 순서에 따른 것이 아닌 관련된 기능에 의하여 거의 동시의 방식 또는 상반되는 순서를 포함한 순서에 따라 기능을 수행할 수 있는바, 이는 마땅히 본 발명의 실시예가 속하는 기술분야의 통상의 지식을 가진 자들에 의하여 이해되어야 한다.

본 발명의 각 부분은 하드웨어, 소프트웨어, 펌웨어 또는 그들의 조합으로 실현될 수 있다는 것으로 이해될 것이다. 상술한 실시 방식에서, 복수의 단계나 방법은 메모리에 저장된 적합한 명령으로 시스템 실행을 실행하는 소프트웨어 또는 펌웨어로 실현할 수 있다. 예를 들어, 만약 하드웨어로 실현한다면 다른 한 실시 방식에서처럼 본 분야에서의 데이터 신호에 대해 로직 기능을 실현하기 위한 로직 게이트 회로를 구비한 이산 로직 회로, 적합한 조합 로직 게이트 회로를 구비한 전용 집적 회로, 프로그램 가능 게이트 어레이（PGA）, 필드 프로그램 가능 게이트 어레이（FPGA）등 공지된 기술 중의 어느 하나 또는 그들의 조합으로 실현할 수 있다.

본 발명이 속하는 기술분야의 통상의 지식을 가진 자들은 상술한 실시예의 방법이 지니는 전부 또는 일부 단계를 실현하는 것은 프로그램으로 관련 하드웨어를 명령하는 것을 통하여 완성할 수 있고 상기의 프로그램은 컴퓨터 판독 가능 저장 매개물에 저장될 수 있고 당해 프로그램이 실행될 때 방법 실시예의 단계 중의 하나 또는 그 조합을 포함한다는 것을 이해할 수 있다.

이 외에, 본 발명의 각 실시예 중의 각 기능 유닛은 하나의 처리 모듈에 집적될 수 있고 각 유닛의 단독적 물리 존재일 수도 있으며 둘 또는 둘 이상의 유닛이 한 모듈에 집적될 수도 있다. 상술한 집적된 모듈은 하드웨어의 형식을 적용하여 실현할 수 있고 소프트웨어 기능 모듈의 형식을 적용하여 실현할 수도 있다. 상기 집적된 모듈이 만약 소프트웨어 기능 모듈의 형식으로 실현되고 독립된 제품으로 판매되거나 사용될 경우 컴퓨터 판독 가능 저장 매개물에 저장될 수도 있다.

상술한 저장 매개물은 읽기 전용 기억 장치, 디스크 또는 CD등 일 수 있다.

본 명세서의 설명에서 참조 용어 "일 실시예", "일부 실시예", "예시", "구체적 예시" 또는 "일부 예시" 등의 설명은 당해 실시예 또는 예시를 결합하여 설명하는 구체적인 특징, 구조, 재료 또는 특점이 본 발명의 적어도 하나의 실시예 또는 예시에 포함된다는 것을 의미한다. 본 명세서에서 상술한 용어에 대한 함축적인 표달이 반드시 동일한 실시예 또는 예시를 가리키는 것은 아니다. 그리고, 설명된 구체적 특징, 구조, 재료 또는 특점은 임의의 하나 또는 복수의 실시예 또는 예시에서 적합한 방식으로 결합될 수 있다.

비록 이미 본 발명의 실시예를 제시하고 설명하였으나 본 발명이 속하는 기술 분야의 통상의 지식을 가진 들은 본 발명의 원리와 취지를 탈리하지 않는 전제하에 이러한 실시예에 대해 변화, 수정, 대체와 변형을 진행할 수 있고, 본 발명의 범위는 청구항 및 그 균등물에 의해 한정된다는것으로 이해할 것이다.

Claims

음성 합성 방법에 있어서,
텍스트를 처리하여 합성 대기 중인 텍스트를 획득하는 단계,
네트워크 연결이 존재할 때, 상기 합성 대기 중인 텍스트를 온라인 음성 합성 시스템으로 송신하여 음성 합성을 행하는 단계, 및
만약 상기 온라인 음성 합성 시스템에서 음성 합성을 행하는 과정에서 상기 온라인 음성 합성 시스템에 고장이 발생하거나 또는 실제 사용과정에서 네트워크 연결이 중단되면 상기 온라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트를 오프라인 음성 합성 시스템으로 송신하여 음성 합성을 행하는 단계를 포함하되,
상기 온라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트를 오프라인 음성 합성 시스템으로 송신하여 음성 합성을 행하는 단계 이후,
만약 상기 오프라인 음성 합성 시스템의 음성 합성 과정에서, 상기 온라인 음성 합성 시스템의 고장이 해제되거나 또는 상기 네트워크 연결이 회복되면 상기 오프라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트를 계속하여 상기 온라인 음성 합성 시스템으로 송신하여 음성 합성을 행하는 단계를 더 포함하는 것을 특징으로 하는 음성 합성 방법.
삭제
제1항에 있어서,
상기 텍스트를 처리하여 합성 대기 중인 텍스트를 획득하는 단계 이후, 상기 온라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트를 오프라인 음성 합성 시스템으로 송신하여 음성 합성을 행하는 단계 이전,
네트워크 연결이 존재하지 않을 때, 상기 합성 대기 중인 텍스트를 오프라인 음성 합성 시스템으로 송신하여 음성 합성을 행하는 단계, 및
상기 네트워크 연결이 연통된 후, 상기 오프라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트를 온라인 음성 합성 시스템으로 송신하여 음성 합성을 행하는 단계를 더 포함하는 것을 특징으로 하는 음성 합성 방법.
제1항 또는 제3항에 있어서,
음성 합성이 완성된 후, 상기 온라인 음성 합성 시스템의 음성데이터와 상기 오프라인 음성 합성 시스템의 음성데이터를 스플라이싱하여 완전한 음성 합성데이터를 획득하는 단계를 더 포함하는 것을 특징으로 하는 음성 합성 방법.
제1항 또는 제3항에 있어서,
상기 텍스트를 처리하는 단계는,
텍스트에 대하여 구절을 끊어 단어 나누기, 품사 주석, 디지털 부호 처리, 병음 주석 및 운율 중단 예측 처리를 행하는 것을 포함하는 것을 특징으로 하는 음성 합성 방법.
제1항에 있어서,
상기 합성 대기 중인 텍스트를 온라인 음성 합성 시스템으로 송신하여 음성 합성을 행하는 단계 이후,
상기 온라인 음성 합성 시스템에서 송신한 음성 합성이 이미 완성된 구절에 대응되는 음성데이터를 수신 및 저장하는 단계를 더 포함하되,
상기 음성 합성이 이미 완성된 구절에 대응되는 음성데이터는 상기 온라인 음성 합성 시스템이 상기 합성 대기 중인 텍스트에 대하여 구절을 끊고, 구절을 끊은 후 획득한 매 하나의 구절에 대하여 음성 합성을 행하여 획득된 것을 특징으로 하는 음성 합성 방법.
제6항에 있어서,
상기 온라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트를 오프라인 음성 합성 시스템으로 송신하여 음성 합성을 행하는 단계는,
상기 온라인 음성 합성 시스템에 고장이 발생하거나 또는 상기 네트워크 연결이 중단될 때 수신되는 음성 합성이 이미 완성된 구절에 대응되는 음성데이터에 의하여, 상기 온라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트를 확정하는 단계, 및
상기 온라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트를 상기 오프라인 음성 합성 시스템으로 송신하여 음성 합성을 행함으로써 상기 온라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트에 대응하는 음성데이터를 획득하는 단계를 포함하는 것을 특징으로 하는 음성 합성 방법.
음성 합성 장치에 있어서,
텍스트를 처리하여 합성 대기 중인 텍스트를 획득하기 위한 텍스트처리모듈, 및
네트워크 연결이 존재할 때, 상기 텍스트처리모듈에 의해 획득된 합성 대기 중인 텍스트를 온라인 음성 합성 시스템으로 송신하여 음성 합성을 행하고, 만약 상기 온라인 음성 합성 시스템에서 음성 합성을 행하는 과정에서 상기 온라인 음성 합성 시스템에 고장이 발생하거나 또는 실제 사용과정에서 네트워크 연결이 중단되면 상기 온라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트를 오프라인 음성 합성 시스템으로 송신하여 음성 합성을 행하기 위한 송신모듈을 포함하고,
상기 송신모듈은 또 상기 오프라인 음성 합성 시스템의 음성 합성 과정에서, 만약 상기 온라인 음성 합성 시스템의 고장이 해제되거나 또는 상기 네트워크 연결이 회복되면, 상기 오프라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트를 계속하여 상기 온라인 음성 합성 시스템으로 송신하여 음성 합성을 행하기 위한 것임을 특징으로 하는 음성 합성 장치.
삭제
제8항에 있어서,
상기 송신모듈은 또 네트워크 연결이 존재하지 않을 때, 상기 텍스트처리모듈에 의해 획득된 합성 대기 중인 텍스트를 오프라인 음성 합성 시스템으로 송신하여 음성 합성을 행하고, 상기 네트워크 연결이 연통된 후, 상기 오프라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트를 온라인 음성 합성 시스템으로 송신하여 음성 합성을 행하기 위한 것임을 특징으로 하는 음성 합성 장치.
제8항 또는 제10항에 있어서,
음성 합성이 완성된 후, 상기 온라인 음성 합성 시스템의 음성데이터와 상기 오프라인 음성 합성 시스템의 음성데이터를 스플라이싱하여 완전한 음성 합성데이터를 획득하기 위한 스플라이싱모듈을 더 포함하는 것을 특징으로 하는 음성 합성 장치.
제8항 또는 제10항에 있어서,
상기 텍스트처리모듈은 구체적으로 텍스트에 대하여 구절을 끊어 단어 나누기, 품사 주석, 디지털 부호 처리, 병음 주석 및 운율 중단 예측 처리를 행하기 위한 것임을 특징으로 하는 음성 합성 장치.
제8항에 있어서,
상기 송신모듈이 상기 합성 대기 중인 텍스트를 온라인 음성 합성 시스템으로 송신하여 음성 합성을 행한 후, 상기 온라인 음성 합성 시스템에서 송신한 음성 합성이 이미 완성된 구절에 대응되는 음성데이터를 수신하기 위한 수신 모듈 - 상기 음성 합성이 이미 완성된 구절에 대응되는 음성데이터는 상기 온라인 음성 합성 시스템이 상기 합성 대기 중인 텍스트에 대하여 구절을 끊고 구절을 끊은 후 획득한 매 하나의 구절에 대하여 음성 합성을 행하여 획득된 것임 -, 및
상기 수신모듈에 의해 수신된 음성 합성이 이미 완성된 구절에 대응되는 음성데이터를 저장하기 위한 저장모듈을 더 포함하는 것을 특징으로 하는 음성 합성 장치.
제13항에 있어서,
확정모듈을 더 포함하고,
상기 확정모듈은 상기 온라인 음성 합성 시스템에 고장이 발생하거나 또는 상기 네트워크 연결이 중단될 때 수신되는 음성 합성이 이미 완성된 구절에 대응되는 음성데이터에 의하여, 상기 온라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트를 확정하기 위한 것이고,
상기 송신모듈은 또 상기 온라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트를 상기 오프라인 음성 합성 시스템으로 송신하여 음성 합성을 행함으로써 상기 온라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트에 대응하는 음성데이터를 획득하기 위한 것을 특징으로 하는 음성 합성 장치.
전자기기에 있어서,
하나 또는 복수개의 프로세서,
메모리, 및
하나 또는 복수개의 프로그램을 포함하되,
상기 하나 또는 복수개의 프로그램은 상기 메모리 중에 저장되고, 상기 하나 또는 복수개의 프로세서에 의해 실행될 때 제1항에 따른 방법을 수행하는 것을 특징으로 하는 전자기기.
비휘발성 컴퓨터 저장매체에 있어서,
상기 컴퓨터 저장매체는 하나 또는 복수개의 모듈이 저장되어 있고, 상기 하나 또는 복수개의 모듈이 수행될 때 제1항에 따른 방법을 실행하는 것을 특징으로 하는 비휘발성 컴퓨터 저장매체.