KR101880378B1 - 음성 합성 방법 및 장치 - Google Patents

음성 합성 방법 및 장치 Download PDF

Info

Publication number
KR101880378B1
KR101880378B1 KR1020167028544A KR20167028544A KR101880378B1 KR 101880378 B1 KR101880378 B1 KR 101880378B1 KR 1020167028544 A KR1020167028544 A KR 1020167028544A KR 20167028544 A KR20167028544 A KR 20167028544A KR 101880378 B1 KR101880378 B1 KR 101880378B1
Authority
KR
South Korea
Prior art keywords
speech synthesis
speech
text
synthesis system
line
Prior art date
Application number
KR1020167028544A
Other languages
English (en)
Other versions
KR20170021226A (ko
Inventor
얀 시에
슈린 리
지에 바이
Original Assignee
바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드 filed Critical 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드
Publication of KR20170021226A publication Critical patent/KR20170021226A/ko
Application granted granted Critical
Publication of KR101880378B1 publication Critical patent/KR101880378B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • G10L13/07Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 음성 합성 방법 및 장치에 관한 것으로, 상기 음성 합성 방법은 텍스트를 처리하여 합성 대기 중인 텍스트를 획득하는 단계, 네트워크 연결이 존재할 때, 상기 합성 대기 중인 텍스트를 온라인 음성 합성 시스템으로 송신하여 음성 합성을 행하는 단계, 및 만약 상기 온라인 음성 합성 시스템에서 음성 합성을 행하는 과정에서, 상기 온라인 음성 합성 시스템에 고장이 발생하거나 또는 실제 사용과정에서 네트워크 연결이 중단되면, 상기 온라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트를 오프라인 음성 합성 시스템으로 송신하여 음성 합성을 행하는 단계를 포함한다. 본 발명은 온라인 음성 합성 및 오프라인 음성 합성의 우점을 결합하여 더욱 안정적이고 효과가 더욱 자연스러운 음성 합성 서비스를 제공할 수 있어, 사용자의 음성 합성 요구가 늘 순조롭게 완성되도록 확보할 수 있고 사용자가 음성 합성 서비스에 대한 선호도 및 사용자 체험 만족도를 향상시킬 수 있다.

Description

음성 합성 방법 및 장치{SPEECH SYNTHESIS METHOD AND DEVICE}
본원 출원은 바이두 온라인 네트웍 테크놀러지(베이징) 캄파니 리미티드가 2015년 07월 15일에 제출한 발명의 명칭이 "음성 합성 방법 및 장치"이고, 중국특허출원번호가 "201510417099.X"인 우선권을 요구한다.
본 발명은 음성처리 기술분야에 관한 것으로, 특히 음성 합성 방법 및 장치에 관한 것이다.
음성 합성 기술은 서비스의 제공방식에 의하여 클라우드단 엔진을 기반으로 하는 음성 합성(이하, "온라인 음성 합성”이라고 칭함) 및 로칼 엔진을 기반으로 하는 음성 합성(이하, "오프라인 음성 합성”이라고 칭함) 두가지로 구분할 수 있으며, 이 두가지 음성 합성 기술은 각자의 우점과 결점을 가지고 있다. 온라인 음성 합성은 고도의 자연성, 높은 실시간성 및 클라이언트 기기 자원을 점용하지 않는 등 우점을 구비하고 있지만, 그 결점도 아주 명확하다. 즉, 음성 합성을 사용하는 애플리케이션(Application, 이하 "앱(App)"이라고 칭함)은 일차적으로 긴 텍스트를 서버단으로 송신하지만, 서버단에서 합성하는 음성데이터는 이를 분리시켜 상기 앱을 설치한 클라이언트로 송신되는 것이다. 음성의 데이터량은 압축을 거친 후에도 상대적으로 크므로(예를 들면, 4kb/s), 네트워크 환경이 불안정적일 경우 온라인 음성 합성은 아주 느려지고 연관된 합성을 구현할 수 없게 된다. 오프라인 음성 합성은 네트워크에 대한 의지를 이탈할 수 있어 합성 서비스의 안정성을 확보할 수는 있지만, 합성의 효과는 온라인 합성에 비하여 좀 차하다.
상기와 같이, 기존기술에서 사용하는 음성 합성 기술의 제품은 모두 단독 온라인 음성 합성 또는 단독 오프라인 음성 합성을 기반으로 한 것으로, 온라인 음성 합성은 데이터 트래픽에 대한 소모가 비교적 크고 네트워크 에러가 발생할 시 사용자에게 에러가 발생하였음을 제시할 수 밖에 없으며, 오프라인 음성 합성의 효과는 자연스럽지 못하여 사용자의 체험 만족도가 떨어진다.
본 발명의 목적은 적어도 일정한 정도에서 관련 기술 중의 기술적 문제 중의 하나를 해결하기 위한 것이다.
이를 위하여, 본 발명의 첫번째 목적은 음성 합성 방법을 제공하는 것이다. 상기 방법은, 온라인 음성 합성 및 오프라인 음성 합성의 우점을 결합하여 더욱 안정적이고 효과가 더욱 자연스러운 음성 합성 서비스를 제공할 수 있어, 사용자의 음성 합성 요구가 늘 순조롭게 완성되도록 확보할 수 있고 사용자가 음성 합성 서비스에 대한 선호도 및 사용자 체험 만족도를 향상시킬 수 있다.
본 발명의 두번째 목적은 음성 합성 장치를 제공하는 것이다.
상기 목적을 실현하기 위하여, 본 발명의 제1 측면에 따른 실시예의 음성 합성 방법은, 텍스트를 처리하여 합성 대기 중인 텍스트를 획득하는 단계, 네트워크 연결이 존재할 때, 상기 합성 대기 중인 텍스트를 온라인 음성 합성 시스템으로 송신하여 음성 합성을 행하는 단계, 및 만약 상기 온라인 음성 합성 시스템에서 음성 합성을 행하는 과정에서 상기 온라인 음성 합성 시스템에 고장이 발생하거나 또는 실제 사용과정에서 네트워크 연결이 중단되면 상기 온라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트를 오프라인 음성 합성 시스템으로 송신하여 음성 합성을 행하는 단계를 포함한다.
본 발명의 실시예의 음성 합성 방법에서, 네트워크 연결이 존재할 때, 상기 합성 대기 중인 텍스트를 온라인 음성 합성 시스템으로 송신하여 음성 합성을 행하고, 만약 상기 온라인 음성 합성 시스템에서 음성 합성을 행하는 과정에서 온라인 음성 합성 시스템에 고장이 발생하거나 또는 실제 사용과정에서 네트워크 연결이 중단되면 온라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트를 오프라인 음성 합성 시스템으로 송신하여 음성 합성을 행하는 바, 이로써 온라인 음성 합성 및 오프라인 음성 합성의 우점을 결합하여 더욱 안정적이고 효과가 더욱 자연스러운 음성 합성 서비스를 제공할 수 있어, 사용자의 음성 합성 요구가 늘 순조롭게 완성되도록 확보할 수 있고 사용자가 음성 합성 서비스에 대한 선호도 및 사용자 체험 만족도를 향상시킬 수 있다.
상기 목적을 달성하기 위하여, 본 발명의 제2 측면에 따른 실시예의 음성 합성 장치는, 텍스트를 처리하여 합성 대기 중인 텍스트를 획득하기 위한 텍스트처리모듈, 및 네트워크 연결이 존재할 때, 상기 텍스트처리모듈에 의해 획득된 합성 대기 중인 텍스트를 온라인 음성 합성 시스템으로 송신하여 음성 합성을 행하고, 만약 상기 온라인 음성 합성 시스템에서 음성 합성을 행하는 과정에서 상기 온라인 음성 합성 시스템에 고장이 발생하거나 또는 실제 사용과정에서 네트워크 연결이 중단되면 상기 온라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트를 오프라인 음성 합성 시스템으로 송신하여 음성 합성을 행하기 위한 송신모듈을 포함한다.
본 발명의 실시예의 음성 합성 장치에서, 네트워크 연결이 존재할 때, 송신모듈은 상기 합성 대기 중인 텍스트를 온라인 음성 합성 시스템으로 송신하여 음성 합성을 행하고, 만약 상기 온라인 음성 합성 시스템에서 음성 합성을 행하는 과정에서 온라인 음성 합성 시스템에 고장이 발생하거나 또는 실제 사용과정에서 네트워크 연결이 중단되면 온라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트를 오프라인 음성 합성 시스템으로 송신하여 음성 합성을 행하는 바, 이로써 온라인 음성 합성 및 오프라인 음성 합성의 우점을 결합하여 더욱 안정적이고 효과가 더욱 자연스러운 음성 합성 서비스를 제공할 수 있어, 사용자의 음성 합성 요구가 늘 순조롭게 완성되도록 확보할 수 있고 사용자가 음성 합성 서비스에 대한 선호도 및 사용자 체험 만족도를 향상시킬 수 있다.
본 발명의 실시예는 전자기기를 더 제공하고, 상기 전자기기는, 하나 또는 복수개의 프로세서, 메모리, 및 하나 또는 복수개의 프로그램을 포함하되,
하나 또는 복수개의 프로그램은 상기 메모리 중에 저장되고, 상기 하나 또는 복수개의 프로세서에 의해 실행될 때, 텍스트를 처리하여 합성 대기 중인 텍스트를 획득하고, 네트워크 연결이 존재할 때, 상기 합성 대기 중인 텍스트를 온라인 음성 합성 시스템으로 송신하여 음성 합성을 행하며, 및 만약 상기 온라인 음성 합성 시스템에서 음성 합성을 행하는 과정에서 상기 온라인 음성 합성 시스템에 고장이 발생하거나 또는 실제 사용과정에서 네트워크 연결이 중단되면 상기 온라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트를 오프라인 음성 합성 시스템으로 송신하여 음성 합성을 행하는 것을 수행한다.
본 발명의 실시예는 비휘발성 컴퓨터 저장매체를 더 제공하고, 상기 컴퓨터 저장매체에 하나 또는 복수개의 모듈이 저장되어 있고, 상기 하나 또는 복수개의 모듈이 수행될 때,
텍스트를 처리하여 합성 대기 중인 텍스트를 획득하고, 네트워크 연결이 존재할 때, 상기 합성 대기 중인 텍스트를 온라인 음성 합성 시스템으로 송신하여 음성 합성을 행하며, 및 만약 상기 온라인 음성 합성 시스템에서 음성 합성을 행하는 과정에서 상기 온라인 음성 합성 시스템에 고장이 발생하거나 또는 실제 사용과정에서 네트워크 연결이 중단되면 상기 온라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트를 오프라인 음성 합성 시스템으로 송신하여 음성 합성을 행하는 조작을 실행한다.
본 발명의 추가적인 측면과 우점은 이하 설명에서 일부 제기되고 다른 일부는 이하 설명에서 더욱 명확해지거나 또는 본 발명의 실천을 통하여 이해될 것이다.
본 발명의 상기 및/또는 추가적인 측면과 우점은 이하 첨부된 도면을 결합하여 실시예에 대한 설명으로부터 더욱 명확해지고 용이하게 이해될 것이다.
도1은 본 발명에 따른 음성 합성 방법의 하나의 실시예의 흐름도이다.
도2는 본 발명에 따른 음성 합성 방법의 다른 하나의 실시예의 흐름도이다.
도3은 본 발명에 따른 음성 합성 방법의 또 다른 하나의 실시예의 흐름도이다.
도4는 본 발명에 따른 음성 합성 방법의 또 다른 하나의 실시예의 흐름도이다.
도5는 본 발명에 따른 음성 합성 장치의 하나의 실시예의 구조 모식도이다.
도6은 본 발명에 따른 음성 합성 장치의 다른 하나의 실시예의 구조 모식도이다.
이하 본 발명의 실시예를 상세하게 설명하도록 하고, 상기 실시예의 예시는 첨부된 도면에서 표시되도록 하며, 동일하거나 유사한 부호는 늘 동일하거나 유사한 모듈 또는 동일하거나 유사한 기능을 구비하는 모듈을 표시한다. 이하, 도면을 참고하여 설명하는 실시예는 예시적인 것으로, 단지 본 발명을 해석하기 위한 것일 뿐, 본 발명에 대한 한정으로 이해해서는 안된다. 반대로, 본 발명의 실시예는 첨부하는 특허청구범위의 사상과 의미 범위 내에 있는 모든 변화, 수정 및 등가물을 포함한다.
도1은 본 발명에 따른 음성 합성 방법의 하나의 실시예의 흐름도로서, 도1에 도시된 바와 같이, 상기 음성 합성 방법은 다음과 같은 단계를 포함할 수 있다.
단계 S101: 텍스트를 처리하여 합성 대기 중인 텍스트를 획득한다.
구체적으로, 텍스트를 처리하는 것은, 텍스트에 대하여 구절을 끊어 단어 나누기, 품사 주석, 디지털 부호 처리, 병음 주석 및 운율 중단 예측 처리를 행하는 것 일 수 있다.
Figure 112016099403017-pct00001
(전방 사백미터에 빨간 신호등 위반 카메라가 있습니다)”를 예로 들면, 우선 구절을 끊어 단어 나누기, 품사 주석 및 디지털 부호 처리를 거쳐 "
Figure 112016099403017-pct00002
(전방)/f
Figure 112016099403017-pct00003
(사백)/m
Figure 112016099403017-pct00004
(미터에)/q
Figure 112016099403017-pct00005
(있습니다)/v
Figure 112016099403017-pct00006
(빨간 신호등 위반)/v
Figure 112016099403017-pct00007
(카메라가)/v"의 순서를 얻을 수 있다. 그 중, 슬래시 뒤의 부분은 품사의 약자이고, 병음 주석 시에 품사에 의하여 다음자 분석을 한다. 다음, 또 병음 주석하여 "qian(
Figure 112016099403017-pct00008
)2 fang(
Figure 112016099403017-pct00009
)1 si(
Figure 112016099403017-pct00010
)4 bai(
Figure 112016099403017-pct00011
)2 mi(
Figure 112016099403017-pct00012
)3 you(
Figure 112016099403017-pct00013
)3 chuang(
Figure 112016099403017-pct00014
)3 hong(
Figure 112016099403017-pct00015
)2 deng(
Figure 112016099403017-pct00016
)1 pai(
Figure 112016099403017-pct00017
)1 zhao(
Figure 112016099403017-pct00018
)4"의 순서를 얻는다. 마지막으로, 운율 중단에 대하여 예측하는 바, 처리 후의 서열은 "
Figure 112016099403017-pct00019
(전방)
Figure 112016099403017-pct00020
(사백미터에) $
Figure 112016099403017-pct00021
(있습니다)
Figure 112016099403017-pct00022
Figure 112016099403017-pct00023
(빨간 신호등 위반 카메라가)$"이다. 그 중 빈칸은 짧은 운율 중단을 대표하고, $부호는 긴 운율 중단을 대표한다.
단계 S102: 네트워크 연결이 존재할 때, 상기 합성 대기 중인 텍스트를 온라인 음성 합성 시스템으로 송신하여 음성 합성을 행한다.
본 실시예에서, 네트워크 연결이 존재할 때, 클라이언트는 상기 합성 대기 중인 텍스트를 온라인 음성 합성 시스템으로 송신하여 음성 합성을 행한다. 온라인 음성 합성 시스템은 파형 스플라이싱 합성 방식을 적용하여 이미 녹음한 음성 세그먼트를 일정한 규칙에 따라 구절로 스플라이싱한다. 이러한 합성 방법은 음질이 좋고 듣는 느낌이 자연스러우며 실제 사람이 발음하는 것과 더욱 유사한 우점을 가지고 있다. 음질이 좋고 듣는 느낌이 자연스러우며 실제 사람이 발음하는 것과 더욱 유사한 우점을 가지는 효과를 만족시키기 위하여 일반적으로 클라우드단의 음성베이스 모델은 아주 방대한 바(일반적으로 몇G에 달함) 로칼에 직접 응용될 수 없다.
단계 S103: 상기 온라인 음성 합성 시스템에서 음성 합성을 행하는 과정에서 상기 온라인 음성 합성 시스템에 고장이 발생하거나 또는 실제 사용과정에서 네트워크 연결이 중단되면 상기 온라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트를 오프라인 음성 합성 시스템으로 송신하여 음성 합성을 행한다.
본 실시예에서, 상기 온라인 음성 합성 시스템에서 음성 합성을 행하는 과정에서 상기 온라인 음성 합성 시스템에 고장이 발생하거나 또는 실제 사용과정에서 네트워크 연결이 중단되면 클라이언트는 온라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트를 오프라인 음성 합성 시스템으로 송신하여 음성 합성을 행한다. 오프라인 음성 합성 시스템은 일반적으로 파라미터 합성 방법을 사용하는 바, 우선 음성베이스로부터 음향학 파라미터를 추출한 후 음향학 파라미터와 보코더를 이용하여 음성을 재구축하는 것이 필요된다. 이러한 방법을 사용하면 저장이 필요한 음성베이스 데이터의 크기를 M바이트의 등급으로 줄일 수 있어, 오프라인 음성 합성이 휴대폰 등 이동 기기에서 사용할 수 있도록 한다. 그러나, 음향학 파라미터는 진실한 음성이 아니므로, 오프라인 음성 합성 시스템에서 합성된 음성의 자연성 및 음질은 온라인 음성 합성 시스템보다 못하다.
더 나아가서, 음성 합성이 완성 이후, 클라이언트는 온라인 음성 합성 시스템의 음성데이터와 오프라인 음성 합성 시스템의 음성데이터를 스플라이싱하여 완전한 음성 합성데이터를 획득한다.
상기 음성 합성 방법에서, 네트워크 연결이 존재할 때, 상기 합성 대기 중인 텍스트를 온라인 음성 합성 시스템으로 송신하여 음성 합성을 행하고, 만약 상기 온라인 음성 합성 시스템에서 음성 합성을 행하는 과정에서 온라인 음성 합성 시스템에 고장이 발생하거나 또는 실제 사용과정에서 네트워크 연결이 중단되면 온라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트를 오프라인 음성 합성 시스템으로 송신하여 음성 합성을 행하는 바, 이로써 온라인 음성 합성 및 오프라인 음성 합성의 우점을 결합하여, 더욱 안정적이고 효과가 더욱 자연스러운 음성 합성 서비스를 제공할 수 있어, 사용자의 음성 합성 요구가 늘 순조롭게 완성되도록 확보할 수 있고 사용자가 음성 합성 서비스에 대한 선호도 및 사용자 체험 만족도를 향상시킬 수 있다.
도2는 본 발명에 따른 음성 합성 방법의 다른 하나의 실시예의 흐름도로서, 도2에 도시된 바와 같이, 단계 S103 이 후 다음과 같은 단계를 더 포함할 수 있다.
단계 S201: 만약 오프라인 음성 합성 시스템의 음성 합성 과정에서, 상기 온라인 음성 합성 시스템의 고장이 해제되거나 또는 네트워크 연결이 회복되면 오프라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트를 계속하여 온라인 음성 합성 시스템으로 송신하여 음성 합성을 행한다.
다시 말하자면, 만약 상기 온라인 음성 합성 시스템에서 음성 합성을 행하는 과정에서 온라인 음성 합성 시스템에 고장이 발생하거나 또는 실제 사용과정에서 네트워크 연결이 중단되면 클라이언트는 온라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트를 오프라인 음성 합성 시스템으로 송신하여 음성 합성을 행한다. 이와 동시에, 클라이언트는 온라인 음성 합성 시스템의 고장이 해제되었는지 여부 또는 상기 클라이언트의 네트워크 연결이 회복되었는지 여부를 끊임없이 탐측한다. 일단 클라이언트에 의해 온라인 음성 합성 시스템의 고장이 해제되거나 또는 상기 클라이언트의 네트워크 연결이 회복된 것이 확인되면 클라이언트는 오프라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트를 계속하여 온라인 음성 합성 시스템으로 송신하여 음성 합성을 행한다. 다시 말하자면, 본 실시예에서, 클라이언트는 우선적으로 온라인 음성 합성 시스템을 적용하여 음성 합성을 행하여 더욱 좋은 음성 합성효과를 획득하고, 단지 온라인 음성 합성 시스템에 고장이 발생하거나 또는 클라이언트의 네트워크 연결이 중단될 때에야 비로소 온라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트를 오프라인 음성 합성 시스템으로 송신하여 음성 합성을 행한다.
단계 S202: 음성 합성이 완성된 후, 온라인 음성 합성 시스템의 음성데이터와 오프라인 음성 합성 시스템의 음성데이터를 스플라이싱하여 완전한 음성 합성데이터를 획득한다.
도3은 본 발명에 따른 음성 합성 방법의 또 다른 하나의 실시예의 흐름도로서, 도3에 도시된 바와 같이, 단계 S101 이후 그리고 단계 S103 이전에 다음과 같은 단계를 더 포함할 수 있다.
단계 S301: 네트워크 연결이 존재하지 않을 때, 상기 합성 대기 중인 텍스트를 오프라인 음성 합성 시스템으로 송신하여 음성 합성을 행한다.
단계 S302: 상기 네트워크 연결이 연통된 후, 오프라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트를 온라인 음성 합성 시스템으로 송신하여 음성 합성을 행한다.
본 실시예에서, 합성 대기 중인 텍스트를 획득한 후, 만약 네트워크 연결이 존재하지 않으면 클라이언트가 우선 상기 합성 대기 중인 텍스트를 오프라인 음성 합성 시스템으로 송신하여 음성 합성을 행하고, 다음 클라이언트가 네트워크 연결의 연통 여부를 계속하여 탐측하며, 네트워크 연결이 연통된 것이 탐측된 후 클라이언트가 오프라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트를 온라인 음성 합성 시스템으로 송신하여 음성 합성을 행한다.
도4는 본 발명에 따른 음성 합성 방법의 또 다른 하나의 실시예의 흐름도로서, 도4에 도시된 바와 같이, 단계 S102 이후 다음과 같은 단계를 더 포함할 수 있다.
단계 S401: 온라인 음성 합성 시스템에서 송신한 음성 합성이 이미 완성된 구절에 대응되는 음성데이터를 수신 및 저장한다. 그 중, 상기 음성 합성이 이미 완성된 구절에 대응되는 음성데이터는, 온라인 음성 합성 시스템이 상기 합성 대기 중인 텍스트에 대하여 구절을 끊고, 구절을 끊은 후 획득한 매 하나의 구절에 대하여 음성 합성을 행하여 획득된 것이다.
예를 들면, 합성 대기 중인 텍스트 t에 대하여, 네트워크 연결이 존재할 때, 클라이언트가 합성 대기 중인 텍스트 t를 온라인 음성 합성 시스템으로 송신하고, 온라인 음성 합성 시스템이 합성 대기 중인 텍스트 t를 수신한 후, 합성 대기 중인 텍스트 t에 대하여 구절을 끊고 [t1, t2, t3, ...]로 표기한 후 [t1, t2, t3, ...]에 대하여 음성 합성을 행하고, 얻은 음성데이터 [a1, a2, a3, ...]를 클라이언트로 송신한다.
본 실시예에서, 단계 S103은 다음과 같은 단계를 포함할 수 있다.
단계 S402: 온라인 음성 합성 시스템에 고장이 발생하거나 또는 네트워크 연결이 중단될 때 수신되는 음성 합성이 이미 완성된 구절에 대응되는 음성데이터에 의하여, 온라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트를 확정한다.
예를 들면, 만약 상기 온라인 음성 합성 시스템이 음성 합성을 행하는 과정에서, 온라인 음성 합성 시스템에 고장이 발생하거나 또는 클라이언트의 네트워크 연결이 중단되면, 클라이언트가 온라인 음성 합성 시스템에 고장이 발생하거나 또는 네트워크 연결이 중단될 때 수신되는 음성 합성이 이미 완성된 구절에 대응하는 음성데이터([a1, a2]로 가정함)에 의하여, t3에 대응되는 음성데이터를 획득할 때 에러가 발생되었음을 확정할 수 있다. 따라서, 온라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트는 t3 및 그 뒤의 텍스트임을 확정할 수 있다.
단계 S403: 상기 온라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트를 오프라인 음성 합성 시스템으로 송신하여 음성 합성을 행함으로써 상기 온라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트에 대응하는 음성데이터를 획득한다.
구체적으로, 온라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트가 t3 및 그 뒤의 텍스트임이 확정된 후, 클라이언트가 t3 및 그 뒤의 텍스트를 오프라인 음성 합성 시스템으로 포워드하고 음성 합성을 행하여 t3 및 그 뒤의 텍스트에 대응하는 음성데이터[a3', ...]를 얻는것이 필요된다.
본 실시예에서, 음성 합성이 완성된 후, 클라이언트가 온라인 음성 합성 시스템의 음성데이터와 오프라인 음성 합성 시스템의 음성데이터를 스플라이싱하여 완전한 음성 합성데이터 [a1, a2, a3', ...]를 획득할 수 있다.
상기 음성 합성 방법은 사용자의 음성 합성 체험을 개선할 수 있고, 네트워크 환경의 한정을 타파하여 각종 네트워크 환경에서 모두 사용자의 음성 합성 요구를 완성할 수 있는 동시에 단순한 오프라인 음성 합성보다 더욱 우수한 합성 효과를 얻을 수 있어 음성 합성 서비스가 더욱 안정적이고 신뢰적이도록 한다.
도5는 본 발명에 따른 음성 합성 장치의 하나의 실시예의 구조 모식도로서, 본 실시예 중의 음성 합성 장치는 클라이언트로 사용할 수 있거나 또는 클라이언트의 일부분으로 되어 본 발명의 도1에 도시된 실시예의 프로세스를 실현할 수 있다. 그 중, 상기 클라이언트는 스마트 이동단말에 설치될 수 있는 바, 상기 스마트 이동단말은 스마트폰 및/또는 태블릿PC 등일 수 있으나, 본 실시예는 스마트 이동단말의 형태에 대하여 한정하지 않는다.
도5에 도시된 바와 같이, 상기 음성 합성 장치는 텍스트처리모듈(51) 및 송신모듈(52)을 포함할 수 있다.
그 중, 텍스트처리모듈(51)은 텍스트를 처리하여 합성 대기 중인 텍스트를 획득하기 위한 것이다. 본 실시예에서, 텍스트처리모듈(51)은 구체적으로 텍스트에 대하여 구절을 끊어 단어 나누기, 품사 주석, 디지털 부호 처리, 병음 주석 및 운율 중단 예측 처리를 행하기 위한 것이다.
Figure 112016099403017-pct00024
(전방 사백미터에 빨간 신호등 위반 카메라가 있습니다)”를 예로 들면, 우선 구절을 끊어 단어 나누기, 품사 주석 및 디지털 부호 처리를 거쳐 "
Figure 112016099403017-pct00025
(전방)/f
Figure 112016099403017-pct00026
(사백)/m
Figure 112016099403017-pct00027
(미터에)/q
Figure 112016099403017-pct00028
(있습니다)/v
Figure 112016099403017-pct00029
(빨간 신호등 위반)/v
Figure 112016099403017-pct00030
(카메라가)/v"의 순서를 얻을 수 있다. 그 중, 슬래시 뒤의 부분은 품사의 약자이고, 병음 주석 시에 품사에 의하여 다음자 분석을 한다. 다음, 또 병음 주석하여 "qian(
Figure 112016099403017-pct00031
)2 fang(
Figure 112016099403017-pct00032
)1 si(
Figure 112016099403017-pct00033
)4 bai(
Figure 112016099403017-pct00034
)2 mi(
Figure 112016099403017-pct00035
)3 you(
Figure 112016099403017-pct00036
)3 chuang(
Figure 112016099403017-pct00037
)3 hong(
Figure 112016099403017-pct00038
)2 deng(
Figure 112016099403017-pct00039
)1 pai(
Figure 112016099403017-pct00040
)1 zhao(
Figure 112016099403017-pct00041
)4"의 순서를 얻는다. 마지막으로, 운율 중단에 대하여 예측하는 바, 처리 후의 서열은 "
Figure 112016099403017-pct00042
(전방)
Figure 112016099403017-pct00043
(사백미터에) $
Figure 112016099403017-pct00044
(있습니다)
Figure 112016099403017-pct00045
Figure 112016099403017-pct00046
(빨간 신호등 위반 카메라가)$"이다. 그 중 빈칸은 짧은 운율 중단을 대표하고, $부호는 긴 운율 중단을 대표한다.
송신모듈(52)은 네트워크 연결이 존재할 때, 상기 텍스트처리모듈(51)에 의해 획득된 합성 대기 중인 텍스트를 온라인 음성 합성 시스템으로 송신하여 음성 합성을 행하고, 만약 상기 온라인 음성 합성 시스템에서 음성 합성을 행하는 과정에서 상기 온라인 음성 합성 시스템에 고장이 발생하거나 또는 실제 사용과정에서 네트워크 연결이 중단되면 상기 온라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트를 오프라인 음성 합성 시스템으로 송신하여 음성 합성을 행하기 위한 것이다.
본 실시예에서, 네트워크 연결이 존재할 때, 송신모듈(52)은 상기 합성 대기 중인 텍스트를 온라인 음성 합성 시스템으로 송신하여 음성 합성을 행하고, 온라인 음성 합성 시스템은 파형 스플라이싱 합성 방식을 적용하여 이미 녹음한 음성 세그먼트를 일정한 규칙에 따라 구절로 스플라이싱한다. 이러한 합성 방법은 음질이 좋고 듣는 느낌이 자연스러우며 실제 사람이 발음하는 것과 더욱 유사한 우점을 가지고 있다. 음질이 좋고 듣는 느낌이 자연스러우며 실제 사람이 발음하는 것과 더욱 유사한 우점을 가지는 효과를 만족시키기 위하여 일반적으로 클라우드단의 음성베이스 모델은 아주 방대한 바(일반적으로 몇G에 달함) 로칼에 직접 응용할 수 없다.
만약 상기 온라인 음성 합성 시스템에서 음성 합성을 행하는 과정에서 온라인 음성 합성 시스템에 고장이 발생하거나 또는 실제 사용과정에서 네트워크 연결이 중단되면 송신모듈(52)은 온라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트를 오프라인 음성 합성 시스템으로 송신하여 음성 합성을 행한다. 오프라인 음성 합성 시스템은 일반적으로 파라미터 합성 방법을 사용하는 바, 우선 음성베이스로부터 음향학 파라미터를 추출한 후 음향학 파라미터와 보코더를 이용하여 음성을 재구축하는 것이 필요된다. 이러한 방법을 사용하면 저장이 필요한 음성베이스 데이터의 크기를 M바이트의 등급으로 줄일 수 있어, 오프라인 음성 합성이 휴대폰 등 이동 기기에서 사용할 수 있도록 한다. 그러나, 음향학 파라미터는 진실한 음성이 아니므로, 오프라인 음성 합성 시스템에서 합성된 음성의 자연성 및 음질은 온라인 음성 합성 시스템보다 못하다.
더 나아가서, 송신모듈(52)은 오프라인 음성 합성 시스템의 음성 합성 과정에서, 만약 온라인 음성 합성 시스템의 고장이 해제되거나 또는 상기 네트워크 연결이 회복되면 오프라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트를 계속하여 온라인 음성 합성 시스템으로 송신하여 음성 합성을 행하기 위한 것이다.
다시 말하자면, 만약 상기 온라인 음성 합성 시스템에서 음성 합성을 행하는 과정에서 온라인 음성 합성 시스템에 고장이 발생하거나 또는 실제 사용과정에서 네트워크 연결이 중단되면 송신모듈(52)은 온라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트를 오프라인 음성 합성 시스템으로 송신하여 음성 합성을 행한다. 이와 동시에, 클라이언트는 온라인 음성 합성 시스템의 고장이 해제되었는지 여부 또는 상기 클라이언트의 네트워크 연결이 회복되었는지 여부를 끊임없이 탐측한다. 일단 클라이언트에 의해 온라인 음성 합성 시스템의 고장이 해제되거나 또는 상기 클라이언트의 네트워크 연결이 회복된 것이 확인되면 송신모듈(52)은 오프라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트를 계속하여 온라인 음성 합성 시스템으로 송신하여 음성 합성을 행한다. 다시 말하자면, 본 실시예에서, 클라이언트는 우선적으로 온라인 음성 합성 시스템을 적용하여 음성 합성을 행하여 더욱 좋은 음성 합성효과를 획득하고, 단지 온라인 음성 합성 시스템에 고장이 발생하거나 또는 클라이언트의 네트워크 연결이 중단될 때에야 비로소 송신모듈(52)은 온라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트를 오프라인 음성 합성 시스템으로 송신하여 음성 합성을 행한다.
더 나아가서, 송신모듈(52)은 네트워크 연결이 존재하지 않을 때, 텍스트처리모듈(51)에 의해 획득된 합성 대기 중인 텍스트를 오프라인 음성 합성 시스템으로 송신하여 음성 합성을 행하고, 상기 네트워크 연결이 연통된 후, 오프라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트를 온라인 음성 합성 시스템으로 송신하여 음성 합성을 행하기 위한 것이다.
본 실시예에서, 텍스트처리모듈(51)에 의해 합성 대기 중인 텍스트를 획득한 후, 만약 네트워크 연결이 존재하지 않으면 송신모듈(52)은 우선 상기 합성 대기 중인 텍스트를 오프라인 음성 합성 시스템으로 송신하여 음성 합성을 행하고, 다음 클라이언트는 네트워크 연결의 연통 여부를 계속하여 탐측하며, 네트워크 연결이 연통된 것이 탐측된 후 송신모듈(52)은 오프라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트를 온라인 음성 합성 시스템으로 송신하여 음성 합성을 행한다. 그 후, 만약 상기 온라인 음성 합성 시스템에서 음성 합성을 행하는 과정에서 온라인 음성 합성 시스템에 고장이 발생하거나 또는 실제 사용과정에서 네트워크 연결이 중단되면 송신모듈(52)은 온라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트를 오프라인 음성 합성 시스템으로 송신하여 음성 합성을 행하고, 또한 온라인 음성 합성 시스템의 고장이 해제되거나 또는 상기 네트워크 연결이 회복되면 오프라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트를 계속하여 온라인 음성 합성 시스템으로 송신하여 음성 합성을 행한다.
상기 음성 합성 장치에서, 네트워크 연결이 존재할 때, 송신모듈(52)은 상기 합성 대기 중인 텍스트를 온라인 음성 합성 시스템으로 송신하여 음성 합성을 행하고, 만약 상기 온라인 음성 합성 시스템에서 음성 합성을 행하는 과정에서 상기 온라인 음성 합성 시스템에 고장이 발생하거나 또는 실제 사용과정에서 네트워크 연결이 중단되면 온라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트를 오프라인 음성 합성 시스템으로 송신하여 음성 합성을 행하는 바, 이로써 온라인 음성 합성 및 오프라인 음성 합성의 우점을 결합하여, 더욱 안정적이고 효과가 더욱 자연스러운 음성 합성 서비스를 제공할 수 있어, 사용자의 음성 합성 요구가 늘 순조롭게 완성되도록 확보할 수 있고 사용자가 음성 합성 서비스에 대한 선호도 및 사용자 체험 만족도를 향상시킬 수 있다.
도6은 본 발명에 따른 음성 합성 장치의 다른 하나의 실시예의 구조 모식도로서, 도5에 도시되는 음성 합성 장치에 비하여 다른 점이라면 도6에 도시된 음성 합성 장치는, 음성 합성이 완성된 후, 온라인 음성 합성 시스템의 음성데이터와 오프라인 음성 합성 시스템의 음성데이터를 스플라이싱하여 완전한 음성 합성데이터를 획득하기 위한 스플라이싱모듈(53)을 더 포함할 수 있다.
더 나아가서, 상기 음성 합성 장치는 수신모듈(54)과 저장모듈(55)을 더 포함할 수 있다.
그 중, 수신모듈(54)은 송신모듈(52)이 상기 합성 대기 중인 텍스트를 온라인 음성 합성 시스템으로 송신하여 음성 합성을 행한 후, 상기 온라인 음성 합성 시스템에서 송신한 음성 합성이 이미 완성된 구절에 대응되는 음성데이터를 수신하기 위한 것으로, 상기 음성 합성이 이미 완성된 구절에 대응되는 음성데이터는, 상기 온라인 음성 합성 시스템이 상기 합성 대기 중인 텍스트에 대하여 구절을 끊고 구절을 끊은 후 획득한 매 하나의 구절에 대하여 음성 합성을 행하여 획득된 것이다.
저장모듈(55)은 수신모듈(54)에 의해 수신된 음성 합성이 이미 완성된 구절에 대응되는 음성데이터를 저장하기 위한 것이다.
예를 들면, 합성 대기 중인 텍스트t에 대하여, 네트워크 연결이 존재할 때, 송신모듈(52)은 합성 대기 중인 텍스트 t를 온라인 음성 합성 시스템으로 송신하고, 온라인 음성 합성 시스템은 합성 대기 중인 텍스트 t를 수신한 후, 합성 대기 중인 텍스트 t에 대하여 구절을 끊고 [t1, t2, t3, ...]로 표기한 후 [t1, t2, t3, ...]에 대하여 음성 합성을 행하여, 얻은 음성데이터[a1, a2, a3, ...]를 클라이언트로 송신한다.
더 나아가서, 상기 음성 합성 장치는 확정모듈(56)을 더 포함할 수 있다.
확정모듈(56)은 온라인 음성 합성 시스템에 고장이 발생하거나 또는 상기 네트워크 연결이 중단될 때 수신되는 음성 합성이 이미 완성된 구절에 대응되는 음성데이터에 의하여, 온라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트를 확정하기 위한 것이다. 예를 들면, 만약 상기 온라인 음성 합성 시스템이 음성 합성을 행하는 과정에서, 온라인 음성 합성 시스템에 고장이 발생하거나 또는 클라이언트의 네트워크 연결이 중단되면, 확정모듈(56)은 온라인 음성 합성 시스템에 고장이 발생하거나 또는 네트워크 연결이 중단될 때 수신되는 음성 합성이 이미 완성된 구절에 대응되는 음성데이터([a1, a2]로 가정함)에 의하여, t3에 대응되는 음성데이터를 획득할 때 에러가 발생되었음을 확정할 수 있다. 따라서, 확정모듈(56)은 온라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트는 t3 및 그 뒤의 텍스트임을 확정할 수 있다.
이때, 송신모듈(52)은 진일보로 상기 온라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트를 오프라인 음성 합성 시스템으로 송신하여 음성 합성을 행함으로써 상기 온라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트에 대응하는 음성데이터를 획득하기 위한 것이다.
구체적으로, 확정모듈(56)은 온라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트가 t3 및 그 뒤의 텍스트임이 확정된 후, 송신모듈(52)은 t3 및 그 뒤의 텍스트를 오프라인 음성 합성 시스템으로 포워드하고 음성 합성을 행하여 t3 및 그 뒤의 텍스트에 대응하는 음성데이터[a3', ...]를 얻는 것이 필요된다.
본 실시예에서, 음성 합성이 완성된 후, 스플라이싱모듈(53)은 온라인 음성 합성 시스템의 음성데이터와 오프라인 음성 합성 시스템의 음성데이터를 스플라이싱하여 완전한 음성 합성데이터 [a1, a2, a3', ...]를 획득할 수 있다.
상기 음성 합성 장치는 사용자의 음성 합성 체험을 개선할 수 있고, 네트워크 환경의 한정을 타파하여 각종 네트워크 환경에서 모두 사용자의 음성 합성 요구를 완성할 수 있는 동시에 단순한 오프라인 음성 합성보다 더욱 우수한 합성 효과를 얻을 수 있어 음성 합성 서비스가 더욱 안정적이고 신뢰적이도록 한다.
본 발명의 실시예는 전자기기를 더 제공하고, 상기 전자기기는
하나 또는 복수개의 프로세서,
메모리, 및
하나 또는 복수개의 프로그램을 포함하되,
하나 또는 복수개의 프로그램은 상기 메모리 중에 저장되어 상기 하나 또는 복수개의 프로세서에 의해 실행될 때
텍스트를 처리하여 합성 대기 중인 텍스트를 획득하고,
네트워크 연결이 존재할 때, 상기 합성 대기 중인 텍스트를 온라인 음성 합성 시스템으로 송신하여 음성 합성을 행하며, 및
만약 상기 온라인 음성 합성 시스템에서 음성 합성을 행하는 과정에서 상기 온라인 음성 합성 시스템에 고장이 발생하거나 또는 실제 사용과정에서 네트워크 연결이 중단되면 상기 온라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트를 오프라인 음성 합성 시스템으로 송신하여 음성 합성을 행하는 것을 수행한다.
본 발명의 실시예는 비휘발성 컴퓨터 저장매체를 더 제공하고, 상기 컴퓨터 저장매체에 하나 또는 복수개의 모듈이 저장되어 있고, 상기 하나 또는 복수개의 모듈이 수행될 때
텍스트를 처리하여 합성 대기 중인 텍스트를 획득하고,
네트워크 연결이 존재할 때, 상기 합성 대기 중인 텍스트를 온라인 음성 합성 시스템으로 송신하여 음성 합성을 행하며, 및
만약 상기 온라인 음성 합성 시스템에서 음성 합성을 행하는 과정에서 상기 온라인 음성 합성 시스템에 고장이 발생하거나 또는 실제 사용과정에서 네트워크 연결이 중단되면 상기 온라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트를 오프라인 음성 합성 시스템으로 송신하여 음성 합성을 행하는 조작을 실행한다.
설명해야 할 것은, 본 발명의 설명에서 용어 "제1", "제2" 등은 단지 목적을 설명하기 위한 것일 뿐, 상대적 중요성을 지시 또는 암시하기 위한 것으로 이해해서는 안된다. 이 외에, 본 발명의 설명에서 별도의 설명이 없는 한, "복수개"의 의미는 2개 또는 2개 이상이다.
흐름도에서 또는 여기서 기타 방식으로 설명되는 그 어떤 과정 또는 방법 설명은 하나의 또는 더 많은 특정 로직 기능 또는 과정의 단계를 실현하기 위한 수행 가능한 명령의 코드의 모듈, 단락 또는 부분을 포함함을 나타내는 것으로 이해할 수 있다. 아울러, 본 발명의 바람직한 실시 방식의 범위는 별도의 실현을 포함하고, 여기서 제시되거나 토론된 순서에 따른 것이 아닌 관련된 기능에 의하여 거의 동시의 방식 또는 상반되는 순서를 포함한 순서에 따라 기능을 수행할 수 있는바, 이는 마땅히 본 발명의 실시예가 속하는 기술분야의 통상의 지식을 가진 자들에 의하여 이해되어야 한다.
본 발명의 각 부분은 하드웨어, 소프트웨어, 펌웨어 또는 그들의 조합으로 실현될 수 있다는 것으로 이해될 것이다. 상술한 실시 방식에서, 복수의 단계나 방법은 메모리에 저장된 적합한 명령으로 시스템 실행을 실행하는 소프트웨어 또는 펌웨어로 실현할 수 있다. 예를 들어, 만약 하드웨어로 실현한다면 다른 한 실시 방식에서처럼 본 분야에서의 데이터 신호에 대해 로직 기능을 실현하기 위한 로직 게이트 회로를 구비한 이산 로직 회로, 적합한 조합 로직 게이트 회로를 구비한 전용 집적 회로, 프로그램 가능 게이트 어레이(PGA), 필드 프로그램 가능 게이트 어레이(FPGA)등 공지된 기술 중의 어느 하나 또는 그들의 조합으로 실현할 수 있다.
본 발명이 속하는 기술분야의 통상의 지식을 가진 자들은 상술한 실시예의 방법이 지니는 전부 또는 일부 단계를 실현하는 것은 프로그램으로 관련 하드웨어를 명령하는 것을 통하여 완성할 수 있고 상기의 프로그램은 컴퓨터 판독 가능 저장 매개물에 저장될 수 있고 당해 프로그램이 실행될 때 방법 실시예의 단계 중의 하나 또는 그 조합을 포함한다는 것을 이해할 수 있다.
이 외에, 본 발명의 각 실시예 중의 각 기능 유닛은 하나의 처리 모듈에 집적될 수 있고 각 유닛의 단독적 물리 존재일 수도 있으며 둘 또는 둘 이상의 유닛이 한 모듈에 집적될 수도 있다. 상술한 집적된 모듈은 하드웨어의 형식을 적용하여 실현할 수 있고 소프트웨어 기능 모듈의 형식을 적용하여 실현할 수도 있다. 상기 집적된 모듈이 만약 소프트웨어 기능 모듈의 형식으로 실현되고 독립된 제품으로 판매되거나 사용될 경우 컴퓨터 판독 가능 저장 매개물에 저장될 수도 있다.
상술한 저장 매개물은 읽기 전용 기억 장치, 디스크 또는 CD등 일 수 있다.
본 명세서의 설명에서 참조 용어 "일 실시예", "일부 실시예", "예시", "구체적 예시" 또는 "일부 예시" 등의 설명은 당해 실시예 또는 예시를 결합하여 설명하는 구체적인 특징, 구조, 재료 또는 특점이 본 발명의 적어도 하나의 실시예 또는 예시에 포함된다는 것을 의미한다. 본 명세서에서 상술한 용어에 대한 함축적인 표달이 반드시 동일한 실시예 또는 예시를 가리키는 것은 아니다. 그리고, 설명된 구체적 특징, 구조, 재료 또는 특점은 임의의 하나 또는 복수의 실시예 또는 예시에서 적합한 방식으로 결합될 수 있다.
비록 이미 본 발명의 실시예를 제시하고 설명하였으나 본 발명이 속하는 기술 분야의 통상의 지식을 가진 들은 본 발명의 원리와 취지를 탈리하지 않는 전제하에 이러한 실시예에 대해 변화, 수정, 대체와 변형을 진행할 수 있고, 본 발명의 범위는 청구항 및 그 균등물에 의해 한정된다는것으로 이해할 것이다.

Claims (16)

  1. 음성 합성 방법에 있어서,
    텍스트를 처리하여 합성 대기 중인 텍스트를 획득하는 단계,
    네트워크 연결이 존재할 때, 상기 합성 대기 중인 텍스트를 온라인 음성 합성 시스템으로 송신하여 음성 합성을 행하는 단계, 및
    만약 상기 온라인 음성 합성 시스템에서 음성 합성을 행하는 과정에서 상기 온라인 음성 합성 시스템에 고장이 발생하거나 또는 실제 사용과정에서 네트워크 연결이 중단되면 상기 온라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트를 오프라인 음성 합성 시스템으로 송신하여 음성 합성을 행하는 단계를 포함하되,
    상기 온라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트를 오프라인 음성 합성 시스템으로 송신하여 음성 합성을 행하는 단계 이후,
    만약 상기 오프라인 음성 합성 시스템의 음성 합성 과정에서, 상기 온라인 음성 합성 시스템의 고장이 해제되거나 또는 상기 네트워크 연결이 회복되면 상기 오프라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트를 계속하여 상기 온라인 음성 합성 시스템으로 송신하여 음성 합성을 행하는 단계를 더 포함하는 것을 특징으로 하는 음성 합성 방법.
  2. 삭제
  3. 제1항에 있어서,
    상기 텍스트를 처리하여 합성 대기 중인 텍스트를 획득하는 단계 이후, 상기 온라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트를 오프라인 음성 합성 시스템으로 송신하여 음성 합성을 행하는 단계 이전,
    네트워크 연결이 존재하지 않을 때, 상기 합성 대기 중인 텍스트를 오프라인 음성 합성 시스템으로 송신하여 음성 합성을 행하는 단계, 및
    상기 네트워크 연결이 연통된 후, 상기 오프라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트를 온라인 음성 합성 시스템으로 송신하여 음성 합성을 행하는 단계를 더 포함하는 것을 특징으로 하는 음성 합성 방법.
  4. 제1항 또는 제3항에 있어서,
    음성 합성이 완성된 후, 상기 온라인 음성 합성 시스템의 음성데이터와 상기 오프라인 음성 합성 시스템의 음성데이터를 스플라이싱하여 완전한 음성 합성데이터를 획득하는 단계를 더 포함하는 것을 특징으로 하는 음성 합성 방법.
  5. 제1항 또는 제3항에 있어서,
    상기 텍스트를 처리하는 단계는,
    텍스트에 대하여 구절을 끊어 단어 나누기, 품사 주석, 디지털 부호 처리, 병음 주석 및 운율 중단 예측 처리를 행하는 것을 포함하는 것을 특징으로 하는 음성 합성 방법.
  6. 제1항에 있어서,
    상기 합성 대기 중인 텍스트를 온라인 음성 합성 시스템으로 송신하여 음성 합성을 행하는 단계 이후,
    상기 온라인 음성 합성 시스템에서 송신한 음성 합성이 이미 완성된 구절에 대응되는 음성데이터를 수신 및 저장하는 단계를 더 포함하되,
    상기 음성 합성이 이미 완성된 구절에 대응되는 음성데이터는 상기 온라인 음성 합성 시스템이 상기 합성 대기 중인 텍스트에 대하여 구절을 끊고, 구절을 끊은 후 획득한 매 하나의 구절에 대하여 음성 합성을 행하여 획득된 것을 특징으로 하는 음성 합성 방법.
  7. 제6항에 있어서,
    상기 온라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트를 오프라인 음성 합성 시스템으로 송신하여 음성 합성을 행하는 단계는,
    상기 온라인 음성 합성 시스템에 고장이 발생하거나 또는 상기 네트워크 연결이 중단될 때 수신되는 음성 합성이 이미 완성된 구절에 대응되는 음성데이터에 의하여, 상기 온라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트를 확정하는 단계, 및
    상기 온라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트를 상기 오프라인 음성 합성 시스템으로 송신하여 음성 합성을 행함으로써 상기 온라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트에 대응하는 음성데이터를 획득하는 단계를 포함하는 것을 특징으로 하는 음성 합성 방법.
  8. 음성 합성 장치에 있어서,
    텍스트를 처리하여 합성 대기 중인 텍스트를 획득하기 위한 텍스트처리모듈, 및
    네트워크 연결이 존재할 때, 상기 텍스트처리모듈에 의해 획득된 합성 대기 중인 텍스트를 온라인 음성 합성 시스템으로 송신하여 음성 합성을 행하고, 만약 상기 온라인 음성 합성 시스템에서 음성 합성을 행하는 과정에서 상기 온라인 음성 합성 시스템에 고장이 발생하거나 또는 실제 사용과정에서 네트워크 연결이 중단되면 상기 온라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트를 오프라인 음성 합성 시스템으로 송신하여 음성 합성을 행하기 위한 송신모듈을 포함하고,
    상기 송신모듈은 또 상기 오프라인 음성 합성 시스템의 음성 합성 과정에서, 만약 상기 온라인 음성 합성 시스템의 고장이 해제되거나 또는 상기 네트워크 연결이 회복되면, 상기 오프라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트를 계속하여 상기 온라인 음성 합성 시스템으로 송신하여 음성 합성을 행하기 위한 것임을 특징으로 하는 음성 합성 장치.
  9. 삭제
  10. 제8항에 있어서,
    상기 송신모듈은 또 네트워크 연결이 존재하지 않을 때, 상기 텍스트처리모듈에 의해 획득된 합성 대기 중인 텍스트를 오프라인 음성 합성 시스템으로 송신하여 음성 합성을 행하고, 상기 네트워크 연결이 연통된 후, 상기 오프라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트를 온라인 음성 합성 시스템으로 송신하여 음성 합성을 행하기 위한 것임을 특징으로 하는 음성 합성 장치.
  11. 제8항 또는 제10항에 있어서,
    음성 합성이 완성된 후, 상기 온라인 음성 합성 시스템의 음성데이터와 상기 오프라인 음성 합성 시스템의 음성데이터를 스플라이싱하여 완전한 음성 합성데이터를 획득하기 위한 스플라이싱모듈을 더 포함하는 것을 특징으로 하는 음성 합성 장치.
  12. 제8항 또는 제10항에 있어서,
    상기 텍스트처리모듈은 구체적으로 텍스트에 대하여 구절을 끊어 단어 나누기, 품사 주석, 디지털 부호 처리, 병음 주석 및 운율 중단 예측 처리를 행하기 위한 것임을 특징으로 하는 음성 합성 장치.
  13. 제8항에 있어서,
    상기 송신모듈이 상기 합성 대기 중인 텍스트를 온라인 음성 합성 시스템으로 송신하여 음성 합성을 행한 후, 상기 온라인 음성 합성 시스템에서 송신한 음성 합성이 이미 완성된 구절에 대응되는 음성데이터를 수신하기 위한 수신 모듈 - 상기 음성 합성이 이미 완성된 구절에 대응되는 음성데이터는 상기 온라인 음성 합성 시스템이 상기 합성 대기 중인 텍스트에 대하여 구절을 끊고 구절을 끊은 후 획득한 매 하나의 구절에 대하여 음성 합성을 행하여 획득된 것임 -, 및
    상기 수신모듈에 의해 수신된 음성 합성이 이미 완성된 구절에 대응되는 음성데이터를 저장하기 위한 저장모듈을 더 포함하는 것을 특징으로 하는 음성 합성 장치.
  14. 제13항에 있어서,
    확정모듈을 더 포함하고,
    상기 확정모듈은 상기 온라인 음성 합성 시스템에 고장이 발생하거나 또는 상기 네트워크 연결이 중단될 때 수신되는 음성 합성이 이미 완성된 구절에 대응되는 음성데이터에 의하여, 상기 온라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트를 확정하기 위한 것이고,
    상기 송신모듈은 또 상기 온라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트를 상기 오프라인 음성 합성 시스템으로 송신하여 음성 합성을 행함으로써 상기 온라인 음성 합성 시스템에서 음성 합성이 미완성된 텍스트에 대응하는 음성데이터를 획득하기 위한 것을 특징으로 하는 음성 합성 장치.
  15. 전자기기에 있어서,
    하나 또는 복수개의 프로세서,
    메모리, 및
    하나 또는 복수개의 프로그램을 포함하되,
    상기 하나 또는 복수개의 프로그램은 상기 메모리 중에 저장되고, 상기 하나 또는 복수개의 프로세서에 의해 실행될 때 제1항에 따른 방법을 수행하는 것을 특징으로 하는 전자기기.
  16. 비휘발성 컴퓨터 저장매체에 있어서,
    상기 컴퓨터 저장매체는 하나 또는 복수개의 모듈이 저장되어 있고, 상기 하나 또는 복수개의 모듈이 수행될 때 제1항에 따른 방법을 실행하는 것을 특징으로 하는 비휘발성 컴퓨터 저장매체.
KR1020167028544A 2015-07-15 2015-11-24 음성 합성 방법 및 장치 KR101880378B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201510417099.XA CN104992704B (zh) 2015-07-15 2015-07-15 语音合成方法和装置
CN201510417099.X 2015-07-15
PCT/CN2015/095460 WO2017008426A1 (zh) 2015-07-15 2015-11-24 语音合成方法和装置

Publications (2)

Publication Number Publication Date
KR20170021226A KR20170021226A (ko) 2017-02-27
KR101880378B1 true KR101880378B1 (ko) 2018-07-19

Family

ID=54304507

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020167028544A KR101880378B1 (ko) 2015-07-15 2015-11-24 음성 합성 방법 및 장치

Country Status (5)

Country Link
US (1) US10115389B2 (ko)
JP (1) JP6400129B2 (ko)
KR (1) KR101880378B1 (ko)
CN (1) CN104992704B (ko)
WO (1) WO2017008426A1 (ko)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104992704B (zh) * 2015-07-15 2017-06-20 百度在线网络技术(北京)有限公司 语音合成方法和装置
CN107039032A (zh) * 2017-04-19 2017-08-11 上海木爷机器人技术有限公司 一种语音合成处理方法及装置
KR20190046305A (ko) 2017-10-26 2019-05-07 휴먼플러스(주) 음성데이터 마켓 시스템 및 음성데이터 마켓 시스템으로 음성을 제공하는 방법
CN107909993A (zh) * 2017-11-27 2018-04-13 安徽经邦软件技术有限公司 一种智能语音报告生成系统
CN110505432B (zh) * 2018-05-18 2022-02-18 视联动力信息技术股份有限公司 一种视频会议操作结果的展示方法和装置
CN108775900A (zh) * 2018-07-31 2018-11-09 上海哔哩哔哩科技有限公司 基于web的语音导航方法、系统和存储介质
CN109300467B (zh) * 2018-11-30 2021-07-06 四川长虹电器股份有限公司 语音合成方法及装置
CN109448694A (zh) * 2018-12-27 2019-03-08 苏州思必驰信息科技有限公司 一种快速合成tts语音的方法及装置
CN109712605B (zh) * 2018-12-29 2021-02-19 深圳市同行者科技有限公司 一种应用于车联网的语音播报的方法及装置
CN110751940B (zh) 2019-09-16 2021-06-11 百度在线网络技术(北京)有限公司 一种生成语音包的方法、装置、设备和计算机存储介质
CN110767213A (zh) * 2019-11-08 2020-02-07 四川长虹电器股份有限公司 一种韵律预测方法及装置
CN110808028B (zh) * 2019-11-22 2022-05-17 芋头科技(杭州)有限公司 嵌入式语音合成方法、装置以及控制器和介质
CN113129861A (zh) * 2019-12-30 2021-07-16 华为技术有限公司 一种文本转语音的处理方法、终端及服务器
CN111354334B (zh) * 2020-03-17 2023-09-15 阿波罗智联(北京)科技有限公司 语音输出方法、装置、设备和介质
CN111681635A (zh) * 2020-05-12 2020-09-18 深圳市镜象科技有限公司 基于小样本的语音实时克隆的方法、装置、设备和介质
CN112735376A (zh) * 2020-12-29 2021-04-30 竹间智能科技(上海)有限公司 自学习平台
CN112307280B (zh) * 2020-12-31 2021-03-16 飞天诚信科技股份有限公司 基于云服务器实现字符串转音频的方法及系统
CN113270085A (zh) * 2021-06-22 2021-08-17 广州小鹏汽车科技有限公司 语音交互方法、语音交互系统和车辆
CN115729509A (zh) * 2021-08-30 2023-03-03 博泰车联网(南京)有限公司 语音播报方法、装置和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070282592A1 (en) * 2006-02-01 2007-12-06 Microsoft Corporation Standardized natural language chunking utility
US20100082350A1 (en) * 2004-05-26 2010-04-01 Verizon Business Global Llc Method and system for providing synthesized speech
US20140337007A1 (en) * 2013-05-13 2014-11-13 Facebook, Inc. Hybrid, offline/online speech translation system

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6233545B1 (en) * 1997-05-01 2001-05-15 William E. Datig Universal machine translator of arbitrary languages utilizing epistemic moments
JP2002312282A (ja) 2001-04-16 2002-10-25 Canon Inc 音声合成システムとその方法
US6681208B2 (en) * 2001-09-25 2004-01-20 Motorola, Inc. Text-to-speech native coding in a communication system
CN1217311C (zh) 2002-04-22 2005-08-31 安徽中科大讯飞信息科技有限公司 分布式语音合成系统
CN1217312C (zh) 2002-11-19 2005-08-31 安徽中科大讯飞信息科技有限公司 语音合成系统中的数据交换方法
JP2005055607A (ja) 2003-08-01 2005-03-03 Toyota Motor Corp サーバ、情報処理端末、音声合成システム
CN101409072B (zh) * 2007-10-10 2012-05-09 松下电器产业株式会社 嵌入式设备、双模态语音合成系统和方法
JP5500100B2 (ja) * 2011-02-24 2014-05-21 株式会社デンソー 音声案内システム
CN102568471A (zh) * 2011-12-16 2012-07-11 安徽科大讯飞信息科技股份有限公司 语音合成方法、装置和系统
WO2014020835A1 (ja) * 2012-07-31 2014-02-06 日本電気株式会社 エージェント制御システム、方法およびプログラム
CN103077705B (zh) * 2012-12-30 2015-03-04 安徽科大讯飞信息科技股份有限公司 一种基于分布式自然韵律优化本地合成方法
US9031829B2 (en) * 2013-02-08 2015-05-12 Machine Zone, Inc. Systems and methods for multi-user multi-lingual communications
CN104992704B (zh) * 2015-07-15 2017-06-20 百度在线网络技术(北京)有限公司 语音合成方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100082350A1 (en) * 2004-05-26 2010-04-01 Verizon Business Global Llc Method and system for providing synthesized speech
US20070282592A1 (en) * 2006-02-01 2007-12-06 Microsoft Corporation Standardized natural language chunking utility
US20140337007A1 (en) * 2013-05-13 2014-11-13 Facebook, Inc. Hybrid, offline/online speech translation system

Also Published As

Publication number Publication date
US10115389B2 (en) 2018-10-30
US20170200445A1 (en) 2017-07-13
JP6400129B2 (ja) 2018-10-03
JP2017527837A (ja) 2017-09-21
CN104992704A (zh) 2015-10-21
WO2017008426A1 (zh) 2017-01-19
KR20170021226A (ko) 2017-02-27
CN104992704B (zh) 2017-06-20

Similar Documents

Publication Publication Date Title
KR101880378B1 (ko) 음성 합성 방법 및 장치
KR102660922B1 (ko) 복수의 지능형 개인 비서 서비스를 위한 관리 계층
JP6683234B2 (ja) 音声データ処理方法、装置、設備及びプログラム
US10825444B2 (en) Speech synthesis method and apparatus, computer device and readable medium
US9542956B1 (en) Systems and methods for responding to human spoken audio
CN103247291B (zh) 一种语音识别设备的更新方法、装置及系统
US20190196779A1 (en) Intelligent personal assistant interface system
CN109147779A (zh) 语音数据处理方法和装置
US11763819B1 (en) Audio encryption
US8682678B2 (en) Automatic realtime speech impairment correction
US11783808B2 (en) Audio content recognition method and apparatus, and device and computer-readable medium
US10929606B2 (en) Method for follow-up expression for intelligent assistance
CN113498536A (zh) 电子装置及其控制方法
CN103178878B (zh) 一种用于连接无线设备的方法和系统
JP7375089B2 (ja) 音声応答速度確定方法、装置、コンピュータ読み取り可能な記憶媒体及びコンピュータプログラム
US10748535B2 (en) Transcription record comparison
US11960841B2 (en) Incomplete problem description determination for virtual assistant user input handling
CN113761865A (zh) 声文重对齐及信息呈现方法、装置、电子设备和存储介质
CN108920172A (zh) 用于语音对话平台的程序发布和调用方法及系统
CN114267358B (zh) 音频处理方法、装置、设备及存储介质
US20240013790A1 (en) Method and system of detecting and improving real-time mispronunciation of words
JP5049310B2 (ja) 音声学習・合成システム及び音声学習・合成方法
US20220222451A1 (en) Audio processing apparatus, method for producing corpus of audio pair, and storage medium on which program is stored
EP3502868A1 (en) Intelligent personal assistant interface system
CN117275451A (zh) 一种合成方法、装置、设备及存储介质

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)