KR100724868B1 - Voice synthetic method of providing various voice synthetic function controlling many synthesizer and the system thereof - Google Patents

Voice synthetic method of providing various voice synthetic function controlling many synthesizer and the system thereof Download PDF

Info

Publication number
KR100724868B1
KR100724868B1 KR1020050083086A KR20050083086A KR100724868B1 KR 100724868 B1 KR100724868 B1 KR 100724868B1 KR 1020050083086 A KR1020050083086 A KR 1020050083086A KR 20050083086 A KR20050083086 A KR 20050083086A KR 100724868 B1 KR100724868 B1 KR 100724868B1
Authority
KR
South Korea
Prior art keywords
synthesis
speech synthesis
text
tag
synthesizer
Prior art date
Application number
KR1020050083086A
Other languages
Korean (ko)
Other versions
KR20070028764A (en
Inventor
정명기
박영희
이종창
심현식
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020050083086A priority Critical patent/KR100724868B1/en
Priority to US11/516,865 priority patent/US20070055527A1/en
Publication of KR20070028764A publication Critical patent/KR20070028764A/en
Application granted granted Critical
Publication of KR100724868B1 publication Critical patent/KR100724868B1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers

Abstract

본 발명은 다양한 음성 합성 기능을 구현한다. 이를 위해 본 발명은 클라이언트로부터 텍스트가 입력되면 입력된 텍스트를 분석하여 해당 합성기를 통해 음성 합성이 이루어지도록 제어하는 정합부와, 그 정합부의 제어하에 음성 합성을 수행하는 적어도 하나 이상의 합성기를 포함하여 구성되는 음성 합성 시스템을 구현한다. 그리고 본 발명은 음성 합성을 수행한 합성기로부터 합성 결과가 전달되면, 그 합성 결과에 배경음 또는 효과음을 적용할 수 있도록 하는 배경음 믹서와, 그 합성 결과에 음성 변조 효과를 줄 수 있도록 하는 변조 효과부를 더 구비한다. 이렇게 함으로써, 다양한 효과가 부여된 합성음을 출력하여 사용자에게 보다 유연하고 다양한 서비스를 제공할 수 있게 된다. The present invention implements various speech synthesis functions. To this end, the present invention comprises a matching unit for controlling speech synthesis through the synthesizer by analyzing the input text when text is input from the client, and at least one synthesizer for performing speech synthesis under the control of the matching unit. Implements a speech synthesis system. The present invention further provides a background sound mixer that allows a background sound or an effect sound to be applied to the synthesis result when the synthesis result is transmitted from the synthesizer that has performed the voice synthesis, and a modulation effect unit that can give a voice modulation effect to the synthesis result. Equipped. In this way, it is possible to provide a more flexible and various services to the user by outputting the synthesized sound with various effects.

합성기, 음성 합성 시스템, 태그 Synthesizer, speech synthesis system, tagged

Description

다수의 합성기를 제어하여 다양한 음성 합성 기능을 제공하는 음성 합성 방법 및 그 시스템{VOICE SYNTHETIC METHOD OF PROVIDING VARIOUS VOICE SYNTHETIC FUNCTION CONTROLLING MANY SYNTHESIZER AND THE SYSTEM THEREOF}VOICE SYNTHETIC METHOD OF PROVIDING VARIOUS VOICE SYNTHETIC FUNCTION CONTROLLING MANY SYNTHESIZER AND THE SYSTEM THEREOF}

도 1은 본 발명의 실시 예에 따른 음성 합성 시스템의 구성도,1 is a block diagram of a speech synthesis system according to an embodiment of the present invention;

도 2는 본 발명의 실시 예에 따라 다양한 합성 기능을 수행하기 위한 음성 합성 시스템에서의 동작 흐름도,2 is a flowchart illustrating operations of a speech synthesis system for performing various synthesis functions according to an embodiment of the present invention;

도 3은 본 발명의 일 실시 예에 따른 음성 합성 요청 메시지의 한 예를 도시한 도면,3 is a diagram illustrating an example of a speech synthesis request message according to an embodiment of the present invention;

도 4는 본 발명의 실시 예에 따른 태그 테이블을 도시한 도면,4 is a diagram illustrating a tag table according to an embodiment of the present invention;

도 5는 본 발명의 실시 예에 따라 음성 합성 수행 과정을 도시한 도면.5 is a diagram illustrating a process of performing speech synthesis according to an embodiment of the present invention.

본 발명은 음성 합성 방법 및 그 시스템에 관한 것으로, 특히 사용자의 기호에 따라 다양한 합성음을 출력시킬 수 있도록 다수의 합성기를 제어하여 다양한 음성 합성 기능을 제공하는 음성 합성 방법 및 그 시스템에 관한 것이다. The present invention relates to a speech synthesis method and system, and more particularly, to a speech synthesis method and system for providing various speech synthesis functions by controlling a plurality of synthesizers to output various synthesized sounds according to a user's preference.

일반적으로 음성 합성기는 사용자에게 다양한 형태의 정보를 음성으로 제공하는 역할을 수행하는데, 사용자는 이러한 음성 합성기를 이용하여 종래의 텍스트나 대화 상대로부터 제공되는 텍스트를 음성으로 출력하게 된다. 이와 같이 음성 합성기에 적용되는 음성 합성 기술은 입력된 텍스트를 언어 해석하고 이를 음성으로 합성하는 처리 과정을 통해 텍스트를 자연스러운 합성음으로 변환시켜 출력하는 것으로, TTS(Text-To Speech)를 통해 이루어진다. In general, the speech synthesizer serves to provide a user with various types of information as a voice, and the user outputs a conventional text or text provided from a conversation partner as a voice using the speech synthesizer. As such, the speech synthesis technology applied to the speech synthesizer converts the text into a natural synthesized sound through a process of linguistically interpreting the input text and synthesizing it into speech, and is performed through text-to speech (TTS).

TTS란 기호화된 문자 정보를 사람이 알아들을 수 있는 음성 정보로 변환하는 기술로서, 하나의 목소리와 언어를 이용하여 합성음을 출력한다. 즉, 기존의 음성 합성기는 문장 단위로 입력된 데이터를 합성음으로 출력하는 단순한 기능을 가지고 있다. 이러한 음성 합성기는 다국어, 또는 화자의 성별, 음색 변조 등 사용자가 원하는 방식으로 합성음을 출력할 수 있는 방법이 없어서 사용자 취향에 따라 유연하게 대처하지 못하고 있는 실정이다. TTS is a technology that converts symbolic text information into human voice information, and outputs a synthesized sound using a single voice and language. That is, the existing speech synthesizer has a simple function of outputting data input in units of sentences as synthesized sounds. Such a voice synthesizer does not have a method for outputting synthesized sounds in a multi-language or gender or tone modulation manner of a speaker and thus does not flexibly cope with the user's taste.

예를 들어, "한국어 + 남자 + 어른"이라는 특징을 가지는 음성 합성기를 이용할 경우에는 필요에 따라 문장 중간에 다양한 변화를 주고 싶어도 하나의 합성음만을 출력할 수 밖에 없는 실정이다. 따라서, 이러한 음성 합성기는 하나의 목소리만을 제공하기 때문에 사용자의 욕구 및 사용자 계층이 다양해지는 추세 및 서비스되는 내용 예컨대, 기사, 이메일, 동화 등에 따른 적합한 음성 합성을 고려할 수 없는 문제점이 있다. 따라서, 문장의 처음부터 끝까지 하나의 합성음으로 출력하는 방법은 사용자로 하여금 단조로움을 느끼게 한다. For example, in the case of using a voice synthesizer having a characteristic of "Korean + male + adult", only one synthesized sound can be output even if you want to change various things in the middle of the sentence as necessary. Therefore, since the voice synthesizer provides only one voice, there is a problem in that it is not possible to consider a suitable voice synthesis according to the tendency of the user's desire and user hierarchy and service contents such as articles, e-mails, and fairy tales. Therefore, the method of outputting one synthesized sound from the beginning to the end of the sentence makes the user feel monotonous.

게다가 사용자의 편의성을 고려하기 위해 음색 변조 등의 기술을 이용하여 보다 다양하게 음성 합성을 구현하고자 하더라도 이 또한 응용계층에 따라 한계를 나타낸다. 예를 들어, 사용자가 텍스트 편집기의 기능을 이용하여 합성하고자 하는 부분을 선택하여 해당 부분에 대해 합성음을 출력하는 방법을 사용하더라도 그 편의성은 낮은 편이며, 현재까지는 서로 다른 합성음을 출력하는 각각의 합성기를 하나의 문장 내에서 임의의 위치마다 사용자가 선택적으로 적용할 수 있는 기능이 구현된 것이 없는 실정이다. In addition, even if the user wants to implement a variety of speech synthesis using a technique such as tone modulation to consider the user's convenience, this also shows a limit depending on the application layer. For example, even if a user selects a part to be synthesized using a text editor function and outputs a synthesis sound for the corresponding part, the convenience is low. It is a situation that the function that the user can selectively apply at any position in a sentence is not implemented.

상기한 바와 같이 종래의 서비스되고 있는 음성 합성 방법은 하나의 합성기와 그 합성기에서 제공 가능한 변조만이 적용된 것에 불과하였다. 이러한 구조를 가지는 음성 합성 시스템의 경우에는 그 응용에 있어 한계를 나타낸다. 예를 들어, 사용자가 한국어 이외에 외국어 및 성별, 연령층을 고려한 화자의 특성을 반영하여 합성하고자 할 경우 각각의 음성 합성기들을 효율적으로 제어하여 사용자가 원하는 합성음을 출력할 수 있는 방법이 없었다. As described above, the conventional speech synthesis method is only applied to one synthesizer and the modulation provided by the synthesizer. The speech synthesis system having such a structure shows a limitation in its application. For example, if a user wants to synthesize the speaker by considering the speaker's characteristics considering foreign language, gender, and age group in addition to Korean, there is no method of efficiently controlling the respective voice synthesizers and outputting the desired synthesized sound.

따라서, 본 발명은 사용자의 기호에 따라 다양한 합성음을 출력시킬 수 있도록 다수의 합성기를 제어하여 다양한 음성 합성 기능을 제공하는 음성 합성 방법 및 그 시스템을 제공한다. Accordingly, the present invention provides a speech synthesis method and system for providing various speech synthesis functions by controlling a plurality of synthesizers to output various synthesized sounds according to a user's preference.

상술한 바를 달성하기 위한 본 발명에 따르면 다수의 합성기를 제어하여 다양한 음성 합성 기능을 제공하는 음성 합성 시스템은, 음성 합성하고자 하는 텍스트에 텍스트 속성을 설정하여 태그 형식으로 음성 합성 요청 메시지를 전달하는 클라이언트와, 상기 클라이언트로부터 전달된 음성 합성 요청 메시지 내의 태그를 분석하고, 분석 결과를 근거로 해당 합성기를 선택한 후 상기 선택된 합성기에 적용 가능한 태그 리스트를 표준 메시지 태그 리스트와 맵핑시킨 태그 테이블을 참조하여 상기 합성할 텍스트를 상기 선택된 합성기가 인지할 수 있는 태그로 변환하여 전달하고, 합성 결과를 전달받아 상기 클라이언트에 합성음을 제공하는 TTS(Text-To Speech) 정합부와, 상기 TTS 정합부로부터 전달된 합성 요청에 대응하는 음성 합성을 수행하여 합성 결과를 출력하는 적어도 하나 이상의 개별 합성기로 이루어지는 통합 합성부를 포함하여 구성됨을 특징으로 한다.According to the present invention for achieving the above-described speech synthesis system that provides a variety of speech synthesis functions by controlling a plurality of synthesizers, the client to set the text attributes to the text to be synthesized to deliver the speech synthesis request message in the form of a tag And analyzing the tag in the voice synthesis request message transmitted from the client, selecting the synthesizer based on the analysis result, and referring to the tag table in which a tag list applicable to the selected synthesizer is mapped to a standard message tag list. A text-to speech (TTS) matching unit which converts the text to be converted into a tag that the selected synthesizer can recognize, receives a synthesis result, and provides a synthesis sound to the client, and a synthesis request transmitted from the TTS matching unit. Perform the speech synthesis corresponding to Characterized in that it comprises an integrated synthesis unit consisting of at least one individual synthesizer to output.

또한, 본 발명은 클라이언트, TTS(Text-To Speech) 정합부, 다수의 합성기를 포함하는 음성 합성 시스템에서 상기 다수의 합성기를 제어하여 다양한 음성 합성 기능을 제공하는 음성 합성 방법에 있어서, 클라이언트로부터 합성할 텍스트 및 텍스트 속성이 설정된 음성 합성 요청 메시지는 수신하는 과정과, 상기 TTS 정합부가 상기 수신된 메시지 내의 태그를 분석하여 해당 합성기를 선택하는 과정과, 해당 합성기가 선택되면 상기 다수의 합성기에 대해 미리 저장된 태그 집합을 가지는 태그 테이블을 참조하여 상기 합성할 텍스트를 해당 합성기에서 해석 가능한 포맷으로 태그 변환하는 과정과, 상기 태그 변환된 텍스트를 해당 합성기에 전달한 후 음성 합성에 따른 합성 결과를 전달받는 과정과, 상기 전달된 합성 결과를 상기 클라이언트로 전송하는 과정을 포함함을 특징으로 한다. The present invention also provides a speech synthesis method for providing various speech synthesis functions by controlling the plurality of synthesizers in a speech synthesis system including a client, a text-to speech (TTS) matching unit, and a plurality of synthesizers. Receiving a voice synthesis request message in which text and text attributes are set; selecting, by the TTS matching unit, a tag in the received message by analyzing the tag; and when the synthesizer is selected, the synthesizer is previously selected for the plurality of synthesizers. Converting the text to be synthesized into a format that can be interpreted by a corresponding synthesizer by referring to a tag table having a stored tag set, transmitting the converted tag text to the corresponding synthesizer, and receiving a synthesis result according to speech synthesis; Transmitting the delivered synthesis result to the client. It characterized in that it comprises.

이하 본 발명의 바람직한 실시 예들을 첨부한 도면을 참조하여 상세히 설명한다. 또한 본 발명의 요지를 불필요하게 흐릴 수 있는 공지 기능 및 구성에 대한 상세한 설명은 생략한다.Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings. In addition, detailed descriptions of well-known functions and configurations that may unnecessarily obscure the subject matter of the present invention will be omitted.

본 발명은 다양한 음성 합성 기능을 구현한다. 이를 위해 본 발명은 클라이언트로부터 텍스트가 입력되면 입력된 텍스트를 분석하여 해당 합성기를 통해 음성 합성이 이루어지도록 제어하는 정합부와, 그 정합부의 제어하에 음성 합성을 수행하는 적어도 하나 이상의 합성기를 포함하여 구성되는 음성 합성 시스템을 구현한다. 그리고 본 발명은 음성 합성을 수행한 합성기로부터 합성 결과가 전달되면, 그 합성 결과에 배경음 또는 효과음을 적용할 수 있도록 하는 배경음 믹서와, 그 합성 결과에 음성 변조 효과를 줄 수 있도록 하는 변조 효과부를 더 구비한다. 이렇게 함으로써, 다양한 효과가 부여된 합성음을 출력하여 사용자에게 보다 유연하고 다양한 서비스를 제공할 수 있게 된다. The present invention implements various speech synthesis functions. To this end, the present invention comprises a matching unit for controlling speech synthesis through the synthesizer by analyzing the input text when text is input from the client, and at least one synthesizer for performing speech synthesis under the control of the matching unit. Implements a speech synthesis system. The present invention further provides a background sound mixer that allows a background sound or an effect sound to be applied to the synthesis result when the synthesis result is transmitted from the synthesizer that has performed the voice synthesis, and a modulation effect unit that can give a voice modulation effect to the synthesis result. Equipped. In this way, it is possible to provide a more flexible and various services to the user by outputting the synthesized sound with various effects.

이러한 기능이 구현된 음성 합성 시스템의 구성 요소 및 그 동작을 살펴보기 위해 도 1을 참조한다. 도 1은 본 발명의 실시 예에 따른 음성 합성 시스템의 구성도이다. Referring to FIG. 1, the components and operations of the speech synthesis system in which such a function is implemented are described. 1 is a block diagram of a speech synthesis system according to an embodiment of the present invention.

도 1을 참조하면, 본 발명의 실시 예에 따른 음성 합성 시스템은 음성 합성하고자 하는 텍스트에 그 텍스트에 합성 효과를 부여하기 위한 텍스트 속성(예컨대, 속도, 효과, 변조 등)을 설정하여 태그 형식으로 전달하는 클라이언트(100)와, 클라이언트(100)로부터 태그 형식이 포함된 텍스트를 전달받아 이를 해석하여 해당 합성기를 통해 음성 합성이 이루어질 수 있도록 제어하는 TTS 정합부(110)와, 그 TTS 정합부(110)로부터 전달된 텍스트에 대해 음성 합성을 수행하여 합성 결과를 출력하는 통합 합성부(140)를 포함하여 구성된다. Referring to FIG. 1, the speech synthesis system according to an embodiment of the present invention sets a text property (eg, speed, effect, modulation, etc.) to give a text to a text to be synthesized by synthesizing the text in a tag format. The client 100 and the TTS matching unit 110 which receives the text including the tag format from the client 100, interprets the text, and controls the speech synthesis through the corresponding synthesizer, and the TTS matching unit ( And an integrated synthesis unit 140 that performs voice synthesis on the text transmitted from 110 and outputs a synthesis result.

이하, 클라이언트(100), TTS 정합부(110) 및 통합 합성부(140)에 대해 구체적으로 설명하면, 후술하는 바와 같다. 먼저, 클라이언트(100)는 로봇과 같은 기기를 말하며, 사용자에 의해 작성된 텍스트를 TTS 정합부(110)에 전달하는 역할을 수행한다. 즉, 클라이언트(100)는 사용자에 의해 작성된 텍스트를 TTS 정합부(110)에 전달함으로써 음성 합성 요청 메시지를 전달하는 것이며, 이러한 요청에 대응하여 합성된 음성 데이터를 수신하는 모든 연결 노드를 의미한다. 이 때, 클라이언트(100)는 다양한 방식으로 음성 합성을 수행한 후 그 합성음에 다양한 합성 효과를 주기 위해 해당 합성기에서 해석할 수 있는 태그가 삽입된 텍스트를 TTS 정합부(110)에 제공한다. 이러한 태그가 삽입된 텍스트 즉, 태그 텍스트(Tagged Text)는 합성될 텍스트 중에서 어떠한 부분을 어떻게 합성할 것인지를 결정하는데 이용되며, 이를 기초로 해당 합성기에서는 운율을 생성하며 실제 합성음을 생성해낸다. Hereinafter, the client 100, the TTS matching unit 110, and the integrated synthesis unit 140 will be described in detail. First, the client 100 refers to a device such as a robot, and serves to deliver text written by a user to the TTS matching unit 110. That is, the client 100 delivers a voice synthesis request message by transferring the text written by the user to the TTS matching unit 110, and means all connection nodes that receive the synthesized voice data in response to the request. At this time, the client 100 performs the speech synthesis in various ways and provides the TTS matching unit 110 with the text inserted with the tag that can be interpreted by the synthesizer in order to give various synthesis effects to the synthesized sound. The text in which the tag is inserted, that is, the tagged text, is used to determine how to synthesize which part of the text to be synthesized. Based on this, the synthesizer generates a rhyme and generates an actual synthesized sound.

한편, 태그 텍스트는 사용자가 웹 또는 PC와 같은 태그 입력 수단에 구비된 GUI(Graphical User Interface) 저작툴을 통해 입력한 텍스트 및 그 텍스트에 대한 속성이 포함된 것이다. 이 저작툴은 서비스 제작자 또는 일반 사용자가 다양한 합성기를 적절하게 선택할 수 있도록 하며, 이와 더불어 합성 효과를 쉽게 사용할 수 있도록 태그를 포함한 텍스트 문서 작성 수단이다. 즉, 입력된 텍스트에서 사용자가 원하는 위치마다 원하는 합성음이 출력될 수 있도록 구간 설정 및 합성기 선택 기능을 구비한다. 이러한 저작툴은 사용자가 텍스트 속성을 설정할 경우 컴퓨터에서 제공하는 미리보기 방식과 같이 직접 합성기의 효과에 대해 미리듣기 기능을 제공할 수도 있다. The tag text includes text input by a user through a GUI (Graphical User Interface) authoring tool provided in a tag input means such as a web or a PC, and attributes of the text. This authoring tool allows service authors or end users to select a variety of composers as appropriate, as well as a means of creating text documents, including tags, to easily use compositing effects. That is, a section setting function and a synthesizer selection function are provided so that a desired synthesis sound can be output for each desired position in the input text. The authoring tool may provide a pre-listening function for the effects of the synthesizer directly, such as a preview method provided by a computer, when the user sets the text property.

TTS 정합부(110)는 클라이언트(100)로부터 음성 합성 요청 메시지에 포함된 부가적인 정보 즉, 텍스트 속성을 함께 수신하여 합성기에서 출력되는 합성 결과에 여러 가지 효과를 부가하는 기능을 수행한다. 구체적으로, TTS 정합부(110)는 클라이언트(100)로부터 전달된 태그 텍스트를 해석하는 역할을 수행하는 제어부(120)로 이루어지며, 해당 합성기를 통해 전달되는 합성 결과에 다양한 효과를 부여하기 위해 배경음 또는 효과음을 부여하는 배경음 믹서(125) 및 그 합성 결과 자체를 음성 변조하는 변조 효과부(130)를 더 구비한다. 즉, TTS 정합부(110)는 단순한 음성의 합성 뿐만 아니라 기타 다양한 효과를 지원하기 위한 구성 요소들을 더 포함하는 것이다. The TTS matching unit 110 receives additional information included in the voice synthesis request message, that is, text attributes, from the client 100, and adds various effects to the synthesis result output from the synthesizer. Specifically, the TTS matching unit 110 is composed of a control unit 120 for interpreting the tag text transmitted from the client 100, the background sound to give various effects to the synthesis result delivered through the corresponding synthesizer Alternatively, the apparatus may further include a background sound mixer 125 for providing an effect sound and a modulation effect unit 130 for voice modulating the synthesis result itself. That is, the TTS matching unit 110 further includes components for supporting not only simple speech synthesis but also various other effects.

그 중에서도 배경음 믹서(125)는 클라이언트(100)가 음성 합성 요청 시 함께 배경 음악 추가나 음향 효과의 삽입과 같은 속성을 설정하였을 경우 합성기에서 출력되는 합성 결과에 배경음이나 효과음을 믹싱(mixing)하는 기능을 수행한다. 이어, 변조 효과부(130)는 음성 변조 요청이 포함된 음성 합성 요청 메시지가 수신되었을 경우 해당 변조 기능을 수행한다. Among them, the background sound mixer 125 has a function of mixing background sounds or sound effects with the synthesis result output from the synthesizer when the client 100 sets properties such as adding background music or inserting sound effects when the client 100 requests a voice synthesis. To perform. Subsequently, the modulation effect unit 130 performs a corresponding modulation function when a voice synthesis request message including a voice modulation request is received.

이와 같이 구성되는 TTS 정합부(110)의 기능을 구체적으로 살펴보면, 제어부(120)는 클라이언트(100)로부터 전달된 태그 텍스트를 분석한 후 분석 결과를 바탕으로 사용자에 의해 설정된 텍스트 속성을 반영한 합성음을 얻기 위해 태그 텍스트에 포함된 합성하고자 하는 텍스트를 통합 합성부(140) 내의 해당 합성기에 전달한다. 이 때, 제어부(120)는 통합 합성부(140) 내의 다수의 합성기를 효율적으로 제어하기 위해 공통된 표준 태그를 사용하며, 이를 이용하여 해당 합성기에 맞는 적 합한 포맷으로 변환한 텍스트를 전달한다. 여기서, 제어부(120)는 해당 합성기에 표준 태그 방식으로 변환된 텍스트를 전달할 수도 있지만, 포맷 변환 없이도 텍스트 자체를 직접 해당 합성기에 전달할 수도 있다. Looking specifically at the function of the TTS matching unit 110 configured as described above, the control unit 120 analyzes the tag text transmitted from the client 100, and then synthesized sound reflecting the text attribute set by the user based on the analysis result The text to be synthesized included in the tag text is transferred to the corresponding synthesizer in the integrated synthesizer 140 to obtain the synthesized text. In this case, the controller 120 uses a common standard tag to efficiently control a plurality of synthesizers in the integrated synthesizer 140, and transfers the converted text into a format suitable for the synthesizer by using the common standard tag. Here, the controller 120 may deliver the text converted in the standard tag method to the synthesizer, but may directly transfer the text itself to the synthesizer without format conversion.

한편, 통합 합성부(140)는 개별의 합성기들의 구성으로 이루어지며, 각각의 개별 합성기들마다 서로 다른 합성 기능이 구현된다. 즉, 통합 합성부(140)는 다양한 언어 및 다양한 화자의 음성을 출력할 수 있는 합성기들의 집합으로, 제어부(120)로부터의 합성 요청에 대응하여 해당 합성기를 통해 합성을 수행한다. 예를 들어, 도 1에 도시된 바와 같이 통합 합성부(140)는 한국어(KOR)로 성인 남자의 합성음을 출력하는 제 1합성기(145), 한국어로 성인 여자의 합성음을 출력하는 제 2합성기(150), 한국어로 어린이 남자의 합성음을 출력하는 제 3합성기(155), 영어로 성인 남자의 합성음을 출력하는 제 4합성기(160), 영어로 성인 여자의 합성음을 출력하는 제 5합성기(165) 등 다수의 개별 합성기로 이루어질 수 있다. Meanwhile, the integrated synthesizer 140 is composed of individual synthesizers, and different synthesis functions are implemented for each individual synthesizers. That is, the integrated synthesizer 140 is a set of synthesizers capable of outputting voices of various languages and various speakers, and performs synthesis through a corresponding synthesizer in response to a synthesis request from the controller 120. For example, as shown in FIG. 1, the integrated synthesizer 140 may include a first synthesizer 145 which outputs a synthesized sound of an adult male in Korean (KOR), and a second synthesizer that outputs a synthesized sound of an adult female in Korean ( 150), a third synthesizer 155 for outputting a synthesized sound of a male child in Korean, a fourth synthesizer 160 for outputting a synthesized sound of an adult male in English, and a fifth synthesizer 165 for outputting a synthesized sound of an adult female in English. And a plurality of individual synthesizers.

이러한 개별 합성기들은 TTS 방식을 이용하여 제어부(120)로부터 전달되는 텍스트에 자신이 가지고 있는 합성 기능을 적용한 합성 결과를 출력한다. 이 때, 제어부(120)로부터 각각의 합성기들에 전달되는 텍스트는 전체 문장 중 사용자가 해당 합성기로 합성하고자 하는 일부분일 수 있다. 만일, 사용자가 하나의 문장을 여러 개의 합성기를 통해 어절마다 다른 합성음을 출력하고자 텍스트 속성을 설정하였을 경우, 제어부(120)는 입력된 문장을 해당 합성기들에 맞게 잘라서 해당 부분만을 각각의 합성기들에게 전달하게 된다. 이러한 방식으로 제어부(120)는 해당 합성기들한테 합성을 요청하게 된다. 이러한 합성 요청에 대응하여 각각의 합성기 에서 합성 기능이 수행되어 합성 결과들이 전달되면, 제어부(120)는 이를 순차적으로 취합하여 하나의 합성음으로 만들어 클라이언트(100)에게 제공하는 것이다. 이렇게 함으로써, 클라이언트(100)에서는 사용자에 의해 설정된 텍스트 속성이 반영된 합성음을 출력할 수 있게 된다. These individual synthesizers output a synthesis result of applying their own synthesis function to the text transmitted from the control unit 120 using the TTS method. In this case, the text transferred from the control unit 120 to the respective synthesizers may be a part of the whole sentence that the user intends to synthesize with the synthesizer. If the user sets a text property to output a different synthesized sound for each word through a plurality of synthesizers, the control unit 120 cuts the input sentence according to the synthesizers and only the corresponding portion is given to each synthesizers. Will be delivered. In this way, the control unit 120 requests synthesis from the synthesizers. When a synthesis function is performed in each synthesizer in response to the synthesis request and the synthesis results are delivered, the controller 120 sequentially collects the synthesized results into one synthesized sound and provides the synthesized sound to the client 100. By doing so, the client 100 can output the synthesized sound reflecting the text attribute set by the user.

이하, 상기한 바와 같은 기능이 구현된 음성 합성 시스템의 동작을 도 2를 참조하여 살펴보기로 한다. 도 2는 본 발명의 실시 예에 따라 다양한 합성 기능을 수행하기 위한 음성 합성 시스템에서의 동작 흐름도이다. Hereinafter, the operation of the speech synthesis system implemented with the above function will be described with reference to FIG. 2. 2 is a flowchart illustrating an operation of a speech synthesis system for performing various synthesis functions according to an exemplary embodiment of the present invention.

먼저, 음성 합성 시스템의 동작은 클라이언트(100)로부터의 음성 합성 요청으로부터 시작된다. 그 전에 사용자는 GUI 저작툴을 이용하여 텍스트 및 텍스트 속성을 입력하는 등 200단계에서와 같이 음성 합성 조건을 설정한다. 그러면 클라이언트(100)는 205단계로 진행하여 음성 합성 조건이 설정된 음성 합성 요청 메시지를 TTS 정합부(110)에 전송한다. 다시 말하면, 음성 합성 요청 메시지는 사용자로부터 GUI(Graphical User Interface) 저작툴을 통해 입력된 텍스트 및 텍스트 속성을 포함하는 태그 텍스트(Tagged text) 형태를 가지는 메시지이다. 이 때, 실제적으로 음성 합성 요청 메시지는 TTS 정합부(110) 내의 제어부(120)에 전달되게 된다. 그러면, TTS 정합부(110) 내의 제어부(120)는 210단계로 진행하여 수신된 메시지의 포맷을 분석하여 유효한 메시지인지의 여부를 확인한다. 구체적으로, 제어부(120)는 전달된 메시지의 헤더를 확인하여 수신된 메시지가 음성 합성 요청 메시지인지를 확인하고, 동시에 미리 규정된 메시지 룰(rule)에 의하여 작성되었는지 유효성을 확인한다. 즉, 수신된 메시지는 제어부(120)가 읽어들일(Readable) 수 있는 형식을 갖추고 있어야 한다. 이러한 형식의 한 예로서, 본 발명의 실시 예에서는 xml 형식을 따르는 규칙을 적용할 수 있다. 다르게는 W3C에서 권고하는 SSML(Speech Synthesis Markup Language)의 규칙을 차용할 수도 있는데, 헤더를 표현한 xml 메시지 필드의 예를 도시하면 표 1과 같다. First, the operation of the speech synthesis system begins with a speech synthesis request from the client 100. Before that, the user sets the speech synthesis conditions as in step 200, such as inputting text and text attributes using the GUI authoring tool. Then, the client 100 proceeds to step 205 and transmits a voice synthesis request message in which the voice synthesis condition is set to the TTS matching unit 110. In other words, the speech synthesis request message is a message in the form of tagged text including text and text attributes input from a user through a graphical user interface (GUI) authoring tool. At this time, the voice synthesis request message is actually transmitted to the control unit 120 in the TTS matching unit 110. Then, the control unit 120 in the TTS matching unit 110 proceeds to step 210 and analyzes the format of the received message to determine whether it is a valid message. Specifically, the controller 120 checks the header of the delivered message to confirm whether the received message is a voice synthesis request message, and at the same time, checks the validity of the message according to a predefined message rule. That is, the received message should have a format that can be read by the controller 120. As an example of such a format, an embodiment of the present invention may apply a rule that follows the xml format. Alternatively, the W3C recommends the Speech Synthesis Markup Language (SSML) rule. Table 1 shows an example of an xml message field representing a header.

Figure 112005049987602-pat00001
Figure 112005049987602-pat00001

상기 표 1에서, version은 사용되는 메시지 룰의 버전을 나타내며, proprietor은 사용되는 메시지 룰의 적용 범위를 나타낸다. In Table 1, version indicates the version of the message rule used, and proprietor indicates the scope of application of the message rule used.

만일, 메시지 헤더를 확인한 결과 유효한 메시지가 아닌 경우 제어부(120)는 215단계로 진행하여 정해진 포맷이 아니라고 인지하여 오류 보고를 수행한다. 즉, 더이상 메시지 분석을 수행하지 않는다. 이와 달리 유효한 메시지인 경우 제어부(120)는 220단계로 진행하여 메시지의 태그를 분석한다. 이러한 분석을 통해 제어부(120)는 어떤 합성기를 이용하여 합성을 수행해야하는지를 판단한다. If it is determined that the message header is not a valid message, the controller 120 proceeds to step 215 and recognizes that the message is not in a predetermined format. That is, it no longer performs message analysis. In contrast, if the message is valid, the controller 120 proceeds to step 220 and analyzes the tag of the message. Through this analysis, the controller 120 determines which synthesizer should be synthesized.

이를 상세히 설명하기 위해 도 3에 도시된 바와 같이 합성하고자 하는 문장이 "본 문장은 합성기를 테스트하기 위한 문장입니다"라는 문장이며, 남자 어린이의 목소리로 합성하면서 동화 구연을 목적으로 하는 경우를 예로 들어 설명한다. 이 때, 변조되지 않는 기본 속도 2를 가지는 합성음이 출력되도록 합성음이 출력되는 속도를 2로 하고 변조 없음을 설정한다. 도 3은 본 발명의 일 실시 예에 따른 음성 합성 요청 메시지의 한 예를 도시한 도면이다. In order to explain this in detail, the sentence to be synthesized as shown in FIG. 3 is a sentence "This sentence is a sentence for testing the synthesizer". Explain. At this time, the rate at which the synthesized sound is output is set to 2 so that the synthesized sound having a fundamental rate 2 that is not modulated is set to no modulation. 3 is a diagram illustrating an example of a voice synthesis request message according to an embodiment of the present invention.

도 3에 도시된 바와 같이 음성 합성 요청 메시지가 전달되면, 제어부(120)는 300에 의해 지시되는 부분을 확인하여 즉, 합성될 문장의 속성 정보를 해석하여 어떠한 합성기에 합성을 요청할 것인지를 판단하게 된다. 도 3에서는 xml 형식을 차용한 경우를 예로 들어 나타내었지만, SSML의 형식을 사용할 수도 있으며 새로운 형식으로 정의된 표준 태그를 사용할 수도 있음은 물론이다. 만일 합성기가 속도 및 변조 필터 등의 적용이 가능하다면 제어부(120)는 이러한 합성 효과에 대한 정보까지 전달하여 합성이 이루어질 수 있도록 한다. As shown in FIG. 3, when the voice synthesis request message is delivered, the controller 120 checks the portion indicated by 300, that is, interprets the attribute information of the sentence to be synthesized to determine which synthesizer to request synthesis. do. In FIG. 3, the xml format is used as an example, but the SSML format may be used, and a standard tag defined as a new format may be used. If the synthesizer can be applied to the speed and modulation filters, the control unit 120 also delivers information on the synthesis effect such that the synthesis can be made.

상기한 바와 같은 과정을 통해 합성기가 선택되면, 제어부(120)는 230단계로 진행하여 도 4에 도시된 바와 같은 태그 테이블을 참조하여 235단계에서 태그 변환을 수행한다. 여기서, 태그 테이블은 각 합성기에 대해 미리 저장된 태그 집합을 나타낸다. 이러한 태그 테이블을 참조하여 태그 변환을 하는 이유는 다수의 합성기를 제어부(120)가 적절하게 제어할 수 있도록 하기 위함이다. When the synthesizer is selected through the above process, the control unit 120 proceeds to step 230 and performs tag conversion in step 235 with reference to the tag table as shown in FIG. 4. Here, the tag table represents a set of tags stored in advance for each synthesizer. The reason for tag conversion by referring to such a tag table is to allow the controller 120 to appropriately control a plurality of synthesizers.

한편, 도 3의 310에 의해 지시되는 부분이 실제로 합성할 텍스트가 삽입되는 부분이다. 따라서, 제어부(120)는 310에 의해 지시되는 부분을 해당 합성기에서 해석 가능한 형태로 태그 변환을 하는 것이다. 예를 들어, 도면부호 320에 의해 지시되는 부분은 도면부호 330에 의해 지시되는 바와 같이 변환될 수 있다. Meanwhile, the portion indicated by 310 in FIG. 3 is a portion where text to be actually synthesized is inserted. Therefore, the control unit 120 converts the tag indicated by 310 into a form that can be interpreted by the synthesizer. For example, the portion indicated by 320 may be converted as indicated by 330.

이어, 제어부(120)는 310에 지시되는 부분의 태그를 해석하여 문장 중간에 "합성기를 테스트하기 위한"이라는 부분의 속도를 3으로 하여 합성해야 하며, "테스트"라는 단어에는 실루엣 변조 효과를 적용해야 한다고 인지한다. 이에 따라 제어부(120)는 240단계로 진행하여 합성 요청을 하는데, 구체적으로 남자 어린이 합성음을 출력하는 합성기에 변환된 태그를 전달하여 합성이 이루어질 수 있도록 한다.Subsequently, the controller 120 interprets the tag of the portion indicated by 310 and synthesizes the speed of the portion "to test the synthesizer" in the middle of the sentence with 3, and applies the silhouette modulation effect to the word "test". Recognize that you should. Accordingly, the controller 120 proceeds to step 240 to make a synthesis request. Specifically, the controller 120 transmits the converted tag to the synthesizer for outputting the male children's synthesized sound so that the synthesis can be performed.

이에 대응하여 통합 합성부(140) 내의 해당 합성기 예컨대, 남자 어린이 합성음을 출력하는 합성기에서는 245단계에서와 같이 음성 합성을 수행하여 250단계에서 합성 결과를 제어부(120)에 전달한다. 그리고나서 제어부(120)는 255단계에서 변조 수행 또는 배경음을 적용해야하는지를 판단한다. 만일 변조 수행 또는 배경음을 적용해야 하는 경우 제어부(120)는 260단계로 진행하여 합성 결과를 음성 변조하여 변조 효과를 주거나 그 합성 결과에 배경음을 또는 효과음을 적용하여 음향 효과를 줄 수 있다. 여기서, 배경음 또는 효과음 등의 음향 효과의 적용은 합성 결과의 레졸루션(resolution)과 같은 레졸루션을 가지는 음향 데이터를 합성 결과에 믹싱함으로써 이루어진다. Correspondingly, the synthesizer in the integrated synthesizer 140, for example, a synthesizer for outputting a male child synthesized sound, performs voice synthesis as in step 245 and transmits the synthesis result to the controller 120 in step 250. Then, the controller 120 determines whether modulation or background sound should be applied in step 255. If it is necessary to perform modulation or apply a background sound, the control unit 120 proceeds to step 260 to perform voice modulation on the synthesis result to give a modulation effect or to apply a background sound or an effect sound to the synthesis result to give a sound effect. Here, application of a sound effect such as a background sound or an effect sound is made by mixing sound data having a resolution such as resolution of the synthesis result to the synthesis result.

도 3에서는 변조 시 "실루엣"을 적용하고자 하는 요청이 있었으므로 제어부(120)는 TTS 정합부(110) 내의 변조 효과부(130)로부터 "실루엣"에 해당하는 데이터를 제공받아 합성 결과를 변조한다. 이러한 과정을 통해 최종 합성음이 생성되면, 제어부(120)는 265단계로 진행하여 클라이언트(100)로 합성음을 전송한다. 이에 따라 남자 어린이 목소리에 해당하는 합성음이 출력되면서 "테스트"라는 단어부분만 실루엣 변조된 합성음이 출력되게 된다. In FIG. 3, since a request is made to apply “silhouette” during modulation, the controller 120 receives data corresponding to “silhouette” from the modulation effect unit 130 in the TTS matching unit 110 and modulates the synthesis result. . When the final synthesized sound is generated through this process, the controller 120 proceeds to step 265 and transmits the synthesized sound to the client 100. Accordingly, the synthesized sound corresponding to the voice of the male child is output, and only the word part “test” is a silhouette-modulated synthesized sound.

한편, TTS 정합부(110)에서 사용 가능한 태그의 기능은 도 4에 도시된 바와 같은 것들이 존재할 수 있다. 그 중에서도 도면부호 400에 의해 지시되는 부분은 각각의 합성기 내부에서도 지원 가능한 태그 형식을 나타내며, 도면부호 410에 의해 지시되는 부분은 TTS 정합부(110) 자체 내에서 지원 가능한 태그 형식이다. 따라서, 제어부(120)는 발화 속도, 음량, 음색, 묵음 등의 기능을 제어하고자 하는 텍스트 속성이 설정되어 있는 음성 합성 요청 메시지가 전달되면, 도 4에 도시된 바와 같은 태그 테이블을 참조하여 태그 변환을 하는 것이다. Meanwhile, the functions of the tags usable in the TTS matching unit 110 may exist as shown in FIG. 4. In particular, the portion indicated by 400 denotes a tag format that can be supported in each synthesizer, and the portion indicated by 410 denotes a tag format that can be supported in the TTS matching unit 110 itself. Therefore, the controller 120 converts a tag by referring to a tag table as shown in FIG. 4 when a voice synthesis request message in which a text attribute for controlling functions such as a speech speed, a volume, a tone, a mute, and the like is delivered. To do.

구체적으로, 본 발명의 일 실시 예에 따라 Speed는 합성되는 데이터의 발화 속도를 조절하기 위한 태그 명령어로써 예를 들어, <speed + 1> TEXT </speed>는 태그 내부 구간의 합성 속도를 기본 속도보다 1단계 빠르게 출력한다는 의미를 가진다. Volume은 합성되는 데이터의 발화 음량을 조절하기 위한 태그 명령어로써 예를 들어, <volume = -1> TEXT </volume>는 태그 내부 구간의 합성음의 음량을 기본 음량보다 1단계 작게 출력하라는 것을 의미한다. Pitch는 합성되는 데이터의 음색을 조정하기 위한 태그 명령어로써 예를 들어, <pitch = +2> TEXT </pitch>는 태그 내부 구간의 합성음의 피치를 기본단계보다 2단계 높게 출력하라는 것을 의미한다. 이어, Pause는 삽입되는 묵음 구간을 결정하기 위한 태그 명령어로써, <pause=1000> TEXT는 합성되는 텍스트 앞에서 묵음을 1초간 삽입하라는 것을 의미한다. 이와 같이 각각의 합성기들은 제어부(120)로부터 상기한 바와 같은 태그가 전달되면, 전달된 태그에 따라 단순한 음성 합성 뿐만 아니라 발화 속도, 음량, 음색 및 묵음을 조절할 수 있는 기능을 가지고 있다. Specifically, according to an embodiment of the present invention, Speed is a tag command for adjusting the firing speed of data to be synthesized. For example, <speed + 1> TEXT </ speed> is a basic speed based on the synthesis speed of an inner section of a tag. It means that it outputs one step faster. Volume is a tag command for adjusting the utterance volume of synthesized data. For example, <volume = -1> TEXT </ volume> means to output the volume of the synthesized sound of the interval inside the tag by one level below the basic volume. . Pitch is a tag command for adjusting the timbre of synthesized data. For example, <pitch = +2> TEXT </ pitch> means to output the pitch of the synthesized sound of the inner section of the tag two levels higher than the basic level. Next, Pause is a tag command for determining the silence section to be inserted, and <pause = 1000> TEXT means to insert silence for 1 second before the text to be synthesized. As described above, each of the synthesizers has a function of controlling not only simple speech synthesis but also speech rate, volume, tone and silence according to the transmitted tag, when the above-described tag is transmitted from the controller 120.

한편, Language는 합성을 요청하는 합성기의 언어를 변경하기 위한 태그 명령어로써 예를 들어, <language = "eng"> TEXT </language>는 태그 내부 구간의 합성음은 영어 목소리를 출력하는 합성기를 이용하라는 것을 의미한다. 이에 따라 클라이언트로부터 전달된 합성 요청 메시지에 이러한 태그 명령어가 포함되어 있으면, 제어부(120)는 영어 목소리를 출력하는 합성기를 선택하게 된다. 이어, Speaker는 합성되는 화자를 변경하기 위한 태그 명령어로써 예를 들어, <speaker="tom"> TEXT </speaker>는 태그 내부 구간의 합성음은 'tom'으로 정의된 합성기를 사용하라는 것을 의미한다. 그리고 Modulation은 합성음을 변조하는 변조 필터를 선택하기 위한 태그 명령어로써 예를 들어, <modulation="silhouette"> TEXT</modulation>은 태그 내부 구간의 합성음을 '실루엣' 변조하라는 것을 의미한다. 이에 따라 제어부(120)는 합성기로부터 합성 결과가 출력되면 해당 변조 효과를 합성 결과에 적용한다. On the other hand, Language is a tag command for changing the language of the synthesizer requesting synthesis. For example, <language = "eng"> TEXT </ language> means that the synthesized sound of the inner section of the tag is used to output an English voice. Means that. Accordingly, if such a tag command is included in the synthesis request message transmitted from the client, the controller 120 selects a synthesizer that outputs an English voice. Next, Speaker is a tag command to change the synthesized speaker. For example, <speaker = "tom"> TEXT </ speaker> means that the synthesized sound of the section inside the tag should use a synthesizer defined as 'tom'. . Modulation is a tag command for selecting a modulation filter for modulating the synthesized sound. For example, <modulation = "silhouette"> TEXT </ modulation> means to 'modify' the synthesized sound of the inner section of the tag. Accordingly, when the synthesis result is output from the synthesizer, the controller 120 applies the corresponding modulation effect to the synthesis result.

이와 같이 TTS 정합부(110)는 클라이언트(100)로부터 상기한 바와 같은 태그가 포함된 음성 합성 요청 메시지가 전달되면, 그 메시지에 포함된 태그에 따라 화자 및 언어를 전환할 수 있을 뿐만 아니라 합성 결과에 변조 및 배경음 효과를 적용하여 다양한 효과를 줄 수도 있다. As such, when the TTS matching unit 110 receives the voice synthesis request message including the tag as described above from the client 100, the TTS matching unit 110 may switch the speaker and the language according to the tag included in the message, as well as the synthesis result. Modulation and background sound effects can be applied to various effects.

한편, 상기한 바와 같은 태그를 W3C의 권고안인 SSML의 규칙을 차용하여 표현하면 다음과 같다. 예를 들어, 합성기를 선택할 때 전술한 바에서는 Speaker라는 태그 명령어를 사용하였으나, 본 발명의 다른 실시 예에서는 'voice'라는 태그 명령어를 사용한다. 합성기 선택을 위한 xml 메시지 필드의 예는 표 2에 도시된 바와 같다. On the other hand, the tag as described above by borrowing the rules of SSML, which is a W3C Recommendation. For example, when the synthesizer is selected, the tag command called Speaker is used in the above description, but in another embodiment of the present invention, the tag command called 'voice' is used. An example of an xml message field for synthesizer selection is shown in Table 2.

Figure 112005049987602-pat00002
Figure 112005049987602-pat00002

상기 표 2에서, 'voice'는 합성기를 선택하는 필드 이름을 나타내며, 이 필드의 속성으로 'name'을 가지며 속성값에 따라 TTS 정합부(110) 내의 제어부(120)는 사전에 정의된 합성기를 선택할 수 있게 된다. 만일, 속성이 생략된 경우에는 디폴트 합성기를 선택하게 된다. In Table 2, 'voice' represents a field name for selecting a synthesizer, has 'name' as an attribute of this field, and the controller 120 in the TTS matching unit 110 according to the attribute value selects a synthesizer previously defined. You can choose. If the attribute is omitted, the default synthesizer is chosen.

이어, 강조 태그 명령어로서 'emphasis'가 있는데, 이 'emphasis'에 대한 메시지 필드의 예는 표 3에 도시된 바와 같다. Next, there is 'emphasis' as an emphasis tag command, and an example of a message field for 'emphasis' is shown in Table 3.

Figure 112005049987602-pat00003
Figure 112005049987602-pat00003

상기 표 3에서, 'emphasis'는 선택된 구간을 합성할 때 강조의 운율을 적용하는 필드로서, 이 필드의 속성으로 'level'을 가지며 그 속성값에 따라 사전에 정의된 강조의 정도를 적용한다. 만일 속성이 생략되면 디폴트 레벨을 적용하게 된다. In Table 3, 'emphasis' is a field to apply the prosody of emphasis when synthesizing the selected section, and has 'level' as an attribute of this field and applies a predefined degree of emphasis according to the attribute value. If the attribute is omitted, the default level is applied.

그리고, 휴지 태그 명령어로서 'break'가 있는데, 이 'break'에 대한 메시지 필드의 예는 표 4에 도시된 바와 같다. There is a break tag command 'break', and an example of a message field for this 'break' is shown in Table 4.

Figure 112005049987602-pat00004
Figure 112005049987602-pat00004

상기 표 4에서, 'break'는 필드에 선언된 내용만큼 합성음 사이에 휴지 구간을 포함하게 하는 필드로서, 이 필드의 속성으로 'time' 또는 'strength'를 가질 수 있으며 속성값에 따라 사전에 정의된 시간만큼 휴지 구간을 적용하게 된다. In Table 4, 'break' is a field to include a pause section between synthesized sounds as much as the content declared in the field, and may have 'time' or 'strength' as an attribute of this field and is defined in advance according to the attribute value. The idle period is applied for the set time.

그리고, 운율 태그 명령어로서 'prosody'가 있는데, 'prosody'에 대한 메시지 필드의 예를 도시하면 표 5와 같다. In addition, there is 'prosody' as a rhyme tag command. Table 5 shows an example of a message field for 'prosody'.

Figure 112005049987602-pat00005
Figure 112005049987602-pat00005

상기 표 5에서, 'prosody'는 선택된 구간의 합성 운율을 표현하는 필드로서, 이 필드의 속성으로 'rate', 'volume', 'pitch', 'range' 등을 가질 수 있으며, 속성값에 따라 사전에 정의된 운율을 합성 구간에 적용할 수 있게 된다.In Table 5, 'prosody' is a field representing the composite rhythm of the selected section, and may have 'rate', 'volume', 'pitch', 'range', etc. as the attribute of this field, depending on the attribute value. Predefined rhymes can be applied to the synthesis section.

그리고, 음향 효과 태그 명령어로서 'audio'가 있는데, 'audio'에 대한 메시지 필드의 예를 도시하면 표 6과 같다. In addition, there is 'audio' as a sound effect tag command. Table 6 shows an example of a message field for 'audio'.

Figure 112005049987602-pat00006
Figure 112005049987602-pat00006

상기 표 6에서, 'audio'는 합성음에 음향 효과를 부가하는 필드로서, 이 필드의 속성으로 'src'를 가질 수 있으며 이 속성값에 따라 음향 내용을 합성음에 포함시킬 수 있게 된다. In Table 6, 'audio' is a field for adding a sound effect to the synthesized sound, and may have 'src' as an attribute of this field, and the sound content may be included in the synthesized sound according to this attribute value.

그리고, 변조 효과 태그 명령어로서 'modulation'이 있는데, 'modulation'에 대한 메시지 필드의 예를 도시하면 표 7과 같다.In addition, there is 'modulation' as a modulation effect tag command. Table 7 shows an example of a message field for 'modulation'.

Figure 112005049987602-pat00007
Figure 112005049987602-pat00007

상기 표 7에서, 'modulation'은 합성음에 변조 효과를 부가하는 필드로서, 이 필드의 속성으로 'name'를 가질 수 있으며, 이 속성값에 따라 사전에 정의된 변조 필터를 합성음에 적용할 수 있게 된다. In Table 7, 'modulation' is a field for adding a modulation effect to the synthesized sound, and may have 'name' as an attribute of this field, and according to the attribute value, a pre-defined modulation filter may be applied to the synthesized sound. do.

전술한 바와 같은 태그 명령어를 사용하는 경우를 도 5를 참조하여 설명하면 다음과 같다. 먼저 도 5의 500에 의해 지시되는 바와 같은 태그 명령어들이 포함된 음성 합성 요청 메시지는 음성 합성 시스템(510)에서 처리된다. 그 중에서도 상기 음성 합성 요청 메시지가 TTS 정합부(110)에 전달되면, 유효성이 검증된 메시지에 한하여 상기한 바와 같은 태그 명령어들을 분석하여 어떤 합성기를 통해 합성할 것인지를 선택하게 된다. 예컨대, 본 발명의 다른 실시 예에 따른 태그 명령어를 이용할 경우 제어부(120)는 'voice' 태그 명령어 요소(element) 중 'name' 속성을 확인하여 해당하는 합성기를 선택한다. 이러한 과정을 통해 합성기가 결정되면 해당 합성기에 적용 가능한 태그 리스트를 표준 메시지 태그 리스트와 맵핑시킨 태그 테이블을 참조하여 입력된 메시지의 태그 정보를 해당 합성기가 인지할 수 있는 태그로 변환하게 된다. 이 때, 제어부(110)는 변조나 음향 효과에 대한 태그는 변환하지 않으며 합성기로부터 출력되는 합성 결과에 적용할 수 있도록 변조 여부나 음향 효과 부가 여부에 대한 정보를 임시로 가지고 있는 것이 바람직하다. 따라서, 변환된 태그로 표현된 합성 요청을 실제 합성기에 전달하면, 제어부(120)는 이에 대한 응답이 있을 때까지 대기한다. A case of using the tag command as described above will be described with reference to FIG. 5. First, the speech synthesis request message including the tag instructions as indicated by 500 of FIG. 5 is processed in the speech synthesis system 510. In particular, when the voice synthesis request message is delivered to the TTS matching unit 110, the synthesizer may select a synthesizer by analyzing the tag commands as described above only for the validated message. For example, when using a tag command according to another embodiment of the present invention, the control unit 120 selects a corresponding synthesizer by checking a 'name' attribute among 'voice' tag command elements. When the synthesizer is determined through this process, the tag information of the input message is converted into a tag that can be recognized by the synthesizer by referring to a tag table in which the tag list applicable to the synthesizer is mapped with the standard message tag list. In this case, the controller 110 may temporarily convert information about whether modulation or sound effect is added so that the tag for modulation or sound effect is not converted and applied to the synthesis result output from the synthesizer. Therefore, when the synthesis request expressed in the converted tag is transmitted to the actual synthesizer, the controller 120 waits until there is a response.

한편, 합성 요청을 수신한 합성기는 입력에 대응하는 데이터에 대한 합성을 수행하여 그 합성 결과를 제어부(120)에 전달한다. 그러면 합성 결과를 전달받은 제어부(120)는 임시로 저장해놓은 정보를 통해 클라이언트(100)로부터 전달된 메시지에 변조 요청이 있었는지를 확인한다. 만일 변조 요청이 있었다면 제어부(120)는 변조 효과부(130)로부터 해당 변조를 수행하기 위한 데이터를 제공받아 해당 변조 효과를 합성 결과에 적용한다. 이와 마찬가지로 임시로 저장해놓은 정보를 통해 클라이언트(100)로부터 전달된 메시지에 음향 효과 부가 요청이 있었던 경우에는 제어부(120)는 배경음 믹서(125)로부터 해당 음향 효과 데이터를 제공받아 해당 음향 효과를 합성 결과에 적용한다. 이러한 과정을 통해 최종 합성된 합성음이 클라이언트(100) 예컨대, 도면부호 520에 의해 지시되는 로봇과 같은 기기에 전달됨으로써 다양한 음성 합성 효과가 출력되게 된다. On the other hand, the synthesizer receiving the synthesis request synthesizes the data corresponding to the input and delivers the synthesis result to the control unit 120. Then, the control unit 120 receiving the synthesis result checks whether there is a modulation request in the message transmitted from the client 100 through the temporarily stored information. If there is a modulation request, the controller 120 receives data for performing the modulation from the modulation effect unit 130 and applies the modulation effect to the synthesis result. Similarly, when there is a request for adding a sound effect to a message transmitted from the client 100 through the temporarily stored information, the controller 120 receives the sound effect data from the background sound mixer 125 and synthesizes the sound effect. Applies to Through this process, the final synthesized synthesized sound is transmitted to the client 100, for example, a device such as a robot indicated by reference numeral 520, so that various voice synthesis effects are output.

상술한 본 발명의 설명에서는 구체적인 실시 예에 관해 설명하였으나, 여러 가지 변형이 본 발명의 범위에서 벗어나지 않고 실시할 수 있다. 예를 들어, 본 발명에서는 표준 태그를 구체적으로 예를 들어 설명하였으나, 태그 명령어는 전술한 바 이외에도 보다 다양하게 구현될 수 있음은 물론이다. 따라서 본 발명의 범위는 설명된 실시 예에 의하여 정할 것이 아니고 특허청구범위와 특허청구범위의 균등한 것에 의해 정해 져야 한다. In the above description of the present invention, specific embodiments have been described, but various modifications may be made without departing from the scope of the present invention. For example, the present invention has been described with reference to a standard tag in detail, but the tag command may be implemented in various ways in addition to the above. Therefore, the scope of the present invention should not be defined by the described embodiments, but should be determined by the equivalent of claims and claims.

상기한 바와 같이 본 발명에 따르면, 다양한 합성기를 효과적으로 제어 및 관리함으로써 다양한 품질 및 성격을 가지는 합성음을 출력할 수 있을 뿐만 아니라, 보다 다양하고 복합적인 음성 합성 어플리케이션을 지원하게 할 경우 서비스 질을 향상시킬 수 있는 이점이 있다. 또한, 본 발명을 이용한다면 사용자와 대화하는 시스템의 경우 사용자에 따른 합성음을 구분하여 제공할 수 있으며, 동화 구연, 이메일 읽기 등 음성 합성 시스템이 적용되는 다양한 시스템에 사용자의 다양한 요구를 수용할 수 있게 된다. According to the present invention as described above, by effectively controlling and managing a variety of synthesizers can not only output synthesized sound having a variety of quality and characteristics, but also to improve the quality of service when supporting a more diverse and complex speech synthesis application There is an advantage to this. In addition, according to the present invention, in case of a system for dialogue with a user, a synthesized sound according to the user may be provided and may be provided. do.

Claims (13)

다수의 합성기를 제어하여 다양한 음성 합성 기능을 제공하는 음성 합성 시스템은,Speech synthesis system that provides a variety of speech synthesis function by controlling a plurality of synthesizers, 음성 합성하고자 하는 텍스트에 텍스트 속성을 설정하여 태그 형식으로 음성 합성 요청 메시지를 전달하는 클라이언트와,A client that delivers a speech synthesis request message in the form of a tag by setting a text property on the text to speech synthesis, 상기 클라이언트로부터 전달된 음성 합성 요청 메시지 내의 태그를 분석하고, 분석 결과를 근거로 해당 합성기를 선택한 후 상기 선택된 합성기에 적용 가능한 태그 리스트를 표준 메시지 태그 리스트와 맵핑시킨 태그 테이블을 참조하여 상기 합성할 텍스트를 상기 선택된 합성기가 인지할 수 있는 태그로 변환하여 전달하고, 합성 결과를 전달받아 상기 클라이언트에 합성음을 제공하는 TTS(Text-To Speech) 정합부와,The text to be synthesized is analyzed by referring to a tag table that analyzes a tag in the voice synthesis request message transmitted from the client, selects the synthesizer based on the analysis result, and maps a tag list applicable to the selected synthesizer to a standard message tag list. A TTS (Text-To Speech) matching unit for converting the tag into a tag that can be recognized by the selected synthesizer, and delivering the synthesized sound to the client by receiving a synthesis result; 상기 TTS 정합부로부터 전달된 합성 요청에 대응하는 음성 합성을 수행하여 합성 결과를 출력하는 적어도 하나 이상의 개별 합성기로 이루어지는 통합 합성부를 포함하여 구성됨을 특징으로 하는 다수의 합성기를 제어하여 다양한 음성 합성 기능을 제공하는 음성 합성 시스템.By controlling the plurality of synthesizers characterized in that it comprises an integrated synthesizer consisting of at least one individual synthesizer for performing a voice synthesis corresponding to the synthesis request transmitted from the TTS matching unit to output a synthesis result Providing speech synthesis system. 제 1항에 있어서, 상기 TTS 정합부는 The method of claim 1, wherein the TTS matching unit 상기 메시지에 변조 효과 속성이 설정된 경우 해당 변조 효과를 상기 합성 결과를 적용할 수 있도록 상기 제어부에 변조 데이터를 제공하는 변조 효과부와,A modulation effect unit for providing modulation data to the control unit to apply the synthesis result to a corresponding modulation effect when a modulation effect attribute is set in the message; 상기 메시지에 음향 효과 속성이 설정된 경우 상기 합성 결과에 음향 데이터를 적용할 수 있도록 음향 데이터를 제공하는 배경음 믹서와,A background sound mixer providing sound data so that sound data can be applied to the synthesis result when a sound effect property is set in the message; 상기 메시지 내의 태그 분석을 통해 변조 효과 및 음향 효과 속성의 설정 여부를 확인하고, 확인 결과를 근거로 상기 전달된 합성 결과에 해당 효과를 적용한 합성음을 생성하는 제어부로 이루어짐을 특징으로 하는 다수의 합성기를 제어하여 다양한 음성 합성 기능을 제공하는 음성 합성 시스템.A plurality of synthesizers comprising a control unit for determining whether to set the modulation effect and sound effect properties through the tag analysis in the message, and generates a synthesis sound applying the effect to the delivered synthesis results based on the confirmation result Speech synthesis system that provides a variety of speech synthesis functions by controlling. 제 2항에 있어서, 상기 제어부는 The method of claim 2, wherein the control unit 상기 수신된 음성 합성 요청 메시지의 포맷을 분석하여 유효한 메시지인지의 여부를 확인하고, 유효한 메시지에 한해 상기 메시지 내의 태그를 분석함을 특징으로 하는 다수의 합성기를 제어하여 다양한 음성 합성 기능을 제공하는 음성 합성 시스템.Analyzes the format of the received speech synthesis request message to determine whether it is a valid message, and analyzes a tag in the message only for a valid message to provide various speech synthesis functions by controlling a plurality of synthesizers. Synthesis system. 삭제delete 제 1항에 있어서, 상기 통합 합성부는 The method of claim 1, wherein the integrated synthesis unit 각각 서로 다른 언어, 연령층에 따른 합성음을 출력하며, 발화 속도, 음량, 음색 및 묵음을 조절할 수 있는 기능을 가지는 다수의 개별 합성기로 이루어짐을 특징으로 하는 다수의 합성기를 제어하여 다양한 음성 합성 기능을 제공하는 음성 합성 시스템.It provides a variety of speech synthesis functions by controlling a plurality of synthesizers, each composed of a plurality of individual synthesizers each having a function to adjust the speech rate, volume, tone and silence, and outputs synthesized sounds according to different languages and age groups. Speech synthesis system. 제 1항에 있어서, 상기 음성 합성 요청 메시지는 The voice synthesis request message of claim 1, wherein 사용자로부터 GUI(Graphical User Interface) 저작툴을 통해 입력된 텍스트 및 텍스트 속성을 포함하는 태그 텍스트(Tagged text) 형태를 가지는 메시지임을 특징으로 하는 다수의 합성기를 제어하여 다양한 음성 합성 기능을 제공하는 음성 합성 시스템.Speech synthesis system that provides a variety of speech synthesis functions by controlling a plurality of synthesizers characterized in that the message has a tag text (Tagged text) form including the text and text attributes input from the user through the GUI (Graphical User Interface) authoring tool . 클라이언트, TTS(Text-To Speech) 정합부, 다수의 합성기를 포함하는 음성 합성 시스템에서 상기 다수의 합성기를 제어하여 다양한 음성 합성 기능을 제공하는 음성 합성 방법에 있어서,In the speech synthesis method that provides a variety of speech synthesis functions by controlling the plurality of synthesizers in a speech synthesis system comprising a client, a text-to speech (TTS) matching unit, a plurality of synthesizers, 클라이언트로부터 합성할 텍스트 및 텍스트 속성이 설정된 음성 합성 요청 메시지는 수신하는 과정과,Receiving a speech synthesis request message having text and text attributes to be synthesized from the client; 상기 TTS 정합부가 상기 수신된 메시지 내의 태그를 분석하여 해당 합성기를 선택하는 과정과,Selecting, by the TTS matching unit, a corresponding synthesizer by analyzing a tag in the received message; 해당 합성기가 선택되면 상기 다수의 합성기에 대해 미리 저장된 태그 집합을 가지는 태그 테이블을 참조하여 상기 합성할 텍스트를 해당 합성기에서 해석 가능한 포맷으로 태그 변환하는 과정과,When the corresponding synthesizer is selected, converting the text to be synthesized into a format that can be interpreted by the synthesizer by referring to a tag table having a tag set previously stored for the plurality of synthesizers; 상기 태그 변환된 텍스트를 해당 합성기에 전달한 후 음성 합성에 따른 합성 결과를 전달받는 과정과,Transmitting the tag converted text to a corresponding synthesizer and receiving a synthesis result according to speech synthesis; 상기 전달된 합성 결과를 상기 클라이언트로 전송하는 과정을 포함함을 특징으로 하는 다수의 합성기를 제어하여 다양한 음성 합성 기능을 제공하는 음성 합성 방법.And providing a variety of speech synthesis functions by controlling a plurality of synthesizers, comprising transmitting the delivered synthesis result to the client. 제 7항에 있어서, The method of claim 7, wherein 상기 수신된 음성 합성 요청 메시지의 포맷을 분석하여 유효한 메시지인지의 여부를 확인하는 과정과, Analyzing the format of the received speech synthesis request message to determine whether the message is valid; 상기 유효한 메시지에 한해 상기 메시지 내의 태그를 분석하는 과정을 더 포함함을 특징으로 하는 다수의 합성기를 제어하여 다양한 음성 합성 기능을 제공하는 음성 합성 방법.And analyzing a tag in the message only for the valid message, thereby providing a variety of speech synthesis functions by controlling a plurality of synthesizers. 제 7항에 있어서, The method of claim 7, wherein 상기 음성 합성 요청 메시지 내에 변조 효과 속성이 설정된 경우 해당 변조 효과를 위한 변조 데이터를 제공받는 과정과,Receiving modulation data for a corresponding modulation effect when a modulation effect attribute is set in the speech synthesis request message; 상기 합성 결과에 상기 변조 데이터를 적용하여 합성음을 생성하는 과정을 더 포함함을 특징으로 하는 다수의 합성기를 제어하여 다양한 음성 합성 기능을 제공하는 음성 합성 방법. And generating a synthesized sound by applying the modulated data to the synthesis result, thereby providing a variety of speech synthesis functions by controlling a plurality of synthesizers. 제 7항에 있어서, The method of claim 7, wherein 상기 음성 합성 요청 메시지 내에 음향 효과 속성이 설정된 경우 상기 합성 결과에 해당 음향 데이터를 적용하여 합성음을 생성하는 과정과,Generating a synthesized sound by applying corresponding sound data to the synthesis result when a sound effect property is set in the speech synthesis request message; 상기 생성된 합성음을 상기 클라이언트로 전달하는 과정을 더 포함함을 특징으로 하는 다수의 합성기를 제어하여 다양한 음성 합성 기능을 제공하는 음성 합성 방법.And providing a variety of speech synthesis functions by controlling a plurality of synthesizers, further comprising delivering the generated synthesized sound to the client. 제 7항에 있어서, 상기 다수의 합성기는 8. The method of claim 7, wherein the plurality of synthesizers 각각 서로 다른 언어 및 연령층에 따른 합성음을 출력하는 기능을 가지는 합성기임을 특징으로 하는 다수의 합성기를 제어하여 다양한 음성 합성 기능을 제공하는 음성 합성 방법.A speech synthesis method for providing various speech synthesis functions by controlling a plurality of synthesizers each having a function of outputting synthesized sounds according to different languages and age groups. 제 7항에 있어서, 상기 음성 합성 요청 메시지는 The method of claim 7, wherein the speech synthesis request message is 사용자로부터 GUI(Graphical User Interface) 저작툴을 통해 입력된 텍스트 및 텍스트 속성을 포함하는 태그 텍스트(Tagged text) 형태를 가지는 메시지임을 특징으로 하는 다수의 합성기를 제어하여 다양한 음성 합성 기능을 제공하는 음성 합성 방법.Speech synthesis method that provides a variety of speech synthesis functions by controlling a plurality of synthesizers characterized in that the message has a tag text (Tagged text) form including the text and text attributes input from the user through the GUI (Graphical User Interface) authoring tool . 제 12항에 있어서, 상기 저작툴은The method of claim 12, wherein the authoring tool 상기 입력된 텍스트에서 사용자가 원하는 위치마다 원하는 합성음이 출력될 수 있도록 구간 설정 및 합성기 선택 기능을 구비함을 특징으로 하는 다수의 합성기를 제어하여 다양한 음성 합성 기능을 제공하는 음성 합성 방법.And a section setting function and a synthesizer selection function so that a desired synthesis sound can be output for each desired position in the input text.
KR1020050083086A 2005-09-07 2005-09-07 Voice synthetic method of providing various voice synthetic function controlling many synthesizer and the system thereof KR100724868B1 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020050083086A KR100724868B1 (en) 2005-09-07 2005-09-07 Voice synthetic method of providing various voice synthetic function controlling many synthesizer and the system thereof
US11/516,865 US20070055527A1 (en) 2005-09-07 2006-09-07 Method for synthesizing various voices by controlling a plurality of voice synthesizers and a system therefor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020050083086A KR100724868B1 (en) 2005-09-07 2005-09-07 Voice synthetic method of providing various voice synthetic function controlling many synthesizer and the system thereof

Publications (2)

Publication Number Publication Date
KR20070028764A KR20070028764A (en) 2007-03-13
KR100724868B1 true KR100724868B1 (en) 2007-06-04

Family

ID=37831068

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020050083086A KR100724868B1 (en) 2005-09-07 2005-09-07 Voice synthetic method of providing various voice synthetic function controlling many synthesizer and the system thereof

Country Status (2)

Country Link
US (1) US20070055527A1 (en)
KR (1) KR100724868B1 (en)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8438032B2 (en) * 2007-01-09 2013-05-07 Nuance Communications, Inc. System for tuning synthesized speech
CN101295504B (en) * 2007-04-28 2013-03-27 诺基亚公司 Entertainment audio only for text application
CN103200309A (en) * 2007-04-28 2013-07-10 诺基亚公司 Entertainment audio file for text-only application
US8244534B2 (en) 2007-08-20 2012-08-14 Microsoft Corporation HMM-based bilingual (Mandarin-English) TTS techniques
US20090157407A1 (en) * 2007-12-12 2009-06-18 Nokia Corporation Methods, Apparatuses, and Computer Program Products for Semantic Media Conversion From Source Files to Audio/Video Files
US8352270B2 (en) * 2009-06-09 2013-01-08 Microsoft Corporation Interactive TTS optimization tool
US9053095B2 (en) * 2010-10-31 2015-06-09 Speech Morphing, Inc. Speech morphing communication system
US10360716B1 (en) * 2015-09-18 2019-07-23 Amazon Technologies, Inc. Enhanced avatar animation
US10079021B1 (en) * 2015-12-18 2018-09-18 Amazon Technologies, Inc. Low latency audio interface
CN107437413B (en) * 2017-07-05 2020-09-25 百度在线网络技术(北京)有限公司 Voice broadcasting method and device
US11232645B1 (en) 2017-11-21 2022-01-25 Amazon Technologies, Inc. Virtual spaces as a platform
US10732708B1 (en) * 2017-11-21 2020-08-04 Amazon Technologies, Inc. Disambiguation of virtual reality information using multi-modal data including speech
US10521946B1 (en) 2017-11-21 2019-12-31 Amazon Technologies, Inc. Processing speech to drive animations on avatars
KR102473447B1 (en) * 2018-03-22 2022-12-05 삼성전자주식회사 Electronic device and Method for controlling the electronic device thereof
GB201810621D0 (en) * 2018-06-28 2018-08-15 Univ London Queen Mary Generation of audio data
US10741169B1 (en) * 2018-09-25 2020-08-11 Amazon Technologies, Inc. Text-to-speech (TTS) processing
CN109410913B (en) * 2018-12-13 2022-08-05 百度在线网络技术(北京)有限公司 Voice synthesis method, device, equipment and storage medium
US11114085B2 (en) 2018-12-28 2021-09-07 Spotify Ab Text-to-speech from media content item snippets
CN110600000B (en) * 2019-09-29 2022-04-15 阿波罗智联(北京)科技有限公司 Voice broadcasting method and device, electronic equipment and storage medium
US11380300B2 (en) 2019-10-11 2022-07-05 Samsung Electronics Company, Ltd. Automatically generating speech markup language tags for text
WO2021071221A1 (en) * 2019-10-11 2021-04-15 Samsung Electronics Co., Ltd. Automatically generating speech markup language tags for text

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5850629A (en) 1996-09-09 1998-12-15 Matsushita Electric Industrial Co., Ltd. User interface controller for text-to-speech synthesizer
US6324511B1 (en) 1998-10-01 2001-11-27 Mindmaker, Inc. Method of and apparatus for multi-modal information presentation to computer users with dyslexia, reading disabilities or visual impairment
WO2004064299A2 (en) 2003-01-09 2004-07-29 Motorola Inc. Voice browser dialog enabler for a communication system
KR20040104721A (en) * 2002-05-09 2004-12-10 톰슨 라이센싱 소시에떼 아노님 Text-to-speech(tts) for hand-held devices
KR20040105138A (en) * 2003-06-05 2004-12-14 엘지전자 주식회사 Device and the Method for multi changing the text to the speech of mobile phone
KR20050018883A (en) * 2005-01-25 2005-02-28 우종식 The method and apparatus that created(playback) auto synchronization of image, text, lip's shape using TTS
KR20050052106A (en) * 2003-11-29 2005-06-02 에스케이텔레텍주식회사 Method for responding a call automatically in mobile phone and mobile phone incorporating the same

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4635211A (en) * 1981-10-21 1987-01-06 Sharp Kabushiki Kaisha Speech synthesizer integrated circuit
DE69232112T2 (en) * 1991-11-12 2002-03-14 Fujitsu Ltd Speech synthesis device
US5559927A (en) * 1992-08-19 1996-09-24 Clynes; Manfred Computer system producing emotionally-expressive speech messages
US5960447A (en) * 1995-11-13 1999-09-28 Holt; Douglas Word tagging and editing system for speech recognition
US6188983B1 (en) * 1998-09-02 2001-02-13 International Business Machines Corp. Method for dynamically altering text-to-speech (TTS) attributes of a TTS engine not inherently capable of dynamic attribute alteration
US6865533B2 (en) * 2000-04-21 2005-03-08 Lessac Technology Inc. Text to speech
US7139709B2 (en) * 2000-07-20 2006-11-21 Microsoft Corporation Middleware layer between speech related applications and engines
GB2376394B (en) * 2001-06-04 2005-10-26 Hewlett Packard Co Speech synthesis apparatus and selection method
US7483832B2 (en) * 2001-12-10 2009-01-27 At&T Intellectual Property I, L.P. Method and system for customizing voice translation of text to speech
US20050144002A1 (en) * 2003-12-09 2005-06-30 Hewlett-Packard Development Company, L.P. Text-to-speech conversion with associated mood tag
US7596499B2 (en) * 2004-02-02 2009-09-29 Panasonic Corporation Multilingual text-to-speech system with limited resources

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5850629A (en) 1996-09-09 1998-12-15 Matsushita Electric Industrial Co., Ltd. User interface controller for text-to-speech synthesizer
US6324511B1 (en) 1998-10-01 2001-11-27 Mindmaker, Inc. Method of and apparatus for multi-modal information presentation to computer users with dyslexia, reading disabilities or visual impairment
KR20040104721A (en) * 2002-05-09 2004-12-10 톰슨 라이센싱 소시에떼 아노님 Text-to-speech(tts) for hand-held devices
WO2004064299A2 (en) 2003-01-09 2004-07-29 Motorola Inc. Voice browser dialog enabler for a communication system
KR20040105138A (en) * 2003-06-05 2004-12-14 엘지전자 주식회사 Device and the Method for multi changing the text to the speech of mobile phone
KR20050052106A (en) * 2003-11-29 2005-06-02 에스케이텔레텍주식회사 Method for responding a call automatically in mobile phone and mobile phone incorporating the same
KR20050018883A (en) * 2005-01-25 2005-02-28 우종식 The method and apparatus that created(playback) auto synchronization of image, text, lip's shape using TTS

Also Published As

Publication number Publication date
KR20070028764A (en) 2007-03-13
US20070055527A1 (en) 2007-03-08

Similar Documents

Publication Publication Date Title
KR100724868B1 (en) Voice synthetic method of providing various voice synthetic function controlling many synthesizer and the system thereof
US8594995B2 (en) Multilingual asynchronous communications of speech messages recorded in digital media files
US7062437B2 (en) Audio renderings for expressing non-audio nuances
US5943648A (en) Speech signal distribution system providing supplemental parameter associated data
KR101683943B1 (en) Speech translation system, first terminal device, speech recognition server device, translation server device, and speech synthesis server device
US20090326948A1 (en) Automated Generation of Audiobook with Multiple Voices and Sounds from Text
US20140046667A1 (en) System for creating musical content using a client terminal
JPH05216618A (en) Voice interactive system
US20060224385A1 (en) Text-to-speech conversion in electronic device field
US20080162559A1 (en) Asynchronous communications regarding the subject matter of a media file stored on a handheld recording device
JP2011028130A (en) Speech synthesis device
GB2444539A (en) Altering text attributes in a text-to-speech converter to change the output speech characteristics
JP7200533B2 (en) Information processing device and program
KR20140123715A (en) System and method for editing text and translating text to voice
AU769036B2 (en) Device and method for digital voice processing
JPH10149361A (en) Information processing method and its device, and storage medium
JP4409279B2 (en) Speech synthesis apparatus and speech synthesis program
JP2004185055A (en) Electronic mail system and communication terminal
US8219402B2 (en) Asynchronous receipt of information from a user
JP3282151B2 (en) Voice control method
KR102267651B1 (en) Method and apparatus for providing audio content
KR20180103273A (en) Voice synthetic apparatus and voice synthetic method
JP2002268664A (en) Voice converter and program
JP2007127994A (en) Voice synthesizing method, voice synthesizer, and program
KR100363876B1 (en) A text to speech system using the characteristic vector of voice and the method thereof

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130429

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20140429

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20150429

Year of fee payment: 9

LAPS Lapse due to unpaid annual fee