KR100724868B1 - Voice synthetic method of providing various voice synthetic function controlling many synthesizer and the system thereof - Google Patents
Voice synthetic method of providing various voice synthetic function controlling many synthesizer and the system thereof Download PDFInfo
- Publication number
- KR100724868B1 KR100724868B1 KR1020050083086A KR20050083086A KR100724868B1 KR 100724868 B1 KR100724868 B1 KR 100724868B1 KR 1020050083086 A KR1020050083086 A KR 1020050083086A KR 20050083086 A KR20050083086 A KR 20050083086A KR 100724868 B1 KR100724868 B1 KR 100724868B1
- Authority
- KR
- South Korea
- Prior art keywords
- synthesis
- speech synthesis
- text
- tag
- synthesizer
- Prior art date
Links
- 230000001276 controlling effect Effects 0.000 title claims abstract description 24
- 238000010189 synthetic method Methods 0.000 title 1
- 230000002194 synthesizing Effects 0.000 claims abstract description 167
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 164
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 164
- 230000000051 modifying Effects 0.000 claims abstract description 53
- 230000000694 effects Effects 0.000 claims abstract description 52
- 230000000875 corresponding Effects 0.000 claims description 22
- 238000001308 synthesis method Methods 0.000 claims description 8
- 238000000034 method Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000001058 adult Effects 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 239000002131 composite material Substances 0.000 description 1
- 238000010304 firing Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006011 modification reaction Methods 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
- G10L13/047—Architecture of speech synthesisers
Abstract
본 발명은 다양한 음성 합성 기능을 구현한다. 이를 위해 본 발명은 클라이언트로부터 텍스트가 입력되면 입력된 텍스트를 분석하여 해당 합성기를 통해 음성 합성이 이루어지도록 제어하는 정합부와, 그 정합부의 제어하에 음성 합성을 수행하는 적어도 하나 이상의 합성기를 포함하여 구성되는 음성 합성 시스템을 구현한다. 그리고 본 발명은 음성 합성을 수행한 합성기로부터 합성 결과가 전달되면, 그 합성 결과에 배경음 또는 효과음을 적용할 수 있도록 하는 배경음 믹서와, 그 합성 결과에 음성 변조 효과를 줄 수 있도록 하는 변조 효과부를 더 구비한다. 이렇게 함으로써, 다양한 효과가 부여된 합성음을 출력하여 사용자에게 보다 유연하고 다양한 서비스를 제공할 수 있게 된다. The present invention implements various speech synthesis functions. To this end, the present invention comprises a matching unit for controlling speech synthesis through the synthesizer by analyzing the input text when text is input from the client, and at least one synthesizer for performing speech synthesis under the control of the matching unit. Implements a speech synthesis system. The present invention further provides a background sound mixer that allows a background sound or an effect sound to be applied to the synthesis result when the synthesis result is transmitted from the synthesizer that has performed the voice synthesis, and a modulation effect unit that can give a voice modulation effect to the synthesis result. Equipped. In this way, it is possible to provide a more flexible and various services to the user by outputting the synthesized sound with various effects.
합성기, 음성 합성 시스템, 태그 Synthesizer, speech synthesis system, tagged
Description
도 1은 본 발명의 실시 예에 따른 음성 합성 시스템의 구성도,1 is a block diagram of a speech synthesis system according to an embodiment of the present invention;
도 2는 본 발명의 실시 예에 따라 다양한 합성 기능을 수행하기 위한 음성 합성 시스템에서의 동작 흐름도,2 is a flowchart illustrating operations of a speech synthesis system for performing various synthesis functions according to an embodiment of the present invention;
도 3은 본 발명의 일 실시 예에 따른 음성 합성 요청 메시지의 한 예를 도시한 도면,3 is a diagram illustrating an example of a speech synthesis request message according to an embodiment of the present invention;
도 4는 본 발명의 실시 예에 따른 태그 테이블을 도시한 도면,4 is a diagram illustrating a tag table according to an embodiment of the present invention;
도 5는 본 발명의 실시 예에 따라 음성 합성 수행 과정을 도시한 도면.5 is a diagram illustrating a process of performing speech synthesis according to an embodiment of the present invention.
본 발명은 음성 합성 방법 및 그 시스템에 관한 것으로, 특히 사용자의 기호에 따라 다양한 합성음을 출력시킬 수 있도록 다수의 합성기를 제어하여 다양한 음성 합성 기능을 제공하는 음성 합성 방법 및 그 시스템에 관한 것이다. The present invention relates to a speech synthesis method and system, and more particularly, to a speech synthesis method and system for providing various speech synthesis functions by controlling a plurality of synthesizers to output various synthesized sounds according to a user's preference.
일반적으로 음성 합성기는 사용자에게 다양한 형태의 정보를 음성으로 제공하는 역할을 수행하는데, 사용자는 이러한 음성 합성기를 이용하여 종래의 텍스트나 대화 상대로부터 제공되는 텍스트를 음성으로 출력하게 된다. 이와 같이 음성 합성기에 적용되는 음성 합성 기술은 입력된 텍스트를 언어 해석하고 이를 음성으로 합성하는 처리 과정을 통해 텍스트를 자연스러운 합성음으로 변환시켜 출력하는 것으로, TTS(Text-To Speech)를 통해 이루어진다. In general, the speech synthesizer serves to provide a user with various types of information as a voice, and the user outputs a conventional text or text provided from a conversation partner as a voice using the speech synthesizer. As such, the speech synthesis technology applied to the speech synthesizer converts the text into a natural synthesized sound through a process of linguistically interpreting the input text and synthesizing it into speech, and is performed through text-to speech (TTS).
TTS란 기호화된 문자 정보를 사람이 알아들을 수 있는 음성 정보로 변환하는 기술로서, 하나의 목소리와 언어를 이용하여 합성음을 출력한다. 즉, 기존의 음성 합성기는 문장 단위로 입력된 데이터를 합성음으로 출력하는 단순한 기능을 가지고 있다. 이러한 음성 합성기는 다국어, 또는 화자의 성별, 음색 변조 등 사용자가 원하는 방식으로 합성음을 출력할 수 있는 방법이 없어서 사용자 취향에 따라 유연하게 대처하지 못하고 있는 실정이다. TTS is a technology that converts symbolic text information into human voice information, and outputs a synthesized sound using a single voice and language. That is, the existing speech synthesizer has a simple function of outputting data input in units of sentences as synthesized sounds. Such a voice synthesizer does not have a method for outputting synthesized sounds in a multi-language or gender or tone modulation manner of a speaker and thus does not flexibly cope with the user's taste.
예를 들어, "한국어 + 남자 + 어른"이라는 특징을 가지는 음성 합성기를 이용할 경우에는 필요에 따라 문장 중간에 다양한 변화를 주고 싶어도 하나의 합성음만을 출력할 수 밖에 없는 실정이다. 따라서, 이러한 음성 합성기는 하나의 목소리만을 제공하기 때문에 사용자의 욕구 및 사용자 계층이 다양해지는 추세 및 서비스되는 내용 예컨대, 기사, 이메일, 동화 등에 따른 적합한 음성 합성을 고려할 수 없는 문제점이 있다. 따라서, 문장의 처음부터 끝까지 하나의 합성음으로 출력하는 방법은 사용자로 하여금 단조로움을 느끼게 한다. For example, in the case of using a voice synthesizer having a characteristic of "Korean + male + adult", only one synthesized sound can be output even if you want to change various things in the middle of the sentence as necessary. Therefore, since the voice synthesizer provides only one voice, there is a problem in that it is not possible to consider a suitable voice synthesis according to the tendency of the user's desire and user hierarchy and service contents such as articles, e-mails, and fairy tales. Therefore, the method of outputting one synthesized sound from the beginning to the end of the sentence makes the user feel monotonous.
게다가 사용자의 편의성을 고려하기 위해 음색 변조 등의 기술을 이용하여 보다 다양하게 음성 합성을 구현하고자 하더라도 이 또한 응용계층에 따라 한계를 나타낸다. 예를 들어, 사용자가 텍스트 편집기의 기능을 이용하여 합성하고자 하는 부분을 선택하여 해당 부분에 대해 합성음을 출력하는 방법을 사용하더라도 그 편의성은 낮은 편이며, 현재까지는 서로 다른 합성음을 출력하는 각각의 합성기를 하나의 문장 내에서 임의의 위치마다 사용자가 선택적으로 적용할 수 있는 기능이 구현된 것이 없는 실정이다. In addition, even if the user wants to implement a variety of speech synthesis using a technique such as tone modulation to consider the user's convenience, this also shows a limit depending on the application layer. For example, even if a user selects a part to be synthesized using a text editor function and outputs a synthesis sound for the corresponding part, the convenience is low. It is a situation that the function that the user can selectively apply at any position in a sentence is not implemented.
상기한 바와 같이 종래의 서비스되고 있는 음성 합성 방법은 하나의 합성기와 그 합성기에서 제공 가능한 변조만이 적용된 것에 불과하였다. 이러한 구조를 가지는 음성 합성 시스템의 경우에는 그 응용에 있어 한계를 나타낸다. 예를 들어, 사용자가 한국어 이외에 외국어 및 성별, 연령층을 고려한 화자의 특성을 반영하여 합성하고자 할 경우 각각의 음성 합성기들을 효율적으로 제어하여 사용자가 원하는 합성음을 출력할 수 있는 방법이 없었다. As described above, the conventional speech synthesis method is only applied to one synthesizer and the modulation provided by the synthesizer. The speech synthesis system having such a structure shows a limitation in its application. For example, if a user wants to synthesize the speaker by considering the speaker's characteristics considering foreign language, gender, and age group in addition to Korean, there is no method of efficiently controlling the respective voice synthesizers and outputting the desired synthesized sound.
따라서, 본 발명은 사용자의 기호에 따라 다양한 합성음을 출력시킬 수 있도록 다수의 합성기를 제어하여 다양한 음성 합성 기능을 제공하는 음성 합성 방법 및 그 시스템을 제공한다. Accordingly, the present invention provides a speech synthesis method and system for providing various speech synthesis functions by controlling a plurality of synthesizers to output various synthesized sounds according to a user's preference.
상술한 바를 달성하기 위한 본 발명에 따르면 다수의 합성기를 제어하여 다양한 음성 합성 기능을 제공하는 음성 합성 시스템은, 음성 합성하고자 하는 텍스트에 텍스트 속성을 설정하여 태그 형식으로 음성 합성 요청 메시지를 전달하는 클라이언트와, 상기 클라이언트로부터 전달된 음성 합성 요청 메시지 내의 태그를 분석하고, 분석 결과를 근거로 해당 합성기를 선택한 후 상기 선택된 합성기에 적용 가능한 태그 리스트를 표준 메시지 태그 리스트와 맵핑시킨 태그 테이블을 참조하여 상기 합성할 텍스트를 상기 선택된 합성기가 인지할 수 있는 태그로 변환하여 전달하고, 합성 결과를 전달받아 상기 클라이언트에 합성음을 제공하는 TTS(Text-To Speech) 정합부와, 상기 TTS 정합부로부터 전달된 합성 요청에 대응하는 음성 합성을 수행하여 합성 결과를 출력하는 적어도 하나 이상의 개별 합성기로 이루어지는 통합 합성부를 포함하여 구성됨을 특징으로 한다.According to the present invention for achieving the above-described speech synthesis system that provides a variety of speech synthesis functions by controlling a plurality of synthesizers, the client to set the text attributes to the text to be synthesized to deliver the speech synthesis request message in the form of a tag And analyzing the tag in the voice synthesis request message transmitted from the client, selecting the synthesizer based on the analysis result, and referring to the tag table in which a tag list applicable to the selected synthesizer is mapped to a standard message tag list. A text-to speech (TTS) matching unit which converts the text to be converted into a tag that the selected synthesizer can recognize, receives a synthesis result, and provides a synthesis sound to the client, and a synthesis request transmitted from the TTS matching unit. Perform the speech synthesis corresponding to Characterized in that it comprises an integrated synthesis unit consisting of at least one individual synthesizer to output.
또한, 본 발명은 클라이언트, TTS(Text-To Speech) 정합부, 다수의 합성기를 포함하는 음성 합성 시스템에서 상기 다수의 합성기를 제어하여 다양한 음성 합성 기능을 제공하는 음성 합성 방법에 있어서, 클라이언트로부터 합성할 텍스트 및 텍스트 속성이 설정된 음성 합성 요청 메시지는 수신하는 과정과, 상기 TTS 정합부가 상기 수신된 메시지 내의 태그를 분석하여 해당 합성기를 선택하는 과정과, 해당 합성기가 선택되면 상기 다수의 합성기에 대해 미리 저장된 태그 집합을 가지는 태그 테이블을 참조하여 상기 합성할 텍스트를 해당 합성기에서 해석 가능한 포맷으로 태그 변환하는 과정과, 상기 태그 변환된 텍스트를 해당 합성기에 전달한 후 음성 합성에 따른 합성 결과를 전달받는 과정과, 상기 전달된 합성 결과를 상기 클라이언트로 전송하는 과정을 포함함을 특징으로 한다. The present invention also provides a speech synthesis method for providing various speech synthesis functions by controlling the plurality of synthesizers in a speech synthesis system including a client, a text-to speech (TTS) matching unit, and a plurality of synthesizers. Receiving a voice synthesis request message in which text and text attributes are set; selecting, by the TTS matching unit, a tag in the received message by analyzing the tag; and when the synthesizer is selected, the synthesizer is previously selected for the plurality of synthesizers. Converting the text to be synthesized into a format that can be interpreted by a corresponding synthesizer by referring to a tag table having a stored tag set, transmitting the converted tag text to the corresponding synthesizer, and receiving a synthesis result according to speech synthesis; Transmitting the delivered synthesis result to the client. It characterized in that it comprises.
이하 본 발명의 바람직한 실시 예들을 첨부한 도면을 참조하여 상세히 설명한다. 또한 본 발명의 요지를 불필요하게 흐릴 수 있는 공지 기능 및 구성에 대한 상세한 설명은 생략한다.Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings. In addition, detailed descriptions of well-known functions and configurations that may unnecessarily obscure the subject matter of the present invention will be omitted.
본 발명은 다양한 음성 합성 기능을 구현한다. 이를 위해 본 발명은 클라이언트로부터 텍스트가 입력되면 입력된 텍스트를 분석하여 해당 합성기를 통해 음성 합성이 이루어지도록 제어하는 정합부와, 그 정합부의 제어하에 음성 합성을 수행하는 적어도 하나 이상의 합성기를 포함하여 구성되는 음성 합성 시스템을 구현한다. 그리고 본 발명은 음성 합성을 수행한 합성기로부터 합성 결과가 전달되면, 그 합성 결과에 배경음 또는 효과음을 적용할 수 있도록 하는 배경음 믹서와, 그 합성 결과에 음성 변조 효과를 줄 수 있도록 하는 변조 효과부를 더 구비한다. 이렇게 함으로써, 다양한 효과가 부여된 합성음을 출력하여 사용자에게 보다 유연하고 다양한 서비스를 제공할 수 있게 된다. The present invention implements various speech synthesis functions. To this end, the present invention comprises a matching unit for controlling speech synthesis through the synthesizer by analyzing the input text when text is input from the client, and at least one synthesizer for performing speech synthesis under the control of the matching unit. Implements a speech synthesis system. The present invention further provides a background sound mixer that allows a background sound or an effect sound to be applied to the synthesis result when the synthesis result is transmitted from the synthesizer that has performed the voice synthesis, and a modulation effect unit that can give a voice modulation effect to the synthesis result. Equipped. In this way, it is possible to provide a more flexible and various services to the user by outputting the synthesized sound with various effects.
이러한 기능이 구현된 음성 합성 시스템의 구성 요소 및 그 동작을 살펴보기 위해 도 1을 참조한다. 도 1은 본 발명의 실시 예에 따른 음성 합성 시스템의 구성도이다. Referring to FIG. 1, the components and operations of the speech synthesis system in which such a function is implemented are described. 1 is a block diagram of a speech synthesis system according to an embodiment of the present invention.
도 1을 참조하면, 본 발명의 실시 예에 따른 음성 합성 시스템은 음성 합성하고자 하는 텍스트에 그 텍스트에 합성 효과를 부여하기 위한 텍스트 속성(예컨대, 속도, 효과, 변조 등)을 설정하여 태그 형식으로 전달하는 클라이언트(100)와, 클라이언트(100)로부터 태그 형식이 포함된 텍스트를 전달받아 이를 해석하여 해당 합성기를 통해 음성 합성이 이루어질 수 있도록 제어하는 TTS 정합부(110)와, 그 TTS 정합부(110)로부터 전달된 텍스트에 대해 음성 합성을 수행하여 합성 결과를 출력하는 통합 합성부(140)를 포함하여 구성된다. Referring to FIG. 1, the speech synthesis system according to an embodiment of the present invention sets a text property (eg, speed, effect, modulation, etc.) to give a text to a text to be synthesized by synthesizing the text in a tag format. The
이하, 클라이언트(100), TTS 정합부(110) 및 통합 합성부(140)에 대해 구체적으로 설명하면, 후술하는 바와 같다. 먼저, 클라이언트(100)는 로봇과 같은 기기를 말하며, 사용자에 의해 작성된 텍스트를 TTS 정합부(110)에 전달하는 역할을 수행한다. 즉, 클라이언트(100)는 사용자에 의해 작성된 텍스트를 TTS 정합부(110)에 전달함으로써 음성 합성 요청 메시지를 전달하는 것이며, 이러한 요청에 대응하여 합성된 음성 데이터를 수신하는 모든 연결 노드를 의미한다. 이 때, 클라이언트(100)는 다양한 방식으로 음성 합성을 수행한 후 그 합성음에 다양한 합성 효과를 주기 위해 해당 합성기에서 해석할 수 있는 태그가 삽입된 텍스트를 TTS 정합부(110)에 제공한다. 이러한 태그가 삽입된 텍스트 즉, 태그 텍스트(Tagged Text)는 합성될 텍스트 중에서 어떠한 부분을 어떻게 합성할 것인지를 결정하는데 이용되며, 이를 기초로 해당 합성기에서는 운율을 생성하며 실제 합성음을 생성해낸다. Hereinafter, the
한편, 태그 텍스트는 사용자가 웹 또는 PC와 같은 태그 입력 수단에 구비된 GUI(Graphical User Interface) 저작툴을 통해 입력한 텍스트 및 그 텍스트에 대한 속성이 포함된 것이다. 이 저작툴은 서비스 제작자 또는 일반 사용자가 다양한 합성기를 적절하게 선택할 수 있도록 하며, 이와 더불어 합성 효과를 쉽게 사용할 수 있도록 태그를 포함한 텍스트 문서 작성 수단이다. 즉, 입력된 텍스트에서 사용자가 원하는 위치마다 원하는 합성음이 출력될 수 있도록 구간 설정 및 합성기 선택 기능을 구비한다. 이러한 저작툴은 사용자가 텍스트 속성을 설정할 경우 컴퓨터에서 제공하는 미리보기 방식과 같이 직접 합성기의 효과에 대해 미리듣기 기능을 제공할 수도 있다. The tag text includes text input by a user through a GUI (Graphical User Interface) authoring tool provided in a tag input means such as a web or a PC, and attributes of the text. This authoring tool allows service authors or end users to select a variety of composers as appropriate, as well as a means of creating text documents, including tags, to easily use compositing effects. That is, a section setting function and a synthesizer selection function are provided so that a desired synthesis sound can be output for each desired position in the input text. The authoring tool may provide a pre-listening function for the effects of the synthesizer directly, such as a preview method provided by a computer, when the user sets the text property.
TTS 정합부(110)는 클라이언트(100)로부터 음성 합성 요청 메시지에 포함된 부가적인 정보 즉, 텍스트 속성을 함께 수신하여 합성기에서 출력되는 합성 결과에 여러 가지 효과를 부가하는 기능을 수행한다. 구체적으로, TTS 정합부(110)는 클라이언트(100)로부터 전달된 태그 텍스트를 해석하는 역할을 수행하는 제어부(120)로 이루어지며, 해당 합성기를 통해 전달되는 합성 결과에 다양한 효과를 부여하기 위해 배경음 또는 효과음을 부여하는 배경음 믹서(125) 및 그 합성 결과 자체를 음성 변조하는 변조 효과부(130)를 더 구비한다. 즉, TTS 정합부(110)는 단순한 음성의 합성 뿐만 아니라 기타 다양한 효과를 지원하기 위한 구성 요소들을 더 포함하는 것이다. The TTS matching
그 중에서도 배경음 믹서(125)는 클라이언트(100)가 음성 합성 요청 시 함께 배경 음악 추가나 음향 효과의 삽입과 같은 속성을 설정하였을 경우 합성기에서 출력되는 합성 결과에 배경음이나 효과음을 믹싱(mixing)하는 기능을 수행한다. 이어, 변조 효과부(130)는 음성 변조 요청이 포함된 음성 합성 요청 메시지가 수신되었을 경우 해당 변조 기능을 수행한다. Among them, the
이와 같이 구성되는 TTS 정합부(110)의 기능을 구체적으로 살펴보면, 제어부(120)는 클라이언트(100)로부터 전달된 태그 텍스트를 분석한 후 분석 결과를 바탕으로 사용자에 의해 설정된 텍스트 속성을 반영한 합성음을 얻기 위해 태그 텍스트에 포함된 합성하고자 하는 텍스트를 통합 합성부(140) 내의 해당 합성기에 전달한다. 이 때, 제어부(120)는 통합 합성부(140) 내의 다수의 합성기를 효율적으로 제어하기 위해 공통된 표준 태그를 사용하며, 이를 이용하여 해당 합성기에 맞는 적 합한 포맷으로 변환한 텍스트를 전달한다. 여기서, 제어부(120)는 해당 합성기에 표준 태그 방식으로 변환된 텍스트를 전달할 수도 있지만, 포맷 변환 없이도 텍스트 자체를 직접 해당 합성기에 전달할 수도 있다. Looking specifically at the function of the
한편, 통합 합성부(140)는 개별의 합성기들의 구성으로 이루어지며, 각각의 개별 합성기들마다 서로 다른 합성 기능이 구현된다. 즉, 통합 합성부(140)는 다양한 언어 및 다양한 화자의 음성을 출력할 수 있는 합성기들의 집합으로, 제어부(120)로부터의 합성 요청에 대응하여 해당 합성기를 통해 합성을 수행한다. 예를 들어, 도 1에 도시된 바와 같이 통합 합성부(140)는 한국어(KOR)로 성인 남자의 합성음을 출력하는 제 1합성기(145), 한국어로 성인 여자의 합성음을 출력하는 제 2합성기(150), 한국어로 어린이 남자의 합성음을 출력하는 제 3합성기(155), 영어로 성인 남자의 합성음을 출력하는 제 4합성기(160), 영어로 성인 여자의 합성음을 출력하는 제 5합성기(165) 등 다수의 개별 합성기로 이루어질 수 있다. Meanwhile, the integrated
이러한 개별 합성기들은 TTS 방식을 이용하여 제어부(120)로부터 전달되는 텍스트에 자신이 가지고 있는 합성 기능을 적용한 합성 결과를 출력한다. 이 때, 제어부(120)로부터 각각의 합성기들에 전달되는 텍스트는 전체 문장 중 사용자가 해당 합성기로 합성하고자 하는 일부분일 수 있다. 만일, 사용자가 하나의 문장을 여러 개의 합성기를 통해 어절마다 다른 합성음을 출력하고자 텍스트 속성을 설정하였을 경우, 제어부(120)는 입력된 문장을 해당 합성기들에 맞게 잘라서 해당 부분만을 각각의 합성기들에게 전달하게 된다. 이러한 방식으로 제어부(120)는 해당 합성기들한테 합성을 요청하게 된다. 이러한 합성 요청에 대응하여 각각의 합성기 에서 합성 기능이 수행되어 합성 결과들이 전달되면, 제어부(120)는 이를 순차적으로 취합하여 하나의 합성음으로 만들어 클라이언트(100)에게 제공하는 것이다. 이렇게 함으로써, 클라이언트(100)에서는 사용자에 의해 설정된 텍스트 속성이 반영된 합성음을 출력할 수 있게 된다. These individual synthesizers output a synthesis result of applying their own synthesis function to the text transmitted from the
이하, 상기한 바와 같은 기능이 구현된 음성 합성 시스템의 동작을 도 2를 참조하여 살펴보기로 한다. 도 2는 본 발명의 실시 예에 따라 다양한 합성 기능을 수행하기 위한 음성 합성 시스템에서의 동작 흐름도이다. Hereinafter, the operation of the speech synthesis system implemented with the above function will be described with reference to FIG. 2. 2 is a flowchart illustrating an operation of a speech synthesis system for performing various synthesis functions according to an exemplary embodiment of the present invention.
먼저, 음성 합성 시스템의 동작은 클라이언트(100)로부터의 음성 합성 요청으로부터 시작된다. 그 전에 사용자는 GUI 저작툴을 이용하여 텍스트 및 텍스트 속성을 입력하는 등 200단계에서와 같이 음성 합성 조건을 설정한다. 그러면 클라이언트(100)는 205단계로 진행하여 음성 합성 조건이 설정된 음성 합성 요청 메시지를 TTS 정합부(110)에 전송한다. 다시 말하면, 음성 합성 요청 메시지는 사용자로부터 GUI(Graphical User Interface) 저작툴을 통해 입력된 텍스트 및 텍스트 속성을 포함하는 태그 텍스트(Tagged text) 형태를 가지는 메시지이다. 이 때, 실제적으로 음성 합성 요청 메시지는 TTS 정합부(110) 내의 제어부(120)에 전달되게 된다. 그러면, TTS 정합부(110) 내의 제어부(120)는 210단계로 진행하여 수신된 메시지의 포맷을 분석하여 유효한 메시지인지의 여부를 확인한다. 구체적으로, 제어부(120)는 전달된 메시지의 헤더를 확인하여 수신된 메시지가 음성 합성 요청 메시지인지를 확인하고, 동시에 미리 규정된 메시지 룰(rule)에 의하여 작성되었는지 유효성을 확인한다. 즉, 수신된 메시지는 제어부(120)가 읽어들일(Readable) 수 있는 형식을 갖추고 있어야 한다. 이러한 형식의 한 예로서, 본 발명의 실시 예에서는 xml 형식을 따르는 규칙을 적용할 수 있다. 다르게는 W3C에서 권고하는 SSML(Speech Synthesis Markup Language)의 규칙을 차용할 수도 있는데, 헤더를 표현한 xml 메시지 필드의 예를 도시하면 표 1과 같다. First, the operation of the speech synthesis system begins with a speech synthesis request from the
상기 표 1에서, version은 사용되는 메시지 룰의 버전을 나타내며, proprietor은 사용되는 메시지 룰의 적용 범위를 나타낸다. In Table 1, version indicates the version of the message rule used, and proprietor indicates the scope of application of the message rule used.
만일, 메시지 헤더를 확인한 결과 유효한 메시지가 아닌 경우 제어부(120)는 215단계로 진행하여 정해진 포맷이 아니라고 인지하여 오류 보고를 수행한다. 즉, 더이상 메시지 분석을 수행하지 않는다. 이와 달리 유효한 메시지인 경우 제어부(120)는 220단계로 진행하여 메시지의 태그를 분석한다. 이러한 분석을 통해 제어부(120)는 어떤 합성기를 이용하여 합성을 수행해야하는지를 판단한다. If it is determined that the message header is not a valid message, the
이를 상세히 설명하기 위해 도 3에 도시된 바와 같이 합성하고자 하는 문장이 "본 문장은 합성기를 테스트하기 위한 문장입니다"라는 문장이며, 남자 어린이의 목소리로 합성하면서 동화 구연을 목적으로 하는 경우를 예로 들어 설명한다. 이 때, 변조되지 않는 기본 속도 2를 가지는 합성음이 출력되도록 합성음이 출력되는 속도를 2로 하고 변조 없음을 설정한다. 도 3은 본 발명의 일 실시 예에 따른 음성 합성 요청 메시지의 한 예를 도시한 도면이다. In order to explain this in detail, the sentence to be synthesized as shown in FIG. 3 is a sentence "This sentence is a sentence for testing the synthesizer". Explain. At this time, the rate at which the synthesized sound is output is set to 2 so that the synthesized sound having a
도 3에 도시된 바와 같이 음성 합성 요청 메시지가 전달되면, 제어부(120)는 300에 의해 지시되는 부분을 확인하여 즉, 합성될 문장의 속성 정보를 해석하여 어떠한 합성기에 합성을 요청할 것인지를 판단하게 된다. 도 3에서는 xml 형식을 차용한 경우를 예로 들어 나타내었지만, SSML의 형식을 사용할 수도 있으며 새로운 형식으로 정의된 표준 태그를 사용할 수도 있음은 물론이다. 만일 합성기가 속도 및 변조 필터 등의 적용이 가능하다면 제어부(120)는 이러한 합성 효과에 대한 정보까지 전달하여 합성이 이루어질 수 있도록 한다. As shown in FIG. 3, when the voice synthesis request message is delivered, the
상기한 바와 같은 과정을 통해 합성기가 선택되면, 제어부(120)는 230단계로 진행하여 도 4에 도시된 바와 같은 태그 테이블을 참조하여 235단계에서 태그 변환을 수행한다. 여기서, 태그 테이블은 각 합성기에 대해 미리 저장된 태그 집합을 나타낸다. 이러한 태그 테이블을 참조하여 태그 변환을 하는 이유는 다수의 합성기를 제어부(120)가 적절하게 제어할 수 있도록 하기 위함이다. When the synthesizer is selected through the above process, the
한편, 도 3의 310에 의해 지시되는 부분이 실제로 합성할 텍스트가 삽입되는 부분이다. 따라서, 제어부(120)는 310에 의해 지시되는 부분을 해당 합성기에서 해석 가능한 형태로 태그 변환을 하는 것이다. 예를 들어, 도면부호 320에 의해 지시되는 부분은 도면부호 330에 의해 지시되는 바와 같이 변환될 수 있다. Meanwhile, the portion indicated by 310 in FIG. 3 is a portion where text to be actually synthesized is inserted. Therefore, the
이어, 제어부(120)는 310에 지시되는 부분의 태그를 해석하여 문장 중간에 "합성기를 테스트하기 위한"이라는 부분의 속도를 3으로 하여 합성해야 하며, "테스트"라는 단어에는 실루엣 변조 효과를 적용해야 한다고 인지한다. 이에 따라 제어부(120)는 240단계로 진행하여 합성 요청을 하는데, 구체적으로 남자 어린이 합성음을 출력하는 합성기에 변환된 태그를 전달하여 합성이 이루어질 수 있도록 한다.Subsequently, the
이에 대응하여 통합 합성부(140) 내의 해당 합성기 예컨대, 남자 어린이 합성음을 출력하는 합성기에서는 245단계에서와 같이 음성 합성을 수행하여 250단계에서 합성 결과를 제어부(120)에 전달한다. 그리고나서 제어부(120)는 255단계에서 변조 수행 또는 배경음을 적용해야하는지를 판단한다. 만일 변조 수행 또는 배경음을 적용해야 하는 경우 제어부(120)는 260단계로 진행하여 합성 결과를 음성 변조하여 변조 효과를 주거나 그 합성 결과에 배경음을 또는 효과음을 적용하여 음향 효과를 줄 수 있다. 여기서, 배경음 또는 효과음 등의 음향 효과의 적용은 합성 결과의 레졸루션(resolution)과 같은 레졸루션을 가지는 음향 데이터를 합성 결과에 믹싱함으로써 이루어진다. Correspondingly, the synthesizer in the
도 3에서는 변조 시 "실루엣"을 적용하고자 하는 요청이 있었으므로 제어부(120)는 TTS 정합부(110) 내의 변조 효과부(130)로부터 "실루엣"에 해당하는 데이터를 제공받아 합성 결과를 변조한다. 이러한 과정을 통해 최종 합성음이 생성되면, 제어부(120)는 265단계로 진행하여 클라이언트(100)로 합성음을 전송한다. 이에 따라 남자 어린이 목소리에 해당하는 합성음이 출력되면서 "테스트"라는 단어부분만 실루엣 변조된 합성음이 출력되게 된다. In FIG. 3, since a request is made to apply “silhouette” during modulation, the
한편, TTS 정합부(110)에서 사용 가능한 태그의 기능은 도 4에 도시된 바와 같은 것들이 존재할 수 있다. 그 중에서도 도면부호 400에 의해 지시되는 부분은 각각의 합성기 내부에서도 지원 가능한 태그 형식을 나타내며, 도면부호 410에 의해 지시되는 부분은 TTS 정합부(110) 자체 내에서 지원 가능한 태그 형식이다. 따라서, 제어부(120)는 발화 속도, 음량, 음색, 묵음 등의 기능을 제어하고자 하는 텍스트 속성이 설정되어 있는 음성 합성 요청 메시지가 전달되면, 도 4에 도시된 바와 같은 태그 테이블을 참조하여 태그 변환을 하는 것이다. Meanwhile, the functions of the tags usable in the
구체적으로, 본 발명의 일 실시 예에 따라 Speed는 합성되는 데이터의 발화 속도를 조절하기 위한 태그 명령어로써 예를 들어, <speed + 1> TEXT </speed>는 태그 내부 구간의 합성 속도를 기본 속도보다 1단계 빠르게 출력한다는 의미를 가진다. Volume은 합성되는 데이터의 발화 음량을 조절하기 위한 태그 명령어로써 예를 들어, <volume = -1> TEXT </volume>는 태그 내부 구간의 합성음의 음량을 기본 음량보다 1단계 작게 출력하라는 것을 의미한다. Pitch는 합성되는 데이터의 음색을 조정하기 위한 태그 명령어로써 예를 들어, <pitch = +2> TEXT </pitch>는 태그 내부 구간의 합성음의 피치를 기본단계보다 2단계 높게 출력하라는 것을 의미한다. 이어, Pause는 삽입되는 묵음 구간을 결정하기 위한 태그 명령어로써, <pause=1000> TEXT는 합성되는 텍스트 앞에서 묵음을 1초간 삽입하라는 것을 의미한다. 이와 같이 각각의 합성기들은 제어부(120)로부터 상기한 바와 같은 태그가 전달되면, 전달된 태그에 따라 단순한 음성 합성 뿐만 아니라 발화 속도, 음량, 음색 및 묵음을 조절할 수 있는 기능을 가지고 있다. Specifically, according to an embodiment of the present invention, Speed is a tag command for adjusting the firing speed of data to be synthesized. For example, <speed + 1> TEXT </ speed> is a basic speed based on the synthesis speed of an inner section of a tag. It means that it outputs one step faster. Volume is a tag command for adjusting the utterance volume of synthesized data. For example, <volume = -1> TEXT </ volume> means to output the volume of the synthesized sound of the interval inside the tag by one level below the basic volume. . Pitch is a tag command for adjusting the timbre of synthesized data. For example, <pitch = +2> TEXT </ pitch> means to output the pitch of the synthesized sound of the inner section of the tag two levels higher than the basic level. Next, Pause is a tag command for determining the silence section to be inserted, and <pause = 1000> TEXT means to insert silence for 1 second before the text to be synthesized. As described above, each of the synthesizers has a function of controlling not only simple speech synthesis but also speech rate, volume, tone and silence according to the transmitted tag, when the above-described tag is transmitted from the
한편, Language는 합성을 요청하는 합성기의 언어를 변경하기 위한 태그 명령어로써 예를 들어, <language = "eng"> TEXT </language>는 태그 내부 구간의 합성음은 영어 목소리를 출력하는 합성기를 이용하라는 것을 의미한다. 이에 따라 클라이언트로부터 전달된 합성 요청 메시지에 이러한 태그 명령어가 포함되어 있으면, 제어부(120)는 영어 목소리를 출력하는 합성기를 선택하게 된다. 이어, Speaker는 합성되는 화자를 변경하기 위한 태그 명령어로써 예를 들어, <speaker="tom"> TEXT </speaker>는 태그 내부 구간의 합성음은 'tom'으로 정의된 합성기를 사용하라는 것을 의미한다. 그리고 Modulation은 합성음을 변조하는 변조 필터를 선택하기 위한 태그 명령어로써 예를 들어, <modulation="silhouette"> TEXT</modulation>은 태그 내부 구간의 합성음을 '실루엣' 변조하라는 것을 의미한다. 이에 따라 제어부(120)는 합성기로부터 합성 결과가 출력되면 해당 변조 효과를 합성 결과에 적용한다. On the other hand, Language is a tag command for changing the language of the synthesizer requesting synthesis. For example, <language = "eng"> TEXT </ language> means that the synthesized sound of the inner section of the tag is used to output an English voice. Means that. Accordingly, if such a tag command is included in the synthesis request message transmitted from the client, the
이와 같이 TTS 정합부(110)는 클라이언트(100)로부터 상기한 바와 같은 태그가 포함된 음성 합성 요청 메시지가 전달되면, 그 메시지에 포함된 태그에 따라 화자 및 언어를 전환할 수 있을 뿐만 아니라 합성 결과에 변조 및 배경음 효과를 적용하여 다양한 효과를 줄 수도 있다. As such, when the
한편, 상기한 바와 같은 태그를 W3C의 권고안인 SSML의 규칙을 차용하여 표현하면 다음과 같다. 예를 들어, 합성기를 선택할 때 전술한 바에서는 Speaker라는 태그 명령어를 사용하였으나, 본 발명의 다른 실시 예에서는 'voice'라는 태그 명령어를 사용한다. 합성기 선택을 위한 xml 메시지 필드의 예는 표 2에 도시된 바와 같다. On the other hand, the tag as described above by borrowing the rules of SSML, which is a W3C Recommendation. For example, when the synthesizer is selected, the tag command called Speaker is used in the above description, but in another embodiment of the present invention, the tag command called 'voice' is used. An example of an xml message field for synthesizer selection is shown in Table 2.
상기 표 2에서, 'voice'는 합성기를 선택하는 필드 이름을 나타내며, 이 필드의 속성으로 'name'을 가지며 속성값에 따라 TTS 정합부(110) 내의 제어부(120)는 사전에 정의된 합성기를 선택할 수 있게 된다. 만일, 속성이 생략된 경우에는 디폴트 합성기를 선택하게 된다. In Table 2, 'voice' represents a field name for selecting a synthesizer, has 'name' as an attribute of this field, and the
이어, 강조 태그 명령어로서 'emphasis'가 있는데, 이 'emphasis'에 대한 메시지 필드의 예는 표 3에 도시된 바와 같다. Next, there is 'emphasis' as an emphasis tag command, and an example of a message field for 'emphasis' is shown in Table 3.
상기 표 3에서, 'emphasis'는 선택된 구간을 합성할 때 강조의 운율을 적용하는 필드로서, 이 필드의 속성으로 'level'을 가지며 그 속성값에 따라 사전에 정의된 강조의 정도를 적용한다. 만일 속성이 생략되면 디폴트 레벨을 적용하게 된다. In Table 3, 'emphasis' is a field to apply the prosody of emphasis when synthesizing the selected section, and has 'level' as an attribute of this field and applies a predefined degree of emphasis according to the attribute value. If the attribute is omitted, the default level is applied.
그리고, 휴지 태그 명령어로서 'break'가 있는데, 이 'break'에 대한 메시지 필드의 예는 표 4에 도시된 바와 같다. There is a break tag command 'break', and an example of a message field for this 'break' is shown in Table 4.
상기 표 4에서, 'break'는 필드에 선언된 내용만큼 합성음 사이에 휴지 구간을 포함하게 하는 필드로서, 이 필드의 속성으로 'time' 또는 'strength'를 가질 수 있으며 속성값에 따라 사전에 정의된 시간만큼 휴지 구간을 적용하게 된다. In Table 4, 'break' is a field to include a pause section between synthesized sounds as much as the content declared in the field, and may have 'time' or 'strength' as an attribute of this field and is defined in advance according to the attribute value. The idle period is applied for the set time.
그리고, 운율 태그 명령어로서 'prosody'가 있는데, 'prosody'에 대한 메시지 필드의 예를 도시하면 표 5와 같다. In addition, there is 'prosody' as a rhyme tag command. Table 5 shows an example of a message field for 'prosody'.
상기 표 5에서, 'prosody'는 선택된 구간의 합성 운율을 표현하는 필드로서, 이 필드의 속성으로 'rate', 'volume', 'pitch', 'range' 등을 가질 수 있으며, 속성값에 따라 사전에 정의된 운율을 합성 구간에 적용할 수 있게 된다.In Table 5, 'prosody' is a field representing the composite rhythm of the selected section, and may have 'rate', 'volume', 'pitch', 'range', etc. as the attribute of this field, depending on the attribute value. Predefined rhymes can be applied to the synthesis section.
그리고, 음향 효과 태그 명령어로서 'audio'가 있는데, 'audio'에 대한 메시지 필드의 예를 도시하면 표 6과 같다. In addition, there is 'audio' as a sound effect tag command. Table 6 shows an example of a message field for 'audio'.
상기 표 6에서, 'audio'는 합성음에 음향 효과를 부가하는 필드로서, 이 필드의 속성으로 'src'를 가질 수 있으며 이 속성값에 따라 음향 내용을 합성음에 포함시킬 수 있게 된다. In Table 6, 'audio' is a field for adding a sound effect to the synthesized sound, and may have 'src' as an attribute of this field, and the sound content may be included in the synthesized sound according to this attribute value.
그리고, 변조 효과 태그 명령어로서 'modulation'이 있는데, 'modulation'에 대한 메시지 필드의 예를 도시하면 표 7과 같다.In addition, there is 'modulation' as a modulation effect tag command. Table 7 shows an example of a message field for 'modulation'.
상기 표 7에서, 'modulation'은 합성음에 변조 효과를 부가하는 필드로서, 이 필드의 속성으로 'name'를 가질 수 있으며, 이 속성값에 따라 사전에 정의된 변조 필터를 합성음에 적용할 수 있게 된다. In Table 7, 'modulation' is a field for adding a modulation effect to the synthesized sound, and may have 'name' as an attribute of this field, and according to the attribute value, a pre-defined modulation filter may be applied to the synthesized sound. do.
전술한 바와 같은 태그 명령어를 사용하는 경우를 도 5를 참조하여 설명하면 다음과 같다. 먼저 도 5의 500에 의해 지시되는 바와 같은 태그 명령어들이 포함된 음성 합성 요청 메시지는 음성 합성 시스템(510)에서 처리된다. 그 중에서도 상기 음성 합성 요청 메시지가 TTS 정합부(110)에 전달되면, 유효성이 검증된 메시지에 한하여 상기한 바와 같은 태그 명령어들을 분석하여 어떤 합성기를 통해 합성할 것인지를 선택하게 된다. 예컨대, 본 발명의 다른 실시 예에 따른 태그 명령어를 이용할 경우 제어부(120)는 'voice' 태그 명령어 요소(element) 중 'name' 속성을 확인하여 해당하는 합성기를 선택한다. 이러한 과정을 통해 합성기가 결정되면 해당 합성기에 적용 가능한 태그 리스트를 표준 메시지 태그 리스트와 맵핑시킨 태그 테이블을 참조하여 입력된 메시지의 태그 정보를 해당 합성기가 인지할 수 있는 태그로 변환하게 된다. 이 때, 제어부(110)는 변조나 음향 효과에 대한 태그는 변환하지 않으며 합성기로부터 출력되는 합성 결과에 적용할 수 있도록 변조 여부나 음향 효과 부가 여부에 대한 정보를 임시로 가지고 있는 것이 바람직하다. 따라서, 변환된 태그로 표현된 합성 요청을 실제 합성기에 전달하면, 제어부(120)는 이에 대한 응답이 있을 때까지 대기한다. A case of using the tag command as described above will be described with reference to FIG. 5. First, the speech synthesis request message including the tag instructions as indicated by 500 of FIG. 5 is processed in the
한편, 합성 요청을 수신한 합성기는 입력에 대응하는 데이터에 대한 합성을 수행하여 그 합성 결과를 제어부(120)에 전달한다. 그러면 합성 결과를 전달받은 제어부(120)는 임시로 저장해놓은 정보를 통해 클라이언트(100)로부터 전달된 메시지에 변조 요청이 있었는지를 확인한다. 만일 변조 요청이 있었다면 제어부(120)는 변조 효과부(130)로부터 해당 변조를 수행하기 위한 데이터를 제공받아 해당 변조 효과를 합성 결과에 적용한다. 이와 마찬가지로 임시로 저장해놓은 정보를 통해 클라이언트(100)로부터 전달된 메시지에 음향 효과 부가 요청이 있었던 경우에는 제어부(120)는 배경음 믹서(125)로부터 해당 음향 효과 데이터를 제공받아 해당 음향 효과를 합성 결과에 적용한다. 이러한 과정을 통해 최종 합성된 합성음이 클라이언트(100) 예컨대, 도면부호 520에 의해 지시되는 로봇과 같은 기기에 전달됨으로써 다양한 음성 합성 효과가 출력되게 된다. On the other hand, the synthesizer receiving the synthesis request synthesizes the data corresponding to the input and delivers the synthesis result to the
상술한 본 발명의 설명에서는 구체적인 실시 예에 관해 설명하였으나, 여러 가지 변형이 본 발명의 범위에서 벗어나지 않고 실시할 수 있다. 예를 들어, 본 발명에서는 표준 태그를 구체적으로 예를 들어 설명하였으나, 태그 명령어는 전술한 바 이외에도 보다 다양하게 구현될 수 있음은 물론이다. 따라서 본 발명의 범위는 설명된 실시 예에 의하여 정할 것이 아니고 특허청구범위와 특허청구범위의 균등한 것에 의해 정해 져야 한다. In the above description of the present invention, specific embodiments have been described, but various modifications may be made without departing from the scope of the present invention. For example, the present invention has been described with reference to a standard tag in detail, but the tag command may be implemented in various ways in addition to the above. Therefore, the scope of the present invention should not be defined by the described embodiments, but should be determined by the equivalent of claims and claims.
상기한 바와 같이 본 발명에 따르면, 다양한 합성기를 효과적으로 제어 및 관리함으로써 다양한 품질 및 성격을 가지는 합성음을 출력할 수 있을 뿐만 아니라, 보다 다양하고 복합적인 음성 합성 어플리케이션을 지원하게 할 경우 서비스 질을 향상시킬 수 있는 이점이 있다. 또한, 본 발명을 이용한다면 사용자와 대화하는 시스템의 경우 사용자에 따른 합성음을 구분하여 제공할 수 있으며, 동화 구연, 이메일 읽기 등 음성 합성 시스템이 적용되는 다양한 시스템에 사용자의 다양한 요구를 수용할 수 있게 된다. According to the present invention as described above, by effectively controlling and managing a variety of synthesizers can not only output synthesized sound having a variety of quality and characteristics, but also to improve the quality of service when supporting a more diverse and complex speech synthesis application There is an advantage to this. In addition, according to the present invention, in case of a system for dialogue with a user, a synthesized sound according to the user may be provided and may be provided. do.
Claims (13)
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020050083086A KR100724868B1 (en) | 2005-09-07 | 2005-09-07 | Voice synthetic method of providing various voice synthetic function controlling many synthesizer and the system thereof |
US11/516,865 US20070055527A1 (en) | 2005-09-07 | 2006-09-07 | Method for synthesizing various voices by controlling a plurality of voice synthesizers and a system therefor |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020050083086A KR100724868B1 (en) | 2005-09-07 | 2005-09-07 | Voice synthetic method of providing various voice synthetic function controlling many synthesizer and the system thereof |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20070028764A KR20070028764A (en) | 2007-03-13 |
KR100724868B1 true KR100724868B1 (en) | 2007-06-04 |
Family
ID=37831068
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020050083086A KR100724868B1 (en) | 2005-09-07 | 2005-09-07 | Voice synthetic method of providing various voice synthetic function controlling many synthesizer and the system thereof |
Country Status (2)
Country | Link |
---|---|
US (1) | US20070055527A1 (en) |
KR (1) | KR100724868B1 (en) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8438032B2 (en) * | 2007-01-09 | 2013-05-07 | Nuance Communications, Inc. | System for tuning synthesized speech |
CN101295504B (en) * | 2007-04-28 | 2013-03-27 | 诺基亚公司 | Entertainment audio only for text application |
CN103200309A (en) * | 2007-04-28 | 2013-07-10 | 诺基亚公司 | Entertainment audio file for text-only application |
US8244534B2 (en) | 2007-08-20 | 2012-08-14 | Microsoft Corporation | HMM-based bilingual (Mandarin-English) TTS techniques |
US20090157407A1 (en) * | 2007-12-12 | 2009-06-18 | Nokia Corporation | Methods, Apparatuses, and Computer Program Products for Semantic Media Conversion From Source Files to Audio/Video Files |
US8352270B2 (en) * | 2009-06-09 | 2013-01-08 | Microsoft Corporation | Interactive TTS optimization tool |
US9053095B2 (en) * | 2010-10-31 | 2015-06-09 | Speech Morphing, Inc. | Speech morphing communication system |
US10360716B1 (en) * | 2015-09-18 | 2019-07-23 | Amazon Technologies, Inc. | Enhanced avatar animation |
US10079021B1 (en) * | 2015-12-18 | 2018-09-18 | Amazon Technologies, Inc. | Low latency audio interface |
CN107437413B (en) * | 2017-07-05 | 2020-09-25 | 百度在线网络技术(北京)有限公司 | Voice broadcasting method and device |
US11232645B1 (en) | 2017-11-21 | 2022-01-25 | Amazon Technologies, Inc. | Virtual spaces as a platform |
US10732708B1 (en) * | 2017-11-21 | 2020-08-04 | Amazon Technologies, Inc. | Disambiguation of virtual reality information using multi-modal data including speech |
US10521946B1 (en) | 2017-11-21 | 2019-12-31 | Amazon Technologies, Inc. | Processing speech to drive animations on avatars |
KR102473447B1 (en) * | 2018-03-22 | 2022-12-05 | 삼성전자주식회사 | Electronic device and Method for controlling the electronic device thereof |
GB201810621D0 (en) * | 2018-06-28 | 2018-08-15 | Univ London Queen Mary | Generation of audio data |
US10741169B1 (en) * | 2018-09-25 | 2020-08-11 | Amazon Technologies, Inc. | Text-to-speech (TTS) processing |
CN109410913B (en) * | 2018-12-13 | 2022-08-05 | 百度在线网络技术(北京)有限公司 | Voice synthesis method, device, equipment and storage medium |
US11114085B2 (en) | 2018-12-28 | 2021-09-07 | Spotify Ab | Text-to-speech from media content item snippets |
CN110600000B (en) * | 2019-09-29 | 2022-04-15 | 阿波罗智联(北京)科技有限公司 | Voice broadcasting method and device, electronic equipment and storage medium |
US11380300B2 (en) | 2019-10-11 | 2022-07-05 | Samsung Electronics Company, Ltd. | Automatically generating speech markup language tags for text |
WO2021071221A1 (en) * | 2019-10-11 | 2021-04-15 | Samsung Electronics Co., Ltd. | Automatically generating speech markup language tags for text |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5850629A (en) | 1996-09-09 | 1998-12-15 | Matsushita Electric Industrial Co., Ltd. | User interface controller for text-to-speech synthesizer |
US6324511B1 (en) | 1998-10-01 | 2001-11-27 | Mindmaker, Inc. | Method of and apparatus for multi-modal information presentation to computer users with dyslexia, reading disabilities or visual impairment |
WO2004064299A2 (en) | 2003-01-09 | 2004-07-29 | Motorola Inc. | Voice browser dialog enabler for a communication system |
KR20040104721A (en) * | 2002-05-09 | 2004-12-10 | 톰슨 라이센싱 소시에떼 아노님 | Text-to-speech(tts) for hand-held devices |
KR20040105138A (en) * | 2003-06-05 | 2004-12-14 | 엘지전자 주식회사 | Device and the Method for multi changing the text to the speech of mobile phone |
KR20050018883A (en) * | 2005-01-25 | 2005-02-28 | 우종식 | The method and apparatus that created(playback) auto synchronization of image, text, lip's shape using TTS |
KR20050052106A (en) * | 2003-11-29 | 2005-06-02 | 에스케이텔레텍주식회사 | Method for responding a call automatically in mobile phone and mobile phone incorporating the same |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4635211A (en) * | 1981-10-21 | 1987-01-06 | Sharp Kabushiki Kaisha | Speech synthesizer integrated circuit |
DE69232112T2 (en) * | 1991-11-12 | 2002-03-14 | Fujitsu Ltd | Speech synthesis device |
US5559927A (en) * | 1992-08-19 | 1996-09-24 | Clynes; Manfred | Computer system producing emotionally-expressive speech messages |
US5960447A (en) * | 1995-11-13 | 1999-09-28 | Holt; Douglas | Word tagging and editing system for speech recognition |
US6188983B1 (en) * | 1998-09-02 | 2001-02-13 | International Business Machines Corp. | Method for dynamically altering text-to-speech (TTS) attributes of a TTS engine not inherently capable of dynamic attribute alteration |
US6865533B2 (en) * | 2000-04-21 | 2005-03-08 | Lessac Technology Inc. | Text to speech |
US7139709B2 (en) * | 2000-07-20 | 2006-11-21 | Microsoft Corporation | Middleware layer between speech related applications and engines |
GB2376394B (en) * | 2001-06-04 | 2005-10-26 | Hewlett Packard Co | Speech synthesis apparatus and selection method |
US7483832B2 (en) * | 2001-12-10 | 2009-01-27 | At&T Intellectual Property I, L.P. | Method and system for customizing voice translation of text to speech |
US20050144002A1 (en) * | 2003-12-09 | 2005-06-30 | Hewlett-Packard Development Company, L.P. | Text-to-speech conversion with associated mood tag |
US7596499B2 (en) * | 2004-02-02 | 2009-09-29 | Panasonic Corporation | Multilingual text-to-speech system with limited resources |
-
2005
- 2005-09-07 KR KR1020050083086A patent/KR100724868B1/en not_active IP Right Cessation
-
2006
- 2006-09-07 US US11/516,865 patent/US20070055527A1/en not_active Abandoned
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5850629A (en) | 1996-09-09 | 1998-12-15 | Matsushita Electric Industrial Co., Ltd. | User interface controller for text-to-speech synthesizer |
US6324511B1 (en) | 1998-10-01 | 2001-11-27 | Mindmaker, Inc. | Method of and apparatus for multi-modal information presentation to computer users with dyslexia, reading disabilities or visual impairment |
KR20040104721A (en) * | 2002-05-09 | 2004-12-10 | 톰슨 라이센싱 소시에떼 아노님 | Text-to-speech(tts) for hand-held devices |
WO2004064299A2 (en) | 2003-01-09 | 2004-07-29 | Motorola Inc. | Voice browser dialog enabler for a communication system |
KR20040105138A (en) * | 2003-06-05 | 2004-12-14 | 엘지전자 주식회사 | Device and the Method for multi changing the text to the speech of mobile phone |
KR20050052106A (en) * | 2003-11-29 | 2005-06-02 | 에스케이텔레텍주식회사 | Method for responding a call automatically in mobile phone and mobile phone incorporating the same |
KR20050018883A (en) * | 2005-01-25 | 2005-02-28 | 우종식 | The method and apparatus that created(playback) auto synchronization of image, text, lip's shape using TTS |
Also Published As
Publication number | Publication date |
---|---|
KR20070028764A (en) | 2007-03-13 |
US20070055527A1 (en) | 2007-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100724868B1 (en) | Voice synthetic method of providing various voice synthetic function controlling many synthesizer and the system thereof | |
US8594995B2 (en) | Multilingual asynchronous communications of speech messages recorded in digital media files | |
US7062437B2 (en) | Audio renderings for expressing non-audio nuances | |
US5943648A (en) | Speech signal distribution system providing supplemental parameter associated data | |
KR101683943B1 (en) | Speech translation system, first terminal device, speech recognition server device, translation server device, and speech synthesis server device | |
US20090326948A1 (en) | Automated Generation of Audiobook with Multiple Voices and Sounds from Text | |
US20140046667A1 (en) | System for creating musical content using a client terminal | |
JPH05216618A (en) | Voice interactive system | |
US20060224385A1 (en) | Text-to-speech conversion in electronic device field | |
US20080162559A1 (en) | Asynchronous communications regarding the subject matter of a media file stored on a handheld recording device | |
JP2011028130A (en) | Speech synthesis device | |
GB2444539A (en) | Altering text attributes in a text-to-speech converter to change the output speech characteristics | |
JP7200533B2 (en) | Information processing device and program | |
KR20140123715A (en) | System and method for editing text and translating text to voice | |
AU769036B2 (en) | Device and method for digital voice processing | |
JPH10149361A (en) | Information processing method and its device, and storage medium | |
JP4409279B2 (en) | Speech synthesis apparatus and speech synthesis program | |
JP2004185055A (en) | Electronic mail system and communication terminal | |
US8219402B2 (en) | Asynchronous receipt of information from a user | |
JP3282151B2 (en) | Voice control method | |
KR102267651B1 (en) | Method and apparatus for providing audio content | |
KR20180103273A (en) | Voice synthetic apparatus and voice synthetic method | |
JP2002268664A (en) | Voice converter and program | |
JP2007127994A (en) | Voice synthesizing method, voice synthesizer, and program | |
KR100363876B1 (en) | A text to speech system using the characteristic vector of voice and the method thereof |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20130429 Year of fee payment: 7 |
|
FPAY | Annual fee payment |
Payment date: 20140429 Year of fee payment: 8 |
|
FPAY | Annual fee payment |
Payment date: 20150429 Year of fee payment: 9 |
|
LAPS | Lapse due to unpaid annual fee |