KR20000063774A - Method of Converting Text to Voice Using Text to Speech and System thereof - Google Patents

Method of Converting Text to Voice Using Text to Speech and System thereof Download PDF

Info

Publication number
KR20000063774A
KR20000063774A KR1020000044954A KR20000044954A KR20000063774A KR 20000063774 A KR20000063774 A KR 20000063774A KR 1020000044954 A KR1020000044954 A KR 1020000044954A KR 20000044954 A KR20000044954 A KR 20000044954A KR 20000063774 A KR20000063774 A KR 20000063774A
Authority
KR
South Korea
Prior art keywords
text
speech
converting
voice
input
Prior art date
Application number
KR1020000044954A
Other languages
Korean (ko)
Inventor
이윤근
Original Assignee
백종관
주식회사 보이스웨어
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 백종관, 주식회사 보이스웨어 filed Critical 백종관
Priority to KR1020000044954A priority Critical patent/KR20000063774A/en
Publication of KR20000063774A publication Critical patent/KR20000063774A/en

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L2013/083Special characters, e.g. punctuation marks

Abstract

PURPOSE: A method for converting characters into voice using voice synthesis is provided to convert inputted characters into voice for listening, and to translate the inputted characters into a desired language to be outputted in voice so that communication between foreigners can be performed. CONSTITUTION: In the method for converting characters into voice using voice synthesis, voice desired to be expressed is inputted in characters through a character input unit. A controller analyzes the inputted characters by executing a voice synthesis module of an executor, to convert the inputted characters into basic phoneme. Information on rhythm is decided and converted into voice data. And the voice data are converted into frequencies through which people can hear.

Description

음성합성을 이용하여 문자를 음성으로 변환하는 방법 및 그 시스템{Method of Converting Text to Voice Using Text to Speech and System thereof}Method of converting text to voice using text to speech and system

발명의 분야Field of invention

본 발명은 사용자가 입력한 문자를 음성으로 변환하거나 유/무선통신으로 문자를 음성으로 전달할 수 있는 방법 및 그 시스템에 관한 것이다. 보다 구체적으로 본 발명은 사용자가 문자를 입력하면 음성합성 기술을 이용하여 상기 입력된 문자를 음성 데이터로 처리하며 상기 음성 데이터를 가청 주파수로 변환하여 주거나 온라인으로 통신을 하는 경우에는 상기 음성 데이터를 코드로 바꾸어 주는 음성합성을 이용하여 텍스트를 음성으로 변환하는 방법 및 그 시스템에 관한 것이다.The present invention relates to a method and a system for converting a text input by a user into a voice or transmitting a text to a voice by wire / wireless communication. More specifically, the present invention processes the input text into voice data using voice synthesis technology when the user inputs a text, converts the voice data into an audible frequency, or codes the voice data when communicating online. The present invention relates to a method and system for converting text to speech using speech synthesis.

발명의 배경Background of the Invention

종래에는 의사소통이 곤란한 경우에 상대방과 의사소통을 하기 위해서는 수화를 사용하거나 펜을 이용하여 종이에 직접 수기하여 상대방에게 보여줄 수밖에 없었다. 또한 음성으로 표현되는 전자수첩의 경우에 있어서도 일정한 문장이나 단어만을 저장장치에 기록을 하고 있기 때문에 기록되어 있지 않은 단어나 문장을 표현하는 경우에 있어서는 음성으로 표현하는 것이 사실상 불가능하였다.Conventionally, when communication is difficult, in order to communicate with the other party, the only way to communicate to the other party is to use sign language or handwriting on a paper using a pen. In the case of an electronic notebook represented by a voice, only a certain sentence or word is recorded in the storage device. Therefore, when an unrecorded word or sentence is expressed, it is virtually impossible to express by voice.

그러나 본 발명을 통하여 의사소통이 불편한 경우에 어느 정도 원활하게 옆에 있는 상대방과 의사소통을 하게 될 수 있을 뿐만 아니라 음성으로 의사소통을 하는 통신기능이 있는 단말기를 소유한 사람과 본 발명에 따른 단말기를 가지고 의사소통을 할 수 있다.However, if the communication is inconvenient through the present invention can not only communicate with the other party to the next smoothly, but also the person who owns a terminal having a communication function to communicate by voice and the terminal according to the present invention Can communicate with

또한 본 발명을 활용하여 향후 IMT-2000용 단말기 또는 PDA(personal digital assistants)에서 문자를 다운로드받아 음성으로 말할 수 있으므로 다양한 용도로 활용될 수 있으며, 사용자가 희망하는 언어로 번역하여 음성으로 청취할 수 있다.In addition, by using the present invention in the future IMT-2000 terminal or PDA (personal digital assistants) by downloading a text can be spoken by voice can be used for various purposes, the user can be translated into the desired language to listen to the voice have.

이에 본 발명자는 사용자가 문자를 입력하면 음성합성 기술을 이용하여 상기 입력된 문자를 음성으로 처리하여 의사소통이 곤란한 경우에 의사소통용으로 사용하거나 문자를 통신으로 다운로드 후 음성으로 표현할 수 있을 뿐만 아니라 사용자가 희망하는 언어로 번역하여 음성으로 청취할 수 있는 방법 및 그 시스템을 개발하기에 이른 것이다.Therefore, the present invention can not only use the voice when the user inputs a character by using the speech synthesis technology, but also for communication when the communication is difficult to communicate or download the character through communication and express the voice. The present invention has been developed to develop a method and a system capable of translating a user into a desired language and listening to the voice.

본 발명의 목적은 상기에 제시된 문제점들을 해소할 수 있도록 음성합성 기술을 이용해서 입력된 문자를 음성으로 변환하여 청취할 수 있는 방법 및 그 시스템을 제공하기 위한 것이다.SUMMARY OF THE INVENTION An object of the present invention is to provide a method and a system capable of converting and listening to input text using speech synthesis technology to solve the problems presented above.

본 발명의 다른 목적은 음성 합성 기술을 활용하여 음성으로 정보를 조회하는 것이 아니라 문자정보를 조회하여 후에 음성으로 청취할 수 있는 음성합성을 이용하여 문자를 음성으로 변환하는 방법 및 그 시스템을 제공하기 위한 것이다.Another object of the present invention is to provide a method and a system for converting a text to a speech using a speech synthesis that can be listened to the speech later by looking up the text information rather than using the voice synthesis technology to look up information by voice. It is for.

본 발명의 또 다른 목적은 사용자가 입력한 문자를 희망하는 언어로 번역하여 음성으로 출력하는 음성합성을 이용하여 문자를 음성으로 변환하는 방법 및 그 시스템을 제공하기 위한 것이다.Another object of the present invention is to provide a method and a system for converting a text into a voice by using a voice synthesis in which a text input by a user is translated into a desired language and output as a voice.

본 발명의 또 다른 목적은 사용하는 언어가 다른 사람들과의 의사소통을 용이하게 할 수 있는 음성합성을 이용하여 문자를 음성으로 변환하는 방법 및 그 시스템을 제공하기 위한 것이다.It is still another object of the present invention to provide a method and system for converting text into speech using speech synthesis, which can facilitate communication with other languages.

본 발명의 상기 및 기타의 목적들은 모두 하기 설명되는 본 발명에 의해서 모두 달성될 수 있다.The above and other objects of the present invention can all be achieved by the present invention described below.

도1은 본 발명에 따른 음성합성을 이용하여 문자를 음성으로 변환하는 시스템의 구조를 개략적으로 도시한 것이다.Figure 1 schematically shows the structure of a system for converting text to speech using speech synthesis according to the present invention.

도2는 음성합성 모듈에서 수행되는 입력 문자를 음성으로 합성하는 과정을 흐름도로 도시한 것이다.2 is a flowchart illustrating a process of synthesizing an input text performed by a speech synthesis module into speech.

*도면의 주요부호에 대한 간단한 설명** Brief description of the major symbols in the drawings *

10 : 입력부 20 : 제어부10: input unit 20: control unit

30 : 실행부 31a : 음성 합성 모듈30: execution unit 31a: speech synthesis module

31b : 번역 모듈 40 : 음성부31b: translation module 40: speech unit

50 : 변조부 60 : 코드부50: modulation section 60: code section

본 발명은 음성합성을 이용하여 문자를 음성으로 변환하는 시스템에 관한 것으로, 그 시스템은 표현하고자 하는 음성을 문자로 입력하는 입력부, 상기 입력부에서 입력된 문자를 가지고 음성데이터로 변환하는 시퀀스를 탑재하는 실행부, 상기 음성데이터를 가청할 수 있는 주파수로 변환하는 음성부, 및 상기 입력부를 통해 입력되는 문자를 음성데이터로 변환하도록 상기 실행부를 동작시켜 연산하는 제어부 로 구성되는 것을 특징으로 한다. 또한 본 발명은 음성합성을 이용하여 문자를 음성으로 변환하는 방법에 관한 것으로, 그 방법은 문자 입력부에서는 표현하고자 하는 음성을 문자로 입력하고, 상기 입력된 문자를 제어부에서는 실행부의 음성합성 모듈을 실행시켜 상기 입력 문장을 분석하여 음소의 기본 단위로 바꾸어 주며, 운율에 관한 정보를 결정하여 음성 데이터로 변환하고, 그리고 상기 음성데이터를 사람이 가청할 수 있는 주파수로 변환하는 단계로 이루어진다. 이하 첨부된 도면을 참고로 본 발명의 내용을 하기에 상세히 설명한다.The present invention relates to a system for converting text to speech using speech synthesis. The system includes an input unit for inputting a voice to be expressed as a character, and a sequence for converting a character input from the input unit into speech data. And an execution unit, a voice unit for converting the voice data into an audible frequency, and a controller for operating and executing the execution unit to convert the text input through the input unit into voice data. In addition, the present invention relates to a method for converting a text into a voice by using a speech synthesis, the method inputs a voice to be expressed in a text input unit, the control unit executes the speech synthesis module of the execution unit in the input character And converting the input sentence into basic units of phonemes, determining information about a rhyme, converting the information into voice data, and converting the voice data into a frequency that can be heard by a human. Hereinafter, with reference to the accompanying drawings will be described in detail the contents of the present invention.

도1은 본 발명에 따른 시스템의 구성을 개략적으로 도시한 것으로, 표현하고자 하는 음성을 문자로 입력하는 입력부(10), 상기 입력부를 통해 입력되는 문자를 음성데이터로 변환하도록 상기 실행부를 동작시켜 연산하는 제어부(20), 상기 입력부에서 입력된 문자를 가지고 음성데이터로 변환하는 시퀀스를 탑재하며 동작하는데 필요한 데이터를 저장하는 실행부(30), 상기 음성데이터를 가청할 수 있는 주파수로 변환하는 음성부(40)로 구성된다.FIG. 1 schematically shows the configuration of a system according to the present invention. An input unit 10 for inputting a voice to be expressed as a character and an operation unit for operating the execution unit to convert characters input through the input unit into voice data are shown in FIG. A control unit 20 to carry out a sequence for converting the voice data inputted from the input unit into voice data, and an execution unit 30 for storing data necessary for operation, and a voice unit converting the voice data into an audible frequency. It consists of 40.

상기 문자 입력부(10)는 사용자가 음성으로 변환하고자 하는 문자를 입력하는 수단으로 키보드 또는 터치 패널을 통해 사용자 의사를 입력한다. 이때 키보드를 통해 입력되는 신호는 키보드 콘트롤러에서 처리되어 제어부에 전달되고, 터지패널에 의해 입력되는 문자는 터치 패털 드라이버에 의해 인식되어 상기 제어부에 전달된다.The text input unit 10 inputs a user's intention through a keyboard or a touch panel as a means for inputting a text to be converted into a voice by a user. In this case, the signal input through the keyboard is processed by the keyboard controller and transmitted to the controller, and the character input by the touch panel is recognized by the touch panel driver and transmitted to the controller.

상기 제어부(20)는 다른 부분들과 인터페이스를 이루며 단말기의 제반 동작을 제어하는 연산장치이다. 예를 들면 음성인식 기능을 위하여 상기 음성합성 모듈을 실행시켜 음성 합성 시퀀스에 따라 입력 문자를 음성으로 변환시킨다.The control unit 20 forms an interface with other parts and controls an overall operation of the terminal. For example, the speech synthesis module is executed for speech recognition to convert input text into speech according to the speech synthesis sequence.

상기 실행부(30)는 메모리의 종류에 따라 본 발명에 따른 장치의 동작을 제어하는 프로그램을 탑재하는 메모리(32)와 본 발명의 기능을 구현하는 시퀀스를 탑재하는 메모리(31)로 구성된다. 상기 시퀀스를 탑재하는 메모리(31)는 다수의 모듈로 이루어지며 상기 모듈에는 문자를 분석하여 상기 문자를 일련의 음성 기본 단위인 음소로 변환하며, 억양의 고저나 장단 등 운율에 관한 정보를 결정하는 음성합성 모듈(31a), 문자를 분석하여 상기 문자를 사용자가 원하는 외국어로 번역하여 주는 번역 모듈(32b)을 더 포함한다. 또한 아래에 설명하는 음성합성 방식에 따른 데이터베이스(도시되지 않음)를 더 포함하는데, 그 데이터베이스는 음성파형을 생성하는 과정에서 사용되는 다수의 사람 목소리를 음소 단위로 분류하여 저장한다. 상기 데이터베이스를 설계하는 방법에 대해서는 출원번호 10-1998-011523 등 다른 문헌에 자세히 설명되어 있으므로 여기에서는 생략하기로 한다.The execution unit 30 is composed of a memory 32 for mounting a program for controlling the operation of the apparatus according to the present invention according to the type of memory, and a memory 31 for mounting a sequence for implementing the functions of the present invention. The memory 31 having the sequence includes a plurality of modules, and the module analyzes a character to convert the character into a phoneme, which is a basic unit of speech, and determines information about a rhyme, such as an accent or a rhythm. The voice synthesis module 31a further includes a translation module 32b for analyzing the text and translating the text into a foreign language desired by the user. The apparatus may further include a database (not shown) according to a speech synthesis method described below, which stores and classifies a plurality of human voices used in the process of generating a speech waveform in phoneme units. The method of designing the database is described in detail in other documents such as Application No. 10-1998-011523, and will be omitted here.

상기 모듈은 프로그램에 의해 구현되어지며 상기 기능을 구현하는 프로그램은 현재 널리 이용되고 있으므로 여기에서는 상세한 설명을 생략하기로 한다.Since the module is implemented by a program and a program that implements the function is currently widely used, a detailed description thereof will be omitted.

상기 음성부(40)는 사람이 가청할 수 있는 소리로 전기적 신호를 변환하는 장치를 뜻하며 예를 들면 스피커유닛, 스피커시스템 등을 말한다.The voice unit 40 refers to a device for converting an electrical signal into a sound audible to a person, for example, a speaker unit, a speaker system, and the like.

또한 본 발명은 선택적으로 상기 실행부(30)에서 생성한 음성데이터를 펄스폭 변조(PCM : Pulse Code Modulation)하여 디지털 신호로 변환하는 변조부(50), 상기 변조부에서 변조한 변조파를 온라인으로 전달할 수 있도록 코딩하는 코드부(60)를 더 포함한다.In addition, the present invention is a modulator 50 for selectively converting the voice data generated by the execution unit 30 to a pulse width modulation (PCM: Pulse Code Modulation), the digital signal, the modulated wave modulated by the modulator online It further includes a code unit 60 for coding so that it can be transmitted to.

상기 변조부(50) 상기 전기 변환 수단을 통하여 입력된 음성데이터를 펄스폭 변조(PCM : Pulse Code Modulation)하여 디지털 신호로 변환하는 수단을 말하여 일반적으로 코덱(codec)이라 칭한다. 상기 펄스 폭 변조 방식이란 입력으로 전달된 아날로그 신호를 일정 시간 간격으로 샘플링하여 디지털 신호로 변환하게 되는데, 이때 아날로그 신호를 샘플링하는 회수, 즉 1초 동안에 샘플링된 회수를 샘플링 주파수라고 하고, 이때 샘플링된 신호를 값으로 만들어 디지털 신호의 1 비트로 구성하는 방식을 말한다.The modulator 50 refers to a means for converting voice data input through the electric conversion means into a digital signal by performing pulse code modulation (PCM), generally referred to as a codec. The pulse width modulation method converts an analog signal transferred to an input at a predetermined time interval and converts the analog signal into a digital signal. In this case, the number of times the analog signal is sampled, that is, the number of samples sampled for one second is called a sampling frequency. It is a method of making a signal into a value and configuring it into 1 bit of a digital signal.

상기 코드부(60)는 상기 데이터 변환 수단에서 변환된 PCM 데이터를 코드화하는 인코딩을 수행한다. 일반적으로 보코더(vocoder)라 칭하며 츨력 데이터는 스펙트럼 정보를 나타내는 계수, 음성의 여기신호(excitation signal)를 모델링하는 정보와 게인(gain) 등으로 이루어져 있다. 예를 들어 QCELP의 경우에 있어서는 LSP 계수, codebook index, 게인, long-term predictor의 지연값과 게인 등이다.The code section 60 encodes the PCM data converted by the data conversion means. Generally referred to as a vocoder, the output data is composed of coefficients representing spectral information, information for modeling an excitation signal of speech, and gain. For example, in the case of QCELP, it is LSP coefficient, codebook index, gain, delay value and gain of long-term predictor.

이하에서는 상기와 같이 구성되는 본 발명의 동작과정을 설명하기로 한다.Hereinafter, an operation process of the present invention configured as described above will be described.

오프라인(off-line)인 경우에 있어서는 본 발명에 따른 장치의 사용자는 입력부의 키패드를 통하여 문자를 입력하게 된다. 키보드 또는 터치 패널 등의 문자 입력부를 통해 사용자의 의사를 입력한다. 이때 키보드를 통해 입력되는 신호는 키보드 조절기에서 처리되어 제어부(20)의 컨트롤러에 전달되고, 터지패널에 의해 입력되는 문자는 터치 패털 드라이버에 의해 인식되어 상기 컨트롤러에 전달된다. 이후 상기 컨트롤러에서는 실행부(30)의 프로그램 메모리(31)의 음성합성 모듈(31a)을 실행시켜 아래에 설명하는 음성합성 시퀀스에 따라 문자를 음성으로 변환한다. 그러면 상기 음성합성 모듈(31a)에서 음성으로 변환된 데이터를 가지고 음성부의 스피커(40)에서는 사람이 가청할 수 있도록 음성을 생성하게 되는 것이다.In the case of off-line, the user of the apparatus according to the present invention inputs characters through the keypad of the input unit. The user's intention is input through a character input unit such as a keyboard or a touch panel. In this case, a signal input through the keyboard is processed by the keyboard controller and transmitted to the controller of the controller 20, and the character input by the touch panel is recognized by the touch panel driver and transmitted to the controller. Thereafter, the controller executes the speech synthesis module 31a of the program memory 31 of the execution unit 30 to convert text into speech according to the speech synthesis sequence described below. Then, the voice synthesized by the voice synthesis module 31a, the voice of the speaker 40 of the voice unit to generate a voice so that people can hear.

상기한 과정과 마찬가지로 키패드를 통하여 문자가 입력되면 제어부(20)의 컨트롤러는 음성합성 모듈(31a) 및 번역 모듈(31b)을 실행시켜 상기 번역 모듈에서는 사용자가 희망하는 언어로 상기 입력된 문자를 번역하며 상기 음성합성 모듈에서는 상기 번역된 문자를 상술한 것처럼 음성으로 변환하게 되는 것이다.As in the above process, when a character is input through the keypad, the controller of the controller 20 executes the voice synthesis module 31a and the translation module 31b so that the translation module translates the input character into a language desired by the user. The voice synthesis module converts the translated text into voice as described above.

온라인(on-line)에 있어서는 상기 문자를 음성으로 변환되는 동작 과정은 동일 하나 음성 데이터로 변환 후 상기 음성 데이터가 음성부의 스피커로 인가되는 것이 아니라 변조부(60)의 코덱으로 인가된다. 그러면 상기 코덱에서는 상기 음성 데이터를 펄스폭 변조(PCM : Pulse Code Modulation)하여 디지털 신호로 변환 후 코드부(60)의 보코더로 상기 변조파를 인가한 후 코드화하여 온라인 상의 다른 사람에게 음성으로 전달이 되는 것이다.In on-line, the operation of converting the text into voice is the same, but after the conversion into voice data, the voice data is not applied to the speaker of the voice unit but is applied to the codec of the modulator 60. Then, the codec converts the voice data into a pulse code modulation (PCM), converts the voice data into a digital signal, applies the modulated wave to the vocoder of the code unit 60, codes the coded code, and transmits the coded voice to another person online. Will be.

이하 상기 음성합성 모듈에서 수행되는 문자가 음성으로 합성되는 과정을 첨부한 도면을 가지고 설명한다. 도2는 음성합성 모듈에서 수행되는 입력 문자를 음성으로 합성하는 과정을 흐름도로 도시한 것이다.Hereinafter, a process of synthesizing a text performed by the voice synthesis module into voice will be described with reference to the accompanying drawings. 2 is a flowchart illustrating a process of synthesizing an input text performed by a speech synthesis module into speech.

사용자가 문자를 문자 입력부를 통하여 입력을 하게 되면 음성합성 모듈에서는 상기 문자를 분석하여 숫자, 기호, 약어, 단위 등의 한글이 아닌 문자를 한글로 변환을 하게 된다(S10). 예를 들면 상기 기호에는 문장부호, 특수기호, 수학기호가 있을 수 있으며 상기 문장부호는 한글로 변환하지 않고 억양처리를 위해서 사용하며, 상기 수학기호는 한글 발음으로 변환하게 된다.When the user inputs a character through the character input unit, the voice synthesis module analyzes the character and converts non-Hangul characters such as numbers, symbols, abbreviations, and units into Hangul (S10). For example, the symbol may include a punctuation symbol, a special symbol, and a mathematical symbol. The punctuation symbol is used for intonation processing without converting to Korean, and the mathematical symbol is converted to Korean pronunciation.

계속하여 합성음의 명료성을 위해 한국어의 음성학적 발음 특성을 토대로 음운 변동규칙을 설정하여 입력된 문자를 발음나는 대로 변환을 하게 된다. 또한 말 토막 요소들이 상호 작용하여 말 토막을 결정하는 정책을 규명하고 상기 정책에 따라 문자를 연산처리 한다(S20).Subsequently, for clarity of the synthesized sound, the phonetic variation rules are set based on the phonetic pronunciation characteristics of Korean to convert the input characters as they are pronounced. In addition, the elements of the horses interact with each other to determine the policy to determine the words, and the operation of the characters in accordance with the policy (S20).

상기와 같은 S10-S20 단계를 진행하여 문자에 대한 문장분석의 과정을 수행하고 이어서 상기 단계의 결과를 기반으로 합성음의 억양, 발음속도, 세기등 운율을 사람이 발음하는 것과 같은 자연스움에 접근하도록 조절하게 된다.S10-S20 step as described above to perform a sentence analysis process for the character, and then to approach the naturalness such as human pronunciation of the rhythm, such as the accent of the synthesized sound, pronunciation speed, strength based on the result of the step Will be adjusted.

먼저 운율을 조절하는데 있어서 듀레이션(duration), 인텐서티(intensity), 피치(pitch)의 3가지 운율요소를 고려하여 억양의 규칙을 구현하게 된다. 또한 각 음소(모음, 자음)의 특성에 따라 인접 음소의 영향, 단어내의 음절 위치, 구와 절의 경계등 외부요인에 의해 지속 시간이 변한다는 점을 중점으로 하여 발음 속도를 구현하게 된다(S30).First, in adjusting the rhyme, the accent rule is implemented by considering three rhyme factors, such as duration, intensity, and pitch. In addition, the pronunciation speed is embodied in that the duration is changed by external factors such as the influence of adjacent phonemes, syllable positions in words, and boundary between phrases and clauses according to the characteristics of each phoneme (vowel, consonant) (S30).

상기와 같이 문장 분석 및 운율을 결정한 후에는 음성파를 형성하게 되는데 (S40) 상기 음성파를 형성하는 합성 알고리즘으로는 음성파형을 PCM, ADPCM 등으로 부호화하여 데이터베이스를 구축하게 되는 웨이브폼 코딩(waveform coding)방식, 사람의 발성기관을 수학적으로 모델링하여 음성을 합성하는 보코딩(vocoding) 방식, 음성 고유의 포먼트(formant)를 추출하여 데이터베이스를 구축하게 되는 포먼트 합성 방식 등이 있다.After analyzing the sentence and determining the rhyme as described above, a speech wave is formed (S40). As a synthesis algorithm for forming the speech wave, a waveform coding is performed by constructing a database by encoding the speech waveform with PCM, ADPCM, or the like. coding), a vocoding method for synthesizing speech by mathematically modeling a human vocal organ, and a formant synthesis method for constructing a database by extracting a unique formant.

본 발명은 음성합성을 이용한 말하는 단말기를 이용하여 말을 못하는 장애인들이 원활하게 상대방과 의사 소통을 할 수 있으며, 통신으로도 음성을 전달할 수 있어서 의사소통에 문제점이 있는 경우에도 삶의 질을 크게 향상시킬 수 있다. 또한 통역하고자 하는 말의 음성합성 및 번역 모듈을 장착하여 보다 쉽게 외국인들과의 의사소통을 할 수가 있는 것이다.The present invention can improve the quality of life even when there is a problem in communication because the handicapped people can not communicate with the other party using a speech terminal using voice synthesis can communicate smoothly with the other person, and also communicate. You can. In addition, it is possible to communicate with foreigners more easily by equipping the speech synthesis and translation module of the words to be interpreted.

본 발명의 단순한 변형 내지 변경은 이 분야의 통상의 지식을 가진 자에 의하여 용이하게 실시될 수 있으며, 이러한 변형이나 변경은 모두 본 발명의 영역에 포함되는 것으로 볼 수 있다.Simple modifications or changes of the present invention can be easily carried out by those skilled in the art, and all such modifications or changes can be seen to be included in the scope of the present invention.

Claims (8)

표현하고자 하는 음성을 문자로 입력하는 입력부;An input unit which inputs a voice to be expressed in text; 상기 입력부에서 입력된 문자를 음성데이터로 변환하는 시퀀스를 탑재하며 동작하는데 필요한 데이터를 저장하는 실행부;An execution unit configured to store a data necessary for operating the mobile terminal with a sequence for converting the text inputted from the input unit into voice data; 상기 음성데이터를 가청할 수 있는 주파수로 변환하는 음성부; 및A voice unit for converting the voice data into an audible frequency; And 상기 입력부를 통해 입력되는 문자를 음성데이터로 변환하도록 상기 실행부를 동작시켜 연산하는 제어부;A control unit configured to operate by operating the execution unit to convert the text input through the input unit into voice data; 로 이루어지는 것을 특징으로 하는 음성합성을 이용하여 문자를 음성으로 변환하는 시스템.A system for converting text into speech using speech synthesis, characterized in that consisting of. 표현하고자 하는 음성을 문자로 입력하는 입력부;An input unit which inputs a voice to be expressed in text; 상기 입력부에서 입력된 문자를 음성데이터로 변환하는 시퀀스를 탑재하며 동작하는데 필요한 데이터를 저장하는 실행부;An execution unit configured to store a data necessary for operating the mobile terminal with a sequence for converting the text inputted from the input unit into voice data; 상기 음성데이터를 가청할 수 있는 주파수로 변환하는 음성부;A voice unit for converting the voice data into an audible frequency; 상기 입력부를 통해 입력되는 문자를 음성데이터로 변환하도록 상기 실행부를 동작시켜 연산하는 제어부;A control unit configured to operate by operating the execution unit to convert the text input through the input unit into voice data; 상기 음성데이터를 펄스폭 변조(PCM : Pulse Code Modulation)하여 디지털 신호로 변환하는 변조부; 및A modulator for converting the voice data into a digital signal by performing pulse width modulation (PCM); And 상기 변조부에서 변조한 변조파를 온라인으로 전송될 수 있도록 코드화하는 코드부;A code unit which codes the modulated wave modulated by the modulator to be transmitted online; 로 이루어지는 것을 특징으로 하는 음성합성을 이용하여 문자를 음성으로 변환하는 시스템.A system for converting text into speech using speech synthesis, characterized in that consisting of. 제1항 또는 제2항에 있어서, 상기 시퀀스를 탑재하는 실행부는 음성합성 모듈 및 번역 모듈을 더 포함하고, 상기 음성합성 모듈은 입력 문자를 분석하여 상기 문자를 일련의 음성 기본 단위인 음소로 변환하고 억양의 고저나 장단 등 운율에 관한 정보를 결정하며, 상기 번역 모듈은 입력 문자를 분석하여 상기 문자를 사용자가 원하는 외국어로 번역하여 주는 것을 특징으로 하는 음성합성을 이용하여 문자를 음성으로 변환하는 시스템.The apparatus of claim 1 or 2, wherein the execution unit that mounts the sequence further includes a speech synthesis module and a translation module, and the speech synthesis module analyzes an input text and converts the text into a phoneme which is a series of basic speech units. And determine information on rhyme, such as height and rhythm of the intonation, and the translation module analyzes the input text and translates the text into a foreign language desired by the user. system. 제1항 또는 제2항에 있어서, 상기 시퀀스를 탑재하는 실행부는 다수의 사람 목소리를 음소 단위로 분류하여 저장하는 데이터 베이스를 더 포함하는 것을 특징으로 하는 음성합성을 이용하여 문자를 음성으로 변환하는 시스템.The apparatus of claim 1 or 2, wherein the execution unit that mounts the sequence further comprises a database that classifies and stores a plurality of human voices in a phoneme unit. system. 문자 입력부를 통해 표현하고자 하는 음성을 문자로 입력하고;Inputting a voice to be expressed through a text input unit as text; 상기 입력된 문자를 제어부에서는 실행부의 음성합성 모듈을 실행시켜 상기 입력 문장을 분석하여 음소의 기본 단위로 바꾸어 주며, 운율에 관한 정보를 결정하여 음성 데이터로 변환하고; 그리고The controller converts the input text into a basic unit of phoneme by analyzing the input sentence by executing a speech synthesis module of an execution unit, and determining information about a rhyme to convert the input text into voice data; And 상기 음성데이터를 사람이 가청할 수 있는 주파수로 변환하는;Converting the voice data into a frequency that can be heard by a human; 단계로 이루어지는 것을 특징으로 하는 음성합성을 이용하여 문자를 음성으로 변환하는 방법.Method for converting a text to speech using speech synthesis, characterized in that consisting of a step. 문자 입력부를 통해 표현하고자 하는 음성을 문자로 입력하고;Inputting a voice to be expressed through a text input unit as text; 상기 입력된 문자를 제어부에서는 실행부의 음성합성 모듈을 실행시켜 상기 입력 문장을 분석하여 음소의 기본 단위로 바꾸어 주며, 운율에 관한 정보를 결정하여 음성 데이터로 변환하고;The controller converts the input text into a basic unit of phoneme by analyzing the input sentence by executing a speech synthesis module of an execution unit, and determining information about a rhyme to convert the input text into voice data; 상기 음성 데이터를 펄스폭 변조(PCM : Pulse Code Modulation)하여 디지털 신호로 변환하고; 그리고Converting the voice data into a digital signal by performing pulse code modulation (PCM); And 상기 변조파를 온라인으로 전송될 수 있도록 코드화하는;Code the modulated wave to be transmitted online; 단계로 이루어지는 것을 특징으로 하는 음성합성을 이용하여 문자를 음성으로 변환하는 방법.Method for converting a text to speech using speech synthesis, characterized in that consisting of a step. 제5항 또는 제6항에 있어서, 상기 음성데이터로 변환하는 단계는,The method of claim 5 or 6, wherein the converting the voice data comprises: 입력된 문자를 분석하여 숫자, 기호, 약어, 단위 등의 한글이 아닌 문자를 한글로 변환하고;Analyzing the input characters and converting non-Hangul characters such as numbers, symbols, abbreviations, units, etc. into Hangul; 한국어의 음성학적 발음 특성을 토대로 음운 변동규칙을 설정하여 상기 입력된 문자를 발음나는 대로 변환하며 말 토막 요소들이 상호 작용하여 말 토막을 결정하는 정책을 규명하고 상기 정책에 따라 문자를 연산처리하고;Establishing a phonological variation rule based on the phonetic pronunciation characteristics of Korean, converting the input characters as they are pronounced, identifying a policy for determining words by interacting with elements of words, and computing characters according to the policies; 운율을 조절하기 위해 억양의 규칙을 구현하며 음소의 특성에 따라 발음속도를 구현하고; 그리고Implements the accent rules to control the prosody and implements the pronunciation speed according to the characteristics of the phonemes; And 합성 알고리즘을 이용하여 음성파를 형성하는;Forming a speech wave using a synthesis algorithm; 단계로 이루어지는 것을 특징으로 하는 음성합성을 이용하여 문자를 음성으로 변환하는 방법.Method for converting a text to speech using speech synthesis, characterized in that consisting of a step. 제7항에 있어서, 상기 합성 알고리즘은 음성파형을 PCM, ADPCM 등으로 부호화하여 데이터베이스를 구축하게 되는 웨이브폼 코딩(waveform coding) 방식, 사람의 발성기관을 수학적으로 모델링하여 음성을 합성하는 보코딩(vocoding) 방식, 또는 음성 고유의 포먼트(formant)를 추출하여 데이터베이스를 구축하게 되는 포먼트 합성 방식인 것을 특징으로 하는 음성합성을 이용하여 문자를 음성으로 변환하는 방법.The method of claim 7, wherein the synthesis algorithm comprises: a waveform coding scheme for constructing a database by encoding a speech waveform with PCM, ADPCM, etc., and vocoding for synthesizing speech by mathematically modeling a human organ. A method of converting text to speech using speech synthesis, characterized in that it is a vocoding method, or a formant synthesis method for extracting a formant unique to speech to build a database.
KR1020000044954A 2000-08-03 2000-08-03 Method of Converting Text to Voice Using Text to Speech and System thereof KR20000063774A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020000044954A KR20000063774A (en) 2000-08-03 2000-08-03 Method of Converting Text to Voice Using Text to Speech and System thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020000044954A KR20000063774A (en) 2000-08-03 2000-08-03 Method of Converting Text to Voice Using Text to Speech and System thereof

Publications (1)

Publication Number Publication Date
KR20000063774A true KR20000063774A (en) 2000-11-06

Family

ID=19681528

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020000044954A KR20000063774A (en) 2000-08-03 2000-08-03 Method of Converting Text to Voice Using Text to Speech and System thereof

Country Status (1)

Country Link
KR (1) KR20000063774A (en)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001082290A1 (en) * 2000-04-06 2001-11-01 Hanstep Co., Ltd. Remote-controlled sound reproducing system of text data stored in a memory and control method therefor
KR20020081912A (en) * 2001-04-20 2002-10-30 황규오 A voice service method on the web
KR20030033498A (en) * 2001-10-23 2003-05-01 에스케이 텔레콤주식회사 Text/voice inverter in wireless communication terminal and the method
KR100719776B1 (en) * 2005-02-25 2007-05-18 에이디정보통신 주식회사 Portable cord recognition voice output device
KR100735700B1 (en) * 2005-06-03 2007-07-06 엘지전자 주식회사 Terminal for Broadcasting and method for Character-Voice Call using thereof
KR100754571B1 (en) * 2003-01-28 2007-09-05 야마하 가부시키가이샤 Terminal device for executing speech synthesis using utterance description language
KR100918624B1 (en) * 2008-03-07 2009-09-25 김정중 Apparatus for inputting character
US7706818B2 (en) 2006-12-01 2010-04-27 Lg Electronics, Inc. Method of responding to a call and mobile communication terminal for implementing the same

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001082290A1 (en) * 2000-04-06 2001-11-01 Hanstep Co., Ltd. Remote-controlled sound reproducing system of text data stored in a memory and control method therefor
KR20020081912A (en) * 2001-04-20 2002-10-30 황규오 A voice service method on the web
KR20030033498A (en) * 2001-10-23 2003-05-01 에스케이 텔레콤주식회사 Text/voice inverter in wireless communication terminal and the method
KR100754571B1 (en) * 2003-01-28 2007-09-05 야마하 가부시키가이샤 Terminal device for executing speech synthesis using utterance description language
KR100719776B1 (en) * 2005-02-25 2007-05-18 에이디정보통신 주식회사 Portable cord recognition voice output device
KR100735700B1 (en) * 2005-06-03 2007-07-06 엘지전자 주식회사 Terminal for Broadcasting and method for Character-Voice Call using thereof
US7706818B2 (en) 2006-12-01 2010-04-27 Lg Electronics, Inc. Method of responding to a call and mobile communication terminal for implementing the same
KR100918624B1 (en) * 2008-03-07 2009-09-25 김정중 Apparatus for inputting character

Similar Documents

Publication Publication Date Title
Isewon et al. Design and implementation of text to speech conversion for visually impaired people
US6751592B1 (en) Speech synthesizing apparatus, and recording medium that stores text-to-speech conversion program and can be read mechanically
Mache et al. Review on text-to-speech synthesizer
Panda et al. A survey on speech synthesis techniques in Indian languages
JP2002258885A (en) Device for combining text voices, and program recording medium
KR20000063774A (en) Method of Converting Text to Voice Using Text to Speech and System thereof
Sagisaka Speech synthesis from text
O'Shaughnessy Modern methods of speech synthesis
KR100373329B1 (en) Apparatus and method for text-to-speech conversion using phonetic environment and intervening pause duration
CN115762471A (en) Voice synthesis method, device, equipment and storage medium
Aida-Zade et al. The main principles of text-to-speech synthesis system
Damper Speech technology—implications for biomedical engineering
Mukhopadhyay et al. Shruti: an embedded text-to-speech system for Indian languages
Kishore et al. Building Hindi and Telugu voices using festvox
Sun et al. A method for generation of Mandarin F0 contours based on tone nucleus model and superpositional model
JP2021148942A (en) Voice quality conversion system and voice quality conversion method
Boves Considerations in the design of a multi-lingual text-to-speech system
JP2001117752A (en) Information processor, information processing method and recording medium
Kaur et al. BUILDING AText-TO-SPEECH SYSTEM FOR PUNJABI LANGUAGE
Huang et al. A Chinese text-to-speech synthesis system based on an initial-final model
KR0173340B1 (en) Accent generation method using accent pattern normalization and neural network learning in text / voice converter
Santos et al. Text-to-speech conversion in Spanish a complete rule-based synthesis system
Bailey Speech communication: the problem and some solutions
Datta et al. Epoch Synchronous Overlap Add (ESOLA)
Datta et al. Epoch Synchronous Overlap Add (Esola) Algorithm

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application