KR102107445B1 - Text to speech converting apparatus capable of applying an optional speech model and operating method thereof - Google Patents

Text to speech converting apparatus capable of applying an optional speech model and operating method thereof Download PDF

Info

Publication number
KR102107445B1
KR102107445B1 KR1020180077282A KR20180077282A KR102107445B1 KR 102107445 B1 KR102107445 B1 KR 102107445B1 KR 1020180077282 A KR1020180077282 A KR 1020180077282A KR 20180077282 A KR20180077282 A KR 20180077282A KR 102107445 B1 KR102107445 B1 KR 102107445B1
Authority
KR
South Korea
Prior art keywords
category
sentence
voice
information
words
Prior art date
Application number
KR1020180077282A
Other languages
Korean (ko)
Other versions
KR20200004175A (en
Inventor
정원석
박동현
김유섭
Original Assignee
주식회사 한글과컴퓨터
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 한글과컴퓨터 filed Critical 주식회사 한글과컴퓨터
Priority to KR1020180077282A priority Critical patent/KR102107445B1/en
Publication of KR20200004175A publication Critical patent/KR20200004175A/en
Application granted granted Critical
Publication of KR102107445B1 publication Critical patent/KR102107445B1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)

Abstract

선택적 음성 모델의 적용이 가능한 텍스트 음성 변환 장치 및 그 동작 방법이 개시된다. 본 발명은 사용자에 의해 입력된 문장의 주제에 따른 카테고리에 따라 상기 카테고리에 대응하는 목소리의 음성 모델을 기초로 상기 문장을 음성으로 변환하여 출력함으로써, 문장에 내재되어 있는 감정을 보다 현실감있게 표현할 수 있는 텍스트 음성 변환 장치 및 그 동작 방법을 제공할 수 있다.Disclosed is a text-to-speech device capable of applying a selective speech model and a method of operating the same. The present invention converts and outputs the sentence into speech based on the voice model of the voice corresponding to the category according to the category according to the subject of the sentence input by the user, thereby expressing the emotion inherent in the sentence more realistically. It is possible to provide a text-to-speech conversion apparatus and an operation method thereof.

Description

선택적 음성 모델의 적용이 가능한 텍스트 음성 변환 장치 및 그 동작 방법{TEXT TO SPEECH CONVERTING APPARATUS CAPABLE OF APPLYING AN OPTIONAL SPEECH MODEL AND OPERATING METHOD THEREOF}A text-to-speech device that can be applied to a selective speech model and its operation method{TEXT TO SPEECH CONVERTING APPARATUS CAPABLE OF APPLYING AN OPTIONAL SPEECH MODEL AND OPERATING METHOD THEREOF}

본 발명은 사용자에 의해 입력된 문장의 주제에 따른 카테고리에 따라 상기 카테고리에 대응하는 목소리의 음성 모델을 기초로 상기 문장을 음성으로 변환하여 출력할 수 있는 텍스트 음성 변환 장치 및 그 동작 방법에 대한 것이다.The present invention relates to a text-to-speech device capable of converting and outputting the sentence into speech based on a voice model of a voice corresponding to the category according to a category according to the subject of the sentence input by the user, and an operation method thereof .

최근, 텍스트를 음성으로 전환하는 텍스트 음성 변환(Text to Speech: TTS) 기술이 발전함에 따라, 이러한 기술을 이용한 다양한 서비스가 출시되고 있다.Recently, as text to speech (TTS) technology for converting text to speech has been developed, various services using these technologies have been released.

특히, 텍스트 음성 변환 기술은 텍스트를 음성으로 변환하여 출력해줄 수 있기 때문에 시각 장애인들을 위한 보조 도구로서의 활용 가치가 아주 높은 기술이다.In particular, the text-to-speech technology is a technology that has a very high value as an auxiliary tool for the visually impaired because it can convert text to speech and output it.

텍스트 음성 변환 기술은 사람의 목소리를 기반으로 구축된 음성 모델을 이용하여 텍스트를 해당 사람의 목소리의 음성으로 출력한다. 여기서, 음성 모델은 사람으로 하여금 다수의 텍스트들을 발음하게 하고, 이러한 발음을 수집하여 사람의 목소리 특징에 따른 모델 데이터를 생성함으로써 구축할 수 있다.Text-to-speech technology uses text models built on the voice of a person to output text as the voice of the person's voice. Here, the voice model can be constructed by causing a person to pronounce a number of texts and collecting the pronunciation to generate model data according to the characteristics of the voice of the person.

기존의 텍스트 음성 변환 기술은 특정 목소리를 기반으로 구축된 하나의 음성 모델을 이용하여 음성 출력을 지원하였기 때문에 사용자가 특정 텍스트에 대해 음성 변환 출력 명령을 인가하면, 항상 동일한 목소리로만 음성 출력이 수행되었다.Since the existing text-to-speech technology supports voice output using a single voice model built on a specific voice, when a user applies a voice-translation output command to a specific text, voice output is always performed with the same voice. .

하지만, 사용자가 입력하는 문장들은 그 주제에 따라 뉴스, 소설, 시 등 카테고리가 다양하게 구분될 수 있다는 점에서 항상 동일한 음성 모델을 기반으로 음성 출력이 수행된다면, 해당 문장에 내재되어 있는 분위기를 살리지 못하는 문제가 발생할 수 있다.However, if the voice input is always performed based on the same voice model in that categories such as news, novels, and poetry can be variously classified according to the subject, the sentences input by the user will preserve the atmosphere inherent in the sentence. Can cause problems.

따라서, 사용자가 입력하는 문장을 분석하여 상기 문장의 주제에 따른 카테고리를 파악한 후 해당 카테고리에 따라 적절한 목소리의 음성 모델에 기초한 음성 출력이 수행되도록 함으로써, 문장에 내포되어 있는 특유의 분위기를 잘 표현할 수 있도록 하기 위한 기술의 연구가 필요하다.Accordingly, by analyzing a sentence input by a user, a category according to the subject of the sentence is identified, and a voice output based on a voice model of an appropriate voice is performed according to the category, so that the unique atmosphere contained in the sentence can be well expressed. Research is needed to ensure this.

본 발명은 사용자에 의해 입력된 문장의 주제에 따른 카테고리에 따라 상기 카테고리에 대응하는 목소리의 음성 모델을 기초로 상기 문장을 음성으로 변환하여 출력함으로써, 문장에 내재되어 있는 감정을 보다 현실감있게 표현할 수 있는 텍스트 음성 변환 장치 및 그 동작 방법을 제공하고자 한다.The present invention converts and outputs the sentence into speech based on the voice model of the voice corresponding to the category according to the category according to the subject of the sentence input by the user, thereby expressing the emotion inherent in the sentence more realistically. It is intended to provide a text-to-speech device and a method of operation thereof.

본 발명의 일실시예에 따른 선택적 음성 모델의 적용이 가능한 텍스트 음성 변환 장치는 음성 출력을 지원하기 위해 서로 다른 목소리를 기반으로 구축된 복수의 음성 모델들에 대한 데이터가 저장되어 있는 음성 모델 저장부, 문장의 주제에 따라 구분 가능한 복수의 카테고리들과, 상기 복수의 카테고리들 각각에 대해 상기 복수의 음성 모델들 중에서 각 카테고리와의 연관도가 최대인 것으로 선정된 음성 모델에 대한 정보가 서로 대응되어 기록되어 있는 카테고리 테이블을 저장하여 유지하는 카테고리 테이블 유지부, 사용자에 의해 제1 문장이 입력되고, 상기 제1 문장에 대해 텍스트 음성 변환(Text to Speech) 명령이 인가되면, 상기 제1 문장을 분석하여 상기 복수의 카테고리들 중 상기 제1 문장의 주제에 대응되는 제1 카테고리를 확인하는 카테고리 확인부, 상기 카테고리 테이블을 참조하여 상기 제1 카테고리에 대응되어 기록되어 있는 제1 음성 모델에 대한 정보를 확인하는 음성 모델 정보 확인부 및 상기 음성 모델 저장부 상에 저장되어 있는 상기 제1 음성 모델에 대한 데이터를 기초로 상기 제1 문장을 상기 제1 음성 모델에 따른 목소리를 갖는 음성으로 변환하여 출력하는 음성 변환 출력부를 포함한다.A text-to-speech device capable of applying a selective voice model according to an embodiment of the present invention is a voice model storage unit in which data for a plurality of voice models constructed based on different voices is stored to support voice output , Information related to a plurality of categories that can be classified according to the subject of a sentence, and a voice model selected as having a maximum correlation with each category among the plurality of voice models for each of the plurality of categories correspond to each other When the first sentence is input by the category table maintenance unit, the user storing and maintaining the recorded category table, and a text to speech command is applied to the first sentence, the first sentence is analyzed. A category confirmation unit for identifying a first category corresponding to the subject of the first sentence among the plurality of categories, and information on a first voice model recorded corresponding to the first category with reference to the category table Converting and outputting the first sentence into a voice having a voice according to the first voice model based on the data for the first voice model stored in the voice model information checking unit and the voice model storage unit to check and output the voice It includes an audio conversion output unit.

또한, 본 발명의 일실시예에 따른 선택적 음성 모델의 적용이 가능한 텍스트 음성 변환 장치의 동작 방법은 음성 출력을 지원하기 위해 서로 다른 목소리를 기반으로 구축된 복수의 음성 모델들에 대한 데이터가 저장되어 있는 음성 모델 저장부를 유지하는 단계, 문장의 주제에 따라 구분 가능한 복수의 카테고리들과, 상기 복수의 카테고리들 각각에 대해 상기 복수의 음성 모델들 중에서 각 카테고리와의 연관도가 최대인 것으로 선정된 음성 모델에 대한 정보가 서로 대응되어 기록되어 있는 카테고리 테이블을 저장하여 유지하는 단계, 사용자에 의해 제1 문장이 입력되고, 상기 제1 문장에 대해 텍스트 음성 변환 명령이 인가되면, 상기 제1 문장을 분석하여 상기 복수의 카테고리들 중 상기 제1 문장의 주제에 대응되는 제1 카테고리를 확인하는 단계, 상기 카테고리 테이블을 참조하여 상기 제1 카테고리에 대응되어 기록되어 있는 제1 음성 모델에 대한 정보를 확인하는 단계 및 상기 음성 모델 저장부 상에 저장되어 있는 상기 제1 음성 모델에 대한 데이터를 기초로 상기 제1 문장을 상기 제1 음성 모델에 따른 목소리를 갖는 음성으로 변환하여 출력하는 단계를 포함한다.In addition, in an operation method of a text-to-speech device capable of applying a selective voice model according to an embodiment of the present invention, data for a plurality of voice models constructed based on different voices is stored to support voice output. Maintaining an existing voice model storage unit, a plurality of categories that can be classified according to the subject of a sentence, and voices selected as having a maximum association with each category among the plurality of voice models for each of the plurality of categories Storing and maintaining a category table in which information on a model is recorded in correspondence with each other, when a first sentence is input by a user, and a text-to-speech command is applied to the first sentence, the first sentence is analyzed Confirming a first category corresponding to the subject of the first sentence among the plurality of categories, and checking information on a first voice model recorded corresponding to the first category by referring to the category table And converting and outputting the first sentence into a voice having a voice according to the first voice model based on data on the first voice model stored on the voice model storage unit.

본 발명은 사용자에 의해 입력된 문장의 주제에 따른 카테고리에 따라 상기 카테고리에 대응하는 목소리의 음성 모델을 기초로 상기 문장을 음성으로 변환하여 출력함으로써, 문장에 내재되어 있는 감정을 보다 현실감있게 표현할 수 있는 텍스트 음성 변환 장치 및 그 동작 방법을 제공할 수 있다.The present invention converts and outputs the sentence into speech based on the voice model of the voice corresponding to the category according to the category according to the subject of the sentence input by the user, thereby expressing the emotion inherent in the sentence more realistically. It is possible to provide a text-to-speech conversion apparatus and an operation method thereof.

도 1은 본 발명의 일실시예에 따른 선택적 음성 모델의 적용이 가능한 텍스트 음성 변환 장치의 구조를 도시한 도면이다.
도 2는 본 발명의 일실시예에 따른 선택적 음성 모델의 적용이 가능한 텍스트 음성 변환 장치의 동작 방법을 도시한 순서도이다.
1 is a view showing the structure of a text-to-speech device capable of applying a selective speech model according to an embodiment of the present invention.
2 is a flowchart illustrating an operation method of a text-to-speech device capable of applying a selective speech model according to an embodiment of the present invention.

이하에서는 본 발명에 따른 실시예들을 첨부된 도면을 참조하여 상세하게 설명하기로 한다. 이러한 설명은 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였으며, 다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 본 명세서 상에서 사용되는 모든 용어들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 사람에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다.Hereinafter, embodiments according to the present invention will be described in detail with reference to the accompanying drawings. It should be understood that these descriptions are not intended to limit the invention to specific embodiments, and include all modifications, equivalents, or substitutes included in the spirit and scope of the invention. In describing each drawing, similar reference numerals have been used for similar components, and unless otherwise defined, all terms used in this specification, including technical or scientific terms, have common knowledge in the technical field to which the present invention pertains. It has the same meaning as commonly understood by people who have it.

도 1은 본 발명의 일실시예에 따른 선택적 음성 모델의 적용이 가능한 텍스트 음성 변환 장치의 구조를 도시한 도면이다.1 is a diagram illustrating the structure of a text-to-speech device capable of applying a selective speech model according to an embodiment of the present invention.

도 1을 참조하면, 본 발명의 일실시예에 따른 선택적 음성 모델의 적용이 가능한 텍스트 음성 변환 장치(110)는 음성 모델 저장부(111), 카테고리 테이블 유지부(112), 카테고리 확인부(113), 음성 모델 정보 확인부(114) 및 음성 변환 출력부(115)를 포함한다.Referring to FIG. 1, a text-to-speech device 110 to which a selective speech model can be applied according to an embodiment of the present invention includes a speech model storage unit 111, a category table maintenance unit 112, and a category confirmation unit 113 ), a voice model information confirmation unit 114 and a voice conversion output unit 115.

음성 모델 저장부(111)에는 음성 출력을 지원하기 위해 서로 다른 목소리를 기반으로 구축된 복수의 음성 모델들에 대한 데이터가 저장되어 있다.The voice model storage unit 111 stores data for a plurality of voice models built based on different voices to support voice output.

예컨대, 음성 모델 저장부(111)에는 남자 아나운서의 목소리를 기반으로 구축된 음성 모델, 여자 아나운서의 목소리를 기반으로 구축된 음성 모델, 연예인의 목소리를 기반으로 구축된 음성 모델 등 다양한 목소리를 기반으로 구축된 서로 다른 복수의 음성 모델들에 대한 데이터가 저장되어 있을 수 있다.For example, the voice model storage unit 111 is based on various voices such as a voice model built based on the voice of a male announcer, a voice model built based on the voice of a female announcer, and a voice model built based on the voice of a celebrity. Data for a plurality of different voice models that are constructed may be stored.

카테고리 테이블 유지부(112)는 문장의 주제에 따라 구분 가능한 복수의 카테고리들과, 상기 복수의 카테고리들 각각에 대해 상기 복수의 음성 모델들 중에서 각 카테고리와의 연관도가 최대인 것으로 선정된 음성 모델에 대한 정보가 서로 대응되어 기록되어 있는 카테고리 테이블을 저장하여 유지한다.The category table holding unit 112 has a plurality of categories that can be classified according to the subject of a sentence, and a voice model selected as having a maximum association with each category among the plurality of voice models for each of the plurality of categories. Stores and maintains a category table in which information about each other is recorded in correspondence with each other.

여기서, 카테고리란 '뉴스', '소설', '시' 등과 같이 문장의 주제에 따라 구분되는 구분 정보를 의미한다.Here, the category means classification information classified according to the subject of the sentence, such as'news','novel', and'poem'.

관련해서, 상기 카테고리 테이블에는 하기의 표 1과 같이 정보가 기록되어 있을 수 있다.In relation to this, information may be recorded in the category table as shown in Table 1 below.

복수의 카테고리들Multiple categories 연관도가 최대인 음성 모델Speech model with maximum association 카테고리 1Category 1 음성 모델 1Voice model 1 카테고리 2Category 2 음성 모델 2Voice model 2 카테고리 3Category 3 음성 모델 3Voice model 3 ...... ......

상기 표 1과 같은 카테고리 테이블은 관리자가 각 카테고리의 특징과 각 음성 모델에 따른 목소리 특징을 고려하여 각 카테고리에 대해 연관도가 최대인 것으로 판단되는 음성 모델을 하나씩 매칭함으로써 구축될 수 있는 것으로, 상기 관리자의 판단에 의해 임의로 변경될 수 있다.The category table as shown in Table 1 can be constructed by matching the voice models, which are determined to have the maximum association for each category, one by one considering the characteristics of each category and voice characteristics according to each voice model. It can be changed at the discretion of the administrator.

카테고리 확인부(113)는 사용자에 의해 제1 문장이 입력되고, 상기 제1 문장에 대해 텍스트 음성 변환(Text to Speech) 명령이 인가되면, 상기 제1 문장을 분석하여 상기 복수의 카테고리들 중 상기 제1 문장의 주제에 대응되는 제1 카테고리를 확인한다.When the first sentence is input by the user and a text-to-speech command is applied to the first sentence, the category confirmation unit 113 analyzes the first sentence and selects the first of the plurality of categories. The first category corresponding to the subject of the first sentence is identified.

이때, 본 발명의 일실시예에 따르면, 카테고리 확인부(113)는 단어 테이블 유지부(116), 단어 추출부(117), 카테고리 정보 확인부(118) 및 카테고리 확인 처리부(119)를 포함할 수 있다.At this time, according to an embodiment of the present invention, the category checking unit 113 includes a word table holding unit 116, a word extracting unit 117, a category information checking unit 118, and a category checking processing unit 119. Can be.

단어 테이블 유지부(116)는 복수의 단어들과, 상기 복수의 단어들 각각에 대해 상기 복수의 카테고리들 중에서 각 단어와의 연관도가 최대인 것으로 선정된 카테고리에 대한 정보가 서로 대응되어 기록되어 있는 단어 테이블을 저장하여 유지한다.The word table holding unit 116 records a plurality of words and information on a category selected as having a maximum association with each word among the plurality of categories for each of the plurality of words in correspondence with each other and recorded Save and maintain the vocabulary table.

예컨대, 상기 단어 테이블에는 하기의 표 2와 같이 정보가 기록되어 있을 수 있다.For example, information may be recorded in the word table as shown in Table 2 below.

복수의 단어들Multiple words 연관도가 최대인 카테고리Category with maximum relevance 사고accident 카테고리 1Category 1 특허Patent 카테고리 2Category 2 휴대폰cellphone 카테고리 3Category 3 ...... ......

상기 표 2와 같은 단어 테이블도 관리자가 각 단어의 특징과 각 카테고리의 특징을 고려하여 각 단어에 대해 연관도가 최대인 것으로 판단되는 카테고리를 하나씩 매칭함으로써 구축될 수 있는 것으로, 상기 관리자의 판단에 의해 임의로 변경될 수 있다.The word table as shown in Table 2 can also be constructed by matching the categories that the manager determines to be the most relevant for each word in consideration of the characteristics of each word and the characteristics of each category. Can be changed arbitrarily.

단어 추출부(117)는 상기 사용자에 의해 상기 제1 문장이 입력되고, 상기 제1 문장에 대해 텍스트 음성 변환 명령이 인가되면, 상기 제1 문장에 대해 형태소 분석을 수행하여 상기 제1 문장으로부터 상기 제1 문장을 구성하는 복수의 제1 단어들을 추출한다.When the first sentence is input by the user and a text-to-speech command is applied to the first sentence, the word extracting unit 117 performs morpheme analysis on the first sentence to remove the first sentence from the first sentence. A plurality of first words constituting the first sentence are extracted.

카테고리 정보 확인부(118)는 상기 단어 테이블을 참조하여 상기 복수의 제1 단어들 각각에 대응하는 카테고리에 대한 정보를 확인한다.The category information checking unit 118 checks information on a category corresponding to each of the plurality of first words with reference to the word table.

카테고리 확인 처리부(119)는 상기 복수의 제1 단어들 각각에 대응하는 카테고리에 대한 정보가 확인되면, 상기 복수의 카테고리들 중 상기 복수의 제1 단어들이 가장 많이 분류되어 속해있는 카테고리를 상기 제1 문장의 주제에 대응하는 상기 제1 카테고리로 확인 처리한다.When the information on the category corresponding to each of the plurality of first words is confirmed, the category confirmation processing unit 119 determines the category in which the plurality of first words are classified and belongs to the first among the plurality of categories. The first category corresponding to the subject of the sentence is checked and processed.

예컨대, 상기 복수의 카테고리들로 '카테고리 1, 2, 3, 4'가 존재한다고 하고, 상기 복수의 제1 단어들이 총 '10개'라고 하며, 카테고리 정보 확인부(118)에서 상기 복수의 제1 단어들 각각에 대응하는 카테고리를 확인한 결과, '카테고리 1'에 대해서는 '5개'의 단어가 분류되었고, '카테고리 2'에 대해서는 '0개'의 단어가 분류되었으며, '카테고리 3'에 대해서는 '3개'의 단어가 분류되었고, '카테고리 4'에 대해서는 '2개'의 단어가 분류되었다고 하는 경우, 카테고리 확인 처리부(119)는 상기 복수의 카테고리들 중 '카테고리 1'에 분류된 단어들의 개수가 최대이기 때문에 '카테고리 1'을 상기 제1 문장의 주제에 대응하는 상기 제1 카테고리로 확인할 수 있다.For example, it is said that'categories 1, 2, 3, 4'exist as the plurality of categories, and the plurality of first words are said to be '10' in total, and the category information confirmation unit 118 displays the plurality of items. As a result of checking the category corresponding to each of the 1 words, '5' words were classified for'Category 1', '0' words were classified for'Category 2', and'Category 3' When it is said that the words '3' are classified and the words '2' are classified for the'category 4', the category confirmation processing unit 119 displays the words classified in the'category 1'among the plurality of categories. Since the number is the maximum,'category 1'can be identified as the first category corresponding to the subject of the first sentence.

이렇게, 상기 제1 카테고리의 확인이 완료되면, 음성 모델 정보 확인부(114)는 상기 카테고리 테이블을 참조하여 상기 제1 카테고리에 대응되어 기록되어 있는 제1 음성 모델에 대한 정보를 확인한다.In this way, when confirmation of the first category is completed, the voice model information checking unit 114 checks information on the first voice model recorded corresponding to the first category with reference to the category table.

그리고, 음성 변환 출력부(115)는 음성 모델 저장부(111) 상에 저장되어 있는 상기 제1 음성 모델에 대한 데이터를 기초로 상기 제1 문장을 상기 제1 음성 모델에 따른 목소리를 갖는 음성으로 변환하여 출력한다.In addition, the voice conversion output unit 115 converts the first sentence into voice having a voice according to the first voice model based on data about the first voice model stored on the voice model storage unit 111. Convert and print.

예컨대, 상기 제1 카테고리를 '뉴스'라고 하고, 상기 카테고리 테이블 상에서 상기 제1 카테고리에 대응되어 기록되어 있는 상기 제1 음성 모델이 여자 아나운서의 목소리를 기반으로 구축된 음성 모델이라고 하는 경우, 음성 변환 출력부(115)는 상기 음성 모델 저장부(111) 상에 저장되어 있는 여자 아나운서의 목소리를 기반으로 구축된 상기 제1 음성 모델에 대한 데이터를 기초로 상기 제1 문장을 여자 아나운서의 목소리를 갖는 음성으로 변환하여 출력할 수 있다.For example, when the first category is referred to as'news', and the first voice model recorded corresponding to the first category on the category table is a voice model constructed based on the voice of a female announcer, voice conversion The output unit 115 has the voice of the female announcer based on the data for the first voice model built on the basis of the voice of the female announcer stored on the voice model storage 111. It can be converted into audio and output.

즉, 본 발명에 따른 선택적 음성 모델의 적용이 가능한 텍스트 음성 변환 장치(110)는 사용자에 의해 입력된 문장의 주제에 따른 카테고리에 따라 상기 카테고리에 대응하는 목소리의 음성 모델을 기초로 상기 문장을 음성으로 변환하여 출력함으로써, 문장에 내재되어 있는 감정을 보다 현실감있게 표현할 수 있다.That is, the text-to-speech device 110 capable of applying the selective voice model according to the present invention voices the sentence based on the voice model of the voice corresponding to the category according to the category according to the subject of the sentence input by the user By converting to and outputting it, it is possible to express emotions inherent in sentences more realistically.

이때, 본 발명의 일실시예에 따르면, 카테고리 확인부(113)는 균형도 연산부(120) 및 확인 정확도 안내 메시지 출력부(121)를 더 포함할 수 있다.At this time, according to an embodiment of the present invention, the category confirmation unit 113 may further include a balance calculation unit 120 and a confirmation accuracy guide message output unit 121.

균형도 연산부(120)는 카테고리 확인 처리부(119)에서 상기 제1 카테고리의 확인 처리가 완료되면, 상기 복수의 카테고리들 각각에 대한 상기 복수의 제1 단어들의 분류 비율에 기초하여 상기 복수의 제1 단어들의 상기 복수의 카테고리들에 대한 분포 균형도를 나타내는 지니인덱스를 연산한다.When the verification processing of the first category is completed by the category verification processing unit 119, the balance degree calculating unit 120 determines the plurality of first numbers based on the classification ratio of the plurality of first words for each of the plurality of categories. The Gini index representing the distribution balance of the plurality of categories of words is calculated.

이때, 본 발명의 일실시예에 따르면, 균형도 연산부(120)는 하기의 수학식 1에 기초하여 상기 지니인덱스를 연산할 수 있다.At this time, according to an embodiment of the present invention, the balance degree calculating unit 120 may calculate the Gini index based on Equation 1 below.

Figure 112018065566731-pat00001
Figure 112018065566731-pat00001

여기서, I는 상기 지니인덱스, pi는 상기 복수의 카테고리들 중 i번째 카테고리에 상기 복수의 제1 단어들이 분류된 비율, J는 상기 복수의 카테고리들의 총 개수를 의미한다.Here, I is the Gini index, p i is the ratio of the plurality of first words to the i-th category among the plurality of categories, J is the total number of the plurality of categories.

상기 수학식 1에 따라 연산되는 상기 지니인덱스는 상기 복수의 제1 단어들의 상기 복수의 카테고리들에 대한 분포 균형도를 나타내는 척도로, 상기 지니인덱스의 값이 '0'에 가까울수록 상기 복수의 카테고리들 중 특정 카테고리 상에 많은 단어들이 집중되어 존재하고 있음을 의미하고, 상기 지니인덱스의 값이 '1'에 가까울수록 상기 복수의 카테고리들 전체에 대해 상기 복수의 제1 단어들이 골고루 분포되어 존재하고 있음을 의미한다.The Gini index calculated according to Equation (1) is a measure of the distribution balance for the plurality of categories of the plurality of first words, and the closer the value of the Gini index is to '0', the plurality of categories. It means that a large number of words are concentrated on a specific category among them, and the closer the value of the Gini index is to '1', the more the first words are evenly distributed over the plurality of categories. It means there is.

관련해서, 전술한 예시와 같이 상기 복수의 카테고리들이 '카테고리 1, 2, 3, 4'가 존재한다고 하고, 상기 복수의 제1 단어들이 총 '10개'라고 하며, 카테고리 정보 확인부(118)에서 상기 복수의 제1 단어들 각각에 대응하는 카테고리를 확인한 결과, '카테고리 1'에 대해서는 '5개'의 단어가 분류되었고, '카테고리 2'에 대해서는 '0개'의 단어가 분류되었으며, '카테고리 3'에 대해서는 '3개'의 단어가 분류되었고, '카테고리 4'에 대해서는 '2개'의 단어가 분류되었다고 가정하자.In relation to this, as described above, it is said that the plurality of categories have'categories 1, 2, 3, 4', and the plurality of first words are said to be '10' in total, and the category information checking unit 118. As a result of checking the categories corresponding to each of the plurality of first words, '5' words were classified for'Category 1', and '0' words were classified for'Category 2', and ' Assume that'three' words are classified for category 3, and'two' words are classified for'category 4.'

이때, p1은 상기 복수의 제1 단어들에서 '카테고리 1'로 확인되어 분류되는 단어의 비율이므로, '0.5'가 되고, p2는 상기 복수의 제1 단어들에서 '카테고리 2'로 확인되어 분류되는 단어의 비율로, 어떠한 단어도 분류되지 않았으므로, '0'이 되며, p3은 상기 복수의 제1 단어들에서 '카테고리 3'으로 확인되어 분류되는 단어의 비율이므로, '0.3'이 되고, p4는 상기 복수의 제1 단어들에서 '카테고리 4'로 확인되어 분류되는 단어의 비율이므로, '0.2'가 된다.At this time, p 1 is the ratio of words classified as'category 1'in the plurality of first words, so it becomes '0.5', and p 2 is identified as'category 2'in the plurality of first words As a ratio of words classified and classified, since no words are classified, it becomes '0', and p 3 is a ratio of words identified and classified as'category 3'in the plurality of first words, so that '0.3' In this case, p 4 is a ratio of words identified and classified as'category 4'in the plurality of first words, so that it becomes '0.2'.

이러한 점을 고려하여, 상기 수학식 1에 따른 상기 지니인덱스를 연산하게 되면, 상기 지니인덱스는 '0.62'로 연산될 수 있다.Taking this into consideration, when the Gini index according to Equation 1 is calculated, the Gini index may be calculated as '0.62'.

확인 정확도 안내 메시지 출력부(121)는 상기 지니인덱스가 선정된(predetermined) 기준 값을 초과하는지 여부를 확인하여 상기 지니인덱스가 상기 선정된 기준 값을 초과하지 않는 것으로 확인되는 경우, 상기 제1 문장의 주제에 대응하는 카테고리로 확인된 상기 제1 카테고리에 대한 확인 정확도가 높음을 나타내는 제1 안내 메시지를 생성하여 화면 상에 출력하고, 상기 지니인덱스가 상기 선정된 기준 값을 초과하는 것으로 확인되는 경우, 상기 제1 문장의 주제에 대응하는 카테고리로 확인된 상기 제1 카테고리에 대한 확인 정확도가 낮음을 나타내는 제2 안내 메시지를 생성하여 화면 상에 출력한다.The confirmation accuracy guide message output unit 121 checks whether the genie index exceeds a predetermined reference value, and when it is determined that the genie index does not exceed the selected reference value, the first sentence When a first guide message is generated and displayed on the screen indicating that the verification accuracy for the first category, which is identified as a category corresponding to the topic, is high, and it is determined that the genie index exceeds the selected reference value , Generates a second guide message indicating that the verification accuracy for the first category identified as a category corresponding to the subject of the first sentence is low, and outputs it on the screen.

예컨대, 상기 선정된 기준 값이 '0.5'라고 하고, 앞서 설명한 예시와 같이 상기 지니인덱스가 '0.62'로 연산되었다고 하는 경우, 확인 정확도 안내 메시지 출력부(121)는 상기 지니인덱스가 상기 선정된 기준 값을 초과하기 때문에 상기 제1 문장의 주제에 대응하는 카테고리로 확인된 상기 제1 카테고리에 대한 확인 정확도가 낮음을 나타내는 상기 제2 안내 메시지를 생성하여 화면 상에 출력할 수 있다.For example, if the selected reference value is '0.5' and the genie index is calculated as '0.62' as in the above-described example, the confirmation accuracy guide message output unit 121 displays the genie index as the selected criterion. Since the value is exceeded, the second guide message indicating that the verification accuracy for the first category identified as the category corresponding to the subject of the first sentence is low may be generated and displayed on the screen.

즉, 확인 정확도 안내 메시지 출력부(121)는 상기 지니인덱스가 작을수록 상기 복수의 제1 단어들이 특정 카테고리로 집중되어 분류되었다고 볼 수 있기 때문에 가장 많은 단어들이 분류된 카테고리를 상기 제1 문장의 주제에 대응하는 카테고리로 확인한 결과에 대한 신뢰도가 높은 것으로 취급하여 상기 제1 안내 메시지를 화면 상에 표시할 수 있고, 상기 지니인덱스가 클수록 상기 복수의 제1 단어들이 복수의 카테고리들 전체로 분산되어 있다고 볼 수 있기 때문에 가장 많은 단어들이 분류된 카테고리를 상기 제1 문장의 주제에 대응하는 카테고리로 확인한 결과에 대한 신뢰도가 낮은 것으로 취급하여 상기 제2 안내 메시지를 화면 상에 표시할 수 있다.That is, since the confirmation accuracy guide message output unit 121 can see that the plurality of first words are concentrated and classified into a specific category as the Gini index is smaller, the category in which the most words are classified is the subject of the first sentence. The first guide message can be displayed on the screen by treating the result of checking the category corresponding to high reliability, and as the Gini index is larger, the plurality of first words are distributed across the plurality of categories. Since it can be seen, the second guide message can be displayed on the screen by treating the category in which the most words are classified as the category corresponding to the subject of the first sentence as having low confidence in the result.

만약, 상기 제2 안내 메시지가 화면 상에 표시되었다면, 사용자는 상기 제1 문장의 주제에 대응하여 확인된 상기 제1 카테고리에 대한 확인 정확도가 낮음을 파악하고, 자신이 직접 상기 제1 문장의 내용에 따른 적절한 카테고리를 수동으로 설정함으로써, 상기 제1 문장의 주제에 적합한 목소리의 음성이 출력되도록 조정할 수 있다.If the second guide message is displayed on the screen, the user grasps that the verification accuracy for the first category identified in response to the subject of the first sentence is low, and the content of the first sentence directly by himself. By manually setting the appropriate category according to, it can be adjusted to output the voice of the voice suitable for the subject of the first sentence.

본 발명의 일실시예에 따르면, 선택적 음성 모델의 적용이 가능한 텍스트 음성 변환 장치(110)는 서식 정보 테이블 유지부(122) 및 출력 음량 조정 값 확인부(123)를 더 포함할 수 있다.According to an embodiment of the present invention, the text-to-speech device 110 to which the selective speech model can be applied may further include a form information table holding unit 122 and an output volume adjustment value checking unit 123.

서식 정보 테이블 유지부(122)는 음성의 출력 음량을 조정하기 위해서 미리 지정된 복수의 서식 정보들과, 상기 복수의 서식 정보들 각각에 대한 미리 정해진 서로 다른 출력 음량 조정 값이 서로 대응되어 기록되어 있는 서식 정보 테이블을 저장하여 유지한다.The format information table holding unit 122 records a plurality of format information predetermined in advance to adjust the output volume of the voice, and different predetermined output volume adjustment values for each of the format information. Save and maintain the form information table.

예컨대, 상기 서식 정보 테이블에는 하기의 표 3과 같이 정보가 기록되어 있을 수 있다.For example, information may be recorded in the form information table as shown in Table 3 below.

복수의 서식 정보들Multiple form information 출력 음량 조정 값Output volume adjustment value 텍스트가 굵게 처리된 서식Text bold format 조정 값 1Adjustment value 1 텍스트에 기울임 처리된 서식Text italicized 조정 값 2Adjustment value 2 텍스트의 색상이 빨간색으로 처리된 서식Format with text colored red 조정 값 3Adjustment value 3 ...... ......

출력 음량 조정 값 확인부(123)는 상기 제1 문장에 적용되어 있는 서식 정보를 확인하여 상기 제1 문장에 적용되어 있는 서식 정보 중 상기 복수의 서식 정보들에 속하는 서식 정보로 제1 서식 정보가 존재하는 것으로 확인되는 경우, 상기 서식 정보 테이블을 참조하여 상기 제1 서식 정보에 대응하는 제1 출력 음량 조정 값을 추출한다.The output volume adjustment value checking unit 123 checks the format information applied to the first sentence, and the first format information is the format information belonging to the plurality of format information among the format information applied to the first sentence. If it is confirmed that it exists, the first output volume adjustment value corresponding to the first form information is extracted by referring to the form information table.

관련해서, 상기 제1 문장 상에 텍스트의 색상이 빨간색으로 처리된 서식이 적용되어 있다고 하는 경우, 출력 음량 조정 값 확인부(123)는 상기 표 3과 같은 서식 정보 테이블을 참조하여 해당 서식에 대응하는 '조정 값 3'을 상기 제1 출력 음량 조정 값으로 추출할 수 있다.In relation to this, when it is said that a format in which the text color is processed in red is applied to the first sentence, the output volume adjustment value checking unit 123 corresponds to the corresponding format by referring to the format information table shown in Table 3 above. The'adjustment value 3'may be extracted as the first output volume adjustment value.

이때, 음성 변환 출력부(115)는 음성 모델 저장부(111) 상에 저장되어 있는 상기 제1 음성 모델에 대한 데이터를 기초로 상기 제1 문장을 상기 제1 음성 모델에 따른 목소리를 갖는 음성으로 변환하여 출력하되, 상기 제1 출력 음량 조정 값이 추출된 경우, 음성 출력을 위해서 미리 지정되어 있는 기본 출력 음량 값에 상기 제1 출력 음량 조정 값을 합산한 출력 음량 값에 따라 음성 출력을 수행하고, 상기 제1 출력 음량 조정 값이 추출되지 않은 경우, 상기 기본 출력 음량 값에 따라 음성 출력을 수행할 수 있다.In this case, the voice conversion output unit 115 converts the first sentence into a voice having a voice according to the first voice model based on data about the first voice model stored on the voice model storage unit 111. Converting and outputting, if the first output volume adjustment value is extracted, perform audio output according to an output volume value obtained by adding the first output volume adjustment value to a predetermined default output volume value for audio output, and , If the first output volume adjustment value is not extracted, audio output may be performed according to the basic output volume value.

즉, 앞서 설명한 예시에 따라 상기 제1 문장 상에 텍스트의 색상이 빨간색으로 처리된 서식이 적용되어 있음으로 인해 출력 음량 조정 값 확인부(123)를 통해 '조정 값 3'이 상기 제1 출력 음량 조정 값으로 추출된 경우, 음성 변환 출력부(115)는 상기 제1 문장의 주제에 따른 음성 모델에 기초하여 음성 출력을 수행할 때, 미리 지정되어 있는 기본 출력 음량 값에 '조정 값 3'이라는 상기 제1 출력 음량 조정 값을 합산한 출력 음량 값에 따라 음성 출력을 수행할 수 있다.That is, according to the above-described example, because the format in which the color of the text is processed in red on the first sentence is applied, the'adjustment value 3'is output through the output volume adjustment value checking unit 123. When extracted as an adjustment value, when the speech conversion output unit 115 performs speech output based on the speech model according to the subject of the first sentence,'adjustment value 3'is added to a predetermined default output volume value. The audio output may be performed according to the output volume value obtained by adding the first output volume adjustment value.

하지만, 상기 제1 문장 상에 상기 표 3에서 나타낸 서식 정보 테이블 상에 기록되어 있는 상기 복수의 서식 정보들에 따른 서식 정보가 적용되어 있지 않음으로 인해, 출력 음량 조정 값 확인부(123)를 통해 어떠한 출력 음량 조정 값도 추출되지 않은 경우, 음성 변환 출력부(115)는 상기 제1 문장의 주제에 따른 음성 모델에 기초하여 음성 출력을 수행할 때, 미리 지정되어 있는 기본 출력 음량 값에 따라 음성 출력을 수행할 수 있다.However, since the format information according to the plurality of format information recorded on the format information table shown in Table 3 is not applied to the first sentence, through the output volume adjustment value confirmation unit 123 When no output volume adjustment value is extracted, when the speech output unit 115 performs speech output based on the speech model according to the subject of the first sentence, the speech is output according to a predetermined default output volume value. You can do the output.

도 2는 본 발명의 일실시예에 따른 선택적 음성 모델의 적용이 가능한 텍스트 음성 변환 장치의 동작 방법을 도시한 순서도이다.2 is a flowchart illustrating a method of operating a text-to-speech device capable of applying a selective speech model according to an embodiment of the present invention.

단계(S210)에서는 음성 출력을 지원하기 위해 서로 다른 목소리를 기반으로 구축된 복수의 음성 모델들에 대한 데이터가 저장되어 있는 음성 모델 저장부를 유지한다.In step S210, a voice model storage unit in which data for a plurality of voice models constructed based on different voices is stored to support voice output is maintained.

단계(S220)에서는 문장의 주제에 따라 구분 가능한 복수의 카테고리들과, 상기 복수의 카테고리들 각각에 대해 상기 복수의 음성 모델들 중에서 각 카테고리와의 연관도가 최대인 것으로 선정된 음성 모델에 대한 정보가 서로 대응되어 기록되어 있는 카테고리 테이블을 저장하여 유지한다.In step S220, information on a plurality of categories that can be classified according to the subject of a sentence, and a voice model selected as having a maximum correlation with each category among the plurality of voice models for each of the plurality of categories The category table that is recorded in correspondence with each other is stored and maintained.

단계(S230)에서는 사용자에 의해 제1 문장이 입력되고, 상기 제1 문장에 대해 텍스트 음성 변환 명령이 인가되면, 상기 제1 문장을 분석하여 상기 복수의 카테고리들 중 상기 제1 문장의 주제에 대응되는 제1 카테고리를 확인한다.In step S230, when a first sentence is input by the user and a text-to-speech command is applied to the first sentence, the first sentence is analyzed to correspond to the subject of the first sentence among the plurality of categories. Confirm the first category.

단계(S240)에서는 상기 카테고리 테이블을 참조하여 상기 제1 카테고리에 대응되어 기록되어 있는 제1 음성 모델에 대한 정보를 확인한다.In step S240, information on the first voice model recorded corresponding to the first category is checked with reference to the category table.

단계(S250)에서는 상기 음성 모델 저장부 상에 저장되어 있는 상기 제1 음성 모델에 대한 데이터를 기초로 상기 제1 문장을 상기 제1 음성 모델에 따른 목소리를 갖는 음성으로 변환하여 출력한다.In step S250, the first sentence is converted into a voice having a voice according to the first voice model and output based on the data for the first voice model stored on the voice model storage unit.

이때, 본 발명의 일실시예에 따르면, 단계(S230)에서는 복수의 단어들과, 상기 복수의 단어들 각각에 대해 상기 복수의 카테고리들 중에서 각 단어와의 연관도가 최대인 것으로 선정된 카테고리에 대한 정보가 서로 대응되어 기록되어 있는 단어 테이블을 저장하여 유지하는 단계, 상기 사용자에 의해 상기 제1 문장이 입력되고, 상기 제1 문장에 대해 텍스트 음성 변환 명령이 인가되면, 상기 제1 문장에 대해 형태소 분석을 수행하여 상기 제1 문장으로부터 상기 제1 문장을 구성하는 복수의 제1 단어들을 추출하는 단계, 상기 단어 테이블을 참조하여 상기 복수의 제1 단어들 각각에 대응하는 카테고리에 대한 정보를 확인하는 단계 및 상기 복수의 제1 단어들 각각에 대응하는 카테고리에 대한 정보가 확인되면, 상기 복수의 카테고리들 중 상기 복수의 제1 단어들이 가장 많이 분류되어 속해있는 카테고리를 상기 제1 문장의 주제에 대응하는 상기 제1 카테고리로 확인 처리하는 단계를 포함할 수 있다.At this time, according to an embodiment of the present invention, in step S230, a plurality of words and, for each of the plurality of words, among the plurality of categories, the category selected as having the maximum correlation with each word is selected Storing and maintaining a word table in which information about each other is recorded, and when the first sentence is input by the user and a text-to-speech command is applied to the first sentence, for the first sentence Extracting a plurality of first words constituting the first sentence from the first sentence by performing a morpheme analysis, and checking information on a category corresponding to each of the plurality of first words by referring to the word table When the information on the category corresponding to each of the plurality of first words is checked, and the category in which the plurality of first words are most classified among the plurality of categories belongs to the subject of the first sentence And confirming the corresponding first category.

이때, 본 발명의 일실시예에 따르면, 단계(S230)에서는 상기 제1 카테고리의 확인 처리가 완료되면, 상기 복수의 카테고리들 각각에 대한 상기 복수의 제1 단어들의 분류 비율에 기초하여 상기 복수의 제1 단어들의 상기 복수의 카테고리들에 대한 분포 균형도를 나타내는 지니인덱스를 연산하는 단계 및 상기 지니인덱스가 선정된 기준 값을 초과하는지 여부를 확인하여 상기 지니인덱스가 상기 선정된 기준 값을 초과하지 않는 것으로 확인되는 경우, 상기 제1 문장의 주제에 대응하는 카테고리로 확인된 상기 제1 카테고리에 대한 확인 정확도가 높음을 나타내는 제1 안내 메시지를 생성하여 화면 상에 출력하고, 상기 지니인덱스가 상기 선정된 기준 값을 초과하는 것으로 확인되는 경우, 상기 제1 문장의 주제에 대응하는 카테고리로 확인된 상기 제1 카테고리에 대한 확인 정확도가 낮음을 나타내는 제2 안내 메시지를 생성하여 화면 상에 출력하는 단계를 더 포함할 수 있다.At this time, according to an embodiment of the present invention, in step S230, when the verification process of the first category is completed, the plurality of first words are classified based on the classification ratio of the plurality of first words for each of the plurality of categories. Calculating the Gini index indicating the distribution balance degree for the plurality of categories of the first words and determining whether the Gini index exceeds a predetermined reference value, so that the Gini index does not exceed the selected reference value If it is determined that it is not, a first guide message indicating that the verification accuracy for the first category, which is identified as a category corresponding to the subject of the first sentence, is high, is generated and output on the screen, and the genie index is selected Generating a second guide message indicating that the verification accuracy for the first category, which is identified as a category corresponding to the subject of the first sentence, is low, when it is determined to exceed the reference value, and outputting it on the screen. It may further include.

이때, 본 발명의 일실시예에 따르면, 상기 지니인덱스를 연산하는 단계는 상기 수학식 1에 기초하여 상기 지니인덱스를 연산할 수 있다.At this time, according to an embodiment of the present invention, the step of calculating the Gini index may calculate the Gini index based on Equation (1).

또한, 본 발명의 일실시예에 따르면, 상기 선택적 음성 모델의 적용이 가능한 텍스트 음성 변환 장치의 동작 방법은 음성의 출력 음량을 조정하기 위해서 미리 지정된 복수의 서식 정보들과, 상기 복수의 서식 정보들 각각에 대한 미리 정해진 서로 다른 출력 음량 조정 값이 서로 대응되어 기록되어 있는 서식 정보 테이블을 저장하여 유지하는 단계 및 상기 제1 문장에 적용되어 있는 서식 정보를 확인하여 상기 제1 문장에 적용되어 있는 서식 정보 중 상기 복수의 서식 정보들에 속하는 서식 정보로 제1 서식 정보가 존재하는 것으로 확인되는 경우, 상기 서식 정보 테이블을 참조하여 상기 제1 서식 정보에 대응하는 제1 출력 음량 조정 값을 추출하는 단계를 더 포함할 수 있다.In addition, according to an embodiment of the present invention, a method of operating a text-to-speech device capable of applying the selective speech model includes a plurality of pre-designated form information and a plurality of form information to adjust the output volume of the voice. Storing and maintaining a format information table in which predetermined predetermined output volume adjustment values for each are recorded in correspondence with each other, and confirming format information applied to the first sentence, and then applying the format applied to the first sentence Extracting a first output volume adjustment value corresponding to the first format information by referring to the format information table when it is determined that first format information exists as format information belonging to the plurality of format information among the information; It may further include.

이때, 단계(S250)에서는 상기 음성 모델 저장부 상에 저장되어 있는 상기 제1 음성 모델에 대한 데이터를 기초로 상기 제1 문장을 상기 제1 음성 모델에 따른 목소리를 갖는 음성으로 변환하여 출력하되, 상기 제1 출력 음량 조정 값이 추출된 경우, 음성 출력을 위해서 미리 지정되어 있는 기본 출력 음량 값에 상기 제1 출력 음량 조정 값을 합산한 출력 음량 값에 따라 음성 출력을 수행하고, 상기 제1 출력 음량 조정 값이 추출되지 않은 경우, 상기 기본 출력 음량 값에 따라 음성 출력을 수행할 수 있다.At this time, in step S250, the first sentence is converted into a voice having a voice according to the first voice model and output based on the data for the first voice model stored on the voice model storage unit. When the first output volume adjustment value is extracted, audio output is performed according to an output volume value obtained by adding the first output volume adjustment value to a predetermined default output volume value for audio output, and the first output When the volume adjustment value is not extracted, audio output may be performed according to the basic output volume value.

이상, 도 2를 참조하여 본 발명의 일실시예에 따른 선택적 음성 모델의 적용이 가능한 텍스트 음성 변환 장치의 동작 방법에 대해 설명하였다. 여기서, 본 발명의 일실시예에 따른 선택적 음성 모델의 적용이 가능한 텍스트 음성 변환 장치의 동작 방법은 도 1을 이용하여 설명한 선택적 음성 모델의 적용이 가능한 텍스트 음성 변환 장치(110)의 동작에 대한 구성과 대응될 수 있으므로, 이에 대한 보다 상세한 설명은 생략하기로 한다.The operation method of the text-to-speech device capable of applying the selective speech model according to an embodiment of the present invention has been described above with reference to FIG. 2. Here, the operation method of the text-to-speech apparatus capable of applying the selective speech model according to an embodiment of the present invention is configured for the operation of the text-to-speech apparatus 110 applicable to the selective speech model described with reference to FIG. 1. Since it may correspond to and, a more detailed description thereof will be omitted.

본 발명의 일실시예에 따른 선택적 음성 모델의 적용이 가능한 텍스트 음성 변환 장치의 동작 방법은 컴퓨터와의 결합을 통해 실행시키기 위한 저장매체에 저장된 컴퓨터 프로그램으로 구현될 수 있다.The method of operating a text-to-speech device capable of applying a selective speech model according to an embodiment of the present invention may be implemented as a computer program stored in a storage medium for execution through combination with a computer.

또한, 본 발명의 일실시예에 따른 선택적 음성 모델의 적용이 가능한 텍스트 음성 변환 장치의 동작 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. In addition, an operation method of a text-to-speech device capable of applying an optional speech model according to an embodiment of the present invention may be implemented in a form of program instructions that can be executed through various computer means and recorded on a computer-readable medium. The computer-readable medium may include program instructions, data files, data structures, or the like alone or in combination. The program instructions recorded on the medium may be specially designed and configured for the present invention, or may be known and available to those skilled in computer software. Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks, and magnetic tapes, optical media such as CD-ROMs, DVDs, and magnetic media such as floptical disks. Includes hardware devices specifically configured to store and execute program instructions such as magneto-optical media, and ROM, RAM, flash memory, and the like. Examples of program instructions include high-level language code that can be executed by a computer using an interpreter, etc., as well as machine language codes produced by a compiler.

이상과 같이 본 발명에서는 구체적인 구성 요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. As described above, in the present invention, specific matters such as specific components and the like have been described by limited embodiments and drawings, but these are provided only to help a more comprehensive understanding of the present invention, and the present invention is not limited to the above embodiments , Anyone having ordinary knowledge in the field to which the present invention pertains can make various modifications and variations from these descriptions.

따라서, 본 발명의 사상은 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등하거나 등가적 변형이 있는 모든 것들은 본 발명 사상의 범주에 속한다고 할 것이다.Accordingly, the spirit of the present invention should not be limited to the described embodiments, and should not be determined, and all claims that are equivalent or equivalent to the scope of the claims as well as the claims described below belong to the scope of the spirit of the invention. .

110: 선택적 음성 모델의 적용이 가능한 텍스트 음성 변환 장치
111: 음성 모델 저장부 112: 카테고리 테이블 유지부
113: 카테고리 확인부 114: 음성 모델 정보 확인부
115: 음성 변환 출력부 116: 단어 테이블 유지부
117: 단어 추출부 118: 카테고리 정보 확인부
119: 카테고리 확인 처리부 120: 균형도 연산부
121: 확인 정확도 안내 메시지 출력부 122: 서식 정보 테이블 유지부
123: 출력 음량 조정 값 확인부
110: text-to-speech device capable of applying an optional speech model
111: voice model storage unit 112: category table maintenance unit
113: Category confirmation unit 114: Voice model information confirmation unit
115: speech conversion output unit 116: word table holding unit
117: word extraction unit 118: category information confirmation unit
119: category check processing unit 120: balance calculation unit
121: confirmation accuracy guide message output unit 122: form information table maintenance unit
123: output volume adjustment value confirmation unit

Claims (12)

음성 출력을 지원하기 위해 서로 다른 목소리를 기반으로 구축된 복수의 음성 모델들에 대한 데이터가 저장되어 있는 음성 모델 저장부;
문장의 주제에 따라 구분 가능한 복수의 카테고리들과, 상기 복수의 카테고리들 각각에 대해 상기 복수의 음성 모델들 중에서 각 카테고리와의 연관도가 최대인 것으로 선정된 음성 모델에 대한 정보가 서로 대응되어 기록되어 있는 카테고리 테이블을 저장하여 유지하는 카테고리 테이블 유지부;
사용자에 의해 제1 문장이 입력되고, 상기 제1 문장에 대해 텍스트 음성 변환(Text to Speech) 명령이 인가되면, 상기 제1 문장을 분석하여 상기 복수의 카테고리들 중 상기 제1 문장의 주제에 대응되는 제1 카테고리를 확인하는 카테고리 확인부;
상기 카테고리 테이블을 참조하여 상기 제1 카테고리에 대응되어 기록되어 있는 제1 음성 모델에 대한 정보를 확인하는 음성 모델 정보 확인부; 및
상기 음성 모델 저장부 상에 저장되어 있는 상기 제1 음성 모델에 대한 데이터를 기초로 상기 제1 문장을 상기 제1 음성 모델에 따른 목소리를 갖는 음성으로 변환하여 출력하는 음성 변환 출력부
를 포함하고,
상기 카테고리 확인부는
복수의 단어들과, 상기 복수의 단어들 각각에 대해 상기 복수의 카테고리들 중에서 각 단어와의 연관도가 최대인 것으로 선정된 카테고리에 대한 정보가 서로 대응되어 기록되어 있는 단어 테이블을 저장하여 유지하는 단어 테이블 유지부;
상기 사용자에 의해 상기 제1 문장이 입력되고, 상기 제1 문장에 대해 텍스트 음성 변환 명령이 인가되면, 상기 제1 문장에 대해 형태소 분석을 수행하여 상기 제1 문장으로부터 상기 제1 문장을 구성하는 복수의 제1 단어들을 추출하는 단어 추출부;
상기 단어 테이블을 참조하여 상기 복수의 제1 단어들 각각에 대응하는 카테고리에 대한 정보를 확인하는 카테고리 정보 확인부;
상기 복수의 제1 단어들 각각에 대응하는 카테고리에 대한 정보가 확인되면, 상기 복수의 카테고리들 중 상기 복수의 제1 단어들이 가장 많이 분류되어 속해있는 카테고리를 상기 제1 문장의 주제에 대응하는 상기 제1 카테고리로 확인 처리하는 카테고리 확인 처리부;
상기 제1 카테고리의 확인 처리가 완료되면, 상기 복수의 카테고리들 각각에 대한 상기 복수의 제1 단어들의 분류 비율에 기초하여 상기 복수의 제1 단어들의 상기 복수의 카테고리들에 대한 분포 균형도를 나타내는 지니인덱스를 연산하는 균형도 연산부; 및
상기 지니인덱스가 선정된(predetermined) 기준 값을 초과하는지 여부를 확인하여 상기 지니인덱스가 상기 선정된 기준 값을 초과하지 않는 것으로 확인되는 경우, 상기 제1 문장의 주제에 대응하는 카테고리로 확인된 상기 제1 카테고리에 대한 확인 정확도가 높음을 나타내는 제1 안내 메시지를 생성하여 화면 상에 출력하고, 상기 지니인덱스가 상기 선정된 기준 값을 초과하는 것으로 확인되는 경우, 상기 제1 문장의 주제에 대응하는 카테고리로 확인된 상기 제1 카테고리에 대한 확인 정확도가 낮음을 나타내는 제2 안내 메시지를 생성하여 화면 상에 출력하는 확인 정확도 안내 메시지 출력부
를 포함하는 선택적 음성 모델의 적용이 가능한 텍스트 음성 변환 장치.
A voice model storage unit that stores data for a plurality of voice models constructed based on different voices to support voice output;
Records a plurality of categories that can be classified according to the subject of the sentence, and information about a voice model selected as having a maximum correlation with each category among the plurality of voice models for each of the plurality of categories correspondingly recorded A category table holding unit that stores and maintains the category table;
When the first sentence is input by the user and a text to speech command is applied to the first sentence, the first sentence is analyzed to correspond to the subject of the first sentence among the plurality of categories A category confirmation unit for confirming the first category being;
A voice model information confirmation unit to check information on a first voice model recorded corresponding to the first category with reference to the category table; And
A voice conversion output unit for converting and outputting the first sentence into a voice having a voice according to the first voice model based on data on the first voice model stored on the voice model storage unit
Including,
The category confirmation unit
Stores and maintains a word table in which information about a plurality of words and a category selected as having a maximum correlation with each word among the plurality of categories for each of the plurality of words is recorded in correspondence with each other Word table maintainer;
When the first sentence is input by the user and a text-to-speech command is applied to the first sentence, a plurality of characters that constitute the first sentence from the first sentence by performing a morpheme analysis on the first sentence A word extracting unit extracting first words of the;
A category information checking unit that checks information on a category corresponding to each of the plurality of first words by referring to the word table;
When information on a category corresponding to each of the plurality of first words is confirmed, a category in which the plurality of first words are classified and belong to among the plurality of categories corresponds to a subject of the first sentence A category confirmation processing unit that checks and processes the first category;
When the confirmation processing of the first category is completed, the distribution balance degree for the plurality of categories of the plurality of first words is displayed based on the classification ratio of the plurality of first words for each of the plurality of categories. A balance calculation unit for calculating the Gini index; And
When it is determined whether the genie index does not exceed the predetermined reference value by checking whether the genie index exceeds a predetermined reference value, the category identified as a category corresponding to the subject of the first sentence A first guide message indicating that the verification accuracy for the first category is high is generated and output on the screen, and when it is determined that the genie index exceeds the selected reference value, corresponding to the subject of the first sentence Confirmation accuracy guide message output unit that generates and outputs a second guide message on the screen indicating that the confirmation accuracy for the first category identified as a category is low
Text-to-speech device that can be applied to the optional speech model comprising a.
삭제delete 삭제delete 제1항에 있어서,
상기 균형도 연산부는
하기의 수학식 1에 기초하여 상기 지니인덱스를 연산하는 선택적 음성 모델의 적용이 가능한 텍스트 음성 변환 장치.
[수학식 1]
Figure 112019131276385-pat00002

여기서, I는 상기 지니인덱스, pi는 상기 복수의 카테고리들 중 i번째 카테고리에 상기 복수의 제1 단어들이 분류된 비율, J는 상기 복수의 카테고리들의 총 개수를 의미함.
According to claim 1,
The balance calculation unit
A text-to-speech device capable of applying an optional speech model for calculating the Gini index based on Equation 1 below.
[Equation 1]
Figure 112019131276385-pat00002

Here, I is the Gini index, p i is the ratio of the plurality of first words to the i-th category among the plurality of categories, J is the total number of the plurality of categories.
제1항에 있어서,
음성의 출력 음량을 조정하기 위해서 미리 지정된 복수의 서식 정보들과, 상기 복수의 서식 정보들 각각에 대한 미리 정해진 서로 다른 출력 음량 조정 값이 서로 대응되어 기록되어 있는 서식 정보 테이블을 저장하여 유지하는 서식 정보 테이블 유지부; 및
상기 제1 문장에 적용되어 있는 서식 정보를 확인하여 상기 제1 문장에 적용되어 있는 서식 정보 중 상기 복수의 서식 정보들에 속하는 서식 정보로 제1 서식 정보가 존재하는 것으로 확인되는 경우, 상기 서식 정보 테이블을 참조하여 상기 제1 서식 정보에 대응하는 제1 출력 음량 조정 값을 추출하는 출력 음량 조정 값 확인부
를 더 포함하고,
상기 음성 변환 출력부는
상기 음성 모델 저장부 상에 저장되어 있는 상기 제1 음성 모델에 대한 데이터를 기초로 상기 제1 문장을 상기 제1 음성 모델에 따른 목소리를 갖는 음성으로 변환하여 출력하되, 상기 제1 출력 음량 조정 값이 추출된 경우, 음성 출력을 위해서 미리 지정되어 있는 기본 출력 음량 값에 상기 제1 출력 음량 조정 값을 합산한 출력 음량 값에 따라 음성 출력을 수행하고, 상기 제1 출력 음량 조정 값이 추출되지 않은 경우, 상기 기본 출력 음량 값에 따라 음성 출력을 수행하는 선택적 음성 모델의 적용이 가능한 텍스트 음성 변환 장치.
According to claim 1,
A format that stores and maintains a format information table in which a plurality of predetermined format information and a predetermined output volume adjustment value for each of the plurality of format information are corresponded to each other in order to adjust the output volume of the voice. An information table holding unit; And
When the form information applied to the first sentence is checked and it is determined that the first form information exists as the form information belonging to the plurality of form information among the form information applied to the first sentence, the form information Output volume adjustment value checking unit extracting a first output volume adjustment value corresponding to the first form information with reference to a table
Further comprising,
The audio conversion output unit
Converting and outputting the first sentence as a voice having a voice according to the first voice model based on data on the first voice model stored on the voice model storage unit, and outputting the first volume adjustment value When this is extracted, audio output is performed according to an output volume value obtained by adding the first output volume adjustment value to a predetermined default output volume value for audio output, and the first output volume adjustment value is not extracted. In case, a text-to-speech device capable of applying an optional speech model that performs speech output according to the basic output volume value.
음성 출력을 지원하기 위해 서로 다른 목소리를 기반으로 구축된 복수의 음성 모델들에 대한 데이터가 저장되어 있는 음성 모델 저장부를 유지하는 단계;
문장의 주제에 따라 구분 가능한 복수의 카테고리들과, 상기 복수의 카테고리들 각각에 대해 상기 복수의 음성 모델들 중에서 각 카테고리와의 연관도가 최대인 것으로 선정된 음성 모델에 대한 정보가 서로 대응되어 기록되어 있는 카테고리 테이블을 저장하여 유지하는 단계;
사용자에 의해 제1 문장이 입력되고, 상기 제1 문장에 대해 텍스트 음성 변환(Text to Speech) 명령이 인가되면, 상기 제1 문장을 분석하여 상기 복수의 카테고리들 중 상기 제1 문장의 주제에 대응되는 제1 카테고리를 확인하는 단계;
상기 카테고리 테이블을 참조하여 상기 제1 카테고리에 대응되어 기록되어 있는 제1 음성 모델에 대한 정보를 확인하는 단계; 및
상기 음성 모델 저장부 상에 저장되어 있는 상기 제1 음성 모델에 대한 데이터를 기초로 상기 제1 문장을 상기 제1 음성 모델에 따른 목소리를 갖는 음성으로 변환하여 출력하는 단계
를 포함하고,
상기 제1 카테고리를 확인하는 단계는
복수의 단어들과, 상기 복수의 단어들 각각에 대해 상기 복수의 카테고리들 중에서 각 단어와의 연관도가 최대인 것으로 선정된 카테고리에 대한 정보가 서로 대응되어 기록되어 있는 단어 테이블을 저장하여 유지하는 단계;
상기 사용자에 의해 상기 제1 문장이 입력되고, 상기 제1 문장에 대해 텍스트 음성 변환 명령이 인가되면, 상기 제1 문장에 대해 형태소 분석을 수행하여 상기 제1 문장으로부터 상기 제1 문장을 구성하는 복수의 제1 단어들을 추출하는 단계;
상기 단어 테이블을 참조하여 상기 복수의 제1 단어들 각각에 대응하는 카테고리에 대한 정보를 확인하는 단계;
상기 복수의 제1 단어들 각각에 대응하는 카테고리에 대한 정보가 확인되면, 상기 복수의 카테고리들 중 상기 복수의 제1 단어들이 가장 많이 분류되어 속해있는 카테고리를 상기 제1 문장의 주제에 대응하는 상기 제1 카테고리로 확인 처리하는 단계;
상기 제1 카테고리의 확인 처리가 완료되면, 상기 복수의 카테고리들 각각에 대한 상기 복수의 제1 단어들의 분류 비율에 기초하여 상기 복수의 제1 단어들의 상기 복수의 카테고리들에 대한 분포 균형도를 나타내는 지니인덱스를 연산하는 단계; 및
상기 지니인덱스가 선정된(predetermined) 기준 값을 초과하는지 여부를 확인하여 상기 지니인덱스가 상기 선정된 기준 값을 초과하지 않는 것으로 확인되는 경우, 상기 제1 문장의 주제에 대응하는 카테고리로 확인된 상기 제1 카테고리에 대한 확인 정확도가 높음을 나타내는 제1 안내 메시지를 생성하여 화면 상에 출력하고, 상기 지니인덱스가 상기 선정된 기준 값을 초과하는 것으로 확인되는 경우, 상기 제1 문장의 주제에 대응하는 카테고리로 확인된 상기 제1 카테고리에 대한 확인 정확도가 낮음을 나타내는 제2 안내 메시지를 생성하여 화면 상에 출력하는 단계
를 포함하는 선택적 음성 모델의 적용이 가능한 텍스트 음성 변환 장치의 동작 방법.
Maintaining a voice model storage unit in which data for a plurality of voice models constructed based on different voices is stored to support voice output;
Records a plurality of categories that can be classified according to the subject of the sentence, and information about a voice model selected as having a maximum correlation with each category among the plurality of voice models for each of the plurality of categories correspondingly recorded Storing and maintaining the category table;
When the first sentence is input by the user and a text to speech command is applied to the first sentence, the first sentence is analyzed to correspond to the subject of the first sentence among the plurality of categories Identifying a first category being;
Confirming information on a first voice model recorded corresponding to the first category by referring to the category table; And
Converting and outputting the first sentence into a voice having a voice according to the first voice model based on data on the first voice model stored in the voice model storage unit
Including,
Checking the first category is
Stores and maintains a word table in which information about a plurality of words and a category selected as the maximum correlation with each word among the plurality of categories for each of the plurality of words is recorded in correspondence with each other step;
When the first sentence is input by the user, and a text-to-speech command is applied to the first sentence, a plurality of characters constituting the first sentence from the first sentence by performing a morpheme analysis on the first sentence Extracting the first words of the;
Checking information about a category corresponding to each of the plurality of first words by referring to the word table;
When information on a category corresponding to each of the plurality of first words is confirmed, the category to which the plurality of first words are classified and belong to among the plurality of categories corresponds to the subject of the first sentence Checking the first category;
When the confirmation processing of the first category is completed, the distribution balance degree for the plurality of categories of the plurality of first words is displayed based on the classification ratio of the plurality of first words for each of the plurality of categories. Calculating a Gini index; And
When it is determined whether the genie index does not exceed the predetermined reference value by checking whether the genie index exceeds a predetermined reference value, the category identified as a category corresponding to the subject of the first sentence A first guide message indicating that the verification accuracy for the first category is high is generated and output on the screen, and when it is determined that the genie index exceeds the selected reference value, corresponding to the subject of the first sentence Generating a second guide message indicating that the confirmation accuracy for the first category identified as a category is low, and outputting it on a screen
Method of operating a text-to-speech device that can be applied to an optional speech model comprising a.
삭제delete 삭제delete 제6항에 있어서,
상기 지니인덱스를 연산하는 단계는
하기의 수학식 2에 기초하여 상기 지니인덱스를 연산하는 선택적 음성 모델의 적용이 가능한 텍스트 음성 변환 장치의 동작 방법.
[수학식 2]
Figure 112019131276385-pat00003

여기서, I는 상기 지니인덱스, pi는 상기 복수의 카테고리들 중 i번째 카테고리에 상기 복수의 제1 단어들이 분류된 비율, J는 상기 복수의 카테고리들의 총 개수를 의미함.
The method of claim 6,
The step of calculating the Gini index is
A method of operating a text-to-speech device capable of applying an optional speech model for calculating the Gini index based on Equation 2 below.
[Equation 2]
Figure 112019131276385-pat00003

Here, I is the Gini index, p i is the ratio of the plurality of first words to the i-th category among the plurality of categories, J is the total number of the plurality of categories.
제6항에 있어서,
음성의 출력 음량을 조정하기 위해서 미리 지정된 복수의 서식 정보들과, 상기 복수의 서식 정보들 각각에 대한 미리 정해진 서로 다른 출력 음량 조정 값이 서로 대응되어 기록되어 있는 서식 정보 테이블을 저장하여 유지하는 단계; 및
상기 제1 문장에 적용되어 있는 서식 정보를 확인하여 상기 제1 문장에 적용되어 있는 서식 정보 중 상기 복수의 서식 정보들에 속하는 서식 정보로 제1 서식 정보가 존재하는 것으로 확인되는 경우, 상기 서식 정보 테이블을 참조하여 상기 제1 서식 정보에 대응하는 제1 출력 음량 조정 값을 추출하는 단계
를 더 포함하고,
상기 음성으로 변환하여 출력하는 단계는
상기 음성 모델 저장부 상에 저장되어 있는 상기 제1 음성 모델에 대한 데이터를 기초로 상기 제1 문장을 상기 제1 음성 모델에 따른 목소리를 갖는 음성으로 변환하여 출력하되, 상기 제1 출력 음량 조정 값이 추출된 경우, 음성 출력을 위해서 미리 지정되어 있는 기본 출력 음량 값에 상기 제1 출력 음량 조정 값을 합산한 출력 음량 값에 따라 음성 출력을 수행하고, 상기 제1 출력 음량 조정 값이 추출되지 않은 경우, 상기 기본 출력 음량 값에 따라 음성 출력을 수행하는 선택적 음성 모델의 적용이 가능한 텍스트 음성 변환 장치의 동작 방법.
The method of claim 6,
Storing and maintaining a format information table in which a plurality of predetermined format information and predetermined different output volume adjustment values for each of the plurality of format information are recorded in correspondence with each other in order to adjust the output volume of speech. ; And
When the form information applied to the first sentence is checked and it is determined that the first form information exists as the form information belonging to the plurality of form information among the form information applied to the first sentence, the form information Extracting a first output volume adjustment value corresponding to the first form information by referring to a table
Further comprising,
The step of converting and outputting the voice is
Converting and outputting the first sentence as a voice having a voice according to the first voice model based on data on the first voice model stored on the voice model storage unit, and outputting the first volume adjustment value When this is extracted, audio output is performed according to an output volume value obtained by adding the first output volume adjustment value to a predetermined default output volume value for audio output, and the first output volume adjustment value is not extracted. In the case, a method of operating a text-to-speech device capable of applying an optional speech model that performs speech output according to the basic output volume value.
제6항, 제9항 또는 제10항 중 어느 한 항의 방법을 수행하는 프로그램을 기록한 컴퓨터 판독 가능 기록 매체.A computer-readable recording medium recording a program for performing the method of claim 6, 9 or 10. 제6항, 제9항 또는 제10항 중 어느 한 항의 방법을 컴퓨터와의 결합을 통해 실행시키기 위한 저장매체에 저장된 컴퓨터 프로그램.A computer program stored in a storage medium for executing the method of any one of claims 6, 9 or 10 through a combination with a computer.
KR1020180077282A 2018-07-03 2018-07-03 Text to speech converting apparatus capable of applying an optional speech model and operating method thereof KR102107445B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180077282A KR102107445B1 (en) 2018-07-03 2018-07-03 Text to speech converting apparatus capable of applying an optional speech model and operating method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180077282A KR102107445B1 (en) 2018-07-03 2018-07-03 Text to speech converting apparatus capable of applying an optional speech model and operating method thereof

Publications (2)

Publication Number Publication Date
KR20200004175A KR20200004175A (en) 2020-01-13
KR102107445B1 true KR102107445B1 (en) 2020-06-02

Family

ID=69153493

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180077282A KR102107445B1 (en) 2018-07-03 2018-07-03 Text to speech converting apparatus capable of applying an optional speech model and operating method thereof

Country Status (1)

Country Link
KR (1) KR102107445B1 (en)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006126413A (en) * 2004-10-28 2006-05-18 Nippon Telegr & Teleph Corp <Ntt> Speech synthesizer, speech synthesis method, and speech synthesis program
JP2015215626A (en) * 2015-07-03 2015-12-03 株式会社東芝 Document reading-aloud support device, document reading-aloud support method, and document reading-aloud support program

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101178068B1 (en) * 2005-07-14 2012-08-30 주식회사 케이티 Text category classification apparatus and its method

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006126413A (en) * 2004-10-28 2006-05-18 Nippon Telegr & Teleph Corp <Ntt> Speech synthesizer, speech synthesis method, and speech synthesis program
JP2015215626A (en) * 2015-07-03 2015-12-03 株式会社東芝 Document reading-aloud support device, document reading-aloud support method, and document reading-aloud support program

Also Published As

Publication number Publication date
KR20200004175A (en) 2020-01-13

Similar Documents

Publication Publication Date Title
US11037553B2 (en) Learning-type interactive device
JP3848319B2 (en) Information processing method and information processing apparatus
CN109686383B (en) Voice analysis method, device and storage medium
JP3426176B2 (en) Speech recognition device, method, computer system and storage medium
US11810471B2 (en) Computer implemented method and apparatus for recognition of speech patterns and feedback
JP6440967B2 (en) End-of-sentence estimation apparatus, method and program thereof
KR20140134653A (en) Audio human interactive proof based on text-to-speech and semantics
KR101534413B1 (en) Method and apparatus for providing counseling dialogue using counseling information
JP2014232268A (en) System, method and program for improving reading accuracy in speech recognition
JP2012181358A (en) Text display time determination device, text display system, method, and program
US10867525B1 (en) Systems and methods for generating recitation items
US9805740B2 (en) Language analysis based on word-selection, and language analysis apparatus
CN113327574A (en) Speech synthesis method, device, computer equipment and storage medium
KR102020773B1 (en) Multimedia Speech Recognition automatic evaluation system based using TTS
KR20210071713A (en) Speech Skill Feedback System
US11176943B2 (en) Voice recognition device, voice recognition method, and computer program product
US20150293902A1 (en) Method for automated text processing and computer device for implementing said method
KR102107445B1 (en) Text to speech converting apparatus capable of applying an optional speech model and operating method thereof
KR102107447B1 (en) Text to speech conversion apparatus for providing a translation function based on application of an optional speech model and operating method thereof
CN118140226A (en) Demonstration evaluation device
EP4024395A1 (en) Speech analyser and related method
Sigurgeirsson et al. Manual speech synthesis data acquisition-from script design to recording speech
KR20140121169A (en) Apparatus and method for situation adaptive speech recognition for hearing impaired
US20230046763A1 (en) Speech recognition apparatus, control method, and non-transitory storage medium
CN117711370A (en) Phonetic notation method and device, voice synthesis system, storage medium and electronic equipment

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant