KR20200004176A - 선택적 음성 모델의 적용에 기초한 번역 기능을 제공하는 텍스트 음성 변환 장치 및 그 동작 방법 - Google Patents

선택적 음성 모델의 적용에 기초한 번역 기능을 제공하는 텍스트 음성 변환 장치 및 그 동작 방법 Download PDF

Info

Publication number
KR20200004176A
KR20200004176A KR1020180077285A KR20180077285A KR20200004176A KR 20200004176 A KR20200004176 A KR 20200004176A KR 1020180077285 A KR1020180077285 A KR 1020180077285A KR 20180077285 A KR20180077285 A KR 20180077285A KR 20200004176 A KR20200004176 A KR 20200004176A
Authority
KR
South Korea
Prior art keywords
voice
sentence
category
language
translation
Prior art date
Application number
KR1020180077285A
Other languages
English (en)
Other versions
KR102107447B1 (ko
Inventor
박동현
김유섭
Original Assignee
주식회사 한글과컴퓨터
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 한글과컴퓨터 filed Critical 주식회사 한글과컴퓨터
Priority to KR1020180077285A priority Critical patent/KR102107447B1/ko
Publication of KR20200004176A publication Critical patent/KR20200004176A/ko
Application granted granted Critical
Publication of KR102107447B1 publication Critical patent/KR102107447B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G06F17/28
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)

Abstract

선택적 음성 모델의 적용에 기초한 번역 기능을 제공하는 텍스트 음성 변환 장치 및 그 동작 방법이 개시된다. 본 발명은 사용자에 의해 입력된 제1 언어로 작성된 문장을 제2 언어의 음성으로 번역하여 출력할 수 있도록 함과 동시에 상기 문장의 주제에 따른 카테고리에 따라 상기 카테고리에 대응하는 목소리의 음성 모델을 기초로 상기 문장을 음성으로 변환하여 출력함으로써, 문장에 내재되어 있는 감정을 보다 현실감있게 표현할 수 있는 텍스트 음성 변환 장치 및 그 동작 방법을 제공할 수 있다.

Description

선택적 음성 모델의 적용에 기초한 번역 기능을 제공하는 텍스트 음성 변환 장치 및 그 동작 방법{TEXT TO SPEECH CONVERSION APPARATUS FOR PROVIDING A TRANSLATION FUNCTION BASED ON APPLICATION OF AN OPTIONAL SPEECH MODEL AND OPERATING METHOD THEREOF}
본 발명은 사용자에 의해 입력된 제1 언어로 작성된 문장을 제2 언어의 음성으로 번역하여 출력할 수 있음과 동시에 상기 문장의 주제에 따른 카테고리에 따라 상기 카테고리에 대응하는 목소리의 음성 모델을 기초로 상기 문장을 음성으로 변환하여 출력할 수 있는 텍스트 음성 변환 장치 및 그 동작 방법에 대한 것이다.
최근, 텍스트를 음성으로 전환하는 텍스트 음성 변환(Text to Speech: TTS) 기술이 발전함에 따라, 이러한 기술을 이용한 다양한 서비스가 출시되고 있다.
특히, 텍스트 음성 변환 기술은 텍스트를 음성으로 변환하여 출력해줄 수 있기 때문에 시각 장애인들을 위한 보조 도구로서의 활용 가치가 아주 높은 기술이다.
텍스트 음성 변환 기술은 사람의 목소리를 기반으로 구축된 음성 모델을 이용하여 텍스트를 해당 사람의 목소리의 음성으로 출력한다. 여기서, 음성 모델은 사람으로 하여금 다수의 텍스트들을 발음하게 하고, 이러한 발음을 수집하여 사람의 목소리 특징에 따른 모델 데이터를 생성함으로써 구축할 수 있다.
기존의 텍스트 음성 변환 기술은 특정 목소리를 기반으로 구축된 하나의 음성 모델을 이용하여 음성 출력을 지원하였기 때문에 사용자가 특정 텍스트에 대해 음성 변환 출력 명령을 인가하면, 항상 동일한 목소리로만 음성 출력이 수행되었다.
하지만, 사용자가 입력하는 문장들은 그 주제에 따라 뉴스, 소설, 시 등 카테고리가 다양하게 구분될 수 있다는 점에서 항상 동일한 음성 모델을 기반으로 음성 출력이 수행된다면, 해당 문장에 내재되어 있는 분위기를 살리지 못하는 문제가 발생할 수 있다.
따라서, 사용자가 입력하는 문장을 분석하여 상기 문장의 주제에 따른 카테고리를 파악한 후 해당 카테고리에 따라 적절한 목소리의 음성 모델에 기초한 음성 출력이 수행되도록 함으로써, 문장에 내포되어 있는 특유의 분위기를 잘 표현할 수 있도록 하기 위한 기술의 연구가 필요하다.
또한, 최근에는 서로 다른 언어를 사용하는 사람들 간의 소통이 활발해 짐에 따라 고성능의 자동 번역 엔진이 도입되고 있다는 점에서, 이러한 번역 엔진을 이용하여 제1 언어로 작성된 문장을 제2 언어로 번역해서 음성으로 출력할 수 있도록 하는 기술의 도입도 필요한 상황이다.
본 발명은 사용자에 의해 입력된 제1 언어로 작성된 문장을 제2 언어의 음성으로 번역하여 출력할 수 있도록 함과 동시에 상기 문장의 주제에 따른 카테고리에 따라 상기 카테고리에 대응하는 목소리의 음성 모델을 기초로 상기 문장을 음성으로 변환하여 출력함으로써, 문장에 내재되어 있는 감정을 보다 현실감있게 표현할 수 있는 텍스트 음성 변환 장치 및 그 동작 방법을 제공하고자 한다.
본 발명의 일실시예에 따른 선택적 음성 모델의 적용에 기초한 번역 기능을 제공하는 텍스트 음성 변환 장치는 음성 출력을 지원하기 위해 서로 다른 목소리를 기반으로 구축된 복수의 음성 모델들에 대한 데이터가 저장되어 있는 음성 모델 저장부, 문장의 주제에 따라 구분 가능한 복수의 카테고리들과, 상기 복수의 카테고리들 각각에 대해 상기 복수의 음성 모델들 중에서 각 카테고리와의 연관도가 최대인 것으로 선정된 음성 모델에 대한 정보가 서로 대응되어 기록되어 있는 카테고리 테이블을 저장하여 유지하는 카테고리 테이블 유지부, 사용자에 의해 제1 언어로 작성된 제1 문장이 입력되고, 상기 제1 문장이 제2 언어로 번역되어 음성으로 출력되도록 지시하는 텍스트 음성 변환(Text to Speech) 명령이 인가되면, 상기 제1 문장을 분석하여 상기 복수의 카테고리들 중 상기 제1 문장의 주제에 대응되는 제1 카테고리를 확인하는 카테고리 확인부, 상기 카테고리 테이블을 참조하여 상기 제1 카테고리에 대응되어 기록되어 있는 제1 음성 모델에 대한 정보를 확인하는 음성 모델 정보 확인부, 서로 다른 복수의 언어들 간의 번역을 처리하기 위한 번역 엔진이 내장되어 있는 번역 처리 서버에 접속하여 상기 번역 처리 서버에 대해 상기 제1 언어로 작성된 상기 제1 문장을 제2 언어로 번역할 것을 지시하는 번역 명령을 전송한 후 상기 번역 처리 서버로부터 상기 제1 문장에 대한 번역문 - 상기 번역문은 상기 제1 문장이 상기 제2 언어로 번역된 문장을 의미함 - 을 수신하는 번역 처리 수행부 및 상기 음성 모델 저장부 상에 저장되어 있는 상기 제1 음성 모델에 대한 데이터를 기초로 상기 번역문을 구성하는 상기 제2 언어 기반의 텍스트를 상기 제1 음성 모델에 따른 목소리를 갖는 음성으로 변환하여 출력하는 음성 변환 출력부를 포함한다.
또한, 본 발명의 일실시예에 따른 선택적 음성 모델의 적용에 기초한 번역 기능을 제공하는 텍스트 음성 변환 장치의 동작 방법은 음성 출력을 지원하기 위해 서로 다른 목소리를 기반으로 구축된 복수의 음성 모델들에 대한 데이터가 저장되어 있는 음성 모델 저장부를 유지하는 단계, 문장의 주제에 따라 구분 가능한 복수의 카테고리들과, 상기 복수의 카테고리들 각각에 대해 상기 복수의 음성 모델들 중에서 각 카테고리와의 연관도가 최대인 것으로 선정된 음성 모델에 대한 정보가 서로 대응되어 기록되어 있는 카테고리 테이블을 저장하여 유지하는 단계, 사용자에 의해 제1 언어로 작성된 제1 문장이 입력되고, 상기 제1 문장이 제2 언어로 번역되어 음성으로 출력되도록 지시하는 텍스트 음성 변환 명령이 인가되면, 상기 제1 문장을 분석하여 상기 복수의 카테고리들 중 상기 제1 문장의 주제에 대응되는 제1 카테고리를 확인하는 단계, 상기 카테고리 테이블을 참조하여 상기 제1 카테고리에 대응되어 기록되어 있는 제1 음성 모델에 대한 정보를 확인하는 단계, 서로 다른 복수의 언어들 간의 번역을 처리하기 위한 번역 엔진이 내장되어 있는 번역 처리 서버에 접속하여 상기 번역 처리 서버에 대해 상기 제1 언어로 작성된 상기 제1 문장을 제2 언어로 번역할 것을 지시하는 번역 명령을 전송한 후 상기 번역 처리 서버로부터 상기 제1 문장에 대한 번역문 - 상기 번역문은 상기 제1 문장이 상기 제2 언어로 번역된 문장을 의미함 - 을 수신하는 단계 및 상기 음성 모델 저장부 상에 저장되어 있는 상기 제1 음성 모델에 대한 데이터를 기초로 상기 번역문을 구성하는 상기 제2 언어 기반의 텍스트를 상기 제1 음성 모델에 따른 목소리를 갖는 음성으로 변환하여 출력하는 단계를 포함한다.
본 발명은 사용자에 의해 입력된 제1 언어로 작성된 문장을 제2 언어의 음성으로 번역하여 출력할 수 있도록 함과 동시에 상기 문장의 주제에 따른 카테고리에 따라 상기 카테고리에 대응하는 목소리의 음성 모델을 기초로 상기 문장을 음성으로 변환하여 출력함으로써, 문장에 내재되어 있는 감정을 보다 현실감있게 표현할 수 있는 텍스트 음성 변환 장치 및 그 동작 방법을 제공할 수 있다.
도 1은 본 발명의 일실시예에 따른 선택적 음성 모델의 적용에 기초한 번역 기능을 제공하는 텍스트 음성 변환 장치의 구조를 도시한 도면이다.
도 2는 본 발명의 일실시예에 따른 선택적 음성 모델의 적용에 기초한 번역 기능을 제공하는 텍스트 음성 변환 장치의 동작 방법을 도시한 순서도이다.
이하에서는 본 발명에 따른 실시예들을 첨부된 도면을 참조하여 상세하게 설명하기로 한다. 이러한 설명은 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였으며, 다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 본 명세서 상에서 사용되는 모든 용어들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 사람에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다.
도 1은 본 발명의 일실시예에 따른 선택적 음성 모델의 적용에 기초한 번역 기능을 제공하는 텍스트 음성 변환 장치의 구조를 도시한 도면이다.
도 1을 참조하면, 본 발명의 일실시예에 따른 선택적 음성 모델의 적용에 기초한 번역 기능을 제공하는 텍스트 음성 변환 장치(110)는 음성 모델 저장부(111), 카테고리 테이블 유지부(112), 카테고리 확인부(113), 음성 모델 정보 확인부(114), 번역 처리 수행부(115) 및 음성 변환 출력부(116)를 포함한다.
음성 모델 저장부(111)에는 음성 출력을 지원하기 위해 서로 다른 목소리를 기반으로 구축된 복수의 음성 모델들에 대한 데이터가 저장되어 있다.
예컨대, 음성 모델 저장부(111)에는 남자 아나운서의 목소리를 기반으로 구축된 음성 모델, 여자 아나운서의 목소리를 기반으로 구축된 음성 모델, 연예인의 목소리를 기반으로 구축된 음성 모델 등 다양한 목소리를 기반으로 구축된 서로 다른 복수의 음성 모델들에 대한 데이터가 저장되어 있을 수 있다.
카테고리 테이블 유지부(112)는 문장의 주제에 따라 구분 가능한 복수의 카테고리들과, 상기 복수의 카테고리들 각각에 대해 상기 복수의 음성 모델들 중에서 각 카테고리와의 연관도가 최대인 것으로 선정된 음성 모델에 대한 정보가 서로 대응되어 기록되어 있는 카테고리 테이블을 저장하여 유지한다.
여기서, 카테고리란 '뉴스', '소설', '시' 등과 같이 문장의 주제에 따라 구분되는 구분 정보를 의미한다.
관련해서, 상기 카테고리 테이블에는 하기의 표 1과 같이 정보가 기록되어 있을 수 있다.
복수의 카테고리들 연관도가 최대인 음성 모델
카테고리 1 음성 모델 1
카테고리 2 음성 모델 2
카테고리 3 음성 모델 3
... ...
상기 표 1과 같은 카테고리 테이블은 관리자가 각 카테고리의 특징과 각 음성 모델에 따른 목소리 특징을 고려하여 각 카테고리에 대해 연관도가 최대인 것으로 판단되는 음성 모델을 하나씩 매칭함으로써 구축될 수 있는 것으로, 상기 관리자의 판단에 의해 임의로 변경될 수 있다.
카테고리 확인부(113)는 사용자에 의해 제1 언어로 작성된 제1 문장이 입력되고, 상기 제1 문장이 제2 언어로 번역되어 음성으로 출력되도록 지시하는 텍스트 음성 변환(Text to Speech) 명령이 인가되면, 상기 제1 문장을 분석하여 상기 복수의 카테고리들 중 상기 제1 문장의 주제에 대응되는 제1 카테고리를 확인한다.
이때, 본 발명의 일실시예에 따르면, 카테고리 확인부(113)는 단어 테이블 유지부(117), 단어 추출부(118), 카테고리 정보 확인부(119) 및 카테고리 확인 처리부(120)를 포함할 수 있다.
단어 테이블 유지부(117)는 서로 다른 복수의 언어들의 종류별로 구축되어 있는 언어별 단어 테이블들을 저장하여 유지한다.
관련해서, 상기 복수의 언어들이 '한국어, 영어, 일본어'라고 하는 경우, 단어 테이블 유지부(117)는 한국어 단어 테이블, 영어 단어 테이블, 일본어 단어 테이블과 같이 3개의 단어 테이블들을 저장하고 있을 수 있다.
이때, 상기 언어별 단어 테이블들 각각에는 복수의 단어들과, 상기 복수의 단어들 각각에 대해 상기 복수의 카테고리들 중에서 각 단어와의 연관도가 최대인 것으로 선정된 카테고리에 대한 정보가 서로 대응되어 기록되어 있다.
예컨대, 상기 언어별 단어 테이블들 중 한국어 단어 테이블이 존재한다고 하였을 때, 한국어 단어 테이블에는 하기의 표 2와 같이 정보가 기록되어 있을 수 있다.
복수의 단어들 연관도가 최대인 카테고리
사고 카테고리 1
특허 카테고리 2
휴대폰 카테고리 3
... ...
상기 표 2와 같은 단어 테이블도 관리자가 각 단어의 특징과 각 카테고리의 특징을 고려하여 각 단어에 대해 연관도가 최대인 것으로 판단되는 카테고리를 하나씩 매칭함으로써 구축될 수 있는 것으로, 상기 관리자의 판단에 의해 임의로 변경될 수 있다.
단어 추출부(118)는 상기 사용자에 의해 상기 제1 언어로 작성된 상기 제1 문장이 입력되고, 상기 제1 문장이 상기 제2 언어로 번역되어 음성으로 출력되도록 지시하는 텍스트 음성 변환 명령이 인가되면, 상기 제1 문장에 대해 형태소 분석을 수행하여 상기 제1 문장으로부터 상기 제1 문장을 구성하는 복수의 제1 단어들을 추출한다.
카테고리 정보 확인부(119)는 단어 테이블 유지부(117)에 저장되어 있는 상기 언어별 단어 테이블들 중 상기 제1 언어에 대응하는 제1 단어 테이블을 참조하여 상기 복수의 제1 단어들 각각에 대응하는 카테고리에 대한 정보를 확인한다.
카테고리 확인 처리부(120)는 상기 복수의 제1 단어들 각각에 대응하는 카테고리에 대한 정보가 확인되면, 상기 복수의 카테고리들 중 상기 복수의 제1 단어들이 가장 많이 분류되어 속해있는 카테고리를 상기 제1 문장의 주제에 대응하는 상기 제1 카테고리로 확인 처리한다.
예컨대, 상기 제1 언어를 '한국어'라고 하고, 상기 복수의 카테고리들로 '카테고리 1, 2, 3, 4'가 존재한다고 하며, 상기 복수의 제1 단어들이 총 '10개'라고 하고, 카테고리 정보 확인부(119)에서 '한국어'에 대응하는 한국어 단어 테이블을 기초로 상기 복수의 제1 단어들 각각에 대응하는 카테고리를 확인한 결과, '카테고리 1'에 대해서는 '5개'의 단어가 분류되었고, '카테고리 2'에 대해서는 '0개'의 단어가 분류되었으며, '카테고리 3'에 대해서는 '3개'의 단어가 분류되었고, '카테고리 4'에 대해서는 '2개'의 단어가 분류되었다고 하는 경우, 카테고리 확인 처리부(120)는 상기 복수의 카테고리들 중 '카테고리 1'에 분류된 단어들의 개수가 최대이기 때문에 '카테고리 1'을 상기 제1 문장의 주제에 대응하는 상기 제1 카테고리로 확인할 수 있다.
이렇게, 상기 제1 카테고리의 확인이 완료되면, 음성 모델 정보 확인부(114)는 상기 카테고리 테이블을 참조하여 상기 제1 카테고리에 대응되어 기록되어 있는 제1 음성 모델에 대한 정보를 확인한다.
그리고, 번역 처리 수행부(115)는 서로 다른 복수의 언어들 간의 번역을 처리하기 위한 번역 엔진이 내장되어 있는 번역 처리 서버(130)에 접속하여 번역 처리 서버(130)에 대해 상기 제1 언어로 작성된 상기 제1 문장을 제2 언어로 번역할 것을 지시하는 번역 명령을 전송한 후 번역 처리 서버(130)로부터 상기 제1 문장에 대한 번역문(상기 번역문은 상기 제1 문장이 상기 제2 언어로 번역된 문장을 의미함)을 수신한다.
그 이후, 음성 변환 출력부(116)는 음성 모델 저장부(111) 상에 저장되어 있는 상기 제1 음성 모델에 대한 데이터를 기초로 상기 번역문을 구성하는 상기 제2 언어 기반의 텍스트를 상기 제1 음성 모델에 따른 목소리를 갖는 음성으로 변환하여 출력한다.
예컨대, 상기 제1 언어를 '한국어'라고 하고, 상기 제2 언어를 '영어'라고 하며, 상기 제1 카테고리를 '뉴스'라고 하고, 상기 카테고리 테이블 상에서 상기 제1 카테고리에 대응되어 기록되어 있는 상기 제1 음성 모델이 여자 아나운서의 목소리를 기반으로 구축된 음성 모델이라고 하는 경우, 음성 변환 출력부(116)는 상기 음성 모델 저장부(111) 상에 저장되어 있는 여자 아나운서의 목소리를 기반으로 구축된 상기 제1 음성 모델에 대한 데이터를 기초로 한국어로 작성된 상기 제1 문장에 대한 영어 번역문을 구성하는 텍스트를 여자 아나운서의 목소리를 갖는 음성으로 변환하여 출력할 수 있다.
즉, 본 발명에 따른 선택적 음성 모델의 적용에 기초한 번역 기능을 제공하는 텍스트 음성 변환 장치(110)는 사용자에 의해 입력된 제1 언어로 작성된 문장을 제2 언어의 음성으로 번역하여 출력할 수 있음과 동시에 상기 문장의 주제에 따른 카테고리에 따라 상기 카테고리에 대응하는 목소리의 음성 모델을 기초로 상기 문장을 음성으로 변환하여 출력함으로써, 문장에 내재되어 있는 감정을 보다 현실감있게 표현할 수 있다.
이때, 본 발명의 일실시예에 따르면, 카테고리 확인부(113)는 균형도 연산부(121) 및 확인 정확도 안내 메시지 출력부(122)를 더 포함할 수 있다.
균형도 연산부(121)는 카테고리 확인 처리부(120)에서 상기 제1 카테고리의 확인 처리가 완료되면, 상기 복수의 카테고리들 각각에 대한 상기 복수의 제1 단어들의 분류 비율에 기초하여 상기 복수의 제1 단어들의 상기 복수의 카테고리들에 대한 분포 균형도를 나타내는 지니인덱스를 연산한다.
이때, 본 발명의 일실시예에 따르면, 균형도 연산부(121)는 하기의 수학식 1에 기초하여 상기 지니인덱스를 연산할 수 있다.
Figure pat00001
여기서, I는 상기 지니인덱스, pi는 상기 복수의 카테고리들 중 i번째 카테고리에 상기 복수의 제1 단어들이 분류된 비율, J는 상기 복수의 카테고리들의 총 개수를 의미한다.
상기 수학식 1에 따라 연산되는 상기 지니인덱스는 상기 복수의 제1 단어들의 상기 복수의 카테고리들에 대한 분포 균형도를 나타내는 척도로, 상기 지니인덱스의 값이 '0'에 가까울수록 상기 복수의 카테고리들 중 특정 카테고리 상에 많은 단어들이 집중되어 존재하고 있음을 의미하고, 상기 지니인덱스의 값이 '1'에 가까울수록 상기 복수의 카테고리들 전체에 대해 상기 복수의 제1 단어들이 골고루 분포되어 존재하고 있음을 의미한다.
관련해서, 전술한 예시와 같이 상기 복수의 카테고리들이 '카테고리 1, 2, 3, 4'가 존재한다고 하고, 상기 복수의 제1 단어들이 총 '10개'라고 하며, 카테고리 정보 확인부(119)에서 상기 복수의 제1 단어들 각각에 대응하는 카테고리를 확인한 결과, '카테고리 1'에 대해서는 '5개'의 단어가 분류되었고, '카테고리 2'에 대해서는 '0개'의 단어가 분류되었으며, '카테고리 3'에 대해서는 '3개'의 단어가 분류되었고, '카테고리 4'에 대해서는 '2개'의 단어가 분류되었다고 가정하자.
이때, p1은 상기 복수의 제1 단어들에서 '카테고리 1'로 확인되어 분류되는 단어의 비율이므로, '0.5'가 되고, p2는 상기 복수의 제1 단어들에서 '카테고리 2'로 확인되어 분류되는 단어의 비율로, 어떠한 단어도 분류되지 않았으므로, '0'이 되며, p3은 상기 복수의 제1 단어들에서 '카테고리 3'으로 확인되어 분류되는 단어의 비율이므로, '0.3'이 되고, p4는 상기 복수의 제1 단어들에서 '카테고리 4'로 확인되어 분류되는 단어의 비율이므로, '0.2'가 된다.
이러한 점을 고려하여, 상기 수학식 1에 따른 상기 지니인덱스를 연산하게 되면, 상기 지니인덱스는 '0.62'로 연산될 수 있다.
확인 정확도 안내 메시지 출력부(122)는 상기 지니인덱스가 선정된(predetermined) 기준 값을 초과하는지 여부를 확인하여 상기 지니인덱스가 상기 선정된 기준 값을 초과하지 않는 것으로 확인되는 경우, 상기 제1 문장의 주제에 대응하는 카테고리로 확인된 상기 제1 카테고리에 대한 확인 정확도가 높음을 나타내는 제1 안내 메시지를 생성하여 화면 상에 출력하고, 상기 지니인덱스가 상기 선정된 기준 값을 초과하는 것으로 확인되는 경우, 상기 제1 문장의 주제에 대응하는 카테고리로 확인된 상기 제1 카테고리에 대한 확인 정확도가 낮음을 나타내는 제2 안내 메시지를 생성하여 화면 상에 출력한다.
예컨대, 상기 선정된 기준 값이 '0.5'라고 하고, 앞서 설명한 예시와 같이 상기 지니인덱스가 '0.62'로 연산되었다고 하는 경우, 확인 정확도 안내 메시지 출력부(122)는 상기 지니인덱스가 상기 선정된 기준 값을 초과하기 때문에 상기 제1 문장의 주제에 대응하는 카테고리로 확인된 상기 제1 카테고리에 대한 확인 정확도가 낮음을 나타내는 상기 제2 안내 메시지를 생성하여 화면 상에 출력할 수 있다.
즉, 확인 정확도 안내 메시지 출력부(122)는 상기 지니인덱스가 작을수록 상기 복수의 제1 단어들이 특정 카테고리로 집중되어 분류되었다고 볼 수 있기 때문에 가장 많은 단어들이 분류된 카테고리를 상기 제1 문장의 주제에 대응하는 카테고리로 확인한 결과에 대한 신뢰도가 높은 것으로 취급하여 상기 제1 안내 메시지를 화면 상에 표시할 수 있고, 상기 지니인덱스가 클수록 상기 복수의 제1 단어들이 복수의 카테고리들 전체로 분산되어 있다고 볼 수 있기 때문에 가장 많은 단어들이 분류된 카테고리를 상기 제1 문장의 주제에 대응하는 카테고리로 확인한 결과에 대한 신뢰도가 낮은 것으로 취급하여 상기 제2 안내 메시지를 화면 상에 표시할 수 있다.
만약, 상기 제2 안내 메시지가 화면 상에 표시되었다면, 사용자는 상기 제1 문장의 주제에 대응하여 확인된 상기 제1 카테고리에 대한 확인 정확도가 낮음을 파악하고, 자신이 직접 상기 제1 문장의 내용에 따른 적절한 카테고리를 수동으로 설정함으로써, 상기 제1 문장의 주제에 적합한 목소리의 음성이 출력되도록 조정할 수 있다.
본 발명의 일실시예에 따르면, 선택적 음성 모델의 적용에 기초한 번역 기능을 제공하는 텍스트 음성 변환 장치(110)는 서식 정보 테이블 유지부(123) 및 출력 음량 조정 값 확인부(124)를 더 포함할 수 있다.
서식 정보 테이블 유지부(123)는 음성의 출력 음량을 조정하기 위해서 미리 지정된 복수의 서식 정보들과, 상기 복수의 서식 정보들 각각에 대한 미리 정해진 서로 다른 출력 음량 조정 값이 서로 대응되어 기록되어 있는 서식 정보 테이블을 저장하여 유지한다.
예컨대, 상기 서식 정보 테이블에는 하기의 표 3과 같이 정보가 기록되어 있을 수 있다.
복수의 서식 정보들 출력 음량 조정 값
텍스트가 굵게 처리된 서식 조정 값 1
텍스트에 기울임 처리된 서식 조정 값 2
텍스트의 색상이 빨간색으로 처리된 서식 조정 값 3
... ...
출력 음량 조정 값 확인부(124)는 상기 제1 문장에 적용되어 있는 서식 정보를 확인하여 상기 제1 문장에 적용되어 있는 서식 정보 중 상기 복수의 서식 정보들에 속하는 서식 정보로 제1 서식 정보가 존재하는 것으로 확인되는 경우, 상기 서식 정보 테이블을 참조하여 상기 제1 서식 정보에 대응하는 제1 출력 음량 조정 값을 추출한다.
관련해서, 상기 제1 문장 상에 텍스트의 색상이 빨간색으로 처리된 서식이 적용되어 있다고 하는 경우, 출력 음량 조정 값 확인부(124)는 상기 표 3과 같은 서식 정보 테이블을 참조하여 해당 서식에 대응하는 '조정 값 3'을 상기 제1 출력 음량 조정 값으로 추출할 수 있다.
이때, 음성 변환 출력부(116)는 음성 모델 저장부(111) 상에 저장되어 있는 상기 제1 음성 모델에 대한 데이터를 기초로 상기 번역문을 구성하는 상기 제2 언어 기반의 텍스트를 상기 제1 음성 모델에 따른 목소리를 갖는 음성으로 변환하여 출력하되, 상기 제1 출력 음량 조정 값이 추출된 경우, 음성 출력을 위해서 미리 지정되어 있는 기본 출력 음량 값에 상기 제1 출력 음량 조정 값을 합산한 출력 음량 값에 따라 음성 출력을 수행하고, 상기 제1 출력 음량 조정 값이 추출되지 않은 경우, 상기 기본 출력 음량 값에 따라 음성 출력을 수행할 수 있다.
즉, 앞서 설명한 예시에 따라 상기 제1 문장 상에 텍스트의 색상이 빨간색으로 처리된 서식이 적용되어 있음으로 인해 출력 음량 조정 값 확인부(124)를 통해 '조정 값 3'이 상기 제1 출력 음량 조정 값으로 추출된 경우, 음성 변환 출력부(116)는 상기 제1 문장의 주제에 따른 음성 모델에 기초하여 음성 출력을 수행할 때, 미리 지정되어 있는 기본 출력 음량 값에 '조정 값 3'이라는 상기 제1 출력 음량 조정 값을 합산한 출력 음량 값에 따라 음성 출력을 수행할 수 있다.
하지만, 상기 제1 문장 상에 상기 표 3에서 나타낸 서식 정보 테이블 상에 기록되어 있는 상기 복수의 서식 정보들에 따른 서식 정보가 적용되어 있지 않음으로 인해, 출력 음량 조정 값 확인부(124)를 통해 어떠한 출력 음량 조정 값도 추출되지 않은 경우, 음성 변환 출력부(116)는 상기 제1 문장의 주제에 따른 음성 모델에 기초하여 음성 출력을 수행할 때, 미리 지정되어 있는 기본 출력 음량 값에 따라 음성 출력을 수행할 수 있다.
도 2는 본 발명의 일실시예에 따른 선택적 음성 모델의 적용에 기초한 번역 기능을 제공하는 텍스트 음성 변환 장치의 동작 방법을 도시한 순서도이다.
단계(S210)에서는 음성 출력을 지원하기 위해 서로 다른 목소리를 기반으로 구축된 복수의 음성 모델들에 대한 데이터가 저장되어 있는 음성 모델 저장부를 유지한다.
단계(S220)에서는 문장의 주제에 따라 구분 가능한 복수의 카테고리들과, 상기 복수의 카테고리들 각각에 대해 상기 복수의 음성 모델들 중에서 각 카테고리와의 연관도가 최대인 것으로 선정된 음성 모델에 대한 정보가 서로 대응되어 기록되어 있는 카테고리 테이블을 저장하여 유지한다.
단계(S230)에서는 사용자에 의해 제1 언어로 작성된 제1 문장이 입력되고, 상기 제1 문장이 제2 언어로 번역되어 음성으로 출력되도록 지시하는 텍스트 음성 변환 명령이 인가되면, 상기 제1 문장을 분석하여 상기 복수의 카테고리들 중 상기 제1 문장의 주제에 대응되는 제1 카테고리를 확인한다.
단계(S240)에서는 상기 카테고리 테이블을 참조하여 상기 제1 카테고리에 대응되어 기록되어 있는 제1 음성 모델에 대한 정보를 확인한다.
단계(S250)에서는 서로 다른 복수의 언어들 간의 번역을 처리하기 위한 번역 엔진이 내장되어 있는 번역 처리 서버에 접속하여 상기 번역 처리 서버에 대해 상기 제1 언어로 작성된 상기 제1 문장을 제2 언어로 번역할 것을 지시하는 번역 명령을 전송한 후 상기 번역 처리 서버로부터 상기 제1 문장에 대한 번역문(상기 번역문은 상기 제1 문장이 상기 제2 언어로 번역된 문장을 의미함)을 수신한다.
단계(S260)에서는 상기 음성 모델 저장부 상에 저장되어 있는 상기 제1 음성 모델에 대한 데이터를 기초로 상기 번역문을 구성하는 상기 제2 언어 기반의 텍스트를 상기 제1 음성 모델에 따른 목소리를 갖는 음성으로 변환하여 출력한다.
이때, 본 발명의 일실시예에 따르면, 단계(S230)에서는 상기 복수의 언어들의 종류별로 구축되어 있는 언어별 단어 테이블들(상기 언어별 단어 테이블들 각각에는 복수의 단어들과, 상기 복수의 단어들 각각에 대해 상기 복수의 카테고리들 중에서 각 단어와의 연관도가 최대인 것으로 선정된 카테고리에 대한 정보가 서로 대응되어 기록되어 있음)을 저장하여 유지하는 단계, 상기 사용자에 의해 상기 제1 언어로 작성된 상기 제1 문장이 입력되고, 상기 제1 문장이 상기 제2 언어로 번역되어 음성으로 출력되도록 지시하는 텍스트 음성 변환 명령이 인가되면, 상기 제1 문장에 대해 형태소 분석을 수행하여 상기 제1 문장으로부터 상기 제1 문장을 구성하는 복수의 제1 단어들을 추출하는 단계, 상기 언어별 단어 테이블들 중 상기 제1 언어에 대응하는 제1 단어 테이블을 참조하여 상기 복수의 제1 단어들 각각에 대응하는 카테고리에 대한 정보를 확인하는 단계 및 상기 복수의 제1 단어들 각각에 대응하는 카테고리에 대한 정보가 확인되면, 상기 복수의 카테고리들 중 상기 복수의 제1 단어들이 가장 많이 분류되어 속해있는 카테고리를 상기 제1 문장의 주제에 대응하는 상기 제1 카테고리로 확인 처리하는 단계를 포함할 수 있다.
이때, 본 발명의 일실시예에 따르면, 단계(S230)에서는 상기 제1 카테고리의 확인 처리가 완료되면, 상기 복수의 카테고리들 각각에 대한 상기 복수의 제1 단어들의 분류 비율에 기초하여 상기 복수의 제1 단어들의 상기 복수의 카테고리들에 대한 분포 균형도를 나타내는 지니인덱스를 연산하는 단계 및 상기 지니인덱스가 선정된 기준 값을 초과하는지 여부를 확인하여 상기 지니인덱스가 상기 선정된 기준 값을 초과하지 않는 것으로 확인되는 경우, 상기 제1 문장의 주제에 대응하는 카테고리로 확인된 상기 제1 카테고리에 대한 확인 정확도가 높음을 나타내는 제1 안내 메시지를 생성하여 화면 상에 출력하고, 상기 지니인덱스가 상기 선정된 기준 값을 초과하는 것으로 확인되는 경우, 상기 제1 문장의 주제에 대응하는 카테고리로 확인된 상기 제1 카테고리에 대한 확인 정확도가 낮음을 나타내는 제2 안내 메시지를 생성하여 화면 상에 출력하는 단계를 더 포함할 수 있다.
이때, 본 발명의 일실시예에 따르면, 상기 지니인덱스를 연산하는 단계는 상기 수학식 1에 기초하여 상기 지니인덱스를 연산할 수 있다.
또한, 본 발명의 일실시예에 따르면, 상기 선택적 음성 모델의 적용에 기초한 번역 기능을 제공하는 텍스트 음성 변환 장치의 동작 방법은 음성의 출력 음량을 조정하기 위해서 미리 지정된 복수의 서식 정보들과, 상기 복수의 서식 정보들 각각에 대한 미리 정해진 서로 다른 출력 음량 조정 값이 서로 대응되어 기록되어 있는 서식 정보 테이블을 저장하여 유지하는 단계 및 상기 제1 문장에 적용되어 있는 서식 정보를 확인하여 상기 제1 문장에 적용되어 있는 서식 정보 중 상기 복수의 서식 정보들에 속하는 서식 정보로 제1 서식 정보가 존재하는 것으로 확인되는 경우, 상기 서식 정보 테이블을 참조하여 상기 제1 서식 정보에 대응하는 제1 출력 음량 조정 값을 추출하는 단계를 더 포함할 수 있다.
이때, 단계(S260)에서는 상기 음성 모델 저장부 상에 저장되어 있는 상기 제1 음성 모델에 대한 데이터를 기초로 상기 번역문을 구성하는 상기 제2 언어 기반의 텍스트를 상기 제1 음성 모델에 따른 목소리를 갖는 음성으로 변환하여 출력하되, 상기 제1 출력 음량 조정 값이 추출된 경우, 음성 출력을 위해서 미리 지정되어 있는 기본 출력 음량 값에 상기 제1 출력 음량 조정 값을 합산한 출력 음량 값에 따라 음성 출력을 수행하고, 상기 제1 출력 음량 조정 값이 추출되지 않은 경우, 상기 기본 출력 음량 값에 따라 음성 출력을 수행할 수 있다.
이상, 도 2를 참조하여 본 발명의 일실시예에 따른 선택적 음성 모델의 적용에 기초한 번역 기능을 제공하는 텍스트 음성 변환 장치의 동작 방법에 대해 설명하였다. 여기서, 본 발명의 일실시예에 따른 선택적 음성 모델의 적용에 기초한 번역 기능을 제공하는 텍스트 음성 변환 장치의 동작 방법은 도 1을 이용하여 설명한 선택적 음성 모델의 적용에 기초한 번역 기능을 제공하는 텍스트 음성 변환 장치(110)의 동작에 대한 구성과 대응될 수 있으므로, 이에 대한 보다 상세한 설명은 생략하기로 한다.
본 발명의 일실시예에 따른 선택적 음성 모델의 적용에 기초한 번역 기능을 제공하는 텍스트 음성 변환 장치의 동작 방법은 컴퓨터와의 결합을 통해 실행시키기 위한 저장매체에 저장된 컴퓨터 프로그램으로 구현될 수 있다.
또한, 본 발명의 일실시예에 따른 선택적 음성 모델의 적용에 기초한 번역 기능을 제공하는 텍스트 음성 변환 장치의 동작 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
이상과 같이 본 발명에서는 구체적인 구성 요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.
따라서, 본 발명의 사상은 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등하거나 등가적 변형이 있는 모든 것들은 본 발명 사상의 범주에 속한다고 할 것이다.
110: 선택적 음성 모델의 적용에 기초한 번역 기능을 제공하는 텍스트 음성 변환 장치
111: 음성 모델 저장부 112: 카테고리 테이블 유지부
113: 카테고리 확인부 114: 음성 모델 정보 확인부
115: 번역 처리 수행부 116: 음성 변환 출력부
117: 단어 테이블 유지부 118: 단어 추출부
119: 카테고리 정보 확인부 120: 카테고리 확인 처리부
121: 균형도 연산부 122: 확인 정확도 안내 메시지 출력부
123: 서식 정보 테이블 유지부 124: 출력 음량 조정 값 확인부
130: 번역 처리 서버

Claims (12)

  1. 음성 출력을 지원하기 위해 서로 다른 목소리를 기반으로 구축된 복수의 음성 모델들에 대한 데이터가 저장되어 있는 음성 모델 저장부;
    문장의 주제에 따라 구분 가능한 복수의 카테고리들과, 상기 복수의 카테고리들 각각에 대해 상기 복수의 음성 모델들 중에서 각 카테고리와의 연관도가 최대인 것으로 선정된 음성 모델에 대한 정보가 서로 대응되어 기록되어 있는 카테고리 테이블을 저장하여 유지하는 카테고리 테이블 유지부;
    사용자에 의해 제1 언어로 작성된 제1 문장이 입력되고, 상기 제1 문장이 제2 언어로 번역되어 음성으로 출력되도록 지시하는 텍스트 음성 변환(Text to Speech) 명령이 인가되면, 상기 제1 문장을 분석하여 상기 복수의 카테고리들 중 상기 제1 문장의 주제에 대응되는 제1 카테고리를 확인하는 카테고리 확인부;
    상기 카테고리 테이블을 참조하여 상기 제1 카테고리에 대응되어 기록되어 있는 제1 음성 모델에 대한 정보를 확인하는 음성 모델 정보 확인부;
    서로 다른 복수의 언어들 간의 번역을 처리하기 위한 번역 엔진이 내장되어 있는 번역 처리 서버에 접속하여 상기 번역 처리 서버에 대해 상기 제1 언어로 작성된 상기 제1 문장을 제2 언어로 번역할 것을 지시하는 번역 명령을 전송한 후 상기 번역 처리 서버로부터 상기 제1 문장에 대한 번역문 - 상기 번역문은 상기 제1 문장이 상기 제2 언어로 번역된 문장을 의미함 - 을 수신하는 번역 처리 수행부; 및
    상기 음성 모델 저장부 상에 저장되어 있는 상기 제1 음성 모델에 대한 데이터를 기초로 상기 번역문을 구성하는 상기 제2 언어 기반의 텍스트를 상기 제1 음성 모델에 따른 목소리를 갖는 음성으로 변환하여 출력하는 음성 변환 출력부
    를 포함하는 선택적 음성 모델의 적용에 기초한 번역 기능을 제공하는 텍스트 음성 변환 장치.
  2. 제1항에 있어서,
    상기 카테고리 확인부는
    상기 복수의 언어들의 종류별로 구축되어 있는 언어별 단어 테이블들 - 상기 언어별 단어 테이블들 각각에는 복수의 단어들과, 상기 복수의 단어들 각각에 대해 상기 복수의 카테고리들 중에서 각 단어와의 연관도가 최대인 것으로 선정된 카테고리에 대한 정보가 서로 대응되어 기록되어 있음 - 을 저장하여 유지하는 단어 테이블 유지부;
    상기 사용자에 의해 상기 제1 언어로 작성된 상기 제1 문장이 입력되고, 상기 제1 문장이 상기 제2 언어로 번역되어 음성으로 출력되도록 지시하는 텍스트 음성 변환 명령이 인가되면, 상기 제1 문장에 대해 형태소 분석을 수행하여 상기 제1 문장으로부터 상기 제1 문장을 구성하는 복수의 제1 단어들을 추출하는 단어 추출부;
    상기 단어 테이블 유지부에 저장되어 있는 상기 언어별 단어 테이블들 중 상기 제1 언어에 대응하는 제1 단어 테이블을 참조하여 상기 복수의 제1 단어들 각각에 대응하는 카테고리에 대한 정보를 확인하는 카테고리 정보 확인부; 및
    상기 복수의 제1 단어들 각각에 대응하는 카테고리에 대한 정보가 확인되면, 상기 복수의 카테고리들 중 상기 복수의 제1 단어들이 가장 많이 분류되어 속해있는 카테고리를 상기 제1 문장의 주제에 대응하는 상기 제1 카테고리로 확인 처리하는 카테고리 확인 처리부
    를 포함하는 선택적 음성 모델의 적용에 기초한 번역 기능을 제공하는 텍스트 음성 변환 장치.
  3. 제2항에 있어서,
    상기 카테고리 확인부는
    상기 제1 카테고리의 확인 처리가 완료되면, 상기 복수의 카테고리들 각각에 대한 상기 복수의 제1 단어들의 분류 비율에 기초하여 상기 복수의 제1 단어들의 상기 복수의 카테고리들에 대한 분포 균형도를 나타내는 지니인덱스를 연산하는 균형도 연산부; 및
    상기 지니인덱스가 선정된(predetermined) 기준 값을 초과하는지 여부를 확인하여 상기 지니인덱스가 상기 선정된 기준 값을 초과하지 않는 것으로 확인되는 경우, 상기 제1 문장의 주제에 대응하는 카테고리로 확인된 상기 제1 카테고리에 대한 확인 정확도가 높음을 나타내는 제1 안내 메시지를 생성하여 화면 상에 출력하고, 상기 지니인덱스가 상기 선정된 기준 값을 초과하는 것으로 확인되는 경우, 상기 제1 문장의 주제에 대응하는 카테고리로 확인된 상기 제1 카테고리에 대한 확인 정확도가 낮음을 나타내는 제2 안내 메시지를 생성하여 화면 상에 출력하는 확인 정확도 안내 메시지 출력부
    를 더 포함하는 선택적 음성 모델의 적용에 기초한 번역 기능을 제공하는 텍스트 음성 변환 장치.
  4. 제3항에 있어서,
    상기 균형도 연산부는
    하기의 수학식 1에 기초하여 상기 지니인덱스를 연산하는 선택적 음성 모델의 적용에 기초한 번역 기능을 제공하는 텍스트 음성 변환 장치.
    [수학식 1]
    Figure pat00002

    여기서, I는 상기 지니인덱스, pi는 상기 복수의 카테고리들 중 i번째 카테고리에 상기 복수의 제1 단어들이 분류된 비율, J는 상기 복수의 카테고리들의 총 개수를 의미함.
  5. 제1항에 있어서,
    음성의 출력 음량을 조정하기 위해서 미리 지정된 복수의 서식 정보들과, 상기 복수의 서식 정보들 각각에 대한 미리 정해진 서로 다른 출력 음량 조정 값이 서로 대응되어 기록되어 있는 서식 정보 테이블을 저장하여 유지하는 서식 정보 테이블 유지부; 및
    상기 제1 문장에 적용되어 있는 서식 정보를 확인하여 상기 제1 문장에 적용되어 있는 서식 정보 중 상기 복수의 서식 정보들에 속하는 서식 정보로 제1 서식 정보가 존재하는 것으로 확인되는 경우, 상기 서식 정보 테이블을 참조하여 상기 제1 서식 정보에 대응하는 제1 출력 음량 조정 값을 추출하는 출력 음량 조정 값 확인부
    를 더 포함하고,
    상기 음성 변환 출력부는
    상기 음성 모델 저장부 상에 저장되어 있는 상기 제1 음성 모델에 대한 데이터를 기초로 상기 번역문을 구성하는 상기 제2 언어 기반의 텍스트를 상기 제1 음성 모델에 따른 목소리를 갖는 음성으로 변환하여 출력하되, 상기 제1 출력 음량 조정 값이 추출된 경우, 음성 출력을 위해서 미리 지정되어 있는 기본 출력 음량 값에 상기 제1 출력 음량 조정 값을 합산한 출력 음량 값에 따라 음성 출력을 수행하고, 상기 제1 출력 음량 조정 값이 추출되지 않은 경우, 상기 기본 출력 음량 값에 따라 음성 출력을 수행하는 선택적 음성 모델의 적용에 기초한 번역 기능을 제공하는 텍스트 음성 변환 장치.
  6. 음성 출력을 지원하기 위해 서로 다른 목소리를 기반으로 구축된 복수의 음성 모델들에 대한 데이터가 저장되어 있는 음성 모델 저장부를 유지하는 단계;
    문장의 주제에 따라 구분 가능한 복수의 카테고리들과, 상기 복수의 카테고리들 각각에 대해 상기 복수의 음성 모델들 중에서 각 카테고리와의 연관도가 최대인 것으로 선정된 음성 모델에 대한 정보가 서로 대응되어 기록되어 있는 카테고리 테이블을 저장하여 유지하는 단계;
    사용자에 의해 제1 언어로 작성된 제1 문장이 입력되고, 상기 제1 문장이 제2 언어로 번역되어 음성으로 출력되도록 지시하는 텍스트 음성 변환(Text to Speech) 명령이 인가되면, 상기 제1 문장을 분석하여 상기 복수의 카테고리들 중 상기 제1 문장의 주제에 대응되는 제1 카테고리를 확인하는 단계;
    상기 카테고리 테이블을 참조하여 상기 제1 카테고리에 대응되어 기록되어 있는 제1 음성 모델에 대한 정보를 확인하는 단계;
    서로 다른 복수의 언어들 간의 번역을 처리하기 위한 번역 엔진이 내장되어 있는 번역 처리 서버에 접속하여 상기 번역 처리 서버에 대해 상기 제1 언어로 작성된 상기 제1 문장을 제2 언어로 번역할 것을 지시하는 번역 명령을 전송한 후 상기 번역 처리 서버로부터 상기 제1 문장에 대한 번역문 - 상기 번역문은 상기 제1 문장이 상기 제2 언어로 번역된 문장을 의미함 - 을 수신하는 단계; 및
    상기 음성 모델 저장부 상에 저장되어 있는 상기 제1 음성 모델에 대한 데이터를 기초로 상기 번역문을 구성하는 상기 제2 언어 기반의 텍스트를 상기 제1 음성 모델에 따른 목소리를 갖는 음성으로 변환하여 출력하는 단계
    를 포함하는 선택적 음성 모델의 적용에 기초한 번역 기능을 제공하는 텍스트 음성 변환 장치의 동작 방법.
  7. 제6항에 있어서,
    상기 제1 카테고리를 확인하는 단계는
    상기 복수의 언어들의 종류별로 구축되어 있는 언어별 단어 테이블들 - 상기 언어별 단어 테이블들 각각에는 복수의 단어들과, 상기 복수의 단어들 각각에 대해 상기 복수의 카테고리들 중에서 각 단어와의 연관도가 최대인 것으로 선정된 카테고리에 대한 정보가 서로 대응되어 기록되어 있음 - 을 저장하여 유지하는 단계;
    상기 사용자에 의해 상기 제1 언어로 작성된 상기 제1 문장이 입력되고, 상기 제1 문장이 상기 제2 언어로 번역되어 음성으로 출력되도록 지시하는 텍스트 음성 변환 명령이 인가되면, 상기 제1 문장에 대해 형태소 분석을 수행하여 상기 제1 문장으로부터 상기 제1 문장을 구성하는 복수의 제1 단어들을 추출하는 단계;
    상기 언어별 단어 테이블들 중 상기 제1 언어에 대응하는 제1 단어 테이블을 참조하여 상기 복수의 제1 단어들 각각에 대응하는 카테고리에 대한 정보를 확인하는 단계; 및
    상기 복수의 제1 단어들 각각에 대응하는 카테고리에 대한 정보가 확인되면, 상기 복수의 카테고리들 중 상기 복수의 제1 단어들이 가장 많이 분류되어 속해있는 카테고리를 상기 제1 문장의 주제에 대응하는 상기 제1 카테고리로 확인 처리하는 단계
    를 포함하는 선택적 음성 모델의 적용에 기초한 번역 기능을 제공하는 텍스트 음성 변환 장치의 동작 방법.
  8. 제7항에 있어서,
    상기 제1 카테고리를 확인하는 단계는
    상기 제1 카테고리의 확인 처리가 완료되면, 상기 복수의 카테고리들 각각에 대한 상기 복수의 제1 단어들의 분류 비율에 기초하여 상기 복수의 제1 단어들의 상기 복수의 카테고리들에 대한 분포 균형도를 나타내는 지니인덱스를 연산하는 단계; 및
    상기 지니인덱스가 선정된(predetermined) 기준 값을 초과하는지 여부를 확인하여 상기 지니인덱스가 상기 선정된 기준 값을 초과하지 않는 것으로 확인되는 경우, 상기 제1 문장의 주제에 대응하는 카테고리로 확인된 상기 제1 카테고리에 대한 확인 정확도가 높음을 나타내는 제1 안내 메시지를 생성하여 화면 상에 출력하고, 상기 지니인덱스가 상기 선정된 기준 값을 초과하는 것으로 확인되는 경우, 상기 제1 문장의 주제에 대응하는 카테고리로 확인된 상기 제1 카테고리에 대한 확인 정확도가 낮음을 나타내는 제2 안내 메시지를 생성하여 화면 상에 출력하는 단계
    를 더 포함하는 선택적 음성 모델의 적용에 기초한 번역 기능을 제공하는 텍스트 음성 변환 장치의 동작 방법.
  9. 제8항에 있어서,
    상기 지니인덱스를 연산하는 단계는
    하기의 수학식 2에 기초하여 상기 지니인덱스를 연산하는 선택적 음성 모델의 적용에 기초한 번역 기능을 제공하는 텍스트 음성 변환 장치의 동작 방법.
    [수학식 2]
    Figure pat00003

    여기서, I는 상기 지니인덱스, pi는 상기 복수의 카테고리들 중 i번째 카테고리에 상기 복수의 제1 단어들이 분류된 비율, J는 상기 복수의 카테고리들의 총 개수를 의미함.
  10. 제6항에 있어서,
    음성의 출력 음량을 조정하기 위해서 미리 지정된 복수의 서식 정보들과, 상기 복수의 서식 정보들 각각에 대한 미리 정해진 서로 다른 출력 음량 조정 값이 서로 대응되어 기록되어 있는 서식 정보 테이블을 저장하여 유지하는 단계; 및
    상기 제1 문장에 적용되어 있는 서식 정보를 확인하여 상기 제1 문장에 적용되어 있는 서식 정보 중 상기 복수의 서식 정보들에 속하는 서식 정보로 제1 서식 정보가 존재하는 것으로 확인되는 경우, 상기 서식 정보 테이블을 참조하여 상기 제1 서식 정보에 대응하는 제1 출력 음량 조정 값을 추출하는 단계
    를 더 포함하고,
    상기 음성으로 변환하여 출력하는 단계는
    상기 음성 모델 저장부 상에 저장되어 있는 상기 제1 음성 모델에 대한 데이터를 기초로 상기 번역문을 구성하는 상기 제2 언어 기반의 텍스트를 상기 제1 음성 모델에 따른 목소리를 갖는 음성으로 변환하여 출력하되, 상기 제1 출력 음량 조정 값이 추출된 경우, 음성 출력을 위해서 미리 지정되어 있는 기본 출력 음량 값에 상기 제1 출력 음량 조정 값을 합산한 출력 음량 값에 따라 음성 출력을 수행하고, 상기 제1 출력 음량 조정 값이 추출되지 않은 경우, 상기 기본 출력 음량 값에 따라 음성 출력을 수행하는 선택적 음성 모델의 적용에 기초한 번역 기능을 제공하는 텍스트 음성 변환 장치의 동작 방법.
  11. 제6항 내지 제10항 중 어느 한 항의 방법을 수행하는 프로그램을 기록한 컴퓨터 판독 가능 기록 매체.
  12. 제6항 내지 제10항 중 어느 한 항의 방법을 컴퓨터와의 결합을 통해 실행시키기 위한 저장매체에 저장된 컴퓨터 프로그램.
KR1020180077285A 2018-07-03 2018-07-03 선택적 음성 모델의 적용에 기초한 번역 기능을 제공하는 텍스트 음성 변환 장치 및 그 동작 방법 KR102107447B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180077285A KR102107447B1 (ko) 2018-07-03 2018-07-03 선택적 음성 모델의 적용에 기초한 번역 기능을 제공하는 텍스트 음성 변환 장치 및 그 동작 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180077285A KR102107447B1 (ko) 2018-07-03 2018-07-03 선택적 음성 모델의 적용에 기초한 번역 기능을 제공하는 텍스트 음성 변환 장치 및 그 동작 방법

Publications (2)

Publication Number Publication Date
KR20200004176A true KR20200004176A (ko) 2020-01-13
KR102107447B1 KR102107447B1 (ko) 2020-06-02

Family

ID=69153362

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180077285A KR102107447B1 (ko) 2018-07-03 2018-07-03 선택적 음성 모델의 적용에 기초한 번역 기능을 제공하는 텍스트 음성 변환 장치 및 그 동작 방법

Country Status (1)

Country Link
KR (1) KR102107447B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220105550A (ko) * 2021-01-20 2022-07-27 주식회사 한글과컴퓨터 문장의 스타일 정보를 유지하는 번역 기능을 제공하는 전자 장치 및 그 동작 방법

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006126413A (ja) * 2004-10-28 2006-05-18 Nippon Telegr & Teleph Corp <Ntt> 音声合成装置、音声合成方法及び音声合成プログラム
KR20070008991A (ko) * 2005-07-14 2007-01-18 주식회사 케이티 텍스트의 카테고리 분류 장치 및 그 방법
KR20120086287A (ko) * 2009-10-02 2012-08-02 독립행정법인정보통신연구기구 음성번역 시스템, 제1 단말장치, 음성인식 서버장치, 번역 서버장치, 및 음성합성 서버장치
JP2015215626A (ja) * 2015-07-03 2015-12-03 株式会社東芝 文書読み上げ支援装置、文書読み上げ支援方法および文書読み上げ支援プログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006126413A (ja) * 2004-10-28 2006-05-18 Nippon Telegr & Teleph Corp <Ntt> 音声合成装置、音声合成方法及び音声合成プログラム
KR20070008991A (ko) * 2005-07-14 2007-01-18 주식회사 케이티 텍스트의 카테고리 분류 장치 및 그 방법
KR20120086287A (ko) * 2009-10-02 2012-08-02 독립행정법인정보통신연구기구 음성번역 시스템, 제1 단말장치, 음성인식 서버장치, 번역 서버장치, 및 음성합성 서버장치
JP2015215626A (ja) * 2015-07-03 2015-12-03 株式会社東芝 文書読み上げ支援装置、文書読み上げ支援方法および文書読み上げ支援プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220105550A (ko) * 2021-01-20 2022-07-27 주식회사 한글과컴퓨터 문장의 스타일 정보를 유지하는 번역 기능을 제공하는 전자 장치 및 그 동작 방법

Also Published As

Publication number Publication date
KR102107447B1 (ko) 2020-06-02

Similar Documents

Publication Publication Date Title
US7668718B2 (en) Synchronized pattern recognition source data processed by manual or automatic means for creation of shared speaker-dependent speech user profile
US7860705B2 (en) Methods and apparatus for context adaptation of speech-to-speech translation systems
CN109686383B (zh) 一种语音分析方法、装置及存储介质
JP2015026057A (ja) インタラクティブキャラクター基盤の外国語学習装置及び方法
CN109448699A (zh) 语音转换文本方法、装置、计算机设备及存储介质
KR101534413B1 (ko) 상담 정보를 이용하여 상담 대화를 제공하는 방법 및 장치
KR20210079512A (ko) 외국어 학습평가장치
CN113327574A (zh) 一种语音合成方法、装置、计算机设备和存储介质
KR102020773B1 (ko) 음성합성엔진을 이용한 멀티미디어 음성인식 자동 평가시스템
JPWO2011033834A1 (ja) 音声翻訳システム、音声翻訳方法および記録媒体
CN110503956B (zh) 语音识别方法、装置、介质及电子设备
Junior et al. Coraa: a large corpus of spontaneous and prepared speech manually validated for speech recognition in brazilian portuguese
Płaza et al. Call transcription methodology for contact center systems
US11798558B2 (en) Recording medium recording program, information processing apparatus, and information processing method for transcription
KR102107447B1 (ko) 선택적 음성 모델의 적용에 기초한 번역 기능을 제공하는 텍스트 음성 변환 장치 및 그 동작 방법
KR20130126570A (ko) 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체
CN116089601A (zh) 对话摘要生成方法、装置、设备及介质
KR20160106363A (ko) 스마트 강의 시스템 및 방법
CN110895938B (zh) 语音校正系统及语音校正方法
KR102107445B1 (ko) 선택적 음성 모델의 적용이 가능한 텍스트 음성 변환 장치 및 그 동작 방법
JP2010197709A (ja) 音声認識応答方法、音声認識応答システム、及びそのプログラム
JP2003162524A (ja) 言語処理装置
NO318557B1 (no) Fremgangsmate og system for tale-til-taleomforming
NO318112B1 (no) System og fremgangsmate for tale-til-taleomforming
JP2005208483A (ja) 音声認識装置、音声認識プログラム、言語モデル生成方法、及び言語モデル生成装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant