KR20130051278A - 개인화된 tts 제공장치 - Google Patents

개인화된 tts 제공장치 Download PDF

Info

Publication number
KR20130051278A
KR20130051278A KR1020110116537A KR20110116537A KR20130051278A KR 20130051278 A KR20130051278 A KR 20130051278A KR 1020110116537 A KR1020110116537 A KR 1020110116537A KR 20110116537 A KR20110116537 A KR 20110116537A KR 20130051278 A KR20130051278 A KR 20130051278A
Authority
KR
South Korea
Prior art keywords
voice
unit
tts
speaker
text
Prior art date
Application number
KR1020110116537A
Other languages
English (en)
Inventor
유재훈
송정민
Original Assignee
엘지전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘지전자 주식회사 filed Critical 엘지전자 주식회사
Priority to KR1020110116537A priority Critical patent/KR20130051278A/ko
Publication of KR20130051278A publication Critical patent/KR20130051278A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephone Function (AREA)
  • Telephonic Communication Services (AREA)

Abstract

개인화된 TTS 제공장치가 개시된다. 본 발명의 TTS 출력장치는, 이동단말로 입력되는 텍스트 데이터를 TTS 변환하여, 기저장된 음성특성을 이용하여, 변환한 음성파일을 변조하고, 변조한 음성파일을 출력한다.

Description

개인화된 TTS 제공장치{APPARATUS FOR PROVIDING PERSONALIZED TTS}
본 발명은 문자음성변환(Text To Speech; 이하 'TTS'라 함) 제공장치에 관한 것으로서, 보다 상세하게는 이동단말에서 사용하기 위한 개인화된 TTS 제공장치에 관한 것이다.
일반적으로, TTS란, 문자정보 또는 기호를 음성으로 변환하여 들려주는 기술이다. TTS는, 음소에 대한 발음 데이터베이스를 구축하고 이를 연결하여 연속된 음성을 생성하는데, 이때 음성의 크기, 길이 높낮이 등을 조절하여 자연스러운 음성을 합성하는 것이 관건이다.
즉, TTS는에 문자열, 즉 문장을 음성으로 변환하는 문자-음성 변환장치로서, 크게 언어처리, 운율생성, 파형합성의 3단계로 나누어지는데, 텍스트가 입력되면 언어처리 과정에서 입력된 문서의 문법적 구조를 분석하고, 분석된 문서구조에 의해 사람이 읽는 것과 같은 운율을 생성하고, 생성된 운율에 따라 저장된 음성 DB의 기본단위를 모아 합성음을 생성하게 된다.
TTS는 대상어휘에 제한이 없으며, 일반적인 문자형태의 정보를 음성으로 변환하는 것이므로, 시스템의 구현시 음성학, 음성분석, 음성합성, 및 음성인식 기술등이 접목되어, 보다 자연스럽고 다양한 음성이 출력된다.
그러나, 이러한 종래의 TTS를 제공하는 단말은 문자메세지 등의 음성을 출력하는 경우 상대방이 누구인지 관계없이, 기설정된 항상 동일한 음성으로 출력하기 때문에, 다양한 사용자의 욕구를 만족시키지 못하는 문제점이 있었다.
이와 같은 문제점을 해결하기 위하여, 종래의 TTS를 제공하는 단말은 다양한 음성을 제공하기 위하여, 다수의 화자의 특성을 프로그램에 내장하여, 다수의 화자의 목소리를 사용자에게 제공하는 기술이 개시되어 있으나, 이 역시, 단말에서 임의로 설정한 한정된 음성만을 제공하므로, 사용자의 욕구를 해소하지 못하는 문제점이 있다.
본 발명은 상기한 바와 같은 문제점을 해결하기 위하여 제안된 것으로, 상대방의 개인별 음성에서 특성을 추출하여 저장하고, 해당 상대방으로부터 텍스트를 수신하는 경우 특화된 음성으로 해당 텍스트를 출력하는 개인화된 TTS 제공장치를 제공하는데 그 목적이 있다.
상기와 같은 목적을 달성하기 위해, 본 발명의 문자음성변환(TTS)를 위한 음성 등록장치는, 이동단말로 수신되는 화자의 음성을 샘플링하여 음성파일을 출력하는 샘플링부; 샘플링한 음성파일에서 음성특성을 추출하는 추출부; 및 상기 음성특성을 데이터베이스화하여 저장하는 저장부를 포함한다.
본 발명의 일실시예에서, 상기 샘플링부가 출력하는 음성파일은 소정의 제1형식이고, 상기 추출부는, 상기 소정의 제1형식의 음성파일을 소정의 제2형식으로 변환하여, 음성특성을 추출하는 것이 바람직하다.
본 발명의 일실시예에서, 상기 제2형식은 선스펙트럼 주파수(LSF) 형식이고, 상기 음성특성은, LSF 파라미터인 것이 바람직하다.
본 발명의 일실시예에서, 상기 이동단말의 전화번호부에, 상기 화자의 음성특성이 상기 저장부에 저장되어 있음을 알리도록 제어하는 제어부를 더 포함하는 것이 바람직하다.
또한, 상기와 같은 목적을 달성하기 위해, 본 발명의 TTS 출력장치는, 이동단말로 입력되는 텍스트 데이터를 TTS 변환하는 변환부; 상기에서 저장된 음성특성을 이용하여, 상기 변환부가 변환한 음성파일을 변조하는 변조부; 및 상기 변조부가 변조한 음성파일을 출력하는 출력부를 포함한다.
본 발명의 일실시예에서, 입력되는 텍스트 데이터를 수신하는 수신부를 더 포함하는 것이 바람직하다.
본 발명의 일실시예에서, 상기 텍스트 데이터에 대한 화자를 지정하는 화자식별부를 더 포함하는 것이 바람직하다.
본 발명의 일실시예에서, 상기 텍스트 데이터는, 해당 텍스트에 대한 화자정보를 포함하는 것이 바람직하다.
본 발명의 일실시예에서, 변조부는, 상기 화자식별부가 지정하는 화자의 음성특성을 이용하여 상기 변환부가 변환한 음성파일을 변조하는 것이 바람직하다.
본 발명의 일실시예에서, 상기 변조부는, 상기 텍스트 데이터와 관련된 정보를 이용하여 상기 저장부에 저장된 음성특성을 이용하여 상기 음성파일을 변조하는 것이 바람직하다.
본 발명의 일실시예에서, 상기 텍스트 데이터와 관련된 정보는, 상기 이동단말의 번호인 것이 바람직하다.
본 발명의 일실시예에서, 디스플레이부를 더 포함하고, 상기 변조부는 상기 저장부에 저장된 화자를 디스플레이하도록 상기 디스플레이부를 제어하여, 사용자의 입력에 의해 선택된 화자의 음성특성을 이용하여 상기 음성파일을 변조하는 것이 바람직하다.
본 발명의 일실시예에서, 상기 변환부는 상기 소정의 제2형식의 음성파일로 변환하고, 상기 변조부는, 상기 제2형식과 관련된 음성특성을 이용하여 상기 소정의 제2형식의 음성파일을 변조하여 상기 소정의 제1형식의 음성파일로 변조하는 것이 바람직하다.
상기와 같은 본 발명은, 사용자가 원하는 화자의 음성으로 텍스트 데이터를 변환한 음성을 출력함으로써, 사용자의 니즈(needs)를 충족하도록 하는 효과가 있다.
도 1은 본 발명에 따라 상대방의 개인음성을 저장하는 과정을 설명하기 위한 시스템의 구성도이다.
도 2는 도 1의 이동단말의 TTS를 위한 음성 등록장치의 일실시예 상세 구성도이다.
도 3은 이동단말에서 음성특성이 저장된 사용자를 표시한 일예시도이다.
도 4는 본 발명에 따른 TTS를 위한 음성 출력장치의 일실시예 구성도이다.
도 5는 본 발명의 TTS 출력장치에 문자메세지가 입력되는 경우를 설명하기 위한 일예시도이다.
도 6a는 본 발명의 TTS 출력장치에 뉴스 형태의 텍스트가 입력되는 경우를 설명하기 위한 일예시도이다.
도 6b는 디스플레이부가 사용자가 화자를 선택하도록 출력한 화면의 일예시도이다.
도 7은 본 발명의 TTS 출력장치가 동영상 자막의 음성출력에 적용되는 예를 설명하기 위한 일예시도이다.
도 8은 본 발명에 따른 TTS를 위한 음성 출력장치의 다른 실시예의 구성도이다.
본 발명은 다양한 변경을 가할 수 있고 여러가지 실시예를 가질 수 있는바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
어떤 구성요소가 다른 구성요소에 '연결되어' 있다거나, 또는 '접속되어' 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 '직접 연결되어' 있다거나, '직접 접속되어' 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, '포함한다' 또는 '가지다' 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명한다.
도 1은 본 발명에 따라 상대방의 개인음성을 저장하는 과정을 설명하기 위한 시스템의 구성도이다.
도면에 도시된 바와 같이, 사용자의 이동단말(1)이 상대방의 이동단말(2)로부터 기지국(3)을 통해 호(call)를 수신하는 경우를 상정하기로 하자. 호수신 도중에, 이동단말(1)은 상대방의 음성을 샘플링하여, 음성특성을 추출하고, 이를 저장한다. 구체적으로 설명하기로 한다.
그러나, 도 1은 대표적인 경우의 예를 든 것으로서, 상대방의 목소리를 상대방 이동단말(2)로부터 수신하여 등록하는 경우 뿐 아니라, 미리 녹음된 음성파일에서도 음성을 샘플링하고, 음성특성을 추출하여, 저장하는 것이 가능함은, 자명하다. 예를 들어, 호수신이 아닌 경우, 녹화된 방송파일에서 음성을 등록하는 등이 가능하다.
본 발명에서 사용되는 이동단말(1)은 휴대폰, 스마트폰(smart phone), 노트북 컴퓨터(laptop computer), 태블릿 컴퓨터(tablet computer), 디지털방송용 단말기, PDA(Personal Digital Assistants), PMP(Portable Multimedia Player), 내비게이션 등이 포함되며, 비록, 본 발명의 설명에서는 이동가능한 '이동단말'을 예를 들어 설명하겠으나, TTS 서비스를 제공할 수 있는 여하한의 단말(예를 들어, 개인용 컴퓨터(PC) 등의 고정단말)을 포함한다 할 것이다.
도 2는 도 1의 이동단말의 TTS를 위한 음성 등록장치의 일실시예 상세 구성도이다.
도면에 도시된 바와 같이, 본 발명의 TTS 등록장치는, 음성 샘플링부(10), 음성특성 추출부(20) 및 저장부(30)를 포함한다.
음성 샘플링부(10)는, 이동단말(1)로 수신되는 상대방의 음성(혹은 저장되어 있는 특정인의 음성)에서 특정 파일을 샘플링한다. 음성 샘플링부(10)가 샘플링하는 음성(혹은 저장되어 있는 특정인의 음성)은 소정의 제1형식(예를 들어, wav파일)의 음성파일이다.
음성특성 추출부(20)는 소정 제1형식(wav 파일)의 음성파일을 소정 제2형식(예를 들어, 선스펙트럼 주파수(Line Spectral Frequency; 이하, 'LSF'라 함))으로 변환하여, 변환된 음성파일에서 음성특성을 추출한다. 이때, 음성특성은, 음높이(pitch), 강도(intensity) 등을 포함하여, wav 파일을 LSF로 변환하는 경우에는, 음석특성을 LSF 파라미터를 포함한다.
다만, 위 설명에서는 음성특성 추출부(20)가 소정 제1형식(wav 파일)에서 소정 제2형식(LSF)으로 변환하여 변환된 음성파일로부터 음성특성을 추출하는 것을 예를 들어 설명하였으나, 변환 없이 음성 샘플링부(10)가 샘플링한 음성파일에서 음성특성을 추출하는 것을 배제하는 것은 아니다.
저장부(30)는, 음성특성 추출부(20)가 추출한 음성특성을 데이터베이스화하여 저장한다. 한편, 본 발명이 적용되는 이동단말(1)은, 제어부(도시되지 않음)를 구비하여, 사용자의 지정에 의해, 이동단말(1)의 전화번호부(phonebook)에 해당 사용자의 음성특성이 저장부(30)에 저장되어 있음을 알리도록 제어할 수 있다.
도 3은 이동단말에서 음성특성이 저장된 사용자를 표시한 일예시도이다.
도면에 도시된 것은 이동단말(1)의 디스플레이부(80)로서, 이동단말(2)을 통해 음성파일을 전송한 상대방이 'Karen Ross'인 경우를 설명한 것이다.
도시된 바와 같이, 'Karen Ross'의 이름 옆에, 음성특성이 저장되어 있음을 나타내는 아이콘(A)이 표시되어 있다.
위와 같이, 상대방이 음성을 호를 통해 전송하거나, 또는 소정의 파일로 음성을 저장한 경우, 본 발명의 TTS 제공을 위해, 음성을 샘플링하고, 샘플링한 음성에서 음성특성을 추출하여(이 경우, 소정 제1형식의 음성파일을 제2형식의 음성파일로 저장하고, 제2형식의 음성파일에서 파라미터를 추출하는 것이 가능함) 이를 저장할 수 있다.
이와 같은 저장되어 있는 음성특성을 이용하여, 본 발명의 TTS 제공장치는, 입력되는 텍스트를 음성으로 변환하고, 이를 음성특성을 이용하여 변조하여, 개인화된 음성을 출력하는 것이 가능하다. 이를 도면을 참조로 설명하기로 한다.
도 4는 본 발명에 따른 TTS를 위한 음성 출력장치의 일실시예 구성도로서, 이동단말(1)의 내부에 제공되는 것이다.
도면에 도시된 바와 같이, 본 발명의 음성 출력장치는, 텍스트 수신부(40), TTS 변환부(50), 음성변조부(60) 및 음성출력부(70)를 포함한다.
텍스트 수신부(40)는 이동단말(1)로 입력되는 텍스트를 수신한다. 이동단말(1)로 입력되는 텍스트는, 예를 들어, 단문 또는 장문 메시지에 포함되는 텍스트일 수도 있고, 이메일에 포함되는 텍스트일 수도 있다. 또는 사용자가 본 발명의 TTS 제공장치를 이용하여 음성으로 변환하여 듣고자 하는 텍스트일 수도 있는데, 예를 들어 책에 포함되는 텍스트일 수도 있고, 동영상의 자막에 포함되는 텍스트일 수도 있다. 즉, 텍스트 수신부(40)는, 외부에서 입력되는 메세지 등의 형태의 텍스트 외에, 어떠한 형태의 텍스트를 수신할 수도 있다.
TTS 변환부(50)는 텍스트 수신부(40)가 수신한 텍스트의 문법적 구조를 분석하고, 운율을 생성하고, 생성된 운율에 따라 저장된 음성 DB의 기본단위를 모아 음성으로 변환한다. TTS 변환부(50)의 상세한 구성에 대해서는, 이미 널리 알려진 바와 같다 할 것이므로, 상세한 설명은 생략하기로 한다.
음성변조부(60)는, 저장부(30)에 저장된 음성특성을 이용하여, TTS 변환부(50)가 변환한 음성을 변조(modulation)한다. 음성변조부(60)는, 해당 텍스트와 관련된 정보를 이용하여, 저장부(30)에 저장된 음성특성을 추출하는 것이 바람직하다. 이때 텍스트에 포함된 정보는, 이동단말(2)의 전화번호일 수 있지만, 이에 한정되는 것은 아니다. 이에 대해서는, 추후 실시예를 통하여 설명하기로 하겠다.
만약, 텍스트와 관련된 정보를 이용하여 저장부(30)에 저장된 음성특성을 추출하는 것이 불가능한 경우에는, 즉, 예를 들어, 책에 포함되는 텍스트를 소정의 화자의 음성으로 듣고자 하는 경우에는, 사용자는 디스플레이부(80)에서 직접 음성으로 듣고자 하는 화자를 선택하여, 저장부(30)에 저장된 화자의 음성특성으로 음성변조를 수행하도록 할 수 있다.
이는, 음성변조부(60)는, 사용자가 화자를 선택할 수 있도록 저장된 음성특성에 해당하는 화자를 선택할 수 있는 인터페이스를 디스플레이하도록 디스플레이부(80)를 제어할 수 있다.
사용자는 이동단말(1)의 동작 제어를 위한 입력 데이터를 발생하는 사용자 입력부(도시되지 않음)를 통해, 디스플레이부(80)에 디스플레이되는 화자를 선택할 수 있을 것이다.
한편, TTS 변환부(50)는 텍스트를 변환하여 소정의 제2형식의 음성파일로 출력할 수 있다. 예를 들어, 위의 예에서, LSF 형식으로 변환하는 것이 가능하다. 이 경우, 음성변조부(60)는 저장부에 저장된 LSF 파라미터를 이용하여 음성을 변조하고, 소정의 제1형식, 즉 wav 형식의 음성파일로 출력할 수 있다. 다만, 이에 한정되는 것은 아니다.
음성출력부(70)는 음성변조부(60)가 변조한 음성을 출력한다. 음성출력부(70)는, 바람직하게는, 이동단말(1)에 제공되는 스피커(도시되지 않음)이다.
본 발명의 TTS 출력장치는, 이동단말(1)로 입력되는 문자메세지 등의 텍스트를 발신자의 음성으로 출력할 수 있다.
도 5는 본 발명의 TTS 출력장치에 문자메세지가 입력되는 경우를 설명하기 위한 일예시도로서, 문자메세지가 표시된 이동단말(1)의 디스플레이부(80)를 도시한 것이다. TTS 등록장치에서는, 문자메세지를 전송한 상대방(도 3의 경우를 생각하기로 하자)의 음성특성을 저장하고 있다고 가정한다.
도 5와 같이 문자메세지(B)가 수신되면, 텍스트 수신부(40)는 수신된 문자메세지(B)의 텍스트를 수신하고, TTS 변환부(50)가 텍스트를 음성으로 변환한다.
이후, 음성변조부(60)는, 저장부(30)에 저장된 상대방(도 3의 예를 들면, Karen Ross)의 음성특성을 이용하여, 변환된 음성을 변조한다.
음성출력부(70)는, 음성변조부(60)가 변조한 음성을 출력한다.
본 발명의 TTS 출력장치는, 뉴스 형태 등의 텍스트가 입력되는 경우에, 이를 사용자가 원하는 화자의 음성으로 출력할 수 있다.
도 6a는 본 발명의 TTS 출력장치에 뉴스 형태의 텍스트가 입력되는 경우를 설명하기 위한 일예시도로서, 뉴스 형태의 텍스트가 표시된 이동단말(1)의 디스플레이부(80)를 도시한 것이다.
도면에 도시된 바와 같이, 이동단말(1)이 텍스트로 구성되는 뉴스를 수신하여 디스플레이부(80)에 표시되고, 사용자가 사용자 입력부(도시되지 않음)를 이용하여 해당 뉴스를 특정 화자의 음성으로 듣기를 원하는 경우에는(이때, 이동단말(1)에 구비되는 제어부(도시되지 않음)는 해당 텍스트 형식의 뉴스를 음성으로 듣기를 원하는지를 사용자에게 문의할 수 있다), 텍스트 수신부(40)는 해당 뉴스의 텍스트를 수신한다.
TTS 변환부(50)는 해당 텍스트를 음성으로 변환하고, 음성변조부(60)는, 저장부(30)에 음성특성이 저장된 화자를 디스플레이부(80)가 사용자에게 디스플레이하도록 한다. 도 6b는 음성변조부(60)의 제어에 의해, 디스플레이부(80)가 사용자가 화자를 선택하도록 출력한 화면의 일예시도이다. 도 6b와 같이 제공되는 디스플레이에서, 사용자의 입력에 의해 선택된 화자의 음성특성을 이용하여 TTS 변환부(50)가 변환한 음성을 변조한다
마지막으로, 음성출력부(70)는 음성변조부(60)가 변조한 음성을 출력한다.
한편, 본 발명의 TTS 출력장치는, 텍스트 형태의 책을 동화구연지도사의 목소리로 출력할 수도 있다.
즉, 부모가 동화책을 읽어주는 대신, 이동단말(1)에 저장된 텍스트 형태의 책을 원하는 화자의 목소리로 음성으로 출력하는 것이 가능하다.
이를 위하여, 텍스트 수신부(40)는 해당 책의 텍스트를 수신하여, TTS 변환부(50)는 해당 텍스트를 음성으로 변환하고, 음성변조부(60)는, 저장부(30)에 음성특성이 저장된 화자를 디스플레이부(80)가 사용자에게 도 6b와 같이 디스플레이하도록 한다. 도 6b와 같이 제공되는 디스플레이에서, 사용자의 입력에 의해 선택된 화자의 음성특성을 이용하여 TTS 변환부(50)가 변환한 음성을 변조하고, 음성출력부(70)는 음성변조부(60)가 변조한 음성을 출력할 수 있을 것이다.
이와 같은 본 발명의 TTS 제공장치는, 예를 들어, 동영상과 접목하여, 동영상 자막을 TTS 합성하여 사용자에게 화자의 목소리로 제공할 수도 있다. 이하에서는, 이와 관련한 실시예를 도면을 참조로 설명하기로 한다.
도 7은 본 발명의 TTS 출력장치가 동영상 자막의 음성출력에 적용되는 예를 설명하기 위한 일예시도이다.
이동단말(1)의 디스플레이부(80)에 도면에 도시된 바와 같이 동영상(예를 들어, 영화)이 표시되는 경우, 본 발명의 일실시예에 의하면, 동영상에 제공되는 텍스트 형식의 자막(a, b)을 음성으로 변환하여, 해당 화자(a 자막에 대해서는 A화자, b 자막에 대해서는 B화자가 말하는 것으로 설정함)의 목소리로 변환하여 출력하는 것이 바람직하다. 이를 위해서는, 본 실시예에서는 화자의 인식을 위한 화자식별부를 더 포함하는 것이 바람직하다. 이를 도면을 참조로 설명하기로 하겠다.
도 8은 본 발명에 따른 TTS를 위한 음성 출력장치의 다른 실시예의 구성도이다.
도면에 도시된 바와 같이, 본 발명의 TTS 출력장치는, 텍스트 수신부(40), TTS 변환부(50), 음성변조부(60), 음성출력부(70) 및 화자식별부(80)를 포함한다. 텍스트 수신부(40), TTS 변환부(50), 음성변조부(60) 및 음성출력부(70)의 구성에 대해서는 이미 도 4를 참조로 설명한 바와 같으므로, 이하에서는 화자식별부(80)를 중점으로 하여 본 발명의 일실시예에 따른 TTS 출력장치를 설명하기로 한다. 이미 도 2와 같은 TTS를 위한 음성 등록장치에 동영상에 출연하는 화자(즉, 배우)의 음성을 등록하여 놓은 상태인 것은 자명하다.
도 7과 같은 동영상 자막을 TTS로 제공하는 본 발명의 TTS 출력장치는, 텍스트 수신부(40)는 동영상에 제공되는 자막을 텍스트 형태로 수신한다. 본 실시예에서, 자막과 관련한 텍스트 데이터는 화자와 관련된 정보(화자정보)를 포함하는 것이 바람직하다.
즉, 도 7과 같이 디스플레이부(80)에 디스플레이되는 자막(a, b)은, 디스플레이부(80)에는 텍스트만이 표시되지만, 일반적으로 이러한 자막 역시 파일형태로 저장되는 것이므로, 해당 자막(a, b)에 화자의 정보를 포함하도록 할 수 있을 것이다.
화자식별부(80)는, 이러한 텍스트 데이터에 포함되는 화자정보를 확인하여, TTS 변환부(50)가 해당 텍스트 데이터를 변환한 음성파일에 대한 화자를 지정한다. 음성변조부(60)는 화자식별부(80)에 의해 지정된 화자의 LSF 파라미터를 이용하여 음성을 변조하고, 소정의 제1형식, 즉 wav 형식의 음성파일로 출력한다.
한편, 본 발명의 실시예들은 컴퓨터로 판독 가능한 기록매체에 컴퓨터가 읽어들일 수 있는 프로그램 코드를 기록하여 구현하는 것이 가능하다. 본 발명의 실시예들이 소프트웨어를 이용하여 실행되는 경우, 본 발명의 구성수단들은 필요한 작업을 실행하는 코드 세그먼트들이다. 또한, 프로그램 또는 코드 세그먼트들은 컴퓨터의 프로세서로 판독 가능한 매체에 저장되거나 전송 매체 또는 통신망을 통해 반송파와 결합된 컴퓨터 데이터 신호로 전송될 수 있다.
컴퓨터로 판독 가능한 기록매체에는 컴퓨터 시스템이 읽어들일 수 있는 데이터를 저장하는 모든 종류의 기록장치가 포함될 수 있다. 예컨대, 컴퓨터 판독가능 기록매체에는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광데이터 저장장치 등이 포함될 수 있다. 또한, 네트워크로 연결된 컴퓨터 시스템에 컴퓨터 판독가능 기록매체를 분산배치하여 컴퓨터가 읽어들일 수 있는 코드가 분산 방식으로 저장되고 실행되도록 할 수 있다.
이상에서 본 발명에 따른 실시예들이 설명되었으나, 이는 예시적인 것에 불과하며, 당해 분야에서 통상적 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 범위의 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 다음의 특허청구범위에 의해서 정해져야 할 것이다.
1, 2: 이동단말 3: 기지국
10: 음성 샘플링부 20: 음성특성 추출부
30: 저장부 40: 텍스트 수신부
50: TTS 변환부 60: 음성변조부
70: 음성출력부 80: 화자식별부

Claims (13)

  1. 이동단말로 수신되는 화자의 음성을 샘플링하여 음성파일을 출력하는 샘플링부;
    샘플링한 음성파일에서 음성특성을 추출하는 추출부; 및
    상기 음성특성을 데이터베이스화하여 저장하는 저장부를 포함하는 문자음성변환(TTS)를 위한 음성 등록장치.
  2. 제1항에 있어서, 상기 샘플링부가 출력하는 음성파일은 소정의 제1형식이고, 상기 추출부는, 상기 소정의 제1형식의 음성파일을 소정의 제2형식으로 변환하여, 음성특성을 추출하는 TTS를 위한 음성 등록장치.
  3. 제1항에 있어서, 상기 제2형식은 선스펙트럼 주파수(LSF) 형식이고, 상기 음성특성은, LSF 파라미터인 TTS를 위한 음성 등록장치.
  4. 제1항에 있어서, 상기 이동단말의 전화번호부에, 상기 화자의 음성특성이 상기 저장부에 저장되어 있음을 알리도록 제어하는 제어부를 더 포함하는 TTS를 위한 음성 등록장치.
  5. 이동단말로 입력되는 텍스트 데이터를 TTS 변환하는 변환부;
    제1항 내지 제4항 중 어느 한 항에서 저장된 음성특성을 이용하여, 상기 변환부가 변환한 음성파일을 변조하는 변조부; 및
    상기 변조부가 변조한 음성파일을 출력하는 출력부를 포함하는 TTS 출력장치.
  6. 제5항에 있어서, 입력되는 텍스트 데이터를 수신하는 수신부를 더 포함하는 TTS 출력장치.
  7. 제5항에 있어서, 상기 텍스트 데이터에 대한 화자를 지정하는 화자식별부를 더 포함하는 TTS 출력장치.
  8. 제7항에 있어서, 상기 텍스트 데이터는, 해당 텍스트에 대한 화자정보를 포함하는 TTS 출력장치.
  9. 제8항에 있어서, 상기 변조부는, 상기 화자식별부가 지정하는 화자의 음성특성을 이용하여 상기 변환부가 변환한 음성파일을 변조하는 TTS 출력장치.
  10. 제5항에 있어서, 상기 변조부는, 상기 텍스트 데이터와 관련된 정보를 이용하여 상기 저장부에 저장된 음성특성을 이용하여 상기 음성파일을 변조하는 TTS 출력장치.
  11. 제10항에 있어서, 상기 텍스트 데이터와 관련된 정보는, 상기 이동단말의 번호인 TTS 출력장치.
  12. 제5항에 있어서, 디스플레이부를 더 포함하고, 상기 변조부는 상기 저장부에 저장된 화자를 디스플레이하도록 상기 디스플레이부를 제어하여, 사용자의 입력에 의해 선택된 화자의 음성특성을 이용하여 상기 음성파일을 변조하는 TTS 출력장치.
  13. 제5항에 있어서, 상기 변환부는, 상기 소정의 제2형식의 음성파일로 변환하고, 상기 변조부는, 상기 제2형식과 관련된 음성특성을 이용하여 상기 소정의 제2형식의 음성파일을 변조하여 상기 소정의 제1형식의 음성파일로 변조하는 TTS 출력장치.



KR1020110116537A 2011-11-09 2011-11-09 개인화된 tts 제공장치 KR20130051278A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020110116537A KR20130051278A (ko) 2011-11-09 2011-11-09 개인화된 tts 제공장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020110116537A KR20130051278A (ko) 2011-11-09 2011-11-09 개인화된 tts 제공장치

Publications (1)

Publication Number Publication Date
KR20130051278A true KR20130051278A (ko) 2013-05-20

Family

ID=48661330

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020110116537A KR20130051278A (ko) 2011-11-09 2011-11-09 개인화된 tts 제공장치

Country Status (1)

Country Link
KR (1) KR20130051278A (ko)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190087353A (ko) 2019-07-05 2019-07-24 엘지전자 주식회사 음성 인식 검증 장치 및 방법
KR20190100095A (ko) 2019-08-08 2019-08-28 엘지전자 주식회사 음성 처리 방법 및 음성 처리 장치
KR102020773B1 (ko) * 2019-04-04 2019-11-04 미디어젠(주) 음성합성엔진을 이용한 멀티미디어 음성인식 자동 평가시스템
KR20210121812A (ko) 2020-03-31 2021-10-08 (주)에듀윌 텍스트 편집기 프로그램, 및 이와 개인화된 tts 서버를 이용한 학습 서비스 제공 방법
US11763799B2 (en) 2020-11-12 2023-09-19 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method thereof

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102020773B1 (ko) * 2019-04-04 2019-11-04 미디어젠(주) 음성합성엔진을 이용한 멀티미디어 음성인식 자동 평가시스템
WO2020204256A1 (ko) * 2019-04-04 2020-10-08 미디어젠 주식회사 음성합성엔진을 이용한 멀티미디어 음성인식 자동 평가시스템
KR20190087353A (ko) 2019-07-05 2019-07-24 엘지전자 주식회사 음성 인식 검증 장치 및 방법
US11205417B2 (en) 2019-07-05 2021-12-21 Lg Electronics Inc. Apparatus and method for inspecting speech recognition
KR20190100095A (ko) 2019-08-08 2019-08-28 엘지전자 주식회사 음성 처리 방법 및 음성 처리 장치
US11030991B2 (en) 2019-08-08 2021-06-08 Lg Electronics Inc. Method and device for speech processing
KR20210121812A (ko) 2020-03-31 2021-10-08 (주)에듀윌 텍스트 편집기 프로그램, 및 이와 개인화된 tts 서버를 이용한 학습 서비스 제공 방법
KR20220035899A (ko) 2020-03-31 2022-03-22 (주)에듀윌 텍스트 편집기 프로그램과 개인화된 tts 서버를 이용한 학습 서비스 제공 방법
US11763799B2 (en) 2020-11-12 2023-09-19 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method thereof

Similar Documents

Publication Publication Date Title
KR101796429B1 (ko) 단말 디바이스, 정보 제공 시스템, 정보 제시 방법, 및 정보 제공 방법
JP6159048B1 (ja) 情報管理システムおよび端末装置
US8655659B2 (en) Personalized text-to-speech synthesis and personalized speech feature extraction
CN110970014B (zh) 语音转换、文件生成、播音、语音处理方法、设备及介质
US11586831B2 (en) Speech translation method electronic device and computer-readable storage medium using SEQ2SEQ for determining alternative translated speech segments
KR101796428B1 (ko) 정보 관리 시스템 및 정보 관리 방법
KR20130051278A (ko) 개인화된 tts 제공장치
KR20070026452A (ko) 음성 인터랙티브 메시징을 위한 방법 및 장치
CN104078038A (zh) 一种页面内容朗读方法和装置
CN110379406B (zh) 语音评论转换方法、系统、介质和电子设备
JP3473204B2 (ja) 翻訳装置及び携帯端末装置
JPWO2014141413A1 (ja) 情報処理装置、出力方法およびプログラム
JP6172770B2 (ja) 要約筆記支援システム、情報配信装置、要約筆記支援方法、及びプログラム
JP6596903B2 (ja) 情報提供システムおよび情報提供方法
JP7331645B2 (ja) 情報提供方法および通信システム
KR20090028151A (ko) 본인 음성 기반의 tts 서비스 제공 장치와 시스템 및 그방법
JP6766981B2 (ja) 放送システム、端末装置、放送方法、端末装置の動作方法、および、プログラム
JP7087745B2 (ja) 端末装置、情報提供システム、端末装置の動作方法および情報提供方法
KR20180068655A (ko) 음성 신호에 기초한 문자 생성 장치 및 방법
JPH10224520A (ja) マルチメディア公衆電話システム
KR20230117943A (ko) 자기주도 암기학습 장치 및 그 방법
JP2018128607A (ja) 音声処理方法および音声処理装置
KR101982501B1 (ko) 정간보 악보 변환 장치, 그리고 이를 이용한 정간보 악보 관리 시스템 및 방법
JP2020036244A (ja) 情報提供方法、端末装置の動作方法、情報提供システムおよび端末装置
KR20100107672A (ko) 시각장애인용 음향신호장치 및 그 관리방법

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E601 Decision to refuse application