KR20200016521A - 지능형 음성 합성 장치 및 방법 - Google Patents

지능형 음성 합성 장치 및 방법 Download PDF

Info

Publication number
KR20200016521A
KR20200016521A KR1020180091716A KR20180091716A KR20200016521A KR 20200016521 A KR20200016521 A KR 20200016521A KR 1020180091716 A KR1020180091716 A KR 1020180091716A KR 20180091716 A KR20180091716 A KR 20180091716A KR 20200016521 A KR20200016521 A KR 20200016521A
Authority
KR
South Korea
Prior art keywords
speech synthesis
text data
data
transmitting terminal
intelligent
Prior art date
Application number
KR1020180091716A
Other languages
English (en)
Inventor
배지우
전영민
김건아
Original Assignee
주식회사 에스알유니버스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 에스알유니버스 filed Critical 주식회사 에스알유니버스
Priority to KR1020180091716A priority Critical patent/KR20200016521A/ko
Publication of KR20200016521A publication Critical patent/KR20200016521A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)

Abstract

지능형 음성 합성 장치 및 방법이 개시된다. 본 발명은, 텍스트 데이터를 기초로 주변 상황 정보에 대응되는 음성 데이터를 합성한다. 본 발명에 따르면, 사용자의 감정 및 주변 상황에 맞는 음성 아바타를 작성하여 사용자의 감정을 효과적으로 전달하는 이점이 있고, 역으로 사용자가 감정을 숨기고 싶을 때, 자신의 목소리를 원하는 감정으로 합성함으로써 사용자에게 만족감을 줄 수 있다.

Description

지능형 음성 합성 장치 및 방법{Apparatus and method for synthesizing voice intenlligently}
본 발명은 지능형 음성 합성 장치 및 방법에 관한 것으로, 더욱 상세하게는 텍스트 데이터를 기초로 주변 상황 정보에 대응되는 음성 데이터를 합성하는 장치 및 방법에 관한 것이다.
근래 들어 음성 인식/합성 기능을 많은 장치에 적용하려는 노력이 이루어지고 있다. 예를 들어, 음성을 텍스트로 변환하는 음성 인식(STT) 기능을 이용하여 문자 메시지를 작성할 수 있도록 함으로써 사용자가 텍스트를 간편하게 입력할 수 있도록 한다.
기존에는 발신자가 전송한 데이터를 형태를 변형하지 않고 수신자가 받았을 뿐이다. 텍스트를 보내면 텍스트를 수신하고, 음성을 전송하면 음성만 수신하는 단순한 형태로만 구현되고 있다.
그리고, 음성 합성(TTS) 기능 또한 표준화된 음성으로만 데이터를 생성해서 사용할 수 있는 서비스로 제공되고 있어서 다양한 상황 또는 개인화된 음성 데이터를 쉽게 활용하기 서비스 측면에서 활성화되지 않고 있다.
한국공개특허 제2002-0000053호 (배한영) 2002. 1. 4. 특허문헌 1은 인터넷상의 문자 정보를 음성으로 들려주는 인터넷 사이트로서, 특허문헌 1에는 음성정보 이용 사이트에 접속하여 사용자 정보를 로그인하는 페이지(200)와 텍스트를 음성으로 변환하는 프로그램(410)과 음성변환 프로그램을 개인 컴퓨터의 메모리에 저장하고 자동실행 시키는 프로그램(400)과 사이트에 연계된 텍스트 정보 서비스 업체(500)와 이를 외부로 출력하는 스피커(700)로 구성되어, 인터넷에서 제공하는 무수한 텍스트 정보를 인터넷에 접속하여 원하는 내용이나 제목을 선택한 후 사이트의 화면에 구성된 음성변환 선택 아이콘을 작동하면(600), 텍스트 정보를 음성으로 변환하여 외부의 스피커(700)로 전달해주는 사이트로, 적용은 기존의 신문, 잡지 등의 인터넷 사이트에 접속하여 기사, 사설, 소설 등의 텍스트로 제공되는 정보를 음성으로 변환하여주는 인터넷 정보이용 사이트로, 직접 눈으로 읽어서 습득하는 정보를 소리로 들음으로 눈의 피로를 완화시키며 두가지 일을 동시에 할 수 있는 내용이 개시되어 있다.
본 발명이 이루고자 하는 기술적 과제는, 텍스트 데이터를 기초로 주변 상황 정보에 대응되는 음성 데이터를 합성하는 지능형 음성 합성 장치 및 방법을 제공하는 데 있다.
상기의 기술적 과제를 달성하기 위한 본 발명에 따른 지능형 음성 합성 장치는, 송신 단말로부터 텍스트 데이터를 제공받는 입력부; 출력부; 및 상기 입력부를 통해 상기 송신 단말로부터 제공받은 텍스트 데이터를 기초로 주변 상황 정보에 대응되는 음성 데이터를 합성하고, 합성된 음성 데이터를 상기 출력부를 통해 출력하는 합성부;를 포함한다.
상기 합성부는, 입력 데이터를 텍스트 데이터와 주변 상황 정보로 하고 출력 데이터를 음성 데이터로 하는 음성 합성 모델을 통해 상기 송신 단말로부터 제공받은 텍스트 데이터를 기초로 주변 상황 정보에 대응되는 음성 데이터를 합성할 수 있다.
복수의 음성 합성 모델을 저장하는 저장부를 더 포함하며, 상기 합성부는, 상기 저장부에 저장된 복수의 음성 합성 모델 중 상기 텍스트 데이터의 송신자에 대응되는 음성 합성 모델을 통해 상기 송신 단말로부터 제공받은 텍스트 데이터를 기초로 주변 상황 정보에 대응되는 음성 데이터를 합성할 수 있다.
상기 주변 상황 정보는, 상기 텍스트 데이터의 송신자와 수신자 사이의 관계 정보, 상기 텍스트 데이터의 전송 시점의 날씨 정보, 및 상기 텍스트 데이터의 송신자의 감정 상태 정보 중 하나일 수 있다.
상기의 기술적 과제를 달성하기 위한 본 발명에 따른 지능형 음성 합성 방법은, 지능형 음성 합성 장치의 지능형 음성 합성 방법으로서, 송신 단말로부터 텍스트 데이터를 제공받는 단계; 상기 송신 단말로부터 제공받은 텍스트 데이터를 기초로 주변 상황 정보에 대응되는 음성 데이터를 합성하는 단계; 및 합성된 음성 데이터를 출력하는 단계;를 포함한다.
상기 합성 단계는, 입력 데이터를 텍스트 데이터와 주변 상황 정보로 하고 출력 데이터를 음성 데이터로 하는 음성 합성 모델을 통해 상기 송신 단말로부터 제공받은 텍스트 데이터를 기초로 주변 상황 정보에 대응되는 음성 데이터를 합성하는 것으로 이루어질 수 있다.
상기 합성 단계는, 상기 지능형 음성 합성 장치에 저장된 복수의 음성 합성 모델 중 상기 텍스트 데이터의 송신자에 대응되는 음성 합성 모델을 통해 상기 송신 단말로부터 제공받은 텍스트 데이터를 기초로 주변 상황 정보에 대응되는 음성 데이터를 합성하는 것으로 이루어질 수 있다.
상기 주변 상황 정보는, 상기 텍스트 데이터의 송신자와 수신자 사이의 관계 정보, 상기 텍스트 데이터의 전송 시점의 날씨 정보, 및 상기 텍스트 데이터의 송신자의 감정 상태 정보 중 하나일 수 있다.
상기의 기술적 과제를 달성하기 위한 본 발명에 따른 컴퓨터 프로그램은 컴퓨터로 읽을 수 있는 기록 매체에 저장되어 상기한 방법 중 어느 하나를 컴퓨터에서 실행시킨다.
본 발명에 따른 지능형 음성 합성 장치 및 방법에 의하면, 텍스트 데이터를 기초로 주변 상황 정보에 대응되는 음성 데이터를 합성함으로써, 사용자의 감정 및 주변 상황에 맞는 음성 아바타를 작성하여 사용자의 감정을 효과적으로 전달하는 이점이 있다.
그리고, 역으로 사용자가 감정을 숨기고 싶을 때, 자신의 목소리를 원하는 감정으로 합성함으로써 사용자에게 만족감을 줄 수 있다.
또한, 음성을 녹음하지 않고 텍스트만으로 음성 전달이 가능하므로, 사용자는 자신의 생체정보를 입력하지 않더라도 텍스트를 입력하여 생동감 있는 데이터를 전달할 수 있다. 이는 특히 자신의 목소리를 녹음하는데 거부감이 있는 사용자의 만족감을 증대시킬 수 있다.
아울러, 텍스트를 입력할 수 없는 상황에서 음성 입력만으로 텍스트를 전달할 수 있으므로 사용자의 편리함을 증대시킬 수 있다.
도 1은 본 발명의 바람직한 실시예에 따른 지능형 음성 합성 장치를 설명하기 위한 블록도이다.
도 2는 도 1에 도시한 지능형 음성 합성 장치를 보다 자세히 설명하기 위한 블록도이다.
도 3은 본 발명의 바람직한 실시예에 따른 지능형 음성 합성 방법을 설명하기 위한 흐름도이다.
이하에서 첨부한 도면을 참조하여 본 발명에 따른 지능형 음성 합성 장치 및 방법의 바람직한 실시예에 대해 상세하게 설명한다.
먼저, 도 1을 참조하여 본 발명의 바람직한 실시예에 따른 지능형 음성 합성 장치에 대하여 설명한다.
도 1은 본 발명의 바람직한 실시예에 따른 지능형 음성 합성 장치를 설명하기 위한 블록도이다.
도 1을 참조하면, 본 발명의 바람직한 실시예에 따른 지능형 음성 합성 장치(100)는 통신망(300)을 통해 송신 단말(200)과 연결된다.
지능형 음성 합성 장치(100)는 송신 단말(200)로부터 제공받은 텍스트 데이터를 기초로 주변 상황 정보에 대응되는 음성 데이터를 합성한다. 여기서, 주변 상황 정보는 텍스트 데이터의 송신자와 수신자 사이의 관계 정보, 상기 텍스트 데이터의 전송 시점의 날씨 정보, 및 상기 텍스트 데이터의 송신자의 감정 상태 정보 등을 말한다.
그리고, 지능형 음성 합성 장치(100)는 합성된 음성 데이터를 출력한다.
송신 단말(200)은 송신자가 보유하는 단말로서, 수신자에게 전달하기 위한 텍스트 데이터를 통신망(300)을 통해 지능형 음성 합성 장치(100)로 제공한다. 송신자는 수신자에게 전달하기 위한 텍스트를 직접 송신 단말(200)에 텍스트로 입력하여 텍스트 데이터를 지능형 음성 합성 장치(100)로 제공할 수 있다. 또한, 송신자는 수신자에게 전달하기 위한 텍스트를 송신 단말(200)에 음성으로 입력할 수도 있다. 이 경우, 송신 단말(200)은 송신자로부터 입력받은 음성을 텍스트로 변환하여 텍스트 데이터를 지능형 음성 합성 장치(100)로 제공할 수 있다.
여기서, 송신 단말(200)은 데스크톱 컴퓨터뿐만 아니라 노트북 컴퓨터, 워크스테이션, 팜톱(palmtop) 컴퓨터, UMPC(Ultra Mobile Personal Computer), 태블릿 PC, 개인 휴대 정보 단말기(Personal Digital Assistant, PDA), 웹 패드, 스마트폰, 휴대전화 등과 같이 메모리 수단을 구비하고 마이크로 프로세서를 탑재하여 연산 능력을 갖춘 단말기로 이루어질 수 있다.
통신망(300)은 구내 정보 통신망(local area network, LAN), 도시권 통신망(metropolitan area network, MAN), 광역 통신망(wide area network, WAN), 인터넷 등을 포함하는 데이터 통신망뿐만 아니라 전화망 등을 포함할 수 있고, 유선과 무선을 가리지 않으며, 어떠한 통신 방식을 사용하더라도 상관없다.
한편, 지능형 음성 합성 장치(100)는 어플리케이션 형태로 구현되어, 수신 단말(도시하지 않음)에 설치되어 음성 합성 등의 동작을 수행할 수 있다. 즉, 송신 단말(200)은 통신망(300)을 통해 수신 단말(도시하지 않음)로 텍스트 데이터를 제공하고, 수신 단말(도시하지 않음)에 어플리케이션 형태로 설치되어 있는 지능형 음성 합성 장치(100)는 송신 단말(200)로부터 수신한 텍스트 데이터와 주변 상황 정보를 기초로 음성 데이터를 합성하고 합성된 음성 데이터를 출력할 수 있다. 또한, 지능형 음성 합성 장치(100)는 송신 단말(200)로부터 제공받은 텍스트 데이터와 주변 상황 정보를 기초로 합성된 음성 데이터를 통신망(300)을 통해 해당 수신자가 보유하는 수신 단말(도시하지 않음)로 제공할 수도 있다.
그러면, 도 2를 참조하여 본 발명의 바람직한 실시예에 따른 지능형 음성 합성 장치에 대하여 보다 자세하게 설명한다.
도 2는 도 1에 도시한 지능형 음성 합성 장치를 보다 자세히 설명하기 위한 블록도이다.
도 2를 참조하면, 지능형 음성 합성 장치(100)는 저장부(110), 입력부(130), 출력부(130), 및 합성부(170)를 포함할 수 있다.
저장부(110)는 지능형 음성 합성 장치(100)의 동작에 필요한 프로그램 및 데이터를 저장하는 역할을 수행하며, 프로그램 영역과 데이터 영역으로 구분될 수 있다. 여기서, 프로그램 영역은 지능형 음성 합성 장치(100)의 전반적인 동작을 제어하는 프로그램, 지능형 음성 합성 장치(100)를 부팅시키는 운영체제(Operating System, OS), 텍스트 데이터 저장, 음성 데이터 합성, 음성 데이터 출력 등과 같은 지능형 음성 합성 장치(100)의 동작에 필요한 응용 프로그램 등을 저장할 수 있다. 그리고, 데이터 영역은 지능형 음성 합성 장치(100)의 사용에 따라 발생하는 데이터가 저장되는 영역으로서, 텍스트 데이터, 주변 상황 정보, 복수의 음성 합성 모델, 합성된 음성 데이터 등을 저장할 수 있다.
입력부(130)는 송신 단말(200)로부터 텍스트 데이터를 제공받는다. 그리고, 입력부(130)는 제공받은 텍스트 데이터를 합성부(170)에 제공한다.
출력부(130)는 합성부(170)의 제어에 따라 합성된 음성 데이터를 출력한다. 여기서, 출력부(130)는 지능형 음성 합성 장치(100)가 수신 단말(도시하지 않음)에 어플리케이션 형태로 설치되는 경우, 수신 단말(도시하지 않음)의 오디오 출력 모듈(도시하지 않음)을 통해 합성된 음성 데이터를 출력할 수 있다. 또한, 출력부(130)는 합성된 음성 데이터를 통신망(300)을 통해 해당 수신자가 보유하는 수신 단말(도시하지 않음)로 제공할 수도 있다.
합성부(170)는 입력부(130)를 통해 송신 단말(200)로부터 제공받은 텍스트 데이터를 기초로 주변 상황 정보에 대응되는 음성 데이터를 합성한다.
여기서, 여기서, 주변 상황 정보는 텍스트 데이터의 송신자와 수신자 사이의 관계 정보, 상기 텍스트 데이터의 전송 시점의 날씨 정보, 및 상기 텍스트 데이터의 송신자의 감정 상태 정보 등을 말한다.
예컨대, 관계 정보는 친구 관계, 부모 관계, 사제 관계 등을 말하며, 텍스트 데이터로부터 관계 정보를 획득하거나, 송신자에 의해 설정되어 텍스트 데이터에 포함될 수 있다. 날씨 정보는 비가 내림, 눈이 내림, 맑음 등을 말하며, 기상 서버(도시하지 않음)로부터 송신 단말(200)의 위치와 시간 등을 고려하여 자동으로 획득하거나, 송신자에 의해 설정되어 텍스트 데이터에 포함될 수 있다. 감정 상태 정보는 슬픔, 기쁨, 분노 등을 말하며, 텍스트 데이터로부터 감정 상태 정보를 획득하거나, 송신자에 의해 설정되어 텍스트 데이터에 포함될 수 있다.
즉, 합성부(170)는 음성 합성 모델을 통해 송신 단말(200)로부터 제공받은 텍스트 데이터를 기초로 주변 상황 정보에 대응되는 음성 데이터를 합성할 수 있다. 여기서, 음성 합성 모델은 입력 데이터를 텍스트 데이터와 주변 상황 정보로 하고 출력 데이터를 음성 데이터로 하는 모델일 수 있다. 음성 합성 모델은 인공지능을 이용하여 주변 상황 정보에 적합한 음성 및 텍스트를 학습하여 생성되어 저장부(110)에 저장되어 있다.
예컨대, 주변 상황 정보가 관계 정보인 "사제 관계"이면, 텍스트 데이터를 기반으로 정중한 목소리의 음성을 합성할 수 있다. 그리고, 주변 상황 정보가 날씨 정보인 "비가 내리고 우중충한 날씨"라면, 텍스트 데이터를 기반으로 우울한 목소리의 음성을 합성할 수 있다.
이때, 합성부(170)는 저장부(110)에 저장된 복수의 음성 합성 모델 중 텍스트 데이터의 송신자에 대응되는 음성 합성 모델을 통해 송신 단말(200)로부터 제공받은 텍스트 데이터를 기초로 주변 상황 정보에 대응되는 음성 데이터를 합성할 수 있다.
그리고, 합성부(170)는 합성된 음성 데이터를 출력부(130)를 통해 출력한다. 여기서, 합성부(170)는 지능형 음성 합성 장치(100)가 수신 단말(도시하지 않음)에 어플리케이션 형태로 설치되는 경우, 출력부(130)를 거쳐 수신 단말(도시하지 않음)의 오디오 출력 모듈(도시하지 않음)을 통해 합성된 음성 데이터를 출력할 수 있다. 또한, 합성부(170)는 합성된 음성 데이터를 출력부(130)를 통해 해당 수신자가 보유하는 수신 단말(도시하지 않음)로 제공할 수도 있다.
그러면, 도 3을 참조하여 본 발명의 바람직한 실시예에 따른 지능형 음성 합성 방법에 대하여 설명한다.
도 3은 본 발명의 바람직한 실시예에 따른 지능형 음성 합성 방법을 설명하기 위한 흐름도이다.
도 3을 참조하면, 지능형 음성 합성 장치(100)는 송신 단말(200)로부터 텍스트 데이터를 제공받는다(S110). 여기서, 송신자는 수신자에게 전달하기 위한 텍스트를 직접 송신 단말(200)에 텍스트로 입력하여 텍스트 데이터를 지능형 음성 합성 장치(100)로 제공할 수 있다. 또한, 송신자는 수신자에게 전달하기 위한 텍스트를 송신 단말(200)에 음성으로 입력할 수도 있다. 이 경우, 송신 단말(200)은 송신자로부터 입력받은 음성을 텍스트로 변환하여 텍스트 데이터를 지능형 음성 합성 장치(100)로 제공할 수 있다.
그러면, 지능형 음성 합성 장치(100)는 송신 단말(200)로부터 제공받은 텍스트 데이터를 기초로 주변 상황 정보에 대응되는 음성 데이터를 합성한다(S130). 여기서, 여기서, 주변 상황 정보는 텍스트 데이터의 송신자와 수신자 사이의 관계 정보, 상기 텍스트 데이터의 전송 시점의 날씨 정보, 및 상기 텍스트 데이터의 송신자의 감정 상태 정보 등을 말한다.
즉, 지능형 음성 합성 장치(100)는 음성 합성 모델을 통해 송신 단말(200)로부터 제공받은 텍스트 데이터를 기초로 주변 상황 정보에 대응되는 음성 데이터를 합성할 수 있다. 여기서, 음성 합성 모델은 입력 데이터를 텍스트 데이터와 주변 상황 정보로 하고 출력 데이터를 음성 데이터로 하는 모델일 수 있다. 음성 합성 모델은 인공지능을 이용하여 주변 상황 정보에 적합한 음성 및 텍스트를 학습하여 생성되어 지능형 음성 합성 장치(100)에 저장되어 있다.
이때, 지능형 음성 합성 장치(100)는 저장된 복수의 음성 합성 모델 중 텍스트 데이터의 송신자에 대응되는 음성 합성 모델을 통해 송신 단말(200)로부터 제공받은 텍스트 데이터를 기초로 주변 상황 정보에 대응되는 음성 데이터를 합성할 수 있다.
이후, 지능형 음성 합성 장치(100)는 합성된 음성 데이터를 출력한다(S150). 여기서, 지능형 음성 합성 장치(100)는 지능형 음성 합성 장치(100)가 수신 단말(도시하지 않음)에 어플리케이션 형태로 설치되는 경우, 수신 단말(도시하지 않음)의 오디오 출력 모듈(도시하지 않음)을 통해 합성된 음성 데이터를 출력할 수 있다. 또한, 지능형 음성 합성 장치(100)는 합성된 음성 데이터를 통신망(300)을 통해 해당 수신자가 보유하는 수신 단말(도시하지 않음)로 제공할 수도 있다.
본 발명은 또한 컴퓨터로 읽을 수 있는 기록 매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터로 읽을 수 있는 기록 매체는 컴퓨터에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 매체의 예로는 롬(ROM), 램(RAM), 씨디-롬(CD-ROM), 자기 테이프, 플로피 디스크, 광 데이터 저장장치 등이 있다. 또한, 컴퓨터가 읽을 수 있는 기록 매체는 유무선 통신망으로 연결된 컴퓨터 장치에 분산되어 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.
이상에서 본 발명의 바람직한 실시예에 대하여 상세하게 설명하였지만 본 발명은 상술한 특정의 바람직한 실시예에 한정되지 아니하며, 다음의 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변형 실시가 가능한 것은 물론이고, 그와 같은 변경은 청구범위 기재의 범위 내에 있게 된다.
100: 지능형 음성 합성 장치,
110: 저장부, 130: 입력부,
150: 출력부, 170: 합성부,
200: 송신 단말, 300: 통신망

Claims (9)

  1. 송신 단말로부터 텍스트 데이터를 제공받는 입력부;
    출력부; 및
    상기 입력부를 통해 상기 송신 단말로부터 제공받은 텍스트 데이터를 기초로 주변 상황 정보에 대응되는 음성 데이터를 합성하고, 합성된 음성 데이터를 상기 출력부를 통해 출력하는 합성부;
    를 포함하는 지능형 음성 합성 장치.
  2. 제1항에서,
    상기 합성부는, 입력 데이터를 텍스트 데이터와 주변 상황 정보로 하고 출력 데이터를 음성 데이터로 하는 음성 합성 모델을 통해 상기 송신 단말로부터 제공받은 텍스트 데이터를 기초로 주변 상황 정보에 대응되는 음성 데이터를 합성하는,
    지능형 음성 합성 장치.
  3. 제2항에서,
    복수의 음성 합성 모델을 저장하는 저장부;
    를 더 포함하며,
    상기 합성부는, 상기 저장부에 저장된 복수의 음성 합성 모델 중 상기 텍스트 데이터의 송신자에 대응되는 음성 합성 모델을 통해 상기 송신 단말로부터 제공받은 텍스트 데이터를 기초로 주변 상황 정보에 대응되는 음성 데이터를 합성하는,
    지능형 음성 합성 장치.
  4. 제1항에서,
    상기 주변 상황 정보는, 상기 텍스트 데이터의 송신자와 수신자 사이의 관계 정보, 상기 텍스트 데이터의 전송 시점의 날씨 정보, 및 상기 텍스트 데이터의 송신자의 감정 상태 정보 중 하나인,
    지능형 음성 합성 장치.
  5. 지능형 음성 합성 장치의 지능형 음성 합성 방법으로서,
    송신 단말로부터 텍스트 데이터를 제공받는 단계;
    상기 송신 단말로부터 제공받은 텍스트 데이터를 기초로 주변 상황 정보에 대응되는 음성 데이터를 합성하는 단계; 및
    합성된 음성 데이터를 출력하는 단계;
    를 포함하는 지능형 음성 합성 방법.
  6. 제5항에서,
    상기 합성 단계는, 입력 데이터를 텍스트 데이터와 주변 상황 정보로 하고 출력 데이터를 음성 데이터로 하는 음성 합성 모델을 통해 상기 송신 단말로부터 제공받은 텍스트 데이터를 기초로 주변 상황 정보에 대응되는 음성 데이터를 합성하는 것으로 이루어진,
    지능형 음성 합성 방법.
  7. 제6항에서,
    상기 합성 단계는, 상기 지능형 음성 합성 장치에 저장된 복수의 음성 합성 모델 중 상기 텍스트 데이터의 송신자에 대응되는 음성 합성 모델을 통해 상기 송신 단말로부터 제공받은 텍스트 데이터를 기초로 주변 상황 정보에 대응되는 음성 데이터를 합성하는 것으로 이루어진,
    지능형 음성 합성 방법.
  8. 제5항에서,
    상기 주변 상황 정보는, 상기 텍스트 데이터의 송신자와 수신자 사이의 관계 정보, 상기 텍스트 데이터의 전송 시점의 날씨 정보, 및 상기 텍스트 데이터의 송신자의 감정 상태 정보 중 하나인,
    지능형 음성 합성 방법.
  9. 제5항 내지 제8항 중 어느 한 항에 기재된 지능형 음성 합성 방법을 컴퓨터에서 실행시키기 위하여 컴퓨터로 읽을 수 있는 기록 매체에 저장된 컴퓨터 프로그램.
KR1020180091716A 2018-08-07 2018-08-07 지능형 음성 합성 장치 및 방법 KR20200016521A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180091716A KR20200016521A (ko) 2018-08-07 2018-08-07 지능형 음성 합성 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180091716A KR20200016521A (ko) 2018-08-07 2018-08-07 지능형 음성 합성 장치 및 방법

Publications (1)

Publication Number Publication Date
KR20200016521A true KR20200016521A (ko) 2020-02-17

Family

ID=69670658

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180091716A KR20200016521A (ko) 2018-08-07 2018-08-07 지능형 음성 합성 장치 및 방법

Country Status (1)

Country Link
KR (1) KR20200016521A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022196880A1 (ko) * 2021-03-17 2022-09-22 주식회사 디엠랩 아바타에 기초한 인터랙션 서비스 방법 및 장치

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020000053A (ko) 2000-06-20 2002-01-04 배한영 인터넷상의 문자 정보를 음성으로 들려주는 인터넷 사이트

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020000053A (ko) 2000-06-20 2002-01-04 배한영 인터넷상의 문자 정보를 음성으로 들려주는 인터넷 사이트

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022196880A1 (ko) * 2021-03-17 2022-09-22 주식회사 디엠랩 아바타에 기초한 인터랙션 서비스 방법 및 장치

Similar Documents

Publication Publication Date Title
US9916825B2 (en) Method and system for text-to-speech synthesis
KR102582291B1 (ko) 감정 정보 기반의 음성 합성 방법 및 장치
US7693719B2 (en) Providing personalized voice font for text-to-speech applications
US9196241B2 (en) Asynchronous communications using messages recorded on handheld devices
US9542956B1 (en) Systems and methods for responding to human spoken audio
US9053096B2 (en) Language translation based on speaker-related information
CN102117614B (zh) 个性化文本语音合成和个性化语音特征提取
US20090198497A1 (en) Method and apparatus for speech synthesis of text message
CN108305626A (zh) 应用程序的语音控制方法和装置
US8811638B2 (en) Audible assistance
GB2373423A (en) Voice site personality setting
WO2013148724A1 (en) Content customization
JP2007272773A (ja) 対話型インターフェイス制御システム
CN111949784A (zh) 基于意图识别的外呼方法及装置
JP6166889B2 (ja) 対話支援装置、対話システム、対話支援方法及びプログラム
US20080162559A1 (en) Asynchronous communications regarding the subject matter of a media file stored on a handheld recording device
US20080161057A1 (en) Voice conversion in ring tones and other features for a communication device
KR20200016521A (ko) 지능형 음성 합성 장치 및 방법
KR20170093703A (ko) 메시지 증강 시스템 및 방법
KR20180089242A (ko) 챗봇에서의 출력 유형에 따라 대화 내용을 생성하기 위한 방법, 시스템 및 비일시성의 컴퓨터 판독 가능 기록 매체
KR100380829B1 (ko) 에이전트를 이용한 대화 방식 인터페이스 운영 시스템 및방법과 그 프로그램 소스를 기록한 기록 매체
KR20200016516A (ko) 개인화된 가상 음성 합성 장치 및 방법
KR101697712B1 (ko) 아바타를 이용한 음성 메시지 전송 시스템
KR20220049743A (ko) 인공지능 디바이스와 연동하여 음성 기록을 관리하는 방법, 시스템, 및 컴퓨터 판독가능한 기록 매체
US8219402B2 (en) Asynchronous receipt of information from a user

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application