KR20200016521A

KR20200016521A - 지능형 음성 합성 장치 및 방법

Info

Publication number: KR20200016521A
Application number: KR1020180091716A
Authority: KR
Inventors: 배지우; 전영민; 김건아
Original assignee: 주식회사 에스알유니버스
Priority date: 2018-08-07
Filing date: 2018-08-07
Publication date: 2020-02-17

Abstract

지능형 음성 합성 장치 및 방법이 개시된다. 본 발명은, 텍스트 데이터를 기초로 주변 상황 정보에 대응되는 음성 데이터를 합성한다. 본 발명에 따르면, 사용자의 감정 및 주변 상황에 맞는 음성 아바타를 작성하여 사용자의 감정을 효과적으로 전달하는 이점이 있고, 역으로 사용자가 감정을 숨기고 싶을 때, 자신의 목소리를 원하는 감정으로 합성함으로써 사용자에게 만족감을 줄 수 있다.

Description

지능형 음성 합성 장치 및 방법{Apparatus and method for synthesizing voice intenlligently}

본 발명은 지능형 음성 합성 장치 및 방법에 관한 것으로, 더욱 상세하게는 텍스트 데이터를 기초로 주변 상황 정보에 대응되는 음성 데이터를 합성하는 장치 및 방법에 관한 것이다.

근래 들어 음성 인식/합성 기능을 많은 장치에 적용하려는 노력이 이루어지고 있다. 예를 들어, 음성을 텍스트로 변환하는 음성 인식(STT) 기능을 이용하여 문자 메시지를 작성할 수 있도록 함으로써 사용자가 텍스트를 간편하게 입력할 수 있도록 한다.

기존에는 발신자가 전송한 데이터를 형태를 변형하지 않고 수신자가 받았을 뿐이다. 텍스트를 보내면 텍스트를 수신하고, 음성을 전송하면 음성만 수신하는 단순한 형태로만 구현되고 있다.

그리고, 음성 합성(TTS) 기능 또한 표준화된 음성으로만 데이터를 생성해서 사용할 수 있는 서비스로 제공되고 있어서 다양한 상황 또는 개인화된 음성 데이터를 쉽게 활용하기 서비스 측면에서 활성화되지 않고 있다.

한국공개특허 제2002-0000053호 (배한영) 2002. 1. 4. 특허문헌 1은 인터넷상의 문자 정보를 음성으로 들려주는 인터넷 사이트로서, 특허문헌 1에는 음성정보 이용 사이트에 접속하여 사용자 정보를 로그인하는 페이지(200)와 텍스트를 음성으로 변환하는 프로그램(410)과 음성변환 프로그램을 개인 컴퓨터의 메모리에 저장하고 자동실행 시키는 프로그램(400)과 사이트에 연계된 텍스트 정보 서비스 업체(500)와 이를 외부로 출력하는 스피커(700)로 구성되어, 인터넷에서 제공하는 무수한 텍스트 정보를 인터넷에 접속하여 원하는 내용이나 제목을 선택한 후 사이트의 화면에 구성된 음성변환 선택 아이콘을 작동하면(600), 텍스트 정보를 음성으로 변환하여 외부의 스피커(700)로 전달해주는 사이트로, 적용은 기존의 신문, 잡지 등의 인터넷 사이트에 접속하여 기사, 사설, 소설 등의 텍스트로 제공되는 정보를 음성으로 변환하여주는 인터넷 정보이용 사이트로, 직접 눈으로 읽어서 습득하는 정보를 소리로 들음으로 눈의 피로를 완화시키며 두가지 일을 동시에 할 수 있는 내용이 개시되어 있다.

본 발명이 이루고자 하는 기술적 과제는, 텍스트 데이터를 기초로 주변 상황 정보에 대응되는 음성 데이터를 합성하는 지능형 음성 합성 장치 및 방법을 제공하는 데 있다.

상기의 기술적 과제를 달성하기 위한 본 발명에 따른 지능형 음성 합성 장치는, 송신 단말로부터 텍스트 데이터를 제공받는 입력부; 출력부; 및 상기 입력부를 통해 상기 송신 단말로부터 제공받은 텍스트 데이터를 기초로 주변 상황 정보에 대응되는 음성 데이터를 합성하고, 합성된 음성 데이터를 상기 출력부를 통해 출력하는 합성부;를 포함한다.

상기 합성부는, 입력 데이터를 텍스트 데이터와 주변 상황 정보로 하고 출력 데이터를 음성 데이터로 하는 음성 합성 모델을 통해 상기 송신 단말로부터 제공받은 텍스트 데이터를 기초로 주변 상황 정보에 대응되는 음성 데이터를 합성할 수 있다.

복수의 음성 합성 모델을 저장하는 저장부를 더 포함하며, 상기 합성부는, 상기 저장부에 저장된 복수의 음성 합성 모델 중 상기 텍스트 데이터의 송신자에 대응되는 음성 합성 모델을 통해 상기 송신 단말로부터 제공받은 텍스트 데이터를 기초로 주변 상황 정보에 대응되는 음성 데이터를 합성할 수 있다.

상기 주변 상황 정보는, 상기 텍스트 데이터의 송신자와 수신자 사이의 관계 정보, 상기 텍스트 데이터의 전송 시점의 날씨 정보, 및 상기 텍스트 데이터의 송신자의 감정 상태 정보 중 하나일 수 있다.

상기의 기술적 과제를 달성하기 위한 본 발명에 따른 지능형 음성 합성 방법은, 지능형 음성 합성 장치의 지능형 음성 합성 방법으로서, 송신 단말로부터 텍스트 데이터를 제공받는 단계; 상기 송신 단말로부터 제공받은 텍스트 데이터를 기초로 주변 상황 정보에 대응되는 음성 데이터를 합성하는 단계; 및 합성된 음성 데이터를 출력하는 단계;를 포함한다.

상기 합성 단계는, 입력 데이터를 텍스트 데이터와 주변 상황 정보로 하고 출력 데이터를 음성 데이터로 하는 음성 합성 모델을 통해 상기 송신 단말로부터 제공받은 텍스트 데이터를 기초로 주변 상황 정보에 대응되는 음성 데이터를 합성하는 것으로 이루어질 수 있다.

상기 합성 단계는, 상기 지능형 음성 합성 장치에 저장된 복수의 음성 합성 모델 중 상기 텍스트 데이터의 송신자에 대응되는 음성 합성 모델을 통해 상기 송신 단말로부터 제공받은 텍스트 데이터를 기초로 주변 상황 정보에 대응되는 음성 데이터를 합성하는 것으로 이루어질 수 있다.

상기의 기술적 과제를 달성하기 위한 본 발명에 따른 컴퓨터 프로그램은 컴퓨터로 읽을 수 있는 기록 매체에 저장되어 상기한 방법 중 어느 하나를 컴퓨터에서 실행시킨다.

본 발명에 따른 지능형 음성 합성 장치 및 방법에 의하면, 텍스트 데이터를 기초로 주변 상황 정보에 대응되는 음성 데이터를 합성함으로써, 사용자의 감정 및 주변 상황에 맞는 음성 아바타를 작성하여 사용자의 감정을 효과적으로 전달하는 이점이 있다.

그리고, 역으로 사용자가 감정을 숨기고 싶을 때, 자신의 목소리를 원하는 감정으로 합성함으로써 사용자에게 만족감을 줄 수 있다.

또한, 음성을 녹음하지 않고 텍스트만으로 음성 전달이 가능하므로, 사용자는 자신의 생체정보를 입력하지 않더라도 텍스트를 입력하여 생동감 있는 데이터를 전달할 수 있다. 이는 특히 자신의 목소리를 녹음하는데 거부감이 있는 사용자의 만족감을 증대시킬 수 있다.

아울러, 텍스트를 입력할 수 없는 상황에서 음성 입력만으로 텍스트를 전달할 수 있으므로 사용자의 편리함을 증대시킬 수 있다.

도 1은 본 발명의 바람직한 실시예에 따른 지능형 음성 합성 장치를 설명하기 위한 블록도이다.
도 2는 도 1에 도시한 지능형 음성 합성 장치를 보다 자세히 설명하기 위한 블록도이다.
도 3은 본 발명의 바람직한 실시예에 따른 지능형 음성 합성 방법을 설명하기 위한 흐름도이다.

이하에서 첨부한 도면을 참조하여 본 발명에 따른 지능형 음성 합성 장치 및 방법의 바람직한 실시예에 대해 상세하게 설명한다.

먼저, 도 1을 참조하여 본 발명의 바람직한 실시예에 따른 지능형 음성 합성 장치에 대하여 설명한다.

도 1은 본 발명의 바람직한 실시예에 따른 지능형 음성 합성 장치를 설명하기 위한 블록도이다.

도 1을 참조하면, 본 발명의 바람직한 실시예에 따른 지능형 음성 합성 장치(100)는 통신망(300)을 통해 송신 단말(200)과 연결된다.

지능형 음성 합성 장치(100)는 송신 단말(200)로부터 제공받은 텍스트 데이터를 기초로 주변 상황 정보에 대응되는 음성 데이터를 합성한다. 여기서, 주변 상황 정보는 텍스트 데이터의 송신자와 수신자 사이의 관계 정보, 상기 텍스트 데이터의 전송 시점의 날씨 정보, 및 상기 텍스트 데이터의 송신자의 감정 상태 정보 등을 말한다.

그리고, 지능형 음성 합성 장치(100)는 합성된 음성 데이터를 출력한다.

송신 단말(200)은 송신자가 보유하는 단말로서, 수신자에게 전달하기 위한 텍스트 데이터를 통신망(300)을 통해 지능형 음성 합성 장치(100)로 제공한다. 송신자는 수신자에게 전달하기 위한 텍스트를 직접 송신 단말(200)에 텍스트로 입력하여 텍스트 데이터를 지능형 음성 합성 장치(100)로 제공할 수 있다. 또한, 송신자는 수신자에게 전달하기 위한 텍스트를 송신 단말(200)에 음성으로 입력할 수도 있다. 이 경우, 송신 단말(200)은 송신자로부터 입력받은 음성을 텍스트로 변환하여 텍스트 데이터를 지능형 음성 합성 장치(100)로 제공할 수 있다.

여기서, 송신 단말(200)은 데스크톱 컴퓨터뿐만 아니라 노트북 컴퓨터, 워크스테이션, 팜톱(palmtop) 컴퓨터, UMPC(Ultra Mobile Personal Computer), 태블릿 PC, 개인 휴대 정보 단말기(Personal Digital Assistant, PDA), 웹 패드, 스마트폰, 휴대전화 등과 같이 메모리 수단을 구비하고 마이크로 프로세서를 탑재하여 연산 능력을 갖춘 단말기로 이루어질 수 있다.

통신망(300)은 구내 정보 통신망(local area network, LAN), 도시권 통신망(metropolitan area network, MAN), 광역 통신망(wide area network, WAN), 인터넷 등을 포함하는 데이터 통신망뿐만 아니라 전화망 등을 포함할 수 있고, 유선과 무선을 가리지 않으며, 어떠한 통신 방식을 사용하더라도 상관없다.

한편, 지능형 음성 합성 장치(100)는 어플리케이션 형태로 구현되어, 수신 단말(도시하지 않음)에 설치되어 음성 합성 등의 동작을 수행할 수 있다. 즉, 송신 단말(200)은 통신망(300)을 통해 수신 단말(도시하지 않음)로 텍스트 데이터를 제공하고, 수신 단말(도시하지 않음)에 어플리케이션 형태로 설치되어 있는 지능형 음성 합성 장치(100)는 송신 단말(200)로부터 수신한 텍스트 데이터와 주변 상황 정보를 기초로 음성 데이터를 합성하고 합성된 음성 데이터를 출력할 수 있다. 또한, 지능형 음성 합성 장치(100)는 송신 단말(200)로부터 제공받은 텍스트 데이터와 주변 상황 정보를 기초로 합성된 음성 데이터를 통신망(300)을 통해 해당 수신자가 보유하는 수신 단말(도시하지 않음)로 제공할 수도 있다.

그러면, 도 2를 참조하여 본 발명의 바람직한 실시예에 따른 지능형 음성 합성 장치에 대하여 보다 자세하게 설명한다.

도 2는 도 1에 도시한 지능형 음성 합성 장치를 보다 자세히 설명하기 위한 블록도이다.

도 2를 참조하면, 지능형 음성 합성 장치(100)는 저장부(110), 입력부(130), 출력부(130), 및 합성부(170)를 포함할 수 있다.

저장부(110)는 지능형 음성 합성 장치(100)의 동작에 필요한 프로그램 및 데이터를 저장하는 역할을 수행하며, 프로그램 영역과 데이터 영역으로 구분될 수 있다. 여기서, 프로그램 영역은 지능형 음성 합성 장치(100)의 전반적인 동작을 제어하는 프로그램, 지능형 음성 합성 장치(100)를 부팅시키는 운영체제(Operating System, OS), 텍스트 데이터 저장, 음성 데이터 합성, 음성 데이터 출력 등과 같은 지능형 음성 합성 장치(100)의 동작에 필요한 응용 프로그램 등을 저장할 수 있다. 그리고, 데이터 영역은 지능형 음성 합성 장치(100)의 사용에 따라 발생하는 데이터가 저장되는 영역으로서, 텍스트 데이터, 주변 상황 정보, 복수의 음성 합성 모델, 합성된 음성 데이터 등을 저장할 수 있다.

입력부(130)는 송신 단말(200)로부터 텍스트 데이터를 제공받는다. 그리고, 입력부(130)는 제공받은 텍스트 데이터를 합성부(170)에 제공한다.

출력부(130)는 합성부(170)의 제어에 따라 합성된 음성 데이터를 출력한다. 여기서, 출력부(130)는 지능형 음성 합성 장치(100)가 수신 단말(도시하지 않음)에 어플리케이션 형태로 설치되는 경우, 수신 단말(도시하지 않음)의 오디오 출력 모듈(도시하지 않음)을 통해 합성된 음성 데이터를 출력할 수 있다. 또한, 출력부(130)는 합성된 음성 데이터를 통신망(300)을 통해 해당 수신자가 보유하는 수신 단말(도시하지 않음)로 제공할 수도 있다.

합성부(170)는 입력부(130)를 통해 송신 단말(200)로부터 제공받은 텍스트 데이터를 기초로 주변 상황 정보에 대응되는 음성 데이터를 합성한다.

여기서, 여기서, 주변 상황 정보는 텍스트 데이터의 송신자와 수신자 사이의 관계 정보, 상기 텍스트 데이터의 전송 시점의 날씨 정보, 및 상기 텍스트 데이터의 송신자의 감정 상태 정보 등을 말한다.

예컨대, 관계 정보는 친구 관계, 부모 관계, 사제 관계 등을 말하며, 텍스트 데이터로부터 관계 정보를 획득하거나, 송신자에 의해 설정되어 텍스트 데이터에 포함될 수 있다. 날씨 정보는 비가 내림, 눈이 내림, 맑음 등을 말하며, 기상 서버(도시하지 않음)로부터 송신 단말(200)의 위치와 시간 등을 고려하여 자동으로 획득하거나, 송신자에 의해 설정되어 텍스트 데이터에 포함될 수 있다. 감정 상태 정보는 슬픔, 기쁨, 분노 등을 말하며, 텍스트 데이터로부터 감정 상태 정보를 획득하거나, 송신자에 의해 설정되어 텍스트 데이터에 포함될 수 있다.

즉, 합성부(170)는 음성 합성 모델을 통해 송신 단말(200)로부터 제공받은 텍스트 데이터를 기초로 주변 상황 정보에 대응되는 음성 데이터를 합성할 수 있다. 여기서, 음성 합성 모델은 입력 데이터를 텍스트 데이터와 주변 상황 정보로 하고 출력 데이터를 음성 데이터로 하는 모델일 수 있다. 음성 합성 모델은 인공지능을 이용하여 주변 상황 정보에 적합한 음성 및 텍스트를 학습하여 생성되어 저장부(110)에 저장되어 있다.

예컨대, 주변 상황 정보가 관계 정보인 "사제 관계"이면, 텍스트 데이터를 기반으로 정중한 목소리의 음성을 합성할 수 있다. 그리고, 주변 상황 정보가 날씨 정보인 "비가 내리고 우중충한 날씨"라면, 텍스트 데이터를 기반으로 우울한 목소리의 음성을 합성할 수 있다.

이때, 합성부(170)는 저장부(110)에 저장된 복수의 음성 합성 모델 중 텍스트 데이터의 송신자에 대응되는 음성 합성 모델을 통해 송신 단말(200)로부터 제공받은 텍스트 데이터를 기초로 주변 상황 정보에 대응되는 음성 데이터를 합성할 수 있다.

그리고, 합성부(170)는 합성된 음성 데이터를 출력부(130)를 통해 출력한다. 여기서, 합성부(170)는 지능형 음성 합성 장치(100)가 수신 단말(도시하지 않음)에 어플리케이션 형태로 설치되는 경우, 출력부(130)를 거쳐 수신 단말(도시하지 않음)의 오디오 출력 모듈(도시하지 않음)을 통해 합성된 음성 데이터를 출력할 수 있다. 또한, 합성부(170)는 합성된 음성 데이터를 출력부(130)를 통해 해당 수신자가 보유하는 수신 단말(도시하지 않음)로 제공할 수도 있다.

그러면, 도 3을 참조하여 본 발명의 바람직한 실시예에 따른 지능형 음성 합성 방법에 대하여 설명한다.

도 3은 본 발명의 바람직한 실시예에 따른 지능형 음성 합성 방법을 설명하기 위한 흐름도이다.

도 3을 참조하면, 지능형 음성 합성 장치(100)는 송신 단말(200)로부터 텍스트 데이터를 제공받는다(S110). 여기서, 송신자는 수신자에게 전달하기 위한 텍스트를 직접 송신 단말(200)에 텍스트로 입력하여 텍스트 데이터를 지능형 음성 합성 장치(100)로 제공할 수 있다. 또한, 송신자는 수신자에게 전달하기 위한 텍스트를 송신 단말(200)에 음성으로 입력할 수도 있다. 이 경우, 송신 단말(200)은 송신자로부터 입력받은 음성을 텍스트로 변환하여 텍스트 데이터를 지능형 음성 합성 장치(100)로 제공할 수 있다.

그러면, 지능형 음성 합성 장치(100)는 송신 단말(200)로부터 제공받은 텍스트 데이터를 기초로 주변 상황 정보에 대응되는 음성 데이터를 합성한다(S130). 여기서, 여기서, 주변 상황 정보는 텍스트 데이터의 송신자와 수신자 사이의 관계 정보, 상기 텍스트 데이터의 전송 시점의 날씨 정보, 및 상기 텍스트 데이터의 송신자의 감정 상태 정보 등을 말한다.

즉, 지능형 음성 합성 장치(100)는 음성 합성 모델을 통해 송신 단말(200)로부터 제공받은 텍스트 데이터를 기초로 주변 상황 정보에 대응되는 음성 데이터를 합성할 수 있다. 여기서, 음성 합성 모델은 입력 데이터를 텍스트 데이터와 주변 상황 정보로 하고 출력 데이터를 음성 데이터로 하는 모델일 수 있다. 음성 합성 모델은 인공지능을 이용하여 주변 상황 정보에 적합한 음성 및 텍스트를 학습하여 생성되어 지능형 음성 합성 장치(100)에 저장되어 있다.

이때, 지능형 음성 합성 장치(100)는 저장된 복수의 음성 합성 모델 중 텍스트 데이터의 송신자에 대응되는 음성 합성 모델을 통해 송신 단말(200)로부터 제공받은 텍스트 데이터를 기초로 주변 상황 정보에 대응되는 음성 데이터를 합성할 수 있다.

이후, 지능형 음성 합성 장치(100)는 합성된 음성 데이터를 출력한다(S150). 여기서, 지능형 음성 합성 장치(100)는 지능형 음성 합성 장치(100)가 수신 단말(도시하지 않음)에 어플리케이션 형태로 설치되는 경우, 수신 단말(도시하지 않음)의 오디오 출력 모듈(도시하지 않음)을 통해 합성된 음성 데이터를 출력할 수 있다. 또한, 지능형 음성 합성 장치(100)는 합성된 음성 데이터를 통신망(300)을 통해 해당 수신자가 보유하는 수신 단말(도시하지 않음)로 제공할 수도 있다.

본 발명은 또한 컴퓨터로 읽을 수 있는 기록 매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터로 읽을 수 있는 기록 매체는 컴퓨터에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 매체의 예로는 롬(ROM), 램(RAM), 씨디-롬(CD-ROM), 자기 테이프, 플로피 디스크, 광 데이터 저장장치 등이 있다. 또한, 컴퓨터가 읽을 수 있는 기록 매체는 유무선 통신망으로 연결된 컴퓨터 장치에 분산되어 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.

이상에서 본 발명의 바람직한 실시예에 대하여 상세하게 설명하였지만 본 발명은 상술한 특정의 바람직한 실시예에 한정되지 아니하며, 다음의 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변형 실시가 가능한 것은 물론이고, 그와 같은 변경은 청구범위 기재의 범위 내에 있게 된다.

100: 지능형 음성 합성 장치,
110: 저장부, 130: 입력부,
150: 출력부, 170: 합성부,
200: 송신 단말, 300: 통신망

Claims

송신 단말로부터 텍스트 데이터를 제공받는 입력부;
출력부; 및
상기 입력부를 통해 상기 송신 단말로부터 제공받은 텍스트 데이터를 기초로 주변 상황 정보에 대응되는 음성 데이터를 합성하고, 합성된 음성 데이터를 상기 출력부를 통해 출력하는 합성부;
를 포함하는 지능형 음성 합성 장치.
제1항에서,
상기 합성부는, 입력 데이터를 텍스트 데이터와 주변 상황 정보로 하고 출력 데이터를 음성 데이터로 하는 음성 합성 모델을 통해 상기 송신 단말로부터 제공받은 텍스트 데이터를 기초로 주변 상황 정보에 대응되는 음성 데이터를 합성하는,
지능형 음성 합성 장치.
제2항에서,
복수의 음성 합성 모델을 저장하는 저장부;
를 더 포함하며,
상기 합성부는, 상기 저장부에 저장된 복수의 음성 합성 모델 중 상기 텍스트 데이터의 송신자에 대응되는 음성 합성 모델을 통해 상기 송신 단말로부터 제공받은 텍스트 데이터를 기초로 주변 상황 정보에 대응되는 음성 데이터를 합성하는,
지능형 음성 합성 장치.
제1항에서,
상기 주변 상황 정보는, 상기 텍스트 데이터의 송신자와 수신자 사이의 관계 정보, 상기 텍스트 데이터의 전송 시점의 날씨 정보, 및 상기 텍스트 데이터의 송신자의 감정 상태 정보 중 하나인,
지능형 음성 합성 장치.
지능형 음성 합성 장치의 지능형 음성 합성 방법으로서,
송신 단말로부터 텍스트 데이터를 제공받는 단계;
상기 송신 단말로부터 제공받은 텍스트 데이터를 기초로 주변 상황 정보에 대응되는 음성 데이터를 합성하는 단계; 및
합성된 음성 데이터를 출력하는 단계;
를 포함하는 지능형 음성 합성 방법.
제5항에서,
상기 합성 단계는, 입력 데이터를 텍스트 데이터와 주변 상황 정보로 하고 출력 데이터를 음성 데이터로 하는 음성 합성 모델을 통해 상기 송신 단말로부터 제공받은 텍스트 데이터를 기초로 주변 상황 정보에 대응되는 음성 데이터를 합성하는 것으로 이루어진,
지능형 음성 합성 방법.
제6항에서,
상기 합성 단계는, 상기 지능형 음성 합성 장치에 저장된 복수의 음성 합성 모델 중 상기 텍스트 데이터의 송신자에 대응되는 음성 합성 모델을 통해 상기 송신 단말로부터 제공받은 텍스트 데이터를 기초로 주변 상황 정보에 대응되는 음성 데이터를 합성하는 것으로 이루어진,
지능형 음성 합성 방법.
제5항에서,
상기 주변 상황 정보는, 상기 텍스트 데이터의 송신자와 수신자 사이의 관계 정보, 상기 텍스트 데이터의 전송 시점의 날씨 정보, 및 상기 텍스트 데이터의 송신자의 감정 상태 정보 중 하나인,
지능형 음성 합성 방법.
제5항 내지 제8항 중 어느 한 항에 기재된 지능형 음성 합성 방법을 컴퓨터에서 실행시키기 위하여 컴퓨터로 읽을 수 있는 기록 매체에 저장된 컴퓨터 프로그램.