KR20210121812A

KR20210121812A - 텍스트 편집기 프로그램, 및 이와 개인화된 tts 서버를 이용한 학습 서비스 제공 방법

Info

Publication number: KR20210121812A
Application number: KR1020200039141A
Authority: KR
Inventors: 한광일
Original assignee: (주)에듀윌
Priority date: 2020-03-31
Filing date: 2020-03-31
Publication date: 2021-10-08
Also published as: KR20220035899A

Abstract

텍스트 편집기 프로그램을 실행하는 사용자 컴퓨팅 장치와 TTS 서버를 이용하여 TTS-기반 학습 서비스를 제공하는 방법은 상기 텍스트 편집기 프로그램이 텍스트, 듣고싶은 목소리를 갖는 사람의 이름, 및 상기 텍스트에 상응하는 음성 신호의 처리 방법을 수신하는 단계와, 상기 텍스트 편집기 프로그램이 상기 텍스트, 상기 이름, 및 상기 처리 방법을 상기 TTS 서버로 전송하는 단계와, 상기 TTS 서버에 설치된 TTS 엔진들 중에서 상기 이름에 매칭되는 TTS 엔진이 선택되면, 선택된 TTS 엔진이 상기 이름에 해당하는 상기 목소리를 이용하여 상기 텍스트를 상기 음성 신호로 변환하는 단계와, 상기 TTS 서버가 상기 음성 신호를 상기 텍스트 편집기 프로그램으로 실시간으로 스트리밍하는 동작과 상기 음성 신호에 해당하는 음성 파일을 생성하여 저장하는 동작 중에서 어느 하나를 상기 처리 방법에 따라 수행하는 단계를 포함한다.

Description

텍스트 편집기 프로그램, 및 이와 개인화된 TTS 서버를 이용한 학습 서비스 제공 방법{TEXT EDITOR PROGRAM, AND METHOD FOR PROVIDING LEARNING SERVICE USING THE TEXT EDITOR PROGRAM AND PERSONALIZED TEXT TO SPEECH SERVER}

본 발명은 텍스트 음성 변환(Text to Speech(TTS)) 기술에 관한 것으로, 특히 사용자가 듣고싶은 목소리로 상기 사용자가 입력한 텍스트를 음성 신호로 변환할 수 있는 TTS 학습 서버와, 상기 음성 신호를 이용한 학습 서비스를 제공하는 텍스트 편집기 프로그램, 및 상기 TTS 학습 서버와 상기 텍스트 편집기 프로그램을 이용하여 개인화된 TTS 서비스를 제공하는 방법에 관한 것이다.

텍스트 음성 변환(TTS)은 텍스트를 음성으로 읽어주는 기술 또는 컴퓨터 프로그램을 의미한다.

컴퓨터 프로그램을 통해 텍스트를 사람의 목소리로 읽어주는 것이므로, 사람이 없어도 거의 모든 단어와 문장을 읽어준다. 그러나, 사전녹음된 목소리 자료를 기반으로 텍스트를 읽어주는 경우 억양이 자연스럽지 못하다는 단점이 있다.

공개특허공보: 공개번호 10-2013-0051278 (2013년05월20일 공개) 공개특허공보: 공개번호 10-2019-0094315 (2019년08월13일 공개) 등록특허공보: 등록번호 10-1040585 (2011년06월10일 공고)

본 발명이 이루고자 하는 기술적인 과제는 사람들 중에서 듣고싶은 사람의 목소리로 학습하고 하는 텍스트를 음성 신호로 변환하고, 상기 음성 신호를 실시간으로 스트리밍하여 재생하거나 상기 음성 신호에 해당하는 음성 파일을 생성하여 저장할 수 있는 TTS 서버를 이용한 학습 서비스 제공 방법을 제공하는 것이다.

본 발명이 이루고자 하는 기술적인 과제는 상기 학습 서비스 제공 방법을 수행할 수 있는 TTS-기반 학습 서버를 제공하는 것이다.

본 발명이 이루고자 하는 기술적인 과제는 상기 TTS-기반 학습 서버로 텍스트 입력 방법, 듣고싶은 목소리를 갖는 사람의 이름, 및 재생 방법을 제공하는 매체에 저장된 텍스트 편집기 프로그램을 제공하는 것이다.

본 발명에 따른 텍스트 편집기 프로그램을 실행하는 사용자 컴퓨팅 장치와 TTS(Text to Speech) 서버를 이용하여 TTS-기반 학습 서비스를 제공하는 방법은 상기 텍스트 편집기 프로그램이 텍스트, 듣고싶은 목소리를 갖는 사람의 이름, 및 상기 텍스트에 상응하는 음성 신호의 처리 방법을 수신하는 단계와, 상기 텍스트 편집기 프로그램이 상기 텍스트, 상기 이름, 및 상기 처리 방법을 상기 TTS 서버로 전송하는 단계와, 상기 TTS 서버에 설치된 TTS 엔진들 중에서 상기 이름에 매칭되는 TTS 엔진이 선택되면, 선택된 TTS 엔진이 상기 이름에 해당하는 상기 목소리를 이용하여 상기 텍스트를 상기 음성 신호로 변환하는 단계와, 상기 TTS 서버가 상기 음성 신호를 상기 텍스트 편집기 프로그램으로 실시간으로 스트리밍하는 동작과 상기 음성 신호에 해당하는 음성 파일을 생성하여 저장하는 동작 중에서 어느 하나를 상기 처리 방법에 따라 수행하는 단계를 포함한다.

본 발명에 따른 TS-기반 학습 서버는 각각이 서로 다른 사람들 각각의 목소리를 이용하여 TTS를 수행하는 복수개의 TTS 엔진들과, 상기 복수개의 TTS 엔진들 각각을 제어하는 프로세서를 포함하고, 상기 프로세서는 사용자 컴퓨팅 장치에서 실행되는 텍스트 편집기 프로그램으로부터 텍스트, 상기 사람들 중에서 사용자가 듣고싶은 목소리를 갖는 사람의 이름, 및 상기 텍스트에 상응하는 음성 신호의 처리 방법을 수신하고, 상기 복수개의 TTS 엔진들 중에서 상기 이름에 매칭되는 TTS 엔진을 선택하고, 상기 이름에 매칭되는 TTS 엔진은 상기 이름에 해당하는 상기 목소리를 이용하여 상기 텍스트를 상기 음성 신호로 변환하고, 상기 프로세서는 상기 음성 신호를 상기 텍스트 편집기 프로그램으로 실시간으로 스트리밍하는 동작과 상기 음성 신호에 해당하는 음성 파일을 생성하여 저장하는 동작 중에서 어느 하나를 상기 처리 방법에 따라 수행한다.

본 발명에 따라 하드웨어와 결합되어 TTS(Text to Speech) 서비스를 제공받기 위해 저장 매체에 저장된 텍스트 편집기 프로그램은 직접 입력 방식과 간접 입력 방식 중에서 어느 하나를 통해 입력된 텍스트를 수신하는 단계와, 사람들의 이름들 중에서 듣고싶은 목소리를 갖는 사람의 이름을 수신하는 단계와, 미리 듣기를 위해 상기 이름을 상기 TTS 서비스를 제공하는 TTS 서버로 전송하는 단계와, 상기 이름을 갖는 사람의 목소리에 해당하는 샘플 음성 신호를 상기 TTS 서버로부터 수신하여 음성 출력 장치로 전송하는 단계와, 상기 텍스트에 상응하는 음성 신호를 상기 TTS 서버로부터 실시간으로 전송받을지 상기 음성 신호에 해당하는 음성 파일을 생성하여 상기 TTS 서버에 의해 액세스가능한 데이터베이스에 저장할지를 나타내는 음성 신호 처리 방법을 수신하는 단계와, 상기 텍스트, 상기 이름, 및 상기 음성 신호 처리 방법을 상기 TTS 서버로 전송하는 단계와, 상기 음성 신호 처리 방법이 상기 음성 신호를 상기 TTS 서버로부터 실시간으로 전송받음을 나타낼 때, 상기 텍스트에 상응하는 상기 음성 신호를 상기 TTS 서버로부터 실시간으로 수신하여 상기 음성 출력 장치로 전송하는 단계와, 상기 음성 신호 처리 방법이 상기 음성 파일을 생성하여 상기 데이터베이스에 저장함을 나타낼 때, 상기 음성 파일을 상기 데이터베이스로부터 다운로드하기 위해 음성 파일 요청 신호를 상기 TTS 서버로 전송한다.

본 발명의 실시 예에 따른 TTS-기반 학습 서비스를 제공하는 방법은 사람들 중에서 듣고싶은 사람의 목소리로 학습하고 하는 텍스트를 음성 신호로 변환하고, 상기 음성 신호를 실시간으로 스트리밍하여 음성으로 재생하거나 상기 음성 신호에 해당하는 음성 파일을 생성하여 저장할 수 있는 효과가 있다.

본 발명의 실시 예에 따른 TTS-기반 학습 서버는 TTS-기반 학습 서비스를 제공할 수 있고, 본 발명의 실시 예에 따른 저장 매체에 저장된 텍스트 편집기 프로그램은 상기 TTS-기반 학습 서버로 텍스트 입력 방법, 듣고싶은 목소리를 갖는 사람의 이름, 및 재생 방법을 제공할 수 있다.

본 발명의 상세한 설명에서 인용되는 도면을 보다 충분히 이해하기 위하여 각 도면의 상세한 설명이 제공된다.
도 1은 본 발명에 따른 TTS-기반 학습 서비스를 제공하는 TTS-기반 학습 서비스 제공 시스템의 블록도이다.
도 2는 본 발명에 따른 텍스트 편집기 프로그램의 사용자 입력 화면의 실시 예이다.
도 3은 본 발명에 따른 텍스트 편집기 프로그램의 검색 및 재생 화면의 실시 예이다.
도 4는 도 1에 도시된 TTS-기반 학습 서비스 제공 시스템의 동작을 설명하는 플로우차트이다.
도 5와 도 6은 도 1에 도시된 TTS-기반 학습 서비스 제공 시스템의 동작을 구체적으로 설명하는 플로우차트이다.

도 1은 본 발명에 따른 TTS-기반 학습 서비스를 제공하는 TTS-기반 학습 서비스 제공 시스템의 블록도이다.

도 1을 참조하면, TTS(Text to Speech)-기반 학습 서비스 제공 시스템(100)은 사용자 컴퓨팅 장치들(210과 220)과 TTS 서버(또는 TS-기반 학습 서버; 300)를 포함하고, TTS 서버(300)에 의해 액세스가능한 데이터베이스들(410과 420)을 더 포함한다.

각 사용자 컴퓨팅 장치(210과 220)는 PC(personal computer) 또는 모바일 장치일 수 있다. 상기 모바일 장치는 스마트폰, PDA(personal digital assistant), 랩탑(laptop) 컴퓨터, 또는 모바일 인터넷 장치(mobile internet device(MID))일 수 있으나 이에 한정되는 것은 아니다.

제1사용자 컴퓨팅 장치(210)는 입력장치(211), 프로세서(212), 디스플레이 장치(214), 음성 출력장치(215), 및 송수신 장치를 포함한다.

입력장치(211)는 제1사용자에 의해 입력된 정보(예를 들면, 기호, 도형, 문자, 또는 그림 등) 또는 명령을 수신하여 프로세서(212)로 전달하고, 키보드 또는 터치패드 등일 수 있다.

프로세서(212)는 본 발명에 따른 텍스트 편집기 프로그램(213)를 실행할 수 있고, 입력장치(211), 디스플레이 장치(214), 음성 출력장치(215), 및 송수신 장치를 제어한다.

디스플레이 장치(214)는 프로세서(212) 또는 텍스트 편집기 프로그램(213)에 의해 제공되는 정보(예를 들면, 도 2의 230과 도 3의 240)를 수신하여 표시할 수 있고, 모니터, 터치패드, 또는 터치스크린 등 일 수 있다.

음성 출력장치(215)는 프로세서(212) 또는 텍스트 편집기 프로그램(213)로부터 출력된 음성 신호를 음성으로 변환할 수 있는 장치로서, 이어폰으로 음성 신호를 전달할 수 있는 장치 또는 스피커일 수 있다.

송수신 장치는 구성(212 또는 213)으로부터 출력된 정보를 TTS 서버(300)로 전송하거나 TTS 서버(300)로부터 전송된 정보를 수신한다. 여기서 정보는 신호 또는 데이터일 수 있다.

제2사용자 컴퓨팅 장치(220)는 입력장치(221), 프로세서(222), 디스플레이 장치(224), 음성 출력장치(225), 및 송수신 장치를 포함한다.

입력장치(221)는 제2사용자에 의해 입력된 정보(예를 들면, 기호, 도형, 문자, 또는 그림 등) 또는 명령을 수신하여 프로세서(222)로 전달하고, 키보드 또는 터치패드 등일 수 있다.

프로세서(222)는 본 발명에 따른 텍스트 편집기 프로그램(223)를 실행할 수 있고, 입력장치(221), 디스플레이 장치(224), 음성 출력장치(225), 및 송수신 장치를 제어한다.

디스플레이 장치(224)는 프로세서(222) 또는 텍스트 편집기 프로그램(223)에 의해 제공되는 정보((예를 들면, 도 2의 230과 도 3의 240)를 수신하여 표시할 수 있고, 모니터, 터치패드, 또는 터치스크린 등 일 수 있다.

음성 출력장치(225)는 프로세서(222) 또는 텍스트 편집기 프로그램(223)로부터 출력된 음성 신호를 음성으로 변환할 수 있는 장치로서, 이어폰으로 음성 신호를 전달할 수 있는 장치 또는 스피커일 수 있다.

송수신 장치는 구성(222 또는 223)으로부터 출력된 정보를 TTS 서버(300) 전송하거나 TTS 서버(300)로부터 전송된 정보를 수신한다.

각 프로세서(212과 222)는 CPU(central processing unit), GPGPU(General-Purpose computing on Graphics Processing Units) 또는 애플리케이션 프로세서(application processor)일 수 있다.

각 텍스트 편집기 프로그램(213과 223)은 소프트웨어로서 모바일 애플리케이션(mobile application, 이를 간단히 '모바일 앱'이라 한다.) 또는 웹 애플리케이션(web application, 이를 간단히 '웹 앱'이라 한다.)일 수 있다. 각 텍스트 편집기 프로그램(213과 223)의 구조와 기능은 서로 동일하다고 가정한다. 각 텍스트 편집기 프로그램(213과 223)은 하드웨어(212와 222)와 결합되어 TTS 서버(300)로 학습 서비스 제공 요청을 전송하고, TTS 서버(300)로부터 제공되는 학습 서비스(예를 들면, VS 또는 VI)를 제공받을 수 있다.

TTS 서버(300)는 복수개의 TTS 엔진들(310~340), 및 프로세서(350)를 포함한다. 각 TTS 엔진(310~340)은 모델(model)로 선정된 각 사람의 목소리를 스스로 학습하고 학습의 결과를 이용하여 입력된 텍스트(ST 또는 TI)를 음성 신호(GV 또는 VS)로 변환할 수 있다. 텍스트란 사람들이 읽을 수 있는 일련의 글자와, ASCII와 같이 컴퓨터가 읽을 수 있는 형식으로 바꿀 수 있는 단어들을 말한다.

각 TTS 엔진(310~340)은 인공지능(artificial intelligence 또는 machine intelligence) 알고리즘 또는 딥 러닝(deep structured learning, deep learning, 또는 hierarchical learning) 알고리즘을 이용하여 특정인의 목소리로 TTS를 수행할 수 있다. 예를 들면, 각 TTS 엔진(310~340)은 각 개인화 TTS((Personalized-Text to Speech)를 적용하여 각 특정인의 발화(發話) 패턴과 억양을 학습하여 학습을 위한 텍스트를 상기 각 특정인의 목소리로 자연스럽게 변환할 수 있다.

예를 들면, 제1TTS 엔진(310)은 제1이름(NAME1)을 갖는 사람의 목소리로 TTS를 구현(예를 들면, 텍스트를 음성 신호로 변환)하고, 제2TTS 엔진(320)은 제2이름 (NAME2)을 갖는 사람의 목소리로 TTS를 구현(예를 들면, 텍스트를 음성 신호로 변환)하고, 제3TTS 엔진(330)은 제3이름(NAME3)을 갖는 사람의 목소리로 TTS를 구현(예를 들면, 텍스트를 음성 신호로 변환)하고, 제4TTS 엔진(340)은 제4이름(NAME4)을 갖는 사람의 목소리로 TTS를 구현(예를 들면, 텍스트를 음성 신호로 변환)한다.

프로세서(350)는 복수개의 TTS 엔진들(310~340) 각각의 동작을 제어하고, 텍스트 편집기 프로그램(213 또는 223)로부터 출력된 메타데이터(MI)에 포함된 이름(또는 이름 정보)을 이용하여 복수개의 TTS 엔진들(310~340) 중에서 상기 이름에 매칭된 TTS 엔진을 선택한다.

선택된 TTS 엔진은, 프로세서(350)의 제어 또는 프로세서(350)로부터 전송된 정보(예를 들면, 메타데이터(MI)에 포함된 재생 방법)에 기초하여, 실시간 듣기를 위한 동작 또는 음성 파일(VI)로 생성하여 저장을 위한 동작을 수행한다.

실시간 듣기를 위한 동작은 텍스트 편집기 프로그램(213 또는 223)으로부터 출력된 메타데이터(MI)에 포함된 이름을 갖는 사람의 목소리로 텍스트(TI)를 음성 신호(VS)로 변환하고, 음성 신호(VS)를 실시간으로 텍스트 편집기 프로그램(213 또는 223)로 전송(또는 스트리밍)하는 동작을 의미한다.

음성 파일(VI)로 저장을 위한 동작은 텍스트 편집기 프로그램(213 또는 223)으로부터 출력된 메타데이터(MI)에 포함된 이름을 갖는 사람의 목소리로 텍스트 (TI)를 음성 신호로 변환하고, 상기 음성 신호에 해당하는 음성 파일(VI)을 생성하여 제2데이터베이스(420)에 저장하는 동작을 의미한다.

프로세서(350)는 텍스트(TI)와 메타데이터(MI)를 제1데이터베이스(410)에 저장하고 관리(예를 들면, 검색과 읽기)하는 동작과, 음성 파일(VI)을 제2데이터베이스(420)에 저장하고 관리하는 동작을 제어한다. 예를 들면, 제1데이터베이스(410)는 관계형 데이터베이스(또는 SQL(Structured Query Language) 데이터베이스)일 수 있고, 제2데이터베이스(420)는 비관계형 데이터베이스(또는 NoSQL(non SQL) 데이터베이스)일 수 있다.

텍스트 편집기 프로그램이 TTS 서버(300)와 정보를 주고받는다 함은, 상기 텍스트 편집기 프로그램이 설치된 사용자 컴퓨팅 장치에 포함된 송수신기가 상기 텍스트 편집기 프로그램(또는 상기 텍스트 편집기 프로그램을 실행하는 프로세서)의 제어에 따라 TTS 서버(300)에 포함된 송수신 장치와 정보를 주고받는 것을 의미한다.

도 2는 본 발명에 따른 텍스트 편집기 프로그램의 사용자 입력 화면의 실시 예이고, 도 4는 도 1에 도시된 TTS-기반 학습 서비스 제공 시스템의 동작을 설명하는 플로우차트이고, 도 5와 도 6은 도 1에 도시된 TTS-기반 학습 서비스 제공 시스템의 동작을 구체적으로 설명하는 플로우차트이다. 텍스트 편집기 프로그램(213 또는 223)은 도 4 내지 도 6를 참조하여 설명될 단계들(S110~S180)을 수행한다.

도 1, 도 2, 및 도 4 내지 도 6을 참조하면, 제1사용자 컴퓨팅 장치(210)의 제1사용자에 의해 텍스트 편집기 프로그램(213)이 실행되면, 텍스트 편집기 프로그램(213)은 도 2에 도시된 사용자 입력 화면(사용자 인터페이스(User Interface(UI) 또는 그래픽 사용자 인터페이스(Graphical User Interface(GUI)); 230)을 디스플레이 장치(214)에 표시한다.

제1사용자는 입력 장치(211)를 이용하여 제목 입력창(231)에 제목을 입력할 수 있다.

제1사용자는 제1사용자 인터페이스(UI1 또는 제1GUI; 233)에 표시된 다양한 텍스트 입력 방법들 중에서 어느 하나를 선택한다(S110). 예를 들면, 제1사용자는 텍스트 입력창(232)에 학습하고자 하는 텍스트(이를 '학습 자료' 또는 '학습 데이터'라고도 함)를 직접 입력(또는 직접 타이핑)할 수도 있고(S111), 다른 사용자들에 의해 공개된 학습 자료(예를 들면, 텍스트, 이미지 파일, 또는 음성 파일, 등)를 TTS 서버(300)로부터 읽어올 수 있고(S113), 제1사용자 컴퓨팅 장치(210)에 저장된 이미지 파일(이미지 파일 포멧은 불문)을 입력(또는 업로드)할 수 있다 (S115).

예를 들면, 제1사용자가 제1사용자 인터페이스(233)에서 '직접입력(또는 직접 입력 방식)'을 선택한 경우, 상기 제1사용자는 텍스트(TI)를 입력장치(211)를 이용하여 텍스트 입력창(232)에 직접 입력할 수 있다(S111).

예를 들면, 제1사용자가 제1사용자 인터페이스(233)에서 '공개자료불러오기(또는 간접 입력 방식)'를 선택한 경우(S113), 텍스트 편집기 프로그램(213)은. Ajax(Asynchronous JavaScript and XML) 또는 네이티브 앱(native app) 연동기술을 통해, 공개된 학습 자료를 TTS 서버(300)로부터 제1사용자의 클립보드(예를 들면, 텍스트 편집기 프로그램(213)에 의해 제공되는 클립보드)로 복사한다(S114). 예를 들면, 제1사용자가 클립 보드로 복사된 공개된 학습 자료를 텍스트 입력창(232)에 붙여넣으면, 상기 공개된 학습 자료는 텍스트 입력창(232)에 표시된다(S117).

예를 들면, 제1사용자가 제1사용자 인터페이스(233)에서 '이미지파일 입력(또는 간접 입력 방식)'을 선택한 경우(S115), 텍스트 편집기 프로그램(213)은 입력된 이미지 파일로부터 OCR(Optical character recognition) 기술을 이용하여 텍스트를 추출하고(S116), 추출된 텍스트를 텍스트 입력창(232)에 표시할 수 있다 (S117).

제1사용자는 텍스트 입력창(232)에서 표시되는 텍스트, 공개된 학습 자료에 해당하는 텍스트, 또는 OCR 기술을 통해 추출된 텍스트를 직접 편집할 수 있다 (S117).

제1사용자는 제2사용자 인터페이스(UI2 또는 제2GUI; 234)에 표시된 다양한 이름들(NAME1~NAME4) 중에서 듣고싶은 목소리를 갖는 사람(예를 들면, 내외국인 불문)의 이름(또는 듣고싶은 목소리)을 선택한다(S120). 여기서, 이름은 애칭, 별명, 약칭, 또는 풀네임(full name)과 같이 어떤 사람을 다른 사람과 구별하기 위한 이름이면 족하다.

예를 들면, 각 이름(NAME1~NAME4)은 TTS 서버(300)의 각 TTS 엔진(310~340)에 일대일로 대응된다. 각 TTS 엔진(310~340)은 각 이름(NAME1~NAME4)에 해당하는 사람의 목소리로 텍스트를 음성 신호(또는 음성)로 변환할 수 있다. 각 이름 (NAME1~NAME4)은 연예인 또는 특정인의 이름일 수 있으나 이에 한정되는 것은 아니다.

제1사용자는 선택된 이름을 갖는 사람의 목소리를 미리듣기 위해 '미리듣기'를 선택할 수 있다(S121). 미리듣기 기능은 TTS 서버(300)에서 제공되는 API(예를 들면, REST(REpresentational State Transfer) API)를 자바스크립트(Javascript)로 직접 호출하고, 상기 API 결과에 따라 수신된 음성 신호(예를 들면, 음성 스트르밍 데이터)는 Native App Function Call을 통해 음성으로 재생된다.

제1사용자는 샘플 텍스트 입력창(235)에 샘플 텍스트(ST)를 직접 입력하거나 샘플 텍스트 입력창(235)에서 이미 제공되고 있는 샘플 텍스트를 직접 수정할 수 있다.

제1사용자가 샘플 텍스트 입력창(235)에 샘플 텍스트(ST)를 입력하고(S123의 YES) '미리듣기'를 선택(또는 클릭)하면, 텍스트 편집기 프로그램(213)은 선택된 이름(SN)과 샘플 텍스트(ST)를 TTS 서버(300)로 전송한다(S125).

이하에서는 설명의 편의를 위해, 제2이름(NAME2)이 제1사용자에 의해 선택되고, 제2이름(NAME2)에 매칭된 제2TTS 엔진(320)이 텍스트 입력창(232)에 입력된 텍스트(TI) 및/또는 샘플 텍스트 입력창(235)에 입력된 샘플 텍스트(ST)를 제2이름 (NAME2)을 갖는 사람의 목소리를 이용하여 음성 신호로 변환한다고 가정한다.

TTS 서버(300)는 복수개의 TTS 엔진들(310~340) 중에서 선택된 이름(예를 들면, 제2이름(NAME2))에 매칭(matching)된 제2TTS 엔진(320)을 선택하고, 선택된 TTS 엔진(320)으로 하여금 샘플 텍스트(ST)를 샘플 음성 신호(GV)로 변환하게 한다.

제2TTS 엔진(320)에 의해 생성된 샘플 음성 신호(GV)는 텍스트 편집기 프로그램(213)으로 전송되고, 텍스트 편집기 프로그램(213)은 샘플 텍스트(ST)에 해당하는 샘플 음성 신호(GV)를 수신하여 음성 출력 장치(215)로 전송한다.

음성 출력 장치(215)가 스피커인 경우, 상기 스피커는 샘플 텍스트(ST)에 해당하는 샘플 음성 신호(GV)를 제2이름(NAME2)을 갖는 사람의 목소리로 출력한다. 음성 출력 장치(215)가 이어폰(예를 들면, 유선 이어폰 또는 무선 이어폰)으로 음성 신호를 전달할 수 있는 장치일 때, 상기 이어폰은 샘플 텍스트(ST)에 해당하는 샘플 음성 신호(GV)를 제2이름(NAME2)을 갖는 사람의 목소리로 출력한다. 따라서, 제1사용자는 제2이름(NAME2)을 갖는 사람의 목소리로 샘플 텍스트(ST)에 해당하는 샘플 음성을 미리듣기를 할 수 있다(S129).

제1사용자가 샘플 텍스트 입력창(235)에 샘플 텍스트를 입력하지 않고(S123의 NO) '미리듣기'를 선택(또는 클릭)하면, 텍스트 편집기 프로그램(213)은 선택된 제2이름(NAME2)을 TTS 서버(300)로 전송한다(S127).

TTS 서버(300)는 복수개의 TTS 엔진들(310~340) 중에서 선택된 제2이름 (NAME2)을 갖는 사람에 매칭된 제2TTS 엔진(320)을 선택하고, 선택된 제2TTS 엔진 (320)은 제2이름(NAME2)을 갖는 사람의 목소리로 미리 설정된 텍스트를 샘플 음성 신호로 변환한다.

제2TTS 엔진(320)에 의해 생성된 샘플 음성 신호(GV)는 텍스트 편집기 프로그램(213)으로 전송되고, 텍스트 편집기 프로그램(213)은 미리 설정된 텍스트에 해당하는 샘플 음성 신호(GV)를 수신하여 음성 출력 장치(215)로 전송한다.

음성 출력 장치(215)가 스피커인 경우, 상기 스피커는 미리 설정된 텍스트에 해당하는 샘플 음성 신호(GV)를 제2이름(NAME2)을 갖는 사람의 목소리로 출력한다. 음성 출력 장치(215)가 이어폰으로 음성 신호를 전달할 수 있는 장치일 때, 상기 이어폰은 미리 설정된 텍스트에 해당하는 샘플 음성 신호(GV)를 제2이름(NAME2)을 갖는 사람의 목소리로 출력한다. 따라서, 제1사용자는 제2이름(NAME2)을 갖는 사람의 목소리로 미리 설정된 텍스트에 해당하는 샘플 음성을 미리듣기를 할 수 있다(S129).

제1사용자는 제3사용자 인터페이스(또는 제3GUI; 236)에 표시된 다양한 재생 방법들(237과 238) 중에서 어느 하나를 선택한다(S130). 제3사용자 인터페이스 (236)는 TTS 서버(300)가 텍스트에 해당하는 음성 신호를 어떻게 처리할지를 나타내는 음성 신호 처리 방법을 나타낸다.

제1사용자가 제3사용자 인터페이스(236)에 표시된 실시간 듣기(237)와 음성파일로 저장(238) 중에서 실시간 듣기(237)를 선택하고, 완료 버튼(BT1)을 선택(또는 클릭)하면(S160의 NO), 텍스트 편집기 프로그램(213)은 텍스트 입력창(232)에 입력(또는 표시)된 텍스트(TI)와 메타데이터(MI)를 TTS 서버(300)로 전송한다 (S140). 메타데이터(MI)는 선택된 이름(예를 들면, 제2이름(NAME2))과 재생 방법(예를 들면, 실시간 듣기)을 포함한다. 취소 버튼(BT2)은 취소를 위한 버튼이다.

TTS 서버(300)는 제2이름(NAME2)에 매칭된 제2TTS 엔진(320)을 통해 텍스트 (TI)를 음성 신호(VS)으로 변환한다(S150). 즉, TTS 서버(300)의 프로세서(350)는 복수개의 TTS 엔진들(310~340) 중에서 제2이름(NAME2)에 매칭되는 제2TTS 엔진 (320)을 선택한다(S151).

프로세서(350)는 메타데이터(MI)에 포함된 재생 방법을 확인하고, 상기 재생 방법이 '실시간 듣기'일 때(S153의 YES), TTS 엔진(320)은 텍스트 입력창(232)에 입력(또는 표시)된 텍스트(TI)를 음성 신호(VS)로 변환하고(S155), 음성 신호(VS)를 텍스트 편집기 프로그램(213)으로 전송한다. 따라서, 텍스트 편집기 프로그램 (213)은 제2TTS 엔진(320)으로부터 전송(예를 들면, 실시간으로 스트리밍되는) 음성 신호(VS)를 수신하여 음성 출력 장치(215)로 전송한다.

음성 출력 장치(215)가 스피커인 경우, 상기 스피커는 텍스트(TI)에 해당하는 음성 신호(VS)를 제2이름(NAME2)을 갖는 사람의 목소리로 출력한다. 음성 출력 장치(215)가 이어폰으로 음성 신호를 전달할 수 있는 장치일 때, 상기 이어폰은 텍스트(TI)에 해당하는 음성 신호(VS)를 제2이름(NAME2)을 갖는 사람의 목소리로 출력한다. 따라서, 스피커 또는 이어폰에 의해 텍스트(TI)에 해당하는 음성 신호(VS)는 제2이름(NAME2)을 갖는 사람의 목소리로 실시간으로 재생된다(S180).

제1사용자가 제3사용자 인터페이스(236)에 표시된 실시간 듣기(237)와 음성파일로 저장(238) 중에서 음성파일로 저장(238)을 선택하고 완료 버튼(BT1)을 선택 (또는 클릭)하면(S160의 YES), 텍스트 편집기 프로그램(213)은 텍스트 입력창(232)에 입력(또는 표시)된 텍스트(TI)와 메타데이터(MI)를 TTS 서버(300)로 전송한다 (S140). 메타데이터(MI)는 선택된 이름(예를 들면, 제2이름(NAME2))와 재생 방법(예를 들면, 음성 파일로 저장)을 포함한다.

TTS 서버(300)는 텍스트 편집기 프로그램(213)으로부터 전송된 텍스트(TI)와 메타데이터(MI)를 수신하여 제1데이터베이스(410)에 저장하고, 제2이름(NAME2)을 갖는 사람의 목소리를 사용하는 제2TTS 엔진(320)은 상기 목소리를 이용하여 텍스트(TI)를 음성 신호로 변환하고 상기 음성 신호에 해당하는 음성 파일(VI)을 생성하여 제2데이터베이스(420)에 저장한다(S170). 이때, 음성 파일(VI)에 해당하는 텍스트의 제목, 텍스트 크기, 및 어떤 이름을 갖는 사람의 목소리로 음성 파일을 생성했는지에 대한 메타데이터는 음성 파일(VI)과 함께 제2데이터베이스(420)에 저장될 수 있다.

프로세서(350)는 메타데이터(MI)에 포함된 재생 방법을 확인하고, 상기 재생 방법이 '음성파일로 저장'일 때(S153의 NO 및 S160의 YES), 제2TTS 엔진(320)은 제2이름(NAME2)을 갖는 사람의 목소리를 사용하여 텍스트(TI)를 음성 파일(VI)로 변환하고, 음성 파일(VI)을 제2데이터베이스(420)에 저장한다(S171).

도 3은 본 발명에 따른 텍스트 편집기 프로그램의 검색과 재생 화면의 실시 예이다. 도 1 내지 도 3, 및 도 6을 참조하면, 제1사용자가 자신이 저장한 학습 자료들을 포함하는 목록(241)에서 하나를 선택하여 재생시키기 위해 텍스트 편집기 프로그램(213)을 실행시키면, 텍스트 편집기 프로그램(213)은 도 3에 도시된 검색과 재생 화면(240)을 디스플레이 장치(214)에 표시한다.

검색과 재생 화면(240)에는 학습 자료들의 목록(241)이 표시되고, 상기 학습 자료들 각각은 번호(NO), 제목, 저장날짜, 및 공개여부를 포함하고, 상기 학습 자료들은 음성 파일들로서 제2데이터베이스(420)에 저장되어 있다.

이하에서는 설명의 편의를 위해, 제1사용자가 학습 자료들의 목록(241)에서 4번째 학습 자료(242)를 선택했다고 가정한다.

선택된 4번째 학습 자료(242)에 대한 정보는 선택학습자료 상세정보(243)에서 표시된다. 제1사용자는 4번째 학습 자료(242)의 공개여부를 변경 창(244)을 이용하여 '비공개'에서 '공개'로 변경할 수 있다. 변경 창(244)에 의해 변경된 공개여부 정보는 TTS 서버(300)의 프로세서(350)로 전송되고, 프로세서(350)는 공개여부 정보에 따라 해당 학습 자료를 타인에게 공개할지를 결정한다.

공개로 표시(또는 변경)된 학습 자료(예를 들면, 텍스트 또는 음성 파일)는 다른 사용자(예를 들면, 제2사용자)가 사용할 수 있고, 제2사용자는 제2사용자 컴퓨팅 장치(220)에서 실행되는 텍스트 편집기 프로그램(223)을 이용하여 사용자 입력 화면(도 2의 230과 동일)에서 표시되는 '텍스트 입력방식'에서 '공개자료불러오기'를 선택하고, 공개로 표시된 학습 자료(예를 들면, 230에 해당하는 학습 자료)를 TTS 서버(300)를 통해 불러올 수 있다. 그러나, 제1사용자에 의해 비공개로 표시된 학습 자료는 다른 학습자들이 사용할 수 없다.

TTS 서버(300)가 제2사용자의 요청에 따라 제1사용자가 생성한 학습 자료(즉, 공개로 표시된 학습 자료)를 재편집하여 새로운 학습 자료(예를 들면, 텍스트 또는 새로은 음성 파일)을 생성했을 때, TTS 서버(300)는 원본 학습 자료(즉, 제1사용자가 생성한 학습 자료)의 소유자에 대한 정보와 상기 새로운 학습 자료의 버젼(version)을 포함하는 메타데이터를 제2데이터베이스(420)에 저장할 수 있다.

도 3의 검색 및 재생 화면(240)의 선택학습자료 상세정보(243)는 제목(예를 들면, TITLE4), 텍스트 크기(예를 들면, 999글자), 이름 또는 목소리(예를 들면, NAME3), 재생 방법(예를 들면, 음성파일(저장됨), 및 텍스트 미리 보기를 포함한다. 이때, 저장된 음성파일은 제3이름(NAME3)을 갖는 사람의 목소리를 이용하여 텍스트를 음성 신호로 변환하는 제3TTS 엔진(330)에 의해 생성된 음성 파일이라고 가정한다.

제1사용자가 텍스트 미리 보기를 선택(또는 클릭)하면, 텍스트 편집기 프로그램(213)은 상기 제1사용자가 입력한 텍스트(즉, 제3이름(NAME3)을 갖는 사람의 목소리를 이용하여 생성된 음성 파일에 해당하는 텍스트)를 미리보기 창(245)에 표시할 수 있다.

실시 예들에 따라, 제1사용자가 학습 자료(예를 들면, 242에 해당하는 학습 자료)를 선택하면, 텍스트 편집기 프로그램(213)은 선택된 학습 자료의 전송 요청을 생성하여 TTS 서버(300)로 전송할 수 있다(S173). 상기 전송 요청에 따라 TTS 서버(300)는 제2데이터베이스(420)을 검색하여, 검색된 학습 자료에 해당하는 음성 파일((즉, 제3이름(NAME3)을 갖는 사람의 목소리를 이용하여 생성된 음성 파일)을 텍스트 편집기 프로그램(213)으로 전송할 수 있다(S175).

실시 예들에 따라, 제1사용자가 학습 자료(예를 들면, 242에 해당하는 학습 자료)를 선택하면, TTS 서버(300)는 상기 전송 요청에 따라 선택학습자료 상세정보 (243)에서 표시된 정보를 데이터베이스들(410과 420) 중에서 적어도 하나로부터 검색하여 텍스트 편집기 프로그램(213)으로 전송할 수 있다.

텍스트 편집기 프로그램(213)은 TTS 서버(300)로부터 전송된 음성 파일(VI)을 수신하여 스피커 또는 이이폰을 제어하여 재생한다(S177).

재생을 위해, 제1사용자는 제4사용자 인터페이스(또는 제4GUI; 246)에 표시된 재생 방법들 중에서 어느 하나를 선택할 수 있다. 상기 재생 방법들은 재생 속도와 반복 재생을 포함한다. 재생 속도는 음성 파일(VI)을 재생할 수 있는 배속(예를 들면, 배속은 1보다 작거나 1보다 큼)을 나타내고, 반복 재생은 음성 파일(VI)을 반복 재생할지의 여부를 나타낸다. 반복 재생이 선택되면, 음성 파일(VI)은 반복적으로 재생된다.

본 발명은 도면에 도시된 실시 예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시 예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 등록청구범위의 기술적 사상에 의해 정해져야 할 것이다.

100: TTS(Text to Speech)-기반 학습 서비스 제공 시스템
210: 제1사용자 컴퓨팅 장치
211: 입력 장치
212: 프로세서
213: 텍스트 편집기 프로그램
214: 디스플레이 장치
215: 음성 출력장치
230: 사용자 입력 화면
233: 제1사용자 인터페이스
234: 제2사용자 인터페이스
236: 제3사용자 인터페이스
240: 검색 및 재생 화면
220: 제2사용자 컴퓨팅 장치
223: 텍스트 편집기 프로그램
300: TTS 서버
410: 제1데이터베이스
420: 제2데이터베이스

Claims

텍스트 편집기 프로그램을 실행하는 사용자 컴퓨팅 장치와 TTS(Text to Speech) 서버를 이용하여 TTS-기반 학습 서비스를 제공하는 방법에 있어서,
상기 텍스트 편집기 프로그램이 텍스트, 듣고싶은 목소리를 갖는 사람의 이름, 및 상기 텍스트에 상응하는 음성 신호의 처리 방법을 수신하는 단계;
상기 텍스트 편집기 프로그램이 상기 텍스트, 상기 이름, 및 상기 처리 방법을 상기 TTS 서버로 전송하는 단계;
상기 TTS 서버에 설치된 TTS 엔진들 중에서 상기 이름에 매칭되는 TTS 엔진이 선택되면, 선택된 TTS 엔진이 상기 이름에 해당하는 상기 목소리를 이용하여 상기 텍스트를 상기 음성 신호로 변환하는 단계; 및
상기 TTS 서버가 상기 음성 신호를 상기 텍스트 편집기 프로그램으로 실시간으로 스트리밍하는 동작과 상기 음성 신호에 해당하는 음성 파일을 생성하여 저장하는 동작 중에서 어느 하나를 상기 처리 방법에 따라 수행하는 단계를 포함하는 TTS-기반 학습 서비스를 제공하는 방법.
제1항에 있어서,
상기 텍스트, 상기 이름, 및 상기 처리 방법이 상기 TTS 서버로 전송되기 전에,
상기 텍스트 편집기 프로그램이 상기 목소리를 미리 듣기를 위해 상기 이름을 상기 TTS 서버로 전송하는 단계;
상기 이름에 매칭되는 상기 TTS 엔진이 상기 이름에 해당하는 상기 목소리를 이용하여 미리 설정된 샘플 텍스트를 샘플 음성 신호로 변환하고 상기 샘플 음성 신호를 상기 텍스트 편집기 프로그램으로 전송하는 단계; 및
상기 텍스트 편집기 프로그램이 상기 TTS 서버로부터 상기 샘플 음성 신호를 수신하고, 상기 샘플 음성 신호를 상기 사용자 컴퓨팅 장치의 음성 출력 장치로 전송하는 단계를 더 포함하는 TTS-기반 학습 서비스를 제공하는 방법.
제1항에 있어서,
상기 텍스트, 상기 이름, 및 상기 처리 방법이 상기 TTS 서버로 전송되기 전에,
상기 텍스트 편집기 프로그램이 상기 목소리를 미리 듣기를 위한 샘플 텍스트를 수신하고, 상기 샘플 텍스트와 상기 이름을 상기 TTS 서버로 전송하는 단계;
상기 이름에 매칭되는 상기 TTS 엔진이 상기 이름에 해당하는 상기 목소리를 이용하여 상기 샘플 텍스트를 샘플 음성 신호로 변환하는 단계; 및
상기 텍스트 편집기 프로그램이 상기 TTS 서버로부터 상기 샘플 음성 신호를 수신하고, 상기 샘플 음성 신호를 상기 사용자 컴퓨팅 장치의 음성 출력 장치로 전송하는 단계를 더 포함하는 TTS-기반 학습 서비스를 제공하는 방법.
제1항에 있어서,
상기 TTS 서버가 상기 텍스트, 상기 이름, 및 상기 처리 방법을 관계형 데이터베이스에 저장하고, 상기 음성 파일을 비관계형 데이터베이스에 저장하는 단계;
상기 텍스트 편집기 프로그램이 상기 TTS 서버로 상기 음성 파일의 전송 요청을 전송하는 단계; 및
상기 TTS 서버가 상기 전송 요청에 따라 상기 비관계형 데이터베이스에 저장된 상기 음성 파일을 상기 텍스트 편집기 프로그램으로 다운로드하는 단계를 더 포함하는 TTS-기반 학습 서비스를 제공하는 방법.
제1항에 있어서,
상기 텍스트 편집기 프로그램이 상기 음성 파일의 공개와 비공개 중에서 어느 하나를 지시하는 공개 여부 지시 신호를 수신하여 상기 TTS 서버로 전송하는 단계; 및
상기 TTS 서버가 상기 공개 여부 지시 신호에 응답하여 상기 음성 파일을 타인에게 공개할지를 제어하는 단계를 더 포함하는 TTS-기반 학습 서비스를 제공하는 방법.
각각이 서로 다른 사람들 각각의 목소리를 이용하여 TTS를 수행하는 복수개의 TTS 엔진들; 및
상기 복수개의 TTS 엔진들 각각을 제어하는 프로세서를 포함하고,
상기 프로세서는,
사용자 컴퓨팅 장치에서 실행되는 텍스트 편집기 프로그램으로부터 텍스트, 상기 사람들 중에서 사용자가 듣고싶은 목소리를 갖는 사람의 이름, 및 상기 텍스트에 상응하는 음성 신호의 처리 방법을 수신하고, 상기 복수개의 TTS 엔진들 중에서 상기 이름에 매칭되는 TTS 엔진을 선택하고,
상기 이름에 매칭되는 TTS 엔진은 상기 이름에 해당하는 상기 목소리를 이용하여 상기 텍스트를 상기 음성 신호로 변환하고,
상기 프로세서는 상기 음성 신호를 상기 텍스트 편집기 프로그램으로 실시간으로 스트리밍하는 동작과 상기 음성 신호에 해당하는 음성 파일을 생성하여 저장하는 동작 중에서 어느 하나를 상기 처리 방법에 따라 수행하는 TTS-기반 학습 서버.
제6항에 있어서,
상기 프로세서는 상기 텍스트, 상기 이름, 및 상기 처리 방법을 수신하기 전에,
상기 텍스트 편집기 프로그램으로부터 상기 이름에 해당하는 상기 목소리를 미리 듣기를 위해 상기 이름을 수신하고,
상기 이름에 매칭되는 TTS 엔진은,
상기 이름에 해당하는 상기 목소리를 이용하여 미리 설정된 샘플 텍스트를 샘플 음성 신호로 변환하고 상기 샘플 음성 신호를 상기 텍스트 편집기 프로그램으로 전송하는 TTS-기반 학습 서버.
제6항에 있어서,
상기 프로세서는 상기 텍스트, 상기 이름, 및 상기 처리 방법을 수신하기 전에,
상기 텍스트 편집기 프로그램으로부터 상기 이름에 해당하는 상기 목소리를 미리 듣기를 위한 샘플 텍스트를 수신하고, 상기 샘플 텍스트와 상기 이름을 상기 TTS 서버로 전송하는 단계;
상기 이름에 매칭되는 상기 TTS 엔진이 상기 이름에 해당하는 상기 목소리를 이용하여 상기 샘플 텍스트를 샘플 음성 신호로 변환하는 단계; 및
상기 텍스트 편집기 프로그램이 상기 TTS 서버로부터 상기 샘플 음성 신호를 수신하고, 상기 샘플 음성 신호를 상기 사용자 컴퓨팅 장치의 음성 출력 장치로 전송하는 단계를 더 포함하는 TTS-기반 학습 서비스를 제공하는 방법.
하드웨어와 결합되어 TTS(Text to Speech) 서비스를 제공받기 위해 저장 매체에 저장된 텍스트 편집기 프로그램은,
직접 입력 방식과 간접 입력 방식 중에서 어느 하나를 통해 입력된 텍스트를 수신하는 단계;
사람들의 이름들 중에서 듣고싶은 목소리를 갖는 사람의 이름을 수신하는 단계;
미리 듣기를 위해 상기 이름을 상기 TTS 서비스를 제공하는 TTS 서버로 전송하는 단계;
상기 이름을 갖는 사람의 목소리에 해당하는 샘플 음성 신호를 상기 TTS 서버로부터 수신하여 음성 출력 장치로 전송하는 단계;
상기 텍스트에 상응하는 음성 신호를 상기 TTS 서버로부터 실시간으로 전송받을지 상기 음성 신호에 해당하는 음성 파일을 생성하여 상기 TTS 서버에 의해 액세스가능한 데이터베이스에 저장할지를 나타내는 음성 신호 처리 방법을 수신하는 단계;
상기 텍스트, 상기 이름, 및 상기 음성 신호 처리 방법을 상기 TTS 서버로 전송하는 단계;
상기 음성 신호 처리 방법이 상기 음성 신호를 상기 TTS 서버로부터 실시간으로 전송받음을 나타낼 때, 상기 텍스트에 상응하는 상기 음성 신호를 상기 TTS 서버로부터 실시간으로 수신하여 상기 음성 출력 장치로 전송하는 단계; 및
상기 음성 신호 처리 방법이 상기 음성 파일을 생성하여 상기 데이터베이스에 저장함을 나타낼 때, 상기 음성 파일을 상기 데이터베이스로부터 다운로드하기 위해 음성 파일 요청 신호를 상기 TTS 서버로 전송하는 저장 매체에 저장된 텍스트 편집기 프로그램.
제9항에 있어서,
상기 미리 듣기를 위해 상기 이름을 상기 TTS 서비스를 제공하는 TTS 서버로 전송하는 단계는 상기 미리 듣기를 위해 샘플 텍스트와 상기 이름을 상기 TTS 서비스를 제공하고,
상기 샘플 음성 신호는 상기 이름을 갖는 사람의 목소리를 이용하여 변환된 상기 샘플 텍스트에 해당하는 음성 신호인 저장 매체에 저장된 텍스트 편집기 프로그램.