WO2015037871A1

WO2015037871A1 - 텍스트 인식을 이용한 음성재생 서비스 제공 시스템, 서버 및 단말

Info

Publication number: WO2015037871A1
Application number: PCT/KR2014/008308
Authority: WO
Inventors: 김경철
Original assignee: Kim Kyung-Cheol
Priority date: 2013-09-10
Filing date: 2014-09-04
Publication date: 2015-03-19
Also published as: KR101406983B1

Abstract

텍스트 인식을 이용한 음성재생 서비스 제공 시스템, 장치 및 단말이 개시된다. 본 발명의 일 실시예에 따르면 사용자의 조작에 의해 애플리케이션을 실행되면 조작수단이 위치하는 텍스트의 텍스트 정보를 유무선 네트워크를 통해 송신하며, 수신된 음성데이터를 음성으로 재생하는 유저 단말; 및 유저 단말로부터 텍스트 정보를 수신하고, 음성지원 DB를 탐색하여 수신된 텍스트 정보와 매칭된 음성데이터를 추출하고, 추출된 음성데이터를 유저 단말로 송신하는 음성재생 서비스 제공 서버;를 포함하는 텍스트 인식을 이용한 음성재생 서비스 제공 시스템이 제공된다.

Description

텍스트 인식을 이용한 음성재생 서비스 제공 시스템, 서버 및 단말

본 발명은 음성재생 서비스를 제공하는 장치 및 시스템에 관한 것으로서, 보다 상세하게는 유저 단말의 표시부에 디스플레이되는 텍스트 영역에서 이동하는 조작수단의 위치를 감지하고, 해당 위치의 텍스트를 읽어들인 후 설정값을 적용하여 음성재생 서비스를 제공하기 위한 시스템, 장치 및 단말에 관한 것이다.

인터넷 등의 통신기술이 급속하게 발전함에 따라 데이터 통신이 가능한 PC, 스마트폰, 태플릿 등의 장치(이하, 유저 단말)를 사용하는 사용자들은 컨텐츠 다운로드, 웹 서핑, 소셜 네트워크(SNS) 참여, 화상 채팅 등 다양한 종류의 서비스를 제공받을 수 있게 되었다.

특정한 텍스트를 음성으로 변환하여 재생하는 서비스 역시 유저 단말을 이용하는 사용자가 제공받을 수 있는 서비스 중 하나로서, 최근에는 특정 사업자가 복수의 유저 단말이 접속가능한 서버를 갖추고 있으며, 사용자가 유저 단말에 특정 URL(Uniform Resource Locator)을 입력하거나 애플리케이션을 실행함으로써 서버에 접속하면 전술한 서비스를 제공하는 유료 또는 무료 온라인 사이트를 구축하는 사례가 점차 증가하는 추세인 바, 대표적으로는 "WWW.TEXT2SPEECH.ORG", "WWW.NEOSPEECH.COM" 등이 존재한다.

이러한 텍스트-음성변환은 각종 메시지 및 명령문을 소리로 알려줌으로써 초보자 등이 손쉽게 시스템을 이용할 수 있게 한다. 또한, 음성 이메일, 음성 프롬프트, 음성 인식 등에서 사용되며, 펜형 문자 판독기, 아스키 문자 판독기, 사운드 카드 대용 장비에 활용된다.

도 1은 종래기술에 따른 텍스트-음성변환 서비스를 제공하는 사이트에 접속하는 경우 나타나는 화면이다.

도 1을 참조하여 위 종래기술을 살펴보면, 음성으로 재생하고자 하는 언어 및 성별에 대한 설정리스트가 생성되며 아래에는 텍스트를 입력할 수 있는 창이 제공된다. 모든 입력사항이 완료된 후 사용자가 실행버튼(PLAY)을 클릭하면 입력된 텍스트에 설정값이 적용된 음성이 스피커를 통해 재생된다.

하지만, 전술한 종래기술은 입력된 전체 텍스트에 대한 재생만이 가능하고, 사용자가 재생을 원하는 특정 부분의 문자부터 재생하는 기능을 제공하고 있지 않았다.

예를 들어, 전체 텍스트로서 "①류현진이 선발투수로서 능력도 능력이지만 타석에서도 능숙하게 대응하는 걸 보면 기특하다. ②그동안 시도한 희생번트가 실패한 게 한 번도 없었다"가 입력된 경우를 가정할 수 있다.

이 경우, 사용자가 전체 텍스트의 처음부터가 아닌 특정부분("②그동안~")부터 재생하고자 하는 경우, 종래기술에 따르면 특정부분 이전의 텍스트(①)를 삭제해야만 하는 불편함이 있었다. 즉, "①류현진이 선발투수로서 능력도 능력이지만 타석에서도 능숙하게 대응하는 걸 보면 기특하다"를 삭제한 후에만 "②그동안 시도한 희생번트가 실패한 게 한 번도 없었다"에 해당하는 텍스트를 재생할 수 있어 사용자에게 별도의 조작을 강제하고 시간의 효율성을 저감시키는 문제가 있었다.

또한, 종래기술에 따르면 텍스트 내에 "ㅋㅋ", "!", "?", "^^" 등 다양한 감정 또는 상황에 관련된 텍스트와 상응하는 음성을 제공하지 못하고 있으며, "어흥", "야옹", "부르릉", "TWEET" 등의 의성어를 발음 그대로 재생할 뿐 실제 소리가 재생되는 것은 아니어서 사용자에게 보다 생생하고 실감나는 음성을 제공하는 데에 한계가 있었다.

따라서, 위와 같은 기존의 문제점들을 개선한 새로운 텍스트-음성변환 서비스를 제공할 수 있는 기술에 대한 개발이 요구되고 있다.

본 발명의 실시예들은 전체 텍스트에서 조작수단의 위치를 감지하고 해당 위치의 문자를 읽어들임으로써, 디스플레이되는 텍스트 전체가 아닌 사용자가 재생을 원하는 특정부분의 텍스트만을 선별적으로 재생할 수 있도록 하고자 한다.

또한, 본 발명의 실시예들은 재생대상 텍스트 내에 의성어, 감정 또는 상황과 관련된 단어 내지 어휘가 포함되어 있는지 자동적으로 검출할 수 있는 장치 및 시스템을 제공하고자 한다.

또한, 본 발명의 실시예들은 텍스트 내에 의성어, 감정 또는 상황과 관련된 단어 내지 어휘가 포함된 경우 발음 그대로 재생하는 것이 아닌 실제 소리 또는 억양의 변화를 반영하여 음성으로 재생시키고자 한다.

본 발명의 일 측면에 따르면, 유저 단말과 유무선 네트워크를 통해 연결되어 음성 재생을 위한 데이터를 수신 또는 송신하는 통신부, 상기 유저 단말로부터 텍스트 정보가 수신되면 음성지원 DB를 탐색하여 상기 텍스트 정보와 매칭된 음성데이터를 추출하는 데이터 컨버젼스부 및 상기 통신부 및 데이터 컨버젼스부를 포함하는 구성 상호간의 데이터 처리 및 동작을 제어하는 제어부를 포함하는 음성재생 서비스 제공 서버가 제공된다.

또한, 상기 유저 단말에 디스플레이되는 텍스트 창에서 조작수단의 위치를 감지하는 위치 감지부를 더 포함하고, 상기 데이터 컨버젼스부는 상기 유저 단말로부터 상기 조작수단이 위치한 문자의 텍스트 정보를 수집한 후 상기 음성지원 DB를 탐색하여 상기 텍스트 정보와 매칭된 음성데이터를 추출할 수 있다.

또한, 상기 데이터 컨버젼스부는 상기 조작수단이 기 설정된 시간 이상 정지상태인 경우에만 상기 조작수단이 위치한 문자의 텍스트 정보를 수집할 수 있다.

또한, 상기 데이터 컨버젼스부는 상기 텍스트 정보를 음절, 단어, 문장, 문단 또는 텍스트 전체 중 적어도 어느 하나의 재생구간으로 구획하여 음성데이터로 변환하거나, 언어, 성별, 나이, 재생속도 또는 소리크기 중 적어도 어느 하나의 재생모드에 상응하는 음성데이터로 변환할 수 있다.

또한, 상기 데이터 컨버젼스부는 상기 수신된 텍스트 정보에 지정문자가 포함되어 있는지 확인하고, 지정문자가 포함되어 있는 것으로 확인되면 상기 지정문자에 매칭된 음성데이터를 추출할 수 있다.

본 발명의 다른 측면에 의하면 텍스트 창, 조작수단의 이동 및 음성재생 서비스 제공 서버와의 데이터 송수신에 따른 진행 사항을 디스플레이하는 표시부, 사용자로부터 상기 조작수단을 이동시키기 위한 명령 또는 설정값을 입력받는 입력부, 상기 조작수단이 위치한 문자의 텍스트 정보를 추출하는 텍스트 추출부, 상기 음성재생 서비스 제공 서버와 유무선 네트워크를 통해 연결되어 상기 추출된 텍스트 정보를 송신하고 음성데이터를 수신하는 데이터 송수신부, 사용자의 조작에 따라 애플리케이션을 실행하고, 상기 표시부 및 데이터 송수신부를 활성화하는 애플리케이션 구동부, 상기 음성데이터를 변환하여 실제 음향으로 재생하는 음성 출력부 및 상기 설정값, 텍스트, 애플리케이션 및 음성데이터를 저장 및 관리하는 메모리를 포함하는 유저 단말이 제공된다.

또한, 상기 설정값은 사용자로부터 상기 텍스트를 재생하기 위한 음절, 단어, 문장, 문단 또는 텍스트 전체 중 적어도 어느 하나를 포함하는 재생구간 및 언어, 성별, 나이, 재생속도 또는 소리크기 중 적어도 어느 하나를 포함하는 재생모드를 포함할 수 있다.

또한, 상기 애플리케이션 구동부는, 상기 텍스트에 지정문자가 포함되어 있는지 확인하고, 지정문자가 포함되어 있는 것으로 확인되면 상기 지정문자에 식별코드를 삽입하며, 상기 데이터 송수신부는 상기 식별코드가 삽입된 지정문자를 포함하는 텍스트 정보를 송신할 수 있다.

또한, 상기 텍스트 창에 복수의 가상 격자를 생성하는 가상 격자 생성부를 더 포함하고, 상기 텍스트 추출부는 상기 복수의 가상 격자 중 상기 조작수단이 위치하는 가상 격자를 특정한 후 상기 특정된 가상 격자가 둘러싸고 있는 문자의 텍스트 정보를 추출할 수 있다.

본 발명의 또 다른 측면에 따르면 사용자의 조작에 의해 애플리케이션을 실행되면 조작수단이 위치하는 텍스트의 텍스트 정보를 유무선 네트워크를 통해 송신하며, 수신된 음성데이터를 음성으로 재생하는 유저 단말 및 상기 유저 단말로부터 상기 텍스트 정보를 수신하고, 음성지원 DB를 탐색하여 상기 수신된 텍스트 정보와 매칭된 음성데이터를 추출하고, 상기 추출된 음성데이터를 상기 유저 단말로 송신하는 음성재생 서비스 제공 서버를 포함하는 텍스트 인식을 이용한 음성재생 서비스 제공 시스템이 제공된다.

본 발명의 실시예들은 전체 텍스트에서 조작수단의 위치를 감지하고 해당 위치의 특정 문자의 텍스트 정보를 읽어들여 음성으로 변환함으로써, 사용자가 재생을 원하는 특정부분의 텍스트만을 선별적으로 재생하기 위하여 상기 특정부분 이전의 텍스트를 삭제하여야만 하는 종래기술의 문제점을 극복할 수 있다.

또한, 본 발명의 실시예들은 의성어 및 감정 또는 상황과 관련된 단어 내지 어휘(이하, 지정문자)와 매칭된 음성데이터가 저장 및 관리되는 음성지원 DB를 구축함으로써 음성으로 재생하고자 하는 텍스트 내에 지정문자가 포함되어 있는지 자동적으로 검출할 수 있는 장치 및 시스템을 제공할 수 있다.

또한, 본 발명의 실시예들은 텍스트 내에 지정문자가 포함된 경우 음성지원 DB를 탐색하여 이와 매칭된 음성데이터를 호출함으로써 지정문자를 발음 그대로가 아니라 실제 소리 또는 억양의 변화가 반영된 음성으로 재생할 수 있다.

도 2는 본 발명의 일 실시예에 따른 텍스트 인식을 이용한 음성재생 서비스 제공 시스템의 개략적인 구성도이다.

도 3은 본 발명의 다른 실시예에 따른 서비스 제공 서버의 세부 구성을 나타낸 블록도이다.

도 4는 본 발명의 다른 실시예에 따른 유저 단말의 세부 구성을 나타낸 블록도이다.

도 5는 본 발명에 의한 유저 단말의 애플리케이션이 구동됨에 따라 디스플레이되는 표시부의 일 예를 도시한 도면이다.

도 6은 도 5에 도시된 텍스트 창에 특정 텍스트가 디스플레이된 상태를 도시한 것이다.

도 7은 도 5에 도시된 텍스트 창에 디스플레이되는 텍스트에 맞춰 가상 격자가 생성된 일 예를 도시한 것이다.

[부호의 설명]

100 : 음성재생 서비스 제공 서버

110 : 통신부 120 : 데이터 컨버젼스부

130 : 제어부 140 : 위치 감지부

200 : 음성지원 DB

300 : 유저 단말

310 : 표시부 320 : 입력부

330 : 텍스트 추출부 340 : 데이터 송수신부

350 : 애플리케이션 구동부 360 : 음성 출력부

370 : 메모리 380 : 가상 격자 생성부

10 : 텍스트 리스트 20 : 설정 리스트

30 : 텍스트 창

본 명세서에서 개시되는 실시예들은 본 발명의 범위를 한정하는 것으로 해석되거나 이용되지 않아야 할 것이다. 이 분야의 통상의 기술자에게 본 명세서의 실시예를 포함한 설명은 다양한 응용을 갖는다는 것이 당연하다. 따라서, 특허청구범위에 의해 한정되지 않는 이상, 임의의 실시예는 본 발명을 보다 잘 설명하기 위한 예시적인 것이며 본 발명의 범위가 실시예들로 한정되는 것을 의도하지 않는다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.

이하, 첨부된 도면을 참조하여 본 발명의 실시예들을 더욱 상세히 설명하기로 한다.

도 2를 참조하면, 본 발명의 일 실시예에 따른 텍스트 인식을 이용한 음성재생 서비스 제공 시스템은 음성재생 서비스 제공 서버(100) 및 이와 유무선 네트워크를 통해 연결된 적어도 하나 이상의 유저 단말(300)을 포함한다.

먼저 유저 단말(300)은 애플리케이션(application)을 다운로드 받아 설치 및 실행할 수 있는 기기로서, 대표적으로 스마트폰이 있으나 이에 한정되지 않고 외부 서버와 네트워크를 통해 연결되어 데이터 송수신이 가능한 모든 장치를 의미하는 것으로 해석되어야 할 것이다. 이 때, 상기 애플리케이션은 독립적으로 구동거나 타 애플리케이션의 일부 기능으로서 구동될 수도 있다.

유저 단말(300)은 사용자의 조작에 의해 애플리케이션을 실행되면 조작수단이 위치하는 텍스트의 텍스트 정보를 유무선 네트워크를 통해 송신하고, 음성재생 서비스 제공 서버(100)로부터 음성데이터가 수신되면 이를 변환하여 실제 음성으로 재생한다.

여기서 조작수단은 커서, 포인터, 아이콘 등 유저 단말(300)의 표시부(310)에 디스플레이되는 텍스트에서 재생하고자 하는 시작 지점을 지정할 수 있는 수단을 의미하며, 유저 단말(300)의 표시부(310)가 터치스크린인 경우에는 사용자의 손가락이 터치되는 부분을 의미한다.

음성재생 서비스 제공 서버(100)는 유저 단말(300)로부터 텍스트 정보를 수신하고, 음성지원 DB(200)를 탐색하여 수신되는 텍스트 정보와 매칭된 음성데이터를 추출한다. 또한, 음성재생 서비스 제공 서버(100)는 추출된 음성데이터를 실시간 또는 소정시간 간격으로 유저 단말(300)에 송신할 수 있다.

이하에서는 유저 단말(300) 및 음성재생 서비스 제공 서버(100)의 상세구성에 대하여 더욱 구체적으로 설명하기로 한다.

도 3을 참조하면, 본 발명의 다른 실시예에 따른 서비스 제공 서버는 통신부(110), 데이터 컨버젼스부(120) 및 제어부(130)를 포함한다.

통신부(110)는 유저 단말(300)과 유무선 네트워크를 통해 연결되어 음성 재생을 위한 데이터를 수신 또는 송신하는 역할을 수행한다. 보다 구체적으로는 텍스트를 음성으로 변환하기 위해서 텍스트 정보를 음성재생 서비스 제공 서버(100)에 전달하거나, 데이터 정보가 변환된 음성데이터를 음성재생 서비스 제공 서버(100)로부터 전달받기 위해 이용된다. 이 경우, 통신부(110)는 WLAN, 와이 파이, 와이브로, 와이맥스, HSDPA, 근거리 무선통신, 적외선 통신, UWB 또는 근거리 유선통신 등의 다양한 방식 중에서 하나 이상의 방식으로 구현될 수 있다.

데이터 컨버젼스부(120)는 유저 단말(300)로부터 텍스트 정보가 수신되면 음성지원 DB(200)를 탐색하여 상기 텍스트 정보와 매칭된 음성데이터를 추출하는 구성이다. 음성지원 DB(200)는 각 텍스트 정보와 음성데이터를 매핑하여 저장 및 관리한다. 한편, 데이터 컨버젼스부(120)와 음성지원 DB(200)는 하나의 구성으로 구현될 수 있으나, 상황에 따라 분리되어 별도로 운용될 수도 있다.

제어부(130)는 음성재생 서비스 제공 서버(100)의 동작 전반을 제어하는 구성으로서, 통신부(110) 및 데이터 컨버젼스부(120)를 포함하는 구성 상호간의 데이터 처리 및 동작을 관리하여 각 과정에 따라 데이터를 순차적으로 전달되도록 연결함으로써 데이터 충돌을 방지하고 연산량이 저감될 수 있도록 한다.

한편, 본 발명의 다른 실시예에 의하면 음성재생 서비스 제공 서버(100)는 위치 감지부(140)를 더 포함할 수 있다. 이로써, 음성재생 서비스 제공 서버(100)는 유저 단말(300)로부터 수동적으로 데이터 정보를 수신할 수 있음은 물론 직접 데이터 정보를 수집하는 것이 가능하다.

위치 감지부(140)는 유저 단말(300)에 디스플레이되는 텍스트 창(30)에서 조작수단의 위치를 감지하는 구성이다. 구체적으로 텍스트 창(30)에 입력되거나 로딩된 텍스트 전체 중에서 사용자에 의해 이동이 완료된 조작수단의 위치를 감지한다.

일 예로서, 위치 감지부(140)는 텍스트 창(30)에 일정 간격으로 좌표값을 생성한 후 사용자의 조작에 따라 조작수단이 텍스트 창(30)의 특정 지점에 위치하면 해당 지점의 좌표값을 추출할 수 있다. 다음으로 데이터 컨버젼스부(120)가 추출된 좌표값에 대응하는 좌표값을 갖는 문자의 텍스트 정보를 수집할 수 있다. 또한, 추출된 좌표값이 텍스트와 텍스트 사이의 빈 공간에 해당하는 경우에는, 상기 추출된 좌표값과 최단거리의 좌표값을 갖는 텍스트를 결정할 수 있다.

또 다른 예로서, 위치 감지부(140)는 텍스트 창(30)에 복수의 가상 격자를 생성할 수 있다. 도 7은 도 5에 도시된 텍스트 창(30)에 디스플레이되는 텍스트에 맞춰 가상 격자가 생성된 일 예를 도시한 것으로서, 가상 격자는 전체 텍스트를 구성하고 있는 모든 문자와 일대일로 매칭되어 하나의 가상 격자가 하나의 문자를 둘러싸는 형태로 생성된다. 이후, 사용자의 조작에 따라 조작수단이 특정 가상 격자에 위치하면, 데이터 컨버젼스부(120)는 해당 가상 격자가 둘러싸고 있는 문자부터 텍스트 정보를 수집할 수 있다.

여기서 데이터 컨버젼스부(120)는 상기 조작수단이 기 설정된 시간(예, 5초) 이상 텍스트 창(30)의 일정 위치에서 정지상태인 경우에만 텍스트 정보를 수집하도록 설정될 수 있다. 즉, 조작수단의 이동에 따라 변화하는 좌표값 또는 가상 격자에 대응하는 모든 텍스트가 사용자의 의도와는 다르게 재생되는 경우를 방지하기 위해서, 조작수단이 기 설정된 시간 이상 정지상태인 경우에만 사용자로부터 재생요청이 입력된 것으로 판단하는 것이다.

또한, 데이터 컨버젼스부(120)는 텍스트 정보를 수신 또는 수집하면 이를 분석하여 재생구간 또는 재생모드에 따라 음성데이터로 변환할 수 있다. 상세하게는, 수신 또는 수집된 텍스트 정보에 사용자에 의해 입력된 설정값이 삽입되어 있는지 확인한다. 만약, 설정값이 삽입되어 있다면 이를 추출함으로써 음절, 단어, 문장, 문단 또는 텍스트 전체 중 적어도 어느 하나의 재생구간으로 구획하여 음성데이터로 변환할 수 있다. 또는, 언어, 성별, 나이, 재생속도 또는 소리크기 중 적어도 어느 하나의 재생모드에 상응하는 음성데이터로 변환할 수도 있다.

전술한 본 발명의 실시예들은 종래기술과는 달리 사용자에게 전체 텍스트 중에서 소정범위의 텍스트에 대한 음성을 선별적으로 청취할 수 있는 기능을 제공할 수 있는 장점이 있다.

또한, 데이터 컨버젼스부(120)는 수신된 텍스트 정보에 지정문자가 포함되어 있는지 확인할 수 있다. 여기서 지정문자란 의성어 및 감정 또는 상황과 관련된 단어 내지 어휘를 의미하는 것으로서, 예를 들어 "쾅(부딪히거나 폭발음)", "어흥(호랑이 소리)", "야옹(고양이 소리)", "부르릉(자동차 소리)", "TWEET(새 소리)" 등의 의성어는 물론 "ㅋㅋ", "!", "^^" 등 다양한 감정 또는 상황에 관련된 문자열일 수 있다. 데이터 컨버젼스부(120)는 지정문자가 포함되어 있는 것으로 확인되면, 상기 지정문자에 매칭된 음성데이터를 추출하여 유저 단말(300)로 전송함으로써 실제 소리 또는 억양이 반영된 음성을 사용자가 청취할 수 있도록 한다.

도 4는 본 발명의 다른 실시예에 따른 유저 단말(300)의 세부 구성을 나타낸 블록도이고, 도 5는 본 발명에 의한 유저 단말(300)의 애플리케이션이 구동됨에 따라 디스플레이되는 표시부(310)의 일 예를 도시한 도면이다.

도 4를 참조하면, 본 발명의 다른 실시예에 따른 유저 단말(300)은 표시부(310), 입력부(320), 텍스트 추출부(330), 데이터 송수신부(340), 애플리케이션 구동부(350), 음성 출력부(360) 및 메모리(370)를 포함한다.

표시부(310)는 텍스트 창(30), 조작수단의 이동 및 음성재생 서비스 제공 서버(100)와의 데이터 송수신에 따른 진행 사항을 디스플레이하는 구성으로서, LCD, TFT-LCD, LED, OLED, AMOLED, 플렉시블 디스플레이, 3차원 디스플레이 등 사용자에게 정보를 안내해줄 수 있는 수단이면 무방하다. 여기서 조작수단이란 커서, 포인터, 아이콘 등 텍스트 창(30)에 디스플레이되는 텍스트 내에서 재생하고자 하는 시작 지점을 지정할 수 있는 수단을 의미하며, 유저 단말(300)의 표시부(310)가 터치스크린인 경우에는 사용자의 손가락이 터치되는 부분을 의미한다.

도 5를 참조하면, 표시부(310)에는 복수의 텍스트 컨텐츠 중 어느 하나를 선택할 수 있는 텍스트 리스트(10), 각종 설정값을 입력받을 수 있는 설정 리스트(20) 및 상기 복수의 텍스트 컨텐츠 중 선택된 텍스트가 디스플레이되는 텍스트 창(30)이 도시되어 있다.

입력부(320)는 사용자로부터 상기 조작수단을 이동시키기 위한 명령 또는 설정값을 입력받는 구성이다. 예를 들어, 입력부(320)는 버튼 입력, 터치 입력, 동작 입력, 음성 입력 등의 다양한 방식 중 하나 이상을 포함할 수 있다. 버튼 입력은 복수의 버튼 각각에 대응하는 명령을 생성하는 것으로서, 대표적으로 키패드, 키보드가 있다. 터치 입력은 터치하는 동작을 감지하여 명령을 생성하는 것으로서, 터치 패드, 터치 스크린, 터치 센서를 들 수 있다. 동작 입력은 목소리, 포인터 이동 또는 유저 단말(300)을 기울이거나 흔드는 동작 등 기 설정된 특정 동작과 대응하는 명령을 인식하는 것으로서 마이크, 마우스, 카메라, RGB 센서, 근접 센서 등이 있다.

또한, 상기 설정값에는 사용자에 선택에 따라 세부항목이 결정되는 재생구간 및 재생모드가 포함된다. 도 5를 참조하여 설명하면, 재생구간은 텍스트 전체 중 재생하고자 하는 구간 즉, 음절, 단어, 문장, 문단 또는 텍스트 전체 중 하나 이상일 수 있다. 재생모드는 상기 재생구간에 따라 재생될 음성에 특정 효과를 부가하기 위한 것으로서 언어, 성별, 나이, 재생속도 또는 소리크기 중 적어도 어느 하나가 적용될 수 있다.

한편, 상기 표시부(310)와 입력부(320)는 독립적으로 분리되어 구성될 수 있으나, 유저 단말(300)이 터치 스크린 등 입력 및 출력을 종합적으로 수행할 수 있는 수단을 채용하는 경우에는 일체로 결합될 수 있음은 물론이다.

텍스트 추출부(330)는 텍스트 창(30)에서 조작수단이 위치한 지점의 문자의 텍스트 정보를 추출한다. 본 발명의 다른 실시예에 따르면 텍스트 추출부(330)가 상기 조작수단이 위치한 지점의 텍스트를 용이하게 판단할 수 있도록 하기 위해서 가상 격자 생성부(380)를 더 포함할 수 있는 바, 이러한 가상 격자 생성부(380)는 텍스트 창(30)에 복수의 가상 격자를 생성한다.

즉, 도 7에 도시된 바와 같이 복수의 가상 격자는 전체 텍스트를 구성하고 있는 모든 문자와 일대일로 매칭되어 하나의 가상 격자가 하나의 문자를 둘러싸는 형태로 생성된다. 이러한 가상 격자는 텍스트 창에 비가시화(도 6) 또는 가시화(도 7) 되도록 설정될 수 있다. 이후, 사용자의 조작에 따라 조작수단이 특정 가상 격자에 위치하면, 텍스트 추출부(330)는 해당 가상 격자가 둘러싸고 있는 문자부터 텍스트 정보를 추출할 수 있다.

예를 들어 도 7을 참조하면, 복수의 텍스트 컨텐츠 중 제2 텍스트인 "류현진이 선발투수로서 능력도 능력이지만 타석에서도 능숙하게 대응하는 걸 보면 기특하다. 그동안 시도한 희생번트가 실패한 게 한 번도 없었다"가 선택되어 텍스트 창(30)에 디스플레이된 경우를 가정할 수 있다. 이 때, 조작수단(예, 도 7의 포인터)이 "그(음영 처리하여 도시)"에 위치하면, 텍스트 추출부(330)는 조작수단의 위치에 해당하는 가상 격자를 결정한 후 해당 가상 격자가 둘러싸고 있는 문자인 "그"부터 데이터 정보를 추출하게 된다.

또한, 텍스트 추출부(330)는 텍스트 창(30)에 일정 간격으로 좌표값을 생성한 후 사용자의 조작에 따라 조작수단이 텍스트 창(30)의 특정 지점에 위치하면 해당 지점의 좌표값을 추출할 수 있다. 이후, 추출된 좌표값에 대응하는 문자의 텍스트 정보를 수집할 수 있다. 만약, 추출된 좌표값이 텍스트와 텍스트 사이의 빈 공간에 해당하는 경우에는, 상기 추출된 좌표값과 최단거리의 좌표값을 갖는 텍스트를 결정하여 텍스트 정보를 추출할 수 있다.

데이터 송수신부(340)는 음성재생 서비스 제공 서버(100)와 유무선 네트워크를 통해 연결되어 텍스트 추출부(330)에 의해 추출된 텍스트 정보를 송신한다. 또한, 데이터 송수신부(340)는 송신된 텍스트 정보가 변환된 음성데이터를 음성재생 서비스 제공 서버(100)로부터 수신한다.

애플리케이션 구동부(350)는 사용자의 조작에 따라 애플리케이션을 실행하고, 상기 표시부(310) 및 데이터 송수신부(340)를 활성화하여 텍스트-음성 변환이 가능하도록 유저 단말(300)을 세팅하는 구성이다.

이러한 애플리케이션 구동부(350)는 텍스트 내에 지정문자가 포함되어 있는지 확인할 수 있다. 여기서 지정문자란 의성어 및 감정 또는 상황과 관련된 단어 내지 어휘를 의미하는 것으로서, 예를 들면, 지정문자는 "쾅(부딪히거나 폭발음)", "어흥(호랑이 소리)", "야옹(고양이 소리)", "부르릉(자동차 소리)", "TWEET(새 소리)" 등의 의성어는 물론 "ㅋㅋ(웃음)", "!(놀람, 긴급)", "^^(웃음)" 등 다양한 감정 또는 상황에 관련된 문자열일 수 있다.

또한, 애플리케이션 구동부(350)는 음성재생 속도에 맞춰 재생 중인 텍스트 부분에 하이라이트 처리(예, 음영 또는 색)할 수 있다. 이에 따라, 사용자는 디스플레이되는 텍스트 전체 중 현재 음성으로 재생되는 텍스트 부분을 정확하게 인지할 수 있다.

애플리케이션 구동부(350)는 텍스트 내에 상술한 지정문자가 포함되어 있는 것으로 확인되면 지정문자별로 식별코드를 삽입할 수 있다. 이후, 데이터 송수신부(340)는 식별코드가 삽입된 지정문자를 포함하는 텍스트 정보를 음성재생 서비스 제공 서버(100)에 송신한다. 음성재생 서비스 제공 서버(100)는 자체적으로 데이터 정보에 지정문자가 포함되어 있는지 확인할 수 있으나, 유저 단말(300)에 의해 식별코드가 삽입된 지정문자를 수신함으로써, 음성지원 DB(200)를 탐색하여 이와 매칭된 음성데이터를 추출하기 위한 연산량을 감소시키고 신속한 텍스트-음성 변환을 가능하게 하는 장점이 있다.

이에 따라, 지정문자를 발음 그대로 재생하는 것이 아니라 실제 소리 또는 억양이 반영된 음성으로 재생될 수 있으므로 사용자에게 보다 생생하고 실감나는 음성을 제공할 수 있다.

음성 출력부(360)는 음성데이터를 변환하여 실제 음향으로 재생하는 수단으로서, 대표적인 예로는 스피커를 들 수 있으며 음성데이터에 대응하는 진동을 발생시켜 공기 중으로 방출할 수 있는 모든 수단이 포함된다.

메모리(370)는 상술한 설정값, 텍스트, 애플리케이션 및 음성데이터를 비롯한 각종 데이터나 프로그램을 저장 및 관리하는 구성이다. 또한, 유저 단말(300)의 운영체제나 적어도 하나 이상의 응용 프로그램이 저장될 수 있다. 이러한 메모리(370)는 램(RAM), 롬(ROM), 하드디스크, 플래시 메모리, CD 등의 저장수단을 포함할 수도 있음은 물론이다.

위에서 설명된 본 발명의 실시예들은 예시의 목적을 위해 개시된 것이며, 이들에 의하여 본 발명이 한정되는 것은 아니다. 또한, 본 발명에 대한 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 사상과 범위 안에서 다양한 수정 및 변경을 가할 수 있을 것이며, 이러한 수정 및 변경은 본 발명의 범위에 속하는 것으로 보아야 할 것이다.

Claims

유저 단말과 유무선 네트워크를 통해 연결되어 음성 재생을 위한 데이터를 수신 또는 송신하는 통신부;

상기 유저 단말로부터 텍스트 정보가 수신되면 음성지원 DB를 탐색하여 상기 텍스트 정보와 매칭된 음성데이터를 추출하는 데이터 컨버젼스부; 및

상기 통신부 및 데이터 컨버젼스부를 포함하는 구성 상호간의 데이터 처리 및 동작을 제어하는 제어부;

를 포함하는 음성재생 서비스 제공 서버
제1항에 있어서,

상기 유저 단말에 디스플레이되는 텍스트 창에서 조작수단의 위치를 감지하는 위치 감지부;

를 더 포함하고,

상기 데이터 컨버젼스부는,

상기 유저 단말로부터 상기 조작수단이 위치한 문자의 텍스트 정보를 수집한 후 상기 음성지원 DB를 탐색하여 상기 텍스트 정보와 매칭된 음성데이터를 추출하는 것을 특징으로 하는 음성재생 서비스 제공 서버
제2항에 있어서,

상기 데이터 컨버젼스부는,

상기 조작수단이 기 설정된 시간 이상 정지상태인 경우에만 상기 조작수단이 위치한 문자의 텍스트 정보를 수집하는 것을 특징으로 하는 음성재생 서비스 제공 서버
제1항에 있어서,

상기 데이터 컨버젼스부는,

상기 텍스트 정보를 음절, 단어, 문장, 문단 또는 텍스트 전체 중 적어도 어느 하나의 재생구간으로 구획하여 음성데이터로 변환하거나,

언어, 성별, 나이, 재생속도 또는 소리크기 중 적어도 어느 하나의 재생모드에 상응하는 음성데이터로 변환하는 것을 특징으로 하는 음성재생 서비스 제공 서버
제1항에 있어서,

상기 데이터 컨버젼스부는,

상기 수신된 텍스트 정보에 지정문자가 포함되어 있는지 확인하고, 지정문자가 포함되어 있는 것으로 확인되면 상기 지정문자에 매칭된 음성데이터를 추출하는 것을 특징으로 하는 음성재생 서비스 제공 서버
텍스트 창, 조작수단의 이동 및 음성재생 서비스 제공 서버와의 데이터 송수신에 따른 진행 사항을 디스플레이하는 표시부;

사용자로부터 상기 조작수단을 이동시키기 위한 명령 또는 설정값을 입력받는 입력부;

상기 조작수단이 위치한 문자의 텍스트 정보를 추출하는 텍스트 추출부;

상기 음성재생 서비스 제공 서버와 유무선 네트워크를 통해 연결되어 상기 추출된 텍스트 정보를 송신하고 음성데이터를 수신하는 데이터 송수신부;

사용자의 조작에 따라 애플리케이션을 실행하고, 상기 표시부 및 데이터 송수신부를 활성화하는 애플리케이션 구동부;

상기 음성데이터를 변환하여 실제 음향으로 재생하는 음성 출력부; 및

상기 설정값, 텍스트, 애플리케이션 및 음성데이터를 저장 및 관리하는 메모리;

를 포함하는 유저 단말
제6항에 있어서,

상기 설정값은,

사용자로부터 상기 텍스트를 재생하기 위한 음절, 단어, 문장, 문단 또는 텍스트 전체 중 적어도 어느 하나를 포함하는 재생구간 및

언어, 성별, 나이, 재생속도 또는 소리크기 중 적어도 어느 하나를 포함하는 재생모드를 포함하는 것을 특징으로 하는 유저 단말
제6항에 있어서,

상기 애플리케이션 구동부는, 상기 텍스트에 지정문자가 포함되어 있는지 확인하고, 지정문자가 포함되어 있는 것으로 확인되면 상기 지정문자에 식별코드를 삽입하며,

상기 데이터 송수신부는, 상기 식별코드가 삽입된 지정문자를 포함하는 텍스트 정보를 송신하는 것을 특징으로 하는 유저 단말
제6항에 있어서,

상기 텍스트 창에 복수의 가상 격자를 생성하는 가상 격자 생성부;를 더 포함하고,

상기 텍스트 추출부는,

상기 복수의 가상 격자 중 상기 조작수단이 위치하는 가상 격자를 특정한 후 상기 특정된 가상 격자가 둘러싸고 있는 문자의 텍스트 정보를 추출하는 것을 특징으로 하는 유저 단말
사용자의 조작에 의해 애플리케이션을 실행되면 조작수단이 위치하는 문자의 텍스트 정보를 유무선 네트워크를 통해 송신하며, 수신된 음성데이터를 음성으로 재생하는 유저 단말; 및

상기 유저 단말로부터 상기 텍스트 정보를 수신하고, 음성지원 DB를 탐색하여 상기 수신된 텍스트 정보와 매칭된 음성데이터를 추출하고, 상기 추출된 음성데이터를 상기 유저 단말로 송신하는 음성재생 서비스 제공 서버;

를 포함하는 텍스트 인식을 이용한 음성재생 서비스 제공 시스템