KR100923942B1 - 웹 페이지로부터 텍스트를 추출하고 이를 음성 데이터파일로 변환하여 제공하기 위한 방법, 시스템 및 컴퓨터판독 가능한 기록 매체 - Google Patents

웹 페이지로부터 텍스트를 추출하고 이를 음성 데이터파일로 변환하여 제공하기 위한 방법, 시스템 및 컴퓨터판독 가능한 기록 매체 Download PDF

Info

Publication number
KR100923942B1
KR100923942B1 KR1020070125105A KR20070125105A KR100923942B1 KR 100923942 B1 KR100923942 B1 KR 100923942B1 KR 1020070125105 A KR1020070125105 A KR 1020070125105A KR 20070125105 A KR20070125105 A KR 20070125105A KR 100923942 B1 KR100923942 B1 KR 100923942B1
Authority
KR
South Korea
Prior art keywords
text
data file
voice data
speech
terminal device
Prior art date
Application number
KR1020070125105A
Other languages
English (en)
Other versions
KR20090058360A (ko
Inventor
이윤현
김규일
박진수
Original Assignee
엔에이치엔(주)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엔에이치엔(주) filed Critical 엔에이치엔(주)
Priority to KR1020070125105A priority Critical patent/KR100923942B1/ko
Publication of KR20090058360A publication Critical patent/KR20090058360A/ko
Application granted granted Critical
Publication of KR100923942B1 publication Critical patent/KR100923942B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Abstract

본 발명은 사용자 단말 장치에서 웹 페이지 상의 텍스트를 추출하고 이를 음성 데이터 파일로 변환하여 제공하기 위한 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체에 관한 것으로서, 본 발명의 일 태양에 따르면, 웹 페이지로부터 텍스트를 추출하고 이를 음성으로 변환하여 제공하는 방법으로서, 단말 장치에서 텍스트를 추출하는 단계, 상기 추출된 텍스트를 상기 단말 장치로부터 상기 단말 장치와 통신 가능한 연산 시스템으로 전송하는 단계, 상기 연산 시스템에서 상기 추출된 텍스트를 음성으로 변환하여 음성 데이터 파일을 생성하는 단계, 상기 연산 시스템에서 상기 음성 데이터 파일을 압축하는 단계, 상기 연산 시스템에 상기 압축된 음성 데이터 파일을 저장하는 단계, 및 상기 연산 시스템으로부터 상기 단말 장치로 상기 압축되어 저장된 음성 데이터 파일의 위치를 나타내는 식별자를 전송하는 단계를 포함하는 방법이 제공된다.
WAS, 텍스트-음성 변환, MP3

Description

웹 페이지로부터 텍스트를 추출하고 이를 음성 데이터 파일로 변환하여 제공하기 위한 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체{METHOD, SYSTEM AND COMPUTER-READABLE RECORDING MEDIUM FOR EXTRACTING TEXT FROM WEB PAGE, CONVERTING SAME TEXT INTO AUDIO DATA FILE, AND PROVIDING RESULTANT AUDIO DATA FILE}
본 발명은 사용자 단말 장치에서 웹 페이지 상의 텍스트를 추출하고 이를 음성 데이터 파일로 변환하여 제공하기 위한 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체에 관한 것으로서, 보다 상세하게는 웹 페이지 상의 텍스트를 음성 데이터 파일로 변환하여 제공하되, 해당 파일을 사용자가 효율적으로 재사용할 수 있도록 하는 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체에 관한 것이다.
근래에 들어, 인터넷 사용이 보편화되면서 인터넷을 통한 다양한 정보의 획득이 가능해지고 있다. 웹 사이트를 통해 인터넷 서비스를 제공하는 업체는 더욱더 다양해져 가는 인터넷 사용자들의 욕구를 충족시키기 위해 다양한 종류의 서비스를 제공하고 있으며, 그러한 서비스의 종류 또한 하루가 다르게 증가하고 있는 추세이다.
사용자들은 이러한 업체들이 제공하는 서비스를 다양한 형태로 접하고 있으며, 특히, 웹 사이트를 통해 뉴스 정보, 사전 정보, 전문 정보, 지역 정보, 쇼핑 정보 등의 다양한 인터넷 컨텐츠를 얻고자 한다.
이러한 사용자들은 자신이 원하는 컨텐츠를 얻기 위해 웹 사이트를 통해 검색을 수행하고, 이를 통해 특정 웹 페이지(또는 웹 문서)에서 원하는 컨텐츠를 얻게 되면, 주로 텍스트로 이루어져 있는 해당 컨텐츠를 육안에 의해서 해독하는 것이 일반적이다. 그러나, 사용자의 입장에서는 이렇듯 텍스트 위주로 제공되는 컨텐츠만을 이용하는 것은 멀티미디어 시대인 요즈음에 있어서는 달갑지 않은 일일 수 있고, 현실적으로는 웹 페이지가 담고 있는 정보의 양이 점점 많아짐에 따라 사용자가 텍스트의 형태로 제공 받은 컨텐츠를 해독하기 위하여 육안으로 그 텍스트를 모두 다 읽을 때까지 사용자 단말 장치의 모니터와 같은 디스플레이 수단에서 시선을 떼지 말아야 하게 되는 문제점도 있다. 또한, 사용자 중에는 컨텐츠를 통하여 원하는 정보를 얻으면서 다른 일도 진행하고자 하는 멀티태스킹 욕구를 가진 자도 있을 수 있는데, 텍스트 위주로 제공되는 컨텐츠만을 이용하는 경우에는 이러한 욕구도 충족되기 어려운 측면이 있었다.
한편, 근래에 들어, VoIP(Voice over IP) 기술, 음성 인식 기술, 음성 변환 기술, 음성 합성 기술, 자동 응답 시스템 등의 CTI(Computer Telephony Integration) 기술이 많은 관심을 끌고 있는 것이 사실인데, 이러한 기술들에 의하면 인터넷 환경에서도 사용자가 음성으로 지시를 내리고, 음성으로 정보를 제공 받으며, 음성으로 의사소통하는 진일보한 서비스를 누릴 수 있게 될 것으로 기대되고 있다.
이에 따라, 텍스트 위주의 컨텐츠 제공에 따른 문제를 해결하는 한편, CTI 기술에 폭넓게 이용하기 위하여 텍스트-음성 변환(TTS; Text To Speech) 기술이 개발된 바 있다. 텍스트-음성 변환 기술은 음성 인식 기술보다 널리 쓰일 수 있는 기술로서, 각종 텍스트 정보를 음성으로 변환하여 제공하는 휴먼 인터페이스 기술이다. 웹 페이지에서의 텍스트-음성 변환 기술은 주로 웹 페이지 상의 텍스트를 추출하고 이를 음성으로 변환하여 사용자에게 제공하는 방식으로 실현된다. 예를 들면, 사용자가 웹 페이지의 일정 위치에서 일정 시간 동안 마우스를 정지시키면 발생하는 마우스오버(mouse-over) 이벤트에 따라 그때의 마우스 포인터의 위치에 해당하는 텍스트를 추출한 후 이를 음성으로 변환하는 경우나, 사용자가 웹 페이지 상의 텍스트의 일정 부분을 드래깅(dragging)하여 이를 음성으로 변환하는 경우를 언급할 수 있다.
사용자 입장에서는 때에 따라 텍스트로부터 변환된 음성 데이터 파일을 반복하여 재생하거나 저장할 필요가 있는데(특히, 해당 텍스트가 교육용 텍스트이거나 기타 기억을 요하는 텍스트인 경우에 더욱 그러함), 이 경우 매번 해당 텍스트를 찾아 이로부터 음성 데이터 파일을 생성하여 재생하거나 저장하게 되면, 해당 음성 데이터 파일을 필요할 때에 다시 찾아 사용하기가 어렵게 되고, 나아가 사용자 단말 장치의 용량 부족 문제가 발생할 수 있는 등 불편한 점이 많았다.
본 발명은 상술한 종래 기술의 문제점을 해결하는 데에 그 목적이 있다.
또한, 본 발명은 사용자가 웹 페이지를 통하여 획득하는 음성 데이터 파일의 재사용성을 높이는 데에 그 목적이 있다.
그리고, 본 발명은 사용자가 음성 데이터 파일을 굳이 사용자 단말 장치에 분류하여 저장할 필요 없이 외부 연산 장치로부터 필요한 때마다 제공 받을 수 있도록 하는 데에 그 목적이 있다.
또한, 본 발명은 텍스트-음성 변환 기술의 활용 영역을 넓혀 해당 기술에 대한 사용자의 관심을 고취하는 데에도 그 목적이 있다.
상기 목적을 달성하기 위한 본 발명의 구성은 다음과 같다.
본 발명의 일 태양에 따르면, 웹 페이지로부터 텍스트를 추출하고 이를 음성으로 변환하여 제공하는 방법으로서, 단말 장치에서 텍스트를 추출하는 단계, 상기 추출된 텍스트를 상기 단말 장치로부터 상기 단말 장치와 통신 가능한 연산 시스템으로 전송하는 단계, 상기 연산 시스템에서 상기 추출된 텍스트를 음성으로 변환하여 음성 데이터 파일을 생성하는 단계, 상기 연산 시스템에서 상기 음성 데이터 파일을 압축하는 단계, 상기 연산 시스템에 상기 압축된 음성 데이터 파일을 저장하는 단계, 및 상기 연산 시스템으로부터 상기 단말 장치로 상기 압축되어 저장된 음성 데이터 파일의 위치를 나타내는 식별자를 전송하는 단계를 포함하는 방법이 제 공된다.
본 발명의 다른 태양에 따르면, 단말 장치와 통신하고, 웹 페이지로부터 텍스트를 추출하여 이를 음성으로 변환해서 제공하기 위한 시스템으로서, 단말 장치로부터 추출된 텍스트를 인식하기 위한 텍스트 인식부, 상기 추출된 텍스트를 음성으로 변환하기 위한 텍스트-음성 변환부, 상기 텍스트-음성 변환부에서 변환된 음성을 압축하여 압축된 음성 데이터 파일을 생성하는 음성 데이터 파일 생성부, 및 상기 압축된 음성 데이터 파일의 위치를 나타내는 식별자를 상기 단말 장치로 전송하는 통신부를 포함하는 시스템이 제공된다.
이 외에도, 본 발명에 따르면 웹 페이지로부터 텍스트를 추출하고 이를 음성으로 변환하여 제공하기 위한 방법, 시스템, 및 상기 방법들을 실행하기 위한 컴퓨터 프로그램을 기록하는 컴퓨터 판독 가능한 기록 매체가 더 제공된다.
상기와 같은 본 발명을 이용함으로써, 인터넷 상에서 텍스트-음성 변환 기술을 이용할 때에, 사용자가 텍스트로부터 변환된 음성 데이터 파일을 손쉽게 찾아 이를 이용하거나 저장할 수 있게 된다.
또한, 본 발명에 따르면, 텍스트로부터 변환된 음성 데이터 파일의 재사용성이 현저하게 높아져 사용자 단말 장치의 용량 문제를 초래함이 없이 손쉽게 한 번 생성된 음성 데이터 파일을 다시 사용하거나 제3자와 공유할 수 있게 된다.
이하에서는, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발 명을 용이하게 실시할 수 있도록 하기 위하여, 본 발명의 바람직한 실시예들을 첨부된 도면을 참조하여 상세히 설명하기로 한다.
전체 시스템의 구성
도 1은 본 발명의 일 실시예에 따라 텍스트를 음성으로 변환하여 음성 데이터 파일의 형식으로 제공하기 위한 전체 시스템의 개략적인 구성도이다.
도 1에 도시되어 있는 바와 같이, 웹 페이지 상의 텍스트를 음성으로 변환한 후 이를 음성 데이터 파일의 형식으로 제공하기 위한, 본 발명의 일 실시예에 따른 전체 시스템은, 인터넷(500), 인터넷(500)에 접속 가능한 사용자 단말 장치(100), 텍스트-음성 변환을 요청하고 변환된 음성을 압축하여 압축된 음성 데이터 파일을 생성하는 웹 애플리케이션 서버(WAS; Web Application Server)(200), 텍스트-음성 변환을 수행하기 위한 텍스트 음성 변환 서버(300) 및 음성 데이터 파일을 저장/관리하기 위한 음성 데이터 파일 서버(400)로 구성될 수 있다.
먼저, 본 발명의 전체 시스템에 포함되는 사용자 단말 장치(100)는 인터넷(500)을 통하여 WAS(200)에 접속하기 위한 디지털 기기로서, 개인용 컴퓨터(예를 들어, 데스크탑 컴퓨터, 노트북 컴퓨터 등), PDA(Personal Digital Assistant), 이동 전화기 등이 제한 없이 다양하게 사용될 수 있다.
사용자는 사용자 단말 장치(100)를 이용하여 Internet ExplorerTM, NetscapeTM, LynxTM 등과 같은 웹 브라우저 또는 기타 정보 검색을 가능하게 하는 공지의 프로그램을 실행시켜 WAS(200)에 접속한 후, 추출의 대상이 될 웹 페이지 상 의 텍스트를 지정하게 된다(또는, 필요에 따라 사용자는 음성 변환될 텍스트의 적어도 일부를 웹 페이지 상에서 직접 타이핑하여 입력할 수도 있다). 이러한 지정을 위하여, 사용자는 텍스트의 일정 범위에 대하여 마우스오버를 수행하거나 마우스 드래깅을 행할 수 있다. 이에 따라 추출된 텍스트는 WAS(200)에 제공될 수 있다. 바람직하게는, 사용자는, 웹 페이지 상에서 텍스트를 지정하기 전에, 검색 질의어를 입력하고 전송하는 일련의 과정을 거침으로서 자신이 음성으로 변환하고자 하는 텍스트가 위치한 웹 페이지를 찾아 볼 수도 있다.
본 발명의 일 실시예에 따르면, 사용자 단말 장치(100)에는 음성으로 변환하고자 하는 텍스트를 추출하여 이를 WAS(200)에 전송하기 위한 프로그램 모듈(미도시됨)이 포함될 수 있다. 이러한 프로그램 모듈은 WAS(200)로부터 사용자 단말 장치(100)로 다운로드되어 설치될 수 있다. 한편, 음성 데이터 파일을 재생하기 위한 플레이어가 사용자 단말 장치(100)에 더 포함될 수 있다.
WAS(200)는 본 발명의 일 실시예에 따라 사용자 단말 장치(100)로부터 전송된 텍스트에 기초하여 음성 데이터 파일을 생성한 후 이를 사용자 단말 장치(100)에 제공하는 기능을 수행하는 서버이다. 관련하여, 비록 도 1에서는 WAS(200)가 텍스트-음성 변환 서버(300)나 음성 데이터 파일 서버(400)와 별개로 구성되어 있는 것으로 도시되어 있지만, 본 발명을 구현하는 당업자의 필요에 따라, 텍스트-음성 변환 서버(300)나 음성 데이터 파일 서버(400) 중 적어도 하나와 결합되어 있거나 이들을 포함하여 구성되어 있을 수도 있다.
텍스트-음성 변환 서버(300)는 실제로 텍스트-음성 변환을 수행하기 위한 서 버로서, 본 발명의 일 실시예에 따르면, WAS(200)로부터 전송 받은 텍스트를 음성으로 변환한 후, 상기 음성 데이터 파일을 다시 WAS(200)로 전송하는 역할을 한다. 이때, 텍스트-음성 변환 서버(300) 내의 텍스트-음성 변환 처리부(미도시됨)가 텍스트를 음성으로 변환하는 처리를 수행할 수 있다. 텍스트-음성 변환 서버(300)는 텍스트-음성 변환을 위한 음성 변환 데이터베이스(미도시됨)를 포함할 수 있다.
본 발명의 일 실시예에 따르면, 텍스트-음성 변환 서버(300)의 음성 변환 데이터베이스(미도시됨)에는 특정 텍스트에 대응하는 음성 데이터에 대한 정보가 미리 저장되어 있을 수 있다. 이렇듯 음성 변환 데이터베이스를 이용하여 텍스트에 기초한 음성 데이터 파일을 획득하는 기술에 관하여는 본 출원인의 연관 출원인 한국특허출원 제10-2007-0119406호(출원일: 2007년 11월 21일) 및 제10-2007-0122819호(출원일: 2007년 11월 29일)를 참조할 수 있다.
이에 더하여, 공지된 텍스트-음성 변환 기술에 따르면, 음절, 단어, 단락 및/또는 문장 단위의 텍스트에 대하여 구문 구조 분석이 수행되고 나서, 읽기 변환 과정을 통해 텍스트가 음소열로 변환되며, 획득된 음소열과 구문 구조 정보를 바탕으로 하고 텍스트-음성 변환 서버(300)의 음성 변환 데이터베이스(미도시됨)에 저장되어 있는 읽기 규칙과 운율 정보를 참조함으로써 텍스트로부터 변환된 음성이 생성될 수 있다.
이상 개략적으로 기술한 바와 같은 텍스트-음성 변환 기술은 이미 공지의 것이므로, 이 외의 다양한 기술을 통해 텍스트-음성 변환 서버(300)에서 텍스트-음성 변환이 수행될 수 있음은 자명하다.
한편, 음성 데이터 파일 서버(400)는 WAS(200)로부터 전송된 음성 데이터 파일을 저장하고 관리하는 기능을 수행한다. 이러한 음성 데이터 파일 서버(400)에는 상기 기능을 위한 전용 데이터베이스가 따로 구비되어 있을 수도 있다. 또한, 음성 데이터 파일 서버(400)에 위치한 음성 데이터 파일은 그 반복된 사용을 위하여 URL과 같은 파일 위치를 지시하는 식별자에 의해 식별될 수 있고, 사용자들은 이러한 식별자 정보에 기초하여 음성 데이터 파일을 재사용하거나 다른 사용자와 공유할 수 있다.
이상에서, 본 발명의 일 실시예에 따른 전체 시스템 구성에 대하여 설명하였으나, 이는 전적으로 예시적인 것에 불과함이 이해되어야 한다. 예를 들어, 본 발명의 변형 실시예에서는, WAS(200)의 구성요소의 일부가 텍스트-음성 변환 서버(300) 및/또는 음성 데이터 파일 서버(400)에 실질적으로 포함될 수도 있다. 또한, 도면부호 200 내지 400의 각 서버는 각각 둘 이상의 컴퓨터로 이루어지는 컴퓨터 그룹일 수도 있다.
이하에서는, 본 발명의 구현을 위하여 가장 중요한 기능을 수행하는 WAS(200)의 내부 구성 및 각 구성요소들의 기능에 대하여 살펴보기로 한다.
WAS 의 내부 구성
도 2는 본 발명의 일 실시예에 따른 WAS(200)의 내부 구성을 상세하게 도시한 도면으로서, 도 2를 참조하면, WAS(200)는 제어부(210), 인터페이스부(220), 텍스트 인식부(230), 텍스트-음성 변환부(240), 음성 데이터 파일 생성부(250), 통신부(260) 등을 포함함을 알 수 있다. 본 발명의 일 실시예에 따르면, 제어부(210), 인터페이스부(220), 텍스트 인식부(230), 텍스트-음성 변환부(240), 음성 데이터 파일 생성부(250), 통신부(260)는 그 중 적어도 일부가 WAS(200)에 포함되거나 WAS(200)와 통신하는 프로그램 모듈들일 수 있다. 이러한 프로그램 모듈들은 운영 시스템, 응용 프로그램 모듈 및 기타 프로그램 모듈의 형태로 WAS(200)에 포함될 수 있으며, 물리적으로는 여러가지 공지의 기억 장치 상에 저장될 수 있다. 또한, 이러한 프로그램 모듈들은 WAS(200)와 통신 가능한 원격 기억 장치에 저장될 수도 있다. 한편, 이러한 프로그램 모듈들은 본 발명에 따라 후술할 특정 업무를 수행하거나 특정 추상 데이터 유형을 실행하는 루틴, 서브루틴, 프로그램, 오브젝트, 컴포넌트, 데이터 구조 등을 포괄하지만, 이에 제한되지는 않는다.
먼저, 본 발명에 따른 제어부(210)는 인터페이스부(220), 텍스트 인식부(230), 텍스트-음성 변환부(240), 음성 데이터 파일 생성부(250), 통신부(260) 간의 데이터의 흐름을 제어하는 기능을 수행한다. 즉, 본 발명에 따른 제어부(210)는 외부로부터의 또는 WAS(200)의 각 구성요소 간의 데이터의 흐름을 제어함으로써, 인터페이스부(220), 텍스트 인식부(230), 텍스트 음성 변환부(240), 음성 데이터 파일 생성부(250)에서 각각 고유 기능을 수행하도록 제어한다.
한편, WAS(200)는, 사용자가 음성으로 변환하고자 하는 텍스트가 포함된 웹 페이지를 검색할 수 있도록 하는 사용자 인터페이스를 제공하고, 사용자가 송신한 질의를 질의 버퍼(미도시됨)에 저장함으로써, WAS(200)에 포함되는 검색 엔진(미도시됨)이 질의에 따른 검색을 처리할 수 있도록 하며, 검색 엔진에 의해 구성된, 질의에 대한 검색 결과를 결과 버퍼(미도시됨)에 저장한 후 사용자가 브라우징할 수 있도록 제공할 수 있다. 이러한 처리를 수행하기 위하여, WAS(200)에는 인터페이스부(220)가 포함될 수 있다.
또한, 본 발명의 일 실시예에 따르면, WAS(200)는 텍스트 인식부(230)에서 사용자 단말 장치(100)로부터 수신된 특정 텍스트를 인식한다. 이러한 텍스트 인식은 단지 사용자 단말 장치(100)로부터 수신된 텍스트 자체를 음성 변환의 대상으로 인식하는 것일 수도 있지만, 수신된 텍스트에 음성 변환이 불가능한 특수 문자 등이 있는지 여부를 살펴 이를 제거하는 처리를 포함하는 것일 수도 있다. 후자의 경우, 텍스트 인식부(230)는 필요에 따라 텍스트-음성 변환 서버(300)와 통신할 수 있다.
한편, WAS(200)는 텍스트-음성 변환을 위해 텍스트-음성 변환부(240)를 포함할 수 있다. 본 발명의 일 실시예에 따르면, 텍스트-음성 변환부(240)는 인식된 텍스트를 음성으로 변환하기 위하여 텍스트-음성 변환 서버(300)로 전송하고, 텍스트-음성 변환 서버(300)에서 변환된 음성 데이터 파일을 수신하는 기능을 수행한다. 본 발명의 일 실시예에 따르면, 텍스트-음성 변환 서버(300)에서 생성된 음성 데이터 파일은 보편적으로 가장 널리 쓰이는 사용자 컴퓨터 운영체제인 WindowsTM의 표준 미디어 플레이어로 재생 가능한 WAV 파일일 수 있다.
그 다음에, WAS(200)에는 음성 데이터 파일 생성부(250)가 포함될 수 있다. 통상 텍스트-음성 변환 서버(300)에서 생성되는 WAV 파일은 보편적으로 가장 널리 쓰이기는 하나 많은 경우에 있어 용량이 과다하게 커지는 문제가 있다. 따라서, 본 발명의 일 실시예에 따르면, 텍스트-음성 변환 서버(300)의 출력 파일인 WAV 파일을 음질의 지나친 저하를 초래하지 않는 범위 내에서 압축한 음성 데이터 파일을 생성할 필요가 있는데, 이를 위해 가장 적절한 압축 기술이 널리 알려진 MP3 표준 압축 기술이다. 이러한 기술에 의해 생성되는 압축된 음성 데이터 파일을 통상 MP3 파일이라고 칭한다. 여기에서, MP3란, 'MPEG-1 Audio Layer-3'의 약자로서, 영상 압축 표준인 MPEG에서 음성 데이터에 관한 압축 기술만을 따로 분리하여 규준한 것을 말한다. MP3 기술에 의하여 음성 데이터를 압축하면 압축률이 매우 뛰어나 CD 음질을 유지하면서도 원래의 음성 데이터 파일의 1/10 정도로 출력 파일의 크기를 줄일 수 있는 이점이 있다. 본 발명자들은 MP3 파일의 경우 고밀도 음성 데이터에 있어서는 그 음질의 열화가 드러날 경우가 있지만, 본 발명에서와 같이 텍스트를 음성 변환하여 이용하는 경우에는 사소한 음질의 열화가 전혀 문제되지 않는다는 점에 착안하였다.
한편, 음성 데이터 파일 생성부(250)에서 생성된 압축된 음성 데이터 파일(예를 들면, MP3 파일)은 음성 데이터 파일 서버(400)에 저장되어 관리될 수 있다. 이때에, WAS(200)는 해당 파일이 음성 데이터 파일 서버(400)에 저장된 위치를 나타내는 식별자를 저장하고, 이를 사용자 단말 장치(100)에 제공하여 줌으로써, 사용자들이 해당 파일을 몇 번이고 반복하여 이용하도록 할 수 있다. 전술한 바와 같이, 상기 파일 위치를 나타내는 식별자는 URL일 수 있다.
마지막으로, 통신부(260)는 사용자 단말 장치(100)로부터 음성으로 변환되어야 하는 텍스트를 수신하고, 수신된 텍스트를 텍스트-음성 변환 서버(300)로 송신 하며, 텍스트-음성 변환 서버(300)에서 생성된 음성 데이터 파일을 수신하고, 수신된 음성 데이터 파일이 압축되어 음성 데이터 파일 서버(400)에 저장된 후에는 그 키 값에 해당하는 파일 위치 식별자를 사용자 단말 장치(100)에 제공하는 기능을 수행할 수 있다. 즉, 통신부(260)는 WAS(200)로부터/로의 데이터 송수신이 가능하도록 하는 기능을 수행한다.
이상에서, 본 발명의 전체 시스템 및 WAS(200)의 내부 구성에 대하여 상세히 설명하였다. 이하에서는, 사용자가 본 발명의 일 실시예에 따라 웹 페이지의 텍스트를 음성 변환한 파일을 제공 받고 이를 재사용하거나 다른 사용자와 공유할 수 있게 되는 실례에 대하여 살펴보기로 한다.
본 발명의 활용 예
도 3a 내지 도 3b는 본 발명의 일 실시예에 따라 사용자가 웹 페이지 내의 텍스트를 MP3 파일로 변환하여 다운로드 받을 때에 표시되는 화면을 디자인한 도면이다.
예를 들어, 검색 엔진을 갖는 웹 사이트에 접속한 사용자가 '토익 공부 방법'이라는 질의어로 검색을 수행한 후, 검색된 결과 중 특정 웹 문서를 선택하고, 상기 웹 문서 내의 텍스트를 MP3 파일로 변환한 것을 본인의 컴퓨터에 다운로드 받으려 한다고 가정하자.
본 발명의 바람직한 일 실시예에 의하면, 사용자는 상기 웹 문서 내의 텍스트의 원하는 범위를 마우스로 드래깅할 수 있다. 그 다음에 사용자가 드래깅을 해제하지 않은 상태에서 마우스 오른쪽 버튼을 클릭한 후 노출되는 메뉴 바의 목록 중 '선택 영역을 MP3 형식으로 다운로드'를 선택하면 사용자의 컴퓨터로부터 해당 텍스트가 추출되어 상기 웹 사이트로 텍스트-음성 변환 요청이 발의될 수 있다.
그 다음에, 위와 같은 요청을 전달 받은 웹 사이트는 그 운영 서버에 포함되어 있는 혹은 외부에 위치되어 있는 텍스트-음성 변환 서버에 대하여 텍스트-음성 변환을 요청하게 되고, 이 요청에 따라 생성된 음성 데이터 파일은 웹 사이트의 운영 서버에서 다시 MP3 형식으로 압축되어 저장될 수 있다. 이리하여 생성된 MP3 파일은 웹 사이트의 운영 서버의 소정 데이터베이스에 위치하게 되는데, 웹 사이트 운영 서버는 사용자 컴퓨터에 상기 MP3 파일의 위치를 지시하는 URL을 리턴하여 사용자가 MP3 파일을 다운로드 받을 수 있도록 한다. 이때에, 사용자에게는 도 3b에 도시된 바와 같은 확인 창이 표시될 수 있다. 사용자는 여기에서 저장 버튼을 클릭함으로써 애초에 마우스로 드래깅하였던 텍스트에 대응되는 MP3 파일을 다운로드할 수 있다.
이상 설명된 본 발명에 따른 실시예들은 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스 크(floptical disk)와 같은 자기-광 매체(magneto-optical media) 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 상기 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상에서 본 발명이 구체적인 구성요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나, 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명이 상기 실시예들에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형을 꾀할 수 있다.
따라서, 본 발명의 사상은 상기 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등하게 또는 등가적으로 변형된 모든 것들은 본 발명의 사상의 범주에 속한다고 할 것이다.
도 1은 본 발명의 일 실시예에 따라 텍스트를 음성으로 변환하여 음성 데이터 파일의 형식으로 제공하기 위한 전체 시스템의 개략적인 구성도이다.
도 2는 본 발명의 일 실시예에 따른 WAS의 내부 구성을 상세하게 도시한 도면이다.
도 3a 내지 도 3b는 본 발명의 일 실시예에 따라 사용자가 웹 페이지 내의 텍스트를 MP3 파일로 변환하여 다운로드 받을 때에 표시되는 화면을 디자인한 도면이다.
<도면의 주요 부분에 대한 부호의 설명>
100: 사용자 단말 장치
200: WAS
210: 제어부
220: 인터페이스부
230: 텍스트 인식부
240: 텍스트 음성 변환부
250: 음성 데이터 파일 생성부
260: 통신부
300: 텍스트-음성 변환 서버
400: 음성 데이터 파일 서버
500: 인터넷

Claims (12)

  1. 웹 페이지로부터 텍스트를 추출하고 이를 음성으로 변환하여 제공하는 방법으로서,
    단말 장치에서 텍스트를 추출하는 단계,
    상기 추출된 텍스트를 상기 단말 장치로부터 상기 단말 장치와 통신 가능한 연산 시스템으로 전송하는 단계,
    상기 연산 시스템에서 상기 추출된 텍스트를 음성으로 변환하여 음성 데이터 파일을 생성하는 단계,
    상기 연산 시스템에서 상기 음성 데이터 파일을 압축하는 단계,
    상기 연산 시스템에 상기 압축된 음성 데이터 파일을 저장하는 단계, 및
    상기 연산 시스템으로부터 상기 단말 장치로 상기 압축되어 저장된 음성 데이터 파일의 위치를 나타내는 식별자를 전송하는 단계
    를 포함하고,
    상기 단말 장치에서 텍스트를 추출하는 단계는, 상기 텍스트 상의 마우스 포인터를 인식하는 단계를 포함하는 방법.
  2. 제1항에 있어서,
    상기 연산 시스템은 웹 애플리케이션 서버, 텍스트-음성 변환 서버 및 음성 데이터 파일 서버 중 적어도 하나를 포함하는 방법.
  3. 삭제
  4. 제1항에 있어서,
    상기 텍스트로부터 음성 변환된 음성 데이터 파일은 WAV 파일인 방법.
  5. 제1항에 있어서,
    상기 압축된 음성 데이터 파일은 MP3 파일인 방법.
  6. 제1항에 있어서,
    상기 압축되어 저장된 음성 데이터 파일의 위치를 나타내는 식별자는 URL인 방법.
  7. 단말 장치와 통신하고, 웹 페이지로부터 텍스트를 추출하여 이를 음성으로 변환해서 제공하기 위한 시스템으로서,
    단말 장치로부터 추출된 텍스트를 인식하기 위한 텍스트 인식부,
    상기 추출된 텍스트를 음성으로 변환하기 위한 텍스트-음성 변환부,
    상기 텍스트-음성 변환부에서 변환된 음성을 압축하여 압축된 음성 데이터 파일을 생성하는 음성 데이터 파일 생성부, 및
    상기 압축된 음성 데이터 파일의 위치를 나타내는 식별자를 상기 단말 장치로 전송하는 통신부
    를 포함하고,
    상기 텍스트 인식부는, 상기 텍스트 상의 마우스 포인터를 인식하는 시스템.
  8. 제7항에 있어서,
    상기 압축된 음성 데이터 파일을 저장하기 위한 데이터베이스를 더 포함하는 시스템.
  9. 제7항 또는 제8항에 있어서,
    상기 변환된 음성은 WAV 형식으로 저장되는 시스템.
  10. 제7항 또는 제8항에 있어서,
    상기 압축된 음성 데이터 파일은 MP3 파일인 시스템.
  11. 제7항 또는 제8항에 있어서,
    상기 압축된 음성 데이터 파일의 위치를 나타내는 식별자는 URL인 시스템.
  12. 제1항, 제2항 및 제4항 내지 제6항 중 어느 한 항에 따른 방법을 실행하기 위한 컴퓨터 프로그램을 기록하는 컴퓨터 판독 가능한 기록 매체.
KR1020070125105A 2007-12-04 2007-12-04 웹 페이지로부터 텍스트를 추출하고 이를 음성 데이터파일로 변환하여 제공하기 위한 방법, 시스템 및 컴퓨터판독 가능한 기록 매체 KR100923942B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020070125105A KR100923942B1 (ko) 2007-12-04 2007-12-04 웹 페이지로부터 텍스트를 추출하고 이를 음성 데이터파일로 변환하여 제공하기 위한 방법, 시스템 및 컴퓨터판독 가능한 기록 매체

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020070125105A KR100923942B1 (ko) 2007-12-04 2007-12-04 웹 페이지로부터 텍스트를 추출하고 이를 음성 데이터파일로 변환하여 제공하기 위한 방법, 시스템 및 컴퓨터판독 가능한 기록 매체

Publications (2)

Publication Number Publication Date
KR20090058360A KR20090058360A (ko) 2009-06-09
KR100923942B1 true KR100923942B1 (ko) 2009-10-29

Family

ID=40988850

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020070125105A KR100923942B1 (ko) 2007-12-04 2007-12-04 웹 페이지로부터 텍스트를 추출하고 이를 음성 데이터파일로 변환하여 제공하기 위한 방법, 시스템 및 컴퓨터판독 가능한 기록 매체

Country Status (1)

Country Link
KR (1) KR100923942B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101040585B1 (ko) * 2009-06-05 2011-06-10 주식회사 보이스웨어 Tts 서버를 이용한 웹 리더 시스템 및 그 방법

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030079841A (ko) * 2003-08-12 2003-10-10 (주)해와달 인터넷에서 링크형태의 실시간 음성변환 BBS(Bulletin Board System) 서비스
KR20040018687A (ko) * 2002-08-26 2004-03-04 안성민 인터넷 컨텐츠를 tts 변환하여 개인정보처리기로제공하는 네트워크 동기화 시스템 및 그 방법
JP2005106905A (ja) 2003-09-29 2005-04-21 Matsushita Electric Ind Co Ltd 音声出力システムおよびサーバ装置
KR20070106652A (ko) * 2005-03-01 2007-11-05 오드캐스트, 인코포레이티드 실시간 클라이언트 서버의 문자-음성 변환 인터페이스를위한 시스템 및 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040018687A (ko) * 2002-08-26 2004-03-04 안성민 인터넷 컨텐츠를 tts 변환하여 개인정보처리기로제공하는 네트워크 동기화 시스템 및 그 방법
KR20030079841A (ko) * 2003-08-12 2003-10-10 (주)해와달 인터넷에서 링크형태의 실시간 음성변환 BBS(Bulletin Board System) 서비스
JP2005106905A (ja) 2003-09-29 2005-04-21 Matsushita Electric Ind Co Ltd 音声出力システムおよびサーバ装置
KR20070106652A (ko) * 2005-03-01 2007-11-05 오드캐스트, 인코포레이티드 실시간 클라이언트 서버의 문자-음성 변환 인터페이스를위한 시스템 및 방법

Also Published As

Publication number Publication date
KR20090058360A (ko) 2009-06-09

Similar Documents

Publication Publication Date Title
KR100861860B1 (ko) 합성 데이터 음성 렌더링의 동적 운율 조정 방법, 시스템및 컴퓨터 프로그램 제품
CN107111516B (zh) 数字个人助理内的无头任务完成
US8510277B2 (en) Informing a user of a content management directive associated with a rating
US9092542B2 (en) Podcasting content associated with a user account
RU2355044C2 (ru) Последовательный мультимодальный ввод
US8781840B2 (en) Retrieval and presentation of network service results for mobile device using a multimodal browser
US8271107B2 (en) Controlling audio operation for data management and data rendering
CN100568241C (zh) 用于集中内容管理的方法和系统
US20070214149A1 (en) Associating user selected content management directives with user selected ratings
RU2355045C2 (ru) Последовательный мультимодальный ввод
US20070214148A1 (en) Invoking content management directives
US7593854B2 (en) Method and system for collecting user-interest information regarding a picture
US20090326953A1 (en) Method of accessing cultural resources or digital contents, such as text, video, audio and web pages by voice recognition with any type of programmable device without the use of the hands or any physical apparatus.
JP2004310748A (ja) ユーザ入力に基づくデータの提示
GB2383247A (en) Multi-modal picture allowing verbal interaction between a user and the picture
WO2007093483A1 (en) Synthesizing the content of disparate data types
WO2006025797A1 (en) A search system
US20100094635A1 (en) System for Voice-Based Interaction on Web Pages
CN1591315A (zh) 用于高级交互接口的语义对象同步理解
JP2014513828A (ja) 自動会話支援
JP2009009170A (ja) 情報検索システム及びサーバ装置
KR100923942B1 (ko) 웹 페이지로부터 텍스트를 추출하고 이를 음성 데이터파일로 변환하여 제공하기 위한 방법, 시스템 및 컴퓨터판독 가능한 기록 매체
KR20050100794A (ko) 이동 통신 단말기에 개인홈피 정보를 제공하는 방법 및 그시스템
JP2005128955A (ja) 情報処理方法および記憶媒体、プログラム
KR100689059B1 (ko) 인터넷 컨텐츠를 tts 변환하여 개인정보처리기로제공하는 네트워크 동기화 시스템 및 그 방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20121011

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20130926

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20140925

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20151008

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20161010

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20181008

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20191001

Year of fee payment: 11