KR20090112882A

KR20090112882A - 텍스트 투 스피치와 토킹해드를 이용한 멀티미디어 자료제공서비스

Info

Publication number: KR20090112882A
Application number: KR1020080038636A
Authority: KR
Inventors: 이훈; 최경호; 박순영; 이신성; 신용민
Original assignee: 목포대학교산학협력단; (주)가민정보시스템; (주)이후맥스
Priority date: 2008-04-25
Filing date: 2008-04-25
Publication date: 2009-10-29

Abstract

본 발명은 인터넷 서버를 통한 서비스를 비롯한 멀티미디어 콘텐츠-홈페이지의 특정자료나 프레젠테이션의 발표, 온라인 동화, 애니메이션 등의 활용시스템에 관한 것이다.

이를 위한 본 발명은 TTS(TEXT TO SEECH CONVERSION SYSTEM)라는 텍스트와 같은 문자정보를 음성정보로 합성하는 이 방식을 진보시켜서 포털 사이트의 뉴스, 블로그의 게시판, 새 메일확인과 내용, 프레젠테이션의 메모의 텍스트 처리, 한글 파일 등 여러 포맷 형식들의 텍스트 파일들을 사용자가 편리하게 음성으로 변환하여 들을 수 있고, 추가적으로 토킹해드(Talking head)를 이용하여 교육, 홈페이지의 사용 목적에 맞는 안내프로그램 도우미, 시각 또는 청각 장애우를 위한 프로그램 등 여러 분야에 적용될 수 있다. 그리고 온라인동화와 애니메이션 제작에 있어서 감정표현이 가능하게 하여 온라인 멀티미디어 콘텐츠의 개발과 활용에 크게 기여할 것이다.

위 발명에 있어서 음성 정보를 입력 정보로 변환하는 모듈과 입력된 명령에서 특정 텍스트를 찾는 모듈과 특정 텍스트를 찾아 음성신호로 바꾸어주는 모듈과 음성 신호와 동기화 되어 표현되는 토킹해드(Talking head)출력 영상모듈과 그 출력 영상의 DB모듈 위의 기재된 모듈들을 연동하여 나타나는 출력 모듈에 관한 관리, 제어 모듈을 포함하는 것을 특징으로 한다.

TTS, 토킹해드(Talking head), 음성신호인식, 프레젠테이션발표 도구, 웹 자료검색.

Description

텍스트 투 스피치와 토킹해드를 이용한 멀티미디어 자료 제공서비스{Multimedia data offering service by Using TTS and Talking head}

본 발명은 음성정보기술분야로써 음성명령에 의한 제어, 음성을 통한 정보제공 등을 사용하는 방식이다. 음성 명령을 인식하는 기술과 선택된 필드에서의 처리과정을 위한 음성 DB구축 기술, 동화와 애니메이션을 위한 감정 태크, 음성의 부호화 기술, 표현과 토킹헤드와 음성표현을 동시에 구현에 관한 것이다.

본 발명은 멀티미디어 장비와 활용 면에서 인간에게 조금 더 편리한 기능을 제공하기 위하여 고안되었다. 음성을 인식하여 원하는 필드를 찾고 그 필드를 토킹헤드와 함께 음성으로 표현하여 가이드 역할과 집중을 시킬 수 있는 매개체로 사용하여 사용자에게 편리한 환경을 제공하는 시스템에 관한 것이다. 이를 위하여 원하는 필드를 로딩하는 시스템과 TTS와 토킹헤드를 이용하여 표현하는 기술들을 시스템화하였다.

멀티미디어 자료에는 여러 가지 포맷이 존재한다. 이들 중에서 사용자가 원하는 부 분을 찾아내어 음성으로 표현해 주어 목적에 부합하는 최대효과를 누릴 수 있는 시스템 제공에 관한 것이다.

여기서 TTS는 도움말 파일이나 웹 페이지와 같은 컴퓨터 문서의 내용을 사람이 읽어주는 소리로 만들어주는 음성 합성 프로그램의 한 종류이다. 현재 나와 있는 TTS 프로그램들로는 음성으로 내용을 읽어주는 이-메일과, 자동 응답시스템의 음성안내 기능 등이 있다. TTS는 종종 음성인식 프로그램과 함께 사용되기도 한다.

종전의 기술은 위와 같이 단순히 웹 페이지와 한정적인 상황 속에서의 일들을 처리해 왔다면 현재 구현 중인 방법은 상호 작용을 통해 능동적인 대처와 기능을 수행할 수 있도록 한다.

문헌 1 Blackwell Pub, Johnson, Keith, Acoustic and Auditory Phonetics.

문헌 2 대한음성학회, 자연어 처리 기반 한국어 TTS 시스템 구현, 김병창, 이근배, 말소리 2003

문헌 3 대한음성학회, 유/무성/묵음 정보를 이용한 TTS용 자동음소분할기 성능향상, 김민제, 이정철, 김종진, 말소리, 2006

문헌 4 KTH, Beskow, Jonas, Talking Heads ?Models and Applications for Multimodal Speech Synthesis.

본 발명은 기존의 한정된 프로그램 혹은 툴에서 TTS의 기계적인 음성으로 정보를 전달했던 방식을 개선하고자 고안되었다. 대다수의TTS들은 단순히 몇 가지 특색의 목소리로 단순히 글자만 읽어주어 딱딱하고 정보전달의 방식에 있어서 효율성이 다소 떨어질 수 있었다. 이를 위하여 전달 수단인 TTS방식에 추가적인 감정 표현이라는 요소와 토킹해드(Talking Head)라는 이미지 매개체를 제공하여 보다 확실한 정보전달 수단으로 사용하는 것을 목적으로 한다.

본 발명은 TTS의 DB에서 감정적 표현 부분을 추가하고 멀티미디어 매체에 tag를 넣어서 감정표현이 필요한 부분에서 특정 DB가 적용되게 하고 이와 연동하여 토킹해드를 구동하여 좀 더 자연스러운 표현을 통해 전달되고자 하는 정보를 보다 효율적으로 전할 수가 있다.

본 발명에 의하면, 멀티미디어 콘텐츠를 사용목적에 따라 더욱더 사용자 편의에 맞게 적용할 수 있게 해주는 효과가 있다.

본 발명을 첨부된 도면을 참조하여 상세히 설명하면 다음과 같다. 도 2에서 사용자가 요구하는 멀티미디어 매체(100)에서 원하는 데이터를 선택하고 이를 TTS와 Talking Head를 동시에 사용 할 것인지 아니면 어느 하나만 사용할 것인지에 대해 서 판단하게 된다(200). Microsoft 사의 Powerpoint로 예를 들면 본 발명하는 툴에서 이를 인식하고 프레젠테이션의 본문을 읽을 것인지 아니면 발표 메모란을 이용하여 발표를 실행 할 것인지를 판단한다.

3D module인 토킹해드(300)는 TTS의 DB와 상호 연동하여 발음 할 때의 입 모양 얼굴 이미지 생성 및 실행을 담당하여보다 시각적으로 집중력을 높여 줄 수 있는 도구로 사용된다. 3D 모형을 다른 캐릭터로 전환하여 애니메이션이나 온라인동화 등에서 유용하게 사용될 것이다.

TTS(300)에서 가장 큰 특징은 감정을 표현하는 DB를 xml의 tag처럼 추가하여 의미전달의 효율성을 높이고자 한다. 이를 위하여 파형과 억양과 음의 길이를 조절하도록 DB에 이를 조절하고 적용한 모델들의 추가한다.

마지막 결과물을 통합하고 출력매체에 표현하는 부분(500)에서는 사용자의 요구에 최대한 부합하도록 싱크 제어와 딜레이 조절을 담당한다.

본 발명에 의하면 기존의 포털사이트의 뉴스와 같은 콘텐츠 경우에 텍스트형식으로만 서비스 되는 것을 음성과 토킹해드로 제공하여 다양한 부가적인 광고나 의미전달 등에 기여할 수 있으며 온라인 또는 오프라인 동화 콘텐츠 같은 경우 이 툴을 사용하여 주의가 산만한 어린이들에게 집중력을 향상시키는 교육적 목적으로 쓰일 수가 있다. 프레젠테이션의 경우 프레젠테이션의 발표메모 프레임의 텍스트를 읽어와서 TTS를 이용하여 발표자의 부재시에도 회의나 학술회의 같은 발표자리에서 원활하게 진행할 수 있도록 도움을 줄 수 있다.

도 1은 전체적인 서비스 구조

도 2에서 100: 멀티미디어 종류를 인식 , 200: 요구하는 데이터의 판별과 추출, 300: Talking Head 모듈에서의 이루어지는 프로세스 , 310: Talking head DB, 400: TTS 프로세스 , 410: TTS DB, 500: 처리 후 결과.

Claims

전체적인 시스템에 관하여 음성 정보를 입력 정보로 변환하는 모듈과 입력된 명령에서 특정 텍스트를 찾는 모듈과 특정 텍스트를 찾아 음성신호로 바꾸어주는 모듈과 음성 신호와 동기화 되어 표현되는 3D 출력 영상모듈과 그 출력 영상의 DB모듈
TTS DB에서의 감정표현 부분을 XML의 tag형식으로 추가하여 표현하고자 하는 구간에 적용시켜서 보다 의미전달을 효과적으로 활용할 수 있도록 하는 방법. 뉴스 싸이트는 필요없겠으나, 온라인 동화, 애니메이션 시스템 등에서는 감정표현을 위한 방법이 필요하게 된다.

이를 위해, XML 등에서 사용하는 Tag를 부착하고 (즉, <슬픔:1>, <기쁨:6> 등 모든 감정표현에 대해서 정의) 1-10에 해당하는 감정의 레벨을 지정하게 하여 감정의 시작과 끝을 감정표현 파서가 분석을 하여 감정표현을 하는 토킹헤드를 구현한다.