KR20090112882A - 텍스트 투 스피치와 토킹해드를 이용한 멀티미디어 자료제공서비스 - Google Patents

텍스트 투 스피치와 토킹해드를 이용한 멀티미디어 자료제공서비스 Download PDF

Info

Publication number
KR20090112882A
KR20090112882A KR1020080038636A KR20080038636A KR20090112882A KR 20090112882 A KR20090112882 A KR 20090112882A KR 1020080038636 A KR1020080038636 A KR 1020080038636A KR 20080038636 A KR20080038636 A KR 20080038636A KR 20090112882 A KR20090112882 A KR 20090112882A
Authority
KR
South Korea
Prior art keywords
tts
talking head
module
emotion
multimedia
Prior art date
Application number
KR1020080038636A
Other languages
English (en)
Inventor
이훈
최경호
박순영
이신성
신용민
Original Assignee
목포대학교산학협력단
(주)가민정보시스템
(주)이후맥스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 목포대학교산학협력단, (주)가민정보시스템, (주)이후맥스 filed Critical 목포대학교산학협력단
Priority to KR1020080038636A priority Critical patent/KR20090112882A/ko
Publication of KR20090112882A publication Critical patent/KR20090112882A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L2021/105Synthesis of the lips movements from speech, e.g. for talking heads

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Software Systems (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

본 발명은 인터넷 서버를 통한 서비스를 비롯한 멀티미디어 콘텐츠-홈페이지의 특정자료나 프레젠테이션의 발표, 온라인 동화, 애니메이션 등의 활용시스템에 관한 것이다.
이를 위한 본 발명은 TTS(TEXT TO SEECH CONVERSION SYSTEM)라는 텍스트와 같은 문자정보를 음성정보로 합성하는 이 방식을 진보시켜서 포털 사이트의 뉴스, 블로그의 게시판, 새 메일확인과 내용, 프레젠테이션의 메모의 텍스트 처리, 한글 파일 등 여러 포맷 형식들의 텍스트 파일들을 사용자가 편리하게 음성으로 변환하여 들을 수 있고, 추가적으로 토킹해드(Talking head)를 이용하여 교육, 홈페이지의 사용 목적에 맞는 안내프로그램 도우미, 시각 또는 청각 장애우를 위한 프로그램 등 여러 분야에 적용될 수 있다. 그리고 온라인동화와 애니메이션 제작에 있어서 감정표현이 가능하게 하여 온라인 멀티미디어 콘텐츠의 개발과 활용에 크게 기여할 것이다.
위 발명에 있어서 음성 정보를 입력 정보로 변환하는 모듈과 입력된 명령에서 특정 텍스트를 찾는 모듈과 특정 텍스트를 찾아 음성신호로 바꾸어주는 모듈과 음성 신호와 동기화 되어 표현되는 토킹해드(Talking head)출력 영상모듈과 그 출력 영상의 DB모듈 위의 기재된 모듈들을 연동하여 나타나는 출력 모듈에 관한 관리, 제어 모듈을 포함하는 것을 특징으로 한다.
TTS, 토킹해드(Talking head), 음성신호인식, 프레젠테이션발표 도구, 웹 자료검색.

Description

텍스트 투 스피치와 토킹해드를 이용한 멀티미디어 자료 제공서비스{Multimedia data offering service by Using TTS and Talking head}
본 발명은 음성정보기술분야로써 음성명령에 의한 제어, 음성을 통한 정보제공 등을 사용하는 방식이다. 음성 명령을 인식하는 기술과 선택된 필드에서의 처리과정을 위한 음성 DB구축 기술, 동화와 애니메이션을 위한 감정 태크, 음성의 부호화 기술, 표현과 토킹헤드와 음성표현을 동시에 구현에 관한 것이다.
본 발명은 멀티미디어 장비와 활용 면에서 인간에게 조금 더 편리한 기능을 제공하기 위하여 고안되었다. 음성을 인식하여 원하는 필드를 찾고 그 필드를 토킹헤드와 함께 음성으로 표현하여 가이드 역할과 집중을 시킬 수 있는 매개체로 사용하여 사용자에게 편리한 환경을 제공하는 시스템에 관한 것이다. 이를 위하여 원하는 필드를 로딩하는 시스템과 TTS와 토킹헤드를 이용하여 표현하는 기술들을 시스템화하였다.
멀티미디어 자료에는 여러 가지 포맷이 존재한다. 이들 중에서 사용자가 원하는 부 분을 찾아내어 음성으로 표현해 주어 목적에 부합하는 최대효과를 누릴 수 있는 시스템 제공에 관한 것이다.
여기서 TTS는 도움말 파일이나 웹 페이지와 같은 컴퓨터 문서의 내용을 사람이 읽어주는 소리로 만들어주는 음성 합성 프로그램의 한 종류이다. 현재 나와 있는 TTS 프로그램들로는 음성으로 내용을 읽어주는 이-메일과, 자동 응답시스템의 음성안내 기능 등이 있다. TTS는 종종 음성인식 프로그램과 함께 사용되기도 한다.
종전의 기술은 위와 같이 단순히 웹 페이지와 한정적인 상황 속에서의 일들을 처리해 왔다면 현재 구현 중인 방법은 상호 작용을 통해 능동적인 대처와 기능을 수행할 수 있도록 한다.
문헌 1 Blackwell Pub, Johnson, Keith, Acoustic and Auditory Phonetics.
문헌 2 대한음성학회, 자연어 처리 기반 한국어 TTS 시스템 구현, 김병창, 이근배, 말소리 2003
문헌 3 대한음성학회, 유/무성/묵음 정보를 이용한 TTS용 자동음소분할기 성능향상, 김민제, 이정철, 김종진, 말소리, 2006
문헌 4 KTH, Beskow, Jonas, Talking Heads ?Models and Applications for Multimodal Speech Synthesis.
본 발명은 기존의 한정된 프로그램 혹은 툴에서 TTS의 기계적인 음성으로 정보를 전달했던 방식을 개선하고자 고안되었다. 대다수의TTS들은 단순히 몇 가지 특색의 목소리로 단순히 글자만 읽어주어 딱딱하고 정보전달의 방식에 있어서 효율성이 다소 떨어질 수 있었다. 이를 위하여 전달 수단인 TTS방식에 추가적인 감정 표현이라는 요소와 토킹해드(Talking Head)라는 이미지 매개체를 제공하여 보다 확실한 정보전달 수단으로 사용하는 것을 목적으로 한다.
본 발명은 TTS의 DB에서 감정적 표현 부분을 추가하고 멀티미디어 매체에 tag를 넣어서 감정표현이 필요한 부분에서 특정 DB가 적용되게 하고 이와 연동하여 토킹해드를 구동하여 좀 더 자연스러운 표현을 통해 전달되고자 하는 정보를 보다 효율적으로 전할 수가 있다.
본 발명에 의하면, 멀티미디어 콘텐츠를 사용목적에 따라 더욱더 사용자 편의에 맞게 적용할 수 있게 해주는 효과가 있다.
본 발명을 첨부된 도면을 참조하여 상세히 설명하면 다음과 같다. 도 2에서 사용자가 요구하는 멀티미디어 매체(100)에서 원하는 데이터를 선택하고 이를 TTS와 Talking Head를 동시에 사용 할 것인지 아니면 어느 하나만 사용할 것인지에 대해 서 판단하게 된다(200). Microsoft 사의 Powerpoint로 예를 들면 본 발명하는 툴에서 이를 인식하고 프레젠테이션의 본문을 읽을 것인지 아니면 발표 메모란을 이용하여 발표를 실행 할 것인지를 판단한다.
3D module인 토킹해드(300)는 TTS의 DB와 상호 연동하여 발음 할 때의 입 모양 얼굴 이미지 생성 및 실행을 담당하여보다 시각적으로 집중력을 높여 줄 수 있는 도구로 사용된다. 3D 모형을 다른 캐릭터로 전환하여 애니메이션이나 온라인동화 등에서 유용하게 사용될 것이다.
TTS(300)에서 가장 큰 특징은 감정을 표현하는 DB를 xml의 tag처럼 추가하여 의미전달의 효율성을 높이고자 한다. 이를 위하여 파형과 억양과 음의 길이를 조절하도록 DB에 이를 조절하고 적용한 모델들의 추가한다.
마지막 결과물을 통합하고 출력매체에 표현하는 부분(500)에서는 사용자의 요구에 최대한 부합하도록 싱크 제어와 딜레이 조절을 담당한다.
본 발명에 의하면 기존의 포털사이트의 뉴스와 같은 콘텐츠 경우에 텍스트형식으로만 서비스 되는 것을 음성과 토킹해드로 제공하여 다양한 부가적인 광고나 의미전달 등에 기여할 수 있으며 온라인 또는 오프라인 동화 콘텐츠 같은 경우 이 툴을 사용하여 주의가 산만한 어린이들에게 집중력을 향상시키는 교육적 목적으로 쓰일 수가 있다. 프레젠테이션의 경우 프레젠테이션의 발표메모 프레임의 텍스트를 읽어와서 TTS를 이용하여 발표자의 부재시에도 회의나 학술회의 같은 발표자리에서 원활하게 진행할 수 있도록 도움을 줄 수 있다.
도 1은 전체적인 서비스 구조
도 2에서 100: 멀티미디어 종류를 인식 , 200: 요구하는 데이터의 판별과 추출, 300: Talking Head 모듈에서의 이루어지는 프로세스 , 310: Talking head DB, 400: TTS 프로세스 , 410: TTS DB, 500: 처리 후 결과.

Claims (2)

  1. 전체적인 시스템에 관하여 음성 정보를 입력 정보로 변환하는 모듈과 입력된 명령에서 특정 텍스트를 찾는 모듈과 특정 텍스트를 찾아 음성신호로 바꾸어주는 모듈과 음성 신호와 동기화 되어 표현되는 3D 출력 영상모듈과 그 출력 영상의 DB모듈
  2. TTS DB에서의 감정표현 부분을 XML의 tag형식으로 추가하여 표현하고자 하는 구간에 적용시켜서 보다 의미전달을 효과적으로 활용할 수 있도록 하는 방법. 뉴스 싸이트는 필요없겠으나, 온라인 동화, 애니메이션 시스템 등에서는 감정표현을 위한 방법이 필요하게 된다.
    이를 위해, XML 등에서 사용하는 Tag를 부착하고 (즉, <슬픔:1>, <기쁨:6> 등 모든 감정표현에 대해서 정의) 1-10에 해당하는 감정의 레벨을 지정하게 하여 감정의 시작과 끝을 감정표현 파서가 분석을 하여 감정표현을 하는 토킹헤드를 구현한다.
KR1020080038636A 2008-04-25 2008-04-25 텍스트 투 스피치와 토킹해드를 이용한 멀티미디어 자료제공서비스 KR20090112882A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020080038636A KR20090112882A (ko) 2008-04-25 2008-04-25 텍스트 투 스피치와 토킹해드를 이용한 멀티미디어 자료제공서비스

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020080038636A KR20090112882A (ko) 2008-04-25 2008-04-25 텍스트 투 스피치와 토킹해드를 이용한 멀티미디어 자료제공서비스

Publications (1)

Publication Number Publication Date
KR20090112882A true KR20090112882A (ko) 2009-10-29

Family

ID=41554034

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020080038636A KR20090112882A (ko) 2008-04-25 2008-04-25 텍스트 투 스피치와 토킹해드를 이용한 멀티미디어 자료제공서비스

Country Status (1)

Country Link
KR (1) KR20090112882A (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101439212B1 (ko) * 2012-12-04 2014-09-12 (주)에프엑스기어 단말 장치 및 이를 이용한 토킹 헤드 표시 방법
CN113903325A (zh) * 2021-05-31 2022-01-07 荣耀终端有限公司 文本转3d音频的方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101439212B1 (ko) * 2012-12-04 2014-09-12 (주)에프엑스기어 단말 장치 및 이를 이용한 토킹 헤드 표시 방법
CN113903325A (zh) * 2021-05-31 2022-01-07 荣耀终端有限公司 文本转3d音频的方法及装置

Similar Documents

Publication Publication Date Title
CN107516511B (zh) 意图识别和情绪的文本到语音学习系统
US20230316643A1 (en) Virtual role-based multimodal interaction method, apparatus and system, storage medium, and terminal
US11321890B2 (en) User interface for generating expressive content
US20200294487A1 (en) Hands-free annotations of audio text
US9318100B2 (en) Supplementing audio recorded in a media file
US9196241B2 (en) Asynchronous communications using messages recorded on handheld devices
KR101594057B1 (ko) 텍스트 데이터의 처리 방법 및 장치
KR102035596B1 (ko) 인공지능 기반의 가상 캐릭터의 페이셜 애니메이션 자동 생성 시스템 및 방법
KR102116309B1 (ko) 가상 캐릭터와 텍스트의 동기화 애니메이션 출력 시스템
US9240180B2 (en) System and method for low-latency web-based text-to-speech without plugins
US20080162559A1 (en) Asynchronous communications regarding the subject matter of a media file stored on a handheld recording device
CN109065019B (zh) 一种面向智能机器人的故事数据处理方法及系统
US20080243510A1 (en) Overlapping screen reading of non-sequential text
KR20090112882A (ko) 텍스트 투 스피치와 토킹해드를 이용한 멀티미디어 자료제공서비스
Amiriparian et al. Guest editorial: special issue on affective speech and language synthesis, generation, and conversion
Wester et al. Real-Time Reactive Speech Synthesis: Incorporating Interruptions.
KR101039668B1 (ko) 텍스트데이터 기반의 얼굴 애니메이션 출력방법 및 그 시스템
Arawjo et al. Typetalker: A speech synthesis-based multi-modal commenting system
KR20110110382A (ko) 언어 학습을 위해 멀티미디어 자막으로 음성 인식 시스템을 사용하는 방법
KR20190111642A (ko) 실제 사진의 픽셀 기반의 토킹 헤드 애니메이션을 이용한 영상 처리 시스템 및 방법
US8219402B2 (en) Asynchronous receipt of information from a user
KR101579905B1 (ko) 리터러시 향상을 위한 영어단어 디코딩 멀티미디어파일 생성시스템
Eldhose et al. Alyce: An Artificial Intelligence Fine-Tuned Screenplay Writer
KR20190075765A (ko) 문자음성자동변환을 이용한 웹툰의 음성출력 시스템
CN113709551B (zh) 基于剧本的视频展示方法、装置和存储介质

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application