KR20070028764A - 다수의 합성기를 제어하여 다양한 음성 합성 기능을제공하는 음성 합성 방법 및 그 시스템 - Google Patents

다수의 합성기를 제어하여 다양한 음성 합성 기능을제공하는 음성 합성 방법 및 그 시스템 Download PDF

Info

Publication number
KR20070028764A
KR20070028764A KR1020050083086A KR20050083086A KR20070028764A KR 20070028764 A KR20070028764 A KR 20070028764A KR 1020050083086 A KR1020050083086 A KR 1020050083086A KR 20050083086 A KR20050083086 A KR 20050083086A KR 20070028764 A KR20070028764 A KR 20070028764A
Authority
KR
South Korea
Prior art keywords
text
synthesis
synthesizer
tag
message
Prior art date
Application number
KR1020050083086A
Other languages
English (en)
Other versions
KR100724868B1 (ko
Inventor
정명기
박영희
이종창
심현식
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020050083086A priority Critical patent/KR100724868B1/ko
Priority to US11/516,865 priority patent/US20070055527A1/en
Publication of KR20070028764A publication Critical patent/KR20070028764A/ko
Application granted granted Critical
Publication of KR100724868B1 publication Critical patent/KR100724868B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)

Abstract

본 발명은 다양한 음성 합성 기능을 구현한다. 이를 위해 본 발명은 클라이언트로부터 텍스트가 입력되면 입력된 텍스트를 분석하여 해당 합성기를 통해 음성 합성이 이루어지도록 제어하는 정합부와, 그 정합부의 제어하에 음성 합성을 수행하는 적어도 하나 이상의 합성기를 포함하여 구성되는 음성 합성 시스템을 구현한다. 그리고 본 발명은 음성 합성을 수행한 합성기로부터 합성 결과가 전달되면, 그 합성 결과에 배경음 또는 효과음을 적용할 수 있도록 하는 배경음 믹서와, 그 합성 결과에 음성 변조 효과를 줄 수 있도록 하는 변조 효과부를 더 구비한다. 이렇게 함으로써, 다양한 효과가 부여된 합성음을 출력하여 사용자에게 보다 유연하고 다양한 서비스를 제공할 수 있게 된다.
합성기, 음성 합성 시스템, 태그

Description

다수의 합성기를 제어하여 다양한 음성 합성 기능을 제공하는 음성 합성 방법 및 그 시스템{VOICE SYNTHETIC METHOD OF PROVIDING VARIOUS VOICE SYNTHETIC FUNCTION CONTROLLING MANY SYNTHESIZER AND THE SYSTEM THEREOF}
도 1은 본 발명의 실시 예에 따른 음성 합성 시스템의 구성도,
도 2는 본 발명의 실시 예에 따라 다양한 합성 기능을 수행하기 위한 음성 합성 시스템에서의 동작 흐름도,
도 3은 본 발명의 일 실시 예에 따른 음성 합성 요청 메시지의 한 예를 도시한 도면,
도 4는 본 발명의 실시 예에 따른 태그 테이블을 도시한 도면,
도 5는 본 발명의 실시 예에 따라 음성 합성 수행 과정을 도시한 도면.
본 발명은 음성 합성 방법 및 그 시스템에 관한 것으로, 특히 사용자의 기호에 따라 다양한 합성음을 출력시킬 수 있도록 다수의 합성기를 제어하여 다양한 음성 합성 기능을 제공하는 음성 합성 방법 및 그 시스템에 관한 것이다.
일반적으로 음성 합성기는 사용자에게 다양한 형태의 정보를 음성으로 제공하는 역할을 수행하는데, 사용자는 이러한 음성 합성기를 이용하여 종래의 텍스트나 대화 상대로부터 제공되는 텍스트를 음성으로 출력하게 된다. 이와 같이 음성 합성기에 적용되는 음성 합성 기술은 입력된 텍스트를 언어 해석하고 이를 음성으로 합성하는 처리 과정을 통해 텍스트를 자연스러운 합성음으로 변환시켜 출력하는 것으로, TTS(Text-To Speech)를 통해 이루어진다.
TTS란 기호화된 문자 정보를 사람이 알아들을 수 있는 음성 정보로 변환하는 기술로서, 하나의 목소리와 언어를 이용하여 합성음을 출력한다. 즉, 기존의 음성 합성기는 문장 단위로 입력된 데이터를 합성음으로 출력하는 단순한 기능을 가지고 있다. 이러한 음성 합성기는 다국어, 또는 화자의 성별, 음색 변조 등 사용자가 원하는 방식으로 합성음을 출력할 수 있는 방법이 없어서 사용자 취향에 따라 유연하게 대처하지 못하고 있는 실정이다.
예를 들어, "한국어 + 남자 + 어른"이라는 특징을 가지는 음성 합성기를 이용할 경우에는 필요에 따라 문장 중간에 다양한 변화를 주고 싶어도 하나의 합성음만을 출력할 수 밖에 없는 실정이다. 따라서, 이러한 음성 합성기는 하나의 목소리만을 제공하기 때문에 사용자의 욕구 및 사용자 계층이 다양해지는 추세 및 서비스되는 내용 예컨대, 기사, 이메일, 동화 등에 따른 적합한 음성 합성을 고려할 수 없는 문제점이 있다. 따라서, 문장의 처음부터 끝까지 하나의 합성음으로 출력하는 방법은 사용자로 하여금 단조로움을 느끼게 한다.
게다가 사용자의 편의성을 고려하기 위해 음색 변조 등의 기술을 이용하여 보다 다양하게 음성 합성을 구현하고자 하더라도 이 또한 응용계층에 따라 한계를 나타낸다. 예를 들어, 사용자가 텍스트 편집기의 기능을 이용하여 합성하고자 하는 부분을 선택하여 해당 부분에 대해 합성음을 출력하는 방법을 사용하더라도 그 편의성은 낮은 편이며, 현재까지는 서로 다른 합성음을 출력하는 각각의 합성기를 하나의 문장 내에서 임의의 위치마다 사용자가 선택적으로 적용할 수 있는 기능이 구현된 것이 없는 실정이다.
상기한 바와 같이 종래의 서비스되고 있는 음성 합성 방법은 하나의 합성기와 그 합성기에서 제공 가능한 변조만이 적용된 것에 불과하였다. 이러한 구조를 가지는 음성 합성 시스템의 경우에는 그 응용에 있어 한계를 나타낸다. 예를 들어, 사용자가 한국어 이외에 외국어 및 성별, 연령층을 고려한 화자의 특성을 반영하여 합성하고자 할 경우 각각의 음성 합성기들을 효율적으로 제어하여 사용자가 원하는 합성음을 출력할 수 있는 방법이 없었다.
따라서, 본 발명은 사용자의 기호에 따라 다양한 합성음을 출력시킬 수 있도록 다수의 합성기를 제어하여 다양한 음성 합성 기능을 제공하는 음성 합성 방법 및 그 시스템을 제공한다.
상술한 바를 달성하기 위한 본 발명에 따르면 다수의 합성기를 제어하여 다 양한 음성 합성 기능을 제공하는 음성 합성 시스템은, 음성 합성하고자 하는 텍스트에 텍스트 속성을 설정하여 태그 형식으로 음성 합성 요청 메시지를 전달하는 클라이언트와, 상기 클라이언트로부터 전달된 음성 합성 요청 메시지 내의 태그를 분석하고, 분석 결과를 근거로 해당 합성기를 선택한 후 선택된 합성기에 합성할 텍스트를 태그 변환하여 전달하고, 합성 결과를 전달받아 상기 클라이언트에 합성음을 제공하는 TTS(Text-To Speech) 정합부와, 상기 TTS 정합부로부터 전달된 합성 요청에 대응하는 음성 합성을 수행하여 합성 결과를 출력하는 적어도 하나 이상의 개별 합성기로 이루어지는 통합 합성부를 포함하여 구성됨을 특징으로 한다.
또한, 본 발명은 클라이언트, TTS(Text-To Speech) 정합부, 다수의 합성기를 포함하는 음성 합성 시스템에서 상기 다수의 합성기를 제어하여 다양한 음성 합성 기능을 제공하는 음성 합성 방법에 있어서, 클라이언트로부터 합성할 텍스트 및 텍스트 속성이 설정된 음성 합성 요청 메시지는 수신하는 과정과, 상기 TTS 정합부가 상기 수신된 메시지 내의 태그를 분석하여 해당 합성기를 선택하는 과정과, 해당 합성기가 선택되면 상기 다수의 합성기에 대해 미리 저장된 태그 집합을 가지는 태그 테이블을 참조하여 상기 합성할 텍스트를 해당 합성기에서 해석 가능한 포맷으로 태그 변환하는 과정과, 상기 태그 변환된 텍스트를 해당 합성기에 전달한 후 음성 합성에 따른 합성 결과를 전달받는 과정과, 상기 전달된 합성 결과를 상기 클라이언트로 전송하는 과정을 포함함을 특징으로 한다.
이하 본 발명의 바람직한 실시 예들을 첨부한 도면을 참조하여 상세히 설명한다. 또한 본 발명의 요지를 불필요하게 흐릴 수 있는 공지 기능 및 구성에 대한 상세한 설명은 생략한다.
본 발명은 다양한 음성 합성 기능을 구현한다. 이를 위해 본 발명은 클라이언트로부터 텍스트가 입력되면 입력된 텍스트를 분석하여 해당 합성기를 통해 음성 합성이 이루어지도록 제어하는 정합부와, 그 정합부의 제어하에 음성 합성을 수행하는 적어도 하나 이상의 합성기를 포함하여 구성되는 음성 합성 시스템을 구현한다. 그리고 본 발명은 음성 합성을 수행한 합성기로부터 합성 결과가 전달되면, 그 합성 결과에 배경음 또는 효과음을 적용할 수 있도록 하는 배경음 믹서와, 그 합성 결과에 음성 변조 효과를 줄 수 있도록 하는 변조 효과부를 더 구비한다. 이렇게 함으로써, 다양한 효과가 부여된 합성음을 출력하여 사용자에게 보다 유연하고 다양한 서비스를 제공할 수 있게 된다.
이러한 기능이 구현된 음성 합성 시스템의 구성 요소 및 그 동작을 살펴보기 위해 도 1을 참조한다. 도 1은 본 발명의 실시 예에 따른 음성 합성 시스템의 구성도이다.
도 1을 참조하면, 본 발명의 실시 예에 따른 음성 합성 시스템은 음성 합성하고자 하는 텍스트에 그 텍스트에 합성 효과를 부여하기 위한 텍스트 속성(예컨대, 속도, 효과, 변조 등)을 설정하여 태그 형식으로 전달하는 클라이언트(100)와, 클라이언트(100)로부터 태그 형식이 포함된 텍스트를 전달받아 이를 해석하여 해당 합성기를 통해 음성 합성이 이루어질 수 있도록 제어하는 TTS 정합부(110)와, 그 TTS 정합부(110)로부터 전달된 텍스트에 대해 음성 합성을 수행하여 합성 결과를 출력하는 통합 합성부(140)를 포함하여 구성된다.
이하, 클라이언트(100), TTS 정합부(110) 및 통합 합성부(140)에 대해 구체적으로 설명하면, 후술하는 바와 같다. 먼저, 클라이언트(100)는 로봇과 같은 기기를 말하며, 사용자에 의해 작성된 텍스트를 TTS 정합부(110)에 전달하는 역할을 수행한다. 즉, 클라이언트(100)는 사용자에 의해 작성된 텍스트를 TTS 정합부(110)에 전달함으로써 음성 합성 요청 메시지를 전달하는 것이며, 이러한 요청에 대응하여 합성된 음성 데이터를 수신하는 모든 연결 노드를 의미한다. 이 때, 클라이언트(100)는 다양한 방식으로 음성 합성을 수행한 후 그 합성음에 다양한 합성 효과를 주기 위해 해당 합성기에서 해석할 수 있는 태그가 삽입된 텍스트를 TTS 정합부(110)에 제공한다. 이러한 태그가 삽입된 텍스트 즉, 태그 텍스트(Tagged Text)는 합성될 텍스트 중에서 어떠한 부분을 어떻게 합성할 것인지를 결정하는데 이용되며, 이를 기초로 해당 합성기에서는 운율을 생성하며 실제 합성음을 생성해낸다.
한편, 태그 텍스트는 사용자가 웹 또는 PC와 같은 태그 입력 수단에 구비된 GUI(Graphical User Interface) 저작툴을 통해 입력한 텍스트 및 그 텍스트에 대한 속성이 포함된 것이다. 이 저작툴은 서비스 제작자 또는 일반 사용자가 다양한 합성기를 적절하게 선택할 수 있도록 하며, 이와 더불어 합성 효과를 쉽게 사용할 수 있도록 태그를 포함한 텍스트 문서 작성 수단이다. 즉, 입력된 텍스트에서 사용자가 원하는 위치마다 원하는 합성음이 출력될 수 있도록 구간 설정 및 합성기 선택 기능을 구비한다. 이러한 저작툴은 사용자가 텍스트 속성을 설정할 경우 컴퓨터에서 제공하는 미리보기 방식과 같이 직접 합성기의 효과에 대해 미리듣기 기능을 제공할 수도 있다.
TTS 정합부(110)는 클라이언트(100)로부터 음성 합성 요청 메시지에 포함된 부가적인 정보 즉, 텍스트 속성을 함께 수신하여 합성기에서 출력되는 합성 결과에 여러 가지 효과를 부가하는 기능을 수행한다. 구체적으로, TTS 정합부(110)는 클라이언트(100)로부터 전달된 태그 텍스트를 해석하는 역할을 수행하는 제어부(120)로 이루어지며, 해당 합성기를 통해 전달되는 합성 결과에 다양한 효과를 부여하기 위해 배경음 또는 효과음을 부여하는 배경음 믹서(125) 및 그 합성 결과 자체를 음성 변조하는 변조 효과부(130)를 더 구비한다. 즉, TTS 정합부(110)는 단순한 음성의 합성 뿐만 아니라 기타 다양한 효과를 지원하기 위한 구성 요소들을 더 포함하는 것이다.
그 중에서도 배경음 믹서(125)는 클라이언트(100)가 음성 합성 요청 시 함께 배경 음악 추가나 음향 효과의 삽입과 같은 속성을 설정하였을 경우 합성기에서 출력되는 합성 결과에 배경음이나 효과음을 믹싱(mixing)하는 기능을 수행한다. 이어, 변조 효과부(130)는 음성 변조 요청이 포함된 음성 합성 요청 메시지가 수신되었을 경우 해당 변조 기능을 수행한다.
이와 같이 구성되는 TTS 정합부(110)의 기능을 구체적으로 살펴보면, 제어부(120)는 클라이언트(100)로부터 전달된 태그 텍스트를 분석한 후 분석 결과를 바탕으로 사용자에 의해 설정된 텍스트 속성을 반영한 합성음을 얻기 위해 태그 텍스트에 포함된 합성하고자 하는 텍스트를 통합 합성부(140) 내의 해당 합성기에 전달한다. 이 때, 제어부(120)는 통합 합성부(140) 내의 다수의 합성기를 효율적으로 제어하기 위해 공통된 표준 태그를 사용하며, 이를 이용하여 해당 합성기에 맞는 적 합한 포맷으로 변환한 텍스트를 전달한다. 여기서, 제어부(120)는 해당 합성기에 표준 태그 방식으로 변환된 텍스트를 전달할 수도 있지만, 포맷 변환 없이도 텍스트 자체를 직접 해당 합성기에 전달할 수도 있다.
한편, 통합 합성부(140)는 개별의 합성기들의 구성으로 이루어지며, 각각의 개별 합성기들마다 서로 다른 합성 기능이 구현된다. 즉, 통합 합성부(140)는 다양한 언어 및 다양한 화자의 음성을 출력할 수 있는 합성기들의 집합으로, 제어부(120)로부터의 합성 요청에 대응하여 해당 합성기를 통해 합성을 수행한다. 예를 들어, 도 1에 도시된 바와 같이 통합 합성부(140)는 한국어(KOR)로 성인 남자의 합성음을 출력하는 제 1합성기(145), 한국어로 성인 여자의 합성음을 출력하는 제 2합성기(150), 한국어로 어린이 남자의 합성음을 출력하는 제 3합성기(155), 영어로 성인 남자의 합성음을 출력하는 제 4합성기(160), 영어로 성인 여자의 합성음을 출력하는 제 5합성기(165) 등 다수의 개별 합성기로 이루어질 수 있다.
이러한 개별 합성기들은 TTS 방식을 이용하여 제어부(120)로부터 전달되는 텍스트에 자신이 가지고 있는 합성 기능을 적용한 합성 결과를 출력한다. 이 때, 제어부(120)로부터 각각의 합성기들에 전달되는 텍스트는 전체 문장 중 사용자가 해당 합성기로 합성하고자 하는 일부분일 수 있다. 만일, 사용자가 하나의 문장을 여러 개의 합성기를 통해 어절마다 다른 합성음을 출력하고자 텍스트 속성을 설정하였을 경우, 제어부(120)는 입력된 문장을 해당 합성기들에 맞게 잘라서 해당 부분만을 각각의 합성기들에게 전달하게 된다. 이러한 방식으로 제어부(120)는 해당 합성기들한테 합성을 요청하게 된다. 이러한 합성 요청에 대응하여 각각의 합성기 에서 합성 기능이 수행되어 합성 결과들이 전달되면, 제어부(120)는 이를 순차적으로 취합하여 하나의 합성음으로 만들어 클라이언트(100)에게 제공하는 것이다. 이렇게 함으로써, 클라이언트(100)에서는 사용자에 의해 설정된 텍스트 속성이 반영된 합성음을 출력할 수 있게 된다.
이하, 상기한 바와 같은 기능이 구현된 음성 합성 시스템의 동작을 도 2를 참조하여 살펴보기로 한다. 도 2는 본 발명의 실시 예에 따라 다양한 합성 기능을 수행하기 위한 음성 합성 시스템에서의 동작 흐름도이다.
먼저, 음성 합성 시스템의 동작은 클라이언트(100)로부터의 음성 합성 요청으로부터 시작된다. 그 전에 사용자는 GUI 저작툴을 이용하여 텍스트 및 텍스트 속성을 입력하는 등 200단계에서와 같이 음성 합성 조건을 설정한다. 그러면 클라이언트(100)는 205단계로 진행하여 음성 합성 조건이 설정된 음성 합성 요청 메시지를 TTS 정합부(110)에 전송한다. 다시 말하면, 음성 합성 요청 메시지는 사용자로부터 GUI(Graphical User Interface) 저작툴을 통해 입력된 텍스트 및 텍스트 속성을 포함하는 태그 텍스트(Tagged text) 형태를 가지는 메시지이다. 이 때, 실제적으로 음성 합성 요청 메시지는 TTS 정합부(110) 내의 제어부(120)에 전달되게 된다. 그러면, TTS 정합부(110) 내의 제어부(120)는 210단계로 진행하여 수신된 메시지의 포맷을 분석하여 유효한 메시지인지의 여부를 확인한다. 구체적으로, 제어부(120)는 전달된 메시지의 헤더를 확인하여 수신된 메시지가 음성 합성 요청 메시지인지를 확인하고, 동시에 미리 규정된 메시지 룰(rule)에 의하여 작성되었는지 유효성을 확인한다. 즉, 수신된 메시지는 제어부(120)가 읽어들일(Readable) 수 있는 형식을 갖추고 있어야 한다. 이러한 형식의 한 예로서, 본 발명의 실시 예에서는 xml 형식을 따르는 규칙을 적용할 수 있다. 다르게는 W3C에서 권고하는 SSML(Speech Synthesis Markup Language)의 규칙을 차용할 수도 있는데, 헤더를 표현한 xml 메시지 필드의 예를 도시하면 표 1과 같다.
Figure 112005049987602-PAT00001
상기 표 1에서, version은 사용되는 메시지 룰의 버전을 나타내며, proprietor은 사용되는 메시지 룰의 적용 범위를 나타낸다.
만일, 메시지 헤더를 확인한 결과 유효한 메시지가 아닌 경우 제어부(120)는 215단계로 진행하여 정해진 포맷이 아니라고 인지하여 오류 보고를 수행한다. 즉, 더이상 메시지 분석을 수행하지 않는다. 이와 달리 유효한 메시지인 경우 제어부(120)는 220단계로 진행하여 메시지의 태그를 분석한다. 이러한 분석을 통해 제어부(120)는 어떤 합성기를 이용하여 합성을 수행해야하는지를 판단한다.
이를 상세히 설명하기 위해 도 3에 도시된 바와 같이 합성하고자 하는 문장이 "본 문장은 합성기를 테스트하기 위한 문장입니다"라는 문장이며, 남자 어린이의 목소리로 합성하면서 동화 구연을 목적으로 하는 경우를 예로 들어 설명한다. 이 때, 변조되지 않는 기본 속도 2를 가지는 합성음이 출력되도록 합성음이 출력되는 속도를 2로 하고 변조 없음을 설정한다. 도 3은 본 발명의 일 실시 예에 따른 음성 합성 요청 메시지의 한 예를 도시한 도면이다.
도 3에 도시된 바와 같이 음성 합성 요청 메시지가 전달되면, 제어부(120)는 300에 의해 지시되는 부분을 확인하여 즉, 합성될 문장의 속성 정보를 해석하여 어떠한 합성기에 합성을 요청할 것인지를 판단하게 된다. 도 3에서는 xml 형식을 차용한 경우를 예로 들어 나타내었지만, SSML의 형식을 사용할 수도 있으며 새로운 형식으로 정의된 표준 태그를 사용할 수도 있음은 물론이다. 만일 합성기가 속도 및 변조 필터 등의 적용이 가능하다면 제어부(120)는 이러한 합성 효과에 대한 정보까지 전달하여 합성이 이루어질 수 있도록 한다.
상기한 바와 같은 과정을 통해 합성기가 선택되면, 제어부(120)는 230단계로 진행하여 도 4에 도시된 바와 같은 태그 테이블을 참조하여 235단계에서 태그 변환을 수행한다. 여기서, 태그 테이블은 각 합성기에 대해 미리 저장된 태그 집합을 나타낸다. 이러한 태그 테이블을 참조하여 태그 변환을 하는 이유는 다수의 합성기를 제어부(120)가 적절하게 제어할 수 있도록 하기 위함이다.
한편, 도 3의 310에 의해 지시되는 부분이 실제로 합성할 텍스트가 삽입되는 부분이다. 따라서, 제어부(120)는 310에 의해 지시되는 부분을 해당 합성기에서 해석 가능한 형태로 태그 변환을 하는 것이다. 예를 들어, 도면부호 320에 의해 지시되는 부분은 도면부호 330에 의해 지시되는 바와 같이 변환될 수 있다.
이어, 제어부(120)는 310에 지시되는 부분의 태그를 해석하여 문장 중간에 "합성기를 테스트하기 위한"이라는 부분의 속도를 3으로 하여 합성해야 하며, "테스트"라는 단어에는 실루엣 변조 효과를 적용해야 한다고 인지한다. 이에 따라 제어부(120)는 240단계로 진행하여 합성 요청을 하는데, 구체적으로 남자 어린이 합성음을 출력하는 합성기에 변환된 태그를 전달하여 합성이 이루어질 수 있도록 한다.
이에 대응하여 통합 합성부(140) 내의 해당 합성기 예컨대, 남자 어린이 합성음을 출력하는 합성기에서는 245단계에서와 같이 음성 합성을 수행하여 250단계에서 합성 결과를 제어부(120)에 전달한다. 그리고나서 제어부(120)는 255단계에서 변조 수행 또는 배경음을 적용해야하는지를 판단한다. 만일 변조 수행 또는 배경음을 적용해야 하는 경우 제어부(120)는 260단계로 진행하여 합성 결과를 음성 변조하여 변조 효과를 주거나 그 합성 결과에 배경음을 또는 효과음을 적용하여 음향 효과를 줄 수 있다. 여기서, 배경음 또는 효과음 등의 음향 효과의 적용은 합성 결과의 레졸루션(resolution)과 같은 레졸루션을 가지는 음향 데이터를 합성 결과에 믹싱함으로써 이루어진다.
도 3에서는 변조 시 "실루엣"을 적용하고자 하는 요청이 있었으므로 제어부(120)는 TTS 정합부(110) 내의 변조 효과부(130)로부터 "실루엣"에 해당하는 데이터를 제공받아 합성 결과를 변조한다. 이러한 과정을 통해 최종 합성음이 생성되면, 제어부(120)는 265단계로 진행하여 클라이언트(100)로 합성음을 전송한다. 이에 따라 남자 어린이 목소리에 해당하는 합성음이 출력되면서 "테스트"라는 단어부분만 실루엣 변조된 합성음이 출력되게 된다.
한편, TTS 정합부(110)에서 사용 가능한 태그의 기능은 도 4에 도시된 바와 같은 것들이 존재할 수 있다. 그 중에서도 도면부호 400에 의해 지시되는 부분은 각각의 합성기 내부에서도 지원 가능한 태그 형식을 나타내며, 도면부호 410에 의해 지시되는 부분은 TTS 정합부(110) 자체 내에서 지원 가능한 태그 형식이다. 따라서, 제어부(120)는 발화 속도, 음량, 음색, 묵음 등의 기능을 제어하고자 하는 텍스트 속성이 설정되어 있는 음성 합성 요청 메시지가 전달되면, 도 4에 도시된 바와 같은 태그 테이블을 참조하여 태그 변환을 하는 것이다.
구체적으로, 본 발명의 일 실시 예에 따라 Speed는 합성되는 데이터의 발화 속도를 조절하기 위한 태그 명령어로써 예를 들어, <speed + 1> TEXT </speed>는 태그 내부 구간의 합성 속도를 기본 속도보다 1단계 빠르게 출력한다는 의미를 가진다. Volume은 합성되는 데이터의 발화 음량을 조절하기 위한 태그 명령어로써 예를 들어, <volume = -1> TEXT </volume>는 태그 내부 구간의 합성음의 음량을 기본 음량보다 1단계 작게 출력하라는 것을 의미한다. Pitch는 합성되는 데이터의 음색을 조정하기 위한 태그 명령어로써 예를 들어, <pitch = +2> TEXT </pitch>는 태그 내부 구간의 합성음의 피치를 기본단계보다 2단계 높게 출력하라는 것을 의미한다. 이어, Pause는 삽입되는 묵음 구간을 결정하기 위한 태그 명령어로써, <pause=1000> TEXT는 합성되는 텍스트 앞에서 묵음을 1초간 삽입하라는 것을 의미한다. 이와 같이 각각의 합성기들은 제어부(120)로부터 상기한 바와 같은 태그가 전달되면, 전달된 태그에 따라 단순한 음성 합성 뿐만 아니라 발화 속도, 음량, 음색 및 묵음을 조절할 수 있는 기능을 가지고 있다.
한편, Language는 합성을 요청하는 합성기의 언어를 변경하기 위한 태그 명령어로써 예를 들어, <language = "eng"> TEXT </language>는 태그 내부 구간의 합성음은 영어 목소리를 출력하는 합성기를 이용하라는 것을 의미한다. 이에 따라 클라이언트로부터 전달된 합성 요청 메시지에 이러한 태그 명령어가 포함되어 있으면, 제어부(120)는 영어 목소리를 출력하는 합성기를 선택하게 된다. 이어, Speaker는 합성되는 화자를 변경하기 위한 태그 명령어로써 예를 들어, <speaker="tom"> TEXT </speaker>는 태그 내부 구간의 합성음은 'tom'으로 정의된 합성기를 사용하라는 것을 의미한다. 그리고 Modulation은 합성음을 변조하는 변조 필터를 선택하기 위한 태그 명령어로써 예를 들어, <modulation="silhouette"> TEXT</modulation>은 태그 내부 구간의 합성음을 '실루엣' 변조하라는 것을 의미한다. 이에 따라 제어부(120)는 합성기로부터 합성 결과가 출력되면 해당 변조 효과를 합성 결과에 적용한다.
이와 같이 TTS 정합부(110)는 클라이언트(100)로부터 상기한 바와 같은 태그가 포함된 음성 합성 요청 메시지가 전달되면, 그 메시지에 포함된 태그에 따라 화자 및 언어를 전환할 수 있을 뿐만 아니라 합성 결과에 변조 및 배경음 효과를 적용하여 다양한 효과를 줄 수도 있다.
한편, 상기한 바와 같은 태그를 W3C의 권고안인 SSML의 규칙을 차용하여 표현하면 다음과 같다. 예를 들어, 합성기를 선택할 때 전술한 바에서는 Speaker라는 태그 명령어를 사용하였으나, 본 발명의 다른 실시 예에서는 'voice'라는 태그 명령어를 사용한다. 합성기 선택을 위한 xml 메시지 필드의 예는 표 2에 도시된 바와 같다.
Figure 112005049987602-PAT00002
상기 표 2에서, 'voice'는 합성기를 선택하는 필드 이름을 나타내며, 이 필드의 속성으로 'name'을 가지며 속성값에 따라 TTS 정합부(110) 내의 제어부(120)는 사전에 정의된 합성기를 선택할 수 있게 된다. 만일, 속성이 생략된 경우에는 디폴트 합성기를 선택하게 된다.
이어, 강조 태그 명령어로서 'emphasis'가 있는데, 이 'emphasis'에 대한 메시지 필드의 예는 표 3에 도시된 바와 같다.
Figure 112005049987602-PAT00003
상기 표 3에서, 'emphasis'는 선택된 구간을 합성할 때 강조의 운율을 적용하는 필드로서, 이 필드의 속성으로 'level'을 가지며 그 속성값에 따라 사전에 정의된 강조의 정도를 적용한다. 만일 속성이 생략되면 디폴트 레벨을 적용하게 된다.
그리고, 휴지 태그 명령어로서 'break'가 있는데, 이 'break'에 대한 메시지 필드의 예는 표 4에 도시된 바와 같다.
Figure 112005049987602-PAT00004
상기 표 4에서, 'break'는 필드에 선언된 내용만큼 합성음 사이에 휴지 구간을 포함하게 하는 필드로서, 이 필드의 속성으로 'time' 또는 'strength'를 가질 수 있으며 속성값에 따라 사전에 정의된 시간만큼 휴지 구간을 적용하게 된다.
그리고, 운율 태그 명령어로서 'prosody'가 있는데, 'prosody'에 대한 메시지 필드의 예를 도시하면 표 5와 같다.
Figure 112005049987602-PAT00005
상기 표 5에서, 'prosody'는 선택된 구간의 합성 운율을 표현하는 필드로서, 이 필드의 속성으로 'rate', 'volume', 'pitch', 'range' 등을 가질 수 있으며, 속성값에 따라 사전에 정의된 운율을 합성 구간에 적용할 수 있게 된다.
그리고, 음향 효과 태그 명령어로서 'audio'가 있는데, 'audio'에 대한 메시지 필드의 예를 도시하면 표 6과 같다.
Figure 112005049987602-PAT00006
상기 표 6에서, 'audio'는 합성음에 음향 효과를 부가하는 필드로서, 이 필드의 속성으로 'src'를 가질 수 있으며 이 속성값에 따라 음향 내용을 합성음에 포함시킬 수 있게 된다.
그리고, 변조 효과 태그 명령어로서 'modulation'이 있는데, 'modulation'에 대한 메시지 필드의 예를 도시하면 표 7과 같다.
Figure 112005049987602-PAT00007
상기 표 7에서, 'modulation'은 합성음에 변조 효과를 부가하는 필드로서, 이 필드의 속성으로 'name'를 가질 수 있으며, 이 속성값에 따라 사전에 정의된 변조 필터를 합성음에 적용할 수 있게 된다.
전술한 바와 같은 태그 명령어를 사용하는 경우를 도 5를 참조하여 설명하면 다음과 같다. 먼저 도 5의 500에 의해 지시되는 바와 같은 태그 명령어들이 포함된 음성 합성 요청 메시지는 음성 합성 시스템(510)에서 처리된다. 그 중에서도 상기 음성 합성 요청 메시지가 TTS 정합부(110)에 전달되면, 유효성이 검증된 메시지에 한하여 상기한 바와 같은 태그 명령어들을 분석하여 어떤 합성기를 통해 합성할 것인지를 선택하게 된다. 예컨대, 본 발명의 다른 실시 예에 따른 태그 명령어를 이용할 경우 제어부(120)는 'voice' 태그 명령어 요소(element) 중 'name' 속성을 확인하여 해당하는 합성기를 선택한다. 이러한 과정을 통해 합성기가 결정되면 해당 합성기에 적용 가능한 태그 리스트를 표준 메시지 태그 리스트와 맵핑시킨 태그 테이블을 참조하여 입력된 메시지의 태그 정보를 해당 합성기가 인지할 수 있는 태그로 변환하게 된다. 이 때, 제어부(110)는 변조나 음향 효과에 대한 태그는 변환하지 않으며 합성기로부터 출력되는 합성 결과에 적용할 수 있도록 변조 여부나 음향 효과 부가 여부에 대한 정보를 임시로 가지고 있는 것이 바람직하다. 따라서, 변환된 태그로 표현된 합성 요청을 실제 합성기에 전달하면, 제어부(120)는 이에 대한 응답이 있을 때까지 대기한다.
한편, 합성 요청을 수신한 합성기는 입력에 대응하는 데이터에 대한 합성을 수행하여 그 합성 결과를 제어부(120)에 전달한다. 그러면 합성 결과를 전달받은 제어부(120)는 임시로 저장해놓은 정보를 통해 클라이언트(100)로부터 전달된 메시지에 변조 요청이 있었는지를 확인한다. 만일 변조 요청이 있었다면 제어부(120)는 변조 효과부(130)로부터 해당 변조를 수행하기 위한 데이터를 제공받아 해당 변조 효과를 합성 결과에 적용한다. 이와 마찬가지로 임시로 저장해놓은 정보를 통해 클라이언트(100)로부터 전달된 메시지에 음향 효과 부가 요청이 있었던 경우에는 제어부(120)는 배경음 믹서(125)로부터 해당 음향 효과 데이터를 제공받아 해당 음향 효과를 합성 결과에 적용한다. 이러한 과정을 통해 최종 합성된 합성음이 클라이언트(100) 예컨대, 도면부호 520에 의해 지시되는 로봇과 같은 기기에 전달됨으로써 다양한 음성 합성 효과가 출력되게 된다.
상술한 본 발명의 설명에서는 구체적인 실시 예에 관해 설명하였으나, 여러 가지 변형이 본 발명의 범위에서 벗어나지 않고 실시할 수 있다. 예를 들어, 본 발명에서는 표준 태그를 구체적으로 예를 들어 설명하였으나, 태그 명령어는 전술한 바 이외에도 보다 다양하게 구현될 수 있음은 물론이다. 따라서 본 발명의 범위는 설명된 실시 예에 의하여 정할 것이 아니고 특허청구범위와 특허청구범위의 균등한 것에 의해 정해 져야 한다.
상기한 바와 같이 본 발명에 따르면, 다양한 합성기를 효과적으로 제어 및 관리함으로써 다양한 품질 및 성격을 가지는 합성음을 출력할 수 있을 뿐만 아니라, 보다 다양하고 복합적인 음성 합성 어플리케이션을 지원하게 할 경우 서비스 질을 향상시킬 수 있는 이점이 있다. 또한, 본 발명을 이용한다면 사용자와 대화하는 시스템의 경우 사용자에 따른 합성음을 구분하여 제공할 수 있으며, 동화 구연, 이메일 읽기 등 음성 합성 시스템이 적용되는 다양한 시스템에 사용자의 다양한 요구를 수용할 수 있게 된다.

Claims (13)

  1. 다수의 합성기를 제어하여 다양한 음성 합성 기능을 제공하는 음성 합성 시스템은,
    음성 합성하고자 하는 텍스트에 텍스트 속성을 설정하여 태그 형식으로 음성 합성 요청 메시지를 전달하는 클라이언트와,
    상기 클라이언트로부터 전달된 음성 합성 요청 메시지 내의 태그를 분석하고, 분석 결과를 근거로 해당 합성기를 선택한 후 선택된 합성기에 합성할 텍스트를 태그 변환하여 전달하고, 합성 결과를 전달받아 상기 클라이언트에 합성음을 제공하는 TTS(Text-To Speech) 정합부와,
    상기 TTS 정합부로부터 전달된 합성 요청에 대응하는 음성 합성을 수행하여 합성 결과를 출력하는 적어도 하나 이상의 개별 합성기로 이루어지는 통합 합성부를 포함하여 구성됨을 특징으로 하는 시스템.
  2. 제 1항에 있어서, 상기 TTS 정합부는
    상기 메시지에 변조 효과 속성이 설정된 경우 해당 변조 효과를 상기 합성 결과를 적용할 수 있도록 상기 제어부에 변조 데이터를 제공하는 변조 효과부와,
    상기 메시지에 음향 효과 속성이 설정된 경우 상기 합성 결과에 음향 데이터를 적용할 수 있도록 음향 데이터를 제공하는 배경음 믹서와,
    상기 메시지 내의 태그 분석을 통해 변조 효과 및 음향 효과 속성의 설정 여부를 확인하고, 확인 결과를 근거로 상기 전달된 합성 결과에 해당 효과를 적용한 합성음을 생성하는 제어부로 이루어짐을 특징으로 하는 시스템.
  3. 제 2항에 있어서, 상기 제어부는
    상기 수신된 음성 합성 요청 메시지의 포맷을 분석하여 유효한 메시지인지의 여부를 확인하고, 유효한 메시지에 한해 상기 메시지 내의 태그를 분석함을 특징으로 하는 시스템.
  4. 제 1항에 있어서, 상기 TTS 정합부는
    상기 태그 변환 시 상기 선택된 합성기에 적용 가능한 태그 리스트를 표준 메시지 태그 리스트와 맵핑시킨 태그 테이블을 참조하여 상기 합성할 텍스트를 해당 합성기가 인지할 수 있는 태그로 변환함을 특징으로 하는 시스템.
  5. 제 1항에 있어서, 상기 통합 합성부는
    각각 서로 다른 언어, 연령층에 따른 합성음을 출력하며, 발화 속도, 음량, 음색 및 묵음을 조절할 수 있는 기능을 가지는 다수의 개별 합성기로 이루어짐을 특징으로 하는 시스템.
  6. 제 1항에 있어서, 상기 음성 합성 요청 메시지는
    사용자로부터 GUI(Graphical User Interface) 저작툴을 통해 입력된 텍스트 및 텍스트 속성을 포함하는 태그 텍스트(Tagged text) 형태를 가지는 메시지임을 특징으로 하는 시스템.
  7. 클라이언트, TTS(Text-To Speech) 정합부, 다수의 합성기를 포함하는 음성 합성 시스템에서 상기 다수의 합성기를 제어하여 다양한 음성 합성 기능을 제공하는 음성 합성 방법에 있어서,
    클라이언트로부터 합성할 텍스트 및 텍스트 속성이 설정된 음성 합성 요청 메시지는 수신하는 과정과,
    상기 TTS 정합부가 상기 수신된 메시지 내의 태그를 분석하여 해당 합성기를 선택하는 과정과,
    해당 합성기가 선택되면 상기 다수의 합성기에 대해 미리 저장된 태그 집합을 가지는 태그 테이블을 참조하여 상기 합성할 텍스트를 해당 합성기에서 해석 가능한 포맷으로 태그 변환하는 과정과,
    상기 태그 변환된 텍스트를 해당 합성기에 전달한 후 음성 합성에 따른 합성 결과를 전달받는 과정과,
    상기 전달된 합성 결과를 상기 클라이언트로 전송하는 과정을 포함함을 특징으로 하는 방법.
  8. 제 7항에 있어서,
    상기 수신된 음성 합성 요청 메시지의 포맷을 분석하여 유효한 메시지인지의 여부를 확인하는 과정과,
    상기 유효한 메시지에 한해 상기 메시지 내의 태그를 분석하는 과정을 더 포함함을 특징으로 하는 방법.
  9. 제 7항에 있어서,
    상기 음성 합성 요청 메시지 내에 변조 효과 속성이 설정된 경우 해당 변조 효과를 위한 변조 데이터를 제공받는 과정과,
    상기 합성 결과에 상기 변조 데이터를 적용하여 합성음을 생성하는 과정을 더 포함함을 특징으로 하는 방법.
  10. 제 7항에 있어서,
    상기 음성 합성 요청 메시지 내에 음향 효과 속성이 설정된 경우 상기 합성 결과에 해당 음향 데이터를 적용하여 합성음을 생성하는 과정과,
    상기 생성된 합성음을 상기 클라이언트로 전달하는 과정을 더 포함함을 특징으로 하는 방법.
  11. 제 7항에 있어서, 상기 다수의 합성기는
    각각 서로 다른 언어 및 연령층에 따른 합성음을 출력하는 기능을 가지는 합성기임을 특징으로 하는 방법.
  12. 제 7항에 있어서, 상기 음성 합성 요청 메시지는
    사용자로부터 GUI(Graphical User Interface) 저작툴을 통해 입력된 텍스트 및 텍스트 속성을 포함하는 태그 텍스트(Tagged text) 형태를 가지는 메시지임을 특징으로 하는 방법.
  13. 제 12항에 있어서, 상기 저작툴은
    상기 입력된 텍스트에서 사용자가 원하는 위치마다 원하는 합성음이 출력될 수 있도록 구간 설정 및 합성기 선택 기능을 구비함을 특징으로 하는 방법.
KR1020050083086A 2005-09-07 2005-09-07 다수의 합성기를 제어하여 다양한 음성 합성 기능을제공하는 음성 합성 방법 및 그 시스템 KR100724868B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020050083086A KR100724868B1 (ko) 2005-09-07 2005-09-07 다수의 합성기를 제어하여 다양한 음성 합성 기능을제공하는 음성 합성 방법 및 그 시스템
US11/516,865 US20070055527A1 (en) 2005-09-07 2006-09-07 Method for synthesizing various voices by controlling a plurality of voice synthesizers and a system therefor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020050083086A KR100724868B1 (ko) 2005-09-07 2005-09-07 다수의 합성기를 제어하여 다양한 음성 합성 기능을제공하는 음성 합성 방법 및 그 시스템

Publications (2)

Publication Number Publication Date
KR20070028764A true KR20070028764A (ko) 2007-03-13
KR100724868B1 KR100724868B1 (ko) 2007-06-04

Family

ID=37831068

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020050083086A KR100724868B1 (ko) 2005-09-07 2005-09-07 다수의 합성기를 제어하여 다양한 음성 합성 기능을제공하는 음성 합성 방법 및 그 시스템

Country Status (2)

Country Link
US (1) US20070055527A1 (ko)
KR (1) KR100724868B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8244534B2 (en) 2007-08-20 2012-08-14 Microsoft Corporation HMM-based bilingual (Mandarin-English) TTS techniques
US8694320B2 (en) 2007-04-28 2014-04-08 Nokia Corporation Audio with sound effect generation for text-only applications
KR20190111278A (ko) * 2018-03-22 2019-10-02 삼성전자주식회사 인공지능 모델을 이용하여 사용자 음성을 변조하기 위한 전자 장치 및 이의 제어 방법

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8438032B2 (en) * 2007-01-09 2013-05-07 Nuance Communications, Inc. System for tuning synthesized speech
CN103200309A (zh) * 2007-04-28 2013-07-10 诺基亚公司 用于仅文本的应用的娱乐音频
US20090157407A1 (en) * 2007-12-12 2009-06-18 Nokia Corporation Methods, Apparatuses, and Computer Program Products for Semantic Media Conversion From Source Files to Audio/Video Files
US8352270B2 (en) * 2009-06-09 2013-01-08 Microsoft Corporation Interactive TTS optimization tool
US9069757B2 (en) * 2010-10-31 2015-06-30 Speech Morphing, Inc. Speech morphing communication system
US10360716B1 (en) * 2015-09-18 2019-07-23 Amazon Technologies, Inc. Enhanced avatar animation
US10079021B1 (en) * 2015-12-18 2018-09-18 Amazon Technologies, Inc. Low latency audio interface
CN107437413B (zh) * 2017-07-05 2020-09-25 百度在线网络技术(北京)有限公司 语音播报方法及装置
US10521946B1 (en) 2017-11-21 2019-12-31 Amazon Technologies, Inc. Processing speech to drive animations on avatars
US11232645B1 (en) 2017-11-21 2022-01-25 Amazon Technologies, Inc. Virtual spaces as a platform
US10732708B1 (en) * 2017-11-21 2020-08-04 Amazon Technologies, Inc. Disambiguation of virtual reality information using multi-modal data including speech
GB201810621D0 (en) * 2018-06-28 2018-08-15 Univ London Queen Mary Generation of audio data
US10741169B1 (en) * 2018-09-25 2020-08-11 Amazon Technologies, Inc. Text-to-speech (TTS) processing
CN109410913B (zh) * 2018-12-13 2022-08-05 百度在线网络技术(北京)有限公司 一种语音合成方法、装置、设备及存储介质
US11114085B2 (en) 2018-12-28 2021-09-07 Spotify Ab Text-to-speech from media content item snippets
CN110600000B (zh) * 2019-09-29 2022-04-15 阿波罗智联(北京)科技有限公司 语音播报方法、装置、电子设备及存储介质
US11380300B2 (en) 2019-10-11 2022-07-05 Samsung Electronics Company, Ltd. Automatically generating speech markup language tags for text
WO2021071221A1 (en) * 2019-10-11 2021-04-15 Samsung Electronics Co., Ltd. Automatically generating speech markup language tags for text
JP2023539397A (ja) * 2020-06-22 2023-09-14 エスアールアイ インターナショナル テキスト・トゥ・スピーチ合成のための制御可能な自然パラ言語

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4635211A (en) * 1981-10-21 1987-01-06 Sharp Kabushiki Kaisha Speech synthesizer integrated circuit
US5673362A (en) * 1991-11-12 1997-09-30 Fujitsu Limited Speech synthesis system in which a plurality of clients and at least one voice synthesizing server are connected to a local area network
US5559927A (en) * 1992-08-19 1996-09-24 Clynes; Manfred Computer system producing emotionally-expressive speech messages
US5960447A (en) * 1995-11-13 1999-09-28 Holt; Douglas Word tagging and editing system for speech recognition
US5850629A (en) 1996-09-09 1998-12-15 Matsushita Electric Industrial Co., Ltd. User interface controller for text-to-speech synthesizer
US6188983B1 (en) * 1998-09-02 2001-02-13 International Business Machines Corp. Method for dynamically altering text-to-speech (TTS) attributes of a TTS engine not inherently capable of dynamic attribute alteration
US6324511B1 (en) 1998-10-01 2001-11-27 Mindmaker, Inc. Method of and apparatus for multi-modal information presentation to computer users with dyslexia, reading disabilities or visual impairment
US6865533B2 (en) * 2000-04-21 2005-03-08 Lessac Technology Inc. Text to speech
US7139709B2 (en) * 2000-07-20 2006-11-21 Microsoft Corporation Middleware layer between speech related applications and engines
GB2376394B (en) * 2001-06-04 2005-10-26 Hewlett Packard Co Speech synthesis apparatus and selection method
US7483832B2 (en) * 2001-12-10 2009-01-27 At&T Intellectual Property I, L.P. Method and system for customizing voice translation of text to speech
US7299182B2 (en) * 2002-05-09 2007-11-20 Thomson Licensing Text-to-speech (TTS) for hand-held devices
US7003464B2 (en) 2003-01-09 2006-02-21 Motorola, Inc. Dialog recognition and control in a voice browser
KR20040105138A (ko) * 2003-06-05 2004-12-14 엘지전자 주식회사 이동통신 단말기의 텍스트정보 음성정보 멀티변환 장치 및그 방법
KR20050052106A (ko) * 2003-11-29 2005-06-02 에스케이텔레텍주식회사 이동통신단말기에서 자동응답방법 및 그 방법을 채택한이동통신단말기
US20050144002A1 (en) * 2003-12-09 2005-06-30 Hewlett-Packard Development Company, L.P. Text-to-speech conversion with associated mood tag
US7596499B2 (en) * 2004-02-02 2009-09-29 Panasonic Corporation Multilingual text-to-speech system with limited resources
KR100710600B1 (ko) * 2005-01-25 2007-04-24 우종식 음성합성기를 이용한 영상, 텍스트, 입술 모양의 자동동기 생성/재생 방법 및 그 장치

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8694320B2 (en) 2007-04-28 2014-04-08 Nokia Corporation Audio with sound effect generation for text-only applications
US8244534B2 (en) 2007-08-20 2012-08-14 Microsoft Corporation HMM-based bilingual (Mandarin-English) TTS techniques
KR20190111278A (ko) * 2018-03-22 2019-10-02 삼성전자주식회사 인공지능 모델을 이용하여 사용자 음성을 변조하기 위한 전자 장치 및 이의 제어 방법
US11398223B2 (en) 2018-03-22 2022-07-26 Samsung Electronics Co., Ltd. Electronic device for modulating user voice using artificial intelligence model and control method thereof

Also Published As

Publication number Publication date
US20070055527A1 (en) 2007-03-08
KR100724868B1 (ko) 2007-06-04

Similar Documents

Publication Publication Date Title
KR100724868B1 (ko) 다수의 합성기를 제어하여 다양한 음성 합성 기능을제공하는 음성 합성 방법 및 그 시스템
US8594995B2 (en) Multilingual asynchronous communications of speech messages recorded in digital media files
US5943648A (en) Speech signal distribution system providing supplemental parameter associated data
Schröder The SEMAINE API: Towards a Standards‐Based Framework for Building Emotion‐Oriented Systems
KR101274961B1 (ko) 클라이언트단말기를 이용한 음악 컨텐츠 제작시스템
US7966185B2 (en) Application of emotion-based intonation and prosody to speech in text-to-speech systems
US7062437B2 (en) Audio renderings for expressing non-audio nuances
US20090326948A1 (en) Automated Generation of Audiobook with Multiple Voices and Sounds from Text
JP2010113722A (ja) メディアのカスタマイズを促進するシステムおよび方法
JPH05216618A (ja) 音声対話システム
KR20110019020A (ko) 텍스트 데이터의 처리 방법 및 장치
WO2005093713A1 (ja) 音声合成装置
US20060224385A1 (en) Text-to-speech conversion in electronic device field
JP7200533B2 (ja) 情報処理装置およびプログラム
US20080162559A1 (en) Asynchronous communications regarding the subject matter of a media file stored on a handheld recording device
Ifeanyi et al. Text–To–Speech Synthesis (TTS)
AU769036B2 (en) Device and method for digital voice processing
JPH10149361A (ja) 情報処理方法及び装置及び記憶媒体
KR102020341B1 (ko) 악보 구현 및 음원 재생 시스템 및 그 방법
JP4409279B2 (ja) 音声合成装置及び音声合成プログラム
JP2004185055A (ja) 電子メールシステム及び通信端末
JP3578961B2 (ja) 音声合成方法及び装置
JP2020204683A (ja) 電子出版物視聴覚システム、視聴覚用電子出版物作成プログラム、及び利用者端末用プログラム
KR102267651B1 (ko) 오디오 컨텐츠 제공 방법 및 장치
López Gambino et al. Testing strategies for bridging time-to-content in spoken dialogue Systems

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130429

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20140429

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20150429

Year of fee payment: 9

LAPS Lapse due to unpaid annual fee