KR20040007757A - 텍스트 투 스피치(티티에스) 시스템에 이용하기 위한향상된 스피치 데이터를 포함시키는 텍스트 데이터 부호화방법, 복호화 방법, 티티에스 시스템 및 이를 포함하는이동 전화 - Google Patents

텍스트 투 스피치(티티에스) 시스템에 이용하기 위한향상된 스피치 데이터를 포함시키는 텍스트 데이터 부호화방법, 복호화 방법, 티티에스 시스템 및 이를 포함하는이동 전화 Download PDF

Info

Publication number
KR20040007757A
KR20040007757A KR10-2003-7017239A KR20037017239A KR20040007757A KR 20040007757 A KR20040007757 A KR 20040007757A KR 20037017239 A KR20037017239 A KR 20037017239A KR 20040007757 A KR20040007757 A KR 20040007757A
Authority
KR
South Korea
Prior art keywords
text
speech
data
tts
speech data
Prior art date
Application number
KR10-2003-7017239A
Other languages
English (en)
Other versions
KR100612477B1 (ko
Inventor
존 앤더튼
Original Assignee
세이코 엡슨 가부시키가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 세이코 엡슨 가부시키가이샤 filed Critical 세이코 엡슨 가부시키가이샤
Publication of KR20040007757A publication Critical patent/KR20040007757A/ko
Application granted granted Critical
Publication of KR100612477B1 publication Critical patent/KR100612477B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephone Function (AREA)
  • Telephonic Communication Services (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

텍스트 투 스피치(TTS) 시스템에 이용하기 위한 향상된 스피치 데이터를 포함시키는 텍스트 데이터 부호화 방법, 복호화 방법, TTS 시스템 및 이 TTS 시스템을 포함하는 이동 전화. 텍스트 투 스피치(TTS) 시스템은 텍스트를 스피치로 변환하고 올바른 발음을 결정한다. 올바른 발음에 부가하여, 많은 TTS 시스템은 특정 스피치 모드를 정의하여 텍스트를 말하는 방식을 제어한다. 스피치 모드는, 적어도 운율(prosody), 즉 스피치 리듬, 다양한 단어의 강세, 피치의 변화, 말하는 속도, 볼륨의 변화 및 다른 특징과 함께 통화 가치, 날짜, 시간 등의 용어로 텍스트를 말하는 방식에 관해서 정의된다. 본 발명은 향상된 스피치 데이터를 부호화하는 방법에 관련된다. 향상된 스피치 데이터는 단순하고, 사용하기 쉽고, 배우기 쉽고, TTS 시스템이 설치된 단말 장치상에 이미 존재하는 키보드 특성을 이용하며, 원 위치에서 TTS 시스템을 설계할 때 적용되는 마크업 언어 또는 변형 중 어느 것에도 독립적이다. 따라서, 출력 텍스트는 스피치의 품질을 향상시키도록 맞춰지고 사용자가 자신의 메시지를 개인화할 수 있도록 한다. 따라서, 본 발명은 텍스트 데이터를 부호화하는 방법, 주석 달린 텍스트 데이터를 복호화하는 방법, 이를 실시하는 TTS 시스템 및 이동 전화에 관한 것이다.

Description

텍스트 투 스피치(티티에스) 시스템에 이용하기 위한 향상된 스피치 데이터를 포함시키는 텍스트 데이터 부호화 방법, 복호화 방법, 티티에스 시스템 및 이를 포함하는 이동 전화{A METHOD OF ENCODING TEXT DATA TO INCLUDE ENHANCED SPEECH DATA FOR USE IN A TEXT TO SPEECH (TTS) SYSTEM, A METHOD OF DECODING, A TTS SYSTEM AND A MOBILE PHONE INCLUDING SAID TTS SYSTEM}
디스플레이 및 컴퓨터 키보드 및/또는 마우스 입력을 이용하여, 텍스트 및/또는 그래픽 기반 정보의 표시를 제어하고 사람/컴퓨터 대화를 조종하기 위해, 웹 기반 개발과 XML 또는 HTML 등의 마크업 언어의 일반적인 사용이 점점 보편화되면서, 음성 입력(예컨대 음성 인식) 및 음성 출력 장치(예컨대 텍스트-투-스피치 또는 녹음된 오디오)를 이용하여, 들을 수 있는 정보의 표시를 제어하고 사람/컴퓨터 대화를 조종하기 위한 마크업 언어의 개발을 촉진되었다. 이러한 청각 기반 마크업 언어는 VoiceXML 및 이보다 앞선 것 중 하나인 JSML(자바 스피치 마크업 언어)이 있다. 종래 기술에 있어서 이렇게 마크업 언어를 이용하여 스피치 모드를 정의하는 방법이 알려져 있다. 언어 데이터를 나타내는 이러한 마크업 언어의 이용 예로는 US6088675 또는 US6269336B가 있다.
애플리케이션에 TTS 시스템을 통합시키는 설계자는 마크업 언어를 사용하여, 입력 텍스트의 전부 또는 일부에 지정될 수 있는 태그를 이용함으로써 스피치 모드를 정의할 수 있다. 대안적으로 설계자는 TTS 시스템에 의해 제공되는 소프트웨어 프로그래밍 인터페이스를 이용하는 쪽을 선택해도 된다(자신의 것 또는 마이크로소프트 SAPI (www.microsoft.com/speech) 등의 더욱 광범위하게 채택된 인터페이스). 이처럼, 스피치 모드를 정의하는 것은, TTS 시스템이 이용하는 특정 프로그래밍 인터페이스 또는 이용되는 마크업 언어에 대한 전문가 수준의 지식을 필요로 한다. 자동으로 마크업 언어를 생성시켜주는 툴에 액세스하여 전문가 수준 지식을 지원할 수 있었다. 그러나, 어느 경우에나 TTS 시스템의 대부분의 사용자는 이러한 지식이나 지원 툴에 대한 액세스를 갖고 있지 않다.
본 발명은 텍스트 투 스피치(TTS) 시스템에 이용하기 위한 향상된 스피치 데이터를 포함시키는 텍스트 데이터 부호화 방법, 복호화 방법, 티티에스 시스템 및 이를 포함하는 이동 전화에 관한 것이다.
텍스트 투 스피치(TTS) 시스템은 텍스트를 스피치로 변환하고 올바른 발음을 결정한다. 올바른 발음에 부가하여, 많은 TTS 시스템은 특정 스피치 모드를 정의하여 텍스트를 말하는 방식을 제어한다. 스피치 모드는, 적어도 운율(prosody), 즉 스피치 리듬, 다양한 단어의 강세, 피치의 변화, 말하는 속도, 볼륨의 변화 및 다른 특징과 함께 통화 가치, 날짜, 시간 등의 용어로 텍스트를 말하는 방식에 관해서 정의된다. 이하, 이러한 스피치 모드와 더불어 말하여지는 텍스트를 텍스트 데이터라고 칭한다.
도 1은 본 발명을 나타내는 도면이다.
도 2는 본 발명에 따른 TTS 시스템을 통합한 이동 전화의 개략도이다.
도 3은 본 발명에 따른 TTS 시스템을 통합한 휴대용 퍼스널 컴퓨터의 개략도이다.
도 4는 본 발명에 따른 TTS 시스템을 통합한 디지털 카메라의 개략도이다.
본 발명의 목적은 이러한 전문가 수준 지식을 필요로 하지 않고 스피치 모드를 향상시키는 것이다.
US 6006187에, 합성된 음성의 어쿠스틱한 특성을 제어하는 인터랙티브한 그래픽 유저 인터페이스가 설명되어 있다. 그러나, 이 방법은 디스플레이를 필요로 하고 다소 번거로우며, 특히 이동 전화 등의 이동 장치와 접속되는 경우에 그러하다.
따라서, 본 발명은 텍스트 투 스피치(TTS) 시스템에 이용하기 위한 향상된 스피치 데이터를 포함시키는 텍스트 데이터 부호화 방법을 제공하고, 상기 방법은,
상기 향상된 스피치 데이터가 식별되도록 텍스트 데이터에 식별자를 부가하는 단계;
향상된 스피치 데이터를 특정하는 단계; 및
상기 텍스트 데이터에 상기 향상된 스피치 데이터를 부가하는 단계를 포함하고,
상기 텍스트 데이터가 텍스트 및 이니셜 스피치 데이터를 구비하며, 상기 향상된 스피치 데이터는 상기 텍스트의 발음을 향상시킨다.
본 발명은 또한 텍스트 투 스피치(TTS) 시스템에 이용하기 위한 향상된 스피치 데이터 및 텍스트 데이터를 포함시키는 주석 달린 텍스트 데이터 복호화 방법을 제공하고, 상기 방법은,
상기 향상된 스피치 데이터를 식별하기 위해 상기 주석 달린 텍스트 데이터에서 식별자를 검출하는 단계; 및
상기 텍스트 데이터로부터 상기 향상된 스피치 데이터를 분리하는 단계를 포함하고,
상기 텍스트 데이터는 텍스트 및 이니셜 스피치 데이터를 구비하며, 상기 향상된 스피치 데이터는 상기 텍스트의 발음을 향상시킨다.
본 발명은 또한 첨부된 청구항에 정의된 바와 같은 TTS 시스템을 포함한다.
마지막으로, 본 발명은 또한 첨부된 청구항에 정의된 바와 같은 TTS 시스템을 구비하는 이동 전화에 관련된다.
첨부된 도면을 참조하여 예를 들면서 본 발명의 실시예를 이하에서 설명한다.
도 1에 나타난 바와 같이, 우선 스피치로서 출력될 텍스트가 입력 장치에 의해 입력(2)된다. 이는 텍스트 데이터로 사용자가 타이핑하거나, TTS 시스템이 설치된 애플리케이션 중의 하나에 의해 수신되게 된다. 예를 들어, TTS 시스템이 이동 전화에 설치되었다면, 발신자 또는 이동 전화 서비스 공급자에 의해 이동 전화로 수신된다. 본 발명에 있어서, 향상된 스피치 데이터가 부가되는 TTS 시스템에 대한 플래그에 헤더가 추가된다. 본 헤더는 헤더(4)에 의해 적용된다.
제어 시퀀스 주석기(6)에서 향상된 스피치 데이터가 텍스트 데이터에 부가된다. 향상된 스피치 데이터에서 이러한 제어 시퀀스의 예는 다음과 같다.
\ /로우 피치
/ \하이 피치
<<저속
>>고속
/M남자 음성
/F여자 음성
##속삭임
..잠시 멈춤
_강조된 단어
/D캘린더 날짜로 발음
/T시간으로 발음
/S단어를 또박또박 읽음(spell out the word)
/P전화번호로 발음
상술한 바에서 명백하듯이, 향상된 스피치 데이터는 대략 하나 또는 두 문자로만 이루어질 정도로 짧고 일반적으로 다섯 문자 미만이다.
따라서, 예를 들어 사용자가 "Hello George. Guess where I am? I'm in abar. We need to set a date for a meeting. Say at 4 o'clock on the 23rd May. Thanks Jane" 텍스트를 향상된 스피치 데이터로써 다음과 같이 입력할 수 있다.
"/F Hello George. Guess where / \ I am? I'm in a ## bar. We need to set a date for a meeting. Say /T 4.00 on /D 23/05. Thanks Jane".
제어 시퀀스는 모두 대부분의 키보드에서 용이하게 발견할 수 있는 것들이고, 특히 대부분의 이동 전화의 키패드 및 간략화된 키보드를 갖는 다른 장치, 예를 들어 알람 제어 패널에도 있다. 짧은 시퀀스를 사용하기 때문에 설명서를 참조하지 않고도 사용자가 이를 기억할 수 있는 가능성이 높아진다. 또한, 짧은 시퀀스는 이니셜 스피치 데이터와 용이하게 구별된다. 최종적으로, 제어 시퀀스가 텍스트 또는 이니셜 스피치 데이터로 입력 텍스트에서 자연스럽게 이용될 가능성을 최소화하도록 제어 시퀀스를 또한 선택한다.
몇몇 제어 시퀀스는 종결되지 않는 것(open-ended)으로 미리 결정된다. 즉, 제어 시퀀스에 후속하는 모든 텍스트는 그 특정한 향상된 스피치에 종속된다. 상기 예에서, \ /, / \, <<, >>, /M, /F 는 모두 종결되지 않는 것으로 미리 결정된다. 몇몇 제어 시퀀스는 종결되는 것으로 미리 결정될 수 있다. 즉, 후속하는 단어만이 그 특정한 향상된 스피치에 종속된다. 상기 예에서, _, .., /D, /T 는 모두 종결되는 것으로 미리 결정된다. 몇몇 경우에, 제어 시퀀스가 종결되지 않는 것 또는 종결되는 것 중 하나일 수 있고, 사용자는 제어 시퀀스가 부가되는 범위를 나타내는 제어를 추가할 수 있다. 상기 예에서, ## 는 종결되지 않는 것 또는 종결되는 것 중 하나일 수 있고, 사용자가 어느 것을 적용할지를 결정할 수 있다.
향상된 스피치 데이터는 단순하고, 사용하기 쉽고, 배우기 쉽고, TTS 시스템이 설치된 단말 장치상에 이미 존재하는 키보드 특성을 이용하며, 원 위치에서 TTS 시스템을 설계할 때 적용되는 마크업 언어 또는 변형 중 어느 것에도 독립적이다. 따라서, 출력 텍스트는 스피치의 품질을 향상시키도록 맞춰지고 사용자가 자신의 메시지를 개인화할 수 있도록 한다.
향상된 스피치 데이터와 함께 텍스트 데이터를 구비하고 제어 시퀀스 주석기(6)에 의해 출력되는 주석 달린 텍스트 데이터는, 동일한 단말 장치 또는 TTS 시스템이 설치된 애플리케이션 내에서 기억 장치(8)에 기억된다. 주석 달린 텍스트 데이터가 기억되면, 예를 들면 경계 또는 약속 리마인더 메시지의 경우에 있어서, 후일에 그 텍스트 데이터를 말할 수 있다. 추가적으로 또는 대안적으로, 전송 수단(10)을 이용하여 TTS 시스템을 또한 포함하는 다른 단말 장치 또는 애플리케이션에 주석 달린 텍스트 데이터를 전송할 수 있다. 주석 달린 텍스트 데이터는 수신 단말 장치에 의해 기억되고 그리고/또는 즉시 출력될 수 있다.
주석달린 텍스트 데이터는 시간적으로 후에 그리고/또는 다른 단말 장치로부터의 전송에 이어 검색(retrieval) 장치(12)에 의해 수신된다. 헤더 인식 수단(14)은 주석 달린 텍스트 데이터에 헤더가 부가되었는지를 검출한다. 헤더가 검출되면, 주석 달린 텍스트 데이터는 파서(16)로 전달된다.
파서(16)는, 텍스트 데이터에서 제어 시퀀스와 그 위치를 식별한다. 파서(16)는, 텍스트 데이터로부터 제어 시퀀스를 분리하고 디스플레이(18)에 텍스트를 출력한다. 동시에, 파서는 텍스트 데이터 및 분리된 제어 시퀀스를 TTS 변환기(20)로 전달한다. TTS 변환기(20)는 텍스트 데이터에서 속성(attributes)을 획득하여 스피치 모드를 결정하고 제어 시퀀스를 변환하여 속성을 변경하고, 필요하다면 스피치 모드를 딕테이트(dictate)한다. TTS 변환기(20)는 텍스트 및 스피치 모드를 TTS 시스템(22)에 전달함으로써 TTS 시스템이 향상된 스피치 발음으로 텍스트를 스피치로서 출력하도록 한다.
향상된 스피치 데이터를 부가하는 능력은 말해야 하는 텍스트에 물리적인 제한이 가해지는 애플리케이션에서 매우 유리하다. 이러한 물리적 제한은 텍스트를 기억하는 데 이용되는 메모리 용량, 또는 전송되어 TTS 시스템이 설치된 애플리케이션에 의해 수신되는 텍스트의 사이즈의 결과로서 발생한다. 이러한 제한은 이동 전화에 자주 존재한다. 텍스트가 전송되는 경우에, 종종 전송 대역이 엄하게 제한된다. 이러한 제한된 전송 대역은 GSM 단문 메시지 서비스(SMS)를 이용할 때 매우 두드러진다. 따라서, 향상된 스피치 데이터를 부가하는 능력은 텍스트의 사이즈에 큰 영향을 주지 않고 스피치 품질을 유지하거나 향상시키기 위해서 특히 유리하다.
또한, 향상된 스피치 데이터의 단순성의 관점에서, 텍스트의 출력을 특별히 느리게 하지 않고 향상된 스피치 품질을 획득할 수 있고, TTS 시스템에 의해 결정되는 현존하는 스피치 모드에 의해 이러한 스피치 품질이 제공되었다면 상당히 더 빨라진다.
본 발명은 이동 전화, PDA, 컴퓨터, CD 플레이어, DVD 플레이어 등(이들로 제한되지는 않는다)의 소형, 이동 전자 제품에 이용하는 데 이점이 있다.
TTS 시스템을 설치한 몇몇 단말 장치를 설명한다.
<1: 휴대 전화>
TTS 시스템이 휴대 또는 이동 전화에 적용된 예를 설명한다. 도 2는 휴대 전화의 구성을 나타내는 사시도이다. 본 도에서, 휴대 전화(1200)에는 다수의 조작키(1202), 수화구(1204), 송화구(1206), 및 디스플레이 패널(100)이 제공된다. 송화구(1206) 또는 수화구(1204)가 스피치를 출력하는데 이용될 수 있다.
<2: 휴대용 컴퓨터>
상술한 실시예 중 하나에 따라 휴대용 퍼스널 컴퓨터에 TTS 시스템이 적용된 예를 설명한다.
도 3은 본 퍼스널 컴퓨터의 구성을 나타내는 사시도이다. 본 도에서, 퍼스널 컴퓨터(1100)에는 키보드(1102)와 디스플레이부(1106)를 구비하는 몸체(1104)가 제공된다. 상술한 바와 같이, 본 TTS 시스템은 디스플레이부(1106) 또는 키보드(1102)를 이용하여 본 발명에 따른 유저 인터페이스를 제공할 수 있다.
<3: 디지털 스틸 카메라>
다음으로, TTS 시스템을 이용하는 디지털 스틸 카메라를 설명한다. 도 4는 디지털 스틸 카메라의 구성 및 외부 장치로의 접속을 간략하게 나타내는 사시도이다.
전형적인 카메라는 물체로부터의 광학 이미지에 기초하여 필름을 감광시키는반면에, 디지털 스틸 카메라(1300)는 예를 들어 CCD(charge coupled device)를 이용한 광전 변환에 의해 물체의 광학 이미지로부터 이미징 신호를 생성한다. 디지털 스틸 카메라(1300)에는 케이스(1302)의 뒷면에 OEL 소자(100)가 제공되어 CCD로부터의 이미징 신호에 기초하여 디스플레이를 수행한다. 따라서, 디스플레이 패널(100)은 물체를 디스플레이하는 파인더로서 기능한다. 포토 수락부(1304)는 광학 렌즈를 포함하고, CCD는 케이스(1302)의 앞측(도면의 뒤쪽)에 제공된다. TTS 시스템은 디지털 스틸 카메라에서 실시될 수 있다.
도 2에 나타난 휴대 전화, 도 3에 나타난 퍼스널 컴퓨터, 및 도 4에 나타난 디지털 스틸 카메라 이외의 단말 장치의 예로는, PDA(personal digital assistant), 텔레비전 세트, 뷰파인더 타입 또는 모니터링 타입 비디오 테이프 레코더, 카 네비게이션 시스템, 페이져, 전자 노트북, 휴대용 계산기, 워드 프로세서, 워크스테이션, TV 전화, POS(point-of-sales 시스템) 단말, 및 터치 패널이 제공되는 장치가 있다. 물론, 본 발명의 TTS 시스템은 이러한 단말 장치의 어느 것에도 적용될 수 있다.
이상의 설명은 예로 든 것이며, 당업자라면 본 발명의 범위를 벗어나지 않고 변경을 가할 수 있다는 것을 알 수 있다.

Claims (12)

  1. 텍스트 투 스피치(TTS) 시스템에 이용하기 위한 향상된 스피치 데이터를 포함시키는 텍스트 데이터 부호화 방법으로서,
    상기 방법은,
    상기 향상된 스피치 데이터가 식별되도록 텍스트 데이터에 식별자를 부가하는 단계;
    향상된 스피치 데이터를 특정하는 단계; 및
    상기 텍스트 데이터에 상기 향상된 스피치 데이터를 부가하는 단계를 포함하고,
    상기 텍스트 데이터는 텍스트 및 이니셜 스피치 데이터를 구비하며, 상기 향상된 스피치 데이터는 상기 텍스트의 발음을 향상시키는 것을 특징으로 하는 텍스트 데이터 부호화 방법.
  2. 제1항에 있어서,
    상기 향상된 스피치 데이터 및 상기 텍스트 데이터를 기억하는 단계를 더 포함하는 것을 특징으로 하는 텍스트 데이터 부호화 방법.
  3. 제1항 또는 제2항에 있어서,
    상기 향상된 스피치 데이터 및 상기 텍스트 데이터를 전송하는 단계를 더 포함하는 것을 특징으로 하는 텍스트 데이터 부호화 방법.
  4. 제1항 내지 제3항 중 어느 한 항에 있어서,
    상기 향상된 스피치 데이터를 특정하는 상기 단계는,
    적어도 하나의 제1 제어 시퀀스를 종결되지 않는 것(open-ended)으로 특정하여 모든 텍스트가 상기 제1 제어 시퀀스에 종속하도록 하는 단계, 및/또는 적어도 하나의 제2 제어 시퀀스를 종결되는 것(closed)으로 특정하여 상기 제2 제어 시퀀스에 관련된 텍스트가 상기 제2 제어 시퀀스에 종속하도록 하는 단계, 및/또는 적어도 하나의 제3 제어 시퀀스를 종결되지 않는 것 또는 종결되는 것 중 하나로 특정하는 단계를 포함하는, 다수의 제어 시퀀스를 특정하는 단계를 포함하는 것을 특징으로 하는 텍스트 데이터 부호화 방법.
  5. 텍스트 투 스피치(TTS) 시스템에 이용하기 위한 향상된 스피치 데이터 및 텍스트 데이터를 포함시키는 주석 달린 텍스트 데이터 복호화 방법으로서,
    상기 향상된 스피치 데이터를 식별하기 위해 상기 주석 달린 텍스트 데이터에서 식별자를 검출하는 단계; 및
    상기 텍스트 데이터로부터 상기 향상된 스피치 데이터를 분리하는 단계를 포함하고,
    상기 텍스트 데이터는 텍스트 및 이니셜 스피치 데이터를 구비하며, 상기 향상된 스피치 데이터는 상기 텍스트의 발음을 향상시키는 것을 특징으로 하는 주석달린 텍스트 데이터 복호화 방법.
  6. 제5항에 있어서,
    상기 텍스트 데이터를 수신하고 상기 텍스트 데이터를 기억하는 단계를 더 포함하는 것을 특징으로 하는 주석 달린 텍스트 데이터 복호화 방법.
  7. 제5항 또는 제6항에 있어서,
    상기 텍스트를 디스플레이하는 단계를 더 포함하는 것을 특징으로 하는 주석 달린 텍스트 데이터 복호화 방법.
  8. 제1항 내지 제4항 중 어느 한 항에 기재된 향상된 스피치 데이터를 포함시키는 텍스트 데이터 부호화 방법 및 제5항 내지 제7항 중 어느 한 항에 기재된 주석 달린 텍스트 데이터 복호화 방법을 실시하는 텍스트 투 스피치(TTS) 시스템.
  9. 제8항에 있어서,
    식별자를 부가하는 수단, 스피치 데이터 주석기, 식별자를 검출하는 수단 및 텍스트 데이터로부터 향상된 스피치 데이터를 분리하는 파서를 구비하는 것을 특징으로 하는 TTS 시스템.
  10. 제2항을 인용하는 제9항에 있어서,
    상기 텍스트 데이터 및 상기 향상된 스피치 데이터를 기억하는 메모리를 더 구비하는 것을 특징으로 하는 TTS 시스템.
  11. 제3항을 인용하는 제9항 또는 제10항에 있어서,
    상기 텍스트 데이터 및 상기 향상된 스피치 데이터를 전송하는 전송 수단을 더 구비하는 것을 특징으로 하는 TTS 시스템.
  12. 제8항 내지 제11항 중 어느 한 항에 기재된 텍스트 투 스피치 시스템을 구비하는 이동 전화.
KR1020037017239A 2002-05-01 2003-04-30 텍스트 투 스피치(티티에스) 시스템에 이용하기 위한향상된 스피치 데이터를 포함시키는 텍스트 데이터 부호화방법, 복호화 방법, 티티에스 시스템 및 이를 포함하는이동 전화 KR100612477B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
GB0209983.6 2002-05-01
GB0209983A GB2388286A (en) 2002-05-01 2002-05-01 Enhanced speech data for use in a text to speech system
PCT/GB2003/001839 WO2003094150A1 (en) 2002-05-01 2003-04-30 A method of encoding text data to include enhanced speech data for use in a text to speech (tts) system, a method of decoding, a tts system and a mobile phone including said tts system

Publications (2)

Publication Number Publication Date
KR20040007757A true KR20040007757A (ko) 2004-01-24
KR100612477B1 KR100612477B1 (ko) 2006-08-16

Family

ID=9935885

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020037017239A KR100612477B1 (ko) 2002-05-01 2003-04-30 텍스트 투 스피치(티티에스) 시스템에 이용하기 위한향상된 스피치 데이터를 포함시키는 텍스트 데이터 부호화방법, 복호화 방법, 티티에스 시스템 및 이를 포함하는이동 전화

Country Status (8)

Country Link
US (1) US20050075879A1 (ko)
EP (1) EP1435085A1 (ko)
JP (1) JP2005524119A (ko)
KR (1) KR100612477B1 (ko)
CN (1) CN1522430A (ko)
AU (1) AU2003222997A1 (ko)
GB (1) GB2388286A (ko)
WO (1) WO2003094150A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160075881A (ko) 2014-12-19 2016-06-30 주식회사 이푸드 오메가-3가 첨가된 바베큐용 돼지고기 등심 가공방법

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1260704C (zh) * 2003-09-29 2006-06-21 摩托罗拉公司 语音合成方法
US7583974B2 (en) * 2004-05-27 2009-09-01 Alcatel-Lucent Usa Inc. SMS messaging with speech-to-text and text-to-speech conversion
US7362738B2 (en) 2005-08-09 2008-04-22 Deere & Company Method and system for delivering information to a user
KR100699050B1 (ko) * 2006-06-30 2007-03-28 삼성전자주식회사 문자정보를 음성정보로 출력하는 이동통신 단말기 및 그방법
DE102007007830A1 (de) * 2007-02-16 2008-08-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines Datenstroms und Vorrichtung und Verfahren zum Lesen eines Datenstroms
US7844457B2 (en) 2007-02-20 2010-11-30 Microsoft Corporation Unsupervised labeling of sentence level accent
JP5217250B2 (ja) * 2007-05-28 2013-06-19 ソニー株式会社 学習装置および学習方法、情報加工装置および情報加工方法、並びにプログラム
TWI503813B (zh) * 2012-09-10 2015-10-11 Univ Nat Chiao Tung 可控制語速的韻律訊息產生裝置及語速相依之階層式韻律模組
US20140136208A1 (en) * 2012-11-14 2014-05-15 Intermec Ip Corp. Secure multi-mode communication between agents
US10909978B2 (en) * 2017-06-28 2021-02-02 Amazon Technologies, Inc. Secure utterance storage

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR950704772A (ko) * 1993-10-15 1995-11-20 데이비드 엠. 로젠블랫 시스템 트레이닝 방법, 트레이닝된 장치 및 그 사용 방법(A method for training a system, the resulting apparatus, and method of use thereof)
US5634084A (en) * 1995-01-20 1997-05-27 Centigram Communications Corporation Abbreviation and acronym/initialism expansion procedures for a text to speech reader
AU5852896A (en) * 1995-05-05 1996-11-21 Apple Computer, Inc. Method and apparatus for managing text objects
US6006187A (en) * 1996-10-01 1999-12-21 Lucent Technologies Inc. Computer prosody user interface
US6226614B1 (en) * 1997-05-21 2001-05-01 Nippon Telegraph And Telephone Corporation Method and apparatus for editing/creating synthetic speech message and recording medium with the method recorded thereon
US6061718A (en) * 1997-07-23 2000-05-09 Ericsson Inc. Electronic mail delivery system in wired or wireless communications system
US20020002458A1 (en) * 1997-10-22 2002-01-03 David E. Owen System and method for representing complex information auditorially
US6216104B1 (en) * 1998-02-20 2001-04-10 Philips Electronics North America Corporation Computer-based patient record and message delivery system
US6081780A (en) * 1998-04-28 2000-06-27 International Business Machines Corporation TTS and prosody based authoring system
US6269336B1 (en) * 1998-07-24 2001-07-31 Motorola, Inc. Voice browser for interactive services and methods thereof
US7292980B1 (en) * 1999-04-30 2007-11-06 Lucent Technologies Inc. Graphical user interface and method for modifying pronunciations in text-to-speech and speech recognition systems

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160075881A (ko) 2014-12-19 2016-06-30 주식회사 이푸드 오메가-3가 첨가된 바베큐용 돼지고기 등심 가공방법

Also Published As

Publication number Publication date
US20050075879A1 (en) 2005-04-07
AU2003222997A1 (en) 2003-11-17
WO2003094150A1 (en) 2003-11-13
JP2005524119A (ja) 2005-08-11
EP1435085A1 (en) 2004-07-07
GB2388286A (en) 2003-11-05
GB0209983D0 (en) 2002-06-12
KR100612477B1 (ko) 2006-08-16
CN1522430A (zh) 2004-08-18

Similar Documents

Publication Publication Date Title
CN100578614C (zh) 用语音应用语言标记执行的语义对象同步理解
KR101066741B1 (ko) 컴퓨터 시스템과 동적으로 상호작용하기 위한 컴퓨터 구현 방법, 시스템, 및 컴퓨터 판독가능 기록 매체
JP4651613B2 (ja) マルチメディアおよびテキストエディタを用いた音声起動メッセージ入力方法および装置
US7962344B2 (en) Depicting a speech user interface via graphical elements
US7383189B2 (en) Method and device for providing speech-enabled input in an electronic device having a user interface
CA2043667C (en) Written language parser system
US20140365915A1 (en) Method for creating short message and portable terminal using the same
KR100612477B1 (ko) 텍스트 투 스피치(티티에스) 시스템에 이용하기 위한향상된 스피치 데이터를 포함시키는 텍스트 데이터 부호화방법, 복호화 방법, 티티에스 시스템 및 이를 포함하는이동 전화
JP7116088B2 (ja) 音声情報処理方法、装置、プログラム及び記録媒体
US11200899B2 (en) Voice processing method, apparatus and device
US6732078B1 (en) Audio control method and audio controlled device
CN105139848B (zh) 数据转换方法和装置
KR20140019167A (ko) 음성 안내 기능을 제공하기 위한 방법 및 그 전자 장치
US20040236578A1 (en) Semiconductor chip for a mobile telephone which includes a text to speech system, a method of aurally presenting a notification or text message from a mobile telephone and a mobile telephone
JP3714159B2 (ja) ブラウザ搭載装置
KR100380829B1 (ko) 에이전트를 이용한 대화 방식 인터페이스 운영 시스템 및방법과 그 프로그램 소스를 기록한 기록 매체
KR20080043035A (ko) 음성 인식 기능을 갖는 이동 통신 단말 및 이를 이용한검색 방법
EP1454313B1 (en) Method for adapting a pronunciation dictionary used for speech synthesis
WO2002099786A1 (en) Method and device for multimodal interactive browsing
JP2005106844A (ja) 音声出力装置、サーバ及びプログラム
Tóth et al. VoxAid 2006: Telephone communication for hearing and/or vocally impaired people
KR20060057048A (ko) 통신 단말기에서 키 입력 또는 메뉴에 따른 음성 안내방법 및 그 장치
JP2005293095A (ja) 電子メール処理装置および電子メール処理プログラム
KR20050109329A (ko) 휴대용 단말기의 전자사전서비스 방법
KR19990041643A (ko) 전화기의 음성대행 송출방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20100729

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee