KR20040007757A

KR20040007757A - 텍스트 투 스피치(티티에스) 시스템에 이용하기 위한향상된 스피치 데이터를 포함시키는 텍스트 데이터 부호화방법, 복호화 방법, 티티에스 시스템 및 이를 포함하는이동 전화

Info

Publication number: KR20040007757A
Application number: KR10-2003-7017239A
Authority: KR
Inventors: 존 앤더튼
Original assignee: 세이코 엡슨 가부시키가이샤
Priority date: 2002-05-01
Filing date: 2003-04-30
Publication date: 2004-01-24
Also published as: US20050075879A1; AU2003222997A1; WO2003094150A1; JP2005524119A; EP1435085A1; GB2388286A; GB0209983D0; KR100612477B1; CN1522430A

Abstract

텍스트 투 스피치(TTS) 시스템에 이용하기 위한 향상된 스피치 데이터를 포함시키는 텍스트 데이터 부호화 방법, 복호화 방법, TTS 시스템 및 이 TTS 시스템을 포함하는 이동 전화. 텍스트 투 스피치(TTS) 시스템은 텍스트를 스피치로 변환하고 올바른 발음을 결정한다. 올바른 발음에 부가하여, 많은 TTS 시스템은 특정 스피치 모드를 정의하여 텍스트를 말하는 방식을 제어한다. 스피치 모드는, 적어도 운율(prosody), 즉 스피치 리듬, 다양한 단어의 강세, 피치의 변화, 말하는 속도, 볼륨의 변화 및 다른 특징과 함께 통화 가치, 날짜, 시간 등의 용어로 텍스트를 말하는 방식에 관해서 정의된다. 본 발명은 향상된 스피치 데이터를 부호화하는 방법에 관련된다. 향상된 스피치 데이터는 단순하고, 사용하기 쉽고, 배우기 쉽고, TTS 시스템이 설치된 단말 장치상에 이미 존재하는 키보드 특성을 이용하며, 원 위치에서 TTS 시스템을 설계할 때 적용되는 마크업 언어 또는 변형 중 어느 것에도 독립적이다. 따라서, 출력 텍스트는 스피치의 품질을 향상시키도록 맞춰지고 사용자가 자신의 메시지를 개인화할 수 있도록 한다. 따라서, 본 발명은 텍스트 데이터를 부호화하는 방법, 주석 달린 텍스트 데이터를 복호화하는 방법, 이를 실시하는 TTS 시스템 및 이동 전화에 관한 것이다.

Description

텍스트 투 스피치(티티에스) 시스템에 이용하기 위한 향상된 스피치 데이터를 포함시키는 텍스트 데이터 부호화 방법, 복호화 방법, 티티에스 시스템 및 이를 포함하는 이동 전화{A METHOD OF ENCODING TEXT DATA TO INCLUDE ENHANCED SPEECH DATA FOR USE IN A TEXT TO SPEECH (TTS) SYSTEM, A METHOD OF DECODING, A TTS SYSTEM AND A MOBILE PHONE INCLUDING SAID TTS SYSTEM}

디스플레이 및 컴퓨터 키보드 및/또는 마우스 입력을 이용하여, 텍스트 및/또는 그래픽 기반 정보의 표시를 제어하고 사람/컴퓨터 대화를 조종하기 위해, 웹 기반 개발과 XML 또는 HTML 등의 마크업 언어의 일반적인 사용이 점점 보편화되면서, 음성 입력(예컨대 음성 인식) 및 음성 출력 장치(예컨대 텍스트-투-스피치 또는 녹음된 오디오)를 이용하여, 들을 수 있는 정보의 표시를 제어하고 사람/컴퓨터 대화를 조종하기 위한 마크업 언어의 개발을 촉진되었다. 이러한 청각 기반 마크업 언어는 VoiceXML 및 이보다 앞선 것 중 하나인 JSML(자바 스피치 마크업 언어)이 있다. 종래 기술에 있어서 이렇게 마크업 언어를 이용하여 스피치 모드를 정의하는 방법이 알려져 있다. 언어 데이터를 나타내는 이러한 마크업 언어의 이용 예로는 US6088675 또는 US6269336B가 있다.

애플리케이션에 TTS 시스템을 통합시키는 설계자는 마크업 언어를 사용하여, 입력 텍스트의 전부 또는 일부에 지정될 수 있는 태그를 이용함으로써 스피치 모드를 정의할 수 있다. 대안적으로 설계자는 TTS 시스템에 의해 제공되는 소프트웨어 프로그래밍 인터페이스를 이용하는 쪽을 선택해도 된다(자신의 것 또는 마이크로소프트 SAPI (www.microsoft.com/speech) 등의 더욱 광범위하게 채택된 인터페이스). 이처럼, 스피치 모드를 정의하는 것은, TTS 시스템이 이용하는 특정 프로그래밍 인터페이스 또는 이용되는 마크업 언어에 대한 전문가 수준의 지식을 필요로 한다. 자동으로 마크업 언어를 생성시켜주는 툴에 액세스하여 전문가 수준 지식을 지원할 수 있었다. 그러나, 어느 경우에나 TTS 시스템의 대부분의 사용자는 이러한 지식이나 지원 툴에 대한 액세스를 갖고 있지 않다.

본 발명은 텍스트 투 스피치(TTS) 시스템에 이용하기 위한 향상된 스피치 데이터를 포함시키는 텍스트 데이터 부호화 방법, 복호화 방법, 티티에스 시스템 및 이를 포함하는 이동 전화에 관한 것이다.

텍스트 투 스피치(TTS) 시스템은 텍스트를 스피치로 변환하고 올바른 발음을 결정한다. 올바른 발음에 부가하여, 많은 TTS 시스템은 특정 스피치 모드를 정의하여 텍스트를 말하는 방식을 제어한다. 스피치 모드는, 적어도 운율(prosody), 즉 스피치 리듬, 다양한 단어의 강세, 피치의 변화, 말하는 속도, 볼륨의 변화 및 다른 특징과 함께 통화 가치, 날짜, 시간 등의 용어로 텍스트를 말하는 방식에 관해서 정의된다. 이하, 이러한 스피치 모드와 더불어 말하여지는 텍스트를 텍스트 데이터라고 칭한다.

도 1은 본 발명을 나타내는 도면이다.

도 2는 본 발명에 따른 TTS 시스템을 통합한 이동 전화의 개략도이다.

도 3은 본 발명에 따른 TTS 시스템을 통합한 휴대용 퍼스널 컴퓨터의 개략도이다.

도 4는 본 발명에 따른 TTS 시스템을 통합한 디지털 카메라의 개략도이다.

본 발명의 목적은 이러한 전문가 수준 지식을 필요로 하지 않고 스피치 모드를 향상시키는 것이다.

US 6006187에, 합성된 음성의 어쿠스틱한 특성을 제어하는 인터랙티브한 그래픽 유저 인터페이스가 설명되어 있다. 그러나, 이 방법은 디스플레이를 필요로 하고 다소 번거로우며, 특히 이동 전화 등의 이동 장치와 접속되는 경우에 그러하다.

따라서, 본 발명은 텍스트 투 스피치(TTS) 시스템에 이용하기 위한 향상된 스피치 데이터를 포함시키는 텍스트 데이터 부호화 방법을 제공하고, 상기 방법은,

상기 향상된 스피치 데이터가 식별되도록 텍스트 데이터에 식별자를 부가하는 단계;

향상된 스피치 데이터를 특정하는 단계; 및

상기 텍스트 데이터에 상기 향상된 스피치 데이터를 부가하는 단계를 포함하고,

상기 텍스트 데이터가 텍스트 및 이니셜 스피치 데이터를 구비하며, 상기 향상된 스피치 데이터는 상기 텍스트의 발음을 향상시킨다.

본 발명은 또한 텍스트 투 스피치(TTS) 시스템에 이용하기 위한 향상된 스피치 데이터 및 텍스트 데이터를 포함시키는 주석 달린 텍스트 데이터 복호화 방법을 제공하고, 상기 방법은,

상기 향상된 스피치 데이터를 식별하기 위해 상기 주석 달린 텍스트 데이터에서 식별자를 검출하는 단계; 및

상기 텍스트 데이터로부터 상기 향상된 스피치 데이터를 분리하는 단계를 포함하고,

상기 텍스트 데이터는 텍스트 및 이니셜 스피치 데이터를 구비하며, 상기 향상된 스피치 데이터는 상기 텍스트의 발음을 향상시킨다.

본 발명은 또한 첨부된 청구항에 정의된 바와 같은 TTS 시스템을 포함한다.

마지막으로, 본 발명은 또한 첨부된 청구항에 정의된 바와 같은 TTS 시스템을 구비하는 이동 전화에 관련된다.

첨부된 도면을 참조하여 예를 들면서 본 발명의 실시예를 이하에서 설명한다.

도 1에 나타난 바와 같이, 우선 스피치로서 출력될 텍스트가 입력 장치에 의해 입력(2)된다. 이는 텍스트 데이터로 사용자가 타이핑하거나, TTS 시스템이 설치된 애플리케이션 중의 하나에 의해 수신되게 된다. 예를 들어, TTS 시스템이 이동 전화에 설치되었다면, 발신자 또는 이동 전화 서비스 공급자에 의해 이동 전화로 수신된다. 본 발명에 있어서, 향상된 스피치 데이터가 부가되는 TTS 시스템에 대한 플래그에 헤더가 추가된다. 본 헤더는 헤더(4)에 의해 적용된다.

제어 시퀀스 주석기(6)에서 향상된 스피치 데이터가 텍스트 데이터에 부가된다. 향상된 스피치 데이터에서 이러한 제어 시퀀스의 예는 다음과 같다.

＼ /로우 피치

/ ＼하이 피치

<<저속

>>고속

/M남자 음성

/F여자 음성

##속삭임

..잠시 멈춤

_강조된 단어

/D캘린더 날짜로 발음

/T시간으로 발음

/S단어를 또박또박 읽음(spell out the word)

/P전화번호로 발음

상술한 바에서 명백하듯이, 향상된 스피치 데이터는 대략 하나 또는 두 문자로만 이루어질 정도로 짧고 일반적으로 다섯 문자 미만이다.

따라서, 예를 들어 사용자가 "Hello George. Guess where I am? I'm in abar. We need to set a date for a meeting. Say at 4 o'clock on the 23rd May. Thanks Jane" 텍스트를 향상된 스피치 데이터로써 다음과 같이 입력할 수 있다.

"/F Hello George. Guess where / ＼ I am? I'm in a ## bar. We need to set a date for a meeting. Say /T 4.00 on /D 23/05. Thanks Jane".

제어 시퀀스는 모두 대부분의 키보드에서 용이하게 발견할 수 있는 것들이고, 특히 대부분의 이동 전화의 키패드 및 간략화된 키보드를 갖는 다른 장치, 예를 들어 알람 제어 패널에도 있다. 짧은 시퀀스를 사용하기 때문에 설명서를 참조하지 않고도 사용자가 이를 기억할 수 있는 가능성이 높아진다. 또한, 짧은 시퀀스는 이니셜 스피치 데이터와 용이하게 구별된다. 최종적으로, 제어 시퀀스가 텍스트 또는 이니셜 스피치 데이터로 입력 텍스트에서 자연스럽게 이용될 가능성을 최소화하도록 제어 시퀀스를 또한 선택한다.

몇몇 제어 시퀀스는 종결되지 않는 것(open-ended)으로 미리 결정된다. 즉, 제어 시퀀스에 후속하는 모든 텍스트는 그 특정한 향상된 스피치에 종속된다. 상기 예에서, ＼ /, / ＼, <<, >>, /M, /F 는 모두 종결되지 않는 것으로 미리 결정된다. 몇몇 제어 시퀀스는 종결되는 것으로 미리 결정될 수 있다. 즉, 후속하는 단어만이 그 특정한 향상된 스피치에 종속된다. 상기 예에서, _, .., /D, /T 는 모두 종결되는 것으로 미리 결정된다. 몇몇 경우에, 제어 시퀀스가 종결되지 않는 것 또는 종결되는 것 중 하나일 수 있고, 사용자는 제어 시퀀스가 부가되는 범위를 나타내는 제어를 추가할 수 있다. 상기 예에서, ## 는 종결되지 않는 것 또는 종결되는 것 중 하나일 수 있고, 사용자가 어느 것을 적용할지를 결정할 수 있다.

향상된 스피치 데이터는 단순하고, 사용하기 쉽고, 배우기 쉽고, TTS 시스템이 설치된 단말 장치상에 이미 존재하는 키보드 특성을 이용하며, 원 위치에서 TTS 시스템을 설계할 때 적용되는 마크업 언어 또는 변형 중 어느 것에도 독립적이다. 따라서, 출력 텍스트는 스피치의 품질을 향상시키도록 맞춰지고 사용자가 자신의 메시지를 개인화할 수 있도록 한다.

향상된 스피치 데이터와 함께 텍스트 데이터를 구비하고 제어 시퀀스 주석기(6)에 의해 출력되는 주석 달린 텍스트 데이터는, 동일한 단말 장치 또는 TTS 시스템이 설치된 애플리케이션 내에서 기억 장치(8)에 기억된다. 주석 달린 텍스트 데이터가 기억되면, 예를 들면 경계 또는 약속 리마인더 메시지의 경우에 있어서, 후일에 그 텍스트 데이터를 말할 수 있다. 추가적으로 또는 대안적으로, 전송 수단(10)을 이용하여 TTS 시스템을 또한 포함하는 다른 단말 장치 또는 애플리케이션에 주석 달린 텍스트 데이터를 전송할 수 있다. 주석 달린 텍스트 데이터는 수신 단말 장치에 의해 기억되고 그리고/또는 즉시 출력될 수 있다.

주석달린 텍스트 데이터는 시간적으로 후에 그리고/또는 다른 단말 장치로부터의 전송에 이어 검색(retrieval) 장치(12)에 의해 수신된다. 헤더 인식 수단(14)은 주석 달린 텍스트 데이터에 헤더가 부가되었는지를 검출한다. 헤더가 검출되면, 주석 달린 텍스트 데이터는 파서(16)로 전달된다.

파서(16)는, 텍스트 데이터에서 제어 시퀀스와 그 위치를 식별한다. 파서(16)는, 텍스트 데이터로부터 제어 시퀀스를 분리하고 디스플레이(18)에 텍스트를 출력한다. 동시에, 파서는 텍스트 데이터 및 분리된 제어 시퀀스를 TTS 변환기(20)로 전달한다. TTS 변환기(20)는 텍스트 데이터에서 속성(attributes)을 획득하여 스피치 모드를 결정하고 제어 시퀀스를 변환하여 속성을 변경하고, 필요하다면 스피치 모드를 딕테이트(dictate)한다. TTS 변환기(20)는 텍스트 및 스피치 모드를 TTS 시스템(22)에 전달함으로써 TTS 시스템이 향상된 스피치 발음으로 텍스트를 스피치로서 출력하도록 한다.

향상된 스피치 데이터를 부가하는 능력은 말해야 하는 텍스트에 물리적인 제한이 가해지는 애플리케이션에서 매우 유리하다. 이러한 물리적 제한은 텍스트를 기억하는 데 이용되는 메모리 용량, 또는 전송되어 TTS 시스템이 설치된 애플리케이션에 의해 수신되는 텍스트의 사이즈의 결과로서 발생한다. 이러한 제한은 이동 전화에 자주 존재한다. 텍스트가 전송되는 경우에, 종종 전송 대역이 엄하게 제한된다. 이러한 제한된 전송 대역은 GSM 단문 메시지 서비스(SMS)를 이용할 때 매우 두드러진다. 따라서, 향상된 스피치 데이터를 부가하는 능력은 텍스트의 사이즈에 큰 영향을 주지 않고 스피치 품질을 유지하거나 향상시키기 위해서 특히 유리하다.

또한, 향상된 스피치 데이터의 단순성의 관점에서, 텍스트의 출력을 특별히 느리게 하지 않고 향상된 스피치 품질을 획득할 수 있고, TTS 시스템에 의해 결정되는 현존하는 스피치 모드에 의해 이러한 스피치 품질이 제공되었다면 상당히 더 빨라진다.

본 발명은 이동 전화, PDA, 컴퓨터, CD 플레이어, DVD 플레이어 등(이들로 제한되지는 않는다)의 소형, 이동 전자 제품에 이용하는 데 이점이 있다.

TTS 시스템을 설치한 몇몇 단말 장치를 설명한다.

<1: 휴대 전화>

TTS 시스템이 휴대 또는 이동 전화에 적용된 예를 설명한다. 도 2는 휴대 전화의 구성을 나타내는 사시도이다. 본 도에서, 휴대 전화(1200)에는 다수의 조작키(1202), 수화구(1204), 송화구(1206), 및 디스플레이 패널(100)이 제공된다. 송화구(1206) 또는 수화구(1204)가 스피치를 출력하는데 이용될 수 있다.

<2: 휴대용 컴퓨터>

상술한 실시예 중 하나에 따라 휴대용 퍼스널 컴퓨터에 TTS 시스템이 적용된 예를 설명한다.

도 3은 본 퍼스널 컴퓨터의 구성을 나타내는 사시도이다. 본 도에서, 퍼스널 컴퓨터(1100)에는 키보드(1102)와 디스플레이부(1106)를 구비하는 몸체(1104)가 제공된다. 상술한 바와 같이, 본 TTS 시스템은 디스플레이부(1106) 또는 키보드(1102)를 이용하여 본 발명에 따른 유저 인터페이스를 제공할 수 있다.

<3: 디지털 스틸 카메라>

다음으로, TTS 시스템을 이용하는 디지털 스틸 카메라를 설명한다. 도 4는 디지털 스틸 카메라의 구성 및 외부 장치로의 접속을 간략하게 나타내는 사시도이다.

전형적인 카메라는 물체로부터의 광학 이미지에 기초하여 필름을 감광시키는반면에, 디지털 스틸 카메라(1300)는 예를 들어 CCD(charge coupled device)를 이용한 광전 변환에 의해 물체의 광학 이미지로부터 이미징 신호를 생성한다. 디지털 스틸 카메라(1300)에는 케이스(1302)의 뒷면에 OEL 소자(100)가 제공되어 CCD로부터의 이미징 신호에 기초하여 디스플레이를 수행한다. 따라서, 디스플레이 패널(100)은 물체를 디스플레이하는 파인더로서 기능한다. 포토 수락부(1304)는 광학 렌즈를 포함하고, CCD는 케이스(1302)의 앞측(도면의 뒤쪽)에 제공된다. TTS 시스템은 디지털 스틸 카메라에서 실시될 수 있다.

도 2에 나타난 휴대 전화, 도 3에 나타난 퍼스널 컴퓨터, 및 도 4에 나타난 디지털 스틸 카메라 이외의 단말 장치의 예로는, PDA(personal digital assistant), 텔레비전 세트, 뷰파인더 타입 또는 모니터링 타입 비디오 테이프 레코더, 카 네비게이션 시스템, 페이져, 전자 노트북, 휴대용 계산기, 워드 프로세서, 워크스테이션, TV 전화, POS(point-of-sales 시스템) 단말, 및 터치 패널이 제공되는 장치가 있다. 물론, 본 발명의 TTS 시스템은 이러한 단말 장치의 어느 것에도 적용될 수 있다.

이상의 설명은 예로 든 것이며, 당업자라면 본 발명의 범위를 벗어나지 않고 변경을 가할 수 있다는 것을 알 수 있다.

Claims

텍스트 투 스피치(TTS) 시스템에 이용하기 위한 향상된 스피치 데이터를 포함시키는 텍스트 데이터 부호화 방법으로서,

상기 방법은,

상기 향상된 스피치 데이터가 식별되도록 텍스트 데이터에 식별자를 부가하는 단계;

향상된 스피치 데이터를 특정하는 단계; 및

상기 텍스트 데이터에 상기 향상된 스피치 데이터를 부가하는 단계를 포함하고,

상기 텍스트 데이터는 텍스트 및 이니셜 스피치 데이터를 구비하며, 상기 향상된 스피치 데이터는 상기 텍스트의 발음을 향상시키는 것을 특징으로 하는 텍스트 데이터 부호화 방법.
제1항에 있어서,

상기 향상된 스피치 데이터 및 상기 텍스트 데이터를 기억하는 단계를 더 포함하는 것을 특징으로 하는 텍스트 데이터 부호화 방법.
제1항 또는 제2항에 있어서,

상기 향상된 스피치 데이터 및 상기 텍스트 데이터를 전송하는 단계를 더 포함하는 것을 특징으로 하는 텍스트 데이터 부호화 방법.
제1항 내지 제3항 중 어느 한 항에 있어서,

상기 향상된 스피치 데이터를 특정하는 상기 단계는,

적어도 하나의 제1 제어 시퀀스를 종결되지 않는 것(open-ended)으로 특정하여 모든 텍스트가 상기 제1 제어 시퀀스에 종속하도록 하는 단계, 및/또는 적어도 하나의 제2 제어 시퀀스를 종결되는 것(closed)으로 특정하여 상기 제2 제어 시퀀스에 관련된 텍스트가 상기 제2 제어 시퀀스에 종속하도록 하는 단계, 및/또는 적어도 하나의 제3 제어 시퀀스를 종결되지 않는 것 또는 종결되는 것 중 하나로 특정하는 단계를 포함하는, 다수의 제어 시퀀스를 특정하는 단계를 포함하는 것을 특징으로 하는 텍스트 데이터 부호화 방법.
텍스트 투 스피치(TTS) 시스템에 이용하기 위한 향상된 스피치 데이터 및 텍스트 데이터를 포함시키는 주석 달린 텍스트 데이터 복호화 방법으로서,

상기 향상된 스피치 데이터를 식별하기 위해 상기 주석 달린 텍스트 데이터에서 식별자를 검출하는 단계; 및

상기 텍스트 데이터로부터 상기 향상된 스피치 데이터를 분리하는 단계를 포함하고,

상기 텍스트 데이터는 텍스트 및 이니셜 스피치 데이터를 구비하며, 상기 향상된 스피치 데이터는 상기 텍스트의 발음을 향상시키는 것을 특징으로 하는 주석달린 텍스트 데이터 복호화 방법.
제5항에 있어서,

상기 텍스트 데이터를 수신하고 상기 텍스트 데이터를 기억하는 단계를 더 포함하는 것을 특징으로 하는 주석 달린 텍스트 데이터 복호화 방법.
제5항 또는 제6항에 있어서,

상기 텍스트를 디스플레이하는 단계를 더 포함하는 것을 특징으로 하는 주석 달린 텍스트 데이터 복호화 방법.
제1항 내지 제4항 중 어느 한 항에 기재된 향상된 스피치 데이터를 포함시키는 텍스트 데이터 부호화 방법 및 제5항 내지 제7항 중 어느 한 항에 기재된 주석 달린 텍스트 데이터 복호화 방법을 실시하는 텍스트 투 스피치(TTS) 시스템.
제8항에 있어서,

식별자를 부가하는 수단, 스피치 데이터 주석기, 식별자를 검출하는 수단 및 텍스트 데이터로부터 향상된 스피치 데이터를 분리하는 파서를 구비하는 것을 특징으로 하는 TTS 시스템.
제2항을 인용하는 제9항에 있어서,

상기 텍스트 데이터 및 상기 향상된 스피치 데이터를 기억하는 메모리를 더 구비하는 것을 특징으로 하는 TTS 시스템.
제3항을 인용하는 제9항 또는 제10항에 있어서,

상기 텍스트 데이터 및 상기 향상된 스피치 데이터를 전송하는 전송 수단을 더 구비하는 것을 특징으로 하는 TTS 시스템.
제8항 내지 제11항 중 어느 한 항에 기재된 텍스트 투 스피치 시스템을 구비하는 이동 전화.