KR20060049290A

KR20060049290A - 혼성－언어 텍스트의 음성 변환 방법

Info

Publication number: KR20060049290A
Application number: KR1020050071348A
Authority: KR
Inventors: 동-지안 유; 기-린 첸; ?b-리 유; 이-킹 주
Original assignee: 모토로라 인코포레이티드
Priority date: 2004-08-05
Filing date: 2005-08-04
Publication date: 2006-05-18
Also published as: CN1731510B; SG119357A1; CN1731510A; JP4473193B2; JP2006048056A

Abstract

본 발명에 따른 혼성-언어 텍스트의 음성으로의 합성 방법은 적어도 2개의 언어의 혼성-언어 텍스트 스트링을 수신하는 단계(220)를 포함한다. 다음으로, 텍스트 스트링 중의 텍스트를 (i) 단일 음절을 나타내는 문자들 중의 음절 기초 문자들 각각의 문자 스트링; 또는 (ii) 알파벳 글자들로 형성된 하나 이상의 단어들을 포함하는 단어 스트링(일부 단어들은 하나 이상의 음절을 나타냄)으로 분리하는 단계(230)가 포함된다. 음절 기초 문자들 각각에 대한 음성학적 유닛들이 할당되고(240) 각각의 단어들에 대해 음소들이 역시 할당된다(260). 음성학적 유닛들 및 음소들 모두에 대해 별개의 음향 유닛들이 선택되고(250, 270), 연결되고(275), 합성된다(285).

혼성-언어 텍스트, 음향 유닛, 음절 기초 문자, 텍스트 스트링, 모음 강세

Description

혼성－언어 텍스트의 음성 변환 방법{Mixed-lingual text to speech}

도 1은 본 발명에 따른 전자 디바이스의 개략적 블록도.

도 2는 도 1의 전자 디바이스 상에서 수행될 수 있는 혼성-언어 텍스트에서 음성으로의 합성 방법을 예시하는 흐름도.

도 3은 직접 비순환 그래프(DAG)의 일 실시예를 예시하는 도면.

* 도면의 주요 부분에 대한 부호의 설명 *

102: 디바이스 프로세서 104: 사용자 인터페이스

106: 발언 주요부 110: 음성 합성기

116: 무선 통신 모듈 120: 비휘발성 메모리

발명의 분야

본 발명은 일반적으로 텍스트의 음성 변환(TTS) 합성에 관한 것이다. 본 발명은 특히 혼성-언어 텍스트의 합성된 발음을 위해 문자의 음성으로의 변환에 유용 하다.

발명의 배경

종종 연결된 텍스트의 음성 합성이라 칭하는 텍스트의 음성 (TTS) 변환은 전자 디바이스들이 입력된 텍스트 스트링을 수신하고, 그 스트링의 변환된 표시를 합성된 음성의 형태로 제공하게 한다. 그러나, 결정되지 않은 수의 수신된 텍스트 스트링들로부터 기원하는 음성을 합성하는데 필요한 디바이스가 고품질의 현실적으로 합성된 음성을 제공하기는 곤란할 것이다. 하나의 난점은 동일한 문자들 또는 문자들의 그룹들이 다른 인접한 문자들 및 합성되어야 할 텍스트 세그먼트에서의 위치에 따라 상이한 음성들 및 모음 강세/강조를 가질 수 있는 문자에서 음성으로의 변환에 기반을 둔다.

혼성-언어 TTS 합성은 호출 센터 및 소형 디바이스 등의 수많은 도메인들에서 그의 용도를 찾고 있다. 이하, 혼성-언어 TTS는 텍스트의 스트링들의 분석으로부터 식별되고 검출될 수 있는 둘 이상의 언어에 대한 음성 합성 기술을 의미한다. 2개의 언어의 텍스트 스트링들에 대한 혼성-언어 TTS를 고려할 때, 텍스트의 대부분을 구성하는 하나의 지배적인 언어는 보편적으로 제 1 언어라 칭하고 다른 언어는 제 2 언어라 한다. 전형적으로, 아시아 언어(만다린, 광둥어, 일본어, 한국어, 태국어 등)와 같은 제 1 언어는 영어와 믹싱된다.

연결 합성에 기초한 TTS 시스템에서, 발언은 여러 음성 단편들을 함께 연결시킴으로써 합성된다. 연결되는 음성 합성은 실제 혼성-언어 TTS 시스템들을 실현하는 유망한 시도로서 확인되어 오고 있지만, 음성학적 유닛들, 음소 및 이들의 대 응하는 음향 단위들을 식별하는 것이 문제가 된다. 또한, 각각의 연결점들 또는 2개의 연속적인 유닛들 사이의 청취 가능한 불연속성은 합성된 음질에 영향을 미친다. 더욱이, 각각의 연결점에서 음성 스무딩 및 2개의 언어의 합성된 음성 세그먼트들 사이의 트랜지션들의 스무딩 모두는 음질에 영향을 미친다.

특허 청구의 범위를 포함하는 본원 명세서에서, '포함한다', '포함하는' 또는 이와 유사한 용어들은 배타적이지 않은 것을 의미함으로써, 일련의 소자들을 포함하는 방법 또는 장치는 그들 소자들을 단독으로 포함하지 않고, 열거되지 않은 다른 소자들을 잘 포함할 수 있다.

발명의 요약

본 발명의 일 특징에 따라,

적어도 2개의 언어의 혼성-언어 텍스트 스트링을 수신하는 단계;

텍스트 스트링 중의 텍스트를 (i) 단일 음절을 나타내는 문자들 중의 음절 기초 문자들 각각의 적어도 하나의 문자 스트링; 또는 (ii) 알파벳 글자들로 형성된 하나 이상의 단어들을 포함하는 적어도 하나의 단어 스트링 (적어도 일부 단어들은 하나 이상의 음절을 나타냄)로 분리하는 단계;

음절 기초 문자들 각각에 대한 음성학적 유닛들을 할당하는 단계;

각각의 단어들에 대해 음소들을 할당하는 단계(하나 이상의 음소들이 개별 음절들을 형성함);

음성학적 유닛들 및 음소들 모두에 대해 별개의 음향 유닛들을 선택하는 단계; 및

혼성-언어 텍스트 스트링에 대응하는 순서를 갖는 연결된 순서 매김된 음향 유닛들 내로 별개의 음향 유닛들을 연결시키는 단계; 및

연결된 순서 매김된 음향 유닛들을 사용하여 음성 합성을 수행하는 단계를 포함하는, 혼성-언어 텍스트에 대한 음성 합성 방법이 제공된다.

적절하게는, 텍스트를 분리하는 단계는 2개의 언어중 어느 것이 텍스트 스트링 중의 제 1 언어이고, 어느 것이 제 2 언어인지 확인하기도 한다.

바람직하게는, 제 1 언어를 포함하는 텍스트는 제 2 언어로부터 텍스트의 위치를 지시하는 하나 이상의 더미 스페이서들을 포함한다.

적절하게는, 음성학적 유닛들을 할당하는 단계는 어휘 목록 중의 단어들이 음절 기초 문자들의 텍스트의 세그먼트들을 매칭하는 연속적인 문자들의 최대수와 매칭하도록 최대 매칭에 의한 세그먼트화를 포함하고, 이 세그먼트화는 최대 매칭된 단어들을 제공한다.

바람직하게는, 음성학적 유닛들을 할당하는 단계는 구두점에 의해 명확히 식별되지 않는 자연적인 음성 포우즈들을 식별하기 위해 최대 매칭된 단어들에 대해 어구 바운더리들을 결정하는 것을 포함한다.

적절하게는, 음성학적 유닛들을 할당하는 단계는 최대 매칭된 단어들 중의 문자가 포함하는 것에 관련된 각각의 문자에 대해 음성학적 유닛들을 식별하는 것을 포함한다. 적절하게는, 음성학적 유닛들 각각과 연관된 운율학적 정보가 존재 한다.

바람직하게는, 음소들의 할당 단계는 구두점에 의해 명확하게 식별되지 않는 하나 이상의 자연적인 바운더리들을 식별하는 것을 포함한다. 적절하게는, 자연적인 바운더리들은 음성 패턴들의 일부에 기초하여 예측되는 단어 번들링에 의해 식별된다. 바람직하게는, 음성 패턴들의 일부는 다음:

형용사 + 명사 → 자연적인 바운더리;

수 + 량 → 자연적인 바운더리;

동사 + 명사 → 자연적인 바운더리;

형용사 + 동사 → 자연적인 바운더리;

명사 + 명사 → 자연적인 바운더리;

수 + 명사 → 자연적인 바운더리;

동사 + 동사 → 자연적인 바운더리; 및

명사 + 접속사 + 명사 → 자연적인 바운더리.

을 포함하는 규칙들을 사용하여 식별된다.

적절하게는, 음소들을 할당하는 단계는 단어들을 서브-단어 시퀀스를 형성하는 서브-단어들로 세그먼트화하고, 하나 이상의 음소들을 별개의 음절들에 할당하기 위해 음절 바운더리들을 식별하는 것을 포함한다.

음절 바운더리들을 식별하는 단계는 바람직하게는 자음(C); 모음(V); 및 자음 그룹(CG)으로서 각각의 서브 단어를 식별하는 것을 포함한다.

적절하게는, 음절 바운더리들을 식별하는 단계는 다음 규칙들:

VCV →V｜CV; VV →V｜V; CC가 CG에 있지 않을 때 VCCV →VC｜CV; CC가 CG에 있을 때 VCCV →V｜CCV; VCCCV →VC｜CCV; VCCCCV →VC｜CCCV,

(여기서 "｜"는 음절 바운더리를 나타냄)을 포함하는 것인 방법.

바람직하게는, 연결시키는 동안 상기 음향 유닛들이 제 2 언어로부터 텍스트의 위치를 지시하는 각각의 더미 스페이서들 내로 삽입된다.

적절하게는, 연결된 순서 매김된 음향 유닛들은 연결되는 바운더리에서 음향 유닛들과 연관된 여기 신호들을 병합하는 것을 포함하는 강화 단계를 수행한다.

본 발명이 용이하게 이해되고 실질적인 효과를 가져올 수 있도록, 이하 수반되는 도면들을 참조하여 예시된 바람직한 실시예에 대해 참조할 것이다.

바람직한 실시예의 상세한 설명

도 1을 참조하여, 전형적으로 터치 스크린 또는 대안으로 디스플레이 스크린 또는 키패드인 사용자 인터페이스(104)에 버스(103)에 의해 작동 가능하게 결합된 디바이스 프로세서(102)를 포함하는 무선 전화기 형태의 전자 디바이스(100)가 예시된다. 전자 디바이스(100)는 또한 발언 주요부(106), 음성 합성기(110), 비휘발성 메모리(120), 판독 전용 메모리(118) 및 무선 통신 모듈(116)을 포함하고, 이들 모두는 버스(103)에 의해 프로세서(102)에 작동 가능하게 결합되어 있다. 음성 합성기(110)는 스피커(112)를 구동하도록 결합된 출력단을 갖는다. 발언 주요부(106)는 샘플링되고, 디지트화되고, 프로세싱된 발언 파형들(PUWs)과 연관된 단어 들 또는 음소들의 표시들을 포함한다. 다시 말하자면, 아래 기재된 바와 같이, 사용 중인 비휘발성 메모리(120)(메모리 모듈)은 혼성-언어 텍스트에서 음성(TTS) 합성을 제공한다. 또한, 파형 발언 주요부(106)는 음소들 및 운율학적 특징부들의 강세/강조 형태로 샘플링되고 디지트화된 발언 파형들을 포함한다.

당업계의 숙련자에게 명백한 바와 같이, 무선 주파수 통신 유닛(116)은 전형적으로 공통 안테나를 갖는 조합된 수신기 및 송신기이다. 무선 주파수 통신 유닛(116)은 무선 주파수 증폭기를 통해 안테나에 결합된 송수신기를 갖는다. 이 송수신기는 또한 통신 유닛(116)을 프로세서(102)에 결합시키는 조합된 변조기/복조기에 결합된다. 또한, 이 실시예에서, 비휘발성 메모리(120)(메모리 모듈)은 사용자 프로그램 가능한 전화번호부 데이터베이스(Db)를 저장하고, 판독 전용 메모리(118)는 디바이스 프로세서(102)에 대한 오퍼레이팅 코드(OC)를 저장한다.

도 2를 참조하여, 혼성-언어 텍스트에서 음성으로 합성 방법(220)이 예시된다. 시작 단계(210) 후, 메모리(120)로부터 혼성-언어 텍스트 스트링(TS)을 수신하는 단계(220)가 수행된다. 혼성-언어 텍스트 스트링(TS)은 모듈(116) 또는 임의의 다른 수단에 의해 수신된 텍스트 메시지로부터 기원할 수 있다. 또한, 본원 명세서에 개시된 바의 혼성-언어 텍스트 스트링(TS)은 전형적으로 적어도 2개의 언어로부터 형성되고, 실시예로써 중국어 문자들 및 알파벳 문자들의 조합이 아래 기재되어 있고; 또한 이 텍스트 스트링(TS)은 숫자들 0 내지 9 및(또는) 구두점들을 포함할 수 있다.

이어서, 텍스트 분리 단계(230)는 텍스트 스트링 중의 텍스트를 (i) 단일 음 절을 나타내는 문자들 중의 음절 기초 문자들(SBC) 각각의 적어도 하나의 문자 스트링; 또는 (ii) 이하 알파벳 글자들로 형성된 단어들의 스트링(SOW)이라 칭해지기도 하는 하나 이상의 단어들을 포함하는 적어도 하나의 단어 스트링 (적어도 일부 단어들은 하나 이상의 음절을 나타냄)로 분리하는 것을 제공한다. 텍스트 분리 단계(230)는 당업계에 공지된 유니코딩에 의해 수행된다. 유니코드는 영어 문자들(글자들)이 각각의 문자가 0000-007f의 숫자로 나타내지도록 인코딩되고, 중국어 문자들이 각각의 문자가 4e00-9fa5의 숫자로 저장되도록 인코딩되도록 구축된다.

텍스트 분리 단계는 또한 2개의 언어중 어느 것이 텍스트 스트링 중의 제 1 언어이고, 어느 것이 제 2 언어인지 식별한다. 이는 이 실시예(영어 & 중국어 혼성-언어 텍스트)에서 중국어 문자들 및 영어 단어들을 카운팅함으로써 달성된다. 언어 단어들보다 많은 중국어 문자들이 존재하는 경우, 제 1 언어는 중국어가 될 것이고, 제 2 언어는 영어가 될 것이다. 대안으로, 중국어 문자들보다 많은 영어 단어들이 존재하는 경우, 제 1 언어는 영어가 될 것이고, 제 2 언어는 중국어가 될 것이다.

방법(200)을 더욱 설명하기 위해, 다음 텍스트 스트링들(text strings)을 4개의 문장들의 형태로 고려하자.

상기 4개의 텍스트 스트링들에 대한 텍스트 분리 단계(230) 후, 이들은 제 2 언어로부터 음절 기초 문자들(SBC)의 4개의 스트링들이고, 이들은 다음과 같다:

음절 기초 문자 스트링 1 (SBC1):

음절 기초 문자 스트링 2 (SBC2):

음절 기초 문자 스트링 3 (SBC3):

음절 기초 문자 스트링 4 (SBC4):

각각 하나 이상의 단어들을 포함하는 제 2 언어로부터 단어들의 4개의 스트링들(SOW)이 또한 존재하고, 이들은 다음과 같이 식별된다:

단어들의 스트링 1 (SOW1) → 블랭크 1; "mention"

단어들의 스트링 2 (SOW2) → 블랭크 2; "Watson"

단어들의 스트링 3 (SOW3) → 블랭크 3; "Chicago"

단어들의 스트링 4 (SOW4) → 블랭크 4; "APEC"

상기로부터, 영어 단어들보다 중국어 문자들이 더 많기 때문에, 제 1 언어는 중국어가 되고, 제 2 언어는 영어가 될 것이다. 이는 영어 단어들이 음절 기초 문자들(SBC)의 스트링들에서 블랭크들로서 나타나기 때문에 명백하다. 따라서, 제 1 언어를 포함하는 텍스트는 제 2 언어로부터 텍스트의 위치를 지시하는 하나 이상의 더미 스페이서들(블랭크들 BLANK1 내지 BLANK4)을 포함한다.

음절 기초 문자들(SBC1 - SBC4)의 스트링들인 중국어 문자들을 고려하여, 방법(200)은 음절 기초 문자들(SBC) 각각에 대해 음성학적 유닛들을 할당하는 할당 단계(240)를 수행한다. 이 할당 단계(240)는 본질적으로 3개의 서브-단계들로 분해되고, 이들은 (a) 텍스트 분석; (b) 어구 바운더리 결정; 및 (c) 음성학적 유닛 식별 단계들이다.

서브-단계 (a) 텍스트 분석은 본질적으로 단어 어휘 목록을 사용함으로써 중국어 문자들의 세그먼트화 및 표준화를 수행한다. 이러한 어휘 목록은 아래 목록 1에 나타낸 바의 80,000 단어부 이상을 포함한다.

목록 1. 단어 어휘 목록

세그먼트화는 어휘 목록 중의 단어들(메모리(120)에 저장됨)이 음절 기초 문자들(SBC)의 텍스트의 세그먼트들을 매칭하는 연속적인 문자들의 최대수와 매칭하도록 최대로 매칭함으로써 세그먼트들(단어들)을 선택한다. 예를 들면, 음절 기초 문자 스트링1(SBC1):

을 고려하면, 세그먼트화는 최초 문자로부터 최종 문자로 진행된다(최초 문장에서 최종 문장으로). 따라서, 세그먼트화는 다음 순서로 진행된다: 英은 어휘 목록에서 발견되고, 英文은 어휘 목록에서 발견되고,

은 어휘 목록에서 발견되지 않는다. 따라서, 최초의 세그먼트 또는 단어는 英文이다. 마찬가지로,

는 어휘 목록에서 발견되고,

는 어휘 목록에서 발견되고, 다음 단어는 블랭크이므로 제 2 세그먼트 또는 단어는

이다. 블랭크 "BLANK1"은 스킵되고 (세그먼트화를 위해 분석되지 않는다). 다음으로, 可는 어휘 목록에서 발견되고,

는 어휘 목록에서 발견되지 않으므로, 제 3 세그먼트 또는 단어는 可이다. 마찬가지로, 세그먼트들 또는 단어들의 나머지는

, 成, 中文, 的 및 提及이다. 세그먼트화의 동일한 프로세스가 음절 기초 문자 스트링들(SBC2 - SBC4)에 대해 수행되고, 당업계의 숙련자에게 명백한 바의 최대 매칭된 단어들(MMW)을 제공한다.

표준화는 디지트들 및 구두점들 등의 특수 문자들에 대해 유용하다. 표준화는 특수 의미를 갖는 이들 특수 문자들을 식별하기 위한 규칙들을 사용하고, 이들의 대응하는 음성학적 유닛들은 이들 특수 문자들의 맥락에 따라 상이할 수 있다. 따라서, 표준화는 특수 문자들로부터 표준화된 문자들을 제공한다. 또한, 표준화는 규칙 베이스로 실시되고, 그의 일부는 다음과 같다:

도트 규칙들:

완전 종료 - 다음과 같이 문자의 종료이다 →

.

소숫점 - 다음과 같이 "포인트" 소리를 갖도록 표준화된다 →국

1.234 →一点二三四.

URL 중의 도트는 다음과 같이 "도트" 소리를 갖도록 표준화된다 →

www.mot.com(www 点 mot 点 com, www dot mot dot com)

콜론 규칙들:

문장 단락,

비율: 比分是 2:2, (比로 변환되어야 함)

시간: 10:05

슬래쉬 규칙들:

분율 플래그: 2/3 (三分之二)

플래그 날짜: 97/10 (九七年十月, 1997년 10월)

컴마 규칙들:

번호 식별자; 123,456 (十二万三千四百五十六, 십이만삼천사백오십육)

디지트 스트링 규칙들:

디지트: 123456(一二三四五六, 일 이 삼 사 오 육)

서브 단계 (b) 어구 바운더리들의 결정은 당업계의 숙련자에게 명백하게 될 최대 매칭을 사용하여 예측적인 단어 번들링(어구화)을 수행한다. 어구 바운더리들을 결정하는 목적은 최대 매칭된 단어들(MMW)의 스트링들에서 구두점에 의해 명 확하게 식별되지 않는 자연적인 바운더리들(자연적인 음성 포우즈들)을 식별하기 위한 것이다. 예측적인 단어 번들링은 음성 패턴들의 일부에 기초하고 다음 규칙들을 사용한다:

형용사 + 명사 → 자연적인 바운더리;

수 + 량 → 자연적인 바운더리;

동사 + 명사 → 자연적인 바운더리;

형용사 + 동사 → 자연적인 바운더리;

명사 + 명사 → 자연적인 바운더리;

수 + 명사 → 자연적인 바운더리;

동사 + 동사 → 자연적인 바운더리; 및

명사 + 접속사 + 명사 → 자연적인 바운더리.

명사 + 명사 규칙은 회귀적이므로 서열 중의 둘 이상의 명사들은 역시 자연적인 바운더리를 제공한다(예, 명사 + 명사 + 명사; 명사 + 명사 + 명사 + 명사, 등). 또한, 동사 + 동사 규칙은 회귀적이다.

자연적인 바운더리들은 강조 및 포즈들을 식별한다. 따라서, 세그먼트화된 음절 기초 문자 스트링1(SBC1)에 대해, 자연적인 바운더리들은 다음과 같이 식별된다:

英文

: 명사 + 명사

可

成: 동사 + 동사 + 동사

中文的提及中 명사 + 접속사 + 명사

따라서, 자연적인 바운더리들(어구화)은 다음과 같다:

여기서, "｜"는 어구 바운더리를 나타낸다.

더욱이, SBC2 내지 SBC4에 대한 자연적인 바운더리들(어구화)은 다음과 같다:

세그먼트화 후 SBC2에 대해 →

어구화 후 →

세그먼트화 후 SBC3에 대해 →

어구화 후 →

세그먼트화 후 SBC4에 대해 →

어구화 후 →

서브 단계 (c) 음성학적 유닛 식별은 최대 매칭된 단어들 중의 문자가 포함하는 것에 관련된 각각의 문자에 대해 음성학적 유닛들을 식별하기 위해 서브 단계 (a) 및 서브 단계 (b)로부터의 결과들을 사용한다. 이러한 서브 단계는 자연적인 단절들 및 표준화된 문자들에 대한 음성학적 유닛들을 식별하기도 한다.

비휘발성 메모리(120)에 저장된 음성 목록 중의 유닛이 운율학적 위치 및 문맥상의 정보 중의 타겟 음성학적 유닛과 매칭하는 경우, 이러한 유닛이 선택된다. 예를 들면, 자연적인 바운더리들을 갖도록 예측적인 단어 번들링(어구화)를 수행하는 전형적인 텍스트 스트링 1 (TS1)은 다음과 같이 식별되는 경우:

, 선택된 음성학적 유닛들은 표 1에 나타낸다. 표 1에서, 운율학적 위치와 연관된 번호는 연관된 음성학적 유닛에 의해 피치 기간 및 에너지(예, RMS 파워)에 영향을 미친다. 이와 관련하여, 번호 0은 음성학적 유닛이 문장의 시작점에 있음을 의미하고; 번호 1은 음성학적 유닛이 문장의 끝에 있음을 의미하고; 번호 2는 음성학적 유닛이 어구의 시작점에 있음을 의미하고; 번호 3은 음성학적 유닛이 어구의 중간에 있음을 의미하고; 번호 4는 음성학적 유닛이 어구의 끝에 있음을 의미한다.

[표 1]

중국어 문자들에 대한 음성학적 유닛들 및 연관된 운율학적 위치들의 예들

할당 단계(240) 후, 이 방법은 운성 유닛들에 대한 별개의 음향 유닛들을 선택하는 선택 단계(250)를 수행한다. 중국어와 같은 음절 기초 언어에 대해, 단위 선택을 수행하기 위해 운율학적 위치 및 문맥상의 정보에 의해 음성학적 유닛들이 식별된다.

음절 기초 언어에 대한 단위 선택 절차는 다음과 같이 기재될 수 있다. 음조 및 운율학적 위치를 갖는 하나의 음절은 메모리(120)에 저장된 일람표에서 탐색되고, 음향 유닛이 선택된다. 발견되지 않은 경우, 이 방법은 운율학적 위치에 대한 조건들을 완화시키고, 동일한 음조 및 상이한 운율학적 위치를 갖는 음절을 선택할 것이다.

이하, 텍스트 분리 단계(230)로 돌아가서 영어 단어 스트링들(SOW)을 고려하면, 이들 단어들은 단어들 각각에 대해 음소들을 할당하는 할당 단계(260)에서 처 리되고, 여기서 하나 이상의 음소들은 별개의 음절들을 형성한다. 이 할당 단계(260)는 본질적으로 4개의 서브-단계들로 분해되고, 이들은 다음과 같다: (a) 표준화; (b) 어구 바운더리들의 결정; (c) 글자의 음성으로의 변환; 및 (d) 음절 바운더리들 결정.

서브 단계 (a)는 본질적으로 상기한 바와 동일한 표준화이지만, 규칙 베이스 중의 영어 텍스트를 사용하는 표준화를 수행한다.

서브 단계 (b) 어구 바운더리 결정은 본원 명세서에 참조 문헌으로서 인용된 중국 특허 출원 제 03132708.7 호에 기재된 공정에 의해 수행된다. 요약하자면, 어구 바운더리들은 90,000개 이상의 트랜스크립션들의 큰 트레이닝 세트로부터 선택된 통계적 분석 및 발견법들에 의해 결정된다. 이들 발견법들은 비휘발성 메모리(120)에 저장된다. 어구 바운더리들의 목적은 구두점에 의해 명확히 식별되지 않는 자연적인 바운더리들(자연적 음성 포즈들)을 식별하는 것이다.

서브 단계 (c) 글자의 음성으로의 변환은 식별 글자들 또는 글자들의 그룹들이 합성되어야 할 텍스트 세그먼트 중의 위치 및 다른 인접한 글자들에 좌우되는 상이한 소리들 및 모음 강세/강조를 가질 수 있다는 사실을 다룬다. 서브 단계 (c) 글자의 음성으로의 변환은 참고 문헌으로서 본원 명세서에 인용된 중국 특허 출원 제 03132709.5 호에 개시된 공정에 의해 수행된다. 그러나, 요약하자면, 글자의 음성으로의 변환은 단어들의 서브 단어들로의 세그먼트화를 포함하고, 서브 단어들은 적어도 2개의 글자들을 포함하는 하나 이상의 서브 단어들을 갖는 서브 단어 시퀀스를 형성한다. 서브 단어 시퀀스는 선택된 단어를 포함할 수 있는 가능 한 모든 서브-단어들의 분석에 의해 결정된다. 이러한 분석은 직접 비순환 그래프(DAG)의 구축하여 사용함으로써 수행된다.

예를 들면, 선택된 단어 "mention"이 단계(260)에 의해 처리중인 경우를 고려하면, 도 3의 직접 비순환 그래프(DAG)는 선택된 단어 "mention"을 포함할 수 있는 모든 가능한 서브 단어들에 의해 구축된다. 각각의 서브 단어에 의해 소정의 중량(\T)이 제공되고, 예를 들면 서브 단어 "ment", "men" 및 "tion"은 각각의 중량(88, 86 및 204)을 갖는다. 따라서, DAG는 트래버스되고, 선택된 단어를 형성하는 최대로 조합된(합산된) 중량(WT)을 갖는 서브 단어들이 중국 특허 출원 제03132709.5호에 개시된 바와 같은 음소들로서 식별되도록 선택된다. 단어 "mention"에 대한 경우, 서브 단어들 "men" 및 "tion"이 선택될 수 있고, 이후 음소들은 일단 음절 바운더리들이 식별되면 이들 서브 단어들에 대해 식별될 수 있다.

서브 단계 (d) 음절 바운더리들의 식별은 다음 규칙들을 사용하여 수행된다:

자음(C)은 다음 서브 단어들 중의 임의의 것을 포함한다: TS, b, ch, d, dh, f, g, hh, k, l, m, n, ng, p, r, s, sh, t, th, v, w, y, z, zh;

모음(V)은 다음 서브 단어들 중의 임의의 것을 포함한다: aa, ae, ao, aw, ax, ay, eh, er, ey, ih, iy, ow, oy, uh, uw;

자음 그룹(CG)은 다음 서브 단어들 중의 임의의 것을 포함한다:

bl, br, by, dr, dy, fl, fr, fy, gl, gr, gw, gy, kl, kr, kw, ky, ly, my, ny, pl, pr, py, sk, sl, sm, sn, sp, st, tr.

바운더리 규칙 1: VCV →V｜CV;

바운더리 규칙 2: VV →V｜V;

바운더리 규칙 3: CC가 CG에 있지 않을 때 VCCV →VC｜CV;

바운더리 규칙 4: CC가 CG에 있을 때 VCCV →V｜CCV;

바운더리 규칙 5: VCCCV →VC｜CCV;

바운더리 규칙 6: VCCCCV →VC｜CCCV.

여기서 "｜"는 음절 바운더리를 나타낸다.

음절 바운더리들을 식별하는 서브 단계 (d) 후, "men" 및 "tion"과 같은 서브 단어들은 음소들이 이들 서브 단어들에 대해 식별된다. 따라서, 식별 단계는 서브 단어들을 포함하는 각각의 단어에 대해 음소들을 식별하고, 당업계의 숙련자에게 명백할 것과 같이, 하나 이상의 음소들은 별개의 음절을 형성할 수 있다. 예를 들면, 텍스트 스트링 1 내지 텍스트 스트링 3의 예들에 대해, 음소들 및 연관된 운율학적 정보는 자연적인 바운더리들의 식별에 기초하여 선택될 수 있다. 그러한 음소들 및 운율학적 정보(운율학적 위치)는 표 2에 나타내고, 여기서 M은 단어가 문장의 시작점 또는 중간에 있음을 의미하고(즉, 문장의 끝은 아님); F는 단어가 문장의 끝(최종 위치)에 있음을 의미하고; O는 음절이 단어의 시작점 또는 중간에 있음을 의미하고(즉, 단어의 끝은 아님); F는 음절이 단어의 끝(최종 위치)에 있음을 의미한다.

[표 2]

영어 텍스트에 대한 음소들 및 연관된 운율학적 위치들의 예들

단어	음소	운율학적 위치
Mention	m'ehn	MO
Mention	shaxn	MF
Watson	wat	MO
Watson	son	MO
Chicago	ch	FO
Chicago	kar	FO
Chicago	gow	FF

할당 단계(260) 후, 선택 단계(270)는 하나 이상의 음소들을 포함하는 가변 길이 유닛(VLU) 모델에 기초하여 개별 음향 유닛들을 선택하는 한편, 중국어에 대한 음향 유닛들은 각각의 음향 유닛이 음절을 포함하는 한 길이가 변화되지 않는다.

VLU들에 대해, 5개의 가능한 클래스가 존재한다:

클래스 1: 정규 자음 + 모음, 반모음 + 자음, 비음 + 모음. 정규 자음은 정지음, 마찰음 및 치음 등을 포함한다.

클래스 2: 클래스 1 + 비음/반모음.

클래스 3: sub-CV. 이는 클래스 1 또는 클래스 2의 일부이다.

클래스 4: 초성 자음 및 초성 자음 그룹. 초성 자음은 초성 음절로서 작용하는 자음인 한편, 초성 자음 그룹은 주로 치음이 후속하는 정지음을 의미한다(예, s + t)

클래스 5: 종성 자음 및 종성 자음 그룹.

상기한 바로부터, 단어가 2개의 연속적인 모음 또는 모음이 선행하고 후행하 는 반모음을 갖는 경우, 최대 매칭은 메모리(120)에 저장된 음성 일람표에서 수행된다. 어떠한 매칭도 없는 경우, 이 방법은 음절 단위로 탐색하고 음향 유닛들을 할당할 것이다. 이 실시예에서, 최대 매칭이 항상 수행된다. 이러한 음향 단위 선택의 목적은 연결점들을 감소시키고, 동일하거나 또는 유사한 운율학적 구속 요건들을 갖는 음향 유닛들을 선택하는 것이다.

선택 단계(250 및 270) 후, 결과의 음향 유닛들은 연결 단계(275)에서 병합되고, 여기서 별개의 음향 유닛들은 방법(200)에 의해 처리된 혼성-언어 텍스트에 대응하는 순서로 순서 매김된 음향 유닛들 내로 연결된다. 연결하고, 텍스트 스트링들 1 내지 4를 사용하는 과정에서, VLU(음소들)에 의해 형성된 음향 유닛들은 대응하는 텍스트 스트링 중의 각각의 더미 스페이스들(BLANK1 내지 BLANK4) 내로 삽입된다.

연결 과정 동안, 음향 유닛들에 의해 식별된 파라메터 비트 스트림은 먼저 2개의 주성분들: 즉, 각각의 프레임에 대해 LSP[i] 벡터들을 포함하는 보컬 트랙 파라메터들 LSP(라인 스펙트럴 쌍들); 및 여기 스트림 Exc[i][j](i는 프레임의 인덱스이고, j는 프레임 내의 샘플의 인덱스임)으로 나타낸 여기 신호를 포함하는 프레임들 내로 디코딩된다. 각각의 프레임 i의 거친 피치 추정 OT[i]는 비트 스트림의 적응성 래그 파라메터로부터 얻어진다. 당업계의 숙련자에게 명백하듯이, 하나의 음향 유닛은 여러 개의 프레임들을 포함할 수 있다. 상기 3개의 파라메터들은 각각의 음향 유닛에 대해 프레임 단위로 제공된다. 또한, 각각의 프레임에 대해, 파라메터 LSP[i]는 벡터이고, 10의 원소들을 포함하고, 그 예는 다음과 같다: [1227, 2027, 3884, 9108, 12892, 16454, 19866, 23019, 26304, 29553]. 더욱이, 파라메터 Exc[i][j]는 240개의 원소들을 포함하는 벡터이고, 그의 예는 다음과 같고: [0, 0, -1, -3, 0, 2, 4, 10, 6, -1, ...]; 파라메터 OT[i]는 78과 같이 범위 [40, 150] 내의 정수이다.

다음으로, 강화 단계는 강화 단계(280)에서 수행되고, 여기서 연결된 순서 매김된 음향 유닛들은 다음을 포함하는 강화 단계를 수행한다:

(a) 2개의 인접한 음향 유닛들의 연결하는 바운더리에서 각각의 프레임의 피치 추정 OT[i]의 스무딩. 바운더리에서 2개의 유닛들의 피치 값들은 새로운 스무딩 값 OT[T] (선두 또는 선행 유닛의 최종 프레임에 대해) 및 OT[H_v] (다음 유닛의 시작 프레임에 대해)을 얻기 위해 선형으로 보간된다;

(b) 2개의 인접한 유닛들의 연결하는 바운더리에서 여기 신호의 병합. 연속적인 유닛의 최초 서브 프레임 여기 신호는 삼각형 창에 의해 선두 유닛의 최종 서브 프레임에 의해 새로운 서브 프레임 내로 병합된다;

(c) 인접한 음향 유닛들의 연결하는 바운더리에서 LSP[i] 벡터들의 보간. 병합된 여기 신호에 대응하는 각각의 LSP[i] 벡터는 선두 유닛의 최종 LSP[i] 벡터 및 후속 유닛의 최초 LSP[i] 벡터를 보간시킴으로써 얻어진다. 따라서, 연결된 LSP[i] 벡터 시리즈들이 구축된다.

음성 합성 수행 단계(285)에서, 연속적인 음향 유닛들의 연결된 LSP[i] 벡터 시리즈는 예측적인 계수들 a[i][j](i는 프레임들의 인덱스이고, j는 예측 순서임) 로 변환된다. 스무딩은 OT[T], OT[H_v] 등을 포함하는 연결된 스무딩 여기 시리즈(smoothing excitation series)를 음성 합성기(110)에 공급함으로써 재구축되고, 그에 따라 다중 언어 텍스트 스트링(TS)은 예측적인 계수들 a[i][j] 및 연관된 스무딩 여기 시리즈를 음성을 합성하는 파형 내로 변환시킴으로써 음성으로서 합성된다. 또한, 당업계의 숙련자들에게 명백한 바와 같이, 모음들 상의 강세(적절하게 1차, 2차 또는 강세 없음)는 적절한 강세 강조에 의해 개선된 합성 음질을 제공하기 위해 사용될 수도 있다.

음성 합성(285) 수행 후, 방법(200)은 종료 단계(290)에서 종료된다. 중국어가 예시 및 설명으로 목적으로 제 1 언어로서 식별되었지만, 영어 역시 제 1 언어가 될 수 있음이 명백할 것이다. 영어가 제 1 언어일 때, 더미 단어 스페이서들은 제 2 언어(예, 중국어)로부터 텍스트의 위치를 지시하는 영어 텍스트에 포함된다. 더욱이, 연결하는 동안, 음향 유닛들은 제 2 언어로부터 텍스트의 위치를 지시하는 각각의 더미 스페이스들 내로 삽입된다. 또한, 단계들(240 및 250)은 단계들(260 및 270) 전에 개시되었지만, 단계들(260 및 270)이 단계들(240 및 250) 전에 또는 그와 동시에 실시될 수 있음이 명백할 것이다.

유리하게도, 본 발명은 랩탑 컴퓨터들, 개인용 디지털 정보 단말기들, 셀룰러폰들 및 많은 다른 디바이스들 등의 소형 또는 휴대용 디바이스들과 같은 전자 디바이스들 상에서 사용될 수 있는 혼성-언어 TTS 합성을 제공한다.

상세한 설명은 바람직한 전형적인 실시예를 제공하지만, 이는 본 발명의 범 위, 용도 또는 구성을 제한하도록 의도되지 않는다. 오히려, 바람직한 전형적인 실시예의 상세한 설명은 당업계의 숙련자들에게 본 발명의 바람직한 전형적인 실시예를 구현하기 위해 가능한 설명을 제공한다. 첨부된 특허 청구의 범위로 나타낸 바의 본 발명의 정신 및 범위에서 벗어나지 않는 성분들의 기능 및 배치에 있어서 많은 변화들이 이루어질 수 있음을 이해해야 한다.

본 발명에 따라, 혼성-언어 텍스트에 대한 음성 합성 방법이 제공되고, 상기 방법은, 적어도 2개의 언어의 혼성-언어 텍스트 스트링을 수신하는 단계, 텍스트 스트링 중의 텍스트를 (i) 단일 음절을 나타내는 문자들 중의 음절 기초 문자들 각각의 적어도 하나의 문자 스트링, 또는 (ii) 알파벳 글자들로 형성된 하나 이상의 단어들을 포함하는 적어도 하나의 단어 스트링(적어도 일부 단어들은 하나 이상의 음절을 나타냄)으로 분리하는 단계, 음절 기초 문자들 각각에 대한 음성학적 유닛들을 할당하는 단계, 각각의 단어들에 대해 음소들을 할당하는 단계(하나 이상의 음소들이 개별 음절들을 형성함), 음성학적 유닛들 및 음소들 모두에 대해 별개의 음향 유닛들을 선택하는 단계, 혼성-언어 텍스트 스트링에 대응하는 순서를 갖는 연결된 순서 매김된 음향 유닛들 내로 별개의 음향 유닛들을 연결시키는 단계, 및 연결된 순서 매김된 음향 유닛들을 사용하여 음성 합성을 수행하는 단계를 포함한다.

Claims

혼성-언어 텍스트에 대한 음성 합성 방법에 있어서,

적어도 두 언어들의 혼성-언어 텍스트 스트링을 수신하는 단계,

상기 텍스트 스트링에서의 텍스트를: (i) 각각 단일 음절을 나타내는 음절 기초 문자들의 적어도 하나의 문자 스트링; 또는 (ii) 알파벳 글자들로 형성된 하나 이상의 단어들을 포함하는 적어도 하나의 단어 스트링으로서, 상기 단어들 중 적어도 몇몇은 하나 이상의 음절을 나타내는 상기 적어도 하나의 단어 스트링으로 분리하는 단계,

상기 음절 기초 문자들 각각에 대하여 음성학적 유닛들을 할당하는 단계,

상기 단어들 각각에 대하여 음소들을 할당하는 단계로서, 하나 이상의 상기 음소들은 개개의 음절들을 형성하는 상기 음소들을 할당하는 단계,

상기 음성학적 유닛들 및 음소들 모두에 대해 개개의 음향 유닛들을 선택하는 단계, 및

상기 혼성-언어 텍스트 스트링에 대응하는 순서를 갖는 연결된 순서 매김된 음향 유닛들에 상기 개개의 음향 유닛들을 연결시키는 단계, 및

상기 연결된 순서 매김된 음향 유닛들을 사용하여 음성 합성을 수행하는 단계를 포함하는, 혼성-언어 텍스트에 대한 음성 합성 방법.
제 1 항에 있어서,

상기 텍스트를 분리하는 단계는 상기 두 언어들 중 어느 것이 상기 텍스트 스트링에서 제 1 언어이고 어느 것이 제 2 언어인지를 식별하는, 혼성-언어 텍스트에 대한 음성 합성 방법.
제 1 항에 있어서,

제 1 언어를 포함하는 상기 텍스트는 제 2 언어로부터 텍스트의 위치를 지시하는 하나 이상의 더미 스페이서들(dummy spacers)을 포함하는, 혼성-언어 텍스트에 대한 음성 합성 방법.
제 1 항에 있어서,

상기 음성학적 유닛들을 할당하는 단계는 어휘 목록에서의 단어들이 음절 기초 문자들의 상기 텍스트의 세그먼트들을 매칭하는 연속 문자들의 최대수와 매칭하도록 최대 매칭에 의한 세그먼트화를 포함하고, 상기 세그먼트화는 최대 매칭된 단어들을 제공하는, 혼성-언어 텍스트에 대한 음성 합성 방법.
제 4 항에 있어서,

상기 음성학적 유닛들을 할당하는 단계는 구두점(punctuation)에 의해 명확히 식별되지 않는 자연적인 음성 포우즈들(natural speech pauses)을 식별하기 위해 상기 최대 매칭된 단어들에 대해 어구 바운더리들(phrase boundaries)을 결정하는 단계를 포함하는, 혼성-언어 텍스트에 대한 음성 합성 방법.
제 5 항에 있어서,

상기 음성학적 유닛들을 할당하는 단계는 상기 최대 매칭된 단어들 중 어느 것에 대하여 상기 문자가 포함하는지에 관련된 각각의 문자에 대한 상기 음성학적 유닛들을 식별하는 단계를 포함하는, 혼성-언어 텍스트에 대한 음성 합성 방법.
제 6 항에 있어서,

상기 음성학적 유닛들의 각각에 관련된 운율학적 정보가 있는, 혼성-언어 텍스트에 대한 음성 합성 방법.
제 6 항에 있어서,

상기 음소들의 할당 단계는 구두점에 의해 명확하게 식별되지 않는 하나 이상의 자연적인 바운더리들을 식별하는 단계를 포함하는, 혼성-언어 텍스트에 대한 음성 합성 방법.
제 8 항에 있어서,

상기 자연적인 바운더리들은 음성 패턴들의 일부에 기초하여 예측되는 단어 번들링에 의해 식별되는, 혼성-언어 텍스트에 대한 음성 합성 방법.
제 9 항에 있어서,

상기 음성 패턴들의 일부는 규칙들을 사용하여 식별되고, 상기 규칙들은:

형용사 + 명사 → 자연적인 바운더리;

수 + 량 → 자연적인 바운더리;

동사 + 명사 → 자연적인 바운더리;

형용사 + 동사 → 자연적인 바운더리;

명사 + 명사 → 자연적인 바운더리;

수 + 명사 → 자연적인 바운더리;

동사 + 동사 → 자연적인 바운더리; 및

명사 + 접속사 + 명사 → 자연적인 바운더리.

를 포함하는, 혼성-언어 텍스트에 대한 음성 합성 방법.
제 8 항에 있어서,

상기 음소들을 할당하는 단계는 단어들을 서브-단어 시퀀스를 형성하는 서브-단어들로 세그먼트화하는 단계, 및 음절 바운더리들을 식별하여 그에 따라 상기 하나 이상의 음소들을 개개의 음절들에 할당하는 단계를 포함하는, 혼성-언어 텍스트에 대한 음성 합성 방법.
제 11 항에 있어서,

상기 음절 바운더리들을 식별하는 단계는 바람직하게는 자음(C); 모음(V); 및 자음 그룹(CG)으로서 각각의 서브 단어를 식별하는 단계를 포함하는, 혼성-언어 텍스트에 대한 음성 합성 방법.
제 11 항에 있어서,

상기 음절 바운더리들을 식별하는 단계는,

VCV →V｜CV; VV →V｜V; CC가 CG에 있지 않을 때 VCCV →VC｜CV; CC가 CG에 있을 때 VCCV →V｜CCV; VCCCV →VC｜CCV; VCCCCV →VC｜CCCV,

의 규칙들을 포함하고, "｜"는 음절 바운더리를 나타내는, 혼성-언어 텍스트에 대한 음성 합성 방법.
제 1 항에 있어서,

상기 음향 유닛들은 연결하는 동안 제 2 언어로부터 텍스트의 위치를 지시하는 상기 각각의 더미 스페이서들로 삽입되는, 혼성-언어 텍스트에 대한 음성 합성 방법.
제 11 항에 있어서,

상기 연결된 순서 매김된 음향 유닛들은 연결 바운더리에서 상기 음향 유닛들에 관련된 여기 신호들을 병합하는 것을 포함하는 강화를 받는, 혼성-언어 텍스트에 대한 음성 합성 방법.