KR100769033B1

KR100769033B1 - 스피치 합성 방법

Info

Publication number: KR100769033B1
Application number: KR1020067006170A
Authority: KR
Inventors: 팡 첸; 기-린 첸
Original assignee: 모토로라 인코포레이티드
Priority date: 2003-09-29
Filing date: 2004-09-17
Publication date: 2007-10-22
Also published as: CN1260704C; MXPA06003431A; EP1668628A4; EP1668628A1; WO2005034082A1; KR20060066121A; CN1604182A

Abstract

다수의 스피치 샘플들(140)을 포함하는 발화 파형 코퍼스(60)와 텍스트 세그먼트(120)를 비교하는 것을 포함하는 스피치 합성 수행 방법. 이 방법은 하나의 스피치 샘플(140)과 텍스트 세그먼트(120) 사이의 문맥상 최상의 매칭이 존재하는지 여부를 결정한다. 문맥상 최상의 매칭이 존재하지 않는 경우, 이 방법은 텍스트 세그먼트(120)와 스피치 샘플(140) 사이에 문맥 표음 혼성 매칭이 존재하는지 여부를 결정한다. 문맥 표음 혼성 매칭은 규정된 운율 특징 그룹(220)내의 모든 내재적 운율 특징들(210)의 매칭을 필요로 한다. 이 매칭이 여전히 발견되지 않는 경우, 운율 특징 그룹(220)은 운율 특징 그룹(220)으로부터 내재적 운율 특징들(210) 중 하나를 삭제함으로써 재규정된다. 운율 특징 그룹(220)은 입력 텍스트 세그먼트(120)와 스피치 샘플(140) 사이에 매칭이 발견될 때까지, 운율 특징 그룹(220)으로부터 하나의 내재적 운율 특징(210)을 제거함으로써 연속적으로 재규정된다. 매칭이 발견될 대, 매칭된 스피치 샘플(140)이 연쇄 스피치(110)를 생성하기 위해 사용된다.

텍스트 메모리 모듈, 스피치 합성기, 병음, 음조 문맥, 동시조음

Description

스피치 합성 방법{Method for synthesizing speech}

본 발명은 일반적으로 텍스트-스피치(Text to Speech; TTS) 합성에 관한 것이다. 본 발명은 특히, 비-총망라 발화 코퍼스(non-exhaustive utterance corpus)를 사용하여 텍스트 세그먼트의 적절한 합성 발음을 결정하는 데 유용하지만, 이에 한정되는 것은 아니다.

종종 연쇄적 텍스트-스피치 합성(concatenated text to speech synthesis)으로 지칭되는 텍스트-스피치(TTS) 변환은 전자 디바이스가 입력 텍스트 스트링을 수신하여 합성된 스피치 형태로 변환된 스트링 표현을 제공할 수 있게 한다. 그러나, 디바이스가 비-결정적(non-deterministic) 수의 수신된 텍스트 스트링들로부터 발생하는 스피치를 합성해야 하면, 고품질의 현실적인 합성 스피치를 제공하기 어려울 수 있다. 이는 합성될 각 단어 또는 음절(중국 문자들 등에 대하여)의 발음이 문맥 및 위치 의존적이기 때문이다. 예로서, 문장(입력 텍스트 스트링)의 시작부에서는 단어의 발음이 끌리거나(drawn out), 늘어질(lengthened) 수 있다. 동일 단어의 발음은 그것이 강조될 필요가 있는 문장의 중간에서는 훨씬 더 장음화될 수 있다.

대부분의 언어들에서, 단어의 발음은 적어도 음조(피치), 음량 및 지속 기간에 의존한다. 또한, 다수의 언어들은 개별 음절들의 다수의 가능한 발음들을 포함한다. 통상적으로, 중국 문자(또는 다른 유사한 문자 기반 스크립트)에 의해 표현되는 단일 음절은 6개까지의 서로 다른 발음들을 가질 수 있다. 또한, 각 발음의 현실적 합성된 발화를 제공하기 위해서, 문장들의 방대한 사전기록된 발화 파형 코퍼스가 요구된다. 이 코퍼스는 통상 현실적 스피치 합성이 달성되는 경우, 각 발음의 평균 약 500개 변형들을 필요로 한다. 따라서, 매 문자를 위한 모든 발음들의 발화 파형 코퍼스는 불가능한 수준으로 방대하다. 대부분의 TTS 시스템들에서, 제한된 크기의 발화 파형 코퍼스와의 비교들에 기초하여 입력 텍스트 스트링의 적절한 발음을 결정할 필요가 있다. 발화 파형 코퍼스의 크기는 퍼스널 디지털 어시스턴트 또는 무선 전화 같은 낮은 메모리 용량을 갖는 소형 전자 디바이스에 임베딩될 때, 특히 제한될 수 있다. 입력 텍스트 스트링들을 오디오 데이터베이스와 비교하기 위해 사용되는 알고리즘은 또한 결과적인 합성되고 연쇄된 스피치가 자연스럽게 그리고, 매끄럽게 흐르도록 효율적이고 신속할 필요가 있다. 메모리 및 처리 속도 제한들 때문에, 임베딩된 어플리케이션들을 위한 현존하는 TTS 방법들은 종종 부자연스럽거나 로봇 목소리 같은 스피치를 가져온다. 따라서, 비-총망라 발화 코퍼스를 사용하면서 자연스러운 음향의 합성된 스피치를 제공하기 위한 TTS 수행을 위한 개선된 방법이 필요하다.

본 발명은 다수의 스피치 샘플들을 포함하는 발화 파형 코퍼스와 입력 텍스트 세그먼트를 비교하는 단계를 포함하는 스피치 합성 수행 방법이다. 본 방법은 텍스트 세그먼트와, 발화 파형 코퍼스에 포함된 하나의 스피치 샘플 사이에 문맥상 최상의 매칭이 존재하는지 여부를 결정한다. 문맥상 최상의 매칭이 존재하지 않는 경우, 이 방법은 텍스트 세그먼트와 발화 파형 코퍼스내에 포함된 스피치 샘플 사이에 문맥 표음적 혼성 매칭이 존재하는지 여부를 결정한다. 문맥 표음적 혼성 매칭은 규정된 운율 특징 그룹내의 모든 내재적 운율 특징들(implicit prosodic features)의 매칭을 필요로 한다. 매칭이 여전히 발견되지 않는 경우, 운율 특징 그룹은 운율 특징 그룹을 재규정하도록 운율 특징 그룹으로부터의 내재적 운율 특징들 중 하나를 삭제함으로써 재규정된다. 운율 특징 그룹은 입력 텍스트 세그먼트와 스피치 샘플 사이에 매칭이 발견될 때까지 그룹으로부터 하나의 내재적 운율 특징을 삭제함으로써 연속적으로 재규정된다. 매칭이 발견될 때, 매칭된 스피치 샘플이 연쇄적 스피치를 생성하기 위해 사용된다.

본 발명의 다른 양태들은 도면 전반에 걸쳐 유사 참조 번호들이 유사 또는 대응 엘리먼트들 또는 단계들을 지시하고 있는 도면들과 함께 하기의 상세한 설명으로부터 명백해질 것이다.

도 1은 본 발명이 구현되는 전자 디바이스의 블록도.

도 2는 중국 언어의 연쇄적 스피치를 생성하기 위해 사용되는 본 발명의 특정 실시예를 예시하는 플로우차트.

도 3은 매칭을 규정하기 위해 사용되는 제약들을 연속적으로 완화시킴으로써 문맥 표음적 혼성 매칭이 존재하는지 여부를 결정하는 프로세스를 예시하는 플로우 차트.

도 1을 참조하면, 본 발명이 구현되는 전자 디바이스(10)의 블록도가 예시되어 있다. 디바이스(10)는 공용 버스(15)에 의해 텍스트 메모리 모듈(20), 판독 전용 메모리(ROM)(40), 임의 접근 메모리(RAM)(50) 및 파형 코퍼스(60)에 동작가능하게 연결되는 프로세서(30)를 포함한다. 프로세서(30)는 또한 스피치 합성기(70)의 입력 및 터치 스크린 디스플레이(90)에 동작가능하게 연결된다. 스피치 합성기(70)의 출력은 스피커(80)에 동작가능하게 연결된다. 본 기술분야 숙련자에게 명백한 바와 같이, 텍스트 메모리 모듈은 가능하게는, 무선 수신, 인터넷 또는 플러그 인 휴대용 메모리 카드와 같은 임의의 수신 수단에 의해 얻어진 텍스트를 저장하기 위한 저장부이다. ROM은 도 2 및 도 3에 설명된 바와 같이 본 발명을 수행하기 위한 동작 코드를 저장한다. 또한, 코퍼스(60)는 스피치 합성기(70) 및 스피커(80) 같이 실질적으로 종래의 코퍼스이며, 터치 스크린 디스플레이(90)는 사용자 인터페이스이고, 텍스트 메모리 모듈(20)에 저장된 텍스트의 디스플레이를 가능하게 한다.

도 2는 중국 언어의 입력 텍스트 세그먼트(120)로부터 연쇄적 스피치(110)를 생성하기 위해 사용되는 본 발명의 특정 실시예를 예시하는 플로우 차트이다. 텍스트 세그먼트(120)는 문맥상 최상의 매칭이 존재하는지 여부를 결정하기 위해 복수의 스피치 샘플들(140)을 포함하는 발화 파형 코퍼스(60)와 비교된다(단계 S110). 문맥상 최상의 매칭이 텍스트 세그먼트(120)와 특정 스피치 샘플(140) 사이에서 발견되는 경우, 특정 스피치 샘플(140)이 연쇄적 스피치(110)를 생성하기 위해 연쇄 알고리즘(150)으로 전송된다.

텍스트 세그먼트(120)와 특정 스피치 샘플(140) 사이에 문맥상 어떠한 최상의 매칭도 발견되지 않는 경우, 그후, 텍스트 세그먼트(120)가 다시 발화 파형 코퍼스(130)와 비교되어 문맥 표음 혼성 매칭이 존재하는지 여부를 결정한다(단계 S120).

도 3은 문맥 표음 혼성 매칭이 존재하는지 여부를 매칭을 규정하기 위해 사용되는 제약들을 연속적으로 완화시킴으로써 결정하는 프로세스를 예시하는 플로우차트이다. 문맥 표음 혼성 매칭은 텍스트 세그먼트(120)와 규정된 운율 특징 그룹(220)내에 포함된 내재적 운율 특징들(210) 모두 사이의 매칭을 필요로 한다. 어떠한 매칭도 발견되지 않는 경우, 내재적 운율 특징(210) 중 하나가 규정된 운율 특징 그룹(220)으로부터 삭제되고, 그룹(220)이 삭제된 특징(210)이 없는 이전에 포함된 특징들(210) 모두를 포함하는 것으로서 재규정된다(예로서, 단계 S130). 재규정된 운율 특징 그룹(220)은 그후 매칭이 존재하는지 여부를 결정하기 위해 텍스트 세그먼트(120)와 비교된다. 내재적 운율 특징(210)의 삭제, 운율 특징 그룹(220)의 재규정 및 그후 문맥 표음 혼성 매칭 존재 여부를 재결정하는 프로세스가 매칭이 발견될 때까지 계속된다(단계들 S130, S140 등 S170까지). 문맥 표음 혼성 매칭이 발견될 때, 텍스트 세그먼트(120)와 매칭하는 매칭된 스피치 샘플(140)이 연쇄적 스피치(110)를 생성하기 위해 연쇄 알고리즘(150)으로 전송된다.

도 3에 도시된 바와 같이, 병음을 제외한 내재적 운율 특징들(210) 모두가 운율 특징 그룹(220)으로부터 연속적으로 삭제되고, 여전히 어떠한 매칭도 발견되지 않는 경우, 그후, 기본 표음 매칭이 수행되어 병음만을 매칭시킨다(단계 S180). 본 발명의 일 실시예에서, 발화 파형 코퍼스(60)는 모든 가능한 입력 텍스트 세그먼트들(120)을 매칭시키도록 정확한 병음과 함께 포함된 적어도 하나의 음절이 항상 존재하도록 설계된다. 이 기본 표음 매칭은 그후 연쇄 알고리즘(150)에 입력된다. 따라서, 본 발명은 결과적인 합성된 연쇄적 스피치(110)의 운율(리듬 및 어조)를 제어하기 위한 다층, 데이터-구동 방법이다. 여기서, 이 방법의 각 층은 재규정된 운율 특징 그룹(220)을 포함한다. 본 발명의 목적상, 텍스트 세그먼트(120)는 임의의 유형의 입력 텍스트 스트링 또는 코팅된 언어의 세그먼트를 의미한다. 스캔되거나 다른 방식으로 TTS 시스템에 입력된 가시적인 텍스트에만 제한되는 것은 아니다.

본 발명의 발화 파형 코퍼스(130)에는 코퍼스(130)내에 포함된 각 스피치 샘플(140)(일반적으로 단어)에 관한 정보가 주해되어 있다. 스피치 샘플들(140) 자체는 일반적으로, 실제 인간 스피치의 기록들이며, 일반적으로, 디지털 또는 아날로그 파형들이다. 따라서, 샘플들(140)을 식별하기 위해 주해들이 필요하다. 이런 주해들은 특정 문자들 또는 캐릭터들(언어에 의존)을 포함할 수 있으며, 이는 스피치 샘플(140)의 내재적 운율 특징들(210)과 샘플(140)을 규정한다. 내재적 운율 특징들(210)은 스피치 샘플(140)이 문장에 사용되는 방식에 관한 문맥 정보를 포함한다.

예로서, 중국 언어의 스피치 샘플(140)은 하기의 내재적 운율 특징들(210)을 포함할 수 있다 :

텍스트 문맥 : 스피치 샘플(140)의 주해된 텍스트 직전 및 직후의 중국 문자들.

병음 : 스피치 샘플(140)의 표음적 표현. 병음은 웨스턴 알파벳을 사용하는 중국 언어의 표준화된 로마자 기재이다.

음조 문맥 : 스피치 샘플(140)의 주해된 텍스트 직전 및 직후의 중국 문자들의 음조 문맥.

동시조음 : 음소 또는 서브 음절들 같은 스피치 샘플(140)의 주해된 텍스트직전 및 직후의 표음적 레벨 표본들.

음절 위치 : 운율 어구내의 음절의 위치.

어구 위치 : 문장내의 음절 어구의 위치. 일반적으로, 어구 위치는 문장 초기, 문장 중간 및 문장 끝의 3개 위치들 중 하나로 식별된다.

캐릭터 심볼 : 스피치 샘플(140)을 규정하는 중국 문자를 나타내는 코드(예로서, ASCII 코드).

어구 길이 : 운율 어구에 포함된 중국 문자들의 수.

상기 내재적 운율 특징들(210)의 특정 값들의 예로서, 하기의 중국어 문장을 고려한다 : "

". 이 문장의 발음된 오디오 기록이 발화 파형 코퍼스(130)에 저장되어 있는 경우, 각 문자의 음향은 스피치 샘플(140)을 나타내고, 상기 내재적 운율 특징들(210)로 주해될 수 있다. 예로서, 상기 문장에서 발견되는 바와 같은 문자 "國"은 하기와 같이 주해될 수 있다:

텍스트 문맥 : 中,

;

병음 : guo2;

음조 문맥 : 1,3;

동시조음 : ong, h;

음절 위치 : 2;

어구 위치 : 1;

캐릭터 심볼 : 國을 위한 ASCII 코드; 및

어구 길이 : 2.

도 2에서, 단계 S110은 텍스트 세그먼트(120)와 스피치 샘플(140) 사이에 문맥상 최상의 매칭이 존재하는지 여부를 결정한다. 문맥상 최상의 매칭은 일반적으로, 1) 주해된 스피치 샘플(140)의 대응 문자들 또는 캐릭터들과 입력 텍스트 세그먼트(120)의 문자들 또는 캐릭터들(언어에 의존) 및 2) 주해된 스피치 샘플(140)의 내재적 운율 특징들(210)과 입력 텍스트 세그먼트(120)의 내재적 운율 특징들(210) 양자 모두의 가장근접한 또는 정확한 매칭로서 규정된다. 보다 일반적인 용어로, 최상의 매칭은 파형 코퍼스(60)내의 각 파형 발화들(스피치 샘플들)의 속성들 및 속성 위치들과 일치하는 입력 텍스트 세그먼트 내의 최대수의 연쇄적 음절들을 식별함으로써 결정된다. 단지, 문자들 또는 캐릭터들과 내재적 운율 특징들(210) 양자 모두가 정확하게 매칭할 때에만 연쇄 알고리즘(150)에 사용하기 위한 엘리먼트로서 바로 스피치 샘플(140)이 선택된다.

문맥상 최상의 매칭이 발견되지 않을 때, 본 발명의 방법은 그후 스피치 샘플(140)과 입력 텍스트 세그먼트(120) 사이에 문맥 표음 혼성 매칭이 존재하는지 여부를 결정한다. 상술된 바와 같이, 문맥 표음 혼성 매칭은 규정된 운율 특징 그룹(220)에 포함된 내재적 운율 특징들(210) 모두와 텍스트 세그먼트(120) 사이의 매칭을 필요로한다. 도 3에 도시된 바와 같이, 중국 언어의 스피치를 합성하기 위해 사용되는 본 발명의 일 실시예는 제1 규정된 운율 특징 그룹(220)을 사용하며, 이는 병음, 음조 문맥, 동시조음, 음절 위치, 어구 위치, 캐릭터 심볼 및 어구 길이의 내재적 운율 특징들(210)을 포함한다(단계 S120). 발화 파형 코퍼스(130)내에서 발견되는 주해된 스피치 샘플들(140) 중 어떠한 것도 입력 텍스트 세그먼트(120)에서 발견되는 바와 같은 상기 특징들(210) 각각에 대하여 동일한 값을 갖지 않는 경우, 그후, 코퍼스(130)는 단계 S120에서 적용된 바와 같은 매칭 규칙들에 기초한 입력 텍스트 세그먼트(120)에 충분히 근접한 스피치 샘플(140)을 포함하지 않는다. 따라서, 매칭 규칙들의 제약들이 완화되어야만 하며, 따라서, 입력 텍스트 세그먼트(120)에서 발견되는 차순위 가장 바람직한 특징들(210)을 소유하는 다른 스피치 샘플들(140)을 포함하도록 확장되어야 한다. 달리 말해서, 입력 텍스트 세그먼트(120)의 자연적 운율에 영향을 줄 가능성이 가장 작은 규정된 운율 특징 그룹(220)내에서 발견되는 하나의 특징(210)을 삭제함으로써 매칭 규칙들이 확장된다. 예로서, 도 2 및 도 3 양자 모두에서, 단계 S130에 도시된 바와 같이, 본 발명의 예시된 실시예에서 발견되는 차순위 가장 바람직한 특징들(210)은 어구 길이 특징(210)을 제외한 위에 규정된 특징들(210) 모두를 포함한다.

규정된 운율 특징 그룹(220)으로부터 내재적 운율 특징들(210)이 삭제되는 순서는 경험적으로 결정된다. 특징(210)이 적절한 순서로 삭제될 때, 본 발명의 방법은 효율적이고 신속한 스피치 합성을 초래한다. 따라서, 출력 스피치는 발화 파형 코퍼스(130)가 비교적 제한된 크기일 수 있다 하더라도 보다 자연스러운 음향을 생성한다.

본 발명에 따라서, 발화 파형 코퍼스(130)가 특정 규정된 운율 특징 그룹(220)을 사용하여 텍스트 세그먼트(120)와 비교된 이후, 다수의 스피치 샘플들(140)의 주해들이 분석된 텍스트 세그먼트(120)와 매칭하는 것으로 발견될 수 있다. 이런 경우에, 최적의 문맥 표음 혼성 매칭은 하기의 수학식을 사용하여 선택될 수 있다 :

여기서, W_p = 텍스트 세그먼트(120)의 피치의 가중치

W_d = 텍스트 세그먼트(120)의 지속 기간의 가중치

diff = 최적의 문맥 표음 혼성 매칭을 선택하기 위한 미분값

pitch = 텍스트 세그먼트(120)의 피치

BestPitch = 이상적 텍스트 세그먼트(120)의 피치

dur = 텍스트 세그먼트(120)의 지속 기간

BestDur = 이상적 텍스트 세그먼트(120)의 지속 기간

상기 수학식 1에서, 변수 BestPitch는 발화 파형 코퍼스(130)의 통계적 분석에 기초하여 결정될 수 있다. 예로서, 코퍼스(130)는 평균 피치를 각각 가지는 5개 음조들을 포함할 수 있다. 코퍼스(130)내의 각 주해된 스피치 샘플(140)은 또한, 피치, 지속 기간 및 에너지의 값들에 의해 표현되는 개별 운율 정보를 포함할 수도 있다. 그래서, 전체 코퍼스(130)의 피치, 지속 기간 및 에너지의 평균값들이 가용하다. 특정 문맥을 위한 최상의 피치는 그후, 하기의 수학식을 사용하여 결정될 수 있다.

여기서, pitch_tone = 발화 파형 코퍼스의 음조를 포함하는 평균 피치

nIndex = 운율 어구의 텍스트 세그먼트(120)의 인덱스

empircalvalue = 발화 파형 코퍼스에 기초한 경험값. 중국 언어를 합성하는 본 발명의 일 특정 실시예에서 4의 경험값이 사용되지만, 이 수는 특정 발화 파형 코퍼스(130)의 문맥에 따라 변할 수 있다.

유사하게, 이상적 텍스트 세그먼트(120)의 지속 기간은 하기의 수학식을 사용하여 결정될 수 있다.

여기서, dur_s = 음조가 없는 텍스트 세그먼트(120)의 평균 지속 기간

nIndex = 운율 어구의 텍스트 세그먼트(120)의 인덱스

f_s = 운율 위치의 계수

empircalvalue = 상기 발화 파형 코퍼스에 기초한 경험값. 역시, 중국 언어 를 합성하는 본 발명의 일 특정 실시예에서 4의 경험값이 사용되지만, 이 수는 특정 발화 파형 코퍼스(130)의 문맥에 따라 변할 수 있다.

단어를 위한 미분값(diffW)은 단어의 각 음절을 위한 미분값들의 합계일 수 있다. 이는 하기의 수학식에 의해 수학적 항들로 표현될 수 있다.

상술된 바와 같이, 다수의 스피치 샘플들(140)이 특정 텍스트 세그먼트(120)와 매칭하는 것으로 발견되는 경우, 이 시스템은 그 미분값이 가장 작은 스피치 샘플(140)을 선택한다. 이는 하기의 수학식에 의해 수학적 항들로 표현될 수 있다.

또한, 본 발명의 방법은 미분값(diffW)을 위한 지정된 임계값들을 사용하는 것을 포함할 수 있다. 매칭된 스피치 샘플(140)을 위한 미분값이 특정 임계값 미만인 경우, 방법은 매칭된 스피치 샘플(140)을 연쇄적 스피치(110)를 생성하기 위해 연쇄 알고리즘(150)으로 라우팅한다. 그렇지 않으면, 방법은 필요한 내재적 운율 특징들(210) 중 하나를 삭제함으로써, 문맥 표음 혼성 매칭에 대한 제약들을 완화시키고, 매칭에 대한 검색을 지속할 필요가 있다.

비록, 상기 설명이 중국 언어에 대한 본 발명의 방법의 특정 예에 관련하지만, 본 발명은 다수의 언어들에 적합하다. 소정 언어들에 대하여, 내재적 운율 특징들(210)은 상술된 예들로부터 삭제 또는 재규정될 필요가 있다. 예로서, 음조 문맥으로서 상술된 특징(210)은 영어에 대한 본 발명의 적용시 삭제되며, 그 이유는 영어는 표음 언어이기 때문이다. 또한, 유사하게, 병음으로서 상술된 특징(210)은 본 발명이 영어에 적용될 때, 단순히 표음 심볼로서 재규정될 필요가 있다.

따라서, 본 발명은 발화 파형 코퍼스(130)의 내재적 운율 정보를 활용하는 다층, 데이터 구동 운율 제어 체계이다. 주어진 입력 텍스트 세그먼트(120)와의 매칭을 위해 적절한 스피치 샘플(140)을 검색할 때, 본 발명의 방법은 다층 매칭에 기초한 전략을 사용하며, 여기서, 충분히 양호한 매칭이 발견될 때까지 각층이 순차적으로 시도된다. 각 층의 제약들을 연속적으로 완화시킴으로써, 본 방법은 발화 파형 코퍼스(130)가 매칭을 포함하는지 여부를 효과적으로 결정한다. 따라서, 본 방법은 시스템의 처리 파워 및 발화 파형 코퍼스(130)의 크기가 제한될 수 있는 임베딩된 TTS 시스템들에 특히 적합하다.

비록, 본 발명의 방법의 예시적 실시예들을 첨부 도면에 예시하고, 상기 설명에서 상술하였지만, 본 발명은 설명된 실시예들에 한정되지 않으며, 오히려, 본 발명은 특히, 중국어 이외의 언어들에 대한 응용들에 관하여 다수의 방식들로 변형될 수 있다는 것을 이해할 것이다. 따라서, 본 발명은 하기의 청구범위의 범주에 의해서만 한정되어야 한다는 것을 주의하여야 한다.

Claims

전자 디바이스 상에서, 텍스트 세그먼트에 대해 스피치 합성(speech synthesis)을 수행하기 위한 방법에 있어서,

복수의 스피치 파형 샘플들을 포함하는 발화 파형 코퍼스(utterance waveform corpus)와 텍스트 세그먼트를 비교하는 단계,

상기 텍스트 세그먼트 내의 연속 음절들(consecutive syllables)과 샘플링된 스피치 파형 발화들과 관련된 속성들 사이의 최상의 매칭을 결정하는 단계로서, 상기 최상의 매칭은 상기 파형 발화들 각각의 속성들 및 속성 위치들과 일치하는 최대 수의 연속 음절을 식별함으로써 결정되는, 상기 최상 매칭 결정 단계;

상기 텍스트 세그먼트 내의 매칭되지 않은 각 음절에 대한 적절한 매칭을 확인하는 단계로서, 매칭되지 않은 각 음절은 상기 연속 음절들 중 하나가 아닌 음절이며, 상기 적절한 매칭은 샘플링된 스피치 파형 발화들과 관련된 상기 속성들을 운율 특징 그룹(prosodic features group)의 운율 특징들과 비교하여 결정되고, 상기 확인 단계는 상기 적절한 매칭이 존재할 때까지 상기 운율 특징 그룹으로부터 상기 운율 특징들을 연속적으로 제거하는 것을 특징으로 하는, 상기 적절한 매칭 확인 단계, 및

상기 코퍼스 내의 상기 스피치 파형 샘플들을 사용함으로써 상기 텍스트 세그먼트를 위한 연쇄 합성 스피치를 생성하는 단계로서, 상기 스피치 파형 샘플들은 매칭되지 않은 각 음절들에 대한 적절한 매칭과 연속 음절들 사이의 최상의 매칭으로부터 선택되는, 상기 생성 단계를 포함하는, 스피치 합성 방법.
제 1 항에 있어서, 상기 운율 특징들은 텍스트 문맥(text context), 병음(pinyin), 음조 문맥(tone context), 동시조음(co-articulation), 음절 위치(syllable position), 어구 위치(phrase position), 캐릭터 심볼(character symbol) 및 어구 길이(length of phrase)로 구성되는 그룹으로부터 선택된 특징들을 포함하는, 스피치 합성 방법.
제 1 항에 있어서, 상기 운율 특징들은 음조 문맥, 동시조음, 음절 위치, 어구 위치 및 캐릭터 심볼을 포함하는, 스피치 합성 방법.
제 1 항에 있어서, 상기 모든 다른 운율 특징들이 연속적으로 제거된 이후에 병음에만 기초한 기본 표음 매칭(basic phonetic match)을 수행하는 단계를 더 포함하는, 스피치 합성 방법.
제 1 항에 있어서, 상기 결정 단계는 수학식

에 의해 다수의 최상의 매칭들이 발견될 때, 최적의 문맥 표음 혼성 매칭을 선택하는 단계를 포함하고,

여기서, W_p = 상기 스피치 세그먼트의 피치(pitch)의 가중치;

W_d = 상기 스피치 세그먼트의 지속 기간의 가중치;

diff = 상기 최적의 문맥 표음 혼성 매칭을 선택하기 위한 미분값;

pitch = 상기 스피치 세그먼트의 피치;

BestPitch = 이상적 스피치 세그먼트의 피치;

dur = 상기 스피치 세그먼트의 지속 기간;

BestDur = 상기 이상적 스피치 세그먼트의 지속 기간인, 스피치 합성 방법.
제 5 항에 있어서, 상기 BsetPitch는 수학식

BestPitch = pitch_tone - nIndex x empiricalvalue

을 사용하여 결정되고,

여기서, pitch_tone = 상기 발화 파형 코퍼스의 음조를 포함하는 평균 피치;

nIndex = 운율 어구의 상기 스피치 세그먼트의 인덱스;

empircalvalue = 상기 발화 파형 코퍼스에 기초한 경험값인, 스피치 합성 방법.
제 5 항에 있어서, 상기 BestDur은 수학식

BestDur = dur_s x f_s - nIndex x empiricalvalue

을 사용하여 결정되고,

여기서, dur_s = 음조가 없는 상기 스피치 세그먼트의 평균 지속 기간;

nIndex = 운율 어구의 상기 스피치 세그먼트의 인덱스;

f_s = 운율 위치를 위한 계수; 및

empircalvalue = 상기 발화 파형 코퍼스에 기초한 경험값인, 스피치 합성 방법.
제 1 항에 있어서, 상기 결정 단계는 수학식

을 사용하여 다수의 적절한 매칭들이 발견될 때, 최적의 문맥 표음 혼성 매칭을 선택하는 단계를 포함하고,

여기서, W_p = 상기 스피치 세그먼트의 피치의 가중치;

W_d = 상기 스피치 세그먼트의 지속 기간의 가중치;

diff = 상기 최적의 문맥 표음 혼성 매칭을 선택하기 위한 미분값;

pitch = 상기 스피치 세그먼트의 피치;

BestPitch = 이상적 스피치 세그먼트의 피치;

dur = 상기 스피치 세그먼트의 지속 기간; 및

BestDur = 상기 이상적 스피치 세그먼트의 지속 기간인, 스피치 합성 방법.
제 8 항에 있어서, 상기 최적의 문맥 표음 혼성 매칭은 최저 미분값(diff)을 갖는 매칭인 스피치 합성 방법.
제 8 항에 있어서, 상기 최적의 문맥 표음 혼성 매칭을 선택하기 위한 상기 미분값(diff)은 미리 설정된 임계값과 비교되는, 스피치 합성 방법.
제 8 항에 있어서, 상기 BsetPitch는 수학식

BestPitch = pitch_tone - nIndex x empiricalvalue

을 사용하여 결정되고,

여기서, pitch_tone = 상기 발화 파형 코퍼스의 음조를 포함하는 평균 피치;

nIndex = 운율 어구의 상기 스피치 세그먼트의 인덱스;

empircalvalue = 상기 발화 파형 코퍼스에 기초한 경험값인, 스피치 합성 방법.
제 8 항에 있어서, 상기 BestDur은 수학식

BestDur = dur_s x f_s - nIndex x empiricalvalue

을 사용하여 결정되고,

여기서, dur_s = 음조가 없는 상기 스피치 세그먼트의 평균 지속 기간;

nIndex = 운율 어구의 상기 스피치 세그먼트의 인덱스;

f_s = 운율 위치를 위한 계수; 및

empircalvalue = 상기 발화 파형 코퍼스에 기초한 경험값인, 스피치 합성 방법.