KR100759172B1

KR100759172B1 - 음성 합성 장치, 음성 합성 방법, 및 음성 합성 프로그램을기억한 기억 매체

Info

Publication number: KR100759172B1
Application number: KR1020050014045A
Authority: KR
Inventors: 다께히꼬 가와하라; 히데끼 겐모찌
Original assignee: 야마하 가부시키가이샤
Priority date: 2004-02-20
Filing date: 2005-02-21
Publication date: 2007-09-14
Also published as: JP2005234337A; TWI300551B; KR20060043023A; CN1658281A; CN100337104C; TW200535235A

Abstract

본 발명은 하드웨어 자원에 큰 제약이 부과되어 있는 환경 하에서도, 다양한 종류의 음질의 합성 음성을 생성할 수 있는 음성 합성 장치 등을 제공한다. 한 종류의 음운 데이터를 구비한 음성 합성 장치(100)에 음질 변경부(250) 및 음질 데이터베이스(260)를 설치한다. 음질 변경부(250)는, 텍스트 해석부(220)로부터 공급되는 음질 데이터 번호를 검색 키로 하여 음질 데이터베이스(260)를 검색하여, 음질 파라미터를 취득한다. 음질 변경부(250)는, 취득한 음질 파라미터에 기초하여, 음운 데이터 취득부(230)에 의해 취득되는 음운 데이터에 나타내는 각 음운의 음질을 변경한다.

음운 데이터, 포르만트 주파수, 맵핑 함수, 엔벨로프

Description

음성 합성 장치, 음성 합성 방법, 및 음성 합성 프로그램을 기억한 기억 매체{SOUND SYNTHESIZING DEVICE, SOUND SYNTHESIZING METHOD, AND STORAGE MEDIUM STORING SOUND SYNTHESIZING PROGRAM THEREIN}

도 1은 본 실시예에 따른 음성 합성 장치의 기능 구성을 도시하는 블록도.

도 2는 상기 실시예에 따른 텍스트 정보를 예시한 도면.

도 3은 상기 실시예에 따른 음운 데이터베이스의 등록 내용을 예시한 도면.

도 4는 상기 실시예에 따른 음운 데이터의 구성을 예시한 도면.

도 5는 상기 실시예에 따른 음운 데이터에 포함되는 각 프레임 정보를 설명하기 위한 도면.

도 6은 상기 실시예에 따른 음질 데이터베이스의 등록 내용을 예시한 도면.

도 7은 상기 실시예에 따른 음질 파라미터의 구성의 일례를 도시하는 도면.

도 8은 상기 실시예에 따른 음질 변경 처리를 도시하는 흐름도.

도 9는 상기 실시예에 따른 맵핑 함수를 예시한 도면.

도 10은 상기 실시예에 따른 남성의 음운의 분석 결과를 도시하는 도면.

도 11은 상기 실시예에 따른 여성의 음운의 분석 결과를 도시하는 도면.

도 12는 상기 실시예에 따른 발진 테이블을 예시한 도면.

도 13은 상기 실시예에 따른 발진 테이블로부터 판독되는 발진값과 시간의 관계를 예시한 도면.

도 14는 상기 실시예에 따른 포르만트 주파수 발진을 설명하기 위한 도면.

도 15는 상기 실시예에 따른 피치 부여 처리를 설명하기 위한 도면.

도 16은 상기 실시예에 따른 음질 변경 처리 및 피치 부여 처리가 실시된 특정 포르만트의 포르만트 파형을 예시한 도면.

도 17은 종래의 음성 합성 장치의 기능 구성을 도시하는 도면.

<도면의 주요 부분에 대한 부호의 설명>

100 : 음성 합성 장치

210 : 입력부

220 : 텍스트 해석부

230 : 음운 데이터 취득부

240 : 음운 데이터베이스

250 : 음질 변경부

260 : 음질 데이터베이스

270 : 음성 신호 생성부

280 : 파형 데이터베이스

[문헌 1] 일본 특개 2000-339137호 공보, 제3-4쪽

본 발명은 입력되는 텍스트 정보로부터 합성 음성을 생성하는 음성 합성 장치, 음성 합성 방법, 및 음성 합성 프로그램을 기억한 기억 매체에 관한 것이다.

도 17은 입력되는 텍스트 정보로부터 음성 합성을 생성하는 종래의 음성 합성 장치(100)의 구성을 도시하는 도면이다.

입력부(110)는, 도시하지 않은 조작부 등으로부터 「こんにちわ」 등의 텍스트 정보를 수취하면, 이 텍스트 정보를 텍스트 해석부(120)에 공급한다. 텍스트 해석부(120)는, 수취한 텍스트 정보에 대하여, 단어 사전 등을 이용하여 단어 해석, 구문 해석 등을 행하여, 「こ」, 「ん」, 「に」, 「ち」, 「わ」라고 하는 모라(mora) 단위의 각 음운을 나타내는 음운 정보, 및 각 음운의 길이, 높이, 강도를 나타내는 운률 정보를 생성하여, 음성 합성부(130)에 공급한다. 음성 합성부(130)는, 텍스트 해석부(120)로부터 공급되는 각 음운 정보에 기초하여, 모라 단위의 음성 데이터(이하, 음운 데이터)를 음운 데이터베이스(140)로부터 취득한다. 그리고, 음성 합성부(130)는, 취득한 각 음운 데이터를 운률 정보에 따라서 적절하게 가공·접속 등을 행하여 합성 음성 신호를 생성하여, 스피커 등으로부터 합성 음성으로서 출력한다. 사용자는, 음성 합성 장치로부터 출력되는 합성 음성을 청취함으로써, 입력된 텍스트 정보의 내용을 확인할 수 있다.

그런데, 상기 음운 데이터베이스에는, 특정 화자(예를 들면, 남성 화자)에 의한 한 종류의 음운 데이터밖에 등록되어 있지 않다. 이 때문에, 예를 들면 젊은 여성 등이 자주 사용할 것 같은 텍스트 정보(「ちょう…的」나 「…みたいなぁ」 등의 텍스트 정보)를, 상기 특정 화자의 음질을 갖는 합성 음성으로 출력한 경우에는, 사용자는 음질과 음성 내용 사이에 위화감을 느끼게 되는 등의 문제가 있었다.

이러한 문제를 해소하기 위해, 복수 종류의 음운 데이터(예를 들면, 남성, 여성, 아이, 노인의 각각의 음운 데이터)를 음운 데이터베이스에 미리 등록하고, 입력되는 텍스트 정보의 내용 등에 따라서 최적의 음운 데이터를 선택하고, 선택한 음운 데이터를 이용하여 합성 음성을 생성하는 기술이 제안되어 있다(예를 들면, 특허 문헌 1 참조).

특허 문헌 1 : 일본 특개 2000-339137호 공보(제3-4페이지)

특허 문헌 1에 개시된 기술에 따르면, 확실히 적절한 합성 음성을 얻을 수 있지만, 이것을 실현하기 위해서는 복수 종류의 음운 데이터를 음운 데이터베이스에 등록해야 한다. 그러나, 메모리나 CPU 등의 하드웨어 자원에 큰 제약이 부과되어 있는 휴대 단말기 등에 이러한 복수 종류의 음운 데이터를 실장할 수는 없고, 결국 휴대 단말기 등에서는 다양한 음질의 합성 음성을 생성할 수 없다는 문제가 있었다.

본 발명은, 이상 설명한 사정을 감안하여 이루어진 것으로, 하드웨어 자원에 큰 제약이 부과되어 있는 환경 하에서도, 다양한 종류의 음질의 합성 음성을 생성할 수 있는 음성 합성 장치, 음성 합성 방법, 및 음성 합성 프로그램을 기억한 기억 매체를 제공하는 것을 목적으로 한다.

상술한 문제를 해결하기 위해, 본 발명에 따른 음성 합성 장치는, 음성 합성 장치에 입력되는 텍스트 정보로부터, 합성 음성의 음운을 지정하는 음운 지정 정보 및 상기 합성 음성의 음질을 지정하는 음질 지정 정보를 소득하는 소득 수단과, 각 음운을 나타내는 음운 데이터를 복수 기억하는 제1 기억 수단과, 상기 각 음운의 음질을 변경하기 위한 정보로서, 음운 데이터의 가공 내용을 나타내는 음운 데이터 가공 정보를 복수 종류 기억하는 제2 기억 수단과, 상기 제1 기억 수단으로부터, 상기 음운 지정 정보에 나타내는 음운에 대응하는 음운 데이터를 추출하는 제1 추출 수단과, 상기 제2 기억 수단으로부터, 상기 음질 지정 정보에 나타내는 음질에 대응하는 음운 데이터 가공 정보를 추출하는 제2 추출 수단과, 상기 추출된 음운 데이터를, 상기 추출된 음운 데이터 가공 정보에 기초하여 가공하여, 상기 합성 음성을 생성하는 생성 수단을 구비하는 것을 특징으로 한다.

이러한 구성에 따르면, 제1 추출 수단에 의해 추출된 음운 데이터가 제2 추출 수단에 의해 추출된 음운 데이터 가공 정보에 기초하여 가공되며, 이에 의해 합성 음성이 생성된다. 이 음운 데이터 가공 정보에 다양한 가공 조건(예를 들면, 음운의 포르만트(formant)의 변경 내용 등)을 설정함으로써, 한 종류의 음운 데이터(예를 들면, 남성 화자의 음운 데이터)로부터 다양한 음질의 합성 음성을 얻는 것이 가능해진다.

여기에서, 상기 구성에 있어서는, 상기 각 음운 데이터는, 음운의 포르만트를 나타내는 포르만트 정보를 포함하고, 상기 음운 데이터 가공 정보는, 상기 포르만트의 변경 내용을 나타내는 포르만트 변경 정보를 포함하고, 상기 생성 수단은, 상기 포르만트 정보를, 상기 포르만트 변경 정보에 기초하여 변경하고, 변경 후의 각 포르만트를 가산한 후의 신호 파형에 기초하여 상기 합성 음성을 생성하는 양태가 바람직하다.

이 외에 추가로, 상기 포르만트 정보는, 포르만트 주파수와 포르만트 레벨과의 쌍에 의해서 구성되고, 상기 포르만트 변경 정보에는, 상기 포르만트 주파수의 변경 내용을 나타내는 포르만트 주파수 변경 정보와 상기 포르만트 레벨의 변경 내용을 나타내는 포르만트 레벨 변경 정보가 포함되고, 상기 생성 수단은, 상기 음운 데이터에 나타내는 음운의 각 포르만트 주파수와 각 포르만트 레벨의 각각을, 상기 포르만트 주파수 변경 정보 및 상기 포르만트 레벨 변경 정보에 기초하여 변경함으로써, 상기 변경 후의 각 포르만트를 얻는 양태가 보다 바람직하다.

또한, 소득 수단은, 상기 텍스트 정보로부터 상기 음운 지정 정보 및 상기 음질 지정 정보를 소득하는 것 외에, 상기 합성 음성의 피치를 지정하는 피치 지정 정보를 소득하고, 상기 생성 수단은, 상기 변경 후의 각 포르만트를 가산한 후의 신호 파형에 대하여 상기 피치 지정 정보에 나타내는 피치를 부여함으로써, 상기 합성 음성을 얻는 양태도 바람직하다.

<실시예>

이하, 본 발명에 따른 실시예에 대하여 도면을 참조하여 설명한다.

A. 본 실시예

도 1은, 본 실시예에 따른 음성 합성 장치(100)의 기능 구성을 도시하는 도면이다. 또, 본 실시예에서는, 휴대 전화나 PHS(Personal Handyphone System), PDA(Personal Digital Assistance) 등 하드웨어 자원에 큰 제약이 부과되는 휴대 단말기에 실장되는 경우를 상정하지만, 이에 한하지 않고 다양한 전자 기기에 적용할 수 있다.

입력부(210)는, 도시하지 않은 조작부 등을 통하여 입력되는 텍스트 정보를 텍스트 해석부(220)에 공급한다. 도 2는 텍스트 정보를 예시한 도면이다.

텍스트 본문 정보는, 합성 음성으로서 출력할 텍스트 내용(예를 들면, 「こんにちわ」를 나타내는 정보이다. 또, 도 2에서는 히라가나에 의해서만 나타내는 텍스트 본문 정보를 나타내고 있지만, 히라가나뿐만 아니라, 한자, 로마자, 가타가나 등의 각종 문자나 각종 기호에 의해 나타내는 것이어도 된다.

음질 데이터 번호(음질 지정 정보)는, 후술하는 복수의 음질 파라미터(음운 데이터 가공 정보)를 각각 식별하기 위한 고유한 번호(도 2에서는, K1∼Kn)이다. 본 실시예에서는, 이 음질 파라미터를 적절하게 선택·이용함으로써, 특정 화자(본 실시예에서는, 「남성 화자」를 상정)에 의한 한 종류의 음운 데이터로부터, 다양한 음질의 합성 음성을 얻는 것이 가능해진다(상세는 후술).

피치 정보(피치 지정 정보)는, 합성 음성에 피치를 부여하기 위한(즉, 합성 음성의 피치를 지정하기 위한) 정보로, 「C(도)」∼「B(시)」 등의 음계를 지정하는 정보에 의해서 구성되어 있다(도 2 참조).

텍스트 해석부(220)는, 입력부(210)로부터 공급되는 텍스트 정보를 해석하고, 해석 결과를 음운 데이터 취득부(230), 음질 변경부(250), 음성 신호 생성부(270)에 각각 공급한다. 구체적으로 설명하면, 도 2에 도시한 바와 같은 텍스트 정보가 공급되면, 텍스트 해석부(220)는, 우선 「こんにちわ」라고 하는 텍스트 본문 정보를 「こ」, 「ん」, 「に」, 「ち」, 「わ」라고 하는 모라 단위의 음운으로 분해한다. 또한, 모라란, 읽는 단위를 나타내며, 기본적으로는 1개의 자음과 1개의 모음으로 구성되는 것을 말한다.

텍스트 해석부(취득 수단)(220)는, 이와 같이 하여 텍스트 본문 정보를 모라 단위의 음운으로 분해하면, 이들 합성 음성의 각 음운을 지정하는 음운 정보(음운 지정 정보)를 생성하여, 음운 데이터 취득부(230)에 순차 공급한다. 또한, 텍스트 해석부(220)는, 음질 데이터 번호(예를 들면 K3), 피치 정보(예를 들면 C(도))를 텍스트 정보로부터 각각 취득하고, 취득한 음질 데이터 번호를 음질 변경부(250)에 공급하는 한편, 취득한 피치 정보를 음성 신호 생성부(270)에 공급한다.

음운 데이터 취득부(제1 추출 수단)(230)는, 텍스트 해석부(220)로부터 공급되는 음운 정보를 검색 키로 하여 음운 데이터베이스(240)를 검색함으로써, 음운 정보에 나타내는 음운에 대응하는 음운 데이터를 취득한다. 도 3은 음운 데이터베이스(240)의 등록 내용을 예시한 도면이다. 도 3에 도시한 바와 같이, 음운 데이터베이스(제1 기억 수단)(240)에는, 한명의 남성 화자의 모라 단위의 각 음운(「あ」, 「い」, …「ん」 등)을 나타내는 일련의 음운 데이터(1∼m)가 등록되는 것 외에, 해당 일련의 음운 데이터의 수(이하, 등록 음운 데이터수) 등이 등록되어 있다.

도 4는 임의의 음운(예를 들면 「こ」 등)을 나타내는 음운 데이터의 구성을 예시한 도면이고, 도 5는 음운 데이터에 포함되는 각 프레임 정보를 설명하기 위한 도면이다. 또한, 도 5의 A는, 상기 남성 화자가 임의의 음운(예를 들면 「こ」 등)을 발성했을 때의 음성 파형 vw와 각 프레임 FR과의 관계를 나타내고 있고, 도 5의 B, 도 5의 C, 도 5의 D는, 각각 제1 프레임 FR1, 제2 프레임 FR2, 제n 프레임 FRn에 관한 포르만트 분석 결과를 나타내고 있다.

도 4에 도시한 바와 같이, 음운 데이터는, 제1 프레임 정보∼제n 프레임 정보에 의해 구성되어 있다. 각 프레임 정보는, 대응하는 각 프레임 FR(도 5 참조)을 포르만트 분석함으로써 얻어지는 제1 포르만트 정보∼제k 포르만트 정보와, 각 프레임 FR의 음성이 유성음인지 무성음인지를 나타내는 유성음/무성음 판별 플래그(예를 들면, "1"=유성음, "0"=무성음)를 구비하고 있다.

각 프레임 정보를 구성하는 제1 포르만트 정보∼제k 포르만트 정보는, 대응하는 포르만트를 나타내는 포르만트 주파수 F와 포르만트 레벨 A와의 쌍에 의해 구성되어 있다(도 5의 B∼도 5의 D 참조). 예를 들면, 제1 프레임 정보를 구성하는 제1 포르만트 정보∼제k 포르만트 정보는, 각각 (F11, A11), (F12, A12), …(F1k, A1k) 등과 같은 포르만트 주파수와 포르만트 레벨과의 쌍에 의해서 구성되며(도 5의 B 참조), …제n 프레임 정보를 구성하는 제1 포르만트 정보∼제k 포르만트 정보는, 각각 (Fn1, An1), (Fn2, An2), …(Fnk, Ank) 등과 같은 포르만트 주파수와 포르만트 레벨과의 쌍에 의해 구성된다(도 5의 D 참조).

음운 데이터 취득부(230)는, 텍스트 해석부(220)로부터 공급되는 각 음운 정보(「こ」, 「ん」, 「に」, 「ち」, 「わ」 등을 나타내는 각 음운 정보)에 기초하여 대응하는 각 음운 데이터를 취득하면, 이들을 음질 변경부(250)에 공급한다.

음질 변경부(250)는, 음운 데이터 취득부(230)에 의해서 취득된 각 음운 데이터에 나타내는 음운의 음질을 변경한다. 상세히 설명하면, 음질 변경부(제2 추출 수단)(250)는, 우선 텍스트 해석부(220)로부터 공급되는 음질 데이터 번호를 검색 키로 하여 음질 데이터베이스(제2 기억 수단)(260)를 검색하여, 대응하는 음질 파라미터를 취득한다. 그리고, 음질 변경부(250)는 취득한 음질 파라미터에 기초하여, 상기 각 음운의 음질의 변경을 행한다.

도 6은 음질 데이터베이스(260)의 등록 내용을 예시한 도면이다.

도 6에 도시한 바와 같이, 음질 데이터베이스(제2 기억 수단)(260)에는, 상기 각 음운의 음질을 변경하기 위해 필요한 정보로서, 음운 데이터의 가공 내용을 나타내는 복수 종류의 음질 파라미터(1∼L)와, 해당 음질 파라미터의 수를 나타내는 등록수 정보가 저장되어 있다.

도 7은 음질 파라미터의 구성의 일례를 도시하는 도면이다.

도 7에 도시한 바와 같이, 음질 파라미터(음운 데이터 가공 정보)는, 해당 파라미터를 특정하기 위한 음질 데이터 번호와, 합성 음성의 성별을 변경할지의 여부를 나타내는 성별 변경 플래그와, 제1∼제k 포르만트의 변경 내용을 나타내는 제1∼제k 포르만트 변경 정보를 구비하고 있다. 여기서, 예를 들면 상기 성별 변경 플래그가 "1"로 설정되어 있는 경우에는, 음질 변경부(250)에 의해 합성 음성의 성별을 변경하기 위한 처리(이하, 성별 변경 처리)가 행해지는 한편, 상기 성별 변경 플래그가 "0"으로 설정되어 있는 경우에는, 상기 성별 변경 처리는 행해지지 않는다(상세 내용은 후술). 또한, 본 실시예에서는, 남성 화자에 의한 한 종류의 음운 데이터를 상정하고 있기 때문에, 이 성별 변경 플래그가 "1"로 설정되어 있는 경우에는, 합성 음성의 특징은 남성적인 것에서 여성적인 것으로 변경된다. 한편, 성별 변경 플래그가 "0"으로 설정되어 있는 경우에는, 합성 음성의 특징은 남성적인 것 그대로 변경되지 않는다.

한편, 각 포르만트 변경 정보는, 후술하는 각 포르만트의 기본 파형(정현파 등)을 선택하기 위한 기본 파형 선택 정보와, 각 포르만트 주파수의 변경 내용을 나타내는 포르만트 주파수 변경 정보와, 포르만트 주파수의 각 레벨의 변경 내용을 나타내는 포르만트 레벨 변경 정보를 구비하고 있다.

각 포르만트 주파수 변경 정보 및 각 포르만트 레벨 변경 정보에는, 각각 포르만트 주파수의 시프트량, 발진 속도, 발진 레벨을 나타내는 정보 및 포르만트 레벨의 시프트량, 발진 속도, 발진 레벨을 나타내는 정보가 포함되어 있다. 또, 포르만트 주파수 및 포르만트 레벨의 시프트량, 발진 속도, 발진 레벨에 관한 상세 내용은 후술한다.

도 8은, 음질 변경부(250)에 의해 실행되는 음질 변경 처리를 나타내는 흐름도이다.

음질 변경부(생성 수단)(250)는, 텍스트 해석부(220)로부터 음질 데이터 번호를 수취하면, 해당 음질 데이터 번호를 검색 키로 하여 음질 데이터베이스(260)를 검색하여, 대응하는 음질 파라미터를 취득한다(단계 S1). 그리고, 음질 변경부(250)는, 취득한 음질 파라미터에 포함되는 성별 변경 플래그를 참조하여, 합성 음성의 성별을 변경할지(즉, 성별 변경 처리를 실행할지)의 여부를 판단한다(단계 S2). 음질 변경부(250)는, 예를 들면 성별 변경 플래그가 "0"으로 설정되어, 성별 변경해서는 안된다고 판단하면, 단계 S3을 스킵하여 단계 S4로 진행하는 한편, 예를 들면 성별 변경 플래그가 "1"로 설정되어, 성별 변경해야 한다고 판단하면, 단계 S3으로 진행하여, 성별 변경 처리를 실행한다.

도 9는 기억 수단(도시 생략)에 저장되어 있는 성별 변경 처리용의 맵핑 함수 mf를 예시한 도면이고, 도 10 및 도 11은 남성 및 여성이 각각 동일한 음운(예를 들면, 「あ」 등)을 발성했을 때의 분석 결과를 도시하는 도면이다. 또한, 도 9에 도시한 맵핑 함수 mf의 횡축은 입력 주파수(음질 변경부(250)에 입력되는 포르만트 주파수), 종축은 출력 주파수(음질 변경부(250)로부터 출력되는 주파수 변경 후의 포르만트 주파수)를 나타내고, fmax는 입력 가능한 포르만트 주파수의 최대값을 나타낸다. 또한, 도 10 및 도 11에 도시한 분석 그래프 g1, g2의 횡축은 주파수, 종축은 레벨을 나타낸다.

도 10과 도 11에 도시한 분석 그래프 g1, g2를 비교하여 명백하게 한 바와 같이, 남성의 음운의 제1 포르만트 주파수 fm1∼제4 포르만트 주파수 fm4는, 여성의 음운의 제1 포르만트 주파수 ff1∼제4 포르만트 주파수 ff4와 비교하여 낮다. 따라서, 본 실시예에서는, 도 9에 도시한 바와 같이, 직선 nl(입력 주파수=출력 주파수; 파선 부분 참조)보다도 상측에 위치하는 맵핑 함수 mf(실선 부분 참조)를 이용함으로써, 남성적인 특징을 갖는 음운을 여성적인 특징을 갖는 음운으로 변경한다.

구체적으로 설명하면, 음질 변경부(250)는, 입력되는 음운 데이터의 각 포르 만트 주파수를, 도 9에 도시한 맵핑 함수 mf를 이용하여 주파수가 높은 방향으로 시프트한다. 이에 의해, 입력되는 남성의 음운의 각 포르만트 주파수는, 여성적인 특징을 갖는 것으로 변경된다. 또한, 여성의 음운의 포르만트 주파수가 입력되는 경우에는, 상기와는 반대로, 직선 nl보다도 하측에 위치하는 맵핑 함수 mf'(도 9에 일점쇄선으로 나타내는 부분 참조)를 이용하면 된다.

음질 변경부(250)는, 상기 성별 변경 처리를 실행하여, 단계 S4로 진행하면, 각 포르만트 주파수 변경 정보에 나타내는 각 포르만트 주파수의 시프트량에 따라서, 각 포르만트 주파수를 시프트한다. 또한, 음질 변경부(250)는, 시프트한 각 포르만트 주파수를 발진시키기 위해, 주파수 발진 처리를 실행한다(단계 S5).

도 12는 기억 수단(도시 생략)에 저장되어 있는 주파수 발진 처리에 이용되는 발진 테이블 TA를 예시한 도면이고, 도 13은 해당 발진 테이블 TA로부터 판독되는 발진값과 시간의 관계를 예시한 도면이다. 또한, 본 실시예에서는, 편의상, 동일한 발진 테이블 TA를 이용하여 상기 각 포르만트 주파수를 발진시키는 경우를 상정하지만, 각 포르만트 주파수마다 발진값 등이 서로 다른 발진 테이블을 이용해도 된다.

발진 테이블 TA는, 발진값을 시계열순으로 등록한 테이블이다. 음질 변경부(250)는, 각 포르만트 주파수 변경 정보에 나타낸 포르만트 주파수의 발진 속도에 따라서, 발진 테이블 TA에 등록되어 있는 발진값의 판독 속도(혹은 발진값을 스킵하는 수)를 제어하는 한편, 판독한 각 발진값에 대하여 각 포르만트 주파수 변경 정보에 나타내는 포르만트 주파수의 발진 레벨을 곱하는 등과 같은 주파수 발진 처 리를 실행한다. 이에 의해, 도 14에 도시한 바와 같은 포르만트 주파수 fm을 발진 속도 sp, 발진 레벨 lv로 발진시킨 파형을 얻을 수 있다. 또, 본 실시예에서는, 포르만트 주파수의 발진 레벨의 연산량을 삭감하기 위해, 상기 발진 테이블 TA를 이용하는 양태를 예시하였지만, 발진 테이블 TA를 이용하지 않고 소정의 함수 등을 이용하여 포르만트 주파수의 발진 레벨을 구해도 된다.

음질 변경부(250)는, 주파수 발진 처리를 실행하면, 단계 S6으로 진행하고, 각 포르만트 주파수 변경 정보에 나타내는 각 포르만트 레벨의 시프트량에 따라, 각 포르만트 레벨을 시프트한다. 또한, 음질 변경부(250)는, 시프트한 각 포르만트 레벨을 발진시키기 위해, 레벨 발진 처리를 실행하고(단계 S7), 처리를 종료한다. 또, 레벨 발진 처리에 이용되는 발진 테이블이나 상기 발진 테이블을 이용하여 각 포르만트 레벨을 발진시키는 경우의 동작에 대해서는, 상기 각 포르만트 주파수를 발진시키는 경우와 거의 마찬가지로 설명할 수 있기 때문에 생략한다. 또한, 포르만트 레벨의 발진에 대하여, 포르만트 주파수의 발진과 동일한 발진 테이블을 이용하여 발진시켜도 되지만, 포르만트 주파수의 발진과는 서로 다른 발진 테이블을 이용하여 발진시켜도 된다.

음질 변경부(생성 수단)(250)는, 취득한 음질 파라미터(음운 데이터 가공 정보)에 기초하여 각 음운의 음질을 변경(즉, 음운 데이터를 가공)하면, 각 포르만트마다의 기본 파형 선택 정보, 각 포르만트 주파수, 및 각 포르만트 레벨을 음성 신호 생성부(270)에 공급한다.

음성 신호 생성부(270)는, 음질 변경부(250)로부터 공급되는 기본 파형 선택 정보를 수취하면, 이 기본 파형 선택 정보에 나타내는 파형 데이터를 파형 데이터베이스(280)로부터 취득한다. 또, 이 기본 파형 선택 정보에 나타내는 기본 파형은, 각 포르만트마다 서로 달라도 되는데, 예를 들면 낮은 주파수의 포르만트의 기본 파형을 정현파로 하는 한편, 개성을 나타내는 높은 주파수의 포르만트의 기본 파형을 정현파 이외의 파형(예를 들면, 구형파나 톱니파 등) 등으로 해도 된다. 물론, 복수 종류의 기본 파형을 이용하지 않고, 단일의 기본 파형(예를 들면, 정현파)만을 이용해도 된다.

음성 신호 생성부(생성 수단)(270)는, 이와 같이 하여 각 파형 데이터를 선택하면, 선택한 각 파형 데이터, 각 포르만트 주파수, 각 포르만트 레벨을 이용하여 각 포르만트마다의 포르만트 파형을 생성한다. 그리고, 음성 신호 생성부(생성 수단)(270)는, 각 포르만트 파형을 가산하여, 합성 음성 신호를 생성한다. 또한, 음성 신호 생성부(270)는, 생성한 합성 음성 신호에, 텍스트 해석부(220)로부터 공급되는 피치 정보(피치 지정 정보)에 나타내는 피치를 부여하는 처리(이하, 피치 부여 처리)를 실시한다.

도 15는 피치 부여 처리를 설명하기 위한 도면이다. 또한, 도 15에서는, 설명의 이해를 용이하게 하기 위해, 정현파의 합성 음성 신호에 피치가 부여되는 경우를 예시하고 있다.

음성 신호 생성부(270)는, 텍스트 해석부(220)로부터 공급되는 피치 정보에 기초하여 도 15에 도시한 시간 엔벨로프 tp의 주기를 산출한다. 여기서, 합성 음성의 피치는, 시간 엔벨로프 tp의 주기에 의존하여, 시간 엔벨로프 tp의 주기가 길 어지면 피치는 낮아지는 한편, 시간 엔벨로프 tp의 주기가 짧아지면 피치는 높아진다. 음성 신호 생성부(270)는, 이와 같이 하여 시간 엔벨로프 tp의 주기를 구하면, 시간 엔벨로프 tp와 합성 음성 신호의 승산을, 구해진 시간 엔벨로프 tp의 주기로 반복하여 행함으로써, 소정의 피치가 부여된 합성 음성 신호를 얻는다.

도 16은, 음질 변경 처리 및 피치 부여 처리가 실시된 특정 포르만트의 포르만트 파형을 예시한 도면이다. 도 16에 도시한 바와 같이, 음질 변경에 관한 처리(예를 들면, 포르만트 주파수나 포르만트 레벨의 발진 처리 등)는, 프레임 주기(프레임 단위)로 제어하는 것이 가능하게 되어 있다. 음성 신호 생성부(생성 수단)(270)는, 상기와 같이 소정의 피치가 부여된 합성 음성 신호를 얻으면, 이것을 합성 음성으로서 외부로 출력한다. 이에 의해, 사용자는, 음성 합성 장치(100)에 입력한 텍스트 본문(「こんにちわ」 등)의 내용을, 원하는 음질의 합성 음성에 의해 확인하는 것이 가능해진다.

이상 설명한 바와 같이, 본 실시예에 따른 음성 합성 장치에 따르면, 음질 변경부에서 포르만트를 단위로 하는 다양한 음질 변경 처리가 실시되기 때문에, 기억되는 음운 데이터가 한 종류(즉, 특정 화자의 음운 데이터만)라도, 다양한 음질의 음성 합성이 가능해진다.

B. 기타

이상 설명한 본 실시예에서는, 음성 합성 장치(100)에 입력되는 텍스트 정보에 피치 정보가 포함되어 있는 경우를 예시했지만(도 2 참조), 해당 텍스트 정보에 피치 정보가 포함되지 않은 경우도 있다. 이러한 경우를 상정하여 음운 데이터베 이스(240)에 미리 대체 피치 정보를 등록하고(도 3의 괄호 부분 참조), 텍스트 정보에 피치 정보가 포함되어 있지 않은 경우에는, 이 대체 피치 정보에 나타내는 피치(예를 들면, C(도) 등)를 합성 음성의 피치로서 이용하도록 해도 된다. 또한, 대체 피치 정보 외에, 도 4에 도시한 각 프레임마다의 포르만트 정보의 수(포르만트수 정보: 도 3의 괄호쓰기 참조)를 음운 데이터베이스(240)에 미리 등록해 두어도 된다.

또한, 이상 설명한 음성 합성 장치(100)에 관련된 여러가지 기능은, CPU(혹은 DSP)가 ROM 등의 메모리에 저장된 프로그램을 실행함으로써 실현되기 때문에, 이러한 프로그램에 대하여 CD-ROM 등의 기록 매체에 기록하여 반포하거나, 인터넷 등의 통신 네트워크를 통하여 반포해도 된다.

또, 전술에서는, 음성 변경 처리는, 텍스트 정보로부터 소득된 음질 데이터 번호에 기초하여 행해지지만, 입력된 텍스트 정보로부터 키워드를 자동 추출하고, 추출된 키워드를 이용하여 전자 기기 내에 미리 구비된, 음질마다의 키워드를 갖는 데이터베이스를 참조함으로써, 해당 텍스트 정보에 적합한 음질을 자동 판정해도 된다.

이상 설명한 바와 같이, 본 발명에 따르면, 하드웨어 자원에 큰 제약이 부과되어 있는 환경 하에서도, 여러가지 종류의 음질의 합성 음성을 생성하는 것이 가능해진다.

Claims

음성 합성 장치에 입력되는 텍스트 정보로부터 키워드를 추출하고, 추출된 키워드에 기초하여 상기 텍스트 정보에 적합한 음질을 판정함으로써, 합성 음성의 음운을 지정하는 음운 지정 정보 및 상기 합성 음성의 음질을 지정하는 음질 지정 정보를 취득하는 취득 수단과,

각 음운을 나타내는 음운 데이터를 복수 기억하는 제1 기억 수단과,

상기 각 음운의 음질을 변경하기 위한 정보로서, 음운 데이터의 가공 내용을 나타내는 음운 데이터 가공 정보를 복수 종류 기억하는 제2 기억 수단과,

상기 제1 기억 수단으로부터, 상기 음운 지정 정보에 나타나는 음운에 대응하는 음운 데이터를 추출하는 제1 추출 수단과,

상기 제2 기억 수단으로부터, 상기 음질 지정 정보에 나타나는 음질에 대응하는 음운 데이터 가공 정보를 추출하는 제2 추출 수단과,

상기 추출된 음운 데이터를, 상기 추출된 음운 데이터 가공 정보에 기초하여 가공하여, 상기 합성 음성을 생성하는 생성 수단

을 포함하는 것을 특징으로 하는 음성 합성 장치.
제1항에 있어서,

상기 각 음운 데이터는, 음운의 포르만트(formant)를 나타내는 포르만트 정보를 포함하고,

상기 음운 데이터 가공 정보는, 상기 포르만트의 변경 내용을 나타내는 포르 만트 변경 정보를 포함하고,

상기 생성 수단은, 상기 포르만트 정보를, 상기 포르만트 변경 정보에 기초하여 변경하고, 변경 후의 각 포르만트를 가산한 후의 신호 파형에 기초하여 상기 합성 음성을 생성하는 것을 특징으로 하는 음성 합성 장치.
제2항에 있어서,

상기 포르만트 정보는, 포르만트 주파수와 포르만트 레벨과의 쌍에 의해서 구성되고,

상기 포르만트 변경 정보에는, 상기 포르만트 주파수의 변경 내용을 나타내는 포르만트 주파수 변경 정보와 상기 포르만트 레벨의 변경 내용을 나타내는 포르만트 레벨 변경 정보가 포함되고,

상기 생성 수단은, 상기 음운 데이터에 나타나는 음운의 각 포르만트 주파수와 각 포르만트 레벨의 각각을, 상기 포르만트 주파수 변경 정보 및 상기 포르만트 레벨 변경 정보에 기초하여 변경함으로써, 상기 변경 후의 각 포르만트를 얻는 것을 특징으로 하는 음성 합성 장치.
제2항 또는 제3항에 있어서,

상기 취득 수단은, 상기 텍스트 정보로부터 상기 음운 지정 정보 및 상기 음질 지정 정보를 취득하는 것 외에, 상기 합성 음성의 피치를 지정하는 피치 지정 정보를 취득하고,

상기 생성 수단은, 상기 변경 후의 각 포르만트를 가산한 후의 신호 파형에 대하여 상기 피치 지정 정보에 나타나는 피치를 부여함으로써, 상기 합성 음성을 얻는 것을 특징으로 하는 음성 합성 장치.
제1항에 있어서,

상기 텍스트 정보는 상기 음질 지정 정보를 포함하고, 상기 취득 수단은, 상기 텍스트 정보로부터 상기 음질 지정 정보를 취득하는 음성 합성 장치.
삭제
음성 합성 장치에 입력되는 텍스트 정보로부터 키워드를 추출하고, 추출된 키워드에 기초하여 상기 텍스트 정보에 적합한 음질을 판정함으로써, 합성 음성의 음운을 지정하는 음운 지정 정보 및 상기 합성 음성의 음질을 지정하는 음질 지정 정보를 취득하는 취득 공정과,

각 음운을 나타내는 음운 데이터를 복수 기억하는 제1 기억 수단으로부터, 상기 음운 지정 정보에 나타나는 음운에 대응하는 음운 데이터를 추출하는 제1 추출 공정과,

상기 각 음운의 음질을 변경하기 위한 정보로서, 음운 데이터의 가공 내용을 나타내는 음운 데이터 가공 정보를 복수 종류 기억하는 제2 기억 수단으로부터, 상기 음질 지정 정보에 나타나는 음질에 대응하는 음운 데이터 가공 정보를 추출하는 제2 추출 공정과,

상기 추출된 음운 데이터를, 상기 추출된 음운 데이터 가공 정보에 기초하여 가공하여, 상기 합성 음성을 생성하는 생성 공정

을 포함하는 것을 특징으로 하는 음성 합성 방법.
각 음운을 나타내는 음운 데이터를 기억하는 제1 기억 수단과, 상기 음운의 음질을 변경하기 위한 정보로서, 음운 데이터의 가공 내용을 나타내는 음운 데이터 가공 정보를 복수 종류 기억하는 제2 기억 수단을 포함한 컴퓨터를,

상기 컴퓨터에 입력되는 텍스트 정보로부터 키워드를 추출하고, 추출된 키워드에 기초하여 상기 텍스트 정보에 적합한 음질을 판정함으로써, 합성 음성의 음운을 지정하는 음운 지정 정보 및 상기 합성 음성의 음질을 지정하는 음질 지정 정보를 취득하는 취득 수단과,

각 음운을 나타내는 음운 데이터를 복수 기억하는 제1 기억 수단으로부터, 상기 음운 지정 정보에 나타나는 음운에 대응하는 음운 데이터를 추출하는 제1 추출 수단과,

상기 각 음운의 음질을 변경하기 위한 정보로서, 음운 데이터의 가공 내용을 나타내는 음운 데이터 가공 정보를 복수 종류 기억하는 제2 기억 수단으로부터, 상기 음질 지정 정보에 나타나는 음질에 대응하는 음운 데이터 가공 정보를 추출하는 제2 추출 수단과,

상기 추출된 음운 데이터를, 상기 추출된 음운 데이터 가공 정보에 기초하여 가공하여, 상기 합성 음성을 생성하는 생성 수단으로서 기능시키기 위한 음성 합성 프로그램을 기억한 기억 매체.
삭제