KR101495410B1

KR101495410B1 - 음성 합성 장치, 음성 합성 방법 및 컴퓨터 판독가능 기억 매체

Info

Publication number: KR101495410B1
Application number: KR1020127028100A
Authority: KR
Inventors: 야스유끼 미쯔이; 레이시 곤도
Original assignee: 닛본 덴끼 가부시끼가이샤
Priority date: 2007-10-05
Filing date: 2008-08-28
Publication date: 2015-02-25
Also published as: JPWO2009044596A1; KR20100065357A; US20100223058A1; WO2009044596A1; KR101395459B1; JP5387410B2; KR20120124076A

Abstract

음성 합성 장치는, 적어도 음절, 음소, 및 단어로 이루어지는 음운 정보를 포함하는 피치 패턴 목표 데이터에 기초하여, 피치 패턴의 개략 형상을 근사적으로 표현하는 표준 패턴과 수록된 음성의 피치 패턴을 표현하는 원발화 패턴을 조합하여 피치 패턴을 생성하는 피치 패턴 생성부(104)와, 생성된 피치 패턴에 기초하여 단위 파형 데이터를 선택하고, 이 선택 시에 원발화 패턴을 사용하는 구간에서 이 원발화 패턴에 대응하는 원발화 단위 파형 데이터를 선택하는 단위 파형 선택부(106)와, 생성된 피치 패턴이 나타내는 운률을 재현하도록, 선택된 단위 파형 데이터를 편집하여 합성 음성을 생성하는 음성 파형 생성부(107)를 포함한다.

Description

음성 합성 장치, 음성 합성 방법 및 컴퓨터 판독가능 기억 매체{SPEECH SYNTHESIS DEVICE, SPEECH SYNTHESIS METHOD, AND COMPUTER-READABLE STORAGE MEDIUM}

본 발명은, 피치 패턴 목표 데이터에 기초하여 운률(prosody)을 생성하고, 생성된 운률을 재현하도록 합성 음성을 생성하는 음성 합성 장치, 음성 합성 방법 및 음성 합성 프로그램에 관한 것이다.

텍스트 음성 합성 기술(the text-to-speech synthesis technology)에서는, 운률 제어가 합성음의 자연성에 크게 영향을 주는 것이 알려져 있다. 가능한 한 사람의 음성과 유사하고 자연스러운 합성음을 생성하기 위해, 운률 제어, 특히 피치 패턴 생성 방법이 개시되어 있다. 예를 들면 일본 특허 공개 제2005-292708호 공보에는, 우선 피치 패턴 후보를 생성하고, 그 피치 패턴 후보의 일부를 대체 패턴으로 치환하는 것에 의해 피치 패턴을 생성하고, 음성을 합성하는 방법이 개시되어 있다.

또한, 일본 특허 공개 제2001-249678호 공보에는, 입력 텍스트의 전부 내지 일부가 일치하는 데이터베이스 내의 인토네이션 데이터를 이용하여, 합성 음성을 생성하는 기술이 개시되어 있다.

또한, 일본 특허 제3235747호에는, 주기성을 갖는 유성 부분에 관해서는 실음성의 분석 처리에 의해 얻어진 각 1피치 주기분에 대응하는 음성 파형 데이터를 사용함으로써, 주기성이 없는 무성 부분에 관해서는 실음성을 그대로 음성 파형 데이터로서 사용함으로써, 합성 음성을 생성하는 기술이 개시되어 있다. 이하, 일본 특허 공개 제2005-292708호 공보, 일본 특허 공개 제2001-249678호 공보, 일본 특허 제3235747호에 개시된 기술을 제1 관련예라고 부른다.

또한, 텍스트 음성 합성 기술, 특히 파형 편집 방식을 이용한 음성 합성 기술에서는, 운률을 생성하고, 그 운률을 재현하도록 단위 파형을 편집하여 전체의 파형을 구성한다. 그 때, 피치 주파수가 수록된 음성의 피치 주파수로부터 변경되기 때문에, 생성되는 합성음의 음질이 저하되는 것이 알려져 있다. 이 음질 열화를 방지하기 위해, 예를 들면, CHATR라고 불리는 음성 합성 방식과 같이, 파형을 그 피치 주파수 정보를 변경하지 않고 접속함으로써, 고음질의 합성음을 생성하는 방법이 문헌 "닉ㆍ캠벨과 앨런ㆍ블랙, 'CHATR: A multi-lingual speech re-sequencing synthesis system', 신호 처리 학회 기술 보고, vol.96, no.39, p.45-52, 1996"에 개시되어 있다. 이하, 이 문헌에 개시된 방법을 제2 관련예라고 부른다.

제1 관련예에서는, 파형의 음질 열화에 대해서 전혀 고려되어 있지 않다. 따라서, 생성된 운률을 재현하고자 하면, 음질이 열화된다.

제2 관련예에서는, 수록된 파형을 그대로 접속하기 때문에, 매우 고음질이다. 그러나, 피치 패턴의 형상을 변경하지 않기 때문에, 생각한 바와 같이 운률을 재현할 수 없다. 이는 생성되는 합성음의 운률의 안정성을 매우 낮아지게 한다.

본 발명은, 상기 과제를 해결하기 위해 이루어진 것으로, 운률의 자연성과 안정성을 유지하고, 또한 높은 음질을 보장하는 합성 음성을 생성할 수 있는 음성 합성 장치, 음성 합성 방법 및 음성 합성 프로그램을 제공하는 것을 그 예시적인 목적으로 한다.

본 발명의 예시적인 양태에 따른 음성 합성 장치는, 적어도 음절, 음소, 및 단어로 이루어지는 음운 정보를 포함하는 피치 패턴 목표 데이터에 기초하여, 피치 패턴의 개략 형상을 근사적으로 표현하는 표준 패턴과 수록된 음성의 피치 패턴을 표현하는 원발화(original utterance pattern) 패턴을 조합하여 피치 패턴을 생성하는 피치 패턴 생성 수단과, 상기 생성된 피치 패턴에 기초하여 단위 파형 데이터를 선택하고, 이 선택 시에 상기 원발화 패턴을 사용하는 구간에서는 이 원발화 패턴에 대응하는 원발화 단위 파형 데이터를 선택하는 단위 파형 선택 수단과, 상기 생성된 피치 패턴이 나타내는 운률을 재현하도록, 상기 선택된 단위 파형 데이터를 편집하여 합성 음성을 생성하는 음성 파형 생성 수단을 포함한다.

본 발명의 다른 예시적인 양태에 따른 음성 합성 방법은, 적어도 음절, 음소, 및 단어로 이루어지는 음운 정보를 포함하는 피치 패턴 목표 데이터에 기초하여, 피치 패턴의 개략 형상을 근사적으로 표현하는 표준 패턴과 수록된 음성의 피치 패턴을 표현하는 원발화 패턴을 조합하여 피치 패턴을 생성하는 피치 패턴 생성 스텝과, 상기 생성된 피치 패턴에 기초하여 단위 파형 데이터를 선택하고, 이 선택 시에 상기 원발화 패턴을 사용하는 구간에서는 이 원발화 패턴에 대응하는 원발화 단위 파형 데이터를 선택하는 단위 파형 선택 스텝과, 상기 생성된 피치 패턴이 나타내는 운률을 재현하도록, 상기 선택된 단위 파형 데이터를 편집하여 합성 음성을 생성하는 음성 파형 생성 스텝을 포함한다.

본 발명의 또 다른 예시적인 양태에 따른 음성 합성 프로그램은, 적어도 음절, 음소, 및 단어로 이루어지는 음운 정보를 포함하는 피치 패턴 목표 데이터에 기초하여, 피치 패턴의 개략 형상을 근사적으로 표현하는 표준 패턴과 수록된 음성의 피치 패턴을 표현하는 원발화 패턴을 조합하여 피치 패턴을 생성하는 피치 패턴 생성 스텝과, 상기 생성된 피치 패턴에 기초하여 단위 파형 데이터를 선택하고, 이 선택 시에 상기 원발화 패턴을 사용하는 구간에서는 이 원발화 패턴에 대응하는 원발화 단위 파형 데이터를 선택하는 단위 파형 선택 스텝과, 상기 생성된 피치 패턴이 나타내는 운률을 재현하도록, 상기 선택된 단위 파형 데이터를 편집하여 합성 음성을 생성하는 음성 파형 생성 스텝을, 컴퓨터로 하여금 실행하게 하는 것이다.

본 발명에 따르면, 표준 패턴과 원발화 패턴을 조합하여 피치 패턴을 생성한다. 원발화 패턴 부분에서는, 대응하는 원발화 단위 파형 데이터를 사용하여, 수록된 음성의 피치 패턴을 충실히 재현한다. 이는, 각 액센트 구 및 전체 문장의 운률의 자연성과 안정성을 유지하고, 또한 음질이 높은 합성 음성을 생성할 수 있게 한다.

도 1은 본 발명의 제1 예시적인 실시예에 따른 음성 합성 장치의 구성을 도시하는 블록도.
도 2는 본 발명의 제1 예시적인 실시예에 따른 음성 합성 장치의 동작을 설명하는 플로우차트.
도 3은 본 발명의 제2 예시적인 실시예에 따른 음성 합성 장치의 구성을 도시하는 블록도.
도 4는 본 발명의 제3 예시적인 실시예에 따른 음성 합성 장치의 구성을 도시하는 블록도.
도 5는 본 발명의 제4 예시적인 실시예에 따른 음성 합성 장치의 개략적인 구성을 도시하는 블록도.
도 6은 본 발명의 제4 예시적인 실시예에 따른 피치 패턴 생성부의 구성예를 도시하는 블록도.
도 7은 본 발명의 제4 예시적인 실시예에 따른 피치 패턴 생성부의 동작을 설명하는 플로우차트.
도 8은 본 발명의 제4 예시적인 실시예에 따른 표준 패턴과 원발화 패턴을 접속하는 예를 나타내는 그래프를 도시하는 도면.
도 9는 본 발명의 제4 예시적인 실시예에 따른 피치 패턴의 절점 위치(node positions)를 나타내는 그래프를 도시하는 도면.
도 10은 본 발명의 제5 예시적인 실시예에 따른 피치 패턴 생성부의 구성예를 도시하는 블록도.
도 11은 본 발명의 제5 예시적인 실시예에 따른 피치 패턴 생성부의 동작을 설명하는 플로우차트.

[제1 예시적인 실시예]

이제, 본 발명을 수행하기 위한 최량의 방식에 대해서 첨부된 도면을 참조하여 설명한다. 도면 전반에 걸쳐 동일한 참조 부호는 동일한 구성 요소를 나타내며, 이에 대한 설명은 적절히 생략하는 것임을 유의한다.

도 1은 본 발명의 제1 예시적인 실시예에 따른 음성 합성 장치의 구성을 도시하는 블록도이다. 도 2는 도 1의 음성 합성 장치의 동작을 설명하는 플로우차트이다.

도 1을 참조하면, 본 예시적인 실시예에 따른 음성 합성 장치는, 피치 패턴 생성부(104)와, 단위 파형 선택부(106)와, 음성 파형 생성부(107)를 포함한다.

이하, 도 1 및 도 2를 참조하여, 본 예시적인 실시예의 동작에 대해서 설명한다.

피치 패턴 생성부(104)는, 피치 패턴 생성에 필요한 정보인 피치 패턴 목표 데이터가 수신되면(도 2 스텝 S101), 이 피치 패턴 목표 데이터에 기초하여, 미리 준비된 표준 패턴과 원발화 패턴을 조합하여 피치 패턴을 생성한다(스텝 S102). 피치 패턴 목표 데이터는, 적어도 음절, 음소, 및 단어로 이루어지는 음운 정보를 포함한다. 표준 패턴은, 음성의 적어도 1개의 피치 패턴의 개략 형상을 근사적으로 표현하는 것이다. 원발화 패턴은, 수록된 음성의 피치 패턴을 충실하게 재현하는 것이다.

단위 파형 선택부(106)는, 피치 패턴 생성부(104)에서 생성된 피치 패턴에 기초하여, 단위 파형 데이터를 선택한다(스텝 S103). 이 때, 단위 파형 선택부(106)는, 피치 패턴 생성부(104)에서 생성된 피치 패턴 내에서, 원발화 패턴으로 이루어진 부분에 대해서는, 대응하는 원발화 단위 파형 데이터를 선택함으로써, 수록된 음성에서의 피치 패턴을 충실하게 재현한다. 표준 패턴으로 이루어진 부분에 대해서는, 어떠한 단위 파형이라도 사용될 수 있다. 단위 파형 데이터는, 수록된 음성으로부터 미리 생성된다. 여기서, 단위 파형이란, 합성음의 최소 단위로서 작용하는 음성 파형을 가리킨다.

음성 파형 생성부(107)는, 피치 패턴 생성부(104)에 의해 생성된 피치 패턴 및 단위 파형 선택부(106)에 의해 선택된 단위 파형 데이터에 기초하여, 음성 파형 데이터를 생성한다(스텝 S104). 이 음성 파형의 생성은, 단위 파형을 피치 패턴에 기초해서 나열하고 이 파형들을 중첩해감으로써 이루어진다.

본 예시적인 실시예에 따르면, 표준 패턴과 원발화 패턴을 조합하여 피치 패턴을 생성하고, 원발화 패턴 부분에서는 대응하는 단위 파형을 사용함으로써, 수록된 음성에서의 피치 패턴을 충실하게 재현한다. 안정성과 자연성이 높은 합성음을 생성하는 것이 가능하게 된다.

[제2 예시적인 실시예]

그 다음, 본 발명의 제2 예시적인 실시예에 대해서 설명한다. 도 3은 본 발명의 제2 예시적인 실시예에 따른 음성 합성 장치의 구성을 도시하는 블록도이다. 본 예시적인 실시예는, 제1 예시적인 실시예를 보다 구체적으로 설명하는 것이다.

도 3을 참조하면, 본 예시적인 실시예에 따른 음성 합성 장치는, 피치 패턴 목표 데이터 입력부(101)와, 표준 패턴 기억부(102)와, 원발화 패턴 기억부(103)와, 피치 패턴 생성부(104)와, 단위 파형 기억부(105)와, 단위 파형 선택부(106)와, 음성 파형 생성부(107)를 포함한다.

본 예시적인 실시예에 따르면, 음성 합성 장치의 전체적인 동작은 제1 예시적인 실시예와 동일하다. 따라서, 도 2 및 도 3을 참조하여 본 예시적인 실시예의 동작에 대해서 설명한다.

표준 패턴 기억부(102)에는, 각각이 음성의 적어도 1개의 피치 패턴의 개략 형상을 근사적으로 표현하는 표준 패턴이 미리 기억되어 있다.

원발화 패턴 기억부(103)에는, 각각이 수록된 음성의 피치 패턴을 충실하게 재현하는 원발화 패턴이 미리 기억되어 있다.

단위 파형 기억부(105)에는, 수록된 음성으로부터 생성된 단위 파형 데이터가 미리 기억되어 있다. 이 단위 파형은, 적어도 상기 원발화 패턴에 대응하는 원발화 단위 파형을 포함한다.

피치 패턴 목표 데이터 입력부(101)는, 피치 패턴 생성에 필요한 정보인 피치 패턴 목표 데이터를 피치 패턴 생성부(104)에 입력한다(도 2 스텝 S101).

피치 패턴 생성부(104)는, 피치 패턴 목표 데이터에 기초하여, 표준 패턴 기억부(102)에 기억되어 있는 표준 패턴과 원발화 패턴 기억부(103)에 기억되어 있는 원발화 패턴을 조합하여 피치 패턴을 생성한다(스텝 S102).

단위 파형 선택부(106)는, 피치 패턴 생성부(104)에 의해 생성된 피치 패턴에 기초하여, 원발화 패턴 기억부(103)에 기억되어 있는 단위 파형 데이터를 선택한다(스텝 S103).

음성 파형 생성부(107)는, 피치 패턴 생성부(104)에 의해 생성된 피치 패턴 및 단위 파형 선택부(106)에 의해 선택된 단위 파형 데이터에 기초하여, 음성 파형 데이터를 생성한다(스텝 S104).

이렇게 하여, 본 예시적인 실시예에 따르면, 제1 예시적인 실시예와 마찬가지의 효과를 얻을 수 있다.

[제3 예시적인 실시예]

그 다음, 본 발명의 제3 예시적인 실시예에 대해서, 첨부된 도면을 참조하여 설명한다. 도 4는 본 발명의 제3 예시적인 실시예에 따른 음성 합성 장치의 구성을 도시하는 블록도이다.

도 4를 참조하면, 본 예시적인 실시예에 따른 음성 합성 장치는, 제2 예시적인 실시예의 구성 외에, 표준 단위 파형 기억부(109)를, 단위 파형 기억부(105) 대신에 원발화 단위 파형 기억부(108)를, 단위 파형 선택부(106) 대신에 단위 파형 선택부(106a)를 포함한다.

본 예시적인 실시예에 따르면 음성 합성 장치의 전체적인 동작은 제1 예시적인 실시예와 동일하다. 따라서, 도 2 및 도 4를 참조하여 본 예시적인 실시예의 동작에 대해서 설명한다.

원발화 단위 파형 기억부(108)에는, 원발화 패턴에 대응하는 원발화 단위 파형 데이터가 미리 기억되어 있다.

표준 단위 파형 기억부(109)에는, 표준 패턴에 대응하는 표준 단위 파형 데이터가 미리 기억되어 있다.

피치 패턴 목표 데이터 입력부(101)와 피치 패턴 생성부(104)의 동작은, 제1 예시적인 실시예와 동일하다(스텝 S101, S102).

단위 파형 선택부(106a)는, 피치 패턴 생성부(104)에 의해 생성된 피치 패턴에 기초하여, 표준 단위 파형 기억부(109)에 기억되어 있는 단위 파형 데이터를 선택한다(스텝 S103). 이 때, 단위 파형 선택부(106a)는, 피치 패턴 생성부(104)에 의해 생성된 피치 패턴 내에서, 원발화 패턴으로 이루어져 있는 부분에 대해서는, 원발화 단위 파형 기억부(108)에 기억되어 있는 대응하는 원발화 단위 파형 데이터를 선택함으로써, 수록된 음성에서의 피치 패턴을 충실하게 재현한다. 또한, 단위 파형 선택부(106a)는, 생성된 피치 패턴 내에서, 표준 패턴으로 이루어져 있는 부분에 대해서는, 표준 단위 파형 기억부(109)에 기억되어 있는 표준 단위 파형 데이터를 선택한다.

음성 파형 생성부(107)의 동작은, 제1 예시적인 실시예와 동일하다(스텝 S104). 본 예시적인 실시예에 따르면, 원발화 패턴 부분과 표준 패턴 부분에서 사용하는 단위를 구별할 수 있다. 따라서, 각각의 패턴에 의해 보다 최적의 단위를 선택할 수 있다.

[제4 예시적인 실시예]

그 다음, 본 발명의 제4 예시적인 실시예에 대해서 설명한다. 도 5는 본 발명의 제4 예시적인 실시예에 따른 음성 합성 장치의 개략적인 구성을 도시하는 블록도이다. 본 예시적인 실시예는, 제2 예시적인 실시예의 보다 구체적인 예를 도시하는 것이다.

언어 해석부(301)는, 언어 해석용 데이터베이스(306)를 이용하여 입력 텍스트 데이터를 해석하고, 액센트 구마다 피치 패턴 목표 데이터와 기간 길이 데이터를 생성한다. 언어 해석은, 기존의 형태소 해석 방법(morpheme analysis method)을 이용하여 이루어진다.

피치 패턴 목표 데이터는, 음절열, 음소, 및 단어로 이루어진 음운 정보를 적어도 포함한다. 또한, 피치 패턴 목표 데이터는, 포즈 위치(pause positions), 모라수(number of moras), 액센트 형(accent types), 액센트 구의 단락(accent phrase delimiters), 및 문(text) 중에서의 액센트 구의 위치(accent phrase positions) 등의 정보를 포함하는 것이어도 된다.

도 6은 본 예시적인 실시예에 따른 피치 패턴 생성부(104)의 상세한 구성예를 도시한다. 도 7은 이 피치 패턴 생성부(104)의 동작을 도시한다. 피치 패턴 생성부(104)는, 원발화 패턴 선택부(303)와, 표준 패턴 선택부(304)와, 패턴 접속부(305)를 포함한다.

원발화 패턴 선택부(303)는, 피치 패턴 목표 데이터 및 원발화 패턴 기억부(103) 내에 기억되어 있는 원발화 패턴의 음운 정보, 액센트 위치 등에 기초하여, 피치 패턴 내에서 사용될 원발화 패턴을 선택한다(도 7 스텝 S201).

원발화 패턴 선택부(303)가 원발화 패턴을 선택하게 하는 방법을 구체예를 이용하여 설명한다.

원발화 패턴 기억부(103)에는, 원발화 패턴 및 발성 내용을 나타내는 음절열 데이터가 기억되어 있다. 원발화 패턴 각각은, 수록된 음성의 피치 주파수의 미세 변화를 포함하는 피치 패턴을 충실하게 재현하며, 시각 정보와 피치 주파수의 값을 갖는 절점(nodes)에 의해 표현된다. 원발화 패턴 기억부(103)에는, [kadoushiteinakereba (kadoushiteina"kereba)]이라고 하는 발화 내용의 수록된 음성을 표현하는 원발화 패턴이 기억되어 있는 것으로 가정한다. ["]는 표준어에서의 액센트 위치를 나타내고 있다.

원발화 패턴 선택부(303)는, 원발화 패턴 기억부(103)에 기억되어 있는 음절열 정보에 기초하여 원발화 패턴을 검색하고, 피치 패턴 목표 데이터와 일치하는 원발화 패턴을 선택한다. 예를 들면, 텍스트 데이터로서 [sadoushiteinakatta] 이 입력되었다고 하면, 피치 패턴 목표 데이터가 나타내는 음절열은 [sadoushiteina"katta]으로 된다. 원발화 패턴 선택부(303)는, 원발화 패턴 기억부(103) 내의 원발화 패턴 데이터로부터, 음절열 및 액센트 위치가 피치 패턴 목표 데이터의 음절열 및 액센트 위치와 일치하는 부분을 검색한다.

상기의 예의 경우, [kadoushiteina"kereba]의 [doushiteina"]의 부분에서 음절열 및 액센트 위치 둘 다가 일치하고 있다. 따라서, 검색 결과로서 획득된 부분은, 원발화 패턴으로서 사용할 수 있다. 이와 같이 하여, 그 액센트 구 내의 원발화 패턴이 선택된다. 액센트 구에서의 원발화 패턴이 사용되는 구간이 결정되면, 그 액센트 구의 그 밖의 구간에서는 표준 패턴이 사용됨을 유의한다. 따라서, 표준 패턴이 사용되는 구간도 동시에 결정되게 된다.

표준 패턴 기억부(102)는, 표준 패턴을 기억하고 있다. 각 표준 패턴은, 원발화 패턴 보다 훨씬 적은 수의 절점을 포함하고, 음절열에 의존하지 않는 표준 피치 패턴을 표현한다. 표준 패턴은, 원발화 패턴과 마찬가지로, 시각 정보와 피치 주파수의 값을 갖는 절점에 의해 표현된다.

표준 패턴 선택부(304)는, 원발화 패턴 선택부(303)에 의해 결정된 표준 패턴의 구간에서 사용할 표준 패턴을, 표준 패턴 기억부(102) 내에 기억되어 있는 표준 패턴으로부터 선택한다(스텝 S202). 표준 패턴 선택부(304)는, 피치 패턴 목표 데이터에 포함되는 액센트 구의 모라수와 액센트 형에 기초하여, 일치하는 표준 패턴을 선택한다.

패턴 접속부(305)는, 원발화 패턴 선택부(303)에 의해 선택된 원발화 패턴과 표준 패턴 선택부(304)에 의해 선택된 표준 패턴을 접속함으로써, 그 액센트 구의 피치 패턴을 생성한다(스텝 S203). 표준 패턴을 변형함으로써, 원발화 패턴과 표준 패턴이 원활하게 접속된다.

도 8에, 상술한 [sadoushiteinakatta]의 예에 대해서, 표준 패턴과 원발화 패턴의 접속예를 나타낸다. 도 8을 참조하면, 참조 부호 700은 표준 패턴을, 참조 부호 701은 원발화 패턴을 나타낸다. 도 8에 도시한 바와 같이, 선두의 [sa] 및 말미의 [katta] 이 표준 패턴 구간에 대응한다. [Doushiteina] 이 원발화 패턴 구간에 대응한다. 표준 패턴과 원발화 패턴이 끝점에서 원활하게 접속되어 있다. 표준 패턴과 원발화 패턴을 접속하기 위해, 표준 패턴의 끝점 피치 주파수와 이에 접속하는 원발화 패턴의 끝점 피치 주파수가 일치하도록 피치 주파수축 방향으로 표준 패턴을 평행 이동시킨(translate)다.

도 9는 피치 패턴의 절점 위치를 나타내는 그래프를 나타낸다. 도 9에 도시된 피치 패턴 상에 배치된 흑점(70)은, 피치 패턴을 표현하는 절점을 나타내고 있다. 참조 부호 800은 표준 패턴 구간(800)을, 참조 부호 801은 원발화 패턴 구간을 나타낸다. 도 9를 참조하면, 표준 패턴 구간에서는 절점이 성긴 것에 비해, 원발화 패턴 구간에서는 매우 밀하게 절점이 배치된다. 따라서, 표준 패턴 구간에서는, 절점간의 피치 패턴에 대해서 보간을 할(interpolate) 필요가 있다. 그러나, 원발화 패턴 구간에서는, 보간하지 않고 수록된 음성을 재현한다. 패턴 접속부(305)는 표준 패턴을, 예를 들어, 스플라인 함수(spline function)를 이용하여 보간할 수 있다.

기간 길이 생성부(302)는, 언어 해석부(301)에 의해 생성된 기간 길이 데이터에 기초하여, 음절열의 기간 길이를 생성한다.

단위 파형 선택부(106)는 기간 길이 생성부(302)에 의해 생성된 기간 길이 데이터와 피치 패턴 생성부(104)에 의해 생성된 피치 패턴을 포함하는 운률 데이터에 기초하여, 단위 파형 기억부(105) 내에 기억된 단위 파형 데이터를 선택한다. 단위 파형 선택부(106)는 피치 패턴 내의 원발화 패턴 구간에 대해서는, 대응하는 단위 파형 데이터를 선택한다. 따라서, 단위를 선택할 때에는, 원발화 패턴 구간의 단위 파형과의 접속을 고려하여 표준 패턴 구간의 단위가 선택되게 된다.

음성 파형 생성부(107)는, 생성된 운률을 재현하도록, 단위 파형 선택부(106)에서 선택된 단위 파형 데이터를 편집함으로써 합성음을 생성한다.

본 예시적인 실시예를 이용하면, 원발화 패턴 구간에서는 대응하는 원발화 단위 파형을 수록된 음성이 재현되도록 이용한다. 그 밖의 구간에서는 피치 패턴의 개략 형상을 손상시키지 않도록 표준 패턴을 이용한다. 이는 안정된 피치 패턴을 생성하고, 수록된 음성에 필적하는 높은 자연성과 음질을 갖는 합성음을 생성하는 것을 가능하게 한다.

본 예시적인 실시예에서는, 원발화 패턴 기억부(103)에 원발화 패턴의 음절열 정보가 기억되어 있다. 그러나, 단위 파형 기억부(105)에 음절열 정보가 기억되어 있어도 되고, 또는 원발화 패턴 기억부(103)와 대응하는 (도시하지 않은) 다른 데이터베이스(단위 파형 음절열 정보 기억부)에 음절열 정보가 기억되어 있어도 된다. 원발화 패턴 기억부(103) 이외의 기억부에 원발화 패턴의 음절열 정보가 기억되어 있는 경우, 원발화 패턴 선택부(303)는, 단위 파형 기억부(105) 또는 단위 파형 음절열 정보 기억부를 참조하여 음절열을 결정한다.

본 예시적인 실시예에서는, 표준 패턴과 원발화 패턴을, 음절을 최소 단위로서 하여 구획하고 있다. 그 대신에 음소나 반음소를 최소 단위로 하여 구획하여도 된다. 반음소와 같이 세세한 단위를 이용하면, 보다 유연하게 원발화 패턴 구간과 표준 패턴 구간 간의 접속 지점을 설정할 수 있다.

표준 패턴과 원발화 패턴 간의 단락이, 단위 파형 기억부(105)에 기억되어 있는 최소 단위에 일치해야될 필요는 없다. 예를 들면, 단위 파형 기억부(105)에는, 최소 단위로 작용하는 반음소에 기초하여 단위 파형이 기억될 수 있고, 원발화 패턴과 표준 패턴의 절환이, 음절을 최소 단위로 하여 행해질 수 있다.

본 예시적인 실시예에서는, 표준 패턴을 변형(피치 주파수축 방향의 평행 이동)함으로써 표준 패턴과 원발화 패턴을 원활하게 접속하고 있다. 그러나, 원발화 패턴을 변형하여도 상관없다. 원발화 패턴을 변형하면, 표준 패턴의 변형만으로는 표준 패턴과 원발화 패턴을 원활하게 접속할 수 없는 경우에도 이에 대응할 수 있다.

본 예시적인 실시예에서는, 각 표준 패턴을 시각 정보와 피치 주파수의 값을 이용하여 기억하기 위한, 표준 패턴 기억부(102)가 제공된다. 그러나, 표준 패턴 기억부(102)를 제공하지 않고, F0 생성 모델(후지사키 모델(Fujisaki model)) 등의 모델을 이용하여, 표준 패턴을 생성하여도 된다.

[제5 예시적인 실시예]

그 다음, 본 발명의 제5 예시적인 실시예에 대해서 설명한다. 본 예시적인 실시예에 따른 음성 합성 장치의 전체 구성은 제4 예시적인 실시예와 동일하며, 피치 패턴 생성부(104)의 구성과 동작만이 다르다. 따라서, 피치 패턴 생성부(104)의 상세한 구성예만을, 도 10을 참조하여 설명한다.

본 예시적인 실시예의 피치 패턴 생성부(104)는, 원발화 패턴 선택부(303a)와, 표준 패턴 선택부(304a)와, 패턴 접속부(305a)와, 원발화 패턴 후보 검색부(307)와, 피치 패턴 결정부(308)를 포함한다. 본 예시적인 실시예의 피치 패턴 생성부(104)의 동작을 도 11에 도시한다.

원발화 패턴 후보 검색부(307)는, 피치 패턴 목표 데이터와 원발화 패턴 기억부(103)에 기억되어 있는 음절열 정보에 기초하여, 피치 패턴 목표 데이터와 일치하는 원발화 패턴의 후보를 검색한다(도 11 스텝 S301). 원발화 패턴 후보 검색부(307)는, 원발화 패턴 기억부(103) 내에, 관련하는 복수의 원발화 패턴이 기억되어 있는 경우, 관련하는 모든 후보를 표준 패턴 선택부(304a) 및 원발화 패턴 선택부(303a)에 출력한다. 본 예시적인 실시예에서는, 복수의 원발화 패턴이 후보로서 검색된 것이라 가정한다.

원발화 패턴 선택부(303a)는, 원발화 패턴 후보 검색부(307)에 의해 검색된 모든 원발화 패턴을 원발화 패턴의 후보로서 선택한다(스텝 S302). 제4 예시적인 실시예에서 설명한 바와 같이, 원발화 패턴 선택부(303a)가 원발화 패턴이 사용되는 구간을 결정하면, 표준 패턴이 사용되는 구간도 동시에 결정되게 된다.

표준 패턴 선택부(304a)는, 원발화 패턴 선택부(303a)에 의해 결정된 표준 패턴의 구간에서 사용할 표준 패턴의 후보를, 표준 패턴 기억부(102) 내에 기억되어 있는 표준 패턴으로부터 선택한다(스텝 S303). 표준 패턴 선택부(304a)의 동작은, 제4 예시적인 실시예의 표준 패턴 선택부(304)의 동작과 동일하다. 표준 패턴 선택부(304a)는, 표준 패턴의 후보의 선택을 원발화 패턴 선택부(303a)에 의해 선택된 원발화 패턴의 후보의 각각에 대해서 행한다.

패턴 접속부(305a)는, 원발화 패턴 선택부(303a)에 의해 선택된 원발화 패턴의 후보와 표준 패턴 선택부(304a)에 의해 선택된 표준 패턴의 후보를 접속함으로써, 피치 패턴의 후보를 생성한다(스텝 S304). 패턴 접속부(305a)의 동작은, 제4 예시적인 실시예의 패턴 접속부(305)의 동작과 동일하다. 단, 이 경우는 원발화 패턴을 변형(원발화 패턴을 피치 주파수축 방향으로 평행 이동)함으로써 원발화 패턴과 표준 패턴을 접속하고 있다. 패턴 접속부(305a)는, 이러한 피치 패턴 후보의 생성을, 원발화 패턴의 후보와 이에 대응하는 표준 패턴의 후보와의 조합의 각각에 대해서 행한다.

피치 패턴 결정부(308)는, 패턴 접속부(305a)에 의해 생성된 복수의 피치 패턴 후보로부터, 미리 설정된 선택 기준에 기초하여 최적의 피치 패턴을 결정한다(스텝 S305). 최적의 피치 패턴의 선택 기준에 대해서, 상세하게 설명한다. 피치 패턴 생성의 관점에서는, 표준 패턴과 원발화 패턴을 원활하게 접속하고, 목표 피치 패턴을 생성하기 위해, 원발화 패턴의 피치 주파수를 변경할 필요가 있다. 그러나, 단위 파형의 피치 주파수를 변경하여 파형을 편집하는 경우, 편집된 파형의 음질이 열화되는 것이 널리 알려져 있다. 따라서, 음질의 관점에서는, 원발화 패턴 구간의 피치 주파수의 변경량은 가능한 한 적게 해야 하는 것이다. 따라서, 복수의 피치 패턴 후보로부터 최적의 피치 패턴을 선택하기 위한 기준으로서, "원발화 패턴 구간의 피치 주파수 변경량이 가장 적은 피치 패턴 후보를 최적의 피치 패턴으로 선택함"이라고 하는 선택 기준을 이용한다.

본 예시적인 실시예를 이용하여, 원발화 패턴 기억부(103)에 조건을 만족하는 원발화 패턴이 복수 존재하고 있는 경우, 그 중에서 가장 피치 주파수 변경량이 적은 원발화 패턴을 사용한 피치 패턴을 선택한다. 이는 더 높은 자연성과 음질을 갖는 합성음을 생성하는 것을 가능하게 한다.

본 예시적인 실시예에서는, 패턴 접속부(305a)가 실제로 복수의 피치 패턴을 생성하고 나서, 피치 패턴 결정부(308)는 하나의 피치 패턴을 결정하고 있다. 그러나, 실제로 피치 패턴은 항상 생성될 필요가 있는 것은 아니다. 예를 들면, 원발화 패턴의 끝점에서의 피치 주파수의 변경량만을 계산하고, 변경량이 가장 적은 피치 패턴을 선택할 수 있다.

본 예시적인 실시예에서는, 원발화 패턴 후보 검색부(307)가 원발화 패턴의 후보수를 제한할 수 있다. 제한 방법으로서는, 음절열의 길이가 짧은 원발화 패턴 후보가 제외될 수 있다. 대안으로, 목표 피치 주파수를 계산하고, 목표 피치 주파수에 대한 차분값이 큰 원발화 패턴 후보가 제외될 수 있다. 이에 의해, 계산 부하를 경감하는 것이 가능하게 된다.

최적의 피치 패턴의 선택 기준으로서, "생성되는 액센트 구의 피치 패턴의 형상이, 액센트 구의 표준 패턴의 형상과 유사한 피치 패턴 후보가 보다 적합함"이라고 하는 기준이 더 추가될 수 있다. 이 기준을 이용하면, 생성된 피치 패턴의 개략 형상이, 표준 피치 패턴으로부터 크게 떨어지는 것을 방지하는 것이 가능하게 된다. 여기서, 패턴의 형상을 간단히 나타낸 정보, 예를 들면, 3점, 즉, 시점, 최고점, 종점의 피치 주파수와 시각 정보에 의해 나타내는 개략 형상을 이용하여 패턴 형상의 유사도를 판정하여도 된다. 간략화한 개략 형상을 선택 기준에 이용하면, 계산 부하를 경감하는 것이 가능하게 된다.

제1 예시적인 실시예∼제5 예시적인 실시예에서, 피치 패턴 생성부(104)는, 액센트 구의 표준 패턴을 먼저 선택해 두고, 후에 표준 패턴의 일부를 원발화 패턴으로 치환하도록 하여도 된다.

제1 예시적인 실시예∼제5 예시적인 실시예에서 각각 설명한 음성 합성 장치는, CPU, 기억 장치 및 인터페이스를 구비한 컴퓨터와 이들 하드웨어 자원을 제어하는 프로그램에 의해 실현할 수 있다. 이들 컴퓨터의 CPU는, 기억 장치에 기억된 프로그램에 따라서 제1 예시적인 실시예∼제5 예시적인 실시예에서 설명한 처리를 실행한다.

이상, 상기 예시적인 실시예를 참조하여 본 발명을 설명하였다. 그러나, 본 발명은, 상기 예시적인 실시예에만 한정되는 것은 아니다. 본 발명의 구성이나 상세는, 상기 예시적인 실시예를 적절하게 조합하여 이용하여도 되고, 또는 본 발명의 특허청구범위의 범주 내에서, 필요에 따라 변경할 수도 있다.

이 출원은, 2007년 10월 5일에 출원된 일본 특허 출원 제2007-261704호를 기초로 하고 이에 대한 우선권을 주장하고, 그 개시된 내용은 모두 여기에 참조로서 포함된다.

본 발명은, 음성 합성 기술에 적용할 수 있다.

Claims

적어도 음절, 음소, 및 단어로 이루어지는 음운 정보를 포함하는 피치 패턴 목표 데이터에 기초하여, 원발화 패턴보다 절점의 개수가 적고 음절열에 의존하지 않는 표준 패턴과 수록된 음성의 피치 패턴을 표현하는 원발화 패턴을 조합함으로써 피치 패턴을 생성하기 위한 피치 패턴 생성 수단과,
상기 생성된 피치 패턴에 기초하여 단위 파형 데이터를 선택하고, 이 선택 시에 상기 원발화 패턴을 사용하는 구간에서 상기 원발화 패턴에 대응하는 원발화 단위 파형 데이터를 선택하기 위한 단위 파형 선택 수단과,
상기 생성된 피치 패턴에 의해 나타나는 운률을 재현하도록, 상기 선택된 단위 파형 데이터를 편집함으로써 합성 음성을 생성하기 위한 음성 파형 생성 수단과,
상기 원발화 패턴과 상기 원발화 패턴에 대응하는 음절열 정보를 기억하기 위한 원발화 패턴 기억 수단을 포함하고,
상기 피치 패턴 생성 수단은,
적어도 상기 피치 패턴 목표 데이터와 상기 원발화 패턴 기억 수단에 기억된 음절열 정보에 기초하여 상기 원발화 패턴을 선택하기 위한 원발화 패턴 선택 수단과,
상기 표준 패턴을 사용하는 구간에서 상기 피치 패턴 목표 데이터에 기초하여 상기 표준 패턴을 선택하기 위한 표준 패턴 선택 수단과,
상기 원발화 패턴 선택 수단에 의해 선택된 원발화 패턴과 상기 표준 패턴 선택 수단에 의해 선택된 표준 패턴을 접속하여, 상기 피치 패턴을 생성하기 위한 패턴 접속 수단을 포함하는 음성 합성 장치.
제1항에 있어서,
상기 단위 파형 선택 수단은, 상기 표준 패턴을 사용하는 구간에서 상기 원발화 단위 파형과는 다른 단위 파형 데이터를 선택하는 음성 합성 장치.
제1항에 있어서,
상기 피치 패턴 생성 수단은 상기 원발화 단위 파형 데이터의 특징량(feature amount)에 기초하여, 상기 표준 패턴과 상기 원발화 패턴의 구성을 결정하며,
상기 원발화 단위 파형 데이터의 특징량으로서, 적어도 피치 주파수를 포함하는 음성 합성 장치.
제3항에 있어서,
상기 피치 패턴 생성 수단은 상기 원발화 패턴 구간에서, 단위 파형 데이터의 특징량의 변경량이 최소로 되도록 상기 표준 패턴과 상기 원발화 패턴의 구성을 결정하는 음성 합성 장치.
제1항에 있어서,
상기 피치 패턴 생성 수단은 전체 액센트 구의 표준 패턴의 일부를 상기 원발화 패턴으로 치환하는 음성 합성 장치.
제1항에 있어서,
입력 텍스트 데이터의 언어를 해석(analyzing)하고, 상기 피치 패턴 목표 데이터를 생성하기 위한 언어 해석 수단을 더 포함하는 음성 합성 장치.
삭제
적어도 음절, 음소, 및 단어로 이루어지는 음운 정보를 포함하는 피치 패턴 목표 데이터에 기초하여, 원발화 패턴보다 절점의 개수가 적고 음절열에 의존하지 않는 표준 패턴과 수록된 음성의 피치 패턴을 표현하는 원발화 패턴을 조합하여 피치 패턴을 생성하는 피치 패턴 생성 스텝과,
상기 생성된 피치 패턴에 기초하여 단위 파형 데이터를 선택하고, 이 선택 시에 상기 원발화 패턴을 사용하는 구간에서 상기 원발화 패턴에 대응하는 원발화 단위 파형 데이터를 선택하는 단위 파형 선택 스텝과,
상기 생성된 피치 패턴에 의해 나타나는 운률을 재현하도록, 상기 선택된 단위 파형 데이터를 편집함으로써 합성 음성을 생성하는 음성 파형 생성 스텝과,
상기 원발화 패턴과 상기 원발화 패턴에 대응하는 음절열 정보를 기억하기 위한 원발화 패턴 기억 스텝을 포함하고,
상기 피치 패턴 생성 스텝은,
적어도 상기 피치 패턴 목표 데이터와 상기 원발화 패턴 기억 스텝에서 기억된 음절열 정보에 기초하여 상기 원발화 패턴을 선택하기 위한 원발화 패턴 선택 스텝과,
상기 표준 패턴을 사용하는 구간에서 상기 피치 패턴 목표 데이터에 기초하여 상기 표준 패턴을 선택하기 위한 표준 패턴 선택 스텝과,
상기 원발화 패턴 선택 스텝에서 선택된 원발화 패턴과 상기 표준 패턴 선택 스텝에서 선택된 표준 패턴을 접속하여, 상기 피치 패턴을 생성하기 위한 패턴 접속 스텝을 포함하는 음성 합성 방법.
제8항의 음성 합성 방법을 컴퓨터로 하여금 실행하게 하는 음성 합성 프로그램을 저장하는 컴퓨터 판독가능 기억 매체.