KR20130042492A

KR20130042492A - 파라미터 음성 합성 방법 및 시스템

Info

Publication number: KR20130042492A
Application number: KR20127031341A
Authority: KR
Inventors: 펜리앙 우; 젠후아 지
Original assignee: 고어텍 인크
Priority date: 2011-08-10
Filing date: 2011-10-27
Publication date: 2013-04-26
Also published as: CN102385859B; US20130066631A1; US8977551B2; CN102385859A; CN102270449A; JP2013539558A; EP2579249A4; EP2579249A1; EP2579249B1; KR101420557B1; JP5685649B2; WO2013020329A1; DK2579249T3

Abstract

본 발명은 파라미터 음성 합성 방법과 시스템을 제공하는 바, 해당 방법은 입력한 텍스트의 음소 서열 중 각 음소의 각 프레임의 음성에 대해 차례대로, 현재 음소에 대해 통계 모형 베이스 중에서 대응하는 통계 모형을 뽑아내고, 해당 통계 모형이 현재 음소의 현재 프레임 하에서 알맞은 모형 파라미터를 현재 예측한 음성 파라미터의 근사치로 하는 처리와; 근사치와 현재 시각 전의 미리 결정된 수의 음성 프레임의 정보를 이용하여, 현재 예측한 음성 파라미터의 스무딩 값을 얻는 처리; 통계로 얻은 음성 파라미터의 전역 평균치와 전역 표준편차의 비율을 기초로, 음성 파라미터의 스무딩 값에 대해 전역 최적화를 진행하고 사용하는 음성 파라미터를 생성하는 처리; 및 생성한 상기 음성 파라미터에 대해 합성을 진행하여 현재 음소의 현재 프레임에 대해 합성을 진행한 하나의 프레임의 음성을 얻는 처리;를 진행한다. 본 방법을 이용하여 음성 합성이 사용하는 RAM은 합성 음성의 길이가 증가됨에 따라 증가되지 않도록 할 수 있고, 합성 음성의 시간 길이는 더 이상 RAM의 제한을 받지 않도록 한다.

Description

파라미터 음성 합성 방법 및 시스템{PARAMETRIC SPEECH SYNTHESIS METHOD AND SYSTEM}

본 발명은 파라미터 음성 합성 기술 분야에 관한 것으로, 보다 상세하게는 하나의 임의의 시간 길이의 음성을 연속 합성하는 파라미터 음성 합성 방법 및 시스템에 관한 것이다.

음성 합성은 기계, 전자적 방법을 통해 인공 음성을 만들게 되는데, 이는 인간-기계 인터페이스를 더욱 자연스럽게 하는 하나의 중요한 기술이다. 현재 자주 사용하는 음성 합성 기술은 두 가지 종류가 있는 바, 하나의 종류는 유닛을 기초로 선택하고 파형을 이어 맞추는 음성 합성 방법이고, 다른 하나의 종류는 음향 통계 모형에 기초한 파라미터 음성 합성 방법이다. 파라미터 음성 합성 방법은 저장 공간에 대한 요구가 상대적으로 작기 때문에, 소형 전자 설비에 응용하는데 더욱 적합하다.

파라미터 음성 합성 방법은 훈련과 합성의 2가지 단계로 나누어진다. 훈련 단계에서는, 도 1을 참고하면, 우선 코퍼스 중의 모든 음성의 음향 파라미터를 뽑아내게 되는데, 이는 스태틱 파라미터, 예컨대 스펙트럼 인벨로프 파라미터, 유전자 주파수 파라미터와 다이내믹 파라미터, 예컨대 스펙트럼 인벨로프 파라미터, 유전자 주파수 파라미터의 일차 및 이차 차분 파라미터를 포함하고; 그 다음 각 음소를 위해 그 상하 문장의 주석 정보를 기초로 대응하는 음향 통계 모형을 훈련해냄과 동시에 완전한 코퍼스에 대한 전역 분산 모형을 훈련해 내며; 최종적으로 모든 음소의 음향 통계 모형 및 전역 분산 모형이 모듈 베이스를 구성한다.

합성 단계에서는 층을 나누어 오프라인으로 하여 처리하는 방식을 사용하여 음성의 합성을 진행한다. 도 1에 도시된 바와 같이, 제1층: 입력한 완전한 단락의 텍스트를 분석하여 상하 문장 정보를 가진 모든 음소를 얻고 음소 서열을 구성하고; 제2층: 훈련을 거친 모듈 베이스 중에서 음소 서열 중의 각 음소와 대응하는 모듈을 뽑아내어 모듈 서열을 구성하고; 제3층: 최대 우도 알고리즘을 사용하여 모듈 서열 중에서 각 프레임의 음성에 대응하는 음향 파라미터를 예측해 내고 음성 파라미터 서열을 구성하고; 제4층: 전역 분산 모형을 사용하여 음성 파라미터 서열에 대해 전체적으로 최적화를 진행하고; 제5층: 최적화한 모든 음성 파라미터 서열을 파라미터 음성 합성기에 입력하여 최종적인 합성 음성을 생성하는 것을 포함한다.

본 발명의 발명인은 본 발명을 실현하는 과정 중에, 현존하는 기술 중에는 적어도 아래와 같은 결함이 존재하는 것을 발견하였다.

현존하는 파라미터 음성 합성 방법은 합성 단계의 층을 나누는 조작 중에서 하나의 횡 방향의 처리 방식을 사용하고, 그 방식은 바로 모든 통계 모형의 파라미터를 꺼내고 최대 우도 알고리즘으로 모든 프레임을 생성하는 스무딩 파라미터를 예측하며, 전역 분산 모형으로 모든 프레임의 최적화 파라미터를 얻으며, 나중에 파라미터 합성기에서 모든 프레임의 음성을 출력하는 것으로, 즉 각 층은 전부 모든 프레임의 관련 파라미터를 보존하는 것을 필요로 하고 있기 때문에, 음성을 합성할 때 사용하는 랜덤 액세스 메모리(Random Access Memory，RAM)의 용량은 합성 음성의 시간 길이의 증가에 따라 정비례로 증가하지만, 칩 상에서 RAM의 크기는 고정되고, 많은 응용 중에서 칩의 RAM은 100K바이트 보다 작은 바, 현존하는 파라미터 음성 합성 방법은 작은 RAM을 가지고 있는 칩 상에서 임의의 시간 길이의 음성을 연속하여 합성할 수 없다.

이하, 상기 합성 단계 중의 제3층과 제4층의 조작과 관련하여, 상기 문제를 야기시킨 원인에 대해 더욱 상세하게 설명한다.

상기 합성 단계의 제3층 조작 중에서, 도 4를 참조하면, 최대 우도 알고리즘을 응용하여 모듈 서열 중에서 음성 파라미터 서열을 예측해 내는 실시 과정은 반드시 프레임 바이 프레임으로 앞쪽으로 되풀이하는 것과 뒤쪽으로 되풀이하는 두가지 절차를 통하여 실현된다. 첫 번째 절차의 되풀이 과정이 끝난 후, 각 프레임의 음성을 위해 대응하는 임시 파라미터를 생산한다. 모든 프레임의 임시 파라미터를 다시 두 번째 절차의 뒤쪽으로 되풀이하는 과정에 입력해야만이 필요한 파라미터 서열을 예측해 낼 수 있다. 합성 음성의 시간 길이가 길수록 대응하는 음성의 프레임수가 많으며, 각 프레임의 음성 파라미터를 예측할 때 모두 하나의 프레임의 대응하는 임시 파라미터가 생산된다. 모든 프레임의 임시 파라미터는 반드시 RAM 중에 보존하여야 만이 두 번째 절차의 되풀이하는 예측 과정을 완성할 수 있으며, 이로 인하여 작은 RAM을 가진 칩 상에서 임의의 시간 길이의 음성을 연속하여 합성할 수 없게 된다.

그리고, 제4층 중의 조작은 제3층이 출력한 모든 프레임의 음성 파라미터 중에서 평균치와 분산을 계산해 내는 것을 필요로 하고, 또 전역 분산 모형을 응용하여 음성 파라미터의 스무딩 값에 대해 전체적인 최적화를 진행하고 최종적인 음성 파라미터를 생성한다. 따라서, 적당한 프레임수의 RAM은 제3층이 출력한 모든 프레임의 음성 파라미터를 보존하는 것을 사용하고 있으며, 마찬가지로 작은 RAM을 가진 칩 상에서 임의의 시간 길이의 음성을 연속하여 합성할 수 없게 한다.

본 발명은 상기 점을 감안하여 발명된 것으로, 원래의 음성 합성 과정 중에서 사용하는 RAM의 크기가 합성 음성의 길이에 따라 정비례로 증가함에 따라 작은 RAM의 칩 상에서 임의의 시간 길이의 음성을 연속하여 합성할 수 없다는 문제를 해결할 수 있도록 된 파라미터 음성 합성 방법 및 시스템을 제공함에 그 목적이 있다.

본 발명의 하나의 태양에 따라 하나의 파라미터 음성 합성 방법을 제공하고, 이는 훈련 단계와 합성 단계를 포함하며, 그 중에서 상기 합성 단계는 구체적으로,

입력한 텍스트의 음소 서열 중 각 음소의 각 프레임의 음성에 대해 차례대로,

입력한 텍스트의 음소 서열 중 현재 음소에 대해, 통계 모형 베이스 중에서 대응하는 통계 모형을 뽑아내고, 해당 통계 모형이 현재 음소의 현재 프레임 하에서 알맞은 모형 파라미터를 현재 예측한 음성 파라미터의 근사치로 하는 처리와;

상기 근사치와 현재 시각 전의 미리 결정된 수의 음성 프레임의 정보를 이용하여, 상기 근사치에 대해 필터링을 진행하고 현재 예측한 음성 파라미터의 스무딩 값을 얻는 처리;

통계로 얻은 상기 음성 파라미터의 전역 평균치와 전역 표준편차의 비율을 기초로 상기 현재 예측한 음성 파라미터의 스무딩 값에 대해 전역 최적화를 진행하고 필요한 음성 파라미터를 생성하는 처리; 및

생성한 상기 음성 파라미터에 대해 합성을 진행하여 현재 음소의 현재 프레임에 대해 합성을 진행한 하나의 프레임의 음성을 얻는 처리;를 진행한다.

그 중에서 바람직한 방안은, 상기 근사치와 바로 앞의 시각의 음성 프레임의 정보를 이용하여 상기 근사치에 대해 필터링을 진행하고, 이로 인하여 현재 예측한 음성 파라미터의 스무딩 값을 얻으며, 해당 바로 앞의 시각의 음성 프레임의 정보는 바로 앞의 시각에 예측한 음성 파라미터의 스무딩 값이다.

그 외, 바람직한 방안은, 하기의 식

(여기서,

는 t시각의 음성 파라미터가 최적화하기 전의 스무딩 값이고,

는 초기적으로 최적화한 후의 값이고, w는 가중치이고,

는 전역 최적화한 후에 얻은 필요로 되는 음성 파라미터이고, r은 통계로 얻은 예측한 음성 파라미터의 전역 표준편차의 비율이고, m은 통계로 얻은 예측한 음성 파라미터의 전역 평균치이고, r과 m의 취하는 값은 상수임)

을 이용하여, 통계로 얻은 상기 음성 파라미터의 전역 평균치와 전역 표준편차의 비율을 기초로 상기 현재 예측한 음성 파라미터의 스무딩 값에 대해 전역 최적화를 진행하고 필요한 음성 파라미터를 생성한다.

더욱이, 본 방법은 또한 서브밴드의 유성음 음도 파라미터를 이용하여 유성음 서브밴드 필터와 무성음 서브밴드 필터를 구성하고; 기본음 주파수 파라미터로 구성된 준 주기적 펄스 서열을 상기 유성음 서브밴드 필터를 통과시켜 음성 신호의 유성음 성분을 얻으며; 백색 소음으로 구성된 랜덤 서열을 상기 무성음 서브밴드 필터를 거쳐 음성 신호의 무성음 성분을 얻으며; 상기 유성음 성분과 무성음 성분을 가하여 혼합 여기신호를 얻으며; 상기 혼합 여기신호를 스펙트럼 인벨로프 파라미터로 구성된 필터를 통과하게 한 후 하나의 프레임으로 합성된 음성 파형을 출력하는 것을 포함한다.

더욱이 본 방법은, 상기 합성 단계 전에 훈련 단계를 더 포함하고,

훈련 단계에서, 코퍼스에서 뽑아낸 음향 파라미터는 스태틱 파라미터만을 포함하거나, 코퍼스에서 뽑아낸 음향 파라미터는 스태틱 파라미터와 다이내믹 파라미터를 포함하며, 훈련 후 얻은 통계 모형의 모형 파라미터 중에는 단지 스태틱 파라미터 모형의 파라미터만을 보유하며;

합성 단계에서, 상기 현재 음소을 기초로, 훈련단계에서 얻은 상기 통계 모형이 현재 음소의 현재 프레임 하에서 알맞은 스태틱 모형 파라미터를 현재 예측한 음성 파라미터의 근사치로 한다.

본 발명의 다른 하나의 태양을 기초로, 하나의 파라미터 음성 합성 시스템을 제공하고,

합성 단계에 입력한 텍스트의 음소 서열 중 각 음소의 각 프레임의 음성에 대해 차례대로 음성 합성을 진행하는 순환 합성 장치를 포함하며;

상기 순환 합성 장치는,

입력한 텍스트의 음소 서열 중의 현재 음소에 대해, 통계 모형 베이스 중에서 대응하는 통계 모형을 뽑아내고, 해당 통계 모형이 현재 음소의 현재 프레임 하에서 알맞은 모형 파라미터를 현재 예측한 음성 파라미터의 근사치로 하는데 이용되는 대략 검색 유닛과;

상기 근사치와 현재 시각 전의 미리 결정된 수의 음성 프레임의 정보를 이용하여, 상기 근사치에 대해 필터링을 진행하고 현재 예측한 음성 파라미터의 스무딩 값을 얻는데 이용되는 스무딩 필터링 유닛;

통계로 얻은 상기 음성 파라미터의 전역 평균치와 전역 표준편차의 비율을 기초로, 상기 현재 예측한 음성 파라미터의 스무딩 값에 대해 전역 최적화를 진행하고 사용하는 음성 파라미터를 생성하는데 이용되는 전역 최적화 유닛; 및

생성한 상기 음성 파라미터에 대해 합성을 진행하여 현재 음소의 현재 프레임에 대해 합성을 진행한 하나의 프레임의 음성을 얻는데 이용되는 파라미터 음성 합성 유닛을 포함한다.

더욱이, 상기 스무딩 필터링 유닛은 저역 통과 필터 그룹을 포함하고, 상기 근사치와 바로 앞의 시각의 음성 프레임의 정보를 이용하여 상기 근사치에 대해 필터링을 진행하여, 현재 예측한 음성 파라미터의 스무딩 값을 얻는데 이용되고, 해당 바로 앞의 시각의 음성 프레임의 정보는 바로 앞의 시각에 예측한 음성 파라미터의 스무딩 값이다.

더욱이, 상기 전역 최적화 유닛은 전역 파라미터 옵티마이저를 포함하고, 하기의 식

(여기서,

는 초기적으로 최적화한 후의 값이고, w는 가중치이고,

을 이용하여, 통계로 얻은 상기 음성 파라미터의 전역 평균치와 전역 표준편차의 비율을 기초로, 상기 현재 예측한 음성 파라미터의 스무딩 값에 대해 전역 최적화를 진행하고 필요한 음성 파라미터를 생성한다.

더욱이, 상기 파라미터 음성 합성 유닛은,

서브밴드의 유성음 음도 파라미터를 이용하여 유성음 서브밴드 필터와 무성음 서브밴드 필터를 구성하는데 이용되는 필터 구성 모듈과;

기본음 주파수 파라미터로 구성된 준 주기적 펄스 서열에 대해 필터링을 진행하여 음성 신호의 유성음 성분을 얻는데 이용되는 유성음 서브밴드 필터;

백색 소음으로 구성된 랜덤 서열에 대해 필터링을 진행하여 음성 신호의 무성음 성분을 얻는데 이용되는 무성음 서브밴드 필터;

상기 유성음 성분과 무성음 성분을 가하여 혼합 여기신호를 얻는데 이용되는 가산기; 및

상기 혼합 여기신호를 스펙트럼 인벨로프 파라미터로 구성된 필터에 통과시킨 후 하나의 프레임의 합성한 음성 파형을 출력하는데 이용되는 합성 필터;를 포함한다.

더욱이, 상기 시스템은 훈련 장치를 더 포함하며, 이 장치는 훈련 단계에 코퍼스 중에서 뽑아낸 음향 파라미터가 스태틱 파라미터만을 포함하거나, 코퍼스 중에서 뽑아낸 음향 파라미터가 스태틱 파라미터와 다이내믹 파라미터를 포함하며, 훈련 후에 얻은 통계 모형의 모형 파라미터 중에는 스태틱 모형 파라미터만을 보유하며;

상기 대략 검색 유닛은 구체적으로 합성 단계 중에, 상기 현재 음소를 기초로 훈련 단계 중에서 얻은 상기 통계 모형이 현재 음소의 현재 프레임 하에서 알맞은 스태틱 모형 파라미터를 현재 예측한 음성 파라미터의 근사치로 하는데 이용된다.

상기한 바와 같이, 본 발명의 실시예에 따른 기술은 현재 프레임 전의 음성 프레임의 정보와 사전에 통계로 얻은 음성 파라미터의 전역 평균치와 전역 표준편차의 비율 등의 기술 방법을 이용하여, 하나의 신규한 파라미터 음성 합성 방안을 제공한다.

본 발명이 제공하는 파라미터 음성 합성 방법과 시스템은 종적 처리의 합성 방법을 사용하는 바, 즉 각 프레임 음성의 합성은 모두 통계 모형 근사치를 뽑아내고, 필터링하여 스무딩 값을 얻으며, 전역 최적화를 거쳐 최적화 값을 얻으며, 파라미터 음성 합성을 통해 음성을 얻는 네가지 절차를 거쳐야 하고, 그 후의 각 프레임 음성의 합성은 모두 이 네가지 절차를 재차 반복하고, 이로 인하여 파라미터 음성 합성 처리 과정 중에서 현재 프레임이 사용하는 고정 저장 용량의 파라미터만을 보존하면 되며, 음성 합성이 사용하는 RAM은 합성 음성의 길이가 증가됨에 따라 증가하지 않고 합성 음성의 시간 길이가 RAM의 제한을 더 이상 받지 않게 된다.

그 외, 본 발명 중에서 사용하는 음향 파라미터는 스태틱 파라미터이고, 모형 베이스 중에도 단지 각 모형의 스태틱 평균치 파라미터만을 보존하며, 이로 인하여 통계 모형 베이스의 크기를 효과적으로 감소시킬 수 있다.

그리고, 본 발명은 음성을 합성하는 과정 중에 다수의 서브밴드의 무성음과 유성음의 혼합 여기를 사용하고, 각 서브밴드 중의 무성음과 유성음이 유성음 음도를 기초로 혼합을 진행하며, 이로 인하여 무성음과 유성음이 더 이상은 시간 상에서 명확한 하드 경계가 없으며 음성 합성 후의 음질의 분명한 기형적 변화를 회피하였다.

본 방법은 비교적 높은 연속성, 일치성 및 자연도를 가진 음성을 합성해 낼 수 있으며, 음성 합성 방법이 작은 저장 공간의 칩에서의 일반화와 응용에 도움이 된다.

상기 목적 및 관련된 목적을 실현하기 위하여, 본 발명의 하나 또는 여러 방면은 이후 상세히 설명되고 청구항에서 특별히 지적할 특징을 포함한다. 이하의 설명과 도면은 본 발명의 일부의 예시적인 면을 상세히 설명한다. 하지만 이러한 면이 제시하는 것은 단지 본 발명의 원리를 사용하는 여러 가지 방식 중의 일부분 방식이다. 그 외 본 발명의 취지는 모든 이러한 면과 그들의 동일물을 포함한다.

이하의 도면과 관련된 설명과 청구항의 내용을 참조하는 것을 통해, 또한 본 발명에 대한 더욱 전면적인 이해에 따라 본 발명의 기타 목적과 결과는 더욱 명백해지고 이해하기 쉽게 된다. 도면 중에서,
도 1은 현존하는 기술 중에서 다이내믹 파라미터와 최대 우도 규칙에 기초한 파라미터 음성 합성 방법의 단계별 설명도,
도 2는 본 발명의 하나의 실시예에 따른 파라미터 음성 합성 방법의 흐름도,
도 3은 본 발명의 하나의 실시예에 따른 파라미터 음성 합성 방법의 단계별 설명도,
도 4는 현존하는 기술 중에서 다이내믹 파라미터에 기초한 최대 우도 파라미터의 예측 설명도,
도 5는 본 발명의 하나의 실시예에 따른 스태틱 파라미터에 기초한 필터링 스무딩 파라미터의 예측 설명도,
도 6은 본 발명의 하나의 실시예에 기초한 혼합 여기에 기초한 합성 필터의 설명도,
도 7은 현존하는 기술 중에서 무성음/유성음의 판단에 기초한 합성 필터링의 설명도,
도 8은 본 발명의 다른 하나의 실시예에 따른 파라미터 음성 합성 시스템의 블록도,
도 9는 본 발명의 다른 하나의 실시예에 따른 파라미터 음성 합성 유닛의 논리 구조 설명도,
도 10은 본 발명의 또 하나의 실시예에 따른 파라미터 음성 합성 방법의 흐름도,
도 11은 본 발명의 또 하나의 실시예에 따른 파라미터 음성 합성 시스템의 구조 설명도이다.
모든 도면 중에서 같은 참조부호는 서로 동일하거나 대응하는 특징 또는 공통적 기능을 나타낸다.

이하 예시도면을 참조하면서 본 발명에 따른 구체적인 실시예에 대해 상세하게 설명한다.

도 2는 본 발명의 하나의 실시예에 따른 파라미터 음성 합성 방법에 기초한 흐름도를 나타낸다.

도 2에 나타낸 바와 같이, 본 발명이 제공하는 임의의 시간 길이의 음성을 연속하여 합성할 수 있는 파라미터 음성 합성 방법의 구현은 아래와 같은 절차를 포함한다.

S210：입력한 텍스트를 분석하고 입력한 텍스트에 대한 분석을 기초로 상하 문장의 정보를 포함한 음소 서열을 얻어 취한다.

S220：상기 음소 서열 중의 하나의 음소를 차례대로 꺼내고, 통계 모형 베이스 중에서 상기 음소의 각각의 음향 파라미터가 대응하는 통계 모형을 검색하며, 프레임에 따라 상기 음소의 각각의 통계 모형을 꺼내어 합성을 기다리는 음성 파라미터의 근사치로 한다.

S230：필터 그룹을 사용하여 상기 합성을 기다리는 음성 파라미터의 근사치에 대해 파라미터 스무딩을 진행하고, 스무딩 후의 음성 파라미터를 얻는다.

S240：전역 파라미터 옵티마이저를 사용하여 상기 스무딩 후의 음성 파라미터에 대해 전역 파라미터 최적화를 진행하고, 최적화 후의 음성 파라미터를 얻는다.

S250：파라미터 음성 합성기를 이용하여 상기 최적화 후의 음성 파라미터에 대해 합성을 진행하고, 하나의 프레임의 합성 음성을 출력한다.

S260：상기 음소의 모든 프레임이 전부 처리를 완성하였는가에 대해 판단을 진행하고, 만약 완성하지 못했을 경우 상기 음소 서열 중의 모든 음소의 모든 프레임이 처리를 완성할 때까지 상기 음소의 그 다음의 프레임에 대해 절차 S220～S250의 음성 합성 처리를 반복한다.

더욱 명확하게 본 발명의 파라미터 음성 합성 기술에 대해 설명하기 위해, 본 발명의 기술적 특징을 강조하는 방식으로 아래에서 단계를 나누고 절차를 나누어 현존하는 기술 중의 파라미터 음성 합성 방법에 대해 차례대로 대비 설명을 수행한다.

도 3은 본 발명의 실시예에 따른 파라미터 음성 합성 방법의 단계별 설명도이다. 도 3에 도시된 바와 같이, 현존하는 기술 중의 다이내믹 파라미터와 최대 우도 규칙에 기초한 파라미터 음성 합성 방법과 유사하고, 본 발명의 파라미터 음성 합성의 구현 역시 훈련과 합성 두가지 단계를 포함한다. 그 중에서 훈련 단계는 코퍼스 중의 음성 정보를 통해 음성의 음향 파라미터를 뽑아내고, 뽑아낸 음향 파라미터을 기초로 각 음소가 각 상하 문장 정보일 때 대응하는 통계 모형을 훈련해 내고, 합성 단계는 사용하는 음소의 통계 모형 베이스를 형성하는데 이용된다. 절차 S210～S260은 합성 단계에 속하고, 합성 단계에서는 주로 텍스트 분석, 파라미터 예측과 음성 합성 세 부분을 포함하며, 그 중에서 파라미터 예측 부분은 또한 목표 모형 검색, 파라미터 생성 및 파라미터 최적화의 세가지로 세분화할 수 있다.

우선, 훈련 단계에서 훈련 코퍼스의 음향 파라미터를 뽑아 내는 과정 중에 본 발명과 현존하는 파라미터 음성 합성 기술의 주요한 차이는 아래와 같다. 즉, 현존하는 기술 중에서 뽑아낸 음향 파라미터 중에는 다이내믹 파라미터를 포함하고 있으며, 본 발명 중에서 뽑아낸 음향 파라미터는 전부 스태틱 파라미터이거나 또는 전후 프레임의 파라미터 변화를 표시하는 다이내믹 파라미터를 포함할 수 있으며, 예컨대 일차 또는 이차 차분 파라미터를 포함하여 모형 훈련 후의 정밀도를 높일 수 있다.

구체적으로, 본 발명에 따라 코퍼스 중에서 뽑아낸 음향 파라미터는 적어도 세가지 스태틱 파라미터를 포함하는데, 이는 스펙트럼 인벨로프 파라미터, 유전자 주파수 파라미터, 서브밴드 유성음 음도 파라미터이고, 기타 공진 피크 주파수 등의 파라미터를 선택적으로 포함할 수 있다.

그 중에서 스펙트럼 인벨로프 파라미터는 선형 예측 계수(LPC)이거나 그 파생 파라미터일 수 있고, 예컨대 선형 스펙트럼 페어 파라미터(LSP)이거나 켑스트럼 파라미터일 수 있고, 또 앞의 몇 개의 공진 피크의 파라미터(주파수, 대역폭, 진폭)이거나 이산 푸리에 변환 계수일 수 있다. 그 외, 이러한 스펙트럼 인벨로프 파라미터의 멜 영역에서의 변종을 사용하여 합성 음성의 음질을 개선할 수 있다. 기본음 주파수는 대수 기본음 주파수를 사용하고, 서브밴드 유성음 음도는 서브밴드 중에서 유성음이 차지하는 비중이다.

상기 스태틱 파라미터를 제외하고, 코퍼스에서 뽑아낸 음향 파라미터는 전후 프레임의 음향 파라미터 변화를 표시하는 다이내믹 파라미터를 포함할 수 있으며, 예컨대 전후 몇 개 프레임의 기본음 주파수 사이의 일차 또는 이차 차분 파라미터를 포함할 수 있다. 훈련할 때 각 음소를 자동적으로 코퍼스 중의 대량의 음성 토막에 맞게 조정하며, 그 다음 이러한 음성 토막 중에서 해당 음소가 대응하는 음향 파라미터 모형을 통계한다. 스태틱 파라미터와 다이내믹 파라미터를 같이 사용하여 자동적으로 조정하는 정밀도는 단지 스태틱 파라미터만을 사용하는 상황보다 정밀도가 약간 높으며, 모형의 파라미터로 하여금 더욱 정확하게 한다. 하지만 본 발명이 합성 단계에서 모형 중의 다이내믹 파라미터를 사용하지 않기 때문에, 본 발명이 최종적으로 훈련해 낸 모형 베이스 중에는 단지 스태틱 파라미터만을 보유한다.

뽑아낸 음향 파라미터를 기초로 각 음소가 다른 상하 문장 정보일 때 각각의 음향 파라미터가 대응하는 통계 모형을 훈련해 내는 과정 중에서, 은닉 마르코프 모델(HMM，Hidden Markov Model)을 사용하여 각각의 음향 파라미터에 대해 모델링을 진행한다. 구체적으로, 스펙트럼 인벨로프 파라미터와 서브밴드 유성음 음도 파라미터에 대해서는 연속 확률 분포의 HMM 모델링을 사용하고, 기본음 주파수에 대해서는 다공간 확률 분포의 HMM 모델링을 사용한다. 이러한 모델링 방법은 현존하는 기술 중에 이미 존재하는 모델링 방안이기 때문에, 아래의 설명에서 해당 모델링 방안에 대해 간단한 설명만을 수행한다.

HMM은 하나의 전형적인 통계 신호 처리 방법으로, 그 임의성과 미지의 단어 길이의 문자열의 입력을 처리할 수 있고, 분할하는 문제를 효과적으로 피할 수 있고 대량의 신속하고 효과적인 훈련과 식별 계산법 등의 특징점을 가지고 있기 때문에, 신호 처리의 여러 영역에 넓게 응용된다. HMM의 구조는 다섯 가지 상태의 좌우형으로, 각 상태에서 관찰한 확률의 분포는 싱글 가우스 밀도 함수이다. 해당 함수는 파라미터의 평균치와 분산에 의해 유일하게 확정된다. 상기 평균치는 스태틱 파라미터의 평균치와 다이내믹 파라미터(일차와 이차 차분)의 평균치로 구성된다. 상기 분산은 스태틱 파라미터의 분산과 다이내믹 파라미터(일차와 이차 차분)의 분산으로 구성된다.

훈련 할 때, 상하 문장의 정보를 기초로 각 음소의 각각의 음향 파라미터를 위해 하나의 모형을 훈련해 내고, 모형 훈련의 확실성을 제고하기 위하여 음소의 상하 문장 정보를 기초로 관련하는 음소에 대해 클러스터를 진행하고, 예컨대 의사결정나무에 기초한 클러스터 방법을 사용한다. 상기 음향 파라미터가 대응하는 모형이 훈련을 완성한 후, 다시 이러한 모형을 이용하여 훈련 코퍼스 중의 음성에 대해 프레임에서 상태의 강제적인 조정을 진행하고, 그 다음 조정 과정에서 생긴 시간 길이 정보(즉, 각각의 상태가 대응하는 프레임수)를 이용하여, 음소가 다른 상하 문장 정보일 때 의사결정나무의 클러스터를 사용한 후의 상태의 시간 길이 모형을 훈련하고, 최종적으로 각 음소가 다른 상하 문장 정보일 때의 각각의 음향 파라미터가 대응하는 통계 모형으로 통계 모형 베이스를 형성한다.

훈련을 완성한 후, 본 발명은 모형 베이스 중에 단지 각각의 모형의 스태틱 평균치 파라미터만을 보존한다. 하지만 현존하는 파라미터 음성 합성 방법은 스태틱 평균치 파라미터, 일차 차분 파라미터, 이차 차분의 평균치 파라미터 및 이러한 파라미터가 대응하는 분산 파라미터을 보유하여야 하고, 통계 모형 베이스가 비교적 크다. 실현되어 증명된 바와 같이, 본 발명 중에서, 각각의 모형의 스태틱 평균치 파라미터만을 보존하는 통계 모형 베이스의 크기는 현존하는 기술 중에서 형성한 통계 모형 베이스의 약 6분의 1이며, 통계 모형 베이스의 저장 공간을 절대적으로 감소하였다. 그 중에서 감소한 데이터는 현존하는 파라미터 음성 합성 기술 중에서는 필수적이지만, 본 발명이 제공한 파라미터 음성 합성 기술 방법에 있어서는 필요하지 않으며, 때문에 데이터 수량의 감소는 본 발명의 파라미터 음성 합성의 실현에 영향을 주지 않는다.

합성 단계에서, 우선 입력한 텍스트에 대해 분석을 진행해야 하며, 이것은 그 중에서 상하 문장 정보를 포함한 음소 서열을 뽑아내어(절차 S210), 파라미터 합성의 기초로 하기 위한 것이다.

여기서 음소의 상하 문장 정보는 현재 음소와 전후로 인접한 음소의 정보를 말하며, 이러한 상하 문장의 정보는 그 전후의 하나 또는 여러 개 음소의 명칭일 수 있으며, 기타 언어층 또는 음운층의 정보를 포함할 수 있다. 예컨대, 하나의 음소의 상하 문장 정보는 현재 음소명, 전후 두개 음소명, 해당 음절의 음조 또는 악센트를 포함하며, 선택적으로 해당 단어의 품사 등을 포함할 수 있다.

입력 텍스트중에 상하 문장 정보의 음소 서열이 포함되어 있다는 것을 확인한 후, 차례대로 서열 중의 하나의 음소를 꺼낼 수 있고, 통계 모형 베이스 중에서 해당 음소의 각각의 음향 파라미터가 대응하는 통계 모형을 검색할 수 있으며, 그 다음 프레임에 따라 해당 음소의 각각의 통계 모형을 꺼내어 합성을 기다리는 음성 파라미터의 근사치로 한다(절차 S220).

목표 통계 모형의 검색 과정 중에서, 음소의 상하 문장의 주석 정보를 클러스터의 의사결정나무에 입력하면 스펙트렘 인벨로프 파라미터, 기본음 주파수 파라미터, 서브밴드 유성음 음도 파라미터, 상태 시간 길이 파라미터가 대응하는 통계 모형을 검색해 낼 수 있다. 그 중의 상태 시간 길이 파라미터는 원시 코퍼스 중에서 뽑아낸 스태틱 음향 파라미터가 아니라, 훈련 중에서 상태와 프레임의 조정을 진행할 때 생긴 새로운 파라미터이다. 모형의 여러 가지 상태 중에서 보존한 스태틱 파라미터의 평균치를 차례대로 꺼내면 각각의 파라미터에 대응하는 스태틱 평균치 파라미터이다. 그 중에서 상태 시간 길이 평균치의 파라미터는 합성을 기다리는 어떤 음소 중에서 각각의 상태가 응당 몇 개의 프레임 만큼 지속되어야 하는지를 확정하는데 직접 이용되며, 스펙트럼 인벨로프, 기준음 주파수, 서브밴드 유성음 음도 등 스태틱 평균치 파라미터는 바로 합성을 기다리는 음성 파라미터의 근사치이다.

합성을 기다리는 음성 파라미터의 근사치를 확정한 후, 필터 그룹을 기초로 확정된 음성 파라미터 근사치에 대해 필터링을 진행하고, 따라서 음성 파라미터를 예측한다(절차 S230). 이 절차 중에서 합성 효과가 제일 좋은 음성 파라미터 값을 예측하기 위하여, 하나의 그룹의 전문적인 필터를 이용하여 스펙트럼 인벨로프, 기본음 주파수와 서브밴드 유성음 음도에 대해 각각 필터링을 진행한다.

본 발명이 절차 S230 중에서 사용한 필터링 방법은 스태틱 파라미터에 기초한 스무딩 필터링 방법이다. 도 5는 본 발명이 스태틱 파라미터에 기초한 필터링 스무딩 파라미터의 예측 설명도로서, 도 5에 도시된 바와 같이, 본 발명은 이러한 그룹의 파라미터 예측 필터를 이용하여 현존하는 파라미터 음성 합성 기술 중 최대 우도 파라미터 예측기를 대체하였고, 하나의 그룹의 저역 통과 필터를 이용하여 합성을 기다리는 음성 파라미터의 스펙트럼 인벨로프 파라미터, 기본음 주파수 파라미터, 서브밴드 유성음 음도 파라미터를 각각 예측한다. 처리 과정은 식 (1)과 같다.

y _t = h _t _* x _t (1)

여기서, t는 시간이 제t프레임인 것을 표시하고, x _t 는 모형 중에서 얻은 어떤 음성 파라미터가 제t프레임일 때의 근사치이고, y _t 는 필터링을 통과하여 스무딩하게 된 후의 값이고, 연산자 *는 콘벌루션을 표시하고, h _t 는 사전에 설계해 놓은 필터의 임펄스 응답이다. 다른 유형의 음향 파라미터에 대해 파라미터 특성이 다르기 때문에 h _t 는 다른 표시로 설계될 수 있다.

스펙트럼 인벨로프 파라미터, 서브밴드 유성음 음도 파라미터에 대해서는 식 (2)로 나타낸 필터를 사용하여 파라미터의 예측을 진행할 수 있다.

(2)

여기서,

는 사전에 설계해 놓은 고정된 필터 계수이고,

의 선택은 실제 음성중의 스펙트럼 인벨로프 파라미터, 서브밴드 유성음 음도가 시간에 따라 변하는 속도를 기초로 실험을 통해 확정할 수 있다.

기본음 주파수 파라미터에 대해서는 식 (3)으로 나타낸 필터를 사용하여 파라미터의 예측을 진행할 수 있다.

(3)

여기서,

는 사전에 설계해 놓은 고정된 필터 계수이고,

의 선택은 실제 음성 중의 기본음 주파수 파라미터가 시간에 따라 변하는 속도를 기초로 실험을 통해 확정할 수 있다.

이와 같이, 본 발명이 사용하는 이러한 그룹의 필터가 합성을 기다리는 음성 파라미터를 예측하는 과정 중에서 관련되는 파라미터는 장래의 파라미터에 언급되지 않으며, 어떤 시각의 출력 프레임은 단지 해당 시각 및 그 전의 입력 프레임 또는 해당 시각의 바로 앞의 시각의 출력 프레임에 의거하게 되고 장래의 입력 또는 출력 프레임과 관계 없으며, 따라서 필터 그룹이 사용하는 RAM의 크기를 사전에 고정할 수 있다. 즉, 본 발명 중에서 식 (2)와 (3)을 응용하여 음성의 음향 파라미터를 예측할 때, 현재 프레임의 출력 파라미터는 단지 현재 프레임의 입력 및 바로 앞의 프레임의 출력 파라미터에 의거한다.

이와 같이 하면, 모든 파라미터의 예측 과정은 고정된 크기의 RAM 버퍼 메모리를 사용하면 즉시 실현될 수 있고, 합성을 기다리는 음성의 시간 길이의 증가에 따라 증가하지 않으며, 따라서 임의의 시간 길이의 음성 파라미터를 연속하여 예측해 낼 수 있어, 현존하는 기술 중에서 최대 우도 규칙을 응용하여 파라미터를 예측하는 과정 중에 사용하는 RAM이 합성 음성의 시간 길이에 따라 정비례로 증가하는 문제를 해결하였다.

상기 식 (2)와 (3)에서 알 수 있는 바와 같이, 본 방법은 필터 그룹을 사용하여 현재 시각의 합성을 기다리는 음성 파라미터의 근사치에 대해 파라미터의 스무딩을 진행할 때, 해당 시각의 근사치 및 바로 앞의 시각의 음성 프레임의 정보를 기초로 해당 근사치에 대해 필터링을 진행할 수 있고, 스무딩 후의 음성 파라미터를 얻는다. 여기서 바로 앞의 시각의 음성 프레임의 정보는 바로 앞의 시각에 예측한 음성 파라미터의 스무딩 값이다.

음성 파라미터의 스무딩 값을 예측해 낸 후, 전역 파라미터 옵티마이저를 사용하여 스무딩 후의 각각의 음성 파라미터에 대해 최적화를 진행할 수 있으며, 따라서 최적화 후의 음성 파라미터를 확정한다(절차 S240).

합성 음성 파라미터의 분산과 훈련 코퍼스 중의 음성 파라미터의 분산을 일치시켜 합성 음성의 음질을 개선하기 위하여, 본 발명은 음성 파라미터를 최적화하는 과정 중에서 아래의 식 (4)를 사용하여 합성 음성 파라미터의 변화 범위에 대해 조절을 진행한다.

(4)

여기서,

는

시각의 음성 파라미터가 최적화 전의 스무딩 값이고,

는 초기적으로 최적화한 후의 값이고,

는 최종적으로 최적화한 후의 값이고,

은 합성 음성의 평균치이고,

는 훈련 음성과 합성 음성의 표준편차의 비율이고,

는 조절 효과를 제어하기 위한 하나의 고정된 가중치이다.

그러나, 현존하는 파라미터 음성 합성 방법은

와

를 확정할 때, 어떤 음성 파라미터가 모든 프레임에서 대응하는 값을 이용하여 평균치와 분산을 계산하여야 하고, 그 다음에야 만이 전역 분산 모형을 응용하여 모든 프레임의 파라미터를 조절할 수 있고, 따라서 조절 후의 합성 음성 파라미터의 분산과 전역 분산 모형을 일치시키고, 음질을 제고하는 목적을 달성하게 된다. 식 (5)에 나타낸 바와 같다.

(5)

여기서,

는 합성을 기다리는 음성의 전체길이가

프레임라는 것을 표시하고,

는 어떤 음성 파라미터가 코퍼스를 훈련하는 중에 모든 음성 상에서 통계로 얻은 표준편차(전역 분산 모형이 제공)이고,

는 현재 합성을 기다리는 음성 파라미터의 표준편차이고, 하나의 단락의 텍스트를 합성할 때마다

는 다시 계산하여야 한다.

와

의 계산이 조절하기 전의 합성 음성의 모든 프레임의 음성 파라미터 값을 사용하고, RAM이 모든 프레임이 최적화하기 전의 파라미터를 보존하여야 하기 때문에, 사용하는 RAM은 합성을 기다리는 음성의 시간 길이의 증가에 따라 증가하게 되고, 따라서 고정된 크기의 RAM은 임의의 시간 길이의 음성을 연속하여 합성하는 수요를 만족할 수 없게 된다.

현존하는 기술 중에 존재하는 이러한 결함에 대하여, 본 발명은 파라미터 음성에 대해 최적화를 진행할 때 전역 파라미터 옵티마이저를 다시 설계하고 아래의 식 (6)을 사용하여 파라미터 음성에 대해 최적화를 진행한다.

(6)

여기서, M와 R은 모두 상수이고, 그 값은 대량의 합성 음성 중에서 각각 통계한 어떤 파라미터의 평균치와 표준편차이다. 바람직한 확정 방법은 전역 파라미터 옵티마이저를 가하지 않을 때 하나의 단락의 비교적 긴 음성을 합성하고, 예컨대 하나의 시간 좌우의 합성 음성을 형성하고, 그 다음 식 (5)를 사용하여 각각의 음향 파라미터가 대응하는 평균치와 표준편차의 비율을 계산해 내고, 이를 고정값으로 하여 각각의 음향 파라미터가 대응하는 M와 R을 부여한다.

이상과 같이, 본 발명이 설계한 전역 파라미터 옵티마이저는 전역 평균치와 전역 분산비를 포함하고, 전역 평균치를 이용하여 합성 음성의 각각의 음향 파라미터의 평균치를 특징지우고, 전역 분산비를 이용하여 합성 음성과 훈련 음성의 파라미터가 분산 상에서의 비례를 특징지운다. 본 발명 중의 전역 파라미터 옵티마이저를 사용하여 매번마다 합성을 진행할 때, 입력한 하나의 프레임의 음성 파라미터에 대해 직접 최적화를 진행하고, 모든 합성 음성 프레임중에서 음성 파라미터의 평균치 및 표준편차 비율을 다시 계산할 필요가 더 이상은 없기 때문에, 합성을 기다리는 음성 파라미터의 모든 프레임의 값을 보존할 필요가 없다. 고정된 RAM을 통해 RAM이 합성 음성의 시간 길이가 증가함에 따라 정비례로 증가하는 현존하는 파라미터 음성 합성 방법의 문제를 해결하였다. 그 외, 본 발명은 매번 합성의 음성에 대해 같은 m과 r을 사용하여 조절을 진행하지만, 원래의 방법은 매번 합성 중에 새로 계산한 m과 r을 사용하여 조절을 진행하기 때문에, 본 발명은 다른 텍스트를 합성할 때 합성 음성 사이의 일치성이 원래의 방법보다 좋다. 그리고, 본 발명의 계산의 복잡도가 원래의 방법보다 낮은 것을 명확히 알 수가 있다.

최적화 후의 음성 파라미터를 확정한 후, 파라미터 음성 합성기를 이용하여 상기 최적화 후의 음성 파라미터에 대해 합성을 진행할 수 있으며, 하나의 프레임의 음성 파형을 합성해 낸다(절차 S250).

도 6은 본 발명의 실시예에 기초한 혼합 여기에 기초한 합성 필터의 설명도이고, 도 7은 현존하는 기술 중에서 무성음/유성음의 판단에 기초한 합성 필터링의 설명도이다. 도 6과 도 7에 도시된 바와 같이, 본 발명이 사용하는 혼합 여기에 기초한 합성 필터는 원-필터의 형식을 사용하고, 현존하는 기술 중의 필터링 여기는 간단한 이원 여기이다.

현존하는 파라미터 음성 합성 기술 중에서, 파라미터 합성기를 응용하여 음성을 합성할 때 사용하는 기술은 무성음/유성음 판정에 기초한 파라미터 음성 합성이고, 하나의 사전에 설정된 임계를 사용하여 무성음/유성음의 하드 판정을 진행할 필요가 있으며, 어떤 프레임의 합성 음성을 유성음으로 판단하거나 무성음으로 판단한다. 이는 합성해 낸 어떤 유성음 중에 무성음 프레임이 갑자기 나타나게 하며, 청각 상에 뚜렷한 음질의 기형적 변화가 있게 한다. 도 7에 도시된 합성 필터링 설명도 중에서 음성을 합성하기 전에 먼저 무성음/유성음 예측을 진행하고, 그 다음 각각 여기를 진행하며, 무성음일 때 백색 소음을 사용하여 여기로 하고, 유성음일 때 준 주기적 펄스를 사용하여 여기로 하며, 나중에 이 여기를 합성 필터에 통과시켜 합성 음성의 파형을 얻는다. 회피할 수 없는 것은 이러한 여기 합성 방법은 합성해 낸 무성음과 유성음이 시간 상에서 명확한 하드 경계가 있게 하고, 따라서 합성 음성중에 음질의 뚜렷한 기형적 변화가 존재하게 한다.

그러나, 도 6에 도시된 본 발명이 제공한 혼합 여기에 기초한 합성 필터링의 설명도 중에서, 다수의 서브밴드 무성음 유성음 혼합 여기를 사용하고 무성음/유성음 예측을 다시는 진행하지 않고, 각 서브밴드중의 무성음과 유성음을 유성음 음도에 따라 혼합하기 때문에, 무성음과 유성음은 시간 상에서 다시는 명확한 하드 경계를 가지지 않으며, 원래의 방법이 어떤 유성음 중에 갑자기 무성음이 나타나 음질로 하여금 뚜렷한 기형적 변화가 생기게 하는 문제를 해결하였다. 아래의 식 (7)을 통해 원시 코퍼스의 음성 중에서 어떤 서브밴드의 현재 프레임의 유성음 음도를 뽑아내는 바,

(7)

여기서, S_t는 어떤 서브밴드의 현재 프레임의 제t개 음성 샘플의 값이고, S_t _+τ는 t와 간격이 τ일 때의 음성 샘플의 값이고, T는 하나의 프레임의 샘플 수량이고, τ가 기본음 주기를 취할 때, C_τ는 현재 서브밴드의 현재 프레임의 유성음 음도이다.

구체적으로, 도 6에 도시된 바와 같이, 전역 최적화를 거쳐 생긴 음성 파라미터는 파라미터 음성 합성기 중에 입력되고, 우선 음성 파라미터 중의 기본음 주파수 파라미터를 기초로 준 주기적 펄스 서열을 구성하고, 백색 소음으로 랜덤 서열을 구성하며; 그 다음 유성음 음도로 구성된 유성음 서브밴드 필터 제품을 통과하여 구성된 준 주기적 펄스 서열 중에서 신호의 유성음 성분을 얻고, 또 유성음 음도로 구성된 무성음 서브밴드 필터를 통과하여 랜덤 서열 중에서 신호의 무성음 성분을 얻으며; 유성음 성분과 무성음 성분을 서로 가하면 혼합 여기 신호를 얻을 수 있다. 나중에 혼합 여기 신호를 스펙트럼 인벨로프 파라미터로 구성된 합성 필터에 통과시킨 후 하나의 프레임의 합성 음성 파형을 출력한다.

당연한 것은, 최적화 후의 음성 파라미터를 확정한 후에도 여전히 먼저 무성음/유성음 판정을 진행할 수 있고, 유성음일 때에는 혼합 여기를 사용하고 무성음일 때에는 백색 소음만을 사용하는 것이다. 그러나, 이 방법도 하드 경계가 음질의 기형적 변화를 야기하는 문제가 있으며, 때문에 본 발명은 상기 무성음/유성음 예측을 진행하지 않고 다수의 서브밴드 무성음 유성음 혼합 여기를 사용하는 실시방식이 바람직하다.

본 발명이 연속하여 임의의 시간 길이의 음성을 합성하는 방법의 우수성 때문에, 하나의 프레임의 음성 파형의 출력을 완성한 후 계속하여 바로 뒤의 프레임의 음성을 순환하여 처리할 수 있다. 바로 뒤의 프레임이 최적화된 후의 음성 파라미터가 사전에 생성되어 RAM 중에 보존되지 않았기 때문에, 현재 프레임의 처리를 완성한 후 절차 S220으로 돌아가야 하며, 모형 중에서 해당 음소의 바로 뒤의 프레임의 음성 파라미터의 근사치를 꺼내고 절차 S220～S250을 반복하여 진행하며, 해당 음소의 바로 뒤의 프레임에 대해 음성 합성 처리를 진행하여야 만이 최종적으로 바로 뒤의 프레임의 음성 파형을 출력할 수 있다. 이와 같이 모든 음소 모형의 모든 프레임의 파라미터가 전부 처리를 완성하여 모든 음성을 합성해 낼 때까지 순환 처리를 진행한다.

본 발명의 상기 파라미터 음성 합성 방법은 소프트웨어를 사용하여 실현할 수도 있고 하드웨어를 사용하여 실현할 수도 있으며, 또는 소프트웨어와 하드웨어의 조합의 방식을 사용하여 실현할 수도 있다.

도 8은 본 발명의 다른 하나의 실시예에 기초한 파라미터 음성 합성 시스템(800)의 블록도이다. 도 8에 도시된 바와 같이, 파라미터 음성 합성 시스템(800)은 입력 텍스트 분석 유닛(830), 대략 검색 유닛(840), 스무딩 필터링 유닛(850), 전역 최적화 유닛(860), 파라미터 음성 합성 유닛(870), 순환 판단 유닛(880)을 포함한다. 여기서, 또한 언어자료 훈련에 이용되는 음향 파라미터 추출 유닛과 통계 모형 훈련 유닛(도면에 표시하지 않음)을 포함할 수도 있다.

그 중에서 음향 파라미터 추출 유닛은 훈련 코퍼스 중의 음성의 음향 파라미터를 뽑아내는데 이용되고; 통계 모형 훈련 유닛은 음향 파라미터 추출 유닛이 뽑아낸 음향 파라미터를 기초로 각 음소가 다른 상하 문장의 정보일 때 각각의 음향 파라미터가 대응하는 통계 모형을 훈련해 내고, 또 해당 통계 모형을 통계 모형 베이스 중에 보존하는데 이용된다.

입력 텍스트 분석 유닛(830)은 입력한 텍스트를 분석하고 상기 입력 텍스트에 대한 분석을 기초로 상하 문장 정보를 포함한 음소 서열을 얻어 취하는데 이용되고; 대략 검색 유닛(840)은 차례대로 음소 서열 중의 하나의 음소를 꺼내고 또 통계 모형 베이스 중에서 입력 텍스트 분석 유닛(830)이 얻은 상기 음소의 각각의 음향 파라미터가 대응하는 통계 모형을 검색하고, 프레임에 따라 해당 음소의 각각의 통계 모형을 꺼내어 합성을 기다리는 음성 파라미터의 근사치로 하는데 이용되며; 스무딩 필터링 유닛(850)은 필터 그룹을 사용하여 합성을 기다리는 음성 파라미터의 근사치에 대해 필터링을 진행하고 스무딩 후의 음성 파라미터를 얻는데 이용되며; 전역 최적화 유닛(860)은 전역 파라미터 옵티마이저를 사용하여 스무딩 필터링 유닛(850)이 스무딩하게 한 후의 각각의 음성 파라미터에 대해 전역 파라미터의 최적화를 진행하고, 최적화후의 음성 파라미터를 얻는데 이용되며; 파라미터 음성 합성 유닛(870)은 파라미터 음성 합성기를 이용하여 전역 최적화 유닛(860)이 최적화한 후의 음성 파라미터에 대해 합성을 진행하고 합성 음성을 출력하는데 이용된다.

순환 판단 유닛(880)은 파라미터 음성 합성 유닛(870)과 대략 검색 유닛(840) 사이에 연결되고, 하나의 프레임의 음성 파형의 출력을 완성한 후 음소 중에 처리를 거치지 않은 프레임이 존재하는지를 판단하는데 이용되며, 만약 존재할 경우에 해당 음소의 바로 뒤의 프레임에 대해 상기 대략 검색 유닛, 스무딩 필터링 유닛, 전역 최적화 유닛, 및 파라미터 음성 합성 유닛을 반복하여 이용하여, 상기 음소 서열 중의 모든 음소의 모든 프레임이 처리를 완성할 때까지 계속 검색을 진행하여 음향 파라미터가 대응하는 통계 모형의 근사치를 얻고, 필터링을 진행하여 스무딩 값을 얻고, 전역 최적화와 파라미터 음성 합성의 순환 처리를 계속 진행한다.

바로 뒤의 프레임이 최적화한 후의 음성 파라미터가 사전에 생성되어 RAM 중에 보존되지 않았기 때문에, 현재 프레임이 처리를 완성한 후 대략 검색 유닛(840)으로 돌아가야 하며, 모형 중에서 해당 음소의 바로 뒤의 프레임을 꺼내고, 대략 검색 유닛(840), 스무딩 필터링 유닛(850), 전역 최적화 유닛(860), 및 파라미터 음성 합성 유닛(870)을 반복하여 이용하여 음성 합성 처리를 진행하여야 만이 바로 뒤의 프레임의 음성 파형을 최종적으로 출력할 수 있다. 이와 같이 모든 음소 서열 중의 모든 음소의 모든 프레임의 파라미터가 전부 처리를 완성할 때까지 순환 처리를 진행하여 모든 음성을 합성해 낸다.

그 중에서 상기 방법과 대응하여 본 발명의 하나의 바람직한 실시 방식 중에서, 통계 모형 훈련 유닛은, 음향 파라미터 모형 훈련 유닛, 클러스터 유닛, 강제적인 조정 유닛, 상태 시간 길이 모형 훈련 유닛 및 모형 통계 유닛(도면에 표시되지 않음)을 더 포함하며, 구체적으로는,

각 음소의 상하 문장 정보가 각 음소의 각각의 음향 파라미터인 정황을 기초로 하나의 모형을 훈련해 내는데 이용되는 음향 파라미터 모형 훈련 유닛;

상기 음소의 상하 문장 정보를 기초로 관련하는 음소에 대해 클러스터를 진행하는데 이용되는 클러스터 유닛;

상기 모형을 사용하여 훈련 코퍼스 중의 음성에 대해 프레임에서 상태의 강제적인 조정을 진행하는데 이용되는 강제적인 조정 유닛;

상기 강제적인 조정 유닛이 강제적인 조정 과정 중에 생산한 시간 길이 정보를 이용하여 음소가 다른 상하 문장 정보일 때 클러스터한 후의 상태 시간 길이 모형을 훈련하는데 이용되는 상태 시간 길이 모형 훈련 유닛;

각 음소가 다른 상하 문장 정보일 때의 각각의 음향 파라미터가 대응하는 통계 모형을 이용하여 통계 모형 베이스를 형성하는데 이용되는 모형 통계 유닛이다.

도 9는 본 발명의 하나의 바람직한 실시예의 파라미터 음성 합성 유닛의 논리 구조 설명도이다. 도 9에 도시된 바와 같이, 파라미터 음성 합성 유닛(870)은 준 주기적 펄스 발생기(871), 백색 소음 발생기(872), 유성음 서브밴드 필터(873), 무성음 서브밴드 필터(874), 가산기(875), 합성 필터(876)를 더 포함하고, 그 중에서 준 주기적 펄스 발생기(871)는 음성 파라미터 중의 기본음 주파수 파라미터를 기초로 준 주기적 펄스 서열을 구성하는데 이용되고; 백색 소음 발생기(872)는 백색 소음을 통해 랜덤 서열을 구성하는데 이용되고, 유성음 서브밴드 필터(873)는 서브밴드 유성음 음도를 기초로 구성하고 있는 준 주기적 펄스 서열 중에서 신호의 유성음 성분을 확정하는데 이용되고; 무성음 서브밴드 필터(874)는 서브밴드 유성음 음도를 기초로 랜덤 서열 중에서 신호의 무성음 성분을 확정하는데 이용되며; 그 다음 유성음 성분과 무성음 성분을 가산기(875)를 통해 가하면 혼합 여기 신호를 얻을 수 있다. 나중에 혼합 여기 신호를 스펙트럼 인벨로프 파라미터로 구성된 합성 필터(876)에 통과시켜 합성 필터링을 진행한 후 대응하는 하나의 프레임의 합성 음성 파형을 출력할 수 있다.

이와 같이, 본 발명이 사용하는 합성 방법은 종적 처리로서, 즉 각 프레임의 음성의 합성은 모두 통계 모형 근사치를 꺼내고, 필터링을 통해 스무딩 값을 얻고, 전역 최적화를 통해 최적화한 값을 얻고, 파라미터 음성이 합성을 통해 음성을 얻는 이러한 처리의 네가지를 거쳐야 하며, 그 후 각 프레임의 음성의 합성은 모두 이 네가지 처리를 다시 반복한다. 그러나, 현존하는 파라미터 음성 합성 방법은 횡적인 오프라인 처리를 사용하는 바, 즉 모든 모형의 대략적인 파라미터를 꺼내고, 최대 우도 알고리즘을 통해 모든 프레임의 스무딩 파라미터를 생성하고, 전역 분산 모형을 통해 모든 프레임의 최적화 파라미터를 얻으며, 나중에 파라미터 합성기에서 모든 프레임의 음성을 출력한다. 현존하는 파라미터 음성 합성 방법 중에서 각 층이 모두 모든 프레임의 파라미터를 보존하여야 하는 정황에 대비하여, 본 발명의 종적 처리 방식은 단지 현재 프레임이 사용하는 고정된 보존 용량의 파라미터만을 보존하면 되기 때문에, 본 발명의 종적처리 방식은 원래 있었던 방법이 횡적 처리 방식을 사용하여 합성 음성의 시간 길이에 한계가 있게 한 문제를 해결하였다.

그 외 본 발명은 합성 단계에서 단지 스태틱 파라미터만을 사용하고 다이내믹 파라미터와 분산 정보를 다시는 사용하지 않기 때문에, 모형 베이스의 크기를 원래 있었던 방법의 약 6분의 1로 감소하였다. 최대 우도 파라미터 방법을 대체하여 전문적으로 설계한 필터 그룹을 사용하여 파라미터의 스무딩 생성을 진행하고, 원래 있었던 방법 중의 전역 분산 모형을 대체하여 새로운 전역 파라미터 옵티마이저를 사용하여 음성 파라미터의 최적화를 진행하고, 종적 처리 구조를 결합하는 것을 통하여 고정된 크기의 RAM을 사용하여 임의의 시간 길이의 음성 파라미터를 연속하여 예측해 내는 기능을 실현하였고, 원래 있었던 방법이 작은 RAM 칩 상에서 임의의 시간 길이의 음성 파라미터를 연속하여 예측해 낼 수 없는 문제를 해결하였으며, 음성 합성 방법이 작은 보존 공간의 칩 상에서의 응용을 확대하는데 도움이 된다. 각 시각마다 모두 무성음 유성음 혼합 여기를 사용하는 것을 통하여 원래 있었던 방법이 음성 파형을 합성하기 전에 먼저 무성음/유성음 하드 판정을 진행하는 것을 대체하고, 원래 있었던 방법이 어떤 유성음을 합성하는 중간에 갑자기 무성음이 생겨 음질의 기형적인 변화의 문제가 생기는 것을 해결하였고, 생긴 음성이 더욱 일치하고 연관되게 하였다.

본 발명의 또 하나의 실시예가 하나의 파라미터 음성 합성 방법을 제공하는 바, 이는 도 10을 참고로 하고, 해당 방법은 아래의 처리를 포함한다.

합성 단계에서 입력한 텍스트의 음소 서열 중의 각 음소의 각 프레임의 음성에 대해 차례대로 아래와 같은 처리를 진행한다.

101 : 입력 텍스트의 음소 서열 중의 현재 음소에 대해, 통계 모형 베이스 중에서 대응하는 통계 모형을 뽑아내고, 해당 통계 모형이 현재 음소의 현재 프레임 하에서 적당한 모형 파라미터를 현재 예측한 음성 파라미터의 근사치로 한다.

102 : 기 근사치와 현재 시각 전의 미리 결정된 수의 음성 프레임의 정보를 이용하여, 상기 근사치에 대해 필터링을 진행하고, 현재 예측한 음성 파라미터의 스무딩 값을 얻는다.

103 : 통계로 얻은 상기 음성 파라미터의 전역 평균치와 전역 표준편차의 비율을 기초로, 상기 현재 예측한 음성 파라미터의 스무딩 값에 대해 전역 최적화를 진행하고, 사용하는 음성 파라미터를 생성한다.

104 : 생성한 상기 음성 파라미터에 대해 합성을 진행하고, 현재 음소의 현재 프레임에 대해 합성을 진행한 하나의 프레임의 음성을 얻는다.

더욱이, 본 방법은 합성을 기다리는 음성 파라미터를 예측하는 과정 중에서, 예측할 때 관련되는 파라미터는 장래의 파라미터에 언급되지 않으며, 어떤 시각의 출력 프레임은 단지 해당 시각 및 그 전의 입력 프레임 또는 해당 시각의 바로 앞의 시각의 출력 프레임에 의거하게 되고 장래의 입력 또는 출력 프레임과는 관계가 없다. 구체적으로, 절차 102 중에서 상기 근사치와 바로 앞의 시각의 음성 프레임의 정보를 이용하여, 해당 근사치에 대해 필터링을 진행할 수 있고 현재 예측한 음성 파라미터의 스무딩 값을 얻으며, 그 중에서 해당 바로 앞의 시각의 음성 프레임의 정보는 바로 앞의 시각에 예측한 음성 파라미터의 스무딩 값이다.

더욱이, 예측한 음성 파라미터가 스펙트럼 인벨로프 파라미터, 서브밴드 유성음 음도 파라미터일 때 상기 식 (2)를 참고하고, 본 방법은 아래의 식을 기초로 상기 근사치와 바로 앞의 시각에 예측한 음성 파라미터의 스무딩 값을 이용하여, 상기 근사치에 대해 필터링을 진행하고, 현재 예측한 음성 파라미터의 스무딩 값을 얻는다.

예측한 음성 파라미터가 기본음 주파수 파라미터일 때, 상기 식(3)을 참고하고, 본 방법은 아래의 식을 기초로 하고, 상기 근사치와 바로 앞의 시각에 예측한 음성 파라미터의 스무딩 값을 이용하여, 상기 근사치에 대해 필터링을 진행하고 현재 예측한 음성 파라미터의 스무딩 값을 얻는다.

여기서, 상기 공식 중에서

는 시각이 제

프레임인 것을 표시하고,

는 예측한 음성 파라미터가 제

프레임일 때의 근사치를 표시하고,

는

가 필터링을 걸쳐 스무딩 후의 값을 표시하고,

,

는 각각 필터의 계수이고,

와

의 취하는 값은 다르다.

더욱이, 본 방법이 절차 104 중에서 구체적으로 아래의 처리를 포함할 수 있다.

서브밴드 유성음 음도 파라미터를 이용하여 유성음 서브밴드 필터와 무성음 서브밴드 필터를 구성하고;

기본음 주파수 파라미터로 구성된 준 주기적 펄스 서열을 상기 유성음 서브밴드 필터에 통과시켜 음성 신호의 유성음 성분을 얻고, 백색 소음으로 구성된 랜덤 서열을 상기 무성음 서브밴드 필터에 통과시켜 음성 신호의 무성음 성분을 얻으며;

상기 유성음 성분과 무성음 성분을 가하여 혼합 여기 신호를 얻고, 상기 혼합 여기 신호를 스펙트럼 인벨로프 파라미터로 구성된 필터에 통과시킨 후 하나의 프레임으로 합성한 음성 파형을 출력한다.

더욱이, 본 방법은 상기 합성 단계 전에 훈련 단계를 더 포함한다. 훈련단계에서 코퍼스 중에서 뽑아낸 음향 파라미터는 스태틱 파라미터만을 포함하거나, 코퍼스 중에서 뽑아낸 음향 파라미터는 스태틱 파라미터와 다이내믹 파라미터를 포함하며; 훈련 후에 얻은 통계 모형의 모형 파라미터 중에는 스태틱 모형 파라미터만을 보유하며;

합성 단계 중에서 절차 101은 구체적으로 아래의 과정을 포함할 수 있으며, 이는 현재 음소을 기초로 훈련 단계 중에서 얻은 상기 통계 모형이 현재 음소의 현재 프레임 하에서 대응하는 스태틱 모형 파라미터를 현재 예측한 음성 파라미터의 근사치로 하는 것이다.

본 발명의 또 하나의 실시예는 또 하나의 파라미터 음성 합성 시스템을 제공하는 바, 이는 도 11을 참고하고, 해당 시스템은 아래의 처리를 포함한다.

순환 합성 장치(110)는 합성 단계에서 입력한 텍스트의 음소 서열 중의 각 음소의 각 프레임 음성에 대해 차례대로 음성 합성을 진행하는데 이용되며;

상기 순환 합성 장치(110)는,

입력한 텍스트의 음소 서열 중의 현재 음소에 대해, 통계 모형 베이스 중에서 적당한 통계 모형을 뽑아내고, 또 해당 통계 모형이 현재 음소의 현재 프레임 하에서 알맞은 모형 파라미터를 현재 예측한 음성 파라미터의 근사치로 하는데 이용되는 대략 검색 유닛(111)과;

상기 근사치와 현재 시각 전의 미리 결정된 수의 음성 프레임의 정보를 이용하여, 상기 근사치에 대해 필터링을 진행하고 현재 예측한 음성 파라미터의 스무딩 값을 얻는데 이용되는 스무딩 필터링 유닛(112);

통계로 얻은 상기 음성 파라미터의 전역 평균치와 전역 표준편차의 비율을 기초로, 상기 현재 예측한 음성 파라미터의 스무딩 값에 대해 전역 최적화를 진행하고 사용하는 음성 파라미터를 생성하는데 이용되는 전역 최적화 유닛(113); 및

생성한 상기 음성 파라미터에 대해 합성을 진행하여 현재 음소의 현재 프레임에 대해 합성을 진행한 하나의 프레임의 음성을 얻는데 이용되는 파라미터 음성 합성 유닛(114)을 포함한다.

더욱이, 상기 스무딩 필터링 유닛(112)은 저역 통과 필터 그룹을 포함하고, 상기 근사치와 바로 앞의 시각의 음성 프레임의 정보를 이용하여 상기 근사치에 대해 필터링을 진행하고, 현재 예측한 음성 파라미터의 스무딩 값을 얻는데 이용되며, 해당 바로 앞의 시각의 음성 프레임의 정보는 바로 앞의 시각에 예측한 음성 파라미터의 스무딩 값이다.

더욱이, 예측한 음성 파라미터가 스펙트럼 인벨로프 파라미터, 서브밴드 유성음 음도 파라미터일 때, 상기 저역 통과 필터 그룹은 아래의 식에 근거하고 상기 근사치와 바로 앞의 시각에 예측한 음성 파라미터의 스무딩 값을 이용하여, 상기 근사치에 대해 필터링을 진행하고, 현재 예측한 음성 파라미터의 스무딩 값을 얻는다.

예측한 음성 파라미터가 기본음 주파수 파라미터일 때, 상기 저역 통과 필터 그룹은 아래의 식에 근거하고, 상기 근사치와 바로 앞의 시각에 예측한 음성 파라미터의 스무딩 값을 이용하여, 상기 근사치에 대해 필터링을 진행하고 현재 예측한 음성 파라미터의 스무딩 값을 얻는다.

여기서, 상기 식 중에서

는 시각이 제

프레임인 것을 표시하고,

는 예측한 음성 파라미터가 제

프레임일 때의 근사치를 표시하고,

는

가 필터링을 걸쳐 스무딩 후의 값을 표시하고,

,

는 각각 필터의 계수이고,

와

의 취하는 값은 다르다.

더욱이, 상기 전역 최적화 유닛(113)은 전역 파라미터 옵티마이저를 포함하고, 아래의 식을 이용하여, 통계로 얻은 상기 음성 파라미터의 전역 평균치와 전역 표준편차의 비율을 기초로 상기 현재 예측한 음성 파라미터의 스무딩 값에 대해 전역 최적화를 진행하고 사용하는 음성 파라미터를 생성한다.

여기서,

는 초기적으로 최적화한 후의 값이고, w는 가중치이고,

는 전역 최적화한 후에 얻은 필요로 되는 음성 파라미터이고, r은 통계로 얻은 예측한 음성 파라미터의 전역 표준편차의 비율이고, m은 통계로 얻은 예측한 음성 파라미터의 전역 평균치이고, r과 m의 취하는 값은 상수이다.

더욱이, 상기 파라미터 음성 합성 유닛(114)은,

상기 혼합 여기신호를 스펙트럼 인벨로프 파라미터로 구성된 필터에 통과시킨 후 하나의 프레임으로 합성한 음성 파형을 출력하는데 이용되는 합성 필터를 포함한다.

더욱이, 상기 시스템은 훈련 장치를 더 포함하며, 이 장치는 훈련 단계에 코퍼스 중에서 뽑아낸 음향 파라미터가 스태틱 파라미터만을 포함하거나 또는 코퍼스 중에서 뽑아낸 음향 파라미터가 스태틱 파라미터와 다이내믹 파라미터를 포함하며, 훈련 후에 얻은 통계 모형의 모형 파라미터 중에는 단지 스태틱 모형 파라미터를 보유하며;

상기 대략 검색 유닛(111)은 구체적으로 합성 단계 중에, 상기 현재 음소를 기초로 훈련 단계 중에서 얻은 상기 통계 모형이 현재 음소의 현재 프레임 하에서 알맞은 스태틱 모형 파라미터를 현재 예측한 음성 파라미터의 근사치로 하는데 이용된다.

본 발명의 실시예 중의 대략 검색 유닛(111), 스무딩 필터링 유닛(112), 전역 최적화 유닛(113), 및 파라미터 음성 합성 유닛(114)의 관련 조작은 각각 상기 실시예 중의 대략 검색 유닛(840), 스무딩 필터링 유닛(850), 전역 최적화 유닛(860), 및 파라미터 음성 합성 유닛(870)의 관련한 내용을 참조할 수 있다.

상기한 바와 같이, 본 발명의 실시예의 기술 방법은 현재 프레임 전의 음성 프레임의 정보와 사전에 통계로 얻은 음성 파라미터의 전역 평균치와 전역 표준편차의 비율 등의 기술 수단을 이용하여, 새로운 파라미터 음성 합성 방법을 제공하였다.

본 방법은 합성 단계에서 하나의 종적 처리 방식을 사용하였고, 각 프레임의 음성에 대해 차례대로 각각 합성을 진행하고 합성 과정에 단지 현재 프레임이 사용하는 고정된 용량의 파라미터만을 보존하면 된다. 본 방법의 이러한 새로운 종적 처리의 구조는 고정된 용량 크기의 RAM를 사용하여 임의의 시간 길이의 음성의 합성을 실현할 수 있으며, 음성 합성을 진행할 때 RAM 용량에 대한 요구를 뚜렷이 낮추었으며, 따라서 비교적 작은 RAM의 칩 상에서 임의의 시간 길이의 음성을 연속하여 합성할 수 있다.

본 발명은 비교적 높은 연속성, 일치성과 자연도를 가진 음성을 합성할 수 있으며, 음성 합성 방법이 작은 보존 공간의 칩 상에서의 일반화와 응용에 도움이 된다.

앞에서 도면을 참고하고 예시적인 방식으로 본 발명에 기초한 파라미터 음성 합성 방법과 시스템에 대해 설명하였다. 그러나, 상기 본 발명이 제안한 파라미터 음성 합성 방법과 시스템에 대하여, 본 발명의 내용을 벗어나지 않는 기초 상에서 여러 가지 개진을 진행할 수 있음이 당업자에게 이해될 수 있다. 때문에 본 발명의 보호 범위는 당연히 첨부한 특허청구범위의 내용에 의해 확정된다.

Claims

합성 단계에서 입력한 텍스트의 음소 서열 중 각 음소의 각 프레임의 음성에 대해 차례대로,
입력한 텍스트의 음소 서열 중 현재 음소에 대해, 통계 모형 베이스 중에서 대응하는 통계 모형을 뽑아내고, 해당 통계 모형이 현재 음소의 현재 프레 임 하에서 알맞은 모형 파라미터를 현재 예측한 음성 파라미터의 근사치로 하는 처리와;
상기 근사치와 현재 시각 전의 미리 결정된 수의 음성 프레임의 정보를 이용하여, 상기 근사치에 대해 필터링을 진행하고 현재 예측한 음성 파라미터의 스무딩 값을 얻는 처리;
통계로 얻은 상기 음성 파라미터의 전역 평균치와 전역 표준편차의 비율을 기초로 상기 현재 예측한 음성 파라미터의 스무딩 값에 대해 전역 최적화를 진행하고 사용하는 음성 파라미터를 생성하는 처리; 및
생성한 상기 음성 파라미터에 대해 합성을 진행하여 현재 음소의 현재 프레임에 대해 합성을 진행한 하나의 프레임의 음성을 얻는 처리;를 진행하는 것을 특징으로 하는 파라미터 음성 합성 방법.
제1항에 있어서,
상기 근사치와 현재 시각 전의 미리 결정된 수의 음성 프레임의 정보를 이용하여, 상기 근사치에 대해 필터링을 진행하고 현재 예측한 음성 파라미터의 스무딩 값을 얻는 상기 처리가,
상기 근사치와 바로 앞의 시각의 음성 프레임의 정보를 이용하여 상기 근사치에 대해 필터링을 진행하고, 현재 예측한 음성 파라미터의 스무딩 값을 얻는 것을 포함하고;
그 중에서 상기 바로 앞의 시각의 음성 프레임의 정보는 바로 앞의 시각에 예측한 음성 파라미터의 스무딩 값인 것을 특징으로 하는 파라미터 음성 합성 방법.
제1항에 있어서,
하기의 식

(여기서,
는 t시각의 음성 파라미터가 최적화하기 전의 스무딩 값이고,
는 초기적으로 최적화한 후의 값이고, w는 가중치이고,
는 전역 최적화한 후에 얻은 사용하는 음성 파라미터이고, r은 통계로 얻은 예측한 음성 파라미터의 전역 표준편차의 비율이고, m은 통계로 얻은 예측한 음성 파라미터의 전역 평균치이고, r과 m의 취하는 값은 상수임)
을 이용하여, 통계로 얻은 상기 음성 파라미터의 전역 평균치와 전역 표준편차의 비율을 기초로 상기 현재 예측한 음성 파라미터의 스무딩 값에 대해 전역 최적화를 진행하고 사용하는 음성 파라미터를 생성하는 것을 특징으로 하는 파라미터 음성 합성 방법.
제1항에 있어서,
생성한 상기 음성 파라미터에 대해 합성을 진행하여 현재 음소의 현재 프레임에 대해 합성을 진행한 하나의 프레임의 음성을 얻는 처리가,
서브밴드의 유성음 음도 파라미터를 이용하여 유성음 서브밴드 필터와 무성음 서브밴드 필터를 구성하고;
기본음 주파수 파라미터로 구성된 준 주기적 펄스 서열을 상기 유성음 서브밴드 필터에 통과시켜 음성 신호의 유성음 성분을 얻으며;
백색 소음으로 구성된 랜덤 서열을 상기 무성음 서브밴드 필터에 통과시켜 음성 신호의 무성음 성분을 얻으며;
상기 유성음 성분과 무성음 성분을 가하여 혼합 여기신호를 얻으며;
상기 혼합 여기신호를 스펙트럼 인벨로프 파라미터로 구성된 필터를 통과하게 한 후 하나의 프레임의 합성된 음성 파형을 출력하는 것을 포함하는 것을 특징으로 하는 파라미터 음성 합성 방법.
제1항에 있어서,
상기 합성 단계 전에 상기 방법이 훈련 단계를 더 포함하고,
훈련 단계에서, 코퍼스에서 뽑아낸 음향 파라미터가 스태틱 파라미터만을 포함하거나, 코퍼스에서 뽑아낸 음향 파라미터가 스태틱 파라미터와 다이내믹 파라미터를 포함하고;
훈련 후에 얻은 통계 모형의 모형 파라미터 중에는 스태틱 모형의 파라미터만을 보유하며;
합성 단계에서 해당 통계 모형이 현재 음소의 현재 프레임 하에서 알맞은 모형 파라미터를 현재 예측한 음성 파라미터의 근사치로 하는 상기 처리가,
상기 현재 음소을 기초로, 훈련 단계에서 얻은 상기 통계 모형이 현재 음소의 현재 프레임 하에서 알맞은 스태틱 모형 파라미터를 현재 예측한 음성 파라미터의 근사치로 하는 것임을 특징으로 하는 파라미터 음성 합성 방법.
합성 단계에 입력한 텍스트의 음소 서열 중 각 음소의 각 프레임의 음성에 대해 차례대로 음성 합성을 진행하는데 이용되는 순환 합성 장치를 포함하고,
상기 순환 합성 장치는,
입력한 텍스트의 음소 서열 중의 현재 음소에 대해, 통계 모형 베이스 중에서 대응하는 통계 모형을 뽑아내고, 해당 통계 모형이 현재 음소의 현재 프레임 하에서 알맞은 모형 파라미터를 현재 예측한 음성 파라미터의 근사치로 하는데 이용되는 대략 검색 유닛과;
상기 근사치와 현재 시각 전의 미리 결정된 수의 음성 프레임의 정보를 이용하여, 상기 근사치에 대해 필터링을 진행하고 현재 예측한 음성 파라미터의 스무딩 값을 얻는데 이용되는 스무딩 필터링 유닛;
통계로 얻은 상기 음성 파라미터의 전역 평균치와 전역 표준편차의 비율을 기초로, 상기 현재 예측한 음성 파라미터의 스무딩 값에 대해 전역 최적화를 진행하고 사용하는 음성 파라미터를 생성하는데 이용되는 전역 최적화 유닛; 및
생성한 상기 음성 파라미터에 대해 합성을 진행하여 현재 음소의 현재 프레임에 대해 합성을 진행한 하나의 프레임의 음성을 얻는데 이용되는 파라미터 음성 합성 유닛;을 포함하는 것을 특징으로 하는 파라미터 음성 합성 시스템.
제6항에 있어서,
상기 스무딩 필터링 유닛은 저역 통과 필터 그룹을 포함하고,
상기 저역 통과 필터 그룹은 상기 근사치와 바로 앞의 시각의 음성 프레임의 정보를 이용하여 상기 근사치에 대해 필터링을 진행하고, 현재 예측한 음성 파라미터의 스무딩 값을 얻는데 이용되며,
상기 바로 앞의 시각의 음성 프레임의 정보는 바로 앞의 시각에 예측한 음성 파라미터의 스무딩 값인 것을 특징으로 하는 파라미터 음성 합성 시스템.
제6항에 있어서,
상기 전역 최적화 유닛은 전역 파라미터 옵티마이저를 포함하고,
상기 전역 파라미터 옵티마이저는 하기의 식

(여기서,
는 t시각의 음성 파라미터가 최적화하기 전의 스무딩 값이고,
는 초기적으로 최적화한 후의 값이고, w는 가중치이고,
는 전역 최적화한 후에 얻은 사용하는 음성 파라미터이고, r은 통계로 얻은 예측한 음성 파라미터의 전역 표준편차의 비율이고, m은 통계로 얻은 예측한 음성 파라미터의 전역 평균치이고, r과 m의 취하는 값은 상수임)
을 이용하여, 통계로 얻은 상기 음성 파라미터의 전역 평균치와 전역 표준편차의 비율을 기초로, 상기 현재 예측한 음성 파라미터의 스무딩 값에 대해 전역 최적화를 진행하고 사용하는 음성 파라미터를 생성하는 것을 특징으로 하는 파라미터 음성 합성 시스템.
제6항에 있어서,
상기 파라미터 음성 합성 유닛은,
서브밴드의 유성음 음도 파라미터를 이용하여 유성음 서브밴드 필터와 무성음 서브밴드 필터를 구성하는데 이용되는 필터 구성 모듈과;
기본음 주파수 파라미터로 구성된 준 주기적 펄스 서열에 대해 필터링을 진행하여 음성 신호의 유성음 성분을 얻는데 이용되는 유성음 서브밴드 필터;
백색 소음으로 구성된 랜덤 서열에 대해 필터링을 진행하여 음성 신호의 무성음 성분을 얻는데 이용되는 무성음 서브밴드 필터;
상기 유성음 성분과 무성음 성분을 가하여 혼합 여기신호를 얻는데 이용되는 가산기; 및
상기 혼합 여기신호를 스펙트럼 인벨로프 파라미터로 구성된 필터에 통과시킨 후 하나의 프레임으로 합성한 음성 파형을 출력하는데 이용되는 합성 필터;를 포함하는 것을 특징으로 하는 파라미터 음성 합성 시스템.
제6항에 있어서,
상기 시스템은 훈련 장치를 더 포함하고,
상기 훈련 장치는 훈련 단계에서 코퍼스 중에서 뽑아낸 음향 파라미터가 스태틱 파라미터만을 포함하거나, 코퍼스 중에서 뽑아낸 음향 파라미터가 스태틱 파라미터와 다이내믹 파라미터를 포함하고, 훈련 후에 얻은 통계 모형의 모형 파라미터 중에는 스태틱 모형 파라미터만을 보유하며;
상기 대략 검색 유닛은, 합성 단계 중에서 상기 현재 음소을 기초로 훈련 단계 중에서 얻은 상기 통계 모형이 현재 음소의 현재 프레임 하에서 알맞은 스태틱 모형 파라미터를 현재 예측한 음성 파라미터의 근사치로 하는데 이용되는 것을 특징으로 하는 파라미터 음성 합성 시스템.