KR20180113325A

KR20180113325A - 음성변조를 위한 음성모델 부호화를 이용한 음성합성 기술 및 장치

Info

Publication number: KR20180113325A
Application number: KR1020170044719A
Authority: KR
Inventors: 김회린; 서영주
Original assignee: 한국과학기술원
Priority date: 2017-04-06
Filing date: 2017-04-06
Publication date: 2018-10-16
Also published as: KR101910273B1

Abstract

본 발명은 자동 음성합성에서 음성합성 장치를 구성하는 임의의 화자의 음성모델을 음성변조에 효과적이면서도 효율적인 음성모델 코드로 부호화하고, 상기 음성모델 코드를 변경하거나 복수의 화자의 음성모델 코드들을 서로 조합함으로써 변조된 목소리의 음성 정보를 담은 음성모델 코드로 변환하고, 변환된 음성모델 코드로부터 해당 음성모델을 복원하기 위하여 복호화시키고, 복원된 음성모델을 활용하여 주어진 텍스트에 해당하는 변조된 음성파형을 합성하는 음성합성 장치 및 방법이 개시된다.
일 실시예에 따른 음성합성 방법은, 음성모델을 음성모델 코드로 부호화하는 단계; 상기 음성모델 코드를 조작함에 따라 변조된 목소리 음성 정보를 포함하는 음성모델 코드로 변환하는 단계; 상기 부호화된 음성모델 코드 또는 상기 변조된 목소리 음성 정보를 포함하는 음성모델 코드를 복호화하여 합성 가능한 음성모델로 복원시키는 단계; 및 텍스트 정보가 입력됨에 따라 상기 복원된 음성모델에 기반하여 상기 입력된 텍스트 정보에 대해 변조된 목소리의 음성 파형을 합성하는 단계를 포함할 수 있다.

Description

음성변조를 위한 음성모델 부호화를 이용한 음성합성 기술 및 장치{APPARATUS AND METHOD FOR SPEECH SYNTHESIS USING SPEECH MODEL CODING FOR VOICE ALTERNATION}

아래의 설명은 음성합성 기술에 관한 것으로, 음성합성 장치가 합성하는 음성파형이 개발자나 사용자의 의도대로 합성음의 음성을 변조할 수 있도록 음성합성기의 음성모델을 부호화하고 음성모델 코드를 변환하고 음성모델을 복호화하여 변조된 음성파형을 합성하는 기능을 제공하는 음성합성 장치 및 방법에 관한 것이다.

음성합성 기술은 입력된 텍스트를 해당 음운정보를 포함하는 음성파형으로 자동적으로 변환하는 기술로서 자동응답시스템(ARS), 컴퓨터 게임 등의 여러 음성응용 분야에 유용하게 사용될 수 있다. 현재 개발되는 대표적인 음성합성 기술로는 코퍼스 기반 음편연결 방식의 음성합성 기술과 HMM(hidden Markov model) 기반 파라메터 방식의 음성합성 기술을 들 수 있다. 이 중에서 HMM 기반 음성합성 기술은 HMM 이라는 통계모델로서 음성신호를 모델링하여 임의의 음운열(phoneme sequence)에 해당하는 음성파형을 합성하는 음성합성 기술을 의미한다. 음성변조 기술은 합성된 음성이 합성기의 훈련에 사용된 음성데이터를 발성한 소스 화자의 목소리와 다른 목소리를 나타내도록 음성합성기의 음성 모델을 변경하고 이를 활용하여 달라진 목소리의 음성파형을 합성하는 기술이다.

음성변조에 적합한 음성합성 방식은 HMM 기반 음성합성 방식인데 이 음성합성 방식은 개별 음성 단위 HMM을 구성하는 상태관측확률의 모델링 방식에 따라, 가우스 혼합 모델을 활용하는 GMM(GMM: Gaussian mixture model)-HMM 방식과 최근에 각광받는 심층신경망을 활용하는 DNN(DNN: deep neural network)-HMM 방식으로 나눌 수 있다. 이 HMM 기반 음성합성 방식에 적용되는 음성변조 기술은 GMM-HMM의 모델 파라메터인 평균벡터, 공분산행렬, 혼합가중치벡터, 상태천이행렬이나 DNN-HMM의 모델 파라메터인 가중치행렬, 상태천이행렬을 목표 화자의 목소리를 나타내도록 소스 화자의 파라메터와 변조된 목소리에 해당하는 파라메터 간의 사상 관계를 효과적으로 나타낼 수 있는 함수를 사용하여 변경함으로써 이루어진다. 이러한 음성변조에 활용되는 함수의 예로서 GMM의 파라메터를 주성분 분석(principal component analysis) 기법을 적용하여 고유음성성분의 조합으로 모델링하는 방법이 있는데 상기 방법을 적용하여 구한 조합 가중치를 부호화 결과로 구하고 이 코드들이 의도하는 목소리 음성 정보를 가지도록 변경한 후에 복호화하면 복원된 음성모델 파라메터를 활용하는 음성합성기는 원래와 다른 목소리의 변조된 음성파형을 생성할 수 있게 된다.

이러한 음성변조 기능을 가지도록 개발된 대부분의 음성합성 기술들은 음성변조 자체의 완전성이나 정확도를 향상시키는 문제에 초점을 맞추고 있을 뿐 개별 사용자의 목소리 색깔과 같은 음성특성을 부호화하여 디지털 정보로 표현하고 이를 변경하거나 다른 화자들의 디지털 음성 정보를 조합하여 다양한 목소리의 변조된 음성파형을 합성하는 기술을 개발하는 시도는 잘 이루어지지 않고 있다.

이에 따라 개별 사용자의 목소리와 같은 음성 특성을 음성모델을 부호화하고 얻은 음성모델 코드를 변경하거나 여러 사용자들의 음성모델의 코드들을 서로 조합으로 새로운 목소리의 합성음을 생성하는 합성음성 장치나 방법을 개발하면 컴퓨터 게임이나 지능 로봇, 아바타 등의 디지털 콘텐츠 분야에서 구성원 고유의 목소리를 생성하거나 가상의 객체에 대한 목소리를 생성하는 용도로서 매우 활용 가능성이 크다고 할 수 있다.

본 발명이 해결하고자 하는 과제는 임의의 화자가 발성한 음성데이터를 훈련 데이터나 적응데이터로 활용하여 개발된 소스 화자의 목소리 음성정보를 가진 음성합성기의 음성모델을 부호화해서 구한 음성모델 코드들을 변경하거나 여러 소스 화자들의 음성모델 코드들을 조합한 다음 복호화하여 변조된 목소리의 음성파형을 합성할 수 있는 음성변조 기능을 가진 음성합성 장치 및 방법을 제안한다.

일 실시예에 따르면, 음성합성 방법은, 음성모델을 음성모델 코드로 부호화하는 단계; 상기 음성모델 코드를 조작함에 따라 변조된 목소리 음성 정보를 포함하는 음성모델 코드로 변환하는 단계; 상기 부호화된 음성모델 코드 또는 상기 변조된 목소리 음성 정보를 포함하는 음성모델 코드를 복호화하여 합성 가능한 음성모델로 복원시키는 단계; 및 텍스트 정보가 입력됨에 따라 상기 복원된 음성모델에 기반하여 상기 입력된 텍스트 정보에 대해 변조된 목소리의 음성 파형을 합성하는 단계를 포함할 수 있다.

일 측에 따르면, 상기 음성모델을 음성모델 코드로 부호화하는 단계는, 음성합성을 위한 훈련(Training) 또는 적응(Adaptation)을 통해 생성된 임의의 화자의 음성모델 전부 또는 일부를 주성분 분석 기법에 의해 획득된 고유음성성분에 대한 가중치로 부호화하는 주성분 변환 부호화 알고리즘을 적용하여 디지털 음성모델 코드를 생성하는 단계를 포함할 수 있다.

또 다른 일측에 따르면, 상기 음성모델을 음성모델 코드로 부호화하는 단계는, 상기 음성모델을 개별 벡터 또는 수퍼벡터(U)로 변환하고, 상기 변환된 개별 벡터 또는 수퍼벡터에 대해 주성분 분석에 기반하여 고유벡터 또는 고유음성성분(E)의 K(K는 자연수) 차원의 가중치 벡터(W)를 추출하는 주성분 변환 알고리즘을 수학식 1(

)과 같이 나타내는 단계를 포함하고, w_k는 k번째 고유음성성분에 대한 가중치 원소로서 스칼라 실수값, E는 음성모델의 수퍼벡터들의 공분산행렬에 대해 주성분분석을 수행함에 따라 획득된 고유벡터들 중에서 가장 큰 K(1≤K≤S) 개의 고유치들에 대응하는 고유벡터들로 구성된 행렬, U는 상기 임의의 화자에 대한 음성모델을 변환한 수퍼벡터를 의미할 수 있다.

또 다른 일측에 따르면, 상기 음성모델을 음성모델 코드로 부호화하는 단계는, 상기 임의의 화자에 대한 음성모델을 변환한 수퍼벡터(U)가 수학식 2(

)와 같이 주어지고,

는 상기 임의의 화자에 대한 음성모델을 v번째 아음소 GMM-HMM에서 i번째 상태의 j번째 혼합에서의 평균벡터, 또는 공분산행렬의 대각원소들로 구성된 벡터, 또는 DNN-HMM의 v번째 계층에서의 가중치행렬에서 i번째 노드의 j번째 가중치를 의미할 수 있다.

또 다른 일측에 따르면, 상기 음성모델을 음성모델 코드로 부호화하는 단계는, 복수의 화자의 수퍼벡터의 데이터로부터 수학식 3(

)을 통하여 주성분 분석에 사용된 수퍼벡터들에 대한 평균벡터(M)를 도출함에 따라 획득된 음성모델 코드를 저장하는 단계를 포함하고, s는 전체 S명의 화자들로부터 획득한 음성모델들 중에서 임의의 화자의 음성모델의 인덱스를 나타내고 mean(·)은 주성분분석에 사용된 전체 화자음성모델들에 대한 개별 원소 평균치를 그 원소로 취하는 벡터를 구하는 함수를 의미할 수 있다.

또 다른 일측에 따르면, 상기 음성모델 코드를 조작함에 따라 변조된 목소리 음성 정보를 포함하는 음성모델 코드로 변환하는 단계는, 상기 부호화된 음성모델 코드를 기 선택된 목소리 음성 정보를 포함하는 음성모델 코드로 변경하거나 복수의 임의의 화자들로부터 획득된 음성모델 코드에 포함된 코드 정보를 각각 기 설정된 비율로 조합함으로써 변조된 목소리 음성 정보를 포함하는 음성모델 코드로 변환하는 단계를 포함할 수 있다.

또 다른 일측에 따르면, 상기 부호화된 음성모델 코드 또는 상기 변조된 목소리 음성 정보를 포함하는 음성모델 코드를 복호화하여 합성 가능한 음성모델로 복원시키는 단계는, 상기 부호화된 음성모델 코드 또는 상기 변조된 목소리 음성 정보를 포함하는 음성모델 코드로부터 주성분 변환 복호화 알고리즘을 적용하여 수퍼벡터로 복호화하고, 상기 수퍼벡터에 대응되는 음성모델의 파라메터를 복원한 후, 상기 복원된 파라메터를 포함하는 음성모델을 저장하는 단계를 포함할 수 있다.

일 실시예에 따르면, 컴퓨터 시스템이 음성을 합성하도록 제어하는 명령(instruction)을 포함하는 컴퓨터 판독가능 저장 매체로서, 상기 명령은, 음성모델을 음성모델 코드로 부호화하는 단계; 상기 음성모델 코드를 조작함에 따라 변조된 목소리 음성 정보를 포함하는 음성모델 코드로 변환하는 단계; 상기 부호화된 음성모델 코드 또는 상기 변조된 목소리 음성 정보를 포함하는 음성모델 코드를 복호화하여 합성 가능한 음성모델로 복원시키는 단계; 및 텍스트 정보가 입력됨에 따라 상기 복원된 음성모델에 기반하여 상기 입력된 텍스트 정보에 대해 변조된 목소리의 음성 파형을 합성하는 단계를 포함하는 방법에 의하여 상기 컴퓨터 시스템을 제어할 수 있다.

일 실시예에 따르면, 음성합성 장치는, 음성모델을 음성모델 코드로 부호화하는 음성모델 부호화기; 상기 음성모델 코드를 조작함에 따라 변조된 목소리 음성 정보를 포함하는 음성모델 코드로 변환하는 음성모델 코드 변환기; 상기 부호화된 음성모델 코드 또는 상기 변조된 목소리 음성 정보를 포함하는 음성모델 코드를 복호화하여 합성 가능한 음성모델로 복원시키는 음성모델 복호화기; 및 텍스트 정보가 입력됨에 따라 상기 복원된 음성모델에 기반하여 상기 입력된 텍스트 정보에 대해 변조된 목소리의 음성 파형을 합성하는 음성 합성기를 포함할 수 있다.

일측에 따르면, 상기 음성모델 부호화기는, 음성합성을 위한 훈련 또는 적응을 통해 생성된 임의의 화자의 음성모델 전부 또는 일부를 고유음성성분에 대한 가중치로 부호화하는 주성분 분석 부호화 알고리즘을 적용하여 디지털 음성모델 코드를 생성할 수 있다.

또 다른 일측에 따르면, 상기 음성모델 부호화기는, 상기 음성모델을 개별 벡터 또는 수퍼벡터(U)로 변환하고, 상기 변환된 개별 벡터 또는 수퍼 벡터에 대해 주성분 분석에 기반하여 고유벡터 또는 고유음성성분(E)의 K(K는 자연수) 차원의 가중치 벡터(W)를 추출하는 주성분 변환 알고리즘을 수학식 1(

)과 같이 나타내는 것을 포함하고, w_k는 k번째 고유음성성분에 대한 가중치 원소로서 스칼라 실수값, E는 음성모델의 수퍼벡터들의 공분산행렬에 대해 주성분분석을 수행함에 따라 획득된 고유벡터들 중에서 가장 큰 K(1≤K≤S) 개의 고유치들에 대응하는 고유벡터들로 구성된 행렬, U는 상기 임의의 화자에 대한 음성모델을 변환한 수퍼벡터를 의미할 수 있다.

또 다른 일측에 따르면, 상기 음성모델 부호화기는, 상기 임의의 화자에 대한 음성모델을 변환한 수퍼벡터(U)가 수학식 2(

)와 같이 주어지고,

는 상기 임의의 화자에 대한 음성모델을 v번째 아음소 GMM-HMM에서 i번째 상태의 j번째 혼합에서의 평균벡터, 또는 공분산행렬의 대각원소들로 구성된 벡터 또는 DNN-HMM의 v번째 계층에서의 가중치행렬에서 i번째 노드의 j번째 가중치를 의미할 수 있다.

또 다른 일측에 따르면, 상기 음성모델 부호화기는, 복수의 화자의 수퍼벡터의 데이터로부터 수학식 3(

)을 통하여 주성분 분석에 사용된 수퍼벡터들에 대한 평균벡터(M)를 도출함에 따라 획득된 음성모델 코드를 저장하는 것을 포함하고, s는 전체 S명의 화자들로부터 획득한 음성모델들 중에서 임의의 화자의 음성모델의 인덱스를 나타내고 mean(·)은 주성분분석에 사용된 전체 화자음성모델들에 대한 개별 원소 평균치를 그 원소로 취하는 벡터를 구하는 함수를 의미할 수 있다.

또 다른 일측에 따르면, 상기 음성모델 코드 변환기는, 상기 부호화된 음성모델 코드를 기 선택된 목소리 음성 정보를 포함하는 음성모델 코드로 변경하거나 복수의 임의의 화자들로부터 획득된 음성모델 코드에 포함된 코드 정보를 각각 기 설정된 비율로 조합함으로써 변조된 목소리 음성 정보를 포함하는 음성모델 코드로 변환할 수 있다.

또 다른 일측에 따르면, 상기 음성모델 복호화기는, 상기 부호화된 음성모델 코드 또는 상기 변조된 목소리 음성 정보를 포함하는 음성모델 코드로부터 주성분 변환 복호화 알고리즘을 적용하여 수퍼벡터로 복호화하고, 상기 수퍼벡터에 대응되는 음성모델의 파라메터를 복원한 후, 상기 복원된 파라메터를 포함하는 음성모델을 저장할 수 있다.

일 실시예에 따른 음성합성 장치는 복수의 사용자로부터 수집한 음성 데이터를 사용하여 획득된 해당 사용자의 음성모델로부터 주성분 변환 기법을 활용하여 음성모델 코드를 추출하고, 추출된 음성모델 코드를 변경한 후 복원함으로써 사용자의 고유 목소리와 비교하였을 때에 변조된 목소리의 합성음을 생성하거나 사용자들의 다양한 음성모델 코드들을 서로 조합하여 가상 화자의 합성음을 생성함으로써 다양한 사용자의 목소리를 띤 음성통신을 가능하게 하거나 가상의 인물에 대한 음성을 생성하고 이용할 수 있게 되어 로봇이나 아바타, 사이버 게임 분야의 음성응용 용도로 유용하게 활용될 수 있다.

도 1은 일 실시예에 따른 음성합성 장치의 구성을 설명하기 위한 블록도이다.
도 2는 일 실시예에 따른 음성합성 장치의 음성합성 방법을 설명하기 위한 흐름도이다.
도 3은 일 실시예에 따른 음성합성 장치의 개괄적인 동작을 설명하기 위한 도면이다.
도 4는 일 실시예에 따른 음성합성 장치의 부호화 방법을 설명하기 위한 흐름도이다.
도 5는 일 실시예에 따른 음성합성 장치의 음성모델 코드 변환 방법을 설명하기 위한 흐름도이다.
도 6은 일 실시예에 따른 음성합성 장치의 음성모델 복호화 방법을 설명하기 위한 흐름도이다.
도 7은 일 실시예에 따른 음성합성 장치의 음성 합성 방법을 설명하기 위한 흐름도이다.

이하, 실시예를 첨부한 도면을 참조하여 상세히 설명한다.

도 1은 일 실시예에 따른 음성합성 장치의 구성을 설명하기 위한 블록도이고, 도 2는 일 실시예에 따른 음성합성 장치의 음성합성 방법을 설명하기 위한 흐름도이다.

음성합성 장치(100)의 프로세서는 음성모델 부호화기(110), 음성모델 코드 변환기(120), 음성모델 복호화기(130) 및 음성합성기(140)를 포함할 수 있다. 음성합성 장치(100)의 프로세서 및 프로세서의 구성 요소들은 도 2의 음성합성 방법이 포함하는 단계들(210~240)을 수행할 수 있다. 프로세서는 음성합성 방법을 위한 프로그램 파일에 저장된 프로그램 코드를 메모리에 로딩할 수 있다.

프로세서 및 프로세서의 구성요소들은 메모리가 포함하는 운영체제의 코드와 적어도 하나의 프로그램의 코드에 따른 명령(instruction)을 실행하도록 구현될 수 있다. 여기서, 프로세서의 구성요소들은 음성합성 장치(100)에 저장된 프로그램 코드가 제공하는 제어 명령에 따라 프로세서에 의해 수행되는 서로 다른 기능들(different functions)의 표현들일 수 있다.

단계(210)에서 음성모델 부호화기는 음성모델을 음성모델 코드로 부호화할 수 있다. 음성모델 부호화기는 음성합성을 위한 훈련이나 적응을 통해 생성된 임의의 화자의 음성모델 전부나 혹은 그 일부를 주성분 분석 기법에 기반을 둔 고유음성성분에 대한 가중치로 부호화하는 주성분 변환 부호화 알고리즘을 적용하여 데이터 분량이 대폭 감소된 음성모델 코드를 생성할 수 있다.

단계(220)에서 음성모델 코드 변환기는 음성모델 코드를 조작함에 따라 변조된 목소리 음성 정보를 포함하는 음성모델 코드로 변환할 수 있다. 음성모델 코드 변환기는 음성모델 부호화기로부터 생성된 개별 화자의 음성모델 코드를 사전 실험을 통해 설정한 규칙에 의해 선호하는 목소리로 합성할 수 있도록 변경하거나 복수의 화자들의 음성모델 코드들을 기 설정한 규칙(예를 들면, 사전 실험을 통하여 설정된 규칙, 사용자로부터 설정된 규칙 등)에 의해 일정한 비율로 서로 조합함으로써 변조된 목소리 음성 정보를 담은 음성모델 코드로 변환할 수 있다.

단계(230)에서 음성모델 복호화기는 부호화된 음성모델 코드 또는 변조된 목소리 음성 정보를 포함하는 음성모델 코드를 복호화하여 합성 가능한 음성모델로 복원할 수 있다. 음성모델 복호화기는 임의의 화자의 부호화된 음성모델 코드나 변환된 음성모델 코드를 주성분 분석 기법에 기반을 둔 고유음성성분을 기저함수로 활용하는 주성분 변환 복호화 알고리즘을 활용하여 합성 가능한 음성모델로 복호화할 수 있다.

단계(240)에서 음성합성기는 텍스트 정보가 입력됨에 따라 복원된 음성모델을 활용하여 입력된 텍스트 정보에 대해 변조된 목소리의 음성 파형을 합성할 수 있다.

도 3은 일 실시예에 따른 음성합성 장치의 개괄적인 동작을 설명하기 위한 도면이다.

음성합성 장치는 임의의 화자의 음성모델(301, 302)을 부호화(310)함에 따라 음성모델 코드를 획득할 수 있다. 음성합성 장치는 음성합성을 위한 훈련이나 적응을 통해 생성된 임의의 화자의 음성모델 전부나 일부를 주성분 분석 기법에 기반한 고유음성성분에 대한 가중치로 부호화하는 주성분 변환 부호화 알고리즘을 적용하여 음성모델 코드를 생성할 수 있다.

음성합성 장치는 음성모델 코드를 조작함에 따라 변조된 목소리 음성 정보를 포함하는 음성모델 코드로 변환(320)할 수 있다. 음성합성 장치는 음성모델 부호화 단계로부터 생성된 개별 화자의 음성모델 코드를 사전 실험을 통해 설정한 규칙에 의해 선호하는 목소리로 합성할 수 있도록 변경하거나 복수의 화자들의 음성모델 코드들을 사전 실험을 통해 설정한 규칙에 의해 일정한 비율로 서로 조합함으로써 변조된 목소리 음성 정보를 담은 음성모델 코드로 변환할 수 있다.

음성합성 장치는 부호화된 음성모델 또는 변조된 목소리 음성 정보를 포함하는 음성모델 코드를 복호화하여 합성 가능한 음성모델로 복원(330)시킬 수 있다. 음성합성 장치는 임의의 화자의 부호화된 음성모델 코드나 변환된 음성모델 코드를 주성분 분석 기법에 기반을 둔 고유음성성분을 기저함수로 활용하는 주성분 변환 복호화 알고리즘을 활용하여 해당 음성모델로 복호화할 수 있다.

음성합성 장치는 텍스트 정보(303)가 입력됨에 따라 복원된 음성모델을 활용하여 입력된 텍스트 정보에 대해 변조된 목소리의 음성 파형을 합성(340)시킴으로써 변조된 음성 파형(304)을 제공할 수 있다.

더욱 상세하게는, 도 4를 참고하면, 음성합성 장치의 부호화 방법을 설명하기 위한 흐름도이다. 음성합성 장치의 음성모델 부호화기는 훈련이나 적응에 의해 임의의 화자의 음성을 합성하는데 활용되는 음성모델인 GMM-HMM의 상태별 평균벡터나 공분산행렬의 대각원소들로 구성된 벡터나 DNN-HMM의 계층별 가중치행렬을 인식할 수 있다(410). 음성모델 부호화기는 상기 개별 벡터나 행렬 모델을 하나의 거대한 벡터로 나타내는 수퍼벡터(U)로 변환할 수 있다(420). 음성모델 부호화기는 상기 개별 벡터 또는 상기 수퍼벡터(U)에 대해 주성분 분석에 기반하여 고유벡터 또는 고유음성성분 E의 K 차원 가중치 벡터 W를 추출하는 주성분 변환 알고리즘을 수학식 1과 같이 적용할 수 있다(430).

수학식 1:

여기서 w_k는 k번째 고유음성성분에 대한 가중치 원소로서 스칼라 실수값을 가진다. 또한 T는 벡터나 행렬의 전치를 나타낸다. E는 수학식 2와 같이 전체 S개로 구성된 화자음성모델 수퍼벡터들의 공분산행렬에 대해 주성분 분석을 수행하여 획득되는 고유벡터들 중에서 가장 큰 K(1≤K≤S) 개의 고유치들에 해당하는 고유벡터들로 구성된 행렬로서 이를 구성하는 고유벡터들은 각각의 고유치에 해당하는 고유음성성분이 된다.

수학식 2:

여기서 V_k는 화자음성모델 수퍼벡터들의 공분산행렬에 대해 주성분 분석을 통해 얻어진 k번째 큰 고유치에 해당하는 고유벡터 또는 고유음성성분이다. 또한 U는 임의의 화자에 대한 음성모델 수퍼벡터로서 수학식 3과 같이 주어진다.

수학식 3:

여기서

는 임의의 화자의 음성모델인 v번째 아음소 GMM-HMM에서 i번째 상태의 j번째 혼합에서의 평균벡터, 또는 공분산행렬의 대각원소들로 구성된 벡터, 또는 DNN-HMM의 v번째 계층에서의 가중치행렬에서 i번째 노드의 j번째 가중치를 의미한다. 또한 M은 주성분 분석에 사용된 수퍼벡터들에 대한 평균벡터로서 여러 화자의 음성모델 수퍼벡터 데이터로부터 수학식 4와 같이 구한다.

수학식 4:

여기서 s는 전체 S명의 화자들로 구한 화자음성모델들 중에서의 임의의 화자음성모델의 인덱스를 나타내고 mean(

)은 주성분 분석에 사용된 전체 화자음성모델들에 대한 개별 원소 평균치를 그 원소로 취하는 벡터를 구하는 함수이다. 이를 통해 음성모델 코드가 획득됨에 따라 음성모델 코드를 저장할 수 있다(440).

도 5는 일 실시예에 따른 음성합성 장치의 음성모델 코드 변환 방법을 설명하기 위한 흐름도이다.

음성합성 장치의 음성모델 코드 변환기는 먼저 임의의 화자에 대한 음성모델 코드를 인식할 수 있다(510). 음성모델 코드 변환기는 단일의 음성모델 코드를 변조된 목소리 음성 정보가 포함되도록 사전에 정해진 규칙에 의해 수학식 5와 같이 변환할 수 있다(520).

수학식 5:

여기서

는 k번째 고유음성성분의 가중치에 대한 스칼라 변환치이고 Z_A은 k번째 대각원소의 값이

인 대각행렬을 의미한다.

또한, 음성모델 코드 변환기는 복수의 화자들에 대한 음성모델 코드들을 서로 조합함으로써 변조된 목소리의 음성 정보를 가진 음성모델 코드로 수학식 6과 같이 변환할 수 있다(521).

수학식 6:

여기서

는

화자의 음성모델 코드 벡터의 k번째 가중치 원소이고

는 이에 대한 스칼라 조합값이다. 또한

는

화자의 음성모델 코드이고

는

화자 음성모델 코드에 대한 조합값들을 대각원소로 갖는 대각행렬이다. 수학식 5와 6의

와

및

등은 사전 실험에서의 최적화 과정이나 이를 통해 도출된 알고리즘에 의해 구해질 수 있다. 음성모델 코드 변환기는 변환된 음성모델 코드를 저장할 수 있다(530).

도 6은 일 실시예에 따른 음성합성 장치의 음성모델 복호화 방법을 설명하기 위한 흐름도이다.

음성합성 장치의 음성모델 복호화기는 우선, 부호화된 음성모델 코드 정보를 인식할 수 있다(610). 음성모델 부호화기에서 적용한 부호화 알고리즘에 대응되는 수학식 7과 같은 주성분 변환 복호화 알고리즘을 적용하여 음성모델 코드로부터 해당 음성모델 수퍼벡터를 복호화할 수 있다(620). 음성모델 복호화기는 상기 수퍼벡터로부터 해당 음성모델 파라메터를 복원할 수 있다(630). 음성모델 복호화기는 복원된 음성모델을 저장할 수 있다(640).

수학식 7:

여기서 W는 음성모델 코드로서 수학식 5나 6과 같은 음성모델 변환 방법을 통해 도출된 음성모델을 나타낸다.

도 7은 일 실시예에 따른 음성합성 장치의 음성 합성 방법을 설명하기 위한 흐름도이다.

음성합성 장치의 음성합성기는 복원된 음성모델(710)을 인식할 수 있다. 음성합성기는 텍스트가 입력됨에 따라 합성할 텍스트와 관련된 정보를 수신할 수 있다(720). 음성합성기는 HMM 기반 파라메터 방식의 합성 기법에 의해 텍스트에 해당하는 음성변조된 음성파형을 합성할 수 있다(730).

일 실시예에 따른 음성변조를 위한 음성모델 부호화를 이용한 음성합성 장치 및 방법은 음성합성 기능이 사용되는 로봇이나 사이버 게임에서의 아바타 등의 음성응용 분야에서 여러 사용자들의 음성을 수집하고 이를 음색변환을 위한 적응데이터로 사용하여 개별 사용자의 목소리 음성 정보를 담은 음성모델을 생성하고, 이 개별 사용자의 음성모델 자체나 복수의 사용자들의 음성모델을 음성모델 코드로 부호화하여 개별 화자의 목소리 음성 정보를 담도록 디지털 정보화한 다음, 상기 사용자들의 음성모델 코드를 음성변조의 목적으로 변경하고 이를 복호화하여 음성모델로 복원함으로써 임의의 텍스트에 대한 음성변조된 음성파형을 합성하거나, 상기 사용자들의 음성모델 코드를 서로 조합하여 새로운 목소리의 가상의 화자, 예를 들면, 부모 사용자들에 대한 가상의 자녀, 음성모델 코드를 생성하고 이를 복호화하여 음성모델을 복원함으로써 새로운 목소리를 띤 변조된 음성파형을 효과적으로 합성할 수 있다.

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

100: 음성모델 부호화기
101: 음성모델 코드 변환기
102: 음성모델 복호화기
103: 음성합성기

Claims

음성합성 방법에 있어서,
음성모델을 음성모델 코드로 부호화하는 단계;
상기 음성모델 코드를 조작함에 따라 변조된 목소리 음성 정보를 포함하는 음성모델 코드로 변환하는 단계;
상기 부호화된 음성모델 코드 또는 상기 변조된 목소리 음성 정보를 포함하는 음성모델 코드를 복호화하여 합성 가능한 음성모델로 복원시키는 단계; 및
텍스트 정보가 입력됨에 따라 상기 복원된 음성모델을 활용하여 상기 입력된 텍스트 정보에 대해 변조된 목소리의 음성 파형을 합성하는 단계
를 포함하는 음성합성 방법.
제1항에 있어서,
상기 음성모델을 음성모델 코드로 부호화하는 단계는,
음성합성을 위한 훈련(Training) 또는 적응(Adaptation)을 통해 생성된 임의의 화자의 음성모델 전부 또는 일부를 주성분 분석 기법에 의해 획득된 고유음성성분에 대한 가중치로 부호화하는 주성분 변환 부호화 알고리즘을 적용하여 디지털 음성모델 코드를 생성하는 단계
를 포함하는 음성합성 방법.
제2항에 있어서,
상기 음성모델을 음성모델 코드로 부호화하는 단계는,
상기 음성모델을 개별 벡터 또는 수퍼벡터(U)로 변환하고, 상기 변환된 개별 벡터 또는 수퍼벡터에 대해 주성분 분석에 기반하여 고유벡터 또는 고유음성성분(E)의 K(K는 자연수) 차원의 가중치 벡터(W)를 추출하는 주성분 변환 알고리즘을 수학식 1과 같이 나타내는 단계
를 포함하고,
w_k는 k번째 고유음성성분에 대한 가중치 원소로서 스칼라 실수값, E는 음성모델의 수퍼벡터들의 공분산행렬에 대해 주성분분석을 수행함에 따라 획득된 고유벡터들 중에서 가장 큰 K(1≤K≤S) 개의 고유치들에 대응하는 고유벡터들로 구성된 행렬, U는 상기 임의의 화자에 대한 음성모델을 변환한 수퍼벡터를 의미하는
수학식 1:

것을 특징으로 하는 음성합성 방법.
제3항에 있어서,
상기 음성모델을 음성모델 코드로 부호화하는 단계는,
상기 임의의 화자에 대한 음성모델을 변환한 수퍼벡터(U)가 수학식 2와 같이 주어지고,

는 상기 임의의 화자에 대한 음성모델을 v번째 아음소 GMM-HMM에서 i번째 상태의 j번째 혼합에서의 평균벡터, 또는 공분산행렬의 대각원소들로 구성된 벡터, 또는 DNN-HMM의 v번째 계층에서의 가중치행렬에서 i번째 노드의 j번째 가중치를 의미하는
수학식 2:

것을 특징으로 하는 음성합성 방법.
제4항에 있어서,
상기 음성모델을 음성모델 코드로 부호화하는 단계는,
복수의 화자의 수퍼벡터의 데이터로부터 수학식 3을 통하여 주성분 분석에 사용된 수퍼벡터들에 대한 평균벡터(M)를 도출함에 따라 획득된 음성모델 코드를 저장하는 단계
를 포함하고,
수학식 3:

s는 전체 S명의 화자들로부터 획득한 음성모델들 중에서 임의의 화자의 음성모델의 인덱스를 나타내고 mean(·)은 주성분분석에 사용된 전체 화자음성모델들에 대한 개별 원소 평균치를 그 원소로 취하는 벡터를 구하는 함수를 의미하는
것을 특징으로 하는 음성합성 방법.
제1항에 있어서,
상기 음성모델 코드를 조작함에 따라 변조된 목소리 음성 정보를 포함하는 음성모델 코드로 변환하는 단계는,
상기 부호화된 음성모델 코드를 기 선택된 목소리 음성 정보를 포함하는 음성모델 코드로 변경하거나 복수의 임의의 화자들로부터 획득된 음성모델 코드에 포함된 코드 정보를 각각 기 설정된 비율로 조합함으로써 변조된 목소리 음성 정보를 포함하는 음성모델 코드로 변환하는 단계
를 포함하는 음성합성 방법.
제1항에 있어서,
상기 부호화된 음성모델 코드 또는 상기 변조된 목소리 음성 정보를 포함하는 음성모델 코드를 복호화하여 합성 가능한 음성모델로 복원시키는 단계는,
상기 부호화된 음성모델 코드 또는 상기 변조된 목소리 음성 정보를 포함하는 음성모델 코드에 주성분 변환 복호화 알고리즘을 적용하여 수퍼벡터로 복호화하고, 상기 수퍼벡터에 대응되는 음성모델의 파라메터를 복원한 후, 상기 복원된 파라메터를 포함하는 음성모델을 저장하는 단계
를 포함하는 음성합성 방법.
컴퓨터 시스템이 음성을 합성하도록 제어하는 명령(instruction)을 포함하는 컴퓨터 판독가능 저장 매체로서,
상기 명령은,
음성모델을 음성모델 코드로 부호화하는 단계;
상기 음성모델 코드를 조작함에 따라 변조된 목소리 음성 정보를 포함하는 음성모델 코드로 변환하는 단계;
상기 부호화된 음성모델 코드 또는 상기 변조된 목소리 음성 정보를 포함하는 음성모델 코드를 복호화하여 합성 가능한 음성모델로 복원시키는 단계; 및
텍스트 정보가 입력됨에 따라 상기 복원된 음성모델을 활용하여 상기 입력된 텍스트 정보에 대해 변조된 목소리의 음성 파형을 합성하는 단계
를 포함하는 방법에 의하여 상기 컴퓨터 시스템을 제어하는, 컴퓨터 판독가능 저장 매체.
음성합성 장치에 있어서,
음성모델을 음성모델 코드로 부호화하는 음성모델 부호화기;
상기 음성모델 코드를 조작함에 따라 변조된 목소리 음성 정보를 포함하는 음성모델 코드로 변환하는 음성모델 코드 변환기;
상기 부호화된 음성모델 코드 또는 상기 변조된 목소리 음성 정보를 포함하는 음성모델 코드를 복호화하여 합성 가능한 음성모델로 복원시키는 음성모델 복호화기; 및
텍스트 정보가 입력됨에 따라 상기 복원된 음성모델을 활용하여 상기 입력된 텍스트 정보에 대해 변조된 목소리의 음성 파형을 합성하는 음성 합성기
를 포함하는 음성합성 장치.
제9항에 있어서,
상기 음성모델 부호화기는,
음성합성을 위한 훈련 또는 적응을 통해 생성된 임의의 화자의 음성모델 전부 또는 일부를 주성분 분석 기법에 의해 획득된 고유음성성분에 대한 가중치로 부호화하는 주성분 변환 부호화 알고리즘을 적용하여 디지털 음성모델 코드를 생성하는
것을 특징으로 하는 음성합성 장치.
제10항에 있어서,
상기 음성모델 부호화기는,
상기 음성모델을 개별 벡터 또는 수퍼벡터(U)로 변환하고, 상기 변환된 개별 벡터 또는 수퍼 벡터에 대해 주성분 분석에 기반하여 고유벡터 또는 고유음성성분(E)의 K(K는 자연수) 차원의 가중치 벡터(W)를 추출하는 주성분 변환 알고리즘을 수학식 1과 같이 나타내는 것
을 포함하고,
w_k는 k번째 고유음성성분에 대한 가중치 원소로서 스칼라 실수값, E는 음성모델의 수퍼벡터들의 공분산행렬에 대해 주성분 분석을 수행함에 따라 획득된 고유벡터들 중에서 가장 큰 K(1≤K≤S) 개의 고유치들에 대응하는 고유벡터들로 구성된 행렬, U는 상기 임의의 화자에 대한 음성모델을 변환한 수퍼벡터를 의미하는
수학식 1:

것을 특징으로 하는 음성합성 장치.
제11항에 있어서,
상기 음성모델 부호화기는,
상기 임의의 화자에 대한 음성모델을 변환한 수퍼벡터(U)가 수학식 2와 같이 주어지고,

는 상기 임의의 화자에 대한 음성모델을 v번째 아음소 GMM-HMM에서 i번째 상태의 j번째 혼합에서의 평균벡터, 또는 공분산행렬의 대각원소들로 구성된 벡터, 또는 DNN-HMM의 v번째 계층에서의 가중치행렬에서 i번째 노드의 j번째 가중치를 의미하는
수학식 2:

것을 특징으로 하는 음성합성 장치.
제12항에 있어서,
상기 음성모델 부호화기는,
복수의 화자의 수퍼벡터의 데이터로부터 수학식 3을 통하여 주성분 분석에 사용된 수퍼벡터들에 대한 평균벡터(M)를 도출함에 따라 획득된 음성모델 코드를 저장하는
것을 포함하고,
수학식 3:

s는 전체 S명의 화자들로부터 획득한 음성모델들 중에서 임의의 화자의 음성모델의 인덱스를 나타내고 mean(·)은 주성분 분석에 사용된 전체 화자음성모델들에 대한 개별 원소 평균치를 그 원소로 취하는 벡터를 구하는 함수를 의미하는
것을 특징으로 하는 음성합성 장치.
제9항에 있어서,
상기 음성모델 코드 변환기는,
상기 부호화된 음성모델 코드를 기 선택된 목소리 음성 정보를 포함하는 음성모델 코드로 변경하거나 복수의 임의의 화자들로부터 획득된 음성모델 코드 정보를 각각 기 설정된 비율로 조합함으로써 변조된 목소리 음성 정보를 포함하는 음성모델 코드로 변환하는
것을 특징으로 하는 음성합성 장치.
제9항에 있어서,
상기 음성모델 복호화기는,
상기 부호화된 음성모델 코드 또는 상기 변조된 목소리 음성 정보를 포함하는 음성모델 코드에 주성분 변환 복호화 알고리즘을 적용하여 수퍼벡터로 복호화하고, 상기 수퍼벡터에 대응되는 음성모델의 파라메터를 복원한 후, 상기 복원된 파라메터를 포함하는 음성모델을 저장하는
것을 특징으로 하는 음성합성 장치.