KR101078293B1 - Kernel PCA를 이용한 GMM 기반의 음성변환 방법 - Google Patents

Kernel PCA를 이용한 GMM 기반의 음성변환 방법 Download PDF

Info

Publication number
KR101078293B1
KR101078293B1 KR1020090027092A KR20090027092A KR101078293B1 KR 101078293 B1 KR101078293 B1 KR 101078293B1 KR 1020090027092 A KR1020090027092 A KR 1020090027092A KR 20090027092 A KR20090027092 A KR 20090027092A KR 101078293 B1 KR101078293 B1 KR 101078293B1
Authority
KR
South Korea
Prior art keywords
feature vector
speech
source
target
feature
Prior art date
Application number
KR1020090027092A
Other languages
English (en)
Other versions
KR20100108843A (ko
Inventor
오영환
배재현
한준희
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Priority to KR1020090027092A priority Critical patent/KR101078293B1/ko
Publication of KR20100108843A publication Critical patent/KR20100108843A/ko
Application granted granted Critical
Publication of KR101078293B1 publication Critical patent/KR101078293B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

본 발명의 일실시예에 따른 음성변환 시스템의 음성변환 방법은, 소스 스피치(source speech)에 대한 특징벡터인 소스 특징벡터를 상기 소스 스피치로부터 추출하고, 타겟 스피치(target speech)에 대한 특징벡터인 타겟 특징벡터를 상기 타겟 스피치로부터 추출하는 단계; 상기 소스 특징벡터를 커널 함수를 통해 특징공간 상의 제1 소스 특징벡터로 프로젝션(projection)하는 단계; 상기 제1 소스 특징벡터 및 상기 타겟 특징벡터를 한 쌍으로 하는 통합 특징벡터를 통해 GMM(Gaussian Mixture Model) 모델링을 수행하여 음성변환 함수를 도출하는 단계; 및 상기 음성변환 함수 및 선정된(predetermined) 피치(pitch) 정보를 통해 상기 소스 스피치를 상기 타겟 스피치로 변환하는 단계를 포함한다.
음성, 음성변환, GMM, KPCA, 특징벡터

Description

Kernel PCA를 이용한 GMM 기반의 음성변환 방법{METHOD OF VOICE CONVERSION BASED ON GAUSSIAN MIXTURE MODEL USING KERNEL PRINCIPAL COMPONENT ANALYSIS}
본 발명은 KPCA(kernel Principal Component analysis) 기법을 통해 입력공간에 존재하는 원시화자의 특징벡터를 특징공간 상의 특징벡터로 변환하여 원시화자의 특징벡터들을 새로운 분포로 재구성하며, 비선형(NON-LINEAR) 커널의 특성을 이용하여 입력공간에서 특징벡터가 갖는 차원보다 높은 차원을 갖는 새로운 특징벡터로 변환함으로써, 특징벡터가 과도하게 부드러워지는 성향(over-smoothing effect)을 방지하고, 인접한 프레임들 간의 연관성을 최대한 고려하여 음성변환의 품질을 극대화할 수 있는 음성변환 시스템의 음성변환 방법에 관한 것이다.
사람이 발성한 음성은 언어적 정보뿐만 아니라 음성을 발화한 화자의 개인성 정보를 포함한다. 음성변환은 화자의 개인성 정보를 다른 화자의 개인성으로 치환화는 기술이다. 이 때 고려되어야 할 화자의 개인성 요소는 크게 음향학적 요소와 운율적 요소로 나눌 수 있다.
음향학적 요소에는 성도 특성을 반영하는 포만트 주파수(formant frequency), 포만트 대역폭(formant bandwidth), 스펙트럼 경사(spectrum tilt)와 성문 파형(glottal waveform) 등이 있다. 운율적 요소에는 기본주파수 궤적, 음소별 지속시간, 휴지기, 에너지 등이 있다. 완전한 음성변환을 위해서는 이러한 요소들의 변환이 모두 이루어져야 한다. 그러나, 운율요소의 변환은 화자의 발성습관을 모델링 해야 한다는 점에서 매우 어려운 작업이며, 현재의 음성변환 기술들도 음향학적 요소의 변환에 주력하고 있는 실정이다.
음향학적 요소의 변환은 스펙트럼 포락(spectrum envelope)의 변환을 통해 이루어지며, 크게 포만트 주파수의 변환을 통한 방법과 포락 전체 모양의 변환을 수행하는 방법으로 나뉜다. 전자의 경우, 원시화자와 목적화자의 스펙트럼 포락 중 포만트의 대응관계만을 학습하여 포만트 주파수 및 포만트 대역폭의 변환을 수행한다. 이러한 방법에는 선형변환에 의한 방법, 신경회로망(Neural Network)을 이용하는 방법 등이 있다.
후자의 경우, 학습 데이터의 동적 시간정합(dynamic time warping)에 의해 파라미터 간 대응관계를 구한 후, 이 대응관계를 학습시켜 화자 간의 사상관계로 정의한다. 사상관계를 학습시키기 위해 코드북 사상을 이용하는 방법이 시도되었으며, 이 후 신경회로망, 다중선형회귀분석(linear multivariate regression), 가우시안 혼합모델(Gaussian Mixture Model) 등의 방법이 사용되고 있다.
최근 음성변환에서 뛰어난 성능을 보여주는 기법은 화자의 음향학적 공간(acoustic space)을 가우시안 혼합모델(GMM: Gaussian Mixture Model)을 이용하여 모델링하는 방식이다. GMM 기반의 음성변환 시스템은 다른 음성변환 기법에 비 해 특징벡터를 연속적으로 변환할 수 있다는 장점으로 인해 많이 사용되고 있다. 그러나, 특징벡터를 지나치게 부드럽게(over-smoothing effect) 만들기 때문에 음성변환의 질이 떨어진다는 단점을 갖고 있다. 또한, 프레임 단위로 변환을 하므로 인접한 프레임 들 간의 연관성을 무시하게 되어 변환의 질이 떨어진다는 단점이 있다.
이에, 음성변환 시 인접한 특징벡터 간의 관계를 세밀하게 표현하고, 음향학적 공간 내에서 특징벡터를 구분할 수 있는 해상도(resolution)를 증가시켜 음성변환의 성능을 극대화 할 수 있는 기술의 개발이 요구되고 있다.
본 발명은 상기와 같은 종래 기술을 개선하기 위해 안출된 것으로서, KPCA(kernel Principal Component analysis) 기법을 통해 입력공간에 존재하는 원시화자의 특징벡터를 특징공간 상의 특징벡터로 변환하여 원시화자의 특징벡터들을 새로운 분포로 재구성하며, 비선형(NON-LINEAR) 커널의 특성을 이용하여 입력공간에서 특징벡터가 갖는 차원보다 높은 차원을 갖는 새로운 특징벡터로 변환함으로써, 특징벡터가 과도하게 부드러워지는 성향(over-smoothing effect)을 방지하고, 인접한 프레임들 간의 연관성을 최대한 고려하여 음성변환의 품질을 극대화할 수 있는 음성변환 시스템의 음성변환 방법을 제공하는 것을 목적으로 한다.
상기의 목적을 이루고 종래기술의 문제점을 해결하기 위하여, 본 발명의 일실시예에 따른 음성변환 시스템의 음성변환 방법은, 소스 스피치(source speech)에 대한 특징벡터인 소스 특징벡터를 상기 소스 스피치로부터 추출하고, 타겟 스피치(target speech)에 대한 특징벡터인 타겟 특징벡터를 상기 타겟 스피치로부터 추출하는 단계; 상기 소스 특징벡터를 커널 함수를 통해 특징공간 상의 제1 소스 특징벡터로 프로젝션(projection)하는 단계; 상기 제1 소스 특징벡터 및 상기 타겟 특징벡터를 한 쌍으로 하는 통합 특징벡터를 통해 GMM(Gaussian Mixture Model) 모델링을 수행하여 음성변환 함수를 도출하는 단계; 및 상기 음성변환 함수 및 선정된(predetermined) 피치(pitch) 정보를 통해 상기 소스 스피치를 상기 타겟 스피치 로 변환하는 단계를 포함한다.
본 발명의 음성변환 시스템의 음성변환 방법에 따르면, KPCA(kernel Principal Component analysis) 기법을 통해 입력공간에 존재하는 원시화자의 특징벡터를 특징공간 상의 특징벡터로 변환하여 원시화자의 특징벡터들을 새로운 분포로 재구성하며, 비선형(NON-LINEAR) 커널의 특성을 이용하여 입력공간에서 특징벡터가 갖는 차원보다 높은 차원을 갖는 새로운 특징벡터로 변환함으로써, 특징벡터가 과도하게 부드러워지는 성향(over-smoothing effect)을 방지하고, 인접한 프레임들 간의 연관성을 최대한 고려하여 음성변환의 품질을 극대화할 수 있는 효과를 얻을 수 있다.
이하에서는 첨부된 도면을 참조하여 본 발명의 실시예를 상세히 설명한다.
도 1은 본 발명의 일실시예에 따른 음성변환 시스템의 구성을 도시한 블록도이다.
GMM(Gaussian Mixture Model)을 통해 음성 데이터를 모델링하기 위해서는 각 화자별로 동일한 문장을 발음한 데이터데이스가 필요하다. 하지만, 동일한 발음을 하였다 하더라도 사람마다 문장을 발음하는 속도가 다르므로, 두 문장의 길이는 달라질 수 밖에 없다. 이를 보완하기 위하여 두 문장 간의 시간정합을 위해 DTW(danamic Time warping) 기법을 사용할 수 있다. DTW를 통해 시간정합이 이루 어진 결과를 갖고 원시화자의 특징벡터
Figure 112009019166961-pat00001
와 목적화자의 특징벡터
Figure 112009019166961-pat00002
를 한 쌍으로 묶어 하나의 특징벡터
Figure 112009019166961-pat00003
를 구성한다.
문장을 이루는 수천 개의 특징벡터
Figure 112009019166961-pat00004
는 수학식 1에서와 같이 M 개의 서로 다른 가우시안 분포로 모델링된다. 각 가우시안 분포(
Figure 112009019166961-pat00005
)는 각기 다른 비중(
Figure 112009019166961-pat00006
)만큼을 차지하며 이를 모두 합하여 전체 음성 데이터를 모델링할 수 있다.
Figure 112009019166961-pat00007
이러한 가우시안 분포는 평균과 공분산 행렬(
Figure 112009019166961-pat00008
)로 파라미터화 될 수 있고, 세부적으로 수학식 2와 같이 표현될 수 있다.
Figure 112009019166961-pat00009
공분산 행렬(
Figure 112009019166961-pat00010
)의 구성 행렬인
Figure 112009019166961-pat00011
은 주로 대각행렬(diagonal matrix)을 사용한다. 음성 데이터로부터 수학식 1의 파라미터들을 결정하기 위해서는 원시화자의 특징벡터와 목적화자의 특징벡터를 결합한 특징벡터를 훈련 데이터로 사용하여 EM(Expectation Maximization) 과정을 수행한다. EM의 결과로 나온 조인트 확률 함수(joint probability)를 실제 음성변환에 사용하기 위해선 MMSE(Minimum Mean Square Error)를 만족하는 추정식(estimator)인 수학식 3을 이용할 수 있다.
Figure 112009019166961-pat00012
최종적으로 입력 테스트 프레임
Figure 112009019166961-pat00013
는 변환 시스템을 거쳐
Figure 112009019166961-pat00014
로 변환될 수 있다.
한편, 일반적인 PCA(Principal Component Analysis)는 주어진 데이터의 분포를 반영한 새로운 기저(basis)를 찾아내어 효과적으로 데이터를 표현하는 기법이다. KCPA(Kernel Principal Component Analysis)는 PCA와 동일한 원리를 이용하지만, 입력공간 상에서 PCA를 취하지 않고 특징공간에서 PCA를 취한다는 차이점이 있다. 우선 PCA를 통해 주어진 특징벡터로부터 새로운 특징벡터를 구하는 방법을 설명한다.
PCA 기법은 특징벡터
Figure 112009019166961-pat00015
의 공분산(covariance) 행렬로부터 여러 개의 고유벡터를 추출한다. 공분산 행렬
Figure 112009019166961-pat00016
)는 수학식 4와 같이 정의될 수 있다.
Figure 112009019166961-pat00017
새로운 기저는
Figure 112009019166961-pat00018
의 고유벡터 집합으로 구성되며, 특징벡터
Figure 112009019166961-pat00019
를 공분산 행렬로부터 얻은 새로운 기저에 전사하여 새로운 특징벡터를 얻을 수 있다.
특징벡터
Figure 112009019166961-pat00020
를 고차원 공간으로 프로젝션하는 비선형 함수를
Figure 112009019166961-pat00021
라 정의하면 수학식 5와 같이 표현될 수 있다.
Figure 112009019166961-pat00022
수학식 5에서
Figure 112009019166961-pat00023
Figure 112009019166961-pat00024
가 고차원으로 변환된 특징벡터이며, F는 임의의 고차원 공간으로 특징공간으로 부를 수 있으며, 특징벡터
Figure 112009019166961-pat00025
가 속한 공간
Figure 112009019166961-pat00026
을 입력공간이라 부를 수 있다.
Figure 112009019166961-pat00027
함수로 프로젝션된 특징공간 상의 특징벡터는 이론상 무한의 차원을 가질 수 있고, 무한대로 커질 수 있으므로, 커널 트릭(kernel trick)을 이용할 수 있다. 피쳐 스페이스(Feature space) 상의 특징벡터를
Figure 112009019166961-pat00028
라 하고, 이들의 평균이
Figure 112009019166961-pat00029
이라 가정하는 경우
Figure 112009019166961-pat00030
, 공분산 행렬은 수학식 6과 같다.
Figure 112009019166961-pat00031
상기 공분산 행렬에서 양의 고유값
Figure 112009019166961-pat00032
를 따르는 고유벡터인
Figure 112009019166961-pat00033
를 산출함으로써, 수학식 7과 같이 특징공간에서의 PCA를 수행할 수 있다.
Figure 112009019166961-pat00034
Figure 112009019166961-pat00035
Figure 112009019166961-pat00036
의 선형 결합이라 가정하고, 계수를
Figure 112009019166961-pat00037
Figure 112009019166961-pat00038
이라 하면, 수학식 8과 같이 표현될 수 있다.
Figure 112009019166961-pat00039
또한, 수학식 7의 양변에
Figure 112009019166961-pat00040
를 곱하면, 수학식 9와 같다.
Figure 112009019166961-pat00041
수학식 9에 수학식 6 및 수학식 8을 대입하고, 커널 행렬(kernel matrix)인
Figure 112009019166961-pat00042
크기의 행렬
Figure 112009019166961-pat00043
의 i행 j열의 각 원소,
Figure 112009019166961-pat00044
Figure 112009019166961-pat00045
Figure 112009019166961-pat00046
의 내적으 로 정의하면 수학식 10과 같다.
Figure 112009019166961-pat00047
수학식 10으로부터 수학식 11을 유도할 수 있다.
Figure 112009019166961-pat00048
수학식 11에서 양변을
Figure 112009019166961-pat00049
로 나누면,
Figure 112009019166961-pat00050
가 되고,
Figure 112009019166961-pat00051
는 고유값 문제로 연산될 수 있다. 수학식 11의 0이 아닌 고유값이 큰 순으로 정렬된 고유벡터 k개로 구성된
Figure 112009019166961-pat00052
Figure 112009019166961-pat00053
가 있을 때, 수학식 7에서 같은 방법으로 선택된 k개의 고유벡터로 구성된
Figure 112009019166961-pat00054
은 고유벡터의 크기가 1이라는 정의를 만족시키기 위해 수학식 12와 같이 정규화(normalization)할 수 있다.
Figure 112009019166961-pat00055
새로운 특징벡터
Figure 112009019166961-pat00056
를 앞에서 구한 커널 주성분
Figure 112009019166961-pat00057
로 프로젝션 하는 방법은 수학식 13과 같다.
Figure 112009019166961-pat00058
수학식 10 및 수학식 13은
Figure 112009019166961-pat00059
의 내적 형태로 나타나 있고, 이는 커널 함수(kernel function) k를 통해 수학식 14와 같이 유도할 수 있다.
Figure 112009019166961-pat00060
대표적인 커널 함수로는 다항식 함수인
Figure 112009019166961-pat00061
, 라디얼 베이시스 함수(radial basis function)인
Figure 112009019166961-pat00062
등이 있다.
이하에서는 KCPA 기법을 통해 입력공간에 존재하는 원시화자의 특징벡터를 특징공간 상의 특징벡터로 변환함으로써, 원시화자의 특징벡터들을 새로운 분포를 따르도록 하며, 비선형(non linear) 커널의 특성을 이용하여 입력공간에서 특징벡터가 갖는 차원보다 높은 차원을 갖는 새로운 특징벡터가 되도록 하는 음성변환 시스템 및 기법에 대하여 설명한다.
원시화자의 음성을 LPC cepstral 분석(analysis) 과정을 통해 특징벡터를 추출한다. 또한, 목적화자의 음성에 대해서도 동일한 방법으로 특징벡터를 추출한다. 상기 원시화자의 특징벡터는 커널 함수를 통해 특징공간 상의 특징벡터로 전사시킨다. 특징공간에서의 원시화자의 특징벡터는 입력공간 상의 특징벡터와는 다 른 형태의 분포를 띄게 된다. 또한, 특징공간으로 전사된 특징벡터는 입력공간에서의 특징벡터보다 높은 차원을 가질 수 있게 된다. 상기 커널함수로는 폴리노미얼(polynomial) 형태인
Figure 112009019166961-pat00063
Figure 112009019166961-pat00064
이나 라플라시안(Laplacian) 형태인
Figure 112009019166961-pat00065
등이 사용될 수 있다.
입력공간에서의 특징벡터로부터 특징공간에서의 특징벡터를 구하는 과정을 살펴보면, 먼저 원시화자의 특징벡터로부터 커널의 주성분인
Figure 112009019166961-pat00066
를 d개 만큼 추출한다. 입력공간의 차원수보다 높은 차원인 d를 설정함으로써, 가우시안 모델링의 정확성을 높일 수 있다. 원시화자의 특징벡터
Figure 112009019166961-pat00067
는 비선형 함수를 거쳐서
Figure 112009019166961-pat00068
와 같이 표현되며, 실질적으로 특징공간으로 전사된 특징벡터는 수학식 15를 통해 구할 수 있다.
Figure 112009019166961-pat00069
수학식 15는 특징공간에서의 차원 중 한인 계수를 나타내며 총 d개의 계수를 벡터로 묶어 특징공간의 특징벡터를 이루게 된다. GMM를 훈련하기 위해 d 차원의 원시화자 특징벡터와 d`차원의 목적화자 특징벡터를 연결한 벡터 z를 기본으로 특징벡터를 구성할 수 있다. 이는 수학식 16과 같다.
Figure 112009019166961-pat00070
기존의 GMM 훈련과정에서 사용한 공분산 행렬은 구성행렬을 대각형태(diagonal)로 하였지만, 본 실시예의 경우 x와 y의 차원수가 서로 다르므로, 수학식 17로 표현되는 공분산 행렬의 구성행렬(
Figure 112009019166961-pat00071
)이 정방형이 아닌 직사각형으로 표현되어 대각행렬을 사용할 수 없다. 따라서, 본 발명에서는 공분산 행렬의 원소를 전부 사용하는 수학식 17의 형태로 구현할 수 있다.
Figure 112009019166961-pat00072
GMM 모델링이 종료된 후 실제 변환 과정은 다음과 같다. 원시화자가 발성한 입력음성(test speech)을 LPC cepstral 분석과정을 통해 입력공간에서의 특징벡터를 추출한다. 그리고 상기 특징벡터를 KCPA 분석과정을 거쳐 특징공간에서의 특징벡터
Figure 112009019166961-pat00073
로 전사할 수 있다. 이에 따라 변환된 특징벡터는 수학식 18과 같다.
Figure 112009019166961-pat00074
원시화자의 입력음성(test source speech)를 변환된 음성으로 바꾸기 위해서는 변환된 특징벡터
Figure 112009019166961-pat00075
와 더불어 피치(pitch) 정보가 필요한데, 이는 원시화자 의 테스트 음성에 대응되는 목적화자의 피치(pitch) 정보를 추출하여 사용할 수 있다. 또한, 상기 변환된 특징벡터
Figure 112009019166961-pat00076
는 스펙트럴 인벨로프(spectral envelope)이므로 레시듀얼 에러 시그널(residual error signal)은 원시화자의 입력음성에 대응되는 목적화자의 것으로 합성될 수 있다.
이하에서는 본 발명에 따른 음성변환 시스템 및 기법을 통한 실험 및 그 결과에 대해 설명한다.
본 실험에서 사용한 음성 데이터베이스는 총 2 명의 서로 다른 성별의 화자가 발성한 문장으로 구성되어 있다. 각 화자는 총 450개의 동일한 문장을 발음하였으며, 한 문장은 2초 내지 3초 정도의 길이로 구성된다. 녹음은 무향실에서 16KHz 샘플링으로 진행되었으며, 발성된 내용은 일반적인 영어문장이다.
총 20개의 문장을 임의로 선택하여 음성변환 품질평가를 위한 테스트 세트로 구성하였고, 변환품질을 측정하는 평가식으로 수학식 19를 사용하였다. 훈련 데이터로부터 테스트 세트에서 사용된 문장을 제외한 나머지 문장 중 10,15,20개의 문장을 임의로 추출하였다.
Figure 112009019166961-pat00077
특징벡터는 LPC(Linear Prediction Coding) 계수를 추출한 후에 cepstrum) 계수로 변환하였으며, LPC order는 20차로 하였다. 하나의 프레임은 20ms이며, 프 레임 간격은 10ms로 설정하였다. 커널함수는 여러가지 종류를 사용하였으며, 평균적으로 가장 뛰어난 성능을 보여주는 Laplacian
Figure 112009019166961-pat00078
함수를 기반으로 실험성능을 비교하였다.
실험은 기존의 GMM 시스템을 사용하여 변환된 문장과 KPCA를 이용한 GMM 기반의 시스템으로 변환한 문장의 cepstral distortion의 차이를 비교하였다. GMM을 훈련하기 위해 사용하는 문장 수의 변화에 따라서 변환성능이 어떻게 변하는지 살펴보기 위한 실험을 수행하였다. 10, 15, 20개의 훈련문장에 대해 최적의 혼합수(mixture)는 실험적으로 모두 30개로 나타났다. 최적의 혼합수를 찾기 위해 20개부터 50개까지 5개의 간격을 갖고 실험하였다.
도 2와 같이 모든 경우에 대해 KPCA를 이용한 음성변환 시스템이 기존의 GMM을 이용한 변환 시스템에 비하여 높은 성능을 보여주었다. 문장 수가 10문장에서 20문장으로 늘어나면서 성능향상이 점차적으로 줄어들었으나 본 발명의 실험에서 사용한 것과 동일한 데이터베이스를 사용한 기존의 음성변환 연구에서 본 실험의 결과와 유사한 추이를 보여주었다.
본 발명에서는 음성변환의 성능향상을 위한 요인으로, 음성 특징벡터의 분포를 다르게 하여 모델링의 질을 높일 수 있다는 점과, 특징벡터의 차원 수를 늘린다는 점을 제시하였다. 훈련에 사용한 문장 수를 변화시켜 가면 진행한 실험은 상기 두 가지 요인을 모두 적용한 결과이므로, 둘 중의 어떤 요인이 성능향상에 크게 기여하는지를 살펴보기 위해 동일한 문장수(10문장)에 대해 특징벡터의 차원 수만을 바꾸어가면 실험하였다. 도 3과 같이 차원수는 기존 특징벡터의 차원 수와 같은 20차원부터 50차원까지 변화시켜가며 추이를 살펴보았다. 실제 10문장의 훈련데이터와 40차원의 특징벡터를 사용한 경우, 기존의 GMM과 KPCA를 이용한 GMM의 CD 차이는 0.034(=3.041-3.007)이고, 10문장의 훈련데이터와 20차원의 특징벡터를 사용한 경우 CD 차이는 0.023(3.041-3.018)으로 차원수의 변화로 얻은 이익은 32%로 나타났다. 역으로, 특징벡터의 재분포로 얻은 이익은 68%임을 알 수 있었다.
도 3을 통해 특징벡터의 차원수가 높아짐에 따라 변환의 성능이 높아진 것을 알 수 있다. 하지만, 어느 차원 이후에는 오히려 성능이 다시 감소하는 것으로 나타났다. 이는 모델링 기법에서 볼 수 있는 오버피팅(overfitting) 문제로 볼 수 있다.
도 4에서 두 번째 그림은 GMM을 통해 변환한 음성의 필터를 나타내고 있는데, 타원으로 표시된 것처럼 목적화자의 필터(target filter)의 모양에 비해 오버스무싱(over smoothing)된 것을 알 수 있다. 그에 비하여 KPCA GMM을 통해 변환한 음성의 필터(세번째 그림)는 목적화자의 필터의 모양에 근접한 것을 알 수 있다. 따라서, KPCA GMM을 통한 변환이 GMM 변환에 비해 변환성능이 높다는 것을 확인할 수 있다.
본 발명에 따른 음성변환 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 상기 매체는 프로그램 명령, 데이터 구조 등을 지정하는 신호를 전송하는 반송파를 포함하는 광 또는 금속선, 도파관 등의 전송 매체일 수도 있다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 이는 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 따라서, 본 발명 사상은 아래에 기재된 특허청구범위에 의해서만 파악되어야 하고, 이의 균등 또는 등가적 변형 모두는 본 발명 사상의 범주에 속한다고 할 것이다.
도 1은 본 발명의 일실시예에 따른 음성변환 시스템의 구성을 도시한 블록도.
도 2는 본 발명의 일실시예에 따라 수행한 실험에 있어 훈련에 사용한 문장 수에 따른 cepstral distortion을 도시한 그래프.
도 3은 본 발명의 일실시예에 따라 수행한 실험에 있어 특징벡터의 차원수에 따른 cepstral distortion을 도시한 그래프.
도 4는 본 발명의 일실시예에 따라 수행한 실험에 있어 변환된 파형의 필터를 도시한 그래프.

Claims (10)

  1. 소스 스피치(source speech)에 대한 특징벡터인 소스 특징벡터를 상기 소스 스피치로부터 추출하고, 타겟 스피치(target speech)에 대한 특징벡터인 타겟 특징벡터를 상기 타겟 스피치로부터 추출하는 단계;
    상기 소스 특징벡터를 커널 함수를 통해 특징공간 상의 제1 소스 특징벡터로 프로젝션(projection)하는 단계;
    상기 제1 소스 특징벡터 및 상기 타겟 특징벡터를 한 쌍으로 하는 통합 특징벡터를 통해 GMM(Gaussian Mixture Model) 모델링을 수행하여 음성변환 함수를 도출하는 단계; 및
    상기 음성변환 함수 및 선정된(predetermined) 피치(pitch) 정보를 통해 상기 소스 스피치를 상기 타겟 스피치로 변환하는 단계를 포함하되,
    상기 소스 특징벡터를 커널 함수를 통해 특징공간 상의 제1 소스 특징벡터로 프로젝션(projection)하는 단계는,
    상기 소스 특징벡터를 KPCA(kernel Principal Component analysis) 분석을 통해 상기 특징공간에서의 상기 제1 소스 특징벡터로 프로젝션하는 단계를 포함하며,
    상기 소스 특징벡터를 KPCA(kernel Principal Component analysis) 분석을 통해 상기 특징공간에서의 상기 제1 소스 특징벡터로 프로젝션하는 단계는,
    상기 소스 스피치의 원시화자의 상기 소스 특징벡터로부터 커널의 주성분을 d개 추출하는 단계;
    상기 d 개수를 차원으로 갖는 가우시안 모델링을 통해 특징공간을 설정하는 단계; 및
    상기 특징공간으로 상기 소스 특징벡터를 프로젝션하여 상기 제1 소스 특징벡터를 산출하는 단계를 포함하고,
    상기 d는 상기 소스 스피치의 입력 공간의 차원수 보다 높은 값으로 설정되는 것을 특징으로 하는 음성변환 시스템의 음성변환 방법.
  2. 제1항에 있어서,
    소스 스피치(source speech)에 대한 특징벡터인 소스 특징벡터를 상기 소스 스피치로부터 추출하고, 타겟 스피치(target speech)에 대한 특징벡터인 타겟 특징벡터를 상기 타겟 스피치로부터 추출하는 단계는,
    상기 소스 스피치로부터 LPC 켑스트럴(Linear Predictive Coding cepstral) 분석 기법을 통해 상기 소스 특징벡터를 추출하는 단계; 및
    상기 타겟 스피치로부터 상기 LPC 켑스트럴(Linear Predictive Coding cepstral) 분석 기법을 통해 상기 타겟 특징벡터를 추출하는 단계
    를 포함하는 것을 특징으로 하는 음성변환 시스템의 음성변환 방법.
  3. 삭제
  4. 삭제
  5. 삭제
  6. 제1항에 있어서,
    상기 제1 소스 특징벡터 및 상기 타겟 특징벡터를 한 쌍으로 하는 통합 특징벡터를 통해 GMM(Gaussian Mixture Model) 모델링을 수행하여 음성변환 함수를 도출하는 단계는,
    공분산 행렬의 원소를 모두 사용하는 형태로 구현되는 상기 GMM(Gaussian Mixture Model) 모델링을 수행하는 단계
    를 포함하는 것을 특징으로 하는 음성변환 시스템의 음성변환 방법.
  7. 제1항에 있어서,
    상기 음성변환 함수 및 선정된(predetermined) 피치(pitch) 정보를 통해 상기 소스 스피치를 상기 타겟 스피치로 변환하는 단계는,
    상기 소스 스피치에 대한 테스트 스피치(test speech)를 LPC 켑스트럴(Linear Predictive Coding cepstral) 분석 기법을 통해 테스트 특징벡터를 추출하는 단계;
    상기 테스트 특징벡터를 KPCA(kernel Principal Component analysis) 분석을 통해 특징공간에서의 테스트 제1 테스트 특징벡터로 프로젝션하는 단계; 및
    상기 음성변환 함수 및 상기 피치(pitch) 정보를 통해 상기 제1 테스트 특징벡터를 상기 타겟 스피치로 변환하는 단계
    를 포함하는 것을 특징으로 하는 음성변환 시스템의 음성변환 방법.
  8. 제7항에 있어서,
    상기 피치(pitch) 정보는 상기 소스 스피치의 원시화자의 테스트 음성에 대응되는 상기 타켓 스피치의 목적화자의 피치 정보로 구현되는 것을 특징으로 하는 음성변환 시스템의 음성변환 방법.
  9. 제7항에 있어서,
    상기 음성변환 함수의 특징벡터는 스펙트럴 인벨로프(spectral envelope)인 것을 특징으로 하는 음성변환 시스템의 음성변환 방법.
  10. 제1항, 제2항, 제6항 내지 제9항 중 어느 한 항의 방법을 실행시키기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체.
KR1020090027092A 2009-03-30 2009-03-30 Kernel PCA를 이용한 GMM 기반의 음성변환 방법 KR101078293B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020090027092A KR101078293B1 (ko) 2009-03-30 2009-03-30 Kernel PCA를 이용한 GMM 기반의 음성변환 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020090027092A KR101078293B1 (ko) 2009-03-30 2009-03-30 Kernel PCA를 이용한 GMM 기반의 음성변환 방법

Publications (2)

Publication Number Publication Date
KR20100108843A KR20100108843A (ko) 2010-10-08
KR101078293B1 true KR101078293B1 (ko) 2011-10-31

Family

ID=43130050

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020090027092A KR101078293B1 (ko) 2009-03-30 2009-03-30 Kernel PCA를 이용한 GMM 기반의 음성변환 방법

Country Status (1)

Country Link
KR (1) KR101078293B1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101408902B1 (ko) * 2013-03-28 2014-06-19 한국과학기술원 뇌의 음성신호처리에 기반한 잡음 강인성 음성인식 방법
CN104392717A (zh) * 2014-12-08 2015-03-04 常州工学院 一种基于声道谱高斯混合建模的快速语音转换系统及其方法
CN108510995B (zh) * 2018-02-06 2021-06-08 杭州电子科技大学 面向语音通信的身份信息隐藏方法

Also Published As

Publication number Publication date
KR20100108843A (ko) 2010-10-08

Similar Documents

Publication Publication Date Title
Kinnunen et al. An overview of text-independent speaker recognition: From features to supervectors
Boril et al. Unsupervised equalization of Lombard effect for speech recognition in noisy adverse environments
US8862472B2 (en) Speech synthesis and coding methods
Le Cornu et al. Generating intelligible audio speech from visual speech
Mallouh et al. New transformed features generated by deep bottleneck extractor and a GMM–UBM classifier for speaker age and gender classification
Gunawan et al. A review on emotion recognition algorithms using speech analysis
Almaadeed et al. Text-independent speaker identification using vowel formants
Geoffrey et al. Statistical models in forensic voice comparison
Van Segbroeck et al. Rapid language identification
Nirmal et al. Voice conversion using general regression neural network
Kumar et al. Improvements in the detection of vowel onset and offset points in a speech sequence
EP4266306A1 (en) A speech processing system and a method of processing a speech signal
Nidhyananthan et al. Language and text-independent speaker identification system using GMM
Maghsoodi et al. Speaker recognition with random digit strings using uncertainty normalized HMM-based i-vectors
Al-Radhi et al. Deep Recurrent Neural Networks in speech synthesis using a continuous vocoder
KR101078293B1 (ko) Kernel PCA를 이용한 GMM 기반의 음성변환 방법
Wisesty et al. Feature extraction analysis on Indonesian speech recognition system
Othmane et al. Enhancement of esophageal speech using voice conversion techniques
Yamagishi et al. Improved average-voice-based speech synthesis using gender-mixed modeling and a parameter generation algorithm considering GV
Bose et al. Robust speaker identification using fusion of features and classifiers
Correia et al. Anti-spoofing: Speaker verification vs. voice conversion
Srikanth Speaker verification and keyword spotting systems for forensic applications
Nidhyananthan et al. A framework for multilingual text-independent speaker identification system
Weweler Single-Speaker End-To-End Neural Text-To-Speech Synthesis
Tian Voice conversion with parallel/non-parallel data and synthetic speech detection

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20141006

Year of fee payment: 4