KR101078293B1 - Kernel PCA를 이용한 GMM 기반의 음성변환 방법 - Google Patents
Kernel PCA를 이용한 GMM 기반의 음성변환 방법 Download PDFInfo
- Publication number
- KR101078293B1 KR101078293B1 KR1020090027092A KR20090027092A KR101078293B1 KR 101078293 B1 KR101078293 B1 KR 101078293B1 KR 1020090027092 A KR1020090027092 A KR 1020090027092A KR 20090027092 A KR20090027092 A KR 20090027092A KR 101078293 B1 KR101078293 B1 KR 101078293B1
- Authority
- KR
- South Korea
- Prior art keywords
- feature vector
- speech
- source
- target
- feature
- Prior art date
Links
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 60
- 238000000034 method Methods 0.000 title claims abstract description 40
- 239000000203 mixture Substances 0.000 title claims abstract description 11
- 238000000513 principal component analysis Methods 0.000 title claims description 16
- 239000013598 vector Substances 0.000 claims abstract description 121
- 239000011159 matrix material Substances 0.000 claims description 17
- 238000012360 testing method Methods 0.000 claims description 13
- 230000003595 spectral effect Effects 0.000 claims description 7
- 230000006870 function Effects 0.000 description 16
- 238000002474 experimental method Methods 0.000 description 12
- 238000009826 distribution Methods 0.000 description 9
- 238000012549 training Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 4
- 238000009499 grossing Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 239000000470 constituent Substances 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 230000001131 transforming effect Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 230000001174 ascending effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000011426 transformation method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
본 발명의 일실시예에 따른 음성변환 시스템의 음성변환 방법은, 소스 스피치(source speech)에 대한 특징벡터인 소스 특징벡터를 상기 소스 스피치로부터 추출하고, 타겟 스피치(target speech)에 대한 특징벡터인 타겟 특징벡터를 상기 타겟 스피치로부터 추출하는 단계; 상기 소스 특징벡터를 커널 함수를 통해 특징공간 상의 제1 소스 특징벡터로 프로젝션(projection)하는 단계; 상기 제1 소스 특징벡터 및 상기 타겟 특징벡터를 한 쌍으로 하는 통합 특징벡터를 통해 GMM(Gaussian Mixture Model) 모델링을 수행하여 음성변환 함수를 도출하는 단계; 및 상기 음성변환 함수 및 선정된(predetermined) 피치(pitch) 정보를 통해 상기 소스 스피치를 상기 타겟 스피치로 변환하는 단계를 포함한다.
음성, 음성변환, GMM, KPCA, 특징벡터
Description
본 발명은 KPCA(kernel Principal Component analysis) 기법을 통해 입력공간에 존재하는 원시화자의 특징벡터를 특징공간 상의 특징벡터로 변환하여 원시화자의 특징벡터들을 새로운 분포로 재구성하며, 비선형(NON-LINEAR) 커널의 특성을 이용하여 입력공간에서 특징벡터가 갖는 차원보다 높은 차원을 갖는 새로운 특징벡터로 변환함으로써, 특징벡터가 과도하게 부드러워지는 성향(over-smoothing effect)을 방지하고, 인접한 프레임들 간의 연관성을 최대한 고려하여 음성변환의 품질을 극대화할 수 있는 음성변환 시스템의 음성변환 방법에 관한 것이다.
사람이 발성한 음성은 언어적 정보뿐만 아니라 음성을 발화한 화자의 개인성 정보를 포함한다. 음성변환은 화자의 개인성 정보를 다른 화자의 개인성으로 치환화는 기술이다. 이 때 고려되어야 할 화자의 개인성 요소는 크게 음향학적 요소와 운율적 요소로 나눌 수 있다.
음향학적 요소에는 성도 특성을 반영하는 포만트 주파수(formant frequency), 포만트 대역폭(formant bandwidth), 스펙트럼 경사(spectrum tilt)와 성문 파형(glottal waveform) 등이 있다. 운율적 요소에는 기본주파수 궤적, 음소별 지속시간, 휴지기, 에너지 등이 있다. 완전한 음성변환을 위해서는 이러한 요소들의 변환이 모두 이루어져야 한다. 그러나, 운율요소의 변환은 화자의 발성습관을 모델링 해야 한다는 점에서 매우 어려운 작업이며, 현재의 음성변환 기술들도 음향학적 요소의 변환에 주력하고 있는 실정이다.
음향학적 요소의 변환은 스펙트럼 포락(spectrum envelope)의 변환을 통해 이루어지며, 크게 포만트 주파수의 변환을 통한 방법과 포락 전체 모양의 변환을 수행하는 방법으로 나뉜다. 전자의 경우, 원시화자와 목적화자의 스펙트럼 포락 중 포만트의 대응관계만을 학습하여 포만트 주파수 및 포만트 대역폭의 변환을 수행한다. 이러한 방법에는 선형변환에 의한 방법, 신경회로망(Neural Network)을 이용하는 방법 등이 있다.
후자의 경우, 학습 데이터의 동적 시간정합(dynamic time warping)에 의해 파라미터 간 대응관계를 구한 후, 이 대응관계를 학습시켜 화자 간의 사상관계로 정의한다. 사상관계를 학습시키기 위해 코드북 사상을 이용하는 방법이 시도되었으며, 이 후 신경회로망, 다중선형회귀분석(linear multivariate regression), 가우시안 혼합모델(Gaussian Mixture Model) 등의 방법이 사용되고 있다.
최근 음성변환에서 뛰어난 성능을 보여주는 기법은 화자의 음향학적 공간(acoustic space)을 가우시안 혼합모델(GMM: Gaussian Mixture Model)을 이용하여 모델링하는 방식이다. GMM 기반의 음성변환 시스템은 다른 음성변환 기법에 비 해 특징벡터를 연속적으로 변환할 수 있다는 장점으로 인해 많이 사용되고 있다. 그러나, 특징벡터를 지나치게 부드럽게(over-smoothing effect) 만들기 때문에 음성변환의 질이 떨어진다는 단점을 갖고 있다. 또한, 프레임 단위로 변환을 하므로 인접한 프레임 들 간의 연관성을 무시하게 되어 변환의 질이 떨어진다는 단점이 있다.
이에, 음성변환 시 인접한 특징벡터 간의 관계를 세밀하게 표현하고, 음향학적 공간 내에서 특징벡터를 구분할 수 있는 해상도(resolution)를 증가시켜 음성변환의 성능을 극대화 할 수 있는 기술의 개발이 요구되고 있다.
본 발명은 상기와 같은 종래 기술을 개선하기 위해 안출된 것으로서, KPCA(kernel Principal Component analysis) 기법을 통해 입력공간에 존재하는 원시화자의 특징벡터를 특징공간 상의 특징벡터로 변환하여 원시화자의 특징벡터들을 새로운 분포로 재구성하며, 비선형(NON-LINEAR) 커널의 특성을 이용하여 입력공간에서 특징벡터가 갖는 차원보다 높은 차원을 갖는 새로운 특징벡터로 변환함으로써, 특징벡터가 과도하게 부드러워지는 성향(over-smoothing effect)을 방지하고, 인접한 프레임들 간의 연관성을 최대한 고려하여 음성변환의 품질을 극대화할 수 있는 음성변환 시스템의 음성변환 방법을 제공하는 것을 목적으로 한다.
상기의 목적을 이루고 종래기술의 문제점을 해결하기 위하여, 본 발명의 일실시예에 따른 음성변환 시스템의 음성변환 방법은, 소스 스피치(source speech)에 대한 특징벡터인 소스 특징벡터를 상기 소스 스피치로부터 추출하고, 타겟 스피치(target speech)에 대한 특징벡터인 타겟 특징벡터를 상기 타겟 스피치로부터 추출하는 단계; 상기 소스 특징벡터를 커널 함수를 통해 특징공간 상의 제1 소스 특징벡터로 프로젝션(projection)하는 단계; 상기 제1 소스 특징벡터 및 상기 타겟 특징벡터를 한 쌍으로 하는 통합 특징벡터를 통해 GMM(Gaussian Mixture Model) 모델링을 수행하여 음성변환 함수를 도출하는 단계; 및 상기 음성변환 함수 및 선정된(predetermined) 피치(pitch) 정보를 통해 상기 소스 스피치를 상기 타겟 스피치 로 변환하는 단계를 포함한다.
본 발명의 음성변환 시스템의 음성변환 방법에 따르면, KPCA(kernel Principal Component analysis) 기법을 통해 입력공간에 존재하는 원시화자의 특징벡터를 특징공간 상의 특징벡터로 변환하여 원시화자의 특징벡터들을 새로운 분포로 재구성하며, 비선형(NON-LINEAR) 커널의 특성을 이용하여 입력공간에서 특징벡터가 갖는 차원보다 높은 차원을 갖는 새로운 특징벡터로 변환함으로써, 특징벡터가 과도하게 부드러워지는 성향(over-smoothing effect)을 방지하고, 인접한 프레임들 간의 연관성을 최대한 고려하여 음성변환의 품질을 극대화할 수 있는 효과를 얻을 수 있다.
이하에서는 첨부된 도면을 참조하여 본 발명의 실시예를 상세히 설명한다.
도 1은 본 발명의 일실시예에 따른 음성변환 시스템의 구성을 도시한 블록도이다.
GMM(Gaussian Mixture Model)을 통해 음성 데이터를 모델링하기 위해서는 각 화자별로 동일한 문장을 발음한 데이터데이스가 필요하다. 하지만, 동일한 발음을 하였다 하더라도 사람마다 문장을 발음하는 속도가 다르므로, 두 문장의 길이는 달라질 수 밖에 없다. 이를 보완하기 위하여 두 문장 간의 시간정합을 위해 DTW(danamic Time warping) 기법을 사용할 수 있다. DTW를 통해 시간정합이 이루 어진 결과를 갖고 원시화자의 특징벡터 와 목적화자의 특징벡터 를 한 쌍으로 묶어 하나의 특징벡터 를 구성한다.
문장을 이루는 수천 개의 특징벡터 는 수학식 1에서와 같이 M 개의 서로 다른 가우시안 분포로 모델링된다. 각 가우시안 분포()는 각기 다른 비중()만큼을 차지하며 이를 모두 합하여 전체 음성 데이터를 모델링할 수 있다.
공분산 행렬()의 구성 행렬인 은 주로 대각행렬(diagonal matrix)을 사용한다. 음성 데이터로부터 수학식 1의 파라미터들을 결정하기 위해서는 원시화자의 특징벡터와 목적화자의 특징벡터를 결합한 특징벡터를 훈련 데이터로 사용하여 EM(Expectation Maximization) 과정을 수행한다. EM의 결과로 나온 조인트 확률 함수(joint probability)를 실제 음성변환에 사용하기 위해선 MMSE(Minimum Mean Square Error)를 만족하는 추정식(estimator)인 수학식 3을 이용할 수 있다.
한편, 일반적인 PCA(Principal Component Analysis)는 주어진 데이터의 분포를 반영한 새로운 기저(basis)를 찾아내어 효과적으로 데이터를 표현하는 기법이다. KCPA(Kernel Principal Component Analysis)는 PCA와 동일한 원리를 이용하지만, 입력공간 상에서 PCA를 취하지 않고 특징공간에서 PCA를 취한다는 차이점이 있다. 우선 PCA를 통해 주어진 특징벡터로부터 새로운 특징벡터를 구하는 방법을 설명한다.
수학식 5에서 는 가 고차원으로 변환된 특징벡터이며, F는 임의의 고차원 공간으로 특징공간으로 부를 수 있으며, 특징벡터 가 속한 공간 을 입력공간이라 부를 수 있다. 함수로 프로젝션된 특징공간 상의 특징벡터는 이론상 무한의 차원을 가질 수 있고, 무한대로 커질 수 있으므로, 커널 트릭(kernel trick)을 이용할 수 있다. 피쳐 스페이스(Feature space) 상의 특징벡터를 라 하고, 이들의 평균이 이라 가정하는 경우, 공분산 행렬은 수학식 6과 같다.
수학식 9에 수학식 6 및 수학식 8을 대입하고, 커널 행렬(kernel matrix)인 크기의 행렬 의 i행 j열의 각 원소, 를 와 의 내적으 로 정의하면 수학식 10과 같다.
수학식 10으로부터 수학식 11을 유도할 수 있다.
수학식 11에서 양변을 로 나누면, 가 되고, 는 고유값 문제로 연산될 수 있다. 수학식 11의 0이 아닌 고유값이 큰 순으로 정렬된 고유벡터 k개로 구성된 가 있을 때, 수학식 7에서 같은 방법으로 선택된 k개의 고유벡터로 구성된 은 고유벡터의 크기가 1이라는 정의를 만족시키기 위해 수학식 12와 같이 정규화(normalization)할 수 있다.
이하에서는 KCPA 기법을 통해 입력공간에 존재하는 원시화자의 특징벡터를 특징공간 상의 특징벡터로 변환함으로써, 원시화자의 특징벡터들을 새로운 분포를 따르도록 하며, 비선형(non linear) 커널의 특성을 이용하여 입력공간에서 특징벡터가 갖는 차원보다 높은 차원을 갖는 새로운 특징벡터가 되도록 하는 음성변환 시스템 및 기법에 대하여 설명한다.
원시화자의 음성을 LPC cepstral 분석(analysis) 과정을 통해 특징벡터를 추출한다. 또한, 목적화자의 음성에 대해서도 동일한 방법으로 특징벡터를 추출한다. 상기 원시화자의 특징벡터는 커널 함수를 통해 특징공간 상의 특징벡터로 전사시킨다. 특징공간에서의 원시화자의 특징벡터는 입력공간 상의 특징벡터와는 다 른 형태의 분포를 띄게 된다. 또한, 특징공간으로 전사된 특징벡터는 입력공간에서의 특징벡터보다 높은 차원을 가질 수 있게 된다. 상기 커널함수로는 폴리노미얼(polynomial) 형태인 이나 라플라시안(Laplacian) 형태인 등이 사용될 수 있다.
입력공간에서의 특징벡터로부터 특징공간에서의 특징벡터를 구하는 과정을 살펴보면, 먼저 원시화자의 특징벡터로부터 커널의 주성분인 를 d개 만큼 추출한다. 입력공간의 차원수보다 높은 차원인 d를 설정함으로써, 가우시안 모델링의 정확성을 높일 수 있다. 원시화자의 특징벡터 는 비선형 함수를 거쳐서 와 같이 표현되며, 실질적으로 특징공간으로 전사된 특징벡터는 수학식 15를 통해 구할 수 있다.
수학식 15는 특징공간에서의 차원 중 한인 계수를 나타내며 총 d개의 계수를 벡터로 묶어 특징공간의 특징벡터를 이루게 된다. GMM를 훈련하기 위해 d 차원의 원시화자 특징벡터와 d`차원의 목적화자 특징벡터를 연결한 벡터 z를 기본으로 특징벡터를 구성할 수 있다. 이는 수학식 16과 같다.
기존의 GMM 훈련과정에서 사용한 공분산 행렬은 구성행렬을 대각형태(diagonal)로 하였지만, 본 실시예의 경우 x와 y의 차원수가 서로 다르므로, 수학식 17로 표현되는 공분산 행렬의 구성행렬()이 정방형이 아닌 직사각형으로 표현되어 대각행렬을 사용할 수 없다. 따라서, 본 발명에서는 공분산 행렬의 원소를 전부 사용하는 수학식 17의 형태로 구현할 수 있다.
GMM 모델링이 종료된 후 실제 변환 과정은 다음과 같다. 원시화자가 발성한 입력음성(test speech)을 LPC cepstral 분석과정을 통해 입력공간에서의 특징벡터를 추출한다. 그리고 상기 특징벡터를 KCPA 분석과정을 거쳐 특징공간에서의 특징벡터 로 전사할 수 있다. 이에 따라 변환된 특징벡터는 수학식 18과 같다.
원시화자의 입력음성(test source speech)를 변환된 음성으로 바꾸기 위해서는 변환된 특징벡터 와 더불어 피치(pitch) 정보가 필요한데, 이는 원시화자 의 테스트 음성에 대응되는 목적화자의 피치(pitch) 정보를 추출하여 사용할 수 있다. 또한, 상기 변환된 특징벡터 는 스펙트럴 인벨로프(spectral envelope)이므로 레시듀얼 에러 시그널(residual error signal)은 원시화자의 입력음성에 대응되는 목적화자의 것으로 합성될 수 있다.
이하에서는 본 발명에 따른 음성변환 시스템 및 기법을 통한 실험 및 그 결과에 대해 설명한다.
본 실험에서 사용한 음성 데이터베이스는 총 2 명의 서로 다른 성별의 화자가 발성한 문장으로 구성되어 있다. 각 화자는 총 450개의 동일한 문장을 발음하였으며, 한 문장은 2초 내지 3초 정도의 길이로 구성된다. 녹음은 무향실에서 16KHz 샘플링으로 진행되었으며, 발성된 내용은 일반적인 영어문장이다.
총 20개의 문장을 임의로 선택하여 음성변환 품질평가를 위한 테스트 세트로 구성하였고, 변환품질을 측정하는 평가식으로 수학식 19를 사용하였다. 훈련 데이터로부터 테스트 세트에서 사용된 문장을 제외한 나머지 문장 중 10,15,20개의 문장을 임의로 추출하였다.
특징벡터는 LPC(Linear Prediction Coding) 계수를 추출한 후에 cepstrum) 계수로 변환하였으며, LPC order는 20차로 하였다. 하나의 프레임은 20ms이며, 프 레임 간격은 10ms로 설정하였다. 커널함수는 여러가지 종류를 사용하였으며, 평균적으로 가장 뛰어난 성능을 보여주는 Laplacian 함수를 기반으로 실험성능을 비교하였다.
실험은 기존의 GMM 시스템을 사용하여 변환된 문장과 KPCA를 이용한 GMM 기반의 시스템으로 변환한 문장의 cepstral distortion의 차이를 비교하였다. GMM을 훈련하기 위해 사용하는 문장 수의 변화에 따라서 변환성능이 어떻게 변하는지 살펴보기 위한 실험을 수행하였다. 10, 15, 20개의 훈련문장에 대해 최적의 혼합수(mixture)는 실험적으로 모두 30개로 나타났다. 최적의 혼합수를 찾기 위해 20개부터 50개까지 5개의 간격을 갖고 실험하였다.
도 2와 같이 모든 경우에 대해 KPCA를 이용한 음성변환 시스템이 기존의 GMM을 이용한 변환 시스템에 비하여 높은 성능을 보여주었다. 문장 수가 10문장에서 20문장으로 늘어나면서 성능향상이 점차적으로 줄어들었으나 본 발명의 실험에서 사용한 것과 동일한 데이터베이스를 사용한 기존의 음성변환 연구에서 본 실험의 결과와 유사한 추이를 보여주었다.
본 발명에서는 음성변환의 성능향상을 위한 요인으로, 음성 특징벡터의 분포를 다르게 하여 모델링의 질을 높일 수 있다는 점과, 특징벡터의 차원 수를 늘린다는 점을 제시하였다. 훈련에 사용한 문장 수를 변화시켜 가면 진행한 실험은 상기 두 가지 요인을 모두 적용한 결과이므로, 둘 중의 어떤 요인이 성능향상에 크게 기여하는지를 살펴보기 위해 동일한 문장수(10문장)에 대해 특징벡터의 차원 수만을 바꾸어가면 실험하였다. 도 3과 같이 차원수는 기존 특징벡터의 차원 수와 같은 20차원부터 50차원까지 변화시켜가며 추이를 살펴보았다. 실제 10문장의 훈련데이터와 40차원의 특징벡터를 사용한 경우, 기존의 GMM과 KPCA를 이용한 GMM의 CD 차이는 0.034(=3.041-3.007)이고, 10문장의 훈련데이터와 20차원의 특징벡터를 사용한 경우 CD 차이는 0.023(3.041-3.018)으로 차원수의 변화로 얻은 이익은 32%로 나타났다. 역으로, 특징벡터의 재분포로 얻은 이익은 68%임을 알 수 있었다.
도 3을 통해 특징벡터의 차원수가 높아짐에 따라 변환의 성능이 높아진 것을 알 수 있다. 하지만, 어느 차원 이후에는 오히려 성능이 다시 감소하는 것으로 나타났다. 이는 모델링 기법에서 볼 수 있는 오버피팅(overfitting) 문제로 볼 수 있다.
도 4에서 두 번째 그림은 GMM을 통해 변환한 음성의 필터를 나타내고 있는데, 타원으로 표시된 것처럼 목적화자의 필터(target filter)의 모양에 비해 오버스무싱(over smoothing)된 것을 알 수 있다. 그에 비하여 KPCA GMM을 통해 변환한 음성의 필터(세번째 그림)는 목적화자의 필터의 모양에 근접한 것을 알 수 있다. 따라서, KPCA GMM을 통한 변환이 GMM 변환에 비해 변환성능이 높다는 것을 확인할 수 있다.
본 발명에 따른 음성변환 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 상기 매체는 프로그램 명령, 데이터 구조 등을 지정하는 신호를 전송하는 반송파를 포함하는 광 또는 금속선, 도파관 등의 전송 매체일 수도 있다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 이는 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 따라서, 본 발명 사상은 아래에 기재된 특허청구범위에 의해서만 파악되어야 하고, 이의 균등 또는 등가적 변형 모두는 본 발명 사상의 범주에 속한다고 할 것이다.
도 1은 본 발명의 일실시예에 따른 음성변환 시스템의 구성을 도시한 블록도.
도 2는 본 발명의 일실시예에 따라 수행한 실험에 있어 훈련에 사용한 문장 수에 따른 cepstral distortion을 도시한 그래프.
도 3은 본 발명의 일실시예에 따라 수행한 실험에 있어 특징벡터의 차원수에 따른 cepstral distortion을 도시한 그래프.
도 4는 본 발명의 일실시예에 따라 수행한 실험에 있어 변환된 파형의 필터를 도시한 그래프.
Claims (10)
- 소스 스피치(source speech)에 대한 특징벡터인 소스 특징벡터를 상기 소스 스피치로부터 추출하고, 타겟 스피치(target speech)에 대한 특징벡터인 타겟 특징벡터를 상기 타겟 스피치로부터 추출하는 단계;상기 소스 특징벡터를 커널 함수를 통해 특징공간 상의 제1 소스 특징벡터로 프로젝션(projection)하는 단계;상기 제1 소스 특징벡터 및 상기 타겟 특징벡터를 한 쌍으로 하는 통합 특징벡터를 통해 GMM(Gaussian Mixture Model) 모델링을 수행하여 음성변환 함수를 도출하는 단계; 및상기 음성변환 함수 및 선정된(predetermined) 피치(pitch) 정보를 통해 상기 소스 스피치를 상기 타겟 스피치로 변환하는 단계를 포함하되,상기 소스 특징벡터를 커널 함수를 통해 특징공간 상의 제1 소스 특징벡터로 프로젝션(projection)하는 단계는,상기 소스 특징벡터를 KPCA(kernel Principal Component analysis) 분석을 통해 상기 특징공간에서의 상기 제1 소스 특징벡터로 프로젝션하는 단계를 포함하며,상기 소스 특징벡터를 KPCA(kernel Principal Component analysis) 분석을 통해 상기 특징공간에서의 상기 제1 소스 특징벡터로 프로젝션하는 단계는,상기 소스 스피치의 원시화자의 상기 소스 특징벡터로부터 커널의 주성분을 d개 추출하는 단계;상기 d 개수를 차원으로 갖는 가우시안 모델링을 통해 특징공간을 설정하는 단계; 및상기 특징공간으로 상기 소스 특징벡터를 프로젝션하여 상기 제1 소스 특징벡터를 산출하는 단계를 포함하고,상기 d는 상기 소스 스피치의 입력 공간의 차원수 보다 높은 값으로 설정되는 것을 특징으로 하는 음성변환 시스템의 음성변환 방법.
- 제1항에 있어서,소스 스피치(source speech)에 대한 특징벡터인 소스 특징벡터를 상기 소스 스피치로부터 추출하고, 타겟 스피치(target speech)에 대한 특징벡터인 타겟 특징벡터를 상기 타겟 스피치로부터 추출하는 단계는,상기 소스 스피치로부터 LPC 켑스트럴(Linear Predictive Coding cepstral) 분석 기법을 통해 상기 소스 특징벡터를 추출하는 단계; 및상기 타겟 스피치로부터 상기 LPC 켑스트럴(Linear Predictive Coding cepstral) 분석 기법을 통해 상기 타겟 특징벡터를 추출하는 단계를 포함하는 것을 특징으로 하는 음성변환 시스템의 음성변환 방법.
- 삭제
- 삭제
- 삭제
- 제1항에 있어서,상기 제1 소스 특징벡터 및 상기 타겟 특징벡터를 한 쌍으로 하는 통합 특징벡터를 통해 GMM(Gaussian Mixture Model) 모델링을 수행하여 음성변환 함수를 도출하는 단계는,공분산 행렬의 원소를 모두 사용하는 형태로 구현되는 상기 GMM(Gaussian Mixture Model) 모델링을 수행하는 단계를 포함하는 것을 특징으로 하는 음성변환 시스템의 음성변환 방법.
- 제1항에 있어서,상기 음성변환 함수 및 선정된(predetermined) 피치(pitch) 정보를 통해 상기 소스 스피치를 상기 타겟 스피치로 변환하는 단계는,상기 소스 스피치에 대한 테스트 스피치(test speech)를 LPC 켑스트럴(Linear Predictive Coding cepstral) 분석 기법을 통해 테스트 특징벡터를 추출하는 단계;상기 테스트 특징벡터를 KPCA(kernel Principal Component analysis) 분석을 통해 특징공간에서의 테스트 제1 테스트 특징벡터로 프로젝션하는 단계; 및상기 음성변환 함수 및 상기 피치(pitch) 정보를 통해 상기 제1 테스트 특징벡터를 상기 타겟 스피치로 변환하는 단계를 포함하는 것을 특징으로 하는 음성변환 시스템의 음성변환 방법.
- 제7항에 있어서,상기 피치(pitch) 정보는 상기 소스 스피치의 원시화자의 테스트 음성에 대응되는 상기 타켓 스피치의 목적화자의 피치 정보로 구현되는 것을 특징으로 하는 음성변환 시스템의 음성변환 방법.
- 제7항에 있어서,상기 음성변환 함수의 특징벡터는 스펙트럴 인벨로프(spectral envelope)인 것을 특징으로 하는 음성변환 시스템의 음성변환 방법.
- 제1항, 제2항, 제6항 내지 제9항 중 어느 한 항의 방법을 실행시키기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020090027092A KR101078293B1 (ko) | 2009-03-30 | 2009-03-30 | Kernel PCA를 이용한 GMM 기반의 음성변환 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020090027092A KR101078293B1 (ko) | 2009-03-30 | 2009-03-30 | Kernel PCA를 이용한 GMM 기반의 음성변환 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20100108843A KR20100108843A (ko) | 2010-10-08 |
KR101078293B1 true KR101078293B1 (ko) | 2011-10-31 |
Family
ID=43130050
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020090027092A KR101078293B1 (ko) | 2009-03-30 | 2009-03-30 | Kernel PCA를 이용한 GMM 기반의 음성변환 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101078293B1 (ko) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101408902B1 (ko) * | 2013-03-28 | 2014-06-19 | 한국과학기술원 | 뇌의 음성신호처리에 기반한 잡음 강인성 음성인식 방법 |
CN104392717A (zh) * | 2014-12-08 | 2015-03-04 | 常州工学院 | 一种基于声道谱高斯混合建模的快速语音转换系统及其方法 |
CN108510995B (zh) * | 2018-02-06 | 2021-06-08 | 杭州电子科技大学 | 面向语音通信的身份信息隐藏方法 |
-
2009
- 2009-03-30 KR KR1020090027092A patent/KR101078293B1/ko active IP Right Grant
Also Published As
Publication number | Publication date |
---|---|
KR20100108843A (ko) | 2010-10-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kinnunen et al. | An overview of text-independent speaker recognition: From features to supervectors | |
Boril et al. | Unsupervised equalization of Lombard effect for speech recognition in noisy adverse environments | |
US8862472B2 (en) | Speech synthesis and coding methods | |
Le Cornu et al. | Generating intelligible audio speech from visual speech | |
Mallouh et al. | New transformed features generated by deep bottleneck extractor and a GMM–UBM classifier for speaker age and gender classification | |
Gunawan et al. | A review on emotion recognition algorithms using speech analysis | |
Almaadeed et al. | Text-independent speaker identification using vowel formants | |
Geoffrey et al. | Statistical models in forensic voice comparison | |
Van Segbroeck et al. | Rapid language identification | |
Nirmal et al. | Voice conversion using general regression neural network | |
Kumar et al. | Improvements in the detection of vowel onset and offset points in a speech sequence | |
EP4266306A1 (en) | A speech processing system and a method of processing a speech signal | |
Nidhyananthan et al. | Language and text-independent speaker identification system using GMM | |
Maghsoodi et al. | Speaker recognition with random digit strings using uncertainty normalized HMM-based i-vectors | |
Al-Radhi et al. | Deep Recurrent Neural Networks in speech synthesis using a continuous vocoder | |
KR101078293B1 (ko) | Kernel PCA를 이용한 GMM 기반의 음성변환 방법 | |
Wisesty et al. | Feature extraction analysis on Indonesian speech recognition system | |
Othmane et al. | Enhancement of esophageal speech using voice conversion techniques | |
Yamagishi et al. | Improved average-voice-based speech synthesis using gender-mixed modeling and a parameter generation algorithm considering GV | |
Bose et al. | Robust speaker identification using fusion of features and classifiers | |
Correia et al. | Anti-spoofing: Speaker verification vs. voice conversion | |
Srikanth | Speaker verification and keyword spotting systems for forensic applications | |
Nidhyananthan et al. | A framework for multilingual text-independent speaker identification system | |
Weweler | Single-Speaker End-To-End Neural Text-To-Speech Synthesis | |
Tian | Voice conversion with parallel/non-parallel data and synthetic speech detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20141006 Year of fee payment: 4 |