KR101666930B1

KR101666930B1 - 심화 학습 모델을 이용한 목표 화자의 적응형 목소리 변환 방법 및 이를 구현하는 음성 변환 장치

Info

Publication number: KR101666930B1
Application number: KR1020150060949A
Authority: KR
Inventors: 김남수; 강태균; 권기수; 이준엽; 김형용
Original assignee: 서울대학교산학협력단
Priority date: 2015-04-29
Filing date: 2015-04-29
Publication date: 2016-10-24

Abstract

본 발명은 심화 학습 모델을 이용한 목표 화자의 적응형 목소리 변환 방법 및 이를 구현하는 음성 변환 장치에 관한 것으로서, 보다 구체적으로는, 사용자 맞춤형 음성 보정 장치가, (1) 원시 화자의 음성 문장을 포함하는 데이터베이스에 저장된 음성 데이터에 대하여, 파형 보간법을 이용하여, 음성 문장 각각의 프레임에 대해 특징 벡터들을 추출하는 단계; (2) 상기 데이터베이스에 저장된 음성 데이터에 대하여, 각각의 화자에 대해 서로 다른 값을 갖는 코드 벡터들을 추출하는 단계; (3) 추출된 특징 벡터들 및 코드 벡터들을 이용하여 미리 설정된 딥 러닝 모델을 학습시키는 단계; 및 (4) 학습된 딥 러닝 모델에, 상기 원시 화자의 특징 벡터 및 코드 벡터와, 목표 화자의 코드 벡터를 입력한 결과에 기초하여, 목표 화자의 음성을 생성하는 단계를 포함하는 것을 그 구성상의 특징으로 한다.
본 발명에서 제안하고 있는 심화 학습 모델을 이용한 목표 화자의 적응형 목소리 변환 방법 및 이를 구현하는 음성 변환 장치에 따르면, 사용자 맞춤형 음성 보정 장치가, 원시 화자의 음성 문장을 포함하는 데이터베이스에 저장된 음성 데이터에 대하여, 파형 보간법을 이용하여 음성 문장 각각의 프레임에 대해 특징 벡터들을 추출하고, 데이터베이스에 저장된 음성 데이터에 대하여, 각각의 화자에 대해 서로 다른 값을 갖는 코드 벡터들을 추출하며, 추출된 특징 벡터들 및 코드 벡터들을 이용하여 미리 설정된 딥 러닝 모델을 학습시키고, 학습된 딥 러닝 모델에 원시 화자의 특징 벡터 및 코드 벡터와, 목표 화자의 코드 벡터를 입력한 결과에 기초하여, 목표 화자의 음성을 생성함으로써, 상대적으로 적은 음성 데이터만으로 추출된 목표 화자의 코드 벡터를 이용하여 목표 화자가 발화하지 않은 문장들도 목표 화자의 음성 특징을 반영하여 새로운 음성으로 생성할 수 있다.
또한, 추출되는 특징 벡터를 이용하여 화자에 독립적인 성분과 비독립적인 성분을 구별함으로써, 화자에 독립적인 파라미터가 추정 에러에 의해 받는 영향을 감소시킬 수 있다.

Description

심화 학습 모델을 이용한 목표 화자의 적응형 목소리 변환 방법 및 이를 구현하는 음성 변환 장치{TARGET SPEAKER ADAPTIVE VOICE CONVERSION METHOD USING DEEP LEARNING MODEL AND VOICE CONVERSION DEVICE IMPLEMENTING THE SAME}

본 발명은 목소리 변환 방법 및 이를 구현하는 음성 변환 장치에 관한 것으로서, 보다 구체적으로는 심화 학습 모델을 이용한 목표 화자의 적응형 목소리 변환 방법 및 이를 구현하는 음성 변환 장치에 관한 것이다.

음성 신호 기술이 발달함에 따라, 음성 처리 기술이 개발되고 있다. 예를 들어, 음성 변환 방법에서 많이 쓰이는 음성 생성 방법 중 하나인 신경망(Neural Network) 기반 방법의 경우, 스펙트럴 모양(spectral shape)을 표현한 특징을 이용하여 각각의 모델을 만들고, 각각의 모델들에서 나온 출력 값들을 이용하여 다시 서로를 매핑시켜주는 또 다른 모델을 만들어 변환을 수행할 수 있다. 이때, 각각의 스펙트럴 모양의 특징을 반영한 모델들로는 제한 볼츠만 기계(restricted Boltzmann machine) 등이 사용될 수 있다. 또한, 이러한 모델들에서 나온 출력 값을 매핑하는 모델로는 인공 신경망(artificial neural network), 베르누이 양방향 관련 메모리(Bernoulli bidirectional associative memory) 등이 사용될 수 있다.

기존의 신경망 기반의 음성 생성 방법의 경우, 다양한 모델을 통해 데이터를 학습하므로 데이터의 비선형 특징을 잘 반영할 수 있는 장점이 있지만, 1대 1 매핑을 통해서 모델을 학습해야 하는 한계가 있다. 즉, 한 명의 화자에서 여러 화자로의 변환을 수행할 경우, 많은 수의 모델을 필요로 하며, 그로 인해 방대한 양의 데이터가 요구되는 문제가 있다. 또한, 여러 사용 환경에서 새로운 화자의 입력을 변환할 필요성을 충족시키기 어려운 한계가 있다.

이와 관련하여, 대한민국 공개특허공보 제10-2001-0026402호(2001.04.06.)에서는 음성 인식 성능을 향상시키고 CPU 비용을 감소시키기 위한 음성 인식 장치 및 방법을 개시하고 있고, 대한민국 공개특허공보 제10-2008-0078466호(2008.08.27.)에서는 음성 인식의 1차 인식 단계에서 얻어진 후보 단어들을 시간적 사후 특징 벡터를 이용해서 리스코어링하는 기술을 개시하고 있다.

그러나 이러한 종래기술들에서는, 한 명의 화자가 다양한 사용 환경에서 1대 1 매핑 없이도 새로운 화자에 대한 목소리로 변환할 수 있는 기술을 개시하지 않는 한계가 있다.

본 발명은 기존에 제안된 방법들의 상기와 같은 문제점들을 해결하기 위해 제안된 것으로서, 사용자 맞춤형 음성 보정 장치가, 원시 화자의 음성 문장을 포함하는 데이터베이스에 저장된 음성 데이터에 대하여, 파형 보간법을 이용하여 음성 문장 각각의 프레임에 대해 특징 벡터들을 추출하고, 데이터베이스에 저장된 음성 데이터에 대하여, 각각의 화자에 대해 서로 다른 값을 갖는 코드 벡터들을 추출하며, 추출된 특징 벡터들 및 코드 벡터들을 이용하여 미리 설정된 딥 러닝 모델을 학습시키고, 학습된 딥 러닝 모델에 원시 화자의 특징 벡터 및 코드 벡터와, 목표 화자의 코드 벡터를 입력한 결과에 기초하여, 목표 화자의 음성을 생성함으로써, 상대적으로 적은 음성 데이터만으로 추출된 목표 화자의 코드 벡터를 이용하여 목표 화자가 발화하지 않은 문장들도 목표 화자의 음성 특징을 반영하여 새로운 음성으로 생성할 수 있는, 심화 학습 모델을 이용한 목표 화자의 적응형 목소리 변환 방법 및 이를 구현하는 음성 변환 장치를 제공하는 것을 그 목적으로 한다.

또한, 본 발명은, 추출되는 특징 벡터를 이용하여 화자에 독립적인 성분과 비독립적인 성분을 구별함으로써, 화자에 독립적인 파라미터가 추정 에러에 의해 받는 영향을 감소시킬 수 있는, 심화 학습 모델을 이용한 목표 화자의 적응형 목소리 변환 방법 및 이를 구현하는 음성 변환 장치를 제공하는 것을 다른 목적으로 한다.

상기한 목적들을 달성하기 위한 본 발명의 특징에 따른 심화 학습 모델을 이용한 목표 화자의 적응형 목소리 변환 방법은,

사용자 맞춤형 음성 보정 장치가,

(1) 원시 화자의 음성 문장을 포함하는 데이터베이스에 저장된 음성 데이터에 대하여, 파형 보간법을 이용하여, 음성 문장 각각의 프레임에 대해 특징 벡터들을 추출하는 단계;

(2) 상기 데이터베이스에 저장된 음성 데이터에 대하여, 각각의 화자에 대해 서로 다른 값을 갖는 코드 벡터들을 추출하는 단계;

(3) 추출된 특징 벡터들 및 코드 벡터들을 이용하여 미리 설정된 딥 러닝 모델을 학습시키는 단계; 및

(4) 학습된 딥 러닝 모델에, 상기 원시 화자의 특징 벡터 및 코드 벡터와, 목표 화자의 코드 벡터를 입력한 결과에 기초하여, 목표 화자의 음성을 생성하는 단계를 포함하는 것을 그 구성상의 특징으로 한다.

바람직하게는, 상기 단계 (3)에서는,

상기 딥 러닝 모델로부터 추정되는, 상기 원시 화자와 구별되는 제2 화자의 특징 벡터와, 상기 데이터베이스에 저장된 상기 제2 화자의 특징 벡터 사이의 에러가 최소화되도록, 상기 딥 러닝 모델을 학습시키도록 구성될 수 있다.

바람직하게는, 상기 단계 (4)에서는,

상기 원시 화자의 특징 벡터 및 코드 벡터와, 상기 목표 화자의 코드 벡터를 상기 학습된 딥 러닝 모델에 입력하여, 상기 목표 화자의 특징 벡터를 추정하고, 상기 추정된 목표 화자의 특징 벡터에 기초하여 상기 목표 화자의 음성을 생성하도록 구성될 수 있다.

더욱 바람직하게는, 상기 단계 (4)에서는,

상기 추정된 목표 화자의 특징 벡터에 대해, 파형 보간법을 역으로 적용하여 상기 목표 화자의 음성을 생성하도록 구성될 수 있다.

바람직하게는, 상기 단계 (2)에서,

상기 각각의 화자에 대해 서로 다른 값을 갖도록 추출되는 코드 벡터는, i-벡터를 포함하도록 구성될 수 있다.

더욱 바람직하게는, 상기 i-벡터는,

s = m + Tw 의 식으로 표현되되,

s는 대화측 슈퍼 벡터(conversation side supervector)이고, m은 화자 독립적인 성분(speaker-independent component)이며, T는 총 가변 행렬(total-variability matrix)이고, w가 i-벡터인 것으로 구성될 수 있다.

바람직하게는, 상기 단계 (3)에서,

상기 딥 러닝 모델은 심화 볼츠만 기계(deep Boltzmann machine) 또는 심화 오토인코더(depp autoencoder)를 포함하여 구성될 수 있다.

본 발명에서 제안하고 있는 심화 학습 모델을 이용한 목표 화자의 적응형 목소리 변환 방법 및 이를 구현하는 음성 변환 장치에 따르면, 사용자 맞춤형 음성 보정 장치가, 원시 화자의 음성 문장을 포함하는 데이터베이스에 저장된 음성 데이터에 대하여, 파형 보간법을 이용하여 음성 문장 각각의 프레임에 대해 특징 벡터들을 추출하고, 데이터베이스에 저장된 음성 데이터에 대하여, 각각의 화자에 대해 서로 다른 값을 갖는 코드 벡터들을 추출하며, 추출된 특징 벡터들 및 코드 벡터들을 이용하여 미리 설정된 딥 러닝 모델을 학습시키고, 학습된 딥 러닝 모델에 원시 화자의 특징 벡터 및 코드 벡터와, 목표 화자의 코드 벡터를 입력한 결과에 기초하여, 목표 화자의 음성을 생성함으로써, 상대적으로 적은 음성 데이터만으로 추출된 목표 화자의 코드 벡터를 이용하여 목표 화자가 발화하지 않은 문장들도 목표 화자의 음성 특징을 반영하여 새로운 음성으로 생성할 수 있다.

또한, 추출되는 특징 벡터를 이용하여 화자에 독립적인 성분과 비독립적인 성분을 구별함으로써, 화자에 독립적인 파라미터가 추정 에러에 의해 받는 영향을 감소시킬 수 있다.

도 1은 본 발명의 일실시예에 따른 심화 학습 모델을 이용한 목표 화자의 적응형 목소리 변환 방법의 흐름을 도시한 도면.
도 2는 본 발명의 일실시예에 따른 심화 학습 모델을 이용한 목표 화자의 적응형 목소리 변환 방법의 학습 단계의 흐름을 도시한 도면.
도 3은 본 발명의 일실시예에 따른 심화 학습 모델을 이용한 목표 화자의 적응형 목소리 변환 방법의 적용 단계의 흐름을 도시한 도면.
도 4는 본 발명의 일실시예에 따른 심화 학습 모델을 이용한 목표 화자의 적응형 목소리 변환 방법이 수행되는 과정을 개념적으로 도시한 도면.
도 5 및 도 6은 본 발명의 일실시예에 따른 심화 학습 모델을 이용한 목표 화자의 적응형 목소리 변환 방법의 학습 단계 및 적용 단계가 수행되는 과정을 각각 도시한 도면.

이하에서는 첨부된 도면을 참조하여 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 바람직한 실시예를 상세히 설명한다. 다만, 본 발명의 바람직한 실시예를 상세하게 설명함에 있어, 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다. 또한, 유사한 기능 및 작용을 하는 부분에 대해서는 도면 전체에 걸쳐 동일 또는 유사한 부호를 사용한다.

덧붙여, 명세서 전체에서, 어떤 부분이 다른 부분과 ‘연결’되어 있다고 할 때, 이는 ‘직접적으로 연결’되어 있는 경우뿐만 아니라, 그 중간에 다른 소자를 사이에 두고 ‘간접적으로 연결’되어 있는 경우도 포함한다. 또한, 어떤 구성요소를 ‘포함’한다는 것은, 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다.

본 발명은 심화 학습 모델을 이용한 목표 화자의 적응형 목소리 변환 방법 및 이를 구현하는 음성 변환 장치에 관한 것으로서, 본 발명의 특징에 따른 심화 학습 모델을 이용한 목표 화자의 적응형 목소리 변환 방법을 구현하는 음성 변환 장치는 음성 데이터가 저장되는 메모리와, 저장된 음성 데이터를 처리하는 마이크로프로세서를 포함하여 구성될 수 있다. 예를 들어, 이러한 음성 보정 장치는, 마이크로폰에 전기적으로 연결되는 휴대용 단말기, 통신 단말기, 개인용 컴퓨터, 노트북, PDA, 스마트폰, 태블릿 PC, MP3 플레이어 등을 포함할 수 있다. 음성 변환 장치에서 수행되는 음성 데이터의 처리는 후술하는 목표 화자의 적응형 목소리 변환 방법을 통해 상세히 설명하도록 한다.

도 1은 본 발명의 일실시예에 따른 심화 학습 모델을 이용한 목표 화자의 적응형 목소리 변환 방법의 흐름을 도시한 도면이다. 도 1에 도시된 바와 같이, 본 발명의 일실시예에 따른 심화 학습 모델을 이용한 목표 화자의 적응형 목소리 변환 방법은, 원시 화자의 음성 문장을 입력받는 단계(S110), 입력된 원시 화자의 음성 문장에 기초하여, 원시 화자의 음성 특징 및 음성 코드를 획득하는 단계(S130), 목표 화자의 음성 코드를 입력받는 단계(S150), 및 획득된 원시 화자의 음성 특징 및 음성 코드와 목표 화자의 음성 코드에 기초하여, 목표 화자의 음성을 생성하는 단계(S170)를 포함하여 구성될 수 있다. 예를 들어, 단계 S110 및 S130은 딥 러닝 모델을 학습시키는 단계에서 수행될 수 있고, 단계 S150 및 단계 S170은 학습된 딥 러닝 모델을 적용하는 단계에서 수행될 수 있다. 이하에서는, 첨부된 도면을 참조하여 본 발명의 일실시예에 따른 심화 학습 모델을 이용한 목표 화자의 적응형 목소리 변환 방법의 각각의 단계를 보다 상세히 설명하도록 한다.

단계 S110에서는, 음성 변환 장치가, 원시 화자의 음성 문장을 입력받을 수 있다. 이때, 원시 화자의 음성 문장은, 목표 화자의 음성으로 변환시키기 위한 문장으로서, 원시 화자가 발화한 음성 문장이 전체로서 입력될 수 있다.

단계 S130에서는, 입력된 원시 화자의 음성 문장에 기초하여, 원시 화자의 음성 특징 및 음성 코드를 획득할 수 있다. 단계 S130은 도 2를 참조하여 보다 상세히 설명하도록 한다.

도 2는 본 발명의 일실시예에 따른 심화 학습 모델을 이용한 목표 화자의 적응형 목소리 변환 방법의 학습 단계의 흐름을 도시한 도면이다. 도 2에 도시된 바와 같이, 본 발명의 일실시예에 따른 심화 학습 모델을 이용한 목표 화자의 적응형 목소리 변환 방법의 학습 단계는, 원시 화자의 음성 문장을 포함하는 제1 데이터베이스에 저장된 음성 데이터에 대하여, 파형 보간법을 이용하여 음성 문장의 각각의 프레임에 대해 특징 벡터들을 추출하는 단계(S131), 제1 데이터베이스에 저장된 음성 데이터에 대하여, 각각의 화자에 대해 서로 다른 값을 갖도록 코드 벡터를 추출하는 단계(S133), 추출된 특징 벡터들 및 코드 벡터들 중, 원시 화자의 특징 벡터 및 코드 벡터와 제2 화자의 코드 벡터를, 미리 설정된 딥 러닝 모델에 입력하는 단계(S135), 및 딥 러닝 모델로부터 추정되는 제2 화자의 특징 벡터와 제1 데이터베이스에 저장된 제2 화자의 특징 벡터 사이의 에러가 최소화되도록, 딥 러닝 모델을 학습시키는 단계(S137)를 포함하여 구성될 수 있다.

단계 S131에서는, 단계 S110에서 입력된 원시 화자의 음성 문장을 포함하는 제1 데이터베이스에 저장된 음성 데이터에 대하여, 파형 보간법(waveform interpolation)을 이용하여 음성 문장의 각각의 프레임에 대해 특징 벡터들을 추출할 수 있다.

단계 S133에서는, 제1 데이터베이스에 저장된 음성 데이터에 대하여, 각각의 화자에 대해 서로 다른 값을 갖도록 코드 벡터를 추출할 수 있다. 이때, 각각의 화자에 대해 서로 다른 값을 갖도록 추출되는 코드 벡터는, i-벡터를 포함하여 구성될 수 있다. 예를 들어, i-벡터는 다음 수학식 1과 같이 나타낼 수 있다.

[수학식 1]

s = m + Tw

여기서, s는 대화측 슈퍼 벡터(conversation side supervector)이고, m은 화자 독립적인 성분(speaker-independent component)이며, T는 총 가변 행렬(total-variability matrix)이고, w가 i-벡터를 나타낼 수 있다. 이때, s는 이상적인(ideal) 화자의 슈퍼벡터를 나타낸다. 따라서, s를 화자에 독립적인 부분(m)과, 비독립적인 부분(Tw)으로 구분함으로써, 화자에 독립적인 부분(m)이 추후 수행되는 딥 러닝 모델을 이용한 추정 에러로 인해 받는 영향을 감소시킬 수 있다.

단계 S135에서는, 추출된 특징 벡터들 및 코드 벡터들 중, 원시 화자의 특징 벡터 및 코드 벡터와 제2 화자의 코드 벡터를, 미리 설정된 딥 러닝 모델에 입력할 수 있다. 여기서, 제2 화자는 원시 화자와 구분되는 다른 화자일 수 있다. 또한, 딥 러닝 모델(deep learning model)로는, 심화 볼츠만 기계(deep Boltzmann machine), 심화 오토인코더(depp autoencoder) 또는 심층 구조를 갖는 일반적인 모델이나, 비선형 구조를 표현할 수 있는 모델이면 어느 것이든 사용될 수 있다.

단계 S137에서는, 딥 러닝 모델로부터 추정되는 제2 화자의 특징 벡터와 제1 데이터베이스에 저장된 제2 화자의 특징 벡터 사이의 에러가 최소화되도록, 딥 러닝 모델을 학습시킬 수 있다. 이러한 학습에 의해, 딥 러닝 모델이 원시 화자의 특징에 기초한 제2 화자의 특징 벡터가 적절하게 추정될 수 있다.

단계 S150에서는, 음성 변환 장치가 목표 화자의 음성 코드를 입력받을 수 있다. 본 단계에서 입력되는 목표 화자의 음성 코드는, 목표 화자의 완벽한 음성 문장에 1대 1 매핑 없이도 학습 단계를 통해 추출된 화자 별로 구분되는 코드 벡터로부터 얻어질 수 있다.

단계 S170에서는, 획득된 원시 화자의 음성 특징 및 음성 코드와 목표 화자의 음성 코드에 기초하여, 목표 화자의 음성을 생성할 수 있다. 단계 S170은 도 3을 참조하여 보다 상세히 설명하도록 한다.

도 3은 본 발명의 일실시예에 따른 심화 학습 모델을 이용한 목표 화자의 적응형 목소리 변환 방법의 적용 단계의 흐름을 도시한 도면이다. 도 3에 도시된 바와 같이, 본 발명의 일실시예에 따른 심화 학습 모델을 이용한 목표 화자의 적응형 목소리 변환 방법의 적용 단계는, 제1 데이터베이스에 저장된 음성 데이터에 대하여, 파형 보간법을 이용하여, 음성 문장의 각각의 프레임에 대해 특징 벡터들을 추출하는 단계(S171), 제1 데이터베이스에 저장된 음성 데이터에 대하여, 각각의 화자에 대해 서로 다른 값을 갖도록 코드 벡터를 추출하는 단계(S173), 추출된 특징 벡터들 및 코드 벡터들 중, 원시 화자의 특징 벡터 및 코드 벡터와 목표 화자의 코드 벡터를, 학습된 딥 러닝 모델에 입력하여, 목표 화자의 특징 벡터를 추정하는 단계(S175), 및 파형 보간법을 역으로 적용하여, 추정된 목표 화자의 특징 벡터로부터 목표 화자의 음성을 생성하는 단계(S177)를 포함하여 구성될 수 있다.

단계 S171 및 단계 S173은 학습 단계에서와 마찬가지로, 제1 데이터베이스에 저장된 음성 데이터에 대하여, 파형 보간법을 이용하여, 음성 문장의 각각의 프레임에 대해 특징 벡터들을 추출하고, 제1 데이터베이스에 저장된 음성 데이터에 대하여, 각각의 화자에 대해 서로 다른 값을 갖도록 코드 벡터를 추출할 수 있다. 예를 들어, 단계 S171 및 S173에서의 제1 데이터베이스에는 원시 화자의 음성 문장이 포함될 수 있다.

단계 S175에서는, 추출된 특징 벡터들 및 코드 벡터들 중, 원시 화자의 특징 벡터 및 코드 벡터와 목표 화자의 코드 벡터를, 학습된 딥 러닝 모델에 입력하여, 목표 화자의 특징 벡터를 추정할 수 있다. 즉, 단계 S175에서는 학습 단계에 의해 원시 화자의 음성을 학습한 딥 러닝 모델이, 목표 화자의 완벽한 음성 문장이 아닌, 코드 벡터를 원시 화자의 특징 벡터 및 코드 벡터와 함께 입력받고, 그로부터 목표 화자의 특징 벡터를 추정할 수 있다.

단계 S177에서는, 파형 보간법을 역으로 적용하여, 추정된 목표 화자의 특징 벡터로부터 목표 화자의 음성을 생성할 수 있다. 즉, 단계 S175로부터 추정된 목표 화자의 특징 벡터에 대해, 파형 보간법(waveform interpolation)을 역으로 적용함으로써, 목표 화자가 직접 발화하지 않은 문장일지라도, 학습된 딥 러닝 모델로부터 추정되는 목표 화자의 특징 벡터에 기초하여, 목표 화자의 음성이 생성될 수 있다.

도 4는 본 발명의 일실시예에 따른 심화 학습 모델을 이용한 목표 화자의 적응형 목소리 변환 방법이 수행되는 과정을 개념적으로 도시한 도면이다. 도 4에 도시된 바와 같이, 본 발명의 일실시예에 따른 심화 학습 모델을 이용한 목표 화자의 적응형 목소리 변환 방법은 크게, 학습 단계 및 적용 단계로 구분될 수 있는데, 학습 단계에서는 데이터베이스에 저장된 복수의 화자들의 음성을 기초로 하여, 각각의 화자의 특징 및 코드를 딥 러닝 모델에 입력하여, 딥 러닝 모델을 학습시킬 수 있다. 예를 들어, 딥 러닝 모델은, 원시 화자의 특징 벡터 및 코드 벡터가, 제2 화자의 코드 벡터와 함께 입력될 때, 실제 데이터베이스에 저장된 제2 화자의 특징 벡터와 딥 러닝 모델을 통해 추정되는 제2 화자의 특징 벡터 사이의 오차가 최소화되도록 학습될 수 있다.

이어서, 적용 단계에서는, 학습된 딥 러닝 모델에 대해, 원시 화자의 특징 벡터 및 코드 벡터를, 목표로 하는 화자의 코드 벡터와 함께 입력함으로써, 목표 화자의 특징 벡터를 추정해낼 수 있다. 그리고, 이렇게 추정된 목표 화자의 특징 벡터로부터 목표 화자의 음성을 생성할 수 있다.

도 5 및 도 6은 본 발명의 일실시예에 따른 심화 학습 모델을 이용한 목표 화자의 적응형 목소리 변환 방법의 학습 단계 및 적용 단계가 수행되는 과정을 각각 도시한 도면이다. 도 5에서는, 학습 단계로서, 복수의 화자(예를 들어, 제1 화자에 해당하는 원시 화자와, 원시 화자와 구분되는 제2 화자)의 음성 데이터에 포함된 음성 문장의 각각의 프레임에 대해 파형 보간법(WI)이 적용되어 특징 벡터 및 코드 벡터가 추출되고, 이를 딥 러닝 모델에 입력하여 딥 러닝 모델이 학습되는 구성이 도시되었다. 도 6에서는, 적용 단계로서, 원시 화자의 음성 문장으로부터 파형 보간법을 통해 특징 벡터가 추출되고, 추출된 특징 벡터와 원시 화자의 코드 벡터가 목표 화자의 코드 벡터와 함께, 학습된 딥 러닝 모델에 입력되면, 학습된 딥 러닝 모델로부터 목표 화자의 특징 벡터가 추정되어, 이를 파형 보간법의 역과정에 의해 목표 화자의 음성으로 생성하는 구성이 도시되었다.

이상 설명한 본 발명은 본 발명이 속한 기술분야에서 통상의 지식을 가진 자에 의하여 다양한 변형이나 응용이 가능하며, 본 발명에 따른 기술적 사상의 범위는 아래의 특허청구범위에 의하여 정해져야 할 것이다.

S110: 원시 화자의 음성 문장을 입력받는 단계
S130: 입력된 원시 화자의 음성 문장에 기초하여, 원시 화자의 음성 특징 및 음성 코드를 획득하는 단계
S131: 원시 화자의 음성 문장을 포함하는 제1 데이터베이스에 저장된 음성 데이터에 대하여, 파형 보간법을 이용하여 음성 문장의 각각의 프레임에 대해 특징 벡터들을 추출하는 단계
S133: 제1 데이터베이스에 저장된 음성 데이터에 대하여, 각각의 화자에 대해 서로 다른 값을 갖도록 코드 벡터를 추출하는 단계
S135: 추출된 특징 벡터들 및 코드 벡터들 중, 원시 화자의 특징 벡터 및 코드 벡터와 제2 화자의 코드 벡터를, 미리 설정된 딥 러닝 모델에 입력하는 단계
S137: 딥 러닝 모델로부터 추정되는 제2 화자의 특징 벡터와 제1 데이터베이스에 저장된 제2 화자의 특징 벡터 사이의 에러가 최소화되도록, 딥 러닝 모델을 학습시키는 단계
S150: 목표 화자의 음성 코드를 입력받는 단계
S170: 획득된 원시 화자의 음성 특징 및 음성 코드와 목표 화자의 음성 코드에 기초하여, 목표 화자의 음성을 생성하는 단계
S171: 제1 데이터베이스에 저장된 음성 데이터에 대하여, 파형 보간법을 이용하여, 음성 문장의 각각의 프레임에 대해 특징 벡터들을 추출하는 단계
S173: 제1 데이터베이스에 저장된 음성 데이터에 대하여, 각각의 화자에 대해 서로 다른 값을 갖도록 코드 벡터를 추출하는 단계
S175: 추출된 특징 벡터들 및 코드 벡터들 중, 원시 화자의 특징 벡터 및 코드 벡터와 목표 화자의 코드 벡터를, 학습된 딥 러닝 모델에 입력하여, 목표 화자의 특징 벡터를 추정하는 단계
S177: 파형 보간법을 역으로 적용하여, 추정된 목표 화자의 특징 벡터로부터 목표 화자의 음성을 생성하는 단계

Claims

사용자 맞춤형 음성 보정 장치가,
(1) 원시 화자의 음성 문장을 포함하는 데이터베이스에 저장된 음성 데이터에 대하여, 파형 보간법을 이용하여, 음성 문장 각각의 프레임에 대해 특징 벡터들을 추출하는 단계;
(2) 상기 데이터베이스에 저장된 음성 데이터에 대하여, 각각의 화자에 대해 서로 다른 값을 갖는 코드 벡터들을 추출하는 단계;
(3) 추출된 특징 벡터들 및 코드 벡터들을 이용하여 미리 설정된 딥 러닝 모델을 학습시키는 단계; 및
(4) 학습된 딥 러닝 모델에, 상기 원시 화자의 특징 벡터 및 코드 벡터와, 목표 화자의 코드 벡터를 입력한 결과에 기초하여, 목표 화자의 음성을 생성하는 단계를 포함하되,
상기 단계 (3)에서는,
상기 딥 러닝 모델로부터 추정되는, 상기 원시 화자와 구별되는 제2 화자의 특징 벡터와, 상기 데이터베이스에 저장된 상기 제2 화자의 특징 벡터 사이의 에러가 최소화되도록, 상기 딥 러닝 모델을 학습시키는 것을 특징으로 하는, 심화 학습 모델을 이용한 목표 화자의 적응형 목소리 변환 방법.
삭제
제1항에 있어서, 상기 단계 (4)에서는,
상기 원시 화자의 특징 벡터 및 코드 벡터와, 상기 목표 화자의 코드 벡터를 상기 학습된 딥 러닝 모델에 입력하여, 상기 목표 화자의 특징 벡터를 추정하고, 상기 추정된 목표 화자의 특징 벡터에 기초하여 상기 목표 화자의 음성을 생성하는 것을 특징으로 하는, 심화 학습 모델을 이용한 목표 화자의 적응형 목소리 변환 방법.
제3항에 있어서, 상기 단계 (4)에서는,
상기 추정된 목표 화자의 특징 벡터에 대해, 파형 보간법을 역으로 적용하여 상기 목표 화자의 음성을 생성하는 것을 특징으로 하는, 심화 학습 모델을 이용한 목표 화자의 적응형 목소리 변환 방법.
제1항에 있어서, 상기 단계 (2)에서,
상기 각각의 화자에 대해 서로 다른 값을 갖도록 추출되는 코드 벡터는, i-벡터를 포함하는 것을 특징으로 하는, 심화 학습 모델을 이용한 목표 화자의 적응형 목소리 변환 방법.
제5항에 있어서, 상기 i-벡터는,
s = m + Tw 의 식으로 표현되되,
s는 대화측 슈퍼 벡터(conversation side supervector)이고, m은 화자 독립적인 성분(speaker-independent component)이며, T는 총 가변 행렬(total-variability matrix)이고, w가 i-벡터인 것을 특징으로 하는, 심화 학습 모델을 이용한 목표 화자의 적응형 목소리 변환 방법.
제1항에 있어서, 상기 단계 (3)에서,
상기 딥 러닝 모델은 심화 볼츠만 기계(deep Boltzmann machine) 또는 심화 오토인코더(depp autoencoder)를 포함하는 것을 특징으로 하는, 심화 학습 모델을 이용한 목표 화자의 적응형 목소리 변환 방법.
제1,3,4,5,6,7항 중 어느 한 항의 심화 학습 모델을 이용한 목표 화자의 적응형 목소리 변환 방법을 구현하는 음성 변환 장치.