KR101666930B1 - 심화 학습 모델을 이용한 목표 화자의 적응형 목소리 변환 방법 및 이를 구현하는 음성 변환 장치 - Google Patents
심화 학습 모델을 이용한 목표 화자의 적응형 목소리 변환 방법 및 이를 구현하는 음성 변환 장치 Download PDFInfo
- Publication number
- KR101666930B1 KR101666930B1 KR1020150060949A KR20150060949A KR101666930B1 KR 101666930 B1 KR101666930 B1 KR 101666930B1 KR 1020150060949 A KR1020150060949 A KR 1020150060949A KR 20150060949 A KR20150060949 A KR 20150060949A KR 101666930 B1 KR101666930 B1 KR 101666930B1
- Authority
- KR
- South Korea
- Prior art keywords
- speaker
- voice
- learning model
- target speaker
- vector
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 53
- 238000013136 deep learning model Methods 0.000 title claims abstract description 45
- 230000003044 adaptive effect Effects 0.000 title claims abstract description 37
- 239000013598 vector Substances 0.000 claims abstract description 149
- 101100009348 Mus musculus Depp1 gene Proteins 0.000 claims description 3
- 101100009350 Rattus norvegicus Depp gene Proteins 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 239000000284 extract Substances 0.000 abstract description 9
- 238000012937 correction Methods 0.000 abstract description 4
- 238000013507 mapping Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
본 발명은 심화 학습 모델을 이용한 목표 화자의 적응형 목소리 변환 방법 및 이를 구현하는 음성 변환 장치에 관한 것으로서, 보다 구체적으로는, 사용자 맞춤형 음성 보정 장치가, (1) 원시 화자의 음성 문장을 포함하는 데이터베이스에 저장된 음성 데이터에 대하여, 파형 보간법을 이용하여, 음성 문장 각각의 프레임에 대해 특징 벡터들을 추출하는 단계; (2) 상기 데이터베이스에 저장된 음성 데이터에 대하여, 각각의 화자에 대해 서로 다른 값을 갖는 코드 벡터들을 추출하는 단계; (3) 추출된 특징 벡터들 및 코드 벡터들을 이용하여 미리 설정된 딥 러닝 모델을 학습시키는 단계; 및 (4) 학습된 딥 러닝 모델에, 상기 원시 화자의 특징 벡터 및 코드 벡터와, 목표 화자의 코드 벡터를 입력한 결과에 기초하여, 목표 화자의 음성을 생성하는 단계를 포함하는 것을 그 구성상의 특징으로 한다.
본 발명에서 제안하고 있는 심화 학습 모델을 이용한 목표 화자의 적응형 목소리 변환 방법 및 이를 구현하는 음성 변환 장치에 따르면, 사용자 맞춤형 음성 보정 장치가, 원시 화자의 음성 문장을 포함하는 데이터베이스에 저장된 음성 데이터에 대하여, 파형 보간법을 이용하여 음성 문장 각각의 프레임에 대해 특징 벡터들을 추출하고, 데이터베이스에 저장된 음성 데이터에 대하여, 각각의 화자에 대해 서로 다른 값을 갖는 코드 벡터들을 추출하며, 추출된 특징 벡터들 및 코드 벡터들을 이용하여 미리 설정된 딥 러닝 모델을 학습시키고, 학습된 딥 러닝 모델에 원시 화자의 특징 벡터 및 코드 벡터와, 목표 화자의 코드 벡터를 입력한 결과에 기초하여, 목표 화자의 음성을 생성함으로써, 상대적으로 적은 음성 데이터만으로 추출된 목표 화자의 코드 벡터를 이용하여 목표 화자가 발화하지 않은 문장들도 목표 화자의 음성 특징을 반영하여 새로운 음성으로 생성할 수 있다.
또한, 추출되는 특징 벡터를 이용하여 화자에 독립적인 성분과 비독립적인 성분을 구별함으로써, 화자에 독립적인 파라미터가 추정 에러에 의해 받는 영향을 감소시킬 수 있다.
본 발명에서 제안하고 있는 심화 학습 모델을 이용한 목표 화자의 적응형 목소리 변환 방법 및 이를 구현하는 음성 변환 장치에 따르면, 사용자 맞춤형 음성 보정 장치가, 원시 화자의 음성 문장을 포함하는 데이터베이스에 저장된 음성 데이터에 대하여, 파형 보간법을 이용하여 음성 문장 각각의 프레임에 대해 특징 벡터들을 추출하고, 데이터베이스에 저장된 음성 데이터에 대하여, 각각의 화자에 대해 서로 다른 값을 갖는 코드 벡터들을 추출하며, 추출된 특징 벡터들 및 코드 벡터들을 이용하여 미리 설정된 딥 러닝 모델을 학습시키고, 학습된 딥 러닝 모델에 원시 화자의 특징 벡터 및 코드 벡터와, 목표 화자의 코드 벡터를 입력한 결과에 기초하여, 목표 화자의 음성을 생성함으로써, 상대적으로 적은 음성 데이터만으로 추출된 목표 화자의 코드 벡터를 이용하여 목표 화자가 발화하지 않은 문장들도 목표 화자의 음성 특징을 반영하여 새로운 음성으로 생성할 수 있다.
또한, 추출되는 특징 벡터를 이용하여 화자에 독립적인 성분과 비독립적인 성분을 구별함으로써, 화자에 독립적인 파라미터가 추정 에러에 의해 받는 영향을 감소시킬 수 있다.
Description
본 발명은 목소리 변환 방법 및 이를 구현하는 음성 변환 장치에 관한 것으로서, 보다 구체적으로는 심화 학습 모델을 이용한 목표 화자의 적응형 목소리 변환 방법 및 이를 구현하는 음성 변환 장치에 관한 것이다.
음성 신호 기술이 발달함에 따라, 음성 처리 기술이 개발되고 있다. 예를 들어, 음성 변환 방법에서 많이 쓰이는 음성 생성 방법 중 하나인 신경망(Neural Network) 기반 방법의 경우, 스펙트럴 모양(spectral shape)을 표현한 특징을 이용하여 각각의 모델을 만들고, 각각의 모델들에서 나온 출력 값들을 이용하여 다시 서로를 매핑시켜주는 또 다른 모델을 만들어 변환을 수행할 수 있다. 이때, 각각의 스펙트럴 모양의 특징을 반영한 모델들로는 제한 볼츠만 기계(restricted Boltzmann machine) 등이 사용될 수 있다. 또한, 이러한 모델들에서 나온 출력 값을 매핑하는 모델로는 인공 신경망(artificial neural network), 베르누이 양방향 관련 메모리(Bernoulli bidirectional associative memory) 등이 사용될 수 있다.
기존의 신경망 기반의 음성 생성 방법의 경우, 다양한 모델을 통해 데이터를 학습하므로 데이터의 비선형 특징을 잘 반영할 수 있는 장점이 있지만, 1대 1 매핑을 통해서 모델을 학습해야 하는 한계가 있다. 즉, 한 명의 화자에서 여러 화자로의 변환을 수행할 경우, 많은 수의 모델을 필요로 하며, 그로 인해 방대한 양의 데이터가 요구되는 문제가 있다. 또한, 여러 사용 환경에서 새로운 화자의 입력을 변환할 필요성을 충족시키기 어려운 한계가 있다.
이와 관련하여, 대한민국 공개특허공보 제10-2001-0026402호(2001.04.06.)에서는 음성 인식 성능을 향상시키고 CPU 비용을 감소시키기 위한 음성 인식 장치 및 방법을 개시하고 있고, 대한민국 공개특허공보 제10-2008-0078466호(2008.08.27.)에서는 음성 인식의 1차 인식 단계에서 얻어진 후보 단어들을 시간적 사후 특징 벡터를 이용해서 리스코어링하는 기술을 개시하고 있다.
그러나 이러한 종래기술들에서는, 한 명의 화자가 다양한 사용 환경에서 1대 1 매핑 없이도 새로운 화자에 대한 목소리로 변환할 수 있는 기술을 개시하지 않는 한계가 있다.
본 발명은 기존에 제안된 방법들의 상기와 같은 문제점들을 해결하기 위해 제안된 것으로서, 사용자 맞춤형 음성 보정 장치가, 원시 화자의 음성 문장을 포함하는 데이터베이스에 저장된 음성 데이터에 대하여, 파형 보간법을 이용하여 음성 문장 각각의 프레임에 대해 특징 벡터들을 추출하고, 데이터베이스에 저장된 음성 데이터에 대하여, 각각의 화자에 대해 서로 다른 값을 갖는 코드 벡터들을 추출하며, 추출된 특징 벡터들 및 코드 벡터들을 이용하여 미리 설정된 딥 러닝 모델을 학습시키고, 학습된 딥 러닝 모델에 원시 화자의 특징 벡터 및 코드 벡터와, 목표 화자의 코드 벡터를 입력한 결과에 기초하여, 목표 화자의 음성을 생성함으로써, 상대적으로 적은 음성 데이터만으로 추출된 목표 화자의 코드 벡터를 이용하여 목표 화자가 발화하지 않은 문장들도 목표 화자의 음성 특징을 반영하여 새로운 음성으로 생성할 수 있는, 심화 학습 모델을 이용한 목표 화자의 적응형 목소리 변환 방법 및 이를 구현하는 음성 변환 장치를 제공하는 것을 그 목적으로 한다.
또한, 본 발명은, 추출되는 특징 벡터를 이용하여 화자에 독립적인 성분과 비독립적인 성분을 구별함으로써, 화자에 독립적인 파라미터가 추정 에러에 의해 받는 영향을 감소시킬 수 있는, 심화 학습 모델을 이용한 목표 화자의 적응형 목소리 변환 방법 및 이를 구현하는 음성 변환 장치를 제공하는 것을 다른 목적으로 한다.
상기한 목적들을 달성하기 위한 본 발명의 특징에 따른 심화 학습 모델을 이용한 목표 화자의 적응형 목소리 변환 방법은,
사용자 맞춤형 음성 보정 장치가,
(1) 원시 화자의 음성 문장을 포함하는 데이터베이스에 저장된 음성 데이터에 대하여, 파형 보간법을 이용하여, 음성 문장 각각의 프레임에 대해 특징 벡터들을 추출하는 단계;
(2) 상기 데이터베이스에 저장된 음성 데이터에 대하여, 각각의 화자에 대해 서로 다른 값을 갖는 코드 벡터들을 추출하는 단계;
(3) 추출된 특징 벡터들 및 코드 벡터들을 이용하여 미리 설정된 딥 러닝 모델을 학습시키는 단계; 및
(4) 학습된 딥 러닝 모델에, 상기 원시 화자의 특징 벡터 및 코드 벡터와, 목표 화자의 코드 벡터를 입력한 결과에 기초하여, 목표 화자의 음성을 생성하는 단계를 포함하는 것을 그 구성상의 특징으로 한다.
바람직하게는, 상기 단계 (3)에서는,
상기 딥 러닝 모델로부터 추정되는, 상기 원시 화자와 구별되는 제2 화자의 특징 벡터와, 상기 데이터베이스에 저장된 상기 제2 화자의 특징 벡터 사이의 에러가 최소화되도록, 상기 딥 러닝 모델을 학습시키도록 구성될 수 있다.
바람직하게는, 상기 단계 (4)에서는,
상기 원시 화자의 특징 벡터 및 코드 벡터와, 상기 목표 화자의 코드 벡터를 상기 학습된 딥 러닝 모델에 입력하여, 상기 목표 화자의 특징 벡터를 추정하고, 상기 추정된 목표 화자의 특징 벡터에 기초하여 상기 목표 화자의 음성을 생성하도록 구성될 수 있다.
더욱 바람직하게는, 상기 단계 (4)에서는,
상기 추정된 목표 화자의 특징 벡터에 대해, 파형 보간법을 역으로 적용하여 상기 목표 화자의 음성을 생성하도록 구성될 수 있다.
바람직하게는, 상기 단계 (2)에서,
상기 각각의 화자에 대해 서로 다른 값을 갖도록 추출되는 코드 벡터는, i-벡터를 포함하도록 구성될 수 있다.
더욱 바람직하게는, 상기 i-벡터는,
s = m + Tw 의 식으로 표현되되,
s는 대화측 슈퍼 벡터(conversation side supervector)이고, m은 화자 독립적인 성분(speaker-independent component)이며, T는 총 가변 행렬(total-variability matrix)이고, w가 i-벡터인 것으로 구성될 수 있다.
바람직하게는, 상기 단계 (3)에서,
상기 딥 러닝 모델은 심화 볼츠만 기계(deep Boltzmann machine) 또는 심화 오토인코더(depp autoencoder)를 포함하여 구성될 수 있다.
본 발명에서 제안하고 있는 심화 학습 모델을 이용한 목표 화자의 적응형 목소리 변환 방법 및 이를 구현하는 음성 변환 장치에 따르면, 사용자 맞춤형 음성 보정 장치가, 원시 화자의 음성 문장을 포함하는 데이터베이스에 저장된 음성 데이터에 대하여, 파형 보간법을 이용하여 음성 문장 각각의 프레임에 대해 특징 벡터들을 추출하고, 데이터베이스에 저장된 음성 데이터에 대하여, 각각의 화자에 대해 서로 다른 값을 갖는 코드 벡터들을 추출하며, 추출된 특징 벡터들 및 코드 벡터들을 이용하여 미리 설정된 딥 러닝 모델을 학습시키고, 학습된 딥 러닝 모델에 원시 화자의 특징 벡터 및 코드 벡터와, 목표 화자의 코드 벡터를 입력한 결과에 기초하여, 목표 화자의 음성을 생성함으로써, 상대적으로 적은 음성 데이터만으로 추출된 목표 화자의 코드 벡터를 이용하여 목표 화자가 발화하지 않은 문장들도 목표 화자의 음성 특징을 반영하여 새로운 음성으로 생성할 수 있다.
또한, 추출되는 특징 벡터를 이용하여 화자에 독립적인 성분과 비독립적인 성분을 구별함으로써, 화자에 독립적인 파라미터가 추정 에러에 의해 받는 영향을 감소시킬 수 있다.
도 1은 본 발명의 일실시예에 따른 심화 학습 모델을 이용한 목표 화자의 적응형 목소리 변환 방법의 흐름을 도시한 도면.
도 2는 본 발명의 일실시예에 따른 심화 학습 모델을 이용한 목표 화자의 적응형 목소리 변환 방법의 학습 단계의 흐름을 도시한 도면.
도 3은 본 발명의 일실시예에 따른 심화 학습 모델을 이용한 목표 화자의 적응형 목소리 변환 방법의 적용 단계의 흐름을 도시한 도면.
도 4는 본 발명의 일실시예에 따른 심화 학습 모델을 이용한 목표 화자의 적응형 목소리 변환 방법이 수행되는 과정을 개념적으로 도시한 도면.
도 5 및 도 6은 본 발명의 일실시예에 따른 심화 학습 모델을 이용한 목표 화자의 적응형 목소리 변환 방법의 학습 단계 및 적용 단계가 수행되는 과정을 각각 도시한 도면.
도 2는 본 발명의 일실시예에 따른 심화 학습 모델을 이용한 목표 화자의 적응형 목소리 변환 방법의 학습 단계의 흐름을 도시한 도면.
도 3은 본 발명의 일실시예에 따른 심화 학습 모델을 이용한 목표 화자의 적응형 목소리 변환 방법의 적용 단계의 흐름을 도시한 도면.
도 4는 본 발명의 일실시예에 따른 심화 학습 모델을 이용한 목표 화자의 적응형 목소리 변환 방법이 수행되는 과정을 개념적으로 도시한 도면.
도 5 및 도 6은 본 발명의 일실시예에 따른 심화 학습 모델을 이용한 목표 화자의 적응형 목소리 변환 방법의 학습 단계 및 적용 단계가 수행되는 과정을 각각 도시한 도면.
이하에서는 첨부된 도면을 참조하여 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 바람직한 실시예를 상세히 설명한다. 다만, 본 발명의 바람직한 실시예를 상세하게 설명함에 있어, 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다. 또한, 유사한 기능 및 작용을 하는 부분에 대해서는 도면 전체에 걸쳐 동일 또는 유사한 부호를 사용한다.
덧붙여, 명세서 전체에서, 어떤 부분이 다른 부분과 ‘연결’되어 있다고 할 때, 이는 ‘직접적으로 연결’되어 있는 경우뿐만 아니라, 그 중간에 다른 소자를 사이에 두고 ‘간접적으로 연결’되어 있는 경우도 포함한다. 또한, 어떤 구성요소를 ‘포함’한다는 것은, 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다.
본 발명은 심화 학습 모델을 이용한 목표 화자의 적응형 목소리 변환 방법 및 이를 구현하는 음성 변환 장치에 관한 것으로서, 본 발명의 특징에 따른 심화 학습 모델을 이용한 목표 화자의 적응형 목소리 변환 방법을 구현하는 음성 변환 장치는 음성 데이터가 저장되는 메모리와, 저장된 음성 데이터를 처리하는 마이크로프로세서를 포함하여 구성될 수 있다. 예를 들어, 이러한 음성 보정 장치는, 마이크로폰에 전기적으로 연결되는 휴대용 단말기, 통신 단말기, 개인용 컴퓨터, 노트북, PDA, 스마트폰, 태블릿 PC, MP3 플레이어 등을 포함할 수 있다. 음성 변환 장치에서 수행되는 음성 데이터의 처리는 후술하는 목표 화자의 적응형 목소리 변환 방법을 통해 상세히 설명하도록 한다.
도 1은 본 발명의 일실시예에 따른 심화 학습 모델을 이용한 목표 화자의 적응형 목소리 변환 방법의 흐름을 도시한 도면이다. 도 1에 도시된 바와 같이, 본 발명의 일실시예에 따른 심화 학습 모델을 이용한 목표 화자의 적응형 목소리 변환 방법은, 원시 화자의 음성 문장을 입력받는 단계(S110), 입력된 원시 화자의 음성 문장에 기초하여, 원시 화자의 음성 특징 및 음성 코드를 획득하는 단계(S130), 목표 화자의 음성 코드를 입력받는 단계(S150), 및 획득된 원시 화자의 음성 특징 및 음성 코드와 목표 화자의 음성 코드에 기초하여, 목표 화자의 음성을 생성하는 단계(S170)를 포함하여 구성될 수 있다. 예를 들어, 단계 S110 및 S130은 딥 러닝 모델을 학습시키는 단계에서 수행될 수 있고, 단계 S150 및 단계 S170은 학습된 딥 러닝 모델을 적용하는 단계에서 수행될 수 있다. 이하에서는, 첨부된 도면을 참조하여 본 발명의 일실시예에 따른 심화 학습 모델을 이용한 목표 화자의 적응형 목소리 변환 방법의 각각의 단계를 보다 상세히 설명하도록 한다.
단계 S110에서는, 음성 변환 장치가, 원시 화자의 음성 문장을 입력받을 수 있다. 이때, 원시 화자의 음성 문장은, 목표 화자의 음성으로 변환시키기 위한 문장으로서, 원시 화자가 발화한 음성 문장이 전체로서 입력될 수 있다.
단계 S130에서는, 입력된 원시 화자의 음성 문장에 기초하여, 원시 화자의 음성 특징 및 음성 코드를 획득할 수 있다. 단계 S130은 도 2를 참조하여 보다 상세히 설명하도록 한다.
도 2는 본 발명의 일실시예에 따른 심화 학습 모델을 이용한 목표 화자의 적응형 목소리 변환 방법의 학습 단계의 흐름을 도시한 도면이다. 도 2에 도시된 바와 같이, 본 발명의 일실시예에 따른 심화 학습 모델을 이용한 목표 화자의 적응형 목소리 변환 방법의 학습 단계는, 원시 화자의 음성 문장을 포함하는 제1 데이터베이스에 저장된 음성 데이터에 대하여, 파형 보간법을 이용하여 음성 문장의 각각의 프레임에 대해 특징 벡터들을 추출하는 단계(S131), 제1 데이터베이스에 저장된 음성 데이터에 대하여, 각각의 화자에 대해 서로 다른 값을 갖도록 코드 벡터를 추출하는 단계(S133), 추출된 특징 벡터들 및 코드 벡터들 중, 원시 화자의 특징 벡터 및 코드 벡터와 제2 화자의 코드 벡터를, 미리 설정된 딥 러닝 모델에 입력하는 단계(S135), 및 딥 러닝 모델로부터 추정되는 제2 화자의 특징 벡터와 제1 데이터베이스에 저장된 제2 화자의 특징 벡터 사이의 에러가 최소화되도록, 딥 러닝 모델을 학습시키는 단계(S137)를 포함하여 구성될 수 있다.
단계 S131에서는, 단계 S110에서 입력된 원시 화자의 음성 문장을 포함하는 제1 데이터베이스에 저장된 음성 데이터에 대하여, 파형 보간법(waveform interpolation)을 이용하여 음성 문장의 각각의 프레임에 대해 특징 벡터들을 추출할 수 있다.
단계 S133에서는, 제1 데이터베이스에 저장된 음성 데이터에 대하여, 각각의 화자에 대해 서로 다른 값을 갖도록 코드 벡터를 추출할 수 있다. 이때, 각각의 화자에 대해 서로 다른 값을 갖도록 추출되는 코드 벡터는, i-벡터를 포함하여 구성될 수 있다. 예를 들어, i-벡터는 다음 수학식 1과 같이 나타낼 수 있다.
[수학식 1]
s = m + Tw
여기서, s는 대화측 슈퍼 벡터(conversation side supervector)이고, m은 화자 독립적인 성분(speaker-independent component)이며, T는 총 가변 행렬(total-variability matrix)이고, w가 i-벡터를 나타낼 수 있다. 이때, s는 이상적인(ideal) 화자의 슈퍼벡터를 나타낸다. 따라서, s를 화자에 독립적인 부분(m)과, 비독립적인 부분(Tw)으로 구분함으로써, 화자에 독립적인 부분(m)이 추후 수행되는 딥 러닝 모델을 이용한 추정 에러로 인해 받는 영향을 감소시킬 수 있다.
단계 S135에서는, 추출된 특징 벡터들 및 코드 벡터들 중, 원시 화자의 특징 벡터 및 코드 벡터와 제2 화자의 코드 벡터를, 미리 설정된 딥 러닝 모델에 입력할 수 있다. 여기서, 제2 화자는 원시 화자와 구분되는 다른 화자일 수 있다. 또한, 딥 러닝 모델(deep learning model)로는, 심화 볼츠만 기계(deep Boltzmann machine), 심화 오토인코더(depp autoencoder) 또는 심층 구조를 갖는 일반적인 모델이나, 비선형 구조를 표현할 수 있는 모델이면 어느 것이든 사용될 수 있다.
단계 S137에서는, 딥 러닝 모델로부터 추정되는 제2 화자의 특징 벡터와 제1 데이터베이스에 저장된 제2 화자의 특징 벡터 사이의 에러가 최소화되도록, 딥 러닝 모델을 학습시킬 수 있다. 이러한 학습에 의해, 딥 러닝 모델이 원시 화자의 특징에 기초한 제2 화자의 특징 벡터가 적절하게 추정될 수 있다.
단계 S150에서는, 음성 변환 장치가 목표 화자의 음성 코드를 입력받을 수 있다. 본 단계에서 입력되는 목표 화자의 음성 코드는, 목표 화자의 완벽한 음성 문장에 1대 1 매핑 없이도 학습 단계를 통해 추출된 화자 별로 구분되는 코드 벡터로부터 얻어질 수 있다.
단계 S170에서는, 획득된 원시 화자의 음성 특징 및 음성 코드와 목표 화자의 음성 코드에 기초하여, 목표 화자의 음성을 생성할 수 있다. 단계 S170은 도 3을 참조하여 보다 상세히 설명하도록 한다.
도 3은 본 발명의 일실시예에 따른 심화 학습 모델을 이용한 목표 화자의 적응형 목소리 변환 방법의 적용 단계의 흐름을 도시한 도면이다. 도 3에 도시된 바와 같이, 본 발명의 일실시예에 따른 심화 학습 모델을 이용한 목표 화자의 적응형 목소리 변환 방법의 적용 단계는, 제1 데이터베이스에 저장된 음성 데이터에 대하여, 파형 보간법을 이용하여, 음성 문장의 각각의 프레임에 대해 특징 벡터들을 추출하는 단계(S171), 제1 데이터베이스에 저장된 음성 데이터에 대하여, 각각의 화자에 대해 서로 다른 값을 갖도록 코드 벡터를 추출하는 단계(S173), 추출된 특징 벡터들 및 코드 벡터들 중, 원시 화자의 특징 벡터 및 코드 벡터와 목표 화자의 코드 벡터를, 학습된 딥 러닝 모델에 입력하여, 목표 화자의 특징 벡터를 추정하는 단계(S175), 및 파형 보간법을 역으로 적용하여, 추정된 목표 화자의 특징 벡터로부터 목표 화자의 음성을 생성하는 단계(S177)를 포함하여 구성될 수 있다.
단계 S171 및 단계 S173은 학습 단계에서와 마찬가지로, 제1 데이터베이스에 저장된 음성 데이터에 대하여, 파형 보간법을 이용하여, 음성 문장의 각각의 프레임에 대해 특징 벡터들을 추출하고, 제1 데이터베이스에 저장된 음성 데이터에 대하여, 각각의 화자에 대해 서로 다른 값을 갖도록 코드 벡터를 추출할 수 있다. 예를 들어, 단계 S171 및 S173에서의 제1 데이터베이스에는 원시 화자의 음성 문장이 포함될 수 있다.
단계 S175에서는, 추출된 특징 벡터들 및 코드 벡터들 중, 원시 화자의 특징 벡터 및 코드 벡터와 목표 화자의 코드 벡터를, 학습된 딥 러닝 모델에 입력하여, 목표 화자의 특징 벡터를 추정할 수 있다. 즉, 단계 S175에서는 학습 단계에 의해 원시 화자의 음성을 학습한 딥 러닝 모델이, 목표 화자의 완벽한 음성 문장이 아닌, 코드 벡터를 원시 화자의 특징 벡터 및 코드 벡터와 함께 입력받고, 그로부터 목표 화자의 특징 벡터를 추정할 수 있다.
단계 S177에서는, 파형 보간법을 역으로 적용하여, 추정된 목표 화자의 특징 벡터로부터 목표 화자의 음성을 생성할 수 있다. 즉, 단계 S175로부터 추정된 목표 화자의 특징 벡터에 대해, 파형 보간법(waveform interpolation)을 역으로 적용함으로써, 목표 화자가 직접 발화하지 않은 문장일지라도, 학습된 딥 러닝 모델로부터 추정되는 목표 화자의 특징 벡터에 기초하여, 목표 화자의 음성이 생성될 수 있다.
도 4는 본 발명의 일실시예에 따른 심화 학습 모델을 이용한 목표 화자의 적응형 목소리 변환 방법이 수행되는 과정을 개념적으로 도시한 도면이다. 도 4에 도시된 바와 같이, 본 발명의 일실시예에 따른 심화 학습 모델을 이용한 목표 화자의 적응형 목소리 변환 방법은 크게, 학습 단계 및 적용 단계로 구분될 수 있는데, 학습 단계에서는 데이터베이스에 저장된 복수의 화자들의 음성을 기초로 하여, 각각의 화자의 특징 및 코드를 딥 러닝 모델에 입력하여, 딥 러닝 모델을 학습시킬 수 있다. 예를 들어, 딥 러닝 모델은, 원시 화자의 특징 벡터 및 코드 벡터가, 제2 화자의 코드 벡터와 함께 입력될 때, 실제 데이터베이스에 저장된 제2 화자의 특징 벡터와 딥 러닝 모델을 통해 추정되는 제2 화자의 특징 벡터 사이의 오차가 최소화되도록 학습될 수 있다.
이어서, 적용 단계에서는, 학습된 딥 러닝 모델에 대해, 원시 화자의 특징 벡터 및 코드 벡터를, 목표로 하는 화자의 코드 벡터와 함께 입력함으로써, 목표 화자의 특징 벡터를 추정해낼 수 있다. 그리고, 이렇게 추정된 목표 화자의 특징 벡터로부터 목표 화자의 음성을 생성할 수 있다.
도 5 및 도 6은 본 발명의 일실시예에 따른 심화 학습 모델을 이용한 목표 화자의 적응형 목소리 변환 방법의 학습 단계 및 적용 단계가 수행되는 과정을 각각 도시한 도면이다. 도 5에서는, 학습 단계로서, 복수의 화자(예를 들어, 제1 화자에 해당하는 원시 화자와, 원시 화자와 구분되는 제2 화자)의 음성 데이터에 포함된 음성 문장의 각각의 프레임에 대해 파형 보간법(WI)이 적용되어 특징 벡터 및 코드 벡터가 추출되고, 이를 딥 러닝 모델에 입력하여 딥 러닝 모델이 학습되는 구성이 도시되었다. 도 6에서는, 적용 단계로서, 원시 화자의 음성 문장으로부터 파형 보간법을 통해 특징 벡터가 추출되고, 추출된 특징 벡터와 원시 화자의 코드 벡터가 목표 화자의 코드 벡터와 함께, 학습된 딥 러닝 모델에 입력되면, 학습된 딥 러닝 모델로부터 목표 화자의 특징 벡터가 추정되어, 이를 파형 보간법의 역과정에 의해 목표 화자의 음성으로 생성하는 구성이 도시되었다.
이상 설명한 본 발명은 본 발명이 속한 기술분야에서 통상의 지식을 가진 자에 의하여 다양한 변형이나 응용이 가능하며, 본 발명에 따른 기술적 사상의 범위는 아래의 특허청구범위에 의하여 정해져야 할 것이다.
S110: 원시 화자의 음성 문장을 입력받는 단계
S130: 입력된 원시 화자의 음성 문장에 기초하여, 원시 화자의 음성 특징 및 음성 코드를 획득하는 단계
S131: 원시 화자의 음성 문장을 포함하는 제1 데이터베이스에 저장된 음성 데이터에 대하여, 파형 보간법을 이용하여 음성 문장의 각각의 프레임에 대해 특징 벡터들을 추출하는 단계
S133: 제1 데이터베이스에 저장된 음성 데이터에 대하여, 각각의 화자에 대해 서로 다른 값을 갖도록 코드 벡터를 추출하는 단계
S135: 추출된 특징 벡터들 및 코드 벡터들 중, 원시 화자의 특징 벡터 및 코드 벡터와 제2 화자의 코드 벡터를, 미리 설정된 딥 러닝 모델에 입력하는 단계
S137: 딥 러닝 모델로부터 추정되는 제2 화자의 특징 벡터와 제1 데이터베이스에 저장된 제2 화자의 특징 벡터 사이의 에러가 최소화되도록, 딥 러닝 모델을 학습시키는 단계
S150: 목표 화자의 음성 코드를 입력받는 단계
S170: 획득된 원시 화자의 음성 특징 및 음성 코드와 목표 화자의 음성 코드에 기초하여, 목표 화자의 음성을 생성하는 단계
S171: 제1 데이터베이스에 저장된 음성 데이터에 대하여, 파형 보간법을 이용하여, 음성 문장의 각각의 프레임에 대해 특징 벡터들을 추출하는 단계
S173: 제1 데이터베이스에 저장된 음성 데이터에 대하여, 각각의 화자에 대해 서로 다른 값을 갖도록 코드 벡터를 추출하는 단계
S175: 추출된 특징 벡터들 및 코드 벡터들 중, 원시 화자의 특징 벡터 및 코드 벡터와 목표 화자의 코드 벡터를, 학습된 딥 러닝 모델에 입력하여, 목표 화자의 특징 벡터를 추정하는 단계
S177: 파형 보간법을 역으로 적용하여, 추정된 목표 화자의 특징 벡터로부터 목표 화자의 음성을 생성하는 단계
S130: 입력된 원시 화자의 음성 문장에 기초하여, 원시 화자의 음성 특징 및 음성 코드를 획득하는 단계
S131: 원시 화자의 음성 문장을 포함하는 제1 데이터베이스에 저장된 음성 데이터에 대하여, 파형 보간법을 이용하여 음성 문장의 각각의 프레임에 대해 특징 벡터들을 추출하는 단계
S133: 제1 데이터베이스에 저장된 음성 데이터에 대하여, 각각의 화자에 대해 서로 다른 값을 갖도록 코드 벡터를 추출하는 단계
S135: 추출된 특징 벡터들 및 코드 벡터들 중, 원시 화자의 특징 벡터 및 코드 벡터와 제2 화자의 코드 벡터를, 미리 설정된 딥 러닝 모델에 입력하는 단계
S137: 딥 러닝 모델로부터 추정되는 제2 화자의 특징 벡터와 제1 데이터베이스에 저장된 제2 화자의 특징 벡터 사이의 에러가 최소화되도록, 딥 러닝 모델을 학습시키는 단계
S150: 목표 화자의 음성 코드를 입력받는 단계
S170: 획득된 원시 화자의 음성 특징 및 음성 코드와 목표 화자의 음성 코드에 기초하여, 목표 화자의 음성을 생성하는 단계
S171: 제1 데이터베이스에 저장된 음성 데이터에 대하여, 파형 보간법을 이용하여, 음성 문장의 각각의 프레임에 대해 특징 벡터들을 추출하는 단계
S173: 제1 데이터베이스에 저장된 음성 데이터에 대하여, 각각의 화자에 대해 서로 다른 값을 갖도록 코드 벡터를 추출하는 단계
S175: 추출된 특징 벡터들 및 코드 벡터들 중, 원시 화자의 특징 벡터 및 코드 벡터와 목표 화자의 코드 벡터를, 학습된 딥 러닝 모델에 입력하여, 목표 화자의 특징 벡터를 추정하는 단계
S177: 파형 보간법을 역으로 적용하여, 추정된 목표 화자의 특징 벡터로부터 목표 화자의 음성을 생성하는 단계
Claims (8)
- 사용자 맞춤형 음성 보정 장치가,
(1) 원시 화자의 음성 문장을 포함하는 데이터베이스에 저장된 음성 데이터에 대하여, 파형 보간법을 이용하여, 음성 문장 각각의 프레임에 대해 특징 벡터들을 추출하는 단계;
(2) 상기 데이터베이스에 저장된 음성 데이터에 대하여, 각각의 화자에 대해 서로 다른 값을 갖는 코드 벡터들을 추출하는 단계;
(3) 추출된 특징 벡터들 및 코드 벡터들을 이용하여 미리 설정된 딥 러닝 모델을 학습시키는 단계; 및
(4) 학습된 딥 러닝 모델에, 상기 원시 화자의 특징 벡터 및 코드 벡터와, 목표 화자의 코드 벡터를 입력한 결과에 기초하여, 목표 화자의 음성을 생성하는 단계를 포함하되,
상기 단계 (3)에서는,
상기 딥 러닝 모델로부터 추정되는, 상기 원시 화자와 구별되는 제2 화자의 특징 벡터와, 상기 데이터베이스에 저장된 상기 제2 화자의 특징 벡터 사이의 에러가 최소화되도록, 상기 딥 러닝 모델을 학습시키는 것을 특징으로 하는, 심화 학습 모델을 이용한 목표 화자의 적응형 목소리 변환 방법.
- 삭제
- 제1항에 있어서, 상기 단계 (4)에서는,
상기 원시 화자의 특징 벡터 및 코드 벡터와, 상기 목표 화자의 코드 벡터를 상기 학습된 딥 러닝 모델에 입력하여, 상기 목표 화자의 특징 벡터를 추정하고, 상기 추정된 목표 화자의 특징 벡터에 기초하여 상기 목표 화자의 음성을 생성하는 것을 특징으로 하는, 심화 학습 모델을 이용한 목표 화자의 적응형 목소리 변환 방법.
- 제3항에 있어서, 상기 단계 (4)에서는,
상기 추정된 목표 화자의 특징 벡터에 대해, 파형 보간법을 역으로 적용하여 상기 목표 화자의 음성을 생성하는 것을 특징으로 하는, 심화 학습 모델을 이용한 목표 화자의 적응형 목소리 변환 방법.
- 제1항에 있어서, 상기 단계 (2)에서,
상기 각각의 화자에 대해 서로 다른 값을 갖도록 추출되는 코드 벡터는, i-벡터를 포함하는 것을 특징으로 하는, 심화 학습 모델을 이용한 목표 화자의 적응형 목소리 변환 방법.
- 제5항에 있어서, 상기 i-벡터는,
s = m + Tw 의 식으로 표현되되,
s는 대화측 슈퍼 벡터(conversation side supervector)이고, m은 화자 독립적인 성분(speaker-independent component)이며, T는 총 가변 행렬(total-variability matrix)이고, w가 i-벡터인 것을 특징으로 하는, 심화 학습 모델을 이용한 목표 화자의 적응형 목소리 변환 방법.
- 제1항에 있어서, 상기 단계 (3)에서,
상기 딥 러닝 모델은 심화 볼츠만 기계(deep Boltzmann machine) 또는 심화 오토인코더(depp autoencoder)를 포함하는 것을 특징으로 하는, 심화 학습 모델을 이용한 목표 화자의 적응형 목소리 변환 방법.
- 제1,3,4,5,6,7항 중 어느 한 항의 심화 학습 모델을 이용한 목표 화자의 적응형 목소리 변환 방법을 구현하는 음성 변환 장치.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020150060949A KR101666930B1 (ko) | 2015-04-29 | 2015-04-29 | 심화 학습 모델을 이용한 목표 화자의 적응형 목소리 변환 방법 및 이를 구현하는 음성 변환 장치 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020150060949A KR101666930B1 (ko) | 2015-04-29 | 2015-04-29 | 심화 학습 모델을 이용한 목표 화자의 적응형 목소리 변환 방법 및 이를 구현하는 음성 변환 장치 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR101666930B1 true KR101666930B1 (ko) | 2016-10-24 |
Family
ID=57256516
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020150060949A KR101666930B1 (ko) | 2015-04-29 | 2015-04-29 | 심화 학습 모델을 이용한 목표 화자의 적응형 목소리 변환 방법 및 이를 구현하는 음성 변환 장치 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101666930B1 (ko) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10614826B2 (en) | 2017-05-24 | 2020-04-07 | Modulate, Inc. | System and method for voice-to-voice conversion |
CN111402923A (zh) * | 2020-03-27 | 2020-07-10 | 中南大学 | 基于wavenet的情感语音转换方法 |
CN112634918A (zh) * | 2020-09-29 | 2021-04-09 | 江苏清微智能科技有限公司 | 一种基于声学后验概率的任意说话人语音转换系统及方法 |
CN112786012A (zh) * | 2020-12-31 | 2021-05-11 | 科大讯飞股份有限公司 | 一种语音合成方法、装置、电子设备和存储介质 |
CN113889129A (zh) * | 2021-09-27 | 2022-01-04 | 平安科技(深圳)有限公司 | 语音转化方法、装置、设备及存储介质 |
WO2022108040A1 (ko) * | 2020-11-18 | 2022-05-27 | 주식회사 마인즈랩 | 음성의 보이스 특징 변환 방법 |
KR20220105043A (ko) | 2021-01-19 | 2022-07-26 | 고려대학교 산학협력단 | 음성 변환 방법 및 장치 |
US11538485B2 (en) | 2019-08-14 | 2022-12-27 | Modulate, Inc. | Generation and detection of watermark for real-time voice conversion |
KR20230080557A (ko) | 2021-11-30 | 2023-06-07 | 고남욱 | 보이스 교정 시스템 |
US11996117B2 (en) | 2020-10-08 | 2024-05-28 | Modulate, Inc. | Multi-stage adaptive system for content moderation |
US12014823B2 (en) | 2019-08-30 | 2024-06-18 | GE Precision Healthcare LLC | Methods and systems for computer-aided diagnosis with deep learning models |
-
2015
- 2015-04-29 KR KR1020150060949A patent/KR101666930B1/ko active IP Right Grant
Non-Patent Citations (2)
Title |
---|
Jun Wang et al., ‘DNN-based discriminative scoring for speaker recognition based on i-vector’, CSLT Technical Report, January 2015.* * |
Ling-Hui Chen et al., ‘Voice conversion using deep neural networks with layer-wise generative training’, IEEE/ACM Trans. on Auido, Speech, and Language Processing, Vol.22, No.12, December 2014.* * |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10622002B2 (en) | 2017-05-24 | 2020-04-14 | Modulate, Inc. | System and method for creating timbres |
US10861476B2 (en) | 2017-05-24 | 2020-12-08 | Modulate, Inc. | System and method for building a voice database |
US10614826B2 (en) | 2017-05-24 | 2020-04-07 | Modulate, Inc. | System and method for voice-to-voice conversion |
US11017788B2 (en) | 2017-05-24 | 2021-05-25 | Modulate, Inc. | System and method for creating timbres |
US11854563B2 (en) | 2017-05-24 | 2023-12-26 | Modulate, Inc. | System and method for creating timbres |
US11538485B2 (en) | 2019-08-14 | 2022-12-27 | Modulate, Inc. | Generation and detection of watermark for real-time voice conversion |
US12014823B2 (en) | 2019-08-30 | 2024-06-18 | GE Precision Healthcare LLC | Methods and systems for computer-aided diagnosis with deep learning models |
CN111402923A (zh) * | 2020-03-27 | 2020-07-10 | 中南大学 | 基于wavenet的情感语音转换方法 |
CN111402923B (zh) * | 2020-03-27 | 2023-11-03 | 中南大学 | 基于wavenet的情感语音转换方法 |
CN112634918A (zh) * | 2020-09-29 | 2021-04-09 | 江苏清微智能科技有限公司 | 一种基于声学后验概率的任意说话人语音转换系统及方法 |
CN112634918B (zh) * | 2020-09-29 | 2024-04-16 | 江苏清微智能科技有限公司 | 一种基于声学后验概率的任意说话人语音转换系统及方法 |
US11996117B2 (en) | 2020-10-08 | 2024-05-28 | Modulate, Inc. | Multi-stage adaptive system for content moderation |
WO2022108040A1 (ko) * | 2020-11-18 | 2022-05-27 | 주식회사 마인즈랩 | 음성의 보이스 특징 변환 방법 |
CN112786012B (zh) * | 2020-12-31 | 2024-05-31 | 科大讯飞股份有限公司 | 一种语音合成方法、装置、电子设备和存储介质 |
CN112786012A (zh) * | 2020-12-31 | 2021-05-11 | 科大讯飞股份有限公司 | 一种语音合成方法、装置、电子设备和存储介质 |
KR20220105043A (ko) | 2021-01-19 | 2022-07-26 | 고려대학교 산학협력단 | 음성 변환 방법 및 장치 |
CN113889129A (zh) * | 2021-09-27 | 2022-01-04 | 平安科技(深圳)有限公司 | 语音转化方法、装置、设备及存储介质 |
KR20230080557A (ko) | 2021-11-30 | 2023-06-07 | 고남욱 | 보이스 교정 시스템 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101666930B1 (ko) | 심화 학습 모델을 이용한 목표 화자의 적응형 목소리 변환 방법 및 이를 구현하는 음성 변환 장치 | |
CN111028827B (zh) | 基于情绪识别的交互处理方法、装置、设备和存储介质 | |
KR102648306B1 (ko) | 음성 인식 오류 정정 방법, 관련 디바이스들, 및 판독 가능 저장 매체 | |
US11354512B2 (en) | Method and device for generating dialog using trained dialog model | |
WO2020253060A1 (zh) | 语音识别方法、模型的训练方法、装置、设备及存储介质 | |
WO2018133761A1 (zh) | 一种人机对话的方法和装置 | |
WO2021134520A1 (zh) | 语音转换的方法及训练方法、智能装置和存储介质 | |
KR101624926B1 (ko) | 딥 뉴럴 네트워크 기반 특징 보상 기법을 이용한 음성 인식 방법 | |
WO2020155619A1 (zh) | 带情感的机器聊天方法、装置、计算机设备及存储介质 | |
CN112735439A (zh) | 环境调节的讲话人标识 | |
CN108021549B (zh) | 序列转换方法及装置 | |
KR20190046631A (ko) | 자연어 프로세싱을 위한 시스템 및 방법 | |
CN110399488B (zh) | 文本分类方法及装置 | |
US7797158B2 (en) | System and method for improving robustness of speech recognition using vocal tract length normalization codebooks | |
CN105373527B (zh) | 一种省略恢复方法及问答系统 | |
CN114822519A (zh) | 中文语音识别纠错方法、装置及电子设备 | |
CN116343755A (zh) | 领域自适应语音识别方法、装置、计算机设备及存储介质 | |
CN109829550B (zh) | 模型评价方法和装置、模型评价系统及其训练方法和装置 | |
CN109754791A (zh) | 声控方法及系统 | |
CN115104151A (zh) | 一种离线语音识别方法和装置、电子设备和可读存储介质 | |
CN113674184B (zh) | 虚拟说话人肢体手势生成方法、装置、设备及存储介质 | |
CN117093864A (zh) | 文本生成模型训练方法以及装置 | |
CN113421573B (zh) | 身份识别模型训练方法、身份识别方法及装置 | |
US20080147385A1 (en) | Memory-efficient method for high-quality codebook based voice conversion | |
CN109800441B (zh) | 一种模型输出推荐方法和装置、模型输出推荐系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20191001 Year of fee payment: 4 |