KR20220105043A

KR20220105043A - 음성 변환 방법 및 장치

Info

Publication number: KR20220105043A
Application number: KR1020210007607A
Authority: KR
Inventors: 육동석; 유인철; 장형필
Original assignee: 고려대학교 산학협력단
Priority date: 2021-01-19
Filing date: 2021-01-19
Publication date: 2022-07-26

Abstract

본 발명은 임의의 음성 신호에서 발화된 내용은 유지하면서 화자의 발화 특성 (성별, 연령 등)을 변환시킬 수 있는 음성 변환 방법 및 장치에 관한 것이다.
본 발명의 일실시예에 의한 음성 변환 방법은 원본 화자 및 변환 대상 음성 데이터를 수집하는 단계; VAE(variational autoencoder)의 인코더 및 디코더를 이용하여 원본 화자 음성(A)을 변환 대상 화자 음성(B’)으로 변환하는 단계; 상기 인코더 및 디코더를 이용하여 상기 변환 대상 화자 음성(B’)을 복원 음성(A’)으로 변환하는 단계; 및 상기 원본 음성(A)과 상기 복원 음성(A’)을 비교하여 상기 원본 음성(A)과 상기 복원 음성(A’)의 차이가 줄어들도록 상기 디코더를 학습시키는 단계를 포함할 수 있다.

Description

음성 변환 방법 및 장치{Method And Apparatus for voice conversion}

본 발명은 음성 신호 처리에 관한 것으로, 보다 상세하게는 임의의 음성 신호에서 발화된 내용은 유지하면서 화자의 발화 특성 (성별, 연령 등)을 변환시킬 수 있는 음성 변환 방법 및 장치에 관한 것이다.

음성 변환 기술은 주어진 음성에서 발화된 내용은 유지하면서 화자의 발화 특성을 변환시키는 기술이다.

일반적인 음성 변환 알고리즘은 여러 화자가 동일한 문장을 발화한 음성 데이터, 즉 병렬 데이터 (parallel training data)를 필요로 한다. 이러한 병렬 데이터는 구축에 비용이 많이 들기에, 병렬 데이터 없이 학습 가능한 음성 변환 알고리즘이 연구되고 있다.

Variational autoencoder(VAE) 알고리즘을 이용한 음성 변환 기술은 이러한 병렬 데이터 없이 음성 변환을 가능케 하며, 단일 모델로 다수 화자 간의 음성을 서로 변환시키는 다대다(many-to-many) 음성 변환이 가능한 알고리즘이다.

Generative adversarial network(GAN) 알고리즘을 이용한 음성 변환 기술은 일대일(one-to-one) 음성 변환만 가능하고 학습 속도가 상대적으로 느린 대신 변환된 음성의 품질이 VAE에 비해 좋다.

따라서 음성의 품질을 높이면서도 학습 속도가 빠른 음성 변환 기술에 대한 연구가 필요한 실정이다.

대한민국 등록특허 10-1666930 심화 학습 모델을 이용한 목표 화자의 적응형 목소리 변환 방법 및 이를 구현하는 음성 변환 장치

본 발명의 목적은 복수 화자 음성 변환이 가능하고 학습 속도가 빠르고, 변환된 음성의 품질을 높일 수 있는 음성 변환 방법 및 장치를 제공하는 데 있다.

본 발명의 목적은 CycleVAE(Cycle-Consistent Variational Autoencoder)를 이용하여 고품질의 변환 화자 음성을 출력하면서도 학습 속도가 빠른 음성 변환 방법 및 장치를 제공하는 데 있다.

상기 목적을 달성하기 위해 본 발명의 일실시예에 의하면, 원본 화자 및 변환 대상 음성 데이터를 수집하는 단계; VAE(variational autoencoder)의 인코더 및 디코더를 이용하여 원본 화자 음성(A)을 변환 대상 화자 음성(B’)으로 변환하는 단계; 상기 인코더 및 디코더를 이용하여 상기 변환 대상 화자 음성(B’)을 복원 음성(A’)으로 변환하는 단계; 및 상기 원본 음성(A)과 상기 복원 음성(A’)을 비교하여 상기 원본 음성(A)과 상기 복원 음성(A’)의 차이가 줄어들도록 상기 디코더를 학습시키는 단계를 포함하는 음성 변환 방법이 개시된다.

상기 목적을 달성하기 위해 본 발명의 일실시예에 의하면, 원본 화자 및 변환 대상 음성 데이터를 수집하는 음성 수집부; 원본 화자 음성(A)을 입력으로 하여 변환 대상 화자 음성(B’)으로 변환하고, 상기 변환 대상 화자 음성(B’)을 복원 음성(A’)으로 변환하는 VAE(variational autoencoder)의 인코더 및 디코더; 상기 원본 음성(A)과 상기 복원 음성(A’)을 비교하여 상기 원본 음성(A)과 상기 복원 음성(A’)의 차이가 줄어들도록 상기 디코더를 학습시키는 학습부; 및 상기 음성 수집부, 상기 인코더 및 디코더, 상기 학습부를 제어하는 제어부를 포함하는 음성 변환 장치가 개시된다.

본 발명의 일실시예에 의한 음성 변환 방법 및 장치는 음성 인식 시스템의 학습을 위해 기존에 보유하고 있던 음성 데이터를 여러 화자로 변환시켜가며 학습시켜 음성 인식 시스템의 성능을 끌어올릴 수 있다.

또한, 본 발명의 일실시예에 의하면, 외국어 구사자의 발음을 원어민의 것으로 변환하거나, 그 반대의 변환을 수행하여 상호 의사소통을 돕는데 활용될 수 있다.

본 발명의 일실시예에 의하면, 청각 장애 등으로 발음이 자연스럽지 못한 화자의 음성을 자연스러운 화자의 것으로 변환하여 편리하게 일상생활을 영위할 수 있게 도울 수 있다.

본 발명의 일실시예에 의하면, 오디오 북을 청취자가 원하는 유명인의 목소리로 선택해 청취하는 서비스가 가능해진다.

본 발명의 일실시예에 의하면, 현재는 외국 영화 및 드라마의 경우 자막판이나 모국 성우의 모국어 더빙판 만이 관람 가능한데, 음성 변환 기술을 이용하면 원작의 외국인 배우 목소리 그대로 유지한 채 관람자의 모국어 더빙판 관람이 가능해질 수 있다.

본 발명의 일실시예에 의하면, 음성 변환 기술로 화자의 발화 특성을 제거함으로써 개인 정보를 보호할 수 있다.

도 1은 본 발명의 일실시예와 관련된 음성 변환 장치의 블록도이다.
도 2는 본 발명의 일실시예와 관련된 CycleVAE(Cycle-Consistent Variational Autoencoder)를 이용하여 음성 변환 방법을 설명하기 위한 도면이다.
도 3은 본 발명의 일실시예와 관련된 다중 디코더가 구비된 CycleVAE(Cycle-Consistent Variational Autoencoder)를 이용하여 음성 변환 방법을 설명하기 위한 도면이다.
도 4는 본 발명의 일실시예와 관련된 음성 변환 방법과 기존의 음성 변환 방법과의 차이점을 나타내는 그래프이다.

이하, 본 발명의 일실시예와 관련된 음성 변환 방법 및 장치에 대해 도면을 통해 설명하도록 하겠다.

본 명세서에서 사용되는 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "구성된다" 또는 "포함한다" 등의 용어는 명세서상에 기재된 여러 구성 요소들, 또는 여러 단계들을 반드시 모두 포함하는 것으로 해석되지 않아야 하며, 그 중 일부 구성 요소들 또는 일부 단계들은 포함되지 않을 수도 있고, 또는 추가적인 구성 요소 또는 단계들을 더 포함할 수 있는 것으로 해석되어야 한다.

도 1은 본 발명의 일실시예와 관련된 음성 변환 장치의 블록도이다.

도시된 바와 같이, 음성 변환 장치(100)는 음성 수집부(110), 인코더(120), 학습부(130), 디코더(140), 제어부(150)를 포함할 수 있다.

상기 음성 수집부(110)는 마이크(미도시)가 구비되어 원본 화자의 음성을 변환의 대상이 되는 화자의 음성으로 변환하기 위해 원본 화자의 음성 데이터 및 변환의 대상이 되는 화자의 음성 데이터(이하, '변환 대상 음성 데이터'라 함)를 마이크 등을 통하여 수집할 수 있다.

상기 인코더(120) 및 상기 디코더(140)는 VAE(variational autoencoder)의 인코더 및 디코더로 쌍으로 이루어질 수 있다. 상기 인코더(120)로 입력되어 상기 디코더(140)로 출력된 변환 음성은 다시 상기 인코더(120)로 입력되어 상기 디코더(140)로 출력될 수 있다.

본 발명의 일실시예에 의하면, 다수 화자 음성 변환이 가능한 인코더(120)와 디코더(140)의 쌍으로 이루어진 VAE(variational autoencoder) 기반으로 순환시킴으로써, 병렬 학습 데이터 없이 음성 변환 경로를 명시적으로 학습할 수 있는 CycleVAE(Cycle-Consistent Variational Autoencoder)를 구비할 수 있다. 상기 CycleVAE(Cycle-Consistent Variational Autoencoder)를 통해 변환되는 음성의 품질을 향상시킬 수 있다.

상기 학습부(130)는 변환된 음성(B')을 변환 전 원본 음성으로 다시 복원(A')한 뒤 원본 음성(A)과의 손실을 측정한다. 이 손실을 줄이는 방향으로 다양한 파라미터를 조정하여 변환된 음성의 품질을 높일 수 있다. 또한, 학습부(130)의 상기 다양한 파라미터 조정을 통해 디코더(140)가 학습될 수도 있다.

상기 제어부(150)는 음성 수집부(110), 인코더(120), 학습부(130), 디코더(140)를 전반적으로 제어할 수 있다.

도 2는 본 발명의 일실시예와 관련된 CycleVAE(Cycle-Consistent Variational Autoencoder)를 이용하여 음성 변환 방법을 설명하기 위한 도면이다.

먼저, 음성 수집부(110)에서 수집된 원본 화자 음성(A)이 인코더(120)로 입력되어 압축될 수 있다. 상기 원본 화자 음성(A)이 복수 화자 음성일 경우, 상기 복수 화자 음성이 각각 입력되어 압축될 수 있다. 상기 압축된 원본 화자 음성은 잠재 벡터(z) 형태로 생성될 수 있다.

상기 잠재 벡터는 상기 디코더(140)로 주입되어 변환 대상 화자 음성(B’)으로 변환될 수 있다.

상기 인코더(120) 및 상기 디코더(140)는 VAE(variational autoencoder)의 인코더 및 디코더로 쌍으로 이루어져 있다.

그리고, 상기 디코더(140)를 통해 출력된 변환 대상 화자 음성(B’)은 다시 인코더(120) 및 디코더(140)로 주입될 수 있다. 다시 인코더(120) 및 디코더(140)로 주입된 변환 대상 화자 음성(B’)은 변환 전의 원본 화자 음성(A')으로 복원될 수 있다.

이 경우, 상기 학습부(130)는 상기 원본 음성(A)과 상기 복원 음성(A’)을 비교하여 그 차이를 측정하고, 상기 원본 음성(A)과 상기 복원 음성(A’)의 차이가 줄어들도록 다양한 파라미터 조정을 통해 상기 디코더를 학습시킬 수 있다.

또한, 상기 원본 화자 음성(A) 및 변환 대상 화자 음성(B’)은 복수 화자의 음성에 대한 병렬 데이터 일 수 있다.

이하에서는 다대다 음성 변환 방법에 대해 설명하도록 하겠다.

도 3은 본 발명의 일실시예와 관련된 다중 디코더가 구비된 CycleVAE(Cycle-Consistent Variational Autoencoder)를 이용하여 음성 변환 방법을 설명하기 위한 도면이다.

먼저, 음성 수집부(110)에서 수집된 원본 화자 음성(A)이 인코더(120)로 입력되어 압축될 수 있다. 상기 원본 화자 음성(A)은 복수 화자 음성이다. 이 경우, 상기 복수 화자 음성이 각각 입력되어 압축될 수 있다. 상기 압축된 원본 화자 음성은 잠재 벡터(z) 형태로 생성될 수 있다.

그리고, 상기 디코더(140)를 통해 출력된 복수 화자의 변환 대상 화자 음성(B’)은 다시 인코더(120) 및 디코더(140)로 주입될 수 있다. 다시 인코더(120) 및 디코더(140)로 주입된 변환 대상 화자 음성(B’)은 변환 전의 원본 화자 음성(A')으로 복원될 수 있다.

이 경우, 상기 학습부(130)는 상기 원본 음성(A)과 상기 복원 음성(A’)을 비교하여 그 차이를 측정학고, 상기 원본 음성(A)과 상기 복원 음성(A’)의 차이가 줄어들도록 다양한 파라미터 조정을 통해 상기 디코더를 학습시킬 수 있다. 상기 디코더(140)는 변환의 대상이 되는 복수 화자에 일대일로 대응될 수 있도록 다중 디코더(디코더 a, 디코더 b, ..)로 이루어질 수 있고, 각 디코더는 각 화자에 대한 전용 디코더이다. 그리고 각 디코더는 서로 독립적이다. 각 디코더는 대응되는 화자의 특징을 각각 학습한다.

한편, 도시된 실시예에서는 단일 인코더와 다중 디코더에 대해서만 설명했지만, 상기 인코더(120)는 복수 화자에 일대일로 대응될 수 있도록 다중 인코더로 이루어질 수 있다.

도 4는 본 발명의 일실시예와 관련된 음성 변환 방법과 기존의 음성 변환 방법과의 차이점을 나타내는 그래프이다.

도시된 그래프에서 MCC는 Mel-cepstral coefficients를 나타내고, GV는 global variance를 나타낸다. CycleVAE는 본 발명의 일실시예에 의한 음성 변환 방법이고, VAE는 Variational Autoencoder를 이용한 음성 변환 방법이고, Real은 실제 음성을 나타낸다. 도시된 그래프를 통해 확인할 수 있듯이, CycleVAE가 VAE보다 실제 음성에 더 근접해 있음을 알 수 있다.

전술한 바와 같이, 본 발명의 일실시예에 의한 음성 변환 방법 및 장치는 음성 인식 시스템의 학습을 위해 기존에 보유하고 있던 음성 데이터를 여러 화자로 변환시켜가며 학습시켜 음성 인식 시스템의 성능을 끌어올릴 수 있다.

상기와 같이 설명된 음성 변환 방법 및 장치는 상기 설명된 실시예들의 구성과 방법이 한정되게 적용될 수 있는 것이 아니라, 상기 실시예들은 다양한 변형이 이루어질 수 있도록 각 실시예들의 전부 또는 일부가 선택적으로 조합되어 구성될 수도 있다.

100: 영상 변환 장치
110: 음성 수집부
120: 인코더
130: 학습부
140: 디코더
150: 제어부

Claims

원본 화자 및 변환 대상 음성 데이터를 수집하는 단계;
VAE(variational autoencoder)의 인코더 및 디코더를 이용하여 원본 화자 음성(A)을 변환 대상 화자 음성(B’)으로 변환하는 단계;
상기 인코더 및 디코더를 이용하여 상기 변환 대상 화자 음성(B’)을 복원 음성(A’)으로 변환하는 단계; 및
상기 원본 음성(A)과 상기 복원 음성(A’)을 비교하여 상기 원본 음성(A)과 상기 복원 음성(A’)의 차이가 줄어들도록 상기 디코더를 학습시키는 단계를 포함하는 것을 특징으로 하는 음성 변환 방법.
제1항에 있어서,
상기 원본 화자 음성(A)은 복수 화자 음성에 대한 병렬 데이터이고, 상기 변환 대상 화자 음성(B’)은 복수 화자의 음성에 각각 대응되는 복수의 변환 대상 화자 음성에 대한 병렬 데이터인 것을 특징으로 하는 음성 변환 방법.
제2항에 있어서, 상기 디코더는
복수 화자에 일대일로 대응될 수 있도록 다중 디코더로 이루어진 것을 특징으로 하는 음성 변환 방법.
제3항에 있어서, 상기 인코더는
복수 화자에 일대일로 대응될 수 있도록 다중 인코더로 이루어진 것을 특징으로 하는 음성 변환 방법.
원본 화자 및 변환 대상 음성 데이터를 수집하는 음성 수집부;
원본 화자 음성(A)을 입력으로 하여 변환 대상 화자 음성(B’)으로 변환하고, 상기 변환 대상 화자 음성(B’)을 복원 음성(A’)으로 변환하는 VAE(variational autoencoder)의 인코더 및 디코더;
상기 원본 음성(A)과 상기 복원 음성(A’)을 비교하여 상기 원본 음성(A)과 상기 복원 음성(A’)의 차이가 줄어들도록 상기 디코더를 학습시키는 학습부; 및
상기 음성 수집부, 상기 인코더 및 디코더, 상기 학습부를 제어하는 제어부를 포함하는 것을 특징으로 하는 음성 변환 장치.
제5항에 있어서,
상기 원본 화자 음성(A)은 복수 화자 음성에 대한 병렬 데이터이고, 상기 변환 대상 화자 음성(B’)은 복수 화자의 음성에 각각 대응되는 복수의 변환 대상 화자 음성에 대한 병렬 데이터인 것을 특징으로 하는 음성 변환 장치.
제6항에 있어서, 상기 디코더는
복수 화자에 일대일로 대응될 수 있도록 다중 디코더로 이루어진 것을 특징으로 하는 음성 변환 장치.
제7항에 있어서, 상기 인코더는
복수 화자에 일대일로 대응될 수 있도록 다중 인코더로 이루어진 것을 특징으로 하는 음성 변환 장치.