KR20230166536A

KR20230166536A - 글로벌 스타일 토큰과 예측 모델로 생성한 화자 임베딩 기반의 화자 적응 방법 및 시스템

Info

Publication number: KR20230166536A
Application number: KR1020220066636A
Authority: KR
Inventors: 장준혁; 이재욱
Original assignee: 한양대학교 산학협력단
Priority date: 2022-05-31
Filing date: 2022-05-31
Publication date: 2023-12-07
Also published as: WO2023234606A1

Abstract

글로벌 스타일 토큰과 예측 모델로 생성한 화자 임베딩 기반의 화자 적응 방법 및 시스템이 개시된다. 일 실시예에 따른화자 적응 시스템에 의해 수행되는 화자 적응 방법은, 글로벌 스타일 토큰 메커니즘이 포함된 음성변환 모델을 이용하여 화자 임베딩으로부터 화자의 음색을 표현하는 복수 개의 화자 임베딩을 생성하는 단계; 및 화자 임베딩을 예측하는 예측 모델을 이용하여 예측된 새로운 화자 임베딩과 상기 생성된 복수 개의 화자 임베딩 사이의 유사도 비교를 통해 새로운 화자를 표현하는 최종의 화자 임베딩을 예측하는 단계를 포함할 수 있다.

Description

글로벌 스타일 토큰과 예측 모델로 생성한 화자 임베딩 기반의 화자 적응 방법 및 시스템{SPEAKER ADAPTATION METHOD AND SYSTEM BASED ON SPEAKER EMBEDDING CREATED WITH GLOBAL STYLE TOKEN AND PREDICTIVE MODEL}

아래의 설명은 화자 적응 기술에 관한 것이다.

글로벌 스타일 토큰(Global style token; GST)은 어텐션(attention)을 기반으로 화자 스타일을 추출하는 기술이다. 도 1을 참고하면, 글로벌 스타일 토큰에서 스타일 임베딩을 추출하는 동작을 설명하기 위한 도면이다. 글로벌 스타일 토큰으로 추출한 화자 스타일을 표현하는 잠재 벡터는 인코더와 디코더로 구성된 TTS(Text-To-Speech) 모델의 인코더 출력(encoder output)과 결합하는 방식으로 사용된다. 레퍼런스 인코더는 오디오로부터 특징 벡터를 추출하며, 추출된 특징 벡터는 어텐션에 쿼리로 사용된다. 도 1에서 어텐션은 A, B, C 및 D에 가중치를 부여하고, A, B, C 및 D는 가중합 되어서 스타일 임베딩이 된다.

종래의 기술은 화자 적응(speaker adaptation)을 위해 분 단위의 대용량 데이터가 필요하며, 모델 전체를 미세 조정(fine-tuning)해야 한다는 문제점을 갖고 있다.

비특허문헌 1: Y. Wang, D. Stanton, Y. Zhang, R. S.-Ryan, E. Battenberg, J. Shor, Y. Xiao, F. Ren, Y. Jia and R. A. Saurous, "Style tokens: unsupervised style modeling, control and transfer in end-to-end speech synthesis," in Proc. Advances in Neural Information Processing Systems (NeurIPS) 2018, pp. 5180-5189)

글로벌 스타일 토큰과 예측 모델을 이용하여 생성된 화자 임베딩 기반 화자 적응 방법 및 시스템을 제공할 수 있다.

글로벌 스타일 토큰 메커니즘이 포함된 음성변환 모델을 이용하여 화자 임베딩으로부터 화자의 음색을 표현하는 복수 개의 화자 임베딩을 생성하는 방법 및 시스템을 제공할 수 있다.

화자 임베딩을 예측하는 예측 모델을 이용하여 예측된 새로운 화자 임베딩과 복수 개의 화자 임베딩 사이의 유사도 비교를 통해 새로운 화자를 표현하는 최종의 화자 임베딩을 탐색하는 방법 및 시스템을 제공할 수 있다.

화자 적응 시스템에 의해 수행되는 화자 적응 방법은, 글로벌 스타일 토큰(GLOBAL STYLE TOKEN; GST) 메커니즘이 포함된 음성변환 모델을 이용하여 화자 임베딩으로부터 화자의 음색을 표현하는 복수 개의 화자 임베딩을 생성하는 단계; 및 화자 임베딩을 예측하는 예측 모델을 이용하여 예측된 새로운 화자 임베딩과 상기 생성된 복수 개의 화자 임베딩 사이의 유사도 비교를 통해 새로운 화자를 표현하는 최종의 화자 임베딩을 예측하는 단계를 포함할 수 있다.

상기 생성하는 단계는, 글로벌 스타일 토큰 메커니즘이 포함된 음성변환 모델을 구성하고, 상기 구성된 음성변환 모델을 이용하여 화자 임베딩 테이블을 통해 화자 ID에 대응하는 화자 임베딩을 추출하고, 상기 추출된 화자 임베딩에 대해 글로벌 스타일 토큰 메커니즘을 통해 가우시안 분포의 분산(variance)을 예측하는 단계를 포함하고, 상기 추출된 화자 임베딩은, 각 화자의 음색을 표현하는 잠재 벡터일 수 있다.

상기 생성하는 단계는, 상기 추출된 화자 임베딩을 상기 글로벌 스타일 토큰 메커니즘의 어텐션에 쿼리로 사용하여 각 화자의 분산을 추출하고, 상기 추출된 분산을 가우시안 분포로부터 샘플링한 노이즈에 곱하여 상기 추출된 분산을 갖는 가우시안 노이즈 벡터를 획득하는 단계를 포함할 수 있다.

상기 생성하는 단계는, 상기 획득된 가우시안 노이즈 벡터를 상기 추출된 화자 임베딩과 더해줌으로써 한 명의 화자의 음색을 표현하는 복수 개의 화자 임베딩을 생성하는 단계를 포함할 수 있다.

상기 새로운 화자를 표현하는 최종의 화자 임베딩을 예측하는 단계는, 화자 임베딩을 예측하는 예측 모델을 구성하고, 상기 구성된 예측 모델에 상기 생성된 복수의 화자 임베딩 중 선택된 화자 임베딩과 새로운 화자의 기본 프리퀀시(fundamental frequency)를 입력받는 단계를 포함할 수 있다.

상기 새로운 화자를 표현하는 최종의 화자 임베딩을 예측하는 단계는, 상기 음성변환 모델을 통해 훈련된 화자들 중 상기 새로운 화자의 피치 컨투어(pitch contour)를 갖는 화자를 선택하는 단계를 포함할 수 있다.

상기 새로운 화자를 표현하는 최종의 화자 임베딩을 예측하는 단계는, 상기 새로운 화자의 피치 컨투어와 상기 훈련된 화자들의 피치 컨투어 사이의 KL 발산(Kullback-Leibler divergence)을 이용한 유사도 비교를 통해 상기 KL발산의 값이 낮은 화자를 화자 임베딩으로 선택하는 단계를 포함할 수 있다.

상기 새로운 화자를 표현하는 최종의 화자 임베딩을 예측하는 단계는, 상기 새로운 화자의 피치 컨투어를 피치 임베딩 테이블에 입력함에 따라 피치 임베딩을 추출하고, 상기 추출된 피치 임베딩을 컨볼루션 뉴럴 네트워크(convolutional neural network; CNN)와 평균 풀링(mean pooling)을 통해 글로벌 피치 임베딩을 생성하고, 상기 예측 모델을 통해 글로벌 피치 임베딩과 상기 선택된 화자 임베딩을 결합하여 새로운 화자의 음색을 표현하는 새로운 화자 임베딩을 생성하는 단계를 포함할 수 있다.

상기 새로운 화자를 표현하는 최종의 화자 임베딩을 예측하는 단계는, 상기 생성된 새로운 화자 임베딩을 글로벌 스타일 토큰에 쿼리로 입력하여 새로운 화자의 가우시안 분포를 예측하고, 가우시안 분포 내에서 복수 개의 새로운 화자 임베딩을 추출하는 단계를 포함할 수 있다.

상기 새로운 화자를 표현하는 최종의 화자 임베딩을 예측하는 단계는, 상기 추출된 복수 개의 새로운 화자 임베딩 중에서 새로운 화자의 실제 음성을 가장 유사하게 표현할 수 있는 하나의 새로운 화자 임베딩을 선별하는 단계를 포함할 수 있다.

상기 새로운 화자를 표현하는 최종의 화자 임베딩을 예측하는 단계는, 상기 새로운 화자의 가우시안 분포 내에서 실제 음성과의 차이가 가장 적은 노이즈를 선택하고, 상기 선택된 노이즈를 상기 새로운 화자 임베딩과 더하여 상기 새로운 화자를 표현하는 화자 임베딩을 획득하는 단계를 포함할 수 있다.

상기 새로운 화자를 표현하는 최종의 화자 임베딩을 예측하는 단계는, 상기 획득된 새로운 화자를 표현하는 화자 임베딩을 새로운 화자의 데이터로 미세 조정(fine-tuning)하여 상기 새로운 화자를 표현하는 최종의 화자 임베딩을 생성하는 단계를 포함할 수 있다.

화자 적응 방법을 상기 화자 적응 시스템에 실행시키기 위해 비-일시적인 컴퓨터 판독가능한 기록 매체에 저장되는 컴퓨터 프로그램을 포함할 수 있다.

화자 적응 시스템은, 글로벌 스타일 토큰 메커니즘이 포함된 음성변환 모델을 이용하여 화자 임베딩으로부터 화자의 음색을 표현하는 복수 개의 화자 임베딩을 생성하는 화자 임베딩 생성부; 및 화자 임베딩을 예측하는 예측 모델을 이용하여 예측된 새로운 화자 임베딩과 상기 생성된 복수 개의 화자 임베딩 사이의 유사도 비교를 통해 새로운 화자를 표현하는 최종의 화자 임베딩을 예측하는 화자 임베딩 예측부를 포함할 수 있다.

화자 레벨에서 특징을 추출하기 때문에 각 화자 고유의 음색을 표현하기에 적합하다.

파라미터를 미세 조정하지 않아도 새로운 화자의 목소리를 잘 표현할 수 있다.

도 1은 글로벌 스타일 토큰에서 화자 임베딩을 추출하는 동작을 설명하기 위한 도면이다.
도 2는 화자 임베딩 테이블로부터 화자 임베딩을 추출하는 동작을 설명하기 위한 도면이다.
도 3은 일 실시예에 있어서, 음성변환 모델의 동작을 설명하기 위한 도면이다.
도 4는 일 실시예에 있어서, 화자 임베딩의 분포를 설명하기 위한 도면이다.
도 5는 일 실시예에 있어서, 예측 모델의 동작을 설명하기 위한 도면이다.
도 6은 일 실시예에 있어서, 새로운 화자 적응 동작을 설명하기 위한 도면이다.
도 7은 일 실시예에 있어서, 화자 적응 시스템의 구성을 설명하기 위한 블록도이다.
도 8은 일 실시예에 있어서, 화자 적응 방법을 설명하기 위한 흐름도이다.
도 9는 일 실시예에 있어서, 미세 조정의 전체 동작을 설명하기 위한 도면이다.
도 10은 일 실시예에 있어서, 새로운 화자와 기존에 훈련에 사용한 화자들 사이의 거리를 피치 컨투어를 기반으로 측정하는 동작을 설명하기 위한 도면이다.

이하, 실시예를 첨부한 도면을 참조하여 상세히 설명한다.

도 3은 일 실시예에 있어서, 음성변환 모델의 동작을 설명하기 위한 도면이다.

화자 적응 시스템은 다중 화자 Tacotron2(스피커 엠베딩 테이블 + Tacotron2)에 GST 메커니즘을 적용하여 음성변환 모델(예를 들면, TTS)을 구성할 수 있다. 화자 임베딩 테이블(210)에서 화자 ID에 해당하는 화자 임베딩(310)을 추출하는 과정은 다음과 같다.

수학식 1:

여기서, , 및 는 각각 i번째 화자 임베딩, 화자 ID 및 화자 임베딩 테이블을 나타낸다. 는 원-핫 인코딩을 나타내며, i를 원-핫 벡터로 변환한다.

도 2에서와 같이 화자 적응 시스템은 화자 임베딩 테이블(210)에서 화자 임베딩(310)을 추출하고, 추출된 화자 임베딩(310)을 글로벌 스타일 토큰(330) 메커니즘에 사용할 수 있다. 기존의 글로벌 스타일 토큰은 스타일 임베딩을 추출한다. 이에 반해, 실시예에 글로벌 스타일 토큰(330)은 가우시안 분포의 분산(variance)을 예측하기 위해 사용한다. 화자 임베딩(310)은 각 화자의 음색을 표현하는 잠재 벡터이다. 화자 적응 시스템은 화자 임베딩(310)을 어텐션(320)의 쿼리(query)로 사용하여 각 화자의 분산을 추출할 수 있다. 화자 적응 시스템은 글로벌 스타일 토큰(330) 메커니즘을 활용하여 화자 임베딩(310)에서 분산을 추출하고, 추출된 분산을 가우시안 분포(340)로부터 샘플링(350)한 노이즈에 곱하여 추출된 분산을 갖는 가우시안 노이즈 벡터를 획득할 수 있으며, 이러한 과정은 수학식 2와 같이 표현될 수 있다.

수학식 2:

여기서, 는 화자 임베딩으로부터 추출된 i번째의 화자 임베딩이고, V는 차원이 10× 인 분산 매트릭스이고, z는 가우시안 분포 ()로부터 샘플링된 노이즈 벡터이다. 는 화자 임베딩의 차원이고, 는 화자 컨디셔닝에 사용되는 제안된 화자 임베딩이다.

화자 적응 시스템은 화자당 단일 화자 임베딩이 아닌 각 화자에 대해 넓은 분포로 화자 임베딩을 생성할 수 있다. 화자 적응 시스템은 각 음색이 표현될 수 있는 잠재 벡터를 확장하여 새로운 화자 적응을 도울 수 있다. 화자 인코더를 통한 음성 복제도 비슷한 효과가 있지만, 화자 인코더는 발화 수준의 임베딩이고, 화자 적응 시스템은 스피커 수준의 임베딩으로 안정적인 성능을 보여준다. 다중 화자를 훈련 후, 도 4와 같이 화자 임베딩의 넓은 분포를 획득할 수 있다.

도 4는 일 실시예에 있어서, 화자 임베딩의 분포를 설명하기 위한 도면이다.

도 4는 기존의 화자 임베딩과 실시예에서 제안된 화자 임베딩의 분포를 표현한 도면이다. 왼쪽의 그림(도 4(a))은 기존의 화자 임베딩을 나타낸 것이고, 오른쪽의 그림(도 4(b))은 실시예에서 제안된 방법을 통해 분포가 확장된 화자 임베딩을 나타낸 것이다. 화자 임베딩의 분포를 확장하면 실시예에서 제안된 방법(알고리즘)에서 기존의 화자 임베딩보다 유리하다. 여기서, 화자 적응 시스템은 새로운 화자의 목소리를 어느 정도 포함할 수 있는 화자 임베딩을 예측하기 위한 예측 모델을 제공할 수 있다.

도 5는 일 실시예에 있어서, 예측 모델의 동작을 설명하기 위한 도면이다.

도 5는 새로운 화자 임베딩을 생성하기 위한 예측 모델의 구조를 나타낸 것이다. 1D 컨볼루션(m, n)은 1D 컨볼루션에서 커널 크기(필터 사이즈)와 스트라이드 각각이 m과 n이고, LN은 레이어 정규화를 의미한다.

화자 적응 시스템은 새로운 화자 임베딩을 예측할 수 있다. 화자 적응 시스템은 새로운 화자 임베딩을 예측하기 위해 훈련된 화자 임베딩 테이블에서 선택한 화자 임베딩과 새로운 화자의 레퍼런스 오디오로부터 획득한 피치 컨투어(윤곽)를 활용할 수 있다. 화자 적응 시스템은 피치 컨투어를 기반으로 화자 임베딩을 선택할 수 있다.

화자 적응 시스템은 새로운 화자의 목소리를 어느정도 포함할 수 있는 화자 임베딩을 예측할 수 있는 예측 모델을 제공할 수 있다. 예측 모델의 입력으로는 선택된 화자 임베딩(selected speaker embedding)과 새로운 화자의 기본 프리퀀시(fundamental frequency of new speaker)가 있다.

도 10을 참고하면, 새로운 화자와 기존에 훈련에 사용한 화자들 사이의 거리를 피치 컨투어를 기반으로 측정하는 동작을 설명하기 위한 도면이다. 화자 적응 시스템은 피치 컨투어(pitch contour)를 기반으로 기존에 훈련된 화자들 중 새로운 화자와 유사한 피치 컨투어를 갖는 화자를 선별할 수 있다. 화자 적응 시스템은 KL 발산(Kullback-Leibler divergence)을 사용하여 피치 컨투어를 기반으로 화자를 선별할 수 있다. KL 발산을 사용하여 화자를 선별하는 방법은 수학식 3과 같이 표현할 수 있다.

수학식 3:

화자 적응 시스템은 수학식 3을 통해 새로운 화자의 피치 컨투어와 훈련된 화자들 중 i번째 화자의 피치 컨투어 사이의 유사도를 KL 발산으로 계산할 수 있다. 피치 컨투어는 음성 데이터에서 각 프레임마다 추출된 기본 프리퀀시에 대한 피치 시퀀스를 의미한다. 피치 컨투어에서 평균(mean)과 분산(variance)을 계산하고, 계산된 평균과 분산에 가우시안 분포에 대입한다. 다시 말해서, 계산된 평균과 분산이 가우시안 분포에 해당하는 값으로 설정될 수 있다.

그러면, 화자 적응 시스템은 새로운 화자의 가우시안 분포와 훈련된 화자들(미세 조정 전 멀티 화자 훈련에 사용된 화자들)의 가우시안 분포 사이에 유사도를 KL 발산으로 계산할 수 있다. 이때, 계산된 KL 발산의 값이 낮을수록 유사함을 의미한다.

실시예에서는 훈련된 화자들 중 KL 발산의 값이 낮은 순서대로 복수 명(예를 들면, 11명)을 선별하며, 그것이 도 5의 선택된 화자 임베딩이 된다. 화자 적응 시스템은 새로운 화자의 피치 컨투어를 피치 임베딩 테이블에 입력함에 따라 피치 임베딩을 추출할 수 있고, 추출된 피치 임베딩을 컨볼루션 뉴럴 네트워크(convolutional neural network; CNN)와 평균 풀링(mean pooling)을 통해 글로벌 피치 임베딩을 생성할 수 있다. 화자 적응 시스템은 예측 모델을 통해 글로벌 피치 임베딩과 선택된 화자 임베딩을 사용하여 새로운 화자 임베딩을 예측할 수 있다. 예측 모델에 대한 훈련 과정은 새로운 화자 임베딩을 예측하는 것과 유사하다. 다중 화자 훈련을 통해 획득된 화자 임베딩 중 하나를 예측 모델이 예측해야 할 대상(target)으로 설정한 후, 대상이 있는 KL 발산의 값을 기반으로 복수 개(예를 들면, 11개)의 화자 임베딩을 선택하여 입력으로 사용할 수 있다. 또한, 훈련을 위한 손실 함수는 대상과 함께 L2손실로 설정될 수 있다.

화자 적응 시스템은 새로운 화자 임베딩을 글로벌 스타일 토큰에 쿼리로 입력하여 새로운 화자의 가우시안 분포를 예측하고, 가우시안 분포 내에서 복수 개의 새로운 화자 임베딩을 추출할 수 있다. 화자 적응 시스템은 추출된 복수 개의 새로운 화자 임베딩 중에서 새로운 화자의 실제 음성을 가장 유사하게 표현할 수 있는 하나의 새로운 화자 임베딩을 선별할 수 있다. 새로운 화자 임베딩을 선별하는 방법은 수학식 4와 같이 표현될 수 있다.

수학식 4:

여기서, 은 예측한 새로운 화자 임베딩이고, 는 글로벌 스타일 토큰이 예측한 새로운 화자 임베딩의 분포이다. 화자 적응 시스템은 예측 분포 내에서 실제 음성과 가장 차이가 적은 노이즈를 선택하고, 선택된 노이즈를 과 더하여 새로운 화자를 가장 잘 표현하는 를 획득할 수 있다. 그리고, 를 새로운 화자의 데이터로 미세 조정하여 새로운 화자를 정확히 표현하는 화자 임베딩을 생성할 수 있다.

도 6은 일 실시예에 있어서, 새로운 화자 적응 동작을 설명하기 위한 도면이다.

도 6(a)는 , 및 는 선택된 화자 임베딩의 분포이고, 도6(b)는 예측 모델과 글로벌 스타일 토큰 메커니즘에 의해 추정된 새로운 화자 임베딩의 분포이고, 도 6(c)에서 검은점(black point)는 의 분포 내에서 실제 새로운 화자와 가까운 점이고, 도 6(d)는 새로운 데이터로 (검은점)를 미세 조정한 것이고, 빨간점은 새로운 화자의 음색을 나타내는 잠재 공간의 지점이다.

화자 적응 과정은 도 6과 같이 4단계로 구성될 수 있다. 먼저, 훈련된 화자와 새로운 화자 사이의 KL 발산의 값을 계산하고, 계산된 KL 발산의 값의 낮은 차수에서 화자를 선택할 수 있다. 다음으로, 예측 모델은 선택된 화자 임베딩과 새로운 화자의 피치 컨투어를 사용하여 새로운 화자 임베딩을 예측할 수 있다. 또한, 예측된 새로운 화자 임베딩은 글로벌 스타일 토큰 메커니즘에 입력되어 새로운 화자 임베딩의 분포를 획득할 수 있다. 그런 다음, 획득된 분포 내에서 새로운 화자의 음색에 가장 가까운 지점이 탐색된다. 여기서 탐색된 지점은 도 6(d)에서 로 표시된다. 이러한 과정까지는 미세 조정이 없으며, 마지막 과정에서 와 와 다른 부분(예를 들면, 디코더)을 함께 미세 조정할 수 있다.

도 7은 일 실시예에 있어서, 화자 적응 시스템의 구성을 설명하기 위한 블록도이고, 도 8은 일 실시예에 있어서, 화자 적응 방법을 설명하기 위한 흐름도이다.

화자 적응 시스템(100)의 프로세서는 화자 임베딩 생성부(710) 및 화자 임베딩 예측부(720)를 포함할 수 있다. 이러한 프로세서의 구성요소들은 화자 적응 시스템에 저장된 프로그램 코드가 제공하는 제어 명령에 따라 프로세서에 의해 수행되는 서로 다른 기능들(different functions)의 표현들일 수 있다. 프로세서 및 프로세서의 구성요소들은 도 8의 화자 적응 방법이 포함하는 단계들(S810 내지 S820)을 수행하도록 화자 적응 시스템을 제어할 수 있다. 이때, 프로세서 및 프로세서의 구성요소들은 메모리가 포함하는 운영체제의 코드와 적어도 하나의 프로그램의 코드에 따른 명령(instruction)을 실행하도록 구현될 수 있다.

프로세서는 화자 적응 방법을 위한 프로그램의 파일에 저장된 프로그램 코드를 메모리에 로딩할 수 있다. 예를 들면, 화자 적응 시스템에서 프로그램이 실행되면, 프로세서는 운영체제의 제어에 따라 프로그램의 파일로부터 프로그램 코드를 메모리에 로딩하도록 화자 적응 시스템을 제어할 수 있다. 이때, 화자 임베딩 생성부(710) 및 화자 임베딩 예측부(720) 각각은 메모리에 로딩된 프로그램 코드 중 대응하는 부분의 명령을 실행하여 이후 단계들(S810 내지 S820)을 실행하기 위한 프로세서의 서로 다른 기능적 표현들일 수 있다.

단계(S810)에서 화자 임베딩 생성부(710)는 글로벌 스타일 토큰 메커니즘이 포함된 음성변환 모델을 이용하여 화자 임베딩으로부터 화자의 음색을 표현하는 복수 개의 화자 임베딩을 생성할 수 있다. 화자 임베딩 생성부(710)는 글로벌 스타일 토큰 메커니즘이 포함된 음성변환 모델을 구성하고, 구성된 음성변환 모델을 이용하여 화자 임베딩 테이블을 통해 화자 ID에 대응하는 화자 임베딩을 추출하고, 추출된 화자 임베딩에 대해 글로벌 스타일 토큰 메커니즘을 통해 가우시안 분포의 분산(variance)을 예측할 수 있다. 화자 임베딩 생성부(710)는 추출된 화자 임베딩을 글로벌 스타일 토큰 메커니즘의 어텐션에 쿼리로 사용하여 각 화자의 분산을 추출하고, 추출된 분산을 가우시안 분포로부터 샘플링한 노이즈에 곱하여 추출된 분산을 갖는 가우시안 노이즈 벡터를 획득할 수 있다. 화자 임베딩 생성부(710)는 획득된 가우시안 노이즈 벡터를 추출된 화자 임베딩과 더해줌으로써 한 명의 화자의 음색을 표현하는 복수 개의 화자 임베딩을 생성할 수 있다.

단계(S820)에서 화자 임베딩 예측부(720)는 화자 임베딩을 예측하는 예측 모델을 이용하여 예측된 새로운 화자 임베딩과 생성된 복수 개의 화자 임베딩 사이의 유사도 비교를 통해 새로운 화자를 표현하는 최종의 화자 임베딩을 예측할 수 있다. 화자 임베딩 예측부(720)는 화자 임베딩을 예측하는 예측 모델을 구성하고, 구성된 예측 모델에 상기 생성된 복수의 화자 임베딩 중 선택된 화자 임베딩과 새로운 화자의 기본 프리퀀시(fundamental frequency)를 입력받을 수 있다. 화자 임베딩 예측부(720)는 음성변환 모델을 통해 훈련된 화자들 중 새로운 화자의 피치 컨투어(pitch contour)를 갖는 화자를 선택할 수 있다. 화자 임베딩 예측부(720)는 새로운 화자의 피치 컨투어와 훈련된 화자들의 피치 컨투어 사이의 KL 발산(Kullback-Leibler divergence)을 이용한 유사도 비교를 통해 KL발산의 값이 낮은 화자를 화자 임베딩으로 선택할 수 있다. 화자 임베딩 예측부(720)는 새로운 화자의 피치 컨투어를 피치 임베딩 테이블에 입력함에 따라 피치 임베딩을 추출하고, 추출된 피치 임베딩을 컨볼루션 뉴럴 네트워크(convolutional neural network; CNN)와 평균 풀링(mean pooling)을 통해 글로벌 피치 임베딩을 생성하고, 예측 모델을 통해 글로벌 피치 임베딩과 선택된 화자 임베딩을 결합하여 새로운 화자의 음색을 표현하는 새로운 화자 임베딩을 생성할 수 있다. 화자 임베딩 예측부(720)는 생성된 새로운 화자 임베딩을 글로벌 스타일 토큰에 쿼리로 입력하여 새로운 화자의 가우시안 분포를 예측하고, 가우시안 분포 내에서 복수 개의 새로운 화자 임베딩을 추출할 수 있다. 화자 임베딩 예측부(720)는 추출된 복수 개의 새로운 화자 임베딩 중에서 새로운 화자의 실제 음성을 가장 유사하게 표현할 수 있는 하나의 새로운 화자 임베딩을 선별할 수 있다. 화자 임베딩 예측부(720)는 새로운 화자의 가우시안 분포 내에서 실제 음성과의 차이가 가장 적은 노이즈를 선택하고, 선택된 노이즈를 새로운 화자 임베딩과 더하여 새로운 화자를 표현하는 화자 임베딩을 획득할 수 있다. 화자 임베딩 예측부(720)는 획득된 새로운 화자를 표현하는 화자 임베딩을 새로운 화자의 데이터로 미세 조정(fine-tuning)하여 새로운 화자를 표현하는 최종의 화자 임베딩을 생성할 수 있다.

도 9는 일 실시예에 있어서, 미세 조정의 전체 동작을 설명하기 위한 도면이다.

도 9(a)는 새로운 화자(red)와 유사한 화자(blue, yellow 및 green)를 선별했을 때의 모습이고, 도 9(b)는 예측 모델이 새로운 화자의 임베딩을 예측(mint)한 모습이고, 도 9(c)는 예측한 임베딩에서 글로벌 스타일 토큰을 사용해서 분포를 예측하고 예측된 분포내에서 새로운 화자의 음색을 가장 잘 표현하는 임베딩(purple)을 선별한 모습이고, 도 9(d)는 가장 잘 표현하는 임베딩을 미세 조정했을 때, 실제 화자가 굉장히 가까워진 모습을 보여준다.

예를 들면, 화자 적응의 성능을 실험하기 위하여 데이터 셋으로 VCTK, LibriTTS가 사용될 수 있으며, 음성합성 모델로 Tacotron2가 사용될 수 있다. Tacotron2의 훈련을 위한 손실 함수는 이다. 은 재구성 손실이며, 은 스탑 토큰을 위한 바이너리 크로스 엔트로피이다. 분산 매트릭스는 10개의 분산 임베딩과 각 임베딩마다 32개의 가중치로 구성될 수 있다. 학습률은 0.001이고, 옵터마이저는 Adam이 사용될 수 있다. 새로운 화자를 미세 조정하기 위해 40초 길이의 데이터가 사용될 수 있다.

표 1은 Tacotron2에서 각 방법의 95% 신뢰구간을 사용한 naturalness & similarity MOS 결과이다.

기존의 글로벌 스타일 토큰은 발화 수준(utterance level)의 스타일을 추출하는 알고리즘이다. 발화의 수준의 특징은 실제 TTS 모델에 입력하여 사용할 때 불안정한 경우가 있다. 왜냐하면 동일한 화자여도 발화한 문장마다 스타일이 조금씩 변하기 때문이다. 이에 반해, 실시예에서 제안된 방법은 화자 수준에서 특징을 추출하기 때문에 각 화자 고유의 음색을 표현하기에 적합하다.

기존 연구들 중 새로운 화자의 데이터로 TTS 모델을 미세 조정하는 경우, 모델 전체를 미세 조정하거나 디코더를 미세 조정(미세 조정되는 파라미터의 수가 많을수록 성능이 향상된다)한다. 모델 전체나 디코더는 굉장히 많은 파라미터를 가지고 있기 때문에 이것을 새로운 화자의 데이터로 미세 조정하게 되면 많은 저장 공간이 필요하다. 예를 들어 디코더의 파라미터가 14M개 일 때 새로운 화자가 100명이라면 각 화자의 데이터로 미세 조정된 파라미터가 14M * 100개에 대한 저장공간이 필요하다. 그러나, 실시예에서 제안된 방법으로 미세 조정하게 되면 파라미터를 미세 조정하지 않아도 새로운 화자의 목소리를 잘 표현할 수 있다.

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims

화자 적응 시스템에 의해 수행되는 화자 적응 방법에 있어서,
글로벌 스타일 토큰(GLOBAL STYLE TOKEN; GST) 메커니즘이 포함된 음성변환 모델을 이용하여 화자 임베딩으로부터 화자의 음색을 표현하는 복수 개의 화자 임베딩을 생성하는 단계; 및
화자 임베딩을 예측하는 예측 모델을 이용하여 예측된 새로운 화자 임베딩과 상기 생성된 복수 개의 화자 임베딩 사이의 유사도 비교를 통해 새로운 화자를 표현하는 최종의 화자 임베딩을 예측하는 단계
를 포함하는 화자 적응 방법.
제1항에 있어서,
상기 생성하는 단계는,
글로벌 스타일 토큰 메커니즘이 포함된 음성변환 모델을 구성하고, 상기 구성된 음성변환 모델을 이용하여 화자 임베딩 테이블을 통해 화자 ID에 대응하는 화자 임베딩을 추출하고, 상기 추출된 화자 임베딩에 대해 글로벌 스타일 토큰 메커니즘을 통해 가우시안 분포의 분산(variance)을 예측하는 단계
를 포함하고,
상기 추출된 화자 임베딩은, 각 화자의 음색을 표현하는 잠재 벡터인
것을 특징으로 하는 화자 적응 방법.
제2항에 있어서,
상기 생성하는 단계는,
상기 추출된 화자 임베딩을 상기 글로벌 스타일 토큰 메커니즘의 어텐션에 쿼리로 사용하여 각 화자의 분산을 추출하고, 상기 추출된 분산을 가우시안 분포로부터 샘플링한 노이즈에 곱하여 상기 추출된 분산을 갖는 가우시안 노이즈 벡터를 획득하는 단계
를 포함하는 화자 적응 방법.
제3항에 있어서,
상기 생성하는 단계는,
상기 획득된 가우시안 노이즈 벡터를 상기 추출된 화자 임베딩과 더해줌으로써 한 명의 화자의 음색을 표현하는 복수 개의 화자 임베딩을 생성하는 단계
를 포함하는 화자 적응 방법.
제1항에 있어서,
상기 새로운 화자를 표현하는 최종의 화자 임베딩을 예측하는 단계는,
화자 임베딩을 예측하는 예측 모델을 구성하고, 상기 구성된 예측 모델에 상기 생성된 복수의 화자 임베딩 중 선택된 화자 임베딩과 새로운 화자의 기본 프리퀀시(fundamental frequency)를 입력받는 단계
를 포함하는 화자 적응 방법.
제5항에 있어서,
상기 새로운 화자를 표현하는 최종의 화자 임베딩을 예측하는 단계는,
상기 음성변환 모델을 통해 훈련된 화자들 중 상기 새로운 화자의 피치 컨투어(pitch contour)를 갖는 화자를 선택하는 단계
를 포함하는 화자 적응 방법.
제6항에 있어서,
상기 새로운 화자를 표현하는 최종의 화자 임베딩을 예측하는 단계는,
상기 새로운 화자의 피치 컨투어와 상기 훈련된 화자들의 피치 컨투어 사이의 KL 발산(Kullback-Leibler divergence)을 이용한 유사도 비교를 통해 상기 KL발산의 값이 낮은 화자를 화자 임베딩으로 선택하는 단계
를 포함하는 화자 적응 방법.
제5항에 있어서,
상기 새로운 화자를 표현하는 최종의 화자 임베딩을 예측하는 단계는,
상기 새로운 화자의 피치 컨투어를 피치 임베딩 테이블에 입력함에 따라 피치 임베딩을 추출하고, 상기 추출된 피치 임베딩을 컨볼루션 뉴럴 네트워크(convolutional neural network; CNN)와 평균 풀링(mean pooling)을 통해 글로벌 피치 임베딩을 생성하고, 상기 예측 모델을 통해 글로벌 피치 임베딩과 상기 선택된 화자 임베딩을 결합하여 새로운 화자의 음색을 표현하는 새로운 화자 임베딩을 생성하는 단계
를 포함하는 화자 적응 방법.
제8항에 있어서,
상기 새로운 화자를 표현하는 최종의 화자 임베딩을 예측하는 단계는,
상기 생성된 새로운 화자 임베딩을 글로벌 스타일 토큰에 쿼리로 입력하여 새로운 화자의 가우시안 분포를 예측하고, 가우시안 분포 내에서 복수 개의 새로운 화자 임베딩을 추출하는 단계
를 포함하는 화자 적응 방법.
제9항에 있어서,
상기 새로운 화자를 표현하는 최종의 화자 임베딩을 예측하는 단계는,
상기 추출된 복수 개의 새로운 화자 임베딩 중에서 새로운 화자의 실제 음성을 가장 유사하게 표현할 수 있는 하나의 새로운 화자 임베딩을 선별하는 단계
를 포함하는 화자 적응 방법.
제10항에 있어서,
상기 새로운 화자를 표현하는 최종의 화자 임베딩을 예측하는 단계는,
상기 새로운 화자의 가우시안 분포 내에서 실제 음성과의 차이가 가장 적은 노이즈를 선택하고, 상기 선택된 노이즈를 상기 새로운 화자 임베딩과 더하여 상기 새로운 화자를 표현하는 화자 임베딩을 획득하는 단계
를 포함하는 화자 적응 방법.
제11항에 있어서,
상기 새로운 화자를 표현하는 최종의 화자 임베딩을 예측하는 단계는,
상기 획득된 새로운 화자를 표현하는 화자 임베딩을 새로운 화자의 데이터로 미세 조정(fine-tuning)하여 상기 새로운 화자를 표현하는 최종의 화자 임베딩을 생성하는 단계
를 포함하는 화자 적응 방법.
제1항 내지 제12항 중 어느 한 항의 화자 적응 방법을 상기 화자 적응 시스템에 실행시키기 위해 비-일시적인 컴퓨터 판독가능한 기록 매체에 저장되는 컴퓨터 프로그램.
화자 적응 시스템에 있어서,
글로벌 스타일 토큰 메커니즘이 포함된 음성변환 모델을 이용하여 화자 임베딩으로부터 화자의 음색을 표현하는 복수 개의 화자 임베딩을 생성하는 화자 임베딩 생성부; 및
화자 임베딩을 예측하는 예측 모델을 이용하여 예측된 새로운 화자 임베딩과 상기 생성된 복수 개의 화자 임베딩 사이의 유사도 비교를 통해 새로운 화자를 표현하는 최종의 화자 임베딩을 예측하는 화자 임베딩 예측부
를 포함하는 화자 적응 시스템.