KR20200092505A

KR20200092505A - 심층 합성곱 신경망 인공지능을 기반으로 한 미세조정을 통해 소량의 샘플로 화자 적합된 음성합성 모델을 생성하는 방법

Info

Publication number: KR20200092505A
Application number: KR1020190004350A
Authority: KR
Inventors: 박세찬
Original assignee: 네오데우스 주식회사
Priority date: 2019-01-13
Filing date: 2019-01-13
Publication date: 2020-08-04

Abstract

본 발명은 음성을 합성하는 인공지능에 관한 것으로서, 특히 심층 합성곱 신경망 인공지능을 기반으로 한 미세조정을 통해 소량의 샘플로 화자 적합된 음성합성 모델을 생성하는 방법으로서, 그중 당해 방법은, 텍스트 인코더를 이용하여 텍스트를 텍스트 정보를 표현하는 숫자로 변환(Character Embedding)하는 단계; 스피커 인코더를 이용하여 타겟 음성 파일을 스피커 임베딩으로 변환하는 단계; 개인화 어텐션을 이용하여 텍스트 임베딩과 스피커 임베딩을 언어적 지식과 자소, 음소 지식을 이용하여 컨텍스트 벡터로 변환하는 단계; 오디오 디코더를 이용하여 컨텍스트 벡터를 예측된 멜-스펙트로그램으로 변환하는 단계; 그리고 보코더를 이용하여 예측된 멜-스펙트로그램과 에스알넷을 이용하여 웨이브폼 형식의 음성파일을 생성하는 단계를 포함한다. 본 발명이 제공하는 소량의 샘플로 화자 적합된 음성합성 모델을 생성하는 기술을 통하여, 화자 적합된 음성합성 모델에 필요한 데이터가 기존의 5시간에서 10분 내외로 대폭 감소하였다. 이를 통해 음성합성 시스템을 만드는데 필요한 시간 및 비용을 절약한다.

Description

심층 합성곱 신경망 인공지능을 기반으로 한 미세조정을 통해 소량의 샘플로 화자 적합된 음성합성 모델을 생성하는 방법{METHOD FOR GENERATING SPEAKER-ADAPTED SPEECH SYNTHESIZER MODEL WITH A FEW SAMPLES USING A FINE-TUNING BASED ON DEEP CONVOLUTIONAL NEURAL NETWORK AI}

본 발명은 음성을 합성하는 인공지능에 관한 것으로서, 특히 심층 합성곱 신경망 인공지능을 기반으로 한 미세조정을 통해 소량의 샘플로 화자 적합된 음성합성 모델을 생성하는 방법에 관한 것이다.

인공지능(Artificial Intelligence, AI)은 인간의 학습능력과 추론능력, 지각능력, 자연언어의 이해능력 등을 컴퓨터 프로그램으로 실현한 기술을 의미한다(두산백과). 현재 개발되고 있는 인공지능은 대화형 사용자 인터페이스(Conversational User Interface, CUI)를 구현하기 위해 필요한 기술들에 집중되어 있다. 그러한 기술로 음성인식(STT), 자연어 이해(NLU), 자연어 생성(NLG), 음성합성(TTS)이 있다.

음성합성 기술은 인공지능을 통한 대화형 사용자 인터페이스 구현을 위한 핵심 기술로서, 인간이 발화하는 것과 같은 소리를 컴퓨터나 기계를 통하여 만들어내는 것이다. 기존의 음성합성은 고정 합성 단위(Fixed Length Unit)인 단어, 음절, 음소를 조합하여 파형을 만들어내는 방식(1세대), 말뭉치를 이용한 가변 합성 단위 연결 방식(2세대)에서, 3세대 모델로 발전하였다. 3세대 모델은 음성인식을 위한 음향모델링에 주로 사용하는 HMM(Hidden Markov Model)방식을 음성합성에 적용하여, 적절한 크기의 데이터베이스를 이용한 고품질 음성합성을 구현하였다.

기존의 음성합성이 특정 화자의 음색과 억양, 말투를 학습하기 위해서는 그 화자의 음성 데이터가 최소 5시간, 고품질의 음성 출력을 위해서는 10시간 이상 필요했다. 하지만 같은 사람의 음성 데이터를 그만큼 확보하는 것은 많은 비용과 시간이 소요되었다.

본 발명은 적어도 일정한 정도에서 관련 기술에서의 기술적 과제 중의 하나를 해결하려는데 있다.

이를 위하여, 본 발명의 제 1 목적은 신경망(Neural Network, NN) 인공지능을 기반으로 한 미세조정을 통해 소량의 샘플을 이용한 화자 적합 음성합성 방법을 제공하고자 한다. 이를 통해 본 발명은 기존의 화자 적합 음성합성 모델을 생성하고 활용하는데 있어서 비용이 많이 걸리고, 시간이 많이 소요되는 문제점을 해결할 것이다.

상기 목적을 달성하기 위하여, 본 발명은 텍스트를 텍스트 정보를 표현하는 숫자로 변환하는 텍스트 인코더; 타겟 음성 파일을 스피커 임베딩으로 변환하는 스피커 인코더; 텍스트 임베딩과 스피커 임베딩을 언어적 지식과 자소, 음소 지식을 이용하여 컨텍스트 벡터로 변환하는 개인화 어텐션; 컨텍스트 벡터를 예측된 멜-스펙트로그램으로 변환하는 오디오 디코더; 그리고 예측된 멜-스펙트로그램과 에스알넷을 이용하여 웨이브폼 형식의 음성파일을 생성하는 보코더로 음성 합성 모델을 구성하였다.

본 발명은 텍스트를 텍스트 정보를 표현하는 숫자로 변환하는 텍스트 인코더; 타겟 음성 파일을 스피커 임베딩으로 변환하는 스피커 인코더; 텍스트 임베딩과 스피커 임베딩을 언어적 지식과 자소, 음소 지식을 이용하여 컨텍스트 벡터로 변환하는 개인화 어텐션; 컨텍스트 벡터를 예측된 멜-스펙트로그램으로 변환하는 오디오 디코더; 그리고 예측된 멜-스펙트로그램과 에스알넷을 이용하여 웨이브폼 형식의 음성파일을 생성하는 보코더로 음성 합성 모델을 구성하였다. 이를 통해 특정 화자의 목소리를 생성하는 음성 합성 모델을 만드는데 필요한 데이터를 기존의 5시간~10시간에서 10분 이내로 단축시켰다. 이를 이용하면 화자 적합된 TTS(Text-To-Speech)를 만드는데 드는 시간과 비용을 상당 부분 감소시킬 수 있다.

본 발명의 상기 측면과 장점은 아래의 첨부된 도면을 결합하여 실시예에 대하여 설명하는 것으로부터 명확해지고 쉽게 이해될 수 있다. 그중,
도 1은 본 발명의 실시예에 따른 화자적합 음성합성 모델 생성 방법의 흐름도이다.
도 2는 본 발명의 단계 S101의 구조도이다.
도 3은 본 발명의 단계 S102에서 STFT(국소 푸리에 변환)로 스펙트로그램을 생성하는 구조도이다.
도 4는 본 발명의 단계 S103에서 이용하는 개인화 어텐션의 구조도이다.
도 5는 본 발명의 단계 S104의 구조도이다.
도 6은 본 발명의 단계 S105의 구조도이다.

이하에서는, 본 발명의 실시예에 대하여 상세하게 설명하도록 한다. 상기 실시예의 예시는 첨부된 도면에 도시되며, 그중 동일하거나 또는 유사한 부호는 동일하거나 유사한 소자 또는 동일하거나 유사한 기능을 구비한 소자를 나타낸다. 아래에 첨부된 도면을 참조하여 설명되는 실시예는 예시적인 것으로서, 그 의의는 본 발명을 설명하기 위한 것으로서, 본 발명에 대한 한정으로 이해하여서는 안된다.

아래의 도면을 참조하여 본 발명의 실시예에 따른 화자 적합 음성합성 모델 생성 방법 및 장치를 설명하기로 한다.

도 1은 본 발명의 실시예에 따른 화자 적합 음성 합성 모델의 생성 방법의 흐름도이다.

도 1에서 도시하는 바와 같이, 당해 음성 합성 모델은 다음의 단계 S101 내지 단계 S105를 포함한다.

도 2는 단계 S101을 도시하고 있다. 이 단계에서는 텍스트 인코더(Text-Encoder)를 이용하여 입력된 텍스트를 텍스트 정보를 표현하는 숫자로 변환한다. 이는 딥러닝 모델이 계산을 하기 위해 글자를 숫자로 바꾸는 캐릭터 임베딩(Character Embedding)에 해당한다. 한국어의 경우 한글은 음소문자이나 한국어는 한글을 모아쓰기를 통해서 음절문자로 사용한다. 따라서 알파벳이나 로마자와 같은 음소문자 계열의 언어와 발음 방식은 유사하지만 다른 발음 규칙을 적용해야 한다. 즉, 유니코드의 자모로 초성, 중성, 종성으로 나누는 전처리를 통한 방식과 발음기호와 언어 규칙을 적용한 방식을 추가하여서 변환해야 한다. 이를 위해서 사용하는 것이 Text-net과 HC(Highway-conv)이다.

Text-net은 Conv1D와 Relu를 거치고, Dropout을 한 뒤에, 다시 Conv1D와 Dropout을 거친다.

HC-net은 Highway-conv를 의미한다. Text-net을 통해 변환된 데이터는 (HC)**2 - (HC)**2를 거치고 컨벌루셔널 층을 통해서 숫자 데이터가 된다.

단계 S101의 결과, 입력된 텍스트는 텍스트-넷(Text-net)과 HC-net를 거쳐서 텍스트 정보를 표현하는 숫자들로 텍스트 임베딩(Text Embedding)된다. 이 때의 결과물은 (K, V)이다. K는 Keys를, V는 Values를 의미한다. 이 때 K는 배치(Batch), 길이(Length(Character)), 차원(Dimension)에 관한 정보를 나타낸다. V는 배치(Batch), 길이(Length(Character)), 차원(Dimension)을 포함한다.

단계 S102에서는 적합하려는 화자의 타겟 음성 오디오 파일이 스피커 인코더(Speaker-Encoder)를 거쳐 스피커 임베딩으로 변환된다. 적합하려는 화자의 음성 데이터를 이용하기 위해, 시계열 데이터인 음성 데이터를 국소 푸리에 변환(Short-Time Fourier Transform)을 거쳐서 스펙트로그램(Spectrogram)으로 변환한다. 기존 기술에서는 적합하려는 화자와 유사한 음성을 출력하기 위해서는 그 화자의 타겟 음성 오디오 파일이 최소 5시간~10시간을 입력값으로 넣어야 했다. 하지만 본 발명에서는 타겟 음성 오디오 파일을 10분 이상을 입력값으로 넣으면 기존 기술의 출력값과 유사한 음성을 출력할 수 있다.

도 3은 STFT로 스펙트로그램을 생성하는 방법을 도시한다. X축에는 시간, Y축에는 주파수(Hz), Z축에는 진폭(Amplitude)을 나타내어 주파수와 진폭이 시간에 따라 어떻게 변화하는지를 나타낸다. 이렇게 만들어진 스펙트로그램을 귀의 달팽이관의 특성을 반영하여 멜-스펙트로그램(Mel-Spectrogram)으로 변환한다. 이 멜-스펙트로그램(Mel-Spectrogram)을 입력값으로 넣어서 스피커 인코더 네트워크(SE-net)를 통과시킨다. 이때 SE-net은 (Conv1D - ReLU - Dropout) - (Conv1D - ReLU - Dropout) - (Conv1D - Dropout) - (HC - HC - HC - HC)**2 - (HC) ** 2로 구성되어 있다. 이를 통해 멜-스펙트로그램이 타겟 화자의 음성 정보를 표현한 숫자인 스피커 임베딩(Speaker embedding)으로 변환된다.

단계 S101과 단계 S102를 통해 변환된 음성, 텍스트를 표현하는 숫자들은 단계 S103에서 개인화 어텐션(Personal Attention)을 거쳐서 컨텍스트 벡터들(Context Vectors)로 변환된다. 이 과정에서 생성 모델(Generative Model)이 이용된다. 이 모델은 언어적 지식, 자소와 음소의 지식을 포함한다. 이 정보들이 개인화 어텐션을 거쳐서 컨텍스트 벡터들이 된다.

도 4는 개인화 어텐션(Personal Attention)의 구조를 나타낸다. 어텐션(Attention)은 입력된 데이터의 중요도를 반영하여, 각각 어디에 더 집중해야 할지를 학습하는 모듈이다. 개인화 어텐션은 특정 화자의 목소리의 특징 중 어디에 더 집중해야 할지를 학습한다. 이 과정을 거쳐서 화자의 목소리를 구현하는데 필요한 특징값을 추출해낸다. 퍼스널 어텐션의 입력값으로는 키(Keys), 값(Values), 그리고 쿼리(Queries)가 입력된다. 이 입력값은 퍼스널 어텐션을 거쳐서 R로 변환되는데, R은 컨텍스트 벡터(Context Vector)이다. 여기에는 입력값인 쿼리가 가지고 있던 배치, T/r, 그리고 차원에 대한 정보가 포함된다.

도 5는 단계 S104를 나타낸다. 여기서는 단계 S103에서 생성된 컨텍스트 벡터가 오디오 디코더(Audio Decoder)를 거쳐서 예측된 멜-스펙트로그램(Mel-Spectrogram)으로 변환된다.

컨텍스트 벡터는 먼저 디코더-넷(Decoder-net)을 거치면서 Conv1D-드랍아웃(Dropout)의 과정을 지난다. 그 다음 HC-넷(HC-net)에서 HC-HC-HC-HC의 과정을 거친다. 다음으로 컨벌루셔널 층에서 (HC)를 2번 거치고, (Conv1D + ReLU + Dropout)을 3번 거치고, Conv1D-Dropout을 거쳐서 예측된 멜-스펙트로그램으로 변환된다.

이렇게 변환된 멜-스펙트로그램 예측값은 입력값이었던 컨텍스트 벡터가 가지고 있던 배치, T/r을 여전히 속성으로 가진다. 그러면서도 n_mels라는 새로운 속성을 가지게 된다.

도 6은 단계 S105를 도시한다. 여기서는 예측된 멜-스펙트로그램과 슈퍼 레졸루션(super resolution)을 입력값으로 하여 보코더(Vocoder)를 거쳐서 음성파일을 생성한다. 먼저 SR-넷(SR-net)에서는 (Conv1D + Dropout) - HC - HC - (HC-HC-HC)**2 - (Conv1D + Dropout) - (HC)**2의 과정을 거친다. 이를 통해 cnn 시스템의 해상도를 향상시킨다. 그 다음 보코더넷(Vocoder-net)을 거쳐서 최종 웨이브폼(Waveform) 음성이 생성된다. 즉, 예측된 멜-스펙트로그램을 입력값으로 넣어서, 최종 웨이브폼이 완성된다. 이 웨이브폼은 입력된 목소리와 어조, 음색, 억양 등이 유사한 음성이다.

Claims

심층 합성곱 신경망 인공지능을 기반으로 한 미세조정을 통해 소량의 샘플로 화자 적합된 음성합성 모델을 생성하는 방법에 있어서, 텍스트를 텍스트 정보를 표현하는 숫자로 변환하는 텍스트 인코더를 이용하는 단계;
타겟 음성 파일을 스피커 임베딩으로 변환하는 스피커 인코더를 이용하는 단계;
텍스트 임베딩과 스피커 임베딩을 언어적 지식과 자소, 음소 지식을 이용하여 컨텍스트 벡터로 변환하는 개인화 어텐션을 이용하는 단계;
컨텍스트 벡터를 예측된 멜-스펙트로그램으로 변환하는 오디오 디코더를 이용하는 단계;
그리고 예측된 멜-스펙트로그램과 에스알넷을 이용하여 웨이브폼 형식의 음성파일을 생성하는 보코더로 음성 합성 모델을 구성하는 단계;를 포함하는 화자 적합된 음성합성 모델 생성 방법.
제1 항에 있어서,
특정 화자의 타겟 음성 데이터로부터 목소리를 만들어서 재구현하는데 필요한 모델의 생성을 위해 관련 모듈들을 활용하는 순서.
제1 항에 있어서,
텍스트를 텍스트 정보를 표현하는 숫자로 변환하는 텍스트 인코더를 이용하는 단계에서 각각의 노드와 레이어에 가중치를 부여하는 방법.
제1 항에 있어서,
타겟 음성 파일을 스피커 임베딩으로 변환하는 스피커 인코더를 이용하는 단계에서 각각의 노드와 레이어에 가중치를 부여하는 방법.
제1 항에 있어서,
텍스트 임베딩과 스피커 임베딩을 언어적 지식과 자소, 음소 지식을 이용하여 컨텍스트 벡터로 변환하는 개인화 어텐션을 이용하는 단계에서 각각의 노드와 레이어에 가중치를 부여하는 방법.
제1 항에 있어서,
컨텍스트 벡터를 예측된 멜-스펙트로그램으로 변환하는 오디오 디코더를 이용하는 단계에서 각각의 노드와 레이어에 가중치를 부여하는 방법.
제1 항에 있어서,
예측된 멜-스펙트로그램과 에스알넷을 이용하여 웨이브폼 형식의 음성파일을 생성하는 보코더로 음성 합성 모델을 구성하는 단계에서 각각의 노드와 레이어에 가중치를 부여하는 방법.