KR20200111609A - 음성 합성 장치 및 그 방법 - Google Patents

음성 합성 장치 및 그 방법 Download PDF

Info

Publication number
KR20200111609A
KR20200111609A KR1020190167464A KR20190167464A KR20200111609A KR 20200111609 A KR20200111609 A KR 20200111609A KR 1020190167464 A KR1020190167464 A KR 1020190167464A KR 20190167464 A KR20190167464 A KR 20190167464A KR 20200111609 A KR20200111609 A KR 20200111609A
Authority
KR
South Korea
Prior art keywords
speech synthesis
emotion
neural network
vector
embedding
Prior art date
Application number
KR1020190167464A
Other languages
English (en)
Inventor
이자룡
박중배
Original Assignee
휴멜로 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 휴멜로 주식회사 filed Critical 휴멜로 주식회사
Priority to KR1020190167464A priority Critical patent/KR20200111609A/ko
Publication of KR20200111609A publication Critical patent/KR20200111609A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Child & Adolescent Psychology (AREA)
  • General Health & Medical Sciences (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Telephonic Communication Services (AREA)

Abstract

감정 정보가 반영된 감정 음성을 합성할 수 있는 음성 합성 장치가 제공된다. 본 개시의 몇몇 실시예들에 따른 음성 합성 장치는 입력된 텍스트에 대한 전처리를 수행하는 전처리부 및 상기 전처리된 텍스트와 감정 정보를 신경망 기반의 음성 합성 모델에 입력하여 상기 입력된 텍스트에 대해 상기 감정 정보가 반영된 감정 음성을 합성하는 음성 합성부를 포함할 수 있다. 이때, 상기 음성 합성 모델은 인코더 신경망 및 디코더 신경망을 포함하고, 감정 정보에 대한 감정 임베딩 벡터가 인코더 신경망으로 입력으로 활용됨으로써 감정 정보가 반영된 감정 음성이 출력될 수 있다.

Description

음성 합성 장치 및 그 방법{APPARATUS FOR SYNTHESIZING SPEECH AND METHOD THEREOF}
본 개시는 음성 합성 장치 및 그 방법에 관한 것이다. 보다 자세하게는, 신경망 기반의 음성 합성 모델을 이용하여 감정 정보가 반영된 감정 음성을 합성하는 장치, 그 장치에서 수행되는 음성 합성 방법 및 상기 음성 합성 모델을 구축하는 방법에 관한 것이다.
음성 합성(speech synthesis) 기술은 입력된 텍스트로부터 사람이 말하는 소리와 유사한 소리를 합성해내는 기술로 흔히 TTS(Text-To-Speech) 기술로도 알려져 있다. 근래에 들어, 스마트폰, 전자 책 리더, 차량 네비게이션 등 개인 휴대용 장치의 개발과 보급이 활발하게 이루어짐으로써 음성 출력을 위한 음성 합성 기술에 대한 요구가 급속도로 증가하고 있다.
음성 합성 기술에 대한 요구가 증가함에 따라 그 요구사항 또한 세분화되고 있는데, 최근에는 특정 텍스트로부터 사람의 감정이 담긴 다양한 감정 음성을 합성해낼 수 있는 기술에 대한 수요가 지속적으로 제기되고 있다.
종래의 경우, 감정 음성을 합성해내기 위해 오디오 후처리 방식이 주로 이용되었다. 오디오 후처리 방식은 입력된 텍스트에 대한 음성을 합성하고, 합성된 음성의 오디오 신호를 원하는 감정에 따라 수정하는 방식인데, 이와 같은 방식은 오디오 신호를 인위적으로 수정하기 때문에 음성의 자연스러움이 사라진다는 문제점이 있었다.
또한, 텍스트 토큰 단위로 감정 별 음성 단편들을 미리 음성 DB에 저장해 놓고 원하는 감정에 따라 기 저장된 음성 단편을 추출하여 합성하는 방식이 제안된 바도 있다. 그러나, 이와 같은 방식도 음성 단편 간의 연결 문제로 인해 매끄럽지 않은 음성이 생성되는 문제가 있고, 무엇보다 방대한 음성 DB를 구축하는데 많은 시간 비용이 소요되는 문제가 있었다.
따라서, 다양하고 연속적인 감정이 담긴 감정 음성을 생성할 수 있는 음성 합성 방법이 요구된다.
한국공개특허 제10-2011-0021944호 (2011.03.04 공개)
본 개시의 몇몇 실시예들을 통해 해결하고자 하는 기술적 과제는, 주어진 텍스트에 대하여 다양한 감정이 담긴 감정 음성을 합성할 수 있는 장치 및 그 장치에서 수행되는 방법을 제공하는 것이다.
본 개시의 몇몇 실시예들을 통해 해결하고자 하는 다른 기술적 과제는, 주어진 텍스트에 대한 감정 음성을 합성할 수 있는 신경망 기반의 음성 합성 모델을 구축할 수 있는 장치 및 그 장치에서 수행되는 방법을 제공하는 것이다.
본 개시의 몇몇 실시예들을 통해 해결하고자 하는 또 다른 기술적 과제는, 주어진 텍스트에 대하여 화자 별로 다양한 감정이 담긴 감정 음성을 합성할 수 있는 장치 및 그 장치에서 수행되는 방법을 제공하는 것이다.
본 개시의 몇몇 실시예들을 통해 해결하고자 하는 또 다른 기술적 과제는, 주어진 텍스트에 대하여 화자 별로 다양한 감정이 담긴 감정 음성을 합성할 수 있는 신경망 기반의 음성 합성 모델을 구축할 수 있는 장치 및 그 장치에서 수행되는 방법을 제공하는 것이다.
본 개시의 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 개시의 기술분야에서의 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
상기 기술적 과제를 해결하기 위한, 본 개시의 몇몇 실시예들에 따른 음성 합성 장치는, 입력된 텍스트에 대한 전처리를 수행하는 전처리부 및 상기 전처리된 텍스트와 감정 정보를 신경망 기반의 음성 합성 모델에 입력하여 상기 입력된 텍스트에 대해 상기 감정 정보가 반영된 감정 음성을 합성하는 음성 합성부를 포함하되, 상기 음성 합성 모델은, 상기 전처리된 텍스트를 문자 임베딩 벡터로 변환하는 문자 임베딩 모듈, 상기 감정 정보를 감정 임베딩 벡터로 변환하는 감정 임베딩 모듈, 상기 문자 임베딩 벡터로 구성된 입력 시퀀스와 상기 감정 임베딩 벡터를 입력받고 인코딩된 벡터를 출력하는 인코더 신경망 및 상기 인코딩된 벡터를 입력받고 상기 감정 음성과 연관된 출력 시퀀스를 출력하는 디코더 신경망을 포함할 수 있다.
몇몇 실시예에서, 상기 음성 합성 모델은, 상기 인코더 신경망과 상기 디코더 신경망 사이에 위치하고 상기 디코더 신경망이 상기 인코딩된 벡터에서 집중할 부분을 결정하는 어텐션(attention) 모듈을 더 포함할 수 있다.
몇몇 실시예에서, 상기 출력 시퀀스는 스펙트로그램(spectrogram) 형태의 데이터로 구성되고, 상기 음성 합성부는, 상기 출력 시퀀스를 상기 감정 음성으로 변환하는 보코더부를 더 포함할 수 있다.
몇몇 실시예에서, 상기 디코더 신경망은, 상기 감정 임베딩 벡터를 더 입력받고 상기 출력 시퀀스를 출력할 수 있다.
몇몇 실시예에서, 상기 출력 시퀀스는 스펙트로그램 형태의 데이터로 구성되고, 상기 음성 합성부는, 상기 전처리부에 의해 전처리된 학습용 텍스트를 상기 음성 합성 모델에 입력하고, 그 결과로 획득된 스펙트로그램 데이터와 정답 스펙트로그램 데이터를 비교하여 오차 값을 산출하며, 상기 산출된 오차 값을 역전파(back-propagation)하여 상기 음성 합성 모델을 학습시킬 수 있다.
몇몇 실시예에서, 상기 음성 합성 모델은, 화자 정보를 화자 임베딩 벡터로 변환하는 화자 임베딩 모듈을 더 포함하고, 상기 음성 합성부는, 상기 화자 정보를 상기 음성 합성 모델에 입력하여 상기 화자 정보가 나타내는 특정 화자에 대해 상기 감정 정보가 반영된 음성을 상기 감정 음성으로 출력할 수 있다.
상술한 기술적 과제를 해결하기 위한 본 개시의 다른 몇몇 실시예들에 따른 음성 합성 장치는, 입력된 텍스트에 대한 전처리를 수행하는 전처리부 및 상기 전처리된 텍스트와 감정 정보를 신경망 기반의 음성 합성 모델에 입력하여 상기 입력된 텍스트에 대해 상기 감정 정보가 반영된 감정 음성을 합성하는 음성 합성부를 포함하되, 상기 음성 합성 모델은, 상기 전처리된 텍스트를 문자 임베딩 벡터로 변환하는 문자 임베딩 모듈, 상기 감정 정보를 감정 임베딩 벡터로 변환하는 감정 임베딩 모듈, 상기 문자 임베딩 벡터로 구성된 입력 시퀀스를 입력받고 인코딩된 벡터를 출력하는 인코더 신경망 및 상기 인코딩된 벡터와 상기 감정 임베딩 벡터를 입력받고 상기 감정 음성과 연관된 출력 시퀀스를 출력하는 디코더 신경망을 포함할 수 있다.
상술한 기술적 과제를 해결하기 위한 본 개시의 몇몇 실시예들에 따른 음성 합성 모델 구축 방법은, 컴퓨팅 장치에서 감정 음성을 합성하기 위해 인코더 신경망 및 디코더 신경망을 포함하는 음성 합성 모델을 구축하는 방법에 있어서, 학습용 텍스트를 임베딩(embedding)하여 문자 임베딩 벡터로 변환하는 단계, 학습용 감정 정보를 임베딩하여 감정 임베딩 벡터로 변환하는 단계, 상기 인코더 신경망에서 상기 문자 임베딩 벡터 및 상기 감정 임베딩 벡터를 입력받고 인코딩된 벡터를 출력하는 단계, 상기 디코더 신경망에서 상기 인코딩된 벡터를 입력받고 예측 스펙트로그램 데이터를 출력하는 단계 및 정답 스펙트로그램 데이터와 상기 예측 스펙트로그램 데이터 간의 오차를 역전파(back-propagation)하여 상기 음성 합성 모델을 갱신하는 단계를 포함할 수 있다.
도 1은 본 개시의 몇몇 실시예들에 따른 음성 합성 장치의 입력 및 출력을 설명하기 위한 도면이다.
도 2는 본 개시의 몇몇 실시예들에 따른 음성 합성 장치를 나타내는 예시적인 블록도이다.
도 3은 본 개시의 몇몇 실시예들에 따른 전처리부의 동작을 설명하기 위한 예시도이다.
도 4는 본 개시의 몇몇 실시예들에 따른 음성 합성부를 나타내는 예시적인 블록도이다.
도 5 및 도 6은 본 개시의 몇몇 실시예들에 따른 음성 합성 모델의 신경망 구조를 설명하기 위한 도면이다.
도 7 및 도 8은 본 개시의 다양한 실시예들에서 참조될 수 있는 감성 정보를 설명하기 위한 예시도이다.
도 9는 본 개시의 몇몇 실시예들에 따른 음성 합성 모델에 이용될 수 있는 LSTM 순환 신경망을 나타내는 예시도이다.
도 10은 본 개시의 몇몇 실시예들에 따른 음성 합성 모델에 대한 학습 동작을 설명하기 위한 예시도이다.
도 11 내지 도 15는 본 개시의 다양한 실시예들에 따른 변형된 음성 합성 모델의 신경망 구조를 설명하기 위한 도면이다.
도 16은 본 개시의 몇몇 실시예들에 따른 음성 합성 방법을 나타내는 예시적인 흐름도이다.
도 17은 본 개시의 몇몇 실시예들에 따른 음성 합성 모델 구축 방법을 설명하기 위한 예시적인 흐름도이다.
도 18은 본 개시의 몇몇 실시예들에 따른 음성 합성 장치를 구현할 수 있는 예시적인 컴퓨팅 장치를 설명하기 위한 도면이다.
이하, 첨부된 도면을 참조하여 본 개시의 바람직한 실시예들을 상세히 설명한다. 본 개시의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 개시의 기술적 사상은 이하의 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 이하의 실시예들은 본 개시의 기술적 사상을 완전하도록 하고, 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 본 개시의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 개시의 기술적 사상은 청구항의 범주에 의해 정의될 뿐이다.
각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 개시를 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 개시의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.
다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있다. 또 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다. 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 개시를 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다.
또한, 본 개시의 구성 요소를 설명하는 데 있어서, 제1, 제2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성 요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성 요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 어떤 구성 요소가 다른 구성요소에 "연결", "결합" 또는 "접속"된다고 기재된 경우, 그 구성 요소는 그 다른 구성요소에 직접적으로 연결되거나 또는 접속될 수 있지만, 각 구성 요소 사이에 또 다른 구성 요소가 "연결", "결합" 또는 "접속"될 수도 있다고 이해되어야 할 것이다.
명세서에서 사용되는 "포함한다 (comprises)" 및/또는 "포함하는 (comprising)"은 언급된 구성 요소, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성 요소, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.
본 명세서에 대한 설명에 앞서, 본 명세서에서 사용되는 몇몇 용어들에 대하여 명확하게 하기로 한다.
본 명세서에서, 감정 음성(emotional speech or emotional voice)이란, 글자 그대로 사람의 감정을 담아 합성된 음성을 의미한다.
본 명세서에서 인스트럭션(instruction)이란, 기능을 기준으로 묶인 일련의 컴퓨터 판독가능 명령어들로서 컴퓨터 프로그램의 구성 요소이자 프로세서에 의해 실행되는 것을 가리킨다.
이하, 본 개시의 몇몇 실시예들에 대하여 첨부된 도면에 따라 상세하게 설명한다.
도 1은 본 개시의 몇몇 실시예들에 따른 음성 합성 장치(10)의 입력 및 출력을 나타내는 예시적인 도면이다.
도 1에 도시된 바와 같이, 음성 합성 장치(10)는 텍스트(1) 및 감정 정보(3)를 입력받고 그에 대응되는 감정 음성(7)을 합성하여 출력하는 컴퓨팅 장치이다. 이때의 감정 음성(7)은 감정 정보(3)가 반영된 음성을 의미한다.
상기 컴퓨팅 장치는 노트북, 데스크톱(desktop), 랩탑(laptop) 등이 될 수 있으나, 이에 국한되는 것은 아니며 컴퓨팅 기능이 구비된 모든 종류의 장치를 포함할 수 있다. 상기 컴퓨팅 장치의 일 예는 도 18을 더 참조하도록 한다.
도 1은 음성 합성 장치(10)가 단일 컴퓨팅 장치로 구현된 것을 예로써 도시하고 있으나, 음성 합성 장치(10)의 제1 기능은 제1 컴퓨팅 장치에서 구현되고, 제2 기능은 제2 컴퓨팅 장치에서 구현될 수도 있다.
몇몇 실시예에서, 음성 합성 장치(10)는 화자 정보(5)를 더 입력받고, 화자 정보(10)가 나타내는 특정 화자의 감정 음성(7)을 합성하여 출력할 수도 있다. 이때의 감정 음성(7)은 상기 특정 화자의 감정 정보(3)가 반영된 음성을 의미한다.
본 개시의 다양한 실시예들에 따르면, 음성 합성 장치(10)는 다양하고 연속적인 감정이 반영된 음성을 합성하기 위해 신경망(neural network) 기반의 음성 합성 모델을 구축하고, 상기 음성 합성 모델을 통해 감정 음성(7)을 합성할 수 있다. 음성 합성 모델의 신경망 구조 및 학습 방법에 대한 자세한 설명은 도 2 이하의 도면을 참조하여 상세하게 설명하도록 한다.
도 2는 본 개시의 몇몇 실시예들에 따른 음성 합성 장치(10)를 나타내는 예시적인 블록도이다.
도 2에 도시된 바와 같이, 음성 합성 장치(10)는 입력부(21), 전처리부(23), 저장부(25) 및 음성 합성부(27)를 포함할 수 있다. 다만, 도 2에는 본 개시의 실시예와 관련 있는 구성요소들만이 도시되어 있다. 따라서, 본 개시가 속한 기술분야의 통상의 기술자라면 도 2에 도시된 구성요소들 외에 다른 범용적인 구성 요소들이 더 포함될 수 있음을 알 수 있다. 또한, 도 2에 도시된 음성 합성 장치(10)의 각각의 구성 요소들은 기능적으로 구분되는 기능 요소들을 나타낸 것으로서, 복수의 구성 요소가 실제 물리적 환경에서는 서로 통합되는 형태로 구현될 수도 있음에 유의한다. 이하, 각 구성요소에 대하여 상세하게 설명한다.
입력부(21)는 텍스트, 감정 정보, 화자 정보 등을 입력받는다. 입력된 정보 중에서 텍스트는 전처리를 위해 전처리부(23)로 제공되고, 나머지 정보(e.g. 감정, 화자 정보 등)는 음성 합성부(25)로 제공될 수 있다.
또한, 입력부(21)는 음성 합성 모델(43)의 학습을 위해 학습용 텍스트, 학습용 감정 정보, 학습용 화자 정보 및 정답 음성 데이터를 포함하는 학습용 데이터셋을 입력받을 수도 있다. 각 데이터에 대한 설명은 후술하도록 한다.
다음으로, 전처리부(23)는 입력된 텍스트에 대한 전처리를 수행한다. 상기 전처리는 입력된 텍스트를 문장 단위로 분할하는 것, 문장 단위의 텍스트를 어절, 단어, 문자, 음소 등의 단위로 파싱하는 것, 숫자 및 특수 문자 등을 문자로 변환하는 것 등 다양한 방식이 될 수 있으며, 구체적인 전처리 방식은 실시예에 따라 얼마든지 달라질 수 있다. 전처리 과정의 몇몇 예시는 도 3에 도시되어 있다.
도 3에 도시된 바와 같이, 전처리부(23)는 입력된 텍스트(31)의 숫자를 문자로 변환하여 문자 형태의 텍스트(33)를 생성하고, 텍스트(33)를 음소 단위의 텍스트(35)로 변환할 수 있다. 그러나, 이는 전처리부(23)의 동작을 설명하기 위한 일 예시에 불과할 뿐이고, 전처리부(23)는 다양한 방식으로 자연어 전처리 기능을 수행할 수 있다.
몇몇 실시예에서, 전처리부(23)는 텍스트 전처리 기능 뿐만 아니라 음성 데이터(e.g. wav 형식의 오디오)를 스펙트로그램 형태의 데이터로 변환하는 전처리 기능을 더 수행할 수 있다. 가령, 전처리부(23)는 STFT(Short Time Fourier Transform) 신호 처리를 수행하여 음성 데이터를 STFT 스펙트로그램 데이터로 변환하거나 상기 STFT 스펙트로그램 데이터를 멜-스케일(mel-scale)로 변환할 수 있다. 상기 스펙트로그램 데이터는 음성 합성 모델(43)을 학습시키기 위해 이용될 수 있다.
다시 도 2를 참조하면, 저장부(25)는 텍스트, 감정 정보, 화자 정보, 음성 데이터. 스펙트로그램 데이터 등의 각종 데이터를 저장하고 관리한다. 데이터의 효과적인 관리를 위해, 저장부(25)는 데이터베이스를 상기 각종 데이터를 관리할 수 있다. 상기 각종 데이터는 음성 합성 모델(43)을 구축하기 위한 학습 데이터로 활용될 수 있을 것이나, 본 개시의 기술적 범위가 이에 한정되는 것은 아니다.
다음으로, 음성 합성부(27)는 전처리된 텍스트와 감정 및 화자 정보를 입력받고, 상기 화자 정보가 나타내는 특정 화자의 감정 음성을 생성(합성)한다. 즉, 음성 합성부(27)는 동일한 텍스트에 대해 서로 다른 화자의 음성을 생성하거나, 서로 다른 감정이 반영된 감정 음성을 생성할 수 있다. 가령, 제1 화자 정보가 입력되면 음성 합성부(27)는 상기 제1 화자의 음성을 합성하여 출력하고, 제1 감정 정보가 입력되면 음성 합성부(27)는 상기 제1 감정이 담긴 감정 음성을 합성하여 출력할 수 있다.
도 4에 도시된 바와 같이, 몇몇 실시예들에 따른 음성 합성부(27)는 학습부(41), 음성 합성 모델(43), 합성부(45) 및 보코더부(47)를 포함할 수 있다. 이하, 음성 합성부(27)의 세부 구성요소에 대하여 상세하게 설명한다.
학습부(41)는 학습용 데이터셋을 이용하여 음성 합성 모델(43)을 학습시킨다. 즉, 학습부(41)는 학습용 데이터셋을 이용하여 음성 합성 모델(43)의 예측 오차가 최소화되도록 음성 합성 모델(43)의 가중치를 갱신함으로써 음성 합성 모델(43)을 구축할 수 있다. 상기 학습용 데이터셋은 저장부(25)로부터 제공받을 수 있을 것이나, 본 개시의 기술적 범위가 이에 한정되는 것은 아니다. 이해의 편의를 제공하기 위해, 음성 합성 모델(43)의 신경망 구조에 대해서 먼저 설명하고, 그 이후 학습부(41)의 동작에 대하여 상세하게 설명하도록 한다.
음성 합성 모델(43)은 전처리된 텍스트, 감정 정보 및/또는 화자 정보를 입력받고 그에 대응되는 감정 음성을 합성하는 신경망 기반의 모델이다. 도 5에 도시된 바와 같이, 본 개시의 몇몇 실시예들에 따른 음성 합성 모델(43)은 임베딩 모듈(51), 인코더 신경망(53), 어텐션 모듈(55) 및 디코더 신경망(57)을 포함할 수 있다.
임베딩 모듈(51)은 입력된 정보를 임베딩(embedding)하여 벡터 형태의 데이터로 변환하는 모듈이다. 도 6에 도시된 바와 같이, 임베딩 모듈(51)은 문자 임베딩 모듈(61), 감정 임베딩 모듈(63) 및 화자 임베딩 모듈(65)을 포함할 수 있다.
문자 임베딩 모듈(61)은 전처리된 텍스트 정보를 임베딩하여 문자 임베딩 벡터로 변환하는 모듈이다. 가령, 문자 임베딩 모듈(61)은 fasttext 임베딩 기법, 오토-인코더(auto-encoder) 임베딩 기법, 셀프-어텐션(self-attention) 임베딩 기법 등을 이용하여 문자 임베딩 벡터를 생성할 수 있을 것이나, 본 개시의 기술적 범위가 이에 한정되는 것은 아니다.
다음으로, 감정 임베딩 모듈(63)은 감정 정보를 임베딩하여 감정 임베딩 벡터로 변환하는 모듈이다.
몇몇 실시예에서, 감정 임베딩 모듈(63)은 음성 합성 모델(43)의 특정 레이어로 구현될 수 있다. 이를테면, 감정 임베딩 모듈(63)은 인코더 신경망(53) 및/또는 디코더 신경망(57)의 앞 단에 위치한 완전 연결 레이어(fully connected layer or fully connected network)로 구현될 수 있다. 이와 같은 경우, 감정 임베딩 모듈(63)과 다른 모듈들(e.g. 53 내지 57)들은 하나의 유기적인 신경망으로 구성되어 엔드투엔드(End-to-End) 방식의 학습 및 음성 합성이 이루어질 수 있다. 즉, 오차 역전파를 통해 음성 합성 모델(43)의 모든 구성요소(63, 53 내지 57)들이 한번에 학습될 수 있다. 본 실시예에 따르면, 다수의 독립적인 모듈이 통합되어 구현된 종래의 음성 합성 모델과 비교할 때 엔드투엔드 방식의 다양한 이점들이 확보될 수 있는데, 상기 이점들은 특정 모듈의 로스(loss)가 누적되어 모델의 성능이 저하되는 문제가 해결되는 것, 학습이 보다 용이한 것, 보다 적은 양의 학습용 데이터셋으로도 고성능의 음성 합성 모델을 구축할 수 있는 것 등이 있다.
한편, 상기 감정 정보의 구체적인 형태는 실시예에 따라 달라질 수 있다.
몇몇 실시예에서, 상기 감정 정보는 하나 이상의 감정에 대한 확률을 나타내는 감정 벡터일 수 있다. 가령, 도 7의 왼편에 도시된 표(71)와 같이 감정 클래스와 벡터 인덱스가 정의된 경우, 감정(neutral)과 감정(happy)이 대부분이고 극히 미량의 감정(angry)이 혼합된 감정 정보는 오른편의 감정 벡터(73)로 표현될 수 있다. 본 실시예에 따르면, 세분화된 감정 정보가 학습에 이용되므로, 보다 세밀한 감정 조절이 가능하고 복합적인 감정 음성을 생성할 수 있는 음성 합성 모델이 구축될 수 있다.
다른 몇몇 실시예에서, 상기 감정 정보는 특정 감정을 가리키는 레이블(label) 정보일 수 있다. 가령, 도 8의 왼편에 도시된 표(81)와 같이 감정 클래스에 대응되는 레이블 값이 정의된 경우, 감정(happy)을 나타내는 감정 정보는 오른편의 감정 레이블(83)로 표현될 수 있다. 본 실시예에 따르면, 용이하게 확보 또는 생성 가능한 감정 레이블 정보가 학습 데이터로 이용되므로, 학습 데이터 확보에 소요되는 시간 및 인적 비용이 절감될 수 있다.
한편, 본 개시의 몇몇 실시예들에 따르면, 감정 벡터 또는 감정 레이블과 같은 감정 정보는 감정의 클래스를 분류하는 머신러닝 모델에 의해 자동으로 생성될 수 있다. 상기 머신러닝 모델은 음성 데이터 또는 스펙트로그램 데이터를 입력받고 감정의 클래스를 출력하는 모델이다. 이와 같은 경우, 상기 감정 벡터는 상기 머신러닝 모델에 의해 출력된 감정 클래스 별 컨피던스 스코어(confidence score)에 기초하여 생성될 수 있고, 상기 감정 레이블은 상기 머신러닝 모델의 최종 분류 결과에 기초하여 생성될 수 있다. 본 실시예에 따르면, 자동으로 감정 정보가 생성되는 바, 학습용 데이터셋 생성에 소요되는 시간 및 인적 비용이 절감될 수 있다.
다시 도 6을 참조하여 임베딩 모듈(51)의 다른 구성요소에 대하여 설명하도록 한다.
화자 임베딩 모듈(65)은 화자 정보를 임베딩하여 화자 임베딩 벡터로 변환하는 모듈이다. 이때, 상기 화자 정보는 특정 화자를 가리키는 레이블 정보(도 9 참조)일 수 있을 것이나, 본 개시의 기술적 범위가 이에 한정되는 것은 아니다.
몇몇 실시예에서, 화자 임베딩 모듈(65)은 음성 합성 모델(43)의 특정 레이어로 구현될 수 있다. 이를테면, 화자 임베딩 모듈(65)은 인코더 신경망(53) 및/또는 디코더 신경망(57)의 앞 단에 위치한 완전 연결 레이어(fully connected layer or fully connected network)로 구현될 수 있다. 이와 같은 경우, 화자 임베딩 모듈(65)과 다른 모듈들(e.g. 53 내지 57)들은 하나의 유기적인 신경망으로 구성되어 엔드투엔드(End-to-End) 방식의 학습 및 음성 합성이 이루어질 수 있다. 즉, 오차 역전파를 통해 음성 합성 모델(43)의 모든 구성요소(63, 53 내지 57)들이 한번에 학습될 수 있다.
다른 몇몇 실시예에서, 전술한 각각의 임베딩 모듈(61 내지 65) 중 적어도 일부는 독립적으로 임베딩 기능을 수행하는 별개의 모듈로 구현될 수도 있다. 즉, 각각의 임베딩 모듈(61 내지 65) 중 적어도 일부는 음성 합성 모델(43)의 학습에 영향을 받지 않거나, 별도로 학습되는 임베딩 모듈 또는 학습될 필요없이 수학적 알고리즘을 통해 임베딩을 수행하는 모듈 등으로 구현될 수도 있다.
도 6에 도시된 바와 같이, 각각의 임베딩 모듈(61 내지 65)의 출력 벡터들은 인코더 신경망(53)으로 입력된다. 이때, 각 출력 벡터들(e.g. 문자 임베딩 벡터, 감정 임베딩 벡터, 화자 임베딩 벡터) 중 적어도 일부는 단일 벡터로 병합되어 인코더 신경망(53)에 입력될 수도 있다. 가령, 문자 임베딩 벡터에 감정 및/또는 화자 임베딩 벡터를 연결(concatenation)하여 생성된 벡터가 인코더 신경망(53)으로 입력될 수도 있다. 물론, 각 출력 벡터들은 독립적으로 인코더 신경망(53)으로 입력될 수도 있고, 이는 인코더 신경망(53)의 입력 레이어 구현 방식에 따라 얼마든지 변형될 수 있다.
다시 도 5를 참조하여 음성 합성 모델(43)의 다른 구성요소에 대하여 설명하도록 한다.
인코더 신경망(53)은 하나 이상의 문자 임베딩 벡터로 구성된 입력 시퀀스(sequence), 감정 임베딩 벡터 및/또는 화자 임베딩 벡터를 입력받고, 입력 정보들을 인코딩하여 인코딩된 벡터를 출력하는 신경망이다. 학습이 진행됨에 따라 인코더 신경망(53)은 상기 입력 시퀀스, 상기 감정 임베딩 벡터 및 상기 화자 임베딩 벡터에 따른 컨텍스트를 이해하고, 이해된 컨텍스트를 나타내는 인코딩된 벡터를 출력하게 된다. 상기 인코딩된 벡터는 당해 기술 분야에서 컨텍스트 벡터(context vector)란 용어로 명명될 수도 있다.
몇몇 실시예에서, 인코더 신경망(53) 및 디코더 신경망(57)은 시퀀스를 입력받고 출력하기에 적합하도록 RNN(Recurrent Neural Network)으로 구현될 수 있다. 이를테면, 인코더 신경망(53)과 디코더 신경망(57)은 도 9에 도시된 바와 같은 LSTM(Long Short-Term Memory Model) 신경망(90)으로 구현될 수 있다. 그러나, 이에 한정되는 것은 아니고, 인코더 신경망(75)과 디코더 신경망(79) 중 적어도 일부는 셀프 어텐션(self-attention), 트랜스포머 네트워크(transformer network) 등을 통해 구현될 수도 있다. 당해 기술 분야의 종사자라면, 셀프 어텐션, 트랜스포머 네트워크에 관하여 자명하게 이해할 수 있을 것인 바, 해당 기법에 대한 자세한 설명은 생략하도록 한다.
다시 도 5를 참조하면, 어텐션(attention) 모듈(55)은 디코더 신경망(57)에서 인코딩된 벡터에 대한 출력 시퀀스를 학습/예측할 때 어느 부분에 중점을 두어야(또는 어느 부분에 집중하여야) 하는지를 나타내는 어텐션 정보를 제공하는 모듈이다. 학습이 진행됨에 따라, 어텐션 모듈(55)은 인코딩된 벡터와 상기 출력 시퀀스 간의 매핑 관계를 학습하여 디코딩 시에 집중해야 될 부분과 그렇지 않은 부분을 나타내는 어텐션 정보를 제공할 수 있다. 상기 어텐션 정보는 가중치 벡터(또는 가중치 매트릭스)의 형태로 제공될 수 있을 것이나, 본 개시의 기술적 범위가 이에 한정되는 것은 아니다. 당해 기술 분야의 당업자라면, 어텐션 메커니즘에 대해서 자명하게 이해할 수 있을 것인 바, 더 이상의 자세한 설명은 생략하도록 한다.
디코더 신경망(57)은 상기 인코딩된 벡터와 상기 어텐션 정보를 입력받고 상기 인코딩된 벡터에 대응되는 출력 시퀀스를 출력한다. 보다 상세하게는, 디코더 신경망(57)은 상기 인코딩된 벡터와 상기 어텐션 정보를 이용하여 특정 화자의 감정 음성과 연관된 출력 시퀀스를 예측한다. 이때, 상기 출력 시퀀스는 프레임 단위의 스펙트로그램 데이터로 구성될 수 있으나, 본 개시의 기술적 범위가 이에 한정되는 것은 아니다.
디코더 신경망(57)이 순환 신경망으로 구현된 경우, 디코더 신경망(57)은 이전 프레임의 스펙트로그램 데이터를 더 입력받고 현재 프레임의 스펙트로그램 데이터를 순차적으로 출력함으로써 출력 시퀀스를 구성할 수 있다.
상기 스펙트로그램 데이터는 음성 신호의 스펙트로그램을 나타내는 데이터로, STFT 스펙트로그램 데이터 또는 멜-스펙트로그램 데이터 등이 될 수 있을 것이나, 본 개시의 기술적 범위가 이에 한정되는 것은 아니다.
참고로, 디코더 신경망(57)이 음성 신호가 아니고 스펙트로그램 데이터를 출력하도록 구성하는 이유는, 스펙트로그램 데이터로 학습을 수행하면 음성 신호에 비해 더 정확하게 예측 오차를 산출할 수 있기 때문이다. 또한, 정확한 예측 오차 산출이 가능해짐으로써, 보다 성능이 우수한 음성 합성 모델이 구축될 수 있기 때문이다.
지금까지 도 5 내지 도 9를 참조하여 본 개시의 몇몇 실시예들에 따른 음성 합성 모델(43)의 신경망 구조와 동작 원리에 대하여 설명하였다. 이하에서는, 이상의 설명을 바탕으로 도 10을 참조하여 학습부(41)가 음성 합성 모델(43)을 학습시키는 과정에 대하여 설명한다.
도 10에 도시된 바와 같이, 각각의 학습 데이터(100)는 텍스트(101), 감정 정보(102), 화자 정보(103) 및 정답 음성 데이터(104)를 포함할 수 있다. 이때, 정답 음성 데이터(104)는 화자 정보(103)가 가리키는 특정 화자의 음성 데이터(e.g. wav 형식의 오디오)로, 텍스트(101)에 대응되고 감정 정보(102)가 반영된 감정 음성 데이터이다. 학습이 수행되기 전에, 정답 음성 데이터(104)는 전처리부(23)를 통해 정답 스펙트로그램 데이터(106)로 변환되고, 텍스트(101)는 전처리부(23)에 의해 적절한 전처리가 수행된다.
학습부(41)에 의해 음성 합성 모델(43)이 학습되는 과정은 다음과 같다. 먼저, 전처리된 텍스트(101)가 문자 임베딩 모듈(61)로 입력되고, 감정 및 화자 정보(102, 103)는 각각 감정 임베딩 모듈과 화자 임베딩 모듈(63, 65)로 입력된다. 또한, 그 결과로 디코더 신경망(55)에서 예측된 스펙트로그램 데이터(105)가 출력된다.
학습부(41)는 예측된 스펙트로그램 데이터(105)와 정답 스펙트로그램 데이터(106)를 비교하여 예측 오차(107)를 산출하고, 예측 오차(107)를 역전파하여 음성 합성 모델(43)의 가중치를 갱신한다. 이때, 인코더 신경망(53), 어텐션 모듈(55) 및 디코더 신경망(55)의 가중치는 상기 역전파를 통해 한번에 갱신될 수 있다. 임베딩 모듈(51)이 신경망의 일부 레이어로 구현된 경우, 임베딩 모듈(51)의 가중치 또한 함께 갱신될 수 있다. 학습부(41)는 이와 같은 학습 과정을 다수의 학습 데이터에 대해 반복함으로써 음성 합성 모델(43)을 구축할 수 있다.
지금까지 도 5 내지 도 10을 참조하여 학습부(41) 및 음성 합성 모델(43)에 대해 설명하였다. 이하에서는, 다시 도 4를 참조하여 음성 합성부(25)의 다른 구성요소에 대한 설명을 이어가도록 한다.
합성부(45)는 학습부(41)에 의해 학습된 음성 합성 모델(43)을 이용하여 스펙트로그램 데이터를 예측하고 출력한다. 보다 구체적으로, 합성부(45)는 정답 음성 데이터가 존재하지 않는 합성용 텍스트와 합성용 감성 정보 및 합성용 화자 정보를 음성 합성 모델(43)에 입력하고, 그 결과로 상기 합성용 화자 정보가 가리키는 특정 화자의 출력 시퀀스를 예측한다. 전술한 바와 같이, 상기 출력 시퀀스는 예를 들어 프레임 단위 예측 스펙트로그램 데이터로 구성될 수 있다. 여기서, 상기 합성용 화자 정보는 음성을 합성하고 싶은 상기 특정 화자를 가리키는 레이블 정보일 수 있고, 상기 합성용 감성 정보는 표현하고자 하는 상기 특정 화장의 감성 정보로 감성 벡터 또는 감성 레이블 형태의 정보일 수 있다.
다음으로, 보코더부(47)는 상기 출력 시퀀스에 포함된 예측 스펙트로그램 데이터를 감정 음성 데이터(e.g. wav 형식의 오디오)로 변환한다. 상기 변환 기능을 수행할 수 있다면, 보코더부(47)는 어떠한 방식으로 구현되더라도 무방하다. 가령, 보코더부(47)는 당해 기술 분야에서 널리 알려진 하나 이상의 보코더 모듈(e.g. WaveNet, Griffin-lim)로 구현될 수 있다. 본 발명의 논지를 흐리지 않기 위해 보코더부(47)에 대한 더 이상의 설명은 생략하도록 한다.
한편, 도 2 또는 도 4에 도시된 구성요소 전부가 음성 합성 장치(10)를 구현하기 위한 필수 구성요소는 아닐 수도 있음에 유의하여야 한다. 즉, 본 개시의 다른 몇몇 실시예들에 따른 음성 합성 장치(10)는 도 2 또는 도 4에 도시된 구성요소 중 일부에 의해 구현될 수도 있다.
도 2 또는 도 4에 도시된 각 구성 요소는 소프트웨어(Software) 또는, FPGA(Field Programmable Gate Array)나 ASIC(Application-Specific Integrated Circuit)과 같은 하드웨어(Hardware)를 의미할 수 있다. 그렇지만, 상기 구성 요소들은 소프트웨어 또는 하드웨어에 한정되는 의미는 아니며, 어드레싱(Addressing)할 수 있는 저장 매체에 있도록 구성될 수도 있고, 하나 또는 그 이상의 프로세서들을 실행시키도록 구성될 수도 있다. 상기 구성 요소들 안에서 제공되는 기능은 더 세분화된 구성 요소에 의하여 구현될 수 있으며, 복수의 구성 요소들을 합하여 특정한 기능을 수행하는 하나의 구성 요소로 구현될 수도 있다.
지금까지 도 2 내지 도 10을 참조하여 본 개시의 몇몇 실시예들에 따른 음성 합성 장치(10)에 대하여 설명하였다. 상술한 바에 따르면, 감정 정보 및 감정 음성 데이터를 학습하여 신경망 기반의 음성 합성 모델이 구축되기 때문에, 상기 음성 합성 모델을 통해 감정 정보가 반영된 감정 음성이 합성될 수 있다. 이와 같은 방식은 오디오 후처리를 수행하거나 음성 단편들을 조합하여 감정 음성을 합성하는 것이 아닌 바 자연스러운 감정 음성을 생성할 수 있다. 뿐만 아니라, 음성 합성 모델에 입력되는 감정 정보를 변경함으로써 감정 조절이 가능한 음성 합성 기능이 제공될 수 있다. 이를테면, 감정 정보 상의 감정 종류 및/또는 강약을 조절함으로써 합성되는 음성에 담긴 감정이 조절될 수 있다.
나아가, 화자 정보 및 감정 음성 데이터를 학습하여 음성 합성 모델이 구축되기 때문에, 하나의 음성 합성 모델을 통해 다수의 화자의 감정 음성이 합성될 수 있다.
이하에서는, 도 11 내지 도 15를 참조하여 본 개시의 다양한 실시예들에 따른 변형된 음성 합성 모델의 신경망 구조에 대하여 설명하도록 한다. 이하의 실시예들을 설명함에 있어서, 상술한 음성 합성 모델(43)과 중복되는 부분에 대한 설명은 생략하도록 한다.
도 11은 본 개시의 제1 실시예에 따른 변형된 음성 합성 모델(110)의 신경망 구조를 도시한다.
도 11에 도시된 바와 같이, 음성 합성 모델(110)은 디코더 신경망(114)을 위한 감정 임베딩 모듈(115)과 화자 임베딩 모듈(116)을 더 포함한다. 즉, 디코더 신경망(114)은 감정 임베딩 모듈(115)과 화자 임베딩 모듈(116)의 출력 벡터들(즉, 감정 임베딩 벡터와 화자 임베딩 벡터)을 더 입력받는다.
몇몇 실시예에서, 감정 임베딩 모듈(115)과 화자 임베딩 모듈(116)은 디코더 신경망(114)의 앞 단에 위치한 특정 레이어(e.g. 완전 연결 레이어)로 구현될 수 있다.
다른 몇몇 실시예에서, 감정 임베딩 모듈(115)과 화자 임베딩 모듈(116)은 실재하지 않고, 임베딩 모듈(111)에 포함된 감정 임베딩 모듈과 화자 임베딩 모듈의 출력 벡터들이 디코더 신경망(114)으로 입력되는 형태로 음성 합성 모델(110)이 구현될 수도 있다.
임베딩 모듈(111)은 문자 임베딩 모듈, 감정 임베딩 모듈 및 화자 임베딩 모듈을 포함할 수 있고, 임베딩 모듈(111), 인코더 신경망(112), 어텐션 모듈(113) 및 디코더 신경망(124)의 기능은 전술한 바와 유사하다. 다만, 디코더 신경망(114)은 감정 임베딩 벡터와 화자 임베딩 벡터를 더 입력받고 출력 시퀀스를 출력한다는 점에서 일부 차이가 있다.
도 12는 본 개시의 제2 실시예에 따른 변형된 음성 합성 모델(120)의 신경망 구조를 도시한다.
도 12에 도시된 바와 같이, 상기 제2 실시예에서는, 인코더 신경망(122)으로 문자 임베딩 모듈(121)이 출력한 문자 임베딩 벡터만이 입력되고, 감정 임베딩 모듈(125)과 화자 임베딩 모듈(126)의 출력 벡터들(즉, 감정 임베딩 벡터와 화자 임베딩 벡터)은 디코더 신경망(124)으로 입력된다.
몇몇 실시예에서, 감정 임베딩 모듈(125) 및 화자 임베딩 모듈(126)은 디코더 신경망(124)의 앞 단에 위치한 특정 레이어로 구현될 수 있다.
음성 합성 모델(120)의 전반적인 구조와 각 모듈(121 내지 126)의 동작은 전술한 제1 실시예에 따른 음성 합성 모델(110)과 유사하나, 인코더 신경망(122)이 문자 임베딩 벡터만을 입력으로 이용한다는 점에서 차이가 있다.
도 13은 본 개시의 제3 실시예에 따른 변형된 음성 합성 모델(130)의 신경망 구조를 도시한다.
도 13에 도시된 바와 같이, 상기 제3 실시예에 따른 음성 합성 모델(130)은 단일 화자를 위한 모델이기 때문에 화자 임베딩 모듈을 포함하지 않는다. 따라서, 인코더 신경망(133)은 문자 임베딩 모듈(131)과 감정 임베딩 모듈(132)의 출력 벡터들(즉, 문자 임베딩 벡터와 감정 임베딩 벡터)만을 입력 값으로 이용한다.
음성 합성 모델(130)의 전반적인 구조 및 각 모듈(131 내지 135)의 동작은 전술한 실시예들과 유사하다.
도 14는 본 개시의 제4 실시예에 따른 변형된 음성 합성 모델(140)의 신경망 구조를 도시한다.
도 14에 도시된 바와 같이, 상기 제4 실시예에 따른 음성 합성 모델(140)도 전술한 제3 실시예와 마찬가지로 단일 화자를 위한 모델이다. 따라서, 음성 합성 모델(140)도 화자 임베딩 모듈을 포함하지 않는다. 다만, 상기 제4 실시예에서는, 감정 임베딩 벡터가 디코더 신경망(145)으로 더 입력된다.
몇몇 실시예에서, 감정 임베딩 모듈(146)은 디코더 신경망(145)의 앞 단에 위치한 특정 레이어(e.g. 완전 연결 레이어)로 구현될 수 있다.
다른 몇몇 실시예에서, 감정 임베딩 모듈(146)은 실재하지 않고, 감정 임베딩 모듈(142)의 감정 임베딩 벡터가 디코더 신경망(114)으로 입력되는 형태로 음성 합성 모델(140)이 구현될 수도 있다.
또 다른 몇몇 실시예에서, 감정 임베딩 모듈(142)이 생략될 수 있다. 즉, 본 실시예에서는, 전술한 제2 실시예와 유사하게, 문자 임베딩 벡터만이 인코더 신경망(143)으로 입력되고, 감정 임베딩 벡터는 디코더 신경망(145)으로만 입력될 수 있다.
한편, 도 13 및 도 14를 참조하여 설명한 음성 합성 모델(130, 140)은 화자 별로 구축될 수도 있다. 가령, 도 15에 도시된 바와 같이, 제1 화자의 음성을 합성하는 제1 음성 합성 모델(150-1)이 구축되고, 제2 화자의 음성을 합성하는 제2 음성 합성 모델(150-2)이 별도로 구축되며, 제n 화자의 음성을 합성하는 제n 음성 합성 모델(150-n)도 별도로 구축될 수 있다.
지금까지 도 11 내지 도 15를 참조하여 본 개시의 다양한 실시예들에 따른 변형된 음성 합성 모델들(110 내지 140, 150-1 내지 150-n)에 대하여 설명하였다. 지금까지 다양한 음성 합성 모델(e.g. 43, 110 내지 140, 150-1 내지 150-n)에 대하여 설명하였는데, 각 모델의 구성에 따라 달성되는 효과는 일부 달라질 수 있다.
먼저, 감정 정보가 인코더 신경망으로 입력되는 모델은 상기 감정 정보에 따라 합성 음성의 속도를 보다 정확하게 조절할 수 있다. 또한, 감정 정보가 디코더 신경망으로 입력되는 모델은 상기 감정 정보에 따라 합성 음성의 음색 또는 음높이를 보다 정확하게 조절할 수 있다. 또한, 감정 정보가 인코더 및 디코더 신경망으로 입력되는 모델은 음성의 속도, 음색 및 음높이가 모두 정확하게 조절될 수 있기 때문에, 실제 사람의 말하는 것과 같이 같이 자연스러운 감정이 담긴 음성이 합성될 수 있다.
또한, 화자 정보가 더 입력되는 모델은 다수의 화자에 대한 음성을 합성할 수 있기 때문에, 화자 별로 음성 합성 모델을 구축하는 경우에 비해 모델 구축에 소요되는 제반 비용(e.g. 학습을 위한 컴퓨팅 비용 등)이 절감될 수 있다. 또한, 다수의 화자에 대한 학습 수행 시 시너지 효과가 발생되기 때문에, 화자 별 학습 데이터의 양이 적은 경우에도 상대적으로 높은 성능의 음성 합성 모델이 구축될 수 있으며, 학습 데이터를 구축하는 비용은 감소될 수 있다.
이하에서는, 도 16 및 도 17을 참조하여 본 개시의 몇몇 실시예들에 따른 음성 합성 방법에 대하여 상세하게 설명하도록 한다.
상기 음성 합성 방법의 각 단계는 컴퓨팅 장치에 의해 수행될 수 있다. 다시 말하면, 상기 음성 합성 방법의 각 단계는 컴퓨팅 장치의 프로세서에 의해 실행되는 하나 이상의 인스트럭션들로 구현될 수 있다. 상기 음성 합성 방법에 포함되는 모든 단계는 하나의 물리적인 컴퓨팅 장치에 의하여 실행될 수도 있을 것이나, 상기 방법의 제1 단계들은 제1 컴퓨팅 장치에 의하여 수행되고, 상기 방법의 제2 단계들은 제2 컴퓨팅 장치에 의하여 수행될 수도 있다. 이하에서는, 상기 음성 합성 방법의 각 단계가 음성 합성 장치(10)에 의해 수행되는 것을 가정하여 설명을 이어가도록 한다. 다만, 설명의 편의를 위해, 상기 음성 합성 방법에 포함되는 각 단계의 동작 주체는 그 기재가 생략될 수도 있다.
도 16은 본 개시의 몇몇 실시예들에 따른 음성 합성 방법을 나타내는 예시적인 흐름도이다. 단, 이는 본 개시의 목적을 달성하기 위한 바람직한 실시예일 뿐이며, 필요에 따라 일부 단계가 추가되거나 삭제될 수 있음은 물론이다.
도 16에 도시된 바와 같이, 상기 음성 합성 방법은 음성 합성 모델을 구축하는 학습 과정과 상기 음성 합성 모델을 이용하여 음성을 합성하는 합성 과정으로 구성된다.
상기 학습 과정은 학습용 데이터셋을 획득하는 단계 S100에서 시작된다. 이때, 상기 학습용 데이터셋에 포함된 각각의 학습용 데이터는 학습용 텍스트, 학습용 감정 정보, 학습용 화자 정보 및 정답 음성 데이터로 구성된다. 물론, 단일 화자를 위한 음성 합성 모델을 구축하는 경우라면, 학습용 화자 정보는 학습용 데이터셋에서 제외될 수 있다.
단계 S200에서, 상기 학습용 데이터셋을 이용하여 신경망 기반의 음성 합성 모델이 구축된다. 상기 음성 합성 모델의 구조는 이미 전술한 바와 같으므로, 더 이상의 설명은 생략하도록 하고, 본 단계 S200의 세부 내용은 도 17을 참조하여 후술한다.
상기 합성 과정은 합성용 데이터를 획득하는 단계 S300에서 시작된다. 상기 합성용 데이터는 합성용 텍스트, 합성용 감정 정보 및 합성용 화자 정보로 구성된다. 물론, 단일 화자에 대한 음성을 합성하는 경우라면, 화자 정보는 상기 합성용 데이터에서 제외될 수 있다.
전술한 바와 같이, 상기 합성용 감정 정보는 감정 벡터 또는 감정 레이블일 수 있다.
단계 S400에서, 음성 합성 모델을 이용하여 상기 합성용 텍스트에 대한 특정 화자의 감정 음성이 출력된다. 이때, 상기 감정 음성은 상기 합성용 감정 정보가 반영된 음성을 의미한다.
보다 구체적으로, 음성 합성 모델로부터 스펙트로그램 데이터로 구성된 출력 시퀀스가 출력되고, 상기 출력 시퀀스를 보코딩하여 상기 감정 음성이 출력될 수 있다.
본 단계 S400에서, 감정 정보 상의 감정 종류 또는 감정의 강약을 조절함으로써, 합성되는 감정 음성의 감정이 조절될 수 있다. 또한, 화자 정보를 변경함으로써, 서로 다른 화자의 감정 음성이 합성될 수 있다.
참고로, 전술한 단계 S100 내지 S400 중에서, 단계 S100 및 S200은 입력부(21), 전처리부(23) 및 학습부(41)에 의해 수행되고, 단계 S300 및 S400은 입력부(21), 전처리부(23), 합성부(45) 및 보코더부(47)에 의해 수행될 수 있다.
지금까지 도 16을 참조하여 본 개시의 몇몇 실시예들에 따른 음성 합성 방법에 대하여 설명하였다. 이하에서는, 도 17을 참조하여 단계 S200에서 수행될 수 있는 음성 합성 모델 구축 방법에 대하여 보다 상세하게 설명하도록 한다.
도 17은 본 개시의 몇몇 실시예들에 따른 음성 합성 모델 구축 방법을 나타내는 예시적인 흐름도이다. 단, 이는 본 개시의 목적을 달성하기 위한 바람직한 실시예일 뿐이며, 필요에 따라 일부 단계가 추가되거나 삭제될 수 있음은 물론이다.
도 17에 도시된 바와 같이, 상기 음성 합성 모델 구축 방법은 학습용 텍스트와 정담 음성 데이터에 대한 전처리를 수행하는 단계 S210에서 시작된다. 상기 전처리에 대한 내용은 앞서 설명한 바와 같으므로, 더 이상의 설명은 생략하도록 한다.
단계 S220에서, 전처리된 텍스트가 문자 임베딩 벡터로 변환되고, 학습용 감정 정보가 감정 임베딩 벡터로 변환되며, 학습용 화자 정보가 화자 임베딩 벡터로 변환된다. 상기 변환 과정은 음성 합성 모델(e.g. 도 5의 43)을 구성하는 임베딩 모듈(e.g. 도 5의 51)에서 수행될 수 있을 것이나, 별도의 임베딩 모듈에서 수행될 수도 있다.
단계 S230에서, 음성 합성 모델의 인코더 신경망(e.g. 도 5의 55)에서 상기 문자 임베딩 벡터 및 상기 감정 임베딩 벡터를 입력받고 이를 인코딩하여 인코딩된 벡터를 출력한다. 보다 정확하게는, 상기 문자 임베딩 벡터로 구성된 입력 시퀀스가 상기 인코더 신경망으로 입력될 수 있다.
단계 S240에서, 음성 합성 모델의 디코더 신경망(e.g. 도 5의 57)에서 상기 인코딩된 벡터를 입력받고 예측 스펙트로그램 데이터를 출력한다. 이때, 상기 디코더 신경망은 상기 인코더 신경망과 상기 디코더 신경망의 사이에 위치한 어텐션 모듈(e.g. 55)로부터 어텐션 정보를 더 입력받을 수 있다. 또한, 상기 디코더 신경망은 이전 프레임의 예측 스펙트로그램 데이터를 입력받고, 이를 더 이용하여 현재 프레임의 예측 스펙트로그램 데이터를 출력할 수 있다. 순차적으로 출력되는 예측 스펙트로그램 데이터가 출력 시퀀스에 대응된다.
단계 S250에서, 정답 스펙트로그램 데이터와 예측 스펙트로그램 데이터 간의 오차를 역전파하여 음성 합성 모델의 가중치가 갱신된다. 이때, 상기 오차 역전파를 통해 상기 인코더 신경망과 상기 디코더 신경망의 가중치가 한번에 갱신될 수 있다. 음성 합성 모델에 임베딩 모듈이 포함되어 있다면, 상기 임베딩 모듈의 가중치도 같이 갱신될 수 있다.
전술한 단계 S210 내지 S250가 다수의 학습용 데이터에 대하여 수행됨으로써, 음성 합성 모델이 구축될 수 있다. 또한, 전술한 단계 S210 내지 S250은 학습부(41)와 음성 합성 모델(43)에 의해 수행될 수 있다.
지금까지 도 17을 참조하여 본 개시의 몇몇 실시예들에 따른 음성 합성 모델 구축 방법에 대하여 설명하였다. 상술한 방법에 따르면, 감정 조절이 가능하고 다수의 화자에 대한 음성 합성이 가능한 음성 합성 모델이 구축될 수 있다. 이하에서는, 본 개시의 몇몇 실시예들에 따른 음성 합성 장치(10)를 구현할 수 있는 예시적인 컴퓨팅 장치(180)에 대하여 설명하도록 한다.
도 18은 본 개시의 몇몇 실시예들에 따른 음성 합성 장치(10)를 구현할 수 있는 예시적인 컴퓨팅 장치(180)를 나타내는 하드웨어 구성도이다.
도 18에 도시된 바와 같이, 컴퓨팅 장치(180)는 하나 이상의 프로세서(181), 버스(183), 통신 인터페이스(184), 프로세서(181)에 의하여 수행되는 컴퓨터 프로그램을 로드(load)하는 메모리(182)와, 컴퓨터 프로그램(186)을 저장하는 스토리지(185)를 포함할 수 있다. 다만, 도 18에는 본 개시의 실시예와 관련 있는 구성요소들만이 도시되어 있다. 따라서, 본 개시가 속한 기술분야의 통상의 기술자라면 도 18에 도시된 구성요소들 외에 다른 범용적인 구성 요소들이 더 포함될 수 있음을 알 수 있다.
프로세서(181)는 컴퓨팅 장치(180)의 각 구성의 전반적인 동작을 제어한다. 프로세서(181)는 CPU(Central Processing Unit), MPU(Micro Processor Unit), MCU(Micro Controller Unit), GPU(Graphic Processing Unit) 또는 본 개시의 기술 분야에 잘 알려진 임의의 형태의 프로세서를 포함하여 구성될 수 있다. 또한, 프로세서(181)는 본 개시의 실시예들에 따른 방법을 실행하기 위한 적어도 하나의 애플리케이션 또는 프로그램에 대한 연산을 수행할 수 있다. 컴퓨팅 장치(180)는 하나 이상의 프로세서를 구비할 수 있다.
메모리(182)는 각종 데이터, 명령 및/또는 정보를 저장한다. 메모리(182)는 본 개시의 실시예들에 따른 음성 합성 방법을 실행하기 위하여 스토리지(185)로부터 하나 이상의 프로그램(186)을 로드할 수 있다. 가령, 메모리(182)에 컴퓨터 프로그램(186)이 로드되면, 도 2에 도시된 바와 같은 모듈이 메모리(182) 상에 구현될 수 있다. 메모리(182)는 RAM과 같은 휘발성 메모리로 구현될 수 있을 것이나, 본 개시의 기술적 범위가 이에 한정되는 것은 아니다.
버스(183)는 컴퓨팅 장치(180)의 구성 요소 간 통신 기능을 제공한다. 버스(183)는 주소 버스(Address Bus), 데이터 버스(Data Bus) 및 제어 버스(Control Bus) 등 다양한 형태의 버스로 구현될 수 있다.
통신 인터페이스(184)는 컴퓨팅 장치(180)의 유무선 인터넷 통신을 지원한다. 또한, 통신 인터페이스(184)는 인터넷 통신 외의 다양한 통신 방식을 지원할 수도 있다. 이를 위해, 통신 인터페이스(184)는 본 개시의 기술 분야에 잘 알려진 통신 모듈을 포함하여 구성될 수 있다.
몇몇 실시예들에 따르면, 통신 인터페이스(184)는 생략될 수도 있다.
스토리지(185)는 상기 하나 이상의 프로그램(186)과 각종 데이터를 비임시적으로 저장할 수 있다. 가령, 컴퓨팅 장치(180)를 통해 음성 합성 장치(10)가 구현되는 경우라면, 상기 각종 데이터는 저장부(25)에 의해 관리되는 데이터를 포함할 수 있다.
스토리지(185)는 ROM(Read Only Memory), EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM), 플래시 메모리 등과 같은 비휘발성 메모리, 하드 디스크, 착탈형 디스크, 또는 본 개시가 속하는 기술 분야에서 잘 알려진 임의의 형태의 컴퓨터로 읽을 수 있는 기록 매체를 포함하여 구성될 수 있다.
컴퓨터 프로그램(186)은 메모리(182)에 로드될 때 프로세서(181)로 하여금 본 개시의 다양한 실시예에 따른 방법/동작을 수행하도록 하는 하나 이상의 인스트럭션들을 포함할 수 있다. 즉, 프로세서(181)는 상기 하나 이상의 인스트럭션들을 실행함으로써, 본 개시의 다양한 실시예에 따른 방법/동작들을 수행할 수 있다.
예를 들어, 컴퓨터 프로그램(186)은 학습용 데이터셋을 획득하는 동작, 상기 학습용 데이터셋을 이용하여 음성 합성 모델을 구축하는 동작, 합성용 데이터를 획득하는 동작 및 상기 음성 합성 모델을 이용하여 상기 합성용 데이터에 대한 감정 음성을 합성하는 동작을 수행하도록 하는 인스트럭션들을 포함할 수 있다.
또는, 컴퓨터 프로그램(186)은 학습용 텍스트를 임베딩(embedding)하여 문자 임베딩 벡터로 변환하는 동작, 학습용 감정 정보를 임베딩하여 감정 임베딩 벡터로 변환하는 동작, 상기 인코더 신경망에서 상기 문자 임베딩 벡터 및 상기 감정 임베딩 벡터를 입력받고 인코딩된 벡터를 출력하는 동작, 상기 디코더 신경망에서 상기 인코딩된 벡터를 입력받고 예측 스펙트로그램 데이터를 출력하는 동작 및 정답 스펙트로그램 데이터와 상기 예측 스펙트로그램 데이터 간의 오차를 역전파(back-propagation)하여 상기 음성 합성 모델을 갱신하는 동작을 수행하는 인스트럭션들을 포함할 수 있다.
위와 같은 경우, 컴퓨팅 장치(180)를 통해 본 개시의 몇몇 실시예들에 따른 음성 합성 장치(10)가 구현될 수 있다.
지금까지 도 1 내지 도 18을 참조하여 본 개시의 실시예에 따른 음성 합성 장치(10)를 구현할 수 있는 예시적인 컴퓨팅 장치(180)에 대하여 설명하였다.
지금까지 도 1 내지 도 18을 참조하여 본 개시의 다양한 실시예들 및 그 실시예들에 따른 효과들을 언급하였다. 본 개시의 기술적 사상에 따른 효과들은 이상에서 언급한 효과들로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
지금까지 도 1 내지 도 xx를 참조하여 설명된 본 개시의 기술적 사상은 컴퓨터가 읽을 수 있는 매체 상에 컴퓨터가 읽을 수 있는 코드로 구현될 수 있다. 상기 컴퓨터로 읽을 수 있는 기록 매체는, 예를 들어 이동형 기록 매체(CD, DVD, 블루레이 디스크, USB 저장 장치, 이동식 하드 디스크)이거나, 고정식 기록 매체(ROM, RAM, 컴퓨터 구비 형 하드 디스크)일 수 있다. 상기 컴퓨터로 읽을 수 있는 기록 매체에 기록된 상기 컴퓨터 프로그램은 인터넷 등의 네트워크를 통하여 다른 컴퓨팅 장치에 전송되어 상기 다른 컴퓨팅 장치에 설치될 수 있고, 이로써 상기 다른 컴퓨팅 장치에서 사용될 수 있다.
이상에서, 본 개시의 실시예를 구성하는 모든 구성 요소들이 하나로 결합되거나 결합되어 동작하는 것으로 설명되었다고 해서, 본 개시의 기술적 사상이 반드시 이러한 실시예에 한정되는 것은 아니다. 즉, 본 개시의 목적 범위 안에서라면, 그 모든 구성요소들이 하나 이상으로 선택적으로 결합하여 동작할 수도 있다.
도면에서 동작들이 특정한 순서로 도시되어 있지만, 반드시 동작들이 도시된 특정한 순서로 또는 순차적 순서로 실행되어야만 하거나 또는 모든 도시 된 동작들이 실행되어야만 원하는 결과를 얻을 수 있는 것으로 이해되어서는 안 된다. 특정 상황에서는, 멀티태스킹 및 병렬 처리가 유리할 수도 있다. 더욱이, 위에 설명한 실시예들에서 다양한 구성들의 분리는 그러한 분리가 반드시 필요한 것으로 이해되어서는 안 되고, 설명된 프로그램 컴포넌트들 및 시스템들은 일반적으로 단일 소프트웨어 제품으로 함께 통합되거나 다수의 소프트웨어 제품으로 패키지 될 수 있음을 이해하여야 한다.
이상 첨부된 도면을 참조하여 본 개시의 실시예들을 설명하였지만, 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자는 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 본 개시가 다른 구체적인 형태로도 실시될 수 있다는 것을 이해할 수 있다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로 이해해야만 한다. 본 개시의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 개시에 의해 정의되는 기술적 사상의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

Claims (16)

  1. 입력된 텍스트에 대한 전처리를 수행하는 전처리부; 및
    상기 전처리된 텍스트와 감정 정보를 신경망 기반의 음성 합성 모델에 입력하여 상기 입력된 텍스트에 대해 상기 감정 정보가 반영된 감정 음성을 합성하는 음성 합성부를 포함하되,
    상기 음성 합성 모델은,
    상기 전처리된 텍스트를 문자 임베딩 벡터로 변환하는 문자 임베딩 모듈;
    상기 감정 정보를 감정 임베딩 벡터로 변환하는 감정 임베딩 모듈;
    상기 문자 임베딩 벡터로 구성된 입력 시퀀스와 상기 감정 임베딩 벡터를 입력받고 인코딩된 벡터를 출력하는 인코더 신경망; 및
    상기 인코딩된 벡터를 입력받고 상기 감정 음성과 연관된 출력 시퀀스를 출력하는 디코더 신경망을 포함하는 것을 특징으로 하는,
    음성 합성 장치.
  2. 제1 항에 있어서,
    상기 음성 합성 모델은,
    상기 인코더 신경망과 상기 디코더 신경망 사이에 위치하고 상기 디코더 신경망이 상기 인코딩된 벡터에서 집중할 부분을 결정하는 어텐션(attention) 모듈을 더 포함하는 것을 특징으로 하는,
    음성 합성 장치.
  3. 제1 항에 있어서,
    상기 인코더 신경망 및 상기 디코더 신경망은 RNN(Recurrent Neural Network) 또는 셀프 어텐션(self-attention) 기법에 기반하여 구현되는 것을 특징으로 하는,
    음성 합성 장치.
  4. 제1 항에 있어서,
    상기 감정 정보는 하나 이상의 감정에 대한 확률을 나타내는 감정 벡터인 것을 특징으로 하는,
    음성 합성 장치.
  5. 제1 항에 있어서,
    상기 감정 정보는 특정 감정 클래스를 가리키는 레이블 정보인 것을 특징으로 하는,
    음성 합성 장치.
  6. 제1 항에 있어서,
    상기 출력 시퀀스는 스펙트로그램(spectrogram) 형태의 데이터로 구성되고,
    상기 음성 합성부는,
    상기 출력 시퀀스를 상기 감정 음성으로 변환하는 보코더부를 더 포함하는 것을 특징으로 하는,
    음성 합성 장치.
  7. 제1 항에 있어서,
    상기 디코더 신경망은,
    상기 감정 임베딩 벡터를 더 입력받고 상기 출력 시퀀스를 출력하는 것을 특징으로 하는,
    음성 합성 장치.
  8. 제1 항에 있어서,
    상기 출력 시퀀스는 스펙트로그램 형태의 데이터로 구성되고,
    상기 음성 합성부는,
    상기 전처리부에 의해 전처리된 학습용 텍스트를 상기 음성 합성 모델에 입력하고, 그 결과로 획득된 스펙트로그램 데이터와 정답 스펙트로그램 데이터를 비교하여 오차 값을 산출하며, 상기 산출된 오차 값을 역전파(back-propagation)하여 상기 음성 합성 모델을 학습시키는 것을 특징으로 하는,
    음성 합성 장치.
  9. 제8 항에 있어서,
    상기 역전파를 통해 상기 인코더 신경망의 가중치와 상기 디코더 신경망의 가중치가 함께 갱신되는 것을 특징으로 하는,
    음성 합성 장치.
  10. 제1 항에 있어서,
    상기 음성 합성 모델은,
    화자 정보를 화자 임베딩 벡터로 변환하는 화자 임베딩 모듈을 더 포함하고,
    상기 음성 합성부는,
    상기 화자 정보를 상기 음성 합성 모델에 입력하여 상기 화자 정보가 나타내는 특정 화자에 대해 상기 감정 정보가 반영된 음성을 상기 감정 음성으로 출력하는 것을 특징으로 하는,
    음성 합성 장치.
  11. 제10 항에 있어서,
    상기 화자 임베딩 벡터는 상기 인코더 신경망으로 입력되는 것을 특징으로 하는,
    음성 합성 장치.
  12. 제10 항에 있어서,
    상기 화자 임베딩 벡터는 상기 디코더 신경망으로 입력되는 것을 특징으로 하는,
    음성 합성 장치.
  13. 입력된 텍스트에 대한 전처리를 수행하는 전처리부; 및
    상기 전처리된 텍스트와 감정 정보를 신경망 기반의 음성 합성 모델에 입력하여 상기 입력된 텍스트에 대해 상기 감정 정보가 반영된 감정 음성을 합성하는 음성 합성부를 포함하되,
    상기 음성 합성 모델은,
    상기 전처리된 텍스트를 문자 임베딩 벡터로 변환하는 문자 임베딩 모듈;
    상기 감정 정보를 감정 임베딩 벡터로 변환하는 감정 임베딩 모듈;
    상기 문자 임베딩 벡터로 구성된 입력 시퀀스를 입력받고 인코딩된 벡터를 출력하는 인코더 신경망; 및
    상기 인코딩된 벡터와 상기 감정 임베딩 벡터를 입력받고 상기 감정 음성과 연관된 출력 시퀀스를 출력하는 디코더 신경망을 포함하는 것을 특징으로 하는,
    음성 합성 장치.
  14. 컴퓨팅 장치에서 감정 음성을 합성하기 위해 인코더 신경망 및 디코더 신경망을 포함하는 음성 합성 모델을 구축하는 방법에 있어서,
    학습용 텍스트를 임베딩(embedding)하여 문자 임베딩 벡터로 변환하는 단계;
    학습용 감정 정보를 임베딩하여 감정 임베딩 벡터로 변환하는 단계;
    상기 인코더 신경망에서 상기 문자 임베딩 벡터 및 상기 감정 임베딩 벡터를 입력받고 인코딩된 벡터를 출력하는 단계;
    상기 디코더 신경망에서 상기 인코딩된 벡터를 입력받고 예측 스펙트로그램 데이터를 출력하는 단계; 및
    정답 스펙트로그램 데이터와 상기 예측 스펙트로그램 데이터 간의 오차를 역전파(back-propagation)하여 상기 음성 합성 모델을 갱신하는 단계를 포함하는 것을 특징으로 하는,
    음성 합성 모델 구축 방법.
  15. 제14 항에 있어서,
    상기 인코딩된 벡터를 출력하는 단계는,
    화자 정보를 임베딩하여 화자 임베딩 벡터로 변환하는 단계; 및
    상기 인코더 신경망에서 상기 화자 임베딩 벡터를 더 입력받고 상기 인코딩된 벡터를 출력하는 단계를 포함하는 것을 특징으로 하는,
    음성 합성 모델 구축 방법.
  16. 제14 항에 있어서,
    상기 예측 스펙트로그램 데이터를 출력하는 단계는,
    상기 디코더 신경망에서 상기 감정 정보에 대한 감정 임베딩 벡터를 더 입력받고 상기 예측 스펙트로그램 데이터를 출력하는 단계를 포함하는 것을 특징으로 하는,
    음성 합성 모델 구축 방법.
KR1020190167464A 2019-12-16 2019-12-16 음성 합성 장치 및 그 방법 KR20200111609A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190167464A KR20200111609A (ko) 2019-12-16 2019-12-16 음성 합성 장치 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190167464A KR20200111609A (ko) 2019-12-16 2019-12-16 음성 합성 장치 및 그 방법

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020190030905A Division KR102057927B1 (ko) 2019-03-19 2019-03-19 음성 합성 장치 및 그 방법

Publications (1)

Publication Number Publication Date
KR20200111609A true KR20200111609A (ko) 2020-09-29

Family

ID=72661366

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190167464A KR20200111609A (ko) 2019-12-16 2019-12-16 음성 합성 장치 및 그 방법

Country Status (1)

Country Link
KR (1) KR20200111609A (ko)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112750426A (zh) * 2021-02-01 2021-05-04 福州大学 移动终端语音分析系统
CN112967737A (zh) * 2021-04-07 2021-06-15 广州伟宏智能科技有限公司 一种对话文本的深度学习情感识别方法
CN113178200A (zh) * 2021-04-28 2021-07-27 平安科技(深圳)有限公司 语音转换方法、装置、服务器及存储介质
CN113327578A (zh) * 2021-06-10 2021-08-31 平安科技(深圳)有限公司 一种声学模型训练方法、装置、终端设备及存储介质
CN114783409A (zh) * 2022-03-29 2022-07-22 北京百度网讯科技有限公司 语音合成模型的训练方法、语音合成方法及装置
US20220246132A1 (en) * 2021-01-29 2022-08-04 Google Llc Generating Diverse and Natural Text-To-Speech Samples

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110021944A (ko) 2008-07-11 2011-03-04 가부시키가이샤 엔.티.티.도코모 음성 합성 모델 생성 장치, 음성 합성 모델 생성 시스템, 통신 단말기, 및 음성 합성 모델 생성 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110021944A (ko) 2008-07-11 2011-03-04 가부시키가이샤 엔.티.티.도코모 음성 합성 모델 생성 장치, 음성 합성 모델 생성 시스템, 통신 단말기, 및 음성 합성 모델 생성 방법

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220246132A1 (en) * 2021-01-29 2022-08-04 Google Llc Generating Diverse and Natural Text-To-Speech Samples
US11475874B2 (en) * 2021-01-29 2022-10-18 Google Llc Generating diverse and natural text-to-speech samples
CN112750426A (zh) * 2021-02-01 2021-05-04 福州大学 移动终端语音分析系统
CN112750426B (zh) * 2021-02-01 2023-10-20 福州大学 移动终端语音分析系统
CN112967737A (zh) * 2021-04-07 2021-06-15 广州伟宏智能科技有限公司 一种对话文本的深度学习情感识别方法
CN113178200A (zh) * 2021-04-28 2021-07-27 平安科技(深圳)有限公司 语音转换方法、装置、服务器及存储介质
CN113178200B (zh) * 2021-04-28 2024-03-01 平安科技(深圳)有限公司 语音转换方法、装置、服务器及存储介质
CN113327578A (zh) * 2021-06-10 2021-08-31 平安科技(深圳)有限公司 一种声学模型训练方法、装置、终端设备及存储介质
CN113327578B (zh) * 2021-06-10 2024-02-02 平安科技(深圳)有限公司 一种声学模型训练方法、装置、终端设备及存储介质
CN114783409A (zh) * 2022-03-29 2022-07-22 北京百度网讯科技有限公司 语音合成模型的训练方法、语音合成方法及装置
CN114783409B (zh) * 2022-03-29 2024-05-28 北京百度网讯科技有限公司 语音合成模型的训练方法、语音合成方法及装置

Similar Documents

Publication Publication Date Title
KR102057927B1 (ko) 음성 합성 장치 및 그 방법
KR102057926B1 (ko) 음성 합성 장치 및 그 방법
JP7204989B2 (ja) エンドツーエンド音声合成システムにおける表現度の制御
EP3614376B1 (en) Speech synthesis method, server and storage medium
US11990118B2 (en) Text-to-speech (TTS) processing
KR20200111609A (ko) 음성 합성 장치 및 그 방법
US11410684B1 (en) Text-to-speech (TTS) processing with transfer of vocal characteristics
US10692484B1 (en) Text-to-speech (TTS) processing
US11763797B2 (en) Text-to-speech (TTS) processing
US10699695B1 (en) Text-to-speech (TTS) processing
US11289068B2 (en) Method, device, and computer-readable storage medium for speech synthesis in parallel
US20220246132A1 (en) Generating Diverse and Natural Text-To-Speech Samples
KR20200111608A (ko) 음성 합성 장치 및 그 방법
KR102277205B1 (ko) 오디오 변환 장치 및 방법
KR102677459B1 (ko) 2-레벨 스피치 운율 전송
US20230018384A1 (en) Two-Level Text-To-Speech Systems Using Synthetic Training Data
US20210209315A1 (en) Direct Speech-to-Speech Translation via Machine Learning
KR20240096867A (ko) 2-레벨 스피치 운율 전송
CN115346510A (zh) 一种语音合成方法、装置、电子设备及存储介质