KR102613030B1 - 적대적 학습 기법을 이용한 음성 합성 방법 및 장치 - Google Patents

적대적 학습 기법을 이용한 음성 합성 방법 및 장치 Download PDF

Info

Publication number
KR102613030B1
KR102613030B1 KR1020220021354A KR20220021354A KR102613030B1 KR 102613030 B1 KR102613030 B1 KR 102613030B1 KR 1020220021354 A KR1020220021354 A KR 1020220021354A KR 20220021354 A KR20220021354 A KR 20220021354A KR 102613030 B1 KR102613030 B1 KR 102613030B1
Authority
KR
South Korea
Prior art keywords
adversarial
speech
voice
learning
text
Prior art date
Application number
KR1020220021354A
Other languages
English (en)
Other versions
KR20230124266A (ko
Inventor
장준혁
이모아
Original Assignee
한양대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한양대학교 산학협력단 filed Critical 한양대학교 산학협력단
Priority to KR1020220021354A priority Critical patent/KR102613030B1/ko
Priority to PCT/KR2023/002229 priority patent/WO2023158226A1/ko
Publication of KR20230124266A publication Critical patent/KR20230124266A/ko
Application granted granted Critical
Publication of KR102613030B1 publication Critical patent/KR102613030B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)

Abstract

일 실시예에 따른 적대적 학습 기법을 이용한 음성 합성 방법은, 음성 데이터 입력을 수신하는 단계, 상기 음성 데이터 입력에 기반하여 음성을 합성하기 위한 적대적 모델을 학습하는 단계 및 상기 적대적 모델을 이용하여 타겟 음성의 프레임을 합성하는 단계를 포함하고, 상기 음성의 프레임을 합성하는 단계는, 비자동 회귀 방식으로 상기 타겟 음성의 프레임을 합성하는 것을 포함할 수 있다.

Description

적대적 학습 기법을 이용한 음성 합성 방법 및 장치{Speech synthesis method and apparatus using adversarial learning technique}
본 발명은 적대적 학습 기법을 이용한 음성 합성 방법 및 장치 에 관한 발명으로서, 보다 상세하게는 인공신경망을 이용한 음성 합성 방법에 있어서, 적대적 학습을 이용하여 비자동희귀 방식으로 음성을 학습하는 기술에 관한 발명이다.
음성통신(speech communication)이란 음성통신 사용자끼리 상호간의 의사소통을 위해 사용자의 발화된 음성을 상대방에게 전달하는 기술을 의미하며, 구체적으로 널리 사용되고 있는 전화 뿐만 아니라 컨퍼런스 콜, 영상통화, 화상회의 등의 다양한 분야에서 사용되고 있다. 음성통신에서 상대방에게 정확한 의미를 전달하기 위해서는 발화자의 깨끗한 음성신호만 전달 되어야 하나 두 화자 혹은 여러 화자가 동시에 발화하는 상황이나, 직전 화자의 발화가 다시 마이크로 입력되어 스피커에서의 재생과 마이크에서의 입력이 반복되는 음향학적 반향(acoustic echo)인 에코 현상이 발생한 경우, 발화자의 음성이 정확하게 전달될 수 없게 된다.
최근에는 인공신경망의 기술이 발전함에 따라, 머신러닝 기법인 심화신경망(Deep Neural Network, DNN)이 다양한 음성 향상 및 음성 인식 연구에서 우수한 성능을 보이고 있다. 심화신경망은 다수의 은닉 층과 은닉 노드들을 통하여 입력 특징 벡터와 출력 특징 벡터 사이의 비선형적인 관계를 효과적으로 모델링하여 우수한 성능을 보인다.
일반적으로, 딥 러닝(Deep Learning) 기반의 음성합성 모델의 경우, 자동 회귀 방식의 모델을 통해 발전해왔다. 다만, 자동 회귀 방식의 경우, 음성 특징 벡터를 프레임 별로 순차적으로 생성해야 되기 때문에라, 자동 회귀 방식은 실제 음성을 합성할 때 지연이 크게 발생하는 문제점이 존재한다.
이에 반해, 비자동 회귀 방식의 음성합성 모델은 타겟 음성의 전체 프레임을 한 번에 합성하기 때문에, 비자동 회귀 방식의 음성합성 모델은 불필요한 시간 지연을 없앨 수 있는 장점이 존재한다. 다만, 비자동 회귀 방식의 음성합성 모델의 경우, 자동 회귀 방식과 다르게 전체 프레임 간의 조건부 독립을 가정하여 학습을 수행하기 때문에 자동 회귀 방식에 비해 음질이 다소 떨어지는 단점이 존재한다.
한편, 음성을 합성함에 있어서, non-autoregressive 방식의 음성합성 모델에는 모노토닉 정렬기(monotonic alignment)를 통한 업 샘플링을 적용하는 모델이 많이 사용된다. 이를 자세히 살펴보면, 모노토직 정렬기를 이용하여 음성을 합성하는 경우 다중 디코더를 활용하여 반복적으로 정제하는 방법 등을 적용하여 디코더에 입력되는 잠재 벡터(latent vector)에 최대한 많은 정보가 담길 수 있도록 학습하여, 출력 음성의 향상을 이끌어낸다.
다만, 모노토닉 정렬기는 하드 정렬기로서, 소프트 정렬기에 비해 성능이 제한적이라는 연구 결과가 있으며, 다중 디코더를 활용하는 방법은 모델의 파라미터를 크게 증가시켜 비효율적이라는 단점이 있다.
한국등록특허 제10-1871604호 - 심화 신경망을 이용한 다채널 마이크 기반의 잔향시간 추정 방법 및 장치(2018.06.25. 공개) 한국등록특허 제10-1988504호 - 딥러닝에 의해 생성된 가상환경을 이용한 강화학습 방법(2019.06.05. 공개)
따라서, 일 실시예에 따른 적대적 학습 기법을 이용한 음성 합성 방법 및 장치는 상기 설명한 문제점을 해결하기 위해 고안된 발명으로서, 적대적 학습을 통해 비자동회귀 방식의 종단 사이의 음성 합성 방법 및 장치를 제공하는 것을 목적으로 한다.
보다 구체적으로, 일 실시예에 따른 적대적 학습 기법을 이용한 음성 합성 방법 및 장치는 인공신경망을 이용한 음성 합성 방법에 있어서, 적대적 학습 방법을 적용하는 방법으로 기존의 비자동회귀 방식의 음성합성 모델을 개선함으로써, 종래 기술보다 음성을 합성하는 경우에 발생하는 딜레이는 줄이는데 그 목적이 있다.
일 실시예에 따른 적대적 학습 기법을 이용한 음성 합성 방법은, 음성 데이터 입력을 수신하는 단계, 상기 음성 데이터 입력에 기반하여 음성을 합성하기 위한 적대적 모델을 학습하는 단계 및 상기 적대적 모델을 이용하여 타겟 음성의 프레임을 합성하는 단계를 포함하고, 상기 음성의 프레임을 합성하는 단계는, 비자동 회귀 방식으로 상기 타겟 음성의 프레임을 합성하는 것을 포함할 수 있다.
상기 음성의 프레임을 합성하는 단계는, 상기 적대적 모델을 이용하여 비자동 회귀 방식으로 상기 타겟 음성의 전체 프레임을 합성할 수 있다.
상기 음성 데이터 입력을 수신하는 단계는, 멜 스펙토그램 신호 정보 및 상기 타겟 음성의 합성을 위한 텍스트를 모노토닉 어텐션 정보를 입력 정보로서 수신할 수 있다.
상기 적대적 모델을 학습하는 단계는, 상기 모노토닉 어텐션의 출력값을 이용하여 적대적 학습을 수행하는 단계를 포함할 수 있다.
상기 음성 데이터 입력에 포함된 상기 텍스트를 인코딩하기 위한 텍스트 인코더의 출력에 기반하여 상기 타겟 음성의 시퀀스 길이를 추정하는 단계를 포함할 수 있다.
상기 적대적 모델을 학습하는 단계는, 복원 손실(LOSSrecon), 주기 예측 손실(LOSSdur) 및 적대적 로스 손실을 합한 값을 손실 함수로 하여, 상기 손실함수의 절대값이 최소가 되로 상기 적대적 모델을 학습하는 단계를 포함할 수 있다.
일 실시예에 따른 적대적 학습 기법을 이용한 음성 합성 장치는, 메모리, 음성 데이터 입력을 수신하는 입력부 및 상기 입력부를 통해 수신된 상기 음성 데이터 입력에 기반하여 음성을 합성하기 위한 적대적 모델을 학습하고, 상기 적대적 모델을 상기 메모리에 저장하며, 상기 메모리에 저장된 상기 적대적 모델을 이용하여 비자동 회귀 방식으로 상기 타겟 음성의 프레임을 합성하는 제어부를 포함할 수 있다.
상기 제어부는, 상기 적대적 모델을 이용하여 비자동 회귀 방식으로 상기 타겟 음성의 전체 프레임을 합성할 수 있다.
상기 제어부는, 상기 입력부를 제어하여 멜 스펙토그램 신호 및 상기 타겟 음성의 합성을 위한 텍스트를 모노토닉 어텐션의 입력으로서 수신할 수 있다.
상기 제어부는, 상기 모노토닉 어텐션의 출력값을 이용하여 적대적 학습을 수행할 수 있다.
상기 제어부는, 상기 음성 데이터 입력에 포함된 상기 텍스트를 인코딩하기 위한 텍스트 인코더의 출력에 기반하여 상기 타겟 음성의 시퀀스 길이를 추정할 수 있다.
상기 제어부는, 복원 손실(LOSSrecon), 주기 예측 손실(LOSSdur) 및 적대적 로스 손실을 합한 값을 손실 함수로 하여, 상기 손실함수의 절대값이 최소가 되로 상기 적대적 모델을 학습할 수 있다.
일 실시예에 따른 적대적 학습 기법을 이용한 음성 합성 방법 및 장치에 따르면, 종래의 자동 회귀 방식의 음성합성 모델에 비하여 빠른 음성 합성이 가능하므로, 실시간 음성 합성 프로그램에 적용이 가능한 장점이 있다.
구체적으로, 일 실시예에 따른 적대적 학습 기법을 이용한 음성 합성 방법 및 장치에 따르면 두 잠재 벡터 사이의 거리를 가깝게 함으로써 실제 음성 합성 시 랜덤 노이즈와 텍스트 정보만으로 생성되는 잠재 벡터에 충분한 정보가 담기도록 학습 가능하며, 이에 따라 종국적으로 잠재 벡터로부터 음성 특징 벡터를 비자동 회귀 방식으로 생성할 수 있다.
또한, 타겟 주기를 전체 모델과 함께 학습할 수 있어, 타겟 주기를 학습하는 데에 불필요하게 발생하는 시간을 줄일 수 있으며, 비자동 회귀 방식으로 음성 특징 벡터를 생성하므로, 실제 음성합성 시 발생하는 불필요한 딜레이를 줄일 수 있는 장점이 존재한다.
본 발명의 효과들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재들로부터 당업자에게 명확하게 이해될 수 있을 것이다.
본 발명의 상세한 설명에서 인용되는 도면을 보다 충분히 이해하기 위하여 각 도면의 간단한 설명이 제공된다.
도 1은 본 발명의 일 실시예에 따른 음성 합성 방법을 나타낸 흐름도이다.
도 2는 본 발명의 일 실시예에 따른 음성 합성 장치의 구성요소를 도시한 블록도이다.
도 3은 본 발명의 일 실시예에 따른 입력 데이터로부터 멜-스펙토그램을 예측하는 과정을 나타낸 흐름도이다.
도 4는 본 발명의 일 실시예에 따른 정렬기의 기능을 설명하기 위한 도면이다.
도 5는 본 발명의 일 실시예에 따른 정렬기와 타겟 주기를 추출하는 과정을 나타낸 도면이다.
도 6 내지 도 8은 본 발명의 효과를 설명하기 위한 도면으로서, 도 5 내지 도 7은 얼라이먼트를 타켓으로 하였을 때와 하지 않았을 때, 멜 디코더에서 출력되는 얼라이먼트를 표시한 그래프이고, 도 8은 종래 기술과 본 발명의 실제 실험 결과를 비교 도시한 표이다.
이하, 본 발명에 따른 실시 예들은 첨부된 도면들을 참조하여 설명한다. 각 도면의 구성요소들에 참조 부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명의 실시 예를 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 실시예에 대한 이해를 방해한다고 판단되는 경우에는 그 상세한 설명은 생략한다. 또한, 이하에서 본 발명의 실시 예들을 설명할 것이나, 본 발명의 기술적 사상은 이에 한정되거나 제한되지 않고 당업자에 의해 변형되어 다양하게 실시될 수 있다.
또한, 본 명세서에서 사용한 용어는 실시 예를 설명하기 위해 사용된 것으로, 개시된 발명을 제한 및/또는 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.
본 명세서에서, "포함하다", "구비하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는다.
또한, 명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "간접적으로 연결"되어 있는 경우도 포함하며, 본 명세서에서 사용한 "제 1", "제 2" 등과 같이 서수를 포함하는 용어는 다양한 구성 요소들을 설명하는데 사용될 수 있지만, 상기 구성 요소들은 상기 용어들에 의해 한정되지는 않는다.
아래에서는 첨부한 도면을 참고하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략한다.
이하 설명되는 아래의 실시 예들은 심화신경망(DNN)을 이용하여 음성을 합성하는 기술에 관한 발명으로서, 음성 합성 장치(200)의 제어부는 인공신경망을 구성되어 있음을 전제로 수행한다. 따라서, 음성 합성 장치(200)는 음성 합성을 위한 인공신경망을 학습하기 위한 학습 세션과, 추론 세션 등을 포함할 수 있다.
도 1은 본 발명의 일 실시예에 따른 음성 합성 방법을 나타낸 흐름도이다.
도 1에 도시된 바와 같이, 본 명세서의 실시예에 따른 음성 합성 방법(S100)은 S110, S130 및 S150 단계를 포함하며, 음성 합성 방법에 대한 개략적은 설명은 도 1을 통해 설명하며, 구체적인 학습 방법 및 합성 방법은 도 2 내지 도 5를 통해 설명하도록 한다.
먼저, 음성 합성 장치(200)는 음성 합성을 위한 여러 데이터를 입력 받는다(S110). 예를 들어, 음성 합성을 위한 데이터는 음성 텍스트와 멜-스펙토그램을 포함할 수 있다.
이어서, 음성 합성 장치(200)는 입력된 데이터에 기반하여 적대적 모델을 학습한다(S130). 예를 들어, 적대적 모델은 음성 합성을 위한 적대적 모델이 될 수 있다.
그 다음, 음성 합성 장치(200)는 타겟 음성의 프레임을 합성한다(S150). 구체적으로, 합성 장치는 비자동 회귀 방식으로 음성을 합성할 수 있다(S151).
예를 들어, 음성 합성 장치(200)는 적대적 학습을 적용하여 레퍼런스 데이터가 되는 그라운드 트루스(Ground Truth)인 참조 멜-스펙토그램(reference mel-spectrogram)을 이용하여 이로부터 잠재 벡터(latent vector)를 생성할 수 있다.
이어서, 음성 합성 장치(200)는 잠재 벡터와 텍스트로부터 생성되는 지연벡터가 동일한 시멘틱 공간(semantic space)에 투영되도록 적대적 모델을 학습할 수 있다. 이에 따라, 음성 합성 장치는 학습된 잠재 벡터를 통해 멜-스펙토그램을 함께 병렬적으로 디코딩(parallel decoding)할 수 있다.
즉, 상기와 같이, 본 명세서의 실시예에 따른 합성 장치는 비자동 회귀 방식의 음성 합성 모델을 학습할 수 있다.
상기의 예에서 설명한 본 발명에 따른 잠재 벡터는 압축된 음성 정보를 포함할 수 있다. 이에 따라, 잠재 벡터는 음성 특징 벡터 디코더에 입력될 수 있으며, 이에 따라 음성 합성 장치(200)는 입력된 데이터를 기초로 타겟 음성 특징 벡터를 생성할 수 있다.
상기의 예에 따라, 음성 합성 장치(200)에서 학습된 비 자동 회귀 방식의 음성 합성 모델은 음성 특징 벡터의 프레임을 순차적으로 생성하는 자동회귀 방식의 음성합성 모델보다 빠른 음성 합성이 가능하다. 이에 따라, 본 명세서의 실시예에 따라 학습된 적대적 모델은 실시간 음성 합성 프로그램에 적용 가능한 장점이 존재한다.
종래의 음성 합성을 위한 모델의 경우, 입력된 텍스트로부터 병렬적 디코딩을 통해 멜-스펙토그램을 바로 추정하는 것은 멜-스펙토그램의 프레임들 사이의 조건부 독립을 가정하여 학습하기 때문에, 자동 디코더에 비하여 추정이 어려운 단점이 있다.
또한, 종래의 비 자동 회귀 방식의 모델의 경우, 모노토닉 정렬기를 통해 업샘플링(up-sampling)을 적용하는 방법과 다중 디코더를 활용하여 반복적으로 정제하는 방법 등을 적용하여 디코더에 입력되는 잠재 벡터에 최대한 많은 정보가 담길 수 있도록 학습하는 방식으로, 출력 음성의 향상을 이끌어내는데, 종래의 모노토닉 정렬기는 하드 정렬기(hard alignment)로서, 소프트 정렬기(soft alignment)에 비하여 성능이 떨어진다는 단점이 있다. 또한, 종래의 다중 디코더를 활용하는 방법은 학습 모델의 파라미터를 증가시켜 비효율적이라는 단점이 있다.
따라서, 일 실시예에 따른 적대적 학습 기법을 이용한 음성 합성 방법 및 장치는 상기 설명한 문제점을 해결하기 위해 고안된 발명으로서, 적대적 학습을 통해 비자동회귀 방식의 종단 사이의 음성 합성 방법 및 시스템을 제공하는 것을 목적으로 하며, 보다 구체적으로는 적대적 학습 방법을 적용하는 방법으로 기존의 비자동회귀 방식의 음성합성 모델을 개선함으로써, 종래 기술보다 음성을 합성하는 경우에 발생하는 딜레이는 줄이는데 그 목적이 있다.
이를 구체적으로 설명하면, 본 발명의 일 실시예에 따른 적대적 학습 기법을 이용한 음성 합성 장치(200)는 가우시안 업샘플링을 사용하는 정렬기를 통해 멜 스펙토그램의 길이와 동일하도록 숨겨진 표현(hidden representation)이 업샘플링한다.
그 다음, 음성 합성 장치(200)는 숨겨진 표현을 입력으로 하여 학습되는 가짜 잠재 벡터(fake) 가 압축된 타겟 멜-스펙토그램 정보를 포함하는 진짜 잠재 벡터(real)와 유사해지도록 하기 위하여 타겟 멜-스펙토그램을 참조 입력으로 사용하는 GAN 학습 프로세스를 이용할 수 있다.
즉, 음성 합성 장치(200)는 입력된 텍스트 및 멜-스펙토그램을 입력으로 하는 두 잠재 벡터(가짜 잠재 벡터 및 진짜 잠재 벡터)가 동일한 시멘틱 공간(semantic space)에 투영되도록 할 수 있다.
이에 따라, 음성 합성 장치(200)는 상기한 S130 단계의 모델 학습 과정이 완료된 후, 적대적 모델 학습 시의 방해 동작에 사용되는 가짜 잠재 벡터가 종래의 GAN 프로세스를 통해 학습되지 않는 모델의 잠재 벡터보다 많은 정보가 담길 수 있도록 학습시킬 수 있다. 이에 따라, 음성 합성 장치(200)는 잠재 벡터로부터 높은 성능으로 멜-스펙토그램을 병렬적으로 디코딩할 수 있다.
상기한 바와 같이, 본 명세서의 실시예에 따른 음성 합성 방법을 요약하면 하기와 같다.
첫번째로, 합성 장치는 적대적 학습을 통해 비 자동 회귀 방식의 음성합성 모델을 학습한다.
두번째로, 합성 장치는 음성 특징 벡터를 복원하는 오토 인코더에서 생성되는 압축된 음성정보를 텍스트와 랜덤 노이즈로부터 생성하기 위한 잠재 변수 생성기를 적대적 학습을 통해 학습한다.
세번째로, 합성 장치는 진짜 잠재 벡터와 가짜 잠재 벡터 사이의 거리를 가깝게 하여, 실제 음성합성 시에 랜덤 노이즈와 텍스트 정보만으로 생성되는 잠재 벡터에 충분한 정보가 담기도록 적대적 모델을 학습시킬 수 있으며, 이에 따라 잠재 벡터로부터 음성 특징 벡터를 비 자동 회귀 방식으로 생성할 수 있다.
네번째로, 종래의 주기 예측 방법(duration predictor)는 미리 학습된 TTS 모델이나 ASR 모델에서 추출된 타겟 주기(target duration)을 이용하여 과정이 번거로우며, 추출된 타겟 주기(target duration)에 따라 성능이 제한적이다. 이에 반해, 본 명세서의 실시예에 따른 정렬기는 타겟 주기를 전체 모델과 함께 학습할 수 있다는 장점이 있다. 이하에서는 도 1에서 설명한 내용을 기초로 음성 합성 장치(200)의 각각의 구성 요소들이 어떠한 역할을 수행하는지 자세히 알아보도록 한다.
도 2는 본 명세서의 실시예에 따른 음성 합성 장치의 구성요소를 도시한 블록도이다.
도 2에 도시된 바와 같이, 음성 합성을 위한 장치(200)는 음성 입력부(210), 제어부(220) 및 메모리(230)를 포함할 수 있다.
먼저, 음성 입력부(210)는 음성 합성 및 적대적 모델의 학습을 위한 데이터를 입력 받을 수 있다. 구체적으로, 음성 합성 및 적대적 모델의 학습을 위한 데이터의 예로서, 멜-스펙토그램 및 텍스트가 될 수 있다.
제어부(220)는 입력된 텍스트 및 멜-스펙토그램을 이용하여 적대적 모델을 학습한다. 여기서, 제어부(220)는 적대적 모델을 비자동 회귀 방식으로 학습시킬 수 있다.
구체적으로, 제어부(220)는 음성 특징 벡터 인코더, 텍스트 인코더, 정렬기, 잠재 변수 생성기, 판별기, 음성 특징 벡터 디코더를 포함할 수 있다.
여기서, 음성 특징 벡터 인코더와 텍스트 인코더는 각각 입력된 멜 스펙트로그램 및 텍스트 데이터를 분석할 수 있다.
정렬기는 텍스트 인코더 출력이 타겟 음성의 멜 스펙트로그램 길이와 동일해지도록 업샘플링할 수 있다. 정렬기는 텍스트 인코더를 통해 생성된 텍스트 정보를 정렬하며, 텍스트 정보 및 동일한 길이의 랜덤 노이즈와 함께 잠재 변수 생성기에 전달할 수 있다.
음성 특징 벡터 인코더 및 음성 특징 벡터 디코더는 오토인코더 구조로 형성될 수 있다. 음성 특징 벡터 인코더는 음성 특징 벡터의 정보를 압축하는 잠재 변수를 생성한다. 음성 특징 벡터 디코더는 잠재 변수로부터 음성 특징 벡터를 복원할 수 있다.
잠재 변수 생성기는 랜덤 노이즈와 텍스트로부터 음성 특징 벡터의 정보가 압축된 잠재 변수를 생성 할 수 있다. 여기서, 잠재 변수 생성기는 제어부에 의해 적대적 학습을 통해 학습될 수 있다.
판별기는 음성 특징 벡터 인코더로부터 생성된 잠재 변수와 잠재 변수 생성기로부터 생성된 잠재 변수를 판별할 수 있다. 여기서, 판별기는 두 잠재 변수를 동일한 시멘틱 공간에 투영시킬 수 있다.
학습이 완료된 후, 실제 음성 합성을 위한 제어부(220)는 텍스트 인코더, 정렬기, 잠재 변수 생성기, 음성 특징 벡터 디코더로 구성될 수 있다.
구체적으로, 텍스트 인코더는 입력된 텍스트 데이터를 분석할 수 있으며, 정렬기는 텍스트 인코더 출력이 타겟 음성의 멜스펙트로그램 길이와 동일해지도록 업샘플링한다. 잠재 변수 생성기는 타겟 음성 특징 벡터 길이와 동일한 길이의 랜덤노이즈와 텍스트로부터 음성 특징 벡터의 정보가 압축된 잠재 벡터를 생성할 수 있다. 음성 특징 벡터 디코더는 잠재 벡터를 이용하여 음성 특징 벡터를 생성할 수 있다.
메모리(230)는 제어부(220)에서 학습한 적대적 모델을 저장할 수 있으며, 제어부(220)에서 학습을 하는데 필요한 레퍼런스 데이터 등이 저장될 수 있다.
도 3은 입력 데이터로부터 멜-스펙토그램을 예측하는 과정을 나타낸 흐름도이다.
도 3을 참조하면, 음성 합성 장치(200)는 음성 특징 벡터(Y)로 부터 생성되는 진짜 잠재 벡터(Lr)와 입력 텍스트(X)를 입력으로 생성되는 가짜 잠재 변수(Lt)가 동일한 시멘틱 공간에서 거리가 최소화 될 수 있는 방향으로 학습을 수행할 수 있다.
이를 위하여, 음성 합성 장치(200)는 오토-인코더 구조와 적대적 학습을 통해 음성 정보를 압축하는 진짜 잠재 벡터(Real Latent Vector, Lr)를 학습할 수 있다. 구체적으로, 음성 합성 장치(200)는 음성 특징 벡터(Y)를 입력으로 하여 음성 특징 벡터 인코더와 음성 특징 벡터 디코더로 구성되는 오토인코더 구조를 통해 음성정보를 압축하는 잠재 벡터(Lr)를 학습할 수 있다.
그 후 음성 합성 장치(200)의 잠재 변수 생성기는 랜덤 노이즈 입력 정보(N)와 입력되는 텍스트(302)로부터 학습된 표현으로부터 가짜 잠재 벡터(Fake Latent Vector) Lf)를 생성할 수 있다.
음성 합성 장치(200)의 판별기(310)는 두 잠재 벡터(Real과Fake, 308, 309)를 판별한다. 판별기(310)는 적대적 학습을 통하여 두 잠재 벡터가 유사해지도록 학습된다. 즉, 판별기(310)는 진짜 잠재 벡터(Lt)와 가짜 잠재 벡터(Lr)를 동일한 시멘틱 공간에 투영한다.
이에 따라, 판별기(310)는 로부터 병렬적 디코딩(parallel decoding)을 통해 음성 특징 벡터를 추정하기 위한 충분한 정보를 포함할 수 있도록 학습될 수 있다. 이 경우, 텍스트에 기반하여 학습된 표현(H)은 음성 특징 벡터의 길이와 동일해지도록 업샘플링된다. 여기서, 정렬기(305)는 표현 H를 표현 U로 변환한다.
정렬기는 표현 H의 길이를 변환하여 U를 출력할 수 있다. 이를 위해, 정렬기는 주기 설정부(예측부,406)와 어텐션부(405)를 이용하여 학습을 수행한다. 먼저, 정렬기는 타겟 음성 특징 벡터(Y)와 텍스트(X)로부터 어텐션부(405)의 어텐션 계산을 통해 정렬 A로부터 각 텍스트 토큰에 해당하는 주기 d를 추출할 수 있다. 추출된 d는 주기 설정부(duration predictor)를 학습하기 위한 타겟으로 사용될 수 있다. 주기 설정부는 H를 입력으로 예측된 주기 d^과 타겟 주기 d 사이의 MSE 손실을 줄이도록 학습된다.
각 토큰에 대한 주기는 가우시안 분산(Gaussian distribution)을 기반으로 업샘플링을 하기 위한 웨이트(weight)를 계산하기 위해 사용된다. 먼저, 합성 장치는 하기의 수학식 1을 이용하여 토 큰 별 주기로부터 출력 세그멘트에서의 토큰 센터 위치(token center position)을 찾는다.
이어서, 음성 합성 장치(200)는 토큰 센터에서 표준 편차(standard deviation)가 σ인 가우시안 분산을 기반으로 업샘플링을 위한 웨이트를 하기의 수학식 2를 이용하여 계산할 수 있으며, 일 예로 σ^2 는 10.0으로 설정할 수 있다.
그 다음, 음성 합성 장치(200)는 업샘플링된 표현을 수학식 2를 통해 계산된 웨이트와 텍스트 인코더의 출력 표현과의 가중합(weighted sum)을 통해 업샘플링할 수 있다.
또한, 음성 합성 장치(200)는 t번째 프레임의 업샘플링된 벡터 ut를 i번째 토큰 표현 hi 과 수학식 2를 통해 계산된 웨이트와의 가중합을 통해 하기의 수학식 3을 이용하여 계산할 수 있다.
여기서, 음성 합성 장치(200)는 실제 음성 합성 시 텍스트 X와 랜덤 노이즈 N을 입력으로 하여, 원하는 타겟 음성 특징 벡터를 추정할 수 있다.
구체적으로, 먼저 음성 합성 장치(200)는 텍스트 X와 랜덤 텍스트 X를 인코더를 통해 H로 변환하며, 정렬기는 U로 업샘플링한다. 정렬기(305)는 주기 설정부(duration predictor)를 통해 텍스트 인코더의 출력인 H로부터 각 토큰의 길이를 추정할 수 있다. 정렬기(305)는 실제 음성을 합성하는 경우에 잠재 변수 생성기에 입력되는 랜덤 노이즈의 길이를 결정하고, 가우시안 업샘플링을 수행할 수 있다.
생성기(307)는 U와 N을 입력으로 하여, 음성 특징 벡터 디코더에 입력되기 위한 잠재 벡터를 출력할 수 있다. 생성기(307)는 음성특징 벡터 디코더에 잠재 벡터를 전달할 수 있고, 디코더는 음성 특징 벡터를 출력할 수 있다.
도 4는 본 발명의 일 실시예에 따른 정렬기의 기능을 설명하기 위한 도면이다.
도 4를 참조하면, 음성 합성 장치(100)가 적대적 학습을 수행함에 있어서, 적대적 모델 학습에 소요되는 손실은 하기의 수학식 4와 같다.
여기서, Lossrecon은 복원 손실, Lossdur은 주기 설정(예측) 손실, Lossadvo와 Lossadvp는 각각 생성기와 구별기의 적대적 로스(adversarial loss)를 의미한다.
복원 손실은 타겟 멜-스펙토그램 Y와 멜 디코더로부터 출력된 예측된 멜-스펙토그램 Y^사이의 L1 손실을 통해 계산될 수 있다. 주기 설정(예측) 손실은 목표 주기 d 와 예측 길이 d^사이의 MSE 손실을 통해 계산될 수 있다.
적대적 손실은 하기의 수학식 5를 통해 힌지 버전(hinge version)의 적대적 손실을 이용하여 계산된다.
도 5는 본 발명의 일 실시예에 따른 정렬기와 타겟 주기를 추출하는 과정을 나타낸 도면이다.
도 5를 참조하면, 정렬기는 멜 인코더와 텍스트 인코더 출력 사이의 어텐션(attention)을 계산할 수 있다.
이어서, 정렬기(305)는 어텐션을 계산함으로써 도출된 정렬 A로부터 타겟 주기를 추출할 수 있고, 그 다음, 정렬기(305)는 타겟 주기와 예측된 주기 사이의 MSE 손실을 이용하여 주기 설정부(예측부)를 학습시킬 수 있고 이어서, 정렬기는 업샘플링을 수행할 수 있다.
구체적으로, 정렬기는 d(또는 d^)로부터 각 토큰에 해당하는 출력 세그먼트 Y의 센터 c 를 하기의 수학식 6을 이용하여 계산한다.
이어서, 정렬기(305)는 c 를 중심으로 표준 편차인 σ인 가우시안 분포를 계산하여 새로운 어텐션 웨이트 w 를 하기의 수학식 7을 이용하여 생성할 수 있다.
그 다음, 정렬기(305)는 w와 토큰 표현의 가중합을 통해 업샘플링된 표현을 하기의 수학식 8을 이용하여 계산할 수 있다.
도 6 내지 도 8은 본 발명의 효과를 설명하기 위한 도면으로서, 도 5와 도 6과 도 7은 얼라이먼트를 타켓으로 하였을 때와 하지 않았을 때, 멜 디코더에서 출력되는 얼라이먼트를 표시한 그래프이고, 도 8은 종래 기술과 본 발명의 실제 실험 결과를 비교 도시한 표이다.
구체적으로 도 6의 (a)는 생성기를 통해 생성된 얼라이먼트를 도시한 그래프이고, 도 6의 (b)는 생성기에서 생성된 얼라이먼트를 타겟으로 주지 않았을 때 멜 디코더에서 생성되는 얼라이먼트를 도시한 그래프이고, 도 6의 (c)는 얼라이먼트를 타겟으로 주었을 때 멜 디코더에서 생성되는 얼라이먼트를 도시한 그래프이고, 구체적으로 도 7의 (a)는 생성기를 통해 생성된 얼라이먼트를 도시한 그래프이고, 도 7의 (b)는 생성기에서 생성된 얼라이먼트를 타겟으로 주지 않았을 때 생성기에서 생성되는 얼라이먼트를 도시한 그래프이고, 도 7의 (c)는 얼라이먼트를 타겟으로 주었을 때 생성기에서 생성되는 얼라이먼트를 도시한 그래프이다.
도 6과 도 7를 참고하여 보면, 얼라이먼트를 타켓으로 주었을 때 멜 디코더와 생성기에서 출력되는 얼라이먼트(도 6의 (c)와 도 7의 (c))가 그렇지 않은 경우에 멜 디코더와 생성기에서 출력되는 얼라이먼트(도 6의 (b)와 도 7의 (b)) 보다 레퍼런스 데이터가 되는 도 6의 (a) 및 도 7의 (a)와 더 유사하게 출력됨을 알 수 있으며, 이를 통해 본 발명에 따른 음성 합성 장치는 종래 기술에 따른 음성 합성 장치보다 보다 실제 음성에 가장 유사하게 음성을 합성할 수 있음을 알 수 있다.
도 8의 경우, 종래 기술과 본 발명의 실제 실험 결과를 비교 도시한 표로서, 제1행에는 Tacotron2 알고리즘을 이용하여 음성을 합성하는 경우의 실험 결과가, 제2행에는 FastSpeech2 알고리즘을 이용하여 음성을 합성하는 경우의 실험 결과가, 제3행에는 본 발명에 따른 알고리즘을 이용하여 음성을 합성한 경우의 실험 결과를 도시한 도면이다.
도 8에 도시되어 있다시피, 본 발명에 따른 알고리즘을 이용하여 음성을 합성한 경우가 종래 기술에 따라 음성을 합성하는 경우가, 방해 속도가 더 짧아서 음성을 합성하는데 발생하는 딜레이를 줄일 수 있는 효과가 존재한다.
지금까지 도면을 통해 일 실시예에 따른 적대적 학습 기법을 이용한 음성 합성 방법 및 장치의 구성 요소 및 프로세스에 대해 자세히 알아보았다.
일 실시예에 따른 적대적 학습 기법을 이용한 음성 합성 방법 및 장치에 따르면, 종래의 자동 회귀 방식의 음성합성 모델에 비하여 빠른 음성 합성이 가능하므로, 실시간 음성 합성 프로그램에 적용이 가능한 장점이 있다.
구체적으로, 일 실시예에 따른 적대적 학습 기법을 이용한 음성 합성 방법 및 장치에 따르면 두 잠재 벡터 사이의 거리를 가깝게 함으로써 실제 음성 합성 시 랜덤 노이즈와 텍스트 정보만으로 생성되는 잠재 벡터에 충분한 정보가 담기도록 학습 가능하며, 이에 따라 종국적으로 잠재 벡터로부터 음성 특징 벡터를 비자동 회귀 방식으로 생성할 수 있다.
또한, 타겟 주기를 전체 모델과 함께 학습할 수 있어, 타겟 주기를 학습하는 데에 불필요하게 발생하는 시간을 줄일 수 있으며, 비자동 회귀 방식으로 음성 특징 벡터를 생성하므로, 실제 음성합성 시 발생하는 불필요한 딜레이를 줄일 수 있는 장점이 존재한다.
이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 컨트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 컨트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다. 그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.
200: 음성 합성 장치
210: 음성 입력부
220: 제어부
230: 메모리
305: 정렬기
307: 생성기
310: 판별기
311: 멜 디코더

Claims (12)

  1. 음성 합성 방법에 있어서,
    음성 데이터 입력을 수신하는 단계;
    상기 음성 데이터 입력에 기반하여 음성을 합성하기 위한 적대적 모델을 학습하는 단계; 및
    상기 적대적 모델을 이용하여 타겟 음성의 프레임을 합성하는 단계를 포함하되,
    상기 음성의 프레임을 합성하는 단계는,
    상기 적대적 모델을 이용하여 비자동 회귀 방식으로 상기 타겟 음성의 전체 프레임을 합성하고,
    상기 적대적 모델을 학습하는 단계는
    음성 특징 벡터의 정보가 압축된 잠재 벡터를 생성하고, 랜덤 노이즈와 텍스트로부터 음성 특징 벡터의 정보가 압축된 잠재 벡터를 생성하며, 상기 음성 특징 벡터의 정보가 압축된 잠재 벡터와 상기 랜덤 노이즈와 텍스트로부터 음성 특징 벡터의 정보가 압축된 잠재 벡터를 동일한 시멘틱 공간에 투영하는 것을 특징으로 하는, 적대적 학습 기법을 이용한 음성 합성 방법.
  2. 삭제
  3. 제1항에 있어서,
    상기 음성 데이터 입력을 수신하는 단계는,
    멜 스펙토그램 신호 정보 및 상기 타겟 음성의 합성을 위한 텍스트를 모노토닉 어텐션 정보를 입력 정보로서 수신하는 것을 특징으로 하는, 적대적 학습 기법을 이용한 음성 합성 방법.
  4. 제3항에 있어서,
    상기 적대적 모델을 학습하는 단계는,
    상기 모노토닉 어텐션의 출력값을 이용하여 적대적 학습을 수행하는 단계를 포함하는 것을 특징으로 하는, 적대적 학습 기법을 이용한 음성 합성 방법.
  5. 제4항에 있어서,
    상기 음성 데이터 입력에 포함된 상기 텍스트를 인코딩하기 위한 텍스트 인코더의 출력에 기반하여 상기 타겟 음성의 시퀀스 길이를 추정하는 단계를 포함하는 것을 특징으로 하는, 적대적 학습 기법을 이용한 음성 합성 방법.
  6. 제5항에 있어서,
    상기 적대적 모델을 학습하는 단계는,
    복원 손실(LOSSrecon), 주기 예측 손실(LOSSdur) 및 적대적 로스 손실을 합한 값을 손실 함수로 하여, 상기 손실 함수의 절대값이 최소가 되로 상기 적대적 모델을 학습하는 단계를 포함하는 것을 특징으로 하는, 적대적 학습 기법을 이용한 음성 합성 방법.
  7. 메모리;
    음성 데이터 입력을 수신하는 입력부; 및
    상기 입력부를 통해 수신된 상기 음성 데이터 입력에 기반하여 음성을 합성하기 위한 적대적 모델을 학습하고, 상기 적대적 모델을 상기 메모리에 저장하며,
    상기 메모리에 저장된 상기 적대적 모델을 이용하여 비자동 회귀 방식으로 타겟 음성의 전체 프레임을 합성하는 제어부;를 포함하고,
    상기 제어부는
    음성 특징 벡터의 정보가 압축된 잠재 벡터를 생성하고, 랜덤 노이즈와 텍스트로부터 음성 특징 벡터의 정보가 압축된 잠재 벡터를 생성하며, 상기 음성 특징 벡터의 정보가 압축된 잠재 벡터와 상기 랜덤 노이즈와 텍스트로부터 음성 특징 벡터의 정보가 압축된 잠재 벡터를 동일한 시멘틱 공간에 투영하는, 적대적 학습 기법을 이용한 음성 합성 장치.
  8. 삭제
  9. 제7항에 있어서,
    상기 제어부는,
    상기 입력부를 제어하여 멜 스펙토그램 신호 및 상기 타겟 음성의 합성을 위한 텍스트를 모노토닉 어텐션의 입력으로서 수신하는 것을 특징으로 하는, 적대적 학습 기법을 이용한 음성 합성 장치.
  10. 제9항에 있어서,
    상기 제어부는,
    상기 모노토닉 어텐션의 출력값을 이용하여 적대적 학습을 수행하는 것을 특징으로 하는, 적대적 학습 기법을 이용한 음성 합성 장치.
  11. 제10항에 있어서,
    상기 제어부는,
    상기 음성 데이터 입력에 포함된 상기 텍스트를 인코딩하기 위한 텍스트 인코더의 출력에 기반하여 상기 타겟 음성의 시퀀스 길이를 추정하는 것을 특징으로 하는, 적대적 학습 기법을 이용한 음성 합성 장치.
  12. 제11항에 있어서,
    상기 제어부는
    복원 손실(LOSSrecon), 주기 예측 손실(LOSSdur) 및 적대적 로스 손실을 합한 값을 손실 함수로 하여, 상기 손실 함수의 절대값이 최소가 되로 상기 적대적 모델을 학습하는 것을 특징으로 하는, 적대적 학습 기법을 이용한 음성 합성 장치.
KR1020220021354A 2022-02-18 2022-02-18 적대적 학습 기법을 이용한 음성 합성 방법 및 장치 KR102613030B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020220021354A KR102613030B1 (ko) 2022-02-18 2022-02-18 적대적 학습 기법을 이용한 음성 합성 방법 및 장치
PCT/KR2023/002229 WO2023158226A1 (ko) 2022-02-18 2023-02-15 적대적 학습 기법을 이용한 음성 합성 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220021354A KR102613030B1 (ko) 2022-02-18 2022-02-18 적대적 학습 기법을 이용한 음성 합성 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20230124266A KR20230124266A (ko) 2023-08-25
KR102613030B1 true KR102613030B1 (ko) 2023-12-12

Family

ID=87578632

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220021354A KR102613030B1 (ko) 2022-02-18 2022-02-18 적대적 학습 기법을 이용한 음성 합성 방법 및 장치

Country Status (2)

Country Link
KR (1) KR102613030B1 (ko)
WO (1) WO2023158226A1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117727290A (zh) * 2024-02-18 2024-03-19 厦门她趣信息技术有限公司 一种语音合成方法、装置、设备及可读存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101871604B1 (ko) 2016-12-15 2018-06-27 한양대학교 산학협력단 심화 신경망을 이용한 다채널 마이크 기반의 잔향시간 추정 방법 및 장치
US10978051B2 (en) * 2018-09-28 2021-04-13 Capital One Services, Llc Adversarial learning framework for persona-based dialogue modeling
KR101988504B1 (ko) 2019-02-28 2019-10-01 아이덴티파이 주식회사 딥러닝에 의해 생성된 가상환경을 이용한 강화학습 방법
KR102275656B1 (ko) * 2019-09-26 2021-07-09 국방과학연구소 적대적 학습(adversarial training) 모델을 이용한 강인한 음성 향상 훈련 방법 및 그 장치

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Jaehyeon Kim et al., ‘Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech’, PMLR, Vol.139, July 2021.*
Jinhyeok Yang et al., ‘GANSpeech: Adversarial Training for High-Fidelity Multi-Speaker Speech Synthesis’, arXiv:2106.15153v1 [eess.AS], 29 Jun 2021.*
Juheon Lee et al., ‘Adversarially Trained End-to-end Korean Singing Voice Synthesis System’, arXiv:1908.01919v1 [cs.SD], 6 Aug 2019.*

Also Published As

Publication number Publication date
KR20230124266A (ko) 2023-08-25
WO2023158226A1 (ko) 2023-08-24

Similar Documents

Publication Publication Date Title
Zhao et al. Monaural speech dereverberation using temporal convolutional networks with self attention
US20220004870A1 (en) Speech recognition method and apparatus, and neural network training method and apparatus
CN108520741B (zh) 一种耳语音恢复方法、装置、设备及可读存储介质
CN110379412B (zh) 语音处理的方法、装置、电子设备及计算机可读存储介质
CN111128137B (zh) 一种声学模型的训练方法、装置、计算机设备和存储介质
JP7242903B2 (ja) 畳み込みニューラルネットワークに基づく発話源分離のための方法および装置
US11355097B2 (en) Sample-efficient adaptive text-to-speech
KR102294638B1 (ko) 잡음 환경에 강인한 화자 인식을 위한 심화 신경망 기반의 특징 강화 및 변형된 손실 함수를 이용한 결합 학습 방법 및 장치
WO2020039571A1 (ja) 音声分離装置、音声分離方法、音声分離プログラム、及び音声分離システム
JP2020086436A (ja) 人工神経網における復号化方法、音声認識装置及び音声認識システム
US20230298593A1 (en) Method and apparatus for real-time sound enhancement
CN109697978B (zh) 用于生成模型的方法和装置
Oyamada et al. Non-native speech conversion with consistency-aware recursive network and generative adversarial network
CN113886643A (zh) 数字人视频生成方法、装置、电子设备和存储介质
KR102613030B1 (ko) 적대적 학습 기법을 이용한 음성 합성 방법 및 장치
WO2019138897A1 (ja) 学習装置および方法、並びにプログラム
Hwang et al. End-to-end speech endpoint detection utilizing acoustic and language modeling knowledge for online low-latency speech recognition
Martel et al. Audio-visual speech separation in noisy environments with a lightweight iterative model
JP7291099B2 (ja) 音声認識方法及び装置
CN115273862A (zh) 语音处理的方法、装置、电子设备和介质
KR102663654B1 (ko) 적응형 시각적 스피치 인식
WO2020068401A1 (en) Audio watermark encoding/decoding
US20240096332A1 (en) Audio signal processing method, audio signal processing apparatus, computer device and storage medium
US20230038982A1 (en) Joint Acoustic Echo Cancelation, Speech Enhancement, and Voice Separation for Automatic Speech Recognition
WO2020196021A1 (ja) 情報処理装置、情報処理方法、及び、プログラム

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant