KR20200092505A - 심층 합성곱 신경망 인공지능을 기반으로 한 미세조정을 통해 소량의 샘플로 화자 적합된 음성합성 모델을 생성하는 방법 - Google Patents

심층 합성곱 신경망 인공지능을 기반으로 한 미세조정을 통해 소량의 샘플로 화자 적합된 음성합성 모델을 생성하는 방법 Download PDF

Info

Publication number
KR20200092505A
KR20200092505A KR1020190004350A KR20190004350A KR20200092505A KR 20200092505 A KR20200092505 A KR 20200092505A KR 1020190004350 A KR1020190004350 A KR 1020190004350A KR 20190004350 A KR20190004350 A KR 20190004350A KR 20200092505 A KR20200092505 A KR 20200092505A
Authority
KR
South Korea
Prior art keywords
speaker
text
embedding
convert
speech
Prior art date
Application number
KR1020190004350A
Other languages
English (en)
Inventor
박세찬
Original Assignee
네오데우스 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 네오데우스 주식회사 filed Critical 네오데우스 주식회사
Priority to KR1020190004350A priority Critical patent/KR20200092505A/ko
Publication of KR20200092505A publication Critical patent/KR20200092505A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 음성을 합성하는 인공지능에 관한 것으로서, 특히 심층 합성곱 신경망 인공지능을 기반으로 한 미세조정을 통해 소량의 샘플로 화자 적합된 음성합성 모델을 생성하는 방법으로서, 그중 당해 방법은, 텍스트 인코더를 이용하여 텍스트를 텍스트 정보를 표현하는 숫자로 변환(Character Embedding)하는 단계; 스피커 인코더를 이용하여 타겟 음성 파일을 스피커 임베딩으로 변환하는 단계; 개인화 어텐션을 이용하여 텍스트 임베딩과 스피커 임베딩을 언어적 지식과 자소, 음소 지식을 이용하여 컨텍스트 벡터로 변환하는 단계; 오디오 디코더를 이용하여 컨텍스트 벡터를 예측된 멜-스펙트로그램으로 변환하는 단계; 그리고 보코더를 이용하여 예측된 멜-스펙트로그램과 에스알넷을 이용하여 웨이브폼 형식의 음성파일을 생성하는 단계를 포함한다. 본 발명이 제공하는 소량의 샘플로 화자 적합된 음성합성 모델을 생성하는 기술을 통하여, 화자 적합된 음성합성 모델에 필요한 데이터가 기존의 5시간에서 10분 내외로 대폭 감소하였다. 이를 통해 음성합성 시스템을 만드는데 필요한 시간 및 비용을 절약한다.

Description

심층 합성곱 신경망 인공지능을 기반으로 한 미세조정을 통해 소량의 샘플로 화자 적합된 음성합성 모델을 생성하는 방법{METHOD FOR GENERATING SPEAKER-ADAPTED SPEECH SYNTHESIZER MODEL WITH A FEW SAMPLES USING A FINE-TUNING BASED ON DEEP CONVOLUTIONAL NEURAL NETWORK AI}
본 발명은 음성을 합성하는 인공지능에 관한 것으로서, 특히 심층 합성곱 신경망 인공지능을 기반으로 한 미세조정을 통해 소량의 샘플로 화자 적합된 음성합성 모델을 생성하는 방법에 관한 것이다.
인공지능(Artificial Intelligence, AI)은 인간의 학습능력과 추론능력, 지각능력, 자연언어의 이해능력 등을 컴퓨터 프로그램으로 실현한 기술을 의미한다(두산백과). 현재 개발되고 있는 인공지능은 대화형 사용자 인터페이스(Conversational User Interface, CUI)를 구현하기 위해 필요한 기술들에 집중되어 있다. 그러한 기술로 음성인식(STT), 자연어 이해(NLU), 자연어 생성(NLG), 음성합성(TTS)이 있다.
음성합성 기술은 인공지능을 통한 대화형 사용자 인터페이스 구현을 위한 핵심 기술로서, 인간이 발화하는 것과 같은 소리를 컴퓨터나 기계를 통하여 만들어내는 것이다. 기존의 음성합성은 고정 합성 단위(Fixed Length Unit)인 단어, 음절, 음소를 조합하여 파형을 만들어내는 방식(1세대), 말뭉치를 이용한 가변 합성 단위 연결 방식(2세대)에서, 3세대 모델로 발전하였다. 3세대 모델은 음성인식을 위한 음향모델링에 주로 사용하는 HMM(Hidden Markov Model)방식을 음성합성에 적용하여, 적절한 크기의 데이터베이스를 이용한 고품질 음성합성을 구현하였다.
기존의 음성합성이 특정 화자의 음색과 억양, 말투를 학습하기 위해서는 그 화자의 음성 데이터가 최소 5시간, 고품질의 음성 출력을 위해서는 10시간 이상 필요했다. 하지만 같은 사람의 음성 데이터를 그만큼 확보하는 것은 많은 비용과 시간이 소요되었다.
본 발명은 적어도 일정한 정도에서 관련 기술에서의 기술적 과제 중의 하나를 해결하려는데 있다.
이를 위하여, 본 발명의 제 1 목적은 신경망(Neural Network, NN) 인공지능을 기반으로 한 미세조정을 통해 소량의 샘플을 이용한 화자 적합 음성합성 방법을 제공하고자 한다. 이를 통해 본 발명은 기존의 화자 적합 음성합성 모델을 생성하고 활용하는데 있어서 비용이 많이 걸리고, 시간이 많이 소요되는 문제점을 해결할 것이다.
상기 목적을 달성하기 위하여, 본 발명은 텍스트를 텍스트 정보를 표현하는 숫자로 변환하는 텍스트 인코더; 타겟 음성 파일을 스피커 임베딩으로 변환하는 스피커 인코더; 텍스트 임베딩과 스피커 임베딩을 언어적 지식과 자소, 음소 지식을 이용하여 컨텍스트 벡터로 변환하는 개인화 어텐션; 컨텍스트 벡터를 예측된 멜-스펙트로그램으로 변환하는 오디오 디코더; 그리고 예측된 멜-스펙트로그램과 에스알넷을 이용하여 웨이브폼 형식의 음성파일을 생성하는 보코더로 음성 합성 모델을 구성하였다.
본 발명은 텍스트를 텍스트 정보를 표현하는 숫자로 변환하는 텍스트 인코더; 타겟 음성 파일을 스피커 임베딩으로 변환하는 스피커 인코더; 텍스트 임베딩과 스피커 임베딩을 언어적 지식과 자소, 음소 지식을 이용하여 컨텍스트 벡터로 변환하는 개인화 어텐션; 컨텍스트 벡터를 예측된 멜-스펙트로그램으로 변환하는 오디오 디코더; 그리고 예측된 멜-스펙트로그램과 에스알넷을 이용하여 웨이브폼 형식의 음성파일을 생성하는 보코더로 음성 합성 모델을 구성하였다. 이를 통해 특정 화자의 목소리를 생성하는 음성 합성 모델을 만드는데 필요한 데이터를 기존의 5시간~10시간에서 10분 이내로 단축시켰다. 이를 이용하면 화자 적합된 TTS(Text-To-Speech)를 만드는데 드는 시간과 비용을 상당 부분 감소시킬 수 있다.
본 발명의 상기 측면과 장점은 아래의 첨부된 도면을 결합하여 실시예에 대하여 설명하는 것으로부터 명확해지고 쉽게 이해될 수 있다. 그중,
도 1은 본 발명의 실시예에 따른 화자적합 음성합성 모델 생성 방법의 흐름도이다.
도 2는 본 발명의 단계 S101의 구조도이다.
도 3은 본 발명의 단계 S102에서 STFT(국소 푸리에 변환)로 스펙트로그램을 생성하는 구조도이다.
도 4는 본 발명의 단계 S103에서 이용하는 개인화 어텐션의 구조도이다.
도 5는 본 발명의 단계 S104의 구조도이다.
도 6은 본 발명의 단계 S105의 구조도이다.
이하에서는, 본 발명의 실시예에 대하여 상세하게 설명하도록 한다. 상기 실시예의 예시는 첨부된 도면에 도시되며, 그중 동일하거나 또는 유사한 부호는 동일하거나 유사한 소자 또는 동일하거나 유사한 기능을 구비한 소자를 나타낸다. 아래에 첨부된 도면을 참조하여 설명되는 실시예는 예시적인 것으로서, 그 의의는 본 발명을 설명하기 위한 것으로서, 본 발명에 대한 한정으로 이해하여서는 안된다.
아래의 도면을 참조하여 본 발명의 실시예에 따른 화자 적합 음성합성 모델 생성 방법 및 장치를 설명하기로 한다.
도 1은 본 발명의 실시예에 따른 화자 적합 음성 합성 모델의 생성 방법의 흐름도이다.
도 1에서 도시하는 바와 같이, 당해 음성 합성 모델은 다음의 단계 S101 내지 단계 S105를 포함한다.
도 2는 단계 S101을 도시하고 있다. 이 단계에서는 텍스트 인코더(Text-Encoder)를 이용하여 입력된 텍스트를 텍스트 정보를 표현하는 숫자로 변환한다. 이는 딥러닝 모델이 계산을 하기 위해 글자를 숫자로 바꾸는 캐릭터 임베딩(Character Embedding)에 해당한다. 한국어의 경우 한글은 음소문자이나 한국어는 한글을 모아쓰기를 통해서 음절문자로 사용한다. 따라서 알파벳이나 로마자와 같은 음소문자 계열의 언어와 발음 방식은 유사하지만 다른 발음 규칙을 적용해야 한다. 즉, 유니코드의 자모로 초성, 중성, 종성으로 나누는 전처리를 통한 방식과 발음기호와 언어 규칙을 적용한 방식을 추가하여서 변환해야 한다. 이를 위해서 사용하는 것이 Text-net과 HC(Highway-conv)이다.
Text-net은 Conv1D와 Relu를 거치고, Dropout을 한 뒤에, 다시 Conv1D와 Dropout을 거친다.
HC-net은 Highway-conv를 의미한다. Text-net을 통해 변환된 데이터는 (HC)**2 - (HC)**2를 거치고 컨벌루셔널 층을 통해서 숫자 데이터가 된다.
단계 S101의 결과, 입력된 텍스트는 텍스트-넷(Text-net)과 HC-net를 거쳐서 텍스트 정보를 표현하는 숫자들로 텍스트 임베딩(Text Embedding)된다. 이 때의 결과물은 (K, V)이다. K는 Keys를, V는 Values를 의미한다. 이 때 K는 배치(Batch), 길이(Length(Character)), 차원(Dimension)에 관한 정보를 나타낸다. V는 배치(Batch), 길이(Length(Character)), 차원(Dimension)을 포함한다.
단계 S102에서는 적합하려는 화자의 타겟 음성 오디오 파일이 스피커 인코더(Speaker-Encoder)를 거쳐 스피커 임베딩으로 변환된다. 적합하려는 화자의 음성 데이터를 이용하기 위해, 시계열 데이터인 음성 데이터를 국소 푸리에 변환(Short-Time Fourier Transform)을 거쳐서 스펙트로그램(Spectrogram)으로 변환한다. 기존 기술에서는 적합하려는 화자와 유사한 음성을 출력하기 위해서는 그 화자의 타겟 음성 오디오 파일이 최소 5시간~10시간을 입력값으로 넣어야 했다. 하지만 본 발명에서는 타겟 음성 오디오 파일을 10분 이상을 입력값으로 넣으면 기존 기술의 출력값과 유사한 음성을 출력할 수 있다.
도 3은 STFT로 스펙트로그램을 생성하는 방법을 도시한다. X축에는 시간, Y축에는 주파수(Hz), Z축에는 진폭(Amplitude)을 나타내어 주파수와 진폭이 시간에 따라 어떻게 변화하는지를 나타낸다. 이렇게 만들어진 스펙트로그램을 귀의 달팽이관의 특성을 반영하여 멜-스펙트로그램(Mel-Spectrogram)으로 변환한다. 이 멜-스펙트로그램(Mel-Spectrogram)을 입력값으로 넣어서 스피커 인코더 네트워크(SE-net)를 통과시킨다. 이때 SE-net은 (Conv1D - ReLU - Dropout) - (Conv1D - ReLU - Dropout) - (Conv1D - Dropout) - (HC - HC - HC - HC)**2 - (HC) ** 2로 구성되어 있다. 이를 통해 멜-스펙트로그램이 타겟 화자의 음성 정보를 표현한 숫자인 스피커 임베딩(Speaker embedding)으로 변환된다.
단계 S101과 단계 S102를 통해 변환된 음성, 텍스트를 표현하는 숫자들은 단계 S103에서 개인화 어텐션(Personal Attention)을 거쳐서 컨텍스트 벡터들(Context Vectors)로 변환된다. 이 과정에서 생성 모델(Generative Model)이 이용된다. 이 모델은 언어적 지식, 자소와 음소의 지식을 포함한다. 이 정보들이 개인화 어텐션을 거쳐서 컨텍스트 벡터들이 된다.
도 4는 개인화 어텐션(Personal Attention)의 구조를 나타낸다. 어텐션(Attention)은 입력된 데이터의 중요도를 반영하여, 각각 어디에 더 집중해야 할지를 학습하는 모듈이다. 개인화 어텐션은 특정 화자의 목소리의 특징 중 어디에 더 집중해야 할지를 학습한다. 이 과정을 거쳐서 화자의 목소리를 구현하는데 필요한 특징값을 추출해낸다. 퍼스널 어텐션의 입력값으로는 키(Keys), 값(Values), 그리고 쿼리(Queries)가 입력된다. 이 입력값은 퍼스널 어텐션을 거쳐서 R로 변환되는데, R은 컨텍스트 벡터(Context Vector)이다. 여기에는 입력값인 쿼리가 가지고 있던 배치, T/r, 그리고 차원에 대한 정보가 포함된다.
도 5는 단계 S104를 나타낸다. 여기서는 단계 S103에서 생성된 컨텍스트 벡터가 오디오 디코더(Audio Decoder)를 거쳐서 예측된 멜-스펙트로그램(Mel-Spectrogram)으로 변환된다.
컨텍스트 벡터는 먼저 디코더-넷(Decoder-net)을 거치면서 Conv1D-드랍아웃(Dropout)의 과정을 지난다. 그 다음 HC-넷(HC-net)에서 HC-HC-HC-HC의 과정을 거친다. 다음으로 컨벌루셔널 층에서 (HC)를 2번 거치고, (Conv1D + ReLU + Dropout)을 3번 거치고, Conv1D-Dropout을 거쳐서 예측된 멜-스펙트로그램으로 변환된다.
이렇게 변환된 멜-스펙트로그램 예측값은 입력값이었던 컨텍스트 벡터가 가지고 있던 배치, T/r을 여전히 속성으로 가진다. 그러면서도 n_mels라는 새로운 속성을 가지게 된다.
도 6은 단계 S105를 도시한다. 여기서는 예측된 멜-스펙트로그램과 슈퍼 레졸루션(super resolution)을 입력값으로 하여 보코더(Vocoder)를 거쳐서 음성파일을 생성한다. 먼저 SR-넷(SR-net)에서는 (Conv1D + Dropout) - HC - HC - (HC-HC-HC)**2 - (Conv1D + Dropout) - (HC)**2의 과정을 거친다. 이를 통해 cnn 시스템의 해상도를 향상시킨다. 그 다음 보코더넷(Vocoder-net)을 거쳐서 최종 웨이브폼(Waveform) 음성이 생성된다. 즉, 예측된 멜-스펙트로그램을 입력값으로 넣어서, 최종 웨이브폼이 완성된다. 이 웨이브폼은 입력된 목소리와 어조, 음색, 억양 등이 유사한 음성이다.

Claims (7)

  1. 심층 합성곱 신경망 인공지능을 기반으로 한 미세조정을 통해 소량의 샘플로 화자 적합된 음성합성 모델을 생성하는 방법에 있어서, 텍스트를 텍스트 정보를 표현하는 숫자로 변환하는 텍스트 인코더를 이용하는 단계;
    타겟 음성 파일을 스피커 임베딩으로 변환하는 스피커 인코더를 이용하는 단계;
    텍스트 임베딩과 스피커 임베딩을 언어적 지식과 자소, 음소 지식을 이용하여 컨텍스트 벡터로 변환하는 개인화 어텐션을 이용하는 단계;
    컨텍스트 벡터를 예측된 멜-스펙트로그램으로 변환하는 오디오 디코더를 이용하는 단계;
    그리고 예측된 멜-스펙트로그램과 에스알넷을 이용하여 웨이브폼 형식의 음성파일을 생성하는 보코더로 음성 합성 모델을 구성하는 단계;를 포함하는 화자 적합된 음성합성 모델 생성 방법.
  2. 제1 항에 있어서,
    특정 화자의 타겟 음성 데이터로부터 목소리를 만들어서 재구현하는데 필요한 모델의 생성을 위해 관련 모듈들을 활용하는 순서.
  3. 제1 항에 있어서,
    텍스트를 텍스트 정보를 표현하는 숫자로 변환하는 텍스트 인코더를 이용하는 단계에서 각각의 노드와 레이어에 가중치를 부여하는 방법.
  4. 제1 항에 있어서,
    타겟 음성 파일을 스피커 임베딩으로 변환하는 스피커 인코더를 이용하는 단계에서 각각의 노드와 레이어에 가중치를 부여하는 방법.
  5. 제1 항에 있어서,
    텍스트 임베딩과 스피커 임베딩을 언어적 지식과 자소, 음소 지식을 이용하여 컨텍스트 벡터로 변환하는 개인화 어텐션을 이용하는 단계에서 각각의 노드와 레이어에 가중치를 부여하는 방법.
  6. 제1 항에 있어서,
    컨텍스트 벡터를 예측된 멜-스펙트로그램으로 변환하는 오디오 디코더를 이용하는 단계에서 각각의 노드와 레이어에 가중치를 부여하는 방법.
  7. 제1 항에 있어서,
    예측된 멜-스펙트로그램과 에스알넷을 이용하여 웨이브폼 형식의 음성파일을 생성하는 보코더로 음성 합성 모델을 구성하는 단계에서 각각의 노드와 레이어에 가중치를 부여하는 방법.

KR1020190004350A 2019-01-13 2019-01-13 심층 합성곱 신경망 인공지능을 기반으로 한 미세조정을 통해 소량의 샘플로 화자 적합된 음성합성 모델을 생성하는 방법 KR20200092505A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190004350A KR20200092505A (ko) 2019-01-13 2019-01-13 심층 합성곱 신경망 인공지능을 기반으로 한 미세조정을 통해 소량의 샘플로 화자 적합된 음성합성 모델을 생성하는 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190004350A KR20200092505A (ko) 2019-01-13 2019-01-13 심층 합성곱 신경망 인공지능을 기반으로 한 미세조정을 통해 소량의 샘플로 화자 적합된 음성합성 모델을 생성하는 방법

Publications (1)

Publication Number Publication Date
KR20200092505A true KR20200092505A (ko) 2020-08-04

Family

ID=72048661

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190004350A KR20200092505A (ko) 2019-01-13 2019-01-13 심층 합성곱 신경망 인공지능을 기반으로 한 미세조정을 통해 소량의 샘플로 화자 적합된 음성합성 모델을 생성하는 방법

Country Status (1)

Country Link
KR (1) KR20200092505A (ko)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111986646A (zh) * 2020-08-17 2020-11-24 云知声智能科技股份有限公司 一种基于小语料库的方言合成方法及系统
CN112233646A (zh) * 2020-10-20 2021-01-15 携程计算机技术(上海)有限公司 基于神经网络的语音克隆方法、系统、设备及存储介质
CN112735373A (zh) * 2020-12-31 2021-04-30 科大讯飞股份有限公司 语音合成方法、装置、设备及存储介质
CN112786012A (zh) * 2020-12-31 2021-05-11 科大讯飞股份有限公司 一种语音合成方法、装置、电子设备和存储介质
CN112820268A (zh) * 2020-12-29 2021-05-18 深圳市优必选科技股份有限公司 个性化语音转换训练方法、装置、计算机设备及存储介质
KR102363324B1 (ko) * 2020-11-25 2022-02-16 주식회사 자이냅스 멜-스펙트로그램의 무음 부분을 결정하는 방법 및 음성 합성 시스템
KR20220072599A (ko) * 2020-11-25 2022-06-02 주식회사 자이냅스 무음 구간 검출을 통한 멜 스펙트로그램의 배치 구성 방법 및 음성 합성 시스템
KR20220072593A (ko) * 2020-11-25 2022-06-02 주식회사 자이냅스 무음 멜-스펙트로그램을 이용하여 음성 데이터를 생성하는 방법 및 음성 합성 시스템
KR20220072605A (ko) * 2020-11-25 2022-06-02 주식회사 자이냅스 멜-스펙트로그램의 길이에 기초하여 음성 데이터의 참조 구간을 결정하는 방법 및 음성 합성 시스템
CN115188364A (zh) * 2022-09-13 2022-10-14 南开大学 基于卷积网络和编码器解码器模型的多语种语音合成方法
WO2023033237A1 (ko) * 2021-08-31 2023-03-09 서울대학교산학협력단 자연어로 기술되는 스타일 태그를 활용하여 운율 조절이 가능한 멀티 스타일 음성 합성 시스템
CN112233646B (zh) * 2020-10-20 2024-05-31 携程计算机技术(上海)有限公司 基于神经网络的语音克隆方法、系统、设备及存储介质

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111986646A (zh) * 2020-08-17 2020-11-24 云知声智能科技股份有限公司 一种基于小语料库的方言合成方法及系统
CN111986646B (zh) * 2020-08-17 2023-12-15 云知声智能科技股份有限公司 一种基于小语料库的方言合成方法及系统
CN112233646A (zh) * 2020-10-20 2021-01-15 携程计算机技术(上海)有限公司 基于神经网络的语音克隆方法、系统、设备及存储介质
CN112233646B (zh) * 2020-10-20 2024-05-31 携程计算机技术(上海)有限公司 基于神经网络的语音克隆方法、系统、设备及存储介质
KR20220072605A (ko) * 2020-11-25 2022-06-02 주식회사 자이냅스 멜-스펙트로그램의 길이에 기초하여 음성 데이터의 참조 구간을 결정하는 방법 및 음성 합성 시스템
KR102363324B1 (ko) * 2020-11-25 2022-02-16 주식회사 자이냅스 멜-스펙트로그램의 무음 부분을 결정하는 방법 및 음성 합성 시스템
KR20220072599A (ko) * 2020-11-25 2022-06-02 주식회사 자이냅스 무음 구간 검출을 통한 멜 스펙트로그램의 배치 구성 방법 및 음성 합성 시스템
KR20220072593A (ko) * 2020-11-25 2022-06-02 주식회사 자이냅스 무음 멜-스펙트로그램을 이용하여 음성 데이터를 생성하는 방법 및 음성 합성 시스템
KR20220072807A (ko) * 2020-11-25 2022-06-02 주식회사 자이냅스 무음 부분을 자연스럽게 처리하는 음성 합성 시스템
CN112820268A (zh) * 2020-12-29 2021-05-18 深圳市优必选科技股份有限公司 个性化语音转换训练方法、装置、计算机设备及存储介质
CN112786012A (zh) * 2020-12-31 2021-05-11 科大讯飞股份有限公司 一种语音合成方法、装置、电子设备和存储介质
CN112735373B (zh) * 2020-12-31 2024-05-03 科大讯飞股份有限公司 语音合成方法、装置、设备及存储介质
CN112735373A (zh) * 2020-12-31 2021-04-30 科大讯飞股份有限公司 语音合成方法、装置、设备及存储介质
CN112786012B (zh) * 2020-12-31 2024-05-31 科大讯飞股份有限公司 一种语音合成方法、装置、电子设备和存储介质
WO2023033237A1 (ko) * 2021-08-31 2023-03-09 서울대학교산학협력단 자연어로 기술되는 스타일 태그를 활용하여 운율 조절이 가능한 멀티 스타일 음성 합성 시스템
CN115188364A (zh) * 2022-09-13 2022-10-14 南开大学 基于卷积网络和编码器解码器模型的多语种语音合成方法

Similar Documents

Publication Publication Date Title
KR20200092505A (ko) 심층 합성곱 신경망 인공지능을 기반으로 한 미세조정을 통해 소량의 샘플로 화자 적합된 음성합성 모델을 생성하는 방법
JP7436709B2 (ja) 非発話テキストおよび音声合成を使う音声認識
Halle et al. Speech recognition: A model and a program for research
CN111276120B (zh) 语音合成方法、装置和计算机可读存储介质
US5668926A (en) Method and apparatus for converting text into audible signals using a neural network
KR20230034423A (ko) 2-레벨 스피치 운율 전송
Panda et al. Text-to-speech synthesis with an Indian language perspective
Gahlawat et al. Natural speech synthesizer for blind persons using hybrid approach
JP7406418B2 (ja) 声質変換システムおよび声質変換方法
He et al. DOP-tacotron: A fast chinese TTS system with local-based attention
Kamble et al. Audio Visual Speech Synthesis and Speech Recognition for Hindi Language
KR20220125005A (ko) 화자 적합성이 향상된 음성합성 모델 생성방법
Charoenrattana et al. Pali Speech Synthesis using HMM
Al-Said et al. An Arabic text-to-speech system based on artificial neural networks
KR20200075064A (ko) 시퀀스투시퀀스 심층 합성곱 신경망 인공지능을 기반으로 하는 한국어 음성합성 모델 생성 방법
JPH0580791A (ja) 音声規則合成装置および方法
Hinterleitner et al. Speech synthesis
KR102649028B1 (ko) 음성 합성 시스템의 동작방법
Jacob et al. Developing a Child Friendly Text‐to‐Speech System
Kaur et al. BUILDING AText-TO-SPEECH SYSTEM FOR PUNJABI LANGUAGE
Prasad Hindi Speech Synthesis Using Paralinguistic Content Expression
Khudoyberdiev The Algorithms of Tajik Speech Synthesis by Syllable
Louw Cross-lingual transfer using phonological features for resource-scarce text-to-speech
Rizk et al. Arabic Text to Speech Synthesizer: Arabic Letter to Sound Rules
Mamatov et al. Formation of a Speech Database in the Karakalpak Language for Speech Synthesis Systems