KR20190008137A - 다중 화자 데이터를 이용한 딥러닝 기반 음성 합성 장치 및 방법 - Google Patents

다중 화자 데이터를 이용한 딥러닝 기반 음성 합성 장치 및 방법 Download PDF

Info

Publication number
KR20190008137A
KR20190008137A KR1020180081395A KR20180081395A KR20190008137A KR 20190008137 A KR20190008137 A KR 20190008137A KR 1020180081395 A KR1020180081395 A KR 1020180081395A KR 20180081395 A KR20180081395 A KR 20180081395A KR 20190008137 A KR20190008137 A KR 20190008137A
Authority
KR
South Korea
Prior art keywords
speech
speaker
voice
parameter
characteristic
Prior art date
Application number
KR1020180081395A
Other languages
English (en)
Inventor
장인선
강홍구
강현주
주영선
안충현
서정일
양승준
최지훈
Original Assignee
한국전자통신연구원
연세대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원, 연세대학교 산학협력단 filed Critical 한국전자통신연구원
Priority to US16/035,261 priority Critical patent/US20190019500A1/en
Publication of KR20190008137A publication Critical patent/KR20190008137A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

음성 신호 훈련 방법 및 장치가 개시된다. 본 개시의 일 실시 예에 따른 음성 신호 훈련 장치는 목표 화자의 음성 신호를 저장하는 목표 화자 음성 데이터베이스와, 다중 화자의 음성 신호를 저장하는 다중 화자 음성 데이터베이스와, 상기 목표 화자의 음성 신호로부터, 학습 대상 음성 신호에 대한 음성 파라미터를 추출하는 목표화자 음성 파라미터 추출부와, 상기 다중 화자의 음성 신호로부터, 적어도 하나의 선택 화자 음성 신호를 추출하고, 상기 선택 화자 음성 신호에 대한 보조 음성 특성을 확인하는 유사화자 음성 파라미터 확인부와, 상기 음성 파라미터 및 상기 보조 음성 특성을 사용하여, 상기 음성 파라미터와 텍스트와의 관계에 대한 모델을 훈련하여 음성 파라미터 모델을 결정하고, 상기 음성 파라미터 모델과 상기 텍스트와의 관계에 대한 맵핑정보를 설정하는 음성 파라미터 모델 훈련부를 포함할 수 있다.

Description

다중 화자 데이터를 이용한 딥러닝 기반 음성 합성 장치 및 방법{APPARATUS FOR DEEP LEARNING BASED TEXT-TO-SPEECH SYNTHESIS USING MULTI-SPEAKER DATA AND METHOD FOR THE SAME}
본 개시는 합성 음성을 생성하는 기술에 관한 것이며, 보다 구체적으로는 합성 음성을 생성하는데 기초가 되는 음성 파라미터를 생성하는 방법 및 장치에 대한 것이다.
음성합성(text-to-speech: TTS) 시스템은 입력된 텍스트를 음성으로 변환하여 출력하며, 자연스럽고 높은 음질의 음성을 합성하는 것이 그 목표이다. 음성합성 기술은 크게 연결 합성(concatenative synthesis) 기법과 통계적 파라메트릭 모델(statistical parametric model) 기반의 합성 기법으로 구분할 수 있다.
연결 합성 기법은 음소, 단어, 문장 등 음성을 분할한 단위를 조합하는 방식으로 음성을 합성한다. 이 기술은 높은 합성 음질을 제공하지만, 대용량의 데이터베이스를 전제로 하기 때문에 이러한 데이터를 시스템에 반드시 구축해야 하는 한계를 갖고 있다. 또한 녹음된 신호 자체만을 이용하므로 합성음의 음색이나 운율을 변환하여 기술을 확장하기에는 구조적인 한계를 지니고 있다.
통계적 파라메트릭 모델 기반의 음성 합성 기법은 음성 신호에서 추출한 음성 파라미터를 통계적 모델로 훈련(training) 한 후, 텍스트에 해당하는 통계적 모델로부터 파라미터를 생성하여 음성을 합성한다. 이는 연결 합성 방식에 비해서 합성음의 음질이 낮지만, 음성 신호에서 추출된 대표 값만을 이용하기 때문에 적은 메모리를 요구하여 모바일 시스템에 적합할 뿐만 아니라, 파라미터 값 변경을 통한 모델 변환이 용이하다. 통계적 모델 종류로는 은닉 마코브 모델 (hidden Markov model; HMM)과 딥러닝 기반의 모델이 있다. 그 중 딥러닝 기반의 모델은 데이터(feature)간의 비선형적인 관계를 모델링 할 수 있다는 장점이 있기 때문에, 최근 다양한 분야에 사용되고 있다.
음성 파라미터는 여기 파라미터(excitation parameter)와 스펙트럼 파라미터(spectral parameter)로 구성되는데, 딥 러닝 기반의 모델을 사용하여 음성 합성을 처리할 경우, 스펙트럼 파라미터는 잘 훈련되는 반면에 여기 파라미터는 상대적으로 훈련을 통해 모델을 구성하는데 어려움이 있다.
특히, 사람이 같은 음소(phoneme)를 발음하더라도 주변 음소, 음절, 단어 등의 영향으로 인해 발화 형태가 달라지며, 화자 고유의 성격 및 감정 상황에 따라 음성 신호의 패턴이 다양하게 나타날 수 있다. 그러나, 딥 러닝 기반의 모델을 적용하여 음성 신호의 훈련을 수행하게 되면, 특정 값에 수렴하도록 학습이 이루어지므로, 데이터의 편차가 큰 여기 파라미터를 효과적으로 모델링 하는 데에 한계가 있으며, 이로 인해 추정된 여기 파라미터의 경로(trajectory)가 과도하게 평활화(over-smoothing)되는 문제가 발생된다.
나아가, 여기 파라미터가 평활화된 모델을 이용하여 음성 신호의 합성을 처리할 경우, 목표 화자의 다양한 패턴에 대한 특성을 제대로 표현하지 못하는 문제가 발생되며, 나아가 합성음의 품질을 저하시키는 문제가 발생될 수 있다. 다양한 패턴 각각에 대한 목표 화자의 음성 신호를 충분하게 훈련을 수행할 경우, 전술한 문제를 극복할 수는 있으나, 목표 화자에 대한 음성 신호를 대용량의 데이터베이스로 구축하기에는 시간과 비용적으로 한계가 있다.
본 개시는 전술한 점을 고려하여 안출된 것으로써, 다중 화자의 음성 신호를 사용하여 목표 화자의 다양한 패턴에 대한 특성을 반영한 음성 파라미터 모델을 구축할 수 있는 음성신호 훈련 방법 및 장치를 제공하는데 목적이 있다.
본 개시의 다른 기술적 과제는 다중화자의 음성 신호를 사용하되, 목표화자의 음성 신호의 특성이 좀 더 정확하게 반영될 수 있는 다중화자를 선택하여 음성 파라미터 모델을 구축할 수 있는 음성신호 훈련 방법 및 장치를 제공하는데 목적이 있다.
본 개시의 또 다른 기술적 과제는 음성 특성들 사이의 상호 작용 및 서로 다른 화자들 사이의 음향 특성에 대한 상호 작용 등을 고려하여, 목표화자의 음성 특성에 최적화된 음성신호 훈련 방법 및 장치를 제공하는데 목적이 있다.
본 개시의 다른 기술적 과제는 다중 화자의 음성 신호를 사용하여 목표 화자의 다양한 패턴에 대한 특성을 반영한 음성 파라미터 모델을 구축하고, 구축된 음성 파라미터 모델을 사용하여 입력 텍스트에 대응되는 합성 음성을 생성하는 방법 및 장치를 제공하는 것이다.
본 개시에서 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급하지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
본 개시의 일 양상에 따르면 음성 신호 훈련 장치가 제공될 수 있다. 상기 장치는 목표 화자의 음성 신호를 저장하는 목표 화자 음성 데이터베이스와, 다중 화자의 음성 신호를 저장하는 다중 화자 음성 데이터베이스와, 상기 목표 화자의 음성 신호로부터, 학습 대상 음성 신호에 대한 음성 파라미터를 추출하는 목표화자 음성 파라미터 추출부와, 상기 다중 화자의 음성 신호로부터, 적어도 하나의 유사화자 음성 신호를 추출하고, 상기 유사화자 음성 신호에 대한 보조 음성 특성을 확인하는 유사화자 음성 파라미터 확인부와, 상기 음성 파라미터 및 상기 보조 음성 특성을 사용하여, 상기 음성 파라미터와 텍스트와의 관계에 대한 모델을 훈련하여 음성 파라미터 모델을 결정하고, 상기 음성 파라미터 모델과 상기 텍스트와의 관계에 대한 맵핑정보를 설정하는 음성 파라미터 모델 훈련부를 포함할 수 있다.
본 개시의 다른 양상에 따르면 음성 신호 훈련 방법이 제공될 수 있다. 상기 방법은 목표 화자의 음성 신호를 저장하는 목표 화자 음성 데이터베이스로부터, 학습 대상 음성 신호에 대한 음성 파라미터를 추출하는 과정과, 다중 화자의 음성 신호를 저장하는 다중 화자 음성 데이터베이스로부터, 적어도 하나의 유사화자 음성 신호를 추출하는 과정과, 상기 유사화자 음성 신호에 대한 보조 음성 특성을 확인하는 과정과, 상기 음성 파라미터 및 상기 보조 음성 특성을 사용하여, 상기 음성 파라미터와 텍스트와의 관계에 대한 모델을 훈련하여 음성 파라미터 모델을 결정하고, 상기 음성 파라미터 모델과 상기 텍스트와의 관계에 대한 맵핑정보를 설정하는 과정을 포함할 수 있다.
본 개시의 또 다른 양상에 따르면 음성 신호 합성 장치가 제공될 수 있다. 상기 장치는 목표 화자의 음성 신호를 저장하는 목표 화자 음성 데이터베이스와, 다중 화자의 음성 신호를 저장하는 다중 화자 음성 데이터베이스와, 상기 목표 화자의 음성 신호로부터, 학습 대상 음성 신호에 대한 음성 파라미터를 추출하는 목표화자 음성 파라미터 추출부와, 상기 다중 화자의 음성 신호로부터, 적어도 하나의 유사화자 음성 신호를 추출하고, 상기 유사화자 음성 신호에 대한 보조 음성 특성을 확인하는 유사화자 음성 파라미터 확인부와, 상기 음성 파라미터 및 상기 보조 음성 특성을 사용하여, 상기 음성 파라미터와 텍스트와의 관계에 대한 모델을 훈련하여 음성 파라미터 모델을 결정하고, 상기 음성 파라미터 모델과 상기 텍스트와의 관계에 대한 맵핑정보를 설정하는 음성 파라미터 모델 훈련부와, 상기 음성 파라미터 모델과 상기 텍스트와의 관계에 대한 맵핑정보를 기반으로, 입력 텍스트에 대응되는 상기 음성 파라미터를 생성하고, 상기 생성된 음성 파라미터를 반영하여 상기 입력 텍스트에 대응되는 합성 음성 신호를 생성하는 음성 신호 합성부를 포함할 수 있다.
본 개시의 또 다른 양상에 따르면 음성 신호 합성 방법이 제공될 수 있다. 상기 방법은 목표 화자의 음성 신호를 저장하는 목표 화자 음성 데이터베이스로부터, 학습 대상 음성 신호에 대한 음성 파라미터를 추출하는 과정과, 다중 화자의 음성 신호를 저장하는 다중 화자 음성 데이터베이스로부터, 적어도 하나의 유사화자 음성 신호를 추출하는 과정과, 상기 유사화자 음성 신호에 대한 보조 음성 특성을 확인하는 과정과, 상기 음성 파라미터 및 상기 보조 음성 특성을 사용하여, 상기 음성 파라미터와 텍스트와의 관계에 대한 모델을 훈련하여 음성 파라미터 모델을 결정하고, 상기 음성 파라미터 모델과 상기 텍스트와의 관계에 대한 맵핑정보를 설정하는 과정과, 상기 음성 파라미터 모델과 상기 텍스트와의 관계에 대한 맵핑정보를 기반으로, 입력 텍스트에 대응되는 상기 음성 파라미터를 생성하고, 상기 생성된 음성 파라미터를 반영하여 상기 입력 텍스트에 대응되는 합성 음성 신호를 생성하는 과정을 포함할 수 있다.
본 개시의 또 다른 양상에 따르면 음성 신호 훈련 장치가 제공될 수 있다. 상기 장치는 목표화자의 음성 신호를 저장하는 목표화자 음성 데이터베이스와, 다중화자의 음성 신호를 저장하는 다중화자 음성 데이터베이스와, 상기 목표화자의 음성 신호로부터, 상기 목표화자의 제1 및 제2음성 특성을 추출하는 목표화자 음성 파라미터 추출부와, 상기 다중화자의 음성 신호로부터 상기 다중화자의 제1 및 제2음성 특성을 추출하고, 추출된 상기 다중화자의 제1 및 제2음성 특성과 상기 목표화자의 제1 및 제2음성 특성에 기초하여, 적어도 하나의 유사화자 음성 신호를 선택하는 유사화자 데이터 선택부와, 상기 유사화자 음성 신호에 대한 상기 제1 및 제2음성 특성을 확인하는 유사화자 음성특성 확인부와, 상기 목표화자와 유사화자의 상기 제1 및 제2음성 특성을 기반으로, 상기 제1 및 제2음성 특성과 텍스트와의 관계에 대한 모델을 훈련하여 상기 제1 및 제2음성 특성과 상기 텍스트와의 관계에 대한 맵핑 정보를 설정하는 음성 특성 모델 훈련부를 포함할 수 있다.
본 개시의 또 다른 양상에 따르면 음성 신호 훈련 방법이 제공될 수 있다. 상기 방법은 상기 목표화자의 음성 신호로부터, 상기 목표화자 제1 및 제2음성 특성을 추출하는 과정과, 상기 다중화자의 음성 신호로부터 상기 다중화자의 제1 및 제2음성 특성을 추출하고, 추출된 상기 다중화자의 제1 및 제2음성 특성과 상기 목표화자의 상기 제1 및 제2음성 특성에 기초하여, 적어도 하나의 유사화자 음성 신호를 선택하는 과정과, 상기 유사화자 음성 신호에 대한 상기 제1 및 제2음성 특성을 확인하는 과정과, 상기 목표화자와 유사화자의 상기 제1 및 제2음성 특성을 기반으로, 상기 제1 및 제2음성 특성과 텍스트와의 관계에 대한 모델을 훈련하여 상기 제1 및 제2음성 특성과 상기 텍스트와의 관계에 대한 맵핑정보를 설정하는 과정을 포함할 수 있다.
본 개시의 또 다른 양상에 따르면 음성 신호 합성 장치가 제공될 수 있다. 상기 장치는 목표화자의 음성 신호를 저장하는 목표화자 음성 데이터베이스와, 다중화자의 음성 신호를 저장하는 다중화자 음성 데이터베이스와, 상기 목표화자의 음성 신호로부터, 상기 목표화자의 제1 및 제2음성 특성을 추출하는 목표화자 음성 파라미터 추출부와, 상기 다중화자의 음성 신호로부터 상기 다중화자의 제1 및 제2음성 특성을 추출하고, 추출된 상기 다중화자의 제1 및 제2음성 특성과 상기 목표화자의 제1 및 제2음성 특성에 기초하여, 적어도 하나의 유사화자 음성 신호를 선택하는 유사화자 데이터 선택부와, 상기 유사화자 음성 신호에 대한 상기 제1 및 제2음성 특성을 확인하는 유사화자 음성특성 확인부와, 상기 목표화자와 유사화자의 상기 제1 및 제2음성 특성을 기반으로, 상기 제1 및 제2음성 특성과 텍스트와의 관계에 대한 모델을 훈련하여 상기 제1 및 제2음성 특성과 상기 텍스트와의 관계에 대한 맵핑 정보를 설정하는 음성 특성 모델 훈련부와, 상기 제1 및 제2음성 특성과 상기 텍스트와의 관계에 대한 맵핑 정보를 기반으로, 입력 텍스트에 대응되는 음성 특성을 생성하고, 상기 생성된 음성 특성을 반영하여 상기 입력 텍스트에 대응되는 합성 음성 신호를 생성하는 음성 신호 합성부를 포함할 수 있다.
본 개시의 또 다른 양상에 따르면 음성 신호 합성 방법이 제공될 수 있다. 상기 방법은 상기 목표화자의 음성 신호로부터, 상기 목표화자 제1 및 제2음성 특성을 추출하는 과정과, 상기 다중화자의 음성 신호로부터 상기 다중화자의 제1 및 제2음성 특성을 추출하고, 추출된 상기 다중화자의 제1 및 제2음성 특성과 상기 목표화자의 상기 제1 및 제2음성 특성에 기초하여, 적어도 하나의 유사화자 음성 신호를 선택하는 과정과, 상기 유사화자 음성 신호에 대한 상기 제1 및 제2음성 특성을 확인하는 과정과, 상기 목표화자와 유사화자의 상기 제1 및 제2음성 특성을 기반으로, 상기 제1 및 제2음성 특성과 텍스트와의 관계에 대한 모델을 훈련하여 상기 제1 및 제2음성 특성과 상기 텍스트와의 관계에 대한 맵핑정보를 설정하는 과정과, 상기 제1 및 제2음성 특성과 상기 텍스트와의 관계에 대한 맵핑 정보를 기반으로, 입력 텍스트에 대응되는 음성 특성을 생성하고, 상기 생성된 음성 특성을 반영하여 상기 입력 텍스트에 대응되는 합성 음성 신호를 생성하는 과정을 포함할 수 있다.
본 개시에 대하여 위에서 간략하게 요약된 특징들은 후술하는 본 개시의 상세한 설명의 예시적인 양상일 뿐이며, 본 개시의 범위를 제한하는 것은 아니다.
본 개시에 따르면, 다중 화자의 음성 신호를 사용하여 목표 화자의 다양한 패턴에 대한 특성을 반영한 음성 파라미터 모델을 구축할 수 있는 음성신호 훈련 방법 및 장치가 제공될 수 있다.
또한, 본 개시에 따르면, 다중 화자의 음성 신호를 사용하여 목표 화자의 다양한 패턴에 대한 특성을 반영한 음성 파라미터 모델을 구축하고, 구축된 음성 파라미터 모델을 사용하여 입력 텍스트에 대응되는 합성 음성을 생성하는 방법 및 장치가 제공될 수 있다.
본 개시에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
도 1은 본 개시의 일 실시예에 따른 음성 신호 훈련 장치의 구성을 도시하는 블록도이다.
도 2는 본 개시의 일 실시예에 따른 음성 신호 훈련 장치에 구비되는 유사화자 음성 신호 결정부의 상세 구성을 도시하는 블록도이다.
도 3은 도 2의 특성 파라미터 구간 분할부가 음성 신호에 대한 시간적 정렬을 처리하는 동작을 예시하는 도면이다.
도 4는 본 개시의 일 실시예에 따른 음성 신호 훈련 장치를 구비하는 음성 신호 합성 장치의 구성을 도시하는 블록도이다.
도 5는 본 개시의 다른 실시예에 따른 음성 신호 훈련 장치의 구성을 도시하는 블록도이다.
도 6은 본 개시의 다른 실시예에 따른 음성 신호 훈련 장치에 구비되는 유사화자 데이터 선택부의 상세 구성을 도시하는 블록도이다.
도 7은 도 6의 제2음성특성의 구간 분할부가 음성 신호에 대한 시간적 정렬을 처리하는 동작을 예시하는 도면이다.
도 8은 도 5에 구비된 음성 파라미터 모델 훈련부가 목표화자와 다중화자의 음성특성을 사용한 신경망 모델을 예시하는 도면이다.
도 9a 및 도 9b는 본 개시의 다른 실시예에 따른 음성 신호 훈련 장치에 구비되는 신경망 적응부의 구성을 예시하는 도면이다.
도 10은 본 개시의 다른 실시예에 따른 음성 신호 합성 장치의 구성을 도시하는 블록도이다.
도 11은 본 개시의 일 실시예에 따른 음성 신호 훈련 방법의 순서를 도시하는 흐름도이다.
도 12는 본 개시의 일 실시예에 따른 음성 신호 합성 방법의 순서를 도시하는 흐름도이다.
도 13은 본 개시의 다른 실시예에 따른 음성 신호 훈련 방법의 순서를 도시하는 흐름도이다.
도 14는 본 개시의 다른 실시예에 따른 음성 신호 합성 방법의 순서를 도시하는 흐름도이다.
도 15는 본 개시의 다양한 실시예에 따른 음성 신호 훈련 방법/장치 및 음성 신호 합성 방법/장치를 실행하는 컴퓨팅 시스템을 예시하는 블록도이다.
이하에서는 첨부한 도면을 참고로 하여 본 개시의 실시 예에 대하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나, 본 개시는 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다.
본 개시의 실시 예를 설명함에 있어서 공지 구성 또는 기능에 대한 구체적인 설명이 본 개시의 요지를 흐릴 수 있다고 판단되는 경우에는 그에 대한 상세한 설명은 생략한다. 그리고, 도면에서 본 개시에 대한 설명과 관계없는 부분은 생략하였으며, 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
본 개시에 있어서, 어떤 구성요소가 다른 구성요소와 "연결", "결합" 또는 "접속"되어 있다고 할 때, 이는 직접적인 연결관계뿐만 아니라, 그 중간에 또 다른 구성요소가 존재하는 간접적인 연결관계도 포함할 수 있다. 또한 어떤 구성요소가 다른 구성요소를 "포함한다" 또는 "가진다"고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 배제하는 것이 아니라 또 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
본 개시에 있어서, 제1, 제2 등의 용어는 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용되며, 특별히 언급되지 않는 한 구성요소들간의 순서 또는 중요도 등을 한정하지 않는다. 따라서, 본 개시의 범위 내에서 일 실시 예에서의 제1 구성요소는 다른 실시 예에서 제2 구성요소라고 칭할 수도 있고, 마찬가지로 일 실시 예에서의 제2 구성요소를 다른 실시 예에서 제1 구성요소라고 칭할 수도 있다.
본 개시에 있어서, 서로 구별되는 구성요소들은 각각의 특징을 명확하게 설명하기 위함이며, 구성요소들이 반드시 분리되는 것을 의미하지는 않는다. 즉, 복수의 구성요소가 통합되어 하나의 하드웨어 또는 소프트웨어 단위로 이루어질 수도 있고, 하나의 구성요소가 분산되어 복수의 하드웨어 또는 소프트웨어 단위로 이루어질 수도 있다. 따라서, 별도로 언급하지 않더라도 이와 같이 통합된 또는 분산된 실시 예도 본 개시의 범위에 포함된다.
본 개시에 있어서, 다양한 실시 예에서 설명하는 구성요소들이 반드시 필수적인 구성요소들은 의미하는 것은 아니며, 일부는 선택적인 구성요소일 수 있다. 따라서, 일 실시 예에서 설명하는 구성요소들의 부분집합으로 구성되는 실시 예도 본 개시의 범위에 포함된다. 또한, 다양한 실시 예에서 설명하는 구성요소들에 추가적으로 다른 구성요소를 포함하는 실시 예도 본 개시의 범위에 포함된다.
본 개시에 있어서, 음성 파라미터, 제2 등의 용어는 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용되며, 특별히 언급되지 않는 한 구성요소들간의 순서 또는 중요도 등을 한정하지 않는다. 따라서, 본 개시의 범위 내에서 일 실시 예에서의 음성 파라미터 구성요소는 다른 실시 예에서 제2 구성요소라고 칭할 수도 있고, 마찬가지로 일 실시 예에서의 제2 구성요소를 다른 실시 예에서 음성 파라미터 구성요소라고 칭할 수도 있다.
이하, 첨부한 도면을 참조하여 본 개시의 실시 예들에 대해서 설명한다.
도 1은 본 개시의 일 실시예에 따른 음성 신호 훈련 장치의 구성을 도시하는 블록도이다.
본 개시의 일 실시예에 따른 음성 신호 훈련 장치는 목표화자 음성 파라미터 추출부(11), 목표 화자 음성 데이터베이스(12), 유사화자 음성 파라미터 확인부(13), 다중 화자 음성 데이터베이스(14), 및 음성 파라미터 모델 훈련부(15)를 포함할 수 있다.
목표 화자의 음성 신호는 언어의 음성체계에서 단어의 의미를 구별 짓는 최소의 소리 단위인 음소 단위로 구분될 수 있는데, 대화 방법, 감정 상태, 문장 구성에 따라 다양한 패턴을 보이므로, 동일한 음소 단위의 음성 신호라 하더라도, 대화 방법, 감정 상태, 문장 구성에 대응되는 다양한 패턴의 음성신호가 나타날 수 있다. 목표 화자의 음성 신호에 대해서, 이러한 다양한 패턴 각각에 대한 훈련을 수행하기 위해서는, 상당히 많은 량의 목표 화자의 음성 신호에 대한 데이터가 요구된다. 목표 화자의 음성 신호에 대한 데이터를 확보하기 어려우므로, 다중 화자의 음성신호에 대한 데이터를 이용하여 다양한 패턴을 반영할 수 있는 훈련을 실현하고자 한다.
나아가, 다중 화자의 음성신호에 대한 데이터를 이용하여 훈련을 수행할 경우, 목표화자에 대한 다양한 패턴의 특성이 나타나야 하지만, 훈련 또는 학습 알고리즘의 특성 상, 훈련된 음성 신호가 과도하게 평활화(over-smoothing)되어 목표화자에 대한 다양한 패턴의 특성이 제대로 표현되지 않고 생동감(lively)이 저하되는 문제가 발생될 수 있다.
이러한 문제를 해결하기 위하여, 본 개시의 일 실시예에 따른 음성 신호 훈련 장치는 다중 화자 음성 데이터베이스(14)에 저장된 다중 화자의 음성 신호 중, 학습을 수행하고자 하는 목표 화자의 음성 신호, 즉 학습 대상 음성 신호와 유사한 특성을 구비하는 음성신호를 선택하여 훈련 또는 학습을 수행하도록 한다.
이를 위해, 목표화자 음성 파라미터 추출부(11)는 목표 화자 음성 데이터베이스(12)로부터 학습 대상 음성 신호에 대한 음성 파라미터를 추출한다.
유사화자 음성 파라미터 확인부(13)는 다중 화자 음성 데이터베이스(14)로부터, 학습 대상 음성 신호에 대응되는 적어도 하나의 유사화자 음성 신호를 검출하고, 검출된 상기 적어도 하나의 유사화자 음성 신호에 대한 보조 음성 특성을 확인한다. 이때, 상기 보조 음성 특성은 여기(excitation) 파라미터 또는 여기 파라미터로부터 검출된 특징 벡터를 포함할 수 있다.
유사화자 음성 파라미터 확인부(13)는 유사화자 음성 신호 결정부(13a)와 보조 음성 특징 확인부(13b)를 포함할 수 있다. 유사화자 음성 신호 결정부(13a)는 다중 화자의 음성 데이터베이스(14)에 포함된 적어도 하나의 음성 신호를 음소, 음절(syllable), 단어(word) 등 문장의 부분적 단위로 분할하고, 분할된 단위를 기준으로 하여 학습 대상 음성 신호와의 유사도를 측정하고, 유사도가 높은 음성 신호를 유사화자 음성 신호로서 선정할 수 있다. 그리고, 보조 음성 특징 확인부(13b)는 유사화자 음성 신호에 대한 음성 파라미터(예, 여기(excitation) 파라미터)에 기초한 보조 음성 특성을 확인할 수 있다. 예를 들어, 보조 음성 특징 확인부(13b)는 유사화자 음성 신호와 목표 화자의 음성 신호에 대한 음성 파라미터(예, 여기(excitation) 파라미터)의 유사도에 따른 가중치를 유사화자의 음성 파라미터에 반영하여 보조 음성 특성 벡터를 생성할 수 있다.
음성 파라미터 모델 훈련부(15)는 상기 음성 파라미터 및 상기 보조 음성 특성 벡터를 이용하여, 상기 음성 파라미터와 텍스트와의 관계에 대한 모델을 훈련한 후, 상기 음성 파라미터와 텍스트와의 관계에 대한 맵핑정보를 음성 파라미터 모델 DB(16)에 저장 및 관리할 수 있다.
도 2는 본 개시의 일 실시예에 따른 음성 신호 훈련 장치에 구비되는 유사화자 음성 신호 결정부의 상세 구성을 도시하는 블록도이다.
도 2를 참조하면, 유사화자 음성 신호 결정부(20)는 특성 파라미터 구간 분할부(21), 유사도 측정부(23), 및 유사화자 음성 신호 선택부(25)를 포함할 수 있다.
특성 파라미터 구간 분할부(21)는 목표 화자 음성 신호 에 대한 음성 파라미터(예, 여기 파라미터)와, 다중 화자 음성 신호에 대한 음성 파라미터(예, 여기 파라미터)를 확인하고, 각각의 음성 파라미터에 대한 특징 벡터를 확인할 수 있다.
유사도 측정부(23)는 목표 화자 음성 신호에 대한 특징 벡터와, 다중 화자 음성 신호에 대한 특징 벡터 사이의 유사도를 확인한다. 예컨대, 유사도 측정부(23)는 K-평균 군집분석(K-means clustering), 기본 주파수로부터 추출한 웨이블릿 계수의 유클리드 거리(Euclidean distance), 쿨백-라이블러 발산(Kullback-Leibler divergence) 방식 등을 사용하여 목표 화자 음성 신호에 대한 특징 벡터와, 다중 화자 음성 신호에 대한 특징 벡터 사이의 유사도를 산출할 수 있다.
유사화자 음성 신호 선택부(25)는 목표 화자 음성 신호에 대한 특징 벡터와, 다중 화자 음성 신호에 대한 특징 벡터 사이의 유사도를 기반으로, 목표 화자 음성 신호와 유사한 다중 화자 음성 신호를 선택할 수 있다. 본 개시의 일 실시예에서, 전술한 바와 같이 선택된 다중 화자 음성 신호는 유사화자 음성 신호로 정의할 수 있다.
문장이 같더라도 화자마다 발화 속도가 다르며 그에 따라 음성 신호의 길이 또한 각각 다르게 나타날 수 있다. 따라서, 목표 화자 음성 신호에 대한 특징 벡터와, 다중 화자 음성 신호에 대한 특징 벡터 사이의 유사도를 확인하기 위해서는, 시간적 정렬을 통해 전체 문장의 길이가 같아지도록 설정할 필요가 있다. 이를 위해, 목표 화자 음성 신호에 대한 특징 벡터와, 다중 화자 음성 신호에 대한 특징 벡터 사이의 유사도를 산출하기에 앞서, 특성 파라미터 구간 분할부(21)는 유사도 산출의 대상이 되는 음성 신호에 대한 시간적 정렬을 처리할 수 있다.
도 3은 도 2의 특성 파라미터 구간 분할부(21)가 음성 신호에 대한 시간적 정렬을 처리하는 동작을 예시하는 도면이다.
특성 파라미터 구간 분할부(21)는 목표 화자 음성 신호로부터 음성 파라미터(예, 여기 파라미터)와, 산출된 결과로부터 특징 벡터를 추출한다(31). 그리고, 특성 파라미터 구간 분할부(21)는 다중 화자 음성 신호로부터 음성 파라미터(예, 여기 파라미터)와, 이에 대응되는 특징 벡터를 확인한다(32).
특성 파라미터 구간 분할부(21)는 목표 화자 음성 신호와 다중 화자 음성 신호로부터 특징 벡터를 확인한 후, 확인된 특징 벡터에 기초하여 음성 파라미터(예, 여기 파라미터)에 대한 시간적 정렬을 처리할 수 있다(33).
일 실시예로서, 특성 파라미터 구간 분할부(21)는 목표 화자 음성 신호와 다중 화자 음성 신호로부터 확인된 음성 특성(예, 여기 파라미터)과, 이에 대응되는 멜-주파수 켑스트럼 계수(mel-frequency cepstral coefficient; MFCC), 1~4차 포먼트(F1~F4), 선 스펙트럼 주파수(line spectral frequency;LSF) 등의 특징 벡터를 확인할 수 있다.
그리고, 특성 파라미터 구간 분할부(21)는 전술한 특징 벡터 사용하여, 동적 시간 워핑(dynamic time warping; DTW) 알고리즘을 적용하여 목표 화자 음성 신호와 다중 화자 음성 신호에 대응되는 음성 파라미터(예, 여기 파라미터)에 대해 시간적 정렬을 수행한다.
그 다음, 특성 파라미터 구간 분할부(21)는 음성 파라미터를 음소나 단어 등 과 같이, 문장의 하위 구성요소를 이루는 언어 정보 단위로 목표 화자 음성 신호와 다중 화자 음성 신호에 대응되는 음성 파라미터(예, 여기 파라미터)를 분할할 수 있다(35, 36).
도 4는 본 개시의 일 실시예에 따른 음성 신호 훈련 장치를 구비하는 음성 신호 합성 장치의 구성을 도시하는 블록도이다.
본 개시의 일 실시예에 따른 음성 신호 합성 장치는 전술한 본 개시의 일 실시예에 따른 음성 신호 훈련 장치(10)를 구비한다. 도 4에서, 전술한 도 1의 음성 신호 훈련 장치(10)와 동일한 구성에 대해서는 동일한 도면 식별번호를 부여하며, 이와 관련된 구체적인 설명은 도 1 및 이에 대한 설명을 참조한다.
음성 신호 훈련 장치(10)는 목표 화자의 음성 신호로부터 검출된 음성 파라미터와, 다중 화자의 음성 신호로부터 선택된 유사화자의 음성 신호를 기반으로 산출된 보조 특징 벡터를 사용하여, 음성 파라미터와 텍스트와의 관계에 대한 모델을 훈련한다. 이와 같이 훈련된 데이터, 즉, 음성 파라미터와 텍스트와의 관계에 대한 맵핑정보는 음성 파라미터 모델 DB(16)에 저장 및 관리될 수 있다.
음성 신호 합성 장치는 음성 신호 합성부(40)를 구비한다. 음성 신호 합성부(40)는 음성 파라미터 모델 DB(16)에 저장된 데이터, 즉 음성 파라미터와 텍스트와의 관계에 대한 맵핑정보에 기초하여, 입력 텍스트에 대응되는 음성 파라미터를 생성하고, 생성된 음성 파라미터를 반영하여 상기 입력 텍스트에 대응되는 합성 음성 신호를 생성한다.
도 5는 본 개시의 다른 실시예에 따른 음성 신호 훈련 장치의 구성을 도시하는 블록도이다.
본 개시의 다른 실시예에 따른 음성 신호 훈련 장치는 목표화자(TS; Target Speaker) 음성 데이터베이스(51), 다중화자 음성 데이터베이스(52), 특징 벡터 추출부(53), 목표화자 음성특성 추출부(54), 유사화자(SS; Similar Speaker) 데이터 선택부(55), 유사화자 음성특성 확인부(56), 음성 파라미터 모델 훈련부(57) 및 심층 신경망 모델 데이터베이스(58)를 포함할 수 있다.
목표화자의 음성 신호는 언어의 음성체계에서 단어의 의미를 구별 짓는 최소의 소리 단위인 음소 단위로 구분될 수 있는데, 대화 방법, 감정 상태, 문장 구성에 따라 다양한 패턴을 보이므로, 동일한 음소 단위의 음성 신호라 하더라도, 대화 방법, 감정 상태, 문장 구성에 대응되는 다양한 패턴의 음성신호가 나타날 수 있다. 목표화자의 음성 신호에 대해서, 이러한 다양한 패턴 각각에 대한 훈련을 수행하기 위해서는, 상당히 많은 량의 목표화자의 음성 신호에 대한 데이터가 요구된다. 목표화자의 음성 신호에 대한 데이터를 확보하기 어려우므로, 다중화자의 음성신호에 대한 데이터를 이용하여 다양한 패턴을 반영할 수 있는 훈련을 실현하고자 한다.
나아가, 다중화자의 음성신호에 대한 데이터를 이용하여 훈련을 수행할 경우, 목표화자에 대한 다양한 패턴의 특성이 나타나야 하지만, 훈련 또는 학습 알고리즘의 특성 상, 훈련된 음성 신호가 과도하게 평활화(over-smoothing)되어 목표화자에 대한 다양한 패턴의 특성이 제대로 표현되지 않고 생동감(lively)이 저하되는 문제가 발생될 수 있다.
이러한 문제를 해결하기 위하여, 본 개시의 다른 실시예에 따른 음성 신호 훈련 장치는 다중화자 음성 데이터베이스(52)에 저장된 다중화자의 음성 신호 중, 학습을 수행하고자 하는 목표화자의 음성 신호, 즉 학습 대상 음성 신호와 유사한 특성을 구비하는 음성신호(즉, 유사화자(SS; Similar Speaker)의 음성신호)를 선택하여 훈련 또는 학습을 수행하도록 한다.
이에 기초하여, 목표화자(TS; Target Speaker) 음성 데이터베이스(51)는 목표화자의 음성 신호를 음소, 음절(syllable), 단어(word) 등의 단위로 구분하여 저장하되, 목표화자의 음성 신호에 대응되는 컨텍스트 정보, 예컨대, 대화 방법, 감정 상태, 문장 구성 등과 같은 정보를 반영하여 저장할 수 있다. 마찬가지로, 다중화자 음성 데이터베이스(52)는 다중화자의 음성 신호를 음소, 음절(syllable), 단어(word) 등의 단위로 구분하여 저장하되, 컨텍스트 정보를 반영하여 저장할 수 있다.
특징 벡터 추출부(53)는 목표화자의 음성신호와 다중화자의 음성신호에 대한 특징 벡터를 추출할 수 있다.
구체적으로, 유사화자 데이터 선택부(55)는 다중화자의 음성 데이터베이스(52)에 포함된 적어도 하나의 음성 신호를 음소, 음절(syllable), 단어(word) 등 문장의 부분적 단위로 분할하고, 분할된 단위를 기준으로 하여 목표화자의 음성신호와의 유사성을 확인할 수 있다. 이때, 유사화자 데이터 선택부(55)는 스펙트럼 특성을 나타내는 파라미터(예, 스펙트럼 파라미터)와 기본 주파수 특성을 나타내는 파라미터(예, F0 파라미터)를 사용하여 목표화자의 음성신호와 다중화자의 음성신호의 유사성을 확인할 수 있다. 특히, 기본 주파수 특성을 나타내는 파라미터(예, F0 파라미터)를 사용하여 목표화자의 음성신호와 다중화자의 음성신호의 유사성을 정확하게 확인하기 위해서는, 목표화자의 음성신호와 다중화자의 음성신호에 대한 기본 주파수 특성을 나타내는 파라미터(예, F0 파라미터)의 시간적 정렬이 필요하다.
전술한 바에 기초하여, 특징 벡터 추출부(53)는 기본 주파수 특성을 나타내는 파라미터의 시간격 정렬을 위한 특징 벡터를 추출할 수 있다. 예컨대, 특징 벡터 추출부(53)는 목표화자의 음성신호와 다중화자의 음성신호에 대한 멜-주파수 켑스트럼 계수(mel-frequency cepstral coefficient; MFCC), 1~4차 포먼트(F1~F4), 선 스펙트럼 주파수(line spectral frequency; LSF) 등을 검출함으로써, 시간격 정렬에 필요한 특징 벡터를 산출할 수 있다.
목표화자 음성특성 추출부(54)는 목표화자 음성 데이터베이스(51)로부터 학습 대상 음성 신호에 대한 음성 파라미터를 추출한다. 화자의 음성 신호에는 다양한 음성 파라미터가 구비될 수 있으며, 이에 기초하여 화자의 음성 신호를 훈련하는데 요구되는 다양한 음성 파라미터를 추출할 수 있다. 예컨대, 목표화자 음성특성 추출부(54)는 목표화자의 음성 신호의 스펙트럼 특성을 나타내는 파라미터(예, 스펙트럼 파라미터)와, 목표화자의 음성 신호의 기본 주파수 특성을 나타내는 파라미터(예, F0 파라미터)를 추출할 수 있다.
그리고, 목표화자 음성특성 추출부(54)는 목표화자의 음성 신호에 대한 스펙트럼 파라미터를 확인하고, 스펙트럼 파라미터를 목표화자의 제1음성특성으로 출력하고, 목표화자의 음성 신호에 대한 F0 파라미터를 목표화자의 제2음성특성으로 출력할 수 있다.
전술한 바와 같이, 유사화자 데이터 선택부(55)는 다중화자의 음성 신호의 스펙트럼 특성을 나타내는 파라미터(예, 스펙트럼 파라미터)와, 다중화자의 음성 신호의 기본 주파수 특성을 나타내는 파라미터(예, F0 파라미터)를 사용하여, 목표화자의 음성 신호에 대응되는 적어도 하나의 유사화자 음성 신호를 선택할 수 있다. 이를 위해, 유사화자 데이터 선택부(55)는 목표화자 음성특성 추출부(54)로부터 목표화자의 제1음성특성(예, 스펙트럼 파라미터)와, 목표화자의 제2음성특성(예, F0 파라미터)를 제공받을 수 있다. 그리고, 유사화자 데이터 선택부(55)는 다중화자의 음성DB(14)로부터 다중화자 음성신호에 대한 특성, 즉, 다중화자의 제1음성특성(예, 스펙트럼 파라미터)와, 다중화자의 제2음성특성(예, F0 파라미터)를 추출할 수 있다.
이에 기초하여, 유사화자 데이터 선택부(55)는 다중화자의 음성 데이터베이스(14)에 포함된 적어도 하나의 음성 신호를 음소, 음절(syllable), 단어(word) 등 문장의 부분적 단위로 분할하고, 분할된 단위를 기준으로 하여 학습 대상 음성 신호와의 유사도를 측정하고, 유사도가 높은 음성 신호를 유사화자 음성 신호로서 선정할 수 있다.
유사화자 음성특성 확인부(56)는 유사화자의 음성 신호에 대응되는 음성 특성을 확인하고, 확인된 음성 특성을 음성 파라미터 모델 훈련부에 제공한다. 예를 들어, 유사화자 음성특성 확인부(56)는 유사화자의 음성 신호에 대한 스펙트럼 파라미터를 유사화자의 제1음성특성으로 출력하고, 유사화자 음성특성 확인부(56)는 유사화자의 음성 신호에 대한 F0 파라미터를 유사화자의 제2음성특성으로 출력한다.
유사화자 데이터 선택부(55)가 유사화자를 선택하는 과정에서, 다중화자의 음성 특성을 산출될 수 있다, 그리고, 유사화자는 다중화자 중, 선택된 어느 한 화자일 수 있다. 따라서, 유사화자 음성특성 확인부(56)는 유사화자 데이터 선택부(55)로부터 유사화자에 대응되는 음성 특성, 예를 들어, 스펙트럼 파라미터와 F0 파라미터를 제공받을 수 있으며, 이를 유사화자의 제1 및 제2음성특성으로 확인할 수 있다.
음성 파라미터 모델 훈련부(57)는 목표화자 음성특성 추출부(54)와, 유사화자 음성특성 확인부(56)로부터 제공되는 음성특성 정보를 사용하여 상기 음성특성과 텍스트의 관계에 대한 모델을 훈련한 후, 상기 음성특성과 텍스트의 관계에 대한 맵핑 정보를 심층 신경망 모델 데이터베이스(58)에 저장 및 관리할 수 있다.
구체적으로, 음성 파라미터 모델 훈련부(57)는 컨텍스트 정보를 고려하여 음소, 음절(syllable), 단어(word) 등으로 분할된 음성 신호를 대상으로, 분할된 음성 신호에 대응되는 목표화자의 제1음성특성(스펙트럼 파라미터)과 유사화자의 제1음성특성(스펙트럼 파라미터) 사이의 관계에 대한 모델을 훈련한다. 마찬가지로, 음성 파라미터 모델 훈련부(57)는 분할된 음성 신호에 대응되는 목표화자의 제2음성특성(F0 파라미터)과 유사화자의 제2음성특성(F0 파라미터) 사이의 관계에 대한 모델을 훈련한다.
나아가, 유사화자 데이터 선택부(55)는 유사화자 음성 신호를 결정하는 과정에서, 유사화자의 음성 신호와, 목표화자의 음성 신호 사이의 유사도를 확인하는데, 이러한 유사도는 음성 파라미터 모델 훈련부(57)에 제공될 수 있다. 그리고, 음성 파라미터 모델 훈련부(57)는 유사화자의 음성 신호와, 목표화자의 음성 신호 사이의 유사도를 기반으로, 유사화자의 제1음성특성 또는 제2음성특성에 가중치를 설정하고, 유사화자의 제1음성특성 또는 제2음성특성에 대한 학습을 수행한다.
도 6은 본 개시의 다른 실시예에 따른 음성 신호 훈련 장치에 구비되는 유사화자 데이터 선택부의 상세 구성을 도시하는 블록도이다.
도 6을 참조하면, 유사화자 데이터 선택부(60)는 다중화자 음성특성 추출부(61), 제1유사도 측정부(62), 제1유사화자 확인부(63), 제2음성특성의 구간 분할부(64), 제2유사도 측정부(65), 및 제2유사화자 확인부(66)를 구비할 수 있다.
다중화자 음성특성 추출부(61)는 다중화자 음성 데이터베이스(52)로부터 음성 파라미터를 추출한다. 화자의 음성 신호에는 다양한 음성 파라미터가 구비될 수 있으며, 이에 기초하여 화자의 음성 신호를 훈련하는데 요구되는 다양한 음성 파라미터를 추출할 수 있다.
다중화자 음성특성 추출부(61)는 전술한 목표화자 음성특성 추출부(54)가 검출하는 음성 파라미터와 동일한 특성을 갖는 음성 파라미터를 검출하는 것이 바람직하다. 예컨대, 다중화자 음성특성 추출부(61)는 다중화자의 음성 신호의 스펙트럼 특성을 나타내는 파라미터(예, 스펙트럼 파라미터)와, 목표화자의 음성 신호의 기본 주파수 특성을 나타내는 파라미터(예, F0 파라미터)를 추출할 수 있다.
제1유사도 측정부(62)는 전술한 목표화자 음성특성 추출부(54)로부터 목표화자의 제1음성특성(예, 스펙트럼 파라미터)을 입력받고, 다중화자 음성특성 추출부(61)로부터 다중화자의 제1음성특성(예, 스펙트럼 파라미터)을 입력받을 수 있다. 그리고, 제1유사도 측정부(62)는 목표화자의 제1음성특성(예, 스펙트럼 파라미터)을 기준으로, 다중화자의 제1음성특성(예, 스펙트럼 파라미터)의 유사도를 측정할 수 있다. 예컨대, 제1유사도 측정부(62)는 목표화자와 다중화자 각각의 스펙트럼 파라미터에 대한 유사도를 산출할 수 있다. 제1유사도 측정부(62)는 K-평균 군집분석(K-means clustering), 기본 주파수로부터 추출한 웨이블릿 계수의 유클리드 거리(Euclidean distance), 쿨백-라이블러 발산(Kullback-Leibler divergence) 방식 등을 사용하여, 목표화자와 다중화자 각각의 스펙트럼 파라미터에 대한 유사도를 산출할 수 있다.
산출된 유사도는 제1유사화자 확인부(63)에 제공될 수 있으며, 제1유사화자 확인부(63)는 유사도를 사용하여, 목표화자의 제1음성특성(예, 스펙트럼 파라미터)과 유사한 특성을 갖는 다중화자의 음성 신호를 검출할 수 있다. 예컨대, 제1유사화자 확인부(63)는 다중화자의 제1음성특성(예, 스펙트럼 파라미터)에 대한 유사도가 미리 정해진 임계값 이상일 경우, 대응되는 다중화자를 유사화자로 결정할 수 있다. 그리고, 제1유사화자 확인부(63)는 결정된 유사화자에 대한 인덱스 정보를 출력할 수 있다.
제2음성특성의 구간 분할부(64)는 목표화자 음성특성 추출부(54)로부터 목표화자의 제2음성특성(예, F0 파라미터)을 입력받고, 다중화자 음성특성 추출부(61)로부터 다중화자의 제2음성특성(예, F0 파라미터)을 입력받을 수 있다.
또한, 제2음성특성의 구간 분할부(64)는 전술한 특징 벡터 추출부(53)로부터 목표화자의 특징 벡터와 다중화자의 특징 벡터를 입력받을 수 있다.
문장이 같더라도 화자마다 발화 속도가 다르며 그에 따라 음성 신호의 길이 또한 각각 다르게 나타날 수 있다. 따라서, 목표화자의 제2음성특성(예, F0 파라미터)에 대한 특징 벡터와, 다중화자의 제2음성특성(예, F0 파라미터)에 대한 특징 벡터 사이의 유사도를 확인하기 위해서는, 시간적 정렬을 통해 전체 문장의 길이가 같아지도록 설정할 필요가 있다. 이를 위해, 제2음성특성의 구간 분할부(64)는 목표화자의 특징 벡터와 다중화자의 특징 벡터에 기초하여, 목표화자의 제2음성특성(예, F0 파라미터)과 다중화자의 제2음성특성(예, F0 파라미터)의 시간을 정렬하고, 목표화자의 제2음성특성(예, F0 파라미터)과 다중화자의 제2음성특성(예, F0 파라미터)을 동일한 시간단위를 기준으로 분할을 수행한다.
제2유사도 측정부(65)는 목표화자의 목표화자의 제2음성특성(예, F0 파라미터)과 다중화자의 제2음성특성(예, F0 파라미터) 사이의 유사도를 확인한다. 예컨대, 제2유사도 측정부(65)는 K-평균 군집분석(K-means clustering), 기본 주파수로부터 추출한 웨이블릿 계수의 유클리드 거리(Euclidean distance), 쿨백-라이블러 발산(Kullback-Leibler divergence) 방식 등을 사용하여 목표화자의 제2음성특성(예, F0 파라미터)과 다중화자의 제2음성특성(예, F0 파라미터) 사이의 유사도를 산출할 수 있다.
제2유사화자 확인부(66)는 제2유사도 측정부(65)에서 확인된 유사도를 기반으로, 목표화자의 제2음성특성(예, F0 파라미터)와 유사한 제2음성특성(예, F0 파라미터)을 구비하는 다중화자를 확인하고, 확인된 다중화자를 유사화자로서 선택할 수 있다. 본 개시의 다른 실시예에서, 전술한 바와 같이 선택된 다중화자 음성 신호는 유사화자 음성 신호로 정의할 수 있다.
도 7은 도 6의 제2음성특성의 구간 분할부(64)가 음성 신호에 대한 시간적 정렬을 처리하는 동작을 예시하는 도면이다.
제2음성특성의 구간 분할부(64)는 전술한 목표화자 음성특성 추출부(54)로부터 제공받은 목표화자의 제2음성특성(예, F0 파라미터)과, 특징 벡터 추출부(53)로부터 제공받은 특징 벡터를 확인한다(71).
그리고, 제2음성특성의 구간 분할부(64)는 다중화자 음성특성 추출부(61)로부터 제공받은 다중화자의 제2음성특성(예, F0 파라미터)과 특징 벡터 추출부(53)로부터 제공받은 특징 벡터를 확인한다(72).
제2음성특성의 구간 분할부(64)는 입력받은 특징 벡터에 기초하여 목표화자의 제2음성특성(예, F0 파라미터)과 다중화자의 제2음성특성(예, F0 파라미터)에 대한 시간적 정렬을 처리할 수 있다(73). 구체적으로, 제2음성특성의 구간 분할부(64)는 전술한 바와 같이 산출된 특징 벡터 사용하여, 동적 시간 워핑(dynamic time warping; DTW) 알고리즘을 적용하여 목표화자와 다중화자의 제2음성특성(예, F0 파라미터)에 대해 시간적 정렬을 수행한다.
그 다음, 제2음성특성의 구간 분할부(64)는 음성 파라미터를 음소나 단어 등 과 같이, 문장의 하위 구성요소를 이루는 언어 정보 단위로 목표화자와 다중화자의 제2음성특성(예, F0 파라미터)을 각각 분할할 수 있다(75, 76).
도 8은 도 5에 구비된 음성 파라미터 모델 훈련부(57)가 목표화자와 다중화자의 음성특성을 사용한 신경망 모델을 예시하는 도면이다.
음성 파라미터 모델 훈련부(57)는 제1음성특성 훈련부(81) 및 제2음성특성 훈련부(85)를 구비할 수 있다.
제1음성특성 훈련부(81)는 입력층(81a), 은닉층(81b), 및 출력층(81c)을 구비할 수 있다. 입력층(81a)에는 컨텍스트 정보(810)가 입력될 수 있고, 출력층(81c)에는 목표화자와 유사화자의 제1음성특성(예, 스펙트럼 파라미터)(811, 815)이 입력될 수 있다. 이에 따라, 제1음성특성 훈련부(81)는 입력층(81a)의 컨텍스트 정보(800)와 출력층(81c)의 목표화자와 유사화자의 제1음성특성(예, 스펙트럼 파라미터)(811, 815) 사이의 관계를 매핑하는 학습을 수행하여, 제1음성특성에 대한 심층 신경망을 구성할 수 있다.
그리고, 제2음성특성 훈련부(85)는 입력층(85a), 은닉층(85b), 및 출력층(85c)을 구비할 수 있다. 입력층(85a)에는 컨텍스트 정보(850)가 입력될 수 있고, 출력층(85c)에는 목표화자와 유사화자의 제2음성특성(예, F0 파라미터)(851, 855)이 입력될 수 있다. 이에 따라, 제2음성특성 훈련부(85)는 입력층(85a)의 컨텍스트 정보(850)와 출력층(85c)의 목표화자와 유사화자의 제2음성특성(예, F0 파라미터)(851, 855) 사이의 관계를 매핑하는 학습을 수행하여, 제2음성특성에 대한 심층 신경망을 구성할 수 있다.
이와 같이, 음성 파라미터 모델 훈련부(57)가 제1음성특성 훈련부(81) 및 제2음성특성 훈련부(85)를 통해 제1음성특성(예, 스펙트럼 파라미터)과 제2음성특성(예, F0 파라미터)에 대한 학습을 수행하여 심층 신경망을 구성함으로써, 통계적 모델의 훈련 정확도를 향상시킬 수 있다. 또한, 다중화자 중, 목표화자와 유사한 음성 특성을 갖는 유사화자를 선정하고, 유사화자의 음성 특성을 사용하여 학습을 수행하여 심층 신경망을 구성함으로써, 목표화자의 데이터가 상대적으로 적게 존재하더라도, 유사화자의 데이터를 이용하여 보다 정확한 심층 신경망 모델을 구성할 수 있다.
나아가, 유사화자의 제2음성특성 학습시, 목표화자의 제2음성특성과의 유사도에 기초한 가중치가 반영함으로써, 목표화자의 음성 신호가 구비하는 특성에 더욱 가깝게 학습을 진행할 수 있다.
나아가, 전술한 음성 파라미터 모델 훈련부(57)는 신경망 적응부(57')를 더 포함할 수 있다. 전술한 음성 파라미터 모델 훈련부(57)는 전술한 바와 같이, 목표화자와 유사화자의 음성 특성(예, 스펙트럼 파라미터, F0 파라미터 등)을 사용하여 심층 신경망 모델(이하, '제1차 심층 신경망 모델'이라 함)을 구성할 수 있는데, 상기 신경망 적응부(57')는 제1차 심층 신경망 모델에 추가적으로 목표화자의 제1음성특성 및 제2음성특성에 대한 학습을 더 수행함으로써, 목표화자에 좀 더 최적화된 심층 신경망 모델(이하, '제2차 심층 신경망 모델'이라 함)을 구성할 수 있다.
도 9a 및 도 9b는 본 개시의 다른 실시예에 따른 음성 신호 훈련 장치에 구비되는 신경망 적응부의 구성을 예시하는 도면이다.
도 9a를 참조하면, 신경망 적응부(90)는 제1음성특성 적응부(91) 및 제2음성특성 적응부(92)를 구비할 수 있다.
제1음성특성 적응부(91)는 입력층(91a), 은닉층(91b), 및 출력층(91c)을 구비할 수 있다. 입력층(91a)에는 컨텍스트 정보(910)가 입력될 수 있고, 출력층(91c)에는 목표화자의 제1음성특성(예, 스펙트럼 파라미터)(911)이 입력될 수 있다. 이에 따라, 제1음성특성 적응부(91)는 입력층(91a)의 컨텍스트 정보(910)와 출력층(91c)의 목표화자의 제1음성특성(예, 스펙트럼 파라미터)(911) 사이의 관계를 매핑하는 학습을 수행하여, 제1음성특성에 대한 제2차 심층 신경망 모델을 구성할 수 있다.
그리고, 제2음성특성 적응부(92)는 입력층(92a), 은닉층(92b), 및 출력층(92c)을 구비할 수 있다. 입력층(92a)에는 컨텍스트 정보(920)가 입력될 수 있고, 출력층(92c)에는 목표화자의 제2음성특성(예, F0 파라미터)(921)이 입력될 수 있다. 이에 따라, 제2음성특성 적응부(92)는 입력층(92a)의 컨텍스트 정보(920)와 출력층(92c)의 목표화자와 유사화자의 제2음성특성(예, F0 파라미터)(921) 사이의 관계를 매핑하는 학습을 수행하여, 제2음성특성에 대한 제2차 심층 신경망 모델을 구성할 수 있다.
다른 예로서, 도 9b를 참조하면, 신경망 적응부(90')는 공통 입력층(95), 은닉층(96), 및 개별 출력층(99a, 99b)을 구비할 수 있다. 공통 입력층(95)에는 컨텍스트 정보(950)가 입력될 수 있으며, 개별 출력층(99a, 99b)에는 각각 목표화자의 제1음성특성(예, 스펙트럼 파라미터)(951)과, 목표화자의 제2음성특성(예, F0 파라미터)(955)이 각각 입력될 수 있다.
그리고, 은닉층(96)은 개별 은닉층(97a, 97b)을 구비할 수 있는데, 이 개별 은닉층(97a, 97b)은 각각 목표화자의 제1음성특성(예, 스펙트럼 파라미터)(951)과, 목표화자의 제2음성특성(예, F0 파라미터)(955)에 연결되어 네트워크를 구성할 수 있다. 나아가, 은닉층(96)은 적어도 하나의 공통 은닉층(98)을 구비할 수 있는데, 상기 공통 은닉층(98)은 컨텍스트 정보(950)와 목표화자의 제1 및 제2음성특성(예, 스펙트럼 파라미터, F0 파라미터)(951, 955) 사이의 공통되는 네트워크 노드를 포함하도록 구비될 수 있다.
도 10은 본 개시의 다른 실시예에 따른 음성 신호 합성 장치의 구성을 도시하는 블록도이다.
본 개시의 다른 실시예에 따른 음성 신호 합성 장치는 전술한 본 개시의 일 실시예에 따른 음성 신호 훈련 장치(50)를 구비한다. 도 10에서, 전술한 도 5의 음성 신호 훈련 장치(50)와 동일한 구성에 대해서는 동일한 도면 식별번호를 부여하며, 이와 관련된 구체적인 설명은 도 5 및 이에 대한 설명을 참조한다.
음성 신호 훈련 장치(50)는 목표화자의 음성 신호로부터 검출된 음성 파라미터와, 다중화자의 음성 신호로부터 선택된 유사화자의 음성 신호를 기반으로 산출된 제1 및 제2음성 특성을 사용하여, 음성 파라미터와 텍스트와의 관계에 대한 모델을 훈련한다. 이와 같이 훈련된 데이터, 즉, 음성 파라미터와 텍스트와의 관계에 대한 맵핑정보는 심층 신경망 모델 DB(58)에 저장 및 관리될 수 있다.
음성 신호 합성 장치는 음상 파라미터 생성부(101) 및 음성 합성부(103)를 구비한다.
음상 파라미터 생성부(101)는 심층 신경망 모델 DB(58)에 저장된 데이터, 즉 음성 파라미터와 텍스트와의 관계에 대한 맵핑정보에 기초하여, 입력 텍스트에 대응되는 음성 파라미터를 생성한다. 그리고, 음성 합성부(103)는 생성된 음성 파라미터를 반영하여 상기 입력 텍스트에 대응되는 합성 음성 신호를 생성한다.
도 11는 본 개시의 일 실시예에 따른 음성 신호 훈련 방법의 순서를 도시하는 흐름도이다.
본 개시의 일 실시예에 따른 음성 신호 훈련 방법은 전술한 음성 신호 훈련 장치에 의해 수행될 수 있다.
우선, 목표 화자의 음성 신호는 언어의 음성체계에서 단어의 의미를 구별 짓는 최소의 소리 단위인 음소 단위, 하나의 종합된 음의 느낌을 주는 말소리의 단위인 음절 단위, 분리하여 자립적으로 쓸 수 있는 말의 단위인 단어 단위 등으로 구분될 수 있다.
동일한 단위로 구성된 텍스트의 음성 신호라도, 대화 방법, 감정 상태, 문장 구성에 따라 다양한 신호 패턴을 보일 수 있다. 따라서, 동일한 단위로 구성된 텍스트의 음성 신호는 다양한 패턴의 음성 신호로 구성될 수 있다. 목표 화자의 음성 신호에 대해서, 이러한 다양한 패턴 각각에 대한 훈련을 수행하기 위해서는, 상당히 많은 량의 목표 화자의 음성 신호에 대한 데이터가 요구된다. 목표 화자의 음성 신호에 대한 데이터를 확보하기 어려우므로, 본 개시의 실시예에서는 다중 화자의 음성신호에 대한 데이터를 이용하여 다양한 패턴을 반영하여 훈련을 수행할 수 있는 방법을 제시한다.
나아가, 다중 화자의 음성신호에 대한 데이터를 이용하여 훈련을 수행할 경우, 목표화자에 대한 다양한 패턴의 특성이 나타나야 하지만, 훈련 또는 학습 알고리즘의 특성 상, 훈련된 음성 신호가 과도하게 평활화(over-smoothing)되어 목표화자에 대한 다양한 패턴의 특성이 제대로 표현되지 않고 생동감(lively)이 저하되는 문제가 발생될 수 있다.
이러한 문제를 해결하기 위하여, 본 개시의 일 실시예에 따른 음성 신호 훈련 방법은 다중 화자 음성 데이터베이스에 저장된 다중 화자의 음성 신호 중, 학습을 수행하고자 하는 목표 화자의 음성 신호, 즉 학습 대상 음성 신호와 유사한 특성을 구비하는 음성신호를 선택하여 훈련 또는 학습을 수행하도록 한다.
이를 위해, S1101 단계에서, 음성 신호 훈련 장치는 목표 화자 음성 신호를 저장하고 있는 목표 화자 음성 데이터베이스로부터 학습 대상 음성 신호에 대한 음성 파라미터를 추출한다.
나아가, 학습 대상 음성 신호는 음소, 음절, 단어 등의 단위에 대한 음성 신호를 포함할 수 있다.
S1102 단계에서, 음성 신호 훈련 장치는 복수의 사용자에 대한 음성 신호를 저장하는 다중 화자 음성 데이터베이스로부터, 상기 학습 대상 음성 신호에 대응되는 적어도 하나의 유사화자 음성 신호를 검출한다.
구체적으로, 음성 신호 훈련 장치는 목표 화자 음성 데이터베이스에 저장된 목표 화자 음성 신호와, 다중 화자 음성 데이터베이스에 저장된 다중 화자 음성 신호에 대한 음성 파라미터(예, 여기 파라미터)를 산출하고, 각각의 음성 파라미터(예, 여기 파라미터)에 대한 특징 벡터를 확인한다.
그리고, 음성 신호 훈련 장치는 목표 화자 음성 신호에 대한 특징 벡터와, 다중 화자 음성 신호에 대한 특징 벡터 사이의 유사도를 확인한다. 예컨대, 음성 신호 훈련 장치는 K-평균 군집분석(K-means clustering), 기본 주파수로부터 추출한 웨이블릿 계수의 유클리드 거리(Euclidean distance), 쿨백-라이블러 발산(Kullback-Leibler divergence) 방식 등을 사용하여 목표 화자 음성 신호에 대한 특징 벡터와, 다중 화자 음성 신호에 대한 특징 벡터 사이의 유사도를 산출할 수 있다.
다음으로, 음성 신호 훈련 장치는 목표 화자 음성 신호에 대한 특징 벡터와, 다중 화자 음성 신호에 대한 특징 벡터 사이의 유사도를 기반으로, 목표 화자 음성 신호와 유사한 다중 화자 음성 신호를 선택할 수 있다. 본 개시의 일 실시예에서, 전술한 바와 같이 선택된 다중 화자 음성 신호는 유사화자 음성 신호로 정의할 수 있다.
문장이 같더라도 화자마다 발화 속도가 다르며 그에 따라 음소, 음절, 단어 단위로 구성된 음성 신호의 길이 또한 각각 다르게 나타날 수 있다. 따라서, 목표 화자 음성 신호에 대한 특징 벡터와, 다중 화자 음성 신호에 대한 특징 벡터 사이의 유사도를 확인하기 위해서는, 음성 신호들의 시간적 정렬을 통해 전체 문장의 길이가 같아지도록 설정할 필요가 있다. 이를 위해, 목표 화자 음성 신호에 대한 특징 벡터와, 다중 화자 음성 신호에 대한 특징 벡터 사이의 유사도를 산출하기에 앞서, 음성 신호 훈련 장치는 유사도 산출의 대상이 되는 음성 신호에 대한 시간적 정렬을 처리할 수 있다.
구체적으로, 음성 신호 훈련 장치는 목표 화자 음성 신호로부터 음성 파라미터(예, 여기 파라미터)와, 이에 대응되는 특징 벡터를 확인한다. 그리고, 음성 신호 훈련 장치는 다중 화자 음성 신호로부터 음성 파라미터(예, 여기 파라미터)와, 이에 대응되는 특징 벡터를 확인한다.
음성 신호 훈련 장치는 목표 화자 음성 신호와 다중 화자 음성 신호로부터 특징 벡터를 확인한 후, 확인된 특징 벡터에 기초하여 음성 파라미터(예, 여기 파라미터)에 대한 시간적 정렬을 처리할 수 있다.
일 실시예로서, 음성 신호 훈련 장치는 목표 화자 음성 신호와 다중 화자 음성 신호로부터 산출된 음성 파라미터(예, 여기 파라미터)에 대해, 멜-주파수 켑스트럼 계수(mel-frequency cepstral coefficient; MFCC), 1~4차 포먼트(F1~F4), 선 스펙트럼 주파수(line spectral frequency;LSF) 등의 특징 벡터를 확인할 수 있다. 그리고, 음성 신호 훈련 장치는 전술한 바와 같이 확인된 특징 벡터 사용하여, 동적 시간 워핑(dynamic time warping; DTW) 알고리즘을 적용하여 목표 화자 음성 신호와 다중 화자 음성 신호로부터 확인된 음성 파라미터(예, 여기 파라미터)에 대해 시간적 정렬을 수행한다.
그 다음, 음성 신호 훈련 장치는 음성 파라미터(예, 여기 파라미터)를 음소, 음절, 단어 등과 같이, 문장의 하위 구성요소를 이루는 언어 정보 단위로 목표 화자 음성 신호와 다중 화자 음성 신호로부터 확인된 음성 파라미터(예, 여기 파라미터)를 분할할 수 있다.
한편, S1103 단계에서, 음성 신호 훈련 장치는 S1102 단계에서 유사화자 음성 신호를 결정하는 과정에서 확인된 정보를 사용하여 보조 음성 특징 벡터를 확인할 수 있다. 예를 들어, 음성 신호 훈련 장치는 유사화자 음성 신호에 대한 음성 파라미터(예, 여기(excitation) 파라미터)에 기초한 보조 음성 특징을 확인할 수 있다. 즉, 음성 신호 훈련 장치는 유사화자 음성 신호와 목표 화자의 음성 신호에 대한 음성 파라미터(예, 여기 파라미터)의 유사도에 따른 가중치를 유사화자의 음성 파라미터에 반영하여 보조 음성 특성 벡터를 생성할 수 있다.
다음으로, S1104 단계에서, 음성 신호 훈련 장치는 목표 화자의 음성 신호로부터 검출된 음성 파라미터와, 유사화자의 음성 신호를 기반으로 산출된 상기 보조 음성 특성 벡터를 이용하여, 상기 음성 파라미터와 텍스트와의 관계에 대한 모델을 훈련한 후, 상기 음성 파라미터와 텍스트와의 관계에 대한 맵핑정보를 음성 파라미터 모델 DB에 저장할 수 있다.
도 12는 본 개시의 일 실시예에 따른 음성 신호 합성 방법의 순서를 도시하는 흐름도이다.
본 개시의 일 실시예에 따른 음성 신호 합성 방법은 전술한 음성 신호 합성 장치에 의해 수행될 수 있다.
음성 신호 합성 방법은 기본적으로 음성 신호 훈련 방법의 과정(S1201, S1202, S1203, S1204)을 포함할 수 있으며, 이러한 음성 신호 훈련 방법의 진행 과정(S1201, S1202, S1203, S1204)의 구체적인 동작은 도 11 및 이와 관련된 설명에서 기술한 진행 과정(S1101, S1102, S1103, S1104)을 참조한다.
우선, 음성 신호 합성 장치는 목표 화자의 음성 신호로부터 검출된 음성 파라미터와, 다중 화자의 음성 신호로부터 선택된 유사화자의 음성 신호를 기반으로 산출된 보조 특징 벡터를 사용하여, 음성 파라미터와 텍스트와의 관계에 대한 모델을 훈련한다. 이와 같이 훈련된 데이터, 즉, 음성 파라미터와 텍스트와의 관계에 대한 맵핑정보는 음성 파라미터 모델 DB에 저장 및 관리될 수 있다.
이러한 환경에서, 음성 합성을 위한 텍스트를 입력받을 경우(S1205-예), 음성 신호 합성 장치는 상기 음성 파라미터 모델 DB에 저장된 데이터, 즉 음성 파라미터와 텍스트와의 관계에 대한 맵핑정보에 기초하여, 입력 텍스트에 대응되는 음성 파라미터를 생성한다(S1206). 그리고, 음성 신호 합성 장치는 상기 생성된 음성 파라미터를 반영하여 상기 입력 텍스트에 대응되는 합성 음성 신호를 생성한다(S1207).
도 13은 본 개시의 다른 실시예에 따른 음성 신호 훈련 방법의 순서를 도시하는 흐름도이다.
본 개시의 다른 실시예에 따른 음성 신호 훈련 방법은 전술한 본 개시의 다른 실시예에 따른 음성 신호 훈련 장치에 의해 수행될 수 있다.
목표화자의 음성 신호는 언어의 음성체계에서 단어의 의미를 구별 짓는 최소의 소리 단위인 음소 단위로 구분될 수 있는데, 대화 방법, 감정 상태, 문장 구성에 따라 다양한 패턴을 보이므로, 동일한 음소 단위의 음성 신호라 하더라도, 대화 방법, 감정 상태, 문장 구성에 대응되는 다양한 패턴의 음성신호가 나타날 수 있다. 목표화자의 음성 신호에 대해서, 이러한 다양한 패턴 각각에 대한 훈련을 수행하기 위해서는, 상당히 많은 량의 목표화자의 음성 신호에 대한 데이터가 요구된다. 목표화자의 음성 신호에 대한 데이터를 확보하기 어려우므로, 다중화자의 음성신호에 대한 데이터를 이용하여 다양한 패턴을 반영할 수 있는 훈련을 실현하고자 한다.
나아가, 다중화자의 음성신호에 대한 데이터를 이용하여 훈련을 수행할 경우, 목표화자에 대한 다양한 패턴의 특성이 나타나야 하지만, 훈련 또는 학습 알고리즘의 특성 상, 훈련된 음성 신호가 과도하게 평활화(over-smoothing)되어 목표화자에 대한 다양한 패턴의 특성이 제대로 표현되지 않고 생동감(lively)이 저하되는 문제가 발생될 수 있다.
이러한 문제를 해결하기 위하여, 본 개시의 다른 실시예에 따른 음성 신호 훈련 장치는 다중화자 음성 데이터베이스에 저장된 다중화자의 음성 신호 중, 학습을 수행하고자 하는 목표화자의 음성 신호, 즉 학습 대상 음성 신호와 유사한 특성을 구비하는 음성신호를 선택하여 훈련 또는 학습을 수행하도록 한다.
이에 기초하여, 음성 신호 훈련 방법은 목표화자의 음성 신호에 대한 음성 특성을 검출하는 단계(S1310)와, 다중화자로부터 선택된 유사화자의 음성 신호에 대한 음성 특성을 검출하는 단계(S1320)를 포함할 수 있다.
S1310 단계에서, 음성 신호 훈련 장치는 목표화자 음성 데이터베이스로부터 학습 대상 음성 신호에 대한 음성 파라미터를 추출할 수 있다. 화자의 음성 신호에는 다양한 음성 파라미터가 구비될 수 있으며, 이에 기초하여 음성 신호 훈련 장치는 화자의 음성 신호를 훈련하는데 요구되는 다양한 음성 파라미터를 추출할 수 있다. 특히, 음성 신호 훈련 장치는 목표화자의 음성 신호의 스펙트럼 특성을 나타내는 파라미터(예, 스펙트럼 파라미터)와, 목표화자의 음성 신호의 기본 주파수 특성을 나타내는 파라미터(예, F0 파라미터)를 추출할 수 있다.
S1320 단계는 기본 주파수 특성을 나타내는 파라미터의 시간격 정렬을 위한 특징 벡터를 추출하는 단계를 포함할 수 있다(S1321). S1321 단계에서, 음성 신호 훈련 장치는 목표화자의 음성신호와 다중화자의 음성신호에 대한 멜-주파수 켑스트럼 계수(mel-frequency cepstral coefficient; MFCC), 1~4차 포먼트(F1~F4), 선 스펙트럼 주파수(line spectral frequency; LSF) 등을 검출함으로써, 시간격 정렬에 필요한 특징 벡터를 산출할 수 있다.
S1320 단계는 다중화자 음성 데이터베이스로부터 학습 대상 음성 신호에 대한 음성 파라미터를 추출하는 단계(S1322)를 포함할 수 있다. 예컨대, S1322 단계에서, 음성 신호 훈련 장치는 다중화자의 음성 신호를 저장하는 데이터베이스로부터 다중화자의 음성 신호를 확인하고, 다중화자의 음성 신호의 스펙트럼 특성을 나타내는 파라미터(예, 스펙트럼 파라미터)와, 다중화자의 음성 신호의 기본 주파수 특성을 나타내는 파라미터(예, F0 파라미터)를 추출할 수 있다.
S1323 단계에서, 음성 신호 훈련 장치는 다중화자의 음성 신호의 스펙트럼 특성을 나타내는 파라미터(예, 스펙트럼 파라미터)와, 다중화자의 음성 신호의 기본 주파수 특성을 나타내는 파라미터(예, F0 파라미터)를 사용하여, 목표화자의 음성 신호에 대응되는 적어도 하나의 유사화자 음성 신호를 선택할 수 있다. 구체적으로, 음성 신호 훈련 장치는 다중화자의 음성 데이터베이스(14)에 포함된 적어도 하나의 음성 신호를 음소, 음절(syllable), 단어(word) 등 문장의 부분적 단위로 분할하고, 분할된 단위를 기준으로 하여 학습 대상 음성 신호와의 유사도를 측정하고, 유사도가 높은 음성 신호를 유사화자 음성 신호로서 선정할 수 있다.
S1324 단계에서, 음성 신호 훈련 장치는 유사화자로 결정된 음성 신호에 대한 음성 특성, 예 스펙트럼 특성을 나타내는 파라미터(예, 스펙트럼 파라미터)와, 기본 주파수 특성을 나타내는 파라미터(예, F0 파라미터)를 확인할 수 있다. 즉, S1322 단계에서 검출된 다중화자의 음성 특성을 참조하여, 유사화자에 대응되는 음성 특성을 확인할 수 있다.
이하, 전술한 유사화자 음성 신호를 선택하는 단계(S1323)의 구체적인 동작을 설명한다.
음성 신호 훈련 장치는 목표화자의 제1음성특성(예, 스펙트럼 파라미터)과 다중화자의 제1음성특성(예, 스펙트럼 파라미터)을 입력받을 수 있으며, 목표화자의 제1음성특성(예, 스펙트럼 파라미터)을 기준으로, 다중화자의 제1음성특성(예, 스펙트럼 파라미터)의 유사도를 측정할 수 있다. 예컨대, 음성 신호 훈련 장치는 목표화자와 다중화자 각각의 스펙트럼 파라미터에 대한 특징 벡터를 확인하고, 확인된 특징 벡터들 사이의 유사도를 산출할 수 있다. 음성 신호 훈련 장치는 K-평균 군집분석(K-means clustering), 기본 주파수로부터 추출한 웨이블릿 계수의 유클리드 거리(Euclidean distance), 쿨백-라이블러 발산(Kullback-Leibler divergence) 방식 등을 사용하여 확인된 특징 벡터들 사이의 유사도를 산출할 수 있다.
산출된 유사도를 사용하여, 목표화자의 제1음성특성(예, 스펙트럼 파라미터)과 유사한 특성을 갖는 다중화자의 음성 신호를 검출할 수 있다. 예컨대, 음성 신호 훈련 장치는 다중화자의 제1음성특성(예, 스펙트럼 파라미터)에 대한 유사도가 미리 정해진 임계값 이상일 경우, 대응되는 다중화자를 유사화자로 결정할 수 있다. 그리고, 음성 신호 훈련 장치는 결정된 유사화자에 대한 인덱스 정보를 출력할 수 있다.
또한, 음성 신호 훈련 장치는 목표화자의 제2음성특성(예, F0 파라미터)과 다중화자의 제2음성특성(예, F0 파라미터)을 확인하고, S1321 단계에서 확인된 특징 벡터를 참조하여, 목표화자의 제2음성특성(예, F0 파라미터)과 다중화자의 제2음성특성(예, F0 파라미터) 각각에 대응되는 특징 벡터를 확인할 수 있다. 그리고, 음성 신호 훈련 장치는 목표화자의 제2음성특성에 대한 특징 벡터와, 다중화자 제2음성특성에 대한 특징 벡터를 사용하여, 목표화자의 제2음성특성(예, F0 파라미터)과 다중화자의 제2음성특성(예, F0 파라미터)에 대한 시전격 정렬을 수행한 후, 정렬된 음성 특성들 사이의 유사도를 확인한다. 예컨대, 음성 신호 훈련 장치는 K-평균 군집분석(K-means clustering), 기본 주파수로부터 추출한 웨이블릿 계수의 유클리드 거리(Euclidean distance), 쿨백-라이블러 발산(Kullback-Leibler divergence) 방식 등을 사용하여 시간격 정렬된 목표화자의 제2음성특성(예, F0 파라미터)과 다중화자의 제2음성특성(예, F0 파라미터) 사이의 유사도를 산출할 수 있다.
음성 신호 훈련 장치는 확인된 유사도를 기반으로, 목표화자의 제2음성특성(예, F0 파라미터)와 유사한 특징 벡터를 구비하는 다중화자를 확인하고, 확인된 다중화자를 유사화자로서 선택할 수 있다. 본 개시의 실시예에서, 전술한 바와 같이 선택된 다중화자 음성 신호는 유사화자 음성 신호로 정의할 수 있다.
문장이 같더라도 화자마다 발화 속도가 다르며 그에 따라 음성 신호의 길이 또한 각각 다르게 나타날 수 있다. 따라서, 목표화자의 제2음성특성(예, F0 파라미터)과 다중화자의 제2음성특성(예, F0 파라미터) 사이의 유사도를 확인하기 위해서는, 시간적 정렬을 통해 음성 신호의 길이가 같아지도록 설정할 필요가 있다. 이를 위해, 음성 신호 훈련 장치는 목표화자의 음성 신호와 특징 벡터와, 다중화자의 음성신호에 대한 특징 벡터를 사용하여, 유사도 산출의 대상이 되는 음성 신호에 대한 시간적 정렬을 처리할 수 있다.
이하, 음성 신호 훈련 장치가 유사도 산출의 대상이 되는 음성 신호에 대한 시간적 정렬을 처리하는 동작을 상세히 설명한다.
우선, 음성 신호 훈련 장치는 목표화자의 제2음성특성(예, F0 파라미터)의 시간격 정렬에 필요한 특징 벡터와, 다중화자의 제2음성특성(예, F0 파라미터)의 시간격 정렬에 필요한 특징 벡터를 각각 추출한다.
일 실시예로서, 음성 신호 훈련 장치는 목표화자와 다중화자의 데이터베이스 내 음성 신호로부터 시간격 정렬에 필요한 특징 벡터를 추출하기 위하여, 목표화자와 다중화자의 데이터베이스 내 음성 신호로부터 멜-주파수 켑스트럼 계수(mel-frequency cepstral coefficient; MFCC), 1~4차 포먼트(F1~F4), 선 스펙트럼 주파수(line spectral frequency; LSF) 등의 특징 벡터를 산출할 수 있다.
음성 신호 훈련 장치는 산출된 특징 벡터를 기준으로, 목표화자의 제2음성특성(예, F0 파라미터)과 다중화자의 제2음성특성(예, F0 파라미터)에 대한 시간적 정렬을 처리할 수 있다. 즉, 음성 신호 훈련 장치는 전술한 바와 같이 산출된 특징 벡터 사용하여, 동적 시간 워핑(dynamic time warping; DTW) 알고리즘을 적용하여 목표화자와 다중화자의 제2음성특성(예, F0 파라미터)에 대해 시간적 정렬을 수행한다.
그 다음, 음성 신호 훈련 장치는 음성 파라미터를 음소나 단어 등과 같이, 문장의 하위 구성요소를 이루는 언어 정보 단위로 목표화자와 다중화자의 제2음성특성(예, F0 파라미터)을 각각 분할할 수 있다. 그리고, 음성 신호 훈련 장치는 분할된 단위에 대한 유사도를 산출할 수 있도록, 분할된 단위의 목표화자의 제2음성특성(예, F0 파라미터)와 다중화자의 제2음성특성(예, F0 파라미터)을 제공할 수 있다.
한편, S1330 단계에서, 음성 신호 훈련 장치는 목표화자 음성 특성과, 유사화자 음성 특성을 사용하여 상기 음성 특성과 텍스트의 관계에 대한 모델을 훈련한 후, 상기 음성특성과 텍스트의 관계에 대한 맵핑정보를 심층 신경망 모델 데이터베이스에 저장할 수 있다.
예컨대, 음성 신호 훈련 장치는 컨텍스트 정보를 고려하여 음소, 음절(syllable), 단어(word) 등으로 분할된 음성 신호를 대상으로, 분할된 음성 신호에 대응되는 목표화자의 제1음성특성(스펙트럼 파라미터)과 유사화자의 제1음성특성(스펙트럼 파라미터) 사이의 관계에 대한 모델을 훈련한다. 마찬가지로, 음성 파라미터 모델 훈련부(57)는 분할된 음성 신호에 대응되는 목표화자의 제2음성특성(F0 파라미터)과 유사화자의 제2음성특성(F0 파라미터 사이의 관계에 대한 모델을 훈련한다.
구체적으로, 도 14을 참조하면, 입력층(81a)에는 컨텍스트 정보(810)가 입력될 수 있고, 출력층(81c)에는 목표화자와 유사화자의 제1음성특성(예, 스펙트럼 파라미터)(811, 815)이 입력될 수 있다. 이에 따라, 음성 신호 훈련 장치는 입력층(81a)의 컨텍스트 정보(800)와 출력층(81c)의 목표화자와 유사화자의 제1음성특성(예, 스펙트럼 파라미터)(811, 815) 사이의 관계를 매핑하는 학습을 수행하여, 제1음성특성에 대한 심층 신경망을 구성할 수 있다.
그리고, 입력층(85a)에는 컨텍스트 정보(850)가 입력될 수 있고, 출력층(85c)에는 목표화자와 유사화자의 제2음성특성(예, F0 파라미터)(851, 855)이 입력될 수 있다. 이에 따라, 음성 신호 훈련 장치는 입력층(85a)의 컨텍스트 정보(850)와 출력층(85c)의 목표화자와 유사화자의 제2음성특성(예, F0 파라미터)(851, 855) 사이의 관계를 매핑하는 학습을 수행하여, 제2음성특성에 대한 심층 신경망을 구성할 수 있다.
이와 같이, 음성 신호 훈련 장치는 제1음성특성(예, 스펙트럼 파라미터)과 제2음성특성(예, F0 파라미터)에 대한 학습을 각각 수행하는 심층 신경망을 구성함으로써, 통계적 모델의 훈련 정확도를 향상시킬 수 있다. 또한, 다중화자 중, 목표화자와 유사한 음성 특성을 갖는 유사화자를 선정하고, 유사화자의 음성 특성을 사용하여 학습을 수행하여 심층 신경망을 구성함으로써, 목표화자의 데이터가 상대적으로 적게 존재하더라도, 유사화자의 데이터를 이용하여 보다 정확한 심층 신경망 모델을 구성할 수 있다.
나아가, 유사화자의 제2음성특성 학습시, 목표화자의 제2음성특성과의 유사도에 기초한 가중치가 반영함으로써, 목표화자의 음성 신호가 구비하는 특성에 더욱 가깝게 학습을 진행할 수 있다.
나아가, S1323 단계에서 유사화자의 음성 신호와, 목표화자의 음성 신호 사이의 유사도가 확인될 수 있는데, S1330 단계에서는 이러한 유사도를 사용하여 음성 파라미터 모델의 훈련을 수행할 수 있다. 예를 들어, 음성 신호 훈련 장치는 유사화자의 음성 신호와, 목표화자의 음성 신호 사이의 유사도를 기반으로, 유사화자의 제1음성특성 또는 제2음성특성에 가중치를 설정하고, 설정된 가중치를 반영하여 유사화자의 제1음성특성 또는 제2음성특성에 대한 학습을 수행할 수 있다.
도 14는 본 개시의 다른 실시예에 따른 음성 신호 합성 방법의 순서를 도시하는 흐름도이다.
본 개시의 다른 실시예에 따른 음성 신호 합성 방법은 전술한 음성 신호 합성 장치에 의해 수행될 수 있다.
도 14에서, 전술한 도 13의 음성 신호 훈련 방법과 동일한 구성에 대해서는 동일한 도면 식별번호를 부여하며, 이와 관련된 구체적인 설명은 도 13 및 이에 대한 설명을 참조한다.
음성 신호 훈련 방법(S1310, S1320, S1330)은 목표화자의 음성 신호로부터 검출된 음성 파라미터와, 다중화자의 음성 신호로부터 선택된 유사화자의 음성 신호를 기반으로 산출된 제1 및 제2음성 특성을 사용하여, 음성 파라미터와 텍스트와의 관계에 대한 모델을 훈련한다. 이와 같이 훈련된 데이터, 즉, 음성 파라미터와 텍스트와의 관계에 대한 맵핑 정보는 심층 신경망 모델 DB에 저장 및 관리될 수 있다.
이러한 환경에서, 음성 합성을 위한 텍스트를 입력받을 경우(S1405-예), 음성 신호 합성 장치는 심층 신경망 모델 DB에 저장된 데이터, 즉 음성 파라미터와 텍스트와의 관계에 대한 맵핑정보에 기초하여, 입력 텍스트에 대응되는 음성 파라미터를 생성한다(S1410).
다음으로, 음성 신호 합성 장치는 생성된 음성 파라미터를 반영하여 상기 입력 텍스트에 대응되는 합성 음성 신호를 생성한다(S1420).
도 15는 본 개시의 다양한 실시예에 따른 음성 신호 훈련 방법/장치 및 음성 신호 합성 방법/장치를 실행하는 컴퓨팅 시스템을 예시하는 블록도이다.
도 15를 참조하면, 컴퓨팅 시스템(1000)은 버스(1200)를 통해 연결되는 적어도 하나의 프로세서(1100), 메모리(1300), 사용자 인터페이스 입력 장치(1400), 사용자 인터페이스 출력 장치(1500), 스토리지(1600), 및 네트워크 인터페이스(1700)를 포함할 수 있다.
프로세서(1100)는 중앙 처리 장치(CPU) 또는 메모리(1300) 및/또는 스토리지(1600)에 저장된 명령어들에 대한 처리를 실행하는 반도체 장치일 수 있다. 메모리(1300) 및 스토리지(1600)는 다양한 종류의 휘발성 또는 불휘발성 저장 매체를 포함할 수 있다. 예를 들어, 메모리(1300)는 ROM(Read Only Memory) 및 RAM(Random Access Memory)을 포함할 수 있다.
따라서, 본 명세서에 개시된 실시예들과 관련하여 설명된 방법 또는 알고리즘의 단계는 프로세서(1100)에 의해 실행되는 하드웨어, 소프트웨어 모듈, 또는 그 2 개의 결합으로 직접 구현될 수 있다. 소프트웨어 모듈은 RAM 메모리, 플래시 메모리, ROM 메모리, EPROM 메모리, EEPROM 메모리, 레지스터, 하드 디스크, 착탈형 디스크, CD-ROM과 같은 저장 매체(즉, 메모리(1300) 및/또는 스토리지(1600))에 상주할 수도 있다. 예시적인 저장 매체는 프로세서(1100)에 커플링되며, 그 프로세서(1100)는 저장 매체로부터 정보를 판독할 수 있고 저장 매체에 정보를 기입할 수 있다. 다른 방법으로, 저장 매체는 프로세서(1100)와 일체형일 수도 있다. 프로세서 및 저장 매체는 주문형 집적회로(ASIC) 내에 상주할 수도 있다. ASIC는 사용자 단말기 내에 상주할 수도 있다. 다른 방법으로, 프로세서 및 저장 매체는 사용자 단말기 내에 개별 컴포넌트로서 상주할 수도 있다.
본 개시의 예시적인 방법들은 설명의 명확성을 위해서 동작의 시리즈로 표현되어 있지만, 이는 단계가 수행되는 순서를 제한하기 위한 것은 아니며, 필요한 경우에는 각각의 단계가 동시에 또는 상이한 순서로 수행될 수도 있다. 본 개시에 따른 방법을 구현하기 위해서, 예시하는 단계에 추가적으로 다른 단계를 포함하거나, 일부의 단계를 제외하고 나머지 단계를 포함하거나, 또는 일부의 단계를 제외하고 추가적인 다른 단계를 포함할 수도 있다.
본 개시의 다양한 실시 예는 모든 가능한 조합을 나열한 것이 아니고 본 개시의 대표적인 양상을 설명하기 위한 것이며, 다양한 실시 예에서 설명하는 사항들은 독립적으로 적용되거나 또는 둘 이상의 조합으로 적용될 수도 있다.
또한, 본 개시의 다양한 실시 예는 하드웨어, 펌웨어(firmware), 소프트웨어, 또는 그들의 결합 등에 의해 구현될 수 있다. 하드웨어에 의한 구현의 경우, 하나 또는 그 이상의 ASICs(Application Specific Integrated Circuits), DSPs(Digital Signal Processors), DSPDs(Digital Signal Processing Devices), PLDs(Programmable Logic Devices), FPGAs(Field Programmable Gate Arrays), 범용 프로세서(general processor), 컨트롤러, 마이크로 컨트롤러, 마이크로 프로세서 등에 의해 구현될 수 있다.
본 개시의 범위는 다양한 실시 예의 방법에 따른 동작이 장치 또는 컴퓨터 상에서 실행되도록 하는 소프트웨어 또는 머신-실행가능한 명령들(예를 들어, 운영체제, 애플리케이션, 펌웨어(firmware), 프로그램 등), 및 이러한 소프트웨어 또는 명령 등이 저장되어 장치 또는 컴퓨터 상에서 실행 가능한 비-일시적 컴퓨터-판독가능 매체(non-transitory computer-readable medium)를 포함한다.

Claims (20)

  1. 음성 신호 훈련 장치에 있어서,
    목표 화자의 음성 신호를 저장하는 목표 화자 음성 데이터베이스와,
    다중 화자의 음성 신호를 저장하는 다중 화자 음성 데이터베이스와,
    상기 목표 화자의 음성 신호로부터, 학습 대상 음성 신호에 대한 음성 파라미터를 추출하는 목표화자 음성 파라미터 추출부와,
    상기 다중 화자의 음성 신호로부터, 적어도 하나의 유사화자 음성 신호를 추출하고, 상기 유사화자 음성 신호에 대한 보조 음성 특성을 확인하는 유사화자 음성 파라미터 확인부와,
    상기 음성 파라미터 및 상기 보조 음성 특성을 사용하여, 상기 음성 파라미터와 텍스트와의 관계에 대한 모델을 훈련하여 음성 파라미터 모델을 결정하고, 상기 음성 파라미터 모델과 상기 텍스트와의 관계에 대한 맵핑정보를 설정하는 음성 파라미터 모델 훈련부를 포함하는 것을 특징으로 하는 음성 신호 훈련 장치.
  2. 제1항에 있어서,
    상기 유사화자 음성 파라미터 확인부는,
    상기 학습 대상 음성 신호와의 유사도를 기반으로 상기 적어도 하나의 유사화자 음성 신호를 추출하는 것을 특징으로 하는 음성 신호 훈련 장치.
  3. 제1항에 있어서,
    상기 유사화자 음성 파라미터 확인부는,
    상기 학습 대상 음성 신호와 상기 다중 화자의 음성 신호와의 유사도를 기반으로 상기 적어도 하나의 유사화자 음성 신호를 결정하는 유사화자 음성 신호 결정부와,
    상기 적어도 하나의 유사화자 음성 신호에 대한 상기 보조 음성 특성을 확인하는 보조 음성 특징 확인부를 포함하는 음성 신호 훈련 장치.
  4. 제3항에 있어서,
    상기 유사화자 음성 신호 결정부는,
    상기 목표 화자의 음성 신호와 상기 다중 화자의 음성 신호에 대한 특성 파라미터의 유사도를 확인하는 유사도 확인부와,
    상기 목표 화자의 음성 신호와 상기 다중 화자의 음성 신호에 대한 상기 특성 파라미터의 유사도를 기반으로, 상기 다중 화자의 음성 신호로부터, 상기 유사화자 음성 신호를 결정하는 상기 유사화자 음성 신호 선택부를 포함하는 음성 신호 훈련 장치.
  5. 제4항에 있어서,
    상기 유사도 확인부는,
    상기 목표 화자의 음성 신호에 대한 상기 특성 파라미터와, 상기 다중 화자의 음성 신호에 대한 상기 특성 파라미터를 산출하고, 상기 목표 화자의 음성 신호에 대한 상기 특성 파라미터와, 상기 다중 화자의 음성 신호에 대한 상기 특성 파라미터에 대한 시간적 정렬을 수행하여 미리 정해진 구간단위로 분할하는 특성 파라미터 구간 분할부를 포함하는 것을 특징으로 하는 음성 신호 훈련 장치.
  6. 제4항에 있어서,
    상기 유사도 확인부는,
    상기 미리 정해진 구간단위로 분할된 상기 목표 화자의 음성 신호에 대한 상기 특성 파라미터와, 상기 미리 정해진 구간단위로 분할된 상기 다중 화자의 음성 신호에 대한 상기 특성 파라미터의 유사도를 측정하는 유사도 측정부를 포함하는 것을 특징으로 하는 음성 신호 훈련 장치.
  7. 제1항에 있어서,
    상기 보조 음성 특성은,
    여기 파라미터를 포함하는 것을 특징으로 하는 음성 신호 훈련 장치.
  8. 제1항에 있어서,
    상기 유사화자 음성 파라미터 확인부는,
    상기 학습 대상 음성 신호에 대한 여기 파라미터와, 상기 다중 화자의 음성 신호에 대한 여기 파라미터를 사용하여, 상기 적어도 하나의 유사화자 음성 신호를 추출하는 것을 특징으로 하는 음성 신호 훈련 장치.
  9. 제2항에 있어서,
    상기 유사화자 음성 파라미터 확인부는,
    상기 학습 대상 음성 신호에 대한 여기 파라미터와, 상기 다중 화자의 음성 신호에 대한 여기 파라미터의 유사도에 기초하여 상기 적어도 하나의 유사화자 음성 신호를 추출하는 것을 특징으로 하는 음성 신호 훈련 장치.
  10. 음성 신호 훈련 방법에 있어서,
    목표 화자의 음성 신호를 저장하는 목표 화자 음성 데이터베이스로부터, 학습 대상 음성 신호에 대한 음성 파라미터를 추출하는 과정과,
    다중 화자의 음성 신호를 저장하는 다중 화자 음성 데이터베이스로부터, 적어도 하나의 선택 화자 음성 신호를 추출하는 과정과,
    상기 선택 화자 음성 신호에 대한 보조 음성 특성을 확인하는 과정과,
    상기 음성 파라미터 및 상기 보조 음성 특성을 사용하여, 상기 음성 파라미터와 텍스트와의 관계에 대한 모델을 훈련하여 음성 파라미터 모델을 결정하고, 상기 음성 파라미터 모델과 상기 텍스트와의 관계에 대한 맵핑정보를 설정하는 과정을 포함하는 음성 신호 훈련 방법.
  11. 음성 신호 훈련 장치에 있어서,
    목표화자의 음성 신호를 저장하는 목표화자 음성 데이터베이스와,
    다중화자의 음성 신호를 저장하는 다중화자 음성 데이터베이스와,
    상기 목표화자의 음성 신호로부터, 상기 목표화자의 제1 및 제2음성 특성을 추출하는 목표화자 음성 파라미터 추출부와,
    상기 다중화자의 음성 신호로부터 상기 다중화자의 제1 및 제2음성 특성을 추출하고, 추출된 상기 다중화자의 제1 및 제2음성 특성과 상기 목표화자의 제1 및 제2음성 특성에 기초하여, 적어도 하나의 유사화자 음성 신호를 선택하는 유사화자 데이터 선택부와,
    상기 유사화자 음성 신호에 대한 상기 제1 및 제2음성 특성을 확인하는 유사화자 음성특성 확인부와,
    상기 목표화자와 유사화자의 상기 제1 및 제2음성 특성을 기반으로, 상기 제1 및 제2음성 특성과 텍스트와의 관계에 대한 모델을 훈련하여 상기 제1 및 제2음성 특성과 상기 텍스트와의 관계에 대한 맵핑 정보를 설정하는 음성 특성 모델 훈련부를 포함하는 것을 특징으로 하는 음성 신호 훈련 장치.
  12. 제11항에 있어서,
    상기 유사화자 데이터 선택부는,
    상기 목표화자의 제1 및 제2음성 특성과 상기 다중화자의 제1 및 제2음성 특성과의 유사도를 기반으로 상기 적어도 하나의 유사화자 음성 신호를 결정하는 것을 특징으로 하는 음성 신호 훈련 장치.
  13. 제11항에 있어서,
    상기 유사화자 데이터 선택부는,
    상기 목표화자의 제1음성 특성과 상기 다중화자의 제1음성 특성 사이의 유사도를 기반으로, 제1유사화자를 확인하는 제1유사화자 결정부와,
    상기 목표화자의 제2음성 특성과 상기 다중화자의 제2음성 특성 사이의 유사도를 기반으로, 제2유사화자를 확인하는 제2유사화자 결정부를 포함하는 하는 음성 신호 훈련 장치.
  14. 제13항에 있어서,
    상기 제1유사화자 결정부는,
    상기 목표화자의 제1음성 특성과 상기 다중화자의 제1음성 특성에 대한 유사도를 확인하는 제1유사도 측정부와,
    상기 목표화자의 제1음성 특성과 상기 다중화자의 제1음성 특성에 대한 유사도를 기반으로, 상기 다중화자의 음성 신호로부터 상기 유사화자 음성 신호를 결정하는 제1유사화자 확인부를 포함하는 음성 신호 훈련 장치.
  15. 제13항에 있어서,
    상기 제2유사화자 결정부는,
    상기 목표화자의 제2음성 특성과 상기 다중화자의 제2음성 특성에 대한 유사도를 확인하는 제2유사도 측정부와,
    상기 목표화자의 제2음성 특성과 상기 다중화자의 제2음성 특성에 대한 유사도를 기반으로, 상기 다중화자의 음성 신호로부터 상기 유사화자 음성 신호를 결정하는 제2유사화자 확인부를 포함하는 음성 신호 훈련 장치.
  16. 제15항에 있어서,
    상기 제2유사화자 결정부는,
    상기 목표화자의 제2음성 특성과 상기 다중화자의 제2음성 특성에 대한 시간적 정렬을 수행하여 미리 정해진 구간단위로 분할하는 제2음성 특성 구간 분할부를 포함하는 것을 특징으로 하는 음성 신호 훈련 장치.
  17. 제12항에 있어서,
    상기 목표화자의 음성 신호에 대한 특징벡터와, 상기 다중화자의 음성 신호에 대한 특징벡터를 추출하고, 추출된 상기 목표화자의 음성 신호에 대한 특징벡터와, 상기 다중화자의 음성 신호에 대한 특징벡터를 상기 유사화자 데이터 선택부에 제공하는 특징벡터 추출부를 더 포함하는 것을 특징으로 하는 음성 신호 훈련 장치.
  18. 제17항에 있어서,
    상기 유사화자 데이터 선택부는,
    상기 목표화자의 음성 신호에 대한 특징벡터와, 상기 다중화자의 음성 신호에 대한 특징벡터를 기준으로, 상기 목표화자의 제2음성 특성과 상기 다중화자의 제2음성 특성의 시간격 정렬을 수행하고, 상기 목표화자의 제2음성 특성과 상기 다중화자의 제2음성 특성의 유사도를 산출하는 것을 특징으로 하는 음성 신호 훈련 장치.
  19. 제11항에 있어서,
    상기 유사화자 음성특성 생성부는,
    상기 목표화자의 상기 제1 및 제2음성 특성과 상기 유사화자 상기 제1 및 제2음성 특성에 대한 유사도에 기초한 가중치를 확인하고, 상기 유사화자 상기 제1 및 제2음성 특성에 상기 가중치를 적용하는 것을 특징으로 하는 음성 신호 훈련 장치.
  20. 음성 합성 장치에 있어서,
    목표 화자의 음성 신호를 저장하는 목표 화자 음성 데이터베이스와,
    다중 화자의 음성 신호를 저장하는 다중 화자 음성 데이터베이스와,
    상기 목표 화자의 음성 신호로부터, 학습 대상 음성 신호에 대한 음성 파라미터를 추출하는 목표화자 음성 파라미터 추출부와,
    상기 다중 화자의 음성 신호로부터, 적어도 하나의 유사화자 음성 신호를 추출하고, 상기 유사화자 음성 신호에 대한 보조 음성 특성을 확인하는 유사화자 음성 파라미터 확인부와,
    상기 음성 파라미터 및 상기 보조 음성 특성을 사용하여, 상기 음성 파라미터와 텍스트와의 관계에 대한 모델을 훈련하여 음성 파라미터 모델을 결정하고, 상기 음성 파라미터 모델과 상기 텍스트와의 관계에 대한 맵핑정보를 설정하는 음성 파라미터 모델 훈련부와,
    상기 음성 파라미터 모델과 텍스트와의 관계에 대한 맵핑정보에 기초하여, 입력 텍스트에 대응되는 음성 파라미터를 확인하고, 상기 음성 파라미터를 반영하여 상기 입력 텍스트에 대응되는 합성 음성 신호를 생성하는 음성 합성부를 포함하는 것을 특징으로 하는 음성 신호 훈련 장치.
KR1020180081395A 2017-07-13 2018-07-13 다중 화자 데이터를 이용한 딥러닝 기반 음성 합성 장치 및 방법 KR20190008137A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US16/035,261 US20190019500A1 (en) 2017-07-13 2018-07-13 Apparatus for deep learning based text-to-speech synthesizing by using multi-speaker data and method for the same

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR1020170088994 2017-07-13
KR20170088994 2017-07-13
KR1020170147101 2017-11-07
KR20170147101 2017-11-07

Publications (1)

Publication Number Publication Date
KR20190008137A true KR20190008137A (ko) 2019-01-23

Family

ID=65323998

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180081395A KR20190008137A (ko) 2017-07-13 2018-07-13 다중 화자 데이터를 이용한 딥러닝 기반 음성 합성 장치 및 방법

Country Status (1)

Country Link
KR (1) KR20190008137A (ko)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102190986B1 (ko) * 2019-07-03 2020-12-15 주식회사 마인즈랩 개별 화자 별 음성 생성 방법
KR102190988B1 (ko) * 2020-11-09 2020-12-15 주식회사 마인즈랩 개별 화자 별 음성 제공 방법 및 컴퓨터 프로그램
KR102190987B1 (ko) * 2020-11-09 2020-12-15 주식회사 마인즈랩 동시 발화 구간에서 개별 화자의 음성을 생성하는 인공 신경망의 학습 방법
KR102190989B1 (ko) * 2020-11-09 2020-12-15 주식회사 마인즈랩 동시 발화 구간에서의 음성 생성 방법
KR20210020774A (ko) * 2019-08-14 2021-02-24 한국전자통신연구원 자동 통역 장치 및 그 방법
WO2021086065A1 (en) * 2019-11-01 2021-05-06 Samsung Electronics Co., Ltd. Electronic device and operating method thereof
CN113611308A (zh) * 2021-09-08 2021-11-05 杭州海康威视数字技术股份有限公司 一种语音识别方法、装置、系统、服务器及存储介质
US11232620B2 (en) 2019-07-25 2022-01-25 Netmarble Corporation Method to create animation
WO2022031060A1 (ko) * 2020-08-04 2022-02-10 한양대학교 산학협력단 인공 신경망을 이용한 다화자 음성 합성 방법 및 장치
WO2022102987A1 (ko) * 2020-11-12 2022-05-19 삼성전자 주식회사 전자 장치 및 그의 제어 방법
WO2022203152A1 (ko) * 2021-03-26 2022-09-29 한양대학교 산학협력단 다화자 훈련 데이터셋에 기초한 음성합성 방법 및 장치
KR20230032358A (ko) * 2021-08-30 2023-03-07 한양대학교 산학협력단 인공 신경망을 이용한 다화자 음성 합성 방법 및 장치
US11620978B2 (en) 2019-08-14 2023-04-04 Electronics And Telecommunications Research Institute Automatic interpretation apparatus and method
US11763799B2 (en) 2020-11-12 2023-09-19 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method thereof

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102190986B1 (ko) * 2019-07-03 2020-12-15 주식회사 마인즈랩 개별 화자 별 음성 생성 방법
US11232620B2 (en) 2019-07-25 2022-01-25 Netmarble Corporation Method to create animation
KR20210020774A (ko) * 2019-08-14 2021-02-24 한국전자통신연구원 자동 통역 장치 및 그 방법
US11620978B2 (en) 2019-08-14 2023-04-04 Electronics And Telecommunications Research Institute Automatic interpretation apparatus and method
US11475878B2 (en) 2019-11-01 2022-10-18 Samsung Electronics Co., Ltd. Electronic device and operating method thereof
WO2021086065A1 (en) * 2019-11-01 2021-05-06 Samsung Electronics Co., Ltd. Electronic device and operating method thereof
WO2022031060A1 (ko) * 2020-08-04 2022-02-10 한양대학교 산학협력단 인공 신경망을 이용한 다화자 음성 합성 방법 및 장치
US11908447B2 (en) 2020-08-04 2024-02-20 Iucf-Hyu (Industry-University Cooperation Foundation Hanyang University) Method and apparatus for synthesizing multi-speaker speech using artificial neural network
KR102190988B1 (ko) * 2020-11-09 2020-12-15 주식회사 마인즈랩 개별 화자 별 음성 제공 방법 및 컴퓨터 프로그램
KR102190987B1 (ko) * 2020-11-09 2020-12-15 주식회사 마인즈랩 동시 발화 구간에서 개별 화자의 음성을 생성하는 인공 신경망의 학습 방법
KR102190989B1 (ko) * 2020-11-09 2020-12-15 주식회사 마인즈랩 동시 발화 구간에서의 음성 생성 방법
WO2022102987A1 (ko) * 2020-11-12 2022-05-19 삼성전자 주식회사 전자 장치 및 그의 제어 방법
US11763799B2 (en) 2020-11-12 2023-09-19 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method thereof
EP4198967A4 (en) * 2020-11-12 2024-01-24 Samsung Electronics Co Ltd ELECTRONIC DEVICE AND CONTROL METHOD THEREOF
WO2022203152A1 (ko) * 2021-03-26 2022-09-29 한양대학교 산학협력단 다화자 훈련 데이터셋에 기초한 음성합성 방법 및 장치
KR20220134347A (ko) * 2021-03-26 2022-10-05 한양대학교 산학협력단 다화자 훈련 데이터셋에 기초한 음성합성 방법 및 장치
KR20230032358A (ko) * 2021-08-30 2023-03-07 한양대학교 산학협력단 인공 신경망을 이용한 다화자 음성 합성 방법 및 장치
CN113611308A (zh) * 2021-09-08 2021-11-05 杭州海康威视数字技术股份有限公司 一种语音识别方法、装置、系统、服务器及存储介质
CN113611308B (zh) * 2021-09-08 2024-05-07 杭州海康威视数字技术股份有限公司 一种语音识别方法、装置、系统、服务器及存储介质

Similar Documents

Publication Publication Date Title
KR20190008137A (ko) 다중 화자 데이터를 이용한 딥러닝 기반 음성 합성 장치 및 방법
US20190019500A1 (en) Apparatus for deep learning based text-to-speech synthesizing by using multi-speaker data and method for the same
US10339290B2 (en) Spoken pass-phrase suitability determination
JP6011565B2 (ja) 音声検索装置、音声検索方法及びプログラム
US10347237B2 (en) Speech synthesis dictionary creation device, speech synthesizer, speech synthesis dictionary creation method, and computer program product
US10008216B2 (en) Method and apparatus for exemplary morphing computer system background
US9508338B1 (en) Inserting breath sounds into text-to-speech output
Vlasenko et al. Vowels formants analysis allows straightforward detection of high arousal emotions
Martinez et al. Prosodic features and formant modeling for an ivector-based language recognition system
CN104299612B (zh) 模仿音相似度的检测方法和装置
WO2018051945A1 (ja) 音声処理装置、音声処理方法、および記録媒体
US9437195B2 (en) Biometric password security
KR101325722B1 (ko) 사용자 입력 노래에 대응한 악보 생성 장치와 그 방법
JP2015068897A (ja) 発話の評価方法及び装置、発話を評価するためのコンピュータプログラム
EP4266306A1 (en) A speech processing system and a method of processing a speech signal
WO2023279976A1 (zh) 语音合成方法、装置、设备及存储介质
Fatima et al. Short utterance speaker recognition a research agenda
CN107610691B (zh) 英语元音发声纠错方法及装置
JP2007316330A (ja) 韻律識別装置及び方法、並びに音声認識装置及び方法
US10643600B1 (en) Modifying syllable durations for personalizing Chinese Mandarin TTS using small corpus
JP4839970B2 (ja) 韻律識別装置及び方法、並びに音声認識装置及び方法
JP2010060846A (ja) 合成音声評価システム及び合成音声評価方法
Mary et al. Evaluation of mimicked speech using prosodic features
KR102442020B1 (ko) 말하기의 자동 유창성 평가 방법 및 그 장치
Cahyaningtyas et al. HMM-based indonesian speech synthesis system with declarative and question sentences intonation