KR101910273B1 - Apparatus and method for speech synthesis using speech model coding for voice alternation - Google Patents

Apparatus and method for speech synthesis using speech model coding for voice alternation Download PDF

Info

Publication number
KR101910273B1
KR101910273B1 KR1020170044719A KR20170044719A KR101910273B1 KR 101910273 B1 KR101910273 B1 KR 101910273B1 KR 1020170044719 A KR1020170044719 A KR 1020170044719A KR 20170044719 A KR20170044719 A KR 20170044719A KR 101910273 B1 KR101910273 B1 KR 101910273B1
Authority
KR
South Korea
Prior art keywords
speech
voice
model code
speech model
model
Prior art date
Application number
KR1020170044719A
Other languages
Korean (ko)
Other versions
KR20180113325A (en
Inventor
김회린
서영주
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Priority to KR1020170044719A priority Critical patent/KR101910273B1/en
Publication of KR20180113325A publication Critical patent/KR20180113325A/en
Application granted granted Critical
Publication of KR101910273B1 publication Critical patent/KR101910273B1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Stereophonic System (AREA)

Abstract

본 발명은 자동 음성합성에서 음성합성 장치를 구성하는 임의의 화자의 음성모델을 음성변조에 효과적이면서도 효율적인 음성모델 코드로 부호화하고, 상기 음성모델 코드를 변경하거나 복수의 화자의 음성모델 코드들을 서로 조합함으로써 변조된 목소리의 음성 정보를 담은 음성모델 코드로 변환하고, 변환된 음성모델 코드로부터 해당 음성모델을 복원하기 위하여 복호화시키고, 복원된 음성모델을 활용하여 주어진 텍스트에 해당하는 변조된 음성파형을 합성하는 음성합성 장치 및 방법이 개시된다.
일 실시예에 따른 음성합성 방법은, 음성모델을 음성모델 코드로 부호화하는 단계; 상기 음성모델 코드를 조작함에 따라 변조된 목소리 음성 정보를 포함하는 음성모델 코드로 변환하는 단계; 상기 부호화된 음성모델 코드 또는 상기 변조된 목소리 음성 정보를 포함하는 음성모델 코드를 복호화하여 합성 가능한 음성모델로 복원시키는 단계; 및 텍스트 정보가 입력됨에 따라 상기 복원된 음성모델에 기반하여 상기 입력된 텍스트 정보에 대해 변조된 목소리의 음성 파형을 합성하는 단계를 포함할 수 있다.
The present invention relates to a method and apparatus for encoding an audio model of an arbitrary speaker constituting a speech synthesizing apparatus in an automatic speech synthesis into an effective speech model code effective for speech modulation and changing the speech model code or combining The voice model code including the voice information of the modulated voice is decoded to restore the voice model from the converted voice model code, and the modulated voice waveform corresponding to the given text is synthesized A speech synthesis apparatus and method are disclosed.
According to an embodiment of the present invention, there is provided a speech synthesis method including: encoding an speech model into an speech model code; Converting the speech model code into a speech model code including modulated voice speech information as the speech model code is manipulated; Decoding the speech model code including the encoded speech model code or the modulated speech speech information and restoring the speech model code into a synthesizable speech model; And synthesizing a voice waveform of the modulated voice with respect to the input text information based on the restored voice model as the text information is input.

Description

음성변조를 위한 음성모델 부호화를 이용한 음성합성 기술 및 장치{APPARATUS AND METHOD FOR SPEECH SYNTHESIS USING SPEECH MODEL CODING FOR VOICE ALTERNATION} TECHNICAL FIELD [0001] The present invention relates to a speech synthesis method and apparatus for speech modulation,

아래의 설명은 음성합성 기술에 관한 것으로, 음성합성 장치가 합성하는 음성파형이 개발자나 사용자의 의도대로 합성음의 음성을 변조할 수 있도록 음성합성기의 음성모델을 부호화하고 음성모델 코드를 변환하고 음성모델을 복호화하여 변조된 음성파형을 합성하는 기능을 제공하는 음성합성 장치 및 방법에 관한 것이다.
The following description relates to a speech synthesis technique, in which a speech model of a speech synthesizer is encoded so that a speech waveform synthesized by a speech synthesizer can modulate the speech of a synthesized speech according to the intention of a developer or a user, To a voice synthesizing apparatus and a method for synthesizing a modulated voice waveform.

음성합성 기술은 입력된 텍스트를 해당 음운정보를 포함하는 음성파형으로 자동적으로 변환하는 기술로서 자동응답시스템(ARS), 컴퓨터 게임 등의 여러 음성응용 분야에 유용하게 사용될 수 있다. 현재 개발되는 대표적인 음성합성 기술로는 코퍼스 기반 음편연결 방식의 음성합성 기술과 HMM(hidden Markov model) 기반 파라메터 방식의 음성합성 기술을 들 수 있다. 이 중에서 HMM 기반 음성합성 기술은 HMM 이라는 통계모델로서 음성신호를 모델링하여 임의의 음운열(phoneme sequence)에 해당하는 음성파형을 합성하는 음성합성 기술을 의미한다. 음성변조 기술은 합성된 음성이 합성기의 훈련에 사용된 음성데이터를 발성한 소스 화자의 목소리와 다른 목소리를 나타내도록 음성합성기의 음성 모델을 변경하고 이를 활용하여 달라진 목소리의 음성파형을 합성하는 기술이다.The speech synthesis technique is a technology for automatically converting inputted text into a speech waveform including the phonemic information, and can be used for various voice applications such as an automatic response system (ARS) and a computer game. Representative speech synthesis technologies currently being developed include speech synthesis techniques based on a corpus-based speech synthesis and speech synthesis techniques based on a parameter-based HMM (hidden Markov model). Among them, the HMM-based speech synthesis technique refers to a speech synthesis technique for modeling a speech signal as a statistical model of HMM to synthesize a speech waveform corresponding to an arbitrary phoneme sequence. The voice modulation technique is a technique for synthesizing a voice waveform of a changed voice by changing the voice model of the voice synthesizer so that the synthesized voice represents a voice different from the voice of the source speaker who uttered the voice data used in the training of the synthesizer .

음성변조에 적합한 음성합성 방식은 HMM 기반 음성합성 방식인데 이 음성합성 방식은 개별 음성 단위 HMM을 구성하는 상태관측확률의 모델링 방식에 따라, 가우스 혼합 모델을 활용하는 GMM(GMM: Gaussian mixture model)-HMM 방식과 최근에 각광받는 심층신경망을 활용하는 DNN(DNN: deep neural network)-HMM 방식으로 나눌 수 있다. 이 HMM 기반 음성합성 방식에 적용되는 음성변조 기술은 GMM-HMM의 모델 파라메터인 평균벡터, 공분산행렬, 혼합가중치벡터, 상태천이행렬이나 DNN-HMM의 모델 파라메터인 가중치행렬, 상태천이행렬을 목표 화자의 목소리를 나타내도록 소스 화자의 파라메터와 변조된 목소리에 해당하는 파라메터 간의 사상 관계를 효과적으로 나타낼 수 있는 함수를 사용하여 변경함으로써 이루어진다. 이러한 음성변조에 활용되는 함수의 예로서 GMM의 파라메터를 주성분 분석(principal component analysis) 기법을 적용하여 고유음성성분의 조합으로 모델링하는 방법이 있는데 상기 방법을 적용하여 구한 조합 가중치를 부호화 결과로 구하고 이 코드들이 의도하는 목소리 음성 정보를 가지도록 변경한 후에 복호화하면 복원된 음성모델 파라메터를 활용하는 음성합성기는 원래와 다른 목소리의 변조된 음성파형을 생성할 수 있게 된다.The speech synthesis method suitable for voice modulation is a HMM-based speech synthesis method. The speech synthesis method uses GMM (Gaussian mixture model) (GMM) using a Gaussian mixture model according to a modeling method of state observation probability constituting individual speech unit HMMs. HMM method and DNN (deep neural network) -HMM method, which utilizes recently emerging in-depth neural network. The speech modulation technique applied to this HMM-based speech synthesis method is based on the GMM-HMM model parameters such as average vector, covariance matrix, mixed weight vector, state transition matrix or weight parameter matrix of DNN- By using a function that can effectively represent the mapping relationship between the parameter of the source speaker and the parameter corresponding to the modulated voice so as to express the voice of the source speaker. As an example of a function used for such voice modulation, there is a method of modeling GMM parameters by a combination of inherent speech components by applying a principal component analysis technique. The combination weights obtained by applying the above method are obtained as encoding results, If the codes are changed to have the intended voice voice information and then decoded, the speech synthesizer utilizing the restored voice model parameters will be able to generate a modulated voice waveform of a different voice than the original.

이러한 음성변조 기능을 가지도록 개발된 대부분의 음성합성 기술들은 음성변조 자체의 완전성이나 정확도를 향상시키는 문제에 초점을 맞추고 있을 뿐 개별 사용자의 목소리 색깔과 같은 음성특성을 부호화하여 디지털 정보로 표현하고 이를 변경하거나 다른 화자들의 디지털 음성 정보를 조합하여 다양한 목소리의 변조된 음성파형을 합성하는 기술을 개발하는 시도는 잘 이루어지지 않고 있다.Most of the speech synthesis techniques developed to have such a voice modulation function focus on problems that improve the completeness or accuracy of the voice modulation itself, and only voice characteristics such as voice colors of individual users are coded and expressed as digital information, Attempts to develop a technique for synthesizing a modulated voice waveform of various voices by changing or combining digital voice information of other speakers have not been made well.

이에 따라 개별 사용자의 목소리와 같은 음성 특성을 음성모델을 부호화하고 얻은 음성모델 코드를 변경하거나 여러 사용자들의 음성모델의 코드들을 서로 조합으로 새로운 목소리의 합성음을 생성하는 합성음성 장치나 방법을 개발하면 컴퓨터 게임이나 지능 로봇, 아바타 등의 디지털 콘텐츠 분야에서 구성원 고유의 목소리를 생성하거나 가상의 객체에 대한 목소리를 생성하는 용도로서 매우 활용 가능성이 크다고 할 수 있다.
Accordingly, by developing a synthetic speech apparatus or method for encoding a speech model such as a voice of an individual user and changing a voice model code obtained or generating a synthesized voice of a new voice by combining codes of voice models of various users, It can be said that it is highly applicable as a purpose of generating a voice unique to a member in a digital contents field such as a game, an intelligent robot, or an avatar, or generating a voice for a virtual object.

본 발명이 해결하고자 하는 과제는 임의의 화자가 발성한 음성데이터를 훈련 데이터나 적응데이터로 활용하여 개발된 소스 화자의 목소리 음성정보를 가진 음성합성기의 음성모델을 부호화해서 구한 음성모델 코드들을 변경하거나 여러 소스 화자들의 음성모델 코드들을 조합한 다음 복호화하여 변조된 목소리의 음성파형을 합성할 수 있는 음성변조 기능을 가진 음성합성 장치 및 방법을 제안한다.
SUMMARY OF THE INVENTION The present invention has been made in view of the above problems, and it is an object of the present invention to provide a speech synthesis apparatus and a speech synthesis method of a speech synthesizer, The present invention proposes a speech synthesizing apparatus and method having a speech modulation function capable of synthesizing speech waveforms of a modulated voice by combining speech model codes of a plurality of source speakers and then decoding the speech waveforms.

일 실시예에 따르면, 음성합성 방법은, 음성모델을 음성모델 코드로 부호화하는 단계; 상기 음성모델 코드를 조작함에 따라 변조된 목소리 음성 정보를 포함하는 음성모델 코드로 변환하는 단계; 상기 부호화된 음성모델 코드 또는 상기 변조된 목소리 음성 정보를 포함하는 음성모델 코드를 복호화하여 합성 가능한 음성모델로 복원시키는 단계; 및 텍스트 정보가 입력됨에 따라 상기 복원된 음성모델에 기반하여 상기 입력된 텍스트 정보에 대해 변조된 목소리의 음성 파형을 합성하는 단계를 포함할 수 있다. According to one embodiment, a speech synthesis method includes: encoding an speech model into an speech model code; Converting the speech model code into a speech model code including modulated voice speech information as the speech model code is manipulated; Decoding the speech model code including the encoded speech model code or the modulated speech speech information and restoring the speech model code into a synthesizable speech model; And synthesizing a voice waveform of the modulated voice with respect to the input text information based on the restored voice model as the text information is input.

일 측에 따르면, 상기 음성모델을 음성모델 코드로 부호화하는 단계는, 음성합성을 위한 훈련(Training) 또는 적응(Adaptation)을 통해 생성된 임의의 화자의 음성모델 전부 또는 일부를 주성분 분석 기법에 의해 획득된 고유음성성분에 대한 가중치로 부호화하는 주성분 변환 부호화 알고리즘을 적용하여 디지털 음성모델 코드를 생성하는 단계를 포함할 수 있다. According to one aspect, the step of encoding the speech model with the speech model code may include the step of encoding all or part of the speech model of any speaker generated through training or adaptation for speech synthesis by a principal component analysis technique And generating a digital speech model code by applying a principal component transformation encoding algorithm for encoding the obtained unique speech component to a weight value.

또 다른 일측에 따르면, 상기 음성모델을 음성모델 코드로 부호화하는 단계는, 상기 음성모델을 개별 벡터 또는 수퍼벡터(U)로 변환하고, 상기 변환된 개별 벡터 또는 수퍼벡터에 대해 주성분 분석에 기반하여 고유벡터 또는 고유음성성분(E)의 K(K는 자연수) 차원의 가중치 벡터(W)를 추출하는 주성분 변환 알고리즘을 수학식 1(

Figure 112017033819365-pat00001
)과 같이 나타내는 단계를 포함하고, wk는 k번째 고유음성성분에 대한 가중치 원소로서 스칼라 실수값, E는 음성모델의 수퍼벡터들의 공분산행렬에 대해 주성분분석을 수행함에 따라 획득된 고유벡터들 중에서 가장 큰 K(1≤K≤S) 개의 고유치들에 대응하는 고유벡터들로 구성된 행렬, U는 상기 임의의 화자에 대한 음성모델을 변환한 수퍼벡터를 의미할 수 있다. According to another aspect, the step of encoding the speech model into a speech model code comprises converting the speech model into a separate vector or a super vector (U), and based on the principal component analysis on the transformed individual vector or super vector A principal component transformation algorithm for extracting a weight vector W of a dimension of K (K is a natural number) dimension of an eigenvector or a unique speech component E is expressed by Equation 1 (
Figure 112017033819365-pat00001
), W k is a scalar real number value as a weighting element for the k-th unique voice component, and E is an eigenvector obtained by performing principal component analysis on the covariance matrix of the supervectors of the speech model A matrix composed of eigenvectors corresponding to the largest K (1? K? S) eigenvalues, U can be a supervector obtained by transforming the speech model for the arbitrary speaker.

또 다른 일측에 따르면, 상기 음성모델을 음성모델 코드로 부호화하는 단계는, 상기 임의의 화자에 대한 음성모델을 변환한 수퍼벡터(U)가 수학식 2(

Figure 112017033819365-pat00002
)와 같이 주어지고,
Figure 112017033819365-pat00003
는 상기 임의의 화자에 대한 음성모델을 v번째 아음소 GMM-HMM에서 i번째 상태의 j번째 혼합에서의 평균벡터, 또는 공분산행렬의 대각원소들로 구성된 벡터, 또는 DNN-HMM의 v번째 계층에서의 가중치행렬에서 i번째 노드의 j번째 가중치를 의미할 수 있다.According to another aspect of the present invention, the step of encoding the speech model with the speech model code includes the steps of:
Figure 112017033819365-pat00002
),
Figure 112017033819365-pat00003
Is a vector composed of diagonal elements of an average vector or a covariance matrix in the j-th mixture of the i-th state in the v-th word and the v-th hierarchy of the DNN-HMM in the v- And the jth weight of the i-th node in the weighting matrix.

또 다른 일측에 따르면, 상기 음성모델을 음성모델 코드로 부호화하는 단계는, 복수의 화자의 수퍼벡터의 데이터로부터 수학식 3(

Figure 112017033819365-pat00004
)을 통하여 주성분 분석에 사용된 수퍼벡터들에 대한 평균벡터(M)를 도출함에 따라 획득된 음성모델 코드를 저장하는 단계를 포함하고, s는 전체 S명의 화자들로부터 획득한 음성모델들 중에서 임의의 화자의 음성모델의 인덱스를 나타내고 mean(·)은 주성분분석에 사용된 전체 화자음성모델들에 대한 개별 원소 평균치를 그 원소로 취하는 벡터를 구하는 함수를 의미할 수 있다. According to another aspect, the step of encoding the speech model with the speech model code comprises:
Figure 112017033819365-pat00004
), And storing an obtained speech model code by deriving an average vector (M) for the super vectors used for principal component analysis, and s is a speech model obtained from speech models obtained from all S speakers And mean (·) denotes a function for obtaining a vector that takes an individual element average value of all speaker voice models used for principal component analysis as its element.

또 다른 일측에 따르면, 상기 음성모델 코드를 조작함에 따라 변조된 목소리 음성 정보를 포함하는 음성모델 코드로 변환하는 단계는, 상기 부호화된 음성모델 코드를 기 선택된 목소리 음성 정보를 포함하는 음성모델 코드로 변경하거나 복수의 임의의 화자들로부터 획득된 음성모델 코드에 포함된 코드 정보를 각각 기 설정된 비율로 조합함으로써 변조된 목소리 음성 정보를 포함하는 음성모델 코드로 변환하는 단계를 포함할 수 있다. According to another aspect, the step of converting the voice model code including modulated voice information into the voice model code by manipulating the voice model code may include converting the encoded voice model code into a voice model code including previously selected voice voice information And modifying the voice model code into a voice model code including the modulated voice voice information by combining the code information included in the voice model code obtained from the plurality of arbitrary speakers with each predetermined ratio.

또 다른 일측에 따르면, 상기 부호화된 음성모델 코드 또는 상기 변조된 목소리 음성 정보를 포함하는 음성모델 코드를 복호화하여 합성 가능한 음성모델로 복원시키는 단계는, 상기 부호화된 음성모델 코드 또는 상기 변조된 목소리 음성 정보를 포함하는 음성모델 코드로부터 주성분 변환 복호화 알고리즘을 적용하여 수퍼벡터로 복호화하고, 상기 수퍼벡터에 대응되는 음성모델의 파라메터를 복원한 후, 상기 복원된 파라메터를 포함하는 음성모델을 저장하는 단계를 포함할 수 있다. According to another aspect of the present invention, the step of decoding the speech model code including the encoded speech model code or the modulated speech speech information and reconstructing the synthesized speech model into a synthesizable speech model may include decoding the encoded speech model code or the modulated speech speech And decoding the speech model code corresponding to the supervector by applying a principal component transformation decoding algorithm to the supervector, restoring the parameters of the speech model corresponding to the supervector, and then storing the speech model including the restored parameter .

일 실시예에 따르면, 컴퓨터 시스템이 음성을 합성하도록 제어하는 명령(instruction)을 포함하는 컴퓨터 판독가능 저장 매체로서, 상기 명령은, 음성모델을 음성모델 코드로 부호화하는 단계; 상기 음성모델 코드를 조작함에 따라 변조된 목소리 음성 정보를 포함하는 음성모델 코드로 변환하는 단계; 상기 부호화된 음성모델 코드 또는 상기 변조된 목소리 음성 정보를 포함하는 음성모델 코드를 복호화하여 합성 가능한 음성모델로 복원시키는 단계; 및 텍스트 정보가 입력됨에 따라 상기 복원된 음성모델에 기반하여 상기 입력된 텍스트 정보에 대해 변조된 목소리의 음성 파형을 합성하는 단계를 포함하는 방법에 의하여 상기 컴퓨터 시스템을 제어할 수 있다. According to one embodiment, there is provided a computer-readable storage medium having instructions for controlling a computer system to synthesize speech, the instructions comprising: encoding a speech model to speech model code; Converting the speech model code into a speech model code including modulated voice speech information as the speech model code is manipulated; Decoding the speech model code including the encoded speech model code or the modulated speech speech information and restoring the speech model code into a synthesizable speech model; And synthesizing a voice waveform of a modulated voice with respect to the inputted text information based on the restored voice model as the text information is inputted.

일 실시예에 따르면, 음성합성 장치는, 음성모델을 음성모델 코드로 부호화하는 음성모델 부호화기; 상기 음성모델 코드를 조작함에 따라 변조된 목소리 음성 정보를 포함하는 음성모델 코드로 변환하는 음성모델 코드 변환기; 상기 부호화된 음성모델 코드 또는 상기 변조된 목소리 음성 정보를 포함하는 음성모델 코드를 복호화하여 합성 가능한 음성모델로 복원시키는 음성모델 복호화기; 및 텍스트 정보가 입력됨에 따라 상기 복원된 음성모델에 기반하여 상기 입력된 텍스트 정보에 대해 변조된 목소리의 음성 파형을 합성하는 음성 합성기를 포함할 수 있다. According to one embodiment, a speech synthesis apparatus includes a speech model encoder for encoding an speech model into an speech model code; A voice model code converter for converting the voice model code into a voice model code including voice voice information modulated as the voice model code is manipulated; A speech model decoder for decoding the speech model code including the encoded speech model code or the modulated speech speech information into a synthesizable speech model; And a speech synthesizer for synthesizing a voice waveform of the modulated voice with respect to the inputted text information based on the restored voice model as the text information is inputted.

일측에 따르면, 상기 음성모델 부호화기는, 음성합성을 위한 훈련 또는 적응을 통해 생성된 임의의 화자의 음성모델 전부 또는 일부를 고유음성성분에 대한 가중치로 부호화하는 주성분 분석 부호화 알고리즘을 적용하여 디지털 음성모델 코드를 생성할 수 있다. According to one aspect, the speech model encoder applies a principal component analysis encoding algorithm that encodes all or a part of speech models of any speaker generated through training or adaptation for speech synthesis to weights for unique speech components, You can generate code.

또 다른 일측에 따르면, 상기 음성모델 부호화기는, 상기 음성모델을 개별 벡터 또는 수퍼벡터(U)로 변환하고, 상기 변환된 개별 벡터 또는 수퍼 벡터에 대해 주성분 분석에 기반하여 고유벡터 또는 고유음성성분(E)의 K(K는 자연수) 차원의 가중치 벡터(W)를 추출하는 주성분 변환 알고리즘을 수학식 1(

Figure 112017033819365-pat00005
)과 같이 나타내는 것을 포함하고, wk는 k번째 고유음성성분에 대한 가중치 원소로서 스칼라 실수값, E는 음성모델의 수퍼벡터들의 공분산행렬에 대해 주성분분석을 수행함에 따라 획득된 고유벡터들 중에서 가장 큰 K(1≤K≤S) 개의 고유치들에 대응하는 고유벡터들로 구성된 행렬, U는 상기 임의의 화자에 대한 음성모델을 변환한 수퍼벡터를 의미할 수 있다. According to another aspect, the speech model encoder converts the speech model into a discrete vector or a super vector (U), and calculates an eigenvector or a unique speech component (U) based on principal component analysis (K is a natural number) dimension weighting vector (W) of the E (K)
Figure 112017033819365-pat00005
), W k is a scalar real number value as a weighting element for the k-th unique voice component, and E is a scalar real number value of the eigenvectors obtained by performing principal component analysis on the covariance matrix of super- A matrix composed of eigenvectors corresponding to large K (1? K? S) eigenvalues, U can be a supervector obtained by transforming a speech model for the arbitrary speaker.

또 다른 일측에 따르면, 상기 음성모델 부호화기는, 상기 임의의 화자에 대한 음성모델을 변환한 수퍼벡터(U)가 수학식 2(

Figure 112017033819365-pat00006
)와 같이 주어지고,
Figure 112017033819365-pat00007
는 상기 임의의 화자에 대한 음성모델을 v번째 아음소 GMM-HMM에서 i번째 상태의 j번째 혼합에서의 평균벡터, 또는 공분산행렬의 대각원소들로 구성된 벡터 또는 DNN-HMM의 v번째 계층에서의 가중치행렬에서 i번째 노드의 j번째 가중치를 의미할 수 있다. According to another aspect of the present invention, the speech model encoder further includes a super-vector (U) obtained by transforming the speech model of the arbitrary speaker into an equation
Figure 112017033819365-pat00006
),
Figure 112017033819365-pat00007
Is a vector composed of diagonal elements of an average vector or a covariance matrix in the jth mixture of the i-th state in the v-th sub-phoneme GMM-HMM of the vNh-HMM of the DNN-HMM, And the jth weight of the ith node in the weight matrix.

또 다른 일측에 따르면, 상기 음성모델 부호화기는, 복수의 화자의 수퍼벡터의 데이터로부터 수학식 3(

Figure 112017033819365-pat00008
)을 통하여 주성분 분석에 사용된 수퍼벡터들에 대한 평균벡터(M)를 도출함에 따라 획득된 음성모델 코드를 저장하는 것을 포함하고, s는 전체 S명의 화자들로부터 획득한 음성모델들 중에서 임의의 화자의 음성모델의 인덱스를 나타내고 mean(·)은 주성분분석에 사용된 전체 화자음성모델들에 대한 개별 원소 평균치를 그 원소로 취하는 벡터를 구하는 함수를 의미할 수 있다. According to another aspect of the present invention, the speech model encoder is configured to calculate, from data of a plurality of speakers'
Figure 112017033819365-pat00008
), And storing an obtained speech model code by deriving an average vector (M) for the super vectors used in the principal component analysis, and s is an arbitrary speech model obtained from all S speakers Means the index of the speech model of the speaker and mean (·) means a function of obtaining a vector taking the individual element average value of all speaker speech models used for principal component analysis as its element.

또 다른 일측에 따르면, 상기 음성모델 코드 변환기는, 상기 부호화된 음성모델 코드를 기 선택된 목소리 음성 정보를 포함하는 음성모델 코드로 변경하거나 복수의 임의의 화자들로부터 획득된 음성모델 코드에 포함된 코드 정보를 각각 기 설정된 비율로 조합함으로써 변조된 목소리 음성 정보를 포함하는 음성모델 코드로 변환할 수 있다. According to another aspect of the present invention, the speech model code converter converts the encoded speech model code into a speech model code including previously selected speech voice information, or codes included in voice model codes obtained from a plurality of arbitrary speakers Information can be converted into a voice model code including the modulated voice voice information by combining the information with the predetermined ratio.

또 다른 일측에 따르면, 상기 음성모델 복호화기는, 상기 부호화된 음성모델 코드 또는 상기 변조된 목소리 음성 정보를 포함하는 음성모델 코드로부터 주성분 변환 복호화 알고리즘을 적용하여 수퍼벡터로 복호화하고, 상기 수퍼벡터에 대응되는 음성모델의 파라메터를 복원한 후, 상기 복원된 파라메터를 포함하는 음성모델을 저장할 수 있다.
According to another aspect of the present invention, the speech model decoder decodes the speech model code into a supervector by applying a principal component transformation decoding algorithm from the speech model code including the encoded speech model code or the modulated speech speech information, And restores the speech model, and then stores the speech model including the restored parameter.

일 실시예에 따른 음성합성 장치는 복수의 사용자로부터 수집한 음성 데이터를 사용하여 획득된 해당 사용자의 음성모델로부터 주성분 변환 기법을 활용하여 음성모델 코드를 추출하고, 추출된 음성모델 코드를 변경한 후 복원함으로써 사용자의 고유 목소리와 비교하였을 때에 변조된 목소리의 합성음을 생성하거나 사용자들의 다양한 음성모델 코드들을 서로 조합하여 가상 화자의 합성음을 생성함으로써 다양한 사용자의 목소리를 띤 음성통신을 가능하게 하거나 가상의 인물에 대한 음성을 생성하고 이용할 수 있게 되어 로봇이나 아바타, 사이버 게임 분야의 음성응용 용도로 유용하게 활용될 수 있다.
The speech synthesis apparatus according to an embodiment extracts a speech model code using a principal component transformation technique from a speech model of the user obtained using speech data collected from a plurality of users, changes the extracted speech model code A voice synthesized voice of a modulated voice is generated when the voice is compared with a user's voice or a voice synthesized voice of a virtual speaker is generated by combining various voice model codes of users to enable voice communication with various users' And can be utilized for voice applications in robots, avatars, and cyber games.

도 1은 일 실시예에 따른 음성합성 장치의 구성을 설명하기 위한 블록도이다.
도 2는 일 실시예에 따른 음성합성 장치의 음성합성 방법을 설명하기 위한 흐름도이다.
도 3은 일 실시예에 따른 음성합성 장치의 개괄적인 동작을 설명하기 위한 도면이다.
도 4는 일 실시예에 따른 음성합성 장치의 부호화 방법을 설명하기 위한 흐름도이다.
도 5는 일 실시예에 따른 음성합성 장치의 음성모델 코드 변환 방법을 설명하기 위한 흐름도이다.
도 6은 일 실시예에 따른 음성합성 장치의 음성모델 복호화 방법을 설명하기 위한 흐름도이다.
도 7은 일 실시예에 따른 음성합성 장치의 음성 합성 방법을 설명하기 위한 흐름도이다.
1 is a block diagram illustrating a configuration of a speech synthesizer according to an embodiment.
2 is a flowchart illustrating a speech synthesis method of the speech synthesis apparatus according to an embodiment.
3 is a diagram for explaining the general operation of the speech synthesis apparatus according to an embodiment.
4 is a flowchart illustrating a method of encoding a speech synthesizer according to an embodiment of the present invention.
5 is a flowchart illustrating a method of converting a speech model code of a speech synthesizer according to an embodiment.
6 is a flowchart illustrating a method of decoding a speech model of a speech synthesizer according to an embodiment of the present invention.
7 is a flowchart illustrating a speech synthesis method of the speech synthesis apparatus according to an embodiment.

이하, 실시예를 첨부한 도면을 참조하여 상세히 설명한다.
Hereinafter, embodiments will be described in detail with reference to the accompanying drawings.

도 1은 일 실시예에 따른 음성합성 장치의 구성을 설명하기 위한 블록도이고, 도 2는 일 실시예에 따른 음성합성 장치의 음성합성 방법을 설명하기 위한 흐름도이다.FIG. 1 is a block diagram for explaining a configuration of a speech synthesis apparatus according to an embodiment, and FIG. 2 is a flowchart for explaining a speech synthesis method of a speech synthesis apparatus according to an embodiment.

음성합성 장치(100)의 프로세서는 음성모델 부호화기(110), 음성모델 코드 변환기(120), 음성모델 복호화기(130) 및 음성합성기(140)를 포함할 수 있다. 음성합성 장치(100)의 프로세서 및 프로세서의 구성 요소들은 도 2의 음성합성 방법이 포함하는 단계들(210~240)을 수행할 수 있다. 프로세서는 음성합성 방법을 위한 프로그램 파일에 저장된 프로그램 코드를 메모리에 로딩할 수 있다. The processor of the speech synthesis apparatus 100 may include a speech model encoder 110, a speech model code converter 120, a speech model decoder 130 and a speech synthesizer 140. The processor of the speech synthesizer 100 and the components of the processor may perform the steps 210 to 240 included in the speech synthesis method of FIG. The processor may load the program code stored in the program file for the speech synthesis method into the memory.

프로세서 및 프로세서의 구성요소들은 메모리가 포함하는 운영체제의 코드와 적어도 하나의 프로그램의 코드에 따른 명령(instruction)을 실행하도록 구현될 수 있다. 여기서, 프로세서의 구성요소들은 음성합성 장치(100)에 저장된 프로그램 코드가 제공하는 제어 명령에 따라 프로세서에 의해 수행되는 서로 다른 기능들(different functions)의 표현들일 수 있다.The processor and the components of the processor may be implemented to execute instructions in accordance with the code of the operating system and the code of the at least one program that the memory contains. Here, the components of the processor may be representations of different functions performed by the processor in accordance with control commands provided by the program code stored in the speech synthesizer 100. [

단계(210)에서 음성모델 부호화기는 음성모델을 음성모델 코드로 부호화할 수 있다. 음성모델 부호화기는 음성합성을 위한 훈련이나 적응을 통해 생성된 임의의 화자의 음성모델 전부나 혹은 그 일부를 주성분 분석 기법에 기반을 둔 고유음성성분에 대한 가중치로 부호화하는 주성분 변환 부호화 알고리즘을 적용하여 데이터 분량이 대폭 감소된 음성모델 코드를 생성할 수 있다. In step 210, the speech model encoder can encode the speech model into a speech model code. The speech model encoder applies a principal component transformation encoding algorithm that encodes all or a part of speech models of arbitrary speakers generated through training or adaptation for speech synthesis to a weight value of a unique speech component based on principal component analysis It is possible to generate a voice model code with a greatly reduced data amount.

단계(220)에서 음성모델 코드 변환기는 음성모델 코드를 조작함에 따라 변조된 목소리 음성 정보를 포함하는 음성모델 코드로 변환할 수 있다. 음성모델 코드 변환기는 음성모델 부호화기로부터 생성된 개별 화자의 음성모델 코드를 사전 실험을 통해 설정한 규칙에 의해 선호하는 목소리로 합성할 수 있도록 변경하거나 복수의 화자들의 음성모델 코드들을 기 설정한 규칙(예를 들면, 사전 실험을 통하여 설정된 규칙, 사용자로부터 설정된 규칙 등)에 의해 일정한 비율로 서로 조합함으로써 변조된 목소리 음성 정보를 담은 음성모델 코드로 변환할 수 있다. In step 220, the speech model code converter may convert the speech model code into a speech model code that includes the speech voice information modulated as the speech model code is manipulated. The speech model code converter changes the speech model code of the individual speaker generated from the speech model encoder so that it can be synthesized with the preferred voice according to the rule set through the preliminary experiment or sets the speech model code of the plurality of speakers For example, a rule set through a preliminary experiment, a rule set by a user, etc.) to a voice model code containing voice voice information modulated by combining them at a certain rate.

단계(230)에서 음성모델 복호화기는 부호화된 음성모델 코드 또는 변조된 목소리 음성 정보를 포함하는 음성모델 코드를 복호화하여 합성 가능한 음성모델로 복원할 수 있다. 음성모델 복호화기는 임의의 화자의 부호화된 음성모델 코드나 변환된 음성모델 코드를 주성분 분석 기법에 기반을 둔 고유음성성분을 기저함수로 활용하는 주성분 변환 복호화 알고리즘을 활용하여 합성 가능한 음성모델로 복호화할 수 있다.In step 230, the speech model decoder may decode the speech model code including the encoded speech model code or the modulated speech speech information to restore the speech model to a synthesizable speech model. The speech model decoder can decode a speech model code of a certain speaker or a converted speech model code into a synthesizable speech model by using a principal component conversion decoding algorithm that utilizes a native speech component based on principal component analysis as a basis function .

단계(240)에서 음성합성기는 텍스트 정보가 입력됨에 따라 복원된 음성모델을 활용하여 입력된 텍스트 정보에 대해 변조된 목소리의 음성 파형을 합성할 수 있다. In step 240, the speech synthesizer can synthesize the voice waveform of the modulated voice with respect to the inputted text information by utilizing the restored voice model as the text information is inputted.

도 3은 일 실시예에 따른 음성합성 장치의 개괄적인 동작을 설명하기 위한 도면이다.3 is a diagram for explaining the general operation of the speech synthesis apparatus according to an embodiment.

음성합성 장치는 임의의 화자의 음성모델(301, 302)을 부호화(310)함에 따라 음성모델 코드를 획득할 수 있다. 음성합성 장치는 음성합성을 위한 훈련이나 적응을 통해 생성된 임의의 화자의 음성모델 전부나 일부를 주성분 분석 기법에 기반한 고유음성성분에 대한 가중치로 부호화하는 주성분 변환 부호화 알고리즘을 적용하여 음성모델 코드를 생성할 수 있다.The speech synthesis apparatus can acquire speech model codes by encoding (310) speech models 301 and 302 of an arbitrary speaker. The speech synthesis apparatus applies a principal component transcoding algorithm that encodes all or a part of speech models of arbitrary speakers generated through training or adaptation for speech synthesis to weights for unique speech components based on principal component analysis techniques, Can be generated.

음성합성 장치는 음성모델 코드를 조작함에 따라 변조된 목소리 음성 정보를 포함하는 음성모델 코드로 변환(320)할 수 있다. 음성합성 장치는 음성모델 부호화 단계로부터 생성된 개별 화자의 음성모델 코드를 사전 실험을 통해 설정한 규칙에 의해 선호하는 목소리로 합성할 수 있도록 변경하거나 복수의 화자들의 음성모델 코드들을 사전 실험을 통해 설정한 규칙에 의해 일정한 비율로 서로 조합함으로써 변조된 목소리 음성 정보를 담은 음성모델 코드로 변환할 수 있다.The speech synthesizer may convert (320) the speech model code into a speech model code containing the modulated voice speech information as the speech model code is manipulated. The speech synthesis apparatus changes the speech model code of the individual speaker generated from the speech model coding step so that it can be synthesized with a preferred voice according to a rule set through a preliminary experiment or sets speech model codes of a plurality of speakers through a preliminary experiment It is possible to convert them into a voice model code containing voice voice information modulated by combining them at a certain ratio according to a rule.

음성합성 장치는 부호화된 음성모델 또는 변조된 목소리 음성 정보를 포함하는 음성모델 코드를 복호화하여 합성 가능한 음성모델로 복원(330)시킬 수 있다. 음성합성 장치는 임의의 화자의 부호화된 음성모델 코드나 변환된 음성모델 코드를 주성분 분석 기법에 기반을 둔 고유음성성분을 기저함수로 활용하는 주성분 변환 복호화 알고리즘을 활용하여 해당 음성모델로 복호화할 수 있다.The speech synthesizer may decode (330) the speech model code including the encoded speech model or the modulated voice speech information into a synthesizable speech model. The speech synthesis apparatus can decode the encoded speech model code of an arbitrary speaker or the converted speech model code into a corresponding speech model by using a principal component conversion decoding algorithm that utilizes a native speech component based on principal component analysis as a basis function have.

음성합성 장치는 텍스트 정보(303)가 입력됨에 따라 복원된 음성모델을 활용하여 입력된 텍스트 정보에 대해 변조된 목소리의 음성 파형을 합성(340)시킴으로써 변조된 음성 파형(304)을 제공할 수 있다.The speech synthesizer can provide the modulated speech waveform 304 by synthesizing 340 the speech waveform of the modulated voice with respect to the inputted text information using the restored speech model as the text information 303 is input .

더욱 상세하게는, 도 4를 참고하면, 음성합성 장치의 부호화 방법을 설명하기 위한 흐름도이다. 음성합성 장치의 음성모델 부호화기는 훈련이나 적응에 의해 임의의 화자의 음성을 합성하는데 활용되는 음성모델인 GMM-HMM의 상태별 평균벡터나 공분산행렬의 대각원소들로 구성된 벡터나 DNN-HMM의 계층별 가중치행렬을 인식할 수 있다(410). 음성모델 부호화기는 상기 개별 벡터나 행렬 모델을 하나의 거대한 벡터로 나타내는 수퍼벡터(U)로 변환할 수 있다(420). 음성모델 부호화기는 상기 개별 벡터 또는 상기 수퍼벡터(U)에 대해 주성분 분석에 기반하여 고유벡터 또는 고유음성성분 E의 K 차원 가중치 벡터 W를 추출하는 주성분 변환 알고리즘을 수학식 1과 같이 적용할 수 있다(430).More specifically, referring to FIG. 4, a flowchart for explaining a coding method of a speech synthesizer is shown. The speech model encoder of the speech synthesizer is a vector composed of diagonal elements of the average vector or covariance matrix of the state of GMM-HMM, which is an audio model used to synthesize an arbitrary speaker's voice by training or adaptation, or a hierarchy of DNN- The star weighting matrix may be recognized (410). The speech model encoder may convert the individual vector or matrix model into a supervector U represented by one large vector (420). The speech model encoder can apply the principal component transformation algorithm for extracting the K-dimensional weight vector W of the eigenvector or the inherent speech component E on the basis of the principal component analysis for the individual vector or the super vector U as shown in Equation 1 (430).

수학식 1:Equation (1)

Figure 112017033819365-pat00009
Figure 112017033819365-pat00009

여기서 wk는 k번째 고유음성성분에 대한 가중치 원소로서 스칼라 실수값을 가진다. 또한 T는 벡터나 행렬의 전치를 나타낸다. E는 수학식 2와 같이 전체 S개로 구성된 화자음성모델 수퍼벡터들의 공분산행렬에 대해 주성분 분석을 수행하여 획득되는 고유벡터들 중에서 가장 큰 K(1≤K≤S) 개의 고유치들에 해당하는 고유벡터들로 구성된 행렬로서 이를 구성하는 고유벡터들은 각각의 고유치에 해당하는 고유음성성분이 된다.Where w k has a scalar real number value as a weighting element for the k-th unique speech component. T represents the transpose of a vector or matrix. E is an eigenvector corresponding to the largest K (1? K? S) eigenvalues obtained from the eigenvectors obtained by performing principal component analysis on the covariance matrices of speaker speech model super vectors composed of all S as shown in Equation (2) And the eigenvectors constituting the matrix are unique voice components corresponding to the respective eigenvalues.

수학식 2:Equation 2:

Figure 112017033819365-pat00010
Figure 112017033819365-pat00010

여기서 Vk는 화자음성모델 수퍼벡터들의 공분산행렬에 대해 주성분 분석을 통해 얻어진 k번째 큰 고유치에 해당하는 고유벡터 또는 고유음성성분이다. 또한 U는 임의의 화자에 대한 음성모델 수퍼벡터로서 수학식 3과 같이 주어진다. Here, V k is an eigenvector or a unique speech component corresponding to the k-th large eigenvalue obtained through principal component analysis for the covariance matrix of the speaker speech model super vectors. U is given as Equation 3 as a speech model super vector for an arbitrary speaker.

수학식 3:Equation (3)

Figure 112017033819365-pat00011
Figure 112017033819365-pat00011

여기서

Figure 112017033819365-pat00012
는 임의의 화자의 음성모델인 v번째 아음소 GMM-HMM에서 i번째 상태의 j번째 혼합에서의 평균벡터, 또는 공분산행렬의 대각원소들로 구성된 벡터, 또는 DNN-HMM의 v번째 계층에서의 가중치행렬에서 i번째 노드의 j번째 가중치를 의미한다. 또한 M은 주성분 분석에 사용된 수퍼벡터들에 대한 평균벡터로서 여러 화자의 음성모델 수퍼벡터 데이터로부터 수학식 4와 같이 구한다.here
Figure 112017033819365-pat00012
It is a speech model for any speaker v th Oh phoneme GMM-HMM in the i-th mean vector in the j-th mixture in state, or a vector consisting of the diagonal elements of the covariance matrix, or DNN-HMM of v weight of the second layer Denotes the jth weight of the i-th node in the matrix. M is obtained from the speech model super vector data of several speakers as an average vector for the super vectors used in the principal component analysis as shown in Equation (4).

수학식 4:Equation 4:

Figure 112017033819365-pat00013
Figure 112017033819365-pat00013

여기서 s는 전체 S명의 화자들로 구한 화자음성모델들 중에서의 임의의 화자음성모델의 인덱스를 나타내고 mean(

Figure 112017033819365-pat00014
)은 주성분 분석에 사용된 전체 화자음성모델들에 대한 개별 원소 평균치를 그 원소로 취하는 벡터를 구하는 함수이다. 이를 통해 음성모델 코드가 획득됨에 따라 음성모델 코드를 저장할 수 있다(440).Here, s represents the index of an arbitrary speaker voice model among the speaker voice models obtained by all the S speakers, and mean (
Figure 112017033819365-pat00014
) Is a function that obtains a vector that takes an individual element average value for all speaker speech models used in the principal component analysis as its elements. This allows the voice model code to be stored as the voice model code is acquired (440).

도 5는 일 실시예에 따른 음성합성 장치의 음성모델 코드 변환 방법을 설명하기 위한 흐름도이다.5 is a flowchart illustrating a method of converting a speech model code of a speech synthesizer according to an embodiment.

음성합성 장치의 음성모델 코드 변환기는 먼저 임의의 화자에 대한 음성모델 코드를 인식할 수 있다(510). 음성모델 코드 변환기는 단일의 음성모델 코드를 변조된 목소리 음성 정보가 포함되도록 사전에 정해진 규칙에 의해 수학식 5와 같이 변환할 수 있다(520).The speech model code converter of the speech synthesizer may first recognize the speech model code for an arbitrary speaker (510). The speech model code converter may convert a single speech model code to a mathematical expression (5) according to a predetermined rule to include the modulated voice speech information (520).

수학식 5:Equation 5:

Figure 112017033819365-pat00015
Figure 112017033819365-pat00015

여기서

Figure 112017033819365-pat00016
는 k번째 고유음성성분의 가중치에 대한 스칼라 변환치이고 ZA은 k번째 대각원소의 값이
Figure 112017033819365-pat00017
인 대각행렬을 의미한다. here
Figure 112017033819365-pat00016
Is the scalar conversion value for the weight of the k-th unique voice component and Z A is the value of the k-th diagonal element
Figure 112017033819365-pat00017
Quot; diagonal matrix ".

또한, 음성모델 코드 변환기는 복수의 화자들에 대한 음성모델 코드들을 서로 조합함으로써 변조된 목소리의 음성 정보를 가진 음성모델 코드로 수학식 6과 같이 변환할 수 있다(521).In addition, the speech model code converter may convert (521) the speech model code with the speech information of the modulated voice to the speech model code by combining the speech model codes for a plurality of speakers with each other.

수학식 6:Equation (6)

Figure 112017033819365-pat00018
Figure 112017033819365-pat00018

여기서

Figure 112017033819365-pat00019
Figure 112017033819365-pat00020
화자의 음성모델 코드 벡터의 k번째 가중치 원소이고
Figure 112017033819365-pat00021
는 이에 대한 스칼라 조합값이다. 또한
Figure 112017033819365-pat00022
Figure 112017033819365-pat00023
화자의 음성모델 코드이고
Figure 112017033819365-pat00024
Figure 112017033819365-pat00025
화자 음성모델 코드에 대한 조합값들을 대각원소로 갖는 대각행렬이다. 수학식 5와 6의
Figure 112017033819365-pat00026
Figure 112017033819365-pat00027
Figure 112017033819365-pat00028
등은 사전 실험에서의 최적화 과정이나 이를 통해 도출된 알고리즘에 의해 구해질 수 있다. 음성모델 코드 변환기는 변환된 음성모델 코드를 저장할 수 있다(530).here
Figure 112017033819365-pat00019
The
Figure 112017033819365-pat00020
Is the kth weighting element of the speech model code vector of the speaker
Figure 112017033819365-pat00021
Is the scalar combination value for this. Also
Figure 112017033819365-pat00022
The
Figure 112017033819365-pat00023
The speaker's voice model code.
Figure 112017033819365-pat00024
The
Figure 112017033819365-pat00025
Is a diagonal matrix having diagonal elements as the combined values for the speaker voice model code. Equations 5 and 6
Figure 112017033819365-pat00026
Wow
Figure 112017033819365-pat00027
And
Figure 112017033819365-pat00028
Etc. can be obtained by an optimization process in a preliminary experiment or an algorithm derived therefrom. The voice model code converter may store the converted voice model code (530).

도 6은 일 실시예에 따른 음성합성 장치의 음성모델 복호화 방법을 설명하기 위한 흐름도이다.6 is a flowchart illustrating a method of decoding a speech model of a speech synthesizer according to an embodiment of the present invention.

음성합성 장치의 음성모델 복호화기는 우선, 부호화된 음성모델 코드 정보를 인식할 수 있다(610). 음성모델 부호화기에서 적용한 부호화 알고리즘에 대응되는 수학식 7과 같은 주성분 변환 복호화 알고리즘을 적용하여 음성모델 코드로부터 해당 음성모델 수퍼벡터를 복호화할 수 있다(620). 음성모델 복호화기는 상기 수퍼벡터로부터 해당 음성모델 파라메터를 복원할 수 있다(630). 음성모델 복호화기는 복원된 음성모델을 저장할 수 있다(640).First, the speech model decoder of the speech synthesis apparatus can recognize the encoded speech model code information (610). The speech model super vector can be decoded from the speech model code by applying a principal component transformation decoding algorithm such as Equation (7) corresponding to the encoding algorithm applied in the speech model encoder (620). The speech model decoder may restore the speech model parameters from the super vector (630). The speech model decoder may store the restored speech model (640).

수학식 7:Equation (7)

Figure 112017033819365-pat00029
Figure 112017033819365-pat00029

여기서 W는 음성모델 코드로서 수학식 5나 6과 같은 음성모델 변환 방법을 통해 도출된 음성모델을 나타낸다.Here, W represents a speech model derived from a speech model conversion method such as Equations (5) and (6) as speech model codes.

도 7은 일 실시예에 따른 음성합성 장치의 음성 합성 방법을 설명하기 위한 흐름도이다.7 is a flowchart illustrating a speech synthesis method of the speech synthesis apparatus according to an embodiment.

음성합성 장치의 음성합성기는 복원된 음성모델(710)을 인식할 수 있다. 음성합성기는 텍스트가 입력됨에 따라 합성할 텍스트와 관련된 정보를 수신할 수 있다(720). 음성합성기는 HMM 기반 파라메터 방식의 합성 기법에 의해 텍스트에 해당하는 음성변조된 음성파형을 합성할 수 있다(730).The speech synthesizer of the speech synthesizer can recognize the restored speech model 710. The speech synthesizer may receive information related to the text to be synthesized as the text is input (720). The speech synthesizer can synthesize the voice-modulated voice waveform corresponding to the text by the HMM-based parameter-based synthesis technique (730).

일 실시예에 따른 음성변조를 위한 음성모델 부호화를 이용한 음성합성 장치 및 방법은 음성합성 기능이 사용되는 로봇이나 사이버 게임에서의 아바타 등의 음성응용 분야에서 여러 사용자들의 음성을 수집하고 이를 음색변환을 위한 적응데이터로 사용하여 개별 사용자의 목소리 음성 정보를 담은 음성모델을 생성하고, 이 개별 사용자의 음성모델 자체나 복수의 사용자들의 음성모델을 음성모델 코드로 부호화하여 개별 화자의 목소리 음성 정보를 담도록 디지털 정보화한 다음, 상기 사용자들의 음성모델 코드를 음성변조의 목적으로 변경하고 이를 복호화하여 음성모델로 복원함으로써 임의의 텍스트에 대한 음성변조된 음성파형을 합성하거나, 상기 사용자들의 음성모델 코드를 서로 조합하여 새로운 목소리의 가상의 화자, 예를 들면, 부모 사용자들에 대한 가상의 자녀, 음성모델 코드를 생성하고 이를 복호화하여 음성모델을 복원함으로써 새로운 목소리를 띤 변조된 음성파형을 효과적으로 합성할 수 있다.The apparatus and method for speech synthesis using speech model coding for speech modulation according to an embodiment collects speech of a plurality of users in a voice application field of a robot or a cyber game in which a speech synthesis function is used, The voice model of the individual user or the voice model of a plurality of users is encoded into the voice model code so as to contain the voice information of the individual speaker. The voice model code of the users is changed for the purpose of voice modulation, and the voice model code is decoded and restored to the voice model to synthesize voice-modulated voice waveforms for arbitrary texts, or the voice model codes of the users are combined A virtual speaker of a new voice, for example, a parent It is possible to effectively synthesize a modulated voice waveform having a new voice by reconstructing a voice model by generating a hypothetical child or voice model code for the users and decrypting the voice model code.

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.The apparatus described above may be implemented as a hardware component, a software component, and / or a combination of hardware components and software components. For example, the apparatus and components described in the embodiments may be implemented within a computer system, such as, for example, a processor, a controller, an arithmetic logic unit (ALU), a digital signal processor, a microcomputer, a field programmable gate array (FPGA) , A programmable logic unit (PLU), a microprocessor, or any other device capable of executing and responding to instructions. The processing device may execute an operating system (OS) and one or more software applications running on the operating system. The processing device may also access, store, manipulate, process, and generate data in response to execution of the software. For ease of understanding, the processing apparatus may be described as being used singly, but those skilled in the art will recognize that the processing apparatus may have a plurality of processing elements and / As shown in FIG. For example, the processing unit may comprise a plurality of processors or one processor and one controller. Other processing configurations are also possible, such as a parallel processor.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.The software may include a computer program, code, instructions, or a combination of one or more of the foregoing, and may be configured to configure the processing device to operate as desired or to process it collectively or collectively Device can be commanded. The software and / or data may be in the form of any type of machine, component, physical device, virtual equipment, computer storage media, or device As shown in FIG. The software may be distributed over a networked computer system and stored or executed in a distributed manner. The software and data may be stored on one or more computer readable recording media.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.The method according to an embodiment may be implemented in the form of a program command that can be executed through various computer means and recorded in a computer-readable medium. The computer-readable medium may include program instructions, data files, data structures, and the like, alone or in combination. The program instructions to be recorded on the medium may be those specially designed and configured for the embodiments or may be available to those skilled in the art of computer software. Examples of computer-readable media include magnetic media such as hard disks, floppy disks and magnetic tape; optical media such as CD-ROMs and DVDs; magnetic media such as floppy disks; Magneto-optical media, and hardware devices specifically configured to store and execute program instructions such as ROM, RAM, flash memory, and the like. Examples of program instructions include machine language code such as those produced by a compiler, as well as high-level language code that can be executed by a computer using an interpreter or the like.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.While the present invention has been particularly shown and described with reference to exemplary embodiments thereof, it is to be understood that the invention is not limited to the disclosed exemplary embodiments. For example, it is to be understood that the techniques described may be performed in a different order than the described methods, and / or that components of the described systems, structures, devices, circuits, Lt; / RTI > or equivalents, even if it is replaced or replaced.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.
Therefore, other implementations, other embodiments, and equivalents to the claims are also within the scope of the following claims.

100: 음성모델 부호화기
101: 음성모델 코드 변환기
102: 음성모델 복호화기
103: 음성합성기
100: voice model encoder
101: Voice Model Code Converter
102: speech model decoder
103: speech synthesizer

Claims (15)

음성합성 방법에 있어서,
음성모델을 음성모델 코드로 부호화하는 단계;
상기 음성모델 코드를 조작함에 따라 변조된 목소리 음성 정보를 포함하는 음성모델 코드로 변환하는 단계;
상기 부호화된 음성모델 코드 또는 상기 변조된 목소리 음성 정보를 포함하는 음성모델 코드를 복호화하여 합성 가능한 음성모델로 복원시키는 단계; 및
텍스트 정보가 입력됨에 따라 상기 복원된 음성모델을 활용하여 상기 입력된 텍스트 정보에 대해 변조된 목소리의 음성 파형을 합성하는 단계
를 포함하고,
상기 음성모델을 음성모델 코드로 부호화하는 단계는,
음성합성을 위한 훈련(Training) 또는 적응(Adaptation)을 통해 생성된 임의의 화자의 음성모델 전부 또는 일부를 주성분 분석 기법에 의해 획득된 고유음성성분에 대한 가중치로 부호화하는 주성분 변환 부호화 알고리즘을 적용하여 디지털 음성모델 코드를 생성하고, 상기 음성모델을 개별 벡터 또는 수퍼벡터(U)로 변환하고, 상기 변환된 개별 벡터 또는 수퍼벡터에 대해 주성분 분석에 기반하여 고유벡터 또는 고유음성성분(E)의 K(K는 자연수) 차원의 가중치 벡터(W)를 추출하는 주성분 변환 알고리즘을 수학식 1과 같이 나타내는 단계
를 포함하고,
wk는 k번째 고유음성성분에 대한 가중치 원소로서 스칼라 실수값, E는 음성모델의 수퍼벡터들의 공분산행렬에 대해 주성분분석을 수행함에 따라 획득된 고유벡터들 중에서 가장 큰 K(1≤K≤S) 개의 고유치들에 대응하는 고유벡터들로 구성된 행렬, U는 상기 임의의 화자에 대한 음성모델을 변환한 수퍼벡터를 의미하는
수학식 1:
Figure 112018060622492-pat00045

음성합성 방법.
In the speech synthesis method,
Encoding an audio model into an audio model code;
Converting the speech model code into a speech model code including modulated voice speech information as the speech model code is manipulated;
Decoding the speech model code including the encoded speech model code or the modulated speech speech information and restoring the speech model code into a synthesizable speech model; And
Synthesizing a voice waveform of a modulated voice with respect to the inputted text information by utilizing the restored voice model as the text information is inputted
Lt; / RTI >
Wherein the step of encoding the speech model with the speech model code comprises:
A principal component transcoding algorithm is applied to encode all or a part of speech models of arbitrary speakers generated through training or adaptation for speech synthesis into weights for unique speech components obtained by principal component analysis (K) of the eigenvector or eigenvalue component (E) based on the principal component analysis for the transformed individual vector or supervector, generating a digital speech model code, converting the speech model to an individual vector or a super vector (K is a natural number) dimensional weight vector W as shown in Equation (1)
Lt; / RTI >
w k is a scalar real value as a weighting element for a k-th unique speech component, E is the largest K (1≤K≤S from among the eigenvectors obtained according to the performing the principal component analysis of the covariance matrix of the vector of the speech model Super ) ≪ / RTI > eigenvalues, and U denotes a supervector obtained by transforming the speech model of the arbitrary speaker
Equation (1)
Figure 112018060622492-pat00045

Speech synthesis method.
삭제delete 삭제delete 제1항에 있어서,
상기 음성모델을 음성모델 코드로 부호화하는 단계는,
상기 임의의 화자에 대한 음성모델을 변환한 수퍼벡터(U)가 수학식 2와 같이 주어지고,
Figure 112018060622492-pat00031
는 상기 임의의 화자에 대한 음성모델을 v번째 아음소 GMM-HMM에서 i번째 상태의 j번째 혼합에서의 평균벡터, 또는 공분산행렬의 대각원소들로 구성된 벡터, 또는 DNN-HMM의 v번째 계층에서의 가중치행렬에서 i번째 노드의 j번째 가중치를 의미하는
수학식 2:
Figure 112018060622492-pat00032

것을 특징으로 하는 음성합성 방법.
The method according to claim 1,
Wherein the step of encoding the speech model with the speech model code comprises:
The supervector (U) obtained by converting the speech model of the arbitrary speaker is given by Equation (2)
Figure 112018060622492-pat00031
Is a vector composed of diagonal elements of an average vector or a covariance matrix in the j-th mixture of the i-th state in the v-th word and the v-th hierarchy of the DNN-HMM in the v- Denotes the j-th weight of the i-th node in the weighting matrix of
Equation 2:
Figure 112018060622492-pat00032

And the speech synthesis method.
제4항에 있어서,
상기 음성모델을 음성모델 코드로 부호화하는 단계는,
복수의 화자의 수퍼벡터의 데이터로부터 수학식 3을 통하여 주성분 분석에 사용된 수퍼벡터들에 대한 평균벡터(M)를 도출함에 따라 획득된 음성모델 코드를 저장하는 단계
를 포함하고,
수학식 3:
Figure 112017033819365-pat00033

s는 전체 S명의 화자들로부터 획득한 음성모델들 중에서 임의의 화자의 음성모델의 인덱스를 나타내고 mean(·)은 주성분분석에 사용된 전체 화자음성모델들에 대한 개별 원소 평균치를 그 원소로 취하는 벡터를 구하는 함수를 의미하는
것을 특징으로 하는 음성합성 방법.
5. The method of claim 4,
Wherein the step of encoding the speech model with the speech model code comprises:
Storing the obtained speech model code by deriving an average vector (M) for the super vectors used for principal component analysis from the data of the plurality of speakers' super vectors, using Equation (3)
Lt; / RTI >
Equation (3)
Figure 112017033819365-pat00033

s represents the index of a speech model of an arbitrary speaker among the speech models obtained from all the speakers of S, and mean (·) represents a vector which takes an individual element average value of all speaker speech models used for principal component analysis as its element Means a function to obtain
And the speech synthesis method.
음성합성 방법에 있어서,
음성모델을 음성모델 코드로 부호화하는 단계;
상기 음성모델 코드를 조작함에 따라 변조된 목소리 음성 정보를 포함하는 음성모델 코드로 변환하는 단계;
상기 부호화된 음성모델 코드 또는 상기 변조된 목소리 음성 정보를 포함하는 음성모델 코드를 복호화하여 합성 가능한 음성모델로 복원시키는 단계; 및
텍스트 정보가 입력됨에 따라 상기 복원된 음성모델을 활용하여 상기 입력된 텍스트 정보에 대해 변조된 목소리의 음성 파형을 합성하는 단계
를 포함하고,
상기 음성모델 코드를 조작함에 따라 변조된 목소리 음성 정보를 포함하는 음성모델 코드로 변환하는 단계는,
상기 부호화된 음성모델 코드를 기 선택된 목소리 음성 정보를 포함하는 음성모델 코드로 변경하거나 복수의 임의의 화자들로부터 획득된 음성모델 코드에 포함된 코드 정보를 각각 기 설정된 비율로 조합함으로써 변조된 목소리 음성 정보를 포함하는 음성모델 코드로 변환하는 단계
를 포함하는 음성합성 방법.
In the speech synthesis method,
Encoding an audio model into an audio model code;
Converting the speech model code into a speech model code including modulated voice speech information as the speech model code is manipulated;
Decoding the speech model code including the encoded speech model code or the modulated speech speech information and restoring the speech model code into a synthesizable speech model; And
Synthesizing a voice waveform of a modulated voice with respect to the inputted text information by utilizing the restored voice model as the text information is inputted
Lt; / RTI >
Converting the voice model code into a voice model code including voice voice information modulated as the voice model code is manipulated,
Modifying the encoded voice model code into a voice model code including the previously selected voice voice information or combining the code information included in the voice model code obtained from a plurality of arbitrary speakers with a predetermined ratio, Converting the speech model code including information into a speech model code
/ RTI >
음성합성 방법에 있어서,
음성모델을 음성모델 코드로 부호화하는 단계;
상기 음성모델 코드를 조작함에 따라 변조된 목소리 음성 정보를 포함하는 음성모델 코드로 변환하는 단계;
상기 부호화된 음성모델 코드 또는 상기 변조된 목소리 음성 정보를 포함하는 음성모델 코드를 복호화하여 합성 가능한 음성모델로 복원시키는 단계; 및
텍스트 정보가 입력됨에 따라 상기 복원된 음성모델을 활용하여 상기 입력된 텍스트 정보에 대해 변조된 목소리의 음성 파형을 합성하는 단계
를 포함하고,
상기 부호화된 음성모델 코드 또는 상기 변조된 목소리 음성 정보를 포함하는 음성모델 코드를 복호화하여 합성 가능한 음성모델로 복원시키는 단계는,
상기 부호화된 음성모델 코드 또는 상기 변조된 목소리 음성 정보를 포함하는 음성모델 코드에 주성분 변환 복호화 알고리즘을 적용하여 수퍼벡터로 복호화하고, 상기 수퍼벡터에 대응되는 음성모델의 파라메터를 복원한 후, 상기 복원된 파라메터를 포함하는 음성모델을 저장하는 단계
를 포함하는 음성합성 방법.
In the speech synthesis method,
Encoding an audio model into an audio model code;
Converting the speech model code into a speech model code including modulated voice speech information as the speech model code is manipulated;
Decoding the speech model code including the encoded speech model code or the modulated speech speech information and restoring the speech model code into a synthesizable speech model; And
Synthesizing a voice waveform of a modulated voice with respect to the inputted text information by utilizing the restored voice model as the text information is inputted
Lt; / RTI >
Decoding the speech model code including the encoded speech model code or the modulated speech speech information and restoring the synthesized speech model into a synthesizable speech model,
Applying a principal component transformation decoding algorithm to the speech model code including the encoded speech model code or the modulated speech speech information to decode it into a supervector, restoring the parameters of the speech model corresponding to the supervector, ≪ / RTI > storing a speech model that includes <
/ RTI >
컴퓨터 시스템이 음성을 합성하도록 제어하는 명령(instruction)을 포함하는 컴퓨터 판독가능 저장 매체로서,
상기 명령은,
음성모델을 음성모델 코드로 부호화하는 단계;
상기 음성모델 코드를 조작함에 따라 변조된 목소리 음성 정보를 포함하는 음성모델 코드로 변환하는 단계;
상기 부호화된 음성모델 코드 또는 상기 변조된 목소리 음성 정보를 포함하는 음성모델 코드를 복호화하여 합성 가능한 음성모델로 복원시키는 단계; 및
텍스트 정보가 입력됨에 따라 상기 복원된 음성모델을 활용하여 상기 입력된 텍스트 정보에 대해 변조된 목소리의 음성 파형을 합성하는 단계
를 포함하고,
상기 음성모델을 음성모델 코드로 부호화하는 단계는,
음성합성을 위한 훈련(Training) 또는 적응(Adaptation)을 통해 생성된 임의의 화자의 음성모델 전부 또는 일부를 주성분 분석 기법에 의해 획득된 고유음성성분에 대한 가중치로 부호화하는 주성분 변환 부호화 알고리즘을 적용하여 디지털 음성모델 코드를 생성하고, 상기 음성모델을 개별 벡터 또는 수퍼벡터(U)로 변환하고, 상기 변환된 개별 벡터 또는 수퍼벡터에 대해 주성분 분석에 기반하여 고유벡터 또는 고유음성성분(E)의 K(K는 자연수) 차원의 가중치 벡터(W)를 추출하는 주성분 변환 알고리즘을 수학식 1과 같이 나타내는 단계
를 포함하고,
wk는 k번째 고유음성성분에 대한 가중치 원소로서 스칼라 실수값, E는 음성모델의 수퍼벡터들의 공분산행렬에 대해 주성분분석을 수행함에 따라 획득된 고유벡터들 중에서 가장 큰 K(1≤K≤S) 개의 고유치들에 대응하는 고유벡터들로 구성된 행렬, U는 상기 임의의 화자에 대한 음성모델을 변환한 수퍼벡터를 의미하는 것
수학식 1:
Figure 112018060622492-pat00046

을 포함하는 방법에 의하여 상기 컴퓨터 시스템을 제어하는, 컴퓨터 판독가능 저장 매체.
21. A computer readable storage medium comprising instructions for controlling a computer system to synthesize voice,
The command includes:
Encoding an audio model into an audio model code;
Converting the speech model code into a speech model code including modulated voice speech information as the speech model code is manipulated;
Decoding the speech model code including the encoded speech model code or the modulated speech speech information and restoring the speech model code into a synthesizable speech model; And
Synthesizing a voice waveform of a modulated voice with respect to the inputted text information by utilizing the restored voice model as the text information is inputted
Lt; / RTI >
Wherein the step of encoding the speech model with the speech model code comprises:
A principal component transcoding algorithm is applied to encode all or a part of speech models of arbitrary speakers generated through training or adaptation for speech synthesis into weights for unique speech components obtained by principal component analysis (K) of the eigenvector or eigenvalue component (E) based on the principal component analysis for the transformed individual vector or supervector, generating a digital speech model code, converting the speech model to an individual vector or a super vector (K is a natural number) dimensional weight vector W as shown in Equation (1)
Lt; / RTI >
w k is a scalar real value as a weighting element for a k-th unique speech component, E is the largest K (1≤K≤S from among the eigenvectors obtained according to the performing the principal component analysis of the covariance matrix of the vector of the speech model Super ) ≪ / RTI > eigenvalues, and U denotes a supervector obtained by transforming the speech model for the arbitrary speaker
Equation (1)
Figure 112018060622492-pat00046

≪ / RTI > wherein the computer system controls the computer system.
음성합성 장치에 있어서,
음성모델을 음성모델 코드로 부호화하는 음성모델 부호화기;
상기 음성모델 코드를 조작함에 따라 변조된 목소리 음성 정보를 포함하는 음성모델 코드로 변환하는 음성모델 코드 변환기;
상기 부호화된 음성모델 코드 또는 상기 변조된 목소리 음성 정보를 포함하는 음성모델 코드를 복호화하여 합성 가능한 음성모델로 복원시키는 음성모델 복호화기; 및
텍스트 정보가 입력됨에 따라 상기 복원된 음성모델을 활용하여 상기 입력된 텍스트 정보에 대해 변조된 목소리의 음성 파형을 합성하는 음성 합성기
를 포함하고,
상기 음성모델 부호화기는,
음성합성을 위한 훈련(Training) 또는 적응(Adaptation)을 통해 생성된 임의의 화자의 음성모델 전부 또는 일부를 주성분 분석 기법에 의해 획득된 고유음성성분에 대한 가중치로 부호화하는 주성분 변환 부호화 알고리즘을 적용하여 디지털 음성모델 코드를 생성하고, 상기 음성모델을 개별 벡터 또는 수퍼벡터(U)로 변환하고, 상기 변환된 개별 벡터 또는 수퍼벡터에 대해 주성분 분석에 기반하여 고유벡터 또는 고유음성성분(E)의 K(K는 자연수) 차원의 가중치 벡터(W)를 추출하는 주성분 변환 알고리즘을 수학식 1과 같이 나타내는 것
을 포함하고,
wk는 k번째 고유음성성분에 대한 가중치 원소로서 스칼라 실수값, E는 음성모델의 수퍼벡터들의 공분산행렬에 대해 주성분분석을 수행함에 따라 획득된 고유벡터들 중에서 가장 큰 K(1≤K≤S) 개의 고유치들에 대응하는 고유벡터들로 구성된 행렬, U는 상기 임의의 화자에 대한 음성모델을 변환한 수퍼벡터를 의미하는
수학식 1:
Figure 112018060622492-pat00047

음성합성 장치.
In the speech synthesizer,
A speech model encoder for encoding the speech model into a speech model code;
A voice model code converter for converting the voice model code into a voice model code including voice voice information modulated as the voice model code is manipulated;
A speech model decoder for decoding the speech model code including the encoded speech model code or the modulated speech speech information into a synthesizable speech model; And
A voice synthesizer for synthesizing a voice waveform of a modulated voice with respect to the inputted text information by utilizing the restored voice model as the text information is inputted,
Lt; / RTI >
Wherein the speech model encoder comprises:
A principal component transcoding algorithm is applied to encode all or a part of speech models of arbitrary speakers generated through training or adaptation for speech synthesis into weights for unique speech components obtained by principal component analysis (K) of the eigenvector or eigenvalue component (E) based on the principal component analysis for the transformed individual vector or supervector, generating a digital speech model code, converting the speech model to an individual vector or a super vector (K is a natural number) dimensional weight vector (W), as shown in Equation (1)
/ RTI >
w k is a scalar real value as a weighting element for a k-th unique speech component, E is the largest K (1≤K≤S from among the eigenvectors obtained according to the performing the principal component analysis of the covariance matrix of the vector of the speech model Super ) ≪ / RTI > eigenvalues, and U denotes a supervector obtained by transforming the speech model of the arbitrary speaker
Equation (1)
Figure 112018060622492-pat00047

Voice synthesizer.
삭제delete 삭제delete 제9항에 있어서,
상기 음성모델 부호화기는,
상기 임의의 화자에 대한 음성모델을 변환한 수퍼벡터(U)가 수학식 2와 같이 주어지고,
Figure 112018060622492-pat00035
는 상기 임의의 화자에 대한 음성모델을 v번째 아음소 GMM-HMM에서 i번째 상태의 j번째 혼합에서의 평균벡터, 또는 공분산행렬의 대각원소들로 구성된 벡터, 또는 DNN-HMM의 v번째 계층에서의 가중치행렬에서 i번째 노드의 j번째 가중치를 의미하는
수학식 2:
Figure 112018060622492-pat00036

것을 특징으로 하는 음성합성 장치.
10. The method of claim 9,
Wherein the speech model encoder comprises:
The supervector (U) obtained by converting the speech model of the arbitrary speaker is given by Equation (2)
Figure 112018060622492-pat00035
Is a vector composed of diagonal elements of an average vector or a covariance matrix in the j-th mixture of the i-th state in the v-th word and the v-th hierarchy of the DNN-HMM in the v- Denotes the j-th weight of the i-th node in the weighting matrix of
Equation 2:
Figure 112018060622492-pat00036

And a speech synthesizer.
제12항에 있어서,
상기 음성모델 부호화기는,
복수의 화자의 수퍼벡터의 데이터로부터 수학식 3을 통하여 주성분 분석에 사용된 수퍼벡터들에 대한 평균벡터(M)를 도출함에 따라 획득된 음성모델 코드를 저장하는
것을 포함하고,
수학식 3:
Figure 112017033819365-pat00037

s는 전체 S명의 화자들로부터 획득한 음성모델들 중에서 임의의 화자의 음성모델의 인덱스를 나타내고 mean(·)은 주성분 분석에 사용된 전체 화자음성모델들에 대한 개별 원소 평균치를 그 원소로 취하는 벡터를 구하는 함수를 의미하는
것을 특징으로 하는 음성합성 장치.
13. The method of claim 12,
Wherein the speech model encoder comprises:
The speech model code obtained by deriving the average vector M for the super vectors used for the principal component analysis from the data of the super vectors of the plurality of speakers
≪ / RTI >
Equation (3)
Figure 112017033819365-pat00037

s represents the index of a speech model of an arbitrary speaker among the speech models obtained from all the speakers of S, and mean (·) represents a vector which takes an individual element average value of all speaker speech models used for principal component analysis as its element Means a function to obtain
And a speech synthesizer.
음성합성 장치에 있어서,
음성모델을 음성모델 코드로 부호화하는 음성모델 부호화기;
상기 음성모델 코드를 조작함에 따라 변조된 목소리 음성 정보를 포함하는 음성모델 코드로 변환하는 음성모델 코드 변환기;
상기 부호화된 음성모델 코드 또는 상기 변조된 목소리 음성 정보를 포함하는 음성모델 코드를 복호화하여 합성 가능한 음성모델로 복원시키는 음성모델 복호화기; 및
텍스트 정보가 입력됨에 따라 상기 복원된 음성모델을 활용하여 상기 입력된 텍스트 정보에 대해 변조된 목소리의 음성 파형을 합성하는 음성 합성기
를 포함하고,
상기 음성모델 코드 변환기는,
상기 부호화된 음성모델 코드를 기 선택된 목소리 음성 정보를 포함하는 음성모델 코드로 변경하거나 복수의 임의의 화자들로부터 획득된 음성모델 코드 정보를 각각 기 설정된 비율로 조합함으로써 변조된 목소리 음성 정보를 포함하는 음성모델 코드로 변환하는
것을 특징으로 하는 음성합성 장치.
In the speech synthesizer,
A speech model encoder for encoding the speech model into a speech model code;
A voice model code converter for converting the voice model code into a voice model code including voice voice information modulated as the voice model code is manipulated;
A speech model decoder for decoding the speech model code including the encoded speech model code or the modulated speech speech information into a synthesizable speech model; And
A voice synthesizer for synthesizing a voice waveform of a modulated voice with respect to the inputted text information by utilizing the restored voice model as the text information is inputted,
Lt; / RTI >
The voice model code converter comprising:
Modifying the encoded voice model code to a voice model code including previously selected voice voice information or combining voice model code information obtained from a plurality of arbitrary speakers at a predetermined ratio, Convert to speech model code
And a speech synthesizer.
음성합성 장치에 있어서,
음성모델을 음성모델 코드로 부호화하는 음성모델 부호화기;
상기 음성모델 코드를 조작함에 따라 변조된 목소리 음성 정보를 포함하는 음성모델 코드로 변환하는 음성모델 코드 변환기;
상기 부호화된 음성모델 코드 또는 상기 변조된 목소리 음성 정보를 포함하는 음성모델 코드를 복호화하여 합성 가능한 음성모델로 복원시키는 음성모델 복호화기; 및
텍스트 정보가 입력됨에 따라 상기 복원된 음성모델을 활용하여 상기 입력된 텍스트 정보에 대해 변조된 목소리의 음성 파형을 합성하는 음성 합성기
를 포함하고,
상기 음성모델 복호화기는,
상기 부호화된 음성모델 코드 또는 상기 변조된 목소리 음성 정보를 포함하는 음성모델 코드에 주성분 변환 복호화 알고리즘을 적용하여 수퍼벡터로 복호화하고, 상기 수퍼벡터에 대응되는 음성모델의 파라메터를 복원한 후, 상기 복원된 파라메터를 포함하는 음성모델을 저장하는
것을 특징으로 하는 음성합성 장치.
In the speech synthesizer,
A speech model encoder for encoding the speech model into a speech model code;
A voice model code converter for converting the voice model code into a voice model code including voice voice information modulated as the voice model code is manipulated;
A speech model decoder for decoding the speech model code including the encoded speech model code or the modulated speech speech information into a synthesizable speech model; And
A voice synthesizer for synthesizing a voice waveform of a modulated voice with respect to the inputted text information by utilizing the restored voice model as the text information is inputted,
Lt; / RTI >
The speech model decoder includes:
Applying a principal component transformation decoding algorithm to the speech model code including the encoded speech model code or the modulated speech speech information to decode it into a supervector, restoring the parameters of the speech model corresponding to the supervector, ≪ RTI ID = 0.0 > stored < / RTI >
And a speech synthesizer.
KR1020170044719A 2017-04-06 2017-04-06 Apparatus and method for speech synthesis using speech model coding for voice alternation KR101910273B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170044719A KR101910273B1 (en) 2017-04-06 2017-04-06 Apparatus and method for speech synthesis using speech model coding for voice alternation

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170044719A KR101910273B1 (en) 2017-04-06 2017-04-06 Apparatus and method for speech synthesis using speech model coding for voice alternation

Publications (2)

Publication Number Publication Date
KR20180113325A KR20180113325A (en) 2018-10-16
KR101910273B1 true KR101910273B1 (en) 2018-10-19

Family

ID=64102091

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170044719A KR101910273B1 (en) 2017-04-06 2017-04-06 Apparatus and method for speech synthesis using speech model coding for voice alternation

Country Status (1)

Country Link
KR (1) KR101910273B1 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111599342A (en) * 2019-02-21 2020-08-28 北京京东尚科信息技术有限公司 Tone selecting method and system
KR102294639B1 (en) * 2019-07-16 2021-08-27 한양대학교 산학협력단 Deep neural network based non-autoregressive speech synthesizer method and system using multiple decoder
KR20220017285A (en) 2020-08-04 2022-02-11 한양대학교 산학협력단 Method and system for synthesizing multi speaker speech using artifcial neural network

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101665882B1 (en) * 2015-08-20 2016-10-13 한국과학기술원 Apparatus and method for speech synthesis using voice color conversion and speech dna codes

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101665882B1 (en) * 2015-08-20 2016-10-13 한국과학기술원 Apparatus and method for speech synthesis using voice color conversion and speech dna codes

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Kyosuke Kazumi et al., ‘Factor analyzed voice models for HMM-based speech synthesis’, ICASSP 2010, pp.4234~4237. 2010.*

Also Published As

Publication number Publication date
KR20180113325A (en) 2018-10-16

Similar Documents

Publication Publication Date Title
KR101665882B1 (en) Apparatus and method for speech synthesis using voice color conversion and speech dna codes
JP7374274B2 (en) Training method for virtual image generation model and virtual image generation method
US11049308B2 (en) Generating facial position data based on audio data
Fan et al. Photo-real talking head with deep bidirectional LSTM
JP6246777B2 (en) Speech synthesis method, apparatus and program
JP5768093B2 (en) Speech processing system
CN109036371B (en) Audio data generation method and system for speech synthesis
WO2020215551A1 (en) Chinese speech synthesizing method, apparatus and device, storage medium
KR101910273B1 (en) Apparatus and method for speech synthesis using speech model coding for voice alternation
JP7282363B2 (en) Language discrimination model training method and apparatus, and computer program therefor
JPH11242494A (en) Speaker adaptation device and voice recognition device
CN111276120A (en) Speech synthesis method, apparatus and computer-readable storage medium
Hashimoto et al. Trajectory training considering global variance for speech synthesis based on neural networks
CN112837669B (en) Speech synthesis method, device and server
JP2021006897A (en) Method, apparatus and equipment for synthesizing voice in parallel, and computer-readable storage medium
CN113838468A (en) Streaming voice recognition method, terminal device and medium
JP5807921B2 (en) Quantitative F0 pattern generation device and method, model learning device for F0 pattern generation, and computer program
JP6594251B2 (en) Acoustic model learning device, speech synthesizer, method and program thereof
JP6542823B2 (en) Acoustic model learning device, speech synthesizer, method thereof and program
KR102506671B1 (en) Styler: style factor modeling with rapidity and robustness via speech decomposition for expressive and controllable neural text to speech
JP2020060633A (en) Acoustic model learning device, voice synthesizer and program
JP5486565B2 (en) Speaker clustering method, speaker clustering apparatus, program
KR102583337B1 (en) Method for generating style speech and device performing the same
KR102426020B1 (en) Method and apparatus for Speech Synthesis Containing Emotional Rhymes with Scarce Speech Data of a Single Speaker
KR102382191B1 (en) Cyclic Learning Method and Apparatus for Speech Emotion Recognition and Synthesis

Legal Events

Date Code Title Description
GRNT Written decision to grant