WO2023033237A1 - Multi-style speech synthesis system capable of prosody control using style tag described in natural language - Google Patents

Multi-style speech synthesis system capable of prosody control using style tag described in natural language Download PDF

Info

Publication number
WO2023033237A1
WO2023033237A1 PCT/KR2021/015743 KR2021015743W WO2023033237A1 WO 2023033237 A1 WO2023033237 A1 WO 2023033237A1 KR 2021015743 W KR2021015743 W KR 2021015743W WO 2023033237 A1 WO2023033237 A1 WO 2023033237A1
Authority
WO
WIPO (PCT)
Prior art keywords
style
embedding
text
input
speech synthesis
Prior art date
Application number
PCT/KR2021/015743
Other languages
French (fr)
Korean (ko)
Inventor
김남수
김민찬
Original Assignee
서울대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서울대학교산학협력단 filed Critical 서울대학교산학협력단
Publication of WO2023033237A1 publication Critical patent/WO2023033237A1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models

Definitions

  • the present invention relates to a multi-style voice synthesis system, and more specifically, by using a style tag described in natural language, which allows a user to intuitively and conveniently adjust a voice style, prosody can be controlled by using a style tag described in natural language. It is about a possible multi-style speech synthesis system.
  • the voice synthesis system is a technology used in various fields such as audio books, video editing, and AI speakers. Markets and Markets predicts that the size of the speech synthesis market is about $ 1.3 billion as of 2017, and will reach $ 3.03 billion in 2022 through an annual growth rate of 15.2%. Along with the growth of the market size, the demand for style voice synthesis technology that utters with various emotions and voice tones according to the situation beyond simple voice synthesis is also increasing.
  • This longitudinal speech synthesis system mainly consists of an acoustic model that generates a mel-spectrogram, which is a frequency characteristic of voice, from text, and a vocoder that generates a voice from the mel-spectrogram.
  • the acoustic model is mainly implemented using a deep learning-based generative model.
  • an autoregressive-based model using an attention mechanism such as Tacotron.
  • an autoregressive model since the Mel-spectrogram is sequentially generated frame by frame, the generation speed is relatively slow.
  • non-autoregressive speech synthesis models include FastSpeech and Glow-TTS. This non-autoregressive model generates all frames at the same time, so the generation speed is very fast.
  • these problems due to the improvement in the performance of deep learning-based generative models, these problems have been improved, and recently, models that are more excellent than autoregressive-based models have appeared.
  • style voice synthesis refers to a synthesis technique capable of adjusting the style of a voice to be synthesized.
  • the style means elements that can provide additional information independently of the content of speech, such as emotion, tone of voice, intention, and speaker.
  • style speech synthesis style-related input is required to control the speech style.
  • style label or a reference voice is mainly used.
  • a reference encoder is used to extract reference embedding from the reference voice. These reference embeddings are conditioned so that the speech synthesis model can reflect the corresponding style when synthesizing, and the reference encoder is trained to extract style information necessary for synthesis.
  • a learning voice to be generated is mainly used as a reference voice
  • a voice having a desired style is used as a reference voice.
  • various longitudinal speech synthesis models can be modified and used.
  • the style input of the style speech synthesis mainly utilizes a style label or a reference voice, and has an advantage of being able to conveniently use a desired style of the style label, but is limited to styles within a predetermined category.
  • This acts as a major limitation in expressing various speech styles.
  • the size of the category is very large, this problem is somewhat solved, but since the user has to make a selection within the category, it may be difficult to make a decision when there are many options.
  • a reference voice it has the advantage of being able to express any style of voice, but it is inconvenient because a reference voice must be selected every time it is created, which accompanies the process of checking the reference voice.
  • Figure 1 is a diagram schematically showing the configuration of a conventional longitudinal speech synthesis system
  • Figure 2 is a diagram showing the configuration of a conventional dataset consisting of text and voice
  • Figure 3 is a conventional style label or reference voice It is a diagram showing the configuration of style input in which an input is made with .
  • the present invention is proposed to solve the above problems of the previously proposed methods, and includes a style tag encoder that receives a style tag as an input, extracts and outputs a style embedding, and a model that extracts a Mel-spectrogram from text.
  • a longitudinal speech synthesizer generating a Mel-spectrogram reflecting style information using style embedding input from the style tag encoder, and a vocoder extracting voice from the Mel-spectrogram reflecting style information input from the longitudinal speech synthesizer.
  • By configuring it to include, when synthesizing style voice the number of styles that can be uttered is limited due to the use of existing style labels or reference voices, and style tags are created without the hassle of finding and inputting reference voices every time a user utters.
  • An object of the present invention is to provide a multi-style speech synthesis system capable of controlling prosody by utilizing style tags described in natural language, which allow users to intuitively and easily adjust the style of voice.
  • the present invention extracts an embedding containing meaning from a style tag given as text using a language model learned in advance by utilizing a style tag given as text for style input in style speech synthesis, and extracts an embedding containing meaning from the style tag given as text using a language model learned in advance, and converts the embedding into a speech synthesizer.
  • Natural language technology that provides intuitive and convenient style speech synthesis technology by using it as a style input, and extracts meaningful meaning for style tags that were not used during learning through the generalization function of the language model to reflect the style.
  • Another object of the present invention is to provide a multi-style speech synthesis system capable of controlling prosody by utilizing a style tag that can be used.
  • the present invention models the embedding extracted from the reference speech and the embedding extracted from the style tag in the same space by configuring the style tag encoder to further include a reference encoder, and when learning is completed, the reference speech and the style tag
  • the style tag encoder to further include a reference encoder
  • the reference speech and the style tag There is an advantage that any of them can be used, and as a result, a new style interface can be added compared to the existing method, and it is applied as a concept of upward compatibility to various voice synthesis services that are currently applied, so that the convenience and efficiency of use are further improved.
  • Another object is to provide a multi-style speech synthesis system capable of adjusting prosody by utilizing style tags described in natural language, which can be improved.
  • a style tag encoder that receives style tags as input and extracts and outputs style embeddings
  • a model for extracting a mel-spectrogram from text comprising: a longitudinal speech synthesizer for generating a mel-spectrogram reflecting style information using style embedding input from the style tag encoder; and
  • It is characterized in that it includes a vocoder for extracting voice from the mel-spectrogram reflecting the style information input from the vertical voice synthesizer.
  • the style tag encoder Preferably, the style tag encoder, the style tag encoder, and
  • It may be configured to include an adaptive layer that receives the embedding extracted through the language model, transforms it into a form suitable for style speech synthesis, and outputs the style embedding to the longitudinal speech synthesizer.
  • Texts with similar meanings can be mapped to an adjacent embedding space, and through this mapping characteristic, even if a style tag not used in learning is input, it can function to synthesize a voice having a style corresponding to it.
  • the language model comprises:
  • SBERT SentenceBERT
  • the adaptive layer More preferably, the adaptive layer,
  • MLP multi-layer perceptron
  • the style tag encoder Preferably, the style tag encoder, the style tag encoder, and
  • It can be configured to further include a reference encoder that receives a reference voice as an input and outputs style embedding.
  • the end-to-end speech synthesizer More preferably, the end-to-end speech synthesizer,
  • a text encoder that converts the text input into text embedding to have a length extended by the length of the mel-spectrogram by utilizing duration information of each phonetic symbol of the input text
  • a Mel decoder synthesizing and outputting a Mel-spectrogram using the text embedding whose length has been increased through the text encoder and the style embedding extracted from the style tag encoder may be included.
  • a style tag encoder that receives style tags as input and extracts and outputs style embeddings, and converts text to Mel-Spect.
  • a longitudinal speech synthesizer generating a mel-spectrogram reflecting style information using a style embedding input from a style tag encoder, and a mel-spectrogram reflecting style information input from the longitudinal speech synthesizer.
  • a style tag given as text is used for style input in style speech synthesis, so that a language model learned in advance can be used. It extracts embeddings with meaning from style tags given as text, uses them as style inputs to the speech synthesizer to provide intuitive and convenient style speech synthesis technology, and styles that were not used during learning through the generalization function of the language model. Significant meanings can also be extracted from tags so that the style can be reflected.
  • a reference encoder is further included in the style tag encoder, so that embeddings extracted from reference speech and style tags are obtained. It has the advantage of modeling the extracted embedding in the same space and using either the reference voice or style tag when learning is complete, which can be seen as adding a new style interface compared to the existing method, and is currently applied It can be applied to various voice synthesis services as an upward compatible concept so that the convenience and efficiency of use can be further improved.
  • FIG. 1 is a diagram schematically showing the configuration of a conventional end-to-end speech synthesis system
  • FIG. 2 is a diagram showing the configuration of a conventional data set consisting of text and voice
  • FIG. 3 is a diagram showing the configuration of a style input in which an input is made with a conventional style label or reference voice
  • FIG. 4 is a diagram showing the configuration of a multi-style voice synthesis system capable of adjusting prosody using style tags described in natural language according to an embodiment of the present invention in functional blocks.
  • FIG. 5 is a diagram showing the configuration of a style tag encoder of a multi-style speech synthesis system capable of adjusting prosody using style tags described in natural language according to an embodiment of the present invention as functional blocks.
  • FIG. 6 is a diagram showing the configuration of a longitudinal voice synthesizer of a multi-style voice synthesis system capable of controlling prosody using style tags described in natural language according to an embodiment of the present invention as functional blocks.
  • FIG. 7 is a diagram schematically showing the overall configuration of a multi-style speech synthesis system capable of adjusting prosody using style tags described in natural language according to an embodiment of the present invention.
  • FIG. 8 is a diagram showing detailed configurations of a style tag encoder and an end-to-end speech synthesizer of a multi-style speech synthesis system capable of adjusting prosody using style tags described in natural language according to an embodiment of the present invention.
  • FIG. 9 is a view showing a style embedding space of a learned model of a multi-style speech synthesis system capable of controlling prosody by utilizing style tags described in natural language according to an embodiment of the present invention.
  • FIG. 4 is a diagram showing the configuration of a multi-style voice synthesis system capable of adjusting prosody using style tags described in natural language according to an embodiment of the present invention in functional blocks
  • FIG. 6 is a diagram showing the configuration of a style tag encoder of a multi-style speech synthesis system capable of controlling prosody using style tags described in natural language according to functional blocks
  • FIG. 6 is a style described in natural language according to an embodiment of the present invention. It is a diagram showing the configuration of a vertical voice synthesizer of a multi-style voice synthesis system capable of controlling rhyme using tags as functional blocks
  • FIG. 7 is a diagram showing prosody using style tags described in natural language according to an embodiment of the present invention
  • 8 is a diagram schematically showing the overall configuration of a multi-style speech synthesis system capable of adjustment
  • FIG. 8 is a style of a multi-style speech synthesis system capable of adjusting prosody using style tags described in natural language according to an embodiment of the present invention.
  • 9 is a diagram showing the detailed configuration of a tag encoder and a longitudinal speech synthesizer
  • FIG. 9 is a diagram of a learned model of a multi-style speech synthesis system capable of controlling prosody using style tags described in natural language according to an embodiment of the present invention. It is a diagram showing the style embedding space. As shown in FIGS.
  • the multi-style speech synthesis system 100 capable of adjusting prosody using style tags described in natural language according to an embodiment of the present invention includes a style tag encoder 110, It may be configured to include a longitudinal voice synthesizer 120 and a vocoder 130.
  • the style tag encoder 110 is a component that receives a style tag as an input and extracts and outputs a style embedding.
  • the style tag encoder 110 is a neural network-based language model learned through a large amount of text data, and includes a language model 111 that maps input text to a meaningful embedding space.
  • Adaptive layer 112 that receives the embedding extracted through the language model 111, transforms it into a form suitable for style speech synthesis, and outputs the style embedding to the longitudinal speech synthesizer 120.
  • the style tag may represent a speech style, such as the emotion of a voice to be synthesized, as a short text phrase or text expressed in words (e.g. #cheerful, #gloomy voice).
  • the language model 111 maps texts having similar meanings to an adjacent embedding space, and functions to synthesize a speech having a style corresponding to the style tags that have not been used during learning through such mapping characteristics.
  • the language model 111 may be implemented as a SentenceBERT (SBERT) model that functions to map input sentences into a meaningful embedding space so that sentences having similar meanings are located adjacently.
  • SBERT SentenceBERT
  • the adaptive layer 112 receives the embedding extracted through the language model 111 and outputs a style embedding transformed into a form suitable for style speech synthesis, and maps the output of the language model 111 to the style embedding. It may be composed of a multi-layer perceptron (MLP) network structure.
  • MLP multi-layer perceptron
  • the style tag encoder 110 may further include a reference encoder 113 that receives a reference voice as an input and outputs a style embedding.
  • the reference encoder 113 is a network that extracts a style embedding from a reference speech, and is a module used in an existing unsupervised learning-based style speech synthesis technology.
  • the longitudinal speech synthesizer 120 has a reference encoder ( 113) was input, and the style tag embedding was learned to be close to the reference embedding. Through this, the style tag embedding could learn the average characteristics of reference voices having the same style tag. Additionally, in this method, a reference voice other than a style tag can be used for synthesis, if necessary.
  • the vertical speech synthesizer 120 as a model for extracting a mel-spectrogram from text, is a component that generates a mel-spectrogram reflecting style information by using style embedding input from the style tag encoder 110. As shown in FIG. 6, the vertical speech synthesizer 120 converts text input into text embedding to have a length extended by the length of the mel-spectrogram by utilizing the duration information of each phonetic symbol of the input text. Including a text encoder 121 and a mel decoder 122 that synthesizes and outputs a mel-spectrogram using the text embedding lengthened through the text encoder 121 and the style embedding extracted from the style tag encoder 110 can be configured.
  • the vocoder 130 is a component that extracts voice from a mel-spectrogram reflecting style information input from the vertical voice synthesizer 120 .
  • the vocoder 130 may utilize the end-to-end speech synthesizer 120 and various deep learning-based models.
  • the vocoder 130 may output voice in which the style is reflected by utilizing a style tag given as text for style input.
  • FIG. 8 shows a detailed configuration of a style tag encoder and an end-to-end speech synthesizer of a multi-style speech synthesis system capable of controlling prosody by using style tags described in natural language according to an embodiment of the present invention.
  • FIG. 9 illustrates the present invention. It shows the style embedding space of the learned model of the multi-style speech synthesis system capable of controlling prosody by utilizing style tags described in natural language according to an embodiment of.
  • a specific embodiment of a multi-style voice synthesis system capable of adjusting prosody using a style tag described in natural language according to an embodiment of the present invention will be described with reference to the accompanying drawings.
  • a Korean voice dataset composed of voice, text, and style tags was collected for an experiment of a multi-style voice synthesis system capable of controlling prosody using style tags described in natural language according to an embodiment of the present invention.
  • the style tag dataset consists of about 327 style tags, which is about 26 hours of a single female speaker, and the style tags represent emotions, intentions, and voice tones.
  • the style tag encoder 110 and the longitudinal speech synthesizer 120 are configured, but the SentenceBERT (SBERT) model is used as the language model 111 of the style tag encoder 110, and the model is input It maps sentences to a meaningful embedding space so that sentences with similar meanings are located adjacently.
  • the language model 111 uses a pre-learned SBERT model using a large amount of text data, and is not further trained when constructing a speech synthesis system.
  • the adaptive layer 112 of the style tag encoder 110 is a network that maps the output of the language model 111 to the style embedding and has a multi-layer perception (MLP) structure.
  • MLP multi-layer perception
  • Reference encoder 113 is a network that extracts style embedding from reference speech, and is a module used in existing unsupervised learning-based style speech synthesis technology.
  • the style embedding output from is input, and the style tag embedding is learned to be close to the reference embedding.
  • the style tag embedding can learn the average characteristics of reference voices having the same style tag. Additionally, this method has the advantage that a reference voice other than a style tag can be used for synthesis as needed.
  • the longitudinal speech synthesizer 120 As the longitudinal speech synthesizer 120, a non-autoregressive based speech synthesizer, which has been actively researched recently, was used, and the model structure is a newly devised model for experiments, and is largely composed of a text encoder 121 and a Mel decoder 122.
  • the text encoder 121 is a module that converts text input into text embedding.
  • the text embedding is extended by the length of the Mel-spectrogram, and the length is increased by using the duration information of each phonetic symbol.
  • the duration information used at this time is obtained through a monotonic search alignment (MAS) algorithm during learning, and can be obtained using a duration predictor during generation.
  • MAS monotonic search alignment
  • the MEL decoder 122 synthesizes the MEL spectrogram using the lengthened text embedding and the previously extracted style embedding.
  • the training of this model is learned to reduce the L1 distance between the output of text and style tags input to the model and the answer Mel-spectrogram, and an objective expression to reduce the L2 distance between the style tag embedding and the reference embedding is added.
  • the style embedding space of the model learned using this model is shown in Fig. 9 using t-SNE. It is a tag.
  • tags having similar properties are placed adjacent to each other, and it can be confirmed that, in particular, even in the case of style tags not seen during learning, they are appropriately mapped.
  • Tacotron2-GST is a style voice synthesizer using a reference voice, and used the average of reference embeddings with a corresponding style tag as an input to give an input corresponding to the style tag.
  • CMOS Comparative Mean Opinion Score
  • the multi-style speech synthesis system 100 capable of adjusting prosody by utilizing style tags described in natural language is a method of utilizing style tags described in natural language as a style input, style tags
  • the user can intuitively input a speech style suitable for the purpose without being limited to a specific category.
  • styles corresponding to style tags that were not used during learning can be created using natural language processing technology, users can freely enter styles without being bound by a specific style, and the functions of existing speech synthesis technologies are included as they are.
  • it since it provides additional convenience to users, it can be widely applied by replacing the existing speech synthesis market.
  • the present invention can be applied to various speech synthesis services, and since the speech style can be adjusted based on natural language that humans can intuitively understand, it can provide much greater user convenience than other existing speech synthesis systems. .
  • the present invention can be widely used for various services such as AI assistant, audio book, and entertainment.
  • the multi-style speech synthesis system capable of adjusting prosody using style tags described in natural language according to an embodiment of the present invention includes a style tag encoder that receives style tags as input and extracts and outputs style embeddings.
  • a longitudinal speech synthesizer As a model for extracting a mel-spectrogram from text, a longitudinal speech synthesizer generating a mel-spectrogram reflecting style information using style embedding input from a style tag encoder, and style information input from the longitudinal speech synthesizer.
  • a vocoder that extracts voice from the Mel-spectrogram reflecting the Users can intuitively and easily adjust the style of voice by using style tags without the hassle of finding and inputting voices.
  • style tags given as text for style input in style speech synthesis
  • the language model trained in the language model we extract the embedding that implies meaning from the style tag given as text, and use it as a style input for the speech synthesizer to provide an intuitive and convenient style speech synthesis technology, and through the generalization function of the language model Even for style tags that were not used during learning, meaningful meanings can be extracted so that the style can be reflected.
  • the embedding extracted from the reference speech and the embedding extracted from the style tag can be modeled in the same space, and when learning is completed, any of the reference speech and style tag can be used.
  • a new style interface is added compared to the existing method, and it is applied as a concept of upward compatibility to various currently applied voice synthesis services so that the convenience and efficiency of use can be further improved. be able to

Abstract

According to a multi-style speech synthesis system capable of prosody control using a style tag described in natural language, proposed in the present invention, when synthesizing styled speech, a user can intuitively and easily control the style of speech using a style tag without limiting the number of styles that can be uttered by using existing style labels or reference speech, and without the hassle of finding and inputting reference speech every time the user utters.

Description

자연어로 기술되는 스타일 태그를 활용하여 운율 조절이 가능한 멀티 스타일 음성 합성 시스템A multi-style speech synthesis system that can adjust prosody using style tags described in natural language
본 발명은 멀티 스타일 음성 합성 시스템에 관한 것으로서, 보다 구체적으로는 자연어로 기술된 스타일 태그를 활용하여 사용자가 직관적으로 간편하게 음성의 스타일을 조절할 수 있도록 하는 자연어로 기술되는 스타일 태그를 활용하여 운율 조절이 가능한 멀티 스타일 음성 합성 시스템에 관한 것이다.The present invention relates to a multi-style voice synthesis system, and more specifically, by using a style tag described in natural language, which allows a user to intuitively and conveniently adjust a voice style, prosody can be controlled by using a style tag described in natural language. It is about a possible multi-style speech synthesis system.
음성 합성 시스템은 오디오북, 영상 편집, AI 스피커 등 다양한 분야에서 활용되는 기술이다. Markets and Markets는 음성 합성 시장의 규모가 2017년 기준 약 13억 달러 정도이며, 매년 15.2%의 성장을 통해 2022년에는 30.3억 달러에 미칠 것으로 전망하고 있다. 시장 규모의 성장과 함께 단순히 단조로운 목소리 합성을 넘어서 상황에 따라 다양한 감정 및 목소리 톤으로 발화하는 스타일 음성 합성 기술에 대한 수요도 함께 증가하고 있다.The voice synthesis system is a technology used in various fields such as audio books, video editing, and AI speakers. Markets and Markets predicts that the size of the speech synthesis market is about $ 1.3 billion as of 2017, and will reach $ 3.03 billion in 2022 through an annual growth rate of 15.2%. Along with the growth of the market size, the demand for style voice synthesis technology that utters with various emotions and voice tones according to the situation beyond simple voice synthesis is also increasing.
최근 딥러닝 기반의 종단형 음성 합성 시스템은 텍스트와 음성 쌍으로 구성된 데이터셋을 활용해 학습되어 실제 인간의 목소리에 버금가는 퀄리티를 보이고 있다. 이러한 종단형 음성 합성 시스템은 주로 텍스트로부터 음성의 주파수 특성인 멜-스펙트로그램을 생성하는 어쿠스틱 모델과 멜-스펙트로그램으로부터 음성을 생성해내는 보코더로 구성된다. 여기서, 어쿠스틱 모델은 딥러닝 기반의 생성모델을 활용하여 주로 구현되는데 대표적으로 타코트론(Tacotron)과 같은 어텐션 메커니즘을 활용한 자기회귀 기반의 모델이 있다. 자기회귀 기반의 모델의 경우 멜-스펙트로그램을 한 프레임씩 순차적으로 생성하기 때문에 생성 속도가 비교적 느리다는 단점이 있다.Recently, a deep learning-based longitudinal speech synthesis system has been trained using a dataset composed of text and voice pairs, and shows a quality comparable to that of a real human voice. This longitudinal speech synthesis system mainly consists of an acoustic model that generates a mel-spectrogram, which is a frequency characteristic of voice, from text, and a vocoder that generates a voice from the mel-spectrogram. Here, the acoustic model is mainly implemented using a deep learning-based generative model. Representatively, there is an autoregressive-based model using an attention mechanism such as Tacotron. In the case of an autoregressive model, since the Mel-spectrogram is sequentially generated frame by frame, the generation speed is relatively slow.
최근에는 텍스트를 음성의 길이만큼 늘린 다음 모든 프레임을 동시에 생성하는 비자기회귀 기반의 모델에 관한 연구가 활발히 진행되고 있다. 대표적인 비자기회귀 기반의 음성 합성 모델로는 FastSpeech, Glow-TTS 등이 있다. 이러한 비자기회귀 기반의 모델은 모든 프레임을 동시에 생성하기 때문에 생성 속도가 매우 빠르지만 프레임 간의 종속성을 반영하지 못해 퀄리티가 다소 떨어진다는 문제점이 있었다. 하지만 딥러닝 기반의 생성모델 성능향상으로 인해 이러한 문제점을 개선하여 최근에는 자기회귀 기반의 모델에 비해 더욱 뛰어난 모델도 나타나고 있다.Recently, research on a non-autoregressive model that stretches text to the length of speech and then generates all frames at the same time has been actively conducted. Representative nonautoregressive speech synthesis models include FastSpeech and Glow-TTS. This non-autoregressive model generates all frames at the same time, so the generation speed is very fast. However, due to the improvement in the performance of deep learning-based generative models, these problems have been improved, and recently, models that are more excellent than autoregressive-based models have appeared.
또한, 스타일 음성 합성은 합성할 음성의 스타일을 조절할 수 있는 합성 기술을 의미한다. 이때, 스타일이란 감정, 목소리 톤, 의도, 화자 등 발화 내용과는 별개로 추가적인 정보를 제공할 수 있는 요소들을 의미한다. 스타일 음성 합성에서는 발화 스타일을 통제하기 위해 스타일에 관한 입력을 필요로 한다. 하지만 스타일은 명확하게 구분될 수 있는 개념이 아니므로 이러한 부분에 어려움이 있고, 따라서 주로 스타일 라벨을 활용하거나 참조 음성을 사용하는 방식을 활용한다. 스타일 라벨을 활용할 경우 데이터 수집 시 각 데이터마다 해당 음성이 어떤 스타일을 가지는지 라벨링을 해야 하고, 이 경우 해당 라벨을 음성 합성 모델에 컨디셔닝 하여 스타일 정보가 반영되도록 학습한다.In addition, style voice synthesis refers to a synthesis technique capable of adjusting the style of a voice to be synthesized. At this time, the style means elements that can provide additional information independently of the content of speech, such as emotion, tone of voice, intention, and speaker. In style speech synthesis, style-related input is required to control the speech style. However, since style is not a concept that can be clearly distinguished, there are difficulties in this part, and therefore, a style label or a reference voice is mainly used. When style labels are used, when collecting data, each data must be labeled with what style the corresponding voice has.
한편, 참조 음성을 사용하는 경우 레퍼런스 인코더를 활용해 참조 음성으로부터 레퍼런스 임베딩을 추출한다. 이러한 레퍼런스 임베딩은 음성 합성 모델이 합성을 할 때 해당 스타일을 반영할 수 있도록 컨디셔닝 되고, 레퍼런스 인코더는 합성에 필요한 스타일 정보를 추출할 수 있도록 학습된다. 이와 같이, 학습할 때는 주로 생성하고자 하는 학습 음성을 참조 음성으로 활용하고 생성할 때는 원하는 스타일을 가지는 음성을 참조 음성으로 활용한다. 위와 같은 스타일 음성 합성의 경우 다양한 종단형 음성 합성 모델을 변형하여 활용할 수 있다.On the other hand, when using a reference voice, a reference encoder is used to extract reference embedding from the reference voice. These reference embeddings are conditioned so that the speech synthesis model can reflect the corresponding style when synthesizing, and the reference encoder is trained to extract style information necessary for synthesis. In this way, when learning, a learning voice to be generated is mainly used as a reference voice, and when generating, a voice having a desired style is used as a reference voice. In the case of the above style speech synthesis, various longitudinal speech synthesis models can be modified and used.
이와 같이, 스타일 음성 합성의 스타일 입력은 주로 스타일 라벨이나 참조 음성을 활용하며, 스타일 라벨의 원하는 스타일을 간편하게 사용할 수 있다는 장점이 있지만, 미리 정해진 카테고리 내의 스타일로 제한되게 된다. 이는 다양한 발화 스타일을 표현하는 데에 큰 한계점으로 작용하게 된다. 또한, 카테고리의 크기를 매우 크게 할 경우 이러한 문제가 다소 해결되지만, 사용자는 카테고리 내에서 선택을 해야 하기 때문에 선택지가 많아질 경우 결정에 어려움을 겪을 수 있다. 반대로 참조 음성을 활용하는 경우에는 어떠한 스타일의 음성이라도 표현할 수 있다는 장점이 있지만 매 생성할 때마다 참조 음성을 선택해야 하고 이는 참조 음성을 확인하는 과정을 동반하기 때문에 불편함이 있을 뿐만 아니라, 참조 음성의 여러 성질 중 사용자가 원하는 성질이 반드시 추출될 수 있다는 것도 보장하기 힘들게 되는 한계가 따르는 문제가 있었다.In this way, the style input of the style speech synthesis mainly utilizes a style label or a reference voice, and has an advantage of being able to conveniently use a desired style of the style label, but is limited to styles within a predetermined category. This acts as a major limitation in expressing various speech styles. In addition, if the size of the category is very large, this problem is somewhat solved, but since the user has to make a selection within the category, it may be difficult to make a decision when there are many options. Conversely, when using a reference voice, it has the advantage of being able to express any style of voice, but it is inconvenient because a reference voice must be selected every time it is created, which accompanies the process of checking the reference voice. There is a problem with limitations that make it difficult to ensure that among the various properties of the user, the properties desired by the user can be extracted without fail.
도 1은 종래의 종단형 음성합성 시스템의 구성을 개략적으로 도시한 도면이고, 도 2는 종래의 텍스트와 음성으로 이루어지는 데이터셋의 구성을 도시한 도면이며, 도 3은 종래의 스타일 라벨 또는 참조 음성으로 입력이 이루어지는 스타일 입력의 구성을 도시한 도면이다.Figure 1 is a diagram schematically showing the configuration of a conventional longitudinal speech synthesis system, Figure 2 is a diagram showing the configuration of a conventional dataset consisting of text and voice, Figure 3 is a conventional style label or reference voice It is a diagram showing the configuration of style input in which an input is made with .
본 발명은 기존에 제안된 방법들의 상기와 같은 문제점들을 해결하기 위해 제안된 것으로서, 스타일 태그를 인풋으로 받아서 스타일 임베딩을 추출하여 출력하는 스타일 태그 인코더와, 텍스트로부터 멜-스펙트로그램을 추출하는 모델로서, 스타일 태그 인코더로부터 입력되는 스타일 임베딩을 이용하여 스타일 정보를 반영한 멜-스펙트로그램을 생성하는 종단형 음성 합성기와, 종단형 음성 합성기로부터 입력되는 스타일 정보를 반영한 멜-스펙트로그램으로부터 음성을 추출하는 보코더를 포함하여 구성함으로써, 스타일 음성 합성 시 기존의 스타일 라벨이나 참조 음성을 활용함에 따른 발화할 수 있는 스타일 개수의 제한과, 사용자가 발화할 때마다 참조 음성을 찾아 입력해야 하는 번거로움 없이 스타일 태그를 활용하여 사용자가 직관적으로 간편하게 음성의 스타일을 조절할 수 있도록 하는, 자연어로 기술되는 스타일 태그를 활용하여 운율 조절이 가능한 멀티 스타일 음성 합성 시스템을 제공하는 것을 그 목적으로 한다.The present invention is proposed to solve the above problems of the previously proposed methods, and includes a style tag encoder that receives a style tag as an input, extracts and outputs a style embedding, and a model that extracts a Mel-spectrogram from text. , A longitudinal speech synthesizer generating a Mel-spectrogram reflecting style information using style embedding input from the style tag encoder, and a vocoder extracting voice from the Mel-spectrogram reflecting style information input from the longitudinal speech synthesizer. By configuring it to include, when synthesizing style voice, the number of styles that can be uttered is limited due to the use of existing style labels or reference voices, and style tags are created without the hassle of finding and inputting reference voices every time a user utters. An object of the present invention is to provide a multi-style speech synthesis system capable of controlling prosody by utilizing style tags described in natural language, which allow users to intuitively and easily adjust the style of voice.
또한, 본 발명은, 스타일 음성 합성에서 스타일 입력을 위해 텍스트로 주어진 스타일 태그를 활용함으로써, 사전에 학습된 언어 모델을 이용하여 텍스트로 주어진 스타일 태그로부터 의미를 내포한 임베딩을 추출하고, 이를 음성 합성기의 스타일 입력으로 활용하여 직관적이고 간편한 스타일 음성 합성 기술을 제공하고, 언어 모델의 일반화 기능을 통해 학습 때 사용되지 않았던 스타일 태그에 대해서도 유의미한 의미를 추출하여 해당 스타일을 반영할 수 있도록 하는, 자연어로 기술되는 스타일 태그를 활용하여 운율 조절이 가능한 멀티 스타일 음성 합성 시스템을 제공하는 것을 또 다른 목적으로 한다.In addition, the present invention extracts an embedding containing meaning from a style tag given as text using a language model learned in advance by utilizing a style tag given as text for style input in style speech synthesis, and extracts an embedding containing meaning from the style tag given as text using a language model learned in advance, and converts the embedding into a speech synthesizer. Natural language technology that provides intuitive and convenient style speech synthesis technology by using it as a style input, and extracts meaningful meaning for style tags that were not used during learning through the generalization function of the language model to reflect the style. Another object of the present invention is to provide a multi-style speech synthesis system capable of controlling prosody by utilizing a style tag that can be used.
뿐만 아니라, 본 발명은, 스타일 태그 인코더에 참조 인코더를 더 포함하여 구성함으로써, 참조 음성으로부터 추출된 임베딩과 스타일 태그로부터 추출된 임베딩을 동일한 공간에서 모델링하고, 학습이 완료되었을 때 참조 음성과 스타일 태그 중 어느 것을 사용해도 된다는 장점이 있으며, 그로 인해 기존 방법에 비해 새로운 스타일 인터페이스가 추가되는 것으로 볼 수 있고, 현재 적용되고 있는 다양한 음성 합성 서비스에 상위호환의 개념으로 적용되어 사용의 편의성 및 효율성이 더욱 향상될 수 있도록 하는, 자연어로 기술되는 스타일 태그를 활용하여 운율 조절이 가능한 멀티 스타일 음성 합성 시스템을 제공하는 것을 또 다른 목적으로 한다.In addition, the present invention models the embedding extracted from the reference speech and the embedding extracted from the style tag in the same space by configuring the style tag encoder to further include a reference encoder, and when learning is completed, the reference speech and the style tag There is an advantage that any of them can be used, and as a result, a new style interface can be added compared to the existing method, and it is applied as a concept of upward compatibility to various voice synthesis services that are currently applied, so that the convenience and efficiency of use are further improved. Another object is to provide a multi-style speech synthesis system capable of adjusting prosody by utilizing style tags described in natural language, which can be improved.
상기한 목적을 달성하기 위한 본 발명의 특징에 따른 자연어로 기술되는 스타일 태그를 활용하여 운율 조절이 가능한 멀티 스타일 음성 합성 시스템은,In order to achieve the above object, a multi-style speech synthesis system capable of adjusting prosody using style tags described in natural language according to the characteristics of the present invention,
자연어로 기술되는 스타일 태그를 활용하여 운율 조절이 가능한 멀티 스타일 음성 합성 시스템으로서,As a multi-style speech synthesis system that can control prosody using style tags described in natural language,
스타일 태그를 인풋으로 받아서 스타일 임베딩을 추출하여 출력하는 스타일 태그 인코더;A style tag encoder that receives style tags as input and extracts and outputs style embeddings;
텍스트로부터 멜-스펙트로그램을 추출하는 모델로서, 상기 스타일 태그 인코더로부터 입력되는 스타일 임베딩을 이용하여 스타일 정보를 반영한 멜-스펙트로그램을 생성하는 종단형 음성 합성기; 및A model for extracting a mel-spectrogram from text, comprising: a longitudinal speech synthesizer for generating a mel-spectrogram reflecting style information using style embedding input from the style tag encoder; and
상기 종단형 음성 합성기로부터 입력되는 스타일 정보를 반영한 멜-스펙트로그램으로부터 음성을 추출하는 보코더를 포함하는 것을 그 구성상의 특징으로 한다.It is characterized in that it includes a vocoder for extracting voice from the mel-spectrogram reflecting the style information input from the vertical voice synthesizer.
바람직하게는, 상기 스타일 태그 인코더는,Preferably, the style tag encoder,
대량의 텍스트 데이터를 통해 학습된 뉴럴 네트워크 기반의 언어 모델로서, 입력 텍스트를 유의미한 임베딩 공간으로의 매핑을 수행하는 언어 모델; 및A language model based on a neural network learned through a large amount of text data, which maps input text to a meaningful embedding space; and
상기 언어 모델을 통해 추출된 임베딩을 입력받아 스타일 음성 합성에 적합한 형태로 변형하여 상기 종단형 음성 합성기에 스타일 임베딩을 출력하는 적응형 레이어를 포함하여 구성할 수 있다.It may be configured to include an adaptive layer that receives the embedding extracted through the language model, transforms it into a form suitable for style speech synthesis, and outputs the style embedding to the longitudinal speech synthesizer.
더욱 바람직하게는, 상기 언어 모델은,More preferably, the language model,
유사한 의미를 갖는 텍스트를 인접한 임베딩 공간으로 매핑하고, 이러한 매핑 특성을 통해 학습 때 사용되지 않은 스타일 태그가 입력되더라도 그에 상응하는 스타일을 갖는 음성을 합성할 수 있도록 기능할 수 있다.Texts with similar meanings can be mapped to an adjacent embedding space, and through this mapping characteristic, even if a style tag not used in learning is input, it can function to synthesize a voice having a style corresponding to it.
더욱 더 바람직하게는, 상기 언어 모델은,Even more preferably, the language model comprises:
입력 문장을 유의미한 임베딩 공간으로 매핑해주어 유사한 의미를 갖는 문장이 인접하게 위치하도록 기능하는 SentenceBERT(SBERT) 모델로 구현될 수 있다.It can be implemented as a SentenceBERT (SBERT) model that maps input sentences to a meaningful embedding space so that sentences with similar meanings are located adjacently.
더욱 바람직하게는, 상기 적응형 레이어는,More preferably, the adaptive layer,
상기 언어 모델을 통해 추출된 임베딩을 입력받아 스타일 음성 합성에 적합한 형태로 변형한 스타일 임베딩을 출력하되, 언어 모델의 출력을 스타일 임베딩으로 매핑하는 MLP(Multi Layer Perceptron) 네트워크 구조로 구성될 수 있다.It may be configured with a multi-layer perceptron (MLP) network structure that receives the embedding extracted through the language model and outputs a style embedding transformed into a form suitable for style speech synthesis, and maps the output of the language model to the style embedding.
바람직하게는, 상기 스타일 태그 인코더는,Preferably, the style tag encoder,
참조 음성을 인풋으로 받아서 스타일 임베딩을 출력하는 참조 인코더(Reference Encoder)를 더 포함하여 구성할 수 있다.It can be configured to further include a reference encoder that receives a reference voice as an input and outputs style embedding.
더욱 바람직하게는, 상기 종단형 음성 합성기는,More preferably, the end-to-end speech synthesizer,
입력되는 텍스트의 각 발음기호의 듀레이션 정보를 활용하여 멜-스펙트로그램의 길이만큼 확장한 길이를 갖도록 텍스트 입력을 텍스트 임베딩으로 변환하는 텍스트 인코더; 및a text encoder that converts the text input into text embedding to have a length extended by the length of the mel-spectrogram by utilizing duration information of each phonetic symbol of the input text; and
상기 텍스트 인코더를 통해 길이가 늘어난 텍스트 임베딩과 상기 스타일 태그 인코더에서 추출한 스타일 임베딩을 이용하여 멜-스펙트로그램을 합성하여 출력하는 멜 디코더를 포함하여 구성할 수 있다.A Mel decoder synthesizing and outputting a Mel-spectrogram using the text embedding whose length has been increased through the text encoder and the style embedding extracted from the style tag encoder may be included.
본 발명에서 제안하고 있는 자연어로 기술되는 스타일 태그를 활용하여 운율 조절이 가능한 멀티 스타일 음성 합성 시스템에 따르면, 스타일 태그를 인풋으로 받아서 스타일 임베딩을 추출하여 출력하는 스타일 태그 인코더와, 텍스트로부터 멜-스펙트로그램을 추출하는 모델로서, 스타일 태그 인코더로부터 입력되는 스타일 임베딩을 이용하여 스타일 정보를 반영한 멜-스펙트로그램을 생성하는 종단형 음성 합성기와, 종단형 음성 합성기로부터 입력되는 스타일 정보를 반영한 멜-스펙트로그램으로부터 음성을 추출하는 보코더를 포함하여 구성함으로써, 스타일 음성 합성 시 기존의 스타일 라벨이나 참조 음성을 활용함에 따른 발화할 수 있는 스타일 개수의 제한과, 사용자가 발화할 때마다 참조 음성을 찾아 입력해야 하는 번거로움 없이 스타일 태그를 활용하여 사용자가 직관적으로 간편하게 음성의 스타일을 조절할 수 있도록 할 수 있다.According to the multi-style speech synthesis system that can control prosody using style tags described in natural language proposed in the present invention, a style tag encoder that receives style tags as input and extracts and outputs style embeddings, and converts text to Mel-Spect. As a model for extracting a gram, a longitudinal speech synthesizer generating a mel-spectrogram reflecting style information using a style embedding input from a style tag encoder, and a mel-spectrogram reflecting style information input from the longitudinal speech synthesizer. By including a vocoder that extracts voice from, the limit on the number of styles that can be uttered due to the use of existing style labels or reference voices when synthesizing style voices, and the need to find and input reference voices each time a user utters It is possible to allow the user to intuitively and easily adjust the style of the voice by using the style tag without any hassle.
또한, 본 발명의 자연어로 기술되는 스타일 태그를 활용하여 운율 조절이 가능한 멀티 스타일 음성 합성 시스템에 따르면, 스타일 음성 합성에서 스타일 입력을 위해 텍스트로 주어진 스타일 태그를 활용함으로써, 사전에 학습된 언어 모델을 이용하여 텍스트로 주어진 스타일 태그로부터 의미를 내포한 임베딩을 추출하고, 이를 음성 합성기의 스타일 입력으로 활용하여 직관적이고 간편한 스타일 음성 합성 기술을 제공하고, 언어 모델의 일반화 기능을 통해 학습 때 사용되지 않았던 스타일 태그에 대해서도 유의미한 의미를 추출하여 해당 스타일을 반영할 수 있도록 할 수 있다.In addition, according to the multi-style speech synthesis system capable of controlling rhyme by using style tags described in natural language of the present invention, a style tag given as text is used for style input in style speech synthesis, so that a language model learned in advance can be used. It extracts embeddings with meaning from style tags given as text, uses them as style inputs to the speech synthesizer to provide intuitive and convenient style speech synthesis technology, and styles that were not used during learning through the generalization function of the language model. Significant meanings can also be extracted from tags so that the style can be reflected.
뿐만 아니라, 본 발명의 자연어로 기술되는 스타일 태그를 활용하여 운율 조절이 가능한 멀티 스타일 음성 합성 시스템에 따르면, 스타일 태그 인코더에 참조 인코더를 더 포함하여 구성함으로써, 참조 음성으로부터 추출된 임베딩과 스타일 태그로부터 추출된 임베딩을 동일한 공간에서 모델링하고, 학습이 완료되었을 때 참조 음성과 스타일 태그 중 어느 것을 사용해도 된다는 장점이 있으며, 그로 인해 기존 방법에 비해 새로운 스타일 인터페이스가 추가되는 것으로 볼 수 있고, 현재 적용되고 있는 다양한 음성 합성 서비스에 상위호환의 개념으로 적용되어 사용의 편의성 및 효율성이 더욱 향상될 수 있도록 할 수 있다.In addition, according to the multi-style speech synthesis system capable of controlling prosody using style tags described in natural language of the present invention, a reference encoder is further included in the style tag encoder, so that embeddings extracted from reference speech and style tags are obtained. It has the advantage of modeling the extracted embedding in the same space and using either the reference voice or style tag when learning is complete, which can be seen as adding a new style interface compared to the existing method, and is currently applied It can be applied to various voice synthesis services as an upward compatible concept so that the convenience and efficiency of use can be further improved.
도 1은 종래의 종단형 음성합성 시스템의 구성을 개략적으로 도시한 도면.1 is a diagram schematically showing the configuration of a conventional end-to-end speech synthesis system;
도 2는 종래의 텍스트와 음성으로 이루어지는 데이터셋의 구성을 도시한 도면.2 is a diagram showing the configuration of a conventional data set consisting of text and voice;
도 3은 종래의 스타일 라벨 또는 참조 음성으로 입력이 이루어지는 스타일 입력의 구성을 도시한 도면.3 is a diagram showing the configuration of a style input in which an input is made with a conventional style label or reference voice;
도 4는 본 발명의 일실시예에 따른 자연어로 기술되는 스타일 태그를 활용하여 운율 조절이 가능한 멀티 스타일 음성 합성 시스템의 구성을 기능블록으로 도시한 도면.4 is a diagram showing the configuration of a multi-style voice synthesis system capable of adjusting prosody using style tags described in natural language according to an embodiment of the present invention in functional blocks.
도 5는 본 발명의 일실시예에 따른 자연어로 기술되는 스타일 태그를 활용하여 운율 조절이 가능한 멀티 스타일 음성 합성 시스템의 스타일 태그 인코더의 구성을 기능블록으로 도시한 도면.5 is a diagram showing the configuration of a style tag encoder of a multi-style speech synthesis system capable of adjusting prosody using style tags described in natural language according to an embodiment of the present invention as functional blocks.
도 6은 본 발명의 일실시예에 따른 자연어로 기술되는 스타일 태그를 활용하여 운율 조절이 가능한 멀티 스타일 음성 합성 시스템의 종단형 음성 합성기의 구성을 기능블록으로 도시한 도면.6 is a diagram showing the configuration of a longitudinal voice synthesizer of a multi-style voice synthesis system capable of controlling prosody using style tags described in natural language according to an embodiment of the present invention as functional blocks.
도 7은 본 발명의 일실시예에 따른 자연어로 기술되는 스타일 태그를 활용하여 운율 조절이 가능한 멀티 스타일 음성 합성 시스템의 전체 구성을 개략적으로 도시한 도면.7 is a diagram schematically showing the overall configuration of a multi-style speech synthesis system capable of adjusting prosody using style tags described in natural language according to an embodiment of the present invention.
도 8은 본 발명의 일실시예에 따른 자연어로 기술되는 스타일 태그를 활용하여 운율 조절이 가능한 멀티 스타일 음성 합성 시스템의 스타일 태그 인코더와 종단형 음성 합성기의 상세 구성을 도시한 도면.FIG. 8 is a diagram showing detailed configurations of a style tag encoder and an end-to-end speech synthesizer of a multi-style speech synthesis system capable of adjusting prosody using style tags described in natural language according to an embodiment of the present invention.
도 9는 본 발명의 일실시예에 따른 자연어로 기술되는 스타일 태그를 활용하여 운율 조절이 가능한 멀티 스타일 음성 합성 시스템의 학습된 모델의 스타일 임베딩 공간을 도시한 도면.9 is a view showing a style embedding space of a learned model of a multi-style speech synthesis system capable of controlling prosody by utilizing style tags described in natural language according to an embodiment of the present invention.
<부호의 설명><Description of codes>
100: 본 발명의 일실시예에 따른 멀티 스타일 음성 합성 시스템100: Multi-style voice synthesis system according to an embodiment of the present invention
110: 스타일 태그 인코더110: style tag encoder
111: 언어 모델111: language model
112: 적응형 레이어112: adaptive layer
113: 참조 인코더113: reference encoder
120: 종단형 음성 합성기120: end-to-end speech synthesizer
121: 텍스트 인코더121: text encoder
122: 멜 디코더122: Mel decoder
130: 보코더130: Vocoder
이하, 첨부된 도면을 참조하여 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 바람직한 실시예를 상세히 설명한다. 다만, 본 발명의 바람직한 실시예를 상세하게 설명함에 있어, 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다. 또한, 유사한 기능 및 작용을 하는 부분에 대해서는 도면 전체에 걸쳐 동일한 부호를 사용한다.Hereinafter, preferred embodiments will be described in detail so that those skilled in the art can easily practice the present invention with reference to the accompanying drawings. However, in describing a preferred embodiment of the present invention in detail, if it is determined that a detailed description of a related known function or configuration may unnecessarily obscure the gist of the present invention, the detailed description will be omitted. In addition, the same reference numerals are used throughout the drawings for parts having similar functions and actions.
덧붙여, 명세서 전체에서, 어떤 부분이 다른 부분과 ‘연결’ 되어 있다고 할 때, 이는 ‘직접적으로 연결’ 되어 있는 경우뿐만 아니라, 그 중간에 다른 소자를 사이에 두고 ‘간접적으로 연결’ 되어 있는 경우도 포함한다. 또한, 어떤 구성요소를 ‘포함’ 한다는 것은, 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다.In addition, throughout the specification, when a part is said to be 'connected' to another part, this is not only the case where it is 'directly connected', but also the case where it is 'indirectly connected' with another element in between. include In addition, 'including' a certain component means that other components may be further included, rather than excluding other components unless otherwise specified.
도 4는 본 발명의 일실시예에 따른 자연어로 기술되는 스타일 태그를 활용하여 운율 조절이 가능한 멀티 스타일 음성 합성 시스템의 구성을 기능블록으로 도시한 도면이고, 도 5는 본 발명의 일실시예에 따른 자연어로 기술되는 스타일 태그를 활용하여 운율 조절이 가능한 멀티 스타일 음성 합성 시스템의 스타일 태그 인코더의 구성을 기능블록으로 도시한 도면이며, 도 6은 본 발명의 일실시예에 따른 자연어로 기술되는 스타일 태그를 활용하여 운율 조절이 가능한 멀티 스타일 음성 합성 시스템의 종단형 음성 합성기의 구성을 기능블록으로 도시한 도면이고, 도 7은 본 발명의 일실시예에 따른 자연어로 기술되는 스타일 태그를 활용하여 운율 조절이 가능한 멀티 스타일 음성 합성 시스템의 전체 구성을 개략적으로 도시한 도면이며, 도 8은 본 발명의 일실시예에 따른 자연어로 기술되는 스타일 태그를 활용하여 운율 조절이 가능한 멀티 스타일 음성 합성 시스템의 스타일 태그 인코더와 종단형 음성 합성기의 상세 구성을 도시한 도면이고, 도 9는 본 발명의 일실시예에 따른 자연어로 기술되는 스타일 태그를 활용하여 운율 조절이 가능한 멀티 스타일 음성 합성 시스템의 학습된 모델의 스타일 임베딩 공간을 도시한 도면이다. 도 4 내지 도 9에 각각 도시된 바와 같이, 본 발명의 일실시예에 따른 자연어로 기술되는 스타일 태그를 활용하여 운율 조절이 가능한 멀티 스타일 음성 합성 시스템(100)은, 스타일 태그 인코더(110), 종단형 음성 합성기(120), 및 보코더(130)를 포함하여 구성될 수 있다.4 is a diagram showing the configuration of a multi-style voice synthesis system capable of adjusting prosody using style tags described in natural language according to an embodiment of the present invention in functional blocks, and FIG. 6 is a diagram showing the configuration of a style tag encoder of a multi-style speech synthesis system capable of controlling prosody using style tags described in natural language according to functional blocks, and FIG. 6 is a style described in natural language according to an embodiment of the present invention. It is a diagram showing the configuration of a vertical voice synthesizer of a multi-style voice synthesis system capable of controlling rhyme using tags as functional blocks, and FIG. 7 is a diagram showing prosody using style tags described in natural language according to an embodiment of the present invention 8 is a diagram schematically showing the overall configuration of a multi-style speech synthesis system capable of adjustment, and FIG. 8 is a style of a multi-style speech synthesis system capable of adjusting prosody using style tags described in natural language according to an embodiment of the present invention. 9 is a diagram showing the detailed configuration of a tag encoder and a longitudinal speech synthesizer, and FIG. 9 is a diagram of a learned model of a multi-style speech synthesis system capable of controlling prosody using style tags described in natural language according to an embodiment of the present invention. It is a diagram showing the style embedding space. As shown in FIGS. 4 to 9, the multi-style speech synthesis system 100 capable of adjusting prosody using style tags described in natural language according to an embodiment of the present invention includes a style tag encoder 110, It may be configured to include a longitudinal voice synthesizer 120 and a vocoder 130.
스타일 태그 인코더(110)는, 스타일 태그를 인풋으로 받아서 스타일 임베딩을 추출하여 출력하는 구성이다. 이러한 스타일 태그 인코더(110)는 도 5에 도시된 바와 같이, 대량의 텍스트 데이터를 통해 학습된 뉴럴 네트워크 기반의 언어 모델로서, 입력 텍스트를 유의미한 임베딩 공간으로의 매핑을 수행하는 언어 모델(111)과, 언어 모델(111)을 통해 추출된 임베딩을 입력받아 스타일 음성 합성에 적합한 형태로 변형하여 종단형 음성 합성기(120)에 스타일 임베딩을 출력하는 적응형 레이어(112)를 포함하여 구성할 수 있다. 여기서, 스타일 태그는 합성하고자 하는 음성의 감정 등의 발화 스타일을 짧은 텍스트 구문이나 단어로 표현한 텍스트(e.g. #경쾌하게, #우울한 목소리로)로 나타낼 수 있다.The style tag encoder 110 is a component that receives a style tag as an input and extracts and outputs a style embedding. As shown in FIG. 5, the style tag encoder 110 is a neural network-based language model learned through a large amount of text data, and includes a language model 111 that maps input text to a meaningful embedding space. , Adaptive layer 112 that receives the embedding extracted through the language model 111, transforms it into a form suitable for style speech synthesis, and outputs the style embedding to the longitudinal speech synthesizer 120. Here, the style tag may represent a speech style, such as the emotion of a voice to be synthesized, as a short text phrase or text expressed in words (e.g. #cheerful, #gloomy voice).
또한, 언어 모델(111)은 유사한 의미를 갖는 텍스트를 인접한 임베딩 공간으로 매핑하고, 이러한 매핑 특성을 통해 학습 때 사용되지 않은 스타일 태그가 입력되더라도 그에 상응하는 스타일을 갖는 음성을 합성할 수 있도록 기능할 수 있다. 여기서, 언어 모델(111)은 입력 문장을 유의미한 임베딩 공간으로 매핑해주어 유사한 의미를 갖는 문장이 인접하게 위치하도록 기능하는 SentenceBERT(SBERT) 모델로 구현될 수 있다.In addition, the language model 111 maps texts having similar meanings to an adjacent embedding space, and functions to synthesize a speech having a style corresponding to the style tags that have not been used during learning through such mapping characteristics. can Here, the language model 111 may be implemented as a SentenceBERT (SBERT) model that functions to map input sentences into a meaningful embedding space so that sentences having similar meanings are located adjacently.
또한, 적응형 레이어(112)는 언어 모델(111)을 통해 추출된 임베딩을 입력받아 스타일 음성 합성에 적합한 형태로 변형한 스타일 임베딩을 출력하되, 언어 모델(111)의 출력을 스타일 임베딩으로 매핑하는 MLP(Multi Layer Perceptron) 네트워크 구조로 구성될 수 있다.In addition, the adaptive layer 112 receives the embedding extracted through the language model 111 and outputs a style embedding transformed into a form suitable for style speech synthesis, and maps the output of the language model 111 to the style embedding. It may be composed of a multi-layer perceptron (MLP) network structure.
스타일 태그 인코더(110)는 참조 음성을 인풋으로 받아서 스타일 임베딩을 출력하는 참조 인코더(Reference Encoder)(113)를 더 포함하여 구성할 수 있다. 여기서, 참조 인코더(113)는 참조 음성으로부터 스타일 임베딩을 추출하는 네트워크로, 기존의 비지도 학습 기반의 스타일 음성 합성 기술에서 활용되는 모듈로서, 모델 학습 시 종단형 음성 합성기(120)에는 참조 인코더(113)로부터 출력된 스타일 임베딩을 입력하고, 스타일 태그 임베딩은 레퍼런스 임베딩과 가까워지도록 학습을 하였는데 이를 통해 스타일 태그 임베딩이 동일한 스타일 태그를 가지는 참조 음성들의 평균적인 특성을 학습할 수 있도록 하였다. 추가적으로 이러한 방법은 필요에 따라 스타일 태그가 아닌 참조 음성도 합성에 사용할 수 있도록 할 수 있다.The style tag encoder 110 may further include a reference encoder 113 that receives a reference voice as an input and outputs a style embedding. Here, the reference encoder 113 is a network that extracts a style embedding from a reference speech, and is a module used in an existing unsupervised learning-based style speech synthesis technology. When learning a model, the longitudinal speech synthesizer 120 has a reference encoder ( 113) was input, and the style tag embedding was learned to be close to the reference embedding. Through this, the style tag embedding could learn the average characteristics of reference voices having the same style tag. Additionally, in this method, a reference voice other than a style tag can be used for synthesis, if necessary.
종단형 음성 합성기(120)는, 텍스트로부터 멜-스펙트로그램을 추출하는 모델로서, 스타일 태그 인코더(110)로부터 입력되는 스타일 임베딩을 이용하여 스타일 정보를 반영한 멜-스펙트로그램을 생성하는 구성이다. 이러한 종단형 음성 합성기(120)는 도 6에 도시된 바와 같이, 입력되는 텍스트의 각 발음기호의 듀레이션 정보를 활용하여 멜-스펙트로그램의 길이만큼 확장한 길이를 갖도록 텍스트 입력을 텍스트 임베딩으로 변환하는 텍스트 인코더(121)와, 텍스트 인코더(121)를 통해 길이가 늘어난 텍스트 임베딩과 스타일 태그 인코더(110)에서 추출한 스타일 임베딩을 이용하여 멜-스펙트로그램을 합성하여 출력하는 멜 디코더(122)를 포함하여 구성할 수 있다.The vertical speech synthesizer 120, as a model for extracting a mel-spectrogram from text, is a component that generates a mel-spectrogram reflecting style information by using style embedding input from the style tag encoder 110. As shown in FIG. 6, the vertical speech synthesizer 120 converts text input into text embedding to have a length extended by the length of the mel-spectrogram by utilizing the duration information of each phonetic symbol of the input text. Including a text encoder 121 and a mel decoder 122 that synthesizes and outputs a mel-spectrogram using the text embedding lengthened through the text encoder 121 and the style embedding extracted from the style tag encoder 110 can be configured.
보코더(130)는, 종단형 음성 합성기(120)로부터 입력되는 스타일 정보를 반영한 멜-스펙트로그램으로부터 음성을 추출하는 구성이다. 이러한 보코더(130)는 종단형 음성 합성기(120)와 다양한 딥러닝 기반의 모델을 활용할 수 있다. 여기서, 보코더(130)는 스타일 입력을 위해 텍스트로 주어진 스타일 태그를 활용하여 스타일이 반영된 음성을 출력할 수 있다.The vocoder 130 is a component that extracts voice from a mel-spectrogram reflecting style information input from the vertical voice synthesizer 120 . The vocoder 130 may utilize the end-to-end speech synthesizer 120 and various deep learning-based models. Here, the vocoder 130 may output voice in which the style is reflected by utilizing a style tag given as text for style input.
도 8은 본 발명의 일실시예에 따른 자연어로 기술되는 스타일 태그를 활용하여 운율 조절이 가능한 멀티 스타일 음성 합성 시스템의 스타일 태그 인코더와 종단형 음성 합성기의 상세 구성을 나타내고 있으며, 도 9는 본 발명의 일실시예에 따른 자연어로 기술되는 스타일 태그를 활용하여 운율 조절이 가능한 멀티 스타일 음성 합성 시스템의 학습된 모델의 스타일 임베딩 공간을 나타내고 있다. 이하에서는 첨부된 도면을 참조하여 본 발명의 일실시예에 따른 자연어로 기술되는 스타일 태그를 활용하여 운율 조절이 가능한 멀티 스타일 음성 합성 시스템의 구체적인 실시예를 설명하기로 한다.FIG. 8 shows a detailed configuration of a style tag encoder and an end-to-end speech synthesizer of a multi-style speech synthesis system capable of controlling prosody by using style tags described in natural language according to an embodiment of the present invention. FIG. 9 illustrates the present invention. It shows the style embedding space of the learned model of the multi-style speech synthesis system capable of controlling prosody by utilizing style tags described in natural language according to an embodiment of. Hereinafter, a specific embodiment of a multi-style voice synthesis system capable of adjusting prosody using a style tag described in natural language according to an embodiment of the present invention will be described with reference to the accompanying drawings.
본 발명의 일실시예에 따른 자연어로 기술되는 스타일 태그를 활용하여 운율 조절이 가능한 멀티 스타일 음성 합성 시스템의 실험을 위해 음성, 텍스트, 스타일 태그로 구성된 한국어 음성 데이터셋을 수집하였다. 그리고 스타일 태그 데이터셋은 약 327개의 스타일 태그로 구성되어 있고, 약 단일 여성 화자의 약 26시간의 분량이며, 스타일 태그는 감정, 의도, 목소리 톤 등을 나타낸다.A Korean voice dataset composed of voice, text, and style tags was collected for an experiment of a multi-style voice synthesis system capable of controlling prosody using style tags described in natural language according to an embodiment of the present invention. And the style tag dataset consists of about 327 style tags, which is about 26 hours of a single female speaker, and the style tags represent emotions, intentions, and voice tones.
먼저, 모델 구조로서, 스타일태그 인코더(110), 종단형 음성 합성기(120)를 구성하되, 스타일 태그 인코더(110)의 언어 모델(111)로는 SentenceBERT(SBERT) 모델을 활용하였으며, 해당 모델은 입력 문장을 유의미한 임베딩 공간으로 매핑해 주어 유사한 의미를 갖는 문장이 인접하게 위치하도록 하는 역할을 한다. 여기서, 언어 모델(111)은 대량의 텍스트 데이터를 이용해 미리 학습된 SBERT 모델을 활용하고, 음성 합성 시스템 구축 시에는 더 이상 학습하지 않는다. 스타일 태그 인코더(110)의 적응형 레이어(112)는 언어 모델(111)의 출력을 스타일 임베딩으로 매핑하는 네트워크로 MLP(Multi Layer Perception) 구조를 가진다.First, as a model structure, the style tag encoder 110 and the longitudinal speech synthesizer 120 are configured, but the SentenceBERT (SBERT) model is used as the language model 111 of the style tag encoder 110, and the model is input It maps sentences to a meaningful embedding space so that sentences with similar meanings are located adjacently. Here, the language model 111 uses a pre-learned SBERT model using a large amount of text data, and is not further trained when constructing a speech synthesis system. The adaptive layer 112 of the style tag encoder 110 is a network that maps the output of the language model 111 to the style embedding and has a multi-layer perception (MLP) structure.
본 실시예의 실험에서는 스타일 태그 인코더(110)에는 참조 음성을 활용한 참조 인코더(113)도 활용하였다. 참조 인코더(113)는 참조 음성으로부터 스타일 임베딩을 추출하는 네트워크로, 기존의 비지도 학습 기반의 스타일 음성 합성 기술에서 활용되는 모듈로서, 모델 학습 시 종단형 음성 합성기(120)에는 참조 인코더(113)로부터 출력된 스타일 임베딩을 입력하고, 스타일 태그 임베딩은 레퍼런스 임베딩과 가까워지도록 학습을 하였는데 이를 통해 스타일 태그 임베딩이 동일한 스타일 태그를 가지는 참조 음성들의 평균적인 특성을 학습할 수 있도록 하였다. 추가적으로 이러한 방법은 필요에 따라 스타일 태그가 아닌 참조 음성도 합성에 사용할 수 있다는 장점이 있다.In the experiment of this embodiment, the reference encoder 113 using the reference voice was also used for the style tag encoder 110. Reference encoder 113 is a network that extracts style embedding from reference speech, and is a module used in existing unsupervised learning-based style speech synthesis technology. The style embedding output from is input, and the style tag embedding is learned to be close to the reference embedding. Through this, the style tag embedding can learn the average characteristics of reference voices having the same style tag. Additionally, this method has the advantage that a reference voice other than a style tag can be used for synthesis as needed.
종단형 음성 합성기(120)로는 최근 활발히 연구되는 비자기회귀 기반의 음성 합성기를 활용하였으며, 모델 구조는 실험을 위해 새로 고안한 모델로 크게 텍스트 인코더(121)와 멜 디코더(122)로 구성된다. 텍스트 인코더(121)는 텍스트 입력을 텍스트 임베딩으로 변환 시켜주는 모듈이다. 이때 텍스트 임베딩은 멜-스펙트로그램의 길이만큼 확장되게 되는데, 각 발음기호의 듀레이션 정보를 활용해 길이를 늘려주게 된다. 이때 사용하는 듀레이션 정보는 학습 때는 MAS(Monotonic Search Alignment) 알고리즘을 통해 구해지고, 생성 때는 듀레이션 프레딕터를 활용하여 얻을 수 있다. 이후 멜 디코더(122)에는 길이가 늘어난 텍스트 임베딩과 앞에서 추출한 스타일 임베딩을 이용해 멜 스펙트로그램을 합성하게 된다.As the longitudinal speech synthesizer 120, a non-autoregressive based speech synthesizer, which has been actively researched recently, was used, and the model structure is a newly devised model for experiments, and is largely composed of a text encoder 121 and a Mel decoder 122. The text encoder 121 is a module that converts text input into text embedding. At this time, the text embedding is extended by the length of the Mel-spectrogram, and the length is increased by using the duration information of each phonetic symbol. The duration information used at this time is obtained through a monotonic search alignment (MAS) algorithm during learning, and can be obtained using a duration predictor during generation. Thereafter, the MEL decoder 122 synthesizes the MEL spectrogram using the lengthened text embedding and the previously extracted style embedding.
본 모델의 학습은 텍스트와 스타일 태그를 모델에 입력해 나온 출력과 정답 멜-스펙트로그램 간의 L1 거리를 줄이도록 학습되고, 스타일 태그 임베딩과 레퍼런스 임베딩 간의 L2 거리를 줄이는 목적식을 추가하였다.The training of this model is learned to reduce the L1 distance between the output of text and style tags input to the model and the answer Mel-spectrogram, and an objective expression to reduce the L2 distance between the style tag embedding and the reference embedding is added.
본 모델을 이용해 학습된 모델의 스타일 임베딩 공간을 t-SNE를 활용하여 도 9와 같이 나타내고 있으며, 도 9의 도면에서 푸른 점은 학습 때 사용되었던 스타일 태그이고, 붉은 점은 학습 때 사용되지 않은 스타일 태그이다. 4개의 부분 영역을 확대하여 보았을 때 유사한 성질을 가지는 태그들이 인접하게 놓이는 것을 확인할 수 있고, 특히 학습 때 보지 못한 스타일 태그의 경우에도 적절하게 매핑 되는 것을 확인할 수 있다.The style embedding space of the model learned using this model is shown in Fig. 9 using t-SNE. It is a tag. When the four subregions are enlarged, it can be confirmed that tags having similar properties are placed adjacent to each other, and it can be confirmed that, in particular, even in the case of style tags not seen during learning, they are appropriately mapped.
추가로 18명을 대상으로 한 청취평가를 통해 스타일 태그가 합성음에 적절히 반영되었는지를 확인하였다. 베이스라인 모델로는 Tacotron2-GST 모델을 활용하였다. Tacotron2-GST은 참조 음성을 이용한 스타일 음성 합성기로 스타일 태그에 대응하는 입력을 주기 위해 해당 스타일 태그를 가지는 레퍼런스 임베딩들의 평균을 입력으로 활용하였다. 이를 이용해 두 모델의 합성음을 듣고 주어진 스타일 태그가 잘 반영된 정도를 상대 평가하는 Comparative Mean Opinion Score(CMOS)를 진행하였다. 두 모델의 스타일 태그 반영을 (-5~5)의 스케일로 평가하였고(+는 발명 모델이 우수, -는 베이스라인이 우수함을 나타냄), +1.37의 결과를 나타내었다. 실험 결과 스타일 태그가 임베딩 스페이스를 잘 형성하고, 실제 청취 상에서도 스타일 반영의 우수함을 보이는 것을 확인할 수 있었다.In addition, through a listening evaluation targeting 18 people, it was confirmed whether the style tag was appropriately reflected in the synthesized sound. As a baseline model, the Tacotron2-GST model was used. Tacotron2-GST is a style voice synthesizer using a reference voice, and used the average of reference embeddings with a corresponding style tag as an input to give an input corresponding to the style tag. Using this, a Comparative Mean Opinion Score (CMOS) was conducted to evaluate the degree to which the given style tag was well reflected after listening to the synthesized sound of the two models. The style tag reflection of the two models was evaluated on a scale of (-5 to 5) (+ indicates that the invention model is excellent, - indicates that the baseline is excellent), and the result was +1.37. As a result of the experiment, it was confirmed that the style tag formed the embedding space well and showed excellent style reflection even in actual listening.
이와 같이, 본 발명의 일실시예에 따른 자연어로 기술되는 스타일 태그를 활용하여 운율 조절이 가능한 멀티 스타일 음성 합성 시스템(100)은 스타일 입력으로 자연어로 기술된 스타일 태그를 활용하는 방법으로, 스타일 태그의 경우 특정 카테고리에 제한되지 않고, 사용자가 목적에 맞는 발화 스타일을 직관적으로 입력할 수 있다는 장점이 있다. 특히, 자연어 처리 기술을 활용해 학습 때 사용되지 않은 스타일 태그에 해당하는 스타일도 생성이 가능하므로 사용자는 특정 스타일에 구애받지 않고 자유롭게 스타일을 입력할 수 있으며, 기존의 음성 합성 기술의 기능을 그대로 포함할 뿐만 아니라 사용자에게 추가적인 편의성을 제공하므로 기존의 음성 합성 시장을 대체하여 광범위한 응용이 가능하다.In this way, the multi-style speech synthesis system 100 capable of adjusting prosody by utilizing style tags described in natural language according to an embodiment of the present invention is a method of utilizing style tags described in natural language as a style input, style tags In the case of , there is an advantage in that the user can intuitively input a speech style suitable for the purpose without being limited to a specific category. In particular, since styles corresponding to style tags that were not used during learning can be created using natural language processing technology, users can freely enter styles without being bound by a specific style, and the functions of existing speech synthesis technologies are included as they are. In addition, since it provides additional convenience to users, it can be widely applied by replacing the existing speech synthesis market.
또한, 본 발명은 다양한 음성 합성 서비스에 적용될 수 있으며, 인간이 직관적으로 이해할 수 있는 자연어를 기반으로 발화 스타일을 조절할 수 있기 때문에 기존의 다른 음성 합성 시스템들에 비해 훨씬 큰 사용자 편의성을 제공할 수 있다. 본 발명은 AI 어시스턴트, 오디오북, 엔터테인먼트 등의 다양한 서비스에 널리 활용될 수 있다.In addition, the present invention can be applied to various speech synthesis services, and since the speech style can be adjusted based on natural language that humans can intuitively understand, it can provide much greater user convenience than other existing speech synthesis systems. . The present invention can be widely used for various services such as AI assistant, audio book, and entertainment.
상술한 바와 같이, 본 발명의 일실시예에 따른 자연어로 기술되는 스타일 태그를 활용하여 운율 조절이 가능한 멀티 스타일 음성 합성 시스템은, 스타일 태그를 인풋으로 받아서 스타일 임베딩을 추출하여 출력하는 스타일 태그 인코더와, 텍스트로부터 멜-스펙트로그램을 추출하는 모델로서, 스타일 태그 인코더로부터 입력되는 스타일 임베딩을 이용하여 스타일 정보를 반영한 멜-스펙트로그램을 생성하는 종단형 음성 합성기와, 종단형 음성 합성기로부터 입력되는 스타일 정보를 반영한 멜-스펙트로그램으로부터 음성을 추출하는 보코더를 포함하여 구성함으로써, 스타일 음성 합성 시 기존의 스타일 라벨이나 참조 음성을 활용함에 따른 발화할 수 있는 스타일 개수의 제한과, 사용자가 발화할 때마다 참조 음성을 찾아 입력해야 하는 번거로움 없이 스타일 태그를 활용하여 사용자가 직관적으로 간편하게 음성의 스타일을 조절할 수 있도록 할 수 있으며, 특히, 스타일 음성 합성에서 스타일 입력을 위해 텍스트로 주어진 스타일 태그를 활용함으로써, 사전에 학습된 언어 모델을 이용하여 텍스트로 주어진 스타일 태그로부터 의미를 내포한 임베딩을 추출하고, 이를 음성 합성기의 스타일 입력으로 활용하여 직관적이고 간편한 스타일 음성 합성 기술을 제공하고, 언어 모델의 일반화 기능을 통해 학습 때 사용되지 않았던 스타일 태그에 대해서도 유의미한 의미를 추출하여 해당 스타일을 반영할 수 있도록 할 수 있게 된다.As described above, the multi-style speech synthesis system capable of adjusting prosody using style tags described in natural language according to an embodiment of the present invention includes a style tag encoder that receives style tags as input and extracts and outputs style embeddings. , As a model for extracting a mel-spectrogram from text, a longitudinal speech synthesizer generating a mel-spectrogram reflecting style information using style embedding input from a style tag encoder, and style information input from the longitudinal speech synthesizer. By including a vocoder that extracts voice from the Mel-spectrogram reflecting the Users can intuitively and easily adjust the style of voice by using style tags without the hassle of finding and inputting voices. In particular, by using style tags given as text for style input in style speech synthesis, By using the language model trained in the language model, we extract the embedding that implies meaning from the style tag given as text, and use it as a style input for the speech synthesizer to provide an intuitive and convenient style speech synthesis technology, and through the generalization function of the language model Even for style tags that were not used during learning, meaningful meanings can be extracted so that the style can be reflected.
또한, 스타일 태그 인코더에 참조 인코더를 더 포함하여 구성함으로써, 참조 음성으로부터 추출된 임베딩과 스타일 태그로부터 추출된 임베딩을 동일한 공간에서 모델링 하고, 학습이 완료되었을 때 참조 음성과 스타일 태그 중 어느 것을 사용해도 된다는 장점이 있으며, 그로 인해 기존 방법에 비해 새로운 스타일 인터페이스가 추가되는 것으로 볼 수 있고, 현재 적용되고 있는 다양한 음성 합성 서비스에 상위호환의 개념으로 적용되어 사용의 편의성 및 효율성이 더욱 향상될 수 있도록 할 수 있게 된다.In addition, by further including a reference encoder in the style tag encoder, the embedding extracted from the reference speech and the embedding extracted from the style tag can be modeled in the same space, and when learning is completed, any of the reference speech and style tag can be used. As a result, it can be seen that a new style interface is added compared to the existing method, and it is applied as a concept of upward compatibility to various currently applied voice synthesis services so that the convenience and efficiency of use can be further improved. be able to
이상 설명한 본 발명은 본 발명이 속한 기술분야에서 통상의 지식을 가진 자에 의하여 다양한 변형이나 응용이 가능하며, 본 발명에 따른 기술적 사상의 범위는 아래의 특허청구범위에 의하여 정해져야 할 것이다.The present invention described above can be variously modified or applied by those skilled in the art to which the present invention belongs, and the scope of the technical idea according to the present invention should be defined by the claims below.

Claims (7)

  1. 자연어로 기술되는 스타일 태그를 활용하여 운율 조절이 가능한 멀티 스타일 음성 합성 시스템(100)으로서,As a multi-style speech synthesis system 100 capable of adjusting prosody using style tags described in natural language,
    스타일 태그를 인풋으로 받아서 스타일 임베딩을 추출하여 출력하는 스타일 태그 인코더(110);a style tag encoder 110 that receives a style tag as an input and extracts and outputs a style embedding;
    텍스트로부터 멜-스펙트로그램을 추출하는 모델로서, 상기 스타일 태그 인코더(110)로부터 입력되는 스타일 임베딩을 이용하여 스타일 정보를 반영한 멜-스펙트로그램을 생성하는 종단형 음성 합성기(120); 및As a model for extracting a mel-spectrogram from text, a vertical speech synthesizer 120 generating a mel-spectrogram reflecting style information using style embedding input from the style tag encoder 110; and
    상기 종단형 음성 합성기(120)로부터 입력되는 스타일 정보를 반영한 멜-스펙트로그램으로부터 음성을 추출하는 보코더(130)를 포함하는 것을 특징으로 하는, 자연어로 기술되는 스타일 태그를 활용하여 운율 조절이 가능한 멀티 스타일 음성 합성 시스템.Characterized in that it includes a vocoder 130 for extracting voice from the mel-spectrogram reflecting the style information input from the vertical voice synthesizer 120, using a style tag described in natural language to control prosody. Style speech synthesis system.
  2. 제1항에 있어서, 상기 스타일 태그 인코더(110)는,The method of claim 1, wherein the style tag encoder 110,
    대량의 텍스트 데이터를 통해 학습된 뉴럴 네트워크 기반의 언어 모델로서, 입력 텍스트를 유의미한 임베딩 공간으로의 매핑을 수행하는 언어 모델(111); 및A language model based on a neural network learned through a large amount of text data, which maps input text to a meaningful embedding space (111); and
    상기 언어 모델(111)을 통해 추출된 임베딩을 입력받아 스타일 음성 합성에 적합한 형태로 변형하여 상기 종단형 음성 합성기(120)에 스타일 임베딩을 출력하는 적응형 레이어(112)를 포함하여 구성하는 것을 특징으로 하는, 자연어로 기술되는 스타일 태그를 활용하여 운율 조절이 가능한 멀티 스타일 음성 합성 시스템.It is characterized by including an adaptive layer 112 that receives the embedding extracted through the language model 111, transforms it into a form suitable for style speech synthesis, and outputs the style embedding to the longitudinal speech synthesizer 120. A multi-style speech synthesis system that can control prosody by using style tags described in natural language.
  3. 제2항에 있어서, 상기 언어 모델(111)은,The method of claim 2, wherein the language model 111,
    유사한 의미를 갖는 텍스트를 인접한 임베딩 공간으로 매핑하고, 이러한 매핑 특성을 통해 학습 때 사용되지 않은 스타일 태그가 입력되더라도 그에 상응하는 스타일을 갖는 음성을 합성할 수 있도록 기능하는 것을 특징으로 하는, 자연어로 기술되는 스타일 태그를 활용하여 운율 조절이 가능한 멀티 스타일 음성 합성 시스템.Natural language technology characterized in that it maps texts with similar meanings to adjacent embedding spaces and functions to synthesize voices with styles corresponding to them even if style tags not used in learning are input through these mapping characteristics. A multi-style voice synthesis system that can adjust prosody by utilizing style tags that can be used.
  4. 제3항에 있어서, 상기 언어 모델(111)은,The method of claim 3, wherein the language model 111,
    입력 문장을 유의미한 임베딩 공간으로 매핑해주어 유사한 의미를 갖는 문장이 인접하게 위치하도록 기능하는 SentenceBERT(SBERT) 모델로 구현되는 것을 특징으로 하는, 자연어로 기술되는 스타일 태그를 활용하여 운율 조절이 가능한 멀티 스타일 음성 합성 시스템.Characterized in that it is implemented as a SentenceBERT (SBERT) model that maps an input sentence to a meaningful embedding space and functions so that sentences with similar meanings are located adjacently, multi-style voice that can control prosody using style tags described in natural language synthetic system.
  5. 제2항에 있어서, 상기 적응형 레이어(112)는,The method of claim 2, wherein the adaptive layer 112,
    상기 언어 모델(111)을 통해 추출된 임베딩을 입력받아 스타일 음성 합성에 적합한 형태로 변형한 스타일 임베딩을 출력하되, 언어 모델(111)의 출력을 스타일 임베딩으로 매핑하는 MLP(Multi Layer Perceptron) 네트워크 구조로 구성되는 것을 특징으로 하는, 자연어로 기술되는 스타일 태그를 활용하여 운율 조절이 가능한 멀티 스타일 음성 합성 시스템.MLP (Multi Layer Perceptron) network structure that receives the embedding extracted through the language model 111 and outputs a style embedding transformed into a form suitable for style speech synthesis, and maps the output of the language model 111 to the style embedding. Characterized in that it consists of, a multi-style speech synthesis system capable of controlling prosody using style tags described in natural language.
  6. 제1항 내지 제5항 중 어느 한 항에 있어서, 상기 스타일 태그 인코더(110)는,The method according to any one of claims 1 to 5, wherein the style tag encoder 110,
    참조 음성을 인풋으로 받아서 스타일 임베딩을 출력하는 참조 인코더(Reference Encoder)(113)를 더 포함하여 구성하는 것을 특징으로 하는, 자연어로 기술되는 스타일 태그를 활용하여 운율 조절이 가능한 멀티 스타일 음성 합성 시스템.A multi-style speech synthesis system capable of controlling prosody using style tags described in natural language, characterized by further comprising a reference encoder 113 that receives a reference voice as an input and outputs a style embedding.
  7. 제6항에 있어서, 상기 종단형 음성 합성기(120)는,The method of claim 6, wherein the end-to-end speech synthesizer 120,
    입력되는 텍스트의 각 발음기호의 듀레이션 정보를 활용하여 멜-스펙트로그램의 길이만큼 확장한 길이를 갖도록 텍스트 입력을 텍스트 임베딩으로 변환하는 텍스트 인코더(121); 및a text encoder 121 that converts text input into text embedding so as to have a length extended by the length of the mel-spectrogram by utilizing duration information of each phonetic symbol of the input text; and
    상기 텍스트 인코더(121)를 통해 길이가 늘어난 텍스트 임베딩과 상기 스타일 태그 인코더(110)에서 추출한 스타일 임베딩을 이용하여 멜-스펙트로그램을 합성하여 출력하는 멜 디코더(122)를 포함하여 구성하는 것을 특징으로 하는, 자연어로 기술되는 스타일 태그를 활용하여 운율 조절이 가능한 멀티 스타일 음성 합성 시스템.and a mel decoder 122 that synthesizes and outputs a mel-spectrogram using the text embedding whose length has been increased through the text encoder 121 and the style embedding extracted from the style tag encoder 110. A multi-style speech synthesis system that can control prosody using style tags described in natural language.
PCT/KR2021/015743 2021-08-31 2021-11-03 Multi-style speech synthesis system capable of prosody control using style tag described in natural language WO2023033237A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2021-0115826 2021-08-31
KR1020210115826A KR102486106B1 (en) 2021-08-31 2021-08-31 Multi style speech synthesis system having prosody control using style tag described in natural language

Publications (1)

Publication Number Publication Date
WO2023033237A1 true WO2023033237A1 (en) 2023-03-09

Family

ID=84892722

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2021/015743 WO2023033237A1 (en) 2021-08-31 2021-11-03 Multi-style speech synthesis system capable of prosody control using style tag described in natural language

Country Status (2)

Country Link
KR (1) KR102486106B1 (en)
WO (1) WO2023033237A1 (en)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200092505A (en) * 2019-01-13 2020-08-04 네오데우스 주식회사 Method for generating speaker-adapted speech synthesizer model with a few samples using a fine-tuning based on deep convolutional neural network ai
US20210090551A1 (en) * 2019-09-23 2021-03-25 Electronics And Telecommunications Research Institute Emotional speech generating method and apparatus for controlling emotional intensity

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200015418A (en) * 2018-08-02 2020-02-12 네오사피엔스 주식회사 Method and computer readable storage medium for performing text-to-speech synthesis using machine learning based on sequential prosody feature

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200092505A (en) * 2019-01-13 2020-08-04 네오데우스 주식회사 Method for generating speaker-adapted speech synthesizer model with a few samples using a fine-tuning based on deep convolutional neural network ai
US20210090551A1 (en) * 2019-09-23 2021-03-25 Electronics And Telecommunications Research Institute Emotional speech generating method and apparatus for controlling emotional intensity

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JUNGIL KONG; JAEHYEON KIM; JAEKYOUNG BAE: "HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 12 October 2020 (2020-10-12), 201 Olin Library Cornell University Ithaca, NY 14853 , XP081784165 *
MINCHAN KIM; SUNG JUN CHEON; BYOUNG JIN CHOI; JONG JIN KIM; NAM SOO KIM: "Expressive Text-to-Speech using Style Tag", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 1 April 2021 (2021-04-01), 201 Olin Library Cornell University Ithaca, NY 14853 , XP081931078 *
VAINIO MARTTI: "Artificial Neural Network Based Prosody Models for Finnish Text-to-Speech Synthesis", UNIVERSITY OF HELSINKI, THESIS, 1 January 2001 (2001-01-01), XP093042119, Retrieved from the Internet <URL:https://helda.helsinki.fi/bitstream/handle/10138/19873/artifici.pdf?sequence=2> [retrieved on 20230425] *

Also Published As

Publication number Publication date
KR102486106B1 (en) 2023-01-09

Similar Documents

Publication Publication Date Title
WO2022110354A1 (en) Video translation method, system and device, and storage medium
Kurdi Natural language processing and computational linguistics: speech, morphology and syntax
CN110534089A (en) A kind of Chinese speech synthesis method based on phoneme and rhythm structure
WO2012148112A9 (en) System for creating musical content using a client terminal
WO2020139058A1 (en) Cross-device voiceprint recognition
WO2022203152A1 (en) Method and device for speech synthesis based on multi-speaker training data sets
CN116092472A (en) Speech synthesis method and synthesis system
Samuels et al. Getting ready for primetime: Paths to acquiring substance-free phonology
WO2019088635A1 (en) Voice synthesis device and method
WO2023033237A1 (en) Multi-style speech synthesis system capable of prosody control using style tag described in natural language
Taylor et al. A mouth full of words: Visually consistent acoustic redubbing
US11587561B2 (en) Communication system and method of extracting emotion data during translations
WO2018074658A1 (en) Terminal and method for implementing hybrid subtitle effect
CN116129868A (en) Method and system for generating structured photo
Deshwal et al. A Structured Approach towards Robust Database Collection for Language Identification
JP2002229590A (en) Speech recognition system
Westall et al. Speech technology for telecommunications
Hunt Composition as Commentary: Voice and Poetry in Electroacoustic Music
Song et al. Multi-speaker Multi-style Speech Synthesis with Timbre and Style Disentanglement
KR20220070979A (en) Style speech synthesis apparatus and speech synthesis method using style encoding network
WO2022031060A1 (en) Multiple speaker speech synthesis method and device, using artificial neural network
CN109830228A (en) Speech translator, method, equipment and storage medium
Vadapalli An investigation of speaker independent phrase break models in End-to-End TTS systems
Thomas Audibly: Speech to American Sign Language converter
Spiegel et al. Synthesis of names by a demisyllable-based speech synthesizer (Spokesman)

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21956164

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE