WO2024090997A1 - 감정을 고려하여 합성 음성을 획득하는 전자 장치 및 그 제어 방법 - Google Patents

감정을 고려하여 합성 음성을 획득하는 전자 장치 및 그 제어 방법 Download PDF

Info

Publication number
WO2024090997A1
WO2024090997A1 PCT/KR2023/016677 KR2023016677W WO2024090997A1 WO 2024090997 A1 WO2024090997 A1 WO 2024090997A1 KR 2023016677 W KR2023016677 W KR 2023016677W WO 2024090997 A1 WO2024090997 A1 WO 2024090997A1
Authority
WO
WIPO (PCT)
Prior art keywords
style
token
voice
emotion
text
Prior art date
Application number
PCT/KR2023/016677
Other languages
English (en)
French (fr)
Inventor
최희진
배재성
이준엽
문성규
이지환
주기현
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Publication of WO2024090997A1 publication Critical patent/WO2024090997A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Definitions

  • the present invention relates to an electronic device and a control method thereof, and more specifically, to an electronic device and a control method for obtaining a synthesized voice reflecting emotions.
  • Speech synthesis technology is a technology that synthesizes speech corresponding to text, and has recently been used in many areas.
  • An electronic device when a memory storing a token set corresponding to each of a plurality of emotions and a reference voice (Reference Speech) are received, the reference voice among the plurality of emotions Identify the emotion corresponding to, obtain a token set corresponding to the identified emotion from among the plurality of token sets stored in the memory, and transmit the information about the reference voice and the obtained token set to a style encoder.
  • a method of controlling an electronic device includes, upon receiving a reference voice, identifying an emotion corresponding to the reference voice among a plurality of emotions, a token corresponding to each of the plurality of emotions, Among the three, acquiring a token set corresponding to the identified emotion, inputting information on the reference voice and the obtained token set into a style encoder to output a synthesized voice of the identified emotion.
  • the method for controlling an electronic device includes receiving a reference speech. When doing so, identifying an emotion corresponding to the reference voice among a plurality of emotions, obtaining a token set corresponding to the identified emotion among token sets corresponding to each of the plurality of emotions, information about the reference voice, and Inputting the obtained token set into a style encoder to obtain style information for outputting a synthesized voice of the identified emotion, when text is input, a decoder obtained based on the style information for the text It includes obtaining a synthesized voice corresponding to the text by inputting it into the text, and outputting the synthesized voice corresponding to the text.
  • FIG. 1 is a diagram illustrating an electronic device that obtains synthesized speech through a style encoder and decoder according to an embodiment of the present disclosure.
  • Figure 2 is a block diagram showing the configuration of an electronic device according to an embodiment of the present disclosure.
  • FIG. 3 is a diagram illustrating style information acquired through a style encoder according to an embodiment of the present disclosure.
  • FIG. 4 is a diagram illustrating a style encoder that outputs style information using a token set and a language token corresponding to an emotion according to an embodiment of the present disclosure.
  • FIG. 5 is a diagram illustrating a style encoder that outputs style information using a token set, speaker token, language token, and residual token corresponding to each of a plurality of emotions according to an embodiment of the present disclosure.
  • Figure 6 is a diagram for explaining learning of a style encoder according to an embodiment of the present disclosure.
  • FIG. 7 is a diagram for explaining a plurality of sample reference voices and synthesized voices according to an embodiment of the present disclosure.
  • FIG. 8 is a diagram illustrating synthesized speech acquired through a decoder in a multilingual environment according to an embodiment of the present disclosure.
  • FIG. 9 is a diagram illustrating a decoder that outputs a synthesized voice including a user's speech characteristics according to an embodiment of the present disclosure.
  • Figure 10 is a diagram for explaining fine-tuning of a decoder according to an embodiment of the present disclosure.
  • FIG. 11 is a diagram illustrating a decoder that outputs a synthesized voice in consideration of a speaker to be synthesized and a speaker token corresponding to each of a plurality of sample reference voices after fine-tuning of the decoder according to an embodiment of the present disclosure.
  • FIG. 12 is a flowchart illustrating a method of controlling a display device according to an embodiment of the present disclosure.
  • expressions such as “have,” “may have,” “includes,” or “may include” refer to the presence of the corresponding feature (e.g., a numerical value, function, operation, or component such as a part). , and does not rule out the existence of additional features.
  • a or/and B should be understood as referring to either “A” or “B” or “A and B”.
  • expressions such as “first,” “second,” “first,” or “second,” can modify various components regardless of order and/or importance, and can refer to one component. It is only used to distinguish from other components and does not limit the components.
  • a component e.g., a first component
  • another component e.g., a second component
  • connection to it should be understood that a certain component can be connected directly to another component or connected through another component (e.g., a third component).
  • a “module” or “unit” performs at least one function or operation, and may be implemented as hardware or software, or as a combination of hardware and software. Additionally, a plurality of “modules” or a plurality of “units” are integrated into at least one module and implemented by at least one processor (not shown), except for “modules” or “units” that need to be implemented with specific hardware. It can be.
  • the term user may refer to a person using an electronic device or a device (eg, an artificial intelligence electronic device) using an electronic device.
  • a device eg, an artificial intelligence electronic device
  • FIG. 1 is a diagram illustrating an electronic device that obtains synthesized speech through a style encoder and decoder according to an embodiment of the present disclosure.
  • the electronic device 100 is a speech synthesis (Speech Synthesis or Text-to-Speech, TTS) device including a style encoder (A), a text encoder, and a decoder (B). can represent.
  • speech synthesis Speech Synthesis or Text-to-Speech, TTS
  • A style encoder
  • B text encoder
  • B decoder
  • the voice synthesis device can synthesize and output a voice corresponding to the input text.
  • the voice (e.g., synthesized speech) output by a conventional voice synthesizer has the limitation of being mechanical and relatively monotonous compared to the actual human voice.
  • a person's actual voice contains prosodic characteristics that reflect the speaker's emotions, but the voice output by a conventional speech synthesis device only converts text into speech and does not contain prosodic characteristics that reflect emotions. , there were limitations in providing naturalness or liveliness.
  • prosody may include tone, accent, rhythm, etc.
  • prosodic characteristics may include pitch (e.g., pitch), length (e.g., speed), and size. (e.g., strong and weak), etc. may be included.
  • the electronic device 100 can use a style encoder (A) and a decoder (B) to synthesize and output a voice that corresponds to text and reflects emotions.
  • A style encoder
  • B decoder
  • the electronic device 100 uses a style encoder (A) to acquire style information corresponding to the emotion to be reflected in the voice synthesized by the decoder (B), and uses the decoder (B) to obtain style information corresponding to the emotion to be reflected in the voice synthesized by the decoder (B).
  • a synthesized voice can be obtained (or output) by reflecting (or synthesizing) the emotion according to the style information in the corresponding voice.
  • style information may be called a style vector, but hereinafter, for convenience of explanation, it will be collectively referred to as style information.
  • the electronic device 100 may include a token set (10) corresponding to each of a plurality of emotions.
  • the electronic device 100 may identify an emotion corresponding to the reference speech among a plurality of emotions. However, this is not limited to this as an example.
  • the electronic device 100 may receive an emotion identifier (Emotion ID) and identify an emotion corresponding to the emotion identifier among a plurality of emotions.
  • Emotion ID emotion identifier
  • the electronic device 100 inputs a token set and a reference voice corresponding to the identified emotion into the style encoder (A), the identified emotion is reflected through the decoder (B), and the reference voice and the style (Style) are reflected. ) can obtain style information to obtain similar synthesized voices.
  • the electronic device 100 may input text and style information to the decoder (B), synthesize and output a voice that corresponds to the text, reflects emotions, and has a similar style to the reference voice.
  • the decoder (B) has a similar style (e.g., speech style) to the reference voice, Voices reflecting specific emotions can be synthesized and output.
  • the style attention of the style encoder (A) is different from the reference voice.
  • the style is similar to the reference voice and style information for synthesizing a voice reflecting the emotion is output, and the decoder (B) has a style similar to the reference voice based on the style information.
  • voices reflecting the identified emotions can be synthesized and output.
  • Figure 2 is a block diagram showing the configuration of an electronic device according to an embodiment of the present disclosure.
  • the electronic device 100 includes a memory 110 and at least one processor 120.
  • the memory 110 may store data necessary for various embodiments.
  • the memory 110 may be implemented as a memory embedded in the electronic device 100 or as a memory detachable from the electronic device 100 depending on the data storage purpose. For example, in the case of data for driving the electronic device 100, it is stored in the memory embedded in the electronic device 100, and in the case of data for the expansion function of the electronic device 100, it is detachable from the electronic device 100. It can be stored in available memory.
  • volatile memory e.g., dynamic RAM (DRAM), static RAM (SRAM), or synchronous dynamic RAM (SDRAM), etc.
  • non-volatile memory Examples: one time programmable ROM (OTPROM), programmable ROM (PROM), erasable and programmable ROM (EPROM), electrically erasable and programmable ROM (EEPROM), mask ROM, flash ROM, flash memory (e.g. NAND flash or NOR flash, etc.) ), a hard drive, or a solid state drive (SSD).
  • a memory card eg, compact flash (CF)
  • CF compact flash
  • USB port (secure digital), Micro-SD (micro secure digital), Mini-SD (mini secure digital), xD (extreme digital), MMC (multi-media card), etc.), external memory that can be connected to the USB port (for example, it may be implemented in a form such as USB memory).
  • the memory 110 may store at least one instruction or a computer program including instructions for controlling the electronic device 100.
  • the memory 110 may store various data received from an external device (e.g., a source device), an external storage medium (e.g., USB), an external server (e.g., a web hard drive), etc. .
  • the memory 110 may be implemented as a single memory that stores data generated in various operations according to the present disclosure.
  • the memory 110 may be implemented to include a plurality of memories each storing different types of data or data generated at different stages.
  • the memory 110 may store various data, programs, or applications for driving/controlling the electronic device 100.
  • the memory 110 according to an embodiment of the present disclosure may store a token set corresponding to each of a plurality of emotions 10.
  • each of the plural emotions is neutral (10-1), happy (10-2), sad (10-3), and angry (10-3), as shown in Figure 1. It may include (10-4).
  • the memory 110 (or the style encoder (A) stored in the memory 110) stores a token set corresponding to each of the plurality of emotions 10, and at least one processor 120 ) can identify one emotion among a plurality of emotions 10 and obtain a token set corresponding to the identified emotion.
  • at least one processor 120 can identify one emotion among a plurality of emotions 10 and obtain a token set corresponding to the identified emotion.
  • At least one processor 120 generally controls the operation of the electronic device 100. Specifically, at least one processor 120 may be connected to each component of the electronic device 100 and generally control the operation of the electronic device 100.
  • At least one processor 120 may perform operations of the electronic device 100 according to various embodiments by executing at least one instruction stored in the memory 110.
  • At least one processor 120 includes a CPU (Central Processing Unit), GPU (Graphics Processing Unit), APU (Accelerated Processing Unit), MIC (Many Integrated Core), DSP (Digital Signal Processor), NPU (Neural Processing Unit), It may include one or more of hardware accelerators or machine learning accelerators. At least one processor 120 may control one or any combination of other components of the electronic device and perform operations related to communication or data processing. At least one processor 120 may execute one or more programs or instructions stored in the memory 110. For example, at least one processor 120 may perform a method according to an embodiment of the present disclosure by executing one or more instructions stored in the memory 110.
  • the plurality of operations may be performed by one processor or by a plurality of processors.
  • the first operation, the second operation, and the third operation may all be performed by the first processor.
  • the first operation and the second operation may be performed by a first processor (e.g., a general-purpose processor) and the third operation may be performed by a second processor (e.g., an artificial intelligence-specific processor).
  • At least one processor 120 may be implemented as a single core processor including one core, or one or more multi-core processors including a plurality of cores (e.g., homogeneous multi-core or heterogeneous multi-core). It may also be implemented as a core processor (multicore processor). When at least one processor 120 is implemented as a multi-core processor, each of the plurality of cores included in the multi-core processor may include processor internal memory such as cache memory and on-chip memory. A common cache shared by cores may be included in a multi-core processor.
  • each of the plurality of cores (or some of the plurality of cores) included in the multi-core processor may independently read and execute program instructions for implementing the method according to an embodiment of the present disclosure, and all of the plurality of cores may (or part of) may be linked to read and perform program instructions for implementing the method according to an embodiment of the present disclosure.
  • the plurality of operations may be performed by one core among a plurality of cores included in a multi-core processor, or may be performed by a plurality of cores.
  • the first operation, the second operation, and the third operation are all performed by the first operation included in the multi-core processor. It may be performed by a core, and the first operation and the second operation may be performed by the first core included in the multi-core processor, and the third operation may be performed by the second core included in the multi-core processor.
  • a processor may refer to a system-on-chip (SoC) in which at least one processor and other electronic components are integrated, a single-core processor, a multi-core processor, or a core included in a single-core processor or a multi-core processor.
  • SoC system-on-chip
  • the core may be implemented as a CPU, GPU, APU, MIC, DSP, NPU, hardware accelerator, or machine learning accelerator, but embodiments of the present disclosure are not limited thereto.
  • At least one processor 120 may identify an emotion corresponding to the reference speech among a plurality of emotions.
  • At least one processor 120 inputs a token set and a reference voice corresponding to the identified emotion into the style encoder (A) (or style attention of the style encoder (A)) to obtain style information. You can.
  • At least one processor 120 may input text and style information to the decoder (B), synthesize and output a voice that corresponds to the text, reflects emotions, and has a similar style to the reference voice.
  • FIG. 3 is a diagram illustrating style information acquired through a style encoder according to an embodiment of the present disclosure.
  • the style encoder (A) may include a token set corresponding to each of the plurality of emotions (10).
  • the style encoder (A) does not distinguish between each of the plurality of emotions 10 (e.g., does not classify each of the plurality of emotions into different categories), and learning data reflecting the plurality of emotions (hereinafter referred to as ,
  • the prosodic characteristics representing emotions hereinafter referred to as token sets corresponding to emotions
  • the prosodic characteristics that express or express emotions are overfitted to the prosodic characteristics of a specific emotion (e.g., joy).
  • the style encoder (A) uses a plurality of sample reference voices to obtain a set of tokens corresponding to each of the plurality of emotions 10 (i.e., divided into each of the plurality of emotions 10). You can learn.
  • the learning step (or training step) of the style encoder (A) will be described later.
  • At least one processor 120 may obtain information about the reference voice. For example, when a reference voice in the form of a Mel-Spectrogram is received, at least one processor 120 inputs the reference voice into a reference encoder to obtain a reference embedding. You can. For example, at least one processor 120 may obtain a reference embedding by embedding the mel-spectrogram into a fixed-length vector.
  • the Mel-spectrogram may include a spectrogram converted from voice to Mel-scale to match human hearing, since human hearing does not receive all frequencies uniformly.
  • At least one processor 120 may identify an emotion from a reference voice.
  • the reference voice may include an emotion identifier (Emotion ID), and at least one processor 120 may analyze the reference voice and identify the emotion corresponding to the reference voice.
  • emotion ID emotion identifier
  • At least one processor 120 may include a token set corresponding to an identified emotion among a plurality of emotions.
  • the token set corresponding to the identified emotion may represent prosodic characteristics according to the identified emotion.
  • At least one processor 120 uses a reference embedding and a set of tokens corresponding to the identified emotions of the style encoder (A) to obtain a synthesized voice in a style similar to the reference voice. You can obtain style information by entering it in Style Attention.
  • the style attention of the style encoder (A) is used to obtain a synthesized voice with a speaking style similar to the reference voice.
  • style information representing the weighted sum of the style tokens can be obtained based on the similarity between each of the style tokens included in the token set corresponding to the identified emotion and the reference embedding.
  • the reference voice may include a voice (or command, etc.) indicating ‘what style of synthesized voice you want to obtain.’
  • the language of the voice uttered by the speaker to be synthesized may be different from the language of the text (phoneme or phoneme in FIG. 1).
  • FIG. 4 is a diagram illustrating a style encoder that outputs style information using a token set and a language token corresponding to an emotion according to an embodiment of the present disclosure.
  • At least one processor 120 may identify a language based on a language look-up table and obtain a language token corresponding to the identified language.
  • a language corresponding to a reference language may be identified, and a language token 20 corresponding to the identified language may be obtained.
  • At least one processor 120 uses a reference embedding output from a reference encoder, corresponding to the identified emotion, to obtain a synthesized voice in a style similar to the reference voice.
  • Style information can be obtained by inputting the language token 30 representing the sound patterns of the language corresponding to the token set and the reference voice into the style attention of the style encoder (A).
  • the style attention of the style encoder (A) is the sound pattern of the language corresponding to the reference voice.
  • the language token 30 and each of the style tokens included in the token set corresponding to the identified emotion are based on the similarity between the reference embedding and the reference embedding.
  • style information representing the weighted sum of style tokens can be obtained.
  • FIG. 5 is a diagram illustrating a style encoder that outputs style information using a token set, speaker token, language token, and residual token corresponding to each of a plurality of emotions according to an embodiment of the present disclosure.
  • At least one processor 120 identifies a speaker corresponding to a reference voice (or mel-spectrogram) based on a speaker lookup table, and generates a speaker corresponding to the identified speaker (Speaker ID). You can obtain a Speaker Token (20).
  • the speaker corresponding to the reference voice corresponds to the speaker token of at least one sample reference voice among a plurality of sample reference voices, which is the training data of the style encoder (A)
  • the reference voice or Mel-spectrogram
  • a speaker token Speaker Token
  • Speaker ID a speaker token corresponding to the identified speaker
  • At least one processor 120 acquires a speaker token 20 to acquire a synthesized voice that more appropriately reflects the speaking style according to the speaker of the reference voice, and generates a synthesized voice with a similar style as the reference voice.
  • the speaker token 20 representing the speaking style of the speaker of the reference voice, the reference embedding output by the reference encoder, and the token set corresponding to the identified emotion are used as the style encoder (A). You can obtain style information by entering it in Style Attention.
  • At least one processor 120 includes a speaker token 20 representing the speaking style of the speaker of the reference voice, a sound pattern according to the language of the reference voice (or phonetic characteristics of the language corresponding to the reference voice) In addition to the language token 30 representing the phonetic feature, a residual token 40 may be obtained.
  • the style encoder (A) includes a token set 10 representing an emotion, a speaker token 20 representing a speaker's speaking style, and a language representing a sound shape according to the language in each of a plurality of sample reference voices, which are learning data.
  • a residual token 40 representing the remainder (eg, noise) excluding the token 30 may be obtained.
  • the style encoder (A) may obtain a residual token 40 indicating liveliness and naturalness from each of a plurality of sample reference voices.
  • At least one processor 120 When a reference voice is received, at least one processor 120 according to an embodiment i) identifies an emotion (or selects an emotion), and generates a token set 10 corresponding to the identified emotion among a plurality of emotions. ii) acquire a speaker token (20) corresponding to the speaker of the reference voice, iii) acquire a language token (30) corresponding to the language of the reference voice, and iv) obtain a residual token (40). there is.
  • At least one processor 120 may include i) a token set 10 corresponding to an identified emotion, ii) a speaker token 20, iii) a language token 30, and iv) a residual token 40, and v) Style information can be obtained by inputting the reference embedding corresponding to the reference voice into the style attention of the style encoder (A).
  • At least one processor 120 may select one of i) a token set 10 corresponding to an identified emotion, ii) a speaker token 20, iii) a language token 30, and iv) a residual token 40.
  • Style information can be obtained by inputting at least one and v) a reference embedding corresponding to the reference voice into the style attention of the style encoder (A).
  • At least one processor 120 acquires a reference embedding by inputting the mel-spectrogram to a reference encoder, and transmits a phoneme corresponding to the text to the text encoder. You can obtain text embedding by entering it in (Text Encoder).
  • Figure 6 is a diagram for explaining learning of a style encoder according to an embodiment of the present disclosure.
  • the style encoder (A) receives a mel-spectrogram corresponding to at least one sample reference voice among a plurality of sample reference voices, which is training data, Reference Embedding corresponding to the Mel-Spectrogram can be obtained using a Reference Encoder.
  • the style encoder (A) identifies a speaker corresponding to at least one sample reference voice, inputs the identified speaker (Speaker ID) into a lookup embedding table, and generates a speaker embedding vector (Speaker Embedding). Vector) can be obtained.
  • the style encoder (A) identifies the language corresponding to at least one sample reference voice, inputs the identified language (Language ID) into the lookup embedding table, and creates a language embedding vector (Language Embedding Vector) can be obtained.
  • the style encoder A may set a plurality of style tokens included in a token set corresponding to each of a plurality of emotions to randomly initialized vectors (Randomly Initialized Embedding Vectors).
  • the style encoder (A) may set residual tokens to randomly initialized vectors (Randomly Initialized Embedding Vectors).
  • the style encoder (A) includes a token set (10) corresponding to an emotion identified based on at least one sample reference voice among a plurality of emotions, and a speaker token (Speaker) according to a speaker embedding vector (Speaker Embedding Vector).
  • Token (20), language token (30) and residual token (40) according to the language embedding vector, and the mel-spectrogram corresponding to at least one sample reference voice. ) may be an unsupervised learning model that learned.
  • the style encoder (A) applies Attention to the reference embedding corresponding to at least one sample reference voice to generate a target emotion (e.g., identified based on at least one sample reference voice among a plurality of emotions).
  • a target emotion e.g., identified based on at least one sample reference voice among a plurality of emotions.
  • Each of the multiple style tokens included in the token set (emotion) can be learned.
  • the style encoder (A) applies attention to the reference embedding corresponding to at least one sample reference voice, creating a speaker token (20), a language token (30), and a residual token. (40) You can also learn each.
  • FIG. 7 is a diagram illustrating a plurality of sample reference voices and synthesized voices according to an embodiment of the present disclosure.
  • the top of Figure 7 shows a plurality of sample reference voices (Training step).
  • the plurality of sample reference voices may include sample reference voices of neutral emotions (Neutral Speech DB in FIG. 7) and sample reference voices for each of the plurality of emotions (Emotional Speech DB in FIG. 7). You can.
  • FIG. 7 shows an electronic device 100 that acquires synthesized speech through a style encoder (A) and a decoder (B) (Inference step).
  • the at least one processor 120 can identify the language (Language ID) when receiving English 'I feel sensitivity' as text, and when receiving the speaker to be synthesized, the speaker (Speaker ID) ) can be identified.
  • the phoneme corresponding to the text 'I feel sensitivity' is entered into the text encoder to obtain text embedding, and the language (Language ID) is entered into the language encoder. You can obtain a language token (30) by entering it.
  • the speaker ID of the speaker to be synthesized (for example, the neutral speaker in FIG. 7) may be identified.
  • At least one processor 120 may identify an emotion corresponding to a reference voice among a plurality of emotions, and as shown in FIG. 7, when an emotion identifier (Emotion ID) is received, one of the plurality of emotions The emotion corresponding to the emotion identifier can also be identified. For example, at least one processor 120 may obtain a token set 10-3 corresponding to the sad emotion according to the emotion identifier through the style encoder A.
  • At least one processor 120 uses a Mel-Spectrogram corresponding to a reference voice as a reference embedding obtained through a reference encoder, a token set 10-3 corresponding to a sad emotion, and a language. Style information can be obtained by inputting the token 30 into Style Attention.
  • the decoder B may output a synthesized voice that corresponds to text and has sad emotions transferred based on style information.
  • the synthesized voice output by the decoder (B) has a similar speech style to the speaker to be synthesized (e.g., Speaker ID) and can correspond to the 'I feel sensitivity' of sad emotions.
  • FIG. 8 is a diagram illustrating synthesized speech acquired through a decoder in a multilingual environment according to an embodiment of the present disclosure.
  • the top of Figure 8 shows a plurality of sample reference voices (Training step).
  • the plurality of sample reference voices include French sample reference voices with neutral emotions (French Neutral Speech DB in FIG. 8), Korean sample reference voices with neutral emotions ( It may include Korean Neutral Speech DB in FIG. 8), and English sample reference voices for each of a plurality of emotions (English Emotional Speech DB in FIG. 8).
  • FIG. 8 shows an electronic device 100 that acquires synthesized speech through a style encoder (A) and a decoder (B) (Inference step).
  • At least one processor 120 receives a speaker to be synthesized (e.g., a Neutral French Speaker of FIG. 8) and outputs the text 'I failed the exam' in Korean. It can be received by .
  • a speaker to be synthesized e.g., a Neutral French Speaker of FIG. 8
  • At least one processor 120 may obtain text embedding by inputting a phoneme corresponding to the text into a text encoder.
  • At least one processor 120 inputs 'I failed the test' in Korean into a text encoder to obtain a text embedding, and inputs a language (Language ID) into a language encoder to obtain a language embedding ( For example, you can acquire Korean.
  • At least one processor 120 may identify an emotion corresponding to the emotion identifier among a plurality of emotions. For example, at least one processor 120 may obtain a token set 10-3 corresponding to the sad emotion according to the emotion identifier through the style encoder A.
  • At least one processor 120 styles a reference embedding, a Mel-Spectrogram corresponding to a reference voice, obtained through a reference encoder, and a token set 10-3 corresponding to a sad emotion. You can obtain style information by entering it in Attention.
  • the decoder B may output a synthesized voice that corresponds to text and has sad emotions transferred based on style information.
  • the decoder (B) is similar to the speech style of a neutral French speaker, reflects the sound patterns of Korean, and synthesizes the corresponding Korean text with the emotion of sadness transferred. Voice can be output.
  • the synthesized voice output by the decoder (B) has a similar speaking style to the speaker to be synthesized, and can correspond to the sad emotion 'I failed the test' that reflects the sound shape of Korean.
  • the synthesized voice output by the decoder (B) is the voice of a speaker whose native language is French, and can correspond to the sad emotion 'I failed the test.'
  • a plurality of sample reference voices which are training data of the style encoder (A) are French sample reference voices (e.g., French Emotional Speech DB) for each of a plurality of emotions, It does not include Korean sample reference voices for each of the multiple emotions (e.g., Korean Emotional Speech DB), etc. (i.e., it only includes the English sample reference voices for each of the multiple emotions), but the style
  • the encoder (A) and decoder (B) correspond to texts in Korean or French in addition to English, and can generate synthesized voices with transferred emotions.
  • FIG. 9 is a diagram illustrating a decoder that outputs a synthesized voice including a user's speech characteristics according to an embodiment of the present disclosure.
  • the top of Figure 9 shows a plurality of sample reference voices (Training step).
  • the plurality of sample reference voices include sample reference voices of speaker 1 (e.g., a female French speaker with neutral emotion) (French Female Neutral Speech DB in Figure 9), Sample reference speeches (Korean Female Neutral Speech DB in Figure 9) of Speaker 2 (e.g., a female Korean speaker with neutral emotions), and Speaker 3 (e.g., a multiple-emotion respective English speaker) (English) speaker)'s sample reference voices (English Emotional Speech DB in FIG. 9) may be included.
  • speaker 1 e.g., a female French speaker with neutral emotion
  • Sample reference speeches Korean Female Neutral Speech DB in Figure 9
  • Speaker 3 e.g., a multiple-emotion respective English speaker
  • English speaker English Emotional Speech DB in FIG. 9
  • the style encoder A includes speaker 1 (e.g., female French speaker), speaker 2 (e.g., female Korean speaker), or speaker 3 (e.g., English speaker) as speaker tokens 20, and , Language 1 (e.g., French), Language 2 (e.g., Korean), Language 3 (e.g., English) are included as language tokens (30), and a token set (10) corresponding to each of the plurality of emotions is included. You can.
  • speaker 1 e.g., female French speaker
  • speaker 2 e.g., female Korean speaker
  • speaker 3 e.g., English speaker
  • Language 1 e.g., French
  • Language 2 e.g., Korean
  • Language 3 e.g., English
  • a token set (10) corresponding to each of the plurality of emotions is included. You can.
  • the user of the electronic device 100 may correspond to speaker 4 (eg, a male Korean speaker) in addition to speakers 1 to 3.
  • speaker 4 eg, a male Korean speaker
  • the electronic device 100 may receive the voice of the user (i.e., speaker 4) and fine-tune the style encoder (A). A detailed description of this will be provided later with reference to FIG. 10.
  • FIG. 9 shows an electronic device 100 that acquires synthesized speech through a style encoder (A) and a decoder (B) (Inference step).
  • At least one processor 120 receives a speaker to be synthesized (e.g., Speaker 4 (e.g., Male Neutral Korean Speaker)) and synthesizes the French speaker. ' ' can be received as text.
  • a speaker to be synthesized e.g., Speaker 4 (e.g., Male Neutral Korean Speaker)
  • synthesizes the French speaker. ' ' can be received as text.
  • At least one processor 120 may be configured to ' can be input into the text encoder to obtain text embedding, and language (Language ID) can be input into the language encoder to obtain language embedding (for example, French).
  • language Longuage ID
  • language embedding for example, French
  • At least one processor 120 may identify an emotion corresponding to the emotion identifier among a plurality of emotions. For example, at least one processor 120 may obtain a token set 10-3 corresponding to the sad emotion according to the emotion identifier through the style encoder A.
  • At least one processor 120 inputs a Mel-Spectrogram corresponding to a reference voice and a token set 10-3 corresponding to a sad emotion into Style Attention to determine the style. Information can be obtained.
  • the decoder B may output a synthesized voice that corresponds to text and has sad emotions transferred based on style information.
  • the decoder (B) is similar to the speech style of a neutral male Korean speaker, reflects the sound patterns of French, and transfers sadness emotions, French text (e.g. For example, ' ') can be output.
  • a speaker e.g., speaker 4 (e.g., male Korean speaker)
  • speaker token e.g., speaker token
  • Speaker 1 e.g., a female French speaker
  • Speaker 2 e.g., a female Korean speaker
  • Speaker 3 e.g., an English speaker
  • the voice synthesis device can be fine-tuned so that the speech characteristics of the speaker of the reference voice include the synthesized voice.
  • FIG. 10 is a diagram for explaining fine-tuning of a voice synthesis device according to an embodiment of the present disclosure.
  • the at least one processor 120 generates a reference voice.
  • the speaker to be synthesized can be guided to utter additional voices.
  • At least one processor 120 may receive additional speech (User's Speech in FIG. 10) by guiding the speaker to be synthesized to utter a preset sentence.
  • At least one processor 120 determines the decoder B and the speaker encoder based on the received additional voice (i.e., the preset sentence uttered by the speaker of the reference voice). -By tuning, the speech characteristics of the speaker of the reference voice can be included in the synthesized voice output by the decoder (B).
  • the plurality of sample reference voices include sample reference voices (French Neutral Speech DB of Figure 8) of Speaker 1 (e.g., a French speaker with neutral emotion), Speaker 2 (e.g. For example, sample reference voices (Korean Neutral Speech DB in Figure 8) of a Korean speaker with neutral emotions, and speaker 3 (e.g., an English speaker with multiple emotions) It may include sample reference voices (English Emotional Speech DB in FIG. 8).
  • the style encoder (A) includes speaker 1 (e.g., French speaker), speaker 2 (e.g., Korean speaker), or speaker 3 (e.g., English speaker) as the speaker token 20, and the language Language tokens 30 include language 1 (e.g., French), language 2 (e.g., Korean), and language 3 (e.g., English), and may include a token set (10) corresponding to each of a plurality of emotions. .
  • speaker 1 e.g., French speaker
  • speaker 2 e.g., Korean speaker
  • speaker 3 e.g., English speaker
  • the language Language tokens 30 include language 1 (e.g., French), language 2 (e.g., Korean), and language 3 (e.g., English), and may include a token set (10) corresponding to each of a plurality of emotions. .
  • the speaker to be synthesized may correspond to any one of Speaker 1 to Speaker 3.
  • the at least one processor 120 may obtain the speaker token 20 corresponding to the speaker of the reference voice.
  • At least one processor 120 processes the Mel-Spectrogram corresponding to the reference voice as a reference embedding obtained through a reference encoder and the token set 10-3 corresponding to the sad emotion as style attention. You can obtain style information by entering (Style Attention).
  • the decoder B may output a synthesized voice that corresponds to the text, more appropriately reflects the speaking style of the speaker to be synthesized based on style information, and has a sad emotion transferred.
  • FIG. 11 is a diagram illustrating a decoder that outputs a synthesized voice by considering the speaker of the reference voice and the speaker tokens corresponding to each of a plurality of sample reference voices after fine-tuning of the decoder according to an embodiment of the present disclosure.
  • the Fine-Tuned decoder (B') shown in FIG. 9 is based on the additional voice (User's Speech in FIG. 10) received from the user of the electronic device 100 (e.g., Speaker 4 (e.g., male Korean speaker), A synthesized voice reflecting the speech characteristics (eg, voice, etc.) of the user of the electronic device 100 may be output.
  • the additional voice User's Speech in FIG. 10
  • Speaker 4 e.g., male Korean speaker
  • a synthesized voice reflecting the speech characteristics (eg, voice, etc.) of the user of the electronic device 100 may be output.
  • FIG. 11 shows an electronic device 100 that acquires synthesized speech through a fine-tuned decoder (B') (Inference step).
  • the at least one processor 120 receives a reference voice and, in French, ' ' can be received as text.
  • the speakers of the reference voice are Speakers 1 to 3, which are speakers of each of the plurality of sample reference voices, which are learning data of the style encoder (A), and the user of the electronic device 100 (e.g., a speaker used for fine-tuning).
  • the speaker of the additional voice (User's Speech in FIG. 10) may be speaker 5 (e.g., famous celebrity 'A') rather than speaker 4).
  • At least one processor 120 may generate a Mel-Spectrogram corresponding to a reference voice, a token set 10 corresponding to an emotion according to an emotion identifier (Emotion ID), and a language token 30. You can obtain style information by entering it in Style Attention.
  • Emotion ID emotion identifier
  • language token 30 You can obtain style information by entering it in Style Attention.
  • the fine-tuned decoder (B') corresponds to text and can output a synthesized voice with emotions transferred based on style information.
  • the Fine-Tuned decoder (B') corresponds to the text and includes the speech characteristics of the user (e.g., Speaker 4) according to the speaker embedding corresponding to the speaker (Speaker ID) to be synthesized ( corresponds to the user's voice), and the speaking style (e.g., tone, accent, rhythm, etc.) of the speaker of the reference voice (e.g., speaker 5) according to the mel-spectrogram. (including) is reflected, and a synthesized voice with the identified emotions transferred can be output.
  • the speech characteristics of the user e.g., Speaker 4
  • the speaker embedding corresponding to the speaker (Speaker ID) to be synthesized corresponds to the user's voice
  • the speaking style e.g., tone, accent, rhythm, etc.
  • the voice of the user of the electronic device 100 the speaking style of famous entertainer 'A' is reflected, and the emotion is transferred to provide prosodic characteristics (e.g., pitch (e.g., pitch), length (e.g., speed), ), size (e.g. intensity)) transferred, French text (e.g. ' ') can be output.
  • pitch e.g., pitch
  • length e.g., speed
  • size e.g. intensity
  • French text e.g. '
  • French text e.g. ' '
  • the speaker to be synthesized is the learning data of the style encoder (A), speaker tokens (e.g., speaker tokens) for each of a plurality of sample reference voices. For example, if it does not correspond to Speaker 1 (e.g., a female French speaker), Speaker 2 (e.g., a female Korean speaker), or Speaker 3 (e.g., an English speaker), at least one processor 120 selects the speaker (or , Based on the voice spoken by the user of the electronic device 100, the decoder B can be fine-tuned so that the speech characteristics of the speaker of the reference voice include the synthesized voice.
  • Speaker 1 e.g., a female French speaker
  • Speaker 2 e.g., a female Korean speaker
  • Speaker 3 e.g., an English speaker
  • Functions related to artificial intelligence according to the present disclosure are operated through at least one processor 120 and memory 110 of the electronic device 100.
  • the at least one processor 120 may include at least one of a Central Processing Unit (CPU), a Graphics Processing Unit (GPU), and a Neural Processing Unit (NPU), but is not limited to the example of the processor described above.
  • CPU Central Processing Unit
  • GPU Graphics Processing Unit
  • NPU Neural Processing Unit
  • CPU is a general-purpose processor that can perform not only general calculations but also artificial intelligence calculations, and can efficiently execute complex programs through a multi-layer cache structure. CPUs are advantageous for serial processing, which allows organic connection between previous and next calculation results through sequential calculations.
  • the general-purpose processor is not limited to the examples described above, except where specified as the CPU described above.
  • GPU is a processor for large-scale operations such as floating-point operations used in graphics processing, and can perform large-scale operations in parallel by integrating a large number of cores.
  • GPUs may be more advantageous than CPUs in parallel processing methods such as convolution operations.
  • the GPU can be used as a co-processor to supplement the functions of the CPU.
  • the processor for mass computation is not limited to the above-described example, except for the case specified as the above-described GPU.
  • NPU is a processor specialized in artificial intelligence calculations using artificial neural networks, and each layer that makes up the artificial neural network can be implemented in hardware (e.g., silicon). At this time, the NPU is designed specifically according to the company's requirements, so it has a lower degree of freedom than a CPU or GPU, but can efficiently process artificial intelligence calculations requested by the company. Meanwhile, as a processor specialized for artificial intelligence calculations, NPU can be implemented in various forms such as TPU (Tensor Processing Unit), IPU (Intelligence Processing Unit), and VPU (Vision processing unit).
  • the artificial intelligence processor is not limited to the examples described above, except where specified as the NPU described above.
  • At least one processor 120 may be implemented as a System on Chip (SoC).
  • SoC System on Chip
  • the SoC may further include memory and a network interface such as a bus for data communication between the processor and memory.
  • the electronic device 100 uses some of the processors to perform artificial intelligence-related operations (e.g., artificial intelligence Operations related to model learning or inference) can be performed.
  • artificial intelligence-related operations e.g., artificial intelligence Operations related to model learning or inference
  • the electronic device 100 performs artificial intelligence-related operations using at least one of a GPU, NPU, VPU, TPU, or hardware accelerator specialized for artificial intelligence operations such as convolution operation, matrix multiplication operation, etc., among a plurality of processors. It can be done.
  • this is only an example, and of course, calculations related to artificial intelligence can be processed using general-purpose processors such as CPUs.
  • the electronic device 100 may perform calculations on functions related to artificial intelligence using multiple cores (eg, dual core, quad core, etc.) included in one processor.
  • the electronic device 100 can perform artificial intelligence operations such as convolution operations and matrix multiplication operations in parallel using multi-cores included in the processor.
  • One or more processors control input data to be processed according to predefined operation rules or artificial intelligence models stored in the memory 110.
  • Predefined operation rules or artificial intelligence models are characterized by being created through learning.
  • being created through learning means that a predefined operation rule or artificial intelligence model with desired characteristics is created by applying a learning algorithm to a large number of learning data.
  • This learning may be performed on the device itself that performs the artificial intelligence according to the present disclosure, or may be performed through a separate server/system.
  • An artificial intelligence model may be composed of multiple neural network layers. At least one layer has at least one weight value, and the operation of the layer is performed using the operation result of the previous layer and at least one defined operation.
  • Examples of neural networks include CNN (Convolutional Neural Network), DNN (Deep Neural Network), RNN (Recurrent Neural Network), RBM (Restricted Boltzmann Machine), DBN (Deep Belief Network), BRDNN (Bidirectional Recurrent Deep Neural Network), and GAN. (Generative Adversarial Networks), NeRF, Deep Q-Networks (Deep Q-Networks), and Transformer, and the neural network in the present disclosure is not limited to the above-described examples except where specified.
  • a learning algorithm is a method of training a target device (eg, a robot) using a large number of learning data so that the target device can make decisions or make predictions on its own.
  • Examples of learning algorithms include supervised learning, unsupervised learning, semi-supervised learning, or reinforcement learning, and the learning algorithm in the present disclosure is specified. Except, it is not limited to the examples described above.
  • FIG. 12 is a flowchart illustrating a method of controlling a display device according to an embodiment of the present disclosure.
  • the control method of an electronic device identifies an emotion corresponding to the reference speech among a plurality of emotions (S1210).
  • a token set corresponding to the identified emotion is acquired (S1220).
  • the text is input into a decoder obtained based on style information to obtain a synthesized voice corresponding to the text (S1240).
  • a synthesized voice corresponding to the text is output (S1250).
  • the information about the reference voice includes a reference embedding, and the encoder encodes at least one style based on the similarity between the reference embedding and at least one style token included in the acquired token set. Style information including style embedding representing the weighted sum of tokens can be output.
  • the control method includes obtaining a reference embedding by inputting a Mel-Spectrogram corresponding to a reference voice into a Reference Encoder and obtaining a phoneme corresponding to the text.
  • a step of obtaining text embedding by inputting it into a text encoder may be further included.
  • Step S1210 of identifying an emotion may include, when an emotion identifier (ID) is received, identifying an emotion corresponding to the emotion identifier among a plurality of emotions.
  • ID an emotion identifier
  • the style encoder learns the similarity between a sample reference embedding corresponding to at least one sample reference voice among a plurality of sample reference voices and at least one style token included in a token set corresponding to the emotion of the at least one sample reference voice. It may be an unsupervised learning model.
  • the control method further includes the step of acquiring a language token, a speaker token, and a residual token corresponding to at least one sample reference voice
  • the style encoder includes, Learning the similarity between the sample reference embedding corresponding to at least one sample reference voice and at least one style token, language token, speaker token, and residual token included in the token set corresponding to the emotion of the at least one sample reference voice. It may be an unsupervised learning model.
  • step S1230 of acquiring style information if the language of the reference voice corresponds to the language token of at least one sample reference voice, at least one style token included in the token set corresponding to the emotion of the reference voice, language It may include obtaining style information by inputting a token into a style encoder.
  • step S1230 of acquiring style information if the speaker to be synthesized corresponds to the speaker token of at least one sample reference voice, at least one style token included in the token set corresponding to the emotion of the reference voice, speaker It may include a step of acquiring style information by inputting a token into an encoder.
  • the control method includes receiving a user's speech voice and fine-tuning the decoder so that the synthesized voice corresponding to the text output by the decoder based on the received speech voice includes the user's speech characteristics.
  • a tuning step may be further included.
  • At least one style token included in the acquired token set according to the embodiment may correspond to at least one of the prosodic characteristics of the voice.
  • embodiments described above may be implemented in a recording medium that can be read by a computer or similar device using software, hardware, or a combination thereof.
  • embodiments described herein may be implemented with a processor itself.
  • embodiments such as procedures and functions described in this specification may be implemented as separate software modules. Each of the software modules may perform one or more functions and operations described herein.
  • computer instructions for performing processing operations of an electronic device according to various embodiments of the present disclosure described above may be stored in a non-transitory computer-readable medium.
  • Computer instructions stored in such non-transitory computer-readable media when executed by a processor of a specific device, cause the specific device to perform processing operations in the electronic device according to the various embodiments described above.
  • a non-transitory computer-readable medium refers to a medium that stores data semi-permanently and can be read by a device, rather than a medium that stores data for a short period of time, such as registers, caches, and memories.
  • Specific examples of non-transitory computer-readable media may include CD, DVD, hard disk, Blu-ray disk, USB, memory card, ROM, etc.

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Child & Adolescent Psychology (AREA)
  • General Health & Medical Sciences (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)

Abstract

전자 장치는 복수의 감정(Emotion) 각각에 대응되는 토큰 셋(Token Set)이 저장된 메모리 및 레퍼런스 음성(Reference Speech)이 수신되면, 복수의 감정 중 레퍼런스 음성에 대응되는 감정을 식별하고, 메모리에 저장된 복수의 토큰 셋 중 식별된 감정에 대응되는 토큰 셋을 획득하고, 레퍼런스 음성에 대한 정보 및 획득된 토큰 셋을 스타일 인코더(Style Encoder)에 입력하여 식별된 감정의 합성 음성을 출력하기 위한 스타일 정보를 획득하며, 텍스트가 입력되면, 텍스트를 스타일 정보에 기초하여 획득된 디코더에 입력하여 텍스트에 대응되는 합성 음성을 획득하고, 텍스트에 대응되는 합성 음성을 출력하는 적어도 하나의 프로세서를 포함한다.

Description

감정을 고려하여 합성 음성을 획득하는 전자 장치 및 그 제어 방법
본 발명은 전자 장치 및 그 제어 방법에 관한 것으로, 더욱 상세하게는, 감정이 반영된 합성 음성을 획득하는 전자 장치 및 그 제어 방법에 관한 것이다.
음성 합성 기술은, 텍스트에 대응되는 음성을 합성하는 기술로, 최근 많은 영역에서 활용되는 추세이다.
딥러닝 기술의 활용에 따라 합성 음성의 품질에 많은 향상이 있었으나, 자연스러움이나, 생동감이 반영된 합성 음성을 출력하기에는 기술적인 미흡함이 많이 있었다.
특히, 중립(Neutral) 감정에 따른 합성 음성은, 어색함, 이질감이 적으나, 화나거나 기쁜 감정이 반영된 합성 음성은, 기계적이고, 자연스럽지 못하여 어색함이 느껴지는 문제가 있었다.
동일한 텍스트에 대응되는 합성 음성들일지라도, 감정의 반영 여부에 따라 의미가 상이할 수 있으므로, 활용성 등을 고려하여 감정이 적절하게 반영되어 사람이 실제로 발화한 것처럼 느껴지는 합성 음성을 획득하기 위한 음성 합성 기술에 대한 요구가 있어왔다.
다만, 다언어(Multi Language) 각각에 대응되며, 복수의 감정이 반영된 학습 데이터를 획득하기에 어려움이 있으며, 다언어 환경에서도, 텍스트에 대응되며, 감정이 전이된(Transferred) 합성 음성을 적절히 출력하는 음성 합성 기술에 대한 요구가 있어왔다.
본 개시의 일 실시 예에 따른 전자 장치는, 복수의 감정(Emotion) 각각에 대응되는 토큰 셋(Token Set)이 저장된 메모리 및 레퍼런스 음성(Reference Speech)이 수신되면, 상기 복수의 감정 중 상기 레퍼런스 음성에 대응되는 감정을 식별하고, 상기 메모리에 저장된 복수의 토큰 셋 중 상기 식별된 감정에 대응되는 토큰 셋을 획득하고, 상기 레퍼런스 음성에 대한 정보 및 상기 획득된 토큰 셋을 스타일 인코더(Style Encoder)에 입력하여 상기 식별된 감정의 합성 음성을 출력하기 위한 스타일 정보를 획득하며, 텍스트가 입력되면, 상기 텍스트를 상기 스타일 정보에 기초하여 획득된 디코더에 입력하여 상기 텍스트에 대응되는 합성 음성을 획득하고, 상기 텍스트에 대응되는 합성 음성을 출력하는 적어도 하나의 프로세서를 포함한다.
본 개시의 일 실시 예에 따른 전자 장치의 제어 방법은, 레퍼런스 음성(Reference Speech)이 수신되면, 복수의 감정 중 상기 레퍼런스 음성에 대응되는 감정을 식별하는 단계, 상기 복수의 감정 각각에 대응되는 토큰 셋 중 상기 식별된 감정에 대응되는 토큰 셋을 획득하는 단계, 상기 레퍼런스 음성에 대한 정보 및 상기 획득된 토큰 셋을 스타일 인코더(Style Encoder)에 입력하여 상기 식별된 감정의 합성 음성을 출력하기 위한 스타일 정보를 획득하는 단계, 텍스트가 입력되면, 상기 텍스트를 상기 스타일 정보에 기초하여 획득된 디코더에 입력하여 상기 텍스트에 대응되는 합성 음성을 획득하는 단계 및 상기 텍스트에 대응되는 합성 음성을 출력하는 단계를 포함한다.
본 개시의 상술한 목적을 달성하기 위한 일 실시 예에 따르면 전자 장치의 제어 방법을 실행하는 프로그램을 포함하는 컴퓨터 판독 가능 기록매체에 있어서, 전자 장치의 제어 방법은, 레퍼런스 음성(Reference Speech)이 수신되면, 복수의 감정 중 상기 레퍼런스 음성에 대응되는 감정을 식별하는 단계, 상기 복수의 감정 각각에 대응되는 토큰 셋 중 상기 식별된 감정에 대응되는 토큰 셋을 획득하는 단계, 상기 레퍼런스 음성에 대한 정보 및 상기 획득된 토큰 셋을 스타일 인코더(Style Encoder)에 입력하여 상기 식별된 감정의 합성 음성을 출력하기 위한 스타일 정보를 획득하는 단계, 텍스트가 입력되면, 상기 텍스트를 상기 스타일 정보에 기초하여 획득된 디코더에 입력하여 상기 텍스트에 대응되는 합성 음성을 획득하는 단계 및 상기 텍스트에 대응되는 합성 음성을 출력하는 단계를 포함한다.
도 1은 본 개시의 일 실시 예에 따른 스타일 인코더(encoder) 및 디코더(decoder)를 통해 합성 음성을 획득하는 전자 장치를 설명하기 위한 도면이다.
도 2는 본 개시의 일 실시 예에 따른 전자 장치의 구성을 나타내는 블록도이다.
도 3은 본 개시의 일 실시 예에 따른 스타일 인코더를 통해 획득하는 스타일 정보를 설명하기 위한 도면이다.
도 4는 본 개시의 일 실시 예에 따른 감정에 대응되는 토큰 셋 및 언어 토큰을 이용하여 스타일 정보를 출력하는 스타일 인코더를 설명하기 위한 도면이다.
도 5는 본 개시의 일 실시 예에 따른 복수의 감정 각각에 대응되는 토큰 셋, 화자 토큰, 언어 토큰 및 잔차 토큰을 이용하여 스타일 정보를 출력하는 스타일 인코더를 설명하기 위한 도면이다.
도 6은 본 개시의 일 실시 예에 따른 스타일 인코더의 학습을 설명하기 위한 도면이다.
도 7은 본 개시의 일 실시 예에 따른 복수의 샘플 레퍼런스 음성, 합성 음성을 설명하기 위한 도면이다.
도 8은 본 개시의 일 실시 예에 따른 다국어 환경에서 디코더를 통해 획득하는 합성 음성을 설명하기 위한 도면이다.
도 9는 본 개시의 일 실시 예에 따른 사용자의 발화 특성을 포함하는 합성 음성을 출력하는 디코더를 설명하기 위한 도면이다.
도 10은 본 개시의 일 실시 예에 따른 디코더의 파인-튜닝(fine-tuning)을 설명하기 위한 도면이다.
도 11은 본 개시의 일 실시 예에 따른 디코더의 파인-튜닝 이후 합성하고자 하는 화자와, 복수의 샘플 레퍼런스 음성 각각에 대응되는 화자 토큰을 고려하여 합성 음성을 출력하는 디코더를 설명하기 위한 도면이다.
도 12는 본 개시의 일 실시 예에 따른 디스플레이 장치의 제어 방법을 설명하기 위한 흐름도이다.
이하에서는 첨부 도면을 참조하여 본 개시를 상세히 설명한다.
본 개시의 실시 예에서 사용되는 용어는 본 개시에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 개시의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 개시에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 개시의 전반에 걸친 내용을 토대로 정의되어야 한다.
본 명세서에서, "가진다," "가질 수 있다," "포함한다," 또는 "포함할 수 있다" 등의 표현은 해당 특징(예: 수치, 기능, 동작, 또는 부품 등의 구성요소)의 존재를 가리키며, 추가적인 특징의 존재를 배제하지 않는다.
A 또는/및 B 중 적어도 하나라는 표현은 "A" 또는 "B" 또는 "A 및 B" 중 어느 하나를 나타내는 것으로 이해되어야 한다.
본 명세서에서 사용된 "제1," "제2," "첫째," 또는 "둘째,"등의 표현들은 다양한 구성요소들을, 순서 및/또는 중요도에 상관없이 수식할 수 있고, 한 구성요소를 다른 구성요소와 구분하기 위해 사용될 뿐 해당 구성요소들을 한정하지 않는다.
어떤 구성요소(예: 제1 구성요소)가 다른 구성요소(예: 제2 구성요소)에 "(기능적으로 또는 통신적으로) 연결되어((operatively or communicatively) coupled with/to)" 있다거나 "접속되어(connected to)" 있다고 언급된 때에는, 어떤 구성요소가 다른 구성요소에 직접적으로 연결되거나, 다른 구성요소(예: 제3 구성요소)를 통하여 연결될 수 있다고 이해되어야 할 것이다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "구성되다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
본 개시에서 "모듈" 혹은 "부"는 적어도 하나의 기능이나 동작을 수행하며, 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다. 또한, 복수의 "모듈" 혹은 복수의 "부"는 특정한 하드웨어로 구현될 필요가 있는 "모듈" 혹은 "부"를 제외하고는 적어도 하나의 모듈로 일체화되어 적어도 하나의 프로세서(미도시)로 구현될 수 있다.
본 명세서에서, 사용자라는 용어는 전자 장치를 사용하는 사람 또는 전자 장치를 사용하는 장치(예: 인공지능 전자 장치)를 지칭할 수 있다.
이하 첨부된 도면들을 참조하여 본 개시의 일 실시 예를 보다 상세하게 설명한다.
도 1은 본 개시의 일 실시 예에 따른 스타일 인코더(encoder) 및 디코더(decoder)를 통해 합성 음성을 획득하는 전자 장치를 설명하기 위한 도면이다.
본 개시의 일 실시 예에 따른 전자 장치(100)는 스타일 인코더(A), 텍스트 인코더(Text encoder) 및 디코더(B)를 포함하는 음성 합성(Speech Synthesis 또는, Text-to-Speech, TTS) 장치를 나타낼 수 있다.
음성 합성 장치는, 텍스트가 입력되면, 입력된 텍스트에 대응되는 음성을 합성하여 출력할 수 있다.
종래의 음성 합성 장치가 출력하는 음성(예를 들어, 합성된 음성(synthesized speech))은, 사람의 실제 음성 대비, 기계적이고 상대적으로 단조로운 한계가 있었다. 예를 들어, 사람의 실제 음성은, 화자의 감정이 반영된 운율 특성을 포함하나, 종래의 음성 합성 장치가 출력하는 음성은, 텍스트를 음성으로 변환하는데 그치고, 감정이 반영된 운율 특성을 포함하지 못하므로, 자연스러움이나 생동감을 제공하는데 한계가 있었다.
일 예에 따라, 운율은, 성조(tone), 강세(accent), 리듬(rhythm) 등을 포함할 수 있고, 운율 특성은, 음의 높이(예, 높낮이), 길이(예, 빠르기), 크기(예, 강약) 등을 포함할 수 있다.
본 개시의 일 실시 예에 따른 전자 장치(100)는 스타일 인코더(A) 및 디코더(B)를 이용하여 텍스트에 대응되며, 감정이 반영된 음성을 합성하여 출력할 수 있다.
실시 예에 따라 전자 장치(100)는 스타일 인코더(A)를 이용하여, 디코더(B)가 합성하는 음성에 반영하고자 하는 감정에 대응되는 스타일 정보를 획득하고, 디코더(B)를 이용하여 텍스트에 대응되는 음성에 스타일 정보에 따른 감정을 반영(또는, 합성)하여 합성 음성을 획득(또는, 출력)할 수 있다.
일 예에 따라 스타일 정보는, 스타일 벡터(Style vector)로 불릴 수도 있으나, 이하에서는 설명의 편의를 위해 스타일 정보로 통칭하도록 한다.
본 개시의 일 실시 예에 따른 전자 장치(100)는. 복수의 감정(Emotion) 각각에 대응되는 토큰 셋(Token set)(10)을 포함할 수 있다.
일 예에 따른 전자 장치(100)는, 레퍼런스 음성(Reference speech)이 수신되면, 복수의 감정 중 레퍼런스 음성에 대응되는 감정을 식별할 수 있다. 다만, 이는 일 예시로 이에 한정되지 않는다. 예를 들어, 전자 장치(100)는 감정 식별자(Emotion ID)를 수신하고, 복수의 감정 중 감정 식별자에 대응되는 감정을 식별할 수 있다.
일 예에 따른 전자 장치(100)는 식별된 감정에 대응되는 토큰 셋 및 레퍼런스 음성을 스타일 인코더(A)에 입력하여, 디코더(B)를 통해 식별된 감정이 반영되고, 레퍼런스 음성과 스타일(Style)이 유사한 합성 음성을 획득하기 위한 스타일 정보를 획득할 수 있다.
일 예에 따른 전자 장치(100)는 텍스트와 스타일 정보를 디코더(B)에 입력하여, 텍스트에 대응되며, 감정이 반영되고, 레퍼런스 음성과 스타일이 유사한 음성을 합성 및 출력할 수 있다.
예를 들어, 사람들 마다 특정 감정(예를 들어, 분노(Angry))이 반영된 음성을 발화하는 스타일이 상이하므로, 디코더(B)는 레퍼런스 음성과 스타일(예를 들어, 발화 스타일)이 유사하며, 특정 감정이 반영된 음성을 합성하여 출력할 수 있다.
예를 들어, 복수의 사람들 각각이 동일한 감정을 반영하여 발화하여도, 성별, 나이, 지역, 구강 구조 등에 따라 발화 스타일이 상이하므로, 스타일 인코더(A)의 스타일 어텐션(Style Attention)은 레퍼런스 음성과 식별된 감정에 대응되는 토큰 셋이 입력되면, 레퍼런스 음성과 스타일이 유사하며, 감정이 반영된 음성을 합성하기 위한 스타일 정보를 출력하며, 디코더(B)는 스타일 정보에 기초하여 레퍼런스 음성과 스타일이 유사하며, 식별된 감정이 반영된 음성을 합성하여 출력할 수 있다.
도 2는 본 개시의 일 실시 예에 따른 전자 장치의 구성을 나타내는 블록도이다.
도 2를 참조하면, 전자 장치(100)는 메모리(110) 및 적어도 하나의 프로세서(120)를 포함한다.
일 실시 예에 따른 메모리(110)는 다양한 실시 예를 위해 필요한 데이터를 저장할 수 있다.
메모리(110)는 데이터 저장 용도에 따라 전자 장치(100)에 임베디드된 메모리 형태로 구현되거나, 전자 장치(100)에 탈부착이 가능한 메모리 형태로 구현될 수도 있다. 예를 들어, 전자 장치(100)의 구동을 위한 데이터의 경우 전자 장치(100)에 임베디드된 메모리에 저장되고, 전자 장치(100)의 확장 기능을 위한 데이터의 경우 전자 장치(100)에 탈부착이 가능한 메모리에 저장될 수 있다. 한편, 전자 장치(100)에 임베디드된 메모리의 경우 휘발성 메모리(예: DRAM(dynamic RAM), SRAM(static RAM), 또는 SDRAM(synchronous dynamic RAM) 등), 비휘발성 메모리(non-volatile Memory)(예: OTPROM(one time programmable ROM), PROM(programmable ROM), EPROM(erasable and programmable ROM), EEPROM(electrically erasable and programmable ROM), mask ROM, flash ROM, 플래시 메모리(예: NAND flash 또는 NOR flash 등), 하드 드라이브, 또는 솔리드 스테이트 드라이브(solid state drive(SSD)) 중 적어도 하나로 구현될 수 있다. 또한, 전자 장치(100)에 탈부착이 가능한 메모리의 경우 메모리 카드(예를 들어, CF(compact flash), SD(secure digital), Micro-SD(micro secure digital), Mini-SD(mini secure digital), xD(extreme digital), MMC(multi-media card) 등), USB 포트에 연결가능한 외부 메모리(예를 들어, USB 메모리) 등과 같은 형태로 구현될 수 있다.
일 예에 따라 메모리(110)는 전자 장치(100)를 제어하기 위한 적어도 하나의 인스트럭션(instruction) 또는 인스트럭션들을 포함하는 컴퓨터 프로그램을 저장할 수 있다.
일 예에 따라 메모리(110)는 외부 장치(예를 들어, 소스 장치), 외부 저장 매체(예를 들어, USB), 외부 서버(예를 들어 웹 하드) 등으로부터 수신된 다양한 데이터를 저장할 수 있다. 일 실시 예에 따르면, 메모리(110)는 본 개시에 따른 다양한 동작들에서 생성되는 데이터를 저장하는 단일 메모리로 구현될 수 있다. 다만, 다른 실시 예에 따르면, 메모리(110)는 상이한 타입의 데이터를 각각 저장하거나, 상이한 단계에서 생성되는 데이터를 각각 저장하는 복수의 메모리를 포함하도록 구현될 수도 있다.
또한, 메모리(110)는 전자 장치(100)를 구동/제어하기 위한 다양한 데이터, 프로그램 또는 어플리케이션을 저장할 수 있다. 특히, 본 개시의 일 실시 예에 따른 메모리(110)는 복수의 감정(Emotion)(10) 각각에 대응되는 토큰 셋(Token Set)을 저장할 수 있다.
여기서, 복수의 감정 각각은, 도 1에 도시된 바와 같이, 중립(Neutral)(10-1), 기쁨(Happy)(10-2), 슬픔(Sad)(10-3), 분노(Angry)(10-4)를 포함할 수 있다.
이는 일 예시이며, 복수의 감정 각각은, 존경(Admiration), 흠모(Adoration), 심미적 감상(Aesthetic Appreciation), 즐거움(Amusement), 걱정(Anxiety), 경외감(Awe), 어색함(Awkwardness), 지루함(Boredom), 차분함(Calmness), 혼란스러움(Confusion), 간절함(Craving), 역겨움(Disgust), 공감적 고통(Empathetic pain), 황홀경(Entrancement), 부러움, 질투(Envy), 흥분됨, 신남(Excitement), 두려움(Fear), 공포(Horror), 흥미, 호기심(Interest), 기쁨(Joy), 향수, 그리움(Nostalgia), 로맨스(Romance), 슬픔(Sadness), 만족(Satisfaction), 성적 욕구(Sexual desire), 공감(Sympathy), 승리감(Triumph) 등의 서로 다른 감정에 대응될 수도 있다.
본 개시의 일 예에 따라 메모리(110)(또는, 메모리(110)에 저장된 스타일 인코더(A))는, 복수의 감정(10) 각각에 대응되는 토큰 셋을 저장하며, 적어도 하나의 프로세서(120)는 복수의 감정(10) 중 하나의 감정을 식별하고, 식별된 감정에 대응되는 토큰 셋을 획득할 수 있다. 상술한 실시 예에서는 다양한 데이터가 적어도 하나의 프로세서(120)의 외부 메모리에 저장되는 것으로 설명하였으나, 상술한 데이터 중 적어도 일부는 적어도 하나의 프로세서(120)의 내부 메모리에 저장될 수도 있음은 물론이다.
적어도 하나의 프로세서(120)는 전자 장치(100)의 동작을 전반적으로 제어한다. 구체적으로, 적어도 하나의 프로세서(120)는 전자 장치(100)의 각 구성과 연결되어 전자 장치(100)의 동작을 전반적으로 제어할 수 있다.
적어도 하나의 프로세서(120)는 메모리(110)에 저장된 적어도 하나의 인스트럭션(instruction)을 실행함으로써, 다양한 실시 예에 따른 전자 장치(100)의 동작을 수행할 수 있다.
적어도 하나의 프로세서(120)는 CPU (Central Processing Unit), GPU (Graphics Processing Unit), APU (Accelerated Processing Unit), MIC (Many Integrated Core), DSP (Digital Signal Processor), NPU (Neural Processing Unit), 하드웨어 가속기 또는 머신 러닝 가속기 중 하나 이상을 포함할 수 있다. 적어도 하나의 프로세서(120)는 전자 장치의 다른 구성요소 중 하나 또는 임의의 조합을 제어할 수 있으며, 통신에 관한 동작 또는 데이터 처리를 수행할 수 있다. 적어도 하나의 프로세서(120)는 메모리(110)에 저장된 하나 이상의 프로그램 또는 명령어(instruction)을 실행할 수 있다. 예를 들어, 적어도 하나의 프로세서(120)는 메모리(110)에 저장된 하나 이상의 명령어를 실행함으로써, 본 개시의 일 실시 예에 따른 방법을 수행할 수 있다.
본 개시의 일 실시 예에 따른 방법이 복수의 동작을 포함하는 경우, 복수의 동작은 하나의 프로세서에 의해 수행될 수도 있고, 복수의 프로세서에 의해 수행될 수도 있다. 예를 들어, 일 실시 예에 따른 방법에 의해 제 1 동작, 제 2 동작, 제 3 동작이 수행될 때, 제 1 동작, 제 2 동작, 및 제 3 동작 모두 제 1 프로세서에 의해 수행될 수도 있고, 제 1 동작 및 제 2 동작은 제 1 프로세서(예를 들어, 범용 프로세서)에 의해 수행되고 제 3 동작은 제 2 프로세서(예를 들어, 인공지능 전용 프로세서)에 의해 수행될 수도 있다.
적어도 하나의 프로세서(120)는 하나의 코어를 포함하는 단일 코어 프로세서(single core processor)로 구현될 수도 있고, 복수의 코어(예를 들어, 동종 멀티 코어 또는 이종 멀티 코어)를 포함하는 하나 이상의 멀티 코어 프로세서(multicore processor)로 구현될 수도 있다. 적어도 하나의 프로세서(120)가 멀티 코어 프로세서로 구현되는 경우, 멀티 코어 프로세서에 포함된 복수의 코어 각각은 캐시 메모리, 온 칩(On-chip) 메모리와 같은 프로세서 내부 메모리를 포함할 수 있으며, 복수의 코어에 의해 공유되는 공통 캐시가 멀티 코어 프로세서에 포함될 수 있다. 또한, 멀티 코어 프로세서에 포함된 복수의 코어 각각(또는 복수의 코어 중 일부)은 독립적으로 본 개시의 일 실시 예에 따른 방법을 구현하기 위한 프로그램 명령을 판독하여 수행할 수도 있고, 복수의 코어 전체(또는 일부)가 연계되어 본 개시의 일 실시 예에 따른 방법을 구현하기 위한 프로그램 명령을 판독하여 수행할 수도 있다.
본 개시의 일 실시 예에 따른 방법이 복수의 동작을 포함하는 경우, 복수의 동작은 멀티 코어 프로세서에 포함된 복수의 코어 중 하나의 코어에 의해 수행될 수도 있고, 복수의 코어에 의해 수행될 수도 있다. 예를 들어, 일 실시 예에 따른 방법에 의해 제 1 동작, 제 2 동작, 및 제 3 동작이 수행될 때, 제 1 동작, 제2 동작, 및 제3 동작 모두 멀티 코어 프로세서에 포함된 제 1 코어에 의해 수행될 수도 있고, 제 1 동작 및 제 2 동작은 멀티 코어 프로세서에 포함된 제 1 코어에 의해 수행되고 제 3 동작은 멀티 코어 프로세서에 포함된 제 2 코어에 의해 수행될 수도 있다.
본 개시의 실시 예들에서, 프로세서는 적어도 하나의 프로세서 및 기타 전자 부품들이 집적된 시스템 온 칩(SoC), 단일 코어 프로세서, 멀티 코어 프로세서, 또는 단일 코어 프로세서 또는 멀티 코어 프로세서에 포함된 코어를 의미할 수 있으며, 여기서 코어는 CPU, GPU, APU, MIC, DSP, NPU, 하드웨어 가속기 또는 기계 학습 가속기 등으로 구현될 수 있으나, 본 개시의 실시 예들이 이에 한정되는 것은 아니다.
특히, 본 개시의 일 실시 예에 따른 적어도 하나의 프로세서(120)는 레퍼런스 음성(Reference Speech)가 수신되면, 복수의 감정 중 레퍼런스 음성에 대응되는 감정을 식별할 수 있다.
적어도 하나의 프로세서(120)는 식별된 감정에 대응되는 토큰 셋 및 레퍼런스 음성을 스타일 인코더(A)(또는, 스타일 인코더(A)의 스타일 어텐션(Style Attention))에 입력하여, 스타일 정보를 획득할 수 있다.
적어도 하나의 프로세서(120)는 텍스트와 스타일 정보를 디코더(B)에 입력하여, 텍스트에 대응되며, 감정이 반영되고, 레퍼런스 음성과 스타일이 유사한 음성을 합성 및 출력할 수 있다.
도 3은 본 개시의 일 실시 예에 따른 스타일 인코더를 통해 획득하는 스타일 정보를 설명하기 위한 도면이다.
본 개시의 일 실시 예에 따른 스타일 인코더(A)는 복수의 감정(10) 각각에 대응되는 토큰 셋을 포함할 수 있다.
예를 들어, 스타일 인코더(A)가 복수의 감정(10) 각각을 구분하지 않고(예를 들어, 복수의 감정 각각을 서로 다른 카테고리로 분류하지 않고), 복수의 감정이 반영된 학습 데이터들(이하, 복수의 샘플 레퍼런스 음성)을 이용하여 학습하면, 감정을 나타내는 운율 특성(이하, 감정에 대응되는 토큰 셋)이 평균적인 운율 특성(예를 들어, 중립(Neutral) 감정이 반영된 음성의 운율 특성)을 나타내거나, 감정을 나타내는 운율 특성이 특정 감정(예를 들어, 기쁨)의 운율 특성에 과적합(Overfitting)되는 문제가 있다.
본 개시의 일 예에 따라 스타일 인코더(A)는 복수의 샘플 레퍼런스 음성을 이용하여 복수의 감정(10) 각각에 대응되는(즉, 복수의 감정(10) 각각으로 구분된) 토큰 셋을 획득하도록 학습할 수 있다.
본 개시의 일 예에 따른 스타일 인코더(A)의 학습 단계(또는, 훈련 단계)는 후술하도록 한다.
일 예에 따라 적어도 하나의 프로세서(120)는 추론(Inference) 단계에서 레퍼런스 음성이 수신되면, 레퍼런스 음성에 대한 정보를 획득할 수 있다. 예를 들어, 적어도 하나의 프로세서(120)는 멜-스펙트로그램(Mel-Spectrogram) 형태의 레퍼런스 음성이 수신되면, 레퍼런스 음성을 레퍼런스 인코더(Reference Encoder)에 입력하여 레퍼런스 임베딩(Reference Embedding)을 획득할 수 있다. 예를 들어, 적어도 하나의 프로세서(120)는 멜- 스펙트로그램을 기 설정된 길이의 벡터(fixed-length vector)로 임베딩하여 레퍼런스 임베딩(Reference Embedding)을 획득할 수 있다.
실시 예에 따라 멜-스펙트로그램은, 인간의 청감이 모든 주파수를 균일하게 수신하지 않으므로, 음성을 인간의 청감과 일치하도록 Mel-scale로 변환한 스펙트로그램을 포함할 수 있다.
본 개시의 일 예에 따라 적어도 하나의 프로세서(120)는 레퍼런스 음성으로부터 감정을 식별할 수 있다. 예를 들어, 레퍼런스 음성은, 감정 식별자(Emotion ID)를 포함할 수도 있고, 적어도 하나의 프로세서(120)는 레퍼런스 음성을 분석하여, 레퍼런스 음성에 대응되는 감정을 식별할 수도 있다.
적어도 하나의 프로세서(120)는 복수의 감정 중 식별된 감정에 대응되는 토큰 셋을 포함할 수 있다. 여기서, 식별된 감정에 대응되는 토큰 셋은, 식별된 감정에 따른 운율 특성을 나타낼 수 있다.
본 개시의 일 예에 따라 적어도 하나의 프로세서(120)는 레퍼런스 음성과 유사한 스타일의 합성 음성을 획득하기 위해, 레퍼런스 임베딩(Reference Embedding) 및 식별된 감정에 대응되는 토큰 셋을 스타일 인코더(A)의 스타일 어텐션(Style Attention)에 입력하여 스타일 정보를 획득할 수 있다.
예를 들어, 스타일 인코더(A) 및 디코더(B)를 통해 합성 음성을 획득하는 추론(Inference) 단계에서는, 스타일 인코더(A)의 스타일 어텐션은, 레퍼런스 음성과 유사한 발화 스타일의 합성 음성을 획득하기 위해, 식별된 감정에 대응되는 토큰 셋에 포함된 스타일 토큰들 각각과 레퍼런스 임베딩(Reference Embedding) 간의 유사도에 기초하여, 스타일 토큰들의 가중 합(Weighted sum)을 나타낸 스타일 정보를 획득할 수 있다.
본 개시에서 레퍼런스 음성은, '어떠한 스타일의 합성 음성을 획득하고 싶은지'를 나타내는 음성(또는, 명령 등)을 포함할 수 있다.
도 3을 참조하면, 실시 예에 따라 합성하고자 하는 화자가 발화하는 음성의 언어(Language)와 텍스트(도 1의 음소 또는 낱소리(Phoneme))의 언어가 상이할 수 있다.
도 4는 본 개시의 일 실시 예에 따른 감정에 대응되는 토큰 셋 및 언어 토큰을 이용하여 스타일 정보를 출력하는 스타일 인코더를 설명하기 위한 도면이다.
일 실시 예에 따라 적어도 하나의 프로세서(120)는 언어 룩업 테이블(look-up table)에 기초하여 언어를 식별하며, 식별된 언어에 대응되는 언어 토큰(language token)을 획득할 수 있다.
예를 들어, 도 1에 도시된 바와 같이 레퍼런스 언어에 대응되는 언어를 식별하며, 식별된 언어에 대응되는 언어 토큰(language token)(20)을 획득할 수 있다.
본 개시의 일 예에 따라 적어도 하나의 프로세서(120)는 레퍼런스 음성과 유사한 스타일의 합성 음성을 획득하기 위해, 레퍼런스 인코더(Reference Encoder)가 출력한 레퍼런스 임베딩(Reference Embedding), 식별된 감정에 대응되는 토큰 셋 및 레퍼런스 음성에 대응되는 언어의 음형(Sound Patterns)을 나타내는 언어 토큰(30)을 스타일 인코더(A)의 스타일 어텐션(Style Attention)에 입력하여 스타일 정보를 획득할 수 있다.
예를 들어, 스타일 인코더(A) 및 디코더(B)를 통해 합성 음성을 획득하는 추론(Inference) 단계에서는, 스타일 인코더(A)의 스타일 어텐션은, 레퍼런스 음성에 대응되는 언어의 음형(Sound Patterns)이 반영되고, 레퍼런스 음성과 유사한 발화 스타일의 합성 음성을 획득하기 위해, 언어 토큰(30) 및 식별된 감정에 대응되는 토큰 셋에 포함된 스타일 토큰들 각각과 레퍼런스 임베딩(Reference Embedding) 간의 유사도에 기초하여, 스타일 토큰들의 가중 합(Weighted sum)을 나타낸 스타일 정보를 획득할 수 있다.
도 5는 본 개시의 일 실시 예에 따른 복수의 감정 각각에 대응되는 토큰 셋, 화자 토큰, 언어 토큰 및 잔차 토큰을 이용하여 스타일 정보를 출력하는 스타일 인코더를 설명하기 위한 도면이다.
일 실시 예에 따라 적어도 하나의 프로세서(120)는 화자(Speaker) 룩업 테이블에 기초하여 레퍼런스 음성(또는, 멜-스펙트로그램)에 대응되는 화자를 식별하고, 식별된 화자(Speaker ID)에 대응되는 화자 토큰(Speaker Token)(20)을 획득할 수 있다.
예를 들어, 레퍼런스 음성에 대응되는 화자가, 스타일 인코더(A)의 학습 데이터인, 복수의 샘플 레퍼런스 음성 중 적어도 하나의 샘플 레퍼런스 음성의 화자 토큰에 대응되면, 레퍼런스 음성(또는, 멜-스펙트로그램)에 대응되는 화자를 식별하고, 식별된 화자(Speaker ID)에 대응되는 화자 토큰(Speaker Token)을 획득할 수 있다.
일 실시 예에 따라 적어도 하나의 프로세서(120)는 레퍼런스 음성의 화자에 따른 발화 스타일을 보다 적절하게 반영한 합성 음성을 획득하기 위한 화자 토큰(20)을 획득하며, 레퍼런스 음성과 유사한 스타일의 합성 음성을 획득하기 위해, 레퍼런스 음성의 화자의 발화 스타일을 나타내는 화자 토큰(20), 레퍼런스 인코더(Reference Encoder)가 출력한 레퍼런스 임베딩(Reference Embedding), 및 식별된 감정에 대응되는 토큰 셋을 스타일 인코더(A)의 스타일 어텐션(Style Attention)에 입력하여 스타일 정보를 획득할 수 있다.
본 개시의 실시 예에 따른 적어도 하나의 프로세서(120)는 레퍼런스 음성의 화자의 발화 스타일을 나타내는 화자 토큰(20), 레퍼런스 음성의 언어에 따른 음형(또는, 레퍼런스 음성에 대응되는 언어의 음성적 특징(phonetic feature))을 나타내는 언어 토큰(30)에 더하여, 잔차 토큰(Residual Token)(40)을 획득할 수도 있다.
일 예에 따른 스타일 인코더(A)는 학습 데이터인, 복수의 샘플 레퍼런스 음성 각각에서, 감정을 나타내는 토큰 셋(10), 화자의 발화 스타일을 나타내는 화자 토큰(20) 및 언어에 따른 음형을 나타내는 언어 토큰(30)을 제외한 나머지(예를 들어, 노이즈(noise))를 나타내는 잔차 토큰(40)을 획득할 수 있다. 예를 들어, 스타일 인코더(A)는, 복수의 샘플 레퍼런스 음성 각각에서 생동감, 자연스러움을 나타내는 잔차 토큰(40)을 획득할 수 있다.
일 실시 예에 따른 적어도 하나의 프로세서(120)는 레퍼런스 음성이 수신되면, i) 감정을 식별하고(또는, 감정을 선택하고), 복수의 감정 중 식별된 감정에 대응되는 토큰 셋(10)을 획득하며, ii) 레퍼런스 음성의 화자에 대응되는 화자 토큰(20)을 획득하고, iii) 레퍼런스 음성의 언어에 대응되는 언어 토큰(30)을 획득하고, iv) 잔차 토큰(40)을 획득할 수 있다.
일 예에 따른 적어도 하나의 프로세서(120)는 i) 식별된 감정에 대응되는 토큰 셋(10), ii) 화자 토큰(20), iii) 언어 토큰(30) 및 iv) 잔차 토큰(40) 및 v) 레퍼런스 음성에 대응되는 레퍼런스 임베딩(Reference Embedding)을 스타일 인코더(A)의 스타일 어텐션에 입력하여 스타일 정보를 획득할 수 있다.
실시 예에 따라 적어도 하나의 프로세서(120)는 i) 식별된 감정에 대응되는 토큰 셋(10), ii) 화자 토큰(20), iii) 언어 토큰(30) 및 iv) 잔차 토큰(40) 중 적어도 하나와, v) 레퍼런스 음성에 대응되는 레퍼런스 임베딩(Reference Embedding)을 스타일 인코더(A)의 스타일 어텐션에 입력하여 스타일 정보를 획득할 수 있다.
실시 예에 따른 적어도 하나의 프로세서(120)는 멜-스펙트로그램을 레퍼런스 인코더(Reference Encoder)에 입력하여 레퍼런스 임베딩(Reference Embedding)을 획득하고, 텍스트(Text)에 대응되는 음운(Phoneme)을 텍스트 인코더(Text Encoder)에 입력하여 텍스트 임베딩(Text embedding)을 획득할 수 있다.
도 6은 본 개시의 일 실시 예에 따른 스타일 인코더의 학습을 설명하기 위한 도면이다.
도 6을 참조하면, 스타일 인코더(A)는, 학습 단계(또는, 훈련 단계)에서, 학습 데이터인, 복수의 샘플 레퍼런스 음성 중 적어도 하나의 샘플 레퍼런스 음성에 대응되는 멜-스펙트로그램이 입력되면, 레퍼런스 인코더(Reference Encoder)를 이용하여 멜-스펙트로그램에 대응되는 레퍼런스 임베딩(Reference Embedding)를 획득할 수 있다.
일 예에 따라, 스타일 인코더(A)는 적어도 하나의 샘플 레퍼런스 음성에 대응되는 화자를 식별하고, 식별된 화자(Speaker ID)를 룩업 임베딩 테이블(Lookup Embedding Table)에 입력하여 화자 임베딩 벡터(Speaker Embedding Vector)를 획득할 수 있다.
일 예에 따라, 스타일 인코더(A)는 적어도 하나의 샘플 레퍼런스 음성에 대응되는 언어를 식별하고, 식별된 언어(Language ID)를 룩업 임베딩 테이블(Lookup Embedding Table)에 입력하여 언어 임베딩 벡터(Language Embedding Vector)를 획득할 수 있다.
일 예에 따라, 스타일 인코더(A)는 복수의 감정 각각에 대응되는 토큰 셋에 포함된 복수의 스타일 토큰들을, 임의로 초기화된 벡터들(Randomly Initialized Embedding Vectors)로 설정할 수 있다.
일 예에 따라, 스타일 인코더(A)는 잔차 토큰(Residual Token)을 임의로 초기화된 벡터들(Randomly Initialized Embedding Vectors)로 설정할 수 있다.
일 예에 따라, 스타일 인코더(A)는 복수의 감정 중 적어도 하나의 샘플 레퍼런스 음성에 기초하여 식별된 감정에 대응되는 토큰 셋(10), 화자 임베딩 벡터(Speaker Embedding Vector)에 따른 화자 토큰(Speaker Token)(20), 언어 임베딩 벡터(Language Embedding Vector)에 따른 언어 토큰(Language Token)(30) 및 잔차 토큰(40)과, 적어도 하나의 샘플 레퍼런스 음성에 대응되는 멜-스펙트로그램 간의 유사도(Similarity)를 학습한 비지도 학습(Unsupervised Learning) 모델일 수 있다.
예를 들어, 스타일 인코더(A)는 적어도 하나의 샘플 레퍼런스 음성에 대응되는 레퍼런스 임베딩에 대해 Attention을 적용하여, 타겟 감정(예를 들어, 복수의 감정 중 적어도 하나의 샘플 레퍼런스 음성에 기초하여 식별된 감정)의 토큰 셋에 포함된 복수의 스타일 토큰 각각을 학습할 수 있다.
예를 들어, 스타일 인코더(A)는 적어도 하나의 샘플 레퍼런스 음성에 대응되는 레퍼런스 임베딩에 대해 Attention을 적용하여, 화자 토큰(Speaker Token)(20), 언어 토큰(Language Token)(30), 잔차 토큰(40) 각각을 학습할 수도 있다.
도 7은 본 개시의 일 실시 예에 따른 복수의 샘플 레퍼런스 음성, 합성 음성을 설명하기 위한 도면이다.
도 7의 상단은, 복수의 샘플 레퍼런스 음성을 도시하고 있다(Training 단계).
예를 들어, 복수의 샘플 레퍼런스 음성은, 중립(Neutral) 감정의 샘플 레퍼런스 음성들(도 7의 Neutral Speech DB), 복수의 감정 각각의 샘플 레퍼런스 음성들(도 7의 Emotional Speech DB)을 포함할 수 있다.
도 7의 하단은, 스타일 인코더(A) 및 디코더(B)를 통해 합성 음성을 획득하는 전자 장치(100)를 도시하고 있다(Inference 단계).
일 예에 따라, 적어도 하나의 프로세서(120)는, 영어의 'I feel sensitivity'를 텍스트로 수신하면, 언어(Language ID)를 식별할 수 있으며, 합성하고자 하는 화자를 수신하면, 화자(Speaker ID)를 식별할 수 있다.
일 예에 따라 텍스트 'I feel sensitivity'에 대응되는 음운(Phoneme)을 텍스트 인코더(Text Encoder)에 입력하여 텍스트 임베딩(Text embedding)을 획득하고, 언어(Language ID)를 언어 인코더(Language Encoder)에 입력하여 언어 토큰(30)을 획득할 수 있다.
일 예에 따라 합성하고자 하는 화자(예를 들어, 도 7의 중립 감정의 화자(Neutral Speaker)의 화자(Speaker ID)를 식별할 수 있다.
일 예에 따라 적어도 하나의 프로세서(120)는 복수의 감정 중 레퍼런스 음성에 대응되는 감정을 식별할 수도 있고, 도 7에 도시된 바와 같이, 감정 식별자(Emotion ID)가 수신되면, 복수의 감정 중 감정 식별자에 대응되는 감정을 식별할 수도 있다. 예를 들어, 적어도 하나의 프로세서(120)는 스타일 인코더(A)를 통해 감정 식별자에 따른 슬픈(Sad) 감정에 대응되는 토큰 셋(10-3)을 획득할 수 있다.
일 예에 따라 적어도 하나의 프로세서(120)는 레퍼런스 음성에 대응되는 멜-스펙트로그램(Mel-Spectrogram)을 레퍼런스 인코더를 통해 획득한 레퍼런스 임베딩, 슬픈 감정에 대응되는 토큰 셋(10-3), 언어 토큰(30)을 스타일 어텐션(Style Attention)에 입력하여 스타일 정보를 획득할 수 있다.
일 예에 따라 디코더(B)는, 텍스트에 대응되며, 스타일 정보에 기초하여 슬픈 감정이 전이된(Transferred) 합성 음성을 출력할 수 있다.
예를 들어, 디코더(B)가 출력하는 합성 음성은, 합성하고자 하는 화자(예를 들어, Speaker ID)와 발화 스타일이 유사하며, 슬픈 감정의 'I feel sensitivity'에 대응할 수 있다.
도 8은 본 개시의 일 실시 예에 따른 다국어 환경에서 디코더를 통해 획득하는 합성 음성을 설명하기 위한 도면이다.
도 8의 상단은, 복수의 샘플 레퍼런스 음성을 도시하고 있다(Training 단계).
예를 들어, 복수의 샘플 레퍼런스 음성은, 중립(Neutral) 감정의 프랑스어(French) 샘플 레퍼런스 음성들(도 8의 French Neutral Speech DB), 중립(Neutral) 감정의 한국어(Korean) 샘플 레퍼런스 음성들(도 8의 Korean Neutral Speech DB), 및 복수의 감정 각각의 영어(English) 샘플 레퍼런스 음성들(도 8의 English Emotional Speech DB)을 포함할 수 있다.
도 8의 하단은, 스타일 인코더(A) 및 디코더(B)를 통해 합성 음성을 획득하는 전자 장치(100)를 도시하고 있다(Inference 단계).
일 예에 따라, 적어도 하나의 프로세서(120)는, 합성하고자 하는 화자 (예를 들어, 도 8의 중립 감정의 프랑스어 화자(Neutral French Speaker)를 수신하고, 한국어의 '시험에 떨어졌어'를 텍스트로 수신할 수 있다.
예를 들어, 도 8에 도시된 바와 같이, 적어도 하나의 프로세서(120)는 텍스트에 대응되는 음운(Phoneme)을 텍스트 인코더에 입력하여 텍스트 임베딩을 획득할 수도 있다.
예를 들어, 적어도 하나의 프로세서(120)는 한국어의 '시험에 떨어졌어'를 텍스트 인코더에 입력하여 텍스트 임베딩을 획득하고, 언어(Language ID)를 언어 인코더(Language Encoder)에 입력하여 언어 임베딩(예를 들어, 한국어(Korean))을 획득할 수 있다.
일 예에 따라 적어도 하나의 프로세서(120)는 도 8에 도시된 바와 같이, 감정 식별자(Emotion ID)가 수신되면, 복수의 감정 중 감정 식별자에 대응되는 감정을 식별할 수도 있다. 예를 들어, 적어도 하나의 프로세서(120)는 스타일 인코더(A)를 통해 감정 식별자에 따른 슬픈(Sad) 감정에 대응되는 토큰 셋(10-3)을 획득할 수 있다.
일 예에 따라 적어도 하나의 프로세서(120)는 레퍼런스 음성에 대응되는 멜-스펙트로그램(Mel-Spectrogram)을 레퍼런스 인코더를 통해 획득한 레퍼런스 임베딩, 슬픈 감정에 대응되는 토큰 셋(10-3)을 스타일 어텐션(Style Attention)에 입력하여 스타일 정보를 획득할 수 있다.
일 예에 따라 디코더(B)는, 텍스트에 대응되며, 스타일 정보에 기초하여 슬픈 감정이 전이된(Transferred) 합성 음성을 출력할 수 있다.
일 예에 따라 디코더(B)는, 중립 감정의 프랑스어 화자(Neutral French Speaker)의 발화 스타일과 유사하며, 한국어의 음형(Sound Patterns)이 반영되고, 슬픔 감정이 전이된, 한국어 텍스트에 대응되는 합성 음성을 출력할 수 있다.
예를 들어, 디코더(B)가 출력하는 합성 음성은, 합성하고자 하는 화자와 발화 스타일이 유사하며, 한국어의 음형이 반영된 슬픈 감정의 '시험에 떨어졌어'에 대응할 수 있다. 예를 들어, 디코더(B)가 출력하는 합성 음성은, 모국어가 프랑스어인 화자의 목소리로, 슬픈 감정의 '시험에 떨어졌어'에 대응할 수 있다.
도 8의 상단에 도시된 바와 같이, 스타일 인코더(A)의 학습 데이터인, 복수의 샘플 레퍼런스 음성이 복수의 감정 각각의 프랑스어(French) 샘플 레퍼런스 음성들(예를 들어, French Emotional Speech DB), 복수의 감정 각각의 한국어(Korean) 샘플 레퍼런스 음성들(예를 들어, Korean Emotional Speech DB) 등을 포함하지 않으나(즉, 복수의 감정 각각의 영어(English) 샘플 레퍼런스 음성들만을 포함하나), 스타일 인코더(A) 및 디코더(B)는 영어 외에도, 한국어 또는 프랑스어의 텍스트에 대응되며, 감정이 전이된(Transferred) 합성 음성을 생성할 수 있다.
도 9는 본 개시의 일 실시 예에 따른 사용자의 발화 특성을 포함하는 합성 음성을 출력하는 디코더를 설명하기 위한 도면이다.
도 9의 상단은, 복수의 샘플 레퍼런스 음성을 도시하고 있다(Training 단계).
예를 들어, 복수의 샘플 레퍼런스 음성은, 화자 1(예를 들어, 중립(Neutral) 감정의 여성(Female) 프랑스어(French) 화자)의 샘플 레퍼런스 음성들(도 9의 French Female Neutral Speech DB), 화자 2(예를 들어, 중립(Neutral) 감정의 여성 한국어(Korean) 화자)의 샘플 레퍼런스 음성들(도 9의 Korean Female Neutral Speech DB), 및 화자 3(예를 들어, 복수의 감정 각각의 영어(English) 화자)의 샘플 레퍼런스 음성들(도 9의 English Emotional Speech DB)을 포함할 수 있다.
예를 들어, 스타일 인코더(A)는, 화자 1(예, 여성 프랑스어 화자), 화자 2(예, 여성 한국어 화자) 또는, 화자 3(예, 영어 화자) 등을 화자 토큰(20)으로 포함하고, 언어 1(예, 프랑스어), 언어 2(예, 한국어), 언어 3(예, 영어) 등을 언어 토큰(30)으로 포함하고, 복수의 감정 각각에 대응되는 토큰 셋(10)을 포함할 수 있다.
일 예에 따라 전자 장치(100)의 사용자가 화자 1 내지 화자 3 외에, 화자 4(예, 남성 한국어 화자)에 대응할 수 있다.
본 개시의 일 예에 따라 전자 장치(100)는 사용자(즉, 화자 4)의 음성을 수신하여 스타일 인코더(A)를 파인 튜닝(fine-tuning)할 수 있다. 이에 대한 구체적인 설명은 도 10을 참조하여 후술하도록 한다.
도 9의 하단은, 스타일 인코더(A) 및 디코더(B)를 통해 합성 음성을 획득하는 전자 장치(100)를 도시하고 있다(Inference 단계).
일 예에 따라, 적어도 하나의 프로세서(120)는, 합성하고자 하는 화자 (예를 들어, 화자 4(예, 중립 감정의 남자(Male) 한국어 화자(Neutral Korean Speaker)))을 수신하고, 프랑스어의 '
Figure PCTKR2023016677-appb-img-000001
'를 텍스트로 수신할 수 있다.
예를 들어, 적어도 하나의 프로세서(120)는 프랑스어의 '
Figure PCTKR2023016677-appb-img-000002
'를 텍스트 인코더에 입력하여 텍스트 임베딩을 획득하고, 언어(Language ID)를 언어 인코더(Language Encoder)에 입력하여 언어 임베딩(예를 들어, 프랑스어(French))을 획득할 수 있다.
일 예에 따라 적어도 하나의 프로세서(120)는 도 10에 도시된 바와 같이, 감정 식별자(Emotion ID)가 수신되면, 복수의 감정 중 감정 식별자에 대응되는 감정을 식별할 수도 있다. 예를 들어, 적어도 하나의 프로세서(120)는 스타일 인코더(A)를 통해 감정 식별자에 따른 슬픈(Sad) 감정에 대응되는 토큰 셋(10-3)을 획득할 수 있다.
일 예에 따라 적어도 하나의 프로세서(120)는 레퍼런스 음성에 대응되는 멜-스펙트로그램(Mel-Spectrogram), 슬픈 감정에 대응되는 토큰 셋(10-3)을 스타일 어텐션(Style Attention)에 입력하여 스타일 정보를 획득할 수 있다. 일 예에 따라 디코더(B)는, 텍스트에 대응되며, 스타일 정보에 기초하여 슬픈 감정이 전이된(Transferred) 합성 음성을 출력할 수 있다.
일 예에 따라 디코더(B)는, 중립 감정의 남성 한국어 화자(Neutral Male Korean Speaker)의 발화 스타일과 유사하며, 프랑스어의 음형(Sound Patterns)이 반영되고, 슬픔 감정이 전이된, 프랑스어 텍스트(예를 들어, '
Figure PCTKR2023016677-appb-img-000003
')에 대응되는 합성 음성을 출력할 수 있다.
일 예에 따라, 화자(Speaker)(예를 들어, 화자 4(예, 남성 한국어 화자))가 스타일 인코더(A)의 학습 데이터인, 복수의 샘플 레퍼런스 음성 각각의 화자 토큰(예를 들어, 화자 1(예, 여성 프랑스어 화자), 화자 2(예, 여성 한국어 화자) 또는, 화자 3(예, 영어 화자)에 대응되지 않으면, 적어도 하나의 프로세서(120)는 레퍼런스 음성의 화자(또는, 전자 장치(100)의 사용자)가 발화하는 음성에 기초하여, 레퍼런스 음성의 화자의 발화 특성이 합성 음성이 포함되도록, 음성 합성 장치를 파인-튜닝(fine-tuning)할 수 있다.
도 10은 본 개시의 일 실시 예에 따른 음성 합성 장치의 파인-튜닝(fine-tuning)을 설명하기 위한 도면이다.
도 10을 참조하면, 적어도 하나의 프로세서(120)는 합성하고자 하는 화자(또는, 전자 장치(100)의 사용자)가 스타일 인코더(A)에 포함된 화자 토큰(20)에 대응되지 않으면, 레퍼런스 음성의 화자의 발화 특성이 보다 적절히 반영된 합성 음성을 획득하기 위해, 합성하고자 하는 화자가 추가적인 음성을 발화하도록 가이드할 수 있다.
예를 들어, 적어도 하나의 프로세서(120)는 합성하고자 하는 화자가 기 설정된 문장을 발화하도록 가이드하여 추가적인 음성(도 10의 User's Speech)을 수신할 수 있다.
합성하고자 하는 화자가 기 설정된 문장을 발화하면, 적어도 하나의 프로세서(120)는 수신된 추가적인 음성(즉, 레퍼런스 음성의 화자가 발화한 기 설정된 문장)에 기초하여 디코더(B)와 화자 인코더를 파인-튜닝하여 디코더(B)가 출력하는 합성 음성에 레퍼런스 음성의 화자의 발화 특성을 포함시킬 수 있다.
도 8로 돌아와서, 복수의 샘플 레퍼런스 음성은, 화자 1(예를 들어, 중립(Neutral) 감정의 프랑스어(French) 화자)의 샘플 레퍼런스 음성들(도 8의 French Neutral Speech DB), 화자 2(예를 들어, 중립(Neutral) 감정의 한국어(Korean) 화자)의 샘플 레퍼런스 음성들(도 8의 Korean Neutral Speech DB), 및 화자 3(예를 들어, 복수의 감정 각각의 영어(English) 화자)의 샘플 레퍼런스 음성들(도 8의 English Emotional Speech DB)을 포함할 수 있다.
예를 들어, 스타일 인코더(A)는, 화자 1(예, 프랑스어 화자), 화자 2(예, 한국어 화자) 또는, 화자 3(예, 영어 화자) 등을 화자 토큰(20)으로 포함하고, 언어 1(예, 프랑스어), 언어 2(예, 한국어), 언어 3(예, 영어) 등을 언어 토큰(30)으로 포함하고, 복수의 감정 각각에 대응되는 토큰 셋(10)을 포함할 수 있다.
일 예에 따라 합성하고자 하는 화자가 화자 1 내지 화자 3 중 어느 하나에 대응할 수 있다.
일 예에 따라 적어도 하나의 프로세서(120)는 합성하고자 하는 화자가 복수의 샘플 레퍼런스 음성 각각의 화자 중 어느 하나에 대응되면, 레퍼런스 음성의 화자에 대응되는 화자 토큰(20)을 획득할 수 있다.
예에 따라 적어도 하나의 프로세서(120)는 레퍼런스 음성에 대응되는 멜-스펙트로그램(Mel-Spectrogram)을 레퍼런스 인코더를 통해 획득한 레퍼런스 임베딩, 슬픈 감정에 대응되는 토큰 셋(10-3)을 스타일 어텐션(Style Attention)에 입력하여 스타일 정보를 획득할 수 있다.
일 예에 따라 디코더(B)는, 텍스트에 대응되며, 스타일 정보에 기초하여 합성하고자 하는 화자의 발화 스타일이 보다 적절히 반영되고, 슬픈 감정이 전이된(Transferred) 합성 음성을 출력할 수 있다.
도 11은 본 개시의 일 실시 예에 따른 디코더의 파인-튜닝 이후 레퍼런스 음성의 화자와, 복수의 샘플 레퍼런스 음성 각각에 대응되는 화자 토큰을 고려하여 합성 음성을 출력하는 디코더를 설명하기 위한 도면이다.
도 9에 도시된 Fine-Tuned 디코더(B')는, 전자 장치(100)의 사용자(예, 화자 4(예, 남성 한국어 화자)로부터 수신된 추가적인 음성(도 10의 User's Speech)에 기초하여, 전자 장치(100)의 사용자의 발화 특성(예를 들어, 목소리 등)이 반영된 합성 음성을 출력할 수 있다.
도 11의 하단은, Fine-Tuned 디코더(B')를 통해 합성 음성을 획득하는 전자 장치(100)를 도시하고 있다(Inference 단계).
일 예에 따라, 적어도 하나의 프로세서(120)는, 레퍼런스 음성을 수신하고, 프랑스어의 '
Figure PCTKR2023016677-appb-img-000004
'를 텍스트로 수신할 수 있다. 여기서, 레퍼런스 음성의 화자는, 스타일 인코더(A)의 학습 데이터인, 복수의 샘플 레퍼런스 음성 각각의 화자인 화자 1 내지 화자 3 및, 전자 장치(100)의 사용자(예, Fine-Tuning을 위해 이용한 추가적인 음성(도 10의 User's Speech)의 화자, 화자 4)가 아닌, 화자 5(예를 들어, 유명 연예인 'A')일 수 있다.
일 예에 따라 적어도 하나의 프로세서(120)는 레퍼런스 음성에 대응되는 멜-스펙트로그램(Mel-Spectrogram), 감정 식별자(Emotion ID)에 따른 감정에 대응되는 토큰 셋(10), 언어 토큰(30)을 스타일 어텐션(Style Attention)에 입력하여 스타일 정보를 획득할 수 있다.
일 예에 따라 Fine-Tuned 디코더(B')는, 텍스트에 대응되며, 스타일 정보에 기초하여 감정이 전이된(Transferred) 합성 음성을 출력할 수 있다.
예를 들어, Fine-Tuned 디코더(B')는, 텍스트에 대응되며, 합성하고자 하는 화자(Speaker ID)에 대응하는 화자 임베딩에 따라 사용자(예를 들어, 화자 4)의 발화 특성을 포함하나(사용자의 목소리에 대응되나), 멜-스펙트로그램에 따라 레퍼런스 음성의 화자(예를 들어, 화자 5)의 발화 스타일(예를 들어, 성조(tone), 강세(accent), 리듬(rhythm) 등을 포함)이 반영되며, 식별된 감정이 전이된(Tranfered) 합성 음성을 출력할 수 있다.
예를 들어, 전자 장치(100)의 사용자의 목소리이며, 유명 연예인 'A'의 발화 스타일이 반영되며, 감정이 전이되어 운율 특성(예, 음의 높이(예, 높낮이), 길이(예, 빠르기), 크기(예, 강약)))이 전이된, 프랑스어 텍스트(예를 들어, '
Figure PCTKR2023016677-appb-img-000005
')에 대응되는 합성 음성을 출력할 수 있다.
일 예에 따라, 합성하고자 하는 화자(Speaker)(예를 들어, 화자 4(예, 남성 한국어 화자))가 스타일 인코더(A)의 학습 데이터인, 복수의 샘플 레퍼런스 음성 각각의 화자 토큰(예를 들어, 화자 1(예, 여성 프랑스어 화자), 화자 2(예, 여성 한국어 화자) 또는, 화자 3(예, 영어 화자)에 대응되지 않으면, 적어도 하나의 프로세서(120)는 레퍼런스 음성의 화자(또는, 전자 장치(100)의 사용자)가 발화하는 음성에 기초하여, 레퍼런스 음성의 화자의 발화 특성이 합성 음성이 포함되도록, 디코더(B)를 파인-튜닝(fine-tuning)할 수 있다.
본 개시에 따른 인공지능과 관련된 기능은 전자 장치(100)의 적어도 하나의 프로세서(120)와 메모리(110)를 통해 동작된다.
적어도 하나의 프로세서(120)는 CPU(Central Processing Unit), GPU(Graphic Processing Unit), NPU(Neural Processing Unit) 중 적어도 하나를 포함할 수 있으나 전술한 프로세서의 예시에 한정되지 않는다.
CPU는 일반 연산뿐만 아니라 인공지능 연산을 수행할 수 있는 범용 프로세서로서, 다계층 캐시(Cache) 구조를 통해 복잡한 프로그램을 효율적으로 실행할 수 있다. CPU는 순차적인 계산을 통해 이전 계산 결과와 다음 계산 결과의 유기적인 연계가 가능하도록 하는 직렬 처리 방식에 유리하다. 범용 프로세서는 전술한 CPU로 명시한 경우를 제외하고 전술한 예에 한정되지 않는다.
GPU는 그래픽 처리에 이용되는 부동 소수점 연산 등과 같은 대량 연산을 위한 프로세서로서, 코어를 대량으로 집적하여 대규모 연산을 병렬로 수행할 수 있다. 특히, GPU는 CPU에 비해 컨볼루션(Convolution) 연산 등과 같은 병렬 처리 방식에 유리할 수 있다. 또한, GPU는 CPU의 기능을 보완하기 위한 보조 프로세서(co-processor)로 이용될 수 있다. 대량 연산을 위한 프로세서는 전술한 GPU로 명시한 경우를 제외하고 전술한 예에 한정되지 않는다.
NPU는 인공 신경망을 이용한 인공지능 연산에 특화된 프로세서로서, 인공 신경망을 구성하는 각 레이어를 하드웨어(예로, 실리콘)로 구현할 수 있다. 이때, NPU는 업체의 요구 사양에 따라 특화되어 설계되므로, CPU나 GPU에 비해 자유도가 낮으나, 업체가 요구하기 위한 인공지능 연산을 효율적으로 처리할 수 있다. 한편, 인공지능 연산에 특화된 프로세서로, NPU 는 TPU(Tensor Processing Unit), IPU(Intelligence Processing Unit), VPU(Vision processing unit) 등과 같은 다양한 형태로 구현 될 수 있다. 인공 지능 프로세서는 전술한 NPU로 명시한 경우를 제외하고 전술한 예에 한정되지 않는다.
또한, 적어도 하나의 프로세서(120)는 SoC(System on Chip)으로 구현될 수 있다. 이때, SoC에는 하나 또는 복수의 프로세서 이외에 메모리, 및 프로세서와 메모리 사이의 데이터 통신을 위한 버스(Bus)등과 같은 네트워크 인터페이스를 더 포함할 수 있다.
전자 장치(100)에 포함된 SoC(System on Chip)에 복수의 프로세서가 포함된 경우, 전자 장치(100)는 복수의 프로세서 중 일부 프로세서를 이용하여 인공지능과 관련된 연산(예를 들어, 인공지능 모델의 학습(learning)이나 추론(inference)에 관련된 연산)을 수행할 수 있다. 예를 들어, 전자 장치(100)는 복수의 프로세서 중 컨볼루션 연산, 행렬 곱 연산 등과 같은 인공지능 연산에 특화된 GPU, NPU, VPU, TPU, 하드웨어 가속기 중 적어도 하나를 이용하여 인공지능과 관련된 연산을 수행할 수 있다. 다만, 이는 일 실시예에 불과할 뿐, CPU 등과 범용 프로세서를 이용하여 인공지능과 관련된 연산을 처리할 수 있음은 물론이다.
또한, 전자 장치(100)는 하나의 프로세서에 포함된 멀티 코어(예를 들어, 듀얼 코어, 쿼드 코어 등)를 이용하여 인공지능과 관련된 기능에 대한 연산을 수행할 수 있다. 특히, 전자 장치(100)는 프로세서에 포함된 멀티 코어를 이용하여 병렬적으로 컨볼루션 연산, 행렬 곱 연산 등과 같은 인공 지능 연산을 수행할 수 있다.
하나 또는 복수의 프로세서는, 메모리(110)에 저장된 기정의된 동작 규칙 또는 인공지능 모델에 따라, 입력 데이터를 처리하도록 제어한다. 기정의된 동작 규칙 또는 인공지능 모델은 학습을 통해 만들어진 것을 특징으로 한다.
여기서, 학습을 통해 만들어진다는 것은, 다수의 학습 데이터들에 학습 알고리즘을 적용함으로써, 원하는 특성의 기정의된 동작 규칙 또는 인공지능 모델이 만들어짐을 의미한다. 이러한 학습은 본 개시에 따른 인공지능이 수행되는 기기 자체에서 이루어질 수도 있고, 별도의 서버/시스템을 통해 이루어 질 수도 있다.
인공지능 모델은, 복수의 신경망 레이어들로 구성될 수 있다. 적어도 하나의 레이어는 적어도 하나의 가중치(weight values)을 갖고 있으며, 이전(previous) 레이어의 연산 결과와 적어도 하나의 정의된 연산을 통해 레이어의 연산을 수행한다. 신경망의 예로는, CNN (Convolutional Neural Network), DNN (Deep Neural Network), RNN (Recurrent Neural Network), RBM (Restricted Boltzmann Machine), DBN (Deep Belief Network), BRDNN(Bidirectional Recurrent Deep Neural Network), GAN (Generative Adversarial Networks), NeRF 및 심층 Q-네트워크 (Deep Q-Networks), Transformer가 있으며, 본 개시에서의 신경망은 명시한 경우를 제외하고 전술한 예에 한정되지 않는다.
학습 알고리즘은, 다수의 학습 데이터들을 이용하여 소정의 대상 기기(예컨대, 로봇)을 훈련시켜 소정의 대상 기기 스스로 결정을 내리거나 예측을 할 수 있도록 하는 방법이다. 학습 알고리즘의 예로는, 지도형 학습(supervised learning), 비지도형 학습(unsupervised learning), 준지도형 학습(semi-supervised learning) 또는 강화 학습(reinforcement learning)이 있으며, 본 개시에서의 학습 알고리즘은 명시한 경우를 제외하고 전술한 예에 한정되지 않는다.
도 12는 본 개시의 일 실시 예에 따른 디스플레이 장치의 제어 방법을 설명하기 위한 흐름도이다.
본 개시의 실시 예에 따른 전자 장치의 제어 방법은, 레퍼런스 음성(Reference Speech)이 수신되면, 복수의 감정 중 레퍼런스 음성에 대응되는 감정을 식별한다(S1210).
복수의 감정 각각에 대응되는 토큰 셋 중 식별된 감정에 대응되는 토큰 셋을 획득한다(S1220).
레퍼런스 음성에 대한 정보 및 획득된 토큰 셋을 스타일 인코더(Style Encoder)에 입력하여 식별된 감정의 합성 음성을 출력하기 위한 스타일 정보를 획득한다(S1230).
텍스트가 입력되면, 텍스트를 스타일 정보에 기초하여 획득된 디코더에 입력하여 텍스트에 대응되는 합성 음성을 획득한다(S1240).
텍스트에 대응되는 합성 음성을 출력한다(S1250).
레퍼런스 음성에 대한 정보는, 레퍼런스 임베딩(Reference Embedding)을 포함하며, 인코더는, 획득된 토큰 셋에 포함된 적어도 하나의 스타일 토큰(Style Token)과 레퍼런스 임베딩 사이의 유사도에 기초하여, 적어도 하나의 스타일 토큰의 가중 합(Weighted Sum)을 나타낸 스타일 임베딩(Style Embedding)을 포함하는 스타일 정보를 출력할 수 있다.
본 개시의 실시 에에 따른 제어 방법은, 레퍼런스 음성에 대응되는 멜-스펙트로그램(Mel-Spectrogram)을 레퍼런스 인코더(Reference Encoder)에 입력하여 레퍼런스 임베딩을 획득하는 단계 및 텍스트에 대응되는 음운(Phoneme)을 텍스트 인코더(Text Encoder)에 입력하여 텍스트 임베딩을 획득하는 단계를 더 포함할 수 있다.
실시 예에 따른 감정을 식별하는 S1210 단계는, 감정 식별자(ID)가 수신되면, 복수의 감정 중 감정 식별자에 대응되는 감정을 식별하는 단계를 포함할 수 있다.
스타일 인코더는, 복수의 샘플 레퍼런스 음성 중 적어도 하나의 샘플 레퍼런스 음성에 대응되는 샘플 레퍼런스 임베딩과, 적어도 하나의 샘플 레퍼런스 음성의 감정에 대응되는 토큰 셋에 포함된 적어도 하나의 스타일 토큰 사이의 유사도를 학습한 비지도 학습(unsupervised learning) 모델일 수 있다.
실시 예에 따른 제어 방법은, 적어도 하나의 샘플 레퍼런스 음성에 대응되는 언어 토큰(Language Token), 화자 토큰(Speaker Token) 및 잔차 토큰(Residual Token)을 획득하는 단계를 더 포함하며, 스타일 인코더는, 적어도 하나의 샘플 레퍼런스 음성에 대응되는 샘플 레퍼런스 임베딩과, 적어도 하나의 샘플 레퍼런스 음성의 감정에 대응되는 토큰 셋에 포함된 적어도 하나의 스타일 토큰, 언어 토큰, 화자 토큰 및 잔차 토큰 사이의 유사도를 학습한 비지도 학습 모델일 수 있다.
실시 예에 따른 스타일 정보를 획득하는 S1230 단계는, 레퍼런스 음성의 언어가 적어도 하나의 샘플 레퍼런스 음성의 언어 토큰에 대응되면, 레퍼런스 음성의 감정에 대응되는 토큰 셋에 포함된 적어도 하나의 스타일 토큰, 언어 토큰을 스타일 인코더에 입력하여 스타일 정보를 획득하는 단계를 포함할 수 있다.
실시 예에 따른 스타일 정보를 획득하는 S1230 단계는, 합성하고자 하는 화자가 적어도 하나의 샘플 레퍼런스 음성의 화자 토큰에 대응되면, 레퍼런스 음성의 감정에 대응되는 토큰 셋에 포함된 적어도 하나의 스타일 토큰, 화자 토큰을 인코더에 입력하여 스타일 정보를 획득하는 단계를 포함할 수 있다.
실시 예에 따른 제어 방법은, 사용자의 발화 음성을 수신하는 단계 및 수신된 발화 음성에 기초하여 디코더가 출력하는 텍스트에 대응되는 합성 음성이 사용자의 발화 특성을 포함하도록 디코더를 파인-튜닝(fine-tuning)하는 단계를 더 포함할 수 있다.
실시 예에 따른 획득된 토큰 셋에 포함된 적어도 하나의 스타일 토큰은, 음성의 운율 특성들 중 적어도 하나에 대응될 수 있다.
다만, 본 개시의 다양한 실시 예들은 다양한 유형의 전자 장치에 적용될 수 있음은 물론이다.
한편, 이상에서 설명된 다양한 실시 예들은 소프트웨어(software), 하드웨어(hardware) 또는 이들의 조합을 이용하여 컴퓨터(computer) 또는 이와 유사한 장치로 읽을 수 있는 기록 매체 내에서 구현될 수 있다. 일부 경우에 있어 본 명세서에서 설명되는 실시 예들이 프로세서 자체로 구현될 수 있다. 소프트웨어적인 구현에 의하면, 본 명세서에서 설명되는 절차 및 기능과 같은 실시 예들은 별도의 소프트웨어 모듈들로 구현될 수 있다. 소프트웨어 모듈들 각각은 본 명세서에서 설명되는 하나 이상의 기능 및 동작을 수행할 수 있다.
한편, 상술한 본 개시의 다양한 실시 예들에 따른 전자 장치의 프로세싱 동작을 수행하기 위한 컴퓨터 명령어(computer instructions)는 비일시적 컴퓨터 판독 가능 매체(non-transitory computer-readable medium) 에 저장될 수 있다. 이러한 비일시적 컴퓨터 판독 가능 매체에 저장된 컴퓨터 명령어는 특정 기기의 프로세서에 의해 실행되었을 때 상술한 다양한 실시 예에 따른 전자 장치에서의 처리 동작을 특정 기기가 수행하도록 한다.
비일시적 컴퓨터 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 비일시적 컴퓨터 판독 가능 매체의 구체적인 예로는, CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등이 있을 수 있다.
이상에서는 본 개시의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 개시는 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 개시의 요지를 벗어남이 없이 당해 개시에 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 개시의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.

Claims (15)

  1. 복수의 감정(Emotion) 각각에 대응되는 토큰 셋(Token Set)이 저장된 메모리; 및
    레퍼런스 음성(Reference Speech)이 수신되면, 상기 복수의 감정 중 상기 레퍼런스 음성에 대응되는 감정을 식별하고,
    상기 메모리에 저장된 복수의 토큰 셋 중 상기 식별된 감정에 대응되는 토큰 셋을 획득하고,
    상기 레퍼런스 음성에 대한 정보 및 상기 획득된 토큰 셋을 스타일 인코더(Style Encoder)에 입력하여 상기 식별된 감정의 합성 음성을 출력하기 위한 스타일 정보를 획득하며,
    텍스트가 입력되면, 상기 텍스트를 상기 스타일 정보에 기초하여 획득된 디코더에 입력하여 상기 텍스트에 대응되는 합성 음성을 획득하고,
    상기 텍스트에 대응되는 합성 음성을 출력하는 적어도 하나의 프로세서;를 포함하는 전자 장치.
  2. 제1항에 있어서,
    상기 레퍼런스 음성에 대한 정보는, 레퍼런스 임베딩(Reference Embedding)을 포함하며,
    상기 스타일 인코더는,
    상기 획득된 토큰 셋에 포함된 적어도 하나의 스타일 토큰(Style Token)과 상기 레퍼런스 임베딩 사이의 유사도에 기초하여, 상기 적어도 하나의 스타일 토큰의 가중 합(Weighted Sum)을 나타낸 스타일 임베딩(Style Embedding)을 포함하는 상기 스타일 정보를 출력하는, 전자 장치.
  3. 제2항에 있어서,
    상기 적어도 하나의 프로세서는,
    상기 레퍼런스 음성에 대응되는 멜-스펙트로그램(Mel-Spectrogram)을 레퍼런스 인코더(Reference Encoder)에 입력하여 상기 레퍼런스 임베딩을 획득하며,
    상기 텍스트에 대응되는 음운(Phoneme)을 텍스트 인코더(Text Encoder)에 입력하여 텍스트 임베딩(Text Embedding)을 획득하는, 전자 장치.
  4. 제1항에 있어서,
    상기 적어도 하나의 프로세서는,
    감정 식별자(ID)가 수신되면, 상기 복수의 감정 중 상기 감정 식별자에 대응되는 상기 감정을 식별하는, 전자 장치.
  5. 제1항에 있어서,
    상기 스타일 인코더는,
    복수의 샘플 레퍼런스 음성 중 적어도 하나의 샘플 레퍼런스 음성에 대응되는 샘플 레퍼런스 임베딩과, 상기 적어도 하나의 샘플 레퍼런스 음성의 감정에 대응되는 토큰 셋에 포함된 적어도 하나의 스타일 토큰 사이의 유사도를 학습한 비지도 학습(unsupervised learning) 모델인, 전자 장치.
  6. 제5항에 있어서,
    상기 적어도 하나의 프로세서는,
    상기 적어도 하나의 샘플 레퍼런스 음성에 대응되는 언어 토큰(Language Token), 화자 토큰(Speaker Token) 및 잔차 토큰(Residual Token)을 획득하며,
    상기 스타일 인코더는,
    상기 적어도 하나의 샘플 레퍼런스 음성에 대응되는 상기 샘플 레퍼런스 임베딩과, 상기 적어도 하나의 샘플 레퍼런스 음성의 감정에 대응되는 토큰 셋에 포함된 상기 적어도 하나의 스타일 토큰, 상기 언어 토큰, 상기 화자 토큰 및 상기 잔차 토큰 사이의 유사도를 학습한 비지도 학습 모델인, 전자 장치.
  7. 제6항에 있어서,
    상기 적어도 하나의 프로세서는,
    상기 레퍼런스 음성의 언어가 상기 적어도 하나의 샘플 레퍼런스 음성의 상기 언어 토큰에 대응되면, 상기 레퍼런스 음성의 감정에 대응되는 상기 토큰 셋에 포함된 적어도 하나의 스타일 토큰, 상기 언어 토큰을 상기 스타일 인코더에 입력하여 상기 스타일 정보를 획득하는, 전자 장치.
  8. 제6항에 있어서,
    상기 적어도 하나의 프로세서는,
    합성하고자 하는 화자가 상기 적어도 하나의 샘플 레퍼런스 음성의 상기 화자 토큰에 대응되면, 상기 레퍼런스 음성의 감정에 대응되는 상기 토큰 셋에 포함된 적어도 하나의 스타일 토큰, 상기 화자 토큰을 상기 인코더에 입력하여 상기 스타일 정보를 획득하는, 전자 장치.
  9. 제1항에 있어서,
    상기 적어도 하나의 프로세서는,
    사용자의 발화 음성을 수신하며,
    상기 수신된 발화 음성에 기초하여 상기 디코더가 출력하는 상기 텍스트에 대응되는 상기 합성 음성이 상기 사용자의 발화 특성을 포함하도록 상기 디코더를 파인-튜닝(fine-tuning)하는, 전자 장치.
  10. 제1항에 있어서,
    상기 획득된 토큰 셋에 포함된 적어도 하나의 스타일 토큰은, 음성의 운율 특성들 중 적어도 하나에 대응되는, 전자 장치.
  11. 전자 장치의 제어 방법에 있어서,
    레퍼런스 음성(Reference Speech)이 수신되면, 복수의 감정 중 상기 레퍼런스 음성에 대응되는 감정을 식별하는 단계;
    상기 복수의 감정 각각에 대응되는 토큰 셋 중 상기 식별된 감정에 대응되는 토큰 셋을 획득하는 단계;
    상기 레퍼런스 음성에 대한 정보 및 상기 획득된 토큰 셋을 스타일 인코더(Style Encoder)에 입력하여 상기 식별된 감정의 합성 음성을 출력하기 위한 스타일 정보를 획득하는 단계;
    텍스트가 입력되면, 상기 텍스트를 상기 스타일 정보에 기초하여 획득된 디코더에 입력하여 상기 텍스트에 대응되는 합성 음성을 획득하는 단계; 및
    상기 텍스트에 대응되는 합성 음성을 출력하는 단계;를 포함하는 제어 방법.
  12. 제11항에 있어서,
    상기 레퍼런스 음성에 대한 정보는, 레퍼런스 임베딩(Reference Embedding)을 포함하며,
    상기 스타일 인코더는,
    상기 획득된 토큰 셋에 포함된 적어도 하나의 스타일 토큰(Style Token)과 상기 레퍼런스 임베딩 사이의 유사도에 기초하여, 상기 적어도 하나의 스타일 토큰의 가중 합(Weighted Sum)을 나타낸 스타일 임베딩(Style Embedding)을 포함하는 상기 스타일 정보를 출력하는, 제어 방법.
  13. 제12항에 있어서,
    상기 제어 방법은,
    상기 레퍼런스 음성에 대응되는 멜-스펙트로그램(Mel-Spectrogram)을 레퍼런스 인코더(Reference Encoder)에 입력하여 상기 레퍼런스 임베딩을 획득하는 단계; 및
    상기 텍스트에 대응되는 음운(Phoneme)을 텍스트 인코더(Text Encoder)에 입력하여 상기 텍스트 임베딩(Text Embedding)을 획득하는 단계;를 더 포함하는, 제어 방법.
  14. 제11항에 있어서,
    상기 감정을 식별하는 단계는,
    감정 식별자(ID)가 수신되면, 상기 복수의 감정 중 상기 감정 식별자에 대응되는 상기 감정을 식별하는 단계;를 포함하는, 제어 방법.
  15. 제11항에 있어서,
    상기 스타일 인코더는,
    복수의 샘플 레퍼런스 음성 중 적어도 하나의 샘플 레퍼런스 음성에 대응되는 샘플 레퍼런스 임베딩과, 상기 적어도 하나의 샘플 레퍼런스 음성의 감정에 대응되는 토큰 셋에 포함된 적어도 하나의 스타일 토큰 사이의 유사도를 학습한 비지도 학습(unsupervised learning) 모델인, 제어 방법.
PCT/KR2023/016677 2022-10-25 2023-10-25 감정을 고려하여 합성 음성을 획득하는 전자 장치 및 그 제어 방법 WO2024090997A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2022-0138639 2022-10-25
KR20220138639 2022-10-25

Publications (1)

Publication Number Publication Date
WO2024090997A1 true WO2024090997A1 (ko) 2024-05-02

Family

ID=90831419

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2023/016677 WO2024090997A1 (ko) 2022-10-25 2023-10-25 감정을 고려하여 합성 음성을 획득하는 전자 장치 및 그 제어 방법

Country Status (1)

Country Link
WO (1) WO2024090997A1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200056261A (ko) * 2018-11-14 2020-05-22 삼성전자주식회사 전자 장치 및 이의 제어 방법
KR20200138993A (ko) * 2019-06-03 2020-12-11 한국전자통신연구원 감정 토큰을 이용한 감정 음성 합성 방법 및 장치
KR20210035042A (ko) * 2019-09-23 2021-03-31 한국전자통신연구원 감정 간의 강도 조절이 가능한 감정 음성 생성 방법 및 장치
KR20210149608A (ko) * 2020-06-02 2021-12-09 한국전자통신연구원 학습 모델 기반 감정 텍스트-음성 합성 방법 및 장치
KR102408455B1 (ko) * 2021-09-29 2022-06-14 주식회사 인피닉 음성 인식 학습을 위한 음성 데이터 합성 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200056261A (ko) * 2018-11-14 2020-05-22 삼성전자주식회사 전자 장치 및 이의 제어 방법
KR20200138993A (ko) * 2019-06-03 2020-12-11 한국전자통신연구원 감정 토큰을 이용한 감정 음성 합성 방법 및 장치
KR20210035042A (ko) * 2019-09-23 2021-03-31 한국전자통신연구원 감정 간의 강도 조절이 가능한 감정 음성 생성 방법 및 장치
KR20210149608A (ko) * 2020-06-02 2021-12-09 한국전자통신연구원 학습 모델 기반 감정 텍스트-음성 합성 방법 및 장치
KR102408455B1 (ko) * 2021-09-29 2022-06-14 주식회사 인피닉 음성 인식 학습을 위한 음성 데이터 합성 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램

Similar Documents

Publication Publication Date Title
WO2020190054A1 (ko) 음성 합성 장치 및 그 방법
JP7445267B2 (ja) 多言語テキスト音声合成モデルを利用した音声翻訳方法およびシステム
WO2020190050A1 (ko) 음성 합성 장치 및 그 방법
WO2019139430A1 (ko) 기계학습을 이용한 텍스트-음성 합성 방법, 장치 및 컴퓨터 판독가능한 저장매체
JP7355306B2 (ja) 機械学習を利用したテキスト音声合成方法、装置およびコンピュータ読み取り可能な記憶媒体
CN110211563B (zh) 面向情景及情感的中文语音合成方法、装置及存储介质
WO2020145439A1 (ko) 감정 정보 기반의 음성 합성 방법 및 장치
WO2019139428A1 (ko) 다중 언어 텍스트-음성 합성 방법
KR102306844B1 (ko) 비디오 번역 및 립싱크 방법 및 시스템
CN111276120B (zh) 语音合成方法、装置和计算机可读存储介质
WO2012148112A2 (ko) 클라이언트단말기를 이용한 음악 컨텐츠 제작시스템
WO2020209647A1 (ko) 사용자 인터페이스를 통해 텍스트에 대한 합성 음성을 생성하는 방법 및 시스템
CN106971709A (zh) 统计参数模型建立方法和装置、语音合成方法和装置
WO2022260432A1 (ko) 자연어로 표현된 스타일 태그를 이용한 합성 음성 생성 방법 및 시스템
WO2022045651A1 (ko) 합성 음성을 화자 이미지에 적용하는 방법 및 시스템
WO2010024551A2 (en) Method and system for 3d lip-synch generation with data faithful machine learning
WO2020045835A1 (ko) 전자 장치 및 그 제어 방법
WO2021071110A1 (en) Electronic apparatus and method for controlling electronic apparatus
EP4343755A1 (en) Method and system for generating composite speech by using style tag expressed in natural language
EP3818518A1 (en) Electronic apparatus and method for controlling thereof
WO2022164192A1 (ko) 사용자의 발화 입력에 관련된 추천 문장을 제공하는 디바이스 및 방법
WO2024090997A1 (ko) 감정을 고려하여 합성 음성을 획득하는 전자 장치 및 그 제어 방법
WO2022059979A1 (ko) 전자 장치 및 그 제어 방법
WO2022034982A1 (ko) 텍스트에 대한 합성 음성 생성 작업을 수행하는 방법
WO2022169208A1 (ko) 영어 학습을 위한 음성 시각화 시스템 및 그 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23883102

Country of ref document: EP

Kind code of ref document: A1