WO2019088635A1 - 음성 합성 장치 및 방법 - Google Patents

음성 합성 장치 및 방법 Download PDF

Info

Publication number
WO2019088635A1
WO2019088635A1 PCT/KR2018/012967 KR2018012967W WO2019088635A1 WO 2019088635 A1 WO2019088635 A1 WO 2019088635A1 KR 2018012967 W KR2018012967 W KR 2018012967W WO 2019088635 A1 WO2019088635 A1 WO 2019088635A1
Authority
WO
WIPO (PCT)
Prior art keywords
phoneme
unit
phoneme unit
rhythm
target
Prior art date
Application number
PCT/KR2018/012967
Other languages
English (en)
French (fr)
Inventor
이창헌
김종진
박지훈
Original Assignee
에스케이텔레콤 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 에스케이텔레콤 주식회사 filed Critical 에스케이텔레콤 주식회사
Publication of WO2019088635A1 publication Critical patent/WO2019088635A1/ko
Priority to US16/863,138 priority Critical patent/US11170755B2/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • G10L13/0335Pitch control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation

Definitions

  • the present invention relates to a speech synthesis technique, and more particularly, to a speech synthesis apparatus and method for outputting text input as speech.
  • a speech synthesis system (Text to Speech (TTS) system) refers to a system for outputting a sentence in a voice form when an arbitrary sentence is inputted in text form.
  • the operation of the speech synthesis system is largely divided into training and synthesis.
  • the training process is a process of creating a language model, a rhyme model, and a signal model to be used in the synthesis process.
  • the synthesis process is a process of generating a synthetic sound by sequentially performing language processing, rhythm processing, and signal processing on the input text, to be.
  • the USS method determines suitable phoneme units in a phoneme database in which a plurality of unit candidates exist per phoneme, and concatenates the determined phoneme units to generate synthesized sounds.
  • the USS method has a problem that discontinuity exists between phoneme units and speech is unnatural.
  • the SPS method is a method of modeling the parameters extracted from the speech signal during the training process, and generating a synthetic sound using the parameter model and the input sentence in the synthesis process.
  • the SPS method can generate a synthetic sound having a stable rhythm compared to the USS method, there is a problem that the basic sound quality is low.
  • the speech synthesis apparatus stores a plurality of phoneme units, and the phoneme units include one or more candidate units per phoneme;
  • a rhythm processor for analyzing the rhyme information with respect to the input text to predict a target rhyme parameter of the target phoneme unit;
  • a unit selector for selecting a specific phoneme unit among the one or more candidate units per phoneme stored in the phoneme database based on the rhyme information analyzed in the rhythm processor;
  • a rhythm controller for adjusting a rhyme parameter of the specific phoneme unit selected by the unit selector to be a target rhyme parameter of the target phoneme unit predicted by the rhythm processor;
  • a speech synthesizer for generating a synthesized speech by eliminating the discontinuity between the specific phoneme units whose rhythm parameters are respectively adjusted in the rhythm controller.
  • the plurality of phoneme units stored in the phoneme database may be constructed in the form of a form of a voice waveform or a set of parameters.
  • the rhythm parameter may include at least one of a pitch or fundamental frequency, energy, or duration of a signal.
  • the rhythm controller may adjust the signal length of the selected phoneme unit to be the signal length of the target phoneme unit and then adjust the signal period and energy of the selected phoneme unit to be the signal period and energy of the target phoneme unit, respectively .
  • rhythm controller may copy or delete some of the frames constituting the selected phoneme unit so that the signal length of the selected phoneme unit becomes the signal length of the target phoneme unit.
  • the rhythm controller may convert the frame indexes of the selected phoneme unit into new frame indices using the following equation, and copy or delete some of the frames constituting the selected phoneme unit according to the new frame indexes Thereby adjusting the signal length of the selected phoneme unit to be the signal length of the target phoneme unit.
  • M is the total number of frames of the target phoneme unit
  • N is the total number of frames of the selected phoneme unit
  • i is the frame index of the selected phoneme unit
  • r is rounding
  • the speech synthesizer may identify the rhythm parameter of the last frame of the previous phoneme unit and the rhythm parameter of the start frame of the next phoneme unit among the specific phoneme units whose rhythm parameters are respectively adjusted in the rhythm controller,
  • the average value of the prosodic parameters may be calculated and applied to the last frame and the start frame or may be applied to the overlapping frame of the last frame and the start frame to remove the discontinuity.
  • a speech synthesis method is performed by a speech synthesizer having a phonemic database storing a plurality of phoneme units, and the phoneme units include one or more candidate units per phoneme Analyzing the rhyme information with respect to the input text to predict a target rhyme parameter of the target phoneme unit; Selecting a specific phoneme unit among one or more candidate units per phoneme stored in the phoneme database based on the analyzed rhythm information; Adjusting a rhythm parameter of the selected specific phoneme unit to be a target rhyme parameter of the target phoneme unit; And generating a synthetic sound by eliminating the discontinuity between the specific phoneme units whose rhythm parameters are adjusted.
  • the adjusting comprises adjusting the signal length of the selected phoneme unit to be the signal length of the target phoneme unit; And adjusting the signal period and energy of the selected phoneme unit to be the signal period and energy of the target phoneme unit, respectively.
  • the adjusting step may include converting the frame indices of the selected phoneme unit into new frame indices using the following equation, and copying some of the frames constituting the selected phoneme unit according to the new frame indices And adjusting the signal length of the selected phoneme unit to be the signal length of the target phoneme unit.
  • M is the total number of frames of the target phoneme unit
  • N is the total number of frames of the selected phoneme unit
  • i is the frame index of the selected phoneme unit
  • r is rounding
  • the step of generating the synthesized speech may include the steps of: confirming a rhythm parameter of a last frame of a previous phoneme unit and a rhythm parameter of a start frame of a next phoneme unit, respectively, among the specific phoneme units whose rhythm parameters are adjusted; Calculating an average value of the verified rhythm parameters; And applying the calculated average value of the metric parameter to the last frame and the start frame, respectively, or applying the calculated average value to the overlapping frame of the last frame and the start frame to remove the discontinuity.
  • the present invention can provide a computer readable recording medium on which a program for executing the above-described method is recorded.
  • the speech synthesizing apparatus and method it is possible to eliminate the discontinuity between the phoneme units when generating the synthesized speech from the phoneme units, to generate a natural speech and to generate a high-quality synthetic speech having a stable rhyme .
  • the present invention can remove discontinuity and produce a high-quality synthetic sound even in a situation where the optimum candidate of the phoneme unit can not be found.
  • FIG. 1 is a conceptual diagram schematically showing a speech synthesis process.
  • FIG. 2 is a block diagram illustrating the main components of a speech synthesizer according to an embodiment of the present invention.
  • 3 to 5 are exemplary diagrams for explaining a speech synthesis method according to the first embodiment of the present invention.
  • 6 to 9 are illustrations for explaining a speech synthesis method according to a second embodiment of the present invention.
  • FIG. 10 is a flowchart illustrating a speech synthesis method according to an embodiment of the present invention.
  • the present invention may be embodied in various forms and should not be construed as limited to the embodiments disclosed herein.
  • the disclosed embodiments are provided to fully convey the scope of the present invention to a person having ordinary skill in the art to which the present invention belongs.
  • the principles and features of the present invention may be applied in a wide variety of embodiments without departing from the scope of the present invention.
  • FIG. 1 is a conceptual diagram schematically showing a speech synthesis process.
  • the speech synthesis apparatus 100 refers to a speech synthesis system that outputs a sentence in the form of a speech when an arbitrary sentence is input in text form.
  • the speech synthesis apparatus 100 of the present invention analyzes the target speech unit target rhyme parameters by analyzing the rhyme information with respect to the inputted text, and based on the analyzed rhyme information, Selects a specific phoneme unit from among the units, adjusts the rhythm parameter of the selected specific phoneme unit to be the target rhythm parameter of the target phoneme unit, and generates a synthesized sound by eliminating the discontinuity between specific phoneme units whose rhythm parameters are adjusted.
  • the voice synthesizer 100 of the present invention can be applied to an ARS (Automatic Response Service) system of various services such as banking, securities, insurance, card, etc., and includes a voice portal service for voice- A supporting integrated messaging system, and a training voice solution system, and can be applied to various services that guide designated users in the form of voice to the user.
  • ARS Automatic Response Service
  • the speech synthesizer 100 of the present invention can be combined with a speech recognition apparatus (not shown) to construct a speech system.
  • a speech recognition apparatus not shown
  • the speech synthesizer 100 can output the response text in the form of a synthesized voice.
  • a representative example of such a voice system is an artificial intelligent speaker.
  • the speech synthesizer 100 of the present invention can be supported for various services supporting synthesized speech output, and can be installed in a user's terminal (not shown) to output a synthesized sound, or implemented in a server form to perform an operation . In case of being implemented in a server form, it may support a process of providing a synthesized sound to a user terminal (not shown) via a communication network (not shown).
  • FIG. 2 is a block diagram illustrating the main components of a speech synthesizer according to an embodiment of the present invention.
  • a speech synthesizer 100 includes a linguistic processor 110, a prosody processor 120, a unit selector 130, a rhythm controller 140, a prosody adjuster, a speech synthesizer 150, and a phonemic database 160.
  • the phoneme database 160 stores a plurality of phoneme units. These phoneme units include one or more candidate units per phoneme.
  • the plurality of phoneme units stored in the phoneme database 160 may be constructed in the form of a form of a voice waveform or a set of parameters.
  • the language processor 110 performs language analysis and processing on the input text when an arbitrary sentence is input in a text form. Specifically, the language processor 110 performs syntax analysis and morphological analysis on the input text to obtain information on the sentence structure and sentence type. In addition, the language processor 110 translates a character of a language other than a specific language into a character of a specific language, and predicts the actual pronunciation of the input text. The output of the language processor 110 is used as an input to the rhyme processor 120.
  • the rhythm processor 120 analyzes and processes the rhyme information with respect to the text input through the language processor 110. Specifically, the rhythm processor 120 can analyze the rhyme information such as the accent and the accent according to the sentence structure and the sentence type, such as determining the tear-off portion, the strong reading portion, and the tone of the sentence ending in the sentence. Then, the rhythm processor 120 determines the predicted target phoneme unit based on the analyzed rhyme information, and predicts the determined rhyme parameter of the target phoneme unit (i.e., the target rhyme parameter).
  • the rhythm parameters may be pitch or fundamental frequency, energy, duration of the signal, and so on.
  • the unit selector 130 selects a specific phoneme unit among one or more candidate units per phoneme stored in the phoneme database 160 based on the rhyme information analyzed in the rhythm processor 120. That is, the phoneme database 160 may store various candidate units for each phoneme, and the unit selector 130 selects a specific phoneme unit suitable for each phoneme according to the analyzed rhythm information will be.
  • the rhythm controller 140 adjusts the rhythm parameter of the specific phoneme unit selected by the unit selector 130 to be the target rhyme parameter of the target phoneme unit predicted by the rhythm processor 120.
  • the rhythm parameters are signal period, energy, signal length, and the like.
  • the rhythm rhythm controller 140 first adjusts the signal length of the selected phoneme unit to be the signal length of the target phoneme unit, and then adjusts the signal period and energy of the selected phoneme unit to be the signal period and energy of the target phoneme unit, respectively .
  • the speech synthesizer 150 synthesizes the phoneme units whose rhythm parameters are adjusted in the rhythm controller 140 to generate synthesized sounds.
  • the speech synthesizer 150 eliminates the discontinuity between the phoneme units and can generate a high-quality synthetic speech.
  • a plurality of phoneme units stored in the phoneme database 160 can be constructed in the form of a form of a voice waveform or a set of parameters.
  • the phoneme units are constructed and stored in the form of a voice waveform is constructed and stored in the form of a parameter set according to the first embodiment will be described in the second embodiment.
  • FIG. 3 to 5 are exemplary diagrams for explaining a speech synthesis method according to the first embodiment of the present invention.
  • the speech synthesizer 100 includes a phonemic database 160 storing a plurality of phoneme units in the form of a sound waveform. These phoneme units may include one or more candidate units per phoneme.
  • the rhythm controller 140 compares the rhythm parameter of the selected phoneme unit with the target rhythm parameter of the target phoneme unit And the speech synthesizer 150 synthesizes the phoneme units whose rhythm parameters are adjusted, respectively, to generate synthesized sounds.
  • the speech synthesizer 150 eliminates the discontinuity occurring at the boundary between the phoneme units, thereby generating a natural high-quality synthetic speech.
  • Fig. 4 (a) shows one phoneme unit selected (or extracted) by the unit selector 130.
  • the exemplified phoneme unit has a signal length (D: duration) of 20 ms in which four frames are consecutively arranged in 5 ms frame units.
  • the phoneme units have energy e1, e2, e3 and e4 and signal periods T1, T2, T3 and T4 corresponding to the respective frames.
  • the signal period can be referred to as a pitch or a fundamental frequency (F0).
  • FIG. 4 (b) shows one target phoneme unit predicted by the rhythm processor 120.
  • the illustrated target phoneme unit has a signal length D 'of 30 ms in which 6 frames are consecutively arranged in 5 ms frame units. Further, the target phoneme unit has energy (e1 'to e6') and signal periods (T1 'to T6') corresponding to each frame.
  • the rhythm controller 140 performs a process of changing the rhyme parameter so that the phoneme unit of the speech waveform type extracted by the unit selector 130 becomes the target phoneme unit corresponding to the rhyme information extracted based on the input text do.
  • the rhythm controller 140 first adjusts the signal length, and then adjusts the signal period and energy, respectively.
  • the signal length D of the phoneme unit extracted by the unit selector 130 is 20 ms and the signal length D 'of the target phoneme unit is 30 ms
  • the signal length D of the extracted phoneme unit is changed from 20 ms to 30 ms .
  • the adjustment of the signal length can be done by frame copying or deleting. In the example of FIG. 4, two frames are copied to increase the signal length.
  • the energy e1 to e4 and the signal periods T1 to T4 of each frame of the extracted phoneme unit are converted into the energy e1 'to e6' of the target speech unit and the signal periods T1 'to T6 ').
  • the speech synthesizer 150 After adjusting the rhythm parameters, the speech synthesizer 150 removes the discontinuity between the phoneme units and generates a synthetic sound.
  • FIG. 5A illustrates two phoneme units (unit 1, unit 2).
  • the illustrated two phoneme units are referred to as a previous phoneme unit (unit 1) and a next phoneme unit (unit 2).
  • the speech synthesizer 150 of the present invention calculates the rhythm parameters (signal period, energy) in the last frame of the previous phoneme unit and the start frame of the next phoneme unit as shown in (c) And calculates the average value of the confirmed rhyme parameters and applies them to the respective frames. For example, an average value of the signal period (T1) of the last frame of the previous phoneme unit and the signal period (T2) of the start frame of the next phoneme unit is calculated and applied to the last frame of the previous phoneme unit and the start frame of the next phoneme unit can do.
  • the speech synthesizer 150 of the present invention superimposes the last frame of the previous phoneme unit and the start frame of the next phoneme unit as shown in (d) of Fig. 5, and stores the average value of the above- Frame.
  • FIG. 6 to 9 are illustrations for explaining a speech synthesis method according to a second embodiment of the present invention.
  • the speech synthesizer 100 includes a phonemic database 160 storing a plurality of phoneme units in a parameter set form.
  • the parameter set refers to a set of rhythm parameters, which may be modeled in the form of a vocoder for extracting rhythm parameters according to a harmonic model.
  • the extracted rhyme parameters for each frame form one parameter set.
  • the rhythm parameters may be a fundamental frequency (F0) and energy, which are signal periods, and may further include amplitude information and phase information for energy calculation depending on the case.
  • the rhythm parameters may be mapped to a specific time point (t0, t1, t2, t3) of each frame. Therefore, the number of elements (or the number of frame indexes) of the parameter set can correspond to the signal length.
  • the rhythm controller 140 compares the rhythm parameter of the selected phoneme unit with the target rhythm parameter of the target phoneme unit And the speech synthesizer 150 synthesizes the phoneme units whose rhythm parameters are adjusted, respectively, to generate synthesized sounds.
  • the speech synthesizer 150 eliminates the discontinuity occurring at the boundary between the phoneme units, thereby generating a natural high-quality synthetic speech.
  • Fig. 7A shows one phoneme unit selected (or extracted) by the unit selector 130.
  • the illustrated phoneme unit consists of eight frames having a frame index from 0 to 7. Each frame is, for example, 5 ms, and thus the total signal length of the extracted phoneme unit is 40 ms.
  • Fig. 7 (a) shows one target phoneme unit predicted by the rhythm processor 120.
  • the illustrated target phoneme unit is composed of 10 frames having a frame index of 0 to 9, and the total signal length of the target phoneme unit formed by 5 ms frame units is 50 ms.
  • the rhythm controller 140 adjusts the signal length of the extracted phoneme unit to match the signal length of the target phoneme unit. That is, in the above-described example, since the signal length of the extracted phoneme unit is 40 ms and the signal length of the target phoneme unit is 50 ms, the signal length can be adjusted by copying two frames corresponding to 10 ms.
  • the rhythm controller 140 converts the frame indices of the extracted phonemic unit into new frame indices using the following equation (1).
  • Equation (1) M denotes the total number of frames of the target phoneme unit, and N denotes the total number of frames of the extracted phoneme unit.
  • I represents the frame index of the extracted phoneme unit, and r represents the rounding operation.
  • the rhythm controller 140 adjusts the rhythm parameter of the extracted phoneme unit so that the parameter set of the target phoneme unit is applied on a frame-by-frame basis. That is, the rhythm controller 140 replaces the signal cycle (fundamental frequency) of each extracted phoneme unit by the frame period (fundamental frequency) of the target phoneme unit, Adjust the amplitude so that it is the energy per frame of the unit.
  • FIG. 7 is an example of a case where the signal length of the target phoneme unit is longer than the signal length of the extracted phoneme unit. Conversely, an example of the case where the signal length of the target phoneme unit is shorter than the signal length of the extracted phoneme unit is shown in FIG.
  • 1, 2, 3, 4, 5, 6, 7, 8, and 9 of the extracted phonemic unit are arranged in the order of the new frame Are converted to the indexes 0, 1, 3, 4, 5, 6, 8, That is, the second frame and the seventh frame can be deleted.
  • the rhythm controller 140 adjusts the rhythm parameter of the extracted phoneme unit so that the parameter set of the target phoneme unit is applied on a frame-by-frame basis.
  • the speech synthesizer 150 removes the discontinuity between the phoneme units whose rhythm parameters are adjusted to generate a synthesized sound. This will be described with reference to FIG.
  • a next speech unit unit 1 composed of three frames A, B and C and a next speech unit unit 3 composed of three frames D, E and F 2).
  • the speech synthesizer 150 combines the previous speech unit and the next speech unit to generate a synthesized speech.
  • the speech synthesizer 150 applies the rhythm parameter average values of the last frame C of the previous phoneme unit and the start frame D of the next phoneme unit to each of the frames C and D It is possible to generate a synthetic sound.
  • the speech synthesizer 150 generates a new frame by superimposing the frame C and the frame D, and applies a rhythm parameter average value to the new frame to generate a synthesized sound have.
  • the operations of the speech synthesizer 100 as described above can be implemented or controlled by one or more processors mounted on the speech synthesis apparatus 100.
  • a processor may be a single-threaded processor or a multi-threaded processor.
  • the processor is also capable of processing instructions stored in memory or other storage devices.
  • FIG. 10 is a flowchart illustrating a speech synthesis method according to an embodiment of the present invention.
  • the speech synthesis method shown in Fig. 10 is performed by the speech synthesis apparatus 100 described above.
  • the speech synthesis apparatus 100 performs language analysis and processing on the input text (S10).
  • the speech synthesis apparatus 100 may perform syntax analysis and morphological analysis on the input text to obtain information on the sentence structure and the sentence type. At this time, if the text of the language other than the specific language is included in the sentence, the speech synthesizer 100 translates the text into a character of a specific language and predicts the actual pronunciation of the inputted text.
  • the speech synthesis apparatus 100 analyzes and processes the rhyme information with respect to the inputted text (S30). For example, the speech synthesizer 100 can analyze the rhyme information such as intonation and accent according to the sentence structure and sentence type, such as determining the tear-off portion, the strong reading portion, and the tone of the sentence ending in the sentence. Then, the speech synthesis apparatus 100 can determine the predicted target phoneme unit based on the analyzed rhyme information, and predict the determined target phoneme unit's rhythm parameter (i.e., the target rhyme parameter).
  • the target rhyme parameter i.e., the target rhyme parameter
  • the speech synthesis apparatus 100 selects a specific phoneme unit among one or more candidate units per phoneme stored in the phoneme database 160 based on the analyzed rhyme information (S50). That is, the phoneme database 160 of the speech synthesizer 100 may store various candidate units for each phoneme, and the speech synthesizer 100 may generate candidate units for each phoneme based on the analyzed rhyme information, It is possible to select (extract) a specific phoneme unit suitable for the phoneme unit.
  • the speech synthesizer 100 adjusts the rhyme of the selected specific phoneme unit (S70). That is, the speech synthesis apparatus 100 adjusts the rhythm parameter of the specific phoneme unit selected in step S50 to be the target rhyme parameter of the target phoneme unit predicted in step S30.
  • the rhythm parameters are signal period, energy, signal length, and the like.
  • the speech synthesizer 100 first adjusts the signal length of the selected phoneme unit to be the signal length of the target phoneme unit, and then adjusts the signal period and energy of the selected phoneme unit to be the signal period and energy of the target phoneme unit, respectively .
  • step S70 the speech synthesizer 100 synthesizes the phoneme units whose rhythm parameters are adjusted to generate synthesized sounds (S90).
  • the speech synthesizer 100 removes the discontinuity between the phoneme units and generates a high-quality synthetic speech.
  • the speech synthesizer 100 confirms the rhythm parameters of the last frame of the previous phoneme unit and the rhythm parameters of the start frame of the next phoneme unit among the specific phoneme units whose rhythm parameters are respectively adjusted, The average value of the parameters may be calculated and applied to the last frame of the previous phoneme unit and the start frame of the next phoneme unit or may be applied to the overlapping frame of the last frame of the previous phoneme unit and the start frame of the next phoneme unit to eliminate the discontinuity.
  • the speech synthesizer 100 outputs the generated synthesized speech (S110).
  • the speech synthesizer 100 may transmit a synthesized voice to a speaker module of a user terminal to support a synthesized voice output through a speaker.
  • the speech synthesizer 100 may transmit the synthesized speech to the user terminal through the communication network.
  • the speech synthesis method according to the embodiments of the present invention can be executed by a program recorded on a computer-readable recording medium.
  • the computer readable recording medium may include program instructions, data files, data structures, and the like, alone or in combination, and includes all kinds of recording apparatuses in which data that can be read by a computer system is stored.
  • Examples of the computer-readable recording medium include an optical recording medium such as a magnetic medium such as a hard disk, a floppy disk and a magnetic tape, a compact disk read only memory (CD-ROM), and a digital video disk (ROM), random access memory (RAM), flash memory, and the like, such as a magneto-optical medium such as a magneto-optical medium and a floppy disk, And hardware devices that are specifically configured to perform the functions described herein.
  • the computer-readable recording medium may also be distributed over a networked computer system so that computer readable code in a distributed manner can be stored and executed.
  • functional programs, codes, and code segments for implementing the present invention can be easily inferred by programmers of the technical field to which the present invention belongs.
  • the present invention relates to a speech synthesizing apparatus and method for outputting a text input by voice, and it is an object of the present invention to provide a speech synthesis apparatus and a speech synthesis method for generating a synthetic speech from a phoneme unit by eliminating discontinuity between phoneme units, Can be generated.
  • the speech synthesis apparatus and method according to the present invention can eliminate the discontinuity between the phoneme units which is a problem of the conventional USS method and can produce a stable and high quality synthetic speech as compared with the existing SPS system. Therefore, the speech synthesis technique according to the present invention is industrially applicable.

Abstract

본 발명은 음성 합성 장치 및 방법에 관한 것이다. 본 발명의 음소 합성 장치 및 방법은 음소 유닛들로부터 합성음을 생성할 때 음소 유닛들 간의 불연속성을 제거하여 자연스러운 발화를 구현할 수 있고 안정적인 운율을 가지는 고음질의 합성음을 생성할 수 있다.

Description

음성 합성 장치 및 방법
본 발명은 음성 합성 기술에 관한 것으로서, 구체적으로는 텍스트 입력을 음성으로 출력하는 음성 합성 장치 및 방법에 관한 것이다.
일반적으로 음성 합성 시스템(Text to Speech(TTS) system)이란 임의의 문장이 텍스트 형태로 입력될 때 입력된 문장을 음성 형태로 출력하는 시스템을 의미한다. 음성 합성 시스템의 동작 과정은 크게 훈련 과정과 합성 과정으로 나누어진다. 훈련 과정은 합성 과정에서 사용될 언어 모델, 운율 모델, 신호 모델을 만드는 과정이며, 합성 과정은 입력된 텍스트에 대하여 해당 모델을 기반으로 언어 처리, 운율 처리, 신호 처리를 차례로 수행하여 합성음을 생성하는 과정이다.
합성 과정에서 수행되는 합성 방식으로는 유닛 기반 합성 방식인 USS(Unit Selection Synthesis) 방식과 통계적 모델 기반 파라미터 합성 방식인 SPS(Statistical Parametric Synthesis) 방식이 있다.
USS 방식은 한 음소당 여러 개의 유닛 후보가 존재하는 음소 데이터베이스에서 적합한 음소 유닛들을 결정하고, 결정된 음소 유닛들을 이어 붙여 합성음을 생성하는 방식이다. 그러나 USS 방식은 음소 유닛들 사이에 불연속성이 존재하고 발화가 부자연스러운 문제점이 있다.
반면, SPS 방식은 훈련 과정에서 음성 신호로부터 추출된 파라미터들로 모델링을 하고, 합성 과정에서 파라미터 모델과 입력 문장을 사용하여 합성음을 생성하는 방식이다. SPS 방식은 USS 방식에 비해서 안정적인 운율을 가지는 합성음을 생성할 수 있기는 하지만 기본 음질이 낮다는 문제점이 있다.
따라서, 본 발명은 음소 유닛들 사이의 불연속성을 제거하고 자연적인 발화를 구현할 수 있을 뿐 아니라 안정적인 운율을 가지면서 고음질의 합성음을 생성할 수 있는 음성 합성 장치 및 방법을 제공하기 위한 것이다.
본 발명의 실시 예에 따른 음성 합성 장치는, 다수의 음소 유닛들을 저장하며, 상기 음소 유닛들은 하나의 음소당 하나 이상의 후보 유닛을 포함하는, 음소 데이터베이스; 입력된 텍스트에 대하여 운율 정보를 분석하여 타겟 음소 유닛의 타겟 운율 파라미터를 예측하는 운율 처리기; 상기 운율 처리기에서 분석된 상기 운율 정보를 기반으로, 상기 음소 데이터베이스에 저장된 상기 음소당 하나 이상의 후보 유닛 중 특정 음소 유닛을 선택하는 유닛 선택기; 상기 유닛 선택기에서 선택된 상기 특정 음소 유닛의 운율 파라미터를 상기 운율 처리기에서 예측된 상기 타겟 음소 유닛의 타겟 운율 파라미터가 되도록 조절하는 운율 조절기; 및 상기 운율 조절기에서 각각 운율 파라미터가 조절된 상기 특정 음소 유닛들 간의 불연속성을 제거하여 합성음을 생성하는 음성 합성기를 포함할 수 있다.
상기 음소 데이터베이스에 저장된 상기 다수의 음소 유닛들은 음성 파형의 형태 또는 파라미터 집합의 형태로 구축될 수 있다.
상기 운율 파라미터는 신호 주기(pitch 또는 fundamental frequency), 에너지(energy), 또는 신호 길이(duration) 중에서 적어도 하나를 포함할 수 있다.
상기 운율 조절기는 상기 선택된 음소 유닛의 신호 길이를 상기 타겟 음소 유닛의 신호 길이가 되도록 조절한 후, 상기 선택된 음소 유닛의 신호 주기 및 에너지를 각각 상기 타겟 음소 유닛의 신호 주기 및 에너지가 되도록 조절할 수 있다.
또한, 상기 운율 조절기는 상기 선택된 음소 유닛의 신호 길이가 상기 타겟 음소 유닛의 신호 길이가 되도록 상기 선택된 음소 유닛을 구성하는 프레임들 중 일부를 복사하거나 삭제할 수 있다.
또한, 상기 운율 조절기는 하기 수학식을 이용하여 상기 선택된 음소 유닛의 프레임 인덱스들을 신규 프레임 인덱스들로 변환하고, 상기 선택된 음소 유닛을 구성하는 프레임들 중 일부를 상기 신규 프레임 인덱스들에 따라 복사하거나 삭제하여 상기 선택된 음소 유닛의 신호 길이를 상기 타겟 음소 유닛의 신호 길이가 되도록 조절할 수 있다.
Figure PCTKR2018012967-appb-I000001
(상기 수학식에서, M은 타겟 음소 유닛의 전체 프레임 수, N은 선택된 음소 유닛의 전체 프레임 수, i는 선택된 음소 유닛의 프레임 인덱스, r은 반올림)
아울러, 상기 음성 합성기는 상기 운율 조절기에서 각각 운율 파라미터가 조절된 상기 특정 음소 유닛들 중에서, 이전 음소 유닛의 마지막 프레임의 운율 파라미터와 다음 음소 유닛의 시작 프레임의 운율 파라미터를 각각 확인하고, 상기 확인된 운율 파라미터들의 평균값을 산출하며, 상기 산출된 운율 파라미터 평균값을 상기 마지막 프레임과 상기 시작 프레임에 각각 적용하거나, 상기 마지막 프레임과 상기 시작 프레임의 중첩 프레임에 적용하여 불연속성을 제거할 수 있다.
한편, 본 발명의 실시 예에 따른 음성 합성 방법은, 다수의 음소 유닛들을 저장하며, 상기 음소 유닛들이 하나의 음소당 하나 이상의 후보 유닛을 포함하는, 음소 데이터베이스를 구비하는 음성 합성 장치에 의하여 수행되는 방법으로서, 입력된 텍스트에 대하여 운율 정보를 분석하여 타겟 음소 유닛의 타겟 운율 파라미터를 예측하는 단계; 상기 분석된 운율 정보를 기반으로, 상기 음소 데이터베이스에 저장된 상기 음소당 하나 이상의 후보 유닛 중 특정 음소 유닛을 선택하는 단계; 상기 선택된 특정 음소 유닛의 운율 파라미터를 상기 타겟 음소 유닛의 타겟 운율 파라미터가 되도록 조절하는 단계; 및 각각 운율 파라미터가 조절된 상기 특정 음소 유닛들 간의 불연속성을 제거하여 합성음을 생성하는 단계를 포함할 수 있다.
상기 조절하는 단계는, 상기 선택된 음소 유닛의 신호 길이를 상기 타겟 음소 유닛의 신호 길이가 되도록 조절하는 단계; 및 이후, 상기 선택된 음소 유닛의 신호 주기 및 에너지를 각각 상기 타겟 음소 유닛의 신호 주기 및 에너지가 되도록 조절하는 단계를 포함할 수 있다.
또한, 상기 조절하는 단계는, 하기 수학식을 이용하여 상기 선택된 음소 유닛의 프레임 인덱스들을 신규 프레임 인덱스들로 변환하고, 상기 선택된 음소 유닛을 구성하는 프레임들 중 일부를 상기 신규 프레임 인덱스들에 따라 복사하거나 삭제하여 상기 선택된 음소 유닛의 신호 길이를 상기 타겟 음소 유닛의 신호 길이가 되도록 조절하는 단계를 포함할 수 있다.
Figure PCTKR2018012967-appb-I000002
(상기 수학식에서, M은 타겟 음소 유닛의 전체 프레임 수, N은 선택된 음소 유닛의 전체 프레임 수, i는 선택된 음소 유닛의 프레임 인덱스, r은 반올림)
또한, 상기 합성음을 생성하는 단계는, 각각 운율 파라미터가 조절된 상기 특정 음소 유닛들 중에서, 이전 음소 유닛의 마지막 프레임의 운율 파라미터와 다음 음소 유닛의 시작 프레임의 운율 파라미터를 각각 확인하는 단계; 상기 확인된 운율 파라미터들의 평균값을 산출하는 단계; 및 상기 산출된 운율 파라미터 평균값을 상기 마지막 프레임과 상기 시작 프레임에 각각 적용하거나, 상기 마지막 프레임과 상기 시작 프레임의 중첩 프레임에 적용하여 불연속성을 제거하는 단계를 포함할 수 있다.
추가로, 본 발명은 상술한 바와 같은 방법을 실행하는 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체를 제공할 수 있다.
본 발명의 실시 예에 따른 음성 합성 장치 및 방법에 의하면, 음소 유닛들로부터 합성음을 생성할 때 음소 유닛들 간의 불연속성을 제거하여 자연스러운 발화를 구현할 수 있고 안정적인 운율을 가지는 고음질의 합성음을 생성할 수 있다.
또한, 본 발명은 음소 유닛의 최적 후보를 찾을 수 없는 상황에서도 불연속성을 제거함과 동시에 고음질의 합성음을 생성할 수 있다.
도 1은 음성 합성 과정을 개략적으로 나타내는 개념도이다.
도 2는 본 발명의 실시 예에 따른 음성 합성 장치의 주요 구성요소를 나타내는 블록도이다.
도 3 내지 도 5는 본 발명의 제1 실시 예에 따른 음성 합성 방법을 설명하기 위한 예시도이다.
도 6 내지 도 9는 본 발명의 제2 실시 예에 따른 음성 합성 방법을 설명하기 위한 예시도이다.
도 10은 본 발명의 실시 예에 따른 음성 합성 방법을 나타내는 흐름도이다.
이하, 첨부된 도면을 참조하여 본 발명에 따른 실시예들을 상세히 설명한다.
본 발명은 다양한 형태로 실시될 수 있으며, 여기에 개시된 실시예들로 한정하여 해석되지 않아야 할 것이다. 개시된 실시예들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 본 발명의 범위를 충분히 전달하기 위하여 제공되는 것이다. 본 발명의 원리 및 특징들은 본 발명의 범위를 벗어나지 않고 매우 다양한 실시예들에서 적용될 수 있을 것이다.
또한, 실시예들을 설명함에 있어서 본 발명이 속하는 기술 분야에 잘 알려져 있거나 본 발명과 직접 관련이 없는 사항에 대해서는 본 발명의 핵심을 흐리지 않고 명확히 전달하기 위하여 설명을 생략할 수 있다. 첨부 도면을 통틀어 동일하거나 대응하는 구성요소에는 동일한 참조번호를 부여한다.
또한, 본 명세서에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 또한, 본 명세서에서 사용되는 "포함하다", "가지다" 등의 용어는 명세서에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품, 또는 이들의 조합이 존재함을 지정하려는 것이지, 기재되지 않은 다른 특징, 숫자, 단계, 동작, 구성요소, 부품, 또는 이들의 조합이 존재하거나 부가될 수 있는 가능성을 배제하지 않는 것으로 이해되어야 한다.
먼저, 도 1을 참조하여 음성 합성 과정의 개념을 설명한다. 도 1은 음성 합성 과정을 개략적으로 나타내는 개념도이다.
도 1에 도시된 바와 같이, 음성 합성 장치(100)는 임의의 문장이 텍스트 형태로 입력될 때 입력된 문장을 음성 형태로 출력하는 음성 합성 시스템을 의미한다.
특히, 본 발명의 음성 합성 장치(100)는 입력된 텍스트에 대하여 운율 정보를 분석하여 타겟 음소 유닛의 타겟 운율 파라미터를 예측하고, 분석된 운율 정보를 기반으로, 음소 데이터베이스에 저장된 음소당 하나 이상의 후보 유닛 중 특정 음소 유닛을 선택하고, 선택된 특정 음소 유닛의 운율 파라미터를 타겟 음소 유닛의 타겟 운율 파라미터가 되도록 조절하며, 각각 운율 파라미터가 조절된 특정 음소 유닛들 간의 불연속성을 제거하여 합성음을 생성한다.
이러한 본 발명의 음성 합성 장치(100)는 은행, 증권, 보험, 카드 등 각종 서비스의 ARS(Automatic Response Service) 시스템에 적용될 수 있으며, 웹 페이지를 음성으로 안내하는 보이스 포탈 서비스, 음성 메시지 전송 기능을 지원하는 통합 메시징 시스템, 교육용 음성 솔루션 시스템 등 지정된 텍스트를 읽어 사용자에게 음성의 형태로 안내하는 각종 서비스에 적용될 수 있다.
또한, 본 발명의 음성 합성 장치(100)는 음성 인식 장치(미도시)와 결합하여 음성 시스템을 구축할 수 있다. 이 경우, 음성 인식 장치(미도시)가 사용자의 음성을 인식하여 이에 대한 응답 텍스트를 구축하면, 음성 합성 장치(100)가 응답 텍스트를 합성음의 형태로 출력하는 역할을 수행할 수 있다. 이러한 음성 시스템의 대표적인 예로는 인공 지능 스피커를 들 수 있다.
이 외에도, 본 발명의 음성 합성 장치(100)는 합성음 출력을 지원하는 각종 서비스에 지원될 수 있으며, 사용자의 단말(미도시)에 장착되어 합성음을 출력하거나, 서버 형태로 구현되어 동작을 수행할 수 있다. 서버 형태로 구현되는 경우 통신망(미도시)을 경유하여 사용자의 단말(미도시)로 합성음을 제공하는 과정까지 지원할 수도 있다.
이하, 본 발명의 실시 예에 따른 음성 합성 장치(100)의 주요 구성요소 및 동작에 대하여 상세히 설명한다.
도 2는 본 발명의 실시 예에 따른 음성 합성 장치의 주요 구성요소를 나타내는 블록도이다.
도 2를 참조하면, 실시 예에 따른 음성 합성 장치(100)는 언어 처리기(110, linguistic processor), 운율 처리기(120, prosody processor), 유닛 선택기(130, unit selector), 운율 조절기(140, prosody adjuster), 음성 합성기(150, speech synthesizer), 음소 데이터베이스(160)를 포함하여 구성된다.
음소 데이터베이스(160)는 다수의 음소 유닛들을 저장한다. 이러한 음소 유닛들은 하나의 음소당 하나 이상의 후보 유닛을 포함한다. 음소 데이터베이스(160)에 저장된 다수의 음소 유닛들은 음성 파형의 형태 또는 파라미터 집합의 형태로 구축될 수 있다.
언어 처리기(110)는 임의의 문장이 텍스트 형태로 입력되면 입력된 텍스트에 대하여 언어 분석 및 처리를 수행한다. 구체적으로, 언어 처리기(110)는 입력된 텍스트에 대하여 구문 분석 및 형태소 분석을 수행하여 문장 구조 및 문장 종류에 대한 정보를 획득한다. 또한, 언어 처리기(110)는 문장에 특정 언어가 아닌 다른 언어의 문자가 포함된 경우 이를 특정 언어의 문자로 번역하고, 입력된 텍스트의 실제 발음을 예측한다. 언어 처리기(110)의 출력은 운율 처리기(120)의 입력으로 사용된다.
운율 처리기(120)는 언어 처리기(110)를 통해 입력된 텍스트에 대하여 운율 정보를 분석하고 처리한다. 구체적으로, 운율 처리기(120)는 문장에서 끊어 읽는 부분, 강하게 읽는 부분, 문장 어미의 톤을 결정하는 것과 같이 문장 구조 및 문장 종류에 따라 억양, 강세와 같은 운율 정보를 분석할 수 있다. 그리고, 운율 처리기(120)는 분석된 운율 정보를 기반으로 예측된 타겟 음소 유닛을 결정하고, 결정된 타겟 음소 유닛의 운율 파라미터(즉, 타겟 운율 파라미터)를 예측한다. 운율 파라미터는 신호 주기(pitch 또는 fundamental frequency), 에너지(energy), 신호 길이(duration) 등이 될 수 있다.
유닛 선택기(130)는 운율 처리기(120)에서 분석된 운율 정보를 기반으로, 음소 데이터베이스(160)에 저장된 음소당 하나 이상의 후보 유닛 중 특정 음소 유닛을 선택한다. 즉, 음소 데이터베이스(160)는 각각의 음소마다 여러 후보 유닛들을 저장하고 있을 수 있으며, 유닛 선택기(130)는 분석된 운율 정보를 기초로 각각의 음소마다 후보 유닛들 중에서 적합한 특정 음소 유닛을 선택하는 것이다.
운율 조절기(140)는 유닛 선택기(130)에서 선택된 특정 음소 유닛의 운율 파라미터를 운율 처리기(120)에서 예측된 타겟 음소 유닛의 타겟 운율 파라미터가 되도록 조절한다. 전술한 바와 같이, 운율 파라미터는 신호 주기, 에너지, 신호 길이 등이다. 특히, 운율 운율 조절기(140)는 선택된 음소 유닛의 신호 길이를 타겟 음소 유닛의 신호 길이가 되도록 먼저 조절한 후, 선택된 음소 유닛의 신호 주기 및 에너지를 각각 타겟 음소 유닛의 신호 주기 및 에너지가 되도록 조절할 수 있다.
이후, 음성 합성기(150)는 운율 조절기(140)에서 각각 운율 파라미터가 조절된 음소 유닛들을 합성하여 합성음을 생성한다. 특히, 음성 합성기(150)는 음소 유닛들 간의 불연속성을 제거하여 고품질의 합성음을 생성할 수 있다.
전술한 바와 같이, 음소 데이터베이스(160)에 저장된 다수의 음소 유닛들은 음성 파형의 형태 또는 파라미터 집합의 형태로 구축될 수 있다. 이하, 음소 유닛들이 음성 파형의 형태로 구축되어 저장된 경우를 제1 실시 예로, 파라미터 집합의 형태로 구축되어 저장된 경우를 제2 실시 예로, 각각 설명한다.
먼저, 도 3 내지 도 5를 참조하여 본 발명의 제1 실시 예에 따른 음성 합성 장치(100)의 음성 합성 방법을 설명하도록 한다. 도 3 내지 도 5는 본 발명의 제1 실시 예에 따른 음성 합성 방법을 설명하기 위한 예시도이다.
도 3에 도시된 바와 같이, 제1 실시 예에 따른 음성 합성 장치(100)는 음성 파형(waveform) 형태로 다수의 음소 유닛들을 저장한 음소 데이터베이스(160)를 포함한다. 이러한 음소 유닛들은 하나의 음소당 하나 이상의 후보 유닛을 포함할 수 있다.
앞서 도 2를 참조하여 설명한 바와 같이, 유닛 선택기(130)가 음소 데이터베이스(160)로부터 특정 음소 유닛을 선택하면, 운율 조절기(140)는 선택된 음소 유닛의 운율 파라미터를 타겟 음소 유닛의 타겟 운율 파라미터가 되도록 조절하고, 음성 합성기(150)는 각각 운율 파라미터가 조절된 음소 유닛들을 합성하여 합성음을 생성한다. 특히, 음성 합성기(150)는 음소 유닛들 간의 경계에서 발생하는 불연속성을 제거하여 자연스러운 고품질의 합성음을 생성할 수 있다.
이러한 과정에 대해 보다 구체적으로 설명한다.
도 4의 (a)는 유닛 선택기(130)에 의해 선택된(또는 추출된) 하나의 음소 유닛을 보여준다. 예시된 음소 유닛은 5ms의 프레임 단위로 4개의 프레임들이 연속된 20ms의 신호 길이(D: duration)를 가진다. 또한, 음소 유닛은 각각의 프레임에 대응하여 에너지(e1, e2, e3, e4)와 신호 주기(T1, T2, T3, T4)를 가진다. 신호 주기는 피치(pitch) 또는 기본 주파수(fundamental frequency: F0)로 지칭될 수 있다.
도 4의 (b)는 운율 처리기(120)에 의해 예측된 하나의 타겟 음소 유닛을 보여준다. 예시된 타겟 음소 유닛은 5ms의 프레임 단위로 6개의 프레임들이 연속된 30ms의 신호 길이(D')를 가진다. 또한, 타겟 음소 유닛은 각각의 프레임에 대응하여 에너지(e1' ~ e6')와 신호 주기(T1' ~ T6')를 가진다.
운율 조절기(140)는, 유닛 선택기(130)에서 추출된 음성 파형 형태의 음소 유닛이, 입력된 텍스트를 기초로 추출된 운율 정보에 대응하는 타겟 음소 유닛이 되도록, 운율 파라미터를 변경하는 과정을 수행한다. 이때, 운율 조절기(140)는 먼저 신호 길이를 조절하고, 그 다음에 신호 주기 및 에너지를 각각 조절한다. 예컨대, 유닛 선택기(130)에서 추출된 음소 유닛의 신호 길이(D)가 20ms이고 타겟 음소 유닛의 신호 길이(D')가 30ms일 때, 추출한 음소 유닛의 신호 길이(D)를 20ms에서 30ms로 조절한다. 신호 길이의 조절은 프레임 복사 또는 삭제를 통해 이루어질 수 있다. 도 4의 예시에서는 2개의 프레임을 복사하여 신호 길이를 늘린 경우이다. 신호 길이를 조절한 후, 추출된 음소 유닛의 각 프레임마다 에너지(e1 ~ e4) 및 신호 주기(T1 ~ T4)를 타겟 음성 유닛의 에너지(e1' ~ e6') 및 신호 주기(T1' ~ T6')가 되도록 각각 조절한다.
운율 파라미터의 조절 후, 음성 합성기(150)는 음소 유닛들 간의 불연속성을 제거하여 합성음을 생성한다.
도 5의 (a)는 2개의 음소 유닛들(unit 1, unit 2)을 예시하고 있다. 이하, 예시된 2개의 음소 유닛들을 이전 음소 유닛(unit 1)과 다음 음소 유닛(unit 2)로 지칭한다.
도 5의 (b)에 도시된 바와 같이, 음성 합성기(150)가 단순히 이전 음소 유닛과 다음 음소 유닛을 결합하면, 음소 유닛들 간의 경계 부분에 불연속성이 발생하여 부자연스러운 합성음이 생성된다.
이러한 문제를 해결하기 위하여, 본 발명의 음성 합성기(150)는 도 5의 (c)에 도시된 바와 같이 이전 음소 유닛의 마지막 프레임과 다음 음소 유닛의 시작 프레임에서 각각 운율 파라미터(신호 주기, 에너지)를 확인하고, 확인된 운율 파라미터의 평균값을 산출하여 각각의 프레임에 적용한다. 예컨대, 이전 음소 유닛의 마지막 프레임의 신호 주기(T1)와 다음 음소 유닛의 시작 프레임의 신호 주기(T2)의 평균값을 산출하고, 이를 이전 음소 유닛의 마지막 프레임과 다음 음소 유닛의 시작 프레임에 각각 적용할 수 있다.
대안적으로, 본 발명의 음성 합성기(150)는 도 5의 (d)에 도시된 바와 같이 이전 음소 유닛의 마지막 프레임과 다음 음소 유닛의 시작 프레임을 중첩하고, 전술한 운율 파라미터의 평균값을 중첩된 프레임에 적용할 수도 있다.
이러한 과정들을 거쳐 보다 자연스러운 합성음을 생성할 수 있다.
이어서, 도 6 내지 도 9를 참조하여 본 발명의 제2 실시 예에 따른 음성 합성 장치(100)의 음성 합성 방법을 설명하도록 한다. 도 6 내지 도 9는 본 발명의 제2 실시 예에 따른 음성 합성 방법을 설명하기 위한 예시도이다.
도 6을 참조하면, 제2 실시 예에 따른 음성 합성 장치(100)는 파라미터 집합(parameter set) 형태로 다수의 음소 유닛들을 저장한 음소 데이터베이스(160)를 포함한다. 이때, 파라미터 집합이란 운율 파라미터들의 집합을 의미하며, 하모닉(harmonic) 모델에 따라 운율 파라미터를 추출하는 보코더(vocoder)의 형태로 모델링한 값을 의미할 수 있다.
좀 더 구체적으로 설명하면, 도 6에 도시된 바와 같이 3개의 연속된 프레임들로 이루어진 음성 파형이 있을 때, 각 프레임마다 추출된 운율 파라미터들이 하나의 파라미터 집합을 이룬다. 이때, 운율 파라미터들은 신호 주기인 기본 주파수(F0: fundamental frequency) 및 에너지(energy)가 될 수 있으며, 경우에 따라 에너지 산출을 위한 진폭 정보와 위상 정보 등을 더 포함할 수도 있다. 운율 파라미터들은 각 프레임의 특정 시점(t0, t1, t2, t3)에 매핑될 수 있다. 따라서 파라미터 집합의 원소 개수(또는 프레임 인덱스 개수)는 신호 길이에 대응할 수 있다.
앞서 도 2를 참조하여 설명한 바와 같이, 유닛 선택기(130)가 음소 데이터베이스(160)로부터 특정 음소 유닛을 선택하면, 운율 조절기(140)는 선택된 음소 유닛의 운율 파라미터를 타겟 음소 유닛의 타겟 운율 파라미터가 되도록 조절하고, 음성 합성기(150)는 각각 운율 파라미터가 조절된 음소 유닛들을 합성하여 합성음을 생성한다. 특히, 음성 합성기(150)는 음소 유닛들 간의 경계에서 발생하는 불연속성을 제거하여 자연스러운 고품질의 합성음을 생성할 수 있다.
이러한 과정에 대해 보다 구체적으로 설명한다.
도 7의 (a)는 유닛 선택기(130)에 의해 선택된(또는 추출된) 하나의 음소 유닛을 보여준다. 예시된 음소 유닛은 0부터 7까지의 프레임 인덱스를 가지는 8개의 프레임들로 구성된다. 각 프레임은 예컨대 5ms 단위이며, 따라서 추출된 음소 유닛의 전체 신호 길이는 40ms이다.
또한, 도 7의 (a)는 운율 처리기(120)에 의해 예측된 하나의 타겟 음소 유닛을 보여준다. 예시된 타겟 음소 유닛은 0부터 9까지의 프레임 인덱스를 가지는 10개의 프레임들로 구성되며, 5ms의 프레임 단위로 이루어진 타겟 음소 유닛의 전체 신호 길이는 50ms이다.
운율 조절기(140)는 추출 음소 유닛의 신호 길이를 타겟 음소 유닛의 신호 길이와 맞추기 위해 조절한다. 즉, 전술한 예에서 추출 음소 유닛의 신호 길이가 40ms이고 타겟 음소 유닛의 신호 길이가 50ms이므로, 10ms에 해당하는 2개의 프레임을 복사하여 신호 길이를 조절할 수 있다.
이를 위해 운율 조절기(140)는 하기 수학식 1을 이용하여 추출 음소 유닛의 프레임 인덱스들을 신규 프레임 인덱스들로 변환한다.
Figure PCTKR2018012967-appb-M000001
수학식 1에서, M은 타겟 음소 유닛의 전체 프레임 수를 의미하며, N은 추출 음소 유닛의 전체 프레임 수를 의미한다. 그리고 i는 추출 음소 유닛의 프레임 인덱스를 의미하며, r은 반올림 연산을 의미한다.
도 7의 (b)에 도시된 바와 같이, 수학식 1을 이용하여 프레임 인덱스를 변환한 결과, 추출 음소 유닛의 프레임 인덱스 0, 1, 2, 3, 4, 5, 6, 7은 신규 프레임 인덱스 0, 1, 2, 2, 3, 4, 5, 5, 6, 7로 변환된다. 즉, 프레임 2와 5가 추가된다. 이는 추출 음소 유닛의 프레임들 중 2번과 5번의 프레임들을 복사하여 추가하는 것을 의미한다.
따라서 도 7의 (c)에 도시된 바와 같이, 추출 음소 유닛과 타겟 음소 유닛의 신호 길이가 일치하게 된다. 이어서, 운율 조절기(140)는 각각의 프레임 단위로 타겟 음소 유닛의 파라미터 집합이 적용되도록 추출 음소 유닛의 운율 파라미터를 조절한다. 즉, 운율 조절기(140)는 추출 음소 유닛의 프레임별 신호 주기(기본 주파수)를 타겟 음소 유닛의 프레임별 신호 주기(기본 주파수)로 치환하여 변경하고, 아울러 추출 음소 유닛의 프레임별 에너지가 타겟 음소 유닛의 프레임별 에너지가 되도록 진폭을 조절한다.
도 7은 타겟 음소 유닛의 신호 길이가 추출 음소 유닛의 신호 길이보다 긴 경우의 예이다. 반대로 타겟 음소 유닛의 신호 길이가 추출 음소 유닛의 신호 길이보다 짧은 경우의 예가 도 8에 도시되어 있다.
도 8의 (a)에 도시된 바와 같이, 하나의 추출 음소 유닛은 총 10개의 프레임으로 구성되고, 이에 대응하는 타겟 음소 유닛은 총 8개의 프레임으로 구성된다고 가정한다. 이때, 타겟 음소 유닛이 추출 음소 유닛보다 짧으므로, 추출 음소 유닛의 프레임들 중 일부 프레임을 삭제해야 한다.
전술한 수학식 1을 동일하게 적용하면, 도 8의 (b)에 도시된 바와 같이 추출 음소 유닛의 프레임 인덱스 0, 1, 2, 3, 4, 5, 6, 7, 8, 9는 신규 프레임 인덱스 0, 1, 3, 4, 5, 6, 8, 9로 변환된다. 즉, 2번 프레임과 7번 프레임을 삭제할 수 있다.
따라서 도 8의 (c)에 도시된 바와 같이, 추출 음소 유닛과 타겟 음소 유닛의 신호 길이가 일치하게 된다. 이어서, 운율 조절기(140)는 각각의 프레임 단위로 타겟 음소 유닛의 파라미터 집합이 적용되도록 추출 음소 유닛의 운율 파라미터를 조절한다.
이후, 음성 합성기(150)는 운율 파라미터가 조절된 음소 유닛들 간의 불연속성을 제거하여 합성음을 생성한다. 이에 대하여 도 9를 참조하여 설명한다.
도 9의 (a)에 도시된 바와 같이, 3개의 프레임(A, B, C)으로 구성된 이전 음성 유닛(unit 1)과 3개의 프레임(D, E, F)으로 구성되는 다음 음성 유닛(unit 2)이 있다고 가정한다. 음성 합성기(150)는 이전 음성 유닛과 다음 음성 유닛을 결합하여 합성음을 생성한다.
첫 번째 경우, 도 9의 (b)에 도시된 바와 같이, 음성 합성기(150)는 이전 음소 유닛의 마지막 프레임 C와 다음 음소 유닛의 시작 프레임 D의 운율 파라미터 평균값을 프레임 C와 D 각각에 적용하여 합성음을 생성할 수 있다.
두 번째 경우, 도 9의 (c)에 도시된 바와 같이, 음성 합성기(150)는 프레임 C와 프레임 D를 중첩하여 새로운 프레임을 생성하고, 이 프레임에 운율 파라미터 평균값을 적용하여 합성음을 생성할 수 있다.
이상 설명한 바와 같은 음성 합성 장치(100)의 동작들은 음성 합성 장치(100)에 탑재되는 하나 이상의 프로세서에 의해 구현되거나 제어될 수 있다. 이러한 프로세서는 싱글 쓰레드(Single-threaded) 프로세서이거나, 멀티 쓰레드(Multithreaded) 프로세서일 수 있다. 또한, 프로세서는 메모리 혹은 다른 저장 장치에 저장된 명령을 처리하는 것이 가능하다.
이하, 도 10을 참조하여 본 발명의 실시 예에 따른 음성 합성 방법을 설명한다. 도 10은 본 발명의 실시 예에 따른 음성 합성 방법을 나타내는 흐름도이다. 도 10에 도시된 음성 합성 방법은 전술한 음성 합성 장치(100)에 의하여 수행된다.
먼저, 임의의 텍스트가 입력되면, 음성 합성 장치(100)는 입력된 텍스트에 대하여 언어 분석 및 처리를 수행한다(S10).
예컨대, 음성 합성 장치(100)는 입력된 텍스트에 대하여 구문 분석 및 형태소 분석을 수행하여 문장 구조 및 문장 종류에 대한 정보를 획득할 수 있다. 이때, 음성 합성 장치(100)는 문장에 특정 언어가 아닌 다른 언어의 문자가 포함된 경우 이를 특정 언어의 문자로 번역하고, 입력된 텍스트의 실제 발음을 예측할 수 있다.
이어서, 음성 합성 장치(100)는 입력된 텍스트에 대하여 운율 정보를 분석하고 처리한다(S30). 예컨대, 음성 합성 장치(100)는 문장에서 끊어 읽는 부분, 강하게 읽는 부분, 문장 어미의 톤을 결정하는 것과 같이 문장 구조 및 문장 종류에 따라 억양, 강세와 같은 운율 정보를 분석할 수 있다. 그리고, 음성 합성 장치(100)는 분석된 운율 정보를 기반으로 예측된 타겟 음소 유닛을 결정하고, 결정된 타겟 음소 유닛의 운율 파라미터(즉, 타겟 운율 파라미터)를 예측할 수 있다.
이어서, 음성 합성 장치(100)는 분석된 운율 정보를 기반으로, 음소 데이터베이스(160)에 저장된 음소당 하나 이상의 후보 유닛 중 특정 음소 유닛을 선택한다(S50). 즉, 음성 합성 장치(100)의 음소 데이터베이스(160)는 각각의 음소마다 여러 후보 유닛들을 저장하고 있을 수 있으며, 음성 합성 장치(100)는 분석된 운율 정보를 기초로 각각의 음소마다 후보 유닛들 중에서 적합한 특정 음소 유닛을 선택(추출)할 수 있다.
이어서, 음성 합성 장치(100)는 선택된 특정 음소 유닛의 운율을 조절한다(S70). 즉, 음성 합성 장치(100)는 S50 단계에서 선택된 특정 음소 유닛의 운율 파라미터를 S30 단계에서 예측된 타겟 음소 유닛의 타겟 운율 파라미터가 되도록 조절한다. 전술한 바와 같이, 운율 파라미터는 신호 주기, 에너지, 신호 길이 등이다. 특히, 음성 합성 장치(100)는 선택된 음소 유닛의 신호 길이를 타겟 음소 유닛의 신호 길이가 되도록 먼저 조절한 후, 선택된 음소 유닛의 신호 주기 및 에너지를 각각 타겟 음소 유닛의 신호 주기 및 에너지가 되도록 조절할 수 있다.
이어서, 음성 합성 장치(100)는 S70 단계에서 운율 파라미터가 조절된 음소 유닛들을 합성하여 합성음을 생성한다(S90). 특히, 이 단계에서 음성 합성 장치(100)는 음소 유닛들 간의 불연속성을 제거하여 고품질의 합성음을 생성한다. 구체적으로, 음성 합성 장치(100)는 각각 운율 파라미터가 조절된 상기 특정 음소 유닛들 중에서, 이전 음소 유닛의 마지막 프레임의 운율 파라미터와 다음 음소 유닛의 시작 프레임의 운율 파라미터를 각각 확인하고, 확인된 운율 파라미터들의 평균값을 산출하여 이전 음소 유닛의 마지막 프레임과 다음 음소 유닛의 시작 프레임 각각에 적용하거나, 이전 음소 유닛의 마지막 프레임과 다음 음소 유닛의 시작 프레임의 중첩 프레임에 적용하여 불연속성을 제거할 수 있다.
이후, 음성 합성 장치(100)는 생성된 합성음을 출력한다(S110). 음성 합성 장치(100)가 스마트 폰과 같은 사용자 단말에 모듈 형태로 구현된 경우, 음성 합성 장치(100)는 사용자 단말의 스피커 모듈로 합성음을 전달하여 스피커를 통해 합성음이 출력되도록 지원할 수 있다. 또는, 음성 합성 장치(100)가 서버 내에 구현되는 경우, 음성 합성 장치(100)는 통신망을 통해 사용자 단말로 합성음을 전송할 수 있다.
이상, 본 발명의 실시 예들에 따른 음성 합성 장치와 음성 합성 장치에 의하여 수행되는 음성 합성 방법에 대하여 설명하였다.
본 발명의 실시 예들에 따른 음성 합성 방법은 컴퓨터 판독 가능한 기록매체에 기록된 프로그램에 의해 실행될 수 있다.
컴퓨터 판독 가능한 기록매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있으며, 컴퓨터 시스템에 의해 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(Magnetic Media), CD-ROM(Compact Disk Read Only Memory), DVD(Digital Video Disk)와 같은 광기록 매체(Optical Media), 플롭티컬 디스크(Floptical Disk)와 같은 자기-광 매체(Magneto-Optical Media) 및 롬(ROM, Read Only Memory), 램(RAM, Random Access Memory), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치를 포함한다.
또한, 컴퓨터 판독 가능한 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고, 본 발명을 구현하기 위한 기능적인(functional) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술분야의 프로그래머들에 의해 용이하게 추론될 수 있다.
본 명세서와 도면에 개시된 본 발명의 실시예들은 본 발명의 기술 내용을 쉽게 설명하고 본 발명의 이해를 돕기 위하여 특정 예를 제시한 것일 뿐이며, 본 발명의 범위를 한정하고자 하는 것은 아니다. 여기에 개시된 실시예들 이외에도 본 발명의 기술적 사상에 바탕을 둔 다른 변형예들이 실시 가능하다는 것은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 자명한 것이다.
본 발명은 텍스트 입력을 음성으로 출력하는 음성 합성 장치 및 방법에 관한 것으로, 음소 유닛들로부터 합성음을 생성할 때 음소 유닛들 간의 불연속성을 제거하여 자연스러운 발화를 구현할 수 있고 안정적인 운율을 가지는 고음질의 합성음을 생성할 수 있다. 본 발명에 따른 음성 합성 장치와 방법은 기존 USS 방식의 문제점인 음소 유닛들 간의 불연속성을 제거할 수 있고 기존 SPS 방식에 비하여 안정적이고 고음질의 합성음을 생성할 수 있다. 따라서 본 발명에 따른 음성 합성 기술은 산업상 이용가능성이 충분하다.

Claims (13)

  1. 다수의 음소 유닛들을 저장하며, 상기 음소 유닛들은 하나의 음소당 하나 이상의 후보 유닛을 포함하는, 음소 데이터베이스;
    입력된 텍스트에 대하여 운율 정보를 분석하여 타겟 음소 유닛의 타겟 운율 파라미터를 예측하는 운율 처리기;
    상기 운율 처리기에서 분석된 상기 운율 정보를 기반으로, 상기 음소 데이터베이스에 저장된 상기 음소당 하나 이상의 후보 유닛 중 특정 음소 유닛을 선택하는 유닛 선택기;
    상기 유닛 선택기에서 선택된 상기 특정 음소 유닛의 운율 파라미터를 상기 운율 처리기에서 예측된 상기 타겟 음소 유닛의 타겟 운율 파라미터가 되도록 조절하는 운율 조절기; 및
    상기 운율 조절기에서 각각 운율 파라미터가 조절된 상기 특정 음소 유닛들 간의 불연속성을 제거하여 합성음을 생성하는 음성 합성기;
    를 포함하는 음성 합성 장치.
  2. 제1항에 있어서,
    상기 음소 데이터베이스에 저장된 상기 다수의 음소 유닛들은 음성 파형의 형태 또는 파라미터 집합의 형태로 구축되는 것을 특징으로 하는 음성 합성 장치.
  3. 제1항에 있어서,
    상기 운율 파라미터는 신호 주기(pitch 또는 fundamental frequency), 에너지(energy), 또는 신호 길이(duration) 중에서 적어도 하나를 포함하는 것을 특징으로 하는 음성 합성 장치.
  4. 제1항에 있어서,
    상기 운율 조절기는 상기 선택된 음소 유닛의 신호 길이를 상기 타겟 음소 유닛의 신호 길이가 되도록 조절한 후, 상기 선택된 음소 유닛의 신호 주기 및 에너지를 각각 상기 타겟 음소 유닛의 신호 주기 및 에너지가 되도록 조절하는 것을 특징으로 하는 음성 합성 장치.
  5. 제4항에 있어서,
    상기 운율 조절기는 상기 선택된 음소 유닛의 신호 길이가 상기 타겟 음소 유닛의 신호 길이가 되도록 상기 선택된 음소 유닛을 구성하는 프레임들 중 일부를 복사하거나 삭제하는 것을 특징으로 하는 음성 합성 장치.
  6. 제4항에 있어서,
    상기 운율 조절기는
    하기 수학식을 이용하여 상기 선택된 음소 유닛의 프레임 인덱스들을 신규 프레임 인덱스들로 변환하고,
    Figure PCTKR2018012967-appb-I000003
    (상기 수학식에서, M은 타겟 음소 유닛의 전체 프레임 수, N은 선택된 음소 유닛의 전체 프레임 수, i는 선택된 음소 유닛의 프레임 인덱스, r은 반올림)
    상기 선택된 음소 유닛을 구성하는 프레임들 중 일부를 상기 신규 프레임 인덱스들에 따라 복사하거나 삭제하여 상기 선택된 음소 유닛의 신호 길이를 상기 타겟 음소 유닛의 신호 길이가 되도록 조절하는 것을 특징으로 하는 음성 합성 장치.
  7. 제1항에 있어서,
    상기 음성 합성기는
    상기 운율 조절기에서 각각 운율 파라미터가 조절된 상기 특정 음소 유닛들 중에서, 이전 음소 유닛의 마지막 프레임의 운율 파라미터와 다음 음소 유닛의 시작 프레임의 운율 파라미터를 각각 확인하고,
    상기 확인된 운율 파라미터들의 평균값을 산출하며,
    상기 산출된 운율 파라미터 평균값을 상기 마지막 프레임과 상기 시작 프레임에 각각 적용하거나, 상기 마지막 프레임과 상기 시작 프레임의 중첩 프레임에 적용하여 불연속성을 제거하는 것을 특징으로 하는 음성 합성 장치.
  8. 다수의 음소 유닛들을 저장하며, 상기 음소 유닛들이 하나의 음소당 하나 이상의 후보 유닛을 포함하는, 음소 데이터베이스를 구비하는 음성 합성 장치에 의하여 수행되는 방법으로서,
    입력된 텍스트에 대하여 운율 정보를 분석하여 타겟 음소 유닛의 타겟 운율 파라미터를 예측하는 단계;
    상기 분석된 운율 정보를 기반으로, 상기 음소 데이터베이스에 저장된 상기 음소당 하나 이상의 후보 유닛 중 특정 음소 유닛을 선택하는 단계;
    상기 선택된 특정 음소 유닛의 운율 파라미터를 상기 타겟 음소 유닛의 타겟 운율 파라미터가 되도록 조절하는 단계; 및
    각각 운율 파라미터가 조절된 상기 특정 음소 유닛들 간의 불연속성을 제거하여 합성음을 생성하는 단계;
    를 포함하는 음성 합성 방법.
  9. 제8항에 있어서,
    상기 조절하는 단계는
    상기 선택된 음소 유닛의 신호 길이를 상기 타겟 음소 유닛의 신호 길이가 되도록 조절하는 단계; 및
    이후, 상기 선택된 음소 유닛의 신호 주기 및 에너지를 각각 상기 타겟 음소 유닛의 신호 주기 및 에너지가 되도록 조절하는 단계;
    를 포함하는 것을 특징으로 하는 음성 합성 방법.
  10. 제9항에 있어서,
    상기 조절하는 단계는
    상기 선택된 음소 유닛의 신호 길이가 상기 타겟 음소 유닛의 신호 길이가 되도록 상기 선택된 음소 유닛을 구성하는 프레임들 중 일부를 복사하거나 삭제하는 단계를 포함하는 것을 특징으로 하는 음성 합성 방법.
  11. 제9항에 있어서,
    상기 조절하는 단계는
    하기 수학식을 이용하여 상기 선택된 음소 유닛의 프레임 인덱스들을 신규 프레임 인덱스들로 변환하고,
    Figure PCTKR2018012967-appb-I000004
    (상기 수학식에서, M은 타겟 음소 유닛의 전체 프레임 수, N은 선택된 음소 유닛의 전체 프레임 수, i는 선택된 음소 유닛의 프레임 인덱스, r은 반올림)
    상기 선택된 음소 유닛을 구성하는 프레임들 중 일부를 상기 신규 프레임 인덱스들에 따라 복사하거나 삭제하여 상기 선택된 음소 유닛의 신호 길이를 상기 타겟 음소 유닛의 신호 길이가 되도록 조절하는 단계를 포함하는 것을 특징으로 하는 음성 합성 방법.
  12. 제8항에 있어서,
    상기 합성음을 생성하는 단계는
    각각 운율 파라미터가 조절된 상기 특정 음소 유닛들 중에서, 이전 음소 유닛의 마지막 프레임의 운율 파라미터와 다음 음소 유닛의 시작 프레임의 운율 파라미터를 각각 확인하는 단계;
    상기 확인된 운율 파라미터들의 평균값을 산출하는 단계; 및
    상기 산출된 운율 파라미터 평균값을 상기 마지막 프레임과 상기 시작 프레임에 각각 적용하거나, 상기 마지막 프레임과 상기 시작 프레임의 중첩 프레임에 적용하여 불연속성을 제거하는 단계;
    를 포함하는 것을 특징으로 하는 음성 합성 방법.
  13. 제8항 내지 제12항 중 어느 하나의 항에 기재된 방법을 실행하는 프로그램을 기록한 컴퓨터 판독 가능한 기록매체.
PCT/KR2018/012967 2017-10-31 2018-10-30 음성 합성 장치 및 방법 WO2019088635A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US16/863,138 US11170755B2 (en) 2017-10-31 2020-04-30 Speech synthesis apparatus and method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020170143286A KR102072627B1 (ko) 2017-10-31 2017-10-31 음성 합성 장치 및 상기 음성 합성 장치에서의 음성 합성 방법
KR10-2017-0143286 2017-10-31

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US16/863,138 Continuation US11170755B2 (en) 2017-10-31 2020-04-30 Speech synthesis apparatus and method

Publications (1)

Publication Number Publication Date
WO2019088635A1 true WO2019088635A1 (ko) 2019-05-09

Family

ID=66332149

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2018/012967 WO2019088635A1 (ko) 2017-10-31 2018-10-30 음성 합성 장치 및 방법

Country Status (3)

Country Link
US (1) US11170755B2 (ko)
KR (1) KR102072627B1 (ko)
WO (1) WO2019088635A1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102072627B1 (ko) * 2017-10-31 2020-02-03 에스케이텔레콤 주식회사 음성 합성 장치 및 상기 음성 합성 장치에서의 음성 합성 방법
CN112420015A (zh) * 2020-11-18 2021-02-26 腾讯音乐娱乐科技(深圳)有限公司 一种音频合成方法、装置、设备及计算机可读存储介质
CN112802444B (zh) * 2020-12-30 2023-07-25 科大讯飞股份有限公司 语音合成方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1091183A (ja) * 1996-04-30 1998-04-10 Microsoft Corp 言語合成のためのランタイムアコースティックユニット選択方法及び装置
KR20030035522A (ko) * 2001-10-31 2003-05-09 삼성전자주식회사 스무딩 필터를 이용한 음성 합성 시스템 및 그 방법
KR20040070505A (ko) * 2003-02-03 2004-08-11 엘지전자 주식회사 휴대폰에서의 음성 합성방법
KR20050088705A (ko) * 2004-03-02 2005-09-07 엘지전자 주식회사 음성합성 방법
KR20060008330A (ko) * 2003-06-05 2006-01-26 가부시키가이샤 캔우드 음성 합성 장치, 음성 합성 방법 및 프로그램

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6625576B2 (en) * 2001-01-29 2003-09-23 Lucent Technologies Inc. Method and apparatus for performing text-to-speech conversion in a client/server environment
KR101056567B1 (ko) 2004-09-23 2011-08-11 주식회사 케이티 코퍼스 기반 음성 합성기에서의 합성 유닛 선택 장치 및그 방법
US20060229877A1 (en) * 2005-04-06 2006-10-12 Jilei Tian Memory usage in a text-to-speech system
US7269561B2 (en) * 2005-04-19 2007-09-11 Motorola, Inc. Bandwidth efficient digital voice communication system and method
US20070106513A1 (en) * 2005-11-10 2007-05-10 Boillot Marc A Method for facilitating text to speech synthesis using a differential vocoder
KR102072627B1 (ko) * 2017-10-31 2020-02-03 에스케이텔레콤 주식회사 음성 합성 장치 및 상기 음성 합성 장치에서의 음성 합성 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1091183A (ja) * 1996-04-30 1998-04-10 Microsoft Corp 言語合成のためのランタイムアコースティックユニット選択方法及び装置
KR20030035522A (ko) * 2001-10-31 2003-05-09 삼성전자주식회사 스무딩 필터를 이용한 음성 합성 시스템 및 그 방법
KR20040070505A (ko) * 2003-02-03 2004-08-11 엘지전자 주식회사 휴대폰에서의 음성 합성방법
KR20060008330A (ko) * 2003-06-05 2006-01-26 가부시키가이샤 캔우드 음성 합성 장치, 음성 합성 방법 및 프로그램
KR20050088705A (ko) * 2004-03-02 2005-09-07 엘지전자 주식회사 음성합성 방법

Also Published As

Publication number Publication date
US11170755B2 (en) 2021-11-09
KR20190048371A (ko) 2019-05-09
US20200335080A1 (en) 2020-10-22
KR102072627B1 (ko) 2020-02-03

Similar Documents

Publication Publication Date Title
CN112863483B (zh) 支持多说话人风格、语言切换且韵律可控的语音合成装置
EP0831460B1 (en) Speech synthesis method utilizing auxiliary information
CA2351842C (en) Synthesis-based pre-selection of suitable units for concatenative speech
EP3994683B1 (en) Multilingual neural text-to-speech synthesis
KR101076202B1 (ko) 음성 합성 장치, 음성 합성 방법 및 프로그램이 기록된 기록 매체
WO2019088635A1 (ko) 음성 합성 장치 및 방법
CN106971709A (zh) 统计参数模型建立方法和装置、语音合成方法和装置
CN101131818A (zh) 语音合成装置与方法
KR20220054655A (ko) 음성 합성 방법 및 장치, 저장 매체
WO2011152575A1 (ko) 발음기관 애니메이션 생성 장치 및 방법
JP2001282277A (ja) 音声情報処理装置及びその方法と記憶媒体
WO2018236015A1 (ko) 가창 표현 이식 시스템
US9020821B2 (en) Apparatus and method for editing speech synthesis, and computer readable medium
CA2661890C (en) Speech synthesis
JP6849977B2 (ja) テキスト表示用同期情報生成装置および方法並びに音声認識装置および方法
CN112686041A (zh) 一种拼音标注方法及装置
WO2019156427A1 (ko) 발화된 단어에 기초하여 화자를 식별하기 위한 방법 및 그 장치, 문맥 기반 음성 모델 관리 장치 및 그 방법
JP3685648B2 (ja) 音声合成方法及び音声合成装置、並びに音声合成装置を備えた電話機
Martens et al. Word Segmentation in the Spoken Dutch Corpus.
KR20180103273A (ko) 음성 합성 장치 및 음성 합성 방법
JPH11231899A (ja) 音声・動画像合成装置及び音声・動画像データベース
JP2000231396A (ja) セリフデータ作成装置、セリフ再生装置、音声分析合成装置及び音声情報転送装置
Tams et al. Intonation for synthesis of speaking styles
Сатыбалдиыева et al. Analysis of methods and models for automatic processing systems of speech synthesis
CN117894294A (zh) 拟人化的副语言语音合成方法及系统

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18873945

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18873945

Country of ref document: EP

Kind code of ref document: A1