WO2018003849A1 - 音声合成装置および音声合成方法 - Google Patents

音声合成装置および音声合成方法 Download PDF

Info

Publication number
WO2018003849A1
WO2018003849A1 PCT/JP2017/023739 JP2017023739W WO2018003849A1 WO 2018003849 A1 WO2018003849 A1 WO 2018003849A1 JP 2017023739 W JP2017023739 W JP 2017023739W WO 2018003849 A1 WO2018003849 A1 WO 2018003849A1
Authority
WO
WIPO (PCT)
Prior art keywords
speech
spectrum envelope
statistical
envelope
unit
Prior art date
Application number
PCT/JP2017/023739
Other languages
English (en)
French (fr)
Inventor
久湊 裕司
竜之介 大道
慶二郎 才野
ジョルディ ボナダ
メルレイン ブラアウ
Original Assignee
ヤマハ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ヤマハ株式会社 filed Critical ヤマハ株式会社
Priority to EP17820203.2A priority Critical patent/EP3480810A4/en
Priority to CN201780040606.XA priority patent/CN109416911B/zh
Publication of WO2018003849A1 publication Critical patent/WO2018003849A1/ja
Priority to US16/233,421 priority patent/US11289066B2/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • G10L13/07Concatenation rules

Definitions

  • the present invention relates to a technology for synthesizing speech.
  • Patent Document 1 discloses a unit connection type speech synthesis that generates synthesized speech by connecting speech units selected according to a target phoneme among a plurality of speech units.
  • Patent Document 2 discloses that a synthesized speech is generated by generating a series of spectral parameters expressing vocal tract characteristics using an HMM (Hidden Markov Model) and processing an excitation signal using a synthesis filter having a frequency characteristic corresponding to the spectral parameters.
  • HMM Hidden Markov Model
  • an object of the present invention is to generate high-quality synthesized speech having a desired voice quality while reducing the storage capacity necessary for speech synthesis.
  • a speech synthesis method includes an acquisition step of sequentially acquiring a plurality of speech segments according to a speech synthesis instruction, and a statistics corresponding to the synthesis instruction.
  • a speech synthesizer includes a segment acquisition unit that sequentially acquires a plurality of speech segments according to a speech synthesis instruction, and a statistical spectrum envelope according to the synthesis instruction generated by a statistical model Connecting the plurality of sequentially obtained speech units, and changing the frequency spectrum envelope of each speech unit according to the generated statistical spectrum envelope, the change And a speech synthesizer that synthesizes a speech signal based on the connected speech segments having the frequency spectrum.
  • FIG. 1 is a block diagram of a speech synthesizer 100 according to the first embodiment of the present invention.
  • a speech synthesizer 100 according to the first embodiment is a signal processing device that synthesizes speech of a desired phoneme (pronunciation content), and a computer including a control device 12, a storage device 14, an input device 16, and a sound emitting device 18. Realized by the system.
  • a portable terminal device such as a mobile phone or a smartphone, or a portable or stationary terminal device such as a personal computer can be used as the speech synthesizer 100.
  • the speech synthesizer 100 according to the first embodiment generates an audio signal V of a voice singing a specific music piece (hereinafter referred to as “music piece A”).
  • music piece A a specific music piece
  • the speech synthesizer 100 is realized as a single device, and is also realized as a set of a plurality of devices (that is, a computer system) configured separately from each other.
  • the control device 12 includes a processing circuit such as a CPU (Central Processing Unit) and controls each element of the speech synthesizer 100 in an integrated manner.
  • the input device 16 is an operating device that receives an instruction from a user. For example, an operator that can be operated by a user or a touch panel that detects contact with a display surface of a display device (not shown) is preferably used as the input device 16.
  • the sound emitting device 18 (for example, a speaker or headphones) reproduces sound corresponding to the acoustic signal V generated by the speech synthesis device 100.
  • the D / A converter that converts the acoustic signal V from digital to analog is not shown for convenience.
  • the storage device 14 stores a program executed by the control device 12 and various data used by the control device 12.
  • a known recording medium such as a semiconductor recording medium or a magnetic recording medium, or a combination of a plurality of types of recording media can be arbitrarily employed as the storage device 14.
  • the storage device 14 (for example, cloud storage) is installed separately from the speech synthesizer 100, and the control device 12 performs reading or writing to the storage device 14 via a mobile communication network or a communication network such as the Internet. It is also possible. That is, the storage device 14 can be omitted from the speech synthesizer 100.
  • the storage device 14 of the first embodiment stores a speech unit group L, synthesis information D, and a statistical model M as illustrated in FIG.
  • the speech segment group L is a set of segment data (speech synthesis library) representing each of a plurality of speech segments PA recorded in advance from speech produced by a specific speaker (hereinafter referred to as “speaker B”). ).
  • Each speech element PA of the first embodiment is collected from a sound produced by the speaker B with a standard voice quality (hereinafter referred to as “first voice quality”).
  • Each speech element PA is, for example, a single phoneme such as a vowel or a consonant, or a phoneme chain (for example, a diphone or a triphone) in which a plurality of phonemes are connected.
  • a speech unit PA having a sufficiently high time resolution or frequency resolution is recorded in the speech unit group L.
  • the unit data of an arbitrary speech unit PA includes a frequency spectrum QA and a spectrum envelope (for each unit section (frame) obtained by dividing the speech unit PA on the time axis.
  • the frequency spectrum QA is, for example, a complex spectrum (or its polar form representation) of the speech unit PA.
  • the element spectrum envelope X is an envelope representing an outline of the frequency spectrum QA.
  • the segment spectrum envelope X can be calculated from the frequency spectrum QA, a configuration in which the segment spectrum envelope X is not included in the segment data can be adopted in principle.
  • it is not always easy to uniquely calculate a suitable segment spectrum envelope X from the frequency spectrum QA actually, the data representing the segment spectrum envelope X together with the data representing the frequency spectrum QA is converted into the segment data.
  • the included configuration is preferred.
  • the fragment spectrum envelope X includes a smoothing component X1 with a slow temporal and / or frequency fluctuation and a fine fluctuation component X2 that fluctuates faster than the smoothing component X1.
  • the smoothing component X1 includes a spectrum envelope X0 obtained by smoothing the frequency spectrum QA with a predetermined smoothness in the frequency axis direction, a smoothing in the frequency axis direction with a higher smoothness, and a predetermined smoothness. And smoothing in the time axis direction or smoothing both.
  • the fluctuation component X2 is obtained by subtracting the fluctuation component X1 from the spectrum envelope X0.
  • the smoothing component X1 and the fluctuation component X2 can be expressed by any feature amount such as a line spectrum pair coefficient or an amplitude value for each frequency.
  • the smooth component X1 is preferably expressed by a line spectrum pair coefficient
  • the fluctuation component X2 is preferably expressed by an amplitude value for each frequency.
  • the synthesis information D in FIG. 1 is data (speech synthesis instruction) for instructing synthesis contents by the speech synthesizer 100.
  • the synthesis information D specifies a pitch DA and a phoneme DB for each of a plurality of notes constituting the music piece A.
  • the pitch DA is a note number of MIDI (Musical Instrument Digital Interface), for example.
  • the phoneme DB is the pronunciation content (that is, the lyrics of the music piece A) by synthesized speech, and is described by grapheme or phonetic symbols, for example.
  • the composite information D is generated and changed according to an instruction from the user to the input device 16. It is also possible to store the composite information D distributed from the distribution server device via the communication network in the storage device 14.
  • the statistical model M is a mathematical model for statistically estimating the temporal change of the spectrum envelope (hereinafter referred to as “statistic spectrum envelope”) Y of speech having a voice quality different from that of the speech unit PA according to the synthesis information D.
  • the statistical model M of the first embodiment is a context-dependent model including a transition model for each attribute (context) specified according to the synthesis information D.
  • the attribute specified here is, for example, any one or any two or all of pitch, volume, and phoneme.
  • the transition model is an HMM (Hidden Markov Model) described in a plurality of states.
  • a statistical value (specifically, an average vector and a covariance matrix) that defines a probability distribution (occurrence probability distribution) of the occurrence probability of the statistical spectrum envelope Y is set.
  • This statistic may be a statistic that defines the temporal transition of the state.
  • the statistical value for each state of each transition model is stored in the storage device 14 as the statistical model M.
  • the attributes of the transition model may include phoneme information immediately before or after the phoneme in addition to the phoneme information (pitch, volume, phoneme, etc.) at each time point.
  • the statistical model M is generated in advance by machine learning using the spectral envelopes of a large number of sounds produced by a speaker B with a certain voice quality as learning data.
  • a transition model corresponding to an arbitrary attribute has a spectral envelope of a voice classified into that attribute among a large number of voices produced by the speaker B with that voice quality.
  • the voice used as learning data for the machine learning of the statistical model M is a voice produced by the speaker B with a voice quality different from the first voice quality of the speech segment PA (hereinafter referred to as “second voice quality”).
  • the second voice quality specifically, any of voices that the speaker B pronounces stronger than the first voice quality, voices that are more gently pronounced, voices that are brighter, voices that are pronounced more ambiguously, etc. Is used for machine learning of the statistical model M. That is, the statistical tendency of the spectrum envelope of the sound produced by any one of the second voice qualities is modeled as a statistical value for each attribute by the statistical model M. Therefore, if this statistical model is used, the statistical spectrum envelope Y of the voice of the second voice quality is estimated.
  • the statistical model M has a sufficiently small data amount compared to the speech unit group L.
  • the statistical model M is provided separately from the speech unit group L, for example, as additional data for the standard speech unit group L of the first voice quality.
  • FIG. 3 is a block diagram focusing on the function of the control device 12 in the first embodiment.
  • the control device 12 executes a program stored in the storage device 14 to generate a plurality of functions (elements) for generating an acoustic signal V of synthesized speech corresponding to the synthesized information D.
  • the acquisition unit 20, the envelope generation unit 30, and the speech synthesis unit 40) are realized.
  • a configuration in which a plurality of devices realize the function of the control device 12 or a configuration in which a dedicated electronic circuit shares a part of the function of the control device 12 may be employed.
  • the segment acquisition unit 20 sequentially acquires speech segments PB corresponding to the synthesis information D. Specifically, the segment acquisition unit 20 generates the speech segment PB by adjusting the speech segment PA corresponding to the phoneme DB specified by the synthesis information D to the pitch DA specified by the synthesis information D. . As illustrated in FIG. 3, the segment acquisition unit 20 of the first embodiment includes a segment selection unit 22 and a segment processing unit 24.
  • the segment selection unit 22 sequentially selects a speech unit PA corresponding to the phoneme DB specified by the synthesis information D for each note from the speech unit group L of the storage device 14. A plurality of speech units PA having different pitches can be registered in the speech unit group L. The segment selection unit 22 selects a speech unit PA having a pitch close to the pitch DA specified by the synthesis information D from among a plurality of speech units PA having different pitches corresponding to the phoneme DB specified by the synthesis information D. select.
  • the segment processing unit 24 adjusts the pitch of the speech segment PA selected by the segment selection unit 22 to the pitch DA specified by the synthesis information D.
  • the technique described in Patent Document 1 is preferably used.
  • the segment processing unit 24 adjusts the pitch DA by expanding and contracting the frequency spectrum QA of the speech segment PA in the direction of the frequency axis as illustrated in FIG.
  • the frequency spectrum QB is generated by adjusting the intensity so that the peak of is located on the line of the segment spectrum envelope X. Therefore, the speech element PB acquired by the element acquisition unit 20 is expressed by the frequency spectrum QB and the element spectrum envelope X.
  • the content of the process executed by the segment processing unit 24 is not limited to the adjustment of the pitch of the speech segment PA.
  • the segment processing unit 24 can also perform interpolation between the speech units PA that follow each other.
  • the envelope generation unit 30 sequentially searches for a transition model of an attribute (context) according to the synthesis information D from the statistical model M, connects the retrieved statistical models to each other, and a plurality of transition models
  • the statistical spectrum envelope Y is sequentially generated for each unit interval from the time series. That is, the envelope generation unit 30 sequentially generates the spectrum envelope of the speech in which the phoneme DB specified by the synthesis information D is pronounced with the second voice quality as the statistical spectrum envelope Y.
  • the statistical spectrum envelope Y can be expressed by any kind of feature quantity such as a line spectrum pair coefficient or a low-order cepstrum coefficient.
  • the low-order cepstrum coefficient is a predetermined number of low-order coefficients derived from the resonance characteristics of the articulator such as the vocal tract, among the cepstrum coefficients that are the logarithmic Fourier transform of the power spectrum of the signal.
  • the speech synthesis unit 40 of the first embodiment includes a characteristic adjustment unit 42 and a segment connection unit 44.
  • the characteristic adjustment unit 42 approximates the envelope of the frequency spectrum QB (unit spectrum envelope X) of each speech unit PB acquired by the unit acquisition unit 20 to the statistical spectrum envelope Y generated by the envelope generation unit 30, thereby generating speech.
  • a frequency spectrum QC of the segment PC is generated.
  • the unit connection unit 44 generates the acoustic signal V by connecting the speech units PC adjusted by the characteristic adjustment unit 42 to each other.
  • the frequency spectrum QC in each frame of the speech element PC is converted into a time-domain waveform signal (a signal multiplied by a window function in the time axis direction), for example, by an operation such as short-time inverse Fourier transform.
  • the waveform signals of the preceding and following frames are added after temporally overlapping the rear part of the previous waveform signal and the front part of the subsequent waveform signal, thereby generating an acoustic signal V corresponding to a series of frames.
  • the phase spectrum of the speech element PC for example, the phase spectrum of the speech element PA or the phase spectrum calculated based on the minimum phase condition is preferably used.
  • FIG. 4 is a flowchart of the process SC1 in which the characteristic adjustment unit 42 generates the frequency spectrum QC of the speech unit PC from the frequency spectrum QB of the speech unit PB (hereinafter referred to as “characteristic adjustment process”). As illustrated in FIG. 4, the characteristic adjustment unit 42 sets the coefficient ⁇ and the coefficient ⁇ (SC11).
  • the coefficient (example of the number of complementary relations) ⁇ and coefficient ⁇ are non-negative values of 1 or less (0 ⁇ ⁇ ⁇ 1, 0 ⁇ ⁇ ⁇ 1) that are variably set according to an instruction from the user to the input device 16, for example. It is.
  • the characteristic adjustment unit 42 interpolates the segment spectral envelope X of the speech unit PB acquired by the unit acquisition unit 20 and the statistical spectrum envelope Y generated by the envelope generation unit 30 by a coefficient ⁇ to thereby obtain a spectral envelope (hereinafter referred to as a spectral envelope).
  • Z (referred to as “interpolated spectral envelope”) is generated (SC12).
  • the interpolated spectral envelope Z is a spectral envelope having an intermediate characteristic between the fragment spectral envelope X and the statistical spectral envelope Y.
  • the interpolation spectrum envelope Z is expressed by the following formulas (1) and (2).
  • Equation (2) Symbol F (C) in Equation (1) is a conversion function that converts the feature amount C calculated in Equation (2) into a spectrum envelope (that is, a series of numerical values for each frequency).
  • the characteristic adjustment unit 42 interpolates between the statistical spectrum envelope Y and the smooth component X1 of the segment spectrum envelope X ( ⁇ ⁇ cY + (1 ⁇ ) ⁇ cX1).
  • the interpolated spectrum envelope Z is calculated by adding the fluctuation component X2 of the element spectrum envelope X to a degree corresponding to the coefficient ⁇ .
  • the larger the coefficient ⁇ the more the interpolated spectrum envelope Z reflecting the statistical spectrum envelope Y is generated, and the smaller the coefficient ⁇ , the more the interpolation reflecting the segment spectral envelope X.
  • a spectral envelope Z is generated.
  • the synthesized speech acoustic signal V closer to the second voice quality is generated, and as the coefficient ⁇ is smaller (closer to the minimum value 0), the synthesized voice is closer to the first voice quality.
  • the acoustic signal V is generated.
  • the acoustic signal V of the synthesized speech in which the phoneme DB specified by the synthesis information D is pronounced with the first voice quality is generated.
  • the interpolated spectral envelope Z is generated from the segment spectral envelope X and the statistical spectral envelope Y, and the spectral envelope of the speech in which one of the first voice quality and the second voice quality is brought close to the other (that is, Corresponds to a spectral envelope in which one of the fragment spectral envelope X and the statistical spectral envelope Y is brought close to the other).
  • the interpolated spectral envelope Z is also a spectral envelope including the characteristics of both the fragment spectral envelope X and the statistical spectral envelope Y, or a spectral envelope that combines the characteristics of both the spectral spectral envelope X and the statistical spectral envelope Y. Can be done.
  • the smooth component X1 and the statistical spectrum envelope Y of the segment spectrum envelope X can be expressed by different types of feature quantities.
  • the feature quantity cX1 representing the smooth component X1 of the segment spectrum envelope X is a line spectrum pair coefficient
  • the feature quantity cY representing the statistical spectrum envelope Y is a low-order cepstrum coefficient
  • G (cY) in Expression (2a) is a conversion function for converting the feature quantity cY, which is a low-order cepstrum coefficient, into a line spectrum pair coefficient of the same type as the feature quantity cX1.
  • the characteristic adjustment unit 42 brings the frequency spectrum QB of each speech unit PB acquired by the unit acquisition unit 20 close to the interpolated spectrum envelope Z generated by the above procedure (SC11 and SC12). A frequency spectrum QC is generated (SC13). Specifically, the characteristic adjustment unit 42 adjusts the intensity of the frequency spectrum QB so that each peak of the frequency spectrum QB is located on the line of the interpolation spectrum envelope Z as illustrated in FIG. Is generated.
  • the specific example of the process in which the characteristic adjusting unit 42 generates the speech unit PC from the speech unit PB is as described above.
  • FIG. 5 is a flowchart of a process S (hereinafter referred to as “speech synthesis process”) S for generating an acoustic signal V of synthesized speech corresponding to the synthesis information D.
  • speech synthesis process S for generating an acoustic signal V of synthesized speech corresponding to the synthesis information D.
  • the segment acquisition unit 20 sequentially acquires speech segments PB corresponding to the synthesis information D (SA). Specifically, the unit selection unit 22 selects a speech unit PA corresponding to the phoneme DB specified by the synthesis information D from the speech unit group L (SA1). The segment processing unit 24 generates the speech unit PB by adjusting the pitch of the speech unit PA selected by the unit selection unit 22 to the pitch DA specified by the synthesis information D (SA2). On the other hand, the envelope generation unit 30 generates a statistical spectrum envelope Y corresponding to the synthesis information D using the statistical model M (SB).
  • SB statistical model M
  • the order of acquisition of the speech segment PB by the segment acquisition unit 20 (SA) and generation of the statistical spectrum envelope Y by the envelope generation unit 30 (SB) is arbitrary, and after generation of the statistical spectrum envelope Y (SB) It is also possible to acquire (SA) the speech segment PB.
  • the speech synthesizer 40 generates a synthesized speech acoustic signal V according to the speech segment PB acquired by the segment acquisition unit 20 and the statistical spectrum envelope Y generated by the envelope generator 30 (SC). Specifically, the characteristic adjustment unit 42 envelops the frequency spectrum QB of each speech element PB acquired by the element acquisition unit 20 by the characteristic adjustment processing SC1 illustrated in FIG. 4 (element spectrum envelope X). Generates a frequency spectrum QC modified so as to approach the statistical spectrum envelope Y.
  • the segment connecting unit 44 generates the acoustic signal V by connecting the speech segments PC adjusted by the characteristic adjusting unit 42 to each other (SC2). The acoustic signal V generated by the speech synthesizer 40 (element connection unit 44) is supplied to the sound emitting device 18.
  • the speech synthesis process S ends.
  • the acoustic signal V is generated. That is, it is possible to generate synthesized speech that is close to the second voice quality. Therefore, the storage capacity of the storage device 14 necessary for generating a synthesized voice having a desired voice quality is reduced as compared with a configuration in which a voice segment PA is prepared for each voice quality.
  • the configuration in which the synthesized speech is generated by the statistical model M it is possible to generate a high-quality synthesized speech using the speech unit PA having a high time resolution or frequency resolution.
  • the interpolated spectrum envelope Z is obtained by interpolating between the segment spectrum envelope X (original frequency spectrum) of the speech segment PB and the statistical spectrum envelope Y based on the variable coefficient ⁇ ,
  • the frequency spectrum QB of the speech element PB is processed so that the envelope becomes the interpolation spectrum Z.
  • the coefficient (weight value) ⁇ applied to the interpolation between the segment spectral envelope X and the statistical spectral envelope Y is variably set, the frequency spectrum QB of the speech segment PB is changed to the statistical spectral envelope Y. It is possible to change the degree of approach (degree of adjustment of voice quality).
  • the segment spectral envelope X (original frequency spectral envelope) includes a smoothing component X1 whose temporal fluctuation is slow and a fluctuation component X2 which varies finely compared to the smoothing component X1.
  • the characteristic adjustment unit 42 calculates the interpolated spectrum envelope Z by adding the fluctuation component X2 to the spectrum envelope obtained by interpolating between the statistical spectrum envelope Y and the smooth component X1.
  • the interpolated spectrum envelope Z is calculated by adding the fluctuation component X2 to the smooth spectrum envelope obtained by the interpolation, it is possible to calculate the interpolated spectrum envelope Z that appropriately reflects the fluctuation component X2. Is possible.
  • the smooth component X1 of the segment spectrum envelope X is expressed by a line spectrum pair coefficient
  • the variation component X2 of the segment spectrum envelope X is expressed by an amplitude value for each frequency
  • the statistical spectrum envelope Y is expressed by a low-order cepstrum coefficient. Is done.
  • the segment spectrum envelope X and the statistical spectrum envelope Y are expressed by different types of feature quantities, it is possible to use feature quantities appropriate for each of the segment spectrum envelope X and the statistical spectrum envelope Y. There are advantages.
  • the coefficient values are in order from the lower order side to the higher order side of the line spectrum pair coefficient.
  • the relationship of increasing will be broken.
  • a configuration in which the statistical spectrum envelope Y is expressed by a low-order cepstrum coefficient is particularly suitable.
  • Second Embodiment A second embodiment of the present invention will be described.
  • symbol used by description of 1st Embodiment is diverted, and each detailed description is abbreviate
  • FIG. 6 is a block diagram focusing on the function of the speech synthesizer 100 of the second embodiment.
  • the storage device 14 of the speech synthesizer 100 of the second embodiment includes a plurality of different speech units B in addition to the speech unit group L and the synthesis information D similar to those of the first embodiment.
  • a plurality (K) of statistical models M [1] to M [K] corresponding to the second voice quality are stored.
  • a plurality of statistical models M [, including a statistical model of speech strongly pronounced by speaker B, a statistical model of speech that is gently pronounced, a statistical model of speech that is pronounced brightly, a statistical model of speech that is pronounced ambiguously, etc. 1] to M [K] are stored in the storage device 14.
  • the total data amount of the K statistical models M [1] to M [K] is smaller than the data amount of the speech unit group L.
  • the envelope generation unit 30 of the second embodiment generates the statistical spectrum envelope Y by selectively using any of the K statistical models M [1] to M [K] stored in the storage device 14. For example, the envelope generation unit 30 generates the statistical spectrum envelope Y using the statistical model M [k] of the second voice quality selected by the user through the operation on the input device 16. The operation in which the envelope generation unit 30 generates the statistical spectrum envelope Y using the statistical model M [k] is the same as in the first embodiment.
  • the configuration in which the speech synthesizer 40 generates the acoustic signal V according to the same is the same as in the first embodiment.
  • the same effect as in the first embodiment is realized.
  • any one of the K statistical models M [1] to M [K] is selectively used for generating the statistical spectrum envelope Y, only one statistical model M is used.
  • synthesized voices with various voice qualities can be generated as compared with the configuration.
  • the statistical model M [k] of the second voice quality selected by the user by the operation on the input device 16 is used for generating the statistical spectrum envelope Y, the user's intention or preference is met.
  • synthesized voice of voice quality can be generated.
  • the frequency spectrum QB of each speech unit PB is connected to each other in the time domain after being close to the statistical spectrum envelope Y, but the sound corresponding to the speech unit PB and the statistical spectrum envelope Y is used.
  • the configuration and method for generating the signal V are not limited to the above examples.
  • the speech synthesizer 40 in FIG. 7 includes a segment connection unit 46 and a characteristic adjustment unit 48.
  • the segment connection unit 46 generates an acoustic signal V0 by connecting the speech segments PB acquired by the segment acquisition unit 20 to each other.
  • the unit connection unit 46 converts the frequency spectrum QB in each frame of the speech unit PB into a signal in the time domain, and adds a series of successive signals by overlapping each other.
  • An acoustic signal V0 corresponding to the frame is generated.
  • the acoustic signal V0 is a time domain signal representing the synthesized voice of the first voice quality.
  • the acoustic signal V by adding the frequency characteristic of the statistical spectrum envelope Y to the acoustic signal V0 in the time domain.
  • a filter whose frequency response is variably set according to the frequency spectrum envelope of the difference between the statistical spectrum envelope Y and the smooth component X 1 is preferably used as the characteristic adjustment unit 48.
  • the acoustic signal V representing the synthesized speech of the second voice quality is generated as in the above-described embodiments.
  • the speech synthesizer 40 having the configuration illustrated in FIG. 8 includes a segment interpolation unit 52, a characteristic adjustment unit 54, and a waveform synthesis unit 56.
  • the segment interpolation unit 52 performs an interpolation process on each speech segment PB acquired by the segment acquisition unit 20. Specifically, the frequency spectrum QB interpolation process and the segment spectrum envelope X interpolation process are performed in the frequency domain between adjacent speech elements PB. Interpolation processing of the frequency spectrum QB is performed by changing the frequency spectrum QB between the two speech units PB so that the frequency spectrum continuously changes at the connecting portion of the two speech units PB that are temporally adjacent to each other. Interpolation (for example, crossfade) processing.
  • the interpolation processing of the segment spectral envelope X is performed between the two speech units PB so that the spectral envelope continuously changes at the connecting portion of the two adjacent speech units PB.
  • This is a process of interpolating (for example, crossfading) each of the smoothing component X1 and the fluctuation component X2 of the envelope X.
  • the unit interpolation unit 52 can be rephrased as a process of connecting the adjacent speech units PB to each other in the frequency domain.
  • the waveform synthesizer 56 in FIG. 8 generates the time domain acoustic signal V from the time series of the plurality of frequency spectra QC generated by the characteristic adjusting unit 54.
  • the speech synthesizer 40 is a speech in which the speech segments PB acquired by the segment acquisition unit 20 are connected to each other, and each speech segment PB is corresponding to the statistical spectrum envelope Y. Is comprehensively expressed as an element that generates the acoustic signal V of the synthesized speech adjusted. That is, the speech synthesizing unit 40 connects the speech units PB acquired sequentially by the unit acquisition unit 20, and the frequency spectrum envelopes (units) of each speech unit PB according to the statistical spectrum envelope Y. It is represented generically as an element that synthesizes a speech signal based on connected speech segments having a modified spectral envelope X) and having a modified frequency spectrum.
  • the speech synthesizer 40 for example, [A] Elements for connecting the speech units PC after adjustment in the time domain after adjusting the speech units PB according to the statistical spectrum envelope Y (FIG. 3) May be, [B] Elements that give frequency characteristics corresponding to the statistical spectrum envelope Y after the speech segments PB are connected to each other in the time domain (FIG. 7). Or may be [C] An element that converts a plurality of speech segments PB in the frequency domain (specifically, interpolation) and adjusts them according to the statistical spectrum envelope Y and then converts them into the time domain (FIG. 8). It may be.
  • the speech segment PB may be connected in the time domain after being adjusted in the frequency domain according to the statistical spectrum envelope Y.
  • the speech segments PB may be connected in the time domain before the frequency characteristics corresponding to the statistical spectrum envelope Y are given in the time domain.
  • the speech segment PB may be connected (interpolated) in the frequency domain before being adjusted in the frequency domain according to the statistical spectrum envelope Y.
  • the frequency spectrum envelope of each speech unit PB may be changed before being connected in the time domain.
  • the frequency spectrum envelope is changed by adding a frequency characteristic corresponding to the statistical spectrum envelope Y in the time domain.
  • each speech element PB may be connected (interpolated) in the frequency domain, and then the frequency spectrum envelope may be changed.
  • the case where the speaker of the speech unit PA and the speaker of the speech for learning the statistical model M are the same person B is exemplified.
  • the speech for learning the statistical model M It is also possible to use the voice of another person E from the speaker B of the speech unit PA.
  • the statistical model M is generated by machine learning using the voice of the speaker B as learning data, but the method of generating the statistical model M is not limited to the above examples.
  • a statistical model using a small number of learning data of the speaker B is adaptively used by using a statistical model generated by machine learning using the spectral envelope of the voice of the speaker E other than the speaker B as learning data. It is also possible to generate the statistical model M of the speaker B by correcting.
  • the statistical model M is generated by machine learning using the spectral envelope of the voice of the speaker B classified for each attribute as learning data.
  • the statistical spectral envelope Y is obtained by a method other than the statistical model M. Can also be generated.
  • a configuration in which a plurality of statistical spectrum envelopes Y corresponding to different attributes are stored in advance in the storage device 14 (hereinafter referred to as “modified configuration”) may be employed.
  • the statistical spectral envelope Y of any one attribute is, for example, an average of spectral envelopes over a plurality of voices classified into that attribute among a large number of voices produced by a speaker B with a certain voice quality.
  • the envelope generation unit 30 sequentially selects the statistical spectrum envelope Y of the attribute according to the synthesis information D from the storage device 14, and the speech synthesizer 40 selects the statistical spectrum envelope Y and the speech unit as in the first embodiment.
  • An acoustic signal V corresponding to PB is generated.
  • the modified configuration it is not necessary to generate the statistical spectrum envelope Y using the statistical model M.
  • the statistical spectrum envelope Y can be a characteristic smoothed in the direction of the time axis and the frequency axis.
  • each form in which the statistical spectrum envelope Y is generated using the statistical model M described above maintains a fine structure in the direction of the time axis and the frequency axis (that is, smoothing is suppressed).
  • the statistical spectrum envelope Y can be generated.
  • the configuration in which the synthesis information D designates the pitch DA and the phoneme DB for each note has been exemplified, but the content of the synthesis information D is not limited to the above examples.
  • the volume (dynamics) can be specified by the synthesis information D.
  • the segment processing unit 24 adjusts the volume of the speech segment PA selected by the segment selection unit 22 to the volume specified by the synthesis information D. Further, a plurality of speech units PA having the same phoneme but different in volume are recorded in the speech unit group L, and the synthesis information D among the plurality of speech units PA corresponding to the phoneme DB specified by the synthesis information D is recorded.
  • the segment selection unit 22 may select a speech unit PA having a volume close to the volume designated by the unit.
  • each speech segment PB is adjusted according to the statistical spectrum envelope Y over the entire section of the song A.
  • the adjustment of the speech segment PB using the statistical spectrum envelope Y is performed in the song A. It is also possible to selectively execute a part of the section (hereinafter referred to as “adjustment section”).
  • the adjustment section is, for example, a section specified by the user by an operation on the input device 16 in the music A, or a section in which the start point and the end point are specified by the synthesis information D in the music A.
  • the characteristic adjustment unit (42, 48 or 54) performs adjustment using the statistical spectrum envelope Y on each speech unit PB in the adjustment section.
  • an acoustic signal V (that is, an acoustic signal V in which the statistical spectrum envelope Y is not reflected) obtained by connecting a plurality of speech segments PB to each other is output from the speech synthesizer 40.
  • the structure which performs the adjustment of the speech segment PB using the statistical spectrum envelope Y about each of several different adjustment sections in the music A is also assumed.
  • the adjustment in the music piece A is performed.
  • the statistical model M [k] applied to the adjustment of the speech element PB can be made different for each section.
  • the start point and end point of each of the plurality of adjustment sections and the statistical model M [k] applied to each adjustment section are specified by, for example, the synthesis information D.
  • the feature quantity expressing the fragment spectrum envelope X and the statistical spectrum envelope Y is not limited to the examples (line spectrum pair coefficient or low-order cepstrum coefficient) in the above-described embodiments.
  • the fragment spectrum envelope X or the statistical spectrum envelope Y can be expressed by a series of amplitude values for each frequency. It is also possible to express the fragment spectrum envelope X or the statistical spectrum envelope Y with an EpR (Excitation Resonance) parameter that approximates the vibration characteristics of the vocal cords and the resonance characteristics of the articulator.
  • EpR Excitation Resonance
  • the EpR parameter is disclosed in, for example, Japanese Patent No. 3711880 or Japanese Patent Laid-Open No. 2007-226174.
  • the unit spectrum envelope X or the statistical spectrum envelope Y may be expressed by a weighted sum of a plurality of normal distributions (that is, a Gaussian mixture model).
  • the speech synthesizer 100 may be realized by a server device that communicates with a terminal device (for example, a mobile phone or a smartphone) via a mobile communication network or a communication network such as the Internet.
  • a terminal device for example, a mobile phone or a smartphone
  • the speech synthesizer 100 generates the acoustic signal V by the speech synthesis process S to which the synthesis information D received from the terminal device is applied, and transmits the acoustic signal V to the requesting terminal device.
  • the speech synthesizer 100 exemplified in the above embodiments can be realized by the cooperation of the control device 12 and the program as described above.
  • the program illustrated in each of the above-described forms includes a segment acquisition unit 20 that sequentially acquires speech segments PB corresponding to the synthesis information D that indicates the synthesis content, and a statistical spectrum envelope Y corresponding to the synthesis information D as a statistical model M.
  • the speech generation unit 30 and the speech unit PB acquired by the segment acquisition unit 20 are connected to each other, and the speech is generated according to the statistical spectrum envelope Y generated by the envelope generation unit 30.
  • the computer (for example, the control device 12) is caused to function as the speech synthesizer 40 that generates the acoustic signal V of the synthesized speech with the segment PB adjusted.
  • the programs exemplified above can be provided in a form stored in a computer-readable recording medium and installed in the computer.
  • the recording medium is, for example, a non-transitory recording medium, and an optical recording medium (optical disk) such as a CD-ROM is a good example, but a known arbitrary one such as a semiconductor recording medium or a magnetic recording medium This type of recording medium can be included.
  • the non-transitory recording medium includes an arbitrary recording medium excluding a transient propagation signal (transitory, “propagating signal”) and does not exclude a volatile recording medium.
  • the program may be provided to the computer in the form of distribution via a communication network.
  • a preferred aspect of the present invention can also be specified as an operation method (speech synthesis method) of the speech synthesizer 100 according to each of the above-described embodiments.
  • a computer system single computer or a plurality of computers sequentially acquires speech segments PB corresponding to synthesis information D instructing synthesis content, and a statistical spectrum corresponding to the synthesis information D
  • An envelope Y is generated by the statistical model M, and the acquired speech units PB are connected to each other, and a synthesized speech acoustic signal V obtained by adjusting each speech unit PB according to the statistical spectrum envelope Y is obtained.
  • a speech synthesis method includes an acquisition step of sequentially acquiring a plurality of speech units according to a speech synthesis instruction, and a statistical model of a statistical spectrum envelope according to the synthesis instruction. And generating a frequency spectrum envelope of each speech unit in accordance with the generated statistical spectrum envelope Modifying and synthesizing a speech signal based on the connected speech segments having the modified frequency spectrum.
  • synthesized speech in which speech units are connected to each other and each speech unit is adjusted in accordance with the statistical spectrum envelope generated by the statistical model (for example, close to the voice quality modeled by the statistical model) (Synthesized speech) acoustic signal is generated. Therefore, as compared with a configuration in which a speech unit is prepared for each voice quality, a storage capacity necessary for generating a synthesized voice having a desired voice quality is reduced. In addition, it is possible to generate high-quality synthesized speech using speech segments with high time resolution or frequency resolution compared to a configuration in which synthesized speech is generated with a statistical model without using speech segments. .
  • the synthesizing step modifies a frequency spectrum envelope of each speech element so as to approach the statistical spectrum envelope; Connecting a speech unit.
  • the changing step interpolates between the original frequency spectrum envelope of each speech unit and the statistical spectrum envelope based on a variable interpolation coefficient, thereby interpolating the spectrum envelope. And the original frequency spectrum envelope of each speech unit is changed based on the obtained interpolation spectrum envelope.
  • the interpolation coefficient (weight value) applied to the interpolation between the original frequency spectrum envelope (element spectrum envelope) and the statistical spectrum envelope is set variably, the frequency spectrum of the speech element is changed to the statistical spectrum.
  • the original frequency spectrum envelope includes a smoothing component whose temporal fluctuation is slow, and a fine fluctuation component which fluctuates faster than the smoothing component
  • the interpolated spectral envelope is calculated by adding the fluctuation component to a spectral envelope obtained by interpolating between the statistical spectral envelope and the smooth component.
  • the interpolation spectrum envelope is calculated by adding the fluctuation component to the interpolation between the statistical spectrum envelope and the smooth component of the original frequency spectrum envelope (element spectrum envelope).
  • An appropriately contained interpolated spectral envelope can be calculated.
  • the synthesizing step includes a connection step of connecting the plurality of sequentially obtained speech units in the time domain, and a speech unit connected in the time domain. And changing the frequency spectrum envelope by applying frequency characteristics of the statistical spectrum envelope in the time domain.
  • the synthesizing step includes a connection step of interpolating and connecting speech elements that are temporally contiguous in the frequency domain for the plurality of sequentially obtained speech elements. And changing the frequency spectrum envelope of the connected speech unit to approach the statistical spectrum envelope.
  • the frequency spectrum envelope and the statistical spectrum envelope are expressed by different feature quantities.
  • a feature amount including a parameter in the frequency axis direction is preferably employed.
  • the smooth component of the segment spectral envelope is preferably expressed by a feature quantity such as a line spectrum pair coefficient, an EpR (Excitation plus Resonance) parameter, or a weighted sum of a plurality of normal distributions (ie, Gaussian mixture model).
  • the fluctuation component of the unit spectrum envelope is expressed by a feature quantity such as an amplitude value for each frequency.
  • the statistical spectrum envelope is expressed by a feature quantity such as a low-order cepstrum coefficient or an amplitude value for each frequency.
  • the frequency spectrum envelope (element spectrum envelope) and the statistical spectrum envelope are expressed by different feature quantities, it is possible to use an appropriate feature quantity for each of the fragment spectrum envelope and the statistical spectrum envelope.
  • the generation step generates the statistical spectrum envelope by selectively using any of a plurality of statistical models corresponding to different voice qualities.
  • a speech synthesizer includes a unit acquisition unit that sequentially acquires a plurality of speech units according to a speech synthesis instruction, and a statistical spectrum envelope according to the synthesis instruction.
  • An envelope generator that is generated by a statistical model and the plurality of sequentially obtained speech segments are connected to each other, and the frequency spectrum envelope of each speech segment is changed according to the generated statistical spectrum envelope
  • a speech synthesizer that synthesizes speech signals based on the connected speech segments having the changed frequency spectrum.
  • DESCRIPTION OF SYMBOLS 100 ... Speech synthesizer, 12 ... Control device, 14 ... Storage device, 16 ... Input device, 18 ... Sound emitting device, 20 ... Segment acquisition unit, 22 ... Segment selection unit, 24 ... Segment processing unit, 30 ... Envelope generation unit, 40 ... speech synthesis unit, 42, 48, 54 ... characteristic adjustment unit, 44, 46 ... unit connection unit, L ... speech unit group, D ... synthesis information, M ... statistical model.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

音声合成方法は、音声の合成指示に応じた複数の音声素片を順次に取得する取得ステップと、合成指示に応じた統計スペクトル包絡を統計モデルにより生成する生成ステップと、順次に取得された複数の音声素片を相互に接続し、かつ、生成された統計スペクトル包絡に応じて各音声素片の周波数スペクトル包絡を変更し、変更された周波数スペクトルを有する接続された音声素片に基づいて音声信号を合成する合成ステップとを具備する。

Description

音声合成装置および音声合成方法
 本発明は、音声を合成する技術に関する。
 任意の音韻(発音内容)の音声を合成する音声合成の技術が従来から提案されている。例えば特許文献1には、複数の音声素片のうち目標の音韻に応じて選択された音声素片を相互に接続することで合成音声を生成する素片接続型の音声合成が開示されている。また、特許文献2には、声道特性を表現するスペクトルパラメータの系列をHMM(Hidden Markov Model)により生成してスペクトルパラメータに応じた周波数特性の合成フィルタにより励振信号を処理することで、合成音声を生成する統計モデル型の音声合成が開示されている。
特開2007-240564号公報 特開2002-268660号公報
 ところで、標準的な声質の音声だけでなく、例えば強目に発音した音声または穏やかに発音した音声など、多様な声質の音声を合成することが要求される。素片接続型の音声合成において多様な声質の音声を合成するためには、多数の音声素片の集合(音声合成用ライブラリ)を声質毎に個別に用意する必要がある。したがって、音声素片を保持するために充分な記憶容量が必要である。他方、統計モデル型の音声合成において統計モデルで推定されるスペクトルは、学習過程において多数のスペクトルを平均したスペクトルであり、素片接続型の音声素片と比較して時間分解能および周波数分解能が低い。したがって、高品質な合成音声の生成は困難である。以上の事情を考慮して、本発明は、音声合成に必要な記憶容量を削減しながら所望の声質の高品質な合成音声を生成することを目的とする。
 以上の課題を解決するために、本発明の好適な態様に係る音声合成方法は、音声の合成指示に応じた複数の音声素片を順次に取得する取得ステップと、前記合成指示に応じた統計スペクトル包絡を統計モデルにより生成する生成ステップと、前記順次に取得された複数の音声素片を相互に接続し、かつ、前記生成された統計スペクトル包絡に応じて各音声素片の周波数スペクトル包絡を変更し、前記変更された周波数スペクトルを有する前記接続された音声素片に基づいて音声信号を合成する合成ステップとを具備する。
 本発明の好適な態様に係る音声合成装置は、音声の合成指示に応じた複数の音声素片を順次に取得する素片取得部と、前記合成指示に応じた統計スペクトル包絡を統計モデルにより生成する包絡生成部と、前記順次に取得された複数の音声素片を相互に接続し、かつ、前記生成された統計スペクトル包絡に応じて当該各音声素片の周波数スペクトル包絡を変更し、前記変更された周波数スペクトルを有する前記接続された音声素片に基づいて音声信号を合成する音声合成部とを具備する。
第1実施形態における音声合成装置のブロック図である。 音声合成装置の動作の説明図である。 音声合成装置の機能的なブロック図である。 特性調整処理のフローチャートである。 音声合成処理のフローチャートである。 第2実施形態における音声合成装置の機能的なブロック図である。 変形例における音声合成部のブロック図である。 変形例における音声合成部のブロック図である。
<第1実施形態>
 図1は、本発明の第1実施形態に係る音声合成装置100のブロック図である。第1実施形態の音声合成装置100は、所望の音韻(発音内容)の音声を合成する信号処理装置であり、制御装置12と記憶装置14と入力装置16と放音装置18とを具備するコンピュータシステムで実現される。例えば携帯電話機またはスマートフォン等の可搬型の端末装置、あるいはパーソナルコンピュータ等の可搬型または据置型の端末装置が、音声合成装置100として利用され得る。第1実施形態の音声合成装置100は、特定の楽曲(以下「楽曲A」という)を歌唱した音声の音響信号Vを生成する。なお、音声合成装置100は、単体の装置として実現されるほか、相互に別体で構成された複数の装置の集合(すなわちコンピュータシステム)でも実現される。
 制御装置12は、例えばCPU(Central Processing Unit)等の処理回路を含んで構成され、音声合成装置100の各要素を統括的に制御する。入力装置16は、利用者からの指示を受付ける操作機器である。例えば利用者が操作可能な操作子、または、表示装置(図示略)の表示面に対する接触を検知するタッチパネルが入力装置16として好適に利用される。放音装置18(例えばスピーカまたはヘッドホン)は、音声合成装置100が生成した音響信号Vに応じた音声を再生する。なお、音響信号Vをデジタルからアナログに変換するD/A変換器の図示は便宜的に省略した。
 記憶装置14は、制御装置12が実行するプログラムと制御装置12が使用する各種のデータとを記憶する。例えば半導体記録媒体または磁気記録媒体等の公知の記録媒体、あるいは複数種の記録媒体の組合せが、記憶装置14として任意に採用され得る。なお、音声合成装置100とは別体で記憶装置14(例えばクラウドストレージ)を設置し、移動通信網またはインターネット等の通信網を介して制御装置12が記憶装置14に対する読出または書込を実行することも可能である。すなわち、記憶装置14は音声合成装置100から省略され得る。
 第1実施形態の記憶装置14は、図1に例示される通り、音声素片群Lと合成情報Dと統計モデルMとを記憶する。音声素片群Lは、特定の発声者(以下「発声者B」という)が発音した音声から事前に収録された複数の音声素片PAの各々を表す素片データの集合(音声合成用ライブラリ)である。第1実施形態の各音声素片PAは、発声者Bが標準的な声質(以下「第1声質」という)で発音した音声から採取される。各音声素片PAは、例えば母音または子音等の音素単体、あるいは、複数の音素を連結した音素連鎖(例えばダイフォンまたはトライフォン)である。時間分解能または周波数分解能が充分に高い音声素片PAが音声素片群Lには収録される。
 任意の1個の音声素片PAの素片データは、図2に例示される通り、当該音声素片PAを時間軸上で区分した単位区間(フレーム)毎に、周波数スペクトルQAとスペクトル包絡(以下「素片スペクトル包絡」という)Xとを表す。周波数スペクトルQAは、例えば音声素片PAの複素スペクトル(またはその極形式表現)である。素片スペクトル包絡Xは、周波数スペクトルQAの概形を表す包絡線(エンベロープ)である。なお、周波数スペクトルQAから素片スペクトル包絡Xを算定することが可能であるから、素片スペクトル包絡Xを素片データに含ませない構成も原理的には採用し得る。しかし、周波数スペクトルQAから好適な素片スペクトル包絡Xを一意に算定することは必ずしも容易ではないから、実際には、周波数スペクトルQAを表すデータとともに素片スペクトル包絡Xを表すデータを素片データに含ませた構成が好適である。
 素片スペクトル包絡Xは、時間的及び/又は周波数的な変動が緩慢である平滑成分X1と、平滑成分X1と比較して速く変動する微細な変動成分X2とを含有する。ここで、平滑成分X1は、周波数スペクトルQAを周波数軸方向に所定の平滑度で平滑化して得たスペクトル包絡X0に、さらに、より高い平滑度での周波数軸方向の平滑化、所定の平滑度での時間軸方向の平滑化、または、それら両方の平滑化を施して得られる。また、変動成分X2は、スペクトル包絡X0から変動成分X1を減算して得られる。平滑成分X1および変動成分X2は、例えば線スペクトル対係数または周波数毎の振幅値等の任意の特徴量で表現され得る。具体的には、例えば平滑成分X1は線スペクトル対係数で好適に表現され、変動成分X2は、周波数毎の振幅値で好適に表現される。
 図1の合成情報Dは、音声合成装置100による合成内容を指示するデータ(音声の合成指示)である。具体的には、合成情報Dは、楽曲Aを構成する複数の音符の各々について音高DAと音韻DBとを指定する。音高DAは、例えばMIDI(Musical Instrument Digital Interface)のノート番号である。音韻DBは、合成音声による発音内容(すなわち楽曲Aの歌詞)であり、例えば書記素または音声記号で記述される。合成情報Dは、入力装置16に対する利用者からの指示に応じて生成および変更される。また、配信サーバ装置から通信網を介して配信された合成情報Dを記憶装置14に格納することも可能である。
 統計モデルMは、音声素片PAとは声質が異なる音声のスペクトル包絡(以下「統計スペクトル包絡」という)Yの時間変化を合成情報Dに応じて統計的に推定するための数理モデルである。第1実施形態の統計モデルMは、合成情報Dに応じて特定される属性(コンテキスト)毎に遷移モデルを含むコンテキスト依存モデルである。ここで特定される属性は、例えば、ピッチ、音量、音韻の何れか1、何れか2乃至全部である。遷移モデルは、複数の状態で記述されたHMM(Hidden Markov Model)である。遷移モデルの複数の状態の各々には、統計スペクトル包絡Yの生起確率の確率分布(occurrence probability distribution)を規定する統計値(具体的には平均ベクトルおよび共分散行列)が設定される。この統計値は、状態の時間的な遷移を規定する統計値であってもよい。そして、各遷移モデルの状態毎の統計値が、統計モデルMとして記憶装置14に記憶される。遷移モデルの属性には、各時点の音素の情報(ピッチ、音量、音韻等)に加え、さらに、その音素の直前または直後の音素の情報が含まれていてもよい。
 統計モデルMは、発声者Bがある声質で発音した多数の音声のスペクトル包絡を学習データとして利用した機械学習で事前に生成される。例えば、ある声質の統計モデルMのうち、任意の1個の属性に対応する遷移モデルは、発声者Bがその声質で発音した多数の音声のうち、当該属性に分類される音声のスペクトル包絡を学習データとした機械学習で生成される。ここで、統計モデルMの機械学習に学習データとして利用される音声は、音声素片PAの第1声質とは異なる声質(以下「第2声質」という)で発声者Bが発音した音声である。第2声質として、具体的には、第1声質と比較して発声者Bが強目に発音した音声、より穏やかに発音した音声、より明るく発音した音声、より曖昧に発音した音声等の何れかが、統計モデルMの機械学習に利用される。すなわち、何れか1の第2声質で発音された音声のスペクトル包絡の統計的な傾向が、統計モデルMにより属性毎の統計値としてモデル化される。したがって、この統計モデルを用いれば、その第2声質の音声の統計スペクトル包絡Yが推定される。統計モデルMは、音声素片群Lと比較してデータ量が充分に小さい。なお、統計モデルMは、例えば標準的な第1声質の音声素片群Lに対する付加的なデータとして、音声素片群Lとは別個に提供される。
 図3は、第1実施形態における制御装置12の機能に着目したブロック図である。図3に例示される通り、制御装置12は、記憶装置14に記憶されたプログラムを実行することで、合成情報Dに応じた合成音声の音響信号Vを生成するための複数の機能(素片取得部20,包絡生成部30および音声合成部40)を実現する。なお、制御装置12の機能を複数の装置が実現する構成、または、制御装置12の一部の機能を専用の電子回路が分担する構成も採用され得る。
 素片取得部20は、合成情報Dに応じた音声素片PBを順次に取得する。具体的には、素片取得部20は、合成情報Dが指定する音韻DBに対応する音声素片PAを、合成情報Dが指定する音高DAに調整することで音声素片PBを生成する。図3に例示される通り、第1実施形態の素片取得部20は、素片選択部22と素片加工部24とを含んで構成される。
 素片選択部22は、合成情報Dが音符毎に指定する音韻DBに対応した音声素片PAを記憶装置14の音声素片群Lから順次に選択する。なお、音高が相違する複数の音声素片PAを音声素片群Lに登録することも可能である。合成情報Dが指定する音韻DBに対応する相異なる音高の複数の音声素片PAのうち、合成情報Dが指定する音高DAに近い音高の音声素片PAを素片選択部22は選択する。
 素片加工部24は、素片選択部22が選択した音声素片PAの音高を、合成情報Dで指定される音高DAに調整する。音声素片PAの音高の調整には、例えば特許文献1に記載された技術が好適に利用される。具体的には、素片加工部24は、図2に例示される通り、音声素片PAの周波数スペクトルQAを周波数軸の方向に伸縮することで音高DAに調整し、調整後の周波数スペクトルのピークが素片スペクトル包絡Xの線上に位置するように強度を調整することで周波数スペクトルQBを生成する。したがって、素片取得部20が取得する音声素片PBは、周波数スペクトルQBと素片スペクトル包絡Xとで表現される。なお、素片加工部24が実行する処理の内容は音声素片PAの音高の調整に限定されない。例えば、相前後する各音声素片PAの間の補間を素片加工部24が実行することも可能である。
 図3の包絡生成部30は、合成情報Dに応じた統計スペクトル包絡Yを統計モデルMにより生成する。具体的には、包絡生成部30は、合成情報Dに応じた属性(コンテキスト)の遷移モデルを統計モデルMから順次に検索して、検索された統計モデルを相互に連結し、複数の遷移モデルの時系列から統計スペクトル包絡Yを単位区間毎に順次に生成する。すなわち、合成情報Dで指定される音韻DBを第2声質で発音した音声のスペクトル包絡が統計スペクトル包絡Yとして包絡生成部30により順次に生成される。
 なお、統計スペクトル包絡Yは、線スペクトル対係数または低次ケプストラム係数等の任意の種類の特徴量で表現され得る。低次ケプストラム係数は、信号のパワースペクトルの対数のフーリエ変換であるケプストラム係数のうち、声道等の調音器官の共鳴特性に由来する低次側の所定個の係数である。なお、統計スペクトル包絡Yを線スペクトル対係数で表現した場合、線スペクトル対係数の低次側から高次側にかけて係数値が順番に増加する関係を維持することが必要である。しかし、統計モデルMにより統計スペクトル包絡Yを生成する過程では、線スペクトル対係数の平均等の統計的な演算により以上の関係が崩れる可能性(統計スペクトル包絡Yを適正に表現できない可能性)がある。したがって、統計スペクトル包絡Yを表現する特徴量としては、線スペクトル対係数よりも低次ケプストラム係数が好適である。
 図3の音声合成部40は、素片取得部20が取得した音声素片PBと包絡生成部30が生成した統計スペクトル包絡Yとを利用して合成音声の音響信号Vを生成する。具体的には、音声合成部40は、各音声素片PBを相互に接続した音声であって、統計スペクトル包絡Yに応じて各音声素片PBが調整された合成音声を表す音響信号Vを生成する。図3に例示される通り、第1実施形態の音声合成部40は、特性調整部42と素片接続部44とを含んで構成される。
 特性調整部42は、素片取得部20が取得した各音声素片PBの周波数スペクトルQBの包絡(素片スペクトル包絡X)を、包絡生成部30が生成した統計スペクトル包絡Yに近付けることで音声素片PCの周波数スペクトルQCを生成する。素片接続部44は、特性調整部42による調整後の各音声素片PCを相互に接続することで音響信号Vを生成する。具体的には、音声素片PCの各フレームにおける周波数スペクトルQCを例えば短時間逆フーリエ変換等の演算で時間領域の波形信号(時間軸方向の窓関数が掛け合わされた信号)に変換し、相前後するフレームの波形信号を、先の波形信号の後部と後の波形信号の前部とを時間的に重複させたうえで加算することで、一連のフレームに対応する音響信号Vが生成される。なお、音声素片PCの位相スペクトルとしては、例えば音声素片PAの位相スペクトル、または、最小位相条件により算定された位相スペクトルが好適に利用される。
 図4は、特性調整部42が音声素片PBの周波数スペクトルQBから音声素片PCの周波数スペクトルQCを生成する処理(以下「特性調整処理」という)SC1のフローチャートである。図4に例示される通り、特性調整部42は、係数αおよび係数βを設定する(SC11)。係数(補関係数の例示)αおよび係数βは、例えば入力装置16に対する利用者からの指示に応じて可変に設定される1以下の非負値(0≦α≦1,0≦β≦1)である。
 特性調整部42は、素片取得部20が取得した音声素片PBの素片スペクトル包絡Xと、包絡生成部30が生成した統計スペクトル包絡Yとを係数αにより補間することでスペクトル包絡(以下「補間スペクトル包絡」という)Zを生成する(SC12)。補間スペクトル包絡Zは、図2に例示される通り、素片スペクトル包絡Xと統計スペクトル包絡Yとの中間的な特性のスペクトル包絡である。具体的には、補間スペクトル包絡Zは、以下に例示する数式(1)および数式(2)で表現される。
Z=F(C) ……(1)
C=α・cY+(1-α)・cX1+β・cX2 ……(2)
 数式(2)の記号cX1は、素片スペクトル包絡Xの平滑成分X1を表す特徴量であり、記号cX2は、素片スペクトル包絡Xの変動成分X2を表す特徴量である。また、記号cYは、統計スペクトル包絡Yを表す特徴量である。数式(2)では、特徴量cX1と特徴量cYとが同種の特徴量(例えば線スペクトル対係数)である場合を想定した。数式(1)の記号F(C)は、数式(2)で算定された特徴量Cをスペクトル包絡(すなわち周波数毎の数値の系列)に変換する変換関数である。
 数式(1)および数式(2)から理解される通り、特性調整部42は、統計スペクトル包絡Yと素片スペクトル包絡Xの平滑成分X1との補間(α・cY+(1-α)・cX1)に対して、素片スペクトル包絡Xの変動成分X2を係数βに応じた度合で加算することで、補間スペクトル包絡Zを算定する。数式(2)から理解される通り、係数αが大きいほど、統計スペクトル包絡Yを優勢に反映した補間スペクトル包絡Zが生成され、係数αが小さいほど、素片スペクトル包絡Xを優勢に反映した補間スペクトル包絡Zが生成される。すなわち、係数αが大きい(最大値1に近い)ほど、第2声質に近い合成音声の音響信号Vが生成され、係数αが小さい(最小値0に近い)ほど、第1声質に近い合成音声の音響信号Vが生成される。また、係数αが最大値1に設定された場合(C=cY+β・cX2)、合成情報Dが指定する音韻DBを第2声質で発音した合成音声の音響信号Vが生成される。他方、係数αが最小値0に設定された場合(C=cX1+β・cX2)、合成情報Dが指定する音韻DBを第1声質で発音した合成音声の音響信号Vが生成される。以上の説明から理解される通り、補間スペクトル包絡Zは、素片スペクトル包絡Xと統計スペクトル包絡Yとから生成され、第1声質および第2声質の一方を他方に近付けた音声のスペクトル包絡(すなわち、素片スペクトル包絡Xおよび統計スペクトル包絡Yの一方を他方に近付けたスペクトル包絡)に相当する。また、補間スペクトル包絡Zは、素片スペクトル包絡Xおよび統計スペクトル包絡Yの双方の特性を含むスペクトル包絡、または、素片スペクトル包絡Xおよび統計スペクトル包絡Yの双方の特性を結合したスペクトル包絡とも換言され得る。
 なお、前述の通り、素片スペクトル包絡Xの平滑成分X1と統計スペクトル包絡Yとを相異なる種類の特徴量で表現することも可能である。例えば、素片スペクトル包絡Xの平滑成分X1を表す特徴量cX1が線スペクトル対係数であり、統計スペクトル包絡Yを表す特徴量cYが低次ケプストラム係数である場合を想定すると、前述の数式(2)は以下の数式(2a)に置換される。
C=α・G(cY)+(1-α)・cX1+β・cX2 ……(2a)
 数式(2a)の記号G(cY)は、低次ケプストラム係数である特徴量cYを、特徴量cX1と同種の線スペクトル対係数に変換するための変換関数である。
 特性調整部42は、素片取得部20が取得した各音声素片PBの周波数スペクトルQBを、以上の手順(SC11およびSC12)で生成した補間スペクトル包絡Zに近付けることで、音声素片PCの周波数スペクトルQCを生成する(SC13)。具体的には、特性調整部42は、図2に例示される通り、周波数スペクトルQBの各ピークが補間スペクトル包絡Zの線上に位置するように周波数スペクトルQBの強度を調整することで周波数スペクトルQCを生成する。特性調整部42が音声素片PBから音声素片PCを生成する処理の具体例は以上の通りである。
 図5は、合成情報Dに応じた合成音声の音響信号Vを生成する処理(以下「音声合成処理」という)Sのフローチャートである。入力装置16に対する利用者からの操作で音声合成の開始が指示された場合に図5の音声合成処理Sが開始される。
 音声合成処理Sを開始すると、素片取得部20は、合成情報Dに応じた音声素片PBを順次に取得する(SA)。具体的には、素片選択部22は、合成情報Dが指定する音韻DBに対応した音声素片PAを音声素片群Lから選択する(SA1)。素片加工部24は、素片選択部22が選択した音声素片PAの音高を、合成情報Dで指定される音高DAに調整することで音声素片PBを生成する(SA2)。他方、包絡生成部30は、合成情報Dに応じた統計スペクトル包絡Yを統計モデルMにより生成する(SB)。なお、素片取得部20による音声素片PBの取得(SA)と包絡生成部30による統計スペクトル包絡Yの生成(SB)との順序は任意であり、統計スペクトル包絡Yの生成(SB)後に音声素片PBを取得(SA)することも可能である。
 音声合成部40は、素片取得部20が取得した音声素片PBと包絡生成部30が生成した統計スペクトル包絡Yとに応じた合成音声の音響信号Vを生成する(SC)。具体的には、特性調整部42は、図4に例示した特性調整処理SC1により、素片取得部20が取得した各音声素片PBの周波数スペクトルQBを、その包絡(素片スペクトル包絡X)が統計スペクトル包絡Yに近付くように変更した周波数スペクトルQCを生成する。素片接続部44は、特性調整部42による調整後の各音声素片PCを相互に接続することで音響信号Vを生成する(SC2)。音声合成部40(素片接続部44)が生成した音響信号Vは放音装置18に供給される。
 音声合成処理Sを終了すべき時点が到来するまで(SD:NO)、音声素片PBの取得(SA)と統計スペクトル包絡Yの生成(SB)と音響信号Vの生成(SC)とが反復される。例えば利用者が入力装置16に対する操作で音声合成処理Sの終了を指示した場合、または、楽曲Aの全体にわたり音声合成が完了した場合(SD:YES)に、音声合成処理Sは終了する。
 以上に例示した通り、第1実施形態では、音声素片PBを相互に接続した音声であって、統計モデルMにより生成された統計スペクトル包絡Yに応じて各音声素片PBを調整した合成音声の音響信号Vが生成される。すなわち、第2声質に近い合成音声を生成することが可能である。したがって、声質毎に音声素片PAを用意する構成と比較して、所望の声質の合成音声を生成するために必要な記憶装置14の記憶容量が削減される。また、統計モデルMにより合成音声を生成する構成と比較して、時間分解能または周波数分解能が高い音声素片PAを利用した高品位な合成音声を生成することが可能である。
 また、第1実施形態では、音声素片PBの素片スペクトル包絡X(元の周波数スペクトル)と統計スペクトル包絡Yとの間を可変の係数αに基づいて補間して補間スペクトル包絡Zを求め、当該音声素片PBの周波数スペクトルQBを、その包絡がその補間スペクトルZとなるよう加工している。以上の構成では、素片スペクトル包絡Xと統計スペクトル包絡Yとの補間に適用される係数(加重値)αが可変に設定されるから、音声素片PBの周波数スペクトルQBを統計スペクトル包絡Yに近付ける度合(声質の調整の度合)を変化させることが可能である。
 第1実施形態では、素片スペクトル包絡X(元の周波数スペクトル包絡)は、時間的な変動が緩慢である平滑成分X1と、平滑成分X1と比較して微細に変動する変動成分X2とを含み、特性調整部42は、統計スペクトル包絡Yと平滑成分X1との間を補間して得たスペクトル包絡に変動成分X2を加算することで補間スペクトル包絡Zを算定する。以上の態様では、前記補間で得られる滑らかなスペクトル包絡に変動成分X2を加算することで補間スペクトル包絡Zが算定されるから、変動成分X2を適切に反映した補間スペクトル包絡Zを算定することが可能である。
 また、素片スペクトル包絡Xの平滑成分X1は線スペクトル対係数で表現され、素片スペクトル包絡Xの変動成分X2は周波数毎の振幅値で表現され、統計スペクトル包絡Yは低次ケプストラム係数で表現される。以上の態様では、素片スペクトル包絡Xと統計スペクトル包絡Yとが相異なる種類の特徴量で表現されるから、素片スペクトル包絡Xおよび統計スペクトル包絡Yの各々にとって適切な特徴量を利用できるという利点がある。例えば、統計スペクトル包絡Yを線スペクトル対係数で表現した構成では、統計モデルMを利用した統計スペクトル包絡Yの生成の過程において、線スペクトル対係数の低次側から高次側にかけて係数値が順番に増加するという関係が崩れる可能性がある。以上の事情を考慮すると、統計スペクトル包絡Yを低次ケプストラム係数で表現した構成は格別に好適である。
<第2実施形態>
 本発明の第2実施形態を説明する。なお、以下に例示する各形態において作用または機能が第1実施形態と同様である要素については、第1実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。
 図6は、第2実施形態の音声合成装置100の機能に着目したブロック図である。図6に例示される通り、第2実施形態の音声合成装置100の記憶装置14は、第1実施形態と同様の音声素片群Lおよび合成情報Dのほか、発声者Bの相異なる複数の第2声質に対応する複数(K個)の統計モデルM[1]~M[K]を記憶する。例えば、発声者Bが強目に発音した音声の統計モデル、穏やかに発音した音声の統計モデル、明るく発音した音声の統計モデル、曖昧に発音した音声の統計モデル等を含む複数の統計モデルM[1]~M[K]が記憶装置14に記憶される。任意の1個の統計モデルM[k](k=1~K)は、相異なるK種類の第2声質のうち第k番目の第2声質で発声者Bが発音した音声を学習データとして利用した機械学習により事前に生成される。したがって、K種類の第2声質のうち第k番目の第2声質の音声の統計スペクトル包絡Yが統計モデルM[k]により推定される。K個の統計モデルM[1]~M[K]の合計のデータ量は音声素片群Lのデータ量を下回る。
 第2実施形態の包絡生成部30は、記憶装置14に記憶されたK個の統計モデルM[1]~M[K]の何れかを選択的に利用して統計スペクトル包絡Yを生成する。例えば、包絡生成部30は、入力装置16に対する操作で利用者が選択した第2声質の統計モデルM[k]を利用して統計スペクトル包絡Yを生成する。統計モデルM[k]を利用して包絡生成部30が統計スペクトル包絡Yを生成する動作は第1実施形態と同様である。また、素片取得部20が合成情報Dに応じた音声素片PBを取得する構成、および、素片取得部20が取得した音声素片PBと包絡生成部30が生成した統計スペクトル包絡Yとに応じて音声合成部40が音響信号Vを生成する構成も、第1実施形態と同様である。
 第2実施形態においても第1実施形態と同様の効果が実現される。また、第2実施形態では、K個の統計モデルM[1]~M[K]の何れかが統計スペクトル包絡Yの生成に選択的に利用されるから、1個の統計モデルMのみを利用する構成と比較して、多様な声質の合成音声を生成できるという利点がある。第2実施形態では特に、入力装置16に対する操作で利用者が選択した第2声質の統計モデルM[k]が統計スペクトル包絡Yの生成に利用されるから、利用者の意図または嗜好に沿った声質の合成音声を生成できるという利点もある。
<変形例>
 以上に例示した各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様は適宜に併合され得る。
(1)前述の各形態では、各音声素片PBの周波数スペクトルQBを統計スペクトル包絡Yに近付けてから時間領域で相互に接続したが、音声素片PBと統計スペクトル包絡Yとに応じた音響信号Vを生成するための構成および方法は以上の例示に限定されない。
 例えば、図7に例示された構成の音声合成部40を採用することも可能である。図7の音声合成部40は、素片接続部46と特性調整部48とを具備する。素片接続部46は、素片取得部20が取得した各音声素片PBを相互に接続することで音響信号V0を生成する。具体的には、素片接続部46は、音声素片PBの各フレームにおける周波数スペクトルQBを時間領域の信号に変換し、相前後するフレームの信号を相互に重複させながら加算することで一連のフレームに対応する音響信号V0を生成する。音響信号V0は、第1声質の合成音声を表す時間領域の信号である。図7の特性調整部48は、統計スペクトル包絡Yの周波数特性を時間領域で音響信号V0に付与することで音響信号Vを生成する。例えば、統計スペクトル包絡Yと平滑成分X1との差分の周波数スペクトル包絡に応じて周波数レスポンスが可変に設定されるフィルタが特性調整部48として好適に利用される。図7の音声合成部40を利用した構成でも、前述の各形態と同様に、第2声質の合成音声を表す音響信号Vが生成される。
 また、図8に例示された構成の音声合成部40を採用することも可能である。図8の音声合成部40は、素片補間部52と特性調整部54と波形合成部56とを具備する。素片補間部52は、素片取得部20が取得した各音声素片PBについて補間処理を実行する。具体的には、相前後する各音声素片PBの相互間において、周波数スペクトルQBの補間処理と素片スペクトル包絡Xの補間処理とが周波数領域で実行される。周波数スペクトルQBの補間処理は、時間的に相前後する2個の音声素片PBの接続部分において周波数スペクトルが連続的に変化するように、2個の音声素片PBの間で周波数スペクトルQBを補間(例えばクロスフェード)する処理である。また、素片スペクトル包絡Xの補間処理は、相前後する2個の音声素片PBの接続部分においてスペクトル包絡が連続的に変化するように、2個の音声素片PBの間で素片スペクトル包絡Xの平滑成分X1および変動成分X2の各々を補間(例えばクロスフェード)する処理である。素片補間部52は、相前後する各音声素片PBを周波数領域で相互に接続する処理とも換言され得る。
 図8の特性調整部54は、素片補間部52による補間処理後の各周波数スペクトルを統計スペクトル包絡Yに近付けることで周波数スペクトルQCを生成する。特性調整部54による周波数スペクトルQCの生成には、図4を参照して説明した特性調整処理SC1が好適に利用される。図8の波形合成部56は、特性調整部54が生成した複数の周波数スペクトルQCの時系列から時間領域の音響信号Vを生成する。
 以上の例示から理解される通り、音声合成部40は、素片取得部20が取得した各音声素片PBを相互に接続した音声であって統計スペクトル包絡Yに応じて当該各音声素片PBが調整された合成音声の音響信号Vを生成する要素として包括的に表現される。つまり、音声合成部40は、素片取得部20により順次に取得された音声素片PBを相互に接続し、かつ、統計スペクトル包絡Yに応じて各音声素片PBの周波数スペクトル包絡(素片スペクトル包絡X)を変更し、変更された周波数スペクトルを有する接続された音声素片に基づいて音声信号を合成する要素として包括的に表現される。すなわち、音声合成部40は、例えば、
[A]統計スペクトル包絡Yに応じて音声素片PBを調整してから調整後の音声素片PCを時間領域で相互に接続する要素(図3)
であってもよいし、
[B]各音声素片PBを時間領域で相互に接続してから統計スペクトル包絡Yに応じた周波数特性を付与する要素(図7)
であってもよいし、あるいは、
[C]周波数領域で複数の音声素片PBを接続(具体的には補間)したうえで統計スペクトル包絡Yに応じて調整してから時間領域に変換する要素(図8)
であってもよい。
 例えば[A]のように、音声素片PBは、統計スペクトル包絡Yに応じて周波数領域で調整された後に、時間領域で接続されてよい。また例えば[B]のように、音声素片PBは、統計スペクトル包絡Yに応じた周波数特性が時間領域で付与される前に、時間領域で接続されてよい。また例えば[C]のように、音声素片PBは、統計スペクトル包絡Yに応じて周波数領域で調整される前に、周波数領域で接続(補間)されてよい。
 例えば[A]のように、各音声素片PBは、時間領域で接続される前に、周波数スペクトル包絡が変更されてよい。また例えば[B]のように、各音声素片PBは、時間領域で接続された後に、統計スペクトル包絡Yに応じた周波数特性が時間領域で付与されることで、周波数スペクトル包絡が変更されてよい。また例えば[C]のように、各音声素片PBは、周波数領域で接続(補間)された後に、周波数スペクトル包絡が変更されてよい。
(2)前述の各形態では、音声素片PAの発声者と統計モデルMの学習用の音声の発声者とを同一人Bとした場合を例示したが、統計モデルMの学習用の音声として、音声素片PAの発声者Bとは別人Eの音声を利用することも可能である。また、前述の実施形態では、発声者Bの音声を学習データとして利用した機械学習で統計モデルMを生成したが、統計モデルMの生成方法は以上の例示に限定されない。例えば、発声者B以外の発声者Eの音声のスペクトル包絡を学習データとした機械学習で生成された統計モデルを利用して、発声者Bの少数の学習データを利用した統計モデルを適応的に補正することで、発声者Bの統計モデルMを生成することも可能である。
(3)前述の各形態では、属性毎に分類された発声者Bの音声のスペクトル包絡を学習データとする機械学習で統計モデルMを生成したが、統計モデルM以外の方法で統計スペクトル包絡Yを生成することも可能である。例えば、相異なる属性に対応する複数の統計スペクトル包絡Yを事前に記憶装置14に記憶させた構成(以下「変形構成」という)も採用され得る。任意の1個の属性の統計スペクトル包絡Yは、例えば、発声者Bがある声質で発音した多数の音声のうち当該属性に分類された複数の音声にわたるスペクトル包絡の平均である。包絡生成部30は、合成情報Dに応じた属性の統計スペクトル包絡Yを記憶装置14から順次に選択し、音声合成部40は、第1実施形態と同様に当該統計スペクトル包絡Yと音声素片PBとに応じた音響信号Vを生成する。変形構成によれば、統計モデルMを利用した統計スペクトル包絡Yの生成が不要である。他方、変形構成では、複数の音声にわたりスペクトル包絡が平均されるから、統計スペクトル包絡Yが、時間軸および周波数軸の方向に平滑化された特性となり得る。この変形構成と比較すると、前述の統計モデルMを利用して統計スペクトル包絡Yが生成する各形態には、時間軸および周波数軸の方向における微細な構造が維持された(すなわち平滑化が抑制された)統計スペクトル包絡Yを生成できるという利点がある。
(4)前述の各形態では、合成情報Dが音符毎に音高DAと音韻DBとを指定する構成を例示したが、合成情報Dの内容は以上の例示に限定されない。例えば、音高DAおよび音韻DBに加えて音量(ダイナミクス)を合成情報Dで指定することも可能である。素片加工部24は、素片選択部22が選択した音声素片PAの音量を、合成情報Dで指定される音量に調整する。また、音韻は共通するけれども音量は相違する複数の音声素片PAを音声素片群Lに収録し、合成情報Dが指定する音韻DBに対応する複数の音声素片PAのうち、合成情報Dが指定する音量に近い音量の音声素片PAを素片選択部22が選択してもよい。
(5)前述の各形態では、楽曲Aの全区間にわたり各音声素片PBを統計スペクトル包絡Yに応じて調整したが、統計スペクトル包絡Yを利用した音声素片PBの調整を、楽曲A内の一部の区間(以下「調整区間」という)について選択的に実行することも可能である。調整区間は、例えば、楽曲Aのうち入力装置16に対する操作で利用者が指定した区間、または、楽曲Aのうち合成情報Dで始点および終点が指定された区間である。特性調整部(42,48または54)は、統計スペクトル包絡Yを利用した調整を調整区間内の各音声素片PBに対して実行する。調整区間以外の区間については、複数の音声素片PBを相互に連結した音響信号V(すなわち統計スペクトル包絡Yが反映されていない音響信号V)が音声合成部40から出力される。以上の構成によれば、調整区間外が第1声質で発音され、調整区間内は第2声質で発音されるから、多様な合成音声の音響信号Vを生成することが可能である。
 なお、楽曲A内の相異なる複数の調整区間の各々について、統計スペクトル包絡Yを利用した音声素片PBの調整を実行する構成も想定される。また、発声者Bの相異なる第2声質に対応する複数の統計モデルM[1]~M[K]が記憶装置14に記憶された構成(例えば第2実施形態)では、楽曲A内の調整区間毎に、音声素片PBの調整に適用される統計モデルM[k]を相違させることも可能である。複数の調整区間の各々の始点および終点と各調整区間に適用される統計モデルM[k]とは、例えば合成情報Dにより指定される。以上の構成によれば、調整区間毎に声質(例えば歌唱音声の表情(articulation))が変化する多様な合成音声の音響信号Vを生成できるという格別の利点がある。
(6)素片スペクトル包絡Xおよび統計スペクトル包絡Yを表現する特徴量は前述の各形態での例示(線スペクトル対係数または低次ケプストラム係数)に限定されない。例えば、周波数毎の振幅値の系列により素片スペクトル包絡Xまたは統計スペクトル包絡Yは表現され得る。また、声帯の振動特性と調音器官の共鳴特性とを近似するEpR(Excitation plus Resonance)パラメータで素片スペクトル包絡Xまたは統計スペクトル包絡Yを表現することも可能である。なお、EpRパラメータについては、例えば特許第3711880号公報または特開2007-226174号公報に開示されている。あるいは、複数の正規分布の加重和(すなわちガウス混合モデル)で素片スペクトル包絡Xまたは統計スペクトル包絡Yを表現してもよい。
(7)移動体通信網またはインターネット等の通信網を介して端末装置(例えば携帯電話機またはスマートフォン)と通信するサーバ装置により音声合成装置100を実現してもよい。例えば、音声合成装置100は、端末装置から受信した合成情報Dを適用した音声合成処理Sで音響信号Vを生成し、当該音響信号Vを要求元の端末装置に送信する。
(8)前述の各形態で例示した音声合成装置100は、前述の通り、制御装置12とプログラムとの協働で実現され得る。前述の各形態で例示したプログラムは、合成内容を指示する合成情報Dに応じた音声素片PBを順次に取得する素片取得部20、合成情報Dに応じた統計スペクトル包絡Yを統計モデルMにより生成する包絡生成部30、および、素片取得部20が取得した各音声素片PBを相互に接続した音声であって、包絡生成部30が生成した統計スペクトル包絡Yに応じて当該各音声素片PBが調整された合成音声の音響信号Vを生成する音声合成部40、としてコンピュータ(例えば制御装置12)を機能させる。
 以上に例示したプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性(non-transitory)の記録媒体であり、CD-ROM等の光学式記録媒体(光ディスク)が好例であるが、半導体記録媒体または磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。なお、非一過性の記録媒体とは、一過性の伝搬信号(transitory, propagating signal)を除く任意の記録媒体を含み、揮発性の記録媒体を除外するものではない。また、通信網を介した配信の形態でプログラムをコンピュータに提供してもよい。
(9)本発明の好適な態様は、前述の各形態に係る音声合成装置100の動作方法(音声合成方法)としても特定され得る。好適な態様に係る音声合成方法は、コンピュータシステム(単体または複数のコンピュータ)が、合成内容を指示する合成情報Dに応じた音声素片PBを順次に取得し、合成情報Dに応じた統計スペクトル包絡Yを統計モデルMにより生成し、取得した各音声素片PBを相互に接続した音声であって、統計スペクトル包絡Yに応じて当該各音声素片PBを調整した合成音声の音響信号Vを生成する。
(10)以上に例示した形態から、例えば以下の構成が把握される。
<態様1>
 本発明の好適な態様(態様1)に係る音声合成方法は、音声の合成指示に応じた複数の音声素片を順次に取得する取得ステップと、前記合成指示に応じた統計スペクトル包絡を統計モデルにより生成する生成ステップと、前記順次に取得された複数の音声素片を相互に接続し、かつ、前記生成された統計スペクトル包絡に応じて各音声素片の周波数スペクトル包絡(frequency spectral envelope)を変更(modify)し、前記変更された周波数スペクトルを有する前記接続された音声素片に基づいて音声信号を合成する合成ステップとを具備する。以上の態様では、音声素片を相互に接続した音声であって統計モデルにより生成された統計スペクトル包絡に応じて各音声素片を調整した合成音声(例えば統計モデルでモデル化された声質に近い合成音声)の音響信号が生成される。したがって、声質毎に音声素片を用意する構成と比較して、所望の声質の合成音声を生成するために必要な記憶容量が削減される。また、音声素片を利用せずに統計モデルで合成音声を生成する構成と比較して、時間分解能または周波数分解能が高い音声素片を利用した高品位な合成音声を生成することが可能である。
<態様2>
 態様1の好適例(態様2)において、前記合成ステップは、前記各各音声素片の周波数スペクトル包絡を、前記統計スペクトル包絡に近付くように変更(modify)する変更ステップと、前記変更された複数の音声素片を接続する接続ステップとを含む。
<態様3>
 態様2の好適例(態様3)において、前記変更ステップは、前記各音声素片の元の周波数スペクトル包絡と、前記統計スペクトル包絡との間を可変の補間係数に基づいて補間して補間スペクトル包絡を求め、前記求めた補間スペクトル包絡に基づいて当該各音声素片の元の周波数スペクトル包絡を変更する。以上の態様では、元の周波数スペクトル包絡(素片スペクトル包絡)と統計スペクトル包絡との補間に適用される補間係数(加重値)が可変に設定されるから、音声素片の周波数スペクトルを統計スペクトル包絡に近付ける度合(声質の調整の度合)を変化させることが可能である。
<態様4>
 態様3の好適例(態様4)において、前記元の周波数スペクトル包絡は、時間的な変動が緩慢である平滑成分と、前記平滑成分と比較して速く変動する微細な変動成分とを含み、前記変更ステップは、前記統計スペクトル包絡と前記平滑成分との間を補間して得たスペクトル包絡に前記変動成分を加算することで前記補間スペクトル包絡を算定する。以上の態様では、統計スペクトル包絡と元の周波数スペクトル包絡(素片スペクトル包絡)の平滑成分との補間に変動成分を加算することで補間スペクトル包絡が算定されるから、平滑成分と変動成分とを適切に含有する補間スペクトル包絡を算定することが可能である。
<態様5>
 態様1の好適例(態様5)において、前記合成ステップは、前記順次に取得された複数の音声素片を時間領域で接続する接続ステップと、前記時間領域で接続された音声素片に、前記統計スペクトル包絡の周波数特性を時間領域で付与することで、前記周波数スペクトル包絡を変更する変更ステップとを含む。
<態様6>
 態様1の好適例(態様6)において、前記合成ステップは、前記順次に取得された複数の音声素片について、時間的に相前後する音声素片を周波数領域で補間して接続する接続ステップと、前記接続された音声素片の周波数スペクトル包絡を、前記統計スペクトル包絡に近付くよう変更する変更ステップとを含む。
<態様7>
 態様1から態様6の何れかの好適例(態様7)において、前記周波数スペクトル包絡と前記統計スペクトル包絡とは、相異なる特徴量で表現される。周波数スペクトル包絡(素片スペクトル包絡)の表現には、周波数軸方向のパラメータを含む特徴量が好適に採用される。具体的には、素片スペクトル包絡の平滑成分は、例えば線スペクトル対係数、EpR(Excitation plus Resonance)パラメータ、または複数の正規分布の加重和(すなわちガウス混合モデル)等の特徴量で好適に表現され、素片スペクトル包絡の変動成分は、例えば周波数毎の振幅値等の特徴量で表現される。他方、統計スペクトル包絡の表現には、例えば統計的な演算に好適な特徴量が採用される。具体的には、統計スペクトル包絡は、例えば低次ケプストラム係数または周波数毎の振幅値等の特徴量で表現される。以上の態様では、周波数スペクトル包絡(素片スペクトル包絡)と統計スペクトル包絡とが相異なる特徴量で表現されるから、素片スペクトル包絡および統計スペクトル包絡の各々にとって適切な特徴量を利用できるという利点がある。
<態様8>
 態様1から態様7の何れかの好適例(態様8)において、前記生成ステップは、相異なる声質に対応する複数の統計モデルの何れかを選択的に利用して前記統計スペクトル包絡を生成する。以上の態様では、統計スペクトル包絡の生成に複数の統計モデルの何れかが選択的に利用されるから、1個の統計モデルのみを利用する構成と比較して多様な声質の合成音声を生成できるという利点がある。
<態様9>
 本発明の好適な態様(態様9)に係る音声合成装置は、音声の合成指示に応じた複数の音声素片を順次に取得する素片取得部と、前記合成指示に応じた統計スペクトル包絡を統計モデルにより生成する包絡生成部と、前記順次に取得された複数の音声素片を相互に接続し、かつ、前記生成された統計スペクトル包絡に応じて各音声素片の周波数スペクトル包絡を変更し、前記変更された周波数スペクトルを有する前記接続された音声素片に基づいて音声信号を合成する音声合成部とを具備する。
100…音声合成装置、12…制御装置、14…記憶装置、16…入力装置、18…放音装置、20…素片取得部、22…素片選択部、24…素片加工部、30…包絡生成部、40…音声合成部、42,48,54…特性調整部、44,46…素片接続部、L…音声素片群、D…合成情報、M…統計モデル。

Claims (9)

  1.  音声の合成指示に応じた複数の音声素片を順次に取得する取得ステップと、
     前記合成指示に応じた統計スペクトル包絡を統計モデルにより生成する生成ステップと、
     前記順次に取得された複数の音声素片を相互に接続し、かつ、前記生成された統計スペクトル包絡に応じて各音声素片の周波数スペクトル包絡を変更し、前記変更された周波数スペクトルを有する前記接続された音声素片に基づいて音声信号を合成する合成ステップと
     を具備する音声合成方法。
  2.  前記合成ステップは、
     前記各音声素片の周波数スペクトル包絡を、前記統計スペクトル包絡に近付くように変更する変更ステップと、
     前記変更された複数の音声素片を接続する接続ステップとを含む
     請求項1の音声合成方法。
  3.  前記変更ステップは、前記各音声素片の元の周波数スペクトル包絡と、前記統計スペクトル包絡との間を可変の補間係数に基づいて補間して補間スペクトル包絡を求め、前記求めた補間スペクトル包絡に基づいて当該各音声素片の元の周波数スペクトル包絡を変更する
     請求項2の音声合成方法。
  4.  前記元の周波数スペクトル包絡は、時間的な変動が緩慢である平滑成分と、前記平滑成分と比較して速く変動する微細な変動成分とを含み、
     前記変更ステップは、前記統計スペクトル包絡と前記平滑成分との間を補間して得たスペクトル包絡に前記変動成分を加算することで前記補間スペクトル包絡を算定する
     請求項3の音声合成方法。
  5.  前記合成ステップは、
     前記順次に取得された複数の音声素片を時間領域で接続する接続ステップと、
     前記時間領域で接続された音声素片に、前記統計スペクトル包絡の周波数特性を時間領域で付与することで、前記周波数スペクトル包絡を変更する変更ステップとを含む
     請求項1の音声合成方法。
  6.  前記合成ステップは、
     前記順次に取得された複数の音声素片について、時間的に相前後する音声素片を周波数領域で補間して接続する接続ステップと、
     前記接続された音声素片の周波数スペクトル包絡を、前記統計スペクトル包絡に近付くよう変更する変更ステップとを含む
     請求項1の音声合成方法。
  7.  前記周波数スペクトル包絡と前記統計スペクトル包絡とは、相異なる特徴量で表現される
     請求項1から請求項6の何れかの音声合成方法。
  8.  前記生成ステップは、相異なる声質に対応する複数の統計モデルの何れかを選択的に利用して前記統計スペクトル包絡を生成する
     請求項1から請求項7の何れかの音声合成方法。
  9.  音声の合成指示に応じた複数の音声素片を順次に取得する素片取得部と、
     前記合成指示に応じた統計スペクトル包絡を統計モデルにより生成する包絡生成部と、
     前記順次に取得された複数の音声素片を相互に接続し、かつ、前記生成された統計スペクトル包絡に応じて各音声素片の周波数スペクトル包絡を変更し、前記変更された周波数スペクトルを有する前記接続された音声素片に基づいて音声信号を合成する音声合成部と
     を具備する音声合成装置。
PCT/JP2017/023739 2016-06-30 2017-06-28 音声合成装置および音声合成方法 WO2018003849A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
EP17820203.2A EP3480810A4 (en) 2016-06-30 2017-06-28 VOICE SYNTHESIS DEVICE AND VOICE SYNTHESIS METHOD
CN201780040606.XA CN109416911B (zh) 2016-06-30 2017-06-28 声音合成装置及声音合成方法
US16/233,421 US11289066B2 (en) 2016-06-30 2018-12-27 Voice synthesis apparatus and voice synthesis method utilizing diphones or triphones and machine learning

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2016-129890 2016-06-30
JP2016129890A JP6821970B2 (ja) 2016-06-30 2016-06-30 音声合成装置および音声合成方法

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US16/233,421 Continuation US11289066B2 (en) 2016-06-30 2018-12-27 Voice synthesis apparatus and voice synthesis method utilizing diphones or triphones and machine learning

Publications (1)

Publication Number Publication Date
WO2018003849A1 true WO2018003849A1 (ja) 2018-01-04

Family

ID=60787041

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2017/023739 WO2018003849A1 (ja) 2016-06-30 2017-06-28 音声合成装置および音声合成方法

Country Status (5)

Country Link
US (1) US11289066B2 (ja)
EP (1) EP3480810A4 (ja)
JP (1) JP6821970B2 (ja)
CN (1) CN109416911B (ja)
WO (1) WO2018003849A1 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109731331A (zh) * 2018-12-19 2019-05-10 网易(杭州)网络有限公司 声音信息处理方法及装置、电子设备、存储介质
CN111402856A (zh) * 2020-03-23 2020-07-10 北京字节跳动网络技术有限公司 语音处理方法、装置、可读介质及电子设备
JP2020194098A (ja) * 2019-05-29 2020-12-03 ヤマハ株式会社 推定モデル確立方法、推定モデル確立装置、プログラムおよび訓練データ準備方法
CN112750418A (zh) * 2020-12-28 2021-05-04 苏州思必驰信息科技有限公司 音频或音频链接的生成方法及系统
US11646044B2 (en) * 2018-03-09 2023-05-09 Yamaha Corporation Sound processing method, sound processing apparatus, and recording medium

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006134736A1 (ja) * 2005-06-16 2006-12-21 Matsushita Electric Industrial Co., Ltd. 音声合成装置、音声合成方法およびプログラム
JP2008203543A (ja) * 2007-02-20 2008-09-04 Toshiba Corp 声質変換装置及び音声合成装置

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6910007B2 (en) * 2000-05-31 2005-06-21 At&T Corp Stochastic modeling of spectral adjustment for high quality pitch modification
JP4067762B2 (ja) * 2000-12-28 2008-03-26 ヤマハ株式会社 歌唱合成装置
JP3711880B2 (ja) 2001-03-09 2005-11-02 ヤマハ株式会社 音声分析及び合成装置、方法、プログラム
JP2002268660A (ja) 2001-03-13 2002-09-20 Japan Science & Technology Corp テキスト音声合成方法および装置
US7643990B1 (en) * 2003-10-23 2010-01-05 Apple Inc. Global boundary-centric feature extraction and associated discontinuity metrics
JP4080989B2 (ja) * 2003-11-28 2008-04-23 株式会社東芝 音声合成方法、音声合成装置および音声合成プログラム
CN1842702B (zh) * 2004-10-13 2010-05-05 松下电器产业株式会社 声音合成装置和声音合成方法
JP4207902B2 (ja) * 2005-02-02 2009-01-14 ヤマハ株式会社 音声合成装置およびプログラム
WO2006085244A1 (en) * 2005-02-10 2006-08-17 Koninklijke Philips Electronics N.V. Sound synthesis
US20070083367A1 (en) * 2005-10-11 2007-04-12 Motorola, Inc. Method and system for bandwidth efficient and enhanced concatenative synthesis based communication
JP4839891B2 (ja) 2006-03-04 2011-12-21 ヤマハ株式会社 歌唱合成装置および歌唱合成プログラム
JP2007226174A (ja) 2006-06-21 2007-09-06 Yamaha Corp 歌唱合成装置、歌唱合成方法及び歌唱合成用プログラム
JP2008033133A (ja) * 2006-07-31 2008-02-14 Toshiba Corp 音声合成装置、音声合成方法および音声合成プログラム
JP5159279B2 (ja) * 2007-12-03 2013-03-06 株式会社東芝 音声処理装置及びそれを用いた音声合成装置。
CN101710488B (zh) * 2009-11-20 2011-08-03 安徽科大讯飞信息科技股份有限公司 语音合成方法及装置
JP6024191B2 (ja) * 2011-05-30 2016-11-09 ヤマハ株式会社 音声合成装置および音声合成方法
US9542927B2 (en) * 2014-11-13 2017-01-10 Google Inc. Method and system for building text-to-speech voice from diverse recordings
CN105702247A (zh) * 2014-11-27 2016-06-22 华侃如 一种从语音频谱包络自动获取EpR模型滤波器参数的方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006134736A1 (ja) * 2005-06-16 2006-12-21 Matsushita Electric Industrial Co., Ltd. 音声合成装置、音声合成方法およびプログラム
JP2008203543A (ja) * 2007-02-20 2008-09-04 Toshiba Corp 声質変換装置及び音声合成装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3480810A4 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11646044B2 (en) * 2018-03-09 2023-05-09 Yamaha Corporation Sound processing method, sound processing apparatus, and recording medium
CN109731331A (zh) * 2018-12-19 2019-05-10 网易(杭州)网络有限公司 声音信息处理方法及装置、电子设备、存储介质
CN109731331B (zh) * 2018-12-19 2022-02-18 网易(杭州)网络有限公司 声音信息处理方法及装置、电子设备、存储介质
JP2020194098A (ja) * 2019-05-29 2020-12-03 ヤマハ株式会社 推定モデル確立方法、推定モデル確立装置、プログラムおよび訓練データ準備方法
CN111402856A (zh) * 2020-03-23 2020-07-10 北京字节跳动网络技术有限公司 语音处理方法、装置、可读介质及电子设备
CN111402856B (zh) * 2020-03-23 2023-04-14 北京字节跳动网络技术有限公司 语音处理方法、装置、可读介质及电子设备
CN112750418A (zh) * 2020-12-28 2021-05-04 苏州思必驰信息科技有限公司 音频或音频链接的生成方法及系统

Also Published As

Publication number Publication date
EP3480810A1 (en) 2019-05-08
US11289066B2 (en) 2022-03-29
JP6821970B2 (ja) 2021-01-27
EP3480810A4 (en) 2020-02-26
CN109416911A (zh) 2019-03-01
CN109416911B (zh) 2023-07-21
US20190130893A1 (en) 2019-05-02
JP2018004870A (ja) 2018-01-11

Similar Documents

Publication Publication Date Title
US11289066B2 (en) Voice synthesis apparatus and voice synthesis method utilizing diphones or triphones and machine learning
WO2018084305A1 (ja) 音声合成方法
JP6024191B2 (ja) 音声合成装置および音声合成方法
CN105957515B (zh) 声音合成方法、声音合成装置和存储声音合成程序的介质
JP6733644B2 (ja) 音声合成方法、音声合成システムおよびプログラム
CN111542875A (zh) 声音合成方法、声音合成装置及程序
US11646044B2 (en) Sound processing method, sound processing apparatus, and recording medium
JP2013242410A (ja) 音声処理装置
WO2020095951A1 (ja) 音響処理方法および音響処理システム
WO2019181767A1 (ja) 音処理方法、音処理装置およびプログラム
JP2018077283A (ja) 音声合成方法
WO2020241641A1 (ja) 生成モデル確立方法、生成モデル確立システム、プログラムおよび訓練データ準備方法
JP6011039B2 (ja) 音声合成装置および音声合成方法
JP5573529B2 (ja) 音声処理装置およびプログラム
JP6191094B2 (ja) 音声素片切出装置
JP2018077281A (ja) 音声合成方法
JP2018077280A (ja) 音声合成方法
JP7200483B2 (ja) 音声処理方法、音声処理装置およびプログラム
JP7106897B2 (ja) 音声処理方法、音声処理装置およびプログラム
WO2019172396A1 (ja) 音声処理方法、音声処理装置および記録媒体
JP6056190B2 (ja) 音声合成装置
JP6930089B2 (ja) 音響処理方法および音響処理装置
JP2001312300A (ja) 音声合成装置
CN118103905A (zh) 音响处理方法、音响处理系统及程序
JP2018077282A (ja) 音声合成方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17820203

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2017820203

Country of ref document: EP

Effective date: 20190130