WO2013018294A1 - 音声合成装置および音声合成方法 - Google Patents

音声合成装置および音声合成方法 Download PDF

Info

Publication number
WO2013018294A1
WO2013018294A1 PCT/JP2012/004529 JP2012004529W WO2013018294A1 WO 2013018294 A1 WO2013018294 A1 WO 2013018294A1 JP 2012004529 W JP2012004529 W JP 2012004529W WO 2013018294 A1 WO2013018294 A1 WO 2013018294A1
Authority
WO
WIPO (PCT)
Prior art keywords
phoneme
unit
information
opening degree
text
Prior art date
Application number
PCT/JP2012/004529
Other languages
English (en)
French (fr)
Inventor
良文 廣瀬
釜井 孝浩
Original Assignee
パナソニック株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニック株式会社 filed Critical パナソニック株式会社
Priority to CN2012800106378A priority Critical patent/CN103403797A/zh
Priority to JP2012543381A priority patent/JP5148026B1/ja
Publication of WO2013018294A1 publication Critical patent/WO2013018294A1/ja
Priority to US13/903,270 priority patent/US9147392B2/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • G10L2013/105Duration

Definitions

  • the present invention relates to a speech synthesizer capable of generating natural synthesized speech and a method thereof.
  • FIG. 17 is a typical configuration diagram of a waveform connection type speech synthesizer.
  • 17 includes a language analysis unit 501, a prosody generation unit 502, a speech unit DB (database) 503, a unit selection unit 504, and a waveform connection unit 505.
  • the language analysis unit 501 linguistically analyzes the input text and outputs phonetic symbols and accent information.
  • the prosody generation unit 502 generates prosody information such as a fundamental frequency, duration, and power for each phonetic symbol based on the phonetic symbol and accent information output by the language analysis unit 501.
  • the speech unit DB 503 is a unit storage unit that stores speech waveforms as speech unit data (hereinafter simply referred to as “speech units”) recorded in advance.
  • the unit selection unit 504 selects an optimal speech unit from the speech unit DB 503 based on the prosodic information generated by the prosody generation unit 502.
  • the waveform connection unit 505 generates a synthesized sound by connecting the speech units selected by the unit selection unit 504.
  • the speech synthesizer disclosed in Patent Literature 1 selects a speech unit stored in a segment storage unit based on phoneme environment and prosodic information for an input text, and connects the selected speech unit to generate speech. Is synthesized.
  • the inventors cannot retain the naturalness of the change of the utterance mode in the synthesized speech, and as a result, the naturalness of the synthesized speech is greatly deteriorated. I found out.
  • the present invention has been made in view of the above points, and by synthesizing speech while maintaining temporal variation of the utterance mode possessed by speech when the input text is naturally generated, A speech synthesizer that reduces the deterioration of the naturalness of speech.
  • a speech synthesizer is a speech synthesizer that generates synthesized speech of input text, and indicates the type of phoneme generated from the text and the position of the phoneme in the text. For each phoneme generated from the text using information, the opening of the phoneme located at the beginning of the sentence in the text corresponds to the volume of the mouth so that the opening of the phoneme located at the end of the sentence is larger
  • An opening degree generation unit that generates an opening degree and each of the pieces are generated from the text from a unit storage unit that stores a plurality of pieces of piece information including type of phoneme, opening degree information, and speech piece data.
  • the unit selection for selecting the piece information corresponding to the phoneme from the plurality of piece information stored in the unit storage unit When provided with the segment information which the segment selection unit selects, by using the prosodic information generated from the text, and a synthesizing unit which generates a synthesized sound of the text.
  • the present invention can synthesize speech with reduced degradation of naturalness during speech synthesis by synthesizing speech while maintaining temporal variation of the utterance mode possessed by speech when the input text naturally occurs. .
  • FIG. 1 is a diagram showing a human vocalization mechanism.
  • FIG. 2 is a diagram illustrating differences in vocal tract transmission characteristics due to differences in utterance modes.
  • FIG. 3 is a conceptual diagram showing temporal variation of the utterance mode.
  • FIG. 4 is a diagram illustrating an example of a difference in formant frequency due to a difference in utterance mode.
  • FIG. 5 is a diagram illustrating a difference in vocal tract cross-sectional area function due to a difference in utterance manner.
  • FIG. 6 is a configuration diagram of the speech synthesis apparatus according to Embodiment 1 of the present invention.
  • FIG. 7 is a diagram for explaining a prosody information generation method.
  • FIG. 8 is a diagram illustrating an example of the vocal tract cross-sectional area function.
  • FIG. 1 is a diagram showing a human vocalization mechanism.
  • FIG. 2 is a diagram illustrating differences in vocal tract transmission characteristics due to differences in utterance modes.
  • FIG. 3 is a conceptual diagram showing temp
  • FIG. 9 is a diagram showing a time pattern of the opening degree in the utterance.
  • FIG. 10 is a diagram showing examples of control factors and their categories used as explanatory variables.
  • FIG. 11 is a diagram illustrating an example of segment information stored in the segment storage unit.
  • FIG. 12 is a flowchart showing the operation of the speech synthesis apparatus according to Embodiment 1 of the present invention.
  • FIG. 13 is a configuration diagram of a speech synthesizer according to the first modification of the first embodiment of the present invention.
  • FIG. 14 is a configuration diagram of a speech synthesis device according to Modification 2 of Embodiment 1 of the present invention.
  • FIG. 15 is a flowchart showing the operation of the speech synthesizer according to the second modification of the first embodiment of the present invention.
  • FIG. 16 is a block diagram of a speech synthesizer including components essential for the present invention.
  • FIG. 17 is a configuration diagram of a conventional speech synthesizer.
  • Voice quality in natural utterances is affected by a variety of factors including the speech rate, the location of the speech within the utterance, or the location within the accent phrase. For example, in a natural utterance, the beginning of a sentence is clearly uttered with high clarity, but at the end of the sentence, there is a tendency for pronunciation to be negligible and the intelligibility tends to decrease. Furthermore, when a certain word is emphasized in the utterance, the voice quality of the word tends to be higher in clarity than when not emphasized.
  • FIG. 1 shows the human vocal cords and vocal tract.
  • the human voice generation process will be described.
  • the sound source waveform generated by the vibration of the vocal cord 1601 shown in FIG. 1 passes through the vocal tract 1604 constituted by the glottis 1602 to the lips 1603.
  • the analysis and synthesis type speech synthesis method analyzes human speech based on such a speech generation principle.
  • vocal tract information and sound source information are acquired by separating voice into vocal tract information and sound source information.
  • a model called a vocal tract sound source model is used as a speech analysis method.
  • human speech is separated into sound source information and vocal tract information based on the sound generation process.
  • FIG. 2 shows the vocal tract transmission characteristics identified by the above vocal tract sound source model.
  • the horizontal axis in FIG. 2 represents frequency, and the vertical axis represents spectral intensity.
  • FIG. 2 shows vocal tract transfer characteristics as a result of analyzing a phoneme uttered by the same speaker and having the same phoneme as the immediately preceding phoneme.
  • the phoneme immediately before the target phoneme is referred to as a preceding phoneme.
  • a curve 201 shown in FIG. 2 indicates a vocal tract transmission characteristic of / ma / of / ma / of “vertigo” when uttering “/ memaigashimasuxu /”.
  • a curve 202 shows a vocal tract transmission characteristic of / ma / of / a / when “no hot water comes out (/ oyugadaseN /)”.
  • the peak in the upward direction indicates the formant of the resonance frequency. As shown in FIG. 2, it can be seen that the position (frequency) and spectrum intensity of the formants are greatly different even if vowels having the same preceding phoneme are compared.
  • Curve 201 is close to the beginning of the sentence and is a content word.
  • the curve 202 is close to the end of the sentence and is a function word.
  • the function word is a word having a grammatical role, and in English includes a preposition, a conjunction, an article, an auxiliary verb, and the like.
  • the content word is a word having a general meaning other than that, and in English, includes a noun, an adjective, a verb, an adverb, and the like. In terms of audibility, the vowel / a / having the vocal tract transmission characteristic indicated by the curve 201 can be heard more clearly.
  • the method of uttering a phoneme differs depending on the position of the phoneme in the sentence.
  • Humans change their utterances consciously or unconsciously, such as “clearly uttered and clear voice” or “slowly uttered and unclear voice”.
  • Such a difference in utterance method is referred to as “speech mode” in this specification.
  • the utterance style fluctuates due to not only the position of phonemes in the sentence but also various other linguistic and physiological influences.
  • the position of the phoneme in the sentence is called “phoneme environment”. As described above, even if the phoneme environment is the same, the vocal tract transmission characteristics are different if the utterance mode is different. That is, the speech unit to be selected is different.
  • the speech synthesizer disclosed in Patent Literature 1 selects a speech unit using the phoneme environment and prosodic information without performing the above-described variation in utterance mode, and performs speech synthesis using the selected speech unit. Yes.
  • the utterance mode of the synthesized voice is different from the utterance mode of the naturally uttered voice.
  • the time change of the utterance mode in the synthesized sound is different from the time change of the natural voice. Therefore, the synthesized sound is very unnatural speech for normal human speech.
  • FIG. 3 shows the time variation of the utterance mode.
  • FIG. 3A shows a temporal change of the utterance manner when the utterance is naturally spoken as “I am dizzy (/ memaigashimasuxu /)”.
  • the phoneme indicated by X is a clear utterance and has high clarity.
  • the phonemes indicated by Y are lazy utterances and have low clarity.
  • the first half of the sentence is an utterance mode with high clarity because there are many X phonemes. Since the latter half of the sentence has many phonemes of Y, it shows a utterance mode with low clarity.
  • FIG. 3B shows a temporal change in the utterance state of the synthesized sound when a speech segment is selected according to the conventional selection criteria.
  • speech segments are selected from phoneme environment or prosodic information. For this reason, the utterance mode changes without being restricted by the input selection criterion.
  • FIG. 4 shows the movement of the formant 401 when synthesizing the voice using / a / when clearly speaking with high clarity to the voice uttered “no hot water (/ oyugadaseN /)”. An example is shown.
  • the horizontal axis represents time, and the vertical axis represents formant frequency.
  • the first, second, and third formants are shown from the lowest frequency.
  • formant 402 in the case of synthesizing speech using / a / of another utterance mode (sounding clearly and clearly), formant 401 and formant of original speech (sounding clearly and clearly) It can be seen that the frequencies are greatly different.
  • the temporal movement of each formant increases as shown by the broken line in FIG. Not only is it different, but the synthesized sound is also locally unnatural.
  • a speech synthesizer is a speech synthesizer that generates synthesized speech of input text, and uses the text to generate prosodic information. For each phoneme generated from the text, for each phoneme generated from the text, information on the phoneme positioned at the beginning of the text is generated using the generation unit and information indicating the type of phoneme generated from the text and the position of the phoneme in the text.
  • An opening degree generator that generates an opening degree corresponding to the volume in the oral cavity so that the opening degree is larger than the opening degree of the phoneme located at the end of the sentence.
  • a unit storage unit For each phoneme generated from the text, a unit storage unit storing a plurality of unit information including piece data, and stored in the unit storage unit based on the type and aperture of the phoneme.
  • the segment selection unit that selects segment information corresponding to the phoneme from the plurality of segment information, and the segment information selected by the segment selection unit and the prosody generation unit generated by the segment selection unit And a synthesizing unit that generates a synthesized sound of the text using prosodic information.
  • segment information having an opening degree that matches the opening degree based on the input text is selected. For this reason, it is possible to select segment information (speech segment) having the same utterance mode as the utterance mode based on the input text (speech with high clarity or utterance with low intelligibility). Therefore, it is possible to synthesize speech while preserving temporal changes in the utterance mode based on the input text. As a result, since the synthesized speech stores the time pattern of the change in utterance mode, it is possible to reduce deterioration of naturalness (fluency) during speech synthesis.
  • the above-described speech synthesizer further includes, for each phoneme generated from the text, segment information that matches the phoneme type and the phoneme type of the unit information stored in the unit storage unit.
  • An opening degree coincidence calculation unit that calculates the degree of coincidence between the opening degree generated by the opening degree generation unit and the opening degree included in the selected piece information, and the piece selection unit includes: For each phoneme generated from the text, segment information corresponding to the phoneme may be selected based on the degree of coincidence calculated for the phoneme.
  • the piece information is selected based on the degree of coincidence between the opening degree based on the input text and the opening degree included in the piece information. For this reason, even if the piece information having the same opening degree as the opening degree based on the input text is not stored in the piece storage unit, the piece information having the opening degree similar to the opening degree based on the input text is selected. It becomes possible.
  • the segment selection unit selects, for each phoneme generated from the text, the segment information including the coincidence having the highest coincidence indicated by the coincidence calculated for the phoneme.
  • the piece information having the same opening degree as the opening degree based on the input text is not stored in the piece storage unit, the piece information having the opening degree most similar to the opening degree based on the input text. Can be selected.
  • Each unit information stored in the unit storage unit further includes phoneme environment information indicating the type of phoneme located in front of or behind the phoneme, and prosodic information
  • the unit selection unit includes: For each phoneme generated from the text, based on the phoneme type, the degree of aperture, the phoneme environment information of the phoneme, and the prosodic information, the plurality of unit information stored in the unit storage unit You may select the segment information corresponding to the said phoneme from the inside.
  • the phoneme environment and prosodic information are taken into consideration by selecting the segment information while considering both phoneme environment and prosody information consistency and aperture degree consistency. can do. For this reason, compared with the case where the segment information is selected only with the phoneme environment and the prosodic information, it is possible to reproduce the temporal change of the natural utterance mode, and thus it is possible to obtain highly natural synthesized speech.
  • the speech synthesizer described above further includes, for each phoneme generated from the text, segment information in which the type of the phoneme and the phoneme coincides from the segment information stored in the segment storage unit.
  • a target cost calculation unit that selects and calculates a cost indicating the coincidence between the phoneme environment information of the phoneme and the phoneme environment information included in the selected unit information, and the unit selection unit is generated from the text
  • segment information corresponding to the phoneme may be selected based on the degree of coincidence and cost calculated for the phoneme.
  • the unit selection unit weights, for each phoneme generated from the text, the larger the number of unit information stored in the unit storage unit, the greater the cost calculated for the phoneme.
  • the segment information corresponding to the phoneme may be selected based on the weighted cost and the degree of coincidence calculated by the aperture degree coincidence calculating unit.
  • the greater the number of piece information stored in the piece storage unit the smaller the weight of the degree of coincidence calculated by the opening degree coincidence calculating unit. . That is, the weight of the cost of the phoneme environment information and the prosodic information calculated by the target cost calculation unit is increased.
  • the degree of coincidence of the opening degree is high.
  • the opening degree coincidence calculation unit includes, for each phoneme generated from the text, an opening degree included in the piece information stored in the piece storage unit, in which the phoneme and the phoneme type match.
  • the opening degree generated by the opening degree generation unit may be normalized for each phoneme type, and the degree of coincidence between the normalized opening degrees may be calculated as the degree of coincidence.
  • the degree of opening degree coincidence is calculated using the degree of opening normalized for each phoneme type. For this reason, the degree of coincidence can be calculated after distinguishing the types of phonemes. Therefore, since appropriate segment information can be selected for each phoneme, a time variation pattern of a natural utterance mode can be reproduced, and a highly natural synthesized speech can be obtained.
  • the opening degree coincidence calculating unit calculates, as the coincidence, a difference in time direction of the opening degree generated by the opening degree generating unit and a type of the phoneme and the phoneme.
  • the degree of coincidence with the time direction difference of the opening degree included in the piece information stored in the piece storage unit may be calculated.
  • the degree of coincidence of the aperture can be calculated based on the temporal change of the aperture. For this reason, since the segment information can be selected in consideration of the opening degree of the preceding phoneme, it is possible to reproduce the time change of the natural utterance mode and to obtain a highly natural synthesized speech. .
  • the speech synthesizer described above further includes an opening degree calculation unit that calculates an opening degree corresponding to a volume in the mouth of the speaker, a type of phoneme, and the opening degree calculation unit. You may provide the segment registration part which registers the segment information containing the information of the calculated said opening degree and audio
  • This configuration makes it possible to create segment information used for speech synthesis. For this reason, it becomes possible to update the segment information used for speech synthesis at any time.
  • the speech synthesizer described above further includes a vocal tract information extraction unit that extracts vocal tract information from the voice of a speaker, and the opening degree calculation unit extracts the vocal tract information extracted by the vocal tract information extraction unit. Then, a vocal tract cross-sectional area function indicating a cross-sectional area of the vocal tract may be calculated, and a sum of the vocal tract cross-sectional areas indicated by the calculated vocal tract cross-sectional area function may be calculated as the opening degree.
  • the degree of opening using the vocal tract cross-sectional area function by calculating the degree of opening using the vocal tract cross-sectional area function, the opening considering not only the opening of the lips but also the shape of the oral cavity (for example, the position of the tongue) that cannot be observed directly from the outside.
  • the degree can be calculated.
  • the opening degree calculation unit calculates a vocal tract cross-sectional area function indicating a cross-sectional area of the vocal tract for each section from the vocal tract information extracted by the vocal tract information extraction unit, The sum of the vocal tract cross-sectional areas from the section corresponding to the lip shown to the predetermined section may be calculated as the opening degree.
  • the opening degree generation unit may generate the opening degree by using information indicating a type of phoneme generated from the text and a position in the accent phrase of the phoneme.
  • the position in the accent phrase may be a distance from the accent position in the accent phrase.
  • the accent position tends to be emphasized in the utterance, so that the opening degree tends to increase. According to this configuration, it is possible to generate an opening degree considering such an influence.
  • the opening degree generation unit may further generate the opening degree using information indicating a part of speech of a morpheme to which a phoneme generated from the text belongs.
  • Morphemes that can be content words, such as nouns and verbs, may be emphasized.
  • the opening degree tends to increase. According to this configuration, it is possible to generate an opening degree considering such a tendency.
  • a speech synthesizer is a speech synthesizer that generates synthesized speech of input text, and the type of phoneme generated from the text and the phoneme in the text For each phoneme generated from the text, using the information indicating the position, the opening degree of the phoneme located at the beginning of the sentence in the text is larger than the opening degree of the phoneme located at the end of the sentence.
  • An aperture generation unit that generates an aperture corresponding to the volume, and a segment storage unit that stores a plurality of segment information each including type of phoneme, aperture degree information, and speech segment data; For each phoneme generated from the text, based on the type and aperture of the phoneme, select the piece information corresponding to the phoneme from the plurality of piece information stored in the piece storage unit Do It includes a single selection unit, the segment information the segment selection unit selects, by using the prosodic information generated from the text, and a synthesizing unit which generates a synthesized sound of the text.
  • segment information having an opening degree that matches the opening degree based on the input text is selected. For this reason, it is possible to select segment information (speech segment) having the same utterance mode as the utterance mode based on the input text (speech with high clarity or utterance with low intelligibility). Therefore, it is possible to synthesize speech while preserving temporal changes in the utterance mode based on the input text. As a result, since the synthesized speech stores the time pattern of the change in utterance mode, it is possible to reduce deterioration of naturalness (fluency) during speech synthesis.
  • the utterance mode is, for example, a clear utterance with high clarity, or a neglected utterance with low clarity.
  • the utterance mode is affected by various factors such as the speech rate, the position within the utterance, or the position within the accent phrase. For example, in a natural utterance, the beginning of a sentence is clearly and clearly spoken. However, at the end of the sentence, lazyness occurs and the clarity tends to decrease. In the input text, the utterance mode when uttering with emphasis on a certain word is different from the utterance mode when uttering without emphasis.
  • speech synthesis can be performed in consideration of the time pattern of the above-mentioned natural utterance mode.
  • FIG. 5A shows a logarithmic vocal tract cross-sectional area function of / ma / of / ma / of “vertigo” when the above-mentioned “/ memaigashimasuxu /” is uttered
  • FIG. ) Shows a logarithmic vocal tract cross-sectional area function of / ma / of / a / when “no hot water comes out (/ oyugamaseN /)”.
  • / a / is a sound that is close to the beginning of the sentence and is included in the content word (independent word), so that the speech is clearly and clearly spoken.
  • / a / in FIG. 5 (b) is close to the end of the sentence, and the utterance mode is lazy and has low clarity.
  • the utterance manner is related to the volume in the oral cavity by carefully observing the relationship between the utterance manner and the logarithmic vocal tract cross-sectional area function.
  • the utterance state tends to be clearer, and conversely, as the volume in the oral cavity is smaller, the utterance state tends to be lazy and have a lower clarity.
  • the intraoral volume that can be calculated from speech As an index of the degree of opening, it is possible to search for speech segments having a desired utterance mode from the segment storage unit.
  • the utterance mode As a single value of intraoral volume, it is not necessary to consider various combinations of information such as the position in the utterance, the position in the accent phrase, or the presence or absence of emphasis. It becomes easy to find a speech segment having the following characteristics.
  • the present invention uses the volume in the oral cavity to preserve the temporal variation of the utterance mode and realize speech synthesis with little deterioration in naturalness. That is, by increasing the opening degree of the sentence head as compared with the opening degree of the sentence end, the speech in which the temporal variation of the occurrence mode is stored is synthesized. As a result, it is possible to synthesize a speech having a natural occurrence mode in which the beginning of the sentence is clearly and clearly uttered, and at the end of the sentence, the utterance is uttered with low intelligibility.
  • FIG. 6 is a block diagram showing a functional configuration of the speech synthesizer according to the first embodiment.
  • the speech synthesizer includes a prosody generation unit 101, an aperture generation unit 102, an element storage unit 103, an aperture degree coincidence calculation unit 104, an element selection unit 105, and a synthesis unit 106.
  • the prosodic generation unit 101 generates prosodic information using the input text. That is, the prosody generation unit 101 generates phoneme information and prosody information corresponding to the phoneme.
  • the opening degree generation unit 102 generates a time pattern of the opening degree when the input text is naturally uttered based on the input text. That is, the opening degree generation unit 102 uses the information indicating the type of phoneme generated from the input text and the position of the phoneme in the text to correspond to the volume in the oral cavity for each phoneme generated from the text. To generate an opening degree.
  • the element storage unit 103 is a storage device for storing element information for generating a synthesized sound, and is configured by, for example, an HDD (Hard Disk Drive). That is, the segment storage unit 103 stores a plurality of segment information each including the type of phoneme, information on the aperture, and vocal tract information.
  • the vocal tract information is a kind of speech segment. Details of the segment information stored in the segment storage unit 103 will be described later.
  • the opening degree matching degree calculation unit 104 calculates the degree of matching between the opening degree in the phoneme unit generated by the opening degree generation unit 102 and the opening degree of each phoneme unit stored in the unit storage unit 103. . That is, for each phoneme generated from the text, the opening degree coincidence calculation unit 104 stores, in the segment information stored in the segment storage unit 103, segment information in which the phoneme type matches the phoneme type. And the degree of coincidence between the opening degree generated by the opening degree generation unit 102 and the opening degree included in the selected piece information is calculated.
  • the element selection unit 105 selects the optimum element information from the element information stored in the element storage unit 103 based on the degree of coincidence calculated by the aperture degree coincidence calculation part 104, and selects the selected element.
  • a speech unit sequence is selected by connecting speech units included in the piece information.
  • the element selecting unit 105 displays the element information that matches the opening degree generated by the opening degree generating unit 102. It is only necessary to select from the piece information stored in the piece storage unit 103. Therefore, in such a case, the opening degree coincidence calculation unit 104 may not be provided in the speech synthesizer.
  • the synthesis unit 106 generates a synthesized sound using the speech unit sequence selected by the unit selection unit 105.
  • the prosody generation unit 101 generates prosody information for uttering the input text based on the input text.
  • the input text is composed of a plurality of characters.
  • the prosody generation unit 101 divides the text into single sentences based on information such as punctuation points, and generates prosody in units of single sentences. Note that the prosody generation unit 101 generates a prosody by similarly processing a text written in English by dividing the text into single sentences.
  • the prosody generation unit 101 linguistically analyzes the sentence and acquires language information such as phonetic symbol strings and accents.
  • the language information includes the number of mora from the beginning of the sentence, the number of mora from the end of the sentence, the position from the beginning of the accent phrase, the position from the end of the accent phrase, the accent type of the accent phrase, the distance from the accent position, the morpheme Part of speech.
  • the prosody generation unit 101 first divides the sentence into morphemes as shown in FIG.
  • the prosody generation unit 101 simultaneously analyzes part-of-speech information of each morpheme when dividing the sentence into morphemes.
  • the prosody generation unit 101 gives a reading to the divided morphemes.
  • the prosody generation unit 101 assigns an accent phrase and an accent position to the given reading information.
  • the prosody generation unit 101 acquires linguistic information as described above.
  • the prosody generation unit 101 generates prosody information based on the acquired language information (phonetic symbol string, accent information, etc.). Note that such analysis processing is not necessary when language information is preliminarily assigned to the text.
  • Prosodic information indicates the duration of each phoneme, the basic frequency pattern, or power.
  • Prosodic information generation includes, for example, a method using quantification type I and a method of generating prosodic information using HMM (Hidden Markov Model).
  • a fundamental frequency pattern is generated by using the fundamental frequency as an objective variable and explanatory variables such as phoneme symbol strings and accent positions based on the input text. Is possible. Similarly, it is possible to generate a duration pattern or power pattern by using the duration or power as an objective variable.
  • ⁇ Openness generation unit 102> As described above, the present inventors have found a new finding that the vocalization mode is related to the volume in the oral cavity by carefully observing the difference of the vocalization mode and the relationship between the logarithmic vocal tract cross-sectional area functions. .
  • the greater the volume in the oral cavity the clearer the utterance pattern tends to be. Conversely, the smaller the volume in the oral cavity, the more utterances tend to be lazy and the lower the clarity.
  • the intraoral volume that can be calculated from speech as an index of the opening degree, it is possible to search for speech segments having a desired utterance mode from the segment storage unit 103.
  • the opening degree generation unit 102 generates an opening degree corresponding to the volume in the oral cavity based on the input text. Specifically, the opening degree generation unit 102 generates a time pattern of change in the opening degree using a model indicating a time pattern of change in the opening degree learned in advance.
  • the model is generated by extracting a time pattern of change in the aperture degree from voice data uttered in advance, and performing learning based on the extracted time pattern and text information.
  • a method for calculating the aperture during model learning will be described. Specifically, a method for separating the voice into vocal tract information and sound source information based on the vocal tract sound source model and calculating the opening degree from the vocal tract information will be described.
  • the input audio signal can be generated by Equation 2.
  • S (z) is a value after the z conversion of the sound signal s (n)
  • U (z) is a value after the z conversion of the sound source signal u (n)
  • the input sound S (z) ) Is inversely filtered with the vocal tract feature 1 / A (z).
  • the PARCOR coefficient (partial autocorrelation coefficient) may be calculated using the linear prediction coefficient ⁇ analyzed by the LPC analysis. It is known that the PARCOR coefficient has better interpolation characteristics than the linear prediction coefficient.
  • the PARCOR coefficient can be calculated by using the Levinson-Durbin-Itakura algorithm.
  • the PARCOR coefficient has the following characteristics.
  • a PARCOR coefficient is used as a vocal tract feature.
  • the vocal tract feature to be used is not limited to the PARCOR coefficient, and a linear prediction coefficient may be used. Further, a line spectrum pair (LSP) may be used.
  • LSP line spectrum pair
  • an ARX model may be used as a vocal tract sound source model.
  • the vocal tract and the sound source are separated by using ARX (Autogressive with exogenous input) analysis.
  • ARX analysis is significantly different from LPC analysis in that a mathematical sound source model is used as a sound source.
  • the ARX analysis can more accurately separate vocal tract and sound source information even when the analysis section includes a plurality of fundamental periods (Non-patent Document 3: Takahiro Otsuka, Hideki Sugaya, “A robust ARX speech analysis method considering a source pulse train”, Acoustical Society of Japan, Vol. 58, No. 7, 2002, pp. 386-397).
  • Equation 3 speech is generated by the generation process shown in Equation 3.
  • S (z) represents a value after the z conversion of the audio signal s (n).
  • U (z) represents a value after the z conversion of the voiced sound source signal u (n).
  • E (z) represents the value after the z conversion of the silent noise source e (n). That is, in ARX analysis, voiced sound is generated by the first term on the right side of Equation 3, and unvoiced sound is generated by the second term on the right side.
  • AV represents the voiced sound source amplitude
  • T0 represents the pitch period
  • OQ represents the glottal opening rate.
  • the glottal opening rate OQ indicates a rate at which the glottal is opened in one pitch period. It is known that the greater the glottal opening rate OQ, the softer the voice.
  • ARX analysis has the following advantages compared to LPC analysis.
  • the opening degree generation unit 102 calculates an opening degree representing the volume in the oral cavity from the vocal tract information obtained in this way. Specifically, the vocal tract cross-sectional area function is calculated from the PARCOR coefficient extracted as the vocal tract feature using Equation 5.
  • k i represents the i-th order PARCOR coefficient
  • a i represents the i-th vocal tract cross-sectional area
  • a N + 1 1.
  • FIG. 8 is a diagram showing a logarithmic vocal tract cross-sectional area function of a vowel / a / of a certain utterance.
  • the vocal tract from the glottis to the lips is divided into 11 sections, where section 11 represents the glottis and section 1 represents the lips.
  • the opening degree generation unit 102 calculates the opening degree C defined by Expression 6 with respect to the uttered voice. By calculating the degree of opening (volume in the mouth) using the vocal tract cross-sectional area function in this way, the shape of the mouth (for example, the position of the tongue) that cannot be observed directly from the outside world, not just the opening of the lips. Can also be considered.
  • FIG. 9 shows a temporal change in the degree of opening calculated by Expression 6 in the utterance “/ memaigashimasuxu /”.
  • the opening degree generation unit 102 uses the opening degree calculated as described above as an objective variable, information (for example, phoneme type, accent information, prosodic information) obtained from the input text as an explanatory variable, and the fundamental frequency etc.
  • information for example, phoneme type, accent information, prosodic information
  • the aperture generation model is learned in the same manner as the prosody information learning.
  • the input text consists of multiple characters.
  • the aperture generation unit 102 divides the text into single sentences based on information such as punctuation marks, and generates prosody in single sentence units. Note that the opening degree generation unit 102 similarly processes a text written in English by dividing the text into single sentences and generates prosody.
  • the aperture generation unit 102 linguistically analyzes the sentence and acquires linguistic information such as phonetic symbol strings and accents.
  • the language information includes the number of mora from the beginning of the sentence, the number of mora from the end of the sentence, the position from the beginning of the accent phrase, the position from the end of the accent phrase, the accent type of the accent phrase, the distance from the accent position, the morpheme Part of speech.
  • the aperture generation unit 102 first divides the sentence into morphemes as shown in FIG.
  • the opening degree generation unit 102 simultaneously analyzes part-of-speech information of each morpheme when dividing the sentence into morphemes.
  • the aperture generation unit 102 gives a reading to the divided morphemes.
  • the opening degree generation unit 102 gives an accent phrase and an accent position to the given reading information.
  • the opening degree generation unit 102 acquires language information as described above.
  • the aperture generation unit 102 uses the prosodic information (duration, intensity, fundamental frequency of each phoneme) acquired by the prosody generation unit 101 as an explanatory variable.
  • the opening degree generation unit 102 generates opening degree information based on the linguistic information and prosodic information (phonetic symbol string, accent information, etc.) thus obtained. In addition, when language information and prosodic information are given in advance to the text, such analysis processing is unnecessary.
  • the learning method is not particularly limited, for example, the relationship between the linguistic information extracted from the text information and the opening degree can be learned using the quantification class I.
  • Phonemes are used as a unit for generating the aperture.
  • the unit is not limited to phonemes, and mora or syllables may be used.
  • Quantification Class I uses Equation 7 to learn the quantity for each category of each explanatory variable, and estimates the quantity of the objective variable as the sum.
  • x fc is a function of the category c of the explanatory variable f
  • ⁇ fc is a function that gives 1 only when the explanatory variable f takes the category c, and gives 0 otherwise.
  • the model can be learned by determining the quantity x fc based on the learning data.
  • the opening degree fluctuates in relation to phoneme type, accent information, prosodic information, and other language information. Therefore, these pieces of information are used as explanatory variables.
  • FIG. 10 shows examples of control factors and their categories used as explanatory variables.
  • the “phoneme type” is the i-th phoneme type of the text. This is effective when estimating the degree of opening because the degree of opening of the lips and the degree of opening of the chin change depending on the phoneme. For example, / a / is a wide vowel and tends to have a large aperture. On the other hand, narrow vowels such as / i / tend to have a small aperture.
  • the number of mora from the beginning of sentence is an explanatory variable indicating the number of mora in which the mora including the phoneme corresponds from the beginning of the sentence.
  • the opening degree tends to decrease from the beginning of the sentence to the end of the sentence in normal utterances, and is therefore effective in estimating the opening degree.
  • the “number of mora from the end of sentence” is effective in estimating the opening degree based on how close to the end of the sentence.
  • the “position from the beginning of the accent phrase” and “position from the end of the accent phrase” indicate the mora position in the sentence of the accent phrase including the phoneme.
  • “Accent type of the accent phrase” indicates the accent type of the accent phrase including the phoneme. By using the accent type, it is possible to consider the pattern of changes in the fundamental frequency.
  • “Distance from accent position” indicates how many mora the phoneme is from the accent position. Since the accent position tends to be emphasized in the utterance, the opening degree tends to increase.
  • the part of speech of the morpheme is the part of speech of the morpheme containing the phoneme. Morphological characters that can be content words, such as nouns and verbs, may be emphasized. In the case of emphasis, the opening degree tends to increase, and this is taken into consideration.
  • the fundamental frequency of the phoneme is the fundamental frequency when the phoneme is uttered. It may be emphasized as the fundamental frequency is higher. For example, “ ⁇ 100” indicates that the fundamental frequency is less than 100 Hz.
  • the duration of the phoneme is the time length when the phoneme is generated. Phonemes with long durations may be emphasized. For example, “ ⁇ 10” indicates that the duration time is less than 10 msec.
  • the opening degree generation unit 102 calculates the opening degree that is the value of the objective variable by substituting the value into the explanatory variable of Expression 7.
  • the value of the explanatory variable is generated by the prosody generation unit 101.
  • the calculation method of the opening degree is not limited to the above method.
  • the shape of the vocal tract is extracted using MRI (Magnetic Resonance Imaging) at the time of voice utterance, and the above method and Similarly, the opening degree may be calculated from the volume of the section corresponding to the oral cavity.
  • MRI Magnetic Resonance Imaging
  • a magnetic marker may be pasted in the oral cavity at the time of speaking, and the opening degree that is the volume in the oral cavity may be estimated from the positional information of the magnetic marker.
  • the segment storage unit 103 stores segment information including a speech segment and an opening degree.
  • the speech segment is stored in units such as phonemes, syllables, and mora. In the following description, the unit of the speech unit is described as a phoneme.
  • the element storage unit 103 stores element information of the same phoneme type and different apertures.
  • the information of the speech unit stored in the segment storage unit 103 is a speech waveform.
  • the information on the speech segment is vocal tract information and sound source information separated based on the above-described vocal tract sound source model.
  • the opening degree corresponding to each speech element can be calculated by the method described above.
  • FIG. 11 shows an example of segment information stored in the segment storage unit 103.
  • the phoneme types 1 and 2 have the same phoneme type / a /.
  • the opening degree of phoneme number 2 is 12 while the opening degree of phoneme number 1 is 10.
  • the segment storage unit 103 stores segment information having the same phoneme type and different opening degrees. However, it is not necessary to store segment information with different apertures for all phoneme types.
  • the segment storage unit 103 includes a phoneme number for identifying segment information, a phoneme type, vocal tract information (PARCOR coefficient) that is a speech segment, an opening degree, and a speech segment.
  • a certain phoneme environment, sound source information in a predetermined section that is a speech unit, prosodic information that is a speech unit, and a duration length are stored.
  • the phoneme environment includes, for example, front or rear phoneme information, front or rear syllable information, or front or rear phoneme articulation points.
  • FIG. 11 shows front or rear phoneme information.
  • the sound source information includes the spectrum inclination and the glottal openness.
  • the prosody information includes a fundamental frequency (F0), power, and the like.
  • the opening degree coincidence calculation unit 104 identifies unit information having the same phoneme type and phoneme type included in the input text from the unit information stored in the unit storage unit 103.
  • the opening degree matching degree calculation unit 104 calculates an opening degree matching degree S ij that is a degree of matching between the opening degree included in the identified segment information and the opening degree generated by the opening degree generation unit 102.
  • the opening degree coincidence calculation unit 104 is connected to the segment storage unit 103 by wire or wirelessly, and transmits and receives information including segment information and the like.
  • the opening degree coincidence S ij can be calculated as follows.
  • the degree of opening degree coincidence S ij shown below indicates that the smaller the value, the higher the degree of coincidence between the opening degree C i and the opening degree C j .
  • the openness coincidence calculation unit 104 stores the openness C i calculated by the openness generation unit 102 and the segment unit for each phoneme generated from the input text as shown in Expression 8.
  • the opening degree coincidence S ij is calculated from the difference from the opening degree C j included in the piece information of the same phoneme type as the target phoneme stored in the unit 103.
  • the opening degree coincidence calculation unit 104 may calculate the opening degree for each phoneme generated from the input text according to the following Expression 9 and Expression 10. That is, the opening degree coincidence calculation unit 104 normalizes the opening degree C i calculated by the opening degree generation unit 102 by the average value and the standard deviation of the opening degree of the phoneme as shown in Expression 10, thereby obtaining a phoneme. A normalized aperture C i P is calculated. Also, the opening degree coincidence calculation unit 104 calculates the opening degree C j included in the piece information of the same phoneme type as the target phoneme stored in the unit storage unit 103 based on the average value and the standard deviation of the opening degree of the phoneme. By normalizing, the phoneme normalized aperture C j P is calculated. The opening degree coincidence calculation unit 104 calculates the opening degree coincidence S ij based on the difference between the phoneme normalized opening degree C i P and the phoneme normalized opening degree C j P.
  • E i represents the average aperture of the i-th phoneme
  • V i represents the standard deviation of the aperture of the i-th phoneme
  • the phoneme normalized opening degree C j P may be stored in the segment storage unit 103 in advance. In this case, the opening degree matching degree calculation unit 104 does not need to calculate the phoneme normalized opening degree C j P.
  • the opening degree coincidence calculating unit 104 may calculate the opening degree for each phoneme generated from the input text according to the following Expression 9 and Expression 10. That is, the aperture degree coincidence calculation unit 104 calculates an aperture difference value C i D , which is the difference between the aperture C i generated by the aperture generation unit 102 and the aperture of the preceding phoneme, as shown in Expression 11. calculate. Also, the opening degree coincidence calculation unit 104 has an opening degree that is a difference between the opening degree C j of the same phoneme type data stored in the segment storage unit 103 and the opening degree of the preceding phoneme of the phoneme. The difference value C j D is calculated. The opening degree coincidence calculation unit 104 calculates the opening degree coincidence based on the difference between the opening degree difference value C i D and the opening degree difference value C j D.
  • the degree of coincidence of the opening degree may be calculated by combining the above methods. Specifically, it may be calculated by the weighted sum of the matching degrees.
  • the unit selection unit 105 For each phoneme generated from the input text, the unit selection unit 105 selects a target phoneme from a plurality of unit information stored in the unit storage unit 103 based on the type and aperture of the target phoneme. Select the corresponding segment information.
  • the unit selection unit 105 selects a speech unit from the unit storage unit 103 for each phoneme corresponding to the input text, using the degree of coincidence calculated by the opening degree coincidence calculation unit 104.
  • the opening degree matching degree S i, j (i) calculated by the opening degree matching degree calculation unit 104 and the connection cost between adjacent elements are calculated.
  • a speech unit that minimizes C C j (i ⁇ 1), j (i) is selected from the unit storage unit 103.
  • the minimum connection cost means that the similarity is high.
  • connection cost C C j (i ⁇ 1), j (i) between adjacent segments is, for example, u j (i ⁇ ) , where u j (i ⁇ 1) and u j (i) are continuous speech segments. It can be calculated by the continuity between the end of 1) and the start of u j (i) .
  • the calculation method of the connection cost is not particularly limited, and can be calculated by using, for example, a cepstrum distance at the connection position of the speech unit.
  • Equation 12 i is the i-th phoneme included in the input text, N is the number of phonemes in the input text, and j (i) represents the segment selected as the i-th phoneme.
  • segment information stored in the segment storage unit 103 includes the vocal tract feature analyzed by the above-described vocal tract sound source model and the parameters of the sound source feature, analysis between speech units is performed. It is possible to connect continuously by interpolation between parameters. For this reason, since speech segments can be connected relatively easily with little deterioration in sound quality, segment selection may be performed using only the degree of coincidence of apertures. Specifically, a sequence j (i) of speech segments as shown in Expression 13 is selected.
  • the unit selection unit 105 causes the speech unit corresponding to the opening degree generated by the opening degree generation unit 102 to be stored in the unit storage unit.
  • the number 103 may be uniquely selected.
  • the synthesis unit 106 uses the segment information selected by the segment selection unit 105 and the prosodic information generated by the prosody generation unit 101 to generate a synthesized sound (text synthesized sound) that reads out the input text. .
  • the speech unit included in the unit information stored in the unit storage unit 103 is a speech waveform
  • synthesis is performed by connecting speech waveforms.
  • the connection method is not particularly limited.
  • the connection may be made at a connection point that minimizes distortion during connection of the speech element.
  • the speech unit sequence selected by the unit selection unit 105 may be connected as it is, or each speech unit may be matched with the prosodic information generated by the prosody generation unit 101. You may make it connect after deform
  • the synthesis unit 106 connects each of the vocal tract information and the sound source information. And synthesize the speech.
  • the combining method is not particularly limited, but when a PARCOR coefficient is used as the vocal tract information, PARCOR combining may be used.
  • the speech synthesis may be performed after converting the PARCOR coefficient to the LPC coefficient, or the formant may be extracted and the speech synthesis may be performed by formant synthesis.
  • the LSP coefficient may be calculated from the PARCOR coefficient, and speech synthesis may be performed by LSP synthesis.
  • voice synthesis may be performed after the vocal tract information and the sound source information are transformed according to the prosody information generated by the prosody generation unit 101. In this case, a high-quality synthesized sound can be obtained even when the number of segments stored in the segment storage unit 103 is small.
  • step S101 the prosody generation unit 101 generates prosody information based on the input text.
  • step S002 the opening degree generation unit 102 generates a time pattern of the opening degree of the phoneme series included in the input text based on the input text.
  • step S003 the opening degree coincidence calculation unit 104 calculates the opening degree of each phoneme of the phoneme series included in the input text calculated in step S002 and the opening degree of the unit information stored in the unit storage unit 103. The degree of coincidence with is calculated. Also, the segment selection unit 105 selects a speech segment for each phoneme sequence included in the input text based on the calculated degree of coincidence and / or the prosodic information calculated in step S101.
  • step S004 the synthesizer 106 synthesizes speech using the speech unit sequence selected in step S003.
  • a change in the utterance manner (clarity) of each phoneme based on the input text and a change in the utterance manner of the synthesized sound were actually uttered. Since it becomes the same as the change of the utterance mode learned from the voice, it is possible to reduce the deterioration of the sound quality caused by the unnaturalness of the utterance mode.
  • the volume of the oral cavity (opening degree) is used as a reference for selecting speech segments, compared to the case of constructing the segment storage unit 103 by directly considering linguistic and physiological conditions, There is also an effect that the number of data in the segment storage unit 103 can be reduced.
  • the description is made using Japanese speech, but the present invention is not limited to Japanese, and speech synthesis can be performed similarly in other languages including English.
  • FIG. 13 is a configuration diagram showing a modification of the speech synthesizer according to Embodiment 1 of the present invention.
  • the same components as those in FIG. 13 are identical to FIG. 13 and the same components as those in FIG. 13;
  • the speech synthesizer according to the first modification of the first embodiment has a configuration in which the target cost calculator 109 is added to the configuration of the speech synthesizer shown in FIG.
  • the segment selection unit 105 selects a segment series from the segment storage unit 103, it is included in the input speech as well as the aperture degree coincidence calculated by the aperture degree coincidence calculation unit 104.
  • the phoneme environment is selected based on the phoneme environment of the phoneme to be selected, the phoneme environment of each phoneme included in the unit storage unit 103, and the similarity of the prosodic information.
  • ⁇ Target cost calculation unit 109 The target cost calculation unit 109, for each phoneme included in the input text, the phoneme environment of the phoneme and the prosody information generated by the prosody generation unit 101, the phoneme environment of the unit information included in the unit storage unit 103, The cost is calculated based on the similarity of the prosodic information.
  • the target cost calculation unit 109 calculates the cost by calculating the similarity between phoneme types before and after the phoneme of interest. For example, the cost d is added as a penalty when the preceding phoneme of the phoneme included in the input text and the preceding phoneme in the phoneme environment of the segment information having the same phoneme type as the target phoneme do not match. Similarly, when the subsequent phoneme of the phoneme included in the input text does not match the subsequent phoneme in the phoneme environment of the segment information having the same phoneme type as the target phoneme, the cost d is added as a penalty. The cost d need not be the same value for the preceding phoneme and the succeeding phoneme. For example, the matching degree of the preceding phoneme may be given priority.
  • the penalty may be changed according to the similarity of phonemes. For example, when the phoneme category (plosive sound, friction sound, etc.) is the same, the penalty may be reduced. Further, when the articulation position (gum sound, palate sound, etc.) is the same, the penalty may be reduced. As described above, the cost C ENV indicating the coincidence between the phoneme environment of the phonemes included in the input text and the phoneme environment of the segment information included in the segment storage unit 103 is calculated.
  • the cost is calculated by the difference between the fundamental frequency, duration length, and power calculated by the prosody generation unit 101 and the fundamental frequency, duration length, and power of the segment information stored in the segment storage unit 103.
  • C F0 , F DUR , and C POW are calculated respectively.
  • the target cost calculation unit 109 calculates the target cost by weighting and adding the above-described costs as shown in Expression 14.
  • the method for setting the weights p1, p2, and p3 is not particularly limited.
  • the segment selection unit 105 uses the coincidence calculated by the openness coincidence calculation unit 104, the cost calculated by the target cost calculation unit 109, and the connection cost between speech units for each phoneme. Then, a speech unit sequence is selected from the unit storage unit 103.
  • Connection cost C c of the adjacent element pieces is a speech segment contiguous
  • u i, u j can be calculated, for example, the end of the u i, the continuity with the starting end of the u j.
  • the calculation method of the connection cost is not particularly limited, and can be calculated by using, for example, a cepstrum distance at the connection position of the speech unit.
  • the setting method of the weights w 1 and w 2 is not particularly limited, and may be determined appropriately in advance.
  • the weight may be adjusted according to the data size of the segment storage unit 103. Specifically, the larger the number of pieces of piece information stored in the piece storage unit 103 is, the larger the cost weight w 1 calculated by the target cost calculation unit 109 is.
  • the cost weight w 1 calculated by the target cost calculation unit 109 may be reduced as the number of segment information is smaller.
  • the weight is adjusted according to the number of unit information stored in the unit storage unit 103 (stored in the unit storage unit 103). If the number of segment information stored in the segment storage unit 103 is small by decreasing the weight of the cost calculated by the target cost calculation unit 109 as the number of segment information is smaller) Give priority to matching. As a result, even when there is no speech unit having a high degree of coincidence such as a phoneme environment, the utterance modes are matched by selecting a speech unit having a high degree of coincidence of the opening degree. For this reason, since the time change of the natural utterance mode as a whole can be reproduced, a highly natural synthesized sound can be obtained.
  • FIG. 14 is a configuration diagram showing another modification of the speech synthesis device according to Embodiment 1 of the present invention.
  • the speech synthesizer according to the second modification of the first embodiment includes a speech recording unit 110, a phoneme environment extraction unit 111, a prosody information extraction unit 112, and a vocal tract information extraction unit in the configuration of the speech synthesis device illustrated in FIG. 115, an opening degree calculation unit 113, and a segment registration unit 114 are added. That is, the present modification is different from the first embodiment in that a processing unit for constructing the segment storage unit 103 is further provided.
  • the voice recording unit 110 records the voice of the speaker.
  • the phoneme environment extraction unit 111 extracts a phoneme environment including front and rear phoneme types for each phoneme included in the recorded speech.
  • the prosodic information extraction unit 112 extracts prosodic information including duration, fundamental frequency, and power information for each phoneme included in the recorded speech.
  • the vocal tract information extraction unit 115 extracts vocal tract information from the voice of the speaker.
  • the opening degree calculation unit 113 calculates the opening degree for each phoneme included in the recorded voice from the vocal tract information extracted by the vocal tract information extraction unit.
  • the calculation method of the opening degree is the same as the calculation method of the opening degree when the opening degree generation unit 102 in the first embodiment generates a model indicating the time pattern of the change in the opening degree.
  • the segment registration unit 114 registers the information obtained by the phoneme environment extraction unit 111, the prosody information extraction unit 112, and the aperture calculation unit 113 in the segment storage unit 103 as segment information.
  • step S201 the voice is recorded by the speaker, and the voice recording unit 110 records the voice of the sentence set.
  • the voice recording unit 110 records, for example, hundreds to thousands of sentences.
  • the scale of the recorded audio is not particularly limited.
  • step S202 the phoneme environment extraction unit 111 extracts a phoneme environment including front and rear phoneme types for each phoneme included in the recorded sentence set speech.
  • step S203 the prosodic information extraction unit 112 extracts prosodic information including duration, fundamental frequency, and power for each phoneme included in the recorded sentence set speech.
  • step S204 the vocal tract information extraction unit 115 extracts vocal tract information for each phoneme included in the voice of the recorded sentence set.
  • the opening degree calculation unit 113 calculates the opening degree for each phoneme included in the voice of the recorded sentence set. Specifically, the opening degree calculation unit 113 calculates the opening degree using the vocal tract information. That is, from the vocal tract information extracted by the vocal tract information extraction unit 115, a vocal tract cross-sectional area function indicating the cross-sectional area of the vocal tract is calculated, and the sum of the vocal tract cross-sectional areas indicated by the calculated vocal tract cross-sectional area function is calculated as follows: Calculated as the degree of opening.
  • the vocal tract information extraction unit 115 may calculate the sum of the vocal tract cross-sectional areas from the section corresponding to the lip indicated by the calculated vocal tract cross-sectional area to a predetermined section as the opening degree.
  • step S206 the segment registering unit 114 stores the information obtained in steps S202 to S205 and the speech unit of the phoneme (for example, speech waveform) included in the speech recorded by the speech recording unit 110. Register with.
  • the speech unit of the phoneme for example, speech waveform
  • the speech synthesizer can record the speech of the speaker and create the segment storage unit 103, so that the quality of the synthesized speech obtained can be updated as needed.
  • segment storage unit 103 By using the segment storage unit 103 created as described above, when synthesizing speech from the input text, it is possible to preserve temporal changes of the utterance mode while maintaining phonological properties. As a result, it is possible to preserve temporal changes in the phonological characteristics and utterances of each vowel, so that it is possible to synthesize high-quality speech with reduced naturalness (fluency) degradation.
  • each of the above devices may be specifically configured as a computer system including a microprocessor, ROM, RAM, hard disk drive, display unit, keyboard, mouse, and the like.
  • a computer program is stored in the RAM or hard disk drive.
  • Each device achieves its functions by the microprocessor operating according to the computer program.
  • the computer program is configured by combining a plurality of instruction codes indicating instructions for the computer in order to achieve a predetermined function.
  • this computer program is generated from text using information indicating the step of generating prosody information using text, the type of phoneme generated from the text, and the position of the phoneme in the text.
  • Generating an opening degree corresponding to the volume in the oral cavity so that the opening degree of the phoneme located at the beginning of the sentence is larger than the opening degree of the phoneme located at the end of the sentence for each phoneme A plurality of segment information each including a phoneme type, an aperture degree information, and speech segment data, stored in the segment storage unit for each phoneme based on the phoneme type and the aperture degree
  • the system LSI is an ultra-multifunctional LSI manufactured by integrating a plurality of components on a single chip, and specifically, a computer system including a microprocessor, ROM, RAM, and the like. .
  • a computer program is stored in the RAM.
  • the system LSI achieves its functions by the microprocessor operating according to the computer program.
  • each of the above-described devices may be configured from an IC card or a single module that can be attached to and detached from each device.
  • the IC card or module is a computer system that includes a microprocessor, ROM, RAM, and the like.
  • the IC card or the module may include the super multifunctional LSI described above.
  • the IC card or the module achieves its function by the microprocessor operating according to the computer program. This IC card or this module may have tamper resistance.
  • the present invention may be the method described above. Further, the present invention may be a computer program that realizes these methods by a computer, or may be a digital signal composed of the computer program.
  • the present invention relates to a non-transitory recording medium that can read the computer program or the digital signal, such as a flexible disk, a hard disk, a CD-ROM, an MO, a DVD, a DVD-ROM, a DVD-RAM, a BD ( It may be recorded on a Blu-ray Disc (registered trademark), a semiconductor memory, or the like.
  • the digital signal may be recorded on these non-temporary recording media.
  • the computer program or the digital signal may be transmitted via an electric communication line, a wireless or wired communication line, a network represented by the Internet, data broadcasting, or the like.
  • the present invention may also be a computer system including a microprocessor and a memory.
  • the memory may store the computer program, and the microprocessor may operate according to the computer program.
  • the present invention may include one in which various modifications conceived by those skilled in the art have been made in the present embodiment or a combination of components in different embodiments without departing from the spirit of the present invention. It may be included within the scope of multiple embodiments.
  • FIG. 17 is a block diagram showing a functional configuration of a speech synthesizer including components essential for the present invention.
  • the speech synthesizer is a device that generates a synthesized sound of input text, and includes an aperture generation unit 102, a segment selection unit 105, and a synthesis unit 106.
  • the opening degree generation unit 102 uses the information indicating the type of phoneme generated from the text and the position of the phoneme in the text, for each phoneme generated from the text, the opening of the phoneme located at the beginning of the sentence in the text.
  • the opening degree corresponding to the volume in the oral cavity is generated so that the degree is larger than the opening degree of the phoneme located at the end of the sentence.
  • the segment selection unit 105 is generated from text from a segment storage unit (not shown), each storing a plurality of segment information including phoneme type, aperture information, and speech segment data. For each phoneme, the unit information corresponding to the phoneme is selected from the plurality of unit information stored in the unit storage unit based on the type and aperture of the phoneme.
  • the synthesizing unit 106 generates a synthesized sound of the text using the segment information selected by the segment selecting unit 105 and the prosodic information generated from the text. Note that the synthesizing unit 106 may generate prosodic information, or may acquire it from the outside (for example, the prosody generating unit 101 shown in the first embodiment).
  • a speech synthesizer is an information device that has a function of synthesizing speech while preserving temporal changes in speech utterances when spontaneously uttered estimated from input text and requires natural synthesized speech This is useful in applications such as user interfaces for home appliances.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

 音声合成装置は、入力されたテキストから生成される音素の種類と当該音素のテキスト中における位置とを示す情報を用いて、テキストから生成される音素ごとに、テキスト中において文頭に位置する音素の開口度は文末に位置する音素の開口度よりも大きくなるように、口腔内の容積に対応する開口度を生成する開口度生成部(102)と、各々が、音素の種類、開口度の情報および音声素片データを含む複数の素片情報を記憶している素片記憶部から、テキストから生成される音素ごとに、当該音素の種類および開口度に基づいて、素片記憶部に記憶されている複数の素片情報の中から、当該音素に対応する素片情報を選択する素片選択部(105)と、素片選択部(105)が選択した素片情報と、テキストから生成された韻律情報とを用いて、テキストの合成音を生成する合成部(106)とを備える。

Description

音声合成装置および音声合成方法
 本発明は自然な合成音声を生成可能な音声合成装置およびその方法に関する。
 近年、音声合成技術の発達により、非常に高音質な合成音を作成することが可能となってきた。肉声感の高い音声合成装置として、大規模な素片記憶部から音声波形を選択して接続する波形接続方式の音声合成装置がある(例えば、特許文献1参照)。図17は、波形接続型の音声合成装置の典型的な構成図である。
 図17に示す音声合成装置は、言語解析部501と、韻律生成部502と、音声素片DB(データベース)503と、素片選択部504と、波形接続部505とを含む。
 言語解析部501は、入力されたテキストを言語的に解析し、発音記号およびアクセント情報を出力する。韻律生成部502は、言語解析部501により出力された発音記号およびアクセント情報に基づいて、発音記号毎に基本周波数、継続時間長、パワーなどの韻律情報を生成する。音声素片DB503は、予め収録された音声素片データ(以下、単に「音声素片」と言う。)としての音声波形を記憶する素片記憶部である。素片選択部504は、韻律生成部502により生成された韻律情報に基づいて、音声素片DB503より最適な音声素片を選択する。波形接続部505は、素片選択部504により選択された音声素片を接続することにより、合成音を生成する。
特開平10-247097号公報 特開2004-125843号公報
北村達也他、「母音発声時の声道断面積関数の個人差について」、日本音響学会2004年春季研究発表会講演論文集-I-、社団法人日本音響学会、2004年3月 楊長盛他、「声道形状の違いがフォルマント周波数の非一様性に及ぼす影響」、日本音響学会研究発表会議講演論文集 春I、1996年
 特許文献1の音声合成装置は、入力されたテキストに対する音素環境および韻律情報に基づいて、素片記憶部に記憶されている音声素片を選択し、選択した音声素片を接続することで音声を合成している。
 しかしながら、合成音声が保有すべき声質を、上述の音素環境および韻律情報のみから決定することは困難である。
 本発明者らは、発声様態の時間変化が入力音声の時間変化と異なると、合成音声における発声様態の変化の自然性を保持することができなくなり、結果として合成音の自然性が大きく劣化することを見出した。
 本発明は、上記の点に鑑みてなされたものであり、入力されたテキストを自然発生した場合の音声が保有する発声様態の時間的変動を保持しながら音声を合成することで、音声合成時の自然性の劣化を低減した音声合成装置を提供する。
 本発明のある局面に係る音声合成装置は、入力されたテキストの合成音を生成する音声合成装置であって、前記テキストから生成される音素の種類と当該音素の前記テキスト中における位置とを示す情報を用いて、前記テキストから生成される音素ごとに、前記テキスト中において文頭に位置する音素の開口度は文末に位置する音素の開口度よりも大きくなるように、口腔内の容積に対応する開口度を生成する開口度生成部と、各々が、音素の種類、開口度の情報および音声素片データを含む複数の素片情報を記憶している素片記憶部から、前記テキストから生成される音素ごとに、当該音素の種類および開口度に基づいて、前記素片記憶部に記憶されている前記複数の素片情報の中から、当該音素に対応する素片情報を選択する素片選択部と、前記素片選択部が選択した前記素片情報と、前記テキストから生成された韻律情報とを用いて、前記テキストの合成音を生成する合成部とを備える。
 なお、これらの全般的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なCD-ROMなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラムおよび記録媒体の任意な組み合わせで実現されてもよい。
 本発明は、入力されたテキストを自然発生した場合の音声が保有する発声様態の時間的変動を保持しながら音声を合成することで、音声合成時の自然性の劣化を低減した音声を合成できる。
図1は、人間の発声機構を示す図である。 図2は、発声様態の違いによる声道伝達特性の違いを示す図である。 図3は、発声様態の時間的変動を示す概念図である。 図4は、発声様態の違いによるフォルマント周波数の違いの一例を示す図である。 図5は、発声様態の違いによる声道断面積関数の違いを示す図である。 図6は、本発明の実施の形態1における音声合成装置の構成図である。 図7は、韻律情報の生成方法を説明するための図である。 図8は、声道断面積関数の例を示す図である。 図9は、発声内における開口度の時間パターンを示す図である。 図10は、説明変数として用いる制御要因とそのカテゴリの例を示す図である。 図11は、素片記憶部に記憶されている素片情報の例を示す図である。 図12は、本発明の実施の形態1における音声合成装置の動作を示すフローチャートである。 図13は、本発明の実施の形態1の変形例1に係る音声合成装置の構成図である。 図14は、本発明の実施の形態1の変形例2に係る音声合成装置の構成図である。 図15は、本発明の実施の形態1の変形例2に係る音声合成装置の動作を示すフローチャートである。 図16は、本発明に必須の構成要素を備える音声合成装置の構成図である。 図17は、従来の音声合成装置の構成図である。
 (本発明の基礎となった知見)
 自然な発声における声質は、音声の発話速度、発話内の音声の位置、またはアクセント句内における位置を含むさまざまな要因の影響を受ける。例えば、自然な発話においては、文頭ははっきりと明瞭度高く発声するが、文末では発音の怠けが発生し、明瞭度が低下する傾向がある。さらには、発話において、ある単語が強調されている場合は、その単語の声質は、強調されない場合と比較すると明瞭度が高くなる傾向がある。
 図1に、人間の声帯および声道を示す。以下、人間の音声の生成原理を説明する。人間の音声の生成過程を説明する。図1に示す声帯1601の振動により生成される音源波形が、声門1602から口唇1603までにより構成される声道1604を通過する。声道1604を通過する際に、舌などの調音器官による狭めなどの影響を受けることにより生成される。分析合成型音声合成法は、このような音声の生成原理に基づいて、人間の音声を分析する。具体的には、音声を声道情報と音源情報に分離することにより、声道情報および音源情報を取得する。例えば、音声の分析方法として、声道音源モデルと呼ばれるモデルが使用される。声道音源モデルによる分析では、音声の生成過程に基づいて、人間の音声を音源情報と声道情報に分離する。
 図2に、上記声道音源モデルにより同定された声道伝達特性を示す。図2の横軸は周波数を表し、縦軸はスペクトル強度を表す。図2は、同一話者が発声した音声であり、かつ、直前の音素が同一の音素を分析した結果の声道伝達特性を示す。対象となる音素の直前の音素を、先行音素と称する。
 図2に示す曲線201は、「めまいがします(/memaigashimasxu/)」と発声した際の「めまい」の/ma/の/a/が持つ声道伝達特性を示す。曲線202は、「お湯が出ません(/oyugademaseN/)」と発声した際の/ma/の/a/が持つ声道伝達特性を示す。図2において、上方向のピークは、共振周波数のフォルマントを示す。図2に示すように、フォルマントの位置(周波数)およびスペクトル強度は、同じ先行音素を持つ母音同士で比較しても、大きく異なることがわかる。
 曲線201は文頭に近く、かつ内容語(content word)である。一方、曲線202は、文末に近く、かつ機能語(function word)である。ここで、機能語とは、文法的な役割を有する語であり、英語においては、前置詞(preposition)、接続詞(conjunction)、冠詞(article)、助動詞(adverb)などが含まれる。また、内容語とは、それ以外の一般的な意味を有する語であり、英語においては、名詞(noun)、形容詞(adjective)、動詞(verb)、副詞(adverb)などが含まれる。また、聴感上においても、曲線201で示される声道伝達特性を有する母音/a/の方がより明瞭に聞こえる。このように、自然な発話においては、文章内の音素の位置に応じて、音素を発声する方法が異なる。人間は、「ハッキリと発声し、明瞭な音声」または「怠けて発声し、不明瞭な音声」のように、意識的あるいは無意識に発声の仕方を変えている。このような発声方法の違いを、本明細書において「発声様態」と呼ぶ。発声様態は、文章内における音素の位置だけではなく、その他の様々な言語的および生理的な影響を受けて変動している。文章内における音素の位置を、「音素環境」と称する。以上のように、音素環境が同じであっても発声様態が異なると声道伝達特性は異なる。つまり、選択すべき音声素片は異なる。
 特許文献1の音声合成装置は、上述の発声様態の変動を考慮することなく、音素環境および韻律情報を用いて音声素片を選択し、選択した音声素片を用いて、音声合成を行っている。合成された音声の発声様態は、自然に発声された音声が持つ発声様態と異なる。その結果、合成音における発声様態の時間変化は、自然音声の時間変化とは異なる。よって、合成音は、人間の通常の発話に対して、非常に不自然な音声となる。
 図3に、発声様態の時間変化を示す。図3(a)は、「めまいがします(/memaigashimasxu/)」と自然に発声した際の発声様態の時間変化を示している。自然に発声した音声では、文頭ははっきりと明瞭度高く発声する傾向があり、文末に近づくと怠けた発声になる傾向がある。図3において、Xで示す音素は、はっきりした発声であり、かつ、明瞭度が高い。Yで示す音素は、怠けた発声であり、かつ、明瞭度が低い。つまり、この例では、文章における前半部分は、Xの音素が多いため、明瞭度が高い発声様態である。文章における後半部分は、Yの音素が多いため、明瞭度が低い発声様態を示す。
 一方、図3(b)は、従来の選択基準によって、音声素片を選択した場合の合成音が持つ発声様態の時間変化を示す。従来の選択基準では、音素環境または韻律情報などから音声素片を選択している。このため、発声様態は入力された選択基準に制約されることなく変動する。
 例えば、図3(b)に示すように、Xで示すはっきりと明瞭に発声された音素と、Yで示す怠けて発声された音素とが交互に出現することが考えられる。
 このように自然な発声では起こりえない、発声様態の時間変化をもつ合成音は、自然性が大きく劣化する。
 図4は、「お湯が出ません(/oyugademaseN/)」と発声した音声に対して、ハッキリと明瞭度高く発声した場合の/a/を用いて音声を合成した場合のフォルマント401の動きの一例を示す。
 図4の横軸は時刻であり、縦軸はフォルマント周波数を示す。周波数の低い方から第1、第2、第3フォルマントを表している。/ma/において、別の発声様態(ハッキリと明瞭度高く発声)の/a/を用いて音声を合成した場合のフォルマント402は、本来の発声(ハッキリと明瞭度高い発声)のフォルマント401とフォルマント周波数が大きく異なることがわかる。このように、本来の発声の音声素片とフォルマント周波数が大きく異なる音声素片を選択した場合には、図4の破線に示すように各フォルマントの時間的な動きが大きくなることから、声質が異なるだけでなく合成音も局所的に不自然になる。
 このような問題を解決するために、本発明の一態様に係る音声合成装置は、入力されたテキストの合成音を生成する音声合成装置であって、前記テキストを用いて韻律情報を生成する韻律生成部と、前記テキストから生成される音素の種類と当該音素の前記テキスト中における位置とを示す情報を用いて、前記テキストから生成される音素ごとに、前記テキスト中において文頭に位置する音素の開口度は文末に位置する音素の開口度よりも大きくなるように、口腔内の容積に対応する開口度を生成する開口度生成部と、各々が、音素の種類、開口度の情報および音声素片データを含む複数の素片情報を記憶している素片記憶部と、前記テキストから生成される音素ごとに、当該音素の種類および開口度に基づいて、前記素片記憶部に記憶されている前記複数の素片情報の中から、当該音素に対応する素片情報を選択する素片選択部と、前記素片選択部が選択した前記素片情報と前記韻律生成部が生成した前記韻律情報を用いて、前記テキストの合成音を生成する合成部とを備える。
 この構成によると、入力テキストに基づく開口度と一致する開口度を有する素片情報が選択される。このため、入力テキストに基づく発声様態(ハッキリと明瞭度の高い発声または怠けた明瞭度の低い発声)と同一の発声様態を有する素片情報(音声素片)を選択することができる。したがって、入力テキストに基づく発声様態の時間的変化を保存しながら、音声を合成することが可能となる。結果として、合成された音声は、発声様態の変化の時間パターンが保存されているため、音声合成時の自然性(流暢さ)の劣化を低減できる。
 また、上述の音声合成装置は、さらに、前記テキストから生成される音素ごとに、当該音素の種類と音素の種類が一致する素片情報を前記素片記憶部に記憶されている素片情報の中から選択し、前記開口度生成部が生成した開口度と選択した素片情報に含まれる開口度との一致度を算出する開口度一致度算出部を備え、前記素片選択部は、前記テキストから生成される音素ごとに、当該音素について算出された一致度に基づいて、当該音素に対応する素片情報を選択しても良い。
 この構成によると、入力テキストに基づく開口度と素片情報に含まれる開口度との一致度に基づいて、素片情報を選択する。このため、入力テキストに基づく開口度と同じ開口度を有する素片情報が素片記憶部に記憶されていなくても、入力テキストに基づく開口度に類似する開口度を有する素片情報を選択することが可能となる。
 例えば、前記素片選択部は、前記テキストから生成される音素ごとに、当該音素について算出された一致度が示す一致性が最も高い一致度を含む素片情報を選択する。
 この構成によると、入力テキストに基づく開口度と同じ開口度を有する素片情報が素片記憶部に記憶されていなくても、入力テキストに基づく開口度に最も類似する開口度を有する素片情報を選択することが可能となる。
 また、前記素片記憶部に記憶されている各素片情報は、さらに、音素の前または後ろに位置する音素の種類を示す音素環境情報と、韻律情報とを含み、前記素片選択部は、前記テキストから生成される音素ごとに、当該音素の種類、開口度、当該音素の音素環境情報、および韻律情報に基づいて、前記素片記憶部に記憶されている前記複数の素片情報の中から、当該音素に対応する素片情報を選択しても良い。
 この構成によると、音素環境および韻律情報の一致性と開口度の一致性の双方を考慮しながら素片情報を選択することにより、音素環境および韻律情報を考慮した上で、さらに開口度を考慮することができる。このため、音素環境および韻律情報のみで素片情報を選択する場合と比較して、自然な発声様態の時間変化を再現することができるため、自然性の高い合成音声を得ることができる。
 また、上述の音声合成装置は、さらに、前記テキストから生成される音素ごとに、当該音素と音素の種類が一致する素片情報を前記素片記憶部に記憶されている素片情報の中から選択し、当該音素の音素環境情報と、選択した素片情報に含まれる音素環境情報との一致性を示すコストを算出する目標コスト算出部を備え、前記素片選択部は、前記テキストから生成される音素ごとに、当該音素について算出された一致度およびコストに基づいて、当該音素に対応する素片情報を選択しても良い。
 また、前記素片選択部は、前記テキストから生成される音素ごとに、当該音素について算出されたコストに対して、前記素片記憶部に記憶されている素片情報の数が大きいほど大きな重み付けを行い、重み付けられたコストと前記開口度一致度算出部が算出した一致度とに基づいて、当該音素に対応する素片情報を選択しても良い。
 この構成によると、素片情報を選択する際に、素片記憶部に記憶されている素片情報の数が大きいほど、開口度一致度算出部が算出した一致度の重みを小さくしている。つまり、目標コスト算出部が算出した音素環境情報および韻律情報のコストの重みを大きくしている。これにより、素片記憶部に記憶されている素片情報の数が小さい場合には、音素環境情報および韻律情報の類似性が高い素片情報がない場合においても、開口度の一致度の高い素片情報を選択することにより、発声様態が一致した素片情報が選択される。これにより、全体として自然な発声様態の時間変化を再現することができるため、自然性の高い合成音声を得ることができる。
 また、前記開口度一致度算出部は、前記テキストから生成される音素ごとに、当該音素と音素の種類が一致する、前記素片記憶部に記憶されている素片情報に含まれる開口度と、前記開口度生成部が生成した開口度とを音素の種類毎に正規化し、前記一致度として、正規化後の開口度同士の一致度を算出しても良い。
 この構成によると、音素の種類毎に正規化された開口度を用いて開口度の一致度を算出している。このため、音素の種類を区別した上で一致度を算出することができる。よって、音素毎に適切な素片情報を選択することができるため、自然な発声様態の時間変化パターンを再現することができ、自然性の高い合成音声を得ることができる。
 また、前記開口度一致度算出部は、前記テキストから生成される音素ごとに、前記一致度として、前記開口度生成部が生成した開口度の時間方向の差分と、当該音素と音素の種類が一致する、前記素片記憶部に記憶されている素片情報に含まれる開口度の時間方向の差分との一致度を算出しても良い。
 この構成によると、開口度の時間的な変化に基づいて開口度の一致度を算出することができる。このため、先行する音素の開口度を加味した上で素片情報を選択することができるため、自然な発声様態の時間変化を再現することができ、自然性の高い合成音声を得ることができる。
 また、上述の音声合成装置は、さらに、話者の音声から、前記話者の口腔内の容積に対応する開口度を算出する開口度算出部と、音素の種類と、前記開口度算出部が算出した前記開口度の情報と、音声素片データとを含む素片情報を前記素片記憶部に登録する素片登録部とを備えていても良い。
 この構成によると、音声合成に用いられる素片情報を作成することが可能になる。このため、音声合成に用いる素片情報を随時更新することが可能となる。
 また、上述の音声合成装置は、さらに、話者の音声から声道情報を抽出する声道情報抽出部を備え、前記開口度算出部は、前記声道情報抽出部が抽出した前記声道情報から、声道の断面積を示す声道断面積関数を算出し、算出した声道断面積関数で示される声道断面積の和を、前記開口度として算出しても良い。
 この構成によると、声道断面積関数を用いて開口度を算出することにより、単に口唇の開き具合だけではなく、外界から直接観測できない、口腔内の形状(例えば舌の位置)も考慮した開口度を算出することができる。
 また、前記開口度算出部は、前記声道情報抽出部が抽出した前記声道情報から、区間毎の声道の断面積を示す声道断面積関数を算出し、算出した声道断面積で示される口唇に対応する区間から所定区間までの声道断面積の和を、前記開口度として算出しても良い。
 この構成によると、口唇に近い口腔内の形状を考慮した開口度を算出することができる。
 また、前記開口度生成部は、前記テキストから生成される音素の種類と当該音素のアクセント句内の位置を示す情報を用いて、前記開口度を生成しても良い。
 このように、音素のアクセント句の位置を用いて開口度を生成することにより、より言語的な影響を考慮した開口度を生成することができる。
 また、前記アクセント句内の位置は、前記アクセント句内のアクセント位置からの距離であっても良い。
 アクセント位置は、発声において強調される傾向があるため、開口度が大きくなる傾向がある。この構成によると、このような影響を考慮した開口度を生成することができる。
 また、前記開口度生成部は、さらに、前記テキストから生成される音素が属する形態素の品詞を示す情報を用いて、前記開口度を生成しても良い。
 名詞や動詞など、内容語となりうる形態素は強調される可能性がある。強調される場合は、開口度は大きくなる傾向がある。この構成によると、このような傾向を考慮した開口度を生成することができる。
 また、本発明の他の一態様に係る音声合成装置は、入力されたテキストの合成音を生成する音声合成装置であって、前記テキストから生成される音素の種類と当該音素の前記テキスト中における位置とを示す情報を用いて、前記テキストから生成される音素ごとに、前記テキスト中において文頭に位置する音素の開口度は文末に位置する音素の開口度よりも大きくなるように、口腔内の容積に対応する開口度を生成する開口度生成部と、各々が、音素の種類、開口度の情報および音声素片データを含む複数の素片情報を記憶している素片記憶部から、前記テキストから生成される音素ごとに、当該音素の種類および開口度に基づいて、前記素片記憶部に記憶されている前記複数の素片情報の中から、当該音素に対応する素片情報を選択する素片選択部と、前記素片選択部が選択した前記素片情報と、前記テキストから生成された韻律情報とを用いて、前記テキストの合成音を生成する合成部とを備える。
 この構成によると、入力テキストに基づく開口度と一致する開口度を有する素片情報が選択される。このため、入力テキストに基づく発声様態(ハッキリと明瞭度の高い発声または怠けた明瞭度の低い発声)と同一の発声様態を有する素片情報(音声素片)を選択することができる。したがって、入力テキストに基づく発声様態の時間的変化を保存しながら、音声を合成することが可能となる。結果として、合成された音声は、発声様態の変化の時間パターンが保存されているため、音声合成時の自然性(流暢さ)の劣化を低減できる。
 なお、これらの全般的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なCD-ROMなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラムまたは記録媒体の任意な組み合わせで実現されてもよい。
 以下本発明の実施の形態について、図面を参照しながら説明する。なお、以下で説明する実施の形態は、いずれも本発明の好ましい一具体例を示すものである。以下の実施の形態で示される数値、構成要素、構成要素の配置位置および接続形態、ステップ、ステップの順序などは、一例であり、本発明を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。
 (実施の形態1)
 既に述べたように、テキストから音声を合成する際に、入力テキストを自然に発声した際の発声様態の時間的な変動を保持することが重要である。発声様態とは、例えば、ハッキリと明瞭度の高い発声、怠けた明瞭度の低い発声である。
 発声様態は、音声の発話速度、発話内の位置、または、アクセント句内における位置など様々な要因により影響を受ける。例えば、自然な発話においては、文頭ははっきりと明瞭に発声する。しかし、文末では怠けが発生し、明瞭度が低下する傾向がある。また、入力テキストにおいて、ある単語を強調して発声する際の発声様態は、強調せずに発声する際の発声様態とは異なる。
 しかしながら、従来技術のように入力テキストから想定される音素環境または韻律情報を基準として、音声素片を選択した場合、選択した音声素片が、自然な発声様態の時間パターンを保持する保証はない。これを保証するためには、素片記憶部に、入力テキストと同じ発声が含まれる程に、巨大な素片記憶部を構築しなければならず、このような素片記憶部を現実に構築することが不可能である。
 例えば、素片接続型の音声規則合成システムでは、素片データベースを構築する際に数時間から数十時間の音声を用意することも珍しくないが、それでもなお、全ての入力テキストに対して自然な発声様態の時間パターンを実現することは難しい。
 本実施の形態によると、素片記憶部のデータ数が比較的少量の場合においても、前述の自然な発声様態の時間パターンを考慮して、音声合成を行うことができる。
 図5(a)は、前述の「めまいがします(/memaigashimasxu/)」と発声した際の「めまい」の/ma/の/a/の対数声道断面積関数を示し、図5(b)は、「お湯が出ません(/oyugademaseN/)」と発声した際の/ma/の/a/の対数声道断面積関数を示す。
 図5(a)の/a/は、文頭に近く、また内容語(自立語)に含まれる音であることから、発声様態としてはハッキリと明瞭に発話されている。一方、図5(b)の/a/は、文末に近く、発声様態としては怠けが発生し、明瞭さが低い。
 本願発明者らは、このような発声様態の違いと対数声道断面積関数の関係を注意深く観察することにより、発声様態が口腔内の容積と関連がある知見を見出した。
 つまり、口腔内の容積が大きいほど、発声様態はハッキリと明瞭である傾向があり、逆に口腔内の容積が小さいほど、発声様態は怠けを伴い、明瞭度が低い傾向がある。
 音声から算出可能な口腔内容積を開口度の指標とすることによって、素片記憶部から所望の発声様態を有する音声素片を探し出すことが可能となる。発声様態を口腔内容積という一つの値で表すことにより、発話内位置、アクセント句内位置、または強調の有無と言った多様な組み合わせの情報を考慮する必要がなくなるため、素片記憶部から所望の特性を有する音声素片を探し出すことが容易になる。さらに、音素環境を全ての音素で区別するのではなく、特性が近い音素を一つのカテゴリとして音素環境の種類を削減することにより、音声素片の必要量を少なくすることが可能となる。
 本発明は、口腔内の容積を用いることにより発声様態の時間的な変動を保存し、自然性の劣化が少ない音声合成を実現する。つまり、文頭の開口度を文末の開口度に比べて大きくすることにより、発生態様の時間的な変動を保存した音声を合成する。これによって、文頭ははっきりと明瞭に発話され、文末では怠けにより明瞭度が低い発話される自然な発生態様を有する音声を合成できる。
 図6は、実施の形態1における音声合成装置の機能的な構成を示すブロック図である。音声合成装置は、韻律生成部101と、開口度生成部102と、素片記憶部103と、開口度一致度算出部104と、素片選択部105と、合成部106とを備える。
 韻律生成部101は、入力されたテキストを用いて韻律情報を生成する。つまり、韻律生成部101は、音素情報と、音素に対応する韻律情報を生成する。
 開口度生成部102は、入力されたテキストに基づいて、入力されたテキストを自然に発声した際の開口度の時間パターンを生成する。つまり、開口度生成部102は、入力されたテキストから生成される音素の種類と当該音素のテキスト中における位置とを示す情報を用いて、テキストから生成される音素ごとに口腔内の容積に対応する開口度を生成する。
 素片記憶部103は、合成音を生成するための素片情報を記憶するための記憶装置であり、例えば、HDD(Hard Disk Drive)などにより構成される。つまり、素片記憶部103は、各々が、音素の種類、開口度の情報および声道情報を含む複数の素片情報を記憶している。ここで、声道情報は音声素片の一種である。素片記憶部103に記憶される素片情報の詳細は後述する。
 開口度一致度算出部104は、開口度生成部102により生成された音素単位における開口度と、素片記憶部103に記憶されている各音素の素片の開口度との一致度を算出する。つまり、開口度一致度算出部104は、テキストから生成される音素ごとに、当該音素の種類と音素の種類が一致する素片情報を素片記憶部103に記憶されている素片情報の中から選択し、開口度生成部102が生成した開口度と選択した素片情報に含まれる開口度との一致度を算出する。
 素片選択部105は、開口度一致度算出部104により算出された一致度に基づいて、素片記憶部103に記憶されている素片情報から最適な素片情報を選択し、選択した素片情報に含まれる音声素片を接続することにより音声素片系列を選択する。なお、素片選択部105に全ての開口度についての素片情報が記憶されている場合には、素片選択部105は、開口度生成部102が生成した開口度に一致する素片情報を、素片記憶部103に記憶されている素片情報の中から選択するだけでよい。このため、このような場合には、開口度一致度算出部104は音声合成装置に備えられていなくてもよい。
 合成部106は、素片選択部105により選択された音声素片系列を用いて、合成音を生成する。
 以上のように構成された音声合成装置により、入力テキストを自然に発声した際の発声様態の時間的な変動を持つ合成音を生成することが可能となる。
 以下、それぞれの構成要素について詳しく説明する。
 <韻律生成部101>
 韻律生成部101は、入力されたテキストに基づいて、入力されたテキストを発声する際の韻律情報を生成する。入力されたテキストは、複数の文字で構成されている。韻律生成部101は、複数の文章を含むテキストが入力された場合には、句点などの情報を元にテキストを単文に分割し、単文単位で韻律を生成する。なお、韻律生成部101は、英語で記載されたテキストなどにおいても同様にテキストを単文に分割して処理を行い、韻律を生成する。
 また、韻律生成部101は、文章を言語的に解析し、発音記号列とアクセントなどの言語情報を取得する。言語情報には、文頭からのモーラ数、文末からのモーラ数、当該アクセント句の文頭からの位置、当該アクセント句の文末からの位置、当該アクセント句のアクセント型、アクセント位置からの距離、当該形態素の品詞などが含まれる。
 たとえば、「今日の天気は晴れです。」という文章が入力された場合、韻律生成部101は、図7に示すように、まず、文章を形態素に分割する。韻律生成部101は、文章を形態素に分割する際に、各形態素の品詞情報なども同時に解析する。韻律生成部101は、分割した形態素に読みを付与する。韻律生成部101は、付与した読み情報にアクセント句およびアクセント位置を付与する。韻律生成部101は、以上のようにして言語情報を取得する。韻律生成部101は、取得した言語情報(発音記号列およびアクセント情報など)を元に韻律情報を生成する。なお、テキストに予め言語情報が付与されている場合には、このような解析処理は不要である。
 韻律情報とは、各音素の継続時間長、基本周波数パターン、またはパワー等を示す。
 韻律情報の生成には、例えば、数量化I類を用いる方法や、HMM(隠れマルコフモデル)を用いて、韻律情報を生成する方法などがある。
 例えば、数量化I類を用いて基本周波数パターンを生成する場合、基本周波数を目的変数とし、入力テキストに基づいた音素記号列、アクセント位置など説明変数とすることにより、基本周波数パターンを生成することが可能である。同様に継続時間長またはパワーを目的変数とすることにより、継続時間長パターンまたはパワーパターンを生成することが可能である。
 <開口度生成部102>
 前述したように、本願発明者らは、発声様態の違いと対数声道断面積関数の関係とを注意深く観察することにより、発声様態が口腔内の容積と関連があるという新たな知見を見出した。
 具体的には、口腔内の容積が大きいほど、発声様態はハッキリと明瞭である傾向がある。逆に、口腔内の容積が小さいほど、発声様態は怠けを伴い、明瞭度が低い傾向がある。
 音声から算出可能な口腔内容積を開口度の指標とすることによって、素片記憶部103から所望の発声様態を有する音声素片を探し出すことが可能となる。
 開口度生成部102は、入力されたテキストに基づいて、口腔内の容積に対応する開口度を生成する。具体的には、開口度生成部102は、予め学習した開口度の変化の時間パターンを示すモデルを用いて、開口度の変化の時間パターンを生成する。モデルは、予め発声された音声データから、開口度の変化の時間パターンを抽出し、抽出した時間パターンとテキスト情報に基づいて学習を行うことにより生成される。
 まず、モデル学習時の開口度の算出方法について説明する。具体的には、音声を声道音源モデルに基づいて、声道情報と音源情報に分離し、声道情報から開口度を算出する方法について説明する。
 声道音源モデルとして線形予測モデル(LPCモデル)を用いた場合、音声波形(音声信号)のある標本値s(n)をそれより前のp個の標本値から予測するものであり、式1のように表せる。
Figure JPOXMLDOC01-appb-M000001
 p個の標本値に対する係数αi(i=1~p)は、相関法や共分散法などを用いることにより算出できる。算出した係数を用いると入力された音声信号は、式2により生成することができる。
Figure JPOXMLDOC01-appb-M000002
 ここで、S(z)は音声信号s(n)のz変換後の値であり、U(z)は、は音源信号u(n)のz変換後の値であり、入力音声S(z)を声道特徴1/A(z)で逆フィルタリングした信号を表す。
 さらに、LPC分析により分析された線形予測係数αを用いて、PARCOR係数(偏自己相関係数)を算出するようにしてもよい。PARCOR係数は、線形予測係数と比較して、補間特性が良いことが知られている。PARCOR係数は、Levinson-Durbin-Itakuraアルゴリズムを用いることにより算出することが可能である。なお、PARCOR係数は、次の特徴を保有する。
 (特徴1)低次の係数ほどその変動によるスペクトルへの影響が大きく、高次になるにつれて変動の影響が小さくなる。
 (特徴2)高次の係数の変動の影響は、平坦に全域にわたる。
 以下の説明では、声道特徴として、PARCOR係数を用いて説明する。なお、用いる声道特徴はPARCOR係数に限らず、線形予測係数を用いても良い。さらには線スペクトル対(LSP)を用いてもよい。
 また、声道音源モデルとしてARXモデルを用いても良い。この場合、ARX(Autoregressive with exogenous input)分析を用いて、声道と音源を分離する。ARX分析は、音源として数式音源モデルを用いる点がLPC分析と大きく異なる。また、ARX分析では、LPC分析と異なり、分析区間内に複数の基本周期を含んだ場合においても、より正確に声道と音源の情報を分離できる(非特許文献3:大塚貴弘、粕谷英樹、「音源パルス列を考慮した頑健なARX音声分析法」、日本音響学会誌58巻7号、2002年、pp.386-397)。
 ARX分析では、音声は式3に示す生成過程により生成される。式3において、S(z)は、音声信号s(n)のz変換後の値を表す。U(z)は、有声音源信号u(n)のz変換後の値を表す。E(z)は、無声雑音音源e(n)のz変換後の値を表す。つまり、ARX分析では、有声音は式3の右辺第1項により音声が生成され、無声音は右辺第2項により生成される。
Figure JPOXMLDOC01-appb-M000003
 このとき、有声音源信号u(t)=u(nTs)のモデルとして、式4に示す音モデルを用いる(Tsはサンプリング周期)。
Figure JPOXMLDOC01-appb-M000004
 ただし、AVは有声音源振幅、T0はピッチ周期、OQは声門開放率を表わす。有声音の場合は式4の第1項が使用され、無声音の場合は式4の第2項が使用される。声門開放率OQは、1ピッチ周期における声門が開放されている割合を示す。声門開放率OQが大きいほどやわらかい音声となる傾向があることが知られている。
 ARX分析は、LPC分析と比較して以下の利点がある。
 (利点1)分析窓内に複数のピッチ周期に対応した音源パルス列を配して分析を行っているため、女性または子供などの高ピッチ音声でも安定に声道情報を抽出できる。
 (利点2)特に、ピッチ周波数F0と第1フォルマント周波数F1が接近している/i/、/u/などの狭母音の声道音源分離性能が高い有声音区間では、LPC分析の場合と同様に、U(z)は、入力音声S(z)を声道特徴1/A(z)で逆フィルタリングすることにより得ることができる。
 LPC分析の場合と同様に、ARX分析においても、声道特徴1/A(z)は、LPC分析におけるシステム関数と同じ形式である。このことから、LPC分析と同様の方法により、PARCOR係数を求めても良い。
 開口度生成部102は、このようにして得られた声道情報から口腔内の容積を表す開口度を算出する。具体的には、声道特徴として抽出されたPARCOR係数から式5を用いて、声道断面積関数を算出する。
Figure JPOXMLDOC01-appb-M000005
 ここで、kは、i次のPARCOR係数、Aは、i番目の声道断面積を表し、AN+1=1とする。
 図8は、ある発声の母音/a/の対数声道断面積関数を示す図である。声門から口唇までの声道を11個の区間(セクション)に分割しており、セクション11が声門を表し、セクション1が口唇を表す。
 図8において、網掛け領域は概ね口腔内と考えることができる。そこで、セクション1からセクションTまでを口腔内と考えると(図8ではT=5)、開口度Cは式6により定義することができる。Tは、LPC分析あるいはARX分析の次数に応じて変更することが望ましい。例えば10次のLPC分析の場合、3乃至5程度が望ましい。ただし、具体的な次数については限定するものではない。
Figure JPOXMLDOC01-appb-M000006
 開口度生成部102は、式6で定義される開口度Cを発声された音声に対して算出する。このように声道断面積関数を用いて開口度(口腔内の容積)を算出することにより、単に口唇の開き具合だけではなく、外界から直接観測できない、口腔内の形状(例えば舌の位置)も考慮することができる。
 図9に、「めまいがします(/memaigashimasxu/)」という発声において、式6により算出された開口度の時間的な変化を示す。
 開口度生成部102は、以上のようにして算出された開口度を目的変数とし、入力されたテキストから得られる情報(例えば、音素種類、アクセント情報、韻律情報)を説明変数として、基本周波数などの韻律情報の学習と同様に開口度生成モデルを学習する。
 具体的にテキストから音素種類、アクセント情報、韻律情報を生成する方法について述べる。
 入力されたテキストは、複数の文字で構成されている。開口度生成部102は、複数の文章を含むテキストが入力された場合には、句点などの情報を元にテキストを単文に分割し、単文単位で韻律を生成する。なお、開口度生成部102は、英語で記載されたテキストなどにおいても同様にテキストを単文に分割して処理を行い、韻律を生成する。
 また、開口度生成部102は、文章を言語的に解析し、発音記号列とアクセントなどの言語情報を取得する。言語情報には、文頭からのモーラ数、文末からのモーラ数、当該アクセント句の文頭からの位置、当該アクセント句の文末からの位置、当該アクセント句のアクセント型、アクセント位置からの距離、当該形態素の品詞などが含まれる。
 たとえば、「今日の天気は晴れです。」という文章が入力された場合、開口度生成部102は、図7に示すように、まず、文章を形態素に分割する。開口度生成部102は、文章を形態素に分割する際に、各形態素の品詞情報なども同時に解析する。開口度生成部102は、分割した形態素に読みを付与する。開口度生成部102は、付与した読み情報にアクセント句およびアクセント位置を付与する。開口度生成部102は、以上のようにして言語情報を取得する。
 さらに、開口度生成部102は、韻律生成部101により取得した韻律情報(各音素の継続時間、強度、基本周波数)を説明変数として利用する。
 開口度生成部102は、このようにして得られた言語情報および韻律情報(発音記号列およびアクセント情報など)を元に、開口度情報を生成する。なお、テキストに予め、言語情報および韻律情報が付与されている場合には、このような解析処理は不要である。
 学習方法は特に限定するものではないが、例えば、数量化I類を用いて、テキスト情報から抽出される言語的な情報と、開口度の関係を学習することができる。
 以下に数量化I類を用いて開口度を生成する方法を説明する。開口度を生成する単位として、音素を用いる。単位は音素に限定されるものではなく、モーラや音節などを用いても良い。
 数量化I類では、式7を用いて、各説明変数のカテゴリ毎に数量を学習し、その総和として目的変数の数量を推定する。
Figure JPOXMLDOC01-appb-M000007
 式7において、
Figure JPOXMLDOC01-appb-M000008
はi番目の音素の開口度の推定値であり、
Figure JPOXMLDOC01-appb-M000009
は、学習データにおける開口度の平均値である。xfcは説明変数fのカテゴリcの数量、δfcは説明変数fがカテゴリcを取るときにのみ1、それ以外のときに0を与える関数である。数量xfcを学習データに基づいて決定することにより、モデルを学習することができる。
 前述したように開口度は、音素種類や、アクセント情報、韻律情報、その他言語情報に関連して変動する。そこで、これらの情報を説明変数として用いる。図10に説明変数として用いる制御要因とそのカテゴリの例を示す。「音素種類」は、テキストのi番目の音素の種類である。音素により、口唇の開け具合や顎の開き具合などが変化することから開口度を推定する際に有効である。例えば、/a/は、広母音であり、開口度が大きくなる傾向がある。一方、/i/などの狭母音は、開口度が小さくなる傾向がある。「文頭からのモーラ数」は当該音素が含まれるモーラが文頭から数えて何モーラ目に該当するかを示す説明変数である。開口度は、通常の発声では文頭から文末にかけて小さくなる傾向があるため、開口度を推定する際に有効である。同様に「文末からのモーラ数」は、文末にどれだけ近いかにより開口度を推定する際に有効である。「当該アクセント句の文頭からの位置」および「当該アクセント句の文末からの位置」は、当該音素が含まれるアクセント句の文内のモーラ位置を示す。モーラ数だけではなくアクセント句の位置を用いることにより、より言語的な影響を考慮することができる。
 「当該アクセント句のアクセント型」は、当該音素が含まれるアクセント句のアクセント型を示すものである。アクセント型を用いることにより基本周波数の変化のパターンを考慮することができる。
 「アクセント位置からの距離」は、当該音素がアクセント位置から何モーラ離れているかを示す。アクセント位置は、発声において強調される傾向があるため、開口度が大きくなる傾向がある。
 「当該形態素の品詞」は、当該音素が含まれる形態素の品詞である。名詞や動詞など、内容語となりうる形態素は強調される可能性がある。強調される場合は、開口度は大きくなる傾向があるため、これを考慮する。
 「当該音素の基本周波数」は、当該音素が発声される際の基本周波数である。基本周波数が高いほど強調されている可能性がある。例えば、「<100」は基本周波数が100Hz未満であることを示す。
 「当該音素の継続時間長」は、当該音素が発生される際の時間長である。継続時間長が長い音素は強調されている可能性がある。例えば、「<10」は継続時間長が10msec未満であることを示す。
 以上のような説明変数を用いて、開口度を推定する説明変数の数量xfcを学習することにより、入力されたテキストから開口度の時間パターンを推定することが可能となり、合成音声が持つべき発声様態を推定することが可能となる。つまり、開口度生成部102は、式7の説明変数に値を代入することにより、目的変数の値である開口度を算出する。説明変数の値は、韻律生成部101で生成される。
 なお、説明変数は、以上に述べたものに限定するものではなく、開口度の変化に影響を与えるものを新たに追加するようにしても良い。
 なお、開口度の算出方法は上記の方法に限定するものではなく、例えば、音声発声時にMRI(Magnetic Resonance Imaging)を用いて声道の形状を抽出し、抽出した声道形状から上記の方法と同様に口腔内に対応する区間の容積で開口度を算出するようにしても良い。あるいは、発声時に口腔内に磁気マーカを貼付しておき、磁気マーカの位置情報から口腔内の容積である開口度を推定するようにしても良い。
 <素片記憶部103>
 素片記憶部103は、音声素片と、開口度とを含む素片情報を記憶する。音声素片は、例えば、音素、音節、モーラなどの単位で記憶する。以降の説明において、音声素片の単位を、音素として説明する。素片記憶部103は、音素種類が同じであり、かつ、開口度が異なる素片情報を記憶している。
 素片記憶部103が記憶する音声素片の情報は、音声波形である。また、音声素片の情報は、前述の声道音源モデルに基づいて分離した声道情報と音源情報とである。各音声素片に対応する開口度は、上述の方法で算出することが可能である。
 図11は、素片記憶部103に記憶されている素片情報の例を示す。図11において、音素番号1および2の素片情報は、音素種類/a/が同じである。一方、音素番号1の開口度10に対して、音素番号2の開口度は12である。上述したとおり、素片記憶部103は、音素種類が同じであり、かつ、開口度が異なる素片情報を記憶している。ただし、全ての音素種類について、開口度が異なる素片情報を記憶している必要はない。
 具体的には、素片記憶部103は、素片情報を識別するための音素番号と、音素種類と、音声素片である声道情報(PARCOR係数)と、開口度と、音声素片である音素環境と、音声素片である所定区間における音源情報と、音声素片である韻律情報と、継続時間長とを記憶している。音素環境は、例えば、前方または後方の音素情報、前方または後方の音節情報、または前方または後方の音素の調音点を含む。図11では、前方または後方の音素情報を示している。音源情報は、スペクトル傾斜および声門開放度を含む。韻律情報は、基本周波数(F0)、およびパワーなどを含む。
 <開口度一致度算出部104>
 開口度一致度算出部104は、素片記憶部103に記憶されている素片情報のうち、入力テキストに含まれる音素と音素の種類が同一の素片情報を特定する。開口度一致度算出部104は、特定した素片情報に含まれる開口度と、開口度生成部102が生成した開口度との一致度である開口度一致度Sijを算出する。開口度一致度算出部104は、素片記憶部103と有線または無線で接続され、素片情報等を含む情報の送受信を行う。開口度一致度Sijは、次のように算出することができる。以下に示す開口度一致度Sijは、値が小さいほど開口度Cと開口度Cの一致性が高いことを示す。
 (1)開口度の差分
 開口度一致度算出部104は、入力テキストから生成される音素ごとに、式8に示すように開口度生成部102により算出された開口度Cと、素片記憶部103に記憶された対象音素と同じ音素種類の素片情報に含まれる開口度Cとの差分により開口度一致度Sijを算出する。
Figure JPOXMLDOC01-appb-M000010
 (2)母音ごとに正規化
 また、開口度一致度算出部104は、以下の式9および式10に従って、入力テキストから生成される音素ごとに開口度を算出しても良い。つまり、開口度一致度算出部104は、式10に示すように開口度生成部102により算出された開口度Cを当該音素の開口度の平均値および標準偏差により正規化することにより、音素正規化開口度C を算出する。また、開口度一致度算出部104は、素片記憶部103に記憶された対象音素と同じ音素種類の素片情報に含まれる開口度Cを当該音素の開口度の平均値と標準偏差により正規化することにより、音素正規化開口度C を算出する。開口度一致度算出部104は、音素正規化開口度C と音素正規化開口度C との差分により開口度一致度Sijを算出する。
Figure JPOXMLDOC01-appb-M000011
Figure JPOXMLDOC01-appb-M000012
 ここで、Eは、i番目の音素の開口度の平均を示し、Vは、i番目の音素の開口度の標準偏差を示す。
 なお、素片記憶部103には、予め音素正規化開口度C が記憶されていても良い。この場合には、開口度一致度算出部104は、音素正規化開口度C を算出する必要が無くなる。
 (3)変動を見る
 また、開口度一致度算出部104は、以下の式9および式10に従って、入力テキストから生成される音素ごとに、開口度を算出しても良い。つまり、開口度一致度算出部104は、式11に示すように開口度生成部102により生成された開口度Cと先行する音素の開口度との差分である開口度差分値C を算出する。また、開口度一致度算出部104は、素片記憶部103に記憶された当該音素と同じ音素種類のデータの開口度Cと、当該音素の先行音素の開口度との差分である開口度差分値C を算出する。開口度一致度算出部104は、開口度差分値C と開口度差分値C との差分により開口度の一致度を算出する。
Figure JPOXMLDOC01-appb-M000013
 なお、開口度の一致度は、上記の方法を組み合わせて算出するようにしても良い。具体的には、上記一致度の重み付和により算出するようにしても良い。
 <素片選択部105>
 素片選択部105は、入力テキストから生成される音素ごとに、対象音素の種類および開口度に基づいて、素片記憶部103に記憶されている複数の素片情報の中から、対象音素に対応する素片情報を選択する。
 つまり、素片選択部105は、開口度一致度算出部104により算出された一致度を用いて、入力テキストに対応する各音素に対して、素片記憶部103から音声素片を選択する。
 具体的には、式12に示すように入力テキストの音素系列に対して、開口度一致度算出部104が算出した開口度一致度Si,j(i)および、隣接素片間の接続コストC j(i-1),j(i)が最小になる音声素片を素片記憶部103から選択する。接続コストが最小となるとは、類似度が高いことを意味する。
 隣接素片間の接続コストC j(i-1),j(i)は、連続する音声素片をuj(i-1),uj(i)とすると、例えばuj(i-1)の終端と、uj(i)の始端との連続性により算出することができる。接続コストの算出方法は特に限定するものではなく、例えば、音声素片の接続位置におけるケプストラム距離などを用いることにより算出することができる。
Figure JPOXMLDOC01-appb-M000014
 式12において、iは、入力テキストに含まれるi番目の音素であり、Nは入力テキストの音素数、j(i)は、i番目の音素として選択された素片を表す。
 なお、素片記憶部103に記憶されている素片情報に、前述の声道音源モデルにより分析された声道特徴、および音源特徴のパラメータが含まれている場合は、音声素片間を分析パラメータ間の補間により連続に接続することが可能である。その為、音声素片の接続は少ない音質劣化で比較的容易に行えることから、開口度の一致度のみを用いて素片選択を行っても良い。具体的には式13に示すような音声素片の系列j(i)を選択する。
Figure JPOXMLDOC01-appb-M000015
 さらには、素片記憶部103に記憶されている開口度を量子化することで、素片選択部105は、開口度生成部102が生成した開口度に対応する音声素片を素片記憶部103から一意に選択するようにしても良い。
 <合成部106>
 合成部106は、素片選択部105により選択された素片情報と、韻律生成部101が生成した韻律情報を用いて、入力されたテキストを読み上げた合成音(テキストの合成音)を生成する。
 素片記憶部103が記憶する素片情報に含まれる音声素片が、音声波形である場合は、音声波形を接続することにより合成を行う。接続の方法は特に限定するものではなく、例えば、音声素片の接続時の歪が最小となる接続点で接続するようにすればよい。なお、音声素片を接続する際には、素片選択部105により選択された音声素片系列をそのまま接続しても良いし、韻律生成部101により生成された韻律情報にあわせて各音声素片を変形した後に接続するようにしても良い。
 あるいは、素片記憶部103が、音声素片として、声道音源モデルに基づく声道情報と、音源情報を記憶している場合は、合成部106は、声道情報と音源情報のそれぞれを接続し、音声を合成する。合成の方法は特に限定するものではないが、声道情報としてPARCOR係数を用いている場合は、PARCOR合成を用いればよい。あるいは、PARCOR係数からLPC係数に変換した後に音声合成してもよいし、フォルマントを抽出し、フォルマント合成により音声合成してもよい。さらに、PARCOR係数からLSP係数を算出しLSP合成により音声合成するようにしてもよい。
 なお、声道情報および音源情報を韻律生成部101が生成した韻律情報にあわせて変形した後に音声合成するようにしても良い。この場合、素片記憶部103が記憶する素片の数が少ない場合においても高音質な合成音を得ることができる。
 (フローチャート)
 本実施の形態に係る音声合成装置の具体的な動作に関して図12に示すフローチャートを用いて説明する。
 ステップS101において、韻律生成部101は、入力テキストに基づいて韻律情報を生成する。
 ステップS002において、開口度生成部102は、入力テキストに基づいて、入力テキストに含まれる音素系列の開口度の時間パターンを生成する。
 ステップS003において、開口度一致度算出部104は、ステップS002で算出された入力テキストに含まれる音素系列の各音素の開口度と、素片記憶部103に記憶されている素片情報の開口度との一致度を算出する。また、素片選択部105は、算出した一致度、および/または、ステップS101で算出した韻律情報に基づいて、入力テキストに含まれる音素系列のそれぞれに対して音声素片を選択する。
 ステップS004において、合成部106は、ステップS003で選択された音声素片系列を用いて音声を合成する。
 (効果)
 かかる構成によれば、入力テキストから音声を合成する際に、入力テキストに基づく発声様態の時間的変化を保存しながら、音声を合成することが可能となる。結果として、合成された音声は、発声様態の変化の時間パターンが保存されているため、合成時の自然性(流暢さ)の劣化を低減する。
 例えば、図3(a)に示すように、入力テキストの基づく各音素の発声様態(明瞭度)の変化と合成音の発声様態の変化(はっきりや怠けの時間パターン)が、実際に発声された音声から学習された発声様態の変化と同じになるため、発声様態の不自然さに起因する音質の劣化を低減できる。
 また、音声素片の選択基準として、口腔内の容積(開口度)を基準にしているため、言語的生理的な諸条件を直接考慮して素片記憶部103を構築する場合と比較すると、素片記憶部103のデータ数を少なくできるという効果も有する。
 なお、本実施の形態では、日本語の音声により説明を行ったが、日本語に限るものではなく、英語をはじめ他の言語においても同様に音声合成を行うことができる。
 例えば、通常発声した場合“Can I make a phone call from this plain?”と発声した場合において、文末のplainの[ei]と、“May I have a thermometer?”の文頭のMayの[ei]/e/の発声様態は異なる([]内は国際音声記号(International Phonetic Alphabet))。また、日本語と同様に文内位置や、内容語若しくは機能語の種別、または強調の有無などによりその発声様態は変化することから、従来の音素環境や韻律情報を選択基準として音声素片を選択すると、日本語と同様に発声様態の時間的変化が崩れることに起因し、合成音声の自然性は劣化する。したがって、英語においても開口度を基準に音声素片を選択することにより、入力テキストに基づく発声様態の時間的変化を保存しながら、音声を合成することが可能となる。結果として、合成された音声は、発声様態の変化の時間パターンが保存されているため、自然性(流暢さ)の劣化を低減した音声合成ができる。
 (実施の形態1の変形例1)
 図13は、本発明の実施の形態1の音声合成装置の変形例を示す構成図である。図13において、図6と同じ構成要素については同じ符号を用い、説明を省略する。
 つまり、実施の形態1の変形例1に係る音声合成装置は、図6に示した音声合成装置の構成に目標コスト算出部109を追加した構成を有する。
 本変形例では、素片選択部105が素片記憶部103から素片系列を選択する際に、開口度一致度算出部104により算出される開口度の一致度だけではなく、入力音声に含まれる音素の音素環境と、素片記憶部103に含まれる各音素の音素環境および韻律情報の類似度に基づいて音声素片を選択することが異なる。
 <目標コスト算出部109>
 目標コスト算出部109は、入力テキストに含まれる各音素に対して、音素の音素環境および韻律生成部101により生成された韻律情報と、素片記憶部103に含まれる素片情報の音素環境、および韻律情報の類似度に基づいて、コストを算出する。
 具体的には、目標コスト算出部109は、着目音素の前後の音素種類の類似度を算出することによりコストを算出する。例えば、入力テキストに含まれる音素の先行音素と、着目音素と同じ音素種類を有する素片情報の音素環境における先行音素との種類が一致しない場合にはペナルティとしてコストdを加算する。同様に、入力テキストに含まれる音素の後続音素と、着目音素と同じ音素種類を有する素片情報の音素環境における後続音素とが一致しない場合にはペナルティとしてコストdを加算する。コストdは、先行音素と後続音素とで同じ値でなくとも良く、例えば先行音素の一致度を優先するようにしても良い。あるいは、先行音素が一致しない場合においても、音素の類似度によりペナルティの大きさを変更するようにしても良い。例えば、音素カテゴリー(破裂音、摩擦音など)が同一の場合はペナルティを小さくするようにしても良い。また、調音位置(歯茎音、口蓋音など)が同一の場合はペナルティを小さくするようにしても良い。以上のようにして、入力テキストに含まれる音素の音素環境と、素片記憶部103に含まれる素片情報の音素環境との一致性を示すコストCENVを算出する。
 また、韻律情報に関しては、韻律生成部101が算出した基本周波数、継続時間長、パワーと、素片記憶部103が記憶する素片情報の基本周波数、継続時間長、パワーとの差分によりコストをCF0、FDUR、CPOWをそれぞれ算出する。
 目標コスト算出部109は、上述したコストを式14に示すようにそれぞれ重み付け加算することにより、目標コストを算出する。重みp1、p2、p3の設定方法は特に限定するものではない。
Figure JPOXMLDOC01-appb-M000016
 <素片選択部105>
 素片選択部105は、開口度一致度算出部104により算出された一致度と、目標コスト算出部109により算出されたコスト、および音声素片間の接続コストを用いて、各音素に対して、素片記憶部103から音声素片系列を選択する。
 具体的には、式15に示すように入力音声の母音系列に対して、開口度一致度算出部104が算出した開口度一致度Sijと、目標コスト算出部109により算出された目標コストDij、および、隣接素片間の接続コストが最小になる音声素片系列j(i)(i=1,・・・,N)を素片記憶部103から選択する。
 隣接素片間の接続コストCは、連続する音声素片をu,uとすると、例えばuの終端と、uの始端との連続性により算出することができる。接続コストの算出方法は特に限定するものではなく、例えば、音声素片の接続位置におけるケプストラム距離などを用いることにより算出することができる。
Figure JPOXMLDOC01-appb-M000017
 重みw、wの設定方法は特に限定するものではなく、事前に適宜決定するようにすればよい。なお、素片記憶部103のデータサイズに応じて、重みを調整するようにしても良い。具体的には、素片記憶部103が記憶している素片情報数が大きいほど、目標コスト算出部109により算出されるコストの重みwを大きくし、素片記憶部103が記憶している素片情報数が小さいほど、目標コスト算出部109により算出されるコストの重みwを小さくしても良い。
 以上の構成により、音声を合成する際に、音韻性を維持しながら、且つ、発声様態の時間変化を保存することが可能となる。結果として、各音素の音韻性と発声様態の時間変化を保存することが可能となるため、自然性(流暢さ)の劣化を低減した高音質の音声合成が可能となる。
 また、この構成によれば素片記憶部103に記憶されている素片情報数が小さい場合においても、発声様態の時間変化を損なわない音声合成が可能であるため、あらゆる利用形態において有用性の高いものとなる。
 また、素片選択部105により音声素片系列を選択する際に、素片記憶部103に記憶されている素片情報数に応じて、重みを調整する(素片記憶部103に記憶される素片情報数が小さいほど、目標コスト算出部109により算出されるコストの重みを小さくする)ことにより、素片記憶部103に記憶されている素片情報数が小さい場合には、開口度の一致度を優先する。これにより、音素環境などの一致度が高い音声素片がない場合においても、開口度の一致度の高い音声素片を選択することにより、発声様態が一致する。このため、全体として自然な発声様態の時間変化を再現することができるため、自然性の高い合成音を得ることができる。
 一方、素片記憶部103に記憶されている素片情報数が大きい場合には、コストと開口度の一致度の双方を考慮しながら音声素片を選択することができる。このため、音素環境を考慮した上で、さらに開口度の一致度を考慮することができるため、従来の選択基準で選択する場合と比較して、自然な発声様態の時間変化を再現することができるため、自然性の高い合成音を得ることができる。
 (実施の形態1の変形例2)
 図14は、本発明の実施の形態1の音声合成装置の別の変形例を示す構成図である。図14において、図6と同じ構成要素については同じ符号を用い、説明を省略する。
 つまり、実施の形態1の変形例2に係る音声合成装置は、図6に示した音声合成装置の構成に音声収録部110、音素環境抽出部111、韻律情報抽出部112、声道情報抽出部115、開口度算出部113および素片登録部114を追加した構成を有する。つまり、本変形例では、さらに素片記憶部103を構築する処理部を備えている点が、実施の形態1と異なる。
 音声収録部110は、話者の音声を収録する。音素環境抽出部111は、収録された音声に含まれる各音素に対して、前方および後方の音素種類を含む音素環境を抽出する。韻律情報抽出部112は、収録された音声に含まれる各音素に対して、継続時間、基本周波数、パワー情報を含む韻律情報を抽出する。声道情報抽出部115は、話者の音声から声道情報を抽出する。開口度算出部113は、前記声道情報抽出部が抽出した前記声道情報から、収録された音声に含まれる各音素に対して、開口度を算出する。開口度の算出方法は、実施の形態1における開口度生成部102が開口度の変化の時間パターンを示すモデルを生成する際の開口度の算出方法と同じである。
 素片登録部114は、音素環境抽出部111、韻律情報抽出部112および開口度算出部113により得られた情報を、素片情報として素片記憶部103に登録する。
 素片記憶部103に登録される素片情報の作成方法を図15のフローチャートを用いて説明する。
 ステップS201において、話者に文章を発話してもらい、音声収録部110は、文セットの音声を収録する。文章数は限定するものではないが、音声収録部110は、例えば数百文から数千文規模の音声を収録する。収録する音声の規模は特に限定するものではない。
 ステップS202において、音素環境抽出部111は、収録した文セットの音声に含まれる各音素に対して前方および後方の音素種類を含む音素環境を抽出する。
 ステップS203において、韻律情報抽出部112は、収録した文セットの音声に含まれる各音素に対して、継続時間長、基本周波数、パワーを含む韻律情報を抽出する。
 ステップS204において、声道情報抽出部115は、収録した文セットの音声に含まれる各音素に対して、声道情報を抽出する。
 ステップS205において、開口度算出部113は、収録した文セットの音声に含まれる各音素に対して、開口度を算出する。具体的には、開口度算出部113は、声道情報を用いて開口度を算出する。つまり、声道情報抽出部115が抽出した声道情報から、声道の断面積を示す声道断面積関数を算出し、算出した声道断面積関数で示される声道断面積の和を、開口度として算出する。声道情報抽出部115は、算出した声道断面積で示される口唇に対応する区間から所定区間までの声道断面積の和を、開口度として算出しても良い。
 ステップS206において、素片登録部114は、ステップS202~S205により得られた情報、および、音声収録部110が収録した音声に含まれる音素の音声素片(例えば音声波形)を素片記憶部103に登録する。
 なお、ステップS202~S205の処理を実施する順番は必ずしもこの順番でなくても良い。
 以上の処理により、音声合成装置において、話者の音声を収録し、素片記憶部103を作成することが可能になるため、得られる合成音の品質を随時更新することが可能となる。
 以上のように作成した素片記憶部103を用いることで、入力テキストから音声を合成する際に、音韻性を維持しながら、且つ、発声様態の時間変化を保存することが可能となる。結果として、各母音の音韻性と発声様態の時間変化を保存することが可能となるため、自然性(流暢さ)の劣化を低減した高音質の音声合成が可能となる。
 以上、本発明の実施の形態に係る音声合成装置について説明したが、本発明は、この実施の形態に限定されるものではない。
 例えば、上記の各装置は、具体的には、マイクロプロセッサ、ROM、RAM、ハードディスクドライブ、ディスプレイユニット、キーボード、マウスなどから構成されるコンピュータシステムとして構成されても良い。RAMまたはハードディスクドライブには、コンピュータプログラムが記憶されている。マイクロプロセッサが、コンピュータプログラムに従って動作することにより、各装置は、その機能を達成する。ここでコンピュータプログラムは、所定の機能を達成するために、コンピュータに対する指令を示す命令コードが複数個組み合わされて構成されたものである。
 例えば、このコンピュータプログラムは、コンピュータに、テキストを用いて韻律情報を生成するステップと、テキストから生成される音素の種類と当該音素のテキスト中における位置とを示す情報を用いて、テキストから生成される音素ごとに、テキスト中において文頭に位置する音素の開口度は文末に位置する音素の開口度よりも大きくなるように、口腔内の容積に対応する開口度を生成するステップと、テキストから生成される音素ごとに、当該音素の種類および開口度に基づいて、素片記憶部に記憶されている、各々が、音素の種類、開口度の情報および音声素片データを含む複数の素片情報の中から、当該音素に対応する素片情報を選択するステップと、選択した素片情報と生成された韻律情報を用いて、テキストの合成音を生成するステップとを実行させる。
 さらに、上記の各装置を構成する構成要素の一部または全部は、1個のシステムLSI(Large Scale Integration:大規模集積回路)から構成されているとしても良い。システムLSIは、複数の構成部を1個のチップ上に集積して製造された超多機能LSIであり、具体的には、マイクロプロセッサ、ROM、RAMなどを含んで構成されるコンピュータシステムである。RAMには、コンピュータプログラムが記憶されている。マイクロプロセッサが、コンピュータプログラムに従って動作することにより、システムLSIは、その機能を達成する。
 さらにまた、上記の各装置を構成する構成要素の一部または全部は、各装置に脱着可能なICカードまたは単体のモジュールから構成されているとしても良い。ICカードまたはモジュールは、マイクロプロセッサ、ROM、RAMなどから構成されるコンピュータシステムである。ICカードまたはモジュールは、上記の超多機能LSIを含むとしても良い。マイクロプロセッサが、コンピュータプログラムに従って動作することにより、ICカードまたはモジュールは、その機能を達成する。このICカードまたはこのモジュールは、耐タンパ性を有するとしても良い。
 また、本発明は、上記に示す方法であるとしても良い。また、これらの方法をコンピュータにより実現するコンピュータプログラムであるとしても良いし、前記コンピュータプログラムからなるデジタル信号であるとしても良い。
 さらに、本発明は、上記コンピュータプログラムまたは上記デジタル信号をコンピュータ読み取り可能な非一時的な記録媒体、例えば、フレキシブルディスク、ハードディスク、CD-ROM、MO、DVD、DVD-ROM、DVD-RAM、BD(Blu-ray Disc(登録商標))、半導体メモリなどに記録したものとしても良い。また、これらの非一時的な記録媒体に記録されている上記デジタル信号であるとしても良い。
 また、本発明は、上記コンピュータプログラムまたは上記デジタル信号を、電気通信回線、無線または有線通信回線、インターネットを代表とするネットワーク、データ放送等を経由して伝送するものとしても良い。
 また、本発明は、マイクロプロセッサとメモリを備えたコンピュータシステムであって、上記メモリは、上記コンピュータプログラムを記憶しており、上記マイクロプロセッサは、上記コンピュータプログラムに従って動作するとしても良い。
 また、上記プログラムまたは上記デジタル信号を上記非一時的な記録媒体に記録して移送することにより、または上記プログラムまたは上記デジタル信号を上記ネットワーク等を経由して移送することにより、独立した他のコンピュータシステムにより実施するとしても良い。
  また、本発明の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構築される形態も、本発明の一つまたは複数の態様の範囲内に含まれてもよい。
 なお、図17は、本発明に必須の構成要素を備える音声合成装置の機能的な構成を示すブロック図である。音声合成装置は、入力されたテキストの合成音を生成する装置であり、開口度生成部102と、素片選択部105と、合成部106とを備える。
 開口度生成部102は、テキストから生成される音素の種類と当該音素のテキスト中における位置とを示す情報を用いて、テキストから生成される音素ごとに、テキスト中において文頭に位置する音素の開口度は文末に位置する音素の開口度よりも大きくなるように、口腔内の容積に対応する開口度を生成する。
 素片選択部105は、各々が、音素の種類、開口度の情報および音声素片データを含む複数の素片情報を記憶している素片記憶部(図示せず)から、テキストから生成される音素ごとに、当該音素の種類および開口度に基づいて、素片記憶部に記憶されている複数の素片情報の中から、当該音素に対応する素片情報を選択する。
 合成部106は、素片選択部105が選択した素片情報と、テキストから生成された韻律情報とを用いて、テキストの合成音を生成する。なお、合成部106は、韻律情報を生成しても良いし、外部(例えば、実施の形態1に示した韻律生成部101)から取得しても良い。
 今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて請求の範囲によって示され、請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
 本発明に係る音声合成装置は、入力テキストから推定される自然発声した際の発声様態の時間的変化を保存しながら、音声を合成する機能を有し、自然な合成音を必要とする情報機器や家電機器のユーザインタフェース等の用途において有用である。
101 韻律生成部
102 開口度生成部
103 素片記憶部
104 開口度一致度算出部
105 素片選択部
106 合成部
109 目標コスト算出部

Claims (17)

  1.  入力されたテキストの合成音を生成する音声合成装置であって、
     前記テキストを用いて韻律情報を生成する韻律生成部と、
     前記テキストから生成される音素の種類と当該音素の前記テキスト中における位置とを示す情報を用いて、前記テキストから生成される音素ごとに、前記テキスト中において文頭に位置する音素の開口度は文末に位置する音素の開口度よりも大きくなるように、口腔内の容積に対応する開口度を生成する開口度生成部と、
     各々が、音素の種類、開口度の情報および音声素片データを含む複数の素片情報を記憶している素片記憶部と、
     前記テキストから生成される音素ごとに、当該音素の種類および開口度に基づいて、前記素片記憶部に記憶されている前記複数の素片情報の中から、当該音素に対応する素片情報を選択する素片選択部と、
     前記素片選択部が選択した前記素片情報と前記韻律生成部が生成した前記韻律情報を用いて、前記テキストの合成音を生成する合成部と
     を備える音声合成装置。
  2.  さらに、
     前記テキストから生成される音素ごとに、当該音素の種類と音素の種類が一致する素片情報を前記素片記憶部に記憶されている素片情報の中から選択し、前記開口度生成部が生成した開口度と選択した素片情報に含まれる開口度との一致度を算出する開口度一致度算出部を備え、
     前記素片選択部は、前記テキストから生成される音素ごとに、当該音素について算出された一致度に基づいて、当該音素に対応する素片情報を選択する
     請求項1に記載の音声合成装置。
  3.  前記素片選択部は、前記テキストから生成される音素ごとに、当該音素について算出された一致度が示す一致性が最も高い一致度を含む素片情報を選択する
     請求項2に記載の音声合成装置。
  4.  前記素片記憶部に記憶されている各素片情報は、さらに、音素の前または後ろに位置する音素の種類を示す音素環境情報と、韻律情報とを含み、
     前記素片選択部は、前記テキストから生成される音素ごとに、当該音素の種類、開口度、当該音素の音素環境情報、および韻律情報に基づいて、前記素片記憶部に記憶されている前記複数の素片情報の中から、当該音素に対応する素片情報を選択する
     請求項2に記載の音声合成装置。
  5.  さらに、
     前記テキストから生成される音素ごとに、当該音素と音素の種類が一致する素片情報を前記素片記憶部に記憶されている素片情報の中から選択し、当該音素の音素環境情報と、選択した素片情報に含まれる音素環境情報との一致性を示すコストを算出する目標コスト算出部を備え、
     前記素片選択部は、前記テキストから生成される音素ごとに、当該音素について算出された一致度およびコストに基づいて、当該音素に対応する素片情報を選択する
     請求項4に記載の音声合成装置。
  6.  前記素片選択部は、前記テキストから生成される音素ごとに、当該音素について算出されたコストに対して、前記素片記憶部に記憶されている素片情報の数が大きいほど大きな重み付けを行い、重み付けられたコストと前記開口度一致度算出部が算出した一致度とに基づいて、当該音素に対応する素片情報を選択する
     請求項5に記載の音声合成装置。
  7.  前記開口度一致度算出部は、前記テキストから生成される音素ごとに、当該音素と音素の種類が一致する、前記素片記憶部に記憶されている素片情報に含まれる開口度と、前記開口度生成部が生成した開口度とを音素の種類毎に正規化し、前記一致度として、正規化後の開口度同士の一致度を算出する
     請求項2~6のいずれか1項に記載の音声合成装置。
  8.  前記開口度一致度算出部は、前記テキストから生成される音素ごとに、前記一致度として、前記開口度生成部が生成した開口度の時間方向の差分と、当該音素と音素の種類が一致する、前記素片記憶部に記憶されている素片情報に含まれる開口度の時間方向の差分との一致度を算出する
     請求項2~6のいずれか1項に記載の音声合成装置。
  9.  さらに、
     話者の音声から、前記話者の口腔内の容積に対応する開口度を算出する開口度算出部と、
     音素の種類と、前記開口度算出部が算出した前記開口度の情報と、音声素片データとを含む素片情報を前記素片記憶部に登録する素片登録部とを備える
     請求項1~8のいずれか1項に記載の音声合成装置。
  10.  さらに、
     話者の音声から声道情報を抽出する声道情報抽出部を備え、
     前記開口度算出部は、前記声道情報抽出部が抽出した前記声道情報から、声道の断面積を示す声道断面積関数を算出し、算出した声道断面積関数で示される声道断面積の和を、前記開口度として算出する
     請求項9に記載の音声合成装置。
  11.  前記開口度算出部は、前記声道情報抽出部が抽出した前記声道情報から、区間毎の声道の断面積を示す声道断面積関数を算出し、算出した声道断面積で示される口唇に対応する区間から所定区間までの声道断面積の和を、前記開口度として算出する
     請求項10に記載の音声合成装置。
  12.  前記開口度生成部は、前記テキストから生成される音素の種類と当該音素のアクセント句内の位置を示す情報を用いて、前記開口度を生成する
     請求項1~11のいずれか1項に記載の音声合成装置。
  13.  前記アクセント句内の位置は、前記アクセント句内のアクセント位置からの距離である請求項12に記載の音声合成装置。
  14.  前記開口度生成部は、さらに、前記テキストから生成される音素が属する形態素の品詞を示す情報を用いて、前記開口度を生成する
     請求項12または13に記載の音声合成装置。
  15.  入力されたテキストの合成音を生成する音声合成装置であって、
     前記テキストから生成される音素の種類と当該音素の前記テキスト中における位置とを示す情報を用いて、前記テキストから生成される音素ごとに、前記テキスト中において文頭に位置する音素の開口度は文末に位置する音素の開口度よりも大きくなるように、口腔内の容積に対応する開口度を生成する開口度生成部と、
     各々が、音素の種類、開口度の情報および音声素片データを含む複数の素片情報を記憶している素片記憶部から、前記テキストから生成される音素ごとに、当該音素の種類および開口度に基づいて、前記素片記憶部に記憶されている前記複数の素片情報の中から、当該音素に対応する素片情報を選択する素片選択部と、
     前記素片選択部が選択した前記素片情報と、前記テキストから生成された韻律情報とを用いて、前記テキストの合成音を生成する合成部と
     を備える音声合成装置。
  16.  入力されたテキストの合成音を生成する音声合成方法であって、
     前記テキストを用いて韻律情報を生成するステップと、
     前記テキストから生成される音素の種類と当該音素の前記テキスト中における位置とを示す情報を用いて、前記テキストから生成される音素ごとに、前記テキスト中において文頭に位置する音素の開口度は文末に位置する音素の開口度よりも大きくなるように、口腔内の容積に対応する開口度を生成するステップと、
     前記テキストから生成される音素ごとに、当該音素の種類および開口度に基づいて、
     素片記憶部に記憶されている、各々が、音素の種類、開口度の情報および音声素片データを含む複数の素片情報の中から、当該音素に対応する素片情報を選択するステップと、
     選択した前記素片情報と生成された前記韻律情報を用いて、前記テキストの合成音を生成するステップと
     を含む音声合成方法。
  17.  請求項16に記載の音声合成方法をコンピュータに実行させるためのプログラム。
PCT/JP2012/004529 2011-08-01 2012-07-12 音声合成装置および音声合成方法 WO2013018294A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN2012800106378A CN103403797A (zh) 2011-08-01 2012-07-12 语音合成装置以及语音合成方法
JP2012543381A JP5148026B1 (ja) 2011-08-01 2012-07-12 音声合成装置および音声合成方法
US13/903,270 US9147392B2 (en) 2011-08-01 2013-05-28 Speech synthesis device and speech synthesis method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2011-168624 2011-08-01
JP2011168624 2011-08-01

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US13/903,270 Continuation US9147392B2 (en) 2011-08-01 2013-05-28 Speech synthesis device and speech synthesis method

Publications (1)

Publication Number Publication Date
WO2013018294A1 true WO2013018294A1 (ja) 2013-02-07

Family

ID=47628846

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2012/004529 WO2013018294A1 (ja) 2011-08-01 2012-07-12 音声合成装置および音声合成方法

Country Status (4)

Country Link
US (1) US9147392B2 (ja)
JP (1) JP5148026B1 (ja)
CN (1) CN103403797A (ja)
WO (1) WO2013018294A1 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI413104B (zh) * 2010-12-22 2013-10-21 Ind Tech Res Inst 可調控式韻律重估測系統與方法及電腦程式產品
US9472182B2 (en) * 2014-02-26 2016-10-18 Microsoft Technology Licensing, Llc Voice font speaker and prosody interpolation
JP6415929B2 (ja) * 2014-10-30 2018-10-31 株式会社東芝 音声合成装置、音声合成方法およびプログラム
US9990916B2 (en) * 2016-04-26 2018-06-05 Adobe Systems Incorporated Method to synthesize personalized phonetic transcription
ES2894123T3 (es) * 2017-05-24 2022-02-11 Japan Broadcasting Corp Dispositivo de generación de orientación de audio, procedimiento de generación de orientación de audio y sistema de difusión
CN108550363B (zh) * 2018-06-04 2019-08-27 百度在线网络技术(北京)有限公司 语音合成方法及装置、计算机设备及可读介质
CN109065018B (zh) * 2018-08-22 2021-09-10 北京光年无限科技有限公司 一种面向智能机器人的故事数据处理方法及系统
CN109522427B (zh) * 2018-09-30 2021-12-10 北京光年无限科技有限公司 一种面向智能机器人的故事数据处理方法及装置
CN109168067B (zh) * 2018-11-02 2022-04-22 深圳Tcl新技术有限公司 视频时序矫正方法、矫正终端及计算机可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000206982A (ja) * 1999-01-12 2000-07-28 Toshiba Corp 音声合成装置及び文音声変換プログラムを記録した機械読み取り可能な記録媒体
JP2003140678A (ja) * 2001-10-31 2003-05-16 Matsushita Electric Ind Co Ltd 合成音声の音質調整方法と音声合成装置
JP2011095397A (ja) * 2009-10-28 2011-05-12 Yamaha Corp 音声合成装置

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0391426A (ja) 1989-09-04 1991-04-17 Taiyo Fishery Co Ltd 養殖魚の良否選別法
JP3091426B2 (ja) 1997-03-04 2000-09-25 株式会社エイ・ティ・アール音声翻訳通信研究所 自然発話音声波形信号接続型音声合成装置
US6829577B1 (en) * 2000-11-03 2004-12-07 International Business Machines Corporation Generating non-stationary additive noise for addition to synthesized speech
GB0031840D0 (en) * 2000-12-29 2001-02-14 Nissen John C D Audio-tactile communication system
US7050979B2 (en) * 2001-01-24 2006-05-23 Matsushita Electric Industrial Co., Ltd. Apparatus and method for converting a spoken language to a second language
WO2003030150A1 (fr) * 2001-09-27 2003-04-10 Matsushita Electric Industrial Co., Ltd. Dispositif de dialogue, dispositif de dialogue pere, dispositif de dialogue fils, methode de commande de dialogue et programme de commande de dialogue
US7209882B1 (en) * 2002-05-10 2007-04-24 At&T Corp. System and method for triphone-based unit selection for visual speech synthesis
JP2004125843A (ja) 2002-09-30 2004-04-22 Sanyo Electric Co Ltd 音声合成方法
JP4018571B2 (ja) 2003-03-24 2007-12-05 富士通株式会社 音声強調装置
WO2005071664A1 (ja) * 2004-01-27 2005-08-04 Matsushita Electric Industrial Co., Ltd. 音声合成装置
JP4265501B2 (ja) * 2004-07-15 2009-05-20 ヤマハ株式会社 音声合成装置およびプログラム
CN1918628A (zh) * 2004-12-28 2007-02-21 松下电器产业株式会社 声音合成方法和信息提供装置
US8073696B2 (en) * 2005-05-18 2011-12-06 Panasonic Corporation Voice synthesis device
WO2007141993A1 (ja) * 2006-06-05 2007-12-13 Panasonic Corporation 音声合成装置
US8898062B2 (en) * 2007-02-19 2014-11-25 Panasonic Intellectual Property Corporation Of America Strained-rough-voice conversion device, voice conversion device, voice synthesis device, voice conversion method, voice synthesis method, and program
CN101578659B (zh) * 2007-05-14 2012-01-18 松下电器产业株式会社 音质转换装置及音质转换方法
WO2008149547A1 (ja) * 2007-06-06 2008-12-11 Panasonic Corporation 声質編集装置および声質編集方法
WO2009022454A1 (ja) * 2007-08-10 2009-02-19 Panasonic Corporation 音声分離装置、音声合成装置および声質変換装置
WO2010032405A1 (ja) * 2008-09-16 2010-03-25 パナソニック株式会社 音声分析装置、音声分析合成装置、補正規則情報生成装置、音声分析システム、音声分析方法、補正規則情報生成方法、およびプログラム
JP4490507B2 (ja) * 2008-09-26 2010-06-30 パナソニック株式会社 音声分析装置および音声分析方法
WO2011004579A1 (ja) * 2009-07-06 2011-01-13 パナソニック株式会社 声質変換装置、音高変換装置および声質変換方法
JP5039865B2 (ja) * 2010-06-04 2012-10-03 パナソニック株式会社 声質変換装置及びその方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000206982A (ja) * 1999-01-12 2000-07-28 Toshiba Corp 音声合成装置及び文音声変換プログラムを記録した機械読み取り可能な記録媒体
JP2003140678A (ja) * 2001-10-31 2003-05-16 Matsushita Electric Ind Co Ltd 合成音声の音質調整方法と音声合成装置
JP2011095397A (ja) * 2009-10-28 2011-05-12 Yamaha Corp 音声合成装置

Also Published As

Publication number Publication date
JP5148026B1 (ja) 2013-02-20
US20130262120A1 (en) 2013-10-03
CN103403797A (zh) 2013-11-20
JPWO2013018294A1 (ja) 2015-03-05
US9147392B2 (en) 2015-09-29

Similar Documents

Publication Publication Date Title
JP5148026B1 (ja) 音声合成装置および音声合成方法
US10347238B2 (en) Text-based insertion and replacement in audio narration
US7010488B2 (en) System and method for compressing concatenative acoustic inventories for speech synthesis
US20050119890A1 (en) Speech synthesis apparatus and speech synthesis method
JP5039865B2 (ja) 声質変換装置及びその方法
JP6266372B2 (ja) 音声合成辞書生成装置、音声合成辞書生成方法およびプログラム
Khan et al. Concatenative speech synthesis: A review
JP2006106741A (ja) 対話型音声応答システムによる音声理解を防ぐための方法および装置
Bettayeb et al. Speech synthesis system for the holy quran recitation.
JP6330069B2 (ja) 統計的パラメトリック音声合成のためのマルチストリームスペクトル表現
Deka et al. Development of assamese text-to-speech system using deep neural network
JP5574344B2 (ja) 1モデル音声認識合成に基づく音声合成装置、音声合成方法および音声合成プログラム
JP5874639B2 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
JP2013033103A (ja) 声質変換装置および声質変換方法
JP2021148942A (ja) 声質変換システムおよび声質変換方法
JP3742206B2 (ja) 音声合成方法及び装置
Murphy Controlling the voice quality dimension of prosody in synthetic speech using an acoustic glottal model
WO2023182291A1 (ja) 音声合成装置、音声合成方法及びプログラム
JP2018041116A (ja) 音声合成装置、音声合成方法およびプログラム
Hinterleitner et al. Speech synthesis
Wu et al. Synthesis of spontaneous speech with syllable contraction using state-based context-dependent voice transformation
Karjalainen Review of speech synthesis technology
IMRAN ADMAS UNIVERSITY SCHOOL OF POST GRADUATE STUDIES DEPARTMENT OF COMPUTER SCIENCE
KR101567566B1 (ko) 개인 음색을 반영한 통계적 음성합성 시스템 및 방법
Chowdhury Concatenative Text-to-speech synthesis: A study on standard colloquial bengali

Legal Events

Date Code Title Description
ENP Entry into the national phase

Ref document number: 2012543381

Country of ref document: JP

Kind code of ref document: A

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12820727

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 12820727

Country of ref document: EP

Kind code of ref document: A1