WO2007141993A1 - 音声合成装置 - Google Patents

音声合成装置 Download PDF

Info

Publication number
WO2007141993A1
WO2007141993A1 PCT/JP2007/059765 JP2007059765W WO2007141993A1 WO 2007141993 A1 WO2007141993 A1 WO 2007141993A1 JP 2007059765 W JP2007059765 W JP 2007059765W WO 2007141993 A1 WO2007141993 A1 WO 2007141993A1
Authority
WO
WIPO (PCT)
Prior art keywords
speech
unit
synthesized
small
speech unit
Prior art date
Application number
PCT/JP2007/059765
Other languages
English (en)
French (fr)
Inventor
Yoshifumi Hirose
Yumiko Kato
Takahiro Kamai
Original Assignee
Panasonic Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corporation filed Critical Panasonic Corporation
Priority to US12/303,455 priority Critical patent/US20090254349A1/en
Priority to CN2007800208718A priority patent/CN101490740B/zh
Priority to JP2008520470A priority patent/JP4246790B2/ja
Publication of WO2007141993A1 publication Critical patent/WO2007141993A1/ja

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management

Definitions

  • the present invention relates to an audio content editing and generation method based on a speech synthesis technique.
  • editing of audio content refers to, for example, adding high-quality inflections such as high school girl style and Kansai dialect, This is equivalent to customizing the synthesized sound according to the editor's own preferences, such as changing the prosody and voice quality so that they can be transmitted, and emphasizing the ending. Rather than performing such customization in a single process, it is possible to create content that the user desires by repeating editing and auditioning.
  • a synthesized sound being edited can be easily auditioned.
  • FIG. 1 shows the conventional speech synthesis apparatus described in Patent Document 1. It is a block diagram which shows a structure.
  • a conventional speech synthesizer receives a synthesizer instruction 002 obtained as a result of analyzing a text as a synthesis target as an input, and uses an expanded speech unit included in a speech unit DB (database) 001. This is a speech synthesizer that selects and connects appropriate speech segments and outputs a synthesized speech waveform 019.
  • the speech synthesizer includes a multistage preliminary selection unit 003, a segment selection unit 004, and a connection unit 005.
  • the multistage preselection unit 003 receives the synthesizer instruction 002, and performs multistage preselection of speech units designated by the synthesizer instruction 002, as described later, and selects a preselection candidate group 01 8 select.
  • the segment selection unit 004 receives the synthesizer command 002, and selects the segment with the lowest cost calculated from all the sub-costs from the preliminary selection candidate group 018.
  • Connection unit 005 connects the speech units selected by unit selection unit 004 and outputs synthesized speech waveform 019.
  • the preliminary selection candidate group 018 is used only for selecting a segment, and therefore includes only a feature amount necessary for cost calculation, and does not include speech segment data itself.
  • the connection unit 005 can obtain the speech unit data of the unit selected by the unit selection unit 004 with reference to the speech unit DB001.
  • the sub-costs used in conventional speech synthesizers are fundamental frequency error, duration error, MFCC (Mel Frequency Cepstrum Coefficient) error, FO (fundamental frequency) discontinuous error, MFCC discontinuous error, phoneme environment 6 sub-costs corresponding to each error Including.
  • MFCC Mel Frequency Cepstrum Coefficient
  • FO fundamental frequency
  • MFCC discontinuous error phoneme environment 6 sub-costs corresponding to each error Including.
  • the former three belong to the target cost and the latter three belong to the connection cost.
  • the cost is calculated from the sub cost.
  • the multistage preliminary selection unit 003 includes four preliminary selection units 006, 009, 012 and 015.
  • the first preliminary selection unit 006 receives the synthesizer command 002, and performs the preliminary selection based on the F0 error and the duration length error at each time in the speech unit candidate power in the speech unit DB001. Group 007 is output.
  • the second preliminary selection unit 009 performs preliminary selection based on the F0 error, the duration length error, and the MFCC error at each time from the segments in the first candidate group 007. Is output.
  • the third preliminary selection unit 012 and the fourth preliminary selection unit 015 similarly perform preliminary selection using a part of the sub-cost.
  • Patent Document 1 Japanese Patent Laid-Open No. 2005-265895 (Fig. 1)
  • the object of the present invention is to create audio content, and for this purpose, means for editing synthesized sound is required.
  • the synthesized sound that is, the audio content is edited using the technique of Patent Document 1, there are the following problems.
  • the speech synthesizer described in Patent Document 1 can reduce the total calculation cost by introducing a preliminary selection unit when selecting a segment.
  • the first preliminary selection unit 006 needs to perform preliminary selection from all speech segments.
  • the connection unit 005 must finally select the optimum speech unit from the speech unit DB001 every time.
  • the speech unit DB001 must store a large number of speech units, and the total playback time is usually several hours to several hundred hours. It will be a large database.
  • the present invention solves the above-described conventional problems, and an object of the present invention is to provide a speech synthesizer capable of executing speech content editing at high speed and easily creating speech content.
  • a speech synthesizer is a speech synthesizer that generates a synthesized sound that conforms to a phonetic symbol and prosodic information, and generates synthesized sound generation data used to generate the synthesized sound.
  • a small-scale database that is held, a large-scale database that holds a larger number of speech segments than the synthesized-sound generation data held in the small-scale database, and the generated synthesized speech is a voice Synthetic sound generation data selection means for selecting synthetic sound generation data that matches the symbol and prosodic information from the small-scale database, and the synthetic sound generation data selected by the synthetic sound generation data selection means
  • the compatible speech unit selecting means for selecting a corresponding speech unit from the large-scale database and the speech unit selected by the compatible speech unit selecting means are connected.
  • speech unit connecting means for generating a synthesized sound.
  • the synthetic sound generation data selection means selects synthetic sound generation data from the small-scale database.
  • the adaptive speech segment selection means selects a high-quality speech segment corresponding to the selected synthesized speech generation data from the large-scale database. In this way, by selecting speech units in two stages, it is possible to select speech units with high sound quality at high speed.
  • the large-scale database is provided in a server connected to the speech synthesizer via a computer network, and the adaptive speech element selection means is provided in the server provided in the server.
  • the center of the scale database The speech unit may be selected.
  • the above-described speech synthesizer further includes a small-scale speech unit connection unit that generates a simple synthesized speech by connecting the speech units selected by the synthesized speech generation data selection unit; Prosody information correcting means for receiving information for correcting the prosodic information of the simple synthesized sound and correcting the prosodic information based on the information.
  • the synthetic sound generation data selection means when the prosody information of the simple synthetic sound is corrected, the synthetic sound generation data in which the generated synthetic sound matches the phonetic symbol and the corrected prosodic information Is reselected from the small database and the reselected synthesized speech generation data is output to the small speech unit connection means.
  • the adaptive speech unit selection means receives the synthesized sound generation data determined by the modification and the reselection, and selects speech units corresponding to the synthesized sound generation data from the large-scale data. You can also choose the medium strength!
  • the synthetic sound generation data is reselected. While repeating the prosodic information correction and the reselection of the synthesized sound generation data, the user selects the desired synthesized sound generation data. In addition, the selection of speech units with large database power needs to be done only once at the end. Therefore, it is possible to efficiently create high-quality synthesized sound.
  • the present invention is realized as a speech synthesizing method having steps as characteristic means included in a speech synthesizer that can be realized as a speech synthesizer having such characteristic means as much as possible. It can also be realized as a program that causes a computer to execute the characteristic steps included in the speech synthesis method. Needless to say, such a program can be distributed via a communication network such as a recording medium such as a CD-ROM (Compact Disc-Read Only Memory) or the Internet.
  • a communication network such as a recording medium such as a CD-ROM (Compact Disc-Read Only Memory) or the Internet.
  • a synthetic sound can be created using only a terminal and a small-scale database.
  • the prosody modification means by the user Synthetic sound editing processing is possible.
  • audio content can be edited even on terminals with relatively small resources such as mobile terminals.
  • the synthesized sound can be created on the terminal side using a small database, the edited synthesized sound can be played back only on the terminal, and the user can audition the reproduced synthesized sound.
  • the user can perform high-quality sound processing using a large-scale database stored in the server.
  • the already determined small speech unit sequences are associated with the candidates for the large-scale database. For this reason, the selection of a unit by the large-scale speech unit selector only needs to search a limited search space compared to the case of re-selecting a unit again! Can be reduced.
  • there is a system of several GB or more as an example of a large speech unit while another example of a small speech unit is about 0.5 MB.
  • the communication between the terminal and the server for obtaining the segments stored in the large-scale database need only be performed once when the high-quality key processing is performed. Therefore, the time loss associated with communication can be reduced. That is, by separating the editing work from the sound quality enhancement process, it is possible to improve the response required for the sound content editing work.
  • FIG. 1 is a configuration diagram of a conventional multi-stage unit selection type speech synthesizer.
  • FIG. 2 is a configuration diagram of a multi-quality speech synthesizer according to Embodiment 1 of the present invention.
  • FIG. 3 shows an example of a corresponding DB according to the first embodiment of the present invention.
  • FIG. 4 is a conceptual diagram when the multi-quality speech synthesizer according to Embodiment 1 of the present invention is implemented as a system.
  • FIG. 5 is a flowchart showing the operation of the multi-quality speech synthesizer in Embodiment 1 of the present invention.
  • FIG. 6 is a diagram showing an operation example of high-quality sound processing according to Embodiment 1 of the present invention.
  • Fig. 7 is a conceptual diagram when hierarchical clustering is performed on a speech unit group held in a large speech unit DB.
  • FIG. 8 is a flowchart of multi-quality speech synthesis processing in Modification 1 of Embodiment 1 of the present invention. It is a chart.
  • FIG. 9 is a flowchart of multi-quality speech synthesis processing in Modification 2 of Embodiment 1 of the present invention.
  • FIG. 10 is a flowchart of multi-quality speech synthesis processing in Modification 3 of Embodiment 1 of the present invention.
  • FIG. 11 is a flowchart of multi-quality speech synthesis processing in Modification 4 of Embodiment 1 of the present invention.
  • FIG. 12 is a configuration diagram of a text-to-speech synthesizer using an HMM speech synthesis method, which is one of speech synthesis methods based on a statistical model.
  • FIG. 13 is a configuration diagram of a multi-quality speech synthesizer according to Embodiment 2 of the present invention.
  • FIG. 14 is a flowchart showing an operation of the multi-quality speech synthesizer in Embodiment 2 of the present invention.
  • FIG. 15 is a diagram showing an operation example of high-quality sound processing according to Embodiment 2 of the present invention.
  • FIG. 16 is a conceptual diagram when context clustering is performed on a speech unit group held in a large speech unit DB.
  • FIG. 17 is an example of a corresponding DB according to the second embodiment of the present invention.
  • FIG. 18 is a diagram showing an operation example in the case where a plurality of HMMs are assigned to each unit in the sound quality enhancement processing according to Embodiment 2 of the present invention.
  • FIG. 19 is a block diagram showing a configuration of a multi-quality speech synthesis system according to Embodiment 3 of the present invention.
  • FIG. 20 is a flowchart showing a flow of processing by the multi-quality speech synthesis system according to Embodiment 3.
  • FIG. 21 is a flowchart showing a flow of processing by the multi-quality speech synthesis system according to Embodiment 3. Explanation of symbols
  • Embodiment 1 of the present invention is characterized in that audio content editing is efficiently performed by hierarchizing a speech unit DB into a small speech unit DB and a large speech unit DB. .
  • FIG. 2 is a configuration diagram of the multi-quality speech synthesizer according to Embodiment 1 of the present invention.
  • the multi-quality speech synthesizer is a device that synthesizes a plurality of quality speech, and includes a small speech unit DB101, a small speech unit selector 102, a small speech unit connection unit 103, A prosody modification unit 104, a large speech unit DB 105, a corresponding DB 106, a speech unit candidate acquisition unit 107, a large speech unit selection unit 108, and a large speech unit connection unit 109.
  • the small speech unit DB101 is a database that holds small speech units.
  • the speech element stored in the DB 101 is specifically referred to as a “small speech element” in this specification.
  • the small speech unit selection unit 102 receives as input the phoneme information and prosodic information that are the targets of the synthesized speech to be created, and from among speech units held in the small speech unit DB101. It is a processing unit that selects an optimal speech unit sequence.
  • the small speech unit connection unit 103 is configured to output the sound selected by the small speech unit selection unit 102. It is a processing unit that generates a synthesized sound by connecting phoneme sequences.
  • the prosody modification unit 104 is a processing unit that accepts input by the user of information for modifying the prosody information, and modifies the target prosody information created by the multi-quality speech synthesizer. .
  • the large speech unit DB105 is a database that holds large speech units.
  • the speech element stored in the DB 105 is particularly referred to as a “large speech element” in this specification.
  • Correspondence DB 106 is a database that holds information indicating the correspondence between speech units held in small speech unit DB101 and speech units stored in large speech unit DB 105. .
  • the speech unit candidate acquisition unit 107 receives the speech unit sequence selected by the small speech unit selection unit 102 as input, and stores information indicating the correspondence relationship between speech units stored in the corresponding DB 106. Based on this, the processing unit obtains speech unit candidates corresponding to each speech unit of the input speech unit series from the large-scale speech unit DB 105 via the network 113 or the like.
  • the large-scale speech unit selection unit 108 receives the phoneme information received as an input by the small-scale speech unit selection unit 102 and the small-scale speech unit selection unit 102 as inputs.
  • a processing unit that receives prosody information or prosody information modified by the prosody modification unit 104 as an input and selects an optimal speech unit sequence from speech unit candidates selected by the speech unit candidate acquisition unit 107. is there.
  • the large-scale speech unit connection unit 109 is a processing unit that generates a synthesized sound by connecting the speech unit sequences selected by the large-scale speech unit selection unit 108.
  • Fig. 3 shows the correspondence between the speech unit stored in the small speech unit DB101 and the speech unit stored in the large speech unit DB105 stored in the corresponding DB 106. It is a figure which shows an example of information.
  • “small speech unit number” and “large speech unit number” are stored in association with each other.
  • “Small speech unit number” identifies the speech unit stored in the small speech unit DB101.
  • the “large speech unit number” is a speech unit number for identifying a speech unit stored in the large speech unit DB 105.
  • the speech unit with small speech unit number “2” is associated with speech units with large speech unit numbers “1” and “2”.
  • speech units having the same number indicate the same speech unit. That is, the speech unit with the small speech unit number “2” and the speech unit with the large speech unit number “2” indicate the same speech unit.
  • FIG. 4 is a conceptual diagram when the multi-quality speech synthesizer according to the present embodiment is realized as a system.
  • the multi-quality speech synthesis system includes a terminal 111 and a server 112 connected to each other via a network 113, and a multi-quality speech synthesizer is realized by the cooperative operation of the terminal 111 and the server 112. To do.
  • the terminal 111 has a small speech unit DB101, a small speech unit selection unit 102, a small speech unit connection unit 103, a prosody modification unit 104, a corresponding DB 106, and a speech unit candidate acquisition.
  • the server 112 is composed of a large-scale speech unit DB105.
  • the large speech unit DB 105 may be held centrally by the server 112 that is not required to be provided in the terminal 111.
  • the operation of the multi-quality speech synthesizer can be broadly divided into synthetic sound editing processing and edited synthetic sound quality enhancement processing.
  • description will be given in order by dividing into the editing process of the synthesized sound and the sound quality enhancement process.
  • prosodic information is generated based on the phoneme sequence and accent symbols (step S001).
  • the method of generating prosodic information is not particularly limited. For example, it may be generated with reference to a template !, and it may be estimated using quantification class I. You may do it.
  • the prosody information may be directly input from the outside.
  • This prosodic information group includes the prosody information t indicating the phoneme “a” and the corresponding prosody, and the phoneme “r” and the corresponding phoneme “r”.
  • the small speech element selection unit 102 is based on the prosodic information t to t obtained in step S001.
  • a speech unit sequence that minimizes is searched by the Viterbi algorithm.
  • the calculation method of the target cost and the connection cost is not particularly limited.
  • the target cost may be calculated by a weighted sum of differences of prosodic information (fundamental frequency 'duration length' power).
  • the connection cost is calculated using the cepstrum distance between the end of U and the start of U. i-1 i
  • the small speech unit connection unit 103 synthesizes a speech waveform using the speech unit sequence selected by the small speech unit selection unit 102, and presents the synthesized speech to the user by outputting it. (Step S003).
  • the method for synthesizing the speech waveform is not particularly limited.
  • the prosody modification unit 104 receives an input as to whether or not the user is satisfied with the synthesized sound (step S004). If the user is satisfied with the synthesized sound (YES in step S004), the editing process ends, and the processes after step S006 are executed.
  • the prosody modification unit 104 accepts input by the user of information for modifying the prosody information, and the target prosody. Correct the information (step S005).
  • “Modification of prosodic information” includes, for example, changing the position of the accent, changing the fundamental frequency, and changing the duration.
  • step S005 the user can create a synthesized sound of the desired prosody.
  • S s, s,..., S be the speech segment sequence selected in this way.
  • the interface of the prosody modification unit 104 is not particularly limited.
  • the prosody information may be corrected with a slider, or the user may specify intuitive prosody information such as a high school girl style or Kansai dialect. good.
  • the user may input prosodic information by voice.
  • Step S to obtain speech unit candidates from the large speech unit DB105 (Step S
  • the speech unit candidate acquisition unit 107 displays information indicating a correspondence relationship between the speech unit held in the small speech unit DB101 and the speech unit held in the large speech unit DB105.
  • Speech unit sequence (S s, s, ..., s)
  • Speech unit candidates corresponding to each speech unit constituting 2 n are obtained from the large speech unit DB105.
  • the method for creating the corresponding DB 106 will be described later.
  • speech segment candidate acquisition processing by speech segment candidate acquisition section 107 step S
  • Figure 6 shows the corresponding DB
  • the speech unit candidate group of the large speech unit DB 105 corresponding to each small speech unit (s) is acquired. For example, in the example of FIG. 6, a small speech unit s determined by the editing process as the phoneme “a” is converted into a large scale by using the corresponding DB 106.
  • h, h, h, h are multiple real speech waveforms acoustically similar to the small speech unit s (or
  • Speech unit candidates can be acquired based on DB106. That is, the large speech element candidate group sequence 602 shown in the figure shows the large speech element candidate group sequence corresponding to the small speech element sequence S.
  • the large speech unit selection unit 108 selects a speech unit sequence most suitable for the prosodic information edited by the user from the large speech unit candidate group sequence 602 (step SOO).
  • H h, h, h, h, h, h, h, h are derived from the large speech element candidate group sequence 602.
  • H h, h, h, h, h, h, h, h, h, h, h are stored in the large speech unit DB105
  • the large-scale speech unit connection unit 109 is the large-scale speech unit DB1 selected in step S007.
  • the speech unit sequence H held in 05 is connected to generate a synthesized sound (step S008).
  • connection method is not particularly limited.
  • the pieces when connecting the pieces, the pieces may be appropriately deformed and connected.
  • the prosody 'voice quality is similar to the simplified version of the synthesized sound edited in the editing process, In addition, it is possible to generate a high-quality synthesized sound.
  • the correspondence DB 106 stores information indicating the correspondence between the speech units held in the small speech unit DB101 and the speech units held in the large speech unit DB105. It is a database to keep.
  • the sound quality enhancement process when performing the sound quality enhancement process, it is used to select a speech element similar to the simple synthesized sound created by the editing process from the large-scale speech element DB 105.
  • the small speech unit DB101 is a partial set of the segment group held by the large speech unit DB105, and is characterized by satisfying the following relationship.
  • the speech unit held in the small speech unit DB101 is associated with one or more speech units held in the large speech unit DB. Furthermore, the speech unit of the large speech unit DB105 associated by the corresponding DB 106 is acoustically similar to the speech unit of the small speech unit DB. Similar criteria include prosodic information (basic frequency, power information, duration length, etc.) and vocal tract information (formant, cepstrum coefficients, etc.).
  • the speech unit having a similar prosody and voice quality is subjected to a high quality sound processing.
  • Can be selected during The large speech unit DB105 can select an optimal speech unit candidate from among abundant candidates. Therefore, it is possible to reduce the cost when the speech unit is selected by the large speech unit selection unit 108 described above. Thus, if the sound quality of the synthesized sound can be improved, the effect can be obtained.
  • the large speech unit DB105 can hold a large amount of data.
  • the large speech unit selection unit 108 can select a speech unit sequence having high connectivity between speech units from the large speech unit DB 105 (for example, the method described in Patent Document 1). Can be realized by using [0088] In order to perform the above association, a clustering technique is used. “Clustering” is a technique for classifying individuals into several sets based on an index of similarity between individuals determined by multiple characteristics.
  • the clustering method is roughly divided into a hierarchical clustering method in which similar individuals are merged into several sets, and similar individuals are eventually included in the same set.
  • This can be broadly divided into non-hierarchical clustering methods that divide the original set.
  • hierarchical clustering a technique called “hierarchical clustering using heaps” is known.
  • non-hierarchical clustering a method called “k-me ans method” is known!
  • FIG. 7 shows a conceptual diagram when hierarchical clustering is performed on a speech unit group held in the large speech unit DB105.
  • the initial layer 301 is composed of each speech unit held in the large speech unit DB 105.
  • the speech unit held in the large speech unit DB 105 is shown by a rectangle.
  • the number given to the rectangle is an identifier for identifying a speech unit, that is, a speech unit number.
  • the cluster group 302 of the first hierarchy is a set of clusters clustered as the first hierarchy by hierarchical clustering, and each cluster is shown as a circle.
  • the cluster 303 is one of the clusters clustered as the first hierarchy, and specifically includes speech unit numbers “1” and “2”.
  • the number shown in each cluster is an identifier of a speech unit representing the cluster.
  • the speech element representing the cluster 303 is the speech element having the speech element number “2”.
  • As a method for determining the representative speech unit there is a method using a centroid of a speech unit group belonging to the cluster. .
  • the speech unit closest to the centroid of the speech unit group belonging to the cluster is used as the cluster representative.
  • the speech unit representing the cluster 303 is the speech unit with the speech unit number “2”.
  • representative speech segments can be determined for other clusters.
  • the similarity is obtained between the vector of each speech unit included in the speech unit group and the centroid vector of the cluster, and the maximum similarity is obtained. Is obtained as a representative segment. Note that the distance (eg, Euclidean distance) between the centroid vector of the cluster and the vector of each speech element is obtained, and the speech element with the smallest distance is obtained as the representative element.
  • the distance eg, Euclidean distance
  • the cluster group 304 in the second hierarchy is a cluster obtained by clustering clusters belonging to the cluster group 302 in the first hierarchy based on the above-described similarity. Therefore, the number of clusters is smaller than the number of clusters in the first layer cluster group 302. At this time, the representative speech segment can be similarly determined for the cluster 305 in the second layer.
  • the speech element with the segment number “2” is a speech element representing the cluster 305.
  • the large speech unit DB 105 can be divided into a cluster group 302 in the first hierarchy and a cluster group 304 in the second hierarchy.
  • a segment group that also has the power of only the representative speech unit of each cluster of the cluster group 302 of the first hierarchy can be used as the small speech unit DB 101.
  • speech units having unit numbers 2, 3, 6, 8, 9, 12, 14, and 15 can be used as the small speech unit DB101.
  • a speech unit group in which only the representative speech unit of each cluster of the cluster group of the second hierarchy can also be used as the small speech unit DB 101.
  • speech units with unit numbers 2, 8, 12, and 15 can be used for ⁇ ⁇ IJ as the small speech unit DB101.
  • the cluster group 302 of the first layer is used as a small speech unit. Is shown.
  • the speech unit with the small speech unit number “2” is associated with the speech units with the large speech unit numbers “1” and “2” in the large speech unit DB105.
  • the speech unit with the small speech unit number “3” is associated with the speech units with the large speech unit numbers “3” and “4” in the large speech unit DB105.
  • the representative speech units of all the first layer cluster groups 302 and the large speech unit numbers of the large speech unit DB 105 can be associated with each other.
  • the corresponding DB 106 can be referred to at a very high speed. .
  • the scale of the small speech unit DB101 can be changed to be scalable. That is, as the small speech unit DB101, the representative speech unit of the cluster group 302 of the first hierarchy or the representative speech unit of the cluster group 304 of the second configuration can be used. Therefore, it is possible to configure the small speech unit DB101 according to the storage capacity of the terminal 111.
  • the small speech unit DB101 and the large speech unit DB0105 satisfy the above-described relationship. That is, when the representative speech unit of the first layer cluster group 302 is used as the small speech unit DB101, for example, the speech unit number “2” held in the small speech unit DB101 is used.
  • the speech unit corresponds to the speech unit numbers “1” and “2” of the large speech unit DB105. Further, the speech units having the speech unit numbers “1” and “2” are similar to the representative speech unit having the speech unit number “2” in the cluster 303 according to the above-described criteria.
  • the speech unit candidate acquisition unit 107 selects the corresponding DB106. Is used to obtain the speech units with unit numbers “1” and “2”.
  • the large-scale speech unit selection unit 108 is a candidate for which the above-mentioned formula (1) is also minimized, that is, the candidate of the acquired speech unit candidate, that is, close to the target prosody and has good connectivity with the front and back units. Select a speech segment
  • the cost value of the speech unit sequence selected by the large speech unit selection unit 108 is less than or equal to the cost value of the speech unit sequence selected by the small speech unit selection unit 102.
  • the segment candidate includes a speech unit selected by the small speech unit selection unit 102, and a plurality of speech units similar to the speech unit are added as candidates.
  • the corresponding DB 106 is configured using hierarchical clustering. However, the corresponding DB 106 may be configured using non-hierarchical clustering.
  • the k means method may be used.
  • the k means method is non-hierarchical clustering that divides element groups (here, speech segment groups) so as to have a preset number of clusters (k).
  • the size of the small speech unit DB101 required by the terminal 111 can be calculated at the time of design. Further, by determining a representative speech unit for each of the k divided clusters and using it as the small speech unit DB 101, the same effect as in the case of hierarchical clustering can be obtained.
  • clustering processing is performed by performing clustering separately for each unit of speech units (for example, phonemes, syllables, mora, CV (C: consonant, V: vowel), VCV). Allows efficient clustering.
  • terminal 111 has small speech unit DB101, small speech unit selection unit 102, small speech unit connection unit 103, prosody modification unit 104, and corresponding DB 106.
  • the large speech unit DB105 may be held centrally on the server 112, even if there are multiple terminals 111, one large speech unit DB105 is stored on the server 112. Just do it.
  • a synthesized sound can be created using only the terminal 111 and the small speech unit DB101.
  • the prosody modification unit 104 allows the user to edit the synthesized sound.
  • the communication between the terminal 111 and the server 112 need only be performed once when the quality enhancement process is performed. For this reason, the time loss accompanying communication can be reduced. That is, by separating the editing work from the high-quality sound processing, it is possible to improve the response required for the sound content editing work. It should be noted that the high sound quality processing may be performed by the server 112 and the result of the high sound quality may be transmitted to the terminal 111 via the network 113 !.
  • the small speech unit DB101 is constructed to be a subset of the large speech unit DB105.
  • the information amount of the large speech unit DB105 is compressed to a small scale.
  • a simulated speech unit DB101 may be created. Specifically, compression may be performed by reducing the sampling frequency, reducing the number of quantization bits, or lowering the analysis order at the time of analysis.
  • the correspondence DB 106 may be configured to associate the small speech unit DB101 and the large speech unit DB105 on a one-to-one basis.
  • the load varies depending on how each component of the present embodiment is shared between the terminal and the server.
  • the information that is communicated between the terminal and the server is different, and therefore the amount of communication is also different. The combination of components and their effects are described below.
  • the terminal 111 includes a small speech unit DB 101, a small speech unit selection unit 102, a small speech unit connection unit 103, and a prosody modification unit 104.
  • the server 112 includes a large-scale speech unit DB 105, a corresponding DB 106, a speech unit candidate acquisition unit 107, a large-scale speech unit selection unit 108, and a large-scale speech unit connection unit 109.
  • Editing processing is performed using terminal 111. Specifically, prosodic information is generated (step S001).
  • the small speech element selection unit 102 selects a small speech element sequence from the small speech element DB 101 (step S002).
  • the small speech element connection unit 103 connects the small speech elements and generates a simplified synthesized sound (step S003).
  • User generated It is determined whether or not the user is satisfied with the received synthesized sound (step S004). If not satisfied (NO in step S004), the prosody modification unit 104 corrects the prosody information (step S005). By repeating the process from step S002 to step S005, the target synthesized sound is generated.
  • the terminal 111 If the user is satisfied with the simplified version of the synthesized speech (YES in step S004), the terminal 111 notifies the server 112 of the identifier of the small speech unit sequence selected in step S002 and Prosodic information is transmitted to the server (step S010).
  • the speech element candidate acquisition unit 107 refers to the corresponding DB 106 based on the identifier of the small speech element sequence acquired from the terminal 111, and acquires the speech element group as a selection candidate from the large speech element DB 105. (Step S006). Based on the prosodic information received from the terminal 111, the large speech unit selection unit 108 selects an optimal large speech unit sequence from the acquired speech unit candidate group (step S007). The large-scale speech unit connecting unit 109 connects the selected large-scale speech unit sequence to generate a high-quality sound synthesized sound (step S008).
  • the server 112 transmits the high-quality sound version synthesized sound created as described above to the terminal 111.
  • High-quality synthesized sound can be created by the above processing.
  • the terminal 111 has the small speech unit DB101, the small speech unit selection unit 102, the small speech unit connection unit 103, Since it can be configured only with the prosody modification unit 105, the required memory capacity can be reduced. In addition, since the terminal 111 generates a synthesized sound using only small speech elements, the amount of calculation can be reduced. In addition, communication from the terminal 111 to the server 112 is only prosodic information and a small speech unit sequence identifier, and the amount of communication can be very small. In addition, the communication capacity of the server 112 can be reduced by transmitting the high-quality synthesized speech once only to the terminal 111.
  • the terminal 111 includes a small speech unit DB 101, a small speech unit selection unit 102, a small speech unit connection unit 103, a prosody modification unit 104, a corresponding DB 106, and a speech unit candidate acquisition unit 107. It comprises.
  • Server 112 is a large speech unit DB105, large speech A unit selection unit 108 and a large-scale speech unit connection unit 109 are provided.
  • step S001 prosodic information is generated (step S001).
  • the small speech element selection unit 102 selects a small speech element sequence from the small speech element DB 101 (step S002).
  • the small speech element connection unit 103 connects the small speech elements and generates a simplified synthesized sound (step S003).
  • the user determines whether or not he / she is satisfied by listening to the generated synthesized sound (step S004). If not satisfied (NO in step S004), the prosody modification unit 104 corrects the prosody information (step S005). By repeating the process from step S002 to step S005, the target synthesized sound is generated.
  • the speech segment candidate acquisition unit 107 uses the corresponding DB 106 to generate a segment that is a candidate for the corresponding large speech unit DB 105.
  • the terminal 111 transmits the identifier of the large speech unit selection candidate group and the confirmed prosodic information to the server 112 (step S01 Do).
  • the large speech unit selector 108 selects an optimal large speech unit sequence from the acquired speech unit candidate group based on the prosodic information received from the terminal 111 (step S007).
  • the large-scale speech unit connection unit 109 connects the selected large-scale speech unit sequence to generate a high-quality sound synthesized sound (step S008).
  • the server 112 transmits the high-quality sound synthesized sound generated as described above to the terminal 111.
  • a high-quality synthesized sound is created by the above processing.
  • the terminal 111 has the small speech unit DB101, the small speech unit selection unit 102, the small speech unit connection unit 103, Since the prosody modification unit 104 and the corresponding DB 106 can be used alone, the required memory capacity can be reduced. In addition, since the terminal 111 generates synthesized sound using only small speech elements, the amount of calculation can be reduced. By providing DB106 on terminal 111 side It is possible to reduce the processing of the server 112. The communication from the terminal 111 to the server 112 is only the prosodic information and the identifier of the speech element candidate group. Since only the identifiers need to be transmitted for the segment candidate group, the amount of communication can be very small.
  • the server 112 since the server 112 does not need to perform the process of acquiring the speech segment candidate, the processing load on the server 112 can be reduced.
  • communication with the terminal 111 can reduce the amount of communication by simply transmitting the synthesized speech with high sound quality once.
  • the terminal 111 includes a small speech unit DB101, a small speech unit selection unit 102, a small speech unit connection unit 103, a prosody modification unit 104, a corresponding DB 106, and a speech unit candidate acquisition unit 107.
  • the large-scale speech unit selection unit 108 and the large-scale speech unit connection unit 109 are provided.
  • the server 112 includes a large speech unit DB105.
  • terminal 111 includes large-scale speech unit selection unit 108 and large-scale speech unit connection unit 109.
  • Editing processing is performed using terminal 111. Specifically, prosodic information is generated (step S001).
  • the small speech element selection unit 102 selects a small speech element sequence from the small speech element DB 101 (step S002).
  • the small speech element connection unit 103 connects the small speech elements and generates a simplified synthesized sound (step S003).
  • the user determines whether or not he / she is satisfied by listening to the generated synthesized sound (step S004). If not satisfied (NO in step S004), the prosody modification unit 104 corrects the prosody information (step S005). By repeating the process from step S002 to step S005, the target synthesized sound is generated.
  • the terminal 111 uses the corresponding DB 106 to acquire a unit identifier that is a candidate for the corresponding large speech unit DB 105, and The identifier of the large speech segment selection candidate group is transmitted to the server (step SO 09).
  • the server 112 uses the received selection candidate group identifier. Based on this, a speech unit candidate group is selected from the large speech unit DB 105 and transmitted to the terminal 111 (step S006).
  • large speech unit selection section 108 calculates an optimal large speech unit sequence based on the acquired speech unit candidate group power and already determined prosodic information (step) S007).
  • the large-scale speech unit connection unit 109 connects the selected large-scale speech unit sequence to generate a high-quality synthesized sound (step S008).
  • the server 112 determines the unit candidates to the terminal 111 based on the identifier of the speech unit candidate group transmitted from the terminal 111! Since only transmission is required, the calculation load on the server 112 can be greatly reduced.
  • the terminal 111 can select the optimum speech unit sequence from a limited speech unit candidate group corresponding to a small speech unit by the corresponding DB 106, so the calculation amount is not so large. Is possible.
  • the terminal 111 includes a small speech unit DB 101, a small speech unit selection unit 102, a small speech unit connection unit 103, a prosody modification unit 104, a large speech unit selection unit 108, and A large-scale speech unit connection unit 109 is provided.
  • the server 112 includes a large speech unit DB1 05, a corresponding DB 106, and a speech unit candidate acquisition unit 107.
  • the difference between the present modification and the third modification is that the server 112 includes the corresponding DB 106.
  • Editing processing is performed using terminal 111. Specifically, prosodic information is generated (step S001).
  • the small speech element selection unit 102 selects a small speech element sequence from the small speech element DB 101 (step S002).
  • the small speech element connection unit 103 connects the small speech elements and generates a simplified synthesized sound (step S003).
  • the user determines whether or not he / she is satisfied by listening to the generated synthesized sound (step S004). If not satisfied (NO in step S004), the prosody modification unit 104 corrects the prosody information (step S005). Repeat steps S002 and S005 until the desired composition Sound is generated.
  • step S004 If the user is satisfied with the simplified synthesized speech (YES in step S004), control of processing is transferred to the server 112 side.
  • the server 112 uses the corresponding DB 106 to acquire a speech unit group that is a candidate for the corresponding large speech unit DB 105, and transmits a large speech unit selection candidate group to the terminal 111. (Step S006).
  • the optimal large-scale speech unit sequence is obtained from the speech unit candidate group obtained by the large-scale speech unit selection unit 108 based on the already determined prosodic information. Calculate (step S007).
  • the large-scale speech unit connection unit 109 connects the selected large-scale speech unit sequence to generate a high-quality synthesized sound (step S008).
  • the server 112 receives the identifier of the small-scale speech element sequence, and uses the corresponding speech element from the large-scale speech element DB 105 using the corresponding DB 106. It is only necessary to transmit the single candidate group to the terminal 111, and the calculation load of the server 111 can be greatly reduced. Compared to the third modification, communication from the terminal 111 to the sano 112 requires only a small speech unit sequence identifier, so the amount of communication can be reduced.
  • a synthesized sound is generated by connecting speech unit sequences, whereas in this embodiment, HMM (Hidden Markov Model) is used.
  • the difference is that the synthesized speech is generated using the (Dell) speech synthesis method.
  • the HMM speech synthesis method is a speech synthesis method based on a statistical model, and is characterized in that the capacity of the statistical model is compact and a synthesized sound with stable sound quality can be generated. Since the HMM speech synthesis method is a publicly known technique, its detailed description will not be repeated.
  • FIG. 12 is a block diagram of a text-to-speech synthesizer that uses the HMM speech synthesis method, which is one of the speech synthesis methods based on a statistical model (reference: JP 2002-268660 A).
  • the text-to-speech synthesizer includes a learning unit 030 and a speech synthesizer 031.
  • Learning unit 030 includes speech DB (database) 032, excitation source parameter extraction unit 033, vector parameter extraction unit 034, and HMM learning unit 035.
  • the voice synthesis unit 031 includes a context-dependent HMM file 036, a text analysis unit 037, a parameter generation unit 038, an excitation source generation unit 039, and a synthesis filter 040.
  • the learning unit 030 has a function of learning the context-dependent HMM file 036 using audio information stored in the audio DB032.
  • the voice DB032 stores a large number of voice information prepared in advance as samples. Audio information is obtained by adding label information (amyuru and nuuyooku) that identifies each phoneme part of the waveform to the audio signal.
  • the excitation source parameter extraction unit 033 and the spectral parameter extraction unit 034 extract the excitation source parameter sequence and the spectral parameter sequence for each audio signal extracted from the audio DB032.
  • the learning unit 035 of the HMM performs HMM learning processing on the extracted excitation source parameter string and spectrum meter string using label information and time information extracted together with the voice signal from the voice DB032.
  • the learned HMM is stored in the context-dependent HMM file 036.
  • the parameters of the excitation source model are learned using a multi-space distribution HMM.
  • the multi-space distribution HMM is an HMM extended to allow different dimensional forces of the parameter vector each time, and the pitch including the voiced Z unvoiced flag is an example of a parameter sequence in which such dimensions change. It is. In other words, it is a one-dimensional parameter vector when voiced and a zero-dimensional parameter vector when unvoiced.
  • the learning unit 030 performs learning using this multi-space distribution HMM.
  • Label information specifically refers to the following, for example, and each HMM has these as attribute names (contexts).
  • Such an HMM is called a context-dependent HMM.
  • the speech synthesis unit 031 has a function of generating a speech signal sequence in a reading format from an arbitrary electronic text.
  • the text analysis unit 037 analyzes the input text and converts it into label information that is an array of phonemes.
  • the parameter generation unit 038 searches the context-dependent HMM file 036 based on the label information, connects the obtained context-dependent HMMs, and constructs a sentence HMM.
  • the parameter generation unit 038 further generates a sequence of excitation source parameters and spectral parameters from the obtained sentence HMM by a parameter generation algorithm.
  • the excitation source generation unit 039 and the synthesis filter 040 generate a synthesized sound based on the excitation source parameter and spectral parameter sequences.
  • the HMM speech synthesis process can generate a stable synthesized speech based on a statistical model.
  • FIG. 13 is a configuration diagram of the multi-quality speech synthesizer according to Embodiment 2 of the present invention.
  • the multi-quality speech synthesizer is a device that synthesizes speech of multiple qualities, and includes an HMM model DB501, an HMM model selection unit 502, a synthesis unit 503, a prosody modification unit 104, and a large speech unit.
  • a segment DB 105, a corresponding DB 506, a speech segment candidate acquisition unit 107, a large speech unit selection unit 108, and a large speech unit connection unit 109 are included.
  • the HMM model DB501 is a database that holds an HMM model learned based on speech data.
  • the HMM model selection unit 502 receives at least phoneme information and prosodic information as inputs,
  • HMM model This is a processing unit that selects the optimal HMM model from DB501.
  • the synthesis unit 503 is a processing unit that generates synthesized sound using the HMM model selected by the HMM model selection unit 502.
  • the correspondence DB 506 is a database that associates the HMM model held in the HMM model DB501! With the speech unit held in the large-scale speech unit DB 105.
  • This embodiment can also be implemented as a multi-quality speech synthesis system as shown in FIG.
  • the terminal 111 includes an HMM model DB501, an HMM model selection unit 502, a synthesis unit 503, a prosody modification unit 104, a corresponding DB 106, a speech unit candidate acquisition unit 107, a large-scale speech unit selection unit 108, Consists of a large-scale speech unit connection 109.
  • the server 112 is composed of a large-scale speech unit DB105.
  • the HMM model file is model-based, so the storage capacity required for terminal 111 can be reduced (approximately several megabytes). . Also, keep the large speech unit DB105 (hundreds of power or several gigabytes) centrally on the server 112! / ⁇ .
  • the operation of the multi-quality speech synthesizer according to the present embodiment is the same as the operation of the multi-quality speech synthesizer according to the first embodiment, and the synthesized sound editing process and the edited synthesized sound high-quality sound process. It is divided into. In the following, description will be given in order by dividing the process of editing the synthesized sound and the process of improving the sound quality.
  • prosodic information is generated based on the phoneme sequence and the accent symbol (S101).
  • the method of generating prosodic information is not particularly limited. For example, it may be generated with reference to a template! Or it may be estimated using quantification class I.
  • the prosodic information may be directly input from an external force.
  • HMM model selection section 502 performs HMM speech synthesis based on the phoneme information and prosodic information obtained in step S101 (step S102). Specifically, the HMM model selection unit 502 selects an optimum HMM model from the HMM model DB 501 based on the input phoneme information and prosody information, and then selects a synthesis parameter from the selected HMM model. Is generated. Since the details have already been described, they are omitted here.
  • the synthesis unit 503 synthesizes a speech waveform based on the synthesis parameter generated by the HMM model selection unit 502 (step S103).
  • the synthesis method is not particularly limited.
  • the synthesizing unit 503 outputs the synthesized sound created in step S103 to present it to the user (step S104).
  • the prosody modification unit 104 receives an input indicating whether the user is satisfied with the synthesized sound, and if the user is satisfied (YES in step S004), ends the editing process, The processing after step S106 is executed.
  • the prosody modification unit 104 accepts input by the user of information for modifying the prosody information, and sets the target prosody information. Correct (Step S005).
  • “Modification of prosodic information” includes, for example, changing an accident position, changing a fundamental frequency, changing a duration, and the like. As a result, the user can correct a portion that cannot be satisfied with the prosody of the current synthesized sound. When the correction is completed, the process returns to step S002. By repeating the processing from step S002 to step S005, the user can create a synthesized sound of the prosody he desires. Through the above steps, the user can create audio content based on HMM synthesis.
  • FIG. 15 is a diagram showing an operation example of the sound quality enhancement processing.
  • the speech segment candidate acquisition unit 107 uses the HMM model sequence (M
  • Step S106 the speech unit candidate acquisition unit 107 uses the correspondence DB 506 that holds information indicating the correspondence relationship between the HMM model held in the HMM model DB 501 and the unit of the large-scale speech unit DB 105, and performs step S102.
  • the large speech unit candidate related to the HMM model in the HM M model DB501 selected by the above process is acquired from the large speech unit DB105.
  • the speech unit candidate acquisition unit 107 has a large speech unit (h 1, h 2, h 3) corresponding to the HMM model (ml) selected to synthesize the phoneme “7 & 7”. h), D
  • the speech segment candidate acquisition unit 107 refers to the corresponding DB 506 for the HMM model m2, ⁇ , mn.
  • Large-scale speech unit candidates can be acquired from the large-scale speech unit DB105. How to create a compatible DB 506 will be described later.
  • a synthesized sound is generated (step S008). Since the connection method may be the same as that in Embodiment 1, the description thereof is omitted.
  • the learning process of the HMM model is used to associate the HMM model held in the HMM model DB501 with the speech unit held in the large-scale speech unit DB105.
  • the HMM model In HMM speech synthesis, the HMM model usually uses a model called “context-dependent model” that is a combination of contexts such as the preceding phoneme, the phoneme, and the subsequent phoneme.
  • Context-dependent model a model called “context-dependent model” that is a combination of contexts such as the preceding phoneme, the phoneme, and the subsequent phoneme.
  • context clustering is usually performed. Since context clustering is a well-known technology, its detailed description will not be repeated.
  • this HMM model is learned using the large speech unit DB105.
  • the FIG. 16 shows an example of the result of context clustering performed on the speech unit group held in the large speech unit DB 105 at this time.
  • Each speech unit of the speech unit group 702 of the large-scale speech unit DB105 is represented by a rectangle, and the number represents a speech unit identifier.
  • context clustering speech samples are classified by context (for example, whether the preceding phoneme is a voiced sound). At this time, speech segments are clustered in stages as in the decision tree shown in FIG.
  • the speech element having the same context is classified in the leaf node 703 of the decision tree.
  • a speech unit speech unit with speech unit number 1 and speech unit number 2 with the preceding phoneme being voiced, the preceding phoneme being a vowel, and the preceding phoneme being ZaZ is a leaf. It is classified as node 703.
  • the HMM model is learned using the speech unit number 1 and the speech unit number 2 as learning data, and model numbers “A” and! Are created.
  • the HMM model with model number “A” also learns the speech unit forces of speech unit numbers 1 and 2 of large speech unit DB105.
  • This figure is a conceptual diagram, and in reality, a larger amount of speech unit force HMM models are learned.
  • the HMM model with model number “A” and the speech units used when learning the HMM model (speech units with speech unit number 1 and speech unit number 2) Information indicating the correspondence with the piece) is held in the correspondence DB 506.
  • the correspondence DB 506 shown in Fig. 17 can be created.
  • the HMM model with model number “A” is associated with the speech units with speech unit numbers “1” and “2” in the large speech unit DB105.
  • the HMM model with model number “B” is associated with the speech unit numbers “3” and “4” in the large speech unit DB105! .
  • the correspondence relationship between the model numbers of the HMM models of all leaf nodes and the large speech unit numbers of the large speech unit DB 105 can be stored as a table.
  • the HMM model used to generate the sound is associated with the speech unit of the large speech unit DB 105 used for learning the HMM model. Therefore, the speech unit candidate of the large speech unit DB 105 selected by the speech unit candidate acquisition unit 107 is an actual waveform of the learning sample of the HMM model selected by the HMM model selection unit 502 from the HMM model DB 501.
  • the prosodic information and voice quality information of the speech segment candidate and the HMM model are naturally similar.
  • the HMM model is created by performing statistical processing. For this reason, there is a rounding during playback compared to the speech unit used for learning the HMM model.
  • the fine structure that the waveform should have is lost due to statistical processing such as averaging of the learning samples.
  • the speech unit in the large speech unit DB105 is not statistically processed, it retains the fine structure as it is. Therefore, in terms of sound quality, it is possible to obtain a high-quality synthesized sound compared to the synthesized sound output from the synthesis unit 503 using the HMM model.
  • the HMM model is learned in units of phonemes, but the unit of learning may not be phonemes.
  • a plurality of states in the HMM model may be held for one phoneme, and statistics may be learned individually in each state.
  • the figure shows an example of an HMM model configured in three states for the phoneme “ZaZ”.
  • the correspondence DB 506 stores information for associating each state in the HMM model with the speech unit stored in the large speech unit DB 105.
  • the initial state “ml l” is converted into the speech unit of the large speech unit DB105 used for learning (speech unit number 1, 2, 3) shows that it can be expanded.
  • the second state “ml2” can be expanded to the speech unit (speech unit number 1, 2, 3, 4, 5) of the large speech unit DB105 using the corresponding DB506.
  • the final state “ml3” can be expanded to the speech unit (speech unit number 1, 3, 4, 6) of the large speech unit DB105 using the corresponding DB506.
  • the speech segment candidate acquisition unit 107 can select speech segment candidates based on the following three criteria.
  • a union of large speech units associated with each state of the HMM is set as a speech unit candidate.
  • the large speech unit with speech unit number ⁇ 1, 2, 3, 4, 5, 6 ⁇ is selected as a selection candidate.
  • the product set of large speech units associated with each state of the HMM is set as a speech unit candidate.
  • the large speech unit with speech unit number ⁇ 1, 3 ⁇ is selected as a selection candidate.
  • a speech unit belonging to a set greater than or equal to a predetermined threshold in a set of large speech units associated with each state of the HMM is set as a speech unit candidate.
  • the predetermined threshold is “2”, in the example of FIG. 18, for example, a large speech unit having speech unit number ⁇ 1, 2, 3, 4 ⁇ is selected as a selection candidate.
  • Each criterion may be used in combination. For example, when the speech unit candidate acquisition unit 107 selects a certain number of speech unit candidates, it may be designed to select speech unit candidates based on different criteria.
  • the terminal 111 includes an HMM model DB501, an HMM model selection unit 502, a synthesis unit 503, a prosody modification unit 104, a corresponding DB106, a speech unit candidate acquisition unit 107,
  • the large-scale speech unit selection unit 108 and the large-scale speech unit connection unit 109 are provided, and the server 112 is required for the terminal 111 by being configured to include the large-scale speech unit DB 105.
  • the storage capacity need not be large.
  • the large speech unit DB 105 should be held centrally on the server 112, the large speech unit DB 105 is stored in the server 112 even if there are multiple terminals 111. You only need to keep one.
  • the terminal 111 can generate a synthesized sound using HMM speech synthesis.
  • the prosody modification unit 104 allows the user to edit the synthesized sound.
  • the HMM speech synthesis can generate synthesized speech at a very high speed compared with the case of searching and synthesizing the large speech unit DB105. For this reason, it is possible to reduce the calculation cost when editing the synthesized sound, and it is possible to edit the synthesized sound with good response even when editing multiple times.
  • the corresponding DB 106 has already performed the editing process. Since the model number of the determined HMM model is associated with the speech unit number of the speech unit candidate of the large speech unit DB105, the speech unit selection unit 108 selects speech units. Compared with the case of reselecting speech segments, it is only necessary to search a limited search space, so that the amount of calculation can be greatly reduced.
  • the communication between the terminal 111 and the server 112 since the communication between the terminal 111 and the server 112 only needs to be performed once when performing the quality improvement process, the time loss associated with the communication can be reduced. In other words, it is possible to improve the response required for audio content editing work by separating the editing work and the sound quality enhancement processing.
  • each component may be shared by the terminal and the server.
  • the small speech unit DB101, the small speech unit selection unit 102, the small speech unit connection unit 103, and the corresponding DB 106 are changed to the HMM model DB501, the HMM model selection unit 502, the synthesis unit 503, and the corresponding DB506. Each corresponds.
  • a style of providing the created audio content to a third party can be considered. That is, the content creator and content user are different.
  • the audio content creator sends the audio content created over the network, etc., and the receiver receives the audio content.
  • the distribution form of audio content such as receiving a message can be considered.
  • the creator A service can be considered when the created audio content is transmitted to the other party.
  • a method may be considered in which the creator performs an audio content editing process, and the receiver listens to the received audio content and performs high-quality sound processing if he / she likes it.
  • Embodiment 3 of the present invention relates to a communication method of a created audio content and a method of high-quality sound processing.
  • FIG. 19 is a block diagram showing a configuration of a multi-quality speech synthesis system according to Embodiment 3 of the present invention.
  • the audio content creator performs the editing process and the audio content receiver performs the audio quality improvement process.
  • Communication means is provided between the terminal used by the creator and the terminal used by the receiver. This is different from the first and second embodiments.
  • the multi-quality speech synthesis system includes a creation terminal 121, a reception terminal 122, and a server 123.
  • the creation terminal 121, the reception terminal 122, and the server 123 are connected to each other via a network 113.
  • the creation terminal 121 is a device used by an audio content creator to edit audio content.
  • the receiving terminal 122 is a device that receives the voice terminal created by the creating terminal 121.
  • the creation terminal 121 is used by the audio content receiver.
  • the server 123 is a device that holds the large-scale speech unit DB 105 and performs high-quality sound processing of the audio content.
  • the creation terminal 121 includes a small speech unit DB 101, a corresponding DB 106, a small speech unit selection unit 102, a small speech unit connection unit 103, and a prosody modification unit 104.
  • the receiving terminal 122 includes a speech unit candidate acquisition unit 107, a large-scale speech unit selection unit 108, and a large-scale speech unit connection unit 109.
  • the server 123 is composed of a large speech unit DB105.
  • FIG. 20 and FIG. 21 are flowcharts showing the flow of processing by the multi-quality speech synthesis system according to Embodiment 3.
  • the processing by the multi-quality speech synthesis system is divided into four processes: editing processing, communication processing, confirmation processing, and sound quality enhancement processing. Hereinafter, each processing will be described.
  • the editing process is executed on the creation terminal 121.
  • the processing content may be the same as in the first embodiment.
  • preprocessing text information input by the user is analyzed, and prosodic information is generated based on the phoneme sequence and the accent symbol (step S001).
  • the small speech unit selector 102 is based on the prosodic information obtained in step S001.
  • Step S002 Select the optimal speech unit sequence considering the distance (target cost (Ct)) from the small speech unit DB101 to the target prosody (target cost (Ct)) and the connectivity of the speech unit (connection cost (Cc)) (Step S002). Specifically, the speech unit sequence that minimizes the cost shown in the above equation (1) is searched by the Viterbi algorithm.
  • the small speech unit connection unit 103 synthesizes a speech waveform using the speech unit sequence selected by the small speech unit selection unit 102, and presents the synthesized speech to the user by outputting it. (Step S003).
  • the prosody modification unit 104 receives an input indicating whether the user is satisfied with the synthesized sound, and if the user is satisfied with the synthesized sound (YES in step S004), the editing process is performed. When finished, the processing from step S201 is executed.
  • the prosody modification unit 104 accepts input by the user of information for modifying the prosody information, and the target prosody. Correct the information (step S005). When the correction is completed, the process returns to step S002. By repeating the processing from step S002 to step S005, the user can create a synthesized sound of the prosody he desires.
  • the creation terminal 121 receives the small speech unit sequence and prosodic information determined by the editing process on the creation terminal 121 via a network such as the Internet. (Step S201).
  • the communication method is not particularly limited.
  • Receiving terminal 122 receives the prosodic information and the small speech unit sequence transmitted in step S201 (step S202).
  • the receiving terminal 122 can obtain the minimum information that can reconstruct the audio content created by the creating terminal 121.
  • the receiving terminal 122 obtains the speech unit of the small speech unit sequence received from the small speech unit DB101 in step S202 and matches the prosodic information received by the small speech unit connection unit 103.
  • a synthesized sound is created (step S203).
  • the synthetic sound creation process is the same as in step S003.
  • the receiver confirms the simple synthesized sound created in step S203, and the receiving terminal 122
  • step S204 The receiver's judgment result is accepted (step S204). At this time, when the receiver determines that the simple version of the synthesized sound may remain (NO in step S204), the receiving terminal 122 employs the simple synthesized sound as the audio content. On the other hand, if it is confirmed that the receiver requests a higher sound quality (YES in step S204), the sound quality improving process after step S006 is performed.
  • the speech unit candidate acquisition unit 107 of the receiving terminal 122 transmits the small speech unit sequence to the server 123, and the server 123 refers to the corresponding DB 106 of the receiving terminal 122 and refers to the large speech unit DB105. Speech segment candidates are acquired from (step S006).
  • the large speech unit selection unit 108 selects a large speech unit sequence that satisfies the above-described equation (1) from the prosodic information acquired in step S006 and the speech unit candidates (step S007).
  • the large-scale speech unit connection unit 109 connects the large-scale speech unit sequence selected in step S007, and generates a high-quality synthesized sound (step S008).
  • the audio content created by the creation terminal 121 is sent to the reception terminal 122.
  • the prosodic information and the small speech unit sequence need to be transmitted, so the communication volume between the creating terminal 121 and the receiving terminal 122 is reduced compared to the case of transmitting the synthesized sound. It is possible.
  • the synthesis terminal 121 can edit a synthesized sound using only a small speech unit sequence, it simplifies the creation of audio content that does not necessarily require a high-quality synthesized sound to be created via the server 123. It becomes possible.
  • the receiving terminal 122 can create a synthesized sound based on the prosodic information and the small speech unit sequence, and confirm it by listening to the synthesized sound before performing the high-quality sound processing.
  • the audio content can be auditioned without accessing the server 123.
  • the recipient can access the server 123 for high-quality sound only when he / she wants to listen to the sampled audio content, so the receiver can freely select the simple version and high-quality version of the audio content. .
  • the receiving terminal 122 holds the corresponding DB 106, the speech unit candidate acquisition unit 107, the large speech unit selection unit 108, and the large speech unit connection unit 109.
  • the server 123 holds the large-scale speech unit DB 105.
  • the server 123 has the large-scale speech unit DB 105, the speech unit candidate acquisition unit 107, the large-scale speech unit selection unit 108, A large-scale speech unit connection unit 109 may be provided.
  • the description is based on the configuration of the first embodiment.
  • the functions of the creation terminal 121, the reception terminal 122, and the server 123 are configured based on the configuration of the second embodiment. You may make it.
  • the creation terminal 121 includes an HMM model DB 501, an HMM model selection unit 502, a synthesis unit 503, and a prosody modification unit 104
  • the reception terminal 122 includes a corresponding DB 106 and a speech unit candidate acquisition unit 107.
  • the voice unit unit 109 is configured.
  • the server 123 may be configured by the large speech unit DB105.
  • the present invention can be applied to a speech synthesizer, and in particular, can be applied to a speech synthesizer used when creating a speech content used in a mobile phone or the like.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

 音声コンテンツの編集を高速に実行することを可能とし、音声コンテンツを手軽に作成ができる音声合成装置は、小規模音声素片DB(101)と、小規模音声素片選択部(102)と、小規模音声素片接続部(103)と韻律修正部(104)と、大規模音声素片DB(105)と、小規模音声素片DB(101)と大規模音声素片DB(105)を対応付ける対応DB(106)と、音声素片候補取得部(107)と大規模音声素片選択部(108)と大規模音声素片接続部(109)とで構成され、小規模音声素片DB(101)を用いて合成音を編集し、編集結果に基づいて大規模音声素片DB(105)を用いて高音質化することにより、携帯端末上で容易に音声コンテンツを作成することが可能となる。

Description

明 細 書
音声合成装置
技術分野
[0001] 本発明は、音声合成技術に基づく音声コンテンツ編集,生成方法に関するものであ る。
背景技術
[0002] 近年、音声合成技術の発達により、非常に高音質な合成音を作成することが可能と なってきた。
[0003] し力しながら、従来の合成音の用途は-ユース文をアナウンサー調で読み上げる等 の画一的な用途が中心であった。
[0004] 一方で、携帯電話のサービスなどでは、着信音の代わりに有名人の音声メッセージ を用いると ヽつたサービスが提供されるなど、特徴のある音声 (個人再現性の高 ヽ合 成音や、女子高校生風や関西弁風などの特徴的な韻律 ·声質をもつ合成音)がーつ のコンテンツとして流通しはじめている。このように、個人間のコミュニケーションにお ける楽しみを増やすために、特徴的な音声を作って相手に聞かせることに対する要 求が高まることが考えられる。
[0005] 以上のようなことから、従来のような単調な読み上げ調としてだけではなぐ様々な 声質や韻律を持った音声コンテンツを編集'作成して利用したいというニーズが高ま りつつある。
[0006] 「音声コンテンツの編集 '作成」とは、上記のような音声コンテンツ作成という観点か ら見ると、例えば、女子高校生風や関西弁風などの特徴のある抑揚をつけたり、作成 者の感情が伝わるように韻律や声質を変更したり、語尾を強調したりといったように、 編集者自身の好みに合わせて合成音をカスタマイズすることに相当する。このような カスタマイズは 1回の処理で行なうよりも、むしろ編集と試聴とを繰り返すことによって 、ユーザが望むコンテンツを作成することが可能となる。
[0007] 上述の音声コンテンツの編集.作成を手軽に行なうための環境としては、以下の要 件が必要である。 [0008] (1)携帯端末などの小規模なハードウェアリソースでも作成できる。
[0009] (2)合成音の編集を高速に行なうことが可能である。
[0010] (3)編集途中の合成音を簡単に試聴することができる。
[0011] 従来、高音質な合成音を作成する方法として、例えば、再生時の合計時間が数時 間から数百時間という大規模な音声を記録した音声データベースから、最適な音声 素片系列を選択して接続することにより、高音質に合成音を作成するものが提案され ている(例えば、特許文献 1参照。 ) o図 1は、特許文献 1に記載された従来の音声合 成装置の構成を示すブロック図である。
[0012] 従来の音声合成装置は、合成目標となるテキストを分析した結果得られる合成器指 令 002を入力として受け、音声素片 DB (データベース) 001に含まれる拡張された音 声素片から適切な音声素片を選択し接続して合成音声波形 019を出力する音声合 成装置である。
[0013] 音声合成装置は、多段予備選択部 003と、素片選択部 004と、接続部 005とを含 む。
[0014] 多段予備選択部 003は、合成器指令 002を受け、合成器指令 002により指定され た音声素片のうちで、後述するように多段の予備選択を行なって予備選択候補群 01 8を選択する。
[0015] 素片選択部 004は、合成器指令 002を受け、予備選択候補群 018から全サブコス トを用いて計算したコストの最も小さな素片を選択する。
[0016] 接続部 005は、素片選択部 004により選択された音声素片を接続して合成音声波 形 019を出力する。
[0017] なお、予備選択候補群 018は素片の選択のみに用いられるので、コスト計算に必 要な特徴量のみを含み、音声素片データそのものは含まない。接続部 005は、素片 選択部 004により選択された素片の音声素片データを、音声素片 DB001を参照し て得ること〖こなる。
[0018] 従来の音声合成装置で使用されるサブコストは、基本周波数誤差、継続時間長誤 差、 MFCC (Mel Frequency Cepstrum Coefficient)誤差、 FO (基本周波数)不連続 誤差、 MFCC不連続誤差、音素環境誤差にそれぞれ対応する 6種類のサブコストを 含む。これらのうち、前 3者はターゲットコストに属し、後 3者は接続コストに属する。
[0019] 従来の音声合成装置に係る素片選択部 004によるコスト計算では、コストはサブコ ストから計算される。
[0020] 多段予備選択部 003は、 4つの予備選択部 006、 009、 012および 015を含む。
[0021] 第 1の予備選択部 006は、合成器指令 002を受け、音声素片 DB001中の音声素 片候補力 各時刻における F0誤差、継続時間長誤差による予備選択をして第 1の 候補群 007を出力する。
[0022] 第 2の予備選択部 009は、第 1の候補群 007中の素片から、各時刻における F0誤 差、継続時間長誤差、 MFCC誤差による予備選択をして第 2の候補群 010を出力す る。
[0023] 以下同様に第 3の予備選択部 012および第 4の予備選択部 015もサブコストの一 部を使用して予備選択を行なう。
[0024] このように予備選択を行なうことにより、音声素片 DB001から最適な音声素片を選 択する計算量を削減して 、る。
特許文献 1 :特開 2005— 265895号公報(図 1)
発明の開示
発明が解決しょうとする課題
[0025] 上述のように本発明の目的は、音声コンテンツの作成であり、そのためには合成音 を編集するという手段が必要である。し力しながら、特許文献 1の技術を用いて合成 音すなわち音声コンテンツを編集する場合には、以下の問題が存在する。
[0026] すなわち、特許文献 1に記載の音声合成装置は、素片を選択する際に予備選択部 を導入することによりトータルの計算コストを削減することはできる。しかし、結果として 合成音を得るためには、第 1の予備選択部 006において全ての音声素片からの予備 選択を行なう必要がある。また、接続部 005が最終的に最適な音声素片を音声素片 DB001から毎回選択する必要がある。さらに、高音質な合成音を生成するためには 、音声素片 DB001には、数多くの音声素片を記憶しておかなければならず、通常、 再生時の合計時間が数時間から数百時間という大規模なデータベースとなる。
[0027] したがって、合成音を編集する際に毎回大規模な音声素片 DB001から音声素片 を選択した場合には、結局目的の合成音を得るまでに、毎回大規模な音声素片 DB 001を探索する必要がある。このため、編集時の計算コストが大きくなるという課題が ある。
[0028] 本発明は、前記従来の課題を解決するもので、音声コンテンツの編集を高速に実 行することができ、音声コンテンツを手軽に作成できる音声合成装置を提供すること を目的とする。
課題を解決するための手段
[0029] 本発明のある局面に係る音声合成装置は、音声記号および韻律情報に適合する 合成音を生成する音声合成装置であって、合成音を生成するために用いられる合成 音生成用データを保持している小規模データベースと、前記小規模データベースに 保持されている前記合成音生成用データよりも多くの数の音声素片を保持している 大規模データベースと、生成される合成音が音声記号および韻律情報に適合する 合成音生成用データを前記小規模データベースより選択する合成音生成用データ 選択手段と、前記合成音生成用データ選択手段で選択された前記合成音生成用デ ータに対応する音声素片を、前記大規模データベースの中から選択する適合音声 素片選択手段と、前記適合音声素片選択手段で選択された前記音声素片を接続す ることにより合成音を生成する音声素片接続手段とを備えることを特徴とする。
[0030] この構成によると、合成音生成用データ選択手段が、小規模データベースより合成 音生成用データを選択する。また、適合音声素片選択手段が、大規模データベース より、選択された合成音生成用データに対応する高品質な音声素片を選択する。こ のように、 2段階で音声素片を選択するようにすることにより、高音質の音声素片を高 速に選択することができる。
[0031] また、前記大規模データベースは、コンピュータネットワークを介して前記音声合成 装置と接続されたサーバに設けられており、前記適合音声素片選択手段は、前記サ ーバに設けられた前記大規模データベースの中力 前記音声素片を選択するように してちよい。
[0032] 大規模データベースをサーバに置くことにより、端末は、無駄な記憶容量を必要と せずに、最小な構成で音声合成装置を構成することができる。 [0033] また、上述の音声合成装置は、さらに、前記合成音生成用データ選択手段で選択 された音声素片を接続することにより、簡易合成音を生成する小規模音声素片接続 手段と、前記簡易合成音の韻律情報を修正するための情報を受け付け、当該情報 に基づいて前記韻律情報を修正する韻律情報修正手段とを備える。そして、前記合 成音生成用データ選択手段は、前記簡易合成音の韻律情報が修正された場合に、 生成される合成音が音声記号および修正後の前記韻律情報に適合する合成音生成 用データを前記小規模データベースより再選択して、前記小規模音声素片接続手 段に前記再選択した合成音声生成用データを出力する。そして、前記適合音声素 片選択手段は、前記修正と前記再選択とで決定された前記合成音生成用データを 受け取り、当該合成音生成用データに対応する音声素片を前記大規模データべ一 スの中力も選択するようにしてもよ!、。
[0034] 韻律情報を修正することにより合成音生成用データが再選択される。このような、韻 律情報の修正および合成音生成用データの再選択を繰返しながら、ユーザが所望 する合成音生成用データを選択する。また、大規模データベース力 の音声素片の 選択は、最後に 1度だけ行えばよい。このため、高音質な合成音を効率的に作成す ることがでさる。
[0035] なお、本発明は、このような特徴的な手段を備える音声合成装置として実現すること ができるだけでなぐ音声合成装置に含まれる特徴的な手段をステップとする音声合 成方法として実現したり、音声合成方法に含まれる特徴的なステップをコンピュータ に実行させるプログラムとして実現したりすることもできる。そして、そのようなプロダラ ムは、 CD— ROM (Compact Disc -Read Only Memory)等の記録媒体ゃィ ンターネット等の通信ネットワークを介して流通させることができるのは言うまでもない
発明の効果
[0036] 本発明によると、音声コンテンツの編集を高速に実行することを可能とし、音声コン テンッを手軽に作成ができる音声合成装置を提供することができる。
[0037] 本発明の音声合成装置によれば、合成音の編集処理としては、端末のみで小規模 データベースを用いて合成音を作成できる。また韻律修正手段により、ユーザによる 合成音の編集処理が可能となる。これにより、携帯端末など比較的小規模なリソース の端末においても音声コンテンツの編集を可能とすることができる。また、端末側で、 小規模データベースを用いて合成音を作成できるので、編集した合成音を、端末の みで再生し、ユーザは、再生された合成音を試聴することができる。
[0038] また、ユーザは、編集作業が完了した後、サーバに保持されている大規模データべ ースを用いて高音質ィ匕処理が可能となる。このとき、対応データベースにおいて、既 に決定されている小規模音声素片系列と大規模データベースの候補とが対応付けら れている。このため、大規模音声素片選択部による素片の選択は、改めて素片を再 選択する場合と比較して、限定された探索空間を探索するのみでよ!/、ので計算量を 大幅に削減することができる。例えば大規模音声素片の例としては数 GB以上のシス テムがあり、これに対し小規模音声素片の例としては 0. 5MB程度のものもある。
[0039] さらに、大規模データベースに記憶されている素片取得のための端末とサーバとの 間の通信は、高品質ィ匕処理を行なう際の 1度だけ行なえばよい。このため、通信に伴 う時間的ロスを低減できる。すなわち、編集作業と、高音質化処理とを分離することに より、音声コンテンツの編集作業に要するレスポンスを向上させることができる。 図面の簡単な説明
[0040] [図 1]図 1は、従来の多段素片選択型音声合成装置の構成図である。
[図 2]図 2は、本発明の実施の形態 1における多重品質音声合成装置の構成図であ る。
[図 3]図 3は、本発明の実施の形態 1の対応 DBの例である。
[図 4]図 4は、本発明の実施の形態 1における多重品質音声合成装置をシステムとし て実現した場合の概念図である。
[図 5]図 5は、本発明の実施の形態 1における多重品質音声合成装置の動作を示す フローチャートである。
[図 6]図 6は、本発明の実施の形態 1の高音質ィ匕処理の動作例を示す図である。
[図 7]図 7は、大規模音声素片 DBに保持されている音声素片群に対して階層的クラ スタリングを行った場合の概念図である。
[図 8]図 8は、本発明の実施の形態 1の変形例 1における多重品質音声合成処理のフ ローチャートである。
[図 9]図 9は、本発明の実施の形態 1の変形例 2における多重品質音声合成処理のフ ローチャートである。
[図 10]図 10は、本発明の実施の形態 1の変形例 3における多重品質音声合成処理 のフローチャートである。
[図 11]図 11は、本発明の実施の形態 1の変形例 4における多重品質音声合成処理 のフローチャートである。
[図 12]図 12は、統計モデルによる音声合成方式の一つである HMM音声合成方法 を用いたテキスト音声合成装置の構成図である。
[図 13]図 13は、本発明の実施の形態 2における多重品質音声合成装置の構成図で ある。
[図 14]図 14は、本発明の実施の形態 2における多重品質音声合成装置の動作を示 すフローチャートである。
[図 15]図 15は、本発明の実施の形態 2の高音質ィ匕処理の動作例を示す図である。
[図 16]図 16は、大規模音声素片 DBに保持されている音声素片群に対してコンテキ ストクラスタリングを行なった場合の概念図である。
[図 17]図 17は、本発明の実施の形態 2の対応 DBの例である。
[図 18]図 18は、本発明の実施の形態 2の高音質化処理において、素片単位に複数 の状態の HMMが割り当てられて ヽる場合の動作例を示す図である。
[図 19]図 19は、本発明の実施の形態 3に係る多重品質音声合成システムの構成を 示すブロック図である。
[図 20]図 20は、実施の形態 3に係る多重品質音声合成システムによる処理の流れを 示すフローチャートである。
[図 21]図 21は、実施の形態 3に係る多重品質音声合成システムによる処理の流れを 示すフローチャートである。 符号の説明
101 小規模音声素片 DB
102 小規模音声素片選択部 103 小規模音声素片接続部
104 韻律修正部
105 大規模音声素片 DB
106、 506 対応 DB
107 音声素片候補取得部
108 大規模音声素片選択部
109 大規模音声素片接続部
501 HMMモデル
502 HMM音声合成部
503 合成部
発明を実施するための最良の形態
[0042] 以下、本発明の実施の形態について、図面を参照しながら説明する。
[0043] (実施の形態 1)
本発明の実施の形態 1では、音声素片 DBを小規模音声素片 DBと大規模音声素 片 DBとに階層化することにより、音声コンテンツの編集作業を効率ィ匕することを特徴 とする。
[0044] 図 2は、本発明の実施の形態 1における多重品質音声合成装置の構成図である。
[0045] 多重品質音声合成装置は、複数の品質の音声を合成する装置であり、小規模音 声素片 DB101と、小規模音声素片選択部 102と、小規模音声素片接続部 103と、 韻律修正部 104と、大規模音声素片 DB105と、対応 DB106と、音声素片候補取得 部 107と、大規模音声素片選択部 108と、大規模音声素片接続部 109とを含む。
[0046] 小規模音声素片 DB101は、小規模な音声素片を保持するデータベースである。
小規模音声素片 DB101に記憶されている音声素片のことを、本明細書中では、特 に「小規模音声素片」という。
[0047] 小規模音声素片選択部 102は、作成する合成音の目標となる音韻情報と韻律情 報とを入力として受け、小規模音声素片 DB101に保持されている音声素片の中から 最適な音声素片系列を選択する処理部である。
[0048] 小規模音声素片接続部 103は、小規模音声素片選択部 102により選択された音 声素片系列を接続して合成音を生成する処理部である。
[0049] 韻律修正部 104は、韻律情報を修正するための情報のユーザによる入力を受け付 け、多重品質音声合成装置が作成する合成音の目標となる韻律情報を修正する処 理部である。
[0050] 大規模音声素片 DB105は、大規模な音声素片を保持するデータベースである。
大規模音声素片 DB105に記憶されている音声素片のことを、本明細書中では、特 に「大規模音声素片」という。
[0051] 対応 DB106は、小規模音声素片 DB101に保持されている音声素片と大規模音 声素片 DB105に保持されている音声素片の対応関係を示す情報を保持するデータ ベースである。
[0052] 音声素片候補取得部 107は、小規模音声素片選択部 102により選択された音声 素片系列を入力として受け、対応 DB106に記憶されている音声素片の対応関係を 示す情報に基づいて、入力された音声素片系列の各音声素片に対応する音声素片 候補を、ネットワーク 113などを介して大規模音声素片 DB105から取得する処理部 である。
[0053] 大規模音声素片選択部 108は、合成音の目標となる、小規模音声素片選択部 10 2が入力として受けた音韻情報と小規模音声素片選択部 102が入力として受けた韻 律情報または韻律修正部 104により修正された韻律情報とを入力として受け、音声 素片候補取得部 107により選択された音声素片候補の中から最適な音声素片系列 を選択する処理部である。
[0054] 大規模音声素片接続部 109は、大規模音声素片選択部 108により選択された音 声素片系列を接続して合成音を生成する処理部である。
[0055] 図 3は、対応 DB106に記憶されている、小規模音声素片 DB101に保持されてい る音声素片と大規模音声素片 DB105に保持されている音声素片の対応関係を示 す情報の一例を示す図である。
[0056] 同図に示されるように、対応 DB106の対応関係を示す情報には、「小規模音声素 片番号」と「大規模音声素片番号」とが対応付けられて記憶されて ヽる。「小規模音 声素片番号」とは、小規模音声素片 DB101に記憶されている音声素片を識別する ための音声素片番号であり、「大規模音声素片番号」とは、大規模音声素片 DB105 に記憶されている音声素片を識別するための音声素片番号である。例えば、小規模 音声素片番号「2」の音声素片には、大規模音声素片番号「1」および「2」の音声素 片が対応付けられている。
[0057] なお、番号が同一の音声素片は同一の音声素片を示すものとする。すなわち、小 規模音声素片番号「2」の音声素片と大規模音声素片番号「2」の音声素片とは同一 の音声素片を示す。
[0058] 図 4は、本実施の形態に係る多重品質音声合成装置をシステムとして実現した場 合の概念図である。
[0059] 多重品質音声合成システムは、ネットワーク 113を介して相互に接続された端末 11 1とサーバ 112とを備えており、端末 111とサーバ 112との協調動作により、多重品質 音声合成装置を実現する。
[0060] 端末 111は、小規模音声素片 DB101と、小規模音声素片選択部 102と、小規模 音声素片接続部 103と、韻律修正部 104と、対応 DB106と、音声素片候補取得部 1 07と、大規模音声素片選択部 108と、大規模音声素片接続部 109とで構成される。 サーバ 112は、大規模音声素片 DB105で構成される。
[0061] このように多重品質音声合成システムを構成することにより、端末 111に要求される 記憶容量は大きくなくて良い。また大規模音声素片 DB105は、端末 111に設ける必 要はなぐサーバ 112が集中して保持しておけばよい。
[0062] 次に、本実施の形態に係る多重品質音声合成装置の動作を図 5に示すフローチヤ ートを用いて説明する。多重品質音声合成装置の動作は、合成音の編集処理と、編 集された合成音の高音質化処理とに大きく分けられる。以下、合成音の編集処理と、 高音質化処理とに分けて順に説明を行う。
[0063] <編集処理 >
まず、合成音の編集処理について説明する。前処理として、ユーザにより入力され たテキスト情報が解析され、音韻系列とアクセント記号を元に韻律情報が生成される ( ステップ S001)。韻律情報の生成の方法は特に限定されるものではなぐ例えば、テ ンプレートを参照して生成するようにしてもよ!、し、数量化 I類を用いて推定するように しても良い。また、韻律情報は外部から直接入力されても良い。
[0064] 例えば、「あらゆる」というテキストデータ (音素情報)が取得され、その音素情報に 含まれる各音素と各韻律とを含む韻律情報群が出力される。この韻律情報群は、音 素 "a"およびこれに対応する韻律を示す韻律情報 tと、音素" r"およびこれに対応す
1
る韻律を示す韻律情報 tと、音素 "a"およびこれに対応する韻律を示す韻律情報 tと
2 3
、音素" y"およびこれに対応する韻律を示す韻律情報 tと、以下同様に" u", "r", "u
4
"にそれぞれ対応する韻律情報 t〜tとを少なくとも含む。
5 7
[0065] 小規模音声素片選択部 102は、ステップ S001により得られた韻律情報 t〜tに基
1 7 づいて、小規模音声素片 DB101からターゲット韻律 (t〜t )との距離 (ターゲットコス
1 7
ト (Ct) )と、音声素片の接続性 (接続コスト (Cc) )とを考慮して、最適な音声素片系列 (U=u , u , · · ·, u )を選択する (ステップ S002)。具体的には次式(1)に示すコスト
1 2 n
が最小となる音声素片系列をビタビアルゴリズムにより探索する。ターゲットコストと接 続コストの算出法は特に限定するものではないが、例えば、ターゲットコストは、韻律 情報 (基本周波数 '継続時間長'パワー)の差分の重み付け和で計算するようにすれ ばよい。また、接続コストは、 U の終端と Uの始端のケプストラム距離を用いて計算す i-1 i
るようにすればよい。
[0066] [数 1]
U ) + Cc(w 5w )}
Figure imgf000013_0001
また、
[0067] [数 2]
argmin口
U
は、 U=u , u , · · ·, uを変化させた時に、括弧内の値が最小となる Uの系列を示す。 [0068] 小規模音声素片接続部 103は、小規模音声素片選択部 102により選択された音 声素片系列を用いて音声波形を合成し、合成音を出力することによりユーザに提示 する (ステップ S003)。音声波形を合成する方法は特に限定されるものではない。
[0069] 韻律修正部 104は、ユーザが合成音に満足している力否かの入力を受け付ける( ステップ S004)。ユーザが合成音に満足して 、る場合には(ステップ S004で YES) 、編集処理が終了し、ステップ S006以降の処理が実行される。
[0070] ユーザが合成音に満足して 、な 、場合には (ステップ S004で NO)、韻律修正部 1 04は、韻律情報を修正するための情報のユーザによる入力を受け付け、ターゲットと なる韻律情報を修正する (ステップ S005)。「韻律情報の修正」は、例えば、ァクセン ト位置の変更、基本周波数の変更、継続時間長の変更などを含む。これにより、ユー ザは、現状の合成音の韻律で満足できない箇所を修正することができ、編集された 韻律情報 Τ' =ΐΤ , t , · · ·, t を作成することができる。修正が終了すると、ステップ
1 2 n
S002に戻る。ステップ S002力らステップ S005までの処理を繰り返すことにより、ュ 一ザは自分が望む韻律の合成音を作成することが可能である。このようにして選択さ れた音声素片系列を S = s , s , · ··, sとする。
1 2 n
[0071] なお、韻律修正部 104のインタフェースは特に限定するものではない。例えば、スラ イダーのようなもので韻律情報を修正するようにしてもよいし、女子高校生風、または 関西弁風などのように直感的に表現された韻律情報をユーザが指定するようにしても 良い。さらに、ユーザが音声により韻律情報を入力するようにしても良い。
[0072] <高音質化処理 >
次に高音質ィ匕の処理の流れを説明する。
[0073] 音声素片候補取得部 107は、編集処理で最後に確定した音声素片系列(S = s , s
1
, · ··, s )を元に、大規模音声素片 DB105から音声素片候補を取得する (ステップ S
2 n
006)。すなわち、音声素片候補取得部 107は、小規模音声素片 DB101に保持さ れている音声素片と大規模音声素片 DB105に保持されている音声素片との対応関 係を示す情報を保持する対応 DB106を用いて、音声素片系列 (S = s , s , · ··, s )
1 2 n を構成する各音声素片に対応する音声素片候補を大規模音声素片 DB105から取 得する。なお、対応 DB106の作成方法については後述する。 [0074] 図 6を用いて、音声素片候補取得部 107による音声素片候補取得処理 (ステップ S
006)について具体的に説明する。図 6の破線枠 601で囲った部分は、「arayuru」と いう音素列に対して、編集処理 (ステップ S001〜S005)で確定された小規模音声素 片 DB101の音声素片系列(S = s , s , · ··, s )を示している。また、図 6は、対応 DB
1 2 7
106に基づいて、各小規模音声素片(s )に対応する大規模音声素片 DB105の音 声素片候補群を取得する様子を示している。例えば、図 6の例では、音素「a」として 編集処理で決定された小規模音声素片 sは、対応 DB106を用いることにより大規模
1
音声素片群 h , h , h , h に展開することができる。すなわち、大規模音声素片群
11 12 13 14
h , h , h , h は、小規模音声素片 sに音響的に類似した複数の実音声波形 (また
11 12 13 14 1
は実音声波形に基づく分析パラメータ)である。
[0075] 音素「r」に対応する小規模音声素片 sにつ 、ても、対応 DB106を用いることにより
2
、大規模音声素片群 h , h , h に展開することができる。以下同様に、 s , · ··, sに
21 22 23 3 7 対しても対応 DB106に基づいて音声素片候補を取得することができる。すなわち、 同図に示す大規模音声素片候補群系列 602は、小規模音声素片系列 Sに対応する 大規模音声素片候補群の系列を示して ヽる。
[0076] 大規模音声素片選択部 108は、ユーザにより編集された韻律情報に最適な音声素 片系列を、上述の大規模音声素片候補群系列 602の中から選択する (ステップ SOO
7)。選択の方法は、ステップ S002と同一の方法でよいので説明を省略する。図 6の 例では、 H=h , h , h , h , h , h , h が大規模音声素片候補群系列 602から
13 22 33 43 54 61 74
選択されたものとしている。
[0077] 結果として、 H = h , h , h , h , h , h , h は、大規模音声素片 DB105に保持
13 22 33 43 54 61 74
されている音声素片群からユーザにより編集された韻律情報を実現する最適な音声 素片系列として選択されることになる。
[0078] 大規模音声素片接続部 109は、ステップ S007で選択された大規模音声素片 DB1
05に保持されている音声素片系列 Hを接続し、合成音を生成する (ステップ S008)
。接続の方法は特に限定しない。
[0079] なお、素片の接続の際には各素片を適宜変形して接続するようにしても良い。
[0080] 以上の処理により、編集処理で編集した簡易版の合成音に韻律'声質が類似し、 かつ高音質な合成音を生成することが可能になる。
[0081] <対応 DBの作成方法 >
次に対応 DB106について詳しく説明する。
[0082] 対応 DB106は、上述したように、小規模音声素片 DB101に保持されて 、る音声 素片と大規模音声素片 DB105に保持されている音声素片との対応関係を示す情報 を保持するデータベースである。
[0083] 具体的には、高音質化処理を行なう際に、編集処理で作成した簡易合成音に類似 している音声素片を大規模音声素片 DB105から選択するために用いられる。
[0084] 小規模音声素片 DB101は、大規模音声素片 DB105が保持する素片群の部分集 合であり、以下の関係を満たすことが本発明の特徴である。
[0085] まず、小規模音声素片 DB101に保持されている音声素片は、大規模音声素片 D Bに保持されている 1以上の音声素片に対応付けられている。さらに、対応 DB106 によって対応付けられた大規模音声素片 DB105の音声素片は、小規模音声素片 D Bの音声素片と音響的に類似している。類似の基準としては、韻律情報 (基本周波数 、パワー情報、継続時間長など)および声道情報 (フォルマント、ケプストラム係数など )がある。
[0086] これによつて、小規模音声素片 DB101に保持された音声素片系列を用いて合成 された簡易合成音と比較して、韻律および声質が近い音声素片を、高音質化処理の 際に選択することができる。また、大規模音声素片 DB105は、豊富な候補の中から 最適な音声素片候補を選択することが可能である。したがって、上述の大規模音声 素片選択部 108で音声素片を選択する際のコストを小さくすることができる。これによ つて、合成音の音質を向上させることができると 、う効果を得ることができる。
[0087] なぜならば、小規模音声素片 DB101が保持している音声素片は限定されている。
このため、ターゲット韻律に近い合成音を生成することは可能であるが、音声素片間 の接続性が高いことは保証できない。一方、大規模音声素片 DB105は、大量のデ ータを保持することが可能である。このため、大規模音声素片選択部 108は、大規模 音声素片 DB105から音声素片間の接続性の高い音声素片系列を選択することが 可能である(例えば、特許文献 1記載の方法を用いることにより実現可能である)。 [0088] 上記の対応付けを行なうために、クラスタリングの技術を用いる。「クラスタリング」と は複数の特性によって決定された個体間の類似性の指標をもとに、個体をいくつか の集合に分類するための手法である。
[0089] クラスタリングの方法は大きく分けて、類似した個体を併合していくつかの集合にま とめて行く階層的クラスタリング(hierarchical clustering method)と、類似した個体が 結果的に同じ集合に入るように元の集合を分割する非階層的クラスタリング (non-hie rarchical clustering method)とに大別できる。本実施の形態では、具体的にクラスタリ ングの手法を限定するものではなぐ結果として類似した音声素片を同じ集合にまと めることができればよい。例えば、階層的クラスタリングでは、『ヒープを用いた階層的 クラスタリング』という手法が知られている。また、非階層的クラスタリングでは『k— me ans法』と呼ばれる手法が知られて!/、る。
[0090] まず、階層的クラスタリングを用いて音声素片をいくつかの集合にまとめる方法につ いて説明する。図 7は、大規模音声素片 DB105に保持されている音声素片群に対 し、階層的クラスタリングを行った場合の概念図を表すものである。
[0091] 初期階層 301は、大規模音声素片 DB105に保持されている音声素片それぞれか ら構成される。同図の例において、大規模音声素片 DB105に保持されている音声 素片は四角形で示されている。また、四角形に付与された数字は、音声素片を識別 するための識別子、すなわち音声素片番号である。
[0092] 第 1の階層のクラスタ群 302は、階層的クラスタリングにより第 1の階層としてクラスタ リングされたクラスタの集合であり、各クラスタは円形で示されている。クラスタ 303は、 第 1の階層としてクラスタリングされたクラスタの 1つであり、具体的には、音声素片番 号「1」および「2」の音声素片により構成されている。各クラスタに示されている数字は 、クラスタを代表する音声素片の識別子である。例えば、クラスタ 303を代表する音声 素片は、音声素片番号「2」の音声素片である。このとき、各クラスタにおいて、クラス タを代表する代表音声素片を決定する必要があるが、代表音声素片の決定方法とし ては、クラスタに属する音声素片群のセントロイドを用いる方法がある。すなわち、クラ スタに属する音声素片群のセントロイドに最も近い音声素片をクラスタの代表とする。 図の例では、クラスタ 303を代表する音声素片は音声素片番号「2」の音声素片とな る。同様に他のクラスタについても、代表音声素片を決定することができる。
[0093] なお、クラスタに属する音声素片群のセントロイドの求め方としては、音声素片群に 含まれる各音声素片の韻律情報および声道情報を要素とするベクトルを考えた場合 に、複数のベクトルのベクトル空間中における重心をクラスタのセントロイドとして求め る。
[0094] また、代表音声素片の求め方としては、上述の音声素片群に含まれる各音声素片 のベクトルとクラスタのセントロイドのベクトルとの間で類似度を求め、類似度が最大と なる音声素片を代表素片として求める。なお、クラスタのセントロイドのベクトルと各音 声素片のベクトルとの間で距離 (例えば、ユークリッド距離)を求め、距離が最小とな る音声素片を代表素片として求めてもょ 、。
[0095] 第 2の階層のクラスタ群 304は、第 1の階層のクラスタ群 302に属するクラスタを、さ らに上述の類似度に基づいてクラスタリングしたものである。したがってクラスタの数 は第 1の階層のクラスタ群 302のクラスタ数よりも少ない。このとき、第 2の階層のクラス タ 305についても同様に代表音声素片を決定することができる。同図の例の場合、 素片番号「2」の音声素片がクラスタ 305を代表する音声素片である。
[0096] このように階層的クラスタリングを行なうことによって、大規模音声素片 DB105は、 第 1の階層のクラスタ群 302や、第 2の階層のクラスタ群 304のように分割することが できる。
[0097] その際、第 1の階層のクラスタ群 302の各クラスタの代表音声素片のみ力もなる素 片群を小規模音声素片 DB101として利用することができる。同図の例では、素片番 号が 2, 3, 6, 8, 9, 12, 14, 15の音声素片を小規模音声素片 DB101として利用 することができる。また、同様に第 2の階層のクラスタ群の各クラスタの代表音声素片 のみ力もなる音声素片群を小規模音声素片 DB101として利用することもできる。同 図の例では、素片番号が 2, 8, 12, 15の音声素片を小規模音声素片 DB101として 禾 IJ用することがでさる。
[0098] すなわち、この関係を利用すると図 3に示す対応 DB106を構築することが可能とな る。
[0099] 同図の例では、第 1の階層のクラスタ群 302を小規模音声素片として利用した場合 を示している。小規模音声素片番号「2」の音声素片は、大規模音声素片 DB105の 大規模音声素片番号「1」および「2」の音声素片に対応付けられている。また、小規 模音声素片番号「3」の音声素片は、大規模音声素片 DB105の大規模音声素片番 号「3」および「4」の音声素片に対応付けられる。以下同様に全ての第 1の階層のクラ スタ群 302の代表音声素片と大規模音声素片 DB105の大規模音声素片番号とを 対応付けることができる。また、このように小規模音声素片番号と大規模音声素片番 号との関係を予め対応付けてテーブルとして保持することにより、対応 DB106の参 照を非常に高速に行なうことが可能である。
[0100] なお、このように階層的クラスタリングを行なうことにより、小規模音声素片 DB101の 規模をスケーラブルに変更することが可能となる。すなわち、小規模音声素片 DB10 1として、第 1の階層のクラスタ群 302の代表音声素片を用いたり、第 2の構成のクラ スタ群 304の代表音声素片を用いたりすることができる。したがって、端末 111の記 憶容量に応じた小規模音声素片 DB101を構成することが可能である。
[0101] このとき、小規模音声素片 DB101と大規模音声素片 DB0105とは、上述の関係を 満たしている。すなわち、小規模音声素片 DB101として、第 1の階層のクラスタ群 30 2の代表音声素片を用いた場合、例えば、小規模音声素片 DB101に保持されてい る音声素片番号「2」の音声素片は、大規模音声素片 DB105の音声素片番号「1」お よび「2」の音声素片に対応する。また、音声素片番号「1」および「2」の音声素片は、 上記基準によりクラスタ 303の音声素片番号「2」の代表音声素片に類似している。
[0102] 例えば、小規模音声素片選択部 102が、小規模音声素片 DB101より音声素片番 号「2」の音声素片を選択した場合、音声素片候補取得部 107は、対応 DB106を用 いて、素片番号「1」および「2」の音声素片を取得する。大規模音声素片選択部 108 は、取得した音声素片候補の中力も上述の式(1)が最小になる候補、すなわち、タ 一ゲット韻律に近ぐかつ前後素片との接続性が良い音声素片を選択することになる
[0103] これによつて、大規模音声素片選択部 108により選択された音声素片系列のコスト 値は、小規模音声素片選択部 102によって選択された音声素片系列のコスト値以下 になることが保証できる。なぜならば、音声素片候補取得部 107が取得する音声素 片候補には、小規模音声素片選択部 102により選択された音声素片を含み、かつ、 その音声素片に類似した複数の音声素片が候補として追加されている力もである。
[0104] なお、上述の説明では、階層型クラスタリングを用いて対応 DB106を構成したが、 非階層的クラスタリングを用いて対応 DB 106を構成するようにしてもょ 、。
[0105] 例えば、 k means法を用いればよい。 k means法はあらかじめ設定されたクラス タ数 (k)になるように、要素群 (ここでは音声素片群)を分割する非階層的クラスタリン グである。 k— means法を用いることにより、端末 111で必要とされる小規模音声素片 DB101のサイズを設計時に計算することが可能である。また、 k個に分割された各ク ラスタで代表音声素片を決定し、小規模音声素片 DB101として利用することにより 階層的クラスタリングの場合と同様の効果を得ることができる。
[0106] なお、上記のクラスタリング処理は、あら力じめ音声素片の単位 (例えば、音素や音 節、モーラ、 CV (C :子音、 V:母音)、 VCV)で分けてクラスタリングを行なうことにより 効率的にクラスタリングすることができる。
[0107] 力かる構成によれば、端末 111は、小規模音声素片 DB101と、小規模音声素片 選択部 102と、小規模音声素片接続部 103と、韻律修正部 104と、対応 DB106と、 音声素片候補取得部 107と、大規模音声素片選択部 108と、大規模音声素片接続 部 109とを具備し、サーバ 112は、大規模音声素片 DB105を具備するような構成と することにより、端末 111に要求される記憶容量は大きくなくて良い。また大規模音声 素片 DB105は、サーバ 112に集中して保持しておけばよいので、端末 111が複数 存在する場合においても、大規模音声素片 DB105は、サーバ 112に 1つ保持して おくだけでよい。
[0108] このとき、編集処理としては、端末 111のみで、小規模音声素片 DB101を用いて 合成音を作成できる。また韻律修正部 104により、ユーザによる合成音の編集処理 が可能となる。
[0109] さらに、編集作業が完了した後、サーバ 112に保持されている大規模音声素片 DB 105を用いて高音質ィ匕処理が可能となる力 このとき、対応 DB106により、既に決定 されている小規模音声素片系列と大規模音声素片 DB105の候補とが対応付けられ ている。このため、大規模音声素片選択部 108による音声素片の選択は、改めて音 声素片を再選択する場合と比較して、限定された探索空間を探索するのみでよ 、の で計算量を大幅に削減することができる。
[0110] また、端末 111とサーバ 112との間の通信は、高品質化処理を行なう際に 1度だけ 行なえばよい。このため、通信に伴う時間的ロスを低減できる。すなわち、編集作業と 高音質ィ匕処理とを分離することにより、音声コンテンツの編集作業に要するレスボン スを向上させることが可能である。なお、高音質ィ匕処理をサーバ 112で行い、高音質 化した結果を、ネットワーク 113を介して端末 111に送信するようにしても良!、。
[0111] なお、本実施の形態では、小規模音声素片 DB101を大規模音声素片 DB105の 部分集合となるように構築したが、大規模音声素片 DB105の情報量を圧縮して小規 模音声素片 DB101を作成するようにしても良い。具体的には、サンプリング周波数 を小さくしたり、量子化ビット数を小さくしたり、分析する際の分析次数を低くするなど により圧縮するようにしても良い。その場合、対応 DB106は、小規模音声素片 DB10 1と大規模音声素片 DB105とを一対一で対応付けるようにすれば良い。
[0112] 本実施の形態の各構成要素を、端末とサーバでどのように分担するかにより、それ ぞれの負荷が異なる。また、それに伴う端末とサーバ間で通信する情報も異なり、し たがって通信量も異なる。以下に構成要素の組み合わせとその効果について説明す る。
[0113] (変形例 1)
本変形例では、端末 111は、小規模音声素片 DB101、小規模音声素片選択部 1 02、小規模音声素片接続部 103および韻律修正部 104を具備する。サーバ 112は 、大規模音声素片 DB105、対応 DB106、音声素片候補取得部 107、大規模音声 素片選択部 108および大規模音声素片接続部 109を具備する。
[0114] 本変形例の動作を図 8のフローチャートを用いて説明する。個々のステップは既に 説明しているので詳細な説明は省略する。
[0115] 端末 111を用いて編集処理を行なう。具体的には、韻律情報が生成される (ステツ プ S001)。次に、小規模音声素片選択部 102は、小規模音声素片 DB101から小規 模音声素片系列を選択する (ステップ S002)。小規模音声素片接続部 103は、小規 模音声素片を接続して簡易版合成音を生成する (ステップ S003)。ユーザは生成さ れた合成音を聞いて満足するかどうかの判断を行なう (ステップ S004)。満足しなか つた場合は (ステップ S004で NO)、韻律修正部 104は、韻律情報を修正する (ステ ップ S005)。ステップ S002力らステップ S005までの処理を繰り返すことにより目的 の合成音が生成される。
[0116] ユーザが簡易版合成音に満足した場合は (ステップ S004で YES)、端末 111は、 サーバ 112に対して、ステップ S002で選択した小規模音声素片系列の識別子およ び確定された韻律情報をサーバに送信する (ステップ S010)。
[0117] 次にサーバ側の動作を説明する。音声素片候補取得部 107は、端末 111から取得 した小規模音声素片系列の識別子に基づいて、対応 DB106を参照し、大規模音声 素片 DB105から選択候補となる音声素片群を取得する (ステップ S006)。大規模音 声素片選択部 108が、取得された音声素片候補群から、端末 111から受信した韻律 情報に基づ!、て最適な大規模音声素片系列を選択する (ステップ S007)。大規模 音声素片接続部 109が、選択された大規模音声素片系列を接続して高音質版合成 音を生成する (ステップ S008)。
[0118] サーバ 112は、以上のようにして作成された高音質版合成音を端末 111に送信す る。以上の処理により高音質な合成音を作成することができる。
[0119] 以上のように端末 111およびサーバ 112を構成することにより、端末 111は、小規 模音声素片 DB101と、小規模音声素片選択部 102と、小規模音声素片接続部 103 と、韻律修正部 105とだけで構成することができるため、必要なメモリ容量を小さくで きる。また、端末 111では、小規模音声素片のみを用いて合成音を生成するので、計 算量も小さくできる。また、端末 111からサーバ 112への通信は、韻律情報と小規模 音声素片系列の識別子のみであり、通信量も非常に小さくできる。また、サーバ 112 力も端末 111への通信は、高音質化された合成音声を 1度送信するだけでよぐ通 信量を小さくすることが可能である。
[0120] (変形例 2)
本変形例では、端末 111は、小規模音声素片 DB101、小規模音声素片選択部 1 02、小規模音声素片接続部 103、韻律修正部 104、対応 DB106および音声素片 候補取得部 107を具備する。サーバ 112は、大規模音声素片 DB105、大規模音声 素片選択部 108および大規模音声素片接続部 109を具備する。
[0121] 本変形例と変形例 1との違いは、対応 DB106を端末 111に具備する点である。
[0122] 本変形例の動作を図 9のフローチャートを用いて説明する。個々のステップは既に 説明しているので詳細な説明は省略する。
[0123] 端末 111を用いて編集処理を行なう。具体的には、韻律情報が生成される (ステツ プ S001)。次に、小規模音声素片選択部 102は、小規模音声素片 DB101から小規 模音声素片系列を選択する (ステップ S002)。小規模音声素片接続部 103は、小規 模音声素片を接続して簡易版合成音を生成する (ステップ S003)。ユーザは生成さ れた合成音を聞いて満足するかどうかの判断を行なう (ステップ S004)。満足しなか つた場合は (ステップ S004で NO)、韻律修正部 104は、韻律情報を修正する (ステ ップ S005)。ステップ S002力らステップ S005までの処理を繰り返すことにより目的 の合成音が生成される。
[0124] ユーザが簡易版合成音に満足した場合は (ステップ S004で YES)、音声素片候補 取得部 107は、対応 DB106を用いて、対応する大規模音声素片 DB105の候補と なる素片識別子を取得する (ステップ S006)、端末 111は、大規模音声素片の選択 候補群の識別子および確定された韻律情報をサーバ 112に送信する (ステップ S01 D o
[0125] 次にサーバ側の動作を説明する。大規模音声素片選択部 108が、取得された音声 素片候補群から、端末 111から受信した韻律情報に基づ 、て最適な大規模音声素 片系列を選択する (ステップ S007)。大規模音声素片接続部 109が、選択された大 規模音声素片系列を接続して高音質版合成音を生成する (ステップ S008)。
[0126] サーバ 112は、以上のようにして作成された高音質版合成音を端末 111に送信す る。以上の処理により高音質な合成音を作成する。
[0127] 以上のように端末 111およびサーバ 112を構成することにより、端末 111は、小規 模音声素片 DB101と、小規模音声素片選択部 102と、小規模音声素片接続部 103 と、韻律修正部 104と、対応 DB106とだけで構成することができるため、必要なメモリ 容量を小さくできる。また、端末 111では、小規模音声素片のみを用いて合成音を生 成するので、計算量も小さくできる。対応 DB106を端末 111側で具備することにより 、サーバ 112の処理を軽減することが可能である。また、端末 111からサーバ 112へ の通信は、韻律情報と音声素片候補群の識別子のみである。素片候補群に関しても 識別子のみの送信でよいため、通信量も非常に小さくできる。また、サーバ 112は、 音声素片候補を取得する処理を行なわなくてもよいため、サーバ 112に対する処理 負荷を軽減することができる。また、端末 111への通信は、高音質化された合成音声 を 1度送信するだけでよぐ通信量を小さくすることが可能である。
[0128] (変形例 3)
本変形例では、端末 111は、小規模音声素片 DB101、小規模音声素片選択部 1 02、小規模音声素片接続部 103、韻律修正部 104、対応 DB106、音声素片候補 取得部 107、大規模音声素片選択部 108および大規模音声素片接続部 109を具備 する。サーバ 112は、大規模音声素片 DB105を具備する。
[0129] 本変形例と変形例 2との違いは、大規模音声素片選択部 108および大規模音声素 片接続部 109を端末 111に具備する点である。
[0130] 本変形例の動作を図 10のフローチャートを用いて説明する。個々のステップは既 に説明して 、るので詳細な説明は省略する。
[0131] 端末 111を用いて編集処理を行なう。具体的には、韻律情報が生成される (ステツ プ S001)。次に、小規模音声素片選択部 102は、小規模音声素片 DB101から小規 模音声素片系列を選択する (ステップ S002)。小規模音声素片接続部 103は、小規 模音声素片を接続して簡易版合成音を生成する (ステップ S003)。ユーザは生成さ れた合成音を聞いて満足するかどうかの判断を行なう (ステップ S004)。満足しなか つた場合は (ステップ S004で NO)、韻律修正部 104は、韻律情報を修正する (ステ ップ S005)。ステップ S002力らステップ S005までの処理を繰り返すことにより目的 の合成音が生成される。
[0132] ユーザが簡易版合成音に満足した場合は (ステップ S004で YES)、端末 111は、 対応 DB106を用いて、対応する大規模音声素片 DB105の候補となる素片識別子 を取得し、大規模音声素片の選択候補群の識別子をサーバに送信する (ステップ SO 09)。
[0133] 次にサーバ側の動作を説明する。サーバ 112は、受信した選択候補群の識別子に 基づ 、て大規模音声素片 DB105から音声素片候補群を選択し、端末 111に送信 する(ステップ S006)。
[0134] 次に端末 111では、大規模音声素片選択部 108が、取得した音声素片候補群力 、既に確定した韻律情報に基づいて最適な大規模音声素片系列を算出する (ステツ プ S007)。
[0135] 大規模音声素片接続部 109が、選択された大規模音声素片系列を接続して高音 質版合成音を生成する (ステップ S008)。
[0136] 以上のように端末 111およびサーバ 112を構成することにより、サーバ 112は、端 末 111から送信された音声素片候補群の識別子に基づ!ヽて、素片候補を端末 111 に送信するだけでよいので、サーバ 112の計算負荷を大幅に削減することが可能で ある。また、端末 111では、対応 DB106により、小規模音声素片に対応する限定的 な音声素片候補群から最適音声素片系列を選択すればよ!、ので、計算量はそれほ ど大きくなく選択することが可能である。
[0137] (変形例 4)
本変形例では、端末 111は、小規模音声素片 DB101、小規模音声素片選択部 1 02、小規模音声素片接続部 103、韻律修正部 104、大規模音声素片選択部 108お よび大規模音声素片接続部 109を具備する。サーバ 112は、大規模音声素片 DB1 05、対応 DB106および音声素片候補取得部 107を具備する。
[0138] 本変形例と変形例 3との違いは、対応 DB106をサーバ 112に具備する点である。
[0139] 本変形例の動作を図 11のフローチャートを用いて説明する。個々のステップは既 に説明して 、るので詳細な説明は省略する。
[0140] 端末 111を用いて編集処理を行なう。具体的には、韻律情報が生成される (ステツ プ S001)。次に、小規模音声素片選択部 102は、小規模音声素片 DB101から小規 模音声素片系列を選択する (ステップ S002)。小規模音声素片接続部 103は、小規 模音声素片を接続して簡易版合成音を生成する (ステップ S003)。ユーザは生成さ れた合成音を聞いて満足するかどうかの判断を行なう (ステップ S004)。満足しなか つた場合は (ステップ S004で NO)、韻律修正部 104は、韻律情報を修正する (ステ ップ S005)。ステップ S002力らステップ S005までを繰り返すことにより目的の合成 音が生成される。
[0141] ユーザが簡易版合成音に満足した場合は (ステップ S004で YES)、サーバ 112側 に処理の制御が移される。
[0142] サーバ 112は、対応 DB106を用いて、対応する大規模音声素片 DB105の候補と なる音声素片群を取得し、端末 111に対して、大規模音声素片の選択候補群を送信 する(ステップ S006)。
[0143] 選択候補群を受信した端末 111では、大規模音声素片選択部 108が取得された 音声素片候補群から、既に確定した韻律情報に基づいて最適な大規模音声素片系 列を算出する (ステップ S007)。
[0144] 大規模音声素片接続部 109が、選択された大規模音声素片系列を接続して高音 質版合成音を生成する (ステップ S008)。
[0145] 以上のように端末 111およびサーバ 112を構成することにより、サーバ 112は、小 規模音声素片系列の識別子を受信し、大規模音声素片 DB105から対応 DB106を 用いて対応する音声素片候補群を端末 111に送信するだけでよく、サーバ 111の計 算負荷を大幅に削減することができる。また、変形例 3と比較すると端末 111からサー ノ 112への通信は、小規模音声素片系列の識別子だけでよいので通信量も削減す ることが可能である。
[0146] (実施の形態 2)
次に、本発明の実施の形態 2に係る多重品質音声合成装置について説明する。
[0147] 実施の形態 1では、編集処理で合成音を作成する方法として、音声素片系列を接 続して合成音を生成しているのに対し、本実施の形態では、 HMM (隠れマルコフモ デル)音声合成方法を用いて合成音を生成する点が異なる。 HMM音声合成方法 は、統計モデルに基づく音声合成法であり、統計モデルの容量がコンパクトで、かつ 安定した音質の合成音を生成できるという特徴がある。 HMM音声合成方法は、公 知の技術であるため、その詳細な説明は繰り返さない。
[0148] 図 12は、統計モデルによる音声合成方式の一つである HMM音声合成方法を用 Vヽたテキスト音声合成装置の構成図である(参考文献:特開 2002— 268660号公報
) o [0149] テキスト音声合成装置は、学習部 030と音声合成部 031とを備えている。
[0150] 学習部 030は、音声 DB (データベース) 032と、励振源パラメータ抽出部 033と、ス ベクトルパラメータ抽出部 034と、 HMMの学習部 035とを備えている。また、音声合 成部 031は、コンテキスト依存 HMMファイル 036と、テキスト解析部 037と、パラメ一 タ生成部 038と、励振源生成部 039と、合成フィルタ 040とを備えている。
[0151] 学習部 030は、音声 DB032に格納されている音声情報を用いてコンテキスト依存 HMMファイル 036を学習させる機能をもつ。音声 DB032には、あらかじめサンプル として用意された多数の音声情報が格納されている。音声情報は、音声信号に、波 形の各音素等の部分を識別するラベル情報 (amyuruや nuuyooku)を付加したもの である。
[0152] 励振源パラメータ抽出部 033とスペクトルパラメータ抽出部 034とは、それぞれ音声 DB032から取り出した音声信号ごとに、励振源パラメータ列とスペクトルパラメータ列 とを抽出する。 HMMの学習部 035は、抽出された励振源パラメータ列とスペクトル ノ メータ列とについて、音声 DB032から音声信号とともに取り出したラベル情報お よび時間情報を用いて、 HMMの学習処理を行なう。学習された HMMは、コンテキ スト依存 HMMファイル 036に格納される。
[0153] 励振源モデルのパラメータは、多空間分布 HMMを用いて学習される。多空間分 布 HMMは、パラメータベクトルの次元力 毎回、異なることを許すように拡張された HMMであり、有声 Z無声フラグを含んだピッチは、このような次元が変化するパラメ ータ列の例である。すなわち、有声時には 1次元、無声時には 0次元のパラメータべ タトルとなる。学習部 030では、この多空間分布 HMMによる学習を行っている。「ラ ベル情報」とは、具体的には、例えば、以下のようなものを指し、各 HMMは、これら を属性名(コンテキスト)として持つ。
· {先行, 当該,後続 }音素
•当該音素のアクセント句内でのモーラ位置
· {先行, 当該,後続 }の品詞,活用形,活用型
· {先行, 当該,後続 }アクセント句のモーラ長,アクセント型
•当該アクセント句の位置,前後のポーズの有無 · {先行,当該,後続 }呼気段落のモーラ長
•当該呼気段落の位置
'文のモーラ長
このような HMMは、コンテキスト依存 HMMと呼ばれる。
[0154] 音声合成部 031は、任意の電子的なテキストから読み上げ形式の音声信号列を生 成する機能をもつ。テキスト解析部 037は、入力されたテキストを解析して、音素の配 列であるラベル情報に変換する。パラメータ生成部 038は、ラベル情報に基づいてコ ンテキスト依存 HMMファイル 036を検索し、得られたコンテキスト依存 HMMを接続 し、文 HMMを構成する。パラメータ生成部 038は、得られた文 HMMから、さらにパ ラメータ生成アルゴリズムにより、励振源パラメータ、およびスペクトルパラメータの列 を生成する。励振源生成部 039および合成フィルタ 040は、励振源パラメータおよび スペクトルパラメータの列に基づいて、合成音を生成する。
[0155] 以上のようにテキスト音声合成装置を構成することによって、 HMM音声合成処理 では、統計モデルによる安定した合成音を生成することが可能である。
[0156] 図 13は、本発明の実施の形態 2における多重品質音声合成装置の構成図である。
図 13において、図 2と同じ構成要素については同じ符号を用い、説明を省略する。
[0157] 多重品質音声合成装置は、複数の品質の音声を合成する装置であり、 HMMモデ ル DB501と、 HMMモデル選択部 502と、合成部 503と、韻律修正部 104と、大規 模音声素片 DB105と、対応 DB506と、音声素片候補取得部 107と、大規模音声素 片選択部 108と、大規模音声素片接続部 109とを含む。
[0158] HMMモデル DB501は、音声データに基づいて学習された HMMモデルを保持 するデータベースである。
[0159] HMMモデル選択部 502は、少なくとも音韻情報と韻律情報とを入力として受け、
HMMモデル DB501から最適な HMMモデルを選択する処理部である。
[0160] 合成部 503は、 HMMモデル選択部 502により選択された HMMモデルを用いて 合成音を生成する処理部である。
[0161] 対応 DB506は、 HMMモデル DB501に保持されて!、る HMMモデルと大規模音 声素片 DB105に保持されている音声素片とを関連付けるデータベースである。 [0162] 本実施の形態も実施の形態 1と同様に図 4のような多重品質音声合成システムとし て実装することができる。端末 111は、 HMMモデル DB501と、 HMMモデル選択 部 502と、合成部 503と、韻律修正部 104と、対応 DB106と、音声素片候補取得部 107と、大規模音声素片選択部 108と、大規模音声素片接続部 109とで構成される 。サーバ 112は、大規模音声素片 DB105で構成される。
[0163] このように多重品質音声合成システムを構成することにより、 HMMモデルのフアイ ルはモデルベースであるため、端末 111に要求される記憶容量を小さくすることがで きる (数 Mバイト程度)。また大規模音声素片 DB105 (数百力も数 Gバイト)はサーバ 112に集中して保持しておけばよ!/ヽ。
[0164] 次に本発明の実施の形態 2に係る多重品質音声合成装置の処理の流れを、図 14 に示すフローチャートを用いて説明する。本実施の形態に係る多重品質音声合成装 置の動作も、実施の形態 1に係る多重品質音声合成装置の動作と同様に、合成音の 編集処理と、編集された合成音の高音質化処理に分けられる。以下、合成音の編集 処理と、高音質化処理とに分けて順に説明を行う。
[0165] <編集処理 >
まず、合成音の編集について説明する。前処理として、ユーザにより入力されたテ キスト情報が解析され、音韻系列とアクセント記号を元に韻律情報が生成される(S1 01)。韻律情報の生成の方法は特に限定されるものではなぐ例えば、テンプレート を参照して生成するようにしてもよ!、し、数量化 I類を用いて推定するようにしても良 ヽ 。また、韻律情報は外部力 直接入力されても良い。
[0166] HMMモデル選択部 502は、ステップ S101により得られた音韻情報および韻律情 報に基づいて HMM音声合成を行なう(ステップ S102)。具体的には、 HMMモデ ル選択部 502が、入力された音韻情報および韻律情報に基づ!、て HMMモデル D B501から最適な HMMモデルを選択し、選択された HMMモデルから合成パラメ一 タを生成する。その詳細については既に説明したのでここでは省略する。
[0167] 合成部 503は、 HMMモデル選択部 502によって生成された合成パラメータに基 づき音声波形を合成する (ステップ S103)。合成する方法は特に限定するものでは ない。 [0168] 合成部 503は、ステップ S103により作成された合成音を出力することによりユーザ に提示する(ステップ S 104)。
[0169] 韻律修正部 104は、ユーザが合成音に満足している力否かの入力を受け付け、ュ 一ザが満足している場合には (ステップ S004で YES)、編集処理を終了し、ステップ S 106以降の処理が実行される。
[0170] ユーザが合成音に満足していない場合には (ステップ S004で NO)、韻律修正部 1 04は、韻律情報を修正するための情報のユーザによる入力を受け付け、ターゲットと なる韻律情報を修正する (ステップ S005)。「韻律情報の修正」とは、例えば、ァクセ ント位置の変更、基本周波数の変更、継続時間長の変更などを含む。これにより、ュ 一ザは、現状の合成音の韻律で満足できない箇所を修正することができる。修正が 終了すると、ステップ S002に戻る。ステップ S002からステップ S005までの処理を繰 り返すことにより、ユーザは自分が望む韻律の合成音を作成することが可能である。 以上のステップにより、ユーザは、 HMM合成に基づく音声コンテンツを作成すること ができる。
[0171] <高音質化処理 >
次に高音質ィ匕の処理の流れを説明する。図 15は、高音質化処理の動作例を示し た図である。
[0172] 音声素片候補取得部 107は、編集処理で最後に確定した HMMモデル系列(M
=m , m , · ··, m )を元に、大規模音声素片 DB105から音声素片候補を取得する(
1 2 n
ステップ S106)。すなわち、音声素片候補取得部 107は、 HMMモデル DB501に 保持されている HMMモデルと大規模音声素片 DB105の素片との対応関係を示す 情報を保持する対応 DB506を用いて、ステップ S 102の処理により選択された HM Mモデル DB501内の HMMモデルに関連する大規模音声素片候補を、大規模音 声素片 DB105から取得する。
[0173] 図 15の例では、音声素片候補取得部 107は、音素「7&7」を合成するために選択 された HMMモデル (ml)に対応した大規模音声素片(h , h , h , h )を、対応 D
11 12 13 14
B506を参照して、大規模音声素片 DB105より選択する。同様に、音声素片候補取 得部 107は、 HMMモデル m2, · ··, mnに対しても対応 DB506を参照することにより 、大規模音声素片 DB105より大規模音声素片候補を取得することができる。対応 D B506の作成方法にっ ヽては後述する。
[0174] 大規模音声素片選択部 108は、ステップ S006で取得された大規模音声素片候補 から、ユーザにより編集された韻律情報に最適な音声素片系列を選択する (ステップ S007)。選択の方法は、実施の形態 1と同一の方法でよいので説明を省略する。図 15の例では、結果として H=h , h , h , h , h , h , h の大規模音声素片系列
13 22 33 42 53 63 73
を得ることができる。
[0175] 大規模音声素片接続部 109は、ステップ S007で選択された大規模音声素片 DB1 05に保持されている音声素片系列 (H=h , h , h , h , h , h , h )を接続し、
13 22 33 42 53 63 73
合成音を生成する (ステップ S008)。接続の方法は実施の形態 1と同一の方法でよ いので説明を省略する。
[0176] 以上の処理により、編集処理で編集した簡易版の合成音に韻律'声質が類似し、 かつ大規模音声素片 DB105に格納された大規模音声素片を用いた高音質な合成 音を生成することが可能になる。
[0177] <対応 DBの作成方法 >
次に、対応 DB106について詳しく説明する。
[0178] 対応 DB106作成時には、 HMMモデル DB501に保持されている HMMモデルと 大規模音声素片 DB105に保持されている音声素片とを対応付けるために、 HMM モデルの学習行程が利用される。
[0179] まず、 HMMモデル DB501に保持されて!、る HMMモデルの学習方法につ!、て 説明する。 HMM音声合成において、 HMMモデルは、通常、先行音素、当該音素 、後続音素などのコンテキストの組合せカゝらなる「コンテキスト依存モデル」と呼ばれる モデルを使用する。しかし、音素種類だけでも数十種類あるため、組合せによりコン テキスト依存モデルの総数は膨大なものになる。それに伴って、コンテキスト依存モ デルのモデル当たりの学習データが小さくなるという問題がある。そこで通常は、コン テキストのクラスタリングが行なわれる。コンテキストのクラスタリング処理は公知の技 術であるため、その詳細な説明は繰り返さな 、。
[0180] 本実施の形態では、大規模音声素片 DB105を用いてこの HMMモデルを学習す る。このときの大規模音声素片 DB105に保持されている音声素片群に対してコンテ キストクラスタリングを行なった結果の例を図 16に示す。大規模音声素片 DB105の 音声素片群 702の各音声素片は四角形で表され、数字は音声素片識別子を表す。 コンテキストクラスタリングでは、音声サンプルをコンテキスト (例えば、先行音素が有 声音であるか等)により分類していく。このとき、図 16に示す決定木のように段階的に 、音声素片をクラスタリングしていく。
[0181] この際、決定木のリーフノード 703〖こは、同一のコンテキストを持つ音声素片が分類 されることとなる。図の例では、先行音素が有声音であり、先行音素が母音であり、か つ先行音素が ZaZである音声素片 (音声素片番号 1および音声素片番号 2の音声 素片)がリーフノード 703に分類される。リーフノード 703については、音声素片番号 1および音声素片番号 2の音声素片を学習データとして、 HMMモデルを学習し、モ デル番号「A」と!、う HMMモデルが作成される。
[0182] すなわち、同図において、モデル番号「A」の HMMモデルは、大規模音声素片 D B105の音声素片番号 1および 2の音声素片力も学習されることになる。なお、同図 は概念図であり、実際にはさらに大量の音声素片力 HMMモデルが学習される。
[0183] この関係を利用して、モデル番号「A」の HMMモデルと、当該 HMMモデルを学 習する際に利用された音声素片 (音声素片番号 1および音声素片番号 2の音声素片 )との対応関係を示す情報が対応 DB506に保持される。
[0184] 以上の対応関係を用いることにより、例えば、図 17に示すような対応 DB506を作 成することができる。この例では、モデル番号「A」の HMMモデルは、大規模音声素 片 DB105の音声素片番号「1」および「2」の音声素片に対応付けられていることが 示されている。また、モデル番号「B」の HMMモデルは、大規模音声素片 DB105の 音声素片番号「3」および「4」の音声素片に対応付けられて 、ることが示されて!/、る。 以下同様に、全てのリーフノード群の HMMモデルのモデル番号と大規模音声素片 DB105の大規模音声素片番号との対応関係をテーブルとして保持することができる 。また、このように、当該対応関係をテーブルとして保持することにより、 HMMモデル と大規模音声素片との関連を高速に参照することが可能である。
[0185] このように対応 DB506を構成することにより、編集処理で編集され、完成した合成 音を生成するのに使用した HMMモデルと、その HMMモデルを学習するために用 V、られた大規模音声素片 DB105の音声素片とが対応付けられて 、る。したがって、 音声素片候補取得部 107が選択した大規模音声素片 DB105の音声素片候補は、 HMMモデル選択部 502が HMMモデル DB501から選択された HMMモデルの学 習サンプルの実波形である。また、当該音声素片候補と当該 HMMモデルとの韻律 情報および声質情報は当然類似している。また、 HMMモデルは、統計処理を行うこ とにより作成されている。このため、 HMMモデルの学習に用いられた音声素片と比 ベ、再生時になまりが生じる。すなわち、学習サンプルの平均などの統計処理により 本来波形が持つべき微細構造が失われている。しかし、大規模音声素片 DB105内 の音声素片は、統計処理されていないので、微細な構造をそのまま保持している。そ のため、音質という観点では、 HMMモデルを利用して合成部 503が出力する合成 音と比べて、高音質な合成音を得ることができるようになる。
[0186] すなわち、統計モデルとその学習データとの関係から韻律 ·声質の類似性が確保 でき、かつ、統計処理を行なわず、音声の微細構造を現している音声素片をも保存 して 、ることから、高音質な合成音を生成できると 、う効果がある。
[0187] なお、上記の説明では、 HMMモデルが音素単位で学習されることを前提として ヽ たが、学習の単位は音素でなくとも良い。例えば、図 18に示すように 1音素に対して 、 HMMモデルにおける複数の状態を保持し、各状態で個別に統計量を学習するよ うにしても良い。同図は、「ZaZ」という音素に対して 3つの状態で HMMモデルを構 成した場合の例を示している。この場合、対応 DB506は、 HMMモデルにおける各 状態と大規模音声素片 DB105に格納されている音声素片とを対応付けるための情 報を記憶している。
[0188] 同図の例では、対応 DB506を用いることにより、最初の状態「ml l」を、学習に使 用された大規模音声素片 DB105の音声素片 (音声素片番号 1, 2, 3)に展開するこ とができることを示している。また、 2番目の状態「ml2」を、大規模音声素片 DB105 の音声素片 (音声素片番号 1, 2, 3, 4, 5)に、対応 DB506を用いて展開することが できる。同様に、最終状態「ml3」も、大規模音声素片 DB105の音声素片 (音声素 片番号 1, 3, 4, 6)に、対応 DB506を用いて展開することができる。 [0189] そして音声素片候補取得部 107は、以下の 3つの基準で音声素片候補を選択する ことができる。
[0190] (l) HMMの各状態に対応付けられた大規模音声素片の和集合を音声素片候補 とする。図 18の例では、音声素片番号 { 1, 2, 3, 4, 5, 6}の大規模音声素片を選択 候補として選択する。
[0191] (2) HMMの各状態に対応付けられた大規模音声素片の積集合を音声素片候補 とする。図 18の例では、音声素片番号 { 1, 3}の大規模音声素片を選択候補として 選択する。
[0192] (3) HMMの各状態に対応付けられた大規模音声素片の集合で、所定の閾値以 上の集合に属する音声素片を音声素片候補とする。所定の閾値を「2」とした場合、 図 18の例では、例えば、音声素片番号 { 1, 2, 3, 4}の大規模音声素片を選択候補 として選択する。
[0193] なお、各基準は組み合わせて用いても良い。例えば、音声素片候補取得部 107が 選択する音声素片候補が一定数に満たな力 た場合は、異なる基準で音声素片候 補を選択するように設計しても良 ヽ。
[0194] 力かる構成によれば、端末 111に HMMモデル DB501と、 HMMモデル選択部 5 02と、合成部 503と、韻律修正部 104と、対応 DB106と、音声素片候補取得部 107 と、大規模音声素片選択部 108と、大規模音声素片接続部 109とを具備し、サーバ 112は、大規模音声素片 DB105を具備するような構成とすることにより、端末 111に 要求される記憶容量は大きくなくて良い。また、大規模音声素片 DB105は、サーバ 112に集中して保持しておけばょ 、ので、端末 111が複数存在する場合にぉ ヽても 、大規模音声素片 DB105は、サーバ 112に 1つ保持しておくだけでよい。
[0195] このとき、編集処理としては、端末 111のみで、 HMM音声合成を用いて合成音を 作成できる。また、韻律修正部 104により、ユーザによる合成音の編集処理が可能と なる。このとき、 HMM音声合成は、大規模音声素片 DB105を探索して合成する場 合と比較して、非常に高速に合成音を生成することができる。このため、合成音の編 集時の計算コストを削減でき、複数回の編集を行なう場合においても、レスポンス良く 合成音編集することが可能となる。 [0196] さらに、編集作業が完了した後、サーバ 112に保持されている大規模音声素片 DB 105を用いて高音質ィ匕処理が可能となる力 このとき、対応 DB106により、編集処理 によって既に決定されている HMMモデルのモデル番号と大規模音声素片 DB105 の音声素片候補の音声素片番号とが対応付けられているため、大規模音声素片選 択部 108による音声素片の選択は、改めて音声素片を再選択する場合と比較して、 限定された探索空間を探索するのみでよいので計算量を大幅に削減することができ る。
[0197] また、端末 111とサーバ 112との間の通信は、高品質化処理を行なう際に 1度だけ 通信を行なえばよいので、通信に伴う時間的ロスを低減できる。すなわち、編集作業 と、高音質化処理とを分離することにより、音声コンテンツの編集作業に要するレスポ ンスを向上させることが可能である。
[0198] さらに、実施の形態 1では、小規模ではあるが音声波形そのものを保持しなければ ならないことと比較して、本実施の形態では、端末側では、 HMMモデルのファイル のみを保持しておけばよいので、端末に要求される記憶容量をさらに削減することが できる。
[0199] なお、本実施の形態では、実施の形態 1の変形例 1〜4に示したと同様に、端末と サーバとで各構成要素を分担させてもよい。この場合、小規模音声素片 DB101、小 規模音声素片選択部 102、小規模音声素片接続部 103および対応 DB106が、 H MMモデル DB501、 HMMモデル選択部 502、合成部 503および対応 DB506に それぞれ対応する。
[0200] (実施の形態 3)
上述のように音声合成の作成を、音声コンテンツの作成 (編集)と考えた場合、作成 した音声コンテンツを第三者に提供するスタイルが考えられる。すなわち、コンテンツ 作成者とコンテンツ利用者とが異なる場合である。音声コンテンツを第三者に提供す る例として、携帯電話などを用いて音声コンテンツを作成する場合に、音声コンテン ッの作成者がネットワークなどを通じて作成した音声コンテンツを送信し、受信者が 音声コンテンツを受け取るといったような音声コンテンツの流通形態が考えられる。具 体的には、電子メール等を用いた音声メッセージの送受信を考えた場合、作成者が 作成した音声コンテンツを相手に送信するといつたサービスが考えられる。
[0201] その際には、どのような情報を通信するかが重要になってくる。さらに、送信者およ び受信者が同じ小規模音声素片 DB101や HMMモデル DB501を共有する場合に は、流通に必要な情報を削減することができる。
[0202] また、音声コンテンツの編集処理を作成者が行 、、受信者は、受信した音声コンテ ンッを試聴し、気に入った場合には高音質ィ匕処理を行なうなどといった利用方法が 考えられる。
[0203] 本発明の実施の形態 3は、作成した音声コンテンツの通信方法と、高音質化処理 の方法に関する。
[0204] 図 19は、本発明の実施の形態 3に係る多重品質音声合成システムの構成を示す ブロック図である。本実施の形態は、編集処理を音声コンテンツ作成者が行い、高音 質化処理を音声コンテンツ受信者が行なうものであり、作成者が使用する端末と受信 者が使用する端末との間に通信手段を設けている点が実施の形態 1および 2と異な る。
[0205] 多重品質音声合成システムは、作成端末 121と、受信端末 122と、サーバ 123とを 備えている。作成端末 121と、受信端末 122と、サーバ 123とはネットワーク 113を介 して相互に接続されている。
[0206] 作成端末 121は、音声コンテンツ作成者が音声コンテンツを編集するために利用 する装置である。受信端末 122は、作成端末 121により作成された音声端末を受信 する装置である。作成端末 121は、音声コンテンツ受信者が利用する。サーバ 123 は、大規模音声素片 DB105を保持し、音声コンテンツの高音質化処理を行なう装置 である。
[0207] 作成端末 121、受信端末 122およびサーバ 123が有する機能について、実施の形 態 1の構成を元に説明する。作成端末 121は、小規模音声素片 DB101と、対応 DB 106と、小規模音声素片選択部 102と、小規模音声素片接続部 103と、韻律修正部 104とにより構成される。受信端末 122は、音声素片候補取得部 107と、大規模音声 素片選択部 108と、大規模音声素片接続部 109とにより構成される。サーバ 123は、 大規模音声素片 DB105により構成される。 [0208] 図 20および図 21は、実施の形態 3に係る多重品質音声合成システムによる処理の 流れを示すフローチャートである。
[0209] 多重品質音声合成システムによる処理は、編集処理、通信処理、確認処理および 高音質化処理の 4つの処理に分かれる。以下、それぞれの処理について説明する。
[0210] <編集処理 >
編集処理は、作成端末 121上で実行される。処理内容は実施の形態 1と同一でよ い。簡単に説明すると、前処理として、ユーザにより入力されたテキスト情報が解析さ れ、音韻系列とアクセント記号とを元に韻律情報が生成される (ステップ S001)。
[0211] 小規模音声素片選択部 102は、ステップ S001により得られた韻律情報に基づいて
、小規模音声素片 DB101からターゲット韻律との距離 (ターゲットコスト (Ct) )と、音 声素片の接続性 (接続コスト (Cc) )とを考慮して、最適な音声素片系列を選択する( ステップ S002)。具体的には上述の式(1)に示すコストが最小となる音声素片系列を ビタビアルゴリズムにより探索する。
[0212] 小規模音声素片接続部 103は、小規模音声素片選択部 102により選択された音 声素片系列を用いて音声波形を合成し、合成音を出力することによりユーザに提示 する(ステップ S003)。
[0213] 韻律修正部 104は、ユーザが合成音に満足している力否かの入力を受け付け、ュ 一ザが合成音に満足している場合には (ステップ S004で YES)、編集処理が終了し 、ステップ S201以降の処理が実行される。
[0214] ユーザが合成音に満足して 、な 、場合には (ステップ S004で NO)、韻律修正部 1 04は、韻律情報を修正するための情報のユーザによる入力を受け付け、ターゲットと なる韻律情報を修正する (ステップ S005)。修正が終了すると、ステップ S002に戻る 。ステップ S002からステップ S005までの処理を繰り返すことにより、ユーザは自分が 望む韻律の合成音を作成することが可能である。
[0215] <通信処理 >
次に通信処理について説明する。
[0216] 作成端末 121は、作成端末 121上での編集処理によって確定された小規模音声 素片系列および韻律情報をインターネットなどのネットワークを通じて、受信端末 122 に送信する (ステップ S201)。通信の方法は特に限定するものではない。
[0217] 受信端末 122は、ステップ S201で送信された韻律情報および小規模音声素片系 列を受信する (ステップ S202)。
[0218] 以上の通信処理により、受信端末 122は、作成端末 121で作成された音声コンテ ンッを再構成可能な最小限の情報を得ることができる。
[0219] <確認処理 >
次に確認処理について説明する。
[0220] 受信端末 122は、小規模音声素片 DB101からステップ S202により受信した小規 模音声素片系列の音声素片を取得し、小規模音声素片接続部 103により受信した 韻律情報に合わせた合成音を作成する (ステップ S 203)。合成音の作成処理は、ス テツプ S003と同様である。
[0221] 受信者は、ステップ S203により作成された簡易合成音を確認し、受信端末 122は
、受信者の判断結果を受け付ける (ステップ S204)。このとき、受信者が簡易版の合 成音のままでよいと判断した場合には (ステップ S204で NO)、受信端末 122は、簡 易合成音を音声コンテンツとして採用する。一方、確認により、受信者が高音質化を 要求した場合には (ステップ S 204で YES)、ステップ S006以降の高音質化処理が 行なわれる。
[0222] <高音質化処理 >
次に高音質ィ匕処理について説明する。
[0223] 受信端末 122の音声素片候補取得部 107は、小規模音声素片系列をサーバ 123 に送信し、サーバ 123は、受信端末 122の対応 DB106を参照して、大規模音声素 片 DB105から音声素片候補を取得する (ステップ S006)。
[0224] 大規模音声素片選択部 108は、ステップ S006で取得された韻律情報と音声素片 候補とから上述の式(1)を満たす大規模音声素片系列を選択する (ステップ S007)
[0225] 大規模音声素片接続部 109は、ステップ S007で選択された大規模音声素片系列 を接続し、高音質合成音を生成する (ステップ S008)。
[0226] 以上の構成により、作成端末 121で作成した音声コンテンツを受信端末 122に送 信する際に、韻律情報および小規模音声素片系列のみを送信するだけでよいので、 作成端末 121と受信端末 122との間の通信量を、合成音を送信する場合と比較して 小さくすることが可能である。
[0227] また、作成端末 121では、小規模音声素片系列のみで合成音を編集できるため、 サーバ 123を介して高音質合成音を必ずしも作成する必要がなぐ音声コンテンツ作 成を簡略ィ匕することが可能となる。
[0228] また、受信端末 122では、韻律情報と小規模音声素片系列とに基づいて合成音を 作成し、高音質ィ匕処理を行なう前に合成音を試聴することにより確認することができ る。これにより、サーバ 123にアクセスすることなく音声コンテンツを試聴することがで きる。さらに試聴した音声コンテンツを高音質ィ匕したい場合にのみサーバ 123にァク セスし高音質ィ匕することができるため、受信者は、簡易版および高音質版の音声コン テンッを自由に選択できる。
[0229] さらに大規模音声素片 DB105を用いた素片選択処理では、対応 DB106を用いる ことにより、小規模音声素片系列に対応付けられた音声素片のみを候補とすることが できるため、受信端末 122とサーバ 123との間の通信量を削減でき、高音質化処理 を効率的に行なえるという効果がある。
[0230] なお、上記の説明では、受信端末 122が、対応 DB106と、音声素片候補取得部 1 07と、大規模音声素片選択部 108と、大規模音声素片接続部 109とを保持し、サー バ 123が、大規模音声素片 DB105を保持していた力 サーバ 123に、大規模音声 素片 DB105と、音声素片候補取得部 107と、大規模音声素片選択部 108と、大規 模音声素片接続部 109とを持たせるようにしても良い。
[0231] その場合は、受信端末での処理量を削減できるという効果と、受信端末とサーバと の間の通信を削減できるという効果がある。
[0232] なお、上記の説明では、実施の形態 1の構成を元に説明したが、実施の形態 2の構 成をもとに、作成端末 121、受信端末 122およびサーバ 123が有する機能を構成す るようにしてもよい。その場合は、作成端末 121は、 HMMモデル DB501と、 HMM モデル選択部 502と合成部 503と、韻律修正部 104とで構成し、受信端末 122は、 対応 DB106と、音声素片候補取得部 107と、大規模音声素片選択部 108と、大規 模音声素片接続部 109とで構成される。サーバ 123は、大規模音声素片 DB105に より構成するようにすればよい。
産業上の利用可能性
本発明は、音声合成装置に適用でき、特に、携帯電話等で利用される音声コンテ ンッを作成する際に利用される音声合成装置等に適用できる。

Claims

請求の範囲
[1] 音声記号および韻律情報に適合する合成音を生成する音声合成システムであって 前記音声合成システムは、コンピュータネットワークを介して相互に接続された作成 端末と、サーバと、受信端末とを備え、
前記作成端末は、
合成音を生成するために用いられる合成音生成用データを保持して!/ヽる小規模デ ータベースと、
生成される合成音が音声記号および韻律情報に最も適合する合成音生成用デー タを前記小規模データベースより選択する合成音生成用データ選択手段とを有し、 前記サーバは、
前記小規模データベースに保持されている前記合成音生成用データよりも、生成 する合成音が詳細に韻律情報を表すことが可能であり、かつ多くの数の音声素片を 保持して!/ヽる大規模データベースを有し、
前記受信端末は、
前記合成音生成用データ選択手段で選択された前記合成音生成用データに対応 し、かつ生成される合成音が前記音声記号および前記韻律情報に最も適合する音 声素片を、前記大規模データベースの中から選択する適合音声素片選択手段と、 前記適合音声素片選択手段で選択された前記音声素片を接続することにより合成 音を生成する音声素片接続手段とを有する
ことを特徴とする音声合成システム。
[2] 音声記号および韻律情報に適合する簡易合成音を生成する作成端末であって、 前記合成音を生成するために用いられる音声素片を保持して!/ヽる小規模データべ ースと、
生成される合成音が音声記号および韻律情報に適合する合成音生成用データを 前記小規模データベースより選択する合成音生成用データ選択手段と、
前記合成音声生成用データを送信する送信手段とを備え、
前記送信手段が、前記小規模データベースに保持されている前記音声素片よりも 、多くの数の音声素片を保持している大規模データベースを有するサーバに、前記 大規模データベースの音声素片と対応付けるための前記合成音声生成用データを 送信する
ことを特徴とする作成端末。
[3] さらに、前記合成音生成用データ選択手段で選択された音声素片を接続すること により、簡易合成音を生成する小規模音声素片接続手段と、
前記簡易合成音の韻律情報を修正するための情報を受け付け、当該情報に基づ いて前記韻律情報を修正する韻律情報修正手段とを備え、
前記合成音生成用データ選択手段は、前記簡易合成音の韻律情報が修正された 場合に、生成される合成音が音声記号および修正後の前記韻律情報に適合する合 成音生成用データを前記小規模データベースより再選択して、前記小規模音声素 片接続手段に前記再選択した前記合成音声生成用データを出力し、
前記送信手段は、前記修正と前記再選択とで決定された前記合成音用データを送 信する
ことを特徴とする請求項 2に記載の作成端末。
[4] 音声記号および韻律情報に適合する合成音を生成するサーバであって、
作成端末が生成した合成音声生成用データを受信する受信手段と、
前記小規模データベースに保持されている前記合成音生成用データよりも、多くの 数の音声素片を保持して 、る大規模データベースと、
前記小規模データベースに保持されている前記合成音生成用データの各々と、当 該合成音生成用データに対応する少なくとも 1つの前記音声素片との対応関係を示 す情報である対応関係情報を保持している対応データベースとを備える
ことを特徴とするサーバ。
[5] 音声記号および韻律情報に適合する合成音を生成する音声合成装置であって、 合成音を生成するために用いられる合成音生成用データを保持して!/ヽる小規模デ ータベースと、 前記小規模データベースに保持されている前記合成音生成用データよりも多くの 数の音声素片を保持して 、る大規模データベースと、 生成される合成音が音声記号および韻律情報に適合する合成音生成用データを 前記小規模データベースより選択する合成音生成用データ選択手段と、
前記合成音生成用データ選択手段で選択された前記合成音生成用データに対応 する音声素片を、前記大規模データベースの中から選択する適合音声素片選択手 段と、
前記適合音声素片選択手段で選択された前記音声素片を接続することにより合成 音を生成する音声素片接続手段とを備える
ことを特徴とする音声合成装置。
[6] さらに、前記合成音生成用データ選択手段で選択された音声素片を接続すること により、簡易合成音を生成する小規模音声素片接続手段と、
前記簡易合成音の韻律情報を修正するための情報を受け付け、当該情報に基づ いて前記韻律情報を修正する韻律情報修正手段とを備え、
前記合成音生成用データ選択手段は、前記簡易合成音の韻律情報が修正された 場合に、生成される合成音が音声記号および修正後の前記韻律情報に適合する合 成音生成用データを前記小規模データベースより再選択して、前記小規模音声素 片接続手段に前記再選択した合成音声生成用データを出力し、
前記適合音声素片選択手段は、前記修正と前記再選択とで決定された前記合成 音生成用データを受け取り、当該合成音生成用データに対応する音声素片を前記 大規模データベースの中から選択する
ことを特徴とする請求項 5に記載の音声合成装置。
[7] さらに、前記小規模データベースに保持されている前記合成音生成用データの各 々と、当該合成音生成用データに対応する少なくとも 1つの前記音声素片との対応 関係を示す情報である対応関係情報を保持している対応データベースを備え、 前記適合音声素片選択手段は、
前記対応データベースに保持されている前記対応関係情報を用いて、前記合成 音生成用データ選択手段で選択された前記合成音生成用データに対応する音声素 片の候補を特定し、特定された前記音声素片の候補を前記大規模データベースより 取得する音声素片取得部と、 前記音声素片取得部で取得された前記音声素片の候補の中から、生成される合 成音が前記音声記号および前記韻律情報に最も適合する音声素片を選択する音声 素片選択部とを有し、
前記音声素片接続手段は、前記音声素片選択部で選択された前記音声素片を接 続することにより合成音を生成する
ことを特徴とする請求項 5に記載の音声合成装置。
[8] 前記大規模データベースは、コンピュータネットワークを介して前記音声合成装置 と接続されたサーバに設けられており、
前記適合音声素片選択手段は、前記サーバに設けられた前記大規模データべ一 スの中から前記音声素片を選択する
ことを特徴とする請求項 5に記載の音声合成装置。
[9] 前記小規模データベースは、前記大規模データベースに保持されている音声素片 をクラスタリングした際の、各クラスタを代表する音声素片を保持している
ことを特徴とする請求項 5に記載の音声合成装置。
[10] 前記小規模データベースは、前記大規模データベースに保持されている音声素片 を、当該音声素片の基本周波数、継続時間長、パワー情報、フォルマントパラメータ
、ケプストラム係数の少なくとも 1つ以上に基づいてクラスタリングした際の、各クラスタ を代表する音声素片を保持して ヽる
ことを特徴とする請求項 9に記載の音声合成装置。
[11] 前記小規模データベースは、 HMM (隠れマルコフ)モデルを保持しており、
前記大規模データベースは、前記小規模データベースに保持されて 、る前記 HM
Mモデルを生成する際の学習サンプルである音声素片を保持している
ことを特徴とする請求項 5に記載の音声合成装置。
[12] 音声記号および韻律情報に適合する合成音を生成する音声合成方法であって、 生成される合成音が音声記号および韻律情報に最も適合する合成音生成用デー タを、合成音を生成するために用いられる合成音生成用データを保持して!/ヽる小規 模データベースより選択する合成音生成用データ選択ステップと、 前記合成音生成用データ選択ステップで選択された前記合成音生成用データに 対応し、かつ生成される合成音が前記音声記号および前記韻律情報に最も適合す る音声素片を、前記小規模データベースに保持されている前記合成音生成用デー タよりも、生成する合成音が詳細に韻律情報を表すことが可能であり、かつ多くの数 の音声素片を保持して 、る大規模データベースの中から選択する適合音声素片選 択ステップと、
前記適合音声素片選択ステップで選択された前記音声素片を接続することにより 合成音を生成する音声素片接続ステップとを含む
ことを特徴とする音声合成方法。
音声記号および韻律情報に適合する合成音を生成するプログラムであって、 生成される合成音が音声記号および韻律情報に最も適合する合成音生成用デー タを、合成音を生成するために用いられる合成音生成用データを保持して!/ヽる小規 模データベースより選択する合成音生成用データ選択ステップと、 前記合成音生成用データ選択ステップで選択された前記合成音生成用データに 対応し、かつ生成される合成音が前記音声記号および前記韻律情報に最も適合す る音声素片を、前記小規模データベースに保持されている前記合成音生成用デー タよりも、生成する合成音が詳細に韻律情報を表すことが可能であり、かつ多くの数 の音声素片を保持して 、る大規模データベースの中から選択する適合音声素片選 択ステップと、
前記適合音声素片選択ステップで選択された前記音声素片を接続することにより 合成音を生成する音声素片接続ステップとをコンピュータに実行させる
ことを特徴とするプログラム。
PCT/JP2007/059765 2006-06-05 2007-05-11 音声合成装置 WO2007141993A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US12/303,455 US20090254349A1 (en) 2006-06-05 2007-05-11 Speech synthesizer
CN2007800208718A CN101490740B (zh) 2006-06-05 2007-05-11 声音合成装置
JP2008520470A JP4246790B2 (ja) 2006-06-05 2007-05-11 音声合成装置

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2006-156429 2006-06-05
JP2006156429 2006-06-05

Publications (1)

Publication Number Publication Date
WO2007141993A1 true WO2007141993A1 (ja) 2007-12-13

Family

ID=38801258

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2007/059765 WO2007141993A1 (ja) 2006-06-05 2007-05-11 音声合成装置

Country Status (4)

Country Link
US (1) US20090254349A1 (ja)
JP (1) JP4246790B2 (ja)
CN (1) CN101490740B (ja)
WO (1) WO2007141993A1 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010018649A1 (ja) * 2008-08-13 2010-02-18 日本電気株式会社 音声合成システム
WO2010018648A1 (ja) * 2008-08-13 2010-02-18 日本電気株式会社 音声合成システム
JP2012103668A (ja) * 2010-11-08 2012-05-31 Voiceware Co Ltd 使用者の候補合成単位選択による音声合成方法およびシステム(VoiceSynthesizingMethodandSystemBasedonUserDirectedCandidate−UnitSelection)
JP2012163721A (ja) * 2011-02-04 2012-08-30 Toshiba Corp 読み記号列編集装置および読み記号列編集方法
JP2014026222A (ja) * 2012-07-30 2014-02-06 Brother Ind Ltd データ生成装置、及びデータ生成方法
JP2015153294A (ja) * 2014-02-18 2015-08-24 株式会社東芝 情報処理装置及び画像データ送信方法
JP2016105210A (ja) * 2016-03-04 2016-06-09 株式会社東芝 読み記号列編集装置および読み記号列編集方法

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5238205B2 (ja) * 2007-09-07 2013-07-17 ニュアンス コミュニケーションズ,インコーポレイテッド 音声合成システム、プログラム及び方法
JP4455633B2 (ja) * 2007-09-10 2010-04-21 株式会社東芝 基本周波数パターン生成装置、基本周波数パターン生成方法及びプログラム
US20100305949A1 (en) * 2007-11-28 2010-12-02 Masanori Kato Speech synthesis device, speech synthesis method, and speech synthesis program
JP4528839B2 (ja) * 2008-02-29 2010-08-25 株式会社東芝 音素モデルクラスタリング装置、方法及びプログラム
CN101897189B (zh) * 2008-10-10 2016-07-06 松下电器产业株式会社 图像解码装置以及图像解码方法
JP5743625B2 (ja) * 2011-03-17 2015-07-01 株式会社東芝 音声合成編集装置および音声合成編集方法
WO2013018294A1 (ja) * 2011-08-01 2013-02-07 パナソニック株式会社 音声合成装置および音声合成方法
CN103366731B (zh) * 2012-03-31 2019-02-01 上海果壳电子有限公司 语音合成方法及系统
EP2685448B1 (en) * 2012-07-12 2018-09-05 Harman Becker Automotive Systems GmbH Engine sound synthesis
JP6048726B2 (ja) 2012-08-16 2016-12-21 トヨタ自動車株式会社 リチウム二次電池およびその製造方法
JP5726822B2 (ja) * 2012-08-16 2015-06-03 株式会社東芝 音声合成装置、方法及びプログラム
US9401140B1 (en) * 2012-08-22 2016-07-26 Amazon Technologies, Inc. Unsupervised acoustic model training
US9997154B2 (en) 2014-05-12 2018-06-12 At&T Intellectual Property I, L.P. System and method for prosodically modified unit selection databases
JP6483578B2 (ja) * 2015-09-14 2019-03-13 株式会社東芝 音声合成装置、音声合成方法およびプログラム

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09135264A (ja) * 1995-11-08 1997-05-20 Nippon Telegr & Teleph Corp <Ntt> 電子メール通信メディア変換システム
JPH11249676A (ja) * 1998-02-27 1999-09-17 Secom Co Ltd 音声合成装置
JP2001242882A (ja) * 2000-02-29 2001-09-07 Toshiba Corp 音声合成方法及び音声合成装置
JP2002156988A (ja) * 2000-11-21 2002-05-31 Matsushita Electric Ind Co Ltd 情報提供システム及び音声合成装置
JP2002244689A (ja) * 2001-02-22 2002-08-30 Rikogaku Shinkokai 平均声の合成方法及び平均声からの任意話者音声の合成方法
JP2002268660A (ja) * 2001-03-13 2002-09-20 Japan Science & Technology Corp テキスト音声合成方法および装置
JP2003233386A (ja) * 2002-02-08 2003-08-22 Nippon Telegr & Teleph Corp <Ntt> 音声合成方法、音声合成装置および音声合成プログラム
JP2004013122A (ja) * 2002-06-11 2004-01-15 Fujitsu Ltd テキスト読み上げシステム及び方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2636163B1 (fr) * 1988-09-02 1991-07-05 Hamon Christian Procede et dispositif de synthese de la parole par addition-recouvrement de formes d'onde
US6366883B1 (en) * 1996-05-15 2002-04-02 Atr Interpreting Telecommunications Concatenation of speech segments by use of a speech synthesizer
US7027568B1 (en) * 1997-10-10 2006-04-11 Verizon Services Corp. Personal message service with enhanced text to speech synthesis
US20030028380A1 (en) * 2000-02-02 2003-02-06 Freeland Warwick Peter Speech system
US6539354B1 (en) * 2000-03-24 2003-03-25 Fluent Speech Technologies, Inc. Methods and devices for producing and using synthetic visual speech based on natural coarticulation
US7266497B2 (en) * 2002-03-29 2007-09-04 At&T Corp. Automatic segmentation in speech synthesis
CN1217311C (zh) * 2002-04-22 2005-08-31 安徽中科大讯飞信息科技有限公司 分布式语音合成系统
EP1471499B1 (en) * 2003-04-25 2014-10-01 Alcatel Lucent Method of distributed speech synthesis
US7496512B2 (en) * 2004-04-13 2009-02-24 Microsoft Corporation Refining of segmental boundaries in speech waveforms using contextual-dependent models
CN100347741C (zh) * 2005-09-02 2007-11-07 清华大学 移动语音合成方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09135264A (ja) * 1995-11-08 1997-05-20 Nippon Telegr & Teleph Corp <Ntt> 電子メール通信メディア変換システム
JPH11249676A (ja) * 1998-02-27 1999-09-17 Secom Co Ltd 音声合成装置
JP2001242882A (ja) * 2000-02-29 2001-09-07 Toshiba Corp 音声合成方法及び音声合成装置
JP2002156988A (ja) * 2000-11-21 2002-05-31 Matsushita Electric Ind Co Ltd 情報提供システム及び音声合成装置
JP2002244689A (ja) * 2001-02-22 2002-08-30 Rikogaku Shinkokai 平均声の合成方法及び平均声からの任意話者音声の合成方法
JP2002268660A (ja) * 2001-03-13 2002-09-20 Japan Science & Technology Corp テキスト音声合成方法および装置
JP2003233386A (ja) * 2002-02-08 2003-08-22 Nippon Telegr & Teleph Corp <Ntt> 音声合成方法、音声合成装置および音声合成プログラム
JP2004013122A (ja) * 2002-06-11 2004-01-15 Fujitsu Ltd テキスト読み上げシステム及び方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010018649A1 (ja) * 2008-08-13 2010-02-18 日本電気株式会社 音声合成システム
WO2010018648A1 (ja) * 2008-08-13 2010-02-18 日本電気株式会社 音声合成システム
US8606583B2 (en) 2008-08-13 2013-12-10 Nec Corporation Speech synthesis system for generating speech information obtained by converting text into speech
US8620663B2 (en) 2008-08-13 2013-12-31 Nec Corporation Speech synthesis system for generating speech information obtained by converting text into speech
JP5408133B2 (ja) * 2008-08-13 2014-02-05 日本電気株式会社 音声合成システム
JP5408134B2 (ja) * 2008-08-13 2014-02-05 日本電気株式会社 音声合成システム
JP2012103668A (ja) * 2010-11-08 2012-05-31 Voiceware Co Ltd 使用者の候補合成単位選択による音声合成方法およびシステム(VoiceSynthesizingMethodandSystemBasedonUserDirectedCandidate−UnitSelection)
JP2012163721A (ja) * 2011-02-04 2012-08-30 Toshiba Corp 読み記号列編集装置および読み記号列編集方法
JP2014026222A (ja) * 2012-07-30 2014-02-06 Brother Ind Ltd データ生成装置、及びデータ生成方法
JP2015153294A (ja) * 2014-02-18 2015-08-24 株式会社東芝 情報処理装置及び画像データ送信方法
JP2016105210A (ja) * 2016-03-04 2016-06-09 株式会社東芝 読み記号列編集装置および読み記号列編集方法

Also Published As

Publication number Publication date
JPWO2007141993A1 (ja) 2009-10-22
JP4246790B2 (ja) 2009-04-02
CN101490740B (zh) 2012-02-22
US20090254349A1 (en) 2009-10-08
CN101490740A (zh) 2009-07-22

Similar Documents

Publication Publication Date Title
JP4246790B2 (ja) 音声合成装置
US10789290B2 (en) Audio data processing method and apparatus, and computer storage medium
CN108573693B (zh) 文本到语音系统和方法以及其存储介质
JP6434948B2 (ja) 名前発音システム及び方法
JP5768093B2 (ja) 音声処理システム
US7603278B2 (en) Segment set creating method and apparatus
KR20220004737A (ko) 다국어 음성 합성 및 언어간 음성 복제
CN101872615B (zh) 用于分布式文本到话音合成以及可理解性的系统和方法
JP4539537B2 (ja) 音声合成装置,音声合成方法,およびコンピュータプログラム
JP2007249212A (ja) テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ
WO2007033147A1 (en) Methods and apparatus for formant-based voice synthesis
JP2018146803A (ja) 音声合成装置及びプログラム
JPWO2006134736A1 (ja) 音声合成装置、音声合成方法およびプログラム
JP5929909B2 (ja) 韻律生成装置、音声合成装置、韻律生成方法および韻律生成プログラム
CN111465982A (zh) 信号处理设备和方法、训练设备和方法以及程序
CN114242033A (zh) 语音合成方法、装置、设备、存储介质及程序产品
CN110600004A (zh) 一种语音合成播放方法、装置和存储介质
CN115938338A (zh) 语音合成方法、装置、电子设备及可读存储介质
JP6594251B2 (ja) 音響モデル学習装置、音声合成装置、これらの方法及びプログラム
JP2007178686A (ja) 音声変換装置
WO2008056604A1 (fr) Système de collecte de son, procédé de collecte de son et programme de traitement de collecte
JP4758931B2 (ja) 音声合成装置、方法、プログラム及びその記録媒体
CN117854478B (zh) 基于可控文本的语音合成方法、装置和系统
CN115910028A (zh) 语音合成方法、模型生成方法
JP2001350489A (ja) 音声合成装置

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 200780020871.8

Country of ref document: CN

DPE2 Request for preliminary examination filed before expiration of 19th month from priority date (pct application filed from 20040101)
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 07743200

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2008520470

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 12303455

Country of ref document: US

122 Ep: pct application non-entry in european phase

Ref document number: 07743200

Country of ref document: EP

Kind code of ref document: A1

DPE2 Request for preliminary examination filed before expiration of 19th month from priority date (pct application filed from 20040101)