WO2010018648A1 - 音声合成システム - Google Patents

音声合成システム Download PDF

Info

Publication number
WO2010018648A1
WO2010018648A1 PCT/JP2009/002814 JP2009002814W WO2010018648A1 WO 2010018648 A1 WO2010018648 A1 WO 2010018648A1 JP 2009002814 W JP2009002814 W JP 2009002814W WO 2010018648 A1 WO2010018648 A1 WO 2010018648A1
Authority
WO
WIPO (PCT)
Prior art keywords
speech
information
speech unit
identification information
unit
Prior art date
Application number
PCT/JP2009/002814
Other languages
English (en)
French (fr)
Inventor
近藤玲史
加藤正徳
三井康行
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to JP2010524655A priority Critical patent/JP5408133B2/ja
Priority to US13/000,340 priority patent/US8620663B2/en
Publication of WO2010018648A1 publication Critical patent/WO2010018648A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Definitions

  • the present invention relates to a speech synthesis system that executes speech synthesis processing by communication between a server device and a client device.
  • a server device for storing speech unit information representing each of a plurality of speech units included in speech uttered by a user (speech registered user), and converting the character string into speech based on the character string information representing the character string
  • speech synthesis system including a client device that generates the speech information (that is, performs speech synthesis processing) is known (see Patent Document 1).
  • This client device generates speech unit specifying information (for example, information representing phoneme and prosody) that specifies a speech unit based on the input character string information. Then, the client device transmits the generated speech segment specifying information to the server device.
  • speech unit specifying information for example, information representing phoneme and prosody
  • the server device stores speech unit information and speech unit specifying information in advance in association with each other.
  • the server device transmits the speech unit information stored in association with the speech unit identification information received from the client device to the client device. Then, the client device performs speech synthesis processing based on the speech unit information received from the server device.
  • the storage area usable in the client device can be increased.
  • the speech unit identification information representing an integer for identifying the speech unit is used instead of the speech unit specifying information by the client device. It is considered preferable to transmit.
  • the client device stores the speech unit identification information and the speech unit identification information in association with each other in advance, and the server device associates the speech unit identification information with the speech unit information.
  • the server device associates the speech unit identification information with the speech unit information.
  • it is configured to store in advance.
  • the speech unit identification information and the speech unit information are such that the integer represented by the speech unit identification information has an integer that the server device increases by 1 in the order in which the speech units are arranged in the voice. Are stored in association with each other.
  • the server device when a client device used by an unauthorized user transmits a plurality of integers incremented by 1 (that is, continuous integers), the server device includes a plurality of continuous speech segments of the speech. The part is transmitted to the client device while maintaining the order in which the speech segments are arranged in the voice.
  • a portion including a plurality of continuous speech segments among speech uttered by a speech registration user is relatively likely to be acquired by an unauthorized user.
  • the voice is acquired by an unauthorized user, for example, the acquired voice is used in the voice authentication process (voice authentication process), whereby the unauthorized user is authenticated as a voice registered user.
  • voice authentication process voice authentication process
  • the object of the present invention is the above-mentioned problem “the portion including a plurality of continuous speech segments among the speech uttered by the speech registered user is relatively likely to be acquired by an unauthorized user. It is to provide a speech synthesis system capable of solving the problem.
  • a speech synthesis system includes: The system includes a server device and a client device that are communicably connected to each other.
  • the server device When speech unit information representing each of a plurality of speech units included in speech uttered by a speech registration user is arranged in the order in which the speech units are arranged in the speech, each speech unit information is identified.
  • Speech unit information storage means for storing speech unit information and speech unit identification information in association with each other so that at least one of speech unit identification information has information different from information arranged according to a predetermined rule;
  • Speech unit identification information receiving means for receiving the speech unit identification information from the client device;
  • Speech unit information transmitting means for transmitting speech unit information stored in association with the received speech unit identification information to the client device; Is provided.
  • the client device Speech unit identification information storage means for storing speech unit identification information for identifying a speech unit and the speech unit identification information in association with each other; Character string information receiving means for receiving character string information representing a character string; A speech unit that generates speech unit identification information based on the received character string information and transmits speech unit identification information stored in association with the generated speech unit identification information to the server device. Identification information transmitting means; Speech synthesis means for receiving speech unit information from the server device, and generating speech information obtained by converting a character string represented by the received character string information into speech based on the received speech unit information; Is provided.
  • the speech segment providing apparatus is When speech unit information representing each of a plurality of speech units included in speech uttered by a speech registration user is arranged in the order in which the speech units are arranged in the speech, each speech unit information is identified.
  • Speech unit information storage means for storing speech unit information and speech unit identification information in association with each other so that at least one of speech unit identification information has information different from information arranged according to a predetermined rule;
  • Speech unit identification information receiving means for receiving the speech unit identification information;
  • Speech unit information transmitting means for transmitting speech unit information stored in the storage device in association with the received speech unit identification information; Is provided.
  • the speech segment providing method includes: When speech unit information representing each of a plurality of speech units included in speech uttered by a speech registration user is arranged in the order in which the speech units are arranged in the speech, each speech unit information is identified. Storing the speech unit information and the speech unit identification information in association with each other so that at least one of the speech unit identification information includes information different from the information arranged according to a predetermined rule, Receiving the speech unit identification information, In this method, the speech unit information stored in the storage device is transmitted in association with the received speech unit identification information.
  • the speech segment providing program is In the speech segment providing device provided with the storage device, When speech unit information representing each of a plurality of speech units included in speech uttered by a speech registration user is arranged in the order in which the speech units are arranged in the speech, each speech unit information is identified. Speech unit information stored in the storage device in association with speech unit information and speech unit identification information so that at least one of speech unit identification information includes information different from information arranged according to a predetermined rule. Information storage processing means; Speech unit identification information receiving means for receiving the speech unit identification information; Speech unit information transmitting means for transmitting speech unit information stored in the storage device in association with the received speech unit identification information; It is a program for realizing.
  • a speech synthesis method includes: Applied to a speech synthesis system including a server device and a client device that are communicably connected to each other;
  • the client device accepts character string information representing a character string,
  • the client device generates speech unit specifying information for specifying a speech unit based on the received character string information,
  • a storage device for storing speech unit identification information for identifying speech unit information representing a speech unit and speech unit specifying information for specifying a speech unit in association with each other, the storage device provided in the client device
  • the client device transmits the speech unit identification information stored in association with the generated speech unit identification information to the server device,
  • the server device receives the speech unit identification information from the client device, When speech unit information representing each of a plurality of speech units included in speech uttered by a speech registration user is arranged in the order in which the speech units are arranged in the speech, each speech unit information is identified.
  • a storage device that stores speech unit information and speech unit identification information in association with each other so that at least one of speech unit identification information includes information different from information arranged in accordance with a predetermined rule.
  • the server device transmits the speech unit information stored in association with the received speech unit identification information to the storage device included in the device, to the client device,
  • a method in which the client device receives speech unit information from the server device and generates speech information obtained by converting a character string represented by the accepted character string information into speech based on the received speech unit information. is there.
  • a client device is a device that is communicably connected to a server device.
  • this client device When speech unit information representing each of a plurality of speech units included in speech uttered by a speech registration user is arranged in the order in which the speech units are arranged in the speech, each speech unit information is identified.
  • Speech unit identification information storage means for storing the information; Character string information receiving means for receiving character string information representing a character string; A speech unit that generates speech unit identification information based on the received character string information and transmits speech unit identification information stored in association with the generated speech unit identification information to the server device. Identification information transmitting means; Speech synthesis means for receiving speech unit information from the server device, and generating speech information obtained by converting a character string represented by the received character string information into speech based on the received speech unit information; Is provided.
  • a speech synthesis program is To a client device that is communicably connected to the server device, Character string information receiving means for receiving character string information representing a character string; Speech unit identification information is generated based on the received character string information, and speech unit information representing each of a plurality of speech units included in speech uttered by a speech registration user is represented by the speech. Speech elements set such that, when arranged in the order in which the elements are arranged, at least one of the speech element identification information for identifying each speech element information has information different from the information arranged according to a predetermined rule.
  • the speech unit identification information stored in association with the generated speech unit identification information is stored in the storage device that stores the identification information and the speech unit identification information that identifies the speech unit in association with each other.
  • Speech unit identification information transmitting means for transmitting to the server device;
  • Speech synthesis means for receiving speech unit information from the server device, and generating speech information obtained by converting a character string represented by the received character string information into speech based on the received speech unit information;
  • the present invention can reduce the possibility that a portion including a plurality of continuous speech segments among speech uttered by a speech registration user is acquired by an unauthorized user. it can.
  • FIG. 6 is a flowchart showing a process executed by the CPU of the server device according to the first modification of the first embodiment in addition to the voice element information storage processing program shown in FIG. 5. It is a block diagram showing the outline of the function of the speech synthesis system which concerns on the 2nd modification of 1st Embodiment. It is a block diagram showing the outline of the function of the speech synthesis system which concerns on 2nd Embodiment. It is the table memorize
  • the speech synthesis system 1 includes a client device 10 and a server device 20.
  • the client device 10 and the server device (speech segment providing device) 20 are connected to be communicable with each other via a communication line (not shown) (the Internet in this example).
  • the client device 10 is configured to realize functions to be described later when the CPU executes a program stored in the storage device. Further, the client device 10 receives character string information input by the user via the keyboard. The character string information is information representing a character string. Furthermore, the client device 10 displays an image including a character string on the display. In addition, the client device 10 outputs sound from the speaker.
  • the server device 20 includes a central processing unit, a storage device, an input device, and an output device (not shown). Similarly to the client device 10, the server device 20 is also configured to realize functions to be described later when the CPU executes a program stored in the storage device.
  • the function of the client device 10 includes a character string information receiving unit (character string information receiving unit) 11 and a speech unit identification information storage unit (speech unit identification information storage unit, speech unit A segment identification information storage processing unit) 12, a speech unit identification information transmission unit (speech unit identification information transmission unit) 13, and a speech synthesis unit (speech synthesis unit) 14.
  • a character string information receiving unit character string information receiving unit
  • a speech unit identification information storage unit speech unit identification information storage unit, speech unit A segment identification information storage processing unit
  • speech unit identification information transmission unit speech unit identification information transmission unit
  • speech synthesis unit speech synthesis unit
  • the character string information receiving unit 11 receives character string information input by the user.
  • the speech unit identification information storage unit 12 associates speech unit identification information for identifying speech units with speech unit identification information for identifying speech unit information in association with the client. It is stored in the storage device of the device 10.
  • the speech segment is a syllable.
  • the speech element may be a diphone (two single sounds).
  • the diphone is, for example, a sound composed of consonants and vowels (for example, / ka / (ka)) and a sound composed of vowels and vowels (for example, / ai / (eye)).
  • the phoneme segment specifying information includes phoneme information representing phonemes (phonetic symbols) and prosody information representing prosody (pitch pattern (center pitch, etc.), time length).
  • the speech unit identification information is information representing an integer that differs for each speech unit information, as will be described later.
  • the speech unit identification information transmission unit 13 includes a language analysis unit 13a, a prosody generation unit 13b, and a speech unit selection unit 13c.
  • the language analysis unit 13a generates a phoneme string and an accent by performing a language analysis process on the character string represented by the character string information received by the character string information receiving unit 11.
  • the language analysis process includes a process of analyzing a relationship (dependency) between words, a part of speech, and the like, and a process of specifying an accent position in a character string. Examples of language analysis processing are disclosed in Japanese Patent No. 3379643 and Japanese Patent No. 3518340.
  • the prosody generation unit 13b generates prosodic information based on the phoneme string and accent generated by the language analysis unit 13a.
  • the prosodic information is information associated with each phoneme included in the phoneme string, and is information representing the prosody.
  • the prosody represents the pitch and length of the sound (ie, pitch pattern (center pitch (average F0), slope of F0, etc.) and time length). Note that examples of processing for generating prosodic information are disclosed in Japanese Patent No. 3240691 and Japanese Patent No. 3344487.
  • the speech segment selection unit 13c selects phonemes included in the phoneme sequence generated by the language analysis unit 13a for each speech unit in order from the head side in the phoneme sequence.
  • the speech unit selection unit 13c extracts speech unit specification information including phoneme information representing the selected phoneme from the speech unit specification information stored in the storage device by the speech unit identification information storage unit 12. To do.
  • the speech unit selection unit 13c determines speech unit specification information including prosody information closest to the prosody information generated by the prosody generation unit 13b from the extracted speech unit specification information. Then, the speech unit selection unit 13c acquires speech unit identification information stored in association with the determined speech unit identification information.
  • the speech unit identification information transmission unit 13 transmits the speech unit identification information acquired by the speech unit selection unit 13 c to the server device 20.
  • the speech synthesizer 14 receives speech unit information from the server device 20.
  • the speech synthesis unit 14 converts the prosody of the speech unit represented by the speech unit information based on the received speech unit information and the phoneme sequence and prosody information generated by the speech unit identification information transmission unit 13. .
  • the speech synthesizer 14 generates speech information obtained by converting the character string represented by the character string information received by the character string information receiving unit 11 into speech by connecting the converted speech segments (ie, speech Perform synthesis processing).
  • the client device 10 outputs the voice represented by the voice information generated by the voice synthesizer 14 from the speaker.
  • the functions of the server device 20 are a speech unit identification information receiving unit (speech unit identification information receiving unit) 21, a speech unit information storage unit (speech unit information storage unit) 22, and a speech unit information transmission. Part (speech unit information transmitting means) 23.
  • the speech unit identification information receiving unit 21 receives the speech unit identification information transmitted by the client device 10.
  • the speech unit information storage unit 22 accepts speech information representing speech uttered by a speech registration user.
  • the speech unit information storage unit 22 generates speech unit information representing each of the plurality of speech units by dividing the speech represented by the received speech information for each speech unit. As shown in FIG. 3, the speech unit information storage unit 22 stores the generated speech unit information and speech unit identification information representing an integer in association with each other in the storage device of the server device 20.
  • the speech unit information storage unit 22 identifies speech units corresponding to the speech units in the order in which the speech units are arranged in the speech uttered by the speech registration user.
  • speech unit information and speech unit identification information are stored in association with each other so that the integers are arranged at random.
  • the speech unit information storage unit 22 arranges each speech unit when speech unit identification information corresponding to the speech unit is arranged in the order in which the speech units are arranged in the speech uttered by the speech registration user.
  • Speech unit information and at least one of speech unit identification information for identifying unit information has information different from information arranged according to a predetermined rule (in this example, a rule that an integer is incremented by 1); It can be said that the speech unit identification information is stored in association with each other.
  • the speech unit information transmission unit 23 includes speech unit identification information received by the speech unit identification information reception unit 21 from speech unit information stored in the storage device by the speech unit information storage unit 22.
  • the speech unit information stored in association with each other is transmitted to the client device 10.
  • the CPU of the server device 20 executes the speech unit information storage processing program shown by the flowchart in FIG. 5 only once when the server device 20 is activated. Note that the processing of the speech unit information storage processing program corresponds to the speech unit information storage processing step.
  • the CPU when starting the processing of the speech unit information storage processing program, the CPU stands by in step 501 until speech information is input.
  • the CPU determines “Yes” and proceeds to step 502, and divides the voice represented by the input voice information (voice generated by the voice registered user) for each voice unit.
  • speech unit information is generated.
  • step 503 the CPU creates a list composed of the generated speech segment information.
  • This list is a list in which speech unit information representing the speech units is arranged in the order in which the speech units are arranged in the speech uttered by the speech registration user.
  • step 504 the CPU determines whether speech unit information exists in the created list. In this state, since speech unit information exists in the list, the CPU determines “Yes” and proceeds to step 505 to acquire the speech unit information at the head of the list and acquire the acquired speech unit information. Delete fragment information from the list.
  • step 506 the CPU generates only one integer random number (in this example, a pseudorandom number).
  • step 507 the CPU determines whether or not the generated random number is already stored in the storage device of the server device 20 as speech unit identification information.
  • the CPU determines “Yes” and returns to step 506 to generate the random number again. That is, the CPU repeatedly generates random numbers until a random number that is not yet stored in the storage device is generated as speech unit identification information.
  • the CPU makes a “No” determination at step 507 to proceed to step 508. Then, the CPU associates the speech unit information acquired in step 505 with the random number acquired in step 506 as speech unit identification information, and stores it in the storage device of the server device 20. .
  • step 504 the CPU returns to step 504, and repeatedly executes the processing from step 504 to step 508 described above until there is no speech unit information in the list.
  • the CPU makes a “No” determination at step 504 to proceed to step 509, and the speech unit newly stored in the storage device at step 508.
  • Speech unit identification information (phoneme information, prosodic information, etc.) that identifies the speech unit represented by the piece information is generated.
  • the CPU specifies the speech unit identification information newly stored in the storage device in step 508 and the speech unit represented by the speech unit information stored in association with the speech unit identification information. And the speech unit identification information to be transmitted to the client device 10 in association with each other.
  • the client device 10 when the client device 10 receives the speech unit identification information and the speech unit identification information from the server device 20, the client device 10 stores the received speech unit identification information and the speech unit identification information in association with each other. Store in the device (see FIG. 2).
  • step 501 the CPU returns to step 501 and repeatedly executes the processing from step 501 to step 509 described above.
  • the server device 20 executes the speech unit information storage processing program and the speech information representing the speech illustrated in FIG. 4 is input, the server device 20 is configured as illustrated in FIG.
  • the speech unit information and the speech unit identification information are stored in the storage device in association with each other.
  • a user speech synthesis user of the client device 10 inputs character string information to the client device 10 using a keyboard.
  • the client device 10 receives the input character string information (step A1).
  • the client device 10 generates speech segment specifying information (phoneme information, prosodic information, etc.) based on the received character string information (step A2).
  • the client device 10 acquires the speech unit identification information stored in the storage device of the client device 10 in association with the generated speech unit specifying information (step A3).
  • the client device 10 transmits the acquired speech segment identification information to the server device 20 (step A4).
  • the server device 20 receives the speech unit identification information transmitted by the client device 10 (speech unit identification information receiving step). Then, the server device 20 acquires the speech unit information stored in the storage device of the server device 20 in association with the received speech unit identification information (step B1). Next, the server device 20 transmits the acquired speech unit information to the client device 10 (step B2, speech unit information transmission step).
  • the client device 10 receives the speech unit information from the server device 20. Based on the received speech segment information, the client device 10 generates speech information obtained by converting the character string represented by the received character string information into speech (executes speech synthesis processing) (step A5). Thereafter, the client device 10 outputs the sound represented by the generated sound information from the speaker.
  • the client device 10 used by an unauthorized user has speech unit identification information (for example, incremented by 1) arranged in accordance with the rules.
  • speech unit identification information for example, incremented by 1
  • the server device 20 uses a portion including a plurality of continuous speech segments of the speech uttered by the voice registered user as a client. Transmission to the device 10 can be prevented. Therefore, it is possible to reduce the possibility that a portion including a plurality of continuous speech segments among the speech uttered by the speech registration user is acquired by an unauthorized user.
  • the speech synthesis system according to the first modification is stored in association with speech unit information representing each of two speech units similar to each other with respect to the speech synthesis system according to the first embodiment.
  • the difference is that the integer represented by the speech unit identification information is configured to be a continuous integer. Accordingly, the following description will focus on such differences.
  • the server device 20 instead of the speech unit information storage processing program shown in FIG. 5, the server device 20 according to this modification performs the processing of steps 701 to 704 shown in FIG. 7 immediately after the processing of step 508 of this program. Execute the added program.
  • the CPU of the server device 20 executes the process of step 508, and then proceeds to step 701, where speech unit information representing a speech unit similar to the speech unit represented by the speech unit information acquired in step 505 is displayed. Is present in the list created in step 503.
  • the CPU determines a match rate between the speech unit represented by the acquired speech unit information and the speech unit represented by the speech unit information included in the list (an index indicating the degree to which both are matched). Value) according to a predetermined algorithm. Then, the CPU determines whether or not speech unit information in which the calculated matching rate is higher than a predetermined threshold exists in the list.
  • the CPU makes a “No” determination at step 701 to step 504. move on.
  • the CPU makes a “Yes” determination at step 701 to determine the step. Proceed to 702.
  • the CPU extracts speech unit information representing a speech unit similar to the speech unit represented by the acquired speech unit information from the list.
  • the CPU associates the extracted speech unit information with the value obtained by adding 1 to the random number generated in step 506 as the speech unit identification information. Store in a storage device.
  • step 704 the CPU deletes the extracted speech segment information from the list. Then, the CPU proceeds to step 504.
  • the integer represented by the speech unit identification information corresponding to one of the two speech units similar to each other is represented by the speech unit identification information corresponding to the other of the two speech units.
  • the speech unit information and speech unit identification information are associated with each other and stored in the storage device so as to be a value obtained by adding 1 to an integer.
  • the client device 10 used by an unauthorized user transmits a continuous integer to the server device 20.
  • the server device 20 transmits speech unit information representing each of two speech units similar to each other.
  • a speech synthesis system according to a second modification of the first embodiment will be described.
  • the server device 20 receives speech unit identification information that is not stored in the storage device, an error occurs in the speech synthesis system according to the first embodiment. It is different in that it is configured to block communication with a device that outputs information and transmits the speech unit identification information. Accordingly, the following description will focus on such differences.
  • the speech unit information transmission unit 23 of the server device 20 according to the second modification includes an error information output unit (error information output unit) 23a and a communication cutoff unit (communication cutoff unit). 23b.
  • the error information output unit 23a When the speech unit identification information received from the client device 10 is not stored in the storage device, the error information output unit 23a outputs error information indicating that fact (displayed on the display and / or in the log file). Write out). According to this, the administrator of the server device 20 can immediately recognize that there is a client device 10 that is attempting to illegally acquire speech segment information. As a result, the administrator can quickly take action according to this situation.
  • the communication blocking unit 23b blocks communication with the client device 10 when the speech unit identification information received from the client device 10 is not stored in the storage device. According to this, it is possible to prevent the server device 20 from transmitting the speech unit information to the client device 10 that is about to acquire the speech unit information illegally.
  • the speech unit information transmission unit 23 includes both the error information output unit 23a and the communication cutoff unit 23b, but may include only one of them.
  • the server device 20 stores low-quality speech unit information and high-quality speech unit information in the speech synthesis system according to the first embodiment.
  • the server device 20 is configured to perform speech synthesis processing based on high-quality speech segment information in response to a request from the user (speech synthesis user) and transmit the generated speech information to the client device 10. It is different in point. Accordingly, the following description will focus on such differences.
  • the function of the client device 10 includes a character string information transmitting unit in addition to the character string information receiving unit 11 to the voice synthesizing unit 14 similar to the function of the client device 10 according to the first embodiment.
  • (Character string information transmitting means) 15 and a voice information receiving unit (voice information receiving means) 16 are included.
  • the character string information transmitting unit 15 transmits the character string information received by the character string information receiving unit 11 to the server device 20.
  • the audio information receiving unit 16 receives the audio information transmitted by the server device 20.
  • the function of the server device 20 includes a character string information receiving unit (in addition to the speech unit identification information receiving unit 21 to the speech unit information transmitting unit 23 similar to the function of the server device 20 according to the first embodiment.
  • Character string information receiving means 24, speech segment information obtaining unit (part of speech synthesizing means) 25, speech synthesizing part (part of speech synthesizing means) 26, and speech information transmitting part (speech information transmitting means) 27.
  • the server device 20 stores the speech unit identification information and the speech unit identification information in association with each other in the storage device of the server device 20.
  • the speech unit information storage unit 22 includes speech unit identification information representing an integer, low sound quality low speech unit information (first speech unit information), low High sound quality speech unit information (second speech unit information) having higher sound quality than the sound quality speech unit information is associated with and stored in the storage device of the server device 20.
  • the low sound quality speech unit information and the high sound quality speech unit information stored in association with each other are information representing the same speech unit.
  • the low sound quality speech segment information is information representing a speech segment extracted from speech with a sampling frequency of 8 kHz
  • the high sound quality speech segment information is extracted from speech with a sampling frequency of 44 kHz.
  • This is information indicating the speech unit. That is, it can be said that the high sound quality speech element information is higher sound quality information than the low sound quality sound element information.
  • the low sound quality speech unit information has a smaller data amount (data size) than the high sound quality speech unit information.
  • the low sound quality speech unit information may be information having a high compression rate
  • the high sound quality speech unit information may be information having a compression rate lower than that of the low sound quality speech unit information.
  • the speech unit information storage unit 22 stores speech unit identification information corresponding to the speech units in the order in which the speech units are arranged in the speech uttered by the speech registration user.
  • the speech unit information first speech unit information and second speech unit information
  • the speech unit identification information are associated with each other so that the integers are randomly arranged.
  • the data is stored in the storage device of the device 20.
  • the character string information receiving unit 24 receives character string information transmitted by the client device 10.
  • the speech unit information acquisition unit 25 has the same functions as the language analysis unit 13a, prosody generation unit 13b, and speech unit selection unit 13c, which are functions of the client device 10 according to the first embodiment.
  • the speech unit information acquisition unit 25 generates speech unit specifying information including phoneme information and prosodic information based on the character string represented by the character string information received by the character string information receiving unit 24. Then, the speech unit information acquisition unit 25 acquires speech unit identification information stored in the storage device of the server device 20 in association with the generated speech unit identification information.
  • the voice synthesizer 26 has the same function as the voice synthesizer 14. That is, the speech synthesizer 26 performs speech synthesis processing based on the speech unit information acquired by the speech unit information acquisition unit 25.
  • the voice information transmission unit 27 transmits the voice information generated by the voice synthesis unit 26 to the client device 10.
  • the operation of the speech synthesis system 1 when the user of the client device 10 (speech synthesis user) requests execution of a low-quality speech synthesis process (for example, the speech synthesis user requests execution of a low-quality speech synthesis process).
  • the operation is the same as in the first embodiment described above.
  • the client device 10 acquires the speech unit identification information based on the character string information input by the speech synthesis user, and transmits the acquired speech unit identification information to the server device 20.
  • the server device 20 receives the speech unit identification information from the client device 10 and transmits to the client device 10 the low-quality speech unit information stored in association with the received speech unit identification information.
  • the client device 10 receives the low-quality speech unit information from the server device 20, and executes speech synthesis processing based on the received low-quality speech unit information. Then, the client device 10 outputs the voice represented by the generated voice information from the speaker.
  • the client device 10 transmits the received character string information to the server device 20 as shown in FIG. A12).
  • the server device 20 receives the character string information transmitted by the client device 10. And the server apparatus 20 produces
  • the server device 20 acquires the speech unit identification information stored in the storage device of the server device 20 in association with the generated speech unit identification information (step B12). Next, the server device 20 acquires high-quality speech unit information stored in the storage device in association with the acquired speech unit identification information (step B13).
  • the server device 20 performs a speech synthesis process based on the acquired high-quality speech unit information (step B14).
  • the server device 20 transmits the generated voice information to the client device 10 (step B15).
  • the client apparatus 10 receives the audio
  • the speech synthesis system 1 is required to promptly transmit speech segment information and / or reduce the communication load.
  • the speech synthesis process is executed based on the low sound quality speech unit information (first speech unit information)
  • the sound quality of the generated speech information is required to be high.
  • the speech synthesis process can be executed based on the high sound quality speech unit information (second speech unit information).
  • a speech synthesis system 100 according to the third embodiment is a system including a server device 110 and a client device 120 that are connected to be communicable with each other.
  • the functions of the server device 110 are a speech unit information storage unit (speech unit information storage unit) 111, a speech unit identification information reception unit (speech unit identification information reception unit) 112, and a speech unit information transmission unit ( Speech unit information transmission means) 113.
  • speech unit information storage unit speech unit information storage unit
  • speech unit identification information reception unit speech unit identification information reception unit
  • speech unit information transmission unit Speech unit information transmission means
  • the speech unit information storage unit 111 arranges speech unit information representing each of a plurality of speech units included in speech uttered by a speech registration user according to the order in which the speech units are arranged in the speech.
  • the speech unit information and the speech unit identification information are associated with each other so that at least one of the speech unit identification information for identifying each speech unit information has information different from the information arranged according to a predetermined rule.
  • the speech unit identification information receiving unit 112 receives the speech unit identification information from the client device 120.
  • the speech unit information transmission unit 113 transmits the speech unit information stored in the speech unit information storage unit 111 in association with the received speech unit identification information to the client device 120.
  • the functions of the client device 120 include a speech unit identification information storage unit (speech unit identification information storage unit) 121, a character string information reception unit (character string information reception unit) 122, and a speech unit identification information transmission unit. (Speech unit identification information transmission means) 123 and a speech synthesis unit (speech synthesis means) 124 are included.
  • the speech unit identification information storage unit 121 stores speech unit identification information that identifies a speech unit and the speech unit identification information in association with each other.
  • the character string information receiving unit 122 receives character string information representing a character string.
  • the speech unit identification information transmitting unit 123 generates speech unit specifying information based on the character string information received by the character string information receiving unit 122, and associates the generated speech unit specifying information with the generated speech unit specifying information.
  • the speech unit identification information stored in the identification information storage unit 121 is transmitted to the server device 110.
  • the speech synthesizer 124 receives the speech unit information from the server device 110, and converts the character string represented by the character string information received by the character string information reception unit 122 into speech based on the received speech unit information. Audio information is generated.
  • the client device used by an unauthorized user sets the speech unit identification information (for example, a plurality of integers increased by 1 (ie, consecutive integers) arranged in accordance with the rules) to the server device. Even when it is transmitted to 110, it is possible to prevent the server device 110 from transmitting a portion including a plurality of continuous speech segments among the speech uttered by the user (speech registered user) to the client device. . Therefore, it is possible to reduce the possibility that a portion including a plurality of continuous speech segments among the speech uttered by the speech registration user is acquired by an unauthorized user.
  • the speech unit identification information for example, a plurality of integers increased by 1 (ie, consecutive integers) arranged in accordance with the rules
  • the speech unit identification information is information representing an integer
  • the speech unit information storage means when the integers represented by the speech unit identification information corresponding to the speech units are arranged in the order in which the speech units are arranged in the speech, the integers are adjacent to each other.
  • the speech unit information and the speech unit identification information are associated with each other so as to include a set of two integers in which the last integer has a value different from the value obtained by adding 1 to the leading integer. It is preferably configured to store.
  • the speech unit information storage means arranges the integers represented by the speech unit identification information corresponding to the speech units in the order in which the speech units are arranged in the speech, the integers are random. It is preferable that the speech unit information and the speech unit identification information are stored in association with each other so as to line up with each other.
  • a client device used by an unauthorized user transmits a continuous integer to the server device
  • a portion including a plurality of continuous speech segments among the speech uttered by the speech registration user is represented by the server device.
  • the speech unit information storage means has a speech unit identification in which an integer represented by speech unit identification information corresponding to one of two speech units similar to each other corresponds to the other of the two speech units. It is preferable that the speech unit information and the speech unit identification information are stored in association with each other so that a value obtained by adding 1 to the integer represented by the information is obtained.
  • the server device transmits speech unit information representing each of two speech units similar to each other.
  • voice will be guessed by an unauthorized user based on the audio
  • the server device When the speech unit identification information received from the client device is not stored in the speech unit information storage unit, it is preferable to include an error information output unit that outputs error information indicating that fact.
  • the server device When the speech unit identification information received from the client device is not stored by the speech unit information storage unit, it is preferable to include a communication blocking unit that blocks communication with the client device.
  • the speech unit information storage means includes the first speech unit information of low sound quality and the higher sound quality than the first speech unit information as the speech unit information representing one speech unit. It is preferable that each of the second speech element information is stored.
  • Low sound quality speech unit information has a smaller data volume (data size) than high sound quality speech unit information. Therefore, according to the above configuration, the speech synthesis system is based on the first speech unit information with low sound quality when prompt transmission of speech unit information and / or reduction of communication load is required. On the other hand, when the sound quality of the generated voice information is required to be high, the voice synthesis process is executed based on the high-quality second voice element information. be able to. Thereby, the convenience of the user (speech synthesis user) who uses the client device can be improved.
  • the client device Character string information transmitting means for transmitting the accepted character string information to the server device;
  • Voice information receiving means for receiving voice information transmitted from the server device;
  • the server device is Character string information receiving means for receiving character string information transmitted from the client device;
  • Speech synthesis means for generating speech information obtained by converting a character string represented by the received character string information into speech based on the received character string information and the stored second speech segment information.
  • Audio information transmitting means for transmitting the generated audio information to the client device; Is preferably provided.
  • the speech segment providing apparatus is When speech unit information representing each of a plurality of speech units included in speech uttered by a speech registration user is arranged in the order in which the speech units are arranged in the speech, each speech unit information is identified.
  • Speech unit information storage means for storing speech unit information and speech unit identification information in association with each other so that at least one of speech unit identification information has information different from information arranged according to a predetermined rule;
  • Speech unit identification information receiving means for receiving the speech unit identification information;
  • Speech unit information transmitting means for transmitting speech unit information stored in the storage device in association with the received speech unit identification information; Is provided.
  • the speech unit identification information is information representing an integer
  • the speech unit information storage means when the integers represented by the speech unit identification information corresponding to the speech units are arranged in the order in which the speech units are arranged in the speech, the integers are adjacent to each other.
  • the speech unit information and the speech unit identification information are associated with each other so as to include a set of two integers in which the last integer has a value different from the value obtained by adding 1 to the leading integer. It is preferably configured to store.
  • the speech unit information storage means arranges the integers represented by the speech unit identification information corresponding to the speech units in the order in which the speech units are arranged in the speech, the integers are random. It is preferable that the speech unit information and the speech unit identification information are stored in association with each other so as to line up with each other.
  • the speech segment providing method includes: When speech unit information representing each of a plurality of speech units included in speech uttered by a speech registration user is arranged in the order in which the speech units are arranged in the speech, each speech unit information is identified. Storing the speech unit information and the speech unit identification information in association with each other so that at least one of the speech unit identification information includes information different from the information arranged according to a predetermined rule, Receiving the speech unit identification information, In this method, the speech unit information stored in the storage device is transmitted in association with the received speech unit identification information.
  • the speech unit identification information is information representing an integer
  • the speech segment providing method is as follows: When the speech unit information and the speech unit identification information are associated with each other and stored in the storage device, the speech unit identification information corresponding to the speech unit is arranged in the order in which the speech units are arranged in the speech.
  • the integers represented by are arranged, the integer includes a pair of two adjacent integers, and the trailing integer includes a pair having a value different from the value obtained by adding 1 to the leading integer. It is preferable that the speech unit information and the speech unit identification information are associated with each other and stored in the storage device.
  • the speech segment providing method is as follows: When the speech unit information and the speech unit identification information are associated with each other and stored in the storage device, the speech unit identification information corresponding to the speech unit is arranged in the order in which the speech units are arranged in the speech. When the integers represented by are arranged, the speech unit information and the speech unit identification information are associated with each other and stored in the storage device so that the integers are randomly arranged. is there.
  • the speech segment providing program is In the speech segment providing device provided with the storage device, When speech unit information representing each of a plurality of speech units included in speech uttered by a speech registration user is arranged in the order in which the speech units are arranged in the speech, each speech unit information is identified. Speech unit information stored in the storage device in association with speech unit information and speech unit identification information so that at least one of speech unit identification information includes information different from information arranged according to a predetermined rule. Information storage processing means; Speech unit identification information receiving means for receiving the speech unit identification information; Speech unit information transmitting means for transmitting speech unit information stored in the storage device in association with the received speech unit identification information; It is a program for realizing.
  • the speech unit identification information is information representing an integer
  • the speech unit information storage processing means arranges the integers represented by the speech unit identification information corresponding to the speech units in the order in which the speech units are arranged in the speech, the integers are adjacent to each other.
  • Associating the speech unit information with the speech unit identification information so as to include a pair of two integers in which the last integer has a value different from the value obtained by adding 1 to the leading integer. It is preferable to be configured to store the data in the storage device.
  • the speech unit information storage processing means arranges the integers represented by the speech unit identification information corresponding to the speech units in the order in which the speech units are arranged in the speech. It is preferable that the speech unit information and the speech unit identification information are associated with each other and stored in the storage device so as to be randomly arranged.
  • a speech synthesis method includes: Applied to a speech synthesis system including a server device and a client device that are communicably connected to each other;
  • the client device accepts character string information representing a character string,
  • the client device generates speech unit specifying information for specifying a speech unit based on the received character string information,
  • a storage device for storing speech unit identification information for identifying speech unit information representing a speech unit and speech unit specifying information for specifying a speech unit in association with each other, the storage device provided in the client device
  • the client device transmits the speech unit identification information stored in association with the generated speech unit identification information to the server device,
  • the server device receives the speech unit identification information from the client device, When speech unit information representing each of a plurality of speech units included in speech uttered by a speech registration user is arranged in the order in which the speech units are arranged in the speech, each speech unit information is identified.
  • a storage device that stores speech unit information and speech unit identification information in association with each other so that at least one of speech unit identification information includes information different from information arranged in accordance with a predetermined rule.
  • the server device transmits the speech unit information stored in association with the received speech unit identification information to the storage device included in the device, to the client device,
  • a method in which the client device receives speech unit information from the server device and generates speech information obtained by converting a character string represented by the accepted character string information into speech based on the received speech unit information. is there.
  • the speech unit identification information is information representing an integer
  • the server device associates the speech unit information with the speech unit identification information and stores them in the storage device, the speech corresponding to the speech units in the order in which the speech units are arranged in the speech
  • the integers represented by the unit identification information are arranged, the integer includes a pair of two adjacent integers, and the trailing integer has a value different from the value obtained by adding 1 to the leading integer.
  • the speech unit information and the speech unit identification information are associated with each other and stored in the storage device.
  • the speech synthesis method is When the server device associates the speech unit information with the speech unit identification information and stores them in the storage device, the speech corresponding to the speech units in the order in which the speech units are arranged in the speech When the integers represented by the unit identification information are arranged, the speech unit information and the speech unit identification information are associated with each other and stored in the storage device so that the integers are arranged at random. Is preferred.
  • a client device is a device that is communicably connected to a server device.
  • this client device When speech unit information representing each of a plurality of speech units included in speech uttered by a speech registration user is arranged in the order in which the speech units are arranged in the speech, each speech unit information is identified.
  • Speech unit identification information storage means for storing the information; Character string information receiving means for receiving character string information representing a character string; A speech unit that generates speech unit identification information based on the received character string information and transmits speech unit identification information stored in association with the generated speech unit identification information to the server device. Identification information transmitting means; Speech synthesis means for receiving speech unit information from the server device, and generating speech information obtained by converting a character string represented by the received character string information into speech based on the received speech unit information; Is provided.
  • the speech unit identification information is information representing an integer
  • the integers represented by the speech unit identification information corresponding to the speech unit are arranged in the order in which the speech units are arranged in the speech.
  • the integer is set so as to include a pair of two adjacent integers, and the tail integer has a value different from the value obtained by adding 1 to the leading integer.
  • the speech unit identification information when the speech unit identification information is arranged in the order in which the speech units are arranged in the speech, the integers represented by the speech unit identification information corresponding to the speech units are arranged, the integers are randomly selected. It is preferable to set them so that they line up.
  • a speech synthesis program is To a client device that is communicably connected to the server device, Character string information receiving means for receiving character string information representing a character string; Speech unit identification information is generated based on the received character string information, and speech unit information representing each of a plurality of speech units included in speech uttered by a speech registration user is represented by the speech. Speech elements set such that, when arranged in the order in which the elements are arranged, at least one of the speech element identification information for identifying each speech element information has information different from the information arranged according to a predetermined rule.
  • the speech unit identification information stored in association with the generated speech unit identification information is stored in the storage device that stores the identification information and the speech unit identification information that identifies the speech unit in association with each other.
  • Speech unit identification information transmitting means for transmitting to the server device;
  • Speech synthesis means for receiving speech unit information from the server device, and generating speech information obtained by converting a character string represented by the received character string information into speech based on the received speech unit information; It is a program for realizing.
  • the speech unit identification information is information representing an integer
  • the integers represented by the speech unit identification information corresponding to the speech unit are arranged in the order in which the speech units are arranged in the speech.
  • the integer is set so as to include a pair of two adjacent integers, and the tail integer has a value different from the value obtained by adding 1 to the leading integer.
  • the speech unit identification information when the speech unit identification information is arranged in the order in which the speech units are arranged in the speech, the integers represented by the speech unit identification information corresponding to the speech units are arranged, the integers are randomly selected. It is preferable to set them so that they line up.
  • the server device 20 arranges the integers represented by the speech unit identification information corresponding to the speech units in the order in which the speech units are arranged in the speech uttered by the speech registration user.
  • speech unit information and speech unit identification information are stored in association with each other so that the integers are arranged at random.
  • the client device 10 used by an unauthorized user transmits a continuous integer to the server device 20
  • a plurality of continuous speech segments among the speech uttered by the speech registered user are used. It is possible to prevent the server device 20 from transmitting the included portion to the client device 10. Therefore, it is possible to reduce the possibility that a portion including a plurality of continuous speech segments among the speech uttered by the speech registration user is acquired by an unauthorized user.
  • the speech unit identification information is an integer, but may be a real number or a character string.
  • the integer represented by the speech unit identification information is an integer represented by a decimal number, but is an integer represented by an N-ary number (N is a number other than 10). Also good.
  • the speech unit information may be information representing the speech unit by a waveform, and the speech unit is represented by a parameter (for example, a PARCOR coefficient (Partial Auto-correlation Coefficient)). It may be information.
  • a parameter for example, a PARCOR coefficient (Partial Auto-correlation Coefficient)
  • the speech unit information includes speech information representing speech uttered by the speech registration user and position information representing the start position and end position of the speech unit in the speech. It may be configured.
  • each of the above embodiments there is only one speech unit identification information stored in association with one speech unit information, but there may be a plurality of speech unit identification information.
  • each said embodiment was comprised so that the character string information input by the user might be received, it may be comprised so that the character string information memorize
  • the character string information may be received.
  • the present invention can be applied to a speech synthesis system that executes speech synthesis processing through communication between a server device and a client device.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)

Abstract

 この音声合成システム100は、サーバ装置110とクライアント装置120とを含む。サーバ装置は、音声登録ユーザが発した音声に含まれる複数の音声素片のそれぞれを表す音声素片情報を、当該音声にて各音声素片が並ぶ順に従って並べた場合に、各音声素片情報を識別する音声素片識別情報の少なくとも1つが、所定の規則に従って並べられた情報と異なる情報を有するように、音声素片情報と音声素片識別情報とを対応付けて記憶する(111)。クライアント装置は、受け付けられた文字列情報に基づいて音声素片識別情報をサーバ装置へ送信する(123)。クライアント装置は、サーバ装置から受信した音声素片情報に基づいて音声合成処理を行う(124)。

Description

音声合成システム
 本発明は、サーバ装置とクライアント装置とが通信を行うことにより音声合成処理を実行する音声合成システムに関する。
 ユーザ(音声登録ユーザ)が発した音声に含まれる複数の音声素片のそれぞれを表す音声素片情報を記憶するサーバ装置と、文字列を表す文字列情報に基づいてその文字列を音声に変換した音声情報を生成する(即ち、音声合成処理を行う)クライアント装置と、を含む音声合成システムが知られている(特許文献1を参照)。
 このクライアント装置は、入力された文字列情報に基づいて音声素片を特定する音声素片特定情報(例えば、音韻及び韻律を表す情報)を生成する。そして、クライアント装置は、生成した音声素片特定情報をサーバ装置へ送信する。
 サーバ装置は、音声素片情報と音声素片特定情報とを対応付けて予め記憶している。サーバ装置は、クライアント装置から受信した音声素片特定情報と対応付けて記憶されている音声素片情報を、そのクライアント装置へ送信する。そして、クライアント装置は、サーバ装置から受信した音声素片情報に基づいて音声合成処理を行う。
 この音声合成システムによれば、クライアント装置が音声素片情報を記憶しておく必要がないので、クライアント装置において使用可能な記憶領域を増加させることができる。
特開2003-233386号公報
 ところで、クライアント装置からサーバ装置へ送信される情報量を減少させるためには、クライアント装置が、音声素片特定情報に代えて、音声素片を識別するための整数を表す音声素片識別情報を送信することが好適であると考えられる。
 この場合、例えば、音声合成システムは、クライアント装置が音声素片特定情報と音声素片識別情報とを対応付けて予め記憶するとともに、サーバ装置が音声素片識別情報と音声素片情報とを対応付けて予め記憶するように構成される。
 この場合において、サーバ装置が、音声にて各音声素片が並ぶ順に従って1ずつ増加させた整数を、音声素片識別情報が表す整数が有するように、音声素片識別情報と音声素片情報とを対応付けて記憶している場合を想定する。この場合、不正なユーザが使用するクライアント装置が、1ずつ増加させた複数の整数(即ち、連続する整数)を送信すると、サーバ装置は、上記音声のうちの連続する複数の音声素片を含む部分を、その音声にて音声素片が並ぶ順序を維持したまま、クライアント装置へ送信してしまう。
 従って、このような場合、音声登録ユーザが発した音声のうちの連続する複数の音声素片を含む部分が、不正なユーザにより取得される可能性が比較的高いという問題があった。不正なユーザにより上記音声が取得された場合には、例えば、音声による認証処理(音声認証処理)において、取得された音声が使用されることにより、不正なユーザが音声登録ユーザとして認証されてしまう虞がある。
 このため、本発明の目的は、上述した課題である「音声登録ユーザが発した音声のうちの連続する複数の音声素片を含む部分が、不正なユーザにより取得される可能性が比較的高いこと」を解決することが可能な音声合成システムを提供することにある。
 かかる目的を達成するため本発明の一形態である音声合成システムは、
 互いに通信可能に接続されたサーバ装置及びクライアント装置を含むシステムである。
 更に、上記サーバ装置は、
 音声登録ユーザが発した音声に含まれる複数の音声素片のそれぞれを表す音声素片情報を、当該音声にて各音声素片が並ぶ順に従って並べた場合に、各音声素片情報を識別する音声素片識別情報の少なくとも1つが、所定の規則に従って並べられた情報と異なる情報を有するように、音声素片情報と音声素片識別情報とを対応付けて記憶する音声素片情報記憶手段と、
 上記クライアント装置から上記音声素片識別情報を受信する音声素片識別情報受信手段と、
 上記受信された音声素片識別情報に対応付けて記憶されている音声素片情報を上記クライアント装置へ送信する音声素片情報送信手段と、
 を備える。
 加えて、上記クライアント装置は、
 音声素片を特定する音声素片特定情報と、上記音声素片識別情報と、を対応付けて記憶する音声素片識別情報記憶手段と、
 文字列を表す文字列情報を受け付ける文字列情報受付手段と、
 上記受け付けられた文字列情報に基づいて音声素片特定情報を生成し、当該生成した音声素片特定情報と対応付けて記憶されている音声素片識別情報を上記サーバ装置へ送信する音声素片識別情報送信手段と、
 上記サーバ装置から音声素片情報を受信し、当該受信した音声素片情報に基づいて、上記受け付けられた文字列情報が表す文字列を音声に変換した音声情報を生成する音声合成手段と、
 を備える。
 また、本発明の他の形態である音声素片提供装置は、
 音声登録ユーザが発した音声に含まれる複数の音声素片のそれぞれを表す音声素片情報を、当該音声にて各音声素片が並ぶ順に従って並べた場合に、各音声素片情報を識別する音声素片識別情報の少なくとも1つが、所定の規則に従って並べられた情報と異なる情報を有するように、音声素片情報と音声素片識別情報とを対応付けて記憶する音声素片情報記憶手段と、
 上記音声素片識別情報を受信する音声素片識別情報受信手段と、
 上記受信された音声素片識別情報に対応付けて上記記憶装置に記憶されている音声素片情報を送信する音声素片情報送信手段と、
 を備える。
 また、本発明の他の形態である音声素片提供方法は、
 音声登録ユーザが発した音声に含まれる複数の音声素片のそれぞれを表す音声素片情報を、当該音声にて各音声素片が並ぶ順に従って並べた場合に、各音声素片情報を識別する音声素片識別情報の少なくとも1つが、所定の規則に従って並べられた情報と異なる情報を有するように、音声素片情報と音声素片識別情報とを対応付けて記憶装置に記憶させ、
 上記音声素片識別情報を受信し、
 上記受信された音声素片識別情報に対応付けて上記記憶装置に記憶されている音声素片情報を送信する方法である。
 また、本発明の他の形態である音声素片提供プログラムは、
 記憶装置を備える音声素片提供装置に、
 音声登録ユーザが発した音声に含まれる複数の音声素片のそれぞれを表す音声素片情報を、当該音声にて各音声素片が並ぶ順に従って並べた場合に、各音声素片情報を識別する音声素片識別情報の少なくとも1つが、所定の規則に従って並べられた情報と異なる情報を有するように、音声素片情報と音声素片識別情報とを対応付けて上記記憶装置に記憶させる音声素片情報記憶処理手段と、
 上記音声素片識別情報を受信する音声素片識別情報受信手段と、
 上記受信された音声素片識別情報に対応付けて上記記憶装置に記憶されている音声素片情報を送信する音声素片情報送信手段と、
 を実現させるためのプログラムである。
 また、本発明の他の形態である音声合成方法は、
 互いに通信可能に接続されたサーバ装置及びクライアント装置を含む音声合成システムに適用され、
 上記クライアント装置が、文字列を表す文字列情報を受け付け、
 上記クライアント装置が、音声素片を特定する音声素片特定情報を、上記受け付けられた文字列情報に基づいて生成し、
 音声素片を表す音声素片情報を識別する音声素片識別情報と、音声素片を特定する音声素片特定情報と、を対応付けて記憶する記憶装置であって上記クライアント装置が備える記憶装置に、上記生成した音声素片特定情報と対応付けて記憶されている音声素片識別情報を、当該クライアント装置が上記サーバ装置へ送信し、
 上記サーバ装置が上記クライアント装置から上記音声素片識別情報を受信し、
 音声登録ユーザが発した音声に含まれる複数の音声素片のそれぞれを表す音声素片情報を、当該音声にて各音声素片が並ぶ順に従って並べた場合に、各音声素片情報を識別する音声素片識別情報の少なくとも1つが、所定の規則に従って並べられた情報と異なる情報を有するように、音声素片情報と音声素片識別情報とを対応付けて記憶する記憶装置であって上記サーバ装置が備える記憶装置に、上記受信された音声素片識別情報と対応付けて記憶されている音声素片情報を、当該サーバ装置が上記クライアント装置へ送信し、
 上記クライアント装置が上記サーバ装置から音声素片情報を受信し、当該受信した音声素片情報に基づいて、上記受け付けられた文字列情報が表す文字列を音声に変換した音声情報を生成する方法である。
 また、本発明の他の形態であるクライアント装置は、サーバ装置と通信可能に接続された装置である。
 更に、このクライアント装置は、
 音声登録ユーザが発した音声に含まれる複数の音声素片のそれぞれを表す音声素片情報を、当該音声にて各音声素片が並ぶ順に従って並べた場合に、各音声素片情報を識別する音声素片識別情報の少なくとも1つが、所定の規則に従って並べられた情報と異なる情報を有するように設定された音声素片識別情報と、音声素片を特定する音声素片特定情報と、を対応付けて記憶する音声素片識別情報記憶手段と、
 文字列を表す文字列情報を受け付ける文字列情報受付手段と、
 上記受け付けられた文字列情報に基づいて音声素片特定情報を生成し、当該生成した音声素片特定情報と対応付けて記憶されている音声素片識別情報を上記サーバ装置へ送信する音声素片識別情報送信手段と、
 上記サーバ装置から音声素片情報を受信し、当該受信した音声素片情報に基づいて、上記受け付けられた文字列情報が表す文字列を音声に変換した音声情報を生成する音声合成手段と、
 を備える。
 また、本発明の他の形態である音声合成プログラムは、
 サーバ装置と通信可能に接続されたクライアント装置に、
 文字列を表す文字列情報を受け付ける文字列情報受付手段と、
 上記受け付けられた文字列情報に基づいて音声素片特定情報を生成し、音声登録ユーザが発した音声に含まれる複数の音声素片のそれぞれを表す音声素片情報を、当該音声にて各音声素片が並ぶ順に従って並べた場合に、各音声素片情報を識別する音声素片識別情報の少なくとも1つが、所定の規則に従って並べられた情報と異なる情報を有するように設定された音声素片識別情報と、音声素片を特定する音声素片特定情報と、を対応付けて記憶する記憶装置に、当該生成した音声素片特定情報と対応付けて記憶されている音声素片識別情報を上記サーバ装置へ送信する音声素片識別情報送信手段と、
 上記サーバ装置から音声素片情報を受信し、当該受信した音声素片情報に基づいて、上記受け付けられた文字列情報が表す文字列を音声に変換した音声情報を生成する音声合成手段と、
 を実現させるための音声合成プログラムである。
 本発明は、以上のように構成されることにより、音声登録ユーザが発した音声のうちの連続する複数の音声素片を含む部分が、不正なユーザにより取得される可能性を低減することができる。
本発明の第1実施形態に係る音声合成システムの機能の概略を表すブロック図である。 図1に示したクライアント装置の記憶装置に記憶されたテーブルであって、音声素片特定情報と音声素片識別情報とが対応付けられたテーブルを示した図である。 図1に示したサーバ装置の記憶装置に記憶されたテーブルであって、音声素片識別情報と音声素片情報とが対応付けられたテーブルを示した図である。 音声登録ユーザが発した音声の波形を概念的に示した説明図である。 図1に示したサーバ装置のCPUが実行する音声素片情報記憶処理プログラムを示したフローチャートである。 クライアント装置がサーバ装置から音声素片情報を取得することにより、音声合成処理を行う際の音声合成システムの作動を示したシーケンス図である。 第1実施形態の第1の変形例に係るサーバ装置のCPUが実行する処理であって、図5に示した音声素片情報記憶処理プログラムに追加して実行する処理を示したフローチャートである。 第1実施形態の第2の変形例に係る音声合成システムの機能の概略を表すブロック図である。 第2実施形態に係る音声合成システムの機能の概略を表すブロック図である。 図9に示したサーバ装置の記憶装置に記憶されたテーブルであって、音声素片識別情報と低音質音声素片情報と高音質音声素片情報とが対応付けられたテーブルを示した図である。 第2実施形態に係るサーバ装置が音声合成処理を行う際の音声合成システムの作動を示したシーケンス図である。 本発明の第3実施形態に係る音声合成システムの機能の概略を表すブロック図である。
 以下、本発明に係る、音声合成システム、音声素片提供装置、音声素片提供方法、音声素片提供プログラム、音声合成方法、クライアント装置、及び、音声合成プログラム、の各実施形態について図1~図12を参照しながら説明する。
<第1実施形態>
 図1に示したように、第1実施形態に係る音声合成システム1は、クライアント装置10と、サーバ装置20と、を含む。クライアント装置10及びサーバ装置(音声素片提供装置)20は、図示しない通信回線(本例では、インターネット)を介して、互いに通信可能に接続されている。
 クライアント装置10は、図示しない中央処理装置(CPU;Central Processing Unit)、記憶装置(メモリ及びハードディスク装置(HDD;Hard Disk Drive))、入力装置(マウス及びキーボード)及び出力装置(ディスプレイ及びスピーカ)を備える。
 クライアント装置10は、記憶装置に記憶されているプログラムをCPUが実行することにより、後述する機能を実現するように構成されている。また、クライアント装置10は、キーボードを介してユーザによって入力された文字列情報を受け付ける。文字列情報は、文字列を表す情報である。更に、クライアント装置10は、ディスプレイに文字列を含む画像を表示させる。また、クライアント装置10は、スピーカから音声を出力させる。
 サーバ装置20は、クライアント装置10と同様に、図示しない中央処理装置、記憶装置、入力装置及び出力装置を備える。サーバ装置20も、クライアント装置10と同様に、記憶装置に記憶されているプログラムをCPUが実行することにより、後述する機能を実現するように構成されている。
 更に、図1に示したように、クライアント装置10の機能は、文字列情報受付部(文字列情報受付手段)11と、音声素片識別情報記憶部(音声素片識別情報記憶手段、音声素片識別情報記憶処理手段)12と、音声素片識別情報送信部(音声素片識別情報送信手段)13と、音声合成部(音声合成手段)14と、を含む。
 文字列情報受付部11は、ユーザにより入力された文字列情報を受け付ける。
 音声素片識別情報記憶部12は、図2に示したように、音声素片を特定する音声素片特定情報と、音声素片情報を識別する音声素片識別情報と、を対応付けてクライアント装置10の記憶装置に記憶させている。
 本例では、音声素片は音節である。なお、音声素片は、ダイフォン(二単音)であってもよい。二単音は、例えば、子音及び母音からなる音(例えば、/ka/(カ))、及び、母音及び母音からなる音(例えば、/ai/(アイ))である。
 音声素片特定情報は、音韻(発音記号)を表す音韻情報と、韻律(ピッチパタン(中心ピッチ等)、時間長)を表す韻律情報と、を含む。音声素片識別情報は、後述するように、音声素片情報毎に異なる整数を表す情報である。
 音声素片識別情報送信部13は、言語解析部13aと、韻律生成部13bと、音声素片選択部13cと、を含む。
 言語解析部13aは、文字列情報受付部11により受け付けられた文字列情報が表す文字列に対して言語解析処理を行うことにより、音韻列及びアクセントを生成する。言語解析処理は、単語間の関係(係り受け)及び品詞等を解析する処理と、文字列におけるアクセントの位置を特定する処理と、を含む。なお、言語解析処理の例は、特許第3379643号公報及び特許第3518340号公報等に開示されている。
 韻律生成部13bは、言語解析部13aにより生成された音韻列及びアクセントに基づいて、韻律情報を生成する。韻律情報は、音韻列に含まれる各音韻と対応付けられた情報であって、韻律を表す情報である。韻律は、音の高さ及び長さ(即ち、ピッチパタン(中心ピッチ(平均F0)、F0の傾斜等)及び時間長)等を表す。なお、韻律情報を生成する処理の例は、特許第3240691号公報及び特許第3344487号公報等に開示されている。
 音声素片選択部13cは、言語解析部13aにより生成された音韻列に含まれる音韻を音韻列における先頭側から順に音声素片毎に選択する。音声素片選択部13cは、音声素片識別情報記憶部12により記憶装置に記憶させられている音声素片特定情報の中から、選択した音韻を表す音韻情報を含む音声素片特定情報を抽出する。
 音声素片選択部13cは、抽出した音声素片特定情報の中から、韻律生成部13bにより生成された韻律情報と最も近い韻律情報を含む音声素片特定情報を決定する。そして、音声素片選択部13cは、決定した音声素片特定情報と対応付けて記憶されている音声素片識別情報を取得する。
 音声素片識別情報送信部13は、音声素片選択部13cにより取得された音声素片識別情報をサーバ装置20へ送信する。
 音声合成部14は、サーバ装置20から音声素片情報を受信する。音声合成部14は、受信した音声素片情報と、音声素片識別情報送信部13により生成された音韻列及び韻律情報と、に基づいて音声素片情報が表す音声素片の韻律を変換する。
 そして、音声合成部14は、変換した音声素片を接続することにより、文字列情報受付部11により受け付けられた文字列情報が表す文字列を音声に変換した音声情報を生成する(即ち、音声合成処理を行う)。
 次いで、クライアント装置10は、音声合成部14により生成された音声情報が表す音声をスピーカから出力する。
 一方、サーバ装置20の機能は、音声素片識別情報受信部(音声素片識別情報受信手段)21と、音声素片情報記憶部(音声素片情報記憶手段)22と、音声素片情報送信部(音声素片情報送信手段)23と、を含む。
 音声素片識別情報受信部21は、クライアント装置10により送信された音声素片識別情報を受信する。
 音声素片情報記憶部22は、音声登録ユーザが発した音声を表す音声情報を受け付ける。音声素片情報記憶部22は、受け付けた音声情報が表す音声を音声素片毎に分割することにより、複数の音声素片のそれぞれを表す音声素片情報を生成する。音声素片情報記憶部22は、図3に示したように、生成した音声素片情報と、整数を表す音声素片識別情報と、を1つずつ対応付けてサーバ装置20の記憶装置に記憶させる。
 このとき、音声素片情報記憶部22は、図4に示したように、上記音声登録ユーザが発した音声にて各音声素片が並ぶ順に従って、その音声素片に対応する音声素片識別情報が表す整数を並べた場合に、その整数がランダムに並ぶように、音声素片情報と音声素片識別情報とを対応付けて記憶させる。
 即ち、音声素片情報記憶部22は、上記音声登録ユーザが発した音声にて各音声素片が並ぶ順に従って、その音声素片に対応する音声素片識別情報を並べた場合に、各音声素片情報を識別する音声素片識別情報の少なくとも1つが所定の規則(本例では、整数が1ずつ増加するという規則)に従って並べられた情報と異なる情報を有するように、音声素片情報と音声素片識別情報とを対応付けて記憶させている、と言うことができる。
 音声素片情報送信部23は、音声素片情報記憶部22により記憶装置に記憶されている音声素片情報の中から、音声素片識別情報受信部21により受信された音声素片識別情報と対応付けて記憶されている音声素片情報をクライアント装置10へ送信する。
 次に、上述した音声合成システム1の作動について具体的に述べる。
 先ず、サーバ装置20が新たに入力された音声情報に基づいて音声素片情報を蓄積(記憶)する際の音声合成システム1の作動について説明する。
 サーバ装置20のCPUは、図5にフローチャートにより示した音声素片情報記憶処理プログラムを、サーバ装置20の起動時に1度だけ実行するようになっている。なお、音声素片情報記憶処理プログラムの処理が実行されることは、音声素片情報記憶処理工程に対応している。
 具体的に述べると、CPUは、音声素片情報記憶処理プログラムの処理を開始すると、ステップ501にて、音声情報が入力されるまで待機する。
 そして、音声情報が入力されると、CPUは、「Yes」と判定してステップ502に進み、入力された音声情報が表す音声(音声登録ユーザが発した音声)を音声素片毎に分割することにより、音声素片情報を生成する。
 次いで、CPUは、ステップ503にて、生成した音声素片情報からなるリストを作成する。このリストは、上記音声登録ユーザが発した音声にて各音声素片が並ぶ順に従って、その音声素片を表す音声素片情報を並べたリストである。
 そして、CPUは、ステップ504にて、作成したリスト内に音声素片情報が存在しているか否かを判定する。
 この状態においては、リスト内に音声素片情報が存在しているので、CPUは、「Yes」と判定してステップ505に進み、リストの先頭の音声素片情報を取得するとともに、取得した音声素片情報をリストから削除する。
 そして、CPUは、ステップ506にて、整数の乱数(本例では、擬似乱数)を1つだけ生成する。次いで、CPUは、ステップ507にて、生成した乱数が音声素片識別情報として、サーバ装置20の記憶装置に既に記憶されているか否かを判定する。
 生成した乱数が音声素片識別情報として記憶装置に既に記憶されている場合、CPUは、「Yes」と判定してステップ506へ戻り、再び乱数を生成する。即ち、CPUは、音声素片識別情報として記憶装置に未だ記憶されていない乱数が生成されるまで、繰り返し乱数の生成を行う。
 生成した乱数が音声素片識別情報として記憶装置に未だ記憶されていない場合、CPUは、ステップ507にて、「No」と判定してステップ508に進む。そして、CPUは、上記ステップ505にて取得した音声素片情報と、音声素片識別情報としての、上記ステップ506にて取得した乱数と、を対応付けて、サーバ装置20の記憶装置に記憶させる。
 次いで、CPUは、ステップ504へ戻り、リスト内に音声素片情報が存在しなくなるまで、上述したステップ504~ステップ508の処理を繰り返し実行する。
 そして、リスト内に音声素片情報が存在しなくなると、CPUは、ステップ504にて、「No」と判定してステップ509に進み、上記ステップ508にて新たに記憶装置に記憶された音声素片情報が表す音声素片を特定する音声素片特定情報(音韻情報及び韻律情報等)を生成する。
 更に、CPUは、上記ステップ508にて新たに記憶装置に記憶された音声素片識別情報と、その音声素片識別情報と対応付けて記憶されている音声素片情報が表す音声素片を特定する音声素片特定情報と、を対応付けてクライアント装置10へ送信する。
 一方、クライアント装置10は、サーバ装置20から、音声素片識別情報及び音声素片特定情報を受信すると、受信した音声素片識別情報と音声素片特定情報とを対応付けてクライアント装置10の記憶装置に記憶させる(図2を参照)。
 その後、CPUは、ステップ501へ戻り、上述したステップ501~ステップ509の処理を繰り返し実行する。
 このように、サーバ装置20のCPUが音声素片情報記憶処理プログラムを実行することにより、図4に示した音声を表す音声情報が入力された場合、サーバ装置20は、図3に示したように、音声素片情報と、音声素片識別情報と、を対応付けて記憶装置に記憶させる。
 次に、クライアント装置10がサーバ装置20から音声素片情報を取得することにより、音声合成処理を行う際の音声合成システム1の作動について図6を参照しながら説明する。
 先ず、クライアント装置10のユーザ(音声合成ユーザ)は、キーボードを用いて文字列情報をクライアント装置10に入力する。
 クライアント装置10は、入力された文字列情報を受け付ける(ステップA1)。
 次いで、クライアント装置10は、受け付けた文字列情報に基づいて音声素片特定情報(音韻情報及び韻律情報等)を生成する(ステップA2)。
 そして、クライアント装置10は、生成した音声素片特定情報と対応付けてクライアント装置10の記憶装置に記憶されている音声素片識別情報を取得する(ステップA3)。
 次いで、クライアント装置10は、取得した音声素片識別情報をサーバ装置20へ送信する(ステップA4)。
 一方、サーバ装置20は、クライアント装置10により送信された音声素片識別情報を受信する(音声素片識別情報受信工程)。そして、サーバ装置20は、受信した音声素片識別情報と対応付けてサーバ装置20の記憶装置に記憶されている音声素片情報を取得する(ステップB1)。次いで、サーバ装置20は、取得した音声素片情報をクライアント装置10へ送信する(ステップB2、音声素片情報送信工程)。
 これにより、クライアント装置10は、サーバ装置20から音声素片情報を受信する。そして、クライアント装置10は、受信した音声素片情報に基づいて、受け付けられた文字列情報が表す文字列を音声に変換した音声情報を生成(音声合成処理を実行)する(ステップA5)。
 その後、クライアント装置10は、生成した音声情報が表す音声をスピーカから出力する。
 以上、説明したように、本発明による音声合成システムの第1実施形態によれば、不正なユーザが使用するクライアント装置10が、規則に従って並んだ音声素片識別情報(例えば、1ずつ増加させた複数の整数(即ち、連続する整数))をサーバ装置20へ送信した場合であっても、音声登録ユーザが発した音声のうちの連続する複数の音声素片を含む部分をサーバ装置20がクライアント装置10へ送信することを防止することができる。従って、音声登録ユーザが発した音声のうちの連続する複数の音声素片を含む部分が、不正なユーザにより取得される可能性を低減することができる。
<第1変形例>
 次に、第1実施形態の第1の変形例に係る音声合成システムについて説明する。この第1の変形例に係る音声合成システムは、上記第1実施形態に係る音声合成システムに対して、互いに類似する2つの音声素片のそれぞれを表す音声素片情報に対応付けて記憶される音声素片識別情報が表す整数が連続する整数となるように構成されている点において相違している。従って、以下、かかる相違点を中心として説明する。
 この変形例に係るサーバ装置20は、図5に示した音声素片情報記憶処理プログラムに代えて、このプログラムのステップ508の処理の直後に、図7に示したステップ701~ステップ704の処理を追加したプログラムを実行する。
 従って、サーバ装置20のCPUは、ステップ508の処理を実行した後、ステップ701に進み、ステップ505にて取得した音声素片情報が表す音声素片と類似する音声素片を表す音声素片情報が、上記ステップ503にて作成したリスト内に存在するか否かを判定する。
 具体的には、CPUは、取得した音声素片情報が表す音声素片と、リストに含まれる音声素片情報が表す音声素片と、の一致率(両者が一致している程度を表す指標値)を、所定のアルゴリズムに従って算出する。そして、CPUは、算出した一致率が所定の閾値よりも高くなる音声素片情報がリスト内に存在するか否かを判定する。
 取得した音声素片情報が表す音声素片と類似する音声素片を表す音声素片情報が、リスト内に存在しない場合、CPUは、ステップ701にて、「No」と判定してステップ504へ進む。
 一方、取得した音声素片情報が表す音声素片と類似する音声素片を表す音声素片情報が、リスト内に存在する場合、CPUは、ステップ701にて、「Yes」と判定してステップ702へ進む。
 そして、CPUは、取得した音声素片情報が表す音声素片と類似する音声素片を表す音声素片情報をリストから抽出する。次いで、CPUは、ステップ703にて、抽出した音声素片情報と、音声素片識別情報としての、上記ステップ506にて生成した乱数に1を加えた値と、を対応付けてサーバ装置20の記憶装置に記憶させる。
 次いで、CPUは、ステップ704にて、抽出した音声素片情報をリストから削除する。そして、CPUは、ステップ504へ進む。
 このように、サーバ装置20は、互いに類似する2つの音声素片の一方に対応する音声素片識別情報が表す整数が、当該2つの音声素片の他方に対応する音声素片識別情報が表す整数に1を加えた値となるように、音声素片情報と音声素片識別情報とを対応付けて記憶装置に記憶させる。
 以上、説明したように、本発明による音声合成システムの第1実施形態の第1の変形例によれば、不正なユーザが使用するクライアント装置10が、連続する整数をサーバ装置20へ送信した場合、サーバ装置20は、互いに類似する2つの音声素片のそれぞれを表す音声素片情報を送信する。
 これにより、サーバ装置20から受信した音声素片情報に基づいて不正なユーザにより上記音声が推測される可能性をより一層低減することができる。その結果、不正なユーザが使用するクライアント装置10において、上記音声が再現(復元)される可能性をより一層低減することができる。
<第2変形例>
 次に、第1実施形態の第2の変形例に係る音声合成システムについて説明する。この第2の変形例に係る音声合成システムは、上記第1実施形態に係る音声合成システムに対して、サーバ装置20が、記憶装置に記憶されていない音声素片識別情報を受信した場合にエラー情報を出力し且つその音声素片識別情報を送信してきた装置との間の通信を遮断するように構成されている点において相違している。従って、以下、かかる相違点を中心として説明する。
 この第2の変形例に係るサーバ装置20の音声素片情報送信部23は、図8に示したように、エラー情報出力部(エラー情報出力手段)23aと、通信遮断部(通信遮断手段)23bと、を含む。
 エラー情報出力部23aは、クライアント装置10から受信した音声素片識別情報が記憶装置に記憶されていない場合、その旨を表すエラー情報を出力する(ディスプレイに表示させる、及び/又は、ログファイルに書き出す)。これによれば、音声素片情報を不正に取得しようとしているクライアント装置10が存在することを、サーバ装置20の管理者に直ちに認識させることができる。この結果、管理者は、この状況に応じた行動を迅速に取ることができる。
 通信遮断部23bは、クライアント装置10から受信した音声素片識別情報が記憶装置に記憶されていない場合、そのクライアント装置10との間の通信を遮断する。これによれば、音声素片情報を不正に取得しようとしているクライアント装置10へ、サーバ装置20が音声素片情報を送信することを防止することができる。
 なお、この第2の変形例において、音声素片情報送信部23は、エラー情報出力部23a及び通信遮断部23bの両方を含んでいたが、いずれか一方のみを含んでいてもよい。
<第2実施形態>
 次に、本発明に係る音声合成システムの第2実施形態について説明する。この第2実施形態に係る音声合成システムは、上記第1実施形態に係る音声合成システムに対して、サーバ装置20が低音質の音声素片情報と高音質の音声素片情報とを記憶するとともに、サーバ装置20がユーザ(音声合成ユーザ)からの要求に応じて高音質の音声素片情報に基づいて音声合成処理を行い、生成した音声情報をクライアント装置10へ送信するように構成されている点において相違している。従って、以下、かかる相違点を中心として説明する。
 図9に示したように、クライアント装置10の機能は、上記第1実施形態に係るクライアント装置10の機能と同様の文字列情報受付部11~音声合成部14に加えて、文字列情報送信部(文字列情報送信手段)15と、音声情報受信部(音声情報受信手段)16と、を含む。
 文字列情報送信部15は、文字列情報受付部11により受け付けられた文字列情報をサーバ装置20へ送信する。
 音声情報受信部16は、サーバ装置20が送信した音声情報を受信する。
 また、サーバ装置20の機能は、上記第1実施形態に係るサーバ装置20の機能と同様の音声素片識別情報受信部21~音声素片情報送信部23に加えて、文字列情報受信部(文字列情報受信手段)24と、音声素片情報取得部(音声合成手段の一部)25と、音声合成部(音声合成手段の一部)26と、音声情報送信部(音声情報送信手段)27と、を含む。
 更に、サーバ装置20は、音声素片識別情報記憶部12と同様に、音声素片特定情報と音声素片識別情報とを対応付けてサーバ装置20の記憶装置に記憶させている。
 また、音声素片情報記憶部22は、図10に示したように、整数を表す音声素片識別情報と、低音質の低音質音声素片情報(第1の音声素片情報)と、低音質音声素片情報よりも高音質の高音質音声素片情報(第2の音声素片情報)と、を対応付けてサーバ装置20の記憶装置に記憶させている。互いに対応付けて記憶されている低音質音声素片情報及び高音質音声素片情報は、同一の音声素片を表す情報である。
 なお、本例では、低音質音声素片情報は、サンプリング周波数が8kHzである音声から抽出された音声素片を表す情報であり、高音質音声素片情報は、サンプリング周波数44kHzである音声から抽出された音声素片を表す情報である。即ち、高音質音声素片情報は、低音質音声素片情報よりも高音質の情報である、と言うことができる。また、一般に、低音質音声素片情報は、高音質音声素片情報よりもデータ量(データサイズ)が小さい。
 なお、低音質音声素片情報が、圧縮率が高い情報であり、高音質音声素片情報が、低音質音声素片情報よりも圧縮率が低い情報であってもよい。
 また、音声素片情報記憶部22は、第1実施形態と同様に、音声登録ユーザが発した音声にて各音声素片が並ぶ順に従って、その音声素片に対応する音声素片識別情報が表す整数を並べた場合に、その整数がランダムに並ぶように、音声素片情報(第1の音声素片情報及び第2の音声素片情報)と音声素片識別情報とを対応付けてサーバ装置20の記憶装置に記憶させる。
 また、文字列情報受信部24は、クライアント装置10により送信された文字列情報を受信する。
 音声素片情報取得部25は、上記第1実施形態に係るクライアント装置10の機能である、言語解析部13a、韻律生成部13b及び音声素片選択部13cと同様の機能を有する。
 即ち、音声素片情報取得部25は、文字列情報受信部24により受信された文字列情報が表す文字列に基づいて、音韻情報及び韻律情報を含む音声素片特定情報を生成する。そして、音声素片情報取得部25は、生成した音声素片特定情報と対応付けてサーバ装置20の記憶装置に記憶されている音声素片識別情報を取得する。
 音声合成部26は、音声合成部14と同様の機能を有する。即ち、音声合成部26は、音声素片情報取得部25により取得された音声素片情報に基づいて音声合成処理を実行する。
 音声情報送信部27は、音声合成部26により生成された音声情報をクライアント装置10へ送信する。
 次に、この第2実施形態に係る音声合成システム1の作動について説明する。
 この音声合成システム1は、クライアント装置10のユーザ(音声合成ユーザ)が低音質の音声合成処理の実行を要求した場合(例えば、音声合成ユーザが低音質の音声合成処理の実行を要求する旨を表す情報を入力した場合)には、上述した第1実施形態と同様に作動する。
 即ち、クライアント装置10は、音声合成ユーザにより入力された文字列情報に基づいて音声素片識別情報を取得し、取得した音声素片識別情報をサーバ装置20へ送信する。一方、サーバ装置20は、クライアント装置10から音声素片識別情報を受信し、受信した音声素片識別情報と対応付けて記憶されている低音質の音声素片情報をクライアント装置10へ送信する。
 そして、クライアント装置10は、サーバ装置20から低音質の音声素片情報を受信し、受信した低音質の音声素片情報に基づいて音声合成処理を実行する。そして、クライアント装置10は、生成した音声情報が表す音声をスピーカから出力する。
 一方、クライアント装置10の音声合成ユーザが高音質の音声合成処理の実行を要求した場合、図11に示したように、クライアント装置10は、受け付けた文字列情報をサーバ装置20へ送信する(ステップA12)。
 一方、サーバ装置20は、クライアント装置10により送信された文字列情報を受信する。そして、サーバ装置20は、受信した文字列情報に基づいて音声素片特定情報(音韻情報及び韻律情報等)を生成する(ステップB11)。
 そして、サーバ装置20は、生成した音声素片特定情報と対応付けてサーバ装置20の記憶装置に記憶されている音声素片識別情報を取得する(ステップB12)。次いで、サーバ装置20は、取得した音声素片識別情報と対応付けて記憶装置に記憶されている高音質の音声素片情報を取得する(ステップB13)。
 そして、サーバ装置20は、取得した高音質の音声素片情報に基づいて音声合成処理を実行する(ステップB14)。次いで、サーバ装置20は、生成した音声情報をクライアント装置10へ送信する(ステップB15)。
 そして、クライアント装置10は、サーバ装置20により送信された音声情報を受信し、受信した音声情報が表す音声をスピーカから出力する。
 以上、説明したように、本発明による音声合成システムの第2実施形態によれば、音声合成システム1は、音声素片情報の迅速な伝達、及び/又は、通信負荷の軽減が要求される場合には、低音質音声素片情報(第1の音声素片情報)に基づいて音声合成処理を実行し、一方、生成される音声情報の音質が高音質であることが要求される場合には、高音質音声素片情報(第2の音声素片情報)に基づいて音声合成処理を実行することができる。これにより、クライアント装置10を使用する音声合成ユーザの利便性を向上させることができる。
 更に、上記第2実施形態によれば、サーバ装置20とクライアント装置10との間の通信経路において情報が傍受された場合であっても、高音質音声素片情報が不正なユーザにより取得されることを防止できる。即ち、高音質音声素片情報が不正に利用されることを防止することができる。
 また、上記第2実施形態によっても、上記第1実施形態と同様の作用及び効果を奏することができる。
<第3実施形態>
 次に、本発明の第3実施形態に係る音声合成システムについて図12を参照しながら説明する。
 第3実施形態に係る音声合成システム100は、互いに通信可能に接続されたサーバ装置110及びクライアント装置120を含むシステムである。
 サーバ装置110の機能は、音声素片情報記憶部(音声素片情報記憶手段)111と、音声素片識別情報受信部(音声素片識別情報受信手段)112と、音声素片情報送信部(音声素片情報送信手段)113と、を含む。
 音声素片情報記憶部111は、音声登録ユーザが発した音声に含まれる複数の音声素片のそれぞれを表す音声素片情報を、当該音声にて各音声素片が並ぶ順に従って並べた場合に、各音声素片情報を識別する音声素片識別情報の少なくとも1つが、所定の規則に従って並べられた情報と異なる情報を有するように、音声素片情報と音声素片識別情報とを対応付けて記憶する。
 音声素片識別情報受信部112は、クライアント装置120から上記音声素片識別情報を受信する。
 音声素片情報送信部113は、上記受信された音声素片識別情報に対応付けて、音声素片情報記憶部111に記憶されている音声素片情報をクライアント装置120へ送信する。
 また、クライアント装置120の機能は、音声素片識別情報記憶部(音声素片識別情報記憶手段)121と、文字列情報受付部(文字列情報受付手段)122と、音声素片識別情報送信部(音声素片識別情報送信手段)123と、音声合成部(音声合成手段)124と、を含む。
 音声素片識別情報記憶部121は、音声素片を特定する音声素片特定情報と、上記音声素片識別情報と、を対応付けて記憶する。
 文字列情報受付部122は、文字列を表す文字列情報を受け付ける。
 音声素片識別情報送信部123は、文字列情報受付部122により受け付けられた文字列情報に基づいて音声素片特定情報を生成し、当該生成した音声素片特定情報と対応付けて音声素片識別情報記憶部121に記憶されている音声素片識別情報をサーバ装置110へ送信する。
 音声合成部124は、サーバ装置110から音声素片情報を受信し、当該受信した音声素片情報に基づいて、文字列情報受付部122により受け付けられた文字列情報が表す文字列を音声に変換した音声情報を生成する。
 この第3実施形態によれば、不正なユーザが使用するクライアント装置が、規則に従って並んだ音声素片識別情報(例えば、1ずつ増加させた複数の整数(即ち、連続する整数))をサーバ装置110へ送信した場合であっても、ユーザ(音声登録ユーザ)が発した音声のうちの連続する複数の音声素片を含む部分をサーバ装置110がクライアント装置へ送信することを防止することができる。従って、音声登録ユーザが発した音声のうちの連続する複数の音声素片を含む部分が、不正なユーザにより取得される可能性を低減することができる。
 この場合、上記音声素片識別情報は、整数を表す情報であり、
 上記音声素片情報記憶手段は、上記音声にて各音声素片が並ぶ順に従って、その音声素片に対応する音声素片識別情報が表す整数を並べた場合に、その整数が、隣接する2つの整数の組であって末尾側の整数が先頭側の整数に1を加えた値と異なる値を有する組を含むように、上記音声素片情報と上記音声素片識別情報とを対応付けて記憶するように構成されることが好適である。
 これによれば、不正なユーザが使用するクライアント装置が、連続する整数をサーバ装置へ送信した場合であっても、ユーザ(音声登録ユーザ)が発した音声のうちの連続する複数の音声素片を含む部分をサーバ装置がクライアント装置へ送信することを防止することができる。従って、音声登録ユーザが発した音声のうちの連続する複数の音声素片を含む部分が、不正なユーザにより取得される可能性を低減することができる。
 この場合、上記音声素片情報記憶手段は、上記音声にて各音声素片が並ぶ順に従って、その音声素片に対応する音声素片識別情報が表す整数を並べた場合に、その整数がランダムに並ぶように、上記音声素片情報と上記音声素片識別情報とを対応付けて記憶するように構成されることが好適である。
 これによれば、不正なユーザが使用するクライアント装置が、連続する整数をサーバ装置へ送信した場合に、音声登録ユーザが発した音声のうちの連続する複数の音声素片を含む部分をサーバ装置がクライアント装置へ送信する可能性をより一層低減することができる。この結果、音声登録ユーザが発した音声のうちの連続する複数の音声素片を含む部分が、不正なユーザにより取得される可能性をより一層低減することができる。
 この場合、上記音声素片情報記憶手段は、互いに類似する2つの音声素片の一方に対応する音声素片識別情報が表す整数が、当該2つの音声素片の他方に対応する音声素片識別情報が表す整数に1を加えた値となるように、上記音声素片情報と上記音声素片識別情報とを対応付けて記憶するように構成されることが好適である。
 これによれば、不正なユーザが使用するクライアント装置が、連続する整数をサーバ装置へ送信した場合、サーバ装置は、互いに類似する2つの音声素片のそれぞれを表す音声素片情報を送信する。これにより、サーバ装置から受信した音声素片情報に基づいて不正なユーザにより上記音声が推測される可能性をより一層低減することができる。その結果、不正なユーザが使用するクライアント装置において、上記音声が再現(復元)される可能性をより一層低減することができる。
 この場合、上記サーバ装置は、
 上記クライアント装置から受信した音声素片識別情報が上記音声素片情報記憶手段により記憶されていない場合、その旨を表すエラー情報を出力するエラー情報出力手段を備えることが好適である。
 これによれば、音声素片情報を不正に取得しようとしているクライアント装置が存在することを、サーバ装置の管理者に直ちに認識させることができる。この結果、管理者は、この状況に応じた行動を迅速に取ることができる。
 この場合、上記サーバ装置は、
 上記クライアント装置から受信した音声素片識別情報が上記音声素片情報記憶手段により記憶されていない場合、上記クライアント装置との間の通信を遮断する通信遮断手段を備えることが好適である。
 これによれば、音声素片情報を不正に取得しようとしているクライアント装置へ、サーバ装置が音声素片情報を送信することを防止することができる。
 この場合、上記音声素片情報記憶手段は、1つの音声素片を表す上記音声素片情報として、低音質の第1の音声素片情報と、当該第1の音声素片情報よりも高音質の第2の音声素片情報と、のそれぞれを記憶するように構成されることが好適である。
 低音質の音声素片情報は、高音質の音声素片情報よりもデータ量(データサイズ)が小さい。従って、上記構成によれば、音声合成システムは、音声素片情報の迅速な伝達、及び/又は、通信負荷の軽減が要求される場合には、低音質の第1の音声素片情報に基づいて音声合成処理を実行し、一方、生成される音声情報の音質が高音質であることが要求される場合には、高音質の第2の音声素片情報に基づいて音声合成処理を実行することができる。これにより、クライアント装置を使用するユーザ(音声合成ユーザ)の利便性を向上させることができる。
 この場合、上記クライアント装置は、
 上記受け付けられた文字列情報を上記サーバ装置へ送信する文字列情報送信手段と、
 上記サーバ装置から送信された音声情報を受信する音声情報受信手段と、
 を備え、
 上記サーバ装置は、
 上記クライアント装置から送信された文字列情報を受信する文字列情報受信手段と、
 上記受信された文字列情報と、上記記憶されている第2の音声素片情報と、に基づいて当該受信された文字列情報が表す文字列を音声に変換した音声情報を生成する音声合成手段と、
 上記生成された音声情報を上記クライアント装置へ送信する音声情報送信手段と、
 を備えることが好適である。
 これによれば、サーバ装置とクライアント装置との間の通信経路において情報が傍受された場合であっても、高音質の音声素片情報が不正なユーザにより取得されることを防止できる。即ち、高音質の音声素片情報が不正に利用されることを防止することができる。
 また、本発明の他の形態である音声素片提供装置は、
 音声登録ユーザが発した音声に含まれる複数の音声素片のそれぞれを表す音声素片情報を、当該音声にて各音声素片が並ぶ順に従って並べた場合に、各音声素片情報を識別する音声素片識別情報の少なくとも1つが、所定の規則に従って並べられた情報と異なる情報を有するように、音声素片情報と音声素片識別情報とを対応付けて記憶する音声素片情報記憶手段と、
 上記音声素片識別情報を受信する音声素片識別情報受信手段と、
 上記受信された音声素片識別情報に対応付けて上記記憶装置に記憶されている音声素片情報を送信する音声素片情報送信手段と、
 を備える。
 この場合、上記音声素片識別情報は、整数を表す情報であり、
 上記音声素片情報記憶手段は、上記音声にて各音声素片が並ぶ順に従って、その音声素片に対応する音声素片識別情報が表す整数を並べた場合に、その整数が、隣接する2つの整数の組であって末尾側の整数が先頭側の整数に1を加えた値と異なる値を有する組を含むように、上記音声素片情報と上記音声素片識別情報とを対応付けて記憶するように構成されることが好適である。
 この場合、上記音声素片情報記憶手段は、上記音声にて各音声素片が並ぶ順に従って、その音声素片に対応する音声素片識別情報が表す整数を並べた場合に、その整数がランダムに並ぶように、上記音声素片情報と上記音声素片識別情報とを対応付けて記憶するように構成されることが好適である。
 また、本発明の他の形態である音声素片提供方法は、
 音声登録ユーザが発した音声に含まれる複数の音声素片のそれぞれを表す音声素片情報を、当該音声にて各音声素片が並ぶ順に従って並べた場合に、各音声素片情報を識別する音声素片識別情報の少なくとも1つが、所定の規則に従って並べられた情報と異なる情報を有するように、音声素片情報と音声素片識別情報とを対応付けて記憶装置に記憶させ、
 上記音声素片識別情報を受信し、
 上記受信された音声素片識別情報に対応付けて上記記憶装置に記憶されている音声素片情報を送信する方法である。
 この場合、上記音声素片識別情報は、整数を表す情報であり、
 上記音声素片提供方法は、
 上記音声素片情報と上記音声素片識別情報とを対応付けて上記記憶装置に記憶させる際、上記音声にて各音声素片が並ぶ順に従って、その音声素片に対応する音声素片識別情報が表す整数を並べた場合に、その整数が、隣接する2つの整数の組であって末尾側の整数が先頭側の整数に1を加えた値と異なる値を有する組を含むように、上記音声素片情報と上記音声素片識別情報とを対応付けて上記記憶装置に記憶させるように構成されることが好適である。
 この場合、上記音声素片提供方法は、
 上記音声素片情報と上記音声素片識別情報とを対応付けて上記記憶装置に記憶させる際、上記音声にて各音声素片が並ぶ順に従って、その音声素片に対応する音声素片識別情報が表す整数を並べた場合に、その整数がランダムに並ぶように、上記音声素片情報と上記音声素片識別情報とを対応付けて上記記憶装置に記憶させるように構成されることが好適である。
 また、本発明の他の形態である音声素片提供プログラムは、
 記憶装置を備える音声素片提供装置に、
 音声登録ユーザが発した音声に含まれる複数の音声素片のそれぞれを表す音声素片情報を、当該音声にて各音声素片が並ぶ順に従って並べた場合に、各音声素片情報を識別する音声素片識別情報の少なくとも1つが、所定の規則に従って並べられた情報と異なる情報を有するように、音声素片情報と音声素片識別情報とを対応付けて上記記憶装置に記憶させる音声素片情報記憶処理手段と、
 上記音声素片識別情報を受信する音声素片識別情報受信手段と、
 上記受信された音声素片識別情報に対応付けて上記記憶装置に記憶されている音声素片情報を送信する音声素片情報送信手段と、
 を実現させるためのプログラムである。
 この場合、上記音声素片識別情報は、整数を表す情報であり、
 上記音声素片情報記憶処理手段は、上記音声にて各音声素片が並ぶ順に従って、その音声素片に対応する音声素片識別情報が表す整数を並べた場合に、その整数が、隣接する2つの整数の組であって末尾側の整数が先頭側の整数に1を加えた値と異なる値を有する組を含むように、上記音声素片情報と上記音声素片識別情報とを対応付けて上記記憶装置に記憶させるように構成されることが好適である。
 この場合、上記音声素片情報記憶処理手段は、上記音声にて各音声素片が並ぶ順に従って、その音声素片に対応する音声素片識別情報が表す整数を並べた場合に、その整数がランダムに並ぶように、上記音声素片情報と上記音声素片識別情報とを対応付けて上記記憶装置に記憶させるように構成されることが好適である。
 また、本発明の他の形態である音声合成方法は、
 互いに通信可能に接続されたサーバ装置及びクライアント装置を含む音声合成システムに適用され、
 上記クライアント装置が、文字列を表す文字列情報を受け付け、
 上記クライアント装置が、音声素片を特定する音声素片特定情報を、上記受け付けられた文字列情報に基づいて生成し、
 音声素片を表す音声素片情報を識別する音声素片識別情報と、音声素片を特定する音声素片特定情報と、を対応付けて記憶する記憶装置であって上記クライアント装置が備える記憶装置に、上記生成した音声素片特定情報と対応付けて記憶されている音声素片識別情報を、当該クライアント装置が上記サーバ装置へ送信し、
 上記サーバ装置が上記クライアント装置から上記音声素片識別情報を受信し、
 音声登録ユーザが発した音声に含まれる複数の音声素片のそれぞれを表す音声素片情報を、当該音声にて各音声素片が並ぶ順に従って並べた場合に、各音声素片情報を識別する音声素片識別情報の少なくとも1つが、所定の規則に従って並べられた情報と異なる情報を有するように、音声素片情報と音声素片識別情報とを対応付けて記憶する記憶装置であって上記サーバ装置が備える記憶装置に、上記受信された音声素片識別情報と対応付けて記憶されている音声素片情報を、当該サーバ装置が上記クライアント装置へ送信し、
 上記クライアント装置が上記サーバ装置から音声素片情報を受信し、当該受信した音声素片情報に基づいて、上記受け付けられた文字列情報が表す文字列を音声に変換した音声情報を生成する方法である。
 この場合、上記音声素片識別情報は、整数を表す情報であり、
 上記音声合成方法は、
 上記サーバ装置が上記音声素片情報と上記音声素片識別情報とを対応付けて上記記憶装置に記憶させる際、上記音声にて各音声素片が並ぶ順に従って、その音声素片に対応する音声素片識別情報が表す整数を並べた場合に、その整数が、隣接する2つの整数の組であって末尾側の整数が先頭側の整数に1を加えた値と異なる値を有する組を含むように、上記音声素片情報と上記音声素片識別情報とを対応付けて当該記憶装置に記憶させるように構成されることが好適である。
 この場合、上記音声合成方法は、
 上記サーバ装置が上記音声素片情報と上記音声素片識別情報とを対応付けて上記記憶装置に記憶させる際、上記音声にて各音声素片が並ぶ順に従って、その音声素片に対応する音声素片識別情報が表す整数を並べた場合に、その整数がランダムに並ぶように、上記音声素片情報と上記音声素片識別情報とを対応付けて当該記憶装置に記憶させるように構成されることが好適である。
 また、本発明の他の形態であるクライアント装置は、サーバ装置と通信可能に接続された装置である。
 更に、このクライアント装置は、
 音声登録ユーザが発した音声に含まれる複数の音声素片のそれぞれを表す音声素片情報を、当該音声にて各音声素片が並ぶ順に従って並べた場合に、各音声素片情報を識別する音声素片識別情報の少なくとも1つが、所定の規則に従って並べられた情報と異なる情報を有するように設定された音声素片識別情報と、音声素片を特定する音声素片特定情報と、を対応付けて記憶する音声素片識別情報記憶手段と、
 文字列を表す文字列情報を受け付ける文字列情報受付手段と、
 上記受け付けられた文字列情報に基づいて音声素片特定情報を生成し、当該生成した音声素片特定情報と対応付けて記憶されている音声素片識別情報を上記サーバ装置へ送信する音声素片識別情報送信手段と、
 上記サーバ装置から音声素片情報を受信し、当該受信した音声素片情報に基づいて、上記受け付けられた文字列情報が表す文字列を音声に変換した音声情報を生成する音声合成手段と、
 を備える。
 この場合、上記音声素片識別情報は、整数を表す情報であり、上記音声にて各音声素片が並ぶ順に従って、その音声素片に対応する音声素片識別情報が表す整数を並べた場合に、その整数が、隣接する2つの整数の組であって末尾側の整数が先頭側の整数に1を加えた値と異なる値を有する組を含むように設定されることが好適である。
 この場合、上記音声素片識別情報は、上記音声にて各音声素片が並ぶ順に従って、その音声素片に対応する音声素片識別情報が表す整数を並べた場合に、その整数がランダムに並ぶように設定されることが好適である。
 また、本発明の他の形態である音声合成プログラムは、
 サーバ装置と通信可能に接続されたクライアント装置に、
 文字列を表す文字列情報を受け付ける文字列情報受付手段と、
 上記受け付けられた文字列情報に基づいて音声素片特定情報を生成し、音声登録ユーザが発した音声に含まれる複数の音声素片のそれぞれを表す音声素片情報を、当該音声にて各音声素片が並ぶ順に従って並べた場合に、各音声素片情報を識別する音声素片識別情報の少なくとも1つが、所定の規則に従って並べられた情報と異なる情報を有するように設定された音声素片識別情報と、音声素片を特定する音声素片特定情報と、を対応付けて記憶する記憶装置に、当該生成した音声素片特定情報と対応付けて記憶されている音声素片識別情報を上記サーバ装置へ送信する音声素片識別情報送信手段と、
 上記サーバ装置から音声素片情報を受信し、当該受信した音声素片情報に基づいて、上記受け付けられた文字列情報が表す文字列を音声に変換した音声情報を生成する音声合成手段と、
 を実現させるためのプログラムである。
 この場合、上記音声素片識別情報は、整数を表す情報であり、上記音声にて各音声素片が並ぶ順に従って、その音声素片に対応する音声素片識別情報が表す整数を並べた場合に、その整数が、隣接する2つの整数の組であって末尾側の整数が先頭側の整数に1を加えた値と異なる値を有する組を含むように設定されることが好適である。
 この場合、上記音声素片識別情報は、上記音声にて各音声素片が並ぶ順に従って、その音声素片に対応する音声素片識別情報が表す整数を並べた場合に、その整数がランダムに並ぶように設定されることが好適である。
 上述した構成を有する、音声素片提供装置、音声素片提供方法、音声素片提供プログラム、音声合成方法、クライアント装置、又は、音声合成プログラム、の発明であっても、上記音声合成システムと同様の作用を有するために、上述した本発明の目的を達成することができる。
 以上、上記各実施形態を参照して本願発明を説明したが、本願発明は、上述した実施形態に限定されるものではない。本願発明の構成及び詳細に、本願発明の範囲内において当業者が理解し得る様々な変更をすることができる。
 例えば、上記各実施形態においては、サーバ装置20は、音声登録ユーザが発した音声にて各音声素片が並ぶ順に従って、その音声素片に対応する音声素片識別情報が表す整数を並べた場合に、その整数がランダムに並ぶように、音声素片情報と音声素片識別情報とを対応付けて記憶していた。
 ところで、上記各実施形態の変形例においては、サーバ装置20は、音声にて各音声素片が並ぶ順に従って、その音声素片に対応する音声素片識別情報が表す整数を並べた場合に、その整数が、隣接する2つの整数の組であって末尾側の整数が先頭側の整数に1を加えた値と異なる値を有する組を含むように、音声素片情報と音声素片識別情報とを対応付けて記憶していてもよい。
 これによれば、不正なユーザが使用するクライアント装置10が、連続する整数をサーバ装置20へ送信した場合であっても、音声登録ユーザが発した音声のうちの連続する複数の音声素片を含む部分をサーバ装置20がクライアント装置10へ送信することを防止することができる。従って、音声登録ユーザが発した音声のうちの連続する複数の音声素片を含む部分が、不正なユーザにより取得される可能性を低減することができる。
 また、上記各実施形態においては、音声素片識別情報は、整数であったが、実数であってもよく、文字列であってもよい。また、上記各実施形態においては、音声素片識別情報が表す整数は、10進数により表される整数であったが、N進数(Nは、10以外の数)により表される整数であってもよい。
 更に、上記各実施形態において、音声素片情報は、音声素片を波形により表した情報であってもよく、音声素片をパラメータ(例えば、PARCOR係数(Partial Auto-correlation Coefficient))により表した情報であってもよい。
 また、上記各実施形態の変形例においては、音声素片情報は、音声登録ユーザが発した音声を表す音声情報と、その音声における音声素片の開始位置及び終了位置を表す位置情報と、から構成されていてもよい。
 更に、上記各実施形態においては、1つの音声素片情報と対応付けて記憶されている音声素片識別情報は、1つのみであったが複数であってもよい。
 また、上記各実施形態は、ユーザにより入力された文字列情報を受け付けるように構成されていたが、予め記憶されている文字列情報を受け付けるように構成されていてもよく、他の装置から受信した文字列情報を受け付けるように構成されていてもよい。
 なお、本発明は、日本国にて2008年8月13日に出願された特願2008-208289の特許出願に基づく優先権主張の利益を享受するものであり、当該特許出願にて開示された内容のすべてが本明細書に含まれるものとする。
 本発明は、サーバ装置とクライアント装置とが通信を行うことにより音声合成処理を実行する音声合成システム等に適用可能である。
1   音声合成システム
10  クライアント装置
11  文字列情報受付部
12  音声素片識別情報記憶部
13  音声素片識別情報送信部
13a 言語解析部
13b 韻律生成部
13c 音声素片選択部
14  音声合成部
15  文字列情報送信部
16  音声情報受信部
20  サーバ装置
21  音声素片識別情報受信部
22  音声素片情報記憶部
23  音声素片情報送信部
23a エラー情報出力部
23b 通信遮断部
24  文字列情報受信部
25  音声素片情報取得部
26  音声合成部
27  音声情報送信部
100 音声合成システム
110 サーバ装置
111 音声素片情報記憶部
112 音声素片識別情報受信部
113 音声素片情報送信部
120 クライアント装置
121 音声素片識別情報記憶部
122 文字列情報受付部
123 音声素片識別情報送信部
124 音声合成部
 

Claims (26)

  1.  互いに通信可能に接続されたサーバ装置及びクライアント装置を含む音声合成システムであって、
     前記サーバ装置は、
     音声登録ユーザが発した音声に含まれる複数の音声素片のそれぞれを表す音声素片情報を、当該音声にて各音声素片が並ぶ順に従って並べた場合に、各音声素片情報を識別する音声素片識別情報の少なくとも1つが、所定の規則に従って並べられた情報と異なる情報を有するように、音声素片情報と音声素片識別情報とを対応付けて記憶する音声素片情報記憶手段と、
     前記クライアント装置から前記音声素片識別情報を受信する音声素片識別情報受信手段と、
     前記受信された音声素片識別情報に対応付けて記憶されている音声素片情報を前記クライアント装置へ送信する音声素片情報送信手段と、
     を備え、
     前記クライアント装置は、
     音声素片を特定する音声素片特定情報と、前記音声素片識別情報と、を対応付けて記憶する音声素片識別情報記憶手段と、
     文字列を表す文字列情報を受け付ける文字列情報受付手段と、
     前記受け付けられた文字列情報に基づいて音声素片特定情報を生成し、当該生成した音声素片特定情報と対応付けて記憶されている音声素片識別情報を前記サーバ装置へ送信する音声素片識別情報送信手段と、
     前記サーバ装置から音声素片情報を受信し、当該受信した音声素片情報に基づいて、前記受け付けられた文字列情報が表す文字列を音声に変換した音声情報を生成する音声合成手段と、
     を備える音声合成システム。
  2.  請求項1に記載の音声合成システムであって、
     前記音声素片識別情報は、整数を表す情報であり、
     前記音声素片情報記憶手段は、前記音声にて各音声素片が並ぶ順に従って、その音声素片に対応する音声素片識別情報が表す整数を並べた場合に、その整数が、隣接する2つの整数の組であって末尾側の整数が先頭側の整数に1を加えた値と異なる値を有する組を含むように、前記音声素片情報と前記音声素片識別情報とを対応付けて記憶するように構成された音声合成システム。
  3.  請求項2に記載の音声合成システムであって、
     前記音声素片情報記憶手段は、前記音声にて各音声素片が並ぶ順に従って、その音声素片に対応する音声素片識別情報が表す整数を並べた場合に、その整数がランダムに並ぶように、前記音声素片情報と前記音声素片識別情報とを対応付けて記憶するように構成された音声合成システム。
  4.  請求項2又は請求項3に記載の音声合成システムであって、
     前記音声素片情報記憶手段は、互いに類似する2つの音声素片の一方に対応する音声素片識別情報が表す整数が、当該2つの音声素片の他方に対応する音声素片識別情報が表す整数に1を加えた値となるように、前記音声素片情報と前記音声素片識別情報とを対応付けて記憶するように構成された音声合成システム。
  5.  請求項1乃至請求項4のいずれか一項に記載の音声合成システムであって、
     前記サーバ装置は、
     前記クライアント装置から受信した音声素片識別情報が前記音声素片情報記憶手段により記憶されていない場合、その旨を表すエラー情報を出力するエラー情報出力手段を備える音声合成システム。
  6.  請求項1乃至請求項5のいずれか一項に記載の音声合成システムであって、
     前記サーバ装置は、
     前記クライアント装置から受信した音声素片識別情報が前記音声素片情報記憶手段により記憶されていない場合、前記クライアント装置との間の通信を遮断する通信遮断手段を備える音声合成システム。
  7.  請求項1乃至請求項6のいずれか一項に記載の音声合成システムであって、
     前記音声素片情報記憶手段は、1つの音声素片を表す前記音声素片情報として、低音質の第1の音声素片情報と、当該第1の音声素片情報よりも高音質の第2の音声素片情報と、のそれぞれを記憶するように構成された音声合成システム。
  8.  請求項7に記載の音声合成システムであって、
     前記クライアント装置は、
     前記受け付けられた文字列情報を前記サーバ装置へ送信する文字列情報送信手段と、
     前記サーバ装置から送信された音声情報を受信する音声情報受信手段と、
     を備え、
     前記サーバ装置は、
     前記クライアント装置から送信された文字列情報を受信する文字列情報受信手段と、
     前記受信された文字列情報と、前記記憶されている第2の音声素片情報と、に基づいて当該受信された文字列情報が表す文字列を音声に変換した音声情報を生成する音声合成手段と、
     前記生成された音声情報を前記クライアント装置へ送信する音声情報送信手段と、
     を備える音声合成システム。
  9.  音声登録ユーザが発した音声に含まれる複数の音声素片のそれぞれを表す音声素片情報を、当該音声にて各音声素片が並ぶ順に従って並べた場合に、各音声素片情報を識別する音声素片識別情報の少なくとも1つが、所定の規則に従って並べられた情報と異なる情報を有するように、音声素片情報と音声素片識別情報とを対応付けて記憶する音声素片情報記憶手段と、
     前記音声素片識別情報を受信する音声素片識別情報受信手段と、
     前記受信された音声素片識別情報に対応付けて前記記憶装置に記憶されている音声素片情報を送信する音声素片情報送信手段と、
     を備える音声素片提供装置。
  10.  請求項9に記載の音声素片提供装置であって、
     前記音声素片識別情報は、整数を表す情報であり、
     前記音声素片情報記憶手段は、前記音声にて各音声素片が並ぶ順に従って、その音声素片に対応する音声素片識別情報が表す整数を並べた場合に、その整数が、隣接する2つの整数の組であって末尾側の整数が先頭側の整数に1を加えた値と異なる値を有する組を含むように、前記音声素片情報と前記音声素片識別情報とを対応付けて記憶するように構成された音声素片提供装置。
  11.  請求項10に記載の音声素片提供装置であって、
     前記音声素片情報記憶手段は、前記音声にて各音声素片が並ぶ順に従って、その音声素片に対応する音声素片識別情報が表す整数を並べた場合に、その整数がランダムに並ぶように、前記音声素片情報と前記音声素片識別情報とを対応付けて記憶するように構成された音声素片提供装置。
  12.  音声登録ユーザが発した音声に含まれる複数の音声素片のそれぞれを表す音声素片情報を、当該音声にて各音声素片が並ぶ順に従って並べた場合に、各音声素片情報を識別する音声素片識別情報の少なくとも1つが、所定の規則に従って並べられた情報と異なる情報を有するように、音声素片情報と音声素片識別情報とを対応付けて記憶装置に記憶させ、
     前記音声素片識別情報を受信し、
     前記受信された音声素片識別情報に対応付けて前記記憶装置に記憶されている音声素片情報を送信する、音声素片提供方法。
  13.  請求項12に記載の音声素片提供方法であって、
     前記音声素片識別情報は、整数を表す情報であり、
     前記音声素片情報と前記音声素片識別情報とを対応付けて前記記憶装置に記憶させる際、前記音声にて各音声素片が並ぶ順に従って、その音声素片に対応する音声素片識別情報が表す整数を並べた場合に、その整数が、隣接する2つの整数の組であって末尾側の整数が先頭側の整数に1を加えた値と異なる値を有する組を含むように、前記音声素片情報と前記音声素片識別情報とを対応付けて前記記憶装置に記憶させる、音声素片提供方法。
  14.  請求項13に記載の音声素片提供方法であって、
     前記音声素片情報と前記音声素片識別情報とを対応付けて前記記憶装置に記憶させる際、前記音声にて各音声素片が並ぶ順に従って、その音声素片に対応する音声素片識別情報が表す整数を並べた場合に、その整数がランダムに並ぶように、前記音声素片情報と前記音声素片識別情報とを対応付けて前記記憶装置に記憶させる、音声素片提供方法。
  15.  記憶装置を備える音声素片提供装置に、
     音声登録ユーザが発した音声に含まれる複数の音声素片のそれぞれを表す音声素片情報を、当該音声にて各音声素片が並ぶ順に従って並べた場合に、各音声素片情報を識別する音声素片識別情報の少なくとも1つが、所定の規則に従って並べられた情報と異なる情報を有するように、音声素片情報と音声素片識別情報とを対応付けて前記記憶装置に記憶させる音声素片情報記憶処理手段と、
     前記音声素片識別情報を受信する音声素片識別情報受信手段と、
     前記受信された音声素片識別情報に対応付けて前記記憶装置に記憶されている音声素片情報を送信する音声素片情報送信手段と、
     を実現させるための音声素片提供プログラム。
  16.  請求項15に記載の音声素片提供プログラムであって、
     前記音声素片識別情報は、整数を表す情報であり、
     前記音声素片情報記憶処理手段は、前記音声にて各音声素片が並ぶ順に従って、その音声素片に対応する音声素片識別情報が表す整数を並べた場合に、その整数が、隣接する2つの整数の組であって末尾側の整数が先頭側の整数に1を加えた値と異なる値を有する組を含むように、前記音声素片情報と前記音声素片識別情報とを対応付けて前記記憶装置に記憶させるように構成された音声素片提供プログラム。
  17.  請求項16に記載の音声素片提供プログラムであって、
     前記音声素片情報記憶処理手段は、前記音声にて各音声素片が並ぶ順に従って、その音声素片に対応する音声素片識別情報が表す整数を並べた場合に、その整数がランダムに並ぶように、前記音声素片情報と前記音声素片識別情報とを対応付けて前記記憶装置に記憶させるように構成された音声素片提供プログラム。
  18.  互いに通信可能に接続されたサーバ装置及びクライアント装置を含む音声合成システムに適用され、
     前記クライアント装置が、文字列を表す文字列情報を受け付け、
     前記クライアント装置が、音声素片を特定する音声素片特定情報を、前記受け付けられた文字列情報に基づいて生成し、
     音声素片を表す音声素片情報を識別する音声素片識別情報と、音声素片を特定する音声素片特定情報と、を対応付けて記憶する記憶装置であって前記クライアント装置が備える記憶装置に、前記生成した音声素片特定情報と対応付けて記憶されている音声素片識別情報を、当該クライアント装置が前記サーバ装置へ送信し、
     前記サーバ装置が前記クライアント装置から前記音声素片識別情報を受信し、
     音声登録ユーザが発した音声に含まれる複数の音声素片のそれぞれを表す音声素片情報を、当該音声にて各音声素片が並ぶ順に従って並べた場合に、各音声素片情報を識別する音声素片識別情報の少なくとも1つが、所定の規則に従って並べられた情報と異なる情報を有するように、音声素片情報と音声素片識別情報とを対応付けて記憶する記憶装置であって前記サーバ装置が備える記憶装置に、前記受信された音声素片識別情報と対応付けて記憶されている音声素片情報を、当該サーバ装置が前記クライアント装置へ送信し、
     前記クライアント装置が前記サーバ装置から音声素片情報を受信し、当該受信した音声素片情報に基づいて、前記受け付けられた文字列情報が表す文字列を音声に変換した音声情報を生成する、音声合成方法。
  19.  請求項18に記載の音声合成方法であって、
     前記音声素片識別情報は、整数を表す情報であり、
     前記サーバ装置が前記音声素片情報と前記音声素片識別情報とを対応付けて前記記憶装置に記憶させる際、前記音声にて各音声素片が並ぶ順に従って、その音声素片に対応する音声素片識別情報が表す整数を並べた場合に、その整数が、隣接する2つの整数の組であって末尾側の整数が先頭側の整数に1を加えた値と異なる値を有する組を含むように、前記音声素片情報と前記音声素片識別情報とを対応付けて当該記憶装置に記憶させる、音声合成方法。
  20.  請求項19に記載の音声合成方法であって、
     前記サーバ装置が前記音声素片情報と前記音声素片識別情報とを対応付けて前記記憶装置に記憶させる際、前記音声にて各音声素片が並ぶ順に従って、その音声素片に対応する音声素片識別情報が表す整数を並べた場合に、その整数がランダムに並ぶように、前記音声素片情報と前記音声素片識別情報とを対応付けて当該記憶装置に記憶させる、音声合成方法。
  21.  サーバ装置と通信可能に接続されたクライアント装置であって、
     音声登録ユーザが発した音声に含まれる複数の音声素片のそれぞれを表す音声素片情報を、当該音声にて各音声素片が並ぶ順に従って並べた場合に、各音声素片情報を識別する音声素片識別情報の少なくとも1つが、所定の規則に従って並べられた情報と異なる情報を有するように設定された音声素片識別情報と、音声素片を特定する音声素片特定情報と、を対応付けて記憶する音声素片識別情報記憶手段と、
     文字列を表す文字列情報を受け付ける文字列情報受付手段と、
     前記受け付けられた文字列情報に基づいて音声素片特定情報を生成し、当該生成した音声素片特定情報と対応付けて記憶されている音声素片識別情報を前記サーバ装置へ送信する音声素片識別情報送信手段と、
     前記サーバ装置から音声素片情報を受信し、当該受信した音声素片情報に基づいて、前記受け付けられた文字列情報が表す文字列を音声に変換した音声情報を生成する音声合成手段と、
     を備えるクライアント装置。
  22.  請求項21に記載のクライアント装置であって、
     前記音声素片識別情報は、整数を表す情報であり、前記音声にて各音声素片が並ぶ順に従って、その音声素片に対応する音声素片識別情報が表す整数を並べた場合に、その整数が、隣接する2つの整数の組であって末尾側の整数が先頭側の整数に1を加えた値と異なる値を有する組を含むように設定されたクライアント装置。
  23.  請求項22に記載のクライアント装置であって、
     前記音声素片識別情報は、前記音声にて各音声素片が並ぶ順に従って、その音声素片に対応する音声素片識別情報が表す整数を並べた場合に、その整数がランダムに並ぶように設定されたクライアント装置。
  24.  サーバ装置と通信可能に接続されたクライアント装置に、
     文字列を表す文字列情報を受け付ける文字列情報受付手段と、
     前記受け付けられた文字列情報に基づいて音声素片特定情報を生成し、音声登録ユーザが発した音声に含まれる複数の音声素片のそれぞれを表す音声素片情報を、当該音声にて各音声素片が並ぶ順に従って並べた場合に、各音声素片情報を識別する音声素片識別情報の少なくとも1つが、所定の規則に従って並べられた情報と異なる情報を有するように設定された音声素片識別情報と、音声素片を特定する音声素片特定情報と、を対応付けて記憶する記憶装置に、当該生成した音声素片特定情報と対応付けて記憶されている音声素片識別情報を前記サーバ装置へ送信する音声素片識別情報送信手段と、
     前記サーバ装置から音声素片情報を受信し、当該受信した音声素片情報に基づいて、前記受け付けられた文字列情報が表す文字列を音声に変換した音声情報を生成する音声合成手段と、
     を実現させるための音声合成プログラム。
  25.  請求項24に記載の音声合成プログラムであって、
     前記音声素片識別情報は、整数を表す情報であり、前記音声にて各音声素片が並ぶ順に従って、その音声素片に対応する音声素片識別情報が表す整数を並べた場合に、その整数が、隣接する2つの整数の組であって末尾側の整数が先頭側の整数に1を加えた値と異なる値を有する組を含むように設定された音声合成プログラム。
  26.  請求項25に記載の音声合成プログラムであって、
     前記音声素片識別情報は、前記音声にて各音声素片が並ぶ順に従って、その音声素片に対応する音声素片識別情報が表す整数を並べた場合に、その整数がランダムに並ぶように設定された音声合成プログラム。
     
PCT/JP2009/002814 2008-08-13 2009-06-22 音声合成システム WO2010018648A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2010524655A JP5408133B2 (ja) 2008-08-13 2009-06-22 音声合成システム
US13/000,340 US8620663B2 (en) 2008-08-13 2009-06-22 Speech synthesis system for generating speech information obtained by converting text into speech

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2008-208289 2008-08-13
JP2008208289 2008-08-13

Publications (1)

Publication Number Publication Date
WO2010018648A1 true WO2010018648A1 (ja) 2010-02-18

Family

ID=41668802

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2009/002814 WO2010018648A1 (ja) 2008-08-13 2009-06-22 音声合成システム

Country Status (3)

Country Link
US (1) US8620663B2 (ja)
JP (1) JP5408133B2 (ja)
WO (1) WO2010018648A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113411326A (zh) * 2021-06-17 2021-09-17 上海明略人工智能(集团)有限公司 用于音频加密的方法及装置、电子设备、系统、可读存储介质

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2424205B1 (de) * 2010-08-26 2019-03-13 Unify GmbH & Co. KG Verfahren und Anordnung zur automatischen Übertragung einer Zustandsinformation
US11843719B1 (en) * 2018-03-30 2023-12-12 8X8, Inc. Analysis of customer interaction metrics from digital voice data in a data-communication server system
US11763803B1 (en) * 2021-07-28 2023-09-19 Asapp, Inc. System, method, and computer program for extracting utterances corresponding to a user problem statement in a conversation between a human agent and a user

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003233386A (ja) * 2002-02-08 2003-08-22 Nippon Telegr & Teleph Corp <Ntt> 音声合成方法、音声合成装置および音声合成プログラム
JP2004185074A (ja) * 2002-11-29 2004-07-02 Nec Corp 文字列の暗号受信方法、プログラムおよびシステム
JP2006322962A (ja) * 2005-05-17 2006-11-30 Nippon Telegr & Teleph Corp <Ntt> 音声合成システム、クライアント装置、音声素片データベースサーバ装置、音声合成方法及びプログラム
WO2007141993A1 (ja) * 2006-06-05 2007-12-13 Panasonic Corporation 音声合成装置

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3344487B2 (ja) 1991-09-30 2002-11-11 日本電信電話株式会社 音声基本周波数パターン生成装置
JP3240691B2 (ja) 1992-07-07 2001-12-17 日本電信電話株式会社 音声認識方法
JP3518340B2 (ja) 1998-06-03 2004-04-12 日本電信電話株式会社 読み韻律情報設定方法及び装置及び読み韻律情報設定プログラムを格納した記憶媒体
GB9929284D0 (en) * 1999-12-11 2000-02-02 Ibm Voice processing apparatus
JP3379643B2 (ja) 2000-03-23 2003-02-24 日本電信電話株式会社 形態素解析方法および形態素解析プログラムを記録した記録媒体
US20020107918A1 (en) * 2000-06-15 2002-08-08 Shaffer James D. System and method for capturing, matching and linking information in a global communications network
FI20001918A (fi) * 2000-08-30 2002-03-01 Nokia Corp Monimodaalinen sisältö ja automaattinen puheen tunnistus langattomassa tietoliikennejärjestelmässä
US6970935B1 (en) * 2000-11-01 2005-11-29 International Business Machines Corporation Conversational networking via transport, coding and control conversational protocols
US7203648B1 (en) * 2000-11-03 2007-04-10 At&T Corp. Method for sending multi-media messages with customized audio
JP2002358092A (ja) * 2001-06-01 2002-12-13 Sony Corp 音声合成システム
US7076430B1 (en) * 2002-05-16 2006-07-11 At&T Corp. System and method of providing conversational visual prosody for talking heads
GB0229860D0 (en) * 2002-12-21 2003-01-29 Ibm Method and apparatus for using computer generated voice
JP4539537B2 (ja) * 2005-11-17 2010-09-08 沖電気工業株式会社 音声合成装置,音声合成方法,およびコンピュータプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003233386A (ja) * 2002-02-08 2003-08-22 Nippon Telegr & Teleph Corp <Ntt> 音声合成方法、音声合成装置および音声合成プログラム
JP2004185074A (ja) * 2002-11-29 2004-07-02 Nec Corp 文字列の暗号受信方法、プログラムおよびシステム
JP2006322962A (ja) * 2005-05-17 2006-11-30 Nippon Telegr & Teleph Corp <Ntt> 音声合成システム、クライアント装置、音声素片データベースサーバ装置、音声合成方法及びプログラム
WO2007141993A1 (ja) * 2006-06-05 2007-12-13 Panasonic Corporation 音声合成装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113411326A (zh) * 2021-06-17 2021-09-17 上海明略人工智能(集团)有限公司 用于音频加密的方法及装置、电子设备、系统、可读存储介质

Also Published As

Publication number Publication date
JPWO2010018648A1 (ja) 2012-01-26
US20110137655A1 (en) 2011-06-09
JP5408133B2 (ja) 2014-02-05
US8620663B2 (en) 2013-12-31

Similar Documents

Publication Publication Date Title
US7693719B2 (en) Providing personalized voice font for text-to-speech applications
JP3812848B2 (ja) 音声合成装置
JP5422754B2 (ja) 音声合成装置及び方法
CN105957515B (zh) 声音合成方法、声音合成装置和存储声音合成程序的介质
JP5408133B2 (ja) 音声合成システム
JP2007140200A (ja) 語学学習装置およびプログラム
WO2020175530A1 (ja) データ変換学習装置、データ変換装置、方法、及びプログラム
JP6184494B2 (ja) 音声合成辞書作成装置及び音声合成辞書作成方法
JP6179971B2 (ja) 情報提供装置及び情報提供方法
US8145490B2 (en) Predicting a resultant attribute of a text file before it has been converted into an audio file
KR20190048371A (ko) 음성 합성 장치 및 상기 음성 합성 장치에서의 음성 합성 방법
JP5408134B2 (ja) 音声合成システム
JP2009294269A (ja) 音声認識システム
CN113241054B (zh) 语音平滑处理模型生成方法、语音平滑处理方法及装置
CN114783408A (zh) 一种音频数据处理方法、装置、计算机设备以及介质
JP7117228B2 (ja) カラオケシステム、カラオケ装置
JP4769121B2 (ja) サーバ・クライアント型音声認識方法、装置およびサーバ・クライアント型音声認識プログラム、記録媒体
JP5949634B2 (ja) 音声合成システム、及び音声合成方法
JP2017198790A (ja) 音声評定装置、音声評定方法、教師変化情報の生産方法、およびプログラム
JP4244661B2 (ja) 音声データ提供システムならびに音声データ作成装置および音声データ作成プログラム
JP6640788B2 (ja) 言語変換プログラム及び言語変換装置
JP2007163875A (ja) 音声合成装置および音声合成プログラム
JP7088645B2 (ja) データ変換装置
JP6551848B2 (ja) データ処理装置、データ構造、データ処理方法、およびプログラム
JP2020056907A (ja) クラウド音声変換システム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 09806544

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 13000340

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 2010524655

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 09806544

Country of ref document: EP

Kind code of ref document: A1