WO2002073594A1 - Dispositif de synthese vocale - Google Patents

Dispositif de synthese vocale Download PDF

Info

Publication number
WO2002073594A1
WO2002073594A1 PCT/JP2002/002176 JP0202176W WO02073594A1 WO 2002073594 A1 WO2002073594 A1 WO 2002073594A1 JP 0202176 W JP0202176 W JP 0202176W WO 02073594 A1 WO02073594 A1 WO 02073594A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
sound quality
sound
unit
speech
Prior art date
Application number
PCT/JP2002/002176
Other languages
English (en)
French (fr)
Inventor
Nobuhide Yamazaki
Kenichiro Kobayashi
Yasuharu Asano
Shinichi Kariya
Yaeko Fujita
Original Assignee
Sony Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corporation filed Critical Sony Corporation
Priority to EP02702830A priority Critical patent/EP1367563A4/en
Priority to KR1020027014932A priority patent/KR20020094021A/ko
Publication of WO2002073594A1 publication Critical patent/WO2002073594A1/ja

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation

Definitions

  • the present invention relates to a speech synthesizer, and more particularly to, for example, a speech synthesizer that can generate emotionally rich synthesized speech.
  • a corresponding synthesized speech is generated by giving a text ⁇ phonetic symbol ⁇ .
  • a pet mouth pot that incorporates an emotion model representing an emotional state and follows or does not obey a user's command according to the emotional state represented by the emotion model.
  • the present invention has been made in view of such a situation, and is intended to generate a synthetic sound with rich emotion by generating a synthetic sound having a changed sound quality in accordance with an emotional state. is there.
  • the voice synthesizing device includes a sound quality influence information generating unit that generates sound quality influence information that influences the sound quality of a synthesized sound based on state information that represents an emotional state, which is supplied from the outside, among predetermined information.
  • Voice synthesis means for generating a synthesized voice with controlled sound quality using the sound quality influence information.
  • the voice synthesis method includes: a sound quality effect information generating step of generating, from among predetermined information, sound quality effect information that affects the sound quality of a synthesized sound based on state information, which is supplied from the outside and indicates an emotional state; And a voice synthesizing step of generating a synthesized sound with controlled sound quality using the sound quality influence information.
  • the program according to the present invention includes a sound quality influence information generating step of generating sound quality influence information that affects the sound quality of the synthesized sound based on state information that represents an emotional state, which is supplied from outside, among predetermined information. And a voice synthesizing step of generating a synthesized voice with controlled sound quality using the sound quality influence information.
  • the recording medium of the present invention includes: a sound quality influence information generating step of generating sound quality influence information that affects the sound quality of a synthesized sound, based on state information that represents an emotional state, which is supplied from outside; It is characterized in that a program including a voice synthesis step of generating a synthesized voice with controlled sound quality using the sound quality influence information is recorded.
  • sound quality influence information affecting the sound quality of the synthesized sound is generated based on state information representing the state of emotion supplied from the outside, and using the sound quality influence information, A synthesized sound with controlled sound quality is generated.
  • FIG. 1 is a perspective view showing an external configuration example of an embodiment of a robot to which the present invention is applied.
  • FIG. 2 is a block diagram showing an example of the internal configuration of the mouth pot.
  • FIG. 3 is a block diagram illustrating a functional configuration example of the controller 10.
  • FIG. 4 is a block diagram illustrating a configuration example of the voice recognition unit 5OA.
  • FIG. 5 is a block diagram illustrating a configuration example of the speech synthesis unit 55.
  • FIG. 6 is a block diagram showing a configuration example of the rule synthesizing unit 32.
  • FIG. 7 is a flowchart illustrating the process of the rule combining unit 32.
  • FIG. 8 is a block diagram showing a first configuration example of the waveform generation unit 42.
  • FIG. 9 is a block diagram illustrating a first configuration example of the data conversion unit 44.
  • FIG. 10A is a diagram showing characteristics of a high-frequency emphasis filter. .
  • FIG. 10B is a diagram illustrating characteristics of a high-frequency suppression filter.
  • FIG. 11 is a block diagram showing a second configuration example of the waveform generation unit 42. As shown in FIG.
  • FIG. 12 is a block diagram illustrating a second configuration example of the data conversion unit 44.
  • FIG. 13 is a block diagram showing a configuration example of a computer according to an embodiment of the present invention.
  • FIG. 1 shows an example of an external configuration of an embodiment of a mouth pot to which the present invention is applied
  • FIG. 2 shows an example of an electrical configuration thereof.
  • the mouth pot is in the shape of a four-legged animal such as a dog, for example, and the leg unit 3 A,
  • 3B, 3C, and 3D are connected, and a head unit 4 and a tail unit 5 are connected to the front end and the rear end of the body unit 2, respectively.
  • the tail unit 5 is drawn out from a base unit 5B provided on the upper surface of the body unit 2 so as to bend or swing with two degrees of freedom.
  • the body unit 2 contains a controller 10 that controls the entire mouth pot, a battery 11 that serves as a power source for the pot, and an internal sensor unit 14 that includes a battery sensor 12 and a heat sensor 13. Have been.
  • the head unit 4 includes a microphone (microphone) 15 corresponding to the “ear”, a CCD (Charge Coup led Device) camera 16 corresponding to the “eye”, a sunset sensor 17 corresponding to the tactile sense, and a “mouth”. Corresponding loudspeakers 18 and the like are arranged at predetermined positions.
  • a lower jaw 4A corresponding to the lower jaw of the mouth is movably attached to the head unit 4, and the lower jaw 4A moves, thereby opening and closing the mouth of the robot. It has become so.
  • the evening sensor 17 is provided, for example, at the upper part of the head unit 4 and detects a pressure received by a physical action such as “stroking” or “slapping” from a user, and detects the pressure as a result.
  • the battery sensor 12 in the body unit 2 that sends the detection signal to the controller 10 detects the remaining amount of the battery 11 and sends the detection result to the controller 10 as a remaining battery detection signal.
  • the heat sensor 13 detects the heat inside the robot, and sends the detection result to the controller 10 as a heat detection signal.
  • the controller 10 has a built-in CPU (Central Processing Unit) 10A, a memory 10B, etc., and executes various control processes by executing a control program stored in the memory 10B in the CPU 10A. Do.
  • CPU Central Processing Unit
  • the controller 10 includes a microphone 15, a CCD camera 16, a sunset sensor 17, a battery sensor 12, and a voice signal, an image signal, a pressure detection signal, a remaining battery detection signal, and a heat detection signal supplied from the heat sensor 13. Based on the situation, it is determined whether there is a surrounding situation ⁇ , a command from the user, an action from the user, or the like.
  • the controller 10 based on the determination results and the like, to determine the subsequent actions, based on the determination result, Akuchiyue Ichita 3 to 3 AA K, 3 BA, ⁇ Itaru 3 BA K, 3 CA, or 3 CA K , 3DA, through 3DA K , 4A, through 4A or 5A 5 those driving the need of A 2.
  • the head unit 4 is swung up, down, left and right, and the lower jaw 4A is opened and closed.
  • the tail unit 5 is moved, and the leg units 3A to 3D are driven to perform actions such as walking the mouth pot.
  • the controller 10 generates a synthesized sound as necessary and supplies it to the speaker 18 for output, or turns on an unillustrated LED (Light Emitting Diode) provided at the position of an eye of the robot. Turns off or blinks.
  • LED Light Emitting Diode
  • the mouth pot takes an autonomous action based on the surrounding conditions and the like.
  • FIG. 3 shows an example of a functional configuration of the controller 10 of FIG. Note that the functional configuration shown in FIG. 3 is realized by the CPU 10A executing a control program stored in the memory 10B.
  • the controller 10 includes a sensor input processing unit 50 that recognizes a specific external state, a model storage unit 51 that accumulates recognition results of the sensor input processing unit 50 and expresses emotions, instinct, and growth states, and a sensor input processing. Based on the recognition result of the unit 50, an action determination mechanism unit 52 that determines a subsequent action, a posture transition mechanism unit 53 that actually causes the mouth pot to perform an action based on the determination result of the action determination mechanism unit 52, and each actuary and a one evening 3 AA (or 5 and 5 a 2 controlling drive control mechanism unit 54 and speech synthesizer 55 to generate the synthesized sound.
  • a sensor input processing unit 50 that recognizes a specific external state
  • a model storage unit 51 that accumulates recognition results of the sensor input processing unit 50 and expresses emotions, instinct, and growth states
  • a sensor input processing Based on the recognition result of the unit 50, an action determination mechanism unit 52 that determines a subsequent action, a posture transition mechanism unit 53 that actually causes the mouth pot to perform an action based on the
  • the sensor input processing unit 50 performs a specific external state or a specific action from a user based on a voice signal, an image signal, a pressure detection signal, and the like provided from the microphone 15, the CCD camera 16, the evening sensor 17, and the like. Recognize an instruction or the like from the user, and notify the model storage unit 51 and the action determination mechanism unit 52 of state recognition information representing the recognition result.
  • the sensor input processing unit 50 has a voice recognition unit 5OA, and the voice recognition unit 5OA performs voice recognition on a voice signal given from the microphone 15. Then, the voice recognition unit 5 OA outputs, for example, “walk”, A command such as “prone” or “follow the pole” is notified to the model storage unit 51 and the action determination mechanism unit 52 as state recognition information.
  • the sensor input processing section 50 has an image recognition section 50B, and the image recognition section 50B performs an image recognition process using an image signal given from the CCD camera 16.
  • the image recognition unit 50B detects, for example, a “red round object” or a “plane that is perpendicular to the ground and equal to or more than a predetermined height” as a result of the processing,
  • the result of image recognition such as "there is” or "there is a wall” is notified to the model storage unit 51 and the action determination mechanism unit 52 as state recognition information. .
  • the sensor input processing section 50 has a pressure processing section 50C; the pressure processing section 50C processes a pressure detection signal given from the evening sensor 17. Then, when the pressure processing unit 50C detects a pressure that is equal to or higher than a predetermined threshold value for a short period of time as a result of the processing, the pressure processing unit 50C recognizes “hit”, and When the pressure is detected below the threshold value and for a long time, it is recognized as “patched (praised)”, and the recognition result is used as state recognition information as the model storage unit 51 and the action determination mechanism. Notify Part 52.
  • the model storage unit 51 stores and manages an emotion model, an instinct model, and a growth model expressing the emotion, instinct, and growth state of the mouth pot.
  • the emotion model indicates, for example, the state (degree) of emotions such as “joy”, “sadness”, “anger”, and “fun” in a predetermined range (for example, from 1.0 to 1.0). 0, etc.), and the values are changed based on the state recognition information from the sensor input processing unit 50, the passage of time, and the like.
  • the instinct model expresses the state (degree) of desire by instinct such as “appetite”, “sleep desire”, and “exercise desire” by a value in a predetermined range, and recognizes the state from the sensor input processing unit 50. The value is changed based on the information or the passage of time.
  • the growth model expresses, for example, a growth state (degree) such as “childhood”, “adolescence”, “mature”, “elderly”, etc. by a value in a predetermined range. The value is changed based on the state recognition information or the passage of time.
  • the model storage unit 51 sends the emotion model, the instinct model, and the state of growth represented by the values of the emotion model, instinct model, and growth model as described above to the action determination mechanism unit 52 as state information.
  • the model storage unit 51 is supplied with the state recognition information from the sensor input processing unit 50, and the current or past action of the mouth pot, specifically, from the action determination mechanism unit 52, For example, behavior information indicating the content of the behavior such as "walking for a long time" is supplied, and the model storage unit 51 indicates the behavior information even if the same state recognition information is given. Different state information is generated according to the action of the mouth pot.
  • the behavior information indicating that the user greeted the user and the state recognition information indicating that the head was stroked are included.
  • the model storage unit 51 the value of the emotion model representing “joy” is increased.
  • the model storage unit 51 does not change the value of the emotion model representing “joy”.
  • the model storage unit 51 sets the value of the emotion model while referring to not only the state recognition information but also the behavior information indicating the behavior of the current or past robot. This can result in unnatural emotions, such as increasing the value of an emotional model representing joy when a user strokes his head while performing a task while performing a task. Can be prevented from occurring.
  • the model storage unit 51 increases and decreases the values of the instinct model and the growth model based on both the state recognition information and the behavior information, as in the case of the emotion model. In addition, the model storage unit 51 increases or decreases the values of the emotion model, the instinct model, and the growth model based on the values of other models.
  • the action decision mechanism 52 decides the next action based on the state recognition information from the sensor input processing section 50, the state information from the model storage section 51, the passage of time, and the like. The content of the action is sent as action command information to the posture transition mechanism section 53. That is, the action determination mechanism section 52 generates a finite automaton that associates the action that the mouth pot can take with the state (state).
  • the behavior of the finite automaton as the behavior model is controlled by the state recognition information from the sensor input processing unit 50 and the emotion in the model storage unit 51. Transition based on the value of the model, instinct model, or growth model, elapsed time, etc., and determine the action corresponding to the state after the transition as the action to be taken next.
  • the action determining mechanism 52 detects that a predetermined trigger (trigger) has been received, the state is changed. That is, for example, when the time during which the action corresponding to the current state is being executed has reached a predetermined time, or when specific state recognition information is received, the action determining mechanism 52 The state is transited when the value of the emotion, instinct, or growth state indicated by the state information supplied from the server becomes equal to or less than a predetermined threshold.
  • the action determination mechanism 52 includes not only the state recognition information from the sensor input processor 50 but also the emotion model, the instinct model, and the value of the growth model in the model storage 51.
  • the state transitions in the behavior model are also based on the above, so even if the same state recognition information is input, depending on the emotion model, instinct model, and the value of the growth model (state information), the state transition destination is Will be different.
  • the action determination mechanism 52 When a palm is presented to the user, action command information that causes the user to take the action of "the hand” is generated in response to the palm being presented in front of the eyes. It is sent to the posture transition mechanism 53.
  • the behavior determination mechanism unit 52 determines that the state recognition information indicates “the palm in front of the eyes.
  • the action command information for performing an action such as ⁇ palm licking the palm '' is generated in response to the palm being presented in front of the eyes. This is sent to the posture transition mechanism 53.
  • the action determination mechanism unit 52 indicates that the state recognition information indicates “the palm is put in front of the eyes”.
  • the status information indicates that you are hungry, or that the status information indicates that you are not hungry, perform an action such as turning to the side Action command information for causing the posture transition mechanism 53 to be sent.
  • the behavior determination mechanism unit 52 stores the parameters of the action corresponding to the transition destination state based on the emotion, instinct, and growth state indicated by the state information supplied from the model storage unit 51. For example, it is possible to determine the walking speed, the magnitude and speed of the movement when moving the limbs, and in this case, the action command information including those parameters is transmitted to the posture transition mechanism unit 53 Sent to
  • the action determining mechanism 52 generates action command information for operating the head, hands and feet of the mouth pot, and also action command information for causing the robot to speak.
  • the action command information for causing the robot to speak is supplied to the voice synthesis unit 55.
  • the action command information supplied to the voice synthesizing unit 55 includes a text or the like corresponding to the synthesized sound generated by the voice synthesizing unit 55.
  • the voice synthesis section 55 upon receiving the action command information from the action determination section 52, the voice synthesis section 55 generates a synthesized sound based on the text included in the action command information, and supplies the synthesized sound to the speaker 18 for output. Let it.
  • the speaker 18 outputs, for example, a roar of the robot, various requests to the user such as “hungry”, a response to the user's call such as “what?”, And other audio output.
  • the voice synthesizing unit 55 is also supplied with state information from the model storage unit 51, and the voice synthesizing unit 55 controls the sound quality based on the emotional state indicated by the state information. It is possible to generate sound. Note that the speech synthesis unit 55 can generate a synthesized sound in which the sound quality is controlled based on the instinct and the state of growth in addition to emotion.
  • the posture transition mechanism unit 53 generates posture transition information for transitioning the posture of the mouth pot from the current posture to the next posture based on the behavior command information supplied from the behavior determination mechanism unit 52. This is sent to the control mechanism 54.
  • the postures that can be transitioned from the current posture to the next are, for example, the physical shape of the mouth pot such as the shape, weight, connection state of each part, the direction of the joint bending, Akuchiyue Isseki 3 AA such as angles, or are determined Te 5 and 5 a 2 mechanism and Niyotsu.
  • the next posture includes a posture that can make a transition directly from the current posture, and a posture that cannot make a transition directly.
  • a posture that can make a transition directly from the current posture and a posture that cannot make a transition directly.
  • a four-legged mouth pot can directly transition from a state in which the limbs are thrown out and lying down to a prone state, but cannot directly transition to a standing state. A two-step movement is required, in which the body is pulled down near the fuselage, becomes prone, and then stands up.
  • postures that cannot be safely executed For example, a four-legged mouth pot can easily fall over if you try to banzai with both forelimbs while standing on the four legs.
  • the posture transition mechanism unit 53 pre-registers a posture that can be directly transited, and if the action command information supplied from the behavior determination mechanism unit 52 indicates a posture that can be directly transited, The action command information is sent to the control mechanism 54 as it is as posture transition information. On the other hand, if the action command information indicates a posture that cannot be directly transited, the posture transition mechanism unit 53 temporarily transitions to another transitable posture and then transits to the target posture. Is generated and sent to the control mechanism 54. This causes the robot to try to execute a posture that cannot be transitioned It is possible to avoid the situation and the situation of falling.
  • Control mechanism unit 54 in accordance with the posture transition information from the attitude transition mechanism part 53 generates a control signal for driving Akuchiyue Isseki 3 A to 5 A, and 5 A 2, which, Akuchiyue Isseki 3 AA, to be sent to 5 At and 5 a 2. More This Akuchiyue Isseki 3 AA [to 5 and 5 A 2 is driven in accordance with control signals, mouth pot, it causes autonomously act.
  • FIG. 4 illustrates a configuration example of the voice recognition unit 5OA in FIG.
  • the audio signal from the microphone 15 is supplied to an AD (Analog Digital) converter 21.
  • the AD converter 21 samples and quantizes an audio signal, which is an analog signal from the microphone 15, and A / D converts the audio signal into digital audio data.
  • This audio data is supplied to the feature extraction unit 22 and the audio section detection unit 27.
  • the feature extraction unit 22 performs, for example, an MFCC (Mel Frequency Cepstrum Coefficient) analysis for each appropriate frame on the audio data input thereto, and converts the MF CC obtained as a result of the analysis into a special parameter (Special vector) is output to the matching unit 23.
  • the feature extraction unit 22 can also extract, for example, a linear prediction coefficient, a cepstrum coefficient, a line spectrum pair, and power (output of a filter bank) for each predetermined frequency band as a feature parameter.
  • the matching unit 23 uses the feature parameters from the feature extraction unit 22 to refer to the acoustic model storage unit 24, the dictionary storage unit 25, and the grammar storage unit 26 as needed, and Recognize speech (input speech) based on, for example, the continuous distribution HMM (Hidden Markov Model) method.
  • HMM Hidden Markov Model
  • the acoustic model storage unit 24 stores acoustic models representing acoustic features such as individual phonemes and syllables in the language of the speech to be recognized.
  • HMM Hidden Markov Model
  • the dictionary storage unit 25 stores, for each word to be recognized, Then, it stores a word dictionary in which information (phonological information) about its pronunciation is described.
  • the grammar storage unit 26 stores grammar rules that describe how each word registered in the word dictionary of the dictionary storage unit 25 is linked (connected).
  • the grammar rule for example, a rule based on a context-free grammar (CFG) or a statistical word chain probability (N-gram) can be used.
  • CFG context-free grammar
  • N-gram statistical word chain probability
  • the matching unit 23 connects the acoustic models stored in the acoustic model storage unit 24 by referring to the word dictionary in the dictionary storage unit 25, and converts the acoustic model (word model) of the word. Constitute. Further, the matching unit 23 connects several word models by referring to the grammar rules stored in the grammar storage unit 26, and uses the thus connected word models to generate feature parameters. Based on, the speech input to the microphone 15 is recognized by the continuous distribution HMM method. That is, the matching unit 23 detects the sequence of the word model having the highest score (likelihood) at which the feature parameter of the time series output by the feature extraction unit 22 is observed, and determines the sequence of the word model as the sequence. The phoneme information (reading) of the corresponding word string is output as a speech recognition result.
  • the matching unit 23 accumulates the appearance (output) probabilities of each feature parameter over time for the word string corresponding to the connected word model, sets the accumulated value as a score, and sets the score to the most.
  • the phoneme information of the word string to be raised is output as a speech recognition result.
  • the recognition result of the voice input to the microphone 15 output as described above is output to the model storage unit 51 and the action determination mechanism unit 52 as state recognition information.
  • the speech section detection unit 27 calculates the phase of the speech data from the AD conversion unit 21 for each frame, for example, in the same manner as the feature extraction unit 22 performs the MFCC analysis. Further, the voice section detection unit 27 compares the phase of each frame with a predetermined threshold value, and determines a section composed of frames having power equal to or higher than the predetermined threshold value in a voice section in which the user's voice is input. Detected as And voice The section detection section 27 supplies the detected voice section to the feature extraction section 22 and the matching section 23. The feature extraction section 22 and the matching section 23 perform processing only on the voice section. . Note that the method of detecting a voice section in the voice section detection unit 27 is not limited to the method based on the comparison between the power and the threshold as described above.
  • FIG. 5 shows a configuration example of the speech synthesis unit 55 of FIG.
  • the text analysis unit 31 is supplied with action command information including a text to be subjected to speech synthesis, which is output from the action determination mechanism unit 52, and the text analysis unit 31 includes a dictionary storage unit.
  • the text included in the action command information is analyzed with reference to 34 and the grammar storage unit 35 for generation.
  • the dictionary storage unit 34 stores a word dictionary in which part-of-speech information of each word and information such as readings and accents are described.
  • the grammar storage unit for generation 35 stores dictionary data. For the words described in the word dictionary of Part 34, grammar rules for generation such as restrictions on word chains are stored. Then, based on the word dictionary and the grammar rules for generation, the text analysis unit 31 performs text analysis (language analysis) such as morphological analysis and syntax analysis of the text input thereto, and a subsequent rule synthesizing unit. 3 Extract the information necessary for the rule-based speech synthesis performed in 2.
  • the information necessary for the rule-based speech synthesis includes, for example, pause positions, prosody information for controlling the accent, intonation, power, etc., and phonological information representing the pronunciation of each word.
  • the information obtained by the text analysis unit 31 is supplied to the rule synthesis unit 32, and the rule synthesis unit 32 refers to the voice information storage unit 36 and reads the text input to the text analysis unit 31. Generates speech data (digital data) of the synthesized sound corresponding to.
  • the speech information storage unit 36 stores, as speech information, speech segment data in the form of waveform data such as CV (Consonant, Volume), VCV, CVC, and one pitch.
  • the unit 32 connects necessary phoneme data based on the information from the text analysis unit 31 and further processes the waveform of the phoneme data. Thus, a pause, accent, intonation, and the like are appropriately added, thereby generating a speech data of a synthetic sound corresponding to the text input to the text analysis unit 31 (synthetic sound data).
  • the speech information storage unit 36 stores, for example, waveform data such as linear prediction coefficients (LPCs) and cepstrum (cepstrum) coefficients in the acoustic analysis.
  • LPCs linear prediction coefficients
  • cepstrum cepstrum
  • the feature parameters of the speech obtained by the speech synthesis are stored as speech information, and the rule synthesizing unit 32 extracts necessary feature parameters for speech synthesis based on the information from the text analysis unit 31.
  • the rule synthesizing unit 32 extracts necessary feature parameters for speech synthesis based on the information from the text analysis unit 31.
  • As a tap coefficient of the synthesis filter and by controlling a sound source or the like that outputs a drive signal to be applied to the synthesis filter, pauses, accents, intonations, etc. are appropriately added.
  • the rule synthesizing unit 32 is supplied with state information from the model storage unit 51, and the rule synthesizing unit 32, based on, for example, the value of the emotion model in the state information
  • the sound quality is controlled by generating a controlled sound quality from the voice information stored in the voice information storage unit 36 or generating various synthesis control parameters for controlling the rule-based voice synthesis. Generate synthesized speech data.
  • the synthesized sound data generated as described above is supplied to the speaker 18, whereby the synthesized sound corresponding to the text input to the text analyzer 31 is output from the speaker 18 according to the emotion.
  • the sound quality is controlled and output.
  • the action determining mechanism 52 in FIG. 3 determines the next action based on the action model, but the content of the text output as a synthesized sound is as follows. It is possible to associate them.
  • FIG. 6 shows a configuration example of the rule synthesizing unit 32 of FIG.
  • the prosody generation unit 41 is supplied with the text analysis result of the text analysis unit 31 (FIG. 5), and the prosody generation unit 41 includes, for example, pose positions, accents, intonations included in the text analysis results. Based on the prosody information indicating the power and the phoneme information, etc., a prosody data is generated to control the prosody of the synthesized sound, so to speak, specifically.
  • the prosody data generated by the prosody generation unit 41 is supplied to the waveform generation unit 42.
  • the prosody control unit 41 calculates the duration of each phoneme composing the synthesized sound, a periodic pattern signal indicating the time change pattern of the pitch period of the synthesized sound, and the time change pattern of the power of the synthesized sound.
  • a power-powder signal to be represented is generated as prosody data.
  • the waveform generation unit 42 is supplied with the prosody data and the text analysis result by the text analysis unit 31 (FIG. 5). Further, the waveform generation unit 42 is supplied with the synthesis control parameters from the parameter generation unit 43.
  • the waveform generation unit 42 reads necessary converted voice information from the converted voice information storage unit 45 according to the phoneme information included in the text analysis result, and performs regular voice synthesis using the converted voice information. Generate synthetic sounds. Further, when performing regular speech synthesis, the waveform generation unit 42 generates a waveform of the synthesized sound data based on the prosody data from the prosody generation unit 41 and the synthesis control parameters from the parameter generation unit 43. By adjusting the shape, the prosody and sound quality of the synthesized sound are controlled. Then, the waveform generator 42 outputs the finally obtained synthesized sound data.
  • the parameter overnight generator 43 is supplied with state information from the model storage 51 (FIG. 3).
  • the parameter generation unit 43 includes a synthesis control parameter for controlling the rule-based speech synthesis in the waveform generation unit 42 based on the emotion model of the state information, and a speech information storage unit 36 (FIG. 5).
  • (1) Generate conversion parameters for converting the voice information stored in (2).
  • the parameter generation unit 43 may use, as emotion models, “joy”, “sadness”, “anger”, “fun”, “excitation”, “sleepy”, “comfortable”,
  • a conversion table in which synthesis control parameters and conversion parameters are associated with values representing emotional states such as “discomfort” (hereinafter referred to as emotion model values as appropriate) is stored.
  • emotion model values as appropriate
  • the conversion template stored in the parameter generation unit 43 includes an emotion model value, a synthesis control parameter, and a conversion parameter so that a synthesized sound having a sound quality representing the emotional state of the pet robot can be obtained. It is configured so as to correspond to the evening. How the emotion model value is associated with the synthesis control parameter and the conversion parameter can be determined, for example, by performing a simulation.
  • the synthesis control parameters and the conversion parameters are obtained from the emotion model values using the conversion table.
  • the synthesis control parameters and the conversion parameters are, for example, It is also possible to obtain as follows. ⁇ That is, for example, the emotion model value of a certain emotion # n is P n , a certain synthetic control parameter or a conversion parameter is Q i, and a predetermined function is f
  • represents a summary for the variable n.
  • a conversion table is used that considers all emotion model values such as "joy”, “sadness”, “anger”, and “fun”. It is also possible to use a simplified conversion table such as the following, that is, to change the emotional state to, for example, only one of “steady”, “sadness”, “angry j", “fun”, etc. Classify and give each emotion an emotion number as a unique number. That is, for example, emotion numbers such as 0, 1, 2, and 3 are assigned to “stationary”, “sadness”, “anger”, and “fun”, respectively. Then, such an emotion number is associated with the synthesis control parameters and the conversion parameters. Create a digit conversion table.
  • the synthesis control parameters generated by the parameter generation unit 43 include, for example, 'parameter adjustment for adjusting the volume balance of each sound such as voiced sound, unvoiced fricative sound, and plosive sound, and waveform generation.
  • a synthetic sound such as a parameter for controlling the magnitude of the amplitude fluctuation of the output signal of the drive signal generating unit 60 (FIG. 8) described later as a sound source in the unit 42, a parameter for controlling the frequency of the sound source, and the like. This includes parameters that affect the sound quality of the sound.
  • the conversion parameter generated by the parameter generation unit 43 converts the voice information in the voice information storage unit 36 (FIG. 5) so as to change the characteristics of the waveform data constituting the synthesized sound. It is for.
  • the synthesis control parameters generated by the parameter generation unit 43 are supplied to the waveform generation unit 42, and the conversion parameters are supplied to the data conversion unit 44.
  • the data conversion unit 44 reads the voice information from the voice information storage unit 36 and converts the voice information according to the conversion parameters.
  • the conversion unit 44 obtains converted voice information as voice information for changing the characteristics of the waveform data constituting the synthesized sound, and supplies the converted voice information to the converted voice information storage unit 45.
  • the converted voice information storage unit 45 stores the converted voice information supplied from the data conversion unit 44. This converted voice information is read by the waveform generation unit 42 as needed.
  • the text analysis result output by the text analysis unit 31 in FIG. 5 is supplied to the prosody generation unit 41 and the waveform generation unit 42.
  • the state output by the model storage unit 51 in FIG. The state information is supplied to the parameter generation unit 43.
  • step S1 the prosody generation unit 41 Upon receiving the text analysis result, in step S1, the prosody generation unit 41 generates prosody data such as the duration time of each phoneme represented by the phoneme information included in the text analysis result, a periodic pattern signal, and a power pattern signal. Then, the signal is supplied to the waveform generator 42, and the process proceeds to step S2.
  • prosody data such as the duration time of each phoneme represented by the phoneme information included in the text analysis result, a periodic pattern signal, and a power pattern signal.
  • step S2 the parameter generation unit 43 determines whether or not the mode is the emotion reflection mode. That is, in the present embodiment, one of the emotion reflection mode in which the synthesized sound of the sound quality reflecting the emotion is output and the non-emotion reflection mode in which the synthesized sound of the sound quality not reflecting the emotion is output is set. In step S2, it is determined whether or not the robot mode is the emotion reflection mode.
  • the robot always outputs the synthesized sound reflecting the emotion without providing the emotion reflection mode and the non-emote reflection mode.
  • step S2 If it is determined in step S2 that the mode is not the emotion reflection mode, steps S3 and S4 are skipped, the process proceeds to step S5, and the waveform generation unit 42 generates a synthetic sound and ends the process. .
  • the parameter generation unit 43 does not perform any processing, and thus does not generate the synthesis control parameter and the conversion parameter.
  • the waveform generation unit 42 reads out the voice information stored in the voice information storage unit 36 (FIG. 5) via the data conversion unit 44 and the converted voice information storage unit 45.
  • the waveform generation unit 42 uses the default synthesis control parameters to speech synthesis processing while controlling the prosody in accordance with the prosody data from the prosody generation unit 41. Therefore, the waveform generation unit 42 generates a synthesized sound image having the default sound quality.
  • the process proceeds to step S3, where the parameter generation unit 43 receives the emotion model in the state information from the model storage unit 51. Based on this, a synthesis control parameter and a conversion parameter are generated. Then, the synthesis control parameters are supplied to the waveform generation unit 42, and are converted. The conversion parameters are supplied to the data conversion unit 44.
  • step S4 the data conversion unit 44 converts the voice information stored in the voice information storage unit 36 (FIG. 5) according to the conversion parameters from the parameter generation unit 43. Further, the data conversion unit 44 supplies the converted voice information obtained as a result of the conversion to the converted voice information storage unit 45 for storage.
  • step S5 the waveform generator 42 generates a synthesized sound, and ends the processing.
  • the waveform generation unit 42 reads out necessary audio information stored in the converted audio information storage unit 45, and reads the converted audio information and the synthesis control parameter supplied from the parameter overnight generation unit 43. Using one evening, speech synthesis processing is performed while controlling the prosody corresponding to the prosody data from the prosody generation unit 41. Therefore, the waveform generation unit 42 generates synthetic sound data having sound quality corresponding to the emotional state of the robot.
  • a synthetic control parameter and a conversion parameter are generated, and the speech is converted using the converted control information and the converted speech information obtained by converting the speech information by the conversion parameter. Since synthesis is performed, an emotionally rich synthesized sound in which sound quality such as frequency characteristics and volume balance is controlled according to emotion can be obtained. .
  • FIG. 8 shows the waveforms of FIG. 6 when the voice information stored in the voice information storage unit 36 (FIG. 5) is, for example, a linear prediction coefficient (LPC) as a feature parameter of the voice.
  • LPC linear prediction coefficient
  • the linear prediction coefficient is obtained by performing a so-called linear prediction analysis, such as solving the Yule-Walker equation using the autocorrelation coefficient obtained from the speech waveform data.
  • a so-called linear prediction analysis such as solving the Yule-Walker equation using the autocorrelation coefficient obtained from the speech waveform data.
  • the predicted value (linear predicted value) s cord'of the sample value s n at the current time n is replaced by the past P sample values s n — s n _ 2 , ⁇ ⁇ , S n _ P
  • s n — ( ⁇ s n _ ⁇ + ⁇ s n . 2 +- ⁇ + aps n _ P )
  • ⁇ e n ⁇ ( ⁇ ⁇ ⁇ , e n e n, e n + 1, ⁇ ⁇ ⁇ ) are average value is 0, Mu mutually variance of a predetermined value sigma 2 It is a correlated random variable.
  • the linear prediction coefficients a p with the IIR (Infinife Impulse Respon se) Fill evening tap coefficients be Doshingo driving the residual signal e n of the IIR fill evening (input signal) It makes it possible to calculate the audio signal s n.
  • the waveform generation unit 42 in FIG. 8 is configured to perform audio synthesis for generating an audio signal in accordance with Expression (4). That is, the drive signal generator 60 generates and outputs a residual signal that is a drive signal.
  • the prosody data, the text analysis result, and the synthesis control parameters are supplied to the drive signal generation unit 60.
  • the drive signal generation unit 60 In accordance with the prosody data, the text analysis result, and the synthesis control parameters, the drive signal generation unit 60 generates a periodic impulse whose period (frequency) and amplitude are controlled and a signal such as white noise. By generating a driving signal that gives the corresponding prosody, phoneme, and sound quality (voice quality) to the synthesized sound. Periodic impulses mainly contribute to the generation of voiced sounds, and signals such as white noise mainly contribute to the generation of unvoiced sounds.
  • one of the adder 6 1, P number of delay circuits (D) 62, to 62 P, Contact and P multipliers 63, or 63 P is the IIR filter as a synthesis filter for speech synthesis It generates a synthesized sound signal using the drive signal from the drive signal generator 60 as a sound source.
  • the residual signals driving signal generating unit 60 outputs (drive signal) e via the adder 61 is supplied to the delay circuit 62, a delay circuit 62 P is an input signal thereto, the remaining and only one sample delay of the difference signal, and outputs the outputs to the delay circuit 62 P + 1 of the subsequent stage and monitor, to the calculator 63 P.
  • the multiplier 63 p multiplies the output of the delay circuit 62 P, and a linear prediction coefficient Q! P which is set therein, the multiplied value to the adder 6 1.
  • the adder 61 adds all the outputs of the multipliers 63 to 63 P and the residual signal e, and supplies the addition result to the delay circuit 62, and outputs the result as a speech synthesis result (synthesized sound data). I do.
  • the coefficient supply unit 64 reads linear prediction coefficients ⁇ 2 ,..., ⁇ ⁇ ⁇ ⁇ as necessary converted speech information from the converted speech information storage unit 45 in accordance with phonemes and the like included in the text analysis results. It is adapted to set each of the multipliers 63, or to 63 [rho.
  • FIG. 9 shows that the audio information stored in the audio information storage unit 36 (FIG. 5) is W
  • LPC 22 shows an example of the configuration of the data-to-night conversion unit 44 in FIG. 6 when the feature parameters of speech are, for example, linear prediction coefficients (LPC).
  • LPC linear prediction coefficients
  • the linear prediction coefficient as speech information stored in the speech information storage unit 36 is supplied to the synthesis file 71.
  • the synthesis filter 71 is composed of one adder 61 in FIG. 8, P delay circuits (D) 62 1 to 62 1> , and P multipliers 63 and 63 P.
  • This is an IIR filter similar to the filter, which converts the linear prediction coefficient into audio data (waveform data in the time domain) by using the linear prediction coefficient as the tap coefficient and performing filtering using the impulse as a drive signal.
  • This audio data is supplied to the Fourier transform unit 72.
  • the Fourier transform unit 72 obtains a signal in the frequency domain, that is, a spectrum by performing a Fourier transform on the audio data from the synthesis filter 71 and supplies the signal to the frequency characteristic conversion unit 73.
  • the synthetic fill evening 7 1 and the Fourier transform unit 7 2 the linear prediction coefficient alpha ,, 2, ⁇ ⁇ ⁇ , but alpha [rho is converted to the spectrum F (theta), the LPC coefficients alpha ,, alpha 2 , ⁇ ⁇ ⁇ , «Conversion of F ( ⁇ ) from ⁇ to spectrum can also be performed by, for example, changing 0 from 0 to C according to the following equation.
  • the frequency characteristic converter 73 is supplied with the conversion parameter output from the parameter generator 43 (FIG. 6).
  • the frequency characteristic converter 73 converts the spectrum from the Fourier converter 72 according to the conversion parameters, thereby changing the frequency characteristics of the audio data (waveform data) obtained from the linear prediction coefficients. .
  • the frequency characteristic conversion unit 73 is composed of an expansion / contraction processing unit 73 # and an equalizer 73 #.
  • the expansion / contraction unit 73 expands / contracts the spectrum F ( ⁇ ) supplied from the Fourier transform unit 72 in the frequency axis direction. That is, if the expansion / contraction parameter is represented by ⁇ , the expansion / contraction processing unit 73A calculates Equation (6) by replacing 0 with, and obtains a spectrum F ( ⁇ ) obtained by performing expansion / contraction in the frequency axis direction. .
  • the expansion / contraction parameter is the conversion parameter.
  • the expansion / contraction parameter can be set, for example, to a value in the range of 0.5 to 2.0.
  • the equalizer 7 3 B receives the spectrum F supplied from the Fourier transformer 72.
  • the equalizer 73 B applies, for example, a high-frequency emphasis filter having the characteristic shown in FIG. 10A or a high-frequency suppression filter having the characteristic shown in FIG. 10B to the spectrum F ( ⁇ ). over, wherein determining the scan Bae spectrum which changes its frequency characteristic, in FIG. 1 0, g is the gain, the f c is the cutoff frequency, the attenuation width, i s the audio data (synthesis fill evening 7 1 the sampling frequency of the audio data) to be output, represent respectively, the gain g of this, cut-off frequency, and the attenuation width f w is a conversion parameter Isseki.
  • the sound quality of the synthesized sound has a hard impression
  • the high-frequency suppression filter of Fig. 10B when the high-frequency suppression filter of Fig. 10B is applied, the synthesized sound becomes The sound quality is soft.
  • the frequency characteristic conversion unit 73 can also smooth the spectrum, for example, by applying an nth-order average filter, obtaining a cepstrum coefficient and applying a lifter. .
  • the spectrum whose frequency characteristic has been converted by the frequency characteristic converter 73 is supplied to the inverse Fourier converter 74.
  • the inverse Fourier transform unit 74 obtains a signal in the time domain, that is, voice data (waveform data) by performing an inverse Fourier transform on the spectrum from the frequency characteristic conversion unit 73 and supplies the signal to the LPC analysis unit 75.
  • the LPC analysis unit 75 obtains a linear prediction coefficient by performing linear prediction analysis on the speech data from the inverse Fourier transform unit 74, and converts the linear prediction coefficient into the converted speech information. Then, it is supplied to and stored in the converted voice information storage unit 45 (FIG. 6).
  • FIG. 11 is a diagram showing a case where the voice information stored in the voice information storage unit 36 (FIG. 5) is a voice data (waveform data), for example, a phoneme fragment data. 6 shows a configuration example of the waveform generation unit 42 of FIG.
  • the connection control unit 81 is supplied with prosody data, synthesis control parameters, and a text analysis result. According to the prosody data, the synthesis control parameters, and the text analysis results, the connection control unit 81 determines the phoneme segment data to be connected to generate the synthesized sound and the processing method or adjustment method of the waveform (for example, , And the amplitude of the waveform, etc.), and controls the waveform connector 82.
  • the waveform connection unit 82 reads out necessary speech segment data as converted voice information from the converted voice information storage unit 45, and further controls the connection control unit 81 as well. Adjust the waveform of the read phoneme data according to and connect. As a result, the waveform connection unit 82 generates and outputs synthesized sound data of the prosody, sound quality, and phoneme corresponding to the prosody data, the synthesis control parameters, and the text analysis results, respectively.
  • FIG. 12 shows the configuration of the data conversion unit 44 in FIG. 6 when the audio information stored in the audio information storage unit 36 (FIG. 5) is audio data (waveform data).
  • An example is shown.
  • parts corresponding to those in FIG. 9 are denoted by the same reference numerals, and a description thereof will be omitted as appropriate below. That is, the data conversion unit 44 in FIG. 12 has the same configuration as that in FIG. 9 except that the synthesis filter 71 and the LPC analysis unit 75 are not provided.
  • the Fourier transform unit 72 performs a Fourier transform on the audio data as the audio information stored in the audio information storage unit 36 (FIG. 5).
  • the resulting spectrum is supplied to frequency characteristic converter 73.
  • the frequency characteristic conversion unit 73 converts the spectrum from the Fourier
  • a frequency characteristic conversion process according to the conversion parameter is performed, and the result is output to the inverse Fourier transform unit 74.
  • the inverse Fourier transform unit 74 performs inverse Fourier transform on the vector from the frequency characteristic transform unit 73 to generate voice data, and converts the voice data into converted voice information in the converted voice information storage unit 45 (FIG. 6). Supply and memorize.
  • the present invention is not limited to this.
  • the present invention is applicable not only to a mouth pot in the real world but also to a virtual robot displayed on a display device such as a liquid crystal display.
  • the program is stored in the memory 10B (Fig. 2) in advance, and the floppy disk, CD-ROM (Compact Disc Read Only Memory), MO (Magne to optical) disk, DVD (Digital Versatile Disc) It can be temporarily or permanently stored (recorded) on removable recording media such as magnetic disks and semiconductor memories. Then, such a removable recording medium can be provided as so-called package software, and can be installed in the mouth pot (memory 10B).
  • CD-ROM Compact Disc Read Only Memory
  • MO Magnetic to optical disk
  • DVD Digital Versatile Disc
  • the program can be transmitted wirelessly from a download site via a satellite for digital satellite broadcasting, or via a wired connection via a network such as a LAN (Local Area Network) or the Internet, and can be stored in memory.
  • a network such as a LAN (Local Area Network) or the Internet
  • processing steps for describing programs for causing the CPU 10A to perform various types of processing do not necessarily need to be processed in chronological order in the order described in the flowchart, and may be performed in parallel. Alternatively, it may include processing that is executed individually (for example, parallel processing or processing by an object) .c
  • the program may be processed by one CPU or distributed by multiple CPUs. It may be.
  • the speech synthesizer 55 in FIG. 5 can be realized by dedicated hardware or can be realized by software.
  • a program constituting the software is installed in a general-purpose computer or the like.
  • FIG. 13 shows a configuration example of an embodiment of a computer in which a program for realizing the speech synthesizer 55 is installed.
  • the program can be recorded in advance on a hard disk 105 or ROM 103 as a recording medium built in the computer.
  • the program can be temporarily or permanently stored (recorded) on a removable recording medium 111 such as a floppy disk, CD-ROM, M0 disk, DVD, magnetic disk, or semiconductor memory.
  • a removable recording medium 111 can be provided as so-called package software.
  • the program is installed on the computer from the removable recording medium 111 as described above, and is also transmitted wirelessly from the down site to the computer via an artificial satellite for digital satellite broadcasting. Or via a network such as the LANO Local Area Neighbor) or the Internet, and then transfer it to a computer by wire, and the computer receives the program transferred in that way. It can be installed on 05.
  • the computer has a CPU (Central Processing Unit) 102 built therein.
  • CPU Central Processing Unit
  • the input / output interface 110 is connected to the input / output interface 102 via the bus 101, and the CPU 102 is connected to the input / output interface 110 by the user via a keyboard, a mouse, a microphone, and the like.
  • the program stored in the ROM Read Only Memory 103 is executed in accordance with the command.
  • the CPU 102 may be a program stored on the hard disk 105, a program transferred from a satellite or a network, received by the communication unit 108 and installed on the hard disk 105, or mounted on the drive 109.
  • the program read from the removed removable recording medium 111 and installed on the hard disk 105 is loaded into a RAM (Random Access Memory) 104 and executed. Accordingly, the CPU 102 performs the processing according to the above-described flowchart or the processing performed by the configuration of the above-described block diagram. Then, the CPU 102 outputs the processing result from the output unit 106 including a LCD (Liquid Crystal Display), a speaker, or the like, as necessary, for example, via the input / output interface 110, or The data is transmitted from the communication unit 108, and further recorded on the hard disk 105.
  • a LCD Liquid Crystal Display
  • the sound quality of the synthesized sound is changed based on the state of the emotion.
  • the prosody of the synthesized sound may be changed based on the state of the emotion. is there.
  • the prosody of the synthesized sound is changed by controlling, for example, the time change pattern of the pitch period of the synthesized sound (periodic pattern) or the time change pattern of the power of the synthesized sound (power pattern) based on the emotion model. It is possible.
  • a synthetic sound is generated from text (including text with kanji and kana), but it is also possible to generate a synthetic sound from phonetic symbols and the like. is there.
  • Industrial applicability As described above, according to the present invention, out of the predetermined information, the sound quality influence information that affects the sound quality of the synthesized sound is generated based on the state information indicating the state of the emotion, which is supplied from the outside. Synthesized sound with controlled sound quality is generated using sound quality influence information.Thus, by generating synthesized sound with sound quality changed according to emotional state, it is possible to obtain emotionally rich synthesized sound .

Description

音声合成装置 技術分野
本発明は、 音声合成装置に関し、 特に、 例えば、 感情豊かな合成音を生成す ることができるようにする音声合成装置に関する。 背景技術
従来の音声合成装置においては、 テキストゃ発音記号を与えることによって、 対応する合成音が生成される。
ところで、 最近、 例えば、 ペット型のペット口ポット等として、 音声合成装 置を搭載し、 ユーザに話しかけるものが提案されている。
さらに、 ペット口ポットとしては、 感情の状態を表す感情モデルを取り入れ, その感情モデルが表す感情の状態に応じて、 ユーザの命令に従ったり、 従わな かったりするものも提案されている。
従って、 感情モデルに応じて、 例えば: 合成音の音質を変化させることがで きれば、 感情に応じた音質の合成音が出力され、 ペット口ポットのェンタティ メント性を向上させることができると考えられる。 発明の開示
本発明は、 このような状況に鑑みてなされたものであり、 感情の状態に応じ て音質を変えた合成音を生成することにより、 感情豊かな合成音を得ることが できるようにするものである。
本発明の音声合成装置は、 所定の情報のうち、 合成音の音質に影響する音質 影響情報を、 外部から供給される、 感情の状態を表す状態情報に基づいて生成 する音質影響情報生成手段と、 音質影響情報を用いて、 音質を制御した合成音 を生成する音声合成手段とを備えることを特徴とする。 2 本発明の音声合成方法は、 所定の情報のうち、 合成音の音質に影響する音質 影響情報を、 外部から供給される、 感情の状態を表す状態情報に基づいて生成 する音質影響情報生成ステップと、 音質影響情報を用いて、 音質を制御した合 成音を生成する音声合成ステップとを備えることを特徴とする。
本発明のプログラムは、 所定の情報のうち、 合成音の音質に影響する音質影 響情報を、 外部から供給される、 感情の状態を表す状態情報に基づいて生成す る音質影響情報生成ステップと、 音質影響情報を用いて、 音質を制御した合成 音を生成する音声合成ステップとを備えることを特徵とする。
本発明の記録媒体は、 所定の情報のうち、 合成音の音質に影響する音質影響 情報を、 外部から供給される、 感情の状態を表す状態情報に基づいて生成する 音質影響情報生成ステップと、 音質影響情報を用いて、 音質を制御した合成音 を生成する音声合成ステップとを備えるプログラムが記録されていることを特 徵とする。
本発明においては、 所定の情報のうち、 合成音の音質に影響する音質影響情 報が、 外部から供給される、 感情の状態を表す状態情報に基づいて生成され、 その音質影響情報を用いて、 音質を制御した合成音が生成される。 図面の簡単な説明
図 1は、 本発明を適用したロボットの一実施の形態の外観構成例を示す斜視 図である。
図 2は、 口ポットの内部構成例を示すブロック図である。
図 3は、 コントローラ 1 0の機能的構成例を示すブロック図である。
図 4は、 音声認識部 5 O Aの構成例を示すブロック図である。
図 5は、 音声合成部 5 5の構成例を示すブロック図である。
図 6は、 規則合成部 3 2の構成例を示すブロック図である。
図 7は、 規則合成部 3 2の処理を説明するフローチャートである。
図 8は、 波形生成部 4 2の第 1の構成例を示すブロック図である。 図 9は、 データ変換部 4 4の第 1の構成例を示すブロック図である。
図 1 0 Aは、 高域強調フィル夕の特性を示す図である。 。
図 1 0 Bは、 高域抑圧フィル夕の特性を示す図である。
図 1 1は、 波形生成部 4 2の第 2の構成例を示すブロック図である。
図 1 2は、 データ変換部 4 4の第 2の構成例を示すブロック図である。
図 1 3は、 本発明を適用したコンピュータの一実施の形態の構成例を示すブ 口ック図である。 発明を実施するための最良の形態
図 1は、 本発明を適用した口ポットの一実施の形態の外観構成例を示してお り、 図 2は、 その電気的構成例を示している。
本実施の形態では、 口ポットは、 例えば、 犬等の四つ足の動物の形状のもの となっており、 胴体部ユニット 2の前後左右に、 それぞれ脚部ユニット 3 A ,
3 B , 3 C , 3 Dが連結されるとともに、 胴体部ユニット 2の前端部と後端部 に、 それぞれ頭部ユニット 4と尻尾部ユニット 5が連結されることにより構成 されている。
尻尾部ュニット 5は、 胴体部ュニット 2の上面に設けられたベース部 5 Bか ら、 2自由度をもって湾曲または揺動自在に引き出されている。
胴体部ユニット 2には、 口ポット全体の制御を行うコントローラ 1 0、 ロポ ットの動力源となるバッテリ 1 1、 並びにバッテリセンサ 1 2および熱センサ 1 3からなる内部センサ部 1 4などが収納されている。
頭部ユニット 4には、 「耳」 に相当するマイク (マイクロフォン) 1 5、 「目」 に相当する C C D (Charge Coup led Device)カメラ 1 6、 触覚に相当する 夕ツチセンサ 1 7、 「口」 に相当するスピーカ 1 8などが、 それぞれ所定位置 に配設されている。 また、 頭部ユニット 4には、 口の下顎に相当する下顎部 4 Aが 1自由度をもって可動に取り付けられており、 この下顎部 4 Aが動くこと により、 ロポットの口の開閉動作が実現されるようになっている。 脚部ュニット 3 A乃至 3Dそれぞれの関節部分や、 脚部ュニット 3 A乃至 3 Dそれぞれと胴体部ュニット 2の連結部分、 頭部ュニット 4と胴体部ュニット 2の連結部分、 頭部ユニット 4と下顎部 4 Aの連結部分、 並びに尻尾部ュニッ ト 5と胴体部ユニット 2の連結部分などには、 図 2に示すように、 それぞれァ クチユエ一夕 3 AA,乃至 3 AAK、 3 BA,乃至 3 BAK、 3 CA,乃至 3 CAK、 3DA,乃至 3DAK、 4A〖乃至 4Aい 5 および 5 A2が配設されている。 頭部ユニット 4におけるマイク 1 5は、 ュ一ザからの発話を含む周囲の音声 (音) を集音し、 得られた音声信号を、 コント口一ラ 10に送出する。 CCD カメラ 16は、 周囲の状況を撮像し、 得られた画像信号を、 コントローラ 10 に送出する。
夕ツチセンサ 17は、 例えば、 頭部ユニット 4の上部に設けられており、 ュ 一ザからの 「なでる」 や 「たたく」 といった物理的な働きかけにより受けた圧 力を検出し、 その検出結果を圧力検出信号としてコントローラ 10に送出する 胴体部ュニット 2におけるバッテリセンサ 12は、 パッテリ 11の残量を検 出し、 その検出結果を、 バッテリ残量検出信号としてコントローラ 1 0に送出 する。 熱センサ 13は、 ロボット内部の熱を検出し、 その検出結果を、 熱検出 信号としてコントローラ 10に送出する。
コントローラ 10は、 CPU(Central Processing Uni t) 1 0 Aやメモリ 10 B等を内蔵しており、 CPU 10 Aにおいて、 メモリ 10 Bに記憶された制御 プログラムが実行されることにより、 各種の処理を行う。
即ち、 コントローラ 10は、 マイク 1 5や、 CCDカメラ 16、 夕ツチセン サ 17、 パッテリセンザ 12、 熱センサ 1 3から与えられる音声信号、 画像信 号、 圧力検出信号、 バッテリ残量検出信号、 熱検出信号に基づいて、 周囲の状 況ゃ、 ユーザからの指令、 ユーザからの働きかけなどの有無を判断する。
さらに、 コントローラ 10は、 この判断結果等に基づいて、 続く行動を決定 し、 その決定結果に基づいて、 ァクチユエ一タ 3 乃至 3 AAK、 3 BA,乃 至 3 BAK、 3 CA,乃至 3 CAK、 3DA,乃至 3DAK、 4A,乃至 4Aい 5 A 5 A2のうちの必要なものを駆動させる。 これにより、 頭部ユニット 4を上下左 右に振らせたり、 下顎部 4 Aを開閉させる。 さらには、 尻尾部ユニット 5を動 かせたり、 各脚部ユニット 3 A乃至 3Dを駆動して、 口ポットを歩行させるな どの行動を行わせる。
また、 コントローラ 10は、 必要に応じて、 合成音を生成し、 スピーカ 1 8 に供給して出力させたり、 ロボットの 「目」 の位置に設けられた図示しない L ED (Light Emitting Diode) を点灯、 消灯または点滅させる。
以上のようにして、 口ポットは、 周囲の状況等に基づいて自律的に行動をと るようになっている。
次に、 図 3は、 図 2のコントローラ 1 0の機能的構成例を示している。 なお. 図 3に示す機能的構成は、 CPU10Aが、 メモリ 10 Bに記憶された制御プ ログラムを実行することで実現されるようになっている。
コントローラ 10は、 特定の外部状態を認識するセンサ入力処理部 50、 セ ンサ入力処理部 50の認識結果を累積して、 感情や、 本能、 成長の状態を表現 するモデル記憶部 51、 センサ入力処理部 50の認識結果等に基づいて、 続く 行動を決定する行動決定機構部 52、 行動決定機構部 52の決定結果に基づい て、 実際に口ポットに行動を起こさせる姿勢遷移機構部 53、 各ァクチユエ一 夕 3 A A(乃至 5 および 5 A2を駆動制御する制御機構部 54、 並びに合成音 を生成する音声合成部 55から構成されている。
センサ入力処理部 50は、 マイク 15や、 CCDカメラ 16、 夕ツチセンサ 17等から与えられる音声信号、 画像信号、 圧力検出信号等に基づいて、 特定 の外部状態や、 ュ一ザからの特定の働きかけ、 ユーザからの指示等を認識し、 その認識結果を表す状態認識情報を、 モデル記憶部 51および行動決定機構部 52に通知する。
即ち、 センサ入力処理部 50は、 音声認識部 5 OAを有しており、 音声認識 部 5 OAは、 マイク 15から与えられる音声信号について音声認識を行う。 そ して、 音声認識部 5 OAは、 その音声認識結果としての、 例えば、 「歩け」 、 「伏せ」 、 「ポールを追いかけろ」 等の指令その他を、 状態認識情報として、 モデル記憶部 5 1および行動決定機構部 5 2に通知する。
また、 センサ入力処理部 5 0は、 画像認識部 5 0 Bを有しており、 画像認識 部 5 0 Bは、 C C Dカメラ 1 6から与えられる画像信号を用いて、 画像認識処 理を行う。 そして、 画像認識部 5 0 Bは、 その処理の結果、 例えば、 「赤い丸 いもの」 や、 「地面に対して垂直なかつ所定高さ以上の平面」 等を検出したと きには、 「ポールがある」 や、 「壁がある」 等の画像認識結果を、 状態認識情 報として、 モデル記憶部 5 1および行動決定機構部 5 2に通知する。 .
さらに、 センサ入力処理部 5 0は、 圧力処理部 5 0 Cを有しており; 圧力処 理部 5 0 Cは、 夕ツチセンサ 1 7から与えられる圧力検出信号を処理する。 そ して、 圧力処理部 5 0 Cは、 その処理の結果、 所定の閾値以上で、 かつ短時間 の圧力を検出したときには、 「たたかれた (しかられた) 」 と認識し、 所定の 閾値未満で、 かつ長時間の圧力を検出したときには、 · 「なでられた (ほめられ た) 」 と認識して、 その認識結果を、 状態認識情報として、 モデル記憶部 5 1 および行動決定機構部 5 2に通知する。
モデル記憶部 5 1は、 口ポットの感情、 本能、 成長の状態を表現する感情モ デル、 本能モデル、 成長モデルをそれぞれ記憶、 管理している。
ここで、 感情モデルは、 例えば、 「うれしさ」 、 「悲しさ」 、 「怒り」 、 「楽しさ」 等の感情の状態 (度合い) を、 所定の範囲 (例えば、 一 1 . 0乃至 1 . 0等) の値によってそれぞれ表し、 センサ入力処理部 5 0からの状態認識 情報や時間経過等に基づいて、 その値を変化させる。 本能モデルは、 例えば、 「食欲」 、 「睡眠欲」 、 「運動欲」 等の本能による欲求の状態 (度合い) を、 所定の範囲の値によってそれぞれ表し、 センサ入力処理部 5 0からの状態認識 情報や時間経過等に基づいて、 その値を変化させる。 成長モデルは、 例えば、 「幼年期」 、 「青年期」 、 「熟年期」 、 「老年期」 等の成長の状態 (度合い) を、 所定の範囲の値によってそれぞれ表し、 センサ入力処理部 5 0からの状態 認識情報や時間経過等に基づいて、 その値を変化させる。 モデル記憶部 5 1は、 上述のようにして感情モデル、 本能モデル、 成長モデ ルの値で表される感情、 本能、 成長の状態を、 状態情報として、 行動決定機構 部 5 2に送出する。
なお、 モデル記憶部 5 1には、 センサ入力処理部 5 0から状態認識情報が供 給される他、 行動決定機構部 5 2から、 口ポットの現在または過去の行動、 具 体的には、 例えば、 「長時間歩いた」 などの行動の内容を示す行動情報が供給 されるようになつており、 モデル記憶部 5 1は、 同一の状態認識情報が与えら れても、 行動情報が示す口ポットの行動に応じて、 異なる状態情報を生成する ようになつている。
即ち、 例えば、 口ポットが、 ユーザに挨拶をし、 ュ一ザに頭を撫でられた場 合には、 ユーザに挨拶をしたという行動情報と、 頭を撫でられたという状態認 識情報とが、 モデル記憶部 5 1に与えられ、 この場合、 モデル記憶部 5 1では、 「うれしさ」 を表す感情モデルの値が増加される。
一方、 ロボットが、 何らかの仕事を実行中 (こ頭を撫でられた場合には、 仕事 を実行中であるという行動情報と、 頭を撫でられたという状態認識情報とが、 モデル記憶部 5 1に与えられ、 この場合、 モデル記憶部 5 1では、 「うれし さ」 を表す感情モデルの値は変化されない。
このように、 モデル記憶部 5 1は、 状態認識情報だけでなく、 現在または過 去のロボットの行動を示す行動情報も参照しながら、 感情モデルの値を設定す る。 これにより、 例えば、 何らかのタスクを実行中に、 ュ一ザが、 いたずらす るつもりで頭を撫でたときに、 「うれしさ」 を表す感情モデルの値を増加させ るような、 不自然な感情の変化が生じることを回避することができる。
なお、 モデル記憶部 5 1は、 本能モデルおよび成長モデルについても、 感情 モデルにおける場合と同様に、 状態認識情報および行動情報の両方に基づいて, その値を増減させるようになつている。 また、 モデル記憶部 5 1は、 感情モデ ル、 本能モデル、 成長モデルそれぞれの値を、 他のモデルの値にも基づいて増 減させるようになつている。 行動決定機構部 5 2は、 センサ入力処理部 5 0からの状態認識情報や、 モデ ル記憶部 5 1からの状態情報、 時間経過等に基づいて、 次の行動を決定し、 決 定された行動の内容を、 行動指令情報として、 姿勢遷移機構部 5 3に送出する 即ち、 行動決定機構部 5 2は、 口ポットがとり得る行動をステート (状態) (s t a t e)に対応させた有限オートマトンを、 口ポットの行動を規定する行動モデ ルとして管理しており、 この行動モデルとしての有限オートマトンにおけるス テートを、 センサ入力処理部 5 0からの状態認識情報や、 モデル記憶部 5 1に おける感情モデル、 本能モデル、 または成長モデルの値、 時間経過等に基づい て遷移させ、 遷移後のステートに対応する行動を、 次にとるべき行動として決 定する。
ここで、 行動決定機構部 5 2は、 所定のトリガ(t r igger)があったことを検出 すると、 ステートを遷移させる。 即ち、 行動決定機構部 5 2は、 例えば、 現在 のステートに対応する行動を実行している時間が所定時間に達したときや、 特 定の状態認識情報を受信したとき、 モデル記憶部 5 1から供給される状態情報 が示す感情や、 本能、 成長の状態の値が所定の閾値以下または以上になったと き等に、 ステートを遷移させる。 ―
なお、 行動決定機構部 5 2は、 上述したように、 センサ入力処理部 5 0から の状態認識情報だけでなく、 モデル記憶部 5 1における感情モデルや、 本能モ デル、 成長モデルの値等にも基づいて、 行動モデルにおけるステートを遷移さ せることから、 同一の状態認識情報が入力されても、 感情モデルや、 本能モデ ル、 成長モデルの値 (状態情報) によっては、 ステートの遷移先は異なるもの となる。
その結果、 行動決定機構部 5 2は、 例えば、 状態情報が、 「怒っていない」 こと、 および 「お腹がすいていない」 ことを表している場合において、 状態認 識情報が、 「目の前に手のひらが差し出された」 ことを表しているときには、 目の前に手のひらが差し出されたことに応じて、 「お手」 という行動をとらせ る行動指令情報を生成し、 これを、 姿勢遷移機構部 5 3に送出する。 また、 行動決定機構部 5 2は、 例えば、 状態情報が、 「怒っていない」 こと, および 「お腹がすいている」 ことを表している場合において、 状態認識情報が、 「目の前に手のひらが差し出された」 ことを表しているときには、 目の前に手 のひらが差し出されたことに応じて、 「手のひらをぺろぺろなめる」 ような行 動を行わせるための行動指令情報を生成し、 これを、 姿勢遷移機構部 5 3に送 出する。
また、 行動決定機構部 5 2は、 例えば、 状態情報が、 「怒っている」 ことを 表している場合において、 状態認識情報が、 「目の前に手のひらが差し出され た」 ことを表しているときには、 状態情報が、 「お腹がすいている」 ことを表 していても、 また、 「お腹がすいていない」 ことを表していても、 「ぷいと横 を向く」 ような行動を行わせるための行動指令情報を生成し、 これを、 姿勢遷 移機構部 5 3に送出する。
なお、 行動決定機構部 5 2には、 モデル記憶部 5 1から供給される状態情報 が示す感情や、 本能、 成長の状態に基づいて、 遷移先のステートに対応する行 動のパラメ一夕としての、 例えば、 歩行の速度や、 手足を動かす際の動きの大 きさおよび速度などを決定させることができ、 この場合、 それらのパラメ一タ を含む行動指令情報が、 姿勢遷移機構部 5 3に送出される。
また、 行動決定機構部 5 2では、 上述したように、 口ポットの頭部や手足等 を動作させる行動指令情報の他、 ロポットに発話を行わせる行動指令情報も生 成される。 ロボットに発話を行わせる行動指令情報は、 音声合成部 5 5に供給 されるようになつている。 この、 音声合成部 5 5に供給される行動指令情報に は、 音声合成部 5 5に生成させる合成音に対応するテキスト等が含まれる。 そ して、 音声合成部 5 5は、 行動決定部 5 2から行動指令情報を受信すると、 そ の行動指令情報に含まれるテキストに基づき、 合成音を生成し、 スピーカ 1 8 に供給して出力させる。 これにより、 スピーカ 1 8からは、 例えば、 ロボット の鳴き声、 さらには、 「お腹がすいた」 等のユーザへの各種の要求、 「何?」 等のユーザの呼びかけに対する応答その他の音声出力が行われる。 ここで、 音 声合成部 5 5には、 モデル記憶部 5 1から状態情報も供給されるようになって おり、 音声合成部 5 5は、 この状態情報が示す感情の状態に基づいて音質を制 御した合成音を生成することが可能となっている。 なお、 音声合成部 5 5では, 感情の他、 本能や成長の状態に基づいて音質を制御した合成音を生成すること も可能である。
姿勢遷移機構部 5 3は、 行動決定機構部 5 2から供給される行動指令情報に 基づいて、 口ポットの姿勢を、 現在の姿勢から次の姿勢に遷移させるための姿 勢遷移情報を生成し、 これを制御機構部 5 4に送出する。
ここで、 現在の姿勢から次に遷移可能な姿勢は、 例えば、 胴体や手や足の形 状、 重さ、 各部の結合状態のような口ポットの物理的形状と、 関節が曲がる方 向や角度のようなァクチユエ一夕 3 A A ,乃至 5 および 5 A2の機構とによつ て決定される。
また、 次の姿勢としては、 現在の姿勢から直接遷移可能な姿勢と、 直接には 遷移できない姿勢とがある。 例えば、 4本足の口ポットは、 手足を大きく投げ 出して寝転んでいる状態から、 伏せた状態へ直接遷移することはできるが、 立 つた状態へ直接遷移することはできず、 一旦、 手足を胴体近くに引き寄せて伏 せた姿勢になり、 それから立ち上がるという 2段階の動作が必要である。 また 安全に実行できない姿勢も存在する。 例えば、 4本足の口ポットは、 その 4本 足で立っている姿勢から、 両前足を挙げてバンザィをしょうとすると、 簡単に 転倒してしまう。
このため、 姿勢遷移機構部 5 3は、'直接遷移可能な姿勢をあらかじめ登録し ておき、 行動決定機構部 5 2から供給される行動指令情報が、 直接遷移可能な 姿勢を示す場合には、 その行動指令情報を、 そのまま姿勢遷移情報として、 制 御機構部 5 4に送出する。 一方、 行動指令情報が、 直接遷移不可能な姿勢を示 す場合には、 姿勢遷移機構部 5 3は、 遷移可能な他の姿勢に一旦遷移した後に 目的の姿勢まで遷移させるような姿勢遷移情報を生成し、 制御機構部 5 4に送 出する。 これによりロボットが、 遷移不可能な姿勢を無理に実行しょうとする 事態や、 転倒するような事態を回避することができるようになつている。
制御機構部 54は、 姿勢遷移機構部 53からの姿勢遷移情報にしたがって、 ァクチユエ一夕 3 A 乃至 5 A,および 5 A2を駆動するための制御信号を生成 し、 これを、 ァクチユエ一夕 3 AA,乃至 5 Atおよび 5 A2に送出する。 これに より、 ァクチユエ一夕 3 AA【乃至 5 および 5 A2は、 制御信号にしたがって 駆動し、 口ポットは、 自律的に行動を起こす。
次に、 図 4は、 図 3の音声認識部 5 OAの構成例を示している。
マイク 1 5からの音声信号は、 AD (Analog Digital)変換部 21に供給され る。 AD変換部 21では、 マイク 1 5からのアナログ信号である音声信号がサ ンプリング、 量子化され、 ディジタル信号である音声データに A/D変換され る。 この音声データは、 特徴抽出部 22および音声区間検出部 27に供給され る。
特徴抽出部 22は、 そこに入力される音声デ一夕について、 適当なフレーム ごとに、 例えば、 MFCC(Mel Frequency Cepstrum Coefficient)分析を行い. その分析の結果得られる MF C Cを、 特徵パラメ一夕 (特徵ベクトル) として, マッチング部 23に出力する。 なお、 特徴抽出部 22では、 その他、 例えば、 線形予測係数、 ケプストラム係数、 線スペクトル対、 所定の周波数帯域ごとの パワー (フィルタバンクの出力) 等を、 特徴パラメータとして抽出することが 可能である。
マッチング部 23は、 特徴抽出部 22からの特徴パラメータを用いて、 音響 モデル記憶部 24、 辞書記憶部 25、 および文法記憶部 26を必要に応じて参 照しながら、 マイク 1 5に入力された音声 (入力音声) を、 例えば、 連続分布 HMM (Hidden Markov Model)法に基づいて音声認識する。
即ち、 音響モデル記憶部 24は、 音声認識する音声の言語における個々の音 素や音節などの音響的な特徴を表す音響モデルを記憶している。 ここでは、 連 続分布 HMM法に基づいて音声認識を行うので、 音響モデルとしては、 HMM (Hidden Markov Model)が用いられる。 辞書記憶部 25は、 認識対象の各単語に ついて、 その発音に関する情報 (音韻情報) が記述された単語辞書を記憶して いる。 文法記憶部 2 6は、 辞書記憶部 2 5の単語辞書に登録されている各単語 が、 どのように連鎖する (つながる) かを記述した文法規則を記憶している。 ここで、 文法規則としては、 例えば、 文脈自由文法 (C F G) や、 統計的な単 語連鎖確率 (N— g r a m) などに基づく規則を用いることができる。
マッチング部 2 3は、 辞書記憶部 2 5の単語辞書を参照することにより、 音 響モデル記憶部 2 4に記憶されている音響モデルを接続することで、 単語の音 響モデル (単語モデル) を構成する。 さらに、 マッチング部 2 3は、 幾つかの 単語モデルを、 文法記憶部 2 6に記憶された文法規則を参照することにより接 続し、 そのようにして接続された単語モデルを用いて、 特徴パラメータに基づ き、 連続分布 HMM法によって、 マイク 1 5に入力された音声を認識する。 即 ち、 マッチング部 2 3は、 特徴抽出部 2 2が出力する時系列の特徴パラメ一夕 が観測されるスコア (尤度) が最も高い単語モデルの系列を検出し、 その単語 モデルの系列に対応する単語列の音韻情報 (読み) を、 音声の認識結果として 出力する。
より具体的には、 マッチング部 2 3は、 接続された単語モデルに対応する単 語列について、 各特徴パラメ一夕 出現 (出力) 確率を累積し、 その累積値を スコアとして、 そのスコアを最も高くする単語列の音韻情報を、 音声認識結果 として出力する。
以上のようにして出力される、 マイク 1 5に入力された音声の認識結果は、 状態認識情報として、 モデル記憶部 5 1および行動決定機構部 5 2に出力され る。
なお、 音声区間検出部 2 7は、 A D変換部 2 1からの音声データについて、 例えば、 特徴抽出部 2 2が M F C C分析を行うのと同様のフレームごとに、 パ ヮ一を算出している。 さらに、 音声区間検出部 2 7は、 各フレームのパヮ一を. 所定の閾値と比較し、 その閾値以上のパワーを有するフレームで構成される区 間を、 ユーザの音声が入力されている音声区間として検出する。 そして、 音声 区間検出部 2 7は、 検出した音声区間を、 特徴抽出部 2 2とマッチング部 2 3 に供給しており、 特徴抽出部 2 2とマッチング部 2 3は、 音声区間のみを対象 に処理を行う。 なお、 音声区間検出部 2 7における音声区間の検出方法は、 上 述したようなパワーと閾値との比較による方法に限定されるものではない。
次に、 図 5は、 図 3の音声合成部 5 5の構成例を示している。
テキスト解析部 3 1には、 行動決定機構部 5 2が出力する、 音声合成の対象 とするテキストを含む行動指令情報が供給されるようになっており、 テキスト 解析部 3 1は、 辞書記憶部 3 4や生成用文法記憶部 3 5を参照しながら、 その 行動指令情報に含まれるテキストを解析する。
即ち、 辞書記憶部 3 4には、 各単語の品詞情報や、 読み、 アクセント等の情 報が記述された単語辞書が記憶されており、 また、 生成用文法記憶部 3 5には、 辞書記憶部 3 4の単語辞書に記述された単語について、 単語連鎖に関する制約 等の生成用文法規則が記憶されている。 そして、 テキスト解析部 3 1は、 この 単語辞書および生成用文法規則に基づいて、 そこに入力されるテキストの形態 素解析や構文解析等のテキスト解析 (言語解析) を行い、 後段の規則合成部 3 2で行われる規則音声合成に必要な情報を抽出する。 ここで、 規則音声合成に 必要な情報としては、 例えば、 ポーズの位置や、 ァクセン卜、 イントネーショ ン、 パワー等を制御するための韻律情報、 各単語の発音を表す音韻情報などが ある。
テキスト解析部 3 1で得られた情報は、 規則合成部 3 2に供給され、 規則合 成部 3 2は、 音声情報記憶部 3 6を参照しながら、 テキスト解析部 3 1に入力 されたテキストに対応する合成音の音声データ (ディジタルデータ) を生成す る。
即ち、 音声情報記憶部 3 6には、 例えば、 C V (Consonant, Vowe l)や、 V C V、 C V C、 1ピッチ等の波形データの形で音素片データが、 音声情報として 記憶されており、 規則合成部 3 2は、 テキスト解析部 3 1からの情報に基づい て、 必要な音素片データを接続し、 さらに、 音素片データの波形を加工するこ とによって、 ポーズ、 アクセント、 イントネーション等を適切に付加し、 これ により、 テキスト解析部 3 1に入力されたテキストに対応する合成音の音声デ —夕 (合成音データ) を生成する。 あるいは、 また、 音声情報記憶部 3 6には、 例えば、 線形予測係数 (LPC (L iner Pred i c t ion Coef f ic i ents) ) や、 ケプスト ラム(ceps t rum)係数等といった波形データを音響分析することにより得られる 音声の特徴パラメ一夕が、 音声情報として記憶されており、 規則合成部 3 2は、 テキスト解析部 3 1からの情報に基づいて、 必要な特徴パラメータを、 音声合 成用の合成フィルタのタップ係数として用い、 さらに、 その合成フィル夕に与 える駆動信号を出力する音源等を制御することによって、 ポーズ、 アクセント、 イントネーション等を適切に付加し、 これにより、 テキスト解析部 3 1に入力 されたテキストに対応する合成音の音声データ (合成音データ) を生成する。 さらに、 規則合成部 3 2には、 モデル記憶部 5 1から状態情報が供給される ようになつており、 規則合成部 3 2は、 その状態情報のうちの、 例えば、 感情 モデルの値に基づいて、 音声情報記憶部 3 6に記憶された音声情報から、 その 音質を制御したものを生成し、 あるいは、 規則音声合成を制御する各種の合成 制御パラメ一夕を生成することによって、 音質を制御した合成音データを生成 する。
以上のようにして生成された合成音データは、 スピーカ 1 8に供給され、 こ れにより、 スピーカ 1 8からは、 テキスト解析部 3 1に入力されたテキストに 対応する合成音が、 感情に応じて音質を制御して出力される。
なお、 図 3の行動決定機構部 5 2では、 上述したように、 行動モデルに基づ いて、 次の行動が決定されるが、 合成音として出力するテキストの内容は、. 口 ポットの行動と対応付けておくことが可能である。
即ち、 例えば、 口ポットが、 座った状態から、 立った状態になる行動には、 テキスト 「よつこいしよ」 などを対応付けておくことが可能である。 この場合、 口ポットが、 座っている姿勢から、 立つ姿勢に移行するときに、 その姿勢の移 行に同期して、 合成音 「よつこいしよ」 を出力することが可能となる。 次に、 図 6は、 図 5の規則合成部 3 2の構成例を示している。
韻律生成部 4 1には、 テキスト解析部 3 1 (図 5 ) によるテキスト解析結果 が供給され、 韻律生成部 4 1は、 そのテキスト解析結果に含まれる、 例えば、 ポーズの位置や、 アクセント、 イントネーション、 パワー等を表す韻律情報と 音韻情報などに基づいて、 合成音の韻律を、 いわば具体的に制御する韻律デー 夕を生成する。 韻律生成部 4 1で生成された韻律データは、 波形生成部 4 2に 供給される。 ここで、 韻律制御部 4 1では、 合成音を構成する各音韻の継続時 間長、 合成音のピッチ周期の時間変化パターンを表す周期パターン信号、 合成 音のパワーの時間変化パ夕一ンを表すパワーパ夕一ン信号等が、 韻律データと して生成される。
波形生成部 4 2には、 上述したように、 韻律デ一夕が供給される他、 テキス ト解析部 3 1 (図 5 ) によるテキスト解析結果が供給される。 さらに、 波形生 成部 4 2には、 パラメータ生成部 4 3から合成制御パラメータが供給される。 波形生成部 4 2は、 テキスト解析結果に含まれる音韻情報にしたがって、 必要 な変換音声情報を、 変換音声情報記憶部 4 5から読み出し、 その変換音声情報 を用いて規則音声合成を行うことにより、 合成音を生成する。 さらに、 波形生 成部 4 2は、 規則音声合成を行う際、 韻律生成部 4 1からの韻律データと、 パ ラメ一夕生成部 4 3からの合成制御パラメータに基づいて、 合成音データの波 形を調整することにより、 合成音の韻律と音質を制御する。 そして、 波形生成 部 4 2は、 最終的に得られた合成音データを出力する。
パラメ一夕生成部 4 3には、 モデル記憶部 5 1 (図 3 ) から状態情報が供給 されるようになつている。 パラメ一夕生成部 4 3は、 その状態情報のうちの感 情モデルに基づいて、 波形生成部 4 2における規則音声合成を制御するための 合成制御パラメータや、 音声情報記憶部 3 6 (図 5 ) に記憶された音声情報を 変換する変換パラメ一夕を生成する。
即ち、 パラメータ生成部 4 3は、 例えば、 感情モデルとしての 「うれしさ」 「悲しさ」 、 「怒り」 、 「楽しさ」 、 「興奮」 、 「眠い」 、 「心地よい」 、 「不快」 等の感情の状態を表す値 (以下、 適宜、 感情モデル値という) に、 合 成制御パラメ一夕と変換パラメ一夕を対応付けた変換テーブルを記憶しており、 その変換テ一ブルにおいて、 モデル記憶部 5 1からの状態情報における感情モ デルの値に対応付けられている合成制御パラメータと変換パラメ一夕を出力す る。
なお、 パラメータ生成部 4 3が記憶している変換テ一プルは、 ペットロボッ 卜の感情の状態を表す音質の合成音が得られるように、 感情モデル値と、 合成 制御パラメ一夕および変換パラメ一夕とを対応付けて構成されている。 感情モ デル値と、 合成制御パラメ一夕および変換パラメータとを、 どのように対応付 けるかは、 例えば、 シミュレーションを行うことによって決定することができ る。
さらに、 ここでは、 変換テーブルを用いて、 感情モデル値から、 合成制御パ ラメ一夕および変換パラメ一夕を得るようにしたが、 その他、 合成制御パラメ 一夕および変換パラメ一夕は、 例えば、 次のようにして得ることも可能である < 即ち、 例えば、 ある感情 # nの感情モデル値を P nと、 ある合成制御パラメ一 夕または変換パラメ一夕を Q i と、 所定の関数を f i.„ 0 と、 それぞれ表すとき, 合成制御パラメータまたは変換パラメ一夕 Q iは、 式 Q i=∑ i i, n ( P„) を計算す ることによって求めることが可能である。 但し、 ∑は、 変数 nについてのサメ ーシヨンを表す。
また、 上述の場合には、 「うれしさ」 、 「悲しさ」 、 「怒り」 、 「楽しさ」 等のすべての感情モデル値を考慮した変換テーブルを用いるようにしたが、 そ の他、 例えば、 次のような簡略化した変換テーブルを用いることも可能である, 即ち、 感情の状態を、 例えば、 「定常」 、 「悲しさ」 、 「怒り j 、 「楽し さ」 等のいずれかのみに分類し、 各感情に、 ユニークな番号としての感情番号 を付しておく。 即ち、 例えば、 「定常」 、 「悲しさ」 、 「怒り」 、 「楽しさ」 に、 それぞれ 0, 1, 2, 3等の感情番号を、 それぞれ付しておく。 そして、 このような感情番号と、 合成制御パラメ一夕および変換パラメ一夕とを対応付 けた変換テーブルを作成する。 なお、 このような変換テーブルを用いる場合に は、 感情モデル値から、 感情の状態を、 「うれしさ」 、 「悲しさ」 、 「怒り」 、 「楽しさ」 のいずれかに分類する必要があるが、 これは、 次のようにして行う ことが可能である。 即ち、 例えば、 複数の感情モデル値のうち、 最も大きい感 情モデル値と、 2番目に大きい感情モデル値との差が、 所定の閾値以上の場合 は、 最も大きい感情モデル値に対応する感情の状態に分類し、 そうでない場合 は、 「定常」 の状態に分類すればよい。
ここで、 パラメ一夕生成部 4 3において生成される合成制御パラメ一夕には, ' 例えば、 有声音や無声摩擦音、 破裂音等の各音の音量バランスを調整するパラ メ一夕、 波形生成部 4 2における音源としての、 後述する駆動信号生成部 6 0 (図 8 ) の出力信号の振幅ゆらぎの大きさを制御するパラメ一夕、 音源の周波 数を制御するパラメ一夕等の合成音の音質に影響するパラメ一夕が含まれる。 また、 パラメ一夕生成部 4 3において生成される変換パラメ一夕は、 合成音 を構成する波形データの特性を変更するように、 音声情報記憶部 3 6 (図 5 ) の音声情報を変換するためのものである。
パラメ一夕生成部 4 3が生成する合成制御パラメ一夕は、 波形生成部 4 2に 供給され、 変換パラメ一夕は、 データ変換部 4 4に供給されるようになってい る。 データ変換部 4 4は、 音声情報記憶部 3 6から音声情報を読み出し、 変換 パラメ一夕にしたがって、 音声情報を変換する。 デ一夕変換部 4 4は、 これに より、 合成音を構成する波形データの特性を変更させる音声情報としての変換 音声情報を得て、 変換音声情報記憶部 4 5に供給する。 変換音声情報記憶部 4 5は、 データ変換部 4 4から供給される変換音声情報を記憶する。 この変換音 声情報は、 波形生成部 4 2によって、 必要に応じて読み出される。
次に、 図 7のフローチャートを参照して、 図 6の規則合成部 3 2の処理につ いて説明する。
図 5のテキスト解析部 3 1が出力するテキスト解析結果は、 韻律生成部 4 1 と波形生成部 4 2に供給される。 また、 図 5のモデル記憶部 5 1が出力する状 態情報は、 パラメ一夕生成部 4 3に供給される。
韻律生成部 4 1は、 テキスト解析結果を受信すると、 ステップ S 1において、 テキスト解析結果に含まれる音韻情報が表す各音韻の継続時間長、 周期パター ン信号、 パワーパターン信号等の韻律データを生成し、 波形生成部 4 2に供給 して、 ステップ S 2に進む。
その後、 ステップ S 2では、 パラメータ生成部 4 3は、 感情反映モ一ドかど うかを判定する。 即ち、 本実施の形態では、 感情を反映した音質の合成音を出 力する感情反映モードと、 感情を反映しない音質の合成音を出力する非感情反 映モ一ドのうちのいずれかを設定することができるようになつており、 ステツ プ S 2では、 ロボットのモードが感情反映モードとなっているかどうかが判定 される。
ここで、 ロボットには、 感情反映モードと非感情反映モードを設けずに、 常 に、 感情を反映した合成音を出力させるようにすることも可能である。
ステップ S 2において、 感情反映モードでないと判定された場合、 ステップ S 3および S 4をスキップして、 ステップ S 5に進み、 波形生成部 4 2は、 合 成音を生成し、 処理を終了する。
即ち、 感情反映モードでない場合、 パラメ一夕生成部 4 3は、 特に処理を行 わず、 従って、 合成制御パラメ一夕および変換パラメ一夕を生成しない。
その結果、 波形生成部 4 2は、 音声情報記憶部 3 6 (図 5 ) に記憶された音 声情報を、 データ変換部 4 4および変換音声情報記憶部 4 5を介して読み出し. その音声情報と、 デフォルトの合成制御パラメータを用い、 韻律生成部 4 1か らの韻律データに対応して韻律を制御しながら音声合成処理を行う。 従って、 波形生成部 4 2では、 デフォルトの音質を有する合成音デ一夕が生成される。 一方、 ステップ S 2において、 感情反映モードであると判定された場合、 ス テツプ S 3に進み、 パラメ一夕生成部 4 3は、 モデル記憶部 5 1からの状態情 報のうちの感情モデルに基づいて、 合成制御パラメータおよび変換パラメータ を生成する。 そして、 合成制御パラメ一タは、 波形生成部 4 2に供給され、 変 換パラメ一夕は、 デ一夕変換部 44に供給される。
その後、 ステップ S 4に進み、 データ変換部 44が、 パラメ一夕生成部 43 からの変換パラメ一夕にしたがい、 音声情報記憶部 36 (図 5) に記憶された 音声情報を変換する。 さらに、 データ変換部 44は、 その変換の結果得られた 変換音声情報を、 変換音声情報記憶部 45に供給して記憶させる。
そして、 ステップ S 5に進み、 波形生成部 42は、 合成音を生成し、 処理を 終了する。
即ち、 この場合、 波形生成部 42は、 変換音声情報記憶部 45に記憶された 音声情報のうちの必要なもの読み出し、 その変換音声情報と、 パラメ一夕生成 部 43から供給される合成制御パラメ一夕を用い、 韻律生成部 41からの韻律 データに対応して韻律を制御しながら音声合成処理を行う。 従って、 波形生成 部 42では、 ロポッ卜の感情の状態に対応する音質を有する合成音データが生 成される。
以上のように、 感情モデル値に基づき、 合成制御パラメ一夕や変換パラメ一 夕を生成し、 その合成制御パラメ一夕や、 変換パラメ一夕によって音声情報を 変換した変換音声情報を用いて音声合成を行うようにしたので、 感情に応じて、 例えば、 周波数特性や音量バランス等といった音質が制御された、 感情豊かな 合成音を得ることができる。 .
次に、 図 8は、 音声情報記憶部 36 (図 5) に記憶されている音声情報が、 音声の特徴パラメ一夕としての、 例えば線形予測係数 (L P C) である場合の、 図 6の波形生成部 42の構成例を示している。
ここで、 線形予測係数は、 音声の波形デ一夕から求められた自己相関係数を 用いた Yule- Walkerの方程式を解く等の、 いわゆる線形予測分析を行うことで 得られるが、 この線形予測分析は、 現在時刻 nの音声信号 (のサンプル値) sn、 およびこれに隣接する過去の P個のサンプル値 s^, sn_2, . · ·, sn_Pに、 式 s n+ Q!i S n.t+ Q;2 S n.2+ - . - + Q!p S n_P=en
• · · ( 1 ) W 02
20 で示す線形 1次結合が成立すると仮定し、 現在時刻 nのサンプル値 s nの予測値 (線形予測値) s„' を、 過去の P個の標本値 sn— sn_2, · · · , sn_Pを用い て、 式
sn =— ( ^ s n_{+ ^ s n.2+ - · · + a p s n_P)
• · · (2) によって線形予測したときに、 実際のサンプル値 snと線形予測値 sn' との間の 自乗誤差を最小にする線形予測係数 a pを求めるものである。
ここで、 式 (1) において、 {en} ( · · · , en en, en+1, · · · ) は、 平 均値が 0で、 分散が所定値 σ 2の互いに無相関な確率変数である。
式 (1) から、 サンプル値 snは、 式
s„=e„- (a,sn.1+a;2sn_2+ - . · + a P s n_P)
(3) で表すことができ、 これを、 Z変換すると、 次式が成立する,
S = E/ ( 1 + a, ζ"'+ α2ζ"2+ - · · + α?ζ— ρ)
(4) 但し、 式 (4) において、 Sと Εは、 式 (3) における snと enの Ζ変換を、 そ れぞれ表す。
ここで、 式 (1) および (2) から、 enは、 式
^ n― ° π ° π
• · · (5) で表すことができ、 実際のサンプル値 snと線形予測値 sn' との間の残差信号と 呼ばれる。
従って、 式 (4) から、 線形予測係数 apを I I R (Infinife Impulse Respon se) フィル夕のタップ係数とするとともに、 残差信号 enを I I Rフィル夕の駆 動信号 (入力信号) とすることにより、 音声信号 snを求めることができる。 図 8の波形生成部 42は、 式 (4) にしたがって音声信号を生成する音声合 成を行うようになっている。 即ち、 駆動信号生成部 60は、 駆動信号となる残差信号を生成して出力する。 ここで、 駆動信号生成部 60には、 韻律デ一夕、 テキスト解析結果、 および 合成制御パラメ一夕が供給されるようになっている。 そして、 駆動信号生成部 60は、 これらの韻律データ、 テキスト解析結果、 および合成制御パラメ一夕 にしたがい、 周期 (周波数) や振幅等を制御した周期的なインパルスと、 ホヮ イトノイズのような信号とを重畳することにより、 合成音に対して、 対応する 韻律、 音韻、 音質 (声質) を与える駆動信号を生成する。 なお、 周期的なイン パルスは、 主として有声音の生成に寄与し、 ホワイトノイズのような信号は、 主として無声音の生成に寄与する。
図 8において、 1つの加算器 6 1、 P個の遅延回路 (D) 62,乃至 62P、 お よび P個の乗算器 63,乃至 63Pは、 音声合成用の合成フィルタとしての I I R フィルタを構成しており、 駆動信号生成部 60からの駆動信号を音源として、 合成音デ一夕を生成する。
即ち、 駆動信号生成部 60が出力する残差信号 (駆動信号) eは、 加算器 6 1を介して、 遅延回路 62,に供給され、 遅延回路 62Pは、 そこへの入力信号を、 残差信号の 1サンプル分だけ遅延して、 後段の遅延回路 62P+1に出力するとと もに、 演算器 63Pに出力する。 乗算器 63pは、 遅延回路 62Pの出力と、 そこ にセットされた線形予測係数 Q!pとを乗算し、 その乗算値を、 加算器 6 1に出力 する。
加算器 61は、 乗算器 63,乃至 6 3Pの出力すべてと、 残差信号 eとを加算し、 その加算結果を、 遅延回路 62 こ供給する他、 音声合成結果 (合成音データ) として出力する。
なお、 係数供給部 64は、 変換音声情報記憶部 45から、 テキスト解析結果 に含まれる音韻等に応じて、 必要な変換音声情報としての線形予測係数 い α2, · · ·, αΡを読み出し、 それぞれを、 乗算器 63,乃至 63Ρにセットするよう になっている。
次に、 図 9は、 音声情報記憶部 36 (図 5) に記憶されている音声情報が、 W
22 音声の特徴パラメ一夕としての、 例えば、 線形予測係数 (L P C) である場合 の、 図 6のデ一夕変換部 44の構成例を示している。
音声情報記憶部 3 6に記憶された音声情報としての線形予測係数は、 合成フ ィル夕 7 1に供給される。 合成フィル夕 7 1は、 図 8における 1つの加算器 6 1、 P個の遅延回路 (D) 6 21乃至6 21>、 および P個の乗算器 6 3 ,乃至 6 3 P でなる合成フィル夕と同様の I I Rフィル夕であり、 線形予測係数をタップ係 数とするとともに、 ィンパルスを駆動信号としてフィルタリングを行うことで、 線形予測係数を音声データ (時領域の波形データ) に変換する。 この音声デー 夕は、 フーリエ変換部 7 2に供給される。
フーリエ変換部 7 2は、 合成フィルタ 7 1からの音声デ一夕をフーリエ変換 することにより、 周波数領域の信号、 即ち、 スペクトルを求め、 周波数特性変 換部 7 3に供給する。
従って、 合成フィル夕 7 1およびフーリエ変換部 7 2では、 線形予測係数 α,, 2, · · ·, αΡがスペクトル F (Θ) に変換されるが、 この線形予測係数 α,, α2, · · · , «ρからスペクトルへ F (Θ) の変換は、 その他、 例えば、 次式に したがい、 0を 0から Cまでに変化させることによつても行うことができる。
F (,θ) = 1 / 1 1 + α,ζ-'+ α2ζ-2+ - · · + αΡζ"ρ Γ
ζ = e "J 0
• · · (6) ここで、 Θは、 各周波数を表す。
周波数特性変換部 7 3には、 パラメ一夕生成部 4 3 (図 6) が出力する変換 パラメ一夕が供給されるようになっている。 そして、 周波数特性変換部 7 3は, フーリエ変換部 7 2からのスぺクトルを、 変換パラメータにしたがって変換す ることにより、 線形予測係数から得られる音声データ (波形データ) の周波数 特性を変更する。
ここで、 図 9の実施の形態では、 周波数特性変換部 7 3は、 伸縮処理部 7 3 Αとイコライザ 7 3 Βとから構成されている。 伸縮処理部 73は、 フーリエ変換部 72から供給されるスペクトル F (Θ) を、 周波数軸方向に伸縮させる。 即ち、 伸縮処理部 7 3Aは、 伸縮パラメ一夕 を△と表すと、 式 (6) を、 その 0を に替えて演算し、 周波数軸方向に伸 縮を行ったスペクトル F (ΑΘ) を求める。
この場合、 伸縮パラメ一夕△が、 変換パラメータとなる。 なお、 伸縮パラメ —夕△は、 例えば、 0. 5乃至 2. 0の範囲内の値とすることができる。
イコライザ 7 3 Bは、 フーリエ変換部 7 2から供給されるスぺクトル F
(Θ) に、 ィコライジング処理を施すことにより、 その高域を強調または抑圧 する。 即ち、 イコライザ 7 3 Bは、 スペクトル F (Θ) に対して、 例えば、 図 1 OAに示すような特性の高域強調フィルタ、 または図 1 0 Bに示すような特 性の高域抑圧フィルタをかけ、 その周波数特性を変更したスぺクトルを求める ここで、 図 1 0において、 gはゲインを、 fcは遮断周波数を、 は減衰幅を、 isは音声データ (合成フィル夕 7 1が出力する音声データ) のサンプリング周 波数を、 それぞれ表すが、 このうちのゲイン g、 遮断周波数 、 および減衰幅 fwが、 変換パラメ一夕となる。
なお、 一般に、 図 1 OAの高域強調フィルタをかけた場合には、 合成音の音 質は、 固い印象のものとなり、 図 1 0 Bの高域抑圧フィルタをかけた場合には, 合成音の音質は、 柔らかい印象のものとなる。
また、 周波数特性変換部 73では、 その他、 例えば、 n次平均フィルタをか けたり、 ケプストラム係数を求めてリフタ(lifter)をかける等して、 スぺクト ルを平滑化することも可能である。
周波数特性変換部 7 3において周波数特性の変換されたスペクトルは、 逆フ 一リエ変換部 74に供給される。 逆フーリエ変換部 74は、 周波数特性変換部 7 3からのスペクトルを逆フーリエ変換することにより、 時領域の信号、 即ち. 音声データ (波形データ) を求め、 L PC分析部 7 5に供給する。
L PC分析部 7 5は、 逆フ一リエ変換部 74からの音声デ一夕を線形予測分 析することにより、 線形予測係数を求め、 この線形予測係数を、 変換音声情報 として、 変換音声情報記憶部 4 5 (図 6 ) に供給して記憶させる。
なお、 ここでは、 音声の特徴パラメ一夕として、 線形予測係数を採用したが、 その他、 ケプストラム係数や、 線スペクトル対等を採用することも可能である。 次に、 図 1 1は、 音声情報記憶部 3 6 (図 5 ) に記憶されている音声情報が、 音声デ一夕 (波形データ) としての、 例えば音素片デ一夕である場合の、 図 6 の波形生成部 4 2の構成例を示している。
接続制御部 8 1には、 韻律データ、 合成制御パラメ一夕、 およびテキスト解 析結果が供給されるようになっている。 接続制御部 8 1は、 これらの韻律デー 夕、 合成制御パラメータ、 およびテキスト解析結果にしたがい、 合成音を生成 するのに接続すべき音素片データや、 その波形の加工方法または調整方法 (例 えば、 波形の振幅など) を決定し、 波形接続部 8 2を制御する。
波形接続部 8 2は、 接続制御部 8 1の制御にしたがい、 変換音声情報記憶部 4 5から、 変換音声情報としての、 必要な音素片データを読み出し、 さらに、 同じく接続制御部 8 1の制御にしたがい、 読み出した音素片データの波形を調 整して接続する。 これにより、 波形接続部 8 2は、 韻律データ、 合成制御パラ メータ、 テキスト解析結果それぞれに対応する韻律、 音質、 音韻の合成音デー 夕を生成して出力する。
次に、 図 1 2は、 音声情報記憶部 3 6 (図 5 ) に記憶されている音声情報が、 音声データ (波形データ) である場合の、 図 6のデ一夕変換部 4 4の構成例を 示している。 なお、 図中、 図 9における場合と対応する部分については、 同一 の符号を付してあり、 以下では、 その説明は、 適宜省略する。 即ち、 図 1 2の デ一夕変換部 4 4は、 合成フィル夕 7 1および L P C分析部 7 5が設けられて いない他は、 図 9における場合と同様に構成されている。
従って、 図 1 2のデータ変換部 4 4では、 フーリエ変換部 7 2において、 音 声情報記憶部 3 6 (図 5 ) に記憶された音声情報としての音声デ一夕がフーリ ェ変換され、 その結果得られるスペクトルが、 周波数特性変換部 7 3に供給さ れる。 周波数特性変換部 7 3は、 フーリエ変換部 7 2からのスペクトルに対し て、 変換パラメータにしたがった周波数特性変換処理を施し、 逆フーリエ変換 部 74に出力する。 逆フーリエ変換部 74は、 周波数特性変換部 7 3からのス ベクトルを逆フーリエ変換することにより、 音声データとし、 この音声データ を、 変換音声情報として、 変換音声情報記憶部 45 (図 6) に供給して記憶さ せる。
以上、 本発明を、 エンターテイメント用の口ポット (疑似ペットとしての口 ポット) に適用した場合について説明したが、 本発明は、 これに限らず、 例え ば、 音声合成装置を搭載した各種のシステムに広く適用することが可能である, また、 本発明は、 現実世界の口ポットだけでなく、 例えば、 液晶ディスプレイ 等の表示装置に表示される仮想的なロボットにも適用可能である。
なお、 本実施の形態においては、 上述した一連の処理を、 CPU 1 0Aにプ ログラムを実行させることにより行うようにしたが、 一連の処理は、 それ専用 のハードウェアによって行うことも可能である。
ここで、 プログラムは、 あらかじめメモリ 1 0 B (図 2) に記憶させておく 他、 フロッピーディスク、 CD-ROM (Compact Disc Read Only Memory), MO (Magne to optical)ディスク, DVD(Digital Versatile Disc), 磁気ディスク、 半導体 メモリなどのリム一バブル記録媒体に、 一時的あるいは永続的に格納 (記録) しておくことができる。 そして、 このようなリム一バブル記録媒体を、 いわゆ るパッケージソフトウェアとして提供し、 口ポット (メモリ 1 0 B) にインス トールするようにすることができる。
また、 プログラムは、 ダウンロードサイトから、 ディジタル衛星放送用の人 ェ衛星を介して、 無線で転送したり、 LAN(Local Area Network), インタ一ネッ トといったネットワークを介して、 有線で転送し、 メモリ 1 0 Bにインスト一 ルすることができる。
この場合、 プログラムがバ一ジョンアップされたとき等に、 そのバージョン アップされたプログラムを、 メモリ 1 0 Bに、 容易にインストールすることが でさる。 なお、 本明細書において、 C P U 1 0 Aに各種の処理を行わせるためのプロ グラムを記述する処理ステップは、 必ずしもフローチャートとして記載された 順序に沿って時系列に処理する必要はなく、 並列的あるいは個別に実行される 処理 (例えば、 並列処理あるいはオブジェクトによる処理) も含むものである c また、 プログラムは、 1の C P Uにより処理されるものであっても良いし、 複数の C P Uによって分散処理されるものであっても良い。
次に、 図 5の音声合成装置 5 5は、 専用のハードウェアにより実現すること もできるし、 ソフトウェアにより実現することもできる。 音声合成装置 5 5を ソフトウェアによって実現する場合には、 そのソフトウェアを構成するプログ ラムが、 汎用のコンピュータ等にインストールされる。
そこで、 図 1 3は、 音声合成装置 5 5を実現するためのプログラムがインス ] ^一ルされるコンピュータの一実施の形態の構成例を示している。
プログラムは、 コンピュータに内蔵されている記録媒体としてのハードディ スク 1 0 5や R O M 1 0 3に予め記録しておくことができる。
あるいはまた、 プログラムは、 フロッピーディスク、 CD-ROM, M0ディスク, D VD、 磁気ディスク、 半導体メモリなどのリムーバブル記録媒体 1 1 1に、 一時 的あるいは永続的に 納 (記録) しておくことができる。 このようなリムーバ ブル記録媒体 1 1 1は、 いわゆるパッケージソフトウェアとして提供すること ができる。
なお、 プログラムは、 上述したようなリム一バブル記録媒体 1 1 1からコン ピュー夕にインストールする他、 ダウン口一ドサイトから、 ディジタル衛星放 送用の人工衛星を介して、 コンピュータに無線で転送したり、 LANOLocal Area Ne twork) , インターネットといったネットワークを介して、 コンピュータに有 線で転送し、 コンピュータでは、 そのようにして転送されてくるプログラムを. 通信部 1 0 8で受信し、 内蔵するハードディスク 1 0 5にインストールするこ とができる。
コンピュータは、 CPU (Cent ral Process ing Uni t) 1 0 2を内蔵している。 CPU 1 02には、 バス 101を介して、 入出力インタフェース 1 1 0が接続されて おり、 CPU102は、 入出力インタフェース 1 10を介して、 ユーザによって、 キーボードや、 マウス、 マイク等で構成される入力部 107が操作等されるこ とにより指令が入力されると、 それにしたがって、 ROM Read Only Memory) 10 3に格納されているプログラムを実行する。 あるいは、 また、 CPU102は、 八 ードディスク 105に格納されているプログラム、 衛星若しくはネットヮ一ク から転送され、 通信部 108で受信されてハードディスク 1 0 5にインス ] ルされたプログラム、 またはドライブ 109に装着されたリムーバブル記録媒 体 1 1 1から読み出されてハードディスク 1 05にインストールされたプログ ラムを、 RAM(Random Access Memory) 1 04にロードして実行する。 これにより CPU102は、 上述したフローチャートにしたがった処理、 あるいは上述したプ ロック図の構成により行われる処理を行う。 そして、 CPU102は、 その処理結 果を、 必要に応じて、 例えば、 入出力インタフェース 1 10を介して、 LCD(Liq uid Crystal Display)やスピーカ等で構成される出力部 106から出力、 ある いは、 通信部 1 08から送信、 さらには、 ハードディスク 1 0 5に記録等させ る。
なお、 本実施の形態では、 感情の状態に基づいて、 合成音の音質を変えるよ うにしたが、 その他、 例えば、 感情の状態に基づいて、 合成音の韻律も変える ようにすることが可能である。 合成音の韻律は、 例えば、 合成音のピッチ周期 の時間変化パターン (周期パターン) や、 合成音のパワーの時間変化パターン (パワーパ夕一ン) 等を、 感情モデルに基づいて制御することで変えることが 可能である。
また、 本実施の形態においては、 テキスト (漢字仮名交じりのテキストを含 む) から合成音を生成するようにしたが、 その他、 発音記号等から合成音を生 成するようにすることも可能である。 産業上の利用可能性 以上の如く、 本発明のによれば、 所定の情報のうち、 合成音の音質に影響す る音質影響情報が、 外部から供給される、 感情の状態を表す状態情報に基づい て生成され、 その音質影響情報を用いて、 音質を制御した合成音が生成される, 従って、 感情の状態に応じて音質を変えた合成音を生成することにより、 感情 豊かな合成音を得ることが可能となる。

Claims

請求の範囲
1 . 所定の情報を用いて音声合成を行う音声合成装置であって、
前記所定の情報のうち、 合成音の音質に影響する音質影響情報を、 外部から 供給される、 感情の状態を表す状態情報に基づいて生成する音質影響情報生成 手段と、
前記音質影響情報を用いて、 音質を制御した前記合成音を生成する音声合成 手段と
を備えることを特徴とする音声合成装置。
2 . 前記音質影響情報生成手段は、
前記感情の状態に基づいて、 前記合成音を構成する波形データの特性を変更 するように、 前記音質影響情報を変換する変換パラメ一夕を生成する変換パラ メータ生成手段と、
前記変換パラメータに基づいて、 前記音質影響情報を変換する音質影響情報 変換手段と
を有する
ことを特徴とする請求の範囲第 1項に記載の音声合成装置。
3 . 前記音質影響情報は、 前記合成音を生成するのに接続される所定単位の 波形データである
ことを特徴とする請求の範囲第 2項に記載の音声合成装置。
4 . 前記音質影響情報は、 前記波形デ一夕から抽出された特徴パラメ一夕で ある
ことを特徴どする請求の範囲第 2項に記載の音声合成装置。
5 . 前記音声合成手段は、 規則音声合成を行い、
前記音質影響情報は、 前記規則音声合成を制御するための合成制御パラメ一 夕である
ことを特徴とする請求の範囲第 1項に記載の音声合成装置。
6 . 前記合成制御パラメ一夕は、 音量パランス、 音源の振幅ゆらぎの大きさ または音源の周波数を制御するものである
ことを特徴とする請求の範囲第 5項に記載の音声合成装置。
7 . 前記音声合成手段は、 周波数特性または音量パランスを制御した前記合 成音を生成する
ことを特徴とする請求の範囲第 1項に記載の音声合成装置。
8 . 所定の情報を用いて音声合成を行う音声合成方法であって、
前記所定の情報のうち、 合成音の音質に影響する音質影響情報を、 外部から 供給される、 感情の状態を表す状態情報に基づいて生成する音質影響情報生成 前記音質影響情報を用いて、 音質を制御した前記合成音を生成する音声合成 ステッフと
を備えることを特徴とする音声合成方法。
9 . 所定の情報を用いて音声合成を行う音声合成処理を、 コンピュータに行 わせるプログラムであって、
前記所定の情報のうち、 合成音の音質に影響する音質影響情報を、 外部から 供給される、 感情の状態を表す状態情報に基づいて生成する音質影響情報生成 ステップと、
前記音質影響情報を用いて、 音質を制御した前記合成音を生成する音声合成 ステップと
を備えることを特徴とするプログラム。
1 0 . 所定の情報を用いて音声合成を行う音声合成処理を、 コンピュータに 行わせるプログラムが記録されている記録媒体であって、
前記所定の情報のうち、 合成音の音質に影響する音質影響情報を、 外部から 供給される、 感情の状態を表す状態情報に基づいて生成する音質影響情報生成 前記音質影響情報を用いて、 音質を制御した前記合成音を生成する音声合成 ステップと を備えるプログラムが記録されている ことを特徴とする記録媒体。
PCT/JP2002/002176 2001-03-09 2002-03-08 Dispositif de synthese vocale WO2002073594A1 (fr)

Priority Applications (2)

Application Number Priority Date Filing Date Title
EP02702830A EP1367563A4 (en) 2001-03-09 2002-03-08 VOICE SYNTHESIS DEVICE
KR1020027014932A KR20020094021A (ko) 2001-03-09 2002-03-08 음성 합성 장치

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2001-66376 2001-03-09
JP2001066376A JP2002268699A (ja) 2001-03-09 2001-03-09 音声合成装置及び音声合成方法、並びにプログラムおよび記録媒体

Publications (1)

Publication Number Publication Date
WO2002073594A1 true WO2002073594A1 (fr) 2002-09-19

Family

ID=18924875

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2002/002176 WO2002073594A1 (fr) 2001-03-09 2002-03-08 Dispositif de synthese vocale

Country Status (6)

Country Link
US (1) US20030163320A1 (ja)
EP (1) EP1367563A4 (ja)
JP (1) JP2002268699A (ja)
KR (1) KR20020094021A (ja)
CN (1) CN1461463A (ja)
WO (1) WO2002073594A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100759172B1 (ko) * 2004-02-20 2007-09-14 야마하 가부시키가이샤 음성 합성 장치, 음성 합성 방법, 및 음성 합성 프로그램을기억한 기억 매체

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7401020B2 (en) * 2002-11-29 2008-07-15 International Business Machines Corporation Application of emotion-based intonation and prosody to speech in text-to-speech systems
JP3864918B2 (ja) 2003-03-20 2007-01-10 ソニー株式会社 歌声合成方法及び装置
US20060168297A1 (en) * 2004-12-08 2006-07-27 Electronics And Telecommunications Research Institute Real-time multimedia transcoding apparatus and method using personal characteristic information
US8073696B2 (en) 2005-05-18 2011-12-06 Panasonic Corporation Voice synthesis device
GB2427109B (en) * 2005-05-30 2007-08-01 Kyocera Corp Audio output apparatus, document reading method, and mobile terminal
KR20060127452A (ko) * 2005-06-07 2006-12-13 엘지전자 주식회사 로봇청소기 상태알림장치 및 방법
JP4626851B2 (ja) * 2005-07-01 2011-02-09 カシオ計算機株式会社 曲データ編集装置および曲データ編集プログラム
US7983910B2 (en) * 2006-03-03 2011-07-19 International Business Machines Corporation Communicating across voice and text channels with emotion preservation
CN101606190B (zh) * 2007-02-19 2012-01-18 松下电器产业株式会社 用力声音转换装置、声音转换装置、声音合成装置、声音转换方法、声音合成方法
CN101627427B (zh) * 2007-10-01 2012-07-04 松下电器产业株式会社 声音强调装置及声音强调方法
US20120059781A1 (en) * 2010-07-11 2012-03-08 Nam Kim Systems and Methods for Creating or Simulating Self-Awareness in a Machine
US10157342B1 (en) * 2010-07-11 2018-12-18 Nam Kim Systems and methods for transforming sensory input into actions by a machine having self-awareness
CN102376304B (zh) * 2010-08-10 2014-04-30 鸿富锦精密工业(深圳)有限公司 文本朗读系统及其文本朗读方法
JP5631915B2 (ja) * 2012-03-29 2014-11-26 株式会社東芝 音声合成装置、音声合成方法、音声合成プログラムならびに学習装置
US10957310B1 (en) 2012-07-23 2021-03-23 Soundhound, Inc. Integrated programming framework for speech and text understanding with meaning parsing
US9310800B1 (en) * 2013-07-30 2016-04-12 The Boeing Company Robotic platform evaluation system
WO2015092936A1 (ja) * 2013-12-20 2015-06-25 株式会社東芝 音声合成装置、音声合成方法およびプログラム
KR102222122B1 (ko) * 2014-01-21 2021-03-03 엘지전자 주식회사 감성음성 합성장치, 감성음성 합성장치의 동작방법, 및 이를 포함하는 이동 단말기
US11295730B1 (en) 2014-02-27 2022-04-05 Soundhound, Inc. Using phonetic variants in a local context to improve natural language understanding
CN105895076B (zh) * 2015-01-26 2019-11-15 科大讯飞股份有限公司 一种语音合成方法及系统
US9558734B2 (en) * 2015-06-29 2017-01-31 Vocalid, Inc. Aging a text-to-speech voice
WO2018043112A1 (ja) * 2016-08-29 2018-03-08 ソニー株式会社 情報提示装置、および情報提示方法
CN107962571B (zh) * 2016-10-18 2021-11-02 江苏网智无人机研究院有限公司 目标对象的控制方法、装置、机器人和系统
CN106503275A (zh) * 2016-12-30 2017-03-15 首都师范大学 聊天机器人的音色配置方法及装置
CN107039033A (zh) * 2017-04-17 2017-08-11 海南职业技术学院 一种语音合成装置
EP3392884A1 (en) * 2017-04-21 2018-10-24 audEERING GmbH A method for automatic affective state inference and an automated affective state inference system
CN107240401B (zh) * 2017-06-13 2020-05-15 厦门美图之家科技有限公司 一种音色转换方法及计算设备
US10225621B1 (en) 2017-12-20 2019-03-05 Dish Network L.L.C. Eyes free entertainment
US10847162B2 (en) * 2018-05-07 2020-11-24 Microsoft Technology Licensing, Llc Multi-modal speech localization
CN110634466B (zh) * 2018-05-31 2024-03-15 微软技术许可有限责任公司 具有高感染力的tts处理技术
JP7334942B2 (ja) * 2019-08-19 2023-08-29 国立大学法人 東京大学 音声変換装置、音声変換方法及び音声変換プログラム
CN111128118B (zh) * 2019-12-30 2024-02-13 科大讯飞股份有限公司 语音合成方法、相关设备及可读存储介质
WO2023037609A1 (ja) * 2021-09-10 2023-03-16 ソニーグループ株式会社 自律移動体、情報処理方法、及び、プログラム

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58168097A (ja) * 1982-03-29 1983-10-04 日本電気株式会社 音声合成装置
JPH02106799A (ja) * 1988-10-14 1990-04-18 A T R Shichiyoukaku Kiko Kenkyusho:Kk 合成音声情緒付与回路
JPH02236600A (ja) * 1989-03-10 1990-09-19 A T R Shichiyoukaku Kiko Kenkyusho:Kk 合成音声情緒付与回路
JPH04199098A (ja) * 1990-11-29 1992-07-20 Meidensha Corp 規則音声合成装置
JPH05100692A (ja) * 1991-05-31 1993-04-23 Oki Electric Ind Co Ltd 音声合成装置
JPH0772900A (ja) * 1993-09-02 1995-03-17 Nippon Hoso Kyokai <Nhk> 音声合成の感情付与方法
JPH07104778A (ja) * 1993-10-07 1995-04-21 Fuji Xerox Co Ltd 感情表出装置
JPH07244496A (ja) * 1994-03-07 1995-09-19 N T T Data Tsushin Kk テキスト朗読装置
JPH09252358A (ja) * 1996-03-14 1997-09-22 Sharp Corp 活字入力で通話が可能な通信通話装置
JPH10328422A (ja) * 1997-05-29 1998-12-15 Omron Corp 自動応答玩具
JPH11215248A (ja) * 1998-01-28 1999-08-06 Uniden Corp 通信システムおよびこれに用いられる無線通信端末装置
JP2001034280A (ja) * 1999-07-21 2001-02-09 Matsushita Electric Ind Co Ltd 電子メール受信装置および電子メールシステム

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5029214A (en) * 1986-08-11 1991-07-02 Hollander James F Electronic speech control apparatus and methods
JPH05307395A (ja) * 1992-04-30 1993-11-19 Sony Corp 音声合成装置
JPH0612401A (ja) * 1992-06-26 1994-01-21 Fuji Xerox Co Ltd 感情模擬装置
US5559927A (en) * 1992-08-19 1996-09-24 Clynes; Manfred Computer system producing emotionally-expressive speech messages
US5860064A (en) * 1993-05-13 1999-01-12 Apple Computer, Inc. Method and apparatus for automatic generation of vocal emotion in a synthetic text-to-speech system
JP3622990B2 (ja) * 1993-08-19 2005-02-23 ソニー株式会社 音声合成装置及び方法
JP3254994B2 (ja) * 1995-03-01 2002-02-12 セイコーエプソン株式会社 音声認識対話装置および音声認識対話処理方法
JPH10289006A (ja) * 1997-04-11 1998-10-27 Yamaha Motor Co Ltd 疑似感情を用いた制御対象の制御方法
US5966691A (en) * 1997-04-29 1999-10-12 Matsushita Electric Industrial Co., Ltd. Message assembler using pseudo randomly chosen words in finite state slots
US6226614B1 (en) * 1997-05-21 2001-05-01 Nippon Telegraph And Telephone Corporation Method and apparatus for editing/creating synthetic speech message and recording medium with the method recorded thereon
US6185534B1 (en) * 1998-03-23 2001-02-06 Microsoft Corporation Modeling emotion and personality in a computer user interface
US6081780A (en) * 1998-04-28 2000-06-27 International Business Machines Corporation TTS and prosody based authoring system
US6230111B1 (en) * 1998-08-06 2001-05-08 Yamaha Hatsudoki Kabushiki Kaisha Control system for controlling object using pseudo-emotions and pseudo-personality generated in the object
US6249780B1 (en) * 1998-08-06 2001-06-19 Yamaha Hatsudoki Kabushiki Kaisha Control system for controlling object using pseudo-emotions and pseudo-personality generated in the object
JP2000187435A (ja) * 1998-12-24 2000-07-04 Sony Corp 情報処理装置、携帯機器、電子ペット装置、情報処理手順を記録した記録媒体及び情報処理方法
KR20010053322A (ko) * 1999-04-30 2001-06-25 이데이 노부유끼 전자 페트 시스템, 네트워크 시스템, 로봇, 및 기억 매체
JP2001034282A (ja) * 1999-07-21 2001-02-09 Konami Co Ltd 音声合成方法、音声合成のための辞書構築方法、音声合成装置、並びに音声合成プログラムを記録したコンピュータ読み取り可能な媒体
JP2001154681A (ja) * 1999-11-30 2001-06-08 Sony Corp 音声処理装置および音声処理方法、並びに記録媒体
JP2002049385A (ja) * 2000-08-07 2002-02-15 Yamaha Motor Co Ltd 音声合成装置、疑似感情表現装置及び音声合成方法
TWI221574B (en) * 2000-09-13 2004-10-01 Agi Inc Sentiment sensing method, perception generation method and device thereof and software
WO2002067194A2 (en) * 2001-02-20 2002-08-29 I & A Research Inc. System for modeling and simulating emotion states

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58168097A (ja) * 1982-03-29 1983-10-04 日本電気株式会社 音声合成装置
JPH02106799A (ja) * 1988-10-14 1990-04-18 A T R Shichiyoukaku Kiko Kenkyusho:Kk 合成音声情緒付与回路
JPH02236600A (ja) * 1989-03-10 1990-09-19 A T R Shichiyoukaku Kiko Kenkyusho:Kk 合成音声情緒付与回路
JPH04199098A (ja) * 1990-11-29 1992-07-20 Meidensha Corp 規則音声合成装置
JPH05100692A (ja) * 1991-05-31 1993-04-23 Oki Electric Ind Co Ltd 音声合成装置
JPH0772900A (ja) * 1993-09-02 1995-03-17 Nippon Hoso Kyokai <Nhk> 音声合成の感情付与方法
JPH07104778A (ja) * 1993-10-07 1995-04-21 Fuji Xerox Co Ltd 感情表出装置
JPH07244496A (ja) * 1994-03-07 1995-09-19 N T T Data Tsushin Kk テキスト朗読装置
JPH09252358A (ja) * 1996-03-14 1997-09-22 Sharp Corp 活字入力で通話が可能な通信通話装置
JPH10328422A (ja) * 1997-05-29 1998-12-15 Omron Corp 自動応答玩具
JPH11215248A (ja) * 1998-01-28 1999-08-06 Uniden Corp 通信システムおよびこれに用いられる無線通信端末装置
JP2001034280A (ja) * 1999-07-21 2001-02-09 Matsushita Electric Ind Co Ltd 電子メール受信装置および電子メールシステム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP1367563A4 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100759172B1 (ko) * 2004-02-20 2007-09-14 야마하 가부시키가이샤 음성 합성 장치, 음성 합성 방법, 및 음성 합성 프로그램을기억한 기억 매체

Also Published As

Publication number Publication date
CN1461463A (zh) 2003-12-10
EP1367563A4 (en) 2006-08-30
EP1367563A1 (en) 2003-12-03
US20030163320A1 (en) 2003-08-28
JP2002268699A (ja) 2002-09-20
KR20020094021A (ko) 2002-12-16

Similar Documents

Publication Publication Date Title
WO2002073594A1 (fr) Dispositif de synthese vocale
JP4296714B2 (ja) ロボット制御装置およびロボット制御方法、記録媒体、並びにプログラム
JP4246792B2 (ja) 声質変換装置および声質変換方法
US7065490B1 (en) Voice processing method based on the emotion and instinct states of a robot
JP5194197B2 (ja) 声質変換システム、声質変換装置及びその方法、声道情報生成装置及びその方法
JP2001215993A (ja) 対話処理装置および対話処理方法、並びに記録媒体
WO2002082423A1 (fr) Dispositif d&#39;elaboration de suites de mots
JP2001188779A (ja) 情報処理装置および方法、並びに記録媒体
US20040054519A1 (en) Language processing apparatus
KR20220134347A (ko) 다화자 훈련 데이터셋에 기초한 음성합성 방법 및 장치
JP2002268663A (ja) 音声合成装置および音声合成方法、並びにプログラムおよび記録媒体
JP2002258886A (ja) 音声合成装置および音声合成方法、並びにプログラムおよび記録媒体
JP4656354B2 (ja) 音声処理装置および音声処理方法、並びに記録媒体
JP2004170756A (ja) ロボット制御装置および方法、記録媒体、並びにプログラム
JP3742206B2 (ja) 音声合成方法及び装置
JP2002311981A (ja) 自然言語処理装置および自然言語処理方法、並びにプログラムおよび記録媒体
JP2002304187A (ja) 音声合成装置および音声合成方法、並びにプログラムおよび記録媒体
JP4742415B2 (ja) ロボット制御装置およびロボット制御方法、並びに記録媒体
JP4178777B2 (ja) ロボット装置、記録媒体、並びにプログラム
JP4639533B2 (ja) 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体
JP2002318590A (ja) 音声合成装置および音声合成方法、並びにプログラムおよび記録媒体
JP2002120177A (ja) ロボット制御装置およびロボット制御方法、並びに記録媒体
JP2002189497A (ja) ロボット制御装置およびロボット制御方法、記録媒体、並びにプログラム
JP2002318593A (ja) 言語処理装置および言語処理方法、並びにプログラムおよび記録媒体
JP2006146042A (ja) 調音運動の正規化を用いた音声合成方法および装置

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): CN KR US

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LU MC NL PT SE TR

WWE Wipo information: entry into national phase

Ref document number: 2002702830

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 1020027014932

Country of ref document: KR

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 028011228

Country of ref document: CN

WWP Wipo information: published in national office

Ref document number: 1020027014932

Country of ref document: KR

WWE Wipo information: entry into national phase

Ref document number: 10275325

Country of ref document: US

WWP Wipo information: published in national office

Ref document number: 2002702830

Country of ref document: EP

WWW Wipo information: withdrawn in national office

Ref document number: 2002702830

Country of ref document: EP