WO2000038808A1 - Processeur d'informations, dispositif portable, dispositif d'animal de compagnie electronique, support enregistre sur lequel la procedure de traitement des informations est enregistree et procede de traitement des informations - Google Patents

Processeur d'informations, dispositif portable, dispositif d'animal de compagnie electronique, support enregistre sur lequel la procedure de traitement des informations est enregistree et procede de traitement des informations Download PDF

Info

Publication number
WO2000038808A1
WO2000038808A1 PCT/JP1999/007271 JP9907271W WO0038808A1 WO 2000038808 A1 WO2000038808 A1 WO 2000038808A1 JP 9907271 W JP9907271 W JP 9907271W WO 0038808 A1 WO0038808 A1 WO 0038808A1
Authority
WO
WIPO (PCT)
Prior art keywords
response
emotion
voice
recognition result
speech recognition
Prior art date
Application number
PCT/JP1999/007271
Other languages
English (en)
French (fr)
Inventor
Satoshi Fujimura
Naohiro Yokoo
Yasuhiko Kato
Original Assignee
Sony Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corporation filed Critical Sony Corporation
Priority to US09/622,772 priority Critical patent/US6792406B1/en
Priority to EP99961362A priority patent/EP1072297B1/en
Priority to DE69935909T priority patent/DE69935909T2/de
Publication of WO2000038808A1 publication Critical patent/WO2000038808A1/ja

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • A63F13/12
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/30Interconnection arrangements between game servers and game devices; Interconnection arrangements between game devices; Interconnection arrangements between game servers
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/40Processing input control signals of video game devices, e.g. signals generated by the player or derived from the environment
    • A63F13/42Processing input control signals of video game devices, e.g. signals generated by the player or derived from the environment by mapping the input signals into game commands, e.g. mapping the displacement of a stylus on a touch screen to the steering angle of a virtual vehicle
    • A63F13/424Processing input control signals of video game devices, e.g. signals generated by the player or derived from the environment by mapping the input signals into game commands, e.g. mapping the displacement of a stylus on a touch screen to the steering angle of a virtual vehicle involving acoustic input signals, e.g. by using the results of pitch or rhythm extraction or voice recognition
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/70Game security or game management aspects
    • A63F13/71Game security or game management aspects using secure communication between game devices and game servers, e.g. by encrypting game data or authenticating players
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/80Special adaptations for executing a specific game genre or game mode
    • A63F13/825Fostering virtual characters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/008Artificial life, i.e. computing arrangements simulating life based on physical entities controlled by simulated intelligence so as to replicate intelligent life forms, e.g. based on robots replicating pets or humans in their appearance or behaviour
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/027Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F2300/00Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
    • A63F2300/10Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game characterized by input arrangements for converting player-generated signals into game device control signals
    • A63F2300/1081Input via voice recognition
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F2300/00Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
    • A63F2300/20Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game characterised by details of the game platform
    • A63F2300/204Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game characterised by details of the game platform the platform being a handheld device
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F2300/00Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
    • A63F2300/40Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game characterised by details of platform network
    • A63F2300/402Communication between platforms, i.e. physical link to protocol
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F2300/00Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
    • A63F2300/60Methods for processing data by generating or executing the game program
    • A63F2300/65Methods for processing data by generating or executing the game program for computing the condition of a game character
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F2300/00Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
    • A63F2300/80Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game specially adapted for executing a specific type of game
    • A63F2300/8058Virtual breeding, e.g. tamagotchi
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0638Interactive procedures

Definitions

  • Sho Akita Information processing equipment mobile devices, electronic devices, recording media for self-recording information processing procedures, and information processing methods
  • the present invention relates to an information processing device, a portable device, an electronic device, a recording medium recording an information processing procedure, and an information processing method, and can be applied to various information devices such as a mobile phone and a personal computer.
  • the present invention provides an electronic pet device and an electronic pet device that are more familiar and familiar by exchanging various data necessary for generating a response through a network, and by allowing words and the like to be registered by voice.
  • the present invention proposes an information processing apparatus, a portable device, a recording medium storing information processing procedures, and an information processing method.
  • This breeding simulation game is a game in which pets (so-called electronic pets) are bred in a virtual reality space by a computer, and are easier to breed than in the case of actually breeding pets of animals. Exchange with the local government.
  • the present invention has been made in consideration of the above points, and further records an electronic pet device, an information processing device having an electronic pet, a portable device, and an information processing procedure that can be made more familiar and familiar. It is intended to propose a recording medium and an information processing method.
  • the present invention is applied to an information processing device, a portable device or an electronic device, and outputs a voice recognition result in accordance with a predetermined recognition rule, and a predetermined emotion parameter.
  • the emotion generation means for generating an emotion parameter indicating a pseudo emotion, which changes at least depending on the speech recognition result and the passage of time, and at least a predetermined response generation rule based on the emotion parameter.
  • response generation means for generating a response corresponding to the speech recognition result
  • a communication means for connecting to a predetermined network and executing processing for updating a recognition rule, an emotion parameter generation rule or a response generation rule, or a recognition rule
  • emotion Has communication means to update data required for parameter generation rules or response generation rules Unisuru.
  • the present invention is applied to an information processing device, a mobile device, or an electronic pet device, and has a communication means for connecting to a predetermined network and acquiring at least an emotion parameter or data necessary for generating the emotion parameter.
  • the response generation unit outputs a response based on the emotion parameter obtained by the communication unit or a response based on the emotion parameter generated from the data obtained by the communication unit.
  • the information processing procedure by applying the information processing procedure to a recording medium on which the information processing procedure is recorded and connecting to a predetermined network, at least the emotion parameter or data necessary for generating the emotion parameter is acquired.
  • the obtained communication process is recorded, and the response generation process is a process of outputting a response based on the emotion parameter obtained through the communication process or a response based on the emotion parameter generated from the data obtained through the communication process.
  • the present invention is applied to an information processing method, a communication process for connecting to a predetermined network and executing a process of updating a recognition rule, an emotion parameter generation rule or a response generation rule, or a recognition rule, an emotion parameter generation rule or a response generation rule.
  • a communication process for executing a data update process necessary for the system is provided.
  • a communication process for connecting to a predetermined network and acquiring at least an emotion parameter or data necessary for generating an emotion parameter is provided.
  • the processing is to output a response based on the emotion parameter acquired by the above or a response based on the emotion parameter generated from the data acquired by the communication processing.
  • the registration operation mode when applied to information processing devices, mobile devices, or electronic pet devices, in the registration operation mode, at least the speech recognition results of words are registered in the database based on the speech recognition results, so that the database Provide registration means that can change
  • a registration operation mode at least a speech recognition result of a word is registered in the database based on the speech recognition result, so that a registration process capable of changing a database by speech is provided.
  • the present invention is applied to an information processing device, a portable device, or an electronic pet device, and includes a user-authentication unit that authenticates a user based on a voice, and the response generation unit includes:
  • a user authentication process for authenticating a user based on voice is recorded by applying the information processing procedure to a recording medium on which the information processing procedure is recorded, and a response generation process is performed based on an authentication result of the user authentication process. Make the response different according to
  • a user authentication process for authenticating a user based on a voice is provided, and a response generation process generates a response according to a voice input person based on an authentication result of the user authentication process. Try to make them different.
  • the response generation rule is a rule that generates a response excluding a predetermined type of response in accordance with a classification of a response corresponding to the type of input according to the type of input.
  • a response corresponding to the speech recognition result is generated according to a predetermined response generation rule by applying the information processing procedure to a recording medium on which the information processing procedure is recorded, an utterance that identifies a type of input by voice based on the voice.
  • the classification process is recorded, and the response generation rule is a rule that generates a response excluding a predetermined type of response according to the type of response corresponding to the type of input according to the type of input.
  • an information processing procedure for generating a response corresponding to the voice recognition result in accordance with a predetermined response generation rule is to identify a type of voice input based on the voice, and to generate a response.
  • the rule is a rule that generates a response excluding a predetermined type of response according to a type of response corresponding to the type of input according to the type of input.
  • the present invention is applied to an information processing device, a portable device, or an electronic pet device, and has at least a history recording means for recording a history based on a speech recognition result and a corresponding emotion parameter. Make the change according to the history.
  • a history recording process for recording a history based on at least a speech recognition result and a corresponding emotion parameter by applying the information processing procedure to a recording medium is recorded.
  • the change of the emotion parameter with respect to the speech recognition result is changed according to the history.
  • voice recognition means that outputs voice recognition results according to predetermined recognition rules, and at least voice recognition results and time lapse according to predetermined emotion parameter generation rules
  • An emotion generating means for generating an emotion parameter that indicates a pseudo emotion, and a response generation for generating a response corresponding to the speech recognition result according to a predetermined response generation rule based on at least the emotion parameter
  • Necessary for communication means that connects to a predetermined network and executes processing for updating recognition rules, emotion parameter generation rules, or response generation rules, or recognition rules, emotion parameter generation rules, or response generation rules If a communication means is provided for executing a process of updating data, a response is generated by this communication means. Various data required for the communication can be transmitted.
  • the same type of device connected to this network can generate a response that is almost the same as the response to the voice input in this information processing device, etc., thereby handling the electronic kit as if it were taken to an external device. This makes it possible to make the electronic pet friendly, as in the case of actually raising animal pets.
  • a communication means that is applied to an information processing device, a mobile device, or an electronic device to connect to a predetermined network and acquire at least emotion parameters or data necessary for generating emotion parameters; If the response generation means outputs a response based on the emotion parameter obtained by the communication means or a response based on the emotion parameter generated from the data obtained by the communication means, the response generation means may output the response of the same kind connected to the network.
  • a response almost identical to the response from the device can be generated, so that the electronic device can be treated as if the electronic device were taken out of the same device connected to this network, and the animal's device could actually be used. As if you were rearing Can be made friendly. Also, knowledge can be increased by increasing the number of identifiable words as needed.
  • a recording medium on which information processing procedures are recorded connected to a predetermined network, and executes communication processing for updating recognition rules, emotion parameter generation rules or response generation rules, or recognition rules, emotion parameters. If the communication processing for updating the data necessary for the data generation rule or the response generation rule is recorded, the processing procedure using this recording medium can be performed by the same type of equipment connected to the network. Can generate a response that is almost the same as the response to the voice input of the device that performs the operation, and can treat the electronic device as if it were taken out to an external device. It is possible to make the electronic kit friendly, as in the case of
  • a communication process for connecting to a predetermined network by applying the information processing procedure to a recording medium and acquiring at least an emotion parameter or data necessary for generating the emotion parameter is recorded. If the processing is to output a response based on the emotion parameter obtained through the communication processing or a response based on the emotion parameter generated from the data obtained through the communication processing, the apparatus that executes the processing procedure using the recording medium may be used. However, it is possible to generate a response that is almost identical to the response of a similar device connected to the network, and this makes it possible to generate a response similar to that of a similar device connected to this network, as in the case of actually breeding animal pets. Can be handled as if they were connected to other devices, making it easier to use. it can. Also, knowledge can be increased by increasing the number of identifiable words as needed.
  • the present invention is applied to an information processing method, a communication process for connecting to a predetermined network and executing a process of updating a recognition rule, an emotion parameter generation rule or a response generation rule, or a recognition rule, an emotion parameter generation rule or a response generation rule.
  • the communication device has a communication process for executing a data update process necessary for the network, the same type of device connected to the network can respond to the voice input of the device executing the information processing method.
  • a response almost identical to that of the animal, which makes it possible to treat the animal as if the animal were taken to an external device, as if the animal were actually raised.
  • the electronic pet can be made friendly.
  • a communication process for connecting to a predetermined network and acquiring at least the emotion parameter or data necessary for generating the emotion parameter is provided. If the processing is to output a response based on the acquired emotion parameter or a response based on the emotion parameter generated from the data acquired through the communication processing, the apparatus that executes this information processing method may be connected to a network. It can generate a response that is almost identical to the response of a similar device, which makes it possible to generate an electronic packet from a similar device connected to this network, as if the animal's animal were actually bred. Can be handled as if they were taken out. Also, knowledge can be increased by increasing the number of identifiable words as needed.
  • the present invention is applied to an information processing device, a portable device, or an electronic pet device, and in a registration operation mode, at least a speech recognition result of a word is registered in the database based on the speech recognition result, so that the database can be spoken by voice.
  • a changeable registration means it is possible to easily increase the vocabulary that the electronic kit can recognize by voice. This makes it possible to handle the electronic kit so as to teach the animals of the animals that are actually bred, and to make the electronic kit friendly.
  • the database can be changed by voice. If the registration processing is recorded, the vocabulary recognizable by the electronic pet can be easily increased by voice in the device that executes the processing procedure using this recording medium. As a result, the electronic pet can be handled so as to teach the pets of the animals that are actually kept, and the electronic pet can be made friendly. Also, by applying the present invention to an information processing method, in a registration operation mode, at least registering a speech recognition result of a word in a database based on a speech recognition result, and having a registration process capable of at least changing a database by speech. According to this, by executing the information processing method, the vocabulary recognizable by the electronic pet can be easily increased by voice. This makes it possible to handle the electronic pet as if teaching the pet of the animal that is actually being raised, and to make the electronic pet friendly.
  • the present invention is applied to an information processing device, a portable device, or an electronic pet device, and includes a user authentication unit that authenticates a user based on a voice, and a response generation unit is configured to perform a response generation process based on an authentication result of the user authentication unit.
  • a response generation unit is configured to perform a response generation process based on an authentication result of the user authentication unit.
  • the response is made different depending on the voice input person, the response of the electronic unit can be made different between the owner and other persons, for example. This makes it possible to realize the behavior of an animal pet, and to make the electronic pet more familiar and familiar.
  • a user authentication process for authenticating a user based on a voice is recorded, and a response generation process is performed based on an authentication result of the user authentication process. If the response is different depending on the animal, the response of the electronic pet can be made different between the owner and the other person, for example, thereby realizing the behavior of an animal pet. As a result, the electronic pet can be made more familiar and familiar.
  • a user authentication process for authenticating a user based on a voice is provided, and a response generation process generates a response according to a voice input person based on an authentication result of the user authentication process.
  • the response of the electronic pet can be made different between the owner and the other person, thereby realizing the behavior of the animal like a pet, and This can make the unit more accessible and familiar.
  • the Utterance classifying means for identifying the type of input by voice, and the response generation rule excludes a predetermined type of response in accordance with the type of response corresponding to the type of input according to the type of input. If this rule is used to generate a question, it is possible to prevent an unnatural response such as returning a question to a question. As a result, the response of the electronic unit can be made natural and lively, and the electronic unit can be made even more familiar and familiar.
  • the information processing procedure for generating a response corresponding to the speech recognition result in accordance with a predetermined response generation rule by applying the information processing procedure to a recording medium on which the information processing procedure is recorded determines the type of input by voice based on the voice.
  • the utterance classification means to be identified is recorded, and the response generation rule is a rule that generates a response excluding a predetermined type of response according to the type of the response corresponding to the type of input according to the type of input.
  • the method is applied to an information processing method, and in accordance with a predetermined response generation rule, for performing information processing for generating a response corresponding to the voice recognition result, a type of voice input is identified based on the voice,
  • a rule that generates a response excluding a predetermined type of response according to the type of response corresponding to the type of input according to the type of input is used, for example, it is impossible to return a question to a question. Natural responses can be prevented. As a result, the response of the electronic unit can be made natural and lively, and the electronic unit can be made even more familiar and familiar.
  • the present invention is applied to an information processing device, a portable device, or an electronic pet device, and has a history recording unit that records a history based on at least a voice recognition result and a corresponding emotion parameter. If it is changed according to the history, it is possible to form an emotional response such as familiarity or familiarity with frequently-generated voices. This makes the response of the electronic kit natural and lively. This also makes it possible to make the electronic pet more familiar and accessible.
  • a change in the emotion parameter with respect to the speech recognition result is recorded as a history. If it is changed according to the time, for example, it is possible to form an emotional response such as familiarity and familiarity with frequently generated voices. As a result, the response of the electronic unit can be made natural and lively, and the electronic unit can be made even more familiar and familiar.
  • the present invention is applied to an information processing method, and has a history recording process of recording a history of at least a speech recognition result and a corresponding emotion parameter, and changes a change in an emotion parameter corresponding to the speech recognition result according to the history. Even if it is made to do so, for example, it is possible to form an emotional response such as familiarity and familiarity with frequently-generated speech. As a result, the response of the electronic unit can be made natural and lively, and the electronic unit can be made more familiar and familiar.
  • FIG. 1 is a functional block diagram showing an electronic printing apparatus according to an embodiment of the present invention.
  • FIG. 2 is a plan view showing the electronic pet device of FIG.
  • FIG. 3 is a block diagram of the electronic pet device of FIG.
  • FIG. 4 is a chart showing physical condition data.
  • Figure 5 is a chart showing current emotion data.
  • Figure 6 is a chart showing personality data.
  • FIG. 7 is a chart showing changes in emotion data.
  • FIG. 8 is a chart showing pattern data.
  • FIG. 9 is a chart showing audio data.
  • FIG. 10 is a chart showing image data.
  • FIG. 11 is a flowchart illustrating a procedure of a connection process with a network.
  • FIG. 12 is a chart showing the format of data transmitted to the network.
  • FIG. 13 is a functional block diagram showing an electronic printing apparatus in detail for registration of recognition data.
  • FIG. 14 is a schematic diagram used for explaining the speech recognition processing.
  • FIG. 15 is a flowchart showing the procedure for registering recognition data.
  • FIG. 16 is a functional block diagram showing the electronic printing apparatus in detail for user authentication.
  • FIG. 17 is a chart showing pattern data.
  • Figure 18 is a chart for explaining user authentication.
  • FIG. 19 is a chart for explaining user authentication based on the words obtained by the question in FIG.
  • FIG. 20 is a functional block diagram showing the electronic tablet device in detail with respect to the dialogue classification processing.
  • FIG. 21 is a chart showing pattern data corresponding to the classification processing in FIG.
  • Figure 22 is a chart showing the conversation history.
  • FIG. 23 is a chart showing another example of the conversation history.
  • FIG. 24 is a functional block diagram showing the electronic jet device in detail with respect to emotion control.
  • Figure 25 is a chart showing emotion change history.
  • FIG. 26 is a chart showing personality data changed by the emotion change history of FIG.
  • FIG. 27 is a chart showing another modification example of the personality data.
  • FIG. 28 is a block diagram showing an electronic printing apparatus according to another embodiment.
  • FIG. 29 is a plan view showing a mobile phone. BEST MODE FOR CARRYING OUT THE INVENTION
  • FIG. 2 is a plan view showing the electronic jet device according to the first embodiment of the present invention.
  • an antenna 2 is arranged so as to be able to be pulled out at an upper end surface, and a liquid crystal display panel 3 is arranged above the front surface.
  • the electronic pet device 1 is configured such that the liquid crystal display panel 3 displays the appearance of the electronic pet and a message from the electronic pet. Further, the electronic pet device 1 is provided with decision and cancellation operators 4A and 4B and a cursor operator 5 below the liquid crystal display panel 3, and the operation mode and the like can be switched by these operations. It has been made like that.
  • the electronic pet device 1 is provided with a speaker 6 and a microphone 7 below the decision and cancellation operators 4A and 4B, so that the speaker 6 and the microphone 7 can be used to communicate with the electronic bet. ing. Further, the electronic pet device 1 is provided with a socket on the back side so that the IC card 8 can be mounted.
  • FIG. 3 is a block diagram showing the electronic pet device 1.
  • an analog-to-digital conversion circuit (AZD) 10 inputs an audio signal obtained from the microphone 7 via an amplifier circuit (not shown), and performs an analog-to-digital conversion process on the audio signal to generate an audio signal.
  • Generate data DA The analog-to-digital converter 10 outputs the audio data DA to the central processing unit (CPU) 11. This allows the electronic unit 1 to analyze the user's voice by the central processing unit 11.
  • CPU central processing unit
  • the digital-to-analog conversion circuit (D_A) 12 processes the audio data DB output from the central processing unit 11 by a digital-to-analog conversion circuit to generate an audio signal, and outputs this audio signal from the speaker 6.
  • the monitor interface (monitor IZF) 13 drives the liquid crystal display panel 3 with the image data DV input via the bus under the control of the central processing unit 11, and thereby the electronic unit is connected to the liquid crystal display panel 3. Display an image.
  • the key interface (key I / F) 14 detects the operation of the operators 4 A, 4 B, 5 and notifies the central processing unit 11.
  • the read only memory (ROM) 15 stores the processing program of the central processing unit 11 and various data necessary for analyzing the voice acquired from the microphone 7, and stores them under the control of the central processing unit 11. Output the held data.
  • the random access memory (RAM) 16 forms a work area of the central processing unit 11 and temporarily holds various data required for processing of the central processing unit 11.
  • the network connection unit 17 is connected to a predetermined network 18 via a telephone line under the control of the central processing unit 11, and exchanges various data DT with the network 18.
  • the content of the random access memory 16 is updated as necessary, and the data stored in the random access memory 16 is transmitted to a desired terminal via a network.
  • the electronic pet device 1 can acquire various data necessary for breeding and education of electronic pets as needed, and furthermore, take out the electronic pet to various environments and vice versa.
  • the IC card 8 is a removable external storage device, updates the contents of the random access memory 16 as necessary, and records data stored in the random access memory 16.
  • the electronic pet device 1 exchanges various data by exchanging the IC force 8 with other devices, thereby enabling various data necessary for breeding and education of the electronic pet to be exchanged as necessary. It is made possible to obtain electronic devices, and furthermore, electronic devices can be taken out to various environments, and conversely, electronic devices of external devices can be bred.
  • FIG. 1 is a block diagram showing a basic configuration of the electronic cutting device 1 by a functional block.
  • the function block shown by surrounding is a function block formed by the central processing unit 11 executing a processing program recorded in the read-only memory 15, and the function block indicated by the magnetic disk symbol is This is a function block formed by the do-only memory 15, the random access memory 16, and the IC card 8.
  • the speech recognition unit 11A performs speech recognition processing on the speech data DA according to a predetermined recognition rule, and outputs the speech recognition result.
  • the speech recognition unit 11A separates the speech by the sequentially input speech data DA by phoneme by HMM (Hidden Marcov Model) method, and refers to the recognition data 16A by this phoneme sequence. Based on the reference result, the speech recognition unit 11A outputs a word based on the speech data DA, a word in which a word is registered in advance, or a word, and outputs text data based on the word or the word as a recognition result.
  • the nickname recognition data 16A is a database in which text data of words and phrases and a corresponding phoneme sequence form a pair.
  • the electronic socket device 1 recognizes this voice and converts it into a text string with the content "I am a good child.”
  • the input is converted into an input by a character string and processed by these.
  • the timer 11B activates the physical condition changing unit 11C, the emotion changing unit 11D, and the like at regular time intervals.
  • the physical condition changing unit 11C updates the physical condition data 16B based on the speech recognition result and the activation of the timer 11B.
  • the physical condition data 16B a variable indicating the current physical condition of the electronic unit is recorded.
  • the physical condition data ⁇ 6 B includes, as shown in FIG.
  • Classification is based on the five elements of "hunger”, “paki”, “sickness”, and “drowsiness”. The larger the value assigned to each element, the larger the element that occupies the physical condition. Thus, in the example shown in Figure 4, you are now tired and starving
  • the physical condition changing unit 11C updates the physical condition data 16B by activating the timer 11B, the physical condition changing unit 11C uses, for example, “ The hunger, puffiness, and drowsiness variables are increased sequentially, so that the e-kit becomes hungry over time.
  • the variable of “hunger” is reduced, and when the drink is provided by the speech recognition result, Reduce the “puki” variable.
  • the variable of “tiredness” is gradually increased, and when sleep is instructed by the user, the variable of “drowsiness” is gradually reduced in conjunction with a timer.
  • the emotion change unit 11D updates the current emotion data 16C according to the speech recognition result and the activation of the timer 11B.
  • a variable indicating a quasi-emotional state of the current electronic pet is recorded.
  • the current emotion is represented by six elements of “anger”, “sadness”, “joy”, “fear”, “surprise”, and “disgust”. The higher the value assigned to each element, the more the current emotion is indicated. Therefore, in the example shown in FIG. 5, the electronic pet is currently full of joy and anger.
  • the emotion change unit 11D updates the emotion data 16C according to the emotion parameter generation rule according to a general example of breeding an actual pet.
  • these "anger”, “sadness”, “joy”, “fear”, “surprise”, “disgust” The variables of each element are updated so that the six elements gradually approach the predetermined reference value, so that in the case shown in Fig. 5, emotions such as “anger” and “sadness” gradually fall into You.
  • the emotion changing unit 11D searches the personality data 16D based on the speech recognition result, and according to the search result, the emotion data 16D.
  • Update C the personality data 16 D is formed by assigning data that changes the value of the emotion data 16 C using the words included in the speech recognition result as keywords. I have.
  • FIG. 6 the personality data 16 D is formed by assigning data that changes the value of the emotion data 16 C using the words included in the speech recognition result as keywords. I have.
  • the emotion changing unit 11D updates the emotion data described above with reference to FIG. 5 as shown in FIG.
  • the emotion changing unit 11D constitutes an emotion generating unit that generates a pseudo emotion parameter that indicates an emotion in a pseudo manner, which changes at least according to the speech recognition result and the passage of time according to a predetermined emotion parameter generation rule.
  • the response sentence creating unit 11E generates a response corresponding to the speech recognition result according to a predetermined response generation rule based on the emotion data.
  • the pattern data 16 E is a set of rules that generate this response.
  • these rules are based on the key words and phrases included in the speech recognition results, and how each key phrase responds when a voice is input. Described and formed.
  • the key phrase is described so as to show a different response depending on the emotion data 16 C and the physical condition data 16 B.
  • the minimum necessary rules are shown. In the actual rules, conditions other than the conditions shown in FIG. 8 (such as attributes described later) are described.
  • rule 1 in FIG. 8 if the words "I love you” or “I like you” are input, "I love you” or " , "Wow, bo, pok are oss.” Indicates that the words "Who are you?" Are output randomly.
  • Authenticated (A); (B) shown in FIG. 8 indicates (A) when “TRUE” is set by user authentication and the like described later, and “TRUE” is set. If not, it means to execute (B), and "rand om (" A “,” B ”) means to execute A or B at random.
  • the response “koniya niyawa” corresponding to joy is selected in Rule 2.
  • the response sentence creation unit 11 E responds to the physical condition data 16 B depending on the key phrase, and furthermore, the emotion data 16 C and the physical condition data 1 C. 6B, a response is generated according to B.
  • a response is generated according to B.
  • a response to the speech recognition result is recorded in the dialog history 16F, and a response is generated as necessary by referring to the dialog history 16F, thereby forming an unnatural conversation with the user. It has been made to prevent.
  • a response is generated with reference to the knowledge 16G, so that the response can be switched by a user, for example, and processing such as user authentication can be performed.
  • the speech synthesis unit 11F searches for the speech data 16H according to the response output from the response sentence creation unit 11E, and outputs a speech data DB corresponding to the response from the search result.
  • the audio data 16 H is the audio file corresponding to each response. For example, if a response sentence “Konoya Niyachiwa” is created, a voice file “voice 0005. wav” is selected and a voice data DB based on this voice file is output.
  • the image synthesizing unit 11G searches the image data 16I according to the response output from the response sentence creating unit 11E, and outputs the image data DV corresponding to the response from the search result.
  • the image data 16 I is an image data file corresponding to each response. For example, if a response sentence “Konoya Nichiwa” is created, “fig 0005.bmp” Select a bitmap-formed image file and output the image data DV from this image file.
  • the central processing unit 11 connects to the network 18 via the network connection unit 17 by executing the processing procedure shown in FIG. 11, and the physical condition data 16 B, the emotion data 16 C, the conversation history 1 Send 6 F to the desired device.
  • the electronic cutting device 1 the electronic device in which the data is transmitted can reproduce the electronic setting in the electronic setting device 1, and the electronic setting can be performed in various environments. It is made so that it can be taken out.
  • the central unit 11 has acquired physical condition data 16 B, emotion data 16 C, and conversation history 16 F from the network 18, and is bred on other electronic pet devices.
  • the electronic unit can be taken out to the electronic unit 1.
  • each of the above-described functional blocks corresponds to the electronic pet.
  • the Create a response as more electronic units visited.
  • the processing by the physical condition data 16 B, emotion data 16 C, and conversation history 16 F acquired in this manner is omitted from the data flow.
  • the electronic pet device 1 obtains recognition data 16 A, pattern data 16 E, knowledge 16 G, voice data 16 H, and image data 16 I from the network 18, and thereby obtains a vocabulary capable of voice recognition. And the type of response can be increased. This allows the electronic pet device 1 to raise and learn so-called electronic pets.
  • the central processing unit 11 moves from step SP1 to step SP2 in response to the connection request, and accepts this connection request.
  • the connection request is periodically generated by the timer 11B at regular time intervals, and is generated by the operation of the operator by the user and further by the call from the network 18.
  • the central processing unit 11 then proceeds to step SP3, where a predetermined line connection process is executed to establish communication. Subsequently, the central processing unit 11 moves to step SP4, and sends and receives various data corresponding to the content of the connection request. Subsequently, the central processing unit l i shifts to step SP 5, disconnects the communication, shifts to step SP 6 and ends this processing procedure.
  • FIG. 12 is a chart showing the format of this data transfer.
  • data to be transmitted is transmitted / received in this format by an interface arranged in the network connection unit 17 and by an interface to be talked to.
  • a header is placed in each data DT, and the address, type, etc. of each data are described in the header, followed by the header, pattern data 16 E, recognition data 16 A, and audio data 16.
  • H, image data 16 I, etc. are sequentially allocated as needed.
  • FIG. 13 is a functional block diagram showing the electronic kit device 1 in more detail regarding registration of recognition data.
  • the registration unit 11I registers recognition data 16A based on the result of speech recognition, thereby electronically inputting various words by voice without inputting a word through a keyboard or the like. It is made so that you can make them remember. Therefore, as described above, the speech recognition unit 11A processes the speech data DA by the HMM method, and outputs a recognition result based on the phoneme sequence. That is, the voice recognition unit 11A identifies the Japanese voice by phoneme, and describes the Japanese pronunciation by a sequence of identifiers indicating each phoneme. Where these identifiers are "b", "d",
  • the voice recognition unit 11 A for example, when the user inputs “Mikan”,
  • the voice input is recognized based on the phoneme sequence described by the identifier “s i1mika Ns i1”. For this reason, the speech recognition unit 11 A sequentially processes the sequentially input speech data DA to identify phonemes, and processes this identification result according to the grammar shown in FIG. Phonological sequences are detected.
  • FIG. 14 shows a grammar that allows connection of all the phonemes described above.
  • the speech recognition unit 11A searches the recognition data 16A by the sequence of the identifiers detected in this way, and outputs the recognition result by the text data of words and words from the search result. I do.
  • the speech recognition unit 11A searches the recognition data 16A by the sequence of the identifiers detected in this way, and outputs the recognition result by the text data of words and words from the search result. I do.
  • a word that has not been registered in the recognition data 16 A is input by speech, it becomes difficult to generate the corresponding text data, and it is difficult to correctly respond to the user's question. It becomes difficult.
  • the electronic pet device 1 connects to the network via the network connection unit 17, downloads the recognition data 16A from the network, thereby learning the electronic unit and allowing the user to learn the electronic pet. It is designed to respond to various questions from
  • the central processing unit 11 executes the processing procedure shown in FIG. the word you entered is registered in the recognition data 1 6 a by. That is, the central processing unit 11 moves from step SP11 to step SP12 in response to the operation of the operation element, and enters the registration mode. Subsequently, the central processing unit 11 proceeds to step SP12, drives the image synthesizing unit 11G, and displays a predetermined message on the liquid crystal display panel 3, thereby prompting the user to utter a word.
  • step SP14 in which the sequentially input voice data DA is sequentially identified by a phoneme sequence to perform voice recognition, and the user operates a predetermined operation element to end the voice input. And proceeds to step SP15.
  • the central processing unit 11 drives the speech synthesis unit 11 F according to the phoneme sequence that is the speech recognition result to utter the speech input by the user, and thereby presents the recognition result to the user. That is, for example, when the user generates the word “Mikan” and obtains “silmikaNssil” as the recognition result, the central processing unit 11 generates a voice “Mikami?” In this case. Subsequently, the central processing unit 11 proceeds to step SP16, and accepts the input of the confirmation by detecting the operation of the confirmation operator 4A or the cancel operator 4B.
  • step SP17 the central processing unit 11 determines that the presented recognition result has been denied by the user, returns to step SP13, and again outputs the sound. Accept input.
  • the operator 4A for confirmation is operated by the user, it is determined that the recognition result is affirmed by the user, and the process proceeds to step SP18.
  • the central processing unit 11 subsequently drives the image synthesizing unit 11G to display a predetermined message on the liquid crystal display panel 3, thereby prompting the user to utter the attribute of the word input by voice.
  • the attribute is a keyword indicating the property of the target for classifying the target specified by the word. In the present embodiment, for example, “Mikan” is classified as “Fruit”.
  • step SP 19 the central processing unit 11 proceeds to step SP 19, in which the sequentially input voice data DA is sequentially identified by the phoneme sequence to perform voice recognition, and the user operates a predetermined operation element to end the voice input.
  • step SP20 the central processing unit 11 drives the speech synthesis unit 11F based on the phoneme sequence that is the speech recognition result to utter the speech input by the user, and thereby presents the recognition result of the attribute to the user.
  • the central processing unit 11 when the first user generates the word “Mikan” and then inputs “Fruit” as the attribute, the central processing unit 11 generates a voice saying “Is it a fruit?” Subsequently, the central processing unit 11 proceeds to step SP21, and receives the confirmation input by detecting the operation of the confirmation operator 4A or the cancel operator 4B.
  • step SP22 the central processing unit 11 proceeds to step SP22 and, if the cancel operator 4B is operated, determines that the presented recognition result has been denied by the user 1 and returns to step SP18, where the attribute The voice input is accepted again.
  • the confirmation operator 4A is operated by the user, it is determined that the recognition result is affirmed by the user, and the process proceeds to Step SP23.
  • the central processing unit 11 registers the word in the recognition data 16A and registers the attribute in the knowledge 16G, and then proceeds to step SP24 to end the processing procedure.
  • the knowledge 16G records attribute data indicating the classification of fruits, drinks, and the like for each word and word registered in the recognition data 16A.
  • the central processing unit 11 by including the attribute description in the pattern data 16 E, for example, the user is asked “What is your favorite food?” In response to a user's reply to "I like oranges", a response "I hate oranges" can be generated.
  • the knowledge 16 G records, in addition to these attributes, various data such as the name and preference of the owner who owns the electronic jet device 1, and various data such as the weather forecast provided by the network 18. This information can be used for user interaction. In other words, when an analog user asks "What is the weather today?", A rule such as "Today” or “Weather” is used as a key phrase so that a response such as "Sunny” can be generated.
  • the recognition data 16A is registered by voice input in this manner, the correct text corresponding to this voice input (in the above example,
  • the recognition data 16 A of words and words registered by voice input are also recognized in the form of words and words of recognition data 16 A down from the network 18.
  • Recognition based on registered words and phrases Data is processed in the same way as for 16A so that users can interact with it.
  • FIG. 16 is a functional block diagram showing the electronic cutting device 1 in more detail for user authentication.
  • the user name is recorded in the authentication data 16 K by a preset setting. This recording is executed based on the result of voice recognition or by keyboard input from an external device in the initial setting process executed at the time of purchase.
  • the response sentence creation unit 1 1 E responds with “If you are the master?” return it.
  • the voice authentication unit 1 1 J when a pre-registered user name defined by “$ US ER” is input by voice in accordance with rule 2 (myLast—Utter), generates the immediately preceding response sentence. If a response containing the words "Are you really the master?" Is given by Part 1 1E, set the variable "authenticated” to "TRUE” (setauthenticated (TRUE)).
  • the voice authentication unit 11J searches the authentication data 16K from the voice recognition result, and when such a condition is satisfied, the person who has input the voice authenticates the user, and the authentication state 16 Set J to the user authenticated state. If the above conditions are not satisfied, the authentication state 16 J is set to a state where the user is not authenticated. In this case, if the user is authenticated, the response sentence creation unit 11E generates a response "Hello, master" according to Rule 2. This allows the electronic pet device 1 to authenticate the user based on the voice and to make the response different between the owner and the other person as in rule 1 described above with reference to FIG. For example, the behavior is peculiar to the owner, and the behavior is close to the actual pet.
  • the user In the user authentication by voice, the user is authenticated based on the voice depending on the presence / absence of a word registered in advance.
  • the voice authentication unit 11J responds with the output of a response asking the user's preferences and hobbies recorded in knowledge 16G during the dialogue with the user who has authenticated the voice as shown in Fig. 18. Instruct the sentence creation unit 1 1 E. In Fig. 18, the question "What is your husband's favorite food?" Is asked the preference of the voice input user who has authenticated the user.
  • the speech authentication unit 1 1 J determines the response to the preference question from the user's voice input by the same processing as rule 2 described with reference to Fig. 17, and based on the speech recognition result of this response, Register the word “nuts” in the authentication data 16K.
  • the response sentence creating unit 11E activates the timer 11B, for example, as shown in FIG. 19, to the tastes, hobbies, etc. registered in the authentication data 16K.
  • the voice authentication unit 1 1 J determines the response to the preference question from the user's voice input by performing the same processing as rule 2 described with reference to Fig. 17. In this case, the owner When a response is obtained, the authentication status is set to "TRUE" based on the speech recognition result of this response. Also, in the response sentence creation unit 11E, a response is generated that says "I am the master!
  • the electronic input device 1 authenticates the user based on the speech by determining the speech recognition result based on the past speech recognition result, and more specifically, the past speech recognition result.
  • a question corresponding to the recognition result is output as a response, and a speech recognition result corresponding to the response is determined to perform user authentication.
  • the voice authentication unit 11J resets the authentication state when no voice is input for a certain period of time by the timer 11B, in this case, when the user leaves, or the like.
  • FIG. 20 is a functional block diagram showing the electronic tablet device 1 in more detail with respect to the dialogue classification process.
  • the utterance classification unit 11M classifies the conversation by voice input by identifying the speech recognition result according to a predetermined classification rule 16M, and responds with a classification code as the classification result.
  • speech classification unit 1 1 M to be output to the sentence creation unit 1 1 E is, for example, "Good morning", the audio input of greeting general such as "Hello” is classified as “greeting”.
  • voice input for questions such as "How are you?" And “I like " are categorized into “questions”, and voice inputs that describe impressions such as "I'm fine” Impressions ”.
  • the response sentence creating unit 11 E classifies the response sentence recorded in the pattern data 16 E and the classification classified by the utterance classification unit 11 M. Create a response according to the pattern. At this time, if necessary, a response is created according to the past conversation record recorded in the conversation history 16F.
  • the classification of each response sentence is set. This classification is set to correspond to the classification in the utterance classification unit 11M.
  • the response sentence "I love you” and “I'm a diaper, bo, and pok” are classified as “state”. "Weird people” are classified as “impressions” and “Who are you?" Are classified as “questions”.
  • "noisy” is “impression”, “what is it?" J is “question”, “congratulations” is “greeting”, “wow surprised” is “impression”. Classification of "greeting” is set for "Oh my domo”, and “question” is set for "call?"
  • the pattern data 16E specifies a type restriction that prohibits continuous conversation by a specific classification. Specifically, type restrictions are set so that questions are not returned to users. If the exchange of “greeting” and “greeting” continues, a type restriction is set so that the “greeting” will not be answered subsequently (in the case of Fig. 21).
  • the dialog history 16F as shown in FIGS. 22 and 23, the dialog between the user and the electronic unit is recorded by the response sentence creating unit 11E.
  • this recording is made so that the actor who generated the voice, the classification of the voice, and the content of the voice are recorded.
  • the electronic pet following the voice input of “Hello” in the classification “Greetings” by the user, the electronic pet responds with “Dow” in the classification “Greetings”, and then the classification by one user It is recorded that "How are you?" In the "question” and that "I'm fine” in the "state” were classified according to the electronic bet.
  • the response sentence creating unit 11E refers to the dialog history 16F according to the constraint conditions, and according to the dialog history 16F. Create a response.
  • the response sentence creation unit 11E applies this rule 2 even when the type constraint is satisfied, that is, in Fig. 21, when the "greeting” is exchanged immediately before, for example, when the variable of joy is the largest. Not to To Similarly, do not return “question” to “question”.
  • a first rule for returning "greeting” to "greeting” and a second rule for returning "greeting” to various questions are defined. Even in such cases, by applying the second and first rules repeatedly, an unnatural conversation such as repeating "greeting" with the user many times is prevented. .
  • FIG. 24 is a functional block diagram showing the electronic cutting device 1 in more detail with respect to emotion control.
  • the emotion changing unit 11D activates the timer 11B as described above, and retrieves the emotion data 16D using the word contained in the speech recognition result as a keyword. Update 16C.
  • the emotion change unit 11 D detects the change amount of each variable constituting the emotion data 16 C and the Record the key words used for changing the text and the text data based on the speech recognition results. Further, at a predetermined timing, for example, after outputting a response, the emotion change history 16 N is searched, and when a predetermined word is frequently used in combination with a specific keyword, a comparison with FIG. 6 is performed. As shown in Fig. 26, this word is registered as a key code in the personality data 16D so that each variable can be changed in the same way even when this word is input alone. I do.
  • the emotion changing unit 11D frequently uses the word "dirty", which is a key word for changing variables, for example, and the word “curry bread” in pairs, and the frequency of use thereof is a predetermined value.
  • the word “karepan” is registered as a keyword in the personality data 16D.
  • the amount of change of each variable is set so that the “curry pan” changes each variable in the same way as when the word “dirty” is input.
  • the electronic socket device 1 is set so as to generate a specific emotion by so-called association, and can generate a response based on this emotion.
  • the emotion change unit 11D also detects the use frequency of each keypad used for changing the variable.
  • the emotion change unit 11D compares the change of the variable by this key as shown in FIG. 27 in comparison with FIG. Decrease amount.
  • the "dirty” keyword is frequently used, and as a result, the amount of change in the variable caused by the "dirty” keyword is reduced, and “anger”, “sadness”, and “joy” are shown.
  • ",””Fear,””surprise,” and “disgust” when the amount of change was changed by 1, 1, -1, +2, +1, -1, and --4, respectively.
  • the emotion changing unit 11D deletes this word from the personality data 16D. Similarly, if the frequency of voice input decreases for words with variable changes, the change is gradually returned to the original value.
  • the electronic pet device 1 (FIGS. 1 to 3) is configured such that when a user inputs voice from the microphone 7, the voice recognition unit 11 1 is a function block configured by the processing of the central processing unit 11.
  • this speech is subjected to speech recognition processing by the HMM method.
  • the speech is converted into a phoneme sequence, and then converted into text data by collation with the recognition data 16A.
  • the text data which is the speech recognition result generated in this way, is input to the physical condition changing unit 11C, where the current physical condition is changed by the physical condition changing unit 11C.
  • the five elements that show physical condition data 16 B composed of “tired”, “hunger”, “puki”, “disease”, and “drowsiness” (Fig. 4) Will be changed accordingly. That is, for example, when food is given by the speech recognition result, the variable of “hunger” is reduced, and when drink is given by the speech recognition result, the variable of “puki” is reduced.
  • the physical condition is changed by the user's voice input. Furthermore, these five elements are gradually changed by the processing of the physical condition changing unit 11C based on the timer 11B. As a result, in the electronic device 1, the physical condition of these five elements changes according to the voice input from the user and over time, and a response to the voice input is generated based on the five elements. By doing so, the physical condition of the electronic kit is reflected in the response to the user's voice.
  • the speech recognition result is given to the emotion change unit 11D, where the current emotion data 16C is changed according to the words included in the speech recognition result (FIG. 5).
  • the change of the emotion data 16C according to the key word for changing the emotion and the character data 16D describing the change of the emotion with respect to this keyword (FIG. 6), six elements indicating the emotion are obtained.
  • the variables “anger”, “sadness”, “joy”, “fear”, “surprise”, and “disgust” are updated according to the words that change the emotions contained in the voice, so that these six This emotion changes according to the user's question.
  • the emotion of the electronic device changes according to the user's voice input.
  • the response to the electronic pet is made by responding to the electronic pet by creating a response according to the speech recognition result with reference to the physical condition data 16B and the emotion data 16C. Physical condition and emotion are reflected.
  • the speech recognition result is input to the response sentence creation unit 11E, and the response sentence creation unit 11E generates the speech recognition result in accordance with the rules described in the pattern data 16E.
  • a corresponding response sentence is created ( Figure 8). That is, in the electronic input device 1, each key phrase contained in the voice is The response sentence is described to generate pattern data 16E.
  • the response sentence creating unit 11E searches the pattern data 16E based on the speech recognition result and outputs the corresponding response sentence.
  • a corresponding voice response is generated by the voice synthesizing unit 11F and output from the speaker 6 (FIG. 9).
  • the pattern data 16 E has rules that generate different responses according to the physical condition data 16 B and the emotion data 16 C. Is described, and the electronic pet device 1 generates a response in accordance with the rule, whereby the physical condition and feeling of the electronic pet are reflected in the response to the user.
  • the electronic pet device 1 switches to a registered operation mode, and a word or word that can be speech-recognized by the recognition data 16A is input by voice input. You can register.
  • the electronic pet device 1 when the user inputs a voice such as a word to be registered by voice, in a manner similar to the processing in the normal operation mode.
  • the input is converted to a phoneme sequence (Fig. 14), and the speech based on this phoneme sequence is uttered by the speech synthesis unit 11F.
  • the input is performed first. Voice input is accepted for the attribute of the word or the like.
  • the voice input is converted into a phoneme sequence, and when the voice of this phoneme sequence is confirmed by the user, the phoneme of the previously input word or the like is obtained.
  • the column is registered in the recognition data 16A
  • the attribute data is registered as knowledge 16G so as to correspond to the recognition data 16A.
  • words and the like can be registered by voice without using a complicated operation such as a keyboard, and the usability can be improved accordingly.
  • the recognition data 16A is searched by the phoneme sequence in the speech recognition processing, and the speech recognition result is obtained by the corresponding text data.
  • this text data instead of this text data, text data represented by a phoneme string is output, and a response sentence is similarly created.
  • the response sentence is created according to the attributes recorded in the knowledge 16G.
  • the electronic tablet device 1 (FIGS. 16 and 17) inputs an input of, for example, one user registered in advance.
  • a voice is uttered according to the prompting rule 1, and the voice input of the user responding to the voice is subjected to voice recognition processing.
  • the voice recognition result is collated with the authentication data 16 K by a user or the like registered in advance in the voice authentication unit 11J. 6 J is set to indicate that the voice input user is a user.
  • the response sentence When creating a response statement in the creating unit 11E the authentication status 16J is referred to, and a different response is created according to the setting of the authentication status 16J. Is done.
  • the timer 11B activates the voice authentication unit 11J, and executes the user authentication process at regular time intervals.
  • the user authentication process it is determined whether or not the user is a user based on a response to the user's preference, hobbies, or other questions recorded in the knowledge 16G, and the user authentication process is executed (see FIG. Figures 18 and 19).
  • the electronic jet device 1 it is possible to create a response so that the other party of the conversation can be confirmed as necessary and show a specific behavior only to the owner even during the conversation, if necessary.
  • the conversation by voice input is performed by the speech classification unit 11 according to the speech classification rule 16 M. Greetings ”and“ questions ”. Furthermore, when creating a response to a user's voice input, due to the type restriction (FIG. 21) described in the pattern data 16E, for example, when the user's voice input is “question”, Even if a particular key phrase specifies a "question" as a response, the rule will not generate a response.
  • the classification of the continuous conversation is sequentially recorded in the conversation history 16F, and when creating a response to the voice input by the user, the classification is recorded in the conversation history 16F.
  • a rule is set to return “greeting” to “greeting” by creating a response according to the type constraint ( Figure 21) described in pattern data 16E with reference to the classification
  • Figure 21 the type constraint
  • the emotion-changing keypad is sequentially recorded in the emotion change history 16 N together with the simultaneously used words and the emotional change by the keyboard.
  • the emotion change history 16 N is inspected at a fixed time interval or the like, and for each key word, for words that are frequently used simultaneously, the emotion is also changed by this word. Thus, this word is registered in the personality data 16D (Fig. 26).
  • the electronic socket device 1 used in this way, the network connection unit is operated by the user. 17 (Figs. 1 and 2), connected to the network 18 and the rules required for speech recognition processing such as recognition data 16A, knowledge 16G, pattern data 16E, etc., and response generation processing It is possible to download these data and knowledge. This makes it possible to update these recognition data 16 A and knowledge 16 G to enjoy more advanced conversation. Also the specific output of the response By downloading audio data 16H and image data 16I, the expression of the response can be similarly improved.
  • the physical condition data 16 B, emotion data 16 C, and conversation history 16 F can be transmitted to a desired device via the network 18, thereby transmitting these data.
  • the electronic kit in the electronic kit device 1 can be reproduced, and the electronic kit can be taken out to various environments.
  • recognition data as rules for speech recognition processing, pattern data as rules for response generation, and emotion data, physical condition data, voice data, and image data as rules for emotion generation are transmitted via a network.
  • recognition data as rules for speech recognition processing
  • pattern data as rules for response generation
  • emotion data physical condition data
  • voice data and image data as rules for emotion generation
  • By updating the network it is possible to generate almost the same response as that of the same type of device connected to the network, and as a result, it is possible to generate an electronic packet from the same type of device connected to this network. Can be handled as if they were taken out, and the electronic kit can be made to be friendly as if the animal kit were actually bred. It is also possible to increase the knowledge by increasing the number of identifiable words as necessary. By connecting to the network periodically and updating the recognition data, etc., the user is not bothered. Knowledge can be increased.
  • these data can be updated and sent out via an IC card, which is an exchangeable storage medium, so that these processes can be performed with various devices that do not have a communication function. can do.
  • the electronic pet in the operation mode of registration, by registering the speech recognition result of a word and the word classification based on the speech recognition result, the vocabulary recognizable by the electronic unit can be easily increased by speech. .
  • the electronic pet can be handled so as to teach the animal to the animal that is actually kept, and the electronic pet can be made friendly.
  • the speech recognition result is output as text data, and the registration is performed using the description of the phoneme sequence, thereby simplifying the description of rules and the like.
  • the response of the electronic unit different between the owner and other persons, for example. it can.
  • an action like an animal can be realized, and the electronic kit can be made more familiar and familiar.
  • the user can be authenticated through a conversation without requiring input of a password or the like. Usability can be improved.
  • the answer to the question based on the past speech recognition result is determined.
  • the user can be authenticated through a natural conversation by authenticating the user or by uttering a predetermined word, thereby improving usability.
  • an unnatural response such as returning a question to a question is obtained.
  • Conversation can be prevented.
  • the response of the electronic unit can be made natural and lively, and the electronic unit can be made even more familiar and familiar.
  • the response of the electronic unit can be made natural and lively, whereby the electronic unit can be made more familiar and familiar.
  • a response that includes emotions such as familiarity and familiarity with frequently-generated speech is formed. be able to.
  • the response of the electronic unit can be made natural and lively, and the electronic unit can be made even more familiar and familiar.
  • the emotion parameter is also changed according to the word, so that the word used repeatedly by the pair also has the emotion. Can be changed to respond.
  • the electronic device is connected to a network to let the electronic device go out, the response of the electronic device of the external device is output, and various rules are learned.
  • the network may be accessed by any of regular access, access by a user operation, and access by a call from an external device.
  • connection to the network via the telephone line has been described.
  • present invention is not limited to this, and the case where the connection to the network via another device such as a modem or a personal computer is also possible. Can be widely applied.
  • a case has been described where a so-called electronic unit is learned by downloading recognition data, pattern data, audio data, and image data. Accordingly, learning may be performed by downloading any of these data.
  • these generation methods may be changed by downloading the control program itself, which is a method of voice recognition processing, a method of generating voice data, and a method of generating image data, and a method of generating emotion data.
  • the processing of the response sentence creating unit may be changed.
  • a case has been described in which physical condition data, emotion data, and conversation history are transmitted when an electronic device is taken out to an external device.
  • the present invention is not limited to this, and may be implemented as necessary. This processing may be executed by transmitting any of these data, and further, for example, knowledge may be transmitted in addition to the data. Instead of sending such data, a response may be sent to the input of the speech recognition result from the external device.
  • the attribute is recorded by voice input together with the word, but the present invention is not limited to this, and the attribute may be selected and input by operating the operation element. .
  • a speech recognition result is output by text data in which a voice is represented by a phoneme sequence, and for a general speech recognition result, normal text data is output.
  • the present invention is not limited to this, and the speech recognition result may be displayed using a phoneme sequence even in a general speech recognition result.
  • the present invention is not limited to this, and the user may use any of these when necessary. You may authenticate.
  • the present invention in the speech recognition processing based on the phoneme sequence, a case has been described in which the utterance of a specific word is confirmed to perform user authentication.
  • the present invention is not limited to this.
  • the same effect as in the above-described embodiment can be obtained by performing user authentication using various feature amounts indicating voice features, such as a spectrum.
  • the response of the electronic packet is made different between the owner and another person, for example.
  • the voice input person may be identified in detail, and the response may be made different between a family and a non-family, for example, and the response may be made different even for an individual of the family.
  • the present invention is not limited to this. May return a question in response to a question. In this case, a situation in which the electronic pet is twisted is formed.
  • audio data and image data are output has been described.
  • the present invention is not limited to this, and audio and images may be output by voice synthesis and image synthesis. ,.
  • the voice recognition processing and the image synthesis processing are performed by the processing of the central processing unit.
  • the present invention is not limited to this, and as shown in FIG. 28 in comparison with FIG.
  • the voice recognition processing and the image synthesis processing may be configured by dedicated processing circuits.
  • the present invention is applied to an electronic device that outputs a sound and an image as a response.
  • the present invention is not limited to this, and for example, a robot that moves an animal
  • the present invention can be widely applied to electronic devices that output a response in various forms, such as an electronic device that outputs a response by a squeal and motion when applied to a computer.
  • the present invention is not limited to this, and will be described in comparison with FIG. As shown in FIG. 28, the present invention may be applied to a mobile phone, and further, may be widely applied to various portable devices such as a GPS, a portable tape recorder, and an optical disk device. Not only portable devices but also information processing devices such as personal computers, and various characters operating on the personal computers. Can be applied to Industrial applicability

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Robotics (AREA)
  • Computer Security & Cryptography (AREA)
  • General Business, Economics & Management (AREA)
  • Business, Economics & Management (AREA)
  • Computer Hardware Design (AREA)
  • Toys (AREA)
  • Telephonic Communication Services (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephone Function (AREA)
  • Telephone Set Structure (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)
  • Mobile Radio Communication Systems (AREA)

Description

明 田 書 情報処理装置、 携帯機器、 電子ぺッ ト装置、 情報処理手順を ί己録した記録媒体及 び情報処理方法 技術分野
本発明は、 情報処理装置、 携帯機器、 電子ぺッ ト装置、 情報処理手順を記録し た記録媒体及び情報処理方法に関し、 例えば携帯電話、 パーソナルコンピュータ 等の各種情報機器に適用することができる。 本発明は、 応答の生成に必要な各種 データをネットワークを介して交換することにより、 また音声にて単語等を登録 できるようにすること等により、 一段と身近な親しみ易い電子ペッ ト装置、 電子 ペッ トを有する情報処理装置、 携帯機器、 情報処理手順を記録した記録媒体及び 情報処理方法を提案する。 背景技術
従来、 パーソナルコンピュータにおいては、 いわゆる育成シユミレ一シヨンゲ ームソフトが提案されている。 この育成シュミレーシヨンゲームは、 コンビユー タによる仮想現実空間においてペッ ト (いわゆる電子ペッ トである) を飼育する ゲームであり、 実際に動物のぺッ トを飼育する場合に比して簡易にぺットとの交 流を図ることができる。
ところで実際のペッ トにおいては、 その日の体調、 周囲の環境等により種々に 異なる挙動を示す。 また飼い主自体についてもこれを認識し、 飼い主と飼い主以 外とでは異なる挙動を示す。 さらに学習により挙動が変化することもある。 これら実際のぺッ 卜における各種挙動を電子ぺッ 卜においても再現することが できれば、 電子ぺッ トを一段と身近な親しみ易いものとすることができると考え えられる。 発明の開示
本発明は以上の点を考慮してなされたもので、 さらに一段と身近な親しみ易い ものとすることができる電子ペット装置、 電子ペッ トを有する情報処理装置、 携 帯機器、 情報処理手順を記録した記録媒体及び情報処理方法を提案しようとする ものである。
かかる課題を解決するため本発明においては、 情報処理装置、 携帯機器又は電 子ぺット装置に適用して、 所定の認識ルールに従って音声認識結果を出力する音 声認識手段と、 所定の感情パラメータ生成ルールに従って、 少なくとも音声認識 結果と時間経過とにより変化する、 擬似的に感情を示す感情パラメータを生成す る感情生成手段と、 少なく とも感情パラメータを基準にした所定の応答生成ル一 ルに従って、 音声認識結果に対応する応答を生成する応答生成手段とに関し、 所 定のネットワークに接続して、 認識ルール、 感情パラメータ生成ルール又は応答 生成ルールの更新処理を実行する通信手段、 又は認識ルール、 感情パラメータ生 成ルール又は応答生成ルールに必要なデータの更新処理を実行する通信手段を有 するようにする。
また情報処理装置、 携帯機器又は電子ペッ ト装置に適用して、 所定のネットヮ ークに接続して、 少なく とも感情パラメータ又は感情パラメータの生成に必要な データを取得する通信手段を有するようにし、 応答生成手段が、 この通信手段に より取得した感情パラメータによる応答、 又は通信手段により取得したデータよ り生成した感情パラメータによる応答を出力するようにする。
また情報処理手順を記録した記録媒体に適用して、 所定のネッ トワークに接続 して、 認識ルール、 感情パラメータ生成ルール又は応答生成ルールの更新処理を 実行する通信処理、 又は認識ルール、 感情パラメータ生成ルール又は応答生成ル ールに必要なデータの更新処理を実行する通信処理とが記録されてなるようにす る。
また情報処理手順を記録した記録媒体に適用して、 所定のネッ トワークに接続 して、 少なくとも感情パラメータ又は感情パラメータの生成に必要なデータを取 得する通信処理が記録され、 応答生成処理が、 通信処理により取得した感情パラ メータによる応答、 又は通信処理により取得したデータより生成した感情パラメ ータによる応答を出力する処理であるようにする。
また情報処理方法に適用して、 所定のネッ トワークに接続して、 認識ルール、 感情パラメータ生成ルール又は応答生成ルールの更新処理を実行する通信処理、 又は認識ルール、 感情パラメータ生成ルール又は応答生成ルールに必要なデータ の更新処理を実行する通信処理を有するようにする。
また情報処理方法に適用して、 所定のネッ トワークに接続して、 少なく とも感 情パラメータ又は感情パラメータの生成に必要なデータを取得する通信処理を有 するようにし、 応答生成処理が、 通信処理により取得した感情パラメータによる 応答、 又は通信処理により取得したデータより生成した感情パラメータによる応 答を出力する処理であるようにする。
また情報処理装置、 携帯機器又は電子ペッ ト装置に適用して、 登録の動作モー ドにおいて、 音声認識結果に基づいて、 少なく ともデータベースに単語の音声認 識結果を登録することにより、 音声によりデータベースを変更可能な登録手段を 備えるようにする。
また情報処理手順を記録した記録媒体に適用して、 登録の動作モードにおいて 、 音声認識結果に基づいて、 少なく ともデータベースに単語の音声認識結果を登 録することにより、 音声によりデータべ一スを変更可能な登録処理を記録するよ うにする。
また情報処理方法に適用して、 登録の動作モードにおいて、 音声認識結果に基 づいて、 少なく ともデータベースに単語の音声認識結果を登録することにより、 音声によりデータベースを変更可能な登録処理を有するようにする。
また情報処理装置、 携帯機器又は電子ペッ ト装置に適用して、 音声に基づいて 、 ユーザーを認証するユーザ一認証手段を備えるようにし、 応答生成手段は、 ュ
—ザ一認証手段の認証結果に基づいて、 音声入力者に応じて応答を異ならせるよ うにする。 また情報処理手順を記録した記録媒体に適用して、 音声に基づいて、 ユーザ一 を認証するユーザ一認証処理が記録され、 応答生成処理は、 ユーザー認証処理の 認証結果に基づいて、 音声入力者に応じて応答を異ならせるようにする。
また情報処理方法に適用して、 音声に基づいて、 ユーザーを認証するユーザー 認証処理を有するようにし、 応答生成処理が、 ユーザー認証処理の認証結果に基 づいて、 音声入力者に応じて応答を異ならせるようにする。
また情報処理装置、 携帯機器又は電子ペッ ト装置に適用して、 所定の応答生成 ルールに従って、 音声認識結果に対応する応答を生成するにつき、 音声に基づい て、 音声による入力の種類を識別する発話分類手段を備えるようにし、 応答生成 ルールが、 入力の種類に応じて、 入力の種類に対応する応答の分類に従って、 所 定の種類の応答を除く応答を生成するルールであるようにする。
また情報処理手順を記録した記録媒体に適用して、 所定の応答生成ルールに従 つて、 音声認識結果に対応する応答を生成するにつき、 音声に基づいて、 音声に よる入力の種類を識別する発話分類処理を記録するようにし、 応答生成ルールは 、 入力の種類に応じて、 入力の種類に対応する応答の分類に従って、 所定の種類 の応答を除く応答を生成するルールであるようにする。
また情報処理方法に適用して、 所定の応答生成ルールに従って、 音声認識結果 に対応する応答を生成する情報処理手順につき、 音声に基づいて、 音声による入 力の種類を識別するようにし、 応答生成ルールが、 入力の種類に応じて、 入力の 種類に対応する応答の分類に従って、 所定の種類の応答を除く応答を生成するル ールであるようにする。
また情報処理装置、 携帯機器又は電子ペッ ト装置に適用して、 少なく とも音声 認識結果と対応する感情パラメータとによる履歴を記録する履歴記録手段を有す るようにし、 音声認識結果に対する感情パラメータの変化を履歴に応じて変化さ せるようにする。
また情報処理手順を記録した記録媒体に適用して、 少なく とも音声認識結果と 対応する感情パラメータとによる履歴を記録する履歴記録処理が記録されてなる ようにし、 音声認識結果に対する感情パラメータの変化を履歴に応じて変化させ るようにする。
また情報処理方法に適用して、 少なく とも音声認識結果と対応する感情パラメ ータとによる履歴を記録する履歴記録処理を有するようにし、 音声認識結果に対 する感情パラメータの変化を履歴に応じて変化させるようにする。
情報処理装置、 携帯機器又は電子ペッ ト装置に適用して、 所定の認識ルールに 従って音声認識結果を出力する音声認識手段と、 所定の感情パラメータ生成ルー ルに従って、 少なく とも音声認識結果と時間経過とにより変化する、 擬似的に感 情を示す感情パラメータを生成する感情生成手段と、 少なく とも感情パラメータ を基準にした所定の応答生成ルールに従って、 音声認識結果に対応する応答を生 成する応答生成手段とに関し、 所定のネットワークに接続して、 認識ルール、 感 情パラメータ生成ルール又は応答生成ルールの更新処理を実行する通信手段、 又 は認識ルール、 感情パラメ一タ生成ルール又は応答生成ルールに必要なデータの 更新処理を実行する通信手段を有するようにすれば、 この通信手段により応答の 生成に必要な各種データを送出することができる。 従ってこのネットワークに接 続された同種の機器において、 この情報処理装置等における音声入力に対する応 答とほぼ同一の応答を生成でき、 これによりあたかも電子ぺッ トを外部の機器に 連れ出したかのように取り扱いをすることができ、 動物のぺッ トを実際に飼育し ている場合のように電子ぺットを親しみ易いものとすることができる。
また情報処理装置、 携帯機器又は電子ぺッ ト装置に適用して、 所定のネッ トヮ ークに接続して、 少なく とも感情パラメ一タ又は感情パラメータの生成に必要な データを取得する通信手段を有するようにし、 応答生成手段が、 この通信手段に より取得した感情パラメータによる応答、 又は通信手段により取得したデータよ り生成した感情パラメータによる応答を出力すれば、 ネッ トワークに接続された 同種の機器における応答とほぼ同一の応答を生成でき、 これによりあたかもにこ のネッ トワークに接続された同種の機器より電子ぺッ トを連れ出したかのように 取り扱うことができ、 動物のぺッ トを実際に飼育している場合のように電子ぺッ トを親しみ易いものとすることができる。 また必要に応じて判別可能な単語を増 大させる等により知識を増大させることもできる。
また情報処理手順を記録した記録媒体に適用して、 所定のネッ トワークに接続 して、 認識ルール、 感情パラメータ生成ルール又は応答生成ルールの更新処理を 実行する通信処理、 又は認識ルール、 感情パラメ一タ生成ルール又は応答生成ル ールに必要なデータの更新処理を実行する通信処理とが記録されてなるようにす れば、 ネッ トワークに接続された同種の機器において、 この記録媒体による処理 手順を実行する装置の音声入力に対する応答とほぼ同一の応答を生成でき、 これ によりあたかも電子ぺッ トを外部の機器に連れ出したかのように取り扱うことが でき、 動物のぺッ トを実際に飼育している場合のように電子ぺッ トを親しみ易い ものとすることができる。
また情報処理手順を記録した記録媒体に適用して、 所定のネッ トワークに接続 して、 少なく とも感情パラメータ又は感情パラメータの生成に必要なデータを取 得する通信処理が記録され、 応答生成処理が、 通信処理により取得した感情パラ メータによる応答、 又は通信処理により取得したデータより生成した感情パラメ —タによる応答を出力する処理であるようにすれば、 この記録媒体による処理手 順を実行する装置において、 ネッ トワークに接続された同種の機器の応答とほぼ 同一の応答を生成でき、 これにより動物のぺッ トを実際に飼育している場合のよ うに、 あたかもにこのネッ トワークに接続された同種の機器より電子ぺットを連 れ出したかのように取り扱うことができ、 電子ぺッ トを親しみ易いものとするこ とができる。 また必要に応じて判別可能な単語を増大させる等により知識を増大 させることもできる。
また情報処理方法に適用して、 所定のネッ トワークに接続して、 認識ルール、 感情パラメータ生成ルール又は応答生成ルールの更新処理を実行する通信処理、 又は認識ルール、 感情パラメータ生成ルール又は応答生成ルールに必要なデータ の更新処理を実行する通信処理を有するようにすれば、 ネッ トワークに接続され た同種の機器において、 この情報処理方法を実行する装置の音声入力に対する応 答とほぼ同一の応答を生成でき、 これにより動物のぺッ トを実際に飼育している 場合のように、 あたかも電子ぺットを外部の機器に連れ出したかのように取り扱 うことができ、 電子ぺットを親しみ易いものとすることができる。
また情報処理方法に適用して、 所定のネッ トワークに接続して、 少なくとも感 情パラメータ又は感情パラメータの生成に必要なデータを取得する通信処理を有 するようにし、 応答生成処理が、 通信処理により取得した感情パラメータによる 応答、 又は通信処理により取得したデータより生成した感情パラメータによる応 答を出力する処理であるようにすれば、 この情報処理方法を実行する装置におい て、 ネッ トワークに接続された同種の機器の応答とほぼ同一の応答を生成でき、 これにより動物のぺッ トを実際に飼育している場合のように、 あたかもにこのネ ッ トワークに接続された同種の機器より電子ぺッ トを連れ出したかのように取り 扱うことができる。 また必要に応じて判別可能な単語の増大等により知識を増大 させることもできる。
また情報処理装置、 携帯機器又は電子ペッ ト装置に適用して、 登録の動作モー ドにおいて、 音声認識結果に基づいて、 少なくともデータベースに単語の音声認 識結果を登録することにより、 音声によりデータベースを変更可能な登録手段を 備えるようにすれば、 音声により電子ぺッ トが認識可能な語彙を簡易に増やすこ とができる。 これにより実際に飼育している動物のぺッ トに鎂けを教えるように 電子ぺッ トを取り扱うことができ、 電子ぺッ トを親しみ易いものとすることがで さる。
また情報処理手順を記録した記録媒体に適用して、 登録の動作モードにおいて 、 音声認識結果に基づいて、 少なく ともデータベースに単語の音声認識結果を登 録することにより、 音声によりデータベースを変更可能な登録処理を記録するよ うにすれば、 この記録媒体による処理手順を実行する装置において、 電子ペッ ト が認識可能な語彙を音声により簡易に増やすことができる。 これにより実際に飼 育している動物のぺッ トに鎂けを教えるように電子ぺッ トを取り扱うことができ 、 電子ペッ トを親しみ易いものとすることができる。 また情報処理方法に適用して、 登録の動作モードにおいて、 音声認識結果に基 づいて、 少なくともデータベースに単語の音声認識結果を登録することにより、 少なくとも音声によりデータベースを変更可能な登録処理を有するようにすれば 、 この情報処理方法の実行により、 電子ペットが認識可能な語彙を音声により簡 易に増やすことができる。 これにより実際に飼育している動物のぺットに賴けを 教えるように電子ぺットを取り扱うことができ、 電子ぺットを親しみ易いものと することができる。
また情報処理装置、 携帯機器又は電子ペット装置に適用して、 音声に基づいて 、 ユーザーを認証するユーザー認証手段を備えるようにし、 応答生成手段が、 ュ 一ザ一認証手段の認証結果に基づいて、 音声入力者に応じて応答を異ならせるよ うにすれば、 電子ぺットの応答を例えば飼い主とそれ以外の者とで異ならせるよ うにすることができる。 これにより動物のペットのような挙動を実現でき、 電子 ぺットを一段と身近な親しみ易いものとすることができる。
また情報処理手順を記録した記録媒体に適用して、 音声に基づいて、 ユーザー を認証するユーザー認証処理が記録され、 応答生成処理が、 ュ一ザ一認証処理の 認証結果に基づいて、 音声入力者に応じて応答を異ならせるようにすれば、 電子 ぺットの応答を例えば飼い主とそれ以外の者とで異ならせるようにすることがで き、 これにより動物のペットのような挙動を実現して、 電子ペットを一段と身近 な親しみ易いものとすることができる。
また情報処理方法に適用して、 音声に基づいて、 ユーザーを認証するユーザー 認証処理を有するようにし、 応答生成処理が、 ユーザー認証処理の認証結果に基 づいて、 音声入力者に応じて応答を異ならせるようにすれば、 電子ペットの応答 を例えば飼い主とそれ以外の者とで異ならせるようにすることができ、 これによ り動物のぺッ卜のような挙動を実現して、 電子ぺットを一段と身近な親しみ易い ものとすることができる。
また情報処理装置、 携帯機器又は電子ペット装置に適用して、 所定の応答生成 ルールに従って、 音声認識結果に対応する応答を生成するにつき、 音声に基づい て、 音声による入力の種類を識別する発話分類手段を備えるようにし、 応答生成 ルールが、 入力の種類に応じて、 入力の種類に対応する応答の分類に従って、 所 定の種類の応答を除く応答を生成するルールであるようにすれば、 例えば問いに 対して問いを返すような不自然な応答を防止することができる。 これにより電子 ぺットの応答を自然な生き生きとしたものとでき、 これによつても電子ぺットを 一段と身近な親しみ易いものとすることができる。
また情報処理手順を記録した記録媒体に適用して、 所定の応答生成ルールに従 つて、 音声認識結果に対応する応答を生成する情報処理手順について、 音声に基 づいて、 音声による入力の種類を識別する発話分類手段を記録するようにし、 応 答生成ルールが、 入力の種類に応じて、 入力の種類に対応する応答の分類に従つ て、 所定の種類の応答を除く応答を生成するルールであるようにすれば、 例えば 問いに対して問いを返すような不自然な応答を防止することができる。 これによ り電子ぺットの応答を自然な生き生きとしたものとでき、 これによつても電子べ ットを一段と身近な親しみ易いものとすることができる。
また情報処理方法に適用して、 所定の応答生成ルールに従って、 音声認識結果 に対応する応答を生成する情報処理するについて、 音声に基づいて、 音声による 入力の種類を識別するようにし、 応答生成ルールが、 入力の種類に応じて、 入力 の種類に対応する応答の分類に従って、 所定の種類の応答を除く応答を生成する ルールであるようにすれば、 例えば問いに対して問いを返すような不自然な応答 を防止することができる。 これにより電子ぺッ卜の応答を自然な生き生きとした ものとでき、 これによつても電子ぺットを一段と身近な親しみ易いものとするこ とができる。
また情報処理装置、 携帯機器又は電子ペット装置に適用して、 少なくとも音声 認識結果と対応する感情パラメータとによる履歴を記録する履歴記録手段を有す るようにし、 音声認識結果に対する感情パラメータの変化を履歴に応じて変化さ せるようにすれば、 例えば頻繁に発生される音声に対して慣れ、 親しみ等の感情 のこもった応答を形成できる。 これにより電子ぺッ卜の応答を自然な生き生きと したものとでき、 これによつても電子ぺットを一段と身近な親しみ易いものとす ることができる。
また情報処理手順を記録した記録媒体に適用して、 少なくとも音声認識結果と 対応する感情パラメータとによる履歴を記録する履歴記録処理が記録されてなる ようにし、 音声認識結果に対する感情パラメータの変化を履歴に応じて変化させ るようにすれば、 例えば頻繁に発生される音声に対して慣れ、 親しみ等の感情の こもった応答を形成できる。 これにより電子ぺットの応答を自然な生き生きとし たものとでき、 これによつても電子ぺットを一段と身近な親しみ易いものとする ことができる。
また情報処理方法に適用して、 少なくとも音声認識結果と対応する感情パラメ ータとによる履歴を記録する履歴記録処理を有するようにし、 音声認識結果に対 する感情パラメータの変化を履歴に応じて変化させるようにしても、 例えば頻繁 に発生される音声に対して慣れ、 親しみ等の感情のこもつた応答を形成できる。 これにより電子ぺットの応答を自然な生き生きとしたものとでき、 これによつて も電子ぺットを一段と身近な親しみ易いものとすることができる。 図面の簡単な説明
図 1は、 本発明の実施の形態に係る電子ぺット装置を示す機能ブロック図であ る。
図 2は、 図 1の電子ペット装置を示す平面図である。
図 3は、 図 1の電子ペット装置のブロック図である。
図 4は、 体調データを示す図表である。
図 5は、 現在の感情データを示す図表である。
図 6は、 性格データを示す図表である。
図 7は、 感情データの変化を示す図表である。
図 8は、 パターンデータを示す図表である。
図 9は、 音声データを示す図表である。 図 1 0は、 画像データを示す図表である。
図 1 1は、 ネットワークとの接続処理手順を示すフローチャートである。 図 1 2は、 ネットワークに送出するデータの形式を示す図表である。
図 1 3は、 認識データの登録に関して電子ぺット装置を詳細に示す機能プロッ ク図である。
図 1 4は、 音声認識処理の説明に供する略線図である。
図 1 5は、 認識データの登録処理手順を示すフローチャートである。
図 1 6は、 ユーザー認証に関して電子ぺット装置を詳細に示す機能ブロック図 である。
図 1 7は、 パターンデータを示す図表である。
図 1 8は、 ユーザー認証の説明に供する図表である。
図 1 9は、 図 1 8の質問により取得した単語を基準にしたユーザー認証の説明 に供する図表である。
図 2 0は、 対話の分類処理に関して電子ぺット装置を詳細に示す機能ブロック 図である。
図 2 1は、 図 2 0の分類処理に対応するパターンデータを示す図表である。 図 2 2は、 対話履歴を示す図表である。
図 2 3は、 対話履歴の他の例を示す図表である。
図 2 4は、 感情の制御に関して電子ぺット装置を詳細に示す機能プロック図で ある。
図 2 5は、 感情変化履歴を示す図表である。
図 2 6は、 図 2 5の感情変化履歴により変更された性格データを示す図表であ る。
図 2 7は、 性格データの他の変更例を示す図表である。
図 2 8は、 他の実施の形態に係る電子ぺット装置を示すブロック図である。 図 2 9は、 携帯電話を示す平面図である。 発明を実施するための最良の形態
以下図面について、 本発明の一実施の形態を詳述する。
( 1 ) 第 1の実施の形態
( 1 - 1 ) 第 1の実施の形態の全体構成
図 2は、 本発明の第 1の実施の形態に係る電子ぺット装置を示す平面図である 。 この電子ペット装置 1は、 上端面に引き出し可能にアンテナ 2が配置され、 正 面上部に液晶表示パネル 3が配置される。 電子ペット装置 1は、 この液晶表示パ ネル 3に、 電子ペットの姿、 電子ペットからのメッセージが表示されるようにな されている。 また電子ペット装置 1は、 この液晶表示パネル 3の下側に、 決定、 キャンセルの操作子 4 A及び 4 B、 カーソルの操作子 5が配匱され、 これらの操 作により動作モード等を切り換え得るようになされている。
さらに電子ペット装置 1は、 決定、 キャンセルの操作子 4 A及び 4 Bの下側に 、 スピーカ 6及びマイク 7が配置され、 スピーカ 6及びマイク 7を用いて電子べ ットと会話できるようになされている。 さらに電子ペット装置 1は、 I Cカード 8を装着できるように、 背面側にソケットが配置される。
図 3は、 この電子ペット装置 1を示すブロック図である。 電子ペット装置 1に おいて、 アナログディジタル変換回路 (AZ D ) 1 0は、 図示しない増幅回路を 介してマイク 7より得られる音声信号を入力し、 この音声信号をアナログデイジ タル変換処理して音声データ D Aを生成する。 アナログディジタル変換回路 1 0 は、 この音声データ D Aを中央処理ユニット (C P U ) 1 1に出力する。 これに より電子ぺット装置 1においては、 ユーザーの音声を中央処理ュニット 1 1によ り解析できるようになされている。
ディジタルアナログ変換回路 (D _ A ) 1 2は、 中央処理ユニット 1 1より出 力される音声データ D Bをディジタルアナログ変換回路処理して音声信号を生成 し、 この音声信号をスピーカ 6より出力する。 これにより電子ペット装置 1にお いては、 電子ぺットの応答等を音声により確認することができるようになされて いる。 モニタインターフェース (モニタ I Z F ) 1 3は、 中央処理ュニット 1 1の制 御によりバスを介して入力される画像データ D Vにより液晶表示パネル 3を駆動 し、 これにより液晶表示パネル 3に電子ぺッ卜の画像を表示する。
キーインターフェース (キー I / F ) 1 4は、 操作子 4 A、 4 B、 5の操作を 検出して中央処理ユニット 1 1に通知する。 リードオンリメモリ (R OM) 1 5 は、 中央処理ユニット 1 1の処理プログラム、 マイク 7より取得される音声の解 析に必要な各種データ等を格納し、 中央処理ユニット 1 1の制御によりこれら保 持したデータを出力する。 ランダムアクセスメモリ (R AM) 1 6は、 中央処理 ユニット 1 1のワークエリァを構成し、 中央処理ュニット 1 1の処理に必要な各 種データを一時保持する。
ネットワーク接続部 1 7は、 中央処理ュニット 1 1の制御により電話回線を介 して所定のネッ トワーク 1 8に接続し、 このネッ トワーク 1 8との間で種々のデ ータ D Tを交換することにより必要に応じてランダムアクセスメモリ 1 6の内容 等を更新し、 さらにはこのランダムアクセスメモリ 1 6に格納したデータをネッ トワークを介して所望の端末に送出する。 これにより電子ペット装置 1では、 電 子ぺットの飼育、 教育に必要な各種データを必要に応じて取得できるようになさ れ、 さらには電子ペットを種々の環境に連れ出し、 またこれとは逆に外部の機器 の電子ぺットを飼育することができるようになされている。
I Cカード 8は、 着脱可能な外部記憶装置であり、 必要に応じてランダムァク セスメモリ 1 6の内容等を更新し、 さらにはこのランダムアクセスメモリ 1 6に 格納したデータを記録する。 これにより電子ペット装置 1では、 I C力一ド 8を 他の機器との間で交換して各種データをやり取りすることにより、 電子ぺットの 飼育、 教育に必要な各種データを必要に応じて取得できるようになされ、 さらに は電子ぺットを種々の環境に連れ出し、 またこれとは逆に外部機器の電子ぺット を飼育することができるようになされている。
図 1は、 これら電子ぺット装置 1に係る基本的な構成を機能プロックにより示 すブロック図である。 なおこの図 1に示す機能ブロックにおいて、 矩形形状によ り囲って示す機能プロックは、 中央処理ュニット 1 1がリードオンリメモリ 1 5 に記録された処理プログラムを実行して形成される機能プロックであり、 磁気デ イスクのシンボルにより示す機能ブロックは、 リ一ドオンリメモリ 1 5、 ランダ ムアクセスメモリ 1 6、 I Cカード 8により形成される機能プロックである。 この電子ペッ ト装置 1において、 音声認識部 1 1 Aは、 所定の認識ルールに従 つて音声データ D Aを音声認識処理し、 その音声認識結果を出力する。 すなわち 音声認識部 1 1 Aは、 HMM (H i d d e n Ma r c o v Mo d e l ) 法に より、 順次入力される音声データ DAによる音声を音韻により区切り、 この音韻 の列により認識データ 1 6 Aを参照する。 音声認識部 1 1 Aは、 この参照結果に 基づいて音声データ D Aによる単語、 文言が事前に登録された単語、 文言の場合 、 これら単語、 文言によるテキストデータを認識結果として出力する。 かくする にっき認識データ 1 6 Aは、 単語、 文言のテキストデータと対応する音韻の列と が対を形成するようにして記録されたデータベースである。 これにより電子ぺッ ト装置 1は、 例えば、 ユーザ一が 「いい子だね」 とマイク 7に向かって言ったと き、 この音声を認識して 「いい子だね」 という内容のテキスト文字列に変換し、 これらにより音声による入力を文字列による入力に変換して処理するようになさ れている。
タイマー 1 1 Bは、 一定の時間間隔により体調変更部 1 1 C及び感情変更部 1 1 D等を起動する。
体調変更部 1 1 Cは、 音声認識結果により、 またこのタイマ一 1 1 Bの起動に より、 体調データ 1 6 Bを更新する。 ここで体調データ 1 6 Bには、 現在の電子 ぺットの体調を示す変数が記録されるようになされている。 なおこの実施の形態 において、 体調データ丄 6 Bには、 図 4に示すように、 現在の体調を 「疲れ」 、
「飢え」 、 「渴き」 、 「病気」 、 「眠気」 の 5つの要素により分類し、 各要素に 割り当てた値が大きい程、 体調に占める各要素が大きくなるようになされている 。 従って図 4に示す例においては、 現在、 疲れており、 飢えも激しいことになる 体調変更部 1 1 Cは、 タイマー 1 1 Bの起動により体調データ 1 6 Bを更新す る場合、 実際のぺットを飼育する場合の一般的な例に従った所定のルールにより 、 例えば 「飢え」 、 「渴き」 、 「眠気」 の変数を順次増大させ、 これにより時間 が経過すると電子ぺットが空腹になるようにする。 また音声認識結果により体調 データ 1 6 Bを更新する場合、 例えば音声認識結果により食べ物が与えられた場 合、 「飢え」 の変数を低減させ、 また音声認識結果により飲み物が与えられた場 合、 「渴き」 の変数を低減させる。 さらに音声認識結果によりユーザーと遊ぶ場 合には、 徐々に 「疲れ」 の変数を増大させ、 ユーザーにより睡眠が指示されると タイマーとの連動により 「眠気」 の変数を徐々に低減する。
感情変更部 1 1 Dは、 音声認識結果により、 またタイマー 1 1 Bの起動により 、 現在の感情データ 1 6 Cを更新する。 ここで現在の感情データ 1 6 Cには、 現 在の電子ペットについて、 擬似的に感情を示す変数 (擬似感情パラメータ) が記 録されるようになされている。 なおこの実施の形態においては、 図 5に示すよう に、 現在の感情を 「怒り」 、 「悲しみ」 、 「喜び」 、 「恐れ」 、 「驚き」 、 「嫌 悪」 の 6つの要素により表し、 各要素に割り当てた値が大きい程、 現在の感情を 示すようになされている。 従って図 5に示す例においては、 現在、 電子ペットは 、 喜びと怒りにあふれていることになる。
感情変更部 1 1 Dは、 実際のペットを飼育する場合の一般的な例に従った感情 パラメータ生成ルールに従ってこの感情データ 1 6 Cを更新する。 すなわち感情 変更部 1 1 Dは、 タイマー 1 1 Bの起動により感情データ 1 6 Cを更新する場合 、 これら 「怒り」 、 「悲しみ」 、 「喜び」 、 「恐れ」 、 「驚き」 、 「嫌悪」 の 6 つの要素が徐々に所定の基準値に近づくように各要素の変数を更新し、 これによ り図 5に示す場合では、 「怒り」 、 「悲しみ」 等の感情が徐々に納まるようにす る。
これに対して感情変更部 1 1 Dは、 音声認識結果により感情データ 1 6 Cを更 新する場合、 音声認識結果により性格データ 1 6 Dを検索し、 この検索結果に従 つて感情データ 1 6 Cを更新する。 ここで性格データ 1 6 Dは、 図 6に示すように、 音声認識結果に含まれる文言 をキーヮードにして感情データ 1 6 Cの値を変更するデータが割り当てられて形 成されるようになされている。 なお図 6においては、 例えばユーザーの発生した 音声に 「いい」 と言う文言が含まれていた場合、 「怒り」 、 「悲しみ」 、 「喜び 」 、 「恐れ」 、 「驚き」 、 「嫌悪」 の各変数を値— 1、 + 2、 + 2 0、 一 5、 + 5、 一 1だけ変更する旨、 「いい」 のキーワードに対して感情データ 1 6 Cの値 を変更するデータが割り当てられていることになる。
これにより感情変更部 1 1 Dは、 例えばユーザーが 「いい子だね」 と発声した 場合、 図 5について上述した感情データを図 7に示すように更新することになる 。 これにより感情変更部 1 1 Dは、 所定の感情パラメータ生成ルールに従って、 少なくとも音声認識結果と時間経過とにより変化する、 擬似的に感情を示す擬似 感情パラメータを生成する感情生成手段を構成する。
応答文作成部 1 1 Eは、 感情データを基準にした所定の応答生成ルールに従つ て、 音声認識結果に対応する応答を生成する。 パターンデータ 1 6 Eは、 この応 答を生成するルールの集合である。 ここでこれらのルールは、 図 8に示すように 、 それぞれ音声認識結果に含まれる単語をキ一フレーズに対して、 各キーフレー ズが音声入力された場合にはどのような応答を示すかがそれぞれ記述されて形成 される。 またこのときキーフレーズによっては、 感情データ 1 6 C、 体調データ 1 6 Bに応じて異なる応答を示すように記述される。 なおこの図 8においては、 説明を簡略化するために、 必要最低限度のルールを示し、 実際のルールにおいて は、 この図 8に示す条件以外 (後述する属性等) の条件が記述される。 なお体調 データ 1 6 Bについても、 この図 8のル一ル 2のように体調データ 1 6 Bだけの 条件により、 また感情データ 1 6 Cとの組み合わせによりルールが記述される。 すなわち図 8におけるルール 1においては、 「愛してる」 又は 「お前が好き」 と の文言が入力された場合には、 ユーザ一認証された音声入力に対しては 「ぼくも 愛してるよ」 又は 「おわつ、 ボ、 ポクはォスなんですけど」 の文言を無作為に出 力することを、 またユーザー認証されていない音声入力に対しては 「変な人」 又 は 「あなた誰?」 の文言を無作為に出力することを示している。 またルール 2に おいては、 「こんにちわ」 又は 「ハ口一」 との文言が入力された場合には、 感情 データの各要素 「怒り」 、 「悲しみ」 、 「喜び」 、 「恐れ」 、 「驚き」 、 「嫌悪 」 に応じてそれぞれ割り当てられた 「うるさいなあ」 、 「なあに?」 、 「こにや にやちわ」 、 「わお驚いた」 、 「あらどうも」 、 「呼んだ?」 の文言のうちから 、 最も値の大きな変数が一定値を越えている場合に、 この変数に対応する文言を 選択的に出力することを示している。
なおここで図 8に示す 「 a u t h e n t i c a t e d (A) ; (B) 」 は、 後 述するユーザー認証等により 「TRUE」 がセッ トされている場合には (A) を 、 「TRUE」 がセットされていない場合には (B) を実行する意であり、 「 r a n d om ( "A", "B" 」 は、 無作為に A又は Bを実行する意である。 ちなみに図 7について上述した感情データにおいては、 「喜び」 の変数が最も 値が大きいことにより、 ルール 2においては、 喜びに対応する応答 「こにやにや ちわ」 が選択されることになる。
さらに応答文作成部 1 1 Eは、 このような感情データ 1 6 Cによる応答と同様 にして、 キーフレーズによっては体調データ 1 6 Bに応じて、 さらには感情デー タ 1 6 C及び体調データ 1 6 Bに応じて応答を生成し、 これにより例えば電子ぺ ットの体調が思わしくない場合には、 相当の応答を生成するようになされている また応答文作成部 1 1 Eは、 このような音声認識結果に対する応答を対話履歴 1 6 Fに記録し、 必要に応じてこの対話履歴 1 6 Fを参考して応答を生成し、 こ れによりュ一ザ一との間の不自然な会話を防止するようになされている。 また同 様にして知識 1 6 Gを参考にして応答を生成し、 これにより例えばユーザーによ つて応答を切り換え、 ユーザ一認証等の処理を実行できるようになされている。 音声合成部 1 1 Fは、 応答文作成部 1 1 Eより出力される応答に従って、 音声 データ 1 6 Hを検索し、 検索結果より応答に対応する音声データ DBを出力する 。 ここで図 9に示すように、 音声データ 1 6 Hは、 各応答に対応する音声フアイ ルであり、 例えば 「こにやにやちわ」 という応答文が作成されたとすると 「 v o i c e 0005. wa v」 という音声ファイルを選択し、 この音声ファイル による音声データ DBを出力する。
画像合成部 1 1 Gは、 応答文作成部 1 1 Eより出力される応答に従って、 画像 データ 1 6 Iを検索し、 検索結果より応答に対応する画像データ DVを出力する 。 ここで図 1 0に示すように、 画像データ 1 6 Iは、 各応答に対応する画像デー タファイルであり、 例えば 「こにやにやちわ」 という応答文が作成されたとする と 「f i g 0005. bmp」 というビットマップ形成の画像ファイルを選択し 、 この画像ファイルによる画像データ DVを出力する。
(1 - 2) ネットワークとの接続
中央処理ュニット 1 1は、 図 1 1に示す処理手順を実行することによりネット ワーク接続部 1 7を介してネットワーク 1 8に接続し、 体調データ 1 6 B、 感情 データ 1 6 C、 対話履歴 1 6 Fを所望の機器に送出する。 これによりこの電子ぺ ット装置 1においては、 これらのデータを送出した機器において、 この電子ぺッ ト装置 1における電子ぺットを再現できるようになされ、 電子ぺットを種々の環 境に連れ出すことができるようになされている。
またこれとは逆に、 中央ュニット 1 1は、 ネットワーク 1 8より体調データ 1 6 B、 感情データ 1 6 C、 対話履歴 1 6 Fを取得し、 これにより他の電子ペット 装置で飼育されている電子ぺットをこの電子ぺット装置 1に連れ出すことができ るようになされている。 この場合、 電子ペット装置 1において、 このようにして 取得した体調データ 1 6 B、 感情データ 1 6 C、 対話履歴 1 6 Fによる処理にお いては、 上述した各機能ブロックがそれぞれこの電子ぺット装置 1で飼育されて いる電子ペットと、 外部の機器で飼育されている電子ペットとについて、 同時並 列的に上述した処理を実行することにより、 あたかもこの電子ぺット装置 1に外 部より他の電子ぺットが訪問したように応答を作成する。 なお図 1に示す機能ブ ロックにおいては、 このようにして取得した体調データ 1 6 B、 感情データ 1 6 C、 対話履歴 1 6 Fによる処理については、 データの流れを省略して示す。 さらに電子ペット装置 1は、 認識データ 1 6 A、 パターンデータ 1 6 E、 知識 1 6 G、 音声データ 1 6 H、 画像データ 1 6 Iをネットワーク 1 8より取得し、 これにより音声認識可能な語彙を増強し、 さらには応答の種類を増大できるよう になされている。 これにより電子ペッ ト装置 1は、 いわゆる電子ペットを育てて 学習させることができるようになされている。
すなわち中央処理ュニット 1 1は、 接続要求に応動してステップ S P 1からス テツプ S P 2に移り、 この接続要求を受け付ける。 なおここで接続要求は、 タイ マー 1 1 Bにより一定時間毎に定期的に発生され、 またユーザーによる操作子の 操作により、 さらにはネットワーク 1 8からの呼により発生する。
中央処理ュニッ ト 1 1は、 続いてステップ S P 3に移り、 ここで所定の回線接 続処理を実行して通信を確立する。 続いて中央処理ユニッ ト 1 1は、 ステップ S P 4に移り、 接続要求の内容に応じて対応する各種データを送受する。 続いて中 央処理ユニッ ト l iは、 ステップ S P 5に移り、 通信を切断した後、 ステップ S P 6に移ってこの処理手順を終了する。
図 1 2は、 このデータ転送のフォーマッ トを示す図表である。 電子ペット装置 1においては、 ネッ トワーク接続部 1 7に配置されたインタ一フェースにより、 また通話対象のィンターフェースにより、 このフォーマツ トにより伝送に供する データが送受される。 ここで各データ D Tには、 ヘッダが配置され、 このヘッダ 内に各データのアドレス、 種類等が記述され、 ヘッダ続いて伝送に供するパター ンデータ 1 6 E、 認識データ 1 6 A、 音声データ 1 6 H、 画像データ 1 6 I等が 順次必要に応じて割り当てられる。
( 1 - 3 ) 認識データの登録
図 1 3は、 認識データの登録に関して電子ぺッ ト装置 1を更に詳細に示す機能 ブロック図である。 この機能ブロック図において、 登録部 1 1 Iは、 音声認識結 果より認識データ 1 6 Aを登録し、 これによりキ一ボード等により単語を入力し なくても音声により種々の単語を電子ぺッ トに覚え込ませることができるように なされている。 このため音声認識部 1 1 Aにおいては、 上述したように、 HMM法により音声 データ DAを処理し、 これにより音韻列による認識結果を出力する。 すなわち音 声認識部 1 1 Aは、 日本語による音声を音韻により識別し、 各音韻を示す識別子 の列により日本語の発音を記述する。 ここでこれら識別子は、 「b」 、 「d」 、
「g」 、 「P」 、 「 t」 、 [k」 、 「mj 、 「n」 、 「r」 、 「z」 、 「c h」 、 「t s」 、 「y」 、 「wj 、 「h」 、 「 i j 、 「e」 、 「aj 、 「oJ 、 「u J 、 「N」 、 「e i」 、 「o u」 、 「 s」 、 「 s h」 、 「x y」 、 「j」 、 「 f 」 、 「s i 1」 とにより構成され、 「s i 1」 は無音である。
これにより音声認識部 1 1 Aは、 例えばユーザーが 「みかん」 と入力すると、
「 s i 1 m i k a N s i 1」 の識別子で記述される音韻列により音 声入力を認識する。 このため音声認識部 1 1 Aは、 順次入力される音声データ D Aを順次処理して音韻を識別すると共に、 この識別結果を図 1 4に示す文法によ り処理し、 これにより識別子の連続してなる音韻列を検出する。 なおこの図 1 4 は、 上述した全ての音韻の接続を許す文法である。
音声認識部 1 1 Aは、 通常の動作モードにおいては、 このようにして検出した 識別子の列により認識データ 1 6 Aを検索し、 この検索結果より単語、 文言のテ キストデータにより認識結果を出力する。 これによりこの実施の形態において、 認識データ 1 6 Aに未登録の単語が音声入力された場合、 対応するテキストデー タを生成することが困難になり、 ユーザ一の問い掛けに正しく応答することが困 難になる。
このためこの実施の形態において、 電子ペット装置 1は、 ネットワーク接続部 1 7を介してネットワークに接続し、 ネットワークより認識データ 1 6 Aをダウ ンロードし、 これにより電子ぺットを学習させてユーザーからの種々の問い掛け に応答できるようになされている。
さらにこの実施の形態において、 中央処理ユニット 1 1は、 操作子 4A、 4 B の操作により登録モードが選択されると、 図 1 5に示す処理手順を実行し、 これ によりュ一ザ一が音声により入力した単語を認識データ 1 6 Aに登録する。 すなわち中央処理ユニット 1 1は、 操作子の操作に応動してステップ S P 1 1 からステップ S P 1 2に移り、 登録モードに入る。 続いて中央処理ュニット 1 1 は、 ステップ S P 1 2に移り、 画像合成部 1 1 Gを駆動して液晶表示パネル 3に 所定のメッセージを表示し、 これによりユーザーに単語の発声を促す。
続いて中央処理ュニット 1 1は、 ステップ S P 1 4に移り、 順次入力される音 声データ D Aを順次音韻列により識別して音声認識し、 ユーザーが所定の操作子 を操作して音声入力の終了を指示するとステップ S P 1 5に移る。
ここで中央処理ユニット 1 1は、 音声認識結果である音韻列により音声合成部 1 1 Fを駆動してユーザーの入力した音声を発声し、 これによりユーザーに認識 結果を提示する。 すなわち中央処理ユニット 1 1は、 例えばユーザ一が 「ミカン 」 の単語を発生し、 認識結果として 「s i l m i k a N s i l」 が 得られると、 この場合 「みかんですか?」 との音声を発生する。 続いて中央処理 ュニット 1 1は、 ステップ S P 1 6に移り、 確認の操作子 4 A又はキャンセルの 操作子 4 Bの操作を検出することにより、 確認の入力を受け付ける。
続いて中央処理ユニット 1 1は、 ステップ S P 1 7に移り、 キャンセルの操作 子 4 Bが操作された場合、 提示した認識結果がユーザーにより否定されたと判断 してステップ S P 1 3に戻り、 再び音声入力を受け付ける。 これに対して確認の 操作子 4 Aがユーザーにより操作された場合、 ユーザ一により認識結果が肯定さ れたと判断し、 ステップ S P 1 8に移る。
ここで中央処理ュニット 1 1は、 続いて画像合成部 1 1 Gを駆動して液晶表示 パネル 3に所定のメッセージを表示し、 これによりユーザーに音声入力した単語 について、 属性の発声を促す。 ここで属性は、 単語により特定される対象を分類 するための、 この対象の性質を示すキーワードであり、 この実施の形態において 例えば 「ミカン」 は、 属性が 「果物」 に分類される。
続いて中央処理ュニット 1 1は、 ステップ S P 1 9に移り、 順次入力される音 声データ D Aを順次音韻列により識別して音声認識し、 ユーザーが所定の操作子 を操作して音声入力の終了を指示するとステップ S P 2 0に移る。 ここで中央処理ユニット 1 1は、 音声認識結果である音韻列により音声合成部 1 1 Fを駆動してユーザーの入力した音声を発声し、 これによりユーザーに属性 の認識結果を提示する。 すなわち中央処理ュニット 1 1は、 例えばユーザ一が 「 ミカン」 の単語を発生した後、 属性として 「果物」 を入力すると、 この場合 「く だものですか?」 との音声を発生する。 続いて中央処理ユニット 1 1は、 ステツ プ S P 2 1に移り、 確認の操作子 4 A又はキャンセルの操作子 4 Bの操作を検出 することにより、 確認の入力を受け付ける。
続いて中央処理ユニット 1 1は、 ステップ S P 2 2に移り、 キャンセルの操作 子 4 Bが操作された場合、 提示した認識結果がユーザ一により否定されたと判断 してステップ S P 1 8に戻り、 属性について再び音声入力を受け付ける。 これに 対して確認の操作子 4 Aがユーザーにより操作された場合、 ユーザーにより認識 結果が肯定されたと判断し、 ステップ S P 2 3に移る。
ここで中央処理ュニット 1 1は、 単語については認識データ 1 6 Aに登録し、 属性については知識 1 6 Gに登録した後、 ステップ S P 2 4に移ってこの処理手 順を終了する。
ここで知識 1 6 Gは、 認識データ 1 6 Aに登録された各単語、 文言について、 果物、 飲み物等の分類を示す属性のデータが記録されるようになされている。 こ れにより中央処理ュ-ット 1 1においては、 パターンデータ 1 6 Eに属性の記述 を含めることにより、 例えばユーザーに対して 「好きな食べ物は何ですか」 と問 い掛け、 この問い掛けに対するユーザーからの 「みかんが好きだよ」 の返答に対 し、 「私はみかんは嫌いです」 との応答を発生できるようになされている。
なお知識 1 6 Gは、 これら属性の他に、 電子ぺット装置 1の持ち主である飼い 主の名前、 好み、 ネットワーク 1 8よりもたらされる天気予報等の各種データが 記録され、 必要に応じてこれらの情報をユーザーとの対話に利用できるようにな されている。 すなわち例えなユーザが 「今日の天気は?」 と問いかけた場合、 「 今日」 、 「天気」 をキーフレーズにしたルールにより 「晴れです」 等の応答を発 生できるようになされている。 また電子ぺット装置 1においては、 このようにして音声入力により認識データ 1 6 Aを登録した場合、 この音声入力に対応する正しいテキスト (上述の例では
「みかん」 を記述したテキスト) が存在しないことにより、 認証結果であるテキ ストデータにおいて、 対応する単語、 文言については音韻列の識別子であるアル ファベットの標記 (上述の例では 「s i l m i k a N s i l」 の標 記) によりこれら認識データ 1 6 Aの単語、 文言を記述して処理するようになさ れている。 またネットワーク 1 8からのダウンロードにより必要に応じてこのテ キストを補い、 補った後においては、 音韻列の識別子に代えて本来のテキストに より認証結果を処理するようになされている。
これにより電子ペット装置 1においては、 音声入力により登録した単語、 文言 による認識データ 1 6 Aについても、 ネットヮ一ク 1 8よりダウン口一ドした単 語、 文言による認識データ 1 6 A、 事前に登録されている単語、 文言による認識 データ 1 6Aと同様に処理してユーザーと対話できるようになされている。
(1 -4) ユーザー認証
図 1 6は、 ユーザ一認証に関して電子ぺット装置 1を更に詳細に示す機能プロ ック図である。 この機能ブロック図において、 認証データ 1 6 Kは、 事前の設定 によりユーザー名が記録される。 なおこの記録は、 音声認識結果により、 又は購 入時に実行される初期設定処理における外部機器からのキーボード入力等により 実行される。
応答文作成部 1 1 Eは、 例えば図 1 7に示すパターンデータ 1 6 Eのルール 1 に従って、 「がお一」 の音声が入力された場合、 「あなたは本当にご主人様?」 との応答を返す。
音声認証部 1 1 Jは、 ルール 2に従って 「$ US ER」 により定義される事前 に登録されたユーザー名が音声入力された場合であって (my L a s t— U t t e r) 、 直前の応答文作成部 1 1 Eにより 「あなたは本当にご主人様?」 の文言を含む応答がなされている場合、 関数 「 a u t h e n t i c a t e dによ る変数を 「TRUE」 にセットする (s e t a u t h e n t i c a t e d ( T R U E ) ) 。
かくするにっき音声認証部 1 1 Jは、 音声認識結果より認証データ 1 6 Kを検 索し、 このような条件が満足される場合に、 音声入力した者がユーザーと認証し 、 認証状態 1 6 Jをユーザー認証した状態にセットする。 また上述の条件が満足 されない場合には認証状態 1 6 Jをユーザー認証していない状態にセッ卜する。 なおこの場合において、 ユーザー認証された場合には、 ルール 2に従って応答文 作成部 1 1 Eにより 「ははあ、 ご主人様。 」 との応答が発生されることになる。 これにより電子ペット装置 1においては、 音声に基づいて、 ユーザーを認証す ると共に、 図 8について上述したルール 1のようにして、 飼い主とそれ以外の人 間とで応答を異ならせることができるようになされ、 例えば飼い主に特有の挙動 を示して実際のぺットに近い挙動を示すようになされている。
またこの音声によるユーザー認証において、 事前に登録した単語の有無により 、 音声に基づいてユーザーを認証するようになされている。
さらに音声認証部 1 1 Jは、 図 1 8に示すように、 ユーザー認証した音声入力 者との対話の中で、 知識 1 6 Gに記録したユーザーの嗜好、 趣味等を問い掛ける 応答の出力を応答文作成部 1 1 Eに指示する。 なお図 1 8においては、 「ご主人 さまの好きな食べ物は?」 との問い掛けによりユーザー認証した音声入力者の嗜 好を問い掛けていることになる。
音声認証部 1 1 Jは、 図 1 7について説明したルール 2と同様の処理により、 続いてユーザーの音声入力より嗜好の問い掛けに対する応答を判断し、 この応答 の音声認識結果よりこの場合 「ピ一ナッツ」 の単語を認証データ 1 6 Kに登録す る。
応答文作成部 1 1 Eは、 音声入力者との対話の中で、 タイマー 1 1 Bの起動に より、 例えば図 1 9に示すように、 認証データ 1 6 Kに登録した嗜好、 趣味等に 関する問い掛けを発生する。 なおこの図 1 9に示す例にあっては、 図 1 8につい て上述した嗜好の問い掛けに対応して、 「あなた本当にご主人様?好きな食べ物 は?」 と問い掛けた場合である。 音声認証部 1 1 Jにおいては、 図 1 7について説明したルール 2と同様の処理 により、 続いてユーザーの音声入力より嗜好の問い掛けに対する応答を判断し、 この場合飼い主にあっては 「ピーナッツ」 の応答が得られることにより、 この応 答の音声認識結果より認証状態を 「T R U E」 にセットする。 また応答文作成部 1 1 Eにあっては、 「本当にご主人様だ!」 との応答を発生する。
これにより電子ぺット装置 1は、 過去の音声認識結果を基準にして音声認識結 果を判定することにより、 音声に基づいてユーザ一を認証するようになされ、 さ らに詳しくは過去の音声認識結果に対応する質問を応答として出力し、 この応答 に対する音声認識結果を判定してユーザー認証するようになされている。
さらに音声認証部 1 1 Jは、 タイマー 1 1 Bにより一定時間以上音声が入力さ れない場合、 この場合ユーザーが立ち去った場合等であることにより、 認証状態 をリセットする。
( 1 - 5 ) 対話の分類処理
図 2 0は、 対話の分類処理に関して電子ぺット装置 1を更に詳細に示す機能ブ ロック図である。 この機能ブロック図において、 発話分類部 1 1 Mは、 所定の分 類ルール 1 6 Mに従って、 音声認識結果を識別することにより、 音声入力による 会話を分類し、 その分類結果である分類コードを応答文作成部 1 1 Eに出力する ここで発話分類部 1 1 Mは、 例えば 「おはよう」 、 「こんにちは」 等の挨拶一 般の音声入力については、 「挨拶」 に分類する。 また 「調子はどう」 、 「……は 好き」 等の問い掛けの音声入力については、 「質問」 に分類し、 「元気だよ」 、 「つまらない」 等の感想を述べた音声入力については、 「感想」 に分類する。 応答文作成部 1 1 Eは、 パターンデータ i 6 Eに従って応答文を作成する際に 、 パターンデータ 1 6 Eに記録された応答文の分類と、 この発話分類部 1 1 Mで 分類された分類パターンに従って応答を作成する。 さらにこのとき必要に応じて 対話履歴 1 6 Fに記録された過去の対話記録に従って、 応答を作成する。
すなわちパターンデータ 1 6 Eにおいて、 ルールによっては図 8との対比によ り図 2 1に示すように、 各応答文の分類が設定されるようになされている。 なお この分類は、 発話分類部 1 1 Mにおける分類に対応するように設定される。 因みに、 図 2 1のルール 1においては、 「ボクも愛しているよ」 、 「おわつ、 ボ、 ポクはォスなんですけど」 の応答文には 「状態」 の分類が設定され、 「変な 人」 には 「感想」 、 「あなた誰?」 には 「質問」 の分類が設定されるようになさ れている。 またルール 2においては、 「うるさいなあ」 には 「感想」 、 「なあに ? J には 「質問」 、 「こにやにやちわ」 には 「挨拶」 、 「わお驚いた」 には 「感 想」 、 「あらどうも」 には 「挨拶」 、 「呼んだ?」 には 「質問」 の分類が設定さ れるようになされている。
さらにパターンデータ 1 6 Eには、 特定の分類による会話の連続を禁止する種 別制約が規定されるようになされている。 具体的には、 ユーザーからの質問に対 しては質問を返さないように、 種別制約が設定される。 また 「挨拶」 、 「挨拶」 のやり取が続いた場合には、 続いて 「挨拶」 の応答をしないよう種別制約が設定 されるようになされている (図 2 1の場合) 。
これに対して対話履歴 1 6 Fは、 図 2 2及び図 2 3に示すように、 応答文作成 部 1 1 Eによりユーザーと電子ぺッ トとの対話が記録されるようになされている 。 ここでこの記録は、 音声を発生した行為者、 その音声の分類、 音声の内容が記 録されるようになされている。 図 2 2の例においては、 ユーザーによる分類 「挨 拶」 の 「こんにちわ」 の音声入力に続いて、 電子ペッ トが分類 「挨拶」 の 「どう も」 の応答をし、 続いてユーザ一による分類 「質問」 の 「調子はどう」 、 電子べ ットによる分類 「状態」 の 「元気だよ」 が続いたことが記録されていることにな る。
応答文作成部 1 1 Eは、 パターンデータ 1 6 Eに従って感情データ 1 6 Cによ り応答を作成する際に、 この制約条件に従って対話履歴 1 6 Fを参照して、 対話 履歴 1 6 Fに従って応答を作成する。 すなわち応答文作成部 1 1 Eは、 種別制約 に該当する場合、 すなわち図 2 1においては、 直前に 「挨拶」 のやり取りが続い た場合、 例えば喜びの変数が最も大きい場合でもこのルール 2を適用しないよう にする。 また同様にして 「質問」 には 「質問」 を返さないようにする。 これにより電子ペット装置 1においては、 「挨拶」 に対して 「挨拶」 を返すよ うな第 1のルールと、 種々の問い掛けに対して 「挨拶」 を返すような第 2のル一 ルが規定されているような場合でも、 第 2及び第 1のルールの繰り返しの適用に より、 ユーザ—との間で 「挨拶」 を何度も繰り返すような不自然な会話を防止す るようになされている。
( 1 - 6 ) 感情の制御
図 2 4は、 感情の制御に関して電子ぺット装置 1を更に詳細に示す機能プロッ ク図である。 この機能ブロック図において、 感情変更部 1 1 Dは、 上述したよう にタイマ一 1 1 Bの起動により、 また音声認識結果に含まれる文言をキーワード にした性格データ 1 6 Dの検索により、 感情データ 1 6 Cを更新する。
この処理において感情変更部 1 1 Dは、 図 2 5に示すように、 感情変化履歴 1 6 Nとして、 感情データ 1 6 Cを構成する各変数の変化量、 音声認識結果より検 出して各変数の変化に使用したキーヮード、 音声認識結果によるテキストデータ を記録する。 さらに例えば応答を出力した後等の所定のタイミングで、 この感情 変化履歴 1 6 Nを検索し、 特定のキーワードと対により所定の単語が頻繁に使用 されている場合、 図 6との対比により図 2 6に示すように、 この単語をキーヮ一 ドとして性格データ 1 6 Dに登録し、 この単語が単独で入力された場合等にあつ ても、 同様に各変数を変化させることができるようにする。
すなわち感情変更部 1 1 Dは、 例えば変数を変化させるキ一ワードである 「汚 い」 の単語と、 「カレーパン」 の単語とが対になって頻繁に使用され、 その使用 頻度が所定値以上になると、 「カレ一パン」 の単語をキーワードとして性格デ一 タ 1 6 Dに登録する。 またこのときこの 「カレーパン」 によって、 「汚い」 の単 語が入力された場合と同じように各変数を変化させるように、 各変数の変化量を 設定する。
これにより電子ぺッ ト装置 1は、 いわゆる連想により特定の感情が生まれるよ うに設定され、 この感情による応答を発生できるようになされている。 さらに感情変更部 1 1 Dは、 このようにして所定のタイミングで感情変化履歴 を検索する際に、 併せて変数の変化に使用する各キーヮ一ドの使用頻度を検出す る。 ここで一定の頻度以上で特定のキーワードが使用されている場合、 感情変更 部 1 1 Dは、 図 6との対比により図 2 7に示すように、 このキ一ヮ一ドによる変 数の変化量を低减する。 なお図 2 7においては、 「汚い」 のキーワードが頻繁に 使用された結果、 この 「汚い」 のキ一ワードによる変数の変化量を低減した場合 であり、 「怒り」 、 「悲しみ」 、 「喜び」 、 「恐れ」 、 「驚き」 、 「嫌悪」 の 6 つの要素について、 それぞれ変化量を一 1、 ー 1、 + 2、 + 1、 — 1、 —4だけ 変化させた場合である。
これにより電子ぺット装置 1においては、 いわゆる慣れの感覚を形成できるよ うになされている。
さらに感情変更部 1 1 Dは、 このようにして性格データ 1 6 Dに加えた単語の 音声入力頻度が低下した場合、 この単語を性格データ 1 6 Dより消去する。 また 同様に、 変数の変化量を変更した単語について、 音声入力頻度が低下した場合、 徐々に元の変化量に戻す。
これにより電子ぺット装置 1においては、 いわゆる忘れ去る状況をも作り出す ことができるようになされている。
( 1 - 7 ) 第 1の実施の形態の動作
以上の構成において、 電子ペット装置 1は (図 1〜図 3 ) 、 ユーザ一がマイク 7より音声を入力すると、 中央処理ュニット 1 1の処理により構成される機能ブ ロックである音声認識部 1 1 Aにおいて、 HMM法によりこの音声が音声認識処 理される。 この音声認識処理において、 音声は、 音韻列に変換された後、 認識デ ータ 1 6 Aとの照合によりテキストデータに変換される。
電子ぺット装置 1においては、 このようにして生成された音声認識結果である テキス トデータが、 体調変更部 1 1 Cに入力され、 ここでこの体調変更部 1 1 C により、 現在の体調を示す 5つの要素 「疲れ」 、 「飢え」 、 「渴き」 、 「病気」 、 「眠気」 (図 4 ) により構成される体調データ 1 6 Bが音声に含まれる単語に 応じて変更される。 すなわち例えば音声認識結果により食べ物が与えられた場合 、 「飢え」 の変数が低減され、 また音声認識結果により飲み物が与えられた場合 、 「渴き」 の変数が低減される。
これにより電子ぺット装置 1においては、 ユーザ一の音声入力により体調が変 化するようになされている。 さらにタイマ一 1 1 Bを基準にした体調変更部 1 1 Cの処理によっても、 これら 5つの要素に徐々に変更が加えられる。 これにより 電子ぺット装置 1においては、 これら 5つの要素による体調がユーザーからの音 声入力により、 また時間経過により変化し、 この 5つの要素を基準にして音声入 力に対して応答を生成することにより、 ユーザーの音声に対する応答に電子ぺッ 卜の体調が反映されるようになされている。
これとは別に、 音声認識結果は、 感情変更部 1 1 Dに与えられ、 ここでこの音 声認識結果に含まれる単語に応じて現在の感情データ 1 6 Cが変更される (図 5 ) 。 ここでこの感情データ 1 6 Cの変更においては、 感情を変化させるキーヮ一 ドと、 このキーワードに対して感情の変化を記述した性格データ 1 6 Dに従って (図 6 ) 、 感情を示す 6つの要素 「怒り」 、 「悲しみ」 、 「喜び」 、 「恐れ」 、 「驚き」 、 「嫌悪」 による変数が、 音声に含まれる感情を変化させる単語に応じ て更新され、 これによりこれら 6つの変数により感情が表されて、 この感情がュ 一ザ一の問い掛けに応じて変化する。
これにより電子ぺット装置 1においては、 ユーザーの音声入力に応じて電子ぺ ットの感情が変化するようになされている。 また電子ぺット装置 1においては、 先の体調データ 1 6 B、 この感情データ 1 6 Cを参考にして音声認識結果に応じ て応答を作成することにより、 電子ペットの反応に、 電子ペットの体調、 感情が 反映される。
すなわち電子ぺット装置 1において、 音声認識結果は、 応答文作成部 1 1 Eに 入力され、 この応答文作成部 1 1 Eにおいて、 パターンデータ 1 6 Eに記述され たルールに従って音声認識結果に対応する応答文が作成される (図 8 ) 。 すなわ ち電子ぺット装置 1においては、 音声に含まれるキ一フレーズに対してそれぞれ 応答文が記述されてパターンデータ 1 6 Eが生成されており、 応答文作成部 1 1 Eにおいては、 音声認識結果によりパターンデータ 1 6 Eを検索して対応する応 答文を出力する。
電子ペット装置 1においては、 この応答文による応答に対して、 対応する音声 による応答が音声合成部 1 1 Fにより生成されてスピーカ 6より出力され (図 9 ) 、 また同様に応答に対応する画像が画像合成部 1 1 Gにより作成されて液晶表 示パネル 3に表示され (図 1 0 ) 、 これによりユーザーの音声入力による応答が 音声及び画像により提供される。
このようにしてパターンデータ 1 6 Eにより応答を作成する際に、 パターンデ ータ 1 6 Eにおいては、 体調データ 1 6 B、 感情データ 1 6 Cに応じて異なる応 答を発生するようにルールが記述され、 電子ペッ ト装置 1においては、 このルー ルに従って応答を生成し、 これによりユーザーへの応答に電子ペッ トの体調、 感 情が反映される。
このような一連の処理において、 電子ペッ ト装置 1は、 ユーザーが所定の操作 子を操作すると、 登録の動作モードに切り換わり、 認識データ 1 6 Aにより音声 認識可能な単語、 文言が音声入力により登録可能となる。
すなわちこの登録のモードにおいて、 電子ペッ ト装置 1は (図 1 3及び図 1 5 ) 、 ユーザーが登録する単語等の音声を音声入力すると、 通常の動作モードにお ける処理と同様にしてこの音声入力が音韻列に変換され (図 1 4 ) 、 この音韻列 による音声が音声合成部 1 1 Fより発声され、 この発声によりュ一ザ一からの確 認が得られると、 続いて先に入力された単語等の属性について音声入力が受け付 けられる。
この属性の音声入力においても、 電子ペット装置 1においては、 音声入力が音 韻列に変換され、 この音韻列の発声によりユーザ一からの確認が得られると、 先 に入力された単語等の音韻列が認識データ 1 6 Aに登録されるのに対し、 この認 識データ 1 6 Aに対応するようにして属性のデータが知識 1 6 Gとして登録され る。 これにより電子ぺット装置 1においては、 キーボード等の煩雑な操作によらな くても音声により単語等を登録でき、 その分使い勝手を向上することができるよ うになされている。 また実際に動物のぺットに鎂けを教えるように電子ぺットを 取り扱って語彙を増大させることができ、 その分電子ぺットを身近な親しみ易い ものとすることができるようになされている。
かくするにっきこのようにして登録された単語等にあっては、 通常の音声認識 処理においては、 音声認識処理における音韻列により認識データ 1 6 Aが検索さ れて対応するテキストデータにより音声認識結果が出力されるのに対し、 このテ キストデータに代えて音韻列により表記されたテキストデータが出力されて同様 に応答文が作成され、 このとき知識 1 6 Gに記録された属性に従って応答文が作 成され、 これにより例えば体調データ 1 6 Bによる空腹時、 食べ物の属性による 問い掛けに対して、 「食べる」 、 「欲しい」 等の応答を発生することが可能とな る。
またこのようにして単語と属性とを音声入力により登録するにつき、 単語と属 性とを区切って、 それぞれ音声認識結果を発声して確認を得ることにより、 簡易 かつ確実に音声入力により単語を登録することができる。
これに対して所定のキーワード (がお一) をユーザーが音声入力すると、 電子 ぺット装置 1においては (図 1 6及び図 1 7 ) 、 事前に登録された例えばユーザ 一名等の入力を促すルール 1により音声が発声され、 この音声に応答するユーザ —の音声入力が音声認識処理される。 電子ペット装置 1においては、 この音声認 識結果が音声認証部 1 1 Jにおいて、 事前に登録された例えばユーザー等による 認証データ 1 6 Kと照合され、 ここでユーザ一認証されれば認証状態 1 6 Jに音 声入力者がユーザーである旨セットされる。
これにより電子ペット装置 1においては、 音声入力者がユーザーの場合と、 ュ 一ザ一でない場合とで区別するパターンデータ 1 6 Eにおけるルールの記述に従 つて (図 8、 ルール 1 ) 、 応答文作成部 1 1 Eにおいて応答文を作成する際に、 この認証状態 1 6 Jが参照され、 認証状態 1 6 Jの設定に応じて異なる応答が作 成される。
これにより電子ペット装置 1においては、 動物のペットのように、 飼い主に対 してだけ特定の挙動を示すように応答することが可能となり、 その分電子ぺット を親しみ易いものとすることができるようになされている。
さらに電子ぺット装置 1においては、 タイマー 1 1 Bにより音声認証部 1 1 J が起動されて、 一定の時間間隔でユーザー認証処理が実行される。 この一定の時 間間隔によるユーザー認証処理においては、 知識 1 6 Gに記録したユーザーの嗜 好、 趣味等の問い掛けに対する応答によりユーザーか否か判断され、 これにより ユーザー認証の処理が実行される (図 1 8及び図 1 9 ) 。
これにより電子ぺット装置 1においては、 会話の途中でも必要に応じて会話の 相手を確かめて飼い主に対してだけ特定の挙動を示すように応答を作成すること が可能となる。
このようにしてユーザーと会話するにつき、 電子ペット装置 1においては (図 2 0、 図 2 2及び図 2 3 ) 、 発話分類ルール 1 6 Mに従って発話分類部 1 1 に により音声入力による会話が 「挨拶」 、 「質問」 等に分類される。 さらにユーザ 一による音声入力に対して応答を作成する際に、 パターンデータ 1 6 Eに記述さ れた種別制約 (図 2 1 ) により、 例えばユーザ一の音声入力が 「質問」 の場合に は、 特定のキーフレーズにより応答として 「質問」 がルールにより特定される場 合でも、 このルールによっては応答を生成しないようになされる。
これにより電子ペット装置 1においては、 「質問」 に 「質問」 を返すような不 自然な会話が防止される。
また電子ぺット装置 1においては、 連続する会話の分類が逐次対話履歴 1 6 F に記録され、 ユーザーによる音声入力に対して応答を作成する際に、 この対話履 歴 1 6 Fに記録した分類を参照してパターンデータ 1 6 Eに記述された種別制約 (図 2 1 ) に従って応答を作成することにより、 「挨拶」 に対して 「挨拶」 を返 すようにルールが設定されている場合でも、 例えば電子ペット装置による 「挨拶 」 、 ユーザーによる 「挨拶」 が続いた場合には、 この 「挨拶」 に対して 「挨拶」 を返すルールによっては応答を生成しないようになされる。
これによつても何度も 「挨拶」 をやりとりするような不自然な会話が防止され 、 電子ペットを身近なものとすることができる。
さらに電子ペット装置 1においては (図 2 4及び図 2 5 ) 、 感情を変化させる キーヮ一ドが同時に使用された単語、 キーヮードによる感情の変化と共に感情変 化履歴 1 6 Nに順次記録される。 電子ペット装置 1においては、 一定の時間間隔 等によりこの感情変化履歴 1 6 Nが検査され、 各キ一ワードについて、 同時に使 用される頻度の高い単語については、 この単語によっても感情が変化するように 性格データ 1 6 Dにこの単語が登録される (図 2 6 ) 。
これにより電子ペット装置 1においては、 例えば 「汚いカレ一パン」 とのフレ ーズが繰り返された場合には、 「カレーパン」 の文言の音声入力だけで、 「汚い 」 の文言による音声が入力された場合と同様に感情を変化させて応答を生成する ことになる。
これにより電子ぺット装置 1においては、 動物に例えるならば条件反射するよ うに、 また人間に例えると連想により、 種々に感情を変化させることができ、 ま たこの感情の変化を応答に反映させることができるようになされている。
さらに電子ペッ ト装置 1においては、 同様の感情変化履歴 1 6 Nの検査により 、 頻繁に使用されている感情を変化させるキーワードについては、 感情の変化量 が低減するように (図 2 7 ) 、 性格データ 1 6 Dが更新される。 これによりいわ ゆる慣れの状態を形成し、 この慣れの状態を応答に反映させることが可能となる このようにして使用される電子ぺッ ト装置 1においては、 ユーザーの操作によ りネットワーク接続部 1 7 (図 1及び図 2 ) を介して、 ネッ トワーク 1 8に接続 され、 認識データ 1 6 A、 知識 1 6 G、 パターンデータ 1 6 E等の音声認識処理 、 応答生成処理に必要なルールであるこれらのデータ、 知識をダウンロードする ことが可能となる。 これによりこれら認識データ 1 6 A、 知識 1 6 Gを更新して 、 一段と高度な会話を楽しむことが可能となる。 また応答の具体的な出力である 音声データ 1 6 H、 画像データ 1 6 Iをダウンロードして、 同様に応答の表現を 向上することができる。
また同様にしてネッ トワーク 1 8を介して体調データ 1 6 B、 感情データ 1 6 C、 対話履歴 1 6 Fを所望の機器に送出することができるようになされ、 これに よりこれらのデータを送出した機器において、 この電子ぺット装置 1における電 子ぺッ トを再現できるようになされ、 電子ぺットを種々の環境に連れ出すことが 可能となる。
またこれとは逆に、 ネッ トワーク 1 8より体調データ 1 6 B、 感情データ 1 6 C、 対話履歴 1 6 Fを取得し、 これによりあたかもこの電子ペッ ト装置 1に外部 より他の電子ぺッ トが訪問したように応答を作成して、 他の電子ぺット装置で飼 育されている電子ぺッ トをこの電子ぺッ ト装置 1に連れ出すことができるように なされている。
( 1 - 8 ) 第 1の実施の形態の効果
以上の構成によれば、 音声認識処理のルールである認識データ、 応答生成のル ールであるパターンデータ、 感情生成のルールである感情データ、 体調データ、 音声データ、 画像データをネッ トワークを介して更新できるようにすることによ り、 ネッ トワークに接続された同種の機器における応答とほぼ同一の応答を生成 でき、 これによりあたかもにこのネッ トワークに接続された同種の機器より電子 ぺットを連れ出したかのように取り扱うことができ、 動物のぺッ トを実際に飼育 している場合のように電子ぺッ トを親しみ易いものとすることができる。 また必 要に応じて判別可能な単語を増大させる等により知識を増大させることもできる また定期的にネッ トワークに接続して認識データ等を更新するすることにより 、 ユーザ一を何ら煩わすことなく、 知識を増大させることができる。
またこれとは逆に、 体調データ、 感情データ、 対話履歴をネッ トワークにより 送出することにより、 このネッ トワークに接続された同種の機器において、 この 情報処理装置等における音声入力に対する応答とほぼ同一の応答を生成でき、 こ れによりあたかも電子ぺットを外部の機器に連れ出したかのように取り扱うこと ができ、 動物のぺッ トを実際に飼育している場合のように電子ぺットを親しみ易 いものとすることができる。
またこれらデータの更新、 データの送出を交換可能な記憶媒体である I Cカー ドを介して実行できるようにしたことにより、 通信機能を備えていない種々の機 器との間でもこれらの処理を実行することができる。
また登録の動作モードにおいて、 音声認識結果に基づいて、 単語の音声認識結 果と単語の分類とを登録することにより、 電子ぺットが認識可能な語彙を音声に より簡易に増やすことができる。 これにより実際に飼育している動物のぺットに 賴けを教えるように電子ぺットを取り扱うことができ、 電子ぺッ トを親しみ易い ものとすることができる。
またこのとき、 音声の音韻列による音声認識結果に従つて単語の音声認識結果 と分類とを記録することにより、 単に音声を入力するだけで他の操作を何ら必要 とすることなく登録することができる。
またこのとき通常の処理においては、 音声認識結果をテキストデータとして出 力し、 登録においては音韻列の記述により登録することにより、 ルール等の記述 を簡略化することができる。
また単語と属性とを区切って入力して登録を受け付けることにより、 簡易にこ れらの登録の処理を実行することができる。
さらに音声に基づいたユーザー認証の認証結果に基づいて、 音声入力者に応じ て応答を異ならせることにより、 電子ぺットの応答を例えば飼い主とそれ以外の 者とで異ならせるようにすることができる。 これにより動物のぺットのような挙 動を実現でき、 電子ぺッ トを一段と身近な親しみ易いものとすることができる。 またこのとき過去の音声認識結果を基準にして音声認識結果を判定してユーザ —を認証することにより、 例えばパスワード等の入力を求めることなく、 会話を 通じてユーザー認証することができ、 その分使い勝手を向上することができる。 さらにこのとき過去の音声認識結果を基準にした質問に対する答えを判定して ユーザー認証することによつても、 また所定の単語の発声によりユーザー認証す ることによつても、 自然な会話を通じてユーザー認証することができ、 その分使 い勝手を向上することができる。
また音声入力の種類を識別すると共に入力の種類に対応する応答の分類に従つ て、 所定の種類の応答を除く応答を生成することにより、 例えば問いに対して問 いを返すような不自然な会話を防止することができる。 これにより電子ぺットの 応答を自然な生き生きとしたものとでき、 これによつても電子ぺットを一段と身 近な親しみ易いものとすることができる。
またこのときこの入力の種類と応答の分類とによる履歴を参照して応答を生成 することにより、 挨拶を繰り返しやり取りするような不自然な会話を防止するこ とができる。 これにより電子ぺットの応答を自然な生き生きとしたものとでき、 これによつても電子ぺットを一段と身近な親しみ易いものとすることができる。 さらに音声認識結果と対応する感情パラメータとによる履歴に応じて感情パラ メータの変化量を変化させることにより、 例えば頻繁に発生される音声に対して 慣れ、 親しみ等の感情のこもった応答を形成することができる。 これにより電子 ぺットの応答を自然な生き生きとしたものとでき、 これによつても電子ぺットを 一段と身近な親しみ易いものとすることができる。
すなわち感情を刺激する単語以外の単語が、 この感情を刺激する単語を同時に 頻繁に使用される場合、 該単語によっても感情パラメータを変化させることによ り、 繰り返し対により使用される単語にも感情を変化させて応答することができ る。
また、 感情を刺激する単語のうちの所定の単語が頻繁に使用される場合、 該感 情を刺激する単語により感情パラメータの変化量を低減することにより、 いわゆ る慣れの感情を生成することができる。
( 2 ) 他の実施の形態の効果
なお上述の実施の形態においては、 ネッ トワークに接続して電子ぺットを外出 させ、 また外部機器の電子ペッ トの応答を出力し、 さらには各種ルール等を学習 させる場合について述べたが、 本発明はこれに限らず、 必要に応じてこれら何れ かの処理のみ実行するようにしてもよい。 また定期的なアクセス、 ユーザーの操 作によるアクセス、 外部機器からの呼によるアクセスの何れかによりネットヮー クにアクセスするようにしてもよい。
また上述の実施の形態においては、 電話回線によりネットワークに接続する場 合について述べたが、 本発明はこれに限らず、 モデム、 パーソナルコンピュータ 等の他の機器を介してネットワークに接続する場合にも広く適用することができ る。
さらに上述の実施の形態においては、 認識データ、 パターンデータ、 音声デー タ、 画像データのダウンロードによりいわゆる電子ぺットを学習させる場合につ いて述べたが、 本発明はこれに限らず、 必要に応じてこれらの何れかのデータの ダウンロードにより学習させるようにしてもよい。 また音声認識処理の手法、 音 声データの生成手法、 画像データの生成手法である制御プログラム自体のダウン ロードによりこれらの生成手法自体変更するようにしてもよく、 さらには感情デ ータの生成手法、 応答文作成部の処理等についても変更するようにしてもよい。 また上述の実施の形態においては、 電子ぺットを外部の機器に連れ出すにっき 、 体調データ、 感情データ、 対話履歴を送出する場合について述べたが、 本発明 はこれに限らず、 必要に応じてこれらの何れかのデータの送出によりこの処理を 実行してよく、 さらにはこれらのデータに加えて例えば知識等を送出するように してもよい。 またこのようなデータの送出に代えて、 外部機器かちの音声認識結 果の入力に対して応答を送出するようにしてもよい。
また上述の実施の形態においては、 外部機器の電子ぺットをこの電子ぺット装 置 1に連れ出すにっき、 各種データを入力する場合について述べたが、 本発明は これに限らず、 上述した各種データの何れかのデータの受信によりこの処理を実 行してもよく、 さらにはこれらのデータに加えて例えば知識等を受信してこれら の処理を実行してもよい。 またこのようなデータを受信した内部処理に代えて、 外部機器に対して音声認識結果を出力し、 外部機器より応答を入力するようにし てもよい。
また上述の実施の形態においては、 音声を音韻列により判定して音声認識する 場合について述べたが、 本発明はこれに限らず、 必要に応じて種々の音声認識手 法を広く適用することができる。
また上述の実施の形態においては、 単語と共に属性についても音声入力により 発録する場合について述べたが、 本発明はこれに限らず、 属性については操作子 の操作により選択入力するようにしてもよい。 この場合ユーザーにメニューの選 択を促す方法等が考えられる。
また上述の実施の形態においては、 音声入力により登録した認証データについ ては、 音韻列により音声を表記したテキストデータにより音声認識結果を出力し 、 一般の音声認識結果については、 通常のテキストデータを出力する場合につい て述べたが、 本発明はこれに限らず、 一般の音声認識結果においても、 音韻列に より音声認識結果を表示するようにしてもよい。
また上述の実施の形態においては、 ユーザー名、 ユーザーの嗜好によりユーザ 一認証する場合について述べたが、 本発明はこれに限らず、 例えば合言葉、 過去 に会話を交わした日時等を確認してユーザー認証する場合等、 過去の音声認識結 果によりユーザ一認証する場合に広く適用することができる。
また上述の実施の形態においては、 ユーザーが特定の文言を発声した場合と、 一定の周期でユーザー認証する場合について述べたが、 本発明はこれに限らず、 必要に応じてこれら何れかによりユーザー認証するようにしてもよレ、。
また上述の実施の形態においては、 音韻列による音声認識処理において、 特定 の単語の発声を確認してユーザー認証する場合について述べたが、 本発明はこれ に限らず、 例えば音声の高低、 周波数スぺク トラム等、 音声の特徴を示す種々の 特徴量によりユーザー認証して上述の実施の形態と同様の効果を得ることができ る。
また上述の実施の形態においては、 電子ぺッ卜の応答を例えば飼い主とそれ以 外の者とで異ならせる場合について述べたが、 本発明はこれに限らず、 さらに詳 細に音声入力者を識別して、 例えば家族と家族以外で応答を異ならせるようにし てもよく、 さらには家族の個人でも応答を異ならせても良い。
また上述の実施の形態においては、 入力の種類と応答の分類とにより、 単純に 問いに対しては問いを返さないようにする場合について述べたが、 本発明はこれ に限らず、 例えば感情によっては問いに対して問いを返すようにしてもよい。 こ の場合、 電子ペットがひねくれている状況が形成される。
また上述の実施の形態においては、 感情の制御において、 性格データを操作す る場合について述べたが、 本発明はこれに限らず性格データの操作に代えて直接 感情データを操作するようにしても良い。
また上述の実施の形態においては、 音声データ、 画像データを出力する場合に ついて述べたが、 本発明はこれに限らず、 音声合成、 画像合成により音声、 画像 を出力するようにしてもよレ、。
また上述の実施の形態においては、 中央処理ュニットの処理により音声認識処 理、 画像合成処理する場合について述べたが、 本発明はこれに限らず、 図 3との 対比により図 2 8に示すように、 音声認識処理、 画像合成処理を専用の処理回路 により構成してもよい。
また上述の実施の形態においては、 応答として音声及び画像を出力する電子べ ット装置に本発明を適用する場合について述べたが、 本発明はこれに限らず、 例 えば動物の動作をするロボットに適用して鳴き声と動作により応答を出力する電 子ぺット装置等、 種々の形態により応答を出力する電子ぺット装置に広く適用す ることができる。
また上述の実施の形態においては、 電子ぺッ卜の専用装置である電子ぺット装 置に本発明を適用する場合について述べたが、 本発明はこれに限らず、 図 2との 対比により図 2 8に示すように、 携帯電話に適用してもよく、 さらには G P S、 携帯型のテープレコーダ、 光ディスク装置等、 種々の携帯機器に広く適用するこ とができる。 また携帯機器に限らず、 例えばパーソナルコンピュータ等の情報処 理装置、 さらにはこのパーソナルコンピュータ上で動作する各種キャラクタ一等 に適用することができる。 産業上の利用可能性
本発明は、 エンターテイメントロボッ 卜に利用することができる。

Claims

on 求 の 範 囲
1 . ユーザーの音声を入力する音声入力手段と、
所定の認識ルールに従って上記音声入力手段より入力した上記音声を音声認識 処理して音声認識結果を出力する音声認識手段と、
所定の感情パラメータ生成ルールに従って、 少なく とも上記音声認識結果と時 間経過とにより変化する、 擬似的に感情を示す感情パラメータを生成する感情生 成手段と、
少なく とも上記感情パラメータを基準にした所定の応答生成ルールに従って、 上記音声認識結果に対応する応答を生成する応答生成手段と、
上記応答を出力する応答出力手段とを具え、
所定のネットワークに接続して、 上記認識ルール、 上記感情パラメータ生成ル ール又は上記応答生成ルールの更新処理を実行する通信手段、 又は上記認識ルー ル、 上記感情パラメータ生成ルール又は上記応答生成ルールに必要なデータの更 新処理を実行する通信手段を有する
ことを特徴とする情報処理装置。
2 . 上記通信手段は、
定期的に上記ネッ トワークに接続して上記更新処理を実行する
ことを特徴とする請求の範囲第 1項に記載の情報処理装置。
3 . 交換可能な記憶媒体を介して、 少なく とも上記感情パラメータ、 又は上記感 情パラメータの生成に必要なデータとを更新できるようにした
ことを特徴とする請求の範囲第 1項に記載の情報処理装置。
4 . ユーザーの音声を入力する音声入力手段と、
所定の認識ルールに従って上記音声入力手段より入力した上記音声を音声認識 処理して音声認識結果を出力する音声認識手段と、
所定の感情パラメータ生成ルールに従って、 少なくとも上記音声認識結果と時 間経過とにより変化する、 擬似的に感情を示す感情パラメータを生成する感情生 成手段と、
少なくとも上記感情パラメータを基準にした所定の応答生成ルールに従って、 上記音声認識結果に対応する応答を生成する応答生成手段と、
上記応答を出力する応答出力手段とを具え、
所定のネットワークに接続して、 少なくとも上記感情パラメータ又は上記感情 パラメータの生成に必要なデータを取得する通信手段を有し、
上記応答生成手段は、
上記通信手段により取得した上記感情パラメータによる応答、 又は上記通信手 段により取得した上記データより生成した上記感情パラメータによる応答を出力 する
ことを特徴とする情報処理装置。
5 . 交換可能な記憶媒体を介して、 少なく とも上記感情パラメータ又は上記感情 パラメータの生成に必要なデータを交換できるようにした
ことを特徴とする請求の範囲第 4項に記載の情報処理装置。
6 . ユーザーの音声を入力する音声入力手段と、
所定の認識ルールに従って上記音声入力手段より入力した上記音声を音声認識 処理して音声認識結果を出力する音声認識手段と、
所定の感情パラメータ生成ルールに従って、 少なくとも上記音声認識結果と時 間経過とにより変化する、 擬似的に感情を示す感情パラメータを生成する感情生 成手段と、
少なくとも上記感情パラメータを基準にした所定の応答生成ルールに従って、 上記音声認識結果に対応する応答を生成する応答生成手段と、 上記応答を出力する応答出力手段とを具え、
所定のネットワークに接続して、 上記認識ルール、 上記感情パラメータ生成ル ール又は上記応答生! ¾ルールの更新処理を実行する通信手段、 又は上記認識ルー ル、 上記感情パラメータ生成ルール又は上記応答生成ルールに必要なデータの更 新処理を実行する通信手段を有する
ことを特徴とする携帯機器。
7 . 上記通信手段は、
定期的に上記ネットワークに接続して上記更新処理を実行する
ことを特徴とする請求の範囲第 6項に記載の携帯機器。
8 . 交換可能な記憶媒体を介して、 少なくとも上記感情パラメータ又は上記感情 パラメータの生成に必要なデータを交換できるようにした
ことを特徴とする請求の範囲第 6項に記載の携帯機器。
9 . ユーザーの音声を入力する音声入力手段と、
所定の認識ルールに従って上記音声入力手段より入力した上記音声を音声認識 処理して音声認識結果を出力する音声認識手段と、
所定の感情パラメータ生成ルールに従って、 少なくとも上記音声認識結果と時 間経過とにより変化する、 擬似的に感情を示す感情パラメ一タを生成する感情生 成手段と、
少なくとも上記感情パラメータを基準にした所定の応答生成ルールに従って、 上記音声認識結果に対応する応答を生成する応答生成手段と、
上記応答を出力する応答出力手段とを具え、
所定のネットワークに接続して、 少なくとも上記感情パラメ一タ又は上記感情 パラメータの生成に必要なデータを取得する通信手段を有し、
上記応答生成手段は、 上記通信手段により取得した上記感情パラメータによる応答、 又は上記通信手 段により取得した上記データより生成した上記感情パラメ一タによる応答を出力 する
ことを特徴とする携帯機器。
1 0 . 交換可能な記憶媒体を介して、 少なく とも上記感情パラメータ又は上記感 情パラメータの生成に必要なデータを交換できるようにした
ことを特徴とする請求の範囲第 9項に記載の携帯機器。
1 1 . ユーザーの音声を入力する音声入力手段と、
所定の認識ルールに従って上記音声入力手段より入力した上記音声を音声認識 処理して音声認識結果を出力する音声認識手段と、
所定の感情パラメータ生成ルールに従って、 少なくとも上記音声認識結果と時 間経過とにより変化する、 擬似的に感情を示す感情パラメータを生成する感情生 成手段と、
少なくとも上記感情パラメ一タを基準にした所定の応答生成ルールに従って、 上記音声認識結果に対応する応答を生成する応答生成手段と、
上記応答を出力する応答出力手段とを具え、
所定のネッ トワークに接続して、 上記認識ルール、 上記感情パラメータ生成ル ール又は上記応答生成ルールの更新処理を実行する通信手段、 又は上記認識ルー ル、 上記感情パラメータ生成ルール又は上記応答生成ルールに必要なデータの更 新処理を実行する通信手段を有する
ことを特徴とする電子ぺット装置。
1 2 . 上記通信手段は、
定期的に上記ネッ トワークに接続して上記更新処理を実行する
ことを特徴とする請求の範囲第 1 1項に記載の電子ぺッ ト装置。
1 3 . 交換可能な記憶媒体を介して、 少なくとも上記感情パラメータ又は上記感 情パラメータの生成に必要なデータとを交換できるようにした
ことを特徴とする請求の範囲第 1 1項に記載の電子ぺット装置。
1 4 . ユーザーの音声を入力する音声入力手段と、
所定の認識ルールに従って上記音声入力手段より入力した上記音声を音声認識 処理して音声認識結果を出力する音声認識手段と、
所定の感情パラメータ生成ルールに従って、 少なくとも上記音声認識結果と時 間経過とにより変化する、 擬似的に感情を示す感情パラメータを生成する感情生 成手段と、
少なくとも上記感情パラメ一タを基準にした所定の応答生成ルールに従って、 上記音声認識結果に対応する応答を生成する応答生成手段と、
上記応答を出力する応答出力手段とを具え、
所定のネットワークに接続して、 少なくとも上記感情パラメータ又は上記感情 パラメータの生成に必要なデータを取得する通信手段を有し、
上記応答生成手段は、
上記通信手段により取得した上記感情パラメ一タによる応答、 又は上記通信手 段により取得した上記データより生成した上記感情パラメータによる応答を出力 する
ことを特徴とする電子ぺット装置。
1 5 . 交換可能な記憶媒体を介して、 少なく とも上記感情パラメータ又は上記感 情パラメータの生成に必要なデータを交換できるようにした
ことを特徴とする請求の範囲第 1 4項に記載の電子ぺッ ト装置。
1 6 . ユーザーの音声を入力する音声入力処理と、
所定の認識ルールに従って上記音声入力処理で取得された上記音声を音声認識 処理して音声認識結果を出力する音声認識処理と、
所定の感情パラメータ生成ルールに従って、 少なくとも上記音声認識結果と時 間経過とにより変化する、 擬似的に感情を示す感情パラメータを生成する感情生 成処理と、
少なくとも上記感情パラメータを基準にした所定の応答生成ルールに従って、 上記音声認識結果に対応する応答を生成する応答生成処理と、
上記応答を出力する応答出力処理と、
所定のネットワークに接続して、 上記認識ルール、 上記感情パラメータ生成ル ール又は上記応答生成ルールの更新処理を実行する通信処理、 又は上記認識ルー ル、 上記感情パラメ一タ生成ルール又は上記応答生成ルールに必要なデータの更 新処理を実行する通信処理とが記録された
ことを特徴とする情報処理手順を記録した記録媒体。
1 7 . 上記通信処理は、
定期的に上記ネッ トワークに接続して上記更新処理を実行する
ことを特徴とする請求の範囲第 1 6項に記載の情報処理手順を記録した記録媒 体。
1 8 . ユーザーの音声を入力する音声入力処理と、
所定の認識ルールに従って上記音声入力処理より入力した上記音声を音声認識 処理して音声認識結果を出力する音声認識処理と、
所定の感情パラメータ生成ルールに従って、 少なくとも上記音声認識結果と時 間経過とにより変化する、 擬似的に感情を示す感情パラメータを生成する感情生 成処理と、
少なくとも上記感情パラメ一タを基準にした所定の応答生成ルールに従って、 上記音声認識結果に対応する応答を生成する応答生成処理と、
上記応答を出力する応答出力処理と、 所定のネットワークに接続して、 少なくとも上記感情パラメータ又は上記感情 パラメータの生成に必要なデータを取得する通信処理とが記録され、
上記応答生成処理が、
上記通信処理により取得した上記感情パラメ一タによる応答、 又は上記通信処 理により取得した上記データより生成した上記感情パラメータによる応答を出力 する処理である
ことを特徴とする情報処理手順を記録した記録媒体。
1 9 . ユーザーの音声を入力する音声入力処理と、
所定の認識ルールに従って上記音声入力処理より入力した上記音声を音声認識 処理して音声認識結果を出力する音声認識処理と、
所定の感情パラメータ生成ルールに従って、 少なくとも上記音声認識結果と時 間経過とにより変化する、 擬似的に感情を示す感情パラメ一タを生成する感情生 成処理と、
少なく とも上記感情パラメータを基準にした所定の応答生成ルールに従って、 上記音声認識結果に対応する応答を生成する応答生成処理と、
上記応答を出力する応答出力処理と、
所定のネットワークに接続して、 上記認識ルール、 上記感情パラメータ生成ル —ル又は上記応答生成ルールの更新処理を実行する通信処理、 又は上記認識ルー ル、 上記感情パラメータ生成ルール又は上記応答生成ルールに必要なデータの更 新処理を実行する通信処理とを有する
ことを特徴とする情報処理方法。
2 0 . 上記通信処理は、
定期的に上記ネッ トワークに接続して上記更新処理を実行する
ことを特徴とする請求の範囲第 1 9項に記載の情報処理方法。
2 1 . ユーザーの音声を入力する音声入力処理と、
所定の認識ルールに従って上記音声入力処理より入力した上記音声を音声認識 処理して音声認識結果を出力する音声認識処理と、
所定の感情パラメータ生成ルールに従って、 少なくとも上記音声認識結果と時 間経過とにより変化する、 擬似的に感情を示す感情パラメータを生成する感情生 成処理と、
少なくとも上記感情パラメータを基準にした所定の応答生成ルールに従って、 上記音声認識結果に対応する応答を生成する応答生成処理と、
上記応答を出力する応答出力処理と、
所定のネットワークに接続して、 少なくとも上記感情パラメータ又は上記感情 パラメータの生成に必要なデータを取得する通信処理とを有し、
上記応答生成処理が、
上記通信処理により取得した上記感情パラメ一タによる応答、 又は上記通信処 理により取得した上記データより生成した上記感情パラメータによる応答を出力 する処理である
ことを特徴とする情報処理方法。
2 2 . ユーザーの音声を入力する音声入力手段と、
上記音声入力手段より入力した音声を音声認識処理して音声認識結果を出力す る音声認識手段と、
上記音声に含まれる単語の上記音声認識結果と、 対応する単語の分類とを保持 する音声認識結果のデータべ一スと、
上記音声認識結果を基準にして上記データベースを検索し、 上記音声認識結果 の音声に含まれる単語の分類に従って、 上記音声認識結果に対応する応答を生成 する応答生成手段と、
上記応答を出力する応答出力手段と、
登録の動作モードにおいて、 上記音声認識結果に基づいて、 少なくとも上記デ ータベースに上記単語の音声認識結果を登録することにより、 音声により上記デ ータベースを変更可能な登録手段と
を具えることを特徴とする情報処理装置。
2 3 . 上記音声入力手段は、
音韻列により上記音声を識別して上記音声認識結果を出力し、
上記データベースは、
上記音声の音韻列による音声認識結果に従って上記単語の音声認識結果と上記 分類とを記録する
ことを特徴とする請求の範囲第 2 2項に記載の情報処理装置。
2 4 . 上記音声認識手段は、
上記音声を変換したテキストデータにより上記音声認識結果を出力する ことを特徴とする請求の範囲第 2 2項に記載の情報処理装置。
2 5 . 上記音声認識手段は、
上記登録の動作モードにおいて、 所定の区切りに従って上記音声を区切って音 声認識処理する
ことを特徴とする請求の範囲第 2 2項に記載の情報処理装置。
2 6 . 所定の擬似感情パラメータ生成ルールに従って、 少なくとも上記音声認識 結果と時間経過とにより変化する、 擬似的に感情を示す擬似感情パラメ一タを生 成する感情生成手段を有し、
上記応答生成手段は、
少なくとも上記擬似感情パラメータを基準にした所定の応答生成ルールに従つ て、 上記音声認識結果に対応する応答を生成する
ことを特徴とする請求の範囲第 2 2項に記載の情報処理装置。
2 7 . 交換可能な記憶媒体を介して、 少なくとも上記擬似感情パラメータ又は上 記擬似感情パラメータの生成に必要なデータを交換できるようにした
ことを特徴とする請求の範囲第 2 2項に記載の情報処理装置。
2 8 . ユーザーの音声を入力する音声入力手段と、
上記音声入力手段より入力した音声を音声認識処理して音声認識結果を出力す る音声認識手段と、
上記音声に含まれる単語の上記音声認識結果と、 対応する単語の分類とを保持 する音声認識結果のデータベースと、
上記音声認識結果を基準にして上記データベースを検索し、 上記音声認識結果 の音声に含まれる単語の分類に従って、 上記音声認識結果に対応する応答を生成 する応答生成手段と、
上記応答を出力する応答出力手段と、
登録の動作モードにおいて、 上記音声認識結果に基づいて、 少なくとも上記デ ータベースに上記単語の音声認識結果を登録することにより、 音声により上記デ ータベースを変更可能な登録手段と
を具えることを特徴とする携帯機器。
2 9 . 上記音声入力手段は、
音韻列により上記音声を識別して上記音声認識結果を出力し、
上記データベースは、
上記音声の音韻列による音声認識結果に従って上記単語の音声認識結果と上記 分類とを記録する
ことを特徴とする請求の範囲第 2 8項に記載の携帯機器。
3 0 . 上記音声認識手段は、
上記音声を変換したテキストデータにより上記音声認識結果を出力する ことを特徴とする請求の範囲第 2 8項に記載の携帯機器。
3 1 . 上記音声認識手段は、
上記登録の動作モ一ドにおいて、 所定の区切りに従って上記音声を区切って音 声認識処理する
ことを特徴とする請求の範囲第 2 8項に記載の携帯機器。
3 2 . 所定の擬似感情パラメータ生成ルールに従って、 少なくとも上記音声認識 結果と時間経過とにより変化する、 擬似的に感情を示す擬似感情パラメータを生 成する感情生成手段を有し、
上記応答生成手段は、
少なく とも上記擬似感情パラメータを基準にした所定の応答生成ルールに従つ て、 上記音声認識結果に対応する応答を生成する
ことを特徴とする請求の範囲第 2 8項に記載の携帯機器。
3 3 . 交換可能な記憶媒体を介して、 少なく とも上記擬似感情パラメータ又は上 記擬似感情パラメータの生成に必要なデータを交換できるようにした
ことを特徴とする請求の範囲第 2 8項に記載の携帯機器。
3 4 . ユーザーの音声を入力する音声入力手段と、
上記音声入力手段より入力した音声を音声認識処理して音声認識結果を出力す る音声認識手段と、
上記音声に含まれる単語の上記音声認識結果と、 対応する単語の分類とを保持 する音声認識結果のデータベースと、
上記音声認識結果を基準にして上記デ一タベースを検索し、 上記音声認識結果 の音声に含まれる単語の分類に従って、 上記音声認識結果に対応する応答を生成 する応答生成手段と、 上記応答を出力する応答出力手段と、
登録の動作モードにおいて、 上記音声認識結果に基づいて、 少なくとも上記デ —タベースに上記単語の音声認識結果を登録することにより、 音声により上記デ —タベースを変更可能な登録手段と
を具えることを特徴とする電子ぺッ ト装置。
3 5 . 上記音声入力手段は、
音韻列により上記音声を識別して上記音声認識結果を出力し、
上記データベースは、
上記音声の音韻列による音声認識結果に従つて上記単語の音声認識結果と上記 分類とを記録する
ことを特徴とする請求の範囲第 3 4項に記載の電子ぺッ ト装置。
3 6 . 上記音声認識手段は、
上記音声を変換したテキストデータにより上記音声認識結果を出力する ことを特徴とする請求の範囲第 3 4項に記載の電子ぺッ ト装置。
3 7 . 上記音声認識手段は、
上記登録の動作モードにおいて、 所定の区切りに従って上記音声を区切って音 声認識処理する
ことを特徴とする請求の範囲第 3 4項に記載の電子ぺッ ト装置。
3 8 . 所定の擬似感情パラメ一タ生成ルールに従って、 少なく とも上記音声認識 結果と時間経過とにより変化する、 擬似的に感情を示す擬似感情パラメ一タを生 成する感情生成手段を有し、
上記応答生成手段は、
少なく とも上記擬似感情パラメータを基準にした所定の応答生成ルールに従つ て、 上記音声認識結果に対応する応答を生成する
ことを特徴とする請求の範囲第 3 4項に記載の電子ぺッ ト装置。
3 9 . 交換可能な記憶媒体を介して、 少なくとも上記擬似感情パラメータ又は上 記擬似感情パラメータの生成に必要なデータを交換できるようにした
ことを特徴とする請求の範囲第 3 4項に記載の電子ぺッ ト装置。
4 0 . ユーザーの音声を入力する音声入力処理と、
上記音声入力処理より入力した音声を音声認識処理して音声認識結果を出力す る音声認識処理と、
上記音声認識結果を基準にして上記音声に含まれる単語の上記音声認識結果と 、 対応する単語の分類とを保持する音声認識結果のデータベースを検索し、 上記 音声認識結果の音声に含まれる単語の分類に従って、 上記音声認識結果に対応す る応答を生成する応答生成処理と、
上記応答を出力する応答出力処理と、
登録の動作モードにおいて、 上記音声認識結果に基づいて、 少なくとも上記デ ータベースに上記単語の音声認識結果を登録することにより、 音声により上記デ ータベースを変更可能な登録処理とを記録した
ことを特徴とする情報処理手順を記録した記録媒体。
4 1 . 上記音声入力処理は、
音韻列により上記音声を識別して上記音声認識結果を出力し、
上記データベースは、
上記音声の音韻列による音声認識結果に従って上記単語の音声認識結果と上記 分類とを記録して形成された
ことを特徴とする請求の範囲第 4 0項に記載の情報処理手順を記録した記録媒 体。
4 2 . 上記音声認識処理は、
上記音声を変換したテキストデータにより上記音声認識結果を出力する ことを特徴とする請求の範囲第 4 0項に記載の情報処理手順を記録した記録媒 体。
4 3 . 上記音声認識処理は、
上記登録の動作モードにおいて、 所定の区切りに従って上記音声を区切って音 声認識処理する
ことを特徴とする請求の範囲第 4 0項に記載の情報処理手順を記録した記録媒 体。
4 4 . 所定の擬似感情パラメータ生成ルールに従って、 少なく とも上記音声認識 結果と時間経過とにより変化する、 擬似的に感情を示す擬似感情パラメ一タを生 成する感情生成処理が記録され、
上記応答生成処理は、
少なくとも上記擬似感情パラメータを基準にした所定の応答生成ルールに従つ て、 上記音声認識結果に対応する応答を生成する
ことを特徴とする請求の範囲第 4 0項に記載の情報処理手順を記録した記録媒 体。
4 5 . ユーザーの音声を入力する音声入力処理と、
上記音声入力処理より入力した音声を音声認識処理して音声認識結果を出力す る音声認識処理と、
上記音声認識結果を基準にして、 上記音声に含まれる単語の上記音声認識結果 と、 対応する単語の分類とを保持する音声認識結果のデータベースを検索し、 上 記音声認識結果の音声に含まれる単語の分類に従って、 上記音声認識結果に対応 する応答を生成する応答生成処理と、 上記応答を出力する応答出力処理と、
登録の動作モードにおいて、 上記音声認識結果に基づいて、 少なくとも上記デ ータベースに上記単語の音声認識結果を登録することにより、 音声により上記デ ータベースを変更可能な登録処理とを有する
ことを特徴とする情報処理方法。
4 6 . 上記音声入力処理は、
上記音韻列により上記音声を識別して上記音声認識結果を出力し、
上記データベースは、
上記音声の音韻列による音声認識結果に従つて上記単語の音声認識結果と上記 分類とを記録して形成される
ことを特徴とする請求の範囲第 4 5項に記載の情報処理方法。
4 7 . 上記音声認識処理は、
上記音声を変換したテキストデータにより上記音声認識結果を出力する ことを特徴とする請求の範囲第 4 5項に記載の情報処理方法。
4 8 . 上記音声認識処理は、
上記登録の動作モードにおいて、 所定の区切りに従って上記音声を区切って音 声認識処理する
ことを特徴とする請求の範囲第 4 5項に記載の情報処理方法。
4 9 . 所定の擬似感情パラメータ生成ルールに従って、 少なくとも上記音声認識 結果と時間経過とにより変化する、 擬似的に感情を示す擬似感情パラメ一タを生 成する感情生成処理を有し、
上記応答生成処理は、
少なく とも上記擬似感情パラメータを基準にした所定の応答生成ルールに従つ て、 上記音声認識結果に対応する応答を生成する
ことを特徴とする請求の範囲第 4 5項に記載の情報処理方法。
5 0 . ユーザーの音声を入力する音声入力手段と、
上記音声入力手段をより入力した音声を音声認識処理して音声認識結果を出力 する音声認識手段と、
所定の応答生成ルールに従って、 上記音声認識結果に対応する応答を生成する 応答生成手段と、
上記応答を出力する応答出力手段と、
上記音声に基づいて、 上記ユーザーを認証するユーザー認証手段とを具え、 上記応答生成手段は、
上記ユーザ一認証手段の認証結果に基づいて、 音声入力者に応じて上記応答を 異ならせる
ことを特徴とする情報処理装置。
5 1 . 上記ユーザー認証手段は、
過去の音声認識結果を基準にして上記音声認識結果を判定することにより、 上 記音声に基づいて上記ユーザ一を認証する
ことを特徴とする請求の範囲第 5 0項に記載の情報処理装置。
5 2 . 上記応答生成手段は、
過去の音声認識結果に対応する質問を上記応答として出力し、
上記ユーザ一認証手段は、
該質問の応答に対する音声認識結果を判定してユーザーを認証する
ことを特徴とする請求の範囲第 5 1項に記載の情報処理装置。
5 3 . 上記過去の音声認識結果が所定の単語である ことを特徴とする請求の範囲第 5 1項に記載の情報処理装置。
5 4 . 上記ユーザー認証手段は、
上記音声認識結果より上記音声の特徴を示す特徴量を検出し、 上記特徴量に基 づいて上記ユーザーを認証することにより、 上記音声に基づいて上記ユーザーを 認証する
ことを特徴とする請求の範囲第 5 0項に記載の情報処理装置。
5 5 . 所定の擬似感情パラメータ生成ルールに従って、 少なく とも上記音声認識 結果と時間経過とにより変化する、 擬似的に感情を示す擬似感情パラメータを生 成する感情生成手段を有し、
上記応答生成手段は、
少なく とも上記擬似感情パラメータを基準にして上記応答生成ルールに従って 、 上記音声認識結果に対応する応答を生成する
ことを特徴とする請求の範囲第 5 0項に記載の情報処理装置。
5 6 . ユーザーの音声を入力する音声入力手段と、
上記音声入力手段より入力した音声を音声認識処理して音声認識結果を出力す る音声認識手段と、
所定の応答生成ルールに従って、 上記音声認識結果に対応する応答を生成する 応答生成手段と、
上記応答を出力する応答出力手段と、
上記音声に基づいて、 上記ユーザ一を認証するユーザ一認証手段とを具え、 上記応答生成手段は、
上記ユーザ一認証手段の認証結果に基づいて、 音声入力者に応じて上記応答を 異ならせる
ことを特徴とする携帯機器。
5 7 . 上記ユーザ一認証手段は、
過去の音声認識結果を基準にして上記音声認識結果を判定することにより、 上 記音声に基づいて上記ユーザーを認証する
ことを特徴とする請求の範囲第 5 6項に記載の携帯機器。
5 8 . 上記応答生成手段は、
過去の音声認識結果に対応する質問を上記応答として出力し、
上記ユーザー認証手段は、
該質問の応答に対する音声認識結果を判定してユーザーを認証する
ことを特徴とする請求の範囲第 5 7項に記載の携帯機器。
5 9 . 上記過去の音声認識結果が所定の単語である
ことを特徴とする請求の範囲第 5 7項に記載の携帯機器。
6 0 . 上記ユーザー認証手段は、
上記音声認識結果より上記音声の特徴を示す特徴量を検出し、 上記特徴量に基 づいて上記ユーザーを認証することにより、 上記音声に基づいて上記ユーザ一を 認証する
ことを特徴とする請求の範囲第 5 6項に記載の携帯機器。
6 1 . 所定の擬似感情パラメータ生成ルールに従って、 少なくとも上記音声認識 結果と時間経過とにより変化する、 擬似的に感情を示す擬似感情パラメータを生 成する感情生成手段を有し、
上記応答生成手段は、
少なく とも上記擬似感情パラメ一タを基準にして上記応答生成ルールに従って 、 上記音声認識結果に対応する応答を生成する
ことを特徴とする請求の範囲第 5 6項に記載の携帯機器。
6 2 . ユーザーの音声を入力する音声入力手段と、
上記音声入力手段より入力した音声を音声認識処理して音声認識結果を出力す る音声認識手段と、
所定の応答生成ルールに従って、 上記音声認識結果に対応する応答を生成する 応答生成手段と、
上記応答を出力する応答出力手段と、
上記音声に基づいて、 上記ユーザーを認証するユーザー認証手段とを具え、 上記応答生成手段は、
上記ユーザー認証手段の認証結果に基づいて、 音声入力者に応じて上記応答を 異ならせる
ことを特徴とする電子ぺッ ト装置。
6 3 . 上記ユーザ一認証手段は、
過去の音声認識結果を基準にして上記音声認識結果を判定することにより、 上 記音声に基づいて上記ユーザーを認証する
ことを特徴とする請求の範囲第 6 2項に記載の電子ぺッ ト装置。
6 4 . 上記応答生成手段は、
過去の音声認識結果に対応する質問を上記応答として出力し、
上記ユーザ一認証手段は、
該質問の応答に対する音声認識結果を判定してユーザ一を認証する
ことを特徴とする請求の範囲第 6 3項に記載の電子ぺッ ト装置。
6 5 . 上記過去の音声認識結果が所定の単語である
ことを特徴とする請求の範囲第 6 3項に記載の電子ぺッ ト装置。
6 6 . 上記ユーザー認証手段は、 上記音声認識結果より上記音声の特徴を示す特徴量を検出し、 上記特徴量に基 づいて上記ユーザーを認証することにより、 上記音声に基づいて上記ユーザーを 認証する
ことを特徴とする請求の範囲第 6 2項に記載の電子ぺット装置。
6 7 . 所定の擬似感情パラメータ生成ルールに従って、 少なく とも上記音声認識 結果と時間経過とにより変化する、 擬似的に感情を示す擬似感情パラメ一タを生 成する感情生成手段を有し、
上記応答生成手段は、
少なく とも上記擬似感情パラメータを基準にして上記応答生成ルールに従って 、 上記音声認識結果に対応する応答を生成する
ことを特徴とする請求の範囲第 6 2項に記載の電子ぺッ ト装置。
6 8 . ユーザーの音声を入力する音声入力処理と、
上記音声入力処理より入力した音声を音声認識処理して音声認識結果を出力す る音声認識処理と、
所定の応答生成ルールに従って、 上記音声認識結果に対応する応答を生成する 応答生成処理と、
上記応答を出力する応答出力処理と、
上記音声に基づいて、 上記ユーザーを認証するユーザ一認証処理とが記録され 上記応答生成処理は、
上記ユーザー認証処理の認証結果に基づいて、 音声入力者に応じて上記応答を 異ならせる
ことを特徴とする情報処理手順を記録した記録媒体。
6 9 . 上記ユーザー認証処理は、 過去の音声認識結果を基準にして上記音声認識結果を判定することにより、 上 記音声に基づいて上記ユーザーを認証する
ことを特徴とする請求の範囲第 6 8項に記載の情報処理手順を記録した記録媒 体。
7 0 . 上記応答生成処理は、
過去の音声認識結果に対応する質問を上記応答として出力し、
上記ユーザ一認証処理は、
該質問の応答に対する音声認識結果を判定してユーザ一を認証する処理である ことを特徴とする請求の範囲第 6 9項に記載の情報処理手順を記録した記録媒体
7 1 . 上記過去の音声認識結果が所定の単語である
ことを特徴とする請求の範囲第 6 9項に記載の情報処理手順を記録した記録媒 体。
7 2 . 上記ユーザー認証処理は、
上記音声認識結果より上記音声の特徴を示す特徴量を検出し、 上記特徴量に基 づいて上記ユーザーを認証することにより、 上記音声に基づいて上記ユーザーを 認証する
ことを特徴とする請求の範囲第 6 8項に記載の情報処理手順を記録した記録媒 体。
7 3 . 所定の擬似感情パラメータ生成ルールに従って、 少なく とも上記音声認識 結果と時間経過とにより変化する、 擬似的に感情を示す擬似感情パラメータを生 成する感情生成処理が記録され、
上記応答生成処理は、 少なく とも上記擬似感情パラメータを基準にして上記応答生成ルールに従って 、 上記音声認識結果に対応する応答を生成する
ことを特徴とする請求の範囲第 6 8項に記載の情報処理手順を記録した記録媒 体。
7 4 . ユーザーの音声を入力する音声入力処理と、
上記音声入力処理より入力した音声を音声認識処理して音声認識結果を出力す る音声認識処理と、
所定の応答生成ルールに従って、 上記音声認識結果に対応する応答を生成する 応答生成処理と、
上記応答を出力する応答出力処理と、
上記音声に基づいて、 上記ユーザーを認証するユーザー認証処理とを有し、 上記応答生成処理は、
上記ユーザー認証処理の認証結果に基づいて、 音声入力者に応じて上記応答を 異ならせる
ことを特徴とする情報処理方法。
7 5 . 上記ユーザー認証処理は、
過去の音声認識結果を基準にして上記音声認識結果を判定することにより、 上 記音声に基づいて上記ユーザーを認証する
ことを特徴とする請求の範囲第 7 4項に記載の情報処理方法。
7 6 . 上記応答生成処理は、
過去の音声認識結果に対応する質問を上記応答として出力し、
上記ユーザ一認証処理は、
該質問の応答に対する音声認識結果を判定してュ一ザ一を認証する
ことを特徴とする請求の範囲第 7 5項に記載の情報処理方法。
7 7 . 上記過去の音声認識結果が所定の単語である
ことを特徴とする請求の範囲第 7 5項に記載の情報処理方法。
7 8 . 上記ユーザー認証処理は、
上記音声認識結果より上記音声の特徴を示す特徴量を検出し、 上記特徴量に基 づいて上記ユーザーを認証することにより、 上記音声に基づいて上記ユーザーを 認証する
ことを特徴とする請求の範囲第 7 4項に記載の情報処理方法。
7 9 . 所定の擬似感情パラメータ生成ルールに従って、 少なくとも上記音声認識 結果と時間経過とにより変化する、 擬似的に感情を示す擬似感情パラメータを生 成する感情生成処理が記録され、
上記応答生成処理は、
少なく とも上記擬似感情パラメータを基準にして上記応答生成ルールに従って 、 上記音声認識結果に対応する応答を生成する
ことを特徴とする請求の範囲第 7 4項に記載の情報処理方法。
8 0 . ユーザーの音声を入力する音声入力手段と、
上記音声入力手段より入力した音声を音声認識処理して音声認識結果を出力す る音声認識手段と、
所定の応答生成ルールに従って、 上記音声認識結果に対応する応答を生成する 応答生成手段と、
上記応答を出力する応答出力手段と、
上記音声に基づいて、 上記音声による入力の種類を識別する発話分類手段とを 具え、
上記応答生成ルールが、
上記入力の種類に応じて、 上記入力の種類に対応する応答の分類に従って、 所 定の種類の応答を除く応答を生成するルールである
ことを特徴とする情報処理装置。
8 1 . 少なく とも上記音声による入力の種類と、 上記応答生成手段により生成さ れた上記応答の分類とによる履歴を記録する履歴記録手段を有し、
上記応答出力手段は、
上記履歴記録手段に記録された履歴を参照して上記応答を生成する
ことを特徴とする請求の範囲第 8 0項に記載の情報処理装置。
8 2 . 所定の擬似感情パラメータ生成ルールに従って、 少なく とも上記音声認識 結果と時間経過とにより変化する、 擬似的に感情を示す擬似感情パラメ一タを生 成する感情生成手段を有し、
上記応答生成手段は、
少なくとも上記擬似感情パラメータを基準にして上記応答生成ルールに従つて 、 上記音声認識結果に対応する応答を生成する
ことを特徴とする請求の範囲第 8 0項に記載の情報処理装置。
8 3 . ユーザ一の音声を入力する音声入力手段と、
上記音声入力手段より入力した音声を音声認識処理して音声認識結果を出力す る音声認識手段と、
所定の応答生成ルールに従って、 上記音声認識結果に対応する応答を生成する 応答生成手段と、
上記応答を出力する応答出力手段と、
上記音声に基づいて、 上記音声による入力の種類を識別する発話分類手段とを 具え、
上記応答生成ルールが、
上記入力の種類に応じて、 上記入力の種類に対応する応答の分類に従って、 所 定の種類の応答を除く応答を生成するルールである
ことを特徴とする携帯機器。
8 4 . 少なく とも上記音声による入力の種類と、 上記応答生成手段により生成さ れた上記応答の分類とによる履歴を記録する履歴記録手段を有し、
上記応答出力手段は、
上記履歴記録手段に記録された履歴を参照して上記応答を生成する
ことを特徴とする請求の範囲第 8 3項に記載の携帯機器。
8 5 . 所定の擬似感情パラメータ生成ルールに従って、 少なく とも上記音声認識 結果と時間経過とにより変化する、 擬似的に感情を示す擬似感情パラメータを生 成する感情生成手段を有し、
上記応答生成手段は、
少なく とも上記擬似感情パラメータを基準にして上記応答生成ルールに従って 、 上記音声認識結果に対応する応答を生成する
ことを特徴とする請求の範囲第 8 3項に記載の携帯機器。
8 6 . ユーザーの音声を入力する音声入力手段と、
上記音声入力手段より入力した音声を音声認識処理して音声認識結果を出力す る音声認識手段と、
所定の応答生成ルールに従って、 上記音声認識結果に対応する応答を生成する 応答生成手段と、
上記応答を出力する応答出力手段と、
上記音声に基づいて、 上記音声による入力の種類を識別する発話分類手段とを 具え、
上記応答生成ルールが、
上記入力の種類に応じて、 上記入力の種類に対応する応答の分類に従って、 所 定の種類の応答を除く応答を生成するルールである
ことを特徴とする電子ぺット装置。
8 7 . 少なくとも上記音声による入力の種類と、 上記応答生成手段により生成さ れた上記応答の分類とによる履歴を記録する履歴記録手段を有し、
上記応答出力手段は、
上記履歴記録手段に記録された履歴を参照して上記応答を生成する
ことを特徴とする請求の範囲第 8 6項に記載の電子ぺッ ト装置。
8 8 . 所定の擬似感情パラメータ生成ルールに従って、 少なく とも上記音声認識 結果と時間経過とにより変化する、 擬似的に感情を示す擬似感情パラメ一タを生 成する感情生成手段を有し、
上記応答生成手段は、
少なく とも上記擬似感情パラメータを基準にして上記応答生成ルールに従って 、 上記音声認識結果に対応する応答を生成する
ことを特徴とする請求の範囲第 8 6項に記載の電子ぺッ ト装置。
8 9 . ユーザ一の音声を入力する音声入力処理と、
上記音声入力処理より入力した音声を音声認識処理して音声認識結果を出力す る音声認識処理と、
所定の応答生成ルールに従って、 上記音声認識結果に対応する応答を生成する 応答生成処理と、
上記応答を出力する応答出力処理と、
上記音声に基づいて、 上記音声による入力の種類を識別する発話分類処理とが 記録され、
上記応答生成ルールは、
上記入力の種類に応じて、 上記入力の種類に対応する応答の分類に従って、 所 定の種類の応答を除く応答を生成する
ことを特徴とする情報処理手順を記録した記録媒体。
9 0 . 少なくとも上記音声による入力の種類と、 上記応答生成処理により生成さ れた上記応答の分類とによる履歴を記録する履歴記録処理が記録され、
上記応答出力処理は、
上記履歴記録処理に記録された履歴を参照して上記応答を生成する
ことを特徴とする請求の範囲第 8 9項に記載の情報処理手順を記録した記録媒 体。
9 1 . 所定の擬似感情パラメータ生成ルールに従って、 少なく とも上記音声認識 結果と時間経過とにより変化する、 擬似的に感情を示す擬似感情パラメータを生 成する感情生成処理が記録され、
上記応答生成処理は、
少なくとも上記擬似感情パラメータを基準にして上記応答生成ルールに従って 、 上記音声認識結果に対応する応答を生成する
ことを特徴とする請求の範囲第 8 9項に記載の情報処理手順を記録した記録媒 体。
9 2 . ユーザーの音声を入力する音声入力処理と、
上記音声入力処理より入力した音声を音声認識処理して音声認識結果を出力す る音声認識処理と、
所定の応答生成ルールに従って、 上記音声認識結果に対応する応答を生成する 応答生成処理と、
上記応答を出力する応答出力処理と、
上記音声に基づいて、 上記音声による入力の種類を識別する発話分類処理を有 し、 上記応答生成ルールは、
上記入力の種類に応じて、 上記入力の種類に対応する応答の分類に従って、 所 定の種類の応答を除く応答を生成する
ことを特徴とする情報処理方法。
9 3 . 少なくとも上記音声による入力の種類と、 上記応答生成処理により生成さ れた上記応答の分類とによる履歴を記録する履歴記録処理を有し、
上記応答出力処理は、
上記履歴記録処理に記録された履歴を参照して上記応答を生成する
ことを特徴とする請求の範囲第 9 2項に記載の情報処理方法。
9 4 . 所定の擬似感情パラメータ生成ルールに従って、 少なく とも上記音声認識 結果と時間経過とにより変化する、 擬似的に感情を示す擬似感情パラメ一タを生 成する感情生成処理を有し、
上記応答生成処理は、
少なくとも上記擬似感情パラメータを基準にして上記応答生成ルールに従って 、 上記音声認識結果に対応する応答を生成する
ことを特徴とする請求の範囲第 9 2項に記載の情報処理方法。
9 5 . ユーザーの音声を入力する音声入力手段と、
所定の認識ルールに従って上記音声入力手段より入力した上記音声を音声認識 処理して音声認識結果を出力する音声認識手段と、
所定の感情パラメータ生成ルールに従って、 少なくとも上記音声認識結果と時 間経過とにより変化する、 擬似的に感情を示す感情パラメータを生成する感情生 成手段と、
少なく とも上記感情パラメ一タを基準にした所定の応答生成ルールに従って、 上記音声認識結果に対応する応答を生成する応答生成手段と、 上記応答を出力する応答出力手段とを具え、
上記感情生成手段は、
少なくとも上記音声認識結果と対応する感情パラメータとによる履歴を記録す る履歴記録手段を有し、
上記音声認識結果に対する上記感情パラメータの変化を上記履歴に応じて変化 させる
ことを特徴とする情報処理装置。
9 6 . 上記感情生成手段は、
上記音声に含まれる感情を刺激する単語に応じて上記感情パラメータを変化さ せ、
上記感情を刺激する単語以外の単語が、 上記感情を刺激する単語を同時に頻繁 に使用される場合、 該単語によっても、 同時に使用される頻度の高い上記感情を 刺激する単語による場合と同様に、 上記感情パラメータを変化させる
ことを特徴とする請求の範囲第 9 5項に記載の情報処理装置。
9 7 . 上記感情生成手段は、
上記音声に含まれる感情を刺激する単語に応じて上記感情パラメータを変化さ せ、
上記感情を刺激する単語のうちの所定の単語が頻繁に使用される場合、 該感情 を刺激する単語により上記感情パラメータの変化量を低減する
ことを特徴とする請求の範囲第 9 5項に記載の情報処理装置。
9 8 . ユーザーの音声を入力する音声入力手段と、
所定の認識ルールに従って上記音声入力手段より入力した上記音声を音声認識 処理して音声認識結果を出力する音声認識手段と、
所定の感情パラメ一タ生成ルールに従って、 少なくとも上記音声認識結果と時 間経過とにより変化する、 擬似的に感情を示す感情パラメ一タを生成する感情生 成手段と、
少なく とも上記感情パラメータを基準にした所定の応答生成ルールに従って、 上記音声認識結果に対応する応答を生成する応答生成手段と、
上記応答を出力する応答出力手段とを具え、
上記感情生成手段は、
少なく とも上記音声認識結果と対応する感情パラメータとによる履歴を記録す る履歴記録手段を有し、
上記音声認識結果に対する上記感情パラメータの変化を上記履歴に応じて変化 させる
ことを特徴とする携帯機器。
9 9 . 上記感情生成手段は、
上記音声に含まれる感情を刺激する単語に応じて上記感情パラメータを変化さ せ、
上記感情を刺激する単語以外の単語が、 上記感情を刺激する単語を同時に頻繁 に使用される場合、 該単語によっても、 同時に使用される頻度の高い上記感情を 刺激する単語による場合と同様に、 上記感情パラメータを変化させる
ことを特徴とする請求の範囲第 9 8項に記載の携帯機器。
1 0 0 . 上記感情生成手段は、
上記音声に含まれる感情を刺激する単語に応じて上記感情パラメータを変化さ せ、
上記感情を刺激する単語のうちの所定の単語が頻繁に使用される場合、 該感情 を刺激する単語により上記感情パラメータの変化量を低減する
ことを特徴とする請求の範囲第 9 8項に記載の携帯機器。
1 0 1 . ユーザ一の音声を入力する音声入力手段と、 所定の認識ルールに従って上記音声入力手段より入力した上記音声を音声認識 処理して音声認識結果を出力する音声認識手段と、
所定の感情パラメータ生成ルールに従って、 少なくとも上記音声認識結果と時 間経過とにより変化する、 擬似的に感情を示す感情パラメータを生成する感情生 成手段と、
少なく とも上記感情パラメータを基準にした所定の応答生成ルールに従って、 上記音声認識結果に対応する応答を生成する応答生成手段と、
上記応答を出力する応答出力手段とを具え、
上記感情生成手段は、
少なく とも上記音声認識結果と対応する感情パラメ一タとによる履歴を記録す る履歴記録手段を有し、
上記音声認識結果に対する上記感情パラメータの変化を上記履歴に応じて変化 させる
ことを特徴とする電子ぺッ ト装置。
1 0 2 . 上記感情生成手段は、
上記音声に含まれる感情を刺激する単語に応じて上記感情パラメータを変化さ せ、
上記感情を刺激する単語以外の単語が、 上記感情を刺激する単語を同時に頻繁 に使用される場合、 該単語によっても、 同時に使用される頻度の高い上記感情を 刺激する単語による場合と同様に、 上記感情パラメ一タを変化させる
ことを特徴とする請求の範囲第 1 0 1項に記載の電子ぺッ ト装置。
1 0 3 . 上記感情生成手段は、
上記音声に含まれる感情を刺激する単語に応じて上記感情パラメータを変化さ せ、
上記感情を刺激する単語のうちの所定の単語が頻繁に使用される場合、 該感情 を刺激する単語により上記感情パラメータの変化量を低減する
ことを特徴とする請求の範囲第 1 0 1項に記載の電子ぺット装置。
1 0 4 . ユーザーの音声を入力する音声入力処理と、
所定の認識ルールに従って上記音声入力処理より入力した上記音声を音声認識 処理して音声認識結果を出力する音声認識処理と、
所定の感情パラメータ生成ルールに従って、 少なく とも上記音声認識結果と時 間経過とにより変化する、 擬似的に感情を示す感情パラメータを生成する感情生 成処理と、
少なくとも上記感情パラメータを基準にした所定の応答生成ルールに従って、 上記音声認識結果に対応する応答を生成する応答生成処理と、
上記応答を出力する応答出力処理とが記録され、
上記感情生成処理は、
少なくとも上記音声認識結果と対応する感情パラメータとによる履歴を記録す る履歴記録処理を有し、
上記音声認識結果に対する上記感情パラメータの変化を上記履歴に応じて変化 させる処理である
ことを特徴とする情報処理手順を記録した記録媒体。
1 0 5 . 上記感情生成処理は、
上記音声に含まれる感情を刺激する単語に応じて上記感情パラメータを変化さ せ、
上記感情を刺激する単語以外の単語が、 上記感情を刺激する単語を同時に頻繁 に使用される場合、 該単語によっても、 同時に使用される頻度の高い上記感情を 刺激する単語による場合と同様に、 上記感情パラメ一タを変化させる処理である ことを特徴とする請求の範囲第 1 0 4項に記載の情報処理手順を記録した記録媒 体。
1 0 6 . 上記感情生成処理は、
上記音声に含まれる感情を刺激する単語に応じて上記感情パラメータを変化さ せ、
上記感情を刺激する単語のうちの所定の単語が頻繁に使用される場合、 該感情 を刺激する単語により上記感情パラメ一タの変化量を低減する処理である ことを特徴とする請求の範囲第 1 0 4項に記載の情報処理手順を記録した記録 媒体。
1 0 7 . ユーザーの音声を入力する音声入力処理と、
所定の認識ルールに従って上記音声入力処理より入力した上記音声を音声認識 処理して音声認識結果を出力する音声認識処理と、
所定の感情パラメータ生成ルールに従って、 少なく とも上記音声認識結果と時 間経過とにより変化する、 擬似的に感情を示す感情パラメ一タを生成する感情生 成処理と、
少なく とも上記感情パラメータを基準にした所定の応答生成ルールに従って、 上記音声認識結果に対応する応答を生成する応答生成処理と、
上記応答を出力する応答出力処理とを有し、
上記感情生成処理が、
少なく とも上記音声認識結果と対応する感情パラメータとによる履歴を記録す る履歴記録処理を有し、
上記音声認識結果に対する上記感情パラメータの変化を上記履歴に応じて変化 させる処理である
ことを特徴とする情報処理方法。
1 0 8 . 上記感情生成処理は、
上記音声に含まれる感情を刺激する単語に応じて上記感情パラメータを変化さ せ、 上記感情を刺激する単語以外の単語が、 上記感情を刺激する単語を同時に頻繁 に使用される場合、 該単語によっても、 同時に使用される頻度の高い上記感情を 刺激する単語による場合と同様に、 上記感情パラメータを変化させる処理である ことを特徴とする請求の範囲第 1 0 7項に記載の情報処理方法。
1 0 9 . 上記感情生成処理は、
上記音声に含まれる感情を刺激する単語に応じて上記感情パラメータを変化さ せ、
上記感情を刺激する単語のうちの所定の単語が頻繁に使用される場合、 該感情 を刺激する単語により上記感情パラメータの変化量を低減する処理である ことを特徴とする請求の範囲第 1 0 7項に記載の情報処理方法。
PCT/JP1999/007271 1998-12-24 1999-12-24 Processeur d'informations, dispositif portable, dispositif d'animal de compagnie electronique, support enregistre sur lequel la procedure de traitement des informations est enregistree et procede de traitement des informations WO2000038808A1 (fr)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US09/622,772 US6792406B1 (en) 1998-12-24 1999-12-24 Information processing apparatus, portable device, electronic pet apparatus recording medium storing information processing procedures and information processing method
EP99961362A EP1072297B1 (en) 1998-12-24 1999-12-24 Information processing apparatus
DE69935909T DE69935909T2 (de) 1998-12-24 1999-12-24 Vorrichtung zur Informationsverarbeitung

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP10/365944 1998-12-24
JP10365944A JP2000187435A (ja) 1998-12-24 1998-12-24 情報処理装置、携帯機器、電子ペット装置、情報処理手順を記録した記録媒体及び情報処理方法

Publications (1)

Publication Number Publication Date
WO2000038808A1 true WO2000038808A1 (fr) 2000-07-06

Family

ID=18485522

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP1999/007271 WO2000038808A1 (fr) 1998-12-24 1999-12-24 Processeur d'informations, dispositif portable, dispositif d'animal de compagnie electronique, support enregistre sur lequel la procedure de traitement des informations est enregistree et procede de traitement des informations

Country Status (7)

Country Link
US (1) US6792406B1 (ja)
EP (3) EP1072297B1 (ja)
JP (1) JP2000187435A (ja)
KR (3) KR20060086457A (ja)
CN (6) CN1252620C (ja)
DE (2) DE69935909T2 (ja)
WO (1) WO2000038808A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002023524A1 (fr) * 2000-09-13 2002-03-21 A.G.I.Inc. Procédé de reconnaissance d'émotion, procédé de création de sensibilité, dispositif, et logiciel
US6711467B2 (en) 2000-10-05 2004-03-23 Sony Corporation Robot apparatus and its control method
EP1201277A3 (en) * 2000-10-30 2004-10-27 Sony Computer Entertainment Inc. Entertainment apparatus and method for reflecting input voice in operation of character

Families Citing this family (62)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001154681A (ja) * 1999-11-30 2001-06-08 Sony Corp 音声処理装置および音声処理方法、並びに記録媒体
JP2002041276A (ja) * 2000-07-24 2002-02-08 Sony Corp 対話型操作支援システム及び対話型操作支援方法、並びに記憶媒体
JP3676981B2 (ja) * 2001-01-16 2005-07-27 株式会社エイ・ジー・アイ 感性発生方法及び感性発生装置並びにソフトウェア
JP3676969B2 (ja) * 2000-09-13 2005-07-27 株式会社エイ・ジー・アイ 感情検出方法及び感情検出装置ならびに記録媒体
JP2002139987A (ja) * 2000-10-31 2002-05-17 Atr Media Integration & Communications Res Lab 仮想生物飼育システム
JP2002268699A (ja) * 2001-03-09 2002-09-20 Sony Corp 音声合成装置及び音声合成方法、並びにプログラムおよび記録媒体
JP4646170B2 (ja) * 2001-04-13 2011-03-09 株式会社バンダイ 会話装置
GB2375969A (en) * 2001-05-31 2002-12-04 Nokia Corp Electronic gaming
KR100624403B1 (ko) * 2001-10-06 2006-09-15 삼성전자주식회사 인체의 신경계 기반 정서 합성 장치 및 방법
US6850818B2 (en) * 2001-10-22 2005-02-01 Sony Corporation Robot apparatus and control method thereof
JP4596728B2 (ja) 2002-08-13 2010-12-15 ルネサスエレクトロニクス株式会社 外部モジュール及び移動体通信端末
JP4832701B2 (ja) * 2002-09-12 2011-12-07 株式会社ピートゥピーエー 遊技機、遊技制御方法、制御プログラム
EP1544831A1 (en) * 2002-09-27 2005-06-22 Ginganet Corporation Remote education system, course attendance check method, and course attendance check program
US7292976B1 (en) 2003-05-29 2007-11-06 At&T Corp. Active learning process for spoken dialog systems
DE102004001801A1 (de) * 2004-01-05 2005-07-28 Deutsche Telekom Ag Dialogsystem insbesondere zur Unterstützung der Patientenbetreuung
JP4379131B2 (ja) * 2004-01-27 2009-12-09 パナソニック電工株式会社 バーチャルコンパニオンシステム
US7865566B2 (en) * 2004-01-30 2011-01-04 Yahoo! Inc. Method and apparatus for providing real-time notification for avatars
US7707520B2 (en) * 2004-01-30 2010-04-27 Yahoo! Inc. Method and apparatus for providing flash-based avatars
US7555717B2 (en) * 2004-04-30 2009-06-30 Samsung Electronics Co., Ltd. Method for displaying screen image on mobile terminal
US7472065B2 (en) * 2004-06-04 2008-12-30 International Business Machines Corporation Generating paralinguistic phenomena via markup in text-to-speech synthesis
US7873911B2 (en) * 2004-08-31 2011-01-18 Gopalakrishnan Kumar C Methods for providing information services related to visual imagery
CN1842787B (zh) * 2004-10-08 2011-12-07 松下电器产业株式会社 对话支援装置
CN1842788B (zh) * 2004-10-08 2012-04-04 松下电器产业株式会社 对话支援装置、系统及方法
US7613613B2 (en) * 2004-12-10 2009-11-03 Microsoft Corporation Method and system for converting text to lip-synchronized speech in real time
US8340971B1 (en) * 2005-01-05 2012-12-25 At&T Intellectual Property Ii, L.P. System and method of dialog trajectory analysis
WO2006083684A2 (en) * 2005-01-28 2006-08-10 Aol Llc Web query classification
US8065157B2 (en) 2005-05-30 2011-11-22 Kyocera Corporation Audio output apparatus, document reading method, and mobile terminal
JP2007054102A (ja) * 2005-08-22 2007-03-08 Sanyo Product Co Ltd 遊技システム及び遊技機用の電子端末
CN101248652B (zh) * 2005-09-22 2011-05-18 中兴通讯股份有限公司 一种手机电子宠物的实现系统及方法
US8489148B2 (en) 2005-11-09 2013-07-16 Samsung Electronics Co., Ltd. Device and method for expressing status of terminal using character
CN101246475B (zh) * 2007-02-14 2010-05-19 北京书生国际信息技术有限公司 一种基于版面信息的检索方法
JP2010533006A (ja) * 2007-03-01 2010-10-21 ソニー コンピュータ エンタテインメント アメリカ リミテッド ライアビリテイ カンパニー 仮想世界とコミュニケーションを取るためのシステムおよび方法
CN101075301A (zh) * 2007-06-28 2007-11-21 腾讯科技(深圳)有限公司 虚拟宠物系统和虚拟宠物聊天方法、装置
JP4392620B2 (ja) * 2007-08-14 2010-01-06 ソニー株式会社 情報処理装置、情報処理方法、演算装置、演算方法、プログラム、および記録媒体
CN101119209A (zh) 2007-09-19 2008-02-06 腾讯科技(深圳)有限公司 虚拟宠物系统和虚拟宠物聊天方法、装置
JP2009104231A (ja) * 2007-10-19 2009-05-14 Ricoh Co Ltd 情報処理装置、音出力装置、記号表示装置、画像形成装置、ユーザ属性判定方法、プログラム
US8577685B2 (en) * 2008-10-24 2013-11-05 At&T Intellectual Property I, L.P. System and method for targeted advertising
CN101727904B (zh) * 2008-10-31 2013-04-24 国际商业机器公司 语音翻译方法和装置
JP5086302B2 (ja) * 2009-05-08 2012-11-28 ヤフー株式会社 デバイス間でキャラクタが移動するデバイス及び通信システムの制御方法
DE102010012427B4 (de) 2010-03-23 2014-04-24 Zoobe Gmbh Verfahren zur Zuordnung von Sprachmerkmalen zu Bewegungsmustern
US8483873B2 (en) * 2010-07-20 2013-07-09 Innvo Labs Limited Autonomous robotic life form
CN101961553B (zh) * 2010-08-23 2013-06-05 福建捷联电子有限公司 一种用于发泄情绪的装置
JP5602653B2 (ja) * 2011-01-31 2014-10-08 インターナショナル・ビジネス・マシーンズ・コーポレーション 情報処理装置、情報処理方法、情報処理システム、およびプログラム
CN102671383A (zh) * 2011-03-08 2012-09-19 德信互动科技(北京)有限公司 基于声控的游戏实现装置和方法
US9229974B1 (en) 2012-06-01 2016-01-05 Google Inc. Classifying queries
US9563627B1 (en) * 2012-09-12 2017-02-07 Google Inc. Contextual determination of related media content
CN103905619A (zh) 2012-12-26 2014-07-02 腾讯科技(深圳)有限公司 一种基于移动终端的交互方法、系统及移动终端
KR20150104615A (ko) 2013-02-07 2015-09-15 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
KR101330158B1 (ko) * 2013-07-12 2013-11-15 주식회사 메조미디어 텍스트의 감정지수 분석 방법 및 컴퓨터 판독 가능한 기록 매체
JP6359327B2 (ja) * 2014-04-25 2018-07-18 シャープ株式会社 情報処理装置および制御プログラム
CN107516511B (zh) * 2016-06-13 2021-05-25 微软技术许可有限责任公司 意图识别和情绪的文本到语音学习系统
GB2567600B (en) 2016-08-29 2022-05-04 Groove X Inc Autonomously acting robot that recognizes direction of sound source
US9786271B1 (en) 2016-09-28 2017-10-10 International Business Machines Corporation Voice pattern coding sequence and cataloging voice matching system
WO2019021771A1 (ja) 2017-07-24 2019-01-31 京セラ株式会社 充電台、携帯端末、コミュニケーションシステム、方法、およびプログラム
JP6953354B2 (ja) * 2018-05-24 2021-10-27 グリー株式会社 ゲーム処理プログラム、ゲーム処理方法、および、ゲーム処理装置
CN108925456A (zh) * 2018-05-31 2018-12-04 广州粤创富科技有限公司 一种与宠物互动的方法、装置及可穿戴设备
JP6993314B2 (ja) * 2018-11-09 2022-01-13 株式会社日立製作所 対話システム、装置、及びプログラム
CN111496802A (zh) * 2019-01-31 2020-08-07 中国移动通信集团终端有限公司 人工智能设备的控制方法、装置、设备及介质
CN110033768A (zh) * 2019-04-22 2019-07-19 贵阳高新网用软件有限公司 一种智能搜索发言人的方法及设备
CN112669046B (zh) * 2019-10-16 2022-06-28 辰光能源科技有限公司 真食呈现系统
JP7437191B2 (ja) * 2020-03-04 2024-02-22 株式会社東海理化電機製作所 制御装置、制御システム、情報処理装置、およびプログラム
JP2021064947A (ja) * 2020-12-11 2021-04-22 京セラ株式会社 携帯端末およびプログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09305787A (ja) * 1996-03-13 1997-11-28 Sharp Corp アニメーション作成・再生装置、及びアニメーション検索装置
JPH10260976A (ja) * 1997-03-18 1998-09-29 Ricoh Co Ltd 音声対話方法
JPH10276462A (ja) * 1997-03-27 1998-10-13 Canon Inc メッセージ伝送システム及びメッセージ伝送方法
JPH10313357A (ja) * 1997-05-13 1998-11-24 Nec Corp 留守番電話機

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4638445A (en) * 1984-06-08 1987-01-20 Mattaboni Paul J Autonomous mobile robot
US5029214A (en) * 1986-08-11 1991-07-02 Hollander James F Electronic speech control apparatus and methods
DE69232407T2 (de) * 1991-11-18 2002-09-12 Toshiba Kawasaki Kk Sprach-Dialog-System zur Erleichterung von Rechner-Mensch-Wechselwirkung
JPH0612401A (ja) * 1992-06-26 1994-01-21 Fuji Xerox Co Ltd 感情模擬装置
US5732187A (en) * 1993-09-27 1998-03-24 Texas Instruments Incorporated Speaker-dependent speech recognition using speaker independent models
US5748841A (en) * 1994-02-25 1998-05-05 Morin; Philippe Supervised contextual language acquisition system
US5682469A (en) * 1994-07-08 1997-10-28 Microsoft Corporation Software platform having a real world interface with animated characters
EP0789901B1 (en) * 1994-11-01 2000-01-05 BRITISH TELECOMMUNICATIONS public limited company Speech recognition
US5842168A (en) * 1995-08-21 1998-11-24 Seiko Epson Corporation Cartridge-based, interactive speech recognition device with response-creation capability
US5774841A (en) * 1995-09-20 1998-06-30 The United States Of America As Represented By The Adminstrator Of The National Aeronautics And Space Administration Real-time reconfigurable adaptive speech recognition command and control apparatus and method
US5746602A (en) * 1996-02-27 1998-05-05 Kikinis; Dan PC peripheral interactive doll
KR19980065482A (ko) * 1997-01-10 1998-10-15 김광호 스피킹 스타일을 변경하는 음성 합성 방법
JPH10206976A (ja) 1997-01-22 1998-08-07 Hitachi Ltd 背面投写型表示装置
US5983190A (en) * 1997-05-19 1999-11-09 Microsoft Corporation Client server animation system for managing interactive user interface characters
US5953700A (en) * 1997-06-11 1999-09-14 International Business Machines Corporation Portable acoustic interface for remote access to automatic speech/speaker recognition server
WO1999017854A1 (en) * 1997-10-07 1999-04-15 Health Hero Network, Inc. Remotely programmable talking toy
US6636219B2 (en) * 1998-02-26 2003-10-21 Learn.Com, Inc. System and method for automatic animation generation
US6185534B1 (en) * 1998-03-23 2001-02-06 Microsoft Corporation Modeling emotion and personality in a computer user interface
JP4036528B2 (ja) * 1998-04-27 2008-01-23 富士通株式会社 意味認識システム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09305787A (ja) * 1996-03-13 1997-11-28 Sharp Corp アニメーション作成・再生装置、及びアニメーション検索装置
JPH10260976A (ja) * 1997-03-18 1998-09-29 Ricoh Co Ltd 音声対話方法
JPH10276462A (ja) * 1997-03-27 1998-10-13 Canon Inc メッセージ伝送システム及びメッセージ伝送方法
JPH10313357A (ja) * 1997-05-13 1998-11-24 Nec Corp 留守番電話機

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002023524A1 (fr) * 2000-09-13 2002-03-21 A.G.I.Inc. Procédé de reconnaissance d'émotion, procédé de création de sensibilité, dispositif, et logiciel
US7340393B2 (en) 2000-09-13 2008-03-04 Advanced Generation Interface, Inc. Emotion recognizing method, sensibility creating method, device, and software
US6711467B2 (en) 2000-10-05 2004-03-23 Sony Corporation Robot apparatus and its control method
EP1201277A3 (en) * 2000-10-30 2004-10-27 Sony Computer Entertainment Inc. Entertainment apparatus and method for reflecting input voice in operation of character

Also Published As

Publication number Publication date
KR100702645B1 (ko) 2007-04-02
CN1549200A (zh) 2004-11-24
CN1549201A (zh) 2004-11-24
CN1253811C (zh) 2006-04-26
KR100751957B1 (ko) 2007-08-24
US6792406B1 (en) 2004-09-14
EP1748421B1 (en) 2008-10-15
CN1549199A (zh) 2004-11-24
CN1291112A (zh) 2001-04-11
DE69939755D1 (de) 2008-11-27
EP1072297B1 (en) 2007-04-25
EP1072297A4 (en) 2005-12-14
KR20010040942A (ko) 2001-05-15
CN1253812C (zh) 2006-04-26
EP1750252A2 (en) 2007-02-07
KR20060084455A (ko) 2006-07-24
DE69935909T2 (de) 2008-01-10
EP1750252A3 (en) 2007-07-25
EP1748421A2 (en) 2007-01-31
DE69935909D1 (de) 2007-06-06
CN1202511C (zh) 2005-05-18
CN1253810C (zh) 2006-04-26
JP2000187435A (ja) 2000-07-04
CN1551047A (zh) 2004-12-01
CN1549202A (zh) 2004-11-24
EP1748421A3 (en) 2007-07-25
EP1072297A1 (en) 2001-01-31
KR20060086457A (ko) 2006-07-31
CN1252620C (zh) 2006-04-19

Similar Documents

Publication Publication Date Title
WO2000038808A1 (fr) Processeur d'informations, dispositif portable, dispositif d'animal de compagnie electronique, support enregistre sur lequel la procedure de traitement des informations est enregistree et procede de traitement des informations
US20240168933A1 (en) Ai story platform with customizable personality for education, entertainment, and therapy
CN108962217B (zh) 语音合成方法及相关设备
CN110998725B (zh) 在对话中生成响应
US11151997B2 (en) Dialog system, dialog method, dialog apparatus and program
CN108711423A (zh) 智能语音交互实现方法、装置、计算机设备及存储介质
CN104778945B (zh) 响应自然语言语音口头表达的系统和方法
CN112074899A (zh) 基于多模态传感输入的人机对话的智能发起的系统和方法
JP2003255991A (ja) 対話制御システム、対話制御方法及びロボット装置
JP2000187435A5 (ja) 情報処理装置及び情報処理方法
JP6633250B2 (ja) 対話ロボットおよび対話システム、並びに対話プログラム
JP2004037721A (ja) 音声応答システム、音声応答プログラム及びそのための記憶媒体
JP2006061632A (ja) 感情データ提供装置、心理解析装置、および電話ユーザ心理解析方法
JP2003114692A (ja) 音源データの提供システム、端末、玩具、提供方法、プログラム、および媒体
CN108986804A (zh) 人机交互处理方法、装置、用户终端、处理服务器及系统
JP2009151314A (ja) 情報処理装置及び情報処理方法
KR20210117827A (ko) 인공지능을 활용한 음성 서비스 제공 시스템 및 제공 방법
KR20010007842A (ko) 완구에 있어서 대화형 음성 및 다감각인식 시스템 및 이의방법
KR20200122916A (ko) 대화 시스템 및 그 제어 방법
WO2021064947A1 (ja) 対話方法、対話システム、対話装置、およびプログラム
CN113516878A (zh) 用于语言启蒙的多模态交互方法、系统及智能机器人
KR20200064021A (ko) 대화형 교육 시스템에 포함되는 사용자 장치와 교육 서버
JP2001314649A (ja) 音声遊技方法、装置および記録媒体
CN116741143B (zh) 基于数字分身的个性化ai名片的交互方法及相关组件
JP7160076B2 (ja) 対話制御装置、対話制御方法及びプログラム

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 99803234.4

Country of ref document: CN

AK Designated states

Kind code of ref document: A1

Designated state(s): CN KR US

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): DE FR GB

WWE Wipo information: entry into national phase

Ref document number: 1020007008863

Country of ref document: KR

WWE Wipo information: entry into national phase

Ref document number: 1999961362

Country of ref document: EP

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 09622772

Country of ref document: US

WWP Wipo information: published in national office

Ref document number: 1999961362

Country of ref document: EP

WWP Wipo information: published in national office

Ref document number: 1020007008863

Country of ref document: KR

WWG Wipo information: grant in national office

Ref document number: 1999961362

Country of ref document: EP