WO2019187590A1 - 情報処理装置、情報処理方法、プログラム - Google Patents

情報処理装置、情報処理方法、プログラム Download PDF

Info

Publication number
WO2019187590A1
WO2019187590A1 PCT/JP2019/002812 JP2019002812W WO2019187590A1 WO 2019187590 A1 WO2019187590 A1 WO 2019187590A1 JP 2019002812 W JP2019002812 W JP 2019002812W WO 2019187590 A1 WO2019187590 A1 WO 2019187590A1
Authority
WO
WIPO (PCT)
Prior art keywords
response
user
voice
recognition
emotion
Prior art date
Application number
PCT/JP2019/002812
Other languages
English (en)
French (fr)
Inventor
前田 祐児
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Publication of WO2019187590A1 publication Critical patent/WO2019187590A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Definitions

  • the present technology relates to an information processing apparatus, an information processing method, and a program, and particularly to a technology for recognizing and responding to a user's uttered voice.
  • Patent Document 1 describes a technique in which presentation of information by a presentation unit is controlled based on a user's mental and physical state determined by a determination unit that determines a user's mental and physical state.
  • Information presentation in this case is assumed to be music, movies, games, and the like.
  • a device called an “agent device” can respond by voice in response to a user's inquiry or control various devices connected to the network.
  • agent device it is important to correctly recognize the content of the user's uttered speech, and research on speech recognition technology is underway, but as an element for recognition of the correct speech content, the user side There is also a problem.
  • the voice of a person is greatly influenced by emotion. For example, depending on the emotional state, the utterance of the utterance may become intense, the tone may change, or the melody may not turn.
  • speech recognition is difficult for an utterance that is not calm.
  • the user when performing speech recognition, the user can be prompted to speak as quietly as possible, thereby improving speech recognition performance.
  • An information processing apparatus includes a speech recognition unit that recognizes a user's voice, an emotion recognition unit that recognizes the user's emotion based on detection information about the user, a recognition result of the speech recognition unit, and A response generation unit that generates response data in which an element that makes the user's emotion calm is added to the response corresponding to the voice uttered by the user based on the recognition result of the emotion recognition unit; Prepare.
  • an information processing apparatus that generates response data for an inquiry by a user's voice.
  • a response to the user's question is output by voice, for example.
  • a response output in a response content or a response mode that makes the user calm is performed.
  • the response generation unit confirms whether or not the recognition result of the emotion recognition unit is calm and whether or not the voice recognition of the voice recognition unit is successful, It is conceivable that different response data is generated depending on whether the emotion recognition result is calm and the speech recognition is successful, and when the emotion recognition result is non-contained and the speech recognition is successful. Since the speech recognition is successful and the content of the question can be determined, the content of the answer to the question can be added to the response data. Then, the response data is made different depending on whether or not the user is calm.
  • the response generation unit confirms whether or not the recognition result of the emotion recognition unit is calm and whether or not the voice recognition of the voice recognition unit is successful, It is conceivable that different response data is generated when the emotion recognition result is calm and the speech recognition fails, and when the emotion recognition result is not calm and the speech recognition fails.
  • response data is generated so as to give a response indicating that the user has not been heard, but the content of the response data is changed depending on whether or not the user is calm.
  • the response generation unit confirms whether or not the recognition result of the emotion recognition unit is calm and whether or not the voice recognition of the voice recognition unit is successful, It is conceivable that different response data is generated depending on whether the emotion recognition result is non-silent and the speech recognition is successful, and when the emotion recognition result is non-calm and the speech recognition fails. That is, when the user's emotion is not calm, the content of the response is changed depending on whether the voice recognition succeeds or fails.
  • the response generation unit confirms whether or not the recognition result of the emotion recognition unit is calm and whether or not the voice recognition of the voice recognition unit is successful, When the emotion recognition result is calm and the speech recognition is successful, when the emotion recognition result is calm and the speech recognition is unsuccessful, when the emotion recognition result is non-silent and the speech recognition is successful, It is conceivable that different response data is generated depending on when speech recognition fails. That is, the content of the response is changed according to the combination of whether the user's emotion is calm and whether the voice recognition has succeeded or failed.
  • the information processing apparatus includes a surrounding person detection unit that detects whether or not there is a person around the user, and the response generation unit outputs a response based on a detection result of the surrounding person detection unit. It is conceivable to select one of these modes.
  • the response output mode refers to, for example, audio output, image output, light output, vibration output, temperature change output, aroma output, and the like.
  • the information processing apparatus selects a response output mode according to whether there are other people around the responding user.
  • the response generation unit detects that there is a person around the user based on the detection result of the surrounding person detection unit
  • the response data includes voice data content of the response data. It is conceivable to select a response output mode other than the response output to be output in (1).
  • voice response output modes for example, in voice output in which text data is output by voice, the content of the response is heard by a person other than the user. Therefore, other response modes are selected so as not to be heard by surrounding people.
  • the response data when the response generation unit detects that there is a person around the user based on the detection result of the surrounding person detection unit, the response data includes the text data content of the response data as an image. It is conceivable to select a response output mode other than the response output represented by. For example, when an image representing text data is output as an image, the contents of the text data may be seen by a person other than the user depending on the mode of the monitor device. Therefore, in the case of a response that encourages calmness, display of text data should be avoided.
  • a response output mode other than the response output that outputs the text data content of the response data by voice can be considered.
  • a response is made by another method without selecting the voice output for outputting the text data by voice.
  • the emotion recognition unit uses at least one of image information obtained by imaging the user, speech information of the user, and biological information of the user as detection information about the user. It may be possible to recognize the user's emotion.
  • an imaging device, a microphone, and various biological sensors are used.
  • the response generation unit may add, modify, or process response data in accordance with the emotion category recognized by the emotion recognition unit. For example, in addition to whether or not it is calm, a category of emotions such as angry, sad and happy is also determined and reflected in the response process.
  • the speech recognition unit may supply information on the success or failure of speech recognition and information on the recognition result of speech content to the response generation unit.
  • the speech content recognition result is information indicating the content of the user's uttered speech as text data, for example.
  • the speech recognition unit provides such information and recognition success / failure information to the response generation unit.
  • An information processing method includes a speech recognition procedure for recognizing a user's voice, an emotion recognition procedure for recognizing the user's emotion based on detection information about the user, and a recognition result in the speech recognition procedure And a response generation procedure for generating response data in which an element that makes the user's emotion calm is added to the response corresponding to the voice uttered by the user based on the recognition result in the emotion recognition procedure; Is executed by the information processing apparatus.
  • a program according to the present technology is a program that causes an information processing device to execute processing of each procedure of the above method. The response according to the emotion by the information processing apparatus is realized by such a method and program.
  • Configuration Example Including Information Processing Device> ⁇ 2. Processing of response data and response mode according to voice recognition and emotion recognition> ⁇ 3. Response data processing according to emotion category> ⁇ 4. Summary and Modification>
  • Configuration Example Including Information Processing Device> A system configuration example including an information processing apparatus as an embodiment of the present disclosure will be described with reference to FIG.
  • the voice recognition unit 10 includes a voice recognition unit 10, an emotion recognition unit 11, a response generation unit 12, a surrounding person detection unit 13, a call unit 14, a switch unit 15, 16, 17, 18, 19, a voice sensor 21, an image sensor 22,
  • voice output apparatus 31, the image display apparatus 32, and the notification apparatus 33 are shown.
  • the information processing apparatus 1 is, as a minimum configuration, an apparatus including the speech recognition unit 10, the emotion recognition unit 11, and the response generation unit 12 as surrounded by a broken line.
  • the information processing apparatus 1 may be configured to further include a surrounding person detection unit 13.
  • a configuration having the call unit 14 as the information processing apparatus 1 is also assumed.
  • the information processing apparatus 1 may include all or part of the voice sensor 21, the image sensor 22, and the biological information sensor 23.
  • the information processing apparatus 1 may include all or part of the audio output device 31, the image display device 32, and the notification device 33.
  • Various types of switches 15 to 19 may be considered when they are included in the information processing apparatus 1, when they are not included, and when they do not exist. That is, the information processing apparatus 1 according to the embodiment may be an apparatus including at least the voice recognition unit 10, the emotion recognition unit 11, and the response generation unit 12, and various configuration examples are assumed.
  • the information processing device 1 generates response data as a so-called agent device.
  • the agent device referred to here is a device that recognizes a user's uttered voice and returns a response according to the content or performs device control.
  • “user” refers to a user who makes an inquiry to the agent device or a user who is mainly targeted by the agent device. If there are other persons in the vicinity besides such “users”, these persons are not referred to as users but are expressed as “others”, “people”, and the like.
  • “Response data” refers to various types of information for responding to the user.
  • the response signal also includes an image signal, an image display control signal, various output control signals, and the like.
  • the voice sensor 21 is composed of a microphone, mainly collects a user's uttered voice and outputs a voice input signal sA.
  • a voice input signal sA from the voice sensor 21 is supplied to the voice recognition unit 10 and the call unit 14.
  • the voice input signal sA can be supplied to the emotion recognition unit 11 via the switch unit 15.
  • the audio input signal sA can be supplied to the surrounding person detection unit 13 via the switch unit 16.
  • the image sensor 22 includes an imaging device (camera), images a surrounding scene, and outputs it as an image signal sP.
  • the image sensor 22 is installed so that the user's face and body, the presence of surrounding people, and the like can be imaged.
  • the image signal sP from the image sensor 22 can be supplied to the emotion recognition unit 11 via the switch unit 15. Further, the image signal sP can be supplied to the surrounding person detection unit 13 via the switch unit 16.
  • the biological information sensor 23 indicates various biological sensors that detect user biological information.
  • Biometric information includes pulse rate, heart rate, electrocardiogram information, electromyography, respiratory information (eg, respiratory rate, depth, ventilation), sweating, GSR (skin electrical response), blood pressure, blood oxygen saturation level Skin surface temperature, brain waves (for example, information on ⁇ wave, ⁇ wave, ⁇ wave, and ⁇ wave), blood flow change, eye condition, and the like.
  • the biological information sensor 23 may be, for example, a wristwatch type, a glasses type, a pendant type, or the like that is worn on the user's body, or a wearable clothing, a hat, or the like.
  • a human sensor using infrared rays or the like is also conceivable.
  • the biological information signal sF from the biological information sensor 23 can be supplied to the emotion recognition unit 11 via the switch unit 15. Furthermore, the biological information signal sF can be supplied to the surrounding person detection unit 13 via the switch unit 16.
  • voice sensor 21, the image sensor 22, and the biometric information sensor 23 were shown, when comprising an agent apparatus, all of these need not necessarily be provided. In order to recognize the user's uttered voice, at least the voice sensor 21 is required as the agent device, but the image sensor 22 and the biological information sensor 23 may not be provided.
  • Any one or a plurality of sensing information may be sent to emotion recognition unit 11 and surrounding person detection unit 13. .
  • the sensing information sent to the emotion recognition unit 11 and the surrounding person detection unit 13 is not necessarily the same.
  • the switch units 15 and 16 are switches for input signals to the emotion recognition unit 11 and the surrounding person detection unit 13.
  • the switch units 15 and 16 are on / off controlled by control signals s1 and s2.
  • the switch control by these control signals s1 and s2 may be performed by the emotion recognition unit 11 and the surrounding person detection unit 13, or may be performed by the control of the response generation unit 12. Alternatively, control from an external device may be used.
  • the switch units 15 and 16 are not particularly provided, and the audio input signal sA, the image signal sP, and the biological information signal sF may be constantly supplied to the emotion recognition unit 11 and the surrounding person detection unit 13.
  • the voice recognition unit 10 performs processing for recognizing a voice uttered by a user. That is, the voice recognition unit 10 analyzes the voice input signal sA from the voice sensor 21 and recognizes the content of the user's uttered voice. Then, the voice recognition unit 10 outputs a voice recognition result D1 indicating the recognized content and a voice recognition success / failure result D2 indicating the success or failure of the recognition to the response generation unit 12.
  • the speech recognition result D1 may be information indicating the user's utterance content as text data, for example.
  • the speech recognition success / failure result D2 may be, for example, a 1-bit signal indicating success / failure or information indicating the accuracy of recognition success.
  • the information may be information indicating in stages such as recognition failure, success probability low, success probability high, recognition success, or the like, or information indicating the success probability numerically.
  • the voice recognition result D1 and the voice recognition success / failure result D2 by the voice recognition unit 10 may be supplied to the emotion recognition unit 11.
  • the emotion recognition unit 11 performs a process of recognizing the user's emotion based on sensing information about the user (speech input signal sA, image signal sP, biological information signal sF).
  • the emotion recognizing unit 11 can estimate the calm state or the non-sedated state by analyzing the tone of the user's uttered voice, the sound intensity, and the like based on the voice input signal sA.
  • the emotion recognition unit 11 inputs the speech recognition result D1 and the speech recognition success / failure result D2 by the speech recognition unit 10, and performs what kind of wording the user performs by performing, for example, morphological analysis of the contents, word extraction, and the like. Can be used to estimate the emotional state.
  • the success / failure result itself based on the speech recognition success / failure result D2 can also be an element of emotion estimation.
  • the emotion recognition part 11 can analyze a user's action with the image signal sP.
  • the user's emotional state can be estimated by determining whether or not the action is calm.
  • the emotion recognizing unit 11 can also determine eye movements (changes in eye-gaze direction and blinks) from the captured image of the user's eyes, and can also be used as a determination element for whether or not the user is calm.
  • the emotion recognition unit 11 can estimate the emotional state of the user by analyzing the biological information signal sF.
  • the emotion recognition unit 11 performs these emotion recognition processes and outputs an emotion recognition result D3 to the response generation unit 12.
  • the emotion recognition result D3 may be binary information of calm / non-silence, or may be information that shows steps from calm to non-calm. Furthermore, you may make it include the information which shows the category of the emotion in a non-calm state.
  • the emotion category indicates what emotional state the person is in, for example, emotions, and is different from joy, anger, sadness, and the like.
  • the surrounding person detection unit 13 performs processing for detecting whether or not there is a person around.
  • the surrounding person detection unit 13 determines whether there is another person around the user based on the voice input signal sA.
  • the surrounding person detection unit 13 can determine from the image signal sP whether or not a person other than the user is captured by image analysis.
  • the surrounding person detection unit 13 can estimate the presence of a surrounding person from the user's biological information signal sF.
  • the surrounding person detection unit 13 performs such processing alone or in combination, determines the presence / absence of a surrounding person, and outputs the surrounding person detection result D4 to the response generation unit 12.
  • the surrounding person detection result D4 may be binary information indicating whether or not there is another person in the surroundings, or may be information indicating the possibility stepwise or numerically. The determination information of the number of others may be included.
  • the calling unit 14 is a part that performs a voice call.
  • the user can make a call via a telephone line or a predetermined network by using the function of the call unit 14.
  • the call unit 14 outputs a call signal D5 to the response generation unit 12 so that the response generation unit 12 can recognize that the call is in progress.
  • the call unit 14 can output a voice signal sH of a call voice (caller's voice) to the voice output unit 31.
  • the conversation unit 14 can receive the response generation signal D6 from the response generation unit 12 and transmit it to the other party.
  • the response generation unit 12 responds to the user's voice based on the recognition result of the voice recognition unit 11 (voice recognition result D1, voice recognition success / failure result D2) and the recognition result of the emotion recognition unit 12 (emotion recognition result D3). To generate response data in which an element that makes the user's emotion calm is added to the response.
  • the response generation unit 12 also performs processing for changing response data and setting a response mode based on the surrounding person detection result D4 from the surrounding person detection unit 13.
  • the response generation unit 12 performs a process of changing response data or changing a response mode when a call is in progress, as compared with a case where the call is not being performed, based on a signal D5 during a call from the call unit 14. Specific examples of processing of these response generation units 12 will be described later.
  • the response generation unit 12 generates response data as, for example, text data or various control signals. Response output based on these response data is performed by some or all of the audio output device 31, the image display device 32, and the notification device 33.
  • the audio output device 31 includes a speaker and a driving circuit (amplifier) for the speaker, and performs audio output.
  • the audio output device 31 is supplied with an audio signal and a control signal based on response data from the response generation unit 12 via the switch unit 17.
  • the audio output device 31 outputs an audio signal to a speaker.
  • the sound output device 31 outputs sound as a response, music, electronic sound, environmental sound, and the like according to the control of the response generation unit 12.
  • the audio output device 31 may only output the audio signal from the response generation unit 12 or may be a device that includes a sound source unit and the like and generates sound instructed by the response generation unit 12.
  • the voice output device 31 can output a call voice by supplying a call voice signal sH from the call section 14.
  • the image display device 32 performs image display based on the image data supplied from the response generation unit 12 via the switch unit 18 and image display according to an instruction from the response generation unit 12. That is, a device capable of displaying, for example, an image, a character, a character, an icon, etc. as a response to the user is shown as an image display device 32. For example, an image or the like that prompts the user to calm is also displayed.
  • the notification device 33 generally indicates devices that perform a response to the user by some method.
  • the response is not limited to an explicit response specifying the response content.
  • a device that causes the user to perceive vibration as a vibration device is conceivable.
  • a device that emits light, emits light of various patterns, emits light of various colors, or the like can be considered as a light-emitting device other than the image display.
  • a device that changes brightness, illumination color, or the like as a lighting device is also conceivable.
  • the notification device 33 may be a device that changes the ambient temperature of the user, such as an air conditioner.
  • notification device 33 a device that emits an odor or changes the odor with a fragrance can be considered. These notification devices 33 perform necessary operations in accordance with the control signal supplied from the response generation unit 12 via the switch unit 19. These notification devices 33 can make a response that prompts the user to be calm by vibration, light, illumination, temperature, smell, or the like.
  • the audio output device 31, the image display device 32, and the notification device 33 may be any devices that can communicate with the response generation unit 12 as a home network system, for example. Alternatively, an apparatus formed integrally with the response generation unit 12 may be used.
  • the response generation unit 12 can select which of the audio output device 31, the image display device 32, and the notification device 33 is used for response output, that is, an output device as one element of the response output mode.
  • the switch units 17, 18, and 19 are on / off controlled by control signals s3, s4, and s5, respectively.
  • the switch control by these control signals s3, s4, and s5 may be performed by the response generation unit 12, or may be control from an external device. Further, the switch units 17, 18, and 19 are not particularly provided, and the response generation unit 12 may select an output to the audio output device 31, the image display device 32, and the notification device 33.
  • FIG. 2 and 3 The information processing apparatus 1 shown in FIGS. 2 and 3 includes a device having a voice recognition unit 10, an emotion recognition unit 11, and a response generation unit 12, or a device in which an ambient person detection unit 13 or a call unit 14 is added thereto. Assumed.
  • FIG. 2A is an example in which the device as the agent device 4 is provided separately from the sensor device 2 and the response device 3.
  • the sensor device 2 refers to all or part of the voice sensor 21, the image sensor 22, and the biological information sensor 23 in FIG.
  • the response device 3 refers to all or part of the audio output device 31, the image display device 32, and the notification device 33 in FIG.
  • the agent device 4 generates response data based on the sensing information from the sensor device 2 and causes the response device 3 to execute a response to the user.
  • the information processing apparatus 1 is arranged in the agent apparatus 4 as an example.
  • FIG. 2B is an example in which the agent device 4 is equipped with the sensor device 2 and the information processing device 1.
  • the agent device 4 includes a microphone as the voice sensor 21 and a camera as the image sensor 22 is assumed.
  • Such an agent device 4 controls the response device 3 such as the audio output device 31.
  • FIG. 2C is an example in which the response device 3 itself has a function as the agent device 4 and includes the information processing device 1 and the sensor device 2.
  • the response device 3 as a television receiver, a speaker device, or the like includes a microphone as the audio sensor 21 and a camera as the image sensor 22 and can respond to a user's question.
  • FIG. 3A is an example in which the information processing apparatus 1 is provided in a server 6 that can communicate via the network 5.
  • the agent device 4 is configured as a communication terminal.
  • the agent device 4 receives the sensing information from the sensor device 2, it transmits it to the server 6.
  • response data is generated by the information processing apparatus 1 and returned to the agent apparatus 4.
  • the agent device 4 controls the response device 3 according to the received response data, and executes response output to the user.
  • FIG. 3B is an example in which the information processing apparatus 1 is also provided in the server 6 that can communicate via the network 5, but the agent apparatus 4 is an example that is not a mere terminal but a device that also performs sensing and response. That is, the agent device 4 includes the sensor device 2 and the response device 3. The agent device 4 acquires sensing information by the sensor device 2 and transmits it to the server 6. In the server 6, response data is generated by the information processing apparatus 1 and returned to the agent apparatus 4. The agent device 4 executes a response output to the user by the response device 3 according to the received response data.
  • the information processing apparatus 1 including at least the voice recognition unit 10, the emotion recognition unit 11, and the response generation unit 12 performs processing to be described later, so that an appropriate response according to the emotion state of the user is performed. It can be performed.
  • a device including the information processing apparatus 1 including the voice recognition unit 10, the emotion recognition unit 11, and the response generation unit 12 can be realized as a computer device 170 as illustrated in FIG.
  • a CPU (Central Processing Unit) 171 of the computer device 170 performs various processes according to a program stored in a ROM (Read Only Memory) 172 or a program loaded from a storage unit 178 to a RAM (Random Access Memory) 173. Execute the process.
  • the RAM 173 also appropriately stores data necessary for the CPU 171 to execute various processes.
  • the CPU 171, ROM 172, and RAM 173 are connected to each other via a bus 174.
  • An input / output interface 175 is also connected to the bus 174.
  • the input / output interface 175 includes an input unit 176 including a keyboard and a mouse, a display including an LCD (Liquid Crystal Display) or an organic EL (Electro-Luminescence) panel, an output unit 177 including a speaker, and a hard disk.
  • a storage unit 178 and a communication unit 179 including a modem are connected.
  • the communication unit 179 performs communication processing via a network including the Internet.
  • a drive 180 is connected to the input / output interface 175 as necessary, and a removable medium 181 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory is appropriately mounted, and a computer program read from them is loaded. It is installed in the storage unit 178 as necessary.
  • a program constituting the software is installed from a network or a recording medium. .
  • This recording medium is configured by a removable medium 181 made of a magnetic disk, an optical disk, a magneto-optical disk, a semiconductor memory, or the like on which the program is recorded, which is distributed to distribute the program to the user.
  • a ROM 172 in which a program is recorded and a hard disk included in the storage unit 178 that are distributed to the user in a state of being incorporated in the apparatus main body in advance are also configured.
  • the voice recognition unit 10 for example, the voice recognition unit 10, the emotion recognition unit 11, the response generation unit 12, the ambient person detection unit 13, and the like are realized by the CPU 171 performing an operation based on a program.
  • the input unit 176 may be the voice sensor 21, the image sensor 22, and the biological information sensor 23.
  • the output unit 177 may be the audio output device 31, the image display device 32, and the notification device 33.
  • the response generation unit 12 uses the received voice recognition result D1, the voice recognition success / failure result D2, the emotion recognition result D3, the surrounding person detection result D4, and the busy signal D5 indicating whether or not the voice call unit is busy. Response data for response to the user is generated.
  • FIG. 5 shows cases C1, C2, C3 and C4.
  • the cases C1 to C4 are cases in which the contents of response data and the response output mode are different in each case according to the voice recognition result D1, the voice recognition success / failure result D2, and the emotion recognition result D3.
  • Case C1 is a case where it is determined that the user is calm based on the emotion recognition result D3 and it is determined that the voice recognition is successful based on the voice recognition success / failure result D2.
  • the response generation unit 12 generates response data as a normal voice response. That is, the user's inquiry content is grasped from the voice recognition result D1, and response data for the inquiry is generated.
  • the response data is voice response data corresponding to the lack of questions.
  • the response generation unit 12 generates text data of an answer to the user's question or voice data thereof as response data.
  • the response generation unit 12 will output the message "I understand” etc.
  • the response generation unit 12 generates response data for realizing a necessary operation including an audio output that is a response to the user's inquiry.
  • Case C2 is a case where it is determined that the user is calm based on the emotion recognition result D3, but it is determined that the voice recognition has failed due to the voice recognition success / failure result D2.
  • the response generation unit 12 since the user's utterance content is unknown, the agent device 4 cannot cope. Therefore, the response generation unit 12 generates response data for notifying that the voice recognition has failed. Specifically, response data for outputting a message voice indicating that it could not be heard (for example, “Please tell me again because I could not hear it”) is generated.
  • Case C3 is a case where it is determined that the user is not calm based on the emotion recognition result D3, and on the other hand, the voice recognition success is determined based on the voice recognition success / failure result D2.
  • the response generation unit 12 generates response data so as to make a response according to the voice recognition result and to make a response aimed at calming the emotional state of the user. For example, voice as an answer to a user's question and response data for performing necessary device control are generated, and response data including voice content that prompts the user to settle down is generated. As a result, the user is informed that it is not calm and is calmed down.
  • Case C4 is a case in which it is determined that the user is not calm based on the emotion recognition result D3, and that the voice recognition failure is determined based on the voice recognition success / failure result D2.
  • the response generation unit 12 generates response data so as to make a response for the purpose of calming the emotional state of the user. For example, in this case, response data of voice content that prompts the user to calm down is generated. As a result, the user is informed that it is not calm and is calmed down. In this case in particular, it is desirable not to include a voice indicating that it was not heard.
  • the response generation unit 12 changes the response content based on the recognition result of the speech recognition unit 10 using the recognition result of the emotion recognition unit 11.
  • a response is basically made in an output mode as an audio output by the audio output device 31, and in some cases, necessary device control is also performed.
  • the response generation unit 12 can perform case classification based on the surrounding person detection result D4 sent from the surrounding person detection unit 13 to change the content or output mode of the response data. For example, when it is determined that there is no person other than the user to be responded as the surrounding person detection result D4, response data is generated in any of cases C1 to C4. On the other hand, when there is another person around, case C11 Generate response data and set the response output mode as in C14.
  • Case C11 is a case where it is determined that the user is calm based on the emotion recognition result D3, it is determined that the voice recognition is successful based on the voice recognition success / failure result D2, and there are others around.
  • response data is generated as in the case C1 described above. This is because there is no inconvenience even when responding with voice.
  • An example in which the audio content is different from the case C1 is also conceivable. For example, when there is no other person, the tone is clear, but when there is another person, the tone of the response voice is carefully adjusted.
  • Case C12 is a case where it is determined that the user is calm based on the emotion recognition result D3, but it is determined that the voice recognition has failed due to the voice recognition success / failure result D2, and it is further determined that there is another person around.
  • the agent device 4 since the user's utterance content is not known, the agent device 4 cannot cope. Therefore, the response generation unit 12 generates response data for notifying that the voice recognition has failed. In this case, however, the response data is generated so that a message indicating that the message cannot be heard is output in an output mode other than voice. For example, the message is displayed in an image display mode that is not easily noticed by surrounding people.
  • Case C13 is a case where it is determined that the user is not calm based on the emotion recognition result D3, and on the other hand, it is determined that the voice recognition is successful based on the voice recognition success / failure result D2, and it is further determined that there is another person around.
  • the response generation unit 12 generates response data so as to make a response according to the voice recognition result and to make a non-voice response for the purpose of calming the emotional state of the user. That is, response data that prompts the user to settle down is generated. It is assumed that the response is performed in a non-voice output mode. For example, control data such as light emission, predetermined pattern vibration, fragrance spraying, lighting, air conditioner, etc. is added to the response data.
  • Case C14 is a case where it is determined that the user is not calm based on the emotion recognition result D3, it is further determined that voice recognition has failed due to the voice recognition success / failure result D2, and it is determined that there is another person around.
  • the response generation unit 12 generates response data so as to make a non-voice response for the purpose of calming the emotional state of the user.
  • response data for generating an operation other than a voice that prompts the user to calm down is generated.
  • control data such as light emission, vibration of a predetermined pattern, fragrance spraying, lighting, air conditioner, etc. is added to the response data. In this case in particular, it is desirable not to include a notification that it has not been heard.
  • the response generator 12 executes a response intended to calm the user in an output mode other than voice. Response data is generated. As a result, the user can restore a calm emotional state without hurting self-esteem or embarrassing others.
  • the response generation unit 12 can change the content or output mode of the response data. For example, if the call is not in progress, the response generation unit 12 generates response data in any of cases C1 to C4, while generating the response data in the cases C21 to C24 during the call.
  • Case C21 is a case where it is determined that the user is calm based on the emotion recognition result D3, it is determined that the voice recognition is successful based on the voice recognition success / failure result D2, and it is determined that the call is in progress.
  • response data is generated as in the case C1 described above. This is because there is no inconvenience even when responding with voice.
  • response data different from the case C1 may be generated.
  • a three-party call by the user, the call partner, and the agent device 4 is also possible. Accordingly, it is assumed that it is preferable to respond to the user's inquiry so that the other party can hear the voice.
  • Case C22 is a case where it is determined that the user is calm based on the emotion recognition result D3, but it is determined that the voice recognition has failed due to the voice recognition success / failure result D2, and it is further determined that the call is in progress.
  • the agent device 4 since the user's utterance content is not known, the agent device 4 cannot cope. Therefore, the response generation unit 12 generates response data for notifying that the voice recognition has failed.
  • a message indicating that it was not heard is output in an output mode other than voice. For example, a message is displayed using the image display device 32. This prevents the call partner from being noticed and prevents the user from being ashamed of the call partner.
  • Case C23 is a case where it is determined that the user is not calm based on the emotion recognition result D3, and on the other hand, it is determined that the voice recognition is successful based on the voice recognition success / failure result D2, and it is further determined that the call is in progress.
  • the response generation unit 12 generates response data so as to make a response according to the voice recognition result and to make a non-voice response for the purpose of calming the emotional state of the user. That is, response data that prompts the user to settle down is generated. It is assumed that the response is performed in a non-voice output mode. For example, control data such as light emission, predetermined pattern vibration, fragrance spraying, lighting, air conditioner, etc. is added to the response data.
  • response data is generated so as to be performed by voice so that the other party can hear it.
  • Case C24 is a case where it is determined that the user is not calm based on the emotion recognition result D3, and further that it is determined that the voice recognition has failed due to the voice recognition success / failure result D2, and it is determined that a call is in progress.
  • the response generation unit 12 generates response data so as to make a non-voice response for the purpose of calming the emotional state of the user.
  • response data for generating an operation other than a voice that prompts the user to calm down is generated.
  • control data such as light emission, vibration of a predetermined pattern, fragrance spraying, lighting, air conditioner, etc. is added to the response data.
  • the response generation unit 12 generates response data so as to change the content and output mode of the response for the purpose of calming the user depending on whether or not a call is in progress. .
  • the user can restore a calm emotional state without damaging self-esteem or embarrassing the call partner.
  • a first processing example of the information processing apparatus 1 corresponding to each case as described above will be described with reference to FIG. FIG. 6 shows this from the viewpoint of processing of the response generation unit 12 that has received the results of the processing of the voice recognition unit 10 and the emotion recognition unit 11. Therefore, the processes of the voice recognition unit 10 and the emotion recognition unit 11 are executed together with the process of FIG.
  • the first processing example is a processing example corresponding to cases C1, C2, C3, and C4 in FIG.
  • step S100 the response generation unit 12 acquires the speech recognition result D1 and the speech recognition success / failure result D2 from the speech recognition unit 10.
  • step S101 the response generation unit 12 confirms the voice recognition success / failure result D2, and branches the process depending on whether or not the voice recognition by the voice recognition unit 10 is successful. If the speech recognition is successful, the response generation unit 12 analyzes the content of the speech recognition result D1 in step S102, and the recognized speech is a user inquiry to the agent device 4 and whether a response is required. Determine whether. For example, if it is determined that the response is not required because it is not an inquiry to the agent device 4, the processing of FIG.
  • the response generation unit 12 proceeds to step S103, and generates response data indicating the response content. At this point, for example, text data is generated as content that responds to the content of the inquiry.
  • step S106 the response generation unit 12 acquires the emotion recognition result D3 from the emotion recognition unit 11, and recognizes the emotion state of the user.
  • the above is a case corresponding to case C1 of FIG.
  • step S108 If the voice recognition flag Fa is not 0 in step S108, it means that the voice recognition has failed, so that no response data is generated in step S103. Accordingly, the response generation unit 12 proceeds to step S109, generates response data requesting the user to re-utter, and outputs the response data to the voice output device 31 in step S113. As a result, as case C2, a voice response requesting re-speech is made because the voice could not be heard.
  • step S113 response data is output. That is, the text data as the response data generated in step S103 or the voice signal corresponding to the text data is output to the voice output device 31, and the text data for promoting calmness or the voice signal corresponding to the text data is output as voice. Output to the device 31. As a result, a response voice prompting calmness is output from the voice output device 31 together with an answer to the inquiry. This is a case corresponding to case C3.
  • the response data generated in step S103 may be changed, or the response data may be changed to change the voice to be pronounced or the tone of the voice. For example, the response data is changed so that the voice becomes gentler than usual.
  • step S110 If the voice recognition flag Fa is not 0 in step S110, it means that voice recognition has failed, so no response data has been generated.
  • the response generation unit 12 proceeds to step S111, generates response data that prompts the user to calm, and outputs the response data to the voice output device 31 in step S113. Thereby, a response voice prompting calmness is output. This is a case corresponding to case C4.
  • FIG. 7 shows the results of the processing of the voice recognition unit 10, the emotion recognition unit 11, and the surrounding person detection unit 13, and the viewpoint of the processing of the response generation unit 12 that has received the busy signal D5. Therefore, the processing of each unit such as the voice recognition unit 10, the emotion recognition unit 11, the surrounding person detection unit 13, and the notification device 33 is executed together with the processing of FIG.
  • This second processing example is a processing example in the case of corresponding to all cases C1 to C24 in FIG. The same processes as those in FIG. 6 are denoted by the same step numbers to avoid redundant description.
  • Steps S100 to S107 in FIG. 7 are the same as those in FIG.
  • the response generation unit 12 proceeds to step S128 and selects the voice output mode, that is, the output by the voice output device 31, as the response output mode.
  • the image display device 32 and the notification device 33 may be used in combination.
  • step S160 response data is output. That is, the text data as the response data generated in step S103 or a voice signal corresponding to the text data is output to the voice output device 31. Thereby, a response voice is output from the voice output device 31. This is a case corresponding to any of cases C1, C11, and C21 of FIG.
  • step S123 the response generation unit 12 acquires the surrounding person detection result D4 from the surrounding person detection unit 13.
  • step S ⁇ b> 124 the response generation unit 12 branches the process depending on whether there is a person around. If it is determined that there is no person in the vicinity, the response generation unit 12 checks the busy signal D5 in step S125, and branches depending on whether or not the user is busy.
  • the process of the response generation unit 12 branches the process in steps S130 and S131.
  • the response generation unit 12 confirms the voice recognition flag Fa in step S130, and confirms the emotion recognition flag Fm in step S131.
  • step S132 response data is added / modified / changed according to case C3 and a response output mode is set.
  • the response generation unit 12 adds response data that prompts calmness to the response data as the response generated in step S103. You may make it change the tone of the response data produced
  • generation part 12 selects the audio
  • step S160 response data is output. As a result, the response output of the content / mode described in case C3 is performed.
  • step S124 When it is detected in step S124 that there is a person around, the process of the response generation unit 12 branches the process in steps S140 and S141.
  • the response generation unit 12 confirms the speech recognition flag Fa in step S140, and confirms the emotion recognition flag Fm in step S141.
  • step S144 response data is added / modified / changed according to case C13 and a response output mode is set.
  • the response generation unit 12 adds response data that prompts calmness to the response data as the response generated in step S103.
  • the response data for prompting calm is not limited to the text expression that outputs a message or the like, but may be control data of the notification device 33. Further, the text expression of the response data generated in step S103 may be changed to a gentle expression, for example.
  • generation part 12 sets the response output mode corresponding to each response data.
  • the audio output device 31 or the image display device 32 is selected for the response data as an answer.
  • response data that prompts calmness an output other than voice by the notification device 33 is selected.
  • response data is output.
  • the response output of the content / mode described in case C13 is performed.
  • step S125 When it is determined in step S125 that the user is talking, the processing of the response generation unit 12 branches in steps S150 and S151.
  • the response generation unit 12 confirms the speech recognition flag Fa in step S150, and confirms the emotion recognition flag Fm in step S151.
  • step S144 the response data is added / modified / changed according to the case C23 and the response output mode is set in the same manner as described above.
  • step S160 response data is output. As a result, the response output of the content / mode described in case C23 is performed.
  • the same processing contents are used in cases C13 and C23, but the processing contents may be changed in these cases.
  • the agent device 4 that the user communicates through voice is intended to calm the user when the emotional state of the user is not calm and speech recognition is difficult. As a result, a smooth voice recognition can be realized. Even if the speech recognition is successful, if it is determined that the emotional state of the user is not calm, the speech recognition may be difficult thereafter, so a response intended to make the user calm Is realized.
  • step S ⁇ b> 106 the processing is not particularly performed when it is determined that the response is unnecessary in step S ⁇ b> 102, but the processing may proceed to step S ⁇ b> 106 also in that case. That is, even when the inquiry is not made to the agent device 4, a response that prompts calmness is made according to the user's emotion. Thereby, the success probability of the speech recognition in the subsequent inquiry can be increased. Also, even when the user expresses feelings of anger to the people around him or to the other party, an output that encourages only the user to be quiet so that they can not be known, and the emotion of the user becomes calm I can expect that.
  • the emotion recognizing unit 11 recognizes in which category the user's emotion is calm or calm. Examples of emotional states that are not calm include grief, joy, anger, and upset.
  • the response generation unit 12 receives the emotion recognition result D3 including such an emotion category, and sets a response to the user based on the recognition result in step S121.
  • FIG. An example is shown in FIG.
  • a mobile terminal such as a smartphone is the agent device 4 and includes the information processing device 1.
  • the response generation unit 12 may, for example, Instead of pointing out emotions directly as in the case of “Sho?”, Response data is generated so that the user responds so that the user feels a calm emotion. As a result, the user can have a gentle communication as if talking to a human.
  • the response generation unit 12 notifies the user by vibration, for example, instead of notifying the user by voice. .
  • the response generation unit 12 it is possible to prompt the user to regain a calm state without being known to the other party in the call or others around him.
  • the response generation unit 12 It is also possible to return a response as in normal speech recognition without considering the state.
  • the response generation unit 12 may, for example, say “I'm sorry, say once more. It is also possible to return a response prompting the user to speak again while apologizing.
  • the information processing apparatus 1 includes a voice recognition unit 10 that recognizes a voice uttered by a user, an emotion recognition unit 11 that recognizes a user's emotion based on detection information about the user, and a recognition result of the voice recognition unit 10 And a response generation unit 12 that generates response data in which an element that makes the user's emotion calm is added to the response corresponding to the voice uttered by the user based on the recognition result of the emotion recognition unit 11. ing.
  • the information processing apparatus 1 can respond to a user's question as an agent apparatus that returns a response by a dialog with the user, but in addition, when the user's emotion is in a special state In addition, it is possible to respond accordingly. For example, when the user is in a special emotional state such as being very happy, sad, or angry, an output that prompts the user to return to calm is performed. This calms the user and encourages calm speech. In addition, it is possible to encourage people not to be excited and to maintain an appropriate living situation. Therefore, it becomes an appropriate response as a device for assisting the user. When the user is in an excited state, the voice becomes difficult to hear due to a quick mouth or a rough voice.
  • the success rate of the voice recognition decreases when the user is in an excited state. Therefore, by prompting the user to be calm when in a special emotional state as described above, the user is guided to a state of speaking calmly and the success rate of voice recognition is increased. Therefore, the response as the agent device 4 is also improved, and the device performance is substantially improved.
  • the response generation unit 12 checks whether the recognition result of the emotion recognition unit 11 is calm and whether the voice recognition of the voice recognition unit 10 is successful.
  • the response generation unit 12 generates different response data when the emotion recognition result is calm and the speech recognition is successful (case C1), and when the emotion recognition result is non-silence and the speech recognition is successful (case C3).
  • An example to do That is, when the speech recognition is successful and the content of the inquiry can be determined, the content of the answer to the inquiry can be added to the response data. Then, the response data is made different depending on whether or not the user is calm.
  • the response generation unit 12 is different between the case where the emotion recognition result is calm and the voice recognition fails (case C2) and the case where the emotion recognition result is non-silent and the voice recognition fails (case C4).
  • An example of generating response data was described. That is, when voice recognition fails, for example, response data is generated so as to give a response indicating that the user has not been heard, but the content of the response data is changed depending on whether or not the user is calm. For example, when the user recognizes that he / she is not calm, rather than pointing out that he / she cannot hear it, a word that prompts him / her to be calm is generated as response data and is output as voice. Thereby, it respond
  • the case where the user's words cannot be heard is often because the user is excited. Therefore, it can be expected that words can be easily heard just by encouraging the user to remain calm. In addition, it is also suitable for the purpose of calming the user not to point out that he / she could not hear when feelings are high.
  • the response generation unit 12 has a case where the emotion recognition result is non-contained and the speech recognition is successful (case C3), and a case where the emotion recognition result is non-contained and the speech recognition fails (case C4).
  • An example of generating different response data was given. That is, when the user's emotion is not calm, the content of the response is changed depending on whether the voice recognition succeeds or fails. For example, when the user recognizes that he / she is not calm, if he / she can hear it, a word for prompting the user to settle down is added along with a response to the content. If it is not heard, only the words that prompt the user to remain calm rather than pointing out that they cannot be heard are generated as response data.
  • response data is set like this, and output by voice.
  • response data is set like this, and output by voice.
  • the user's emotion is not calm, it is possible to take a response according to whether or not the voice content has been heard.
  • a user's question is heard, it is suitable for prompting the user calmly by appropriately responding to the question.
  • the case where the user's word cannot be heard is often caused by the user's excited tone, so it is easy to hear the word simply by encouraging the user to remain calm. Can be expected.
  • it is also suitable for the purpose of calming a user not to point out that it was not able to hear when feelings are high.
  • the response generation unit 12 displays the emotion recognition result when the emotion recognition result is calm and the voice recognition is successful (case C1), when the emotion recognition result is calm and the voice recognition fails (case C2).
  • case C1 An example has been described in which different response data is generated for a case where speech recognition has succeeded in a non-silence (case C3) and a case in which speech recognition has failed because the emotion recognition result has been non-silent (case C4). That is, the content of the response is changed according to the combination of whether the user's emotion is calm and whether the voice recognition has succeeded or failed.
  • the information processing apparatus 1 can execute appropriate responses assuming a combination of whether the user's emotional state and the user's question can be recognized.
  • the information processing apparatus 1 includes a surrounding person detection unit 13 that detects whether or not there is a person around the user, and the response generation unit 12 generates a response output based on the detection result of the surrounding person detection unit 13.
  • a surrounding person detection unit 13 that detects whether or not there is a person around the user
  • the response generation unit 12 generates a response output based on the detection result of the surrounding person detection unit 13.
  • An example of selecting is described (cases C11 to C14, see FIG. 7).
  • the response output mode is different from, for example, audio output, image output, light output, vibration output, temperature change output, and fragrance output.
  • a response can be expressed to the user according to the situation of whether there are people around the user. For example, when urging the user to calm down, simply speaking to the voice may cause the user to feel embarrassed or hurt self-esteem if there are people around him. Therefore, a response to the user is transmitted in a manner that is not known to the surrounding people. By telling only the user so that it can be understood, it
  • the response generation unit 12 detects that there is a person around the user based on the detection result of the surrounding person detection unit 13, the response output other than the response output that outputs the text data content of the response data by voice
  • voice response output modes for example, in voice output in which text data is output by voice, the content of the response is heard by a person other than the user. Therefore, other response modes are selected so as not to be heard by surrounding people. This prevents people around you from recognizing the response to the user, for example, “Let ’s calm down,” calming the user's self-esteem or embarrassment. Can be eliminated.
  • outputting a sound that does not represent text data for example, a specific sound or music for promoting calmness, can be considered as a response output mode that can be selected even when there are people around.
  • the response generation unit 12 when the response generation unit 12 detects that there is a person around the user based on the detection result of the surrounding person detection unit 13, the response generation unit 12 outputs a response output other than the response output representing the text data content of the response data as an image.
  • a response output other than the response output representing the text data content of the response data as an image.
  • the example which selects the aspect was given. For example, if an image representing text data is output as an image, the contents of the text data may be seen by a person other than the user depending on the mode of the monitor device. Therefore, in the case of a response that encourages calmness, display of text data should be avoided. Similarly, it is possible to prevent the surrounding people from recognizing words that prompt the user to calm down, such as “let's calm down”. Of course, outputting an image that does not represent text data, for example, a specific image for promoting calmness, can be considered as a response output mode that can be selected even when there are people around.
  • the response generation unit 12 selects the response output mode other than the response output that outputs the text data content of the response data by voice. Cases C21 to C24, see FIG.
  • the response generation unit 12 selects the response output mode other than the response output that outputs the text data content of the response data by voice. Cases C21 to C24, see FIG.
  • the emotion recognition unit 11 includes, as detection information about the user, image information obtained by imaging the user (image signal sP), user speech information (speech input signal sA), and user biometric information (biological information signal sF).
  • image signal sP image information obtained by imaging the user
  • speech information speech input signal sA
  • user biometric information biological information signal sF
  • the response generation unit 12 adds, corrects, or processes response data according to the emotion category recognized by the emotion recognition unit 11 (see FIG. 8).
  • a response according to the emotion category is possible, and a response adapted to the user's condition can be returned.
  • the speech recognition unit 10 supplies an example of supplying the response generation unit 12 with information on the success or failure of speech recognition (speech recognition success / failure result D2) and information on the recognition result of speech content (speech recognition result D1). It was. Thereby, the response generation unit 12 can appropriately determine the speech recognition result.
  • the program of the embodiment processes the processing of the voice recognition unit 10, the emotion recognition unit 11, and the response generation unit 12 shown in FIG. 6 or FIG. 7 as, for example, a CPU, a DSP, or a device including these.
  • This is a program to be executed by the apparatus 1.
  • the program according to the embodiment includes a speech recognition process for recognizing a user's voice, an emotion recognition process for recognizing a user's emotion based on detection information about the user, a recognition result in the speech recognition process, and an emotion recognition process.
  • the information processing apparatus is caused to execute response generation processing for generating response data in which an element that makes the user's emotion calm is added to the response corresponding to the voice uttered by the user It is a program.
  • the information processing apparatus 1 according to the present disclosure can be realized. That is, the apparatus has functions as a voice recognition unit 10, an emotion recognition unit 11, and a response generation unit 12.
  • Such a program can be recorded in advance in an HDD as a recording medium built in a device such as a computer device, a ROM in a microcomputer having a CPU, or the like.
  • a flexible disk CD-ROM (Compact Disc Read Only Memory), MO (Magnet optical) disk, DVD (Digital Versatile Disc), Blu-ray Disc (Blu-ray Disc (registered trademark)), magnetic disk, semiconductor memory, It can be stored (recorded) temporarily or permanently in a removable recording medium such as a memory card.
  • a removable recording medium can be provided as so-called package software.
  • Such a program can be downloaded from a removable recording medium to a personal computer or the like, or downloaded from a download site via a network such as a LAN (Local Area Network) or the Internet.
  • LAN Local Area Network
  • Such a program is suitable for providing a wide range of the information processing apparatus 1 according to the embodiment.
  • a program for example, by downloading a program to a personal computer, a portable information processing device, a mobile phone, a game device, a video device, a PDA (Personal Digital Assistant) or the like, the personal computer or the like is used as the information processing device 1 of the present disclosure.
  • the information processing apparatus 1 according to the embodiment can be realized by operating a CPU in various devices such as an interactive robot and a home appliance by the program.
  • this technique can also take the following structures.
  • a voice recognition unit for recognizing user-generated voice;
  • An emotion recognition unit for recognizing the user's emotion based on detection information about the user;
  • response data in which an element that makes the user's emotion calm is added to the response corresponding to the voice uttered by the user.
  • An information processing apparatus comprising: a response generation unit for generating.
  • the response generator is Check whether the recognition result of the emotion recognition unit is calm and whether the voice recognition of the voice recognition unit is successful, The information processing apparatus according to (1), wherein response data is generated differently when the emotion recognition result is calm and the speech recognition is successful, and when the emotion recognition result is non-silence and the speech recognition is successful.
  • the response generator is Check whether the recognition result of the emotion recognition unit is calm and whether the voice recognition of the voice recognition unit is successful, The information processing apparatus according to (1) or (2), wherein different response data is generated when the emotion recognition result is calm and the speech recognition fails, and when the emotion recognition result is non-silent and the speech recognition fails. .
  • the response generator is Check whether the recognition result of the emotion recognition unit is calm and whether the voice recognition of the voice recognition unit is successful, The response data is generated differently depending on whether the emotion recognition result is non-silent and the speech recognition is successful, and when the emotion recognition result is non-calm and the speech recognition is unsuccessful. Any one of (1) to (3) Information processing device.
  • the response generator is Check whether the recognition result of the emotion recognition unit is calm and whether the voice recognition of the voice recognition unit is successful, When the emotion recognition result is calm and the speech recognition is successful, If the emotion recognition result is calm and speech recognition fails, If the emotion recognition result is not calm and the speech recognition is successful, When the emotion recognition result is not calm and speech recognition fails, The information processing apparatus according to any one of (1) to (4), wherein different response data is generated.
  • An ambient detection unit that detects whether there is a person around the user; The information processing apparatus according to any one of (1) to (5), wherein the response generation unit selects a response output mode based on a detection result of the surrounding person detection unit.
  • a response output mode other than the response output that outputs the text data content of the response data by voice is used.
  • the information processing apparatus according to (6) which is selected.
  • the response generation unit selects a response output mode other than the response output that represents the text data content of the response data as an image.
  • the response generation unit selects a response output mode other than the response output that outputs the text data content of the response data by voice.
  • the information processing apparatus according to any one of the above.
  • the emotion recognition unit recognizes the user's emotion by using at least one of image information obtained by imaging the user, utterance voice information of the user, and biological information of the user as detection information regarding the user (1) Thru
  • the information processing apparatus according to any one of (1) to (10), wherein the response generation unit adds, corrects, or processes response data according to a category of emotion recognized by the emotion recognition unit.
  • the voice recognition unit supplies information on success or failure of voice recognition and information on a recognition result of voice content to the response generation unit.
  • a speech recognition procedure for recognizing user-generated speech An emotion recognition procedure for recognizing the user's emotion based on detection information about the user; Based on the recognition result in the voice recognition procedure and the recognition result in the emotion recognition procedure, a response that adds an element that makes the user's emotion calm to the response corresponding to the voice uttered by the user Response generation procedure for generating data, Information processing method for executing information processing apparatus.
  • Voice recognition processing for recognizing user-generated voice; Emotion recognition processing for recognizing the user's emotion based on detection information about the user; Based on the recognition result in the voice recognition processing and the recognition result in the emotion recognition processing, a response that adds an element that makes the user's emotion calm to the response corresponding to the voice uttered by the user
  • a response generation process for generating data; For causing an information processing apparatus to execute the program.
  • SYMBOLS 1 Information processing apparatus, 2 ... Sensor apparatus, 3 ... Response apparatus, 4 ... Agent apparatus, 5 ... Network, 6 ... Server, 10 ... Voice recognition part, 11 ... Emotion recognition part, 12 ... Response generation part, 13 ... Ambient Human detection unit, 14 ... Call unit, 15, 16, 17, 18, 19 ... Switch unit, 21 ... Audio sensor, 22 ... Image sensor, 23 ... Biological information sensor, 31 ... Audio output device, 32 ... Image display device, 33 ... Notification device

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • General Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Child & Adolescent Psychology (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

ユーザの音声による問いかけに応答する装置として、ユーザの感情を安定させ、落ち着いた発話が行われるように促す。このために、ユーザの発した音声を認識し、またユーザに関する検出情報に基づいてユーザの感情を認識する。そして音声認識結果及び感情認識結果に基づいて、ユーザの発した音声に対応する応答に、ユーザの感情が平静になるような要素が加わるようにした応答データを生成する。

Description

情報処理装置、情報処理方法、プログラム
 本技術は情報処理装置、情報処理方法、プログラムに関し、特にユーザの発話音声を認識して応答を行う技術に関する。
 ユーザの心身状況を認識する技術が知られている。例えば下記特許文献1は、ユーザの心身状況を判定する判定手段で判定されたユーザの心身状況に基づいて、提示手段による情報の提示を制御すると技術が記載されている。この場合の情報提示とは音楽、映画、ゲームなどが想定されている。
特開2005-237561号公報
 ところで近年、ユーザの発話音声を認識し、その内容に応じた制御を行う機器が開発されている。例えば「エージェント装置」と呼ばれる機器では、ユーザの問いかけに応じて音声による応答を行ったり、ネットワーク接続された各種機器の制御を行うことができるようにされている。
 このようなエージェント装置では、ユーザの発話音声の内容を正しく認識することが重要であり、音声認識技術は研究が進められているが、正しい音声内容の認識のための要素としては、ユーザ側の問題もある。
 即ち人は、感情によって発話音声が大きく左右される。例えば感情状態によっては発話音声の起伏が激しくなったり、語調が変化したり、呂律が回らなくなったりする。このように平静でない状態での発話は、音声認識が困難となる。
 そこで本技術では、音声認識を行う場合に、ユーザに対してなるべく平静な状態で発話を促すことができるようにし、もって音声認識性能の向上をはかる。
 本技術に係る情報処理装置は、ユーザの発した音声を認識する音声認識部と、前記ユーザに関する検出情報に基づいて前記ユーザの感情を認識する感情認識部と、前記音声認識部の認識結果及び前記感情認識部の認識結果に基づいて、前記ユーザの発した音声に対応する応答に、前記ユーザの感情が平静になるような要素が加わるようにした応答データを生成する応答生成部と、を備える。
 ユーザの音声による問いかけに対する応答データを生成する情報処理装置を想定する。通常は例えば音声により、ユーザの問いかけに対した応答を出力する。これに加え、ユーザの感情の認識結果により、例えばユーザが通常の感情状態でないと推定された場合は、ユーザが平静になるような応答内容や応答態様での応答出力を行う。
 上記した本技術に係る情報処理装置においては、前記応答生成部は、前記感情認識部の認識結果が平静であるか否かと、前記音声認識部の音声認識が成功したか否かを確認し、感情認識結果が平静で音声認識が成功した場合と、感情認識結果が非平静で音声認識が成功した場合とで、異なる応答データを生成することが考えられる。
 音声認識が成功して問いかけの内容が判定できることで、問いかけに対する回答内容を応答データに加えることができる。その上で、ユーザが平静であるか否かにより応答データを異なるようにする。
 上記した本技術に係る情報処理装置においては、前記応答生成部は、前記感情認識部の認識結果が平静であるか否かと、前記音声認識部の音声認識が成功したか否かを確認し、感情認識結果が平静で音声認識が失敗した場合と、感情認識結果が非平静で音声認識が失敗した場合とで、異なる応答データを生成することが考えられる。
 音声認識に失敗した場合は、例えば聞き取れなかった旨の応答を行うように応答データを生成するが、ユーザが平静であるか否かにより応答データの内容を変化させる。
 上記した本技術に係る情報処理装置においては、前記応答生成部は、前記感情認識部の認識結果が平静であるか否かと、前記音声認識部の音声認識が成功したか否かを確認し、感情認識結果が非平静で音声認識が成功した場合と、感情認識結果が非平静で音声認識が失敗した場合とで、異なる応答データを生成することが考えられる。
 即ちユーザの感情が平静でないときにおいて、音声認識が成功したか失敗したかにより、応答の内容を変化させる。
 上記した本技術に係る情報処理装置においては、前記応答生成部は、前記感情認識部の認識結果が平静であるか否かと、前記音声認識部の音声認識が成功したか否かを確認し、感情認識結果が平静で音声認識が成功した場合と、感情認識結果が平静で音声認識が失敗した場合と、感情認識結果が非平静で音声認識が成功した場合と、感情認識結果が非平静で音声認識が失敗した場合とで、異なる応答データを生成することが考えられる。
 即ちユーザの感情が平静であるか否か、及び音声認識が成功したか失敗したかの組み合わせに応じて応答の内容を変化させる。
 上記した本技術に係る情報処理装置においては、前記ユーザの周囲に人がいるか否かを検出する周囲人検出部を備え、前記応答生成部は、前記周囲人検出部の検出結果により、応答出力の態様を選択することが考えられる。
 応答出力の態様とは、例えば音声出力、画像出力、光出力、振動出力、温度変化出力、芳香出力などの別をいう。情報処理装置は、応答するユーザの周囲に他の人がいるかいないかに応じて、応答出力態様を選択する。
 上記した本技術に係る情報処理装置においては、前記応答生成部は、前記周囲人検出部の検出結果により、前記ユーザの周囲に人がいることを検知した場合、応答データのテキストデータ内容を音声で出力する応答出力以外の応答出力の態様を選択することが考えられる。
 音声応答出力の態様のうち、例えばテキストデータを音声で出力する音声出力では、その応答の内容を当該ユーザ以外の人にも聞かれてしまう。そこで周囲の人に聞かれないように、それ以外の応答態様を選択する。
 上記した本技術に係る情報処理装置においては、前記応答生成部は、前記周囲人検出部の検出結果により、前記ユーザの周囲に人がいることを検知した場合、応答データのテキストデータ内容を画像で表す応答出力以外の応答出力の態様を選択することが考えられる。
 例えばテキストデータを画像で表す画像出力すると、モニタ装置の態様によっては、そのテキストデータの内容を当該ユーザ以外の人に見られてしまうことがある。そこで平静を促すような応答の場合、テキストデータの表示も避けるようにする。
 上記した本技術に係る情報処理装置においては、前記応答生成部は、前記ユーザが通話中であると判定したときは、応答データのテキストデータ内容を音声で出力する応答出力以外の応答出力の態様を選択することが考えられる。
 通話中であることを検出した場合は、テキストデータを音声で出力する音声出力は選択せずに、他の手法で応答を行う。
 上記した本技術に係る情報処理装置においては、前記感情認識部は、ユーザに関する検出情報として、前記ユーザを撮像した画像情報、前記ユーザの発話音声情報、前記ユーザの生体情報の少なくとも1つを用いて前記ユーザの感情を認識することが考えられる。
 例えば撮像装置、マイクロホン、各種生体センサを利用する。
 上記した本技術に係る情報処理装置においては、前記応答生成部は、前記感情認識部が認識した感情のカテゴリーに応じて応答データの追加、修正、又は加工を行うことが考えられる。
 例えば単に平静であるか否かに加え、怒っている、悲しんでいる、喜んでいる等の感情のカテゴリーも判定し、応答処理に反映させる。
 上記した本技術に係る情報処理装置においては、前記音声認識部は、音声認識の成否の情報と、音声内容の認識結果の情報を前記応答生成部に供給することが考えられる。
 音声内容の認識結果とは、ユーザの発話音声の内容を例えばテキストデータとして示す情報である。音声認識部はこのような情報と、認識成否の情報を応答生成部に提供する。
 本技術に係る情報処理方法は、ユーザの発した音声を認識する音声認識手順と、前記ユーザに関する検出情報に基づいて前記ユーザの感情を認識する感情認識手順と、前記音声認識手順での認識結果及び前記感情認識手順での認識結果に基づいて、前記ユーザの発した音声に対応する応答に、前記ユーザの感情が平静になるような要素が加わるようにした応答データを生成する応答生成手順とを情報処理装置が実行する。
 本技術に係るプログラムは、上記方法の各手順の処理を情報処理装置に実行させるプログラムである。
 このような方法、プログラムにより情報処理装置による感情に応じた応答を実現する。
 本技術によれば、ユーザが音声を介してコミュニケーションするための情報処理装置において、ユーザの感情状態が平静でなく、音声を認識することが困難と見られる場合に、ユーザが平静になることを目的とした応答をすることにより、スムーズな音声認識を可能にすることができる。
 なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。
本技術の実施の形態のシステム構成のブロック図である。 実施の形態の情報処理装置の配置形態の説明図である。 実施の形態の情報処理装置の配置形態の説明図である。 実施の形態の情報処理装置のハードウエア構成のブロック図である。 実施の形態の音声認識及び感情状態に応じた応答例の説明図である。 実施の形態の情報処理装置の第1の処理例のフローチャートである。 実施の形態の情報処理装置の第2の処理例のフローチャートである。 実施の形態の感情のカテゴリーに応じた応答例の説明図である。
 以下、実施の形態を次の順序で説明する。
<1.情報処理装置を含む構成例>
<2.音声認識と感情認識に応じた応答データ及び応答態様の処理>
<3.感情カテゴリーに応じた応答データの処理>
<4.まとめ及び変形例>
<1.情報処理装置を含む構成例>
 本開示の実施の形態としての情報処理装置を含むシステム構成例について図1で説明する。
 図1には、音声認識部10、感情認識部11、応答生成部12、周囲人検出部13、通話部14、スイッチ部15,16,17,18,19、音声センサ21、画像センサ22、生体情報センサ23、音声出力装置31、画像表示装置32、通知装置33を示している。
 このうち、実施の形態の情報処理装置1は、最小限の構成としては、破線で囲ったように音声認識部10、感情認識部11、応答生成部12を備える装置とされる。
 但し情報処理装置1としては、さらに周囲人検出部13を有する構成も想定される。
 また情報処理装置1として通話部14を有する構成も想定される。
 また情報処理装置1として音声センサ21、画像センサ22、生体情報センサ23の全部又は一部を有する場合もある。
 また情報処理装置1として音声出力装置31、画像表示装置32、通知装置33の全部又は一部を有する場合もある。
 スイッチ部15~19は情報処理装置1に含まれる場合、含まれない場合、さらには存在しない場合の各種が考えられる。
 つまり、実施の形態の情報処理装置1は、音声認識部10、感情認識部11、応答生成部12を少なくとも備える装置であればよく、多様な構成例が想定される。
 情報処理装置1はいわゆるエージェント装置としての応答データを生成する。ここでいうエージェント装置とは、ユーザの発話音声を認識し、その内容に応じた応答を返したり機器制御を行う装置としている。
 なお、以下の説明において「ユーザ」とは、当該エージェント装置に問いかけを行うユーザ、又はエージェント装置が主たる対象としているユーザを指す。このような「ユーザ」以外に他の人物が周囲に存在する場合は、それらの人についてはユーザとは言わず、「他人」「人」等と表現する。
 また、「応答データ」とは、ユーザに対する応答を行うための各種の情報を指す。例えば音声応答を行うことを想定した場合、音声出力のためのテキストデータ、テキストデータを読み上げた音声信号、応答としての音楽等の音声信号は応答データに含まれる。
 また本実施の形態では音声以外の応答出力も行うが、その場合の画像信号、画像表示の制御信号、各種出力の制御信号等も応答データに含まれる。
 図1の各部を説明する。
 音声センサ21は、マイクロホンにより構成され、主にユーザの発話音声を集音し、音声入力信号sAを出力する。もちろんマイクロホンであるため、ユーザの発話音声以外の周囲の音も集音する。但し、主に人の声を認識する目的での帯域フィルタ等が設けられることもある。
 音声センサ21からの音声入力信号sAは音声認識部10、通話部14に供給される。また音声入力信号sAはスイッチ部15を介して感情認識部11にも供給可能とされる。さらに音声入力信号sAはスイッチ部16を介して周囲人検出部13にも供給可能とされる。
 画像センサ22は、撮像装置(カメラ)により構成され、周囲の光景を撮像して画像信号sPとして出力する。この画像センサ22は、主にユーザの顔や身体、周囲の人の存在などが撮像できるように設置される。
 画像センサ22からの画像信号sPはスイッチ部15を介して感情認識部11に供給可能とされる。さらに画像信号sPはスイッチ部16を介して周囲人検出部13にも供給可能とされる。
 生体情報センサ23はユーザの生体情報を検出する各種の生体センサを示している。
 生体情報とは、脈拍数、心拍数、心電図情報、筋電、呼吸情報(例えば呼吸の速さ、深さ、換気量など)、発汗、GSR(皮膚電気反応)、血圧、血中酸素飽和濃度、皮膚表面温度、脳波(例えばα波、β波、θ波、δ波の情報)、血流変化、眼の状態などである。
 具体的には生体情報センサ23は、例えば腕時計型、眼鏡型、ペンダント型などとされてユーザの身体に装着されるものや、衣服、帽子などに装着されるものなどが考えられる。また赤外線等を用いた人感センサも考えられる。
 生体情報センサ23からの生体情報信号sFはスイッチ部15を介して感情認識部11に供給可能とされる。さらに生体情報信号sFはスイッチ部16を介して周囲人検出部13にも供給可能とされる。
 なお、音声センサ21、画像センサ22、生体情報センサ23を示したが、エージェント装置を構成する場合に必ずしもこれらが全て備えられる必要はない。ユーザの発話音声を認識するために、エージェント装置としては、音声センサ21は少なくとも必要となるが、画像センサ22,生体情報センサ23は、設けられない場合も考えられる。
 感情認識部11と周囲人検出部13には、センシング情報(音声入力信号sA、画像信号sP、生体情報信号sF)の内、どれか一つを送ってもよいし、複数を送ってもよい。
 また、感情認識部11および周囲人検出部13に送られるセンシング情報は必ずしも同じものである必要はない。
 スイッチ部15,16は感情認識部11、周囲人検出部13への入力信号のスイッチとしているが、例えばこれらスイッチ部15,16は制御信号s1、s2によりオン/オフ制御される。
 これらの制御信号s1、s2によるスイッチ制御は、感情認識部11、周囲人検出部13が行っても良いし、応答生成部12の制御によるものでもよい。或いは外部機器からの制御でも良い。さらにスイッチ部15,16は特に設けられず、音声入力信号sA、画像信号sP、生体情報信号sFは、常時、感情認識部11、周囲人検出部13に供給されるようにしてもよい。
 音声認識部10は、ユーザの発した音声を認識する処理を行う。即ち音声認識部10は、音声センサ21からの音声入力信号sAを解析し、ユーザの発話音声の内容を認識する。
 そして音声認識部10は、認識した内容を示す音声認識結果D1と、認識の成否を示す音声認識成否結果D2を応答生成部12に出力する。
 音声認識結果D1は例えばテキストデータとしてユーザの発話内容を示した情報であることが考えられる。
 音声認識成否結果D2は、例えば成否を示す1ビット信号でも良いし、認識成功の確度を示す情報でもよい。例えば認識失敗、成功確度低、成功確度高、認識成功などと段階的に示す情報とされたり、成功確度を数値で示した情報などである。
 なお、音声認識部10による音声認識結果D1、音声認識成否結果D2は、感情認識部11に供給されることもある。
 感情認識部11は、ユーザに関するセンシング情報(音声入力信号sA、画像信号sP、生体情報信号sF)に基づいて、ユーザの感情を認識する処理を行う。
 感情認識部11は、音声入力信号sAによってユーザの発話音声の語調、音の強さなどを分析することで、平静状態や非平静状態を推定できる。
 また感情認識部11は、音声認識部10による音声認識結果D1、音声認識成否結果D2を入力し、例えば内容の形態素解析、ワード抽出等を行うことで、ユーザがどのような言葉遣いをしているかを判定し、感情状態の推定に用いることができる。音声認識成否結果D2による成否結果自体も、感情推定の一要素となり得る。
 また感情認識部11は、画像信号sPにより、ユーザの行動を解析できる。これにより落ち着いた行動か否かを判定するなどしてユーザの感情状態の推定できる。また感情認識部11は、ユーザの目の撮像画像から、目の動き(視線方向の変化やまばたき)を判定し、落ち着いた状態か否かの判定要素とすることもできる。
 また感情認識部11は、生体情報信号sFを解析してユーザの感情状態の推定が可能である。生体情報信号sFからは、例えばユーザの緊張状態や興奮状態、穏やかな状態、うとうとしている状態、快適、不快な状態などを判定できる。このような判定に応じてユーザの感情状態の推定を行うことができる。
 感情認識部11は、これらの感情認識処理を行い、感情認識結果D3を応答生成部12に出力する。
 なお、感情認識結果D3は、平静/非平静の2値の情報でもよいし、平静から非平静までを段階的に示した情報でもよい。
 さらには、非平静状態における感情のカテゴリーを示す情報を含むようにしてもよい。感情のカテゴリーとは、例えば喜怒哀楽などの、どのような感情状態にあるかを示すもので、例えば喜び、怒り、悲しみ、などの別をいう。
 周囲人検出部13は、周囲に人がいるか否かを検出する処理を行う。
 周囲人検出部13は音声入力信号sAにより、ユーザの周辺に他人がいるか否かを判定する。
 また周囲人検出部13は画像信号sPから、ユーザ以外の人物が撮像されているか否かを画像解析により判定することができる。
 また周囲人検出部13は、ユーザの生体情報信号sFから、周囲の人の存在を推定できる。例えば周囲に人がいるときの生体反応モデルを基準にすることで、他人の存在の可能性を推定できる。
 周囲人検出部13は、これらのような処理を単独又は複合的に行って、周囲の他人の存在の有無を判定し、周囲人検出結果D4を応答生成部12に出力する。
 周囲人検出結果D4は、周囲に他人がいるか否かの2値の情報でもよいし、可能性を段階的に、或いは数値で示す情報でもよい。他人の人数の判定情報を含めてもよい。
 通話部14は音声通話を行う部位である。
 ユーザは通話部14の機能を用いて電話回線や所定のネットワークなどを介した通話を行うことができる。
 通話部14は、通話中は通話中信号D5を応答生成部12に出力し、応答生成部12が通話中であることを認識できるようにしている。
 また通話部14は、通話音声(通話相手の声)の音声信号sHを音声出力部31に出力することができる。
 また通話部14は、ユーザ、通話相手およびエージェントの3者で会話する場合に、応答生成部12より応答生成信号D6を受信し、通話相手に送信することができる。
 応答生成部12は、音声認識部11の認識結果(音声認識結果D1、音声認識成否結果D2)及び感情認識部12の認識結果(感情認識結果D3)に基づいて、ユーザの発した音声に対応する応答に、ユーザの感情が平静になるような要素が加わるようにした応答データを生成する処理を行う。
 また応答生成部12は、周囲人検出部13からの周囲人検出結果D4により、応答データを変更したり、応答態様を設定する処理も行う。
 また応答生成部12は、通話部14からの通話中信号D5により、通話中である場合には、通話中ではない場合と比べて応答データを変更したり、応答態様を変化させる処理も行う。
 これらの応答生成部12の処理の具体例については後述する。
 応答生成部12は、応答データを例えばテキストデータとして生成したり、各種制御信号として生成する。これらの応答データに基づいた応答出力が、音声出力装置31、画像表示装置32、通知装置33の一部又は全部により行われる。
 音声出力装置31は、スピーカ及びその駆動回路(アンプ)により構成され、音声出力を行う。音声出力装置31にはスイッチ部17を介して応答生成部12からの応答データに基づく音声信号や制御信号が供給される。
 音声出力装置31は、例えば音声信号をスピーカ出力する。例えば音声出力装置31は、応答としての音声や、音楽、電子音、環境音等を、応答生成部12の制御に応じて音声出力する。
 なお音声出力装置31は、応答生成部12からの音声信号を出力するのみとしてもよいし、音源部等を備え、応答生成部12から指示された音を発生させる装置としてもよい。
 また音声出力装置31は通話部14からの通話音声信号sHの供給により通話音声を出力できる。
 画像表示装置32は、スイッチ部18を介して応答生成部12から供給された画像データに基づく画像表示や、応答生成部12からの指示による画像表示を行う。
 即ちユーザに対する応答として、例えば画像、文字、キャラクタ、アイコン等の表示を行うことができる装置を、画像表示装置32として示している。例えばユーザに平静を促すイメージ画像などの表示も行う。
 通知装置33は、ユーザに対する応答を何らかの手法で行う装置を総括的に示している。
 応答は応答内容を明示する明示的な応答に限られない。
 通知装置33としては、例えば振動装置として、ユーザにバイブレーション知覚させる装置が考えられる。
 また通知装置33としては、画像表示を行う以外の発光装置として、発光、各種パターンの発光、各種の色の発光などを行う装置も考えられる。
 また通知装置33としては、照明機器として、明暗、照明色等を変化させる装置も考えられる。
 また通知装置33としては、エアコンディショナー等として、ユーザの周囲温度を変化させる装置が考えられる。
 また通知装置33としては、芳香剤により匂いを発したり、匂いを変化させる装置が考えられる。
 これらの通知装置33はスイッチ部19を介して応答生成部12から供給された制御信号に応じて必要な動作を行う。
 これらの通知装置33は、振動、光、照明、温度、匂いなどにより、ユーザに平静を促す応答を行うことができる。
 これらの音声出力装置31、画像表示装置32、通知装置33は、例えば家庭内ネットワークシステムなどとして応答生成部12と通信を行うことができるものであれば良い。或いは応答生成部12と一体的に形成される装置でもよい。
 応答生成部12は、音声出力装置31、画像表示装置32、通知装置33のどの装置を用いて応答出力を行うか、即ち応答出力態様の一要素としての出力機器を選択できる。
 スイッチ部17、18、19は、それぞれ制御信号s3、s4、s5によりオン/オフ制御される。
 これらの制御信号s3、s4、s5によるスイッチ制御は、応答生成部12が行っても良いし、或いは外部機器からの制御でも良い。さらにスイッチ部17,18,19は特に設けられず、応答生成部12が音声出力装置31、画像表示装置32、通知装置33に対する出力を選択するものとしてもよい。
 以上の図1の構成として、情報処理装置1を含むエージェント装置が実現される。
 情報処理装置1の配置形態は多様に考えられるため、それを図2,図3で例示する。なお、図2,図3で示す情報処理装置1は、音声認識部10、感情認識部11、応答生成部12を有する装置、又はこれらに周囲人検出部13又は通話部14を加えた装置を想定している。
 図2Aは、エージェント装置4としての機器が、センサ装置2や応答装置3とは別体に設けられる例である。
 センサ装置2とは、図1の音声センサ21,画像センサ22,生体情報センサ23の全部又は一部を指す。
 応答装置3とは、図1の音声出力装置31、画像表示装置32、通知装置33の全部又は一部を指す。
 エージェント装置4は、センサ装置2からのセンシング情報に基づいて応答データを生成し、応答装置3によりユーザに対する応答を実行させる。
 この場合、エージェント装置4内に情報処理装置1が配置される例としている。
 図2Bは、エージェント装置4がセンサ装置2と情報処理装置1を装備している例である。例えばエージェント装置4が音声センサ21としてのマイクロホンや画像センサ22としてのカメラを備える例などが想定される。このようなエージェント装置4が、音声出力装置31等の応答装置3を制御する。
 図2Cは、応答装置3自体がエージェント装置4としての機能を備え、情報処理装置1、センサ装置2を備えている例である。例えばテレビジョン受像器、スピーカ装置等としての応答装置3が、音声センサ21としてのマイクロホンや画像センサ22としてのカメラを備え、ユーザの問いかけに対する応答を行うことができるようにしたものである。
 図3Aは情報処理装置1がネットワーク5を介して通信可能なサーバ6に設けられる例である。
 この場合、エージェント装置4は通信端末として構成される。エージェント装置4はセンサ装置2からのセンシング情報を受け付けると、それをサーバ6に送信する。サーバ6では情報処理装置1により応答データを生成し、エージェント装置4に返信する。
 エージェント装置4は受信した応答データに応じて応答装置3を制御し、ユーザに対する応答出力を実行させる。
 図3Bは、同じく情報処理装置1がネットワーク5を介して通信可能なサーバ6に設けられる例であるが、エージェント装置4は、単なる端末ではなく、センシング及び応答も行う機器とした例である。即ちエージェント装置4はセンサ装置2、応答装置3を備える。
 エージェント装置4はセンサ装置2によりセンシング情報を取得してサーバ6に送信する。サーバ6では情報処理装置1により応答データを生成し、エージェント装置4に返信する。エージェント装置4は受信した応答データに応じて応答装置3によりユーザに対する応答出力を実行する。
 以上の各例のように、システム形態や、実際の機器の構成は多様である。もちろん以上の例示以外にも各種考えられる。
 いずれにしても本実施の形態では、音声認識部10、感情認識部11、応答生成部12を少なくとも含む情報処理装置1が後述する処理を行うことで、ユーザの感情状態に応じた適切な応答を行うことができる。
 音声認識部10、感情認識部11、応答生成部12を含む情報処理装置1を含む機器は、例えば、図4に示されるようなコンピュータ装置170として実現できる。
 図4において、コンピュータ装置170のCPU(Central Processing Unit)171は、ROM(Read Only Memory)172に記憶されているプログラム、または記憶部178からRAM(Random Access Memory)173にロードされたプログラムに従って各種の処理を実行する。RAM173にはまた、CPU171が各種の処理を実行する上において必要なデータなども適宜記憶される。
 CPU171、ROM172、およびRAM173は、バス174を介して相互に接続されている。このバス174にはまた、入出力インタフェース175も接続されている。
 入出力インタフェース175には、キーボード、マウスなどよりなる入力部176、LCD(Liquid Crystal Display)或いは有機EL(Electro-Luminescence)パネルなどよりなるディスプレイ、並びにスピーカなどよりなる出力部177、ハードディスクなどより構成される記憶部178、モデムなどより構成される通信部179が接続される場合がある。通信部179は、インターネットを含むネットワークを介しての通信処理を行う。
 入出力インタフェース175にはまた、必要に応じてドライブ180が接続され、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア181が適宜装着され、それらから読み出されたコンピュータプログラムが、必要に応じて記憶部178にインストールされる。
 上述した音声認識部10、感情認識部11、応答生成部12、周囲人検出部13等をソフトウエアにより実行させる場合には、そのソフトウエアを構成するプログラムが、ネットワークや記録媒体からインストールされる。
 この記録媒体は、ユーザにプログラムを配信するために配布される、プログラムが記録されている磁気ディスク、光ディスク、光磁気ディスク、若しくは半導体メモリなどよりなるリムーバブルメディア181により構成される。或いは、装置本体に予め組み込まれた状態でユーザに配信される、プログラムが記録されているROM172や、記憶部178に含まれるハードディスクなどでも構成される。
 このようなコンピュータ装置170において、例えばCPU171がプログラムに基づく動作を行うことで音声認識部10、感情認識部11、応答生成部12、周囲人検出部13等が実現される。
 入力部176が音声センサ21、画像センサ22、生体情報センサ23とされる場合もある。
 出力部177が音声出力装置31、画像表示装置32、通知装置33とされる場合もある。
<2.音声認識と感情認識に応じた応答データ及び応答態様の処理>
 以下、実施の形態の音声認識と感情認識に応じた応答データの生成について説明し、また応答態様を変化させることについて説明する。これは主に応答生成部12による処理の具体例となる。
 応答生成部12は、送られてきた音声認識結果D1、音声認識成否結果D2、感情認識結果D3、周囲人検出結果D4および音声通話部からの通話中か否かを示す通話中信号D5を用いて、ユーザへの応答のための応答データを生成する。
 この際、各入力に応じて次の通り応答を生成する。図5にケースC1、C2,C3,C4として示している。
 このケースC1~C4は、音声認識結果D1、音声認識成否結果D2、感情認識結果D3に応じた各場合として、応答データの内容や応答出力態様が異なるケースである。
 ケースC1は、感情認識結果D3によりユーザが平静であると判定され、音声認識成否結果D2により音声認識成功と判定された場合である。
 この場合、応答生成部12は通常の音声応答としての応答データを生成する。即ち音声認識結果D1によりユーザの問いかけ内容を把握し、その問いかけに対する応答データを生成する。応答データは問い欠けに対応する音声の応答データとする。例えば応答生成部12は、ユーザの質問に対する回答のテキストデータ、或いはその音声データを応答データとして生成する。
 もちろんユーザが何かを依頼する問いかけを行ったような場合、例えば「明かりをつけて」と言った場合は、応答生成部12は、音声により「わかりました」等の出力を行うとともに、通知装置33の1つである照明装置を制御して点灯を実行させる制御も行うように、音声応答と機器制御の情報を含む応答データを生成する。
 いずれにしてもこのケースC1では、応答生成部12は、ユーザの問いかけに対して返事となる音声出力を含む必要動作を実現するための応答データを生成する。
 ケースC2は、感情認識結果D3によりユーザが平静であると判定されたが、音声認識成否結果D2により音声認識失敗と判定された場合である。
 この場合、ユーザの発話内容がわからないため、エージェント装置4としては対応できない。そこで応答生成部12は、音声認識に失敗した旨を通知するための応答データを生成する。具体的には聞き取れなかった旨のメッセージ音声(例えば「聞き取れなかったのでもう一度言ってくれませんか」等)を出力するための応答データを生成する。
 ケースC3は、感情認識結果D3によりユーザが平静ではないと判定され、一方、音声認識成否結果D2により音声認識成功と判定された場合である。
 この場合、応答生成部12は、音声認識結果に応じた応答をするとともに、ユーザの感情状態が平静になることを目的とした応答を行うように、応答データを生成する。
 例えばユーザの問いかけに対する回答としての音声や、必要な機器制御を行うための応答データを生成するとともに、ユーザに落ち着くことを促す音声内容を含む応答データを生成する。これにより、ユーザに対して平静でないことを伝え、落ち着かせるようにする。
 ケースC4は、感情認識結果D3によりユーザが平静ではないと判定され、さらに音声認識成否結果D2により音声認識失敗と判定された場合である。
 この場合、応答生成部12は、ユーザの感情状態が平静になることを目的とした応答をするように、応答データを生成する。
 例えばこの場合は、ユーザに落ち着くことを促す音声内容の応答データを生成する。これにより、ユーザに対して平静でないことを伝え、落ち着かせるようにする。特にこの場合は、聞き取れなかった旨の音声は含まないようにすることが望ましい。
 例えば以上のケースC1~C4のように応答生成部12は、音声認識部10の認識結果による応答内容を、感情認識部11の認識結果を用いて異なるようにする。
 このケースC1~C4では、基本的に音声出力装置31による音声出力としての出力態様で応答を行い、場合によっては必要な機器制御も行うことになる。
 応答生成部12は、さらに、周囲人検出部13から送られた周囲人検出結果D4に基づいて場合分けを行い、応答データの内容又は出力態様を異なるようにすることもできる。
 例えば、周囲人検出結果D4として周囲に応答対象のユーザ以外に人がいないとされた場合は、ケースC1~C4のいずれかで応答データを生成する一方、周囲に他人がいる場合は、ケースC11~C14のような応答データ生成や応答出力態様の設定を行う。
 ケースC11は、感情認識結果D3によりユーザが平静であると判定され、音声認識成否結果D2により音声認識成功と判定され、かつ周囲に他人がいると判定された場合である。
 この場合、上述のケースC1と同様に応答データを生成する。特に音声で応答しても不都合はないからである。
 なお、ケースC1とは音声内容を異なるようにするなどの例も考えられる。例えば他人がいない場合は打ち解けた口調とするが、他人がいる場合は応答音声の口調を丁寧にするなどである。
 ケースC12は、感情認識結果D3によりユーザが平静であると判定されたが、音声認識成否結果D2により音声認識失敗と判定され、さらに周囲に他人がいると判定された場合である。
 この場合、ケースC2と同様にユーザの発話内容がわからないため、エージェント装置4としては対応できない。そこで応答生成部12は、音声認識に失敗した旨を通知するための応答データを生成する。
 但しこの場合、音声以外の出力態様で、聞き取れなかった旨のメッセージを出力するように応答データを生成する。例えば周囲の人に気づかれにくいような画像表示態様によりメッセージ表示を行う。
 ケースC13は、感情認識結果D3によりユーザが平静ではないと判定され、一方、音声認識成否結果D2により音声認識成功と判定され、さらに周囲に他人がいると判定された場合である。
 この場合、応答生成部12は、音声認識結果に応じた応答をするとともに、ユーザの感情状態が平静になることを目的とした非音声の応答を行うように、応答データを生成する。
 即ちユーザに落ち着くことを促す応答データを生成する。これは非音声の出力態様で応答を行うものとする。例えば発光、所定パターンの振動、芳香剤散布、照明、エアコン等の制御データを応答データに加える。
 発光パターンや振動により平静でないことを通知したり、照明をゆっくり落としたり、芳香剤により安らぎを与えたり、エアコンにより、より快適な温度にするなどである。
 ユーザの問いかけに対する回答としては、音声で行っても良いし、ユーザが平静でないことを考慮して文字表示等で行うようにしてもよい。また音声で出力する場合は、出力音声を、優しい口調、穏やかな口調となるような制御データを生成したり、そのような音声信号を生成したりしてもよい。
 ケースC14は、感情認識結果D3によりユーザが平静ではないと判定され、さらに音声認識成否結果D2により音声認識失敗と判定され、かつ周囲に他人がいると判定された場合である。
 この場合、応答生成部12は、ユーザの感情状態が平静になることを目的とした非音声の応答をするように、応答データを生成する。
 例えばこの場合は、ユーザに落ち着くことを促す音声以外の動作を実行させる応答データを生成する。例えば発光、所定パターンの振動、芳香剤散布、照明、エアコン等の制御データを応答データに加える
 これにより、ユーザに対して平静でないことを伝え、落ち着かせるようにする。特にこの場合は、聞き取れなかった旨の通知は含まないようにすることが望ましい。
 なお、ユーザに平静を促す応答としては、「落ち着きましょう」等のメッセージを 画像表示装置32で表示させるという出力態様もあり得るが、このケースC14の場合は、このような平静を促す内容を明示する出力は望ましくない。周囲の人に見られる可能性があるためである。
 以上のケースC11~C14のように応答生成部12は、周囲に人がいると検出された場合は、ユーザに平静になることを目的とした応答については、音声以外の出力態様で実行するように応答データを生成する。これにより、ユーザが自尊心を傷つけられたり、他人に恥ずかしい思いを抱くことなく、平静な感情状態を取り戻すようにしむける。
 さらに応答生成部12は、ユーザが通話中である場合には、応答データの内容又は出力態様を異なるようにすることもできる。
 例えば、通話中でなければ、応答生成部12はケースC1~C4のいずれかで応答データを生成する一方、通話中はケースC21~C24のように応答データを生成する。
 ケースC21は、感情認識結果D3によりユーザが平静であると判定され、音声認識成否結果D2により音声認識成功と判定され、かつ通話中と判定された場合である。
 この場合、上述のケースC1と同様に応答データを生成する。特に音声で応答しても不都合はないからである。もちろんケースC1とは異なる応答データを生成してもよい。
 なお、ユーザ、通話相手、及びエージェント装置4による三者通話も可能である。従って、ユーザの問いかけに対して、通話相手にも聞こえるように音声応答を行うことが好適となる場合が想定される。
 或いは、ユーザの補助として通話を解析するということも考えられる。その場合、通話相手に気づかれないように通話中のユーザにアドバイス等をするために、音声以外の出力態様で応答を行うように応答データを生成することも考えられる。
 ケースC22は、感情認識結果D3によりユーザが平静であると判定されたが、音声認識成否結果D2により音声認識失敗と判定され、さらに通話中と判定された場合である。
 この場合、ケースC2と同様にユーザの発話内容がわからないため、エージェント装置4としては対応できない。そこで応答生成部12は、音声認識に失敗した旨を通知するための応答データを生成する。但し、音声以外の出力態様で、聞き取れなかった旨のメッセージを出力する。例えば画像表示装置32を用いてメッセージを表示するなどとする。これにより通話相手に気づかれないようにし、ユーザが通話相手に対して恥ずかしく思うことがないようにする。
 ケースC23は、感情認識結果D3によりユーザが平静ではないと判定され、一方、音声認識成否結果D2により音声認識成功と判定され、さらに通話中と判定された場合である。
 この場合、応答生成部12は、音声認識結果に応じた応答をするとともに、ユーザの感情状態が平静になることを目的とした非音声の応答を行うように、応答データを生成する。
 即ちユーザに落ち着くことを促す応答データを生成する。これは非音声の出力態様で応答を行うものとする。例えば発光、所定パターンの振動、芳香剤散布、照明、エアコン等の制御データを応答データに加える。
 ユーザの問いかけに対する回答としては、音声で行うように応答データを生成し、通話相手にも聞こえるようにする。
 ケースC24は、感情認識結果D3によりユーザが平静ではないと判定され、さらに音声認識成否結果D2により音声認識失敗と判定され、かつ通話中と判定された場合である。
 この場合、応答生成部12は、ユーザの感情状態が平静になることを目的とした非音声の応答をするように、応答データを生成する。
 例えばこの場合は、ユーザに落ち着くことを促す音声以外の動作を実行させる応答データを生成する。例えば発光、所定パターンの振動、芳香剤散布、照明、エアコン等の制御データを応答データに加える
 これにより、ユーザに対して平静でないことを伝え、落ち着かせるようにする。特にこの場合は、聞き取れなかった旨の通知は含まないようにすることが望ましい。
 なお、通話中であって、通話相手には平静を促す応答が気づかれない態様として、「落ち着きましょう」等のメッセージを 画像表示装置32で表示させるという出力態様もあり得る。
 以上のケースC21~C24のように応答生成部12は、通話中であるか否かにより、ユーザに平静になることを目的とした応答の内容や出力態様を変化させるように応答データを生成する。これにより、ユーザが自尊心を傷つけられたり、通話相手に対して恥ずかしい思いを抱くことなく、平静な感情状態を取り戻すようにしむける。
 なお、もちろん上記の組み合わせで、周囲に人がおらずかつ通話中でない場合(ケースC1~C4)、周囲に人がいる場合(ケースC11~C14)、通話中の場合(ケースC21~C24)の3つで応答態様や応答内容を切り替えることもできる。
 その場合、通話中でかつ周囲に人がいるときは、周囲に人がいる場合(ケースC11~C14)に該当するとすることが考えられる。
 以上のような各ケースに対応した情報処理装置1の第1の処理例を図6で説明する。この図6は音声認識部10、感情認識部11の処理による結果を受信した、応答生成部12の処理という観点で示している。従ってこの図6の処理とともに音声認識部10、感情認識部11各部の処理が実行されている。
 そしてこの第1の処理例は、図5のケースC1,C2,C3,C4に対応する場合の処理例である。
 図6の処理は音声入力が行われるごとに開始される。
 応答生成部12はステップS100で、音声認識部10からの音声認識結果D1及び音声認識成否結果D2を取得する。
 応答生成部12はステップS101で、音声認識成否結果D2を確認し、音声認識部10による音声認識が成功したか否かにより処理を分岐する。
 音声認識が成功した場合は、応答生成部12はステップS102で、音声認識結果D1の内容を解析し、当該認識した音声はエージェント装置4に対するユーザの問いかけであって、応答が必要であるか否かを判定する。
 例えばエージェント装置4に対する問いかけではないとして応答が不要と判定した場合は、そのまま図6の処理を終える。
 一方、エージェント装置4への問いかけであり応答が必要と判定したら、応答生成部12はステップS103に進み、応答内容を示す応答データを生成する。この時点では、例えば問いかけ内容に応答する内容としてのテキストデータを生成する。
 そして応答生成部12はステップS104で音声認識フラグFa=0とし、ステップS106に進む。
 音声認識が失敗した場合は、応答生成部12はステップS105で音声認識フラグFa=1とし、ステップS106に進む
 ステップS106で応答生成部12は、感情認識部11からの感情認識結果D3を取得し、ユーザの感情状態を認識する。
 そしてステップS107で応答生成部12は、ユーザの感情状態が平静であるか否かにより処理を分岐する。
 ユーザの感情状態が平静とされた場合、応答生成部12はステップS107からS108に進め、音声認識フラグFa=0であるか否かを確認する。
 音声認識フラグFa=0であれば、ステップS113に進み、応答データを出力する。即ち、ステップS103で生成した応答データとしてのテキストデータ、もしくはそのテキストデータに即した音声信号を音声出力装置31に出力する。これにより、音声出力装置31から応答音声が出力される。以上は、図5のケースC1に相当する場合である。
 ステップS108で音声認識フラグFa=0ではない場合は、音声認識に失敗した場合であるため、ステップS103での応答データ生成は行われていない。そこで応答生成部12はステップS109に進み、ユーザに再発話を要請する応答データを生成し、ステップS113で応答データを音声出力装置31に出力する。これにより、ケースC2として、聞き取れなかったために再発話を要請する音声の応答が行われる。
 ステップS107でユーザが平静でないと判定された場合は、応答生成部12はステップS110で音声認識フラグFa=0であるか否かを確認する。
 音声認識フラグFa=0であれば、ステップS112に進み、ステップS103で生成した回答内容を示す応答データに、平静を促す応答データを追加する。そしてステップS113で応答データを出力する。
 即ち、ステップS103で生成した応答データとしてのテキストデータ、もしくはそのテキストデータに即した音声信号を音声出力装置31に出力するとともに、平静を促すテキストデータもしくはそのテキストデータに即した音声信号を音声出力装置31に出力する。
 これにより、音声出力装置31から問い合わせに対する回答とともに、平静を促す応答音声が出力される。ケースC3に相当する場合である。
 なお、ステップS112では、ステップS103で生成した回答内容の表現を変えたり、或いは発音する声や声の調子を変えるような応答データの変更を行っても良い。例えば通常より優しい音声になるようにするなどの応答データの変更である。
 ステップS110で音声認識フラグFa=0ではない場合は、音声認識に失敗した場合であるため、応答データは生成されていない。応答生成部12はステップS111に進み、ユーザに平静を促す応答データを生成し、ステップS113で応答データを音声出力装置31に出力する。これにより、平静を促す応答音声が出力される。ケースC4に相当する場合である。
 以上の処理により、例えば図5のケースC1,C2,C3,C4により応答内容を変更する動作が実現される。
 なお、以上では音声出力装置31を用いる例を述べたが、もちろん各場合に画像表示装置32や通知装置33を複合的に用いても良い。
 続いて図7により、情報処理装置1の第2の処理例を説明する。この図7は音声認識部10、感情認識部11、周囲人検出部13の処理による結果、及び通話中信号D5を受信した、応答生成部12の処理という観点で示している。従ってこの図7の処理とともに音声認識部10、感情認識部11、周囲人検出部13、通知装置33等の各部の処理が実行されている。
 この第2の処理例は、図5の全てのケースC1~C24に対応する場合の処理例である。なお図6と同一の処理については同一のステップ番号を付し、重複説明を避ける。
 図7のステップS100~S107までは図6と同様であるため、ステップS107以降を説明する。
 ステップS107でユーザが平静であるとされた場合、応答生成部12はステップS126で音声認識フラグFa=0であるか否かを確認する。
 音声認識フラグFa=0の場合は、応答生成部12はステップS128に進んで応答出力の態様として音声出力態様、即ち音声出力装置31による出力を選択する。なお、画像表示装置32や通知装置33を複合的に用いるようにしても良い。
 そしてステップS160に進み、応答データを出力する。即ち、ステップS103で生成した応答データとしてのテキストデータ、もしくはそのテキストデータに即した音声信号を音声出力装置31に出力する。
 これにより、音声出力装置31から応答音声が出力される。これは、図5のケースC1,C11,C21のいずれかにあたる場合となる。
 ステップS126で音声認識フラグFa=0でない場合、応答生成部12はステップS127で感情認識フラグFm=0としてステップS123に進む。
 またステップS107でユーザが平静ではないとされた場合、応答生成部12はステップS120で感情認識フラグFm=1とする。
 そして応答生成部12はステップS121に進み、感情のカテゴリーを判定する。なお、この処理に関する説明については後述する。この処理は行わずに、平静か平静ではないかのみを判定するようにしてもよい。
 ステップS123で応答生成部12は、周囲人検出部13からの周囲人検出結果D4を取得する。そしてステップS124で応答生成部12は、周囲に人がいるか否かにより処理を分岐する。
 また、周囲に人がいないとされた場合、応答生成部12はステップS125で通話中信号D5を確認し、ユーザが通話中であるか否かにより処理を分岐する。
 そして周囲に人がおらず、また通話中でもない場合、応答生成部12の処理はステップS130、S131で処理を分岐することになる。
 応答生成部12はステップS130で音声認識フラグFaを確認し、ステップS131で感情認識フラグFmを確認する。
 ステップS130で音声認識フラグFa=0となっているのは、ユーザは平静ではないが音声認識に成功した場合である(Fa=0、Fm=1の場合)。
 このときはステップS132でケースC3に応じた応答データの追加・修正・変更及び応答出力態様の設定を行う。
 例えば応答生成部12はステップS103で生成した回答としての応答データに、平静を促す応答データを追加する。
 ステップS103で生成した応答データの口調を変更するようにしてもよい。
 そして応答生成部12は応答出力態様として音声出力装置31による音声出力を選択する。
 そしてステップS160で応答データを出力する。これによりケースC3で説明した内容・態様の応答出力が行われる。
 ステップS131で感情認識フラグFm=0となっているのは、ユーザは平静であるが音声認識に失敗した場合である(Fa=1、Fm=0の場合)。
 そこで応答生成部12はステップS133でケースC2に応じた応答データの追加・修正・変更及び応答出力態様の設定を行う。
 例えば応答生成部12は再発話を要請するメッセージの応答データを生成し、応答出力態様として音声出力装置31による音声出力を選択する。
 そしてステップS160で応答データを出力する。これによりケースC2で説明した内容・態様の応答出力が行われる。
 ステップS131で感情認識フラグFm=1となっているのは、ユーザは平静ではなくしかも音声認識に失敗した場合である(Fa=1、Fm=1の場合)。
 そこで応答生成部12はステップS134でケースC4に応じた応答データの追加・修正・変更及び応答出力態様の設定を行う。
 例えば応答生成部12は平静を促す応答データを生成し、応答出力態様として音声出力装置31による音声出力を選択する。
 そしてステップS160で応答データを出力する。これによりケースC4で説明した内容・態様の応答出力が行われる。
 ステップS124で周囲に人がいることが検出された場合、応答生成部12の処理はステップS140、S141で処理を分岐することになる。
 応答生成部12はステップS140で音声認識フラグFaを確認し、ステップS141で感情認識フラグFmを確認する。
 ステップS140で音声認識フラグFa=0となっているのは、ユーザは平静ではないが音声認識に成功した場合である(Fa=0、Fm=1の場合)。
 このときはステップS144でケースC13に応じた応答データの追加・修正・変更及び応答出力態様の設定を行う。
 例えば応答生成部12はステップS103で生成した回答としての応答データに、平静を促す応答データを追加する。平静を促す応答データは、メッセージ等を出力するテキスト表現に限らず、通知装置33の制御データとしてもよい。
 またステップS103で生成した応答データのテキスト表現を例えば優しい表現に変更するようにしてもよい。
 そして応答生成部12は各応答データに対応する応答出力態様を設定する。例えば回答としての応答データについては、音声出力装置31又は画像表示装置32を選択する。平静を促す応答データについては通知装置33による音声以外の出力を選択する。
 そしてステップS160で応答データを出力する。これによりケースC13で説明した内容・態様の応答出力が行われる。
 ステップS141で感情認識フラグFm=0となっているのは、ユーザは平静であるが音声認識に失敗した場合である(Fa=1、Fm=0の場合)。
 そこで応答生成部12はステップS142でケースC12に応じた応答データの追加・修正・変更及び応答出力態様の設定を行う。
 例えば応答生成部12は再発話を要請するメッセージの応答データを生成し、応答出力態様として画像表示装置32による画像表示を選択する。
 そしてステップS160で応答データを出力する。これによりケースC12で説明した内容・態様の応答出力が行われる。
 ステップS141で感情認識フラグFm=1となっているのは、ユーザは平静ではなくしかも音声認識に失敗した場合である(Fa=1、Fm=1の場合)。
 そこで応答生成部12はステップS143でケースC14に応じた応答データの追加・修正・変更及び応答出力態様の設定を行う。
 例えば応答生成部12は平静を促す応答データとしての制御データを生成し、応答出力態様として通知装置33を選択する。
 そしてステップS160で応答データを出力する。これによりケースC14で説明した内容・態様の応答出力が行われる。
 ステップS125でユーザが通話中とされた場合、応答生成部12の処理はステップS150、S151で処理を分岐することになる。
 応答生成部12はステップS150で音声認識フラグFaを確認し、ステップS151で感情認識フラグFmを確認する。
 ステップS150で音声認識フラグFa=0となっているのは、ユーザは平静ではないが音声認識に成功した場合である(Fa=0、Fm=1の場合)。
 このときはステップS144で上記同様にケースC23に応じた応答データの追加・修正・変更及び応答出力態様の設定を行う。
 そしてステップS160で応答データを出力する。これによりケースC23で説明した内容・態様の応答出力が行われる。
 なお、ここではケースC13とC23で同じ処理内容としたが、これらの場合に処理内容を変えるようにしてもよい。
 ステップS151で感情認識フラグFm=0となっているのは、ユーザは平静であるが音声認識に失敗した場合である(Fa=1、Fm=0の場合)。
 そこで応答生成部12はステップS152でケースC22に応じた応答データの追加・修正・変更及び応答出力態様の設定を行う。
 例えば応答生成部12は再発話を要請するメッセージの応答データを生成し、応答出力態様として画像表示装置32による画像表示を選択する。
 そしてステップS160で応答データを出力する。これによりケースC22で説明した内容・態様の応答出力が行われる。
 ステップS151で感情認識フラグFm=1となっているのは、ユーザは平静ではなくしかも音声認識に失敗した場合である(Fa=1、Fm=1の場合)。
 そこで応答生成部12はステップS153でケースC24に応じた応答データの追加・修正・変更及び応答出力態様の設定を行う。
 例えば応答生成部12は平静を促す応答データとしての制御データを生成し、応答出力態様として通知装置33を選択する。
 そしてステップS160で応答データを出力する。これによりケースC24で説明した内容・態様の応答出力が行われる。
 以上の図7の処理例により、図5の各ケースに応じた応答内容、応答態様での応答が実行される。
 以上の図6又は図7の処理により、ユーザが音声を介してコミュニケーションするエージェント装置4として、ユーザの感情状態が平静でなく、音声認識が困難とみられる場合に、ユーザが平静になることを目的とした応答をすることにより、スムーズな音声認識を可能にすることができる。
 また、仮に音声認識に成功しても、ユーザの感情状態が平静でないと判断された場合は、以後音声認識が困難になる恐れがあることから、ユーザが平静になることを目的とした応答をすることが実現される。
 また、ユーザの感情状態を平静にする応答を、周囲に人がいる状況で音声により行うと、場合によりユーザの自尊心が傷つけられる恐れがある。
 そこで図7の処理のように、周囲に人がいる場合に、ユーザにだけわかるような応答(画像、その他通知方法)で行うことにより、ユーザのみに感情状態が平静になることを目的とした応答を行うことができる。
 また同様に、通話中も通話相手に気づかれないように、ユーザのみに感情状態が平静になることを目的とした応答を行うことができる。
 なお、図6,図7ではステップS102で応答不要とされた場合は特に処理を行わないものとしたが、その場合もステップS106に進むようにしてもよい。
 即ちエージェント装置4に対する問いかけでない場合でも、ユーザの感情に応じて、平静を促す応答を行うようにする。
 これにより、その後の問い合わせでの音声認識の成功確率を上げることができる。
 またユーザが周囲の人や通話相手に憤怒の感情を表している場合にも、それらの人に知られないように、ユーザのみに平静を促すような出力ができ、ユーザの感情が平静になることを期待できる。
<3.感情カテゴリーに応じた応答データの処理>
 ところで図7のステップS121として感情のカテゴリーを判定することを述べた。
 感情のカテゴリーに応じて、各ケースにおける応答データの追加・修正・変更を行うようにすることもできる。
 感情認識部11は、ユーザの感情が平静か、平静でない場合どのカテゴリーにあるかを認識するようにする。平静でない感情状態の例としては、例えば悲嘆、歓喜、憤怒、動揺などが挙げられる。
 応答生成部12は、このような感情のカテゴリーを含む感情認識結果D3を受信し、ステップS121での認識結果に基づいてユーザへの応答を設定する。
 図8に一例を示す。例えばスマートフォン等の携帯端末がエージェント装置4とされ、情報処理装置1を備えているものとしている。
 感情認識部11がユーザの感情が悲嘆の状態にあると出力し、応答生成部12が音声認識を続けることが難しいと判定した場合、応答生成部12は例えば「どうされました、ちょっと深呼吸しましょうか」のような、直接的に感情を指摘するのではなく、婉曲してユーザが平静な感情となるような応答をするように応答データを生成する。
 これによりユーザはあたかも人間と会話しているような、穏やかなコミュニケーションを取ることができる。
 感情認識部11がユーザの感情が歓喜の状態にあると出力した場合も、応答生成部12は「ご機嫌よさそうですね、じっくり聞かせてくださいよ」といった、自然にユーザが落ち着いて話したくなるような応答をするように制御する。これにより、以降の音声認識がスムーズになる効果が期待できる。
 一方、音声通話時などで、感情認識部11がユーザの感情が憤慨の状態にあると出力した場合、応答生成部12は、音声によってユーザに通知するのではなく、例えばバイブレーションでユーザに通知する。これにより通話相手または周囲にいる他者に知られずにユーザに平静な状態を取り戻すように促すことができる。
 このように感情のカテゴリーに応じて、応答内容を追加、修正したり、応答出力態様を切り替えることで、よりユーザの感情状態に適した応答が実現できる。
 なお、ユーザの発話に対する音声認識は高い信頼度を示しているが、感情認識では平静でないと見られるものの、どのカテゴリー(歓喜、悲嘆、憤怒など)か判定できない場合、応答生成部12は、感情状態を考慮しない、通常の音声認識の通りの応答を返すことも考えられる。
 また、ユーザの発話に対する音声認識の信頼度が高くなく、感情認識の結果、感情状態は平静か、またはどのカテゴリーにあるか判定できない場合、応答生成部12は、例えば「ごめんなさい、もう一回言ってください。」のような謝罪しつつ再度の発話を促す応答を返すことも考えられる。
<4.まとめ及び変形例>
 以上の実施の形態では次のような効果が得られる。
 実施の形態の情報処理装置1は、ユーザの発した音声を認識する音声認識部10と、ユーザに関する検出情報に基づいてユーザの感情を認識する感情認識部11と、音声認識部10の認識結果及び感情認識部11の認識結果に基づいて、ユーザの発した音声に対応する応答に、ユーザの感情が平静になるような要素が加わるようにした応答データを生成する応答生成部12とを備えている。
 このような実施の形態の情報処理装置1は、ユーザとの対話により応答を返すエージェント装置として、ユーザの問いかけに対する応答を行うことができるが、加えて、ユーザの感情が特別な状態にあるときに、それに応じた対応ができる。
 例えば非常に喜んでいる、悲しんでいる、怒っている、などの特別な感情状態にあるときに、ユーザに平静に戻ることを促す出力が行われるようにしている。これによりユーザを落ち着かせ、平静な発話を促す。また興奮した行動を取らないように促し、適切な生活状況が維持されるようにすることができる。従ってユーザの補助を行う機器として適切な対応となる。
 そして、ユーザが興奮した状態にあるときは、早口になったり、声の起伏が激しかったりするなどして、音声が聞き取りにくくなる。つまりユーザ音声を認識する情報処理装置1としては、ユーザが興奮状態にあるときは、音声認識の成功率が低下する。そこでユーザが上記のような特別な感情状態にあるときに平静になるように促すことで、ユーザを平静な発話を行う状態となるように導き、音声認識の成功率が上がるようにする。もって、エージェント装置4としてのレスポンスも良好になり、装置性能が実質的に向上するという効果がある。
 実施の形態では応答生成部12は、感情認識部11の認識結果が平静であるか否かと、音声認識部10の音声認識が成功したか否かを確認するようにしている。
 そして応答生成部12は、感情認識結果が平静で音声認識が成功した場合(ケースC1)と、感情認識結果が非平静で音声認識が成功した場合(ケースC3)とで、異なる応答データを生成する例を述べた。
 つまり音声認識が成功して問いかけの内容が判定できる場合、問いかけに対する回答内容を応答データに加えることができる。その上で、ユーザが平静であるか否かにより応答データを異なるようにする。
 例えばユーザが平静ではないと認識したときには、問い合わせに対応する内容とともに、平静になるように促す言葉を加え、ともに音声で出力する。これにより、ユーザの感情状態に応じた対応が可能となる。
 また実施の形態では応答生成部12は、感情認識結果が平静で音声認識が失敗した場合(ケースC2)と、感情認識結果が非平静で音声認識が失敗した場合(ケースC4)とで、異なる応答データを生成する例を述べた。
 つまり音声認識に失敗した場合は、例えば聞き取れなかった旨の応答を行うように応答データを生成するが、ユーザが平静であるか否かにより応答データの内容を変化させる。
 例えばユーザが平静ではないと認識したときには、聞き取れないと指摘することよりも、平静になるように促す言葉を応答データとして生成し、音声で出力する。これにより、ユーザの感情状態に応じた対応を行う。
 特にユーザの言葉を聞き取れない場合とは、ユーザが興奮した語調となっていることが原因である場合も多い。そこで、ユーザに平静を促すようにするだけでも、言葉が聞き取りやすくなることが期待できる。
 また、感情が高ぶっているときに、聞き取れなかったことを敢えて指摘しないということも、ユーザを落ち着かせるという目的に沿って好適である。
 また実施の形態では応答生成部12は、感情認識結果が非平静で音声認識が成功した場合(ケースC3)と、感情認識結果が非平静で音声認識が失敗した場合(ケースC4)とで、異なる応答データを生成する例を述べた。
 即ちユーザの感情が平静でないときにおいて、音声認識が成功したか失敗したかにより、応答の内容を変化させる。
 例えばユーザが平静ではないと認識したときには、聞き取れた場合は、その内容に対する応答とともに、ユーザに落ち着きを促す言葉を加える。聞き取れなかった場合は、聞き取れないと指摘することよりも、平静になるように促す言葉のみを応答データとして生成する。例えばこれのように応答データを設定し、音声で出力する。これにより、ユーザの感情が非平静のときに、音声内容を聞き取れたか否かに応じた対応を行うことができる。
 特にユーザの問いかけを聞き取れた場合は、それに対する応答も適切に行うことで、ユーザを平静に促すためには好適となる。
 またユーザの言葉を聞き取れない場合とは、上述もしたが、ユーザが興奮した語調となっていることが原因である場合も多いため、ユーザに平静を促すようにするだけでも、言葉が聞き取りやすくなることが期待できる。また、感情が高ぶっているときに、聞き取れなかったことを指摘しないことも、ユーザを落ち着かせるという目的に沿って好適である。
 実施の形態では応答生成部12は、感情認識結果が平静で音声認識が成功した場合(ケースC1)と、感情認識結果が平静で音声認識が失敗した場合(ケースC2)と、感情認識結果が非平静で音声認識が成功した場合(ケースC3)と、感情認識結果が非平静で音声認識が失敗した場合(ケースC4)とで、異なる応答データを生成する例を述べた。
 即ちユーザの感情が平静であるか否か、及び音声認識が成功したか失敗したかの組み合わせに応じて応答の内容を変化させる。
 これによりユーザの感情状態と、ユーザの問いかけを認識できたか否かの組み合わせの状況を想定して、それぞれ適切な応答を情報処理装置1が実行できる。
 実施の形態の情報処理装置1は、ユーザの周囲に人がいるか否かを検出する周囲人検出部13を備え、応答生成部12は、周囲人検出部13の検出結果により、応答出力の態様を選択する例を述べた(ケースC11~C14、図7参照)。なお応答出力の態様とは、例えば音声出力、画像出力、光出力、振動出力、温度変化出力、芳香出力などの別である。
 これによりユーザの周囲に人がいるかいないかの状況に応じて、ユーザに応答を表現できる。例えばユーザに平静を促す場合に、単に音声で呼びかけると、周りに人がいる場合、そのユーザが恥ずかしい思いを抱いたり、自尊心を傷つけてしまう可能性がある。そこで、周囲の人に知られないような態様で、当該ユーザに対する応答を伝える。当該ユーザにのみわかるように伝えることで、当該ユーザにとっても感情を高ぶらせずに自然に応答を受け止めることができる。
 実施の形態では、応答生成部12は、周囲人検出部13の検出結果によりユーザの周囲に人がいることを検知した場合、応答データのテキストデータ内容を音声で出力する応答出力以外の応答出力の態様を選択することを述べた。
 音声応答出力の態様のうち、例えばテキストデータを音声で出力する音声出力では、その応答の内容を当該ユーザ以外の人にも聞かれてしまう。そこで周囲の人に聞かれないように、それ以外の応答態様を選択する。
 これにより、周囲の人には、当該ユーザに対する応答、例えば「落ち着きましょう」等の平静を促す言葉が認識されないようにすることができ、ユーザの自尊心を傷つけたり、恥ずかしい思いをしたりすることをなくすことができる。
 なおテキストデータを表現しない音、例えば平静を促すための特定の音や音楽を出力することは、周囲に人がいる場合でも選択できる応答出力の態様と考えることができる。
 実施の形態では、応答生成部12は、周囲人検出部13の検出結果によりユーザの周囲に人がいることを検知した場合、応答データのテキストデータ内容を画像で表す応答出力以外の応答出力の態様を選択する例を挙げた。
 例えばテキストデータを画像で表す画像出力すると、モニタ装置の態様によっては、そのテキストデータの内容を当該ユーザ以外の人に見られてしまう。そこで平静を促すような応答の場合、テキストデータの表示も避けるようにする。
 これも同様に、周囲の人に、当該ユーザに対する例えば「落ち着きましょう」等の平静を促す言葉が認識されないようにすることができる。
 もちろんテキストデータを表現しない画像、例えば平静を促すための特定の画像を出力することは、周囲に人がいる場合でも選択できる応答出力の態様と考えることができる。
 実施の形態では、応答生成部12は、ユーザが通話中であると判定したときは、応答データのテキストデータ内容を音声で出力する応答出力以外の応答出力の態様を選択する例を述べた(ケースC21~C24、図7参照)。
 通話中は、音声で応答すると通話相手に聞こえてしまう可能性もあり、また当該ユーザにとっても、通話中に話しかけられるのは認識しづらい。或いはうるさく感じてしまう。このため、音声で「落ち着きましょう」等の平静を促す言葉を出力すると、逆効果となることもある。そこで、ユーザが興奮しているなど特別な感情にあるときには、音声以外の態様で、平静を促すような応答を行うようにする。これにより、通話相手にも気づかれず、ユーザ本人にも素直に受け止めやすい応答を行うことができる。
 実施の形態の感情認識部11は、ユーザに関する検出情報として、ユーザを撮像した画像情報(画像信号sP)、ユーザの発話音声情報(音声入力信号sA)、ユーザの生体情報(生体情報信号sF)の少なくとも1つを用いてユーザの感情を認識する例を挙げた。
 画像情報、発話音声情報、生体情報の少なくとも1つを用いれば、ユーザの感情状態が平静であるか否かを推定できる。特に複合的に用いることで、例えば怒っている状態、悲しんでいる状態、非常に喜んでいる状態などは的確に認識できる。これによって適切な感情推定を行うことができる。
 実施の形態では、応答生成部12は、感情認識部11が認識した感情のカテゴリーに応じて応答データの追加、修正、又は加工を行う例を述べた(図8参照)。
 これにより感情のカテゴリーに応じた応答が可能となり、よりユーザの状態に適応したレスポンスを返すことができる。
 実施の形態では、音声認識部10は、音声認識の成否の情報(音声認識成否結果D2)と、音声内容の認識結果の情報(音声認識結果D1)を応答生成部12に供給する例を述べた。
 これにより応答生成部12は、音声認識結果を適切に判定できる。
 実施の形態のプログラムは、上述の音声認識部10、感情認識部11、及び図6又は図7で示した応答生成部12の処理を、例えばCPU、DSP等、或いはこれらを含むデバイスとして情報処理装置1に実行させるプログラムである。
 即ち実施の形態のプログラムは、ユーザの発した音声を認識する音声認識処理と、ユーザに関する検出情報に基づいてユーザの感情を認識する感情認識処理と、音声認識処理での認識結果及び感情認識処理での認識結果に基づいて、ユーザの発した音声に対応する応答に、ユーザの感情が平静になるような要素が加わるようにした応答データを生成する応答生成処理とを情報処理装置に実行させるプログラムである。
 このようなプログラムにより、本開示の情報処理装置1を実現できる。即ち音声認識部10、感情認識部11、応答生成部12としての機能を備えた装置である。
 このようなプログラムはコンピュータ装置等の機器に内蔵されている記録媒体としてのHDDや、CPUを有するマイクロコンピュータ内のROM等に予め記録しておくことができる。
 あるいはまた、フレキシブルディスク、CD-ROM(Compact Disc Read Only Memory)、MO(Magnet optical)ディスク、DVD(Digital Versatile Disc)、ブルーレイディスク(Blu-ray Disc(登録商標))、磁気ディスク、半導体メモリ、メモリカードなどのリムーバブル記録媒体に、一時的あるいは永続的に格納(記録)しておくことができる。このようなリムーバブル記録媒体は、いわゆるパッケージソフトウェアとして提供することができる。
 また、このようなプログラムは、リムーバブル記録媒体からパーソナルコンピュータ等にインストールする他、ダウンロードサイトから、LAN(Local Area Network)、インターネットなどのネットワークを介してダウンロードすることもできる。
 またこのようなプログラムによれば、実施の形態の情報処理装置1の広範な提供に適している。例えばパーソナルコンピュータ、携帯型情報処理装置、携帯電話機、ゲーム機器、ビデオ機器、PDA(Personal Digital Assistant)等にプログラムをダウンロードすることで、当該パーソナルコンピュータ等を、本開示の情報処理装置1とすることができる。
 また対話型ロボット、家電製品などの各種の機器におけるCPUを当該プログラムにより動作させることで、実施の形態の情報処理装置1を実現できる。
 なお、本明細書に記載された効果はあくまでも例示であって限定されるものではなく、また他の効果があってもよい。
 なお本技術は以下のような構成も採ることができる。
 (1)
 ユーザの発した音声を認識する音声認識部と、
 前記ユーザに関する検出情報に基づいて前記ユーザの感情を認識する感情認識部と、
 前記音声認識部の認識結果及び前記感情認識部の認識結果に基づいて、前記ユーザの発した音声に対応する応答に、前記ユーザの感情が平静になるような要素が加わるようにした応答データを生成する応答生成部と、を備えた
 情報処理装置。
 (2)
 前記応答生成部は、
 前記感情認識部の認識結果が平静であるか否かと、前記音声認識部の音声認識が成功したか否かを確認し、
 感情認識結果が平静で音声認識が成功した場合と、感情認識結果が非平静で音声認識が成功した場合とで、異なる応答データを生成する
 上記(1)に記載の情報処理装置。
 (3)
 前記応答生成部は、
 前記感情認識部の認識結果が平静であるか否かと、前記音声認識部の音声認識が成功したか否かを確認し、
 感情認識結果が平静で音声認識が失敗した場合と、感情認識結果が非平静で音声認識が失敗した場合とで、異なる応答データを生成する
 上記(1)又は(2)に記載の情報処理装置。
 (4)
 前記応答生成部は、
 前記感情認識部の認識結果が平静であるか否かと、前記音声認識部の音声認識が成功したか否かを確認し、
 感情認識結果が非平静で音声認識が成功した場合と、感情認識結果が非平静で音声認識が失敗した場合とで、異なる応答データを生成する
 上記(1)乃至(3)のいずれかに記載の情報処理装置。
 (5)
 前記応答生成部は、
 前記感情認識部の認識結果が平静であるか否かと、前記音声認識部の音声認識が成功したか否かを確認し、
 感情認識結果が平静で音声認識が成功した場合と、
 感情認識結果が平静で音声認識が失敗した場合と、
 感情認識結果が非平静で音声認識が成功した場合と、
 感情認識結果が非平静で音声認識が失敗した場合とで、
 異なる応答データを生成する
 上記(1)乃至(4)のいずれかに記載の情報処理装置。
 (6)
 前記ユーザの周囲に人がいるか否かを検出する周囲人検出部を備え、
 前記応答生成部は、前記周囲人検出部の検出結果により、応答出力の態様を選択する
 上記(1)乃至(5)のいずれかに記載の情報処理装置。
 (7)
 前記応答生成部は、前記周囲人検出部の検出結果により、前記ユーザの周囲に人がいることを検知した場合、応答データのテキストデータ内容を音声で出力する応答出力以外の応答出力の態様を選択する
 上記(6)に記載の情報処理装置。
 (8)
 前記応答生成部は、前記周囲人検出部の検出結果により、前記ユーザの周囲に人がいることを検知した場合、応答データのテキストデータ内容を画像で表す応答出力以外の応答出力の態様を選択する
 上記(6)又は(7)に記載の情報処理装置。
 (9)
 前記応答生成部は、前記ユーザが通話中であると判定したときは、応答データのテキストデータ内容を音声で出力する応答出力以外の応答出力の態様を選択する
 上記(1)乃至(8)のいずれかに記載の情報処理装置。
 (10)
 前記感情認識部は、ユーザに関する検出情報として、前記ユーザを撮像した画像情報、前記ユーザの発話音声情報、前記ユーザの生体情報の少なくとも1つを用いて前記ユーザの感情を認識する
 上記(1)乃至(9)のいずれかに記載の情報処理装置。
 (11)
 前記応答生成部は、前記感情認識部が認識した感情のカテゴリーに応じて応答データの追加、修正、又は加工を行う
 上記(1)乃至(10)のいずれかに記載の情報処理装置。
 (12)
 前記音声認識部は、音声認識の成否の情報と、音声内容の認識結果の情報を前記応答生成部に供給する
 上記(1)乃至(11)のいずれかに記載の情報処理装置。
 (13)
 ユーザの発した音声を認識する音声認識手順と、
 前記ユーザに関する検出情報に基づいて前記ユーザの感情を認識する感情認識手順と、
 前記音声認識手順での認識結果及び前記感情認識手順での認識結果に基づいて、前記ユーザの発した音声に対応する応答に、前記ユーザの感情が平静になるような要素が加わるようにした応答データを生成する応答生成手順と、
 を情報処理装置が実行する情報処理方法。
 (14)
 ユーザの発した音声を認識する音声認識処理と、
 前記ユーザに関する検出情報に基づいて前記ユーザの感情を認識する感情認識処理と、
 前記音声認識処理での認識結果及び前記感情認識処理での認識結果に基づいて、前記ユーザの発した音声に対応する応答に、前記ユーザの感情が平静になるような要素が加わるようにした応答データを生成する応答生成処理と、
 を情報処理装置に実行させるプログラム。
 1…情報処理装置、2…センサ装置、3…応答装置、4…エージェント装置、5…ネットワーク、6…サーバ、10…音声認識部、11…感情認識部、12…応答生成部、13…周囲人検出部、14…通話部、15,16,17,18,19…スイッチ部、21…音声センサ、22…画像センサ、23…生体情報センサ、31…音声出力装置、32…画像表示装置、33…通知装置

Claims (14)

  1.  ユーザの発した音声を認識する音声認識部と、
     前記ユーザに関する検出情報に基づいて前記ユーザの感情を認識する感情認識部と、
     前記音声認識部の認識結果及び前記感情認識部の認識結果に基づいて、前記ユーザの発した音声に対応する応答に、前記ユーザの感情が平静になるような要素が加わるようにした応答データを生成する応答生成部と、を備えた
     情報処理装置。
  2.  前記応答生成部は、
     前記感情認識部の認識結果が平静であるか否かと、前記音声認識部の音声認識が成功したか否かを確認し、
     感情認識結果が平静で音声認識が成功した場合と、感情認識結果が非平静で音声認識が成功した場合とで、異なる応答データを生成する
     請求項1に記載の情報処理装置。
  3.  前記応答生成部は、
     前記感情認識部の認識結果が平静であるか否かと、前記音声認識部の音声認識が成功したか否かを確認し、
     感情認識結果が平静で音声認識が失敗した場合と、感情認識結果が非平静で音声認識が失敗した場合とで、異なる応答データを生成する
     請求項1に記載の情報処理装置。
  4.  前記応答生成部は、
     前記感情認識部の認識結果が平静であるか否かと、前記音声認識部の音声認識が成功したか否かを確認し、
     感情認識結果が非平静で音声認識が成功した場合と、感情認識結果が非平静で音声認識が失敗した場合とで、異なる応答データを生成する
     請求項1に記載の情報処理装置。
  5.  前記応答生成部は、
     前記感情認識部の認識結果が平静であるか否かと、前記音声認識部の音声認識が成功したか否かを確認し、
     感情認識結果が平静で音声認識が成功した場合と、
     感情認識結果が平静で音声認識が失敗した場合と、
     感情認識結果が非平静で音声認識が成功した場合と、
     感情認識結果が非平静で音声認識が失敗した場合とで、
     異なる応答データを生成する
     請求項1に記載の情報処理装置。
  6.  前記ユーザの周囲に人がいるか否かを検出する周囲人検出部を備え、
     前記応答生成部は、前記周囲人検出部の検出結果により、応答出力の態様を選択する
     請求項1に記載の情報処理装置。
  7.  前記応答生成部は、前記周囲人検出部の検出結果により、前記ユーザの周囲に人がいることを検知した場合、応答データのテキストデータ内容を音声で出力する応答出力以外の応答出力の態様を選択する
     請求項6に記載の情報処理装置。
  8.  前記応答生成部は、前記周囲人検出部の検出結果により、前記ユーザの周囲に人がいることを検知した場合、応答データのテキストデータ内容を画像で表す応答出力以外の応答出力の態様を選択する
     請求項6に記載の情報処理装置。
  9.  前記応答生成部は、前記ユーザが通話中であると判定したときは、応答データのテキストデータ内容を音声で出力する応答出力以外の応答出力の態様を選択する
     請求項1に記載の情報処理装置。
  10.  前記感情認識部は、ユーザに関する検出情報として、前記ユーザを撮像した画像情報、前記ユーザの発話音声情報、前記ユーザの生体情報の少なくとも1つを用いて前記ユーザの感情を認識する
     請求項1に記載の情報処理装置。
  11.  前記応答生成部は、前記感情認識部が認識した感情のカテゴリーに応じて応答データの追加、修正、又は加工を行う
     請求項1に記載の情報処理装置。
  12.  前記音声認識部は、音声認識の成否の情報と、音声内容の認識結果の情報を前記応答生成部に供給する
     請求項1に記載の情報処理装置。
  13.  ユーザの発した音声を認識する音声認識手順と、
     前記ユーザに関する検出情報に基づいて前記ユーザの感情を認識する感情認識手順と、
     前記音声認識手順での認識結果及び前記感情認識手順での認識結果に基づいて、前記ユーザの発した音声に対応する応答に、前記ユーザの感情が平静になるような要素が加わるようにした応答データを生成する応答生成手順と、
     を情報処理装置が実行する情報処理方法。
  14.  ユーザの発した音声を認識する音声認識処理と、
     前記ユーザに関する検出情報に基づいて前記ユーザの感情を認識する感情認識処理と、
     前記音声認識処理での認識結果及び前記感情認識処理での認識結果に基づいて、前記ユーザの発した音声に対応する応答に、前記ユーザの感情が平静になるような要素が加わるようにした応答データを生成する応答生成処理と、
     を情報処理装置に実行させるプログラム。
PCT/JP2019/002812 2018-03-29 2019-01-28 情報処理装置、情報処理方法、プログラム WO2019187590A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018064440 2018-03-29
JP2018-064440 2018-03-29

Publications (1)

Publication Number Publication Date
WO2019187590A1 true WO2019187590A1 (ja) 2019-10-03

Family

ID=68058717

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/002812 WO2019187590A1 (ja) 2018-03-29 2019-01-28 情報処理装置、情報処理方法、プログラム

Country Status (1)

Country Link
WO (1) WO2019187590A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111191585A (zh) * 2019-12-30 2020-05-22 湖北美和易思教育科技有限公司 一种基于表情控制情感灯的方法及其系统
JP2021117580A (ja) * 2020-01-23 2021-08-10 株式会社ミクシィ 情報処理装置、及びプログラム

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001162058A (ja) * 1999-12-10 2001-06-19 Iesato Sato 自律移動型セラピー機器
JP2001215993A (ja) * 2000-01-31 2001-08-10 Sony Corp 対話処理装置および対話処理方法、並びに記録媒体
JP2004109323A (ja) * 2002-09-17 2004-04-08 Denso Corp 音声対話装置及びプログラム
WO2013190963A1 (ja) * 2012-06-18 2013-12-27 エイディシーテクノロジー株式会社 音声応答装置
JP2014202808A (ja) * 2013-04-02 2014-10-27 パイオニア株式会社 入出力装置
JP2018045118A (ja) * 2016-09-15 2018-03-22 富士ゼロックス株式会社 対話装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001162058A (ja) * 1999-12-10 2001-06-19 Iesato Sato 自律移動型セラピー機器
JP2001215993A (ja) * 2000-01-31 2001-08-10 Sony Corp 対話処理装置および対話処理方法、並びに記録媒体
JP2004109323A (ja) * 2002-09-17 2004-04-08 Denso Corp 音声対話装置及びプログラム
WO2013190963A1 (ja) * 2012-06-18 2013-12-27 エイディシーテクノロジー株式会社 音声応答装置
JP2014202808A (ja) * 2013-04-02 2014-10-27 パイオニア株式会社 入出力装置
JP2018045118A (ja) * 2016-09-15 2018-03-22 富士ゼロックス株式会社 対話装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111191585A (zh) * 2019-12-30 2020-05-22 湖北美和易思教育科技有限公司 一种基于表情控制情感灯的方法及其系统
JP2021117580A (ja) * 2020-01-23 2021-08-10 株式会社ミクシィ 情報処理装置、及びプログラム
JP7436804B2 (ja) 2020-01-23 2024-02-22 株式会社Mixi 情報処理装置、及びプログラム

Similar Documents

Publication Publication Date Title
CN106992013B (zh) 语音情感修改
US10224060B2 (en) Interactive home-appliance system, server device, interactive home appliance, method for allowing home-appliance system to interact, and nonvolatile computer-readable data recording medium encoded with program for allowing computer to implement the method
CN108733209A (zh) 人机交互方法、装置、机器人和存储介质
EP3133471A1 (en) Play control method, apparatus, terminal, and recording medium
JP2005237561A (ja) 情報処理装置及び方法
JP2004310034A (ja) 対話エージェントシステム
WO2018074224A1 (ja) 雰囲気醸成システム、雰囲気醸成方法、雰囲気醸成プログラム、及び雰囲気推定システム
CN110598611A (zh) 看护系统、基于看护系统的病人看护方法和可读存储介质
WO2019187590A1 (ja) 情報処理装置、情報処理方法、プログラム
CN109698021B (zh) 用于运行医学图像采集设备的方法和图像采集设备
JP4555039B2 (ja) ロボット、ロボット制御方法、ロボット制御プログラム
CN110598612B (zh) 基于移动终端的病人看护方法、移动终端和可读存储介质
CN110587621A (zh) 机器人、基于机器人的病人看护方法和可读存储介质
JP2016085478A (ja) 対話型家電システム、サーバ装置、対話型家電機器、家電システムが対話を行なうための方法、当該方法をコンピュータに実現させるためのプログラム
JP2020126195A (ja) 音声対話装置、音声対話装置の制御装置及び制御プログラム
JP2018149625A (ja) コミュニケーションロボット、プログラム及びシステム
WO2022160938A1 (zh) 紧急求助功能的触发方法、装置、终端及存储介质
JP2020091636A (ja) 音声対話装置の制御方法
JP7382760B2 (ja) 医療支援装置及びプログラム
KR20230066821A (ko) 인공지능 기반의 개인용 챗봇 시스템
JP7286303B2 (ja) 会議支援システム及び会議用ロボット
JP2022031617A (ja) アドバイスシステムおよびアドバイス方法
WO2023166979A1 (ja) 情報処理装置、情報処理方法、およびプログラム
JP6963669B1 (ja) ソリューション提供システム及び携帯端末
US11657814B2 (en) Techniques for dynamic auditory phrase completion

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19775378

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19775378

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP