WO2023166979A1 - 情報処理装置、情報処理方法、およびプログラム - Google Patents

情報処理装置、情報処理方法、およびプログラム Download PDF

Info

Publication number
WO2023166979A1
WO2023166979A1 PCT/JP2023/005120 JP2023005120W WO2023166979A1 WO 2023166979 A1 WO2023166979 A1 WO 2023166979A1 JP 2023005120 W JP2023005120 W JP 2023005120W WO 2023166979 A1 WO2023166979 A1 WO 2023166979A1
Authority
WO
WIPO (PCT)
Prior art keywords
support
user
emotion
context
result
Prior art date
Application number
PCT/JP2023/005120
Other languages
English (en)
French (fr)
Inventor
清士 吉川
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Publication of WO2023166979A1 publication Critical patent/WO2023166979A1/ja

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/16Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output

Definitions

  • the present technology relates to an information processing device, an information processing method, and a program, and more particularly to an information processing device, an information processing method, and a program that can predict a user's future state and support the user.
  • AI Artificial Intelligence
  • an information processing system that recognizes the user's current context based on at least one of the user's surrounding environment, the user's emotion, the user's situation, and the emotions and situations of other people around the user. There is (for example, see Patent Document 1).
  • This technology has been developed in view of this situation, and is capable of predicting the user's future state and supporting the user.
  • An information processing device or program according to one aspect of the present technology is based on an estimation result of at least one of a user's current emotion and context and a prediction result of at least one of the user's future emotion and context. and an information processing device including a support unit for supporting the user, or a program for causing a computer to function as the information processing device.
  • an information processing device estimates at least one of a user's current emotion and context and predicts at least one of the user's future emotion and context.
  • An information processing method including a support step of supporting the user based on the above.
  • the user assists based on an estimation result of at least one of the user's current emotion and context and a prediction result of at least one of the user's future emotion and context be done.
  • FIG. 1 is a block diagram showing a configuration example of a voice support system to which the present technology is applied;
  • FIG. FIG. 3 is a diagram showing Russell's cyclic model of emotions;
  • 2 is a diagram showing an example of information stored in the database of FIG. 1;
  • FIG. FIG. 4 is a diagram showing an example of an outline of processing by the voice support system;
  • 6 is a flowchart for explaining voice assistance processing;
  • 1 is a block diagram showing a configuration example of a bicycle navigation system to which the present technology is applied;
  • FIG. 7 is a diagram showing an example of information stored in the database of FIG. 6;
  • FIG. FIG. 4 is a diagram showing an example of an outline of processing by the bicycle navigation system;
  • FIG. 10 is a diagram showing an example of information stored in the database of FIG. 9;
  • FIG. FIG. 4 is a diagram showing an example of an outline of processing by the pet-type robot system;
  • It is a block diagram showing a configuration example of a driving support system to which the present technology is applied.
  • 13 is a diagram showing an example of information stored in the database of FIG. 12;
  • FIG. It is a figure which shows the example of the outline
  • It is a block diagram showing a configuration example of a cooking support system to which the present technology is applied.
  • 16 is a diagram showing an example of information stored in the database of FIG. 15;
  • FIG. FIG. 4 is a diagram showing an example of an outline of processing by the cooking assistance system;
  • FIG. It is a block diagram which shows the structural example of the hardware of a computer.
  • First Embodiment Vehicle Support System
  • Second embodiment (bicycle navigation system)
  • Third embodiment (pet type robot system)
  • Fourth embodiment (driving support system)
  • Fifth Embodiment (Cooking Support System) 6.
  • FIG. 1 is a block diagram showing a configuration example of a voice support system including a voice agent device as an information processing device to which the present technology is applied.
  • the voice support system 10 in FIG. 1 is The voice support system 10 in FIG.
  • the voice support system 10 supports the user by transmitting to the user, in response to the user's utterance request, a message that is most likely to be received by the user.
  • the message that the user is most likely to receive is, for example, a message that does not greatly change the user's state, that is, does not disturb the user.
  • the wearable device 11 of the voice support system 10 is composed of a smart watch, a hearable device, or the like, and is worn on a part of the user's body such as the wrist or ear.
  • Wearable device 11 has biosensor 21 and motion sensor 22 .
  • the biological sensor 21 is a signal representing blood flow, respiration, etc. detected by the user's EEG (Electroencephalography), ECG (Electrocardiogram), PPG (Photoplethysmogram), EDA (Electro Dermal Activity), LDF (Laser Doppler flowmetry) method. Acquire biosignals.
  • the biological sensor 21 inputs the biological signal to the voice agent device 14 .
  • the motion sensor 22 is composed of an acceleration sensor, a gyro sensor, and the like.
  • the motion sensor 22 acquires the acceleration and angular velocity of the biosensor 21 as bio-accompanying information that accompanies the bio-signal.
  • the motion sensor 22 inputs biometric information to the voice agent device 14 .
  • the voice support system 10 may include a remote sensing device that performs remote sensing instead of the wearable device 11.
  • a remote sensing device such as a web camera, and acquired as a biological signal.
  • the IoT device 12 has environment sensors 31, which are various sensors that acquire environmental information indicating the state of the environment surrounding the user and the user.
  • the environment sensor 31 include a GPS (Global Positioning System) sensor, an image sensor, an ultrasonic sensor, an infrared camera, an acceleration sensor, a gyro sensor, a temperature/humidity sensor, and a weather sensor.
  • the GPS sensor acquires, for example, the user's current location information as environment information.
  • An image sensor, an ultrasonic sensor, an infrared camera, an acceleration sensor, and a gyro sensor are used to acquire information representing, for example, a user's posture and movement as environmental information.
  • the temperature/humidity sensor acquires information representing the temperature and humidity around the user as environment information.
  • the weather sensor acquires weather information around the user as environment information.
  • the IoT device 12 inputs environmental information acquired by the environment sensor 31 to the voice agent device 14 .
  • the human interface device 13 includes an input device that receives input from the user and an output device that outputs to the user.
  • Input devices include microphones, touch sensors, pressure sensors, and keyboards, and output devices include speakers.
  • the human interface device 13 has various I/Fs 41 for interacting with the user.
  • the various I/Fs 41 of the microphone input information representing an utterance input by the user to the voice agent device 14 as input information that is information input by the user.
  • Various I/Fs 41 of the touch sensor input to the voice agent device 14 as input information information representing the content selected by the user's touch input.
  • Various I/Fs 41 of the pressure-sensitive sensor input to the voice agent device 14 information representing the content selected by the user's pressing as input information.
  • Various I/Fs 41 of the keyboard input information representing characters input by the user to the voice agent device 14 as input information.
  • Various I/Fs 41 of the speaker support the user by outputting voice based on the control information input from the voice agent device 14 .
  • Information is exchanged between the wearable device 11, the IoT device 12, the human interface device 13, and the voice agent device 14 via a wired or wireless network.
  • the voice agent device 14 is composed of a biological processing unit 51 , a context processing unit 52 , an analysis unit 53 , an emotion processing unit 54 , a support control unit 55 , a database 56 and a support unit 57 .
  • the biometric processing unit 51 of the voice agent device 14 performs noise determination on the biometric signal input from the biosensor 21 based on the biometric information input from the motion sensor 22, and removes noise from the biometric signal.
  • the biological processing unit 51 extracts various feature quantities used for estimating or predicting the user's emotion from the biological signal from which noise has been removed. For example, when the biosignal is a signal representing the user's heartbeat, this feature amount is a low frequency (LF), a high frequency (HF), or the like. , ⁇ waves, etc.
  • the biological processing unit 51 supplies the feature amount of the biological signal to the support control unit 55 .
  • the context processing unit 52 estimates the current context of the user by action recognition based on at least one of the environmental information input from the environment sensor 31 and the analysis result of the input information supplied from the analysis unit 53, Find the estimated result.
  • the context estimated here includes primitives directly obtained from the environmental sensor 31 and the analysis results of the input information alone, as well as those estimated by combining the environmental information and the analysis results of the input information.
  • the user's context includes the user's position, the environment (situation) such as the temperature, humidity, and weather around the user, the user's posture (sitting, standing, sleeping), and the user's behavior. Actions such as (running, walking, eating), content of user's utterances, analysis results of input information such as information on currently running applications, user's situation (working, playing, eating, eating, etc.) while moving) and the duration of that situation.
  • “working” means that the user is studying, working, driving, cooking, or the like.
  • the context processing unit 52 holds the estimation result of the user's current context and supplies it to the emotion processing unit 54 and the support control unit 55 .
  • the context processing unit 52 predicts the user's future context based on the stored time-series context estimation results, and obtains the prediction results.
  • the context processing unit 52 supplies prediction results of the user's future context to the emotion processing unit 54 and the support control unit 55 .
  • the analysis unit 53 analyzes the content of the input from the user based on the input information input from various I/Fs 41 . For example, the analysis unit 53 analyzes the content of the user's utterance based on input information input from various I/Fs 41 of the microphone. The analysis unit 53 analyzes the content of characters input by the user based on the input information input from various I/Fs 41 of the keyboard. The analysis unit 53 analyzes the content selected by the user through touch input based on the input information input from various I/Fs 41 of the touch sensor. The analysis unit 53 supplies the analysis result of the input information to the context processing unit 52 and the support control unit 55 .
  • the emotion processing unit 54 uses the feature amount of the biometric signal supplied from the biometric processing unit 51 to obtain the result of estimating the user's current emotion. Specifically, the emotion processing unit 54 expresses the result of estimating the current emotion of the user by the Russell's cyclic model of emotion based on the feature amount of the biosignal.
  • Russell's Emotion Circular Model is a model that expresses emotions in a circular fashion using a two-dimensional plane in which the horizontal axis is the pleasure level and the vertical axis is the arousal level. can be represented by the coordinates of
  • the emotion processing unit 54 based on the estimation result of the emotion and at least one of the estimation result and the prediction result of the context supplied from the context processing unit 52, the user's short-term (for example, about one hour) future Emotions are predicted as future emotions with reliability.
  • the emotion processing unit 54 predicts one or more future emotions of the user in Russell's cyclic model of emotions based on at least one of the emotion estimation result and the context estimation result and prediction result. The results are obtained, and the reliability of each prediction result is obtained.
  • the emotion processing unit 54 may, for example, set the reliability of the prediction result with a lower arousal level than the current emotion estimation result to the arousal level is set higher than the confidence level for prediction results with high .
  • the emotion processing unit 54 estimates the current emotion according to the exceeded time, for example.
  • the reliability of each prediction result is set so that the reliability of prediction results with lower arousal levels than the results is increased, and the reliability of prediction results with higher arousal levels is decreased.
  • the emotion processing unit 54 sets, for example, a high reliability to the emotion prediction result that is different from the current emotion estimation result.
  • the emotion processing unit 54 sets a high degree of reliability for the predicted result of the same emotion as the estimated result of the current emotion, for example.
  • the emotion processing unit 54 may correct the emotion estimation result based on at least one of the context estimation result and the prediction result. For example, if the context estimation result indicates that the user is sitting on the sofa in the living room, the emotion processing unit 54 corrects the emotion estimation result to lower the arousal level.
  • the emotion processing unit 54 supplies the context estimation result and the prediction result with reliability to the support control unit 55 .
  • the support control unit 55 is composed of a setting unit 61, a determination unit 62, and a result processing unit 63.
  • the support control unit 55 receives the emotion estimation result and prediction result from the emotion processing unit 54 and receives the context estimation result and prediction result from the context processing unit 52 .
  • the setting unit 61 of the support control unit 55 determines the content of support for the user based on the estimation result of at least one of the emotion and the context and the prediction result of at least one of the emotion and the context. Set up a certain support content.
  • the setting unit 61 supplies the set support content to the support unit 57 .
  • the determination unit 62 refers to the database 56 and selects one of the support methods corresponding to the support content set by the setting unit 61 as the current support method based on at least one of the emotion and context estimation results. to decide.
  • the determination unit 62 refers to the database 56 and determines one of the support means corresponding to the current support method as the current support method based on at least one of the emotion and context estimation results. .
  • the determination unit 62 supplies the determined support method and support means to the support unit 57 .
  • the result processing unit 63 generates a support result for the user based on the estimation result of at least one of the user's emotion and context before and after the support and the analysis result of the input information supplied from the analysis unit 53 . Specifically, the result processing unit 63 interprets the analysis result of the input information as feedback from the user for the support. The result processing unit 63 uses the estimation result of at least one of the user's emotion before and after the assistance and the context, and the feedback from the user as the assistance result for the user. The result processing unit 63 supplies the support result to the database 56 (storage unit), and stores it as a support result table in association with the support content, support method, and support means when the support result is obtained. . This support result table is used when the determination unit 62 determines the support method and support means. As a result, it is possible to provide optimum assistance to individual users.
  • the database 56 stores in advance a support method table that associates an assumed support method with the estimated result of the user's emotion and context for which the support method is suitable for each support content.
  • the database 56 stores in advance a support means table that associates assumed support means with estimated results of user's emotions and contexts suitable for support by the support means for each support method.
  • the database 56 also stores a support result table that associates the support result supplied from the result processing unit 63 with the support content, support method, and support means when the support result was obtained.
  • the support unit 57 supports the user by voice according to the content of support supplied from the setting unit 61 and the support method and means supplied from the determination unit 62 . Specifically, the support unit 57 generates control information for controlling the speaker as the human interface device 13 so that the speech content corresponding to the support content, the support method, and the support means is output from the speaker. And the support part 57 supplies the control information to various I/F41 of a speaker. As a result, the speaker outputs the voice of the utterance content corresponding to the support content, the support method, and the support means, and user support is performed by voice.
  • the database 56 may be provided outside the voice agent device 14 instead of inside and connected to the support control unit 55 via a wired or wireless network.
  • the IoT device 12 of the voice support system 10 is installed, for example, in a user's living room.
  • FIG. 2 is a diagram showing Russell's cyclic model of emotion.
  • Russell's Emotion Cycle Model uses a two-dimensional plane in which the horizontal axis is pleasure (pleasant - unpleasant) and the vertical axis is arousal (arousal - non-arousal). is a circular model.
  • the feeling of "tension” can be represented by the coordinates of discomfort, that is, low pleasantness and high arousal.
  • the feeling of “satisfaction” can be represented by coordinates with high pleasantness and low arousal.
  • the emotion processing unit 54 uses the Russell's cyclic model of emotion to indicate the estimation result of the user's current emotion and the prediction result of the future emotion by coordinates on a two-dimensional plane.
  • the emotion processing unit 54 recognizes the user's current state of sympathetic nerves based on the low frequency and high frequency. Then, for example, when the state of the user's sympathetic nerves is strongly activated, the emotion processing unit 54 increases the value of the vertical coordinate corresponding to the arousal level of the estimation result of the current emotion of the user. decide.
  • the emotion processing unit 54 recognizes the current degree of concentration of the user based on the ⁇ wave. Then, for example, when the user's degree of concentration is high, the emotion processing unit 54 determines a high value for the value of the vertical coordinate corresponding to the arousal level of the estimation result of the current emotion of the user.
  • FIG. 3 is a diagram showing an example of information stored in database 56 of FIG.
  • the support method table corresponding to the support content "transmit a message about the next schedule to the user” is associated with the support method "briefly communicate by voice".
  • "High arousal” representing appropriate emotion estimation results
  • "Working” representing appropriate context estimation results
  • "Low arousal” representing inappropriate emotion estimation results
  • "None” representing estimation result
  • “Highly likely to change” representing appropriate future emotion
  • “Highly likely to change” representing appropriate future context
  • Arousal representing inappropriate future emotion low
  • (none) for inappropriate future context are registered.
  • the support method represented by “briefly transmit by voice” is a transmission method (transmission method) of transmitting (transmitting) only the outline of the message regarding the next schedule to the user by voice.
  • the support means In the support means table corresponding to the support method represented by the information including "communicate by voice", the support means "transmit calmly and gently” is associated with “arousal level” representing the estimation result of appropriate emotion. Low/low pleasantness”, “(None)” representing estimation result of appropriate context, “High pleasure” representing estimation result of inappropriate emotion, “Active” representing estimation result of inappropriate context , ⁇ low arousal'' for appropriate upcoming emotion, ⁇ persistent'' for appropriate upcoming context, ⁇ (none)'' for inappropriate upcoming emotion, and inappropriate upcoming context "(none)” is registered.
  • the support means represented by "communicate calmly and gently” is a means of communication of a calm, quiet and gentle tone.
  • the past support history is associated with the support content "transmit a message about the next schedule to the user", the support method "XXX-001", and the support method "YYY-001".
  • the support date and time when the support of the support content was implemented by the support method and support means the estimation result of the emotion before the support, the estimation result of the context before the support, the estimation result of the emotion after the support, the support after the support context estimation results and user feedback are registered.
  • each support method in the support method table is given a unique number
  • the support method represented by "XXX-001” is the support method whose number is "XXX-001".
  • the number "XXX-001” is given to the support method represented by "briefly communicate by voice”.
  • the support means represented by "YYY-001” is the support means whose unique number assigned to each support means in the support means table is "YYY-001".
  • the number "YYY-001" is given to the support means represented by "communicate calmly and gently”.
  • the support content is also associated with the support content "transmit a message about the next schedule to the user", the support method "XXX-002", and the support method "YYY-002".
  • the number "XXX-002" is assigned to the support method represented by “transmit by voice along with related topic", and this support method is the support method represented by "XXX-002".
  • the number "YYY-002" is assigned to the support means represented by the support means “communicate calmly and brightly”, and this support means is the support means represented by "YYY-002".
  • the determining unit 62 determines that the assistance provided has the user's attention. It can be judged that it was pulled.
  • the determination unit 62 can determine that the implemented support was uncomfortable for the user. .
  • the determination unit 62 determines the next support means to be a support means different from the current support means, for example, the support means “loud volume”.
  • the voice agent device 14 can learn the support method and support means suitable for the user based on the estimation result of the user's emotion and context before and after the support by generating the support result table. . This learning is more efficient than learning based solely on explicit feedback input from users.
  • the support method table, support means table, and support result table stored in the database 56 are not limited to the example in FIG.
  • "during leisure time" representing an appropriate context estimation result may be registered in association with "transmit by voice along with related topic” indicated by the support method.
  • the support method represented by "transmit by voice along with the related topic” is determined as the support method of this time, and the continuity is high. be able to have a conversation.
  • FIG. 4 is a diagram showing an example of an outline of processing by the speech support system 10 of FIG.
  • the determining unit 62 selects a support method corresponding to at least one of emotion and context estimation results from the support method table corresponding to the support content "transmit a message about the next schedule to the user" stored in the database 56. to select and read out one of the At this time, the determination unit 62 selects the support method with the most desirable support result registered in association with the support method among the selection candidate support methods based on the support result table.
  • the determining unit 62 selects the number "XXX-001" associated with "working" representing the appropriate context estimation result from the support method table of FIG. Let the support method represented by ⁇ simply communicate by voice'' be a selection candidate. Then, the estimation result of the emotion or context after assistance corresponding to the number "XXX-001" in the assistance result table of FIG. If there is, the determination unit 62 determines and reads this selection candidate as the current support method.
  • the user is at work, that is, when there is a high possibility that the user's emotions will suddenly change in the future, a message regarding the next schedule is simply delivered to the user, and the conversation can be conducted with an emphasis on immediacy. can.
  • the determining unit 62 selects one of the support means corresponding to at least one of the emotion and context estimation results from the support means table corresponding to the current support method stored in the database 56. read out. At this time, the determining unit 62 selects the most desirable support result registered in association with the support means among the support means of the selection candidates based on the support result table.
  • the determination unit 62 selects the number "YYY- 001” support means “calm, quiet, gentle tone” is a candidate for selection. Then, the estimation result of the emotion or context after assistance corresponding to the number "YYY-001" in the assistance result table of FIG. If there is, the determination unit 62 determines and reads this selection candidate as the support means of this time.
  • the support unit 57 provides support by transmitting a message regarding the next schedule to the user by voice based on the support content set by the setting unit 61 and the support method and support means determined by the determination unit 62 . Specifically, the support unit 57 generates control information for controlling the speaker to output a message regarding the next schedule based on the content of support, the support method, and the support means, and outputs to various I / F 41 of the speaker. supply.
  • the support unit 57 Control information is generated so as to output from the speaker a voice conveying only the outline of the message regarding the next schedule in a quiet and gentle tone, and is supplied to various I/Fs 41 of the speaker. This causes the speaker to output a voice that conveys only a summary of the message regarding the upcoming appointment in a calm, quiet, and gentle tone.
  • the voice that conveys only the outline of the message regarding the next schedule is, for example, the voice that simply conveys the next schedule, such as "I am planning to go shopping with my wife.”
  • the voice that conveys a message about the next schedule to the user according to the support method represented by "transmit by voice with related topic” is, for example, "I plan to go shopping with my wife. It is forecast to rain. Gasoline is running low.” .” is the speech that conveys both the upcoming appointment and information related to the upcoming appointment.
  • the result processing unit 63 After the support by the support unit 57, the result processing unit 63 generates a support result based on the estimation result of at least one of the user's emotion and context before and after the support and the analysis result of the input information supplied from the analysis unit 53. do. Then, the result processing unit 63 registers the support result in the support result table in the database 56 in association with the current support content, support method, and support means. For example, if the support method this time is the support method represented by "concisely communicate by voice" and the support means is the support means "calm, quiet and gentle tone", the leftmost side of the support result table shown in FIG. information is registered.
  • FIG. 5 is a flow chart for explaining voice support processing of the voice agent device 14 of FIG. This voice support processing is started, for example, when the start of the voice support system 10 is instructed.
  • the analysis unit 53 of the voice agent device 14 starts analysis processing for analyzing the content of the input from the user based on the input information input from various I/Fs 41.
  • step S ⁇ b>11 the biological processing unit 51 starts biological signal processing on the biological signal input from the biological sensor 21 .
  • Biosignal processing is a process of removing noise from the biosignal based on the biometric information input from the motion sensor 22 and extracting various features from the biosignal after the noise removal.
  • the context processing unit 52 starts context processing for obtaining context estimation results and prediction results based on at least one of the environment information input from the environment sensor 31 and the results of the analysis processing started in step S10.
  • step S12 the emotion processing unit 54 starts emotion processing for obtaining estimation results and prediction results of emotions.
  • the emotion estimation result is obtained using the feature amount obtained by the biological signal processing started in step S11.
  • the emotion prediction result is obtained based on the emotion estimation result and at least one of the context estimation result and the context prediction result obtained by the context processing started in step S11.
  • step S13 the voice agent device 14 determines whether or not to end the voice assistance process. For example, when the result of the analysis processing indicates the end of the voice support processing, the voice agent device 14 determines to end the voice support processing. When it is determined in step S13 that the voice support processing should be terminated, the voice agent device 14 terminates the analysis processing, the biological signal processing, the context processing, and the emotion processing, and terminates the voice support processing.
  • step S13 determines whether the voice support process should not end. If it is determined in step S13 that the voice support process should not end, the process proceeds to step S14.
  • step S14 the support control unit 55 determines whether the support unit 57 has already provided support. If it is determined in step S14 that the support unit 57 has already provided support, the process proceeds to step S15.
  • step S15 the result processing unit 63 of the support control unit 55 updates the support result table in the database 56.
  • This support result table is updated based on at least one of the pre- and post-assist context estimation results obtained by the context processing and pre- and post-assist emotion estimation results obtained by the emotion processing, and the analysis results of the analysis processing. The results of the support provided are used. Then, the process proceeds to step S16.
  • step S14 determines whether support has been provided. If it is determined in step S14 that support has not yet been provided, the process proceeds to step S16.
  • step S16 the setting unit 61 determines whether it is necessary to provide assistance to the user based on the estimation result of at least one of emotion and context and the prediction result of at least one of emotion and context. judge. If it is determined in step S16 that the user needs to be supported, the process proceeds to step S17. In step S ⁇ b>17 , the setting unit 61 sets the content of support based on the estimation result of at least one of emotion and context and the prediction result of at least one of emotion and context.
  • step S18 the determining unit 62 refers to the database 56 and determines the current support method and support means based on at least one of the emotion and context estimation results and the support content set in step S17. do.
  • step S19 the support unit 57 generates control information in accordance with the support content set in step S17 and the support method and support means determined in step S18, and supplies the control information to various I/Fs 41 of the speaker so that the user can provide voice support for Then, the process returns to step S13, and the processes after step S13 are repeated.
  • step S16 determines whether there is no need to provide assistance, no assistance is provided. If it is determined in step S16 that there is no need to provide assistance, no assistance is provided, the process returns to step S13, and the processes after step S13 are repeated.
  • the voice agent device 14 supports the user based on the estimation result of at least one of emotion and context and the prediction result of at least one of emotion and context. Therefore, it is possible to predict the user's future state and support the user. Also, the voice agent device 14 refers to the support result table to determine the support method and support means. Therefore, it is possible to personalize the assistance to the user.
  • FIG. 6 is a block diagram showing a configuration example of a bicycle navigation system including a navigation device as an information processing device to which the present technology is applied.
  • a bicycle navigation system 100 is composed of a hearable device 101, an IoT device 102, one or more human interface devices 103, and a navigation device 104.
  • the bicycle navigation system 100 assists a user riding a bicycle by providing route guidance to a destination set by the user and warning of danger according to the degree of urgency and importance.
  • the hearable device 101 is worn on the user's ear.
  • a hearable device 101 differs from the wearable device 11 in FIG. 1 in that an environment sensor 31 is newly provided, and is configured similarly to the wearable device 11 in other respects.
  • Environmental information acquired by the hearable device 101 is input to the navigation device 104 .
  • the IoT device 102 has, for example, an omnidirectional image sensor 111 that is installed on a bicycle and acquires an image of the surroundings of the user riding the bicycle. An image of the user's surroundings acquired by the omnidirectional image sensor 111 is input to the navigation device 104 as environment information.
  • the human interface device 103 includes an input device that accepts input from the user and an output device that outputs to the user.
  • Input devices include microphones, touch sensors, pressure sensors, and the like, and output devices include earphones, vibration devices, and the like.
  • the human interface device 103 has various I/Fs 121 for interacting with the user.
  • various I/Fs 121 such as a microphone, a touch sensor, and a pressure sensor input input information to the navigation device 104 in the same manner as the various I/Fs 41 .
  • Various I/Fs 121 such as earphones and vibration devices support the user by outputting sounds and vibrations based on control information input from the navigation device 104 .
  • the hearable device 101 is exchanged between the hearable device 101, the IoT device 102, the human interface device 103, and the navigation device 104 via a wired or wireless network.
  • Navigation device 104 is different from voice agent device 14 in that context processing unit 131, database 132 and support unit 133 are provided instead of context processing unit 52, database 56 and support unit 57. 14 is configured in the same manner.
  • the context processing unit 131 of the navigation device 104 is different from the context processing unit 52 in FIG. 1 in that environment information used for context estimation is input from at least one of the environment sensor 31 and the omnidirectional image sensor 111 . , and others are configured in the same manner as the context processing unit 52 .
  • the database 132 stores a support method table, a support means table, and a support result table.
  • the results table corresponds to assistance by the navigation device 104 .
  • the support unit 133 supports the user with voice or vibration according to the support content supplied from the setting unit 61 and the support method and support means supplied from the determination unit 62 .
  • the support unit 133 generates control information for controlling the earphone as the human interface device 103 so that the audio of the utterance content corresponding to the support content, the support method, and the support means is output from the earphone. And the support part 133 supplies the control information to various I/F121 of an earphone. As a result, the earphone outputs the voice of the utterance content corresponding to the support content, the support method, and the support means, and user support is performed by voice.
  • the support unit 133 generates control information for controlling the vibration device as the human interface device 103 so that vibration corresponding to the content of support, the support method, and the support means is output from the vibration device.
  • the support part 133 supplies the control information to various I/F121 of a vibration apparatus.
  • the vibrating device outputs vibrations corresponding to the content of support, the support method, and the support means, and the user is supported by vibrations.
  • the hearable device 101 and the human interface device 103 may be integrated.
  • the database 132 may be provided outside the navigation device 104 instead of being provided inside the navigation device 104, and may be connected to the support control unit 55 via a wired or wireless network.
  • FIG. 7 is a diagram showing an example of information stored in database 132 of FIG.
  • a support method table corresponding to the support content "transmit a message about the next route to the user" stored in the database 132, and a support means corresponding to the support method represented by the information including "transmit by voice” table, and an assistance result table.
  • the support method table corresponding to the support content "transmit a message about the next route to the user” includes numbers "XXX-001" and "XXX-002" in FIG. support method is registered.
  • the content of the support is associated with the content of support "Communicate a message about the next path to the user", the method of support "XXX-001", and the method of support "YYY-003".
  • Support date and time when the support is implemented by the support method and support means pre-support emotion estimation result, pre-support context estimation result, post-support emotion estimation result, post-support context estimation result, and user feedback is registered.
  • the content of the support is associated with the content of support "transmitting a message about the next path to the user", the method of support "XXX-002", and the method of support "YYY-004". And the support date and time when implemented by the support means, pre-support emotion estimation result, pre-support context estimation result, post-support emotion estimation result, post-support context estimation result, and feedback from the user Registered.
  • the support method table, support means table, and support result table stored in the database 132 are not limited to the example of FIG.
  • the support method corresponding to the support content “transmit a message warning of danger to the user” is the support method with numbers “XXX-001" and “XXX-002" in FIG. 7, then “transmit by voice”.
  • the support method "gentle tone” may be registered in association with "awakening level increased” representing the estimation result of appropriate emotion.
  • the support content is set to "transmit a message warning the user of the danger”
  • the support method including "transmit by voice” is selected.
  • the user's alertness increases, that is, when it is assumed that the user is aware of the danger to be warned, a message warning the danger is delivered to the user in a gentle tone.
  • the support method "loud volume" may be registered in association with "the arousal level does not increase", which indicates the estimation result of appropriate emotion. Accordingly, if the user's arousal level does not increase, that is, if it is assumed that the user is unaware of the danger to be warned, a message warning the danger is delivered to the user at a high volume. As a result, it is possible to attract the user's attention to the danger that the user is unaware of, and to make the user avoid the danger.
  • the voice in the support of the support content "transmitting a message to the user warning that there is a dangerous object ahead” according to the support method "simply communicate by voice" is, for example, "There is a dangerous object ahead”. It is a voice that simply warns that there is a dangerous object ahead.
  • FIG. 8 is a diagram showing an example of an outline of processing by the bicycle navigation system 100 of FIG.
  • the setting unit 61 sets the content of support to "transmit a message about the next route to the user". do.
  • the determining unit 62 selects a support method corresponding to at least one of emotion and context estimation results from the support method table corresponding to the support content "transmit a message about the next route to the user" stored in the database 132. to select and read out one of the At this time, the determination unit 62 selects the support method with the most desirable support result registered in association with the support method among the selection candidate support methods based on the support result table.
  • the determination unit 62 selects the number "XXX- 001”, the support method represented by “briefly communicate by voice” is a candidate for selection. Then, the estimation result of the emotion or context after assistance corresponding to the number "XXX-001" in the assistance result table of FIG. If there is, the determination unit 62 determines and reads this selection candidate as the current support method.
  • the determining unit 62 selects one of the support means corresponding to at least one of the estimation result of the emotion and the context from the support means table corresponding to the current support method stored in the database 132. read out. At this time, the determining unit 62 selects the most desirable support result registered in association with the support means among the support means of the selection candidates based on the support result table.
  • the determination unit 62 selects the support means "precise tone" of number "YYY-003" as a selection candidate. Then, for example, the estimation result of the emotion after assistance corresponding to the assistance means "precise tone" in the assistance result table of FIG. If the estimation result is an appropriate future emotion or context corresponding to the number "YYY-003" in the support means table, the determination unit 62 determines and reads this selection candidate as the current support means.
  • the support unit 133 provides support by transmitting a message regarding the next route to the user as navigation information based on the support content set by the setting unit 61 and the support method and support means determined by the determination unit 62. Specifically, the support unit 133 generates control information based on the support content, support method, and support means, and supplies the control information to various I/Fs 121 .
  • the support unit 133 Control information is generated so that the speaker outputs audio that conveys only the outline of the message regarding the next route, and is supplied to various I/Fs 121 of the speaker. This will cause the speaker to output speech that conveys only the outline of the message regarding the next route in an accurate tone.
  • the voice that conveys only the outline of the message regarding the next route is, for example, "300 meters ahead, turn right.”, “Turn right at the next corner.”
  • the voice that conveys a message about the next route to the user according to the support method represented by "Speak with related topic” is, for example, "300 meters ahead, turn right. There is a traffic jam ahead. It's going to rain.” This is the voice that conveys both the next directions and information related to the next directions.
  • the result processing unit 63 After the support by the support unit 133, the result processing unit 63 generates a support result based on the estimation result of at least one of the user's emotion and context before and after the support and the analysis result of the input information supplied from the analysis unit 53. do. Then, the result processing unit 63 registers the support result in the support result table in the database 132 in association with the current support content, support method, and support means. For example, if the support method this time is the support method represented by "briefly communicate by voice" and the support means is the support means "precise tone", the leftmost information in the support result table shown in FIG. be registered.
  • This support result table is used to determine the support method and support means for the next support. For example, in the support result table, before and after support corresponding to the support content "transmit a message about the next path to the user", the number "XXX-001" representing the support method, and the number "YYY-003" representing the support method If the arousal level of the emotion estimation result does not change, and the speed of the bicycle represented by the context estimation result before and after support does not change, the emotion and context estimation result after support corresponds to the support method and support means. Not appropriate upcoming emotion and context. That is, in such a case, the assistance provided this time may not have caught the user's attention, and the user may not have received the correct message regarding the next course of action. Therefore, the determination unit 62 determines, for example, the support means for the next time to be the support means that attracts the user's attention other than the support means numbered "YYY-003".
  • the determination unit 62 determines the support means numbered "YYY-004" as the next support means. As a result, at the time of the next support, after a warning sound of "ping-pong" is output, a message regarding the next route is transmitted to the user in a command tone. It should be noted that even during the support by the support means numbered "YYY-003", any sound other than the warning sound may be output before the message regarding the next route.
  • the determination unit 62 selects that support means. This will loudly convey a message to the user about what to do next.
  • the determination unit 62 selects the support means. This conveys to the user a message about the next route with an unusual ending, such as "Turn right at the next corner” or “Turn right at the next corner. Turn right.”
  • the determination unit 62 determines the support means using the support result table has been described, but the same applies to the case of determining the support method. As described above, the determination unit 62 can ensure that the user receives a message regarding the next route by determining the support method and support means using the support result table.
  • the flow of the navigation processing performed by the bicycle navigation system 100 is basically the same as the flow of the voice support processing in FIG. 5, so the explanation is omitted.
  • the navigation device 104 assists the user based on the estimation result of at least one of emotion and context, and the prediction result of at least one of emotion and context. Therefore, it is possible to predict the user's future state and support the user.
  • the navigation device 104 also refers to the assistance result table to determine the assistance method and assistance means. Therefore, support for the user can be individually optimized.
  • FIG. 9 is a block diagram showing a configuration example of a pet-type robot system including a pet-type robot agent device as an information processing device to which the present technology is applied.
  • a pet-type robot system 200 in FIG. 9 is composed of one or more wearable devices 11 and a pet-type robot 201 .
  • the pet robot system 200 manages the user's stress and assists the user in reducing stress.
  • the pet robot 201 of the pet robot system 200 includes one or more IoT devices 12, one or more human interface devices 211, and a pet robot agent device 212.
  • the human interface device 211 includes an input device that receives input from the user and an output device that outputs to the user.
  • Input devices include microphones, touch sensors, and pressure sensors as the ears of the pet-type robot 201.
  • Output devices include speakers as the mouth of the pet-type robot 201 and parts of the pet-type robot (not shown). ), and the like.
  • the human interface device 211 has various I/Fs 221 for interacting with the user.
  • various I/F221 of a microphone, a touch sensor, and a pressure sensor inputs input information into the navigation apparatus 104 similarly to various I/F41.
  • Various I/Fs 221 of the speaker support the user by outputting voice based on the control information input from the pet-type robot agent device 212 .
  • Various I/Fs 221 of the driving unit provide assistance by driving each part of the pet robot 201 based on control information input from the pet robot agent device 212 .
  • Information is exchanged between the wearable device 11 and the pet robot 201 via a wired or wireless network.
  • the pet-type robot agent device 212 differs from the voice agent device 14 in that a database 231 and a support unit 232 are provided instead of the database 56 and the support unit 57, and the rest is configured similarly to the voice agent device 14.
  • the database 231 of the pet-type robot agent device 212 stores a support method table, a support means table, and a support result table.
  • the support result table corresponds to the support by the pet-type robot agent device 212 .
  • the support unit 232 supports the user via the pet-type robot 201 according to the support content supplied from the setting unit 61 and the support method and support means supplied from the determination unit 62 .
  • the support unit 232 generates control information for controlling the speaker and supplies it to various I/Fs 321 of the speaker, thereby supporting the user with the voice of the pet-type robot 201. .
  • the support unit 232 generates control information for controlling the drive unit so that the pet-type robot 201 performs actions corresponding to the content of support, the method of support, and the means of support. And the support part 232 supplies the control information to various I/F221 of a drive part. As a result, the pet-type robot 201 performs a predetermined action, and the user is supported by the action of the pet-type robot 201 .
  • the image sensor of the IoT device 12 of the pet robot 201 is installed as the eyes of the pet robot 201, for example.
  • the database 231 may be provided outside the pet-type robot 201 instead of being provided inside the pet-type robot 201, and may be connected to the support control unit 55 via a wired or wireless network.
  • FIG. 10 is a diagram showing an example of information stored in database 231 of FIG.
  • 4 shows an assistance result table.
  • an appropriate emotion is associated with the support method “propose briefly by voice”.
  • ⁇ High arousal'' indicates the estimation result of appropriate context
  • ⁇ Working'' indicates the estimation result of appropriate context
  • ⁇ Low arousal'' indicates the estimation result of inappropriate emotion
  • the result of inappropriate context estimation "in action”, “likely to change” for appropriate future emotion, “likely to change” for appropriate future context, "low arousal” for inappropriate future emotion ", and "(none)” are registered to represent inappropriate future context.
  • the support method represented by "simply propose by voice” is a proposal method in which only the outline of the message regarding the content of the proposal is conveyed by voice.
  • the support content "propose a break to the user", the support method "ZZZ-001", and the support method "YYY-001” are associated with each other, and the support of the support content Support date and time when the support method and support means are implemented, pre-support emotion estimation result, pre-support context estimation result, post-support emotion estimation result, post-support context estimation result, and user feedback Your feedback is registered.
  • the support means numbered "YYY-001" in FIG. 3 is registered in the support means table corresponding to the support method including "propose by voice”.
  • Support content "propose a break to the user", support method "ZZZ-003", and support means "WWW-001" are associated with each other, and the support of the support content is performed by the support method and support means.
  • the date and time of assistance, pre-assisted emotion estimation result, pre-assisted context estimation result, post-assisted emotion estimation result, post-assisted context estimation result, and user feedback are registered. .
  • support method table is not limited to the example in FIG.
  • FIG. 11 is a diagram showing an example of an outline of processing by the pet-type robot system 200 of FIG.
  • the context estimation result by the context processing unit 52 is "the user is working for a long time", and the prediction result of the context with high reliability is "work continues".
  • the setting unit 61 sets the assistance content to "propose a break to the user". set. That is, when the user concentrates on the work for a long time, the user's stress is high, so the setting unit 61 assists the user in suggesting a break to relax the user.
  • the determining unit 62 selects one of the support methods corresponding to at least one of the emotion and the context estimation result from the support method table corresponding to the support content "propose a break to the user" stored in the database 231. Select one to read. At this time, the determination unit 62 selects the support method with the most desirable support result registered in association with the support method among the selection candidate support methods based on the support result table.
  • the determination unit 62 selects the number "ZZ- 001”, the support method represented by “briefly suggest by voice” is selected as a candidate for selection. Then, the estimation result of the emotion or context after assistance corresponding to the number "ZZZ-001" in the assistance result table of FIG. If there is, the determination unit 62 determines and reads this selection candidate as the current support method.
  • the determining unit 62 selects one of the support means corresponding to at least one of the emotion and context estimation result from the support means table corresponding to the current support method stored in the database 231. read out. At this time, the determining unit 62 selects the most desirable support result registered in association with the support means among the support means of the selection candidates based on the support result table.
  • the determining unit 62 selects from the support means table the support means "calm, quiet and gentle tone” of the number "YYY-001” associated with "low pleasantness” representing the emotion estimation result. is a candidate for selection. Then, the emotion or context estimation result after assistance corresponding to the number "YYY-001" in the assistance result table of FIG. If there is, the determination unit 62 determines and reads out this support means as the current support means.
  • the support unit 232 provides support by suggesting a break to the user via the pet-type robot 201 based on the support content set by the setting unit 61 and the support method and support means determined by the determination unit 62 . Specifically, the support unit 232 generates control information based on the support content, support method, and support means, and supplies the control information to various I/Fs 221 .
  • the support unit 232 Control information is generated so that the speaker outputs a voice that conveys only the summary of the message regarding the suggestion of a break in a quiet and gentle tone, and is supplied to various I/Fs 221 of the speaker. This causes the speaker to output a voice that conveys only the summary of the message regarding the proposed break in a calm, quiet, and gentle tone.
  • the voice that conveys only the outline of the message regarding the suggestion of a break is, for example, a voice that simply suggests a break, such as "Would you like to take a break?"
  • the support method this time was decided to be the support method expressed by "proposing through the motion of a pet-type robot", and the support method this time was "moving to stare with concerned eyes and make a sweet voice".
  • the support unit 232 When determined, the support unit 232 generates control information for controlling the driving unit so that the pet-type robot 201 looks at the user with concerned eyes, and supplies it to various I/Fs 221 of the driving unit. do.
  • the support part 232 produces
  • the support unit 232 instructs the user to take a break by causing the pet-type robot 201 to perform an action that makes the user want to take a break, instead of issuing an instruction to "let's take a break.”
  • the support unit 232 instructs the user to take a break by causing the pet-type robot 201 to perform an action that makes the user want to take a break, instead of issuing an instruction to "let's take a break.”
  • the result processing unit 63 After the support by the support unit 232, the result processing unit 63 generates a support result based on the estimation result of at least one of the user's emotion and context before and after the support and the analysis result of the input information supplied from the analysis unit 53. do. Then, the result processing unit 63 registers the support result in the support result table in the database 231 in association with the current support content, support method, and support means. For example, if the support method this time is the support method represented by "suggestion by voice" and the support means is the support means "calm, quiet and gentle tone", the leftmost side of the support result table shown in FIG. information is registered.
  • This support result table is used to determine the support method and support means for the next support. For example, in the support result table, estimation of the context after support corresponding to the support content "Propose a break to the user", the number "ZZZ-001” representing the support method, and the number “YYY-001” representing the support method If the result is not resting, then the estimated post-assistance context result is not the appropriate future context corresponding to that assistance method and means. That is, in such a case, there is a possibility that the assistance provided this time does not attract the user's attention. Therefore, the determining unit 62 determines at least one of the support method and the support means for the next support to be different from the support for this time.
  • the determination unit 62 selects a support method represented by "propose through pet-type robot motion” as the next support method, and the support means “to the user” is one of the support means corresponding to the support method. "Movement of approaching and ramming” is selected as the next support means.
  • the determination unit 62 selects a support method represented by "propose through the action of a pet-type robot” as the next support method, and the support means “to take a break” is one of the support means corresponding to the support method. The action of singing suitable music” is selected as the next support means.
  • the setting unit 61 sets the assistance content to "to the user. Provide a pleasant break".
  • the support method table corresponding to the content of support "provide a pleasant break for the user” is registered with the support method represented by "provide through the action of a pet-type robot"
  • the determination unit 62 for example, From the support means table No. 10, the support means "Play” is read out as the current support means.
  • the pet robot 201 plays with the user when it is predicted that the user is currently resting and will continue to rest in the future, and that the state of the user's arousal level is expected to continue.
  • the pet-type robot agent device 212 supports the user based on the estimation result of at least one of emotion and context, and the prediction result of at least one of emotion and context. Therefore, it is possible to predict the user's future state and support the user.
  • the pet-type robot agent device 212 also refers to the assistance result table to determine the assistance method and assistance means. Therefore, support for the user can be individually optimized.
  • FIG. 12 is a block diagram showing a configuration example of a driving assistance system including a driving assistance device as an information processing device to which the present technology is applied.
  • a driving support system 300 in FIG. 12 is composed of one or more wearable devices 11, one or more IoT devices 301, one or more human interface devices 302, and a driving support device 303.
  • Driving assistance system 300 is incorporated in, for example, an automobile.
  • the driving assistance system 300 assists a user who is driving an automobile or the like to drive comfortably and safely.
  • the IoT device 301 has environment sensors 311, which are various sensors that acquire environmental information.
  • the environment sensor 311 includes a GPS sensor similar to the environment sensor 31, an image sensor, an ultrasonic sensor, an infrared camera, an acceleration sensor, a gyro sensor, a temperature/humidity sensor, and a weather sensor, as well as traffic information around the user as environment information.
  • the IoT device 301 inputs environmental information acquired by the environmental sensor 311 to the driving support device 303 .
  • the human interface device 302 includes an input device that receives input from the user and an output device that outputs to the user.
  • Input devices include microphones, touch sensors, pressure sensors, and the like, and output devices include speakers, vibration devices, displays, and the like.
  • the human interface device 302 has various I/Fs 321 that interact with the user.
  • Various I/Fs 321 such as a microphone, a touch sensor, and a pressure sensor input input information to the navigation device 104 in the same manner as the various I/Fs 41 .
  • Various I/Fs 321 such as a speaker, a vibration device, and a display support the user by outputting audio, vibration, and video based on control information input from the driving support device 303, respectively.
  • Information is exchanged between the wearable device 11, the IoT device 301, the human interface device 302, and the driving support device 303 via a wired or wireless network.
  • the driving support device 303 is different from the voice agent device 14 in that a database 331 and a support unit 332 are provided instead of the database 56 and the support unit 57. Otherwise, the driving support device 303 is configured in the same manner as the voice agent device 14.
  • the database 331 of the driving assistance device 303 stores an assistance method table, an assistance means table, and an assistance result table in the same way as the database 56 .
  • the support result table corresponds to the support by the driving support device 303.
  • the support unit 332 supports the user with sound, vibration, or video according to the support content supplied from the setting unit 61 and the support method and support means supplied from the determination unit 62 .
  • the support unit 332 generates control information for controlling the speaker and supplies it to various I/Fs 321 of the speaker, thereby supporting the user with voice. Similar to the support unit 133 in FIG. 6, the support unit 332 generates control information for controlling the vibration device and supplies the control information to various I/Fs 321 of the vibration device, thereby supporting the user through vibration.
  • the support unit 332 generates control information for controlling the display as the human interface device 302 so that an image corresponding to the content of support, the support method, and the support means is displayed on the display. And the support part 332 supplies the control information to various I/F321 of a display. As a result, images corresponding to the content of assistance, the assistance method, and the assistance means are displayed on the display, and the user is assisted by the images.
  • the database 331 may be provided outside the driving support device 303 instead of inside and connected to the support control unit 55 via a wired or wireless network.
  • FIG. 13 is a diagram showing an example of information stored in database 331 of FIG.
  • FIG. 13 a support method table corresponding to the support content "Propose a change of BGM (Background Music) to the user" stored in the database 331, and a support method corresponding to information including "Propose by voice”
  • a support means table and a support result table are shown.
  • the support method numbered "ZZZ-001" in FIG. 10 is registered in the support method table corresponding to the support content "Propose BGM change to the user".
  • the content of the support is associated with the support content "propose a change of BGM to the user", the support method "ZZZ-001", and the support method "YYY-001".
  • the date and time of support when the support method and support means were implemented, the pre-support emotion estimation result, the pre-support context estimation result, the post-support emotion estimation result, the post-support context estimation result, and the user Feedback from has been registered.
  • the content of the support "propose a change of BGM to the user", the method of support "ZZZ-002", and the means of support "YYY-002" are associated with each other, and the support of the support content is defined as the support method and the support.
  • the support date and time, pre-support emotion estimation result, pre-support context estimation result, post-support emotion estimation result, post-support context estimation result, and feedback from the user are registered. ing.
  • support method table is not limited to the example of FIG.
  • FIG. 14 is a diagram showing an example of an outline of processing by the driving support system 300 of FIG.
  • the setting unit 61 sets the content of the support to "transmit a message about resolving traffic congestion to the user" and "change BGM to the user.” set to "Propose to”.
  • the driving assistance device 303 notifies the user who is uncomfortable in the traffic congestion that the congestion is resolved and assists him/her by suggesting a change in the BGM, thereby causing the user's state to transition from a state of low comfort to a state of high comfort.
  • the determining unit 62 selects a support method corresponding to at least one of the emotion and context estimation results from the support method table corresponding to the support content "transmit a message about resolving congestion to the user" stored in the database 331. Select one of them to read.
  • the determining unit 62 selects one of the support methods corresponding to at least one of the estimation result of the emotion and the context from the support method table corresponding to the support content "Propose a change of BGM to the user" stored in the database 331. Select and read out one of the At this time, the determination unit 62 selects the support method with the most desirable support result registered in association with the support method among the selection candidate support methods based on the support result table.
  • the determining unit 62 selects the number "ZZ- 001”, the support method represented by “briefly suggest by voice” is selected as a candidate for selection. Then, the estimation result of the emotion or context after assistance corresponding to the number "ZZZ-001" in the assistance result table of FIG. , the determination unit 62 determines and reads this selection candidate as the current support method.
  • the determination unit 62 selects one of the support methods corresponding to at least one of the emotion and context estimation results from the support means table corresponding to the current support method stored in the database 331. read out. At this time, the determining unit 62 selects the most desirable support result registered in association with the support means among the support means of the selection candidates based on the support result table.
  • the determining unit 62 selects the number "YYY-001" associated with the emotion estimation result "low pleasure level” from the support means table of FIG. support means "calm, quiet and gentle tone” is a candidate for selection. Then, the emotion or context estimation result after assistance corresponding to the number "YYY-001" in the assistance result table of FIG. If there is, the determination unit 62 determines and reads this selection candidate as the support means of this time.
  • the assistance unit 332 Based on the content of assistance set by the setting unit 61 and the assistance method and assistance means determined by the determination unit 62, the assistance unit 332 transmits to the user a message regarding congestion relief as driving assistance information for assisting the user's driving. and the support of proposing a change of BGM to the user.
  • the support method represented by “Communicate simply by voice” was decided as the support method this time.
  • the support unit 332 When “gentle tone” is determined, the support unit 332 generates control information so that the speaker outputs a voice conveying only the outline of the message regarding the BGM change proposal in a calm, quiet, and gentle tone.
  • the voice that conveys only the outline of the message regarding the proposal to change the BGM is the voice that simply proposes to change the BGM, for example, "Would you like to change the song to XX (a song with an exhilarating tempo)?" Become.
  • the voice that conveys a message to the user about a proposal to change the BGM according to the support method represented by ⁇ Suggest by voice with related topics'' is, for example, ⁇ I will not change the song to XX (a song with an exhilarating tempo).
  • I went for a drive to ⁇ before, I felt good listening to it. which is a voice that conveys both a proposal to change the BGM and information related to that proposal.
  • the voice that conveys the message to the user is, for example, "Thank you for your hard work. Traffic congestion is expected to be resolved soon.” That is, in this case, a voice is output that conveys both the clearing of the congestion and a message that is associated with the clearing of the congestion and is a message of appreciation for the effort of enduring the congestion.
  • the result processing unit 63 After the support by the support unit 332, the result processing unit 63 generates a support result based on the estimation result of at least one of the user's emotion and context before and after the support and the analysis result of the input information supplied from the analysis unit 53. do. Then, the result processing unit 63 registers the support result in the support result table in the database 331 in association with the current support content, support method, and support means. For example, if the support method this time is the support method represented by "suggestion by voice" and the support means is the support means "calm, quiet and gentle tone", the leftmost side of the support result table shown in FIG. information is registered.
  • This support result table can be used not only to determine the support method and support means for the next support, but also to set the content of support. For example, if the arousal level of the emotion estimation result after the current assistance is low, the current state of the user is inappropriate for driving. Therefore, in the support result table, the setting unit 61 sets, as the next support content, the support content with a high arousal level in the post-support emotion estimation result.
  • the setting unit 61 can set "suddenly transmit surrounding traffic information to the user", “temporarily change the volume of BGM", “transmit a message confirming that the user is awake”, and the like. Set as support content. After the support content "temporarily change the volume of the BGM", if the user inputs voice such as "Return the volume”, the arousal level of the emotion estimation result after the support is high. Become. Therefore, the setting unit 61 sets the next assistance content without considering the level of arousal in the emotion estimation result after assistance registered in association with each assistance content in the assistance result table.
  • the setting unit 61 selects another support content with a high degree of arousal in the estimation result of the post-support emotion in the support result table, for example, the support content "transmitting a message to the user to instruct the user to wake up” as the next support content. set.
  • the setting unit 61 sets the support content "to warn the user of a system error and transmit a message to stop the vehicle immediately" as the next support content.
  • the setting unit 61 sets the content of the assistance "propose a change of BGM to the user" in preparation for acceleration after the congestion is resolved. It is also possible to set "propose a traffic jam avoidance measure to the user” or "propose a method to the user to spend comfortably in a traffic jam".
  • Suggestions for avoiding traffic jams include suggestions for route changes, breaks, detours, and suggestions for buying food and drinks at convenience stores and parking lots.
  • Proposals for ways to spend time comfortably in traffic jams include, for example, proposals to change drivers when the user has been driving for a long time and there are other people who can drive, proposals to recline one's posture and posture, There are suggestions for deep breathing and stretching that can be done in the driver's seat.
  • the setting unit 61 may, for example, set the assistance content “occurrence of traffic congestion”. Set “Send messages to users about” and “Propose traffic jam avoidance measures to users”. Note that the setting unit 61 may set the content of support “propose a method to the user to spend comfortably in a traffic jam” instead of the content of support “propose a traffic jam avoidance measure to the user”.
  • the setting unit 61 When the prediction result of the context is "Continued traffic congestion" and the pleasure level of the estimation result of emotion is low, the setting unit 61, for example, sends a message regarding the details of the context prediction result as a future prospect to the user. or "Suggest the user how to spend comfortably in a traffic jam".
  • the selection of the support content may be performed by referring to the support result table.
  • the setting unit 61 sets the content of the support “proposing to the user a method to spend comfortably in a traffic jam".
  • the estimation result of the emotion after the support corresponding to the support content "Proposing a method to the user to spend comfortably in a traffic jam” is "Pleasantness decreases”
  • the setting unit 61 selects the support content "Future Communicate a message to the user about the details of the forecast result of the context as a perspective”.
  • the setting unit 61 may include assistance contents such as "change BGM” and "transmit current news to the user".
  • the driving assistance device 303 assists the user based on the estimation result of at least one of emotion and context, and the prediction result of at least one of emotion and context. Therefore, it is possible to predict the user's future state and support the user.
  • the driving support device 303 also refers to the support result table to determine the support method and support means. Therefore, support for the user can be individually optimized.
  • FIG. 15 is a block diagram showing a configuration example of a cooking assistance system including a cooking assistance device as an information processing device to which the present technology is applied.
  • the cooking assistance system 400 in FIG. 15 is composed of one or more hearable devices 401, one or more IoT devices 12, one or more human interface devices 402, and a cooking assistance device 403.
  • the cooking assistance system 400 assists the user who is cooking so that the user can proceed with cooking in a calm manner.
  • the hearable device 401 is worn on the user's ear. Like the wearable device 11, the hearable device 401 has a biosensor 21 and a motion sensor 22. FIG. The biomedical signal acquired by the biosensor 21 and the biomedical information acquired by the motion sensor 22 are input to the cooking assistance device 403 .
  • the human interface device 402 includes an input device that accepts input from the user and an output device that outputs to the user.
  • Input devices include microphones, touch sensors, pressure sensors, keyboards, etc.
  • Output devices include speakers, vibration devices, displays, and the like. This output device can be provided in a smart phone or the like.
  • the human interface device 402 has various I/Fs 411 for interacting with the user.
  • Various I/Fs 411 such as a microphone, a touch sensor, a pressure sensor, and a keyboard input input information to the cooking support device 403 in the same manner as the various I/Fs 41 .
  • Various I/Fs 411 including a speaker, a vibration device, and a display support the user by outputting audio, vibration, and video based on control information input from the cooking support device 403, respectively.
  • the cooking support device 403 is different from the voice agent device 14 in that it has a database 421 and a support section 422 instead of the database 56 and support section 57, and is otherwise configured in the same manner as the voice agent device 14.
  • Database 421 of cooking assistance device 403 stores an assistance method table, an assistance means table, and an assistance result table in the same manner as database 56 .
  • the support result table corresponds to the support by the cooking support device 403. FIG.
  • the support unit 422 supports the user with sound, vibration, or video according to the support content supplied from the setting unit 61 and the support method and support means supplied from the determination unit 62. do.
  • the database 421 may be provided outside the cooking assistance device 403, rather than inside it, and connected to the assistance control unit 55 via a wired or wireless network.
  • FIG. 16 is a diagram showing an example of information stored in database 421 of FIG.
  • an assistance result table corresponding to the support method represented by the information including "transmit by voice”
  • the support means table corresponding to the support method represented by the information including "transmit by voice” the support means numbered "YYY-001" and “YYY-002" in Fig. 3 are registered.
  • the support of the support content is associated with the support content "communicate the message about the procedure to the user", the support method "XXX-001", and the support method "YYY-001".
  • the date and time of support when the support method and support means were implemented the pre-support emotion estimation result, the pre-support context estimation result, the post-support emotion estimation result, the post-support context estimation result, and the user Feedback from is registered.
  • the content of the support is associated with the content of support "transmitting a message about the procedure to the user", the method of support "XXX-001", and the means of support "YYY-002".
  • the support date and time, pre-support emotion estimation result, pre-support context estimation result, post-support emotion estimation result, post-support context estimation result, and feedback from the user are registered. be.
  • support method table is not limited to the example of FIG.
  • FIG. 17 is a diagram showing an example of an outline of processing by the cooking support system 400 of FIG.
  • the context estimation result by the context processing unit 52 is “step skipped during cooking”
  • the highly reliable context prediction result is “continue cooking”
  • the setting unit 61 sets the content of support to "transmitting a message regarding procedures to the user.” set.
  • the determining unit 62 selects one of the support methods corresponding to at least one of the estimation result of the emotion and the context from the support method table corresponding to the support content "transmitting a message about the procedure to the user" stored in the database 421. Select and read out one of the At this time, the determination unit 62 selects the support method with the most desirable support result registered in association with the support method among the selection candidate support methods based on the support result table.
  • the determining unit 62 selects the number "XXX- 001”, the support method represented by “briefly communicate by voice” is a candidate for selection. Then, the estimation result of the emotion or context after assistance corresponding to the number "XXX-001" in the assistance result table of FIG. If there is, the determination unit 62 determines and reads this selection candidate as the current support method.
  • the determining unit 62 selects one of the support means corresponding to at least one of the estimation result of the emotion and the context from the support means table corresponding to the current support method stored in the database 421. read out. At this time, the determining unit 62 selects the most desirable support result registered in association with the support means among the support means of the selection candidates based on the support result table.
  • the determination unit 62 selects the number "YYY- 001” support means “calm, quiet, gentle tone” is a candidate for selection. Then, the estimation result of the emotion or context after assistance corresponding to the number "YYY-001" in the assistance result table of FIG. If there is, the determination unit 62 determines and reads this selection candidate as the support means of this time. Since the appropriate information representing the future emotion corresponding to the support means numbered "YYY-001" is "low arousal", if this support means is determined to be the current support means, cooking support device 403 can help calm a panicked user.
  • the support unit 422 transmits a message regarding the procedure to the user as cooking support information for assisting the user in cooking, based on the support content set by the setting unit 61 and the support method and support means determined by the determination unit 62. provide support. Specifically, the support unit 422 generates control information based on the content of support, the support method, and the support means, and supplies it to various I/Fs 411 .
  • the support unit 422 Control information is generated so that the speaker outputs a voice that conveys only the outline of the message regarding the procedure in a quiet and gentle tone, and is supplied to various I/Fs 411 of the speaker. This causes the speaker to output a voice that conveys only an outline of the procedural message in a calm, quiet, and gentle tone.
  • the voice that conveys only the outline of the message regarding the procedure is, for example, the voice that simply conveys the procedure such as "Let's do procedure ⁇ .”
  • the voice that conveys a message about the procedure to the user according to the support method represented by "conveying with audio along with the video” simply conveys the procedure, for example, "Let's do procedure ⁇ . Look at the display.”
  • a voice prompts the user to look at the display.
  • the support unit 422 also generates control information for controlling the display to display a video representing the procedure, and supplies the control information to various I/Fs 411 of the display.
  • a sound saying "Let's do procedure 0. Look at the display.” is output from the speaker, and an image representing the procedure is displayed on the display. That is, audio and video assist in conveying procedural messages to the user.
  • the procedure to be communicated to the user is, for example, the popular cooking procedure of the dish that the user wants to make obtained via the Internet.
  • the result processing unit 63 After the support by the support unit 422, the result processing unit 63 generates a support result based on the estimation result of at least one of the user's emotion and context before and after the support and the analysis result of the input information supplied from the analysis unit 53. do. Then, the result processing unit 63 registers the support result in the support result table in the database 421 in association with the current support content, support method, and support means. For example, if the support method this time is the support method represented by "concisely communicate by voice" and the support means is the support means "calm, quiet and gentle tone", the leftmost side of the support result table shown in FIG. information is registered.
  • This support result table is used to determine the support method and support means for the next support. For example, when the arousal level of the emotion estimation result after the current support is high, that is, when the user is feeling anxious, the determining unit 62 selects the support with the low arousal level of the emotion estimation result after the support in the support result table.
  • a means, for example, a support means "gentle tone" is determined as the next support means. If the level of arousal is high even after the support is provided with the support means "gentle tone", the determining unit 62 selects another support method, such as The support method of "XXX-003" in FIG. 16 is determined as the next support method. As described above, it is possible to convey the procedure using video to the user who feels uneasy about conveying the procedure by voice.
  • the support content and support method are the same as when the degree of arousal is high. is determined by As a result, a user who has skipped a step or performed a wrong step during cooking due to a low level of alertness, that is, a lack of concentration, is assisted to regain concentration.
  • this support is judged to be effective. Then, referring to the support result table of this support, at the time of support when at least one of the estimation result and prediction result of the context and the estimation result and prediction result of emotion is the same as that of the current support, the same support content, support method, and support means are provided.
  • the setting unit 61 sets the level of the emotion estimation result after the support to "high arousal" indicating the emotion estimation result after the support.
  • Other support content corresponding to is set as the next support content.
  • Other support contents include, for example, the support contents ⁇ output intense rhythm BGM'', ⁇ propose the user to stretch'', ⁇ propose the user to have a drink'', and ⁇ take a temporary break''. Propose to the user” and the like.
  • the setting unit 61 refers to the support result table to set the content of the support, thereby increasing the user's alertness, that is, assisting the user in regaining concentration.
  • the cooking assistance device 403 assists the user based on the estimation result of at least one of emotion and context, and the prediction result of at least one of emotion and context. Therefore, it is possible to predict the user's future state and support the user.
  • Cooking assistance device 403 also refers to the assistance result table to determine the assistance method and assistance means. Therefore, support for the user can be individually optimized.
  • the emotion processing unit 54 estimates the user's current emotion based on the feature amount of the biometric signal. Emotions can also be estimated.
  • the biological processing unit 51 performs only preprocessing such as noise removal and resampling on the biological signal based on information associated with the biological body, and does not perform processing for extracting feature amounts from the biological signal.
  • the emotion processing unit 54 may use a model other than the Russell's cyclic model of emotion to obtain the estimation result or the prediction result of emotion.
  • a series of processes of the voice agent device 14, the navigation device 104, the pet-type robot agent device 212, the driving support device 303, and the cooking support device 403 can be executed by hardware or by software. can also When executing a series of processes by software, a program that constitutes the software is installed in the computer.
  • the computer includes, for example, a computer built into dedicated hardware and a general-purpose personal computer capable of executing various functions by installing various programs.
  • FIG. 18 shows a hardware configuration example of a computer that executes a series of processes of the voice agent device 14, the navigation device 104, the pet-type robot agent device 212, the driving support device 303, and the cooking support device 403 described above by a program. It is a block diagram.
  • a CPU Central Processing Unit
  • ROM Read Only Memory
  • RAM Random Access Memory
  • An input/output interface 505 is further connected to the bus 504 .
  • An input unit 506 , an output unit 507 , a storage unit 508 , a communication unit 509 and a drive 510 are connected to the input/output interface 505 .
  • the input unit 506 consists of a keyboard, mouse, microphone, and the like.
  • the output unit 507 includes a display, a speaker, and the like.
  • a storage unit 508 includes a hard disk, a nonvolatile memory, or the like.
  • a communication unit 509 includes a network interface and the like.
  • a drive 510 drives a removable medium 511 such as a magnetic disk, optical disk, magneto-optical disk, or semiconductor memory.
  • the CPU 501 loads, for example, a program stored in the storage unit 508 into the RAM 503 via the input/output interface 505 and the bus 504, and executes the above-described series of programs. is processed.
  • the program executed by the computer (CPU 501) can be provided by being recorded on removable media 511 such as package media, for example. Also, the program can be provided via a wired or wireless transmission medium such as a local area network, the Internet, or digital satellite broadcasting.
  • the program can be installed in the storage unit 508 via the input/output interface 505 by loading the removable medium 511 into the drive 510 . Also, the program can be received by the communication unit 509 and installed in the storage unit 508 via a wired or wireless transmission medium. In addition, programs can be installed in the ROM 502 and the storage unit 508 in advance.
  • the program executed by the computer may be a program that is processed in chronological order according to the order described in this specification, or may be executed in parallel or at a necessary timing such as when a call is made. It may be a program in which processing is performed.
  • This technology can be applied to user support agent systems that support users other than the voice support system, bicycle navigation system, pet robot system, driving support system, and cooking support system described above.
  • it can be applied to other work support systems that support study and work as user work, instead of driving and cooking. It is configured similarly to the support system 400 .
  • both the driving assistance information and the cooking assistance information described above are assistance information for assisting the user's work, they can be collectively referred to as work assistance information for assisting the user's work.
  • a projector or the like may be used as the output device.
  • a system means a set of multiple components (devices, modules (parts), etc.), and it does not matter whether all the components are in the same housing. Therefore, a plurality of devices housed in separate housings and connected via a network, and a single device housing a plurality of modules in one housing, are both systems. .
  • Embodiments of the present technology are not limited to the above-described embodiments, and various modifications are possible without departing from the gist of the present technology.
  • this technology can take the configuration of cloud computing in which a single function is shared by multiple devices via a network and processed jointly.
  • each step described in the flowchart above can be executed by a single device, or can be shared by a plurality of devices.
  • one step includes multiple processes
  • the multiple processes included in the one step can be executed by one device or shared by multiple devices.
  • an information processing apparatus comprising: a support unit that supports the user based on an estimation result of at least one of the user's current emotion and context and a prediction result of at least one of the user's future emotion and context .
  • the information processing apparatus according to (1) further comprising: an emotion processing unit that obtains the emotion prediction result based on the emotion estimation result and at least one of the context estimation result and the context prediction result.
  • the emotion processing unit is also configured to obtain a reliability of the emotion prediction result based on the emotion estimation result and at least one of the context estimation result and the context prediction result. ).
  • an emotion processing unit that obtains an estimation result of the emotion using the user's biological signal.
  • the information processing apparatus further comprising: a context processing unit that obtains a prediction result of the context based on the time-series estimation result of the context.
  • a context processing unit that obtains the estimation result of the context based on at least one of environmental information indicating the surrounding environment of the user and input information that is information input by the user.
  • the information processing device according to any one of (4).
  • a setting unit configured to set content of support, which is content of support by the support unit, based on an estimation result of at least one of the emotion and the context and a prediction result of at least one of the emotion and the context; further prepared, The information processing apparatus according to any one of (1) to (6), wherein the support unit is configured to support the content of support set by the setting unit.
  • a determination unit that determines a support method, which is a method of support by the support unit, based on at least one of the emotion and the context estimation result; The information processing apparatus according to (7), wherein the support unit is configured to support the content of support by the support method determined by the determination unit.
  • a result processing unit that stores, in a storage unit, the support result for the user in association with the support method based on the estimation result of at least one of the emotion before and after the support by the support unit and the context;
  • the information processing device according to (8).
  • the information processing apparatus determines the support method also based on the support result stored in the storage unit.
  • the determination unit also determines support means, which is a means of support by the support unit, based on at least one of the emotion and the context estimation result, The information processing apparatus according to (8), wherein the support unit is configured to support the content of support using the support method and the support means determined by the determination unit.
  • a result processing unit for storing, in a storage unit, a support result for the user in association with the support method and the support means, based on estimation results of at least one of the emotion before and after the support by the support unit and the context.
  • the information processing apparatus according to (11) above further comprising: (13) The information processing apparatus according to (12), wherein the determination unit determines the support method and the support means based also on the support result stored in the storage unit.
  • the assistance content is to convey a message to the user;
  • the support method is a method of conveying the message to the user by voice,
  • the information processing apparatus according to any one of (11) to (13), wherein the support means is tone or volume of the voice.
  • the information processing device according to (14), wherein the message is navigation information.
  • the information processing apparatus 16
  • the message is work support information for supporting the work of the user.
  • the support content is to propose to the user,
  • the support method is a method of making a proposal to the user through the operation of the robot,
  • the information processing apparatus according to any one of (11) to (13), wherein the support means is a predetermined motion of the robot.
  • the information processing device an information processing method comprising: an assisting step of assisting the user based on an estimation result of at least one of the user's current emotion and context and a prediction result of at least one of the user's future emotion and context. .
  • the computer a support unit that supports the user based on an estimation result of at least one of the user's current emotion and context and a prediction result of at least one of the user's future emotion and context; program.
  • Voice agent device 52 Context processing unit, 54 Emotion processing unit, 56 Database, 57 Support unit, 61 Setting unit, 62 Decision unit, 63 Result processing unit, 104 Navigation device, 131 Context processing unit, 132 Database, 133 Support unit , 212 Pet-type robot agent device, 231 Database, 232 Support unit, 303 Operation support device, 331 Database, 332 Support unit, 403 Cooking support device, 421 Database, 422 Support unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychology (AREA)
  • Pathology (AREA)
  • Educational Technology (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Child & Adolescent Psychology (AREA)
  • Social Psychology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biophysics (AREA)
  • Developmental Disabilities (AREA)
  • Biomedical Technology (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • Surgery (AREA)
  • Animal Behavior & Ethology (AREA)
  • Public Health (AREA)
  • Veterinary Medicine (AREA)
  • User Interface Of Digital Computer (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

本技術は、ユーザの今後の状態を予測してユーザを支援することができるようにする情報処理装置、情報処理方法、およびプログラムに関する。 支援部は、ユーザの現在の情動およびコンテキストのうちの少なくとも一方の推定結果と、ユーザの今後の情動およびコンテキストのうちの少なくとも一方の予測結果とに基づいて、ユーザを支援する。本技術は、例えば、ユーザの発話等による依頼に対し、ユーザが最も受け取りやすいメッセージを返答として音声でユーザに伝達することによりユーザを支援する音声支援システムの音声エージェント装置等に適用できる。

Description

情報処理装置、情報処理方法、およびプログラム
 本技術は、情報処理装置、情報処理方法、およびプログラムに関し、特に、ユーザの今後の状態を予測してユーザを支援することができるようにした情報処理装置、情報処理方法、およびプログラムに関する。
 AI(Artificial Intelligence)アシスタントをはじめとしたユーザ支援エージェントにおいて、ユーザを適切に支援するためには、ユーザの現在の状態を正確に推定したり、ユーザの今後の状態を予測したりする必要がある。しかしながら、ユーザの顔の表情や発話内容だけでは、ユーザの状態を正確に推定することは困難である。
 そこで、ユーザの周囲の環境、ユーザの感情、ユーザの状況、およびユーザの周囲にいる他の人の感情や状況のうちの少なくともいずれかに基づいて、ユーザの現在のコンテキストを認識する情報処理システムがある(例えば、特許文献1参照)。
国際公開第2018/021040号
 しかしながら、このような情報処理システムにおいて、ユーザの今後の状態を予測することは困難である。よって、ユーザの今後の状態を予測してユーザを支援することを実現できる手法の提供が要望されているが、そのような要望に十分にこたえられていない状況である。
 本技術は、このような状況に鑑みてなされたものであり、ユーザの今後の状態を予測してユーザを支援することができるようにするものである。
 本技術一側面の情報処理装置、または、プログラムは、ユーザの現在の情動およびコンテキストのうちの少なくとも一方の推定結果と、前記ユーザの今後の情動およびコンテキストのうちの少なくとも一方の予測結果とに基づいて、前記ユーザを支援する支援部を備える情報処理装置、または、情報処理装置として、コンピュータを機能させるためのプログラムである。
 本技術の一側面の情報処理方法は、情報処理装置が、ユーザの現在の情動およびコンテキストのうちの少なくとも一方の推定結果と、前記ユーザの今後の情動およびコンテキストのうちの少なくとも一方の予測結果とに基づいて、前記ユーザを支援する支援ステップを含む情報処理方法である。
 本技術の一側面においては、ユーザの現在の情動およびコンテキストのうちの少なくとも一方の推定結果と、前記ユーザの今後の情動およびコンテキストのうちの少なくとも一方の予測結果とに基づいて、前記ユーザが支援される。
本技術を適用した音声支援システムの構成例を示すブロック図である。 ラッセルの感情円環モデルを示す図である。 図1のデータベースに記憶される情報の例を示す図である。 音声支援システムによる処理の概要の例を示す図である。 音声支援処理を説明するフローチャートである。 本技術を適用した自転車ナビゲーションシステムの構成例を示すブロック図である。 図6のデータベースに記憶される情報の例を示す図である。 自転車ナビゲーションシステムによる処理の概要の例を示す図である。 本技術を適用したペット型ロボットシステムの構成例を示すブロック図である。 図9のデータベースに記憶される情報の例を示す図である。 ペット型ロボットシステムによる処理の概要の例を示す図である。 本技術を適用した運転支援システムの構成例を示すブロック図である。 図12のデータベースに記憶される情報の例を示す図である。 運転支援システムによる処理の概要の例を示す図である。 本技術を適用した料理支援システムの構成例を示すブロック図である。 図15のデータベースに記憶される情報の例を示す図である。 料理支援システムによる処理の概要の例を示す図である。 コンピュータのハードウエアの構成例を示すブロック図である。
 以下、本技術を実施するための形態(以下、実施の形態という)について説明する。なお、説明は以下の順序で行う。
1.第1実施の形態(音声支援システム)
2.第2実施の形態(自転車ナビゲーションシステム)
3.第3実施の形態(ペット型ロボットシステム)
4.第4実施の形態(運転支援システム)
5.第5実施の形態(料理支援システム)
6.コンピュータ
<第1実施の形態>
<音声支援システムの構成例>
 図1は、本技術を適用した情報処理装置としての音声エージェント装置を含む音声支援システムの構成例を示すブロック図である。
 図1の音声支援システム10は、1以上のウェアラブルデバイス11、1以上のIoT(Internet of Things)デバイス12、1以上のヒューマンインターフェースデバイス13、および音声エージェント装置14により構成される。
 音声支援システム10は、ユーザの発話等による依頼に対し、ユーザが最も受け取りやすいメッセージを返答として音声でユーザに伝達することにより、ユーザを支援する。なお、ユーザが最も受け取りやすいメッセージとは、例えば、ユーザの状態を大きく変化させない、即ちユーザの邪魔をしないメッセージである。
 具体的には、音声支援システム10のウェアラブルデバイス11は、スマートウォッチ、ヒアラブルデバイスなどにより構成され、ユーザの手首、耳などの身体の一部に装着される。ウェアラブルデバイス11は、生体センサ21と動きセンサ22を有する。生体センサ21は、ユーザのEEG(Electroencephalography),ECG(Electrocardiogram),PPG(Photoplethysmogram),EDA(Electro Dermal Activity),LDF(Laser Doppler flowmetry)法により検出される血流、呼吸等を表す信号である生体信号を取得する。生体センサ21は、その生体信号を音声エージェント装置14に入力する。
 動きセンサ22は、加速度センサやジャイロセンサなどにより構成される。動きセンサ22は、生体センサ21の加速度や角速度を、生体信号に付随する情報である生体付随情報として取得する。動きセンサ22は、生体付随情報を音声エージェント装置14に入力する。
 なお、音声支援システム10は、ウェアラブルデバイス11の代わりに、リモートセンシングを行うリモートセンシング装置を備えるようにしてもよい。この場合、例えば、Webカメラなどのリモートセンシング装置によりユーザの心拍数などが推定され、生体信号として取得される。
 IoTデバイス12は、ユーザやユーザの周囲の環境の状態を示す環境情報を取得する各種のセンサである環境センサ31を有する。環境センサ31としては、例えば、GPS(Global Positioning System)センサ、画像センサ、超音波センサ、赤外線カメラ、加速度センサ、ジャイロセンサ、温湿度センサ、気象センサ等がある。GPSセンサは、例えばユーザの現在の位置情報を環境情報として取得する。画像センサ、超音波センサ、赤外線カメラ、加速度センサ、およびジャイロセンサは、例えばユーザの体勢や動きを表す情報を環境情報として取得するために用いられる。温湿度センサは、ユーザの周囲の温度や湿度を表す情報を環境情報として取得する。気象センサは、ユーザの周囲の気象情報を環境情報として取得する。IoTデバイス12は、環境センサ31により取得された環境情報を音声エージェント装置14に入力する。
 ヒューマンインターフェースデバイス13としては、ユーザからの入力を受け付ける入力デバイスやユーザに対して出力を行う出力デバイスがある。入力デバイスとしては、マイク、タッチセンサ、感圧センサ、キーボード等があり、出力デバイスとしては、スピーカ等がある。
 ヒューマンインターフェースデバイス13は、ユーザとのインタラクションを行う各種I/F41を有する。例えば、マイクの各種I/F41は、ユーザから入力された発話を表す情報を、ユーザから入力される情報である入力情報として、音声エージェント装置14に入力する。タッチセンサの各種I/F41は、ユーザのタッチ入力により選択された内容を表す情報を入力情報として、音声エージェント装置14に入力する。感圧センサの各種I/F41は、ユーザの押圧により選択された内容を表す情報を入力情報として、音声エージェント装置14に入力する。キーボードの各種I/F41は、ユーザから入力された文字を表す情報を入力情報として、音声エージェント装置14に入力する。スピーカの各種I/F41は、音声エージェント装置14から入力される制御情報に基づいて、ユーザに対して音声を出力することにより支援を行う。
 ウェアラブルデバイス11、IoTデバイス12、およびヒューマンインターフェースデバイス13と、音声エージェント装置14との情報のやり取りは、有線または無線のネットワークを介して行われる。
 音声エージェント装置14は、生体処理部51、コンテキスト処理部52、解析部53、情動処理部54、支援制御部55、データベース56、および支援部57により構成される。
 音声エージェント装置14の生体処理部51は、動きセンサ22から入力される生体付随情報に基づいて、生体センサ21から入力される生体信号のノイズ判定を行い、生体信号のノイズを除去する。生体処理部51は、ノイズが除去された生体信号からユーザの情動の推定または予測に用いる各種の特徴量を抽出する。この特徴量は、例えば、生体信号がユーザの心拍を表す信号である場合、低周波(LF)、高周波(HF)などであり、生体信号がユーザの脳波を表す信号である場合、例えばα波、θ波等である。生体処理部51は、生体信号の特徴量を支援制御部55に供給する。
 コンテキスト処理部52は、環境センサ31から入力される環境情報と解析部53から供給される入力情報の解析結果のうちの少なくとも一方に基づいて、行動認識によるユーザの現在のコンテキストの推定を行い、推定結果を求める。
 ここで推定されるコンテキストとは、環境センサ31や入力情報の解析結果単体から直接得られるプリミティブなものから、環境情報と入力情報の解析結果の組み合わせにより推定されるものまでを含む。例えば、ユーザのコンテキストとしては、ユーザの位置、ユーザの周囲の温湿度や天候などの環境(状況)、ユーザの体勢(座っている、立っている、寝ている)などの状態、ユーザの動作(走っている、歩いている、食べている)などの行動、ユーザの発話内容、現在起動中のアプリケーションの情報などの入力情報の解析結果、ユーザの状況(作業中、ゲーム中、食事中、移動中)とその状況の継続時間などがある。なお、作業中とは、ユーザが勉強、仕事、運転、料理などの作業をしている状況である。
 コンテキスト処理部52は、ユーザの現在のコンテキストの推定結果を保持するとともに、情動処理部54と支援制御部55に供給する。コンテキスト処理部52は、保持している時系列のコンテキストの推定結果に基づいてユーザの今後のコンテキストを予測し、予測結果を求める。コンテキスト処理部52は、ユーザの今後のコンテキストの予測結果を情動処理部54と支援制御部55に供給する。
 解析部53は、各種I/F41から入力される入力情報に基づいて、ユーザからの入力の内容を解析する。例えば、解析部53は、マイクの各種I/F41から入力された入力情報に基づいて、ユーザの発話の内容を解析する。解析部53は、キーボードの各種I/F41から入力された入力情報に基づいて、ユーザの文字入力の内容を解析する。解析部53は、タッチセンサの各種I/F41から入力された入力情報に基づいて、ユーザがタッチ入力により選択した内容を解析する。解析部53は、入力情報の解析結果をコンテキスト処理部52と支援制御部55に供給する。
 情動処理部54は、生体処理部51から供給される生体信号の特徴量を用いてユーザの現在の情動の推定結果を求める。具体的には、情動処理部54は、生体信号の特徴量に基づいて、ラッセル(RUSSELL)の感情円環モデルによりユーザの現在の情動の推定結果を表す。ラッセルの感情円環モデルとは、横軸を快感度とし、縦軸を覚醒度とした2次元平面を用いて、感情を円環状で表すモデルであり、情動の推定結果は、2次元平面上の座標で表すことができる。
 また、情動処理部54は、情動の推定結果と、コンテキスト処理部52から供給されるコンテキストの推定結果および予測結果のうちの少なくとも一方とに基づいて、ユーザの短期間(例えば1時間程度)先の情動を今後の情動として信頼度付きで予測する。具体的には、情動処理部54は、情動の推定結果とコンテキストの推定結果および予測結果のうちの少なくとも一方とに基づいて、ラッセルの感情円環モデルにおけるユーザの今後の情動の1以上の予測結果を求めるとともに、各予測結果の信頼度を求める。
 例えば、ユーザがリビングのソファに座っている場合、今後覚醒度が下がることが予測される。従って、コンテキストの推定結果が、ユーザがリビングのソファに座っている状態である場合、情動処理部54は、例えば、現在の情動の推定結果より覚醒度が低い予測結果に対する信頼度を、覚醒度が高い予測結果に対する信頼度に比べて高く設定する。
 ユーザが仕事を開始した直後である場合、ユーザの覚醒度は高まることが予測されるが、仕事の継続時間が長くなるにつれて、徐々に覚醒度が低下することが予測される。従って、コンテキストの推定結果が、仕事中の状況であり、その状況の継続時間が所定の時間を超えている場合、情動処理部54は、例えば、超えた時間に応じて、現在の情動の推定結果より覚醒度が低い予測結果に対する信頼度が上昇し、覚醒度が高い予測結果に対する信頼度が低下するように各予測結果の信頼度を設定する。
 ユーザが仕事中である場合、今後の情動が突然変化する可能性が高いと予測される。従って、コンテキストの推定結果が仕事中である場合、情動処理部54は、例えば、現在の情動の推定結果と異なる情動の予測結果に対する信頼度を高く設定する。一方、ユーザが余暇中である場合、今後の情動が継続する可能性が高いと予測される。従って、コンテキストの推定結果が余暇中である場合、情動処理部54は、例えば、現在の情動の推定結果と同一の情動の予測結果に対する信頼度を高く設定する。
 なお、情動処理部54は、コンテキストの推定結果および予測結果のうちの少なくとも一方に基づいて、情動の推定結果を補正するようにしてもよい。例えば、コンテキストの推定結果が、ユーザがリビングのソファに座っている状態である場合、情動処理部54は、情動の推定結果の覚醒度を低下させる補正を行う。
 情動処理部54は、コンテキストの推定結果と信頼度付き予測結果を支援制御部55に供給する。
 支援制御部55は、設定部61、決定部62、および結果処理部63により構成される。支援制御部55には、情動処理部54から情動の推定結果および予測結果が入力され、コンテキスト処理部52からコンテキストの推定結果および予測結果が入力される。
 具体的には、支援制御部55の設定部61は、情動およびコンテキストのうちの少なくとも一方の推定結果と、情動およびコンテキストのうちの少なくとも一方の予測結果とに基づいて、ユーザに対する支援の内容である支援内容を設定する。設定部61は、設定された支援内容を支援部57に供給する。
 決定部62は、データベース56を参照して、情動およびコンテキストの推定結果のうちの少なくとも一方に基づいて、設定部61により設定された支援内容に対応する支援方法の1つを、今回の支援方法に決定する。
 また、決定部62は、データベース56を参照して、情動およびコンテキストの推定結果のうちの少なくとも一方に基づいて、今回の支援方法に対応する支援手段の1つを、今回の支援手段に決定する。決定部62は、決定された支援方法と支援手段を支援部57に供給する。
 結果処理部63は、支援前後のユーザの情動およびコンテキストのうちの少なくとも一方の推定結果および解析部53から供給される入力情報の解析結果に基づいて、ユーザに対する支援結果を生成する。具体的には、結果処理部63は、入力情報の解析結果を、支援に対するユーザからのフィードバックとして解釈する。結果処理部63は、支援前後のユーザの情動およびコンテキストのうちの少なくとも一方の推定結果と、ユーザからのフィードバックとをユーザに対する支援結果とする。結果処理部63は、その支援結果をデータベース56(記憶部)に供給し、その支援結果が得られた際の支援の支援内容、支援方法、および支援手段に対応付けて支援結果テーブルとして記憶させる。この支援結果テーブルは、決定部62による支援方法および支援手段の決定の際に用いられる。これにより、個々のユーザに最適な支援を行うことができる。
 データベース56は、支援内容ごとに、想定される支援方法と、その支援方法での支援が適したユーザの情動およびコンテキストの推定結果とを対応付けた支援方法テーブルを予め記憶している。データベース56は、支援方法ごとに、想定される支援手段と、その支援手段での支援が適したユーザの情動およびコンテキストの推定結果とを対応付けた支援手段テーブルを予め記憶している。
 また、データベース56は、結果処理部63から供給される支援結果と、その支援結果が得られた際の支援の支援内容、支援方法、および支援手段とを対応付けた支援結果テーブルを記憶する。
 支援部57は、設定部61から供給される支援内容並びに決定部62から供給される支援方法および支援手段にしたがって、ユーザを音声により支援する。具体的には、支援部57は、支援内容、支援方法、および支援手段に対応する発話内容の音声がヒューマンインターフェースデバイス13としてのスピーカから出力するようにスピーカを制御する制御情報を生成する。そして、支援部57は、その制御情報をスピーカの各種I/F41に供給する。これにより、スピーカから、支援内容、支援方法、および支援手段に対応する発話内容の音声が出力され、音声によるユーザ支援が行われる。
 なお、データベース56は、音声エージェント装置14の内部に設けられるのではなく、外部に設けられ、有線または無線のネットワークを介して支援制御部55と接続されるようにしてもよい。音声支援システム10のIoTデバイス12は、例えば、ユーザの居室などに設置される。
 <ラッセルの感情円環モデルの説明>
 図2は、ラッセルの感情円環モデルを示す図である。
 図2に示すように、ラッセルの感情円環モデルは、横軸を快感度(快-不快)とし、縦軸を覚醒度(覚醒-非覚醒)とした2次元平面を用いて、各種の感情を円環状で表すモデルである。
 例えば、「緊張」という感情は、不快、即ち快感度が低く、かつ、覚醒度が高い座標で表すことができる。「満足」という感情は、快感度が高く、かつ、覚醒度が低い座標で表すことができる。
 以上のように、ラッセルの感情円環モデルでは、横軸を快感度とし、縦軸を覚醒度とした2次元平面を用いて各種の感情を表すことができる。従って、情動処理部54は、ラッセルの感情円環モデルを用いて、ユーザの現在の情動の推定結果および今後の情動の予測結果を2次元平面上の座標で示す。
 例えば、生体信号の特徴量が心拍の低周波と高周波である場合、情動処理部54は、その低周波と高周波に基づいて、ユーザの現在の交感神経の状態を認識する。そして、例えば、ユーザの交感神経の状態が強く働いている状態である場合、情動処理部54は、ユーザの現在の情動の推定結果の覚醒度に対応する縦方向の座標の値を高い値に決定する。生体信号の特徴量が脳波のθ波である場合、情動処理部54は、そのθ波に基づいて、ユーザの現在の集中度を認識する。そして、例えば、ユーザの集中度が高い場合、情動処理部54は、ユーザの現在の情動の推定結果の覚醒度に対応する縦方向の座標の値を高い値に決定する。
<データベースの例>
 図3は、図1のデータベース56に記憶される情報の例を示す図である。
 図3では、データベース56に記憶される、支援内容「次の予定に関するメッセージをユーザに伝達する」に対応する支援方法テーブル、「音声で伝達する」を含む情報が表す支援方法に対応する支援手段テーブル、および支援結果テーブルを示している。
 具体的には、図3の例では、支援内容「次の予定に関するメッセージをユーザに伝達する」に対応する支援方法テーブルには、支援方法を表す「端的に音声で伝達する」に対応付けて、適切な情動の推定結果を表す「覚醒度が高い」、適切なコンテキストの推定結果を表す「作業中」、不適切な情動の推定結果を表す「覚醒度が低い」、不適切なコンテキストの推定結果を表す「なし」、適切な今後の情動を表す「変化する可能性が高い」、適切な今後のコンテキストを表す「変化する可能性が高い」、不適切な今後の情動を表す「覚醒度が低い」、および不適切な今後のコンテキストを表す「(なし)」が登録されている。なお、「端的に音声で伝達する」が表す支援方法とは、次の予定に関するメッセージの概要のみを音声でユーザに伝達(発信)する伝達方法(発信方法)である。
 また、支援方法を表す「関連話題と共に音声で伝達する」に対応付けて、適切な情動の推定結果を表す「(なし)」、適切なコンテキストの推定結果を表す「(なし)」、不適切な情動の推定結果を表す「覚醒度が高い」、不適切なコンテキストの推定結果を表す「変化する可能性が高い」、適切な今後の情動を表す「覚醒度が上昇する」、適切な今後のコンテキストが表す「変化しない」、不適切な今後の情動を表す「快感度が低い」、および不適切な今後のコンテキストを表す「変化する可能性が高い」が登録されている。なお、「関連話題と共に音声で伝達する」が表す支援方法とは、次の予定に関するメッセージの概要と共にそのメッセージに関連する情報も伝達する伝達方法である。
 「音声で伝達する」を含む情報が表す支援方法に対応する支援手段テーブルには、支援手段を表す「穏やかかつ優しく伝達する」に対応付けて、適切な情動の推定結果を表す「覚醒度が低い/快感度が低い」、適切なコンテキストの推定結果を表す「(なし)」、不適切な情動の推定結果を表す「快感度が高い」、不適切なコンテキストの推定結果を表す「活動中」、適切な今後の情動を表す「覚醒度が低い」、適切な今後のコンテキストを表す「持続」、不適切な今後の情動を表す「(なし)」、および不適切な今後のコンテキストを表す「(なし)」が登録されている。なお、「穏やかかつ優しく伝達する」が表す支援手段とは、穏やかで静かで優しい口調という伝達手段である。
 また、支援手段「穏やかかつ明るく伝達する」に対応付けて、適切な情動の推定結果を表す「覚醒度が低い/快感度が高い」、適切なコンテキストの推定結果を表す「(なし)」、不適切な情動の推定結果を表す「快感度が低い」、不適切なコンテキストの推定結果を表す「なし」、適切な今後の情動を表す「快感度が高い」、適切な今後のコンテキストを表す「持続」、不適切な今後の情動を表す「快感度が低い」、および不適切な今後のコンテキストを表す「(なし)」が登録されている。なお、「穏やかかつ明るく伝達する」が表す支援手段とは、穏やかではあるが楽しく親しみやすい口調という伝達手段である。
 支援結果テーブルには、過去の支援履歴として、支援内容「次の予定に関するメッセージをユーザに伝達する」、支援方法を表す「XXX-001」、および支援手段を表す「YYY-001」に対応付けて、その支援内容の支援が、その支援方法および支援手段で実施された際の支援日時、支援前の情動の推定結果、支援前のコンテキストの推定結果、支援後の情動の推定結果、支援後のコンテキストの推定結果、およびユーザからのフィードバックが登録されている。
 ここで、支援方法テーブルの各支援方法には固有の番号が付与されており、「XXX-001」が表す支援方法とは、その番号が「XXX-001」である支援方法である。図3の例では、「端的に音声で伝達する」が表す支援方法に番号「XXX-001」が付与されている。同様に、「YYY-001」が表す支援手段とは、支援手段テーブルの各支援手段に付与された固有の番号が「YYY-001」である支援手段である。図3の例では、「穏やかかつ優しく伝達する」が表す支援手段に番号「YYY-001」が付与されている。
 支援結果テーブルにはまた、支援内容「次の予定に関するメッセージをユーザに伝達する」、支援方法を表す「XXX-002」、および支援手段を表す「YYY-002」に対応付けて、その支援内容の支援が、その支援方法および支援手段で実施された際の支援日時、支援前の情動の推定結果、支援前のコンテキストの推定結果、支援後の情動の推定結果、支援後のコンテキストの推定結果、およびユーザからのフィードバックが登録されている。
 なお、図3の例では、「関連話題と共に音声で伝達する」が表す支援方法に番号「XXX-002」が付与されており、この支援方法が、「XXX-002」が表す支援方法である。支援手段「穏やかかつ明るく伝達する」が表す支援手段に番号「YYY-002」が付与されており、この支援手段が、「YYY-002」が表す支援手段である。
 支援結果テーブルに登録されている、支援後の情動の推定結果の覚醒度が支援前の情動の推定結果の覚醒度に比べて高い場合、決定部62は、実施された支援がユーザの気を引くものであったと判断することができる。支援後の情動の推定結果の快感度が支援前の情動の推定結果の快感度に比べて低い場合、決定部62は、実施された支援がユーザにとって不快なものであったと判断することができる。
 また、支援結果テーブルにおいて、支援内容「歩行中の危険を警告するメッセージをユーザに伝達する」に対応付けて登録されている支援前後のコンテキストの推定結果が変化しない場合、決定部62は、実施された支援が十分ではないと判断することができる。この場合、決定部62は、次回の支援手段を、今回の支援手段とは異なる支援手段、例えば支援手段「大音量」などに決定する。
 以上のように、音声エージェント装置14は、支援結果テーブルを生成することにより、ユーザに適した支援方法および支援手段を、支援前後のユーザの情動およびコンテキストの推定結果に基づいて学習することができる。この学習は、ユーザから入力される明示的なフィードバックにのみ基づいて学習する場合に比べて効率的である。
 なお、データベース56に記憶される支援方法テーブル、支援手段テーブル、および支援結果テーブルは、図3の例に限定されない。例えば、支援方法テーブルには、支援方法が表す「関連話題と共に音声で伝達する」に対応付けて、適切なコンテキストの推定結果を表す「余暇中」が登録されるようにしてもよい。これにより、ユーザが余暇中である場合、即ち現在の情動が継続する可能性が高い場合、「関連話題と共に音声で伝達する」が表す支援方法が今回の支援方法に決定され、継続性の高い会話を行うことができる。
<音声支援システムによる処理の概要の例>
 図4は、図1の音声支援システム10による処理の概要の例を示す図である。
 図4に示すように、例えば、コンテキスト処理部52によるコンテキストの推定結果が「仕事中」であり、かつ、信頼度の高いコンテキストの予測結果が「30分後に買い物に行く」である場合、または、解析部53による解析結果が、ユーザからの「次の予定は?」という問いかけである場合、設定部61は、支援内容を「次の予定に関するメッセージをユーザに伝達する」に設定する。
 決定部62は、データベース56に記憶されている支援内容「次の予定に関するメッセージをユーザに伝達する」に対応する支援方法テーブルから、情動およびコンテキストの推定結果のうちの少なくとも一方に対応する支援方法のうちの1つを選択して読み出す。なお、このとき、決定部62は、支援結果テーブルに基づいて、選択候補の支援方法のうちの、その支援方法に対応付けて登録されている支援結果が最も望ましいものを選択する。
 例えば、コンテキストの推定結果が仕事中である場合、決定部62は、図3の支援方法テーブルから、適切なコンテキストの推定結果を表す「作業中」に対応付けられた、番号「XXX-001」の「端的に音声で伝達する」が表す支援方法を選択候補とする。そして、図3の支援結果テーブルにおいて番号「XXX-001」に対応する支援後の情動またはコンテキストの推定結果が、支援方法テーブルにおいて番号「XXX-001」に対応する適切な今後の情動またはコンテキストである場合、決定部62は、この選択候補を今回の支援方法に決定して読み出す。その結果、ユーザが仕事中である場合、即ちユーザの今後の情動が突然変化する可能性が高い場合、次の予定に関するメッセージが端的にユーザに伝達され、瞬間性を重視した会話を行うことができる。
 また、決定部62は、データベース56に記憶されている今回の支援方法に対応する支援手段テーブルから、情動およびコンテキストの推定結果のうちの少なくとも一方に対応する支援手段のうちの1つを選択して読み出す。なお、このとき、決定部62は、支援結果テーブルに基づいて、選択候補の支援手段のうちの、その支援手段に対応付けて登録されている支援結果が最も望ましいものを選択する。
 例えば、情動の推定結果の快感度が低い場合、決定部62は、図3の支援手段テーブルから、適切な情動の推定結果を表す「快感度が低い」に対応付けられた、番号「YYY-001」の支援手段「穏やかで静かで優しい口調」を選択候補とする。そして、図3の支援結果テーブルにおいて番号「YYY-001」に対応する支援後の情動またはコンテキストの推定結果が、支援手段テーブルにおいて番号「YYY-001」に対応する適切な今後の情動またはコンテキストである場合、決定部62は、この選択候補を今回の支援手段に決定して読み出す。
 支援部57は、設定部61により設定された支援内容並びに決定部62により決定された支援方法および支援手段に基づいて、音声で次の予定に関するメッセージをユーザに伝達するという支援を行う。具体的には、支援部57は、支援内容、支援方法、および支援手段に基づいて、次の予定に関するメッセージをスピーカが出力するように制御する制御情報を生成し、スピーカの各種I/F41に供給する。例えば、今回の支援方法が「端的に音声で伝達する」が表す支援方法に決定され、今回の支援手段が支援手段「穏やかで静かで優しい口調」に決定された場合、支援部57は、穏やかで静かで優しい口調で次の予定に関するメッセージの概要のみを伝達する音声をスピーカから出力するように制御情報を生成し、スピーカの各種I/F41に供給する。これにより、穏やかで静かで優しい口調で次の予定に関するメッセージの概要のみを伝達する音声がスピーカから出力される。
 なお、次の予定に関するメッセージの概要のみを伝達する音声とは、例えば「妻と買い物の予定です。」という次の予定を端的に伝達する音声である。一方、「関連話題と共に音声で伝達する」が表す支援方法にしたがって次の予定に関するメッセージをユーザに伝達する音声は、例えば「妻と買い物の予定です。雨の予報です。ガソリンが少なくなっています。」という、次の予定と次の予定に関連する情報の両方を伝達する音声である。
 支援部57による支援後、結果処理部63は、支援前後のユーザの情動およびコンテキストのうちの少なくとも一方の推定結果および解析部53から供給される入力情報の解析結果に基づいて、支援結果を生成する。そして、結果処理部63は、その支援結果を、今回の支援内容、支援方法、および支援手段に対応付けて、データベース56内の支援結果テーブルに登録する。例えば、今回の支援方法が「端的に音声で伝達する」が表す支援方法であり、支援手段が支援手段「穏やかで静かで優しい口調」である場合、図3に示した支援結果テーブルの最も左側の情報が登録される。
<音声エージェント装置の処理の説明>
 図5は、図1の音声エージェント装置14の音声支援処理を説明するフローチャートである。この音声支援処理は、例えば、音声支援システム10の開始が指示されたとき、開始される。
 図5のステップS10において、音声エージェント装置14の解析部53は、各種I/F41から入力される入力情報に基づいてユーザからの入力の内容を解析する解析処理を開始する。
 ステップS11において、生体処理部51は、生体センサ21から入力される生体信号に対して生体信号処理を開始する。生体信号処理とは、動きセンサ22から入力される生体付随情報に基づいて生体信号のノイズを除去し、ノイズ除去後の生体信号から各種の特徴量を抽出する処理である。
 また、コンテキスト処理部52は、環境センサ31から入力される環境情報とステップS10で開始された解析処理の結果の少なくとも一方に基づいてコンテキストの推定結果と予測結果を求めるコンテキスト処理を開始する。
 ステップS12において、情動処理部54は、情動の推定結果と予測結果を求める情動処理を開始する。情動処理では、情動の推定結果が、ステップS11で開始された生体信号処理により得られる特徴量を用いて求められる。また、情動の予測結果が、情動の推定結果と、ステップS11で開始されたコンテキスト処理により得られるコンテキストの推定結果および予測結果のうちの少なくとも一方とに基づいて求められる。
 ステップS13において、音声エージェント装置14は、音声支援処理を終了するかどうかを判定する。例えば、解析処理による結果が音声支援処理の終了を示す内容である場合、音声エージェント装置14は、音声支援処理を終了すると判定する。ステップS13で音声支援処理を終了すると判定された場合、音声エージェント装置14は、解析処理、生体信号処理、コンテキスト処理、および情動処理を終了し、音声支援処理は終了する。
 一方、ステップS13で音声支援処理を終了しないと判定された場合、処理はステップS14に進む。
 ステップS14において、支援制御部55は、既に支援部57による支援が行われたかどうかを判定する。ステップS14で既に支援部57による支援が行われたと判定された場合、処理はステップS15に進む。
 ステップS15において、支援制御部55の結果処理部63は、データベース56内の支援結果テーブルを更新する。この支援結果テーブルの更新には、コンテキスト処理により求められる支援前後のコンテキストの推定結果および情動処理により求められる支援前後の情動の推定結果のうちの少なくとも一方と解析処理による解析結果とに基づいて生成された支援結果が用いられる。そして、処理はステップS16に進む。
 一方、ステップS14でまだ支援が行われていないと判定された場合、処理はステップS16に進む。
 ステップS16において、設定部61は、情動およびコンテキストのうちの少なくとも一方の推定結果と、情動およびコンテキストのうちの少なくとも一方の予測結果とに基づいて、ユーザに対して支援を行う必要があるかどうかを判定する。ステップS16でユーザに対して支援を行う必要があると判定された場合、処理はステップS17に進む。ステップS17において、設定部61は、情動およびコンテキストのうちの少なくとも一方の推定結果と、情動およびコンテキストのうちの少なくとも一方の予測結果とに基づいて、支援内容を設定する。
 ステップS18において、決定部62は、データベース56を参照して、情動およびコンテキストの推定結果のうちの少なくとも一方とステップS17で設定された支援内容とに基づいて、今回の支援方法および支援手段を決定する。
 ステップS19において、支援部57は、ステップS17で設定された支援内容並びにステップS18で決定された支援方法および支援手段にしたがって制御情報を生成し、スピーカの各種I/F41に供給することにより、ユーザに対して音声による支援を行う。そして、処理はステップS13に戻り、ステップS13以降の処理が繰り返される。
 一方、ステップS16で支援を行う必要がないと判定された場合、支援は行われず、処理はステップS13に戻り、ステップS13以降の処理が繰り返される。
 以上のように、音声エージェント装置14は、情動およびコンテキストのうちの少なくとも一方の推定結果と、情動およびコンテキストのうちの少なくとも一方の予測結果とに基づいて、ユーザを支援する。従って、ユーザの今後の状態を予測してユーザを支援することができる。また、音声エージェント装置14は、支援結果テーブルを参照して、支援方法および支援手段を決定する。従って、ユーザに対する支援をパーソナライゼーション(個人最適化)することができる。
<第2実施の形態>
<自転車ナビゲーションシステムの構成例>
 図6は、本技術を適用した情報処理装置としてのナビゲーション装置を含む自転車ナビゲーションシステムの構成例を示すブロック図である。
 図6の自転車ナビゲーションシステム100において、図1の音声支援システム10と対応する部分については同一の符号を付してある。従って、その部分の説明は適宜省略し、音声支援システム10と異なる部分に着目して説明する。
 自転車ナビゲーションシステム100は、ヒアラブルデバイス101、IoTデバイス102、1以上のヒューマンインターフェースデバイス103、およびナビゲーション装置104により構成される。自転車ナビゲーションシステム100は、自転車に乗っているユーザに対して、緊急度や重要度に応じて、ユーザが設定した目的地までの道順の案内や危険の警告を行うことにより、ユーザを支援する。
 具体的には、ヒアラブルデバイス101は、ユーザの耳に装着される。ヒアラブルデバイス101は、環境センサ31が新たに設けられる点が図1のウェアラブルデバイス11と異なり、その他はウェアラブルデバイス11と同様に構成されている。ヒアラブルデバイス101により取得された環境情報は、ナビゲーション装置104に入力される。
 IoTデバイス102は、例えば自転車に設置され、自転車に乗っているユーザの周囲の画像を取得する全方位画像センサ111を有する。全方位画像センサ111により取得されたユーザの周囲の画像は環境情報としてナビゲーション装置104に入力される。
 ヒューマンインターフェースデバイス103としては、ユーザからの入力を受け付ける入力デバイスやユーザに対して出力する出力デバイスがある。入力デバイスとしては、マイク、タッチセンサ、感圧センサ等があり、出力デバイスとしては、イヤホン、振動装置等がある。
 ヒューマンインターフェースデバイス103は、ユーザとのインタラクションを行う各種I/F121を有する。例えば、マイク、タッチセンサ、および感圧センサの各種I/F121は、各種I/F41と同様に入力情報をナビゲーション装置104に入力する。イヤホンや振動装置の各種I/F121は、ナビゲーション装置104から入力される制御情報に基づいて、ユーザに対して音声や振動を出力することにより支援を行う。
 ヒアラブルデバイス101、IoTデバイス102、およびヒューマンインターフェースデバイス103と、ナビゲーション装置104との情報のやり取りは、有線または無線のネットワークを介して行われる。
 ナビゲーション装置104は、コンテキスト処理部52、データベース56、支援部57の代わりに、コンテキスト処理部131、データベース132、支援部133が設けられる点が音声エージェント装置14と異なっており、その他は音声エージェント装置14と同様に構成されている。
 ナビゲーション装置104のコンテキスト処理部131は、コンテキストの推定に用いられる環境情報が、環境センサ31と全方位画像センサ111の少なくとも一方から入力されるものである点が図1のコンテキスト処理部52と異なり、その他はコンテキスト処理部52と同様に構成されている。
 データベース132は、データベース56と同様に、支援方法テーブル、支援手段テーブル、および支援結果テーブルを記憶するが、この支援方法テーブルおよび支援手段テーブルは、ナビゲーション装置104による支援に適したものであり、支援結果テーブルは、ナビゲーション装置104による支援に対応するものである。
 支援部133は、設定部61から供給される支援内容並びに決定部62から供給される支援方法および支援手段にしたがって、ユーザを音声または振動により支援する。
 具体的には、支援部133は、支援内容、支援方法、および支援手段に対応する発話内容の音声がヒューマンインターフェースデバイス103としてのイヤホンから出力するようにイヤホンを制御する制御情報を生成する。そして、支援部133は、その制御情報をイヤホンの各種I/F121に供給する。これにより、イヤホンから、支援内容、支援方法、および支援手段に対応する発話内容の音声が出力され、音声によるユーザ支援が行われる。
 また、支援部133は、支援内容、支援方法、および支援手段に対応する振動がヒューマンインターフェースデバイス103としての振動装置から出力するように振動装置を制御する制御情報を生成する。そして、支援部133は、その制御情報を振動装置の各種I/F121に供給する。これにより、振動装置から、支援内容、支援方法、および支援手段に対応する振動が出力され、振動によるユーザ支援が行われる。
 なお、ヒアラブルデバイス101とヒューマンインターフェースデバイス103は一体化されていてもよい。データベース132は、ナビゲーション装置104の内部に設けられるのではなく、外部に設けられ、有線または無線のネットワークを介して支援制御部55と接続されるようにしてもよい。
<データベースの例>
 図7は、図6のデータベース132に記憶される情報の例を示す図である。
 図7では、データベース132に記憶される、支援内容「次の道筋に関するメッセージをユーザに伝達する」に対応する支援方法テーブル、「音声で伝達する」を含む情報が表す支援方法に対応する支援手段テーブル、および支援結果テーブルを示している。
 具体的には、図7の例では、支援内容「次の道筋に関するメッセージをユーザに伝達する」に対応する支援方法テーブルには、図3の番号「XXX-001」および番号「XXX-002」の支援方法が登録されている。
 「音声で伝達する」を含む情報が表す支援方法に対応する支援手段テーブルには、支援手段を表す「明確に伝達する」に対応付けて、適切な情動の推定結果を表す「(なし)」、適切なコンテキストの推定結果を表す「(なし)」、不適切な情動の推定結果を表す「(なし)」、不適切なコンテキストの推定結果を表す「(なし)」、適切な今後の情動を表す「覚醒度が上昇する」、適切な今後のコンテキストを表す「(なし)」、不適切な今後の情動を表す「覚醒度が低下する」、および不適切な今後のコンテキストを表す「(なし)」が登録されている。なお、「明確に伝達する」が表す支援手段とは、的確な口調(ニュース風の口調)という伝達手段である。この支援手段には、番号「YYY-003」が付与されている。
 また、支援手段を表す「強い口調で伝達する」に対応付けて、適切な情動の推定結果を表す「覚醒度が低い」、適切なコンテキストの推定結果を表す「活動中」、不適切な情動の推定結果を表す「なし」、不適切なコンテキストの推定結果を表す「快感度が低い」、適切な今後の情動を表す「覚醒度が上昇する/高い」、適切な今後のコンテキストを表す「(なし)」、不適切な今後の情動を表す「(なし)」、および不適切な今後のコンテキストを表す「(なし)」が登録されている。なお、「強い口調で伝達する」が表す支援手段とは、警告音と命令口調という伝達手段である。この支援手段には、番号「YYY-004」が付与されている。
 支援結果テーブルには、支援内容「次の道筋に関するメッセージをユーザに伝達する」、支援方法を表す「XXX-001」、および支援手段を表す「YYY-003」に対応付けて、その支援内容の支援が、その支援方法および支援手段で実施された際の支援日時、支援前の情動の推定結果、支援前のコンテキストの推定結果、支援後の情動の推定結果、支援後のコンテキストの推定結果、およびユーザからのフィードバックが登録されている。
 支援内容「次の道筋に関するメッセージをユーザに伝達する」、支援方法を表す「XXX-002」、および支援手段を表す「YYY-004」に対応付けて、その支援内容の支援が、その支援方法および支援手段で実施された際の支援日時、支援前の情動の推定結果、支援前のコンテキストの推定結果、支援後の情動の推定結果、支援後のコンテキストの推定結果、およびユーザからのフィードバックが登録されている。
 なお、データベース132に記憶される支援方法テーブル、支援手段テーブル、および支援結果テーブルは、図7の例に限定されない。
 例えば、支援内容「危険を警告するメッセージをユーザに伝達する」に対応する支援方法が図7の番号「XXX-001」と「XXX-002」の支援方法である場合、「音声で伝達する」を含む支援方法に対応する支援手段テーブルにおいて、適切な情動の推定結果を表す「覚醒度が上昇した」に対応付けて、支援方法「優しい口調」が登録されるようにしてもよい。
 これにより、例えばコンテキストの推定結果が「危険物がある」であり、支援内容「危険を警告するメッセージをユーザに伝達する」が設定された場合、「音声で伝達する」を含む支援方法が選択されると、ユーザの覚醒度が上昇する、即ちユーザが警告される危険に気付いていると推測されるときには、優しい口調で危険を警告するメッセージがユーザに伝達される。その結果、ユーザが既に気付いている危険に対して厳しい口調で警告を行うことによりユーザに不快感を与えることを防止することができる。
 一方、適切な情動の推定結果を表す「覚醒度が上昇しない」に対応付けて、支援方法「大音量」が登録されるようにしてもよい。これにより、ユーザの覚醒度が上昇しない、即ちユーザが警告される危険に気付いていないと推測される場合、大音量で危険を警告するメッセージがユーザに伝達される。その結果、ユーザが気付いていない危険に対してユーザの注意を引き付け、ユーザに危険を回避させることができる。
 なお、支援方法「端的に音声で伝達する」にしたがった支援内容「前方に危険物があることを警告するメッセージをユーザに伝達する」の支援における音声は、例えば、「前方危険物あり」という前方に危険物があることを端的に警告する音声である。
<自転車ナビゲーションシステムによる処理の概要の例>
 図8は、図6の自転車ナビゲーションシステム100による処理の概要の例を示す図である。
 図8に示すように、例えば、コンテキスト処理部131によるコンテキストの推定結果が「〇〇まで自転車で移動中」であり、かつ、信頼度の高いコンテキストの予測結果が「移動を継続」である場合、または、解析部53による解析結果が、ユーザからの「〇〇までナビして」という問いかけである場合、設定部61は、支援内容を「次の道筋に関するメッセージをユーザに伝達する」に設定する。
 決定部62は、データベース132に記憶されている支援内容「次の道筋に関するメッセージをユーザに伝達する」に対応する支援方法テーブルから、情動およびコンテキストの推定結果のうちの少なくとも一方に対応する支援方法のうちの1つを選択して読み出す。なお、このとき、決定部62は、支援結果テーブルに基づいて、選択候補の支援方法のうちの、その支援方法に対応付けて登録されている支援結果が最も望ましいものを選択する。
 例えば、情動の推定結果の覚醒度が高い場合、決定部62は、図7の支援方法テーブルから、適切な情動の推定結果を表す「覚醒度が高い」に対応付けられた、番号「XXX-001」の「端的に音声で伝達する」が表す支援方法を選択候補とする。そして、図7の支援結果テーブルにおいて番号「XXX-001」に対応する支援後の情動またはコンテキストの推定結果が、支援方法テーブルにおいて番号「XXX-001」に対応する適切な今後の情動またはコンテキストである場合、決定部62は、この選択候補を今回の支援方法に決定して読み出す。
 また、決定部62は、データベース132に記憶されている今回の支援方法に対応する支援手段テーブルから、情動およびコンテキストの推定結果のうちの少なくとも一方に対応する支援手段のうちの1つを選択して読み出す。なお、このとき、決定部62は、支援結果テーブルに基づいて、選択候補の支援手段のうちの、その支援手段に対応付けて登録されている支援結果が最も望ましいものを選択する。
 例えば、決定部62は、図7に示した支援方法テーブルから、番号「YYY-003」の支援手段「的確な口調」を選択候補とする。そして、例えば、図7の支援結果テーブルにおいて支援手段「的確な口調」に対応する支援後の情動の推定結果が、支援手段テーブルにおいて番号「YYY-003」に対応する支援後の情動またはコンテキストの推定結果が、支援手段テーブルにおいて番号「YYY-003」に対応する適切な今後の情動またはコンテキストである場合、決定部62は、この選択候補を今回の支援手段に決定して読み出す。
 支援部133は、設定部61により設定された支援内容並びに決定部62により決定された支援方法および支援手段に基づいて、次の道筋に関するメッセージをナビゲーション情報としてユーザに伝達するという支援を行う。具体的には、支援部133は、支援内容、支援方法、および支援手段に基づいて制御情報を生成し、各種I/F121に供給する。
 例えば、今回の支援方法が「端的に音声で伝達する」が表す支援方法に決定され、今回の支援手段が支援手段「的確な口調」に決定された場合、支援部133は、的確な口調で次の道順に関するメッセージの概要のみを伝達する音声をスピーカが出力するように制御情報を生成し、スピーカの各種I/F121に供給する。これにより、的確な口調で次の道順に関するメッセージの概要のみを伝達する音声がスピーカから出力される。
 なお、次の道順に関するメッセージの概要のみを伝達する音声とは、例えば「300メートル先、右折です。」、「次の角を右折です。」という次の道順を端的に伝達する音声である。一方、「関連話題と共に音声で伝達する」が表す支援方法にしたがって次の道順に関するメッセージをユーザに伝達する音声は、例えば「300メートル先、右折です。その先渋滞しています。雨が降りそうです。」という、次の道順と次の道順に関連する情報の両方を伝達する音声となる。
 支援部133による支援後、結果処理部63は、支援前後のユーザの情動およびコンテキストのうちの少なくとも一方の推定結果および解析部53から供給される入力情報の解析結果に基づいて、支援結果を生成する。そして、結果処理部63は、その支援結果を、今回の支援内容、支援方法、および支援手段に対応付けて、データベース132内の支援結果テーブルに登録する。例えば、今回の支援方法が「端的に音声で伝達する」が表す支援方法であり、支援手段が支援手段「的確な口調」である場合、図7に示した支援結果テーブルの最も左側の情報が登録される。
 この支援結果テーブルは、次回の支援の支援方法や支援手段の決定に用いられる。例えば、支援結果テーブルにおいて、支援内容「次の道筋に関するメッセージをユーザに伝達する」、支援方法を表す番号「XXX-001」、および支援手段を表す番号「YYY-003」に対応する、支援前後の情動の推定結果の覚醒度が変化せず、支援前後のコンテキストの推定結果が表す自転車の速度も変化しない場合、支援後の情動およびコンテキストの推定結果は、その支援方法および支援手段に対応する適切な今後の情動およびコンテキストではない。即ち、このような場合、今回実施された支援がユーザの注意を引くものでなく、ユーザは次の道筋に関するメッセージを正確に受け取っていない可能性がある。従って、決定部62は、例えば、次回の支援手段を番号「YYY-003」の支援手段以外のユーザの注意を引く支援手段に決定する。
 例えば、決定部62は、番号「YYY-004」の支援手段を次回の支援手段に決定する。これにより、次回の支援時に、「ピンポン」という警告音が出力された後、次の道筋に関するメッセージが命令口調でユーザに伝達される。なお、番号「YYY-003」の支援手段による支援時にも、警告音以外の音であれば、次の道筋に関するメッセージの前に音が出力されてもよい。
 または、支援手段テーブルに支援手段「大音量」が登録されている場合、決定部62は、その支援手段を選択する。これにより、次の道筋に関するメッセージが大音量でユーザに伝達される。または、支援手段テーブルに支援手段「注意を引く語尾」が登録されている場合、決定部62は、その支援手段を選択する。これにより、「次の角を右折ですよ」、「次の角を右折です。右折です。」などの通常とは異なる語尾を有する次の道筋に関するメッセージがユーザに伝達される。
 なお、ここでは、決定部62が支援結果テーブルを用いて支援手段を決定する場合について説明したが、支援方法を決定する場合も同様である。以上のように、決定部62は、支援結果テーブルを用いて支援方法や支援手段を決定することにより、ユーザが確実に次の道筋に関するメッセージを受け取るようにすることができる。
 自転車ナビゲーションシステム100により行われるナビゲーション処理の流れは、図5の音声支援処理の流れと基本的に同様であるので、説明は省略する。
 以上のように、ナビゲーション装置104は、情動およびコンテキストのうちの少なくとも一方の推定結果と、情動およびコンテキストのうちの少なくとも一方の予測結果とに基づいて、ユーザを支援する。従って、ユーザの今後の状態を予測してユーザを支援することができる。また、ナビゲーション装置104は、支援結果テーブルを参照して、支援方法および支援手段を決定する。従って、ユーザに対する支援を個人最適化することができる。
<第3実施の形態>
<ペット型ロボットシステムの構成例>
 図9は、本技術を適用した情報処理装置としてのペット型ロボットエージェント装置を含むペット型ロボットシステムの構成例を示すブロック図である。
 図9のペット型ロボットシステム200において、図1の音声支援システム10と対応する部分については同一の符号を付してある。従って、その部分の説明は適宜省略し、音声支援システム10と異なる部分に着目して説明する。
 図9のペット型ロボットシステム200は、1以上のウェアラブルデバイス11とペット型ロボット201により構成される。ペット型ロボットシステム200は、ユーザのストレスを管理し、ストレスが軽減するようにユーザを支援する。
 具体的には、ペット型ロボットシステム200のペット型ロボット201は、1以上のIoTデバイス12、1以上のヒューマンインターフェースデバイス211、およびペット型ロボットエージェント装置212を含む。
 ヒューマンインターフェースデバイス211としては、ユーザからの入力を受け付ける入力デバイスやユーザに対して出力を行う出力デバイスがある。入力デバイスとしては、ペット型ロボット201の耳としてのマイク、タッチセンサ、感圧センサ等があり、出力デバイスとしては、ペット型ロボット201の口としてのスピーカ、ペット型ロボットの各部位(図示せず)を駆動する駆動部等がある。
 ヒューマンインターフェースデバイス211は、ユーザとのインタラクションを行う各種I/F221を有する。例えば、マイク、タッチセンサ、および感圧センサの各種I/F221は、各種I/F41と同様に入力情報をナビゲーション装置104に入力する。スピーカの各種I/F221は、ペット型ロボットエージェント装置212から入力される制御情報に基づいて、ユーザに対して音声を出力することにより支援を行う。駆動部の各種I/F221は、ペット型ロボットエージェント装置212から入力される制御情報に基づいて、ペット型ロボット201の各部位を駆動することにより支援を行う。
 ウェアラブルデバイス11とペット型ロボット201との情報のやり取りは、有線または無線のネットワークを介して行われる。
 ペット型ロボットエージェント装置212は、データベース56、支援部57の代わりにデータベース231、支援部232が設けられる点が音声エージェント装置14と異なり、その他は音声エージェント装置14と同様に構成されている。
 ペット型ロボットエージェント装置212のデータベース231は、データベース56と同様に、支援方法テーブル、支援手段テーブル、および支援結果テーブルを記憶するが、この支援方法テーブルおよび支援手段テーブルは、ペット型ロボットエージェント装置212による支援に適したものであり、支援結果テーブルは、ペット型ロボットエージェント装置212による支援に対応するものである。
 支援部232は、設定部61から供給される支援内容並びに決定部62から供給される支援方法および支援手段にしたがって、ペット型ロボット201を介してユーザを支援する。
 具体的には、支援部232は、支援部57と同様に、スピーカを制御する制御情報を生成してスピーカの各種I/F321に供給することにより、ペット型ロボット201の音声によるユーザ支援を行う。
 また、支援部232は、支援内容、支援方法、および支援手段に対応する動作をペット型ロボット201が行うように駆動部を制御する制御情報を生成する。そして、支援部232は、その制御情報を駆動部の各種I/F221に供給する。これにより、ペット型ロボット201が所定の動作を行い、ペット型ロボット201の動作によるユーザ支援が行われる。
 なお、ペット型ロボット201のIoTデバイス12の画像センサは、例えば、ペット型ロボット201の目として設置される。データベース231は、ペット型ロボット201の内部に設けられるのではなく、外部に設けられ、有線または無線のネットワークを介して支援制御部55と接続されるようにしてもよい。
<データベースの例>
 図10は、図9のデータベース231に記憶される情報の例を示す図である。
 図10では、データベース231に記憶される、支援内容「ユーザに休憩を提案する」に対応する支援方法テーブル、支援方法「ペット型ロボットの動作を介して提案する」に対応する支援手段テーブル、および支援結果テーブルを示している。
 具体的には、図10の例では、支援内容「ユーザに休憩を提案する」に対応する支援方法テーブルには、支援方法を表す「端的に音声で提案する」に対応付けて、適切な情動の推定結果を表す「覚醒度が高い」、適切なコンテキストの推定結果を表す「作業中」、不適切な情動の推定結果を表す「覚醒度が低い」、不適切なコンテキストの推定結果を表す「行動中」、適切な今後の情動を表す「変化する可能性が高い」、適切な今後のコンテキストを表す「変化する可能性が高い」、不適切な今後の情動を表す「覚醒度が低い」、および不適切な今後のコンテキストを表す「(なし)」が登録されている。なお、「端的に音声で提案する」が表す支援方法とは、提案内容に関するメッセージの概要のみを音声で伝達する提案方法である。
 支援方法を表す「ペット型ロボットの動作を介して提案する」に対応付けて、適切な情動の推定結果を表す「(なし)」、適切なコンテキストの推定結果を表す「(なし)」、不適切な情動の推定結果を表す「覚醒度が高い」、不適切なコンテキストの推定結果を表す「他人がいる」、適切な今後の情動を表す「覚醒度が低下する」、適切な今後のコンテキストが表す「変化しない」、不適切な今後の情動を表す「覚醒度が上昇する」、および不適切な今後のコンテキストを表す「変化する可能性が高い」が登録されている。なお、「ペット型ロボットの動作を介して提案する」が表す支援方法とは、ペット型ロボット201の動作を介してユーザが提案内容を行うように導く提案方法である。
 支援方法「ペット型ロボットの動作を介して提案する」に対応する支援手段テーブルには、支援手段を表す「見つめて甘えた声を出す」に対応付けて、適切な情動の推定結果を表す「覚醒度が高い」、適切なコンテキストの推定結果を表す「作業中」、不適切な情動の推定結果を表す「覚醒度が低い/快感度が低い」、不適切なコンテキストの推定結果を表す「なし」、適切な今後の情動を表す「覚醒度が低い」、適切な今後のコンテキストを表す「休憩中」、不適切な今後の情動を表す「覚醒度が高い」、および不適切な今後のコンテキストを表す「(なし)」が登録されている。なお、「見つめて甘えた声を出す」が表す支援手段とは、心配そうな目で見つめて甘えた声を出す動作という提案手段である。この支援手段には、番号「WWW-001」が付与されている。
 また、支援手段を表す「じゃれる」に対応付けて、適切な情動の推定結果を表す「覚醒度が低い」、適切なコンテキストの推定結果を表す「休憩中」、不適切な情動の推定結果を表す「快感度が低い」、不適切なコンテキストの推定結果を表す「活動中」、適切な今後の情動を表す「快感度が高い」、適切な今後のコンテキストを表す「持続」、不適切な今後の情動を表す「快感度が低い」、および不適切な今後のコンテキストを表す「変化する」が登録される。なお、「じゃれる」が表す支援手段とは、ユーザの周りでたわむれる動作という提案手段である。この支援手段には、番号「WWW-002」が付与されている。
 支援結果テーブルには、支援内容「ユーザに休憩を提案する」、支援方法を表す「ZZZ-001」、および支援手段を表す「YYY-001」に対応付けて、その支援内容の支援が、その支援方法および支援手段で実施された際の支援日時、支援前の情動の推定結果、支援前のコンテキストの推定結果、支援後の情動の推定結果、支援後のコンテキストの推定結果、およびユーザからのフィードバックが登録されている。図10の例では、「音声で提案する」を含む支援方法に対応する支援手段テーブルに、図3の番号「YYY-001」の支援手段が登録されている。
 支援内容「ユーザに休憩を提案する」、支援方法を表す「ZZZ-003」、および支援手段を表す「WWW-001」に対応付けて、その支援内容の支援が、その支援方法および支援手段で実施された際の支援日時、支援前の情動の推定結果、支援前のコンテキストの推定結果、支援後の情動の推定結果、支援後のコンテキストの推定結果、およびユーザからのフィードバックが登録されている。
 なお、データベース231に記憶される支援方法テーブル、支援手段テーブル、および支援結果テーブルは、図10の例に限定されない。
<ペット型ロボットシステムによる処理の概要の例>
 図11は、図9のペット型ロボットシステム200による処理の概要の例を示す図である。
 図11に示すように、例えば、コンテキスト処理部52によるコンテキストの推定結果が「ユーザが長時間作業をしている」であり、信頼度が高いコンテキストの予測結果が「作業が継続する」であり、かつ、情動処理部54による情動の推定結果および信頼度が高い予測結果が、「長時間覚醒度が高い」である場合、設定部61は、支援内容を「ユーザに休憩を提案する」に設定する。即ち、ユーザが長時間集中して作業を行っている場合、ユーザのストレスが高いため、設定部61は、ユーザに休憩を提案する支援を行い、ユーザをリラックスさせる。
 決定部62は、データベース231に記憶されている支援内容「ユーザに休憩を提案する」に対応する支援方法テーブルから、情動およびコンテキストの推定結果のうちの少なくとも一方に対応する支援方法のうちの1つを選択して読み出す。なお、このとき、決定部62は、支援結果テーブルに基づいて、選択候補の支援方法のうちの、その支援方法に対応付けて登録されている支援結果が最も望ましいものを選択する。
 例えば、情動の推定結果の覚醒度が高いので、決定部62は、図10の支援方法テーブルから、適切な情動の推定結果を表す「覚醒度が高い」に対応付けられた、番号「ZZZ-001」の「端的に音声で提案する」が表す支援方法を選択候補とする。そして、図10の支援結果テーブルにおいて番号「ZZZ-001」に対応する支援後の情動またはコンテキストの推定結果が、支援方法テーブルにおいて番号「ZZZ-001」に対応する適切な今後の情動またはコンテキストである場合、決定部62は、この選択候補を今回の支援方法に決定して読み出す。
 また、決定部62は、データベース231に記憶されている今回の支援方法に対応する支援手段テーブルから、情動およびコンテキストの推定結果のうちの少なくとも一方に対応する支援手段のうちの1つを選択して読み出す。なお、このとき、決定部62は、支援結果テーブルに基づいて、選択候補の支援手段のうちの、その支援手段に対応付けて登録されている支援結果が最も望ましいものを選択する。
 例えば、「音声で提案する」を含む支援方法に対応する支援手段テーブルとして図3の番号「YYY-001」と「YYY-002」の支援手段が登録されており、情動の推定結果の快感度が低い場合、決定部62は、その支援手段テーブルから、情動の推定結果を表す「快感度が低い」に対応付けられた、番号「YYY-001」の支援手段「穏やかで静かで優しい口調」を選択候補とする。そして、図10の支援結果テーブルにおいて番号「YYY-001」に対応する支援後の情動またはコンテキストの推定結果が、支援手段テーブルにおいて番号「YYY-001」に対応する適切な今後の情動またはコンテキストである場合、決定部62は、この支援手段を今回の支援手段に決定して読み出す。
 支援部232は、設定部61により設定された支援内容並びに決定部62により決定された支援方法および支援手段に基づいて、ペット型ロボット201を介してユーザに休憩を提案するという支援を行う。具体的には、支援部232は、支援内容、支援方法、および支援手段に基づいて制御情報を生成し、各種I/F221に供給する。
 例えば、今回の支援方法が「端的に音声で提案する」が表す支援方法に決定され、今回の支援手段が支援手段「穏やかで静かで優しい口調」に決定された場合、支援部232は、穏やかで静かで優しい口調で休憩の提案に関するメッセージの概要のみを伝達する音声をスピーカが出力するように制御情報を生成し、スピーカの各種I/F221に供給する。これにより、穏やかで静かで優しい口調で休憩の提案に関するメッセージの概要のみを伝達する音声がスピーカから出力される。なお、休憩の提案に関するメッセージの概要のみを伝達する音声とは、例えば「休憩しませんか?」という休憩を端的に提案する音声となる。
 また、今回の支援方法が「ペット型ロボットの動作を介して提案する」が表す支援方法に決定され、今回の支援手段が支援手段「心配そうな眼で見つめて甘えた声を出す動作」に決定された場合、支援部232は、ペット型ロボット201がユーザに対して心配そうな眼で見つめる動作を行うように駆動部を制御する制御情報を生成し、駆動部の各種I/F221に供給する。また、支援部232は、甘えた声をスピーカが出力するように制御情報を生成し、スピーカの各種I/F221に供給する。以上により、ペット型ロボット201は、心配そうな眼で見つめて甘えた声を出す。
 即ち、この場合、支援部232は、「休憩を取りましょう」という命令を行うのではなく、ペット型ロボット201にユーザが休憩を取りたくなるような動作を行わせることにより、ユーザに休憩を提案する支援を行う。
 支援部232による支援後、結果処理部63は、支援前後のユーザの情動およびコンテキストのうちの少なくとも一方の推定結果および解析部53から供給される入力情報の解析結果に基づいて、支援結果を生成する。そして、結果処理部63は、その支援結果を、今回の支援内容、支援方法、および支援手段に対応付けて、データベース231内の支援結果テーブルに登録する。例えば、今回の支援方法が「端的に音声で提案する」が表す支援方法であり、支援手段が支援手段「穏やかで静かで優しい口調」である場合、図10に示した支援結果テーブルの最も左側の情報が登録される。
 この支援結果テーブルは、次回の支援の支援方法や支援手段の決定に用いられる。例えば、支援結果テーブルにおいて、支援内容「ユーザに休憩を提案する」、支援方法を表す番号「ZZZ-001」、および支援手段を表す番号「YYY-001」に対応する、支援後のコンテキストの推定結果が休憩中ではない場合、支援後のコンテキストの推定結果は、その支援方法および支援手段に対応する適切な今後のコンテキストではない。即ち、このような場合、今回実施された支援がユーザの注意を引くものでない可能性がある。従って、決定部62は、次回の支援の支援方法および支援手段の少なくとも一方を、今回の支援とは異なるものに決定する。
 例えば、決定部62は、次回の支援方法として「ペット型ロボットの動作を介して提案する」が表す支援方法を選択し、その支援方法に対応する支援手段の1つである支援手段「ユーザに近付き体当たりする動作」を次回の支援手段として選択する。または、決定部62は、次回の支援方法として「ペット型ロボットの動作を介して提案する」が表す支援方法を選択し、その支援方法に対応する支援手段の1つである支援手段「休憩に適した音楽を歌う動作」を次回の支援手段として選択する。
 一方、コンテキストの推定結果および信頼度の高い予測結果が「休憩中」であり、情動の推定結果および信頼度の高い予測結果の覚醒度が低い場合、設定部61は、支援内容を「ユーザに楽しい休憩を提供する」に設定する。この支援内容「ユーザに楽しい休憩を提供する」に対応する支援方法テーブルに「ペット型ロボットの動作を介して提供する」が表す支援方法が登録されている場合、決定部62は、例えば、図10の支援手段テーブルから支援手段「じゃれる」を今回の支援手段として読み出す。これにより、ユーザが現在休憩中で今後も休憩すると予測され、ユーザの覚醒度が低い状態が継続すると予測される場合に、ペット型ロボット201がユーザに対してじゃれる。
 以上のように、ペット型ロボットエージェント装置212は、情動およびコンテキストのうちの少なくとも一方の推定結果と、情動およびコンテキストのうちの少なくとも一方の予測結果とに基づいて、ユーザを支援する。従って、ユーザの今後の状態を予測してユーザを支援することができる。また、ペット型ロボットエージェント装置212は、支援結果テーブルを参照して、支援方法および支援手段を決定する。従って、ユーザに対する支援を個人最適化することができる。
<第4実施の形態>
<運転支援システムの構成例>
 図12は、本技術を適用した情報処理装置としての運転支援装置を含む運転支援システムの構成例を示すブロック図である。
 図12の運転支援システム300において、図1の音声支援システム10と対応する部分については同一の符号を付してある。従って、その部分の説明は適宜省略し、音声支援システム10と異なる部分に着目して説明する。
 図12の運転支援システム300は、1以上のウェアラブルデバイス11、1以上のIoTデバイス301、1以上のヒューマンインターフェースデバイス302、および運転支援装置303により構成される。運転支援システム300は、例えば自動車などに組み込まれる。運転支援システム300は、自動車などを運転しているユーザが快適かつ安全に運転することができるようにユーザを支援する。
 具体的には、IoTデバイス301は、環境情報を取得する各種のセンサである環境センサ311を有する。環境センサ311としては、環境センサ31と同様のGPSセンサ、画像センサ、超音波センサ、赤外線カメラ、加速度センサ、ジャイロセンサ、温湿度センサ、気象センサのほか、ユーザの周囲の交通情報を環境情報として取得する交通情報取得部等がある。IoTデバイス301は、環境センサ311により取得された環境情報を運転支援装置303に入力する。
 ヒューマンインターフェースデバイス302としては、ユーザからの入力を受け付ける入力デバイスやユーザに対して出力を行う出力デバイスがある。入力デバイスとしては、マイク、タッチセンサ、感圧センサ等があり、出力デバイスとしては、スピーカ、振動装置、ディスプレイ等がある。ヒューマンインターフェースデバイス302は、ユーザとのインタラクションを行う各種I/F321を有する。マイク、タッチセンサ、および感圧センサの各種I/F321は、各種I/F41と同様に入力情報をナビゲーション装置104に入力する。スピーカ、振動装置、およびディスプレイの各種I/F321は、それぞれ、運転支援装置303から入力される制御情報に基づいて、ユーザに対して音声、振動、映像を出力することにより支援を行う。
 ウェアラブルデバイス11、IoTデバイス301、およびヒューマンインターフェースデバイス302と、運転支援装置303との情報のやり取りは、有線または無線のネットワークを介して行われる。
 運転支援装置303は、データベース56、支援部57の代わりに、データベース331、支援部332を設ける点が音声エージェント装置14と異なっており、その他は音声エージェント装置14と同様に構成されている。
 運転支援装置303のデータベース331は、データベース56と同様に、支援方法テーブル、支援手段テーブル、および支援結果テーブルを記憶するが、この支援方法テーブルおよび支援手段テーブルは、運転支援装置303による支援に適したものであり、支援結果テーブルは、運転支援装置303による支援に対応するものである。
 支援部332は、設定部61から供給される支援内容並びに決定部62から供給される支援方法および支援手段にしたがって、ユーザを音声、振動、または映像により支援する。
 具体的には、支援部332は、支援部57と同様に、スピーカを制御する制御情報を生成してスピーカの各種I/F321に供給することにより、音声によるユーザ支援を行う。支援部332は、図6の支援部133と同様に、振動装置を制御する制御情報を生成して振動装置の各種I/F321に供給することにより、振動によるユーザ支援を行う。支援部332は、支援内容、支援方法、および支援手段に対応する映像がヒューマンインターフェースデバイス302としてのディスプレイに表示されるようにディスプレイを制御する制御情報を生成する。そして、支援部332は、その制御情報をディスプレイの各種I/F321に供給する。これにより、ディスプレイに、支援内容、支援方法、および支援手段に対応する映像が表示され、映像によるユーザ支援が行われる。
 なお、データベース331は、運転支援装置303の内部に設けられるのではなく、外部に設けられ、有線または無線のネットワークを介して支援制御部55と接続されるようにしてもよい。
<データベースの例>
 図13は、図12のデータベース331に記憶される情報の例を示す図である。
 図13では、データベース331に記憶される、支援内容「BGM(Background Music)の変更をユーザに提案する」に対応する支援方法テーブル、「音声で提案する」を含む情報が表す支援方法に対応する支援手段テーブル、および支援結果テーブルを示している。
 具体的には、図13の例では、支援内容「BGMの変更をユーザに提案する」に対応する支援方法テーブルには、図10の番号「ZZZ-001」の支援方法が登録されている。
 支援方法を表す「関連話題と共に音声で提案する」に対応付けて、適切な情動の推定結果を表す「(なし)」、適切なコンテキストの推定結果を表す「(なし)」、不適切な情動の推定結果を表す「覚醒度が高い」、不適切なコンテキストの推定結果を表す「変化する可能性が高い」、適切な今後の情動を表す「覚醒度が上昇する」、適切な今後のコンテキストが表す「変化しない」、不適切な今後の情動を表す「快感度が低い」、および不適切な今後のコンテキストを表す「変化する可能性が高い」が登録されている。この支援方法には番号「ZZZ-002」が付与されている。
 「音声で提案する」を含む情報が表す支援方法に対応する支援手段テーブルには、図3の番号「YYY-001」と「YYY-002」の支援手段が登録されている。
 支援結果テーブルには、支援内容「BGMの変更をユーザに提案する」、支援方法を表す「ZZZ-001」、および支援手段を表す「YYY-001」に対応付けて、その支援内容の支援が、その支援方法および支援手段で実施された際の支援日時、支援前の情動の推定結果、支援前のコンテキストの推定結果、支援後の情動の推定結果、支援後のコンテキストの推定結果、およびユーザからのフィードバックが登録されている。
 支援内容「BGMの変更をユーザに提案する」、支援方法を表す「ZZZ-002」、および支援手段を表す「YYY-002」に対応付けて、その支援内容の支援が、その支援方法および支援手段で実施された際の支援日時、支援前の情動の推定結果、支援前のコンテキストの推定結果、支援後の情動の推定結果、支援後のコンテキストの推定結果、およびユーザからのフィードバックが登録されている。
 なお、データベース331に記憶される支援方法テーブル、支援手段テーブル、および支援結果テーブルは、図13の例に限定されない。
<運転支援システムによる処理の概要の例>
 図14は、図12の運転支援システム300による処理の概要の例を示す図である。
 図14に示すように、例えば、コンテキスト処理部52によるコンテキストの推定結果が「渋滞中」であり、信頼度の高いコンテキストの予測結果が「渋滞解消」であり、かつ、情動処理部54による情動の推定結果の快感度が低く、信頼度の高い情動の予測結果の快感度が高い場合、設定部61は、支援内容を「渋滞解消に関するメッセージをユーザに伝達する」と「BGMの変更をユーザに提案する」に設定する。即ち、運転支援装置303は、渋滞中で不快なユーザに対して、渋滞の解消を伝達するとともにBGMの変更を提案する支援を行い、ユーザの状態を快感度が低い状態から高い状態に遷移させる。
 決定部62は、データベース331に記憶されている支援内容「渋滞解消に関するメッセージをユーザに伝達する」に対応する支援方法テーブルから、情動およびコンテキストの推定結果のうちの少なくとも一方に対応する支援方法のうちの1つを選択して読み出す。決定部62は、データベース331に記憶されている支援内容「BGMの変更をユーザに提案する」に対応する支援方法テーブルから、情動およびコンテキストの推定結果のうちの少なくとも一方に対応する支援方法のうちの1つを選択して読み出す。なお、このとき、決定部62は、支援結果テーブルに基づいて、選択候補の支援方法のうちの、その支援方法に対応付けて登録されている支援結果が最も望ましいものを選択する。
 例えば、情動の推定結果の覚醒度が高い場合、決定部62は、図13の支援方法テーブルから、適切な情動の推定結果を表す「覚醒度が高い」に対応付けられた、番号「ZZZ-001」の「端的に音声で提案する」が表す支援方法を選択候補とする。そして、図13の支援結果テーブルにおいて番号「ZZZ-001」に対応する支援後の情動またはコンテキストの推定結果が、支援方法テーブルにおいて、番号「ZZZ-001」に対応する適切な今後の情動またはコンテキストである場合、決定部62は、この選択候補を今回の支援方法に決定して読み出す。
 また、決定部62は、データベース331に記憶されている今回の支援方法に対応する支援手段テーブルから、情動およびコンテキストの推定結果のうちの少なくとも一方に対応する支援方法のうちの1つを選択して読み出す。なお、このとき、決定部62は、支援結果テーブルに基づいて、選択候補の支援手段のうちの、その支援手段に対応付けて登録されている支援結果が最も望ましいものを選択する。
 例えば、情動の推定結果の快感度が低いので、決定部62は、図13の支援手段テーブルから、情動の推定結果を表す「快感度が低い」に対応付けられた、番号「YYY-001」の支援手段「穏やかで静かで優しい口調」を選択候補とする。そして、図13の支援結果テーブルにおいて番号「YYY-001」に対応する支援後の情動またはコンテキストの推定結果が、支援手段テーブルにおいて番号「YYY-001」に対応する適切な今後の情動またはコンテキストである場合、決定部62は、この選択候補を今回の支援手段に決定して読み出す。
 支援部332は、設定部61により設定された支援内容並びに決定部62により決定された支援方法および支援手段に基づいて、渋滞解消に関するメッセージをユーザの運転を支援する運転支援情報としてユーザに伝達するという支援とBGMの変更をユーザに提案するという支援とを行う。
 例えば、支援内容「BGMの変更をユーザに提案する」に対して、今回の支援方法として「端的に音声で伝達する」が表す支援方法が決定され、今回の支援手段として支援手段「穏やかで静かで優しい口調」が決定された場合、支援部332は、穏やかで静かで優しい口調でBGMの変更の提案に関するメッセージの概要のみを伝達する音声をスピーカが出力するように制御情報を生成し、スピーカの各種I/F321に供給する。これにより、穏やかで静かで優しい口調でBGMの変更の提案に関するメッセージの概要のみを伝達する音声がスピーカから出力される。
 なお、BGMの変更の提案に関するメッセージの概要のみを伝達する音声とは、例えば「曲を〇〇(爽快なテンポの曲)に変更しませんか?」というBGMの変更を端的に提案する音声となる。一方、「関連話題と共に音声で提案する」が表す支援方法にしたがってBGMの変更の提案に関するするメッセージをユーザに伝達する音声は、例えば「曲を〇〇(爽快なテンポの曲)に変更しませんか?以前△△へドライブに行った際にも聴いていい気分になりましたよ。」という、BGMの変更の提案とその提案に関連する情報の両方を伝達する音声となる。
 また、支援内容「渋滞解消に関するメッセージをユーザに伝達する」に対応する支援方法テーブルに、図7の番号「XXX-002」の支援方法が登録されている場合、この支援方法にしたがって渋滞解消に関するメッセージをユーザに伝達する音声は、例えば、「お疲れ様でした。まもなく渋滞が解消する予定です。」という音声となる。即ち、この場合、渋滞解消と、その渋滞解消に関連する情報としての渋滞の我慢の労をねぎらうメッセージの両方を伝達する音声が出力される。
 支援部332による支援後、結果処理部63は、支援前後のユーザの情動およびコンテキストのうちの少なくとも一方の推定結果および解析部53から供給される入力情報の解析結果に基づいて、支援結果を生成する。そして、結果処理部63は、その支援結果を、今回の支援内容、支援方法、および支援手段に対応付けて、データベース331内の支援結果テーブルに登録する。例えば、今回の支援方法が「端的に音声で提案する」が表す支援方法であり、支援手段が支援手段「穏やかで静かで優しい口調」である場合、図13に示した支援結果テーブルの最も左側の情報が登録される。
 この支援結果テーブルは、次回の支援の支援方法や支援手段の決定だけでなく、支援内容の設定にも用いることができる。例えば、今回の支援後の情動の推定結果の覚醒度が低い場合、現在のユーザの状態は運転に不適切な状態である。従って、設定部61は、支援結果テーブルにおいて、支援後の情動の推定結果の覚醒度が高い支援内容を次回の支援内容に設定する。
 例えば、設定部61は、「急に周辺の交通情報をユーザに伝達する」、「BGMの音量を一時的に変更する」、「起きていることを確認するメッセージをユーザに伝達する」等を支援内容に設定する。支援内容「BGMの音量を一時的に変更する」の支援後、ユーザから「音量を元に戻して」等の音声の入力が行われた場合、支援後の情動の推定結果の覚醒度が高くなる。従って、設定部61は、支援結果テーブルにおいて各支援内容に対応付けて登録されている支援後の情動の推定結果の覚醒度の高さを考慮せずに、次回の支援内容を設定する。
 一方、支援内容「起きていることを確認するメッセージを伝達する」の支援後、ユーザから何の音声の入力も行われない場合、支援後の情動の推定結果の覚醒度は低いままになる。従って、設定部61は、支援結果テーブルにおいて支援後の情動の推定結果の覚醒度が高い他の支援内容、例えば支援内容「起きることを命令するメッセージをユーザに伝達する」を次回の支援内容に設定する。
 なお、支援結果テーブルにおいて支援後の情動の推定結果の覚醒度が高い複数種類の支援内容に対応する支援が行われても、支援後の情動の推定結果の覚醒度が低いままである場合、情動の推定エラーの可能性がある。従って、設定部61は、支援内容「システムエラーを警告し、速やかに車を停止するメッセージをユーザに伝達する」を次回の支援内容に設定する。
 図13の例では、設定部61が、渋滞解消後の加速に備えて、支援内容「BGMの変更をユーザに提案する」を設定したが、まだ渋滞中であることを考慮して、支援内容「渋滞回避策をユーザに提案する」や「渋滞中に快適に過ごす方法をユーザに提案する」を設定するようにしてもよい。渋滞回避策の提案としては、ルート変更、休憩、寄り道などの提案、コンビニエンスストアやパーキングに立ち寄り食べ物や飲み物を購入することの提案などがある。渋滞中に快適に過ごす方法の提案としては、例えば、ユーザが長時間運転していて他にも運転可能な人が存在する場合の運転手交代の提案、体勢や姿勢をリクライニングさせることの提案、深呼吸や運転席で可能なストレッチの提案などがある。
 コンテキストの予測結果が「渋滞発生」であり、情動の推定結果の快感度が高く、情動の予測結果が「快感度が低下する」である場合、設定部61は、例えば、支援内容「渋滞発生に関するメッセージをユーザに伝達する」と「渋滞回避策をユーザに提案する」を設定する。なお、設定部61は、支援内容「渋滞回避策をユーザに提案する」の代わりに、支援内容「渋滞中に快適に過ごす方法をユーザに提案する」を設定するようにしてもよい。
 コンテキストの予測結果が「渋滞継続」であり、情動の推定結果の快感度が低い場合、設定部61は、例えば、支援内容「今後の見通しとしてのコンテキストの予測結果の詳細に関するメッセージをユーザに伝達する」または「渋滞中に快適に過ごす方法をユーザに提案する」を設定する。この支援内容の選択は、支援結果テーブルを参照して行われるようにしてもよい。
 例えば、支援結果テーブルにおいて、支援内容「今後の見通しとしてのコンテキストの予測結果の詳細に関するメッセージをユーザに伝達する」に対応する支援後の情動の推定結果が「快感度が低下する」である場合、設定部61は、支援内容「渋滞中に快適に過ごす方法をユーザに提案する」を設定する。一方、支援内容「渋滞中に快適に過ごす方法をユーザに提案する」に対応する支援後の情動の推定結果が「快感度が低下する」である場合、設定部61は、支援内容「今後の見通しとしてのコンテキストの予測結果の詳細に関するメッセージをユーザに伝達する」を設定する。以上により、渋滞中、今後の見通しの詳細を知ることにより不快になるユーザには、今後の見通しが伝達されず、今後の見通しの詳細を知ることにより安心するユーザには、今後の見通しが伝達される。なお、設定部61は、支援内容「BGMを変更する」や「現在のニュースをユーザに伝達する」などであってもよい。
 以上のように、運転支援装置303は、情動およびコンテキストのうちの少なくとも一方の推定結果と、情動およびコンテキストのうちの少なくとも一方の予測結果とに基づいて、ユーザを支援する。従って、ユーザの今後の状態を予測してユーザを支援することができる。また、運転支援装置303は、支援結果テーブルを参照して、支援方法および支援手段を決定する。従って、ユーザに対する支援を個人最適化することができる。
<第5実施の形態>
<料理支援システムの構成例>
 図15は、本技術を適用した情報処理装置としての料理支援装置を含む料理支援システムの構成例を示すブロック図である。
 図15の料理支援システム400において、図1の音声支援システム10と対応する部分については同一の符号を付してある。従って、その部分の説明は適宜省略し、音声支援システム10と異なる部分に着目して説明する。
 図15の料理支援システム400は、1以上のヒアラブルデバイス401、1以上のIoTデバイス12、1以上のヒューマンインターフェースデバイス402、および料理支援装置403により構成される。料理支援システム400は、料理をしているユーザが落ち着いて料理が進められるように、ユーザを支援する。
 具体的には、ヒアラブルデバイス401は、ユーザの耳に装着される。ヒアラブルデバイス401は、ウェアラブルデバイス11と同様に、生体センサ21と動きセンサ22を有する。生体センサ21により取得された生体信号および動きセンサ22により取得された生体付随情報は、料理支援装置403に入力される。
 ヒューマンインターフェースデバイス402としては、ユーザからの入力を受け付ける入力デバイスやユーザに対して出力を行う出力デバイスがある。入力デバイスとしては、マイク、タッチセンサ、感圧センサ、キーボード等があり、出力デバイスとしては、スピーカ、振動装置、ディスプレイ等がある。この出力デバイスはスマートフォン等に設けられることができる。
 ヒューマンインターフェースデバイス402は、ユーザとのインタラクションを行う各種I/F411を有する。マイク、タッチセンサ、感圧センサ、およびキーボードの各種I/F411は、各種I/F41と同様に入力情報を料理支援装置403に入力する。スピーカ、振動装置、およびディスプレイの各種I/F411は、それぞれ、料理支援装置403から入力される制御情報に基づいて、ユーザに対して音声、振動、映像を出力することにより支援を行う。
 ヒアラブルデバイス401、IoTデバイス12、およびヒューマンインターフェースデバイス402と、料理支援装置403との情報のやり取りは、有線または無線のネットワークを介して行われる。
 料理支援装置403は、データベース56、支援部57の代わりに、データベース421、支援部422を設ける点が音声エージェント装置14と異なっており、その他は音声エージェント装置14と同様に構成されている。
 料理支援装置403のデータベース421は、データベース56と同様に、支援方法テーブル、支援手段テーブル、および支援結果テーブルを記憶するが、この支援方法テーブルおよび支援手段テーブルは、料理支援装置403による支援に適したものであり、支援結果テーブルは、料理支援装置403による支援に対応するものである。
 支援部422は、図12の支援部332と同様に、設定部61から供給される支援内容並びに決定部62から供給される支援方法および支援手段にしたがって、ユーザを音声、振動、または映像により支援する。
 なお、データベース421は、料理支援装置403の内部に設けられるのではなく、外部に設けられ、有線または無線のネットワークを介して支援制御部55と接続されるようにしてもよい。
<データベースの例>
 図16は、図15のデータベース421に記憶される情報の例を示す図である。
 図16では、データベース421に記憶される、支援内容「手順に関するメッセージをユーザに伝達する」に対応する支援方法テーブル、「音声で伝達する」を含む情報が表す支援方法に対応する支援手段テーブル、および支援結果テーブルを示している。
 具体的には、図16の例では、支援内容「手順に関するメッセージをユーザに伝達する」に対応する支援方法テーブルには、図3の番号「XXX-001」の支援方法が登録されている。
 支援方法を表す「映像と共に音声で伝達する」に対応付けて、適切な情動の推定結果を表す「覚醒度が高い(緊張)」、適切なコンテキストの推定結果を表す「作業中」、不適切な情動の推定結果を表す「(なし)」、不適切なコンテキストの推定結果を表す「(なし)」、適切な今後の情動を表す「覚醒度が低下する」、適切な今後のコンテキストが表す「変化しない」、不適切な今後の情動を表す「覚醒度が上昇する」、および不適切な今後のコンテキストを表す「変化する可能性が高い」が登録されている。なお、「映像と共に音声で伝達する」が表す支援方法とは、メッセージを映像と音声の両方で伝達する伝達方法である。この支援方法には番号「XXX-004」が付与されている。
 「音声で伝達する」を含む情報が表す支援方法に対応する支援手段テーブルには、図3の番号「YYY-001」と「YYY-002」の支援手段が登録されている。
 支援結果テーブルには、支援内容「手順に関するメッセージをユーザに伝達する」、支援方法を表す「XXX-001」、および支援手段を表す「YYY-001」に対応付けて、その支援内容の支援が、その支援方法および支援手段で実施された際の支援日時、支援前の情動の推定結果、支援前のコンテキストの推定結果、支援後の情動の推定結果、支援後のコンテキストの推定結果、およびユーザからのフィードバックが登録される。
 支援内容「手順に関するメッセージをユーザに伝達する」、支援方法を表す「XXX-001」、および支援手段を表す「YYY-002」に対応付けて、その支援内容の支援が、その支援方法および支援手段で実施された際の支援日時、支援前の情動の推定結果、支援前のコンテキストの推定結果、支援後の情動の推定結果、支援後のコンテキストの推定結果、およびユーザからのフィードバックが登録される。
 なお、データベース421に記憶される支援方法テーブル、支援手段テーブル、および支援結果テーブルは、図16の例に限定されない。
<料理支援システムによる処理の概要の例>
 図17は、図15の料理支援システム400による処理の概要の例を示す図である。
 図17に示すように、例えば、コンテキスト処理部52によるコンテキストの推定結果が「料理中に手順を飛ばした」であり、信頼度の高いコンテキストの予測結果が「料理継続」であり、かつ、情動処理部54による情動の推定結果と信頼度の高い予測結果が「覚醒度が高い(焦っている)」である場合、設定部61は、支援内容を「手順に関するメッセージをユーザに伝達する」に設定する。
 決定部62は、データベース421に記憶されている支援内容「手順に関するメッセージをユーザに伝達する」に対応する支援方法テーブルから、情動およびコンテキストの推定結果のうちの少なくとも一方に対応する支援方法のうちの1つを選択して読み出す。なお、このとき、決定部62は、支援結果テーブルに基づいて、選択候補の支援方法のうちの、その支援方法に対応付けて登録されている支援結果が最も望ましいものを選択する。
 例えば、情動の推定結果の覚醒度が高いので、決定部62は、図16の支援方法テーブルから、適切な情動の推定結果を表す「覚醒度が高い」に対応付けられた、番号「XXX-001」の「端的に音声で伝達する」が表す支援方法を選択候補とする。そして、図16の支援結果テーブルにおいて番号「XXX-001」に対応する支援後の情動またはコンテキストの推定結果が、支援方法テーブルにおいて番号「XXX-001」に対応する適切な今後の情動またはコンテキストである場合、決定部62は、この選択候補を今回の支援方法に決定して読み出す。
 また、決定部62は、データベース421に記憶されている今回の支援方法に対応する支援手段テーブルから、情動およびコンテキストの推定結果のうちの少なくとも一方に対応する支援手段のうちの1つを選択して読み出す。なお、このとき、決定部62は、支援結果テーブルに基づいて、選択候補の支援手段のうちの、その支援手段に対応付けて登録されている支援結果が最も望ましいものを選択する。
 例えば、情動の推定結果の快感度が低い場合、決定部62は、図16の支援手段テーブルから、適切な情動の推定結果を表す「快感度が低い」に対応付けられた、番号「YYY-001」の支援手段「穏やかで静かで優しい口調」を選択候補とする。そして、図16の支援結果テーブルにおいて番号「YYY-001」に対応する支援後の情動またはコンテキストの推定結果が、支援手段テーブルにおいて番号「YYY-001」に対応する適切な今後の情動またはコンテキストである場合、決定部62は、この選択候補を今回の支援手段に決定して読み出す。番号「YYY-001」の支援手段に対応する適切な今後の情動を表す情報は、「覚醒度が低い」であるため、この支援手段が今回の支援手段に決定される場合、料理支援装置403は、焦っているユーザを落ち着かせるように支援することができる。
 支援部422は、設定部61により設定された支援内容並びに決定部62により決定された支援方法および支援手段に基づいて、手順に関するメッセージをユーザの料理を支援する料理支援情報としてユーザに伝達するという支援を行う。具体的には、支援部422は、支援内容、支援方法、および支援手段に基づいて制御情報を生成し、各種I/F411に供給する。
 例えば、今回の支援方法が「端的に音声で伝達する」が表す支援方法に決定され、今回の支援手段が支援手段「穏やかで静かで優しい口調」に決定された場合、支援部422は、穏やかで静かで優しい口調で手順に関するメッセージの概要のみを伝達する音声をスピーカが出力するように制御情報を生成し、スピーカの各種I/F411に供給する。これにより、穏やかで静かで優しい口調で手順に関するメッセージの概要のみを伝達する音声がスピーカから出力される。なお、手順に関するメッセージの概要のみを伝達する音声とは、例えば「手順〇をやりましょう。」という手順を端的に伝達する音声である。
 一方、「映像と共に音声で伝達する」が表す支援方法にしたがって手順に関するメッセージをユーザに伝達する音声は、例えば「手順〇をやりましょう。ディスプレイを見て下さい。」という、手順を端的に伝達し、ディスプレイを見るように促す音声となる。支援部422は、この支援方法による支援を行う場合、手順を表す映像をディスプレイが表示するように制御する制御情報も生成し、ディスプレイの各種I/F411に供給する。その結果、スピーカから「手順〇をやりましょう。ディスプレイを見て下さい。」という音声が出力されるとともに、手順を表す映像がディスプレイに表示される。即ち、音声と映像により、手順に関するメッセージをユーザに伝達する支援が行われる。
 なお、ユーザに伝達される手順は、例えば、インターネットなどを介して取得されたユーザの作りたい料理の人気の調理手順である。
 支援部422による支援後、結果処理部63は、支援前後のユーザの情動およびコンテキストのうちの少なくとも一方の推定結果および解析部53から供給される入力情報の解析結果に基づいて、支援結果を生成する。そして、結果処理部63は、その支援結果を、今回の支援内容、支援方法、および支援手段に対応付けて、データベース421内の支援結果テーブルに登録する。例えば、今回の支援方法が「端的に音声で伝達する」が表す支援方法であり、支援手段が支援手段「穏やかで静かで優しい口調」である場合、図16に示した支援結果テーブルの最も左側の情報が登録される。
 この支援結果テーブルは、次回の支援の支援方法や支援手段の決定に用いられる。例えば、今回の支援後の情動の推定結果の覚醒度が高い場合、即ちユーザが不安を感じている場合、決定部62は、支援結果テーブルにおいて支援後の情動の推定結果の覚醒度が低い支援手段、例えば支援手段「優しい口調」を次回の支援手段に決定する。支援手段「優しい口調」で支援が行われた後も、覚醒度が高い場合には、決定部62は、支援結果テーブルにおいて支援後の情動の推定結果の覚醒度が低い他の支援方法、例えば図16の「XXX-003」の支援方法を次回の支援方法に決定する。以上のようにして、音声による手順の伝達に不安を感じるユーザには、映像も用いて手順を伝達することができる。
 コンテキストの推定結果が「料理中に手順を飛ばした」や「間違った手順を行った」であり、予測結果が「料理継続」であり、情動の推定結果と予測結果の覚醒度が低い場合、例えば、支援内容および支援方法は、覚醒度が高い場合と同様であるが、支援手段は、適切な今後の情動を表す「覚醒度が高い」に対応する支援手段、例えば支援手段「強い口調」に決定される。これにより、覚醒度が低い、即ち集中力がないことにより、料理中に手順を飛ばしたり、間違った手順を行ったりしたユーザに対して、集中力を取り戻すように支援が行われる。
 この支援内容、支援方法、および支援手段に対応する支援後の情動の推定結果の覚醒度が支援前に比べて上昇した場合、この支援が有効であると判断される。そして、この支援の支援結果テーブルを参照して、今回の支援時とコンテキストの推定結果および予測結果並びに情動の推定結果および予測結果の少なくとも1つが同一である場合の支援時に、今回の支援と同一の支援内容、支援方法、および支援手段の支援が行われる。
 一方、支援後の情動の推定結果の覚醒度が支援前に比べて上昇しない場合には、例えば、設定部61は、支援結果テーブルにおいて支援後の情動の推定結果を表す「覚醒度が高い」に対応する他の支援内容を次回の支援内容に設定する。他の支援内容としては、例えば支援内容「激しいリズムのBGMを出力する」、「ストレッチを行うことをユーザに提案する」、「飲み物を飲むことをユーザに提案する」、「一時的な休憩をユーザに提案する」等がある。以上のように、設定部61が支援結果テーブルを参照して支援内容を設定することにより、ユーザの覚醒度を上昇させる、即ち集中力を取り戻す支援が行われる。
 以上のように、料理支援装置403は、情動およびコンテキストのうちの少なくとも一方の推定結果と、情動およびコンテキストのうちの少なくとも一方の予測結果とに基づいて、ユーザを支援する。従って、ユーザの今後の状態を予測してユーザを支援することができる。また、料理支援装置403は、支援結果テーブルを参照して、支援方法および支援手段を決定する。従って、ユーザに対する支援を個人最適化することができる。
 なお、上述した説明では、情動処理部54が、生体信号の特徴量に基づいてユーザの現在の情動を推定するものとしたが、DNN(Deep Neural Network)などにより生体信号から直接ユーザの現在の情動を推定することもできる。この場合、生体処理部51は、生体信号に対して、生体付随情報に基づくノイズ除去、リサンプリング等の前処理のみを行い、生体信号から特徴量を抽出する処理を行わない。また、情動処理部54は、ラッセルの感情円環モデル以外のモデルを用いて情動の推定結果や予測結果を求めるようにしてもよい。
<コンピュータの説明>
 上述した音声エージェント装置14、ナビゲーション装置104、ペット型ロボットエージェント装置212、運転支援装置303、および料理支援装置403の一連の処理は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウエアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
 図18は、上述した音声エージェント装置14、ナビゲーション装置104、ペット型ロボットエージェント装置212、運転支援装置303、および料理支援装置403の一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。
 コンピュータにおいて、CPU(Central Processing Unit)501,ROM(Read Only Memory)502,RAM(Random Access Memory)503は、バス504により相互に接続されている。
 バス504には、さらに、入出力インタフェース505が接続されている。入出力インタフェース505には、入力部506、出力部507、記憶部508、通信部509、及びドライブ510が接続されている。
 入力部506は、キーボード、マウス、マイクロフォンなどよりなる。出力部507は、ディスプレイ、スピーカなどよりなる。記憶部508は、ハードディスクや不揮発性のメモリなどよりなる。通信部509は、ネットワークインタフェースなどよりなる。ドライブ510は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブルメディア511を駆動する。
 以上のように構成されるコンピュータでは、CPU501が、例えば、記憶部508に記憶されているプログラムを、入出力インタフェース505及びバス504を介して、RAM503にロードして実行することにより、上述した一連の処理が行われる。
 コンピュータ(CPU501)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア511に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
 コンピュータでは、プログラムは、リムーバブルメディア511をドライブ510に装着することにより、入出力インタフェース505を介して、記憶部508にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部509で受信し、記憶部508にインストールすることができる。その他、プログラムは、ROM502や記憶部508に、あらかじめインストールしておくことができる。
 なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
 本技術は、上述した音声支援システム、自転車ナビゲーションシステム、ペット型ロボットシステム、運転支援システム、料理支援システム以外のユーザを支援するユーザ支援エージェントシステムに適用することができる。例えば、ユーザの作業として運転や料理ではなく、勉強や仕事を支援する他の作業支援システムに適用することもできる、この作業支援システムは、作業が料理から勉強や仕事に代わる点を除いて料理支援システム400と同様に構成される。上述した運転支援情報や料理支援情報は、いずれもユーザの作業を支援する支援情報であるので、それらをまとめて、ユーザの作業を支援する作業支援情報ということもできる。出力デバイスとしては、プロジェクタ等が用いられるようにしてもよい。
 本明細書において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれも、システムである。
 本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
 例えば、上述した複数の実施の形態の全てまたは一部を組み合わせた形態を採用することができる。
 例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
 また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
 さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
 なお、本明細書に記載された効果はあくまで例示であって限定されるものではなく、本明細書に記載されたもの以外の効果があってもよい。
 本技術は、以下の構成を取ることができる。
 (1)
 ユーザの現在の情動およびコンテキストのうちの少なくとも一方の推定結果と、前記ユーザの今後の情動およびコンテキストのうちの少なくとも一方の予測結果とに基づいて、前記ユーザを支援する支援部
 を備える情報処理装置。
 (2)
 前記情動の推定結果と、前記コンテキストの推定結果および予測結果のうちの少なくとも一方とに基づいて、前記情動の予測結果を求める情動処理部
 をさらに備える
 前記(1)に記載の情報処理装置。
 (3)
 前記情動処理部はまた、前記情動の推定結果と、前記コンテキストの推定結果および予測結果のうちの少なくとも一方とに基づいて、前記情動の予測結果の信頼度も求める
 ように構成された
 前記(2)に記載の情報処理装置。
 (4)
 前記ユーザの生体信号を用いて前記情動の推定結果を求める情動処理部
 をさらに備える
 前記(1)に記載の情報処理装置。
 (5)
 時系列の前記コンテキストの推定結果に基づいて前記コンテキストの予測結果を求めるコンテキスト処理部
 をさらに備える
 前記(1)乃至(4)のいずれかに記載の情報処理装置。
 (6)
 前記ユーザの周囲の環境を示す環境情報と、前記ユーザから入力される情報である入力情報のうちの少なくとも一方に基づいて、前記コンテキストの推定結果を求めるコンテキスト処理部
 をさらに備える
 前記(1)乃至(4)のいずれかに記載の情報処理装置。
 (7)
 前記情動および前記コンテキストのうちの少なくとも一方の推定結果と、前記情動および前記コンテキストのうちの少なくとも一方の予測結果とに基づいて、前記支援部による支援の内容である支援内容を設定する設定部
 をさらに備え、
 前記支援部は、前記設定部により設定された前記支援内容の支援を行う
 ように構成された
 前記(1)乃至(6)のいずれかに記載の情報処理装置。
 (8)
 前記情動および前記コンテキストの推定結果のうちの少なくとも一方に基づいて、前記支援部による支援の方法である支援方法を決定する決定部
 をさらに備え、
 前記支援部は、前記決定部により決定された前記支援方法で前記支援内容の支援を行う ように構成された
 前記(7)に記載の情報処理装置。
 (9)
 前記支援部による支援の前後の前記情動および前記コンテキストのうちの少なくとも一方の推定結果に基づいて、前記支援方法に対応付けて前記ユーザに対する支援結果を記憶部に記憶させる結果処理部
 をさらに備える
 前記(8)に記載の情報処理装置。
 (10)
 前記決定部は、前記記憶部に記憶された前記支援結果にも基づいて、前記支援方法を決定する
 ように構成された
 前記(9)に記載の情報処理装置。
 (11)
 前記決定部は、前記情動および前記コンテキストの推定結果のうちの少なくとも一方に基づいて、前記支援部による支援の手段である支援手段も決定し、
 前記支援部は、前記決定部により決定された前記支援方法および前記支援手段で前記支援内容の支援を行う
 ように構成された
 前記(8)に記載の情報処理装置。
 (12)
 前記支援部による支援の前後の前記情動および前記コンテキストのうちの少なくとも一方の推定結果に基づいて、前記支援方法および前記支援手段に対応付けて前記ユーザに対する支援結果を記憶部に記憶させる結果処理部
 をさらに備える
 前記(11)に記載の情報処理装置。
 (13)
 前記決定部は、前記記憶部に記憶された前記支援結果にも基づいて、前記支援方法および前記支援手段を決定する
 ように構成された
 前記(12)に記載の情報処理装置。
 (14)
 前記支援内容は、メッセージを前記ユーザに伝達することであり、
 前記支援方法は、前記メッセージを音声で前記ユーザに伝達する方法であり、
 前記支援手段は、前記音声の口調または音量である
 ように構成された
 前記(11)乃至(13)のいずれかに記載の情報処理装置。
 (15)
 前記メッセージは、ナビゲーション情報である
 ように構成された
 前記(14)に記載の情報処理装置。
 (16)
 前記メッセージは、前記ユーザの作業を支援する作業支援情報である
 ように構成された
 前記(14)に記載の情報処理装置。
 (17)
 前記支援内容は、前記ユーザに提案することであり、
 前記支援方法は、前記ユーザにロボットの動作を介して提案する方法であり、
 前記支援手段は、前記ロボットの所定の動作である
 ように構成された
 前記(11)乃至(13)のいずれかに記載の情報処理装置。
 (18)
 情報処理装置が、
 ユーザの現在の情動およびコンテキストのうちの少なくとも一方の推定結果と、前記ユーザの今後の情動およびコンテキストのうちの少なくとも一方の予測結果とに基づいて、前記ユーザを支援する支援ステップ
 を含む情報処理方法。
 (19)
 コンピュータを、
 ユーザの現在の情動およびコンテキストのうちの少なくとも一方の推定結果と、前記ユーザの今後の情動およびコンテキストのうちの少なくとも一方の予測結果とに基づいて、前記ユーザを支援する支援部
 として機能させるためのプログラム。
 14 音声エージェント装置, 52 コンテキスト処理部, 54 情動処理部, 56 データベース, 57 支援部, 61 設定部, 62 決定部, 63 結果処理部, 104 ナビゲーション装置, 131 コンテキスト処理部, 132 データベース, 133 支援部, 212 ペット型ロボットエージェント装置, 231 データベース, 232 支援部, 303 運転支援装置, 331 データベース, 332 支援部, 403 料理支援装置, 421 データベース, 422 支援部

Claims (19)

  1.  ユーザの現在の情動およびコンテキストのうちの少なくとも一方の推定結果と、前記ユーザの今後の情動およびコンテキストのうちの少なくとも一方の予測結果とに基づいて、前記ユーザを支援する支援部
     を備える情報処理装置。
  2.  前記情動の推定結果と、前記コンテキストの推定結果および予測結果のうちの少なくとも一方とに基づいて、前記情動の予測結果を求める情動処理部
     をさらに備える
     請求項1に記載の情報処理装置。
  3.  前記情動処理部はまた、前記情動の推定結果と、前記コンテキストの推定結果および予測結果のうちの少なくとも一方とに基づいて、前記情動の予測結果の信頼度も求める
     ように構成された
     請求項2に記載の情報処理装置。
  4.  前記ユーザの生体信号を用いて前記情動の推定結果を求める情動処理部
     をさらに備える
     請求項1に記載の情報処理装置。
  5.  時系列の前記コンテキストの推定結果に基づいて前記コンテキストの予測結果を求めるコンテキスト処理部
     をさらに備える
     請求項1に記載の情報処理装置。
  6.  前記ユーザの周囲の環境を示す環境情報と、前記ユーザから入力される情報である入力情報のうちの少なくとも一方に基づいて、前記コンテキストの推定結果を求めるコンテキスト処理部
     をさらに備える
     請求項1に記載の情報処理装置。
  7.  前記情動および前記コンテキストのうちの少なくとも一方の推定結果と、前記情動および前記コンテキストのうちの少なくとも一方の予測結果とに基づいて、前記支援部による支援の内容である支援内容を設定する設定部
     をさらに備え、
     前記支援部は、前記設定部により設定された前記支援内容の支援を行う
     ように構成された
     請求項1に記載の情報処理装置。
  8.  前記情動および前記コンテキストの推定結果のうちの少なくとも一方に基づいて、前記支援部による支援の方法である支援方法を決定する決定部
     をさらに備え、
     前記支援部は、前記決定部により決定された前記支援方法で前記支援内容の支援を行う
     ように構成された
     請求項7に記載の情報処理装置。
  9.  前記支援部による支援の前後の前記情動および前記コンテキストのうちの少なくとも一方の推定結果に基づいて、前記支援方法に対応付けて前記ユーザに対する支援結果を記憶部に記憶させる結果処理部
     をさらに備える
     請求項8に記載の情報処理装置。
  10.  前記決定部は、前記記憶部に記憶された前記支援結果にも基づいて、前記支援方法を決定する
     ように構成された
     請求項9に記載の情報処理装置。
  11.  前記決定部は、前記情動および前記コンテキストの推定結果のうちの少なくとも一方に基づいて、前記支援部による支援の手段である支援手段も決定し、
     前記支援部は、前記決定部により決定された前記支援方法および前記支援手段で前記支援内容の支援を行う
     ように構成された
     請求項8に記載の情報処理装置。
  12.  前記支援部による支援の前後の前記情動および前記コンテキストのうちの少なくとも一方の推定結果に基づいて、前記支援方法および前記支援手段に対応付けて前記ユーザに対する支援結果を記憶部に記憶させる結果処理部
     をさらに備える
     請求項11に記載の情報処理装置。
  13.  前記決定部は、前記記憶部に記憶された前記支援結果にも基づいて、前記支援方法および前記支援手段を決定する
     ように構成された
     請求項12に記載の情報処理装置。
  14.  前記支援内容は、メッセージを前記ユーザに伝達することであり、
     前記支援方法は、前記メッセージを音声で前記ユーザに伝達する方法であり、
     前記支援手段は、前記音声の口調または音量である
     ように構成された
     請求項11に記載の情報処理装置。
  15.  前記メッセージは、ナビゲーション情報である
     ように構成された
     請求項14に記載の情報処理装置。
  16.  前記メッセージは、前記ユーザの作業を支援する作業支援情報である
     ように構成された
     請求項14に記載の情報処理装置。
  17.  前記支援内容は、前記ユーザに提案することであり、
     前記支援方法は、前記ユーザにロボットの動作を介して提案する方法であり、
     前記支援手段は、前記ロボットの所定の動作である
     ように構成された
     請求項11に記載の情報処理装置。
  18.  情報処理装置が、
     ユーザの現在の情動およびコンテキストのうちの少なくとも一方の推定結果と、前記ユーザの今後の情動およびコンテキストのうちの少なくとも一方の予測結果とに基づいて、前記ユーザを支援する支援ステップ
     を含む情報処理方法。
  19.  コンピュータを、
     ユーザの現在の情動およびコンテキストのうちの少なくとも一方の推定結果と、前記ユーザの今後の情動およびコンテキストのうちの少なくとも一方の予測結果とに基づいて、前記ユーザを支援する支援部
     として機能させるためのプログラム。
PCT/JP2023/005120 2022-03-01 2023-02-15 情報処理装置、情報処理方法、およびプログラム WO2023166979A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2022-030583 2022-03-01
JP2022030583A JP2023127043A (ja) 2022-03-01 2022-03-01 情報処理装置、情報処理方法、およびプログラム

Publications (1)

Publication Number Publication Date
WO2023166979A1 true WO2023166979A1 (ja) 2023-09-07

Family

ID=87883409

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/005120 WO2023166979A1 (ja) 2022-03-01 2023-02-15 情報処理装置、情報処理方法、およびプログラム

Country Status (2)

Country Link
JP (1) JP2023127043A (ja)
WO (1) WO2023166979A1 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005199403A (ja) * 2004-01-16 2005-07-28 Sony Corp 情動認識装置及び方法、ロボット装置の情動認識方法、ロボット装置の学習方法、並びにロボット装置
JP2016110631A (ja) * 2014-12-02 2016-06-20 三星電子株式会社Samsung Electronics Co.,Ltd. 状態推定装置、状態推定方法およびプログラム
JP2017164851A (ja) * 2016-03-16 2017-09-21 Kddi株式会社 作業支援装置およびプログラム
JP2018538618A (ja) * 2015-11-23 2018-12-27 グーグル エルエルシー コンピューティングデバイスのユーザのコンテキストに基づく輸送の自動予約
JP2021078964A (ja) * 2019-11-21 2021-05-27 パナソニックIpマネジメント株式会社 環境制御システム、環境制御方法及びプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005199403A (ja) * 2004-01-16 2005-07-28 Sony Corp 情動認識装置及び方法、ロボット装置の情動認識方法、ロボット装置の学習方法、並びにロボット装置
JP2016110631A (ja) * 2014-12-02 2016-06-20 三星電子株式会社Samsung Electronics Co.,Ltd. 状態推定装置、状態推定方法およびプログラム
JP2018538618A (ja) * 2015-11-23 2018-12-27 グーグル エルエルシー コンピューティングデバイスのユーザのコンテキストに基づく輸送の自動予約
JP2017164851A (ja) * 2016-03-16 2017-09-21 Kddi株式会社 作業支援装置およびプログラム
JP2021078964A (ja) * 2019-11-21 2021-05-27 パナソニックIpマネジメント株式会社 環境制御システム、環境制御方法及びプログラム

Also Published As

Publication number Publication date
JP2023127043A (ja) 2023-09-13

Similar Documents

Publication Publication Date Title
CN106992013B (zh) 语音情感修改
JP6656079B2 (ja) 情報提示装置の制御方法、及び、情報提示装置
JP5688574B2 (ja) 触覚提示付ロボット
JP6639444B2 (ja) 情報提供装置及び情報提供方法
JP7424285B2 (ja) 情報処理システム、情報処理方法、および記録媒体
JP6083441B2 (ja) 車両用乗員感情対応制御装置
JP6115577B2 (ja) 車両用乗員感情対応制御装置
JP2010531478A (ja) 感情に訴える助言システム及び方法
US11702103B2 (en) Affective-cognitive load based digital assistant
JPWO2016181670A1 (ja) 情報処理装置、情報処理方法及びプログラム
JP7350356B2 (ja) パーソナルアシスタント制御システム
EP3882097A1 (en) Techniques for separating driving emotion from media induced emotion in a driver monitoring system
JP2016137203A (ja) 車両用乗員感情対応制御装置
JP4247149B2 (ja) ロボット
JP5298923B2 (ja) 居眠り防止装置及び居眠り防止方法
WO2019215983A1 (ja) 情報処理システム、情報処理方法、および記録媒体
WO2023166979A1 (ja) 情報処理装置、情報処理方法、およびプログラム
JP2016137202A (ja) 車両用乗員感情対応制御装置
WO2019198299A1 (ja) 情報処理装置及び情報処理方法
JP6213488B2 (ja) 車両用乗員感情対応制御装置
WO2019187590A1 (ja) 情報処理装置、情報処理方法、プログラム
KR102519599B1 (ko) 멀티모달 기반의 인터랙션 로봇, 및 그 제어 방법
JP2001014599A (ja) 覚醒度管理装置、覚醒度管理方法および覚醒度管理プログラムを格納するコンピュータ読み取り可能な記録媒体
JP2002331890A (ja) 乗物の推奨操作表現システム
JP2001282539A (ja) 概念の構造化方法、装置、及び概念構造を備えた装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23763240

Country of ref document: EP

Kind code of ref document: A1