WO2022209499A1 - 情動情報を表示する情報処理システム - Google Patents

情動情報を表示する情報処理システム Download PDF

Info

Publication number
WO2022209499A1
WO2022209499A1 PCT/JP2022/008063 JP2022008063W WO2022209499A1 WO 2022209499 A1 WO2022209499 A1 WO 2022209499A1 JP 2022008063 W JP2022008063 W JP 2022008063W WO 2022209499 A1 WO2022209499 A1 WO 2022209499A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
living body
unit
context
processing system
Prior art date
Application number
PCT/JP2022/008063
Other languages
English (en)
French (fr)
Inventor
直也 佐塚
航生 勝又
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from JP2021132938A external-priority patent/JP2022153233A/ja
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Publication of WO2022209499A1 publication Critical patent/WO2022209499A1/ja

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/16Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services

Definitions

  • This disclosure relates to an information processing system.
  • each person infers the other person's personality and the elements necessary to build a relationship with each other from observable information.
  • the analogy is uncertain, it is generally difficult to build a human relationship with a suitable person.
  • opportunities for building human relationships are lost.
  • Patent Document 1 describes determining mutual compatibility based on a person's action history, preference information, and attribute information.
  • An information processing system includes an estimation unit and a display unit.
  • the estimation unit estimates the emotion information of the target living body based on at least one of the biological information and motion information of the target living body obtained by the sensor.
  • the display unit displays the emotion information on the display surface.
  • An information processing system includes a first estimating section, a second estimating section, and a display section.
  • the first estimation unit estimates emotion information of the first living body based on at least one of first biological information and first motion information of the first living body obtained by the first sensor.
  • the second estimating unit estimates emotion information of the second living body based on at least one of the second biological information and the second motion information of the second living body obtained by the second sensor.
  • the display unit displays the emotion information obtained by the first estimation unit and the emotion information obtained by the second estimation unit together on the display surface.
  • An information processing system includes an estimation unit, an acquisition unit, and an association unit.
  • the estimation unit estimates the emotion information of the target living body based on at least one of the biological information and motion information of the target living body obtained by the sensor.
  • the acquisition unit acquires the context during the sensing period by the sensor.
  • the associating unit associates the emotion information obtained by the estimating unit with the context obtained by the obtaining unit.
  • An information processing system includes a first estimation unit, a second estimation unit, an acquisition unit, and an association unit.
  • the first estimation unit estimates emotion information of the first living body based on at least one of first biological information and first motion information of the first living body obtained by the first sensor.
  • the second estimating unit estimates emotion information of the second living body based on at least one of the second biological information and the second motion information of the second living body obtained by the second sensor.
  • the acquisition unit acquires the context in the sensing period by the first sensor and the second sensor.
  • the association unit associates the emotion information obtained by the first estimation unit, the emotion information obtained by the second estimation unit, and the context obtained by the acquisition unit with each other.
  • the emotion information of the target living body is estimated based on at least one of the biological information and motion information of the target living body obtained by the sensor, and displayed on the display surface.
  • the target living body is a communication partner
  • the user can infer elements necessary for building a relationship with the partner based on the partner's emotional information.
  • the partner's emotional information is objective information obtained in the process of mutual communication. Therefore, it is possible to make a more accurate analogy than inferring the personality of the other party and the elements necessary for building a relationship based on the action history, preference information, and attribute information of the other party.
  • the user can infer elements necessary for building a relationship with the other party based on the user's own emotion information.
  • the user's own emotional information is objective information obtained in the process of mutual communication. Therefore, it is possible to make a more accurate analogy than the case of analogizing the elements necessary for building a relationship with the other party based on the action history, preference information, and attribute information of the other party.
  • the emotion information of the first living body is obtained based on at least one of the first biological information and the first motion information of the first living body obtained by the first sensor. Presumed. Furthermore, the emotion information of the second living body is estimated based on at least one of the second biological information and the second motion information of the second living body obtained by the second sensor. Then, the emotion information obtained by the first estimation unit and the emotion information obtained by the second estimation unit are displayed together on the display screen. As a result, for example, when the first target living body is the user and the second target living body is the communication partner, the user can infer elements necessary for building a relationship with the other based on the emotional information of both parties. can do.
  • both emotional information is objective information obtained in the process of mutual communication. Therefore, it is possible to make a more accurate analogy than inferring the personality of the other party and the elements necessary for building a relationship based on the action history, preference information, and attribute information of the other party.
  • the emotion information of the target living body is estimated based on at least one of the biological information and motion information of the target living body obtained by the sensor. Additionally, the context during the sensing period by the sensor is obtained. Then, the emotion information obtained by the estimation unit and the context obtained by the acquisition unit are associated with each other.
  • the target living body is a communication partner
  • the user can infer elements necessary for building a relationship with the partner based on the partner's emotional information.
  • the partner's emotional information is objective information obtained in the process of mutual communication.
  • the target living body is the user himself/herself
  • the user can infer elements necessary for building a relationship with the other party based on the user's own emotion information.
  • the user's own emotional information is objective information obtained in the process of mutual communication. Therefore, it is possible to make a more accurate analogy than the case of analogizing the elements necessary for building a relationship with the other party based on the action history, preference information, and attribute information of the other party.
  • the emotion information of the first living body is obtained based on at least one of the first biological information and the first motion information of the first living body obtained by the first sensor. Presumed. Furthermore, the emotion information of the second living body is estimated based on at least one of the second biological information and the second motion information of the second living body obtained by the second sensor. Additionally, the context during sensing by the first sensor and the second sensor is obtained. Then, the emotion information obtained by the first estimation unit, the emotion information obtained by the second estimation unit, and the context obtained by the acquisition unit are associated with each other.
  • both emotional information is objective information obtained in the process of mutual communication. Therefore, it is possible to make a more accurate analogy than inferring the personality of the other party and the elements necessary for building a relationship based on the action history, preference information, and attribute information of the other party.
  • FIG. 1 is a diagram illustrating an example of a schematic configuration of an information processing system according to a first embodiment of the present disclosure
  • FIG. 2 is a diagram showing an example of functional blocks of the electronic device of FIG. 1
  • FIG. 2 is a diagram showing an example of a screen display of the electronic device of FIG. 1
  • FIG. 2 is a diagram showing an example of a screen display of the electronic device of FIG. 1
  • FIG. It is a figure showing an example of a schematic structure of an information processing system concerning a 2nd embodiment of this indication.
  • 6 is a diagram illustrating an example of functional blocks of the electronic device of FIG. 5
  • FIG. 6 is a diagram showing an example of functional blocks of the server device of FIG. 5;
  • FIG. 11 is a diagram illustrating an example of a schematic configuration of an information processing device according to a third embodiment of the present disclosure
  • FIG. 3 is a diagram showing a modified example of the functional blocks of the electronic device of FIG. 2
  • FIG. 7 is a diagram showing a modification of the functional blocks of the electronic device of FIG. 6
  • FIG. 9 is a diagram showing a modified example of the schematic configuration of the information processing apparatus of FIG. 8
  • FIG. 10 is a diagram showing an example of time-series data of reaction times to low-difficulty problems.
  • FIG. 10 is a diagram showing an example of time-series data of reaction times to high-difficulty problems.
  • FIG. 3 is a diagram showing a modified example of the functional blocks of the electronic device of FIG. 2
  • FIG. 7 is a diagram showing a modification of the functional blocks of the electronic device of FIG. 6
  • FIG. 9 is a diagram showing a modified example of the schematic configuration of the information processing apparatus of FIG. 8
  • FIG. 10
  • FIG. 10 is a diagram showing an example of power spectrum density obtained by performing FFT (Fast Fourier Transform) on observation data of a user's brain waves ( ⁇ waves) while solving a low-difficulty problem.
  • FIG. 10 is a diagram showing an example of power spectrum density obtained by performing FFT (Fast Fourier Transform) on observation data of a user's brain waves ( ⁇ waves) while solving a high-difficulty problem;
  • FIG. 10 is a diagram showing an example of the relationship between the task difference in reaction time variation and the task difference in peak power values of electroencephalograms in the low frequency band.
  • FIG. 10 is a diagram showing an example of the relationship between the task difference in reaction time variation and the task difference in accuracy rate.
  • FIG. 4 is a diagram showing an example of the relationship between a task difference in arousal level and a task difference in peak power values of electroencephalograms in a low frequency band.
  • FIG. 10 is a diagram showing an example of the relationship between a task difference in arousal level and a task difference in accuracy rate;
  • FIG. 10 is a diagram showing an example of the relationship between variation in reaction time and accuracy rate; It is a figure showing an example of the relationship between an awakening degree and an accuracy rate.
  • It is a figure showing an example of the head mounted display by which the sensor was mounted.
  • FIG. 10 is a diagram showing an example of the relationship between a task difference in arousal level and a task difference in accuracy rate
  • FIG. 10 is a diagram showing an example of the relationship between variation in reaction time and accuracy rate
  • It is a figure showing an example of the relationship between an awakening degree and an accuracy rate.
  • It is a figure showing
  • FIG. 10 is a diagram showing an example of a headphone equipped with a sensor; It is a figure showing an example of the earphone by which the sensor was mounted.
  • FIG. 4 is a diagram showing an example of a watch equipped with a sensor; It is a figure showing an example of the spectacles by which the sensor was mounted.
  • FIG. 10 is a diagram showing an example of the relationship between the pulse wave pnn50 task difference and the accuracy rate.
  • FIG. 10 is a diagram showing an example of the relationship between the task difference in variation of pnn50 of the pulse wave and the accuracy rate.
  • FIG. 10 is a diagram showing an example of the relationship between the task difference in pnn50 power of the pulse wave in the low frequency band and the accuracy rate.
  • FIG. 10 is a diagram showing an example of the relationship between the pulse wave rmssd task difference and the accuracy rate;
  • FIG. 10 is a diagram showing an example of the relationship between the task difference in variations in pulse wave rmssd and the accuracy rate.
  • FIG. 10 is a diagram showing an example of a relationship between a difference in rmssd power of a pulse wave in a low frequency band and an accuracy rate;
  • FIG. 10 is a diagram showing an example of the relationship between the task difference in the variation in the number of SCRs in mental sweating and the accuracy rate.
  • FIG. 10 is a diagram showing an example of the relationship between the task difference in the number of SCRs in mental sweating and the accuracy rate.
  • FIG. 10 is a diagram showing an example of the relationship between the task difference in the median reaction time and the accuracy rate. It is a figure showing an example of the relationship between an awakening degree and an accuracy rate.
  • Arousal of a person is closely related to a person's concentration. When a person is concentrating, he or she has a high degree of interest in the object of concentration. Therefore, by knowing a person's arousal level, it is possible to estimate a person's objective degree of interest (emotion).
  • a person's arousal level can be derived based on biometric information or motion information obtained from the person himself/herself or the communication partner (hereinafter referred to as "subject living body") during conversation with the communication partner. is.
  • Bio information from which the arousal level of the target living body can be derived includes, for example, electroencephalogram, perspiration, pulse wave, electrocardiogram, blood flow, skin temperature, facial myoelectric potential, electrooculogram, or information on specific components contained in saliva. be done.
  • EEG EEG It is known that alpha waves contained in brain waves increase when relaxed, such as at rest, and beta waves contained in brain waves increase when actively thinking or concentrating. There is Therefore, for example, when the power spectrum area of the frequency band of ⁇ waves contained in brain waves is smaller than a predetermined threshold th1 and the power spectrum area of the frequency band of ⁇ waves contained in brain waves is larger than a predetermined threshold th2 , it is possible to estimate that the target living body has a high arousal level.
  • This estimation model is, for example, a model that is trained using the power spectrum of brain waves when the degree of arousal is clearly high as teaching data. For example, when an electroencephalogram power spectrum is input, this estimation model estimates the arousal level of the target living body based on the input electroencephalogram power spectrum.
  • This estimation model includes, for example, a neural network.
  • This learning model may include, for example, a deep neural network such as a convolutional neural network (CNN).
  • the brain wave may be divided into a plurality of segments on the time axis, the power spectrum may be derived for each divided segment, and the power spectrum area of the ⁇ wave frequency band may be derived for each derived power spectrum.
  • the derived power spectrum area is smaller than a predetermined threshold tha, it is possible to estimate that the target living body has a high arousal level.
  • this estimation model is, for example, a model learned by using power spectrum areas when the arousal level is clearly high as teaching data. For example, when the power spectrum area is input, this estimation model estimates the arousal level of the target living body based on the input power spectrum area.
  • This estimation model includes, for example, a neural network.
  • This learning model may include, for example, a deep neural network such as a convolutional neural network (CNN).
  • Psychiatric sweating is sweating released from eccrine glands during sympathetic nervous tension due to mental and psychological problems such as stress, tension, and anxiety.
  • the sympathetic perspiration response SwR
  • the signal voltage can be obtained as In this signal voltage, when the numerical value of a predetermined high frequency component or a predetermined low frequency component is higher than a predetermined threshold value, it can be estimated that the target living body is highly arousal.
  • an estimation model for estimating the arousal level of the target living body based on a predetermined high frequency component or a predetermined low frequency component included in the signal voltage.
  • This estimation model is, for example, a model that is learned by using a predetermined high-frequency component or a predetermined low-frequency component contained in the signal voltage when the arousal level is clearly high as teaching data. For example, when a predetermined high-frequency component or a predetermined low-frequency component is input, this estimation model estimates the arousal level of the target living body based on the input predetermined high-frequency component or predetermined low-frequency component.
  • This estimation model includes, for example, a neural network.
  • This learning model may include, for example, a deep neural network such as a convolutional neural network (CNN).
  • CNN convolutional neural network
  • Heart rate can be derived from pulse wave, electrocardiogram or blood flow velocity. Therefore, for example, it is possible to derive a heart rate from a pulse wave, an electrocardiogram, or a blood flow rate, and to estimate that the subject's arousal level is high when the derived heart rate is greater than a predetermined threshold.
  • an estimation model that estimates the arousal level of the target living body based on the heart rate derived from the pulse wave, electrocardiogram, or blood flow velocity.
  • This estimation model is, for example, a model learned by using heart rate when the arousal level is clearly high as teaching data. For example, when a heart rate derived from a pulse wave, an electrocardiogram, or a blood flow velocity is input, this estimation model estimates the arousal level of the target living body based on the input heart rate.
  • This estimation model includes, for example, a neural network.
  • This learning model may include, for example, a deep neural network such as a convolutional neural network (CNN).
  • CNN convolutional neural network
  • a heart rate variability (HRV) may be derived from a pulse wave, an electrocardiogram, or a blood flow velocity, and when the derived heart rate variability (HRV) is smaller than a predetermined threshold, it may be estimated that the subject's arousal level is high. It is possible.
  • an estimation model that estimates the arousal level of the target organism based on heart rate variability (HRV) derived from pulse waves, electrocardiograms, or blood flow velocities.
  • HRV heart rate variability
  • This estimation model is, for example, a model learned by using heart rate variability (HRV) when the arousal level is clearly high as teaching data.
  • HRV heart rate variability
  • This estimation model estimates the arousal level of the target living body based on the input heart rate variability (HRV).
  • This estimation model includes, for example, a neural network.
  • This learning model may include, for example, a deep neural network such as a convolutional neural network (CNN).
  • Skin temperature When the skin temperature is high, it is generally said that the arousal level is high. Skin temperature can be measured, for example, by thermography. Therefore, for example, when the skin temperature measured by thermography is higher than a predetermined threshold, it can be estimated that the target living body is highly arousal.
  • this estimation model is, for example, a model learned by using the skin temperature when the arousal level is clearly high as teaching data. For example, when the skin temperature is input, this estimation model estimates the arousal level of the target living body based on the input skin temperature.
  • This estimation model includes, for example, a neural network.
  • This learning model may include, for example, a deep neural network such as a convolutional neural network (CNN).
  • facial muscle potential It is known that the corrugator muscle, which frowns when one is thinking, shows high activity. It is also known that the zygomaticus major muscle does not change much during happy imagination. In this way, it is possible to estimate the emotion and arousal level according to the part of the face. Therefore, for example, it is possible to measure the facial myoelectric potential of a predetermined part and estimate the height of the arousal level of the target living body when the measured value is higher than a predetermined threshold value.
  • this estimation model is, for example, a model that is learned by using facial myoelectric potentials when the degree of arousal is clearly high as teaching data. For example, when facial myoelectric potentials are input, this estimation model estimates the arousal level of the target living body based on the input facial myoelectric potentials.
  • This estimation model includes, for example, a neural network.
  • This learning model may include, for example, a deep neural network such as a convolutional neural network (CNN).
  • electrooculography There is known a method of measuring eye movements by utilizing the fact that the cornea side of the eyeball is positively charged and the retina side is negatively charged.
  • a measurement value obtained by using this measurement method is an electrooculogram. For example, it is possible to estimate the eye movement from the obtained electrooculogram, and to estimate whether the level of arousal of the target living body is high or low when the estimated eye movement has a predetermined tendency.
  • an estimation model that estimates the arousal level of the target living body based on an electrooculogram.
  • This estimation model is, for example, a model that is learned using an electrooculogram when the degree of arousal is clearly high as teaching data. For example, when an electrooculogram is input, this estimation model estimates the arousal level of the target living body based on the input electrooculogram.
  • This estimation model includes, for example, a neural network.
  • This learning model may include, for example, a deep neural network such as a convolutional neural network (CNN).
  • CNN convolutional neural network
  • Saliva contains cortisol, a type of stress hormone. Stress is known to increase the amount of cortisol contained in saliva. Therefore, for example, when the amount of cortisol contained in saliva is higher than a predetermined threshold value, it can be estimated that the subject's arousal level is high.
  • an estimation model that estimates the arousal level of the target living body based on the amount of cortisol contained in saliva.
  • This estimation model is, for example, a model learned by using the amount of cortisol contained in saliva when the degree of arousal is clearly high as teaching data. For example, when the amount of cortisol contained in saliva is input, this estimation model estimates the arousal level of the target living body based on the input amount of cortisol.
  • This estimation model includes, for example, a neural network.
  • This learning model may include, for example, a deep neural network such as a convolutional neural network (CNN).
  • CNN convolutional neural network
  • the motion information from which the arousal level of the target living body can be derived includes, for example, information on facial expressions, voice, blinks, breathing, or reaction time of actions.
  • facial expression It is known that the zygomaticus major muscle does not change much when the eyebrows are frowning while thinking, or when imagining happiness. In this way, it is possible to estimate emotions and arousal levels according to facial expressions. Therefore, for example, the face is photographed with a camera, the facial expression is estimated based on the obtained video data, and the degree of arousal of the target living body is estimated according to the facial expression obtained by the estimation. It is possible.
  • an estimation model that estimates the arousal level of the target living body based on video data in which facial expressions are captured.
  • This estimation model is, for example, a model that is trained using video data in which facial expressions are captured when the degree of arousal is clearly high, as teaching data. For example, when moving image data in which facial expressions are captured is input, this estimation model estimates the arousal level of the target living body based on the input moving image data.
  • This estimation model includes, for example, a neural network.
  • This learning model may include, for example, a deep neural network such as a convolutional neural network (CNN).
  • CNN convolutional neural network
  • Audio Voices are known to change according to emotions and arousals, like facial expressions. Therefore, for example, it is possible to acquire voice data with a microphone and estimate the height of the arousal level of the target living body based on the voice data thus obtained.
  • this estimation model is, for example, a model that is learned using speech data when the degree of arousal is clearly high as teaching data. For example, when voice data is input, this estimation model estimates the arousal level of the target living body based on the input voice data.
  • This estimation model includes, for example, a neural network.
  • This learning model may include, for example, a deep neural network such as a convolutional neural network (CNN).
  • Blinking is known to change according to emotion and arousal level, similar to facial expression. Therefore, for example, blinking is photographed with a camera, the frequency of blinking is measured based on the video data obtained by this, and the degree of arousal of the target living body is estimated according to the frequency of blinking obtained by measurement. It is possible. Further, for example, it is possible to measure the frequency of blinking from an electrooculogram and estimate the degree of wakefulness of the target living body according to the frequency of blinking obtained by the measurement.
  • This estimation model is, for example, a model that has been trained using moving image data of photographed blinking when the degree of arousal is clearly high or an electrooculogram as teaching data.
  • This estimation model for example, when moving image data of photographed blinks or an electrooculogram is input, estimates the arousal level of the target living body based on the input moving image data or electrooculogram.
  • This estimation model includes, for example, a neural network.
  • This learning model may include, for example, a deep neural network such as a convolutional neural network (CNN).
  • CNN convolutional neural network
  • breathing It is known that breathing, like facial expressions, changes according to emotions and arousals. Therefore, for example, it is possible to measure the respiration volume or respiration rate and estimate the height of the arousal level of the target living body based on the measurement data obtained thereby.
  • this estimation model is, for example, a model that is learned by using the respiration volume or respiration rate when the degree of arousal is clearly high as teaching data. For example, when a respiratory volume or respiratory rate is input, this estimation model estimates the arousal level of the target living body based on the input respiratory volume or respiratory rate.
  • This estimation model includes, for example, a neural network.
  • This learning model may include, for example, a deep neural network such as a convolutional neural network (CNN).
  • reaction reaction time It is known that the processing time (reaction time) when a person sequentially processes a plurality of tasks and variations in the processing time (reaction time) are due to the person's arousal level. Therefore, for example, it is possible to measure the processing time (reaction time) and the variation in the processing time (reaction time), and estimate the height of the arousal level of the target living body based on the measurement data obtained thereby. .
  • FIGS 12 and 13 are graphs showing the time required for the user to answer (reaction time) when the user solved a large number of questions in succession.
  • FIG. 12 shows a graph when a problem with a relatively low difficulty level is solved
  • FIG. 13 shows a graph when a problem with a relatively high difficulty level is solved.
  • FIG. 14 shows the power spectrum density obtained by performing FFT (Fast Fourier Transform) on the observed data of the user's brain waves ( ⁇ waves) when the user continuously solves a number of low-difficulty problems.
  • FIG. 15 shows power spectrum densities obtained by performing FFT on observation data of the user's electroencephalogram ( ⁇ waves) when the user has solved a number of problems with a high degree of difficulty in succession.
  • 14 and 15 show graphs obtained by measuring electroencephalograms ( ⁇ waves) in segments of about 20 seconds and performing FFT with an analysis window of about 200 seconds.
  • FIG. 16 shows the task difference ⁇ tv[s] in the variation in the user's reaction time (75%percentile-25%percentile) when solving a high-difficulty problem and when solving a low-difficulty problem
  • the task difference ⁇ tv[s] is obtained by subtracting the variation in the user's reaction time when solving the low-difficulty problem from the variation in the user's reaction time when solving the high-difficulty problem.
  • the task difference ⁇ P is calculated from the power peak value of the user's slow brain waves ( ⁇ waves) when solving the high difficulty problem to the user's slow brain waves ( ⁇ waves) when solving the low difficulty problem. is a vector quantity obtained by subtracting the peak value of the power of .
  • the type of variation in reaction time is not limited to 75%percentile-25%percentile, and may be, for example, standard deviation.
  • FIG. 17 shows the task difference ⁇ tv[s] in the variation in the user's reaction time (75%percentile-25%percentile) when solving a high-difficulty problem and when solving a low-difficulty problem
  • An example of the relationship between the problem difference ⁇ R [%] in the accuracy rate of a question when a high-difficulty problem is solved and when a low-difficulty problem is solved is shown.
  • the task difference ⁇ R is a vector quantity obtained by subtracting the correct answer rate when solving a low-difficulty problem from the correct answer rate when solving a high-difficulty problem.
  • the type of variation in reaction time is not limited to 75%percentile-25%percentile, and may be, for example, standard deviation.
  • a small task difference ⁇ tv in variation in reaction time means that the difference in variation in reaction time is small between when solving a high-difficulty problem and when solving a low-difficulty problem. It can be said that users who obtained such results tended to have a smaller problem difference in time to solve the problem than other users when the difficulty level of the problem increased.
  • a large task difference ⁇ tv in variation in reaction time means that there is a large difference in variation in reaction time between solving a high-difficulty problem and solving a low-difficulty problem. do. It can be said that users who obtained such results tended to have a larger problem difference in time to solve the problem than other users when the difficulty level of the problem increased.
  • the user's cognitive resource is lower than a predetermined standard when the task difference ⁇ tv in the variation in reaction time is large. Also, when the task difference ⁇ tv in variation in reaction time is small, it can be inferred that the user's cognitive capacity is higher than a predetermined standard. If the user's cognitive capacity is below a predetermined standard, the question may be too difficult for the user. On the other hand, if the user's cognitive capacity is higher than the predetermined standard, the question may be too difficult for the user.
  • FIG. 18 shows the task difference ⁇ k [%] in the user's arousal level when solving the high-difficulty problem and when solving the low-difficulty problem, and when solving the high-difficulty problem
  • Fig. 10 shows an example of the relationship between the user's slow brain wave ( ⁇ wave) power peak value difference ⁇ P [(mV 2 /Hz) 2 /Hz] and the problem when solving a low-difficulty problem. .
  • FIG. 10 shows an example of the relationship between the user's slow brain wave ( ⁇ wave) power peak value difference ⁇ P [(mV 2 /Hz) 2 /Hz] and the problem when solving a low-difficulty problem.
  • the task difference ⁇ k [%] is a vector quantity obtained by subtracting the user's arousal level when solving a low-difficulty problem from the user's arousal level when solving a high-difficulty problem.
  • the arousal level is obtained, for example, by using the estimation model for estimating the arousal level using electroencephalograms.
  • FIG. 20 shows the variation in user reaction time (75%percentile-25%percentile) tv[s] when solving a problem with a high difficulty level, and the accuracy rate of a problem when solving a problem with a high difficulty level.
  • R [%] An example of the relationship with R [%] is shown.
  • Data for each user is plotted in FIG. 20, and the characteristics of all users are represented by a regression equation (regression line).
  • FIG. 21 shows an example of the relationship between the user's arousal level k [%] when solving a high-difficulty problem and the correct answer rate R [%] when solving a high-difficulty problem. It is what I did.
  • Pleasure and Discomfort A person's comfort/discomfort is closely related to a person's ability to concentrate in the same way as a person's arousal level. When a person is concentrating, he or she has a high degree of interest in the object of concentration. Therefore, it is possible to estimate a person's objective degree of interest/concern (emotion) by knowing a person's pleasure/discomfort.
  • Pleasure/discomfort of a person can be derived based on biometric information or motion information obtained from the person himself/herself or the communication partner (hereinafter referred to as "subject living body") during conversation with the communication partner. It is possible.
  • Examples of biological information that can derive the comfort and discomfort of the target organism include information on brain waves and perspiration.
  • facial expressions are examples of motion information from which the pleasure/discomfort of a target living body can be derived.
  • alpha waves included in brain waves obtained on the left side of the frontal region hereinafter referred to as "left side alpha waves”
  • alpha waves included in brain waves obtained on the right side of the frontal region hereinafter referred to as “ (referred to as the "right alpha wave”
  • left side alpha waves alpha waves included in brain waves obtained on the left side of the frontal region
  • right alpha wave alpha waves included in brain waves obtained on the right side of the frontal region
  • This estimation model is, for example, a model that is learned by using ⁇ waves or ⁇ waves included in brain waves when the target living body clearly feels pleasure as teaching data. For example, when ⁇ waves or ⁇ waves included in brain waves are input, this estimation model estimates the comfort/discomfort of the target living body based on the input ⁇ waves or ⁇ waves.
  • This estimation model includes, for example, a neural network.
  • This learning model may include, for example, a deep neural network such as a convolutional neural network (CNN).
  • Psychiatric sweating is sweating released from eccrine glands during sympathetic nervous tension due to mental and psychological problems such as stress, tension, and anxiety.
  • the sympathetic perspiration response SwR
  • the target living body feels comfortable. It is possible to presume that they are feeling.
  • the target organism when the numerical value of the predetermined high frequency component or the predetermined low frequency component obtained from the left hand is lower than the numerical value of the predetermined high frequency component or the predetermined low frequency component obtained from the right hand, the target organism is It is possible to presume that the person feels discomfort. Also, in this signal voltage, when the amplitude value obtained from the left hand is higher than the amplitude value obtained from the right hand, it can be estimated that the target living body feels pleasure. Further, in the above signal voltage, when the amplitude value obtained from the left hand is lower than the amplitude value obtained from the right hand, it can be estimated that the target living body feels discomfort.
  • an estimation model for estimating the arousal level of the target living body based on a predetermined high frequency component or a predetermined low frequency component included in the signal voltage.
  • This estimation model is, for example, a model that is learned by using a predetermined high-frequency component or a predetermined low-frequency component contained in the signal voltage when the arousal level is clearly high as teaching data. For example, when a predetermined high-frequency component or a predetermined low-frequency component is input, this estimation model estimates the arousal level of the target living body based on the input predetermined high-frequency component or predetermined low-frequency component.
  • This estimation model includes, for example, a neural network.
  • This learning model may include, for example, a deep neural network such as a convolutional neural network (CNN).
  • CNN convolutional neural network
  • facial expression It is known that the eyebrows frown when feeling uncomfortable, and the zygomaticus major muscle does not change much when feeling pleasant. In this way, it is possible to estimate pleasantness/unpleasantness according to facial expressions. Therefore, for example, by photographing a face with a camera, estimating the expression of the face based on the obtained video data, and estimating the pleasure/discomfort of the target living body according to the facial expression obtained by the estimation. is possible.
  • this estimation model is, for example, a model that is trained using video data in which facial expressions are captured when the degree of arousal is clearly high, as teaching data. For example, when moving image data in which facial expressions are captured is input, this estimation model estimates the comfort/discomfort of the target living body based on the input moving image data.
  • This estimation model includes, for example, a neural network.
  • This learning model may include, for example, a deep neural network such as a convolutional neural network (CNN).
  • the following describes an embodiment of an information processing system that uses the arousal level and pleasant/unpleasant derivation algorithms described above.
  • FIG. 1 shows a schematic configuration example of an information processing system 100 .
  • the information processing system 100 is a system that estimates emotion information of a target living body based on at least one of biological information and motion information obtained from the target living body.
  • the target living body is a person.
  • the target living body is not limited to humans.
  • the information processing system 100 includes multiple electronic devices 10 .
  • a plurality of electronic devices 10 are connected via a network 30 so as to be able to transmit and receive data to and from each other.
  • Information processing system 100 further includes a plurality of biosensors 20 .
  • One biosensor 20 is assigned to each electronic device 10 , and each biosensor 20 is connected to the electronic device 10 .
  • the network 30 is wireless or wired communication means, such as the Internet, WAN (Wide Area Network), LAN (Local Area Network), public communication network, private line, and the like.
  • the biosensor 20 may be, for example, a sensor that contacts the target living body or a sensor that does not contact the target living body.
  • the biosensor 20 receives information (biological information) about at least one of electroencephalogram, perspiration, pulse wave, electrocardiogram, blood flow, skin temperature, facial myoelectric potential, electrooculography, and specific components contained in saliva, for example. It is the sensor to acquire.
  • the biosensor 20 may be, for example, a sensor that acquires information (motion information) about at least one of facial expression, voice, blink, respiration, or reaction time of action.
  • the biosensor 20 may be, for example, a sensor that acquires information (biological information) on at least one of brain waves and perspiration.
  • the biosensor 20 may be, for example, a sensor that acquires information about facial expressions (motion information).
  • the biosensor 20 may be, for example, a sensor that acquires at least one of the biometric information described above and the motion information described above.
  • the biosensor 20 outputs the acquired information (at least one of the biometric information and the behavior information described above) to the electronic device 10 .
  • the electronic device 10 includes a camera 11, a microphone 12, a sensor input reception unit 13, a user input reception unit 14, a signal processing unit 15, a storage unit 16, a video signal generation unit 17a, an audio signal It has a generation unit 17b, an image display unit 18a, and a speaker 18b.
  • the camera 11 corresponds to a specific example of the "imaging section” of the present disclosure.
  • the signal processing unit 15 corresponds to one specific example of the “estimating unit”, the “first estimating unit”, the “second estimating unit”, the “acquiring unit”, and the “associating unit” of the present disclosure.
  • the storage unit 16 corresponds to a specific example of the “storage unit” of the present disclosure.
  • the image display section 18a corresponds to a specific example of the "display section" of the present disclosure.
  • the camera 11 includes, for example, a CCD (Charge Coupled Device) image sensor, a CMOS (Complementary Metal Oxide Semiconductor) image sensor, and the like.
  • the camera 11 performs imaging under the control of the signal processing unit 15 and outputs image data obtained by imaging to the signal processing unit 15 .
  • the camera 11 acquires a moving image of the face of the user (target living body) viewing the display of the electronic device 10 via the camera lens 11b provided adjacent to the display surface 10a.
  • the camera lens 11b is arranged, for example, near the center of the upper edge of the display surface 10a.
  • the microphone 12 includes, for example, a microphone that detects voice.
  • the microphone 12 performs voice detection under the control of the signal processing section 15 and outputs voice data obtained by the voice detection to the signal processing section 15 .
  • the sensor input reception unit 13 receives input from the biosensor 20 and outputs it to the signal processing unit 15 .
  • the input from the biosensor 20 is at least one of the above biometric information and the above behavior information.
  • the sensor input reception unit 13 is composed of, for example, an interface capable of communicating with the biosensor 20 .
  • the user input reception unit 14 receives input from the user and outputs the input to the signal processing unit 15 .
  • Inputs from the user include, for example, attribute information (for example, name) of the target living body and an emotion estimation start instruction.
  • the user input reception unit 14 is composed of an input interface such as a keyboard, mouse, touch panel, or the like.
  • the storage unit 16 is, for example, a volatile memory such as a DRAM (Dynamic Random Access Memory), or a nonvolatile memory such as an EEPROM (Electrically Erasable Programmable Read-Only Memory) or flash memory.
  • the storage unit 16 stores an information processing program 16a for estimating the emotion of the target living body. Further, the storage unit 16 stores an identifier 16b, emotion information 16c, and context 16d obtained by processing by the information processing program 16a. Details of processing in the information processing program 16a will be described later.
  • the identifier 16b is numerical data for identifying the target living body, and is, for example, an identification number assigned to each target living body.
  • the identifier 16b is generated, for example, at the timing when the target living body's attribute information is input from the target living body.
  • the emotion information 16 c is information about emotion derived based on the input (detection signal) from the biosensor 20 .
  • the emotion information 16c is, for example, numerical data on at least one of arousal and pleasure/discomfort that change over time, as shown in FIG.
  • the context 16d is information about at least one of the movement and conversation of the target living body.
  • the context 16 d is, for example, information about at least one of actions and conversations of at least one of the users of the plurality of electronic devices 10 connected to the network 30 .
  • the context 16d is, for example, information about the line of sight of the target living body or information about the voice of the target living body, as shown in FIG.
  • Information about the line of sight of the target living body can be derived from the image data obtained by the camera 11 and corresponds to the non-speech context during the imaging period (sensing period) by the camera 11 .
  • Information about the voice of the target living body can be derived from the voice data obtained by the microphone 12 and corresponds to the voice context during the voice detection period (sensing period) by the microphone 12 .
  • the video signal generation unit 17a generates a video signal for displaying the image data input from the signal processing unit 15, and outputs it to the video display unit 18a.
  • the image display unit 18a displays images based on the image signal input from the image signal generation unit 17a.
  • the image display unit 18a displays the emotion information 16c (at least one of the above-mentioned arousal level and the above-mentioned pleasure/discomfort) of the target living body.
  • the audio signal generation unit 17b generates an audio signal for outputting the audio data input from the signal processing unit 15, and outputs the audio signal to the speaker 18b.
  • the speaker 18b outputs audio based on the audio signal input from the audio signal generator 17b.
  • the signal processing unit 15 is configured by, for example, a processor.
  • the signal processing unit 15 executes an information processing program 16 a stored in the storage unit 16 .
  • the function of the signal processing unit 15 is realized by executing the information processing program 16a by the signal processing unit 15, for example.
  • the signal processing unit 15 executes a series of processes necessary for estimating the emotion of the target living body.
  • the signal processing unit 15 Based on at least one of the above-described biological information and the above-described motion information of the target living body obtained by the biosensor 20, the signal processing unit 15 detects the emotion information 16c (the above-described arousal level and the above-described pleasure/discomfort level) of the target living body. at least one).
  • the signal processing unit 15 stores the emotion information 16c obtained by the estimation in the storage unit 16.
  • FIG. The signal processing unit 15 generates an identifier 16b of the target living body, stores the generated identifier 16b and the estimated emotion information 16c in the storage unit 16 in association with each other.
  • Mr. A For example, assume that each of Mr. A, Mr. B, and Mr. C uses the electronic device 10 connected to the network 30 .
  • the electronic device 10 (signal processing unit 15) used by Mr. C acquires Mr. A's emotion information 16c and Mr. A's identifier 16b from the electronic device 10 used by Mr. A.
  • the electronic device 10 (signal processing unit 15) used by Mr. C acquires Mr. B's emotion information 16c and Mr. B's identifier 16b from the electronic device 10 used by Mr. B.
  • the electronic device 10 (signal processing unit 15) used by Mr. C acquires Mr. C's emotion information 16c using the biosensor 20 connected to the electronic device 10 used by Mr. C, and acquires the identifier 16b of the
  • the signal processing unit 15 converts, for example, Mr. A's emotion information 16c, Mr. B's emotion information 16c, and Mr. C's emotion information 16c into graphical emotion information.
  • the signal processing unit 15 generates image data representing, for example, Mr. A's emotion information 16c, Mr. B's emotion information 16c, and Mr. C's emotion information 16c in a graph with the horizontal axis as time and the vertical axis as emotion information. Generate.
  • the video display unit 18a generates a video signal based on the image data including graphical emotion information generated by the signal processing unit 15, and outputs the video signal to the video display unit 18a. For example, as shown in FIG. 3, the video display unit 18a displays the emotion information 16c of Mr. A, Mr. B, and Mr. C together on the display surface 10a.
  • the signal processing unit 15 acquires the non-speech context 16d during the imaging period (sensing period) by the camera 11 based on the image data (moving image data) obtained by the camera 11, for example.
  • the signal processing unit 15 acquires information about the line of sight of the target living body based on image data (moving image data) obtained by the camera 11, for example.
  • the signal processing unit 15 stores the identifier 16b of the target living body and the acquired non-speech context 16d (for example, information about the line of sight of the target living body) in the storage unit 16 in association with each other.
  • the signal processing unit 15 detects the gaze position of the target living body on the display surface 10a from the direction of the eyeball of the target living body included in the moving image data a1. As a result, when the gaze position of the target living body is within the display window of the moving image in which the user of the other electronic device 10 is shown on the display surface 10a, the signal processing unit 15 detects that the target living body is gazing at the user of the other electronic device 10. Data indicating that the subject is doing is generated as line-of-sight data of the target living body. The signal processing unit 15 stores the generated line-of-sight data of the target living body in the storage unit 16 together with the target living body identifier 16b as a non-speech context 16d.
  • Mr. A For example, assume that each of Mr. A, Mr. B, and Mr. C uses the electronic device 10 connected to the network 30 .
  • the camera 11 acquires moving image data of Mr. A's face (hereinafter referred to as “moving image data a1”) and outputs it to the signal processing unit 15 .
  • the signal processing unit 15 Based on the moving image data a1, the signal processing unit 15 detects Mr. A's gaze position on the display surface 10a from the direction of Mr. A's eyeball included in the moving image data a1.
  • Mr. A's gaze position is within the display window 10a-2 of the moving image in which Mr. B appears on the display surface 10a
  • the signal processing unit 15 means that Mr.
  • the signal processing unit 15 stores the generated line-of-sight data of Mr. A in the storage unit 16 together with the identifier 16b of Mr. A as a non-voice context 16d.
  • the signal processing unit 15 further transmits the identifier 16 b of Mr. A and the non-voice context 16 d to the electronic devices 10 of Mr. B and Mr. C via the communication unit 19 and the network 30 .
  • the camera 11 acquires video data of Mr. B's face (hereinafter referred to as "video data a2") and outputs it to the signal processing unit 15.
  • video data a2 video data of Mr. B's face
  • the signal processing unit 15 Based on the moving image data a2, the signal processing unit 15 detects Mr. B's gaze position on the display surface 10a from the direction of Mr. B's eyeball included in the moving image data a2.
  • the signal processing unit 15 means that Mr. B is gazing at Mr. A.
  • Data is generated as Mr. B's line-of-sight data. Further, when the gaze position of Mr.
  • the signal processing unit 15 generates data indicating that Mr. B is gazing at Mr. C. is generated as Mr. B's line of sight data.
  • the signal processing unit 15 stores the generated line-of-sight data of Mr. B in the storage unit 16 together with Mr. B's identifier 16b as a non-voice context 16d.
  • the signal processing unit 15 further transmits the identifier 16 b of Mr. B and the non-voice context 16 d to the electronic devices 10 of Mr. A and Mr. C via the communication unit 19 and the network 30 .
  • the camera 11 acquires video data of Mr. C's face (hereinafter referred to as "video data a3") and outputs it to the signal processing unit 15.
  • video data a3 video data of Mr. C's face
  • the signal processing unit 15 Based on the moving image data a3, the signal processing unit 15 detects the gaze position of Mr. C on the display surface 10a from the direction of Mr. C's eyeball included in the moving image data a3.
  • the signal processing unit 15 means that Mr. C is gazing at Mr. A.
  • Data is generated as Mr. C's line of sight data. Further, when the gaze position of Mr.
  • the signal processing unit 15 outputs data indicating that Mr. C is gazing at Mr. B. is generated as Mr. C's line of sight data.
  • the signal processing unit 15 stores the generated line-of-sight data of Mr. C in the storage unit 16 together with the identifier 16b of Mr. C as a non-voice context 16d.
  • the signal processing unit 15 further transmits the identifier 16 b of Mr. C and the non-voice context 16 d to the electronic devices 10 of Mr. A and Mr. B via the communication unit 19 and the network 30 .
  • the signal processing unit 15 acquires the identifier 16b of Mr. A and the non-voice context 16d of Mr. A from the electronic device 10 used by Mr. A. In the electronic device 10 used by Mr. C, the signal processing unit 15 further acquires Mr. B's identifier 16b and Mr. B's non-voice context 16d from the electronic device 10 used by Mr. B. The signal processing unit 15 stores the identifier 16b of Mr. A, the non-voice context 16d of Mr. A, the identifier 16b of Mr. B, and the non-voice context 16d of Mr. B in the storage unit 16 . In the electronic device 10 used by Mr. C, the signal processing unit 15 converts the non-voice context 16d of Mr.
  • the video signal generator 17a In the electronic device 10 used by Mr. C, the video signal generator 17a generates the emotional information 16c of each of Mr. A, Mr. B, and Mr. C, and the graphical non-voice context 16d of Mr. A, Mr. B, and Mr. C.
  • a video signal is generated based on the image data including and is output to the video display unit 18a.
  • the video display unit 18a displays the emotional information 16c of Mr. A, Mr. B, and Mr. C, and the graphical non-speech context 16d of Mr. A, Mr. B, and Mr. C. are displayed together on the surface 10a.
  • FIG. 3 illustrates, as a graphical representation of the non-speech context 16d (line-of-sight data), a bar graph that expresses the period in which the communication partner is gazing in color.
  • the signal processing unit 15 acquires the voice context 16d during the voice detection period (sensing period) by the microphone 12 based on the voice data obtained by the microphone 12, for example.
  • the signal processing unit 15 acquires information about the voice of the target living body based on voice data obtained by the microphone 12, for example.
  • the signal processing unit 15 stores the identifier 16b of the target living body and the context 16d of the acquired voice (for example, information about the voice of the target living body) in the storage unit 16 in association with each other.
  • each of Mr. A, Mr. B, and Mr. C uses the electronic device 10 connected to the network 30 .
  • the microphone 12 acquires Mr. A's voice data (hereinafter referred to as “voice data a2”) and outputs it to the signal processing unit 15 .
  • the signal processing unit 15 stores the acquired voice data a2 of Mr. A in the storage unit 16 together with the identifier 16b of Mr. A as a voice context 16d.
  • the signal processing unit 15 further transmits the identifier 16 b of Mr. A and the context 16 d of the voice to the electronic devices 10 of Mr. B and Mr. C via the communication unit 19 and the network 30 .
  • the microphone 12 acquires Mr. B's voice data (hereinafter referred to as "voice data b2") and outputs it to the signal processing unit 15.
  • the signal processing unit 15 stores the acquired voice data b2 of Mr. B in the storage unit 16 together with the identifier 16b of Mr. B as a voice context 16d.
  • the signal processing unit 15 further transmits the identifier 16 b of Mr. B and the context 16 d of the voice to the electronic devices 10 of Mr. A and Mr. C via the communication unit 19 and the network 30 .
  • the microphone 12 acquires Mr. C's voice data (hereinafter referred to as "voice data c2") and outputs it to the signal processing unit 15.
  • the signal processing unit 15 stores the acquired voice data c2 of Mr. C in the storage unit 16 together with the identifier 16b of Mr. C as a voice context 16d.
  • the signal processing unit 15 further transmits the identifier 16 b of Mr. C and the context 16 d of the voice to the electronic devices 10 of Mr. A and Mr. B via the communication unit 19 and the network 30 .
  • the signal processing unit 15 acquires the identifier 16b of Mr. A and the context 16d of Mr. A's voice from the electronic device 10 used by Mr. A. In the electronic device 10 used by Mr. C, the signal processing unit 15 further acquires the identifier 16b of Mr. B and the context 16d of Mr. B's voice from the electronic device 10 used by Mr. B. The signal processing unit 15 stores the identifier 16 b of Mr. A, the context 16 d of Mr. A's voice, the identifier 16 b of Mr. B, and the context 16 d of Mr. B's voice in the storage unit 16 . In the electronic device 10 used by Mr. C, the signal processing unit 15 converts the voice context 16d of Mr.
  • FIG. 3 exemplifies a bar graph in which the speech period is expressed in color as a graphical representation of the speech context 16d (speech data).
  • the signal processing unit 15 sends a message to Mr. C based on the speech context 16d (speech data), the non-speech context 16d (line-of-sight data), and the emotion information 16c. 10b may be generated.
  • speech context 16d speech data
  • non-speech context 16d line-of-sight data
  • emotion information 16c. 10b may be generated.
  • Mr. C is speaking in the voice context 16d (voice data)
  • Mr. A is gazing at Mr. C in the non-voice context 16d (line-of-sight data).
  • the signal processing unit 15 may generate text data such as “Mr. A is looking at you.
  • the signal processing unit 15 may calculate the number of times Mr. A gazed at Mr. C and the total time based on the non-voice context 16d (line-of-sight data). . At this time, when the number of times Mr. A gazes at Mr. C or the total time exceeds a predetermined threshold value, the signal processing unit 15 outputs, for example, as a message 10b, for example, "Mr. A is interested in you. Please try talking to Mr. A.” may be generated. The signal processing unit 15 may also calculate the number of times Mr. A gazed at Mr. C and the total time, and the number of times Mr. B gazed at Mr. C and the total time, and store them in the storage unit 24 .
  • the video signal generation unit 17a may generate image data including the message 10b generated by the signal processing unit 15 and output it to the video display unit 18a.
  • the video display unit 18a may display the message 10b on the display surface 10a near the camera lens 11a, as shown in FIG. 3, for example.
  • Mr. C can visually recognize the message 10b only by visually recognizing the vicinity of the camera lens 11a with his line of sight. This eliminates the need for Mr. C to make unnatural movements such as looking away in order to visually recognize the message 10b.
  • Mr. C can see the message 10b while having a natural conversation with Mr. A and Mr. B, and can perform actions and conversations referring to the message 10b.
  • the audio signal generation unit 17b may generate audio data corresponding to the message 10b generated by the signal processing unit 15 and output it to the speaker 18b.
  • the speaker 18b is composed of an earphone, a bone conduction speaker, or the like, the speaker 18b transmits the sound generated based on the audio data only to Mr. C without being heard by Mr. A or Mr. B. can be output. This eliminates the need for Mr. C to make unnatural movements such as looking away in order to obtain the message 10b.
  • Mr. C can listen to the message 10b from the speaker 18b while having a natural conversation with Mr. A and Mr. B, and perform actions and conversations referring to the message 10b that he has heard.
  • the target living body's emotion information 16c is estimated based on the target living body's information (at least one of biological information and motion information) obtained by the biosensor 20, and displayed on the display surface 10a.
  • the target living body's information at least one of biological information and motion information obtained by the biosensor 20, and displayed on the display surface 10a.
  • the partner's emotion information 16c is objective information obtained in the process of mutual communication. Therefore, it is possible to make a more accurate analogy than inferring the personality of the other party and the elements necessary for building a relationship based on the action history, preference information, and attribute information of the other party.
  • the user when the target living body is the user himself/herself, the user can infer elements necessary for establishing a relationship with the other party based on the user's own emotion information 16c.
  • the user's own emotional information is objective information obtained in the process of mutual communication. Therefore, it is possible to make a more accurate analogy than the case of analogizing the elements necessary for building a relationship with the other party based on the action history, preference information, and attribute information of the other party. As a result, mutual compatibility can be determined more accurately.
  • the non-voice context 16d and the emotion information 16c during the sensing period by the biosensor 20 are displayed.
  • the user can infer elements necessary for building a relationship with the partner based on the partner's non-speech context 16d and the partner's emotion information 16c. can be done.
  • the partner's non-voice context 16d and the partner's emotional information 16c are objective information obtained in the process of mutual communication. Therefore, it is possible to make a more accurate analogy than inferring the personality of the other party and the elements necessary for building a relationship based on the action history, preference information, and attribute information of the other party.
  • the user can infer elements necessary for building a relationship with the other party based on the user's own non-speech context 16d and the user's own emotional information 16c. can be done.
  • the user's own non-speech context 16d and the user's own emotional information 16c are objective information obtained in the process of mutual communication. Therefore, it is possible to make a more accurate analogy than the case of analogizing the elements necessary for building a relationship with the other party based on the action history, preference information, and attribute information of the other party. As a result, mutual compatibility can be determined more accurately.
  • a camera 11 is provided to obtain a moving image of the user's face through a camera lens 11b provided adjacent to the display surface 10a.
  • the context 16d is displayed.
  • the user can visually recognize the message 10b only by visually recognizing the vicinity of the camera lens 11a with the line of sight.
  • the user does not have to make unnatural movements such as looking away in order to visually recognize the message 10b. Therefore, the user can visually recognize the message 10b while having a natural conversation with another user, and perform actions and conversations referring to the message 10b.
  • emotional information 16c is displayed on display surface 10a, and voice context 16d during the sensing period by biosensor 20 is graphically displayed on display surface 10a.
  • the partner's voice context 16d and the partner's emotional information 16c are objective information obtained in the process of mutual communication. Therefore, it is possible to make a more accurate analogy than inferring the personality of the other party and the elements necessary for building a relationship based on the action history, preference information, and attribute information of the other party.
  • the user when the target living body is the user himself/herself, the user can infer elements necessary for building a relationship with the other party based on the context 16d of the user's own voice and the user's own emotional information 16c.
  • the context 16d of the user's own voice and the user's own emotional information 16c are objective information obtained in the process of mutual communication. Therefore, it is possible to make a more accurate analogy than the case of analogizing the elements necessary for building a relationship with the other party based on the action history, preference information, and attribute information of the other party. As a result, mutual compatibility can be determined more accurately.
  • the user's own emotion information 16c is estimated based on at least one of the user's biological information and motion information obtained by the biosensor 20 connected to the electronic device 10 used by the user. Further, the other user's emotion information 16c is estimated based on at least one of the other user's biological information and motion information obtained by the biosensor 20 connected to the electronic device 10 used by the other user. Then, the user's own emotion information 16c and the other user's emotion information 16c are displayed together on the display surface 10a. Thereby, for example, based on the emotion information 16c of both sides, the user can infer elements necessary for establishing a relationship with the other party.
  • both of the emotional information 16c is objective information obtained in the process of mutual communication. Therefore, it is possible to make a more accurate analogy than inferring the personality of the other party and the elements necessary for building a relationship based on the action history, preference information, and attribute information of the other party.
  • the non-speech context 16d during the sensing period by the biosensor 20 connected to the electronic device 10 used by the user is defined as the first context.
  • the non-speech context 16d during the sensing period by the biosensor 20 connected to the biosensor 20 connected to the electronic device 10 used by another user is referred to as the second context.
  • the user's own emotion information 16c obtained by the electronic device 10 used by the user is used as the first emotion information
  • the other user's emotion information 16c obtained by the electronic device 10 used by the other user is used as the first emotion information. is the second emotion information.
  • the first context, the second context, the first emotion information and the second emotion information are displayed together on the display surface 10a.
  • the target living body's emotion information 16c is estimated based on the target living body's information (at least one of biological information and motion information) obtained by the biosensor 20 .
  • the emotion information 16c of the target living body and the context 16d during the sensing period by the biosensor 20 are further associated with each other.
  • the partner's emotion information 16c is objective information obtained in the process of mutual communication.
  • the user can infer elements necessary for establishing a relationship with the other party based on the user's own emotion information 16c.
  • the user's own emotional information is objective information obtained in the process of mutual communication. Therefore, it is possible to make a more accurate analogy than the case of analogizing the elements necessary for building a relationship with the other party based on the action history, preference information, and attribute information of the other party. As a result, mutual compatibility can be determined more accurately.
  • the emotion information 16c of the target living body and the non-speech context 16d are displayed together on the display surface 10a.
  • the target living body is a communication partner
  • the user can infer elements necessary for building a relationship with the partner based on the partner's emotional information 16c and the non-speech context 16d.
  • the partner's emotional information 16c and the non-speech context 16d are objective information obtained in the process of mutual communication. Therefore, it is possible to make a more accurate analogy than inferring the personality of the other party and the elements necessary for building a relationship based on the action history, preference information, and attribute information of the other party.
  • the user can infer elements necessary for building a relationship with the other party based on the user's own emotional information 16c and the non-voice context 16d.
  • the user's own emotional information and the non-speech context 16d are objective information obtained in the process of mutual communication. Therefore, it is possible to make a more accurate analogy than the case of analogizing the elements necessary for building a relationship with the other party based on the action history, preference information, and attribute information of the other party. As a result, mutual compatibility can be determined more accurately.
  • the emotion information 16c of the target living body and the voice context 16d are displayed together on the display surface 10a.
  • the target living body is a communication partner
  • the user can infer elements necessary for building a relationship with the partner based on the partner's emotion information 16c and the voice context 16d.
  • the partner's emotion information 16c and the speech context 16d are objective information obtained in the process of mutual communication. Therefore, it is possible to make a more accurate analogy than inferring the personality of the other party and the elements necessary for building a relationship based on the action history, preference information, and attribute information of the other party.
  • the user can infer elements necessary for establishing a relationship with the other party based on the user's own emotion information 16c and the voice context 16d.
  • the user's own emotional information and the speech context 16d are objective information obtained in the process of mutual communication. Therefore, it is possible to make a more accurate analogy than the case of analogizing the elements necessary for building a relationship with the other party based on the action history, preference information, and attribute information of the other party. As a result, mutual compatibility can be determined more accurately.
  • biosensor 20, camera 11, image display unit 18a, and speaker 18b may be provided in a device such as eyeglasses, for example.
  • a device such as eyeglasses, for example.
  • Modification B In information processing system 100 according to the above embodiment, only two electronic devices 10 connected to network 30 may communicate with each other. In this case, in the electronic device 10 used by itself, the signal processing unit 15 acquires its own emotion information 16c and its own identifier 16b. The signal processing unit 15 further acquires the partner's identifier 16b and the partner's emotion information 16c from the electronic device 10 used by the communication partner.
  • the signal processing unit 15 converts, for example, the emotion information 16c of the user and the emotion information 16c of the other party into graphical emotion information.
  • the signal processing unit 15 generates image data representing, for example, the emotion information 16c of itself and the emotion information 16c of the partner in a graph with time on the horizontal axis and emotion information on the vertical axis.
  • the video display unit 18a generates a video signal based on the image data including graphical emotion information generated by the signal processing unit 15, and outputs the video signal to the video display unit 18a. For example, as shown in FIG. 4, the video display unit 18a displays the emotion information 16c of the user and the partner together on the display surface 10a.
  • the signal processing unit 15 may, for example, calculate the synchrony between its own emotion information 16c and the opponent's emotion information 16c, and generate image data including the calculation result.
  • the video display unit 18a generates a video signal based on the image data including the synchronous calculation result generated by the signal processing unit 15, and outputs the video signal to the video display unit 18a.
  • the image display unit 18a displays the synchronism calculation result on the display surface 10a, for example, as shown in FIG.
  • the signal processing unit 15 may associate the own emotion information 16c and the partner's emotion information 16c with each other and store them in the storage unit 16.
  • the signal processing unit 15 may further store the synchronism calculation result described above in the storage unit 16 .
  • the user can determine the appropriateness of the communication method with the other party. can review. For example, by seeing the synchronicity between the emotion information 16c of the user and the emotion information 16c of the other party, the user can know whether the other party's words are flattering or not, and can know what the other party is interested in. It is possible to
  • Modification C The information processing system 100 according to the above-described embodiment and its modification can be applied to, for example, group interaction, dating, matchmaking, employee training, online games, and the like.
  • the information processing system 100 is applied to a cooperative online game in which a player forms a team with an unspecified number of people online to clear a quest.
  • the video display unit 18a generates a video signal based on the image data including the game screen and the graphical emotion information of the team members generated by the signal processing unit 15, and outputs the video signal to the video display unit 18a.
  • FIG. 5 shows a schematic configuration example of the information processing system 200 .
  • the information processing system 200 executes a series of processes for deriving the emotion information 16c by the server device 50 connected to the plurality of electronic devices 40 via the network 30. It may be equipped with a program or an estimation model that
  • the electronic device 40 stores an information processing program 16e instead of the information processing program 16a in the storage unit 16 in the electronic device 10 according to the above-described embodiment and its modification. It is a thing.
  • the information processing program 16e is a program for executing a series of processes executed by the information processing program 16a, excluding a series of processes for deriving the emotion information 16c.
  • the server device 50 includes, for example, a communication section 51, a signal processing section 52, and a storage section 53, as shown in FIG.
  • the communication unit 51 is a device that communicates with a plurality of electronic devices 40 via the network 30 .
  • the signal processing unit 52 is configured by, for example, a processor.
  • the signal processing unit 52 executes the information processing program 16 e stored in the storage unit 53 .
  • the function of the signal processing unit 52 is realized by executing the information processing program 16e by the signal processing unit 52, for example.
  • the signal processing unit 52 executes a series of processes for deriving the emotion information 16c.
  • the signal processing unit 52 calculates the target biological emotion information 16c (at least the arousal level and the pleasure/discomfort information). on the other hand).
  • the signal processing unit 52 transmits the estimated emotion information 16 c to the electronic device 40 via the communication unit 51 and the network 30 .
  • the signal processing unit 52 stores the identifier 16b input from the electronic device 40 and the emotion information 16c obtained by estimation in the storage unit 53 in association with each other.
  • the signal processing unit 52 transmits the emotion information 16c to the electronic device 40 corresponding to the identifier 16b.
  • the signal processing unit 52 associates the identifier 16b and the context 16d input from the electronic device 40 with each other and stores them in the storage unit 53 .
  • the signal processing unit 52 associates the identifier 16b and the context 16d read from the storage unit 53 with each other and transmits them to the electronic device 40 .
  • the server device 50 executes a series of processes for deriving the emotion information 16c. This eliminates the need to provide each electronic device 40 with a program for executing a series of processes for deriving the emotion information 16c and an estimation model. As a result, a plurality of electronic devices 40 can share a program and an estimation model provided in the server device 50 for executing a series of processes for deriving the emotion information 16c.
  • FIG. 8 shows a schematic configuration example of the information processing device 300 .
  • the information processing apparatus 300 is a system that estimates emotion information of a target living body based on at least one of biological information and motion information obtained from the target living body.
  • the target living body is a person.
  • the target living body is not limited to humans.
  • the information processing apparatus 300 includes a plurality of (for example, two) devices 310, a signal processing section 15 connected to the plurality of (for example, two) devices 310, a user input reception section 14, and a storage section 16. there is Each device 310 is, for example, a device such as an eyeglass, and is controlled by the signal processing unit 15 to control the electronic device 10 according to the above embodiment and its modifications, and the electronic device 10 according to the above embodiment and its modifications. 40 is performed. That is, in this embodiment, one information processing apparatus 300 is shared by multiple users.
  • Each device 310 has, for example, a camera 11, a microphone 12, a sensor input reception unit 13, a video signal generation unit 17a, a video display unit 18a, an audio signal generation unit 17b, and a speaker 18b.
  • each device 310 is attached with one biosensor 20 .
  • the emotion information 16c of the target living body is estimated based on the information (at least one of the biological information and the motion information) of the target living body obtained by the biosensor 20. and displayed on the display surface of the image display section 18a.
  • the partner's emotion information 16c is objective information obtained in the process of mutual communication. Therefore, it is possible to make a more accurate analogy than inferring the personality of the other party and the elements necessary for building a relationship based on the action history, preference information, and attribute information of the other party.
  • the user when the target living body is the user himself/herself, the user can infer elements necessary for establishing a relationship with the other party based on the user's own emotion information 16c.
  • the user's own emotional information is objective information obtained in the process of mutual communication. Therefore, it is possible to make a more accurate analogy than the case of analogizing the elements necessary for building a relationship with the other party based on the action history, preference information, and attribute information of the other party. As a result, mutual compatibility can be determined more accurately.
  • the electronic device 10 may include, for example, a vibration signal generation section 21a and a vibration section 21b, as shown in FIG.
  • the electronic device 40 may include, for example, a vibration signal generation section 21a and a vibration section 21b as shown in FIG.
  • each device 310 may include, for example, a vibration signal generation section 21a and a vibration section 21b, as shown in FIG.
  • the vibration signal generation unit 21a generates a vibration signal for outputting the vibration data input from the signal processing unit 15, and outputs it to the vibration unit 21b.
  • the vibrating section 21b vibrates based on the vibration signal input from the vibration signal generating section 21a.
  • the signal processing unit 15 may generate vibration data based on at least one of the speech context 16d (speech data), the non-speech context 16d (line-of-sight data), and the emotion information 16c, for example.
  • the vibration unit 21b vibrates based on, for example, at least one of the voice context 16d (voice data), the non-voice context 16d (line-of-sight data), and the emotion information 16c.
  • the user can infer elements necessary for building a relationship with the other party from the vibration of the vibrating section 21b. As a result, mutual compatibility can be determined more accurately.
  • each device 310 may be provided for each device 310 in the third embodiment and its modification.
  • the user can input information from the device 310 using the user input receiving section 14 .
  • each device 310 is a mobile device such as a smartphone, and information can be input for each device 310 even when the user carries the device 310 around.
  • a plurality of electronic devices 10 may be connected to each other by means other than the network 30.
  • the biosensor 20 can be mounted on a head-mounted display (HMD) 400 as shown in FIG. 22, for example.
  • HMD head-mounted display
  • the detection electrodes 403 of the biosensor 20 can be provided on the inner surfaces of the pad section 401 and the band section 402, or the like.
  • the biosensor 20 can be mounted on a headband 500 as shown in FIG. 23, for example.
  • the detection electrodes 503 of the biosensor 20 can be provided on the inner surfaces of the band portions 501 and 502 that come into contact with the head.
  • the biosensor 20 can be mounted on headphones 600 as shown in FIG. 24, for example.
  • the detection electrodes 603 of the biosensor 20 can be provided on the inner surface of the band portion 601 and the ear pads 602 that come into contact with the head.
  • the biosensor 20 can be mounted on an earphone 700 as shown in FIG. 25, for example.
  • the detection electrode 702 of the biosensor 20 can be provided on the earpiece 701 that is inserted into the ear.
  • the biosensor 20 can be mounted on a watch 800 as shown in FIG. 26, for example.
  • the detection electrodes 804 of the biosensor 20 can be provided on the inner surface of the display portion 801 that displays the time and the like, the inner surface of the band portion 802 (for example, the inner surface of the buckle portion 803), and the like.
  • the biosensor 20 can be mounted on spectacles 900 as shown in FIG. 27, for example.
  • the detection electrodes 902 of the biosensor 20 can be provided on the inner surface of the temple 901 or the like.
  • the biosensor 20 can be mounted on gloves, rings, pencils, pens, game machine controllers, and the like.
  • the signal processing unit 15 for example, based on the electrical signals of the subject's pulse wave, electrocardiogram, and blood flow obtained by the sensor, for example, the following , and based on the derived feature amount, the arousal level 24e of the person to be evaluated may be derived.
  • pulse wave Pulse wave, electrocardiogram, blood flow
  • the arousal level 24e of the person It is possible to derive the arousal level 24e of the person to be evaluated by using, for example, the following feature amounts obtained based on the pulse wave, electrocardiogram, and blood flow electrical signal obtained by the sensor. be.
  • the signal processing unit 15 for example, based on the electrical signal (EDA: electrodermal activity) of the subject's mental perspiration obtained by the sensor, For example, a feature quantity as shown below may be derived, and the arousal level 24e of the person to be evaluated may be derived based on the derived feature quantity.
  • EDA electrodermal activity
  • the arousal level 24e of the person to be evaluated can be derived by using, for example, the following feature amounts obtained based on the electrical signal of mental perspiration obtained by the sensor. ⁇ Number of SCR (skin conductance response) generated in one minute ⁇ Amplitude of SCR ⁇ Value of SCL (skin conductance level) ⁇ Change rate of SCL
  • SCR and SCL can be separated from EDA by using the method described in the following document. Benedek, M., & Kaernbach, C. (2010). A continuous measure of phasic electrodermal activity. Journal of neuroscience methods, 190(1), 80-91.
  • a single modal one physiological index
  • a combination of multiple modals a plurality of physiological indexes
  • the signal processing unit 15 uses, for example, regression equations described in FIGS.
  • FIG. 28 shows the difference ⁇ ha [%] in pnn50 of the pulse wave when solving the problem with high difficulty and when solving the problem with low difficulty, and the correct answer when solving the problem with high difficulty.
  • the task difference ⁇ ha is a vector quantity obtained by subtracting the pulse wave pnn50 obtained when solving a low difficulty problem from the pulse wave pnn50 obtained when solving a high difficulty problem.
  • a small pulse wave pnn50 task difference ⁇ ha means that the difference in pulse wave pnn50 between when solving a high-difficulty problem and when solving a low-difficulty problem is small. It can be said that users who have obtained such results tend to have a smaller difference in pulse wave pnn50 than other users when the difficulty level of the problem is high.
  • the fact that the pulse wave pnn50 task difference ⁇ ha is large means that the difference in pulse wave pnn50 is large between when a high-difficulty problem is solved and when a low-difficulty problem is solved. do. It can be said that users who have obtained such results tend to have a greater difference in pnn50 of the pulse wave than other users when the difficulty level of the problem increases.
  • the user's arousal level can be derived by using the pulse wave pnn50 task difference ⁇ ha and the regression equations of FIGS.
  • FIG. 29 shows the task difference ⁇ hb [%] in the variation of pnn50 of the pulse wave when solving the problem with high difficulty and when solving the problem with low difficulty, and when solving the problem with high difficulty. and the correct answer rate R [%].
  • the task difference ⁇ hb is a vector quantity obtained by subtracting the pulse wave pnn50 variation when solving a low difficulty problem from the pulse wave pnn50 variation when solving a high difficulty problem. .
  • the fact that the task difference ⁇ hb in variation of pnn50 of the pulse wave is small means that the difference in variation of pnn50 of the pulse wave is small between when a high-difficulty problem is solved and when a low-difficulty problem is solved. means It can be said that users who obtained such results tended to have a smaller task difference in variation of pnn50 of the pulse wave compared to other users when the difficulty level of the problem increased.
  • the fact that the task difference ⁇ hb in variation of pnn50 of the pulse wave is large means that the difference in the variation of pnn50 of the pulse wave between when solving a high-difficulty problem and when solving a low-difficulty problem is means big. It can be said that users who obtained such results tended to have a greater variation in pulse wave pnn50 than other users when the difficulty level of the problem increased.
  • the user's arousal level can be derived by using the task difference ⁇ hb of variations in pnn50 of the pulse wave and the regression equations of FIGS. 21 and 29 .
  • FIG. 30 shows the power spectrum in the low frequency band (0.01 Hz 10 shows an example of the relationship between the task difference ⁇ hc [ms ⁇ 2 Hz] of the power in the neighborhood) and the correct answer rate R [%] when a high-difficulty problem is solved.
  • power in the low frequency band (near 0.01 Hz) of the power spectrum obtained by performing FFT on pnn50 of the pulse wave is referred to as "power in the low frequency band of pnn50 of the pulse wave”. do.
  • the fact that the task difference ⁇ hc in the power of the low frequency band of the pulse wave pnn50 is large means that the low frequency of the pulse wave pnn50 is different between when solving the high-difficulty problem and when solving the low-difficulty problem. This means that the power difference between the bands is large. It can be said that users who have obtained such results tend to have a greater difference in power in the low frequency band of pnn50 of the pulse wave than other users when solving problems with a high degree of difficulty.
  • the fact that the task difference ⁇ hc in the power of the low frequency band of the pulse wave pnn50 is small means that the pulse wave pnn50 is different when solving the high-difficulty problem and when solving the low-difficulty problem. This means that the power difference in the low frequency band is small. It can be said that users who obtained such results tended to have a smaller difference in power in the low frequency band of pnn50 of the pulse wave compared to other users when the difficulty level of the problem increased.
  • FIG. 31 shows the difference ⁇ hd [ms] in rmssd of the pulse wave when solving the problem of high difficulty and when solving the problem of low difficulty, and the correct answer when solving the problem of high difficulty.
  • the task difference ⁇ hd is a vector quantity obtained by subtracting the rmssd of the pulse wave when solving the problem of the low difficulty level from the rmssd of the pulse wave when the problem of the high difficulty level is solved.
  • a large task difference ⁇ hd in pulse wave rmssd means that the difference in pulse wave rmssd between when solving a high-difficulty problem and when solving a low-difficulty problem is large. It can be said that users who have obtained such results tend to have a larger task difference in pulse wave rmssd than other users when solving a high-difficulty problem.
  • the fact that the task difference ⁇ hd of the rmssd of the pulse wave is small means that the difference in rmssd of the pulse wave is small between when the high-difficulty problem is solved and when the low-difficulty problem is solved. do. It can be said that users who have obtained such results tend to have a smaller task difference in pulse wave rmssd than other users when the difficulty level of the problem is high.
  • the user's arousal level can be derived by using the task difference ⁇ hd of the rmssd of the pulse wave and the regression equations of FIGS.
  • FIG. 32 shows the task difference ⁇ he [ms] in variation of pulse wave rmssd when solving a problem with high difficulty and when solving a problem with low difficulty, and when solving a problem with high difficulty and the correct answer rate R [%].
  • the task difference ⁇ he is a vector quantity obtained by subtracting the pulse wave rmssd variation when solving a low difficulty problem from the pulse wave rmssd variation when solving a high difficulty problem. .
  • the fact that the task difference ⁇ he in variation of the rmssd of the pulse wave is small means that the difference in variation in the rmssd of the pulse wave between when solving the high-difficulty problem and when solving the low-difficulty problem is means small. It can be said that users who obtained such results tended to have a smaller task difference in pulse wave rmssd variations than other users when the difficulty level of the problem increased.
  • the user's arousal level can be derived by using the task difference ⁇ he of variations in pulse wave rmssd and the regression equations of FIGS. 21 and 32 .
  • FIG. 33 shows the power spectrum in the low frequency band (0.01 Hz 10 shows an example of the relationship between the task difference ⁇ hf [ms 2 /Hz] of the power in the vicinity of the target) and the correct answer rate R [%] when a high-difficulty problem is solved.
  • power in the low frequency band (near 0.01 Hz) of the power spectrum obtained by performing FFT on the rmssd of the pulse wave is referred to as "power in the low frequency band of the rmssd of the pulse wave”. do.
  • the fact that the task difference ⁇ hf in power in the low frequency band of the rmssd of the pulse wave is large means that the low frequency This means that the power difference between the bands is large. It can be said that users who have obtained such results tend to have a larger problem difference in power in the low frequency band of the rmssd of the pulse wave than other users when solving problems with a high degree of difficulty.
  • the fact that the task difference ⁇ hf in power in the low frequency band of the rmssd of the pulse wave is small means that the rmssd of the pulse wave differs between when solving the high-difficulty problem and when solving the low-difficulty problem. This means that the power difference in the low frequency band is small. It can be said that users with such results tend to have a smaller difference in power in the low frequency band of the rmssd of the pulse wave compared to other users as the difficulty of the problem increases.
  • FIG. 34 shows the task difference ⁇ hg [min] in the variation in the number of SCRs of mental perspiration when solving a high-difficulty problem and when solving a low-difficulty problem, and the problem of high difficulty. It shows an example of the relationship with the correct answer rate R [%] when solving.
  • the task difference ⁇ hg is obtained by subtracting the variation in the number of SCRs for mental perspiration when solving a low-difficulty problem from the variation in the number of SCRs for mental perspiration when solving a problem with a high difficulty level. is the resulting vector quantity.
  • the fact that the task difference ⁇ hg in the variation in the number of SCRs for psychogenic sweating is large means that the number of SCRs for psychogenic sweating varies between when solving high-difficulty problems and when solving low-difficulty problems. This means that the difference in variation is large. It can be said that users who have obtained such results tend to have a greater difference in the number of SCRs for mental sweating than other users when solving high-difficulty problems.
  • the fact that the task difference ⁇ hg in the variation in the number of SCRs in psychogenic sweating is small means that the number of SCRs in psychogenic sweating is lower when solving high-difficulty problems and when solving low-difficulty problems. This means that the difference in variation in the number of pieces is small. It can be said that users with such results tend to have a smaller task difference in the number of SCRs for mental sweating than other users when the difficulty level of the problem increases.
  • FIG. 35 shows the task difference ⁇ hh [ms2/Hz] in the number of SCRs of mental perspiration when solving a problem with a high difficulty level and when solving a problem with a low difficulty level, and the problem with a high difficulty level. It shows an example of the relationship with the correct answer rate R [%] when solving.
  • the task difference ⁇ hh is a vector quantity obtained by subtracting the number of SCRs of mental sweating when solving a problem of low difficulty from the number of SCRs of mental sweating when solving a problem of high difficulty. is.
  • the fact that the task difference ⁇ hh in the number of SCRs for mental perspiration is large means that there is a difference in the number of SCRs for mental perspiration between when a high-difficulty problem is solved and when a low-difficulty problem is solved. means big. It can be said that users with such results tend to have a greater difference in the number of SCRs of mental perspiration than other users when solving high-difficulty problems.
  • the fact that the task difference ⁇ hh in the number of SCRs for psychogenic sweating is small means that the number of SCRs for psychogenic sweating differs between when solving high-difficulty problems and when solving low-difficulty problems. It means that the difference is small. It can be said that users with such results tend to have a smaller difference in the number of SCRs of mental sweating compared to other users when the difficulty level of the problem increases.
  • the user's arousal level can be derived by using the task difference ⁇ hh in the number of SCRs of mental perspiration and the regression equations of FIGS. 21 and 35 .
  • the median reaction time ( median) task difference ⁇ tv may be used.
  • the regression equation is not limited to a straight line (regression line), and may be, for example, a curve (regression curve).
  • the curve (regression curve) may be, for example, a quadratic function.
  • the present disclosure can have the following configurations.
  • An information processing system comprising: a display unit that displays the emotion information on a display surface.
  • the information processing system according to (1) further comprising an acquisition unit that acquires the context of the voice during the sensing period by the sensor, The information processing system according to (1), wherein the display unit displays the emotion information and the context.
  • the emotion information is at least one of arousal and pleasure/discomfort of the target living body.
  • the information processing system according to (4), wherein the context is information about conversation of the target living body.
  • a first estimation unit for estimating emotion information of the first living body based on at least one of first biological information and first motion information of the first living body obtained by a first sensor
  • a second estimating unit for estimating emotion information of the second living body based on at least one of second biological information and second motion information of the second living body obtained by a second sensor
  • An information processing system comprising: a display unit that displays the emotion information obtained by the first estimation unit and the emotion information obtained by the second estimation unit together on a display surface.
  • the display unit displays the emotion information obtained by the first estimation unit, the emotion information obtained by the second estimation unit, and the context obtained by the acquisition unit together on the display surface ( The information processing system according to 8).
  • the first target living body is a user who visually recognizes the display of the display unit, The information processing system according to (9), wherein the second target living body is a communication partner.
  • An imaging unit that acquires a moving image of the user's face through a lens provided adjacent to the display surface, (10) The information processing system according to (10), wherein the display unit displays the context on a portion of the display surface closer to the lens.
  • the display unit displays the emotion information and graphically displays the context of the voice.
  • the emotion information obtained by the first estimating unit is any one of arousal and pleasure/discomfort of the first target living body;
  • the context is information about at least one of at least one of movement and conversation of the first living subject and at least one of movement and conversation of the second living subject. The information processing system according to any one of the above.
  • the context is non-speech information;
  • the context is audio information;
  • a first estimation unit for estimating emotion information of the first living body based on at least one of first biological information and first motion information of the first living body obtained by a first sensor; a second estimating unit for estimating emotion information of the second living body based on at least one of second biological information and second motion information of the second living body obtained by a second sensor; an acquisition unit that acquires a context during a sensing period by the first sensor and the second sensor;
  • An information processing system comprising: an association unit that associates the emotion information obtained by the first estimation unit, the emotion information obtained by the second estimation unit, and the context obtained by the acquisition unit with each other.
  • the information processing system further includes a display unit that displays the emotion information obtained by the first estimation unit, the emotion information obtained by the second estimation unit, and the context together on a display surface ( 18) The information processing system described in 18).
  • the emotion information of the target living body is estimated based on at least one of the biological information and motion information of the target living body obtained by the sensor, and displayed on the display surface.
  • the target living body is a communication partner
  • the user can infer elements necessary for building a relationship with the partner based on the partner's emotional information.
  • the partner's emotional information is objective information obtained in the process of mutual communication. Therefore, it is possible to make a more accurate analogy than inferring the personality of the other party and the elements necessary for building a relationship based on the action history, preference information, and attribute information of the other party.
  • the user can infer elements necessary for building a relationship with the other party based on the user's own emotion information.
  • the user's own emotional information is objective information obtained in the process of mutual communication. Therefore, it is possible to make a more accurate analogy than the case of analogizing the elements necessary for building a relationship with the other party based on the action history, preference information, and attribute information of the other party. Therefore, it is possible to determine mutual compatibility more accurately.
  • the emotion information of the first living body is obtained based on at least one of the first biological information and the first motion information of the first living body obtained by the first sensor. Presumed. Furthermore, the emotion information of the second living body is estimated based on at least one of the second biological information and the second motion information of the second living body obtained by the second sensor. Then, the emotion information obtained by the first estimation unit and the emotion information obtained by the second estimation unit are displayed together on the display screen. As a result, for example, when the first target living body is the user and the second target living body is the communication partner, the user can infer elements necessary for building a relationship with the other based on the emotional information of both parties. can do.
  • both emotional information is objective information obtained in the process of mutual communication. Therefore, it is possible to make a more accurate analogy than inferring the personality of the other party and the elements necessary for building a relationship based on the action history, preference information, and attribute information of the other party. Therefore, it is possible to determine mutual compatibility more accurately.
  • the emotion information of the target living body is estimated based on at least one of the biological information and motion information of the target living body obtained by the sensor. Additionally, the context during the sensing period by the sensor is obtained. Then, the emotion information obtained by the estimation unit and the context obtained by the acquisition unit are associated with each other.
  • the target living body is a communication partner
  • the user can infer elements necessary for building a relationship with the partner based on the partner's emotional information.
  • the partner's emotional information is objective information obtained in the process of mutual communication.
  • the target living body is the user himself/herself
  • the user can infer elements necessary for building a relationship with the other party based on the user's own emotion information.
  • the user's own emotional information is objective information obtained in the process of mutual communication. Therefore, it is possible to make a more accurate analogy than the case of analogizing the elements necessary for building a relationship with the other party based on the action history, preference information, and attribute information of the other party. Therefore, it is possible to determine mutual compatibility more accurately.
  • the emotion information of the first living body is obtained based on at least one of the first biological information and the first motion information of the first living body obtained by the first sensor. Presumed. Furthermore, the emotion information of the second living body is estimated based on at least one of the second biological information and the second motion information of the second living body obtained by the second sensor. Additionally, the context during sensing by the first sensor and the second sensor is obtained. Then, the emotion information obtained by the first estimation unit, the emotion information obtained by the second estimation unit, and the context obtained by the acquisition unit are associated with each other.
  • both emotional information is objective information obtained in the process of mutual communication. Therefore, it is possible to make a more accurate analogy than inferring the personality of the other party and the elements necessary for building a relationship based on the action history, preference information, and attribute information of the other party. Therefore, it is possible to determine mutual compatibility more accurately.

Abstract

本開示の一側面に係る情報処理システムは、推定部と、表示部とを備えている。推定部は、センサによって得られた対象生体の生体情報および動作情報の少なくとも1つに基づいて対象生体の情動情報を推定する。表示部は、情動情報を表示面に表示する。

Description

情報処理システム
 本開示は、情報処理システムに関する。
 複数人が人間関係を構築する際には、お互いが観測可能な情報から相手の人柄や相手との関係構築に必要な要素を類推する。しかし、その類推が不確実であるため、自分に合った人との人間関係の構築は一般に難しい。また、その類推の不確実性により、人間関係構築の機会損失が起こっている。
 人の行動履歴、趣向情報および属性情報に基づいて、お互いの相性を判断することが、例えば、特許文献1に記載されている。
特開2020-35344号公報
 しかし、人の行動履歴、趣向情報および属性情報は、お互いの相性を正確に判断するのに適した情報とは言えない。従って、お互いの相性をより正確に判断することを可能にする情報処理システムを提供することが望ましい。
 本開示の第1の側面に係る情報処理システムは、推定部と、表示部とを備えている。推定部は、センサによって得られた対象生体の生体情報および動作情報の少なくとも1つに基づいて対象生体の情動情報を推定する。表示部は、情動情報を表示面に表示する。
 本開示の第2の側面に係る情報処理システムは、第1推定部と、第2推定部と、表示部とを備えている。第1推定部は、第1センサによって得られた第1対象生体の第1生体情報および第1動作情報の少なくとも1つに基づいて第1対象生体の情動情報を推定する。第2推定部は、第2センサによって得られた第2対象生体の第2生体情報および第2動作情報の少なくとも1つに基づいて第2対象生体の情動情報を推定する。表示部は、第1推定部で得られた情動情報と、第2推定部で得られた情動情報とを表示面に一緒に表示する。
 本開示の第3の側面に係る情報処理システムは、推定部と、取得部と、関連付け部とを備えている。推定部は、センサによって得られた対象生体の生体情報および動作情報の少なくとも1つに基づいて対象生体の情動情報を推定する。取得部は、センサによるセンシング期間におけるコンテキストを取得する。関連付け部は、推定部で得られた情動情報と、取得部で得られたコンテキストとを互いに関連付ける。
 本開示の第4の側面に係る情報処理システムは、第1推定部と、第2推定部と、取得部と、関連付け部とを備えている。第1推定部は、第1センサによって得られた第1対象生体の第1生体情報および第1動作情報の少なくとも1つに基づいて第1対象生体の情動情報を推定する。第2推定部は、第2センサによって得られた第2対象生体の第2生体情報および第2動作情報の少なくとも1つに基づいて第2対象生体の情動情報を推定する。取得部は、第1センサおよび第2センサによるセンシング期間におけるコンテキストを取得する。関連付け部は、第1推定部で得られた情動情報と、第2推定部で得られた情動情報と、取得部で得られたコンテキストとを互いに関連付ける。
 本開示の第1の側面に係る情報処理システムでは、センサによって得られた対象生体の生体情報および動作情報の少なくとも1つに基づいて対象生体の情動情報が推定され、表示面に表示される。これにより、例えば、対象生体がコミュニケーション相手の場合には、ユーザは、相手の情動情報に基づいて、相手との関係構築に必要な要素を類推することができる。ここで、相手の情動情報はお互いのコミュニケーションの過程で得られる客観的な情報である。従って、相手の行動履歴、趣向情報および属性情報に基づいて、相手の人柄や関係構築に必要な要素を類推する場合と比べて、より正確な類推を行うことが可能である。また、例えば、対象生体がユーザ自身の場合には、ユーザは、ユーザ自身の情動情報に基づいて、相手との関係構築に必要な要素を類推することができる。ここで、ユーザ自身の情動情報はお互いのコミュニケーションの過程で得られる客観的な情報である。従って、相手の行動履歴、趣向情報および属性情報に基づいて、相手との関係構築に必要な要素を類推する場合と比べて、より正確な類推を行うことが可能である。
 本開示の第2の側面に係る情報処理システムでは、第1センサによって得られた第1対象生体の第1生体情報および第1動作情報の少なくとも1つに基づいて第1対象生体の情動情報が推定される。さらに、第2センサによって得られた第2対象生体の第2生体情報および第2動作情報の少なくとも1つに基づいて第2対象生体の情動情報が推定される。そして、第1推定部で得られた情動情報と、第2推定部で得られた情動情報とが表示面に一緒に表示される。これにより、例えば、第1対象生体がユーザ自身であり、第2対象生体がコミュニケーション相手である場合には、ユーザは、双方の情動情報に基づいて、相手との関係構築に必要な要素を類推することができる。ここで、双方の情動情報はお互いのコミュニケーションの過程で得られる客観的な情報である。従って、相手の行動履歴、趣向情報および属性情報に基づいて、相手の人柄や関係構築に必要な要素を類推する場合と比べて、より正確な類推を行うことが可能である。
 本開示の第3の側面に係る情報処理システムでは、センサによって得られた対象生体の生体情報および動作情報の少なくとも1つに基づいて対象生体の情動情報が推定される。さらに、センサによるセンシング期間におけるコンテキストが取得される。そして、推定部で得られた情動情報と、取得部で得られたコンテキストとが互いに関連付けられる。これにより、例えば、対象生体がコミュニケーション相手の場合には、ユーザは、相手の情動情報に基づいて、相手との関係構築に必要な要素を類推することができる。ここで、相手の情動情報はお互いのコミュニケーションの過程で得られる客観的な情報である。従って、相手の行動履歴、趣向情報および属性情報に基づいて、相手の人柄や関係構築に必要な要素を類推する場合と比べて、より正確な類推を行うことが可能である。また、例えば、対象生体がユーザ自身の場合には、ユーザは、ユーザ自身の情動情報に基づいて、相手との関係構築に必要な要素を類推することができる。ここで、ユーザ自身の情動情報はお互いのコミュニケーションの過程で得られる客観的な情報である。従って、相手の行動履歴、趣向情報および属性情報に基づいて、相手との関係構築に必要な要素を類推する場合と比べて、より正確な類推を行うことが可能である。
 本開示の第4の側面に係る情報処理システムでは、第1センサによって得られた第1対象生体の第1生体情報および第1動作情報の少なくとも1つに基づいて第1対象生体の情動情報が推定される。さらに、第2センサによって得られた第2対象生体の第2生体情報および第2動作情報の少なくとも1つに基づいて第2対象生体の情動情報が推定される。さらに、第1センサおよび第2センサによるセンシング期間におけるコンテキストが取得される。そして、第1推定部で得られた情動情報と、第2推定部で得られた情動情報と、取得部で得られたコンテキストとが互いに関連付けられる。これにより、例えば、第1対象生体がユーザ自身であり、第2対象生体がコミュニケーション相手である場合には、ユーザは、双方の情動情報に基づいて、相手との関係構築に必要な要素を類推することができる。ここで、双方の情動情報はお互いのコミュニケーションの過程で得られる客観的な情報である。従って、相手の行動履歴、趣向情報および属性情報に基づいて、相手の人柄や関係構築に必要な要素を類推する場合と比べて、より正確な類推を行うことが可能である。
本開示の第1の実施の形態に係る情報処理システムの概略構成の一例を表す図である。 図1の電子機器の機能ブロックの一例を表す図である。 図1の電子機器の画面表示の一例を表す図である。 図1の電子機器の画面表示の一例を表す図である。 本開示の第2の実施の形態に係る情報処理システムの概略構成の一例を表す図である。 図5の電子機器の機能ブロックの一例を表す図である。 図5のサーバ装置の機能ブロックの一例を表す図である。 本開示の第3の実施の形態に係る情報処理装置の概略構成の一例を表す図である。 図2の電子機器の機能ブロックの一変形例を表す図である。 図6の電子機器の機能ブロックの一変形例を表す図である。 図8の情報処理装置の概略構成の一変形例を表す図である。 低難易度の問題に対する反応時間の時系列データの一例を表す図である。 高難易度の問題に対する反応時間の時系列データの一例を表す図である。 低難易度の問題を解いているときのユーザの脳波(α波)の観測データに対してFFT(Fast Fourier Transform)を行うことにより得られるパワースペクトラム密度の一例を表す図である。 高難易度の問題を解いているときのユーザの脳波(α波)の観測データに対してFFT(Fast Fourier Transform)を行うことにより得られるパワースペクトラム密度の一例を表す図である。 反応時間のばらつきの課題差と、低周波数帯の脳波のパワーのピーク値の課題差との関係の一例を表す図である。 反応時間のばらつきの課題差と、正解率の課題差との関係の一例を表す図である。 覚醒度の課題差と、低周波数帯の脳波のパワーのピーク値の課題差との関係の一例を表す図である。 覚醒度の課題差と、正解率の課題差との関係の一例を表す図である。 反応時間のばらつきと、正解率との関係の一例を表す図である。 覚醒度と、正解率との関係の一例を表す図である。 センサが搭載されたヘッドマウントディスプレイの一例を表す図である。 センサが搭載されたヘッドバンドの一例を表す図である。 センサが搭載されたヘッドフォンの一例を表す図である。 センサが搭載されたイヤフォンの一例を表す図である。 センサが搭載された時計の一例を表す図である。 センサが搭載された眼鏡の一例を表す図である。 脈波のpnn50の課題差と、正解率との関係の一例を表す図である。 脈波のpnn50のばらつきの課題差と、正解率との関係の一例を表す図である。 低周波数帯の脈波のpnn50のパワーの課題差と、正解率との関係の一例を表す図である。 脈波のrmssdの課題差と、正解率との関係の一例を表す図である。 脈波のrmssdのばらつきの課題差と、正解率との関係の一例を表す図である。 低周波数帯の脈波のrmssdのパワーの課題差と、正解率との関係の一例を表す図である。 精神性発汗のSCRの個数のばらつきの課題差と、正解率との関係の一例を表す図である。 精神性発汗のSCRの個数の課題差と、正解率との関係の一例を表す図である。 反応時間の中央値の課題差と、正解率との関係の一例を表す図である。 覚醒度と、正解率との関係の一例を表す図である。
 以下、本開示を実施するための形態について、図面を参照して詳細に説明する。
<1.覚醒度について>
 人の覚醒度は、人の集中力に大きく関係している。人は、集中しているとき、集中の対象に対して高い興味・関心を有している。そのため、人の覚醒度を知ることで、人の客観的な興味・関心の度合い(情動)を推定することが可能である。人の覚醒度は、コミュニケーション相手と会話をしている最中の、自身もしくはコミュニケーション相手(以下、「対象生体」と称する。)から得られた生体情報もしくは動作情報に基づいて導出することが可能である。
 対象生体の覚醒度を導出可能な生体情報としては、例えば、脳波、発汗、脈波、心電図、血流、皮膚温度、表情筋電位、眼電、もしくは唾液に含まれる特定成分についての情報が挙げられる。
(脳波)
 脳波に含まれるα波は安静時などのリラックスしたときに増大し、脳波に含まれるβ波は能動的な活発な思考をしているときや集中しているときに増大することが知れられている。そこで、例えば、脳波に含まれるα波の周波数帯域のパワースペクトル面積が所定の閾値th1よりも小さく、かつ、脳波に含まれるβ波の周波数帯域のパワースペクトル面積が所定の閾値th2よりも大きいとき、対象生体の覚醒度が高いと推定することが可能である。
 また、脳波を用いて対象生体の覚醒度を推定する際に、閾値th1,th2の代わりに、機械学習などの推定モデルを用いることも可能である。この推定モデルは、例えば、明らかに覚醒度が高いときの脳波のパワースペクトルを教示データとして学習させたモデルである。この推定モデルは、例えば、脳波のパワースペクトルが入力されると、入力された脳波のパワースペクトルに基づいて対象生体の覚醒度を推定する。この推定モデルは、例えば、ニューラルネットワークを含む。この学習モデルは、例えば、畳み込みニューラルネットワーク(CNN)などのディープニューラルネットワークを含んでいてもよい。
 また、脳波を時間軸において複数のセグメントに分割し、分割したセグメントごとにパワースペクトルを導出し、導出したパワースペクトルごとに、α波の周波数帯域のパワースペクトル面積を導出してもよい。このとき、例えば、導出したパワースペクトル面積が所定の閾値thaよりも小さいとき、対象生体の覚醒度が高いと推定することが可能である。
 また、例えば、導出したパワースペクトル面積に基づいて対象生体の覚醒度を推定する推定モデルを用いて、対象生体の覚醒度を推定することも可能である。この推定モデルは、例えば、明らかに覚醒度が高いときのパワースペクトル面積を教示データとして学習させたモデルである。この推定モデルは、例えば、パワースペクトル面積が入力されると、入力されたパワースペクトル面積に基づいて対象生体の覚醒度を推定する。この推定モデルは、例えば、ニューラルネットワークを含む。この学習モデルは、例えば、畳み込みニューラルネットワーク(CNN)などのディープニューラルネットワークを含んでいてもよい。
(発汗)
 精神性発汗は、ストレスや緊張、不安などの精神的・心理的な問題が原因で、交感神経緊張時に、エクリン腺から放出される発汗である。例えば、発汗計プローブを手掌や足底に装着し,種々の負荷刺激で誘発される手掌または足底の発汗(精神性発汗)を測定することで、交感神経性発汗反応(SSwR)を信号電圧として取得することができる。この信号電圧において、所定の高周波成分や所定の低周波成分の数値が所定の閾値よりも高いとき、対象生体の覚醒度が高いと推定することが可能である。
 また、例えば、この信号電圧に含まれる所定の高周波成分もしくは所定の低周波成分に基づいて対象生体の覚醒度を推定する推定モデルを用いて、対象生体の覚醒度を推定することも可能である。この推定モデルは、例えば、明らかに覚醒度が高いときの信号電圧に含まれる所定の高周波成分もしくは所定の低周波成分を教示データとして学習させたモデルである。この推定モデルは、例えば、所定の高周波成分もしくは所定の低周波成分が入力されると、入力された所定の高周波成分もしくは所定の低周波成分に基づいて対象生体の覚醒度を推定する。この推定モデルは、例えば、ニューラルネットワークを含む。この学習モデルは、例えば、畳み込みニューラルネットワーク(CNN)などのディープニューラルネットワークを含んでいてもよい。
(脈波、心電図、血流)
 心拍数が高いとき、一般的に、覚醒度が高いと言われている。心拍数は、脈波、心電図もしくは血流速度から導出することが可能である。そこで、例えば、脈波、心電図もしくは血流速度から心拍数を導出し、導出した心拍数が所定の閾値よりも大きいとき、対象生体の覚醒度が高いと推定することが可能である。
 また、例えば、脈波、心電図もしくは血流速度から導出した心拍数に基づいて対象生体の覚醒度を推定する推定モデルを用いて、対象生体の覚醒度を推定することも可能である。この推定モデルは、例えば、明らかに覚醒度が高いときの心拍数を教示データとして学習させたモデルである。この推定モデルは、例えば、脈波、心電図もしくは血流速度から導出した心拍数が入力されると、入力された心拍数に基づいて対象生体の覚醒度を推定する。この推定モデルは、例えば、ニューラルネットワークを含む。この学習モデルは、例えば、畳み込みニューラルネットワーク(CNN)などのディープニューラルネットワークを含んでいてもよい。
 また、心拍変動(HRV)が小さいとき、一般的に、副交感神経が劣位となり、覚醒度が高いと言われている。そこで、例えば、脈波、心電図もしくは血流速度から心拍変動(HRV)を導出し、導出した心拍変動(HRV)が所定の閾値よりも小さいとき、対象生体の覚醒度が高いと推定することも可能である。
 また、例えば、脈波、心電図もしくは血流速度から導出した心拍変動(HRV)に基づいて対象生体の覚醒度を推定する推定モデルを用いて、対象生体の覚醒度を推定することも可能である。この推定モデルは、例えば、明らかに覚醒度が高いときの心拍変動(HRV)を教示データとして学習させたモデルである。この推定モデルは、例えば、脈波、心電図もしくは血流速度から導出した心拍変動(HRV)が入力されると、入力された心拍変動(HRV)に基づいて対象生体の覚醒度を推定する。この推定モデルは、例えば、ニューラルネットワークを含む。この学習モデルは、例えば、畳み込みニューラルネットワーク(CNN)などのディープニューラルネットワークを含んでいてもよい。
(皮膚温度)
 皮膚温度が高いとき、一般的に、覚醒度が高いと言われている。皮膚温度は、例えば、サーモグラフィで計測することが可能である。そこで、例えば、サーモグラフィで計測した皮膚温度が所定の閾値よりも高いとき、対象生体の覚醒度が高いと推定することも可能である。
 また、例えば、皮膚温度に基づいて対象生体の覚醒度を推定する推定モデルを用いて、対象生体の覚醒度を推定することも可能である。この推定モデルは、例えば、明らかに覚醒度が高いときの皮膚温度を教示データとして学習させたモデルである。この推定モデルは、例えば、皮膚温度が入力されると、入力された皮膚温度に基づいて対象生体の覚醒度を推定する。この推定モデルは、例えば、ニューラルネットワークを含む。この学習モデルは、例えば、畳み込みニューラルネットワーク(CNN)などのディープニューラルネットワークを含んでいてもよい。
(表情筋電位)
 考え事をしている時に眉をしかめる皺眉筋が高い活動を示すことが知られている。また、幸福な想像をしている時には大頬骨筋が余り変化しないことが知られている。このように、顔の部位に応じて、情動や覚醒度を推定することが可能である。そこで、例えば、所定の部位の表情筋電位を計測し、その計測値が所定の閾値よりも高いとき、対象生体の覚醒度の高低を推定することが可能である。
 また、例えば、表情筋電位に基づいて対象生体の覚醒度を推定する推定モデルを用いて、対象生体の覚醒度を推定することも可能である。この推定モデルは、例えば、明らかに覚醒度が高いときの表情筋電位を教示データとして学習させたモデルである。この推定モデルは、例えば、表情筋電位が入力されると、入力された表情筋電位に基づいて対象生体の覚醒度を推定する。この推定モデルは、例えば、ニューラルネットワークを含む。この学習モデルは、例えば、畳み込みニューラルネットワーク(CNN)などのディープニューラルネットワークを含んでいてもよい。
(眼電)
 眼球の角膜側が正に帯電し、網膜側が負に帯電することを利用して眼球運動を測定する方法が知られている。この計測方法を用いて得られた計測値が眼電図である。例えば、取得した眼電図から眼球運動を推定し、推定した眼球運動が所定の傾向にあるとき、対象生体の覚醒度の高低を推定することが可能である。
 また、例えば、眼電図に基づいて対象生体の覚醒度を推定する推定モデルを用いて、対象生体の覚醒度を推定することも可能である。この推定モデルは、例えば、明らかに覚醒度が高いときの眼電図を教示データとして学習させたモデルである。この推定モデルは、例えば、眼電図が入力されると、入力された眼電図に基づいて対象生体の覚醒度を推定する。この推定モデルは、例えば、ニューラルネットワークを含む。この学習モデルは、例えば、畳み込みニューラルネットワーク(CNN)などのディープニューラルネットワークを含んでいてもよい。
(唾液)
 唾液には、ストレスホルモンの一種であるコルチゾールが含まれている。ストレスを受けると、唾液に含まれるコルチゾールの量が増加することが知られている。そこで、例えば、唾液に含まれるコルチゾールの量が所定の閾値よりも高いとき、対象生体の覚醒度が高いと推定することが可能である。
 また、例えば、唾液に含まれるコルチゾールの量に基づいて対象生体の覚醒度を推定する推定モデルを用いて、対象生体の覚醒度を推定することも可能である。この推定モデルは、例えば、明らかに覚醒度が高いときの唾液に含まれるコルチゾールの量を教示データとして学習させたモデルである。この推定モデルは、例えば、唾液に含まれるコルチゾールの量が入力されると、入力されたコルチゾールの量に基づいて対象生体の覚醒度を推定する。この推定モデルは、例えば、ニューラルネットワークを含む。この学習モデルは、例えば、畳み込みニューラルネットワーク(CNN)などのディープニューラルネットワークを含んでいてもよい。
 一方、対象生体の覚醒度を導出可能な動作情報としては、例えば、顔の表情、音声、瞬き、呼吸、もしくは行動の反応時間についての情報が挙げられる。
(顔の表情)
 考え事をしている時に眉をしかめたり、幸福な想像をしている時に大頬骨筋が余り変化しないことが知られている。このように、顔の表情に応じて、情動や覚醒度を推定することが可能である。そこで、例えば、カメラで顔を撮影し、それにより得られた動画データに基づいて顔の表情を推定し、推定により得られた顔の表情に応じて、対象生体の覚醒度の高低を推定することが可能である。
 また、例えば、顔の表情が撮影された動画データに基づいて対象生体の覚醒度を推定する推定モデルを用いて、対象生体の覚醒度を推定することも可能である。この推定モデルは、例えば、明らかに覚醒度が高いときの顔の表情が撮影された動画データを教示データとして学習させたモデルである。この推定モデルは、例えば、顔の表情が撮影された動画データが入力されると、入力された動画データに基づいて対象生体の覚醒度を推定する。この推定モデルは、例えば、ニューラルネットワークを含む。この学習モデルは、例えば、畳み込みニューラルネットワーク(CNN)などのディープニューラルネットワークを含んでいてもよい。
(音声)
 音声は、顔の表情と同様に、情動や覚醒度に応じて変化することが知られている。そこで、例えば、マイクで音声データを取得し、それにより得られた音声データに基づいて、対象生体の覚醒度の高低を推定することが可能である。
 また、例えば、音声データに基づいて対象生体の覚醒度を推定する推定モデルを用いて、対象生体の覚醒度を推定することも可能である。この推定モデルは、例えば、明らかに覚醒度が高いときの音声データを教示データとして学習させたモデルである。この推定モデルは、例えば、音声データが入力されると、入力された音声データに基づいて対象生体の覚醒度を推定する。この推定モデルは、例えば、ニューラルネットワークを含む。この学習モデルは、例えば、畳み込みニューラルネットワーク(CNN)などのディープニューラルネットワークを含んでいてもよい。
(瞬き)
 瞬きは、顔の表情と同様に、情動や覚醒度に応じて変化することが知られている。そこで、例えば、カメラで瞬きを撮影し、それにより得られた動画データに基づいて瞬きの頻度を計測し、計測により得られた瞬きの頻度に応じて、対象生体の覚醒度の高低を推定することが可能である。また、例えば、眼電図から瞬きの頻度を計測し、計測により得られた瞬きの頻度に応じて、対象生体の覚醒度の高低を推定することも可能である。
 また、例えば、瞬きが撮影された動画データ、もしくは、眼電図に基づいて対象生体の覚醒度を推定する推定モデルを用いて、対象生体の覚醒度を推定することも可能である。この推定モデルは、例えば、明らかに覚醒度が高いときの瞬きが撮影された動画データ、もしくは、眼電図を教示データとして学習させたモデルである。この推定モデルは、例えば、瞬きが撮影された動画データ、もしくは、眼電図が入力されると、入力された動画データ、もしくは、眼電図に基づいて対象生体の覚醒度を推定する。この推定モデルは、例えば、ニューラルネットワークを含む。この学習モデルは、例えば、畳み込みニューラルネットワーク(CNN)などのディープニューラルネットワークを含んでいてもよい。
(呼吸)
 呼吸は、顔の表情と同様に、情動や覚醒度に応じて変化することが知られている。そこで、例えば、呼吸量もしくは呼吸速度を計測し、それにより得られた計測データに基づいて、対象生体の覚醒度の高低を推定することが可能である。
 また、例えば、呼吸量もしくは呼吸速度に基づいて対象生体の覚醒度を推定する推定モデルを用いて、対象生体の覚醒度を推定することも可能である。この推定モデルは、例えば、明らかに覚醒度が高いときの呼吸量もしくは呼吸速度を教示データとして学習させたモデルである。この推定モデルは、例えば、呼吸量もしくは呼吸速度が入力されると、入力された呼吸量もしくは呼吸速度に基づいて対象生体の覚醒度を推定する。この推定モデルは、例えば、ニューラルネットワークを含む。この学習モデルは、例えば、畳み込みニューラルネットワーク(CNN)などのディープニューラルネットワークを含んでいてもよい。
(行動の反応時間)
 人が複数のタスクを順次処理する際の処理時間(反応時間)や、処理時間(反応時間)のばらつきは、その人の覚醒度に因ることが知られている。そこで、例えば、処理時間(反応時間)や、処理時間(反応時間)のばらつきを計測し、それにより得られた計測データに基づいて、対象生体の覚醒度の高低を推定することが可能である。
 図12、図13は、ユーザが多数の問題を連続して解いたときの、ユーザが回答に要した時間(反応時間)をグラフで表したものである。図12には、難易度が相対的に低い問題を解いたときのグラフが表されており、図13には、難易度が相対的に高い問題を解いたときのグラフが表されている。図14は、ユーザが多数の低難易度の問題を連続して解いたときの、ユーザの脳波(α波)の観測データに対してFFT(Fast Fourier Transform)を行うことにより得られるパワースペクトラム密度である。図15は、ユーザが多数の高難易度の問題を連続して解いたときの、ユーザの脳波(α波)の観測データに対してFFTを行うことにより得られるパワースペクトラム密度である。図14、図15には、20秒程度のセグメントで脳波(α波)を計測し、200秒程度の解析窓でFFTを行うことにより得られたグラフが表されている。
 図12、図13から、高難易度の問題を解いたときの方が、低難易度の問題を解いたときと比べて、反応時間が長くなるだけでなく、反応時間のばらつきも大きくなることがわかる。図14、図15から、高難易度の問題を解いたときの方が、低難易度の問題を解いたときと比べて、0.01Hz付近の脳波(α波)のパワーが大きく、0.02~0.04付近の脳波(α波)のパワーが小さくなることがわかる。本明細書では、0.01Hz付近の脳波(α波)のパワーを適宜、「遅い(低周波数帯の)脳波(α波)の揺らぎ」と称する。
 図16は、高難易度の問題を解いたときと、低難易度の問題を解いたときの、ユーザの反応時間のばらつき(75%percentile-25%percentile)の課題差Δtv[s]と、高難易度の問題を解いたときと、低難易度の問題を解いたときの、ユーザの遅い脳波(α波)のパワーのピーク値の課題差ΔP[(mV2/Hz)2/Hz]との関係の一例を表したものである。課題差Δtv[s]は、高難易度の問題を解いたときの、ユーザの反応時間のばらつきから、低難易度の問題を解いたときの、ユーザの反応時間のばらつきを減算することにより得られるベクトル量である。課題差ΔPは、高難易度の問題を解いたときの、ユーザの遅い脳波(α波)のパワーのピーク値から、低難易度の問題を解いたときの、ユーザの遅い脳波(α波)のパワーのピーク値を減算することにより得られるベクトル量である。なお、反応時間のばらつきの種類は、75%percentile-25%percentileに限られるものではなく、例えば、標準偏差であってもよい。
 図17は、高難易度の問題を解いたときと、低難易度の問題を解いたときの、ユーザの反応時間のばらつき(75%percentile-25%percentile)の課題差Δtv[s]と、高難易度の問題を解いたときと、低難易度の問題を解いたときの、問題の正解率の課題差ΔR[%]との関係の一例を表したものである。課題差ΔRは、高難易度の問題を解いたときの正解率から、低難易度の問題を解いたときの正解率を減算することにより得られるベクトル量である。なお、反応時間のばらつきの種類は、75%percentile-25%percentileに限られるものではなく、例えば、標準偏差であってもよい。
 図16、図17には、ユーザごとのデータがプロットされており、ユーザ全体の特徴が回帰式(回帰直線)で表されている。図16において、回帰式は、ΔP=a1×Δtv+b1で表されており、図17において、回帰式は、ΔR=a2×Δtv+b2で表されている。
 反応時間のばらつきの課題差Δtvが小さいということは、高難易度の問題を解いたときと、低難易度の問題を解いたときとで、反応時間のばらつきの差分が小さいことを意味する。このような結果が得られたユーザには、問題の難易度が高くなると、問題を解く時間のばらつきの課題差が他のユーザと比べて小さくなる傾向があると言える。一方、反応時間のばらつきの課題差Δtvが大きいということは、高難易度の問題を解いたときと、低難易度の問題を解いたときとで、反応時間のばらつきの差分が大きいことを意味する。このような結果が得られたユーザには、問題の難易度が高くなると、問題を解く時間のばらつきの課題差が他のユーザと比べて大きくなる傾向があると言える。
 図16から、反応時間のばらつきの課題差Δtvが小さいとき、遅い脳波(α波)のパワーのピーク値の課題差ΔPが大きくなり、反応時間のばらつきの課題差Δtvが大きいとき、遅い脳波(α波)のパワーのピーク値の課題差ΔPが小さくなることがわかる。このことから、難しい問題でも、簡単な問題と同じ程度の反応時間で回答できる人は、遅い脳波(α波)のパワーのピーク値の課題差ΔPが大きくなる傾向を有することがわかる。逆に、難しい問題で反応時間のばらつきが大きくなる人は、遅い脳波(α波)のパワーのピーク値の課題差ΔPが、問題の難易度に依らず、あまり変化しない傾向を有することがわかる。
 図17から、反応時間のばらつきの課題差Δtvが大きいとき、問題の正解率の課題差ΔRが小さくなり、反応時間のばらつきの課題差Δtvが小さいとき、問題の正解率の課題差ΔRが大きくなることがわかる。このことから、難しい問題で反応時間のばらつきが大きくなる人は、正解率の課題差ΔRが小さくなる(つまり、難しい問題の正解率が下がる)傾向を有することがわかる。逆に、難しい問題でも反応時間のばらつきが小さい人は、正解率の課題差ΔRが大きくなる(つまり、難しい問題でも、簡単な問題と同程度に正解できる)傾向を有することがわかる。
 以上のことから、反応時間のばらつきの課題差Δtvが大きいときは、ユーザの認知容量(cognitive resource)が所定の基準よりも低くなっていると推察することが可能となる。また、反応時間のばらつきの課題差Δtvが小さいときは、ユーザの認知容量が所定の基準よりも高くなっていると推察することが可能となる。ユーザの認知容量が所定の基準よりも低くなっている場合、ユーザにとって問題の難易度が高すぎる可能性がある。一方、ユーザの認知容量が所定の基準よりも高くなっている場合、ユーザにとって問題の難易度が低すぎる可能性がある。
 図18は、高難易度の問題を解いたときと、低難易度の問題を解いたときの、ユーザの覚醒度の課題差Δk[%]と、高難易度の問題を解いたときと、低難易度の問題を解いたときの、ユーザの遅い脳波(α波)のパワーのピーク値の課題差ΔP[(mV2/Hz)2/Hz]との関係の一例を表したものである。図19は、高難易度の問題を解いたときと、低難易度の問題を解いたときの、ユーザの覚醒度の課題差Δk[%]と、高難易度の問題を解いたときと、低難易度の問題を解いたときの、問題の正解率の課題差ΔR[%]との関係の一例を表したものである。課題差Δk[%]は、高難易度の問題を解いたときのユーザの覚醒度から、低難易度の問題を解いたときのユーザの覚醒度を減算することにより得られるベクトル量である。覚醒度は、例えば、上述の、脳波を用いて覚醒度を推定する推定モデルを利用することにより得られる。
 図18、図19には、ユーザごとのデータがプロットされており、ユーザ全体の特徴が回帰式(回帰直線)で表されている。図18において、回帰式は、ΔP=a3×Δk+b3で表されており、図19において、回帰式は、ΔR=a4×Δk+b4で表されている。
 図16~図19から、反応時間のばらつきの課題差Δtvと、覚醒度の課題差Δkとが対応関係にあることがわかる。従って、反応時間のばらつきの課題差Δtvを計測することにより、覚醒度の課題差Δkを推定することが可能であることがわかる。
 図20は、高難易度の問題を解いたときのユーザの反応時間のばらつき(75%percentile-25%percentile)tv[s]と、高難易度の問題を解いたときの、問題の正解率R[%]との関係の一例を表したものである。図20には、ユーザごとのデータがプロットされており、ユーザ全体の特徴が回帰式(回帰直線)で表されている。図20において、回帰式は、R=a5×tv+b5で表されている。
 図21は、高難易度の問題を解いたときのユーザの覚醒度k[%]と、高難易度の問題を解いたときの問題の正解率のR[%]との関係の一例を表したものである。図21には、ユーザごとのデータがプロットされており、ユーザ全体の特徴が回帰式(回帰直線)で表されている。図21において、回帰式は、R=a6×k+b6で表されている。
 図20、図21から、反応時間のばらつきtvと、覚醒度kとが対応関係にあることがわかる。従って、反応時間のばらつきtvを計測することにより、覚醒度kを推定することが可能であることがわかる。
<2.快・不快について>
 人の快・不快は、人の覚醒度と同様、人の集中力に大きく関係している。人は、集中しているとき、集中の対象に対して高い興味・関心を有している。そのため、人の快・不快を知ることで、人の客観的な興味・関心の度合い(情動)を推定することが可能である。人の快・不快は、コミュニケーション相手と会話をしている最中の、自身もしくはコミュニケーション相手(以下、「対象生体」と称する。)から得られた生体情報もしくは動作情報に基づいて導出することが可能である。
 対象生体の快・不快を導出可能な生体情報としては、例えば、脳波、発汗についての情報が挙げられる。また、対象生体の快・不快を導出可能な動作情報としては、例えば、顔の表情が挙げられる。
(脳波)
 脳波に含まれるα波の、前頭部の左右差から人の快・不快を推定可能であることが知られている。そこで、例えば、前頭部の左側で得られる脳波に含まれるα波(以下、「左側α波」と称する。)と、前頭部の右側で得られる脳波に含まれるα波(以下、「右側α波」と称する。)とを対比したとする。そのとき、左側α波が右側α波よりも低いとき、対象生体は快を感じており、左側α波が右側α波よりも高いとき、対象生体は不快を感じていると推定することが可能である。
 また、脳波を用いて対象生体の快・不快を推定する際に、脳波に含まれるα波の、前頭部の左右差を導出する代わりに、機械学習などの推定モデルを用いることも可能である。この推定モデルは、例えば、対象生体が明らかに快を感じているときの脳波に含まれるα波もしくはβ波を教示データとして学習させたモデルである。この推定モデルは、例えば、脳波に含まれるα波もしくはβ波が入力されると、入力されたα波もしくはβ波に基づいて対象生体の快・不快を推定する。この推定モデルは、例えば、ニューラルネットワークを含む。この学習モデルは、例えば、畳み込みニューラルネットワーク(CNN)などのディープニューラルネットワークを含んでいてもよい。
(発汗)
 精神性発汗は、ストレスや緊張、不安などの精神的・心理的な問題が原因で、交感神経緊張時に、エクリン腺から放出される発汗である。例えば、発汗計プローブを手掌や足底に装着し,種々の負荷刺激で誘発される手掌または足底の発汗(精神性発汗)を測定することで、交感神経性発汗反応(SSwR)を信号電圧として取得することができる。この信号電圧において、左手から得られた所定の高周波成分や所定の低周波成分の数値が右手から得られた所定の高周波成分や所定の低周波成分の数値よりも高いとき、対象生体は快を感じていると推定することが可能である。また、上記信号電圧において、左手から得られた所定の高周波成分や所定の低周波成分の数値が右手から得られた所定の高周波成分や所定の低周波成分の数値よりも低いとき、対象生体は不快を感じていると推定することが可能である。また、この信号電圧において、左手から得られた振幅値が右手から得られた振幅値よりも高いとき、対象生体は快を感じていると推定することが可能である。また、上記信号電圧において、左手から得られた振幅値が右手から得られた振幅値よりも低いとき、対象生体は不快を感じていると推定することが可能である。
 また、例えば、この信号電圧に含まれる所定の高周波成分もしくは所定の低周波成分に基づいて対象生体の覚醒度を推定する推定モデルを用いて、対象生体の覚醒度を推定することも可能である。この推定モデルは、例えば、明らかに覚醒度が高いときの信号電圧に含まれる所定の高周波成分もしくは所定の低周波成分を教示データとして学習させたモデルである。この推定モデルは、例えば、所定の高周波成分もしくは所定の低周波成分が入力されると、入力された所定の高周波成分もしくは所定の低周波成分に基づいて対象生体の覚醒度を推定する。この推定モデルは、例えば、ニューラルネットワークを含む。この学習モデルは、例えば、畳み込みニューラルネットワーク(CNN)などのディープニューラルネットワークを含んでいてもよい。
(顔の表情)
 不快な気持ちの時に眉をしかめたり、快の気持ちの時に大頬骨筋が余り変化しないことが知られている。このように、顔の表情に応じて、快・不快を推定することが可能である。そこで、例えば、カメラで顔を撮影し、それにより得られた動画データに基づいて顔の表情を推定し、推定により得られた顔の表情に応じて、対象生体の快・不快を推定することが可能である。
 また、例えば、顔の表情が撮影された動画データに基づいて対象生体の快・不快を推定する推定モデルを用いて、対象生体の快・不快を推定することも可能である。この推定モデルは、例えば、明らかに覚醒度が高いときの顔の表情が撮影された動画データを教示データとして学習させたモデルである。この推定モデルは、例えば、顔の表情が撮影された動画データが入力されると、入力された動画データに基づいて対象生体の快・不快を推定する。この推定モデルは、例えば、ニューラルネットワークを含む。この学習モデルは、例えば、畳み込みニューラルネットワーク(CNN)などのディープニューラルネットワークを含んでいてもよい。
・脳波の周波数成分については、例えば、下記の文献に記載されている。
 Wang, Xiao-Wei, Dan Nie, and Bao-Liang Lu. "EEG-based emotion recognition using frequency domain features and support vector machines." International conference on neural information processing. Springer, Berlin, Heidelberg, 2011.
・脳波を用いた推定モデルについては、例えば、下記の文献に記載されている。
 特願2020-203058
・発汗については、例えば、下記の文献に記載されている。
 Jing Zhai, A. B. Barreto, C. Chin and Chao Li, "Realization of stress detection using psychophysiological signals for improvement of human-computer interactions," Proceedings. IEEE SoutheastCon, 2005., Ft. Lauderdale, FL, USA, 2005, pp. 415-420, doi: 10.1109/SECON.2005.1423280.
 Boucsein, Wolfram. Electrodermal activity. Springer Science & Business Media, 2012.
・心拍数については、例えば、下記の文献に記載されている。
 Veltman, J. A., and A. W. K. Gaillard. "Physiological indices of workload in a
simulated flight task." Biological psychology 42.3 (1996): 323-342.
・心拍変動間隔については、例えば、下記の文献に記載されている。
 Appelhans, Bradley M., and Linda J. Luecken. "Heart rate variability as an index of regulated emotional responding." Review of general psychology 10.3 (2006):
229-240.
・唾液コルチゾール量については、例えば、下記の文献に記載されている。
 Lam, Suman, et al. "Emotion regulation and cortisol reactivity to a social-evaluative speech task." Psychoneuroendocrinology 34.9 (2009): 1355-1362.
・顔の表情については、例えば、下記の文献に記載されている。
 Lyons, Michael J., Julien Budynek, and Shigeru Akamatsu. "Automatic classification of single facial images." IEEE transactions on pattern analysis and machine
intelligence 21.12 (1999): 1357-1362.
・表情筋については、例えば、下記の文献に記載されている。
 Ekman, Paul. "Facial action coding system." (1977).
・瞬き頻度については、例えば、下記の文献に記載されている。
 Chen, Siyuan, and Julien Epps. "Automatic classification of eye activity for cognitive load measurement with emotion interference." Computer methods and programs in biomedicine 110.2 (2013): 111-124.
・呼吸量/呼吸速度については、例えば、下記の文献に記載されている。
 Zhang Q., Chen X., Zhan Q., Yang T., Xia S. Respiration-based emotion recognition with deep learning. Comput. Ind. 2017;92-93:84-90. doi: 10.1016/j.compind.2017.04.005.
・皮膚表面温度については、例えば、下記の文献に記載されている。
 Nakanishi R., Imai-Matsumura K. Facial skin temperature decreases in infants with joyful expression. Infant Behav. Dev. 2008;31:137-144. doi: 10.1016/j.infbeh.2007.09.001.
・マルチモーダルについては、例えば、下記の文献に記載されている。
 Choi J.-S., Bang J., Heo H., Park K. Evaluation of Fear Using Nonintrusive Measurement of Multimodal Sensors. Sensors. 2015;15:17507-17533. doi: 10.3390/s150717507.
 以下に、上述した覚醒度や快・不快の導出アルゴリズムを利用した情報処理システムの実施形態について説明する。
<3.第1の実施の形態>
[構成]
 本開示の第1の実施の形態に係る情報処理システム100について説明する。図1は、情報処理システム100の概略構成例を表したものである。情報処理システム100は、対象生体から得られた生体情報および動作情報の少なくとも1つに基づいて対象生体の情動情報を推定するシステムである。本実施の形態では、対象生体は、人である。なお、情報処理システム100において、対象生体は、人に限られるものではない。
 情報処理システム100は、複数の電子機器10を備えている。複数の電子機器10は、ネットワーク30を介して互いにデータの送受信が可能となるように接続されている。情報処理システム100は、さらに、複数の生体センサ20を備えている。複数の生体センサ20は、電子機器10ごとに1つずつ割り当てられており、各生体センサ20は電子機器10に接続されている。ネットワーク30は、無線方式または有線方式の通信手段であり、例えば、インターネット、WAN(Wide Area Network)、LAN(Local Area Network)、公衆通信網、専用線等である。
 生体センサ20は、例えば、対象生体に接触するタイプのセンサであってもよいし、対象生体に非接触のセンサであってもよい。生体センサ20は、例えば、脳波、発汗、脈波、心電図、血流、皮膚温度、表情筋電位、眼電、および唾液に含まれる特定成分のうち、少なくとも1つについての情報(生体情報)を取得するセンサである。生体センサ20は、例えば、顔の表情、音声、瞬き、呼吸、もしくは行動の反応時間のうち、少なくとも1つについての情報(動作情報)を取得するセンサであってもよい。生体センサ20は、例えば、脳波、発汗のうち、少なくとも1つについての情報(生体情報)を取得するセンサであってもよい。生体センサ20は、例えば、顔の表情についての情報(動作情報)を取得するセンサであってもよい。生体センサ20は、例えば、上述の生体情報および上述の動作情報の少なくとも1つの情報を取得するセンサであってもよい。生体センサ20は、取得した情報(上述の生体情報および上述の行動情報の少なくとも1つの情報)を電子機器10に出力する。
 電子機器10は、例えば、図2に示したように、カメラ11、マイク12、センサ入力受付部13、ユーザ入力受付部14,信号処理部15、記憶部16、映像信号生成部17a、音声信号生成部17b、映像表示部18aおよびスピーカ18bを備えている。カメラ11が本開示の「撮像部」の一具体例に相当する。信号処理部15が本開示の「推定部」「第1推定部」「第2推定部」「取得部」「関連付け部」の一具体例に相当する。記憶部16が本開示の「記憶部」の一具体例に相当する。映像表示部18aが本開示の「表示部」の一具体例に相当する。
 カメラ11は、例えば、CCD(Charge Coupled Device)イメージセンサやCMOS(Complementary Metal Oxide Semiconductor)イメージセンサなどを含んで構成されている。カメラ11は、信号処理部15の制御に従って撮像を行い、撮像により得られた画像データを信号処理部15に出力する。カメラ11は、電子機器10の表示を視認するユーザ(対象生体)の顔の動画を、表示面10aに隣接して設けられたカメラレンズ11bを介して取得する。カメラレンズ11bは、例えば、表示面10a上端辺の中央付近に配置されている。マイク12は、例えば、音声を検出するマイクロフォンなどを含んで構成されている。マイク12は、信号処理部15の制御に従って音声検出を行い、音声検出により得られた音声データを信号処理部15に出力する。
 センサ入力受付部13は、生体センサ20からの入力を受け付け、信号処理部15に出力する。生体センサ20からの入力としては、上述の生体情報および上述の行動情報の少なくとも1つである。センサ入力受付部13は、例えば、生体センサ20と通信を行うことの可能なインターフェースで構成されている。ユーザ入力受付部14は、ユーザからの入力を受け付け、信号処理部15に出力する。ユーザからの入力としては、例えば、対象生体の属性情報(例えば氏名など)や、情動推定開始指示が挙げられる。ユーザ入力受付部14は、例えば、キーボードやマウス、タッチパネルなどの入力インターフェースで構成されている。
 記憶部16は、例えば、DRAM(Dynamic Random Access Memory)などの揮発性メモリ、または、EEPROM(Electrically Erasable Programmable Read-Only Memory)やフラッシュメモリなどの不揮発性メモリである。記憶部16には、対象生体の情動を推定する情報処理プログラム16aが記憶されている。さらに、記憶部16には、情報処理プログラム16aによる処理により得られる識別子16b、情動情報16cおよびコンテキスト16dが記憶される。情報処理プログラム16aにおける処理内容については、後に詳述する。
 識別子16bは、対象生体を識別するための数値データであり、例えば、対象生体ごとに付与される識別番号となっている。識別子16bは、例えば、対象生体から、対象生体の属性情報が入力されたタイミングで生成される。情動情報16cは、生体センサ20からの入力(検出信号)に基づいて導出される情動についての情報である。情動情報16cは、例えば、図3に示したように、時間の経過とともに変化する覚醒度および快不快の少なくとも一方についての数値データである。
 コンテキスト16dは、対象生体の動作および会話の少なくとも一方についての情報である。コンテキスト16dは、例えば、ネットワーク30に接続された複数の電子機器10の各々のユーザのうち、少なくとも一人の動作および会話の少なくとも一方についての情報である。コンテキスト16dは、例えば、図3に示したように、対象生体の視線についての情報、または、対象生体の音声についての情報である。対象生体の視線についての情報は、カメラ11によって得られた画像データから導出することが可能であり、カメラ11による撮像期間(センシング期間)における非音声のコンテキストに該当する。対象生体の音声についての情報は、マイク12によって得られた音声データから導出することが可能であり、マイク12による音声検出期間(センシング期間)における音声のコンテキストに該当する。
 映像信号生成部17aは、信号処理部15から入力された画像データを表示するための映像信号を生成し、映像表示部18aに出力する。映像表示部18aは、映像信号生成部17aから入力された映像信号に基づいて映像を表示する。映像表示部18aは、対象生体の情動情報16c(上述の覚醒度および上述の快不快の少なくとも一方)を表示する。音声信号生成部17bは、信号処理部15から入力された音声データを出力するための音声信号を生成し、スピーカ18bに出力する。スピーカ18bは、音声信号生成部17bから入力された音声信号に基づいて音声を出力する。
 信号処理部15は、例えば、プロセッサによって構成されている。信号処理部15は、記憶部16に記憶された情報処理プログラム16aを実行する。信号処理部15の機能は、例えば、信号処理部15によって情報処理プログラム16aが実行されることによって実現される。信号処理部15は、対象生体の情動推定に必要な一連の処理を実行する。
 信号処理部15は、生体センサ20によって得られた対象生体の上述の生体情報および上述の動作情報の少なくとも1つに基づいて、対象生体の情動情報16c(上述の覚醒度および上述の快不快の少なくとも一方)を推定する。信号処理部15は、推定により得られた情動情報16cを記憶部16に格納する。信号処理部15は、対象生体の識別子16bを生成し、生成した識別子16bと、推定により得られた情動情報16cとを互いに関連付けて記憶部16に格納する。
 例えば、Aさん、Bさん、Cさんのそれぞれが、ネットワーク30に接続された電子機器10を利用しているとする。このとき、Cさんが利用する電子機器10(信号処理部15)は、Aさんが利用する電子機器10から、Aさんの情動情報16cと、Aさんの識別子16bとを取得する。さらに、Cさんが利用する電子機器10(信号処理部15)は、Bさんが利用する電子機器10から、Bさんの情動情報16cと、Bさんの識別子16bとを取得する。さらに、Cさんが利用する電子機器10(信号処理部15)は、Cさんが利用する電子機器10に接続された生体センサ20を用いて、Cさんの情動情報16cを取得するとともに、Cさんの識別子16bを取得する。
 Cさんが利用する電子機器10において、信号処理部15は、例えば、Aさんの情動情報16c、Bさんの情動情報16cおよびCさんの情動情報16cをグラフィカルな情動情報に変換する。信号処理部15は、例えば、Aさんの情動情報16c、Bさんの情動情報16cおよびCさんの情動情報16cを、横軸を時間とし、縦軸を情動情報とするグラフで表現した画像データを生成する。Cさんが利用する電子機器10において、映像表示部18aは、信号処理部15で生成された、グラフィカルな情動情報を含む画像データに基づく映像信号を生成し、映像表示部18aに出力する。映像表示部18aは、例えば、図3に示したように、Aさん、BさんおよびCさんのそれぞれの情動情報16cを表示面10aに一緒に表示する。
 信号処理部15は、例えば、カメラ11で得られた画像データ(動画データ)に基づいて、カメラ11による撮像期間(センシング期間)における非音声のコンテキスト16dを取得する。信号処理部15は、例えば、カメラ11で得られた画像データ(動画データ)に基づいて、対象生体の視線についての情報を取得する。信号処理部15は、対象生体の識別子16bと、取得した非音声のコンテキスト16d(例えば、対象生体の視線についての情報)と互いに関連付けて記憶部16に格納する。
 信号処理部15は、例えば、動画データa1に基づいて、動画データa1に含まれる対象生体の眼球の向きから、表示面10aにおける、対象生体の注視位置を検出する。その結果、対象生体の注視位置が表示面10aにおける、他の電子機器10のユーザが写る動画の表示窓内にあるとき、信号処理部15は、対象生体が他の電子機器10のユーザを注視していることを意味するデータを、対象生体の視線データとして生成する。信号処理部15は、生成した対象生体の視線データを、非音声のコンテキスト16dとして、対象生体の識別子16bと一緒に記憶部16に格納する。
 例えば、Aさん、Bさん、Cさんのそれぞれが、ネットワーク30に接続された電子機器10を利用しているとする。このとき、Aさんが利用する電子機器10において、カメラ11は、Aさんの顔の動画データ(以下、「動画データa1」と称する。)を取得し、信号処理部15に出力する。信号処理部15は、動画データa1に基づいて、動画データa1に含まれるAさんの眼球の向きから、表示面10aにおける、Aさんの注視位置を検出する。その結果、Aさんの注視位置が表示面10aにおける、Bさんが写る動画の表示窓10a-2内にあるとき、信号処理部15は、AさんがBさんを注視していることを意味するデータを、Aさんの視線データとして生成する。また、Aさんの注視位置が表示面10aにおける、Cさんが写る動画の表示窓10a-3内にあるとき、信号処理部15は、AさんがCさんを注視していることを意味するデータを、Aさんの視線データとして生成する。信号処理部15は、生成したAさんの視線データを、非音声のコンテキスト16dとして、Aさんの識別子16bと一緒に記憶部16に格納する。信号処理部15は、さらに、Aさんの識別子16bと、非音声のコンテキスト16dとを、通信部19およびネットワーク30を介して、BさんおよびCさんの電子機器10に送信する。
 また、Bさんが利用する電子機器10において、カメラ11は、Bさんの顔の動画データ(以下、「動画データa2」と称する。)を取得し、信号処理部15に出力する。信号処理部15は、動画データa2に基づいて、動画データa2に含まれるBさんの眼球の向きから、表示面10aにおける、Bさんの注視位置を検出する。その結果、Bさんの注視位置が表示面10aにおける、Aさんが写る動画の表示窓10a-1内にあるとき、信号処理部15は、BさんがAさんを注視していることを意味するデータを、Bさんの視線データとして生成する。また、Bさんの注視位置が表示面10aにおける、Cさんが写る動画の表示窓10a-3内にあるとき、信号処理部15は、BさんがCさんを注視していることを意味するデータを、Bさんの視線データとして生成する。信号処理部15は、生成したBさんの視線データを、非音声のコンテキスト16dとして、Bさんの識別子16bと一緒に記憶部16に格納する。信号処理部15は、さらに、Bさんの識別子16bと、非音声のコンテキスト16dとを、通信部19およびネットワーク30を介して、AさんおよびCさんの電子機器10に送信する。
 また、Cさんが利用する電子機器10において、カメラ11は、Cさんの顔の動画データ(以下、「動画データa3」と称する。)を取得し、信号処理部15に出力する。信号処理部15は、動画データa3に基づいて、動画データa3に含まれるCさんの眼球の向きから、表示面10aにおける、Cさんの注視位置を検出する。その結果、Cさんの注視位置が表示面10aにおける、Aさんが写る動画の表示窓10a-1内にあるとき、信号処理部15は、CさんがAさんを注視していることを意味するデータを、Cさんの視線データとして生成する。また、Cさんの注視位置が表示面10aにおける、Bさんが写る動画の表示窓10a-2内にあるとき、信号処理部15は、CさんがBさんを注視していることを意味するデータを、Cさんの視線データとして生成する。信号処理部15は、生成したCさんの視線データを、非音声のコンテキスト16dとして、Cさんの識別子16bと一緒に記憶部16に格納する。信号処理部15は、さらに、Cさんの識別子16bと、非音声のコンテキスト16dとを、通信部19およびネットワーク30を介して、AさんおよびBさんの電子機器10に送信する。
 Cさんが利用する電子機器10において、信号処理部15は、Aさんが利用する電子機器10から、Aさんの識別子16bと、Aさんの非音声のコンテキスト16dとを取得する。Cさんが利用する電子機器10において、信号処理部15は、さらに、Bさんが利用する電子機器10から、Bさんの識別子16bと、Bさんの非音声のコンテキスト16dとを取得する。信号処理部15は、Aさんの識別子16bと、Aさんの非音声のコンテキスト16dと、Bさんの識別子16bと、Bさんの非音声のコンテキスト16dとを記憶部16に格納する。Cさんが利用する電子機器10において、信号処理部15は、Aさん、BさんおよびCさんの非音声のコンテキスト16dを、例えば図3に示したようなグラフィカルなデータに変換する。Cさんが利用する電子機器10において、映像信号生成部17aは、Aさん、BさんおよびCさんのそれぞれの情動情報16cと、Aさん、BさんおよびCさんのグラフィカルな非音声のコンテキスト16dとを含む画像データに基づく映像信号を生成し、映像表示部18aに出力する。映像表示部18aは、例えば、図3に示したように、Aさん、BさんおよびCさんのそれぞれの情動情報16cと、Aさん、BさんおよびCさんのグラフィカルな非音声のコンテキスト16dを表示面10aに一緒に表示する。図3には、非音声のコンテキスト16d(視線データ)のグラフィカル表示として、コミュニケーション相手を注視している期間を着色して表現した棒グラフが例示されている。
 信号処理部15は、例えば、マイク12で得られた音声データに基づいて、マイク12による音声検出期間(センシング期間)における音声のコンテキスト16dを取得する。信号処理部15は、例えば、マイク12で得られた音声データに基づいて、対象生体の音声についての情報を取得する。信号処理部15は、対象生体の識別子16bと、取得した音声のコンテキスト16d(例えば、対象生体の音声についての情報)と互いに関連付けて記憶部16に格納する。
 例えば、Aさん、Bさん、Cさんのそれぞれが、ネットワーク30に接続された電子機器10を利用しているとする。このとき、Aさんが利用する電子機器10において、マイク12は、Aさんの音声データ(以下、「音声データa2」と称する。)を取得し、信号処理部15に出力する。信号処理部15は、取得したAさんの音声データa2を、音声のコンテキスト16dとして、Aさんの識別子16bと一緒に記憶部16に格納する。信号処理部15は、さらに、Aさんの識別子16bと、音声のコンテキスト16dとを、通信部19およびネットワーク30を介して、BさんおよびCさんの電子機器10に送信する。
 また、Bさんが利用する電子機器10において、マイク12は、Bさんの音声データ(以下、「音声データb2」と称する。)を取得し、信号処理部15に出力する。信号処理部15は、取得したBさんの音声データb2を、音声のコンテキスト16dとして、Bさんの識別子16bと一緒に記憶部16に格納する。信号処理部15は、さらに、Bさんの識別子16bと、音声のコンテキスト16dとを、通信部19およびネットワーク30を介して、AさんおよびCさんの電子機器10に送信する。
 また、Cさんが利用する電子機器10において、マイク12は、Cさんの音声データ(以下、「音声データc2」と称する。)を取得し、信号処理部15に出力する。信号処理部15は、取得したCさんの音声データc2を、音声のコンテキスト16dとして、Cさんの識別子16bと一緒に記憶部16に格納する。信号処理部15は、さらに、Cさんの識別子16bと、音声のコンテキスト16dとを、通信部19およびネットワーク30を介して、AさんおよびBさんの電子機器10に送信する。
 Cさんが利用する電子機器10において、信号処理部15は、Aさんが利用する電子機器10から、Aさんの識別子16bと、Aさんの音声のコンテキスト16dとを取得する。Cさんが利用する電子機器10において、信号処理部15は、さらに、Bさんが利用する電子機器10から、Bさんの識別子16bと、Bさんの音声のコンテキスト16dとを取得する。信号処理部15は、Aさんの識別子16bと、Aさんの音声のコンテキスト16dと、Bさんの識別子16bと、Bさんの音声のコンテキスト16dとを記憶部16に格納する。Cさんが利用する電子機器10において、信号処理部15は、Aさん、BさんおよびCさんの音声のコンテキスト16dを、例えば図3に示したようなグラフィカルなデータに変換する。Cさんが利用する電子機器10において、映像信号生成部17aは、Aさん、BさんおよびCさんのそれぞれの情動情報16cと、Aさん、BさんおよびCさんのグラフィカルな音声のコンテキスト16dとを含む画像データに基づく映像信号を生成し、映像表示部18aに出力する。映像表示部18aは、例えば、図3に示したように、Aさん、BさんおよびCさんのそれぞれの情動情報16cと、Aさん、BさんおよびCさんのグラフィカルな音声のコンテキスト16dを表示面10aに一緒に表示する。図3には、音声のコンテキスト16d(音声データ)のグラフィカル表示として、発話している期間を着色して表現した棒グラフが例示されている。
 Cさんが利用する電子機器10において、信号処理部15は、音声のコンテキスト16d(音声データ)と、非音声のコンテキスト16d(視線データ)と、情動情報16cとに基づいて、Cさんへのメッセージ10bを生成してもよい。例えば、音声のコンテキスト16d(音声データ)において、Cさんが発話しているときに、非音声のコンテキスト16d(視線データ)において、AさんがCさんを注視しており、さらに、Aさんの情動情報16cが高い値となっているとする。このとき、Aさんは、Cさんに何らかの興味、関心を有していると考えられる。そこで、信号処理部15は、例えば、メッセージ10bとして、例えば、「Aさんがあなたを見ています。Aさんを見て話してみてください」というテキストデータを生成してもよい。
 なお、Cさんが利用する電子機器10において、信号処理部15は、非音声のコンテキスト16d(視線データ)に基づいて、AさんがCさんを注視した回数やトータルの時間を算出してもよい。このとき、AさんがCさんを注視した回数やトータルの時間が所定の閾値を超えたとき、信号処理部15は、例えば、メッセージ10bとして、例えば、「Aさんはあなたに興味、関心があるようです。Aさんに話しかけてみてください」というテキストデータを生成してもよい。また、信号処理部15は、AさんがCさんを注視した回数やトータルの時間や、BさんがCさんを注視した回数やトータルの時間を算出し、記憶部24に格納してもよい。
 Cさんが利用する電子機器10において、映像信号生成部17aは、信号処理部15で生成されたメッセージ10bを含む画像データを生成し、映像表示部18aに出力してもよい。このとき、映像表示部18aは、例えば、図3に示したように、表示面10aのうちカメラレンズ11a寄りの箇所にメッセージ10bを表示してもよい。このとき、Cさんは、目線をカメラレンズ11aの近傍を視認するだけで、メッセージ10bを視認することが可能である。これにより、Cさんはメッセージ10bを視認するために目線を逸らすなどの不自然な動きをする必要がない。その結果、Cさんは、AさんやBさんと自然な会話をしながらメッセージ10bを視認し、メッセージ10bを参考にした動作や会話を行うことが可能となる。
 Cさんが利用する電子機器10において、音声信号生成部17bは、信号処理部15で生成されたメッセージ10bに対応する音声データを生成し、スピーカ18bに出力してもよい。このとき、スピーカ18bがイヤホンや骨伝導スピーカなどで構成されている場合、スピーカ18bは、音声データに基づいて生成された音声を、AさんやBさんに聞かれることなく、Cさんにだけ音声を出力することができる。これにより、Cさんはメッセージ10bを取得するために目線を逸らすなどの不自然な動きをする必要がない。その結果、Cさんは、AさんやBさんと自然な会話をしながら、スピーカ18bからメッセージ10bを聞き取り、聞き取ったメッセージ10bを参考にした動作や会話を行うことが可能となる。
[効果]
 次に、情報処理システム100の効果について説明する。
 本実施の形態では、生体センサ20によって得られた対象生体の情報(生体情報および動作情報の少なくとも1つ)に基づいて対象生体の情動情報16cが推定され、表示面10aに表示される。これにより、例えば、対象生体がコミュニケーション相手の場合には、ユーザは、相手の情動情報16cに基づいて、相手との関係構築に必要な要素を類推することができる。ここで、相手の情動情報16cはお互いのコミュニケーションの過程で得られる客観的な情報である。従って、相手の行動履歴、趣向情報および属性情報に基づいて、相手の人柄や関係構築に必要な要素を類推する場合と比べて、より正確な類推を行うことが可能である。また、例えば、対象生体がユーザ自身の場合には、ユーザは、ユーザ自身の情動情報16cに基づいて、相手との関係構築に必要な要素を類推することができる。ここで、ユーザ自身の情動情報はお互いのコミュニケーションの過程で得られる客観的な情報である。従って、相手の行動履歴、趣向情報および属性情報に基づいて、相手との関係構築に必要な要素を類推する場合と比べて、より正確な類推を行うことが可能である。その結果、お互いの相性をより正確に判断することができる。
 本実施の形態では、生体センサ20によるセンシング期間における非音声のコンテキスト16dと、情動情報16cとが表示される。これにより、例えば、対象生体がコミュニケーション相手の場合には、ユーザは、相手の非音声のコンテキスト16dと、相手の情動情報16cとに基づいて、相手との関係構築に必要な要素を類推することができる。ここで、相手の非音声のコンテキスト16dや、相手の情動情報16cはお互いのコミュニケーションの過程で得られる客観的な情報である。従って、相手の行動履歴、趣向情報および属性情報に基づいて、相手の人柄や関係構築に必要な要素を類推する場合と比べて、より正確な類推を行うことが可能である。また、例えば、対象生体がユーザ自身の場合には、ユーザは、ユーザ自身の非音声のコンテキスト16dや、ユーザ自身の情動情報16cに基づいて、相手との関係構築に必要な要素を類推することができる。ここで、ユーザ自身の非音声のコンテキスト16dや、ユーザ自身の情動情報16cはお互いのコミュニケーションの過程で得られる客観的な情報である。従って、相手の行動履歴、趣向情報および属性情報に基づいて、相手との関係構築に必要な要素を類推する場合と比べて、より正確な類推を行うことが可能である。その結果、お互いの相性をより正確に判断することができる。
 本実施の形態では、ユーザの顔の動画を、表示面10aに隣接して設けられたカメラレンズ11bを介して取得するカメラ11が設けられており、表示面10aのうちカメラレンズ11b寄りの箇所にコンテキスト16dが表示される。これにより、ユーザは、目線をカメラレンズ11aの近傍を視認するだけで、メッセージ10bを視認することが可能である。その結果、ユーザはメッセージ10bを視認するために目線を逸らすなどの不自然な動きをする必要がない。従って、ユーザは、他のユーザと自然な会話をしながらメッセージ10bを視認し、メッセージ10bを参考にした動作や会話を行うことが可能となる。
 本実施の形態では、情動情報16cが表示面10aに表示されるとともに、生体センサ20によるセンシング期間における音声のコンテキスト16dがグラフィカルに表示面10aに表示される。これにより、例えば、対象生体がコミュニケーション相手の場合には、ユーザは、相手の音声のコンテキスト16dと、相手の情動情報16cとに基づいて、相手との関係構築に必要な要素を類推することができる。ここで、相手の音声のコンテキスト16dや、相手の情動情報16cはお互いのコミュニケーションの過程で得られる客観的な情報である。従って、相手の行動履歴、趣向情報および属性情報に基づいて、相手の人柄や関係構築に必要な要素を類推する場合と比べて、より正確な類推を行うことが可能である。また、例えば、対象生体がユーザ自身の場合には、ユーザは、ユーザ自身の音声のコンテキスト16dや、ユーザ自身の情動情報16cに基づいて、相手との関係構築に必要な要素を類推することができる。ここで、ユーザ自身の音声のコンテキスト16dや、ユーザ自身の情動情報16cはお互いのコミュニケーションの過程で得られる客観的な情報である。従って、相手の行動履歴、趣向情報および属性情報に基づいて、相手との関係構築に必要な要素を類推する場合と比べて、より正確な類推を行うことが可能である。その結果、お互いの相性をより正確に判断することができる。
 本実施の形態では、自身が利用する電子機器10に接続された生体センサ20によって得られた自身の生体情報および動作情報の少なくとも1つに基づいて自身の情動情報16cが推定される。さらに、他のユーザが利用する電子機器10に接続された生体センサ20によって得られた他のユーザの生体情報および動作情報の少なくとも1つに基づいて他のユーザの情動情報16cが推定される。そして、自身の情動情報16cと、他のユーザの情動情報16cとが表示面10aに一緒に表示される。これにより、例えば、自身は、双方の情動情報16cに基づいて、相手との関係構築に必要な要素を類推することができる。ここで、双方の情動情報16cはお互いのコミュニケーションの過程で得られる客観的な情報である。従って、相手の行動履歴、趣向情報および属性情報に基づいて、相手の人柄や関係構築に必要な要素を類推する場合と比べて、より正確な類推を行うことが可能である。
 本実施の形態において、自身が利用する電子機器10に接続された生体センサ20によるセンシング期間における非音声のコンテキスト16dを第1のコンテキストとする。本実施の形態において、他のユーザが利用する電子機器10に接続された生体センサ20に接続された生体センサ20によるセンシング期間における非音声のコンテキスト16dを第2のコンテキストとする。本実施の形態において、自身が利用する電子機器10で得られた自身の情動情報16cを第1の情動情報とし、他のユーザが利用する電子機器10で得られた他のユーザの情動情報16cを第2の情動情報とする。このとき、第1のコンテキスト、第2のコンテキスト、第1の情動情報および第2の情動情報が表示面10aに一緒に表示される。これにより、自身は、これらの情報に基づいて、相手との関係構築に必要な要素を類推することができる。ここで、これらの情報はお互いのコミュニケーションの過程で得られる客観的な情報である。従って、相手の行動履歴、趣向情報および属性情報に基づいて、相手の人柄や関係構築に必要な要素を類推する場合と比べて、より正確な類推を行うことが可能である。その結果、お互いの相性をより正確に判断することができる。
 本実施の形態では、生体センサ20によって得られた対象生体の情報(生体情報および動作情報の少なくとも1つ)に基づいて対象生体の情動情報16cが推定される。本実施の形態では、さらに、対象生体の情動情報16cと、生体センサ20によるセンシング期間におけるコンテキスト16dとが互いに関連付けられる。これにより、例えば、対象生体がコミュニケーション相手の場合には、ユーザは、相手の情動情報16cに基づいて、相手との関係構築に必要な要素を類推することができる。ここで、相手の情動情報16cはお互いのコミュニケーションの過程で得られる客観的な情報である。従って、相手の行動履歴、趣向情報および属性情報に基づいて、相手の人柄や関係構築に必要な要素を類推する場合と比べて、より正確な類推を行うことが可能である。また、例えば、対象生体がユーザ自身の場合には、ユーザは、ユーザ自身の情動情報16cに基づいて、相手との関係構築に必要な要素を類推することができる。ここで、ユーザ自身の情動情報はお互いのコミュニケーションの過程で得られる客観的な情報である。従って、相手の行動履歴、趣向情報および属性情報に基づいて、相手との関係構築に必要な要素を類推する場合と比べて、より正確な類推を行うことが可能である。その結果、お互いの相性をより正確に判断することができる。
 本実施の形態では、対象生体の情動情報16cと、非音声のコンテキスト16dとが表示面10aに一緒に表示される。これにより、例えば、対象生体がコミュニケーション相手の場合には、ユーザは、相手の情動情報16cと、非音声のコンテキスト16dとに基づいて、相手との関係構築に必要な要素を類推することができる。ここで、相手の情動情報16cや、非音声のコンテキスト16dはお互いのコミュニケーションの過程で得られる客観的な情報である。従って、相手の行動履歴、趣向情報および属性情報に基づいて、相手の人柄や関係構築に必要な要素を類推する場合と比べて、より正確な類推を行うことが可能である。また、例えば、対象生体がユーザ自身の場合には、ユーザは、ユーザ自身の情動情報16cと、非音声のコンテキスト16dとに基づいて、相手との関係構築に必要な要素を類推することができる。ここで、ユーザ自身の情動情報や、非音声のコンテキスト16dはお互いのコミュニケーションの過程で得られる客観的な情報である。従って、相手の行動履歴、趣向情報および属性情報に基づいて、相手との関係構築に必要な要素を類推する場合と比べて、より正確な類推を行うことが可能である。その結果、お互いの相性をより正確に判断することができる。
 本実施の形態では、対象生体の情動情報16cと、音声のコンテキスト16dとが表示面10aに一緒に表示される。これにより、例えば、対象生体がコミュニケーション相手の場合には、ユーザは、相手の情動情報16cと、音声のコンテキスト16dとに基づいて、相手との関係構築に必要な要素を類推することができる。ここで、相手の情動情報16cや、音声のコンテキスト16dはお互いのコミュニケーションの過程で得られる客観的な情報である。従って、相手の行動履歴、趣向情報および属性情報に基づいて、相手の人柄や関係構築に必要な要素を類推する場合と比べて、より正確な類推を行うことが可能である。また、例えば、対象生体がユーザ自身の場合には、ユーザは、ユーザ自身の情動情報16cと、音声のコンテキスト16dとに基づいて、相手との関係構築に必要な要素を類推することができる。ここで、ユーザ自身の情動情報や、音声のコンテキスト16dはお互いのコミュニケーションの過程で得られる客観的な情報である。従って、相手の行動履歴、趣向情報および属性情報に基づいて、相手との関係構築に必要な要素を類推する場合と比べて、より正確な類推を行うことが可能である。その結果、お互いの相性をより正確に判断することができる。
<4.第1の実施の形態の変形例>
 次に、上記実施の形態に係る情報処理システム100の変形例について説明する。
[変形例A]
 上記実施の形態に係る情報処理システム100において、生体センサ20、カメラ11、映像表示部18aおよびスピーカ18bが、例えば、アイグラスなどのデバイスに設けられていてもよい。このようにした場合には、例えば、視線を精度よく導出したり、スピーカ18bからの音声がマイク12に拾われ難くしたりすることが可能である。
[変形例B]
 上記実施の形態に係る情報処理システム100において、ネットワーク30に接続された2つの電子機器10の間だけで互いに通信されていてもよい。このようにした場合、自身が利用する電子機器10において、信号処理部15は、自身の情動情報16cと、自身の識別子16bとを取得する。信号処理部15は、さらに、コミュニケーション相手が利用する電子機器10から、相手の識別子16bと、相手の情動情報16cとを取得する。
 自身が利用する電子機器10において、信号処理部15は、例えば、自身の情動情報16c、および相手の情動情報16cをグラフィカルな情動情報に変換する。信号処理部15は、例えば、自身の情動情報16c、および相手の情動情報16cを、横軸を時間とし、縦軸を情動情報とするグラフで表現した画像データを生成する。自身が利用する電子機器10において、映像表示部18aは、信号処理部15で生成された、グラフィカルな情動情報を含む画像データに基づく映像信号を生成し、映像表示部18aに出力する。映像表示部18aは、例えば、図4に示したように、自身および相手のそれぞれの情動情報16cを表示面10aに一緒に表示する。
 信号処理部15は、例えば、自身の情動情報16cと、相手の情動情報16cとの同期性を計算し、その計算結果を含む画像データを生成してもよい。この場合、映像表示部18aは、信号処理部15で生成された、同期性の計算結果を含む画像データに基づく映像信号を生成し、映像表示部18aに出力する。映像表示部18aは、例えば、図4に示したように、同期性の計算結果を表示面10aに表示する。
 信号処理部15は、例えば、自身の情動情報16cと、相手の情動情報16cとを互いに関連付けて記憶部16に格納してもよい。信号処理部15は、例えば、さらに、上述した同期性の計算結果を記憶部16に格納してもよい。このようにした場合には、ユーザは、記憶部16に格納しておいた、自身および相手の情動情報16cや、同期性の計算結果に基づいて、自身の、相手へのコミュニケーション方法の適否について復習することができる。ユーザは、例えば、自身の情動情報16cと相手の情動情報16cとの同期性を見ることで、相手の言葉がお世辞であるのか否かを知ったり、相手が何に興味を持ったかを知ったりすることが可能である。
[変形例C]
 上記実施の形態およびその変形例に係る情報処理システム100は、例えば、グループ交流や、デート、お見合い、社員教育、オンラインゲームなどに適用することが可能である。
 例えば、オンライン上の不特定多数の人とチームを組んでクエストをクリアしていくような協力型のオンラインゲームに、上記実施の形態およびその変形例に係る情報処理システム100を適用したとする。このとき、映像表示部18aは、例えば、ゲーム画面と、信号処理部15で生成された、チームメンバーのグラフィカルな情動情報とを含む画像データに基づく映像信号を生成し、映像表示部18aに出力してもよい。このとき、各メンバーは、お互いの情動の上下のタイミングを見ることで,楽しんでいるシーンの共通点や,クエストをクリアしていく連携の相性を知ることができる。
<5.第2の実施の形態>
[構成]
 次に、本開示の第2の実施の形態に係る情報処理システム200について説明する。図5は、情報処理システム200の概略構成例を表したものである。情報処理システム200は、上記実施の形態およびその変形例に係る情報処理システム100において、複数の電子機器40とネットワーク30で接続されたサーバ装置50が、情動情報16cを導出する一連の処理を実行するプログラムや推定モデルを備えていてもよい。
 電子機器40は、例えば、図6に示したように、上記実施の形態およびその変形例に係る電子機器10において、記憶部16に、情報処理プログラム16aの代わりに、情報処理プログラム16eが格納されたものである。情報処理プログラム16eは、情報処理プログラム16aで実行される一連の処理のうち、情動情報16cを導出する一連の処理を除いた処理を実行するためのプログラムである。
 サーバ装置50は、例えば、図7に示したように、通信部51、信号処理部52および記憶部53を備えている。通信部51は、ネットワーク30を介して複数の電子機器40と通信を行うデバイスである。
 信号処理部52は、例えば、プロセッサによって構成されている。信号処理部52は、記憶部53に記憶された情報処理プログラム16eを実行する。信号処理部52の機能は、例えば、信号処理部52によって情報処理プログラム16eが実行されることによって実現される。信号処理部52は、情動情報16cを導出する一連の処理を実行する。
 信号処理部52は、各電子機器40から入力された、上述の生体情報および上述の動作情報の少なくとも1つに基づいて、対象生体の情動情報16c(上述の覚醒度および上述の快不快の少なくとも一方)を推定する。信号処理部52は、推定により得られた情動情報16cを、通信部51およびネットワーク30を介して電子機器40に送信する。信号処理部52は、電子機器40から入力された識別子16bと、推定により得られた情動情報16cとを互いに関連付けて記憶部53に格納する。信号処理部52は、情動情報16cを、識別子16bに対応する電子機器40に送信する。信号処理部52は、電子機器40から入力された識別子16bおよびコンテキスト16dを、互いに関連付けて記憶部53に格納する。信号処理部52は、記憶部53から読み出した識別子16bおよびコンテキスト16dを、互いに関連付けて電子機器40に送信する。
 このように、本変形例では、情動情報16cを導出する一連の処理がサーバ装置50で実行される。これにより、各電子機器40に対して、情動情報16cを導出する一連の処理を実行するプログラムや推定モデルを設ける必要がなくなる。その結果、複数の電子機器40で、サーバ装置50に設けられた、情動情報16cを導出する一連の処理を実行するプログラムや推定モデルを共用することができる。
<6.第3の実施の形態>
 本開示の第3の実施の形態に係る情報処理装置300について説明する。図8は、情報処理装置300の概略構成例を表したものである。情報処理装置300は、対象生体から得られた生体情報および動作情報の少なくとも1つに基づいて対象生体の情動情報を推定するシステムである。本実施の形態では、対象生体は、人である。なお、情報処理装置300において、対象生体は、人に限られるものではない。
 情報処理装置300は、複数の(例えば2つの)デバイス310と、複数の(例えば2つの)デバイス310に接続された信号処理部15と、ユーザ入力受付部14と、記憶部16とを備えている。各デバイス310は、例えば、アイグラスなどのデバイスであり、信号処理部15による制御によって、上記実施の形態およびその変形例に係る電子機器10や、上記実施の形態およびその変形例に係る電子機器40と同様の動作を実行する。つまり、本実施の形態では、1台の情報処理装置300を複数のユーザが共有する。
 各デバイス310は、例えば、カメラ11、マイク12、センサ入力受付部13、映像信号生成部17a、映像表示部18a、音声信号生成部17bおよびスピーカ18bを有している。例えば、各デバイス310には、生体センサ20が1つずつ取り付けられている。
 本実施の形態では、上記実施の形態およびその変形例と同様、生体センサ20によって得られた対象生体の情報(生体情報および動作情報の少なくとも1つ)に基づいて対象生体の情動情報16cが推定され、映像表示部18aの表示面に表示される。これにより、例えば、対象生体がコミュニケーション相手の場合には、ユーザは、相手の情動情報16cに基づいて、相手との関係構築に必要な要素を類推することができる。ここで、相手の情動情報16cはお互いのコミュニケーションの過程で得られる客観的な情報である。従って、相手の行動履歴、趣向情報および属性情報に基づいて、相手の人柄や関係構築に必要な要素を類推する場合と比べて、より正確な類推を行うことが可能である。また、例えば、対象生体がユーザ自身の場合には、ユーザは、ユーザ自身の情動情報16cに基づいて、相手との関係構築に必要な要素を類推することができる。ここで、ユーザ自身の情動情報はお互いのコミュニケーションの過程で得られる客観的な情報である。従って、相手の行動履歴、趣向情報および属性情報に基づいて、相手との関係構築に必要な要素を類推する場合と比べて、より正確な類推を行うことが可能である。その結果、お互いの相性をより正確に判断することができる。
<7.各実施の形態の変形例>
 上記第1の形態およびその変形例において、電子機器10は、例えば、図9に示したように、振動信号生成部21aおよび振動部21bを備えていてもよい。また、上記第2の実施の形態において、電子機器40は、例えば、図10に示したように、振動信号生成部21aおよび振動部21bを備えていてもよい。また、上記第3の実施の形態において、各デバイス310は、例えば、図11に示したように、振動信号生成部21aおよび振動部21bを備えていてもよい。
 振動信号生成部21aは、信号処理部15から入力された振動データを出力するための振動信号を生成し、振動部21bに出力する。振動部21bは、振動信号生成部21aから入力された振動信号に基づいて振動する。信号処理部15は、例えば、音声のコンテキスト16d(音声データ)、非音声のコンテキスト16d(視線データ)および情動情報16cの少なくとも1つに基づいて、振動データを生成してもよい。このとき、振動部21bは、例えば、音声のコンテキスト16d(音声データ)、非音声のコンテキスト16d(視線データ)および情動情報16cの少なくとも1つに基づいて振動する。このようにした場合には、ユーザは、振動部21bによる振動から、相手との関係構築に必要な要素を類推することができる。その結果、お互いの相性をより正確に判断することができる。
 なお、上記第3の実施の形態およびその変形例において、ユーザ入力受付部14が、デバイス310ごとに設けられていてもよい。このようにした場合には、ユーザは、ユーザ入力受付部14を使ってデバイス310から情報を入力することができる。その結果、各デバイス310が例えばスマートフォンのようなモバイルデバイスとなっており、ユーザがデバイス310を持ち歩いた場合であっても、デバイス310ごとに情報を入力することができる。
 上記第1の実施の形態およびその変形例において、複数の電子機器10が、ネットワーク30以外の手段で互いに接続されていてもよい。
[変形例G]
 上記第1~第3の実施の形態およびそれらの変形例において、生体センサ20を、例えば、図22に示したようなヘッドマウントディスプレイ(HMD)400に搭載することが可能である。ヘッドマウントディスプレイ400では、例えば、パッド部401およびバンド部402の内面などに、生体センサ20の検出電極403を設けることができる。
 また、上記第1~第3の実施の形態およびそれらの変形例において、生体センサ20を、例えば、図23に示したようなヘッドバンド500に搭載することが可能である。ヘッドバンド500では、例えば、頭部と接触するバンド部501,502の内面などに、生体センサ20の検出電極503を設けることができる。
 また、上記第1~第3の実施の形態およびそれらの変形例において、生体センサ20を、例えば、図24に示したようなヘッドフォン600に搭載することが可能である。ヘッドフォン600では、例えば、頭部と接触するバンド部601の内面やイヤーパッド602などに、生体センサ20の検出電極603を設けることができる。
 また、上記第1~第3の実施の形態およびそれらの変形例において、生体センサ20を、例えば、図25に示したようなイヤフォン700に搭載することが可能である。イヤフォン700では、例えば、耳に挿入するイヤーピース701に、生体センサ20の検出電極702を設けることができる。
 また、上記第1~第3の実施の形態およびそれらの変形例において、生体センサ20を、例えば、図26に示したような時計800に搭載することが可能である。時計800では、例えば、時刻等を表示する表示部801の内面や、バンド部802の内面(例えば、バックル部803の内面)などに、生体センサ20の検出電極804を設けることができる。
 また、上記第1~第3の実施の形態およびそれらの変形例において、生体センサ20を、例えば、図27に示したような眼鏡900に搭載することが可能である。眼鏡900では、例えば、つる901の内面やなどに、生体センサ20の検出電極902を設けることができる。
 また、上記第1~第3の実施の形態およびそれらの変形例において、生体センサ20を、例えば、手袋、指輪、鉛筆、ペン、ゲーム機のコントローラなどに搭載することも可能である。
[変形例H]
 上記第1~第3の実施の形態およびその変形例において、信号処理部15は、例えば、センサで得られた評価対象者の脈波、心電図、血流の電気信号に基づいて、例えば、以下に示したような特徴量を導出し、導出した特徴量に基づいて、評価対象者の覚醒度24eを導出してもよい。
(脈波、心電図、血流)
 センサで得られた脈波、心電図、血流の電気信号に基づいて得られる、例えば、以下に示したような特徴量を用いることで、評価対象者の覚醒度24eを導出することが可能である。
・1sごとの心拍数
・1sごとの心拍数の、所定の期間(窓)内の平均値
・rmssd(root mean square successive difference):連続する心拍間隔の二乗平均平方根
・pnn50(percentage of adjacent normal-to-normal intervals):連続する心拍間
隔が50msを超える個数の比率
・LF:心拍間隔のPSDの0.04~0.15Hz間の面積
・HF:心拍間隔のPSDの0.15~0.4Hz間の面積
・LF/(LF+HF)
・HF/(LF+HF)
・LF/HF
・心拍のエントロピー
・SD1:ポアンカレプロット(心拍間隔のt番目をx軸,t+1番目をy軸にした散布図)のy=xを軸とした方向の標準偏差
・SD2:ポアンカレプロットのy=xの垂直方向を軸とした方向の標準偏差
・SD1/SD2
・SDRR(standard deviation of RR interval):心拍間隔の標準偏差
 また、上記第1~第3の実施の形態およびその変形例において、信号処理部15は、例えば、センサで得られた評価対象者の精神性発汗の電気信号(EDA: electrodermal activity)に基づいて、例えば、以下に示したような特徴量を導出し、導出した特徴量に基づいて、評価対象者の覚醒度24eを導出してもよい。
(精神性発汗)
 センサで得られた精神性発汗の電気信号に基づいて得られる、例えば、以下に示したような特徴量を用いることで、評価対象者の覚醒度24eを導出することが可能である。
・1分間に発生するSCR(skin conductance response)の個数
・SCRの振幅
・SCL(skin conductance level)の値
・SCLの変化率
 例えば、下記文献に記載の方法を用いることで、EDAから、SCRとSCLを分離することが可能である。
Benedek, M., & Kaernbach, C. (2010). A continuous measure of phasic electrodermal activity. Journal of neuroscience methods, 190(1), 80-91.
 なお、覚醒度24eの導出において、単モーダル(1つの生理指標)を用いてもよいし、複数モーダル(複数の生理指標)の組み合わせを用いてもよい。
 信号処理部15は、例えば、後述の図28~図35に記載の回帰式を用いて、上述の特徴量を導出する。
 図28は、高難易度の問題を解いたときと、低難易度の問題を解いたときの、脈波のpnn50の課題差Δha[%]と、高難易度の問題を解いたときの正解率R[%]との関係の一例を表したものである。課題差Δhaは、高難易度の問題を解いたときの脈波のpnn50から、低難易度の問題を解いたときの脈波のpnn50を減算することにより得られるベクトル量である。図28には、ユーザごとのデータがプロットされており、ユーザ全体の特徴が回帰式(回帰直線)で表されている。図28において、回帰式は、R=a10×Δha+b10で表されている。
 脈波のpnn50の課題差Δhaが小さいということは、高難易度の問題を解いたときと、低難易度の問題を解いたときとで、脈波のpnn50の差分が小さいことを意味する。このような結果が得られたユーザには、問題の難易度が高くなると、脈波のpnn50の課題差が他のユーザと比べて小さくなる傾向があると言える。一方、脈波のpnn50の課題差Δhaが大きいということは、高難易度の問題を解いたときと、低難易度の問題を解いたときとで、脈波のpnn50の差分が大きいことを意味する。このような結果が得られたユーザには、問題の難易度が高くなると、脈波のpnn50の課題差が他のユーザと比べて大きくなる傾向があると言える。
 図28から、脈波のpnn50の課題差Δhaが大きいとき、問題の正解率Rが高くなり、脈波のpnn50の課題差Δhaが小さいとき、問題の正解率Rが小さくなることがわかる。このことから、難しい問題で脈波のpnn50が大きくなる人は、正解率Rが高くなる(つまり、難しい問題でも、簡単な問題と同程度に正解できる)傾向を有することがわかる。逆に、難しい問題でも脈波のpnn50が小さい人は、正解率Rが低くなる(つまり、難しい問題の正解率が下がる)傾向を有することがわかる。
 ここで、上述したように、図21からは、正解率が高い時は覚醒度が低く、正解率が低い時は覚醒度が高いことが分かる。以上のことから、脈波のpnn50の課題差Δhaが大きいときは、ユーザの覚醒度が所定の基準よりも低くなっていると推察することが可能となる。また、脈波のpnn50の課題差Δhaが小さいときは、ユーザの覚醒度が所定の基準よりも高くなっていると推察することが可能となる。
 以上のことから、脈波のpnn50の課題差Δhaと、図21、図28の回帰式とを用いることで、ユーザの覚醒度を導出することが可能であることがわかる。
 図29は、高難易度の問題を解いたときと、低難易度の問題を解いたときの、脈波のpnn50のばらつきの課題差Δhb[%]と、高難易度の問題を解いたときの正解率R[%]との関係の一例を表したものである。課題差Δhbは、高難易度の問題を解いたときの脈波のpnn50のばらつきから、低難易度の問題を解いたときの脈波のpnn50のばらつきを減算することにより得られるベクトル量である。図29には、ユーザごとのデータがプロットされており、ユーザ全体の特徴が回帰式(回帰直線)で表されている。図29において、回帰式は、R=a11×Δhb+b11で表されている。
 脈波のpnn50のばらつきの課題差Δhbが小さいということは、高難易度の問題を解いたときと、低難易度の問題を解いたときとで、脈波のpnn50のばらつきの差分が小さいことを意味する。このような結果が得られたユーザには、問題の難易度が高くなると、脈波のpnn50のばらつきの課題差が他のユーザと比べて小さくなる傾向があると言える。一方、脈波のpnn50のばらつきの課題差Δhbが大きいということは、高難易度の問題を解いたときと、低難易度の問題を解いたときとで、脈波のpnn50のばらつきの差分が大きいことを意味する。このような結果が得られたユーザには、問題の難易度が高くなると、脈波のpnn50のばらつきの課題差が他のユーザと比べて大きくなる傾向があると言える。
 図29から、脈波のpnn50のばらつきの課題差Δhbが大きいとき、問題の正解率Rが高くなり、脈波のpnn50のばらつきの課題差Δhbが小さいとき、問題の正解率Rが小さくなることがわかる。このことから、難しい問題で脈波のpnn50のばらつきが大きくなる人は、正解率Rが高くなる(つまり、難しい問題でも、簡単な問題と同程度に正解できる)傾向を有することがわかる。逆に、難しい問題でも脈波のpnn50のばらつきが小さい人は、正解率Rが低くなる(つまり、難しい問題の正解率が下がる)傾向を有することがわかる。
 ここで、上述したように、図21からは、正解率が高い時は覚醒度が低く、正解率が低い時は覚醒度が高いことが分かる。以上のことから、脈波のpnn50のばらつきの課題差Δhbが大きいときは、ユーザの覚醒度が所定の基準よりも低くなっていると推察することが可能となる。また、脈波のpnn50のばらつきの課題差Δhaが小さいときは、ユーザの覚醒度が所定の基準よりも高くなっていると推察することが可能となる。
 以上のことから、脈波のpnn50のばらつきの課題差Δhbと、図21、図29の回帰式とを用いることで、ユーザの覚醒度を導出することが可能であることがわかる。
 図30は、高難易度の問題を解いたときと、低難易度の問題を解いたときの、脈波のpnn50に対してFFTを行うことにより得られるパワースペクトラムの低周波帯(0.01Hz付近)のパワーの課題差Δhc[ms-2Hz]と、高難易度の問題を解いたときの正解率R[%]との関係の一例を表したものである。以下では、「脈波のpnn50に対してFFTを行うことにより得られるパワースペクトラムの低周波帯(0.01Hz付近)のパワー」を「脈波のpnn50の低周波帯のパワー」と称するものとする。課題差Δhcは、高難易度の問題を解いたときの脈波のpnn50の低周波帯のパワーから、低難易度の問題を解いたときの脈波のpnn50の低周波帯のパワーを減算することにより得られるベクトル量である。図30には、ユーザごとのデータがプロットされており、ユーザ全体の特徴が回帰式(回帰直線)で表されている。図30において、回帰式は、R=a12×Δhc+b12で表されている。
 脈波のpnn50の低周波帯のパワーの課題差Δhcが大きいということは、高難易度の問題を解いたときと、低難易度の問題を解いたときとで、脈波のpnn50の低周波帯のパワーの差分が大きいことを意味する。このような結果が得られたユーザには、高難易度の問題を解いた時に、脈波のpnn50の低周波帯のパワーの課題差が他のユーザと比べて大きくなる傾向があると言える。一方、脈波のpnn50の低周波帯のパワーの課題差Δhcが小さいということは、高難易度の問題を解いたときと、低難易度の問題を解いたときとで、脈波のpnn50の低周波帯のパワーの差分が小さいことを意味する。このような結果が得られたユーザには、問題の難易度が高くなると、脈波のpnn50の低周波帯のパワーの課題差が他のユーザと比べて小さくなる傾向があると言える。
 図30から、脈波のpnn50の低周波帯のパワーの課題差Δhcが大きいとき、問題の正解率Rが高くなり、脈波のpnn50の低周波帯のパワーの課題差Δhcが小さいとき、問題の正解率Rが低くなることがわかる。このことから、難しい問題でも脈波のpnn50の低周波帯のパワーが大きい人は、正解率Rが高くなる(つまり、難しい問題でも、簡単な問題と同程度に正解できる)傾向を有することがわかる。逆に、難しい問題で脈波のpnn50の低周波帯のパワーが小さくなる人は、正解率Rが低くなる(つまり、難しい問題の正解率が下がる)傾向を有することがわかる。
 ここで、上述したように、図21からは、正解率が高い時は覚醒度が低く、正解率が低い時は覚醒度が高いことが分かる。以上のことから、脈波のpnn50の低周波帯のパワーの課題差Δhcが小さいときは、ユーザの覚醒度が所定の基準よりも低くなっていると推察することが可能となる。また、脈波のpnn50の低周波帯のパワーの課題差Δhcが大きいときは、ユーザの覚醒度が所定の基準よりも高くなっていると推察することが可能となる。
 以上のことから、脈波のpnn50の低周波帯のパワーの課題差Δhcと、図21、図30の回帰式とを用いることで、ユーザの覚醒度を導出することが可能であることがわかる。
 図31は、高難易度の問題を解いたときと、低難易度の問題を解いたときの、脈波のrmssdの課題差Δhd[ms]と、高難易度の問題を解いたときの正解率R[%]との関係の一例を表したものである。課題差Δhdは、高難易度の問題を解いたときの脈波のrmssdから、低難易度の問題を解いたときの脈波のrmssdを減算することにより得られるベクトル量である。図31には、ユーザごとのデータがプロットされており、ユーザ全体の特徴が回帰式(回帰直線)で表されている。図31において、回帰式は、R=a13×Δhd+b13で表されている。
 脈波のrmssdの課題差Δhdが大きいということは、高難易度の問題を解いたときと、低難易度の問題を解いたときとで、脈波のrmssdの差分が大きいことを意味する。このような結果が得られたユーザには、高難易度の問題を解いた時に、脈波のrmssdの課題差が他のユーザと比べて大きくなる傾向があると言える。一方、脈波のrmssdの課題差Δhdが小さいということは、高難易度の問題を解いたときと、低難易度の問題を解いたときとで、脈波のrmssdの差分が小さいことを意味する。このような結果が得られたユーザには、問題の難易度が高くなると、脈波のrmssdの課題差が他のユーザと比べて小さくなる傾向があると言える。
 図31から、脈波のrmssdの課題差Δhdが大きいとき、問題の正解率Rが高くなり、脈波のrmssdの課題差Δhdが小さいとき、問題の正解率Rが小さくなることがわかる。このことから、難しい問題でも脈波のrmssdが大きい人は、正解率Rが高くなる(つまり、難しい問題でも、簡単な問題と同程度に正解できる)傾向を有することがわかる。逆に、難しい問題で脈波のrmssdが小さくなる人は、正解率Rが低くなる(つまり、難しい問題の正解率が下がる)傾向を有することがわかる。
 ここで、上述したように、図21からは、正解率が高い時は覚醒度が低く、正解率が低い時は覚醒度が高いことが分かる。以上のことから、脈波のrmssdの課題差Δhdが小さいときは、ユーザの覚醒度が所定の基準よりも低くなっていると推察することが可能となる。また、脈波のrmssdの課題差Δhdが負方向に大きいときは、ユーザの覚醒度が所定の基準よりも高くなっていると推察することが可能となる。
 以上のことから、脈波のrmssdの課題差Δhdと、図21、図31の回帰式とを用いることで、ユーザの覚醒度を導出することが可能であることがわかる。
 図32は、高難易度の問題を解いたときと、低難易度の問題を解いたときの、脈波のrmssdのばらつきの課題差Δhe[ms]と、高難易度の問題を解いたときの正解率R[%]との関係の一例を表したものである。課題差Δheは、高難易度の問題を解いたときの脈波のrmssdのばらつきから、低難易度の問題を解いたときの脈波のrmssdのばらつきを減算することにより得られるベクトル量である。図32には、ユーザごとのデータがプロットされており、ユーザ全体の特徴が回帰式(回帰直線)で表されている。図32において、回帰式は、R=a14×Δhe+b14で表されている。
 脈波のrmssdのばらつきの課題差Δheが大きいということは、高難易度の問題を解いたときと、低難易度の問題を解いたときとで、脈波のrmssdのばらつきの差分が大きいことを意味する。このような結果が得られたユーザには、高難易度の問題を解いた時に、脈波のrmssdのばらつきの課題差が他のユーザと比べて大きくなる傾向があると言える。一方、脈波のrmssdのばらつきの課題差Δheが小さいということは、高難易度の問題を解いたときと、低難易度の問題を解いたときとで、脈波のrmssdのばらつきの差分が小さいことを意味する。このような結果が得られたユーザには、問題の難易度が高くなると、脈波のrmssdのばらつきの課題差が他のユーザと比べて小さくなる傾向があると言える。
 図32から、脈波のrmssdのばらつきの課題差Δheが大きいとき、問題の正解率Rが高くなり、脈波のrmssdのばらつきの課題差Δheが小さいとき、問題の正解率Rが小さくなることがわかる。このことから、難しい問題でも脈波のrmssdのばらつきが大きい人は、正解率Rが高くなる(つまり、難しい問題でも、簡単な問題と同程度に正解できる)傾向を有することがわかる。逆に、難しい問題で脈波のrmssdのばらつきが小さくなる人は、正解率Rが低くなる(つまり、難しい問題の正解率が下がる)傾向を有することがわかる。
 ここで、上述したように、図21からは、正解率が高い時は覚醒度が低く、正解率が低い時は覚醒度が高いことが分かる。以上のことから、脈波のrmssdのばらつきの課題差Δheが小さいときは、ユーザの覚醒度が所定の基準よりも低くなっていると推察することが可能となる。また、脈波のrmssdのばらつきの課題差Δheが負方向に大きいときは、ユーザの覚醒度が所定の基準よりも高くなっていると推察することが可能となる。
 以上のことから、脈波のrmssdのばらつきの課題差Δheと、図21、図32の回帰式とを用いることで、ユーザの覚醒度を導出することが可能であることがわかる。
 図33は、高難易度の問題を解いたときと、低難易度の問題を解いたときの、脈波のrmssdに対してFFTを行うことにより得られるパワースペクトラムの低周波帯(0.01Hz付近)のパワーの課題差Δhf[ms/Hz]と、高難易度の問題を解いたときの正解率R[%]との関係の一例を表したものである。以下では、「脈波のrmssdに対してFFTを行うことにより得られるパワースペクトラムの低周波帯(0.01Hz付近)のパワー」を「脈波のrmssdの低周波帯のパワー」と称するものとする。課題差Δhfは、高難易度の問題を解いたときの脈波のrmssdの低周波帯のパワーから、低難易度の問題を解いたときの脈波のrmssdの低周波帯のパワーを減算することにより得られるベクトル量である。図33には、ユーザごとのデータがプロットされており、ユーザ全体の特徴が回帰式(回帰直線)で表されている。図33において、回帰式は、R=a15×Δhf+b15で表されている。
 脈波のrmssdの低周波帯のパワーの課題差Δhfが大きいということは、高難易度の問題を解いたときと、低難易度の問題を解いたときとで、脈波のrmssdの低周波帯のパワーの差分が大きいことを意味する。このような結果が得られたユーザには、高難易度の問題を解いた時に、脈波のrmssdの低周波帯のパワーの課題差が他のユーザと比べて大きくなる傾向があると言える。一方、脈波のrmssdの低周波帯のパワーの課題差Δhfが小さいということは、高難易度の問題を解いたときと、低難易度の問題を解いたときとで、脈波のrmssdの低周波帯のパワーの差分が小さいことを意味する。このような結果が得られたユーザには、問題の難易度が高くなると、脈波のrmssdの低周波帯のパワーの課題差が他のユーザと比べて小さくなる傾向があると言える。
 図33から、脈波のrmssdの低周波帯のパワーの課題差Δhfが大きいとき、問題の正解率Rが高くなり、脈波のrmssdの低周波帯のパワーの課題差Δhfが小さいとき、問題の正解率Rが小さくなることがわかる。このことから、難しい問題でも脈波のrmssdの低周波帯のパワーが大きい人は、正解率Rが高くなる(つまり、難しい問題でも、簡単な問題と同程度に正解できる)傾向を有することがわかる。逆に、難しい問題で脈波のrmssdの低周波帯のパワーが小さくなる人は、正解率Rが低くなる(つまり、難しい問題の正解率が下がる)傾向を有することがわかる。
 ここで、上述したように、図21からは、正解率が高い時は覚醒度が低く、正解率が低い時は覚醒度が高いことが分かる。以上のことから、脈波のrmssdの低周波帯のパワーの課題差Δhfが小さいときは、ユーザの覚醒度が所定の基準よりも低くなっていると推察することが可能となる。また、脈波のrmssdの低周波帯のパワーの課題差Δhfが負方向に大きいときは、ユーザの覚醒度が所定の基準よりも高くなっていると推察することが可能となる。
 以上のことから、脈波のrmssdの低周波帯のパワーの課題差Δhfと、図21、図33の回帰式とを用いることで、ユーザの覚醒度を導出することが可能であることがわかる。
 図34は、高難易度の問題を解いたときと、低難易度の問題を解いたときの、精神性発汗のSCRの個数のばらつきの課題差Δhg[min]と、高難易度の問題を解いたときの正解率R[%]との関係の一例を表したものである。課題差Δhgは、高難易度の問題を解いたときの精神性発汗のSCRの個数のばらつきから、低難易度の問題を解いたときの精神性発汗のSCRの個数のばらつきを減算することにより得られるベクトル量である。図34には、ユーザごとのデータがプロットされており、ユーザ全体の特徴が回帰式(回帰直線)で表されている。図34において、回帰式は、R=a16×Δhg+b16で表されている。
 精神性発汗のSCRの個数のばらつきの課題差Δhgが大きいということは、高難易度の問題を解いたときと、低難易度の問題を解いたときとで、精神性発汗のSCRの個数のばらつきの差分が大きいことを意味する。このような結果が得られたユーザには、高難易度の問題を解いた時に、精神性発汗のSCRの個数のばらつきの課題差が他のユーザと比べて大きくなる傾向があると言える。一方、精神性発汗のSCRの個数のばらつきの課題差Δhgが小さいということは、高難易度の問題を解いたときと、低難易度の問題を解いたときとで、精神性発汗のSCRの個数のばらつきの差分が小さいことを意味する。このような結果が得られたユーザには、問題の難易度が高くなると、精神性発汗のSCRの個数のばらつきの課題差が他のユーザと比べて小さくなる傾向があると言える。
 図34から、精神性発汗のSCRの個数のばらつきの課題差Δhgが大きいとき、問題の正解率Rが高くなり、精神性発汗のSCRの個数のばらつきの課題差Δhgが小さいとき、問題の正解率Rが小さくなることがわかる。このことから、難しい問題でも精神性発汗のSCRの個数のばらつきが大きい人は、正解率Rが高くなる(つまり、難しい問題でも、簡単な問題と同程度に正解できる)傾向を有することがわかる。逆に、難しい問題で精神性発汗のSCRの個数のばらつきが小さくなる人は、正解率Rが低くなる(つまり、難しい問題の正解率が下がる)傾向を有することがわかる。
 ここで、上述したように、図21からは、正解率が高い時は覚醒度が低く、正解率が低い時は覚醒度が高いことが分かる。以上のことから、精神性発汗のSCRの個数のばらつきの課題差Δhgが小さいときは、ユーザの覚醒度が所定の基準よりも低くなっていると推察することが可能となる。また、精神性発汗のSCRの個数のばらつきの課題差Δhgが負方向に大きいときは、ユーザの覚醒度が所定の基準よりも高くなっていると推察することが可能となる。
 以上のことから、精神性発汗のSCRの個数のばらつきの課題差Δhgfと、図21、図34の回帰式とを用いることで、ユーザの覚醒度を導出することが可能であることがわかる。
 図35は、高難易度の問題を解いたときと、低難易度の問題を解いたときの、精神性発汗のSCRの個数の課題差Δhh[ms2/Hz]と、高難易度の問題を解いたときの正解率R[%]との関係の一例を表したものである。課題差Δhhは、高難易度の問題を解いたときの精神性発汗のSCRの個数から、低難易度の問題を解いたときの精神性発汗のSCRの個数を減算することにより得られるベクトル量である。図35には、ユーザごとのデータがプロットされており、ユーザ全体の特徴が回帰式(回帰直線)で表されている。図35において、回帰式は、R=a17×Δhh+b17で表されている。
 精神性発汗のSCRの個数の課題差Δhhが大きいということは、高難易度の問題を解いたときと、低難易度の問題を解いたときとで、精神性発汗のSCRの個数の差分が大きいことを意味する。このような結果が得られたユーザには、高難易度の問題を解いた時に、精神性発汗のSCRの個数の課題差が他のユーザと比べて大きくなる傾向があると言える。一方、精神性発汗のSCRの個数の課題差Δhhが小さいということは、高難易度の問題を解いたときと、低難易度の問題を解いたときとで、精神性発汗のSCRの個数の差分が小さいことを意味する。このような結果が得られたユーザには、問題の難易度が高くなると、精神性発汗のSCRの個数の課題差が他のユーザと比べて小さくなる傾向があると言える。
 図35から、精神性発汗のSCRの個数の課題差Δhhが大きいとき、問題の正解率Rが高くなり、精神性発汗のSCRの個数の課題差Δhhが小さいとき、問題の正解率Rが低くなることがわかる。このことから、難しい問題でも精神性発汗のSCRの個数が大きい人は、正解率Rが高くなる(つまり、難しい問題でも、簡単な問題と同程度に正解できる)傾向を有することがわかる。逆に、難しい問題で精神性発汗のSCRの個数が小さくなる人は、正解率Rが低くなる(つまり、難しい問題の正解率が下がる)傾向を有することがわかる。
 ここで、上述したように、図21からは、正解率が高い時は覚醒度が低く、正解率が低い時は覚醒度が高いことが分かる。以上のことから、精神性発汗のSCRの個数の課題差Δhhが小さいときは、ユーザの覚醒度が所定の基準よりも低くなっていると推察することが可能となる。また、精神性発汗のSCRの個数の課題差Δhhが負方向に大きいときは、ユーザの覚醒度が所定の基準よりも高くなっていると推察することが可能となる。
 以上のことから、精神性発汗のSCRの個数の課題差Δhhと、図21、図35の回帰式とを用いることで、ユーザの覚醒度を導出することが可能であることがわかる。
 また、上記第1~第3の実施の形態およびその変形例に係る回帰式において、例えば、図36に示したように、反応時間のばらつきの課題差Δtvの代わりに、反応時間の中央値(median)の課題差Δtvが用いられてもよい。
 また、上記第1~第3の実施の形態およびその変形例において、回帰式は、直線(回帰直線)に限られるものではなく、例えば、曲線(回帰曲線)になっていてもよい。曲線(回帰曲線)は、例えば、2次関数となっていてもよい。覚醒度k[%]と正解率R[%]との関係を規定した回帰式が、例えば、図37に示したように、2次関数(R=a×k2+bk+c)で規定されていてもよい。
 また、例えば、本開示は以下のような構成を取ることができる。
(1)
 センサによって得られた対象生体の生体情報および動作情報の少なくとも1つに基づいて前記対象生体の情動情報を推定する推定部と、
 前記情動情報を表示面に表示する表示部と
 を備えた
 情報処理システム。
(2)
 前記センサによるセンシング期間における非音声のコンテキストを取得する取得部を更に備え、
 前記表示部は、前記情動情報および前記コンテキストを表示する
 (1)に記載の情報処理システム。
(3)
 前記表示部の表示を視認するユーザの顔の動画を、前記表示面に隣接して設けられたレンズを介して取得する撮像部を更に備え、
 前記表示部は、前記表示面のうち前記レンズ寄りの箇所に前記コンテキストを表示する
 (2)に記載の情報処理システム。
(4)
 前記センサによるセンシング期間における音声のコンテキストを取得する取得部を更に備え、
 前記表示部は、前記情動情報および前記コンテキストを表示する
 (1)に記載の情報処理システム。
(5)
 前記情動情報は、前記対象生体の覚醒度および快不快の少なくとも一方である
 (1)ないし(4)のいずれか1つに記載の情報処理システム。
(6)
 前記コンテキストは、前記対象生体の会話についての情報である
 (4)に記載の情報処理システム。
(7)
 前記情動情報に基づいて振動する振動部を更に備えた
 (1)ないし(6)のいずれか1つに記載の情報処理システム。
(8)
 第1センサによって得られた第1対象生体の第1生体情報および第1動作情報の少なくとも1つに基づいて前記第1対象生体の情動情報を推定する第1推定部と、
 第2センサによって得られた第2対象生体の第2生体情報および第2動作情報の少なくとも1つに基づいて前記第2対象生体の情動情報を推定する第2推定部と、
 前記第1推定部で得られた情動情報と、前記第2推定部で得られた情動情報とを表示面に一緒に表示する表示部と
 を備えた
 情報処理システム。
(9)
 前記第1センサおよび前記第2センサによるセンシング期間における非音声のコンテキストを取得する取得部を更に備え、
 前記表示部は、前記第1推定部で得られた情動情報と、前記第2推定部で得られた情動情報と、前記取得部で得られたコンテキストとを前記表示面に一緒に表示する
 (8)に記載の情報処理システム。
(10)
 前記第1対象生体は、前記表示部の表示を視認するユーザであり、
 前記第2対象生体は、コミュニケーション相手である
 (9)に記載の情報処理システム。
(11)
 前記ユーザの顔の動画を、前記表示面に隣接して設けられたレンズを介して取得する撮像部を更に備え、
 前記表示部は、前記表示面のうち前記レンズ寄りの箇所に前記コンテキストを表示する
 (10)に記載の情報処理システム。
(12)
 前記第1センサおよび前記第2センサによるセンシング期間における音声のコンテキストを取得する取得部を更に備え、
 前記表示部は、前記情動情報を表示するとともに、前記音声のコンテキストをグラフィカルに表示する
 (8)に記載の情報処理システム。
(13)
 前記第1推定部で得られた情動情報は、前記第1対象生体の覚醒度および快不快のいずれか1つであり、
 前記第2推定部で得られた情動情報は、前記第2対象生体の覚醒度および快不快のいずれか1つである
 (8)ないし(12)のいずれか1つに記載の情報処理システム。
(14)
 前記コンテキストは、前記第1対象生体の動作および会話の少なくとも一方、ならびに前記第2対象生体の動作および会話の少なくとも一方の中で、少なくとも1つについての情報である
 (8)ないし(13)のいずれか1つに記載の情報処理システム。
(15)
 センサによって得られた対象生体の生体情報および動作情報の少なくとも1つに基づいて前記対象生体の情動情報を推定する推定部と、
 前記センサによるセンシング期間におけるコンテキストを取得する取得部と、
 前記推定部で得られた前記情動情報と、前記取得部で得られた前記コンテキストとを互いに関連付ける関連付け部と
 を備えた
 情報処理システム。
(16)
 前記コンテキストは、非音声の情報であり、
 当該情報処理システムは、前記情動情報および前記コンテキストを表示面に一緒に表示する表示部を更に備えた
 (15)に記載の情報処理システム。
(17)
 前記コンテキストは、音声の情報であり、
 当該情報処理システムは、前記情動情報を表示するとともに、前記コンテキストをグラフィカルに表示する表示部を更に備えた
 を更に備えた
 (15)に記載の情報処理システム。
(18)
 第1センサによって得られた第1対象生体の第1生体情報および第1動作情報の少なくとも1つに基づいて前記第1対象生体の情動情報を推定する第1推定部と、
 第2センサによって得られた第2対象生体の第2生体情報および第2動作情報の少なくとも1つに基づいて前記第2対象生体の情動情報を推定する第2推定部と、
 前記第1センサおよび前記第2センサによるセンシング期間におけるコンテキストを取得する取得部と、
 前記第1推定部で得られた情動情報と、前記第2推定部で得られた情動情報と、前記取得部で得られた前記コンテキストとを互いに関連付ける関連付け部と
 を備えた
 情報処理システム。
(19)
 当該情報処理システムは、前記第1推定部で得られた情動情報と、前記第2推定部で得られた情動情報と、前記コンテキストとを表示面に一緒に表示する表示部を更に備えた
 (18)に記載の情報処理システム。
 本開示の第1の側面に係る情報処理システムでは、センサによって得られた対象生体の生体情報および動作情報の少なくとも1つに基づいて対象生体の情動情報が推定され、表示面に表示される。これにより、例えば、対象生体がコミュニケーション相手の場合には、ユーザは、相手の情動情報に基づいて、相手との関係構築に必要な要素を類推することができる。ここで、相手の情動情報はお互いのコミュニケーションの過程で得られる客観的な情報である。従って、相手の行動履歴、趣向情報および属性情報に基づいて、相手の人柄や関係構築に必要な要素を類推する場合と比べて、より正確な類推を行うことが可能である。また、例えば、対象生体がユーザ自身の場合には、ユーザは、ユーザ自身の情動情報に基づいて、相手との関係構築に必要な要素を類推することができる。ここで、ユーザ自身の情動情報はお互いのコミュニケーションの過程で得られる客観的な情報である。従って、相手の行動履歴、趣向情報および属性情報に基づいて、相手との関係構築に必要な要素を類推する場合と比べて、より正確な類推を行うことが可能である。従って、お互いの相性をより正確に判断することが可能である。
 本開示の第2の側面に係る情報処理システムでは、第1センサによって得られた第1対象生体の第1生体情報および第1動作情報の少なくとも1つに基づいて第1対象生体の情動情報が推定される。さらに、第2センサによって得られた第2対象生体の第2生体情報および第2動作情報の少なくとも1つに基づいて第2対象生体の情動情報が推定される。そして、第1推定部で得られた情動情報と、第2推定部で得られた情動情報とが表示面に一緒に表示される。これにより、例えば、第1対象生体がユーザ自身であり、第2対象生体がコミュニケーション相手である場合には、ユーザは、双方の情動情報に基づいて、相手との関係構築に必要な要素を類推することができる。ここで、双方の情動情報はお互いのコミュニケーションの過程で得られる客観的な情報である。従って、相手の行動履歴、趣向情報および属性情報に基づいて、相手の人柄や関係構築に必要な要素を類推する場合と比べて、より正確な類推を行うことが可能である。従って、お互いの相性をより正確に判断することが可能である。
 本開示の第3の側面に係る情報処理システムでは、センサによって得られた対象生体の生体情報および動作情報の少なくとも1つに基づいて対象生体の情動情報が推定される。さらに、センサによるセンシング期間におけるコンテキストが取得される。そして、推定部で得られた情動情報と、取得部で得られたコンテキストとが互いに関連付けられる。これにより、例えば、対象生体がコミュニケーション相手の場合には、ユーザは、相手の情動情報に基づいて、相手との関係構築に必要な要素を類推することができる。ここで、相手の情動情報はお互いのコミュニケーションの過程で得られる客観的な情報である。従って、相手の行動履歴、趣向情報および属性情報に基づいて、相手の人柄や関係構築に必要な要素を類推する場合と比べて、より正確な類推を行うことが可能である。また、例えば、対象生体がユーザ自身の場合には、ユーザは、ユーザ自身の情動情報に基づいて、相手との関係構築に必要な要素を類推することができる。ここで、ユーザ自身の情動情報はお互いのコミュニケーションの過程で得られる客観的な情報である。従って、相手の行動履歴、趣向情報および属性情報に基づいて、相手との関係構築に必要な要素を類推する場合と比べて、より正確な類推を行うことが可能である。従って、お互いの相性をより正確に判断することが可能である。
 本開示の第4の側面に係る情報処理システムでは、第1センサによって得られた第1対象生体の第1生体情報および第1動作情報の少なくとも1つに基づいて第1対象生体の情動情報が推定される。さらに、第2センサによって得られた第2対象生体の第2生体情報および第2動作情報の少なくとも1つに基づいて第2対象生体の情動情報が推定される。さらに、第1センサおよび第2センサによるセンシング期間におけるコンテキストが取得される。そして、第1推定部で得られた情動情報と、第2推定部で得られた情動情報と、取得部で得られたコンテキストとが互いに関連付けられる。これにより、例えば、第1対象生体がユーザ自身であり、第2対象生体がコミュニケーション相手である場合には、ユーザは、双方の情動情報に基づいて、相手との関係構築に必要な要素を類推することができる。ここで、双方の情動情報はお互いのコミュニケーションの過程で得られる客観的な情報である。従って、相手の行動履歴、趣向情報および属性情報に基づいて、相手の人柄や関係構築に必要な要素を類推する場合と比べて、より正確な類推を行うことが可能である。従って、お互いの相性をより正確に判断することが可能である。
 本出願は、日本国特許庁において2021年3月29日に出願された日本特許出願番号第2021-056032号および2021年8月17日に出願された日本特許出願番号第2021-132938号を基礎として優先権を主張するものであり、この出願のすべての内容を参照によって本出願に援用する。
 当業者であれば、設計上の要件や他の要因に応じて、種々の修正、コンビネーション、サブコンビネーション、および変更を想到し得るが、それらは添付の請求の範囲やその均等物の範囲に含まれるものであることが理解される。

Claims (19)

  1.  センサによって得られた対象生体の生体情報および動作情報の少なくとも1つに基づいて前記対象生体の情動情報を推定する推定部と、
     前記情動情報を表示面に表示する表示部と
     を備えた
     情報処理システム。
  2.  前記センサによるセンシング期間における非音声のコンテキストを取得する取得部を更に備え、
     前記表示部は、前記情動情報および前記コンテキストを表示する
     請求項1に記載の情報処理システム。
  3.  前記表示部の表示を視認するユーザの顔の動画を、前記表示面に隣接して設けられたレンズを介して取得する撮像部を更に備え、
     前記表示部は、前記表示面のうち前記レンズ寄りの箇所に前記コンテキストを表示する
     請求項2に記載の情報処理システム。
  4.  前記センサによるセンシング期間における音声のコンテキストを取得する取得部を更に備え、
     前記表示部は、前記情動情報および前記コンテキストを表示する
     請求項1に記載の情報処理システム。
  5.  前記情動情報は、前記対象生体の覚醒度および快不快の少なくとも一方である
     請求項1に記載の情報処理システム。
  6.  前記コンテキストは、前記対象生体の会話についての情報である
     請求項4に記載の情報処理システム。
  7.  前記情動情報に基づいて振動する振動部を更に備えた
     請求項1に記載の情報処理システム。
  8.  第1センサによって得られた第1対象生体の第1生体情報および第1動作情報の少なくとも1つに基づいて前記第1対象生体の情動情報を推定する第1推定部と、
     第2センサによって得られた第2対象生体の第2生体情報および第2動作情報の少なくとも1つに基づいて前記第2対象生体の情動情報を推定する第2推定部と、
     前記第1推定部で得られた情動情報と、前記第2推定部で得られた情動情報とを表示面に一緒に表示する表示部と
     を備えた
     情報処理システム。
  9.  前記第1センサおよび前記第2センサによるセンシング期間における非音声のコンテキストを取得する取得部を更に備え、
     前記表示部は、前記第1推定部で得られた情動情報と、前記第2推定部で得られた情動情報と、前記取得部で得られたコンテキストとを前記表示面に一緒に表示する
     請求項8に記載の情報処理システム。
  10.  前記第1対象生体は、前記表示部の表示を視認するユーザであり、
     前記第2対象生体は、コミュニケーション相手である 請求項9に記載の情報処理システム。
  11.  前記ユーザの顔の動画を、前記表示面に隣接して設けられたレンズを介して取得する撮像部を更に備え、
     前記表示部は、前記表示面のうち前記レンズ寄りの箇所に前記コンテキストを表示する
     請求項10に記載の情報処理システム。
  12.  前記第1センサおよび前記第2センサによるセンシング期間における音声のコンテキストを取得する取得部を更に備え、
     前記表示部は、前記情動情報を表示するとともに、前記音声のコンテキストをグラフィカルに表示する
     請求項8に記載の情報処理システム。
  13.  前記第1推定部で得られた情動情報は、前記第1対象生体の覚醒度および快不快のいずれか1つであり、
     前記第2推定部で得られた情動情報は、前記第2対象生体の覚醒度および快不快のいずれか1つである
     請求項8に記載の情報処理システム。
  14.  前記コンテキストは、前記第1対象生体の動作および会話の少なくとも一方、ならびに前記第2対象生体の動作および会話の少なくとも一方の中で、少なくとも1つについての情報である
     請求項8に記載の情報処理システム。
  15.  センサによって得られた対象生体の生体情報および動作情報の少なくとも1つに基づいて前記対象生体の情動情報を推定する推定部と、
     前記センサによるセンシング期間におけるコンテキストを取得する取得部と、
     前記推定部で得られた前記情動情報と、前記取得部で得られた前記コンテキストとを互いに関連付ける関連付け部と
     を備えた
     情報処理システム。
  16.  前記コンテキストは、非音声の情報であり、
     当該情報処理システムは、前記情動情報および前記コンテキストを表示面に一緒に表示する表示部を更に備えた
     請求項15に記載の情報処理システム。
  17.  前記コンテキストは、音声の情報であり、
     当該情報処理システムは、
     当該情報処理システムは、前記情動情報を表示するとともに、前記コンテキストをグラフィカルに表示する表示部を更に備えた
     を更に備えた
     請求項15に記載の情報処理システム。
  18.  第1センサによって得られた第1対象生体の第1生体情報および第1動作情報の少なくとも1つに基づいて前記第1対象生体の情動情報を推定する第1推定部と、
     第2センサによって得られた第2対象生体の第2生体情報および第2動作情報の少なくとも1つに基づいて前記第2対象生体の情動情報を推定する第2推定部と、
     前記第1センサおよび前記第2センサによるセンシング期間におけるコンテキストを取得する取得部と、
     前記第1推定部で得られた情動情報と、前記第2推定部で得られた情動情報と、前記取得部で得られた前記コンテキストとを互いに関連付ける関連付け部と
     を備えた
     情報処理システム。
  19.  当該情報処理システムは、前記第1推定部で得られた情動情報と、前記第2推定部で得られた情動情報と、前記コンテキストとを表示面に一緒に表示する表示部を更に備えた
     請求項18に記載の情報処理システム。
PCT/JP2022/008063 2021-03-29 2022-02-25 情動情報を表示する情報処理システム WO2022209499A1 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2021056032 2021-03-29
JP2021-056032 2021-03-29
JP2021-132938 2021-08-17
JP2021132938A JP2022153233A (ja) 2021-03-29 2021-08-17 情報処理システム

Publications (1)

Publication Number Publication Date
WO2022209499A1 true WO2022209499A1 (ja) 2022-10-06

Family

ID=83458481

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/008063 WO2022209499A1 (ja) 2021-03-29 2022-02-25 情動情報を表示する情報処理システム

Country Status (1)

Country Link
WO (1) WO2022209499A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005198828A (ja) * 2004-01-15 2005-07-28 Seiko Epson Corp 生体情報解析装置、生体情報解析方法、制御プログラムおよび記録媒体
WO2016170810A1 (ja) * 2015-04-23 2016-10-27 ソニー株式会社 情報処理装置、制御方法、およびプログラム
JP2019029984A (ja) * 2017-07-27 2019-02-21 大日本印刷株式会社 情報処理装置、情報処理方法、映像データ、プログラム、及び情報処理システム
WO2020116280A1 (ja) * 2018-12-04 2020-06-11 日本電気株式会社 学習支援装置、学習支援方法および記録媒体

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005198828A (ja) * 2004-01-15 2005-07-28 Seiko Epson Corp 生体情報解析装置、生体情報解析方法、制御プログラムおよび記録媒体
WO2016170810A1 (ja) * 2015-04-23 2016-10-27 ソニー株式会社 情報処理装置、制御方法、およびプログラム
JP2019029984A (ja) * 2017-07-27 2019-02-21 大日本印刷株式会社 情報処理装置、情報処理方法、映像データ、プログラム、及び情報処理システム
WO2020116280A1 (ja) * 2018-12-04 2020-06-11 日本電気株式会社 学習支援装置、学習支援方法および記録媒体

Similar Documents

Publication Publication Date Title
US11883197B1 (en) Head-mounted physiological signal monitoring system, devices and methods
Girardi et al. Emotion detection using noninvasive low cost sensors
López-Gil et al. Method for improving EEG based emotion recognition by combining it with synchronized biometric and eye tracking technologies in a non-invasive and low cost way
CN111758229B (zh) 基于生物特征传感器数据数字地表示用户参与定向内容
US11344249B2 (en) Device for neurovascular stimulation
Blascovich et al. Social psychophysiology for social and personality psychology
US20240023892A1 (en) Method and system for collecting and processing bioelectrical signals
KR20190026651A (ko) 사람의 비전 성능에 접근하기 위해 비전 데이터를 획득, 집계 및 분석하기 위한 방법 및 시스템
US20210118323A1 (en) Method and apparatus for interactive monitoring of emotion during teletherapy
US11635816B2 (en) Information processing apparatus and non-transitory computer readable medium
Bernal et al. Galea: A physiological sensing system for behavioral research in Virtual Environments
Abadi et al. Multimodal engagement classification for affective cinema
KR20230134118A (ko) 정신 상태 및 입력 명령을 결정하기 위한 생체 데이터 모니터링
Tivatansakul et al. Healthcare system design focusing on emotional aspects using augmented reality—Relaxed service design
JP2022153232A (ja) 生体情報処理装置および生体情報処理システム
WO2022209499A1 (ja) 情動情報を表示する情報処理システム
JP2022153233A (ja) 情報処理システム
WO2022209498A1 (ja) 生体情報処理装置および生体情報処理システム
US20240161543A1 (en) Biological information processing device and biological information processing system
WO2020132941A1 (zh) 识别方法及相关装置
Yasemin et al. Emotional state estimation using sensor fusion of EEG and EDA
US11769595B2 (en) Information processing apparatus and non-transitory computer readable medium
Wascher et al. Neuroergonomics on the go. A preview of the potential of mobile EEG for work-place evaluation and design
Cipresso et al. Contactless bio-behavioral technologies for virtual reality
WO2023199422A1 (ja) 内面状態推定装置、内面状態推定方法及び記憶媒体

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22779724

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 18550980

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 22779724

Country of ref document: EP

Kind code of ref document: A1