WO2024122350A1 - 信号処理装置および方法 - Google Patents

信号処理装置および方法 Download PDF

Info

Publication number
WO2024122350A1
WO2024122350A1 PCT/JP2023/042048 JP2023042048W WO2024122350A1 WO 2024122350 A1 WO2024122350 A1 WO 2024122350A1 JP 2023042048 W JP2023042048 W JP 2023042048W WO 2024122350 A1 WO2024122350 A1 WO 2024122350A1
Authority
WO
WIPO (PCT)
Prior art keywords
unit
processing device
normalization
signal processing
application
Prior art date
Application number
PCT/JP2023/042048
Other languages
English (en)
French (fr)
Inventor
靖英 兵動
清士 吉川
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Publication of WO2024122350A1 publication Critical patent/WO2024122350A1/ja

Links

Images

Definitions

  • This technology relates to a signal processing device and method, and in particular to a signal processing device and method that can improve the accuracy of emotion estimation.
  • Emotions are a type of feeling, and are transient emotional states with large reaction amplitudes that arise suddenly and last for a short period of time.
  • physiological responses such as brain waves, heart rate, and sweating are expressed on the body surface.
  • An emotion estimation system that estimates a person's emotions reads these physiological responses as biosignals using sensor devices, extracts features such as physiological indicators that contribute to emotions through signal processing, and estimates the user's emotions from the features using a model obtained through machine learning.
  • Types of emotions are classified along two axes: pleasantness/unpleasantness and arousal level.
  • the emotional state reaction range which is the range within which an application reacts (detects) to a person's emotional state, differs depending on the application.
  • the emotional state reaction range using high and low levels of arousal (stress and relaxation) as an example (see Patent Document 1).
  • the emotion estimation system needs to control the sensitivity change due to the behavioral context (behavioral state) of the physiological response shown in the above-mentioned non-patent document 1.
  • a signal processing device includes a feature extraction unit that extracts input features based on a measured biosignal, a response range correction unit that corrects a normalization coefficient according to a context related to a user, a normalization unit that normalizes the input features using the normalization coefficient corrected by the response range correction unit, and an emotional state time series labeling unit that outputs a predicted label of an emotional state for the normalized input features using a machine learning model constructed in advance.
  • input features are extracted based on measured biosignals. Then, a normalization coefficient is corrected according to the context related to the user, the input features are normalized by the corrected normalization coefficient, and a predicted label of the emotional state is output for the normalized input features by a pre-constructed machine learning model.
  • FIG. 1 is a block diagram showing an example configuration of an emotion estimation processing device according to an embodiment of the present technology
  • 2 is a functional block diagram showing an example of functional configurations of an APP norm acquisition unit, a normalization unit, an emotional state time-series labeling unit, and a stabilization processing unit in FIG. 1
  • FIG. 13 is a diagram showing a first example of response range correction according to an application standard.
  • FIG. 13 is a diagram showing a second example of response range correction according to an application standard.
  • FIG. 13 is a diagram showing a third example of response range correction according to an application standard.
  • 13A and 13B are diagrams illustrating an example of a range correction process according to an action state.
  • 2 is a flowchart illustrating emotion estimation processing of the emotion estimation processing device of FIG. 1 .
  • FIG. 8 is a flowchart illustrating the reaction range adjustment process in step S13 of FIG. 7.
  • 11 is a block diagram showing an example configuration of an emotion estimation processing device according to a second embodiment of the present technology.
  • FIG. 10 is a flowchart illustrating emotion estimation processing by the emotion estimation processing device of FIG. 9 .
  • 11A and 11B are diagrams illustrating an example of range correction processing according to a position state.
  • FIG. 1 is a block diagram illustrating an example of the configuration of a computer.
  • First embodiment basic configuration
  • Second embodiment addition of signal quality determination unit
  • FIG. 1 is a block diagram showing an example configuration of an emotion estimation processing device according to a first embodiment of the present technology.
  • the emotion estimation processing device 1 in FIG. 1 is a signal processing device that detects a signal related to the state of a living organism (hereinafter referred to as a biosignal) and estimates the emotional state of the living organism based on the detected biosignal.
  • the emotion estimation processing device 1 is attached directly to a living organism in order to detect the biosignal.
  • the living organism that is the subject of emotional state estimation (hereinafter referred to as a target living organism) is a human. Note that in the emotion estimation processing device 1, the target living organism is not limited to a human.
  • the emotion estimation processing device 1 when the emotion estimation processing device 1 is configured as in-ear headphones or a headband, the ears are the measurement sites.
  • the emotion estimation processing device 1 When the emotion estimation processing device 1 is configured as VR (Virtual Reality) goggles, the forehead is the measurement site.
  • the emotion estimation processing device 1 When the emotion estimation processing device 1 is configured as a band, the arm or leg to which the band is attached is the measurement site.
  • the emotion estimation processing device 1 may be configured as a server that receives the detected biosignals and performs emotion estimation processing, separate from the device that detects the biosignals.
  • the emotion estimation processing device 1 is configured to include a sensor data acquisition unit 21, a filter preprocessing unit 22, a feature extraction unit 23, an application (hereinafter, APP) norm acquisition unit 24, a behavioral state reaction range correction unit 25, a normalization unit 26, an emotion state time series labeling unit 27, a stabilization processing unit 28, and a judgment unit 29.
  • APP application
  • the sensor data acquisition unit 21 acquires, for example, a biological signal (raw data) from a sensor (not shown) provided in the emotion estimation processing device 1.
  • the sensor may be, for example, a type of sensor that comes into contact with the target living body, or a type of sensor that does not come into contact with the target living body.
  • the sensor is, for example, a sensor that detects information (biological signals) about at least one of the following: brain waves, sweating (mental), pulse waves, electrocardiogram, blood flow, continuous blood pressure, breathing, skin temperature, facial myoelectric potential, electrooculography, blinking, and specific components contained in saliva.
  • the filter pre-processing unit 22 performs pre-processing such as band-pass filtering and noise removal on the biosignal acquired by the sensor data acquisition unit 21.
  • the filter pre-processing unit 22 outputs the biosignal that has been pre-processed to the feature extraction unit 23.
  • the feature extraction unit 23 uses the biosignals supplied from the filter preprocessing unit 22 to extract features as model input variables for estimating the emotional state.
  • the feature extraction unit 23 outputs the extracted features to the APP norm acquisition unit 24 and the normalization unit 26.
  • the feature extraction unit 23 can also perform signal processing to extract features that contribute to emotions in a data-driven manner, for example, by using deep learning or an autoencoder.
  • arousal stress and relaxation
  • an emotional meditation application a person is basically in a relaxed state, and the application is required to visualize the subtleties of arousal while in a relaxed state.
  • an activity life log application visualization of stress states in daily life
  • visualization of both arousal and relaxation states within a day or over a long period of time is required.
  • the APP norm acquisition unit 24 adjusts the reaction range by converting the normalization coefficient according to the reaction range of the emotional state of the application launched by the emotion estimation processing device 1.
  • the APP norm acquisition unit 24 stores in advance in a memory (not shown) the features of the data used to construct a reference model for each application and normalization coefficients for the features.
  • the reference model is a machine learning model used in the emotional state time series labeling unit 27, details of which will be described later.
  • the APP norm acquisition unit 24 selects a reference model corresponding to the application to be launched, and acquires from memory the normalization coefficients of the features of the selected reference model.
  • the APP norm acquisition unit 24 derives a conversion table for converting the normalization coefficients according to the reaction range of the emotional state of the application.
  • the APP norm acquisition unit 24 converts the acquired normalization coefficients using the derived conversion table.
  • the APP norm acquisition unit 24 outputs the converted normalization coefficients to the behavioral state reaction range correction unit 25.
  • the behavioral state response range correction unit 25 corrects the response range adjusted by the APP norm acquisition unit 24 by taking into account the influence of the user's behavioral state and correcting the normalization coefficient.
  • the behavioral state response range correction unit 25 performs gain adjustment on the normalization coefficient converted by the APP norm acquisition unit 24 according to the behavioral context obtained from, for example, an inertial measurement unit (IMU).
  • IMU inertial measurement unit
  • the behavioral context represents a behavioral state, etc.
  • the behavioral state response range correction unit 25 outputs the gain-adjusted normalization coefficient to the normalization unit 26.
  • the normalization unit 26 normalizes the features supplied from the feature extraction unit 23 using the normalization coefficients supplied from the behavioral state response range correction unit 25.
  • the normalization unit 26 outputs the normalized features to the emotional state time series labeling unit 27.
  • the emotional state time series labeling unit 27 has multiple reference models for each application.
  • the emotional state time series labeling unit 27 receives as input the time series feature quantities within the sliding window, among the feature quantities supplied from the normalization unit 26.
  • the emotional state time series labeling unit 27 identifies predicted labels for the time series emotional states using the reference models, and labels the emotional states with the identified predicted labels.
  • the emotional state time series labeling unit 27 outputs the time series data of the predicted labels, which are the labeling results of the time series emotional states, to the stabilization processing unit 28. At this time, the reliability of the predicted labels obtained from the reference model is also output.
  • discriminative models used in time series data analysis and natural language processing are generally assumed as the reference model.
  • Specific examples include Support Vector Machine (SVM), k-Nearest Neighbor (k-NN), Linear Discriminant Analysis (LDA), Hidden Markov Models (HMM), Conditional Random Fields (CRF), Structured Output Support Vector Machine (SOSVM), Bayesian Network, Recurrent Neural Network (RNN), and Long Short Term Memory (LSTM).
  • SVM Support Vector Machine
  • k-NN Linear Discriminant Analysis
  • HMM Hidden Markov Models
  • CRF Conditional Random Fields
  • SOSVM Structured Output Support Vector Machine
  • RNN Recurrent Neural Network
  • LSTM Long Short Term Memory
  • the stabilization processing unit 28 uses the time series data of the predicted labels of the emotional states supplied from the emotional state time series labeling unit 27 to weight and add the predicted labels of the time series emotional states according to the reliability of the predicted labels of the emotional states within the sliding window, and outputs the representative value of the predicted label and the reliability of the representative value of the predicted label to the determination unit 29 as the emotion estimation result.
  • the reliability of the representative value of the predicted label is the reliability when the representative value of the predicted label is calculated.
  • the stabilization processing unit 28 calculates the reliability of the representative value of the predicted label within the sliding window by weighting and adding the predicted labels of the emotional states within the sliding window according to the reliability of the predicted labels. Furthermore, the stabilization processing unit 28 performs threshold processing on the reliability of the representative value of the predicted label, and outputs the representative value of the predicted label as the emotion estimation result.
  • the reliability r of the representative value of the predicted label is calculated using the following formula (1).
  • i is the event number among the multiple events detected within the sliding window
  • y is the predicted label of the emotional state
  • c is the reliability of the predicted label obtained from the reference model
  • ⁇ t i is the duration of the i-th event
  • w is the forgetting weight, which is smaller for events that are earlier in the past.
  • the reliability of the representative value of the predicted labels within the sliding window is calculated as a continuous value of [-1 1] for the reliability of the predicted labels of the emotional states of multiple events detected within the sliding window.
  • the reliability r which is the output of formula (1), is thresholded and substituted into the following formula (2), to calculate the representative value z of the predicted label as the emotion estimation result.
  • the numerical value of the representative value z of the predicted label of the emotion estimation result depends on the definition of the predicted label y of the user's emotional state.
  • the predicted label of the emotional state indicates the identification result of arousal
  • the predicted label of the emotional state is defined as two classes, 0 or 1, representing low/high arousal.
  • the representative value z of the predicted label of the emotion estimation result is 0, the user's emotional state at the corresponding time is identified as low arousal (relaxed state).
  • the representative value z of the predicted label of the emotion estimation result is 1, the user's emotional state at the corresponding time is identified as high arousal (awake and focused state).
  • the determination unit 29 determines the emotional state of the target living organism using the representative value of the predicted label supplied from the stabilization processing unit 28 and the reliability of the representative value of the predicted label.
  • FIG. 2 is a functional block diagram showing an example of the functional configuration of the APP norm acquisition unit 24, the normalization unit 26, the emotional state time-series labeling unit 27, and the stabilization processing unit 28 shown in FIG.
  • the emotional state time series labeling unit 27 in FIG. 2 has a reference model for each application that is constructed in advance.
  • the reaction range to the emotional state differs for each application.
  • the emotional state time series labeling unit 27 has multiple reference models (e.g., three reference models 61-1 to 61-3) that differ from each other in the level of emotional state.
  • the reference models include, for example, a regression model or a discrimination model.
  • reference model 61-1 is a model for a state of low arousal (e.g., a relaxation level estimation model described below).
  • Reference model 61-2 is a model for a state of medium arousal.
  • Reference model 61-3 is a model for a state of high arousal (e.g., arousal level estimation model described below).
  • reference models 61-1 to 61-3 are referred to as reference model 61.
  • the emotion estimation processing device 1 estimates the emotional state of a target living organism using multiple reference models 61 with different emotional state response ranges provided in the emotional state time series labeling unit 27.
  • the target organism for constructing the reference model 61 is usually different from the target organism for which emotion estimation is performed by the emotion estimation processing device 1.
  • the APP norm acquisition unit 24 is composed of a normalization information acquisition unit 41 and a normalization coefficient conversion unit 42.
  • the APP norm acquisition unit 24 acquires an application trigger issued by an application started in the emotion estimation processing device 1.
  • the normalization information acquisition unit 41 holds the features or normalization coefficients of the features when constructing the reference model for each application. In addition, the features are supplied to the normalization information acquisition unit 41 from the feature extraction unit 23.
  • the normalization information acquisition unit 41 acquires the features at the time of construction of the retained reference model according to the type of application obtained from the application trigger, and outputs the acquired features and the features extracted by the feature extraction unit 23 to the normalization coefficient conversion unit 42.
  • construction features the features at the time of construction of the reference model
  • the features extracted by the feature extraction unit 23 will be referred to as input features.
  • the normalization information acquisition unit 41 acquires the normalization coefficients of the construction features of the retained reference model according to the type of application acquired from the application trigger, and outputs them to the normalization coefficient conversion unit 42.
  • the normalization method is MIN-MAX normalization (normalization to 0 to 1 based on the MAX-MIN of the feature distribution)
  • the feature X before normalization is normalized by (X - Xmin) / (Xmax - Xmin).
  • the normalization information acquisition unit 41 acquires Xmin and Xmax as normalization coefficients (Xmax is the maximum value of the feature, and Xmin is the minimum value of the feature). More generally, since feature normalization corresponds to a spatial mapping, the normalization coefficient is expressed as a mapping function such as g1().
  • the normalization method is not limited to MIN-MAX normalization, and may be other methods such as Z standardization (standardization based on the mean and variance of the distribution of the feature quantities).
  • Z standardization standardization based on the mean and variance of the distribution of the feature quantities.
  • the normalization coefficient conversion unit 42 converts the normalization coefficient supplied from the normalization information acquisition unit 41 when there is a gap between the reaction range of the emotional state of the reference model and the reaction range of the emotional state assumed by the application.
  • the normalization information acquisition unit 41 selects a reference model (for example, reference model 61-1) that the application supports. This is to perform mapping (transformation) with high accuracy.
  • the normalization coefficient conversion unit 42 converts the normalization coefficient of this reference model based on the input feature from the normalization information acquisition unit 41 and the construction-time feature of the reference model selected by the normalization information acquisition unit 41. That is, the normalization coefficient conversion unit 42 derives a conversion table g2() that maps, for example, the construction-time feature used when constructing the selected reference model 61-1 to the input feature input from the normalization information acquisition unit 41.
  • the conversion table g2() may be derived in advance, for example, when the application is executed for the first time, and stored in the normalization coefficient conversion unit 42. In this case, the normalization coefficient conversion unit 42 selects the stored conversion table g2().
  • the normalization coefficient conversion unit 42 converts the normalization coefficient g1() using the derived conversion table g2(), and outputs the converted normalization coefficient g2(g1()) to the behavioral state response range correction unit 25.
  • a conversion table may be derived for each reference model 61, or a conversion table for one reference model 61 may be derived in advance, and conversion tables for other reference models 61 may be obtained from the correlation of the features when each reference model 61 is generated.
  • the behavioral state response range correction unit 25 corrects the normalization coefficient taking into account the influence of the user's behavioral state. That is, the behavioral state response range correction unit 25 performs gain adjustment on the normalization coefficient converted by the APP norm acquisition unit 24 by selecting, for example, an adjustment gain table g3() according to the behavioral context obtained from the IMU.
  • the behavioral state response range correction unit 25 outputs the gain-adjusted normalization coefficient g3(g2(g1())) to the normalization unit 26.
  • the normalization unit 26 has multiple normalization units 51-1 to 51-3, one for each reference model (e.g., reference models 61-1 to 61-3) included in the emotional state time series labeling unit 27.
  • reference model e.g., reference models 61-1 to 61-3
  • Normalization unit 51-1 is provided to correspond to reference model 61-1.
  • Normalization unit 51-2 is provided to correspond to reference model 61-2.
  • Normalization unit 51-3 is provided to correspond to reference model 61-3. Note that when there is no need to particularly distinguish between normalization units 51-1 to 51-3, they will be referred to as normalization unit 51.
  • the normalization unit 51 performs a predetermined normalization on the features of the data supplied from the feature extraction unit 23.
  • the normalization unit 51 normalizes the feature x of the data supplied from the feature extraction unit 23 using the normalization coefficient g3(g2(g1()) supplied from the behavioral state response range correction unit 25, and outputs the data g3(g2(g1(x)) obtained thereby to the corresponding reference model 61.
  • the emotional state time series labeling unit 27 is configured to include reference models 61-1 to 61-3.
  • the reference model 61 When normalized data is input from the corresponding normalization unit 51, the reference model 61 outputs a predicted label of the emotional state according to the features of the input data.
  • the stabilization processing unit 28 is configured to include stabilization processing units 71-1 to 71-3 corresponding to the reference models 61-1 to 61-3, respectively. Note that when there is no need to particularly distinguish between the stabilization processing units 71-1-1 to 71-3, they will be referred to as the stabilization processing unit 71.
  • the stabilization processing unit 71 uses the time series data of the predicted labels of the emotional states supplied from the corresponding reference model 61 to weight and add the predicted labels of the time series of emotional states according to the reliability of the predicted labels of the emotional states within the sliding window, and outputs the representative value of the predicted labels and the reliability of the representative value of the predicted labels to the determination unit 29 as the emotion estimation result.
  • the determination unit 29 determines the emotional state of the target living organism based on the emotion estimation results supplied from the stabilization processing units 71-1 to 71-3.
  • the determination unit 29 may determine the emotional state of the target organism using a method other than majority voting.
  • the determination unit 29 may also estimate the emotion of the target organism using only the determination results corresponding to the selected reference model.
  • FIG. 3 is a diagram showing a first example of reaction range adjustment of an application.
  • the vertical axis represents the characteristic amount of the physiological response.
  • the dashed line represents the baseline, which indicates a person's neutral biological state. When a person is more concentrated than in a neutral state, the characteristic amount changes in the direction of arousal (a direction in which the value is larger than the dashed line), and when a person is more relaxed than in a neutral state, the characteristic amount changes in the direction of relaxation (a direction in which the value is smaller than the dashed line). The same applies to the subsequent figures.
  • concentration level estimation model corresponds to the reference model 61-3 described above.
  • the response range of the input features expected when using an actual application is wider than the response range of the features when the model is constructed.
  • a reference model 61-3 concentration estimation model
  • a conversion table g2-1() is derived.
  • FIG. 4 is a diagram showing a second example of reaction range adjustment according to an application standard.
  • Figure 4 shows a comparison between the response range of the features at the time the model was constructed (left side of the figure) and the response range of the input features expected when the application is used (right side of the figure) when arousal level is low as the expected response of the application, when an application that estimates concentration level and a concentration level estimation model corresponding to that application are used.
  • the response range of the input features expected when using an actual application is much narrower than the response range of the features when the model is constructed.
  • a reference model 61-3 concentration estimation model
  • a conversion table g2-2() is derived.
  • FIG. 5 is a diagram showing a third example of reaction range adjustment according to an application standard.
  • FIG. 5 a comparison is shown between the response range of the features at the time of constructing the model (left side of the figure) and the response range of the input features expected when using the application (right side of the figure) when an application that estimates the degree of relaxation and a relaxation degree estimation model corresponding to that application are used.
  • the relaxation degree estimation corresponds to the reference model 61-1 described above.
  • the response range of the features used when building the model and the response range of the input features expected when using the actual application are generally smaller than the baseline.
  • the response range of the input features expected when using an actual application is narrower than the response range of the features when the model is constructed.
  • a reference model 61-1 (relaxation level estimation model) is selected based on type information obtained by acquiring an application trigger issued when the application is started, and a conversion table g2-3() is derived.
  • the emotion estimation processing device 1 stores in advance multiple reference models according to the target (norm) of the launched application, such as the level of arousal or the state of relaxation, and conversion tables g2-1 to g2-3 are derived for each reference model and selected respectively. The input feature amount is then normalized using the selected conversion table.
  • FIG. 6 is a diagram showing an example of range correction processing according to an action state.
  • the vertical axis represents the feature gain.
  • the response range of the feature becomes wider, and when the feature gain is small, the response range of the feature becomes narrower.
  • the horizontal axis represents the level of activity.
  • the feature gain table g3-1() is large (1.0 or more) when the activity level is low, and gradually decreases as the activity level increases. In other words, the feature gain table g3-1() is expressed as a monotonically decreasing value with respect to the activity level.
  • Non-Patent Document 1 As an example of the characteristics of emotional physiological responses according to a person's behavioral state, as shown in Non-Patent Document 1, the greater the activity state (the higher the activity level), the less sensitive the physiological response becomes.
  • the behavioral state response range correction unit 25 assumes that the response sensitivity of the physiological response decreases as the activity level increases, and performs processing to narrow the response range of the feature as the activity level increases, using the feature gain table g3-1() in FIG. 6. In other words, in order to deal with the decrease in physiological response according to the high activity level based on the behavioral context, processing is performed to increase the estimation sensitivity of the emotion estimation.
  • this technology allows the emotion estimation processing device 1 in FIG. 1 to control sensitivity changes due to the behavioral context of physiological reactions, thereby making it possible to achieve optimal emotion estimation accuracy according to the application.
  • FIG. 7 is a flowchart illustrating the emotion estimation process of the emotion estimation processing device 1.
  • step S11 the filter pre-processing unit 22 performs pre-processing such as band-pass filtering and noise removal on the biosignal acquired by the sensor data acquisition unit 21.
  • the filter pre-processing unit 12 outputs the biosignal that has been pre-processed to the feature extraction unit 23.
  • step S12 the feature extraction unit 23 uses the biosignal supplied from the filter preprocessing unit 22 to extract features as model input variables for estimating the emotional state.
  • the feature extraction unit 23 outputs the extracted features to the APP norm acquisition unit 24 and the normalization unit 26.
  • step S13 the APP norm acquisition unit 24 and the behavioral state reaction range correction unit 25 perform reaction range adjustment processing according to the application and the behavioral state. This reaction range adjustment processing will be described later with reference to FIG. 8. With step S13, reaction range adjustment processing according to the application is performed, and reaction range correction processing according to the behavioral state is performed, as described above with reference to FIG. 3 to FIG. 6.
  • step S14 the normalization unit 26 normalizes the feature quantities supplied from the feature quantity extraction unit 23 using the normalization coefficients supplied from the behavioral state response range correction unit 25.
  • the normalization unit 26 outputs the normalized feature quantities to the emotional state time series labeling unit 27.
  • step S15 the emotional state time series labeling unit 27 performs time series labeling of the emotional states. That is, the emotional state time series labeling unit 27 receives as input the time series feature quantities within the sliding window, among the feature quantities supplied from the normalization unit 26. The emotional state time series labeling unit 27 identifies and labels the predicted labels of the time series emotional states using the reference model.
  • the emotional state time series labeling unit 27 outputs the time series data of the predicted labels, which are the labeling results of the time series emotional states, to the stabilization processing unit 28. At this time, the reliability of the predicted labels obtained from the reference model is also output.
  • the stabilization processing unit 28 calculates the representative value of the predicted label. That is, the stabilization processing unit 28 receives the time-series emotional state labels supplied from the emotional state time-series labeling unit 27 as input, and calculates the reliability of the representative value of the predicted label within the sliding window. The stabilization processing unit 28 performs threshold processing on the reliability r of the representative value of the predicted label using the above-mentioned equation (2), and outputs the representative value z of the predicted label as the emotion estimation result. The stabilization processing unit 28 outputs the representative value of the predicted label and the reliability of the representative value of the predicted label to the determination unit 29 as the emotion estimation result.
  • step S17 the determination unit 29 determines the emotional state of the target living organism using the representative value of the predicted label and the reliability of the representative value of the predicted label supplied from the stabilization processing unit 28.
  • the determination unit 29 outputs the determination result of the emotional state of the target living organism to a subsequent stage.
  • FIG. 8 is a flow chart illustrating the reaction range adjustment process in step S13 of FIG.
  • the behavioral state reaction range correction unit 25 acquires information related to the behavioral context supplied from the IMU.
  • the IMU acquires angular velocity information and acceleration information, and based on the acquired information, identifies the behavioral state of the person, such as whether the person is at rest, walking, or exercising, and identifies the behavioral context, which is information indicating the identified behavioral state.
  • the IMU outputs information related to the identified behavioral context to the behavioral state reaction range correction unit 25.
  • the behavioral state reaction range correction unit 25 acquires information related to the behavioral context output from the IMU.
  • the APP norm acquisition unit 24 acquires an application trigger and identifies the acquisition timing and the type of application. For example, when an emotional meditation application is launched, the launched emotional meditation application issues an application trigger. The APP norm acquisition unit 24 acquires the application trigger issued by the emotional meditation application and identifies the type of application as an emotional meditation application.
  • step S53 the APP norm acquisition unit 24 selects a reference model according to the application whose type has been specified, and adjusts the reaction range according to the norm of the high and low emotional states of the application whose type has been specified.
  • the normalization coefficient conversion unit 42 converts the normalization coefficients of the construction features of the reference model according to the reaction range of the emotional state of the application, based on the input features input from the normalization information acquisition unit 41 and the construction features used when constructing the selected reference model.
  • the normalization coefficient conversion unit 42 derives a conversion table g2() that maps, for example, the construction-time features of the selected reference model to the input features supplied from the normalization information acquisition unit 41.
  • the normalization coefficient conversion unit 42 converts the normalization coefficient using the derived conversion table g2().
  • the converted normalization coefficient g2 (g1()) is output to the behavioral state response range correction unit 25.
  • step S54 the behavioral state response range correction unit 25 performs response range correction based on the user's behavioral state.
  • the behavioral state response range correction unit 25 performs gain adjustment on the normalization coefficient g2(g1()) converted by the APP norm acquisition unit 24 by selecting, for example, an adjustment gain table g3() that performs gain adjustment according to the behavioral context obtained from the IMU.
  • the behavioral state response range correction unit 25 outputs the gain-adjusted normalization coefficient g3(g2(g1())) to the normalization unit 26.
  • FIG. 9 is a block diagram illustrating an example configuration of an emotion estimation processing device according to the second embodiment of the present technology.
  • a signal quality determination unit 111 is added to further improve the robustness of emotion estimation against noise when noise occurs due to body movement or the like in a real environment.
  • the emotion estimation processing device 101 in FIG. 9 differs from the emotion estimation processing device 1 in FIG. 1 in that a signal quality determination unit 111 has been added and that the stabilization processing unit 28 has been replaced with a stabilization processing unit 112.
  • the same reference numerals are used to denote units corresponding to those in FIG. 1.
  • the signal quality determination unit 111 analyzes the waveform of the biological signal acquired by the sensor data acquisition unit 21 and identifies the type of artifact (such as noise other than the target signal). For example, types of artifacts include eye movement noise, electromyography noise, blink noise, electrocardiography noise, etc.
  • the signal quality determination unit 111 determines the signal quality based on the identification result, and calculates a signal quality score as the signal quality determination result.
  • the stabilization processing unit 112 performs weighted summation using the reliability of the predicted label of the emotional state and the signal quality score, which is the judgment result of the signal quality judgment unit 111, and outputs the representative value of the predicted label and the reliability of the representative value of the predicted label as the emotion estimation result.
  • the signal quality determination unit 111 calculates time-series data of the signal quality score and outputs it to the stabilization processing unit 112.
  • the stabilization processing unit 112 uses this signal quality score and feeds back the signal quality as a weight in calculating the reliability of the representative value of the predicted label.
  • the method of calculating the reliability r of the representative value after feeding back the signal quality can be defined as the following formula (3) based on the above-mentioned formula (1).
  • the reliability of the representative value of the predicted labels within the sliding window is calculated as a continuous value of [-1 1] for the reliability of the predicted labels of the emotional states of multiple events detected within the sliding window.
  • the reliability r which is the output of equation (3), is subjected to threshold processing and substituted into the above-mentioned equation (2), to calculate the representative value z of the predicted label as the emotion estimation result.
  • Equation (3) has the property that the reliability r is small in a sliding window with low signal quality.
  • equation (4) can be normalized by including s i in the denominator. This allows for unified emotion determination even between sliding windows with different signal qualities.
  • the signal quality determination unit 111 may use existing signal quality determination, and based on the existing signal quality determination technology, a signal quality score (SQE score) specialized for the processing in the stabilization processing unit 112 (equation (3)) is calculated.
  • SQL score signal quality score
  • the discrimination classes for each type of noise are defined in advance, and a discrimination model is constructed by supervised learning.
  • the discrimination model for quality assessment is referred to as the SQE discrimination model, which stands for Signal Quality Estimation
  • the predefined discrimination classes are referred to as SQE discrimination classes.
  • the signal quality determination unit 111 identifies the waveform type using the SQE identification model. Then, the signal quality determination unit 111 calculates a signal quality score s that is specialized for the signal processing method defined in the above-mentioned formula (3). The signal quality score s is calculated by the following formula (5).
  • m is the SQE identification class
  • ⁇ m is the class label corresponding to the SQE identification class (constant: preset [0,1])
  • d m is the reliability of the class label obtained from the SQE identification model (dependent on the input signal [0,1])
  • f() is a function defined as the adjustment look-up table (preset [0,1]).
  • is an adjustment term that takes into account the difference in noise removal performance in the filter pre-processing unit 22 depending on the type of noise identified by the SQE identification class.
  • the positive class is a class whose signal quality is identified as being better than a predetermined threshold.
  • the negative class is a class whose signal quality is identified as being worse than a predetermined threshold and containing noise.
  • f() is set to a monotonically decreasing look-up table so that the higher the reliability of the class label obtained from the SQE discrimination model, the less likely it is to be classified as a positive class.
  • ⁇ m is positioned as an adjustment term, and the value is not restricted.
  • f(d m ) monotonically increases when m is the main signal, and monotonically decreases when m is noise.
  • the signal quality score s[0.0 1.0] becomes larger as the signal quality increases and becomes smaller as the signal quality decreases, making this a signal processing method specialized for equation (3).
  • the signal quality determination unit 111 can also assume cases in which the signal quality of the SQE identification model is determined on a channel-by-channel basis.
  • FIG. 10 is a flowchart illustrating the emotion estimation process of the emotion estimation processing device 101 of FIG.
  • Steps S111 to S115 in FIG. 10 perform the same processing as steps S11 to S15 in FIG. 7, so their explanation will be omitted.
  • steps S116 and S117 are performed in parallel with steps S111 to S115.
  • step S116 the signal quality determination unit 111 analyzes the signal waveform of the biological signal acquired by the sensor data acquisition unit 21 and identifies the waveform type.
  • step S117 the signal quality determination unit 111 calculates a signal quality score according to the waveform type.
  • the signal quality determination unit 111 outputs the calculated signal quality score to the stabilization processing unit 202.
  • step S118 the stabilization processing unit 112 calculates a representative value of the predicted label. That is, the stabilization processing unit 112 receives as input the time-series emotional state label supplied from the emotional state time-series labeling unit 27 and the signal quality score supplied from the signal quality determination unit 111, and calculates the reliability r of the representative value of the predicted label within the sliding window using the above-mentioned equation (3). The stabilization processing unit 112 performs threshold processing on the reliability r of the representative value of the predicted label using the above-mentioned equation (2), and outputs the representative value z of the predicted label as the emotion estimation result.
  • step S119 the determination unit 29 determines the emotional state of the target living organism using the representative value of the predicted label and the reliability of the representative value of the predicted label supplied from the stabilization processing unit 28.
  • the determination unit 29 outputs the determination result of the emotional state of the target living organism to a subsequent stage.
  • the emotion estimation result is output based on the weighted sum of the reliability of the predicted label and the result of the signal quality judgment. Therefore, the estimation accuracy of the emotion estimation is further improved in robustness compared to the first embodiment.
  • the signal quality determination unit 111 may output a signal quality score according to the strength of the periodicity of the signal without using machine learning.
  • This technology can be applied to biosignals with high periodicity, such as blood flow and continuous blood pressure, as well as brain waves, mental sweating, and pulse waves. Furthermore, this technology can also be applied to biosignals such as respiration or eye blinking.
  • reaction range correction is performed according to the context of the behavioral state, but the context is not limited to the behavioral state.
  • reaction range correction may be performed according to the context of the positional state.
  • GNSS Global Navigation Satellite System
  • FIG. 11 is a diagram showing an example of range correction processing according to a position state.
  • the vertical axis represents the feature gain. When the feature gain is large, the range of the feature becomes wider, and when the feature gain is small, the range of the feature becomes narrower.
  • the horizontal axis represents the density of green space.
  • the feature gain table g3-2() is large (1.0 or more) when the green space density is low, and gradually decreases as the green space density increases. In other words, the feature gain table g3-2() is expressed as a monotonically decreasing trend with respect to the green space density.
  • the sensitivity of the physiological response which indicates the arousal state, decreases according to the location state (as the green space density increases), and the feature gain table g3-2() in Figure 11 is used to narrow the range of the feature as the green space density increases. In other words, to accommodate the decrease in physiological response, the estimation sensitivity of the emotion estimation is increased.
  • This technology can also be applied to processing according to, for example, thermal environment context (whether you are in a cold or hot place) or social environment context (what kind of people you are with).
  • the normalization coefficient is corrected according to a context (some state) related to the user, and the input feature amount is normalized by the corrected normalization coefficient.
  • this technology will be used in a variety of applications involving physical movement, such as monitoring stress levels in everyday life, visualizing concentration levels in an office environment, analyzing user engagement while watching video content, and analyzing excitement levels while playing games.
  • FIG. 12 is a block diagram showing an example of the hardware configuration of a computer that executes the above-mentioned series of processes using a program.
  • CPU Central Processing Unit
  • ROM Read Only Memory
  • RAM Random Access Memory
  • an input/output interface 305 Further connected to the bus 304 is an input/output interface 305. Connected to the input/output interface 305 are an input unit 306 consisting of a keyboard, mouse, etc., and an output unit 307 consisting of a display, speakers, etc. Also connected to the input/output interface 305 are a storage unit 308 consisting of a hard disk or non-volatile memory, a communication unit 309 consisting of a network interface, etc., and a drive 310 that drives removable media 311.
  • the CPU 301 for example, loads a program stored in the storage unit 308 into the RAM 303 via the input/output interface 305 and the bus 304 and executes the program, thereby performing the above-mentioned series of processes.
  • the programs executed by the CPU 301 are provided, for example, by being recorded on removable media 311, or via a wired or wireless transmission medium such as a local area network, the Internet, or digital broadcasting, and are installed in the storage unit 308.
  • the program executed by the computer may be a program in which processing is performed chronologically in the order described in this specification, or a program in which processing is performed in parallel or at the required timing, such as when called.
  • a system refers to a collection of multiple components (devices, modules (parts), etc.), regardless of whether all the components are in the same housing. Therefore, multiple devices housed in separate housings and connected via a network, and a single device in which multiple modules are housed in a single housing, are both systems.
  • this technology can be configured as cloud computing, in which a single function is shared and processed collaboratively by multiple devices over a network.
  • each step described in the above flowchart can be executed by a single device, or can be shared and executed by multiple devices.
  • one step includes multiple processes
  • the multiple processes included in that one step can be executed by one device, or can be shared and executed by multiple devices.
  • the present technology can also be configured as follows.
  • a feature extraction unit that extracts an input feature based on a measured biological signal;
  • a response range correction unit that corrects the normalization coefficient according to a context related to a user;
  • a normalization unit that normalizes the input feature amount by the normalization coefficient corrected by the response range correction unit;
  • an emotional state time-series labeling unit that outputs a predicted label of an emotional state for the normalized input feature quantity by a pre-constructed machine learning model.
  • the signal processing device wherein the context is a behavioral context related to a behavior of the user.
  • the application adjustment unit selects the machine learning model in accordance with the application, and derives a conversion table that converts a range of the construction feature of the machine learning model into a range of the input feature;
  • the signal processing device according to (4) wherein the normalization coefficient is converted using the derived conversion table, thereby adjusting a range of the construction feature.
  • the signal processing device according to (4) or (5) further comprising: a stabilization processing unit that outputs an emotion estimation result based on a result of weighting and adding the predicted labels using a predicted label reliability that is a reliability of the predicted labels; and a determination unit that determines the emotion estimation result.
  • a signal quality determination unit that determines a signal quality of the biological signal
  • the context related to the user is a position context related to a position of the user.
  • the biological signal is at least one of signals obtained by measuring an electroencephalogram, mental sweating, a pulse wave, a blood flow, continuous blood pressure, respiration, or an eyeblink.
  • the signal processing device according to any one of (1) to (9), further comprising a biosensor that measures the biosignal.
  • a signal processing device Extract input features based on the measured biosignals, Adjusting the normalization factor according to a context related to the user; normalizing the input feature quantity by the corrected normalization coefficient; and outputting a predicted label of an emotional state based on the normalized input feature quantity using a pre-constructed machine learning model.
  • Emotion estimation processing device 21 Sensor data acquisition unit, 22 Filter pre-processing unit, 23 Feature extraction unit, 24 APP norm acquisition unit, 25 Behavioral state reaction range correction unit, 26 Normalization unit, 27 Emotion state time series labeling unit, 28 Stabilization processing unit, 29 Judgment unit, 101 Emotion estimation processing device, 111 Signal quality judgment unit, 112 Stabilization processing unit

Landscapes

  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

本技術は、情動推定する場合の精度を向上することができるようにする信号処理装置および方法に関する。 信号処理装置は、計測された生体信号に基づいて入力特徴量を抽出し、ユーザに関するコンテクストに応じて正規化係数を補正し、補正された正規化係数により入力特徴量を正規化し、正規化された入力特徴量に対して、予め構築された機械学習モデルにより、情動状態の予測ラベルを出力する。本技術は、情動推定処理装置に適用することができる。

Description

信号処理装置および方法
 本技術は、信号処理装置および方法に関し、特に、情動推定する場合の精度を向上することができるようにした信号処理装置および方法に関する。
 情動とは、感情の一種であり、急激に生起し短期間で終始する反応振幅の大きい一過性の感情状態である。人の情動が変化すると、脳波、心拍、発汗などの生理反応が体表に表出する。人の情動を推定する情動推定システムは、これらの生理反応をセンサデバイスによって生体信号として読み取り、信号処理によって情動に寄与する生理指標などの特徴量を抽出し、機械学習で得たモデルによって特徴量からユーザの情動を推定する。情動の種類は、快不快と覚醒度の2軸で分類される。
 しかしながら、ラボラトリ環境において生理的に妥当な情動推定モデルを構築し、構築したモデルを実環境に適用する際、人の情動の生理反応がコンテクスト(人の何らかの状態)に依存するというコンテクスト依存性が影響を及ぼす(非特許文献1参照)。
 一方、アプリケーションに応じて、アプリケーションが人の情動状態に反応(検出)するレンジである、情動状態の反応レンジ(基準の範囲)は異なる。ここでは、情動状態の反応レンジとして、覚醒度の高低(ストレスとリラックス)を例に説明する(特許文献1参照)。
 例えば、情動瞑想アプリケーションの場合、人は基本的にリラックス状態にあり、リラックス状態の中の覚醒度の機微の可視化がアプリケーション上求められる。他方、活動ライフログ(日常生活の中でのストレス状態の可視化)においては、1日内や長期間の覚醒とリラックス状態の両者の可視化が求められる。
Bamert M and Inauen J (2022) Physiological stress reactivity and recovery: Some laboratory results transfer to daily life. Front. Psychol. 13:943065. doi: 10.3389/fpsyg.2022.943065、インターネット検索<https://www.frontiersin.org/articles/10.3389/fpsyg.2022.943065/full,令和4年12月5日検索>
特開2016-106689号公報
 このように、アプリケーションに応じて覚醒度の反応レンジを捉え、情動推定を精度よく行うためには、上述した、非特許文献1に示される生理反応の行動コンテクスト(行動状態)による感度変化をコントロールすることが情動推定システムに必要となる。
 本技術はこのような状況に鑑みてなされたものであり、情動推定する場合の精度を向上することができるようにするものである。
 本技術の一側面の信号処理装置は、計測された生体信号に基づいて入力特徴量を抽出する特徴量抽出部と、ユーザに関するコンテクストに応じて正規化係数を補正する反応レンジ補正部と、前記反応レンジ補正部により補正された前記正規化係数により前記入力特徴量を正規化する正規化部と、正規化された前記入力特徴量に対して、予め構築された機械学習モデルにより、情動状態の予測ラベルを出力する情動状態時系列ラベリング部とを備える。
 本技術の一側面においては、計測された生体信号に基づいて入力特徴量が抽出される。そして、ユーザに関するコンテクストに応じて正規化係数が補正され、補正された前記正規化係数により前記入力特徴量が正規化され、正規化された前記入力特徴量に対して、予め構築された機械学習モデルにより、情動状態の予測ラベルが出力される。
本技術の実施の形態に係る情動推定処理装置の構成例を示すブロック図である。 図1のAPP規範取得部、正規化部、情動状態時系列ラベリング部、および安定化処理部の機能構成例を示す機能ブロック図である。 アプリケーションの規範による反応レンジ補正の第1の例を示す図である。 アプリケーションの規範による反応レンジ補正の第2の例を示す図である。 アプリケーションの規範による反応レンジ補正の第3の例を示す図である。 行動状態に応じたレンジ補正の処理例を示す図である。 図1の情動推定処理装置の情動推定処理を説明するフローチャートである。 図7のステップS13の反応レンジ調整処理を説明するフローチャートである。 本技術の第2の実施の形態に係る情動推定処理装置の構成例を示すブロック図である。 図9の情動推定処理装置の情動推定処理を説明するフローチャートである。 位置状態に応じたレンジ補正の処理例を示す図である。 コンピュータの構成例を示すブロック図である。
 以下、本技術を実施するための形態について説明する。説明は以下の順序で行う。
 1.第1の実施の形態(基本構成)
 2.第2の実施の形態(信号品質判定部の追加)
 3.その他
<1.第1の実施の形態(基本構成)>
 <情動推定処理装置の構成例>
 図1は、本技術の第1の実施の形態に係る情動推定処理装置の構成例を示すブロック図である。
 図1の情動推定処理装置1は、生体の状態に関する信号(以下、生体信号と称する)を検出し、検出した生体信号に基づいて、当該生体の情動状態を推定する信号処理装置である。例えば、情動推定処理装置1は、生体信号を検出するために、生体に直接装着される。例えば、情動状態の推定対象となる生体(以下、対象生体と称する)は、人である。なお、情動推定処理装置1において、対象生体は人に限られるものではない。
 具体的には、情動推定処理装置1がカナル型ヘッドフォンやヘッドバンドとして構成される場合、耳が測定部位となる。情動推定処理装置1がVR(Virtual Reality)ゴーグルとして構成される場合、額が測定部位となる。情動推定処理装置1がバンドとして構成される場合、バンドが装着される腕や足が測定部位となる。
 なお、情動推定処理装置1は、生体信号を検出する装置とは別に、検出した生体信号を受け取って、情動推定処理を行うサーバとして構成されてもよい。
 図1において、情動推定処理装置1は、センサデータ取得部21,フィルタ前処理部22、特徴量抽出部23、アプリケーション(以下、APP)規範取得部24、行動状態反応レンジ補正部25、正規化部26、情動状態時系列ラベリング部27、安定化処理部28、および判定部29を含むように構成される。
 センサデータ取得部21は、例えば、情動推定処理装置1が備えるセンサ(不図示)から生体信号(raw data)を取得する。
 なお、センサは、例えば、対象生体に接触するタイプのセンサであってもよいし、対象生体に非接触のセンサであってもよい。センサは、例えば、脳波、発汗(精神性)、脈波、心電図、血流、連続血圧、呼吸、皮膚温度、表情筋電位、眼電、瞬目、および唾液に含まれる特定成分のうち、少なくとも1つについての情報(生体信号)を検出するセンサである。
 フィルタ前処理部22は、センサデータ取得部21により取得された生体信号に対し、バンドパスフィルタやノイズ除去などの前処理を行う。フィルタ前処理部22は、前処理を行った生体信号を、特徴量抽出部23に出力する。
 特徴量抽出部23は、フィルタ前処理部22から供給される生体信号を用いて、情動状態を推定するためのモデル入力変数として特徴量を抽出する。特徴量抽出部23は、抽出した特徴量を、APP規範取得部24および正規化部26に出力する。
 なお、特徴量は、生理学的に知られる特徴量に限定されない。特徴量抽出部23は、例えば、深層学習やオートエンコーダなどにより、データドリブンで情動に寄与する特徴量を抽出する信号処理を行うこともできる。
 ここで、上述したように、アプリケーションに応じて、情動状態の反応レンジは異なる。
 覚醒度の高低(ストレスとリラックス)を例に説明すると、例えば、情動瞑想アプリケーションの場合、人は基本的にリラックス状態にあり、リラックス状態の中の覚醒度の機微の可視化がアプリケーションに対して求められる。他方、活動ライフログ(日常生活の中でのストレス状態の可視化)のアプリケーションの場合、1日内や長期間の覚醒とリラックス状態の両者の可視化が求められる。なお、以下、情動状態の一例として、適宜、上述した覚醒度を用いて説明する。
 APP規範取得部24は、情動推定処理装置1において起動するアプリケーションの情動状態の反応レンジに応じて、正規化係数を変換することにより、反応レンジを調整する。
 すなわち、APP規範取得部24には、アプリケーション毎の基準モデルを構築する際のデータの特徴量および特徴量の正規化係数が、メモリ(不図示)に予め保持されている。基準モデルとは、詳細は後述するが、情動状態時系列ラベリング部27において用いられる機械学習モデルである。
 APP規範取得部24は、起動するアプリケーションに対応する基準モデルを選択し、選択した基準モデルの特徴量の正規化係数をメモリから取得する。APP規範取得部24は、アプリケーションの情動状態の反応レンジに応じて正規化係数を変換するための変換テーブルを導出する。APP規範取得部24は、取得した正規化係数を、導出した変換テーブルを用いて変換する。APP規範取得部24は、変換した正規化係数を行動状態反応レンジ補正部25に出力する。
 行動状態反応レンジ補正部25は、ユーザの行動状態の影響を加味して、正規化係数を補正することにより、APP規範取得部24により調整された反応レンジを補正する。
 すなわち、行動状態反応レンジ補正部25は、APP規範取得部24により変換された正規化係数に対して、例えば、慣性計測装置(IMU:Inertial Measurement Unit)から得られる行動コンテクストに応じたゲイン調整を行う。なお、行動コンテクストとは、行動状態などを表す。
 行動状態反応レンジ補正部25は、ゲイン調整を行った正規化係数を正規化部26に出力する。
 正規化部26は、行動状態反応レンジ補正部25から供給される正規化係数を用いて、特徴量抽出部23から供給される特徴量を正規化する。正規化部26は、正規化した特徴量を、情動状態時系列ラベリング部27に出力する。
 情動状態時系列ラベリング部27は、アプリケーション毎の複数の基準モデルを有している。情動状態時系列ラベリング部27は、正規化部26から供給される特徴量のうち、スライディングウィンドウ内の時系列の特徴量を入力とする。情動状態時系列ラベリング部27は、基準モデルを用いて時系列の情動状態の予測ラベルを識別し、識別した予測ラベルで情動状態をラベリングする。
 情動状態時系列ラベリング部27は、時系列の情動状態のラベリング結果である予測ラベルの時系列データを安定化処理部28に出力する。このとき、基準モデルから得られる予測ラベルの信頼度も出力される。
 情動状態の時系列ラベリングの手法では、一般に、時系列データの解析や自然言語処理において用いられる識別モデルが基準モデルとして想定される。具体的には、Support Vector Machine(SVM)、k-Nearest Neighbor(k-NN)、Linear Discriminant Analysis(LDA)、Hidden Markov Models(HMM)、Conditional Random Fields(CRF)、Structured Output Support Vector Machine(SOSVM)、Bayesian Network、Recurrent Neural Network(RNN)、Long Short Term Memory(LSTM)などが挙げられる。ただし、手法は限定されない。
 安定化処理部28は、情動状態時系列ラベリング部27から供給される情動状態の予測ラベルの時系列データを用いて、時系列の情動状態の予測ラベルを、スライディングウィンドウ内の情動状態の予測ラベルの信頼度により重み付け加算し、情動推定結果として、予測ラベルの代表値と、予測ラベルの代表値の信頼度を、判定部29に出力する。予測ラベルの代表値の信頼度は、予測ラベルの代表値算出の際の信頼度である。
 具体的には、安定化処理部28は、スライディングウィンドウ内の情動状態の予測ラベルを、予測ラベルの信頼度により重み付け加算することで、スライディングウィンドウ内の予測ラベルの代表値の信頼度を算出する。さらに、安定化処理部28は、予測ラベルの代表値の信頼度を閾値処理し、情動推定結果として、予測ラベルの代表値を出力する。
 予測ラベルの代表値の信頼度rは、次の式(1)により算出される。
Figure JPOXMLDOC01-appb-M000001
                                 ・・・(1)
 ここで、iは、スライディングウィンドウ内で検出される複数イベントにおけるイベント番号を表す。yは、情動状態の予測ラベル、cは、基準モデルから得られる予測ラベルの信頼度、Δtiは、i番目のイベントの継続時間を表す。また、wは忘却重みで、過去の時刻ほど重みは小さくされる。
 上述した式(1)により、スライディングウィンドウ内で検出される複数のイベントの情動状態の予測ラベルの信頼度に対し、スライディングウィンドウ内の予測ラベルの代表値の信頼度が[-1 1]の連続値として算出される。
 さらに、数式(1)の出力である信頼度rを閾値処理して、次に示される式(2)に代入することで、情動推定結果として、予測ラベルの代表値zが算出される。
Figure JPOXMLDOC01-appb-M000002
                                 ・・・(2)
 式(2)において、情動推定結果の予測ラベルの代表値zの数値は、ユーザの情動状態の予測ラベルyの定義に依存する。
 例えば、情動状態の予測ラベルが覚醒度の識別結果を示す場合、情動状態の予測ラベルは、覚醒度の低/高として、0 or 1の2クラスで定義される。この場合、情動推定結果の予測ラベルの代表値zが0であるとき、該当の時刻におけるユーザの情動状態は、低覚醒度(リラックス状態)であると識別される。また、情動推定結果の予測ラベルの代表値zが1であるとき、該当の時刻におけるユーザの情動状態は、高覚醒度(覚醒および集中状態)であると識別される。
 判定部29は、安定化処理部28から供給される予測ラベルの代表値と予測ラベルの代表値の信頼度を用いて、対象生体の情動状態を判定する。
 <各部の構成>
 図2は、図1のAPP規範取得部24、正規化部26、情動状態時系列ラベリング部27、および安定化処理部28の機能構成例を示す機能ブロック図である。
 なお、図2の情動状態時系列ラベリング部27は、上述したように、予め構築されたアプリケーション毎の基準モデルを有している。情動状態に対する反応レンジはアプリケーション毎に異なる。すなわち、情動状態時系列ラベリング部27は、情動状態の高低が互いに異なる複数の基準モデル(例えば、3つの基準モデル61-1乃至61-3)を有している。基準モデルは、例えば、回帰モデル、または、識別モデルを含む。
 例えば、覚醒度の高低を例に説明すると、基準モデル61-1は覚醒度が低い状態に対するモデル(例えば、後述するリラックス度推定モデル)である。基準モデル61-2は、覚醒度が中程度の状態に対するモデルである。基準モデル61-3は、覚醒度が高い状態に対するモデル(例えば、後述する覚醒度推定モデル)である。特に区別する必要がない場合、基準モデル61-1乃至61-3を、基準モデル61と称する。
 以上のように、情動推定処理装置1は、情動状態時系列ラベリング部27に設けられた、情動状態の反応レンジの異なる複数の基準モデル61を用いて、対象生体の情動状態を推定する。
 なお、基準モデル61を構築する際の対象生体は、情動推定処理装置1で情動推定がなされる対象生体とは、通常異なっている。
 図2において、APP規範取得部24は、正規化情報取得部41および正規化係数変換部42から構成される。APP規範取得部24は、情動推定処理装置1において起動したアプリケーションにより発行されるアプリケーショントリガを取得する。
 正規化情報取得部41は、アプリケーション毎の基準モデルの構築時の特徴量または特徴量の正規化係数を保持している。また、正規化情報取得部41には、特徴量抽出部23から特徴量が供給される。
 正規化情報取得部41は、アプリケーショントリガより得られるアプリケーションの種別に応じて、保持している基準モデルの構築時の特徴量を取得し、取得した特徴量と、特徴量抽出部23から抽出される特徴量とを正規化係数変換部42に出力する。なお、以下、区別が必要な場合、基準モデルの構築時の特徴量を構築時特徴量と称し、特徴量抽出部23から抽出される特徴量を入力特徴量と称する。
 また、正規化情報取得部41は、アプリケーショントリガより取得されるアプリケーションの種別に応じて、保持している基準モデルの構築時特徴量の正規化係数を取得し、正規化係数変換部42に出力する。
 例えば、正規化の方法が、MIN-MAX正規化(特徴量の分布のMAX-MINにより0乃至1に正規化)の場合、正規化前の特徴量であるXは、(X - Xmin) / (Xmax - Xmin)で正規化される。この場合、正規化情報取得部41は、正規化係数として、Xmin、Xmaxを取得する(Xmaxは特徴量の最大値、Xminは特徴量の最小値)。より一般には、特徴量の正規化は空間の写像に相当するため、正規化係数は、g1()などの写像関数で表現される。
 なお、正規化の方法は、MIN-MAX正規化に限らず、Z標準化(特徴量の分布の平均および分散により標準化)など他の方法であってもよい。正規化の方法がZ標準化の場合、正規化情報取得部41は、正規化係数として、特徴量の分布の平均および分散を取得する。
 正規化係数変換部42は、基準モデルの情動状態の反応レンジと、アプリケーションで想定される情動状態の反応レンジにギャップがある場合に、正規化情報取得部41から供給される正規化係数を変換する。
 具体的には、正規化情報取得部41により、アプリケーションが対応する基準モデル(例えば、基準モデル61-1)が選択されている。これは、写像(変換)を精度よく行うためである。
 正規化係数変換部42は、正規化情報取得部41から入力特徴量と、正規化情報取得部41により選択された基準モデルの構築時特徴量とに基づいて、この基準モデルの正規化係数を変換する。すなわち、正規化係数変換部42は、例えば、選択された基準モデル61-1の構築時に用いた構築時特徴量から、正規化情報取得部41から入力された入力特徴量への写像を行う変換テーブルg2()を導出する。
 なお、変換テーブルg2()は、例えば、アプリケーションの初回実行時などに予め導出されて、正規化係数変換部42に記憶されていてもよい。この場合、正規化係数変換部42は、記憶されている変換テーブルg2()を選択する。
 正規化係数変換部42は、導出した変換テーブルg2()により正規化係数g1()を変換し、変換した正規化係数g2(g1())を行動状態反応レンジ補正部25に出力する。
 なお、正規化係数変換部42においては、変換テーブルを基準モデル61毎に導出するようにしてもよいし、1つの基準モデル61の変換テーブルを導出しておき、各基準モデル61を生成したときの特徴量の相関関係から他の基準モデル61の変換テーブルを求めるようにしてもよい。
 行動状態反応レンジ補正部25は、ユーザの行動状態の影響を加味して、正規化係数を補正する。すなわち、行動状態反応レンジ補正部25は、APP規範取得部24により変換された正規化係数に対して、例えば、IMUから得られる行動コンテクストに応じた調整ゲインテーブルg3()を選択してゲイン調整を行う。
 行動状態反応レンジ補正部25は、ゲイン調整が行われた正規化係数g3(g2(g1()))を正規化部26に出力する。
 正規化部26は、情動状態時系列ラベリング部27に含まれる基準モデル(例えば、基準モデル61-1乃至61-3)毎に1つずつ設けられた複数の正規化部51-1乃至51-3を有している。
 正規化部51-1は、基準モデル61-1に対応して設けられている。正規化部51-2は、基準モデル61-2に対応して設けられている。正規化部51-3は、基準モデル61-3に対応して設けられている。なお、正規化部51-1乃至51-3を特に区別する必要がない場合、正規化部51と称する。
 正規化部51は、特徴量抽出部23から供給されたデータの特徴量に対して所定の正規化を行う。
 具体的には、正規化部51は、行動状態反応レンジ補正部25から供給された正規化係数g3(g2(g1())を用いて、特徴量抽出部23から供給されたデータの特徴量xを正規化し、それにより得られたデータg3(g2(g1(x))を、対応する基準モデル61に出力する。
 情動状態時系列ラベリング部27は、上述したように、基準モデル61-1乃至基準モデル61-3を含むように構成される。
 基準モデル61は、対応する正規化部51から正規化されたデータが入力されると、入力されたデータの特徴量に応じた情動状態の予測ラベルを出力する。
 安定化処理部28は、基準モデル61-1乃至61-3にそれぞれ対応する安定化処理部71-1乃至71-3を含むように構成される。なお、安定化処理部71-1-1乃至71-3を特に区別する必要がない場合、安定化処理部71と称する。
 安定化処理部71は、対応する基準モデル61から供給される情動状態の予測ラベルの時系列データを用いて、時系列の情動状態の予測ラベルを、スライディングウィンドウ内の情動状態の予測ラベルの信頼度により重み付け加算し、情動推定結果として、予測ラベルの代表値と、予測ラベルの代表値の信頼度を、判定部29に出力する。
 判定部29は、安定化処理部71-1乃至71-3から供給された情動推定結果に基づいて、対象生体の情動状態を判定する。
 判定対象の情動状態が覚醒度である場合、判定部29は、情動推定結果(例えば、覚醒度情報A、覚醒度情報B、覚醒度情報C)に基づく多数決で、対象生体の覚醒度を判定する。例えば、覚醒度情報Aが、覚醒度が高いことを示す情報となっており、覚醒度情報Bが、覚醒度が低いことを示す情報となっており、覚醒度情報Cが、覚醒度が低いことを意味する情報となっていたとする。このとき、判定部29は、覚醒度=低が2票、覚醒度=高が1票であることから、多数決で、覚醒度が低いことを示す判定結果を生成する。
 判定部29は、多数決以外の方法を用いて、対象生体の情動状態を判定してもよい。また、判定部29は、選択された基準モデルに対応する判定結果だけを用いて、対象生体の情動を推定してもよい。
 <反応レンジ調整の第1の例>
 図3は、アプリケーションの反応レンジ調整の第1の例を示す図である。
 図3において、縦軸は、生理反応の特徴量を表す。破線は、人の生体状態のニュートラルな状態を示すベースラインを表す。人がニュートラル状態より集中する場合、特徴量は覚醒方向(破線より値が大きい方向)に変化し、ニュートラル状態よりリラックスする場合、特徴量はリラックス方向(破線より値が小さい方向)に変化する。以降の図においても同様である。
 図3においては、例えば、集中度を推定するアプリケーションと、そのアプリケーションに対応する集中度推定モデルが用いられる場合に、そのアプリケーションに想定される想定反応として覚醒度が高いときの、モデルの構築時特徴量の反応レンジ(図中左側)と、アプリケーション使用時に想定される入力特徴量の反応レンジ(図中右側)との比較が示されている。なお、集中度推定モデルは、上述した基準モデル61-3に相当する。
 集中度を推定するアプリケーションのため、構築時特徴量の反応レンジも、実際のアプリケーションを用いた場合に想定される入力特徴量の反応レンジも、ベースラインより全体的に値が大きい。
 そして、モデルの構築時特徴量の反応レンジより、実際のアプリケーションを用いた場合に想定される入力特徴量の反応レンジのほうが広い。
 この差異を調整するために、アプリケーションから起動時に発行されるアプリケーショントリガを取得することで得られる種別情報に基づく基準モデル61-3(集中度推定モデル)が選択され、変換テーブルg2-1()が導出される。
 <反応レンジ調整の第2の例>
 図4は、アプリケーションの規範による反応レンジ調整の第2の例を示す図である。
 図4においては、集中度を推定するアプリケーションと、そのアプリケーションに対応する集中度推定モデルが用いられる場合に、そのアプリケーションの想定反応として覚醒度が低いときの、モデルの構築時特徴量の反応レンジ(図中左側)と、アプリケーション使用時に想定される入力特徴量の反応レンジ(図中右側)との比較が示されている。
 集中度を推定するアプリケーションのため、モデルの構築時特徴量の反応レンジも、実際のアプリケーションを用いた場合に想定される入力特徴量の反応レンジも、ベースラインより全体的に値が大きい。
 そして、モデルの構築時特徴量の反応レンジより、実際のアプリケーションを用いた場合に想定される入力特徴量の反応レンジのほうがかなり狭い。
 この差異を調整するために、アプリケーションから起動時に発行されるアプリケーショントリガを取得することで得られる種別情報に基づく基準モデル61-3(集中度推定モデル)が選択され、変換テーブルg2-2()が導出される。
 <反応レンジ調整の第3の例>
 図5は、アプリケーションの規範による反応レンジ調整の第3の例を示す図である。
 図5においては、リラックス度を推定するアプリケーションと、そのアプリケーションに対応するリラックス度推定モデルが用いられる場合の、モデルの構築時特徴量の反応レンジ(図中左側)と、アプリケーション使用時に想定される入力特徴量の反応レンジ(図中右側)との比較が示されている。なお、リラックス度推定は、上述した基準モデル61-1に相当する。
 リラックス度を推定するアプリケーションのため、モデルの構築時特徴量の反応レンジも、実際のアプリケーションを用いた場合に想定される入力特徴量の反応レンジも、ベースラインより全体的に値が小さい。
 そして、モデルの構築時特徴量の反応レンジより、実際のアプリケーションを用いた場合に想定される入力特徴量の反応レンジのほうが狭い。
 この差異を調整するために、アプリケーション起動時に発行されるアプリケーショントリガを取得することで得られる種別情報に基づく基準モデル61-1(リラックス度推定モデル)が選択され、変換テーブルg2-3()が導出される。
 以上のように、覚醒度の高低の程度やリラックス状態など、起動したアプリケーションのターゲット(規範)に応じて複数の基準モデルを情動推定処理装置1が予め保持しており、各基準モデルに対して変換テーブルg2-1乃至g2-3が導出されて、それぞれ選択される。そして、入力特徴量が、選択された変換テーブルが用いられて正規化される。
 <行動状態に応じたレンジ補正の例>
 図6は、行動状態に応じたレンジ補正の処理例を示す図である。
 図6において、縦軸は、特徴量ゲインを表す。特徴量ゲインが大きい場合、特徴量の反応レンジが広くなり、特徴量ゲインが小さい場合、特徴量の反応レンジが狭くなる。横軸は、活動レベルの高低を表す。
 特徴量ゲインテーブルg3-1()は、活動レベルが低い場合、1.0以上と大きく、活動レベルが高いほど、徐々に小さくなっている。すなわち、特徴量ゲインテーブルg3-1()は、活動レベルに対して、単調減少で表される。
 人の行動状態に応じた情動生理反応の特性として、例えば、非特許文献1に示されているように、活動状態が大きい(活動レベルが高い)ほど、生理反応の反応感度が鈍くなることが挙げられる。
 したがって、行動状態反応レンジ補正部25は、活動レベルが高くなるに連れて生理反応の反応感度が鈍くなる特性を想定し、図6の特徴量ゲインテーブルg3-1()を用いて、活動レベルが高くなるほどに特徴量の反応レンジを狭める処理を行う。換言するに、行動コンテクストに基づく活動レベルの高さに応じた生理反応の鈍りに対応するため、情動推定の推定感度としては高める処理が行われる。
 以上のようなアプリケーションの反応レンジ調整や行動状態に応じた反応レンジ補正などの処理により、本技術によれば、図1の情動推定処理装置1が生理反応の行動コンテクストによる感度変化を制御することができるので、アプリケーションに応じた最適な情動推定の精度を実現することが可能となる。
 以上により、情動推定の精度を向上させることができる。
 <情動推定処理>
 図7は、情動推定処理装置1の情動推定処理を説明するフローチャートである。
 ステップS11において、フィルタ前処理部22は、センサデータ取得部21により取得された生体信号に対し、バンドパスフィルタやノイズ除去などの前処理を行う。フィルタ前処理部12は、前処理を行った生体信号を、特徴量抽出部23に出力する。
 ステップS12において、特徴量抽出部23は、フィルタ前処理部22から供給される生体信号を用いて、情動状態を推定するためのモデル入力変数として特徴量を抽出する。特徴量抽出部23は、抽出した特徴量を、APP規範取得部24および正規化部26に出力する。
 ステップS13において、APP規範取得部24および行動状態反応レンジ補正部25は、アプリケーションや行動状態に応じた反応レンジ調整処理を行う。この反応レンジ調整処理は、図8を参照して後述される。ステップS13により、図3乃至図6を参照して上述したように、アプリケーションに応じた反応レンジの調整処理が行われ、行動状態に応じた反応レンジの補正処理が行われる。
 ステップS14において、正規化部26は、行動状態反応レンジ補正部25から供給される正規化係数を用いて、特徴量抽出部23から供給される特徴量を正規化する。正規化部26は、正規化した特徴量を、情動状態時系列ラベリング部27に出力する。
 ステップS15において、情動状態時系列ラベリング部27は、情動状態の時系列ラベリングを行う。すなわち、情動状態時系列ラベリング部27は、正規化部26から供給される特徴量のうち、スライディングウィンドウ内の時系列の特徴量を入力とする。情動状態時系列ラベリング部27は、基準モデルにより時系列の情動状態の予測ラベルを識別し、ラベリングする。
 情動状態時系列ラベリング部27は、時系列の情動状態のラベリング結果である予測ラベルの時系列データを安定化処理部28に出力する。このとき、基準モデルから得られる予測ラベルの信頼度も出力される。
 ステップS16において、安定化処理部28は、予測ラベルの代表値を算出する。すなわち、安定化処理部28は、情動状態時系列ラベリング部27から供給される時系列の情動状態ラベルを入力として、スライディングウィンドウ内の予測ラベルの代表値の信頼度を算出する。安定化処理部28は、上述した式(2)を用いて、予測ラベルの代表値の信頼度rを閾値処理し、情動推定結果として、予測ラベルの代表値zを出力する。安定化処理部28は、情動推定結果として、予測ラベルの代表値と予測ラベルの代表値の信頼度を、判定部29に出力する。
 ステップS17において、判定部29は、安定化処理部28から供給される予測ラベルの代表値と予測ラベルの代表値の信頼度を用いて、対象生体の情動状態を判定する。判定部29は、対象生体の情動状態の判定結果を、後段に出力する。
 <反応レンジ調整処理>
 図8は、図7のステップS13の反応レンジ調整処理を説明するフローチャートである。
 ステップS51において、行動状態反応レンジ補正部25は、IMUから供給される行動コンテクストに関する情報を取得する。例えば、IMUは、角速度情報および加速度情報を取得し、取得した情報に基づいて、人が安静か、歩行中か、運動中かなど、行動状態を同定し、同定した行動状態を示す情報である行動コンテクストを同定する。IMUは、同定した行動コンテクストに関する情報を行動状態反応レンジ補正部25に出力する。行動状態反応レンジ補正部25は、IMUから出力された行動コンテクストに関する情報を取得する。
 ステップS52において、APP規範取得部24は、アプリケーショントリガを取得し、取得したタイミングとアプリケーションの種別を特定する。例えば、情動瞑想アプリケーションが起動された場合、起動された情動瞑想アプリケーションはアプリケーショントリガを発行する。APP規範取得部24は、情動瞑想アプリケーションが発行したアプリケーショントリガを取得し、アプリケーションの種別を情動瞑想アプリケーションと特定する。
 ステップS53において、APP規範取得部24は、種別を特定したアプリケーションに応じた基準モデルを選択し、種別を特定したアプリケーションの情動状態の高低の規範に応じた反応レンジ調整を行う。
 すなわち、上述したように、正規化係数変換部42は、正規化情報取得部41から入力された入力特徴量と、選択した基準モデルの構築時に用いた構築時特徴量とに基づき、アプリケーションの情動状態の反応レンジに応じて、基準モデルの構築時特徴量の正規化係数を変換する。
 具体的には、正規化係数変換部42は、例えば、選択した基準モデルの構築時特徴量から、正規化情報取得部41から供給された入力特徴量への写像を行う変換テーブルg2()を導出する。正規化係数変換部42は、導出した変換テーブルg2()を用いて正規化係数を変換する。変換された正規化係数g2(g1())は、行動状態反応レンジ補正部25に出力される。
 ステップS54において、行動状態反応レンジ補正部25は、ユーザの行動状態による反応レンジ補正を行う。
 すなわち、行動状態反応レンジ補正部25は、APP規範取得部24により変換された正規化係数g2(g1())に対して、例えば、IMUから得られる行動コンテクストに応じたゲイン調整を行う調整ゲインテーブルg3()を選択して、ゲイン調整を行う。
 行動状態反応レンジ補正部25は、ゲイン調整が行われた正規化係数g3(g2(g1()))を正規化部26に出力する。
 以上のように、実際のアプリケーションの動作環境において、アプリケーションに応じた情動状態の高低の規範の考慮に加え、さらに、情動生理反応の行動コンテクストによる影響を加味するようにしたので、各アプリケーションの情動の高低の規範をより考慮した情動推定アルゴリズムを実現できる。これにより、リアルタイム情動推定の精度が向上し、アプリケーションの拡大が期待できる。
<2.第2の実施の形態(信号品質判定部の追加)>
 <情動推定処理装置の構成例>
 図9は、本技術の第2の実施の形態に係る情動推定処理装置の構成例を示すブロック図である。
 図9の情動推定処理装置101においては、実環境において体動などによりノイズが発生した場合に、情動推定のノイズに対するロバスト性をさらに向上させるために、信号品質判定部111が追加されている。
 すなわち、図9の情動推定処理装置101は、信号品質判定部111が追加された点と、安定化処理部28が、安定化処理部112に入れ替わった点が、図1の情動推定処理装置1と異なっている。図9において、図1と対応する部には同じ符号が付されている。
 信号品質判定部111は、センサデータ取得部21により取得された生体信号の波形を解析し、アーチファクト(目的の信号以外の雑音など)の種類を識別する。例えば、アーチファクトの種類には、眼球運動ノイズ、筋電ノイズ、瞬目ノイズ、心電ノイズなどが挙げられる。信号品質判定部111は、識別結果に基づいて、信号品質を判定し、信号品質判定結果として、信号品質スコアを算出する。
 安定化処理部112は、情動状態の予測ラベルの信頼度と、信号品質判定部111の判定結果である信号品質スコアにより重み付け加算し、情動推定結果として、予測ラベルの代表値と、予測ラベルの代表値の信頼度を出力する。
 信号品質判定部111により信号品質スコアの時系列データが計算され、安定化処理部112に出力される。安定化処理部112は、この信号品質スコアを用い、予測ラベルの代表値の信頼度の算出に、信号品質を重みとして、フィードバックする。信号品質をフィードバックした代表値の信頼度rの算出方法は、上述した式(1)をベースに、次の式(3)のように定義できる。
Figure JPOXMLDOC01-appb-M000003
                                 ・・・(3)
 ただし、siはi番目のイベントの信号品質スコア[0.0 1.0]である。
 上述した式(3)により、スライディングウィンドウ内で検出される複数のイベントの情動状態の予測ラベルの信頼度に対し、スライディングウィンドウ内の予測ラベルの代表値の信頼度が[-1 1]の連続値として算出される。
 さらに、第1の実施の形態と同様に、式(3)の出力である信頼度rを閾値処理して、上述した式(2)に代入することで、情動推定結果として、予測ラベルの代表値zが算出される。
 なお、上述した式(3)の代わりに、次の式(4)を用いるようにしてもよい。
Figure JPOXMLDOC01-appb-M000004
                                 ・・・(4)
 式(3)は、信号品質が低いスライディングウィンドウでは信頼度rが小さくなる性質を有する。このような性質を有する式(3)に対して、式(4)は、分母にsiを含むことで、正規化を行うことができる。これにより、信号品質が異なるスライディングウィンドウ間でも統一的な情動判定を行うことができる。
 以下、式(3)が用いられる際には、式(4)を代わりに用いることができる。
 また、信号品質判定部111においては、既存の信号品質判定が用いられてもよく、既存の信号品質判定の技術をベースとして、さらに、安定化処理部112での処理(式(3))に特化した信号品質スコア(SQE score)が算出される。
 信号品質判定部111においては、例えば、各ノイズが発生した場合の識別クラスが予め定義されて、教師あり学習による識別モデルが構築される。以下、品質判定用の識別モデルを、Signal Quality Estimationの頭文字を取りSQE識別モデルと称し、予め定義されている識別クラスを、SQE識別クラスと称する。
 信号品質判定部111は、SQE識別モデルにより、波形種類を識別する。そして、信号品質判定部111は、上述した式(3)で定義した信号処理方法に特化した、信号品質スコアsを算出する。信号品質スコアsは、次の式(5)により算出される。
Figure JPOXMLDOC01-appb-M000005
                                 ・・・(5)
 ここで、mは、SQE識別クラス、αmは、SQE識別クラスに応じたクラスラベル(定数:予め設定[0,1])、dmは、SQE識別モデルから得られるクラスラベルの信頼度(入力信号に依存[0,1])、f()は、関数であり、調整用look-upテーブル(予め設定[0,1])と定義される。
 αは、SQE識別クラスにより識別されるノイズの種類に応じて、フィルタ前処理部22におけるノイズ除去の性能差を考慮した調整項である。
 また、信号品質判定部111においては、脳波信号がcleanであるとSQE識別モデルで判別された場合、式(3)においては、SQE識別モデルから得られるクラスラベルの信頼度が高いほど、重みを大きくして、正のクラスに識別されるようにするため、f()は単調増加のlook-upテーブルとされる。
 ここで、正のクラスとは、信号品質が所定の閾値より良好であると識別されたクラスのことである。負のクラスとは、信号品質が所定の閾値より悪くノイズを含むと識別されたクラスのことである。
 脳波信号がcleanである場合、重みは最大のα=1.0と設定される。脳波信号に、ノイズが発生した場合、式(3)においては、SQE識別モデルから得られるクラスラベルの信頼度が高いほど正のクラスに識別されにくくするため、f()は単調減少のlook-upテーブルとされる。
 αは、SQE識別クラスとフィルタ前処理部22の性能差とに応じて調整される。例えば、αは、信号処理で比較的除去しやすい瞬目ノイズに対してはαm=0.9などと大きめに設定される。αは、フィルタ前処理部22での信号処理での除去が原理的に難しい筋電ノイズなどはαm=0.2などと小さめに設定される。
 なお、αmは調整項としての位置付けであり、値に対しては制約されない。
 f(dm)は、mが主信号の場合は単調増加、mがノイズの場合は単調減少である。
 以上のように、上述した式(5)を定義することで、信号品質スコアs[0.0 1.0]は、信号品質が高いほど値が大きくなり、信号品質が低いほど値が小さくなり、式(3)に特化した信号処理方法として成り立つ。
 また、上記説明は、SQE識別モデルが全chから各時刻の信号品質を判定する例を説明したが、信号品質判定部111においては、各ch単位でSQE識別モデルの信号品質判定するケースも想定される。
 <情動推定処理>
 図10は、図9の情動推定処理装置101の情動推定処理を説明するフローチャートである。
 図10のステップS111乃至S115は、図7のステップS11乃至S15と同様の処理を行うので、その説明は省略される。
 図10においては、ステップS111乃至S115の処理に並行して、ステップS116およびS117の処理が行われる。
 ステップS116において、信号品質判定部111は、センサデータ取得部21により取得された生体信号の信号波形を解析し、波形種類を識別する。
 ステップS117において、信号品質判定部111は、波形種類に応じた信号品質スコアを算出する。信号品質判定部111は、算出した信号品質スコアを安定化処理部202に出力する。
 ステップS118において、安定化処理部112は、予測ラベルの代表値を算出する。すなわち、安定化処理部112は、情動状態時系列ラベリング部27から供給される時系列の情動状態ラベル、信号品質判定部111から供給される信号品質スコアを入力として、上述した式(3)を用いて、スライディングウィンドウ内の予測ラベルの代表値の信頼度rを算出する。安定化処理部112は、上述した式(2)を用いて、予測ラベルの代表値の信頼度rを閾値処理し、情動推定結果として、予測ラベルの代表値zを出力する。
 ステップS119において、判定部29は、安定化処理部28から供給される予測ラベルの代表値と予測ラベルの代表値の信頼度を用いて、対象生体の情動状態を判定する。判定部29は、対象生体の情動状態の判定結果を、後段に出力する。
 以上のように、予測ラベルの信頼度と信号品質判定の結果を重み付け加算した結果に基づいて、情動推定結果が出力される。したがって、情動推定の推定精度が、第1の実施の形態と比して、ロバスト性がさらに向上される。
 なお、上記説明においては、機械学習の手法により信号品質判定を行う例を説明したが、機械学習以外の手法でも行うことが可能である。例えば、信号品質判定部111は、機械学習を用いず、信号の周期性の強弱に応じた信号品質スコアを出力するようにしてもよい。
 この技術は、脳波、精神性発汗、脈波に限らず、血流、連続血圧などの周期性の高い生体信号に適用することができる。さらに、本技術は、呼吸、または瞬目などの生体信号にも適用することができる。
<3.その他>
 なお、上記説明においては、行動状態のコンテクストに応じた反応レンジ補正が行われる例を説明したが、例えば、コンテクストは、行動状態に限らない。例えば、位置状態のコンテクストに応じた反応レンジ補正が行われてもよい。
 例えば、GNSS(Global Navigation Satellite System)により位置コンテクストをセンシングし、ユーザが緑地環境にいると判定された場合、反応レンジ補正により、リラックス側の特徴量のレンジを拡げるゲインをかける。
 <レンジ補正の変形例>
 図11は、位置状態に応じたレンジ補正の処理例を示す図である。
 図11において、縦軸は、特徴量ゲインを表す。特徴量ゲインが大きい場合、特徴量のレンジが広くなり、特徴量ゲインが小さい場合、特徴量のレンジが狭くなる。横軸は、緑地密度の高低を表す。
 特徴量ゲインテーブルg3-2()は、緑地密度が低い場合、1.0以上と大きく、緑地密度が高いほど、徐々に小さくなっている。すなわち、特徴量ゲインテーブルg3-2()は、緑地密度に対して、単調減少で表されている。
 例えば、ユーザが緑地環境にいる場合、リラックス状態を表す生理反応の感度が高まる傾向があることが知られている。すなわち、ユーザが緑地環境にいる場合、逆に、覚醒状態を表す生理反応の感度が鈍くなる。
 したがって、この場合、行動状態の代わりに、位置状態に応じて(緑地密度が高くなるにつれて)覚醒状態を表す生理反応の反応感度が鈍くなる特性が想定され、図11の特徴量ゲインテーブルg3-2()が用いられて、緑地密度が高くなるほどに特徴量のレンジを狭める処理が行われる。換言するに、生理反応の鈍りに対応するため、情動推定の推定感度としては高める処理が行われる。
 他に、本技術は、例えば、温熱環境コンテクスト(寒いところにいるか熱いところにいるか)、社会的環境(どのような人と一緒にいるか)コンテクストに応じた処理にも適用することができる。
 <本技術の効果>
 本技術においては、ユーザに関するコンテクスト(何かしらの状態)に応じて正規化係数が補正され、補正された正規化係数により入力特徴量が正規化される。
 生理反応の行動コンテクスト(行動状態)による感度変化をコントロールすることができる。また、ユーザの行動状態に応じた情動生理反応の感度低下に伴う情動推定の精度低下の抑制を行うことができるとともに、ユーザによる体験を向上させることができる。
 これにより、リアルタイムにおける情動推定の精度を向上することができる。
 さらに、ユーザが体動を伴う実際のアプリケーションの拡大が期待できる。
 日常生活におけるストレス状態のモニタリング、オフィス環境における集中状態の可視化、動画コンテンツ視聴中におけるユーザのエンゲージメント解析、ゲームプレイ中の盛り上がり解析など、体動を伴う種々のアプリケーションへの展開が期待できる。
 <コンピュータの構成例>
 上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。
 図12は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
 CPU(Central Processing Unit)301、ROM(Read Only Memory)302、RAM(Random Access Memory)303は、バス304により相互に接続されている。
 バス304には、さらに、入出力インタフェース305が接続されている。入出力インタフェース305には、キーボード、マウスなどよりなる入力部306、ディスプレイ、スピーカなどよりなる出力部307が接続される。また、入出力インタフェース305には、ハードディスクや不揮発性のメモリなどよりなる記憶部308、ネットワークインタフェースなどよりなる通信部309、リムーバブルメディア311を駆動するドライブ310が接続される。
 以上のように構成されるコンピュータでは、CPU301が、例えば、記憶部308に記憶されているプログラムを入出力インタフェース305及びバス304を介してRAM303にロードして実行することにより、上述した一連の処理が行われる。
 CPU301が実行するプログラムは、例えばリムーバブルメディア311に記録して、あるいは、ローカルエリアネットワーク、インターネット、デジタル放送といった、有線または無線の伝送媒体を介して提供され、記憶部308にインストールされる。
 なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたときなどの必要なタイミングで処理が行われるプログラムであっても良い。
 なお、本明細書において、システムとは、複数の構成要素(装置、モジュール(部品)など)の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれも、システムである。
 また、本明細書に記載された効果はあくまで例示であって限定されるものでは無く、また他の効果があってもよい。
 本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
 例えば、本技術は、1つの機能を、ネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
 また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
 さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
<構成の組み合わせ例>
 本技術は、以下のような構成をとることもできる。
(1)
 計測された生体信号に基づいて入力特徴量を抽出する特徴量抽出部と、
 ユーザに関するコンテクストに応じて正規化係数を補正する反応レンジ補正部と、
 前記反応レンジ補正部により補正された前記正規化係数により前記入力特徴量を正規化する正規化部と、
 正規化された前記入力特徴量に対して、予め構築された機械学習モデルにより、情動状態の予測ラベルを出力する情動状態時系列ラベリング部と
 を備える信号処理装置。
(2)
 前記コンテクストは、前記ユーザの行動に関する行動コンテクストである
 前記(1)に記載の信号処理装置。
(3)
 前記反応レンジ補正部は、前記行動コンテクストに基づく活動レベルの高さに応じて単調減少のゲインをかけることで、前記正規化係数を補正する
 前記(2)に記載の信号処理装置。
(4)
 アプリケーションに応じて、前記機械学習モデルの構築時特徴量のレンジを調整するアプリケーション調整部をさらに備え、
 前記反応レンジ補正部は、前記アプリケーション調整部により調整された前記構築時特徴量のレンジにおける前記正規化係数を補正する
 前記(1)乃至(3)のいずれかに記載の信号処理装置。
(5)
 前記アプリケーション調整部は、前記アプリケーションに応じて、前記機械学習モデルを選択し、前記機械学習モデルの前記構築時特徴量のレンジを前記入力特徴量のレンジに変換する変換テーブルを導出し、
 導出した前記変換テーブルを用いて、前記正規化係数を変換することで、前記構築時特徴量のレンジを調整する
 前記(4)に記載の信号処理装置。
(6)
 前記予測ラベルの信頼度である予測ラベル信頼度を用いて前記予測ラベルを重み付け加算した結果に基づいて、情動推定結果を出力する安定化処理部と
 前記情動推定結果を判定する判定部と
 をさらに備える前記(4)または(5)に記載の信号処理装置。
(7)
 前記生体信号の信号品質を判定する信号品質判定部をさらに備え、
 前記安定化処理部は、前記予測ラベルを、前記予測ラベル信頼度および前記信号品質の判定結果を用いて重み付け加算した結果に基づいて、前記情動推定結果を出力する
 前記(6)に記載の信号処理装置。
(8)
 前記ユーザに関するコンテクストは、前記ユーザの位置に関する位置コンテクストである
 前記(1)、(4)乃至(7)のいずれかに記載の信号処理装置。
(9)
 前記生体信号は、脳波、精神性発汗、脈波、血流、連続血圧、呼吸、または瞬目が測定された信号のうちの少なくとも1つである
 前記(1)乃至(8)のいずれかに記載の信号処理装置。
(10)
 前記生体信号を計測する生体センサをさらに備える
 前記(1)乃至(9)のいずれかに記載の信号処理装置。
(11)
 筐体は、ウェアラブルに構成される
 前記(1)乃至(10)のいずれかに記載の信号処理装置。
(12)
 信号処理装置が、
 計測された生体信号に基づいて入力特徴量を抽出し、
 ユーザに関するコンテクストに応じて正規化係数を補正し、
 補正された前記正規化係数により前記入力特徴量を正規化し、
 正規化された前記入力特徴量に対して、予め構築された機械学習モデルにより、情動状態の予測ラベルを出力する
 信号処理方法。
 1 情動推定処理装置, 21 センサデータ取得部, 22 フィルタ前処理部, 23 特徴量抽出部, 24 APP規範取得部, 25 行動状態反応レンジ補正部,26 正規化部, 27 情動状態時系列ラベリング部, 28 安定化処理部, 29 判定部, 101 情動推定処理装置, 111 信号品質判定部, 112 安定化処理部

Claims (12)

  1.  計測された生体信号に基づいて入力特徴量を抽出する特徴量抽出部と、
     ユーザに関するコンテクストに応じて正規化係数を補正する反応レンジ補正部と、
     前記反応レンジ補正部により補正された前記正規化係数により前記入力特徴量を正規化する正規化部と、
     正規化された前記入力特徴量に対して、予め構築された機械学習モデルにより、情動状態の予測ラベルを出力する情動状態時系列ラベリング部と
     を備える信号処理装置。
  2.  前記コンテクストは、前記ユーザの行動に関する行動コンテクストである
     請求項1に記載の信号処理装置。
  3.  前記反応レンジ補正部は、前記行動コンテクストに基づく活動レベルの高さに応じて単調減少のゲインをかけることで、前記正規化係数を補正する
     請求項2に記載の信号処理装置。
  4.  アプリケーションに応じて、前記機械学習モデルの構築時特徴量のレンジを調整するアプリケーション調整部をさらに備え、
     前記反応レンジ補正部は、前記アプリケーション調整部により調整された前記構築時特徴量のレンジにおける前記正規化係数を補正する
     請求項2に記載の信号処理装置。
  5.  前記アプリケーション調整部は、前記アプリケーションに応じて、前記機械学習モデルを選択し、前記機械学習モデルの前記構築時特徴量のレンジを前記入力特徴量のレンジに変換する変換テーブルを導出し、
     導出した前記変換テーブルを用いて、前記正規化係数を変換することで、前記構築時特徴量のレンジを調整する
     請求項4に記載の信号処理装置。
  6.  前記予測ラベルの信頼度である予測ラベル信頼度を用いて前記予測ラベルを重み付け加算した結果に基づいて、情動推定結果を出力する安定化処理部と
     前記情動推定結果を判定する判定部と
     をさらに備える請求項4に記載の信号処理装置。
  7.  前記生体信号の信号品質を判定する信号品質判定部をさらに備え、
     前記安定化処理部は、前記予測ラベルを、前記予測ラベル信頼度および前記信号品質の判定結果を用いて重み付け加算した結果に基づいて、前記情動推定結果を出力する
     請求項6に記載の信号処理装置。
  8.  前記ユーザに関するコンテクストは、前記ユーザの位置に関する位置コンテクストである
     請求項1に記載の信号処理装置。
  9.  前記生体信号は、脳波、精神性発汗、脈波、血流、連続血圧、呼吸、または瞬目が測定された信号のうちの少なくとも1つである
     請求項1に記載の信号処理装置。
  10.  前記生体信号を計測する生体センサをさらに備える
     請求項1に記載の信号処理装置。
  11.  筐体は、ウェアラブルに構成される
     請求項1に記載の信号処理装置。
  12.  信号処理装置が、
     計測された生体信号に基づいて入力特徴量を抽出し、
     ユーザに関するコンテクストに応じて正規化係数を補正し、
     補正された前記正規化係数により前記入力特徴量を正規化し、
     正規化された前記入力特徴量に対して、予め構築された機械学習モデルにより、情動状態の予測ラベルを出力する
     信号処理方法。
PCT/JP2023/042048 2022-12-05 2023-11-22 信号処理装置および方法 WO2024122350A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2022194285 2022-12-05
JP2022-194285 2022-12-05

Publications (1)

Publication Number Publication Date
WO2024122350A1 true WO2024122350A1 (ja) 2024-06-13

Family

ID=91379260

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/042048 WO2024122350A1 (ja) 2022-12-05 2023-11-22 信号処理装置および方法

Country Status (1)

Country Link
WO (1) WO2024122350A1 (ja)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010514498A (ja) * 2006-12-27 2010-05-06 カーディアック ペースメイカーズ, インコーポレイテッド 代償不全を管理する患者内アルゴリズム
WO2015107743A1 (ja) * 2014-01-17 2015-07-23 任天堂株式会社 情報処理システム、サーバシステム、情報処理装置、および情報処理方法
JP2018102617A (ja) * 2016-12-27 2018-07-05 オムロン株式会社 感情推定装置、方法およびプログラム
JP2019144718A (ja) * 2018-02-19 2019-08-29 コニカミノルタ株式会社 ストレス報知システム及びプログラム
JP2020042810A (ja) * 2018-09-06 2020-03-19 キヤノンメディカルシステムズ株式会社 医用情報処理装置、医用情報処理方法、医用情報処理プログラムおよび医用情報処理システム
WO2022157874A1 (ja) * 2021-01-21 2022-07-28 ソニーグループ株式会社 情報処理装置、情報処理方法、及びプログラム
JP2022138233A (ja) * 2021-03-10 2022-09-26 ソニーグループ株式会社 コンテンツリコメンデーションシステム、コンテンツリコメンデーション方法、コンテンツライブラリ、コンテンツライブラリの生成方法及びターゲットインプットユーザインタフェース
JP2022157156A (ja) * 2021-03-31 2022-10-14 三井化学株式会社 モデル生成方法、コンピュータプログラム、情報処理装置、情報処理システム、情報処理方法、及び訓練データの生成方法
JP2022160769A (ja) * 2021-04-07 2022-10-20 ソニーグループ株式会社 情報処理システム

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010514498A (ja) * 2006-12-27 2010-05-06 カーディアック ペースメイカーズ, インコーポレイテッド 代償不全を管理する患者内アルゴリズム
WO2015107743A1 (ja) * 2014-01-17 2015-07-23 任天堂株式会社 情報処理システム、サーバシステム、情報処理装置、および情報処理方法
JP2018102617A (ja) * 2016-12-27 2018-07-05 オムロン株式会社 感情推定装置、方法およびプログラム
JP2019144718A (ja) * 2018-02-19 2019-08-29 コニカミノルタ株式会社 ストレス報知システム及びプログラム
JP2020042810A (ja) * 2018-09-06 2020-03-19 キヤノンメディカルシステムズ株式会社 医用情報処理装置、医用情報処理方法、医用情報処理プログラムおよび医用情報処理システム
WO2022157874A1 (ja) * 2021-01-21 2022-07-28 ソニーグループ株式会社 情報処理装置、情報処理方法、及びプログラム
JP2022138233A (ja) * 2021-03-10 2022-09-26 ソニーグループ株式会社 コンテンツリコメンデーションシステム、コンテンツリコメンデーション方法、コンテンツライブラリ、コンテンツライブラリの生成方法及びターゲットインプットユーザインタフェース
JP2022157156A (ja) * 2021-03-31 2022-10-14 三井化学株式会社 モデル生成方法、コンピュータプログラム、情報処理装置、情報処理システム、情報処理方法、及び訓練データの生成方法
JP2022160769A (ja) * 2021-04-07 2022-10-20 ソニーグループ株式会社 情報処理システム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
BAMERT MELANIE, INAUEN JENNIFER: "Physiological stress reactivity and recovery: Some laboratory results transfer to daily life", FRONTIERS IN PSYCHOLOGY, FRONTIERS RESEARCH FOUNDATION, vol. 13, 15 August 2022 (2022-08-15), pages 1 - 19, XP093178615, ISSN: 1664-1078, DOI: 10.3389/fpsyg.2022.943065 *

Similar Documents

Publication Publication Date Title
US10687757B2 (en) Psychological acute stress measurement using a wireless sensor
US9655559B2 (en) Automated sleep staging using wearable sensors
JP2009521246A (ja) 精神状態の検出およびそれを用いる対話
JP6785136B2 (ja) 覚醒度処理方法および覚醒度処理装置
Babaeian et al. Real-time driver drowsiness detection using wavelet transform and ensemble logistic regression
US11617545B2 (en) Methods and systems for adaptable presentation of sensor data
Alivar et al. Motion artifact detection and reduction in bed-based ballistocardiogram
CN115802931A (zh) 检测用户温度和评估呼吸系统病症的生理症状
WO2023112384A1 (ja) 計算機システム及び情動推定方法
Shahrudin et al. Driver drowsiness detection using different classification algorithms
JP2008253727A (ja) モニタ装置、モニタシステム及びモニタ方法
WO2024122350A1 (ja) 信号処理装置および方法
CA3139034A1 (en) System and method for filtering time-varying data for physiological signal prediction
JP2021112503A (ja) 情報処理装置、情報処理方法およびプログラム
JP7067389B2 (ja) 生体状態推定装置
Rolink et al. Improving sleep/wake classification with recurrence quantification analysis features
Sujin et al. Public e-health network system using arduino controller
JP2023535379A (ja) ウェアラブルバイオセンサを使用する体温推定の方法及びシステム
JP2020073108A (ja) 睡眠段階判定方法、睡眠段階判定装置、及び睡眠段階判定プログラム
WO2023286313A1 (ja) 信号処理装置および方法
CN112971791B (zh) 一种个体化的生理状态监测分析方法和设备
WO2017180617A1 (en) Psychological acute stress measurement using a wireless sensor
JP7327417B2 (ja) 状態推定装置、状態推定方法、及びプログラム
KR102645586B1 (ko) 생체신호를 이용한 수면 호흡 상태 분류 장치 및 방법
WO2023153418A1 (ja) 対象の脳波の強度を推定するシステム、方法、およびプログラム