WO2023139849A1 - 感情推定方法、コンテンツ決定方法、プログラム、感情推定システム、及びコンテンツ決定システム - Google Patents

感情推定方法、コンテンツ決定方法、プログラム、感情推定システム、及びコンテンツ決定システム Download PDF

Info

Publication number
WO2023139849A1
WO2023139849A1 PCT/JP2022/036346 JP2022036346W WO2023139849A1 WO 2023139849 A1 WO2023139849 A1 WO 2023139849A1 JP 2022036346 W JP2022036346 W JP 2022036346W WO 2023139849 A1 WO2023139849 A1 WO 2023139849A1
Authority
WO
WIPO (PCT)
Prior art keywords
parameter
emotion
user
indicating
content
Prior art date
Application number
PCT/JP2022/036346
Other languages
English (en)
French (fr)
Inventor
伸一郎 栗原
Original Assignee
パナソニックIpマネジメント株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニックIpマネジメント株式会社 filed Critical パナソニックIpマネジメント株式会社
Publication of WO2023139849A1 publication Critical patent/WO2023139849A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services

Definitions

  • the present disclosure relates to an emotion estimation method, a content determination method, a program, an emotion estimation system, and a content determination system.
  • Patent Literature 1 discloses a technique of acquiring biometric data of a user and calculating a current emotional state value indicating the current emotional state of the user based on the biometric data.
  • the present disclosure provides an emotion estimation method and the like that can estimate a user's emotion based on the user's subjective mood.
  • a first parameter indicating a user's subjective mood, a second parameter indicating the user's subjective degree of excitement, and a third parameter indicating the user's subjective relaxation degree are obtained, an emotion parameter indicating the user's emotion is estimated based on the obtained first parameter, the second parameter, and the third parameter, and information about the emotion parameter is output.
  • An emotion estimation method can estimate a user's emotion based on the user's subjective mood.
  • FIG. 1 is a block diagram showing an overall configuration including an emotion estimation system and a content determination system according to an embodiment.
  • FIG. 2 is a diagram showing an example of a first parameter input screen in the information terminal according to the embodiment.
  • FIG. 3 is a diagram showing an example of a second parameter input screen in the information terminal according to the embodiment.
  • FIG. 4 is a diagram showing an example of a third parameter input screen in the information terminal according to the embodiment.
  • FIG. 5 is a diagram showing an example of an affect grid according to the embodiment.
  • FIG. 6 is an explanatory diagram of estimation of a user's emotion by the emotion estimation system according to the embodiment.
  • FIG. 7 is an explanatory diagram of a prediction model used in the content determination system according to the embodiment.
  • FIG. 1 is a block diagram showing an overall configuration including an emotion estimation system and a content determination system according to an embodiment.
  • FIG. 2 is a diagram showing an example of a first parameter input screen in the information terminal according to the embodiment.
  • FIG. 3 is
  • FIG. 8 is a schematic diagram showing an example of operations of the emotion estimation system and the content determination system according to the embodiment.
  • FIG. 9 is a flow chart showing an example of the operation of the emotion estimation system according to the embodiment.
  • FIG. 10 is a flow chart showing an example of the operation of the content determination system according to the embodiment.
  • FIG. 11 is an explanatory diagram of an example of playlist generation in the content determination system according to the embodiment.
  • FIG. 12 is an explanatory diagram of an example of playlist regeneration in the content determination system according to the embodiment.
  • each figure is a schematic diagram and is not necessarily strictly illustrated. Moreover, in each figure, the same code
  • An emotion estimation system is a system for estimating a user's emotion based on the user's subjective mood, subjective excitement level, and user's subjective relaxation level.
  • the content determination system is a system for determining content to be provided to the user based on the user's emotion estimated by the emotion estimation system.
  • the content is, for example, music played in the space where the user exists, or sound content including natural environmental sounds.
  • the natural environmental sounds are, for example, the chirping of birds, the chirping of insects, the sound of the wind, the sound of running water, or the like.
  • the content is not limited to sound content, as long as it can induce the current emotion of the user to a predetermined emotion when provided to the user.
  • the content may be image content including still images or moving images reproduced in the space where the user exists, or may be lighting content including the brightness or color temperature of the lighting that illuminates the space where the user exists.
  • FIG. 1 is a block diagram showing the overall configuration including the emotion estimation system and content determination system according to the embodiment.
  • emotion estimation system 10 is realized by information terminal 1 used by a user.
  • the content determination system 20 is realized by the server 2 .
  • the sound content determined by the content determination system 20 is played back by the playback system 3 .
  • the server 2 can communicate with each of the information terminal 1 and the reproduction system 3 via a network N1 such as the Internet.
  • FIG. 1 only one information terminal 1 is shown.
  • the number of information terminals 1 is the same as the number of users. Note that only one information terminal 1 exists when there is only one user, or when one information terminal 1 is shared by a plurality of users.
  • the emotion estimation system 10, the content determination system 20, and the reproduction system 3 are all intended for users in the office.
  • the emotion estimation system 10 estimates the emotions of users present in the office.
  • the content determination system 20 provides sound content to the users present in the office based on the feelings of the users present in the office estimated by the emotion estimation system 10 .
  • the reproduction system 3 reproduces the sound content determined by the content determination system 20 toward the inside of the office.
  • the reproduction system 3 is installed, for example, at a predetermined location in an office.
  • the predetermined place is a place where users in the office can listen to the sound content played back by the playback system 3 .
  • the predetermined location is the ceiling in the center of the office, or the desk placed in the center of the office.
  • the emotion estimation system 10, the content determination system 20, and the reproduction system 3 may all target users in spaces other than the office.
  • the information terminal 1 is, for example, a portable terminal such as a smart phone, a tablet terminal, or a laptop personal computer.
  • the information terminal 1 may be a stationary terminal such as a desktop personal computer.
  • information terminal 1 is a smart phone.
  • the information terminal 1 functions as an emotion estimation system 10 by installing a predetermined application.
  • the information terminal 1 includes a user interface (User Interface) 11, a communication interface (I/F) 12, a CPU (Central Processing Unit) 13, and a memory .
  • the user interface 11 is a device that receives user operations and presents images to the user.
  • the user interface 11 is realized by, for example, an operation receiving device such as a touch panel and a display device such as a display panel.
  • User interface 11 is an example of an input interface of emotion estimation system 10 . It should be noted that means for receiving user operations in the user interface 11 may be implemented by a voice input receiving device such as a microphone. Also, means for presenting information to the user in the user interface 11 may be realized by an audio output device such as a speaker.
  • the user inputs the first parameter, the second parameter, and the third parameter while viewing the input screen displayed on the user interface 11 .
  • the user interface 11 acquires the first parameter, the second parameter, and the third parameter.
  • Input of the first parameter, the second parameter, and the third parameter will be described in detail in [Input of the first parameter, the second parameter, and the third parameter] described later.
  • the first parameter is a parameter that indicates the user's subjective mood. Mood can include, for example, depressed, melancholy, satisfied, or happy.
  • the second parameter is a parameter indicating the user's subjective degree of excitement. The degree of excitement may include whether the user is feeling excited or tired.
  • the third parameter is a parameter that indicates the user's subjective degree of relaxation. The degree of relaxation may include whether the user is relaxed or tense.
  • the first parameter, the second parameter, and the third parameter are all parameters indicating the user's self-reported emotion.
  • the communication interface 12 is, for example, a wireless communication interface, and communicates with the server 2 via the network N1 based on wireless communication standards such as Wi-Fi (registered trademark).
  • the communication interface 12 transmits signals to the server 2 by communicating with the server 2 via the network N1. This signal includes an emotion parameter representing the user's emotion estimated by the CPU 13, which will be described later.
  • Communication interface 12 is an example of an output interface of emotion estimation system 10 .
  • the CPU 13 performs information processing related to displaying images on the user interface 11 and transmitting signals using the communication interface 12 . Further, the CPU 13 performs information processing for estimating an emotion parameter indicating the user's emotion, based on the first parameter, the second parameter, and the third parameter acquired by the user interface 11 .
  • the information processing for estimating emotion parameters will be described in detail in [Estimation of User's Emotion], which will be described later.
  • CPU 13 is an example of a signal processing circuit of emotion estimation system 10 .
  • the memory 14 is a storage device that stores various information necessary for the CPU 13 to perform information processing, computer programs executed by the CPU 13, and the like.
  • the memory 14 is implemented by, for example, a semiconductor memory.
  • the server 2 includes a communication interface 21 , a CPU 22 , a memory 23 and a storage device 24 .
  • the communication interface 21 is, for example, a wireless communication interface, and receives signals transmitted from the information terminal 1 by communicating with the information terminal 1 via the network N1 based on wireless communication standards such as Wi-Fi (registered trademark). Further, the communication interface 21 transmits signals to the reproduction system 3 by communicating with the reproduction system 3 via the network N1 based on a wireless communication standard such as Wi-Fi (registered trademark).
  • the communication interface 21 has the functions of both an input interface 21A and an output interface 21B.
  • Input interface 21A acquires emotion parameters estimated by emotion estimation system 10 by receiving signals transmitted from information terminal 1 .
  • the input interface 21A is an example of an input interface in the content determination system 20. FIG.
  • the input interface 21A further acquires a target parameter indicating the target emotion of the user.
  • the target parameters are preset by an administrator of the content determination system 20, for example. Setting of the target parameters is performed, for example, by an information terminal used by the administrator.
  • the input interface 21A acquires target parameters by receiving signals transmitted from the administrator's information terminal. Note that the setting of the target parameter may be set in advance by the user, for example.
  • the output interface 21B outputs information about the sound content determined by the CPU 22 by transmitting a signal to the reproduction system 3.
  • the information about sound content is a playlist that defines the order in which the sound content is reproduced by the reproduction system 3 .
  • the playlist may define the order in which a plurality of sound contents are reproduced, or may define the repeat reproduction of only one sound content.
  • the output interface 21B is an example of an output interface in the content determination system 20. FIG.
  • the CPU 22 performs information processing related to signal transmission and reception using the communication interface 21 and information processing for determining sound content based on the emotion parameters acquired by the communication interface 21 .
  • the CPU 22 further references target parameters in the information processing that determines sound content. Information processing for determining sound content will be described in detail in [Determination of sound content] described later.
  • the above-described signal transmission processing, reception processing, and sound content determination processing are all realized by the CPU 22 executing a computer program stored in the memory 23 .
  • CPU 22 is an example of a signal processing circuit of content determination system 20 .
  • the memory 23 is a storage device that stores various information necessary for the CPU 22 to perform information processing, computer programs executed by the CPU 22, and the like.
  • the memory 23 is implemented by, for example, a semiconductor memory.
  • the storage device 24 is a device that stores a database 25 that the CPU 22 refers to when executing information processing for determining sound content.
  • the storage device 24 is realized, for example, by a semiconductor memory such as a hard disk or an SSD (Solid State Drive).
  • the database 25 will be described in detail in [Determination of Sound Contents], which will be described later.
  • the reproduction system 3 includes a communication interface 31 , a CPU 32 , a memory 33 , a storage device 34 , an amplifier 35 and a speaker 36 .
  • the communication interface 31 is, for example, a wireless communication interface, and communicates with the server 2 via the network N1 based on wireless communication standards such as Wi-Fi (registered trademark).
  • the communication interface 31 receives signals from the server 2 by communicating with the server 2 via the network N1. This signal includes the playlist determined by the content determination system 20 .
  • the CPU 32 performs information processing regarding signal reception using the communication interface 31 and information processing for causing the speaker 36 to reproduce sound content according to the playlist acquired by the communication interface 31 . That is, the CPU 32 sequentially reads sound contents specified in the acquired playlist from the storage device 34 and causes the speaker 36 to reproduce sound signals including the read sound contents via the amplifier 35 . Thereby, the speaker 36 reproduces the sound content according to the order specified in the playlist.
  • Both the signal reception processing and the sound content processing described above are realized by the CPU 32 executing a computer program stored in the memory 33 .
  • the memory 33 is a storage device that stores various information necessary for the CPU 32 to perform information processing, computer programs executed by the CPU 32, and the like.
  • the memory 33 is implemented by, for example, a semiconductor memory.
  • the storage device 34 is a device in which a plurality of sound contents to be reproduced by the speaker 36 are stored.
  • the storage device 34 is realized, for example, by a semiconductor memory such as a hard disk or SSD (Solid State Drive).
  • the amplifier 35 amplifies the input sound signal and outputs the amplified sound signal to the speaker 36 .
  • the amplifier 35 has an upsampling function that converts the sampling rate of the sound signal to a higher sampling rate. Note that the amplifier 35 may not have the upsampling function.
  • the speaker 36 reproduces sound content based on the sound signal by converting the sound signal amplified by the amplifier 35 into sound and outputting the sound.
  • FIG. 2 is a diagram showing an example of the first parameter input screen 100 in the information terminal 1 according to the embodiment.
  • FIG. 3 is a diagram showing an example of the second parameter input screen 200 in the information terminal 1 according to the embodiment.
  • FIG. 4 is a diagram showing an example of the input screen 300 for the third parameter in the information terminal 1 according to the embodiment.
  • the user inputs the first parameter, the second parameter, and the third parameter through the user interface 11 of the information terminal 1 .
  • the user executes a predetermined application installed in the information terminal 1, for example.
  • the input screen 100 for the first parameter shown in FIG. 2 is first displayed on the user interface 11 of the information terminal 1 .
  • This input screen 100 displays a character string 101 representing a question to the user, "How are you feeling?"
  • an icon 111 and a character string 121 representing a depressed mood an icon 112 and a character string 122 representing a depressed mood
  • an icon 113 and a character string 123 representing a normal mood an icon 114 and a character string 124 representing a satisfied mood
  • an icon 115 and a character string 125 representing a happy mood are displayed.
  • the user can input the first parameter representing the user's subjective mood by touching the input screen 100 or by selecting one of the icons 111 to 115 .
  • the user interface 11 of the information terminal 1 next displays a second parameter input screen 200 shown in FIG.
  • This input screen 200 displays a character string 201 representing a question to the user, "How are you feeling now?"
  • a plurality of character strings 221 to 225 are values representing the degree of vitality as a percentage.
  • an icon 211 and a character string 221 indicating not very energetic
  • an icon 212 and a character string 222 indicating not very energetic
  • an icon 213 and a character string 223 indicating normal
  • an icon 214 and a character string 224 indicating somewhat energetic
  • an icon 215 and a character string 225 indicating very energetic are displayed.
  • the user interface 11 of the information terminal 1 next displays a third parameter input screen 300 shown in FIG.
  • a character string 301 representing a question to the user "What is your current relaxation level?"
  • an icon 311 and a character string 321 indicating not relaxed at all
  • an icon 312 and a character string 322 indicating not very relaxed
  • an icon 313 and a character string 323 indicating normal
  • an icon 314 and a character string 324 indicating somewhat relaxed
  • an icon 315 and a character string 325 indicating very relaxed are displayed.
  • the first parameter input screen 100, the second parameter input screen 200, and the third parameter input screen 300 are displayed in this order on the user interface 11 of the information terminal 1, but the display order of these input screens 100 to 300 is not limited to this order.
  • the user interface 11 of the information terminal 1 may display the input screen 300 for the third parameter, the input screen 200 for the second parameter, and the input screen 100 for the first parameter in this order.
  • the first parameter, the second parameter, and the third parameter are all expressed in five stages, but are not limited to this.
  • at least one of the first parameter, the second parameter, and the third parameter may be expressed in less than five steps or more than five steps.
  • FIG. 5 is a diagram showing an example of an affect grid according to the embodiment.
  • Affect grid a single-item scale of pleasure and arousal. Journal of personality and social psychology, 57(3), 493. See
  • the emotion parameter is represented by the coordinates of a plane (affect grid) defined by a first axis A1 indicating comfort level and a second axis A2 indicating arousal level.
  • the comfort level is represented by values from -1.0 (unpleasant) to +1.0 (comfortable).
  • the degree of alertness is represented by values from -1.0 (calm) to +1.0 (alert). It should be noted that both the numerical value of the comfort level and the numerical value of the awakening level are numerical values normalized within a range of ⁇ 1.0, and are not intended to be limited to these numerical values.
  • a third axis A3 indicating the degree of excitement and a fourth axis A4 indicating the degree of relaxation are further defined.
  • a third axis A3 is obtained by rotating the first axis A1 by a first angle ⁇ 1 with respect to the origin of the plane (affect grid).
  • the first angle ⁇ 1 is 45 degrees
  • the third axis A3 is an axis obtained by rotating the first axis A1 counterclockwise with respect to the origin.
  • the degree of excitement is indicated such that the greater the degree of excitement of the user, the larger the positive value, and the greater the degree of fatigue of the user, the larger the negative value.
  • the first angle ⁇ 1 is not limited to 45 degrees, and may be any angle that can indicate the degree of excitement.
  • the fourth axis A4 is obtained by rotating the second axis A2 by a second angle ⁇ 2 with respect to the origin of the plane (affect grid).
  • the second angle ⁇ 2 is 45 degrees
  • the fourth axis A4 is an axis obtained by rotating the second axis A2 counterclockwise with respect to the origin.
  • the degree of relaxation is indicated such that the greater the degree of relaxation of the user, the larger the positive value, and the greater the degree of tension the user feels, the larger the negative value.
  • the second angle ⁇ 2 is not limited to 45 degrees, and may be any angle that can indicate the degree of relaxation.
  • the CPU 13 of the emotion estimation system 10 first determines the starting point P0 (see FIG. 6) on the plane (affect grid) based on the first parameter. Specifically, when the user selects icon 111 on input screen 100, that is, when the user inputs a first parameter indicating that the user is in a depressed mood, CPU 13 determines point P1 as starting point P0. Further, when the user selects icon 112 on input screen 100, that is, when the user inputs the first parameter indicating that the user is in a depressed mood, CPU 13 determines point P2 as starting point P0.
  • CPU 13 determines point P3 as starting point P0.
  • Point P3 is the origin of the affect grid.
  • CPU 13 determines point P4 as starting point P0.
  • CPU 13 determines point P5 as starting point P0.
  • the CPU 13 determines the first movement amount M1 (see FIG. 6).
  • the first movement amount M1 is the movement amount based on the second parameter along the third axis A3. That is, the first movement amount M1 is represented by a vector parallel to the third axis A3.
  • the CPU 13 determines the first movement amount M1 to be a vector in the negative direction (lower left in FIG. 6).
  • the user selects icon 212 on input screen 200 that is, when the user inputs the second parameter indicating that the user is not very energetic, CPU 13 determines the first movement amount M1 to be a negative vector.
  • This vector has a smaller amount of movement than the vector when the user is completely unwell.
  • the CPU 13 determines the first movement amount M1 to be zero.
  • the CPU 13 determines the first movement amount M1 to be a vector pointing in the positive direction (toward the upper right in FIG. 6).
  • the user selects icon 215 on input screen 200 that is, when the user inputs a second parameter indicating that the user is very healthy, CPU 13 determines first movement amount M1 to be a vector in the positive direction. This vector has a larger amount of movement than the vector when the user is slightly energetic.
  • the second movement amount M2 is the movement amount based on the third parameter along the fourth axis A4. That is, the second movement amount M2 is represented by a vector parallel to the fourth axis A4. Specifically, when the user selects the icon 311 on the input screen 300, that is, when the user inputs the third parameter indicating that the user is not relaxed at all, the CPU 13 determines the second movement amount M2 to be a vector in the negative direction (toward the upper left in FIG. 6).
  • the CPU 13 determines the second movement amount M2 to be a negative vector. This vector moves less than the vector when the user is not relaxed at all. Further, when the user selects the icon 313 on the input screen 300, that is, when the user inputs the third parameter indicating normal, the CPU 13 determines the second movement amount M2 to be zero. Further, when the user selects the icon 314 on the input screen 300, that is, when the user inputs the third parameter indicating that the user is somewhat relaxed, the CPU 13 determines the second movement amount M2 to be a vector in the positive direction (lower right in FIG. 6).
  • CPU 13 determines the second movement amount M2 to be a vector in the positive direction. This vector has a larger amount of movement than the vector when the user is slightly relaxed.
  • the CPU 13 estimates the emotion parameter P10 by moving the starting point P0 according to the first movement amount M1 and the second movement amount M2. That is, the CPU 13 moves the starting point P0 in the affect grid by the vector indicated by the first movement amount M1 and further by the vector indicated by the second movement amount M2, and estimates the coordinates after movement as the emotion parameter P10.
  • FIG. 1 the first movement amount M1 and the second movement amount M2.
  • FIG. 6 shows an example of the emotion parameter P10 when the user selects the icon 112 on the input screen 100 (i.e., inputs the first parameter indicating that the user is in a depressed mood), selects the icon 214 on the input screen 200 (i.e., inputs the second parameter indicating that the user is somewhat energetic), and selects the icon 314 on the input screen 300 (i.e., inputs the third parameter that indicates that the user is somewhat relaxed).
  • the emotion parameter that indicates the user's emotion is represented by the degree of comfort and the degree of arousal.
  • the emotion estimation system 10 can estimate the user's emotion by obtaining the comfort level and the arousal level based on the user's subjective evaluation of the user's emotion, that is, based on the first parameter indicating the user's subjective mood, the second parameter indicating the user's subjective excitement level, and the third parameter indicating the user's subjective relaxation level. Therefore, the emotion estimation system 10 does not need to acquire the user's biometric data unlike the technique disclosed in Patent Document 1, so there is no need to separately prepare means for acquiring the user's biometric data.
  • the emotion estimation system 10 can estimate the user's emotion based on the user's three subjective evaluations, the user does not need to answer many inquiries. Therefore, the emotion estimation system 10 has the advantage of facilitating estimation of the user's emotion using a relatively simple method.
  • the CPU 22 determines sound content such that the emotion parameter estimated by the emotion estimation system 10 changes into a guidance parameter that indicates the emotion to which the user is guided. That is, the CPU 22 determines the sound content so that the user's emotion before reproducing the sound content is changed to a predetermined emotion by reproducing the sound content.
  • the guidance parameter here is a kind of emotion parameter, and is a parameter that indicates the emotion desired to be felt in the user by making the user listen to the sound content.
  • the CPU 22 refers to the database 25 and implements information processing for determining sound content.
  • the database 25 is built in advance using the machine-learned prediction model 4 shown in FIG.
  • FIG. 7 is an explanatory diagram of the prediction model 4 used in the content determination system 20 according to the embodiment.
  • the prediction model 4 is a neural network that is machine-learned through supervised learning so as to input emotional parameters and acoustic features before the sound content is reproduced and output emotional parameters after the sound content is reproduced.
  • the prediction model 4 is a model that evaluates what kind of emotion the user's emotion is induced when the sound content is reproduced for the user having a certain emotion.
  • the acoustic feature quantity is the physical feature quantity of the sound signal extracted from the sound content.
  • the acoustic features include tempo (speed of sound content), beat whiteness (ratio of frequency of appearance of sounds that contribute to beat formation and sounds that do not contribute to beat formation), degree of spectral change (degree of spectral change between frames of a predetermined length of time), and average number of pronunciations (pronunciation frequency of sounds pronounced in sound content).
  • Acoustic features may also include features such as MFCC (Mel-frequency cepstral coordinates), which is a spectrum representing a timbre in consideration of human auditory characteristics, chords, and contrast of energy distribution in the frequency domain.
  • MFCC Mel-frequency cepstral coordinates
  • Prediction model 4 is machine-learned using a large number of training data sets prepared in advance.
  • the learning data set includes emotion parameters and acoustic features as input data, and correct answer data.
  • the learning data set can be generated by, for example, inputting the first parameter, the second parameter, and the third parameter again after having the subject who has input the first parameter, the second parameter, and the third parameter listen to the sound content. That is, the learning data set includes emotion parameters based on the first, second, and third parameters input by the subject before listening to the sound content, acoustic features extracted from the sound content to be heard by the subject, and emotion parameters as correct data based on the first, second, and third parameters input by the subject after listening to the sound content.
  • changes in the subject's emotions due to listening to the sound content may differ depending on the time period during which the subject listens to the sound content. That is, even when listening to the same sound content, changes in the subject's emotions may differ due to, for example, the subject's degree of fatigue or the amount of sunlight that the subject receives directly or indirectly. Therefore, in the embodiment, three prediction models 4 corresponding to three time zones of morning, noon, and night are prepared.
  • acoustic features are extracted from arbitrary sound content. Then, by inputting the extracted acoustic feature amount and the emotion parameter before listening to the sound content to the prediction model 4 that has undergone machine learning, the emotion parameter after listening to the sound content output by the prediction model 4 is obtained.
  • the same work as described above is performed for all emotion parameters by fixing the acoustic feature quantity to be input to the prediction model 4 .
  • a data set in which the identifier of the sound content corresponding to the extracted acoustic feature amount (for example, the title of the sound content), the emotion parameter before listening to the sound content, the emotion parameter after listening to the sound content, and the classification probability can be obtained.
  • the classification probability is the probability that the prediction model 4 classifies the sound content into the emotion parameter after listening to it.
  • the CPU 22 uses the database 25 constructed as described above to execute information processing for determining sound content. Specifically, the CPU 22 searches the database 25 for sound content that matches the combination of the emotion parameter (emotion parameter before listening to the sound content) and the guidance parameter (emotion parameter after listening to the sound content). If there is no sound content that matches the combination of the emotion parameter and the guidance parameter, the CPU 22 searches the database 25 for the sound content closest to the combination. Then, the CPU 22 preferentially selects sound contents having a high classification probability among the retrieved sound contents, thereby determining sound contents and generating a playlist including the determined sound contents.
  • the emotion parameter emotion parameter before listening to the sound content
  • the guidance parameter emotion parameter after listening to the sound content
  • FIG. 8 is a schematic diagram showing an example of operations of the emotion estimation system 10 and the content determination system 20 according to the embodiment.
  • FIG. 9 is a flow chart showing an example of the operation of emotion estimation system 10 according to the embodiment.
  • FIG. 10 is a flow chart showing an example of the operation of the content determination system 20 according to the embodiment. In the following description, it is assumed that there are multiple users U1 in the office.
  • Each user U1 inputs a first parameter, a second parameter, and a third parameter through the user interface 11 of the information terminal 1 used by himself/herself.
  • the user interface 11 acquires the first parameter, the second parameter, and the third parameter (S11).
  • the CPU 13 of the information terminal 1 estimates an emotion parameter indicating the emotion of the user U1 based on the first parameter, the second parameter, and the third parameter acquired by the user interface 11 (S12).
  • the communication interface 12 of the information terminal 1 outputs the emotion parameter by transmitting a signal including the emotion parameter estimated by the CPU 13 to the server 2 via the network N1 (S13).
  • the emotion parameter estimated by the information terminal 1 of each user U1 is output to the server 2 .
  • the communication interface 21 (input interface 21A) of the server 2 acquires the emotion parameter by receiving the signal transmitted from the information terminal 1 (S21).
  • the communication interface 21 acquires the emotion parameters of each user U1.
  • the communication interface 21 acquires the target parameter by receiving a signal transmitted from the information terminal of the administrator (S22).
  • the target parameter here is a parameter that indicates the desired emotion to be felt in each user U1 by having each user U1 listen to the sound content, like the guidance parameter, but is a different parameter from the guidance parameter.
  • the target parameter is a parameter that indicates the feeling that each user U1 is ultimately desired to have by having each user U1 listen to the sound content.
  • the tendency of each target user U1's emotion differs in each of the three time zones of morning, noon, and night. Specifically, in the morning hours, emotions with relatively high levels of excitement and arousal (that is, emotions indicated in the area above the third axis A3 in the first quadrant of the affect grid shown in FIG. 5) are targeted. In addition, during the daytime, emotions with relatively high levels of excitement and comfort (that is, emotions indicated in the area below the third axis A3 in the first quadrant of the affect grid shown in FIG. 5) are targeted. Also, in the night time zone, the target is an emotion with a relatively large degree of relaxation (that is, the emotion indicated by the fourth quadrant of the affect grid shown in FIG. 5). Therefore, here, the communication interface 21 acquires the target parameters for each time period of morning, noon, and night. Step S22 may be performed before step S21.
  • the CPU 22 of the server 2 executes information processing for determining sound content based on the acquired emotion parameters and target parameters.
  • representative values of emotion parameters of each user U1 are used.
  • the representative value is the moving average value of the emotion parameters of each user U1.
  • the moving average value may be calculated by weighting according to the stay time of each user U1 in the office. For example, the shorter the stay time of the user U1, the larger the weighting, and the longer the stay time of the user U1, the smaller the weighting.
  • the CPU 22 sets guidance parameters based on the obtained emotion parameters and target parameters (S23).
  • step S23 the CPU 22 acquires the current time, and selects one target parameter from three target parameters corresponding to the three time zones of morning, noon, and night based on the current time.
  • the CPU 22 generates playlists respectively corresponding to the set guidance parameters and target parameters (S24).
  • the communication interface 21 output interface 21B outputs a playlist by transmitting a signal including the playlist generated by the CPU 22 to the reproduction system 3 via the network N1 (S25).
  • FIG. 11 is an explanatory diagram of an example of playlist generation in the content determination system 20 according to the embodiment.
  • FIG. 11, like FIG. 5, shows an affect grid.
  • illustration of the third axis A3 and the fourth axis A4 is omitted.
  • FIG. 11 also shows target parameters P21 for the morning time zone, target parameters P22 for the day time zone, and target parameters P23 and P24 for the night time zone.
  • the time zone is daytime
  • the CPU 22 uses the target parameter P22.
  • the CPU 22 calculates the distance (that is, the difference) between the emotion parameter P10 and the target parameter P22 on the affect grid. Then, the CPU 22 sets the guidance parameter so that the emotion parameter P10 approaches the target parameter P22 based on the calculated distance. For example, the CPU 22 sets the guidance parameter so that the calculated distance is divided into equal intervals. In the example shown in FIG. 11, the CPU 22 sets three guidance parameters P31-P33. If the calculated distance is shorter than the threshold, that is, if the emotion parameter and the target parameter are close to each other, the CPU 22 does not need to set the guidance parameter.
  • the CPU 22 generates playlists corresponding to each of the guidance parameters and target parameters.
  • the CPU 22 generates a playlist corresponding to each of the three guidance parameters P31-P33 and a playlist corresponding to the target parameter.
  • the CPU 22 searches the database 25 for sound content that matches the combination of the emotion parameter P10 and the guidance parameter P31, thereby determining sound content and generating a playlist including the determined sound content.
  • the CPU 22 uses the guidance parameter P31 as an emotion parameter, searches the database 25 for sound content that matches the combination of the emotion parameter and the guidance parameter P32, thereby determining sound content and generating a playlist including the determined sound content.
  • the CPU 22 uses the induction parameter P32 as an emotion parameter, searches the database 25 for sound content that matches the combination of the emotion parameter and the induction parameter P33, thereby determining sound content and generating a playlist including the determined sound content.
  • the CPU 22 uses the guidance parameter P33 as an emotion parameter and the target parameter P22 as a guidance parameter, searches the database 25 for sound content that matches the combination of the emotion parameter and the guidance parameter, determines sound content, and generates a playlist including the determined sound content.
  • the reproduction system 3 Upon receiving the signal containing the playlist, the reproduction system 3 reproduces the sound content according to the acquired playlist. For example, when the CPU 22 of the content determination system 20 generates a playlist according to the example shown in FIG. 11, the reproduction system 3 first reproduces sound content for a predetermined time (for example, 30 minutes) according to the playlist corresponding to the guidance parameter P31. After that, the reproduction system 3 reproduces the sound content for a predetermined period of time according to the playlist corresponding to the guidance parameter P32, the playlist corresponding to the guidance parameter P33, and the playlist corresponding to the target parameter P22.
  • a predetermined time for example, 30 minutes
  • the reproduction system 3 does not reproduce the sound content according to the playlist corresponding to the guidance parameters P31 to P33, but reproduces the sound content according to the playlist corresponding to the target parameter P22, the following problems may occur. That is, since the emotion represented by the target parameter P22 greatly deviates from the emotion represented by the emotion parameter P10, even if the sound content is reproduced according to the playlist corresponding to the target parameter P22, the user U1 will only feel discomfort, and the effect of guiding the user U1's emotion to the emotion represented by the target parameter P22 cannot be expected.
  • the reproduction system 3 reproduces the sound content according to the playlist corresponding to the guidance parameters P31 to P33, thereby gradually guiding the emotion of the user U1 from the emotion represented by the emotion parameter P10 to the emotion represented by the target parameter P22.
  • the time zone may change while the reproduction system 3 is reproducing sound content.
  • the CPU 22 of the content determination system 20 resets the guidance parameters and target parameters, and regenerates the playlist based on the reset guidance parameters and target parameters.
  • FIG. 12 is an explanatory diagram of an example of playlist regeneration in the content determination system 20 according to the embodiment. Similar to FIG. 11, FIG. 12 shows the affect grid, and omits illustration of the third axis A3 and the fourth axis A4. 12, similarly to FIG. 11, the target parameter P21 for the morning time zone, the target parameter P22 for the day time zone, and the target parameters P23 and P24 for the night time zone are illustrated. In the example shown in FIG. 12, it is assumed that in the daytime period, one or more guidance parameters and a playlist corresponding to the one or more guidance parameters are generated based on the target parameter P22 for the daytime period. In the example shown in FIG. 12, it is assumed that the time period changes from day to night while the reproduction system 3 is reproducing sound content according to the playlist corresponding to the guidance parameter P32.
  • the CPU 22 resets the guidance parameters and the target parameters, regenerates the playlist, and starts the reproduction of the regenerated playlist in the reproduction system 3 after finishing the reproduction of the playlist being reproduced when the time zone changes from day to night (here, the playlist corresponding to the guidance parameter P32).
  • the CPU 22 first resets the target parameter from the target parameter P22 to the target parameter P23.
  • the time zone changes from daytime to nighttime, user U1's emotion is estimated to be between the emotion represented by the guidance parameter P31 and the emotion represented by the guidance parameter P32.
  • the CPU 22 uses the induced parameter P32 as a new starting point emotion parameter and calculates the distance (that is, the difference) between the emotion parameter and the new target parameter P23. Based on the calculated distance, the CPU 22 resets the new guidance parameter so that the new emotion parameter approaches the new target parameter P23. In the example shown in FIG. 12, the CPU 22 resets the guidance parameter P34 as a new guidance parameter.
  • the CPU 22 regenerates a playlist corresponding to the reset parameter P34 and a playlist corresponding to the reset target parameter P23.
  • the communication interface 21 (output interface 21B) then transmits a signal including the playlist regenerated by the CPU 22 to the reproduction system 3 via the network N1.
  • the reproduction system 3 reproduces the sound content for each predetermined time according to the play list corresponding to the reset guidance parameter P34 and the play list corresponding to the reset target parameter P23.
  • the CPU 22 may immediately terminate the reproduction of the playlist being reproduced at that time (here, the playlist corresponding to the guidance parameter P32), reset the guidance parameters and target parameters, regenerate the playlist, and cause the reproduction system 3 to start reproducing the regenerated playlist. That is, in this case, similarly to the example shown in FIG. 12, the CPU 22 uses the guidance parameter P32 as a new starting emotion parameter, resets the new guidance parameter, and regenerates the playlist corresponding to the new guidance parameter.
  • the reproduction of the playlist corresponding to the new induction parameter is not started when the reproduction of the current playlist (playlist corresponding to the induction parameter P32) ends, but when the time period changes from day to night.
  • the CPU 22 may immediately terminate the reproduction of the playlist being reproduced at that time (here, the playlist corresponding to the guidance parameter P32), set the guidance parameter (here, the guidance parameter P31) corresponding to the playlist immediately preceding the playlist being reproduced at that time, as the emotion parameter serving as a new starting point, and reset the guidance parameters and target parameters, and regenerate the playlist. That is, in this case, the CPU 22 resets the new guidance parameter and regenerates the play list corresponding to the new guidance parameter, with the guidance parameter P31 as the emotion parameter serving as a new starting point. Also, in this case, reproduction of the playlist corresponding to the new guidance parameter is started when the time zone changes from daytime to nighttime.
  • the emotion estimation method executed by a computer such as the CPU 13
  • the first parameter indicating the subjective mood of the user, the second parameter indicating the subjective degree of excitement of the user, and the third parameter indicating the subjective degree of relaxation of the user are obtained (S11)
  • the emotion parameter indicating the user's emotion is estimated based on the obtained first, second, and third parameters (S12)
  • information about the emotion parameter is output (S13).
  • the emotion parameter is represented as the coordinates of a plane defined by the first axis A1 indicating the comfort level and the second axis A2 indicating the arousal level.
  • a starting point P0 on a plane is determined based on a first parameter, and an emotion parameter is estimated by moving the starting point P0 according to a first movement amount M1 based on a second parameter along a third axis A3 obtained by rotating the first axis A1 about the origin of the plane by a first angle ⁇ 1, and a second movement amount M2 based on a third parameter along a fourth axis A4 obtained by rotating the second axis A2 about the origin by a second angle ⁇ 2.
  • Such an emotion estimation method has the advantage that it is easy to quantitatively estimate the user's emotion by expressing the user's emotion in terms of planar coordinates.
  • both the first angle ⁇ 1 and the second angle ⁇ 2 are 45 degrees in the second aspect.
  • the third axis A3 is an axis indicating the degree of excitement
  • the fourth axis A4 is an axis indicating the degree of relaxation.
  • Such an emotion estimation method has the advantage that the second parameter and the third parameter can be easily reflected in the coordinates when the user's emotions are represented by the coordinates of the plane.
  • emotion parameters estimated by the emotion estimation method of any one of the first to third aspects are obtained (S21), content to be provided to the user is determined based on the obtained emotion parameters (S24), and information about the determined content is output (S25).
  • Such a content determination method has the advantage that, by providing the user with content that corresponds to the user's estimated emotion, it becomes easier, for example, to induce the user's emotion to a predetermined emotion by providing the content.
  • a target parameter indicating the target emotion of the user is further acquired (S22), and the content is determined based on the difference between the emotion parameter and the target parameter (S24).
  • Such a content determination method has the advantage of making it easier to provide the user with content that guides the user's emotions toward the target emotion.
  • a guidance parameter indicating an emotion that the user is guided to approach the target parameter is set (S23), and the content is determined based on the guidance parameter (S24).
  • Such a content determination method has the advantage of making it easier to provide users with content that can be expected to have the effect of further guiding the user's emotions to the target emotions.
  • the program according to the seventh aspect causes a computer such as the CPU 13 to execute the emotion estimation method of any one aspect of the above first to third aspects.
  • Such a program can have the same effect as the emotion estimation method described above.
  • the program according to the eighth aspect causes a computer such as the CPU 22 to execute the content determination method of any one aspect of the fourth to sixth aspects.
  • Such a program can have the same effect as the content determination method described above.
  • the emotion estimation system 10 includes a user interface 11, a CPU 13, and a communication interface 12.
  • the user interface 11 obtains a first parameter indicating the user's subjective mood, a second parameter indicating the user's subjective excitement level, and a third parameter indicating the user's subjective relaxation level.
  • the CPU 13 estimates an emotion parameter indicating the user's emotion based on the obtained first parameter, second parameter, and third parameter.
  • the communication interface 12 outputs information about emotion parameters.
  • the user interface 11 is an example of an input interface.
  • the CPU 13 is an example of a signal processing circuit.
  • Communication interface 12 is an example of an output interface.
  • Such an emotion estimation system 10 can have the same effect as the emotion estimation method described above.
  • the content determination system 20 includes an input interface 21A, a CPU 22, and an output interface 21B.
  • the input interface 21A acquires emotion parameters estimated by the emotion estimation system 10 according to the ninth aspect.
  • the CPU 22 determines content to be provided to the user based on the acquired emotion parameter.
  • the output interface 21B outputs information about the determined content.
  • the CPU 22 is an example of a signal processing circuit.
  • Such a content determination system 20 can have the same effect as the content determination method described above.
  • the emotion estimation system 10 is realized by the information terminal 1 and the content determination system 20 is realized by the server 2, but the present invention is not limited to this.
  • both the emotion estimation system 10 and the content determination system 20 may be implemented in the information terminal 1.
  • server 2 is unnecessary.
  • the emotion estimation system 10 may be implemented by the server 2 .
  • the input interface 21A of the server 2 receives the signal including the first parameter, the second parameter, and the third parameter input from the information terminal 1, thereby acquiring each parameter.
  • the emotion estimation system 10, the content determination system 20, and the reproduction system 3 are realized by mutually independent devices, but are not limited to this.
  • the server 2 and playback system 3 may be realized by one device.
  • the emotion estimation system 10, the content determination system 20, and the reproduction system 3 may all be realized by one device. In this case, the one device is installed, for example, in an office.
  • the reproduction system 3 reads out the sound content stored in the storage device 34 and reproduces it through the speaker 36, but it is not limited to this.
  • the reproduction system 3 may receive sound content transmitted from the server 2 via the network N1 and reproduce the sound content by the speaker 36, that is, by so-called streaming reproduction.
  • the playback system 3 may not have the storage device 34 .
  • the server 2 may be provided with a storage device for storing a plurality of sound contents. Note that the reproduction system 3 may receive sound content transmitted from a server different from the server 2 and operated by a music distributor.
  • the reproduction system 3 is configured to reproduce the sound content determined by the content determination system 20 from a predetermined location in the office to the user, but the present invention is not limited to this.
  • the playback system 3 may be implemented by the information terminal 1 .
  • the user may listen to the sound content reproduced from the speaker built into the information terminal 1, or may listen to the sound content reproduced through the earphone connected to the information terminal 1.
  • the information terminal 1 may receive sound content transmitted from the reproduction system 3 via the network N1 and reproduce the sound content by streaming reproduction performed by a speaker built into the information terminal 1.
  • the database 25 is constructed using the machine-learned prediction model 4, but it is not limited to this.
  • the database 25 may be constructed rule-based without using the machine-learned prediction model 4 .
  • the prediction model 4 may be the following prediction model. That is, the prediction model may be a model that inputs the user's emotion parameters before listening to the sound content and the user's emotion parameters after listening to the sound content, and outputs the acoustic feature amount. In this case, when the current emotion parameter and the guidance parameter to be guided are input to the machine-learned prediction model, the acoustic feature amount is output, so it is possible to select the sound content having the acoustic feature amount closest to the acoustic feature amount output by the prediction model from the database in which the sound content and the acoustic feature amount are associated.
  • the content determination system 20 when the time period changes in the process of reproducing the sound content, changes the playlist so that the user's emotion is guided to the target parameter corresponding to the time period after the change, but it is not limited to this.
  • the content determination system 20 may maintain the initially determined playlist even if the time zone changes during the content playback process.
  • the communication interface 21 of the server 2 serves as both the input interface 21A and the output interface 21B, but is not limited to this.
  • the input interface 21A and the output interface 21B may be different interfaces.
  • the emotion estimation system was realized by a single device, but it may be realized by multiple devices.
  • the functional components included in the emotion estimation system may be distributed among the multiple devices in any way.
  • the content determination system was implemented by a single device in the above embodiments, it may be implemented by multiple devices.
  • the functional components included in the content determination system may be distributed among the multiple devices in any way.
  • the communication method between devices in the above embodiment is not particularly limited.
  • a relay device (not shown) may intervene between the two devices.
  • the order of processing described in the above embodiment is an example.
  • the order of multiple processes may be changed, and multiple processes may be executed in parallel.
  • a process executed by a specific processing unit may be executed by another processing unit.
  • part of the digital signal processing described in the above embodiments may be realized by analog signal processing.
  • each component may be realized by executing a software program suitable for each component.
  • Each component may be realized by reading and executing a software program recorded in a recording medium such as a hard disk or a semiconductor memory by a program execution unit such as a CPU or processor.
  • each component may be realized by hardware.
  • each component may be a circuit (or integrated circuit). These circuits may form one circuit as a whole, or may be separate circuits. These circuits may be general-purpose circuits or dedicated circuits.
  • the present disclosure may be implemented in a system, apparatus, method, integrated circuit, computer program, or recording medium such as a computer-readable CD-ROM.
  • any combination of systems, devices, methods, integrated circuits, computer programs and recording media may be implemented.
  • the present disclosure may be implemented as an emotion estimation method executed by a computer, or may be implemented as a program for causing a computer to execute such an emotion estimation method.
  • the present disclosure may be implemented as a content determination method executed by a computer, or may be implemented as a program for causing a computer to execute such a content determination method.
  • the present disclosure may be implemented as a computer-readable non-temporary recording medium in which such a program is recorded.
  • the program here includes an application program for causing a general-purpose information terminal to function as the upper terminal of the above embodiment.
  • the present disclosure also includes forms obtained by applying various modifications to each embodiment that a person skilled in the art can think of, or forms realized by arbitrarily combining the constituent elements and functions of each embodiment within the scope of the present disclosure.
  • the emotion estimation method of the present disclosure can estimate the user's emotion based on the user's subjective mood.

Abstract

感情推定方法では、ユーザの主観的な気分を示す第1パラメータ、ユーザの主観的な興奮度を示す第2パラメータ、及びユーザの主観的な弛緩度を示す第3パラメータを取得し(S11)、取得した第1パラメータ、第2パラメータ、及び第3パラメータに基づいて、ユーザの感情を示す感情パラメータを推定し(S12)、感情パラメータに関する情報を出力する(S13)。

Description

感情推定方法、コンテンツ決定方法、プログラム、感情推定システム、及びコンテンツ決定システム
 本開示は、感情推定方法、コンテンツ決定方法、プログラム、感情推定システム、及びコンテンツ決定システムに関する。
 特許文献1には、ユーザの生体データを取得し、生体データに基づいて、ユーザの現在の感情状態を示す現在感情状態値を算出する技術が開示されている。
特開2018-195043号公報
 本開示は、ユーザの主観的な気分に基づいて、ユーザの感情を推定することができる感情推定方法等を提供する。
 本開示の一態様に係る感情推定方法では、ユーザの主観的な気分を示す第1パラメータ、前記ユーザの主観的な興奮度を示す第2パラメータ、及び前記ユーザの主観的な弛緩度を示す第3パラメータを取得し、取得した前記第1パラメータ、前記第2パラメータ、及び前記第3パラメータに基づいて、前記ユーザの感情を示す感情パラメータを推定し、前記感情パラメータに関する情報を出力する。
 本開示の一態様に係る感情推定方法は、ユーザの主観的な気分に基づいて、ユーザの感情を推定することができる。
図1は、実施の形態に係る感情推定システム及びコンテンツ決定システムを含む全体構成を示すブロック図である。 図2は、実施の形態に係る情報端末における第1パラメータの入力画面の一例を示す図である。 図3は、実施の形態に係る情報端末における第2パラメータの入力画面の一例を示す図である。 図4は、実施の形態に係る情報端末における第3パラメータの入力画面の一例を示す図である。 図5は、実施の形態に係るアフェクトグリッドの一例を示す図である。 図6は、実施の形態に係る感情推定システムによるユーザの感情の推定の説明図である。 図7は、実施の形態に係るコンテンツ決定システムで用いられる予測モデルの説明図である。 図8は、実施の形態に係る感情推定システム及びコンテンツ決定システムの動作の一例を示す概要図である。 図9は、実施の形態に係る感情推定システムの動作の一例を示すフローチャートである。 図10は、実施の形態に係るコンテンツ決定システムの動作の一例を示すフローチャートである。 図11は、実施の形態に係るコンテンツ決定システムにおけるプレイリストの生成の一例の説明図である。 図12は、実施の形態に係るコンテンツ決定システムにおけるプレイリストの再生成の一例の説明図である。
 以下、実施の形態について、図面を参照しながら具体的に説明する。なお、以下で説明する実施の形態は、いずれも包括的又は具体的な例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序等は、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、独立請求項に記載されていない構成要素については、任意の構成要素として説明される。
 なお、各図は模式図であり、必ずしも厳密に図示されたものではない。また、各図において、実質的に同一の構成に対しては同一の符号を付し、重複する説明は省略又は簡略化される場合がある。
 (実施の形態)
 [1.構成]
 まず、実施の形態に係る感情推定システム及びコンテンツ決定システムの構成について説明する。感情推定システムは、ユーザの主観的な気分、主観的な興奮度、及びユーザの主観的な弛緩度に基づいて、ユーザの感情を推定するためのシステムである。コンテンツ決定システムは、感情推定システムで推定したユーザの感情に基づいて、ユーザに対して提供するコンテンツを決定するためのシステムである。
 実施の形態では、コンテンツは、例えばユーザの存在する空間にて再生される音楽、又は自然環境音等を含む音コンテンツである。自然環境音は、例えば鳥のさえずり、虫の鳴き声、風の音、又は流水音等である。なお、コンテンツは、ユーザに対して提供することによりユーザの現在の感情を所定の感情へと誘導し得るコンテンツであればよく、音コンテンツに限られない。例えば、コンテンツは、ユーザの存在する空間にて再生される静止画像又は動画像を含む画像コンテンツであってもよいし、ユーザの存在する空間を照らす照明の輝度又は色温度を含む照明コンテンツであってもよい。
 図1は、実施の形態に係る感情推定システム及びコンテンツ決定システムを含む全体構成を示すブロック図である。実施の形態では、感情推定システム10は、ユーザが利用する情報端末1で実現される。また、実施の形態では、コンテンツ決定システム20は、サーバ2で実現される。また、実施の形態では、コンテンツ決定システム20で決定した音コンテンツは、再生システム3で再生される。サーバ2は、インターネット等のネットワークN1を介して情報端末1及び再生システム3の各々と通信可能である。
 図1では、情報端末1は1台のみ図示されている。実施の形態では、情報端末1は、複数のユーザの人数と同じ台数存在する。なお、ユーザが1人である場合、又は複数のユーザで1台の情報端末1を共用する場合であれば、情報端末1は1台のみ存在する。
 実施の形態では、感情推定システム10、コンテンツ決定システム20、及び再生システム3は、いずれもオフィス内に存在するユーザを対象とする。つまり、感情推定システム10は、オフィス内に存在するユーザの感情を推定する。また、コンテンツ決定システム20は、感情推定システム10で推定したオフィス内に存在するユーザの感情に基づいて、オフィス内に存在するユーザに対して音コンテンツを提供する。再生システム3は、コンテンツ決定システム20で決定した音コンテンツを、オフィス内に向けて再生する。再生システム3は、例えばオフィス内の所定の場所に設置される。所定の場所は、再生システム3が再生する音コンテンツをオフィス内のユーザが聴くことが可能な場所である。一例として、所定の場所は、オフィスの中央における天井、又はオフィスの中央に設置された机の上等である。もちろん、感情推定システム10、コンテンツ決定システム20、及び再生システム3は、いずれもオフィス以外の空間に存在するユーザを対象としてもよい。
 [1-1.情報端末の構成]
 まず、情報端末1の構成について具体的に説明する。情報端末1は、例えばスマートフォン、タブレット端末、又はラップトップ型のパーソナルコンピュータ等の携帯型の端末である。なお、情報端末1は、デスクトップ型のパーソナルコンピュータ等の設置型の端末であってもよい。実施の形態では、情報端末1は、スマートフォンである。
 情報端末1は、所定のアプリケーションがインストールされることにより、感情推定システム10として機能する。情報端末1は、ユーザインタフェース(User Interface)11と、通信インタフェース(I/F)12と、CPU(Central Processing Unit)13と、メモリ14と、を備える。
 ユーザインタフェース11は、ユーザの操作を受け付け、かつ、ユーザへ画像を提示する装置である。ユーザインタフェース11は、例えばタッチパネル等の操作受付装置、及び表示パネル等の表示装置によって実現される。ユーザインタフェース11は、感情推定システム10の入力インタフェースの一例である。なお、ユーザインタフェース11におけるユーザの操作を受け付ける手段は、例えばマイクロホン等の音声入力受付装置で実現されてもよい。また、ユーザインタフェース11におけるユーザへの情報を提示する手段は、例えばスピーカ等の音声出力装置で実現されてもよい。
 ユーザは、ユーザインタフェース11に表示される入力画面を見ながら、第1パラメータ、第2パラメータ、及び第3パラメータを入力する。これにより、ユーザインタフェース11は、第1パラメータ、第2パラメータ、及び第3パラメータを取得する。第1パラメータ、第2パラメータ、及び第3パラメータの入力については、後述する[第1パラメータ、第2パラメータ、及び第3パラメータの入力]にて詳細に説明する。
 ここで、第1パラメータは、ユーザの主観的な気分を示すパラメータである。気分は、例えば落ち込み、憂鬱、充足、又は愉快等を含み得る。第2パラメータは、ユーザの主観的な興奮度を示すパラメータである。興奮度は、ユーザが興奮を覚えているか否か、又は倦怠感を覚えているか否かを含み得る。第3パラメータは、ユーザの主観的な弛緩度を示すパラメータである。弛緩度は、ユーザが弛緩しているか否か、又は緊張しているか否かを含み得る。第1パラメータ、第2パラメータ、及び第3パラメータは、いずれもユーザの自己申告による感情を示すパラメータである。
 通信インタフェース12は、例えば無線通信インタフェースであり、Wi-Fi(登録商標)等の無線通信規格に基づいて、ネットワークN1を介してサーバ2と通信を行う。通信インタフェース12は、ネットワークN1を介してサーバ2と通信を行うことにより、サーバ2へ信号を送信する。この信号には、後述するCPU13で推定したユーザの感情を示す感情パラメータが含まれる。通信インタフェース12は、感情推定システム10の出力インタフェースの一例である。
 CPU13は、ユーザインタフェース11への画像の表示、及び通信インタフェース12を用いた信号の送信に関する情報処理を行う。また、CPU13は、ユーザインタフェース11で取得した第1パラメータ、第2パラメータ、及び第3パラメータに基づいて、ユーザの感情を示す感情パラメータを推定する情報処理を行う。感情パラメータを推定する情報処理については、後述する[ユーザの感情の推定]にて詳細に説明する。
 上述の画像の表示処理、信号の送信処理、及び感情パラメータの推定処理は、いずれもCPU13がメモリ14に記憶されたコンピュータプログラムを実行することにより実現される。CPU13は、感情推定システム10の信号処理回路の一例である。
 メモリ14は、CPU13が情報処理を行うために必要な各種情報、及びCPU13が実行するコンピュータプログラム等が記憶される記憶装置である。メモリ14は、例えば半導体メモリによって実現される。
 [1-2.サーバの構成]
 次に、サーバ2の構成について具体的に説明する。サーバ2は、通信インタフェース21と、CPU22と、メモリ23と、記憶装置24と、を備えている。
 通信インタフェース21は、例えば無線通信インタフェースであり、Wi-Fi(登録商標)等の無線通信規格に基づいて、ネットワークN1を介して情報端末1と通信を行うことにより、情報端末1から送信される信号を受信する。また、通信インタフェース21は、Wi-Fi(登録商標)等の無線通信規格に基づいて、ネットワークN1を介して再生システム3と通信を行うことにより、再生システム3へ信号を送信する。
 通信インタフェース21は、入力インタフェース21Aと、出力インタフェース21Bと、の両方の機能を有する。入力インタフェース21Aは、情報端末1から送信される信号を受信することにより、感情推定システム10で推定した感情パラメータを取得する。入力インタフェース21Aは、コンテンツ決定システム20における入力インタフェースの一例である。
 実施の形態では、入力インタフェース21Aは、ユーザの目標とする感情を示す目標パラメータを更に取得する。目標パラメータは、例えばコンテンツ決定システム20の管理者によって事前に設定される。目標パラメータの設定は、例えば管理者が利用する情報端末にて実行される。入力インタフェース21Aは、管理者の情報端末から送信される信号を受信することにより、目標パラメータを取得する。なお、目標パラメータの設定は、例えばユーザによって事前に設定されてもよい。
 出力インタフェース21Bは、再生システム3へ信号を送信することにより、CPU22で決定した音コンテンツに関する情報を出力する。実施の形態では、音コンテンツに関する情報は、音コンテンツを再生システム3で再生する順番を規定するプレイリストである。なお、プレイリストは、複数の音コンテンツを再生する順番を規定してもよいし、1つの音コンテンツのみをリピート再生することを規定してもよい。出力インタフェース21Bは、コンテンツ決定システム20における出力インタフェースの一例である。
 CPU22は、通信インタフェース21を用いた信号の送信及び受信に関する情報処理、並びに通信インタフェース21で取得した感情パラメータに基づいて音コンテンツを決定する情報処理を行う。実施の形態では、CPU22は、音コンテンツを決定する情報処理において、更に目標パラメータを参照する。音コンテンツを決定する情報処理については、後述する[音コンテンツの決定]にて詳細に説明する。
 上述の信号の送信処理及び受信処理、並びに音コンテンツの決定処理は、いずれもCPU22がメモリ23に記憶されたコンピュータプログラムを実行することにより実現される。CPU22は、コンテンツ決定システム20の信号処理回路の一例である。
 メモリ23は、CPU22が情報処理を行うために必要な各種情報、及びCPU22が実行するコンピュータプログラム等が記憶される記憶装置である。メモリ23は、例えば半導体メモリによって実現される。
 記憶装置24は、CPU22が音コンテンツを決定する情報処理を実行する際に参照するデータベース25が記憶される装置である。記憶装置24は、例えばハードディスク、又はSSD(Solid State Drive)等の半導体メモリによって実現される。データベース25については、後述する[音コンテンツの決定]にて詳細に説明する。
 [1-3.再生システムの構成]
 次に、再生システム3の構成について具体的に説明する。再生システム3は、通信インタフェース31と、CPU32と、メモリ33と、記憶装置34と、アンプ35と、スピーカ36と、を備えている。
 通信インタフェース31は、例えば無線通信インタフェースであり、Wi-Fi(登録商標)等の無線通信規格に基づいて、ネットワークN1を介してサーバ2と通信を行う。通信インタフェース31は、ネットワークN1を介してサーバ2と通信を行うことにより、サーバ2から信号を受信する。この信号には、コンテンツ決定システム20で決定したプレイリストが含まれる。
 CPU32は、通信インタフェース31を用いた信号の受信に関する情報処理、及び通信インタフェース31で取得したプレイリストに従ってスピーカ36に音コンテンツを再生させる情報処理を行う。すなわち、CPU32は、取得したプレイリストにて規定された音コンテンツを記憶装置34から順次読み出し、読み出した音コンテンツを含む音信号を、アンプ35を介してスピーカ36で再生させる。これにより、スピーカ36は、プレイリストで規定された順番に従って音コンテンツを再生する。上述の信号の受信処理、及び音コンテンツの処理は、いずれもCPU32がメモリ33に記憶されたコンピュータプログラムを実行することにより実現される。
 メモリ33は、CPU32が情報処理を行うために必要な各種情報、及びCPU32が実行するコンピュータプログラム等が記憶される記憶装置である。メモリ33は、例えば半導体メモリによって実現される。
 記憶装置34は、スピーカ36で再生される複数の音コンテンツが記憶される装置である。記憶装置34は、例えばハードディスク、又はSSD(Solid State Drive)等の半導体メモリによって実現される。
 アンプ35は、入力された音信号を増幅し、増幅した音信号をスピーカ36へ出力する。実施の形態では、アンプ35は、音信号のサンプリングレートを高いサンプリングレートに変換するアップサンプリング機能を有している。なお、アンプ35は、アップサンプリング機能を有していなくてもよい。
 スピーカ36は、アンプ35で増幅された音信号を音に変換して出力することにより、音信号に基づく音コンテンツを再生する。
 [1-4.第1パラメータ、第2パラメータ、及び第3パラメータの入力]
 以下、ユーザの主観的な気分を示す第1パラメータ、ユーザの主観的な興奮度を示す第2パラメータ、及びユーザの主観的な弛緩度を示す第3パラメータの入力について図2~図4を用いて説明する。図2は、実施の形態に係る情報端末1における第1パラメータの入力画面100の一例を示す図である。図3は、実施の形態に係る情報端末1における第2パラメータの入力画面200の一例を示す図である。図4は、実施の形態に係る情報端末1における第3パラメータの入力画面300の一例を示す図である。
 実施の形態では、第1パラメータ、第2パラメータ、及び第3パラメータは、いずれもユーザが情報端末1のユーザインタフェース11にて入力する。具体的には、ユーザは、例えば情報端末1にインストールされている所定のアプリケーションを実行する。すると、情報端末1のユーザインタフェース11には、まず、図2に示す第1パラメータの入力画面100が表示される。この入力画面100には、「どんな気分ですか?」というユーザに対する質問を表す文字列101と、第1パラメータを表す複数(ここでは、5つ)のアイコン111~115と、複数のアイコン111~115それぞれを説明する複数の文字列121~125と、が表示される。入力画面100の下部においては、左から順に、落ち込んだ気分であることを表すアイコン111及び文字列121、憂鬱な気分であることを表すアイコン112及び文字列122、普通の気分であることを表すアイコン113及び文字列123、充足した気分であることを表すアイコン114及び文字列124、並びに愉快な気分であることを表すアイコン115及び文字列125が表示される。ユーザは、入力画面100に触れる等して、いずれかのアイコン111~115を選択することにより、ユーザの主観的な気分を表す第1パラメータを入力することが可能である。
 ユーザが第1パラメータを入力すると、情報端末1のユーザインタフェース11には、次に図3に示す第2パラメータの入力画面200が表示される。この入力画面200には、「今の気分はどのくらいですか?」というユーザに対する質問を表す文字列201と、第2パラメータを表す複数(ここでは、5つ)のアイコン211~215と、複数のアイコン211~215それぞれを説明する複数の文字列221~225と、が表示される。複数の文字列221~225は、それぞれ元気の度合いを百分率で表した値である。入力画面200の下部においては、左から順に、全く元気がないことを表すアイコン211及び文字列221、あまり元気でないことを表すアイコン212及び文字列222、普通であることを表すアイコン213及び文字列223、やや元気であることを表すアイコン214及び文字列224、並びにとても元気であることを表すアイコン215及び文字列225が表示される。ユーザは、入力画面200に触れる等して、いずれかのアイコン211~215を選択することにより、ユーザの主観的な興奮度を示す第2パラメータを入力することが可能である。
 ユーザが第2パラメータを入力すると、情報端末1のユーザインタフェース11には、次に図4に示す第3パラメータの入力画面300が表示される。この入力画面300には、「今のリラックス度はどのくらいですか?」というユーザに対する質問を表す文字列301と、第3パラメータを表す複数(ここでは、5つ)のアイコン311~315と、複数のアイコン311~315それぞれを説明する複数の文字列321~325と、が表示される。入力画面300の下部においては、左から順に、全くリラックスしていないことを表すアイコン311及び文字列321、あまりリラックスしていないことを表すアイコン312及び文字列322、普通であることを表すアイコン313及び文字列323、ややリラックスしていることを表すアイコン314及び文字列324、並びにとてもリラックスしていることを表すアイコン315及び文字列325が表示される。ユーザは、入力画面300に触れる等して、いずれかのアイコン311~315を選択することにより、ユーザの主観的な弛緩度を示す第3パラメータを入力することが可能である。
 なお、実施の形態では、情報端末1のユーザインタフェース11には、第1パラメータの入力画面100、第2パラメータの入力画面200、及び第3パラメータの入力画面300がこの順に表示されるが、これらの入力画面100~300の表示順は、この順に限られない。例えば、情報端末1のユーザインタフェース11には、第3パラメータの入力画面300、第2パラメータの入力画面200、及び第1パラメータの入力画面100がこの順に表示されてもよい。
 また、実施の形態では、第1パラメータ、第2パラメータ、及び第3パラメータは、いずれも5つの段階で表されているが、これに限られない。例えば、第1パラメータ、第2パラメータ、及び第3パラメータの少なくとも1つは、5未満の段階で表されてもよいし、5よりも多い段階で表されてもよい。
 [1-5.ユーザの感情の推定]
 以下、感情推定システム10のCPU13による感情パラメータを推定する情報処理について、図5及び図6を用いて説明する。図5は、実施の形態に係るアフェクトグリッドの一例を示す図である。実施の形態に係る感情推定システム10によるユーザの感情の推定の説明図である。図5及び図6は、いずれもユーザの感情を示す感情パラメータを2次元座標で評価するアフェクトグリッド(Affect Grid)法に基づく2次元直交座標系を示す図である。アフェクトグリッド法については、Russell, J. A., Weiss, A., & Mendelsohn, G. A. (1989). Affect grid: a single-item scale of pleasure and arousal. Journal of personality and social psychology, 57(3), 493.を参照されたい。
 図5及び図6に示すように、感情パラメータは、快適度を示す第1軸A1と、覚醒度を示す第2軸A2と、で定義される平面(アフェクトグリッド)の座標で表される。第1軸A1においては、快適度は、-1.0(不快)から+1.0(快適)までの値で示される。第2軸A2においては、覚醒度は、-1.0(沈静)から+1.0(覚醒)までの値で示される。なお、快適度の数値及び覚醒度の数値は、いずれも±1.0の範囲で正規化した数値であって、この数値に限定する意図ではない。
 また、実施の形態のアフェクトグリッドにおいては、興奮度を示す第3軸A3と、弛緩度を示す第4軸A4と、が更に定義されている。第3軸A3は、第1軸A1を平面(アフェクトグリッド)の原点を基準として第1角度θ1回転させた軸である。ここでは、第1角度θ1は45度であり、第3軸A3は、原点を基準として第1軸A1を反時計回りに回転させた軸である。第3軸A3においては、興奮度は、ユーザが興奮を覚える度合いが大きい程、正の値が大きく、ユーザが倦怠感を覚える度合いが大きい程、負の値が大きくなるように示される。なお、第1角度θ1は、45度に限られず、興奮度を示すことが可能な角度であればよい。
 第4軸A4は、第2軸A2を平面(アフェクトグリッド)の原点を基準として第2角度θ2回転させた軸である。ここでは、第2角度θ2は45度であり、第4軸A4は、原点を基準として第2軸A2を反時計回りに回転させた軸である。第4軸A4においては、弛緩度は、ユーザが弛緩している度合いが大きい程、正の値が大きく、ユーザが緊張を覚える度合いが大きい程、負の値が大きくなるように示される。なお、第2角度θ2は、45度に限られず、弛緩度を示すことが可能な角度であればよい。
 感情推定システム10のCPU13は、まず、第1パラメータに基づいて、平面(アフェクトグリッド)での始点P0(図6参照)を決定する。具体的には、入力画面100でユーザがアイコン111を選択した場合、つまりユーザが落ち込んだ気分であることを示す第1パラメータを入力した場合、CPU13は、点P1を始点P0として決定する。また、入力画面100でユーザがアイコン112を選択した場合、つまりユーザが憂鬱な気分であることを示す第1パラメータを入力した場合、CPU13は、点P2を始点P0として決定する。また、入力画面100でユーザがアイコン113を選択した場合、つまりユーザが普通の気分であることを示す第1パラメータを入力した場合、CPU13は、点P3を始点P0として決定する。点P3は、アフェクトグリッドの原点である。また、入力画面100でユーザがアイコン114を選択した場合、つまりユーザが充足した気分であることを示す第1パラメータを入力した場合、CPU13は、点P4を始点P0として決定する。また、入力画面100でユーザがアイコン115を選択した場合、つまりユーザが愉快な気分であることを示す第1パラメータを入力した場合、CPU13は、点P5を始点P0として決定する。
 次に、CPU13は、第1移動量M1(図6参照)を決定する。第1移動量M1は、第3軸A3に沿った第2パラメータに基づく移動量である。つまり、第1移動量M1は、第3軸A3に平行なベクトルで表される。具体的には、入力画面200でユーザがアイコン211を選択した場合、つまりユーザが全く元気でないことを示す第2パラメータを入力した場合、CPU13は、第1移動量M1を負の向き(図6における左下向き)のベクトルに決定する。また、入力画面200でユーザがアイコン212を選択した場合、つまりユーザがあまり元気でないことを示す第2パラメータを入力した場合、CPU13は、第1移動量M1を負の向きのベクトルに決定する。このベクトルは、ユーザが全く元気でない場合のベクトルよりも移動量が小さい。また、入力画面200でユーザがアイコン213を選択した場合、つまりユーザが普通であることを示す第2パラメータを入力した場合、CPU13は、第1移動量M1を零に決定する。また、入力画面200でユーザがアイコン214を選択した場合、つまりユーザがやや元気であることを示す第2パラメータを入力した場合、CPU13は、第1移動量M1を正の向き(図6における右上向き)のベクトルに決定する。また、入力画面200でユーザがアイコン215を選択した場合、つまりユーザがとても元気であることを示す第2パラメータを入力した場合、CPU13は、第1移動量M1を正の向きのベクトルに決定する。このベクトルは、ユーザがやや元気である場合のベクトルよりも移動量が大きい。
 次に、CPU13は、第2移動量M2(図6参照)を決定する。第2移動量M2は、第4軸A4に沿った第3パラメータに基づく移動量である。つまり、第2移動量M2は、第4軸A4に平行なベクトルで表される。具体的には、入力画面300でユーザがアイコン311を選択した場合、つまりユーザが全くリラックスしていないことを示す第3パラメータを入力した場合、CPU13は、第2移動量M2を負の向き(図6における左上向き)のベクトルに決定する。また、入力画面300でユーザがアイコン312を選択した場合、つまりユーザがあまりリラックスしていないことを示す第3パラメータを入力した場合、CPU13は、第2移動量M2を負の向きのベクトルに決定する。このベクトルは、ユーザが全くリラックスしていない場合のベクトルよりも移動量が小さい。また、入力画面300でユーザがアイコン313を選択した場合、つまりユーザが普通であることを示す第3パラメータを入力した場合、CPU13は、第2移動量M2を零に決定する。また、入力画面300でユーザがアイコン314を選択した場合、つまりユーザがややリラックスしていることを示す第3パラメータを入力した場合、CPU13は、第2移動量M2を正の向き(図6における右下向き)のベクトルに決定する。また、入力画面300でユーザがアイコン315を選択した場合、つまりユーザがとてもリラックスしていることを示す第3パラメータを入力した場合、CPU13は、第2移動量M2を正の向きのベクトルに決定する。このベクトルは、ユーザがややリラックスしている場合のベクトルよりも移動量が大きい。
 そして、CPU13は、第1移動量M1及び第2移動量M2に応じて始点P0を移動させることで、感情パラメータP10を推定する。すなわち、CPU13は、アフェクトグリッドにおいて、始点P0を第1移動量M1が示すベクトル分だけ移動させ、更に第2移動量M2が示すベクトル分だけ移動させ、移動後の座標を感情パラメータP10として推定する。図6は、入力画面100でユーザがアイコン112を選択(つまりユーザが憂鬱な気分であることを示す第1パラメータを入力)し、かつ、入力画面200でユーザがアイコン214を選択(つまりユーザがやや元気であることを示す第2パラメータを入力)し、かつ、入力画面300でユーザがアイコン314を選択(つまりユーザがややリラックスしていることを示す第3パラメータを入力)した場合の感情パラメータP10の例を表している。
 上述のように、ユーザの感情を示す感情パラメータは、快適度及び覚醒度によってあらわされる。そして、実施の形態に係る感情推定システム10は、ユーザの感情についてのユーザの主観的な評価に基づいて、すなわちユーザの主観的な気分を示す第1パラメータ、ユーザの主観的な興奮度を示す第2パラメータ、及びユーザの主観的な弛緩度を示す第3パラメータに基づいて、快適度及び覚醒度を求めることにより、ユーザの感情を推定することができる。このため、感情推定システム10では、特許文献1に開示の技術のようにユーザの生体データを取得しなくて済むので、ユーザの生体データを取得するための手段を別途用意する必要がない。また、感情推定システム10では、ユーザの3つの主観的な評価に基づいてユーザの感情を推定することができるので、ユーザが多数の問い合わせについて回答する必要がない。したがって、感情推定システム10では、比較的簡易な手法によりユーザの感情を推定しやすい、という利点がある。
 [1-6.音コンテンツの決定]
 以下、コンテンツ決定システム20のCPU22による音コンテンツを決定する情報処理について説明する。CPU22は、感情推定システム10で推定した感情パラメータが、ユーザが誘導される感情を示す誘導パラメータへと変化するように、音コンテンツを決定する。つまり、CPU22は、音コンテンツを再生する前におけるユーザの感情を、音コンテンツを再生することで所定の感情に変化させるように、音コンテンツを決定する。ここでいう誘導パラメータは、感情パラメータの一種であって、ユーザに音コンテンツを聴かせることによりユーザに抱かせたい先の感情を示すパラメータである。
 実施の形態では、CPU22は、データベース25を参照して、音コンテンツを決定する情報処理を実現している。そして、データベース25は、図7に示す機械学習済みの予測モデル4を用いて、事前に構築される。図7は、実施の形態に係るコンテンツ決定システム20で用いられる予測モデル4の説明図である。予測モデル4は、音コンテンツの再生前における感情パラメータ及び音響特徴量を入力として、音コンテンツの再生後における感情パラメータを出力するように、教師あり学習により機械学習されたニューラルネットワークである。つまり、予測モデル4は、ある感情を抱いているユーザに対して音コンテンツを再生した場合に、ユーザの感情がどのような感情に誘導されるかを評価したモデルである。
 ここで、音響特徴量は、音コンテンツから抽出される、音信号の物理的な特徴量である。例えば、音響特徴量は、テンポ(音コンテンツの速さ)、ビート白色性(ビート形成に寄与する音と、寄与しない音との出現頻度の比率)、スペクトル変化度(所定の時間長のフレーム間でのスペクトル変化の度合い)、及び平均発音数(音コンテンツで発音される音の発音頻度)等を含み得る。また、音響特徴量は、例えば人の聴覚特性を考慮した音色を表すスペクトルであるMFCC(Mel-frequency cepstral coefficients)、音の和音、及び周波数領域のエネルギー分布のコントラスト等の特徴量も含み得る。予測モデル4を機械学習する際には、これらの音響特徴量のうちの1以上の音響特徴量を用いる。
 予測モデル4は、事前に準備した多数の学習用データセットを用いて機械学習される。学習用データセットは、入力データとしての感情パラメータ及び音響特徴量と、正解データと、を含む。学習用データセットは、例えば第1パラメータ、第2パラメータ、及び第3パラメータを入力した被験者に対して音コンテンツを聴かせた後に、再び第1パラメータ、第2パラメータ、及び第3パラメータを入力させることで生成することが可能である。つまり、学習用データセットは、音コンテンツを聴く前に被験者が入力した第1パラメータ、第2パラメータ、及び第3パラメータに基づく感情パラメータと、被験者に聴かせる音コンテンツから抽出される音響特徴量と、当該音コンテンツを聴いた後に被験者が入力した第1パラメータ、第2パラメータ、及び第3パラメータに基づく正解データとしての感情パラメータと、を含む。
 ここで、被験者が音コンテンツを聴くことによる感情の変化は、被験者が音コンテンツを聴く時間帯によって異なり得る。すなわち、例えば被験者の疲れ具合、又は被験者が直接的若しくは間接的に受ける太陽光の量等に起因して、同じ音コンテンツを聴いた場合でも、被験者の感情の変化が異なり得る。このため、実施の形態では、朝、昼、及び夜の3つの時間帯にそれぞれ対応する3つの予測モデル4を準備する。
 次に、データベース25の構築について説明する。まず、任意の音コンテンツから音響特徴量を抽出する。そして、抽出した音響特徴量と、音コンテンツを聴かせる前の感情パラメータとを、機械学習済みの予測モデル4に入力することで、予測モデル4が出力する当該音コンテンツを聴かせた後の感情パラメータを得る。上記と同様の作業を、予測モデル4に入力する音響特徴量を固定して全ての感情パラメータについて行う。これにより、任意の音コンテンツについて、抽出した音響特徴量に対応する音コンテンツの識別子(例えば、音コンテンツの曲名)と、当該音コンテンツを聴かせる前の感情パラメータと、当該音コンテンツを聴かせた後の感情パラメータと、分類確率と、を紐づけたデータセットを得ることができる。ここで、分類確率は、予測モデル4が当該音コンテンツを聴かせた後の感情パラメータに分類する確率をいう。以下、準備した全ての音コンテンツ及び全ての予測モデル4について上記の作業を行うことにより、全ての音コンテンツそれぞれのデータセットを得る、つまりデータベース25を構築することができる。
 そして、CPU22は、上記のように構築したデータベース25を用いて、音コンテンツを決定する情報処理を実行する。具体的には、CPU22は、感情パラメータ(音コンテンツを聴かせる前の感情パラメータ)及び誘導パラメータ(音コンテンツを聴かせた後の感情パラメータ)の組み合わせが一致する音コンテンツをデータベース25から検索する。なお、CPU22は、感情パラメータ及び誘導パラメータの組み合わせが一致する音コンテンツが存在しない場合、当該組み合わせに最も近い音コンテンツをデータベース25から検索する。そして、CPU22は、検索した音コンテンツのうち分類確率が高い音コンテンツを優先的に選択することで、音コンテンツを決定し、決定した音コンテンツを含むプレイリストを生成する。
 [2.動作]
 以下、実施の形態に係る感情推定システム10及びコンテンツ決定システム20の動作の一例について、図8、図9、及び図10を用いて説明する。図8は、実施の形態に係る感情推定システム10及びコンテンツ決定システム20の動作の一例を示す概要図である。図9は、実施の形態に係る感情推定システム10の動作の一例を示すフローチャートである。図10は、実施の形態に係るコンテンツ決定システム20の動作の一例を示すフローチャートである。以下では、オフィスに複数のユーザU1が存在することとして説明する。
 まず、感情推定システム10の動作の一例について説明する。各ユーザU1は、自身が利用する情報端末1のユーザインタフェース11で第1パラメータ、第2パラメータ、及び第3パラメータを入力する。これにより、ユーザインタフェース11は、第1パラメータ、第2パラメータ、及び第3パラメータを取得する(S11)。次に、情報端末1のCPU13は、ユーザインタフェース11で取得した第1パラメータ、第2パラメータ、及び第3パラメータに基づいて、ユーザU1の感情を示す感情パラメータを推定する(S12)。そして、情報端末1の通信インタフェース12は、CPU13で推定した感情パラメータを含む信号を、ネットワークN1を介してサーバ2へ送信することにより、感情パラメータを出力する(S13)。これにより、サーバ2には、各ユーザU1の情報端末1で推定した感情パラメータが出力される。
 次に、コンテンツ決定システム20の動作の一例について説明する。サーバ2の通信インタフェース21(入力インタフェース21A)は、情報端末1から送信される信号を受信することにより、感情パラメータを取得する(S21)。ここでは、通信インタフェース21は、各ユーザU1の感情パラメータを取得する。また、通信インタフェース21は、管理者の情報端末から送信される信号を受信することにより、目標パラメータを取得する(S22)。ここでいう目標パラメータは、誘導パラメータと同様に、各ユーザU1に音コンテンツを聴かせることにより各ユーザU1に抱かせたい先の感情を示すパラメータであるが、誘導パラメータとは異なるパラメータである。すなわち、目標パラメータは、各ユーザU1に音コンテンツを聴かせることにより、各ユーザU1に最終的に抱かせたい感情を示すパラメータである。
 実施の形態では、朝、昼、及び夜の3つの時間帯の各々で目標とする各ユーザU1の感情の傾向が異なっている。具体的には、朝の時間帯においては、興奮度及び覚醒度が比較的大きい感情(つまり、図5に示すアフェクトグリッドの第1象限のうち第3軸A3よりも上方の領域で示される感情)を目標とする。また、昼の時間帯においては、興奮度及び快適度が比較的大きい感情(つまり、図5に示すアフェクトグリッドの第1象限のうち第3軸A3よりも下方の領域で示される感情)を目標とする。また、夜の時間帯においては、弛緩度が比較的大きい感情(つまり、図5に示すアフェクトグリッドの第4象限で示される感情)を目標とする。したがって、ここでは、通信インタフェース21は、朝、昼、及び夜の各々の時間帯の目標パラメータを取得する。ステップS22は、ステップS21よりも前のタイミングで行われてもよい。
 次に、サーバ2のCPU22は、取得した感情パラメータ及び目標パラメータに基づいて、音コンテンツを決定する情報処理を実行する。この情報処理においては、各ユーザU1の感情パラメータの代表値を用いる。例えば、代表値は、各ユーザU1の感情パラメータの移動平均値である。移動平均値は、各ユーザU1のオフィスの滞在時間に応じて重み付けを行って算出してもよい。例えば、ユーザU1の滞在時間が短い程、重み付けを大きくし、ユーザU1の滞在時間が長い程、重み付けを小さくしてもよい。
 CPU22は、取得した感情パラメータ及び目標パラメータに基づいて、誘導パラメータを設定する(S23)。ステップS23においては、CPU22は、現在の時刻を取得し、現在の時刻に基づいて朝、昼、及び夜の3つの時間帯にそれぞれ対応する3つの目標パラメータから1つの目標パラメータを選択する。次に、CPU22は、設定した誘導パラメータ及び目標パラメータにそれぞれ対応するプレイリストを生成する(S24)。そして、通信インタフェース21(出力インタフェース21B)は、CPU22で生成したプレイリストを含む信号を、ネットワークN1を介して再生システム3へ送信することにより、プレイリストを出力する(S25)。
 ここで、誘導パラメータの設定及びプレイリストの生成について、図11を用いて説明する。図11は、実施の形態に係るコンテンツ決定システム20におけるプレイリストの生成の一例の説明図である。図11は、図5と同様に、アフェクトグリッドを示している。なお、図11では、第3軸A3及び第4軸A4の図示を省略している。また、図11では、朝の時間帯の目標パラメータP21と、昼の時間帯の目標パラメータP22と、夜の時間帯の目標パラメータP23,P24と、を図示している。図11に示す例では、時間帯が昼であり、CPU22は、目標パラメータP22を用いることとする。
 まず、CPU22は、アフェクトグリッド上における感情パラメータP10と目標パラメータP22との間の距離(つまり、差分)を算出する。そして、CPU22は、算出した距離に基づいて、感情パラメータP10が目標パラメータP22に近づくように、誘導パラメータを設定する。例えば、CPU22は、算出した距離が等間隔に分割されるように、誘導パラメータを設定する。図11に示す例では、CPU22は、3つの誘導パラメータP31~P33を設定している。なお、算出した距離が閾値よりも短い場合、つまり、感情パラメータと目標パラメータとが近接している場合、CPU22は、誘導パラメータを設定しなくてもよい。
 次に、CPU22は、誘導パラメータ及び目標パラメータの各々に対応するプレイリストを生成する。ここでは、CPU22は、3つの誘導パラメータP31~P33にそれぞれ対応するプレイリストと、目標パラメータに対応するプレイリストと、を生成する。
 例えば、誘導パラメータP31に対応するプレイリストを生成する場合、CPU22は、感情パラメータP10及び誘導パラメータP31の組み合わせが一致する音コンテンツをデータベース25から検索することにより、音コンテンツを決定し、決定した音コンテンツを含むプレイリストを生成する。
 また、例えば、誘導パラメータP32に対応するプレイリストを生成する場合、CPU22は、誘導パラメータP31を感情パラメータとして、当該感情パラメータ及び誘導パラメータP32の組み合わせが一致する音コンテンツをデータベース25から検索することにより、音コンテンツを決定し、決定した音コンテンツを含むプレイリストを生成する。また、例えば、誘導パラメータP33に対応するプレイリストを生成する場合、CPU22は、誘導パラメータP32を感情パラメータとして、当該感情パラメータ及び誘導パラメータP33の組み合わせが一致する音コンテンツをデータベース25から検索することにより、音コンテンツを決定し、決定した音コンテンツを含むプレイリストを生成する。
 また、例えば、目標パラメータP22に対応するプレイリストを生成する場合、CPU22は、誘導パラメータP33を感情パラメータ、目標パラメータP22を誘導パラメータとして、当該感情パラメータ及び当該誘導パラメータの組み合わせが一致する音コンテンツをデータベース25から検索することにより、音コンテンツを決定し、決定した音コンテンツを含むプレイリストを生成する。
 プレイリストを含む信号を受信した再生システム3は、取得したプレイリストに従って音コンテンツを再生する。例えば、図11に示す例に従ってコンテンツ決定システム20のCPU22がプレイリストを生成した場合、再生システム3は、まず、誘導パラメータP31に対応するプレイリストに従って音コンテンツを所定の時間(例えば、30分)再生する。その後、再生システム3は、誘導パラメータP32に対応するプレイリスト、誘導パラメータP33に対応するプレイリスト、及び目標パラメータP22に対応するプレイリストにそれぞれ従って、音コンテンツを所定の時間ずつ再生する。
 ここで、再生システム3が誘導パラメータP31~P33に対応するプレイリストに従って音コンテンツを再生せずに、目標パラメータP22に対応するプレイリストに従って音コンテンツを再生した場合、以下のような問題が生じ得る。すなわち、目標パラメータP22で表される感情が、感情パラメータP10で表される感情と大きく乖離しているため、目標パラメータP22に対応するプレイリストに従って音コンテンツを再生しても、ユーザU1が不快感を覚えるだけで、ユーザU1の感情を目標パラメータP22で表される感情へと誘導する効果が期待できない。
 これに対して、上述のように再生システム3が誘導パラメータP31~P33に対応するプレイリストに従って音コンテンツを再生することにより、ユーザU1の感情を、感情パラメータP10で表される感情から徐々に目標パラメータP22で表される感情へと誘導することが可能である。
 ところで、再生システム3が音コンテンツを再生している過程において時間帯が変化する場合がある。このような場合、コンテンツ決定システム20のCPU22は、誘導パラメータ及び目標パラメータを再設定し、再設定した誘導パラメータ及び目標パラメータに基づいてプレイリストを再生成する。
 図12は、実施の形態に係るコンテンツ決定システム20におけるプレイリストの再生成の一例の説明図である。図12は、図11と同様に、アフェクトグリッドを示しており、かつ、第3軸A3及び第4軸A4の図示を省略している。また、図12では、図11と同様に、朝の時間帯の目標パラメータP21と、昼の時間帯の目標パラメータP22と、夜の時間帯の目標パラメータP23,P24と、を図示している。図12に示す例では、昼の時間帯において、昼の時間帯の目標パラメータP22に基づいて1以上の誘導パラメータ及び1以上の誘導パラメータに対応するプレイリストを生成していることとする。そして、図12に示す例では、誘導パラメータP32に対応するプレイリストに従って再生システム3が音コンテンツを再生している際に、時間帯が昼から夜へと変化したこととする。
 図12に示す例では、CPU22は、時間帯が昼から夜へと変化した時点で再生しているプレイリスト(ここでは、誘導パラメータP32に対応するプレイリスト)の再生が終了してから、誘導パラメータ及び目標パラメータの再設定、並びにプレイリストの再生成を実行し、再生システム3に再生成したプレイリストの再生を開始する。
 具体的には、CPU22は、まず、目標パラメータを、目標パラメータP22から目標パラメータP23へと再設定する。ここで、時間帯が昼から夜へと変化した時点で、ユーザU1の感情は、誘導パラメータP31で表される感情と、誘導パラメータP32で表される感情との間にあると推定される。そして、当該時点で再生している誘導パラメータP32に対応するプレイリストの再生が終了すると、ユーザU1の感情は、誘導パラメータP32で表される感情に誘導されていると推定される。そこで、CPU22は、誘導パラメータP32を新たな始点となる感情パラメータとして、当該感情パラメータと新たな目標パラメータP23との間の距離(つまり、差分)を算出する。そして、CPU22は、算出した距離に基づいて、上記新たな感情パラメータが新たな目標パラメータP23に近づくように、新たな誘導パラメータを再設定する。図12に示す例では、CPU22は、誘導パラメータP34を新たな誘導パラメータとして再設定している。
 CPU22は、再設定した誘導パラメータP34に対応するプレイリストと、再設定した目標パラメータP23に対応するプレイリストを再生成する。そして、通信インタフェース21(出力インタフェース21B)は、CPU22で再生成したプレイリストを含む信号を、ネットワークN1を介して再生システム3へ送信する。これにより、再生システム3は、誘導パラメータP32に対応するプレイリストに従って音コンテンツを再生した後は、再設定した誘導パラメータP34に対応するプレイリスト、及び再設定した目標パラメータP23に対応するプレイリストにそれぞれ従って、音コンテンツを所定の時間ずつ再生する。これにより、ユーザU1の感情を、変化後の時間帯に対応する目標パラメータで表される感情へと誘導することが可能である。
 また、上記の動作において、CPU22は、時間帯が昼から夜へと変化した時点で、当該時点で再生しているプレイリスト(ここでは、誘導パラメータP32に対応するプレイリスト)の再生を直ちに終了させ、誘導パラメータ及び目標パラメータの再設定、並びにプレイリストの再生成を実行し、再生システム3に再生成したプレイリストの再生を開始させてもよい。すなわち、この場合、CPU22は、図12に示す例と同様に、誘導パラメータP32を新たな始点となる感情パラメータとして、新たな誘導パラメータの再設定、及び新たな誘導パラメータに対応するプレイリストを再生成する。ただし、この場合、新たな誘導パラメータに対応するプレイリストの再生は、現在のプレイリスト(誘導パラメータP32に対応するプレイリスト)の再生が終了した時点で開始されるのではなく、時間帯が昼から夜へと変化した時点で開始されることになる。
 また、上記の動作において、CPU22は、時間帯が昼から夜へと変化した時点で、当該時点で再生しているプレイリスト(ここでは、誘導パラメータP32に対応するプレイリスト)の再生を直ちに終了させ、当該時点で再生しているプレイリストの1つ前のプレイリストに対応する誘導パラメータ(ここでは、誘導パラメータP31)を新たな始点となる感情パラメータとして、誘導パラメータ及び目標パラメータの再設定、並びにプレイリストの再生成を実行してもよい。すなわち、この場合、CPU22は、誘導パラメータP31を新たな始点となる感情パラメータとして、新たな誘導パラメータの再設定、及び新たな誘導パラメータに対応するプレイリストを再生成する。また、この場合、新たな誘導パラメータに対応するプレイリストの再生は、時間帯が昼から夜へと変化した時点で開始されることになる。
 [3.効果等]
 以上説明したように、CPU13等のコンピュータによって実行される第1の態様に係る感情推定方法では、ユーザの主観的な気分を示す第1パラメータ、ユーザの主観的な興奮度を示す第2パラメータ、及びユーザの主観的な弛緩度を示す第3パラメータを取得し(S11)、取得した第1パラメータ、第2パラメータ、及び第3パラメータに基づいて、ユーザの感情を示す感情パラメータを推定し(S12)、感情パラメータに関する情報を出力する(S13)。
 このような感情推定方法では、特許文献1に開示の技術のようにユーザの生体データを取得しなくて済むので、ユーザの生体データを取得するための手段を別途用意する必要がない。また、このような感情推定方法では、ユーザの3つの主観的な評価に基づいてユーザの感情を推定することができるので、ユーザが多数の問い合わせについて回答する必要がない。したがって、このような感情推定方法では、比較的簡易な手法によりユーザの感情を推定しやすい、という利点がある。
 また、例えば、第2の態様に係る感情推定方法では、第1の態様において、感情パラメータは、快適度を示す第1軸A1と、覚醒度を示す第2軸A2とで定義される平面の座標として表される。感情推定方法では、第1パラメータに基づいて平面での始点P0を決定し、第1軸A1を平面の原点を基準として第1角度θ1回転させた第3軸A3に沿った第2パラメータに基づく第1移動量M1と、第2軸A2を原点を基準として第2角度θ2回転させた第4軸A4に沿った第3パラメータに基づく第2移動量M2と、に応じて始点P0を移動させることで感情パラメータを推定する。
 このような感情推定方法では、ユーザの感情を平面の座標で表すことで、ユーザの感情を定量的に推定しやすい、という利点がある。
 また、例えば、第3の態様に係る感情推定方法では、第2の態様において、第1角度θ1及び第2角度θ2は、いずれも45度である。第3軸A3は、興奮度を示す軸であり、第4軸A4は、弛緩度を示す軸である。
 このような感情推定方法では、ユーザの感情を平面の座標で表す際に、第2パラメータ及び第3パラメータを座標に反映しやすい、という利点がある。
 また、例えば、CPU22等のコンピュータによって実行される第4の態様に係るコンテンツ決定方法では、上記の第1~第3の態様のいずれか1つの態様の感情推定方法で推定した感情パラメータを取得し(S21)、取得した感情パラメータに基づいて、ユーザに対して提供するコンテンツを決定し(S24)、決定したコンテンツに関する情報を出力する(S25)。
 このようなコンテンツ決定方法では、推定したユーザの感情に応じたコンテンツをユーザに提供することで、例えばコンテンツの提供によりユーザの感情を所定の感情へ誘導させやすくなる、という利点がある。
 また、例えば、第5の態様に係るコンテンツ決定方法では、第4の態様において、ユーザの目標とする感情を示す目標パラメータを更に取得し(S22)、感情パラメータと、目標パラメータとの差分に基づいて、コンテンツを決定する(S24)。
 このようなコンテンツ決定方法では、ユーザの感情を目標とする感情へと誘導させるコンテンツをユーザに提供しやすくなる、という利点がある。
 また、例えば、第6の態様に係るコンテンツ決定方法では、第5の態様において、上記差分に基づいて、感情パラメータが目標パラメータに近づくようにユーザが誘導される感情を示す誘導パラメータを設定し(S23)、誘導パラメータに基づいて、コンテンツを決定する(S24)。
 このようなコンテンツ決定方法では、ユーザの感情を目標とする感情へと誘導させる効果が更に期待できるコンテンツをユーザに提供しやすくなる、という利点がある。
 また、例えば、第7の態様に係るプログラムは、CPU13等のコンピュータに、上記の第1~第3の態様のいずれか1つの態様の感情推定方法を実行させる。
 このようなプログラムは、上記の感情推定方法と同様の効果を奏することができる。
 また、例えば、第8の態様に係るプログラムは、CPU22等のコンピュータに、上記の第4~第6の態様のいずれか1つの態様のコンテンツ決定方法を実行させる。
 このようなプログラムは、上記のコンテンツ決定方法と同様の効果を奏することができる。
 また、例えば、第9の態様に係る感情推定システム10は、ユーザインタフェース11と、CPU13と、通信インタフェース12と、を備える。ユーザインタフェース11は、ユーザの主観的な気分を示す第1パラメータ、ユーザの主観的な興奮度を示す第2パラメータ、及びユーザの主観的な弛緩度を示す第3パラメータを取得する。CPU13は、取得した第1パラメータ、第2パラメータ、及び第3パラメータに基づいて、ユーザの感情を示す感情パラメータを推定する。通信インタフェース12は、感情パラメータに関する情報を出力する。ユーザインタフェース11は、入力インタフェースの一例である。CPU13は、信号処理回路の一例である。通信インタフェース12は、出力インタフェースの一例である。
 このような感情推定システム10は、上記の感情推定方法と同様の効果を奏することができる。
 また、例えば、第10の態様に係るコンテンツ決定システム20は、入力インタフェース21Aと、CPU22と、出力インタフェース21Bと、を備える。入力インタフェース21Aは、第9の態様に係る感情推定システム10で推定した感情パラメータを取得する。CPU22は、取得した感情パラメータに基づいて、ユーザに対して提供するコンテンツを決定する。出力インタフェース21Bは、決定したコンテンツに関する情報を出力する。CPU22は、信号処理回路の一例である。
 このようなコンテンツ決定システム20は、上記のコンテンツ決定方法と同様の効果を奏することができる。
 [4.その他の実施の形態]
 以上、実施の形態について説明したが、本開示は、上記実施の形態に限定されるものではない。
 上記実施の形態では、感情推定システム10が情報端末1で実現され、コンテンツ決定システム20がサーバ2で実現されているが、これに限られない。例えば、感情推定システム10及びコンテンツ決定システム20の両方が、情報端末1で実現されてもよい。この場合、サーバ2は不要である。また、例えば、感情推定システム10がサーバ2で実現されてもよい。この場合、サーバ2の入力インタフェース21Aが、情報端末1で入力された第1パラメータ、第2パラメータ、及び第3パラメータを含む信号を受信することにより、各パラメータを取得する。
 上記実施の形態では、感情推定システム10、コンテンツ決定システム20、及び再生システム3はそれぞれ互いに独立した装置により実現されているが、これに限られない。例えば、サーバ2及び再生システム3は、1つの装置により実現されてもよい。また、例えば、感情推定システム10、コンテンツ決定システム20、及び再生システム3の全てが1つの装置により実現されてもよい。この場合、当該1つの装置は、例えばオフィス内に設置される。
 上記実施の形態では、再生システム3は、記憶装置34に記憶されている音コンテンツを読み出してスピーカ36で再生しているが、これに限られない。例えば、再生システム3は、ネットワークN1を介してサーバ2から送信される音コンテンツを受信してスピーカ36で再生する、いわゆるストリーミング再生により音コンテンツを再生してもよい。この場合、再生システム3は、記憶装置34を備えていなくてもよい。また、この場合、サーバ2は、複数の音コンテンツを記憶させる記憶装置を備えていればよい。なお、再生システム3は、サーバ2と異なるサーバであって、音楽配信業者が運用するサーバから送信される音コンテンツを受信してもよい。
 上記実施の形態では、再生システム3は、コンテンツ決定システム20で決定した音コンテンツを、オフィス内の所定の場所からユーザに向けて再生するように構成されているが、これに限られない。例えば、再生システム3は、情報端末1で実現されてもよい。この場合、ユーザは、情報端末1に内蔵されたスピーカから再生される音コンテンツを聴いてもよいし、情報端末1に接続されたイヤホンを介して再生される音コンテンツを聴いてもよい。また、例えば、情報端末1は、ネットワークN1を介して再生システム3から送信される音コンテンツを受信し、情報端末1に内蔵されたスピーカで再生するストリーミング再生により、音コンテンツを再生してもよい。
 上記実施の形態では、機械学習済みの予測モデル4を用いてデータベース25を構築しているが、これに限られない。例えば、データベース25は、機械学習済みの予測モデル4を用いずにルールベースで構築されてもよい。
 上記実施の形態において、予測モデル4は、以下のような予測モデルであってもよい。すなわち、予測モデルは、音コンテンツを聴く前のユーザの感情パラメータと、音コンテンツを聴いた後のユーザの感情パラメータとを入力とし、音響特徴量を出力とするようなモデルでもよい。この場合、機械学習済みの予測モデルに現在の感情パラメータと誘導したい先の誘導パラメータとを入力すると、音響特徴量が出力されるので、音コンテンツと音響特徴量とを対応付けたデータベースから、予測モデルの出力する音響特徴量に最も近い音響特徴量を有する音コンテンツを選択することが可能である。
 上記実施の形態では、音コンテンツの再生過程において時間帯が変化した場合に、コンテンツ決定システム20は、変化後の時間帯に対応する目標パラメータへとユーザの感情が誘導されるようにプレイリストを変更したが、これに限られない。例えば、コンテンツの再生過程において時間帯が変化した場合であっても、コンテンツ決定システム20は、最初に決定したプレイリストを維持してもよい。
 上記実施の形態では、サーバ2の通信インタフェース21は、入力インタフェース21Aと、出力インタフェース21Bと、の両方を兼ねているが、これに限られない。例えば、入力インタフェース21Aと、出力インタフェース21Bとは、互いに異なるインタフェースであってもよい。
 また、上記実施の形態において、感情推定システムは、単一の装置によって実現されたが、複数の装置として実現されてもよい。感情推定システム10が複数の装置によって実現される場合、感情推定システムが備える機能的な構成要素は、複数の装置にどのように振り分けられてもよい。同様に、上記実施の形態において、コンテンツ決定システムは、単一の装置によって実現されたが、複数の装置として実現されてもよい。コンテンツ決定システムが複数の装置によって実現される場合、コンテンツ決定システムが備える機能的な構成要素は、複数の装置にどのように振り分けられてもよい。
 また、上記実施の形態における装置間の通信方法については特に限定されるものではない。上記実施の形態において2つの装置が通信を行う場合、2つの装置間には図示されない中継装置が介在してもよい。
 また、上記実施の形態で説明された処理の順序は、一例である。複数の処理の順序は変更されてもよいし、複数の処理は並行して実行されてもよい。また、特定の処理部が実行する処理を別の処理部が実行してもよい。また、上記実施の形態で説明されたデジタル信号処理の一部がアナログ信号処理によって実現されてもよい。
 また、上記実施の形態において、各構成要素は、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、CPU又はプロセッサ等のプログラム実行部が、ハードディスク又は半導体メモリ等の記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。
 また、各構成要素は、ハードウェアによって実現されてもよい。例えば、各構成要素は、回路(又は集積回路)でもよい。これらの回路は、全体として1つの回路を構成してもよいし、それぞれ別々の回路でもよい。また、これらの回路は、それぞれ、汎用的な回路でもよいし、専用の回路でもよい。
 また、本開示の全般的又は具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム又はコンピュータ読み取り可能なCD-ROM等の記録媒体で実現されてもよい。また、システム、装置、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。例えば、本開示は、コンピュータが実行する感情推定方法として実行されてもよいし、このような感情推定方法をコンピュータに実行させるためのプログラムとして実現されてもよい。同様に、本開示は、コンピュータが実行するコンテンツ決定方法として実行されてもよいし、このようなコンテンツ決定方法をコンピュータに実行させるためのプログラムとして実現されてもよい。また、本開示は、このようなプログラムが記録されたコンピュータ読み取り可能な非一時的な記録媒体として実現されてもよい。なお、ここでのプログラムには、汎用の情報端末を上記実施の形態の上方端末として機能させるためのアプリケーションプログラムが含まれる。
 その他、各実施の形態に対して当業者が思いつく各種変形を施して得られる形態、又は、本開示の趣旨を逸脱しない範囲で各実施の形態における構成要素及び機能を任意に組み合わせることで実現される形態も本開示に含まれる。
 本開示の感情推定方法は、ユーザの主観的な気分に基づいて、ユーザの感情を推定することができる。
 1 情報端末
 10 感情推定システム
 100、200、300 入力画面
 101、121~125、201、221~225、301、321~325 文字列
 11 ユーザインタフェース
 111~115、211~215、311~315 アイコン
 12 通信インタフェース
 13 CPU
 14 メモリ
 2 サーバ
 20 コンテンツ決定システム
 21 通信インタフェース
 21A 入力インタフェース
 21B 出力インタフェース
 22 CPU
 23 メモリ
 24 記憶装置
 25 データベース
 3 再生システム
 31 通信インタフェース
 32 CPU
 33 メモリ
 34 記憶装置
 35 アンプ
 36 スピーカ
 4 予測モデル
 A1 第1軸
 A2 第2軸
 A3 第3軸
 A4 第4軸
 M1 第1移動量
 M2 第2移動量
 N1 ネットワーク
 P0 始点
 P10 感情パラメータ
 P21~P24 目標パラメータ
 P31~P34 誘導パラメータ
 U1 ユーザ
 θ1 第1角度
 θ2 第2角度

Claims (10)

  1.  ユーザの主観的な気分を示す第1パラメータ、前記ユーザの主観的な興奮度を示す第2パラメータ、及び前記ユーザの主観的な弛緩度を示す第3パラメータを取得し、
     取得した前記第1パラメータ、前記第2パラメータ、及び前記第3パラメータに基づいて、前記ユーザの感情を示す感情パラメータを推定し、
     前記感情パラメータに関する情報を出力する、
     感情推定方法。
  2.  前記感情パラメータは、快適度を示す第1軸と、覚醒度を示す第2軸とで定義される平面の座標として表され、
     前記第1パラメータに基づいて前記平面での始点を決定し、
     前記第1軸を前記平面の原点を基準として第1角度回転させた第3軸に沿った前記第2パラメータに基づく第1移動量と、前記第2軸を前記原点を基準として第2角度回転させた第4軸に沿った前記第3パラメータに基づく第2移動量と、に応じて前記始点を移動させることで前記感情パラメータを推定する、
     請求項1に記載の感情推定方法。
  3.  前記第1角度及び前記第2角度は、いずれも45度であって、
     前記第3軸は、興奮度を示す軸であり、
     前記第4軸は、弛緩度を示す軸である、
     請求項2に記載の感情推定方法。
  4.  請求項1~3のいずれか1項に記載の感情推定方法で推定した前記感情パラメータを取得し、
     取得した前記感情パラメータに基づいて、前記ユーザに対して提供するコンテンツを決定し、
     決定した前記コンテンツに関する情報を出力する、
     コンテンツ決定方法。
  5.  前記ユーザの目標とする感情を示す目標パラメータを更に取得し、
     前記感情パラメータと、前記目標パラメータとの差分に基づいて、前記コンテンツを決定する、
     請求項4に記載のコンテンツ決定方法。
  6.  前記差分に基づいて、前記感情パラメータが前記目標パラメータに近づくように前記ユーザが誘導される感情を示す誘導パラメータを設定し、
     前記誘導パラメータに基づいて、前記コンテンツを決定する、
     請求項5に記載のコンテンツ決定方法。
  7.  コンピュータに、
     請求項1~3のいずれか1項に記載の感情推定方法を実行させる、
     プログラム。
  8.  コンピュータに、
     請求項4~6のいずれか1項に記載のコンテンツ決定方法を実行させる、
     プログラム。
  9.  ユーザの主観的な気分を示す第1パラメータ、前記ユーザの主観的な興奮度を示す第2パラメータ、及び前記ユーザの主観的な弛緩度を示す第3パラメータを取得する入力インタフェースと、
     取得した前記第1パラメータ、前記第2パラメータ、及び前記第3パラメータに基づいて、前記ユーザの感情を示す感情パラメータを推定する信号処理回路と、
     前記感情パラメータに関する情報を出力する出力インタフェースと、を備える、
     感情推定システム。
  10.  請求項9に記載の感情推定システムで推定した前記感情パラメータを取得する入力インタフェースと、
     取得した前記感情パラメータに基づいて、前記ユーザに対して提供するコンテンツを決定する信号処理回路と、
     決定した前記コンテンツに関する情報を出力する出力インタフェースと、を備える、
     コンテンツ決定システム。
PCT/JP2022/036346 2022-01-18 2022-09-29 感情推定方法、コンテンツ決定方法、プログラム、感情推定システム、及びコンテンツ決定システム WO2023139849A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2022-006015 2022-01-18
JP2022006015 2022-01-18

Publications (1)

Publication Number Publication Date
WO2023139849A1 true WO2023139849A1 (ja) 2023-07-27

Family

ID=87348589

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/036346 WO2023139849A1 (ja) 2022-01-18 2022-09-29 感情推定方法、コンテンツ決定方法、プログラム、感情推定システム、及びコンテンツ決定システム

Country Status (1)

Country Link
WO (1) WO2023139849A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018195043A (ja) * 2017-05-17 2018-12-06 パナソニックIpマネジメント株式会社 コンテンツ提供方法、コンテンツ提供装置及びコンテンツ提供プログラム
JP2021057002A (ja) * 2019-06-06 2021-04-08 パナソニックIpマネジメント株式会社 コンテンツ選択方法、コンテンツ選択装置及びコンテンツ選択プログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018195043A (ja) * 2017-05-17 2018-12-06 パナソニックIpマネジメント株式会社 コンテンツ提供方法、コンテンツ提供装置及びコンテンツ提供プログラム
JP2021057002A (ja) * 2019-06-06 2021-04-08 パナソニックIpマネジメント株式会社 コンテンツ選択方法、コンテンツ選択装置及びコンテンツ選択プログラム

Similar Documents

Publication Publication Date Title
US11342062B2 (en) Method and system for analysing sound
US10790919B1 (en) Personalized real-time audio generation based on user physiological response
US11205408B2 (en) Method and system for musical communication
Creech Using music technology creatively to enrich later-life: A literature review
US20190018644A1 (en) Soundsharing capabilities application
US10649729B2 (en) Audio device with auditory system display and methods for use therewith
CN107683399A (zh) 声音输出装置、电子装置、以及其控制方法
CN110211556B (zh) 音乐文件的处理方法、装置、终端及存储介质
US10921892B2 (en) Personalized tactile output
Case et al. Designing with sound: fundamentals for products and services
Winters et al. Sonification of emotion: Strategies for continuous display of arousal and valence
Liew et al. Cross-modal perception of noise-in-music: Audiences generate spiky shapes in response to auditory roughness in a novel electroacoustic concert setting
JP2023175013A (ja) 嗜好判断システム、嗜好判断方法、および、プログラム
WO2023139849A1 (ja) 感情推定方法、コンテンツ決定方法、プログラム、感情推定システム、及びコンテンツ決定システム
WO2021176925A1 (ja) 演奏データに対する観衆の評価を推論する方法、システム、及びプログラム
JP5941350B2 (ja) 聴覚印象量推定装置及びそのプログラム
Amer et al. The perceived hazard of earcons in information technology exception messages: The effect of musical dissonance/consonance and pitch
WO2018211750A1 (ja) 情報処理装置および情報処理方法
WO2024080009A1 (ja) 音響装置、音響制御方法及び音響制御プログラム
WO2016039463A1 (ja) 音響解析装置
Lee et al. The Sound of Hallucinations: Toward a more convincing emulation of internalized voices
US10921893B2 (en) Personalized tactile output
JP2022157293A (ja) コンテンツ再生制御システム及びプログラム
Civit et al. FAIME: A Framework for AI-Assisted Musical Devices
Esau-Held et al. “Foggy sounds like nothing”—enriching the experience of voice assistants with sonic overlays

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22922002

Country of ref document: EP

Kind code of ref document: A1