WO2020246600A1 - 学習装置、空間制御装置、学習プログラムおよび空間制御プログラム - Google Patents

学習装置、空間制御装置、学習プログラムおよび空間制御プログラム Download PDF

Info

Publication number
WO2020246600A1
WO2020246600A1 PCT/JP2020/022388 JP2020022388W WO2020246600A1 WO 2020246600 A1 WO2020246600 A1 WO 2020246600A1 JP 2020022388 W JP2020022388 W JP 2020022388W WO 2020246600 A1 WO2020246600 A1 WO 2020246600A1
Authority
WO
WIPO (PCT)
Prior art keywords
spatial environment
speaker
conversation
satisfaction level
input data
Prior art date
Application number
PCT/JP2020/022388
Other languages
English (en)
French (fr)
Inventor
真樹 坂本
浩一 山形
Original Assignee
国立大学法人電気通信大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 国立大学法人電気通信大学 filed Critical 国立大学法人電気通信大学
Priority to JP2021524937A priority Critical patent/JPWO2020246600A1/ja
Publication of WO2020246600A1 publication Critical patent/WO2020246600A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates

Definitions

  • the present invention relates to a learning device, a space control device, a learning program, and a space control program.
  • a person may learn the relationship between the conversational air and the spatial environment from the experience of improving or deteriorating the conversational air (situation, atmosphere, etc.). This allows a person to control the spatial environment when talking to a person.
  • the control of the spatial environment performed by humans includes opening and closing curtains, adjusting the brightness of the spatial environment such as adjusting the brightness of lighting, and selecting music to be played in the spatial environment.
  • Patent Document 1 discloses a correlation strength table in which the correlation strengths representing the degree of correlation between a color and a predetermined word are associated with each other.
  • an object of the present invention is to provide a learning device, a spatial control device, a learning program, and a spatial control program that enable control of the spatial environment in consideration of the air of conversation.
  • the first feature of the present invention is an input in which the amount of speech in a conversation by a plurality of speakers at a predetermined time, the feature value of the conversation content, and the feature value of the spatial environment in which the speaker exists are associated with each other.
  • the present invention relates to a learning device including an input data generation unit for generating data and a model learning unit for learning a spatial environment model showing a correlation between satisfaction including speech volume, feature values of conversation content, and feature values of spatial environment.
  • the input data further includes a body movement synchro value that indexes the synchronization of movements by a plurality of speakers, and the satisfaction level may further include a body movement synchro value.
  • the input data may further include the number of nods by a plurality of speakers, and the satisfaction level may further include the number of nods.
  • the input data may further include the amount of laughter by a plurality of speakers, and the satisfaction level may further include the amount of laughter.
  • the characteristic value of the spatial environment may be the color or brightness of the spatial lighting.
  • the characteristic value of the spatial environment may be the characteristic value of the sound of the spatial environment.
  • the second feature of the present invention is a spatial environment model showing the correlation between the satisfaction including the amount of speech in a conversation by a plurality of speakers at a predetermined time, the characteristic value of the conversation content, and the characteristic value of the spatial environment in which the speaker exists.
  • a storage device that stores the spatial environment model data to be specified, a current state analysis unit that calculates the current satisfaction level from the characteristic values of the current conversation content and the amount of speech in the current conversation by the speaker, and the characteristics of the current conversation content.
  • Concerning a spatial control device including a spatial environment control unit that calculates a characteristic value of a spatial environment that raises the satisfaction level higher than the current satisfaction level from the value and the spatial environment model and controls the spatial environment based on the calculated feature value. ..
  • the third feature of the present invention is an input in which a computer generates input data in which the amount of speech in a conversation by a plurality of speakers at a predetermined time, the feature value of the conversation content, and the feature value of the spatial environment in which the speaker exists are associated with each other.
  • the present invention relates to a learning program that functions as a model learning unit that learns a spatial environment model that shows a correlation between a data generation unit and a satisfaction level including the amount of speech, a characteristic value of conversation content, and a characteristic value of a spatial environment.
  • the fourth feature of the present invention is a spatial environment model showing the correlation between the satisfaction including the amount of speech in a conversation by a plurality of speakers at a predetermined time, the characteristic value of the conversation content, and the characteristic value of the spatial environment in which the speaker exists.
  • a computer that stores the specified spatial environment model data, a current analysis unit that calculates the current satisfaction level from the characteristic value of the current conversation content and the amount of speech in the current conversation by the speaker, and the characteristic value of the current conversation content.
  • the spatial control program that calculates the feature value of the spatial environment that raises the satisfaction level higher than the current satisfaction level from the spatial environment model and makes it function as the spatial environment control unit that controls the spatial environment based on the calculated feature value. ..
  • a learning device a spatial control device, a learning program, and a spatial control program that enable control of a spatial environment in consideration of the air of conversation.
  • space means a place where a conversation is taking place.
  • Spaces are, for example, offices, educational sites, houses, commercial facilities such as hotels, restaurants, department stores, hospitals, nursing care facilities, and various other places where speakers gather.
  • Sounder means a person who speaks.
  • a speaker includes a person who is speaking at a specific timing as well as a person who is listening.
  • the speaker may be a person who discusses one theme, such as a person who participates in a discussion, or a person who happens to be present in a hotel lounge or the like.
  • the learning device 1 learns the relationship between a conversation by a plurality of people and the spatial environment in which the conversation takes place, and generates a spatial environment model. Further, the learning device 1 refers to the generated spatial environment model and controls the spatial environment so as to improve the satisfaction level in the conversation.
  • the learning device 1 is connected to various devices by wire or wirelessly as shown in FIG.
  • the device shown in FIG. 1 as a device connected to the learning device 1 is an example. Only some of the devices shown in FIG. 1 may be connected to the learning device 1. A device other than the device shown in FIG. 1 may be connected to the learning device 1. Further, in another embodiment, each device connected to the learning device 1 in FIG. 1 outputs data to the learning device 1 via a storage medium such as a USB (Universal Serial Bus) memory without connecting to the learning device 1. Input / output may be performed.
  • USB Universal Serial Bus
  • the device connected to the learning device 1 may be divided into a conversation, a device for identifying the state of the speaker, and a device for controlling the spatial environment.
  • the device for identifying the conversation and the state of the speaker is a device for grasping the current state of the space.
  • the device for identifying the conversation and the state of the speaker is, for example, a microphone 41, a body motion sensor 42, a heartbeat fluctuation sensor 43, and the like, as shown in FIG.
  • the data acquired by each device is input to the learning device 1 and used to identify the conversation and the state of the speaker.
  • a device for identifying the conversation and the state of the speaker a device for identifying the spatial environment in which the speaker is present, such as a temperature / humidity meter and an illuminance meter, may be included.
  • the device for controlling the spatial environment is a device that can change the spatial environment.
  • the devices for controlling the spatial environment are, for example, a speaker 51, an aroma shooter 52, a lighting controller 53, and a projector 54, as shown in FIG.
  • the learning device 1 determines a spatial environment for improving conversation satisfaction from the spatial environment model, and controls each device based on the determined spatial environment.
  • an air conditioner or the like may be included as a device for controlling conversation and the spatial environment.
  • the microphone 41 acquires voice data of conversation in space.
  • one microphone 41 acquires the utterance of each speaker.
  • one microphone may be provided for each speaker, and each microphone may acquire the utterance of each speaker individually.
  • the body movement sensor 42 detects the body movement of the speaker.
  • the body motion sensor 42 is provided for each speaker.
  • the body motion sensor 42 detects the movement of the speaker during conversation.
  • the body motion sensor 42 is, for example, a motion sensor provided on the collar of the speaker.
  • the heartbeat fluctuation sensor 43 is a sensor that detects heartbeat fluctuation as an index of stress of the speaker.
  • the heartbeat fluctuates due to the influence of the periodic activity of the brain stem synchronized with respiration and the periodic activity and emotion of the brain stem synchronized with the fluctuation of blood pressure.
  • the periodic activity of the brain stem synchronized with respiration is 0.04 to 0.15 Hz, that is, the periodic activity of the LF (Low Frequency) component represented by a cycle of about 10 seconds.
  • the periodic activity of the brain stem synchronized with the fluctuation of blood pressure is 0.15 to 0.4 Hz, that is, HF (High Frequency) periodic activity represented by a cycle of about 4 seconds.
  • the sympathetic nerve is an amplification factor that increases the power of LF
  • the parasympathetic nerve is an amplification factor that increases the power of both LF and HF. Therefore, by detecting the fluctuation of the heartbeat, it becomes possible to grasp the states of the sympathetic nerve and the parasympathetic nerve.
  • the heartbeat fluctuation sensor 43 is provided for each speaker, and inputs the state of the heartbeat fluctuation of each speaker to the learning device 1.
  • the measurement result by the heartbeat fluctuation sensor 43 may be input to the learning device 1, and the heartbeat fluctuation may be detected by the learning device 1.
  • the speaker 51 outputs sound to the space.
  • the speaker 51 outputs the sound specified by the learning device 1.
  • the sound may be music or an environmental sound such as the sound of flowing water. Further, the sound is not limited to a sound that is constantly output such as music or an environmental sound, but may be a sound that is suddenly output such as a notification sound.
  • the aroma shooter 52 is a device that outputs a scent to the space.
  • the aroma shooter 52 outputs the scent designated by the learning device 1.
  • the lighting controller 53 controls the brightness and color of the lighting fixtures provided in the space.
  • the lighting controller 53 controls the brightness and color of the luminaire so as to obtain the brightness and color specified by the learning device 1.
  • the lighting controller 53 may control one of the brightness and color of the luminaire provided in the space.
  • the projector 54 displays an image on a wall of space or the like.
  • the projector 54 displays an image designated by the learning device 1.
  • the projector 54 may display an image by using a projection mapping technique.
  • the learning device 1 is a general computer including a storage device 10, a processing device 20, and an input / output interface 30.
  • the function shown in FIG. 1 is realized by executing a learning program by a general computer.
  • the storage device 10 is a ROM (Read Only Memory), a RAM (Random access memory), a hard disk, or the like, and stores various data such as input data, output data, and intermediate data for the processing device 20 to execute processing. ..
  • the processing device 20 is a CPU (Central Processing Unit) that reads and writes data stored in the storage device 10 and inputs and outputs data to and from the input / output interface 30 to execute processing in the learning device 1. ..
  • the input / output interface 30 inputs data input from an input device (not shown) such as a mouse or keyboard to the processing device 20, and outputs data output from the processing device 20 to an output device such as a printer or display device (FIG.). (Not shown) is output.
  • an input device such as a mouse or keyboard
  • an output device such as a printer or display device (FIG.). (Not shown) is output.
  • the input / output interface 30 is further connected to a conversation, a device for identifying the state of the speaker, a device for controlling the spatial environment, and the like, as described above.
  • the device for identifying the conversation and the state of the speaker and the device for controlling the spatial environment include a microphone 41, a body motion sensor 42, a heartbeat fluctuation sensor 43, a speaker 51, an aroma shooter 52, and lighting.
  • This is an interface for connecting to each device such as the controller 53 and the projector 54.
  • Devices not shown in FIG. 1 such as a temperature / hygrometer, a luminometer, and an air conditioner may be included as a device for identifying the conversation and the state of the speaker and a device for controlling the spatial environment.
  • the storage device 10 stores the learning program, and also stores the input data 11, the spatial environment model data 12, the current status data 13, the current status satisfaction data 14, and the spatial environment feature value data 15.
  • the input data 11 is data that associates the conversational situation of the speaker, which changes with time, with the spatial environment.
  • the input data 11 associates, for example, the amount of utterance in a conversation by a plurality of speakers at a predetermined time, the characteristic value of the conversation content, and the characteristic value of the spatial environment in which the speaker exists.
  • the input data 11 is stored by the input data generation unit 21.
  • the spatial environment model data 12 is data that identifies the spatial environment model learned by the model learning unit 22.
  • the spatial environment model data 12 is stored by the model learning unit 22 and referred to by the spatial environment control unit 25.
  • the spatial environment model shows the correlation between the satisfaction level including the amount of speech, the characteristic value of the conversation content, and the characteristic value of the spatial environment.
  • the spatial environment model may also show correlations with other factors.
  • the spatial environment model data only needs to be able to specify the spatial environment model, and has a data format corresponding to a learning method or the like.
  • the current data 13 is the data of the feature values of the spatial environment before the space is controlled by referring to the spatial environment model.
  • the current status data 13 is stored by the current status data acquisition unit 23 and referred to by the spatial environment control unit 25.
  • the current state satisfaction data 14 is data related to the satisfaction level of conversation by the speaker before the space is controlled by referring to the spatial environment model.
  • the current status satisfaction data 14 is stored by the current status analysis unit 24 and referred to by the spatial environment control unit 25.
  • the spatial environment feature value data 15 is the data of the spatial environment feature values calculated by the spatial environment control unit 25.
  • the spatial environment feature value data 15 is stored by the spatial environment control unit 25.
  • the spatial environment feature value data 15 is input to a device for changing the space, such as a speaker shown in FIG.
  • the processing device 20 includes an input data generation unit 21, a model learning unit 22, a current data acquisition unit 23, a current status analysis unit 24, and a spatial environment control unit 25.
  • the input data generation unit 21 acquires data from each device connected to the learning device 1 via the input / output interface 30, generates input data 11, and stores it in the storage device 10.
  • the input data generation unit 21 generates the input data 11 from the data for specifying the state of the conversation and the speaker and the data for specifying the state of the spatial environment in which the speaker exists.
  • the input data generation unit 21 sequentially acquires data from a device provided in the space.
  • the input data generation unit 21 aggregates the data acquired from each device at predetermined time intervals, and sets the data for specifying the conversation and the state of the speaker at each predetermined time and the state of the spatial environment in which the speaker exists. Calculate the data to be identified.
  • the predetermined time may be set for each data type included in the input data 11. For example, the amount of utterance may be totaled every 30 seconds, and the feature value of the conversation content may be totaled every minute.
  • the input data generation unit 21 converts the data aggregated at predetermined time intervals into data that can be input to the model learning unit 22 to generate the input data 11.
  • the data for identifying the conversation and the state of the speaker are the characteristic values of the amount of utterance and the content of the conversation in the conversation by a plurality of speakers at a predetermined time.
  • the data for identifying the conversation and the state of the speaker may further include the body motion synchronization value of the plurality of speakers, the number of nods by the plurality of speakers, and the amount of laughter by the plurality of speakers.
  • the amount of utterance is the amount of conversation by each speaker.
  • the utterance amount is, for example, the amount of voice measured by the microphone 41.
  • the amount of voice is, for example, the total speech time.
  • the input data generation unit 21 specifies the utterance portion of the voice data acquired from the microphone 41, and calculates the total utterance time of each speaker as the utterance amount at predetermined time intervals.
  • the input data generation unit 21 includes the utterance amount for each predetermined time in the input data 11.
  • the feature value of the conversation content is calculated based on the conversation content specified by voice recognition from the voice measured by the microphone 41.
  • the input data generation unit 21 identifies the conversation content by each speaker by voice recognition from the voice data of the predetermined time acquired from the microphone 41, and calculates the feature value of the conversation content for each predetermined time.
  • the characteristic value of the conversation content is calculated from the characteristic value of the word used in the conversation.
  • the feature value of a word may be specified from the correlation strength between the word and the color, for example, as shown in Patent Document 1.
  • the feature value of the word may be represented by a vector using the adjective pair shown in FIG. 2 as an index.
  • This vector may be calculated from the relationship between the phonological characteristics of a word and the evaluation scale, for example, as described in Japanese Patent No. 5678836.
  • the feature value of the conversation content is calculated from the words used in the conversation has been described, but the present invention is not limited to this.
  • the meaning content of the conversation may be specified, and the feature amount of the conversation content may be calculated from the meaning content.
  • the conversation input data generation unit 21 includes the feature value of the conversation content at predetermined time intervals in the input data 11.
  • the body movement synchronization value of a plurality of speakers is a value that indexes the synchronization of movements by a plurality of speakers at predetermined time intervals.
  • the body movement synchronization value is high when the body movements of each speaker are synchronized, and is low when the body movements of each speaker are not synchronized.
  • the input data generation unit 21 acquires the body movement of each speaker from the body movement sensor 42, and calculates an index such as a body movement synchronization value.
  • the body movement sensor 42 outputs the transition of the body movement of each speaker, for example, as shown in FIGS. 3A to 3C.
  • the input data generation unit 21 compares the transition of the body movements of each participant shown in FIG. 3 at predetermined time intervals.
  • the input data generation unit 21 calculates the body movement synchronization value by indexing the degree of synchronization of the body movements of each speaker at predetermined time intervals.
  • the input data generation unit 21 includes the body movement synchro value for each predetermined time in the input data 11.
  • the number of nods by multiple speakers is the total number of nods of each speaker at a predetermined time.
  • the input data generation unit 21 totals the number of nods of each speaker at a predetermined time based on the data acquired from the body motion sensor 42, and calculates the number of nods by a plurality of speakers.
  • the input data generation unit 21 includes the number of nods for each predetermined time in the input data 11.
  • the amount of laughter by multiple speakers is the total laughter time of each speaker in a predetermined time.
  • the input data generation unit 21 calculates the amount of laughter by a plurality of speakers by totaling the laughter time for each predetermined time based on the voice data acquired from the microphone 41.
  • the input data generation unit 21 includes the amount of laughter at predetermined time intervals in the input data 11.
  • Data other than the above may be included as data for identifying the conversation and the state of the speaker.
  • the input data generation unit 21 may include the sigh amount, the heart rate for a predetermined time acquired from the biological sensor, the body temperature, the blood pressure, the data acquired from the heart rate fluctuation sensor 43, and the like in the input data 11.
  • the heart rate is the heart rate of the speaker at a predetermined time.
  • the heart rate is obtained, for example, from a sensor that detects the heart rate.
  • Body temperature and blood pressure are obtained from biosensors installed in the speaker.
  • the sigh amount can be calculated based on the voice data acquired from the microphone 41, similarly to the laughter amount described above.
  • the data acquired from the heart rate fluctuation sensor 43 is the data of LF / HF, which is an amplification factor of the parasympathetic nerve, and LF, which is an amplification factor of the sympathetic nerve, for each hour.
  • the graph shown in FIG. 4 is data of a heart rate fluctuation sensor 43 provided for one speaker.
  • the input data generation unit 21 may include the data of the heart rate fluctuation sensor 43 provided for each speaker in the input data 11.
  • the data that identifies the state of the spatial environment in which the speaker exists is a characteristic value of the spatial environment.
  • the characteristic values of the spatial environment are the temperature and humidity of the spatial environment, the color or brightness of the spatial lighting, the characteristic value of the sound of the spatial environment, the characteristic value of the fragrance, the characteristic value of the image projected in the spatial environment, and the wind direction of the spatial environment. And the air volume, etc.
  • Each feature value of the spatial environment is measured at predetermined time intervals and is included in the input data 11.
  • the input data generation unit 21 may generate data for specifying the state of the spatial environment from the data acquired from the device for controlling the spatial environment and include it in the input data 11.
  • the characteristic value of the sound in the spatial environment is the characteristic value of the music flowing in the spatial environment, and specifically, the mel frequency for each hour.
  • the input data generation unit 21 converts the music flowing in the space into a mel frequency every hour and includes it in the input data 11. Further, the input data generation unit 21 may specify the music flowing in the space based on the data acquired from the microphone 41, convert it into data such as volume and tempo, and include it in the input data 11.
  • the music flowing in the space may be music acquired from the microphone 41, or may be music in which the learning device 1 instructs the speaker to output the music.
  • the sound of the spatial environment includes, as described above, environmental sounds such as the sound of flowing water, sounds generated sporadically such as sound effects, sounds output by the speaker 51, sounds generated in the vicinity of the space, and the like. It may contain various sounds that can be perceived in the spatial environment.
  • the characteristic value of the spatial environment may be an instruction value for the learning device 1 to control each device.
  • the color or brightness of the spatial illumination which is a feature value of the spatial environment, may be an indicated value of the color or brightness input by the learning device 1 to the illumination controller.
  • the characteristic value of the music flowing in the spatial environment may be specified from the music input by the learning device 1 to the speaker 51.
  • the characteristic value of the scent may be specified from the scent identifier input by the learning device 1 to the aroma shooter 52.
  • the feature value of the image may be specified from the identifier of the image input by the learning device 1 to the projector 54.
  • the input data 11 generated by the input data generation unit 21 is referred to by the model learning unit 22.
  • the model learning unit 22 learns the spatial environment model from the input data 11.
  • the spatial environment model shows the correlation between conversation satisfaction, conversation content feature values, and spatial environment feature values.
  • the spatial environment model shows how the satisfaction level of a conversation changes as the situation of the space changes or the content of the conversation changes.
  • the model learning unit 22 As the learning method in the model learning unit 22, any algorithm such as machine learning or deep learning is used. When deep learning is used, the current situation is input to the first layer, and the output layer outputs a prediction of the future situation. As the intermediate layer, for example, 14 or more layers may be used. In order to avoid overfitting, the model learning unit 22 may use a dropout. The model learning unit 22 stores the spatial environment model data 12 that identifies the spatial environment model obtained by learning in the storage device 10.
  • model learning process by the model learning unit 22 will be described with reference to FIG.
  • step S11 the model learning unit 22 refers to the input data 11 and calculates the satisfaction level of the conversation at that time from the amount of utterances at each predetermined time.
  • step S12 the model learning unit 22 learns the correlation between the satisfaction level of the conversation calculated in step S11, the feature value of the conversation content at that time, and the feature value of the spatial environment, and generates a spatial environment model.
  • the satisfaction level of conversation is calculated based on the amount of utterance.
  • "conversational air" is expressed as an index of conversation satisfaction based on the amount of utterance. For example, when there is a large amount of utterance in the field where a discussion is held, it is considered that opinions are actively exchanged, so it is decided that the satisfaction level of the conversation is high. In addition, when the amount of conversation is small, it is considered that sufficient exchange of opinions has not been made, so it is determined that the satisfaction level of the conversation is low. If the amount of conversation is too large, it is considered that each speaker speaks without listening to the opinions of others, so that the satisfaction level of the conversation is determined to be low.
  • the method of determining the satisfaction level of the conversation shown here is an example, and is not limited to this.
  • the model learning unit 22 may calculate the satisfaction level of the conversation in consideration of not only the total amount of utterances of each speaker but also the balance of the amount of utterances of each speaker.
  • the method of calculating the satisfaction level of conversation may be appropriately changed according to the characteristics of the space. For example, in a conference room where discussions are held, it is considered that the greater the amount of utterance, the higher the satisfaction level of the conversation. On the other hand, in hospital waiting rooms, hotel lounges, etc., it is considered that conversation satisfaction is higher when the amount of utterance is smaller.
  • a function showing the correlation between the utterance amount and the conversation satisfaction level may be prepared for each space, and the model learning unit 22 may calculate the conversation satisfaction level from the utterance amount by referring to the function according to the space.
  • the model learning unit 22 may further use the body movement synchronization value, the number of nods, the amount of laughter, the fluctuation of the heartbeat, the amount of sigh, etc. as the satisfaction level of the conversation.
  • the body movement synchronization value when the body movement synchronization value is high, it is considered that each speaker performs the same movement and empathy is embodied, so that the satisfaction level of the conversation is calculated to be high.
  • the body movement synchro value when the body movement synchro value is low, it is considered that each speaker performs the same movement and empathy is embodied, so that the satisfaction level of the conversation is calculated to be high.
  • the satisfaction level of the conversation is calculated to be low. It is calculated so that when the stress is low, the satisfaction level of the conversation is high.
  • the satisfaction level of the conversation may be calculated as appropriate, for example, the satisfaction level of the conversation may be calculated based on a predetermined function.
  • the model learning unit 22 may calculate the satisfaction level of the conversation by referring to the function according to the space, as in the case of calculating the satisfaction level of the conversation based on the amount of utterance.
  • the spatial environment model generated by the model learning unit 22 is referred to by the spatial environment control unit 25.
  • the spatial environment control unit 25 refers to the spatial environment model and controls the space so that the “air of conversation”, specifically, the satisfaction level of the conversation is high.
  • the current state data acquisition unit 23 and the current state analysis unit 24 grasp the current state in the controlled target space.
  • data other than the amount of utterance may be treated as arbitrary data.
  • Arbitrary data includes, for example, body movement synchronization value, number of nods, amount of laughter, heartbeat fluctuation, temperature and humidity of spatial environment, color or brightness of spatial lighting, characteristic value of music flowing in spatial environment, characteristic value of fragrance, space. These are the feature values of the image projected in the environment.
  • the model learning unit 22 generates a spatial environment model in consideration of the fact that these arbitrary data cannot be acquired and cannot be controlled when referring to the spatial environment model. For example, in consideration of the space where the temperature / humidity meter is not installed or the space where the temperature / humidity cannot be controlled, a dummy variable indicating whether or not the temperature / humidity can be applied may be set in the input data 11.
  • the current status data acquisition unit 23 acquires the current status data in the space to be controlled by the spatial environment control unit 25.
  • the current data acquisition unit 23 generates the current data 13 and stores the current data 13 in the same manner as the input data generation unit 21 acquires data from each device connected to the learning device 1 and generates the input data 11. Store in 10.
  • the current state analysis unit 24 refers to the current state data 13 and calculates the current satisfaction level from the feature value of the current conversation content and the amount of utterance in the current conversation by the speaker.
  • the current state analysis unit 24 calculates the feature value of the conversation content and the utterance amount of the conversation from the voice data acquired from the microphone 41 provided in the control target space.
  • the current state analysis unit 24 further calculates the current satisfaction level from the calculated utterance amount.
  • the current state analysis unit 24 calculates the feature value of the conversation content and the satisfaction level of the conversation in the same manner as the processing in the input data generation unit 21. At this time, the current state analysis unit 24 may further use the body movement synchronization value, the number of nods, the amount of laughter, the heartbeat fluctuation, and the like as the satisfaction level of the conversation.
  • the spatial environment control unit 25 calculates the characteristic value of the spatial environment that raises the satisfaction level higher than the current satisfaction level from the characteristic value of the current conversation content and the spatial environment model.
  • the spatial environment control unit 25 controls the spatial environment based on the calculated feature values.
  • the spatial environment model shows how the satisfaction level of conversation changes as the situation of space and the content of conversation change. Therefore, the spatial environment control unit 25 refers to the spatial environment model and identifies the spatial environment in which the satisfaction level of the conversation is higher than the present from the current conversation content.
  • the spatial environment control process by the spatial environment control unit 25 will be described with reference to FIG.
  • step S21 the spatial environment control unit 25 acquires the current satisfaction level calculated by the current state analysis unit 24.
  • step S22 the spatial environment control unit 25 acquires the feature value of the current conversation content calculated by the current state analysis unit 24.
  • step S23 the spatial environment control unit 25 refers to the spatial environment model and calculates a control value of the spatial environment so that the satisfaction level is higher than the current satisfaction level acquired in step S21.
  • step S24 the spatial environment control unit 25 controls the device for controlling the spatial environment according to the control value calculated in step S23.
  • the spatial environment control unit 25 inputs the feature value of the current conversation content calculated by the current state analysis unit 24 into the spatial environment model so that the satisfaction level is higher than the current satisfaction level calculated by the current state analysis unit 24.
  • the characteristic value of the spatial environment is calculated.
  • the target satisfaction level may be set as long as the satisfaction level is higher than the current satisfaction level.
  • the target satisfaction level may be indicated by a fixed value.
  • the target satisfaction level may be expressed as a ratio to the current satisfaction level, such as 150% with respect to the current satisfaction level. Satisfaction is calculated from the amount of utterance, body movement synchronization value, number of nods, amount of laughter, heart rate fluctuation, and the like.
  • the spatial environment control unit 25 controls the device for controlling the spatial environment based on the calculated control value of the spatial environment.
  • the spatial environment control unit 25 calculates the color or brightness of the spatial lighting, the characteristic value of the music played in the spatial environment, and the like as conditions for increasing the current satisfaction level.
  • the spatial environment control unit 25 inputs the calculated color or brightness of the spatial illumination to the illumination controller 53. This allows the space to be changed to a color or brightness that makes the conversation more satisfying.
  • the spatial environment control unit 25 inputs music data corresponding to the characteristic values of the music flowing in the spatial environment to the speaker 51. As a result, music that enhances the satisfaction of conversation can be played in the space.
  • the spatial environment control unit 25 may calculate the scent of the space, the image displayed by the projector 54, and the like as conditions for increasing the current satisfaction level.
  • the spatial environment control unit 25 inputs the calculated scent of the space to the aroma shooter 52. This makes it possible to change the space to a scent that enhances the satisfaction of conversation.
  • the spatial environment control unit 25 inputs the calculated image to the projector 54. As a result, it is possible to display an image in the space where the satisfaction level of the conversation is high.
  • the learning device 1 it is possible to control the spatial environment in consideration of the air of conversation.
  • the learning device 1 can change the BGM, temperature, humidity, scent, lighting, etc. of the space in which the conversation takes place, and can provide a space in which the satisfaction of the conversation is high.
  • the input data 11 is data that associates the amount of speech, the characteristic value of the conversation content, the characteristic value of the spatial environment, and the like at a predetermined time.
  • the spatial environment model is obtained by learning the input data 11, and shows the correlation between the satisfaction level, the characteristic value of the conversation content, and the characteristic value of the spatial environment.
  • the variations listed here are examples and are not limited to these.
  • the input data 11 may further include the emotions of the speaker, and the satisfaction level of the spatial environment model may further include the emotions of the speaker.
  • the emotions of the speaker may be divided into positive emotions such as laughing and negative emotions such as anger. In the case of positive emotions, it is calculated so that the satisfaction level is high, and in the case of negative emotions, it is calculated so that the satisfaction level is low.
  • an annotation model showing the correlation between the emotion and the conversation content which is generated by using the emotion attached to the conversation as teacher data
  • Annotation model is generated before learning the spatial environment model.
  • the teacher data is generated by attaching the feelings of the speaker to the conversation contents by the speaker himself or the worker in advance.
  • an annotation model showing the correlation between emotions and conversation content is generated.
  • the conversation content may be converted into conversation features by the adjective scale shown in FIG.
  • the annotation model may show a correlation not only with the conversation content but also with other indexes such as the spoken voice of the speaker by learning.
  • the input data generation unit 21 acquires the conversation content of the speaker, it can query the annotation model and generate the emotion of the speaker by computer processing. Further, when spatially controlling the space with reference to the spatial control model, the current state analysis unit 24 can acquire the feelings of the speaker from the content of the conversation currently in progress and calculate the satisfaction level.
  • the input data 11 may further include the feature amount of the spoken voice of the speaker, and the satisfaction level of the spatial environment model may further include the feature amount of the spoken voice.
  • the feature amount of the spoken voice is the tone of the voice of the speaker, specifically, the mel frequency.
  • the conversational atmosphere of the speaker can be indexed by the feature amount of the spoken voice.
  • the input data 11 may further include the heartbeat of the speaker, and the satisfaction of the spatial environment model may further include the heartbeat.
  • the state of the speaker such as whether the person is in a relaxed state or a stressed state. For example, when the heart rate falls within a predetermined range of low normal values, it indicates a relaxed state, and when the heart rate is high and exceeds the predetermined range, it indicates a stress state.
  • the satisfaction level is calculated to be high, and when the stress state is indicated, the satisfaction level is calculated to be low.
  • the input data 11 may further include the heartbeat fluctuation of the speaker, and the satisfaction level of the spatial environment model may further include the heartbeat fluctuation. From the fluctuation of the heartbeat, it is possible to grasp the state of the speaker such as whether the person is in a relaxed state or a stressed state. When the speaker is in a relaxed state, the satisfaction level is calculated to be high, and when the speaker is in a stress state, the satisfaction level is calculated to be low.
  • the input data 11 may further include the image data of the speaker, and the satisfaction level of the spatial environment model may further include the image data of the speaker.
  • the image data is acquired from the video data of the speaker taken by the camera.
  • the facial expression of the speaker is determined from the image data of the speaker, and in the case of a positive facial expression, the satisfaction level is calculated to be high, and in the case of a negative facial expression, the satisfaction level is calculated to be low. For example, when the speaker has a laughing facial expression, the satisfaction level is calculated to be high. If the speaker has an angry facial expression, the satisfaction level is calculated to be low.
  • the model learning unit 22 may calculate the satisfaction level in consideration of the stress level of the speaker and generate a spatial environment model. Specifically, when the stress of the speaker is high, the satisfaction level is calculated to be low, and when the stress of the speaker is low, the satisfaction level is calculated to be high.
  • the stress level of the speaker is grasped from, for example, heartbeat, heartbeat fluctuation, image data of the speaker, and the like.
  • the spatial control model shows the correlation between the satisfaction level including the amount of speech, the stress level of the speaker, the characteristic value of the conversation content, and the characteristic value of the spatial environment.
  • the learning device 1 may display data input / output when learning the spatial environment model and when controlling the space using the learned spatial environment model on a display or the like.
  • the input / output data is, for example, the satisfaction level such as the measured value of each measuring device input to the learning device 1 or the amount of speech in the conversation of the generated input data 11, the stress level, the feature amount of the conversation content, and the spatial environment. It is the data of each item such as the feature amount of.
  • the learning device 1 may display these data transitions in a graph or the like.
  • the learning program and space control program include HDD (Hard Disk Drive), SSD (Solid State Drive), USB (Universal Serial Bus) memory, CD (Compact Disc), DVD (Digital Versatile Disc). ) Can be stored on a computer-readable recording medium such as), or can be distributed via a network.
  • HDD Hard Disk Drive
  • SSD Solid State Drive
  • USB Universal Serial Bus
  • CD Compact Disc
  • DVD Digital Versatile Disc
  • the learning device described in the embodiment of the present invention may be configured on one hardware as shown in FIG. 1, or may be configured on a plurality of hardware according to its function and the number of processes. You may. Further, the learning device according to the embodiment of the present invention may be integrally configured with home appliances such as speakers and lighting. Further, it may be realized on a computer that executes another processing program.
  • the learning device may create a spatial environment model, and the spatial control device (not shown) may control the spatial environment by using the spatial environment model generated by the learning device.
  • the space control device realizes each function of the space control device by executing a space control program by a general computer.
  • the space control device according to the embodiment of the present invention may be configured on one hardware as in the above-mentioned learning device, or may be configured on a plurality of hardware according to its function and the number of processes. You may. Further, the space control device according to the embodiment of the present invention may be integrally configured with home appliances such as speakers and lighting.

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Physics & Mathematics (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Economics (AREA)
  • Data Mining & Analysis (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

学習装置1は、所定時間における複数の会話者による会話における発話量、会話内容の特徴値および会話者が存在する空間環境の特徴値を関連づけた入力データ11を生成する入力データ生成部21と、発話量を含む満足度、会話内容の特徴値および空間環境の特徴値の相関を示す空間環境モデルを学習するモデル学習部22を備える。

Description

学習装置、空間制御装置、学習プログラムおよび空間制御プログラム
 本発明は、学習装置、空間制御装置、学習プログラムおよび空間制御プログラムに関する。
 人は、会話の空気(状況、雰囲気等)を意識し、会話の空気を改善または悪化した経験から、会話の空気と、空間環境との関係を学習する場合がある。これにより人は、人と会話をする際、空間環境を制御することが可能になる。人が行う空間環境の制御は、具体的には、カーテンを開け閉め、照明の明るさの調整などの空間環境の明るさの調整、空間環境に流れる音楽の選択などである。
 色と単語の相関の度合いを対応づけることにより、単語の特徴値を算出する方法がある(例えば特許文献1)。特許文献1は、色と所定の単語との相関の度合いを表す相関強度を対応付けた相関強度テーブルを開示する。
特許第5344756号公報
 人が会話の空気を意識して空間環境を変えることは日常的に行われるが、コンピュータにより、会話の空気を読んで、空間環境を制御する技術は見当たらない。
 従って本発明の目的は、会話の空気を考慮して、空間環境の制御を可能にする学習装置、空間制御装置、学習プログラムおよび空間制御プログラムを提供することである。
 上記課題を解決するために、本発明の第1の特徴は、所定時間における複数の会話者による会話における発話量、会話内容の特徴値および会話者が存在する空間環境の特徴値を関連づけた入力データを生成する入力データ生成部と、発話量を含む満足度、会話内容の特徴値および空間環境の特徴値の相関を示す空間環境モデルを学習するモデル学習部を備える学習装置に関する。
 入力データはさらに、複数の会話者による動作の同期を指標化した体動シンクロ値を含み、満足度はさらに、体動シンクロ値を含んでも良い。
 入力データはさらに、複数の会話者による頷き数を含み、満足度はさらに、頷き数を含んでも良い。
 入力データはさらに、複数の会話者による笑い量を含み、満足度はさらに、笑い量を含んでも良い。
 空間環境の特徴値は、空間照明の色または明るさであっても良い。
 空間環境の特徴値は、空間環境の音の特徴値であっても良い。
 本発明の第2の特徴は、所定時間における複数の会話者による会話における発話量を含む満足度、会話内容の特徴値および会話者が存在する空間環境の特徴値の相関を示す空間環境モデルを特定する空間環境モデルデータを記憶する記憶装置と、現在の会話内容の特徴値と、会話者による現在の会話における発話量から現在の満足度を算出する現状解析部と、現在の会話内容の特徴値と、空間環境モデルから、現在の満足度よりも満足度を上げる空間環境の特徴値を算出し、算出された特徴値に基づいて空間環境を制御する空間環境制御部を備える空間制御装置に関する。
 本発明の第3の特徴は、コンピュータを、所定時間における複数の会話者による会話における発話量、会話内容の特徴値および会話者が存在する空間環境の特徴値を関連づけた入力データを生成する入力データ生成部と、発話量を含む満足度、会話内容の特徴値および空間環境の特徴値の相関を示す空間環境モデルを学習するモデル学習部として機能させる学習プログラムに関する。
 本発明の第4の特徴は、所定時間における複数の会話者による会話における発話量を含む満足度、会話内容の特徴値および会話者が存在する空間環境の特徴値の相関を示す空間環境モデルを特定する空間環境モデルデータを記憶するコンピュータを、現在の会話内容の特徴値と、会話者による現在の会話における発話量から現在の満足度を算出する現状解析部と、現在の会話内容の特徴値と、空間環境モデルから、現在の満足度よりも満足度を上げる空間環境の特徴値を算出し、算出された特徴値に基づいて空間環境を制御する空間環境制御部として機能させる空間制御プログラムに関する。
 本発明によれば、会話の空気を考慮して、空間環境の制御を可能にする学習装置、空間制御装置、学習プログラムおよび空間制御プログラムを提供することができる。
本発明の実施の形態に係る学習装置のハードウエアおよび機能ブロックを説明する図である。 会話の特徴量の一例を説明する図である。 体動の一例を説明する図である。 心拍ゆらぎの一例を説明する図である。 モデル学習部によるモデル学習処理を説明するフローチャートである。 空間環境制御部による空間環境制御処理を説明するフローチャートである。
 次に、図面を参照して、本発明の実施の形態を説明する。以下の図面の記載において、同一または類似の部分には同一または類似の符号を付している。
 本発明の実施の形態において、「空間」は、会話が行われている場所のことを意味する。空間は、例えば、オフィス、教育現場、住宅のほか、ホテル、レストラン、百貨店などの商業施設、病院、介護施設など、話す人が集う様々な場所である。
 「会話者」は、発話する人を意味する。会話者は、ある特定のタイミングで話している人のほか、話を聞いている人を含む。また会話者は、ディスカッションに参加する人など、1つのテーマについて話し合う人でも良いし、ホテルのラウンジなどにおいて、偶然に居合わせた人でも良い。
 (学習装置)
 図1に示す本発明の実施の形態に係る学習装置1は、複数人による会話と、その会話が行われる空間環境の関係を学習して、空間環境モデルを生成する。さらに学習装置1は、生成した空間環境モデルを参照して、会話における満足度が良くなるように、空間環境を制御する。
 本発明の実施の形態において学習装置1は、図1に示すように種々の装置に、有線または無線で接続する。なお学習装置1に接続する装置として図1に示した装置は、一例である。図1に示す装置の一部の装置のみが、学習装置1に接続しても良い。図1に示す装置以外の装置が、学習装置1に接続しても良い。また他の実施例において、図1において学習装置1に接続する各装置は、学習装置1と接続せずに、USB(Universal Serial Bus)メモリなどの記憶媒体を介して、学習装置1とデータを入出力しても良い。
 学習装置1に接続する装置は、会話と、会話者の状態を特定するための装置、空間環境を制御するための装置に区分されても良い。
 会話と、会話者の状態を特定するための装置は、空間の現状を把握するための装置である。会話と、会話者の状態を特定するための装置は、例えば図1に示すように、マイク41、体動センサ42、心拍ゆらぎセンサ43等である。各装置が取得したデータは、学習装置1に入力され、会話と、会話者の状態を特定するために用いられる。図1には示さないが、会話と、会話者の状態を特定するための装置として、温度湿度計、照度計など、会話者が居る空間環境を特定するための装置が含まれても良い。
 空間環境を制御するための装置は、空間環境を変更可能な装置である。空間環境を制御するための装置は、例えば図1に示すように、スピーカー51、アロマシューター52、照明コントローラ53、プロジェクター54である。学習装置1は、空間環境モデルから会話の満足度を向上する空間環境を決定し、決定した空間環境に基づいて各装置を制御する。図1には示さないが、会話と、空間環境を制御するための装置として、空調機器などが含まれても良い。
 マイク41は、空間における会話の音声データを取得する。本発明の実施の形態において1つのマイク41で、各会話者の発話を取得する。他の例として、各会話者に1つのマイクが設けられ、各マイクが、各会話者の発話を個別に取得しても良い。
 体動センサ42は、会話者の体動を検知する。体動センサ42は、会話者毎に設けられる。体動センサ42は、会話者の会話中の動きを検知する。体動センサ42は、例えば、会話者の襟元に設けられる動きセンサである。
 心拍ゆらぎセンサ43は、会話者のストレスの指標として、心拍ゆらぎを検知するセンサである。心拍は、呼吸と同期した脳幹の周期的活動と、血圧の変動と同期した脳幹の周期的活動と情動などの影響を受けて、ゆらぎが発生する。呼吸と同期した脳幹の周期的活動は、0.04~0.15Hz、すなわち約10秒周期に代表されるLF(Low Frequency)成分の周期的活動である。血圧の変動と同期した脳幹の周期的活動は、0.15~0.4Hz、すなわち約4秒周期に代表されるHF(High Frequency)周期的活動である。交感神経はLFのパワーを大きくする増幅要因であり、副交感神経はLFとHF双方のパワーを大きくする増幅要因である。従って、心拍ゆらぎを検知することにより、交感神経と副交感神経の状態を把握することが可能になる。
 心拍ゆらぎセンサ43は、各会話者に設けられ、各会話者の心拍ゆらぎの状況を、学習装置1に入力する。他の実施例として、心拍ゆらぎセンサ43による測定結果が、学習装置1に入力され、学習装置1において心拍ゆらぎが検知されても良い。
 スピーカー51は、空間に音を出力する。スピーカー51は、学習装置1から指定された音を出力する。音は、音楽でも良いし、水が流れる音などの環境音でも良い。また音は、音楽または環境音のように常時出力されるものに限らず、通知音等の突発的に出力されるものでも良い。
 アロマシューター52は、空間に香りを出力する装置である。アロマシューター52は、学習装置1に指定された香りを出力する。
 照明コントローラ53は、空間に設けられる照明器具の明るさおよび色を制御する。照明コントローラ53は、学習装置1から指定された明るさおよび色になるように、照明器具の明るさおよび色を制御する。他の実施例として、照明コントローラ53は、空間に設けられる照明器具の明るさおよび色のうちの一方を制御しても良い。
 プロジェクター54は、空間の壁等に画像を表示する。プロジェクター54は、学習装置1から指定された画像を表示する。プロジェクター54は、プロジェクションマッピング技術を用いて、画像を表示しても良い。
 図1を参照して、本発明の実施の形態に係る学習装置1を説明する。学習装置1は、記憶装置10、処理装置20、入出力インタフェース30を備える一般的なコンピュータである。一般的なコンピュータが学習プログラムを実行することにより、図1に示す機能を実現する。
 記憶装置10は、ROM(Read Only Memory)、RAM(Random access memory)、ハードディスク等であって、処理装置20が処理を実行するための入力データ、出力データおよび中間データなどの各種データを記憶する。処理装置20は、CPU(Central Processing Unit)であって、記憶装置10に記憶されたデータを読み書きしたり、入出力インタフェース30とデータを入出力したりして、学習装置1における処理を実行する。
 入出力インタフェース30は、マウス、キーボード等の入力装置(図示せず)から入力されたデータを処理装置20に入力し、処理装置20から出力されたデータをプリンタ、表示装置等の出力装置(図示せず)に出力する。
 本発明の実施の形態において入出力インタフェース30は、さらに、上述したように、会話と、会話者の状態を特定するための装置、空間環境を制御するための装置等に接続する。会話と、会話者の状態を特定するための装置および空間環境を制御するための装置は、具体的には、マイク41、体動センサ42、心拍ゆらぎセンサ43、スピーカー51、アロマシューター52、照明コントローラ53、プロジェクター54等の各装置に接続するインタフェースである。会話と、会話者の状態を特定するための装置および空間環境を制御するための装置として、温度湿度計、照度計、空調機器など、図1に示さない装置を含んでも良い。
 記憶装置10は、学習プログラムを記憶するとともに、入力データ11、空間環境モデルデータ12、現状データ13、現状満足度データ14および空間環境特徴値データ15を記憶する。
 入力データ11は、時間よって変化する会話者の会話の状況と、空間環境を対応づけたデータである。入力データ11は、例えば所定時間における複数の会話者による会話における発話量、会話内容の特徴値および会話者が存在する空間環境の特徴値を関連づける。入力データ11は、入力データ生成部21により記憶される。
 空間環境モデルデータ12は、モデル学習部22によって学習された空間環境モデルを特定するデータである。空間環境モデルデータ12は、モデル学習部22により記憶され、空間環境制御部25により参照される。空間環境モデルは、発話量を含む満足度、会話内容の特徴値および空間環境の特徴値の相関を示す。空間環境モデルは、さらに他の要素との相関を示しても良い。空間環境モデルデータは、空間環境モデルを特定できればよく、学習手法等に応じたデータ形式を有する。
 現状データ13は、空間環境モデルを参照して空間が制御される前の、空間環境の特徴値のデータである。現状データ13は、現状データ取得部23により記憶され、空間環境制御部25により参照される。
 現状満足度データ14は、空間環境モデルを参照して空間が制御される前の、会話者による会話の満足度に関するデータである。現状満足度データ14は、現状解析部24によって記憶され、空間環境制御部25により参照される。
 空間環境特徴値データ15は、空間環境制御部25によって算出された空間環境の特徴値のデータである。空間環境特徴値データ15は、空間環境制御部25によって記憶される。空間環境特徴値データ15は、図1に示すスピーカー等の空間を変更するための装置に入力される。
 処理装置20は、入力データ生成部21、モデル学習部22、現状データ取得部23、現状解析部24、空間環境制御部25を備える。
 入力データ生成部21は、入出力インタフェース30を介して、学習装置1に接続する各装置からデータを取得し、入力データ11を生成して、記憶装置10に記憶する。
 入力データ生成部21は、会話と会話者の状態を特定するためのデータと、会話者が存在する空間環境の状態を特定するデータから、入力データ11を生成する。
 入力データ生成部21は、空間に設けられた装置からデータを逐次取得する。入力データ生成部21は、各装置から取得したデータを所定時間毎に集計して、所定時間毎の会話と会話者の状態を特定するためのデータと、会話者が存在する空間環境の状態を特定するデータを算出する。所定時間は、入力データ11に含まれるデータ種別毎に定められても良い。例えば、発話量は30秒毎に集計され、会話内容の特徴値は1分ごとに集計されても良い。入力データ生成部21は、所定時間毎に集計されたデータを、モデル学習部22に入力可能なデータに変換して、入力データ11を生成する。
 会話と会話者の状態を特定するためのデータと、会話者が存在する空間環境の状態を特定するデータを、それぞれ説明する。
 会話と会話者の状態を特定するためのデータは、所定時間における複数の会話者による会話における発話量および会話内容の特徴値である。会話と会話者の状態を特定するためのデータはさらに、複数の会話者の体動シンクロ値、複数の会話者による頷き数、複数の会話者による笑い量を含んでも良い。
 発話量は、各会話者による会話の量である。発話量は、例えばマイク41によって測定された音声の量である。音声の量は、例えば発話時間の合計である。入力データ生成部21は、マイク41から取得した音声データの発話部分を特定し、所定時間毎に、各会話者の発話時間の合計を、発話量として算出する。入力データ生成部21は、所定時間毎の発話量を、入力データ11に含める。
 会話内容の特徴値は、マイク41によって測定された音声から音声認識により特定された会話の内容に基づいて算出される。入力データ生成部21は、マイク41から取得した所定時間の音声データから、音声認識により各会話者による会話内容を特定し、所定時間毎の会話内容の特徴値を算出する。本発明の実施の形態において会話内容の特徴値は、会話に用いられる単語の特徴値から算出される。単語の特徴値は、例えば、例えば特許文献1に示すように、単語と色の相関強度から特定されても良い。あるいは、単語の特徴値は、図2に示す形容詞対を指標としたベクトルで表現されても良い。このベクトルは、例えば特許5678836号公報に記載されるように、単語の音韻特性と評価尺度の関係から算出されても良い。なお、本発明の実施の形態において、会話に用いられる単語から会話内容の特徴値を算出する場合を説明したが、これに限られない。例えば、会話の意味内容を特定し、その意味内容から会話内容の特徴量を算出しても良い。会話の入力データ生成部21は、所定時間毎の会話内容の特徴値を、入力データ11に含める。
 複数の会話者の体動シンクロ値は、所定時間毎の複数の会話者による動作の同期を指標化した値である。体動シンクロ値は、各会話者の体動が同期する場合は高くなり、同期しない場合は低くなる。入力データ生成部21は、体動センサ42から、各会話者の体動を取得し、体動シンクロ値などの指標を算出する。体動センサ42は、例えば図3(a)ないし(c)に示すように、各会話者の体動の推移を出力する。入力データ生成部21は、図3に示す各参加者の体動の推移を、所定時間毎に比較する。入力データ生成部21は、所定時間毎の各会話者の体動の同期の程度を指標化して、体動シンクロ値を算出する。入力データ生成部21は、所定時間毎の体動シンクロ値を、入力データ11に含める。
 複数の会話者による頷き数は、所定時間における各会話者の頷き数の合計である。入力データ生成部21は、体動センサ42から取得したデータに基づいて、所定時間毎の各会話者の頷き数を合計して、複数の会話者による頷き数を算出する。入力データ生成部21は、所定時間毎の頷き数を、入力データ11に含める。
 複数の会話者による笑い量は、所定時間における各会話者の笑いの時間の合計である。入力データ生成部21は、マイク41から取得した音声データに基づいて、所定時間毎の笑い時間を合計して、複数の会話者による笑い量を算出する。入力データ生成部21は、所定時間毎の笑い量を、入力データ11に含める。
 会話と会話者の状態を特定するためのデータとして、上記以外のデータが含まれても良い。例えば、入力データ生成部21は、入力データ11に、溜め息量、生体センサから取得した所定時間の心拍数、体温、血圧、および心拍ゆらぎセンサ43から取得したデータ等を含めても良い。
 心拍数は、所定時間における会話者の心拍数である。心拍数は、例えば心拍を検知するセンサから取得される。体温、血圧は、会話者に設置した生体センサから取得される。また、溜め息量は、上述の笑い量と同様に、マイク41より取得した音声データに基づいて算出することができる。心拍ゆらぎセンサ43から取得したデータは、図4に示すように、時間毎の副交感神経の増幅要因となるLF/HFと、交換神経の増幅要因となるLFのデータである。図4に示すグラフは、一人の会話者に設けられた心拍ゆらぎセンサ43のデータである。入力データ生成部21は、各会話者に設けられた心拍ゆらぎセンサ43のデータを、入力データ11に含ませても良い。
 会話者が存在する空間環境の状態を特定するデータは、空間環境の特徴値である。空間環境の特徴値は、空間環境の温度、湿度、空間照明の色または明るさ、空間環境の音の特徴値、香りの特徴値、空間環境で投影される画像の特徴値、空間環境の風向きおよび風量等である。空間環境の各特徴値は、所定時間毎に計測され、入力データ11に含まれる。
 入力データ生成部21は、空間環境を制御するための装置から取得したデータから空間環境の状態を特定するデータを生成して、入力データ11に含ませても良い。例えば、空間環境の音の特徴値は、空間環境で流れる音楽の特徴値であって、具体的には時間毎のメル周波数である。入力データ生成部21は、空間に流れる音楽を、時間毎にメル周波数に変換して、入力データ11に含ませる。また入力データ生成部21は、マイク41から取得したデータに基づいて空間に流れる音楽を特定し、音量、テンポ等のデータに変換して、入力データ11に含ませても良い。なお空間に流れる音楽は、マイク41から取得が音楽でも良いし、学習装置1がスピーカーに出力を指示した音楽であっても良い。
 また空間環境の音は、上述のとおり、音楽のほか、水が流れる音などの環境音、効果音などの単発的に発生する音、スピーカー51で出力する音、空間近傍で発生する音など、空間環境で感知できる様々な音を含んでも良い。
 空間環境の特徴値は、学習装置1が各装置を制御するための指示値であっても良い。例えば空間環境の特徴値の空間照明の色または明るさは、学習装置1が照明コントローラに入力した色または明るさの指示値であっても良い。空間環境で流れる音楽の特徴値は、学習装置1がスピーカー51に入力した音楽から特定されても良い。香りの特徴値は、学習装置1が、アロマシューター52に入力した香りの識別子から特定されても良い。画像の特徴値は、学習装置1がプロジェクター54に入力した画像の識別子から特定されても良い。
 入力データ生成部21が生成した入力データ11は、モデル学習部22によって参照される。
 モデル学習部22は、入力データ11から空間環境モデルを学習する。空間環境モデルは、会話の満足度、会話内容の特徴値および空間環境の特徴値の相関を示す。空間環境モデルは、空間の状況の変更または会話内容の変更に伴って、会話の満足度がどのように変わるかを示す。
 モデル学習部22における学習手法は、機械学習、ディープラーニング等の任意のアルゴリズムが用いられる。ディープラーニングを用いる場合、現在の状況を第1層に入力し、出力層が未来の状況の予想を出力する。中間層として、例えば14層以上の層が用いられても良い。過学習を避けるために、モデル学習部22は、ドロップアウトを用いても良い。モデル学習部22は、学習により得られた空間環境モデルを特定する空間環境モデルデータ12を、記憶装置10に記憶する。
 図5を参照してモデル学習部22によるモデル学習処理を説明する。
 まずステップS11においてモデル学習部22は、入力データ11を参照して、所定時間毎の発話量から、その時間における会話の満足度を算出する。
 ステップS12においてモデル学習部22は、ステップS11で算出した会話の満足度、その時の会話内容の特徴値および空間環境の特徴値の相関を学習して、空間環境モデルを生成する。
 本発明の実施の形態において、会話の満足度は、発話量に基づいて算出される。本発明の実施の形態において、「会話の空気」を、発話量による会話の満足度の指標として表現する。例えばディスカッションが行われる現場において発話量が多い場合、活発に意見交換がされていると考えられるので会話の満足度が高くなるように決定される。また、会話量が少ない場合、充分な意見交換がされていないと考えられるので、会話の満足度が低くなるように決定される。また会話の量が多すぎる場合、会話者のそれぞれが他者の意見を聞かずに話していると考えられるので、会話の満足度が低くなるように決定される。
 ここで示す会話の満足度の決定方法は一例であって、これに限るものではない。例えば、モデル学習部22は、各会話者の発話の合計量のみならず、各会話者の発話量のバランスも考慮して、会話の満足度を算出しても良い。
 また会話の満足度を算出する手法は、空間の特性に応じて適宜変更されても良い。例えば、ディスカッションが行われる会議室では、発話量が大きい方が会話の満足度が高いと考えられる。一方、病院の待合室、ホテルのラウンジ等では、発話量が少ない方が会話の満足度が高いと考えられる。空間毎に発話量と会話の満足度の相関を示す関数を用意し、モデル学習部22は、空間に応じた関数を参照して、発話量から会話の満足度を算出しても良い。
 モデル学習部22は、会話の満足度として、さらに、体動シンクロ値、頷き数、笑い量、心拍ゆらぎ、溜め息量等を用いても良い。
 例えば体動シンクロ値が高い場合、各会話者が同様の動作をして共感が体現されていると考えられるので、会話の満足度が高くなるように算出される。体動シンクロ値が低い場合、各会話者が同様の動作をして共感が体現されていると考えられるので、会話の満足度が高くなるように算出される。
 頷き数が多い場合、発話に共感している会話者が多いと推測されるので、会話の満足度が高くなるように算出される。頷き数が少ない場合、発話に共感している会話者が少ないと推測されるので、会話の満足度が低くなるように算出される。
 笑い量が多い場合、発話に共感している会話者が多いと推測されるので、会話の満足度が高くなるように算出される。笑い量が少ない場合、発話に共感している会話者が少ないと推測されるので、会話の満足度が低くなるように算出される。
 溜め息量が多い場合、発話に不満を抱く会話者が多いと推測されるので、会話の満足度が低くなるように算出される。溜め息量が少ない場合、発話に不満を抱く会話者が少ないと推測されるので、会話の満足度が高くなるように算出される。
 心拍ゆらぎから推測される会話者のストレスが高い場合、会話の満足度が低くなるように算出される。ストレスが低い場合、会話の満足度が高くなるように算出される。
 上記の例において、体動シンクロ、頷き数、笑い量および心拍ゆらぎの高低に基づいて、会話の満足度の高低が算出される場合を説明したが、これに限られない。例えば、所定の関数に基づいて会話の満足度が算出されるなど、会話の満足度は適宜算出されれば良い。また発話量に基づいて会話の満足度を算出する場合と同様に、モデル学習部22は、空間に応じた関数を参照して、会話の満足度を算出しても良い。
 モデル学習部22が生成した空間環境モデルは、空間環境制御部25によって参照される。空間環境制御部25は、空間環境モデルを参照して、「会話の空気」、具体的には会話の満足度が高くなるように、空間を制御する。空間環境制御部25が空間を制御するのに先立ち、現状データ取得部23および現状解析部24によって、制御対象空間における現在の状態が把握される。
 なお、本発明の実施の形態において、発話量以外のデータは、任意のデータとして扱われても良い。任意のデータは、例えば体動シンクロ値、頷き数、笑い量、心拍ゆらぎ、空間環境の温度、湿度、空間照明の色または明るさ、空間環境で流れる音楽の特徴値、香りの特徴値、空間環境で投影される画像の特徴値等である。
 モデル学習部22は、空間環境モデルを参照する場面において、これらの任意のデータが取得されず、制御できないことを考慮して、空間環境モデルを生成するのが好ましい。例えば、温度湿度計を設置されない空間または温度湿度を制御できない空間を考慮して、入力データ11において、温度湿度に関するデータに、適用可能か否かを示すダミー変数を設定しても良い。
 現状データ取得部23は、空間環境制御部25による制御対象空間における現状データを取得する。現状データ取得部23は、入力データ生成部21が、学習装置1に接続する各装置からデータを取得し入力データ11を生成したのと同様の方法で、現状データ13を生成して、記憶装置10に記憶する。
 現状解析部24は、現状データ13を参照して、現在の会話内容の特徴値と、会話者による現在の会話における発話量から現在の満足度を算出する。現状解析部24は、制御対象空間に設けられたマイク41から取得された音声データから、会話内容の特徴値と会話の発話量を算出する。現状解析部24はさらに、算出した発話量から、現在の満足度を算出する。
 現状解析部24は、入力データ生成部21における処理と同様に、会話内容の特徴値と会話の満足度を算出するのが好ましい。このとき現状解析部24は、会話の満足度として、さらに、体動シンクロ値、頷き数、笑い量、心拍ゆらぎ等を用いても良い。
 空間環境制御部25は、現在の会話内容の特徴値と、空間環境モデルから、現在の満足度よりも満足度を上げる空間環境の特徴値を算出する。空間環境制御部25は、算出された特徴値に基づいて空間環境を制御する。空間環境モデルは、空間の状況および会話内容を変更に伴って、会話の満足度がどのように変わるかを示す。従って、空間環境制御部25は、空間環境モデルを参照して、現在の会話内容から、会話の満足度が現在よりも高くなる空間環境を特定する。
 図6を参照して、空間環境制御部25による空間環境制御処理を説明する。
 まずステップS21において空間環境制御部25は、現状解析部24が算出した現在の満足度を取得する。ステップS22において空間環境制御部25は、現状解析部24が算出した現在の会話内容の特徴値を取得する。
 ステップS23において空間環境制御部25は、空間環境モデルを参照して、ステップS21で取得した現在の満足度よりも高い満足度になるような、空間環境の制御値を算出する。ステップS24において空間環境制御部25は、ステップS23で算出した制御値に従って、空間環境を制御するための装置を制御する。
 空間環境制御部25は、空間環境モデルに、現状解析部24が算出した現在の会話内容の特徴値を入力して、現状解析部24が算出した現在の満足度よりも高い満足度となるような、空間環境の特徴値を算出する。目標とする満足度は、現在の満足度よりも満足度が高くなればよく、どのように設定されても良い。例えば、目標とする満足度は、固定値で示されても良い。あるいは目標とする満足度は、現在の満足度に対して150%など、現在の満足度に対する割合で示されても良い。満足度は、発話量、体動シンクロ値、頷き数、笑い量、心拍ゆらぎ等により算出される。
 空間環境制御部25は、算出した空間環境の制御値に基づいて、空間環境を制御するための装置を制御する。空間環境制御部25は、現在の満足度が高くなる条件として、空間照明の色または明るさ、空間環境で流れる音楽の特徴値等を算出する。空間環境制御部25は、算出された空間照明の色または明るさを、照明コントローラ53に入力する。これにより空間を、会話の満足度が高くなる色または明るさに変更することができる。また空間環境制御部25は、空間環境で流れる音楽の特徴値に対応する音楽データを、スピーカー51に入力する。これにより空間に、会話の満足度が高くなる音楽を流すことができる。
 また空間環境制御部25は、現在の満足度が高くなる条件として、空間の香り、プロジェクター54が表示する画像等を算出しても良い。空間環境制御部25は、算出された空間の香りをアロマシューター52に入力する。これにより空間を、会話の満足度が高くなる香りに変更することができる。空間環境制御部25は、算出された画像をプロジェクター54に入力する。これにより空間に、会話の満足度が高くなる画像に表示することができる。
 このような本発明の実施の形態にかかる学習装置1によれば、会話の空気を考慮して、空間環境の制御を可能にすることができる。学習装置1は、会話が行われる空間のBGM、温度、湿度、香り、照明等を変更し、会話の満足度が高い空間を提供することができる。
 (変形例)
 変形例に係る学習装置1における、入力データと空間環境モデルのバリエーションについて説明する。入力データ11は、所定時間における発話量、会話内容の特徴値および空間環境の特徴値等を関連づけるデータである。空間環境モデルは、入力データ11を学習することにより得られ、満足度、会話内容の特徴値および空間環境の特徴値の相関を示す。なおここで挙げるバリエーションは一例であってこれに限るものではない。
 入力データ11はさらに、会話者の心情を含み、空間環境モデルの満足度はさらに、会話者の心情を含んでも良い。会話者の心情は、笑うなどのポジティブな心情と、怒るなどのネガティブな心情に区分されても良い。ポジティブな心情の場合、満足度が高くなるように算出され、ネガティブな心情の場合、満足度が低くなるように算出される。
 ここで心情の特定する際、会話に付された心情を教師データとして生成された、心情と会話内容の相関を示すアノテーションモデルを用いても良い。空間環境モデルの学習の前に、アノテーションモデルが生成される。アノテーションモデルの生成に際し、予め、会話内容に対する会話者の心情を、会話者自身または作業者により付して、教師データが生成される。生成された教師データを学習して、心情と会話内容の相関を示すアノテーションモデルが生成される。学習の際、会話内容は、図2に示す形容詞尺度で、会話の特徴量に変換されても良い。アノテーションモデルは、学習により、会話内容のみならず、会話者の発話音声等の他の指標との相関を示しても良い。これにより、入力データ生成部21は、会話者の会話内容等を取得すると、アノテーションモデルに照会して、コンピュータ処理により会話者の心情を生成することができる。また空間制御モデルを参照して空間制御する際、現状解析部24は、現在進行中の会話内容等から会話者の心情を取得し、満足度を算出することができる。
 入力データ11はさらに、会話者の発話音声の特徴量を含み、空間環境モデルの満足度はさらに、発話音声の特徴量を含んでも良い。発話音声の特徴量は、会話者の声のトーンであって、具体的にはメル周波数である。発話音声の特徴量により、会話者の会話の雰囲気を指標化することができる。
 入力データ11はさらに、会話者の心拍を含み、空間環境モデルの満足度はさらに、心拍を含んでも良い。心拍数から、リラックス状態であるか、ストレス状態であるかなどの会話者の状態を把握することができる。例えば、心拍数が正常値の低い所定範囲に収まる場合、リラックス状態を示し、心拍数が高くその所定範囲を超える場合、ストレス状態を示す。心拍数が、リラックス状態を示す場合、満足度が高くなるように算出され、ストレス状態を示す場合、満足度が低くなるように算出される。
 入力データ11はさらに、会話者の心拍ゆらぎを含み、空間環境モデルの満足度はさらに、心拍ゆらぎを含んでも良い。心拍ゆらぎから、リラックス状態であるか、ストレス状態であるかなどの会話者の状態を把握することができる。会話者がリラックス状態の場合、満足度が高くなるように算出され、ストレス状態の場合、満足度が低くなるように算出される。
 入力データ11はさらに、会話者の画像データを含み、空間環境モデルの満足度はさらに、会話者の画像データを含んでも良い。画像データは、カメラで撮影した会話者の動画データから取得される。会話者の画像データから会話者の表情が判断され、ポジティブな表情の場合、満足度が高くなるように算出され、ネガティブな表情の場合、満足度が低くなるように算出される。例えば会話者が笑っている表情の場合、満足度は高くなるように算出される。会話者が怒っている表情の場合、満足度は低くなるように算出される。
 モデル学習部22は、会話者のストレス度を考慮して満足度を算出し、空間環境モデルを生成しても良い。具体的には、会話者のストレスが高い場合、満足度は低くなるように算出され、会話者のストレスが低い場合、満足度は高くなるように算出される。会話者のストレス度は、例えば、心拍、心拍ゆらぎ、会話者の画像データなどから把握される。
 また空間制御モデルの処理において、ストレス度を満足度に変換してストレス度を処理する例を説明したが、満足度とストレス度とを別の指標として処理しても良い。この場合、空間制御モデルは、発話量を含む満足度、会話者のストレス度、会話内容の特徴値および空間環境の特徴値の相関を示す。
 学習装置1は、空間環境モデルの学習時および学習済みの空間環境モデルを利用して空間を制御する時に入出力されるデータを、ディスプレイ等に表示しても良い。入出力されるデータは、例えば、学習装置1に入力される各測定機器の測定値、あるいは生成した入力データ11の会話における発話量等の満足度、ストレス度、会話内容の特徴量、空間環境の特徴量等の各項目のデータである。学習装置1は、これらのデータ推移をグラフ等で表示しても良い。
 なお本発明の実施の形態に係る学習プログラムおよび空間制御プログラムは、HDD(Hard Disk Drive)、SSD(Solid State Drive)、USB(Universal Serial Bus)メモリ、CD (Compact Disc)、DVD (Digital Versatile Disc)などのコンピュータ読取り可能な記録媒体に記憶することも、ネットワークを介して配信することもできる。
 (その他の実施の形態)
 上記のように、本発明の実施の形態とその変形例によって記載したが、この開示の一部をなす論述および図面はこの発明を限定するものであると理解すべきではない。この開示から当業者には様々な代替実施の形態、実施例および運用技術が明らかとなる。
 例えば、本発明の実施の形態に記載した学習装置は、図1に示すように一つのハードウエア上に構成されても良いし、その機能や処理数に応じて複数のハードウエア上に構成されても良い。また、本発明の実施の形態に係る学習装置は、スピーカー、照明等の家電と一体として構成されても良い。また、他の処理プログラムを実行するコンピュータ上に実現されても良い。
 本発明の実施の形態において、学習装置が、空間環境モデルの作成と、作成した空間環境モデルを用いた空間環境の制御を行う場合を説明したが、これに限られない。例えば、学習装置が、空間環境モデルを作成し、空間制御装置(図示せず)が、学習装置が生成した空間環境モデルを用いて、空間環境を制御しても良い。空間制御装置は、一般的なコンピュータが空間制御プログラムを実行することにより、空間制御装置の各機能を実現する。本発明の実施の形態に係る空間制御装置についても上述の学習装置と同様に、一つのハードウエア上に構成されても良いし、その機能や処理数に応じて複数のハードウエア上に構成されても良い。また、本発明の実施の形態に係る空間制御装置は、スピーカー、照明等の家電と一体として構成されても良い。
 本発明はここでは記載していない様々な実施の形態等を含むことは勿論である。従って、本発明の技術的範囲は上記の説明から妥当な請求の範囲に係る発明特定事項によってのみ定められるものである。
 1 学習装置
 10 記憶装置
 11 入力データ
 12 空間環境モデルデータ
 13 現状データ
 14 現状満足度データ
 15 空間環境特徴値データ
 20 処理装置
 21 入力データ生成部
 22 モデル学習部
 23 現状データ取得部
 24 現状解析部
 25 空間環境制御部
 30 入出力インタフェース
 41 マイク
 42 体動センサ
 43 心拍ゆらぎセンサ
 51 スピーカー
 52 アロマシューター
 53 照明コントローラ
 54 プロジェクター

Claims (16)

  1.  所定時間における複数の会話者による会話における発話量、会話内容の特徴値および前記会話者が存在する空間環境の特徴値を関連づけた入力データを生成する入力データ生成部と、
     前記発話量を含む満足度、前記会話内容の特徴値および前記空間環境の特徴値の相関を示す空間環境モデルを学習するモデル学習部
     を備えることを特徴とする学習装置。
  2.  前記入力データはさらに、前記複数の会話者による動作の同期を指標化した体動シンクロ値を含み、
     前記満足度はさらに、前記体動シンクロ値を含む
     ことを特徴とする請求項1に記載の学習装置。
  3.  前記入力データはさらに、前記複数の会話者による頷き数を含み、
     前記満足度はさらに、前記頷き数を含む
     ことを特徴とする請求項1に記載の学習装置。
  4.  前記入力データはさらに、前記複数の会話者による笑い量を含み、
     前記満足度はさらに、前記笑い量を含む
     ことを特徴とする請求項1に記載の学習装置。
  5.  前記空間環境の特徴値は、空間照明の色または明るさである
     ことを特徴とする請求項1に記載の学習装置。
  6.  前記空間環境の特徴値は、前記空間環境の音の特徴値である
     ことを特徴とする請求項1に記載の学習装置。
  7.  前記会話者のストレスが高い場合、前記満足度は低くなるように算出される
     ことを特徴とする請求項1に記載の学習装置。
  8.  前記入力データはさらに、前記会話者の心情を含み、
     前記満足度はさらに、前記心情を含む
     ことを特徴とする請求項1に記載の学習装置。
  9.  前記会話者の心情は、会話に付された会話者の心情を教師データとして生成された、前記心情と会話内容の相関を示すアノテーションモデルから、特定される
     ことを特徴とする請求項8に記載の学習装置。
  10.  前記入力データはさらに、前記会話者の発話音声の特徴量を含み、
     前記満足度はさらに、前記発話音声の特徴量を含む
     ことを特徴とする請求項1に記載の学習装置。
  11.  前記入力データはさらに、前記会話者の心拍を含み、
     前記満足度はさらに、前記心拍を含む
     ことを特徴とする請求項1に記載の学習装置。
  12.  前記入力データはさらに、前記会話者の心拍ゆらぎを含み、
     前記満足度はさらに、前記心拍ゆらぎを含む
     ことを特徴とする請求項1に記載の学習装置。
  13.  前記入力データはさらに、前記会話者の画像データを含み、
     前記満足度はさらに、前記会話者の画像データを含む
     ことを特徴とする請求項1に記載の学習装置。
  14.  所定時間における複数の会話者による会話における発話量を含む満足度、会話内容の特徴値および前記会話者が存在する空間環境の特徴値の相関を示す空間環境モデルを特定する空間環境モデルデータを記憶する記憶装置と、
     現在の会話内容の特徴値と、会話者による現在の会話における発話量から現在の満足度を算出する現状解析部と、
     現在の会話内容の特徴値と、前記空間環境モデルから、前記現在の満足度よりも満足度を上げる空間環境の特徴値を算出し、算出された特徴値に基づいて前記空間環境を制御する空間環境制御部
     を備えることを特徴とする空間制御装置。
  15.  コンピュータを、
     所定時間における複数の会話者による会話における発話量、会話内容の特徴値および前記会話者が存在する空間環境の特徴値を関連づけた入力データを生成する入力データ生成部と、
     前記発話量を含む満足度、前記会話内容の特徴値および前記空間環境の特徴値の相関を示す空間環境モデルを学習するモデル学習部
     として機能させるための学習プログラム。
  16.  所定時間における複数の会話者による会話における発話量を含む満足度、会話内容の特徴値および前記会話者が存在する空間環境の特徴値の相関を示す空間環境モデルを特定する空間環境モデルデータを記憶するコンピュータを、
     現在の会話内容の特徴値と、会話者による現在の会話における発話量から現在の満足度を算出する現状解析部と、
     現在の会話内容の特徴値と、前記空間環境モデルから、前記現在の満足度よりも満足度を上げる空間環境の特徴値を算出し、算出された特徴値に基づいて前記空間環境を制御する空間環境制御部
     として機能させるための空間制御プログラム。 
PCT/JP2020/022388 2019-06-07 2020-06-05 学習装置、空間制御装置、学習プログラムおよび空間制御プログラム WO2020246600A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021524937A JPWO2020246600A1 (ja) 2019-06-07 2020-06-05

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019107162 2019-06-07
JP2019-107162 2019-06-07

Publications (1)

Publication Number Publication Date
WO2020246600A1 true WO2020246600A1 (ja) 2020-12-10

Family

ID=73652562

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/022388 WO2020246600A1 (ja) 2019-06-07 2020-06-05 学習装置、空間制御装置、学習プログラムおよび空間制御プログラム

Country Status (2)

Country Link
JP (1) JPWO2020246600A1 (ja)
WO (1) WO2020246600A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022145165A1 (ja) * 2020-12-28 2022-07-07 パナソニックIpマネジメント株式会社 環境制御システム及び環境制御方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006282115A (ja) * 2005-04-04 2006-10-19 Denso Corp 自動車用ユーザーもてなしシステム
JP2008126818A (ja) * 2006-11-20 2008-06-05 Denso Corp 自動車用ユーザーもてなしシステム
JP2009294790A (ja) * 2008-06-03 2009-12-17 Denso Corp 自動車用情報提供システム
JP2018169506A (ja) * 2017-03-30 2018-11-01 トヨタ自動車株式会社 会話満足度推定装置、音声処理装置および会話満足度推定方法
JP2019062490A (ja) * 2017-09-28 2019-04-18 沖電気工業株式会社 制御装置、制御方法、プログラム及び制御システム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006282115A (ja) * 2005-04-04 2006-10-19 Denso Corp 自動車用ユーザーもてなしシステム
JP2008126818A (ja) * 2006-11-20 2008-06-05 Denso Corp 自動車用ユーザーもてなしシステム
JP2009294790A (ja) * 2008-06-03 2009-12-17 Denso Corp 自動車用情報提供システム
JP2018169506A (ja) * 2017-03-30 2018-11-01 トヨタ自動車株式会社 会話満足度推定装置、音声処理装置および会話満足度推定方法
JP2019062490A (ja) * 2017-09-28 2019-04-18 沖電気工業株式会社 制御装置、制御方法、プログラム及び制御システム

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
FUJITA, KAZUYUKI ET AL.: "An Implementation and Evaluation of Room-Shaped System Using Ambient Suite for Communication Support in Party Situations", PROCEEDINGS OF THE 8TH INTERNATIONAL CONFERENCE ON ADVANCES IN COMPUTER ENTERTAINMENT TECHNOLOGY, vol. J96-D, no. 1, 1 January 2013 (2013-01-01), pages 120 - 132, XP055768708 *
ISO, YUKIKO ET AL.: "The effects of nodding on impression formation in while conversation members are speaking : The role of nonverbal behaviors in a triadic communication", TECHNICAL REPORT OF IEICE, vol. 103, no. 410, 31 October 2003 (2003-10-31), pages 31 - 36 *
ONDA, HIROKAZU: "Expanding target!, A new color appears in a favorable "Pekoppa"", TOYJOURNAL, 1 February 2009 (2009-02-01), pages 139 *
ONDA, HIROKAZU: "How about plants that read the air'?", TOYJOURNAL, 1 September 2008 (2008-09-01), pages 101 *
ONO, HIROSHI ET AL.: "An information and communication technology which works on our bodily feeling (2): effects of an ambient presentation of environmental information on bodily feeling", 25 September 2006 (2006-09-25), pages 165 - 170 *
TAKEMI, TSUZUKI ET AL.: "A Method for Sensing Synchrony between Communicating Persons by Sense Chair and the Evaluation toward Conversation", THE TRANSACTIONS OF HUMAN INTERFACE SOCIETY, vol. 19, no. 2, 2017, pages 151 - 162 *
TAKEMURA, HARUO: "Perspectives on Ambient Interface Technologies", JOURNAL OF JAPANESE, vol. 28, no. 2, 1 March 2013 (2013-03-01), pages 186 - 193 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022145165A1 (ja) * 2020-12-28 2022-07-07 パナソニックIpマネジメント株式会社 環境制御システム及び環境制御方法

Also Published As

Publication number Publication date
JPWO2020246600A1 (ja) 2020-12-10

Similar Documents

Publication Publication Date Title
JP7351745B2 (ja) 環境制御機能を有する社会ロボット
US9824606B2 (en) Adaptive system for real-time behavioral coaching and command intermediation
CN109789550B (zh) 基于小说或表演中的先前角色描绘的社交机器人的控制
US10224060B2 (en) Interactive home-appliance system, server device, interactive home appliance, method for allowing home-appliance system to interact, and nonvolatile computer-readable data recording medium encoded with program for allowing computer to implement the method
US10311869B2 (en) Method and system for automation of response selection and composition in dialog systems
CN100399981C (zh) 控制设备和控制方法
TW494308B (en) Control method
JPWO2018168427A1 (ja) 学習装置、学習方法、音声合成装置、音声合成方法
JP6719739B2 (ja) 対話方法、対話システム、対話装置、及びプログラム
JP6589880B2 (ja) 情報処理システム、制御方法、および記憶媒体
Bergsland et al. Turning movement into music: Issues and applications of the MotionComposer, a therapeutic device for persons with different abilities
WO2020246600A1 (ja) 学習装置、空間制御装置、学習プログラムおよび空間制御プログラム
Fleury et al. A french corpus of audio and multimodal interactions in a health smart home
JP2009087074A (ja) 機器制御システム
JP6559079B2 (ja) 対話型家電システム、および発話者との対話に基づいてメッセージを出力するためにコンピュータが実行する方法
JP2018087872A (ja) 情報処理装置、情報処理システム、情報処理方法、及びプログラム
Oliveira et al. An active audition framework for auditory-driven HRI: Application to interactive robot dancing
KR20230043080A (ko) 대화기반 정신장애선별방법 및 그 장치
WO2019138652A1 (ja) 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
WO2016052520A1 (ja) 対話装置
JP7152453B2 (ja) 情報処理装置、情報処理方法、情報処理プログラム及び情報処理システム
WO2022085215A1 (ja) 会議支援装置、会議支援システム、および会議支援方法
JPWO2020246600A5 (ja)
WO2023286224A1 (ja) 会話処理プログラム、会話処理システムおよび会話型ロボット
JP6698428B2 (ja) ネットワークシステム、情報処理方法、およびサーバ

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20817638

Country of ref document: EP

Kind code of ref document: A1

DPE1 Request for preliminary examination filed after expiration of 19th month from priority date (pct application filed from 20040101)
ENP Entry into the national phase

Ref document number: 2021524937

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20817638

Country of ref document: EP

Kind code of ref document: A1