WO2018105412A1 - 情報処理装置および方法、並びにプログラム - Google Patents

情報処理装置および方法、並びにプログラム Download PDF

Info

Publication number
WO2018105412A1
WO2018105412A1 PCT/JP2017/042153 JP2017042153W WO2018105412A1 WO 2018105412 A1 WO2018105412 A1 WO 2018105412A1 JP 2017042153 W JP2017042153 W JP 2017042153W WO 2018105412 A1 WO2018105412 A1 WO 2018105412A1
Authority
WO
WIPO (PCT)
Prior art keywords
action
unit
control
control target
target
Prior art date
Application number
PCT/JP2017/042153
Other languages
English (en)
French (fr)
Inventor
由幸 小林
泰史 田中
慎吾 高松
淳史 野田
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to EP17877417.0A priority Critical patent/EP3553711A4/en
Priority to US16/465,232 priority patent/US10795326B2/en
Publication of WO2018105412A1 publication Critical patent/WO2018105412A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J11/00Manipulators not otherwise provided for
    • B25J11/0005Manipulators having means for high-level communication with users, e.g. speech generator, face recognition means
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J13/00Controls for manipulators
    • B25J13/08Controls for manipulators by means of sensing devices, e.g. viewing or touching devices
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/008Artificial life, i.e. computing arrangements simulating life based on physical entities controlled by simulated intelligence so as to replicate intelligent life forms, e.g. based on robots replicating pets or humans in their appearance or behaviour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N99/00Subject matter not provided for in other groups of this subclass

Definitions

  • the present disclosure relates to an information processing apparatus, method, and program, and more particularly, to an information processing apparatus, method, and program capable of efficiently learning a method for controlling a person in a system.
  • This disclosure has been made in view of such a situation, and allows the system to efficiently learn how to control a person.
  • An information processing apparatus includes a reward calculation unit that calculates a reward based on an input target state of a control target and a control target state based on a sensing result of the control target; and the reward calculation A reinforcement learning unit that selects a better action for bringing the control target closer to the target state by performing reinforcement learning using the reward calculated by the unit and the state of the control target, and the reinforcement learning unit An action execution unit that executes the selected action on the control target.
  • a causal analysis unit that performs a causal analysis of actions performed on the control target, and a better action for bringing the control target closer to the target state as a result of the causal analysis performed by the causal analysis unit And an action adding unit.
  • a notification unit for notifying the addition of the action by the action adding unit can be further provided.
  • the notification unit can notify completion of the addition of the action by the action adding unit.
  • the notification unit notifies the recommendation of addition of the action by the action addition unit, and when the addition of the action is instructed to the notification, the action addition unit sets the control target to the target state. You can add better actions to get closer.
  • It can further include an action execution history DB for registering a history of actions executed by the action execution unit.
  • a sensor unit for sensing the control target can be further provided.
  • An action input unit for inputting an action performed on the control target is further provided.
  • the information processing apparatus calculates a reward based on the input target state of the control target and the state of the control target based on the sensing result of the control target. By performing reinforcement learning using the reward and the state of the control target, a better action for bringing the control target closer to the target state is selected, and the selected action is executed on the control target. To do.
  • a program includes a reward calculation unit that calculates a reward based on an input target state of a control target and a control target state based on a sensing result of the control target, and the reward calculation unit Reinforcement learning using the calculated reward and the state of the control target, and selected by the reinforcement learning unit that selects a better action for bringing the control target closer to the target state.
  • the computer is caused to function as an action execution unit that executes the action on the control target.
  • a reward is calculated based on the input target state of the control target and the state of the control target based on the sensing result of the control target, and the calculated reward and the state of the control target.
  • the system can efficiently learn how to control a person.
  • FIG. 1 is a diagram illustrating a control learning system to which the present technology is applied.
  • the control learning system 1 includes, for example, a terminal such as a robot, a household appliance, or a multi-function mobile phone and a cloud service.
  • the control target 3 is oneself or another person such as a boss, a subordinate, a child, an elderly person who needs care, or a surrounding person.
  • the control target 3 is not limited to human control, and may be a pet, a plant, a pest, or the like.
  • the user 2 inputs, to the control learning system 1, as indicated by an arrow A ⁇ b> 1, as indicated by an arrow A ⁇ b> 1, as indicated by an arrow A ⁇ b> 1. To do.
  • the control learning system 1 executes an action as indicated by an arrow A2 in order to realize the target state set by the user 2. Examples of actions include utterances, sound and video playback, message transmission, and application activation.
  • the control learning system 1 monitors the state of the user 2 as indicated by an arrow A3. Further, the control learning system 1 senses a target state that is a state of the control target 3 as indicated by an arrow A4.
  • control learning system 1 uses the reinforcement learning through the utterance of the user 2 as shown in A5, and what kind of action is performed on the state of the control target 3, the control target 3 becomes the user 2 Learn whether the target state can be approached.
  • Reinforcement learning is a learning method in which the machine (system) itself learns the action A so as to maximize the reward R given in the state S.
  • control learning system 1 selects (automatically adds, automatically recommends) an action that brings the controlled object 3 closer to the target state more effectively and executes it.
  • control learning system 1 can automatically acquire the control method of the control target 3 by using reinforcement learning.
  • the control learning system 1 can learn a method for efficiently controlling a person while the person and the system cooperate.
  • FIG. 2 shows a detailed configuration example of the control learning system.
  • the control learning system 1 includes an input unit 11, an output unit 12, a sensor unit 13, and an action execution unit 14, a control setting input unit 31, a decomposition unit 32, a control setting DB 33, and an action addition input unit 34.
  • Action setting DB 35 target state sensing unit 36, reward calculation unit 37, reinforcement learning unit 38, action control unit 39, action execution history DB 40, causal analysis unit 41, analysis result DB 42, feedback unit 43, and manual execution request input unit 44 It is comprised so that it may contain.
  • control learning system 1 may be configured by only terminals such as robots, home appliances, and multi-function mobile phones, or may be configured by terminals and a cloud system.
  • each device includes a transmission unit and a reception unit connected to the network, and even the operation input unit 11, the output unit 12, the sensor unit 13, and the action execution unit 14 are configured on the terminal side. If so, the other units may be on the terminal side or the cloud service side.
  • the control learning system 1 may be configured with a terminal, a home server, and a cloud system. Also in this case, as long as only the operation input unit 11, the output unit 12, the sensor unit 13, and the action execution unit 14 are configured on the terminal side, the other units may be on the terminal side or on the home server side. Although it may be on the cloud service side, each DB is preferably provided on the cloud system side.
  • the input unit 11 includes a touch panel, a mouse, a keyboard, a microphone, or a camera.
  • the input unit 11 inputs control setting inputs (control target 3, target state, achievement date / time, action, frequency, cost, etc.) corresponding to the user's action (operation or speech) obtained from images or sounds. Input to the unit 31.
  • the input unit 11 inputs an action addition to the action addition input unit 34 corresponding to the user's operation, speech, and movement.
  • the input unit 11 inputs manual execution to the manual execution request input unit 44 in response to a user operation or speech.
  • the output unit 12 includes an LCD, a speaker, and the like, and displays a target state operation screen, a report of action execution from the feedback unit 43, and the like, and outputs a sound corresponding to the report.
  • the sensor unit 13 includes a camera and various sensors (tactile sensor, acceleration sensor, gyroscope, microphone) and the like.
  • the sensor unit 13 senses the state of the control target 3 and supplies the sensing result to the target state sensing unit 36.
  • the action execution unit 14 executes an action on the control target 3. For example, the action execution unit 14 speaks a language, plays a video, plays music or sounds, transmits a message, or executes another application.
  • the control setting input unit 31 receives the control target 3 and the target state set by the user 2 and supplies them to the disassembly unit 32 or the control setting DB 33.
  • the decomposition unit 32 decomposes the target state based on the characteristics and the target state of the control target 3, and registers the control target 3 and the decomposed target state in the control setting DB 33.
  • the control setting DB 33 stores the characteristics and the target state of the control target 3 from the control setting input unit 31 or the disassembly unit 32 in association with the added action from the action addition input unit 34 correspondingly.
  • the action addition input unit 34 supplies the action addition from the analysis result DB 42 after the causal analysis by the input unit 11 or the causal analysis unit 41 to the control setting DB 33, the action setting DB 35, and the causal analysis unit 41.
  • the action setting DB 35 stores the action addition from the action addition input unit 34.
  • the target state sensing unit 36 supplies the state S based on the sensing information from the sensor unit 13 to the reward calculation unit and the reinforcement learning unit 38.
  • the reward calculation unit 37 calculates the reward R based on the state S from the target state sensing unit 36 and the characteristics and target state of the control target 3 stored in the control setting DB 33.
  • the reinforcement learning unit 38 performs reinforcement learning using the reward R calculated by the reward calculation unit 37 and the state S from the target state sensing unit 36, and selects the action A selected as better to the action control unit 39. Supply.
  • the action control unit 39 controls the action of the action execution unit 14 in response to the action A from the reinforcement learning unit 38, the action read from the action setting DB 35, or the manual execution request from the manual execution request input unit 44. To do. Further, the action control unit 39 registers the action execution history (action and its result) in the action execution history DB 40.
  • the action execution history DB 40 the action execution history is registered by the action control unit 39.
  • the same action may be flagged for each user. It is also possible to control the frequency of actions.
  • the causal analysis unit 41 performs causal analysis based on the action from the action addition input unit 34 or the action execution history (action and result) of the action execution history DB 40 and registers the result in the analysis result DB 42.
  • a causal analysis method Max-min Hill Climbing or a method of checking accuracy excluding target variables can be mentioned.
  • the analysis result DB 42 registers the result of the causal analysis and supplies the action addition input unit 34 with the addition of an effective action.
  • the feedback unit 43 outputs the analysis result from the analysis result DB 42, the notification of the action having the action execution history DB effect, and the recommendation to the user to the output unit 12.
  • the manual execution request input unit 44 receives a manual execution request for an action input by the user 2 via the input unit 11 and instructs the action control unit 39.
  • FIG. 3 is an example of a setting screen for setting a target state for the control target 3.
  • the user 2 takes an image (photograph) of the control target 3 and performs control learning on the captured image (the control target 3 and its target state) while viewing the setting screen 51 displayed on the output unit 12. Input to system 1.
  • the user 2 takes one to several photos (images) by using one-shot-learning technology, which is a machine learning technique that enables learning of an appropriate recognizer from very little data.
  • one-shot-learning technology which is a machine learning technique that enables learning of an appropriate recognizer from very little data.
  • the target state of the control target 3 can be input to the control learning system 1.
  • the achievement date and time may be set from weekly (day to be set), daily, time to be achieved, period, or the like.
  • the type of action to be executed, the allowable cost (when using a paid API, etc.), and the frequency of actions can be set once a day.
  • the user 2 “controls the daughter to sleep for 2 hours every 3 hours, and the action is music or voice (utterance) up to 20 times a day”.
  • the target state may be set by utterance such as “control to be quiet in the library”. Further, the user 2 may set a target state by a combination of an image and an utterance.
  • a recipe is a personally created or publicly shared profile that is used in Web services such as IFTTT.
  • a task that requires a step (stage) to achieve it may be decomposed into fine tasks by the disassembling unit 32 (for example, pass the test ⁇ study daily).
  • a table including the purpose and the purpose after decomposition as shown in FIG. For example, if the objective is passing the XX exam, the data after the disassembly is the daily study for XX minutes, and if the objective is dieting XX kg, the objective after the decomposition is the daily exercise for XX minutes.
  • a data set 61 composed of certain data is prepared.
  • the decomposition unit 32 inputs (purpose + feature of the control target 3) 71 and learns based on the data set 61 to create a decomposed purpose 72. Output.
  • the disassembling unit 32 inputs ⁇ user 2's purpose (want to make child's tooth brushing habits) and the characteristics of the control target 3 (toothpaste twice for 3 meals, 20 seconds per time) ⁇ 73. Then, the learned data set 61 is used for decomposition, and a post-decomposition purpose (1 minute or more per toothpaste after each meal) 74 is output.
  • the target disassembly is performed as described above.
  • the action control unit 39 (action execution unit 14) of the control learning system 1 utters, for example, “I'm getting sleepy” as the various registered actions for the control target 3. 81 and content playback 82 such as “Schubert's Lullaby” is executed.
  • the control learning system 1 is a robot (robot + cloud system) is shown.
  • Examples of actions that the control learning system 1 performs to achieve the purpose include speech, content playback (music, still images, videos, reading a book, etc.), physical motion (robot motion, vibration, tactile reproduction, etc.), olfactory There are stimuli (aroma etc.), message transmission, application activation, external API kick, control of external system such as air conditioning.
  • Actions that can be executed by the control learning system 1 include those preset by the user, those freely registered by the user through the action addition input unit 34, and those manually executed by the user through the manual execution request input unit 44. Can do. These manual execution and action addition may be performed by utterance. For example, an utterance of “Good night” is registered as an action by an utterance of “Please try“ Good night ””.
  • the control learning system 1 monitors the actions performed by the user 2, other people, and the control learning system 1 on the control target 3 and their effects, and imports them as their own actions.
  • control learning system 1 that is a robot has the effect of the utterance “Let's soon...” Monitor with various recognition technologies (image recognition, voice recognition).
  • the causal analysis unit 41 performs causal analysis using the action and effect as indicated by the arrow P2, and registers the analysis result 91 in the analysis result DB. At this time, an action that can be executed by the control learning system 1 as a substitute is set as a causal analysis target.
  • the analysis result 91 the analysis result of the action “I am also sleepy...” is “effective”, the analysis result of the action “has a ghost” is “no effect”, and the analysis of the action “not good”
  • the result is “countereffect”, and the analysis result of the action “sleep now ... (cry)” is “countereffect”.
  • an action analyzed as “effective” or “highly effective” is automatically added by the action addition input unit 34 as indicated by an arrow P3, and “utterance:“ I am also sleepy ”. It is possible to make the notification 92 that “... was automatically added as an action” sent to the output unit 12 by the feedback unit 43.
  • an action executed by a person may be recommended.
  • an automatic execution action list display may be displayed so that ON / OFF can be set for each action.
  • the control learning system 1 gradually learns how to control as intended by sensing the control target 3 and performing reinforcement learning using the reward as to whether the control target 3 has reached the target state.
  • the control learning system 1 that is a robot performs sensing of the target state, and when it is detected that the control target 3 is in the target state, it is set as a reward. Further, as shown in A2, an action (speech, reproduction of sound or video, message transmission, application activation, etc.) is performed.
  • the target state sensing unit 36 acquires sensing information from the sensor unit 13 and supplies it to the reward calculation unit 37 and the reinforcement learning unit 38 as the state S.
  • the sensor unit 13 senses not only the control target 3 but also the state (environment and location) where the control target 3 is placed.
  • the reward calculation unit 37 detects that the target is in the target state and sets it as the reward R. In order to stabilize the control learning system 1, some rewards are incorporated in the reward calculation unit 37 in advance. For example, a negative reward as described later with reference to FIG. 9 is also incorporated.
  • the negative reward is a reward when the control object 3 is uncomfortable, or a reward when the control object 3 has a negative feeling with respect to the user 2 or the control learning system 1.
  • the manual execution request input unit 44 receives a user's utterance (eg, “Now, play Schubert's lullaby”), and the control learning system 1 intentionally tries a specific action. It is also possible.
  • a user's utterance eg, “Now, play Schubert's lullaby”
  • control learning system 1 holds the history of which action was performed at what time in the action execution history DB 40, and the feedback unit 43 displays the history of the action execution history DB 40 as a list and reads it out and reports it to the user UI can be provided. For example, “Today, I said,“ I am too sleepy ”. “The target has reached its target state 30 minutes later”.
  • FIG. 9 is a diagram for explaining an example of a negative reward.
  • step S 1 the user 2 utters “I want to return to my husband by 8 o'clock”, so that the control learning system 1 wants the control object 3 “Dan” and the target state “return by 8 o'clock”. ".
  • the control object 3 and the target state are supplied to the reward calculation unit 37 via the input unit 11, the control setting input unit 31, and the control setting DB 33 of the control learning system 1.
  • the reward calculation unit 37 calculates the reward R and supplies it to the reinforcement learning unit 38.
  • the reinforcement learning unit 38 performs learning based on the reward R from the reward calculation unit 37 and the state S from the target state sensing unit 36, and supplies the action A to the action control unit 39.
  • step S2 the action control unit 39 performs an action A (for example, a message “Please come back early”).
  • step S ⁇ b> 3 the sensor unit 13 senses a reaction from the control target 3 to the control learning system 1 (for example, a received message “Don't send a message many times during work!”). Originally).
  • step S4 the sensor unit 13 senses a reaction to the user 2 from the control target 3 (for example, “Now, my wife is trying to control me using the control learning system 1). Sensitive words such as “?””).
  • the reinforcement learning unit 38 uses the negative feeling (anti-feeling) to the control learning system 1 and the negative feeling (anti-feeling) to the user sensed as described above as negative rewards during reinforcement learning. Thereby, the control learning system 1 can be stabilized.
  • step S11 the control setting input unit 31 receives the control target 3 and the target state input from the input unit 11.
  • the received control object 3 and the target state are registered in the control setting DB 33 and supplied to the disassembling unit 32.
  • step S12 the decomposition unit 32 performs the target decomposition as described above with reference to FIGS.
  • the purpose after the disassembly is registered in the control setting DB 33. If the purpose is simple, the decomposition may not be performed.
  • step S13 the action execution unit 14 executes the action under the control of the action control unit 39. That is, the action control unit 39 responds to the action execution unit 14 in response to the action A read from the reinforcement learning unit 38, the action read from the action setting DB 35, or the manual execution request from the manual execution request input unit 44. Let the action be executed. After executing the action, the action control unit 39 registers the action history in the action execution history DB 40.
  • step S14 the action addition input unit 34 monitors the user state based on the image, sound, and information (user operation, speech, movement) input from the input unit 11.
  • step S15 the target state sensing unit 36 senses the target state of the control target 3, and supplies the sensing state S to the reward calculating unit 37 and the reinforcement learning unit 38.
  • step S ⁇ b> 16 the reinforcement learning unit 38 uses reinforcement learning through the utterance of the user 2, and what action is performed on the state of the control target 3, the control target 3 sets the target state set by the user 2. Learn if you can get closer to The reinforcement learning unit 38 performs reinforcement learning using the reward R calculated by the reward calculation unit 37 and the state S from the target state sensing unit 36, and selects the action A selected as better to the action control unit 39. Supply.
  • step S13 the processing returns to step S13, and the subsequent processing is repeated until the controlled object 3 reaches the target state or until the user A gives an end instruction.
  • control learning system 1 selects (automatically adds, automatically recommends) an action that brings the controlled object 3 closer to the target state more effectively and executes it. It will become. That is, as learning progresses, actions that are highly effective for achieving the target state are executed at highly effective timing.
  • present technology can be applied not only to terminals such as home appliances, robots, and smartphones, but also to devices such as vehicles, surgical devices, factory machines, hospitals, and dental dentists.
  • Second Embodiment> ⁇ Personal computer>
  • the series of processes described above can be executed by hardware or can be executed by software.
  • a program constituting the software is installed in the computer.
  • the computer includes a computer incorporated in dedicated hardware, a general-purpose personal computer capable of executing various functions by installing various programs, and the like.
  • FIG. 11 is a block diagram showing a hardware configuration example of a personal computer that is executed by a program when a part or all of the series of processes described above is configured by a personal computer.
  • a CPU Central Processing Unit
  • ROM Read Only Memory
  • RAM Random Access Memory
  • An input / output interface 205 is further connected to the bus 204.
  • An input unit 206, an output unit 207, a storage unit 208, a communication unit 209, and a drive 210 are connected to the input / output interface 205.
  • the input unit 206 includes a keyboard, a mouse, a microphone, and the like.
  • the output unit 207 includes a display, a speaker, and the like.
  • the storage unit 208 includes a hard disk, a nonvolatile memory, and the like.
  • the communication unit 209 includes a network interface and the like.
  • the drive 210 drives a removable recording medium 211 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory.
  • the CPU 201 loads, for example, a program stored in the storage unit 208 to the RAM 203 via the input / output interface 202 and the bus 204 and executes the program. Thereby, the series of processes described above are performed.
  • the program executed by the computer (CPU 201) can be provided by being recorded in the removable recording medium 211.
  • the removable medium 211 is a package made of, for example, a magnetic disk (including a flexible disk), an optical disk (CD-ROM (Compact Disc-Read Disc Only), DVD (Digital Versatile Disc, etc.), a magneto-optical disc, or a semiconductor memory. Media.
  • the program can be provided via a wired or wireless transmission medium such as a local area network, the Internet, or digital satellite broadcasting.
  • the program can be installed in the storage unit 208 via the input / output interface 205 by attaching the removable recording medium 211 to the drive 210.
  • the program can be received by the communication unit 209 via a wired or wireless transmission medium and installed in the storage unit 208.
  • the program can be installed in the ROM 202 or the storage unit 208 in advance.
  • the program executed by the computer may be a program that is processed in time series in the order described in this specification, or in a necessary stage such as in parallel or when a call is made. It may be a program for processing.
  • the step of describing the program recorded on the recording medium is not limited to the processing performed in chronological order according to the described order, but may be performed in parallel or It also includes processes that are executed individually.
  • system represents the entire apparatus composed of a plurality of devices (apparatuses).
  • the present disclosure can take a cloud computing configuration in which one function is shared by a plurality of devices via a network and is jointly processed.
  • the present technology can also be applied to a network system including a plurality of devices.
  • FIG. 12 illustrates an example of a schematic configuration of a network system to which the present technology is applied.
  • a network system 300 shown in FIG. 12 is a system in which devices learn to control objects via a network.
  • a cloud service 301 of the network system 300 is a system that provides a service for controlling and learning a control target together with a terminal 302 and a home server 303 that are communicably connected to the network system 300.
  • the cloud service 301 provides the dotted line portion of the control learning system 1 in FIG.
  • the terminal 302 provides input / output portions (operation input unit 11, output unit 12, sensor unit 13, and action execution unit 14) other than the dotted line of the control learning system 1 of FIG.
  • each device includes a transmission unit and a reception unit that are connected to the network, although not illustrated.
  • the physical configuration of the cloud service 301 is arbitrary.
  • the cloud service 301 may include not only a service for controlling and learning a control target, but also other servers, and an arbitrary network such as the Internet or a LAN.
  • the terminal 302 includes, for example, home appliances such as robots, refrigerators and air conditioners, furniture, television receivers, hard disk recorders, game machines, cameras and other AV equipment, personal computers, notebook personal computers, tablet terminals, mobile phones, smartphones, etc. Etc., and a wearable device such as glasses or a watch.
  • home appliances such as robots, refrigerators and air conditioners, furniture, television receivers, hard disk recorders, game machines, cameras and other AV equipment, personal computers, notebook personal computers, tablet terminals, mobile phones, smartphones, etc. Etc., and a wearable device such as glasses or a watch.
  • a service such as providing an action set in a certain target state for charging, or charging for an increase in the number of control targets or action registrations, a service such as including an advertisement in action content, data (control Needs data, human behavior pattern data, etc.) may be provided.
  • the configuration described as one device (or processing unit) may be divided and configured as a plurality of devices (or processing units). Conversely, the configurations described above as a plurality of devices (or processing units) may be combined into a single device (or processing unit). Of course, a configuration other than that described above may be added to the configuration of each device (or each processing unit). Furthermore, if the configuration and operation of the entire system are substantially the same, a part of the configuration of a certain device (or processing unit) may be included in the configuration of another device (or other processing unit). . That is, the present technology is not limited to the above-described embodiment, and various modifications can be made without departing from the gist of the present technology.
  • this technique can also take the following structures.
  • a reward calculation unit that calculates a reward based on the input target state of the control target and the state of the control target based on the sensing result of the control target; Reinforcement learning unit that selects a better action for bringing the control target closer to the target state by performing reinforcement learning using the reward calculated by the reward calculation unit and the state of the control target;
  • An information processing apparatus comprising: an action execution unit that executes an action selected by the reinforcement learning unit on the control target.
  • a causal analysis unit that performs causal analysis of actions performed on the control target;
  • the information processing apparatus according to (1) further including: an action adding unit that adds a better action for bringing the control target closer to the target state as a result of the causal analysis performed by the causal analysis unit.
  • the information processing apparatus further including a notification unit that notifies the addition of the action by the action addition unit.
  • the information processing apparatus after the action is added by the action adding unit, The information processing apparatus according to (3), wherein the notification unit notifies completion of the addition of the action by the action adding unit.
  • the notification unit notifies the recommendation of the addition of the action by the action adding unit, The information processing apparatus according to (3), wherein when the addition of the action is instructed in response to the notification, the action adding unit adds a better action for bringing the control target closer to the target state.
  • the information processing apparatus according to any one of (1) to (5), further including a decomposition unit that decomposes the target state of the control target into finer purposes.
  • the information processing apparatus according to any one of (1) to (6), further including an action execution history DB that registers a history of actions executed by the action execution unit.
  • the information processing apparatus according to any one of (1) to (7), further including an input receiving unit that recognizes a target state of the control target by inputting an image.
  • the information processing apparatus according to any one of (1) to (8), further including a sensor unit that senses the control target.
  • the information processing apparatus according to any one of (1) to (9), further including an action input unit that inputs an action performed on the control target.
  • the information processing device is Based on the input target state of the controlled object and the state of the controlled object based on the sensing result of the controlled object, a reward is calculated, By performing reinforcement learning using the calculated reward and the state of the control target, a better action for bringing the control target closer to the target state is selected, An information processing method for executing a selected action on the control target.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Robotics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Automation & Control Theory (AREA)
  • General Health & Medical Sciences (AREA)
  • Mechanical Engineering (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Manipulator (AREA)

Abstract

本開示は、システムに人をコントロールする方法を効率的に学習させることができるようにする情報処理装置および方法、並びにプログラムに関する。 制御学習システムは、入力されたコントロール対象の目的状態と、コントロール対象のセンシング結果に基づくコントロール対象の状態とに基づいて、報酬を算出する。制御学習システムは、算出された報酬とコントロール対象の状態とを用いて強化学習することで、コントロール対象を、目的状態に近づけるためのよりよいアクションを選択する。制御学習システムは、選択されたアクションを、コントロール対象に対して実行する。本開示は、例えば、端末とクラウドシステムとからなる制御学習システムに適用することができる。

Description

情報処理装置および方法、並びにプログラム
 本開示は、情報処理装置および方法、並びにプログラムに関し、特に、システムに人をコントロールする方法を効率的に学習させることができる情報処理装置および方法、並びにプログラムに関する。
 強化学習は、システム(ロボットなど)が、自分で賢い動きができるように、状態Sを観測して、他人も含め、自分以外のすべての環境から得られる報酬Rが高くなるように、環境に対してアクションAを行う学習方法である(非特許文献1参照)。
Hado van Hasselt, Arthur Guez, David Silver,"Deep Reinforcement Learning with Double Q-learning".[online].22 Sep 2015.[平成28年11月25日検索].https://arxiv.org/abs/1509.06461
 いま、自分や他人をコントロールしたいといった要求がある。しかしながら、いままでの強化学習は、あくまでもシステムを賢く動作させるものであった。また、人間が人のコントロールに割ける労力には限界があった。
 本開示は、このような状況に鑑みてなされたものであり、システムに人をコントロールする方法を効率的に学習させることができるものである。
 本技術の一側面の情報処理装置は、入力されたコントロール対象の目的状態と、前記コントロール対象のセンシング結果に基づくコントロール対象の状態とに基づいて、報酬を算出する報酬算出部と、前記報酬算出部により算出された報酬と前記コントロール対象の状態とを用いて強化学習することで、前記コントロール対象を、前記目的状態に近づけるためのよりよいアクションを選択する強化学習部と、前記強化学習部により選択されたアクションを、前記コントロール対象に対して実行するアクション実行部とを備える。
 前記コントロール対象に対して行われたアクションの因果分析を行う因果分析部と、前記因果分析部により因果分析が行われた結果、前記コントロール対象を、前記目的状態に近づけるためのよりよいアクションを追加するアクション追加部とをさらに備えることができる。
 前記アクション追加部による前記アクションの追加に関することを通知する通知部をさらに備えることができる。
 前記アクション追加部により前記アクションが追加された後に、前記通知部は、前記アクション追加部による前記アクションの追加の完了を通知することができる。
 前記通知部は、前記アクション追加部による前記アクションの追加の推薦を通知し、前記通知に対して前記アクションの追加が指示された場合、前記アクション追加部は、前記コントロール対象を、前記目的状態に近づけるためのよりよいアクションを追加することができる。
 前記コントロール対象の目的状態をより細かい目的に分解する分解部をさらに備えることができる。
 前記アクション実行部により実行されたアクションの履歴を登録するアクション実行履歴DBをさらに備えることができる。
 画像の入力により、前記コントロール対象の目的状態を認識する入力受け付け部をさらに備えることができる。
 前記コントロール対象をセンシングするセンサ部をさらに備えることができる。
 前記コントロール対象に対して行われたアクションを入力するアクション入力部をさらに備える。
 本技術の一側面の情報処理方法は、情報処理装置が、入力されたコントロール対象の目的状態と、前記コントロール対象のセンシング結果に基づくコントロール対象の状態とに基づいて、報酬を算出し、算出された報酬と前記コントロール対象の状態とを用いて強化学習することで、前記コントロール対象を、前記目的状態に近づけるためのよりよいアクションを選択し、選択されたアクションを、前記コントロール対象に対して実行する。
 本技術の一側面のプログラムは、入力されたコントロール対象の目的状態と、前記コントロール対象のセンシング結果に基づくコントロール対象の状態とに基づいて、報酬を算出する報酬算出部と、前記報酬算出部により算出された報酬と前記コントロール対象の状態とを用いて強化学習することで、前記コントロール対象を、前記目的状態に近づけるためのよりよいアクションを選択する強化学習部と、前記強化学習部により選択されたアクションを、前記コントロール対象に対して実行するアクション実行部として、コンピュータを機能させる。
 本技術の一側面においては、入力されたコントロール対象の目的状態と、前記コントロール対象のセンシング結果に基づくコントロール対象の状態とに基づいて、報酬が算出され、算出された報酬と前記コントロール対象の状態とを用いて強化学習することで、前記コントロール対象を、前記目的状態に近づけるためのよりよいアクションが選択される。そして、選択されたアクションが、前記コントロール対象に対して実行される。
 本技術によれば、特に、システムに人をコントロールする方法を効率的に学習させることができる。
 なお、本明細書に記載された効果は、あくまで例示であり、本技術の効果は、本明細書に記載された効果に限定されるものではなく、付加的な効果があってもよい。
本技術を適用した制御学習システムについて説明する図である。 制御学習システムの詳細な構成例を示すブロック図である。 目的状態の設定について説明する図である。 目的の分解に用いられるデータセットの例を示す図である。 目的の分解について説明する図である。 アクションの実行について説明する図である。 ユーザ状態の監視について説明する図である。 強化学習について説明する図である。 負の報酬の例を説明する図である。 制御学習コントロールシステムの制御学習処理を説明するフローチャートである。 本技術を適用したパーソナルコンピュータの例を示すブロック図である。 本技術を適用したクラウドサービスの例を示す図である。
 以下、本開示を実施するための形態(以下実施の形態とする)について説明する。なお、説明は以下の順序で行う。
1.第1の実施の形態(システム構成)
2.第2の実施の形態(機器構成)
<1.第1の実施の形態>
 <制御学習システムの構成例>
 図1は、本技術を適用した制御学習システムについて説明する図である。
 図1の例において、ユーザ2は、制御学習システム1を用いて、コントロール対象3をコントロールする。制御学習システム1は、例えば、ロボットや家電、多機能携帯電話機などの端末とクラウドサービスなどで構成される。コントロール対象3は、自分自身、または上司、部下、子ども、介護必要な老人、周囲の人などの他人である。なお、コントロール対象3としては、人のコントロールに限らず、ペットや植物、害虫などであってもよい。
 ユーザ2は、コントロール対象3である人(自分、他人)と、そのコントロール対象3をどのようにコントロールしたいかを示す目的状態の設定を、矢印A1に示されるように、制御学習システム1に入力する。
 制御学習システム1は、ユーザ2が設定した目的状態を実現すべく、矢印A2に示されるように、アクションを実行する。アクションとしては、例えば、発話、音や映像の再生、メッセージ送信、アプリケーション起動などがあげられる。制御学習システム1は、矢印A3に示されるようにユーザ2の状態を監視する。また、制御学習システム1は、矢印A4に示されるように、コントロール対象3の状態である対象状態をセンシングする。
 そして、制御学習システム1は、A5に示されるように、ユーザ2の発話などを通して、強化学習を用い、コントロール対象3の状態に対して、どのようなアクションを行うと、コントロール対象3がユーザ2の設定した目的状態に近づけることができるのかを学習する。
 強化学習は、状態Sにおいて与えられた報酬Rを最大化するよう、機械(システム)自らが行動Aを学習する学習方法である。図1の例においては、制御学習システム1は、制御学習システム1からの発話などに対して、コントロール対象3を意のままにコントロールするアルゴリズムを自動的に獲得する。すなわち、ここでは、「人を設定どおりにコントロールできたかどうか」=報酬Rであり、「制御学習システム1からの発話など」=アクションAである。
 学習が進むと、制御学習システム1は、コントロール対象3をより効果的に目的状態に近づけるアクションを選択(自動追加、自動推薦)し、実行するようになっていく。
 以上のように、図1の制御学習システム1においては、強化学習を用いることで、制御学習システム1が自動的に、コントロール対象3のコントロール方法を獲得することができる。これにより、人とシステムが協調しながら、効率よく人をコントロールする方法を制御学習システム1に学習させることができる。
 図2は、制御学習システムの詳細な構成例を示している。
 図2の例においては、制御学習システム1は、入力部11、出力部12、センサ部13、およびアクション実行部14、コントロール設定入力部31、分解部32、コントロール設定DB33、アクション追加入力部34、アクション設定DB35対象状態センシング部36、報酬算出部37、強化学習部38、アクション制御部39、アクション実行履歴DB40、因果分析部41、分析結果DB42、フィードバック部43、およびマニュアル実行要求入力部44を含むように構成される。
 なお、制御学習システム1は、例えば、ロボットや家電、多機能携帯電話機などの端末だけで構成されてもよいし、端末とクラウドシステムとで構成されてもよい。複数で構成される場合、各装置には、ネットワークに接続される送信部、受信部が備えられ、操作入力部11、出力部12、センサ部13、およびアクション実行部14さえ端末側に構成されていれば、他の各部は、端末側であってもよいし、クラウドサービス側であってもよい。なお、制御学習システム1は、端末、ホームサーバ、クラウドシステムで構成されてもよい。この場合も、操作入力部11、出力部12、センサ部13、およびアクション実行部14さえ端末側に構成されていれば、他の各部は、端末側であってもよいし、ホームサーバ側であってもよいし、クラウドサービス側であってもよいが、各DBは、クラウドシステム側に備えられるのが好ましい。
 入力部11は、タッチパネル、マウス、キーボード、マイクロホン、またはカメラなどで構成される。入力部11は、画像や音声などから得られるユーザの行動(操作や発話)に対応して、コントロール設定入力(コントロール対象3、目標状態、達成日時、アクション、頻度、コストなど)をコントロール設定入力部31に入力する。
 入力部11は、ユーザの操作や発話、動きに対応して、アクション追加を、アクション追加入力部34に入力する。入力部11は、ユーザの操作や発話に対応して、マニュアル実行をマニュアル実行要求入力部44に入力する。
 出力部12は、LCDやスピーカなどで構成され、目標状態の操作画面やフィードバック部43からのアクション実行の報告などが表示されたり、その報告に対応する音声が出力される。
 センサ部13は、カメラや各種センサ(触覚センサ、加速度センサ、ジャイロ、マイクロホン)などで構成される。センサ部13は、コントロール対象3の状態をセンシングし、センシング結果を、対象状態センシング部36に供給する。
 アクション実行部14は、コントロール対象3に対して、アクションを実行する。アクション実行部14は、例えば、言語を話したり、映像を再生したり、音楽や音を鳴らしたり、メッセージを送信したり、他のアプリケーションを実行したりする。
 コントロール設定入力部31は、ユーザ2により設定されたコントロール対象3と目標状態を受け取り、分解部32またはコントロール設定DB33に供給する。分解部32は、コントロール対象3の特徴や目的状態に基づいて、目的状態を分解し、コントロール対象3と分解した目的状態とをコントロール設定DB33に登録する。
 コントロール設定DB33は、コントロール設定入力部31または分解部32からのコントロール対象3の特徴や目的状態と、それに対応して、アクション追加入力部34からの追加されたアクションとを対応させて記憶する。
 アクション追加入力部34は、入力部11、または、因果分析部41による因果分析後の分析結果DB42からのアクション追加を、コントロール設定DB33、アクション設定DB35、および因果分析部41に供給する。アクション設定DB35は、アクション追加入力部34からのアクション追加を記憶する。
 対象状態センシング部36は、センサ部13からのセンシング情報に基づく状態Sを報酬算出部および強化学習部38に供給する。報酬算出部37は、対象状態センシング部36からの状態Sとコントロール設定DB33に記憶されているコントロール対象3の特徴と目的状態に基づいて報酬Rを算出する。強化学習部38は、報酬算出部37により算出された報酬Rと対象状態センシング部36からの状態Sとを用いて、強化学習を行い、よりよいと選択されたアクションAをアクション制御部39に供給する。
 アクション制御部39は、強化学習部38からのアクションA、アクション設定DB35から読み出されたアクション、または、マニュアル実行要求入力部44からのマニュアル実行要求に応じて、アクション実行部14のアクションを制御する。また、アクション制御部39は、アクションの実行履歴(アクションとその結果)を、アクション実行履歴DB40に登録する。
 アクション実行履歴DB40は、アクション制御部39によりアクションの実行履歴が登録される。なお、同じアクションでもユーザ毎にフラグをつけるようにしてもよい。また、アクションの頻度をコントロール可能にすることもできる。
 因果分析部41は、アクション追加入力部34からのアクション、またはアクション実行履歴DB40のアクションの実行履歴(アクションとその結果)から因果分析を行い、分析結果DB42に登録させる。因果分析の手法としては、Max-min Hill Climbingまたは対象変数を除いて精度を見る方法があげられる。分析結果DB42は、因果分析の結果を登録し、効果のあるアクションの追加を、アクション追加入力部34に供給する。
 フィードバック部43は、分析結果DB42からの分析結果と、アクション実行履歴DB効果のあるアクションの通知やユーザへの推薦を出力部12に出力する。
 マニュアル実行要求入力部44は、ユーザ2により入力部11を介して入力されるアクションのマニュアル実行要求を受付、アクション制御部39に指示する。
 <目的状態の設定>
 以下、制御学習システム1の詳細について説明する。まず、上述した図1の矢印A1で示された目的状態の設定について説明する。
 図3は、コントロール対象3に対しての目的状態を設定する設定画面の例である。
 例えば、ユーザ2は、コントロール対象3の画像(写真)を撮るなどして、出力部12に表示される設定画面51を見ながら、撮像した画像(コントロール対象3とその目的状態)を、制御学習システム1に入力する。
 設定画面51には、目的状態として、「画像(赤ちゃんが寝ている)」が示され、達成日時として、「3時間毎に2時間以上継続」が示され、アクションとして、「発話、音楽」が示され、頻度として、「最大20回/日」が示され、コストとして、「100円/日」であることが示されている。設定画面51の下部に設けられた追加ボタンを押すことで、ユーザ2は、これらの情報を目的状態として追加することができる。
 ここで、画像は、非常に少ないデータから適切な認識機の学習を可能にする機械学習のテクニックであるOne shot-learning技術により、ユーザ2は、1枚乃至数枚の写真(画像)を撮ることで、コントロール対象3の目的状態を制御学習システム1に入力することができる。
 設定画面51においては、達成日時は、毎週(設定したい曜日)、毎日、達成したい時間、期間などから設定可能としてもよい。また、実行するアクションの種類、許容するコスト(有料API利用時など)、アクションの頻度も一日一回など設定可能とされる。
 さらに、ユーザ2は、例えば、「娘が3時間毎に2時間は寝るようにコントロール、アクションは、音楽か声かけ(発話)で、1日20回まで」。「図書館では、静かにするようにコントロール」など発話により目的状態を設定してもよい。また、ユーザ2は、画像と発話の組み合わせにより目的状態を設定してもよい。
 また、他のユーザが作成したレシピから選択するようにしてもよい。なお、レシピとは、個人作成もしくは公に共有しているプロフィールであり、IFTTTなどのWebサービスで用いられている。また、達成までにステップ(段階)が必要なタスク(勉強など)は、分解部32により、細かいタスクへ分解するようにしてもよい(例えば、試験に合格→毎日勉強など)。
 この場合、設計時に、図4に示されるような、目的と分解後の目的からなるテーブルがデータセット61として用意される。例えば、目的が、○○試験に合格の場合、分解後の目的が毎日○○分勉強であるデータと、目的がダイエットで○○kg痩せるの場合、分解後の目的が毎日○○分運動であるデータからなるデータセット61が用意されている。
 また、設計時に、図5に示されるように、分解部32は、(目的+コントロール対象3の特徴)71を入力し、データセット61を元に学習して分解後の目的72を作成し、出力する。
 そして、運用時に、分解部32は、{ユーザ2の目的(子どもの歯磨きを習慣化したい)とコントロール対象3の特徴(3食に2回歯磨き、1回あたりに20秒)}73を入力すると、学習されたデータセット61を用いて分解を行い、分解後の目的(毎食後歯磨き1回あたり1分以上)74を出力する。
 以上のようにして、目的の分解が行われる。
 <アクションの実行>
 次に、上述した図1の矢印A2で示されたアクションの実行について説明する。
 制御学習システム1のアクション制御部39(アクション実行部14)は、図6に示されるように、コントロール対象3に対して、登録されている各種アクションとして、「眠くなってきたねー」などの発話81や、「シューベルトの子守歌」などのコンテンツ再生82を実行する。なお、図6の例においては、制御学習システム1は、ロボット(ロボット+クラウドシステム)である例が示されている。
 最初は、ランダムに近い実行となるが、強化学習部38による強化学習が進むと次第に目的状態達成のために効果の高いアクションが、効果の高いタイミングで実行されるようになっていく。
 制御学習システム1が目的達成のために行うアクションには、例えば、発話、コンテンツ再生(音楽、静止画、動画、本の読み上げなど)、物理動作(ロボット動作、振動、触覚再現など)、嗅覚の刺激(アロマなど)、メッセージ送信、アプリ起動、外部APIのキック、空調などの外部システムのコントロールなどがある。
 制御学習システム1が実行可能なアクションには、予めプリセットされているものの他、アクション追加入力部34によりユーザが自由に登録したもの、マニュアル実行要求入力部44によりユーザがマニュアル実行したものを含めることができる。これらのマニュアル実行やアクション追加は、発話によって行われてもよい。例えば、「今度、「おやすみなさい」というのも試してみて」という発話によって、「おやすみなさい」という発話がアクションとしてと登録される。
 <ユーザ状態の監視>
 次に、上述した図1の矢印A3で示されたユーザ状態の監視について説明する。
 制御学習システム1は、ユーザ2や他の人、制御学習システム1がコントロール対象3に行っているアクションとその効果を監視し、それを自分のアクションとして取り込む。
 具体的には、図7の矢印P1に示されるように、ロボットである制御学習システム1は、ユーザ2がコントロール対象3に対して行っている発話「そろそろねんねしよっか~」とその効果を、様々な認識技術(画像認識、音声認識)で監視する。
 因果分析部41は、矢印P2に示されるように、そのアクションと効果を用いて因果分析を行い、分析結果91を分析結果DB42に登録する。この際、制御学習システム1が代理実行可能なアクションを因果分析対象とする。分析結果91においては、アクション「私も眠いな…」の分析結果は、「効果あり」で、アクション「おばけが出るよ」の分析結果は、「効果なし」で、アクション「いないいないばぁ~」の分析結果は、「逆効果」で、アクション「もう寝てよ…(泣)」の分析結果は、「逆効果」である。
 これらの分析結果のうち、「効果あり」や「効果が高い」と分析されたアクションについては、矢印P3に示されるように、アクション追加入力部34により自動追加され、「発話:「私も眠いな…」をアクションとして自動追加しました」という通知92がフィードバック部43により出力部12になされるようにすることができる。
 あるいは、「発話:「私も眠いな…」が、効果が高いことが確認されました。新しいアクションとして追加しますか?」とういう推薦93がフィードバック部43により出力部12になされるようにしてもよい。この場合、推薦93に設けられている「はい」ボタンを押すことで、「私も眠いな…」のアクションが登録される。
 なお、アクションについての表示としては、人が実行する(すなわち、システムではなく、人が実行するとよい)アクションを推薦するようにしてもよい。また、自動実行アクション一覧表示が表示されるようにし、アクションごとにON/OFFを設定できるようにしてもよい。
 <強化学習>
 次に、上述した図1の矢印A4およびA5で示された強化学習について説明する。
 制御学習システム1は、コントロール対象3をセンシングし、コントロール対象3が目的状態になったかどうかを報酬とした強化学習を行うことで、意図通りにコントロールする術を徐々に学習していく。
 図8の矢印A4に示されるように、ロボットである制御学習システム1は、対象状態のセンシングを行い、コントロール対象3が目的状態になったことを検出したとき、報酬(Reward)とする。また、A2に示されるように、アクション(発話、音や映像の再生、メッセージ送信、アプリ起動など)を行う。
 具体的には、対象状態センシング部36は、センサ部13からのセンシング情報を取得し、それを、状態Sとして、報酬算出部37と強化学習部38に供給する。センサ部13は、コントロール対象3に加え、コントロール対象3のおかれている状態(環境や場所)もセンシングする。
 報酬算出部37は、対象が目的状態になったことを検出し、報酬Rとする。報酬算出部37には、制御学習システム1を安定させるために、予めいくつかの報酬を組み込んでおく。例えば、図9を参照して後述するような負の報酬なども組み込まれる。負の報酬とは、コントロール対象3を不快にした場合の報酬であったり、コントロール対象3がユーザ2や制御学習システム1に対して負の感情を抱いた場合の報酬である。
 コントロール対象と似た対象に対する学習結果を流用し、学習速度を加速、コントロール精度を向上させることができる。なお、その際、Domain AdaptationやTransfer Learningが適用されてもよい。
 また、ユーザの発話(例:「いま、シューベルトの子守歌を再生してみて」)などを、マニュアル実行要求入力部44が受けることで、意図的に制御学習システム1に特定のアクションを試させることも可能である。
 さらに、制御学習システム1は、アクション実行履歴DB40に、どのアクションを何時に行ったかの履歴を保持しており、フィードバック部43は、アクション実行履歴DB40の履歴をリスト表示や読み上げを行い、ユーザに報告するUIも提供可能である。例えば、「今日は、○時に「私も眠いな」といいました。その30分後にターゲットは目的状態に達しました」などの報告が行われる。
 図9は、負の報酬の例を説明する図である。
 ユーザ2は、ステップS1において、「8時までに旦那に帰ってきてほしい」と発話することで、制御学習システム1に、コントロール対象3「だんな」と目的状態「8時までに帰ってきてほしい」を入力する。
 制御学習システム1の入力部11、コントロール設定入力部31、コントロール設定DB33を介して、報酬算出部37に、コントロール対象3と目的状態が供給される。報酬算出部37は、報酬Rを算出し、強化学習部38に供給する。強化学習部38は、報酬算出部37からの報酬Rと対象状態センシング部36からの状態Sに基づいて学習を行い、アクションAをアクション制御部39に供給する。
 ステップS2において、アクション制御部39は、アクションA(例えば、「早く帰ってきてね」のメッセージ送信)を行う。
 これに対して、ステップS3において、センサ部13は、コントロール対象3からの、制御学習システム1への反感をセンシングする(例えば、受信メッセージ「仕事中に何度もメッセージを送らないで!」を元に)。
 あるいは、ステップS4において、センサ部13は、コントロール対象3からの、ユーザ2への反感をセンシングする(例えば、「さては、妻が、制御学習システム1を用いて、僕をコントロールしようとしているな?!」などの独り言をセンシングする)。
 以上のようにしてセンシングされた、制御学習システム1への負の感情(反感)、ユーザへの負の感情(反感)を、強化学習部38は、強化学習の際、負の報酬とする。これにより、制御学習システム1を安定させることができる。
 <システムの動作>
 次に、図10のフローチャートを参照して、制御学習システム1の制御学習処理を説明する。
 ステップS11において、コントロール設定入力部31は、入力部11からのコントロール対象3と目的状態の入力を受け取る。受け取られたコントロール対象3と目的状態は、コントロール設定DB33に登録されるとともに、分解部32に供給される。
 ステップS12において、分解部32は、図4および図5を参照して上述したように、目的の分解を行う。分解後の目的は、コントロール設定DB33に登録される。なお、目的が単純なものであった場合、分解は行われなくてもよい。
 ステップS13において、アクション実行部14は、アクション制御部39の制御のもと、アクションを実行する。すなわち、アクション制御部39は、強化学習部38からのアクションA、アクション設定DB35から読み出されたアクション、または、マニュアル実行要求入力部44からのマニュアル実行要求に応じて、アクション実行部14に、アクションを実行させる。アクション実行後、アクション制御部39は、アクション実行履歴DB40にアクションの履歴を登録する。
 ステップS14において、アクション追加入力部34は、入力部11から入力される画像、音声、情報(ユーザの操作や発話、動き)に基づいて、ユーザ状態を監視する。
 ステップS15において、対象状態センシング部36は、コントロール対象3の対象状態をセンシングし、センシングの状態Sを報酬算出部37と強化学習部38に供給する。
 ステップS16において、強化学習部38は、ユーザ2の発話などを通して、強化学習を用い、コントロール対象3の状態に対して、どのようなアクションを行うと、コントロール対象3がユーザ2の設定した目的状態に近づけることができるのか、学習を行う。強化学習部38は、報酬算出部37により算出された報酬Rと対象状態センシング部36からの状態Sとを用いて、強化学習を行い、よりよいと選択されたアクションAをアクション制御部39に供給する。
 そして、処理は、ステップS13に戻り、コントロール対象3が目的の状態になるまで、あるいは、ユーザAにより終了指示が行われるまで、それ以降の処理が繰り返される。
 最初は、ランダムに近い実行となるが、学習が進むと、制御学習システム1は、コントロール対象3をより効果的に目的状態に近づけるアクションを選択(自動追加、自動推薦)し、実行するようになっていく。すなわち、学習が進むと、目的状態達成のために効果の高いアクションが、効果の高いタイミングで実行されるようになっていく。
 以上、本技術によれば、人とシステムが協調しながら、効率よく人をコントロールさせる方法をシステムに学習させることができる。
 なお、本技術は、家電、ロボット、スマートフォンなどの端末に限らず、車両、手術用装置、工場の機械、病院、歯を削る歯科などの装置などにも適用することができる。
<2.第2の実施の形態>
 <パーソナルコンピュータ>
 上述した一連の処理は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウエアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な汎用のパーソナルコンピュータなどが含まれる。
 図11は、上述した一連の処理の一部または全部をパーソナルコンピュータで構成する場合のプログラムにより実行するパーソナルコンピュータのハードウエアの構成例を示すブロック図である。
 パーソナルコンピュータ200において、CPU(Central Processing Unit)201、ROM(Read Only Memory)202、RAM(Random Access Memory)203は、バス204により相互に接続されている。
 バス204には、さらに、入出力インタフェース205が接続されている。入出力インタフェース205には、入力部206、出力部207、記憶部208、通信部209、及びドライブ210が接続されている。
 入力部206は、キーボード、マウス、マイクロホンなどよりなる。出力部207は、ディスプレイ、スピーカなどよりなる。記憶部208は、ハードディスクや不揮発性のメモリなどよりなる。通信部209は、ネットワークインタフェースなどよりなる。ドライブ210は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体211を駆動する。
 以上のように構成されるパーソナルコンピュータ200では、CPU201が、例えば、記憶部208に記憶されているプログラムを、入出力インタフェース202及びバス204を介して、RAM203にロードして実行する。これにより、上述した一連の処理が行われる。
 コンピュータ(CPU201)が実行するプログラムは、リムーバブル記録媒体211に記録して提供することができる。リムーバブルメディア211は、例えば、磁気ディスク(フレキシブルディスクを含む)、光ディスク(CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)等)、光磁気ディスク、もしくは半導体メモリなどよりなるパッケージメディア等である。また、あるいは、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
 コンピュータにおいて、プログラムは、リムーバブル記録媒体211をドライブ210に装着することにより、入出力インタフェース205を介して、記憶部208にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部209で受信し、記憶部208にインストールすることができる。その他、プログラムは、ROM202や記憶部208に、あらかじめインストールしておくことができる。
 なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要な段階で処理が行われるプログラムであっても良い。
 また、本明細書において、記録媒体に記録されるプログラムを記述するステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。
 また、本明細書において、システムとは、複数のデバイス(装置)により構成される装置全体を表すものである。
 例えば、本開示は、1つの機能を、ネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
 例えば、本技術は、複数の装置により構成されるネットワークシステムにも適用することもできる。図12は、本技術を適用したネットワークシステムの概略的な構成の一例を示している。
 図12に示されるネットワークシステム300は、機器同士が、ネットワークを介して、コントロール対象を制御学習するシステムである。このネットワークシステム300のクラウドサービス301は、自身に通信可能に接続される端末302やホームサーバ303などと一緒に、コントロール対象を制御学習するサービスを提供するシステムである。例えば、クラウドサービス301は、図2の制御学習システム1の点線部分を提供する。その場合、端末302は、図1の制御学習システム1の点線以外の入出力部分(操作入力部11、出力部12、センサ部13、およびアクション実行部14)を提供する。また、例えば、図2の制御学習システム1のコントロール設定入力部31、分解部32、コントロール設定DB33のみは、ホームサーバ303に備えられるようにしてもよいし、ホームサーバ303はなくてもよい。このように、操作入力部11、出力部12、センサ部13、およびアクション実行部14さえ端末側に構成されていれば、他の各部は、端末(またはホームサーバ)側であってもよいし、クラウドサービス側であってもよい。なお、図2の制御学習システム1を複数の装置で構成する場合には、図示しないが、各装置には、ネットワークに接続される送信部、受信部が備えられる。
 クラウドサービス301の物理構成は任意である。例えば、クラウドサービス301は、コントロール対象を制御学習するサービスだけでなく、他のサーバや、インターネットやLAN等の任意のネットワークを有するようにしてもよい。
 端末302は、例えば、ロボット、冷蔵庫やエアーコンディショナーなどの家電、家具、テレビジョン受像機、ハードディスクレコーダ、ゲーム機器、カメラ等のAV機器、パーソナルコンピュータ、ノート型パーソナルコンピュータ、タブレット端末、携帯電話機、スマートフォン等のような携帯型の情報処理装置、眼鏡や時計などのウェアラブル機器などで構成される。
 以上のようなネットワークシステム300に本技術を適用し、端末302とクラウドサービス301との間でコントロール対象を制御学習するようにすることで、端末302だけに負荷がかからず、クラウドサービス301のサーバで高速な処理を行うことができるため、ユーザに満足のいくサービスを提供することができる。
 また、クラウドサービス301において、ある目的状態のアクションセットを設けて課金したり、コントロール対象数やアクション登録数増で課金したりなどのサービスや、アクションコンテンツに広告を含めるなどのサービス、データ(コントロールニーズデータや人の行動パターンデータなど)を販売するなどのサービスを提供するようにしてもよい。
 なお、以上において、1つの装置(または処理部)として説明した構成を分割し、複数の装置(または処理部)として構成するようにしてもよい。逆に、以上において複数の装置(または処理部)として説明した構成をまとめて1つの装置(または処理部)として構成されるようにしてもよい。また、各装置(または各処理部)の構成に上述した以外の構成を付加するようにしてももちろんよい。さらに、システム全体としての構成や動作が実質的に同じであれば、ある装置(または処理部)の構成の一部を他の装置(または他の処理部)の構成に含めるようにしてもよい。つまり、本技術は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
 以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示はかかる例に限定されない。本開示の属する技術の分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
 なお、本技術は以下のような構成も取ることができる。
 (1) 入力されたコントロール対象の目的状態と、前記コントロール対象のセンシング結果に基づくコントロール対象の状態とに基づいて、報酬を算出する報酬算出部と、
 前記報酬算出部により算出された報酬と前記コントロール対象の状態とを用いて強化学習することで、前記コントロール対象を、前記目的状態に近づけるためのよりよいアクションを選択する強化学習部と、
 前記強化学習部により選択されたアクションを、前記コントロール対象に対して実行するアクション実行部と
 を備える情報処理装置。
 (2) 前記コントロール対象に対して行われたアクションの因果分析を行う因果分析部と、
 前記因果分析部により因果分析が行われた結果、前記コントロール対象を、前記目的状態に近づけるためのよりよいアクションを追加するアクション追加部と
 をさらに備える前記(1)に記載の情報処理装置。
 (3) 前記アクション追加部による前記アクションの追加に関することを通知する通知部を
 さらに備える前記(2)に記載の情報処理装置。
 (4) 前記アクション追加部により前記アクションが追加された後に、
 前記通知部は、前記アクション追加部による前記アクションの追加の完了を通知する
 前記(3)に記載の情報処理装置。
 (5) 前記通知部は、前記アクション追加部による前記アクションの追加の推薦を通知し、
 前記通知に対して前記アクションの追加が指示された場合、前記アクション追加部は、前記コントロール対象を、前記目的状態に近づけるためのよりよいアクションを追加する
 前記(3)に記載の情報処理装置。
 (6) 前記コントロール対象の目的状態をより細かい目的に分解する分解部を
 さらに備える前記(1)乃至(5)のいずれかに記載の情報処理装置。
 (7) 前記アクション実行部により実行されたアクションの履歴を登録するアクション実行履歴DBを
 さらに備える前記(1)乃至(6)のいずれかに記載の情報処理装置。
 (8) 画像の入力により、前記コントロール対象の目的状態を認識する入力受け付け部を
 さらに備える前記(1)乃至(7)のいずれかに記載の情報処理装置。
 (9) 前記コントロール対象をセンシングするセンサ部を
 さらに備える前記(1)乃至(8)のいずれかに記載の情報処理装置。
 (10) 前記コントロール対象に対して行われたアクションを入力するアクション入力部を
 さらに備える前記(1)乃至(9)のいずれかに記載の情報処理装置。
 (11) 情報処理装置が、
 入力されたコントロール対象の目的状態と、前記コントロール対象のセンシング結果に基づくコントロール対象の状態とに基づいて、報酬を算出し、
 算出された報酬と前記コントロール対象の状態とを用いて強化学習することで、前記コントロール対象を、前記目的状態に近づけるためのよりよいアクションを選択し、
 選択されたアクションを、前記コントロール対象に対して実行する
 情報処理方法。
 (12) 振動を行う振動部を振動させるための振動の波形を含む触覚信号に、前記触覚信号を使用する振動部に関する情報が記載されたヘッダが付加された信号が時分割多重化された時分割多重化信号を受信する受信部と、
 前記受信部により受信された時分割多重化信号から、触覚信号とヘッダとを分離する分離部と、
 前記分離部により分離されたヘッダに応じて、前記分離部により分離された触覚信号を信号調整する信号調整部と、
 前記信号調整部により調整された触覚信号に基づく振動を行う前記振動部と
 して、コンピュータを機能させるプログラム。
 1 制御学習システム, 2 ユーザ, 3 コントロール対象, 11 入力部, 12 出力部, 13 センサ部, 14 アクション実行部, 31 コントロール設定入力部, 32 分解部, 33 コントロール設定DB, 34 アクション追加入力部, 35 アクション設定DB, 36 アクション制御部, 37 対象状態センシング部, 38 報酬算出部, 39 強化学習部, 40 アクション実行履歴部, 41 因果分析部, 42 分析結果DB, 43 フィードバック部, 44 マニュアル実行要求入力部, 51 設定画面, 61 データセット, 81 発話, 82 コンテンツ再生, 91 分析結果, 92 通知, 93 推薦, 200 パーソナルコンピュータ, 300 ネットワークシステム, 301 クラウドサービス, 302 端末, 303 ホームサーバ

Claims (12)

  1.  入力されたコントロール対象の目的状態と、前記コントロール対象のセンシング結果に基づくコントロール対象の状態とに基づいて、報酬を算出する報酬算出部と、
     前記報酬算出部により算出された報酬と前記コントロール対象の状態とを用いて強化学習することで、前記コントロール対象を、前記目的状態に近づけるためのよりよいアクションを選択する強化学習部と、
     前記強化学習部により選択されたアクションを、前記コントロール対象に対して実行するアクション実行部と
     を備える情報処理装置。
  2.  前記コントロール対象に対して行われたアクションの因果分析を行う因果分析部と、
     前記因果分析部により因果分析が行われた結果、前記コントロール対象を、前記目的状態に近づけるためのよりよいアクションを追加するアクション追加部と
     をさらに備える請求項1に記載の情報処理装置。
  3.  前記アクション追加部による前記アクションの追加に関することを通知する通知部を
     さらに備える請求項2に記載の情報処理装置。
  4.  前記アクション追加部により前記アクションが追加された後に、
     前記通知部は、前記アクション追加部による前記アクションの追加の完了を通知する
     請求項3に記載の情報処理装置。
  5.  前記通知部は、前記アクション追加部による前記アクションの追加の推薦を通知し、
     前記通知に対して前記アクションの追加が指示された場合、前記アクション追加部は、前記コントロール対象を、前記目的状態に近づけるためのよりよいアクションを追加する
     請求項3に記載の情報処理装置。
  6.  前記コントロール対象の目的状態をより細かい目的に分解する分解部を
     さらに備える請求項1に記載の情報処理装置。
  7.  前記アクション実行部により実行されたアクションの履歴を登録するアクション実行履歴DBを
     さらに備える請求項1に記載の情報処理装置。
  8.  画像の入力により、前記コントロール対象の目的状態を認識する入力受け付け部を
     さらに備える請求項1に記載の情報処理装置。
  9.  前記コントロール対象をセンシングするセンサ部を
     さらに備える請求項1に記載の情報処理装置。
  10.  前記コントロール対象に対して行われたアクションを入力するアクション入力部を
     さらに備える請求項1に記載の情報処理装置。
  11.  情報処理装置が、
     入力されたコントロール対象の目的状態と、前記コントロール対象のセンシング結果に基づくコントロール対象の状態とに基づいて、報酬を算出し、
     算出された報酬と前記コントロール対象の状態とを用いて強化学習することで、前記コントロール対象を、前記目的状態に近づけるためのよりよいアクションを選択し、
     選択されたアクションを、前記コントロール対象に対して実行する
     情報処理方法。
  12.  入力されたコントロール対象の目的状態と、前記コントロール対象のセンシング結果に基づくコントロール対象の状態とに基づいて、報酬を算出する報酬算出部と、
     前記報酬算出部により算出された報酬と前記コントロール対象の状態とを用いて強化学習することで、前記コントロール対象を、前記目的状態に近づけるためのよりよいアクションを選択する強化学習部と、
     前記強化学習部により選択されたアクションを、前記コントロール対象に対して実行するアクション実行部と
     して、コンピュータを機能させるプログラム。
PCT/JP2017/042153 2016-12-07 2017-11-24 情報処理装置および方法、並びにプログラム WO2018105412A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
EP17877417.0A EP3553711A4 (en) 2016-12-07 2017-11-24 INFORMATION PROCESSING DEVICE AND METHOD AND PROGRAM
US16/465,232 US10795326B2 (en) 2016-12-07 2017-11-24 Information processing apparatus, and method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2016237602 2016-12-07
JP2016-237602 2016-12-07

Publications (1)

Publication Number Publication Date
WO2018105412A1 true WO2018105412A1 (ja) 2018-06-14

Family

ID=62492233

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2017/042153 WO2018105412A1 (ja) 2016-12-07 2017-11-24 情報処理装置および方法、並びにプログラム

Country Status (3)

Country Link
US (1) US10795326B2 (ja)
EP (1) EP3553711A4 (ja)
WO (1) WO2018105412A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2021220556A1 (ja) * 2020-04-28 2021-11-04

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005238422A (ja) * 2004-02-27 2005-09-08 Sony Corp ロボット装置、並びにその状態遷移モデル構築方法及び行動制御方法
JP2006088251A (ja) * 2004-09-22 2006-04-06 Toshiba Corp ユーザ行動誘発システム及びその方法
WO2007116590A1 (ja) * 2006-03-31 2007-10-18 Hitachi, Ltd. 運転制御方法,運転制御装置及び運転制御システム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4389706A (en) * 1972-05-03 1983-06-21 Westinghouse Electric Corp. Digital computer monitored and/or operated system or process which is structured for operation with an improved automatic programming process and system
US6782374B2 (en) * 1998-12-22 2004-08-24 Accenture Global Services Gmbh System, method and article of manufacturing for a runtime program analysis tool for a simulation engine
US6317700B1 (en) * 1999-12-22 2001-11-13 Curtis A. Bagne Computational method and system to perform empirical induction
SG125900A1 (en) * 2002-05-21 2006-10-30 Tay Kim Huat Abel Paschal Strategic business simulation
AU2010203781B9 (en) * 2009-01-07 2013-12-05 3M Innovative Properties Company System and method for concurrently conducting cause-and-effect experiments on content effectiveness and adjusting content distribution to optimize business objectives
US20100179930A1 (en) * 2009-01-13 2010-07-15 Eric Teller Method and System for Developing Predictions from Disparate Data Sources Using Intelligent Processing
US8504493B2 (en) * 2011-02-15 2013-08-06 Sigma Space Corporation Self-organizing sequential memory pattern machine and reinforcement learning method
JP5874292B2 (ja) * 2011-10-12 2016-03-02 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005238422A (ja) * 2004-02-27 2005-09-08 Sony Corp ロボット装置、並びにその状態遷移モデル構築方法及び行動制御方法
JP2006088251A (ja) * 2004-09-22 2006-04-06 Toshiba Corp ユーザ行動誘発システム及びその方法
WO2007116590A1 (ja) * 2006-03-31 2007-10-18 Hitachi, Ltd. 運転制御方法,運転制御装置及び運転制御システム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HADO VAN HASSELTARTHUR GUEZDAVID SILVER, DEEP REINFORCEMENT LEARNING WITH DOUBLE Q-LEARNING, 22 September 2015 (2015-09-22), Retrieved from the Internet <URL:https://arxiv.org/abs/1509.06461>
See also references of EP3553711A4

Also Published As

Publication number Publication date
EP3553711A4 (en) 2019-12-25
US20200012237A1 (en) 2020-01-09
US10795326B2 (en) 2020-10-06
EP3553711A1 (en) 2019-10-16

Similar Documents

Publication Publication Date Title
US20180124475A1 (en) Systems and Methods for Enhanced Television Interaction
US9824606B2 (en) Adaptive system for real-time behavioral coaching and command intermediation
KR20150103681A (ko) 액션을 결정하는데 비언어적 의사소통을 이용하는 기법
JP6400871B1 (ja) 発話制御装置、発話制御方法、および発話制御プログラム
CN105611412A (zh) 视频文件播放方法、确定视频片段的方法及装置
US10997400B2 (en) Interest maintaining system and server
CN110945473A (zh) 信息处理装置和信息处理方法
WO2018105412A1 (ja) 情報処理装置および方法、並びにプログラム
WO2016052520A1 (ja) 対話装置
JP6557376B1 (ja) 出力制御装置、出力制御方法、および出力制御プログラム
KR102087514B1 (ko) 건강 및 복지 데이터에 기초하여 시청각 장치를 조정하기 위한 시스템
EP2787712B1 (en) Presence-aware information system
JPWO2019087854A1 (ja) 片付け支援システム、片付け支援方法およびプログラム
JP7307576B2 (ja) プログラム及び情報処理装置
JP2022060820A (ja) リモート会議支援制御装置、方法およびプログラム
WO2023106088A1 (ja) 関心度推定システム、及び、関心度推定方法
US20200160833A1 (en) Information processor, information processing method, and program
JP6529065B2 (ja) ロボット制御装置、ロボット制御システムおよびロボット制御プログラム
JP7300093B2 (ja) テレビユーザとの相互作用の適応
JP6499343B1 (ja) 情報処理装置、情報処理方法、および情報処理プログラム
JP6781460B2 (ja) 遠隔遊び支援システム、方法およびプログラム
JP6787957B2 (ja) 発話制御装置、発話制御方法、および発話制御プログラム
WO2019087779A1 (ja) 情報処理装置、情報処理方法、およびプログラム
JP2024004334A (ja) 関心度推定システム、及び、関心度推定方法
CN116246662A (zh) 安抚方法、装置、系统及存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17877417

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2017877417

Country of ref document: EP

Effective date: 20190708

NENP Non-entry into the national phase

Ref country code: JP