WO2021070732A1 - 情報処理装置、情報処理方法、並びにプログラム - Google Patents

情報処理装置、情報処理方法、並びにプログラム Download PDF

Info

Publication number
WO2021070732A1
WO2021070732A1 PCT/JP2020/037433 JP2020037433W WO2021070732A1 WO 2021070732 A1 WO2021070732 A1 WO 2021070732A1 JP 2020037433 W JP2020037433 W JP 2020037433W WO 2021070732 A1 WO2021070732 A1 WO 2021070732A1
Authority
WO
WIPO (PCT)
Prior art keywords
learning
learning model
user
information processing
information
Prior art date
Application number
PCT/JP2020/037433
Other languages
English (en)
French (fr)
Inventor
卓 青木
竜太 佐藤
小川 哲
至 清水
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to JP2021551450A priority Critical patent/JPWO2021070732A1/ja
Priority to US17/641,011 priority patent/US20220335292A1/en
Priority to CN202080069863.8A priority patent/CN114503133A/zh
Publication of WO2021070732A1 publication Critical patent/WO2021070732A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • G06F18/2178Validation; Performance evaluation; Active pattern learning techniques based on feedback of a supervisor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0242Determining effectiveness of advertisements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • G06Q30/0265Vehicular advertisement
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/06Asset management; Financial planning or analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition

Definitions

  • This technology relates to information processing devices, information processing methods, and programs. For example, when the learning environment changes, the information processing devices, information processing methods, and programs that enable learning corresponding to the new environment. Regarding.
  • Patent Document 1 discloses a technique for shortening the time required for reinforcement learning.
  • This technology was made in view of such a situation, and it detects that the environment has changed and makes it possible to respond to the new environment as soon as possible when the environment changes.
  • the information processing device of one aspect of the present technology is a determination unit that determines an action for input information based on a predetermined learning model, and when the change in the amount of reward for the action exceeds a predetermined standard. It is provided with a learning unit that relearns the learning model.
  • the information processing method of one aspect of the present technology is when the information processing device determines an action for input information based on a predetermined learning model, and the change in the amount of reward for the action exceeds a predetermined standard.
  • the learning model is retrained.
  • the program of one aspect of the present technology determines an action for input information on a computer based on a predetermined learning model, and when the change in the amount of reward for the action exceeds a predetermined standard, the learning Execute the process including the step of retraining the model.
  • the action for the input information is determined based on the predetermined learning model, and the change in the amount of reward for the action exceeds the predetermined standard. If so, the learning model is retrained.
  • the information processing device may be an independent device or an internal block constituting one device.
  • the program can be provided by transmitting via a transmission medium or by recording on a recording medium.
  • This technology can be applied to information processing devices that perform reinforcement learning.
  • this technique can be applied to a learning method using LSTM (Long Short Term Memory).
  • LSTM Long Short Term Memory
  • this technique is applied to LSTM will be described as an example, but it can also be applied to reinforcement learning by other methods.
  • FIG. 1 is a diagram showing a configuration of an embodiment of an information processing device to which the present technology is applied.
  • the information processing device 10 can be configured by, for example, a personal computer.
  • the information processing device 10 mainly includes a CPU 21, a ROM 22, and a RAM 23.
  • the information processing device 10 includes a host bus 24, a bridge 25, an external bus 26, an interface 27, an input device 28, an output device 29, a storage device 30, a drive 31, a connection port 32, and a communication device 33.
  • the CPU 21 functions as an arithmetic processing device and a control device, and controls all or a part of the operation in the information processing device 10 according to various programs recorded in the ROM 22, the RAM 23, the storage device 30, or the removable recording medium 41.
  • the ROM 22 stores programs, calculation parameters, and the like used by the CPU 21.
  • the RAM 23 primarily stores the program used by the CPU 21, parameters that change as appropriate in the execution of the program, and the like. These are connected to each other by a host bus 24 composed of an internal bus such as a CPU bus.
  • the host bus 24 is connected to an external bus 26 such as a PCI (Peripheral Component Interconnect) bus via a bridge 25. Further, the input device 28, the output device 29, the storage device 30, the drive 31, the connection port 32, and the communication device 33 are connected to the external bus 26 via the interface 27.
  • PCI Peripheral Component Interconnect
  • the input device 28 is an operating means operated by the user, such as a mouse, keyboard, touch panel, buttons, switches, levers, and pedals. Further, the input device 28 may be, for example, a remote control means (so-called remote controller) using infrared rays or other radio waves, or an externally connected device such as a mobile phone or PDA that supports the operation of the information processing device 10. It may be. Further, the input device 28 is composed of, for example, an input control circuit that generates an input signal based on the information input by the user using the above-mentioned operating means and outputs the input signal to the CPU 21. By operating the input device 28, the user of the information processing device 10 can input various data to the information processing device 10 and instruct the processing operation.
  • a remote control means such as a mouse, keyboard, touch panel, buttons, switches, levers, and pedals.
  • the input device 28 may be, for example, a remote control means (so-called remote controller) using infrared rays or other radio waves, or an
  • the input device 28 may be various sensors.
  • it may be a sensor such as an image sensor, a gyro sensor, an acceleration sensor, a temperature sensor, or a pressure sensor, or a device that functions as an input unit for inputting outputs from those sensors.
  • the output device 29 is composed of a device capable of visually or audibly notifying the user of the acquired information.
  • Such devices include display devices such as CRT display devices, liquid crystal display devices, plasma display devices, EL display devices and lamps, audio output devices such as speakers and headphones, and printer devices.
  • the output device 29 outputs, for example, the results obtained by various processes performed by the information processing device 10.
  • the display device displays the results obtained by various processes performed by the information processing device 10 as text or an image.
  • the audio output device converts an audio signal composed of reproduced audio data, acoustic data, and the like into an analog signal and outputs the signal.
  • the output device 29 may be a device that outputs information for movement control to each unit, or performs movement control. It may be a motor, a brake, or the like.
  • the storage device 30 is a data storage device configured as an example of the storage unit of the information processing device 10.
  • the storage device 30 is composed of, for example, a magnetic storage device such as an HDD (Hard Disk Drive), a semiconductor storage device, an optical storage device, an optical magnetic storage device, or the like.
  • the storage device 30 stores a program executed by the CPU 21 and various data.
  • the drive 31 is a reader / writer for a recording medium, and is built in or externally attached to the information processing device 10.
  • the drive 31 reads the information recorded on the removable recording medium 41 such as the mounted magnetic disk, optical disk, magneto-optical disk, or semiconductor memory, and outputs the information to the RAM 23.
  • the drive 31 can also write records to a removable recording medium 41 such as a mounted magnetic disk, optical disk, magneto-optical disk, or semiconductor memory.
  • the removable recording medium 41 is, for example, DVD media, HD-DVD media, Blu-ray (registered trademark) media, or the like.
  • the removable recording medium 41 may be a compact flash (registered trademark) (CF: CompactFlash), a flash memory, an SD memory card (Secure Digital memory card), or the like. Further, the removable recording medium 41 may be, for example, an IC card (Integrated Circuit card) or an electronic device on which a non-contact type IC chip is mounted.
  • CF CompactFlash
  • SD memory card Secure Digital memory card
  • the connection port 32 is a port for directly connecting to the information processing device 10.
  • Examples of the connection port 32 include a USB (Universal Serial Bus) port, an IEEE1394 port, a SCSI (Small Computer System Interface) port, and the like.
  • Another example of the connection port 32 is an RS-232C port, an optical audio terminal, an HDMI (registered trademark) (High-Definition Multimedia Interface) port, and the like.
  • the communication device 33 is, for example, a communication interface composed of a communication device or the like for connecting to a communication network (network) 917.
  • the communication device 33 is, for example, a communication card for a wired or wireless LAN (Local Area Network), Bluetooth (registered trademark), WUSB (Wireless USB), or the like.
  • the communication device 33 may be a router for optical communication, a router for ADSL (Asymmetric Digital Subscriber Line), a modem for various communications, or the like.
  • the communication device 33 can transmit and receive signals and the like to and from the Internet and other communication devices in accordance with a predetermined protocol such as TCP / IP.
  • the communication network 43 connected to the communication device 33 is configured by a network or the like connected by wire or wirelessly, and may be, for example, the Internet, a home LAN, infrared communication, radio wave communication, satellite communication, or the like. ..
  • FIG. 2 is a block diagram showing the functions of the information processing device 10.
  • the information processing device 10 includes a pre-learning unit 61, a learning unit 62, a learning model storage unit 63, a recognition information acquisition unit 64, an output information generation unit 65, a reward amount setting unit 66, a change information generation unit 67, and an environment change determination unit. It is configured to include 68.
  • the pre-learning unit 61 and the learning unit 62 perform learning by a predetermined learning method, and generate and update a learning model.
  • the case where two learning units of the pre-learning unit 61 and the learning unit 62 are provided will be described as an example, but one learning unit may be used.
  • the pre-learning unit 61 performs learning before the user uses the information processing device 10 (learning within a predetermined period after use), and the learning unit 62 performs learning after starting to use the information processing device 10. Continue the explanation.
  • the pre-learning unit 61 learns in a simulated environment that imitates the usage environment of the information processing device 10 at the stage where the information processing device 10 is manufactured, for example, at the factory shipping stage (before use by the user), and learns a learning model (hereinafter, referred to as As appropriate, describe it as an initial learning model).
  • the generated initial learning model is stored in the learning model storage unit 63.
  • the learning unit 62 updates or newly generates a learning model by performing re-learning when a change in the environment, which will be described later, is detected.
  • the learning model storage unit 63 stores the initial learning model, the updated learning model, and the newly generated learning model.
  • the recognition information acquisition unit 64 acquires the recognition information.
  • the recognition information is input information input to the information processing device 10, and is information used to generate information (information to be output) presented by the information processing device 10.
  • the recognition information is information about the user and information about the environment related to the system, and is, for example, user's behavior history, weather information, traffic jam information, and the like.
  • the output information generation unit 65 determines the action based on the recognition information and the learning model. For example, in the case of a system that generates conversations, when information about the weather is acquired as recognition information, utterance information for an action of providing a topic about the weather to the user is generated.
  • the reward amount setting unit 66 sets the reward amount.
  • the reward amount can be, for example, information obtained from the user's reaction to the information presented by the information processing device 10.
  • the information processing device 10 performs processing based on reinforcement learning.
  • Reinforcement learning is learning that maximizes the value (profit) in a given environment, evaluates the changes in the environment that occur as a result of the actions of the agent (behavior), and uses the changes as a predetermined evaluation function. Based on this, it can be defined as learning that transfers as a reward and gives feedback to the learning model that maximizes the reward amount.
  • how much reward (sometimes referred to as an evaluation function) is obtained as a result of the agent (information processing device 10 in the present embodiment) taking an action in a certain state. Indicates whether it can be done.
  • the state represents what kind of state the environment is in now.
  • the action represents what kind of action the agent can take with respect to the environment.
  • Reinforcement learning to which this technology can be applied includes the case where the learning model is composed of a network of multiple layers of intermediate layers.
  • output information for which a reward is obtained for the recognition information acquired by the recognition information acquisition unit 64 is generated by the output information generation unit 65.
  • a reward is obtained when a favorable reaction is obtained as the user's reaction when the generated output information is presented to the user.
  • the change information generation unit 67 when the user's reaction is used as the reward, if the user's reaction is not a favorable reaction, the amount of reward decreases. Due to such a change in the reward amount, the change information generation unit 67 generates change information.
  • the change information generation unit 67 generates a flag indicating whether or not the change in the reward amount is large. For example, when it is determined that the change in the reward amount is large, information "1" is generated as change information, and when it is determined that the change in the reward amount is small (no change), it is used as change information. Generate the information "0".
  • the explanation is continued with “1" when the reward amount is large and “0” when the reward amount is small, but it may be “0” when the reward amount is large and “1” when the reward amount is small.
  • the change information is a flag of 0 or 1, it may be other information. For example, it may be a value according to the size of the reward amount. For example, a value of 0 to 10 may be assigned according to the size of the reward amount.
  • the environment change determination unit 68 determines whether or not the environment has changed. The environment change determination unit 68 determines that the environment has not changed when the change information is "0" (when the change in the reward amount is small), and when the change information is "1" (the change in the reward amount is large). If), determine that the environment is changing. When the environment change determination unit 68 determines that the environment is changing, the environment change determination unit 68 issues an instruction to the learning unit 62 to start re-learning.
  • the information processing device 10 to which the present technology is applied detects that the environment has changed, and when it is detected that the environment has changed, it relearns.
  • LSTM is a model for time series data that extends RNN (Recurrent Neural Network). LSTM is characterized in that long-term dependent learning is possible.
  • FIG. 3 shows an example of the structure of the LSTM.
  • the LSTM81 mainly performs learning, and the LSTM82 mainly detects environmental changes.
  • the RSTM81 contains change information (Volatility (t-1)) at the previous time t-1, recognition information (Perceptual data (t)) at the current time t, and output at the previous time t-1 (Volatility (t-1)). Action (t-1)) is input.
  • the SSTM82 contains the recognition information at the current time t (Perceptual data (t)), the output at the previous time t-1 (Action (t-1)), and the reward at the previous time t-1 (Reward). (t-1)) is input.
  • the RSTM82 evaluates the previous output (Action (t-1)) based on the recognition information (Perceptual data (t)) and the reward (Reward (t-1)) (State Value (t)). Further, the LSTM82 determines whether or not there is a large change in the reward amount, and outputs change information (Volatility (t-1)) of "0" to the LSTM81 when it is determined that there is no large change in the reward amount. , When it is determined that there is a large change in the reward amount, the change information (Volatility (t-1)) of "1" is output to the RSTM81.
  • the RSTM81 determines the output (Action (t)) of this time (time t) based on the recognition information (Perceptual data (t)).
  • a learned learning model based on a reward of a predetermined condition may be referred to, or a learning model that is not such a learning model may be referred to.
  • the RSTM81 outputs (Action (Action ()) based on the learning model referred to at that time. t)) is determined.
  • the recognition information Perceptual data (t)
  • time t- time t-
  • the LSTM82 detects a change in the environment from the change in the reward amount, and when the change in the environment is detected, the LSTM81 starts re-learning.
  • RSTM has been described as an example of reinforcement learning for detecting changes in the environment and starting re-learning, but the information processing apparatus 10 applies other reinforcement learning to the environment. It can also be configured to detect changes in and start re-learning.
  • FIG. 4 is a flowchart for explaining the processing of the information processing apparatus 10. Specific application examples will be given for each process, and explanations will be added later.
  • pre-learning is performed by the pre-learning unit 61 (FIG. 2).
  • the pre-learning is performed before the information processing device 10 is used by the user and / or during a predetermined period after the user starts using the information processing device 10.
  • the pre-learning unit 61 performs learning in a simulated environment imitating the usage environment of the information processing device 10 at the stage where the information processing device 10 is manufactured, for example, at the factory shipping stage, and generates an initial learning model.
  • the generated initial learning model is stored in the learning model storage unit 63.
  • a predetermined period after the information processing device 10 is started to be used by the user may be set as a pre-learning period, and an initial learning model may be generated in the pre-learning period and stored in the learning model storage unit 63.
  • an initial learning model is generated before the user uses the information processing device 10, and the initial learning model is further used by the user for a predetermined period when the user starts using the information processing device 10. It may be optimized according to the usage mode.
  • the end of the pre-learning period can be a predetermined period, for example, a period such as one month, or a period until the cumulative time of interaction with the user reaches a predetermined time. Further, the end of the pre-learning period is when the change information is within a certain range, and when the change information is set to 0 because the explanation is given by taking the case of 0 or 1 as an example. Can be up to.
  • step S12 the operation by the learning model (initial learning model) formed by the pre-learning is performed.
  • the recognition information is acquired by the recognition information acquisition unit 64 (FIG. 2), and based on the acquired recognition information by the output information generation unit 65 and the learning model stored in the learning model storage unit 63. Output information is generated.
  • step S13 the reward amount is set by the reward amount setting unit 66.
  • the reward amount is set by acquiring the user's reaction to the output information.
  • step S14 change information is generated by the change information generation unit 67.
  • the change information generation unit 67 detects that the environment has changed when there is a sudden change in the reward amount (a sudden increase or decrease in the reward amount).
  • the change in the environment can be set on the information processing apparatus 10 side, for example, by setting a threshold value in advance so that when the change in the reward amount exceeds the threshold value, it is detected that the environment has changed. ..
  • the fluctuation of the reward amount includes a fluctuation in which the reward amount increases and a fluctuation in which the reward amount decreases, and it is determined whether or not the fluctuation amount exceeds the threshold value.
  • the user may provide information about the environment, for example, information such as a change in the user or a change in the installation location, and the change in the environment may be detected from such information.
  • information such as a change in the user or a change in the installation location
  • the change in the environment may be detected from such information.
  • these may be combined so that changes in the environment can be detected based on the information presented by the user and the conditions set in the information processing apparatus 10.
  • the change information generation unit 67 detects that there has been a change in the environment, it generates information "1" indicating that there has been a change, supplies it to the environment change determination unit 68, and detects that there is no change in the environment. In this case, the information "0" indicating that there is no change is generated and supplied to the environment change determination unit 68.
  • step S15 the environment change determination unit 68 determines whether or not there has been a change in the environment. In step S15, if the change information supplied from the change information generation unit 67 indicates that there has been no change in the environment, the environment change determination unit 68 determines that there is no change in the environment, and processes in step S12. Is returned, and the subsequent processing is repeated.
  • step S15 if the change information supplied from the change information generation unit 67 indicates that there has been a change in the environment, the environment change determination unit 68 determines that there has been a change in the environment, and in step S16. Processing proceeds to.
  • step S16 re-learning is performed.
  • the environment change determination unit 68 determines that the environment has changed, the environment change determination unit 68 instructs the learning unit 62 to start re-learning. Upon issuing such an instruction, the learning unit 62 starts learning. When learning is started, a new learning model is generated or the learning model is updated.
  • step S12 When a new learning model is generated or the update of the learning model is completed by the re-learning by the learning unit 62, the process is returned to step S12, and the subsequent processes are repeated.
  • the end of re-learning can be a predetermined period, for example, a period such as one month, or a period until the cumulative time of interaction with the user reaches a predetermined time. Further, the end of the re-learning period is when the change information is within a certain range, and here, the change information is set to 0 because the case where it is set to 0 or 1 is explained as an example. Can be up to.
  • the update of the learning model is started when the re-learning is instructed.
  • the learning model used at that time may be updated or newly generated.
  • the information processing device 10 As a method of learning the information processing device 10, it is possible to ensure that learning is continuously performed so that the learning model is always optimized. In such a case, even if re-learning is instructed, the learning model itself is continuously updated, but learning by a different method can be started by, for example, redefining the reward type and the definition of the evaluation function. Will be done. Alternatively, a new learning model may be generated.
  • the change information generation unit 67 and the environment change determination unit 68 will be described as an example, but the change information generation unit 67 and the environment change determination unit 68 will be described as 1 It is also possible to combine them as two functions.
  • the change information (Volatility) is generated by the LSTM82, supplied to the LSTM81, it is determined by the LSTM81 whether or not there is a change in the environment, and the re-learning is started.
  • the LSTM 82 corresponds to the change information generation unit 67
  • the LSTM 81 corresponds to the environment change determination unit 68.
  • FIG. 3 illustrates a case where the same learning methods of LSTM81 and LSTM82 are used, but different learning methods are used. You may be able to do it.
  • the environment change determination unit 68 is set to LSTM 81, and learning is performed by LSTM, and the change information generation unit 67 analyzes information obtained from, for example, a plurality of sensors, detects changes in the environment, and provides information from the user. A method of detecting a change in the environment may be applied.
  • the change information generation unit 67 and the environment change determination unit 68 may be used as one function.
  • the change information generation unit 67 detects the change in the environment from the change in the reward amount and supplies the change information of 0 or 1 to the environment change determination unit 68.
  • the change information generation unit 67 since the change information generation unit 67 detects the change in the environment from the change in the reward amount, the change information generation unit 67 performs substantially the same processing as the environment change determination unit 68. Therefore, the change information generation unit 67 is configured to detect a change in the environment, and when it detects that there is a change in the environment, it is configured to issue a re-learning instruction to the learning unit 62, and is not provided with the environment change determination unit 68. It is also possible to.
  • the learning model stored in the learning model storage unit 63 for example, the initial learning model is used. It is possible to delete it so that the newly generated learning model is stored, or it is possible to additionally store it in the learning model storage unit 63.
  • the learning model storage unit 63 it is also possible to configure the learning model storage unit 63 to store a plurality of learning models. Further, it is also possible to configure a plurality of learning models to be stored in the learning model storage unit 63 so that the learning models can be switched and used. As another process of the information processing device, a case where a learning model is generated, added, and used by switching will be described.
  • FIG. 5 is a flowchart for explaining other processes of the information processing apparatus. Since the processing of steps S31 to S35 is the same as that of steps S11 to S15 (FIG. 4), the description thereof will be omitted.
  • step S35 If it is determined in step S35 that there has been an environmental change, the process proceeds to step S36.
  • step S36 it is determined whether or not a plurality of learning models are stored in the learning model storage unit 63.
  • a plurality of learning models are stored in the learning model storage unit 63.
  • time t1 in FIG. 6 it is assumed that only the learning model 91A is stored in the learning model storage unit 63.
  • the learning model stored in other than the learning model storage unit 63 may also be searched. For example, it is a learning model managed by a device other than the information processing device 10, and it may be determined in step S35 whether or not there is a learning model that can be acquired. Further, when it is determined that there is a learning model that can be acquired as a result of the determination, the learning model is also used as the target of the following processing.
  • step S36 since only the learning model 91A is stored in the learning model storage unit 63, it is determined that a plurality of learning models are not stored, and the process proceeds to step S37.
  • step S37 re-learning is performed. Since the process in step S37 can be performed in the same manner as the process in step S16 (FIG. 4), the description thereof will be omitted.
  • step S37 by performing re-learning, a learning model different from the already stored learning model (for example, learning model 91A) is newly generated.
  • the learning model 91A is not updated, and even if the learning model 91A is updated, it is generated as a learning model (learning model 91B) different from the learning model 91A, and the learning model 91A itself is generated. , Leave it as it is.
  • the learning model newly generated by performing the re-learning in step S37 is added to and stored in the learning model storage unit 63 in step S38.
  • the learning model 91A and the learning model 91B are stored in the learning model storage unit 63.
  • step S38 After the processing of step S38, the processing is returned to step S32, and the subsequent processing is repeated. In this case, the process using the learning model 91B is executed.
  • step S36 determines whether a plurality of learning models are stored in the learning model storage unit 63. If it is determined in step S36 that a plurality of learning models are stored in the learning model storage unit 63, the process proceeds to step S39. For example, when the learning model 91A and the learning model 91B are stored in the learning model storage unit 63 as shown at time t2 in FIG. 6, in the determination in step S36, the learning model storage unit 63 has a plurality of learning models. It is determined that it is stored.
  • step S39 it is determined whether or not there is a learning model suitable for the environment.
  • the learning model optimized for the environment A is the learning model 91A
  • the learning model optimized for the environment B is the learning model 91B.
  • the learning model suitable for the environment is stored in the learning model storage unit 63, and the process is performed in step S40. Is advanced.
  • step S40 the reference learning model is switched to the learning model determined to be the learning model suitable for the environment after the environment change, and the processing using the learning model is returned to step S32. To be started.
  • step S39 the learning model suitable for the environment is the learning model storage unit 63.
  • the process proceeds to step S37, assuming that it is not stored in.
  • step S37 re-learning is performed.
  • the learning model optimized for the environment C is trained.
  • step S38 the newly generated learning model 91C is added to the learning model storage unit 63 and stored (state shown at time t3 in FIG. 6).
  • the environment A is an environment interacting with the user A
  • the learning model 91A is a learning model optimized for the user A
  • the environment B is an environment interacting with the user B
  • the learning model 91B is a learning model optimized for the user B.
  • the exchange with which the learning model 91A is referred to is performed with the user A, it is determined that there is no environmental change, so the process with which the learning model 91A is referred to is continued.
  • the exchange partner changes from the user A to the user B, the user B may not be satisfied with the exchange referred to the learning model 91A, and the reward amount may decrease. It is detected that the environment has changed as the amount of reward decreases.
  • the learning model storage unit 63 When it is detected that the environment has changed, it is searched whether a learning model suitable for the environment is stored in the learning model storage unit 63. In this case, since the learning model 91B optimized for the user B is stored, it is determined as a result of the search that the learning model 91B is stored. As a result, the reference learning model is switched to the learning model 91B. After that, the exchange with which the learning model 91B is referred to is started with the user B. Therefore, the amount of reward returns to the original state, and returns to the state before it was determined that there was an environmental change.
  • step S39 it is determined whether or not there is a learning model suitable for the environment, and this determination will be described.
  • the environment can be determined based on the information obtained from the sensor.
  • the user can be photographed, the captured image can be analyzed, and the user can be identified.
  • the user can be identified by acquiring the user's voice and analyzing the voice.
  • the reference learning model is switched to the learning model 91B for the user B. Further, when a user who is not registered is detected as a result of analyzing the video and audio, re-learning is performed so that a learning model for that user is generated.
  • the learning model storage unit 63 by switching the learning model stored in the learning model storage unit 63 and observing the change in the amount of reward in the learning model, it is determined whether or not the learning model is suitable for the environment.
  • the learning model is suitable for the environment.
  • the learning model 91A when the learning model 91A is switched to the learning model 91B and the exchange is performed, the reward amount returns to the original value, and it can be estimated that the learning model of the switching destination is correct.
  • the learning model 91A when the learning model 91A is switched to the learning model 91C and the exchange is performed, the reward amount remains low, and it can be estimated that the learning model to be switched to is not correct.
  • the environmental change in which the learning model can be switched for example, a change in time zone, a change in time, a change in weather, a change in position, etc. may be used.
  • the learning model referred to may be different depending on the time zone, and the learning model may be switched when the predetermined time zone is reached, assuming that the environment has changed.
  • the first application example will be described with reference to the flowchart shown in FIG.
  • the first application example is a case where the present technology is applied to a system that generates conversations and sentences as an application, for example, a chatbot.
  • a chatbot is an automatic conversation program that utilizes artificial intelligence, in which a computer incorporating artificial intelligence interacts on behalf of humans.
  • the information processing device 10 can be applied to the computer side of the chatbot.
  • the action is the generation of conversation (sentence) and the presentation of the generated conversation (sentence) to the user, and the reward amount is the reaction of the user who received the presentation of the conversation (sentence).
  • Re-learning is re-learning of a learning model that generates conversations (sentences).
  • Pre-learning is performed in step S101.
  • the application is, for example, an application that automatically generates posts to SNS (Social Network Service)
  • posts that are highly evaluated by target users or user groups are learned as pre-learning. For example, multiple posts are made in a test environment, and the generation of sentences that are popular with specific segment users is learned.
  • Specific segment users include users in a predetermined age group such as those in their 30s and 40s, users who belong to a predetermined group having common attributes such as tastes and behavioral tendencies, and users who live in a predetermined area. ..
  • an initial learning model is generated and stored in the learning model storage unit 63.
  • a sentence referring to the initial learning model is generated and posted. That is, the process referring to the learning model is actually performed.
  • the recognition information Perceptual data
  • the recognition information for example, the number of views of the post, the number of followers attached to the post, the evaluation such as good or bad attached to the post, the post
  • the number of times that was transferred is acquired.
  • time information such as the time zone when the post was viewed, evaluation, profile of the transferred user, and the like may be acquired.
  • step S103 when the text is posted, the evaluation for the posting, that is, the information corresponding to the reward amount in this case is acquired.
  • the reward amount is set from information such as evaluation, transfer, and number of views given by a specific segment user. For example, a high reward amount is set when the evaluation given by a specific segment user is high, when the number of transfers is large, or when the number of views is large. On the contrary, for example, a low reward amount is set when the evaluation given by a specific segment user is low, the number of transfers is reduced, or the number of views is reduced.
  • step S104 change information is generated by observing an increase or decrease in the amount of reward.
  • change information in this case, information 1 indicating that there has been a change is generated.
  • a threshold value can be set so that when the reward amount increases or decreases beyond the set threshold value, it is determined that there is a change.
  • the increase / decrease in the reward amount may be a fluctuation within a predetermined period, and the period in which the increase / decrease in the reward amount is observed may be set in advance.
  • learning is performed so that the amount of reward increases, so if appropriate learning is performed, the amount of reward will increase. Therefore, it is not merely a condition that the reward amount increases, but a case where the reward amount increases by a predetermined amount in a predetermined period is observed. For example, if the amount of reward increases in a short period of time, it can be determined that the amount of reward has increased rapidly, and in such a case, it can be estimated that there has been some change in the environment.
  • the rapid increase means a case where the reward amount increases by a predetermined amount (threshold value) within a predetermined period.
  • a predetermined amount threshold value
  • the amount of increase or the rate of increase in the amount of reward per unit time exceeds a predetermined value, it is described as a rapid increase.
  • the sudden decrease means that the reward amount decreases by a predetermined amount (threshold value) within a predetermined period (unit time).
  • a predetermined amount threshold value
  • unit time a predetermined period
  • step S105 it is determined whether or not there has been an environmental change. If the change information is information indicating that there has been an environmental change (1 in this case), it is determined to be YES, and if it is information indicating that there is no environmental change (0 in this case), it is NO. It is judged.
  • step S105 if the change information is information indicating that there is no environmental change, the process is returned to step S102, and the subsequent processes are repeated. On the other hand, in step S105, if the change information is information indicating that the environment has changed, the process proceeds to step S106.
  • step S106 re-learning is performed.
  • the amount of remuneration increased sharply, it can be estimated that there was a factor such as increased support from new segment users. For example, it can be estimated that the amount of reward may increase sharply due to the expansion of recognition within the target specific segment user group and the expansion to the specific segment user group that was not the target for some reason. .. In such a case, re-learning that changes the target to the newly obtained specific segment user group and re-learning that can be accepted by the newly obtained specific segment user group (wide segment layer) can be performed. Will be done.
  • the amount of reward decreased sharply, it can be estimated that there was a factor such as an inappropriate post. For example, it can be presumed that the support from the specific segment user decreased and the reward amount decreased sharply because the sentence containing the words that made the target specific segment user uncomfortable or the words that could not be sympathized was posted. In such a case, the post group (a plurality of posts including a word that is presumed to reduce the support of the user) and the reward for the word used for the post generation are re-learned as a negative reward.
  • the post group with the amount of reward when the amount of reward increases sharply, it is estimated that the post group with the amount of reward increased rapidly contains words and expressions that the user prefers, so that postings using such words and expressions can be performed further. Re-learning can also be done.
  • the amount of reward drops sharply it is estimated that the post group with the amount of reward dropped sharply contained words and expressions that the user feels unpleasant, and the reward for posts containing such words and expressions is redefined. It is also possible to allow the re-learning to be performed.
  • re-learning is performed when the amount of reward increases rapidly. In other words, re-learning does not begin when the amount of reward is not spiked. When the amount of reward is not increasing rapidly, learning is continued to increase the amount of reward.
  • re-learning is performed when the reward amount suddenly decreases, and learning for increasing the reward amount is continuously performed when the reward amount does not suddenly decrease.
  • learning for increasing the reward amount is continuously performed when the reward amount does not suddenly decrease.
  • the learning model before re-learning is modified to an appropriate learning model, or a new learning model is generated.
  • Re-learning is defined as learning to significantly change the learning model before re-learning.
  • the learning model after re-learning After re-learning, the learning model after re-learning is used, and learning that increases the amount of reward is continuously performed. Since the learning model after re-learning is a learning model suitable for the environment at that time, the learning model after re-learning is a learning model in which the amount of reward does not suddenly increase or decrease, in other words, the amount of reward fluctuates. It becomes a learning model that gradually increases while staying within a predetermined range. According to this technology, when there is a change in the environment, it is possible to generate a learning model suitable for that environment.
  • the second application example will be described with reference to the flowchart shown in FIG.
  • the second application example is a case where the present technology is applied to a chatbot that generates a conversation as an application. In this respect, it is the same as the first application example, but in the second application example, , The difference is that it is applied when generating a chat.
  • Pre-learning is performed in step S121.
  • the application is an application that realizes the conversation function of an AI agent for home use, for example, an application that generates a bland chat
  • a pseudo conversation with the user is performed as pre-learning and is highly evaluated by the user.
  • the content of the conversation that can be obtained is learned.
  • a conversation with a virtual user is performed in a test environment, and learning is performed by generating utterances. Even if a user who satisfies a specific condition, for example, a user who belongs to a predetermined age group such as 30's or 40's, a user who belongs to a predetermined group, or a user who lives in a predetermined area is set as a virtual user. good. Alternatively, learning for establishing a general conversation may be performed without setting such a specific condition.
  • a general (commonly used) learning model is generated by pre-learning, and a predetermined period after the user actually starts using the information processing device 10 is set as a pre-learning period, and learning is performed. It may be done.
  • step S122 a conversation is generated and uttered with reference to the learning model. That is, the process referring to the learning model is actually performed.
  • the recognition information (Perceptual data) input when the conversation is generated is, for example, environmental information such as time and temperature, user profile, user response, user emotion, event information, and the like.
  • step S123 when the conversation is uttered, the user's reaction to the utterance is acquired.
  • the user's reaction is obtained as a reward.
  • User reactions include emotions, emotions, and response content.
  • the user's state, emotion, and emotion can be estimated based on facial expression recognition by the camera, biological sensing, voice prosody, and the like, and the emotion includes the degree of stress and satisfaction.
  • step S124 change information is generated by observing an increase or decrease in the amount of reward.
  • the amount of reward drops sharply, for example, when the user's reaction deteriorates. For example, when the user's smile is reduced or the reaction is different from usual even if the same topic is shaken, it is estimated that the user's reaction has deteriorated and the reward amount is reduced.
  • change information indicating that there has been a change is generated. It is possible to set a threshold value and a predetermined period so that if the reward amount increases or decreases beyond the set threshold value within the predetermined period, it is determined that there is a change. ..
  • step S125 it is determined whether or not there has been an environmental change. If the change information in step S125 is information indicating that there is no environmental change, the process is returned to step S122, and the subsequent processes are repeated. On the other hand, in step S125, if the change information is information indicating that the environment has changed, the process proceeds to step S126. In step S126, re-learning is performed.
  • the amount of reward decreased sharply, it can be estimated that there was a factor such as shaking an inappropriate topic. For example, it can be presumed that the user's reaction deteriorated and the amount of reward decreased sharply because the user uttered a conversation that made the user uncomfortable or sad.
  • re-learning is performed so as not to give the user a topic related to relatives.
  • re-learning is performed to adapt to the new user's environment in order to respond to changes in the user's personality.
  • the reward is redefined and relearned so that the amount of reward for topics related to relatives is small.
  • the amount of reward increased sharply, it can be estimated that there was a factor such as the user's feelings improved because there was a favorable change in the user's family structure and lifestyle. For example, when a user has a child, before the child was born, the reaction was not interesting even if the topic of the child was given to the user, but after the child was born, the reaction of the child It is presumed that when the topic is given to the user, it changes to an interesting reaction.
  • re-learning is performed so as to give the user a topic about the child.
  • the reward is redefined and relearned so that the amount of reward for the topic about the child is large.
  • the third application example will be described with reference to the flowchart shown in FIG.
  • the third application example is an example applied to an application that recommends to a user. Further, in the third application example, for example, the lighting of the user's destination is turned on, the user's behavior is inferred, the power of the television receiver is turned on, and the room temperature is adjusted to a temperature that the user feels comfortable with.
  • the application realizes home automation that controls the operation will be described as a third application example.
  • the electric appliance also includes a driving device for opening and closing windows and curtains.
  • the action is a recommendation to the user
  • the reward amount is the reaction of the user who received the recommendation.
  • the re-learning is a re-learning of a learning model for making a new recommendation according to a change in the user's state.
  • Pre-learning is performed in step S141.
  • a learning model is generated by pre-learning in a manufacturing process in a factory. Further, in the case of home automation, the position of lighting, the behavior pattern of the user, and the like differ depending on the user. Therefore, a predetermined period after the user starts using the information processing device 10 is also set as a pre-learning period, and learning is also performed while the user is actually using the information processing device 10.
  • learning is performed such that the user's behavior is sensed by a sensor or the like, the destination is estimated, and the lighting of the estimated destination is turned on. Further, for example, learning is performed in which the user learns the time to return home and turns on the lighting of the entrance at the time when the user returns home. Also, for example, learning to view a program on a predetermined channel with a television receiver when the user wakes up, and learning to turn on the power of the television receiver when the user wakes up. Will be done.
  • pre-learning is performed to support the user's behavior, and a learning model is generated.
  • step S142 the behavior support of the user referring to the learning model is performed.
  • the electric appliances are controlled as the action support of the user.
  • the recognition information (Perceptual data) input for providing behavioral support is, for example, daily user behavior or information obtained from electrical appliances.
  • Information obtained from electrical appliances includes, for example, the time when the lights are turned on and off, the time when the television receiver is turned on and off, the room temperature when the air conditioning equipment is turned on, and so on. Set temperature, etc.
  • step S143 the control of the electric appliance is performed, and the reaction of the user to the control is acquired.
  • the user's reaction is obtained as a reward.
  • the user's reaction includes, for example, the amount of stress and satisfaction estimated by sensing the user, the number of times the user cancels the control, the number of actions estimated to be useless by the user, and the like.
  • the number of times the user cancels the control is, for example, the number of times the light is turned on but immediately turned off by the user, or the number of times the light is turned off but immediately turned on by the user. This is the number of times the user gives an instruction with the opposite content, that is, the number of times an instruction to cancel the controlled content is issued.
  • step S144 change information is generated by observing an increase or decrease in the amount of reward.
  • the reward amount drops sharply, for example, when the number of times the user cancels the control is large.
  • step S145 it is determined whether or not there has been an environmental change. If the change information in step S145 is information indicating that there is no environmental change, the process is returned to step S142, and the subsequent processes are repeated. On the other hand, in step S145, if the change information is information indicating that the environment has changed, the process proceeds to step S146. In step S146, re-learning is performed.
  • the amount of reward is suddenly reduced, for example, when the control of electric appliances is preferable to the user before the amount of reward is suddenly reduced, but after the amount of reward is suddenly reduced, the control of electric appliances is not preferable to the user.
  • re-learning suitable for the user's new life pattern is performed. Further, when re-learning, if the factor that changed the life pattern can be estimated, the re-learning can be performed based on the estimation result. For example, if it is presumed that the lifestyle pattern has changed due to the increase in the number of children, it is possible to apply the model of the lifestyle when the number of children increases so that re-learning is performed.
  • the estimation that the life pattern has changed is made by observing the user's behavior pattern, for example, when the reward amount suddenly decreases (when the change information becomes information indicating that there is a change). can do. For example, if a child cries at night and the lights are often turned on during the night time, the lights will be turned on during the time when the children did not turn on before the number of children increased, and the reward amount Decreases sharply. It can be estimated that the number of children has increased from the fact that the amount of reward has decreased sharply and the behavior pattern that the lights are often turned on at night.
  • the situation in which the environmental change has occurred may be estimated from the reward or the reward and the environment variable.
  • the reward may be a vector value instead of a scalar value.
  • the fourth application example will be described with reference to the flowchart shown in FIG.
  • the fourth application example is an example applied to an application that recommends to a user. Further, a case where the application presents (recommends) contents to the user will be described as a fourth application example.
  • Pre-learning is performed in step S161.
  • the preference is different for each user. Therefore, in order to learn the user's preference, a predetermined period after the user starts using the information processing device 10 is set as the pre-learning period. Learning (optimization) is performed while the user is actually using the information processing device 10.
  • a recommendation is made to the user who has referred to the learning model.
  • the recognition information (Perceptual data) input for recommending the content is, for example, a user's segment information, a user's behavior, a social graph, or the like.
  • the user's behavior includes not only the behavior history in the real world but also the behavior history and viewing history on the Web.
  • step S163 the content is recommended, and the user's reaction to the recommendation is acquired.
  • the user's reaction is obtained as a reward.
  • the user's reaction is obtained by estimating the user's satisfaction level by user sensing, for example, the presence or absence of a target action such as viewing or purchasing the recommended content.
  • step S164 change information is generated by observing the increase / decrease in the reward amount.
  • the reward amount drops sharply, for example, when the estimated user satisfaction decreases or when the number of times the content is purchased decreases.
  • step S165 it is determined whether or not there has been an environmental change. If the change information in step S165 is information indicating that there is no environmental change, the process is returned to step S162, and the subsequent processes are repeated. On the other hand, in step S165, if the change information is information indicating that the environment has changed, the process proceeds to step S166. In step S166, re-learning is performed.
  • re-learning may be performed when the increase / decrease in the reward amount is small, in other words, when the change information indicating that there is no change continues for a predetermined period.
  • the increase / decrease in the amount of reward is small, it can be estimated that the recommendation is made based on the learning model that is most suitable for the user, but there is a possibility that the recommendation is made without any surprise.
  • the learning model may be reset once to perform re-learning.
  • the learning model before re-learning may be stored in the learning model storage unit 63, and may be stored in the learning model storage unit 63 together with the newly created learning model.
  • a plurality of learning models are stored in the learning model storage unit 63, and according to the recommendation by the newly created learning model, the amount of reward is decreasing. In such a case, the original learning model may be restored.
  • Such re-learning is also effective as a means of escaping from a state of overfitting.
  • a fifth application example will be described with reference to the flowchart shown in FIG.
  • the fifth application example is a case where the present technology is applied to the control of a moving body such as a vehicle as an application. Further, for example, a case where the application provides driving support for a user (driver) will be described as a fifth application example.
  • the driving support includes, for example, braking control of the vehicle, steering wheel operation control, environment setting of the vehicle interior, and the like, and assists the driver so that he / she can drive comfortably.
  • the action is the control of the moving body (vehicle), and the reward amount is the emotion of the user who operates the controlled moving body and the environmental information related to the moving body. And so on.
  • Re-learning is re-learning of a learning model that controls a moving body.
  • Pre-learning is performed in step S181.
  • the preference for driving such as selection of driving course, acceleration, steering, and the preference for the environment inside the vehicle such as the temperature inside the vehicle differ depending on each user, so that the user actually uses the information processing device 10.
  • the predetermined period after the start of the process is defined as the pre-learning period, and the pre-learning is performed.
  • step S182 driving support is provided with reference to the learning model. That is, the process referring to the learning model is actually performed.
  • the recognition information (Perceptual data) input when driving assistance is provided is, for example, various data acquired during driving.
  • CAN Controller Area Network
  • CAN is a network used to connect parts such as an electronic control device (ECU: Engine Control Unit), an engine, and a brake inside an automobile, to transmit the state of the parts, and to transmit control information. Information from such a network can be used as recognition information.
  • step S183 the user's satisfaction with the driving support is acquired.
  • the user's reaction is obtained as a reward.
  • a variable expressing the comfort of the driver can be defined, and a variable based on the definition can be used as the reward amount.
  • the stability of the vehicle, the emotional / emotional information estimated from the biometric information of the user, the biometric information, and the like may be acquired as the reward amount.
  • the user when the user accelerates by driving assistance but decelerates by the user, or when the temperature inside the vehicle is set to be raised but the set temperature is lowered by the user, the user performs an operation that cancels the support content. If done, the amount of reward will drop sharply.
  • the information that the user is sweating is acquired as the biometric information of the user, it is estimated that the user's reaction is not good because the temperature inside the vehicle set by the driving support is high, and the reward amount is also in such a case. It will decrease sharply.
  • the amount of reward will increase sharply when it is judged that driving is stable, such as when the shaking of the car is reduced, sudden acceleration or sudden deceleration is eliminated, etc. by providing driving support.
  • step S184 change information is generated by observing an increase or decrease in the amount of reward.
  • the amount of reward decreases sharply, for example, when stable running deteriorates or when the user's reaction deteriorates.
  • step S185 it is determined whether or not there has been an environmental change. If the change information in step S185 is information indicating that there is no environmental change, the process is returned to step S182, and the subsequent processes are repeated. On the other hand, in step S185, if the change information is information indicating that the environment has changed, the process proceeds to step S186. In step S186, re-learning is performed.
  • a learning model suitable for the injured driver is generated. Re-learning is done for.
  • Driving support is support for the vehicle to run safely.
  • the insurance premium of the vehicle may be estimated based on whether or not the information processing device 10 that provides such driving support is installed (whether or not it is used).
  • the content of driving assistance for example, information on changes in the environment when it is decided to perform re-learning may be used for estimating insurance premiums.
  • a sixth application example will be described with reference to the flowchart shown in FIG.
  • the sixth application example is a case where the present technology is applied to the management of a plurality of vehicles (control of a vehicle group) as an application.
  • a connected car there is a car equipped with a constant connection function to the Internet, which is called a connected car. Since such a connected car is configured so that information can be acquired via the Internet, for example, navigation according to traffic information, movement control, management, and the like can be performed.
  • the application information processing device 10 that operates based on the sixth application example
  • the application (information processing device 10 operating based on the sixth application example) is used for management of public transportation such as buses and taxis, management of centrally managed shared cars, and specific services (for example, rental cars). It can be applied to the management of vehicles associated with.
  • Pre-learning is performed in step S201. Since the management method can be set to some extent before the start of operation, such setting is performed as pre-learning. In addition, since the learning content differs depending on the vehicles and services managed, learning will continue even after the start of operation.
  • step S202 management is performed with reference to the learning model. That is, the process referring to the learning model is actually performed.
  • the recognition information (Perceptual data) input when vehicle management is performed includes, for example, daily environmental information, traffic information, weather information, and the like.
  • event information may also be acquired as recognition information.
  • the position information and running information of various managed vehicles may be acquired. Further, customer information may be acquired.
  • step S203 information indicating whether or not the vehicle is optimally driven is acquired.
  • This information is obtained as a reward. For example, when traffic jam information is acquired and navigation is performed to avoid the traffic jam, it can be estimated that the prediction was correct if the traffic jam is avoided and the destination is reached in a short time. In such a case, the amount of reward increases rapidly. Conversely, if it takes time to reach the destination, the amount of reward will drop sharply.
  • the amount of reward will be high if the operation is performed according to the operation table, and the amount of reward will be low if the operation is performed according to the operation table.
  • target area the amount of traffic congestion in the area where the managed vehicle travels
  • individual vehicles do not get caught in traffic congestion. It can also be estimated that the traffic congestion in the target area has decreased. In such a case, the reward amount is high.
  • the reward amount may be lowered even if the individual vehicles are not involved in the traffic congestion.
  • step S204 change information is generated by observing an increase or decrease in the amount of reward.
  • step S205 it is determined whether or not there has been an environmental change.
  • step S205 if the change information is information indicating that there is no environmental change, the process is returned to step S202, and the subsequent processes are repeated. On the other hand, in step S205, if the change information is information indicating that the environment has changed, the process proceeds to step S206. In step S206, re-learning is performed.
  • management using the learning model before construction may cause traffic congestion, resulting in a decrease in the amount of compensation. ..
  • the number of people in the vicinity has increased, and it seems that the environment has changed to a place where traffic congestion is likely to occur, and the number of people moving to the vicinity by public institutions has increased. In that case, the amount of reward may decrease if the management is based on the learning model before the new building is constructed.
  • re-learning is performed to avoid the road to avoid traffic jams and the time zone when traffic jams are likely to occur.
  • re-learning is performed to increase the number of trains in the section where the number of users has increased.
  • Re-learning may temporarily enhance reward-based feedback to encourage rapid re-learning adapted to the new environment. Learning will be continuous, and we will be able to respond flexibly to changes in the environment, and if the amount of reward changes dramatically, we will strengthen the feedback to make it more flexible and quick. It can be encouraged to relearn.
  • the learning model before the change in the environment (learning model before re-learning) is kept stored in the learning model storage unit 63, and is newly created. It may be stored in the learning model storage unit 63 together with the learning model.
  • the original learning model is restored. It may be returned.
  • the seventh application example will be described with reference to the flowchart shown in FIG.
  • the seventh application example is a case where the present technology is applied to the management of a plurality of vehicles (control of a vehicle group) as an application. Further, for example, a case where the application provides mobility-related contents in a vehicle will be described as an example.
  • the description here mainly assumes a vehicle as a vehicle, vehicles such as trains, ships, and airplanes are also included.
  • the application (information processing device 10 operating based on) in the seventh application example is used in a vehicle such as a public transportation system such as a bus or a taxi, a shared car, or a vehicle associated with a specific service (for example, a rental car).
  • a vehicle such as a public transportation system such as a bus or a taxi, a shared car, or a vehicle associated with a specific service (for example, a rental car).
  • Providing predetermined content to users of such vehicles such as advertisements, discount tickets for vehicle use, discount tickets for commercial facilities in the surrounding area, and the like.
  • Pre-learning is performed in step S221. If content that matches the target age group and user preferences is provided, it is considered that the effect of providing the content can be further obtained.
  • general learning is performed before the start of operation, and after the start of operation, learning for optimizing for the user who uses the vehicle is performed.
  • step S222 the content referring to the learning model is provided. That is, the process referring to the learning model is actually performed.
  • the recognition information (Perceptual data) input when the content is provided includes, for example, daily environmental information, traffic information, weather information, and the like. Further, since information about the event can be provided on a certain day or the like, the event information may also be acquired as recognition information.
  • the position information and running information of various managed vehicles may be acquired. Further, customer information may also be acquired.
  • the customer information may include the usage status of various vehicles (for example, vehicles such as buses and taxis) and the usage status of various services (services other than the use of vehicles).
  • step S223 information indicating whether or not the content optimized for the user is provided is acquired. This information is obtained as a reward. Assuming that an advertisement is provided as content, information on the advertising effect of the advertisement is acquired.
  • the amount of reward may be acquired according to the viewing time of the content and the reaction when the content is provided. For example, if the viewing time of the content is long, it can be estimated that the content suitable for the user is provided, and conversely, if the viewing time of the content is short, it can be estimated that the content suitable for the user could not be provided. ..
  • the amount of reward may be obtained according to the operating efficiency of the vehicle group. For example, if the number of users increases due to the provision of discounted content, it can be estimated that the operating efficiency will increase. In such a case, the amount of reward increases sharply.
  • step S224 change information is generated by observing an increase or decrease in the amount of reward.
  • step S225 it is determined whether or not there has been an environmental change. If the change information in step S225 is information indicating that there is no environmental change, the process is returned to step S222, and the subsequent processes are repeated. On the other hand, in step S225, if the change information is information indicating that the environment has changed, the process proceeds to step S226. In step S226, re-learning is performed.
  • the advertising effect will decrease when the boom disappears, although it is estimated that the number of people in the vicinity increased and the advertising effect was achieved by running the advertisement of the commercial facility. Will be done.
  • the advertising effect is reduced, in order to improve the advertising effect again, re-learning is performed so that the promotion of the commercial facility is given priority over other advertisements.
  • Re-learning may temporarily enhance reward-based feedback to encourage rapid re-learning adapted to the new environment.
  • the eighth application example will be described with reference to the flowchart shown in FIG.
  • the eighth application example is a case where the present technology is applied to the control of the robot as an application. Further, for example, a case where the application is applied to a guidance robot in a commercial facility will be described as an example.
  • the application (information processing device 10 operating based on) in the eighth application example supports a user by answering a user's (customer's) question or giving directions in a commercial facility. ..
  • the action is the provision of some kind of support to the user, and the reward amount is the reaction of the user to the provided support.
  • Re-learning is re-learning of a learning model so that support can be provided in response to changes in the environment.
  • Pre-learning is performed in step S241.
  • Pre-learning is performed by performing a simulation in a test environment that uses tenant information and tenant information of the commercial facility to be installed.
  • learning is performed by actually interacting with the user.
  • navigation for a user's question and guarantee of a sense of distance that does not pose a threat to the user are also learned.
  • step S242 guidance (support) with reference to the learning model is performed. That is, the process referring to the learning model is actually performed.
  • the recognition information (Perceptual data) input when the guidance is performed is, for example, information such as various environmental conditions provided in the commercial facility and the current environmental information. For example, information that the number of tenants has decreased or increased, information that tenants have been replaced, information that the area of tenants has changed, and the like are acquired. Further, the information may be obtained from the commercial facility side, such as the information of the customer who uses the tenant, or may be the information obtained from the commercial facility user side.
  • step S243 information that can determine whether or not the guidance was effective is acquired.
  • This information is obtained as a reward. For example, when a user is guided, whether or not the guidance is successful, customer satisfaction, and the like are acquired.
  • Whether or not the guidance was successful can be determined by, for example, tracking and monitoring the user to determine whether or not the user has reached the desired location (tenant).
  • customer satisfaction can be determined by sensing the user and determining a reaction based on the sensing, for example, whether or not they understand (understanding) and whether or not they are satisfied (satisfaction). it can.
  • the amount of stress may be estimated by emotion / emotion estimation based on facial expression recognition or biological sensing.
  • the user's satisfaction level will increase, and as a result, the sales will increase, such as when the user reaches the tenant desired by the guidance or when the guidance has a favorable impression. Therefore, as a reward, it is possible to use whether or not the sales have improved. If the sales increase, the reward amount goes up, and if the sales go down, the reward amount goes down.
  • step S244 change information is generated by observing an increase or decrease in the amount of reward. In step S245, it is determined whether or not there has been an environmental change. In step S245, if the change information is information indicating that there is no environmental change, the process is returned to step S242, and the subsequent processes are repeated. On the other hand, in step S245, if the change information is information indicating that the environment has changed, the process proceeds to step S246. In step S246, re-learning is performed.
  • a ninth application example will be described with reference to the flowchart shown in FIG.
  • the ninth application example is a case where the present technology is applied to a financial system as an application. Further, for example, here, a case where the application presents information on investment will be described as an example.
  • the application (information processing device 10 operating based on) in the ninth application example monitors various economic indicators such as exchange trends and calculates optimal investment conditions.
  • Pre-learning is performed in step S261.
  • Pre-learning is performed using information on products to be presented to the user, such as stock prices and investment trust prices.
  • step S262 the learning model is referred to and the optimum investment conditions are presented. That is, the process referring to the learning model is actually performed.
  • the recognition information (Perceptual data) input when presenting investment conditions is, for example, various economic indicators such as exchange trends, news, and information on products that are being talked about in the market.
  • step S263 the investment result is acquired. This information is obtained as a reward. For example, if a profit is obtained as a result of investing based on the presented investment conditions, the amount of compensation will increase, and if no profit is obtained (if profit or loss is generated), the amount of compensation will decrease. In other words, if the result of investing based on the presented investment conditions is the same as the return expected at the time of presentation, the amount of compensation will increase, and if it is not expected, the amount of compensation will decrease.
  • step S264 change information is generated by observing an increase or decrease in the amount of reward.
  • step S265 it is determined whether or not there has been an environmental change. If the change information in step S265 is information indicating that there is no environmental change, the process is returned to step S262, and the subsequent processes are repeated. On the other hand, in step S265, if the change information is information indicating that the environment has changed, the process proceeds to step S266. In step S266, re-learning is performed.
  • the re-learning executed in such a case is performed in consideration of the event (new environment) that occurred. If the prediction is lower, re-learning is performed to return to the prediction, and if the prediction is higher than the prediction, re-learning is performed to make the prediction higher.
  • the tenth application example will be described with reference to the flowchart shown in FIG.
  • the tenth application example is a case where the present technology is applied to a system that performs recognition and authentication as an application. Further, for example, here, a case where the application performs personal authentication will be described as an example.
  • the application in the tenth application example includes personal authentication by a camera of a smartphone, identity verification by a camera in a public facility or an office, and usual behavioral tendencies, for example, behavior on the Web. Or, it authenticates whether or not the person is the person based on the behavior in the real world.
  • the action is an authentication trial for the user, and the reward amount is the evaluation information of the authentication accuracy based on the authentication trial result.
  • Re-learning is re-learning of a learning model suitable for the user's condition.
  • Pre-learning is performed in step S281.
  • learning is performed so that recognition (authentication) can be performed based on feature information such as the face of the user to be recognized (authentication) and behavioral tendency in daily life.
  • step S282 authentication is performed with reference to the learning model. That is, the process referring to the learning model is actually performed.
  • the recognition information (Perceptual data) input when the authentication is performed is, for example, the external feature amount of the target user (particularly, multi-viewpoint or dynamically accumulated information) or the behavior information of the target user.
  • step S283 the authentication result is acquired.
  • This information is obtained as a reward. For example, if the authentication is successful, the reward amount is high, and if the authentication is unsuccessful, the reward amount is low. That is, the evaluation information of the authentication accuracy based on the result of the trial of authentication is acquired as the reward amount.
  • the user who has been set as the authentication target (described as a true user) can be authenticated as a true user.
  • the successful authentication also includes the case where a user who is not a true user can be authenticated as a non-true user. If the authentication is successful, that is, if the authentication accuracy is high, the reward amount will be high.
  • the time when the authentication fails is when the true user is authenticated as not being the true user even though the authentication is tried.
  • the case where the authentication fails includes the case where a user who is not a true user is authenticated as a true user. If the authentication fails, that is, if the authentication accuracy is low, the reward amount will be low.
  • step S283 for example, face authentication is performed, but if the authentication result is doubtful, in other words, if the authentication accuracy is low and the reward amount is lower than a predetermined value, another authentication method, for example, a password Authentication by input may be performed. Authentication by a password may be performed, and it may be determined whether or not the authentication result by the password is the same as the initial estimation (the initial estimation was correct).
  • face authentication may be a true user, but if it cannot be confirmed, authentication is performed by entering a password.
  • the authentication result in face authentication is also correct as a result, so it can be estimated that the accuracy of face authentication has not deteriorated.
  • the authentication result in face authentication is incorrect as a result, and it can be estimated that the accuracy of face authentication is reduced.
  • re-learning should be performed when it can be estimated that the accuracy of authentication has dropped. That is, re-learning is performed when the amount of reward is rapidly decreasing.
  • step S284 change information is generated by observing an increase or decrease in the amount of reward.
  • step S285 it is determined whether or not there has been an environmental change. If the change information in step S285 is information indicating that there is no environmental change, the process is returned to step S282, and the subsequent processes are repeated. On the other hand, in step S285, if the change information is information indicating that the environment has changed, the process proceeds to step S286. In step S286, re-learning is performed.
  • the authentication accuracy may decrease.
  • re-learning is performed in response to the change in the appearance of the user.
  • changes in the user's appearance are treated as changes in the environment.
  • re-learning suitable for the other authentication method may be performed. For example, if authentication is performed by face recognition, but it is judged that the system has deteriorated, it is decided to shift to authentication based on behavioral tendencies, and learning to execute authentication based on behavioral tendencies is executed as re-learning. It may be done.
  • changes in the environment can be detected.
  • the learning model used at that time can be updated, or re-learning to be newly generated can be performed.
  • the series of processes described above can be executed by hardware or software.
  • the programs constituting the software are installed on the computer.
  • the computer includes a computer embedded in dedicated hardware and, for example, a general-purpose personal computer capable of executing various functions by installing various programs.
  • the hardware configuration of the computer that executes the above-mentioned series of processes programmatically can be configured for the information processing device 10 shown in FIG.
  • the CPU 21 of the information processing device 10 shown in FIG. 1 loads, for example, a program stored in the storage device 30 into the RAM 23 and executes the program, thereby performing the above-mentioned series of processes.
  • the program executed by the computer (CPU 21) can be recorded and provided on a removable recording medium 41 as a package medium or the like, for example. Programs can also be provided via wired or wireless transmission media such as local area networks, the Internet, and digital satellite broadcasting.
  • the program can be installed in the storage device 30 via the interface 27 by mounting the removable recording medium 41 in the drive 31. Further, the program can be received by the communication device 33 and installed in the storage device 30 via a wired or wireless transmission medium. In addition, the program can be pre-installed in the ROM 22 or the storage device 30.
  • the program executed by the computer may be a program that is processed in chronological order according to the order described in this specification, or may be a program that is processed in parallel or at a necessary timing such as when a call is made. It may be a program in which processing is performed.
  • system represents the entire device composed of a plurality of devices.
  • the present technology can also have the following configurations.
  • a decision-making unit that determines actions for input information based on a predetermined learning model
  • An information processing device including a learning unit that relearns the learning model when the change in the amount of reward for the action exceeds a predetermined standard.
  • the information processing device according to (1) above wherein the learning model is a learning model generated or updated by reinforcement learning.
  • the reinforcement learning is reinforcement learning using LSTM (Long Short Term Memory).
  • the learning model is subjected to other re-learning different from the re-learning according to the above (1) to (4).
  • the information processing device according to any one.
  • the re-learning is a re-learning that changes the learning model more significantly than the other re-learning.
  • the information processing apparatus according to any one of (1) to (6) above, wherein the learning model is not relearned when the change in the amount of reward for the action does not exceed the predetermined standard. ..
  • the information processing device according to any one of (1) to (7), which is newly generated on the premise of the predetermined learning model, is a new learning model obtained as a result of the re-learning. (9) When there is a change exceeding the predetermined reference, a plurality of learning models included in the information processing device, or other learning models that the information processing device can acquire from the outside and are different from the predetermined learning model.
  • the information processing apparatus according to any one of (1) to (8) above, which switches to a learning model.
  • the information processing device according to any one of (1) to (9) above, wherein the reward amount includes information on a user's reaction.
  • the action is the generation of a sentence and the presentation of the sentence to the user.
  • the reward amount includes a reaction by the user who received the presentation of the sentence.
  • the information processing apparatus according to any one of (1) to (10) above, wherein the re-learning is re-learning of a learning model that generates the sentence. (12)
  • the action is a recommendation to the user
  • the reward amount includes a reaction by the user who has received the recommendation.
  • the information processing apparatus according to any one of (1) to (10) above, wherein the re-learning is re-learning for making a new recommendation according to a change in the user state. (13)
  • the change in the amount of reward exceeds a predetermined standard, the factor that caused the change is estimated, and re-learning is performed based on the estimated factor (1) to (12).
  • the information processing device according to any one of.
  • the information processing apparatus according to any one of (1) to (13) above, which performs re-learning to generate a new learning model when the period in which the reward amount does not fluctuate continues for a predetermined period.
  • the action is the control of a moving body,
  • the reward amount includes environmental information related to the mobile body.
  • the information processing apparatus according to any one of (1) to (10) above, wherein the re-learning is re-learning of a learning model for controlling the moving body.
  • the action is a user authentication attempt and
  • the reward amount is evaluation information of authentication accuracy based on the result of the authentication trial. When the change in the reward amount exceeds a predetermined standard, it is determined that the user is in a predetermined specific state, and re-learning suitable for the specific state is performed.
  • Information processing device described in Crab.
  • Information processing device Based on a predetermined learning model, determine the behavior for the input information and An information processing method for re-learning the learning model when the change in the amount of reward for the action exceeds a predetermined standard.
  • On the computer Based on a predetermined learning model, determine the behavior for the input information and A program for executing a process including a step of re-learning the learning model when the change in the amount of reward for the action exceeds a predetermined standard.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • Accounting & Taxation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Resources & Organizations (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Tourism & Hospitality (AREA)
  • Technology Law (AREA)
  • Operations Research (AREA)
  • Primary Health Care (AREA)
  • Medical Informatics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Manipulator (AREA)

Abstract

本技術は、環境の変化があったとき、再学習を行えるようにする情報処理装置、情報処理方法、並びにプログラムに関する。 所定の学習モデルに基づき、入力情報に対する行動を決定する決定部と、前記行動に対する報酬量の変化が、所定の基準を超える変化であった場合に、前記学習モデルの再学習を行う学習部とを備える。前記学習モデルは、強化学習により生成または更新される学習モデルである。本技術は、例えば所定の強化学習を行う情報処理装置に適用できる。

Description

情報処理装置、情報処理方法、並びにプログラム
 本技術は情報処理装置、情報処理方法、並びにプログラムに関し、例えば、学習している環境が変化したときに、新たな環境に対応した学習を行えるようにした情報処理装置、情報処理方法、並びにプログラムに関する。
 環境における価値(利益)が最大となるようにすることを目標にして、この目標を達成するための制御方法を試行錯誤しながら学習していくような機械学習は、広い意味で、強化学習と称されている。特許文献1では、強化学習にかかる時間を短縮する技術についての開示がある。
特開2006-313512号公報
 しかしながら、一度学習がなされると、環境が学習した環境と異なる環境に変化したときに、新たな環境に適応するための再学習に時間がかかってしまう可能性があった。
 本技術は、このような状況に鑑みてなされたものであり、環境が変化したことを検知し、環境が変化したときにできるだけ早く新たな環境に対応できるようにするものである。
 本技術の一側面の情報処理装置は、所定の学習モデルに基づき、入力情報に対する行動を決定する決定部と、前記行動に対する報酬量の変化が、所定の基準を超える変化であった場合に、前記学習モデルの再学習を行う学習部とを備える。
 本技術の一側面の情報処理方法は、情報処理装置が、所定の学習モデルに基づき、入力情報に対する行動を決定し、前記行動に対する報酬量の変化が、所定の基準を超える変化であった場合に、前記学習モデルの再学習を行う。
 本技術の一側面のプログラムは、コンピュータに、所定の学習モデルに基づき、入力情報に対する行動を決定し、前記行動に対する報酬量の変化が、所定の基準を超える変化であった場合に、前記学習モデルの再学習を行うステップを含む処理を実行させる。
 本技術の一側面の情報処理装置、情報処理方法、並びにプログラムにおいては、所定の学習モデルに基づき、入力情報に対する行動が決定され、行動に対する報酬量の変化が、所定の基準を超える変化であった場合に、学習モデルの再学習が行われる。
 なお、情報処理装置は、独立した装置であっても良いし、1つの装置を構成している内部ブロックであっても良い。
 また、プログラムは、伝送媒体を介して伝送することにより、または、記録媒体に記録して、提供することができる。
本技術を適用した情報処理装置の一実施の形態の構成を示す図である。 情報処理装置の機能構成例を示す図である。 強化学習の一例について説明するための図である。 学習処理について説明するためのフローチャートである。 他の学習処理について説明するためのフローチャートである。 複数の学習モデルを記憶する場合について説明するための図である。 第1の適用例について説明するためのフローチャートである。 第2の適用例について説明するためのフローチャートである。 第3の適用例について説明するためのフローチャートである。 第4の適用例について説明するためのフローチャートである。 第5の適用例について説明するためのフローチャートである。 第6の適用例について説明するためのフローチャートである。 第7の適用例について説明するためのフローチャートである。 第8の適用例について説明するためのフローチャートである。 第9の適用例について説明するためのフローチャートである。 第10の適用例について説明するためのフローチャートである。
 以下に、本技術を実施するための形態(以下、実施の形態という)について説明する。
 本技術は、強化学習を行う情報処理装置に適用できる。強化学習としては、LSTM(Long Short Term Memory:長期短期記憶)を用いた学習法に対して、本技術を適用できる。ここでは、LSTMに本技術を適用した場合を例に挙げて説明を行うが、他の方式による強化学習に対しても適用可能である。
 <情報処理装置の構成>
 図1は、本技術を適用した情報処理装置の一実施の形態の構成を示す図である。情報処理装置10は、例えば、パーソナルコンピュータで構成することができる。
 情報処理装置10は、主に、CPU21、ROM22、RAM23を備える。また、情報処理装置10は、ホストバス24、ブリッジ25、外部バス26、インタフェース27、入力装置28、出力装置29、ストレージ装置30、ドライブ31、接続ポート32、通信装置33を備える。
 CPU21は、演算処理装置および制御装置として機能し、ROM22、RAM23、ストレージ装置30またはリムーバブル記録媒体41に記録された各種プログラムに従って、情報処理装置10内の動作全般またはその一部を制御する。ROM22は、CPU21が使用するプログラムや演算パラメータ等を記憶する。RAM23は、CPU21が使用するプログラムや、プログラムの実行において適宜変化するパラメータ等を一次記憶する。これらはCPUバス等の内部バスにより構成されるホストバス24により相互に接続されている。
 ホストバス24は、ブリッジ25を介して、PCI(Peripheral Component Interconnect)バスなどの外部バス26に接続されている。また、外部バス26には、インタフェース27を介して、入力装置28、出力装置29、ストレージ装置30、ドライブ31、接続ポート32、および通信装置33が接続される。
 入力装置28は、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ、レバー、ペダル等、ユーザが操作する操作手段である。また、入力装置28は、例えば、赤外線やその他の電波を利用したリモートコントロール手段(いわゆる、リモコン)であってもよいし、情報処理装置10の操作に対応した携帯電話やPDA等の外部接続機器であってもよい。さらに、入力装置28は、例えば、上記の操作手段を用いてユーザにより入力された情報に基づいて入力信号を生成し、CPU21に出力する入力制御回路などから構成されている。情報処理装置10のユーザは、この入力装置28を操作することにより、情報処理装置10に対して各種のデータを入力したり処理動作を指示したりすることができる。
 また入力装置28は、各種のセンサであっても良い。例えば、イメージセンサ、ジャイロセンサ、加速度センサ、温度センサ、気圧センサなどのセンサや、それらのセンサからの出力を入力する入力部として機能する装置であっても良い。
 出力装置29は、取得した情報をユーザに対して視覚的または聴覚的に通知することが可能な装置で構成される。このような装置として、CRTディスプレイ装置、液晶ディスプレイ装置、プラズマディスプレイ装置、ELディスプレイ装置およびランプ等の表示装置や、スピーカおよびヘッドホン等の音声出力装置や、プリンタ装置等がある。出力装置29は、例えば、情報処理装置10が行った各種処理により得られた結果を出力する。具体的には、表示装置は、情報処理装置10が行った各種処理により得られた結果を、テキストまたはイメージで表示する。他方、音声出力装置は、再生された音声データや音響データ等からなるオーディオ信号をアナログ信号に変換して出力する。
 また出力装置29は、情報処理装置10が車両やロボットを制御する制御部の一部として機能する場合、移動制御のための情報を各部に出力する装置であっても良いし、移動制御を行うモータやブレーキなどであっても良い。
 ストレージ装置30は、情報処理装置10の記憶部の一例として構成されたデータ格納用の装置である。ストレージ装置30は、例えば、HDD(Hard Disk Drive)等の磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイスまたは光磁気記憶デバイス等により構成される。このストレージ装置30は、CPU21が実行するプログラムや各種データ等を格納する。
 ドライブ31は、記録媒体用リーダライタであり、情報処理装置10に内蔵、あるいは外付けされる。ドライブ31は、装着されている磁気ディスク、光ディスク、光磁気ディスクまたは半導体メモリ等のリムーバブル記録媒体41に記録されている情報を読み出して、RAM23に出力する。また、ドライブ31は、装着されている磁気ディスク、光ディスク、光磁気ディスクまたは半導体メモリ等のリムーバブル記録媒体41に記録を書き込むことも可能である。リムーバブル記録媒体41は、例えば、DVDメディア、HD-DVDメディアまたはBlu-ray(登録商標)メディア等である。また、リムーバブル記録媒体41は、コンパクトフラッシュ(登録商標)(CF:CompactFlash)、フラッシュメモリまたはSDメモリカード(Secure Digital memory card)等であってもよい。また、リムーバブル記録媒体41は、例えば、非接触型ICチップを搭載したICカード(Integrated Circuit card)または電子機器等であってもよい。
 接続ポート32は、情報処理装置10に直接接続するためのポートである。接続ポート32の一例として、USB(Universal Serial Bus)ポート、IEEE1394ポート、SCSI(Small Computer System Interface)ポート等がある。接続ポート32の別の例として、RS-232Cポート、光オーディオ端子、HDMI(登録商標)(High-Definition Multimedia Interface)ポート等がある。この接続ポート32に外部接続機器42を接続することで、情報処理装置10は、外部接続機器42から直接各種のデータを取得したり、外部接続機器42に各種のデータを提供したりする。
 通信装置33は、例えば、通信網(ネットワーク)917に接続するための通信デバイス等で構成された通信インタフェースである。通信装置33は、例えば、有線若しくは無線LAN(Local Area Network)、Bluetooth(登録商標)またはWUSB(Wireless USB)用の通信カード等である。また、通信装置33は、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータまたは各種通信用のモデム等であってもよい。この通信装置33は、例えば、インターネットや他の通信機器との間で、例えばTCP/IP等の所定のプロトコルに則して信号等を送受信することができる。また、通信装置33に接続される通信網43は、有線または無線によって接続されたネットワーク等により構成され、例えば、インターネット、家庭内LAN、赤外線通信、ラジオ波通信または衛星通信等であってもよい。
 <情報処理装置の機能>
 図2は、情報処理装置10の機能を示すブロック図である。情報処理装置10は、事前学習部61、学習部62、学習モデル記憶部63、認識情報取得部64、出力情報生成部65、報酬量設定部66、変化情報生成部67、および環境変化判定部68を含む構成とされている。
 事前学習部61と学習部62は、所定の学習方法により学習を行い、学習モデルを生成、更新する。ここでは、事前学習部61と学習部62の2つの学習部を備えている場合を例に挙げて説明を行うが、1つの学習部であっても良い。ここでは、ユーザが情報処理装置10を使用する前の学習(使用後の所定の期間内の学習)は、事前学習部61が行い、使用を開始した後の学習は、学習部62が行うとして説明を続ける。
 事前学習部61は、情報処理装置10が製造される段階、例えば、工場出荷段階(ユーザ使用前)において、情報処理装置10の使用環境を模した疑似環境により学習を行い、学習モデル(以下、適宜、初期学習モデルと記述する)を生成する。生成された初期学習モデルは、学習モデル記憶部63に記憶される。
 学習部62は、後述する環境の変化が検知されたときに、再学習を行うことで、学習モデルを更新または新たに生成する。学習モデル記憶部63は、初期学習モデルや、更新された学習モデルや、新たに生成された学習モデルを記憶する。
 認識情報取得部64は、認識情報を取得する。認識情報は、情報処理装置10に入力される入力情報であり、情報処理装置10が提示する情報(出力する情報)を生成するのに用いられる情報である。認識情報は、ユーザに関する情報や、システムが関係する環境に関する情報であり、例えば、ユーザの行動履歴、天気に関する情報、渋滞情報などである。
 出力情報生成部65は、認識情報と学習モデルに基づいて、行動を決定する。例えば、会話生成を行うシステムの場合、認識情報として、天気に関する情報が取得された場合、天気に関する話題をユーザに提供するという行動のための発話情報が生成される。
 報酬量設定部66は、報酬量を設定する。報酬量は、例えば、情報処理装置10が提示した情報に対するユーザの反応から得られる情報とすることができる。
 情報処理装置10は、強化学習に基づく処理を行う。強化学習は、与えられた環境における価値(利益)が最大となるようにする学習であり、エージェント(行動主体)が行動した結果、起こる環境の変化を評価し、その変化を所定の評価関数に基づき報酬として転出し、当該報酬量を最大化するようなフィードバックを学習モデルに対して行う学習であると定義することができる。
 報酬量設定部66が設定する報酬量は、ある状態においてエージェント(本実施の形態では情報処理装置10)が行動を起こした結果、どれくらいの報酬(評価関数と称されることもある)が得られるのかを表す。また状態とは、環境が今どのような状態になっているのかを表す。また行動とは、エージェントが環境に対してどのような行動を起こすことができるのかを表す。
 なお、本技術を適用できる強化学習には、学習モデルが複数層の中間層のネットワークで構成される場合も含まれる。
 図2に示した情報処理装置において、認識情報取得部64により取得された認識情報に対して報酬が得られる出力情報が、出力情報生成部65により生成される。例えば、ユーザの反応を報酬量とするシステムにおいては、この生成された出力情報をユーザに提示したときに、ユーザの反応として好ましい反応が得られた場合、報酬が得られる。
 このように、ユーザの反応を報酬とした場合に、ユーザの反応が好まし反応ではなかった場合、報酬量が減るといった変化が起こる。このような報酬量の変化により、変化情報生成部67は、変化情報を生成する。変化情報生成部67は、報酬量の変化が大きいか否かを表すフラグを生成する。例えば、報酬量の変化が大きいと判定される場合には、変化情報として“1”という情報を生成し、報酬量の変化が小さい(変化がない)と判定される場合には、変化情報として“0”という情報を生成する。
 ここでは、報酬量が大きいときに“1”、小さいときに“0”として説明を続けるが、報酬量が大きいときに“0”、小さいときに“1”であってもよい。またここでは、変化情報は、0または1のフラグであるとして説明を続けるが、他の情報であっても良い。例えば、報酬量の大きさに応じた値であっても良い。例えば、報酬量の大きさに応じて、0乃至10の値が割り振られるようにしても良い。
 環境変化判定部68は、環境が変化したか否かを判定する。環境変化判定部68は、変化情報が“0”の場合(報酬量の変化が小さい場合)、環境は変化していないと判定し、変化情報が“1”の場合(報酬量の変化が大きい場合)、環境は変化している判定する。環境変化判定部68は、環境が変化していると判定した場合、学習部62に指示を出し、再学習を開始させる。
 このように、本技術を適用した情報処理装置10は、環境が変化したことを検知し、環境が変化したことが検知された場合、再学習を行う。
 <LSTMを適用した場合について>
 情報処理装置10が行う学習には、LSTMを用いた学習法を適用できる。LSTMは、RNN(Recurrent Neural Network)を拡張した時系列データに対するモデルである。LSTMは、長期依存の学習が可能であるという特徴を有する。
 図3に、LSTMの構造の一例を示す。LSTM81は、主に学習を行い、LSTM82は、主に環境変化を検知する。LSTM81には、1つ前の時刻t-1における変化情報(Volatility(t-1))、現時刻tの認識情報(Perceptual data(t))、および1つ前の時刻t-1における出力(Action(t-1))が入力される。
 LSTM82には、現時刻tの認識情報(Perceptual data(t))、1つ前の時刻t-1における出力(Action(t-1))、および1つ前の時刻t-1における報酬(Reward (t-1))が入力される。
 LSTM82は、前回の出力(Action(t-1))について、認識情報(Perceptual data(t))と報酬(Reward (t-1))に基づき評価(State Value(t))を行う。また、LSTM82は、報酬量に大きな変化があるか否かを判定し、報酬量に大きな変化はないとの判定の場合“0”という変化情報(Volatility(t-1))をLSTM81に出力し、報酬量に大きな変化があるとの判定の場合“1”という変化情報(Volatility(t-1))をLSTM81に出力する。
 LSTM81は、認識情報(Perceptual data(t))に基づき、今回(時刻t)の出力(Action(t))を決定する。出力(Action(t))を決定する際、所定の条件の報酬に基づく学習済みの学習モデルが参照されても良い、そのような学習モデルではない学習モデルが参照されても良い。
 また、LSTM81は、変化情報(Volatility(t-1))が“0”であり、環境変化は起きていないと判定される場合、その時点で参照している学習モデルに基づき、出力(Action(t))を決定する。一方で、LSTM81は、変化情報(Volatility(t-1))が“1”であり、環境変化が起きていると判定される場合、認識情報(Perceptual data(t))と前回(時刻t-1)の出力(Action(t-1))に基づき、出力(Action(t))を変化させる。すなわち、環境変化が起きていると判定される場合、変化情報(Volatility)を報酬とした、環境変化後の条件に基づく再学習を行う。
 このように、LSTM82は、報酬量の変化から、環境の変化を検知し、環境の変化が検知された場合、LSTM81は再学習を開始する。なおここでは、環境の変化を検知したり、再学習を開始したりする強化学習の一例として、LSTMを例に挙げて説明したが、情報処理装置10は、他の強化学習を適用し、環境の変化を検知したり、再学習を開始したりするように構成することも可能である。
 <情報処理装置の処理について>
 このような学習を行う情報処理装置10の処理について説明を加える。図4は、情報処理装置10の処理について説明するためのフローチャートである。なお、各処理については、具体的な適用例を挙げ、後段で説明を加える。
 ステップS11において、事前学習部61(図2)により、事前学習が行われる。事前学習は、ユーザにより情報処理装置10が使用される前、または/および、ユーザにより情報処理装置10の使用が開始されてからの所定の期間に行われる。
 例えば、事前学習部61は、情報処理装置10が製造される段階、例えば、工場出荷段階において、情報処理装置10の使用環境を模した疑似環境により学習を行い、初期学習モデルを生成する。生成された初期学習モデルは、学習モデル記憶部63に記憶される。
 または情報処理装置10がユーザにより使用開始された後の所定の期間を事前学習期間とし、その事前学習期間に初期学習モデルが生成され、学習モデル記憶部63に記憶されるようにしても良い。
 また、工場出荷段階などで、ユーザが情報処理装置10を使用する前に、初期学習モデルが生成され、その初期学習モデルがさらに、ユーザが情報処理装置10の使用開始した所定の期間、ユーザの使用態様に合わせて最適化されるようにしても良い。
 事前学習期間の終了は、予め定められた期間、例えば、一ヶ月などの期間や、ユーザとやり取りした累積時間が所定の時間に達するまでの期間などとすることができる。また事前学習期間の終了は、変化情報が一定範囲内に収まったとき、ここでは、変化情報は、0または1とした場合を例に挙げて説明をしているため、0に設定されたときまでとすることができる。
 ステップS12において、事前学習により形成された学習モデル(初期学習モデル)による動作が行われる。具体的には、認識情報取得部64(図2)により、認識情報が取得され、出力情報生成部65により、取得された認識情報と学習モデル記憶部63に記憶されている学習モデルに基づき、出力情報が生成される。
 ステップS13において、報酬量設定部66により報酬量が設定される。報酬量は、出力情報に対するユーザの反応などを取得することで設定される。
 ステップS14において、変化情報生成部67により変化情報が生成される。変化情報生成部67は、報酬量の急激な変化(報酬量の急激な増減)があった場合に、環境が変化したと検知する。
 環境の変化は、情報処理装置10側で、例えば、予め閾値を設定しておき、報酬量の変動が、閾値以上になったとき、環境に変化があったと検知されるようにすることができる。この場合、報酬量の変動としては、報酬量が増加する変動と減少する変動を含み、その変動量が、閾値以上になったか否かが判定される。
 ユーザ側から環境に関する情報、例えば、使用者が変わった、設置場所が変わったなどの情報が提供され、そのような情報から、環境の変化が検知されるようにしても良い。もちろん、これらを組み合わせ、ユーザから提示される情報と、情報処理装置10に設定されている条件に基づき、環境の変化が検知されるようにしても良い。
 変化情報生成部67は、環境に変化があったと検知した場合、変化があったことを示す“1”という情報を生成し、環境変化判定部68に供給し、環境に変化はないと検知した場合、変化がないことを示す“0”という情報を生成し、環境変化判定部68に供給する。
 ステップS15において、環境変化判定部68は、環境の変化があったか否かを判定する。ステップS15において、環境変化判定部68は、変化情報生成部67から供給された変化情報が、環境の変化がなかったことを表している場合、環境の変化はないと判定し、ステップS12に処理が戻され、それ以降の処理が繰り返される。
 一方、ステップS15において、環境変化判定部68は、変化情報生成部67から供給された変化情報が、環境の変化があったことを表している場合、環境の変化があったと判定し、ステップS16に処理が進められる。
 ステップS16において、再学習が行われる。環境変化判定部68は、環境に変化があったと判定した場合には、学習部62に対して再学習を開始するように指示を出す。このような指示が出されることで、学習部62は学習を開始する。学習が開始されることで、新たな学習モデルが生成される、または学習モデルが更新される。
 学習部62により再学習が行われることで、新たな学習モデルが生成された場合、または学習モデルの更新が終了された場合、ステップS12に処理が戻され、それ以降の処理が繰り返される。
 再学習の終了は、予め定められた期間、例えば、一ヶ月などの期間や、ユーザとやり取りした累積時間が所定の時間に達するまでの期間などとすることができる。また再学習期間の終了は、変化情報が一定範囲内に収まったとき、ここでは、変化情報は、0または1とした場合を例に挙げて説明をしているため、0に設定されたときまでとすることができる。
 情報処理装置10の学習の仕方として、環境の変化があったと判定されるまでは、学習モデルが更新されることなく処理が行われるようにすることができる。このような場合、再学習が指示された時点で、学習モデルの更新が開始される。再学習のとき、その時点で用いられている学習モデルが更新されるようにしても良い、新たに生成されるようにしても良い。
 情報処理装置10の学習の仕方として、常に学習モデルが最適化されるように学習が継続的に行われているようにすることができる。このような場合、再学習が指示された場合も、学習モデルの更新自体は継続して行われるが、例えば報酬の種類や評価関数の定義を再定義することで、異なる方法での学習が開始される。または、新たに学習モデルが生成されるようにしても良い。
 なお、ここでは、図2に示したように、変化情報生成部67と環境変化判定部68がある場合を例に挙げて説明を続けるが、変化情報生成部67と環境変化判定部68を1つの機能としてまとめることも可能である。図3を参照して説明したように、LSTM82により変化情報(Volatility)を生成し、LSTM81に供給し、LSTM81により環境の変化があったか否かを判定し、再学習が開始されるように構成した場合、LSTM82が、変化情報生成部67に該当し、LSTM81が、環境変化判定部68に該当する。
 このように、変化情報生成部67と環境変化判定部68を、別々に設けるようにした場合、図3ではLSTM81とLSTM82という同一の学習方法が用いられる場合を例示したが、異なる学習方法が用いられるようにしても良い。例えば、環境変化判定部68は、LSTM81とし、LSTMによる学習を行い、変化情報生成部67は、例えば、複数のセンサから得られる情報を解析し、環境の変化を検知したり、ユーザからの情報により環境の変化を検知したりする方法が適用されるようにしても良い。
 変化情報生成部67と環境変化判定部68を1つの機能としても良い。上記した説明では、変化情報生成部67が、報酬量の変化から環境の変化を検知し、0または1の変化情報を、環境変化判定部68に供給するとした。このように、変化情報生成部67は、報酬量の変化から環境の変化を検知しているため、環境変化判定部68と実質的に同一の処理を行っている。よって、変化情報生成部67は、環境の変化を検知し、環境に変化があったと検知したとき、学習部62に再学習の指示を出すように構成し、環境変化判定部68を備えない構成とすることも可能である。
 <情報処理装置の他の処理について>
 上記したように、環境に変化があったときに再学習が行われ、学習モデルが新たに生成されるようにした場合、学習モデル記憶部63に記憶されていた学習モデル、例えば初期学習モデルを削除して、新たに生成された学習モデルが記憶されるようにすることも可能であるし、学習モデル記憶部63に追加記憶されるようにすることも可能である。
 学習モデル記憶部63に複数の学習モデルが記憶されるように構成することも可能である。また、複数の学習モデルが、学習モデル記憶部63に記憶されているようにし、学習モデルを切り替えて用いられる構成することも可能である。情報処理装置の他の処理として、学習モデルを生成し、追加し、切り替えて用いる場合について説明する。
 図5は、情報処理装置の他の処理について説明するためのフローチャートである。ステップS31乃至S35の処理は、ステップS11乃至S15(図4)と同様であるため、その説明は省略する。
 ステップS35において、環境変化があったと判定された場合、ステップS36に処理が進められる。ステップS36において、学習モデル記憶部63に、複数の学習モデルが記憶されているか否かが判定される。ここでは、図6の時刻t1に示すように、学習モデル記憶部63には、学習モデル91Aのみが記憶されている場合を想定する。
 また、学習モデル記憶部63以外に記憶されている学習モデルも検索されるようにしても良い。例えば、情報処理装置10以外の装置で管理されている学習モデルであり、取得可能な学習モデルがあるか否かの判定が、ステップS35において行われるようにしても良い。また、判定の結果、取得可能な学習モデルがあると判定された場合には、その学習モデルも、以下の処理の対象として用いられる。
 このような場合、ステップS36において、学習モデル記憶部63には、学習モデル91Aのみが記憶されているため、複数の学習モデルは記憶されていないと判定され、ステップS37に処理が進められる。ステップS37において、再学習が行われる。ステップS37における処理は、ステップS16(図4)における処理と同様に行うことができるため、説明は省略する。
 ただし、ステップS37においては、再学習が行われることで、既に記憶されている学習モデル(例えば、学習モデル91A)とは異なる学習モデルが新たに生成される。換言すれば、学習モデル91Aが更新されるのではなく、また学習モデル91Aが更新されるとした場合でも、学習モデル91Aとは異なる学習モデル(学習モデル91B)として生成され、学習モデル91A自体は、そのまま残しておく。
 ステップS37において、再学習が行われることで新たに生成された学習モデルは、ステップS38において、学習モデル記憶部63に追加され、記憶される。例えば、図6の時刻t2に示すように、ステップS38の処理が行われることで、学習モデル記憶部63には、学習モデル91Aと学習モデル91Bが記憶されている状態となる。
 ステップS38の処理後、処理は、ステップS32に戻され、それ以降の処理が繰り返される。この場合、学習モデル91Bを用いた処理が実行される。
 一方、ステップS36において、学習モデル記憶部63には複数の学習モデルが記憶されていると判定された場合、ステップS39に処理が進められる。例えば、図6の時刻t2に示したように学習モデル91Aと学習モデル91Bが学習モデル記憶部63に記憶されている場合、ステップS36における判定において、学習モデル記憶部63には複数の学習モデルが記憶されていると判定される。
 ステップS39において、環境に合う学習モデルがあるか否かが判定される。例えば、環境Aに最適化された学習モデルが、学習モデル91Aであり、環境Bに最適化された学習モデルが、学習モデル91Bであるとする。環境変化があったと判定され、変化後の環境が環境Aであると判定できる場合、ステップS39においては、環境に合う学習モデルが、学習モデル記憶部63に記憶されているとして、ステップS40に処理が進められる。
 ステップS40において、環境変化後の環境に合う学習モデルであると判定された学習モデルに、参照先の学習モデルが切り替えられ、その学習モデルを用いた処理が、ステップS32に処理が戻されることで開始される。
 一方、環境変化があったと判定され、変化後の環境が環境Aや環境Bとは異なる環境Cであると判定された場合、ステップS39においては、環境に合う学習モデルが、学習モデル記憶部63には記憶されていないとして、ステップS37に処理が進められる。
 ステップS37において、再学習が行われる。この場合、環境Cに最適化された学習モデルの学習が行われる。そして、ステップS38の処理において、新たに生成された学習モデル91Cが、学習モデル記憶部63に追加され、記憶される(図6の時刻t3に示した状態)。
 すなわち、環境変化があった場合に、変化後の環境に合う学習モデルがある場合、その学習モデルを用いた処理に切り替えられ、変化後の環境に合う学習モデルがない場合、変化後の環境に合う学習モデルが生成され、追加される。
 例えば、環境Aは、ユーザAとやり取りしている環境であり、学習モデル91Aは、ユーザAに最適化された学習モデルであると仮定する。また、環境Bは、ユーザBとやり取りしている環境であり、学習モデル91Bは、ユーザBに最適化された学習モデルであると仮定する。
 学習モデル91Aが参照されたやり取りがユーザAと行われているときは、環境変化はないと判定されるため、学習モデル91Aが参照された処理が継続される。やり取りの相手が、ユーザAからユーザBに変わった場合、学習モデル91Aが参照されたやり取りでは、ユーザBは満足せずに、報酬量が低下する可能性がある。報酬量が低下することで、環境が変わったと検知される。
 環境が変わったことが検知されると、環境に合う学習モデルが、学習モデル記憶部63に記憶されていないかが探索される。この場合、ユーザBに最適化された学習モデル91Bが記憶されているため、探索の結果、学習モデル91Bが記憶されていると判定される。この結果、学習モデル91Bに参照先の学習モデルが切り替えられる。この後、学習モデル91Bが参照されたやり取りがユーザBとの間で開始される。よって、報酬量は元に戻り、環境変化があったと判定される前の状態に戻る。
 このように、複数の学習モデルを記憶しておき、最適な学習モデルが参照された処理が行われるようにすることができる。
 ステップS39において、環境に合う学習モデルがあるか否かが判定されるが、この判定について説明を加える。1例として、センサから得られる情報を基に環境が判定されるようにすることができる。上記した例の場合、ユーザを撮影し、撮影した映像を解析し、ユーザを特定することができる。また、ユーザの音声を取得し、その音声を解析することで、ユーザを特定することができる。
 例えば、解析の結果、ユーザBとやり取りしていると判定された場合には、ユーザB用の学習モデル91Bに参照先の学習モデルが切り替えられる。また、映像や音声を解析した結果、登録されていないユーザが検出された場合には、そのユーザ用の学習モデルが生成されるように再学習が行われる。
 他の例として、学習モデル記憶部63に記憶されている学習モデルを切り替え、その学習モデルにおける報酬量の変化を見ることで、環境に合う学習モデルであるか否かを判定する。上記した例のように、例えば、ユーザAからユーザBにやり取り相手が変わったために、環境が変化したことが検出された場合を考える。
 このとき、学習モデル91Aから学習モデル91Bに切り替え、やり取りが行われると、報酬量は元に戻り、切り替え先の学習モデルが正しかった推定することができる。一方で、学習モデル91Aから学習モデル91Cに切り替え、やり取りが行われると、報酬量は下がったままであり、切り替え先の学習モデルは正しくなかったと推定することができる。
 このように、学習モデル記憶部63に記憶されている学習モデルを切り替え、報酬量の変化を観測することで、正しい学習モデルに切り替えられたか否かが判定されるようにしても良い。
 また学習モデルが切り替えられる環境変化として、例えば、時間帯の変化、時期の変化、天候の変化、位置の変化などでも良い。例えば、時間帯により参照される学習モデルが異なるようにし、所定の時間帯になったとき、環境の変化があったとして、学習モデルが切り替えられるようにしても良い。
 <第1の適用例>
 上述した情報処理装置10の適用例について説明する。以下の説明においては、主に、図4に示したフローチャートの処理を行う場合、換言すれば、学習モデルを切り替えない場合を例に挙げて説明するが、学習モデルを切り替える図5に示したフローチャートの処理を行う場合にも適用できる。
 図7に示したフローチャートを参照し、第1の適用例について説明する。第1の適用例は、アプリケーションとして、会話や文章を生成するシステム、例えばチャットボット(chatbot)に本技術を適用した場合である。チャットボットは、人工知能を活用した自動会話プログラムであり、人工知能を組み込んだコンピュータが人間に代わって対話するものである。チャットボットのコンピュータ側に情報処理装置10を適用することができる。
 チャットボットに係わる強化学習を行う場合、行動は、会話(文章)の生成やユーザに対する生成した会話(文章)の提示となり、報酬量は、会話(文章)の提示を受けた前記ユーザの反応などである。また再学習は、会話(文章)を生成する学習モデルの再学習となる。
 ステップS101において、事前学習が行われる。アプリケーションが、例えばSNS(Social Network Service)への投稿を自動的に生成するアプリケーションである場合、事前学習として、ターゲットとするユーザまたはユーザ群から高評価を得られる投稿が学習される。例えば、試験環境で複数の投稿を行い、特定のセグメントユーザに好評な文章の生成が学習される。特定のセグメントユーザとは、30歳代、40歳代といった所定の年齢層に属するユーザ、嗜好や行動傾向といった属性が共通する所定のグループに属するユーザ、所定の地域に住んでいるユーザなどである。
 事前学習により、初期学習モデルが生成され、学習モデル記憶部63に記憶される。初期学習モデルが学習モデル記憶部63に記憶されると、ステップS102において、初期学習モデルを参照した文章の生成と投稿が行われる。すなわち、学習モデルを参照した処理が実際に行われる。文章を生成するときに入力される認識情報(Perceptual data)として、例えば、投稿が閲覧された閲覧数、投稿に対して付けられたフォロワー数、投稿に対して付けられた良い悪いといった評価、投稿が転送された回数などが取得される。また、投稿が閲覧された時間帯などの時間情報、評価や転送したユーザのプロファイルなども取得されるようにしても良い。
 ステップS103において、文章の投稿が行われることで、その投稿に対する評価、即ちこの場合報酬量に該当する情報が取得される。特定セグメントユーザにより付けられた評価、転送、閲覧数などの情報から、報酬量が設定される。例えば、特定セグメントユーザが付けた評価が高い場合や、転送回数が多い場合や、閲覧数が多い場合など、高い報酬量が設定される。逆に、例えば、特定のセグメントユーザが付けた評価が低い場合や、転送回数が減った場合や、閲覧数が少なくなった場合など、低い報酬量が設定される。
 ステップS104において、報酬量の増減を観測することで、変化情報が生成される。報酬量が増加または減少したときには、変化があったことを表す変化情報(この場合、1という情報)が生成される。なお、閾値を設定しておき、設定されている閾値以上に報酬量が増加した場合、または減少した場合に、変化があったと判定されるようにすることができる。また、報酬量の増減は、所定の期間内での変動とし、報酬量の増減が観測される期間は、予め設定されているようにしても良い。
 基本的に、報酬量が大きくなるように、学習は行われるため、適した学習が行われていれば、報酬量は増加する。よって、単に、報酬量が増加した場合という条件ではなく、所定の期間に、所定の量だけ報酬量が増加した場合が観測されるようにする。例えば、短い期間に、報酬量が増えた場合、報酬量は急増したと判定でき、そのようなときには、環境に何らかの変化があったと推定できる。
 以下の説明において、急増とは、所定の期間内に所定の量(閾値)だけ報酬量が増加した場合を表す。換言すれば、単位時間あたりにおける報酬量の増加量または増加率が、所定の値以上となったときを急増と記述する。
 また急減とは、所定の期間内(単位時間)に所定の量(閾値)だけ報酬量が減少した場合を表す。換言すれば、単位時間あたりにおける報酬量の減少量または減少率が、所定の値以上となったときを急減と記述する。本実施の形態では、このような報酬量の急増または急減を検出し、学習が順調に進むことによる報酬量の増加や減少を検出するのではない。
 ステップS105において、環境変化があったか否かが判定される。変化情報が、環境変化があったことを表す情報(この場合、1)であった場合、YESと判定され、環境変化はないことを表す情報(この場合、0)であった場合、NOと判定される。
 ステップS105において、変化情報が、環境変化はないことを表す情報であった場合、ステップS102に処理が戻され、それ以降の処理が繰り返される。一方、ステップS105において、変化情報が、環境変化があったことを表す情報であった場合、ステップS106に処理が進められる。
 ステップS106において、再学習が行われる。
 報酬量が急増した場合、例えば、新たなセグメントユーザからの支持が高くなったなどの要因があったと推定できる。例えば、ターゲットとした特定セグメントユーザ層内での認知が拡大し、その拡大が何らかのきっかけにより、ターゲットとしていなかった特定セグメントユーザ層まで拡大したことにより、報酬量が急増することがあると推定できる。このような場合、その新たに得られた特定セグメントユーザ層に、ターゲットを変える再学習や、新たに得られた特定セグメントユーザ層(幅広いセグメント層)にも受け入れられる投稿を行えるような再学習が行われる。
 報酬量が急減した場合、例えば、不適切な投稿であったなどの要因があったと推定できる。例えば、ターゲットとした特定セグメントユーザを不快にする言葉や、共感できないような言葉などを含む文章を投稿したために、特定セグメントユーザからの支持が低下し、報酬量が急減したと推定できる。このような場合、原因となりうる投稿群(ユーザの支持が下がると推定される言葉を含む複数の投稿)や、投稿生成に用いる当該言葉に対する報酬は、ネガティブな報酬とする再学習が行われる。
 このように、環境変化の情報に応じて、報酬を再定義し、適切な報酬が与えられるように再学習が行われるようにすることができる。
 なおここでは、特定セグメントユーザをターゲットした投稿を行う場合を例に挙げて説明したが、特定セグメントユーザを設定しない投稿であっても、本技術を適用することはできる。
 例えば、報酬量が急増した場合には、報酬量が急増した投稿群に、ユーザが好ましいとする言葉や表現が含まれていたと推定し、そのような言葉や表現を用いた投稿がさらに行えるような再学習が行われるようにすることもできる。また、報酬量が急減した場合には、報酬量が急減した投稿群に、ユーザが不快と感じる言葉や表現が含まれていたと推定し、そのような言葉や表現を含む投稿に対する報酬を再定義した再学習が行われるようにすることもできる。
 このように、報酬量が急増したときに、再学習が行われる。換言すれば、報酬量が急増していないときには、再学習は開始されない。報酬量が急増していないときには、報酬量が増加するようにするための学習が継続して行われる。
 このことは以下の実施の形態においても同様である。また、以下の実施の形態においては、報酬量が急減したときに、再学習が行われ、報酬量が急減していないときには、報酬量が増加するようにするための学習が継続して行われる実施の形態もある。
 再学習が行われることにより、再学習前の学習モデルが適切な学習モデルに修正される、または新たに学習モデルが生成される。再学習は、再学習前の学習モデルを大きく変化させるための学習とされる。
 再学習後、再学習後の学習モデルが用いられ、報酬量が増加するような学習が継続して行われる。再学習後の学習モデルは、その時点での環境に適した学習モデルとなるため、再学習後の学習モデルは、報酬量の急増や急減が起こらない学習モデル、換言すれば報酬量の変動が所定の範囲内に収まった状態で、徐々に増えるような学習モデルとなる。本技術によれば、環境の変化があったときに、その環境に適した学習モデルを生成することができる。
 <第2の適用例>
 上述した情報処理装置10の第2の適用例について説明する。
 図8に示したフローチャートを参照し、第2の適用例について説明する。第2の適用例は、アプリケーションとして、会話を生成するチャットボット(chatbot)に本技術を適用した場合であり、この点では、第1の適用例と同じであるが、第2の適用例では、雑談を生成する場合に適用している点が異なる。
 ステップS121において、事前学習が行われる。アプリケーションが、家庭用のAIエージェントの会話機能を実現するアプリケーションであり、例えば、当たり障りのない雑談を生成するアプリケーションである場合、事前学習として、ユーザとの擬似的な会話を行い、ユーザから高評価を得られる会話内容が学習される。
 例えば、試験環境で仮想のユーザとの会話が行われ、発話生成を行うことで学習が行われる。仮想のユーザとして、特定の条件を満たすユーザ、例えば、30歳代、40歳代といった所定の年齢層に属するユーザ、所定のグループに属するユーザ、所定の地域に住んでいるユーザを設定しても良い。または、このような特定の条件を設けずに、一般的な会話が成り立つようにするための学習が行われるようにしても良い。
 また、一般的(共通して用いられる)学習モデルが事前学習で生成され、さらに、実際にユーザが情報処理装置10の使用を開始してからの所定の期間を、事前学習期間とし、学習が行われるようにしても良い。
 ステップS122において、学習モデルを参照した会話の生成と発話が行われる。すなわち、学習モデルを参照した処理が実際に行われる。会話が生成されるときに入力される認識情報(Perceptual data)は、例えば、時刻や温度などの環境情報、ユーザのプロファイル、ユーザの応答、ユーザの感情、イベント情報などである。
 ステップS123において、会話の発話が行われることで、その発話に対するユーザの反応が取得される。ユーザの反応は、報酬(Reward)として取得される。ユーザの反応としては、情動、感情、応答内容などである。ここで、ユーザの状態や情動、感情は、カメラによる表情認識や生体センシング、音声の韻律等に基づき推定することができ、情動にはストレス度合いや満足度などが含まれる。
 ステップS124において、報酬量の増減を観測することで、変化情報が生成される。報酬量は、例えば、ユーザの反応が悪化したときに急減する。例えば、ユーザの笑顔が少なくなった、同じような話題を振ってもいつもと違う反応であったなどのとき、ユーザの反応が悪化したと推定され、報酬量が少なくされる。報酬量が急増または急減したときには、変化があったことを表す変化情報が生成される。閾値と所定の期間を設定しておき、所定の期間内に、設定されている閾値以上に報酬量が増加した場合、または減少した場合に、変化があったと判定されるようにすることができる。
 ステップS125において、環境変化があったか否かが判定される。ステップS125において、変化情報が、環境変化はないことを表す情報であった場合、ステップS122に処理が戻され、それ以降の処理が繰り返される。一方、ステップS125において、変化情報が、環境変化があったことを表す情報であった場合、ステップS126に処理が進められる。ステップS126において、再学習が行われる。
 報酬量が急減した場合、例えば、不適切な話題を振ったなどの要因があったと推定できる。例えば、ユーザを不快にする会話や、悲しませるような会話を発話したために、ユーザの反応が悪化し、報酬量が急減したと推定できる。
 例えば、ユーザの身内に不幸があったような場合、身内に不幸があった前の時点では、身内の話題をユーザに振ったとき、良い反応であったが、身内に不幸があった後の時点では、身内の話題をユーザに振ると、悪い反応(笑顔がない、悲しい表情をする、声のトーンが落ちる、その話題はしないで欲しいといった返答があるなど)となると推定される。
 このような場合、身内に関する話題をユーザに振らないような再学習が行われる。換言すれば、ユーザの身辺の変化に対応するために、新たなユーザの環境に適応するための再学習が行われる。この場合、身内に関する話題の報酬量が小さくなるように、報酬が再定義され、再学習が行われる。
 また例えば、ユーザが地域Aから地域Bに転居したような場合に、転居前には、地域Aの話題をユーザに振ると良い反応であったが、転居後に地域Aの話題を振っても興味ないといった反応になると推定される。このような場合、地域Aに関する話題を振らないようにし、地域Bに関する話題を振るようにするための再学習が行われる。
 報酬量が急増した場合、例えば、ユーザの家族構成やライフスタイルに、ユーザにとって好ましい変化があったため、ユーザの気持ちが良くなったなどの要因があったと推定できる。例えば、ユーザに子供が生まれたような場合、子供が生まれる前の時点では、子供の話題をユーザに振っても興味ないような反応であったが、子供が生まれた後の時点では、子供の話題をユーザに振ると、興味がある反応に変わると推定される。
 このような場合、子供に関する話題をユーザに振るように再学習が行われる。この場合、子供に関する話題の報酬量が大きくなるように、報酬を再定義し、再学習が行われる。
 このように、環境変化の情報に応じて、報酬を再定義し、適切な報酬が与えられるように再学習が行われるようにすることができる。
 <第3の適用例>
 上述した情報処理装置10の第3の適用例について説明する。
 図9に示したフローチャートを参照し、第3の適用例について説明する。第3の適用例は、ユーザに推薦を行うアプリケーションに適用した例である。また、第3の適用例では、例えば、ユーザの移動先の照明を点灯させたり、ユーザの行動を推測し、テレビジョン受像器の電源をオンにしたり、ユーザが快適と思う温度に室温を調整したりする制御を行うホームオートメーションを実現するアプリケーションである場合を第3の適用例として説明する。
 なお、ここでは、電化製品を制御する場合を例に挙げて説明を続けるが、電化製品には、窓やカーテンを開閉するための駆動装置なども含まれる。
 推薦に係わる強化学習を行う場合、行動は、ユーザに対する推薦となり、報酬量は、推薦の提示を受けた前記ユーザの反応などである。また再学習は、ユーザの状態の変化に応じた新たな推薦を行うための学習モデルの再学習となる。
 ステップS141において、事前学習が行われる。例えば工場での製造工程で事前学習により学習モデルを生成する。また、ホームオートメーションの場合、照明の位置や、ユーザの行動パターンなどは、ユーザにより異なる。よって、ユーザが情報処理装置10の使用を開始してからの所定の期間も、事前学習期間として設定し、ユーザが実際に情報処理装置10を使用している状態での学習も行われる。
 例えば、ユーザが家内を移動するとき、ユーザの行動をセンサなどでセンシングし、移動先を推定し、推定される移動先の照明を点灯するという学習が行われる。また、例えば、ユーザが帰宅する時間を学習し、帰宅する時間に玄関の照明を点灯するという学習が行われる。また、例えば、ユーザが起床したときに、テレビジョン受像器で所定のチャンネルの番組を閲覧するということを学習し、ユーザが起床する時間に、テレビジョン受像器の電源をオンにするという学習が行われる。
 このように、ユーザの行動を支援するような事前学習が行われ、学習モデルが生成される。
 ステップS142において、学習モデルを参照したユーザの行動支援が行われる。この場合、ユーザの行動支援として、電化製品の制御が行われる。行動支援を行うために入力される認識情報(Perceptual data)は、例えば、日々のユーザの行動や、電化製品から得られる情報などである。電化製品から得られる情報とは、例えば、照明をオンにした時刻やオフにした時刻、テレビジョン受像器の電源をオンにした時刻やオフにした時刻、空調設備をオンにしたときの室温や設定温度などである。
 ステップS143において、電化製品の制御が行われることで、その制御に対するユーザの反応が取得される。ユーザの反応は、報酬(Reward)として取得される。ユーザの反応としては、例えば、ユーザをセンシングして推定されるストレス量や満足度、制御したことに対してユーザがキャンセルした回数、ユーザの無駄と推定される行動の回数などである。
 制御したことに対してユーザがキャンセルした回数とは、例えば、照明を点灯したがすぐにユーザにより消灯されたり、照明を消灯したがすぐにユーザにより点灯されたりした回数であり、制御した内容と逆の内容の指示をユーザにより出された回数、すなわち、制御した内容を取り消すような趣旨の指示が出された回数である。
 ステップS144において、報酬量の増減を観測することで、変化情報が生成される。報酬量は、例えば、制御したことに対してユーザがキャンセルした回数が多いときに急減する。
 ステップS145において、環境変化があったか否かが判定される。ステップS145において、変化情報が、環境変化はないことを表す情報であった場合、ステップS142に処理が戻され、それ以降の処理が繰り返される。一方、ステップS145において、変化情報が、環境変化があったことを表す情報であった場合、ステップS146に処理が進められる。ステップS146において、再学習が行われる。
 報酬量が急減した場合、例えば、報酬量が急減する前の時点では、ユーザにとって好ましい電化製品の制御であったが、急減した後の時点では、ユーザにとって好ましくない電化製品の制御になった場合であると推定できる。例えば、転職、転居、気分転換、家族構成の変化などがあり、変化前の行動パターンではなくなったために、報酬量が急減したと推定できる。
 このような場合、ユーザの新たな生活パターンに適した再学習が行われる。また、再学習を行うとき、生活パターンが変化した要因が推定できる場合、その推定結果に基づき、再学習が行われるようにすることができる。例えば、子供が増えたことにより生活パターンが変化したと推定された場合、子供が増えたときの生活様式のモデルに当てはめて再学習が行われるようにすることができる。
 生活パターンが変化したとの推定は、例えば、報酬量が急減したとき(変化情報に変化があったことを表す情報となったとき)の、ユーザの行動パターンを観測することにより行われるようにすることができる。例えば、子供が夜泣きすることにより、夜の時間帯に照明が点灯されることが多くなったような場合、子供が増える前には点灯しなかった時間帯に点灯されることになり、報酬量が急減する。報酬量が急減したことと、夜間に照明が点灯されることが多くなったという行動パターンとから、子供が増えたと推定できる。
 このように、報酬や、あるいは報酬と環境変数により、環境変化が生じた状況が推定されるようにしても良い。また、このような推定が行えるようにするために、報酬は、スカラー値ではなく、ベクトル値であっても良い。
 <第4の適用例>
 上述した情報処理装置10の第4の適用例について説明する。
 図10に示したフローチャートを参照し、第4の適用例について説明する。第4の適用例は、ユーザに推薦を行うアプリケーションに適用した例である。またユーザにコンテンツの提示(推薦)を行うアプリケーションである場合を第4の適用例として説明する。
 ステップS161において、事前学習が行われる。ユーザにコンテンツの提示を行う場合、ユーザ毎に嗜好が異なるため、ユーザの嗜好を学習するために、ユーザが情報処理装置10の使用を開始してから所定の期間を事前学習期間として設定し、ユーザが実際に情報処理装置10を使用している状態で学習(最適化)が行われる。
 ステップS162において、学習モデルを参照したユーザへの推薦が行われる。コンテンツの推薦を行うために入力される認識情報(Perceptual data)は、例えば、ユーザのセグメント情報、ユーザの行動、ソーシャルグラフなどである。また、ユーザの行動としては、実社会での行動履歴だけではなく、Web上での行動履歴、視聴履歴も含まれる。
 ステップS163において、コンテンツの推薦が行われることで、その推薦に対するユーザの反応が取得される。ユーザの反応は、報酬(Reward)として取得される。ユーザの反応は、例えば、推薦したコンテンツを視聴した、購入したなどの目的行動の有無や、ユーザセンシングによりユーザの満足度を推定することで取得される。
 ステップS164において、報酬量の増減を観測することで、変化情報が生成される。報酬量は、例えば、推定されるユーザの満足度が低下したときや、コンテンツの購入回数が減少したときに急減する。
 ステップS165において、環境変化があったか否かが判定される。ステップS165において、変化情報が、環境変化はないことを表す情報であった場合、ステップS162に処理が戻され、それ以降の処理が繰り返される。一方、ステップS165において、変化情報が、環境変化があったことを表す情報であった場合、ステップS166に処理が進められる。ステップS166において、再学習が行われる。
 報酬量が急減した場合、今まで推薦していたジャンルと異なるジャンルのコンテンツが推薦されるようにするといった再学習が行われるようにする。また、報酬量が急増した場合、その急増したときに推薦していたジャンルがユーザにとっての流行であるとし、そのジャンルのコンテンツが優先的に推薦されるようにするといった再学習が行われるようにする。
 また、コンテンツの推薦の場合、報酬量の増減が少ないとき、換言すれば、変化がないことを表す変化情報が所定の期間続いたとき、再学習が行われるようにしても良い。報酬量の増減が少ないときは、ユーザにとって最適な学習モデルでの推薦が行われていると推定できるが、意外性がない推薦が行われている可能性がある。
 そこで、意外性がある推薦が行われるように、再学習が行われるようにしても良い。この場合の再学習は、学習モデルを一度リセットして再学習を行うようにしても良い。この場合、再学習する前の学習モデルは、学習モデル記憶部63に記憶したままにしておき、新たに作成された学習モデルとともに、学習モデル記憶部63に記憶されているようにしても良い。図5、図6を参照して説明したように、複数の学習モデルが学習モデル記憶部63に記憶されているようにし、新たに作成された学習モデルによる推薦によると、報酬量が減少する一方であるような場合、元の学習モデルに戻されるようにしても良い。
 このように、報酬量の増減が停滞したとき、換言すれば、変化がないことを表す変化情報が所定の期間連続して生成されたとき、類似する推定傾向、例えば、ユーザの反応が常に変わらない推薦であることが予想される。このようなとき、意外性やセレンディピティ(serendipity)を担保するために、学習モデルを変更するための再学習が行われるようにしても良い。
 このような再学習は、過学習に陥った状態から脱出する手段としても有効である。
 <第5の適用例>
 上述した情報処理装置10の第5の適用例について説明する。
 図11に示したフローチャートを参照し、第5の適用例について説明する。第5の適用例は、アプリケーションとして、車両などの移動体の制御に本技術を適用した場合である。また例えば、ユーザ(運転手)の運転支援を行うアプリケーションである場合を第5の適用例として説明する。運転支援とは、例えば、車両の制動制御、ハンドル操作制御、車室の環境設定などであり、運転手が快適な運転を行えるように支援することである。
 移動体の制御に係わる強化学習を行う場合、行動は、移動体(車両)の制御であり、報酬量は、制御された移動体を操作するユーザの感情などや、移動体に関連する環境情報などである。また再学習は、移動体を制御する学習モデルの再学習である。
 ステップS181において、事前学習が行われる。運転支援を行うアプリケーションの場合、走行コースの選択、加速度、ステアリングなど運転に関する好みや、車内の温度などの車内環境に関する好みは、個々のユーザにより異なるため、ユーザが実際に情報処理装置10の使用を開始してからの所定の期間が、事前学習の期間とされ、事前学習が行われる。
 ステップS182において、学習モデルを参照した運転支援が行われる。すなわち、学習モデルを参照した処理が実際に行われる。運転支援が行われるときに入力される認識情報(Perceptual data)は、例えば、走行時に取得される種々のデータである。このデータは、CAN(Controller Area Network)のデータを用いることできる。CANは、自動車内部で電子制御装置(ECU:Engine Control Unit)、エンジン、ブレーキなどの部品を繋ぎ、部品の状態を伝達したり、制御情報を送信したりするのに用いられるネットワークである。そのようなネットワークからの情報を認識情報とすることができる。
 ステップS183において、運転支援に対するユーザの満足度が取得される。ユーザの反応は、報酬(Reward)として取得される。例えば、運転手の心地よさを表現する変数を定義し、その定義に基づく変数を報酬量とすることができる。また車両の安定性や、ユーザの生体情報、生体情報等から推定される情動・感情情報を報酬量として取得されるようにしても良い。
 例えば、運転支援により加速したが、ユーザにより減速された場合や、車内の温度を上げる設定をしたが、ユーザにより設定温度が下げられた場合など、支援内容がキャンセルされるような操作がユーザによりなされた場合、報酬量は急減する。またユーザの生体情報として、汗をかいているとの情報が取得された場合、運転支援により設定した車内温度が高いためにユーザの反応は良くないと推定され、このような場合も報酬量は急減する。
 また、運転支援を行うことにより、車の揺れが小さくなった、急な加速や急な減速がなくなったなど、走行が安定したと判定されるような場合などには、報酬量は急増する。
 ステップS184において、報酬量の増減を観測することで、変化情報が生成される。報酬量は、例えば、安定走行が悪化した場合や、ユーザの反応が悪化したときに急減する。
 ステップS185において、環境変化があったか否かが判定される。ステップS185において、変化情報が、環境変化はないことを表す情報であった場合、ステップS182に処理が戻され、それ以降の処理が繰り返される。一方、ステップS185において、変化情報が、環境変化があったことを表す情報であった場合、ステップS186に処理が進められる。ステップS186において、再学習が行われる。
 例えば、運転者がけがし、それまでの運転とは異なる運転を行うようになったため、運転支援が運転者に適さなくなり、報酬量が急減した場合、けがした運転手に適した学習モデルを生成するための再学習が行われる。
 また例えば、運転者が変わった場合にも、運転支援が適さなくなり、報酬量が急減することがあると考えられる。このような場合、新たな運転者に適した運転支援となるように、再学習が行われる。
 運転支援は、安全に車両が走行するめの支援である。例えば、このような運転支援を行う情報処理装置10を装着しているか否か(利用しているか否か)を、車両の保険料の推定が行われるようにしても良い。また、運転支援の内容、例えば、再学習を行うと決定されたときの環境の変化に関する情報が、保険料の推定に用いられるようにしても良い。
 <第6の適用例>
 上述した情報処理装置10の第6の適用例について説明する。
 図12に示したフローチャートを参照し、第6の適用例について説明する。第6の適用例は、アプリケーションとして、複数の車両の管理(車両群の制御)に本技術を適用した場合である。
 例えば、インターネットへの常時接続機能を装備した車であり、コネクティッドカー(Connected Car)などと称される車がある。このようなコネクティッドカーは、インターネットを介して情報を取得できるように構成されているため、例えば、交通情報に応じたナビゲーション、移動の制御、管理、などを行うことができる。第6の適用例におけるアプリケーション(に基づき動作する情報処理装置10)は、コネクティッドカーにおいて、交通情報に応じたナビゲーション、移動の制御、管理、などを行う場合に適用できる。
 また例えば、第6の適用例におけるアプリケーション(に基づき動作する情報処理装置10)は、バスやタクシーなどの公共交通機関の管理や、中央管理されるシェアカーの管理、特定サービス(例えば、レンタカー)に紐付けられる車両の管理などに適用できる。
 ステップS201において、事前学習が行われる。管理の仕方などは運用開始前にある程度設定することができるため、そのような設定が事前学習として行われる。また、管理する車、サービスなどにより学習内容が異なるため、運用開始後も継続的に学習は行われる。
 ステップS202において、学習モデルを参照した管理が行われる。すなわち、学習モデルを参照した処理が実際に行われる。車両管理が行われるときに入力される認識情報(Perceptual data)は、例えば、日々の環境情報、交通情報、天候情報などがある。また、イベントがある日などは渋滞が予測されるため、イベントの情報も認識情報として取得されるようにしても良い。
 また、管理している各種車両の位置情報や走行情報なども取得されるようにしても良い。さらに顧客情報も取得されるようにしても良い。
 ステップS203において、例えば、最適な走行であるか否かを表す情報が取得される。この情報は、報酬(Reward)として取得される。例えば、渋滞情報が取得され、渋滞を回避するためのナビゲーションが行われた場合、渋滞を回避し、短時間で目的地に到着すれば、その予測は正しかったと推定できる。このようなときには、報酬量が急増する。逆に、目的地に到着するまでの時間がかかった場合、報酬量は急減する。
 また、バスなどの場合、運行表に沿った運用が行われていれば報酬量は高く、運行表に沿った運用が行えなければ、報酬量は低くなる。また、管理している車両が走行するエリア(対象エリアとする)における渋滞量が減少した場合、管理している車両の管理が適切に行われた結果、個々の車両が渋滞に巻き込まれることなく、また対象エリアの渋滞も減ったと推定できる。このような場合、報酬量は高くなる。逆に、対象エリアの渋滞が増えたような場合、仮に、個々の車両が渋滞に巻き込まれるようなことがなかったとしても、報酬量が低くなるようにしても良い。
 ステップS204において、報酬量の増減を観測することで、変化情報が生成される。
 ステップS205において、環境変化があったか否かが判定される。ステップS205において、変化情報が、環境変化はないことを表す情報であった場合、ステップS202に処理が戻され、それ以降の処理が繰り返される。一方、ステップS205において、変化情報が、環境変化があったことを表す情報であった場合、ステップS206に処理が進められる。ステップS206において、再学習が行われる。
 例えば、工事による通行止めがあり、その付近において渋滞が発生しやすくなった環境に変化した場合、工事前の学習モデルによる管理では、渋滞に巻き込まれ、その結果、報酬量が低下する可能性がある。また、新規に商業施設やオフィスビルが建設されたことにより、その付近に人が多くなり、渋滞が発生しやすい環境に変化した場合や、その付近に公共機関で移動する人が増えたような場合、建物が新設される前の学習モデルによる管理では、報酬量が低下する可能性がある。
 このような場合、渋滞を回避する道や渋滞しやすい時間帯を避けるような再学習が行われる。また、公共機関の利用者が増えたと推定される場合、利用者が増えた区間の運行本数を増やすようにするための再学習が行われる。
 再学習は、一時的に、報酬に基づくフィードバックを強化することで、新たな環境に適応した迅速な再学習が促されるようにしても良い。学習は継続的に行い、環境の変化にも柔軟に対応できるようにしておくとともに、報酬量が劇的に変化したような場合には、そのフィードバックをより強化することで、より柔軟にかつ迅速な再学習を促すようにすることができる。
 なお、工事による通行止めなどは、一時的なことであり、工事が終われば元に戻ると考えられる。このような一時的な環境の変化に対応するために、環境が変化する前の学習モデル(再学習する前の学習モデル)を学習モデル記憶部63に記憶したままにしておき、新たに作成された学習モデルとともに、学習モデル記憶部63に記憶されているようにしても良い。図5、図6を参照して説明したように、複数の学習モデルが学習モデル記憶部63に記憶されているようにし、工事が終了することで、環境が変わった場合、元の学習モデルに戻されるようにしても良い。
 <第7の適用例>
 上述した情報処理装置10の第7の適用例について説明する。
 図13に示したフローチャートを参照し、第7の適用例について説明する。第7の適用例は、アプリケーションとして、複数の車両の管理(車両群の制御)に本技術を適用した場合である。また例えば、モビリティ関連コンテンツを車両で提供するようなアプリケーションである場合を例に挙げて説明する。なお、ここでは、車両として主に、車を想定した記載を行うが、電車、船、飛行機などの乗り物も含まれる。
 例えば、第7の適用例におけるアプリケーション(に基づき動作する情報処理装置10)は、バスやタクシーなどの公共交通機関、シェアカー、特定サービス(例えば、レンタカー)に紐付けられる車両などの車内において、そのような車を利用しているユーザに対して所定のコンテンツ、例えば、広告、車両利用のための割引チケット、周辺エリアにおける商業施設の割引チケットなどのコンテンツを提供する。
 ステップS221において、事前学習が行われる。ターゲットとする年齢層や、ユーザの嗜好などに合ったコンテンツが提供されると、コンテンツを提供した効果をより得られると考えられる。事前学習としては、運用開始前に、一般的な学習を行い、運用開始後に、車両を利用するユーザに最適化するための学習が行われる。
 ステップS222において、学習モデルを参照したコンテンツの提供が行われる。すなわち、学習モデルを参照した処理が実際に行われる。コンテンツの提供が行われるときに入力される認識情報(Perceptual data)は、例えば、日々の環境情報、交通情報、天候情報などがある。また、イベントがある日などはそのイベントに関する情報を提供することができるため、イベントの情報も認識情報として取得されるようにしても良い。
 また、管理している各種車両の位置情報や走行情報なども取得されるようにしても良い。さらに、顧客の情報も取得されるようにしても良い。顧客の情報としては、各種車両(例えば、バスやタクシーといった車両)の利用状況や、各種サービス(車両の利用以外のサービスであっても良い)の利用状況などが含まれていても良い。
 ステップS223において、ユーザに最適化されたコンテンツの提供が行われているか否かを表す情報が取得される。この情報は、報酬(Reward)として取得される。コンテンツとして広告を提供することを想定した場合、その広告による宣伝効果に関する情報が取得される。
 例えば、コンテンツで提示したサービスの利用率や売り上げ、そのサービスに対するリテンション(サービスを継続して利用している人の割合)といった情報が取得され、利用率、売り上げ、リテンションが向上すれば、ユーザに提示したコンテンツは最適であったと推定できる。このようなときには、報酬量が急増する。逆に、利用率、売り上げ、リテンションが下がったような場合、報酬量は急減する。
 また、コンテンツの視聴時間や、コンテンツを提供したときの反応に応じた報酬量が取得されるようにしても良い。例えば、コンテンツの視聴時間が長ければ、ユーザに適したコンテンツを提供したと推定することができ、逆にコンテンツの視聴時間が短ければ、ユーザに適したコンテンツを提供できなかった推定することができる。
 また、車両群の稼働効率に応じた報酬量が取得されるようにしても良い。例えば、割引のコンテンツを提供したことにより利用者が増えた場合、稼働効率が上がると推定できる。このような場合、報酬量が急増する。
 ステップS224において、報酬量の増減を観測することで、変化情報が生成される。ステップS225において、環境変化があったか否かが判定される。ステップS225において、変化情報が、環境変化はないことを表す情報であった場合、ステップS222に処理が戻され、それ以降の処理が繰り返される。一方、ステップS225において、変化情報が、環境変化があったことを表す情報であった場合、ステップS226に処理が進められる。ステップS226において、再学習が行われる。
 例えば、商業施設が建設された場合、その商業施設の広告を流すことにより、その付近に人が多くなり、宣伝効果があったと推定されるが、そのブームが去ると、宣伝効果が下がると推定される。宣伝効果が下がった場合、再度宣伝効果を上げるために、その商業施設の宣伝を他の宣伝よりも優先的に流すようにする再学習が行われる。
 再学習は、一時的に、報酬に基づくフィードバックを強化することで、新たな環境に適応した迅速な再学習が促されるようにしても良い。
 <第8の適用例>
 上述した情報処理装置10の第8の適用例について説明する。
 図14に示したフローチャートを参照し、第8の適用例について説明する。第8の適用例は、アプリケーションとして、ロボットの制御に本技術を適用した場合である。また例えば、商業施設の案内ロボットに適用されるアプリケーションである場合を例に挙げて説明する。
 例えば、第8の適用例におけるアプリケーション(に基づき動作する情報処理装置10)は、商業施設において、ユーザ(客)の質問に対して答えたり、道案内をしたりすることで、ユーザをサポートする。
 ロボットの制御に係わる強化学習を行う場合、行動は、ユーザに対する何らかのサポートの提供であり、報酬量は、提供されたサポートに対するユーザの反応などである。また再学習は、環境変化に対応したサポートが行えるようにするための学習モデルの再学習である。
 ステップS241において、事前学習が行われる。事前学習は、設置予定の商業施設のテナントの配置情報やテナント情報などを用いた試験環境で、シミュレーションが行われることで行われる。また、運用開始後にも、実際にユーザとやり取りすることで学習が行われる。また例えば、ユーザの質問に対するナビゲーションや、ユーザに脅威を与えないような距離感の担保なども学習される。
 ステップS242において、学習モデルを参照した案内(サポート)が行われる。すなわち、学習モデルを参照した処理が実際に行われる。案内が行われるときに入力される認識情報(Perceptual data)は、例えば、商業施設が備える各種環境条件、現在の環境情報などの情報である。例えば、テナント数が減った、または増えたといった情報、テナントが入れ替わったといった情報、テナントの面積が変わったという情報などが取得される。また、テナントを利用する顧客の情報など、商業施設側から得られる情報であっても良いし、商業施設を利用する側から得られる情報であっても良い。
 ステップS243において、案内による効果があったか否かを判断できる情報が取得される。この情報は、報酬(Reward)として取得される。例えば、ユーザを案内した場合、その案内が成功したか否か、顧客の満足度などが取得される。
 案内が成功したか否かは、例えば、ユーザを追跡監視することにより、ユーザが所望としていた場所(テナント)に到達したか否かが判断されることで行われるようにすることができる。また顧客の満足度は、ユーザをセンシングし、そのセンシングに基づく反応、例えば、理解しているか否か(理解度)、満足しているか否か(満足度)が判定されるようにすることができる。あるいは、表情認識や生体センシングに基づく感情・情動推定によりストレス量などを推定して行われてもよい。
 また、案内により、ユーザが所望としていたテナントに到達した場合や、好感が持てるような案内であった場合など、ユーザの満足度が上がり、その結果、売り上げが増加するとも考えられる。よって、報酬として、売り上げが向上したか否かを用いることもできる。売り上げが伸びた場合、報酬量は上がり、売り上げが下がった場合、報酬量も下がる。
 ステップS244において、報酬量の増減を観測することで、変化情報が生成される。ステップS245において、環境変化があったか否かが判定される。ステップS245において、変化情報が、環境変化はないことを表す情報であった場合、ステップS242に処理が戻され、それ以降の処理が繰り返される。一方、ステップS245において、変化情報が、環境変化があったことを表す情報であった場合、ステップS246に処理が進められる。ステップS246において、再学習が行われる。
 例えば、テナントの変更や、テナントの変更に基づく客層の変化などにより、従来の案内方法では顧客が満足せずに、その結果報酬量が急減したと推定される場合、テナントの変更に対応するための再学習や、客層の変化に対応するための再学習が行われる。また、例えば、売り上げが落ちたような場合、売り上げが戻り、かつ上がるような再学習が行われる。
 <第9の適用例>
 上述した情報処理装置10の第9の適用例について説明する。
 図15に示したフローチャートを参照し、第9の適用例について説明する。第9の適用例は、アプリケーションとして、金融システムに本技術を適用した場合である。また例えば、ここでは投資に関する情報を提示するアプリケーションである場合を例に挙げて説明する。例えば、第9の適用例におけるアプリケーション(に基づき動作する情報処理装置10)は、為替動向など各種の経済指標を監視し、最適な投資条件を算出する。
 ステップS261において、事前学習が行われる。事前学習は、ユーザに提示する予定の商品の情報、例えば株価や投資信託の価格などの情報を用いて行われる。
 ステップS262において、学習モデルを参照し、最適な投資条件の提示が行われる。すなわち、学習モデルを参照した処理が実際に行われる。投資条件を提示するときに入力される認識情報(Perceptual data)は、例えば、為替動向などの各種経済指標、ニュース、市場で話題になっている商品の情報などである。
 ステップS263において、投資結果が取得される。この情報は、報酬(Reward)として取得される。例えば、提示された投資条件に基づいて投資を行った結果、利益が得られれば報酬量は増え、利益が得られなければ(損益が出た場合)、報酬量は減る。換言すれば、提示された投資条件に基づいて投資を行った結果が、提示するときに予想していたリターン通りであれば、報酬量は増え、予想からずれていると報酬量は減る。
 ステップS264において、報酬量の増減を観測することで、変化情報が生成される。ステップS265において、環境変化があったか否かが判定される。ステップS265において、変化情報が、環境変化はないことを表す情報であった場合、ステップS262に処理が戻され、それ以降の処理が繰り返される。一方、ステップS265において、変化情報が、環境変化があったことを表す情報であった場合、ステップS266に処理が進められる。ステップS266において、再学習が行われる。
 例えば、景気の動向に影響を与えるイベント、例えば、政策の変更、経済に影響を与える事件などが発生した場合、投資条件を提示したときの状況とは変わり、予測されていたリターン通りの結果は得られない可能性がある。このようなときには、予測からずれるため、報酬量が急減(予測を下回った)または急増(予測を上回った)し、環境に変化があったと検知され、再学習が行われる。
 このようなときに実行される再学習は、発生したイベント(新たな環境)を考慮した再学習が行われる。予測が下回る場合には、予測通りに戻るようにするための再学習が行われ、予測より上回る場合には、より上回るような予測になるような再学習が行われる。
 本技術によれば、フラッシュクラッシュのような極めて短期的な変化に揺さぶられることなく、短期の変更に柔軟に対応することができる。すなわち、本技術によれば、一時的な変化で、提示される投資条件が急に変化することなく、安定した提示を行うことができる。一方で、長期にわたって影響を及ぼすような不都合な状況が発生したときには、その影響を考慮した再学習を行うことができ、影響に対して対応を取ることができる。
 <第10の適用例>
 上述した情報処理装置10の第10の適用例について説明する。
 図16に示したフローチャートを参照し、第10の適用例について説明する。第10の適用例は、アプリケーションとして、認識や認証を行うシステムに本技術を適用した場合である。また例えば、ここでは本人認証を行うアプリケーションである場合を例に挙げて説明する。
 例えば、第10の適用例におけるアプリケーション(に基づき動作する情報処理装置10)は、スマートフォンのカメラによる本人認証、公共施設やオフィス等におけるカメラによる本人確認、普段の行動傾向、例えば、Web上における振る舞いや、現実社会における振る舞いから本人であるか否かの認証を行う。
 認証に係わる強化学習を行う場合、行動は、ユーザに対する認証の試行であり、報酬量は、認証の試行結果に基づく認証精度の評価情報である。また再学習は、ユーザの状態に適した学習モデルの再学習である。
 ステップS281において、事前学習が行われる。事前学習は、認識(認証)対象となるユーザの顔や、日常生活における行動傾向などの特徴量情報に基づく認識(認証)が行えるようにするための学習が行われる。
 例えば、ユーザの顔の特徴量情報に基づき認証が行われるようにする場合、ユーザの顔を、複数の角度で撮影し、特徴量情報を抽出する学習が行われる。また、日常生活における行動傾向などの特徴量情報に基づき認証が行われる場合、初期学習期間におけるユーザの行動傾向が蓄積される。
 ステップS282において、学習モデルを参照し、認証が行われる。すなわち、学習モデルを参照した処理が実際に行われる。認証が行われるときに入力される認識情報(Perceptual data)は、例えば、対象ユーザの外的特徴量(特に、多視点や動的な蓄積情報)や、対象ユーザの行動情報である。
 ステップS283において、認証結果が取得される。この情報は、報酬(Reward)として取得される。例えば、認証が成功した場合には、報酬量は高くなり、認証が失敗した場合には、報酬量は低くなる。すなわち認証を試行した結果に基づく認証精度の評価情報が、報酬量として取得される。
 認証が成功したときとは、認証対象と設定されていたユーザ(真のユーザと記述する)を、真のユーザとして認証できたときである。また認証が成功したときとは、真のユーザではないユーザを、真のユーザではないと認証できたときも含まれる。認証が成功した場合、すなわち認証精度が高い場合、報酬量は高くなる。
 一方で、認証が失敗したときとは、真のユーザが認証の試行対象とされていたにも係わらず真のユーザではないと認証されたときである。また認証が失敗したときとは、真のユーザではないユーザを、真のユーザであると認証してしまったときも含まれる。認証が失敗した場合、すなわち認証精度が低い場合、報酬量は低くなる。
 ステップS283において、例えば顔認証を行ったが、その認証結果が疑わしい場合、換言すれば認証精度が低く、報酬量が所定の値よりも低かったような場合、他の認証方法、例えば、パスワードの入力による認証が行われるようにしても良い。パスワードによる認証が行われ、そのパスワードによる認証結果が当初推定と同じであったか(当初推定は正しいかった)か否かが判定されるようにしても良い。
 例えば、顔認証で、真のユーザである可能性があるが、確定できないような場合、パスワード入力による認証を行う。その結果、真のユーザであると確定された場合、結果として顔認証での認証結果も正しかったことになるため、顔認証の精度は落ちていないと推定できる。一方で、真のユーザではないと確定された場合、結果として顔認証での認証結果は正しくなかったことになるため、顔認証の精度は落ちている推定できる。
 このように、認証の精度が落ちていると推定できるような状況のときに、再学習が行われるようにする。すなわち、報酬量が急減しているときに、再学習が行われるようにする。
 ステップS284において、報酬量の増減を観測することで、変化情報が生成される。ステップS285において、環境変化があったか否かが判定される。ステップS285において、変化情報が、環境変化はないことを表す情報であった場合、ステップS282に処理が戻され、それ以降の処理が繰り返される。一方、ステップS285において、変化情報が、環境変化があったことを表す情報であった場合、ステップS286に処理が進められる。ステップS286において、再学習が行われる。
 例えば、認証対象のユーザの髪型が変わった、目眼をかけるようになった、眼帯をしている、けがした、日焼けをしたなどにより、ユーザの外見に変化があったような場合、それまでの学習モデルだと、認証精度が低下してしまう可能性がある。このようなとき、ユーザの外見の変化に対応した再学習が行われる。この場合、ユーザの外見の変化が、環境の変化として扱われる。
 また例えば、認証対象のユーザが転職した、転居した、家族構成が変わったなど、ユーザのライフスタイルが変化し、学習済みの日常生活における行動傾向などの特徴量情報が合わなくなったような場合にも、変化後のライフスタイルに合う日常生活における行動傾向などの特徴量情報が再学習される。この場合、ユーザの行動傾向などの変化が、環境の変化として扱われる。
 また、他の認証方式を適用するために、他の認証方式にあった再学習が行われるようにしても良い。例えば、顔認証による認証を行っていたが、その制度が低下したと判断される場合、行動傾向による認証に移行すると決定し、その行動傾向による認証を実行するための学習が、再学習として実行されるようにしても良い。
 このように、第10の実施の形態においては、認証アルゴリズムによる認証が失敗した場合、換言すれば、認証アルゴリズムによる認証精度が低下したような場合、適切な報酬量を設定しておくことで、そのような精度の低下を検出することができる。また、認証アルゴリズムの精度が低下したのは、ユーザに何らかの変化があった場合であるとして扱うこともできる。
 ここでは、第1乃至第10の適用例として、具体的な適用例を挙げて説明したが、本技術の適用範囲は、上記した10個の適用例に限定されるわけではない。上記した適用例以外にも適用可能である。
 本技術によれば、環境の変化を検知することができる。また県境の変化が検知されたとき、その時点で用いられている学習モデルを更新する、または新たに生成する再学習が行われるようにすることができる。
 <記録媒体について>
 上述した一連の処理は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウエアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
 上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成は、図1に示した情報処理装置10の用に構成することができる。図1に示した情報処理装置10のCPU21が、例えば、ストレージ装置30に記憶されているプログラムを、RAM23にロードして実行することにより、上述した一連の処理が行われる。
 コンピュータ(CPU21)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体41に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
 コンピュータでは、プログラムは、リムーバブル記録媒体41をドライブ31に装着することにより、インタフェース27を介して、ストレージ装置30にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信装置33で受信し、ストレージ装置30にインストールすることができる。その他、プログラムは、ROM22やストレージ装置30に、予めインストールしておくことができる。
 なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
 また、本明細書において、システムとは、複数の装置により構成される装置全体を表すものである。
 なお、本明細書に記載された効果はあくまで例示であって限定されるものでは無く、また他の効果があってもよい。
 なお、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
 なお、本技術は以下のような構成も取ることができる。
(1)
 所定の学習モデルに基づき、入力情報に対する行動を決定する決定部と、
 前記行動に対する報酬量の変化が、所定の基準を超える変化であった場合に、前記学習モデルの再学習を行う学習部と
 を備える情報処理装置。
(2)
 前記学習モデルは、強化学習により生成または更新される学習モデルである
 前記(1)に記載の情報処理装置。
(3)
 前記強化学習は、LSTM(Long Short Term Memory)を用いた強化学習である
 前記(2)に記載の情報処理装置。
(4)
 前記報酬量が変動したか否かを判定することで、環境に変化があったか否かを判定する
 前記(1)乃至(3)のいずれかに記載の情報処理装置。
(5)
 前記行動に対する報酬量の変化が、前記所定の基準を超えない変化であった場合には、前記学習モデルについて、前記再学習とは異なる他の再学習を行う
 前記(1)乃至(4)のいずれかに記載の情報処理装置。
(6)
 前記再学習は、前記他の再学習に対して、学習モデルをより大きく変化させる再学習である
 前記(5)に記載の情報処理装置。
(7)
 前記行動に対する報酬量の変化が、前記所定の基準を超えない変化であった場合には、前記学習モデルの再学習を行わない
 前記(1)乃至(6)のいずれかに記載の情報処理装置。
(8)
 前記再学習の結果得られる新たな学習モデルは、前記所定の学習モデルを前提として、新たに生成される
 前記(1)乃至(7)のいずれかに記載の情報処理装置。
(9)
 前記所定の基準を超える変化があった場合、当該情報処理装置が備える複数の学習モデル、または当該情報処理装置が外部から取得可能な学習モデルであって、前記所定の学習モデルとは異なる他の学習モデルに切り替える
 前記(1)乃至(8)のいずれかに記載の情報処理装置。
(10)
 前記報酬量は、ユーザの反応に関する情報を含む
 前記(1)乃至(9)のいずれかに記載の情報処理装置。
(11)
 前記行動は、文章の生成およびユーザに対する前記文章の提示であり、
 前記報酬量は、前記文章の提示を受けた前記ユーザによる反応を含み、
 前記再学習は、前記文章を生成する学習モデルの再学習である
 前記(1)乃至(10)のいずれかに記載の情報処理装置。
(12)
 前記行動はユーザに対する推薦であり、
 前記報酬量は、前記推薦の提示を受けた前記ユーザによる反応を含み、
 前記再学習は、ユーザ状態の変化に応じた新たな推薦を行うための再学習である
 前記(1)乃至(10)のいずれかに記載の情報処理装置。
(13)
 前記報酬量の変化が、所定の基準を超える変化であった場合に、当該変化が起こった要因の推定を行い、当該推定される要因に基づき、再学習を行う
 前記(1)乃至(12)のいずれかに記載の情報処理装置。
(14)
 前記報酬量が変動しない期間が所定の期間継続している場合、新たな学習モデルを生成する再学習を行う
 前記(1)乃至(13)のいずれかに記載の情報処理装置。
(15)
 前記行動は移動体の制御であり、
 前記報酬量は、前記移動体に関連する環境情報を含み、
 前記再学習は、前記移動体を制御する学習モデルの再学習である
 前記(1)乃至(10)のいずれかに記載の情報処理装置。
(16)
 前記行動は、ユーザ認証の試行であり、
 前記報酬量は、認証試行結果に基づく認証精度の評価情報であり、
 前記報酬量の変化が所定の基準を超える変化であった場合に、ユーザが所定の特定状態にあると判定し、当該特定状態に適した再学習を行う
 前記(1)乃至(10)のいずれかに記載の情報処理装置。
(17)
 情報処理装置が、
 所定の学習モデルに基づき、入力情報に対する行動を決定し、
 前記行動に対する報酬量の変化が、所定の基準を超える変化であった場合に、前記学習モデルの再学習を行う
 情報処理方法。
(18)
 コンピュータに、
 所定の学習モデルに基づき、入力情報に対する行動を決定し、
 前記行動に対する報酬量の変化が、所定の基準を超える変化であった場合に、前記学習モデルの再学習を行う
 ステップを含む処理を実行させるためのプログラム。
 10 情報処理装置, 21 CPU, 22 ROM, 23 RAM, 24 ホストバス, 25 ブリッジ, 26 外部バス, 27 インタフェース, 28 入力装置, 29 出力装置, 30 ストレージ装置, 31 ドライブ, 32 接続ポート, 33 通信装置, 41 リムーバブル記録媒体, 42 外部接続機器, 43 通信網, 61 事前学習部, 62 学習部, 63 学習モデル記憶部, 64 認識情報取得部, 65 出力情報生成部, 66 報酬量設定部, 67 変化情報生成部, 68 環境変化判定部, 91 学習モデル

Claims (18)

  1.  所定の学習モデルに基づき、入力情報に対する行動を決定する決定部と、
     前記行動に対する報酬量の変化が、所定の基準を超える変化であった場合に、前記学習モデルの再学習を行う学習部と
     を備える情報処理装置。
  2.  前記学習モデルは、強化学習により生成または更新される学習モデルである
     請求項1に記載の情報処理装置。
  3.  前記強化学習は、LSTM(Long Short Term Memory)を用いた強化学習である
     請求項2に記載の情報処理装置。
  4.  前記報酬量が変動したか否かを判定することで、環境に変化があったか否かを判定する
     請求項1に記載の情報処理装置。
  5.  前記行動に対する報酬量の変化が、前記所定の基準を超えない変化であった場合には、前記学習モデルについて、前記再学習とは異なる他の再学習を行う
     請求項1に記載の情報処理装置。
  6.  前記再学習は、前記他の再学習に対して、学習モデルをより大きく変化させる再学習である
     請求項5に記載の情報処理装置。
  7.  前記行動に対する報酬量の変化が、前記所定の基準を超えない変化であった場合には、前記学習モデルの再学習を行わない
     請求項1に記載の情報処理装置。
  8.  前記再学習の結果得られる新たな学習モデルは、前記所定の学習モデルを前提として、新たに生成される
     請求項1に記載の情報処理装置。
  9.  前記所定の基準を超える変化があった場合、当該情報処理装置が備える複数の学習モデル、または当該情報処理装置が外部から取得可能な学習モデルであって、前記所定の学習モデルとは異なる他の学習モデルに切り替える
     請求項1に記載の情報処理装置。
  10.  前記報酬量は、ユーザの反応に関する情報を含む
     請求項1に記載の情報処理装置。
  11.  前記行動は、文章の生成およびユーザに対する前記文章の提示であり、
     前記報酬量は、前記文章の提示を受けた前記ユーザによる反応を含み、
     前記再学習は、前記文章を生成する学習モデルの再学習である
     請求項1に記載の情報処理装置。
  12.  前記行動はユーザに対する推薦であり、
     前記報酬量は、前記推薦の提示を受けた前記ユーザによる反応を含み、
     前記再学習は、ユーザ状態の変化に応じた新たな推薦を行うための再学習である
     請求項1に記載の情報処理装置。
  13.  前記報酬量の変化が、所定の基準を超える変化であった場合に、当該変化が起こった要因の推定を行い、当該推定される要因に基づき、再学習を行う
     請求項1に記載の情報処理装置。
  14.  前記報酬量が変動しない期間が所定の期間継続している場合、新たな学習モデルを生成する再学習を行う
     請求項1に記載の情報処理装置。
  15.  前記行動は移動体の制御であり、
     前記報酬量は、前記移動体に関連する環境情報を含み、
     前記再学習は、前記移動体を制御する学習モデルの再学習である
     請求項1に記載の情報処理装置。
  16.  前記行動は、ユーザ認証の試行であり、
     前記報酬量は、認証試行結果に基づく認証精度の評価情報であり、
     前記報酬量の変化が所定の基準を超える変化であった場合に、ユーザが所定の特定状態にあると判定し、当該特定状態に適した再学習を行う
     請求項1に記載の情報処理装置。
  17.  情報処理装置が、
     所定の学習モデルに基づき、入力情報に対する行動を決定し、
     前記行動に対する報酬量の変化が、所定の基準を超える変化であった場合に、前記学習モデルの再学習を行う
     情報処理方法。
  18.  コンピュータに、
     所定の学習モデルに基づき、入力情報に対する行動を決定し、
     前記行動に対する報酬量の変化が、所定の基準を超える変化であった場合に、前記学習モデルの再学習を行う
     ステップを含む処理を実行させるためのプログラム。
PCT/JP2020/037433 2019-10-11 2020-10-01 情報処理装置、情報処理方法、並びにプログラム WO2021070732A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2021551450A JPWO2021070732A1 (ja) 2019-10-11 2020-10-01
US17/641,011 US20220335292A1 (en) 2019-10-11 2020-10-01 Information processing device, information processing method, and program
CN202080069863.8A CN114503133A (zh) 2019-10-11 2020-10-01 信息处理设备、信息处理方法和程序

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019187424 2019-10-11
JP2019-187424 2019-10-11

Publications (1)

Publication Number Publication Date
WO2021070732A1 true WO2021070732A1 (ja) 2021-04-15

Family

ID=75437934

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/037433 WO2021070732A1 (ja) 2019-10-11 2020-10-01 情報処理装置、情報処理方法、並びにプログラム

Country Status (4)

Country Link
US (1) US20220335292A1 (ja)
JP (1) JPWO2021070732A1 (ja)
CN (1) CN114503133A (ja)
WO (1) WO2021070732A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023120607A1 (en) * 2021-12-21 2023-06-29 Nec Corporation Automated negotiation agent adaptation

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210370503A1 (en) * 2020-05-29 2021-12-02 Wipro Limited Method and system for providing dynamic cross-domain learning

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002157571A (ja) * 2000-11-20 2002-05-31 Fujitsu Ltd 問題解決器、及び記憶媒体
WO2017163538A1 (ja) * 2016-03-25 2017-09-28 ソニー株式会社 情報処理装置
JP2019152948A (ja) * 2018-03-01 2019-09-12 日本電気株式会社 画像判定システム、モデル更新方法およびモデル更新プログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002157571A (ja) * 2000-11-20 2002-05-31 Fujitsu Ltd 問題解決器、及び記憶媒体
WO2017163538A1 (ja) * 2016-03-25 2017-09-28 ソニー株式会社 情報処理装置
JP2019152948A (ja) * 2018-03-01 2019-09-12 日本電気株式会社 画像判定システム、モデル更新方法およびモデル更新プログラム

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
KAWASHIMA, TAKASHI ET AL., PROCEEDINGS OF THE 32ND ANNUAL CONFERENCE OF THE JAPANESE SOCIETY FOR ARTIFICIAL INTELLIGENCE DVD, 2018 *
MOCHIZUKI, NAOKI ET AL.: "Reinforcement learning corresponding to various rewards", PROCEEDINGS OF THE 44TH ANNUAL CONFERENCE OF THE INSTITUTE OF SYSTEMS, CONTROL AND INFORMATION ENGINEERS, 2000 *
NISHIDA, MASAFUMI ET AL.: "Automatic Speech Recognition Based on Environmental Adaptation and Clustering Using Reinforcement Learning", INTERSPREECH, 2005, pages 285 - 288, XP055818113 *
OKUI, SOHEI ET AL.: "Personalized chatbot based on LSTM", PROCEEDINGS OF THE 32ND ANNUAL CONFERENCE OF JSAI DVD, 2018, pages 4G202, XP055818103 *
SAITO, MASANORI ET AL.: "A Reformative Q-learning which Partially Reuses Useful Known Policies", DOCUMENTS OF RESEARCH GROUP OF THE INSTITUTE OF ELECTRICAL ENGINEERING OF JAPAN, 2011 *
SHIMADA, SOTARO ET AL.: "Improving Adaptability of Reinforcement Learning System to Dynamic Environment by Decomposing and Reusing Macro- Operators", PROCEEDINGS OF IEICE, vol. J84-D-I, no. 7, 2001 *
YASUHARA, KAZUKI ET AL.: "An investigation on training of WaveNet vocoder in end-to-end text-to-speech", IEICE TECHNICAL REPORT, vol. 119, no. 188, August 2019 (2019-08-01), pages 31 - 36 *
ZOPH, B. ET AL.: "Neural architecture search with reinforcement learning", ARXIV:1611.01578V2, 2017, XP055444384, Retrieved from the Internet <URL:https://arxiv.org/pdf/1611.01578.pdf> [retrieved on 20201216] *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023120607A1 (en) * 2021-12-21 2023-06-29 Nec Corporation Automated negotiation agent adaptation

Also Published As

Publication number Publication date
CN114503133A (zh) 2022-05-13
US20220335292A1 (en) 2022-10-20
JPWO2021070732A1 (ja) 2021-04-15

Similar Documents

Publication Publication Date Title
KR102501714B1 (ko) 사용자의 음성 입력에 대한 답변 메시지를 제공하는 디바이스 및 방법
Ostrom et al. Customer acceptance of AI in service encounters: understanding antecedents and consequences
US20200242421A1 (en) Multi-sensor data fusion for automotive systems
US11449045B2 (en) Artificial intelligence device and method of diagnosing malfunction using operation log and artificial intelligence model
Pramanik et al. Beyond automation: the cognitive IoT. artificial intelligence brings sense to the Internet of Things
US6901390B2 (en) Control system for controlling object using pseudo-emotions and pseudo-personality generated in the object
Vögel et al. Emotion-awareness for intelligent vehicle assistants: A research agenda
KR20190101327A (ko) 구독 제품 가격 산정 방법 및 가격 산정 장치
WO2021070732A1 (ja) 情報処理装置、情報処理方法、並びにプログラム
US11404066B2 (en) Device and method for providing voice recognition service based on artificial intelligence
US20020069036A1 (en) Control system for controlling object using pseudo-emotions and pseudo-personality generated in the object
KR102426435B1 (ko) 사용자 입력에 기반한 문장을 제공하는 장치 및 방법
US20210215370A1 (en) Artificial intelligence based apparatus and method for forecasting energy usage
EP3750765A1 (en) Methods, apparatuses and computer programs for generating a machine-learning model and for generating a control signal for operating a vehicle
US20210349433A1 (en) System and method for modifying an initial policy of an input/output device
US20220360641A1 (en) Dynamic time-based playback of content in a vehicle
US20190392810A1 (en) Engine sound cancellation device and engine sound cancellation method
CN104914752A (zh) 将用户输入准确地变换为具体系统功能的装置和方法
JP2024513042A (ja) タスクの決定、委任、および自動化のためのシステムおよび方法
CA3227939A1 (en) Systems and methods for generating and curating tasks
US11854059B2 (en) Smart apparatus
US11604959B2 (en) Artificial intelligence-based apparatus and method for providing wake-up time and bed time information
WO2021140952A1 (ja) 情報処理装置、情報処理方法、並びにプログラム
AU2022326570A1 (en) Representative task generation and curation
AU2022337270A1 (en) Systems and methods for modeling user interactions

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20875528

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021551450

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20875528

Country of ref document: EP

Kind code of ref document: A1