WO2020065808A1 - 情報処理装置及びシステム、並びに、モデル適応方法及びプログラムが格納された非一時的なコンピュータ可読媒体 - Google Patents
情報処理装置及びシステム、並びに、モデル適応方法及びプログラムが格納された非一時的なコンピュータ可読媒体 Download PDFInfo
- Publication number
- WO2020065808A1 WO2020065808A1 PCT/JP2018/035858 JP2018035858W WO2020065808A1 WO 2020065808 A1 WO2020065808 A1 WO 2020065808A1 JP 2018035858 W JP2018035858 W JP 2018035858W WO 2020065808 A1 WO2020065808 A1 WO 2020065808A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- model
- condition
- correction
- information processing
- unit
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
- G06F18/2178—Validation; Performance evaluation; Active pattern learning techniques based on feedback of a supervisor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/24765—Rule-based classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
Definitions
- the present disclosure relates to an information processing device and a system, and a non-transitory computer-readable medium storing a model adaptation method and a program.
- Patent Literature 1 discloses a technique for mechanically realizing an intelligent work method that is considered to be performed when a human controls a control system.
- Non-Patent Document 1 discloses a technique relating to inverse reinforcement learning using simulation.
- a first model adapted to the first system is obtained from expert data accumulated in the first system operated by a specific environment and an agent. Is possible. However, a second system having a similar environment or agent but different from the first system cannot be operated using the first model obtained as it is. This is because if the first model is used as it is in the second system, an unintended output may be returned.
- the present disclosure has been made in order to solve such a problem, and has been made to utilize a model adapted to a predetermined system to efficiently adapt to an environment or another system similar to an agent. It is an object to provide an information processing device.
- An information processing device includes: A generation unit configured to generate a second model corrected using a correction model for a first model adapted to a first system operated based on a first condition including a specific environment and an agent; An adaptation unit that adapts the second model to a second system operated based on a second condition partially different from the first condition; Is provided.
- An information processing system includes: A storage unit that stores a first model adapted to a first system operated based on a first condition including a specific environment and an agent, and a predetermined correction model; A generation unit that generates a second model corrected by using the correction model for the first model; An adaptation unit that adapts the second model to a second system operated based on a second condition partially different from the first condition; Is provided.
- a model adaptation method includes: Computer Generating a second model corrected using a correction model with respect to a first model adapted to a first system operated based on a first condition including a specific environment and an agent, The second model is adapted to a second system operated based on a second condition partially different from the first condition.
- the non-transitory computer-readable medium storing the model adaptation program according to the fourth aspect of the present disclosure includes: A process of generating a second model corrected using a correction model for a first model adapted to a first system operated based on a first condition including a specific environment and an agent, A process of adapting the second model to a second system operated based on a second condition partially different from the first condition; On a computer.
- an information processing apparatus and a system and a model adaptation method and a program for efficiently adapting to an environment or another system similar to an agent by utilizing a model adapted to a predetermined system can be provided.
- FIG. 2 is a block diagram illustrating a configuration of the information processing apparatus according to the first exemplary embodiment
- 4 is a flowchart illustrating a flow of a model adaptation method according to the first exemplary embodiment
- FIG. 2 is a block diagram illustrating an overall configuration of an information processing system according to a second exemplary embodiment
- FIG. 3 is a diagram for explaining a concept of a system according to a second exemplary embodiment
- FIG. 4 is a block diagram illustrating a hardware configuration of an information processing apparatus according to a second embodiment.
- 9 is a flowchart illustrating a flow of a model adaptation method according to the second exemplary embodiment
- FIG. 9 is a block diagram illustrating an overall configuration of an information processing system according to a third exemplary embodiment
- 9 is a flowchart illustrating a flow of a model adaptation method according to the third exemplary embodiment
- FIG. 14 is a block diagram illustrating an overall configuration of an information processing system according to a fourth embodiment.
- 15 is a flowchart illustrating a flow of a model comparison process according to the fourth embodiment. It is a figure for explaining an example of lane change in driving of a car. It is a figure for explaining the concept of model generation of the driving technique according to the fifth embodiment.
- FIG. 14 is a diagram for explaining a concept when the model according to the fifth embodiment is applied to another road. It is a figure for explaining the concept of the face data group for every category of vending machine.
- FIG. 17 is a diagram for explaining an example of face data proposed when the model according to the sixth embodiment is applied to a plurality of vending machines under different conditions. It is a figure for explaining the concept at the time of applying the water supply model of the water supply infrastructure in the area concerning this Embodiment 7 to other waterworks bureaus.
- reinforcement learning is known as a kind of machine learning.
- Reinforcement learning is a method of learning an appropriate action according to the state of the environment for an "agent” (person or computer) that performs an "action” in an "environment” where the "state” can change.
- a function that outputs an action according to the state of the environment is called a “policy (policy) function”.
- the policy function outputs an appropriate action according to the state of the environment when the reinforcement learning is performed.
- a “reward function” that outputs an agent's action and a “reward” given to the state of the environment transited by the agent's action is given.
- the reward is a criterion (evaluation criterion) for evaluating the behavior of the agent, and an evaluation value is determined based on the reward.
- the evaluation value is a sum of rewards obtained while the agent performs a series of actions.
- the evaluation value is an index for determining the purpose of the action of the agent.
- the learning of the policy function is performed so as to achieve the purpose of “maximizing the evaluation value”. Since the evaluation value is determined based on the reward, it can be said that learning of the policy function is performed based on the reward function.
- imitation learning In the imitation learning, a strategy (policy) function for imitating the behavior of the expert is derived by learning a model using expert data in which the behavior according to the state of the expert agent is accumulated.
- policy inverse reinforcement learning
- FIG. 1 is a block diagram illustrating a configuration of the information processing apparatus 1 according to the first embodiment.
- the information processing apparatus 1 is a computer for generating a model for outputting an action to be taken by an agent who is a user of the system and learning (adapting) model parameters based on conditions such as a predetermined system environment. , A learning device. Note that the information processing device 1 may be configured by two or more computers.
- the information processing device 1 includes a generation unit 11 and an adaptation unit 12.
- the generation unit 11 generates a second model obtained by correcting the first model adapted to the first system by using a correction model.
- the “first system” is an information system or a control system operated based on a first condition including a specific environment and an agent.
- the “first system” may be a social system including these information systems or control systems.
- the “environment” can take a plurality of “states” according to the input behavior, and can be called a system in a narrow sense.
- “State” can be represented by a state vector.
- An “agent” is a person who can perform a plurality of "actions” in the environment, and is a human (operator) who is a user of the system or a computer (operated by an agent program). The state of the environment changes according to the action of the agent. Also, the agent determines the next action according to the current state of the environment.
- “Operation” includes operating and executing the system in a specific environment by a specific agent.
- the “first model” is a model formula such as a function defined by parameters and variables, and outputs a value obtained according to an input.
- the first model is one in which parameters are adapted (optimized) in the first condition including the environment of the first system and the agent.
- the first model is created by an operator, a manager, or the like based on empirical rules, or is model-learned using an expert data set that is a history of actions and states of a skilled agent. You may.
- the first model may be, for example, a model that outputs a store manager's action according to the state of a convenience store.
- the first model is a model that outputs a driving operation (accelerator, brake, steering wheel operation, and the like) to be performed by a driver according to a road shape on a highway, a positional relationship of surrounding vehicles, and a vehicle speed. You may.
- a driving operation acceleration, brake, steering wheel operation, and the like
- Adaptation refers to optimizing the parameter values in the model to the conditions of the target system.
- “adaptive” means to adjust the parameters of the model to be optimal. Therefore, the “first model” includes parameter values optimized for conditions including the environment and the agent of the first system.
- the “correction model” is a model formula for correcting the model, a correction parameter, and the like.
- the correction model may be a preset model or a model calculated based on the second condition.
- the adaptation unit 12 adapts the second model generated by the generation unit 11 to the second system.
- the “second system” is a system operated based on a second condition that is partially different from the first condition.
- the second condition is a condition in which at least one of a specific environment and a specific agent included in the first condition is different.
- the first system and the second system are not systems having different purposes, but are systems having common or similar purposes.
- the first condition and the second condition have a common part in the condition.
- Adapting the second model to the second system means that the parameter values included in the second model are optimized according to the second condition (environment and agent) of the second system as described above. Means that.
- FIG. 2 is a flowchart showing the flow of the model adaptation method according to the first embodiment.
- the generation unit 11 generates a second model obtained by correcting a first model adapted to the first system using a correction model (S11).
- the adaptation unit 12 adapts the second model to the second system (S12). This makes it possible to efficiently adapt to the environment or another system with a similar agent by utilizing the model adapted to the predetermined system.
- the first system and the second system are common in that they are intended for specific applications, but they differ in specific environments (time, place, etc.) or agents (persons, etc.) to which they are applied. Therefore, if the operation is performed using the first model as it is in the second system, the first model may return an unintended output. Therefore, the first model cannot be used as it is in the second system.
- a large amount of high-quality expert data in the second system is required. However, it takes a long time to accumulate a large amount of high-quality expert data. In particular, when the second system is not in operation, it is difficult to acquire the expert data itself.
- the first system similar to the second system has a first model that has been adapted in some way.
- the first model is corrected using the correction model.
- the second model which is the model after the correction
- the second model is adapted to the second condition of the second system.
- the second model can output according to the original intention.
- the reason is that the second model is a partially modified version of the first model adapted for a first system similar to the second system.
- the modified second model is adapted for the second system. Therefore, the possibility of returning an unintended output is low. Further, the cost required for generating the second model and the cost required for adaptation can be significantly reduced.
- the second model is not designed from the ground up, but is partially corrected based on the first model.
- the output when operated in the second system using the second model is close to the original intention, learning using the operation data acquired by the operation enables learning with a small amount of data. High-precision adaptation can be performed.
- the information processing device 1 includes a processor, a memory, and a storage device as components not shown. Further, the storage device stores a computer program in which the processing of the model adaptation method according to the present embodiment is implemented. Then, the processor reads the computer program from the storage device into the memory, and executes the computer program. Thereby, the processor realizes the functions of the generation unit 11 and the adaptation unit 12.
- the generation unit 11 and the adaptation unit 12 may each be realized by dedicated hardware.
- some or all of the components of each device may be realized by a general-purpose or dedicated circuit, a processor, or a combination thereof. These may be configured by a single chip, or may be configured by a plurality of chips connected via a bus. Some or all of the components of each device may be realized by a combination of the above-described circuit and the like and a program.
- a CPU Central Processing Unit
- a GPU Graphics Processing Unit
- FPGA field-programmable gate array
- the plurality of information processing devices, circuits, or the like may be centrally arranged, They may be distributed.
- the information processing device, the circuit, and the like may be realized as a form in which each is connected via a communication network, such as a client server system and a cloud computing system.
- the function of the information processing device 1 may be provided in a SaaS (Software @ as ⁇ a ⁇ Service) format.
- the information processing apparatus 1 acquires the first model from the outside in advance and stores the first model in the internal storage device or memory. Then, the processor performs a correction or the like on the first model that has been unraveled in the storage device or the memory. In addition, the processor may store the adapted second model in an internal storage device or output the second model to an external system or storage device.
- the second embodiment is a specific example of the first embodiment.
- the information processing system according to the second embodiment includes a sequential reward learning unit, a model correction unit, an adaptation unit, and a storage unit.
- the sequential reward learning unit and the adaptation unit can be shared.
- the storage unit only needs to store at least the first model and the correction model described above.
- the model correction unit and the adaptation unit only need to have at least functions similar to those of the generation unit 11 and the adaptation unit 12 described above.
- FIG. 3 is a block diagram showing the overall configuration of the information processing system 1000 according to the second embodiment.
- the information processing system 1000 includes a system A 100, an expert data set 110, a system B 200, an operation data set 210, and an information processing device 300.
- System A100 is an example of a first system.
- FIG. 4 is a diagram for explaining the concept of the system A100 according to the second embodiment.
- System A100 includes a target environment 101 and an agent 102.
- the target environment 101 corresponds to the “environment” described above, and can take a plurality of states.
- the agent 102 corresponds to the “agent” described above, and is a person (person or computer) that can perform a plurality of actions in the environment.
- the agent 102 is an automatic driving vehicle
- the agent 102 takes a certain action 103 (accelerator, brake, steering wheel operation)
- the target environment 101 transits to a state 104 (speed up / down, lane movement, etc.) corresponding to the action 103.
- a reward function 105 is used. That is, the target environment 101 inputs the behavior 103 to the reward function 105 and outputs the reward to the agent 102.
- the action 103 to be performed by the agent 102 differs according to the state 104 of the target environment 101.
- the vehicle 103 may proceed as it is if there is no obstacle ahead, but the action 103 of proceeding to avoid the obstacle if there is an obstacle ahead.
- Agent 102 needs to take it. Further, the agent 102 needs to take an action 103 of changing the running speed of the vehicle according to the state of the road ahead, the distance between the vehicle and the vehicle in front, and the like.
- the expert data set 110 is behavior data such as a combination of the behavior 103 of the skilled agent 102 in the system A 100 and the state 104 at that time. That is, the expert data set 110 is an operation data set when operated in the system A100. However, when the system A100 is a simulator, the expert data set 110 also includes data of a simulation result. It is assumed that the expert data set 110 is stored in a storage device or the like.
- System B200 is an example of a second system. That is, the system B200 is a system similar to the system A100.
- the system B200 is a real environment when the system A100 is used as a simulator, a system after upgrading or migrating the system A100, or a derivative model when the system A100 is used as a base model. Since the concept of the system B200 is the same as that of the system A100, illustration and detailed description are omitted.
- the operation data set 210 is a set of data when the system B200 is operated. However, the data amount of the operation data set 210 may be smaller than that of the expert data set 110.
- the information processing device 300 is an example of the information processing device 1.
- the information processing device 300 includes a sequential reward learning unit 310, a model correction unit 320, an adaptation unit 330, and a storage unit 340.
- the storage unit 340 is a storage device or a memory such as a hard disk and a flash memory.
- the storage unit 340 stores a condition A341, a model A342, a correction model 343, a condition B344, and a model B345.
- the condition A341 is an example of information indicating the above-described first condition, and is information indicating a set of the target environment 101 and the agent 102 when the system A100 is operated.
- the condition B344 is an example of information indicating the second condition described above, and is information indicating a set of the target environment 101 and the agent 102 when the system B200 is operated. That is, the condition A341 and the condition B344 are different in at least a part of the target environment 101 and the agent 102.
- the model A 342 is an example of the above-described first model, and is a group of information indicating a model formula including a parameter value adapted to the system A100.
- the model A342 may be, for example, a set of a program file in which a model formula is implemented and a setting file including optimized parameter values.
- the model formula may be expressed using, for example, each vector of the state 104 and the action 103 described above and a set of parameter variables.
- the model A342 may include a policy function, a reward function, a physical equation, a state transition probability, and the like. Note that the reward function and the physical equation can be collectively referred to as an evaluation criterion.
- the model B 345 is an example of the above-described second model, and is a group of information indicating a model formula including parameter values before or after being adapted to the system B 200.
- the correction model 343 is an example of the correction model described above.
- the correction model 343 is a parameter function using the state s and the action a.
- the correction model 343 is not limited to this.
- the sequential reward learning unit 310 performs the sequential reward learning of the model A342 in the system A100 using the expert data set 110. That is, the sequential reward learning unit 310 adjusts the parameters of the model A342 to optimal values using the expert data set 110 as learning data. Further, the sequential reward learning unit 310 stores or updates the learned model A342 in which the adjusted parameter values are set in the storage unit 340.
- the successive reward learning unit 310 generates a policy function by successive reward learning.
- the “sequential reward learning” is a method that includes not only imitation learning and inverse reinforcement learning but also a process of designing a reward function based on imitation and updating the designed reward function.
- the imitation learning is a process of learning a policy function by imitating the action of an expert (expert).
- Inverse reinforcement learning is a process of learning up to a reward function that can reproduce the behavior of an expert.
- sequential reward learning aims at learning more than experts.
- the “policy function” is a function that outputs the action 103 to be performed by the agent 102 according to the state 104 of the target environment 101, and is also referred to as a “policy function”. Then, if the policy function is learned to be an ideal one, the policy function outputs an optimal action to be performed by the agent according to the state of the target environment.
- the sequential reward learning is performed using data in which the state vector s is associated with the action a (hereinafter, action data).
- action data data in which the state vector s is associated with the action a
- an expert data set 110 is used as action data.
- a policy function obtained by sequential reward learning imitates given behavior data.
- An existing algorithm can be used as the algorithm for the sequential reward learning.
- the sequential reward learning unit 310 of the present embodiment also learns the reward function through the sequential reward learning of the policy function.
- a policy which is a rule for the agent to select the action a is represented by ⁇ , and based on the policy ⁇ , the probability of selecting the action a in the state s is represented by ⁇ (s, a). .
- the action a obtained from the policy ⁇ is determined by Expression 1 illustrated below. a to ⁇ (a
- the sequential reward learning unit 310 of this embodiment formulates the policy function as a functional of the reward function.
- the sequential reward learning unit 310 learns the reward function while learning the policy function. And a reward function are generated.
- the probability of selecting the state s ′ from a certain state s and an action a can be expressed as ⁇ (a
- the relationship of Expression 2 illustrated below can be determined using the reward function r (s, a). It should be noted that the reward function r (s, a), and is sometimes referred to as a r a (s). ⁇ (a
- s): ⁇ (a
- the sequential reward learning unit 310 may learn the reward function r (s, a) using a function formulated as shown in the following Expression 3.
- ⁇ ′ and ⁇ ′ are parameters determined by data
- g ′ ( ⁇ ′) is a regularization term.
- the policy ⁇ representing the action a to be taken in a certain state s is to determine the reward r obtained by the state s of a certain environment and the action a selected in that state. Can be said to be related to the reward function r (s, a). Reinforcement learning refers to finding an appropriate policy ⁇ by performing learning in consideration of this relationship.
- the inventor has obtained an idea that the idea of finding a policy ⁇ based on the state s and the action a in reinforcement learning can be used to find a mechanism of a non-trivial system based on a certain phenomenon.
- the system here is not limited to a system configured mechanically, but also includes any system existing in the natural world.
- One specific example of the probability distribution of a certain state is Boltzmann distribution (Gibbs distribution) in statistical mechanics. From the viewpoint of statistical mechanics, when an experiment is performed based on certain experimental data, some energy state is generated based on a predetermined mechanism, and this energy state is considered to correspond to a reward in reinforcement learning.
- an energy state can be represented by a “physical equation” (for example, Hamiltonian) representing a physical quantity corresponding to energy. Therefore, the sequential reward learning unit 310 gives a problem setting for a function to be estimated in reinforcement learning so that the Boltzmann distribution in statistical mechanics can be estimated in the framework of reinforcement learning.
- a “physical equation” for example, Hamiltonian
- the sequential reward learning unit 310 sets a policy ⁇ (a
- Equation 5 corresponds to the measure in Equation 4
- the Hamiltonian in Equation 5 corresponds to the reward function in Equation 4.
- the Boltzmann distribution in the statistical mechanics can be modeled in the framework of reinforcement learning also from the correspondence relationship between Expressions 4 and 5.
- Equation 6 the right side in Expression 6 can be defined as Expression 7 shown below.
- Equation 8 When conditions satisfying physical laws such as time reversal, space reversal, and quadratic form are given to h (s, a), a physical equation h (s, a) is defined as in the following Expression 8. it can.
- ⁇ and ⁇ are parameters determined by data
- g ( ⁇ ) is a regularization term.
- Energy states may not require action.
- the sequential reward learning unit 310 separates the effect caused by the action a from the effect caused by the state s independent of the action, and sets the equation of motion so that the action is not accompanied.
- the state of the case can also be represented.
- each term of the equation of motion in Equation 8 can be associated with each term of the reward function in Equation 3. Therefore, by using the method of learning the reward function in the framework of the reinforcement function, the physical equation can be estimated. As described above, by performing the above processing, the sequential reward learning unit 310 can design a model (specifically, a cost function) necessary for learning.
- the sequential reward learning unit 310 estimates the parameters of the physical equation by performing reinforcement learning using learning data including the state s (the expert data set 110 and the like) based on the set model. As described above, there is a case where the energy state does not need to accompany an action. Therefore, the sequential reward learning unit 310 performs reinforcement learning using learning data including at least the state s. Further, the sequential reward learning unit 310 may estimate the parameters of the physical equation by performing the reinforcement learning using the learning data including the state s and the action a.
- the sequential reward learning unit 310 may generate a physical simulator using, for example, a neural network.
- a physical equation h (s, a) which is a simulation result determined according to the state s and the action a, may be input to the input layer, and the next state s ′ may be output from the output layer.
- the sequential reward learning unit 310 may estimate the parameters by performing the maximum likelihood estimation of the Gaussian mixture distribution.
- the sequential reward learning unit 310 may generate a physical simulator using a product model and a maximum entropy method.
- the sequential reward learning unit 310 since the sequential reward learning unit 310 associates the reward function r (s, a) with the physical equation h (s, a), the sequential reward learning unit 310 uses a method for estimating the reward function. Can be used to estimate the Boltzmann distribution as a result of estimating the physical equation. That is, by giving the formulated function as a problem setting for reinforcement learning, it becomes possible to estimate the parameters of the equation of motion in the framework of reinforcement learning.
- the sequential reward learning unit 310 estimates the equation of motion, so that it is possible to extract rules such as physical phenomena from the estimated equation of motion, and to update the existing equation of motion.
- the sequential reward learning unit 310 may generate a reward function and a policy function in the system A100 from the expert data set 110.
- the sequential reward learning unit 310 may generate a physical equation and a state transition probability in the system A100 from the expert data set 110.
- the sequential reward learning unit 310 may generate a policy function, a reward function, a physical equation, and a state transition probability in the system A100 from the expert data set 110.
- the first model according to the present embodiment includes a policy function and a reward function.
- the policy function and the reward function are action data in which the sequential reward learning unit 310 associates a state vector indicating a state of a specific environment with an action performed by a specific agent in a state represented by the state vector. Are generated by sequential reward learning using. Then, it can be said that the reward function outputs a reward obtained in a state represented by the state vector in response to the input of the state vector. Further, the policy function can be said to output an action to be performed by the specific agent in a state represented by the state vector, with an output value of the reward function when the state vector is input.
- the first model according to the present embodiment is a physical equation associated with the reward function, and a state transition probability according to the Boltzmann distribution representing the predetermined probability distribution of the state, associated with the policy function. It is desirable to further include.
- the model correction unit 320 is an example of the generation unit 11 described above.
- the model correction unit 320 corrects the model A342 adapted to the system A100 using the correction model 343, generates a model B345, and stores or updates the storage in the storage unit 340. Further, the model correction unit 320 may calculate the correction model 343 using the operation data set 210 in the system B200 before generating the model B345. In this case, the model correction unit 320 may generate the model B 345 by correcting the model A 342 using the calculated correction model 343.
- the adaptation unit 330 acquires the operation data set 210 obtained by operating the system B200 using the model B345, and adapts the model B345 to the system B200 using the acquired operation data set 210.
- the model B345 is generated from the model A342 that has been applied to the system A100 similar to the system B200. Therefore, compared with the case where the model B 345 is newly generated and the sequential reward learning (or the re-learning) is performed (by the sequential reward learning unit 310), the parameters can be learned with less operation data, and the adaptation with high accuracy can be achieved.
- the model can be obtained efficiently. That is, even a small amount of operation data can be adapted with high accuracy. In addition, adaptation is possible in a short time and at low cost.
- FIG. 5 is a block diagram illustrating a hardware configuration of the information processing apparatus 300 according to the second embodiment.
- the information processing device 300 includes at least a CPU 301, a memory 302, an IF unit 303, and a storage device 304.
- the storage device 304 is a storage device such as a hard disk or a flash memory corresponding to the storage unit 340 described above. It is assumed that the storage device 304 stores a model adaptation program 346 not shown in FIG. 3 in addition to the condition A341, the model A342, the correction model 343, the condition B344, and the model B345 described in FIG.
- the model adaptation program 346 is a computer program in which the processing of the model adaptation method according to the present embodiment is implemented.
- the memory 302 is a volatile storage device such as a random access memory (RAM), and is a storage area for temporarily storing information when the CPU 301 operates.
- the IF unit 303 is an interface that performs input and output with the outside of the information processing device 300. For example, the IF unit 303 receives a user operation via an input device (not shown) such as a keyboard, a mouse, and a touch panel, and outputs the received operation content to the CPU 301. In addition, the IF unit 303 performs output to a touch panel, a display device, a printer, or the like (not shown) according to an instruction from the CPU 301.
- an input device not shown
- the IF unit 303 performs output to a touch panel, a display device, a printer, or the like (not shown) according to an instruction from the CPU 301.
- the CPU 301 is a processor that controls each component of the information processing device 300, that is, a control device.
- the CPU 301 reads the model adaptation program 346 from the storage device 304 into the memory 302, and executes the model adaptation program 346. Thereby, the CPU 301 implements the functions of the sequential reward learning unit 310, the model correction unit 320, and the adaptation unit 330.
- FIG. 6 is a flowchart showing the flow of the model adaptation method according to the second embodiment.
- the successive reward learning unit 310 adapts the model A342 to the system A100 by successive reward learning using the expert data set 110 (S21).
- the sequential reward learning unit 310 may perform generation of the model A342 itself.
- the sequential reward learning unit 310 stores the model A342 in which the parameter values that have been set are set in the storage unit 340.
- the model correction unit 320 generates a model B 345 from the model A 342 by one-shot adaptation (S22). For example, first, the model correction unit 320 calculates the correction model 343 based on the condition B344. Then, the model correction unit 320 calculates a model B 345 obtained by multiplying the model A 342 by the correction model 343, and stores the model B 345 in the storage unit 340.
- the model correction unit 320 may calculate the model B345 as follows.
- the model A342 is assumed to include a policy function [pi A system A100 (Equation 9) and state transition probabilities p A (Formula 10) in the condition A 341. (Equation 9) (Equation 10)
- the correction model 343 includes parameter functions ⁇ (s, a) and ⁇ (s ′, s, a) using the state s and the action a.
- the model correction section 320 reads out from the storage unit 340, a policy function of the model A342 [pi A and state transition probabilities p A, as well as a parametric function ⁇ and ⁇ of correcting model 343. Then, the model corrector 320, 'a (Equation 11), the state transition probability is multiplied by a parameter function ⁇ to the state transition probability p A p A' policy function [pi A is multiplied by a parameter function ⁇ to the policy function [pi A (Formula 12). (Equation 11) (Equation 12)
- the model correction unit 320 stores the calculated policy function ⁇ A ′ and the state transition probability p A ′ in the storage unit 340 as a model B 345.
- step S22 one-shot adaptation is performed.
- the model correction unit 320 calculates the correction model 343 and its parameter values based on these. You may. Specifically, when there is a small amount of operation data when operating the system B200 based on the condition B344, the model correction unit 320 calculates the correction model 343 and its parameter values using the operation data. Is also good. That is, the model correction unit 320 may generate the model B345 by learning using a small amount of operation data for the model B345 obtained by multiplying the model A342 by the correction model 343.
- step S22 Zero-shot adaptation or Few-shot adaptation may be used instead of the One-shot adaptation described above.
- the model B 345 is generated by multiplying the model A 342 and performing an initial update adapted to the system B 200 even in a situation where the additional data is zero given the portion.
- the model correction unit 320 generates a model B 345 obtained by multiplying the model A 342 by the parameter functions ⁇ and ⁇ , and adapts it to the system B 200 several times to acquire a small amount of operation data. . Thereafter, the model correction unit 320 generates the model B345 by adapting the model B345 to the system B200 and updating the parameter values using the acquired small amount of operation data. Therefore, One-shot adaptation, Zero-shot adaptation, or New-shot adaptation are collectively referred to as X-shot adaptation, and the model correction unit 320 according to the present embodiment generates a model B345 by X-shot adaptation. It can be said that.
- the adaptation unit 330 operates the system B200 using the model B345 (S23). Then, the adaptation unit 330 saves the operation data generated by the operation in step S23 as the operation data set 210 (S24). Thereafter, the adaptation unit 330 adapts the model B345 to the system B200 using the operation data set 210 (S25). At this time, the adaptation unit 330 adjusts (optimizes) the parameter value of the model B345 by sequential reward learning similarly to the sequential reward learning unit 310, and stores the model B345 in which the adjusted parameters are set in the storage unit 340. Save or update. Thereafter, the adaptation unit 330 adapts and updates the model B345 as appropriate according to the operation of the system B200.
- step S22 the initial parameters of the correction model 343 can be quickly adjusted (or set). Then, the user can appropriately learn the model B345 by using the actual operation data during the operation of the system B200. Therefore, the model B345 adapted to the system B200 can be provided more quickly.
- the adaptive model learned for the system A100 by the sequential reward learning unit 310 is based on a condition A341 including a specific environment and an agent, and does not assume that the environment or the agent is changed. .
- the model A342 cannot be diverted as it is to the condition A341 and the condition B344 in which some environments or agents are changed, that is, the system B200 similar to the system A100. This is because if the model A342 is used as it is in the system B200, an unintended output may be returned.
- a model adapted to the system B 200 can be provided early and at low cost.
- model parameters can be autonomously updated for the generated model B345 during actual operation.
- a second model may be generated for a plurality of systems B200.
- the third embodiment is a specific example of the first embodiment described above, and is an example of an aspect different from the second embodiment.
- the correction is performed not on the entire first model but on the evaluation criterion (expression) included in the first model.
- a second model is generated.
- the third embodiment an example will be described in which the first model is developed in a plurality of similar systems.
- the third embodiment may be applied to a case where there is one similar system.
- FIG. 7 is a block diagram showing the overall configuration of the information processing system 1000a according to the third embodiment.
- the information processing system 1000a is different from the information processing system 1000 in that the information processing device 300 is replaced by the information processing device 300a, and a system C 200a and an operation data set 210a, and a system D 200b and an operation data set 210b are added. Note that the same components as those in FIG. 3 are denoted by the same reference numerals, and description thereof will be omitted as appropriate.
- the system C200a and the system D200b are examples of a third system, and are similar to the system A100, like the system B200.
- the system B200, the system C200a, and the system D200b are assumed to be similar systems.
- the difference in environment corresponds to the case where the store location (peripheral environment) is different and the store manager (agent) that operates is different.
- the operation data set 210a is a set of data when the system C 200a is operated
- the operation data set 210b is a set of data when the system D 200b is operated.
- the storage unit 340 replaces the correction model 343 with the correction model 343a, and further stores a condition C344a, a model C345a, a condition D344b, and a model D345b.
- the correction model 343a is an example of the correction model described above, and in the present embodiment, is a set of correction parameters. However, the correction model 343a is not limited to this.
- the condition C344a is information indicating a set of the target environment 101 and the agent 102 when the system C200a is operated.
- the condition D344b is information indicating a set of the target environment 101 and the agent 102 when the system D200b is operated.
- the condition B344 is set as the second condition, at least one of the condition C344a and the condition D344b can be called a third condition partially different from any of the condition A341 and the condition B344.
- the model C 345a is a group of information indicating a model formula including parameter values before or after being adapted to the system C 200a.
- the model D345b is an information group indicating a model formula including parameter values before or after adapting to the system D200b. Note that, before the adaptation, the same model as the model B345 before the adaptation may be used as the model C345a and the model D345b.
- the model correction unit 320a corrects the evaluation criterion for evaluating the behavior 103 of the agent 102 included in the model A342 using the correction model 343 in addition to the model correction unit 320 described above. Since the number of correction targets is smaller than in the second embodiment, the processing time can be reduced, and the second model can be generated more quickly. Further, the model correction unit 320a generates a model B345 (a model C345a and a model D345b) by using a correction parameter for correcting the evaluation reference parameter as the correction model 343. In this way, by modifying the parameter values optimized for the first system, the amount of modification of the first model can be reduced, and the existing first model can be effectively used.
- the adaptation unit 330a adapts the model B345 to the system B200 in the same manner as the adaptation unit 330. Further, the adaptation unit 330a acquires the operation data set 210a obtained by operating the system C200a using the model C345a, and adapts the model C345a to the system C200a using the acquired operation data set 210a. The adaptation unit 330a acquires the operation data set 210b obtained by operating the system D200b using the model D345b, and adapts the model D345b to the system D200b using the acquired operation data set 210b.
- FIG. 8 is a flowchart illustrating the flow of the model adaptation method according to the third embodiment.
- the sequential reward learning unit 310 adapts the model A342 to the system A100 by sequential reward learning using the expert data set 110, as in FIG. 6 (S21).
- the model correction unit 320a extracts an evaluation reference expression from the model A342 (S22a).
- the model A 342 includes the policy function ⁇ A shown in Expression 9 and the state transition probability p A shown in Expression 10.
- the model correction unit 320a extracts a reward function r A (s, a) as an evaluation criterion equation from the policy function ⁇ A , and extracts a physical equation h A (s, a) from the state transition probability p A.
- the model correction unit 320a corrects the parameter part of the evaluation reference expression using the correction model 343a to generate a model B345, a model C345a, and a model D345b (S22b). Then, the model correction unit 320a stores the generated model B345, model C345a, and model D345b in the storage unit 340.
- the correction model 343a is generated in advance based on the condition B344, the condition C344a, and the condition D344b.
- the model correction unit 320a adds the correction parameter ⁇ rA ′ to the reward function r A (s, a) that is the extracted evaluation criterion formula, and the reward function r A ′ ( s, a) are calculated. (Equation 13)
- the model correction unit 320a adds the correction parameter ⁇ hA ′ to the extracted physical equation h A (s, a), which is the extracted evaluation reference equation, and calculates the physical equation h A ′ ( s, a) are calculated. (Equation 14)
- reward function r A corrected '(s, a) is the uncorrected reward function r A (s, a) for each state s i and the action a i in, the correction parameter is added Is shown.
- the model correction unit 320a generates the model B345 and the like by including the evaluation reference formula corrected as described above in the model A342.
- the model B345, the model C345a, and the model D345b may be the same at this stage. .
- model B345 and the like include a policy function ⁇ A ′ shown in the following equation 19 and a state transition probability p A ′ shown in the following equation 20. (Equation 19) (Equation 20)
- the adaptation unit 330a operates the system B200 using the model B345 (S23). Then, the adaptation unit 330 saves the operation data generated by the operation in step S23 as the operation data set 210 (S24). Thereafter, the adaptation unit 330 adapts the model B345 to the system B200 using the operation data set 210 (S25). At this time, the adaptation unit 330 adjusts (optimizes) the parameter value of the model B345 by sequential reward learning similarly to the sequential reward learning unit 310, and stores the model B345 in which the adjusted parameters are set in the storage unit 340. Save or update.
- the adaptation unit 330a operates the system C200a using the model C345a (S23a). Then, the adaptation unit 330a stores the operation data generated by the operation in step S23a as the operation data set 210a (S24a). Thereafter, the adapting unit 330a adapts the model C345a to the system C200a using the operation data set 210a (S25a). At this time, the adaptive unit 330a adjusts (optimizes) the parameter value of the model C345a by sequential reward learning similarly to the sequential reward learning unit 310, and stores the model C345a in which the adjusted parameters are set in the storage unit 340. Save or update.
- the adaptation unit 330a operates the system D200b using the model D345b (S23b). Then, the adaptation unit 330a stores the operation data generated by the operation in step S23b as the operation data set 210b (S24b). Thereafter, the adapting unit 330a adapts the model D345b to the system D200b using the operation data set 210b (S25b). At this time, the adaptive unit 330a adjusts (optimizes) the parameter value of the model D345b by sequential reward learning similarly to the sequential reward learning unit 310, and stores the model D345b in which the adjusted parameters are set in the storage unit 340. Save or update.
- correction is performed on the evaluation criterion (expression) included in the first model, so that the second model can be more quickly performed.
- a model can be generated.
- the corrected parameter values included in the first model are corrected, the correction can be performed with high accuracy while minimizing the correction amount.
- learning can be performed with a small amount of operation data, for example, a small amount of operation data obtained immediately after system migration or immediately after the start of operation can be obtained with high accuracy and high speed. Adaptation (update of model parameters) becomes possible.
- correction model 343a described above may be a plurality of correction models corresponding to each of the system B200, the system C200a, and the system D200b. Further, the correction model 343a may be a random value, or may be a value based on a probability distribution of a model corresponding to each of the system B200, the system C200a, and the system D200b.
- the model correction unit 320a (generation unit) corrects the model A342 (first model) by using the first correction model corresponding to the condition B344 (second condition) to thereby correct the model.
- the model correction unit 320a corrects the model A342 using a second correction model corresponding to a condition C344a (third condition) partially different from both the condition A341 and the condition B344.
- a model C345a (third model) is generated.
- the model correction unit 320a generates the model D345b by correcting the model A342 using a correction model corresponding to a condition D344b that is partially different from any of the condition A341, the condition B344, and the condition C344a.
- the adapting unit 330a adapts the model B345 to the system B200 (second system), adapts the model C345a to the system C200a (third system), and adapts the model D345b to the system D200b.
- the fourth embodiment is an improved example of the third embodiment.
- the generation unit may perform the correction model on a fourth model adapted to a fourth system operated based on a fourth condition partially different from the first condition.
- the adaptation unit adapts the fourth model to a fourth system operated based on the fourth condition.
- the information processing apparatus further includes an output unit that outputs a comparison result between the second model and the fourth model adapted by the adaptation unit.
- FIG. 9 is a block diagram showing an overall configuration of an information processing system 1000b according to the fourth embodiment.
- the information processing system 1000b is different from the information processing system 1000a in that the information processing device 300a is replaced with the information processing device 300b.
- the information processing device 300b is different from the information processing device 300a in that a comparison / output unit 350 is added.
- the comparison / output unit 350 compares each of the model B 345, the model C 345a, and the model D 345b which have been adapted by the adapting unit 330a, and outputs a comparison result.
- the comparison result includes information indicating a difference in an action or a state constituting the model, a difference in a parameter value in a corresponding action or a state, a difference in a condition, and the like.
- the model correction unit 320a may perform X-shot adaptation as in the second embodiment.
- the comparison / output unit 350 may compare the model A342 (first model) with another model and output the comparison result.
- the same components as those in FIG. 7 are denoted by the same reference numerals, and description thereof will be omitted as appropriate.
- FIG. 10 is a flowchart showing the flow of the model comparison process according to the fourth embodiment.
- the model comparison process is executed after the above-described model adaptation method of FIG.
- the comparison / output unit 350 reads the model B345, the model C345a, and the model D345b from the storage unit 340 (S51).
- the comparison / output unit 350 performs steps S52, S53, and S54 in an arbitrary order or in parallel as appropriate.
- step S52 the comparison / output unit 350 compares the model B 345 with the model C 345a, and obtains a comparison result.
- step S53 the comparison / output unit 350 compares the model C 345a and the model D 345b to obtain a comparison result.
- step S54 the comparison / output unit 350 compares the model D345b with the model B345 to obtain a comparison result.
- the comparison / output unit 350 collectively (or individually) outputs the comparison results (S55).
- the comparison / output unit 350 may display each comparison result on a screen (not shown) of the information processing device 300b.
- the comparison / output unit 350 may store each comparison result in the storage unit 340.
- the comparison / output unit 350 may output each comparison result to an external storage device (via a network), a computer, or a display device.
- a mechanism for example, a physical equation
- an intention of operation (reward function) of the system between similar systems B200, C200a, and D200b are explicitly described.
- the generated evaluation criterion equation it is possible to improve universal behavior common to each system, improve an operation method, and improve accuracy by ensemble.
- analysis including the system A100 can be performed.
- the fifth embodiment is an application of the third or fourth embodiment.
- the fifth embodiment is a case where the fifth embodiment is applied to an automatic driving system.
- the fifth embodiment aims to autonomously learn the driving operation of a car from the driving history of a person on a living road, and to safely realize automatic driving on a living road.
- FIG. 11 is a diagram for explaining an example of a lane change in driving a car.
- the driving vehicle C11 when the vehicle V11 exists in front of (in the same lane) the driving vehicle C11 (for example, when the vehicle V11 is parked or stopped or running), the driving vehicle C11 does not contact the vehicle V11 in front of the vehicle V11. Indicates that you have safely moved to the next lane.
- the driver operating the driving vehicle C11 operates the steering wheel so as to move the driving vehicle C11 to the adjacent lane in order to avoid the vehicle V11 ahead, and also operates the access and the brake as necessary. I do.
- These driving operations by the driver are actions 103 of the agent 102.
- the target environment 101 includes the type (truck, ordinary car, and the like) and size of the driving vehicle, information on the surrounding vehicles (number, positional relationship, vehicle type and size, etc.), traffic volume, time zone, and weather (brightness). ), Road information (number of lanes, vehicle width, signals, curves) and the like.
- the driving lane of the driving vehicle C11 is on the left side, that the vehicle V11 is ahead of the same lane, the distance between the vehicle V11 and the driving vehicle C11, the number of lanes, and the inclination of the road.
- the angle of the curve can be said to be the state 104 in the target environment 101.
- the behavior 103 and the state 104 in the case h1-1 become operation data. Further, in case h1-1, since no accident has occurred, the driver of the driving vehicle C11 can be regarded as an expert, and the operation data in case h1-1 can be used as expert data.
- Case h1-2 shows a case where the vehicle V12 exists in front of the driving vehicle C12 (on the same lane) and the vehicle V13 exists right next to the driving vehicle C12 (the next lane). At this time, the driving vehicle C12 changes lanes without contacting the vehicle V13 on the side, but indicates that the driving vehicle C12 has contacted the preceding vehicle V12.
- the operation data at this time (the steering operation and the like and the existence of the vehicle V13 and the like) are different from the operation data in the case h1-1.
- the driver of the driving vehicle C12 is excluded from the expert, and the operation data in the case h1-2 is not regarded as the expert data.
- the driving operation (action) by a skilled person is important.
- the adapted first model can be generated.
- the first model adapted to the lane change on a certain road driver and environment
- the first model is corrected by the correction model by the model correction unit 320a or the like
- the second model is corrected.
- the adaptation unit 330a and the like can generate a safe lane change model on various roads by adapting the second model to a lane change operation on a road under another condition (driver and environment (location, etc.)). .
- FIG. 12 is a diagram for explaining the concept of model generation of the driving technique according to the fifth embodiment.
- Case h2-1 shows a case where no other vehicle exists in front of the driving vehicle C21, but the vehicle V21 exists on the adjacent lane. At this time, the driving vehicle C21 indicates that the vehicle has changed lanes and has safely approached the rear of the vehicle V21.
- Case h2-2 illustrates a case where the vehicle V22 exists in front of the driving vehicle C22, the vehicle V23 exists right beside the driving vehicle C22, and no other vehicle exists in front of the vehicle V23. Then, at this time, the driving vehicle C22 indicates that the driving vehicle C22 has safely moved to the next lane without contacting the preceding vehicle V22 and the vehicle V23 beside.
- Case h2-3 shows a case where vehicles V24 and V25 exist in both lanes ahead of driving vehicle C23, and vehicle V26 exists right beside driving vehicle C23. At this time, the driving vehicle C23 changes lanes without touching the vehicle V26 beside the vehicle, and indicates that the vehicle C23 has safely approached the rear of the vehicle V24.
- Case h2-4 shows a case where vehicles V27 and V28 exist in both lanes ahead of driving vehicle C24. At this time, the driving vehicle C24 indicates that the lane has changed and the vehicle C24 has safely approached the rear of the vehicle V28. That is, the operation data in cases h2-1 to h2-4 can be said to be an example of expert data. Then, the sequential reward learning unit 310, the model correction unit 320a, the adaptation unit 330a, and the like can generate a lane change model that can be used on various roads by appropriately and autonomously learning from these expert data.
- FIG. 13 is a diagram for explaining the concept when the model according to the fifth embodiment is applied to another road.
- Case h3-1 shows a case in which, when the vehicle V31 exists in front of the driving vehicle C31 (on the same lane), the vehicle automatically drives using the adapted lane change model by the adaptation unit 330a and the like, and the lane is changed.
- case h3-2 when the vehicle V32 exists in front of the driving vehicle C32 (on the same lane) and the vehicle V33 exists right beside the driving vehicle C32, the adaptation unit 330a and the like have adapted the lane. This shows the progress of automatic driving using the changed model and lane changes.
- cases h3-1 and h3-2 both indicate that the lane change was safe.
- the model comparison process according to the fourth embodiment it is also possible to extract characteristics of a general-purpose lane change model. For example, from the comparison result of a plurality of lane change models generated according to the fifth embodiment, "when the inter-vehicle distance becomes x mail, reduce the speed to 1/3 and turn the steering wheel at an angle of y degrees" Such an environment (condition) and driving operation (action) for safe lane change can be derived. Therefore, for example, the fact that the number of occupants is irrelevant can be derived as a safety standard for a living road.
- the sixth embodiment is another application example of the third or fourth embodiment.
- the sixth embodiment is a case where the present invention is applied to face data of a vending machine.
- the face data is, for example, information indicating the arrangement (position and order of tiers) and label contents of a sample of a beverage to be sold in a beverage vending machine.
- face data is, for example, information indicating the arrangement (position and order of tiers) and label contents of a sample of a beverage to be sold in a beverage vending machine.
- the tendency of sales in vending machines is greatly affected by face data in addition to the surrounding environment of the installation location and the number of customers.
- the environmental information includes the type and number of beverages handled by another vending machine installed next to a certain vending machine, and whether the vending machine belongs to a company or another company.
- the face data pattern adopted for each vending machine is, in most cases, left to the discretion of environmental information based on the experience of the on-site routeman (beverage delivery and replenisher). . Therefore, it is also known that the sales of vending machines depend on the skill level of the root man (what face data is adopted).
- FIG. 14 is a diagram for explaining the concept of a face data group for each category of vending machine.
- the face data group F1 is a set of face data in a coffee type category that sells mainly coffee.
- the face data group F2 is a set of face data in a carbonated category mainly selling carbonated beverages.
- the face data group F3 is a set of face data in a tea category that sells mainly tea.
- the root man who is in charge of a vending machine with high sales is regarded as a skilled person
- the face data adopted by the skilled person is referred to as "action”
- a set of "state” in the applied vending machine (target environment) can be considered as expert data.
- the state includes the above-described environmental information, the customer class, the application period of the face data, sales information in the application period, and the like.
- the burden of acquiring and digitizing the face data is relatively low.
- FIG. 15 is a diagram for explaining the concept of model generation of face data of the vending machine according to the sixth embodiment.
- the face data groups F1, F2, F3, and F4 are adopted by the expert and are digitized data.
- the face data group F4 is a set of face data in vending machines of the functional category.
- the face data groups F1 to F4 are, for example, captured images of the front of a vending machine (samples and labels of articles for sale), or the arrangement (position and order of columns) and labels of samples of beverages to be sold. It is assumed that the contents are converted to text. It is also assumed that environmental information corresponding to the face data groups F1 to F4 has been digitized (converted into text) after being heard from an expert.
- the sequential reward learning unit 310 performs the sequential reward learning using the face data and the expert data such as the environmental information and the sales information, so that the adapted first model can be generated. Further, the second model can be generated by correcting the first model with the correction model by the model correction unit 320a or the like. Then, the adaptation unit 330a and the like can propose the optimal face data under the conditions by adapting the second model to a vending machine having some different conditions. For example, for a vending machine at a certain installation location, face data in a different category than before may be proposed.
- FIG. 16 is a diagram for explaining an example of face data proposed when the model according to the sixth embodiment is applied to a plurality of vending machines under different conditions.
- the face data F5 is an example of optimal face data in a coffee type category.
- the face data F6 is an example of optimum face data in the carbonate type category.
- the face data F7 is an example of the optimum face data in the tea category.
- Embodiment 7 is another application example of the third or fourth embodiment.
- Embodiment 7 is a case where the present embodiment is applied to a water supply infrastructure (hereinafter, referred to as water supply infrastructure). It is desirable to review the water infrastructure as time elapses and environmental changes. For example, in water infrastructure, downsizing of water infrastructure may be necessary in consideration of a decrease in water demand due to population reduction and water saving effects, and replacement costs due to aging of facilities and pipelines.
- the target environment is represented as a set of water supply infrastructure states (for example, water distribution network, pump capacity, water pipe state, and the like).
- the state is represented by variables that describe the dynamics of the network that cannot be explicitly operated by the operator, such as the voltage, water level, pressure, and water volume at each site.
- the agent corresponds to an operator who performs an action based on a decision or an external system.
- the action that the agent should take is to supply water to the demand area on the water distribution network without excess or shortage. Therefore, the behavior is represented by variables that can be controlled based on operation rules, such as opening and closing valves, drawing water, and threshold values for pumps.
- FIG. 17 is a diagram for explaining the concept when the water supply model of the water supply infrastructure in the area according to the seventh embodiment is applied to another water supply station.
- the water supply infrastructure W1 is a water supply infrastructure of a certain water supply bureau.
- the operation by the skilled staff in the water supply infrastructure W1 and the state of the environment at that time can be called expert data. Therefore, by accumulating the expert data and performing sequential reward learning by the sequential reward learning unit 310 using these, it is possible to generate an adapted first model.
- the second model can be generated by correcting the first model with the correction model by the model correcting unit 320a or the like.
- the water supply infrastructures W2 to W5 are in an area different from the water supply infrastructure W1 or are conditions for future downsizing. Therefore, the adapting unit 330a or the like can realize highly accurate control in various regions or conditions by adapting the second model to the water supply infrastructures W2 to W5.
- each element described in the drawings as a functional block that performs various processes can be configured by a CPU (Central Processing Unit), a memory, and other circuits in terms of hardware.
- the software is realized by a program or the like that is loaded into a memory by a CPU and executed. Therefore, it is understood by those skilled in the art that these functional blocks can be realized in various forms by only hardware, only software, or a combination thereof, and the present invention is not limited to any of them.
- Non-transitory computer readable media include various types of tangible storage media.
- Examples of non-transitory computer-readable media are magnetic recording media (eg, flexible disk, magnetic tape, hard disk drive), magneto-optical recording media (eg, magneto-optical disk), CD-ROM (Compact Disc-Read Only Memory), CD -R (CD-Recordable), CD-R / W (CD-ReWritable), semiconductor memory (for example, mask ROM, PROM (Programmable ROM), EPROM (Erasable PROM), flash ROM, RAM (Random Access Memory)) Including.
- magnetic recording media eg, flexible disk, magnetic tape, hard disk drive
- magneto-optical recording media eg, magneto-optical disk
- CD-ROM Compact Disc-Read Only Memory
- CD -R CD-Recordable
- CD-R / W CD-ReWritable
- semiconductor memory for example, mask ROM, PROM (Programmable ROM), EPROM (Erasable PROM), flash
- the program may be supplied to the computer by various types of transitory computer readable media.
- Examples of transitory computer readable media include electrical signals, optical signals, and electromagnetic waves.
- Transitory computer readable media can provide the program to a computer via a wired communication line such as an electric wire and an optical fiber, or a wireless communication line.
- the present disclosure is not limited to the above embodiment, and can be appropriately modified without departing from the gist.
- the present disclosure may be implemented by appropriately combining the embodiments.
- a generation unit configured to generate a second model corrected using a correction model for a first model adapted to a first system operated based on a first condition including a specific environment and an agent;
- An adaptation unit that adapts the second model to a second system operated based on a second condition partially different from the first condition;
- An information processing apparatus comprising: (Appendix 2) The adaptation unit, Acquiring operation data obtained by operating the second system using the second model, The information processing apparatus according to claim 1, wherein the second model is adapted to the second system using the acquired operation data.
- the generation unit includes: The information processing apparatus according to claim 1 or 2, wherein the evaluation criterion for evaluating the behavior of the agent included in the first model is corrected using the correction model.
- the generation unit includes: The information processing apparatus according to claim 3, wherein the second model is generated by using a correction parameter for correcting the parameter of the evaluation criterion as the correction model.
- the generation unit includes: Calculating the correction model using operation data in the second system; The information processing apparatus according to claim 1 or 2, wherein the second model is generated by performing a correction on the first model using the calculated correction model.
- the adaptation unit 6.
- the second model is adapted to a third system operated based on a third condition partially different from any of the first condition and the second condition.
- An information processing apparatus according to claim 1. (Appendix 7)
- the generation unit includes: Generating the second model by correcting the first model using a first correction model corresponding to the second condition;
- the third model is corrected by using a second correction model corresponding to a third condition partially different from both the first condition and the second condition with respect to the first model.
- the generation unit includes: Generating a fourth model corrected by using the correction model for a fourth model adapted to a fourth system operated based on a fourth condition partially different from the first condition; , The adaptation unit, Adapting the fourth model to a fourth system operated based on the fourth condition, The information processing device, The information processing device according to claim 1, further comprising: an output unit configured to output a result of comparison between the second model and the fourth model adapted by the adaptation unit.
- the first model is A policy function and a reward function generated by sequential reward learning using action data that associates a state vector indicating the state of the specific environment with an action performed by the specific agent in a state represented by the state vector.
- the reward function outputs a reward obtained in a state represented by the state vector
- the policy function receives an output value of the reward function when the state vector is input, and outputs an action to be performed by the specific agent in a state represented by the state vector.
- the information processing apparatus according to claim 1. (Appendix 10)
- the first model is The physical equation associated with the reward function, and further associated with the policy function, further including a state transition probability according to a Boltzmann distribution representing a predetermined probability distribution of the state, An information processing device according to supplementary note 9.
- a storage unit that stores a first model adapted to a first system operated based on a first condition including a specific environment and an agent, and a predetermined correction model; A generation unit that generates a second model corrected by using the correction model for the first model; An adaptation unit that adapts the second model to a second system operated based on a second condition partially different from the first condition; An information processing system comprising: (Appendix 12) The adaptation unit, Acquiring operation data obtained by operating the second system using the second model, The information processing system according to supplementary note 11, wherein the second model is adapted to the second system using the acquired operation data.
- (Appendix 13) Computer Generating a second model corrected using a correction model with respect to a first model adapted to a first system operated based on a first condition including a specific environment and an agent, A model adaptation method for adapting the second model to a second system operated based on a second condition partially different from the first condition.
- (Appendix 14) A process of generating a second model corrected using a correction model for a first model adapted to a first system operated based on a first condition including a specific environment and an agent, A process of adapting the second model to a second system operated based on a second condition partially different from the first condition;
- Non-transitory computer-readable medium storing a model adaptation program for causing a computer to execute the program.
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Algebra (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Medical Informatics (AREA)
- Feedback Control In General (AREA)
Abstract
本発明は、所定のシステムに適応させたモデルを活用して、環境又はエージェントの類似する他のシステムに効率的に適応させることを目的とする。本発明にかかる情報処理装置(1)は、特定の環境及びエージェントを含む第1の条件に基づき運用される第1のシステムに適応させた第1のモデルに対して補正用モデルを用いて補正した第2のモデルを生成する生成部(11)と、前記第1の条件と一部が異なる第2の条件に基づき運用される第2のシステムに、前記第2のモデルを適応させる適応部(12)と、を備える。
Description
本開示は、情報処理装置及びシステム、並びに、モデル適応方法及びプログラムが格納された非一時的なコンピュータ可読媒体に関する。
AI(Artificial intelligence)の分野において、機械学習を行うための様々なアルゴリズムが提案されている。一例として、特許文献1には、人間が制御システムの制御を行う際に行っていると考えられる知的作業の方法手段を、機械的に実現するための技術が開示されている。
また、非特許文献1には、シミュレーションを用いた逆強化学習に関する技術が開示されている。
Shoichiro Yamaguchi, Honda Naoki, Muneki Ikeda, Yuki Tsukada, Shunji Nakano, Ikue Mori, Shin Ishii, Identification of animal behavioral strategies by inverse reinforcement learning, PLOS Computational Biology, May 2, 2018.
特許文献1及び非特許文献1に記載された技術を用いることにより、特定の環境及びエージェントにより運用される第1のシステムにおいて蓄積されたエキスパートデータから、第1のシステムに適応した第1のモデルを求めることが可能である。しかしながら、環境又はエージェントが類似するものの第1のシステムとは異なる第2のシステムには、上記で求められた第1のモデルをそのまま用いて運用することができない。仮に、第2のシステムに上記第1のモデルをそのまま用いた場合、意図しない出力を返してしまうおそれがあるためである。
また、第2のシステムに適応した第2のモデルを新たに求めるには、別途、第2のシステムにおけるエキスパートデータを用いて、再度の学習が必要となり、コストがかかる。そのため、所定のシステムに適応させたモデルについて、環境又はエージェントの変化に応じた活用が不十分である、という問題点がある。
本開示は、このような問題点を解決するためになされたものであり、所定のシステムに適応させたモデルを活用して、環境又はエージェントの類似する他のシステムに効率的に適応させるための情報処理装置を提供することを目的とする。
本開示の第1の態様にかかる情報処理装置は、
特定の環境及びエージェントを含む第1の条件に基づき運用される第1のシステムに適応させた第1のモデルに対して補正用モデルを用いて補正した第2のモデルを生成する生成部と、
前記第1の条件と一部が異なる第2の条件に基づき運用される第2のシステムに、前記第2のモデルを適応させる適応部と、
を備える。
特定の環境及びエージェントを含む第1の条件に基づき運用される第1のシステムに適応させた第1のモデルに対して補正用モデルを用いて補正した第2のモデルを生成する生成部と、
前記第1の条件と一部が異なる第2の条件に基づき運用される第2のシステムに、前記第2のモデルを適応させる適応部と、
を備える。
本開示の第2の態様にかかる情報処理システムは、
特定の環境及びエージェントを含む第1の条件に基づき運用される第1のシステムに適応させた第1のモデルと、所定の補正用モデルとを記憶する記憶部と、
前記第1のモデルに対して前記補正用モデルを用いて補正した第2のモデルを生成する生成部と、
前記第1の条件と一部が異なる第2の条件に基づき運用される第2のシステムに、前記第2のモデルを適応させる適応部と、
を備える。
特定の環境及びエージェントを含む第1の条件に基づき運用される第1のシステムに適応させた第1のモデルと、所定の補正用モデルとを記憶する記憶部と、
前記第1のモデルに対して前記補正用モデルを用いて補正した第2のモデルを生成する生成部と、
前記第1の条件と一部が異なる第2の条件に基づき運用される第2のシステムに、前記第2のモデルを適応させる適応部と、
を備える。
本開示の第3の態様にかかるモデル適応方法は、
コンピュータが、
特定の環境及びエージェントを含む第1の条件に基づき運用される第1のシステムに適応させた第1のモデルに対して補正用モデルを用いて補正した第2のモデルを生成し、
前記第1の条件と一部が異なる第2の条件に基づき運用される第2のシステムに、前記第2のモデルを適応させる。
コンピュータが、
特定の環境及びエージェントを含む第1の条件に基づき運用される第1のシステムに適応させた第1のモデルに対して補正用モデルを用いて補正した第2のモデルを生成し、
前記第1の条件と一部が異なる第2の条件に基づき運用される第2のシステムに、前記第2のモデルを適応させる。
本開示の第4の態様にかかるモデル適応プログラムが格納された非一時的なコンピュータ可読媒体は、
特定の環境及びエージェントを含む第1の条件に基づき運用される第1のシステムに適応させた第1のモデルに対して補正用モデルを用いて補正した第2のモデルを生成する処理と、
前記第1の条件と一部が異なる第2の条件に基づき運用される第2のシステムに、前記第2のモデルを適応させる処理と、
をコンピュータに実行させる。
特定の環境及びエージェントを含む第1の条件に基づき運用される第1のシステムに適応させた第1のモデルに対して補正用モデルを用いて補正した第2のモデルを生成する処理と、
前記第1の条件と一部が異なる第2の条件に基づき運用される第2のシステムに、前記第2のモデルを適応させる処理と、
をコンピュータに実行させる。
上述の態様によれば、所定のシステムに適応させたモデルを活用して、環境又はエージェントの類似する他のシステムに効率的に適応させるための情報処理装置及びシステム、並びに、モデル適応方法及びプログラムを提供することができる。
以下では、本開示の実施の形態について、図面を参照しながら詳細に説明する。各図面において、同一又は対応する要素には同一の符号が付されており、説明の明確化のため、必要に応じて重複説明は省略される。
ここで、機械学習の一種として強化学習(Reinforcement Learning)が知られている。強化学習は、「状態」が変化しうる「環境」において「行動」を行う「エージェント」(人やコンピュータ)について、環境の状態に応じた適切な行動を学習する方法である。ここで、環境の状態に応じた行動を出力する関数を「ポリシー(方策)関数」と呼ぶ。ポリシー関数は、強化学習が行われることにより、環境の状態に応じた適切な行動を出力するようになる。
また、強化学習では、前提として、エージェントの行動や、エージェントの行動によって遷移した環境の状態に対して与えられる「報酬」を出力する「報酬関数」が与えられる。報酬はエージェントの行動を評価する基準(評価基準)であり、報酬に基づいて評価値が定められる。例えば評価値は、エージェントが一連の行動を行う間に得られる報酬の合計である。評価値は、エージェントの行動の目的を決めるための指標である。例えば、ポリシー関数の学習は、「評価値を最大化する」という目的を達成するように行われる。なお、評価値は報酬に基づいて定まることから、ポリシー関数の学習は報酬関数に基づいて行われるともいえる。
ここで、実社会問題に取り組む場合、報酬関数の設計が難しいことがある。その場合、模倣学習(Imitation learning)が用いられることがある。模倣学習では、熟練したエージェントであるエキスパートによる状態に応じた行動等を蓄積したエキスパートデータを用いてモデルを学習することで、エキスパートの行動を模倣するための方策(ポリシー)関数を導出する。そして、模倣学習の一種として逆強化学習(Inverse Reinforcement Learning)が注目されつつある。
<実施の形態1>
図1は、本実施の形態1にかかる情報処理装置1の構成を示すブロック図である。情報処理装置1は、所定のシステムの環境等の条件から、システムのユーザであるエージェントが取るべき行動を出力するためのモデルを生成及びモデルのパラメータの学習(適応)を行うためのコンピュータであり、学習装置ということもできる。尚、情報処理装置1は、2台以上のコンピュータにより構成されていてもよい。情報処理装置1は、生成部11と、適応部12とを備える。
図1は、本実施の形態1にかかる情報処理装置1の構成を示すブロック図である。情報処理装置1は、所定のシステムの環境等の条件から、システムのユーザであるエージェントが取るべき行動を出力するためのモデルを生成及びモデルのパラメータの学習(適応)を行うためのコンピュータであり、学習装置ということもできる。尚、情報処理装置1は、2台以上のコンピュータにより構成されていてもよい。情報処理装置1は、生成部11と、適応部12とを備える。
生成部11は、第1のシステムに適応させた第1のモデルに対して補正用モデルを用いて補正した第2のモデルを生成する。ここで、「第1のシステム」とは、特定の環境及びエージェントを含む第1の条件に基づき運用される情報システム又は制御システムである。または、「第1のシステム」は、これらの情報システム又は制御システムを含めた社会システムであってもよい。ここで、「環境」は、入力される行動に応じて複数の「状態」を取り得るものであり、狭義のシステムと呼ぶこともできる。「状態」は状態ベクトルで表すことができる。「エージェント」は、その環境において複数の「行動」を行ない得る者であり、システムのユーザである人間(運用者)又は(エージェントプログラムにより動作する)コンピュータである。そして、環境は、エージェントの行動に応じて状態が遷移する。また、エージェントは、環境の現在の状態に応じて次の行動を決める。また、「運用」とは、特定のエージェントにより特定の環境においてシステムを稼働、実行させることを含む。
「第1のモデル」は、パラメータと変数とで定義される関数等のモデル式であり、入力に応じて求められる値を出力する。特に、第1のモデルは、第1のシステムの環境及びエージェントを含む第1の条件においてパラメータが適応(最適化)されたものである。尚、第1のモデルは、運用者、管理者等によって経験則から作成されたものであるか、熟練したエージェントの行動と状態の履歴であるエキスパートデータセットを用いて模倣学習されたものであってもよい。第1のモデルは、例えば、コンビニエンスストアの店舗の状態に応じた店長の行動を出力するモデルであってもよい。または、第1のモデルは、高速道路における道路形状や周囲の車両の位置関係、車両速度に応じて、運転者が取るべき運転動作(アクセル、ブレーキ及びハンドル操作等)等を出力するモデルであってもよい。
また、「適応」とは、モデルにおけるパラメータ値を対象のシステムの条件に対して最適化することをいう。つまり、「適応」とは、モデルのパラメータが最適になるように調整することをいう。そのため、「第1のモデル」は、第1のシステムの環境及びエージェントを含む条件に対して最適化されたパラメータ値を含むものとする。
「補正用モデル」とは、モデルに補正を加えるためのモデル式、補正用パラメータ等である。補正用モデルは、予め設定されたものであるか、第2の条件に基づいて算出されたものであってもよい。
適応部12は、生成部11により生成された第2のモデルを第2のシステムに適応させる。ここで、「第2のシステム」は、第1の条件と一部が異なる第2の条件に基づき運用されるシステムである。第2の条件は、第1の条件に含まれる特定の環境又は特定のエージェントの少なくともいずれかが異なるものである。つまり、第1のシステムと第2のシステムとは、異なる目的のシステムではなく、目的が共通又は類似するシステム同士であるものとする。逆に言うと、第1の条件と第2の条件とは条件に共通部分がある。
「第2のモデルを第2のシステムに適応させる」とは、上記同様、第2のモデルに含まれるパラメータ値を第2のシステムの第2の条件(環境及びエージェント)に合せて最適化することを意味する。
図2は、本実施の形態1にかかるモデル適応方法の流れを示すフローチャートである。まず、生成部11は、第1のシステムに適応させた第1のモデルに対して補正用モデルを用いて補正した第2のモデルを生成する(S11)。次に、適応部12は、第2のシステムに、第2のモデルを適応させる(S12)。これにより、所定のシステムに適応させたモデルを活用して、環境又はエージェントの類似する他のシステムに効率的に適応させることができる。
ここで、第1のシステムと第2のシステムは、特定用途を対象とする点では共通するが、具体的な適用先の環境(時期、場所等)又はエージェント(人員等)等が異なる。そのため、第2のシステムに第1のモデルをそのまま用いて運用を行うと、第1のモデルが意図しない出力を返してしまうおそれがある。そのため、第2のシステムに第1のモデルをそのまま用いることができない。一方、第2のシステムに適応させた第2のモデルを、第1のモデルと同様の方法で求めるには、コストがかかる。例えば、第2のモデルを適切に定義することは、高度な知識が必要であり、難易度が高い。また、第2のモデルのパラメータを模倣学習により高精度に調整するには、第2のシステムにおける大量かつ良質なエキスパートデータが必要となる。しかし、大量かつ良質なエキスパートデータを蓄積するには長期間を要する。特に、第2のシステムが運用前である場合には、エキスパートデータを取得すること自体が困難である。
そこで、本実施の形態では、第2のシステムと類似する第1のシステムにおいて、何らかの方法で適応済みの第1のモデルが存在することを前提とする。そして、第1のモデルに対して、補正用モデルを用いて補正を行う。そして、補正後のモデルである第2のモデルを用いて、第2のシステムの第2の条件に適応させる。このように適応された第2のモデルを用いて第2のシステムを運用することで、第2のモデルは本来の意図に即した出力を行うことができる。その理由は、第2のモデルは、第2のシステムと類似する第1のシステムに対して適応済の第1のモデルから一部を修正したものであるものだからである。また、修正後の第2のモデルについて第2のシステム向けに適応している。そのため、意図しない出力を返す可能性が低い。また、第2のモデルの生成に要するコスト、及び、適応に要するコストを大幅に削減することができる。その理由は、第2のモデルを一から設計しておらず第1のモデルをベースに一部を補正するためである。また、第2のモデルを用いて第2のシステムで運用した際の出力は、本来の意図に近いものであるため、運用により取得される運用データを用いて学習することで、少量のデータで高精度な適応を行わせることができる。
尚、情報処理装置1は、図示しない構成としてプロセッサ、メモリ及び記憶装置を備えるものである。また、当該記憶装置には、本実施の形態にかかるモデル適応方法の処理が実装されたコンピュータプログラムが記憶されている。そして、当該プロセッサは、記憶装置からコンピュータプログラムを前記メモリへ読み込み、当該コンピュータプログラムを実行する。これにより、前記プロセッサは、生成部11及び適応部12の機能を実現する。
または、生成部11及び適応部12は、それぞれが専用のハードウェアで実現されていてもよい。また、各装置の各構成要素の一部又は全部は、汎用または専用の回路(circuitry)、プロセッサ等やこれらの組合せによって実現されもよい。これらは、単一のチップによって構成されてもよいし、バスを介して接続される複数のチップによって構成されてもよい。各装置の各構成要素の一部又は全部は、上述した回路等とプログラムとの組合せによって実現されてもよい。また、プロセッサとして、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、FPGA(field-programmable gate array)等を用いることができる。
また、情報処理装置1の各構成要素の一部又は全部が複数の情報処理装置や回路等により実現される場合には、複数の情報処理装置や回路等は、集中配置されてもよいし、分散配置されてもよい。例えば、情報処理装置や回路等は、クライアントサーバシステム、クラウドコンピューティングシステム等、各々が通信ネットワークを介して接続される形態として実現されてもよい。また、情報処理装置1の機能がSaaS(Software as a Service)形式で提供されてもよい。
また、情報処理装置1は、第1のモデルを予め外部から取得し、内部の記憶装置又はメモリに保存するものとする。そして、前記プロセッサは、記憶装置又はメモリにほぞんされた第1のモデルに対して補正等を行うものとする。また、前記プロセッサは、適応済みの第2のモデルを内部の記憶装置に保存するか、外部のシステム又は記憶装置へ出力してもよい。
<実施の形態2>
本実施の形態2は、上述した実施の形態1の具体例である。本実施の形態2にかかる情報処理システムは、逐次的報酬学習部と、モデル補正部と、適応部と、記憶部とを備える。但し、逐次的報酬学習部と適応部とは共用可能である。また、記憶部は、少なくとも上述した第1のモデルと補正用モデルとを記憶するものであればよい。また、モデル補正部及び適応部は、少なくとも上述した生成部11及び適応部12と同様の機能を有するものであればよい。
本実施の形態2は、上述した実施の形態1の具体例である。本実施の形態2にかかる情報処理システムは、逐次的報酬学習部と、モデル補正部と、適応部と、記憶部とを備える。但し、逐次的報酬学習部と適応部とは共用可能である。また、記憶部は、少なくとも上述した第1のモデルと補正用モデルとを記憶するものであればよい。また、モデル補正部及び適応部は、少なくとも上述した生成部11及び適応部12と同様の機能を有するものであればよい。
図3は、本実施の形態2にかかる情報処理システム1000の全体構成を示すブロック図である。情報処理システム1000は、システムA100と、エキスパートデータセット110と、システムB200と、運用データセット210と、情報処理装置300とを備える。システムA100は、第1のシステムの一例である。
図4は、本実施の形態2にかかるシステムA100の概念を説明するための図である。システムA100は、対象環境101と、エージェント102とを含む。対象環境101は、上述した「環境」に相当し、複数の状態を取り得るものである。エージェント102は、上述した「エージェント」に相当し、その環境において複数の行動を行ない得る者(人又はコンピュータ)である。
例えば、システムA100を自動運転システムとした場合、エージェント102は自動運転車両、対象環境101の状態104はその自動運転車両の運転状態、周囲の状態(周囲の地図、他車両の位置や速度、及び、道路の状態等)の集合となる。よって、状態104は、状態ベクトルS=(s1、s2、・・・)で表される。また、エージェント102がある行動103(アクセル、ブレーキ、ハンドルの動作)を取ると、対象環境101は、行動103に応じた状態104(速度の上下、車線の移動等)へ遷移する。また、システムA100について後述する逐次的報酬学習がなされる際には、報酬関数105が用いられる。つまり、対象環境101は、行動103を報酬関数105に入力し、報酬をエージェント102へ出力する。
ここで、エージェント102が行うべき行動103は、対象環境101の状態104に応じて異なる。上述の自動運転システムの例であれば、前方に障害物が存在しなければ車両はそのまま進行してよいが、前方に障害物があればその障害物を回避するように進行するという行動103をエージェント102は取る必要がある。また、前方の路面の状態や前方の車両との車間距離などに応じ、車両の走行速度を変更するという行動103をエージェント102は取る必要がある。
図3に戻り説明を続ける。エキスパートデータセット110は、システムA100における熟練したエージェント102における行動103と、そのときの状態104との組合せ等の行動データである。つまり、エキスパートデータセット110は、システムA100において運用された場合の運用データセットである。但し、システムA100がシミュレータの場合、エキスパートデータセット110は、シミュレーション結果のデータも含まれる。エキスパートデータセット110は、ストレージ装置等に格納されているものとする。
システムB200は、第2のシステムの一例である。つまり、システムB200は、システムA100と類似するシステムである。例えば、システムB200は、システムA100をシミュレータとした場合の実環境、システムA100に対するバージョンアップもしくはマイグレーション後のシステム、又は、システムA100をベースモデルとした場合の派生モデル等である。尚、システムB200の概念はシステムA100と同等であるため図示及び詳細な説明を省略する。
運用データセット210は、システムB200が運用された場合のデータの集合である。但し、運用データセット210のデータ量は、エキスパートデータセット110と比べて少なくても構わない。
情報処理装置300は、情報処理装置1の一例である。情報処理装置300は、逐次的報酬学習部310と、モデル補正部320と、適応部330と、記憶部340とを備える。記憶部340は、ハードディスク、フラッシュメモリ等の記憶装置又はメモリである。記憶部340は、条件A341と、モデルA342と、補正用モデル343と、条件B344と、モデルB345とを記憶する。
条件A341は、上述した第1の条件を示す情報の一例であり、システムA100が運用される際の対象環境101及びエージェント102の集合を示す情報である。また、条件B344は、上述した第2の条件を示す情報の一例であり、システムB200が運用される際の対象環境101及びエージェント102の集合を示す情報である。つまり、条件A341と条件B344は、対象環境101及びエージェント102の少なくとも一部が異なる。
モデルA342は、上述した第1のモデルの一例であり、システムA100に適応させたパラメータ値を含むモデル式を示す情報群である。モデルA342は、例えば、モデル式が実装されたプログラムファイルと最適化されたパラメータ値を含む設定ファイル等の集合であってもよい。ここで、モデル式は、例えば、上述した状態104及び行動103のそれぞれのベクトルと、パラメータ変数の集合とを用いて表現されたものであってもよい。また、モデルA342は、後述するように、ポリシー関数、報酬関数、物理方程式、及び、状態遷移確率等を含むものであってもよい。尚、報酬関数と物理方程式をまとめて評価基準と呼ぶこともできる。モデルB345は、上述した第2のモデルの一例であり、システムB200に適応させる前又は後のパラメータ値を含むモデル式を示す情報群である。
補正用モデル343は、上述した補正用モデルの一例であり、本実施形態では、状態s及び行動aを用いたパラメータ関数とする。但し、補正用モデル343は、これに限定されない。
逐次的報酬学習部310は、エキスパートデータセット110を用いてシステムA100におけるモデルA342の逐次的報酬学習を行う。すなわち、逐次的報酬学習部310は、エキスパートデータセット110を学習用データとしてモデルA342のパラメータを最適な値に調整する。また、逐次的報酬学習部310は、調整済みのパラメータ値を設定した学習済みのモデルA342を記憶部340に保存又は更新する。
ここで、逐次的報酬学習の処理内容について補足する。まず、逐次的報酬学習部310は、逐次的報酬学習によってポリシー関数の生成を行う。ここで、「逐次的報酬学習」とは、模倣学習や逆強化学習に留まらず、模倣に基づく報酬関数の設計と設計された報酬関数を更新する処理を含む手法である。尚、模倣学習は、エキスパート(熟練者)の行動を模倣して方策関数を学習する処理である。また、逆強化学習は、エキスパートの行動を再現できる報酬関数まで学習する処理である。これに対し、逐次的報酬学習は、エキスパート以上の学習を目指すものである。また、「ポリシー関数」とは、対象環境101の状態104に応じてエージェント102が行うべき行動103を出力する関数であり、「方策関数」ともいう。そして、ポリシー関数が理想的なものに学習されれば、ポリシー関数は、対象環境の状態に応じ、エージェントが行うべき最適な行動を出力するものとなる。
また、逐次的報酬学習は、状態ベクトルsと行動aとを対応づけたデータ(以下、行動データ)を利用して行われる。尚、本実施形態では、行動データとしてエキスパートデータセット110を用いる。逐次的報酬学習によって得られるポリシー関数は、与えた行動データを模倣するものとなる。なお、逐次的報酬学習のアルゴリズムには、既存のものを利用することができる。
さらに本実施形態の逐次的報酬学習部310は、ポリシー関数の逐次的報酬学習を通じ、報酬関数の学習も行う。そのために、ポリシー関数Pが、状態ベクトルsを報酬関数rに入力することで得られる報酬r(s)を入力としてとる関数として定められる。そして、ポリシー関数Pは、行動aを出力とする。そのため、ポリシー関数Pは、a = P(r(s))として定義することができる。
また、エージェントが行動aを選択する規則である方策(ポリシー)をπと表わし、この方策πのもと、状態sにおいて行動aを選択する確率を、π(s,a)と表わすものとする。この場合、方策πから得られる行動aは、以下に例示する式1で定められる。
a~π(a|r(s)) (式1)
a~π(a|r(s)) (式1)
すなわち、本実施形態の逐次的報酬学習部310は、ポリシー関数を報酬関数の汎関数として定式化する。このような定式化をしたポリシー関数を定めた上で逐次的報酬学習を行うことにより、逐次的報酬学習部310は、ポリシー関数の学習を行いつつ、報酬関数の学習も行うことで、ポリシー関数及び報酬関数を生成する。
また、ある状態sおよび行動aから状態s´を選択する確率は、π(a|s)と表わすことができる。上記に示す式1のように方策を定めた場合、報酬関数r(s,a)を用いて、以下に例示する式2の関係を定めることができる。尚、報酬関数r(s,a)を、ra(s)と記すこともある。
π(a|s) := π(a|r(s,a)) (式2)
π(a|s) := π(a|r(s,a)) (式2)
逐次的報酬学習部310は、以下に例示する式3のように定式化した関数を用いて報酬関数r(s,a)を学習してもよい。尚、式3において、λ´およびθ´は、データにより決定されるパラメータであり、g´(θ´)は、正則化項である。
(式3)
(式3)
また、方策を選択する確率π(a|s)は、ある状態sにおける行動aにより得られる報酬と関連することから、上記の報酬関数ra(s)を用いて、以下に例示する式4の形式で定義できる。なお、ZRは分配関数であり、ZR=Σaexp(ra(s))である。
(式4)
(式4)
ここで、上記の式4に示すように、ある状態sにおいてとるべき行動aを表す方策πは、ある環境の状態sと、その状態において選択される行動aによって得られる報酬rを決定するための報酬関数r(s,a)と関連性を有すると言える。強化学習は、この関連性を考慮して学習を行うことで、適切な方策πを見出そうと言うものである。
一方、本発明者は、強化学習において状態sと行動aに基づいて方策πを見出すという考え方が、ある現象に基づいて非自明なシステムの仕組みを見出すことに利用できるという着想を得た。なお、ここでのシステムとは、機械的に構成されたシステムに限定されず、自然界に存在する任意の体系も含む。
ある状態の確率分布を表す一具体例が、統計力学におけるボルツマン分布(ギブス分布)である。統計力学の観点でも、ある実験データに基づいて実験を行った場合、所定の仕組みに基づいて何らかのエネルギー状態が生じるため、このエネルギー状態は、強化学習における報酬に対応すると考えられる。
言い換えると、上記内容は、強化学習において、ある報酬が決まっていることに起因して方策が推定できるように、統計力学において、ある運動方程式が決まっていることに起因してエネルギー分布が推定できることを表しているとも言える。このように、関係性が対応付けられる一因として、両者がエントロピーという概念で繋がっていることが挙げられる。
一般に、エネルギー状態は、エネルギーに対応する物理量を表す「物理方程式」(例えば、ハミルトニアン)で表すことができる。そこで、逐次的報酬学習部310は、強化学習の枠組みで統計力学におけるボルツマン分布を推定できるように、強化学習において推定する関数についての問題設定を与えておく。
具体的には、逐次的報酬学習部310は、強化学習で対象とする問題設定として、環境の状態sにおいて取るべき行動aを決定する方策π(a|s)を所定の状態の確率分布を表すボルツマン分布に対応付ける。さらに、逐次的報酬学習部310は、強化学習で対象とする問題設定として、環境の状態sおよびその状態において選択される行動により得られる報酬rを決定する報酬関数r(s,a)をエネルギーに対応する物理量を表す物理方程式(ハミルトニアン)に対応付ける。このようにして逐次的報酬学習部310は、強化学習が対象とする問題をモデル化する。
ここで、ハミルトニアンをH、一般化座標をq、一般化運動量をpとしたとき、ボルツマン分布f(q,p)は、以下に例示する式5で表すことができる。なお、式5において、βは系の温度を表すパラメータであり、ZSは分配関数である。
(式5)
(式5)
上記に示す式4と比較すると、式5におけるボルツマン分布が、式4における方策に対応し、式5におけるハミルトニアンが、式4における報酬関数に対応していると言える。すなわち、上記式4および式5の対応関係からも、統計力学におけるボルツマン分布を強化学習の枠組みでモデル化できていると言える。
以下、報酬関数r(s,a)に対応付ける物理方程式(ハミルトニアン、ラグランジアンなど)の具体例を説明する。物理方程式h(s,a)を基本とした「状態遷移確率」pについて、以下の式6に示す式が成り立つ。
p(s´|s,a)=p(s´|h(s,a)) (式6)
また、式6における右辺は、以下に示す式7のように定義できる。式7において、ZSは分配関数であり、ZS=ΣS´exp(hs´(s,a))である。
(式7)
p(s´|s,a)=p(s´|h(s,a)) (式6)
また、式6における右辺は、以下に示す式7のように定義できる。式7において、ZSは分配関数であり、ZS=ΣS´exp(hs´(s,a))である。
(式7)
h(s,a)に対して、時間反転、空間反転、二次形式など、物理法則を満たす条件を与えた場合、物理方程式h(s,a)を、以下に示す式8のように定義できる。尚、式8において、λおよびθは、データにより決定されるパラメータであり、g(θ)は、正則化項である。
(式8)
(式8)
エネルギー状態は、行動を伴う必要がない場合も存在する。逐次的報酬学習部310は、式8に示すように、行動aに起因する効果と、行動とは独立の状態sに起因する効果とを分けて運動方程式を設定することで、行動を伴わない場合の状態も表すことができる。
さらに、上記に示す式3と比較すると、式8における運動方程式の各項は、式3における報酬関数の各項に対応付けることができる。したがって、強化関数の枠組みで報酬関数を学習する方法を用いることで、物理方程式を推定することが可能になる。このように、以上のような処理を行うことで、逐次的報酬学習部310が学習に必要なモデル(具体的には、コスト関数)を設計できる。
逐次的報酬学習部310は、上記設定されたモデルに基づき、状態sを含む学習データ(エキスパートデータセット110等)を用いて強化学習を行うことにより、物理方程式のパラメータを推定する。上述するように、エネルギー状態は、行動を伴う必要がない場合も存在するため、逐次的報酬学習部310は、少なくとも状態sを含む学習データを用いて強化学習を行う。さらに、逐次的報酬学習部310は、状態sおよび行動aを含む学習データを用いて強化学習を行うことにより、物理方程式のパラメータを推定してもよい。
例えば、時刻tで観測されたシステムの状態をst、行動をatとしたとき、これらのデータは、システムへの行動および作用を表す時系列の運用データセットDt={st,at}と言うことができる。また、物理方程式のパラメータを推定することで、物理現象の挙動を模擬する情報が得られることから、逐次的報酬学習部310は、物理シミュレータを生成していると言うこともできる。
逐次的報酬学習部310は、例えば、ニューラルネットワークを用いて物理シミュレータを生成してもよい。例えば、パーセプトロンについて、状態sおよび行動aに応じて決定されるシミュレート結果である物理方程式h(s,a)を入力層に入力し、出力層で次の状態s´を出力してもよい。
または、逐次的報酬学習部310は、混合ガウス分布の最尤推定を行うことによりパラメータを推定してもよい。または、逐次的報酬学習部310は、積モデルおよび最大エントロピー法を用いて物理シミュレータを生成してもよい。
このように、逐次的報酬学習部310が報酬関数r(s,a)と物理方程式h(s,a)とを対応付けているため、逐次的報酬学習部310は、報酬関数を推定する方法を用いて物理方程式を推定した結果としてボルツマン分布を推定できる。すなわち、定式化した関数を強化学習の問題設定として与えることで、強化学習の枠組みで、運動方程式のパラメータを推定することが可能になる。
また、逐次的報酬学習部310が運動方程式を推定することで、推定された運動方程式から、物理現象などのルールを抽出することや、既存の運動方程式を更新することも可能になる。尚、逐次的報酬学習部310は、エキスパートデータセット110からシステムA100における報酬関数とポリシー関数とを生成してもよい。または、逐次的報酬学習部310は、エキスパートデータセット110からシステムA100における物理方程式と状態遷移確率とを生成してもよい。さらに、逐次的報酬学習部310は、エキスパートデータセット110からシステムA100におけるポリシー関数、報酬関数、物理方程式、及び、状態遷移確率を生成してもよい。
以上を踏まえて、本実施の形態にかかる第1のモデルは、ポリシー関数及び報酬関数を含むことが望ましい。ここで、ポリシー関数及び報酬関数は、逐次的報酬学習部310が、特定の環境の状態を示す状態ベクトルと当該状態ベクトルで表される状態において特定のエージェントが行う行動とを対応付けた行動データを用いた逐次的報酬学習により生成されたものである。そして、報酬関数は、前記状態ベクトルの入力に対して、当該状態ベクトルで表される状態において得られる報酬を出力するものといえる。また、ポリシー関数は、前記状態ベクトルを入力した際の前記報酬関数の出力値を入力として、当該状態ベクトルで表される状態において前記特定のエージェントが行うべき行動を出力するものといえる。
さらに、本実施の形態にかかる第1のモデルは、前記報酬関数に対応付けられた物理方程式、及び前記ポリシー関数に対応付けられ、所定の前記状態の確率分布を表すボルツマン分布に従う状態遷移確率をさらに含むことが望ましい。
続いて、モデル補正部320は、上述した生成部11の一例である。モデル補正部320は、システムA100に適応させたモデルA342に対して補正用モデル343を用いて補正し、モデルB345を生成し、記憶部340に保存又は更新する。さらに、モデル補正部320は、モデルB345を生成する前に、システムB200における運用データセット210を用いて補正用モデル343を算出してもよい。その場合、モデル補正部320は、当該算出した補正用モデル343を用いて、モデルA342に対して補正を行うことによりモデルB345を生成するようにしてもよい。
適応部330は、システムB200にモデルB345を用いて運用して得られた運用データセット210を取得し、取得した運用データセット210を用いてモデルB345をシステムB200に適応させる。ここで、モデルB345は、システムB200と類似するシステムA100に適応済みのモデルA342から生成されたものである。そのため、モデルB345を新規に生成して(逐次的報酬学習部310による)逐次的報酬学習(又は、再学習)を行う場合と比べて、より少ない運用データによりパラメータを学習でき、精度の良い適応モデルを効率的に得ることができる。つまり、少量の運用データであっても精度良く適応させることができる。また、短時間、低コストで適応が可能となる。
図5は、本実施の形態2にかかる情報処理装置300のハードウェア構成を示すブロック図である。情報処理装置300は、CPU301と、メモリ302と、IF部303と、記憶装置304とを少なくとも備える。記憶装置304は、上述した記憶部340に相当するハードディスク、フラッシュメモリ等の記憶装置である。記憶装置304は、図3で記載した条件A341、モデルA342、補正用モデル343、条件B344及びモデルB345に加え、図3では記載を省略したモデル適応プログラム346を記憶しているものとする。モデル適応プログラム346は、本実施の形態にかかるモデル適応方法の処理が実装されたコンピュータプログラムである。
メモリ302は、RAM(Random Access Memory)等の揮発性記憶装置であり、CPU301の動作時に一時的に情報を保持するための記憶領域である。IF部303は、情報処理装置300の外部との入出力を行うインタフェースである。例えば、IF部303は、キーボード、マウス、タッチパネル等の入力デバイス(不図示)を介して、ユーザの操作を受け付け、受け付けた操作内容をCPU301へ出力する。また、IF部303は、CPU301からの指示に応じて、タッチパネル、表示装置、プリンタ等(不図示)へ出力を行う。
CPU301は、情報処理装置300の各構成を制御するプロセッサつまり制御装置である。CPU301は、記憶装置304からモデル適応プログラム346をメモリ302へ読み込み、モデル適応プログラム346を実行する。これにより、CPU301は、逐次的報酬学習部310、モデル補正部320及び適応部330の機能を実現する。
図6は、本実施の形態2にかかるモデル適応方法の流れを示すフローチャートである。まず、逐次的報酬学習部310は、エキスパートデータセット110を用いた逐次的報酬学習により、モデルA342をシステムA100に適応させる(S21)。このとき、逐次的報酬学習部310は、モデルA342自体の生成を含めて行っても良い。そして、逐次的報酬学習部310は、適応済みのパラメータ値を設定したモデルA342を記憶部340に保存する。
次に、モデル補正部320は、モデルA342からOne-shot適応によりモデルB345を生成する(S22)。例えば、まず、モデル補正部320は、条件B344に基づき補正用モデル343を算出する。そして、モデル補正部320は、補正用モデル343をモデルA342に乗算したモデルB345を算出し、記憶部340に保存する。
例えば、モデル補正部320は、以下のようにしてモデルB345を算出してもよい。まず、モデルA342には、条件A341におけるシステムA100のポリシー関数πA(式9)と状態遷移確率pA(式10)とが含まれているものとする。
(式9)
(式10)
(式9)
(式10)
また、補正用モデル343は、状態s及び行動aを用いたパラメータ関数α(s、a)及びβ(s’、s、a)を含むものとする。
次に、モデル補正部320は、記憶部340から、モデルA342のうちポリシー関数πA及び状態遷移確率pA、並びに、補正用モデル343のうちパラメータ関数α及びβを読み出す。そして、モデル補正部320は、ポリシー関数πAにパラメータ関数αを乗じてポリシー関数πA’(式11)とし、状態遷移確率pAにパラメータ関数βを乗じて状態遷移確率pA’(式12)として算出する。
(式11)
(式12)
(式11)
(式12)
そして、モデル補正部320は、算出したポリシー関数πA’及び状態遷移確率pA’を含めてモデルB345として記憶部340に保存する。
ここで、ステップS22では、One-shot適応を行うものとする。例えば、条件A341に基づくパラメータ関数の分布と、条件B344に基づくパラメータ関数の分布とが事前に与えられる場合には、モデル補正部320は、これらに基づき補正用モデル343及びそのパラメータ値を算出してもよい。具体的には、条件B344に基づくシステムB200を運用した場合の運用データが少量存在する場合には、モデル補正部320は、当該運用データを用いて補正用モデル343及びそのパラメータ値を算出してもよい。つまり、モデル補正部320は、モデルA342に補正用モデル343を乗じたモデルB345について、少量の運用データを用いて学習することにより、モデルB345を生成してもよい。
尚、ステップS22では、上述したOne-shot適応の代わりに、Zero-shot適応又はFew-shot適応を用いても構わない。例えば、Zero-shot適応の場合、モデル補正部320は、パラメータ関数α(s、a)=β(s’、s、a)=1やβ(s’、s、a)=1と変化しない部分を仮定して追加データがゼロの状況でも、モデルA342に乗じて、システムB200に適応させる初期更新を行うことにより、モデルB345を生成する。
または、Few-shot適応の場合、モデル補正部320は、パラメータ関数α及びβをモデルA342に乗じたモデルB345を生成した上で、システムB200に数回適応させて、少量の運用データを取得する。その後、モデル補正部320は、取得した少量の運用データを用いて、モデルB345をシステムB200に適応させて、パラメータ値を更新することにより、モデルB345を生成する。そのため、One-shot適応、Zero-shot適応又はFew-shot適応をまとめてX-shot適応と呼び、本実施の形態にかかるモデル補正部320は、X-shot適応により、モデルB345を生成するものといえる。
続いて、適応部330は、モデルB345を用いてシステムB200を運用する(S23)。そして、適応部330は、ステップS23の運用により生じた運用データを運用データセット210として保存する(S24)。その後、適応部330は、運用データセット210を用いてモデルB345をシステムB200に適応させる(S25)。このとき、適応部330は、逐次的報酬学習部310と同様に逐次的報酬学習により、モデルB345のパラメータ値を調整(最適化)し、調整後のパラメータを設定したモデルB345を記憶部340に保存又は更新する。以降、適応部330は、システムB200の運用に応じて、適宜、モデルB345を適応させて更新する。
このように、本実施形態では、ステップS22において、補正用モデル343の初期パラメータを迅速に調整(又は設定)することができる。そして、モデルB345に対して、システムB200の運用中に適宜、実運用データを用いて学習することができる。よって、システムB200に適応したモデルB345をより迅速に提供することができる。
例えば、逐次的報酬学習部310を用いて、システムB200の適応モデルを生成するには、膨大な量のエキスパートデータセットが必要であり、その蓄積に長期間を要する。また、エキスパートデータセットを用いた適応モデルの学習には長時間を要する。さらに、逐次的報酬学習部310によりシステムA100向けに学習された適応モデルは、特定の環境及びエージェントを含む条件A341を前提としたものであり、環境又はエージェントが変更されることを想定していない。特に、条件A341のうち環境及びエージェントの両方が変更された場合には対応できない。そのため、条件A341と一部の環境又はエージェントが変更された条件B344、つまり、システムA100と類似するシステムB200には、モデルA342をそのまま流用することができない。システムB200にモデルA342をそのまま用いた場合、意図しない出力を返してしまうおそれがあるためである。
そこで、本実施の形態により、モデルA342に対して補正用モデル343を用いて補正したモデルB345を用いることで、システムB200に適応させたモデルを早期かつ、低費用で提供することができる。
また、本実施の形態により、生成されたモデルB345に対して、実運用中にモデルパラメータの自律的な更新を行うことができる。また、本実施の形態2は、複数のシステムB200に対して第2のモデルを生成しても良い。
<実施の形態3>
本実施の形態3は、上述した実施の形態1の具体例であり、上述した実施の形態2とは異なる態様の実施例である。本実施の形態3では、実施形態2と比べて、第1のモデルの全体を補正するのではなく、第1のモデルに含まれる評価基準(式)に対して補正を行うことで、より迅速に第2のモデルを生成するものである。また、本実施の形態3では、第1のモデルを複数の類似システムに展開する例について説明する。但し、本実施の形態3を類似システムが一つの場合に適用してもよい。
本実施の形態3は、上述した実施の形態1の具体例であり、上述した実施の形態2とは異なる態様の実施例である。本実施の形態3では、実施形態2と比べて、第1のモデルの全体を補正するのではなく、第1のモデルに含まれる評価基準(式)に対して補正を行うことで、より迅速に第2のモデルを生成するものである。また、本実施の形態3では、第1のモデルを複数の類似システムに展開する例について説明する。但し、本実施の形態3を類似システムが一つの場合に適用してもよい。
図7は、本実施の形態3にかかる情報処理システム1000aの全体構成を示すブロック図である。情報処理システム1000aは、情報処理システム1000と比べて情報処理装置300が情報処理装置300aに置き換わり、システムC200a及び運用データセット210a並びにシステムD200b及び運用データセット210bが追加されたものである。尚、図3と同等の構成には同一の符号を付し、適宜、説明を省略する。
システムC200a及びシステムD200bは、第3のシステムの一例であり、システムB200と同様、システムA100と類似するシステムである。尚、システムB200、システムC200a及びシステムD200bは、それぞれ、類似するシステムであるものとする。例えば、システムB200、システムC200a及びシステムD200bは、店舗システムである場合、環境の違いとして、店舗の所在地(周辺環境)が異なり、運営する店長(エージェント)が異なる場合に該当する。また、運用データセット210aはシステムC200aが運用された場合のデータの集合であり、運用データセット210bはシステムD200bが運用された場合のデータの集合である。
情報処理装置300aは、情報処理装置300との違いについて説明する。まず、記憶部340は、図3と比べて、補正用モデル343が補正用モデル343aに置き換わり、条件C344a、モデルC345a、条件D344b、モデルD345bをさらに記憶する。補正用モデル343aは、上述した補正用モデルの一例であり、本実施形態では、補正用パラメータの集合とする。但し、補正用モデル343aは、これに限定されない。条件C344aは、システムC200aが運用される際の対象環境101及びエージェント102の集合を示す情報である。条件D344bは、システムD200bが運用される際の対象環境101及びエージェント102の集合を示す情報である。尚、条件B344を第2の条件とした場合、条件C344a及び条件D344bの少なくともいずれか一方は、条件A341及び条件B344のいずれとも一部が異なる第3の条件と呼ぶことができる。
また、モデルC345aは、システムC200aに適応させる前又は後のパラメータ値を含むモデル式を示す情報群である。同様に、モデルD345bは、システムD200bに適応させる前又は後のパラメータ値を含むモデル式を示す情報群である。尚、モデルC345a及びモデルD345bは、適応前においては、適応前のモデルB345と同様のものを用いても良い。
モデル補正部320aは、上述したモデル補正部320に加えて、モデルA342に含まれるエージェント102の行動103を評価する評価基準に対して、補正用モデル343を用いて補正する。実施形態2と比べて補正対象が少ないため、処理時間を短縮でき、より早く第2のモデルを生成できる。さらに、モデル補正部320aは、評価基準のパラメータを補正する補正用パラメータを補正用モデル343として用いることにより、モデルB345(、モデルC345a及びモデルD345b)を生成する。このように、第1のシステム用に最適化されたパラメータ値に修正を加えることで、第1のモデルの修正量を少なくし、既存の第1のモデルを有効活用できる。
適応部330aは、適応部330と同様にモデルB345をシステムB200に適応させる。さらに、適応部330aは、システムC200aにモデルC345aを用いて運用して得られた運用データセット210aを取得し、取得した運用データセット210aを用いてモデルC345aをシステムC200aに適応させる。また、適応部330aは、システムD200bにモデルD345bを用いて運用して得られた運用データセット210bを取得し、取得した運用データセット210bを用いてモデルD345bをシステムD200bに適応させる。
図8は、本実施の形態3にかかるモデル適応方法の流れを示すフローチャートである。まず、逐次的報酬学習部310は、図6と同様に、エキスパートデータセット110を用いた逐次的報酬学習により、モデルA342をシステムA100に適応させる(S21)。次に、モデル補正部320aは、モデルA342から評価基準式を抽出する(S22a)。例えば、モデルA342には、式9に示したポリシー関数πAと、式10に示した状態遷移確率pAとが含まれているものとする。この場合、モデル補正部320aは、ポリシー関数πAから評価基準式として報酬関数rA(s、a)を抽出し、状態遷移確率pAから物理方程式hA(s、a)を抽出する。
そして、モデル補正部320aは、評価基準式のパラメータ部分を補正用モデル343aを用いて補正してモデルB345、モデルC345a及びモデルD345bを生成する(S22b)。そして、モデル補正部320aは、生成したモデルB345、モデルC345a及びモデルD345bを記憶部340に保存する。ここで、補正用モデル343aは、条件B344、条件C344a及び条件D344bに基づいて予め生成されたものである。
より具体的には、モデルA342の評価基準式の一つである報酬関数rA(s、a)が以下の式15である場合、補正用パラメータδrA’が加算された報酬関数rA’(s、a)は、以下の式16のように算出できる。
(式15)
(式16)
(式15)
(式16)
つまり、補正後の報酬関数rA’(s、a)は、補正前の報酬関数rA(s、a)内の各状態si及び行動aiについて、補正用パラメータが加算されていることを示す。
同様に、モデルA342の評価基準式の一つである物理方程式hA(s、a)が以下の式17である場合、補正用パラメータδhA’が加算された物理方程式hA’(s、a)は、以下の式18のように算出できる。
(式17)
(式18)
(式17)
(式18)
そして、モデル補正部320aは、上記のように補正した評価基準式をモデルA342に含めてモデルB345等を生成する。ここで、補正用パラメータδrA’及びδhA’がシステムB200、システムC200a及びシステムD200bの間で共通であれば、モデルB345、モデルC345a及びモデルD345bは、この段階では同じであっても構わない。
その後、適応部330aは、モデルB345を用いてシステムB200を運用する(S23)。そして、適応部330は、ステップS23の運用により生じた運用データを運用データセット210として保存する(S24)。その後、適応部330は、運用データセット210を用いてモデルB345をシステムB200に適応させる(S25)。このとき、適応部330は、逐次的報酬学習部310と同様に逐次的報酬学習により、モデルB345のパラメータ値を調整(最適化)し、調整後のパラメータを設定したモデルB345を記憶部340に保存又は更新する。
ステップS23からS25と並行して、適応部330aは、モデルC345aを用いてシステムC200aを運用する(S23a)。そして、適応部330aは、ステップS23aの運用により生じた運用データを運用データセット210aとして保存する(S24a)。その後、適応部330aは、運用データセット210aを用いてモデルC345aをシステムC200aに適応させる(S25a)。このとき、適応部330aは、逐次的報酬学習部310と同様に逐次的報酬学習により、モデルC345aのパラメータ値を調整(最適化)し、調整後のパラメータを設定したモデルC345aを記憶部340に保存又は更新する。
ステップS23からS25並びにステップS23aからS25aと並行して、適応部330aは、モデルD345bを用いてシステムD200bを運用する(S23b)。そして、適応部330aは、ステップS23bの運用により生じた運用データを運用データセット210bとして保存する(S24b)。その後、適応部330aは、運用データセット210bを用いてモデルD345bをシステムD200bに適応させる(S25b)。このとき、適応部330aは、逐次的報酬学習部310と同様に逐次的報酬学習により、モデルD345bのパラメータ値を調整(最適化)し、調整後のパラメータを設定したモデルD345bを記憶部340に保存又は更新する。
このように本実施の形態3では、第1のモデルの全体を補正するのではなく、第1のモデルに含まれる評価基準(式)に対して補正を行うことで、より迅速に第2のモデルを生成することができる。また、第1のモデルに含まれる適応済のパラメータ値に補正を加えるため、修正量を最小限に抑えつつ、高精度に適応させることができる。また、第2のモデルを適応させる際には、少量の運用データで学習が可能であるため、例えば、システムの移行直後や運用開始直後などに得られた少量の運用データから高精度かつ高速に適応(モデルパラメータの更新)が可能となる。
尚、上述した補正用モデル343aは、システムB200、システムC200a及びシステムD200bのそれぞれに対応した複数の補正用モデルであってもよい。また、補正用モデル343aは、ランダムな値であっても良く、又は、システムB200、システムC200a及びシステムD200bのそれぞれに対応したモデルの確率分布に基づく値であってもよい。
その場合、モデル補正部320a(生成部)は、モデルA342(第1のモデル)に対して、条件B344(第2の条件)に応じた第1の補正用モデルを用いて補正することによりモデルB345(第2のモデル)を生成する。そして、モデル補正部320aは、モデルA342に対して、条件A341及び条件B344のいずれとも一部が異なる条件C344a(第3の条件)に応じた第2の補正用モデルを用いて補正することによりモデルC345a(第3のモデル)を生成する。また、モデル補正部320aは、モデルA342に対して、条件A341、条件B344及び条件C344aのいずれとも一部が異なる条件D344bに応じた補正用モデルを用いて補正することによりモデルD345bを生成する。その後、適応部330aは、システムB200(第2のシステム)に、モデルB345を適応させ、システムC200a(第3のシステム)に、モデルC345aを適応させ、システムD200bにモデルD345bを適応させる。
<実施の形態4>
本実施の形態4は、上述した実施の形態3の改良例である。本実施の形態4において、前記生成部は、前記第1の条件と一部が異なる第4の条件に基づき運用される第4のシステムに適応させた第4のモデルに対して前記補正用モデルを用いて補正した第4のモデルを生成する。そして、前記適応部は、前記第4の条件に基づき運用される第4のシステムに、前記第4のモデルを適応させる。そして、前記情報処理装置は、前記適応部により適応させた前記第2のモデルと前記第4のモデルとの比較結果を出力する出力部をさらに備える。
本実施の形態4は、上述した実施の形態3の改良例である。本実施の形態4において、前記生成部は、前記第1の条件と一部が異なる第4の条件に基づき運用される第4のシステムに適応させた第4のモデルに対して前記補正用モデルを用いて補正した第4のモデルを生成する。そして、前記適応部は、前記第4の条件に基づき運用される第4のシステムに、前記第4のモデルを適応させる。そして、前記情報処理装置は、前記適応部により適応させた前記第2のモデルと前記第4のモデルとの比較結果を出力する出力部をさらに備える。
図9は、本実施の形態4にかかる情報処理システム1000bの全体構成を示すブロック図である。情報処理システム1000bは、情報処理システム1000aと比べて情報処理装置300aが情報処理装置300bに置き換わったものである。そして、情報処理装置300bは、情報処理装置300aと比べて、比較・出力部350が追加されたものである。比較・出力部350は、適応部330aにより適応済みのモデルB345、モデルC345a及びモデルD345bのそれぞれの比較を行ない、比較結果を出力する。ここで、比較結果には、モデルを構成する行動又は状態の差異、対応する行動又は状態におけるパラメータ値の違い、条件の違い等を示す情報が含まれる。また、モデル補正部320aは、実施形態2と同様に、X-shot適応を行っても良い。また、比較・出力部350は、モデルA342(第1のモデル)と他のモデルとの比較を行い、その比較結果を出力してもよい。尚、図7と同等の構成には同一の符号を付し、適宜、説明を省略する。
図10は、本実施の形態4にかかるモデル比較処理の流れを示すフローチャートである。モデル比較処理は、上述した図8のモデル適応方法の後に実行されるものである。まず、比較・出力部350は、記憶部340からモデルB345、モデルC345a及びモデルD345bを読み出す(S51)。次に、比較・出力部350は、ステップS52、S53及びS54を任意の順序で、又は、適宜、並行して処理する。
ステップS52において、比較・出力部350は、モデルB345とモデルC345aを比較し、比較結果を求める。ステップS53において、比較・出力部350は、モデルC345aとモデルD345bを比較し、比較結果を求める。ステップS54において、比較・出力部350は、モデルD345bとモデルB345を比較し、比較結果を求める。
ステップS52からS54の後、比較・出力部350は、各比較結果を集約して(又は個別に)出力する(S55)。例えば、比較・出力部350は、情報処理装置300bの画面(不図示)に各比較結果を表示してもよい。または、比較・出力部350は、記憶部340に各比較結果を保存してもよい。または、比較・出力部350は、(ネットワークを介して)外部の記憶装置、コンピュータ、又は、表示装置へ各比較結果を出力してもよい。
本実施の形態により、互いに条件の一部が異なるものの、類似するシステムB200、システムC200a、システムD200bとの間のシステムのメカニズム(例えば、物理方程式)や運用の意図(報酬関数)を明示的に比較することができる。さらに、生成された評価基準式を用いて、各システムに共通する普遍的な挙動、運用方法の改善、アンサンブルによる精度向上が可能となる。さらに、比較対象として第1のモデル(モデルA342)を加えることで、システムA100を含めた分析が可能となる。
<実施の形態5>
本実施の形態5は、上述した実施の形態3又は4の応用例である。本実施の形態5は、自動運転システムに適用する場合である。一般に、生活道路における運転には、安全に対する基準が明確とはいえない。そこで、本実施の形態5は、生活道路における人間の運転履歴から自動車の運転動作を自律的に学習し、生活道路における自動運転を安全に実現することを目指すものである。以下では、特に、車線変更を対象とするものとする。
本実施の形態5は、上述した実施の形態3又は4の応用例である。本実施の形態5は、自動運転システムに適用する場合である。一般に、生活道路における運転には、安全に対する基準が明確とはいえない。そこで、本実施の形態5は、生活道路における人間の運転履歴から自動車の運転動作を自律的に学習し、生活道路における自動運転を安全に実現することを目指すものである。以下では、特に、車線変更を対象とするものとする。
図11は、自動車の運転における車線変更の例を説明するための図である。ケースh1-1は、運転車両C11の前方(同じ車線上)に車両V11が存在する(例えば、駐停車又は走行している)場合に、運転車両C11が前方の車両V11に接触することなく、安全に隣の車線に移動したことを示す。このとき、運転車両C11を運転する運転者は、前方の車両V11を避けるべく、運転車両C11を隣の車線に移動するようにハンドル操作を行い、必要に応じてアクセス及びブレーキも操作したものとする。そして、当該運転者によるこれら運転操作は、エージェント102の行動103である。また、対象環境101(運転環境)は、運転車両の種類(トラック、普通自動車等)及びサイズ、周辺車両の情報(数、位置関係、車種及びサイズ等)、交通量、時間帯及び天気(明るさ)、道路の情報(車線数、車幅、信号、カーブ)等である。例えば、ケースh1-1では、運転車両C11の走行車線が左側であること、車両V11が同じ車線の前方に存在していること、車両V11と運転車両C11との距離、車線数、道路の傾斜やカーブの角度等は、対象環境101における状態104といえる。よって、ケースh1-1における行動103及び状態104が運用データとなる。また、ケースh1-1では、事故が起きていないため、運転車両C11の運転者を熟練者とみなし、ケースh1-1における運用データをエキスパートデータとすることができる。
また、ケースh1-2は、運転車両C12の前方(同じ車線上)に車両V12が存在すると共に、運転車両C12の真横(隣の車線)に車両V13が存在している場合を示す。このとき、運転車両C12は真横の車両V13に接触せずに車線変更したが、前方の車両V12に接触してしまったことを示す。このときの運用データ(ハンドル操作等と、車両V13の存在等)は、ケースh1-1の場合の運用データとは異なる。また、ケースh1-2では、事故が起きてしまったため、運転車両C12の運転者をエキスパートから除外し、ケースh1-2における運用データをエキスパートデータとはしない。
つまり、安全な車線変更を行うには、熟練者による運転操作(行動)が重要である。一方で、安全に車線変更できるか否かには、運転環境の影響も大きいといえる。そのため、エキスパートデータとして、熟練者の運転操作とその時の環境情報とをセットにすることが重要である。そして、車線変更のエキスパートデータを蓄積し、これらを用いて逐次的報酬学習部310により逐次的報酬学習することで、適応済みの第1のモデルを生成することができる。また、ある道路(運転者及び環境)における車線変更の適応済み第1のモデルが生成された場合、モデル補正部320a等により、第1のモデルに対して補正用モデルにより補正して第2のモデルを生成できる。そして、適応部330a等は、第2のモデルを他の条件(運転者及び環境(場所等))における道路の車線変更操作に適応させることで、様々な道路における安全な車線変更モデルを生成できる。
図12は、本実施の形態5にかかる運転技術のモデル生成の概念を説明するための図である。ケースh2-1は、運転車両C21の前方には他の車両が存在しないが、隣の車線上に車両V21が存在する場合を示す。そして、このとき、運転車両C21は、車線変更して車両V21の後方に安全に近付いたことを示す。ケースh2-2は、運転車両C22の前方に車両V22が存在し、運転車両C22の真横に車両V23が存在し、かつ、車両V23の前方には他の車両が存在しない場合を示す。そして、このとき、運転車両C22は、前方の車両V22及び真横の車両V23に接触することなく、安全に隣の車線に移動したことを示す。ケースh2-3は、運転車両C23の前方の両車線に車両V24及びV25が存在し、運転車両C23の真横に車両V26が存在する場合を示す。そして、このとき、運転車両C23は、真横の車両V26に接触することなく車線変更して車両V24の後方に安全に近付いたことを示す。ケースh2-4は、運転車両C24の前方の両車線に車両V27及びV28が存在する場合を示す。そして、このとき、運転車両C24は、車線変更して車両V28の後方に安全に近付いたことを示す。つまり、ケースh2-1からh2-4における運用データは、エキスパートデータの一例といえる。そして、逐次的報酬学習部310、モデル補正部320a及び適応部330a等は、これらのエキスパートデータから適宜、自律的に学習することで、様々な道路で利用可能な車線変更モデルを生成できる。
図13は、本実施の形態5にかかるモデルを他の道路へ適用した場合の概念を説明するための図である。ケースh3-1は、運転車両C31の前方(同じ車線上)に車両V31が存在する場合において、適応部330a等により適応済みの車線変更モデルを用いて自動運転し、車線変更した経過を示す。また、ケースh3-2は、運転車両C32の前方(同じ車線上)に車両V32が存在し、かつ、運転車両C32の真横に車両V33が存在する場合において、適応部330a等により適応済みの車線変更モデルを用いて自動運転し、車線変更した経過を示す。ケースh3-1及びh3-2では、いずれも安全に車線変更できたことを示す。
さらに、本実施の形態4にかかるモデル比較処理を適用することで、汎用的な車線変更モデルの特徴を抽出することもできる。例えば、本実施の形態5により生成された複数の車線変更モデルの比較結果から、「車間距離がxメールになった時、速度を1/3に落とし、y度の角度でハンドルを切る」などといった安全な車線変更のための環境(条件)及び運転操作(行動)を導出できる。そのため、生活道路における安全基準として、例えば、乗車人数が無関係であること、等も導くことができる。
<実施の形態6>
本実施の形態6は、上述した実施の形態3又は4の他の応用例である。本実施の形態6は、自動販売機のフェイスデータに適用する場合である。フェイスデータとは、例えば、飲料の自動販売機において、販売対象の飲料のサンブルの配置(段の位置や並び順)やラベル内容を示す情報である。ここで、自動販売機における売り上げの傾向は、設置場所の周辺環境、客層に加えて、フェイスデータの影響が大きいことが知られている。例えば、環境情報としては、ある自動販売機の隣に設置された他の自動販売機で取り扱う飲料の種類や数、その自動販売機が自社又は他社のものかが挙げられる。また、別の環境情報としては、近隣にコンビニエンスストアがあるか否か、設置場所が住宅地(マンション又は戸建)か商業地区、ビル内であれば階数とその階のオフィスの部署が挙げられる。一方で、自動販売機ごとに採用されるフェイスデータのパターンは、現場のルートマン(飲料の配達及び補充員)の経験に基づき、環境情報を加味した判断に一任されていることがほとんどである。そのため、自動販売機の売上は、ルートマンの熟練度(どのようなフェイスデータを採用するか)に依存することも知られている。
本実施の形態6は、上述した実施の形態3又は4の他の応用例である。本実施の形態6は、自動販売機のフェイスデータに適用する場合である。フェイスデータとは、例えば、飲料の自動販売機において、販売対象の飲料のサンブルの配置(段の位置や並び順)やラベル内容を示す情報である。ここで、自動販売機における売り上げの傾向は、設置場所の周辺環境、客層に加えて、フェイスデータの影響が大きいことが知られている。例えば、環境情報としては、ある自動販売機の隣に設置された他の自動販売機で取り扱う飲料の種類や数、その自動販売機が自社又は他社のものかが挙げられる。また、別の環境情報としては、近隣にコンビニエンスストアがあるか否か、設置場所が住宅地(マンション又は戸建)か商業地区、ビル内であれば階数とその階のオフィスの部署が挙げられる。一方で、自動販売機ごとに採用されるフェイスデータのパターンは、現場のルートマン(飲料の配達及び補充員)の経験に基づき、環境情報を加味した判断に一任されていることがほとんどである。そのため、自動販売機の売上は、ルートマンの熟練度(どのようなフェイスデータを採用するか)に依存することも知られている。
ここで、自動販売機で取り扱う物品(飲料等)の種類やその比率(本数)は、コラム構成と呼ばれ、販売会社において事前に決定されていることが一般的である。コラム構成は、主要な取扱い飲料のグループをカテゴリとして呼ばれることもある。図14は、自動販売機のカテゴリごとのフェイスデータ群の概念を説明するための図である。例えば、フェイスデータ群F1は、コーヒーを中心に販売するコーヒー型のカテゴリにおけるフェイスデータの集合である。フェイスデータ群F2は、炭酸飲料を中心に販売する炭酸型のカテゴリにおけるフェイスデータの集合である。フェイスデータ群F3は、お茶を中心に販売するお茶型のカテゴリにおけるフェイスデータの集合である。
ここで、自動販売機ごとのフェイスデータ及び環境情報を全て(大量に)取得して、ディープラーニングにより環境ごとのフェイスデータを導出するモデルを生成することも考えられる。しかしながら、自動販売機ごとのフェイスデータ及び環境情報は、現状、ほとんど電子化されていないため、全ての自動販売機のフェイスデータを取得することはルートマンの負担が大きく、実現が困難である。一方で、自動販売機ごとの売上情報は、飲料ごとの売上本数又は売上金額が所定の期間ごとに正確に記録されている。そして、期間は、ルートマンが配達及び補充するタイミングと関連し、フェイスデータの変更との関連も明確である。
そこで、売上の高い自動販売機を担当しているルートマンを熟練者とし、熟練者が採用したフェイスデータを「行動」とし、適用された自動販売機(対象環境)における「状態」との組をエキスパートデータとすることが考えられる。ここで、状態としては、上述した環境情報、客層、フェイスデータの適用期間及び適用期間における売上情報等が含まれる。このように、熟練したルートマンが採用したフェイスデータに限定するため、フェイスデータの取得及び電子化の負担は相対的に低いといえる。
図15は、本実施の形態6にかかる自動販売機のフェイスデータのモデル生成の概念を説明するための図である。ここでは、フェイスデータ群F1、F2、F3及びF4は、エキスパートが採用したものとし、電子化されたデータであるものとする。尚、フェイスデータ群F4は、機能性型のカテゴリの自動販売機におけるフェイスデータの集合である。フェイスデータ群F1~F4は、例えば、自動販売機の正面(販売物品のサンプル及びラベル)を撮影した撮影画像であるか、販売対象の飲料のサンブルの配置(段の位置や並び順)やラベル内容をテキスト化したものとする。また、フェイスデータ群F1~F4に対応する環境情報もエキスパートから聴取した上で電子化(テキスト化)されたものとする。そして、これらのフェイスデータ並びに環境情報及び売上情報等のエキスパートデータを用いて逐次的報酬学習部310により逐次的報酬学習することで、適応済みの第1のモデルを生成することができる。さらに、モデル補正部320a等により、第1のモデルに対して補正用モデルにより補正して、第2のモデルを生成できる。そして、適応部330a等は、第2のモデルを、一部の条件が異なる自動販売機に適応させることで、当該条件における最適なフェイスデータを提案できる。例えば、ある設置場所における自動販売機では、これまでとは異なるカテゴリのフェイスデータが提案される可能性もある。
図16は、本実施の形態6にかかるモデルを異なる条件の複数の自動販売機へ適用した場合に提案されたフェイスデータの例を説明するための図である。例えば、フェイスデータF5は、コーヒー型のカテゴリにおける最適なフェイスデータの例である。また、フェイスデータF6は、炭酸型のカテゴリにおける最適なフェイスデータの例である。また、フェイスデータF7は、お茶型のカテゴリにおける最適なフェイスデータの例である。
このように、本実施の形態により、適応済みのモデルを用いて環境情報に応じて最適なフェイスデータを提案することができる。また、販売会社に対して、自動販売機の環境情報に基づいて、コラム構成とフェイス構成の最適なセットを提案(販売)することもできる。
<実施の形態7>
本実施の形態7は、上述した実施の形態3又は4の他の応用例である。本実施の形態7は、水道インフラストラクチャ(以下、水道インフラと記す。)に適用する場合である。水道インフラは、時間の経過や環境の変化に応じて見直すことが望まれる。例えば、水道インフラにおいて、人口減少や節水効果による水需要の減少や、施設や管路の老朽化に伴う更新コストを考慮した場合、水道インフラのダウンサイジングが必要になることもある。
本実施の形態7は、上述した実施の形態3又は4の他の応用例である。本実施の形態7は、水道インフラストラクチャ(以下、水道インフラと記す。)に適用する場合である。水道インフラは、時間の経過や環境の変化に応じて見直すことが望まれる。例えば、水道インフラにおいて、人口減少や節水効果による水需要の減少や、施設や管路の老朽化に伴う更新コストを考慮した場合、水道インフラのダウンサイジングが必要になることもある。
例えば、水道インフラの事業経営の効率化に向けた設備整備計画を立案するためには、将来の水需要減少や設備の更新時期などを考慮しながら、施設能力の適正化や施設の統廃合を実施する必要がある。具体的には、水需要が減少している場合には、過剰に水を供給する施設のポンプを入れ替えることで水の量を減少するようにダウンサイジングすることが考えられる。他にも、配水施設そのものを廃止するとともに、別の配水施設からの管路を追加して他の区域と統合(共有化)することも考えられる。このようなダウンサイジングを行うことで、コスト削減や効率化が期待できるからである。
また、異なる地域(自治体)の間で水道インフラには、共通点が多い。そのため、ある地域の水道インフラにおいて生成及び適応されたモデル(及びパラメータ)は、他の地域の水道インフラに適用することが効果的といえる。
ここで、水道インフラをシステムとして捉えた場合、対象環境、状態、エージェント、行動は、次のものがいえる。まず、対象環境は、水道インフラの状態(例えば、配水ネットワーク、ポンプの能力、配水管の状態など)の集合として表される。状態は、各拠点の電圧、水位、圧力、水量など、運用者が明示的に操作できないネットワークのダイナミクスを記述する変数で表される。また、エージェントは、意思決定に基づき行動を行う運用者や、外部システムに対応する。そして、エージェントが行うべき行動は、配水ネットワーク上の需要エリアに、過不足なく水を供給する必要がある。そこで、行動は、バルブの開閉、水の引き入れ、ポンプの閾値など、運用ルールに基づいて制御できる変数で表わされる。
図17は、本実施の形態7にかかる地域における水道インフラの水道モデルを他の水道局へ適用する場合の概念を説明するための図である。水道インフラW1は、ある地域の水道局の水道インフラである。そして、水道インフラW1における熟練した職員によるオペレーションとその際の環境の状態とがエキスパートデータといえる。そこで、当該エキスパートデータを蓄積し、これらを用いて逐次的報酬学習部310により逐次的報酬学習することで、適応済みの第1のモデルを生成することができる。そして、モデル補正部320a等により、第1のモデルに対して補正用モデルにより補正して第2のモデルを生成できる。
ここで、水道インフラW2からW5は、水道インフラW1とは異なる地域又は将来のダウンサイジング対象の条件であるものとする。そこで、適応部330a等は、第2のモデルを水道インフラW2からW5に適応させることで、様々な地域又は条件における精度の高い制御を実現できる。
ここで、水道インフラW2からW5は、水道インフラW1とは異なる地域又は将来のダウンサイジング対象の条件であるものとする。そこで、適応部330a等は、第2のモデルを水道インフラW2からW5に適応させることで、様々な地域又は条件における精度の高い制御を実現できる。
<その他の実施の形態>
尚、上述した本実施の各形態は転移学習の一種ということができる。
尚、上述した本実施の各形態は転移学習の一種ということができる。
なお、上記実施の形態において、様々な処理を行う機能ブロックとして図面に記載される各要素は、ハードウェア的には、CPU(Central Processing Unit)、メモリ、その他の回路で構成することができ、ソフトウェア的には、CPUがメモリにロードして実行するプログラム等によって実現される。したがって、これらの機能ブロックがハードウェアのみ、ソフトウェアのみ、又はそれらの組合せによっていろいろな形で実現できることは当業者には理解されるところであり、いずれかに限定されるものではない。
また、上記のプログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば光磁気ディスク)、CD-ROM(Compact Disc-Read Only Memory)、CD-R(CD-Recordable)、CD-R/W(CD-ReWritable)、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(Random Access Memory))を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されても良い。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。
なお、本開示は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。また、本開示は、それぞれの実施の形態を適宜組み合わせて実施されてもよい。
上記の実施形態の一部又は全部は、以下の付記のようにも記載され得るが、以下には限られない。
(付記1)
特定の環境及びエージェントを含む第1の条件に基づき運用される第1のシステムに適応させた第1のモデルに対して補正用モデルを用いて補正した第2のモデルを生成する生成部と、
前記第1の条件と一部が異なる第2の条件に基づき運用される第2のシステムに、前記第2のモデルを適応させる適応部と、
を備える情報処理装置。
(付記2)
前記適応部は、
前記第2のシステムに前記第2のモデルを用いて運用して得られた運用データを取得し、
前記取得した運用データを用いて前記第2のモデルを前記第2のシステムに適応させる
付記1に記載の情報処理装置。
(付記3)
前記生成部は、
前記第1のモデルに含まれる前記エージェントの行動を評価する評価基準に対して、前記補正用モデルを用いて補正する
付記1又は2に記載の情報処理装置。
(付記4)
前記生成部は、
前記評価基準のパラメータを補正する補正用パラメータを前記補正用モデルとして用いることにより、前記第2のモデルを生成する
付記3に記載の情報処理装置。
(付記5)
前記生成部は、
前記第2のシステムにおける運用データを用いて前記補正用モデルを算出し、
当該算出した補正用モデルを用いて、前記第1のモデルに対して補正を行うことにより前記第2のモデルを生成する
付記1又は2に記載の情報処理装置。
(付記6)
前記適応部は、
前記第1の条件及び前記第2の条件のいずれとも一部が異なる第3の条件に基づき運用される第3のシステムに、前記第2のモデルを適応させる
付記1乃至5のいずれか1項に記載の情報処理装置。
(付記7)
前記生成部は、
前記第1のモデルに対して、前記第2の条件に応じた第1の補正用モデルを用いて補正することにより前記第2のモデルを生成し、
前記第1のモデルに対して、前記第1の条件及び前記第2の条件のいずれとも一部が異なる第3の条件に応じた第2の補正用モデルを用いて補正することにより第3のモデルを生成し、
前記適応部は、
前記第3の条件に基づき運用される第3のシステムに、前記第3のモデルを適応させる
付記1乃至5のいずれか1項に記載の情報処理装置。
(付記8)
前記生成部は、
前記第1の条件と一部が異なる第4の条件に基づき運用される第4のシステムに適応させた第4のモデルに対して前記補正用モデルを用いて補正した第4のモデルを生成し、
前記適応部は、
前記第4の条件に基づき運用される第4のシステムに、前記第4のモデルを適応させ、
前記情報処理装置は、
前記適応部により適応させた前記第2のモデルと前記第4のモデルとの比較結果を出力する出力部をさらに備える
付記1乃至5のいずれか1項に記載の情報処理装置。
(付記9)
前記第1のモデルは、
前記特定の環境の状態を示す状態ベクトルと当該状態ベクトルで表される状態において前記特定のエージェントが行う行動とを対応付けた行動データを用いた逐次的報酬学習により生成されたポリシー関数及び報酬関数を含み、
前記報酬関数は、前記状態ベクトルの入力に対して、当該状態ベクトルで表される状態において得られる報酬を出力し、
前記ポリシー関数は、前記状態ベクトルを入力した際の前記報酬関数の出力値を入力として、当該状態ベクトルで表される状態において前記特定のエージェントが行うべき行動を出力する
付記1乃至8のいずれか1項に記載の情報処理装置。
(付記10)
前記第1のモデルは、
前記報酬関数に対応付けられた物理方程式、及び前記ポリシー関数に対応付けられ、所定の前記状態の確率分布を表すボルツマン分布に従う状態遷移確率をさらに含む、
付記9に記載の情報処理装置。
(付記11)
特定の環境及びエージェントを含む第1の条件に基づき運用される第1のシステムに適応させた第1のモデルと、所定の補正用モデルとを記憶する記憶部と、
前記第1のモデルに対して前記補正用モデルを用いて補正した第2のモデルを生成する生成部と、
前記第1の条件と一部が異なる第2の条件に基づき運用される第2のシステムに、前記第2のモデルを適応させる適応部と、
を備える情報処理システム。
(付記12)
前記適応部は、
前記第2のシステムに前記第2のモデルを用いて運用して得られた運用データを取得し、
前記取得した運用データを用いて前記第2のモデルを前記第2のシステムに適応させる
付記11に記載の情報処理システム。
(付記13)
コンピュータが、
特定の環境及びエージェントを含む第1の条件に基づき運用される第1のシステムに適応させた第1のモデルに対して補正用モデルを用いて補正した第2のモデルを生成し、
前記第1の条件と一部が異なる第2の条件に基づき運用される第2のシステムに、前記第2のモデルを適応させる
モデル適応方法。
(付記14)
特定の環境及びエージェントを含む第1の条件に基づき運用される第1のシステムに適応させた第1のモデルに対して補正用モデルを用いて補正した第2のモデルを生成する処理と、
前記第1の条件と一部が異なる第2の条件に基づき運用される第2のシステムに、前記第2のモデルを適応させる処理と、
をコンピュータに実行させるモデル適応プログラムが格納された非一時的なコンピュータ可読媒体。
(付記1)
特定の環境及びエージェントを含む第1の条件に基づき運用される第1のシステムに適応させた第1のモデルに対して補正用モデルを用いて補正した第2のモデルを生成する生成部と、
前記第1の条件と一部が異なる第2の条件に基づき運用される第2のシステムに、前記第2のモデルを適応させる適応部と、
を備える情報処理装置。
(付記2)
前記適応部は、
前記第2のシステムに前記第2のモデルを用いて運用して得られた運用データを取得し、
前記取得した運用データを用いて前記第2のモデルを前記第2のシステムに適応させる
付記1に記載の情報処理装置。
(付記3)
前記生成部は、
前記第1のモデルに含まれる前記エージェントの行動を評価する評価基準に対して、前記補正用モデルを用いて補正する
付記1又は2に記載の情報処理装置。
(付記4)
前記生成部は、
前記評価基準のパラメータを補正する補正用パラメータを前記補正用モデルとして用いることにより、前記第2のモデルを生成する
付記3に記載の情報処理装置。
(付記5)
前記生成部は、
前記第2のシステムにおける運用データを用いて前記補正用モデルを算出し、
当該算出した補正用モデルを用いて、前記第1のモデルに対して補正を行うことにより前記第2のモデルを生成する
付記1又は2に記載の情報処理装置。
(付記6)
前記適応部は、
前記第1の条件及び前記第2の条件のいずれとも一部が異なる第3の条件に基づき運用される第3のシステムに、前記第2のモデルを適応させる
付記1乃至5のいずれか1項に記載の情報処理装置。
(付記7)
前記生成部は、
前記第1のモデルに対して、前記第2の条件に応じた第1の補正用モデルを用いて補正することにより前記第2のモデルを生成し、
前記第1のモデルに対して、前記第1の条件及び前記第2の条件のいずれとも一部が異なる第3の条件に応じた第2の補正用モデルを用いて補正することにより第3のモデルを生成し、
前記適応部は、
前記第3の条件に基づき運用される第3のシステムに、前記第3のモデルを適応させる
付記1乃至5のいずれか1項に記載の情報処理装置。
(付記8)
前記生成部は、
前記第1の条件と一部が異なる第4の条件に基づき運用される第4のシステムに適応させた第4のモデルに対して前記補正用モデルを用いて補正した第4のモデルを生成し、
前記適応部は、
前記第4の条件に基づき運用される第4のシステムに、前記第4のモデルを適応させ、
前記情報処理装置は、
前記適応部により適応させた前記第2のモデルと前記第4のモデルとの比較結果を出力する出力部をさらに備える
付記1乃至5のいずれか1項に記載の情報処理装置。
(付記9)
前記第1のモデルは、
前記特定の環境の状態を示す状態ベクトルと当該状態ベクトルで表される状態において前記特定のエージェントが行う行動とを対応付けた行動データを用いた逐次的報酬学習により生成されたポリシー関数及び報酬関数を含み、
前記報酬関数は、前記状態ベクトルの入力に対して、当該状態ベクトルで表される状態において得られる報酬を出力し、
前記ポリシー関数は、前記状態ベクトルを入力した際の前記報酬関数の出力値を入力として、当該状態ベクトルで表される状態において前記特定のエージェントが行うべき行動を出力する
付記1乃至8のいずれか1項に記載の情報処理装置。
(付記10)
前記第1のモデルは、
前記報酬関数に対応付けられた物理方程式、及び前記ポリシー関数に対応付けられ、所定の前記状態の確率分布を表すボルツマン分布に従う状態遷移確率をさらに含む、
付記9に記載の情報処理装置。
(付記11)
特定の環境及びエージェントを含む第1の条件に基づき運用される第1のシステムに適応させた第1のモデルと、所定の補正用モデルとを記憶する記憶部と、
前記第1のモデルに対して前記補正用モデルを用いて補正した第2のモデルを生成する生成部と、
前記第1の条件と一部が異なる第2の条件に基づき運用される第2のシステムに、前記第2のモデルを適応させる適応部と、
を備える情報処理システム。
(付記12)
前記適応部は、
前記第2のシステムに前記第2のモデルを用いて運用して得られた運用データを取得し、
前記取得した運用データを用いて前記第2のモデルを前記第2のシステムに適応させる
付記11に記載の情報処理システム。
(付記13)
コンピュータが、
特定の環境及びエージェントを含む第1の条件に基づき運用される第1のシステムに適応させた第1のモデルに対して補正用モデルを用いて補正した第2のモデルを生成し、
前記第1の条件と一部が異なる第2の条件に基づき運用される第2のシステムに、前記第2のモデルを適応させる
モデル適応方法。
(付記14)
特定の環境及びエージェントを含む第1の条件に基づき運用される第1のシステムに適応させた第1のモデルに対して補正用モデルを用いて補正した第2のモデルを生成する処理と、
前記第1の条件と一部が異なる第2の条件に基づき運用される第2のシステムに、前記第2のモデルを適応させる処理と、
をコンピュータに実行させるモデル適応プログラムが格納された非一時的なコンピュータ可読媒体。
1 情報処理装置
11 生成部
12 適応部
1000 情報処理システム
1000a 情報処理システム
1000b 情報処理システム
100 システムA
101 対象環境
102 エージェント
103 行動
104 状態
105 報酬関数
110 エキスパートデータセット
200 システムB
210 運用データセット
200a システムC
210a 運用データセット
200b システムD
210b 運用データセット
300 情報処理装置
300a 情報処理装置
300b 情報処理装置
301 CPU
302 メモリ
303 IF部
304 記憶装置
310 逐次的報酬学習部
320 モデル補正部
320a モデル補正部
330 適応部
330a 適応部
340 記憶部
341 条件A
342 モデルA
343 補正用モデル
343a 補正用モデル
344 条件B
345 モデルB
344a 条件C
345a モデルC
344b 条件D
345b モデルD
346 モデル適応プログラム
350 比較・出力部
C11 運転車両
C12 運転車両
C21 運転車両
C22 運転車両
C23 運転車両
C24 運転車両
C31 運転車両
C32 運転車両
V11 車両
V12 車両
V13 車両
V21 車両
V22 車両
V23 車両
V24 車両
V25 車両
V26 車両
V27 車両
V28 車両
V31 車両
V32 車両
V33 車両
h1-1 ケース
h1-2 ケース
h2-1 ケース
h2-2 ケース
h2-3 ケース
h2-4 ケース
h3-1 ケース
h3-2 ケース
F1 フェイスデータ群
F2 フェイスデータ群
F3 フェイスデータ群
F4 フェイスデータ群
F5 フェイスデータ
F6 フェイスデータ
F7 フェイスデータ
W1 水道インフラ
W2 水道インフラ
W3 水道インフラ
W4 水道インフラ
W5 水道インフラ
11 生成部
12 適応部
1000 情報処理システム
1000a 情報処理システム
1000b 情報処理システム
100 システムA
101 対象環境
102 エージェント
103 行動
104 状態
105 報酬関数
110 エキスパートデータセット
200 システムB
210 運用データセット
200a システムC
210a 運用データセット
200b システムD
210b 運用データセット
300 情報処理装置
300a 情報処理装置
300b 情報処理装置
301 CPU
302 メモリ
303 IF部
304 記憶装置
310 逐次的報酬学習部
320 モデル補正部
320a モデル補正部
330 適応部
330a 適応部
340 記憶部
341 条件A
342 モデルA
343 補正用モデル
343a 補正用モデル
344 条件B
345 モデルB
344a 条件C
345a モデルC
344b 条件D
345b モデルD
346 モデル適応プログラム
350 比較・出力部
C11 運転車両
C12 運転車両
C21 運転車両
C22 運転車両
C23 運転車両
C24 運転車両
C31 運転車両
C32 運転車両
V11 車両
V12 車両
V13 車両
V21 車両
V22 車両
V23 車両
V24 車両
V25 車両
V26 車両
V27 車両
V28 車両
V31 車両
V32 車両
V33 車両
h1-1 ケース
h1-2 ケース
h2-1 ケース
h2-2 ケース
h2-3 ケース
h2-4 ケース
h3-1 ケース
h3-2 ケース
F1 フェイスデータ群
F2 フェイスデータ群
F3 フェイスデータ群
F4 フェイスデータ群
F5 フェイスデータ
F6 フェイスデータ
F7 フェイスデータ
W1 水道インフラ
W2 水道インフラ
W3 水道インフラ
W4 水道インフラ
W5 水道インフラ
Claims (14)
- 特定の環境及びエージェントを含む第1の条件に基づき運用される第1のシステムに適応させた第1のモデルに対して補正用モデルを用いて補正した第2のモデルを生成する生成部と、
前記第1の条件と一部が異なる第2の条件に基づき運用される第2のシステムに、前記第2のモデルを適応させる適応部と、
を備える情報処理装置。 - 前記適応部は、
前記第2のシステムに前記第2のモデルを用いて運用して得られた運用データを取得し、
前記取得した運用データを用いて前記第2のモデルを前記第2のシステムに適応させる
請求項1に記載の情報処理装置。 - 前記生成部は、
前記第1のモデルに含まれる前記エージェントの行動を評価する評価基準に対して、前記補正用モデルを用いて補正する
請求項1又は2に記載の情報処理装置。 - 前記生成部は、
前記評価基準のパラメータを補正する補正用パラメータを前記補正用モデルとして用いることにより、前記第2のモデルを生成する
請求項3に記載の情報処理装置。 - 前記生成部は、
前記第2のシステムにおける運用データを用いて前記補正用モデルを算出し、
当該算出した補正用モデルを用いて、前記第1のモデルに対して補正を行うことにより前記第2のモデルを生成する
請求項1又は2に記載の情報処理装置。 - 前記適応部は、
前記第1の条件及び前記第2の条件のいずれとも一部が異なる第3の条件に基づき運用される第3のシステムに、前記第2のモデルを適応させる
請求項1乃至5のいずれか1項に記載の情報処理装置。 - 前記生成部は、
前記第1のモデルに対して、前記第2の条件に応じた第1の補正用モデルを用いて補正することにより前記第2のモデルを生成し、
前記第1のモデルに対して、前記第1の条件及び前記第2の条件のいずれとも一部が異なる第3の条件に応じた第2の補正用モデルを用いて補正することにより第3のモデルを生成し、
前記適応部は、
前記第3の条件に基づき運用される第3のシステムに、前記第3のモデルを適応させる
請求項1乃至5のいずれか1項に記載の情報処理装置。 - 前記生成部は、
前記第1の条件と一部が異なる第4の条件に基づき運用される第4のシステムに適応させた第4のモデルに対して前記補正用モデルを用いて補正した第4のモデルを生成し、
前記適応部は、
前記第4の条件に基づき運用される第4のシステムに、前記第4のモデルを適応させ、
前記情報処理装置は、
前記適応部により適応させた前記第2のモデルと前記第4のモデルとの比較結果を出力する出力部をさらに備える
請求項1乃至5のいずれか1項に記載の情報処理装置。 - 前記第1のモデルは、
前記特定の環境の状態を示す状態ベクトルと当該状態ベクトルで表される状態において前記特定のエージェントが行う行動とを対応付けた行動データを用いた逐次的報酬学習により生成されたポリシー関数及び報酬関数を含み、
前記報酬関数は、前記状態ベクトルの入力に対して、当該状態ベクトルで表される状態において得られる報酬を出力し、
前記ポリシー関数は、前記状態ベクトルを入力した際の前記報酬関数の出力値を入力として、当該状態ベクトルで表される状態において前記特定のエージェントが行うべき行動を出力する
請求項1乃至8のいずれか1項に記載の情報処理装置。 - 前記第1のモデルは、
前記報酬関数に対応付けられた物理方程式、及び前記ポリシー関数に対応付けられ、所定の前記状態の確率分布を表すボルツマン分布に従う状態遷移確率をさらに含む、
請求項9に記載の情報処理装置。 - 特定の環境及びエージェントを含む第1の条件に基づき運用される第1のシステムに適応させた第1のモデルと、所定の補正用モデルとを記憶する記憶部と、
前記第1のモデルに対して前記補正用モデルを用いて補正した第2のモデルを生成する生成部と、
前記第1の条件と一部が異なる第2の条件に基づき運用される第2のシステムに、前記第2のモデルを適応させる適応部と、
を備える情報処理システム。 - 前記適応部は、
前記第2のシステムに前記第2のモデルを用いて運用して得られた運用データを取得し、
前記取得した運用データを用いて前記第2のモデルを前記第2のシステムに適応させる
請求項11に記載の情報処理システム。 - コンピュータが、
特定の環境及びエージェントを含む第1の条件に基づき運用される第1のシステムに適応させた第1のモデルに対して補正用モデルを用いて補正した第2のモデルを生成し、
前記第1の条件と一部が異なる第2の条件に基づき運用される第2のシステムに、前記第2のモデルを適応させる
モデル適応方法。 - 特定の環境及びエージェントを含む第1の条件に基づき運用される第1のシステムに適応させた第1のモデルに対して補正用モデルを用いて補正した第2のモデルを生成する処理と、
前記第1の条件と一部が異なる第2の条件に基づき運用される第2のシステムに、前記第2のモデルを適応させる処理と、
をコンピュータに実行させるモデル適応プログラムが格納された非一時的なコンピュータ可読媒体。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2018/035858 WO2020065808A1 (ja) | 2018-09-27 | 2018-09-27 | 情報処理装置及びシステム、並びに、モデル適応方法及びプログラムが格納された非一時的なコンピュータ可読媒体 |
JP2020547703A JP7192870B2 (ja) | 2018-09-27 | 2018-09-27 | 情報処理装置及びシステム、並びに、モデル適応方法及びプログラム |
US17/278,701 US20220036122A1 (en) | 2018-09-27 | 2018-09-27 | Information processing apparatus and system, and model adaptation method and non-transitory computer readable medium storing program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2018/035858 WO2020065808A1 (ja) | 2018-09-27 | 2018-09-27 | 情報処理装置及びシステム、並びに、モデル適応方法及びプログラムが格納された非一時的なコンピュータ可読媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2020065808A1 true WO2020065808A1 (ja) | 2020-04-02 |
Family
ID=69952937
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2018/035858 WO2020065808A1 (ja) | 2018-09-27 | 2018-09-27 | 情報処理装置及びシステム、並びに、モデル適応方法及びプログラムが格納された非一時的なコンピュータ可読媒体 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20220036122A1 (ja) |
JP (1) | JP7192870B2 (ja) |
WO (1) | WO2020065808A1 (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022035737A (ja) * | 2020-08-21 | 2022-03-04 | エヌ・ティ・ティ・コミュニケーションズ株式会社 | 制御システム、制御方法、制御装置及びプログラム |
JP7165840B1 (ja) * | 2021-08-31 | 2022-11-04 | 楽天グループ株式会社 | 不正検知システム、不正検知方法、及びプログラム |
KR102500534B1 (ko) * | 2022-06-02 | 2023-02-16 | 국민대학교산학협력단 | 순환신경망 기반 수자원 정보 생성 장치 및 방법 |
WO2023144961A1 (ja) * | 2022-01-27 | 2023-08-03 | 日本電気株式会社 | 情報処理装置、情報処理方法、およびプログラム |
JP2023146080A (ja) * | 2022-03-29 | 2023-10-12 | 本田技研工業株式会社 | 教師データ収集装置 |
JP7511379B2 (ja) | 2020-04-28 | 2024-07-05 | 株式会社マネーフォワード | 情報処理装置及びプログラム |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA3143234A1 (en) * | 2018-09-30 | 2020-04-02 | Strong Force Intellectual Capital, Llc | Intelligent transportation systems |
JP2023012171A (ja) * | 2021-07-13 | 2023-01-25 | トヨタ自動車株式会社 | 車線変更支援装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018106466A (ja) * | 2016-12-27 | 2018-07-05 | 株式会社日立製作所 | 制御装置及び制御方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11501042B2 (en) * | 2014-03-24 | 2022-11-15 | Imagars Llc | Decisions with big data |
CA3032159A1 (en) * | 2018-01-31 | 2019-07-31 | Royal Bank Of Canada | Interactive reinforcement learning with dynamic reuse of prior knowledge |
WO2023054735A1 (ko) * | 2021-09-28 | 2023-04-06 | 주식회사 자가돌봄 | 분리 가능한 전이 학습 기반의 인공 신경망을 이용하는 시스템 및 방법 |
US20230368026A1 (en) * | 2022-05-11 | 2023-11-16 | Covid Cough, Inc. | Systems and methods for chained machine learning models for signal data signature labelling |
-
2018
- 2018-09-27 US US17/278,701 patent/US20220036122A1/en active Pending
- 2018-09-27 WO PCT/JP2018/035858 patent/WO2020065808A1/ja active Application Filing
- 2018-09-27 JP JP2020547703A patent/JP7192870B2/ja active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018106466A (ja) * | 2016-12-27 | 2018-07-05 | 株式会社日立製作所 | 制御装置及び制御方法 |
Non-Patent Citations (2)
Title |
---|
KONO, HITOSHI ET AL.: "Hierarchical Transfer Learning in Heterogeneous Multi-agent Systems", TRANSACTIONS OF THE SOCIETY OF INSTRUMENT AND CONTROL ENGINEERS, vol. 51, no. 6, 2015, pages 409 - 420, XP055699769, ISSN: 0453-4654 * |
TAYLOR, MATTHEW E. ET AL.: "Transfer Learning via Inter-Task Mappings for Temporal Difference Learning", JOURNAL OF MACHINE LEARNING RESEARCH, vol. 8, 2007, pages 2125 - 2167, XP055699772, Retrieved from the Internet <URL:http://www.jmlr.org/papers/volume8/taylor07a/taylor07a.pdf> [retrieved on 20181219] * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7511379B2 (ja) | 2020-04-28 | 2024-07-05 | 株式会社マネーフォワード | 情報処理装置及びプログラム |
JP2022035737A (ja) * | 2020-08-21 | 2022-03-04 | エヌ・ティ・ティ・コミュニケーションズ株式会社 | 制御システム、制御方法、制御装置及びプログラム |
JP7521971B2 (ja) | 2020-08-21 | 2024-07-24 | エヌ・ティ・ティ・コミュニケーションズ株式会社 | 制御システム、制御方法、制御装置及びプログラム |
JP7165840B1 (ja) * | 2021-08-31 | 2022-11-04 | 楽天グループ株式会社 | 不正検知システム、不正検知方法、及びプログラム |
WO2023032044A1 (ja) * | 2021-08-31 | 2023-03-09 | 楽天グループ株式会社 | 不正検知システム、不正検知方法、及びプログラム |
WO2023144961A1 (ja) * | 2022-01-27 | 2023-08-03 | 日本電気株式会社 | 情報処理装置、情報処理方法、およびプログラム |
JP2023146080A (ja) * | 2022-03-29 | 2023-10-12 | 本田技研工業株式会社 | 教師データ収集装置 |
JP7399998B2 (ja) | 2022-03-29 | 2023-12-18 | 本田技研工業株式会社 | 教師データ収集装置 |
KR102500534B1 (ko) * | 2022-06-02 | 2023-02-16 | 국민대학교산학협력단 | 순환신경망 기반 수자원 정보 생성 장치 및 방법 |
Also Published As
Publication number | Publication date |
---|---|
JPWO2020065808A1 (ja) | 2021-08-30 |
JP7192870B2 (ja) | 2022-12-20 |
US20220036122A1 (en) | 2022-02-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020065808A1 (ja) | 情報処理装置及びシステム、並びに、モデル適応方法及びプログラムが格納された非一時的なコンピュータ可読媒体 | |
US11455578B2 (en) | System and method for ride order dispatching and vehicle repositioning | |
CN108564326B (zh) | 订单的预测方法及装置、计算机可读介质、物流系统 | |
US20200302322A1 (en) | Machine learning system | |
Bhatia et al. | Resource constrained deep reinforcement learning | |
US11518382B2 (en) | Learning to simulate | |
US20190019082A1 (en) | Cooperative neural network reinforcement learning | |
WO2019068837A1 (en) | AUTOMATIC LEARNING SYSTEM | |
CN112766551B (zh) | 一种交通预测方法、智能终端及计算机可读存储介质 | |
US11443335B2 (en) | Model-based deep reinforcement learning for dynamic pricing in an online ride-hailing platform | |
CN114139637B (zh) | 多智能体信息融合方法、装置、电子设备及可读存储介质 | |
KR102198920B1 (ko) | 온라인 학습을 이용한 객체 트래킹을 위한 방법 및 시스템 | |
Wang et al. | A proactive decision support method based on deep reinforcement learning and state partition | |
KR20220130945A (ko) | 물류 차량의 배차를 수행하는 장치, 방법 및 컴퓨터 프로그램 | |
KR20220090732A (ko) | 리스크 척도를 나타내는 파라미터에 기반하여 훈련된 모델을 사용하여, 주어진 상황에 대한 디바이스의 행동을 결정하는 방법 및 시스템 | |
JP7044153B2 (ja) | 評価システム、評価方法および評価用プログラム | |
JP7004074B2 (ja) | 学習装置、情報処理システム、学習方法、および学習プログラム | |
JP7081678B2 (ja) | 情報処理装置及びシステム、並びに、モデル適応方法及びプログラム | |
Zhang et al. | Image Edge Feature Extraction and Refining based on Genetic-Ant Colony Algorithm | |
WO2022006873A1 (en) | Vehicle repositioning on mobility-on-demand platforms | |
CN114118508A (zh) | 一种基于时空卷积网络的od市场航空客流量预测方法 | |
CN115796259B (zh) | 模型训练方法、数据处理方法、预测方法及装置、设备 | |
CN110826695A (zh) | 数据处理方法、装置和计算机可读存储介质 | |
KR102261055B1 (ko) | 클릭율 최대화를 위한 이미지 디자인 파라미터 최적화 방법 및 시스템 | |
JP6726312B2 (ja) | シミュレーション方法、システム、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 18935388 Country of ref document: EP Kind code of ref document: A1 |
|
ENP | Entry into the national phase |
Ref document number: 2020547703 Country of ref document: JP Kind code of ref document: A |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 18935388 Country of ref document: EP Kind code of ref document: A1 |