WO2021144963A1 - 方策学習方法、方策学習装置、プログラム - Google Patents

方策学習方法、方策学習装置、プログラム Download PDF

Info

Publication number
WO2021144963A1
WO2021144963A1 PCT/JP2020/001500 JP2020001500W WO2021144963A1 WO 2021144963 A1 WO2021144963 A1 WO 2021144963A1 JP 2020001500 W JP2020001500 W JP 2020001500W WO 2021144963 A1 WO2021144963 A1 WO 2021144963A1
Authority
WO
WIPO (PCT)
Prior art keywords
state
action element
graph
value
policy learning
Prior art date
Application number
PCT/JP2020/001500
Other languages
English (en)
French (fr)
Inventor
豊 八鍬
貴志 丸山
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to PCT/JP2020/001500 priority Critical patent/WO2021144963A1/ja
Priority to JP2021570601A priority patent/JP7347544B2/ja
Priority to US17/790,574 priority patent/US20230023899A1/en
Publication of WO2021144963A1 publication Critical patent/WO2021144963A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/092Reinforcement learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Definitions

  • the present invention relates to a policy learning method, a policy learning device, and a program for performing reinforcement learning.
  • machine learning by analyzing sample data instead of defining the contents of specific processing, patterns and relationships in the data are extracted and the extracted results are obtained. Analysis, recognition, control, etc. can be realized by using.
  • neural networks are attracting attention because they have a track record of demonstrating capabilities beyond human intelligence in various problems with the dramatic improvement in hardware performance in recent years. For example, there is a known Go program that won a game against a top professional Go player.
  • Reinforcement learning is one of the genres of machine learning technology. Reinforcement learning deals with the problem of deciding what action an agent (referring to "acting subject") should take in an environment. Then, when the agent performs some action, the state of the environment changes, and the environment rewards the agent's action. Agents try to act in the environment for learning with the aim of acquiring behavioral strategies (referring to "agent behavior patterns or their probability distributions according to the state of the environment") that maximizes the rewards that can be obtained in the long term. Collect data. In this way, the features of reinforcement learning are that learning data is not provided in advance and that the agent collects it by itself, and that it aims to maximize long-term profits rather than short-term profits.
  • the Actor-Critic method disclosed in Non-Patent Document 1 is one of the reinforcement learning methods.
  • the Actor-Critic method is a method of learning by using Actor, which is a mechanism for learning the behavioral policy of an agent, and Critic, which is a mechanism for learning the state value of an environment, in combination.
  • the state value learned by Critic is used to evaluate the behavioral measures that the Actor is learning. Specifically, if the expected value of the action A1 executed from the state S1 is higher than the estimated value of the state S1 by Critic, it is judged that the value of the action A1 is high, and the Actor executes the action A1 from the state S1. Learn to increase your chances of doing it.
  • the Actor-Critic method has high accuracy, and in particular, the method of learning with a neural network is known as a standard method in recent years.
  • Non-Patent Document 1 the behavior selectivity is learned for the problem that the number of types of actions that an agent can perform differs depending on the state of the environment.
  • the number of values that can be output is also determined. Specifically, as many values as the number of units in the output layer of the neural network can be output. Then, when the number of action types that the agent can perform is constant regardless of the state of the environment, the number of units in the output layer of the neural network is matched with the number of action types that the agent can perform. As a result, the output of the neural network can be made to correspond to the probability distribution of the agent's behavior according to the state of the environment, and the suitable probability distribution of the agent's behavior is learned by the Actor-Critic method and the probability distribution is output. It is possible to realize an Actor that plays a role of playing a role.
  • one of the objects of the present invention is that it is difficult to perform reinforcement learning in the above-mentioned problem that the number of types of actions that an agent can perform differs depending on the state of the environment.
  • the purpose is to provide a policy learning method that can be solved.
  • the policy learning method which is one form of the present invention, is As the action element selected when a predetermined state in a predetermined environment transitions to another state, the first action element whose number of choices of the action element does not depend on the state and the number of choices of the action element. If there is a second behavioral element that depends on the state Using the model being trained, the selection rate for each option of the first action element for the state is calculated, and the first action element is selected based on the selection rate. The reward and the value of the other state for each option to which the selected first action element is applied and the second action element is further applied as an option to transition to the other state. And the other state is determined based on the reward and the value. Training data is generated based on the information used in determining the other states, and the model is further trained using the training data. It takes the configuration.
  • the policy learning device which is one form of the present invention, is As the action element selected when a predetermined state in a predetermined environment transitions to another state, the first action element whose number of choices of the action element does not depend on the state and the number of choices of the action element. If there is a second behavioral element that depends on the state A first module that calculates the selection rate for each option of the first action element with respect to the state using the model being trained, and selects the first action element based on the selection rate. The reward and the value of the other state for each option to which the selected first action element is applied and the second action element is further applied as an option to transition to the other state. And a second module that calculates and determines the other state based on the reward and the value. A third module that generates training data based on the information used in determining the other states and further trains the model using the training data. With, It takes the configuration.
  • the program which is one form of the present invention is As the action element selected when a predetermined state in a predetermined environment transitions to another state, the first action element whose number of choices of the action element does not depend on the state and the number of choices of the action element. If there is a second behavioral element that depends on the state
  • a first module that calculates the selection rate for each option of the first action element with respect to the state using the model being trained, and selects the first action element based on the selection rate.
  • the reward and the value of the other state for each option to which the selected first action element is applied and the second action element is further applied as an option to transition to the other state.
  • a second module that calculates and determines the other state based on the reward and the value.
  • a third module that generates training data based on the information used in determining the other states and further trains the model using the training data. To realize, It takes the configuration.
  • the present invention is configured as described above, so that reinforcement learning can be performed even if the number of types of actions that the agent can perform differs depending on the state of the environment.
  • FIG. 1 is a diagram for explaining the configuration of the policy learning device
  • FIGS. 2 to 4 are diagrams for explaining the processing operation of the policy learning device
  • FIGS. 5 to 10 are diagrams for explaining a specific example of the policy learning device.
  • the policy learning device disclosed below shifts the current state (predetermined state) to the next state (other state) when the agent executes an action (behavior element) in a certain environment (predetermined environment). At that time, reinforcement learning is performed to learn to maximize its value.
  • reinforcement learning is performed to learn to maximize its value.
  • the policy learning device 1 is composed of one or a plurality of information processing devices including an arithmetic unit and a storage device. Then, as shown in FIG. 1, the policy learning device 1 includes a learning execution unit 11, a state-independent behavior element determination policy learning unit 12, a state value learning unit 13, and a state-independent behavior element determination unit 14. It includes a next state determination unit 15, an action trial unit 16, and an environment simulation unit 17.
  • Each function of the environment simulation unit 17 can be realized by the arithmetic unit executing a program for realizing each function stored in the storage device. Each of these parts 11 to 17 has the following functions.
  • the learning execution unit 11 (third module) supervises the state-independent behavior element determination unit 14, the next state determination unit 15, the action trial unit 16, and the environment simulation unit 17, and data necessary for learning.
  • the state-independent behavioral element determination policy learning unit 12 and the state value learning unit 13 are supervised for learning. Specifically, the learning execution unit 11 generates learning data based on the information used when the next state determination unit 15 determines the next state from the current state, as will be described later. Then, the learning execution unit 11 causes the state-independent behavior element determination policy learning unit 12 to learn using the learning data, and causes the state value learning unit 13 to learn using the learning data.
  • the state-independent behavioral element determination policy learning unit 12 learns a suitable selection rate in each state of the environment for behavioral element choices whose number of choices does not depend on the state. That is, the state-independent behavior element determination policy learning unit 12 calculates the selection rate for each option of the behavior element whose number of choices does not depend on the state, using the learning data generated by the learning execution unit 11 described above. Generate a model. Further, the state-independent behavior element determination policy learning unit 12 inputs the current state into the generated model and outputs the selection rate for each choice of the behavior element whose number of choices does not depend on the state.
  • the state value learning unit 13 learns the value of each state of the environment. That is, the state value learning unit 13 generates a model (second model) for calculating the value value of the next state transitioned from the current state by using the learning data generated by the learning execution unit 11 described above. .. Further, the state value learning unit 13 inputs the next state to the generated model and outputs the value value of the next state.
  • the state-independent behavior element determination unit 14 determines the selection of behavior elements whose number of choices does not depend on the state according to the output of the state-independent behavior element determination policy learning unit 12. Specifically, the state-independent action element determination unit 14 receives the selection rate for each option of the action element whose number of options does not depend on the state, which is output from the state-independent action element determination policy learning unit 12, and makes such a selection. Select behavioral elements based on the rate.
  • the action trial unit 16 (second module), among the actions that can be executed from the current state, the content of the action element whose number of choices does not depend on the state is selected by the state-independent action element determination unit 14. Try to act.
  • an action that can be executed from the current state an action element in which the number of choices of the action element does not depend on the state is applied as an option, and further, an action element in which the number of choices of the action element depends on the state is applied as an option. It becomes the action that was done. That is, in other words, the action trial unit 16 applies the action element selected by the state-independent action element determination unit 14, and further applies the action element whose number of action element options depends on the state.
  • the actions for each option are listed, and the current state and the listed action contents are passed to the environment simulation unit 17.
  • the environment simulation unit 17 (second module) outputs a reward for the action tried by the action trial unit 16, that is, the listed actions, and changes the environment from the current state to the next state after the action is performed. It is passed to the next state determination unit 15.
  • the next state determination unit 15 (second module) includes the output of the state value learning unit 13 and the reward returned from the environment simulation unit 17 from the candidates for the next state passed from the environment simulation unit 17.
  • the next state is determined according to. Specifically, the next state determination unit 15 calculates a value obtained by adding the reward for the action from the current state to the next state and the value of the next state, and determines the next state in which such a value becomes the maximum value. Determined as the actual next state.
  • the policy learning device 1 receives at least the initial state of the environment as an input of the entire device, and sets the initial state as the current state of the environment (step S11). Subsequently, the learning execution unit 11 of the policy learning device 1 generates learning data (step S12) and performs learning (step S13). Then, the learning execution unit 11 repeats the operations of steps S12 to S13 a predetermined number of times (step S14). The predetermined number of times may be given as an input of the policy learning device 1, a value unique to the policy learning device 1 may be used, or may be determined by another method. Finally, the learning execution unit 11 outputs the trained model and stores it in the policy learning device 1 (step S15).
  • the state-independent behavior element determination unit 14 generates state data obtained by converting the current state of the environment into a data format that can be input to the state-independent behavior element determination policy learning unit 12, and the state-independent behavior element determination policy learning unit 12 Is input to (step S21).
  • the data format that can be input to the state-independent behavior element determination policy learning unit 12 is an input that can be accepted by a framework such as TensorFlow used by the state-independent behavior element determination policy learning unit 12 as a learning backend. It is a format, which is generally a vector format, but is not limited to this. Further, the state-independent behavior element determination policy learning unit 12 does not necessarily have to use a framework such as TensorFlow as a back end, and may use its own implementation.
  • the state-independent behavior element determination policy learning unit 12 describes the behavior elements in which the number of choices does not depend on the state among the behavior elements that constitute the content of the behavior to be performed by the agent from the state indicated by the input state data.
  • the selection rate of the options is calculated, and the calculation result is returned to the state-independent behavior element determination unit 14 (step S22).
  • the state-independent action element determination unit 14 selects the option of the action element whose number of options does not depend on the state based on the selection rate, and passes the selection result to the action trial unit 16 (step S23).
  • the state-independent behavior element determination unit 14 may select the option according to the probability, or may decisively select the option having the highest probability.
  • the action trial unit 16 performs an action in which the content of the action element whose number of choices does not depend on the state is selected by the state-independent action element determination unit 14 among the actions that can be executed from the current state.
  • the action that can be executed from the current state is an action that can be executed for each option of the action element in which the number of options depends on the state and the action element in which the number of options does not depend on the state. Lists the actions for which the content of the action element that does not depend is the one selected by the state-independent action element determination unit 14.
  • the action trial unit 16 passes the current state and the listed action contents to the environment simulation unit 17 (step S125).
  • the environment simulation unit 17 calculates and returns the state after the action (hereinafter, the next state) and the reward for the action, respectively (step S26).
  • the next state determination unit 15 generates state data obtained by converting each next state into a data format that can be input to the state value learning unit 13, and inputs the generated state data to the state value learning unit 13 (step S27).
  • the data format that can be input to the state value learning unit 13 is an input format that can be accepted by a framework such as TensorFlow that the state value learning unit 13 uses as a learning backend. It is a vector format, but it is not limited to this. Further, the state value learning unit 13 does not necessarily have to use a framework such as TensorFlow as a back end, and may use its own implementation.
  • the state value learning unit 13 calculates the value value of each next state and returns it to the next state determination unit 15 (step S28).
  • the next state determination unit 15 calculates a value obtained by adding the reward for the action executed when the transition to the next state and the value of the next state are added for each next state, and actually obtains the next state which is the maximum value. It is determined as the next state of (step S29).
  • the learning execution unit 11 sets the maximum value of the sum of the reward and the value calculated by the next state determination unit 15 as the value of the action executed from the current state, and executes the action from the current state and the current state.
  • the data in which the value of the action and the option of the action element selected by the state-independent action element determination unit 14 are set is saved as learning data.
  • the learning execution unit 11 sets the current state to the actual next state determined by the next state determination unit 15 (step S30).
  • the policy learning device 1 repeats the above-mentioned steps S21 to S30 unless the current state is the end state (step S31).
  • the end state is a state in which there is no action that can be executed from that state.
  • the current state is set to the initial state input in step S11 (step S32).
  • the policy learning device 1 repeats steps S21 to S32 a predetermined number of times (step S33).
  • the predetermined number of times may be given as an input of the policy learning device 1, a value unique to the policy learning device 1 may be used, or may be determined by another method.
  • the state-independent behavior element determination policy learning unit 12 performs learning using the learning data generated as described above (step S41).
  • the learning target by the state-independent action element determination policy learning unit 12 is an action element in which the number of choices among the actions that can be executed from a certain state does not depend on the state, which is calculated when the data of a certain state is input. It is a preferable selection rate of choices in.
  • a case of learning with a neural network using the policy gradient method typically used when learning a policy in Actor-Critic will be described.
  • the realization method is not limited to this.
  • the neural network is updated with the loss function as "log ⁇ (s, a) ⁇ (Q ⁇ (s, a) -V ⁇ (s))".
  • ⁇ (s, a) is a policy function, and represents the probability that the action a should be selected when the state is s.
  • the value of " ⁇ (s, a)” in the present embodiment converts the state s contained in the individual learning data into the input format of the state-independent behavior element determination policy learning unit 12, and determines the state-independent behavior element. From the probability vector calculated when input to the policy learning unit 12, the value of the execution probability corresponding to the action element option a included in the learning data is extracted and obtained.
  • the above “Q ⁇ (s, a)” is an action value function, and represents the value when the action a is performed from the state s when the action is performed according to the policy function ⁇ .
  • the value of the action executed from the state included in the individual learning data is used.
  • the above “V ⁇ (s)” is a state value function, and represents the value of the state s when the action is performed according to the policy function ⁇ .
  • the value of "V ⁇ (s)” in the present embodiment is a state value calculated by converting the state s included in the individual learning data into the input format of the state value learning unit 13 and inputting it to the state value learning unit 13. Use the value of.
  • the state s included in the individual learning data is converted into the input format of the state-independent behavior element determination policy learning unit 12, and the input is used as the input, and the output of the state-independent behavior element determination policy learning unit 12 for the input is used.
  • step S41 of the state-independent behavior element determination policy learning unit 12 described above may be performed individually for each individual learning data, for each appropriate size, or all together. You may go. Then, the state-independent behavior element determination policy learning unit 12 repeats step S41 until all the learning data is learned (step S42).
  • the state value learning unit 13 performs learning using the above-mentioned learning data (step S43).
  • the learning target by the state value learning unit 13 is the value of the state calculated when the data of a certain state is input.
  • the neural network is updated with the loss function as "(Q ⁇ (s, a) -V ⁇ (s)) ⁇ 2".
  • the definitions of "Q ⁇ (s, a)” and “V ⁇ (s)” and the calculation method of the values are as described above.
  • the symbol “ ⁇ ” represents a power.
  • the state s included in the individual learning data is converted into the input format of the state value learning unit 13 as an input, and the output of the state value learning unit 13 for the input and the individual learning data are used. Then, based on the loss function described above, the state value learning unit 13 learns, that is, the value of each weighting of the neural network held by the state value learning unit 13 is updated. Learning is typically performed using a framework such as TensorFlow, and this embodiment can also be realized by that method, but the learning is not limited to this method.
  • the learning (step S43) of the state value learning unit 13 described above may be performed individually for each individual learning data, may be performed for each appropriate size, or may be performed all at once. Then, the state value learning unit 13 repeats step S43 until all the learning data is learned (step S44).
  • the graph rewriting system is a state transition system in which "graph” is regarded as “state” and "graph rewriting” is regarded as “transition”. Therefore, the "set of states” that defines the graph rewriting system is defined as the “set of graphs”, and the “set of transitions” is defined as the “set of graph rewriting rules”.
  • the "state” of the environment corresponds to the "graph”
  • the “action” that the agent can execute is the "graph rewriting” that can be applied to the graph that is the current state. Corresponds to.
  • the graph rewriting which is an action that the agent can execute, depends on the state. This is because individual graph rewriting rules can be applied to multiple locations in the graph. For example, when the environment (graph rewriting system) has a rewriting rule as shown in FIG. 5, if the graph in the current state is the one shown in FIG. 6, the state after one transition (graph rewriting). Is one of the two types shown in FIG. On the other hand, when the graph in the current state is the one shown in FIG. 8, the state after one transition (graph rewriting) is one of the three types shown in FIG. In this way, when applying reinforcement learning to the graph rewriting system, the number of types of actions that the agent can perform changes depending on the state. Then, as it is, the Actor-Critic method using the neural network cannot be applied for the reason described above.
  • the action executed by the agent is divided into an action element in which the number of choice types does not depend on the state and an action element in which the number of choice types depends on the state.
  • the action element in which the number of choice types does not depend on the state is the type of "graph rewriting rule”
  • the action element in which the number of choice types depends on the state is the “place in the graph (rule application place)" to which the graph rewriting rule is applied.
  • the choices of the type of "graph rewriting rule” are, for example, “Rule 1" and “Rule 2" in the case shown in FIG. 5, and the number does not depend on the state.
  • the options of "location in the graph” to which the graph rewriting rule is applied are, for example, “location: left” and “location: right” in the case of those shown in FIGS. 6 to 7, and are shown in FIGS. 8 to 9. In the case of things, they are “location: left”, “location: center”, and “location: right”. The number of choices depends on the state.
  • the state-independent action element determination policy learning unit 12 first determines what kind of graph. The probability distribution (selectivity) of whether to select the rewriting rule is calculated (corresponding to step S22 in FIG. 3). Then, the state-independent behavior element determination unit 14 selects a specific type of graph rewriting rule according to the probability distribution of the graph rewriting rule output by the state-independent behavior element determination policy learning unit 12 (step S23 in FIG. 3). Corresponds to).
  • the next state determination unit 15 determines which of the executable graphs after rewriting rewritten by the selected specific type of graph rewriting rule is to be the graph of the next state (FIG. 3). Corresponds to step S29). At this time, the action trial unit 16 actually applies the selected graph rewriting rule to each place in the applicable graph, and enumerates the graph after rewriting the graph (corresponding to step S24 in FIG. 3). .. Subsequently, the environment simulation unit 17 calculates the value of the reward for rewriting the graph, and the state value learning unit 13 calculates the value of the value of the graph after rewriting (corresponding to steps S26 and S28 in FIG. 3). Then, the next state determination unit 15 selects the graph that maximizes the sum of the reward and the value (corresponding to step S29 in FIG. 3).
  • the policy learning device has the configuration of the graph rewriting policy learning device 2 shown in FIG. You may.
  • the graph rewriting policy learning device 2 includes a graph rewriting system learning execution unit 21, a graph rewriting rule determination policy learning unit 22, a graph value learning unit 23, a graph rewriting rule determination unit 24, and a post-rewrite graph determination unit. 25, a graph rewriting trial unit 26, and a graph rewriting system environment simulation unit 27 are provided.
  • each of these units 21 to 27 includes a learning execution unit 11, a state-independent behavior element determination policy learning unit 12, a state value learning unit 13, and a state-independent behavior element determination unit 14 included in the policy learning device 1 described above. It has the same functions as the next state determination unit 15, the action trial unit 16, and the environment simulation unit 17.
  • the number of choices depends on the state (second action element).
  • the number of choices is divided into the state-independent behavioral element (first behavioral element), and first, only the behavioral element whose number of choices is state-independent (first behavioral element) is the conventional Actor- Determine options according to the Critic method. Then, for the behavioral element (second behavioral element) in which the number of choices depends on the state, the choices are determined by another function.
  • the present invention makes it possible to apply the Actor-Critic method using a neural network even to a problem in which it is difficult to apply the method.
  • the number of types of actions that the agent can perform is different for each state of the environment. It is suitably applicable to reinforcement learning for the purpose of acquiring efficient procedures for intellectual work (for example, IT system design process) that results in different problems.
  • FIGS. 11 to 13 are block diagrams showing the configuration of the policy learning device according to the second embodiment
  • FIG. 13 is a flowchart showing the operation of the policy learning device.
  • the outline of the configuration of the policy learning device described in the above-described embodiment and the policy learning method by the policy learning device is shown.
  • the policy learning device 100 is composed of one or a plurality of general information processing devices, and is equipped with the following hardware configuration as an example.
  • -CPU Central Processing Unit
  • -ROM Read Only Memory
  • RAM Random Access Memory
  • 103 storage device
  • -Program group 104 loaded into RAM 103
  • a storage device 105 that stores the program group 104.
  • a drive device 106 that reads and writes the storage medium 110 external to the information processing device.
  • -Communication interface 107 that connects to the communication network 111 outside the information processing device -I / O interface 108 for inputting / outputting data -Bus 109 connecting each component
  • the policy learning device 100 constructs and equips the first module 121, the second module 122, and the third module 123 shown in FIG. 12 by acquiring the program group 104 by the CPU 101 and executing the program group 104.
  • the program group 104 is stored in, for example, a storage device 105 or a ROM 102 in advance, and the CPU 101 loads the program group 104 into the RAM 103 and executes the program group 104 as needed. Further, the program group 104 may be supplied to the CPU 101 via the communication network 111, or may be stored in the storage medium 110 in advance, and the drive device 106 may read the program and supply the program to the CPU 101.
  • the first module 121, the second module 122, and the third module 123 described above may be constructed by a dedicated electronic circuit capable of realizing these modules.
  • FIG. 11 shows an example of the hardware configuration of the information processing device which is the policy learning device 100, and the hardware configuration of the information processing device is not limited to the above case.
  • the information processing device may be composed of a part of the above-described configuration, such as not having the drive device 106.
  • the policy learning device 100 executes the policy learning method shown in the flowchart of FIG. 13 by the functions of the first module 121, the second module 122, and the third module 123 constructed by the program as described above.
  • the policy learning device 100 As the action element selected when a predetermined state in a predetermined environment transitions to another state, the first action element whose number of choices of the action element does not depend on the state and the number of choices of the action element. If there is a second behavioral element that depends on the state Using the model being learned, the selection rate for each option of the first action element for the state is calculated, and the first action element is selected based on the selection rate (step S101). The reward and the value of the other state for each option to which the selected first action element is applied and the second action element is further applied as an option to transition to the other state. And the other state is determined based on the reward and the value (step S102). Learning data is generated based on the information used in determining the other state, and the model is further trained using the training data (step S103).
  • the action element which is a component that determines the content of the action
  • the first action element in which the number of choices does not depend on the state
  • the second action in which the number of choices depends on the state Separate into elements and, and determine options for the first action element according to the Actor-Critic method.
  • options are determined by another function.
  • the learning execution unit 11 the state-independent behavior element determination policy learning unit 12, the state value learning unit 13, the state-independent behavior element determination unit 14, the next state determination unit 15, and the action trial unit provided in the above-mentioned policy learning device.
  • At least one or more of the functions of the environment simulation unit 17, the first module 121, the second module 122, and the third module 123 are executed by an information processing device installed and connected to any place on the network. That is, it may be executed by so-called cloud computing.
  • Non-temporary computer-readable media include various types of tangible storage media.
  • Examples of non-temporary computer-readable media include magnetic recording media (eg, flexible disks, magnetic tapes, hard disk drives), magneto-optical recording media (eg, magneto-optical disks), CD-ROMs (Read Only Memory), CD-Rs, It includes a CD-R / W and a semiconductor memory (for example, a mask ROM, a PROM (Programmable ROM), an EPROM (Erasable PROM), a flash ROM, and a RAM (RandomAccessMemory)).
  • a semiconductor memory for example, a mask ROM, a PROM (Programmable ROM), an EPROM (Erasable PROM), a flash ROM, and a RAM (RandomAccessMemory)
  • the program may also be supplied to the computer by various types of temporary computer readable medium.
  • temporary computer-readable media include electrical, optical, and electromagnetic waves.
  • the temporary computer-readable medium can supply the program to the computer via a wired communication path such as an electric wire and an optical fiber, or a wireless communication path.
  • Training data is generated based on the information used in determining the other states, and the model is further trained using the training data.
  • Policy learning method. (Appendix 2) The policy learning method described in Appendix 1 Using the second model being trained, the value of the other state is calculated. The second model is further trained using the training data. Policy learning method. (Appendix 3) The policy learning method described in Appendix 1 or 2, Determines the other state in which the sum of the reward and the value is maximized. Policy learning method.
  • Appendix 4 The policy learning method described in any of Appendix 1 to 3, Generates the learning data in which at least the state, the selected first action element, and the maximum value of the sum of the reward and the value calculated when determining the other state are associated with each other. Policy learning method. (Appendix 5) The policy learning method described in any of Appendix 1 to 4, When the environment is a graph rewriting system that transitions to another graph in the other state by rewriting the graph in the other state.
  • the first action element is a graph rewriting rule representing a rule for rewriting the graph
  • the second action element is a rule application place representing a place in the graph to which the graph rewriting rule is applied. Policy learning method.
  • the policy learning method described in Appendix 7 The second means calculates the value of the other state using the second model being trained.
  • the third means further learns the second model using the training data.
  • Policy learning device. (Appendix 9) The policy learning device according to Appendix 7 or 8.
  • the second means determines the other state in which the sum of the reward and the value is maximized.
  • Policy learning device. (Appendix 10) The policy learning device according to any one of Appendix 7 to 9.
  • the third means at least associates the state with the selected first action element and the maximum value of the sum of the reward and the value calculated in determining the other state. Generate training data, Policy learning device. (Appendix 11) The policy learning device according to any one of Appendix 7 to 10. When the environment is a graph rewriting system that transitions to another graph in the other state by rewriting the graph in the other state.
  • the first action element is a graph rewriting rule representing a rule for rewriting the graph
  • the second action element is a rule application place representing a place in the graph to which the graph rewriting rule is applied.
  • Policy learning device (Appendix 12) The policy learning device according to Appendix 11, The first means calculates the selection rate for each option of the graph rewriting rule for the graph using the model, selects the graph rewriting rule based on the selection rate, and selects the graph rewriting rule. The second means calculates the reward and the value for the other state in which the selected graph rewriting rule is applied for each place where the rule is applied in the graph, and is based on the reward and the value. To determine the other state, Policy learning device.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本発明の学習方策装置100は、所定の環境における所定の状態が他の状態に遷移する際に選択される行動要素として、行動要素の選択肢の数が状態に依存しない第一の行動要素と、行動要素の選択肢の数が状態に依存する第二の行動要素と、がある場合に、学習中のモデルを用いて状態に対する第一の行動要素の選択肢毎の選択率を算出し、選択率に基づいて第一の行動要素を選択する第一手段121と、選択した第一の行動要素を適用し、第二の行動要素をさらに選択肢として適用した選択肢毎の他の状態について、他の状態に遷移させることによる報酬と他の状態の価値とを算出して、報酬と価値とに基づいて他の状態を決定する第二手段122と、他の状態を決定する際に用いた情報に基づいて学習データを生成し、当該学習データを用いてモデルをさらに学習する第三手段123と、を備える。

Description

方策学習方法、方策学習装置、プログラム
 本発明は、強化学習を行う方策学習方法、方策学習装置及びプログラムに関する。
 一般に、機械学習と称される技術によれば、具体的な処理の中身を定義するのではなく、サンプルデータの解析を行うことで、そのデータ中のパターンや関係性を抽出し、抽出した結果を用いて分析や認識、制御などを実現することができる。そのような技術の一例として、ニューラルネットワークは、近年のハードウェア性能の飛躍的な向上に伴い、様々な問題において人智を超えた能力を発揮した実績を残していることで注目されている。例えば、囲碁のトッププロとの対局で勝利を収めた囲碁プログラムが知られている。
 機械学習技術のジャンルの一つとして、強化学習がある。強化学習は、ある環境内におけるエージェント(「動作主体」を指す)がどのような行動をとるべきか決定する問題について扱う。そして、エージェントが何らかの行動を実行すると、環境の状態が変化し、環境はエージェントの行動に対していくらかの報酬を与える。エージェントは、長期的に得られる報酬が最大となる行動方策(「環境の状態に応じたエージェントの行動パターンないしその確率分布」を指す)の獲得を目指し、環境内で行動を試行して学習用データを収集する。このように、学習用データがあらかじめ提供されず、エージェント自ら収集する点と、短期的ではなく長期的な利益の最大化を目指す点が、強化学習の特徴である。
 ここで、非特許文献1で開示されるActor-Critic手法は、強化学習手法の一つである。Actor-Critic手法では、エージェントの行動方策を学習する機構であるActorと、環境の状態価値を学習する機構であるCriticを併用して学習を行う手法である。Criticが学習する状態価値は、Actorが学習中の行動方策の評価に用いられる。具体的には、状態S1から実行した行動A1の価値の見込みが、Criticによる状態S1の価値の見込みよりも高い場合、行動A1の価値が高いと判断し、Actorは状態S1から行動A1を実行する確率を上げるよう学習する。また、逆に、状態S1から実行した行動A1の価値の見込みが、Criticによる状態S1の価値の見込みよりも低い場合、行動A1の価値が低いと判断し、Actorは状態S1から行動A1を実行する確率を下げるよう学習する。強化学習手法の中でもActor-Critic手法は精度が高く、特にニューラルネットワークで学習を行う手法は、近年ではスタンダードな手法として知られている。
Richard S. Sutton and Andrew G. Barto: "Reinforcement Learning: An Introduction", MIT Press, 1998.
 しかしながら、非特許文献1に開示される技術であるActor-Critic手法では、エージェントが実行可能な行動の種類の数が環境の状態毎に異なるという問題に対しては、行動の選択率を学習するニューラルネットワークを直接的には構築できず、適用が困難である、という課題が生じる。
 ここで、上記課題について詳しく説明する。まず、ニューラルネットワークは、その性質上、構造を決定してしまうと出力できる値の数も決まってしまう。具体的には、ニューラルネットワークの出力層のユニットの数だけ値が出力できる。そして、エージェントが実行可能な行動の種類の数が環境の状態に依存せず一定の場合、ニューラルネットワークの出力層のユニット数を、エージェントが実行可能な行動の種類の数と一致させる。これにより、ニューラルネットワークの出力を、環境の状態に応じたエージェントの行動の確率分布に対応させることができ、Actor-Critic手法においてエージェントの行動の好適な確率分布を学習すると共にその確率分布を出力する役割を担うActorを実現できる。
 ところが、エージェントが実行可能な行動の種類の数が環境の状態毎に異なる問題に対しては、ニューラルネットワークの出力層のユニット数は固定されてしまっていることに起因して、状態毎に要素(行動の種類に対応)の数が異なる確率分布を出力することはできない。その結果、一般に、エージェントが実行可能な行動の種類の数が環境の状態毎に異なる問題に対して、ニューラルネットワークを用いたActor-Critic手法を適用することは困難である。
 このため、本発明の目的の1つは、上述した課題である、エージェントが実行可能な行動の種類の数が環境の状態毎に異なる問題では、強化学習を行うことが困難である、ことを解決することができる方策学習方法を提供することにある。
 本発明の一形態である方策学習方法は、
 所定の環境における所定の状態が他の状態に遷移する際に選択される行動要素として、当該行動要素の選択肢の数が前記状態に依存しない第一の行動要素と、当該行動要素の選択肢の数が前記状態に依存する第二の行動要素と、がある場合に、
 学習中のモデルを用いて前記状態に対する前記第一の行動要素の選択肢毎の選択率を算出し、当該選択率に基づいて前記第一の行動要素を選択し、
 選択した前記第一の行動要素を適用し、前記第二の行動要素をさらに選択肢として適用した選択肢毎の前記他の状態について、当該他の状態に遷移させることによる報酬と当該他の状態の価値とを算出して、前記報酬と前記価値とに基づいて前記他の状態を決定し、
 前記他の状態を決定する際に用いた情報に基づいて学習データを生成し、当該学習データを用いて前記モデルをさらに学習する、
という構成をとる。
 また、本発明の一形態である方策学習装置は、
 所定の環境における所定の状態が他の状態に遷移する際に選択される行動要素として、当該行動要素の選択肢の数が前記状態に依存しない第一の行動要素と、当該行動要素の選択肢の数が前記状態に依存する第二の行動要素と、がある場合に、
 学習中のモデルを用いて前記状態に対する前記第一の行動要素の選択肢毎の選択率を算出し、当該選択率に基づいて前記第一の行動要素を選択する第一モジュールと、
 選択した前記第一の行動要素を適用し、前記第二の行動要素をさらに選択肢として適用した選択肢毎の前記他の状態について、当該他の状態に遷移させることによる報酬と当該他の状態の価値とを算出して、前記報酬と前記価値とに基づいて前記他の状態を決定する第二モジュールと、
 前記他の状態を決定する際に用いた情報に基づいて学習データを生成し、当該学習データを用いて前記モデルをさらに学習する第三モジュールと、
を備えた、
という構成をとる。
 また、本発明の一形態であるプログラムは、
 所定の環境における所定の状態が他の状態に遷移する際に選択される行動要素として、当該行動要素の選択肢の数が前記状態に依存しない第一の行動要素と、当該行動要素の選択肢の数が前記状態に依存する第二の行動要素と、がある場合に、
 情報処理装置に、
 学習中のモデルを用いて前記状態に対する前記第一の行動要素の選択肢毎の選択率を算出し、当該選択率に基づいて前記第一の行動要素を選択する第一モジュールと、
 選択した前記第一の行動要素を適用し、前記第二の行動要素をさらに選択肢として適用した選択肢毎の前記他の状態について、当該他の状態に遷移させることによる報酬と当該他の状態の価値とを算出して、前記報酬と前記価値とに基づいて前記他の状態を決定する第二モジュールと、
 前記他の状態を決定する際に用いた情報に基づいて学習データを生成し、当該学習データを用いて前記モデルをさらに学習する第三モジュールと、
を実現させる、
という構成をとる。
 本発明は、以上のように構成されることにより、エージェントが実行可能な行動の種類の数が環境の状態毎に異なる問題であっても、強化学習を行うことができる。
本発明の第1の実施形態における方策学習装置の構成を示すブロック図である。 本発明の第1の実施形態における方策学習装置の動作を示すフロー図である。 本発明の第1の実施形態における方策学習装置による学習データ生成の動作を示すフロー図である。 本発明の第1の実施形態における方策額主装置による学習の動作を示すフロー図である。 本発明の第1の実施形態の具体例におけるグラフ書き換え系の書き換え規則の例を示す図である 本発明の第1の実施形態の具体例におけるグラフ書き換え系で書き換え後の状態が2種類ある状態の書き換え前の例を示す図である。 本発明の第1の実施形態の具体例におけるグラフ書き換え系で書き換え後の状態が2種類ある状態の書き換え後の例を示す図である。 本発明の第1の実施形態の具体例におけるグラフ書き換え系で書き換え後の状態が3種類ある状態の書き換え前の例を示す図である。 本発明の第1の実施形態の具体例におけるグラフ書き換え系で書き換え後の状態が3種類ある状態の書き換え後の例を示す図である。 本発明の第1の実施形態の具体例に用いたグラフ書き換え系の学習を実施するグラフ書き換え方策学習装置の構成を示すブロック図である。 本発明の実施形態2における方策学習装置のハードウェア構成を示すブロック図である。 本発明の実施形態2における方策学習装置の構成を示すブロック図である。 本発明の実施形態2における方策学習装置の動作を示すフローチャートである。
 <実施形態1>
 本発明の第1の実施形態を、図1乃至図10を参照して説明する。図1は、方策学習装置の構成を説明するための図であり、図2乃至図4は、方策学習装置の処理動作を説明するための図である。また、図5乃至図10は、方策学習装置の具体例を説明するための図である。
 [構成]
 以下に開示する方策学習装置は、ある環境(所定の環境)においてエージェントが行動(行動要素)を実行することで、現在の状態(所定の状態)を次の状態(他の状態)に遷移させる際に、その価値を最大化するよう学習する強化学習を行うものである。なお、以下では、所定の環境における所定の状態が他の状態に遷移する際に選択される行動要素として、当該行動要素の選択肢の数が状態に依存しない行動要素(第一の行動要素)と、当該行動要素の選択肢の数が状態に依存する行動要素(第二の行動要素)と、がある場合を説明する。
 方策学習装置1は、演算装置と記憶装置とを備えた1台又は複数台の情報処理装置にて構成される。そして、方策学習装置1は、図1に示すように、学習遂行部11と、状態非依存行動要素決定方策学習部12と、状態価値学習部13と、状態非依存行動要素決定部14と、次状態決定部15と、行動試行部16と、環境模擬部17と、を備える。なお、学習遂行部11と、状態非依存行動要素決定方策学習部12と、状態価値学習部13と、状態非依存行動要素決定部14と、次状態決定部15と、行動試行部16と、環境模擬部17と、の各機能は、演算装置が記憶装置に格納された各機能を実現するためのプログラムを実行することにより実現することができる。そして、これらの各部11~17は、それぞれ概略次のような機能を有する。
 上記学習遂行部11(第三モジュール)は、状態非依存行動要素決定部14と、次状態決定部15と、行動試行部16と、環境模擬部17とを統括して、学習に必要なデータを集め、状態非依存行動要素決定方策学習部12と、状態価値学習部13とを統括して学習を行う。具体的に、学習遂行部11は、後述するように次状態決定部15にて現在状態から次状態を決定する際に用いた情報に基づいて学習データを生成する。そして、学習遂行部11は、状態非依存行動要素決定方策学習部12に学習データを用いて学習させ、また、状態価値学習部13に学習データを用いて学習させる。
 上記状態非依存行動要素決定方策学習部12(第一モジュール、第三モジュール)は、選択肢の数が状態に依存しない行動要素の選択肢について、環境の個々の状態における好適な選択率を学習する。つまり、状態非依存行動要素決定方策学習部12は、上述した学習遂行部11にて生成された学習データを用いて、選択肢の数が状態に依存しない行動要素の選択肢毎の選択率を算出するモデルを生成する。また、状態非依存行動要素決定方策学習部12は、生成したモデルに現在状態を入力して、選択肢の数が状態に依存しない行動要素の選択肢毎の選択率を出力する。
 上記状態価値学習部13(第二モジュール、第三モジュール)は、環境の個々の状態の価値を学習する。つまり、状態価値学習部13は、上述した学習遂行部11にて生成された学習データを用いて、現在状態から遷移した次状態の価値の値を算出するモデル(第二のモデル)を生成する。また、状態価値学習部13は、生成したモデルに次状態を入力して、次状態の価値の値を出力する。
 上記状態非依存行動要素決定部14(第一モジュール)は、選択肢の数が状態に依存しない行動要素の選択を、状態非依存行動要素決定方策学習部12の出力に応じて決定する。具体的に、状態非依存行動要素決定部14は、状態非依存行動要素決定方策学習部12から出力された、選択肢の数が状態に依存しない行動要素の選択肢毎の選択率を受け取り、かかる選択率に基づいて、行動要素の選択を行う。
 上記行動試行部16(第二モジュール)は、現在状態から実行可能な行動のうち、選択肢の数が状態に依存しない行動要素の内容が、状態非依存行動要素決定部14が選択したものである行動を試行する。なお、現在状態から実行可能な行動とは、行動要素の選択肢の数が状態に依存しない行動要素を選択肢として適用し、さらに、行動要素の選択肢の数が状態に依存する行動要素を選択肢として適用した行動となる。つまり、行動試行部16は、換言すると、状態非依存行動要素決定部14にて選択された行動要素を適用すると共に、行動要素の選択肢の数が状態に依存する行動要素をさらに選択肢として適用した選択肢毎の行動を列挙して、現在状態と列挙した行動内容を環境模擬部17に渡す。
 上記環境模擬部17(第二モジュール)は、行動試行部16が試行した行動つまり列挙された行動に対する報酬を出力するとともに、環境を現在状態から行動を行った後の次状態に変化させて、次状態決定部15に渡す。
 上記次状態決定部15(第二モジュール)は、環境模擬部17から渡された次状態の候補の中から、状態価値学習部13の出力と、環境模擬部17から渡された返す報酬と、に応じて次状態を決定する。具体的には、次状態決定部15は、現在状態から次状態への行動に対する報酬と、次状態の価値と、を足した値を算出し、かかる値が最大の値となる次状態を、実際の次状態として決定する。
 [動作]
 次に、図2を参照して、上述した方策学習装置1の全体の動作について説明する。まず、方策学習装置1は、装置全体の入力として少なくとも環境の初期状態を受け取り、当該初期状態を環境の現在状態とする(ステップS11)。続いて、方策学習装置1の学習遂行部11が、学習用データを生成して(ステップS12)、学習を行う(ステップS13)。そして、学習遂行部11は、上記ステップS12~S13の動作を規定の回数繰り返す(ステップS14)。なお、上記既定の回数は、方策学習装置1の入力として与えられてもよいし、方策学習装置1が固有に持つ値を用いてもよいし、その他の方法で決められたものでもよい。最後に、学習遂行部11は、学習済みモデルの出力を行い、方策学習装置1に記憶する(ステップS15)。
 次に、上記ステップS12、つまり、学習データを生成する動作について、図3を参照し、より詳細に説明する。状態非依存行動要素決定部14は、環境の現在状態を、状態非依存行動要素決定方策学習部12に入力できるデータ形式に変換した状態データを生成し、状態非依存行動要素決定方策学習部12に入力する(ステップS21)。ここで、状態非依存行動要素決定方策学習部12に入力できるデータ形式とは、状態非依存行動要素決定方策学習部12が学習のバックエンドとして使用するTensorFlow等のフレームワークが受け付けることのできる入力形式のことであり、一般的にはベクトル形式であるが、これに限らない。また、状態非依存行動要素決定方策学習部12は必ずしもバックエンドとしてTensorFlow等のフレームワークを使用する必要はなく、独自の実装を用いてもよい。
 続いて、状態非依存行動要素決定方策学習部12は、入力された状態データが示す状態からエージェントが行うべき行動の内容を構成する行動要素のうち、選択肢の数が状態に依存しない行動要素について選択肢の選択率を算出し、算出結果を状態非依存行動要素決定部14に返す(ステップS22)。そして、状態非依存行動要素決定部14は、選択率に基づき、選択肢の数が状態に依存しない行動要素の選択肢を選択し、その選択結果を行動試行部16に渡す(ステップS23)。このとき、状態非依存行動要素決定部14は、確率通りに選択してもよいし、最も確率の高い選択肢を決定的に選択してもよい。
 続いて、行動試行部16は、現在状態から実行可能な行動のうち、選択肢の数が状態に依存しない行動要素の内容が、状態非依存行動要素決定部14で選択されたものである行動を列挙する(ステップS24)。このとき、現在状態から実行可能な行動とは、選択肢の数が状態に依存する行動要素と依存しない行動要素との選択肢毎によりそれぞれ実行されうる行動であり、このうち、選択肢の数が状態に依存しない行動要素の内容が、状態非依存行動要素決定部14で選択されたものである行動を列挙する。そして、行動試行部16は、列挙した行動をそれぞれ現在状態から試行するため、現在状態と列挙した行動内容とを環境模擬部17に渡す(ステップS125)。環境模擬部17は、行動した後の状態(以下、次状態)と、行動への報酬と、をそれぞれ算出して返す(ステップS26)。
 続いて、次状態決定部15は、各次状態を状態価値学習部13に入力できるデータ形式に変換した状態データを生成し、生成した状態データを状態価値学習部13に入力する(ステップS27)。ここで、状態価値学習部13に入力できるデータ形式とは、状態価値学習部13が学習のバックエンドとして使用するTensorFlow等のフレームワークが受け付けることのできる入力形式のことであり、一般的にはベクトル形式であるが、これに限らない。また、状態価値学習部13は必ずしもバックエンドとしてTensorFlow等のフレームワークを使用する必要はなく、独自の実装を用いてもよい。
 そして、状態価値学習部13は、各次状態の価値の値を算出し、次状態決定部15に返す(ステップS28)。次状態決定部15は、各次状態について、次状態へ遷移した際に実行した行動への報酬と、次状態の価値と、を足した値を算出し、最大の値となる次状態を実際の次状態として決定する(ステップS29)。
 続いて、学習遂行部11は、次状態決定部15で算出した報酬と価値とを足した値の最大の値を、現在状態から実行した行動の価値とし、現在状態と、現在状態から実行した行動の価値と、状態非依存行動要素決定部14にて選択した行動要素の選択肢と、をセットにしたデータを、学習用データとして保存する。そして、学習遂行部11は、現在状態を次状態決定部15で決定した実際の次状態とする(ステップS30)。
 その後、方策学習装置1は、現在状態が終了状態でない限り、上述したステップS21~S30を繰り返す(ステップS31)。なお、上記終了状態とは、その状態から実行できる行動が存在しない状態のことである。現在状態が終了状態である場合、現在状態をステップS11で入力された初期状態とする(ステップS32)。そして、方策学習装置1は、既定の回数、ステップS21~S32を繰り返す(ステップS33)。なお、上記既定の回数は、方策学習装置1の入力として与えられてもよいし、方策学習装置1が固有に持つ値を用いてもよいし、その他の方法で決められたものでもよい。
 次に、上述したステップS13、つまり、学習の動作について、図4を参照してより詳細に説明する。まず、状態非依存行動要素決定方策学習部12は、上述したように生成された学習用データを用いて学習を行う(ステップS41)。このとき、状態非依存行動要素決定方策学習部12による学習対象は、ある状態のデータが入力された際に算出する、ある状態から実行可能な行動のうち選択肢の数が状態に依存しない行動要素における、選択肢の好適な選択率である。ここではActor-Criticにおいて方策を学習する際に典型的に使用される方策勾配法を用いてニューラルネットワークで学習するケースについて説明する。ただし、実現方法はこれに限らない。
 方策勾配法では、損失関数を「logπ(s, a)×(Qπ(s, a)-Vπ(s))」としてニューラルネットワークの更新を行う。ここで、上記「π(s, a)」は方策関数であり、状態がsである場合に行動aを選択すべき確率を表す。本実施形態における「π(s, a)」の値は、個々の学習用データに含まれる状態sを状態非依存行動要素決定方策学習部12の入力形式に変換し、状態非依存行動要素決定方策学習部12に入力すると算出される確率ベクトルから、学習用データに含まれる行動要素の選択肢aに対応する実行確率の値を抽出して求める。上記「Qπ(s, a)」は行動価値関数であり、方策関数πに従って行動を行う場合における、状態sから行動aを行う際の価値を表す。本実施形態における「Qπ(s, a)」の値は、個々の学習用データに含まれる、状態から実行した行動の価値を用いる。上記「Vπ(s)」は状態価値関数であり、方策関数πに従って行動を行う場合における、状態sの価値を表す。本実施形態における「Vπ(s)」の値は、個々の学習用データに含まれる状態sを状態価値学習部13の入力形式に変換し、状態価値学習部13に入力すると算出される状態価値の値を用いる。
 そして、個々の学習用データに含まれる状態sを状態非依存行動要素決定方策学習部12の入力形式に変換したものを入力とし、当該入力に対する状態非依存行動要素決定方策学習部12の出力と、個々の学習用データと、を用いて、上述した損失関数に基づき状態非依存行動要素決定方策学習部12の学習、つまり状態非依存行動要素決定方策学習部12が保持するニューラルネットワークの各重み付けの値の更新を行う。学習はTensorFlow等のフレームワークを使用するのが典型的であり本実施形態もその方法で実現可能だが、この方法に限らない。
 なお、上述した状態非依存行動要素決定方策学習部12の学習(ステップS41)は、個々の学習データ毎に個別に行ってもよいし、適当なサイズ毎に行ってもよいし、全てまとめて行ってもよい。そして、状態非依存行動要素決定方策学習部12は、全ての学習データの学習を行うまで、ステップS41を繰り返す(ステップS42)。
 また、状態価値学習部13は、上述した学習用データを用いて学習を行う(ステップS43)。このとき、状態価値学習部13による学習対象は、ある状態のデータが入力された際に算出する、当該状態の価値である。ここで、状態価値の学習では、損失関数を「(Qπ(s, a)-Vπ(s))^2」としてニューラルネットワークの更新を行う。なお、「Qπ(s, a)」と「Vπ(s)」の定義および値の算出方法は前述した通りである。ここで、記号“^”は、べき乗を表す。
 そして、個々の学習用データに含まれる状態sを状態価値学習部13の入力形式に変換したものを入力とし、当該入力に対する状態価値学習部13の出力と、個々の学習用データと、を用いて、上述した損失関数に基づき状態価値学習部13の学習、つまり状態価値学習部13が保持するニューラルネットワークの各重み付けの値の更新を行う。学習はTensorFlow等のフレームワークを使用するのが典型的であり本実施形態もその方法で実現可能だが、この方法に限らない。なお、上述した状態価値学習部13の学習(ステップS43)は、個々の学習データ毎に個別に行ってもよいし、適当なサイズ毎に行ってもよいし、全てまとめて行ってもよい。そして、状態価値学習部13は、全ての学習データの学習を行うまで、ステップS43を繰り返す(ステップS44)。
 [具体例]
 次に、第1の実施形態の具体例について説明する。ここでは特に、エージェントが実行可能な行動の内容を構成する行動要素について、行動要素の選択肢の種類の数が環境の状態に依存する行動要素と、行動要素の選択肢の種類の数が環境の状態に依存しない行動要素と、そのような行動要素をエージェントの行動要素としてもつ問題と、の具体例を例示する。
 上記問題として、グラフ書き換え系を例に説明する。グラフ書き換え系は、「グラフ」を「状態」、「グラフの書き換え」を「遷移」とみなした状態遷移系である。従って、グラフ書き換え系を定義する「状態の集合」は「グラフの集合」、「遷移の集合」は「グラフ書き換え規則の集合」、として定義される。そして、グラフ書き換え系に強化学習を適用する場合、環境の「状態」は「グラフ」に対応し、エージェントが実行可能な「行動」は、現在の状態であるグラフに適用可能な「グラフ書き換え」に対応する。
 ここで、エージェントが実行可能な行動であるグラフ書き換えは、状態に依存する。なぜなら、個々のグラフ書き換え規則は、グラフ内の複数の場所に適用しうるためである。例えば、環境(グラフ書き換え系)が図5に示すような書き換え規則を持つとき、現在の状態であるグラフが図6に示すものである場合には、1回の遷移(グラフ書き換え)後の状態は、図7に示す2種類のいずれかである。一方、現在の状態であるグラフが図8に示すものである場合には、1回の遷移(グラフ書き換え)後の状態は、図9に示す3種類のいずれかである。このように、グラフ書き換え系に強化学習を適用する場合において、エージェントが実行可能な行動の種類の数は、状態に依存して変化する。すると、このままでは上述した理由でニューラルネットワークを用いたActor-Critic手法を適用できない。
 このため、エージェントが実行する行動を、選択肢の種類の数が状態に依存しない行動要素と、選択肢の種類の数が状態に依存する行動要素と、に分離する。グラフ書き換え系の例では、選択肢の種類の数が状態に依存しない行動要素(第一の行動要素)は、「グラフ書き換え規則」の種類であり、選択肢の種類の数が状態に依存する行動要素(第二の行動要素)は、グラフ書き換え規則を適用する「グラフ中の場所(規則適用場所)」である。「グラフ書き換え規則」の種類の選択肢とは、例えば図5に示すものの場合は、「規則1」と「規則2」であり、この数は状態に依存しない。また、グラフ書き換え規則を適用する「グラフ中の場所」の選択肢とは、例えば図6~7に示すものの場合は、「場所:左」と「場所:右」であり、図8~9に示すものの場合は、「場所:左」と「場所:中央」と「場所:右」である。この選択肢の数は状態に依存する。
 そして、上述した方策学習装置1をグラフ書き換え系の強化学習に適用する場合、ある状態からエージェントが行動を実行する際に、まず、状態非依存行動要素決定方策学習部12が、どの種類のグラフ書き換え規則を選択すべきかの確率分布(選択率)を算出する(図3のステップS22に対応)。そして、状態非依存行動要素決定方策学習部12が出力したグラフ書き換え規則の確率分布に応じて、状態非依存行動要素決定部14が特定の種類のグラフ書き換え規則を選択する(図3のステップS23に対応)。
 その後、次状態決定部15が、選択された特定の種類のグラフ書き換え規則により書き換えられた実行可能な各書き換え後グラフのうち、どれを次の状態のグラフとするかを決定する(図3のステップS29に対応)。このとき、行動試行部16が、選択されたグラフ書き換え規則を適用可能なグラフ中の各場所に実際に適用し、グラフを書き換えた後のグラフをそれぞれ列挙する(図3のステップS24に対応)。続いて、環境模擬部17が、グラフ書き換えに対する報酬の値を算出し、状態価値学習部13が書き換え後のグラフの価値の値を算出する(図3のステップS26,S28に対応)。そして、次状態決定部15が、報酬と価値の合計が最大になるグラフを選択する(図3のステップS29に対応)。
 なお、上記の具体例では、上述した図1に示す方策学習装置1を用いて強化学習を行う場合を説明したが、方策学習装置は、図10に示すグラフ書き換え方策学習装置2の構成であってもよい。ここで、グラフ書き換え方策学習装置2は、グラフ書き換え系学習遂行部21と、グラフ書き換え規則決定方策学習部22と、グラフ価値学習部23と、グラフ書き換え規則決定部24と、書き換え後グラフ決定部25と、グラフ書き換え試行部26と、グラフ書き換え系環境模擬部27と、を備える。但し、これら各部21~27のそれぞれは、上述した方策学習装置1が備える学習遂行部11、状態非依存行動要素決定方策学習部12、状態価値学習部13、状態非依存行動要素決定部14、次状態決定部15、行動試行部16、環境模擬部17、と同等の機能を有する。
 以上のように、上述した第1の実施形態およびその具体例では、行動の内容を決定する構成要素である行動要素について、選択肢の数が状態に依存する行動要素(第二の行動要素)と、選択肢の数が状態に依存しない行動要素(第一の行動要素)と、に分離し、まず、選択肢の数が状態に依存しない行動要素(第一の行動要素)のみについて従来的なActor-Critic手法に則って選択肢を決定する。そのうえで、選択肢の数が状態に依存する行動要素(第二の行動要素)については、別の機能により選択肢を決定している。このようにすることで、エージェントが実行可能な行動の種類の数が環境の状態毎に異なる問題においても、出力層のユニット数が固定されたニューラルネットワークでの学習が可能になる。これにより、上述した課題である、エージェントが実行可能な行動の種類の数が環境の状態毎に異なる問題に対し、行動の選択率を学習するニューラルネットを直接的には構築できないという問題を解決することができる。その結果、本発明では、ニューラルネットワークを用いたActor-Critic手法の適用が困難な問題に対しても、その適用が可能になる。
 なお、上述した第1の実施形態およびその具体例を用いて例示的に説明した本発明は、グラフ書き換え系などに代表される、エージェントが実行可能な行動の種類の数が環境の状態毎に異なる問題に帰着される知的作業(例えばITシステムの設計工程など)の、効率的な手順の獲得を目的とした強化学習に好適に適用可能である。
 <実施形態2>
 次に、本発明の第2の実施形態を、図11乃至図13を参照して説明する。図11乃至図12は、実施形態2における方策学習装置の構成を示すブロック図であり、図13は、方策学習装置の動作を示すフローチャートである。なお、本実施形態では、上述した実施形態で説明した方策学習装置及び当該方策学習装置による方策学習方法の構成の概略を示している。
 まず、図11を参照して、本実施形態における方策学習装置100のハードウェア構成を説明する。方策学習装置100は、一般的な1台又は複数台の情報処理装置にて構成されており、一例として、以下のようなハードウェア構成を装備している。
 ・CPU(Central Processing Unit)101(演算装置)
 ・ROM(Read Only Memory)102(記憶装置)
 ・RAM(Random Access Memory)103(記憶装置)
 ・RAM103にロードされるプログラム群104
 ・プログラム群104を格納する記憶装置105
 ・情報処理装置外部の記憶媒体110の読み書きを行うドライブ装置106
 ・情報処理装置外部の通信ネットワーク111と接続する通信インタフェース107
 ・データの入出力を行う入出力インタフェース108
 ・各構成要素を接続するバス109
 そして、方策学習装置100は、プログラム群104をCPU101が取得して当該CPU101が実行することで、図12に示す第一モジュール121、第二モジュール122、第三モジュール123、を構築して装備することができる。なお、プログラム群104は、例えば、予め記憶装置105やROM102に格納されており、必要に応じてCPU101がRAM103にロードして実行する。また、プログラム群104は、通信ネットワーク111を介してCPU101に供給されてもよいし、予め記憶媒体110に格納されており、ドライブ装置106が該プログラムを読み出してCPU101に供給してもよい。但し、上述した第一モジュール121、第二モジュール122、第三モジュール123は、これらのモジュールを実現可能な専用の電子回路で構築されるものであってもよい。
 なお、図11は、方策学習装置100である情報処理装置のハードウェア構成の一例を示しており、情報処理装置のハードウェア構成は上述した場合に限定されない。例えば、情報処理装置は、ドライブ装置106を有さないなど、上述した構成の一部から構成されてもよい。
 そして、方策学習装置100は、上述したようにプログラムによって構築された第一モジュール121、第二モジュール122、第三モジュール123の機能により、図13のフローチャートに示す方策学習方法を実行する。
 図13に示すように、方策学習装置100は、
 所定の環境における所定の状態が他の状態に遷移する際に選択される行動要素として、当該行動要素の選択肢の数が前記状態に依存しない第一の行動要素と、当該行動要素の選択肢の数が前記状態に依存する第二の行動要素と、がある場合に、
 学習中のモデルを用いて前記状態に対する前記第一の行動要素の選択肢毎の選択率を算出し、当該選択率に基づいて前記第一の行動要素を選択し(ステップS101)、
 選択した前記第一の行動要素を適用し、前記第二の行動要素をさらに選択肢として適用した選択肢毎の前記他の状態について、当該他の状態に遷移させることによる報酬と当該他の状態の価値とを算出して、前記報酬と前記価値とに基づいて前記他の状態を決定し(ステップS102)、
 前記他の状態を決定する際に用いた情報に基づいて学習データを生成し、当該学習データを用いて前記モデルをさらに学習する(ステップS103)。
 上述した実施形態2によれば、行動の内容を決定する構成要素である行動要素について、選択肢の数が状態に依存しない第一の行動要素と、選択肢の数が状態に依存する第二の行動要素と、に分離し、第一の行動要素については、Actor-Critic手法に則って選択肢を決定する。そのうえで、第二の行動要素については、別の機能により選択肢を決定している。このようにすることで、エージェントが実行可能な行動の種類の数が環境の状態毎に異なる問題においても、出力層のユニット数が固定されたニューラルネットワークでの学習が可能になる。これにより、上述した課題である、エージェントが実行可能な行動の種類の数が環境の状態毎に異なる問題に対し、行動の選択率を学習するニューラルネットを直接的には構築できないという問題を解決することができる。
 以上、上記実施形態等を参照して本願発明を説明したが、本願発明は、上述した実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明の範囲内で当業者が理解しうる様々な変更をすることができる。また、上述した方策学習装置が備える、学習遂行部11、状態非依存行動要素決定方策学習部12、状態価値学習部13、状態非依存行動要素決定部14、次状態決定部15、行動試行部16、環境模擬部17や、第一モジュール121、第二モジュール122、第三モジュール123の機能のうちの少なくとも一以上の機能は、ネットワーク上のいかなる場所に設置され接続された情報処理装置で実行されてもよく、つまり、いわゆるクラウドコンピューティングで実行されてもよい。
 なお、上述したプログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば光磁気ディスク)、CD-ROM(Read Only Memory)、CD-R、CD-R/W、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(Random Access Memory))を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。
 <付記>
 上記実施形態の一部又は全部は、以下の付記のようにも記載されうる。以下、本発明における方策学習方法、方策学習装置、プログラムの構成の概略を説明する。但し、本発明は、以下の構成に限定されない。
(付記1)
 所定の環境における所定の状態が他の状態に遷移する際に選択される行動要素として、当該行動要素の選択肢の数が前記状態に依存しない第一の行動要素と、当該行動要素の選択肢の数が前記状態に依存する第二の行動要素と、がある場合に、
 学習中のモデルを用いて前記状態に対する前記第一の行動要素の選択肢毎の選択率を算出し、当該選択率に基づいて前記第一の行動要素を選択し、
 選択した前記第一の行動要素を適用し、前記第二の行動要素をさらに選択肢として適用した選択肢毎の前記他の状態について、当該他の状態に遷移させることによる報酬と当該他の状態の価値とを算出して、前記報酬と前記価値とに基づいて前記他の状態を決定し、
 前記他の状態を決定する際に用いた情報に基づいて学習データを生成し、当該学習データを用いて前記モデルをさらに学習する、
方策学習方法。
(付記2)
 付記1に記載の方策学習方法であって、
 学習中の第二のモデルを用いて前記他の状態の前記価値を算出し、
 前記学習データを用いて前記第二のモデルをさらに学習する、
方策学習方法。
(付記3)
 付記1又は2に記載の方策学習方法であって、
 前記報酬と前記価値との和が最大となる前記他の状態を決定する、
方策学習方法。
(付記4)
 付記1乃至3のいずれかに記載の方策学習方法であって、
 前記状態と、選択された前記第一の行動要素と、前記他の状態を決定する際に算出した前記報酬と前記価値との和の最大値と、を少なくとも関連付けた前記学習データを生成する、
方策学習方法。
(付記5)
 付記1乃至4のいずれかに記載の方策学習方法であって、
 前記環境が、前記状態であるグラフを書き換えることで前記他の状態である他のグラフに遷移するグラフ書き換え系である場合に、
 前記第一の行動要素が前記グラフを書き換える規則を表すグラフ書き換え規則であり、前記第二の行動要素が前記グラフ内における前記グラフ書き換え規則を適用する場所を表す規則適用場所である、
方策学習方法。
(付記6)
 付記5に記載の方策学習方法であって、
 前記モデルを用いて前記グラフに対する前記グラフ書き換え規則の選択肢毎の選択率を算出し、当該選択率に基づいて前記グラフ書き換え規則を選択し、
 選択した前記グラフ書き換え規則を前記グラフ内における前記規則適用場所毎に適用した前記他の状態について、前記報酬と前記価値とを算出して、前記報酬と前記価値とに基づいて前記他の状態を決定する、
方策学習方法。
(付記7)
 所定の環境における所定の状態が他の状態に遷移する際に選択される行動要素として、当該行動要素の選択肢の数が前記状態に依存しない第一の行動要素と、当該行動要素の選択肢の数が前記状態に依存する第二の行動要素と、がある場合に、
 学習中のモデルを用いて前記状態に対する前記第一の行動要素の選択肢毎の選択率を算出し、当該選択率に基づいて前記第一の行動要素を選択する第一手段と、
 選択した前記第一の行動要素を適用し、前記第二の行動要素をさらに選択肢として適用した選択肢毎の前記他の状態について、当該他の状態に遷移させることによる報酬と当該他の状態の価値とを算出して、前記報酬と前記価値とに基づいて前記他の状態を決定する第二手段と、
 前記他の状態を決定する際に用いた情報に基づいて学習データを生成し、当該学習データを用いて前記モデルをさらに学習する第三手段と、
を備えた方策学習装置。
(付記8)
 付記7に記載の方策学習方法であって、
 前記第二手段は、学習中の第二のモデルを用いて前記他の状態の前記価値を算出し、
 前記第三手段は、前記学習データを用いて前記第二のモデルをさらに学習する、
方策学習装置。
(付記9)
 付記7又は8に記載の方策学習装置であって、
 前記第二手段は、前記報酬と前記価値との和が最大となる前記他の状態を決定する、
方策学習装置。
(付記10)
 付記7乃至9のいずれかに記載の方策学習装置であって、
 前記第三手段は、前記状態と、選択された前記第一の行動要素と、前記他の状態を決定する際に算出した前記報酬と前記価値との和の最大値と、を少なくとも関連付けた前記学習データを生成する、
方策学習装置。
(付記11)
 付記7乃至10のいずれかに記載の方策学習装置であって、
 前記環境が、前記状態であるグラフを書き換えることで前記他の状態である他のグラフに遷移するグラフ書き換え系である場合に、
 前記第一の行動要素が前記グラフを書き換える規則を表すグラフ書き換え規則であり、前記第二の行動要素が前記グラフ内における前記グラフ書き換え規則を適用する場所を表す規則適用場所である、
方策学習装置。
(付記12)
 付記11に記載の方策学習装置であって、
 前記第一手段は、前記モデルを用いて前記グラフに対する前記グラフ書き換え規則の選択肢毎の選択率を算出し、当該選択率に基づいて前記グラフ書き換え規則を選択し、
 前記第二手段は、選択した前記グラフ書き換え規則を前記グラフ内における前記規則適用場所毎に適用した前記他の状態について、前記報酬と前記価値とを算出して、前記報酬と前記価値とに基づいて前記他の状態を決定する、
方策学習装置。
(付記13)
 所定の環境における所定の状態が他の状態に遷移する際に選択される行動要素として、当該行動要素の選択肢の数が前記状態に依存しない第一の行動要素と、当該行動要素の選択肢の数が前記状態に依存する第二の行動要素と、がある場合に、
 情報処理装置に、
 学習中のモデルを用いて前記状態に対する前記第一の行動要素の選択肢毎の選択率を算出し、当該選択率に基づいて前記第一の行動要素を選択する第一手段と、
 選択した前記第一の行動要素を適用し、前記第二の行動要素をさらに選択肢として適用した選択肢毎の前記他の状態について、当該他の状態に遷移させることによる報酬と当該他の状態の価値とを算出して、前記報酬と前記価値とに基づいて前記他の状態を決定する第二手段と、
 前記他の状態を決定する際に用いた情報に基づいて学習データを生成し、当該学習データを用いて前記モデルをさらに学習する第三手段と、
を実現させるためのプログラム。
1   方策学習装置
11  学習遂行部
12  状態非依存行動要素決定方策学習部
13  状態価値学習部
14  状態非依存行動要素決定部
15  次状態決定部
16  行動試行部
17  環境模擬部
2   グラフ書き換え方策学習装置
21  グラフ書き換え系学習遂行部
22  グラフ書き換え規則決定方策学習部
23  グラフ価値学習部
24  グラフ書き換え規則決定部
25  書き換え後グラフ決定部
26  グラフ書き換え試行部
27  グラフ書き換え系環境模擬部
100 方策学習装置
101 CPU
102 ROM
103 RAM
104 プログラム群
105 記憶装置
106 ドライブ装置
107 通信インタフェース
108 入出力インタフェース
109 バス
110 記憶媒体
111 通信ネットワーク
121 第一モジュール
122 第二モジュール
123 第三モジュール

Claims (13)

  1.  所定の環境における所定の状態が他の状態に遷移する際に選択される行動要素として、当該行動要素の選択肢の数が前記状態に依存しない第一の行動要素と、当該行動要素の選択肢の数が前記状態に依存する第二の行動要素と、がある場合に、
     学習中のモデルを用いて前記状態に対する前記第一の行動要素の選択肢毎の選択率を算出し、当該選択率に基づいて前記第一の行動要素を選択し、
     選択した前記第一の行動要素を適用し、前記第二の行動要素をさらに選択肢として適用した選択肢毎の前記他の状態について、当該他の状態に遷移させることによる報酬と当該他の状態の価値とを算出して、前記報酬と前記価値とに基づいて前記他の状態を決定し、
     前記他の状態を決定する際に用いた情報に基づいて学習データを生成し、当該学習データを用いて前記モデルをさらに学習する、
    方策学習方法。
  2.  請求項1に記載の方策学習方法であって、
     学習中の第二のモデルを用いて前記他の状態の前記価値を算出し、
     前記学習データを用いて前記第二のモデルをさらに学習する、
    方策学習方法。
  3.  請求項1又は2に記載の方策学習方法であって、
     前記報酬と前記価値との和が最大となる前記他の状態を決定する、
    方策学習方法。
  4.  請求項1乃至3のいずれかに記載の方策学習方法であって、
     前記状態と、選択された前記第一の行動要素と、前記他の状態を決定する際に算出した前記報酬と前記価値との和の最大値と、を少なくとも関連付けた前記学習データを生成する、
    方策学習方法。
  5.  請求項1乃至4のいずれかに記載の方策学習方法であって、
     前記環境が、前記状態であるグラフを書き換えることで前記他の状態である他のグラフに遷移するグラフ書き換え系である場合に、
     前記第一の行動要素が前記グラフを書き換える規則を表すグラフ書き換え規則であり、前記第二の行動要素が前記グラフ内における前記グラフ書き換え規則を適用する場所を表す規則適用場所である、
    方策学習方法。
  6.  請求項5に記載の方策学習方法であって、
     前記モデルを用いて前記グラフに対する前記グラフ書き換え規則の選択肢毎の選択率を算出し、当該選択率に基づいて前記グラフ書き換え規則を選択し、
     選択した前記グラフ書き換え規則を前記グラフ内における前記規則適用場所毎に適用した前記他の状態について、前記報酬と前記価値とを算出して、前記報酬と前記価値とに基づいて前記他の状態を決定する、
    方策学習方法。
  7.  所定の環境における所定の状態が他の状態に遷移する際に選択される行動要素として、当該行動要素の選択肢の数が前記状態に依存しない第一の行動要素と、当該行動要素の選択肢の数が前記状態に依存する第二の行動要素と、がある場合に、
     学習中のモデルを用いて前記状態に対する前記第一の行動要素の選択肢毎の選択率を算出し、当該選択率に基づいて前記第一の行動要素を選択する第一手段と、
     選択した前記第一の行動要素を適用し、前記第二の行動要素をさらに選択肢として適用した選択肢毎の前記他の状態について、当該他の状態に遷移させることによる報酬と当該他の状態の価値とを算出して、前記報酬と前記価値とに基づいて前記他の状態を決定する第二手段と、
     前記他の状態を決定する際に用いた情報に基づいて学習データを生成し、当該学習データを用いて前記モデルをさらに学習する第三手段と、
    を備えた方策学習装置。
  8.  請求項7に記載の方策学習装置であって、
     前記第二手段は、学習中の第二のモデルを用いて前記他の状態の前記価値を算出し、
     前記第三手段は、前記学習データを用いて前記第二のモデルをさらに学習する、
    方策学習装置。
  9.  請求項7又は8に記載の方策学習装置であって、
     前記第二手段は、前記報酬と前記価値との和が最大となる前記他の状態を決定する、
    方策学習装置。
  10.  請求項7乃至9のいずれかに記載の方策学習装置であって、
     前記第三手段は、前記状態と、選択された前記第一の行動要素と、前記他の状態を決定する際に算出した前記報酬と前記価値との和の最大値と、を少なくとも関連付けた前記学習データを生成する、
    方策学習装置。
  11.  請求項7乃至10のいずれかに記載の方策学習装置であって、
     前記環境が、前記状態であるグラフを書き換えることで前記他の状態である他のグラフに遷移するグラフ書き換え系である場合に、
     前記第一の行動要素が前記グラフを書き換える規則を表すグラフ書き換え規則であり、前記第二の行動要素が前記グラフ内における前記グラフ書き換え規則を適用する場所を表す規則適用場所である、
    方策学習装置。
  12.  請求項11に記載の方策学習装置であって、
     前記第一手段は、前記モデルを用いて前記グラフに対する前記グラフ書き換え規則の選択肢毎の選択率を算出し、当該選択率に基づいて前記グラフ書き換え規則を選択し、
     前記第二手段は、選択した前記グラフ書き換え規則を前記グラフ内における前記規則適用場所毎に適用した前記他の状態について、前記報酬と前記価値とを算出して、前記報酬と前記価値とに基づいて前記他の状態を決定する、
    方策学習装置。
  13.  所定の環境における所定の状態が他の状態に遷移する際に選択される行動要素として、当該行動要素の選択肢の数が前記状態に依存しない第一の行動要素と、当該行動要素の選択肢の数が前記状態に依存する第二の行動要素と、がある場合に、
     情報処理装置に、
     学習中のモデルを用いて前記状態に対する前記第一の行動要素の選択肢毎の選択率を算出し、当該選択率に基づいて前記第一の行動要素を選択する第一手段と、
     選択した前記第一の行動要素を適用し、前記第二の行動要素をさらに選択肢として適用した選択肢毎の前記他の状態について、当該他の状態に遷移させることによる報酬と当該他の状態の価値とを算出して、前記報酬と前記価値とに基づいて前記他の状態を決定する第二手段と、
     前記他の状態を決定する際に用いた情報に基づいて学習データを生成し、当該学習データを用いて前記モデルをさらに学習する第三手段と、
    を実現させるためのプログラムが格納されたコンピュータ読み取り可能な記録媒体。
     
PCT/JP2020/001500 2020-01-17 2020-01-17 方策学習方法、方策学習装置、プログラム WO2021144963A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
PCT/JP2020/001500 WO2021144963A1 (ja) 2020-01-17 2020-01-17 方策学習方法、方策学習装置、プログラム
JP2021570601A JP7347544B2 (ja) 2020-01-17 2020-01-17 方策学習方法、方策学習装置、プログラム
US17/790,574 US20230023899A1 (en) 2020-01-17 2020-01-17 Policy learning method, policy learning apparatus, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/001500 WO2021144963A1 (ja) 2020-01-17 2020-01-17 方策学習方法、方策学習装置、プログラム

Publications (1)

Publication Number Publication Date
WO2021144963A1 true WO2021144963A1 (ja) 2021-07-22

Family

ID=76864131

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/001500 WO2021144963A1 (ja) 2020-01-17 2020-01-17 方策学習方法、方策学習装置、プログラム

Country Status (3)

Country Link
US (1) US20230023899A1 (ja)
JP (1) JP7347544B2 (ja)
WO (1) WO2021144963A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114005014A (zh) * 2021-12-23 2022-02-01 杭州华鲤智能科技有限公司 一种模型训练、社交互动策略优化方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190357520A1 (en) * 2018-05-24 2019-11-28 Blue River Technology Inc. Boom sprayer including machine feedback control

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190357520A1 (en) * 2018-05-24 2019-11-28 Blue River Technology Inc. Boom sprayer including machine feedback control

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SEGLER, MARWIN H. S.: "World Programs for Model- Based Learning and Planning in Compositional State and Action Spaces", ARXIV:1912.13007V1, 30 December 2019 (2019-12-30), pages 1 - 6, XP081568056, Retrieved from the Internet <URL:https://arxiv.org/abs/1912.13007v1> [retrieved on 20200318] *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114005014A (zh) * 2021-12-23 2022-02-01 杭州华鲤智能科技有限公司 一种模型训练、社交互动策略优化方法
CN114005014B (zh) * 2021-12-23 2022-06-17 杭州华鲤智能科技有限公司 一种模型训练、社交互动策略优化方法

Also Published As

Publication number Publication date
JPWO2021144963A1 (ja) 2021-07-22
US20230023899A1 (en) 2023-01-26
JP7347544B2 (ja) 2023-09-20

Similar Documents

Publication Publication Date Title
JP6922945B2 (ja) 情報処理方法
CN110807515B (zh) 模型生成方法和装置
Su et al. Learning from real users: Rating dialogue success with neural networks for reinforcement learning in spoken dialogue systems
US20190019082A1 (en) Cooperative neural network reinforcement learning
CN102456167B (zh) 用于优化业务进程管理模型的方法和系统
US10528349B2 (en) Branch synthetic generation across multiple microarchitecture generations
US20210174246A1 (en) Adaptive learning system utilizing reinforcement learning to tune hyperparameters in machine learning techniques
Pinto et al. Strategic bidding in electricity markets: An agent-based simulator with game theory for scenario analysis
US20220180198A1 (en) Training method, storage medium, and training device
EP3382609A1 (en) Risk assessment method, risk assessment program, and information processing device
US20220245557A1 (en) Analyzing agent data and automatically delivering actions
WO2018143019A1 (ja) 情報処理装置、情報処理方法およびプログラム記録媒体
CN113902256A (zh) 训练标签预测模型的方法、标签预测方法和装置
WO2021144963A1 (ja) 方策学習方法、方策学習装置、プログラム
Lorig et al. Hypothesis-Driven Simulation Studies
US20220012641A1 (en) Determining and selecting prediction models over multiple points in time
Lin et al. Agent-based modeling of dynamic pricing scenarios to optimize multiple-generation product lines with cannibalization
US20230222385A1 (en) Evaluation method, evaluation apparatus, and non-transitory computer-readable recording medium storing evaluation program
JP2020181578A (ja) データ処理方法、装置、及び媒体
CN111612152A (zh) 一种量子计算机的模拟控制方法、系统及相关组件
US10810994B2 (en) Conversational optimization of cognitive models
JP2021521568A (ja) 適応コンピテンシーアセスメントモデルのためのシステム及び方法
US11481267B2 (en) Reinforcement learning approach to root cause analysis
JP2023157746A (ja) 推論装置、生成方法、および生成プログラム
US20220100254A1 (en) Configuring a power management system using reinforcement learning

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20914705

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021570601

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20914705

Country of ref document: EP

Kind code of ref document: A1